diff --git a/.vscode/settings.json b/.vscode/settings.json
index 87db21fb..1e3b2f16 100644
--- a/.vscode/settings.json
+++ b/.vscode/settings.json
@@ -74,5 +74,6 @@
         "xstddef": "cpp",
         "xtr1common": "cpp",
         "xtree": "cpp"
-    }
+    },
+    "git.ignoreLimitWarning": true
 }
\ No newline at end of file
diff --git a/Python/sklearn/sklearn-cookbook-zh/.gitignore b/Python/sklearn/sklearn-cookbook-zh/.gitignore
deleted file mode 100644
index aafa7683..00000000
--- a/Python/sklearn/sklearn-cookbook-zh/.gitignore
+++ /dev/null
@@ -1 +0,0 @@
-Thumbs.db
\ No newline at end of file
diff --git a/Python/sklearn/sklearn-cookbook-zh/LICENSE b/Python/sklearn/sklearn-cookbook-zh/LICENSE
deleted file mode 100644
index 53202f12..00000000
--- a/Python/sklearn/sklearn-cookbook-zh/LICENSE
+++ /dev/null
@@ -1,101 +0,0 @@
-Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)
-
-Copyright © 2020 ApacheCN(apachecn@163.com)
-
-By exercising the Licensed Rights (defined below), You accept and agree to be bound by the terms and conditions of this Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License ("Public License"). To the extent this Public License may be interpreted as a contract, You are granted the Licensed Rights in consideration of Your acceptance of these terms and conditions, and the Licensor grants You such rights in consideration of benefits the Licensor receives from making the Licensed Material available under these terms and conditions.
-
-Section 1 – Definitions.
-
-a.  Adapted Material means material subject to Copyright and Similar Rights that is derived from or based upon the Licensed Material and in which the Licensed Material is translated, altered, arranged, transformed, or otherwise modified in a manner requiring permission under the Copyright and Similar Rights held by the Licensor. For purposes of this Public License, where the Licensed Material is a musical work, performance, or sound recording, Adapted Material is always produced where the Licensed Material is synched in timed relation with a moving image.
-b.  Adapter's License means the license You apply to Your Copyright and Similar Rights in Your contributions to Adapted Material in accordance with the terms and conditions of this Public License.
-c.  BY-NC-SA Compatible License means a license listed at creativecommons.org/compatiblelicenses, approved by Creative Commons as essentially the equivalent of this Public License.
-d.  Copyright and Similar Rights means copyright and/or similar rights closely related to copyright including, without limitation, performance, broadcast, sound recording, and Sui Generis Database Rights, without regard to how the rights are labeled or categorized. For purposes of this Public License, the rights specified in Section 2(b)(1)-(2) are not Copyright and Similar Rights.
-e.  Effective Technological Measures means those measures that, in the absence of proper authority, may not be circumvented under laws fulfilling obligations under Article 11 of the WIPO Copyright Treaty adopted on December 20, 1996, and/or similar international agreements.
-f.  Exceptions and Limitations means fair use, fair dealing, and/or any other exception or limitation to Copyright and Similar Rights that applies to Your use of the Licensed Material.
-g.  License Elements means the license attributes listed in the name of a Creative Commons Public License. The License Elements of this Public License are Attribution, NonCommercial, and ShareAlike.
-h.  Licensed Material means the artistic or literary work, database, or other material to which the Licensor applied this Public License.
-i.  Licensed Rights means the rights granted to You subject to the terms and conditions of this Public License, which are limited to all Copyright and Similar Rights that apply to Your use of the Licensed Material and that the Licensor has authority to license.
-j.  Licensor means the individual(s) or entity(ies) granting rights under this Public License.
-k.  NonCommercial means not primarily intended for or directed towards commercial advantage or monetary compensation. For purposes of this Public License, the exchange of the Licensed Material for other material subject to Copyright and Similar Rights by digital file-sharing or similar means is NonCommercial provided there is no payment of monetary compensation in connection with the exchange.
-l.  Share means to provide material to the public by any means or process that requires permission under the Licensed Rights, such as reproduction, public display, public performance, distribution, dissemination, communication, or importation, and to make material available to the public including in ways that members of the public may access the material from a place and at a time individually chosen by them.
-m.  Sui Generis Database Rights means rights other than copyright resulting from Directive 96/9/EC of the European Parliament and of the Council of 11 March 1996 on the legal protection of databases, as amended and/or succeeded, as well as other essentially equivalent rights anywhere in the world.
-n.  You means the individual or entity exercising the Licensed Rights under this Public License. Your has a corresponding meaning.
-
-Section 2 – Scope.
-
-a.  License grant.
-    1.  Subject to the terms and conditions of this Public License, the Licensor hereby grants You a worldwide, royalty-free, non-sublicensable, non-exclusive, irrevocable license to exercise the Licensed Rights in the Licensed Material to:
-        A.  reproduce and Share the Licensed Material, in whole or in part, for NonCommercial purposes only; and
-        B.  produce, reproduce, and Share Adapted Material for NonCommercial purposes only.
-    2.  Exceptions and Limitations. For the avoidance of doubt, where Exceptions and Limitations apply to Your use, this Public License does not apply, and You do not need to comply with its terms and conditions.
-    3.  Term. The term of this Public License is specified in Section 6(a).
-    4.  Media and formats; technical modifications allowed. The Licensor authorizes You to exercise the Licensed Rights in all media and formats whether now known or hereafter created, and to make technical modifications necessary to do so. The Licensor waives and/or agrees not to assert any right or authority to forbid You from making technical modifications necessary to exercise the Licensed Rights, including technical modifications necessary to circumvent Effective Technological Measures. For purposes of this Public License, simply making modifications authorized by this Section 2(a)(4) never produces Adapted Material.
-    5.  Downstream recipients.
-        A.  Offer from the Licensor – Licensed Material. Every recipient of the Licensed Material automatically receives an offer from the Licensor to exercise the Licensed Rights under the terms and conditions of this Public License.
-        B.  Additional offer from the Licensor – Adapted Material. Every recipient of Adapted Material from You automatically receives an offer from the Licensor to exercise the Licensed Rights in the Adapted Material under the conditions of the Adapter’s License You apply.
-        C.  No downstream restrictions. You may not offer or impose any additional or different terms or conditions on, or apply any Effective Technological Measures to, the Licensed Material if doing so restricts exercise of the Licensed Rights by any recipient of the Licensed Material.
-    6.  No endorsement. Nothing in this Public License constitutes or may be construed as permission to assert or imply that You are, or that Your use of the Licensed Material is, connected with, or sponsored, endorsed, or granted official status by, the Licensor or others designated to receive attribution as provided in Section 3(a)(1)(A)(i).
-b.  Other rights.
-    1.  Moral rights, such as the right of integrity, are not licensed under this Public License, nor are publicity, privacy, and/or other similar personality rights; however, to the extent possible, the Licensor waives and/or agrees not to assert any such rights held by the Licensor to the limited extent necessary to allow You to exercise the Licensed Rights, but not otherwise.
-    2.  Patent and trademark rights are not licensed under this Public License.
-    3.  To the extent possible, the Licensor waives any right to collect royalties from You for the exercise of the Licensed Rights, whether directly or through a collecting society under any voluntary or waivable statutory or compulsory licensing scheme. In all other cases the Licensor expressly reserves any right to collect such royalties, including when the Licensed Material is used other than for NonCommercial purposes.
-
-Section 3 – License Conditions.
-
-Your exercise of the Licensed Rights is expressly made subject to the following conditions.
-
-a.  Attribution.
-    1.  If You Share the Licensed Material (including in modified form), You must:
-        A.  retain the following if it is supplied by the Licensor with the Licensed Material:
-            i.  identification of the creator(s) of the Licensed Material and any others designated to receive attribution, in any reasonable manner requested by the Licensor (including by pseudonym if designated);
-           ii.  a copyright notice;
-          iii.  a notice that refers to this Public License;
-           iv.  a notice that refers to the disclaimer of warranties;
-            v.  a URI or hyperlink to the Licensed Material to the extent reasonably practicable;
-        B.  indicate if You modified the Licensed Material and retain an indication of any previous modifications; and
-        C.  indicate the Licensed Material is licensed under this Public License, and include the text of, or the URI or hyperlink to, this Public License.
-    2.  You may satisfy the conditions in Section 3(a)(1) in any reasonable manner based on the medium, means, and context in which You Share the Licensed Material. For example, it may be reasonable to satisfy the conditions by providing a URI or hyperlink to a resource that includes the required information.
-    3.  If requested by the Licensor, You must remove any of the information required by Section 3(a)(1)(A) to the extent reasonably practicable.
-b.  ShareAlike.
-    In addition to the conditions in Section 3(a), if You Share Adapted Material You produce, the following conditions also apply.
-    1.  The Adapter’s License You apply must be a Creative Commons license with the same License Elements, this version or later, or a BY-NC-SA Compatible License.
-    2.  You must include the text of, or the URI or hyperlink to, the Adapter's License You apply. You may satisfy this condition in any reasonable manner based on the medium, means, and context in which You Share Adapted Material.
-    3.  You may not offer or impose any additional or different terms or conditions on, or apply any Effective Technological Measures to, Adapted Material that restrict exercise of the rights granted under the Adapter's License You apply.
-
-Section 4 – Sui Generis Database Rights.
-
-Where the Licensed Rights include Sui Generis Database Rights that apply to Your use of the Licensed Material:
-
-a.  for the avoidance of doubt, Section 2(a)(1) grants You the right to extract, reuse, reproduce, and Share all or a substantial portion of the contents of the database for NonCommercial purposes only;
-b.  if You include all or a substantial portion of the database contents in a database in which You have Sui Generis Database Rights, then the database in which You have Sui Generis Database Rights (but not its individual contents) is Adapted Material, including for purposes of Section 3(b); and
-c.  You must comply with the conditions in Section 3(a) if You Share all or a substantial portion of the contents of the database.
-
-For the avoidance of doubt, this Section 4 supplements and does not replace Your obligations under this Public License where the Licensed Rights include other Copyright and Similar Rights.
-
-Section 5 – Disclaimer of Warranties and Limitation of Liability.
-
-a.  Unless otherwise separately undertaken by the Licensor, to the extent possible, the Licensor offers the Licensed Material as-is and as-available, and makes no representations or warranties of any kind concerning the Licensed Material, whether express, implied, statutory, or other. This includes, without limitation, warranties of title, merchantability, fitness for a particular purpose, non-infringement, absence of latent or other defects, accuracy, or the presence or absence of errors, whether or not known or discoverable. Where disclaimers of warranties are not allowed in full or in part, this disclaimer may not apply to You.
-b.  To the extent possible, in no event will the Licensor be liable to You on any legal theory (including, without limitation, negligence) or otherwise for any direct, special, indirect, incidental, consequential, punitive, exemplary, or other losses, costs, expenses, or damages arising out of this Public License or use of the Licensed Material, even if the Licensor has been advised of the possibility of such losses, costs, expenses, or damages. Where a limitation of liability is not allowed in full or in part, this limitation may not apply to You.
-c.  The disclaimer of warranties and limitation of liability provided above shall be interpreted in a manner that, to the extent possible, most closely approximates an absolute disclaimer and waiver of all liability.
-
-Section 6 – Term and Termination.
-
-a.  This Public License applies for the term of the Copyright and Similar Rights licensed here. However, if You fail to comply with this Public License, then Your rights under this Public License terminate automatically.
-b.  Where Your right to use the Licensed Material has terminated under Section 6(a), it reinstates:
-    1.  automatically as of the date the violation is cured, provided it is cured within 30 days of Your discovery of the violation; or
-    2.  upon express reinstatement by the Licensor.
-    For the avoidance of doubt, this Section 6(b) does not affect any right the Licensor may have to seek remedies for Your violations of this Public License.
-c.  For the avoidance of doubt, the Licensor may also offer the Licensed Material under separate terms or conditions or stop distributing the Licensed Material at any time; however, doing so will not terminate this Public License.
-d.  Sections 1, 5, 6, 7, and 8 survive termination of this Public License.
-
-Section 7 – Other Terms and Conditions.
-
-a.  The Licensor shall not be bound by any additional or different terms or conditions communicated by You unless expressly agreed.
-b.  Any arrangements, understandings, or agreements regarding the Licensed Material not stated herein are separate from and independent of the terms and conditions of this Public License.
-
-Section 8 – Interpretation.
-
-a.  For the avoidance of doubt, this Public License does not, and shall not be interpreted to, reduce, limit, restrict, or impose conditions on any use of the Licensed Material that could lawfully be made without permission under this Public License.
-b.  To the extent possible, if any provision of this Public License is deemed unenforceable, it shall be automatically reformed to the minimum extent necessary to make it enforceable. If the provision cannot be reformed, it shall be severed from this Public License without affecting the enforceability of the remaining terms and conditions.
-c.  No term or condition of this Public License will be waived and no failure to comply consented to unless expressly agreed to by the Licensor.
-d.  Nothing in this Public License constitutes or may be interpreted as a limitation upon, or waiver of, any privileges and immunities that apply to the Licensor or You, including from the legal processes of any jurisdiction or authority.
\ No newline at end of file
diff --git a/Python/sklearn/sklearn-cookbook-zh/README.md b/Python/sklearn/sklearn-cookbook-zh/README.md
deleted file mode 100644
index a3facd90..00000000
--- a/Python/sklearn/sklearn-cookbook-zh/README.md
+++ /dev/null
@@ -1,32 +0,0 @@
-# Scikit-learn 秘籍
-
-> 原书：[Scikit-learn Cookbook](https://www.packtpub.com/big-data-and-business-intelligence/scikit-learn-cookbook)
-> 
-> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
->  
-> 欢迎任何人参与和完善：一个人可以走的很快，但是一群人却可以走的更远。
-
-+   [ApacheCN 机器学习交流群 629470233](http://shang.qq.com/wpa/qunwpa?idkey=30e5f1123a79867570f665aa3a483ca404b1c3f77737bc01ec520ed5f078ddef)
-+   [ApacheCN 学习资源](http://www.apachecn.org/)
-
-<!--break-->
-
-+ [在线阅读](https://www.gitbook.com/book/wizardforcel/sklearn-cookbook/details)
-+ [PDF格式](https://www.gitbook.com/download/pdf/book/wizardforcel/sklearn-cookbook)
-+ [EPUB格式](https://www.gitbook.com/download/epub/book/wizardforcel/sklearn-cookbook)
-+ [MOBI格式](https://www.gitbook.com/download/mobi/book/wizardforcel/sklearn-cookbook)
-+ [代码仓库](http://git.oschina.net/wizardforcel/sklearn-cb)
-
-## 译者
-
-| | 章节 | 译者 |
-| --- | --- | --- |
-| 1 | 预处理 | [muxuezi](https://muxuezi.github.io/posts/1-premodel-workflow.html) |
-| 2 | 回归 | [muxuezi](https://muxuezi.github.io/posts/2-working-with-linear-models.html) |
-| 3 | 聚类 | [飞龙](https://github.com/wizardforcel) |
-| 4 | 分类 | [飞龙](https://github.com/wizardforcel) |
-| 5 | 后处理 | [飞龙](https://github.com/wizardforcel) |
-
-## 赞助我
-
-![](http://ww1.sinaimg.cn/large/841aea59ly1fx0qnvulnjj2074074747.jpg)
diff --git a/Python/sklearn/sklearn-cookbook-zh/cover.jpg b/Python/sklearn/sklearn-cookbook-zh/cover.jpg
deleted file mode 100644
index e8674823..00000000
Binary files a/Python/sklearn/sklearn-cookbook-zh/cover.jpg and /dev/null differ
diff --git a/Python/sklearn/sklearn-cookbook-zh/styles/ebook.css b/Python/sklearn/sklearn-cookbook-zh/styles/ebook.css
deleted file mode 100644
index 1791fd46..00000000
--- a/Python/sklearn/sklearn-cookbook-zh/styles/ebook.css
+++ /dev/null
@@ -1,284 +0,0 @@
-/* GitHub stylesheet for MarkdownPad (http://markdownpad.com) */
-/* Author: Nicolas Hery - http://nicolashery.com */
-/* Version: b13fe65ca28d2e568c6ed5d7f06581183df8f2ff */
-/* Source: https://github.com/nicolahery/markdownpad-github */
-
-/* RESET
-=============================================================================*/
-
-html, body, div, span, applet, object, iframe, h1, h2, h3, h4, h5, h6, p, blockquote, pre, a, abbr, acronym, address, big, cite, code, del, dfn, em, img, ins, kbd, q, s, samp, small, strike, strong, sub, sup, tt, var, b, u, i, center, dl, dt, dd, ol, ul, li, fieldset, form, label, legend, table, caption, tbody, tfoot, thead, tr, th, td, article, aside, canvas, details, embed, figure, figcaption, footer, header, hgroup, menu, nav, output, ruby, section, summary, time, mark, audio, video {
-  margin: 0;
-  padding: 0;
-  border: 0;
-}
-
-/* BODY
-=============================================================================*/
-
-body {
-  font-family: Helvetica, arial, freesans, clean, sans-serif;
-  font-size: 14px;
-  line-height: 1.6;
-  color: #333;
-  background-color: #fff;
-  padding: 20px;
-  max-width: 960px;
-  margin: 0 auto;
-}
-
-body>*:first-child {
-  margin-top: 0 !important;
-}
-
-body>*:last-child {
-  margin-bottom: 0 !important;
-}
-
-/* BLOCKS
-=============================================================================*/
-
-p, blockquote, ul, ol, dl, table, pre {
-  margin: 15px 0;
-}
-
-/* HEADERS
-=============================================================================*/
-
-h1, h2, h3, h4, h5, h6 {
-  margin: 20px 0 10px;
-  padding: 0;
-  font-weight: bold;
-  -webkit-font-smoothing: antialiased;
-}
-
-h1 tt, h1 code, h2 tt, h2 code, h3 tt, h3 code, h4 tt, h4 code, h5 tt, h5 code, h6 tt, h6 code {
-  font-size: inherit;
-}
-
-h1 {
-  font-size: 24px;
-  border-bottom: 1px solid #ccc;
-  color: #000;
-}
-
-h2 {
-  font-size: 18px;
-  color: #000;
-}
-
-h3 {
-  font-size: 14px;
-}
-
-h4 {
-  font-size: 14px;
-}
-
-h5 {
-  font-size: 14px;
-}
-
-h6 {
-  color: #777;
-  font-size: 14px;
-}
-
-body>h2:first-child, body>h1:first-child, body>h1:first-child+h2, body>h3:first-child, body>h4:first-child, body>h5:first-child, body>h6:first-child {
-  margin-top: 0;
-  padding-top: 0;
-}
-
-a:first-child h1, a:first-child h2, a:first-child h3, a:first-child h4, a:first-child h5, a:first-child h6 {
-  margin-top: 0;
-  padding-top: 0;
-}
-
-h1+p, h2+p, h3+p, h4+p, h5+p, h6+p {
-  margin-top: 10px;
-}
-
-/* LINKS
-=============================================================================*/
-
-a {
-  color: #4183C4;
-  text-decoration: none;
-}
-
-a:hover {
-  text-decoration: underline;
-}
-
-/* LISTS
-=============================================================================*/
-
-ul, ol {
-  padding-left: 30px;
-}
-
-ul li > :first-child, 
-ol li > :first-child, 
-ul li ul:first-of-type, 
-ol li ol:first-of-type, 
-ul li ol:first-of-type, 
-ol li ul:first-of-type {
-  margin-top: 0px;
-}
-
-ul ul, ul ol, ol ol, ol ul {
-  margin-bottom: 0;
-}
-
-dl {
-  padding: 0;
-}
-
-dl dt {
-  font-size: 14px;
-  font-weight: bold;
-  font-style: italic;
-  padding: 0;
-  margin: 15px 0 5px;
-}
-
-dl dt:first-child {
-  padding: 0;
-}
-
-dl dt>:first-child {
-  margin-top: 0px;
-}
-
-dl dt>:last-child {
-  margin-bottom: 0px;
-}
-
-dl dd {
-  margin: 0 0 15px;
-  padding: 0 15px;
-}
-
-dl dd>:first-child {
-  margin-top: 0px;
-}
-
-dl dd>:last-child {
-  margin-bottom: 0px;
-}
-
-/* CODE
-=============================================================================*/
-
-pre, code, tt {
-  font-size: 12px;
-  font-family: Consolas, "Liberation Mono", Courier, monospace;
-}
-
-code, tt {
-  margin: 0 0px;
-  padding: 0px 0px;
-  white-space: nowrap;
-  border: 1px solid #eaeaea;
-  background-color: #f8f8f8;
-  border-radius: 3px;
-}
-
-pre>code {
-  margin: 0;
-  padding: 0;
-  white-space: pre;
-  border: none;
-  background: transparent;
-}
-
-pre {
-  background-color: #f8f8f8;
-  border: 1px solid #ccc;
-  font-size: 13px;
-  line-height: 19px;
-  overflow: auto;
-  padding: 6px 10px;
-  border-radius: 3px;
-}
-
-pre code, pre tt {
-  background-color: transparent;
-  border: none;
-}
-
-kbd {
-    -moz-border-bottom-colors: none;
-    -moz-border-left-colors: none;
-    -moz-border-right-colors: none;
-    -moz-border-top-colors: none;
-    background-color: #DDDDDD;
-    background-image: linear-gradient(#F1F1F1, #DDDDDD);
-    background-repeat: repeat-x;
-    border-color: #DDDDDD #CCCCCC #CCCCCC #DDDDDD;
-    border-image: none;
-    border-radius: 2px 2px 2px 2px;
-    border-style: solid;
-    border-width: 1px;
-    font-family: "Helvetica Neue",Helvetica,Arial,sans-serif;
-    line-height: 10px;
-    padding: 1px 4px;
-}
-
-/* QUOTES
-=============================================================================*/
-
-blockquote {
-  border-left: 4px solid #DDD;
-  padding: 0 15px;
-  color: #777;
-}
-
-blockquote>:first-child {
-  margin-top: 0px;
-}
-
-blockquote>:last-child {
-  margin-bottom: 0px;
-}
-
-/* HORIZONTAL RULES
-=============================================================================*/
-
-hr {
-  clear: both;
-  margin: 15px 0;
-  height: 0px;
-  overflow: hidden;
-  border: none;
-  background: transparent;
-  border-bottom: 4px solid #ddd;
-  padding: 0;
-}
-
-/* TABLES
-=============================================================================*/
-
-table th {
-  font-weight: bold;
-}
-
-table th, table td {
-  border: 1px solid #ccc;
-  padding: 6px 13px;
-}
-
-table tr {
-  border-top: 1px solid #ccc;
-  background-color: #fff;
-}
-
-table tr:nth-child(2n) {
-  background-color: #f8f8f8;
-}
-
-/* IMAGES
-=============================================================================*/
-
-img {
-  max-width: 100%
-}
\ No newline at end of file
diff --git a/Python/sklearn/sklearn-doc-zh/README.md b/Python/sklearn/sklearn-doc-zh/README.md
deleted file mode 100644
index 6a8a522c..00000000
--- a/Python/sklearn/sklearn-doc-zh/README.md
+++ /dev/null
@@ -1,216 +0,0 @@
-# <center>scikit-learn (sklearn) 官方文档中文版</center>
-
-<center><img src="img/logo/scikit-learn-logo.png" alt="logo" /></center>
-
-<br/>
-<table>
-    <tr align="center">
-        <td><a title="sklearn 0.21.3[master] 中文文档" href="https://sklearn.apachecn.org/" target="_blank"><font size="5">sklearn 0.21.3 中文文档</font></a></td>
-        <td><a title="sklearn 0.21.3[master] 中文示例" href="https://sklearn.apachecn.org/docs/examples" target="_blank"><font size="5">sklearn 0.21.3 中文示例</font></a></td>
-        <td><a title="sklearn 英文官网" href="https://scikit-learn.org" target="_blank"><font size="5">sklearn 英文官网</font></a></td>
-    </tr>
-</table>
-<br/>
-
----
-
-## 介绍
-
-sklearn (scikit-learn) 是基于 Python 语言的机器学习工具
-
-1. 简单高效的数据挖掘和数据分析工具
-2. 可供大家在各种环境中重复使用
-3. 建立在 NumPy ，SciPy 和 matplotlib 上
-4. 开源，可商业使用 - BSD许可证
-
-> 组织构建[网站]
-
-+ GitHub Pages(国外): https://sklearn.apachecn.org
-+ Gitee Pages(国内): https://apachecn.gitee.io/sklearn-doc-zh
-
-> 第三方站长[网站]
-
-+ sklearn 中文文档: http://www.scikitlearn.com.cn
-+ 地址A: xxx (欢迎留言，我们完善补充)
-
-> 其他补充
-
-+ [官方Github](https://github.com/apachecn/scikit-learn-doc-zh)
-+ [EPUB 下载地址](https://github.com/apachecn/sklearn-doc-zh/raw/epub/sklearn_0.21.3_2019_12_13.epub)
-
-## 下载
-
-### Docker
-
-```
-docker pull apachecn0/sklearn-doc-zh
-docker run -tid -p <port>:80 apachecn0/sklearn-doc-zh
-# 访问 http://localhost:{port} 查看文档
-```
-
-### PYPI
-
-```
-pip install sklearn-doc-zh
-sklearn-doc-zh <port>
-# 访问 http://localhost:{port} 查看文档
-```
-
-### NPM
-
-```
-npm install -g sklearn-doc-zh
-sklearn-doc-zh <port>
-# 访问 http://localhost:{port} 查看文档
-```
-
-## 目录
-
-*   [安装 scikit-learn](docs/master/62.md)
-*   用户指南
-    *   [1. 监督学习](docs/master/1.md)
-        * [1.1. 广义线性模型](docs/master/2.md)
-        * [1.2. 线性和二次判别分析](docs/master/3.md)
-        * [1.3. 内核岭回归](docs/master/4.md)
-        * [1.4. 支持向量机](docs/master/5.md)
-        * [1.5. 随机梯度下降](docs/master/6.md)
-        * [1.6. 最近邻](docs/master/7.md)
-        * [1.7. 高斯过程](docs/master/8.md)
-        * [1.8. 交叉分解](docs/master/9.md)
-        * [1.9. 朴素贝叶斯](docs/master/10.md)
-        * [1.10. 决策树](docs/master/11.md)
-        * [1.11. 集成方法](docs/master/12.md)
-        * [1.12. 多类和多标签算法](docs/master/13.md)
-        * [1.13. 特征选择](docs/master/14.md)
-        * [1.14. 半监督学习](docs/master/15.md)
-        * [1.15. 等式回归](docs/master/16.md)
-        * [1.16. 概率校准](docs/master/17.md)
-        * [1.17. 神经网络模型（有监督）](docs/master/18.md)
-    *   [2. 无监督学习](docs/master/19.md)
-        * [2.1. 高斯混合模型](docs/master/20.md)
-        * [2.2. 流形学习](docs/master/21.md)
-        * [2.3. 聚类](docs/master/22.md)
-        * [2.4. 双聚类](docs/master/23.md)
-        * [2.5. 分解成分中的信号（矩阵分解问题）](docs/master/24.md)
-        * [2.6. 协方差估计](docs/master/25.md)
-        * [2.7. 新奇和异常值检测](docs/master/26.md)
-        * [2.8. 密度估计](docs/master/27.md)
-        * [2.9. 神经网络模型（无监督）](docs/master/28.md)
-    * [3. 模型选择和评估](docs/master/29.md)
-        * [3.1. 交叉验证：评估估算器的表现](docs/master/30.md)
-        * [3.2. 调整估计器的超参数](docs/master/31.md)
-        * [3.3. 模型评估: 量化预测的质量](docs/master/32.md)
-        * [3.4. 模型持久化](docs/master/33.md)
-        * [3.5. 验证曲线: 绘制分数以评估模型](docs/master/34.md)
-    * [4.  检验](docs/master/35.md)
-        * [4.1. 部分依赖图](docs/master/36.md)
-    * [5. 数据集转换](docs/master/37.md)
-        * [5.1. Pipeline（管道）和 FeatureUnion（特征联合）: 合并的评估器](docs/master/38.md)
-        * [5.2. 特征提取](docs/master/39.md)
-        * [5.3 预处理数据](docs/master/40.md)
-        * [5.4 缺失值插补](docs/master/41.md)
-        * [5.5. 无监督降维](docs/master/42.md)
-        * [5.6. 随机投影](docs/master/43.md)
-        * [5.7. 内核近似](docs/master/44.md)
-        * [5.8. 成对的矩阵, 类别和核函数](docs/master/45.md)
-        * [5.9. 预测目标 (`y`) 的转换](docs/master/46.md)
-    * [6. 数据集加载工具](docs/master/47.md)
-        * [6.1. 通用数据集 API](docs/master/47.md)
-        * [6.2. 玩具数据集](docs/master/47.md)
-        * [6.3 真实世界中的数据集](docs/master/47.md)
-        * [6.4. 样本生成器](docs/master/47.md)
-        * [6.5. 加载其他数据集](docs/master/47.md)
-    * [7. 使用scikit-learn计算](docs/master/48.md)
-        * [7.1. 大规模计算的策略: 更大量的数据](docs/master/48.md)
-        * [7.2. 计算性能](docs/master/48.md)
-        * [7.3. 并行性、资源管理和配置](docs/master/48.md)
-*   [教程](docs/master/50.md)
-    *   [使用 scikit-learn 介绍机器学习](docs/master/51.md)
-    *   [关于科学数据处理的统计学习教程](docs/master/52.md)
-        *   [机器学习: scikit-learn 中的设置以及预估对象](docs/master/53.md)
-        *   [监督学习：从高维观察预测输出变量](docs/master/54.md)
-        *   [模型选择：选择估计量及其参数](docs/master/55.md)
-        *   [无监督学习: 寻求数据表示](docs/master/56.md)
-        *   [把它们放在一起](docs/master/57.md)
-        *   [寻求帮助](docs/master/58.md)
-    *   [处理文本数据](docs/master/59.md)
-    *   [选择正确的评估器(estimator.md)](docs/master/60.md)
-    *   [外部资源，视频和谈话](docs/master/61.md)
-*   [API 参考](https://scikit-learn.org/stable/modules/classes.html)
-*   [常见问题](docs/master/63.md)
-*   [时光轴](docs/master/64.md)
-
-## 历史版本
-
-* [scikit-learn (sklearn) 0.19 官方文档中文版](https://github.com/apachecn/sklearn-doc-zh/tree/master/docs/0.19.x.zip)
-* [scikit-learn (sklearn) 0.18 官方文档中文版](http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030181)
-
-如何编译使用历史版本: 
-
-* 解压 `0.19.x.zip` 文件夹
-* 将 `master/img` 的图片资源, 复制到 `0.19.x` 里面去
-* gitbook 正常编译过程，可以使用 `sh run_website.sh`
-
-## 贡献指南
-
-项目当前处于校对阶段，请查看[贡献指南](CONTRIBUTING.md)，并在[整体进度](https://github.com/apachecn/sklearn-doc-zh/issues/352)中领取任务。
-
-> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
-
-## 项目负责人
-
-格式: GitHub + QQ
-
-> 第一期 (2017-09-29)
-
-* [@那伊抹微笑](https://github.com/wangyangting)
-* [@片刻](https://github.com/jiangzhonglian)
-* [@小瑶](https://github.com/chenyyx)
-
-> 第二期 (2019-06-29)
-
-* [@N!no](https://github.com/lovelybuggies)：1352899627
-* [@mahaoyang](https://github.com/mahaoyang)：992635910
-* [@loopyme](https://github.com/loopyme)：3322728009
-* [飞龙](https://github.com/wizardforcel)：562826179
-* [片刻](https://github.com/jiangzhonglian)：529815144
-
--- 负责人要求: (欢迎一起为 `sklearn 中文版本` 做贡献)
-
-* 热爱开源，喜欢装逼
-* 长期使用 sklearn(至少0.5年) + 提交Pull Requests>=3
-* 能够有时间及时优化页面 bug 和用户 issues
-* 试用期: 2个月
-* 欢迎联系: [片刻](https://github.com/jiangzhonglian) 529815144
-
-## 贡献者
-
-[【0.19.X】贡献者名单](https://github.com/apachecn/sklearn-doc-zh/issues/354)
-
-## 建议反馈
-
-* 在我们的 [apachecn/pytorch-doc-zh](https://github.com/apachecn/sklearn-doc-zh) github 上提 issue.
-* 发邮件到 Email: `apachecn@163.com`.
-* 在我们的 [QQ群-搜索: 交流方式](https://github.com/apachecn/home) 中联系群主/管理员即可.
-
-## **项目协议**
-
-* **最近有很多人联系我们，关于内容授权问题！**
-* 开源是指知识应该重在传播和迭代（而不是禁止别人转载）
-* 不然你TM在GitHub开源，然后又说不让转载，你TM有病吧！
-* 禁止商业化，符合协议规范，备注地址来源，**重点: 不需要**发邮件给我们申请
-* ApacheCN 账号下没有协议的项目，一律视为 [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh)。
-
-温馨提示:
-
-* 对于个人想自己copy一份再更新的人
-* 我也是有这样的经历，但是这种激情维持不了几个月，就泄气了！
-* 不仅浪费了你的心血，还浪费了更多人看到你的翻译成果！很可惜！你觉得呢？
-* 个人的建议是: fork -> pull requests 到 `https://github.com/apachecn/sklearn-doc-zh`
-* 那为什么要选择 `ApacheCN` 呢？
-* 因为我们做翻译这事情是觉得开心和装逼，比较纯粹！
-* 你如果喜欢，你可以来参与/甚至负责这个项目，没有任何学历和背景的限制
-
-## 赞助我们
-
-<img src="http://data.apachecn.org/img/about/donate.jpg" alt="微信&支付宝" />
diff --git a/Python/sklearn/sklearn-doc-zh/master/book.json b/Python/sklearn/sklearn-doc-zh/master/book.json
deleted file mode 100644
index 430e399a..00000000
--- a/Python/sklearn/sklearn-doc-zh/master/book.json
+++ /dev/null
@@ -1,176 +0,0 @@
-{
-    "title" : "sklearn 中文文档",
-    "author" : "ApacheCN",
-    "description" : "sklearn 中文文档: 教程和文档",
-    "language" : "zh-hans",
-    "plugins": [
-        "github",
-        "github-buttons",
-        "-sharing", 
-        "insert-logo",
-        "sharing-plus",
-        "back-to-top-button",
-        "code",
-        "copy-code-button",
-        "katex",
-        "pageview-count",
-        "edit-link",
-        "emphasize",
-        "alerts",
-        "auto-scroll-table",
-        "popup",
-        "hide-element",
-        "page-toc-button",
-        "tbfed-pagefooter",
-        "sitemap",
-        "advanced-emoji",
-        "expandable-chapters",
-        "splitter",
-        "search-pro"
-    ],
-    "pluginsConfig": {
-        "github": {
-            "url": "https://github.com/apachecn/sklearn-doc-zh"
-        },
-        "github-buttons": {
-            "buttons": [
-              {
-                "user": "apachecn",
-                "repo": "sklearn-doc-zh", 
-                "type": "star",
-                "count": true,
-                "size": "small"
-              }
-            ]
-        },
-        "insert-logo": {
-            "url": "http://data.apachecn.org/img/logo.jpg",
-            "style": "background: none; max-height: 150px; min-height: 150px"
-        },
-        "hide-element": {
-            "elements": [".gitbook-link"]
-        },
-        "edit-link": {
-            "base": "https://github.com/apachecn/sklearn-doc-zh/blob/master/docs/0.21.3",
-            "label": "编辑本页"
-        },
-        "sharing": {
-            "qzone": true,
-            "weibo": true,
-            "twitter": false,
-            "facebook": false,
-            "google": false,
-            "qq": false,
-            "line": false,
-            "whatsapp": false,
-            "douban": false,
-            "all": [
-                "qq", "douban", "facebook", "google", "linkedin", "twitter", "weibo", "whatsapp"
-            ]
-        },
-        "page-toc-button": {
-            "maxTocDepth": 4,
-            "minTocSize": 4
-        },
-        "tbfed-pagefooter": {
-            "copyright":"Copyright &copy ibooker.org.cn 2019",
-            "modify_label": "该文件修订时间： ",
-            "modify_format": "YYYY-MM-DD HH:mm:ss"
-        },
-        "sitemap": {
-            "hostname": "http://sklearn.apachecn.org"
-        }
-    },
-    "my_links" : {
-        "sidebar" : {
-            "Home" : "https://www.baidu.com"
-        }
-    },
-    "my_plugins": [
-        "donate",
-        "todo",
-        "-lunr",
-        "-search",
-        "expandable-chapters-small",
-        "chapter-fold",
-        "expandable-chapters",
-        "expandable-chapters-small",
-        "back-to-top-button",
-        "ga",
-        "baidu",
-        "sitemap",
-        "tbfed-pagefooter",
-        "advanced-emoji",
-        "sectionx",
-        "page-treeview",
-        "simple-page-toc",
-        "ancre-navigation",
-        "theme-apachecn@git+https://github.com/apachecn/theme-apachecn#HEAD",
-        "pagefooter-apachecn@git+https://github.com/apachecn/gitbook-plugin-pagefooter-apachecn#HEAD"
-    ],
-    "my_pluginsConfig": {
-        "github-buttons": {
-            "buttons": [
-              {
-                "user": "apachecn",
-                "repo": "sklearn-doc-zh", 
-                "type": "star",
-                "count": true,
-                "size": "small"
-              }, 
-              {
-                "user": "apachecn",
-                "width": "160", 
-                "type": "follow", 
-                "count": true,
-                "size": "small"
-              }
-            ]
-        },
-        "ignores": ["node_modules"],
-        "simple-page-toc": {
-            "maxDepth": 3,
-            "skipFirstH1": true
-        },
-        "page-toc-button": {
-            "maxTocDepth": 2,
-            "minTocSize": 2
-        },
-        "page-treeview": {
-            "copyright": "Copyright &#169; aleen42",
-            "minHeaderCount": "2",
-            "minHeaderDeep": "2"
-        },
-        "donate": {
-        	"wechat": "微信收款的二维码URL",
-        	"alipay": "支付宝收款的二维码URL",
-        	"title": "",
-        	"button": "赏",
-        	"alipayText": "支付宝打赏",
-        	"wechatText": "微信打赏"
-    	},
-        "page-copyright": {
-            "description": "modified at",
-            "signature": "你的签名",
-            "wisdom": "Designer, Frontend Developer & overall web enthusiast",
-            "format": "YYYY-MM-dd hh:mm:ss",
-            "copyright": "Copyright &#169; 你的名字",
-            "timeColor": "#666",
-            "copyrightColor": "#666",
-            "utcOffset": "8",
-            "style": "normal",
-            "noPowered": false
-          },
-          "ga": {
-              "token": "UA-102475051-10"
-          },
-          "baidu": {
-              "token": "75439e2cbd22bdd813226000e9dcc12f"
-          },
-        "pagefooter-apachecn": {
-            "copyright":"Copyright &copy ibooker.org.cn 2019",
-            "modify_label": "该文件修订时间： ",
-            "modify_format": "YYYY-MM-DD HH:mm:ss"
-        }
-    }
-}
diff --git a/Python/sklearn/sklearn-cookbook-zh/1.md b/Sklearn/sklearn-cookbook-zh/1.md
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/1.md
rename to Sklearn/sklearn-cookbook-zh/1.md
diff --git a/Python/sklearn/sklearn-cookbook-zh/2.md b/Sklearn/sklearn-cookbook-zh/2.md
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/2.md
rename to Sklearn/sklearn-cookbook-zh/2.md
diff --git a/Python/sklearn/sklearn-cookbook-zh/3.md b/Sklearn/sklearn-cookbook-zh/3.md
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/3.md
rename to Sklearn/sklearn-cookbook-zh/3.md
diff --git a/Python/sklearn/sklearn-cookbook-zh/4.md b/Sklearn/sklearn-cookbook-zh/4.md
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/4.md
rename to Sklearn/sklearn-cookbook-zh/4.md
diff --git a/Python/sklearn/sklearn-cookbook-zh/5.md b/Sklearn/sklearn-cookbook-zh/5.md
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/5.md
rename to Sklearn/sklearn-cookbook-zh/5.md
diff --git a/Python/sklearn/sklearn-cookbook-zh/SUMMARY.md b/Sklearn/sklearn-cookbook-zh/SUMMARY.md
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/SUMMARY.md
rename to Sklearn/sklearn-cookbook-zh/SUMMARY.md
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-10-1.png b/Sklearn/sklearn-cookbook-zh/img/1-10-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-10-1.png
rename to Sklearn/sklearn-cookbook-zh/img/1-10-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-11-1.png b/Sklearn/sklearn-cookbook-zh/img/1-11-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-11-1.png
rename to Sklearn/sklearn-cookbook-zh/img/1-11-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-11-2.png b/Sklearn/sklearn-cookbook-zh/img/1-11-2.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-11-2.png
rename to Sklearn/sklearn-cookbook-zh/img/1-11-2.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-11-3.png b/Sklearn/sklearn-cookbook-zh/img/1-11-3.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-11-3.png
rename to Sklearn/sklearn-cookbook-zh/img/1-11-3.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-12-1.png b/Sklearn/sklearn-cookbook-zh/img/1-12-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-12-1.png
rename to Sklearn/sklearn-cookbook-zh/img/1-12-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-13-1.png b/Sklearn/sklearn-cookbook-zh/img/1-13-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-13-1.png
rename to Sklearn/sklearn-cookbook-zh/img/1-13-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-13-2.png b/Sklearn/sklearn-cookbook-zh/img/1-13-2.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-13-2.png
rename to Sklearn/sklearn-cookbook-zh/img/1-13-2.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-15-1.png b/Sklearn/sklearn-cookbook-zh/img/1-15-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-15-1.png
rename to Sklearn/sklearn-cookbook-zh/img/1-15-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-15-2.png b/Sklearn/sklearn-cookbook-zh/img/1-15-2.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-15-2.png
rename to Sklearn/sklearn-cookbook-zh/img/1-15-2.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-15-3.png b/Sklearn/sklearn-cookbook-zh/img/1-15-3.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-15-3.png
rename to Sklearn/sklearn-cookbook-zh/img/1-15-3.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-17-1.png b/Sklearn/sklearn-cookbook-zh/img/1-17-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-17-1.png
rename to Sklearn/sklearn-cookbook-zh/img/1-17-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-2-1.png b/Sklearn/sklearn-cookbook-zh/img/1-2-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-2-1.png
rename to Sklearn/sklearn-cookbook-zh/img/1-2-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/1-9-1.png b/Sklearn/sklearn-cookbook-zh/img/1-9-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/1-9-1.png
rename to Sklearn/sklearn-cookbook-zh/img/1-9-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-1-1.png b/Sklearn/sklearn-cookbook-zh/img/2-1-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-1-1.png
rename to Sklearn/sklearn-cookbook-zh/img/2-1-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-1-2.png b/Sklearn/sklearn-cookbook-zh/img/2-1-2.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-1-2.png
rename to Sklearn/sklearn-cookbook-zh/img/2-1-2.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-2-1.png b/Sklearn/sklearn-cookbook-zh/img/2-2-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-2-1.png
rename to Sklearn/sklearn-cookbook-zh/img/2-2-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-2-2.png b/Sklearn/sklearn-cookbook-zh/img/2-2-2.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-2-2.png
rename to Sklearn/sklearn-cookbook-zh/img/2-2-2.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-2-3.png b/Sklearn/sklearn-cookbook-zh/img/2-2-3.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-2-3.png
rename to Sklearn/sklearn-cookbook-zh/img/2-2-3.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-3-1.png b/Sklearn/sklearn-cookbook-zh/img/2-3-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-3-1.png
rename to Sklearn/sklearn-cookbook-zh/img/2-3-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-3-2.png b/Sklearn/sklearn-cookbook-zh/img/2-3-2.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-3-2.png
rename to Sklearn/sklearn-cookbook-zh/img/2-3-2.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-4-1.png b/Sklearn/sklearn-cookbook-zh/img/2-4-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-4-1.png
rename to Sklearn/sklearn-cookbook-zh/img/2-4-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-6-1.png b/Sklearn/sklearn-cookbook-zh/img/2-6-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-6-1.png
rename to Sklearn/sklearn-cookbook-zh/img/2-6-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-7-1.png b/Sklearn/sklearn-cookbook-zh/img/2-7-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-7-1.png
rename to Sklearn/sklearn-cookbook-zh/img/2-7-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-8-1.png b/Sklearn/sklearn-cookbook-zh/img/2-8-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-8-1.png
rename to Sklearn/sklearn-cookbook-zh/img/2-8-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-8-2.png b/Sklearn/sklearn-cookbook-zh/img/2-8-2.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-8-2.png
rename to Sklearn/sklearn-cookbook-zh/img/2-8-2.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-9-1.png b/Sklearn/sklearn-cookbook-zh/img/2-9-1.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-9-1.png
rename to Sklearn/sklearn-cookbook-zh/img/2-9-1.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/2-9-2.png b/Sklearn/sklearn-cookbook-zh/img/2-9-2.png
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/2-9-2.png
rename to Sklearn/sklearn-cookbook-zh/img/2-9-2.png
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-1-1.jpg b/Sklearn/sklearn-cookbook-zh/img/3-1-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-1-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-1-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-1-2.jpg b/Sklearn/sklearn-cookbook-zh/img/3-1-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-1-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-1-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-2-1.jpg b/Sklearn/sklearn-cookbook-zh/img/3-2-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-2-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-2-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-2-2.jpg b/Sklearn/sklearn-cookbook-zh/img/3-2-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-2-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-2-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-3-1.jpg b/Sklearn/sklearn-cookbook-zh/img/3-3-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-3-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-3-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-3-2.jpg b/Sklearn/sklearn-cookbook-zh/img/3-3-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-3-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-3-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-5-1.jpg b/Sklearn/sklearn-cookbook-zh/img/3-5-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-5-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-5-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-5-2.jpg b/Sklearn/sklearn-cookbook-zh/img/3-5-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-5-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-5-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-6-1.jpg b/Sklearn/sklearn-cookbook-zh/img/3-6-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-6-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-6-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-6-2.jpg b/Sklearn/sklearn-cookbook-zh/img/3-6-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-6-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-6-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-6-3.jpg b/Sklearn/sklearn-cookbook-zh/img/3-6-3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-6-3.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-6-3.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-7-1.jpg b/Sklearn/sklearn-cookbook-zh/img/3-7-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-7-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-7-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-7-2.jpg b/Sklearn/sklearn-cookbook-zh/img/3-7-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-7-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-7-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-7-3.jpg b/Sklearn/sklearn-cookbook-zh/img/3-7-3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-7-3.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-7-3.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-7-4.jpg b/Sklearn/sklearn-cookbook-zh/img/3-7-4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-7-4.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-7-4.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-8-1.jpg b/Sklearn/sklearn-cookbook-zh/img/3-8-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-8-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-8-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-8-2.jpg b/Sklearn/sklearn-cookbook-zh/img/3-8-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-8-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-8-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-8-3.jpg b/Sklearn/sklearn-cookbook-zh/img/3-8-3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-8-3.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-8-3.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/3-9-1.jpg b/Sklearn/sklearn-cookbook-zh/img/3-9-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/3-9-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/3-9-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-1-1.jpg b/Sklearn/sklearn-cookbook-zh/img/4-1-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-1-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-1-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-1-2.jpg b/Sklearn/sklearn-cookbook-zh/img/4-1-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-1-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-1-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-1-3.jpg b/Sklearn/sklearn-cookbook-zh/img/4-1-3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-1-3.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-1-3.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-2-1.jpg b/Sklearn/sklearn-cookbook-zh/img/4-2-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-2-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-2-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-2-2.jpg b/Sklearn/sklearn-cookbook-zh/img/4-2-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-2-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-2-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-2-3.jpg b/Sklearn/sklearn-cookbook-zh/img/4-2-3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-2-3.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-2-3.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-3-1.jpg b/Sklearn/sklearn-cookbook-zh/img/4-3-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-3-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-3-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-3-2.jpg b/Sklearn/sklearn-cookbook-zh/img/4-3-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-3-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-3-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-4-1.jpg b/Sklearn/sklearn-cookbook-zh/img/4-4-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-4-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-4-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-4-2.jpg b/Sklearn/sklearn-cookbook-zh/img/4-4-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-4-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-4-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-5-1.jpg b/Sklearn/sklearn-cookbook-zh/img/4-5-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-5-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-5-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-5-2.jpg b/Sklearn/sklearn-cookbook-zh/img/4-5-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-5-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-5-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-5-3.jpg b/Sklearn/sklearn-cookbook-zh/img/4-5-3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-5-3.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-5-3.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-7-1.jpg b/Sklearn/sklearn-cookbook-zh/img/4-7-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-7-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-7-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-7-2.jpg b/Sklearn/sklearn-cookbook-zh/img/4-7-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-7-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-7-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/4-7-3.jpg b/Sklearn/sklearn-cookbook-zh/img/4-7-3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/4-7-3.jpg
rename to Sklearn/sklearn-cookbook-zh/img/4-7-3.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/5-3-1.jpg b/Sklearn/sklearn-cookbook-zh/img/5-3-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/5-3-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/5-3-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/5-3-2.jpg b/Sklearn/sklearn-cookbook-zh/img/5-3-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/5-3-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/5-3-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/5-3-3.jpg b/Sklearn/sklearn-cookbook-zh/img/5-3-3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/5-3-3.jpg
rename to Sklearn/sklearn-cookbook-zh/img/5-3-3.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/5-4-1.jpg b/Sklearn/sklearn-cookbook-zh/img/5-4-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/5-4-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/5-4-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/5-5-1.jpg b/Sklearn/sklearn-cookbook-zh/img/5-5-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/5-5-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/5-5-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/5-8-1.jpg b/Sklearn/sklearn-cookbook-zh/img/5-8-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/5-8-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/5-8-1.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/5-8-2.jpg b/Sklearn/sklearn-cookbook-zh/img/5-8-2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/5-8-2.jpg
rename to Sklearn/sklearn-cookbook-zh/img/5-8-2.jpg
diff --git a/Python/sklearn/sklearn-cookbook-zh/img/5-9-1.jpg b/Sklearn/sklearn-cookbook-zh/img/5-9-1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-cookbook-zh/img/5-9-1.jpg
rename to Sklearn/sklearn-cookbook-zh/img/5-9-1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/SUMMARY.md b/Sklearn/sklearn-doc-zh/SUMMARY.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/SUMMARY.md
rename to Sklearn/sklearn-doc-zh/SUMMARY.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Biclustering/a_demo_of_the_spectral_clustering_algorithm.md b/Sklearn/sklearn-doc-zh/examples/Biclustering/a_demo_of_the_spectral_clustering_algorithm.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Biclustering/a_demo_of_the_spectral_clustering_algorithm.md
rename to Sklearn/sklearn-doc-zh/examples/Biclustering/a_demo_of_the_spectral_clustering_algorithm.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Biclustering/a_demo_of_the_spectral_co-clustering_algorithm.md b/Sklearn/sklearn-doc-zh/examples/Biclustering/a_demo_of_the_spectral_co-clustering_algorithm.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Biclustering/a_demo_of_the_spectral_co-clustering_algorithm.md
rename to Sklearn/sklearn-doc-zh/examples/Biclustering/a_demo_of_the_spectral_co-clustering_algorithm.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Biclustering/biclustering_documents_with_the_spectral_co-clustering_algorithm.md b/Sklearn/sklearn-doc-zh/examples/Biclustering/biclustering_documents_with_the_spectral_co-clustering_algorithm.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Biclustering/biclustering_documents_with_the_spectral_co-clustering_algorithm.md
rename to Sklearn/sklearn-doc-zh/examples/Biclustering/biclustering_documents_with_the_spectral_co-clustering_algorithm.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_document_classification_20newsgroups.md b/Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_document_classification_20newsgroups.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_document_classification_20newsgroups.md
rename to Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_document_classification_20newsgroups.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_and_elasticnet.md b/Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_and_elasticnet.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_and_elasticnet.md
rename to Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_and_elasticnet.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_coordinate_descent_path.md b/Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_coordinate_descent_path.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_coordinate_descent_path.md
rename to Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_coordinate_descent_path.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_model_selection.md b/Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_model_selection.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_model_selection.md
rename to Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_lasso_model_selection.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_multi_task_lasso_support.md b/Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_multi_task_lasso_support.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_multi_task_lasso_support.md
rename to Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_multi_task_lasso_support.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_ols.md b/Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_ols.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_ols.md
rename to Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_ols.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_ridge_path.md b/Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_ridge_path.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_ridge_path.md
rename to Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_ridge_path.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_tomography_l1_reconstruction.md b/Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_tomography_l1_reconstruction.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_tomography_l1_reconstruction.md
rename to Sklearn/sklearn-doc-zh/examples/Generalized_Linear_Models/plot_tomography_l1_reconstruction.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/README.md b/Sklearn/sklearn-doc-zh/examples/README.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/README.md
rename to Sklearn/sklearn-doc-zh/examples/README.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/SUMMARY.md b/Sklearn/sklearn-doc-zh/examples/SUMMARY.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/SUMMARY.md
rename to Sklearn/sklearn-doc-zh/examples/SUMMARY.md
diff --git a/Python/sklearn/sklearn-doc-zh/examples/book.json b/Sklearn/sklearn-doc-zh/examples/book.json
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/book.json
rename to Sklearn/sklearn-doc-zh/examples/book.json
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_approximate_nearest_neighbors_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_approximate_nearest_neighbors_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_approximate_nearest_neighbors_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_approximate_nearest_neighbors_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_grid_search_text_feature_extraction_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_grid_search_text_feature_extraction_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_grid_search_text_feature_extraction_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_grid_search_text_feature_extraction_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_hastie_10_2_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_hastie_10_2_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_hastie_10_2_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_hastie_10_2_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_multiclass_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_multiclass_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_multiclass_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_multiclass_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_regression_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_regression_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_regression_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_regression_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_twoclass_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_twoclass_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_twoclass_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adaboost_twoclass_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adjusted_for_chance_measures_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adjusted_for_chance_measures_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adjusted_for_chance_measures_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_adjusted_for_chance_measures_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_affinity_propagation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_affinity_propagation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_affinity_propagation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_affinity_propagation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_clustering_metrics_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_clustering_metrics_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_clustering_metrics_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_clustering_metrics_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_clustering_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_clustering_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_clustering_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_clustering_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_dendrogram_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_dendrogram_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_dendrogram_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_agglomerative_dendrogram_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_all_scaling_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_all_scaling_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_all_scaling_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_all_scaling_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_anomaly_comparison_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_anomaly_comparison_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_anomaly_comparison_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_anomaly_comparison_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ard_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ard_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ard_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ard_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bayesian_ridge_curvefit_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bayesian_ridge_curvefit_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bayesian_ridge_curvefit_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bayesian_ridge_curvefit_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bayesian_ridge_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bayesian_ridge_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bayesian_ridge_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bayesian_ridge_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_beta_divergence_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_beta_divergence_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_beta_divergence_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_beta_divergence_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bias_variance_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bias_variance_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bias_variance_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bias_variance_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bicluster_newsgroups_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bicluster_newsgroups_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bicluster_newsgroups_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_bicluster_newsgroups_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_birch_vs_minibatchkmeans_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_birch_vs_minibatchkmeans_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_birch_vs_minibatchkmeans_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_birch_vs_minibatchkmeans_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_caching_nearest_neighbors_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_caching_nearest_neighbors_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_caching_nearest_neighbors_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_caching_nearest_neighbors_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_curve_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_curve_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_curve_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_curve_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_multiclass_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_multiclass_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_multiclass_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_multiclass_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_calibration_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_changed_only_pprint_parameter_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_changed_only_pprint_parameter_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_changed_only_pprint_parameter_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_changed_only_pprint_parameter_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classification_probability_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classification_probability_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classification_probability_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classification_probability_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classification_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classification_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classification_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classification_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classifier_chain_yeast_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classifier_chain_yeast_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classifier_chain_yeast_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classifier_chain_yeast_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classifier_comparison_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classifier_comparison_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classifier_comparison_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_classifier_comparison_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cluster_comparison_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cluster_comparison_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cluster_comparison_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cluster_comparison_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cluster_iris_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cluster_iris_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cluster_iris_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cluster_iris_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_coin_segmentation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_coin_segmentation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_coin_segmentation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_coin_segmentation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_coin_ward_segmentation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_coin_ward_segmentation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_coin_ward_segmentation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_coin_ward_segmentation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_color_quantization_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_color_quantization_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_color_quantization_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_color_quantization_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_column_transformer_mixed_types_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_column_transformer_mixed_types_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_column_transformer_mixed_types_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_column_transformer_mixed_types_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_column_transformer_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_column_transformer_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_column_transformer_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_column_transformer_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_calibration_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_calibration_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_calibration_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_calibration_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_cross_decomposition_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_cross_decomposition_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_cross_decomposition_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_cross_decomposition_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_gpr_krr_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_gpr_krr_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_gpr_krr_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_gpr_krr_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_methods_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_methods_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_methods_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_methods_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_reduction_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_reduction_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_reduction_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_compare_reduction_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_concentration_prior_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_concentration_prior_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_concentration_prior_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_concentration_prior_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_confusion_matrix_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_confusion_matrix_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_confusion_matrix_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_confusion_matrix_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cost_complexity_pruning_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cost_complexity_pruning_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cost_complexity_pruning_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cost_complexity_pruning_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_covariance_estimation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_covariance_estimation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_covariance_estimation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_covariance_estimation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_custom_kernel_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_custom_kernel_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_custom_kernel_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_custom_kernel_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_diabetes_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_diabetes_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_diabetes_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_diabetes_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_digits_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_digits_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_digits_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_digits_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_indices_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_indices_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_indices_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_indices_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_predict_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_predict_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_predict_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_cv_predict_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_dbscan_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_dbscan_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_dbscan_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_dbscan_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_dict_face_patches_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_dict_face_patches_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_dict_face_patches_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_dict_face_patches_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_agglomeration_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_agglomeration_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_agglomeration_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_agglomeration_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_classification_exercise_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_classification_exercise_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_classification_exercise_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_classification_exercise_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_classification_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_classification_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_classification_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_classification_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_kde_sampling_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_kde_sampling_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_kde_sampling_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_kde_sampling_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_last_image_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_last_image_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_last_image_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_last_image_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_linkage_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_linkage_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_linkage_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_linkage_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_pipe_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_pipe_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_pipe_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_digits_pipe_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_classification_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_classification_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_classification_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_classification_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_strategies_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_strategies_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_strategies_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_strategies_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_discretization_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_document_classification_20newsgroups_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_document_classification_20newsgroups_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_document_classification_20newsgroups_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_document_classification_20newsgroups_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_document_clustering_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_document_clustering_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_document_clustering_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_document_clustering_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ensemble_oob_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ensemble_oob_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ensemble_oob_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ensemble_oob_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_f_test_vs_mi_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_f_test_vs_mi_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_f_test_vs_mi_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_f_test_vs_mi_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_face_compress_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_face_compress_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_face_compress_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_face_compress_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_face_recognition_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_face_recognition_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_face_recognition_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_face_recognition_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_faces_decomposition_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_faces_decomposition_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_faces_decomposition_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_faces_decomposition_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_agglomeration_vs_univariate_selection_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_agglomeration_vs_univariate_selection_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_agglomeration_vs_univariate_selection_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_agglomeration_vs_univariate_selection_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_selection_pipeline_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_selection_pipeline_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_selection_pipeline_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_selection_pipeline_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_selection_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_selection_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_selection_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_selection_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_transformation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_transformation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_transformation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_transformation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_union_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_union_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_union_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_feature_union_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_importances_faces_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_importances_faces_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_importances_faces_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_importances_faces_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_importances_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_importances_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_importances_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_importances_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_iris_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_iris_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_iris_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_forest_iris_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_function_transformer_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_function_transformer_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_function_transformer_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_function_transformer_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_covariances_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_covariances_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_covariances_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_covariances_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_pdf_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_pdf_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_pdf_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_pdf_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_selection_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_selection_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_selection_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_selection_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_sin_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_sin_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_sin_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_sin_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gmm_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_iris_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_iris_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_iris_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_iris_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_isoprobability_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_isoprobability_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_isoprobability_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_isoprobability_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_xor_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_xor_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_xor_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpc_xor_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_co2_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_co2_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_co2_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_co2_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_noisy_targets_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_noisy_targets_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_noisy_targets_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_noisy_targets_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_noisy_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_noisy_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_noisy_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_noisy_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_on_structured_data_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_on_structured_data_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_on_structured_data_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_on_structured_data_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_prior_posterior_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_prior_posterior_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_prior_posterior_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gpr_prior_posterior_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_early_stopping_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_early_stopping_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_early_stopping_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_early_stopping_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_oob_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_oob_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_oob_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_oob_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_quantile_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_quantile_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_quantile_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_quantile_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_regression_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_regression_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_regression_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_regression_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_regularization_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_regularization_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_regularization_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_gradient_boosting_regularization_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_grid_search_digits_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_grid_search_digits_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_grid_search_digits_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_grid_search_digits_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_grid_search_refit_callable_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_grid_search_refit_callable_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_grid_search_refit_callable_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_grid_search_refit_callable_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_hashing_vs_dict_vectorizer_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_hashing_vs_dict_vectorizer_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_hashing_vs_dict_vectorizer_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_hashing_vs_dict_vectorizer_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_huber_vs_ridge_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_huber_vs_ridge_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_huber_vs_ridge_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_huber_vs_ridge_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ica_blind_source_separation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ica_blind_source_separation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ica_blind_source_separation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ica_blind_source_separation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ica_vs_pca_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ica_vs_pca_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ica_vs_pca_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ica_vs_pca_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_image_denoising_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_image_denoising_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_image_denoising_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_image_denoising_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_incremental_pca_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_incremental_pca_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_incremental_pca_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_incremental_pca_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_inductive_clustering_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_inductive_clustering_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_inductive_clustering_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_inductive_clustering_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_dataset_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_dataset_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_dataset_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_dataset_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_dtc_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_dtc_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_dtc_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_dtc_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_exercise_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_exercise_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_exercise_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_exercise_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_logistic_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_logistic_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_logistic_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_logistic_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_svc_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_svc_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_svc_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iris_svc_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_isolation_forest_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_isolation_forest_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_isolation_forest_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_isolation_forest_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_isotonic_regression_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_isotonic_regression_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_isotonic_regression_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_isotonic_regression_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iterative_imputer_variants_comparison_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iterative_imputer_variants_comparison_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iterative_imputer_variants_comparison_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_iterative_imputer_variants_comparison_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_johnson_lindenstrauss_bound_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_johnson_lindenstrauss_bound_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_johnson_lindenstrauss_bound_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_johnson_lindenstrauss_bound_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kde_1d_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kde_1d_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kde_1d_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kde_1d_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_approximation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_approximation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_approximation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_approximation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_pca_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_pca_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_pca_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_pca_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_ridge_regression_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_ridge_regression_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_ridge_regression_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kernel_ridge_regression_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_assumptions_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_assumptions_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_assumptions_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_assumptions_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_digits_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_digits_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_digits_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_digits_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_silhouette_analysis_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_silhouette_analysis_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_silhouette_analysis_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_silhouette_analysis_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_stability_low_dim_dense_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_stability_low_dim_dense_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_stability_low_dim_dense_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_kmeans_stability_low_dim_dense_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_digits_active_learning_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_digits_active_learning_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_digits_active_learning_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_digits_active_learning_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_digits_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_digits_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_digits_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_digits_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_structure_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_structure_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_structure_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_structure_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_versus_svm_iris_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_versus_svm_iris_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_versus_svm_iris_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_label_propagation_versus_svm_iris_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_and_elasticnet_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_and_elasticnet_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_and_elasticnet_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_and_elasticnet_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_coordinate_descent_path_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_coordinate_descent_path_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_coordinate_descent_path_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_coordinate_descent_path_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_dense_vs_sparse_data_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_dense_vs_sparse_data_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_dense_vs_sparse_data_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_dense_vs_sparse_data_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_lars_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_lars_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_lars_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_lars_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_model_selection_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_model_selection_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_model_selection_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lasso_model_selection_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lda_qda_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lda_qda_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lda_qda_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lda_qda_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lda_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lda_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lda_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lda_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_learning_curve_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_learning_curve_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_learning_curve_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_learning_curve_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_linearsvc_support_vectors_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_linearsvc_support_vectors_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_linearsvc_support_vectors_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_linearsvc_support_vectors_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_linkage_comparison_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_linkage_comparison_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_linkage_comparison_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_linkage_comparison_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lle_digits_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lle_digits_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lle_digits_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lle_digits_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lof_novelty_detection_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lof_novelty_detection_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lof_novelty_detection_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lof_novelty_detection_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lof_outlier_detection_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lof_outlier_detection_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lof_outlier_detection_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lof_outlier_detection_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_l1_l2_sparsity_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_l1_l2_sparsity_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_l1_l2_sparsity_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_l1_l2_sparsity_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_multinomial_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_multinomial_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_multinomial_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_multinomial_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_path_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_path_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_path_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_path_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_logistic_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lw_vs_oas_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lw_vs_oas_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lw_vs_oas_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_lw_vs_oas_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mahalanobis_distances_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mahalanobis_distances_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mahalanobis_distances_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mahalanobis_distances_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_manifold_sphere_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_manifold_sphere_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_manifold_sphere_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_manifold_sphere_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_map_data_to_normal_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_map_data_to_normal_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_map_data_to_normal_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_map_data_to_normal_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mds_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mds_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mds_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mds_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mean_shift_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mean_shift_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mean_shift_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mean_shift_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mini_batch_kmeans_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mini_batch_kmeans_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mini_batch_kmeans_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mini_batch_kmeans_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_missing_values_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_missing_values_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_missing_values_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_missing_values_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mlp_alpha_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mlp_alpha_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mlp_alpha_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mlp_alpha_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mlp_training_curves_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mlp_training_curves_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mlp_training_curves_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mlp_training_curves_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mnist_filters_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mnist_filters_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mnist_filters_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_mnist_filters_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_model_complexity_influence_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_model_complexity_influence_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_model_complexity_influence_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_model_complexity_influence_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multi_metric_evaluation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multi_metric_evaluation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multi_metric_evaluation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multi_metric_evaluation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multi_task_lasso_support_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multi_task_lasso_support_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multi_task_lasso_support_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multi_task_lasso_support_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multilabel_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multilabel_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multilabel_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multilabel_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multioutput_face_completion_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multioutput_face_completion_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multioutput_face_completion_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_multioutput_face_completion_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_classification_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_classification_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_classification_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_classification_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_dim_reduction_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_dim_reduction_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_dim_reduction_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_dim_reduction_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_illustration_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_illustration_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_illustration_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nca_illustration_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nearest_centroid_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nearest_centroid_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nearest_centroid_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nearest_centroid_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nested_cross_validation_iris_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nested_cross_validation_iris_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nested_cross_validation_iris_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_nested_cross_validation_iris_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_3d_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_3d_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_3d_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_3d_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_ridge_variance_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_ridge_variance_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_ridge_variance_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_ridge_variance_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ols_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_omp_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_omp_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_omp_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_omp_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_oneclass_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_oneclass_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_oneclass_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_oneclass_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_optics_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_optics_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_optics_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_optics_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_out_of_core_classification_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_out_of_core_classification_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_out_of_core_classification_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_out_of_core_classification_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_outlier_detection_housing_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_outlier_detection_housing_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_outlier_detection_housing_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_outlier_detection_housing_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_partial_dependence_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_partial_dependence_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_partial_dependence_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_partial_dependence_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_partial_dependence_visualization_api_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_partial_dependence_visualization_api_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_partial_dependence_visualization_api_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_partial_dependence_visualization_api_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_3d_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_3d_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_3d_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_3d_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_iris_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_iris_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_iris_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_iris_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_vs_fa_model_selection_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_vs_fa_model_selection_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_vs_fa_model_selection_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_vs_fa_model_selection_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_vs_lda_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_vs_lda_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_vs_lda_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_pca_vs_lda_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_importance_multicollinear_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_importance_multicollinear_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_importance_multicollinear_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_importance_multicollinear_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_importance_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_importance_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_importance_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_importance_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_test_for_classification_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_test_for_classification_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_test_for_classification_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_permutation_test_for_classification_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_polynomial_interpolation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_polynomial_interpolation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_polynomial_interpolation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_polynomial_interpolation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_precision_recall_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_precision_recall_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_precision_recall_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_precision_recall_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_prediction_latency_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_prediction_latency_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_prediction_latency_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_prediction_latency_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_dataset_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_dataset_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_dataset_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_dataset_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_forest_embedding_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_forest_embedding_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_forest_embedding_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_forest_embedding_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_forest_regression_multioutput_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_forest_regression_multioutput_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_forest_regression_multioutput_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_forest_regression_multioutput_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_multilabel_dataset_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_multilabel_dataset_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_multilabel_dataset_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_random_multilabel_dataset_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_randomized_search_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_randomized_search_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_randomized_search_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_randomized_search_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ransac_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ransac_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ransac_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ransac_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rbf_parameters_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rbf_parameters_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rbf_parameters_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rbf_parameters_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rbm_logistic_classification_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rbm_logistic_classification_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rbm_logistic_classification_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rbm_logistic_classification_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_regression_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_regression_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_regression_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_regression_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_release_highlights_0_22_0_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_release_highlights_0_22_0_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_release_highlights_0_22_0_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_release_highlights_0_22_0_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rfe_digits_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rfe_digits_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rfe_digits_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rfe_digits_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rfe_with_cross_validation_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rfe_with_cross_validation_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rfe_with_cross_validation_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_rfe_with_cross_validation_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ridge_coeffs_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ridge_coeffs_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ridge_coeffs_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ridge_coeffs_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ridge_path_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ridge_path_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ridge_path_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ridge_path_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_robust_fit_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_robust_fit_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_robust_fit_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_robust_fit_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_robust_vs_empirical_covariance_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_robust_vs_empirical_covariance_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_robust_vs_empirical_covariance_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_robust_vs_empirical_covariance_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_crossval_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_crossval_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_crossval_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_crossval_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_curve_visualization_api_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_curve_visualization_api_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_curve_visualization_api_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_curve_visualization_api_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_roc_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_scaling_importance_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_scaling_importance_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_scaling_importance_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_scaling_importance_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_segmentation_toy_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_segmentation_toy_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_segmentation_toy_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_segmentation_toy_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_select_from_model_boston_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_select_from_model_boston_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_select_from_model_boston_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_select_from_model_boston_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_separating_hyperplane_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_separating_hyperplane_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_separating_hyperplane_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_separating_hyperplane_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_separating_hyperplane_unbalanced_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_separating_hyperplane_unbalanced_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_separating_hyperplane_unbalanced_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_separating_hyperplane_unbalanced_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_comparison_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_comparison_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_comparison_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_comparison_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_early_stopping_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_early_stopping_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_early_stopping_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_early_stopping_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_iris_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_iris_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_iris_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_iris_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_loss_functions_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_loss_functions_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_loss_functions_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_loss_functions_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_penalties_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_penalties_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_penalties_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_penalties_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_separating_hyperplane_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_separating_hyperplane_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_separating_hyperplane_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_separating_hyperplane_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_weighted_samples_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_weighted_samples_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_weighted_samples_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sgd_weighted_samples_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_coding_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_coding_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_coding_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_coding_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_cov_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_cov_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_cov_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_cov_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_logistic_regression_20newsgroups_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_logistic_regression_20newsgroups_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_logistic_regression_20newsgroups_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_logistic_regression_20newsgroups_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_logistic_regression_mnist_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_logistic_regression_mnist_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_logistic_regression_mnist_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_sparse_logistic_regression_mnist_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_species_distribution_modeling_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_species_distribution_modeling_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_species_distribution_modeling_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_species_distribution_modeling_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_species_kde_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_species_kde_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_species_kde_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_species_kde_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_spectral_biclustering_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_spectral_biclustering_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_spectral_biclustering_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_spectral_biclustering_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_spectral_coclustering_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_spectral_coclustering_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_spectral_coclustering_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_spectral_coclustering_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_stack_predictors_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_stack_predictors_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_stack_predictors_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_stack_predictors_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_stock_market_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_stock_market_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_stock_market_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_stock_market_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_anova_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_anova_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_anova_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_anova_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_kernels_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_kernels_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_kernels_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_kernels_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_margin_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_margin_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_margin_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_margin_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_nonlinear_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_nonlinear_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_nonlinear_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_nonlinear_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_regression_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_regression_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_regression_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_regression_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_scale_c_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_scale_c_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_scale_c_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_scale_c_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_tie_breaking_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_tie_breaking_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_tie_breaking_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_svm_tie_breaking_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_swissroll_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_swissroll_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_swissroll_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_swissroll_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_t_sne_perplexity_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_t_sne_perplexity_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_t_sne_perplexity_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_t_sne_perplexity_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_theilsen_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_theilsen_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_theilsen_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_theilsen_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tomography_l1_reconstruction_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tomography_l1_reconstruction_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tomography_l1_reconstruction_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tomography_l1_reconstruction_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_topics_extraction_with_nmf_lda_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_topics_extraction_with_nmf_lda_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_topics_extraction_with_nmf_lda_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_topics_extraction_with_nmf_lda_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_train_error_vs_test_error_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_train_error_vs_test_error_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_train_error_vs_test_error_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_train_error_vs_test_error_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_transformed_target_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_transformed_target_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_transformed_target_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_transformed_target_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tree_regression_multioutput_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tree_regression_multioutput_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tree_regression_multioutput_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tree_regression_multioutput_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tree_regression_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tree_regression_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tree_regression_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_tree_regression_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_underfitting_overfitting_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_underfitting_overfitting_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_underfitting_overfitting_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_underfitting_overfitting_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_unveil_tree_structure_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_unveil_tree_structure_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_unveil_tree_structure_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_unveil_tree_structure_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_validation_curve_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_validation_curve_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_validation_curve_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_validation_curve_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_decision_regions_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_decision_regions_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_decision_regions_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_decision_regions_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_probas_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_probas_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_probas_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_probas_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_regressor_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_regressor_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_regressor_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_voting_regressor_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ward_structured_vs_unstructured_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ward_structured_vs_unstructured_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ward_structured_vs_unstructured_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_ward_structured_vs_unstructured_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_weighted_samples_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_weighted_samples_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_weighted_samples_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_plot_weighted_samples_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_svm_gui_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_svm_gui_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_svm_gui_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_svm_gui_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_wikipedia_principal_eigenvector_thumb.png b/Sklearn/sklearn-doc-zh/examples/img/sphx_glr_wikipedia_principal_eigenvector_thumb.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/examples/img/sphx_glr_wikipedia_principal_eigenvector_thumb.png
rename to Sklearn/sklearn-doc-zh/examples/img/sphx_glr_wikipedia_principal_eigenvector_thumb.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/1.md b/Sklearn/sklearn-doc-zh/master/1.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/1.md
rename to Sklearn/sklearn-doc-zh/master/1.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/10.md b/Sklearn/sklearn-doc-zh/master/10.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/10.md
rename to Sklearn/sklearn-doc-zh/master/10.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/11.md b/Sklearn/sklearn-doc-zh/master/11.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/11.md
rename to Sklearn/sklearn-doc-zh/master/11.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/12.md b/Sklearn/sklearn-doc-zh/master/12.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/12.md
rename to Sklearn/sklearn-doc-zh/master/12.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/13.md b/Sklearn/sklearn-doc-zh/master/13.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/13.md
rename to Sklearn/sklearn-doc-zh/master/13.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/14.md b/Sklearn/sklearn-doc-zh/master/14.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/14.md
rename to Sklearn/sklearn-doc-zh/master/14.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/15.md b/Sklearn/sklearn-doc-zh/master/15.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/15.md
rename to Sklearn/sklearn-doc-zh/master/15.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/16.md b/Sklearn/sklearn-doc-zh/master/16.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/16.md
rename to Sklearn/sklearn-doc-zh/master/16.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/17.md b/Sklearn/sklearn-doc-zh/master/17.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/17.md
rename to Sklearn/sklearn-doc-zh/master/17.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/18.md b/Sklearn/sklearn-doc-zh/master/18.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/18.md
rename to Sklearn/sklearn-doc-zh/master/18.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/19.md b/Sklearn/sklearn-doc-zh/master/19.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/19.md
rename to Sklearn/sklearn-doc-zh/master/19.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/2.md b/Sklearn/sklearn-doc-zh/master/2.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/2.md
rename to Sklearn/sklearn-doc-zh/master/2.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/20.md b/Sklearn/sklearn-doc-zh/master/20.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/20.md
rename to Sklearn/sklearn-doc-zh/master/20.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/21.md b/Sklearn/sklearn-doc-zh/master/21.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/21.md
rename to Sklearn/sklearn-doc-zh/master/21.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/22.md b/Sklearn/sklearn-doc-zh/master/22.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/22.md
rename to Sklearn/sklearn-doc-zh/master/22.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/23.md b/Sklearn/sklearn-doc-zh/master/23.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/23.md
rename to Sklearn/sklearn-doc-zh/master/23.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/24.md b/Sklearn/sklearn-doc-zh/master/24.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/24.md
rename to Sklearn/sklearn-doc-zh/master/24.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/25.md b/Sklearn/sklearn-doc-zh/master/25.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/25.md
rename to Sklearn/sklearn-doc-zh/master/25.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/26.md b/Sklearn/sklearn-doc-zh/master/26.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/26.md
rename to Sklearn/sklearn-doc-zh/master/26.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/27.md b/Sklearn/sklearn-doc-zh/master/27.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/27.md
rename to Sklearn/sklearn-doc-zh/master/27.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/28.md b/Sklearn/sklearn-doc-zh/master/28.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/28.md
rename to Sklearn/sklearn-doc-zh/master/28.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/29.md b/Sklearn/sklearn-doc-zh/master/29.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/29.md
rename to Sklearn/sklearn-doc-zh/master/29.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/3.md b/Sklearn/sklearn-doc-zh/master/3.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/3.md
rename to Sklearn/sklearn-doc-zh/master/3.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/30.md b/Sklearn/sklearn-doc-zh/master/30.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/30.md
rename to Sklearn/sklearn-doc-zh/master/30.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/31.md b/Sklearn/sklearn-doc-zh/master/31.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/31.md
rename to Sklearn/sklearn-doc-zh/master/31.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/32.md b/Sklearn/sklearn-doc-zh/master/32.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/32.md
rename to Sklearn/sklearn-doc-zh/master/32.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/33.md b/Sklearn/sklearn-doc-zh/master/33.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/33.md
rename to Sklearn/sklearn-doc-zh/master/33.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/34.md b/Sklearn/sklearn-doc-zh/master/34.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/34.md
rename to Sklearn/sklearn-doc-zh/master/34.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/35.md b/Sklearn/sklearn-doc-zh/master/35.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/35.md
rename to Sklearn/sklearn-doc-zh/master/35.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/36.md b/Sklearn/sklearn-doc-zh/master/36.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/36.md
rename to Sklearn/sklearn-doc-zh/master/36.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/37.md b/Sklearn/sklearn-doc-zh/master/37.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/37.md
rename to Sklearn/sklearn-doc-zh/master/37.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/38.md b/Sklearn/sklearn-doc-zh/master/38.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/38.md
rename to Sklearn/sklearn-doc-zh/master/38.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/39.md b/Sklearn/sklearn-doc-zh/master/39.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/39.md
rename to Sklearn/sklearn-doc-zh/master/39.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/4.md b/Sklearn/sklearn-doc-zh/master/4.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/4.md
rename to Sklearn/sklearn-doc-zh/master/4.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/40.md b/Sklearn/sklearn-doc-zh/master/40.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/40.md
rename to Sklearn/sklearn-doc-zh/master/40.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/41.md b/Sklearn/sklearn-doc-zh/master/41.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/41.md
rename to Sklearn/sklearn-doc-zh/master/41.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/42.md b/Sklearn/sklearn-doc-zh/master/42.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/42.md
rename to Sklearn/sklearn-doc-zh/master/42.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/43.md b/Sklearn/sklearn-doc-zh/master/43.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/43.md
rename to Sklearn/sklearn-doc-zh/master/43.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/44.md b/Sklearn/sklearn-doc-zh/master/44.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/44.md
rename to Sklearn/sklearn-doc-zh/master/44.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/45.md b/Sklearn/sklearn-doc-zh/master/45.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/45.md
rename to Sklearn/sklearn-doc-zh/master/45.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/46.md b/Sklearn/sklearn-doc-zh/master/46.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/46.md
rename to Sklearn/sklearn-doc-zh/master/46.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/47.md b/Sklearn/sklearn-doc-zh/master/47.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/47.md
rename to Sklearn/sklearn-doc-zh/master/47.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/48.md b/Sklearn/sklearn-doc-zh/master/48.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/48.md
rename to Sklearn/sklearn-doc-zh/master/48.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/5.md b/Sklearn/sklearn-doc-zh/master/5.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/5.md
rename to Sklearn/sklearn-doc-zh/master/5.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/50.md b/Sklearn/sklearn-doc-zh/master/50.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/50.md
rename to Sklearn/sklearn-doc-zh/master/50.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/51.md b/Sklearn/sklearn-doc-zh/master/51.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/51.md
rename to Sklearn/sklearn-doc-zh/master/51.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/52.md b/Sklearn/sklearn-doc-zh/master/52.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/52.md
rename to Sklearn/sklearn-doc-zh/master/52.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/53.md b/Sklearn/sklearn-doc-zh/master/53.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/53.md
rename to Sklearn/sklearn-doc-zh/master/53.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/54.md b/Sklearn/sklearn-doc-zh/master/54.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/54.md
rename to Sklearn/sklearn-doc-zh/master/54.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/55.md b/Sklearn/sklearn-doc-zh/master/55.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/55.md
rename to Sklearn/sklearn-doc-zh/master/55.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/56.md b/Sklearn/sklearn-doc-zh/master/56.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/56.md
rename to Sklearn/sklearn-doc-zh/master/56.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/57.md b/Sklearn/sklearn-doc-zh/master/57.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/57.md
rename to Sklearn/sklearn-doc-zh/master/57.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/58.md b/Sklearn/sklearn-doc-zh/master/58.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/58.md
rename to Sklearn/sklearn-doc-zh/master/58.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/59.md b/Sklearn/sklearn-doc-zh/master/59.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/59.md
rename to Sklearn/sklearn-doc-zh/master/59.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/6.md b/Sklearn/sklearn-doc-zh/master/6.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/6.md
rename to Sklearn/sklearn-doc-zh/master/6.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/60.md b/Sklearn/sklearn-doc-zh/master/60.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/60.md
rename to Sklearn/sklearn-doc-zh/master/60.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/61.md b/Sklearn/sklearn-doc-zh/master/61.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/61.md
rename to Sklearn/sklearn-doc-zh/master/61.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/62.md b/Sklearn/sklearn-doc-zh/master/62.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/62.md
rename to Sklearn/sklearn-doc-zh/master/62.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/63.md b/Sklearn/sklearn-doc-zh/master/63.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/63.md
rename to Sklearn/sklearn-doc-zh/master/63.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/64.md b/Sklearn/sklearn-doc-zh/master/64.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/64.md
rename to Sklearn/sklearn-doc-zh/master/64.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/7.md b/Sklearn/sklearn-doc-zh/master/7.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/7.md
rename to Sklearn/sklearn-doc-zh/master/7.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/8.md b/Sklearn/sklearn-doc-zh/master/8.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/8.md
rename to Sklearn/sklearn-doc-zh/master/8.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/9.md b/Sklearn/sklearn-doc-zh/master/9.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/9.md
rename to Sklearn/sklearn-doc-zh/master/9.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/SUMMARY.md b/Sklearn/sklearn-doc-zh/master/SUMMARY.md
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/SUMMARY.md
rename to Sklearn/sklearn-doc-zh/master/SUMMARY.md
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/001d34ad977d110ce0931112c362d07e.jpg b/Sklearn/sklearn-doc-zh/master/img/001d34ad977d110ce0931112c362d07e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/001d34ad977d110ce0931112c362d07e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/001d34ad977d110ce0931112c362d07e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/00a1e1837f700cef7352acfafd328607.jpg b/Sklearn/sklearn-doc-zh/master/img/00a1e1837f700cef7352acfafd328607.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/00a1e1837f700cef7352acfafd328607.jpg
rename to Sklearn/sklearn-doc-zh/master/img/00a1e1837f700cef7352acfafd328607.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/00af2cbeb1deda7098a17d0491060339.jpg b/Sklearn/sklearn-doc-zh/master/img/00af2cbeb1deda7098a17d0491060339.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/00af2cbeb1deda7098a17d0491060339.jpg
rename to Sklearn/sklearn-doc-zh/master/img/00af2cbeb1deda7098a17d0491060339.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/01024e528443374ebac4e8cb2f6dc463.jpg b/Sklearn/sklearn-doc-zh/master/img/01024e528443374ebac4e8cb2f6dc463.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/01024e528443374ebac4e8cb2f6dc463.jpg
rename to Sklearn/sklearn-doc-zh/master/img/01024e528443374ebac4e8cb2f6dc463.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/014b479ec81146a77562d251269a0f2e.jpg b/Sklearn/sklearn-doc-zh/master/img/014b479ec81146a77562d251269a0f2e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/014b479ec81146a77562d251269a0f2e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/014b479ec81146a77562d251269a0f2e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/015fcf78112c08948e66bb51171ae137.jpg b/Sklearn/sklearn-doc-zh/master/img/015fcf78112c08948e66bb51171ae137.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/015fcf78112c08948e66bb51171ae137.jpg
rename to Sklearn/sklearn-doc-zh/master/img/015fcf78112c08948e66bb51171ae137.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/017a1400b81bc9ef956adc43050bb5c8.jpg b/Sklearn/sklearn-doc-zh/master/img/017a1400b81bc9ef956adc43050bb5c8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/017a1400b81bc9ef956adc43050bb5c8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/017a1400b81bc9ef956adc43050bb5c8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/018a312145ba4dee4c257135644ced91.jpg b/Sklearn/sklearn-doc-zh/master/img/018a312145ba4dee4c257135644ced91.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/018a312145ba4dee4c257135644ced91.jpg
rename to Sklearn/sklearn-doc-zh/master/img/018a312145ba4dee4c257135644ced91.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/01e7c74ccc13a6832f6bfcd46b442a1b.jpg b/Sklearn/sklearn-doc-zh/master/img/01e7c74ccc13a6832f6bfcd46b442a1b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/01e7c74ccc13a6832f6bfcd46b442a1b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/01e7c74ccc13a6832f6bfcd46b442a1b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/021new1.jpg b/Sklearn/sklearn-doc-zh/master/img/021new1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/021new1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/021new1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0243e3516b65d89a7e3da13680c1a1b7.jpg b/Sklearn/sklearn-doc-zh/master/img/0243e3516b65d89a7e3da13680c1a1b7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0243e3516b65d89a7e3da13680c1a1b7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0243e3516b65d89a7e3da13680c1a1b7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/02848ebe72029503696b6523e4052c0c.jpg b/Sklearn/sklearn-doc-zh/master/img/02848ebe72029503696b6523e4052c0c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/02848ebe72029503696b6523e4052c0c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/02848ebe72029503696b6523e4052c0c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/03269860556d3525e4ae266f30c6982d.jpg b/Sklearn/sklearn-doc-zh/master/img/03269860556d3525e4ae266f30c6982d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/03269860556d3525e4ae266f30c6982d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/03269860556d3525e4ae266f30c6982d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0333d4e1607c1cab19f576a212267ec1.jpg b/Sklearn/sklearn-doc-zh/master/img/0333d4e1607c1cab19f576a212267ec1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0333d4e1607c1cab19f576a212267ec1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0333d4e1607c1cab19f576a212267ec1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0345993f9c673bd3a928dc6cb07bcae1.jpg b/Sklearn/sklearn-doc-zh/master/img/0345993f9c673bd3a928dc6cb07bcae1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0345993f9c673bd3a928dc6cb07bcae1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0345993f9c673bd3a928dc6cb07bcae1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/035f009eecfdebf82b493f797843a919.jpg b/Sklearn/sklearn-doc-zh/master/img/035f009eecfdebf82b493f797843a919.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/035f009eecfdebf82b493f797843a919.jpg
rename to Sklearn/sklearn-doc-zh/master/img/035f009eecfdebf82b493f797843a919.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/03aa3da890dedc42b04c1df154062257.jpg b/Sklearn/sklearn-doc-zh/master/img/03aa3da890dedc42b04c1df154062257.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/03aa3da890dedc42b04c1df154062257.jpg
rename to Sklearn/sklearn-doc-zh/master/img/03aa3da890dedc42b04c1df154062257.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/03dc262433e357325639af531c5bf70e.jpg b/Sklearn/sklearn-doc-zh/master/img/03dc262433e357325639af531c5bf70e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/03dc262433e357325639af531c5bf70e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/03dc262433e357325639af531c5bf70e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/04388b884d40fc8b56559b6c2364e7ce.jpg b/Sklearn/sklearn-doc-zh/master/img/04388b884d40fc8b56559b6c2364e7ce.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/04388b884d40fc8b56559b6c2364e7ce.jpg
rename to Sklearn/sklearn-doc-zh/master/img/04388b884d40fc8b56559b6c2364e7ce.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0449a2a9bce6d759e7253da7d17fa938.jpg b/Sklearn/sklearn-doc-zh/master/img/0449a2a9bce6d759e7253da7d17fa938.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0449a2a9bce6d759e7253da7d17fa938.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0449a2a9bce6d759e7253da7d17fa938.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/047826f1c2e6f2687b304cb5217be8d8.jpg b/Sklearn/sklearn-doc-zh/master/img/047826f1c2e6f2687b304cb5217be8d8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/047826f1c2e6f2687b304cb5217be8d8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/047826f1c2e6f2687b304cb5217be8d8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/05459a925be9207abbb2f72203e48cf2.jpg b/Sklearn/sklearn-doc-zh/master/img/05459a925be9207abbb2f72203e48cf2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/05459a925be9207abbb2f72203e48cf2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/05459a925be9207abbb2f72203e48cf2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/05588cdc4e82289930a92b0097f67d2d.jpg b/Sklearn/sklearn-doc-zh/master/img/05588cdc4e82289930a92b0097f67d2d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/05588cdc4e82289930a92b0097f67d2d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/05588cdc4e82289930a92b0097f67d2d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0563dd4e7c322dfdafde0770d8a9dc4a.jpg b/Sklearn/sklearn-doc-zh/master/img/0563dd4e7c322dfdafde0770d8a9dc4a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0563dd4e7c322dfdafde0770d8a9dc4a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0563dd4e7c322dfdafde0770d8a9dc4a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/05c3632395ec8941c82954de930b9d3e.jpg b/Sklearn/sklearn-doc-zh/master/img/05c3632395ec8941c82954de930b9d3e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/05c3632395ec8941c82954de930b9d3e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/05c3632395ec8941c82954de930b9d3e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/06731dd14500ea710a28370843818539.jpg b/Sklearn/sklearn-doc-zh/master/img/06731dd14500ea710a28370843818539.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/06731dd14500ea710a28370843818539.jpg
rename to Sklearn/sklearn-doc-zh/master/img/06731dd14500ea710a28370843818539.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0679b7c6ff086b5e9ad73b1cb08d9205.jpg b/Sklearn/sklearn-doc-zh/master/img/0679b7c6ff086b5e9ad73b1cb08d9205.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0679b7c6ff086b5e9ad73b1cb08d9205.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0679b7c6ff086b5e9ad73b1cb08d9205.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/06d3f93ccdf3b4b5cd0fea7225848848.jpg b/Sklearn/sklearn-doc-zh/master/img/06d3f93ccdf3b4b5cd0fea7225848848.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/06d3f93ccdf3b4b5cd0fea7225848848.jpg
rename to Sklearn/sklearn-doc-zh/master/img/06d3f93ccdf3b4b5cd0fea7225848848.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/070018458bf56c0d94293de45828e878.jpg b/Sklearn/sklearn-doc-zh/master/img/070018458bf56c0d94293de45828e878.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/070018458bf56c0d94293de45828e878.jpg
rename to Sklearn/sklearn-doc-zh/master/img/070018458bf56c0d94293de45828e878.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/07610ee9d3a524eb0a3fb7ae409614c1.jpg b/Sklearn/sklearn-doc-zh/master/img/07610ee9d3a524eb0a3fb7ae409614c1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/07610ee9d3a524eb0a3fb7ae409614c1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/07610ee9d3a524eb0a3fb7ae409614c1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0775c03fc710a24df297dedcec515aaf.jpg b/Sklearn/sklearn-doc-zh/master/img/0775c03fc710a24df297dedcec515aaf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0775c03fc710a24df297dedcec515aaf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0775c03fc710a24df297dedcec515aaf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/07794b8fa83c7e18c5d1fb175fd7d7bd.jpg b/Sklearn/sklearn-doc-zh/master/img/07794b8fa83c7e18c5d1fb175fd7d7bd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/07794b8fa83c7e18c5d1fb175fd7d7bd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/07794b8fa83c7e18c5d1fb175fd7d7bd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/07921ae49a32570fd5559004f1cca103.jpg b/Sklearn/sklearn-doc-zh/master/img/07921ae49a32570fd5559004f1cca103.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/07921ae49a32570fd5559004f1cca103.jpg
rename to Sklearn/sklearn-doc-zh/master/img/07921ae49a32570fd5559004f1cca103.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/088266f72839f4195c9058dfd17d778b.jpg b/Sklearn/sklearn-doc-zh/master/img/088266f72839f4195c9058dfd17d778b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/088266f72839f4195c9058dfd17d778b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/088266f72839f4195c9058dfd17d778b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/08a5f2b42e497598497f5265194ce4a3.jpg b/Sklearn/sklearn-doc-zh/master/img/08a5f2b42e497598497f5265194ce4a3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/08a5f2b42e497598497f5265194ce4a3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/08a5f2b42e497598497f5265194ce4a3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/094a3a73abc84f5a6c1e0b72e15152d7.jpg b/Sklearn/sklearn-doc-zh/master/img/094a3a73abc84f5a6c1e0b72e15152d7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/094a3a73abc84f5a6c1e0b72e15152d7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/094a3a73abc84f5a6c1e0b72e15152d7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0992b23a98660c7b2102695e74407be2.jpg b/Sklearn/sklearn-doc-zh/master/img/0992b23a98660c7b2102695e74407be2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0992b23a98660c7b2102695e74407be2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0992b23a98660c7b2102695e74407be2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/09eb9862841b1c17d77e2e4830df3770.jpg b/Sklearn/sklearn-doc-zh/master/img/09eb9862841b1c17d77e2e4830df3770.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/09eb9862841b1c17d77e2e4830df3770.jpg
rename to Sklearn/sklearn-doc-zh/master/img/09eb9862841b1c17d77e2e4830df3770.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/09ed5f467366506cf3b8d425d00db588.jpg b/Sklearn/sklearn-doc-zh/master/img/09ed5f467366506cf3b8d425d00db588.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/09ed5f467366506cf3b8d425d00db588.jpg
rename to Sklearn/sklearn-doc-zh/master/img/09ed5f467366506cf3b8d425d00db588.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0a3546c8f30354c128ef2acb96e91e16.jpg b/Sklearn/sklearn-doc-zh/master/img/0a3546c8f30354c128ef2acb96e91e16.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0a3546c8f30354c128ef2acb96e91e16.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0a3546c8f30354c128ef2acb96e91e16.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0a7b173908e1ba21b1132121dd409ded.jpg b/Sklearn/sklearn-doc-zh/master/img/0a7b173908e1ba21b1132121dd409ded.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0a7b173908e1ba21b1132121dd409ded.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0a7b173908e1ba21b1132121dd409ded.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0acf1512409eb0a9a90102698304fd52.jpg b/Sklearn/sklearn-doc-zh/master/img/0acf1512409eb0a9a90102698304fd52.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0acf1512409eb0a9a90102698304fd52.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0acf1512409eb0a9a90102698304fd52.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0bb5a8e1b524523dcfb5104d9f20ba2b.jpg b/Sklearn/sklearn-doc-zh/master/img/0bb5a8e1b524523dcfb5104d9f20ba2b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0bb5a8e1b524523dcfb5104d9f20ba2b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0bb5a8e1b524523dcfb5104d9f20ba2b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0bc78b13595e61ff422e00bb2686c7e8.jpg b/Sklearn/sklearn-doc-zh/master/img/0bc78b13595e61ff422e00bb2686c7e8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0bc78b13595e61ff422e00bb2686c7e8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0bc78b13595e61ff422e00bb2686c7e8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0cd05229735908f0f99e59deb90a4434.jpg b/Sklearn/sklearn-doc-zh/master/img/0cd05229735908f0f99e59deb90a4434.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0cd05229735908f0f99e59deb90a4434.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0cd05229735908f0f99e59deb90a4434.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0ce3ae4e9a8bbd17b08f5fae78d60f21.jpg b/Sklearn/sklearn-doc-zh/master/img/0ce3ae4e9a8bbd17b08f5fae78d60f21.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0ce3ae4e9a8bbd17b08f5fae78d60f21.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0ce3ae4e9a8bbd17b08f5fae78d60f21.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0d0c4e4a12f6e3bb90bf30161951dcc5.jpg b/Sklearn/sklearn-doc-zh/master/img/0d0c4e4a12f6e3bb90bf30161951dcc5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0d0c4e4a12f6e3bb90bf30161951dcc5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0d0c4e4a12f6e3bb90bf30161951dcc5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0dd4aedd59a06ecbaead248c17a3ce80.jpg b/Sklearn/sklearn-doc-zh/master/img/0dd4aedd59a06ecbaead248c17a3ce80.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0dd4aedd59a06ecbaead248c17a3ce80.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0dd4aedd59a06ecbaead248c17a3ce80.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0e7d39317aed470ee92522354b5fbe04.jpg b/Sklearn/sklearn-doc-zh/master/img/0e7d39317aed470ee92522354b5fbe04.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0e7d39317aed470ee92522354b5fbe04.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0e7d39317aed470ee92522354b5fbe04.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0e8aa67015918fa2807e6ddf7192c32f.jpg b/Sklearn/sklearn-doc-zh/master/img/0e8aa67015918fa2807e6ddf7192c32f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0e8aa67015918fa2807e6ddf7192c32f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0e8aa67015918fa2807e6ddf7192c32f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0f30c5ace43eda2a8d25c6e9365264d7.jpg b/Sklearn/sklearn-doc-zh/master/img/0f30c5ace43eda2a8d25c6e9365264d7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0f30c5ace43eda2a8d25c6e9365264d7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0f30c5ace43eda2a8d25c6e9365264d7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0f92bc682b050115d03c625ce770c77d.jpg b/Sklearn/sklearn-doc-zh/master/img/0f92bc682b050115d03c625ce770c77d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0f92bc682b050115d03c625ce770c77d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0f92bc682b050115d03c625ce770c77d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0faa297883831c0432cf4d72960eeb6c.jpg b/Sklearn/sklearn-doc-zh/master/img/0faa297883831c0432cf4d72960eeb6c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0faa297883831c0432cf4d72960eeb6c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0faa297883831c0432cf4d72960eeb6c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0fac1c7ec23344da41ff45485bb3ac12.jpg b/Sklearn/sklearn-doc-zh/master/img/0fac1c7ec23344da41ff45485bb3ac12.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0fac1c7ec23344da41ff45485bb3ac12.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0fac1c7ec23344da41ff45485bb3ac12.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0fccbdc535b0a4d8003725e8ad606561.jpg b/Sklearn/sklearn-doc-zh/master/img/0fccbdc535b0a4d8003725e8ad606561.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0fccbdc535b0a4d8003725e8ad606561.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0fccbdc535b0a4d8003725e8ad606561.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0fd5cc61b1ca3db3b190fbfad2a38813.jpg b/Sklearn/sklearn-doc-zh/master/img/0fd5cc61b1ca3db3b190fbfad2a38813.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0fd5cc61b1ca3db3b190fbfad2a38813.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0fd5cc61b1ca3db3b190fbfad2a38813.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/0fec9d3a9833abc417480a03be883b3e.jpg b/Sklearn/sklearn-doc-zh/master/img/0fec9d3a9833abc417480a03be883b3e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/0fec9d3a9833abc417480a03be883b3e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/0fec9d3a9833abc417480a03be883b3e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/10026a0d2a4dcca9387e58932c14f0e7.jpg b/Sklearn/sklearn-doc-zh/master/img/10026a0d2a4dcca9387e58932c14f0e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/10026a0d2a4dcca9387e58932c14f0e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/10026a0d2a4dcca9387e58932c14f0e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/107556ec49c074270575d6b99f3d2029.jpg b/Sklearn/sklearn-doc-zh/master/img/107556ec49c074270575d6b99f3d2029.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/107556ec49c074270575d6b99f3d2029.jpg
rename to Sklearn/sklearn-doc-zh/master/img/107556ec49c074270575d6b99f3d2029.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1091409a4db7e77230536d6b05b4fae6.jpg b/Sklearn/sklearn-doc-zh/master/img/1091409a4db7e77230536d6b05b4fae6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1091409a4db7e77230536d6b05b4fae6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1091409a4db7e77230536d6b05b4fae6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/10a8344b866fca53744b728ef788a668.jpg b/Sklearn/sklearn-doc-zh/master/img/10a8344b866fca53744b728ef788a668.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/10a8344b866fca53744b728ef788a668.jpg
rename to Sklearn/sklearn-doc-zh/master/img/10a8344b866fca53744b728ef788a668.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/10bfda066ccebace59b1d11135e10196.jpg b/Sklearn/sklearn-doc-zh/master/img/10bfda066ccebace59b1d11135e10196.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/10bfda066ccebace59b1d11135e10196.jpg
rename to Sklearn/sklearn-doc-zh/master/img/10bfda066ccebace59b1d11135e10196.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/10ce8fc56aa233e3e9cec9776dc315e6.jpg b/Sklearn/sklearn-doc-zh/master/img/10ce8fc56aa233e3e9cec9776dc315e6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/10ce8fc56aa233e3e9cec9776dc315e6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/10ce8fc56aa233e3e9cec9776dc315e6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/11265c80ea298a58e0a1010736d28b38.jpg b/Sklearn/sklearn-doc-zh/master/img/11265c80ea298a58e0a1010736d28b38.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/11265c80ea298a58e0a1010736d28b38.jpg
rename to Sklearn/sklearn-doc-zh/master/img/11265c80ea298a58e0a1010736d28b38.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/11336a74b43f75a360b60ce81f9cbdc0.jpg b/Sklearn/sklearn-doc-zh/master/img/11336a74b43f75a360b60ce81f9cbdc0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/11336a74b43f75a360b60ce81f9cbdc0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/11336a74b43f75a360b60ce81f9cbdc0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/114b22cba4861a82ce7df1eab3219a0d.jpg b/Sklearn/sklearn-doc-zh/master/img/114b22cba4861a82ce7df1eab3219a0d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/114b22cba4861a82ce7df1eab3219a0d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/114b22cba4861a82ce7df1eab3219a0d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/11c00539ec3e5944afd76511830591db.jpg b/Sklearn/sklearn-doc-zh/master/img/11c00539ec3e5944afd76511830591db.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/11c00539ec3e5944afd76511830591db.jpg
rename to Sklearn/sklearn-doc-zh/master/img/11c00539ec3e5944afd76511830591db.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/11cde057716cf1a820780a60c8ffa8e4.jpg b/Sklearn/sklearn-doc-zh/master/img/11cde057716cf1a820780a60c8ffa8e4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/11cde057716cf1a820780a60c8ffa8e4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/11cde057716cf1a820780a60c8ffa8e4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1252aa7af065b0afd424b2ff01b4e2a5.jpg b/Sklearn/sklearn-doc-zh/master/img/1252aa7af065b0afd424b2ff01b4e2a5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1252aa7af065b0afd424b2ff01b4e2a5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1252aa7af065b0afd424b2ff01b4e2a5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/12867664a0e0e6047ee303c542b4deac.jpg b/Sklearn/sklearn-doc-zh/master/img/12867664a0e0e6047ee303c542b4deac.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/12867664a0e0e6047ee303c542b4deac.jpg
rename to Sklearn/sklearn-doc-zh/master/img/12867664a0e0e6047ee303c542b4deac.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/12ab1980b4b3f069be032c0d4f1184ed.jpg b/Sklearn/sklearn-doc-zh/master/img/12ab1980b4b3f069be032c0d4f1184ed.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/12ab1980b4b3f069be032c0d4f1184ed.jpg
rename to Sklearn/sklearn-doc-zh/master/img/12ab1980b4b3f069be032c0d4f1184ed.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/12b2c1da1f9041738fa7153efc651372.jpg b/Sklearn/sklearn-doc-zh/master/img/12b2c1da1f9041738fa7153efc651372.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/12b2c1da1f9041738fa7153efc651372.jpg
rename to Sklearn/sklearn-doc-zh/master/img/12b2c1da1f9041738fa7153efc651372.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/12ecd862769bee1e71c75c134b6423bb.jpg b/Sklearn/sklearn-doc-zh/master/img/12ecd862769bee1e71c75c134b6423bb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/12ecd862769bee1e71c75c134b6423bb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/12ecd862769bee1e71c75c134b6423bb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1375f487efd6b9db955b7f7aafecc441.jpg b/Sklearn/sklearn-doc-zh/master/img/1375f487efd6b9db955b7f7aafecc441.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1375f487efd6b9db955b7f7aafecc441.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1375f487efd6b9db955b7f7aafecc441.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/13e06e04807641041a1d2df7a80043e2.jpg b/Sklearn/sklearn-doc-zh/master/img/13e06e04807641041a1d2df7a80043e2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/13e06e04807641041a1d2df7a80043e2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/13e06e04807641041a1d2df7a80043e2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/14120d5c5d7ad74513d356eed762622b.jpg b/Sklearn/sklearn-doc-zh/master/img/14120d5c5d7ad74513d356eed762622b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/14120d5c5d7ad74513d356eed762622b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/14120d5c5d7ad74513d356eed762622b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/148aed7690723555d32f36019c3d6948.jpg b/Sklearn/sklearn-doc-zh/master/img/148aed7690723555d32f36019c3d6948.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/148aed7690723555d32f36019c3d6948.jpg
rename to Sklearn/sklearn-doc-zh/master/img/148aed7690723555d32f36019c3d6948.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/14d65d3148b0ea7c9ecb364423ecb0ed.jpg b/Sklearn/sklearn-doc-zh/master/img/14d65d3148b0ea7c9ecb364423ecb0ed.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/14d65d3148b0ea7c9ecb364423ecb0ed.jpg
rename to Sklearn/sklearn-doc-zh/master/img/14d65d3148b0ea7c9ecb364423ecb0ed.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/14f6506599a88a5297ea712fa70eece4.jpg b/Sklearn/sklearn-doc-zh/master/img/14f6506599a88a5297ea712fa70eece4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/14f6506599a88a5297ea712fa70eece4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/14f6506599a88a5297ea712fa70eece4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/153aceb3cdac953277c6c840339ac023.jpg b/Sklearn/sklearn-doc-zh/master/img/153aceb3cdac953277c6c840339ac023.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/153aceb3cdac953277c6c840339ac023.jpg
rename to Sklearn/sklearn-doc-zh/master/img/153aceb3cdac953277c6c840339ac023.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/156554c81cfe5f0230627ac0487fd07f.jpg b/Sklearn/sklearn-doc-zh/master/img/156554c81cfe5f0230627ac0487fd07f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/156554c81cfe5f0230627ac0487fd07f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/156554c81cfe5f0230627ac0487fd07f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/15a03cac7d4ab66fdf23e702ee75da2a.jpg b/Sklearn/sklearn-doc-zh/master/img/15a03cac7d4ab66fdf23e702ee75da2a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/15a03cac7d4ab66fdf23e702ee75da2a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/15a03cac7d4ab66fdf23e702ee75da2a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/163f83188195d81958bfb733b7a3daa2.jpg b/Sklearn/sklearn-doc-zh/master/img/163f83188195d81958bfb733b7a3daa2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/163f83188195d81958bfb733b7a3daa2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/163f83188195d81958bfb733b7a3daa2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/165303a7d56136efa39130cd3cd9539e.jpg b/Sklearn/sklearn-doc-zh/master/img/165303a7d56136efa39130cd3cd9539e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/165303a7d56136efa39130cd3cd9539e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/165303a7d56136efa39130cd3cd9539e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/16622481c2bbb001363e20660b549ae9.jpg b/Sklearn/sklearn-doc-zh/master/img/16622481c2bbb001363e20660b549ae9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/16622481c2bbb001363e20660b549ae9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/16622481c2bbb001363e20660b549ae9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/170bd587959dabf132e4e0f39fa0a7b7.jpg b/Sklearn/sklearn-doc-zh/master/img/170bd587959dabf132e4e0f39fa0a7b7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/170bd587959dabf132e4e0f39fa0a7b7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/170bd587959dabf132e4e0f39fa0a7b7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/17430579d0bcbef3e2d99eba470792c8.jpg b/Sklearn/sklearn-doc-zh/master/img/17430579d0bcbef3e2d99eba470792c8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/17430579d0bcbef3e2d99eba470792c8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/17430579d0bcbef3e2d99eba470792c8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/17689bafe240fb42feab1cca674b5b88.jpg b/Sklearn/sklearn-doc-zh/master/img/17689bafe240fb42feab1cca674b5b88.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/17689bafe240fb42feab1cca674b5b88.jpg
rename to Sklearn/sklearn-doc-zh/master/img/17689bafe240fb42feab1cca674b5b88.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/187eddee2de4e12860dc001c5f74b2b4.jpg b/Sklearn/sklearn-doc-zh/master/img/187eddee2de4e12860dc001c5f74b2b4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/187eddee2de4e12860dc001c5f74b2b4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/187eddee2de4e12860dc001c5f74b2b4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/18906a7fe0c5d78e0a291e472ded58ce.jpg b/Sklearn/sklearn-doc-zh/master/img/18906a7fe0c5d78e0a291e472ded58ce.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/18906a7fe0c5d78e0a291e472ded58ce.jpg
rename to Sklearn/sklearn-doc-zh/master/img/18906a7fe0c5d78e0a291e472ded58ce.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/195ff50d437f1bb16125cdb1c311f3ab.jpg b/Sklearn/sklearn-doc-zh/master/img/195ff50d437f1bb16125cdb1c311f3ab.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/195ff50d437f1bb16125cdb1c311f3ab.jpg
rename to Sklearn/sklearn-doc-zh/master/img/195ff50d437f1bb16125cdb1c311f3ab.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1_1_3.gif b/Sklearn/sklearn-doc-zh/master/img/1_1_3.gif
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1_1_3.gif
rename to Sklearn/sklearn-doc-zh/master/img/1_1_3.gif
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1_1_4.gif b/Sklearn/sklearn-doc-zh/master/img/1_1_4.gif
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1_1_4.gif
rename to Sklearn/sklearn-doc-zh/master/img/1_1_4.gif
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1_1_5.gif b/Sklearn/sklearn-doc-zh/master/img/1_1_5.gif
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1_1_5.gif
rename to Sklearn/sklearn-doc-zh/master/img/1_1_5.gif
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1_1_6.gif b/Sklearn/sklearn-doc-zh/master/img/1_1_6.gif
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1_1_6.gif
rename to Sklearn/sklearn-doc-zh/master/img/1_1_6.gif
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1_1_7.gif b/Sklearn/sklearn-doc-zh/master/img/1_1_7.gif
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1_1_7.gif
rename to Sklearn/sklearn-doc-zh/master/img/1_1_7.gif
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1_6_1.png b/Sklearn/sklearn-doc-zh/master/img/1_6_1.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1_6_1.png
rename to Sklearn/sklearn-doc-zh/master/img/1_6_1.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1_6_2.png b/Sklearn/sklearn-doc-zh/master/img/1_6_2.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1_6_2.png
rename to Sklearn/sklearn-doc-zh/master/img/1_6_2.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1a125d0568be1ce93a6bc7b3ee1071e1.jpg b/Sklearn/sklearn-doc-zh/master/img/1a125d0568be1ce93a6bc7b3ee1071e1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1a125d0568be1ce93a6bc7b3ee1071e1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1a125d0568be1ce93a6bc7b3ee1071e1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1a1bc66f06af187108d4250f068748c9.jpg b/Sklearn/sklearn-doc-zh/master/img/1a1bc66f06af187108d4250f068748c9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1a1bc66f06af187108d4250f068748c9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1a1bc66f06af187108d4250f068748c9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1a78828504944887ab23097011f807d5.jpg b/Sklearn/sklearn-doc-zh/master/img/1a78828504944887ab23097011f807d5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1a78828504944887ab23097011f807d5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1a78828504944887ab23097011f807d5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1a91bab921cf39f58a522ed15f475235.jpg b/Sklearn/sklearn-doc-zh/master/img/1a91bab921cf39f58a522ed15f475235.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1a91bab921cf39f58a522ed15f475235.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1a91bab921cf39f58a522ed15f475235.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1ae6d373d81c5f3f50905f336b4a070a.jpg b/Sklearn/sklearn-doc-zh/master/img/1ae6d373d81c5f3f50905f336b4a070a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1ae6d373d81c5f3f50905f336b4a070a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1ae6d373d81c5f3f50905f336b4a070a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1b6228a71a038f66ac7b8a2743adf4e7.jpg b/Sklearn/sklearn-doc-zh/master/img/1b6228a71a038f66ac7b8a2743adf4e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1b6228a71a038f66ac7b8a2743adf4e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1b6228a71a038f66ac7b8a2743adf4e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1c12ea7ea179efd16ce513645034d41a.jpg b/Sklearn/sklearn-doc-zh/master/img/1c12ea7ea179efd16ce513645034d41a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1c12ea7ea179efd16ce513645034d41a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1c12ea7ea179efd16ce513645034d41a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1c25ce7b0d4e2c7da1f0e73d2565c431.jpg b/Sklearn/sklearn-doc-zh/master/img/1c25ce7b0d4e2c7da1f0e73d2565c431.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1c25ce7b0d4e2c7da1f0e73d2565c431.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1c25ce7b0d4e2c7da1f0e73d2565c431.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1cde7e5f92efe9056f9f53e23ea04102.jpg b/Sklearn/sklearn-doc-zh/master/img/1cde7e5f92efe9056f9f53e23ea04102.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1cde7e5f92efe9056f9f53e23ea04102.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1cde7e5f92efe9056f9f53e23ea04102.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1ce6ae6c075734e41812dc91b67d16e5.jpg b/Sklearn/sklearn-doc-zh/master/img/1ce6ae6c075734e41812dc91b67d16e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1ce6ae6c075734e41812dc91b67d16e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1ce6ae6c075734e41812dc91b67d16e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1d57cc4e24d28b8283f98bda247d84e7.jpg b/Sklearn/sklearn-doc-zh/master/img/1d57cc4e24d28b8283f98bda247d84e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1d57cc4e24d28b8283f98bda247d84e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1d57cc4e24d28b8283f98bda247d84e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1d9a1eb9200948482ebfd5811679276a.jpg b/Sklearn/sklearn-doc-zh/master/img/1d9a1eb9200948482ebfd5811679276a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1d9a1eb9200948482ebfd5811679276a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1d9a1eb9200948482ebfd5811679276a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1da4a8f74cdb166cdc91e2f691cf3ac5.jpg b/Sklearn/sklearn-doc-zh/master/img/1da4a8f74cdb166cdc91e2f691cf3ac5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1da4a8f74cdb166cdc91e2f691cf3ac5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1da4a8f74cdb166cdc91e2f691cf3ac5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1daad9ca4ebf0fe49529674b890b3df2.jpg b/Sklearn/sklearn-doc-zh/master/img/1daad9ca4ebf0fe49529674b890b3df2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1daad9ca4ebf0fe49529674b890b3df2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1daad9ca4ebf0fe49529674b890b3df2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1ddb602277c74f97c01c61af96da4a87.jpg b/Sklearn/sklearn-doc-zh/master/img/1ddb602277c74f97c01c61af96da4a87.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1ddb602277c74f97c01c61af96da4a87.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1ddb602277c74f97c01c61af96da4a87.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1e4e584cd8a99da7f18a5581de1f7be3.jpg b/Sklearn/sklearn-doc-zh/master/img/1e4e584cd8a99da7f18a5581de1f7be3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1e4e584cd8a99da7f18a5581de1f7be3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1e4e584cd8a99da7f18a5581de1f7be3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1f1667a67d885f419222cbd85c70dd56.jpg b/Sklearn/sklearn-doc-zh/master/img/1f1667a67d885f419222cbd85c70dd56.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1f1667a67d885f419222cbd85c70dd56.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1f1667a67d885f419222cbd85c70dd56.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1f7b275b5002d3772b809055d9199f91.jpg b/Sklearn/sklearn-doc-zh/master/img/1f7b275b5002d3772b809055d9199f91.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1f7b275b5002d3772b809055d9199f91.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1f7b275b5002d3772b809055d9199f91.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1f8c02d4fdbdbcaa014972bca5620cf3.jpg b/Sklearn/sklearn-doc-zh/master/img/1f8c02d4fdbdbcaa014972bca5620cf3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1f8c02d4fdbdbcaa014972bca5620cf3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1f8c02d4fdbdbcaa014972bca5620cf3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1f9000a4bf057edcb9b87d7a4abb8e8d.jpg b/Sklearn/sklearn-doc-zh/master/img/1f9000a4bf057edcb9b87d7a4abb8e8d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1f9000a4bf057edcb9b87d7a4abb8e8d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1f9000a4bf057edcb9b87d7a4abb8e8d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1fa419ff78b610bf4a5b3b71df728cec.jpg b/Sklearn/sklearn-doc-zh/master/img/1fa419ff78b610bf4a5b3b71df728cec.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1fa419ff78b610bf4a5b3b71df728cec.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1fa419ff78b610bf4a5b3b71df728cec.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1fc7cc5cbdba693962c7708456165810.jpg b/Sklearn/sklearn-doc-zh/master/img/1fc7cc5cbdba693962c7708456165810.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1fc7cc5cbdba693962c7708456165810.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1fc7cc5cbdba693962c7708456165810.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1fc92e9d8efa5433f7346284592e9ea0.jpg b/Sklearn/sklearn-doc-zh/master/img/1fc92e9d8efa5433f7346284592e9ea0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1fc92e9d8efa5433f7346284592e9ea0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1fc92e9d8efa5433f7346284592e9ea0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1ff26934befcf3ca9623f1e729a8824c.jpg b/Sklearn/sklearn-doc-zh/master/img/1ff26934befcf3ca9623f1e729a8824c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1ff26934befcf3ca9623f1e729a8824c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1ff26934befcf3ca9623f1e729a8824c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/1ff751c4de3bbad5543f0dbbad73dd35.jpg b/Sklearn/sklearn-doc-zh/master/img/1ff751c4de3bbad5543f0dbbad73dd35.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/1ff751c4de3bbad5543f0dbbad73dd35.jpg
rename to Sklearn/sklearn-doc-zh/master/img/1ff751c4de3bbad5543f0dbbad73dd35.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/20310556eb1fb84146ff2584e166fd9c.jpg b/Sklearn/sklearn-doc-zh/master/img/20310556eb1fb84146ff2584e166fd9c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/20310556eb1fb84146ff2584e166fd9c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/20310556eb1fb84146ff2584e166fd9c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/203c5a2c58d6567a86dbc86faa92209e.jpg b/Sklearn/sklearn-doc-zh/master/img/203c5a2c58d6567a86dbc86faa92209e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/203c5a2c58d6567a86dbc86faa92209e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/203c5a2c58d6567a86dbc86faa92209e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/207e92cfc624372bc9c72a160c02114f.jpg b/Sklearn/sklearn-doc-zh/master/img/207e92cfc624372bc9c72a160c02114f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/207e92cfc624372bc9c72a160c02114f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/207e92cfc624372bc9c72a160c02114f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/20d6857e752f6ffdfdd20a88c32f837c.jpg b/Sklearn/sklearn-doc-zh/master/img/20d6857e752f6ffdfdd20a88c32f837c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/20d6857e752f6ffdfdd20a88c32f837c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/20d6857e752f6ffdfdd20a88c32f837c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/21937e85250a7aaa8aea86e4fbf93452.jpg b/Sklearn/sklearn-doc-zh/master/img/21937e85250a7aaa8aea86e4fbf93452.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/21937e85250a7aaa8aea86e4fbf93452.jpg
rename to Sklearn/sklearn-doc-zh/master/img/21937e85250a7aaa8aea86e4fbf93452.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/21b6e31779ad3b1a382b13e65ec917c7.jpg b/Sklearn/sklearn-doc-zh/master/img/21b6e31779ad3b1a382b13e65ec917c7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/21b6e31779ad3b1a382b13e65ec917c7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/21b6e31779ad3b1a382b13e65ec917c7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/21e9f42c5b6730d593e37a11c6ffb13a.jpg b/Sklearn/sklearn-doc-zh/master/img/21e9f42c5b6730d593e37a11c6ffb13a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/21e9f42c5b6730d593e37a11c6ffb13a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/21e9f42c5b6730d593e37a11c6ffb13a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2238e05d9e3ae45b81577c9902a9cfbb.jpg b/Sklearn/sklearn-doc-zh/master/img/2238e05d9e3ae45b81577c9902a9cfbb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2238e05d9e3ae45b81577c9902a9cfbb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2238e05d9e3ae45b81577c9902a9cfbb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/223988a8bef489edcaa2f198e5e3a9a5.jpg b/Sklearn/sklearn-doc-zh/master/img/223988a8bef489edcaa2f198e5e3a9a5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/223988a8bef489edcaa2f198e5e3a9a5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/223988a8bef489edcaa2f198e5e3a9a5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/224162d8cfff6c8ad85718be6b261b70.jpg b/Sklearn/sklearn-doc-zh/master/img/224162d8cfff6c8ad85718be6b261b70.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/224162d8cfff6c8ad85718be6b261b70.jpg
rename to Sklearn/sklearn-doc-zh/master/img/224162d8cfff6c8ad85718be6b261b70.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/22c1b7663568bf6c404a07778507a93e.jpg b/Sklearn/sklearn-doc-zh/master/img/22c1b7663568bf6c404a07778507a93e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/22c1b7663568bf6c404a07778507a93e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/22c1b7663568bf6c404a07778507a93e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/22f3a10ad9acceb77ea6193f945b11cf.jpg b/Sklearn/sklearn-doc-zh/master/img/22f3a10ad9acceb77ea6193f945b11cf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/22f3a10ad9acceb77ea6193f945b11cf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/22f3a10ad9acceb77ea6193f945b11cf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/23bd4397a3e30a81d2ee26977f708e63.jpg b/Sklearn/sklearn-doc-zh/master/img/23bd4397a3e30a81d2ee26977f708e63.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/23bd4397a3e30a81d2ee26977f708e63.jpg
rename to Sklearn/sklearn-doc-zh/master/img/23bd4397a3e30a81d2ee26977f708e63.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/23dac8b2be31a1cbe914b59ff2670dbf.jpg b/Sklearn/sklearn-doc-zh/master/img/23dac8b2be31a1cbe914b59ff2670dbf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/23dac8b2be31a1cbe914b59ff2670dbf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/23dac8b2be31a1cbe914b59ff2670dbf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2490002eaeb5d875d22825fc267ef925.jpg b/Sklearn/sklearn-doc-zh/master/img/2490002eaeb5d875d22825fc267ef925.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2490002eaeb5d875d22825fc267ef925.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2490002eaeb5d875d22825fc267ef925.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/25a334612cb5a1736ebcc7eec00c7b29.jpg b/Sklearn/sklearn-doc-zh/master/img/25a334612cb5a1736ebcc7eec00c7b29.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/25a334612cb5a1736ebcc7eec00c7b29.jpg
rename to Sklearn/sklearn-doc-zh/master/img/25a334612cb5a1736ebcc7eec00c7b29.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2639e09c454322633772269753a50710.jpg b/Sklearn/sklearn-doc-zh/master/img/2639e09c454322633772269753a50710.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2639e09c454322633772269753a50710.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2639e09c454322633772269753a50710.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/264ba68c53c2e2867b9e307e8b940d49.jpg b/Sklearn/sklearn-doc-zh/master/img/264ba68c53c2e2867b9e307e8b940d49.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/264ba68c53c2e2867b9e307e8b940d49.jpg
rename to Sklearn/sklearn-doc-zh/master/img/264ba68c53c2e2867b9e307e8b940d49.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/264dc5b617a5aa98151c4ea6975e9a90.jpg b/Sklearn/sklearn-doc-zh/master/img/264dc5b617a5aa98151c4ea6975e9a90.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/264dc5b617a5aa98151c4ea6975e9a90.jpg
rename to Sklearn/sklearn-doc-zh/master/img/264dc5b617a5aa98151c4ea6975e9a90.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/26f66401927461c0129b7f4ad33e5322.jpg b/Sklearn/sklearn-doc-zh/master/img/26f66401927461c0129b7f4ad33e5322.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/26f66401927461c0129b7f4ad33e5322.jpg
rename to Sklearn/sklearn-doc-zh/master/img/26f66401927461c0129b7f4ad33e5322.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2736dbaab8f81e4cb2d0e388f2b0c6b2.jpg b/Sklearn/sklearn-doc-zh/master/img/2736dbaab8f81e4cb2d0e388f2b0c6b2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2736dbaab8f81e4cb2d0e388f2b0c6b2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2736dbaab8f81e4cb2d0e388f2b0c6b2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/27449ee75d40c9391b04e2ca48c4d83b.jpg b/Sklearn/sklearn-doc-zh/master/img/27449ee75d40c9391b04e2ca48c4d83b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/27449ee75d40c9391b04e2ca48c4d83b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/27449ee75d40c9391b04e2ca48c4d83b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/27eaae520bfaa9c4bdbef494c5029741.jpg b/Sklearn/sklearn-doc-zh/master/img/27eaae520bfaa9c4bdbef494c5029741.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/27eaae520bfaa9c4bdbef494c5029741.jpg
rename to Sklearn/sklearn-doc-zh/master/img/27eaae520bfaa9c4bdbef494c5029741.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/280a00b263d3144cd3a9c424ed44ee51.jpg b/Sklearn/sklearn-doc-zh/master/img/280a00b263d3144cd3a9c424ed44ee51.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/280a00b263d3144cd3a9c424ed44ee51.jpg
rename to Sklearn/sklearn-doc-zh/master/img/280a00b263d3144cd3a9c424ed44ee51.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/287e15c4b3d9b3f227fdc8e364609382.jpg b/Sklearn/sklearn-doc-zh/master/img/287e15c4b3d9b3f227fdc8e364609382.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/287e15c4b3d9b3f227fdc8e364609382.jpg
rename to Sklearn/sklearn-doc-zh/master/img/287e15c4b3d9b3f227fdc8e364609382.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2953c3498ec0877c5ebcc172050cce88.jpg b/Sklearn/sklearn-doc-zh/master/img/2953c3498ec0877c5ebcc172050cce88.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2953c3498ec0877c5ebcc172050cce88.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2953c3498ec0877c5ebcc172050cce88.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2a0c137e7b86ad939e131293a273579b.jpg b/Sklearn/sklearn-doc-zh/master/img/2a0c137e7b86ad939e131293a273579b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2a0c137e7b86ad939e131293a273579b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2a0c137e7b86ad939e131293a273579b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2a0c137e7b86ad939e131293a273579b.png b/Sklearn/sklearn-doc-zh/master/img/2a0c137e7b86ad939e131293a273579b.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2a0c137e7b86ad939e131293a273579b.png
rename to Sklearn/sklearn-doc-zh/master/img/2a0c137e7b86ad939e131293a273579b.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2a332823ff053f404ac53657eb86b1a0.jpg b/Sklearn/sklearn-doc-zh/master/img/2a332823ff053f404ac53657eb86b1a0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2a332823ff053f404ac53657eb86b1a0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2a332823ff053f404ac53657eb86b1a0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2a58cf81e4ccf9022d6033557d49aed5.jpg b/Sklearn/sklearn-doc-zh/master/img/2a58cf81e4ccf9022d6033557d49aed5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2a58cf81e4ccf9022d6033557d49aed5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2a58cf81e4ccf9022d6033557d49aed5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2a96390b6e7eb8fc07579c2f9066fc4d.jpg b/Sklearn/sklearn-doc-zh/master/img/2a96390b6e7eb8fc07579c2f9066fc4d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2a96390b6e7eb8fc07579c2f9066fc4d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2a96390b6e7eb8fc07579c2f9066fc4d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2ad6b07024498864a0ce275913a42d9f.jpg b/Sklearn/sklearn-doc-zh/master/img/2ad6b07024498864a0ce275913a42d9f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2ad6b07024498864a0ce275913a42d9f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2ad6b07024498864a0ce275913a42d9f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2af4d75ca07ede34c7d38b8f7708723d.jpg b/Sklearn/sklearn-doc-zh/master/img/2af4d75ca07ede34c7d38b8f7708723d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2af4d75ca07ede34c7d38b8f7708723d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2af4d75ca07ede34c7d38b8f7708723d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2b0d9f09a2b8a107ace9ce7aa234481e.jpg b/Sklearn/sklearn-doc-zh/master/img/2b0d9f09a2b8a107ace9ce7aa234481e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2b0d9f09a2b8a107ace9ce7aa234481e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2b0d9f09a2b8a107ace9ce7aa234481e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2b117c8d0556a027e7ee3bb265a6bf63.jpg b/Sklearn/sklearn-doc-zh/master/img/2b117c8d0556a027e7ee3bb265a6bf63.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2b117c8d0556a027e7ee3bb265a6bf63.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2b117c8d0556a027e7ee3bb265a6bf63.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2bd24ed32bcf24db79058c3cc81f5331.jpg b/Sklearn/sklearn-doc-zh/master/img/2bd24ed32bcf24db79058c3cc81f5331.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2bd24ed32bcf24db79058c3cc81f5331.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2bd24ed32bcf24db79058c3cc81f5331.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2bf67de05d37f31bd2154fdc96690102.jpg b/Sklearn/sklearn-doc-zh/master/img/2bf67de05d37f31bd2154fdc96690102.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2bf67de05d37f31bd2154fdc96690102.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2bf67de05d37f31bd2154fdc96690102.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2c1da71c882c95ba6660cdad0d976f6d.jpg b/Sklearn/sklearn-doc-zh/master/img/2c1da71c882c95ba6660cdad0d976f6d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2c1da71c882c95ba6660cdad0d976f6d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2c1da71c882c95ba6660cdad0d976f6d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2c2dcc83fc38e46810a36e59b2614a5c.jpg b/Sklearn/sklearn-doc-zh/master/img/2c2dcc83fc38e46810a36e59b2614a5c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2c2dcc83fc38e46810a36e59b2614a5c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2c2dcc83fc38e46810a36e59b2614a5c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2c90187d36ba884ee9ae4c99334fb3b4.jpg b/Sklearn/sklearn-doc-zh/master/img/2c90187d36ba884ee9ae4c99334fb3b4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2c90187d36ba884ee9ae4c99334fb3b4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2c90187d36ba884ee9ae4c99334fb3b4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2ca002ed0f4e27f9040d3f3ec58fbb38.jpg b/Sklearn/sklearn-doc-zh/master/img/2ca002ed0f4e27f9040d3f3ec58fbb38.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2ca002ed0f4e27f9040d3f3ec58fbb38.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2ca002ed0f4e27f9040d3f3ec58fbb38.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2d3029206649000f40ed9f51bbeceafb.jpg b/Sklearn/sklearn-doc-zh/master/img/2d3029206649000f40ed9f51bbeceafb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2d3029206649000f40ed9f51bbeceafb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2d3029206649000f40ed9f51bbeceafb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2d4c303729e327500afa8bdb343713ff.jpg b/Sklearn/sklearn-doc-zh/master/img/2d4c303729e327500afa8bdb343713ff.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2d4c303729e327500afa8bdb343713ff.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2d4c303729e327500afa8bdb343713ff.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2d7a3ddf62ceb125c15ba1947173e790.jpg b/Sklearn/sklearn-doc-zh/master/img/2d7a3ddf62ceb125c15ba1947173e790.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2d7a3ddf62ceb125c15ba1947173e790.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2d7a3ddf62ceb125c15ba1947173e790.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2e06713c93719ff874fb9f4fab7a6fbf.jpg b/Sklearn/sklearn-doc-zh/master/img/2e06713c93719ff874fb9f4fab7a6fbf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2e06713c93719ff874fb9f4fab7a6fbf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2e06713c93719ff874fb9f4fab7a6fbf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2e2461d59015f9759fa0612965e2425e.jpg b/Sklearn/sklearn-doc-zh/master/img/2e2461d59015f9759fa0612965e2425e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2e2461d59015f9759fa0612965e2425e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2e2461d59015f9759fa0612965e2425e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2edeef5a5007d4bd8b4f43fe2670cf85.jpg b/Sklearn/sklearn-doc-zh/master/img/2edeef5a5007d4bd8b4f43fe2670cf85.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2edeef5a5007d4bd8b4f43fe2670cf85.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2edeef5a5007d4bd8b4f43fe2670cf85.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2f373d871220ee042a8c2ee44e6fff3a.jpg b/Sklearn/sklearn-doc-zh/master/img/2f373d871220ee042a8c2ee44e6fff3a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2f373d871220ee042a8c2ee44e6fff3a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2f373d871220ee042a8c2ee44e6fff3a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/2f6a285b749960084841d17c3c97f2d7.jpg b/Sklearn/sklearn-doc-zh/master/img/2f6a285b749960084841d17c3c97f2d7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/2f6a285b749960084841d17c3c97f2d7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/2f6a285b749960084841d17c3c97f2d7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3-5-001.png b/Sklearn/sklearn-doc-zh/master/img/3-5-001.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3-5-001.png
rename to Sklearn/sklearn-doc-zh/master/img/3-5-001.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3001d4b4ed72087e1a6010f43c053cc6.jpg b/Sklearn/sklearn-doc-zh/master/img/3001d4b4ed72087e1a6010f43c053cc6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3001d4b4ed72087e1a6010f43c053cc6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3001d4b4ed72087e1a6010f43c053cc6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/300d1995dc6050bbfd575b2c14ec81ae.jpg b/Sklearn/sklearn-doc-zh/master/img/300d1995dc6050bbfd575b2c14ec81ae.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/300d1995dc6050bbfd575b2c14ec81ae.jpg
rename to Sklearn/sklearn-doc-zh/master/img/300d1995dc6050bbfd575b2c14ec81ae.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/30641b10b766d35775b6bbb4d21e74b7.jpg b/Sklearn/sklearn-doc-zh/master/img/30641b10b766d35775b6bbb4d21e74b7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/30641b10b766d35775b6bbb4d21e74b7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/30641b10b766d35775b6bbb4d21e74b7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/30fc2a610fc7de5c19317e1fc584765f.jpg b/Sklearn/sklearn-doc-zh/master/img/30fc2a610fc7de5c19317e1fc584765f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/30fc2a610fc7de5c19317e1fc584765f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/30fc2a610fc7de5c19317e1fc584765f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3109bc087a626380237668dfcc4ecd96.jpg b/Sklearn/sklearn-doc-zh/master/img/3109bc087a626380237668dfcc4ecd96.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3109bc087a626380237668dfcc4ecd96.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3109bc087a626380237668dfcc4ecd96.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/319e234a072e86b6b55ce431ca56b43e.jpg b/Sklearn/sklearn-doc-zh/master/img/319e234a072e86b6b55ce431ca56b43e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/319e234a072e86b6b55ce431ca56b43e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/319e234a072e86b6b55ce431ca56b43e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/32246af90101d1607825a589ebea6880.jpg b/Sklearn/sklearn-doc-zh/master/img/32246af90101d1607825a589ebea6880.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/32246af90101d1607825a589ebea6880.jpg
rename to Sklearn/sklearn-doc-zh/master/img/32246af90101d1607825a589ebea6880.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/32f500a4e2eba65727c1e003699dff90.jpg b/Sklearn/sklearn-doc-zh/master/img/32f500a4e2eba65727c1e003699dff90.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/32f500a4e2eba65727c1e003699dff90.jpg
rename to Sklearn/sklearn-doc-zh/master/img/32f500a4e2eba65727c1e003699dff90.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/337f0e255aa71dafb655629cb09a0c14.jpg b/Sklearn/sklearn-doc-zh/master/img/337f0e255aa71dafb655629cb09a0c14.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/337f0e255aa71dafb655629cb09a0c14.jpg
rename to Sklearn/sklearn-doc-zh/master/img/337f0e255aa71dafb655629cb09a0c14.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/33a8ceddf8e3edfad259a804819c2637.jpg b/Sklearn/sklearn-doc-zh/master/img/33a8ceddf8e3edfad259a804819c2637.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/33a8ceddf8e3edfad259a804819c2637.jpg
rename to Sklearn/sklearn-doc-zh/master/img/33a8ceddf8e3edfad259a804819c2637.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/33b1cdc0654561cadac36a1232552b99.jpg b/Sklearn/sklearn-doc-zh/master/img/33b1cdc0654561cadac36a1232552b99.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/33b1cdc0654561cadac36a1232552b99.jpg
rename to Sklearn/sklearn-doc-zh/master/img/33b1cdc0654561cadac36a1232552b99.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/33b99b5c21f0cf5b03e92fe60cbe6ad0.jpg b/Sklearn/sklearn-doc-zh/master/img/33b99b5c21f0cf5b03e92fe60cbe6ad0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/33b99b5c21f0cf5b03e92fe60cbe6ad0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/33b99b5c21f0cf5b03e92fe60cbe6ad0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/33d1bf322bf0f6046a1145dbc264803b.jpg b/Sklearn/sklearn-doc-zh/master/img/33d1bf322bf0f6046a1145dbc264803b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/33d1bf322bf0f6046a1145dbc264803b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/33d1bf322bf0f6046a1145dbc264803b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/33eb0dacfcc0df16c84bfaed52d31859.jpg b/Sklearn/sklearn-doc-zh/master/img/33eb0dacfcc0df16c84bfaed52d31859.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/33eb0dacfcc0df16c84bfaed52d31859.jpg
rename to Sklearn/sklearn-doc-zh/master/img/33eb0dacfcc0df16c84bfaed52d31859.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/33f1b6fb64999d2af571c675b7f17f34.jpg b/Sklearn/sklearn-doc-zh/master/img/33f1b6fb64999d2af571c675b7f17f34.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/33f1b6fb64999d2af571c675b7f17f34.jpg
rename to Sklearn/sklearn-doc-zh/master/img/33f1b6fb64999d2af571c675b7f17f34.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3405852dc63c9a78447d479784f1ee7e.jpg b/Sklearn/sklearn-doc-zh/master/img/3405852dc63c9a78447d479784f1ee7e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3405852dc63c9a78447d479784f1ee7e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3405852dc63c9a78447d479784f1ee7e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/341145ae3a937e5fa152262d13dc6fcf.jpg b/Sklearn/sklearn-doc-zh/master/img/341145ae3a937e5fa152262d13dc6fcf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/341145ae3a937e5fa152262d13dc6fcf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/341145ae3a937e5fa152262d13dc6fcf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/343401666d8fc0aeeea395495b9dc570.jpg b/Sklearn/sklearn-doc-zh/master/img/343401666d8fc0aeeea395495b9dc570.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/343401666d8fc0aeeea395495b9dc570.jpg
rename to Sklearn/sklearn-doc-zh/master/img/343401666d8fc0aeeea395495b9dc570.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/345ab99b5a1246fb019e249dae570191.jpg b/Sklearn/sklearn-doc-zh/master/img/345ab99b5a1246fb019e249dae570191.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/345ab99b5a1246fb019e249dae570191.jpg
rename to Sklearn/sklearn-doc-zh/master/img/345ab99b5a1246fb019e249dae570191.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/352bc5f9f9d6aefcdaf8deca4f7964ff.jpg b/Sklearn/sklearn-doc-zh/master/img/352bc5f9f9d6aefcdaf8deca4f7964ff.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/352bc5f9f9d6aefcdaf8deca4f7964ff.jpg
rename to Sklearn/sklearn-doc-zh/master/img/352bc5f9f9d6aefcdaf8deca4f7964ff.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/355df435a05593b653d7d988c06e5d3c.jpg b/Sklearn/sklearn-doc-zh/master/img/355df435a05593b653d7d988c06e5d3c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/355df435a05593b653d7d988c06e5d3c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/355df435a05593b653d7d988c06e5d3c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3579ce0b5c145fb891d865367eeba3ac.jpg b/Sklearn/sklearn-doc-zh/master/img/3579ce0b5c145fb891d865367eeba3ac.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3579ce0b5c145fb891d865367eeba3ac.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3579ce0b5c145fb891d865367eeba3ac.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/35a2693b8dbfe5cf9335dc2659c6ef96.jpg b/Sklearn/sklearn-doc-zh/master/img/35a2693b8dbfe5cf9335dc2659c6ef96.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/35a2693b8dbfe5cf9335dc2659c6ef96.jpg
rename to Sklearn/sklearn-doc-zh/master/img/35a2693b8dbfe5cf9335dc2659c6ef96.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/35b3276dd7e50cda7dd79a91161a1a26.jpg b/Sklearn/sklearn-doc-zh/master/img/35b3276dd7e50cda7dd79a91161a1a26.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/35b3276dd7e50cda7dd79a91161a1a26.jpg
rename to Sklearn/sklearn-doc-zh/master/img/35b3276dd7e50cda7dd79a91161a1a26.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/362af37df82b07d11576fc5e45db7828.jpg b/Sklearn/sklearn-doc-zh/master/img/362af37df82b07d11576fc5e45db7828.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/362af37df82b07d11576fc5e45db7828.jpg
rename to Sklearn/sklearn-doc-zh/master/img/362af37df82b07d11576fc5e45db7828.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/36846302fd24ac609e0cfef5fe6f8678.jpg b/Sklearn/sklearn-doc-zh/master/img/36846302fd24ac609e0cfef5fe6f8678.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/36846302fd24ac609e0cfef5fe6f8678.jpg
rename to Sklearn/sklearn-doc-zh/master/img/36846302fd24ac609e0cfef5fe6f8678.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/369b6e6bd43ee84fe99e14c8d78cdc9f.jpg b/Sklearn/sklearn-doc-zh/master/img/369b6e6bd43ee84fe99e14c8d78cdc9f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/369b6e6bd43ee84fe99e14c8d78cdc9f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/369b6e6bd43ee84fe99e14c8d78cdc9f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/36aff9afacf42a6a0b903bb6cd3409dc.jpg b/Sklearn/sklearn-doc-zh/master/img/36aff9afacf42a6a0b903bb6cd3409dc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/36aff9afacf42a6a0b903bb6cd3409dc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/36aff9afacf42a6a0b903bb6cd3409dc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/36c2dba9ae7680cd09eff62c73e37963.jpg b/Sklearn/sklearn-doc-zh/master/img/36c2dba9ae7680cd09eff62c73e37963.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/36c2dba9ae7680cd09eff62c73e37963.jpg
rename to Sklearn/sklearn-doc-zh/master/img/36c2dba9ae7680cd09eff62c73e37963.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/36f54997ff4df647587d1bfd2ddb3ee2.jpg b/Sklearn/sklearn-doc-zh/master/img/36f54997ff4df647587d1bfd2ddb3ee2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/36f54997ff4df647587d1bfd2ddb3ee2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/36f54997ff4df647587d1bfd2ddb3ee2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/375fd0c32c15c4547b00ae36c0ec0a6a.jpg b/Sklearn/sklearn-doc-zh/master/img/375fd0c32c15c4547b00ae36c0ec0a6a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/375fd0c32c15c4547b00ae36c0ec0a6a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/375fd0c32c15c4547b00ae36c0ec0a6a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3771db7af1e3b7bf33e15ec20d278f39.jpg b/Sklearn/sklearn-doc-zh/master/img/3771db7af1e3b7bf33e15ec20d278f39.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3771db7af1e3b7bf33e15ec20d278f39.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3771db7af1e3b7bf33e15ec20d278f39.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3776f899ba5f1d7432c553c6c3aae381.jpg b/Sklearn/sklearn-doc-zh/master/img/3776f899ba5f1d7432c553c6c3aae381.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3776f899ba5f1d7432c553c6c3aae381.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3776f899ba5f1d7432c553c6c3aae381.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/377b02d08a6b388008fc8cb132080d20.jpg b/Sklearn/sklearn-doc-zh/master/img/377b02d08a6b388008fc8cb132080d20.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/377b02d08a6b388008fc8cb132080d20.jpg
rename to Sklearn/sklearn-doc-zh/master/img/377b02d08a6b388008fc8cb132080d20.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/37e4251726a37bc02df4ef4390572e9a.jpg b/Sklearn/sklearn-doc-zh/master/img/37e4251726a37bc02df4ef4390572e9a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/37e4251726a37bc02df4ef4390572e9a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/37e4251726a37bc02df4ef4390572e9a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/38320089278fc639e640f3f772eac6b1.jpg b/Sklearn/sklearn-doc-zh/master/img/38320089278fc639e640f3f772eac6b1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/38320089278fc639e640f3f772eac6b1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/38320089278fc639e640f3f772eac6b1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/38437ee82743c886e2ebfbb5bd5e0c89.jpg b/Sklearn/sklearn-doc-zh/master/img/38437ee82743c886e2ebfbb5bd5e0c89.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/38437ee82743c886e2ebfbb5bd5e0c89.jpg
rename to Sklearn/sklearn-doc-zh/master/img/38437ee82743c886e2ebfbb5bd5e0c89.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/385a9104b38457eeb59acf86cf974472.jpg b/Sklearn/sklearn-doc-zh/master/img/385a9104b38457eeb59acf86cf974472.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/385a9104b38457eeb59acf86cf974472.jpg
rename to Sklearn/sklearn-doc-zh/master/img/385a9104b38457eeb59acf86cf974472.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/38a411931f9f49e71b888f7998427122.jpg b/Sklearn/sklearn-doc-zh/master/img/38a411931f9f49e71b888f7998427122.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/38a411931f9f49e71b888f7998427122.jpg
rename to Sklearn/sklearn-doc-zh/master/img/38a411931f9f49e71b888f7998427122.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/390e2bdab30b6e7421082f13e8cfd6b0.jpg b/Sklearn/sklearn-doc-zh/master/img/390e2bdab30b6e7421082f13e8cfd6b0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/390e2bdab30b6e7421082f13e8cfd6b0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/390e2bdab30b6e7421082f13e8cfd6b0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3944d32654b4bf939d248b496f950b10.jpg b/Sklearn/sklearn-doc-zh/master/img/3944d32654b4bf939d248b496f950b10.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3944d32654b4bf939d248b496f950b10.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3944d32654b4bf939d248b496f950b10.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/395ca6ce9617a4fc0695db973496d29b.jpg b/Sklearn/sklearn-doc-zh/master/img/395ca6ce9617a4fc0695db973496d29b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/395ca6ce9617a4fc0695db973496d29b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/395ca6ce9617a4fc0695db973496d29b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3a03009ea272ed427cfa033086b89c72.jpg b/Sklearn/sklearn-doc-zh/master/img/3a03009ea272ed427cfa033086b89c72.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3a03009ea272ed427cfa033086b89c72.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3a03009ea272ed427cfa033086b89c72.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3a378bb516408c0bd771667be478b787.jpg b/Sklearn/sklearn-doc-zh/master/img/3a378bb516408c0bd771667be478b787.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3a378bb516408c0bd771667be478b787.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3a378bb516408c0bd771667be478b787.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3a876d35f8a2c82a19a71b0fd52f7153.jpg b/Sklearn/sklearn-doc-zh/master/img/3a876d35f8a2c82a19a71b0fd52f7153.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3a876d35f8a2c82a19a71b0fd52f7153.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3a876d35f8a2c82a19a71b0fd52f7153.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3ad7487dba3ebdba90bc11d2016d0c99.jpg b/Sklearn/sklearn-doc-zh/master/img/3ad7487dba3ebdba90bc11d2016d0c99.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3ad7487dba3ebdba90bc11d2016d0c99.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3ad7487dba3ebdba90bc11d2016d0c99.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3ae54efdf60edfa32ccbe7388834b0f2.jpg b/Sklearn/sklearn-doc-zh/master/img/3ae54efdf60edfa32ccbe7388834b0f2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3ae54efdf60edfa32ccbe7388834b0f2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3ae54efdf60edfa32ccbe7388834b0f2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3af1cb0026efe5789c3acf3669ff5bc6.jpg b/Sklearn/sklearn-doc-zh/master/img/3af1cb0026efe5789c3acf3669ff5bc6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3af1cb0026efe5789c3acf3669ff5bc6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3af1cb0026efe5789c3acf3669ff5bc6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3b1e10150e98ef95e977c12ad0607620.jpg b/Sklearn/sklearn-doc-zh/master/img/3b1e10150e98ef95e977c12ad0607620.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3b1e10150e98ef95e977c12ad0607620.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3b1e10150e98ef95e977c12ad0607620.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3b70a99c882760b6d8ed230e145ed742.jpg b/Sklearn/sklearn-doc-zh/master/img/3b70a99c882760b6d8ed230e145ed742.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3b70a99c882760b6d8ed230e145ed742.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3b70a99c882760b6d8ed230e145ed742.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3b87b19c6aee2b7c40b6ede968a45c07.jpg b/Sklearn/sklearn-doc-zh/master/img/3b87b19c6aee2b7c40b6ede968a45c07.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3b87b19c6aee2b7c40b6ede968a45c07.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3b87b19c6aee2b7c40b6ede968a45c07.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3bdd2a9b74f6a2e0db32e159c63ffec0.jpg b/Sklearn/sklearn-doc-zh/master/img/3bdd2a9b74f6a2e0db32e159c63ffec0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3bdd2a9b74f6a2e0db32e159c63ffec0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3bdd2a9b74f6a2e0db32e159c63ffec0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3bf32d926cdf24f440b6b831f0d9cc37.jpg b/Sklearn/sklearn-doc-zh/master/img/3bf32d926cdf24f440b6b831f0d9cc37.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3bf32d926cdf24f440b6b831f0d9cc37.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3bf32d926cdf24f440b6b831f0d9cc37.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3cc550ecff73666ed35ae1efee48b4f4.jpg b/Sklearn/sklearn-doc-zh/master/img/3cc550ecff73666ed35ae1efee48b4f4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3cc550ecff73666ed35ae1efee48b4f4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3cc550ecff73666ed35ae1efee48b4f4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3cca81fd08a4732dc7061cd246b323ed.jpg b/Sklearn/sklearn-doc-zh/master/img/3cca81fd08a4732dc7061cd246b323ed.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3cca81fd08a4732dc7061cd246b323ed.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3cca81fd08a4732dc7061cd246b323ed.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3d43f503466701e58ca2d516de2db505.jpg b/Sklearn/sklearn-doc-zh/master/img/3d43f503466701e58ca2d516de2db505.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3d43f503466701e58ca2d516de2db505.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3d43f503466701e58ca2d516de2db505.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3d4ce0d796d2662b24eb8fa7b4f9710c.jpg b/Sklearn/sklearn-doc-zh/master/img/3d4ce0d796d2662b24eb8fa7b4f9710c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3d4ce0d796d2662b24eb8fa7b4f9710c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3d4ce0d796d2662b24eb8fa7b4f9710c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3d52bf36b893b26195748e89c94273f0.jpg b/Sklearn/sklearn-doc-zh/master/img/3d52bf36b893b26195748e89c94273f0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3d52bf36b893b26195748e89c94273f0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3d52bf36b893b26195748e89c94273f0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3d59995ed97bdad674b6afd6fbd928ec.jpg b/Sklearn/sklearn-doc-zh/master/img/3d59995ed97bdad674b6afd6fbd928ec.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3d59995ed97bdad674b6afd6fbd928ec.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3d59995ed97bdad674b6afd6fbd928ec.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3dae1c97513f643047c2e33ee90ca8b5.jpg b/Sklearn/sklearn-doc-zh/master/img/3dae1c97513f643047c2e33ee90ca8b5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3dae1c97513f643047c2e33ee90ca8b5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3dae1c97513f643047c2e33ee90ca8b5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3e0dffeddefe6ba1e809bd9b6276c771.jpg b/Sklearn/sklearn-doc-zh/master/img/3e0dffeddefe6ba1e809bd9b6276c771.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3e0dffeddefe6ba1e809bd9b6276c771.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3e0dffeddefe6ba1e809bd9b6276c771.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3e233cefc937a43bb4481dd23d728b54.jpg b/Sklearn/sklearn-doc-zh/master/img/3e233cefc937a43bb4481dd23d728b54.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3e233cefc937a43bb4481dd23d728b54.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3e233cefc937a43bb4481dd23d728b54.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/3f5adc0c9b0e51a0759ed6ac49f94431.jpg b/Sklearn/sklearn-doc-zh/master/img/3f5adc0c9b0e51a0759ed6ac49f94431.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/3f5adc0c9b0e51a0759ed6ac49f94431.jpg
rename to Sklearn/sklearn-doc-zh/master/img/3f5adc0c9b0e51a0759ed6ac49f94431.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/401b1228a76ba9190680851b9d095653.jpg b/Sklearn/sklearn-doc-zh/master/img/401b1228a76ba9190680851b9d095653.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/401b1228a76ba9190680851b9d095653.jpg
rename to Sklearn/sklearn-doc-zh/master/img/401b1228a76ba9190680851b9d095653.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/403595258114953d3411fd1bfbf335f8.jpg b/Sklearn/sklearn-doc-zh/master/img/403595258114953d3411fd1bfbf335f8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/403595258114953d3411fd1bfbf335f8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/403595258114953d3411fd1bfbf335f8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/405095229d24f3525298dc6f99077666.jpg b/Sklearn/sklearn-doc-zh/master/img/405095229d24f3525298dc6f99077666.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/405095229d24f3525298dc6f99077666.jpg
rename to Sklearn/sklearn-doc-zh/master/img/405095229d24f3525298dc6f99077666.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/407341c3d4d055b857bb3229003b9daf.jpg b/Sklearn/sklearn-doc-zh/master/img/407341c3d4d055b857bb3229003b9daf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/407341c3d4d055b857bb3229003b9daf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/407341c3d4d055b857bb3229003b9daf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/412f5988c3736daa68f47a0dc9fba659.jpg b/Sklearn/sklearn-doc-zh/master/img/412f5988c3736daa68f47a0dc9fba659.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/412f5988c3736daa68f47a0dc9fba659.jpg
rename to Sklearn/sklearn-doc-zh/master/img/412f5988c3736daa68f47a0dc9fba659.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/418f3dbcb32031257a948ec23d05e53e.jpg b/Sklearn/sklearn-doc-zh/master/img/418f3dbcb32031257a948ec23d05e53e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/418f3dbcb32031257a948ec23d05e53e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/418f3dbcb32031257a948ec23d05e53e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/41c9612e6e74708a274b11f770810663.jpg b/Sklearn/sklearn-doc-zh/master/img/41c9612e6e74708a274b11f770810663.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/41c9612e6e74708a274b11f770810663.jpg
rename to Sklearn/sklearn-doc-zh/master/img/41c9612e6e74708a274b11f770810663.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/423f64b70bdfeba3566e0bbcca01c277.jpg b/Sklearn/sklearn-doc-zh/master/img/423f64b70bdfeba3566e0bbcca01c277.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/423f64b70bdfeba3566e0bbcca01c277.jpg
rename to Sklearn/sklearn-doc-zh/master/img/423f64b70bdfeba3566e0bbcca01c277.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4246a718076893e37084bc69a7e16007.jpg b/Sklearn/sklearn-doc-zh/master/img/4246a718076893e37084bc69a7e16007.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4246a718076893e37084bc69a7e16007.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4246a718076893e37084bc69a7e16007.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/42edb18b0951c4f7ab739e5c24bf9ba3.jpg b/Sklearn/sklearn-doc-zh/master/img/42edb18b0951c4f7ab739e5c24bf9ba3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/42edb18b0951c4f7ab739e5c24bf9ba3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/42edb18b0951c4f7ab739e5c24bf9ba3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/42f93b2b294f585223e6c663f86504d0.jpg b/Sklearn/sklearn-doc-zh/master/img/42f93b2b294f585223e6c663f86504d0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/42f93b2b294f585223e6c663f86504d0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/42f93b2b294f585223e6c663f86504d0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/433674c5864f3cec96b82f9e63b80fb7.jpg b/Sklearn/sklearn-doc-zh/master/img/433674c5864f3cec96b82f9e63b80fb7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/433674c5864f3cec96b82f9e63b80fb7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/433674c5864f3cec96b82f9e63b80fb7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/433fedd575581cddbd612624b65e5dac.jpg b/Sklearn/sklearn-doc-zh/master/img/433fedd575581cddbd612624b65e5dac.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/433fedd575581cddbd612624b65e5dac.jpg
rename to Sklearn/sklearn-doc-zh/master/img/433fedd575581cddbd612624b65e5dac.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4341393efadcef482cea0dd54509e011.jpg b/Sklearn/sklearn-doc-zh/master/img/4341393efadcef482cea0dd54509e011.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4341393efadcef482cea0dd54509e011.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4341393efadcef482cea0dd54509e011.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/43996aff9311511e6e2f81912a249c7e.jpg b/Sklearn/sklearn-doc-zh/master/img/43996aff9311511e6e2f81912a249c7e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/43996aff9311511e6e2f81912a249c7e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/43996aff9311511e6e2f81912a249c7e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/43c1fea57579e54f80c0535bc582626f.jpg b/Sklearn/sklearn-doc-zh/master/img/43c1fea57579e54f80c0535bc582626f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/43c1fea57579e54f80c0535bc582626f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/43c1fea57579e54f80c0535bc582626f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/43e13b580daefe5ba754b790dfbd216c.jpg b/Sklearn/sklearn-doc-zh/master/img/43e13b580daefe5ba754b790dfbd216c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/43e13b580daefe5ba754b790dfbd216c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/43e13b580daefe5ba754b790dfbd216c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/43fc75930300610d8cb41a8d15899c15.jpg b/Sklearn/sklearn-doc-zh/master/img/43fc75930300610d8cb41a8d15899c15.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/43fc75930300610d8cb41a8d15899c15.jpg
rename to Sklearn/sklearn-doc-zh/master/img/43fc75930300610d8cb41a8d15899c15.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/43fc8286f3bb11d7c8eb1e83e6538ac6.jpg b/Sklearn/sklearn-doc-zh/master/img/43fc8286f3bb11d7c8eb1e83e6538ac6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/43fc8286f3bb11d7c8eb1e83e6538ac6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/43fc8286f3bb11d7c8eb1e83e6538ac6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/446d6d36c20a79508f1cc84c737a597b.jpg b/Sklearn/sklearn-doc-zh/master/img/446d6d36c20a79508f1cc84c737a597b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/446d6d36c20a79508f1cc84c737a597b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/446d6d36c20a79508f1cc84c737a597b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/451ef7ed1a14a6cdc38324c8a5c7c683.jpg b/Sklearn/sklearn-doc-zh/master/img/451ef7ed1a14a6cdc38324c8a5c7c683.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/451ef7ed1a14a6cdc38324c8a5c7c683.jpg
rename to Sklearn/sklearn-doc-zh/master/img/451ef7ed1a14a6cdc38324c8a5c7c683.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/45c6e9fedc8fe61dd8d3f388a0464d30.jpg b/Sklearn/sklearn-doc-zh/master/img/45c6e9fedc8fe61dd8d3f388a0464d30.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/45c6e9fedc8fe61dd8d3f388a0464d30.jpg
rename to Sklearn/sklearn-doc-zh/master/img/45c6e9fedc8fe61dd8d3f388a0464d30.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/45e0e70e4566592b549e6835d6cba2a8.jpg b/Sklearn/sklearn-doc-zh/master/img/45e0e70e4566592b549e6835d6cba2a8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/45e0e70e4566592b549e6835d6cba2a8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/45e0e70e4566592b549e6835d6cba2a8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4609693b88f682790da8203535625471.jpg b/Sklearn/sklearn-doc-zh/master/img/4609693b88f682790da8203535625471.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4609693b88f682790da8203535625471.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4609693b88f682790da8203535625471.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/468283fb7514d3373112cb7db7c43356.jpg b/Sklearn/sklearn-doc-zh/master/img/468283fb7514d3373112cb7db7c43356.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/468283fb7514d3373112cb7db7c43356.jpg
rename to Sklearn/sklearn-doc-zh/master/img/468283fb7514d3373112cb7db7c43356.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/46cc434e4ffc05f8d38712603b34bf7f.jpg b/Sklearn/sklearn-doc-zh/master/img/46cc434e4ffc05f8d38712603b34bf7f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/46cc434e4ffc05f8d38712603b34bf7f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/46cc434e4ffc05f8d38712603b34bf7f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/47738e3e36a9bddb5bc708e8fc666204.jpg b/Sklearn/sklearn-doc-zh/master/img/47738e3e36a9bddb5bc708e8fc666204.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/47738e3e36a9bddb5bc708e8fc666204.jpg
rename to Sklearn/sklearn-doc-zh/master/img/47738e3e36a9bddb5bc708e8fc666204.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/47d90c837620a14d53233bae4fe8fe57.jpg b/Sklearn/sklearn-doc-zh/master/img/47d90c837620a14d53233bae4fe8fe57.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/47d90c837620a14d53233bae4fe8fe57.jpg
rename to Sklearn/sklearn-doc-zh/master/img/47d90c837620a14d53233bae4fe8fe57.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/48a36c240dcfa54de5ea4cc6250087fa.jpg b/Sklearn/sklearn-doc-zh/master/img/48a36c240dcfa54de5ea4cc6250087fa.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/48a36c240dcfa54de5ea4cc6250087fa.jpg
rename to Sklearn/sklearn-doc-zh/master/img/48a36c240dcfa54de5ea4cc6250087fa.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/48cf684e54ca494e275074761259069c.jpg b/Sklearn/sklearn-doc-zh/master/img/48cf684e54ca494e275074761259069c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/48cf684e54ca494e275074761259069c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/48cf684e54ca494e275074761259069c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4953c9da8999e3eb76b63a4dd0432896.jpg b/Sklearn/sklearn-doc-zh/master/img/4953c9da8999e3eb76b63a4dd0432896.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4953c9da8999e3eb76b63a4dd0432896.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4953c9da8999e3eb76b63a4dd0432896.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/499e262369261799dec950eb33da9ccf.jpg b/Sklearn/sklearn-doc-zh/master/img/499e262369261799dec950eb33da9ccf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/499e262369261799dec950eb33da9ccf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/499e262369261799dec950eb33da9ccf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/49b0512284893ed2ca56a2b8c0b7d0b5.jpg b/Sklearn/sklearn-doc-zh/master/img/49b0512284893ed2ca56a2b8c0b7d0b5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/49b0512284893ed2ca56a2b8c0b7d0b5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/49b0512284893ed2ca56a2b8c0b7d0b5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4a22ca544916918b2358e5fc7c71b8e6.jpg b/Sklearn/sklearn-doc-zh/master/img/4a22ca544916918b2358e5fc7c71b8e6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4a22ca544916918b2358e5fc7c71b8e6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4a22ca544916918b2358e5fc7c71b8e6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4a22ca544916918b2358e5fc7c71b8e7.png b/Sklearn/sklearn-doc-zh/master/img/4a22ca544916918b2358e5fc7c71b8e7.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4a22ca544916918b2358e5fc7c71b8e7.png
rename to Sklearn/sklearn-doc-zh/master/img/4a22ca544916918b2358e5fc7c71b8e7.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4a733ee899c074bde7a4d5292c9fc83e.jpg b/Sklearn/sklearn-doc-zh/master/img/4a733ee899c074bde7a4d5292c9fc83e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4a733ee899c074bde7a4d5292c9fc83e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4a733ee899c074bde7a4d5292c9fc83e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4aafe42b7f9cf8d06d93b9246d01bbfd.jpg b/Sklearn/sklearn-doc-zh/master/img/4aafe42b7f9cf8d06d93b9246d01bbfd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4aafe42b7f9cf8d06d93b9246d01bbfd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4aafe42b7f9cf8d06d93b9246d01bbfd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4b3d9c4467b467af3714ba45c54e5c2e.jpg b/Sklearn/sklearn-doc-zh/master/img/4b3d9c4467b467af3714ba45c54e5c2e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4b3d9c4467b467af3714ba45c54e5c2e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4b3d9c4467b467af3714ba45c54e5c2e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4b64f9acb85d7f2b6169e5a58f255e44.jpg b/Sklearn/sklearn-doc-zh/master/img/4b64f9acb85d7f2b6169e5a58f255e44.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4b64f9acb85d7f2b6169e5a58f255e44.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4b64f9acb85d7f2b6169e5a58f255e44.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4b6d782a67ac392e97215c46b7590bf7.jpg b/Sklearn/sklearn-doc-zh/master/img/4b6d782a67ac392e97215c46b7590bf7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4b6d782a67ac392e97215c46b7590bf7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4b6d782a67ac392e97215c46b7590bf7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4bb6ac59e053fd48275c31c9af35b2d1.jpg b/Sklearn/sklearn-doc-zh/master/img/4bb6ac59e053fd48275c31c9af35b2d1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4bb6ac59e053fd48275c31c9af35b2d1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4bb6ac59e053fd48275c31c9af35b2d1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4bcd849c1a2c10ab9857df1dc223e175.jpg b/Sklearn/sklearn-doc-zh/master/img/4bcd849c1a2c10ab9857df1dc223e175.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4bcd849c1a2c10ab9857df1dc223e175.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4bcd849c1a2c10ab9857df1dc223e175.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4bfe956324cef23278c5192b0fb8029b.jpg b/Sklearn/sklearn-doc-zh/master/img/4bfe956324cef23278c5192b0fb8029b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4bfe956324cef23278c5192b0fb8029b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4bfe956324cef23278c5192b0fb8029b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4c0a0003e110c44c538fbf113c159a3a.jpg b/Sklearn/sklearn-doc-zh/master/img/4c0a0003e110c44c538fbf113c159a3a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4c0a0003e110c44c538fbf113c159a3a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4c0a0003e110c44c538fbf113c159a3a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4d1bc681619acee3db7da4d570bcb4cd.jpg b/Sklearn/sklearn-doc-zh/master/img/4d1bc681619acee3db7da4d570bcb4cd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4d1bc681619acee3db7da4d570bcb4cd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4d1bc681619acee3db7da4d570bcb4cd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4d831898e5c564ee2d4df9fa647a97ce.jpg b/Sklearn/sklearn-doc-zh/master/img/4d831898e5c564ee2d4df9fa647a97ce.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4d831898e5c564ee2d4df9fa647a97ce.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4d831898e5c564ee2d4df9fa647a97ce.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4dee38783cbd4faef5d5639ce23a5c59.jpg b/Sklearn/sklearn-doc-zh/master/img/4dee38783cbd4faef5d5639ce23a5c59.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4dee38783cbd4faef5d5639ce23a5c59.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4dee38783cbd4faef5d5639ce23a5c59.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4e0d8935ff82f26fc3a46a3202bd1fa3.jpg b/Sklearn/sklearn-doc-zh/master/img/4e0d8935ff82f26fc3a46a3202bd1fa3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4e0d8935ff82f26fc3a46a3202bd1fa3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4e0d8935ff82f26fc3a46a3202bd1fa3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4e6d5ce51d78cff57187dc09b6710a7c.jpg b/Sklearn/sklearn-doc-zh/master/img/4e6d5ce51d78cff57187dc09b6710a7c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4e6d5ce51d78cff57187dc09b6710a7c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4e6d5ce51d78cff57187dc09b6710a7c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4ee9f6c666393981b6458e54c3ec89d0.jpg b/Sklearn/sklearn-doc-zh/master/img/4ee9f6c666393981b6458e54c3ec89d0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4ee9f6c666393981b6458e54c3ec89d0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4ee9f6c666393981b6458e54c3ec89d0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4f11727a275459ce82826a9e02800c28.jpg b/Sklearn/sklearn-doc-zh/master/img/4f11727a275459ce82826a9e02800c28.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4f11727a275459ce82826a9e02800c28.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4f11727a275459ce82826a9e02800c28.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/4f8138b00b37d9734bb93aec7e00ac5e.jpg b/Sklearn/sklearn-doc-zh/master/img/4f8138b00b37d9734bb93aec7e00ac5e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/4f8138b00b37d9734bb93aec7e00ac5e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/4f8138b00b37d9734bb93aec7e00ac5e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/500efeff217bde3e862144e9bc90b049.jpg b/Sklearn/sklearn-doc-zh/master/img/500efeff217bde3e862144e9bc90b049.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/500efeff217bde3e862144e9bc90b049.jpg
rename to Sklearn/sklearn-doc-zh/master/img/500efeff217bde3e862144e9bc90b049.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/502926bb104c175c6f3e809b0207830c.jpg b/Sklearn/sklearn-doc-zh/master/img/502926bb104c175c6f3e809b0207830c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/502926bb104c175c6f3e809b0207830c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/502926bb104c175c6f3e809b0207830c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/505ffca1dc9570f24fd66272d18abb1f.jpg b/Sklearn/sklearn-doc-zh/master/img/505ffca1dc9570f24fd66272d18abb1f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/505ffca1dc9570f24fd66272d18abb1f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/505ffca1dc9570f24fd66272d18abb1f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5062c88fba7988fa39aca3bc91857721.jpg b/Sklearn/sklearn-doc-zh/master/img/5062c88fba7988fa39aca3bc91857721.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5062c88fba7988fa39aca3bc91857721.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5062c88fba7988fa39aca3bc91857721.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/507fd1a87cb6a0196c0203a0af5e9bbb.jpg b/Sklearn/sklearn-doc-zh/master/img/507fd1a87cb6a0196c0203a0af5e9bbb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/507fd1a87cb6a0196c0203a0af5e9bbb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/507fd1a87cb6a0196c0203a0af5e9bbb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/50bc02ed6fb21594c72e30d1a33bbf89.jpg b/Sklearn/sklearn-doc-zh/master/img/50bc02ed6fb21594c72e30d1a33bbf89.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/50bc02ed6fb21594c72e30d1a33bbf89.jpg
rename to Sklearn/sklearn-doc-zh/master/img/50bc02ed6fb21594c72e30d1a33bbf89.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/50eda5a92ebcfda1468e1508393b748a.jpg b/Sklearn/sklearn-doc-zh/master/img/50eda5a92ebcfda1468e1508393b748a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/50eda5a92ebcfda1468e1508393b748a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/50eda5a92ebcfda1468e1508393b748a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/515ee7781876d7344cc383bb43cb30ea.jpg b/Sklearn/sklearn-doc-zh/master/img/515ee7781876d7344cc383bb43cb30ea.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/515ee7781876d7344cc383bb43cb30ea.jpg
rename to Sklearn/sklearn-doc-zh/master/img/515ee7781876d7344cc383bb43cb30ea.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/51d052e3e4c7f694f3c05eb4159ba243.jpg b/Sklearn/sklearn-doc-zh/master/img/51d052e3e4c7f694f3c05eb4159ba243.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/51d052e3e4c7f694f3c05eb4159ba243.jpg
rename to Sklearn/sklearn-doc-zh/master/img/51d052e3e4c7f694f3c05eb4159ba243.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/51d70ae60903891457d75099cc46e450.jpg b/Sklearn/sklearn-doc-zh/master/img/51d70ae60903891457d75099cc46e450.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/51d70ae60903891457d75099cc46e450.jpg
rename to Sklearn/sklearn-doc-zh/master/img/51d70ae60903891457d75099cc46e450.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/51fa9007646861e0569f8f66731c64e7.jpg b/Sklearn/sklearn-doc-zh/master/img/51fa9007646861e0569f8f66731c64e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/51fa9007646861e0569f8f66731c64e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/51fa9007646861e0569f8f66731c64e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/520d26d427ec8afe74b5538d779f5f49.jpg b/Sklearn/sklearn-doc-zh/master/img/520d26d427ec8afe74b5538d779f5f49.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/520d26d427ec8afe74b5538d779f5f49.jpg
rename to Sklearn/sklearn-doc-zh/master/img/520d26d427ec8afe74b5538d779f5f49.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/522bc8957a5d77edbdc533813dbef086.jpg b/Sklearn/sklearn-doc-zh/master/img/522bc8957a5d77edbdc533813dbef086.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/522bc8957a5d77edbdc533813dbef086.jpg
rename to Sklearn/sklearn-doc-zh/master/img/522bc8957a5d77edbdc533813dbef086.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/52654d94cd29c421bad069f802bb69c4.jpg b/Sklearn/sklearn-doc-zh/master/img/52654d94cd29c421bad069f802bb69c4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/52654d94cd29c421bad069f802bb69c4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/52654d94cd29c421bad069f802bb69c4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/526e2da298d085b5fd557f49433d4143.jpg b/Sklearn/sklearn-doc-zh/master/img/526e2da298d085b5fd557f49433d4143.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/526e2da298d085b5fd557f49433d4143.jpg
rename to Sklearn/sklearn-doc-zh/master/img/526e2da298d085b5fd557f49433d4143.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5303ecbc70bf5189b8785555c03c54ee.jpg b/Sklearn/sklearn-doc-zh/master/img/5303ecbc70bf5189b8785555c03c54ee.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5303ecbc70bf5189b8785555c03c54ee.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5303ecbc70bf5189b8785555c03c54ee.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/533e54759d696211ebe7819cc107d3bc.jpg b/Sklearn/sklearn-doc-zh/master/img/533e54759d696211ebe7819cc107d3bc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/533e54759d696211ebe7819cc107d3bc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/533e54759d696211ebe7819cc107d3bc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/535f86af715e90b9c394e3cbf53d99eb.jpg b/Sklearn/sklearn-doc-zh/master/img/535f86af715e90b9c394e3cbf53d99eb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/535f86af715e90b9c394e3cbf53d99eb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/535f86af715e90b9c394e3cbf53d99eb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/53f6b3d47807f65fe25b4fa232cd7abc.jpg b/Sklearn/sklearn-doc-zh/master/img/53f6b3d47807f65fe25b4fa232cd7abc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/53f6b3d47807f65fe25b4fa232cd7abc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/53f6b3d47807f65fe25b4fa232cd7abc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/53fd9843c9af9a7ea05df92bce997456.jpg b/Sklearn/sklearn-doc-zh/master/img/53fd9843c9af9a7ea05df92bce997456.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/53fd9843c9af9a7ea05df92bce997456.jpg
rename to Sklearn/sklearn-doc-zh/master/img/53fd9843c9af9a7ea05df92bce997456.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5421b26a31de754ee8d186d038006fa3.jpg b/Sklearn/sklearn-doc-zh/master/img/5421b26a31de754ee8d186d038006fa3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5421b26a31de754ee8d186d038006fa3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5421b26a31de754ee8d186d038006fa3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/55f40b1e092983fff81024042966adec.jpg b/Sklearn/sklearn-doc-zh/master/img/55f40b1e092983fff81024042966adec.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/55f40b1e092983fff81024042966adec.jpg
rename to Sklearn/sklearn-doc-zh/master/img/55f40b1e092983fff81024042966adec.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/55f44df097de0ddde791d3084a69a1bf.jpg b/Sklearn/sklearn-doc-zh/master/img/55f44df097de0ddde791d3084a69a1bf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/55f44df097de0ddde791d3084a69a1bf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/55f44df097de0ddde791d3084a69a1bf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5656d5270c0ee866d09e2b271ed04a67.jpg b/Sklearn/sklearn-doc-zh/master/img/5656d5270c0ee866d09e2b271ed04a67.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5656d5270c0ee866d09e2b271ed04a67.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5656d5270c0ee866d09e2b271ed04a67.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5679f1fec5dfb7ab05db5e5aa9fa11a2.jpg b/Sklearn/sklearn-doc-zh/master/img/5679f1fec5dfb7ab05db5e5aa9fa11a2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5679f1fec5dfb7ab05db5e5aa9fa11a2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5679f1fec5dfb7ab05db5e5aa9fa11a2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/56c751b0714a570fdcef0caf63f81580.jpg b/Sklearn/sklearn-doc-zh/master/img/56c751b0714a570fdcef0caf63f81580.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/56c751b0714a570fdcef0caf63f81580.jpg
rename to Sklearn/sklearn-doc-zh/master/img/56c751b0714a570fdcef0caf63f81580.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/572f614c4b9bc376ebbf6ca259b6558e.jpg b/Sklearn/sklearn-doc-zh/master/img/572f614c4b9bc376ebbf6ca259b6558e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/572f614c4b9bc376ebbf6ca259b6558e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/572f614c4b9bc376ebbf6ca259b6558e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/578c95150175e4efdf851fe66d503079.jpg b/Sklearn/sklearn-doc-zh/master/img/578c95150175e4efdf851fe66d503079.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/578c95150175e4efdf851fe66d503079.jpg
rename to Sklearn/sklearn-doc-zh/master/img/578c95150175e4efdf851fe66d503079.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/57e15e43b846791e47a202e1a9a5d8ce.jpg b/Sklearn/sklearn-doc-zh/master/img/57e15e43b846791e47a202e1a9a5d8ce.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/57e15e43b846791e47a202e1a9a5d8ce.jpg
rename to Sklearn/sklearn-doc-zh/master/img/57e15e43b846791e47a202e1a9a5d8ce.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/580270908cf4e5ba3907b7267fcfbb44.jpg b/Sklearn/sklearn-doc-zh/master/img/580270908cf4e5ba3907b7267fcfbb44.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/580270908cf4e5ba3907b7267fcfbb44.jpg
rename to Sklearn/sklearn-doc-zh/master/img/580270908cf4e5ba3907b7267fcfbb44.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/587f27ca8cf947779c1929d65c697e0c.jpg b/Sklearn/sklearn-doc-zh/master/img/587f27ca8cf947779c1929d65c697e0c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/587f27ca8cf947779c1929d65c697e0c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/587f27ca8cf947779c1929d65c697e0c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/58d06eb9b8003c392af19e09ce5ab1a4.jpg b/Sklearn/sklearn-doc-zh/master/img/58d06eb9b8003c392af19e09ce5ab1a4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/58d06eb9b8003c392af19e09ce5ab1a4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/58d06eb9b8003c392af19e09ce5ab1a4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/58d86a5573e0796f320435a8ce8346ea.jpg b/Sklearn/sklearn-doc-zh/master/img/58d86a5573e0796f320435a8ce8346ea.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/58d86a5573e0796f320435a8ce8346ea.jpg
rename to Sklearn/sklearn-doc-zh/master/img/58d86a5573e0796f320435a8ce8346ea.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/58ef9e1b5d2ee139dcb588a3879ca1a6.jpg b/Sklearn/sklearn-doc-zh/master/img/58ef9e1b5d2ee139dcb588a3879ca1a6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/58ef9e1b5d2ee139dcb588a3879ca1a6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/58ef9e1b5d2ee139dcb588a3879ca1a6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/59100a001bb4b110e00f7ddf1354cd5b.jpg b/Sklearn/sklearn-doc-zh/master/img/59100a001bb4b110e00f7ddf1354cd5b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/59100a001bb4b110e00f7ddf1354cd5b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/59100a001bb4b110e00f7ddf1354cd5b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/59420186f988199ba986eefc023fb637.jpg b/Sklearn/sklearn-doc-zh/master/img/59420186f988199ba986eefc023fb637.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/59420186f988199ba986eefc023fb637.jpg
rename to Sklearn/sklearn-doc-zh/master/img/59420186f988199ba986eefc023fb637.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5959a6fe3c27570b7d474f26126eb628.jpg b/Sklearn/sklearn-doc-zh/master/img/5959a6fe3c27570b7d474f26126eb628.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5959a6fe3c27570b7d474f26126eb628.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5959a6fe3c27570b7d474f26126eb628.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5959a6fe3c27570b7d474f26126eb628.png b/Sklearn/sklearn-doc-zh/master/img/5959a6fe3c27570b7d474f26126eb628.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5959a6fe3c27570b7d474f26126eb628.png
rename to Sklearn/sklearn-doc-zh/master/img/5959a6fe3c27570b7d474f26126eb628.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5a5de287d8a2c74dd12f86219cc19697.jpg b/Sklearn/sklearn-doc-zh/master/img/5a5de287d8a2c74dd12f86219cc19697.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5a5de287d8a2c74dd12f86219cc19697.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5a5de287d8a2c74dd12f86219cc19697.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5a8d4539001fa07eb00b24f2e74adeca.jpg b/Sklearn/sklearn-doc-zh/master/img/5a8d4539001fa07eb00b24f2e74adeca.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5a8d4539001fa07eb00b24f2e74adeca.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5a8d4539001fa07eb00b24f2e74adeca.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5b84281b8f1a26c9e9cba1b6cb0126ce.jpg b/Sklearn/sklearn-doc-zh/master/img/5b84281b8f1a26c9e9cba1b6cb0126ce.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5b84281b8f1a26c9e9cba1b6cb0126ce.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5b84281b8f1a26c9e9cba1b6cb0126ce.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5b87e1a1b34a0ac402ef602b152ee2f9.jpg b/Sklearn/sklearn-doc-zh/master/img/5b87e1a1b34a0ac402ef602b152ee2f9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5b87e1a1b34a0ac402ef602b152ee2f9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5b87e1a1b34a0ac402ef602b152ee2f9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5bb034cee5851ab5105aca4c40a4e16e.jpg b/Sklearn/sklearn-doc-zh/master/img/5bb034cee5851ab5105aca4c40a4e16e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5bb034cee5851ab5105aca4c40a4e16e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5bb034cee5851ab5105aca4c40a4e16e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5bd6037aeb804486a6f7cc0415ace8fc.jpg b/Sklearn/sklearn-doc-zh/master/img/5bd6037aeb804486a6f7cc0415ace8fc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5bd6037aeb804486a6f7cc0415ace8fc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5bd6037aeb804486a6f7cc0415ace8fc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5c0b2807058791d6069327b709fae60c.jpg b/Sklearn/sklearn-doc-zh/master/img/5c0b2807058791d6069327b709fae60c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5c0b2807058791d6069327b709fae60c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5c0b2807058791d6069327b709fae60c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5c3cdb1b3bec4126d850a52d7fe8dc18.jpg b/Sklearn/sklearn-doc-zh/master/img/5c3cdb1b3bec4126d850a52d7fe8dc18.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5c3cdb1b3bec4126d850a52d7fe8dc18.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5c3cdb1b3bec4126d850a52d7fe8dc18.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5c82dbae35dc43d2f556f9f284d9d184.jpg b/Sklearn/sklearn-doc-zh/master/img/5c82dbae35dc43d2f556f9f284d9d184.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5c82dbae35dc43d2f556f9f284d9d184.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5c82dbae35dc43d2f556f9f284d9d184.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5cc4d35f246f0aeb95f154a5343635c2.jpg b/Sklearn/sklearn-doc-zh/master/img/5cc4d35f246f0aeb95f154a5343635c2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5cc4d35f246f0aeb95f154a5343635c2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5cc4d35f246f0aeb95f154a5343635c2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5cf078f7cdbb5755436e396cad3c37a0.jpg b/Sklearn/sklearn-doc-zh/master/img/5cf078f7cdbb5755436e396cad3c37a0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5cf078f7cdbb5755436e396cad3c37a0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5cf078f7cdbb5755436e396cad3c37a0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5d0c433dc4dc7ca883ac8173e6e2096f.jpg b/Sklearn/sklearn-doc-zh/master/img/5d0c433dc4dc7ca883ac8173e6e2096f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5d0c433dc4dc7ca883ac8173e6e2096f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5d0c433dc4dc7ca883ac8173e6e2096f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5d0d4b3cde172f7fd71da81c2e1b21a9.jpg b/Sklearn/sklearn-doc-zh/master/img/5d0d4b3cde172f7fd71da81c2e1b21a9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5d0d4b3cde172f7fd71da81c2e1b21a9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5d0d4b3cde172f7fd71da81c2e1b21a9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5d197c73e8e0bc6ba78f74b2a205886e.jpg b/Sklearn/sklearn-doc-zh/master/img/5d197c73e8e0bc6ba78f74b2a205886e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5d197c73e8e0bc6ba78f74b2a205886e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5d197c73e8e0bc6ba78f74b2a205886e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5d71bcc9676eddcac89936397b2cd79c.jpg b/Sklearn/sklearn-doc-zh/master/img/5d71bcc9676eddcac89936397b2cd79c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5d71bcc9676eddcac89936397b2cd79c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5d71bcc9676eddcac89936397b2cd79c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5d8cf5fcf13a72776158a787bc29143c.jpg b/Sklearn/sklearn-doc-zh/master/img/5d8cf5fcf13a72776158a787bc29143c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5d8cf5fcf13a72776158a787bc29143c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5d8cf5fcf13a72776158a787bc29143c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5daa1b5d6a3d63020722cb0f4b41eee2.jpg b/Sklearn/sklearn-doc-zh/master/img/5daa1b5d6a3d63020722cb0f4b41eee2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5daa1b5d6a3d63020722cb0f4b41eee2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5daa1b5d6a3d63020722cb0f4b41eee2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5db611c8f58fbd9a9776c013656a16ff.jpg b/Sklearn/sklearn-doc-zh/master/img/5db611c8f58fbd9a9776c013656a16ff.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5db611c8f58fbd9a9776c013656a16ff.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5db611c8f58fbd9a9776c013656a16ff.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5df8f915c528f34f0ada91db5228605f.jpg b/Sklearn/sklearn-doc-zh/master/img/5df8f915c528f34f0ada91db5228605f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5df8f915c528f34f0ada91db5228605f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5df8f915c528f34f0ada91db5228605f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5e45807b4775fcfaca64f6363102dc5e.jpg b/Sklearn/sklearn-doc-zh/master/img/5e45807b4775fcfaca64f6363102dc5e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5e45807b4775fcfaca64f6363102dc5e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5e45807b4775fcfaca64f6363102dc5e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5ec012661471fa940c27472afcce01a2.jpg b/Sklearn/sklearn-doc-zh/master/img/5ec012661471fa940c27472afcce01a2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5ec012661471fa940c27472afcce01a2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5ec012661471fa940c27472afcce01a2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5eea9f6c78020e75b9cc37d038d297ab.jpg b/Sklearn/sklearn-doc-zh/master/img/5eea9f6c78020e75b9cc37d038d297ab.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5eea9f6c78020e75b9cc37d038d297ab.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5eea9f6c78020e75b9cc37d038d297ab.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5f0a6e9a20a071d688e183c9675544e5.jpg b/Sklearn/sklearn-doc-zh/master/img/5f0a6e9a20a071d688e183c9675544e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5f0a6e9a20a071d688e183c9675544e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5f0a6e9a20a071d688e183c9675544e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/5fc2f399717cfe5187dc09896972a850.jpg b/Sklearn/sklearn-doc-zh/master/img/5fc2f399717cfe5187dc09896972a850.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/5fc2f399717cfe5187dc09896972a850.jpg
rename to Sklearn/sklearn-doc-zh/master/img/5fc2f399717cfe5187dc09896972a850.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/60337a9162822d71dc32e68952b4e02a.jpg b/Sklearn/sklearn-doc-zh/master/img/60337a9162822d71dc32e68952b4e02a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/60337a9162822d71dc32e68952b4e02a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/60337a9162822d71dc32e68952b4e02a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6042b714de932f6ed841e71bfe9acede.jpg b/Sklearn/sklearn-doc-zh/master/img/6042b714de932f6ed841e71bfe9acede.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6042b714de932f6ed841e71bfe9acede.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6042b714de932f6ed841e71bfe9acede.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6081a672a0d5d6cc7563c531599dde91.jpg b/Sklearn/sklearn-doc-zh/master/img/6081a672a0d5d6cc7563c531599dde91.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6081a672a0d5d6cc7563c531599dde91.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6081a672a0d5d6cc7563c531599dde91.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/60fef7a79e647e4e8dc02f0b0dc25772.jpg b/Sklearn/sklearn-doc-zh/master/img/60fef7a79e647e4e8dc02f0b0dc25772.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/60fef7a79e647e4e8dc02f0b0dc25772.jpg
rename to Sklearn/sklearn-doc-zh/master/img/60fef7a79e647e4e8dc02f0b0dc25772.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/610475f160f25407a547e5430c792460.jpg b/Sklearn/sklearn-doc-zh/master/img/610475f160f25407a547e5430c792460.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/610475f160f25407a547e5430c792460.jpg
rename to Sklearn/sklearn-doc-zh/master/img/610475f160f25407a547e5430c792460.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/611639bdcfd73c857a43842913d6e826.jpg b/Sklearn/sklearn-doc-zh/master/img/611639bdcfd73c857a43842913d6e826.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/611639bdcfd73c857a43842913d6e826.jpg
rename to Sklearn/sklearn-doc-zh/master/img/611639bdcfd73c857a43842913d6e826.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6122e23454910f4f076c71a84c068291.jpg b/Sklearn/sklearn-doc-zh/master/img/6122e23454910f4f076c71a84c068291.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6122e23454910f4f076c71a84c068291.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6122e23454910f4f076c71a84c068291.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/61a540d6591602c8f513910fd2f33b40.jpg b/Sklearn/sklearn-doc-zh/master/img/61a540d6591602c8f513910fd2f33b40.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/61a540d6591602c8f513910fd2f33b40.jpg
rename to Sklearn/sklearn-doc-zh/master/img/61a540d6591602c8f513910fd2f33b40.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/61a79d63783315d8e68d8ecf1324105f.jpg b/Sklearn/sklearn-doc-zh/master/img/61a79d63783315d8e68d8ecf1324105f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/61a79d63783315d8e68d8ecf1324105f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/61a79d63783315d8e68d8ecf1324105f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/61b05c3bf030b831f23f257ca8182f51.jpg b/Sklearn/sklearn-doc-zh/master/img/61b05c3bf030b831f23f257ca8182f51.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/61b05c3bf030b831f23f257ca8182f51.jpg
rename to Sklearn/sklearn-doc-zh/master/img/61b05c3bf030b831f23f257ca8182f51.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6211fb320c2cdb794a80e9e0b800a6a1.jpg b/Sklearn/sklearn-doc-zh/master/img/6211fb320c2cdb794a80e9e0b800a6a1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6211fb320c2cdb794a80e9e0b800a6a1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6211fb320c2cdb794a80e9e0b800a6a1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/62eb544f1f6e234c61099fea1517300b.jpg b/Sklearn/sklearn-doc-zh/master/img/62eb544f1f6e234c61099fea1517300b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/62eb544f1f6e234c61099fea1517300b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/62eb544f1f6e234c61099fea1517300b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/638e0b526b8a69a226bc23950f6eeb3f.jpg b/Sklearn/sklearn-doc-zh/master/img/638e0b526b8a69a226bc23950f6eeb3f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/638e0b526b8a69a226bc23950f6eeb3f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/638e0b526b8a69a226bc23950f6eeb3f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/639e82f3829a0ad677110cc33a028c98.jpg b/Sklearn/sklearn-doc-zh/master/img/639e82f3829a0ad677110cc33a028c98.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/639e82f3829a0ad677110cc33a028c98.jpg
rename to Sklearn/sklearn-doc-zh/master/img/639e82f3829a0ad677110cc33a028c98.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/63f146cd209ad922f402bf81bfdeb621.jpg b/Sklearn/sklearn-doc-zh/master/img/63f146cd209ad922f402bf81bfdeb621.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/63f146cd209ad922f402bf81bfdeb621.jpg
rename to Sklearn/sklearn-doc-zh/master/img/63f146cd209ad922f402bf81bfdeb621.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/642372b631f22b9db0dc4f30d9ab67e6.jpg b/Sklearn/sklearn-doc-zh/master/img/642372b631f22b9db0dc4f30d9ab67e6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/642372b631f22b9db0dc4f30d9ab67e6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/642372b631f22b9db0dc4f30d9ab67e6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6447f40a171271e014eed37b28b4a711.jpg b/Sklearn/sklearn-doc-zh/master/img/6447f40a171271e014eed37b28b4a711.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6447f40a171271e014eed37b28b4a711.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6447f40a171271e014eed37b28b4a711.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6479476ebd2e5d741f1a712f671fccb6.jpg b/Sklearn/sklearn-doc-zh/master/img/6479476ebd2e5d741f1a712f671fccb6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6479476ebd2e5d741f1a712f671fccb6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6479476ebd2e5d741f1a712f671fccb6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/64ccaf1b6c08784a30158f809c081987.jpg b/Sklearn/sklearn-doc-zh/master/img/64ccaf1b6c08784a30158f809c081987.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/64ccaf1b6c08784a30158f809c081987.jpg
rename to Sklearn/sklearn-doc-zh/master/img/64ccaf1b6c08784a30158f809c081987.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/64ecb0afa71752378a987a33e1e4e76f.jpg b/Sklearn/sklearn-doc-zh/master/img/64ecb0afa71752378a987a33e1e4e76f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/64ecb0afa71752378a987a33e1e4e76f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/64ecb0afa71752378a987a33e1e4e76f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6518e8fbaaadd8a258c9a3f96b2ef42e.jpg b/Sklearn/sklearn-doc-zh/master/img/6518e8fbaaadd8a258c9a3f96b2ef42e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6518e8fbaaadd8a258c9a3f96b2ef42e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6518e8fbaaadd8a258c9a3f96b2ef42e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6521e34e11e73c0fae9a5bd3c7980a9f.jpg b/Sklearn/sklearn-doc-zh/master/img/6521e34e11e73c0fae9a5bd3c7980a9f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6521e34e11e73c0fae9a5bd3c7980a9f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6521e34e11e73c0fae9a5bd3c7980a9f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6526868397aa8da766b3dc60bbcc30ef.jpg b/Sklearn/sklearn-doc-zh/master/img/6526868397aa8da766b3dc60bbcc30ef.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6526868397aa8da766b3dc60bbcc30ef.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6526868397aa8da766b3dc60bbcc30ef.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6552bde3d3999c1a9728016416932af7.jpg b/Sklearn/sklearn-doc-zh/master/img/6552bde3d3999c1a9728016416932af7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6552bde3d3999c1a9728016416932af7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6552bde3d3999c1a9728016416932af7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6569ca3d831148970ddb4c7dfc3f2572.jpg b/Sklearn/sklearn-doc-zh/master/img/6569ca3d831148970ddb4c7dfc3f2572.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6569ca3d831148970ddb4c7dfc3f2572.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6569ca3d831148970ddb4c7dfc3f2572.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/658840c7508dc5a73ca6180323904862.jpg b/Sklearn/sklearn-doc-zh/master/img/658840c7508dc5a73ca6180323904862.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/658840c7508dc5a73ca6180323904862.jpg
rename to Sklearn/sklearn-doc-zh/master/img/658840c7508dc5a73ca6180323904862.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6653de9b4dea7e5e9a897b5f34e7a4f0.jpg b/Sklearn/sklearn-doc-zh/master/img/6653de9b4dea7e5e9a897b5f34e7a4f0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6653de9b4dea7e5e9a897b5f34e7a4f0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6653de9b4dea7e5e9a897b5f34e7a4f0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6689aa593e8e42bb5c2caa474e642b5f.jpg b/Sklearn/sklearn-doc-zh/master/img/6689aa593e8e42bb5c2caa474e642b5f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6689aa593e8e42bb5c2caa474e642b5f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6689aa593e8e42bb5c2caa474e642b5f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/67f18f488d2173299bc076b212f6aee9.jpg b/Sklearn/sklearn-doc-zh/master/img/67f18f488d2173299bc076b212f6aee9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/67f18f488d2173299bc076b212f6aee9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/67f18f488d2173299bc076b212f6aee9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/67f62308a1f409829599e546c843d53f.jpg b/Sklearn/sklearn-doc-zh/master/img/67f62308a1f409829599e546c843d53f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/67f62308a1f409829599e546c843d53f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/67f62308a1f409829599e546c843d53f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/67f9d3900eb064f6354d23271f16c2b0.jpg b/Sklearn/sklearn-doc-zh/master/img/67f9d3900eb064f6354d23271f16c2b0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/67f9d3900eb064f6354d23271f16c2b0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/67f9d3900eb064f6354d23271f16c2b0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/685006d43de154949bfb11efd87df4f1.jpg b/Sklearn/sklearn-doc-zh/master/img/685006d43de154949bfb11efd87df4f1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/685006d43de154949bfb11efd87df4f1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/685006d43de154949bfb11efd87df4f1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6875a3a68e07bfa51a631f014fcf8a4f.jpg b/Sklearn/sklearn-doc-zh/master/img/6875a3a68e07bfa51a631f014fcf8a4f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6875a3a68e07bfa51a631f014fcf8a4f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6875a3a68e07bfa51a631f014fcf8a4f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/69bbc745b66051792cd1b5166ce18420.jpg b/Sklearn/sklearn-doc-zh/master/img/69bbc745b66051792cd1b5166ce18420.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/69bbc745b66051792cd1b5166ce18420.jpg
rename to Sklearn/sklearn-doc-zh/master/img/69bbc745b66051792cd1b5166ce18420.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/69be855df457ccfee81f59ace2595a23.jpg b/Sklearn/sklearn-doc-zh/master/img/69be855df457ccfee81f59ace2595a23.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/69be855df457ccfee81f59ace2595a23.jpg
rename to Sklearn/sklearn-doc-zh/master/img/69be855df457ccfee81f59ace2595a23.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6a0ac3a1f45ae7072f58ae85160eca33.jpg b/Sklearn/sklearn-doc-zh/master/img/6a0ac3a1f45ae7072f58ae85160eca33.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6a0ac3a1f45ae7072f58ae85160eca33.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6a0ac3a1f45ae7072f58ae85160eca33.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6a0cf5d5f1d5ad90f9713a46fa55111f.jpg b/Sklearn/sklearn-doc-zh/master/img/6a0cf5d5f1d5ad90f9713a46fa55111f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6a0cf5d5f1d5ad90f9713a46fa55111f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6a0cf5d5f1d5ad90f9713a46fa55111f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6a8621a4ada40acd48b43436ca6a4527.jpg b/Sklearn/sklearn-doc-zh/master/img/6a8621a4ada40acd48b43436ca6a4527.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6a8621a4ada40acd48b43436ca6a4527.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6a8621a4ada40acd48b43436ca6a4527.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6ade66280d509fe54883d82b315259e1.jpg b/Sklearn/sklearn-doc-zh/master/img/6ade66280d509fe54883d82b315259e1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6ade66280d509fe54883d82b315259e1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6ade66280d509fe54883d82b315259e1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6ae91fb0f3221b92d2dd4e22204d8008.jpg b/Sklearn/sklearn-doc-zh/master/img/6ae91fb0f3221b92d2dd4e22204d8008.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6ae91fb0f3221b92d2dd4e22204d8008.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6ae91fb0f3221b92d2dd4e22204d8008.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6b0371e0d33eebe00fe5ec3d59de5b43.jpg b/Sklearn/sklearn-doc-zh/master/img/6b0371e0d33eebe00fe5ec3d59de5b43.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6b0371e0d33eebe00fe5ec3d59de5b43.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6b0371e0d33eebe00fe5ec3d59de5b43.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6b1c74edd599db63c339ead392e8e54a.jpg b/Sklearn/sklearn-doc-zh/master/img/6b1c74edd599db63c339ead392e8e54a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6b1c74edd599db63c339ead392e8e54a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6b1c74edd599db63c339ead392e8e54a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6b474f60cd7fcc77b4a950334fc6483f.jpg b/Sklearn/sklearn-doc-zh/master/img/6b474f60cd7fcc77b4a950334fc6483f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6b474f60cd7fcc77b4a950334fc6483f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6b474f60cd7fcc77b4a950334fc6483f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6b7248d635f4161b925734dbc60de37a.jpg b/Sklearn/sklearn-doc-zh/master/img/6b7248d635f4161b925734dbc60de37a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6b7248d635f4161b925734dbc60de37a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6b7248d635f4161b925734dbc60de37a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6bcc641ece97b81c42261e28eaad3ad7.jpg b/Sklearn/sklearn-doc-zh/master/img/6bcc641ece97b81c42261e28eaad3ad7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6bcc641ece97b81c42261e28eaad3ad7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6bcc641ece97b81c42261e28eaad3ad7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6c281997fc8d9f34a530a7e2bc854adf.jpg b/Sklearn/sklearn-doc-zh/master/img/6c281997fc8d9f34a530a7e2bc854adf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6c281997fc8d9f34a530a7e2bc854adf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6c281997fc8d9f34a530a7e2bc854adf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6c446734a6837b7541db12e2b55f1a2b.jpg b/Sklearn/sklearn-doc-zh/master/img/6c446734a6837b7541db12e2b55f1a2b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6c446734a6837b7541db12e2b55f1a2b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6c446734a6837b7541db12e2b55f1a2b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6c70b46b88f05e00e292f1a0f98d2aa8.jpg b/Sklearn/sklearn-doc-zh/master/img/6c70b46b88f05e00e292f1a0f98d2aa8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6c70b46b88f05e00e292f1a0f98d2aa8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6c70b46b88f05e00e292f1a0f98d2aa8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6c8db7614197ace6a4bf0f437c085e6d.jpg b/Sklearn/sklearn-doc-zh/master/img/6c8db7614197ace6a4bf0f437c085e6d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6c8db7614197ace6a4bf0f437c085e6d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6c8db7614197ace6a4bf0f437c085e6d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6d8a1d709ef804f4629126d6e1c449f1.jpg b/Sklearn/sklearn-doc-zh/master/img/6d8a1d709ef804f4629126d6e1c449f1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6d8a1d709ef804f4629126d6e1c449f1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6d8a1d709ef804f4629126d6e1c449f1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6d8b62cf31afb168e2b2acb89d6abccd.jpg b/Sklearn/sklearn-doc-zh/master/img/6d8b62cf31afb168e2b2acb89d6abccd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6d8b62cf31afb168e2b2acb89d6abccd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6d8b62cf31afb168e2b2acb89d6abccd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6da3d48746433a02996c5821013ac4e7.jpg b/Sklearn/sklearn-doc-zh/master/img/6da3d48746433a02996c5821013ac4e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6da3d48746433a02996c5821013ac4e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6da3d48746433a02996c5821013ac4e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6db85b1ad926d9ad860d58629ff5f235.jpg b/Sklearn/sklearn-doc-zh/master/img/6db85b1ad926d9ad860d58629ff5f235.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6db85b1ad926d9ad860d58629ff5f235.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6db85b1ad926d9ad860d58629ff5f235.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6e87bd4511cfd9af64076cc1cf8f1bbc.jpg b/Sklearn/sklearn-doc-zh/master/img/6e87bd4511cfd9af64076cc1cf8f1bbc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6e87bd4511cfd9af64076cc1cf8f1bbc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6e87bd4511cfd9af64076cc1cf8f1bbc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6edba8b762eb4f9d843ba76d9e344c2a.jpg b/Sklearn/sklearn-doc-zh/master/img/6edba8b762eb4f9d843ba76d9e344c2a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6edba8b762eb4f9d843ba76d9e344c2a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6edba8b762eb4f9d843ba76d9e344c2a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6efb484bc0e0c91b3ba13708bfe46aba.jpg b/Sklearn/sklearn-doc-zh/master/img/6efb484bc0e0c91b3ba13708bfe46aba.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6efb484bc0e0c91b3ba13708bfe46aba.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6efb484bc0e0c91b3ba13708bfe46aba.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6f0cdccb5dc60bae6e7a303075ddbdf6.jpg b/Sklearn/sklearn-doc-zh/master/img/6f0cdccb5dc60bae6e7a303075ddbdf6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6f0cdccb5dc60bae6e7a303075ddbdf6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6f0cdccb5dc60bae6e7a303075ddbdf6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6f25bd1d6d3abb565ca3007f8ac1d855.jpg b/Sklearn/sklearn-doc-zh/master/img/6f25bd1d6d3abb565ca3007f8ac1d855.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6f25bd1d6d3abb565ca3007f8ac1d855.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6f25bd1d6d3abb565ca3007f8ac1d855.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6f98755e60bfb560a671770b8e51cb28.jpg b/Sklearn/sklearn-doc-zh/master/img/6f98755e60bfb560a671770b8e51cb28.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6f98755e60bfb560a671770b8e51cb28.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6f98755e60bfb560a671770b8e51cb28.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/6fcf3a401454fd3c65ac740912e12467.jpg b/Sklearn/sklearn-doc-zh/master/img/6fcf3a401454fd3c65ac740912e12467.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/6fcf3a401454fd3c65ac740912e12467.jpg
rename to Sklearn/sklearn-doc-zh/master/img/6fcf3a401454fd3c65ac740912e12467.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7057da795219773c01c26cde1adf90e5.jpg b/Sklearn/sklearn-doc-zh/master/img/7057da795219773c01c26cde1adf90e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7057da795219773c01c26cde1adf90e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7057da795219773c01c26cde1adf90e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7085885523458d64e2f9981f39c7b038.jpg b/Sklearn/sklearn-doc-zh/master/img/7085885523458d64e2f9981f39c7b038.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7085885523458d64e2f9981f39c7b038.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7085885523458d64e2f9981f39c7b038.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/70abd4aa320170aa6dbe8204a5ed846e.jpg b/Sklearn/sklearn-doc-zh/master/img/70abd4aa320170aa6dbe8204a5ed846e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/70abd4aa320170aa6dbe8204a5ed846e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/70abd4aa320170aa6dbe8204a5ed846e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/71581bfc44b992a82bd0bc7a6eee38f4.jpg b/Sklearn/sklearn-doc-zh/master/img/71581bfc44b992a82bd0bc7a6eee38f4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/71581bfc44b992a82bd0bc7a6eee38f4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/71581bfc44b992a82bd0bc7a6eee38f4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/715cb9aaddb7a5ea10028eb49f509f61.jpg b/Sklearn/sklearn-doc-zh/master/img/715cb9aaddb7a5ea10028eb49f509f61.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/715cb9aaddb7a5ea10028eb49f509f61.jpg
rename to Sklearn/sklearn-doc-zh/master/img/715cb9aaddb7a5ea10028eb49f509f61.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/725082a3e3f2eacec65e9c1435a6960d.jpg b/Sklearn/sklearn-doc-zh/master/img/725082a3e3f2eacec65e9c1435a6960d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/725082a3e3f2eacec65e9c1435a6960d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/725082a3e3f2eacec65e9c1435a6960d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7304e7fb0302be38d7fa1688bcd14df4.jpg b/Sklearn/sklearn-doc-zh/master/img/7304e7fb0302be38d7fa1688bcd14df4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7304e7fb0302be38d7fa1688bcd14df4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7304e7fb0302be38d7fa1688bcd14df4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/73658f99647e50786817b44416d09df1.jpg b/Sklearn/sklearn-doc-zh/master/img/73658f99647e50786817b44416d09df1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/73658f99647e50786817b44416d09df1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/73658f99647e50786817b44416d09df1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/74f4ea0e25b673d30d56ab4269f03f3b.jpg b/Sklearn/sklearn-doc-zh/master/img/74f4ea0e25b673d30d56ab4269f03f3b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/74f4ea0e25b673d30d56ab4269f03f3b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/74f4ea0e25b673d30d56ab4269f03f3b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/75a6f2c15bfb418edcb993c4e27873d0.jpg b/Sklearn/sklearn-doc-zh/master/img/75a6f2c15bfb418edcb993c4e27873d0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/75a6f2c15bfb418edcb993c4e27873d0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/75a6f2c15bfb418edcb993c4e27873d0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/75d98860b528f3fcd2b060ad5e624ca0.jpg b/Sklearn/sklearn-doc-zh/master/img/75d98860b528f3fcd2b060ad5e624ca0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/75d98860b528f3fcd2b060ad5e624ca0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/75d98860b528f3fcd2b060ad5e624ca0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/75fd7809a46f43dcd922f39ff8f91026.jpg b/Sklearn/sklearn-doc-zh/master/img/75fd7809a46f43dcd922f39ff8f91026.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/75fd7809a46f43dcd922f39ff8f91026.jpg
rename to Sklearn/sklearn-doc-zh/master/img/75fd7809a46f43dcd922f39ff8f91026.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/76530e85b09bd8385fad05337b968caf.jpg b/Sklearn/sklearn-doc-zh/master/img/76530e85b09bd8385fad05337b968caf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/76530e85b09bd8385fad05337b968caf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/76530e85b09bd8385fad05337b968caf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/76814b51cd880ede8da9a2b5ad3d4143.jpg b/Sklearn/sklearn-doc-zh/master/img/76814b51cd880ede8da9a2b5ad3d4143.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/76814b51cd880ede8da9a2b5ad3d4143.jpg
rename to Sklearn/sklearn-doc-zh/master/img/76814b51cd880ede8da9a2b5ad3d4143.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7682696b3b598c55d49ca030059f0a18.jpg b/Sklearn/sklearn-doc-zh/master/img/7682696b3b598c55d49ca030059f0a18.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7682696b3b598c55d49ca030059f0a18.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7682696b3b598c55d49ca030059f0a18.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7695a05e60c9dc0ec13f779fc19da966.jpg b/Sklearn/sklearn-doc-zh/master/img/7695a05e60c9dc0ec13f779fc19da966.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7695a05e60c9dc0ec13f779fc19da966.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7695a05e60c9dc0ec13f779fc19da966.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/769ae28b43c9c1f02556a7d6d878c7e0.jpg b/Sklearn/sklearn-doc-zh/master/img/769ae28b43c9c1f02556a7d6d878c7e0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/769ae28b43c9c1f02556a7d6d878c7e0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/769ae28b43c9c1f02556a7d6d878c7e0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/77e01a63c0620550a5f11a7613001120.jpg b/Sklearn/sklearn-doc-zh/master/img/77e01a63c0620550a5f11a7613001120.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/77e01a63c0620550a5f11a7613001120.jpg
rename to Sklearn/sklearn-doc-zh/master/img/77e01a63c0620550a5f11a7613001120.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/77e9cd089beb314666ac8397f95afc0a.jpg b/Sklearn/sklearn-doc-zh/master/img/77e9cd089beb314666ac8397f95afc0a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/77e9cd089beb314666ac8397f95afc0a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/77e9cd089beb314666ac8397f95afc0a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/77ee769c7c80ba4738fa4b34ff922e25.jpg b/Sklearn/sklearn-doc-zh/master/img/77ee769c7c80ba4738fa4b34ff922e25.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/77ee769c7c80ba4738fa4b34ff922e25.jpg
rename to Sklearn/sklearn-doc-zh/master/img/77ee769c7c80ba4738fa4b34ff922e25.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/77eee205b1d286584f4002a39c9b32a3.jpg b/Sklearn/sklearn-doc-zh/master/img/77eee205b1d286584f4002a39c9b32a3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/77eee205b1d286584f4002a39c9b32a3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/77eee205b1d286584f4002a39c9b32a3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7881dd425f1090aadc25eca46dc0daec.jpg b/Sklearn/sklearn-doc-zh/master/img/7881dd425f1090aadc25eca46dc0daec.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7881dd425f1090aadc25eca46dc0daec.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7881dd425f1090aadc25eca46dc0daec.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7947f721109ac76f1366b72715d3e7e3.jpg b/Sklearn/sklearn-doc-zh/master/img/7947f721109ac76f1366b72715d3e7e3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7947f721109ac76f1366b72715d3e7e3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7947f721109ac76f1366b72715d3e7e3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/79b52c5c00ce59ba04383f6a0d670c6d.jpg b/Sklearn/sklearn-doc-zh/master/img/79b52c5c00ce59ba04383f6a0d670c6d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/79b52c5c00ce59ba04383f6a0d670c6d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/79b52c5c00ce59ba04383f6a0d670c6d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7a6d4f1e7672a61d5284203113eb5b2a.jpg b/Sklearn/sklearn-doc-zh/master/img/7a6d4f1e7672a61d5284203113eb5b2a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7a6d4f1e7672a61d5284203113eb5b2a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7a6d4f1e7672a61d5284203113eb5b2a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7a79f764bd3db11876c1065b6677af80.jpg b/Sklearn/sklearn-doc-zh/master/img/7a79f764bd3db11876c1065b6677af80.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7a79f764bd3db11876c1065b6677af80.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7a79f764bd3db11876c1065b6677af80.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7a958d3bae3db42cc0811b186bbc4e00.jpg b/Sklearn/sklearn-doc-zh/master/img/7a958d3bae3db42cc0811b186bbc4e00.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7a958d3bae3db42cc0811b186bbc4e00.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7a958d3bae3db42cc0811b186bbc4e00.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7a95e7e32309847d96c207051da29ea9.jpg b/Sklearn/sklearn-doc-zh/master/img/7a95e7e32309847d96c207051da29ea9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7a95e7e32309847d96c207051da29ea9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7a95e7e32309847d96c207051da29ea9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7a9775b9051c948f74639f1856f6c585.jpg b/Sklearn/sklearn-doc-zh/master/img/7a9775b9051c948f74639f1856f6c585.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7a9775b9051c948f74639f1856f6c585.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7a9775b9051c948f74639f1856f6c585.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7ab8c51f211ad5aea8e4e78337ca3624.jpg b/Sklearn/sklearn-doc-zh/master/img/7ab8c51f211ad5aea8e4e78337ca3624.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7ab8c51f211ad5aea8e4e78337ca3624.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7ab8c51f211ad5aea8e4e78337ca3624.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7acaacd6f5e4219eb0e02cc0ce0aff63.jpg b/Sklearn/sklearn-doc-zh/master/img/7acaacd6f5e4219eb0e02cc0ce0aff63.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7acaacd6f5e4219eb0e02cc0ce0aff63.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7acaacd6f5e4219eb0e02cc0ce0aff63.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7afe3c56e3473a3a7f18cf983ed5e79c.jpg b/Sklearn/sklearn-doc-zh/master/img/7afe3c56e3473a3a7f18cf983ed5e79c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7afe3c56e3473a3a7f18cf983ed5e79c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7afe3c56e3473a3a7f18cf983ed5e79c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7b0e2ed0273c0a1650cc9f78eabe93c4.jpg b/Sklearn/sklearn-doc-zh/master/img/7b0e2ed0273c0a1650cc9f78eabe93c4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7b0e2ed0273c0a1650cc9f78eabe93c4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7b0e2ed0273c0a1650cc9f78eabe93c4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7b215f2882ce8aaa33a97e43ad626314.jpg b/Sklearn/sklearn-doc-zh/master/img/7b215f2882ce8aaa33a97e43ad626314.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7b215f2882ce8aaa33a97e43ad626314.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7b215f2882ce8aaa33a97e43ad626314.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7b6cebf625d680ab33eba86d34885910.jpg b/Sklearn/sklearn-doc-zh/master/img/7b6cebf625d680ab33eba86d34885910.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7b6cebf625d680ab33eba86d34885910.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7b6cebf625d680ab33eba86d34885910.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7ba11d33e68a1e32f2d8d9387bbc1eba.jpg b/Sklearn/sklearn-doc-zh/master/img/7ba11d33e68a1e32f2d8d9387bbc1eba.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7ba11d33e68a1e32f2d8d9387bbc1eba.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7ba11d33e68a1e32f2d8d9387bbc1eba.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7c228fb3025521b5d9c2aef929547d1d.jpg b/Sklearn/sklearn-doc-zh/master/img/7c228fb3025521b5d9c2aef929547d1d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7c228fb3025521b5d9c2aef929547d1d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7c228fb3025521b5d9c2aef929547d1d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7c9ce57d4e2ba5270352f4e118af7fac.jpg b/Sklearn/sklearn-doc-zh/master/img/7c9ce57d4e2ba5270352f4e118af7fac.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7c9ce57d4e2ba5270352f4e118af7fac.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7c9ce57d4e2ba5270352f4e118af7fac.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7ca5945518e2f3eff72bd67b029e919a.jpg b/Sklearn/sklearn-doc-zh/master/img/7ca5945518e2f3eff72bd67b029e919a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7ca5945518e2f3eff72bd67b029e919a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7ca5945518e2f3eff72bd67b029e919a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7cda18e6ccd378c8ef9714e3035506c9.jpg b/Sklearn/sklearn-doc-zh/master/img/7cda18e6ccd378c8ef9714e3035506c9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7cda18e6ccd378c8ef9714e3035506c9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7cda18e6ccd378c8ef9714e3035506c9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7ce09555ac9e490df7f81ef7eb0e58e8.jpg b/Sklearn/sklearn-doc-zh/master/img/7ce09555ac9e490df7f81ef7eb0e58e8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7ce09555ac9e490df7f81ef7eb0e58e8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7ce09555ac9e490df7f81ef7eb0e58e8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7d1cd85c2f165c7bde33eccf4be29e75.jpg b/Sklearn/sklearn-doc-zh/master/img/7d1cd85c2f165c7bde33eccf4be29e75.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7d1cd85c2f165c7bde33eccf4be29e75.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7d1cd85c2f165c7bde33eccf4be29e75.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7d1d547b1a46ad827caeb7f0e85b213d.jpg b/Sklearn/sklearn-doc-zh/master/img/7d1d547b1a46ad827caeb7f0e85b213d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7d1d547b1a46ad827caeb7f0e85b213d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7d1d547b1a46ad827caeb7f0e85b213d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7d32ef1e04f69e63d69e04b09b973946.jpg b/Sklearn/sklearn-doc-zh/master/img/7d32ef1e04f69e63d69e04b09b973946.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7d32ef1e04f69e63d69e04b09b973946.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7d32ef1e04f69e63d69e04b09b973946.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7d379816608eb84009d45f0e26772256.jpg b/Sklearn/sklearn-doc-zh/master/img/7d379816608eb84009d45f0e26772256.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7d379816608eb84009d45f0e26772256.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7d379816608eb84009d45f0e26772256.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7d4aae450c85e9ea83d3746485791394.jpg b/Sklearn/sklearn-doc-zh/master/img/7d4aae450c85e9ea83d3746485791394.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7d4aae450c85e9ea83d3746485791394.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7d4aae450c85e9ea83d3746485791394.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7d9b5103fb50fe740fbc421247d2a5c7.jpg b/Sklearn/sklearn-doc-zh/master/img/7d9b5103fb50fe740fbc421247d2a5c7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7d9b5103fb50fe740fbc421247d2a5c7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7d9b5103fb50fe740fbc421247d2a5c7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7df17fc33fdb4c71b329c593ad30f47e.jpg b/Sklearn/sklearn-doc-zh/master/img/7df17fc33fdb4c71b329c593ad30f47e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7df17fc33fdb4c71b329c593ad30f47e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7df17fc33fdb4c71b329c593ad30f47e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7e76cbbbf685f7ec4bec704a9b5ea007.jpg b/Sklearn/sklearn-doc-zh/master/img/7e76cbbbf685f7ec4bec704a9b5ea007.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7e76cbbbf685f7ec4bec704a9b5ea007.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7e76cbbbf685f7ec4bec704a9b5ea007.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7e8b544e8ce168b079607ff9674a2c91.jpg b/Sklearn/sklearn-doc-zh/master/img/7e8b544e8ce168b079607ff9674a2c91.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7e8b544e8ce168b079607ff9674a2c91.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7e8b544e8ce168b079607ff9674a2c91.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7ea4ef13cdad8ec1dea90fc195d058b1.jpg b/Sklearn/sklearn-doc-zh/master/img/7ea4ef13cdad8ec1dea90fc195d058b1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7ea4ef13cdad8ec1dea90fc195d058b1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7ea4ef13cdad8ec1dea90fc195d058b1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7eb576473ec1de4500c33294115b0719.jpg b/Sklearn/sklearn-doc-zh/master/img/7eb576473ec1de4500c33294115b0719.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7eb576473ec1de4500c33294115b0719.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7eb576473ec1de4500c33294115b0719.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7ec998f799acf05b040856bc6b37657f.jpg b/Sklearn/sklearn-doc-zh/master/img/7ec998f799acf05b040856bc6b37657f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7ec998f799acf05b040856bc6b37657f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7ec998f799acf05b040856bc6b37657f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7ece088a96a66cb9675fde4610d67980.jpg b/Sklearn/sklearn-doc-zh/master/img/7ece088a96a66cb9675fde4610d67980.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7ece088a96a66cb9675fde4610d67980.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7ece088a96a66cb9675fde4610d67980.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7efe29500f4af973643a15b3ed29a926.jpg b/Sklearn/sklearn-doc-zh/master/img/7efe29500f4af973643a15b3ed29a926.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7efe29500f4af973643a15b3ed29a926.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7efe29500f4af973643a15b3ed29a926.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7f1cafe91ec3b94b27f8759724287242.jpg b/Sklearn/sklearn-doc-zh/master/img/7f1cafe91ec3b94b27f8759724287242.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7f1cafe91ec3b94b27f8759724287242.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7f1cafe91ec3b94b27f8759724287242.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7f35ead97a9f7be07b87ff7b860bcab9.jpg b/Sklearn/sklearn-doc-zh/master/img/7f35ead97a9f7be07b87ff7b860bcab9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7f35ead97a9f7be07b87ff7b860bcab9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7f35ead97a9f7be07b87ff7b860bcab9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7f37b8cd4340f3d0981f518f14670c26.jpg b/Sklearn/sklearn-doc-zh/master/img/7f37b8cd4340f3d0981f518f14670c26.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7f37b8cd4340f3d0981f518f14670c26.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7f37b8cd4340f3d0981f518f14670c26.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7fb5b8aaa79d55e35332a1f02a5aee04.jpg b/Sklearn/sklearn-doc-zh/master/img/7fb5b8aaa79d55e35332a1f02a5aee04.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7fb5b8aaa79d55e35332a1f02a5aee04.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7fb5b8aaa79d55e35332a1f02a5aee04.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/7ff85adefbea266b138eec7868e87fa9.jpg b/Sklearn/sklearn-doc-zh/master/img/7ff85adefbea266b138eec7868e87fa9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/7ff85adefbea266b138eec7868e87fa9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/7ff85adefbea266b138eec7868e87fa9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/80a5660d27392922e501744cab3623da.jpg b/Sklearn/sklearn-doc-zh/master/img/80a5660d27392922e501744cab3623da.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/80a5660d27392922e501744cab3623da.jpg
rename to Sklearn/sklearn-doc-zh/master/img/80a5660d27392922e501744cab3623da.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/81da9e05103270be5e500ebc67cd1b45.jpg b/Sklearn/sklearn-doc-zh/master/img/81da9e05103270be5e500ebc67cd1b45.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/81da9e05103270be5e500ebc67cd1b45.jpg
rename to Sklearn/sklearn-doc-zh/master/img/81da9e05103270be5e500ebc67cd1b45.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/81dfab5bd4f0d37601684acb3d714e9d.jpg b/Sklearn/sklearn-doc-zh/master/img/81dfab5bd4f0d37601684acb3d714e9d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/81dfab5bd4f0d37601684acb3d714e9d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/81dfab5bd4f0d37601684acb3d714e9d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/827de4e90947894fc96dd0432ff0d7dd.jpg b/Sklearn/sklearn-doc-zh/master/img/827de4e90947894fc96dd0432ff0d7dd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/827de4e90947894fc96dd0432ff0d7dd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/827de4e90947894fc96dd0432ff0d7dd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/841ad1e8353dcbf5fed2a58b2008873f.jpg b/Sklearn/sklearn-doc-zh/master/img/841ad1e8353dcbf5fed2a58b2008873f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/841ad1e8353dcbf5fed2a58b2008873f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/841ad1e8353dcbf5fed2a58b2008873f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/84298218bd1f4087ce7f8d55a4de1843.jpg b/Sklearn/sklearn-doc-zh/master/img/84298218bd1f4087ce7f8d55a4de1843.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/84298218bd1f4087ce7f8d55a4de1843.jpg
rename to Sklearn/sklearn-doc-zh/master/img/84298218bd1f4087ce7f8d55a4de1843.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/842c30bfbcf39ee4d2ac5d7587f7168c.jpg b/Sklearn/sklearn-doc-zh/master/img/842c30bfbcf39ee4d2ac5d7587f7168c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/842c30bfbcf39ee4d2ac5d7587f7168c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/842c30bfbcf39ee4d2ac5d7587f7168c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/843ad36e77423c1d0d068bf1b0af24fb.jpg b/Sklearn/sklearn-doc-zh/master/img/843ad36e77423c1d0d068bf1b0af24fb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/843ad36e77423c1d0d068bf1b0af24fb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/843ad36e77423c1d0d068bf1b0af24fb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8480724cd60359c7a8ceda7bee5590bd.jpg b/Sklearn/sklearn-doc-zh/master/img/8480724cd60359c7a8ceda7bee5590bd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8480724cd60359c7a8ceda7bee5590bd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8480724cd60359c7a8ceda7bee5590bd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/848835d5b40c5bd74a6e592a65eed5d6.jpg b/Sklearn/sklearn-doc-zh/master/img/848835d5b40c5bd74a6e592a65eed5d6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/848835d5b40c5bd74a6e592a65eed5d6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/848835d5b40c5bd74a6e592a65eed5d6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8494ed588e1c79e569f4d2add722ecf5.jpg b/Sklearn/sklearn-doc-zh/master/img/8494ed588e1c79e569f4d2add722ecf5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8494ed588e1c79e569f4d2add722ecf5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8494ed588e1c79e569f4d2add722ecf5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/851c667ab0811688c25c6819aafacba0.jpg b/Sklearn/sklearn-doc-zh/master/img/851c667ab0811688c25c6819aafacba0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/851c667ab0811688c25c6819aafacba0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/851c667ab0811688c25c6819aafacba0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/855d4e5dae2b0286042ee7eef0c91ab5.jpg b/Sklearn/sklearn-doc-zh/master/img/855d4e5dae2b0286042ee7eef0c91ab5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/855d4e5dae2b0286042ee7eef0c91ab5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/855d4e5dae2b0286042ee7eef0c91ab5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/85f7fc9836edfbdcd2a7533674940b46.jpg b/Sklearn/sklearn-doc-zh/master/img/85f7fc9836edfbdcd2a7533674940b46.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/85f7fc9836edfbdcd2a7533674940b46.jpg
rename to Sklearn/sklearn-doc-zh/master/img/85f7fc9836edfbdcd2a7533674940b46.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/86003b5287219bcbec1586985a110629.jpg b/Sklearn/sklearn-doc-zh/master/img/86003b5287219bcbec1586985a110629.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/86003b5287219bcbec1586985a110629.jpg
rename to Sklearn/sklearn-doc-zh/master/img/86003b5287219bcbec1586985a110629.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/860af894555b3d5f52e893bab6cafc11.jpg b/Sklearn/sklearn-doc-zh/master/img/860af894555b3d5f52e893bab6cafc11.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/860af894555b3d5f52e893bab6cafc11.jpg
rename to Sklearn/sklearn-doc-zh/master/img/860af894555b3d5f52e893bab6cafc11.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8610705cf45aa68b12197abd65653479.jpg b/Sklearn/sklearn-doc-zh/master/img/8610705cf45aa68b12197abd65653479.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8610705cf45aa68b12197abd65653479.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8610705cf45aa68b12197abd65653479.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8615ac5c8ea1fb8ae6e726f7659a29e9.jpg b/Sklearn/sklearn-doc-zh/master/img/8615ac5c8ea1fb8ae6e726f7659a29e9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8615ac5c8ea1fb8ae6e726f7659a29e9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8615ac5c8ea1fb8ae6e726f7659a29e9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/866891e7bebe66615daa04976af79f99.jpg b/Sklearn/sklearn-doc-zh/master/img/866891e7bebe66615daa04976af79f99.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/866891e7bebe66615daa04976af79f99.jpg
rename to Sklearn/sklearn-doc-zh/master/img/866891e7bebe66615daa04976af79f99.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/86d43b01a4c13ac9d69265ff0d546720.jpg b/Sklearn/sklearn-doc-zh/master/img/86d43b01a4c13ac9d69265ff0d546720.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/86d43b01a4c13ac9d69265ff0d546720.jpg
rename to Sklearn/sklearn-doc-zh/master/img/86d43b01a4c13ac9d69265ff0d546720.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/86f7969b00fb3d0914f0bababac102a0.jpg b/Sklearn/sklearn-doc-zh/master/img/86f7969b00fb3d0914f0bababac102a0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/86f7969b00fb3d0914f0bababac102a0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/86f7969b00fb3d0914f0bababac102a0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/87ae31ef4f2e7b4385b9a25aa8fed533.jpg b/Sklearn/sklearn-doc-zh/master/img/87ae31ef4f2e7b4385b9a25aa8fed533.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/87ae31ef4f2e7b4385b9a25aa8fed533.jpg
rename to Sklearn/sklearn-doc-zh/master/img/87ae31ef4f2e7b4385b9a25aa8fed533.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/87c11f44388ae80ae9244e8d56a2dc86.jpg b/Sklearn/sklearn-doc-zh/master/img/87c11f44388ae80ae9244e8d56a2dc86.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/87c11f44388ae80ae9244e8d56a2dc86.jpg
rename to Sklearn/sklearn-doc-zh/master/img/87c11f44388ae80ae9244e8d56a2dc86.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/87dfb2676632ee8a92713f4861ccc84e.jpg b/Sklearn/sklearn-doc-zh/master/img/87dfb2676632ee8a92713f4861ccc84e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/87dfb2676632ee8a92713f4861ccc84e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/87dfb2676632ee8a92713f4861ccc84e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/87fef5b961bf8a90d58faa5e4084a081.jpg b/Sklearn/sklearn-doc-zh/master/img/87fef5b961bf8a90d58faa5e4084a081.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/87fef5b961bf8a90d58faa5e4084a081.jpg
rename to Sklearn/sklearn-doc-zh/master/img/87fef5b961bf8a90d58faa5e4084a081.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8851bd0fe9749b4841b30cee41fb040d.jpg b/Sklearn/sklearn-doc-zh/master/img/8851bd0fe9749b4841b30cee41fb040d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8851bd0fe9749b4841b30cee41fb040d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8851bd0fe9749b4841b30cee41fb040d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/887928b507a2f01847b6ae5f5b0e733f.jpg b/Sklearn/sklearn-doc-zh/master/img/887928b507a2f01847b6ae5f5b0e733f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/887928b507a2f01847b6ae5f5b0e733f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/887928b507a2f01847b6ae5f5b0e733f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/88c766439d728ffb597e180a42f41d00.jpg b/Sklearn/sklearn-doc-zh/master/img/88c766439d728ffb597e180a42f41d00.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/88c766439d728ffb597e180a42f41d00.jpg
rename to Sklearn/sklearn-doc-zh/master/img/88c766439d728ffb597e180a42f41d00.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/88d9981d54cd398165b20856ed5043e1.jpg b/Sklearn/sklearn-doc-zh/master/img/88d9981d54cd398165b20856ed5043e1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/88d9981d54cd398165b20856ed5043e1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/88d9981d54cd398165b20856ed5043e1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/88ef3c9a51bdadd21593bf89887a04b5.jpg b/Sklearn/sklearn-doc-zh/master/img/88ef3c9a51bdadd21593bf89887a04b5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/88ef3c9a51bdadd21593bf89887a04b5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/88ef3c9a51bdadd21593bf89887a04b5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/89807b9fa9f5924b027486f280324b1a.jpg b/Sklearn/sklearn-doc-zh/master/img/89807b9fa9f5924b027486f280324b1a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/89807b9fa9f5924b027486f280324b1a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/89807b9fa9f5924b027486f280324b1a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8a58e8df6a985a3273e39bac7dd72b1f.jpg b/Sklearn/sklearn-doc-zh/master/img/8a58e8df6a985a3273e39bac7dd72b1f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8a58e8df6a985a3273e39bac7dd72b1f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8a58e8df6a985a3273e39bac7dd72b1f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8a76c85f2de3d3777fe72f5d8e32e0cf.jpg b/Sklearn/sklearn-doc-zh/master/img/8a76c85f2de3d3777fe72f5d8e32e0cf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8a76c85f2de3d3777fe72f5d8e32e0cf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8a76c85f2de3d3777fe72f5d8e32e0cf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8aca5aa85ff13bf8e8687220b137f9d3.jpg b/Sklearn/sklearn-doc-zh/master/img/8aca5aa85ff13bf8e8687220b137f9d3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8aca5aa85ff13bf8e8687220b137f9d3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8aca5aa85ff13bf8e8687220b137f9d3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8ae33567ac5e4d4e9b1b14ae12220ea9.jpg b/Sklearn/sklearn-doc-zh/master/img/8ae33567ac5e4d4e9b1b14ae12220ea9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8ae33567ac5e4d4e9b1b14ae12220ea9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8ae33567ac5e4d4e9b1b14ae12220ea9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8b3be66a25e0c33787b341667b261360.jpg b/Sklearn/sklearn-doc-zh/master/img/8b3be66a25e0c33787b341667b261360.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8b3be66a25e0c33787b341667b261360.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8b3be66a25e0c33787b341667b261360.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8bce1ab1dca39a6b7fcb97dcf959a1f7.jpg b/Sklearn/sklearn-doc-zh/master/img/8bce1ab1dca39a6b7fcb97dcf959a1f7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8bce1ab1dca39a6b7fcb97dcf959a1f7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8bce1ab1dca39a6b7fcb97dcf959a1f7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8c0b5b6a48349ecfb1f20d9168d166b7.jpg b/Sklearn/sklearn-doc-zh/master/img/8c0b5b6a48349ecfb1f20d9168d166b7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8c0b5b6a48349ecfb1f20d9168d166b7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8c0b5b6a48349ecfb1f20d9168d166b7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8c187292cd29fea23a4983db349e7545.jpg b/Sklearn/sklearn-doc-zh/master/img/8c187292cd29fea23a4983db349e7545.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8c187292cd29fea23a4983db349e7545.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8c187292cd29fea23a4983db349e7545.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8c43dd6816e66709ef3f9d681ec3941a.jpg b/Sklearn/sklearn-doc-zh/master/img/8c43dd6816e66709ef3f9d681ec3941a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8c43dd6816e66709ef3f9d681ec3941a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8c43dd6816e66709ef3f9d681ec3941a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8c4a5c99b21079b9fb1be49910ff96e3.jpg b/Sklearn/sklearn-doc-zh/master/img/8c4a5c99b21079b9fb1be49910ff96e3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8c4a5c99b21079b9fb1be49910ff96e3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8c4a5c99b21079b9fb1be49910ff96e3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8c4beae51da320d8fffd739a9e9e3852.jpg b/Sklearn/sklearn-doc-zh/master/img/8c4beae51da320d8fffd739a9e9e3852.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8c4beae51da320d8fffd739a9e9e3852.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8c4beae51da320d8fffd739a9e9e3852.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8c8211edce4dbaeb44032f8d71a12135.jpg b/Sklearn/sklearn-doc-zh/master/img/8c8211edce4dbaeb44032f8d71a12135.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8c8211edce4dbaeb44032f8d71a12135.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8c8211edce4dbaeb44032f8d71a12135.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8c8c09a18e398935473d8b69cf1b617e.jpg b/Sklearn/sklearn-doc-zh/master/img/8c8c09a18e398935473d8b69cf1b617e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8c8c09a18e398935473d8b69cf1b617e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8c8c09a18e398935473d8b69cf1b617e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8cc09b4045e2fece3222e52d7333c1e5.jpg b/Sklearn/sklearn-doc-zh/master/img/8cc09b4045e2fece3222e52d7333c1e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8cc09b4045e2fece3222e52d7333c1e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8cc09b4045e2fece3222e52d7333c1e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8cddd8c0c85ca4a1b6dce8bbf145a8aa.jpg b/Sklearn/sklearn-doc-zh/master/img/8cddd8c0c85ca4a1b6dce8bbf145a8aa.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8cddd8c0c85ca4a1b6dce8bbf145a8aa.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8cddd8c0c85ca4a1b6dce8bbf145a8aa.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8dab78bd2e80188f99e0c88c4c83472a.jpg b/Sklearn/sklearn-doc-zh/master/img/8dab78bd2e80188f99e0c88c4c83472a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8dab78bd2e80188f99e0c88c4c83472a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8dab78bd2e80188f99e0c88c4c83472a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8dcf0f01f9d255c37e21948ad3821885.jpg b/Sklearn/sklearn-doc-zh/master/img/8dcf0f01f9d255c37e21948ad3821885.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8dcf0f01f9d255c37e21948ad3821885.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8dcf0f01f9d255c37e21948ad3821885.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8dd0e1ef4fdc9bbfcc8b0ce3fa8a4321.jpg b/Sklearn/sklearn-doc-zh/master/img/8dd0e1ef4fdc9bbfcc8b0ce3fa8a4321.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8dd0e1ef4fdc9bbfcc8b0ce3fa8a4321.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8dd0e1ef4fdc9bbfcc8b0ce3fa8a4321.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8ef970a809e9beef56eb7a78d0133978.jpg b/Sklearn/sklearn-doc-zh/master/img/8ef970a809e9beef56eb7a78d0133978.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8ef970a809e9beef56eb7a78d0133978.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8ef970a809e9beef56eb7a78d0133978.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8f4e82e4dfa89ac81c42992c603a953e.jpg b/Sklearn/sklearn-doc-zh/master/img/8f4e82e4dfa89ac81c42992c603a953e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8f4e82e4dfa89ac81c42992c603a953e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8f4e82e4dfa89ac81c42992c603a953e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8f4f76678eb50ebccaba25e86961ff3e.jpg b/Sklearn/sklearn-doc-zh/master/img/8f4f76678eb50ebccaba25e86961ff3e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8f4f76678eb50ebccaba25e86961ff3e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8f4f76678eb50ebccaba25e86961ff3e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8f62a01deaf67a7f9960d853abd9dcca.jpg b/Sklearn/sklearn-doc-zh/master/img/8f62a01deaf67a7f9960d853abd9dcca.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8f62a01deaf67a7f9960d853abd9dcca.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8f62a01deaf67a7f9960d853abd9dcca.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8f839ebe5b506fef19bd8cc121b3f557.jpg b/Sklearn/sklearn-doc-zh/master/img/8f839ebe5b506fef19bd8cc121b3f557.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8f839ebe5b506fef19bd8cc121b3f557.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8f839ebe5b506fef19bd8cc121b3f557.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8fae035cff5a2ccfbc80e38fab4907cd.jpg b/Sklearn/sklearn-doc-zh/master/img/8fae035cff5a2ccfbc80e38fab4907cd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8fae035cff5a2ccfbc80e38fab4907cd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8fae035cff5a2ccfbc80e38fab4907cd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/8fe0d726b364f224c93e31cd3248a1f6.jpg b/Sklearn/sklearn-doc-zh/master/img/8fe0d726b364f224c93e31cd3248a1f6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/8fe0d726b364f224c93e31cd3248a1f6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/8fe0d726b364f224c93e31cd3248a1f6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9127c3e2b5748eee602354fed5570605.jpg b/Sklearn/sklearn-doc-zh/master/img/9127c3e2b5748eee602354fed5570605.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9127c3e2b5748eee602354fed5570605.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9127c3e2b5748eee602354fed5570605.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9255ba83a88cb73b04d1ca968f9c2b4e.jpg b/Sklearn/sklearn-doc-zh/master/img/9255ba83a88cb73b04d1ca968f9c2b4e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9255ba83a88cb73b04d1ca968f9c2b4e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9255ba83a88cb73b04d1ca968f9c2b4e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/92570652e9c52768c76f5b9cf8f97a28.jpg b/Sklearn/sklearn-doc-zh/master/img/92570652e9c52768c76f5b9cf8f97a28.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/92570652e9c52768c76f5b9cf8f97a28.jpg
rename to Sklearn/sklearn-doc-zh/master/img/92570652e9c52768c76f5b9cf8f97a28.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9259b19a18f30f67db9e45b8c0b361c7.jpg b/Sklearn/sklearn-doc-zh/master/img/9259b19a18f30f67db9e45b8c0b361c7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9259b19a18f30f67db9e45b8c0b361c7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9259b19a18f30f67db9e45b8c0b361c7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/929e25fd2cb34bf9709d68d266786fd3.jpg b/Sklearn/sklearn-doc-zh/master/img/929e25fd2cb34bf9709d68d266786fd3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/929e25fd2cb34bf9709d68d266786fd3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/929e25fd2cb34bf9709d68d266786fd3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/92c470d884176abfcc29a5218ccf0aef.jpg b/Sklearn/sklearn-doc-zh/master/img/92c470d884176abfcc29a5218ccf0aef.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/92c470d884176abfcc29a5218ccf0aef.jpg
rename to Sklearn/sklearn-doc-zh/master/img/92c470d884176abfcc29a5218ccf0aef.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/92e5a41435bd53653e9ad36f030cbd61.jpg b/Sklearn/sklearn-doc-zh/master/img/92e5a41435bd53653e9ad36f030cbd61.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/92e5a41435bd53653e9ad36f030cbd61.jpg
rename to Sklearn/sklearn-doc-zh/master/img/92e5a41435bd53653e9ad36f030cbd61.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/93074566222e67121a8ab55e90d8e1af.jpg b/Sklearn/sklearn-doc-zh/master/img/93074566222e67121a8ab55e90d8e1af.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/93074566222e67121a8ab55e90d8e1af.jpg
rename to Sklearn/sklearn-doc-zh/master/img/93074566222e67121a8ab55e90d8e1af.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/93401b902ac1e2a94ff3ce04e7f05882.jpg b/Sklearn/sklearn-doc-zh/master/img/93401b902ac1e2a94ff3ce04e7f05882.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/93401b902ac1e2a94ff3ce04e7f05882.jpg
rename to Sklearn/sklearn-doc-zh/master/img/93401b902ac1e2a94ff3ce04e7f05882.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/938ee5c0c620fd2298ea16abe621e7bb.jpg b/Sklearn/sklearn-doc-zh/master/img/938ee5c0c620fd2298ea16abe621e7bb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/938ee5c0c620fd2298ea16abe621e7bb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/938ee5c0c620fd2298ea16abe621e7bb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/93cdc140e4de4cbb0d093fc7ad5c6a36.jpg b/Sklearn/sklearn-doc-zh/master/img/93cdc140e4de4cbb0d093fc7ad5c6a36.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/93cdc140e4de4cbb0d093fc7ad5c6a36.jpg
rename to Sklearn/sklearn-doc-zh/master/img/93cdc140e4de4cbb0d093fc7ad5c6a36.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/93d2f2876517637396e99e36132252f3.jpg b/Sklearn/sklearn-doc-zh/master/img/93d2f2876517637396e99e36132252f3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/93d2f2876517637396e99e36132252f3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/93d2f2876517637396e99e36132252f3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/94156b879a7455cb0d516efa9c9c0991.jpg b/Sklearn/sklearn-doc-zh/master/img/94156b879a7455cb0d516efa9c9c0991.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/94156b879a7455cb0d516efa9c9c0991.jpg
rename to Sklearn/sklearn-doc-zh/master/img/94156b879a7455cb0d516efa9c9c0991.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/942734d190e4b1d2c51b0e2ee6c24428.jpg b/Sklearn/sklearn-doc-zh/master/img/942734d190e4b1d2c51b0e2ee6c24428.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/942734d190e4b1d2c51b0e2ee6c24428.jpg
rename to Sklearn/sklearn-doc-zh/master/img/942734d190e4b1d2c51b0e2ee6c24428.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/943add7649d85f7ef63a83356dd6f234.jpg b/Sklearn/sklearn-doc-zh/master/img/943add7649d85f7ef63a83356dd6f234.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/943add7649d85f7ef63a83356dd6f234.jpg
rename to Sklearn/sklearn-doc-zh/master/img/943add7649d85f7ef63a83356dd6f234.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/94435503540f66cab82015a35139213d.jpg b/Sklearn/sklearn-doc-zh/master/img/94435503540f66cab82015a35139213d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/94435503540f66cab82015a35139213d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/94435503540f66cab82015a35139213d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/947ae691edda29c53c3b962665b052c6.jpg b/Sklearn/sklearn-doc-zh/master/img/947ae691edda29c53c3b962665b052c6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/947ae691edda29c53c3b962665b052c6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/947ae691edda29c53c3b962665b052c6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/94a5c73d8f351280b6313519455a11c7.jpg b/Sklearn/sklearn-doc-zh/master/img/94a5c73d8f351280b6313519455a11c7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/94a5c73d8f351280b6313519455a11c7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/94a5c73d8f351280b6313519455a11c7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/94f627411c005fe4911552b1dd5b6ff1.jpg b/Sklearn/sklearn-doc-zh/master/img/94f627411c005fe4911552b1dd5b6ff1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/94f627411c005fe4911552b1dd5b6ff1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/94f627411c005fe4911552b1dd5b6ff1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9521899a181a367c5873e61b9f7785ce.jpg b/Sklearn/sklearn-doc-zh/master/img/9521899a181a367c5873e61b9f7785ce.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9521899a181a367c5873e61b9f7785ce.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9521899a181a367c5873e61b9f7785ce.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9642d01a97f06869baba6159e3438677.jpg b/Sklearn/sklearn-doc-zh/master/img/9642d01a97f06869baba6159e3438677.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9642d01a97f06869baba6159e3438677.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9642d01a97f06869baba6159e3438677.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/966bd0680e0e71a4df98abab98818724.jpg b/Sklearn/sklearn-doc-zh/master/img/966bd0680e0e71a4df98abab98818724.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/966bd0680e0e71a4df98abab98818724.jpg
rename to Sklearn/sklearn-doc-zh/master/img/966bd0680e0e71a4df98abab98818724.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/971b86cde9801a3bb1a80af70bd05466.jpg b/Sklearn/sklearn-doc-zh/master/img/971b86cde9801a3bb1a80af70bd05466.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/971b86cde9801a3bb1a80af70bd05466.jpg
rename to Sklearn/sklearn-doc-zh/master/img/971b86cde9801a3bb1a80af70bd05466.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/97b3ab2cc18a43b00c07a1cf6e118798.jpg b/Sklearn/sklearn-doc-zh/master/img/97b3ab2cc18a43b00c07a1cf6e118798.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/97b3ab2cc18a43b00c07a1cf6e118798.jpg
rename to Sklearn/sklearn-doc-zh/master/img/97b3ab2cc18a43b00c07a1cf6e118798.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/97f4093251d6c6f6f7d0902a86a08dbe.jpg b/Sklearn/sklearn-doc-zh/master/img/97f4093251d6c6f6f7d0902a86a08dbe.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/97f4093251d6c6f6f7d0902a86a08dbe.jpg
rename to Sklearn/sklearn-doc-zh/master/img/97f4093251d6c6f6f7d0902a86a08dbe.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/97f450040417800904df33c9702d2c66.jpg b/Sklearn/sklearn-doc-zh/master/img/97f450040417800904df33c9702d2c66.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/97f450040417800904df33c9702d2c66.jpg
rename to Sklearn/sklearn-doc-zh/master/img/97f450040417800904df33c9702d2c66.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9812effbd6ddac1053fd0b63ebe8c2fb.jpg b/Sklearn/sklearn-doc-zh/master/img/9812effbd6ddac1053fd0b63ebe8c2fb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9812effbd6ddac1053fd0b63ebe8c2fb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9812effbd6ddac1053fd0b63ebe8c2fb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/983133e80141fbf289a10f379c11b34f.jpg b/Sklearn/sklearn-doc-zh/master/img/983133e80141fbf289a10f379c11b34f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/983133e80141fbf289a10f379c11b34f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/983133e80141fbf289a10f379c11b34f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9839512f63b7e5de021f13f7e6bd6b22.jpg b/Sklearn/sklearn-doc-zh/master/img/9839512f63b7e5de021f13f7e6bd6b22.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9839512f63b7e5de021f13f7e6bd6b22.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9839512f63b7e5de021f13f7e6bd6b22.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/987fc6b717a40e57a95fb79a8e809309.jpg b/Sklearn/sklearn-doc-zh/master/img/987fc6b717a40e57a95fb79a8e809309.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/987fc6b717a40e57a95fb79a8e809309.jpg
rename to Sklearn/sklearn-doc-zh/master/img/987fc6b717a40e57a95fb79a8e809309.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/995e683eac95f8e8e65d96c6516858e7.jpg b/Sklearn/sklearn-doc-zh/master/img/995e683eac95f8e8e65d96c6516858e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/995e683eac95f8e8e65d96c6516858e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/995e683eac95f8e8e65d96c6516858e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/997e17f4d9f18abfb95e6c9f1f289098.jpg b/Sklearn/sklearn-doc-zh/master/img/997e17f4d9f18abfb95e6c9f1f289098.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/997e17f4d9f18abfb95e6c9f1f289098.jpg
rename to Sklearn/sklearn-doc-zh/master/img/997e17f4d9f18abfb95e6c9f1f289098.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9997b300f697e018f955724f7106ad09.jpg b/Sklearn/sklearn-doc-zh/master/img/9997b300f697e018f955724f7106ad09.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9997b300f697e018f955724f7106ad09.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9997b300f697e018f955724f7106ad09.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/99988260d9d836d14b2569c2fc921e81.jpg b/Sklearn/sklearn-doc-zh/master/img/99988260d9d836d14b2569c2fc921e81.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/99988260d9d836d14b2569c2fc921e81.jpg
rename to Sklearn/sklearn-doc-zh/master/img/99988260d9d836d14b2569c2fc921e81.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/99d4804dc3d2ef82e10d91de99d0142a.jpg b/Sklearn/sklearn-doc-zh/master/img/99d4804dc3d2ef82e10d91de99d0142a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/99d4804dc3d2ef82e10d91de99d0142a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/99d4804dc3d2ef82e10d91de99d0142a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/99dfcad081b3f6e1f4648a9f7d24f103.jpg b/Sklearn/sklearn-doc-zh/master/img/99dfcad081b3f6e1f4648a9f7d24f103.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/99dfcad081b3f6e1f4648a9f7d24f103.jpg
rename to Sklearn/sklearn-doc-zh/master/img/99dfcad081b3f6e1f4648a9f7d24f103.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/99e96cb74c925ba51098fe6167e22c44.jpg b/Sklearn/sklearn-doc-zh/master/img/99e96cb74c925ba51098fe6167e22c44.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/99e96cb74c925ba51098fe6167e22c44.jpg
rename to Sklearn/sklearn-doc-zh/master/img/99e96cb74c925ba51098fe6167e22c44.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9a2b4cb70f12a0e7419ffde362e1bed4.jpg b/Sklearn/sklearn-doc-zh/master/img/9a2b4cb70f12a0e7419ffde362e1bed4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9a2b4cb70f12a0e7419ffde362e1bed4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9a2b4cb70f12a0e7419ffde362e1bed4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9a55689143b2e4d90adcdfe1f95b9ffd.jpg b/Sklearn/sklearn-doc-zh/master/img/9a55689143b2e4d90adcdfe1f95b9ffd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9a55689143b2e4d90adcdfe1f95b9ffd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9a55689143b2e4d90adcdfe1f95b9ffd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9a5f8912e7fe77be2acea88fd091a5d8.jpg b/Sklearn/sklearn-doc-zh/master/img/9a5f8912e7fe77be2acea88fd091a5d8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9a5f8912e7fe77be2acea88fd091a5d8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9a5f8912e7fe77be2acea88fd091a5d8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9ad9b5d15124615ced9c9721a8ef4d3b.jpg b/Sklearn/sklearn-doc-zh/master/img/9ad9b5d15124615ced9c9721a8ef4d3b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9ad9b5d15124615ced9c9721a8ef4d3b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9ad9b5d15124615ced9c9721a8ef4d3b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9afe9de54aeed2a857e99cf6444ff0e5.jpg b/Sklearn/sklearn-doc-zh/master/img/9afe9de54aeed2a857e99cf6444ff0e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9afe9de54aeed2a857e99cf6444ff0e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9afe9de54aeed2a857e99cf6444ff0e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9b4b00422c0cec29f80a03fe1d772100.jpg b/Sklearn/sklearn-doc-zh/master/img/9b4b00422c0cec29f80a03fe1d772100.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9b4b00422c0cec29f80a03fe1d772100.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9b4b00422c0cec29f80a03fe1d772100.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9b5fb6c6e0f320a3e8e0ba606d601c98.jpg b/Sklearn/sklearn-doc-zh/master/img/9b5fb6c6e0f320a3e8e0ba606d601c98.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9b5fb6c6e0f320a3e8e0ba606d601c98.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9b5fb6c6e0f320a3e8e0ba606d601c98.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9b6c97851ffb568abc5688d5c9e81800.jpg b/Sklearn/sklearn-doc-zh/master/img/9b6c97851ffb568abc5688d5c9e81800.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9b6c97851ffb568abc5688d5c9e81800.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9b6c97851ffb568abc5688d5c9e81800.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9b7a1b832e3f1e4ea340038115e6b00d.jpg b/Sklearn/sklearn-doc-zh/master/img/9b7a1b832e3f1e4ea340038115e6b00d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9b7a1b832e3f1e4ea340038115e6b00d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9b7a1b832e3f1e4ea340038115e6b00d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9b85a5f7098321120773184b4673cbeb.jpg b/Sklearn/sklearn-doc-zh/master/img/9b85a5f7098321120773184b4673cbeb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9b85a5f7098321120773184b4673cbeb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9b85a5f7098321120773184b4673cbeb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9b9ee41d276ad49322856b95cb6c7e43.jpg b/Sklearn/sklearn-doc-zh/master/img/9b9ee41d276ad49322856b95cb6c7e43.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9b9ee41d276ad49322856b95cb6c7e43.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9b9ee41d276ad49322856b95cb6c7e43.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9ca39b9e9aa5f1a4660e45f3c9b5ef7b.jpg b/Sklearn/sklearn-doc-zh/master/img/9ca39b9e9aa5f1a4660e45f3c9b5ef7b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9ca39b9e9aa5f1a4660e45f3c9b5ef7b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9ca39b9e9aa5f1a4660e45f3c9b5ef7b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9cb7de99579cbd4664159c8a06417d13.jpg b/Sklearn/sklearn-doc-zh/master/img/9cb7de99579cbd4664159c8a06417d13.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9cb7de99579cbd4664159c8a06417d13.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9cb7de99579cbd4664159c8a06417d13.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9d2e3befcfa08a4b6a7cfed8dadbd5c0.jpg b/Sklearn/sklearn-doc-zh/master/img/9d2e3befcfa08a4b6a7cfed8dadbd5c0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9d2e3befcfa08a4b6a7cfed8dadbd5c0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9d2e3befcfa08a4b6a7cfed8dadbd5c0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9e49f9c5d629711b032b027324d531b9.jpg b/Sklearn/sklearn-doc-zh/master/img/9e49f9c5d629711b032b027324d531b9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9e49f9c5d629711b032b027324d531b9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9e49f9c5d629711b032b027324d531b9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9ef5bf146675caa32b298d7e8318fc43.jpg b/Sklearn/sklearn-doc-zh/master/img/9ef5bf146675caa32b298d7e8318fc43.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9ef5bf146675caa32b298d7e8318fc43.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9ef5bf146675caa32b298d7e8318fc43.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9f2872d8b84b398d8dd6408fd880d3b4.jpg b/Sklearn/sklearn-doc-zh/master/img/9f2872d8b84b398d8dd6408fd880d3b4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9f2872d8b84b398d8dd6408fd880d3b4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9f2872d8b84b398d8dd6408fd880d3b4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9f4178a540cbe2b9f093702d71bafbe5.jpg b/Sklearn/sklearn-doc-zh/master/img/9f4178a540cbe2b9f093702d71bafbe5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9f4178a540cbe2b9f093702d71bafbe5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9f4178a540cbe2b9f093702d71bafbe5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/9fd83615429a9be9e5698d35bec8642a.jpg b/Sklearn/sklearn-doc-zh/master/img/9fd83615429a9be9e5698d35bec8642a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/9fd83615429a9be9e5698d35bec8642a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/9fd83615429a9be9e5698d35bec8642a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a036c2c31320cfaea7959236c1b81d4c.jpg b/Sklearn/sklearn-doc-zh/master/img/a036c2c31320cfaea7959236c1b81d4c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a036c2c31320cfaea7959236c1b81d4c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a036c2c31320cfaea7959236c1b81d4c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a060693e746caf8e0ff030ed5411520f.jpg b/Sklearn/sklearn-doc-zh/master/img/a060693e746caf8e0ff030ed5411520f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a060693e746caf8e0ff030ed5411520f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a060693e746caf8e0ff030ed5411520f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a0bb00db4979d538e9ca2f0a8b423286.jpg b/Sklearn/sklearn-doc-zh/master/img/a0bb00db4979d538e9ca2f0a8b423286.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a0bb00db4979d538e9ca2f0a8b423286.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a0bb00db4979d538e9ca2f0a8b423286.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a0c2e3fe9c6a7a8416435260aa55dc4a.jpg b/Sklearn/sklearn-doc-zh/master/img/a0c2e3fe9c6a7a8416435260aa55dc4a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a0c2e3fe9c6a7a8416435260aa55dc4a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a0c2e3fe9c6a7a8416435260aa55dc4a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a0fc07cc08abaf336142bf23fb4f5cc2.jpg b/Sklearn/sklearn-doc-zh/master/img/a0fc07cc08abaf336142bf23fb4f5cc2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a0fc07cc08abaf336142bf23fb4f5cc2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a0fc07cc08abaf336142bf23fb4f5cc2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a1670c1fcb5b7ad10830f43812ed50da.jpg b/Sklearn/sklearn-doc-zh/master/img/a1670c1fcb5b7ad10830f43812ed50da.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a1670c1fcb5b7ad10830f43812ed50da.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a1670c1fcb5b7ad10830f43812ed50da.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a19f2294e2649252ad2b5766d295e75e.jpg b/Sklearn/sklearn-doc-zh/master/img/a19f2294e2649252ad2b5766d295e75e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a19f2294e2649252ad2b5766d295e75e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a19f2294e2649252ad2b5766d295e75e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a1bd06d03e764db224f0e10b4f024bdd.jpg b/Sklearn/sklearn-doc-zh/master/img/a1bd06d03e764db224f0e10b4f024bdd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a1bd06d03e764db224f0e10b4f024bdd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a1bd06d03e764db224f0e10b4f024bdd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a201561ab545f4fd9cba5a2e0eae9a94.jpg b/Sklearn/sklearn-doc-zh/master/img/a201561ab545f4fd9cba5a2e0eae9a94.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a201561ab545f4fd9cba5a2e0eae9a94.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a201561ab545f4fd9cba5a2e0eae9a94.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a243fb2cabe46c32a3a66214f514d623.jpg b/Sklearn/sklearn-doc-zh/master/img/a243fb2cabe46c32a3a66214f514d623.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a243fb2cabe46c32a3a66214f514d623.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a243fb2cabe46c32a3a66214f514d623.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a24e299927ed136dd98d6c87904c973d.jpg b/Sklearn/sklearn-doc-zh/master/img/a24e299927ed136dd98d6c87904c973d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a24e299927ed136dd98d6c87904c973d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a24e299927ed136dd98d6c87904c973d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a25320a2e009abd4269f291f85062a5d.jpg b/Sklearn/sklearn-doc-zh/master/img/a25320a2e009abd4269f291f85062a5d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a25320a2e009abd4269f291f85062a5d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a25320a2e009abd4269f291f85062a5d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a25ab5d7faac5be22a6d242286376161.jpg b/Sklearn/sklearn-doc-zh/master/img/a25ab5d7faac5be22a6d242286376161.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a25ab5d7faac5be22a6d242286376161.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a25ab5d7faac5be22a6d242286376161.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a35122280170c396ab3c9d8fa3b62446.jpg b/Sklearn/sklearn-doc-zh/master/img/a35122280170c396ab3c9d8fa3b62446.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a35122280170c396ab3c9d8fa3b62446.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a35122280170c396ab3c9d8fa3b62446.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a44a7c045f2217894a894c482861387a.jpg b/Sklearn/sklearn-doc-zh/master/img/a44a7c045f2217894a894c482861387a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a44a7c045f2217894a894c482861387a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a44a7c045f2217894a894c482861387a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a4775baaa990a4fbffcfc2688e3b5578.jpg b/Sklearn/sklearn-doc-zh/master/img/a4775baaa990a4fbffcfc2688e3b5578.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a4775baaa990a4fbffcfc2688e3b5578.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a4775baaa990a4fbffcfc2688e3b5578.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a4a20739f22e7059a927ba615ec373da.jpg b/Sklearn/sklearn-doc-zh/master/img/a4a20739f22e7059a927ba615ec373da.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a4a20739f22e7059a927ba615ec373da.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a4a20739f22e7059a927ba615ec373da.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a4dd5119f3eeb13b99180aab64917975.jpg b/Sklearn/sklearn-doc-zh/master/img/a4dd5119f3eeb13b99180aab64917975.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a4dd5119f3eeb13b99180aab64917975.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a4dd5119f3eeb13b99180aab64917975.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a51f44dfa9b1942326c669c5ffe3f9f6.jpg b/Sklearn/sklearn-doc-zh/master/img/a51f44dfa9b1942326c669c5ffe3f9f6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a51f44dfa9b1942326c669c5ffe3f9f6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a51f44dfa9b1942326c669c5ffe3f9f6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a539f6901c50549f8d30f6d7f6f3e177.jpg b/Sklearn/sklearn-doc-zh/master/img/a539f6901c50549f8d30f6d7f6f3e177.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a539f6901c50549f8d30f6d7f6f3e177.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a539f6901c50549f8d30f6d7f6f3e177.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a561362ff63affeb799b9d33423235a3.jpg b/Sklearn/sklearn-doc-zh/master/img/a561362ff63affeb799b9d33423235a3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a561362ff63affeb799b9d33423235a3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a561362ff63affeb799b9d33423235a3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a6334506478d6feb4025038294ccfa00.jpg b/Sklearn/sklearn-doc-zh/master/img/a6334506478d6feb4025038294ccfa00.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a6334506478d6feb4025038294ccfa00.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a6334506478d6feb4025038294ccfa00.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a6509a4f7b1838eb6d76d30036a00ffd.jpg b/Sklearn/sklearn-doc-zh/master/img/a6509a4f7b1838eb6d76d30036a00ffd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a6509a4f7b1838eb6d76d30036a00ffd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a6509a4f7b1838eb6d76d30036a00ffd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a6dba4aa006d4689de18a4de5acaa949.jpg b/Sklearn/sklearn-doc-zh/master/img/a6dba4aa006d4689de18a4de5acaa949.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a6dba4aa006d4689de18a4de5acaa949.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a6dba4aa006d4689de18a4de5acaa949.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a70da26e29baa95b2f65f3cbc2e5fbfa.jpg b/Sklearn/sklearn-doc-zh/master/img/a70da26e29baa95b2f65f3cbc2e5fbfa.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a70da26e29baa95b2f65f3cbc2e5fbfa.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a70da26e29baa95b2f65f3cbc2e5fbfa.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a71a1d9e35b09d284da476b2175edf6f.jpg b/Sklearn/sklearn-doc-zh/master/img/a71a1d9e35b09d284da476b2175edf6f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a71a1d9e35b09d284da476b2175edf6f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a71a1d9e35b09d284da476b2175edf6f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a8e210a94f6eac6c32bc219dbc049288.jpg b/Sklearn/sklearn-doc-zh/master/img/a8e210a94f6eac6c32bc219dbc049288.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a8e210a94f6eac6c32bc219dbc049288.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a8e210a94f6eac6c32bc219dbc049288.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a8f0b97723e99a7ddae947c83f43ff45.jpg b/Sklearn/sklearn-doc-zh/master/img/a8f0b97723e99a7ddae947c83f43ff45.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a8f0b97723e99a7ddae947c83f43ff45.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a8f0b97723e99a7ddae947c83f43ff45.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a921f24886997e2a5b94e2abb46d8402.jpg b/Sklearn/sklearn-doc-zh/master/img/a921f24886997e2a5b94e2abb46d8402.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a921f24886997e2a5b94e2abb46d8402.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a921f24886997e2a5b94e2abb46d8402.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a960dd9452e5e5da7b211f6fdc120a0d.jpg b/Sklearn/sklearn-doc-zh/master/img/a960dd9452e5e5da7b211f6fdc120a0d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a960dd9452e5e5da7b211f6fdc120a0d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a960dd9452e5e5da7b211f6fdc120a0d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a98f0fb22381bfc1d14fc1e3f7e737e5.jpg b/Sklearn/sklearn-doc-zh/master/img/a98f0fb22381bfc1d14fc1e3f7e737e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a98f0fb22381bfc1d14fc1e3f7e737e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a98f0fb22381bfc1d14fc1e3f7e737e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a9cd44019704ddd9877089f25d6a229e.jpg b/Sklearn/sklearn-doc-zh/master/img/a9cd44019704ddd9877089f25d6a229e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a9cd44019704ddd9877089f25d6a229e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a9cd44019704ddd9877089f25d6a229e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/a9e58e92cdae50e285a704a6d1ccbafc.jpg b/Sklearn/sklearn-doc-zh/master/img/a9e58e92cdae50e285a704a6d1ccbafc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/a9e58e92cdae50e285a704a6d1ccbafc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/a9e58e92cdae50e285a704a6d1ccbafc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/aa0c61cd560f0fdab4fe10c7b12e5082.jpg b/Sklearn/sklearn-doc-zh/master/img/aa0c61cd560f0fdab4fe10c7b12e5082.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/aa0c61cd560f0fdab4fe10c7b12e5082.jpg
rename to Sklearn/sklearn-doc-zh/master/img/aa0c61cd560f0fdab4fe10c7b12e5082.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/aa5e9ace265afd9e1f881564a1923a17.jpg b/Sklearn/sklearn-doc-zh/master/img/aa5e9ace265afd9e1f881564a1923a17.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/aa5e9ace265afd9e1f881564a1923a17.jpg
rename to Sklearn/sklearn-doc-zh/master/img/aa5e9ace265afd9e1f881564a1923a17.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/aaa84c285eb96ed446fd34be4b51bbec.jpg b/Sklearn/sklearn-doc-zh/master/img/aaa84c285eb96ed446fd34be4b51bbec.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/aaa84c285eb96ed446fd34be4b51bbec.jpg
rename to Sklearn/sklearn-doc-zh/master/img/aaa84c285eb96ed446fd34be4b51bbec.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ab2096ee4087e644cca732d92d241edf.jpg b/Sklearn/sklearn-doc-zh/master/img/ab2096ee4087e644cca732d92d241edf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ab2096ee4087e644cca732d92d241edf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ab2096ee4087e644cca732d92d241edf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ab81f225a7e452d651b4888d437d07d2.jpg b/Sklearn/sklearn-doc-zh/master/img/ab81f225a7e452d651b4888d437d07d2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ab81f225a7e452d651b4888d437d07d2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ab81f225a7e452d651b4888d437d07d2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/aba080a369ca542a90a264a04dd518c5.jpg b/Sklearn/sklearn-doc-zh/master/img/aba080a369ca542a90a264a04dd518c5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/aba080a369ca542a90a264a04dd518c5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/aba080a369ca542a90a264a04dd518c5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/aba64ff85b1f99c5d1c4f8e1ace15f89.jpg b/Sklearn/sklearn-doc-zh/master/img/aba64ff85b1f99c5d1c4f8e1ace15f89.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/aba64ff85b1f99c5d1c4f8e1ace15f89.jpg
rename to Sklearn/sklearn-doc-zh/master/img/aba64ff85b1f99c5d1c4f8e1ace15f89.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/abd232bd41a9d1b51021b788e2a82dd9.jpg b/Sklearn/sklearn-doc-zh/master/img/abd232bd41a9d1b51021b788e2a82dd9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/abd232bd41a9d1b51021b788e2a82dd9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/abd232bd41a9d1b51021b788e2a82dd9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/abed66e83395b34fe3c020cfcab3dce9.jpg b/Sklearn/sklearn-doc-zh/master/img/abed66e83395b34fe3c020cfcab3dce9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/abed66e83395b34fe3c020cfcab3dce9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/abed66e83395b34fe3c020cfcab3dce9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/abee3460000f8532d0df4e1b1d1928e8.jpg b/Sklearn/sklearn-doc-zh/master/img/abee3460000f8532d0df4e1b1d1928e8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/abee3460000f8532d0df4e1b1d1928e8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/abee3460000f8532d0df4e1b1d1928e8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ac11972df0ad68aba63757a4ba1ee02b.jpg b/Sklearn/sklearn-doc-zh/master/img/ac11972df0ad68aba63757a4ba1ee02b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ac11972df0ad68aba63757a4ba1ee02b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ac11972df0ad68aba63757a4ba1ee02b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ac23b915eb44e4fa668b8d56785e2c20.jpg b/Sklearn/sklearn-doc-zh/master/img/ac23b915eb44e4fa668b8d56785e2c20.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ac23b915eb44e4fa668b8d56785e2c20.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ac23b915eb44e4fa668b8d56785e2c20.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ac9afe17947eb296e1701877b220779d.jpg b/Sklearn/sklearn-doc-zh/master/img/ac9afe17947eb296e1701877b220779d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ac9afe17947eb296e1701877b220779d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ac9afe17947eb296e1701877b220779d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/accc37ed7ec2ed38ec70c71f5d6aeebe.jpg b/Sklearn/sklearn-doc-zh/master/img/accc37ed7ec2ed38ec70c71f5d6aeebe.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/accc37ed7ec2ed38ec70c71f5d6aeebe.jpg
rename to Sklearn/sklearn-doc-zh/master/img/accc37ed7ec2ed38ec70c71f5d6aeebe.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ad8371d06b000849fa4e2fbd6b386c7d.jpg b/Sklearn/sklearn-doc-zh/master/img/ad8371d06b000849fa4e2fbd6b386c7d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ad8371d06b000849fa4e2fbd6b386c7d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ad8371d06b000849fa4e2fbd6b386c7d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ad854ab6b0056f9b521d823a98548d3f.jpg b/Sklearn/sklearn-doc-zh/master/img/ad854ab6b0056f9b521d823a98548d3f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ad854ab6b0056f9b521d823a98548d3f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ad854ab6b0056f9b521d823a98548d3f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ad946e6478bb10e60ac9663066f26ee8.jpg b/Sklearn/sklearn-doc-zh/master/img/ad946e6478bb10e60ac9663066f26ee8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ad946e6478bb10e60ac9663066f26ee8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ad946e6478bb10e60ac9663066f26ee8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ad9ce0e67dc83e5380738d3193819195.jpg b/Sklearn/sklearn-doc-zh/master/img/ad9ce0e67dc83e5380738d3193819195.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ad9ce0e67dc83e5380738d3193819195.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ad9ce0e67dc83e5380738d3193819195.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/adc60d285d73d89dac7cb76f51617e64.jpg b/Sklearn/sklearn-doc-zh/master/img/adc60d285d73d89dac7cb76f51617e64.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/adc60d285d73d89dac7cb76f51617e64.jpg
rename to Sklearn/sklearn-doc-zh/master/img/adc60d285d73d89dac7cb76f51617e64.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/adf83056bc2bd05628e24c40cb728b3d.jpg b/Sklearn/sklearn-doc-zh/master/img/adf83056bc2bd05628e24c40cb728b3d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/adf83056bc2bd05628e24c40cb728b3d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/adf83056bc2bd05628e24c40cb728b3d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ae1e2652c240448ae994f4b236379d6d.jpg b/Sklearn/sklearn-doc-zh/master/img/ae1e2652c240448ae994f4b236379d6d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ae1e2652c240448ae994f4b236379d6d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ae1e2652c240448ae994f4b236379d6d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ae484baf10384efcf4d993631f4641e7.jpg b/Sklearn/sklearn-doc-zh/master/img/ae484baf10384efcf4d993631f4641e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ae484baf10384efcf4d993631f4641e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ae484baf10384efcf4d993631f4641e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ae82b9adb507cb166d4721c004ae5f40.jpg b/Sklearn/sklearn-doc-zh/master/img/ae82b9adb507cb166d4721c004ae5f40.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ae82b9adb507cb166d4721c004ae5f40.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ae82b9adb507cb166d4721c004ae5f40.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/aee8fc1c253da16851991ef3ceff663b.jpg b/Sklearn/sklearn-doc-zh/master/img/aee8fc1c253da16851991ef3ceff663b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/aee8fc1c253da16851991ef3ceff663b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/aee8fc1c253da16851991ef3ceff663b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/af78ae4aadd0f0961cf4d9564897b1ff.jpg b/Sklearn/sklearn-doc-zh/master/img/af78ae4aadd0f0961cf4d9564897b1ff.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/af78ae4aadd0f0961cf4d9564897b1ff.jpg
rename to Sklearn/sklearn-doc-zh/master/img/af78ae4aadd0f0961cf4d9564897b1ff.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/af7b81123e6cdf0b42acec802041beef.jpg b/Sklearn/sklearn-doc-zh/master/img/af7b81123e6cdf0b42acec802041beef.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/af7b81123e6cdf0b42acec802041beef.jpg
rename to Sklearn/sklearn-doc-zh/master/img/af7b81123e6cdf0b42acec802041beef.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/af875bce0483bd18603c4d247e6a3745.jpg b/Sklearn/sklearn-doc-zh/master/img/af875bce0483bd18603c4d247e6a3745.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/af875bce0483bd18603c4d247e6a3745.jpg
rename to Sklearn/sklearn-doc-zh/master/img/af875bce0483bd18603c4d247e6a3745.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/afcad7956ba0a3a4a6771ee9810280c2.jpg b/Sklearn/sklearn-doc-zh/master/img/afcad7956ba0a3a4a6771ee9810280c2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/afcad7956ba0a3a4a6771ee9810280c2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/afcad7956ba0a3a4a6771ee9810280c2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/afee107e82d448558078835ad82086e5.jpg b/Sklearn/sklearn-doc-zh/master/img/afee107e82d448558078835ad82086e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/afee107e82d448558078835ad82086e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/afee107e82d448558078835ad82086e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/algo.jpg b/Sklearn/sklearn-doc-zh/master/img/algo.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/algo.jpg
rename to Sklearn/sklearn-doc-zh/master/img/algo.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b003858334d1ad594207911e84219151.jpg b/Sklearn/sklearn-doc-zh/master/img/b003858334d1ad594207911e84219151.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b003858334d1ad594207911e84219151.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b003858334d1ad594207911e84219151.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b019b19dda07f07208f1bd2576ebad30.jpg b/Sklearn/sklearn-doc-zh/master/img/b019b19dda07f07208f1bd2576ebad30.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b019b19dda07f07208f1bd2576ebad30.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b019b19dda07f07208f1bd2576ebad30.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b0471e4ce10b5565385c611ba381fa0d.jpg b/Sklearn/sklearn-doc-zh/master/img/b0471e4ce10b5565385c611ba381fa0d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b0471e4ce10b5565385c611ba381fa0d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b0471e4ce10b5565385c611ba381fa0d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b10afb1bc4c68539a74de379254c7655.jpg b/Sklearn/sklearn-doc-zh/master/img/b10afb1bc4c68539a74de379254c7655.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b10afb1bc4c68539a74de379254c7655.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b10afb1bc4c68539a74de379254c7655.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b146555411b22bcf0ad73d4720455038.jpg b/Sklearn/sklearn-doc-zh/master/img/b146555411b22bcf0ad73d4720455038.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b146555411b22bcf0ad73d4720455038.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b146555411b22bcf0ad73d4720455038.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b25f834ac79280901c702fb1449740a3.jpg b/Sklearn/sklearn-doc-zh/master/img/b25f834ac79280901c702fb1449740a3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b25f834ac79280901c702fb1449740a3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b25f834ac79280901c702fb1449740a3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b2996ad4866e8a26c7ba42c0229385af.jpg b/Sklearn/sklearn-doc-zh/master/img/b2996ad4866e8a26c7ba42c0229385af.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b2996ad4866e8a26c7ba42c0229385af.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b2996ad4866e8a26c7ba42c0229385af.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b29b59eca5c581c3f54d92c1671f2b2e.jpg b/Sklearn/sklearn-doc-zh/master/img/b29b59eca5c581c3f54d92c1671f2b2e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b29b59eca5c581c3f54d92c1671f2b2e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b29b59eca5c581c3f54d92c1671f2b2e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b2b4edffe444aa936ad59a769317f692.jpg b/Sklearn/sklearn-doc-zh/master/img/b2b4edffe444aa936ad59a769317f692.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b2b4edffe444aa936ad59a769317f692.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b2b4edffe444aa936ad59a769317f692.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b2ea359213f8f5b01eead0821e29e856.jpg b/Sklearn/sklearn-doc-zh/master/img/b2ea359213f8f5b01eead0821e29e856.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b2ea359213f8f5b01eead0821e29e856.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b2ea359213f8f5b01eead0821e29e856.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b3206aa7b52a9c0918727730873d1363.jpg b/Sklearn/sklearn-doc-zh/master/img/b3206aa7b52a9c0918727730873d1363.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b3206aa7b52a9c0918727730873d1363.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b3206aa7b52a9c0918727730873d1363.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b3348b4a0dc8e97bcefc5c7489b006db.jpg b/Sklearn/sklearn-doc-zh/master/img/b3348b4a0dc8e97bcefc5c7489b006db.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b3348b4a0dc8e97bcefc5c7489b006db.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b3348b4a0dc8e97bcefc5c7489b006db.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b335c88114c4fec7e72304006810c82c.jpg b/Sklearn/sklearn-doc-zh/master/img/b335c88114c4fec7e72304006810c82c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b335c88114c4fec7e72304006810c82c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b335c88114c4fec7e72304006810c82c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b36270d22513e9645235b5ad4c3cd7dd.jpg b/Sklearn/sklearn-doc-zh/master/img/b36270d22513e9645235b5ad4c3cd7dd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b36270d22513e9645235b5ad4c3cd7dd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b36270d22513e9645235b5ad4c3cd7dd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b382a1d99ddfadf17b35d32b0b156b5b.jpg b/Sklearn/sklearn-doc-zh/master/img/b382a1d99ddfadf17b35d32b0b156b5b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b382a1d99ddfadf17b35d32b0b156b5b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b382a1d99ddfadf17b35d32b0b156b5b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b38a0de3f98aa9b8837354765bc9e3f6.jpg b/Sklearn/sklearn-doc-zh/master/img/b38a0de3f98aa9b8837354765bc9e3f6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b38a0de3f98aa9b8837354765bc9e3f6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b38a0de3f98aa9b8837354765bc9e3f6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b38aca53acb7894dca026d3325f61a00.jpg b/Sklearn/sklearn-doc-zh/master/img/b38aca53acb7894dca026d3325f61a00.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b38aca53acb7894dca026d3325f61a00.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b38aca53acb7894dca026d3325f61a00.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b3ca25c4cc9cb42878f6fc39525b7446.jpg b/Sklearn/sklearn-doc-zh/master/img/b3ca25c4cc9cb42878f6fc39525b7446.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b3ca25c4cc9cb42878f6fc39525b7446.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b3ca25c4cc9cb42878f6fc39525b7446.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b3ea6ae2442e72f261f037571e580979.jpg b/Sklearn/sklearn-doc-zh/master/img/b3ea6ae2442e72f261f037571e580979.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b3ea6ae2442e72f261f037571e580979.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b3ea6ae2442e72f261f037571e580979.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b3edbb24837112f795a22e3574457416.jpg b/Sklearn/sklearn-doc-zh/master/img/b3edbb24837112f795a22e3574457416.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b3edbb24837112f795a22e3574457416.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b3edbb24837112f795a22e3574457416.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b47a023e9edbe1976993ce76c7dbc286.jpg b/Sklearn/sklearn-doc-zh/master/img/b47a023e9edbe1976993ce76c7dbc286.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b47a023e9edbe1976993ce76c7dbc286.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b47a023e9edbe1976993ce76c7dbc286.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b4e752f6314fe52f8c066964d26145a8.jpg b/Sklearn/sklearn-doc-zh/master/img/b4e752f6314fe52f8c066964d26145a8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b4e752f6314fe52f8c066964d26145a8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b4e752f6314fe52f8c066964d26145a8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b6305894a6f400569f3ff2b899370b54.jpg b/Sklearn/sklearn-doc-zh/master/img/b6305894a6f400569f3ff2b899370b54.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b6305894a6f400569f3ff2b899370b54.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b6305894a6f400569f3ff2b899370b54.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b67ce2997477f658a6a39026c01e07c4.jpg b/Sklearn/sklearn-doc-zh/master/img/b67ce2997477f658a6a39026c01e07c4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b67ce2997477f658a6a39026c01e07c4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b67ce2997477f658a6a39026c01e07c4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b68e95efa751d5e14b6517cff553419b.jpg b/Sklearn/sklearn-doc-zh/master/img/b68e95efa751d5e14b6517cff553419b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b68e95efa751d5e14b6517cff553419b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b68e95efa751d5e14b6517cff553419b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b6a1f98637a242005be08bb10541a524.jpg b/Sklearn/sklearn-doc-zh/master/img/b6a1f98637a242005be08bb10541a524.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b6a1f98637a242005be08bb10541a524.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b6a1f98637a242005be08bb10541a524.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b6cea83c1722562f844aebd98fb3f59d.jpg b/Sklearn/sklearn-doc-zh/master/img/b6cea83c1722562f844aebd98fb3f59d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b6cea83c1722562f844aebd98fb3f59d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b6cea83c1722562f844aebd98fb3f59d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b714492d7f23932738745c4ed05fe7ae.jpg b/Sklearn/sklearn-doc-zh/master/img/b714492d7f23932738745c4ed05fe7ae.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b714492d7f23932738745c4ed05fe7ae.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b714492d7f23932738745c4ed05fe7ae.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b74decc4f9ee591a92a5281d0187f05a.jpg b/Sklearn/sklearn-doc-zh/master/img/b74decc4f9ee591a92a5281d0187f05a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b74decc4f9ee591a92a5281d0187f05a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b74decc4f9ee591a92a5281d0187f05a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b7a68272ceb9cb09f48103e44f469470.jpg b/Sklearn/sklearn-doc-zh/master/img/b7a68272ceb9cb09f48103e44f469470.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b7a68272ceb9cb09f48103e44f469470.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b7a68272ceb9cb09f48103e44f469470.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b8c91e64943f8e5e311a51bc901a2c7e.jpg b/Sklearn/sklearn-doc-zh/master/img/b8c91e64943f8e5e311a51bc901a2c7e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b8c91e64943f8e5e311a51bc901a2c7e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b8c91e64943f8e5e311a51bc901a2c7e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b8d08f24f6c909a25190cb38127ec809.jpg b/Sklearn/sklearn-doc-zh/master/img/b8d08f24f6c909a25190cb38127ec809.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b8d08f24f6c909a25190cb38127ec809.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b8d08f24f6c909a25190cb38127ec809.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b8e446d22ed902423187ead2d67af58c.jpg b/Sklearn/sklearn-doc-zh/master/img/b8e446d22ed902423187ead2d67af58c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b8e446d22ed902423187ead2d67af58c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b8e446d22ed902423187ead2d67af58c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b91e4507d9fd7068b02f689d697f8714.jpg b/Sklearn/sklearn-doc-zh/master/img/b91e4507d9fd7068b02f689d697f8714.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b91e4507d9fd7068b02f689d697f8714.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b91e4507d9fd7068b02f689d697f8714.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/b94b3a3837e7741f704e3b9b23ba0880.jpg b/Sklearn/sklearn-doc-zh/master/img/b94b3a3837e7741f704e3b9b23ba0880.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/b94b3a3837e7741f704e3b9b23ba0880.jpg
rename to Sklearn/sklearn-doc-zh/master/img/b94b3a3837e7741f704e3b9b23ba0880.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ba3c1f82d7a66df41015761326619e26.jpg b/Sklearn/sklearn-doc-zh/master/img/ba3c1f82d7a66df41015761326619e26.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ba3c1f82d7a66df41015761326619e26.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ba3c1f82d7a66df41015761326619e26.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ba5932f77767fa05771311d1f926e3ee.jpg b/Sklearn/sklearn-doc-zh/master/img/ba5932f77767fa05771311d1f926e3ee.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ba5932f77767fa05771311d1f926e3ee.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ba5932f77767fa05771311d1f926e3ee.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ba90d4193a98b9023d3d8526a20fe1ac.jpg b/Sklearn/sklearn-doc-zh/master/img/ba90d4193a98b9023d3d8526a20fe1ac.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ba90d4193a98b9023d3d8526a20fe1ac.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ba90d4193a98b9023d3d8526a20fe1ac.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bafb2b9486fa2f91dcc020843770eef6.jpg b/Sklearn/sklearn-doc-zh/master/img/bafb2b9486fa2f91dcc020843770eef6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bafb2b9486fa2f91dcc020843770eef6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bafb2b9486fa2f91dcc020843770eef6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bayes01.png b/Sklearn/sklearn-doc-zh/master/img/bayes01.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bayes01.png
rename to Sklearn/sklearn-doc-zh/master/img/bayes01.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bayes02.png b/Sklearn/sklearn-doc-zh/master/img/bayes02.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bayes02.png
rename to Sklearn/sklearn-doc-zh/master/img/bayes02.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bayse03.png b/Sklearn/sklearn-doc-zh/master/img/bayse03.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bayse03.png
rename to Sklearn/sklearn-doc-zh/master/img/bayse03.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bayse04.png b/Sklearn/sklearn-doc-zh/master/img/bayse04.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bayse04.png
rename to Sklearn/sklearn-doc-zh/master/img/bayse04.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bayse05.png b/Sklearn/sklearn-doc-zh/master/img/bayse05.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bayse05.png
rename to Sklearn/sklearn-doc-zh/master/img/bayse05.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bb0a3257b0276e1ade46d7fa84c49ad0.jpg b/Sklearn/sklearn-doc-zh/master/img/bb0a3257b0276e1ade46d7fa84c49ad0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bb0a3257b0276e1ade46d7fa84c49ad0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bb0a3257b0276e1ade46d7fa84c49ad0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bbdbd3f496f907578ff01cc798adde74.jpg b/Sklearn/sklearn-doc-zh/master/img/bbdbd3f496f907578ff01cc798adde74.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bbdbd3f496f907578ff01cc798adde74.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bbdbd3f496f907578ff01cc798adde74.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bc08d23c9d8a06975f20eb514faae9ef.jpg b/Sklearn/sklearn-doc-zh/master/img/bc08d23c9d8a06975f20eb514faae9ef.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bc08d23c9d8a06975f20eb514faae9ef.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bc08d23c9d8a06975f20eb514faae9ef.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bc0cfc8c8661055fd60ca8e90b21d1dd.jpg b/Sklearn/sklearn-doc-zh/master/img/bc0cfc8c8661055fd60ca8e90b21d1dd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bc0cfc8c8661055fd60ca8e90b21d1dd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bc0cfc8c8661055fd60ca8e90b21d1dd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bc35316fd422689a9bc65845d63c1433.jpg b/Sklearn/sklearn-doc-zh/master/img/bc35316fd422689a9bc65845d63c1433.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bc35316fd422689a9bc65845d63c1433.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bc35316fd422689a9bc65845d63c1433.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bc7418a3ab8f749f1abd139faa96bee2.jpg b/Sklearn/sklearn-doc-zh/master/img/bc7418a3ab8f749f1abd139faa96bee2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bc7418a3ab8f749f1abd139faa96bee2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bc7418a3ab8f749f1abd139faa96bee2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bd3f0762bab34671ec8bfb8ace2cc129.jpg b/Sklearn/sklearn-doc-zh/master/img/bd3f0762bab34671ec8bfb8ace2cc129.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bd3f0762bab34671ec8bfb8ace2cc129.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bd3f0762bab34671ec8bfb8ace2cc129.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bdc1e4261347e1c74950e91fa4f2230f.jpg b/Sklearn/sklearn-doc-zh/master/img/bdc1e4261347e1c74950e91fa4f2230f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bdc1e4261347e1c74950e91fa4f2230f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bdc1e4261347e1c74950e91fa4f2230f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/be2b3bbef9fe377c6f748dd05355b58b.jpg b/Sklearn/sklearn-doc-zh/master/img/be2b3bbef9fe377c6f748dd05355b58b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/be2b3bbef9fe377c6f748dd05355b58b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/be2b3bbef9fe377c6f748dd05355b58b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/be4190a760361bd7ae65c77218465778.jpg b/Sklearn/sklearn-doc-zh/master/img/be4190a760361bd7ae65c77218465778.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/be4190a760361bd7ae65c77218465778.jpg
rename to Sklearn/sklearn-doc-zh/master/img/be4190a760361bd7ae65c77218465778.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/be71aa00cd62f24b4657f7993d1b3a45.jpg b/Sklearn/sklearn-doc-zh/master/img/be71aa00cd62f24b4657f7993d1b3a45.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/be71aa00cd62f24b4657f7993d1b3a45.jpg
rename to Sklearn/sklearn-doc-zh/master/img/be71aa00cd62f24b4657f7993d1b3a45.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/be8c80153a3cafbe4309f1fe3b62d96b.jpg b/Sklearn/sklearn-doc-zh/master/img/be8c80153a3cafbe4309f1fe3b62d96b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/be8c80153a3cafbe4309f1fe3b62d96b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/be8c80153a3cafbe4309f1fe3b62d96b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bec3afcb1362068f9caf79c5c58ea816.jpg b/Sklearn/sklearn-doc-zh/master/img/bec3afcb1362068f9caf79c5c58ea816.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bec3afcb1362068f9caf79c5c58ea816.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bec3afcb1362068f9caf79c5c58ea816.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bee2cb707f91d8e36ae11638b6698fe4.jpg b/Sklearn/sklearn-doc-zh/master/img/bee2cb707f91d8e36ae11638b6698fe4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bee2cb707f91d8e36ae11638b6698fe4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bee2cb707f91d8e36ae11638b6698fe4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/beee3f6e512d1e3caf1d1f6cfff468ae.jpg b/Sklearn/sklearn-doc-zh/master/img/beee3f6e512d1e3caf1d1f6cfff468ae.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/beee3f6e512d1e3caf1d1f6cfff468ae.jpg
rename to Sklearn/sklearn-doc-zh/master/img/beee3f6e512d1e3caf1d1f6cfff468ae.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bf95d88f4f17676409c7bab64ba036dc.jpg b/Sklearn/sklearn-doc-zh/master/img/bf95d88f4f17676409c7bab64ba036dc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bf95d88f4f17676409c7bab64ba036dc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bf95d88f4f17676409c7bab64ba036dc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bf9baf4863bf6d025348b7d91c888066.jpg b/Sklearn/sklearn-doc-zh/master/img/bf9baf4863bf6d025348b7d91c888066.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bf9baf4863bf6d025348b7d91c888066.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bf9baf4863bf6d025348b7d91c888066.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/bf9fb1354c2e0ea50d37e5cad7866314.jpg b/Sklearn/sklearn-doc-zh/master/img/bf9fb1354c2e0ea50d37e5cad7866314.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/bf9fb1354c2e0ea50d37e5cad7866314.jpg
rename to Sklearn/sklearn-doc-zh/master/img/bf9fb1354c2e0ea50d37e5cad7866314.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c001247a5528df69cdcc243c70f61d01.jpg b/Sklearn/sklearn-doc-zh/master/img/c001247a5528df69cdcc243c70f61d01.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c001247a5528df69cdcc243c70f61d01.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c001247a5528df69cdcc243c70f61d01.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c009aed89f1926875e5637127af6000c.jpg b/Sklearn/sklearn-doc-zh/master/img/c009aed89f1926875e5637127af6000c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c009aed89f1926875e5637127af6000c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c009aed89f1926875e5637127af6000c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c019126f38fb92a868a7155bd707a5f8.jpg b/Sklearn/sklearn-doc-zh/master/img/c019126f38fb92a868a7155bd707a5f8.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c019126f38fb92a868a7155bd707a5f8.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c019126f38fb92a868a7155bd707a5f8.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c03e9014ab434e11e9323f87908ed15e.jpg b/Sklearn/sklearn-doc-zh/master/img/c03e9014ab434e11e9323f87908ed15e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c03e9014ab434e11e9323f87908ed15e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c03e9014ab434e11e9323f87908ed15e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c236b4ae30d04ba7fae7fa499a2ba9ea.jpg b/Sklearn/sklearn-doc-zh/master/img/c236b4ae30d04ba7fae7fa499a2ba9ea.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c236b4ae30d04ba7fae7fa499a2ba9ea.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c236b4ae30d04ba7fae7fa499a2ba9ea.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c3567127ff1f678758b338a50e9c4880.jpg b/Sklearn/sklearn-doc-zh/master/img/c3567127ff1f678758b338a50e9c4880.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c3567127ff1f678758b338a50e9c4880.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c3567127ff1f678758b338a50e9c4880.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c39b576ee6e4fc82b4d9edd06ffc8c9c.jpg b/Sklearn/sklearn-doc-zh/master/img/c39b576ee6e4fc82b4d9edd06ffc8c9c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c39b576ee6e4fc82b4d9edd06ffc8c9c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c39b576ee6e4fc82b4d9edd06ffc8c9c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c3c22734435fdd94f6819708bc55d8a6.jpg b/Sklearn/sklearn-doc-zh/master/img/c3c22734435fdd94f6819708bc55d8a6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c3c22734435fdd94f6819708bc55d8a6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c3c22734435fdd94f6819708bc55d8a6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c3de98827a889725d91141a5780692b5.jpg b/Sklearn/sklearn-doc-zh/master/img/c3de98827a889725d91141a5780692b5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c3de98827a889725d91141a5780692b5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c3de98827a889725d91141a5780692b5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c3e91e4b6783eb9fe281bc3e2e29aaea.jpg b/Sklearn/sklearn-doc-zh/master/img/c3e91e4b6783eb9fe281bc3e2e29aaea.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c3e91e4b6783eb9fe281bc3e2e29aaea.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c3e91e4b6783eb9fe281bc3e2e29aaea.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c4373cf7ea98d1425608569103286d28.jpg b/Sklearn/sklearn-doc-zh/master/img/c4373cf7ea98d1425608569103286d28.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c4373cf7ea98d1425608569103286d28.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c4373cf7ea98d1425608569103286d28.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c458cf14df5a22e0d44d7c4fa458361d.jpg b/Sklearn/sklearn-doc-zh/master/img/c458cf14df5a22e0d44d7c4fa458361d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c458cf14df5a22e0d44d7c4fa458361d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c458cf14df5a22e0d44d7c4fa458361d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c46633c42aaa3e030b14d90aadb323fc.jpg b/Sklearn/sklearn-doc-zh/master/img/c46633c42aaa3e030b14d90aadb323fc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c46633c42aaa3e030b14d90aadb323fc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c46633c42aaa3e030b14d90aadb323fc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c471a6ca04f68a6d888d4c8ad95ba189.jpg b/Sklearn/sklearn-doc-zh/master/img/c471a6ca04f68a6d888d4c8ad95ba189.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c471a6ca04f68a6d888d4c8ad95ba189.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c471a6ca04f68a6d888d4c8ad95ba189.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c5396cf8ee04b897a37bc7cd54383eaa.jpg b/Sklearn/sklearn-doc-zh/master/img/c5396cf8ee04b897a37bc7cd54383eaa.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c5396cf8ee04b897a37bc7cd54383eaa.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c5396cf8ee04b897a37bc7cd54383eaa.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c57acf47ae694e71f55f0005d1e52c55.jpg b/Sklearn/sklearn-doc-zh/master/img/c57acf47ae694e71f55f0005d1e52c55.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c57acf47ae694e71f55f0005d1e52c55.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c57acf47ae694e71f55f0005d1e52c55.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c57c1c5b116586e218fdaa3d0696d246.jpg b/Sklearn/sklearn-doc-zh/master/img/c57c1c5b116586e218fdaa3d0696d246.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c57c1c5b116586e218fdaa3d0696d246.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c57c1c5b116586e218fdaa3d0696d246.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c593cc77e5133571028587b75182d3b3.jpg b/Sklearn/sklearn-doc-zh/master/img/c593cc77e5133571028587b75182d3b3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c593cc77e5133571028587b75182d3b3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c593cc77e5133571028587b75182d3b3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c5b0e465d16add1d02594ec434515c04.jpg b/Sklearn/sklearn-doc-zh/master/img/c5b0e465d16add1d02594ec434515c04.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c5b0e465d16add1d02594ec434515c04.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c5b0e465d16add1d02594ec434515c04.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c5f2af9df9f65f0e399542ecf7f40554.jpg b/Sklearn/sklearn-doc-zh/master/img/c5f2af9df9f65f0e399542ecf7f40554.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c5f2af9df9f65f0e399542ecf7f40554.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c5f2af9df9f65f0e399542ecf7f40554.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c5f49595b56010ad04fce358940848e5.jpg b/Sklearn/sklearn-doc-zh/master/img/c5f49595b56010ad04fce358940848e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c5f49595b56010ad04fce358940848e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c5f49595b56010ad04fce358940848e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c63c614232be2789284b906792195a15.jpg b/Sklearn/sklearn-doc-zh/master/img/c63c614232be2789284b906792195a15.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c63c614232be2789284b906792195a15.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c63c614232be2789284b906792195a15.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c63f13d52ac4f65cde6e5dfd9e941562.jpg b/Sklearn/sklearn-doc-zh/master/img/c63f13d52ac4f65cde6e5dfd9e941562.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c63f13d52ac4f65cde6e5dfd9e941562.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c63f13d52ac4f65cde6e5dfd9e941562.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c683d0fa5d21d783e383612dda8ecad3.jpg b/Sklearn/sklearn-doc-zh/master/img/c683d0fa5d21d783e383612dda8ecad3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c683d0fa5d21d783e383612dda8ecad3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c683d0fa5d21d783e383612dda8ecad3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c6b27df44672e7fa50d1d81ffbbebfbd.jpg b/Sklearn/sklearn-doc-zh/master/img/c6b27df44672e7fa50d1d81ffbbebfbd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c6b27df44672e7fa50d1d81ffbbebfbd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c6b27df44672e7fa50d1d81ffbbebfbd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c74889dd434ec9a5f4e1b57a549263e7.jpg b/Sklearn/sklearn-doc-zh/master/img/c74889dd434ec9a5f4e1b57a549263e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c74889dd434ec9a5f4e1b57a549263e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c74889dd434ec9a5f4e1b57a549263e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c7e49892dca2f0df35d1261a276693f2.jpg b/Sklearn/sklearn-doc-zh/master/img/c7e49892dca2f0df35d1261a276693f2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c7e49892dca2f0df35d1261a276693f2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c7e49892dca2f0df35d1261a276693f2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c7fbb786df17a75de12baa56eb99a2c2.jpg b/Sklearn/sklearn-doc-zh/master/img/c7fbb786df17a75de12baa56eb99a2c2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c7fbb786df17a75de12baa56eb99a2c2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c7fbb786df17a75de12baa56eb99a2c2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c82c4d24e15330860a4ca71a31ddd553.jpg b/Sklearn/sklearn-doc-zh/master/img/c82c4d24e15330860a4ca71a31ddd553.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c82c4d24e15330860a4ca71a31ddd553.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c82c4d24e15330860a4ca71a31ddd553.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c851b3cdef3493f17f70f7249928e34b.jpg b/Sklearn/sklearn-doc-zh/master/img/c851b3cdef3493f17f70f7249928e34b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c851b3cdef3493f17f70f7249928e34b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c851b3cdef3493f17f70f7249928e34b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c87d9110f3d32ffa5fa08671e4af11fb.jpg b/Sklearn/sklearn-doc-zh/master/img/c87d9110f3d32ffa5fa08671e4af11fb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c87d9110f3d32ffa5fa08671e4af11fb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c87d9110f3d32ffa5fa08671e4af11fb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c8b386f383c840e769d6dae0eeac73dd.jpg b/Sklearn/sklearn-doc-zh/master/img/c8b386f383c840e769d6dae0eeac73dd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c8b386f383c840e769d6dae0eeac73dd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c8b386f383c840e769d6dae0eeac73dd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c95237387255f824359f6c772cbb1df0.jpg b/Sklearn/sklearn-doc-zh/master/img/c95237387255f824359f6c772cbb1df0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c95237387255f824359f6c772cbb1df0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c95237387255f824359f6c772cbb1df0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c9a9a1cec953f556f78c5f400277b422.jpg b/Sklearn/sklearn-doc-zh/master/img/c9a9a1cec953f556f78c5f400277b422.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c9a9a1cec953f556f78c5f400277b422.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c9a9a1cec953f556f78c5f400277b422.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c9e8d19526fed76c122a77c246f59313.jpg b/Sklearn/sklearn-doc-zh/master/img/c9e8d19526fed76c122a77c246f59313.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c9e8d19526fed76c122a77c246f59313.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c9e8d19526fed76c122a77c246f59313.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/c9f28da3986a32d6c1421f357d52b9fa.jpg b/Sklearn/sklearn-doc-zh/master/img/c9f28da3986a32d6c1421f357d52b9fa.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/c9f28da3986a32d6c1421f357d52b9fa.jpg
rename to Sklearn/sklearn-doc-zh/master/img/c9f28da3986a32d6c1421f357d52b9fa.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ca04f56b8f8c29e1eec03620f0f601b0.jpg b/Sklearn/sklearn-doc-zh/master/img/ca04f56b8f8c29e1eec03620f0f601b0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ca04f56b8f8c29e1eec03620f0f601b0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ca04f56b8f8c29e1eec03620f0f601b0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ca22762150e0516b4847c03efd5ebf6d.jpg b/Sklearn/sklearn-doc-zh/master/img/ca22762150e0516b4847c03efd5ebf6d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ca22762150e0516b4847c03efd5ebf6d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ca22762150e0516b4847c03efd5ebf6d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cb598ee06bc5060d2dabe4acba00faa7.jpg b/Sklearn/sklearn-doc-zh/master/img/cb598ee06bc5060d2dabe4acba00faa7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cb598ee06bc5060d2dabe4acba00faa7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cb598ee06bc5060d2dabe4acba00faa7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cb5a89fd247e8cbbea21b00a12d188e6.jpg b/Sklearn/sklearn-doc-zh/master/img/cb5a89fd247e8cbbea21b00a12d188e6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cb5a89fd247e8cbbea21b00a12d188e6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cb5a89fd247e8cbbea21b00a12d188e6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cba233fc4178da6d3fe0b177cbbb6318.jpg b/Sklearn/sklearn-doc-zh/master/img/cba233fc4178da6d3fe0b177cbbb6318.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cba233fc4178da6d3fe0b177cbbb6318.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cba233fc4178da6d3fe0b177cbbb6318.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cc41a8d314f9b97ecdf236aa0c21d984.jpg b/Sklearn/sklearn-doc-zh/master/img/cc41a8d314f9b97ecdf236aa0c21d984.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cc41a8d314f9b97ecdf236aa0c21d984.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cc41a8d314f9b97ecdf236aa0c21d984.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cc9d324e8bc61a67cc1947f73bf5b618.jpg b/Sklearn/sklearn-doc-zh/master/img/cc9d324e8bc61a67cc1947f73bf5b618.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cc9d324e8bc61a67cc1947f73bf5b618.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cc9d324e8bc61a67cc1947f73bf5b618.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ccc8bedf9424617c5d6a61fbe9a1cc36.jpg b/Sklearn/sklearn-doc-zh/master/img/ccc8bedf9424617c5d6a61fbe9a1cc36.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ccc8bedf9424617c5d6a61fbe9a1cc36.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ccc8bedf9424617c5d6a61fbe9a1cc36.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ccd727d4b039d28f8146546bd5f614b3.jpg b/Sklearn/sklearn-doc-zh/master/img/ccd727d4b039d28f8146546bd5f614b3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ccd727d4b039d28f8146546bd5f614b3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ccd727d4b039d28f8146546bd5f614b3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cd0c1a5b7ac7d76f9fe724cc7a723374.jpg b/Sklearn/sklearn-doc-zh/master/img/cd0c1a5b7ac7d76f9fe724cc7a723374.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cd0c1a5b7ac7d76f9fe724cc7a723374.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cd0c1a5b7ac7d76f9fe724cc7a723374.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cd345cf1e9e01448cd544361983ab95a.jpg b/Sklearn/sklearn-doc-zh/master/img/cd345cf1e9e01448cd544361983ab95a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cd345cf1e9e01448cd544361983ab95a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cd345cf1e9e01448cd544361983ab95a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cd58ff0ab17f3ead1d5179426f2dae50.jpg b/Sklearn/sklearn-doc-zh/master/img/cd58ff0ab17f3ead1d5179426f2dae50.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cd58ff0ab17f3ead1d5179426f2dae50.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cd58ff0ab17f3ead1d5179426f2dae50.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cd8ca25fe0dc0cc43949bcaa5d2674c2.jpg b/Sklearn/sklearn-doc-zh/master/img/cd8ca25fe0dc0cc43949bcaa5d2674c2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cd8ca25fe0dc0cc43949bcaa5d2674c2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cd8ca25fe0dc0cc43949bcaa5d2674c2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cda529a3abe8af421f1f218b1a390091.jpg b/Sklearn/sklearn-doc-zh/master/img/cda529a3abe8af421f1f218b1a390091.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cda529a3abe8af421f1f218b1a390091.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cda529a3abe8af421f1f218b1a390091.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cdaca3963c7797054326117c0bc0b368.jpg b/Sklearn/sklearn-doc-zh/master/img/cdaca3963c7797054326117c0bc0b368.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cdaca3963c7797054326117c0bc0b368.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cdaca3963c7797054326117c0bc0b368.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cdc5ef75d769259ef0537940296ab0b4.jpg b/Sklearn/sklearn-doc-zh/master/img/cdc5ef75d769259ef0537940296ab0b4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cdc5ef75d769259ef0537940296ab0b4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cdc5ef75d769259ef0537940296ab0b4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cddb30ab60430b100271b055376e8363.jpg b/Sklearn/sklearn-doc-zh/master/img/cddb30ab60430b100271b055376e8363.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cddb30ab60430b100271b055376e8363.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cddb30ab60430b100271b055376e8363.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ce7fd91ddb116ab5d747de0316caf657.jpg b/Sklearn/sklearn-doc-zh/master/img/ce7fd91ddb116ab5d747de0316caf657.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ce7fd91ddb116ab5d747de0316caf657.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ce7fd91ddb116ab5d747de0316caf657.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cf52655ee609af9f3c27c06448a5bf67.jpg b/Sklearn/sklearn-doc-zh/master/img/cf52655ee609af9f3c27c06448a5bf67.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cf52655ee609af9f3c27c06448a5bf67.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cf52655ee609af9f3c27c06448a5bf67.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cf8cc964dfa6df1a7473fe033f9fb642.jpg b/Sklearn/sklearn-doc-zh/master/img/cf8cc964dfa6df1a7473fe033f9fb642.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cf8cc964dfa6df1a7473fe033f9fb642.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cf8cc964dfa6df1a7473fe033f9fb642.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cfe45a2d171ae9c5933cd6d48cd48cb0.jpg b/Sklearn/sklearn-doc-zh/master/img/cfe45a2d171ae9c5933cd6d48cd48cb0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cfe45a2d171ae9c5933cd6d48cd48cb0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/cfe45a2d171ae9c5933cd6d48cd48cb0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/cluster01.png b/Sklearn/sklearn-doc-zh/master/img/cluster01.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/cluster01.png
rename to Sklearn/sklearn-doc-zh/master/img/cluster01.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d06a11a8d6ed2efac238ab0bdbd33326.jpg b/Sklearn/sklearn-doc-zh/master/img/d06a11a8d6ed2efac238ab0bdbd33326.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d06a11a8d6ed2efac238ab0bdbd33326.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d06a11a8d6ed2efac238ab0bdbd33326.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d11a3c7c81eef9f2c8ece06f91411e9e.jpg b/Sklearn/sklearn-doc-zh/master/img/d11a3c7c81eef9f2c8ece06f91411e9e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d11a3c7c81eef9f2c8ece06f91411e9e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d11a3c7c81eef9f2c8ece06f91411e9e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d12d5f9823ac608127ac67df8cecff9d.jpg b/Sklearn/sklearn-doc-zh/master/img/d12d5f9823ac608127ac67df8cecff9d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d12d5f9823ac608127ac67df8cecff9d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d12d5f9823ac608127ac67df8cecff9d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d1d5abd40c8364a2da2f181ede69fa56.jpg b/Sklearn/sklearn-doc-zh/master/img/d1d5abd40c8364a2da2f181ede69fa56.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d1d5abd40c8364a2da2f181ede69fa56.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d1d5abd40c8364a2da2f181ede69fa56.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d2b34f499ce1bbd28a276bc0d7afdde1.jpg b/Sklearn/sklearn-doc-zh/master/img/d2b34f499ce1bbd28a276bc0d7afdde1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d2b34f499ce1bbd28a276bc0d7afdde1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d2b34f499ce1bbd28a276bc0d7afdde1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d2fed0ae8e2b987a781ee01a92c31dfb.jpg b/Sklearn/sklearn-doc-zh/master/img/d2fed0ae8e2b987a781ee01a92c31dfb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d2fed0ae8e2b987a781ee01a92c31dfb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d2fed0ae8e2b987a781ee01a92c31dfb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d325b0db5d92ebf952f4b6d810fa43bd.jpg b/Sklearn/sklearn-doc-zh/master/img/d325b0db5d92ebf952f4b6d810fa43bd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d325b0db5d92ebf952f4b6d810fa43bd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d325b0db5d92ebf952f4b6d810fa43bd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d35b85fc7ddd819b1fec30a6ef410fc9.jpg b/Sklearn/sklearn-doc-zh/master/img/d35b85fc7ddd819b1fec30a6ef410fc9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d35b85fc7ddd819b1fec30a6ef410fc9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d35b85fc7ddd819b1fec30a6ef410fc9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d3c1bd7a2bac2e7cc22203e423d56e7e.jpg b/Sklearn/sklearn-doc-zh/master/img/d3c1bd7a2bac2e7cc22203e423d56e7e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d3c1bd7a2bac2e7cc22203e423d56e7e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d3c1bd7a2bac2e7cc22203e423d56e7e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d3d363339c8708bf2058b128facd0aea.jpg b/Sklearn/sklearn-doc-zh/master/img/d3d363339c8708bf2058b128facd0aea.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d3d363339c8708bf2058b128facd0aea.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d3d363339c8708bf2058b128facd0aea.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d41288778c3d66bcae947c3078469126.jpg b/Sklearn/sklearn-doc-zh/master/img/d41288778c3d66bcae947c3078469126.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d41288778c3d66bcae947c3078469126.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d41288778c3d66bcae947c3078469126.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d459482314974b92f7f44cc36d6eae3e.jpg b/Sklearn/sklearn-doc-zh/master/img/d459482314974b92f7f44cc36d6eae3e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d459482314974b92f7f44cc36d6eae3e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d459482314974b92f7f44cc36d6eae3e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d47bd99afb1d5dd3bff5b9809371c476.jpg b/Sklearn/sklearn-doc-zh/master/img/d47bd99afb1d5dd3bff5b9809371c476.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d47bd99afb1d5dd3bff5b9809371c476.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d47bd99afb1d5dd3bff5b9809371c476.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d49a868d9c8c944f42202a30647ff7cf.jpg b/Sklearn/sklearn-doc-zh/master/img/d49a868d9c8c944f42202a30647ff7cf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d49a868d9c8c944f42202a30647ff7cf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d49a868d9c8c944f42202a30647ff7cf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d49c17958d641e42faa6fd3a46ac860a.jpg b/Sklearn/sklearn-doc-zh/master/img/d49c17958d641e42faa6fd3a46ac860a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d49c17958d641e42faa6fd3a46ac860a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d49c17958d641e42faa6fd3a46ac860a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d5021b539c18587624a07ef6df00f585.jpg b/Sklearn/sklearn-doc-zh/master/img/d5021b539c18587624a07ef6df00f585.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d5021b539c18587624a07ef6df00f585.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d5021b539c18587624a07ef6df00f585.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d5a26fae0e652d4e951d9ec9ae1a01e5.jpg b/Sklearn/sklearn-doc-zh/master/img/d5a26fae0e652d4e951d9ec9ae1a01e5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d5a26fae0e652d4e951d9ec9ae1a01e5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d5a26fae0e652d4e951d9ec9ae1a01e5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d5c9a11453ea30a1be50a1034052bd6b.jpg b/Sklearn/sklearn-doc-zh/master/img/d5c9a11453ea30a1be50a1034052bd6b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d5c9a11453ea30a1be50a1034052bd6b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d5c9a11453ea30a1be50a1034052bd6b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d61124c62424b8a8d38adc3c41bb71f6.jpg b/Sklearn/sklearn-doc-zh/master/img/d61124c62424b8a8d38adc3c41bb71f6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d61124c62424b8a8d38adc3c41bb71f6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d61124c62424b8a8d38adc3c41bb71f6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d6127761ddbd135a1317ec14f1ddfac4.jpg b/Sklearn/sklearn-doc-zh/master/img/d6127761ddbd135a1317ec14f1ddfac4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d6127761ddbd135a1317ec14f1ddfac4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d6127761ddbd135a1317ec14f1ddfac4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d6293957048ac05c3ae0dfac9949537c.jpg b/Sklearn/sklearn-doc-zh/master/img/d6293957048ac05c3ae0dfac9949537c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d6293957048ac05c3ae0dfac9949537c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d6293957048ac05c3ae0dfac9949537c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d670eea3215462f64d74d9366622a490.jpg b/Sklearn/sklearn-doc-zh/master/img/d670eea3215462f64d74d9366622a490.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d670eea3215462f64d74d9366622a490.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d670eea3215462f64d74d9366622a490.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d69db8c22e9315a6fb454b276d5ce534.jpg b/Sklearn/sklearn-doc-zh/master/img/d69db8c22e9315a6fb454b276d5ce534.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d69db8c22e9315a6fb454b276d5ce534.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d69db8c22e9315a6fb454b276d5ce534.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d6d6e6638cd01ead4811579660e36b44.jpg b/Sklearn/sklearn-doc-zh/master/img/d6d6e6638cd01ead4811579660e36b44.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d6d6e6638cd01ead4811579660e36b44.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d6d6e6638cd01ead4811579660e36b44.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d6e5649338670ffec641327eeaa0521a.jpg b/Sklearn/sklearn-doc-zh/master/img/d6e5649338670ffec641327eeaa0521a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d6e5649338670ffec641327eeaa0521a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d6e5649338670ffec641327eeaa0521a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d6f34fca0b5561181aa5263dbb97df74.jpg b/Sklearn/sklearn-doc-zh/master/img/d6f34fca0b5561181aa5263dbb97df74.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d6f34fca0b5561181aa5263dbb97df74.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d6f34fca0b5561181aa5263dbb97df74.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d7151d4911c077ded512eba1c6cd2bb0.jpg b/Sklearn/sklearn-doc-zh/master/img/d7151d4911c077ded512eba1c6cd2bb0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d7151d4911c077ded512eba1c6cd2bb0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d7151d4911c077ded512eba1c6cd2bb0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d7228aff11bb03497e40badd984560a6.jpg b/Sklearn/sklearn-doc-zh/master/img/d7228aff11bb03497e40badd984560a6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d7228aff11bb03497e40badd984560a6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d7228aff11bb03497e40badd984560a6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d7b279566c62332b11d20ca6ff026505.jpg b/Sklearn/sklearn-doc-zh/master/img/d7b279566c62332b11d20ca6ff026505.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d7b279566c62332b11d20ca6ff026505.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d7b279566c62332b11d20ca6ff026505.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d7e5ca264ffbd335db57ba194e2a5d0f.jpg b/Sklearn/sklearn-doc-zh/master/img/d7e5ca264ffbd335db57ba194e2a5d0f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d7e5ca264ffbd335db57ba194e2a5d0f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d7e5ca264ffbd335db57ba194e2a5d0f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d7f26dee1f8849176f6438863fb775fb.jpg b/Sklearn/sklearn-doc-zh/master/img/d7f26dee1f8849176f6438863fb775fb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d7f26dee1f8849176f6438863fb775fb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d7f26dee1f8849176f6438863fb775fb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d7ff3091308658ce388554d420581459.jpg b/Sklearn/sklearn-doc-zh/master/img/d7ff3091308658ce388554d420581459.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d7ff3091308658ce388554d420581459.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d7ff3091308658ce388554d420581459.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d822c46462e0ffda4dd99f74a070b6b3.jpg b/Sklearn/sklearn-doc-zh/master/img/d822c46462e0ffda4dd99f74a070b6b3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d822c46462e0ffda4dd99f74a070b6b3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d822c46462e0ffda4dd99f74a070b6b3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d8b3d5242d513369a44f8bf0c6112744.jpg b/Sklearn/sklearn-doc-zh/master/img/d8b3d5242d513369a44f8bf0c6112744.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d8b3d5242d513369a44f8bf0c6112744.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d8b3d5242d513369a44f8bf0c6112744.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d90bb77f4f60c523c2bc041f768e8a49.jpg b/Sklearn/sklearn-doc-zh/master/img/d90bb77f4f60c523c2bc041f768e8a49.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d90bb77f4f60c523c2bc041f768e8a49.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d90bb77f4f60c523c2bc041f768e8a49.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d97ae32100e54dfed8139aef0fcc9b68.jpg b/Sklearn/sklearn-doc-zh/master/img/d97ae32100e54dfed8139aef0fcc9b68.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d97ae32100e54dfed8139aef0fcc9b68.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d97ae32100e54dfed8139aef0fcc9b68.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/d9ac7cfff134bd66e853020e32d76f5c.jpg b/Sklearn/sklearn-doc-zh/master/img/d9ac7cfff134bd66e853020e32d76f5c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/d9ac7cfff134bd66e853020e32d76f5c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/d9ac7cfff134bd66e853020e32d76f5c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/da2ce2d49bbab0c389600d1c82fccf9b.jpg b/Sklearn/sklearn-doc-zh/master/img/da2ce2d49bbab0c389600d1c82fccf9b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/da2ce2d49bbab0c389600d1c82fccf9b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/da2ce2d49bbab0c389600d1c82fccf9b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/da31be9c84ea7617ab534b511701d650.jpg b/Sklearn/sklearn-doc-zh/master/img/da31be9c84ea7617ab534b511701d650.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/da31be9c84ea7617ab534b511701d650.jpg
rename to Sklearn/sklearn-doc-zh/master/img/da31be9c84ea7617ab534b511701d650.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/da928d409a2cf1615368a82030e09380.jpg b/Sklearn/sklearn-doc-zh/master/img/da928d409a2cf1615368a82030e09380.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/da928d409a2cf1615368a82030e09380.jpg
rename to Sklearn/sklearn-doc-zh/master/img/da928d409a2cf1615368a82030e09380.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/db23fadfab6b660dbfa2934c4536beb1.jpg b/Sklearn/sklearn-doc-zh/master/img/db23fadfab6b660dbfa2934c4536beb1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/db23fadfab6b660dbfa2934c4536beb1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/db23fadfab6b660dbfa2934c4536beb1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/db24e5f707f974690c4334cfa218bbee.jpg b/Sklearn/sklearn-doc-zh/master/img/db24e5f707f974690c4334cfa218bbee.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/db24e5f707f974690c4334cfa218bbee.jpg
rename to Sklearn/sklearn-doc-zh/master/img/db24e5f707f974690c4334cfa218bbee.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/db30d43fd890d5f28b84a667ddfbb39d.jpg b/Sklearn/sklearn-doc-zh/master/img/db30d43fd890d5f28b84a667ddfbb39d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/db30d43fd890d5f28b84a667ddfbb39d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/db30d43fd890d5f28b84a667ddfbb39d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dc074c105944810a277030dfab298376.jpg b/Sklearn/sklearn-doc-zh/master/img/dc074c105944810a277030dfab298376.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dc074c105944810a277030dfab298376.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dc074c105944810a277030dfab298376.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dc219bfd2e157456e106676575955251.jpg b/Sklearn/sklearn-doc-zh/master/img/dc219bfd2e157456e106676575955251.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dc219bfd2e157456e106676575955251.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dc219bfd2e157456e106676575955251.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dc40e3a6d4022bfb488e0a4283b656b9.jpg b/Sklearn/sklearn-doc-zh/master/img/dc40e3a6d4022bfb488e0a4283b656b9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dc40e3a6d4022bfb488e0a4283b656b9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dc40e3a6d4022bfb488e0a4283b656b9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dc8f095e63b3defdb85fcf54d7d2d8c2.jpg b/Sklearn/sklearn-doc-zh/master/img/dc8f095e63b3defdb85fcf54d7d2d8c2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dc8f095e63b3defdb85fcf54d7d2d8c2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dc8f095e63b3defdb85fcf54d7d2d8c2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dd310c2fa94418ac4f4d12638444fd3b.jpg b/Sklearn/sklearn-doc-zh/master/img/dd310c2fa94418ac4f4d12638444fd3b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dd310c2fa94418ac4f4d12638444fd3b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dd310c2fa94418ac4f4d12638444fd3b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dd9b7456f8406b6fac80cfd3ca11ccfc.jpg b/Sklearn/sklearn-doc-zh/master/img/dd9b7456f8406b6fac80cfd3ca11ccfc.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dd9b7456f8406b6fac80cfd3ca11ccfc.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dd9b7456f8406b6fac80cfd3ca11ccfc.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dda3ed622f104bd7e6abffbcb1691998.jpg b/Sklearn/sklearn-doc-zh/master/img/dda3ed622f104bd7e6abffbcb1691998.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dda3ed622f104bd7e6abffbcb1691998.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dda3ed622f104bd7e6abffbcb1691998.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ddb7802ca4af9cffa650eec942feb790.jpg b/Sklearn/sklearn-doc-zh/master/img/ddb7802ca4af9cffa650eec942feb790.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ddb7802ca4af9cffa650eec942feb790.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ddb7802ca4af9cffa650eec942feb790.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dde55f7a409ac46b5694e689c4b151f5.jpg b/Sklearn/sklearn-doc-zh/master/img/dde55f7a409ac46b5694e689c4b151f5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dde55f7a409ac46b5694e689c4b151f5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dde55f7a409ac46b5694e689c4b151f5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/de55c53f911184b6ad3e562a4d694c01.jpg b/Sklearn/sklearn-doc-zh/master/img/de55c53f911184b6ad3e562a4d694c01.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/de55c53f911184b6ad3e562a4d694c01.jpg
rename to Sklearn/sklearn-doc-zh/master/img/de55c53f911184b6ad3e562a4d694c01.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/de6303ad5b9808c7ae8c64ddc632d893.jpg b/Sklearn/sklearn-doc-zh/master/img/de6303ad5b9808c7ae8c64ddc632d893.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/de6303ad5b9808c7ae8c64ddc632d893.jpg
rename to Sklearn/sklearn-doc-zh/master/img/de6303ad5b9808c7ae8c64ddc632d893.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/decc30cee202697370eb9e21062c54b7.jpg b/Sklearn/sklearn-doc-zh/master/img/decc30cee202697370eb9e21062c54b7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/decc30cee202697370eb9e21062c54b7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/decc30cee202697370eb9e21062c54b7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dedef2ddd0f96df639d4c85fffb9bbd5.jpg b/Sklearn/sklearn-doc-zh/master/img/dedef2ddd0f96df639d4c85fffb9bbd5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dedef2ddd0f96df639d4c85fffb9bbd5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dedef2ddd0f96df639d4c85fffb9bbd5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/def4737951f9990642e65b2403941350.jpg b/Sklearn/sklearn-doc-zh/master/img/def4737951f9990642e65b2403941350.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/def4737951f9990642e65b2403941350.jpg
rename to Sklearn/sklearn-doc-zh/master/img/def4737951f9990642e65b2403941350.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/df49142f65f7afa86c2e18f598f00729.jpg b/Sklearn/sklearn-doc-zh/master/img/df49142f65f7afa86c2e18f598f00729.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/df49142f65f7afa86c2e18f598f00729.jpg
rename to Sklearn/sklearn-doc-zh/master/img/df49142f65f7afa86c2e18f598f00729.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/dfab82d3a21680e5b6d3898a02dc6e01.jpg b/Sklearn/sklearn-doc-zh/master/img/dfab82d3a21680e5b6d3898a02dc6e01.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/dfab82d3a21680e5b6d3898a02dc6e01.jpg
rename to Sklearn/sklearn-doc-zh/master/img/dfab82d3a21680e5b6d3898a02dc6e01.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e02e680946360c19e1cee28c92173bc4.jpg b/Sklearn/sklearn-doc-zh/master/img/e02e680946360c19e1cee28c92173bc4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e02e680946360c19e1cee28c92173bc4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e02e680946360c19e1cee28c92173bc4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e03066df748abd9273db055cb79f0f01.jpg b/Sklearn/sklearn-doc-zh/master/img/e03066df748abd9273db055cb79f0f01.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e03066df748abd9273db055cb79f0f01.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e03066df748abd9273db055cb79f0f01.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e0532dc18cc4c92c2b39f4b29d33cd13.jpg b/Sklearn/sklearn-doc-zh/master/img/e0532dc18cc4c92c2b39f4b29d33cd13.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e0532dc18cc4c92c2b39f4b29d33cd13.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e0532dc18cc4c92c2b39f4b29d33cd13.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e0d8dbb9574d5eb264279927dcf8baaf.jpg b/Sklearn/sklearn-doc-zh/master/img/e0d8dbb9574d5eb264279927dcf8baaf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e0d8dbb9574d5eb264279927dcf8baaf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e0d8dbb9574d5eb264279927dcf8baaf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e18ade3134bef595ea6ddf488ff9557a.jpg b/Sklearn/sklearn-doc-zh/master/img/e18ade3134bef595ea6ddf488ff9557a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e18ade3134bef595ea6ddf488ff9557a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e18ade3134bef595ea6ddf488ff9557a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e1b4d08b93d1d222e96d99475a766281.jpg b/Sklearn/sklearn-doc-zh/master/img/e1b4d08b93d1d222e96d99475a766281.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e1b4d08b93d1d222e96d99475a766281.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e1b4d08b93d1d222e96d99475a766281.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e24edaeb407b6a696ddb188697f0934d.jpg b/Sklearn/sklearn-doc-zh/master/img/e24edaeb407b6a696ddb188697f0934d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e24edaeb407b6a696ddb188697f0934d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e24edaeb407b6a696ddb188697f0934d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e2632203a52191f8ba8e393e34545100.jpg b/Sklearn/sklearn-doc-zh/master/img/e2632203a52191f8ba8e393e34545100.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e2632203a52191f8ba8e393e34545100.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e2632203a52191f8ba8e393e34545100.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e2650a6b3222cf44bd311f7205909f06.jpg b/Sklearn/sklearn-doc-zh/master/img/e2650a6b3222cf44bd311f7205909f06.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e2650a6b3222cf44bd311f7205909f06.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e2650a6b3222cf44bd311f7205909f06.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e270fdc1fb7cabab295d31d189d77258.jpg b/Sklearn/sklearn-doc-zh/master/img/e270fdc1fb7cabab295d31d189d77258.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e270fdc1fb7cabab295d31d189d77258.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e270fdc1fb7cabab295d31d189d77258.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e279b8169ddd6581c5606c868ba52fae.jpg b/Sklearn/sklearn-doc-zh/master/img/e279b8169ddd6581c5606c868ba52fae.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e279b8169ddd6581c5606c868ba52fae.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e279b8169ddd6581c5606c868ba52fae.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e2bd3aaa1586d4d17301f7fe016eefd7.jpg b/Sklearn/sklearn-doc-zh/master/img/e2bd3aaa1586d4d17301f7fe016eefd7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e2bd3aaa1586d4d17301f7fe016eefd7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e2bd3aaa1586d4d17301f7fe016eefd7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e2f9b08680b30cfb80102f69264fdd5c.jpg b/Sklearn/sklearn-doc-zh/master/img/e2f9b08680b30cfb80102f69264fdd5c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e2f9b08680b30cfb80102f69264fdd5c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e2f9b08680b30cfb80102f69264fdd5c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e310c621bd78988800b952eb7542cd88.jpg b/Sklearn/sklearn-doc-zh/master/img/e310c621bd78988800b952eb7542cd88.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e310c621bd78988800b952eb7542cd88.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e310c621bd78988800b952eb7542cd88.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e3eebe26bb077cc3986d3beba9de4ac5.jpg b/Sklearn/sklearn-doc-zh/master/img/e3eebe26bb077cc3986d3beba9de4ac5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e3eebe26bb077cc3986d3beba9de4ac5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e3eebe26bb077cc3986d3beba9de4ac5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e3ff277d54a34043adefa98a9e1a69d1.jpg b/Sklearn/sklearn-doc-zh/master/img/e3ff277d54a34043adefa98a9e1a69d1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e3ff277d54a34043adefa98a9e1a69d1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e3ff277d54a34043adefa98a9e1a69d1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e473a2606f078eaa7b86800b11f4d62b.jpg b/Sklearn/sklearn-doc-zh/master/img/e473a2606f078eaa7b86800b11f4d62b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e473a2606f078eaa7b86800b11f4d62b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e473a2606f078eaa7b86800b11f4d62b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e4e213d17043826a96dd917dcbdf5d85.jpg b/Sklearn/sklearn-doc-zh/master/img/e4e213d17043826a96dd917dcbdf5d85.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e4e213d17043826a96dd917dcbdf5d85.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e4e213d17043826a96dd917dcbdf5d85.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e5012484ffa6afb2c720d363b39a36b0.jpg b/Sklearn/sklearn-doc-zh/master/img/e5012484ffa6afb2c720d363b39a36b0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e5012484ffa6afb2c720d363b39a36b0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e5012484ffa6afb2c720d363b39a36b0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e56abe6d36f21c0c6dd22d2a84535415.jpg b/Sklearn/sklearn-doc-zh/master/img/e56abe6d36f21c0c6dd22d2a84535415.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e56abe6d36f21c0c6dd22d2a84535415.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e56abe6d36f21c0c6dd22d2a84535415.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e5ad06b17e1bacf475bf9247d93d1419.jpg b/Sklearn/sklearn-doc-zh/master/img/e5ad06b17e1bacf475bf9247d93d1419.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e5ad06b17e1bacf475bf9247d93d1419.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e5ad06b17e1bacf475bf9247d93d1419.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e5b3516a2cd7fbf2916643478e0bed70.jpg b/Sklearn/sklearn-doc-zh/master/img/e5b3516a2cd7fbf2916643478e0bed70.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e5b3516a2cd7fbf2916643478e0bed70.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e5b3516a2cd7fbf2916643478e0bed70.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e615670f11d811f002d1b58effe99dc0.jpg b/Sklearn/sklearn-doc-zh/master/img/e615670f11d811f002d1b58effe99dc0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e615670f11d811f002d1b58effe99dc0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e615670f11d811f002d1b58effe99dc0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e64298b4d9439c3db54eeddbf3d92b4b.jpg b/Sklearn/sklearn-doc-zh/master/img/e64298b4d9439c3db54eeddbf3d92b4b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e64298b4d9439c3db54eeddbf3d92b4b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e64298b4d9439c3db54eeddbf3d92b4b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e668ecc249e709e47f6955a74528bf7b.jpg b/Sklearn/sklearn-doc-zh/master/img/e668ecc249e709e47f6955a74528bf7b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e668ecc249e709e47f6955a74528bf7b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e668ecc249e709e47f6955a74528bf7b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e6811d3f6333e9490d602db8dc1e3d96.jpg b/Sklearn/sklearn-doc-zh/master/img/e6811d3f6333e9490d602db8dc1e3d96.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e6811d3f6333e9490d602db8dc1e3d96.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e6811d3f6333e9490d602db8dc1e3d96.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e73c79ca71fe87074008fd5f464d686d.jpg b/Sklearn/sklearn-doc-zh/master/img/e73c79ca71fe87074008fd5f464d686d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e73c79ca71fe87074008fd5f464d686d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e73c79ca71fe87074008fd5f464d686d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e7a07569c8c6af174aa061b9f8921065.jpg b/Sklearn/sklearn-doc-zh/master/img/e7a07569c8c6af174aa061b9f8921065.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e7a07569c8c6af174aa061b9f8921065.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e7a07569c8c6af174aa061b9f8921065.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e7a3ba1e52e7e8add5e2c14602a92e3a.jpg b/Sklearn/sklearn-doc-zh/master/img/e7a3ba1e52e7e8add5e2c14602a92e3a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e7a3ba1e52e7e8add5e2c14602a92e3a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e7a3ba1e52e7e8add5e2c14602a92e3a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e83376afb9facc5992c857d659c7d812.jpg b/Sklearn/sklearn-doc-zh/master/img/e83376afb9facc5992c857d659c7d812.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e83376afb9facc5992c857d659c7d812.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e83376afb9facc5992c857d659c7d812.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e83fafb56db497bec93433bd0b0ee316.jpg b/Sklearn/sklearn-doc-zh/master/img/e83fafb56db497bec93433bd0b0ee316.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e83fafb56db497bec93433bd0b0ee316.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e83fafb56db497bec93433bd0b0ee316.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e84b0861711b65f28923da7c268645e7.jpg b/Sklearn/sklearn-doc-zh/master/img/e84b0861711b65f28923da7c268645e7.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e84b0861711b65f28923da7c268645e7.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e84b0861711b65f28923da7c268645e7.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/e996da94de858e5248f145e01733ed9d.jpg b/Sklearn/sklearn-doc-zh/master/img/e996da94de858e5248f145e01733ed9d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/e996da94de858e5248f145e01733ed9d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/e996da94de858e5248f145e01733ed9d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ea1fbc6466fa8a62aa1f55a550a686b3.jpg b/Sklearn/sklearn-doc-zh/master/img/ea1fbc6466fa8a62aa1f55a550a686b3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ea1fbc6466fa8a62aa1f55a550a686b3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ea1fbc6466fa8a62aa1f55a550a686b3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eaba00919535dcb10574f0228b451481.jpg b/Sklearn/sklearn-doc-zh/master/img/eaba00919535dcb10574f0228b451481.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eaba00919535dcb10574f0228b451481.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eaba00919535dcb10574f0228b451481.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eac4cdf0a783ddcd7098023e25bb16ef.jpg b/Sklearn/sklearn-doc-zh/master/img/eac4cdf0a783ddcd7098023e25bb16ef.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eac4cdf0a783ddcd7098023e25bb16ef.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eac4cdf0a783ddcd7098023e25bb16ef.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eada6f59eaee0a758bddb97b44835751.jpg b/Sklearn/sklearn-doc-zh/master/img/eada6f59eaee0a758bddb97b44835751.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eada6f59eaee0a758bddb97b44835751.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eada6f59eaee0a758bddb97b44835751.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eaf558e2c8d1fbd5426664c1698d80bd.jpg b/Sklearn/sklearn-doc-zh/master/img/eaf558e2c8d1fbd5426664c1698d80bd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eaf558e2c8d1fbd5426664c1698d80bd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eaf558e2c8d1fbd5426664c1698d80bd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eb604628a01ce7d6db62d61eba6e2e2f.jpg b/Sklearn/sklearn-doc-zh/master/img/eb604628a01ce7d6db62d61eba6e2e2f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eb604628a01ce7d6db62d61eba6e2e2f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eb604628a01ce7d6db62d61eba6e2e2f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eb89c7ce95ca7e68685f180915bf0511.jpg b/Sklearn/sklearn-doc-zh/master/img/eb89c7ce95ca7e68685f180915bf0511.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eb89c7ce95ca7e68685f180915bf0511.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eb89c7ce95ca7e68685f180915bf0511.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eba6c21adbb5d5905624446cc970a7d3.jpg b/Sklearn/sklearn-doc-zh/master/img/eba6c21adbb5d5905624446cc970a7d3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eba6c21adbb5d5905624446cc970a7d3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eba6c21adbb5d5905624446cc970a7d3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ebdfa216db7c73e9067f547e1e65ca02.jpg b/Sklearn/sklearn-doc-zh/master/img/ebdfa216db7c73e9067f547e1e65ca02.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ebdfa216db7c73e9067f547e1e65ca02.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ebdfa216db7c73e9067f547e1e65ca02.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ec29f705a6be2ce512a10c266dd755f0.jpg b/Sklearn/sklearn-doc-zh/master/img/ec29f705a6be2ce512a10c266dd755f0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ec29f705a6be2ce512a10c266dd755f0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ec29f705a6be2ce512a10c266dd755f0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ed352c0fca166fdaa12d7da93676df50.jpg b/Sklearn/sklearn-doc-zh/master/img/ed352c0fca166fdaa12d7da93676df50.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ed352c0fca166fdaa12d7da93676df50.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ed352c0fca166fdaa12d7da93676df50.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ed407df5e0211da2859805a96e271751.jpg b/Sklearn/sklearn-doc-zh/master/img/ed407df5e0211da2859805a96e271751.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ed407df5e0211da2859805a96e271751.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ed407df5e0211da2859805a96e271751.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ed51906ca8fbc868248006c841aefa2b.jpg b/Sklearn/sklearn-doc-zh/master/img/ed51906ca8fbc868248006c841aefa2b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ed51906ca8fbc868248006c841aefa2b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ed51906ca8fbc868248006c841aefa2b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ed6a1db8527fda759b14943c1b36d88e.jpg b/Sklearn/sklearn-doc-zh/master/img/ed6a1db8527fda759b14943c1b36d88e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ed6a1db8527fda759b14943c1b36d88e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ed6a1db8527fda759b14943c1b36d88e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ed70b000f50fb169ffe20ca2979e4a75.jpg b/Sklearn/sklearn-doc-zh/master/img/ed70b000f50fb169ffe20ca2979e4a75.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ed70b000f50fb169ffe20ca2979e4a75.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ed70b000f50fb169ffe20ca2979e4a75.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/edbf7affc28abad1a964eeeeac3e711c.jpg b/Sklearn/sklearn-doc-zh/master/img/edbf7affc28abad1a964eeeeac3e711c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/edbf7affc28abad1a964eeeeac3e711c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/edbf7affc28abad1a964eeeeac3e711c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ede6a26a443c24b8cea943a4a6f144f0.jpg b/Sklearn/sklearn-doc-zh/master/img/ede6a26a443c24b8cea943a4a6f144f0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ede6a26a443c24b8cea943a4a6f144f0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ede6a26a443c24b8cea943a4a6f144f0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ee5d94bdc1dac94ab975f3db18552505.jpg b/Sklearn/sklearn-doc-zh/master/img/ee5d94bdc1dac94ab975f3db18552505.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ee5d94bdc1dac94ab975f3db18552505.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ee5d94bdc1dac94ab975f3db18552505.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ee68d82006856c6355aa0dca42cd5054.jpg b/Sklearn/sklearn-doc-zh/master/img/ee68d82006856c6355aa0dca42cd5054.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ee68d82006856c6355aa0dca42cd5054.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ee68d82006856c6355aa0dca42cd5054.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ee78ab463ea8dc72594f270f5193a7a6.jpg b/Sklearn/sklearn-doc-zh/master/img/ee78ab463ea8dc72594f270f5193a7a6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ee78ab463ea8dc72594f270f5193a7a6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ee78ab463ea8dc72594f270f5193a7a6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eeaf066f8cca5064b706ccfc4728323d.jpg b/Sklearn/sklearn-doc-zh/master/img/eeaf066f8cca5064b706ccfc4728323d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eeaf066f8cca5064b706ccfc4728323d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eeaf066f8cca5064b706ccfc4728323d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/eeb2bac86ebedef3d8d2dcbf5b8c735b.jpg b/Sklearn/sklearn-doc-zh/master/img/eeb2bac86ebedef3d8d2dcbf5b8c735b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/eeb2bac86ebedef3d8d2dcbf5b8c735b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/eeb2bac86ebedef3d8d2dcbf5b8c735b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ef59d065ac32862cd7527b0c3fcf7956.jpg b/Sklearn/sklearn-doc-zh/master/img/ef59d065ac32862cd7527b0c3fcf7956.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ef59d065ac32862cd7527b0c3fcf7956.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ef59d065ac32862cd7527b0c3fcf7956.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/efaeec5dadbe79caddb0f92abab55f5b.jpg b/Sklearn/sklearn-doc-zh/master/img/efaeec5dadbe79caddb0f92abab55f5b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/efaeec5dadbe79caddb0f92abab55f5b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/efaeec5dadbe79caddb0f92abab55f5b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/efb0c43ded3d4bdfb4b1d2092c8ee446.jpg b/Sklearn/sklearn-doc-zh/master/img/efb0c43ded3d4bdfb4b1d2092c8ee446.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/efb0c43ded3d4bdfb4b1d2092c8ee446.jpg
rename to Sklearn/sklearn-doc-zh/master/img/efb0c43ded3d4bdfb4b1d2092c8ee446.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f0b72920659961ba27aec1da59f3019c.jpg b/Sklearn/sklearn-doc-zh/master/img/f0b72920659961ba27aec1da59f3019c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f0b72920659961ba27aec1da59f3019c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f0b72920659961ba27aec1da59f3019c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f15b9946d9078749f894a78579dc6778.jpg b/Sklearn/sklearn-doc-zh/master/img/f15b9946d9078749f894a78579dc6778.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f15b9946d9078749f894a78579dc6778.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f15b9946d9078749f894a78579dc6778.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f19ea7e3ca675413d6ee0f2faff14b75.jpg b/Sklearn/sklearn-doc-zh/master/img/f19ea7e3ca675413d6ee0f2faff14b75.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f19ea7e3ca675413d6ee0f2faff14b75.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f19ea7e3ca675413d6ee0f2faff14b75.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f1c8c9b812ae1b6ec189eda900e47269.jpg b/Sklearn/sklearn-doc-zh/master/img/f1c8c9b812ae1b6ec189eda900e47269.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f1c8c9b812ae1b6ec189eda900e47269.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f1c8c9b812ae1b6ec189eda900e47269.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f1fa822436569807fdc9dca5d2879d99.jpg b/Sklearn/sklearn-doc-zh/master/img/f1fa822436569807fdc9dca5d2879d99.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f1fa822436569807fdc9dca5d2879d99.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f1fa822436569807fdc9dca5d2879d99.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f1fb5834480bfa9770be94da12bbd514.jpg b/Sklearn/sklearn-doc-zh/master/img/f1fb5834480bfa9770be94da12bbd514.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f1fb5834480bfa9770be94da12bbd514.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f1fb5834480bfa9770be94da12bbd514.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f1fc9ca63c663059f76c2af6729189d1.jpg b/Sklearn/sklearn-doc-zh/master/img/f1fc9ca63c663059f76c2af6729189d1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f1fc9ca63c663059f76c2af6729189d1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f1fc9ca63c663059f76c2af6729189d1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f211ed45608192b0763ed51c85b60811.jpg b/Sklearn/sklearn-doc-zh/master/img/f211ed45608192b0763ed51c85b60811.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f211ed45608192b0763ed51c85b60811.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f211ed45608192b0763ed51c85b60811.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f28436a66fb892c9e8923e6649f19065.jpg b/Sklearn/sklearn-doc-zh/master/img/f28436a66fb892c9e8923e6649f19065.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f28436a66fb892c9e8923e6649f19065.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f28436a66fb892c9e8923e6649f19065.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f298c2b42dd32bed6f02df3c6d4f7cf9.jpg b/Sklearn/sklearn-doc-zh/master/img/f298c2b42dd32bed6f02df3c6d4f7cf9.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f298c2b42dd32bed6f02df3c6d4f7cf9.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f298c2b42dd32bed6f02df3c6d4f7cf9.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f3432e537038cc7e319db4ea1ff6a8e3.jpg b/Sklearn/sklearn-doc-zh/master/img/f3432e537038cc7e319db4ea1ff6a8e3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f3432e537038cc7e319db4ea1ff6a8e3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f3432e537038cc7e319db4ea1ff6a8e3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f34cef4cb73bfa4cbe2f9b4300a8940c.jpg b/Sklearn/sklearn-doc-zh/master/img/f34cef4cb73bfa4cbe2f9b4300a8940c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f34cef4cb73bfa4cbe2f9b4300a8940c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f34cef4cb73bfa4cbe2f9b4300a8940c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f35f174b5f70ab18c19107e3f0fbe889.jpg b/Sklearn/sklearn-doc-zh/master/img/f35f174b5f70ab18c19107e3f0fbe889.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f35f174b5f70ab18c19107e3f0fbe889.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f35f174b5f70ab18c19107e3f0fbe889.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f3893160388ee4203c313659d729cef0.jpg b/Sklearn/sklearn-doc-zh/master/img/f3893160388ee4203c313659d729cef0.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f3893160388ee4203c313659d729cef0.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f3893160388ee4203c313659d729cef0.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f38f84b73c7da2884c38bdfca1a38b1c.jpg b/Sklearn/sklearn-doc-zh/master/img/f38f84b73c7da2884c38bdfca1a38b1c.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f38f84b73c7da2884c38bdfca1a38b1c.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f38f84b73c7da2884c38bdfca1a38b1c.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f40416aceb254b77100eb361321c1804.jpg b/Sklearn/sklearn-doc-zh/master/img/f40416aceb254b77100eb361321c1804.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f40416aceb254b77100eb361321c1804.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f40416aceb254b77100eb361321c1804.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f43793e26fc93870e33eb062060e309a.jpg b/Sklearn/sklearn-doc-zh/master/img/f43793e26fc93870e33eb062060e309a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f43793e26fc93870e33eb062060e309a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f43793e26fc93870e33eb062060e309a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f4ad81b759af5604d12ae25c4c541224.jpg b/Sklearn/sklearn-doc-zh/master/img/f4ad81b759af5604d12ae25c4c541224.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f4ad81b759af5604d12ae25c4c541224.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f4ad81b759af5604d12ae25c4c541224.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f4c7787828dd90f6b47e1677bbc806da.jpg b/Sklearn/sklearn-doc-zh/master/img/f4c7787828dd90f6b47e1677bbc806da.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f4c7787828dd90f6b47e1677bbc806da.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f4c7787828dd90f6b47e1677bbc806da.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f5291f866455b62cd6c68f419444e5cf.jpg b/Sklearn/sklearn-doc-zh/master/img/f5291f866455b62cd6c68f419444e5cf.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f5291f866455b62cd6c68f419444e5cf.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f5291f866455b62cd6c68f419444e5cf.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f60c0101ae8f649bb02ed8b24b30fd83.jpg b/Sklearn/sklearn-doc-zh/master/img/f60c0101ae8f649bb02ed8b24b30fd83.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f60c0101ae8f649bb02ed8b24b30fd83.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f60c0101ae8f649bb02ed8b24b30fd83.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f6ce0899ba52f1169500b726ee9c8a92.jpg b/Sklearn/sklearn-doc-zh/master/img/f6ce0899ba52f1169500b726ee9c8a92.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f6ce0899ba52f1169500b726ee9c8a92.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f6ce0899ba52f1169500b726ee9c8a92.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f7129cf20abc58eaa0e261335a7606a6.jpg b/Sklearn/sklearn-doc-zh/master/img/f7129cf20abc58eaa0e261335a7606a6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f7129cf20abc58eaa0e261335a7606a6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f7129cf20abc58eaa0e261335a7606a6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f72a2f9f160a11abc8568b72386776fe.jpg b/Sklearn/sklearn-doc-zh/master/img/f72a2f9f160a11abc8568b72386776fe.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f72a2f9f160a11abc8568b72386776fe.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f72a2f9f160a11abc8568b72386776fe.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f7dd5b16c1d8c3e278e9a1fa7f49dcd2.jpg b/Sklearn/sklearn-doc-zh/master/img/f7dd5b16c1d8c3e278e9a1fa7f49dcd2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f7dd5b16c1d8c3e278e9a1fa7f49dcd2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f7dd5b16c1d8c3e278e9a1fa7f49dcd2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f7ee2b868860148ea59bc617d8ba7bb1.jpg b/Sklearn/sklearn-doc-zh/master/img/f7ee2b868860148ea59bc617d8ba7bb1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f7ee2b868860148ea59bc617d8ba7bb1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f7ee2b868860148ea59bc617d8ba7bb1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f7f0b321634c8d80ceacdc75ee3c68b6.jpg b/Sklearn/sklearn-doc-zh/master/img/f7f0b321634c8d80ceacdc75ee3c68b6.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f7f0b321634c8d80ceacdc75ee3c68b6.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f7f0b321634c8d80ceacdc75ee3c68b6.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f8d66dde73704b8821db5322592a0cc2.jpg b/Sklearn/sklearn-doc-zh/master/img/f8d66dde73704b8821db5322592a0cc2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f8d66dde73704b8821db5322592a0cc2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f8d66dde73704b8821db5322592a0cc2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f8e0c6c9a82bcbf369e2d0b7fc7aba8d.jpg b/Sklearn/sklearn-doc-zh/master/img/f8e0c6c9a82bcbf369e2d0b7fc7aba8d.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f8e0c6c9a82bcbf369e2d0b7fc7aba8d.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f8e0c6c9a82bcbf369e2d0b7fc7aba8d.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f8f807bd22e1f9f3c4271c78c8cb33fa.jpg b/Sklearn/sklearn-doc-zh/master/img/f8f807bd22e1f9f3c4271c78c8cb33fa.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f8f807bd22e1f9f3c4271c78c8cb33fa.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f8f807bd22e1f9f3c4271c78c8cb33fa.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f92e6fadff74949dcf9c70e40d1a7619.jpg b/Sklearn/sklearn-doc-zh/master/img/f92e6fadff74949dcf9c70e40d1a7619.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f92e6fadff74949dcf9c70e40d1a7619.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f92e6fadff74949dcf9c70e40d1a7619.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f93871977da52a6d11045d57c3e18728.jpg b/Sklearn/sklearn-doc-zh/master/img/f93871977da52a6d11045d57c3e18728.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f93871977da52a6d11045d57c3e18728.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f93871977da52a6d11045d57c3e18728.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f94e86205401e8da73308b60aa64b05b.jpg b/Sklearn/sklearn-doc-zh/master/img/f94e86205401e8da73308b60aa64b05b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f94e86205401e8da73308b60aa64b05b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f94e86205401e8da73308b60aa64b05b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f996477bc9806499e6b6a1ea4d9ae8eb.jpg b/Sklearn/sklearn-doc-zh/master/img/f996477bc9806499e6b6a1ea4d9ae8eb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f996477bc9806499e6b6a1ea4d9ae8eb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f996477bc9806499e6b6a1ea4d9ae8eb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f9d2fc91f381e1772999a738d3c8c32b.jpg b/Sklearn/sklearn-doc-zh/master/img/f9d2fc91f381e1772999a738d3c8c32b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f9d2fc91f381e1772999a738d3c8c32b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f9d2fc91f381e1772999a738d3c8c32b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/f9e7fc3940e2875bf542aeda657d0718.jpg b/Sklearn/sklearn-doc-zh/master/img/f9e7fc3940e2875bf542aeda657d0718.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/f9e7fc3940e2875bf542aeda657d0718.jpg
rename to Sklearn/sklearn-doc-zh/master/img/f9e7fc3940e2875bf542aeda657d0718.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fa1895bee67b8c643cbaab1e8da8620f.jpg b/Sklearn/sklearn-doc-zh/master/img/fa1895bee67b8c643cbaab1e8da8620f.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fa1895bee67b8c643cbaab1e8da8620f.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fa1895bee67b8c643cbaab1e8da8620f.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fa48fa696e5242bb078fb786e6dc24c3.jpg b/Sklearn/sklearn-doc-zh/master/img/fa48fa696e5242bb078fb786e6dc24c3.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fa48fa696e5242bb078fb786e6dc24c3.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fa48fa696e5242bb078fb786e6dc24c3.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fae30a190cd9e5f5d06f534d956df5f5.jpg b/Sklearn/sklearn-doc-zh/master/img/fae30a190cd9e5f5d06f534d956df5f5.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fae30a190cd9e5f5d06f534d956df5f5.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fae30a190cd9e5f5d06f534d956df5f5.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fb8da9a6dd6e45015b629002d748d9b1.jpg b/Sklearn/sklearn-doc-zh/master/img/fb8da9a6dd6e45015b629002d748d9b1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fb8da9a6dd6e45015b629002d748d9b1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fb8da9a6dd6e45015b629002d748d9b1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fb9cbfd2ff15ac51a36902f0a6037c28.jpg b/Sklearn/sklearn-doc-zh/master/img/fb9cbfd2ff15ac51a36902f0a6037c28.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fb9cbfd2ff15ac51a36902f0a6037c28.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fb9cbfd2ff15ac51a36902f0a6037c28.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fc080793a40b71dc553fe8966ad7516a.jpg b/Sklearn/sklearn-doc-zh/master/img/fc080793a40b71dc553fe8966ad7516a.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fc080793a40b71dc553fe8966ad7516a.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fc080793a40b71dc553fe8966ad7516a.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fc333385a9012524b39bc23303de30d4.jpg b/Sklearn/sklearn-doc-zh/master/img/fc333385a9012524b39bc23303de30d4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fc333385a9012524b39bc23303de30d4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fc333385a9012524b39bc23303de30d4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fcf31635bf1c46833111df71ab92b68e.jpg b/Sklearn/sklearn-doc-zh/master/img/fcf31635bf1c46833111df71ab92b68e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fcf31635bf1c46833111df71ab92b68e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fcf31635bf1c46833111df71ab92b68e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fd132d0faf19fdc76254a6317ed1acfd.jpg b/Sklearn/sklearn-doc-zh/master/img/fd132d0faf19fdc76254a6317ed1acfd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fd132d0faf19fdc76254a6317ed1acfd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fd132d0faf19fdc76254a6317ed1acfd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fd132d0faf19fdc76254a6317ed1acfd.png b/Sklearn/sklearn-doc-zh/master/img/fd132d0faf19fdc76254a6317ed1acfd.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fd132d0faf19fdc76254a6317ed1acfd.png
rename to Sklearn/sklearn-doc-zh/master/img/fd132d0faf19fdc76254a6317ed1acfd.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fd6f65ce4fb7491d7628d1ce576c19d4.jpg b/Sklearn/sklearn-doc-zh/master/img/fd6f65ce4fb7491d7628d1ce576c19d4.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fd6f65ce4fb7491d7628d1ce576c19d4.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fd6f65ce4fb7491d7628d1ce576c19d4.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fd785ede0569b8be0bea11bc8eecd583.jpg b/Sklearn/sklearn-doc-zh/master/img/fd785ede0569b8be0bea11bc8eecd583.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fd785ede0569b8be0bea11bc8eecd583.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fd785ede0569b8be0bea11bc8eecd583.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fde3a2898bfc0ce1823058fe7b706b9e.jpg b/Sklearn/sklearn-doc-zh/master/img/fde3a2898bfc0ce1823058fe7b706b9e.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fde3a2898bfc0ce1823058fe7b706b9e.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fde3a2898bfc0ce1823058fe7b706b9e.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fdff527ccbac4fd87c2ca9c4bed5fce2.jpg b/Sklearn/sklearn-doc-zh/master/img/fdff527ccbac4fd87c2ca9c4bed5fce2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fdff527ccbac4fd87c2ca9c4bed5fce2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fdff527ccbac4fd87c2ca9c4bed5fce2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fe1d79339349f9b6263e123094ffce7b.jpg b/Sklearn/sklearn-doc-zh/master/img/fe1d79339349f9b6263e123094ffce7b.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fe1d79339349f9b6263e123094ffce7b.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fe1d79339349f9b6263e123094ffce7b.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fe5ed835e0d3407e3f2d694d8bc049a1.jpg b/Sklearn/sklearn-doc-zh/master/img/fe5ed835e0d3407e3f2d694d8bc049a1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fe5ed835e0d3407e3f2d694d8bc049a1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fe5ed835e0d3407e3f2d694d8bc049a1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fe62193b4391c9f60e373f03623696ac.jpg b/Sklearn/sklearn-doc-zh/master/img/fe62193b4391c9f60e373f03623696ac.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fe62193b4391c9f60e373f03623696ac.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fe62193b4391c9f60e373f03623696ac.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/fe9e5bb155154914f761d6497915e9cb.jpg b/Sklearn/sklearn-doc-zh/master/img/fe9e5bb155154914f761d6497915e9cb.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/fe9e5bb155154914f761d6497915e9cb.jpg
rename to Sklearn/sklearn-doc-zh/master/img/fe9e5bb155154914f761d6497915e9cb.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ff5428ca3c50ed06f5162ad194377188.jpg b/Sklearn/sklearn-doc-zh/master/img/ff5428ca3c50ed06f5162ad194377188.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ff5428ca3c50ed06f5162ad194377188.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ff5428ca3c50ed06f5162ad194377188.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ff5e98366afa13070d3b410c55a80db1.jpg b/Sklearn/sklearn-doc-zh/master/img/ff5e98366afa13070d3b410c55a80db1.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ff5e98366afa13070d3b410c55a80db1.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ff5e98366afa13070d3b410c55a80db1.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ffecfca02992b6a85e966c9440cb40dd.jpg b/Sklearn/sklearn-doc-zh/master/img/ffecfca02992b6a85e966c9440cb40dd.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ffecfca02992b6a85e966c9440cb40dd.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ffecfca02992b6a85e966c9440cb40dd.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/ffecfca02992b6a85e966c9440cb40dd2.jpg b/Sklearn/sklearn-doc-zh/master/img/ffecfca02992b6a85e966c9440cb40dd2.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/ffecfca02992b6a85e966c9440cb40dd2.jpg
rename to Sklearn/sklearn-doc-zh/master/img/ffecfca02992b6a85e966c9440cb40dd2.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/grid_search_cross_validation.png b/Sklearn/sklearn-doc-zh/master/img/grid_search_cross_validation.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/grid_search_cross_validation.png
rename to Sklearn/sklearn-doc-zh/master/img/grid_search_cross_validation.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/grid_search_workflow.png b/Sklearn/sklearn-doc-zh/master/img/grid_search_workflow.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/grid_search_workflow.png
rename to Sklearn/sklearn-doc-zh/master/img/grid_search_workflow.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/iris.jpg b/Sklearn/sklearn-doc-zh/master/img/iris.jpg
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/iris.jpg
rename to Sklearn/sklearn-doc-zh/master/img/iris.jpg
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/knn01.png b/Sklearn/sklearn-doc-zh/master/img/knn01.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/knn01.png
rename to Sklearn/sklearn-doc-zh/master/img/knn01.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/knn02.png b/Sklearn/sklearn-doc-zh/master/img/knn02.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/knn02.png
rename to Sklearn/sklearn-doc-zh/master/img/knn02.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/knn03.png b/Sklearn/sklearn-doc-zh/master/img/knn03.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/knn03.png
rename to Sklearn/sklearn-doc-zh/master/img/knn03.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/knn04.png b/Sklearn/sklearn-doc-zh/master/img/knn04.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/knn04.png
rename to Sklearn/sklearn-doc-zh/master/img/knn04.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/knn05.png b/Sklearn/sklearn-doc-zh/master/img/knn05.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/knn05.png
rename to Sklearn/sklearn-doc-zh/master/img/knn05.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/preprocessing001.png b/Sklearn/sklearn-doc-zh/master/img/preprocessing001.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/preprocessing001.png
rename to Sklearn/sklearn-doc-zh/master/img/preprocessing001.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/preprocessing002.png b/Sklearn/sklearn-doc-zh/master/img/preprocessing002.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/preprocessing002.png
rename to Sklearn/sklearn-doc-zh/master/img/preprocessing002.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/projection001.png b/Sklearn/sklearn-doc-zh/master/img/projection001.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/projection001.png
rename to Sklearn/sklearn-doc-zh/master/img/projection001.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/projection002.png b/Sklearn/sklearn-doc-zh/master/img/projection002.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/projection002.png
rename to Sklearn/sklearn-doc-zh/master/img/projection002.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score001.png b/Sklearn/sklearn-doc-zh/master/img/score001.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score001.png
rename to Sklearn/sklearn-doc-zh/master/img/score001.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score002.png b/Sklearn/sklearn-doc-zh/master/img/score002.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score002.png
rename to Sklearn/sklearn-doc-zh/master/img/score002.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score003.png b/Sklearn/sklearn-doc-zh/master/img/score003.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score003.png
rename to Sklearn/sklearn-doc-zh/master/img/score003.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score004.png b/Sklearn/sklearn-doc-zh/master/img/score004.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score004.png
rename to Sklearn/sklearn-doc-zh/master/img/score004.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score005.png b/Sklearn/sklearn-doc-zh/master/img/score005.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score005.png
rename to Sklearn/sklearn-doc-zh/master/img/score005.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score006.png b/Sklearn/sklearn-doc-zh/master/img/score006.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score006.png
rename to Sklearn/sklearn-doc-zh/master/img/score006.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score007.png b/Sklearn/sklearn-doc-zh/master/img/score007.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score007.png
rename to Sklearn/sklearn-doc-zh/master/img/score007.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score008.png b/Sklearn/sklearn-doc-zh/master/img/score008.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score008.png
rename to Sklearn/sklearn-doc-zh/master/img/score008.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/score009.png b/Sklearn/sklearn-doc-zh/master/img/score009.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/score009.png
rename to Sklearn/sklearn-doc-zh/master/img/score009.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0021.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0021.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0021.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0021.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0031.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0031.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0031.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0031.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0041.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0041.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0041.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_agglomerative_clustering_0041.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_anomaly_comparison_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_anomaly_comparison_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_anomaly_comparison_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_anomaly_comparison_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_coin_ward_segmentation_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_coin_ward_segmentation_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_coin_ward_segmentation_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_coin_ward_segmentation_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0041.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0041.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0041.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0041.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0051.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0051.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0051.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0051.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0061.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0061.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0061.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0061.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0071.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0071.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0071.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0071.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0081.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0081.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0081.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0081.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0091.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0091.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0091.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_cv_indices_0091.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0111.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0111.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0111.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0111.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0121.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0121.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0121.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0121.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0131.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0131.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0131.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0131.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0141.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0141.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0141.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_faces_decomposition_0141.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lda_qda_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lda_qda_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lda_qda_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lda_qda_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_linkage_comparison_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_linkage_comparison_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_linkage_comparison_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_linkage_comparison_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lof_novelty_detection_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lof_novelty_detection_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lof_novelty_detection_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lof_novelty_detection_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lof_outlier_detection_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lof_outlier_detection_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lof_outlier_detection_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_lof_outlier_detection_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_map_data_to_normal_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_map_data_to_normal_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_map_data_to_normal_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_map_data_to_normal_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_mlp_alpha_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_mlp_alpha_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_mlp_alpha_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_mlp_alpha_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_multioutput_face_completion_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_multioutput_face_completion_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_multioutput_face_completion_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_multioutput_face_completion_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_classification_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_classification_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_classification_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_classification_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_classification_0021.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_classification_0021.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_classification_0021.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_classification_0021.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0021.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0021.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0021.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0021.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0031.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0031.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0031.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_nca_dim_reduction_0031.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_optics_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_optics_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_optics_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_optics_0011.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_partial_dependence_0021.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_partial_dependence_0021.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_partial_dependence_0021.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_partial_dependence_0021.png
diff --git a/Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_voting_regressor_0011.png b/Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_voting_regressor_0011.png
similarity index 100%
rename from Python/sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_voting_regressor_0011.png
rename to Sklearn/sklearn-doc-zh/master/img/sphx_glr_plot_voting_regressor_0011.png
diff --git a/Tensorflow教程/TensorFlow-Code Framework.md b/Tensorflow/TensorFlow1.0/TensorFlow-Code Framework.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-Code Framework.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-Code Framework.md
diff --git a/Tensorflow教程/TensorFlow-Dateset.md b/Tensorflow/TensorFlow1.0/TensorFlow-Dateset.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-Dateset.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-Dateset.md
diff --git a/Tensorflow教程/TensorFlow-IO.md b/Tensorflow/TensorFlow1.0/TensorFlow-IO.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-IO.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-IO.md
diff --git a/Tensorflow教程/TensorFlow-OP（控制）.md b/Tensorflow/TensorFlow1.0/TensorFlow-OP（控制）.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-OP（控制）.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-OP（控制）.md
diff --git a/Tensorflow教程/TensorFlow-OP（计算）.md b/Tensorflow/TensorFlow1.0/TensorFlow-OP（计算）.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-OP（计算）.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-OP（计算）.md
diff --git a/Tensorflow教程/TensorFlow-Optimizer.md b/Tensorflow/TensorFlow1.0/TensorFlow-Optimizer.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-Optimizer.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-Optimizer.md
diff --git a/Tensorflow教程/TensorFlow-Queue & Thread.md b/Tensorflow/TensorFlow1.0/TensorFlow-Queue & Thread.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-Queue & Thread.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-Queue & Thread.md
diff --git a/Tensorflow教程/TensorFlow-Summary&Tensorboard.md b/Tensorflow/TensorFlow1.0/TensorFlow-Summary&Tensorboard.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-Summary&Tensorboard.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-Summary&Tensorboard.md
diff --git a/Tensorflow教程/TensorFlow-Variable &Constant & Random.md b/Tensorflow/TensorFlow1.0/TensorFlow-Variable &Constant & Random.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-Variable &Constant & Random.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-Variable &Constant & Random.md
diff --git a/Tensorflow教程/TensorFlow-code Bazel.md b/Tensorflow/TensorFlow1.0/TensorFlow-code Bazel.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-code Bazel.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-code Bazel.md
diff --git a/Tensorflow教程/TensorFlow-code IO.md b/Tensorflow/TensorFlow1.0/TensorFlow-code IO.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-code IO.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-code IO.md
diff --git a/Tensorflow教程/TensorFlow-code Swig.md b/Tensorflow/TensorFlow1.0/TensorFlow-code Swig.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-code Swig.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-code Swig.md
diff --git a/Tensorflow教程/TensorFlow-code architecture.md b/Tensorflow/TensorFlow1.0/TensorFlow-code architecture.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-code architecture.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-code architecture.md
diff --git a/Tensorflow教程/TensorFlow-code kernels.md b/Tensorflow/TensorFlow1.0/TensorFlow-code kernels.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-code kernels.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-code kernels.md
diff --git a/Tensorflow教程/TensorFlow-自定义IO.md b/Tensorflow/TensorFlow1.0/TensorFlow-自定义IO.md
similarity index 100%
rename from Tensorflow教程/TensorFlow-自定义IO.md
rename to Tensorflow/TensorFlow1.0/TensorFlow-自定义IO.md
diff --git a/Tensorflow教程/TensorFlow概述.md b/Tensorflow/TensorFlow1.0/TensorFlow概述.md
similarity index 100%
rename from Tensorflow教程/TensorFlow概述.md
rename to Tensorflow/TensorFlow1.0/TensorFlow概述.md
diff --git a/Tensorflow教程/tensorflow安装常见问题.md b/Tensorflow/TensorFlow1.0/tensorflow安装常见问题.md
similarity index 100%
rename from Tensorflow教程/tensorflow安装常见问题.md
rename to Tensorflow/TensorFlow1.0/tensorflow安装常见问题.md
diff --git a/Tensorflow教程/编译失败记录.md b/Tensorflow/TensorFlow1.0/编译失败记录.md
similarity index 100%
rename from Tensorflow教程/编译失败记录.md
rename to Tensorflow/TensorFlow1.0/编译失败记录.md
diff --git a/Tensorflow教程/说明.md b/Tensorflow/TensorFlow1.0/说明.md
similarity index 100%
rename from Tensorflow教程/说明.md
rename to Tensorflow/TensorFlow1.0/说明.md
diff --git a/Tensorflow/TensorFlow2.0/002.md b/Tensorflow/TensorFlow2.0/002.md
new file mode 100644
index 00000000..194ca390
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/002.md
@@ -0,0 +1,69 @@
+# 初学者的 TensorFlow 2.0 教程
+
+> 原文：[https://tensorflow.google.cn/tutorials/quickstart/beginner](https://tensorflow.google.cn/tutorials/quickstart/beginner)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+这是一个 [Google Colaboratory](https://colab.research.google.com/notebooks/welcome.ipynb) 笔记本文件。 Python 程序可以直接在浏览器中运行，这是学习 Tensorflow 的绝佳方式。想要学习该教程，请点击此页面顶部的按钮，在 Google Colab 中运行笔记本。
+
+1.  在 Colab 中, 连接到 Python 运行环境： 在菜单条的右上方, 选择 *CONNECT*。
+2.  运行所有的代码块: 选择 *Runtime* > *Run all*。
+
+下载并安装 TensorFlow 2.0 测试版包。将 TensorFlow 载入你的程序：
+
+```py
+# 安装 TensorFlow
+
+import tensorflow as tf 
+```
+
+载入并准备好 [MNIST 数据集](http://yann.lecun.com/exdb/mnist/)。将样本从整数转换为浮点数：
+
+```py
+mnist = tf.keras.datasets.mnist
+
+(x_train, y_train), (x_test, y_test) = mnist.load_data()
+x_train, x_test = x_train / 255.0, x_test / 255.0 
+```
+
+将模型的各层堆叠起来，以搭建 [`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) 模型。为训练选择优化器和损失函数：
+
+```py
+model = tf.keras.models.Sequential([
+  tf.keras.layers.Flatten(input_shape=(28, 28)),
+  tf.keras.layers.Dense(128, activation='relu'),
+  tf.keras.layers.Dropout(0.2),
+  tf.keras.layers.Dense(10, activation='softmax')
+])
+
+model.compile(optimizer='adam',
+              loss='sparse_categorical_crossentropy',
+              metrics=['accuracy']) 
+```
+
+训练并验证模型：
+
+```py
+model.fit(x_train, y_train, epochs=5)
+
+model.evaluate(x_test,  y_test, verbose=2) 
+```
+
+```py
+Epoch 1/5
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.2962 - accuracy: 0.9155
+Epoch 2/5
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.1420 - accuracy: 0.9581
+Epoch 3/5
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.1064 - accuracy: 0.9672
+Epoch 4/5
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0885 - accuracy: 0.9730
+Epoch 5/5
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0749 - accuracy: 0.9765
+313/313 - 0s - loss: 0.0748 - accuracy: 0.9778
+
+[0.07484959065914154, 0.9778000116348267]
+
+```
+
+现在，这个照片分类器的准确度已经达到 98%。想要了解更多，请阅读 [TensorFlow 教程](https://tensorflow.google.cn/tutorials/)。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/003.md b/Tensorflow/TensorFlow2.0/003.md
new file mode 100644
index 00000000..d52949a4
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/003.md
@@ -0,0 +1,148 @@
+# 针对专业人员的 TensorFlow 2.0 入门
+
+> 原文：[https://tensorflow.google.cn/tutorials/quickstart/advanced](https://tensorflow.google.cn/tutorials/quickstart/advanced)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+这是一个 [Google Colaboratory](https://colab.research.google.com/notebooks/welcome.ipynb) 笔记本（notebook）文件。Python 程序直接在浏览器中运行——这是一种学习和使用 Tensorflow 的好方法。要学习本教程，请单击本页顶部按钮,在 Google Colab 中运行笔记本（notebook）.
+
+1.  在 Colab 中，连接到 Python 运行时：在菜单栏右上角，选择*连接（CONNECT）*。
+2.  运行所有笔记本（notebook）代码单元格：选择*运行时（Runtime）* > *运行所有（Run all）*。
+
+下载并安装 TensorFlow 2.0 Beta 软件包：
+
+将 Tensorflow 导入您的程序：
+
+```py
+import tensorflow as tf
+
+from tensorflow.keras.layers import Dense, Flatten, Conv2D
+from tensorflow.keras import Model 
+```
+
+加载并准备 [MNIST 数据集](http://yann.lecun.com/exdb/mnist/)。
+
+```py
+mnist = tf.keras.datasets.mnist
+
+(x_train, y_train), (x_test, y_test) = mnist.load_data()
+x_train, x_test = x_train / 255.0, x_test / 255.0
+
+# Add a channels dimension
+x_train = x_train[..., tf.newaxis]
+x_test = x_test[..., tf.newaxis] 
+```
+
+使用 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 来将数据集切分为 batch 以及混淆数据集：
+
+```py
+train_ds = tf.data.Dataset.from_tensor_slices(
+    (x_train, y_train)).shuffle(10000).batch(32)
+test_ds = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32) 
+```
+
+使用 Keras [模型子类化（model subclassing） API](https://tensorflow.google.cn/guide/keras#model_subclassing) 构建 [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) 模型：
+
+```py
+class MyModel(Model):
+  def __init__(self):
+    super(MyModel, self).__init__()
+    self.conv1 = Conv2D(32, 3, activation='relu')
+    self.flatten = Flatten()
+    self.d1 = Dense(128, activation='relu')
+    self.d2 = Dense(10, activation='softmax')
+
+  def call(self, x):
+    x = self.conv1(x)
+    x = self.flatten(x)
+    x = self.d1(x)
+    return self.d2(x)
+
+model = MyModel() 
+```
+
+为训练选择优化器与损失函数：
+
+```py
+loss_object = tf.keras.losses.SparseCategoricalCrossentropy()
+
+optimizer = tf.keras.optimizers.Adam() 
+```
+
+选择衡量指标来度量模型的损失值（loss）和准确率（accuracy）。这些指标在 epoch 上累积值，然后打印出整体结果。
+
+```py
+train_loss = tf.keras.metrics.Mean(name='train_loss')
+train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(name='train_accuracy')
+
+test_loss = tf.keras.metrics.Mean(name='test_loss')
+test_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(name='test_accuracy') 
+```
+
+使用 [`tf.GradientTape`](https://tensorflow.google.cn/api_docs/python/tf/GradientTape) 来训练模型：
+
+```py
+@tf.function
+def train_step(images, labels):
+  with tf.GradientTape() as tape:
+    predictions = model(images)
+    loss = loss_object(labels, predictions)
+  gradients = tape.gradient(loss, model.trainable_variables)
+  optimizer.apply_gradients(zip(gradients, model.trainable_variables))
+
+  train_loss(loss)
+  train_accuracy(labels, predictions) 
+```
+
+测试模型：
+
+```py
+@tf.function
+def test_step(images, labels):
+  predictions = model(images)
+  t_loss = loss_object(labels, predictions)
+
+  test_loss(t_loss)
+  test_accuracy(labels, predictions) 
+```
+
+```py
+EPOCHS = 5
+
+for epoch in range(EPOCHS):
+  # 在下一个 epoch 开始时，重置评估指标
+  train_loss.reset_states()
+  train_accuracy.reset_states()
+  test_loss.reset_states()
+  test_accuracy.reset_states()
+
+  for images, labels in train_ds:
+    train_step(images, labels)
+
+  for test_images, test_labels in test_ds:
+    test_step(test_images, test_labels)
+
+  template = 'Epoch {}, Loss: {}, Accuracy: {}, Test Loss: {}, Test Accuracy: {}'
+  print (template.format(epoch+1,
+                         train_loss.result(),
+                         train_accuracy.result()*100,
+                         test_loss.result(),
+                         test_accuracy.result()*100)) 
+```
+
+```py
+WARNING:tensorflow:Layer my_model is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+Epoch 1, Loss: 0.13825324177742004, Accuracy: 95.89166259765625, Test Loss: 0.07461485266685486, Test Accuracy: 97.47999572753906
+Epoch 2, Loss: 0.04554400220513344, Accuracy: 98.61666870117188, Test Loss: 0.05126383528113365, Test Accuracy: 98.29000091552734
+Epoch 3, Loss: 0.024927066639065742, Accuracy: 99.18500518798828, Test Loss: 0.05301696062088013, Test Accuracy: 98.30999755859375
+Epoch 4, Loss: 0.014068767428398132, Accuracy: 99.52832794189453, Test Loss: 0.051672786474227905, Test Accuracy: 98.58000183105469
+Epoch 5, Loss: 0.009344187565147877, Accuracy: 99.69166564941406, Test Loss: 0.06102905049920082, Test Accuracy: 98.25
+
+```
+
+该图片分类器现在在此数据集上训练得到了接近 98% 的准确率（accuracy）。要了解更多信息，请阅读 [TensorFlow 教程](https://tensorflow.google.cn/tutorials/keras)。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/004.md b/Tensorflow/TensorFlow2.0/004.md
new file mode 100644
index 00000000..0d0b15fa
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/004.md
@@ -0,0 +1 @@
+# 初级
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/005.md b/Tensorflow/TensorFlow2.0/005.md
new file mode 100644
index 00000000..fc51e00a
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/005.md
@@ -0,0 +1 @@
+# Keras 机器学习基础知识
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/006.md b/Tensorflow/TensorFlow2.0/006.md
new file mode 100644
index 00000000..1c051ab2
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/006.md
@@ -0,0 +1,489 @@
+# 基本分类：对服装图像进行分类
+
+> 原文：[https://tensorflow.google.cn/tutorials/keras/classification](https://tensorflow.google.cn/tutorials/keras/classification)
+
+本指南将训练一个神经网络模型，对运动鞋和衬衫等服装图像进行分类。即使您不理解所有细节也没关系；这只是对完整 TensorFlow 程序的快速概述，详细内容会在您实际操作的同时进行介绍。
+
+本指南使用了 [tf.keras](https://tensorflow.google.cn/guide/keras)，它是 TensorFlow 中用来构建和训练模型的高级 API。
+
+```py
+# TensorFlow and tf.keras
+import tensorflow as tf
+from tensorflow import keras
+
+# Helper libraries
+import numpy as np
+import matplotlib.pyplot as plt
+
+print(tf.__version__) 
+```
+
+```py
+2.3.0
+
+```
+
+## 导入 Fashion MNIST 数据集
+
+本指南使用 [Fashion MNIST](https://github.com/zalandoresearch/fashion-mnist) 数据集，该数据集包含 10 个类别的 70,000 个灰度图像。这些图像以低分辨率（28x28 像素）展示了单件衣物，如下所示：
+
+| ![Fashion MNIST sprite](img/8a26efaab988f8c9054ea977baabb45a.png) |
+| **图 1.** [Fashion-MNIST 样本](https://github.com/zalandoresearch/fashion-mnist)（由 Zalando 提供，MIT 许可）。
+ |
+
+Fashion MNIST 旨在临时替代经典 [MNIST](http://yann.lecun.com/exdb/mnist/) 数据集，后者常被用作计算机视觉机器学习程序的“Hello, World”。MNIST 数据集包含手写数字（0、1、2 等）的图像，其格式与您将使用的衣物图像的格式相同。
+
+本指南使用 Fashion MNIST 来实现多样化，因为它比常规 MNIST 更具挑战性。这两个数据集都相对较小，都用于验证某个算法是否按预期工作。对于代码的测试和调试，它们都是很好的起点。
+
+在本指南中，我们使用 60,000 个图像来训练网络，使用 10,000 个图像来评估网络学习对图像分类的准确率。您可以直接从 TensorFlow 访问 Fashion MNIST。请运行以下代码，直接从 TensorFlow 中导入和加载 Fashion MNIST 数据：
+
+```py
+fashion_mnist = keras.datasets.fashion_mnist
+
+(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data() 
+```
+
+加载数据集会返回四个 NumPy 数组：
+
+*   `train_images` 和 `train_labels` 数组是*训练集*，即模型用于学习的数据。
+*   *测试集*、`test_images` 和 `test_labels` 数组会被用来对模型进行测试。
+
+图像是 28x28 的 NumPy 数组，像素值介于 0 到 255 之间。*标签*是整数数组，介于 0 到 9 之间。这些标签对应于图像所代表的服装*类*：
+
+| 标签 | 类 |
+| 0 | T 恤/上衣 |
+| 1 | 裤子 |
+| 2 | 套头衫 |
+| 3 | 连衣裙 |
+| 4 | 外套 |
+| 5 | 凉鞋 |
+| 6 | 衬衫 |
+| 7 | 运动鞋 |
+| 8 | 包 |
+| 9 | 短靴 |
+
+每个图像都会被映射到一个标签。由于数据集不包括*类名称*，请将它们存储在下方，供稍后绘制图像时使用：
+
+```py
+class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
+               'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot'] 
+```
+
+## 浏览数据
+
+在训练模型之前，我们先浏览一下数据集的格式。以下代码显示训练集中有 60,000 个图像，每个图像由 28 x 28 的像素表示：
+
+```py
+train_images.shape 
+```
+
+```py
+(60000, 28, 28)
+
+```
+
+同样，训练集中有 60,000 个标签：
+
+```py
+len(train_labels) 
+```
+
+```py
+60000
+
+```
+
+每个标签都是一个 0 到 9 之间的整数：
+
+```py
+train_labels 
+```
+
+```py
+array([9, 0, 0, ..., 3, 0, 5], dtype=uint8)
+
+```
+
+测试集中有 10,000 个图像。同样，每个图像都由 28x28 个像素表示：
+
+```py
+test_images.shape 
+```
+
+```py
+(10000, 28, 28)
+
+```
+
+测试集包含 10,000 个图像标签：
+
+```py
+len(test_labels) 
+```
+
+```py
+10000
+
+```
+
+## 预处理数据
+
+在训练网络之前，必须对数据进行预处理。如果您检查训练集中的第一个图像，您会看到像素值处于 0 到 255 之间：
+
+```py
+plt.figure()
+plt.imshow(train_images[0])
+plt.colorbar()
+plt.grid(False)
+plt.show() 
+```
+
+![png](img/07fde30d678eaceba2bf9695ee89c403.png)
+
+将这些值缩小至 0 到 1 之间，然后将其馈送到神经网络模型。为此，请将这些值除以 255。请务必以相同的方式对*训练集*和*测试集*进行预处理：
+
+```py
+train_images = train_images / 255.0
+
+test_images = test_images / 255.0 
+```
+
+为了验证数据的格式是否正确，以及您是否已准备好构建和训练网络，让我们显示*训练集*中的前 25 个图像，并在每个图像下方显示类名称。
+
+```py
+plt.figure(figsize=(10,10))
+for i in range(25):
+    plt.subplot(5,5,i+1)
+    plt.xticks([])
+    plt.yticks([])
+    plt.grid(False)
+    plt.imshow(train_images[i], cmap=plt.cm.binary)
+    plt.xlabel(class_names[train_labels[i]])
+plt.show() 
+```
+
+![png](img/0fc5058e71e5828192048ef6a6b9a595.png)
+
+## 构建模型
+
+构建神经网络需要先配置模型的层，然后再编译模型。
+
+### 设置层
+
+神经网络的基本组成部分是*层*。层会从向其馈送的数据中提取表示形式。希望这些表示形式有助于解决手头上的问题。
+
+大多数深度学习都包括将简单的层链接在一起。大多数层（如 [`tf.keras.layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense)）都具有在训练期间才会学习的参数。
+
+```py
+model = keras.Sequential([
+    keras.layers.Flatten(input_shape=(28, 28)),
+    keras.layers.Dense(128, activation='relu'),
+    keras.layers.Dense(10)
+]) 
+```
+
+该网络的第一层 [`tf.keras.layers.Flatten`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Flatten) 将图像格式从二维数组（28 x 28 像素）转换成一维数组（28 x 28 = 784 像素）。将该层视为图像中未堆叠的像素行并将其排列起来。该层没有要学习的参数，它只会重新格式化数据。
+
+展平像素后，网络会包括两个 [`tf.keras.layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) 层的序列。它们是密集连接或全连接神经层。第一个 `Dense` 层有 128 个节点（或神经元）。第二个（也是最后一个）层会返回一个长度为 10 的 logits 数组。每个节点都包含一个得分，用来表示当前图像属于 10 个类中的哪一类。
+
+### 编译模型
+
+在准备对模型进行训练之前，还需要再对其进行一些设置。以下内容是在模型的*编译*步骤中添加的：
+
+*   *损失函数* - 用于测量模型在训练期间的准确率。您会希望最小化此函数，以便将模型“引导”到正确的方向上。
+*   *优化器* - 决定模型如何根据其看到的数据和自身的损失函数进行更新。
+*   *指标* - 用于监控训练和测试步骤。以下示例使用了*准确率*，即被正确分类的图像的比率。
+
+```py
+model.compile(optimizer='adam',
+              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+              metrics=['accuracy']) 
+```
+
+## 训练模型
+
+训练神经网络模型需要执行以下步骤：
+
+1.  将训练数据馈送给模型。在本例中，训练数据位于 `train_images` 和 `train_labels` 数组中。
+2.  模型学习将图像和标签关联起来。
+3.  要求模型对测试集（在本例中为 `test_images` 数组）进行预测。
+4.  验证预测是否与 `test_labels` 数组中的标签相匹配。
+
+### 向模型馈送数据
+
+要开始训练，请调用 `model.fit` 方法，这样命名是因为该方法会将模型与训练数据进行“拟合”：
+
+```py
+model.fit(train_images, train_labels, epochs=10) 
+```
+
+```py
+Epoch 1/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.4924 - accuracy: 0.8265
+Epoch 2/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.3698 - accuracy: 0.8669
+Epoch 3/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.3340 - accuracy: 0.8781
+Epoch 4/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.3110 - accuracy: 0.8863
+Epoch 5/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.2924 - accuracy: 0.8936
+Epoch 6/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.2776 - accuracy: 0.8972
+Epoch 7/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.2659 - accuracy: 0.9021
+Epoch 8/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.2543 - accuracy: 0.9052
+Epoch 9/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.2453 - accuracy: 0.9084
+Epoch 10/10
+1875/1875 [==============================] - 3s 1ms/step - loss: 0.2366 - accuracy: 0.9122
+
+<tensorflow.python.keras.callbacks.History at 0x7fc85fa4f2e8>
+
+```
+
+在模型训练期间，会显示损失和准确率指标。此模型在训练数据上的准确率达到了 0.91（或 91%）左右。
+
+### 评估准确率
+
+接下来，比较模型在测试数据集上的表现：
+
+```py
+test_loss, test_acc = model.evaluate(test_images,  test_labels, verbose=2)
+
+print('\nTest accuracy:', test_acc) 
+```
+
+```py
+313/313 - 0s - loss: 0.3726 - accuracy: 0.8635
+
+Test accuracy: 0.8634999990463257
+
+```
+
+结果表明，模型在测试数据集上的准确率略低于训练数据集。训练准确率和测试准确率之间的差距代表*过拟合*。过拟合是指机器学习模型在新的、以前未曾见过的输入上的表现不如在训练数据上的表现。过拟合的模型会“记住”训练数据集中的噪声和细节，从而对模型在新数据上的表现产生负面影响。有关更多信息，请参阅以下内容：
+
+*   [演示过拟合](https://tensorflow.google.cn/tutorials/keras/overfit_and_underfit#demonstrate_overfitting)
+*   [避免过拟合的策略](https://tensorflow.google.cn/tutorials/keras/overfit_and_underfit#strategies_to_prevent_overfitting)
+
+### 进行预测
+
+在模型经过训练后，您可以使用它对一些图像进行预测。模型具有线性输出，即 [logits](https://developers.google.cn/machine-learning/glossary#logits)。您可以附加一个 softmax 层，将 logits 转换成更容易理解的概率。
+
+```py
+probability_model = tf.keras.Sequential([model, 
+                                         tf.keras.layers.Softmax()]) 
+```
+
+```py
+predictions = probability_model.predict(test_images) 
+```
+
+在上例中，模型预测了测试集中每个图像的标签。我们来看看第一个预测结果：
+
+```py
+predictions[0] 
+```
+
+```py
+array([6.9982241e-07, 5.5403369e-08, 1.8353174e-07, 1.4761626e-07,
+       2.4380807e-07, 1.9273469e-04, 1.8122660e-06, 6.5027133e-02,
+       1.7891599e-06, 9.3477517e-01], dtype=float32)
+
+```
+
+预测结果是一个包含 10 个数字的数组。它们代表模型对 10 种不同服装中每种服装的“置信度”。您可以看到哪个标签的置信度值最大：
+
+```py
+np.argmax(predictions[0]) 
+```
+
+```py
+9
+
+```
+
+因此，该模型非常确信这个图像是短靴，或 `class_names[9]`。通过检查测试标签发现这个分类是正确的：
+
+```py
+test_labels[0] 
+```
+
+```py
+9
+
+```
+
+您可以将其绘制成图表，看看模型对于全部 10 个类的预测。
+
+```py
+def plot_image(i, predictions_array, true_label, img):
+  predictions_array, true_label, img = predictions_array, true_label[i], img[i]
+  plt.grid(False)
+  plt.xticks([])
+  plt.yticks([])
+
+  plt.imshow(img, cmap=plt.cm.binary)
+
+  predicted_label = np.argmax(predictions_array)
+  if predicted_label == true_label:
+    color = 'blue'
+  else:
+    color = 'red'
+
+  plt.xlabel("{} {:2.0f}% ({})".format(class_names[predicted_label],
+                                100*np.max(predictions_array),
+                                class_names[true_label]),
+                                color=color)
+
+def plot_value_array(i, predictions_array, true_label):
+  predictions_array, true_label = predictions_array, true_label[i]
+  plt.grid(False)
+  plt.xticks(range(10))
+  plt.yticks([])
+  thisplot = plt.bar(range(10), predictions_array, color="#777777")
+  plt.ylim([0, 1])
+  predicted_label = np.argmax(predictions_array)
+
+  thisplot[predicted_label].set_color('red')
+  thisplot[true_label].set_color('blue') 
+```
+
+### 验证预测结果
+
+在模型经过训练后，您可以使用它对一些图像进行预测。
+
+我们来看看第 0 个图像、预测结果和预测数组。正确的预测标签为蓝色，错误的预测标签为红色。数字表示预测标签的百分比（总计为 100）。
+
+```py
+i = 0
+plt.figure(figsize=(6,3))
+plt.subplot(1,2,1)
+plot_image(i, predictions[i], test_labels, test_images)
+plt.subplot(1,2,2)
+plot_value_array(i, predictions[i],  test_labels)
+plt.show() 
+```
+
+![png](img/55d2924ed5a33ffad4b9f727cd335194.png)
+
+```py
+i = 12
+plt.figure(figsize=(6,3))
+plt.subplot(1,2,1)
+plot_image(i, predictions[i], test_labels, test_images)
+plt.subplot(1,2,2)
+plot_value_array(i, predictions[i],  test_labels)
+plt.show() 
+```
+
+![png](img/0c7474d216a51a2b258a81a689920596.png)
+
+让我们用模型的预测绘制几张图像。请注意，即使置信度很高，模型也可能出错。
+
+```py
+# Plot the first X test images, their predicted labels, and the true labels.
+# Color correct predictions in blue and incorrect predictions in red.
+num_rows = 5
+num_cols = 3
+num_images = num_rows*num_cols
+plt.figure(figsize=(2*2*num_cols, 2*num_rows))
+for i in range(num_images):
+  plt.subplot(num_rows, 2*num_cols, 2*i+1)
+  plot_image(i, predictions[i], test_labels, test_images)
+  plt.subplot(num_rows, 2*num_cols, 2*i+2)
+  plot_value_array(i, predictions[i], test_labels)
+plt.tight_layout()
+plt.show() 
+```
+
+![png](img/8f40b70083328d6f68f1d2c5821927d1.png)
+
+## 使用训练好的模型
+
+最后，使用训练好的模型对单个图像进行预测。
+
+```py
+# Grab an image from the test dataset.
+img = test_images[1]
+
+print(img.shape) 
+```
+
+```py
+(28, 28)
+
+```
+
+[`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) 模型经过了优化，可同时对一个*批*或一组样本进行预测。因此，即便您只使用一个图像，您也需要将其添加到列表中：
+
+```py
+# Add the image to a batch where it's the only member.
+img = (np.expand_dims(img,0))
+
+print(img.shape) 
+```
+
+```py
+(1, 28, 28)
+
+```
+
+现在预测这个图像的正确标签：
+
+```py
+predictions_single = probability_model.predict(img)
+
+print(predictions_single) 
+```
+
+```py
+[[1.0675135e-05 2.4023437e-12 9.9772269e-01 1.3299730e-09 1.2968916e-03
+  8.7469149e-14 9.6970733e-04 5.4669354e-19 2.4514609e-11 1.8405429e-12]]
+
+```
+
+```py
+plot_value_array(1, predictions_single[0], test_labels)
+_ = plt.xticks(range(10), class_names, rotation=45) 
+```
+
+![png](img/35aea8e2802acf908920febe4776fbf0.png)
+
+[`keras.Model.predict`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#predict) 会返回一组列表，每个列表对应一批数据中的每个图像。在批次中获取对我们（唯一）图像的预测：
+
+```py
+np.argmax(predictions_single[0]) 
+```
+
+```py
+2
+
+```
+
+该模型会按照预期预测标签。
+
+```py
+# MIT License
+#
+# Copyright (c) 2017 François Chollet
+#
+# Permission is hereby granted, free of charge, to any person obtaining a
+# copy of this software and associated documentation files (the "Software"),
+# to deal in the Software without restriction, including without limitation
+# the rights to use, copy, modify, merge, publish, distribute, sublicense,
+# and/or sell copies of the Software, and to permit persons to whom the
+# Software is furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
+# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
+# DEALINGS IN THE SOFTWARE. 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/007.md b/Tensorflow/TensorFlow2.0/007.md
new file mode 100644
index 00000000..a40bfe89
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/007.md
@@ -0,0 +1,467 @@
+# 电影评论文本分类
+
+> 原文：[https://tensorflow.google.cn/tutorials/keras/text_classification](https://tensorflow.google.cn/tutorials/keras/text_classification)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+此笔记本（notebook）使用评论文本将影评分为*积极（positive）*或*消极（nagetive）*两类。这是一个*二元（binary）*或者二分类问题，一种重要且应用广泛的机器学习问题。
+
+我们将使用来源于[网络电影数据库（Internet Movie Database）](https://www.imdb.com/)的 [IMDB 数据集（IMDB dataset）](https://tensorflow.google.cn/api_docs/python/tf/keras/datasets/imdb)，其包含 50,000 条影评文本。从该数据集切割出的 25,000 条评论用作训练，另外 25,000 条用作测试。训练集与测试集是*平衡的（balanced）*，意味着它们包含相等数量的积极和消极评论。
+
+此笔记本（notebook）使用了 [tf.keras](https://tensorflow.google.cn/guide/keras)，它是一个 Tensorflow 中用于构建和训练模型的高级 API。有关使用 [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) 进行文本分类的更高级教程，请参阅 [MLCC 文本分类指南（MLCC Text Classification Guide）](https://developers.google.cn/machine-learning/guides/text-classification/)。
+
+```py
+import tensorflow as tf
+from tensorflow import keras
+
+import numpy as np
+
+print(tf.__version__) 
+```
+
+```py
+2.3.0
+
+```
+
+## 下载 IMDB 数据集
+
+IMDB 数据集已经打包在 Tensorflow 中。该数据集已经经过预处理，评论（单词序列）已经被转换为整数序列，其中每个整数表示字典中的特定单词。
+
+以下代码将下载 IMDB 数据集到您的机器上（如果您已经下载过将从缓存中复制）：
+
+```py
+imdb = keras.datasets.imdb
+
+(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
+17465344/17464789 [==============================] - 0s 0us/step
+
+```
+
+参数 `num_words=10000` 保留了训练数据中最常出现的 10,000 个单词。为了保持数据规模的可管理性，低频词将被丢弃。
+
+## 探索数据
+
+让我们花一点时间来了解数据格式。该数据集是经过预处理的：每个样本都是一个表示影评中词汇的整数数组。每个标签都是一个值为 0 或 1 的整数值，其中 0 代表消极评论，1 代表积极评论。
+
+```py
+print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels))) 
+```
+
+```py
+Training entries: 25000, labels: 25000
+
+```
+
+评论文本被转换为整数值，其中每个整数代表词典中的一个单词。首条评论是这样的：
+
+```py
+print(train_data[0]) 
+```
+
+```py
+[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 25, 100, 43, 838, 112, 50, 670, 2, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 2, 336, 385, 39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 18, 2, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 16, 82, 2, 8, 4, 107, 117, 5952, 15, 256, 4, 2, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 400, 317, 46, 7, 4, 2, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]
+
+```
+
+电影评论可能具有不同的长度。以下代码显示了第一条和第二条评论的中单词数量。由于神经网络的输入必须是统一的长度，我们稍后需要解决这个问题。
+
+```py
+len(train_data[0]), len(train_data[1]) 
+```
+
+```py
+(218, 189)
+
+```
+
+### 将整数转换回单词
+
+了解如何将整数转换回文本对您可能是有帮助的。这里我们将创建一个辅助函数来查询一个包含了整数到字符串映射的字典对象：
+
+```py
+# 一个映射单词到整数索引的词典
+word_index = imdb.get_word_index()
+
+# 保留第一个索引
+word_index = {k:(v+3) for k,v in word_index.items()}
+word_index["<PAD>"] = 0
+word_index["<START>"] = 1
+word_index["<UNK>"] = 2  # unknown
+word_index["<UNUSED>"] = 3
+
+reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
+
+def decode_review(text):
+    return ' '.join([reverse_word_index.get(i, '?') for i in text]) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb_word_index.json
+1646592/1641221 [==============================] - 0s 0us/step
+
+```
+
+现在我们可以使用 `decode_review` 函数来显示首条评论的文本：
+
+```py
+decode_review(train_data[0]) 
+```
+
+```py
+"<START> this film was just brilliant casting location scenery story direction everyone's really suited the part they played and you could just imagine being there robert <UNK> is an amazing actor and now the same being director <UNK> father came from the same scottish island as myself so i loved the fact there was a real connection with this film the witty remarks throughout the film were great it was just brilliant so much that i bought the film as soon as it was released for <UNK> and would recommend it to everyone to watch and the fly fishing was amazing really cried at the end it was so sad and you know what they say if you cry at a film it must have been good and this definitely was also <UNK> to the two little boy's that played the <UNK> of norman and paul they were just brilliant children are often left out of the <UNK> list i think because the stars that play them all grown up are such a big profile for the whole film but these children are amazing and should be praised for what they have done don't you think the whole story was so lovely because it was true and was someone's life after all that was shared with us all"
+
+```
+
+## 准备数据
+
+影评——即整数数组必须在输入神经网络之前转换为张量。这种转换可以通过以下两种方式来完成：
+
+*   将数组转换为表示单词出现与否的由 0 和 1 组成的向量，类似于 one-hot 编码。例如，序列[3, 5]将转换为一个 10,000 维的向量，该向量除了索引为 3 和 5 的位置是 1 以外，其他都为 0。然后，将其作为网络的首层——一个可以处理浮点型向量数据的稠密层。不过，这种方法需要大量的内存，需要一个大小为 `num_words * num_reviews` 的矩阵。
+
+*   或者，我们可以填充数组来保证输入数据具有相同的长度，然后创建一个大小为 `max_length * num_reviews` 的整型张量。我们可以使用能够处理此形状数据的嵌入层作为网络中的第一层。
+
+在本教程中，我们将使用第二种方法。
+
+由于电影评论长度必须相同，我们将使用 [pad_sequences](https://tensorflow.google.cn/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences) 函数来使长度标准化：
+
+```py
+train_data = keras.preprocessing.sequence.pad_sequences(train_data,
+                                                        value=word_index["<PAD>"],
+                                                        padding='post',
+                                                        maxlen=256)
+
+test_data = keras.preprocessing.sequence.pad_sequences(test_data,
+                                                       value=word_index["<PAD>"],
+                                                       padding='post',
+                                                       maxlen=256) 
+```
+
+现在让我们看下样本的长度：
+
+```py
+len(train_data[0]), len(train_data[1]) 
+```
+
+```py
+(256, 256)
+
+```
+
+并检查一下首条评论（当前已经填充）：
+
+```py
+print(train_data[0]) 
+```
+
+```py
+[   1   14   22   16   43  530  973 1622 1385   65  458 4468   66 3941
+    4  173   36  256    5   25  100   43  838  112   50  670    2    9
+   35  480  284    5  150    4  172  112  167    2  336  385   39    4
+  172 4536 1111   17  546   38   13  447    4  192   50   16    6  147
+ 2025   19   14   22    4 1920 4613  469    4   22   71   87   12   16
+   43  530   38   76   15   13 1247    4   22   17  515   17   12   16
+  626   18    2    5   62  386   12    8  316    8  106    5    4 2223
+ 5244   16  480   66 3785   33    4  130   12   16   38  619    5   25
+  124   51   36  135   48   25 1415   33    6   22   12  215   28   77
+   52    5   14  407   16   82    2    8    4  107  117 5952   15  256
+    4    2    7 3766    5  723   36   71   43  530  476   26  400  317
+   46    7    4    2 1029   13  104   88    4  381   15  297   98   32
+ 2071   56   26  141    6  194 7486   18    4  226   22   21  134  476
+   26  480    5  144   30 5535   18   51   36   28  224   92   25  104
+    4  226   65   16   38 1334   88   12   16  283    5   16 4472  113
+  103   32   15   16 5345   19  178   32    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0    0    0    0    0    0    0    0    0    0    0
+    0    0    0    0]
+
+```
+
+## 构建模型
+
+神经网络由堆叠的层来构建，这需要从两个主要方面来进行体系结构决策：
+
+*   模型里有多少层？
+*   每个层里有多少*隐层单元（hidden units）*？
+
+在此样本中，输入数据包含一个单词索引的数组。要预测的标签为 0 或 1。让我们来为该问题构建一个模型：
+
+```py
+# 输入形状是用于电影评论的词汇数目（10,000 词）
+vocab_size = 10000
+
+model = keras.Sequential()
+model.add(keras.layers.Embedding(vocab_size, 16))
+model.add(keras.layers.GlobalAveragePooling1D())
+model.add(keras.layers.Dense(16, activation='relu'))
+model.add(keras.layers.Dense(1, activation='sigmoid'))
+
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+embedding (Embedding)        (None, None, 16)          160000    
+_________________________________________________________________
+global_average_pooling1d (Gl (None, 16)                0         
+_________________________________________________________________
+dense (Dense)                (None, 16)                272       
+_________________________________________________________________
+dense_1 (Dense)              (None, 1)                 17        
+=================================================================
+Total params: 160,289
+Trainable params: 160,289
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+层按顺序堆叠以构建分类器：
+
+1.  第一层是`嵌入（Embedding）`层。该层采用整数编码的词汇表，并查找每个词索引的嵌入向量（embedding vector）。这些向量是通过模型训练学习到的。向量向输出数组增加了一个维度。得到的维度为：`(batch, sequence, embedding)`。
+2.  接下来，`GlobalAveragePooling1D` 将通过对序列维度求平均值来为每个样本返回一个定长输出向量。这允许模型以尽可能最简单的方式处理变长输入。
+3.  该定长输出向量通过一个有 16 个隐层单元的全连接（`Dense`）层传输。
+4.  最后一层与单个输出结点密集连接。使用 `Sigmoid` 激活函数，其函数值为介于 0 与 1 之间的浮点数，表示概率或置信度。
+
+### 隐层单元
+
+上述模型在输入输出之间有两个中间层或“隐藏层”。输出（单元，结点或神经元）的数量即为层表示空间的维度。换句话说，是学习内部表示时网络所允许的自由度。
+
+如果模型具有更多的隐层单元（更高维度的表示空间）和/或更多层，则可以学习到更复杂的表示。但是，这会使网络的计算成本更高，并且可能导致学习到不需要的模式——一些能够在训练数据上而不是测试数据上改善性能的模式。这被称为*过拟合（overfitting）*，我们稍后会对此进行探究。
+
+### 损失函数与优化器
+
+一个模型需要损失函数和优化器来进行训练。由于这是一个二分类问题且模型输出概率值（一个使用 sigmoid 激活函数的单一单元层），我们将使用 `binary_crossentropy` 损失函数。
+
+这不是损失函数的唯一选择，例如，您可以选择 `mean_squared_error` 。但是，一般来说 `binary_crossentropy` 更适合处理概率——它能够度量概率分布之间的“距离”，或者在我们的示例中，指的是度量 ground-truth 分布与预测值之间的“距离”。
+
+稍后，当我们研究回归问题（例如，预测房价）时，我们将介绍如何使用另一种叫做均方误差的损失函数。
+
+现在，配置模型来使用优化器和损失函数：
+
+```py
+model.compile(optimizer='adam',
+              loss='binary_crossentropy',
+              metrics=['accuracy']) 
+```
+
+## 创建一个验证集
+
+在训练时，我们想要检查模型在未见过的数据上的准确率（accuracy）。通过从原始训练数据中分离 10,000 个样本来创建一个*验证集*。（为什么现在不使用测试集？我们的目标是只使用训练数据来开发和调整模型，然后只使用一次测试数据来评估准确率（accuracy））。
+
+```py
+x_val = train_data[:10000]
+partial_x_train = train_data[10000:]
+
+y_val = train_labels[:10000]
+partial_y_train = train_labels[10000:] 
+```
+
+## 训练模型
+
+以 512 个样本的 mini-batch 大小迭代 40 个 epoch 来训练模型。这是指对 `x_train` 和 `y_train` 张量中所有样本的的 40 次迭代。在训练过程中，监测来自验证集的 10,000 个样本上的损失值（loss）和准确率（accuracy）：
+
+```py
+history = model.fit(partial_x_train,
+                    partial_y_train,
+                    epochs=40,
+                    batch_size=512,
+                    validation_data=(x_val, y_val),
+                    verbose=1) 
+```
+
+```py
+Epoch 1/40
+30/30 [==============================] - 1s 18ms/step - loss: 0.6924 - accuracy: 0.5173 - val_loss: 0.6911 - val_accuracy: 0.5699
+Epoch 2/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.6886 - accuracy: 0.5734 - val_loss: 0.6863 - val_accuracy: 0.6309
+Epoch 3/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.6810 - accuracy: 0.6439 - val_loss: 0.6766 - val_accuracy: 0.7367
+Epoch 4/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.6667 - accuracy: 0.7411 - val_loss: 0.6595 - val_accuracy: 0.7328
+Epoch 5/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.6431 - accuracy: 0.7602 - val_loss: 0.6327 - val_accuracy: 0.7677
+Epoch 6/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.6086 - accuracy: 0.7896 - val_loss: 0.5968 - val_accuracy: 0.7894
+Epoch 7/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.5654 - accuracy: 0.8147 - val_loss: 0.5550 - val_accuracy: 0.8102
+Epoch 8/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.5180 - accuracy: 0.8337 - val_loss: 0.5115 - val_accuracy: 0.8230
+Epoch 9/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.4709 - accuracy: 0.8535 - val_loss: 0.4705 - val_accuracy: 0.8356
+Epoch 10/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.4269 - accuracy: 0.8655 - val_loss: 0.4342 - val_accuracy: 0.8454
+Epoch 11/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.3887 - accuracy: 0.8763 - val_loss: 0.4040 - val_accuracy: 0.8545
+Epoch 12/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.3566 - accuracy: 0.8843 - val_loss: 0.3799 - val_accuracy: 0.8598
+Epoch 13/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.3299 - accuracy: 0.8911 - val_loss: 0.3608 - val_accuracy: 0.8660
+Epoch 14/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.3070 - accuracy: 0.8975 - val_loss: 0.3458 - val_accuracy: 0.8702
+Epoch 15/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.2876 - accuracy: 0.9021 - val_loss: 0.3334 - val_accuracy: 0.8727
+Epoch 16/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.2708 - accuracy: 0.9073 - val_loss: 0.3234 - val_accuracy: 0.8753
+Epoch 17/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.2558 - accuracy: 0.9130 - val_loss: 0.3154 - val_accuracy: 0.8773
+Epoch 18/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.2428 - accuracy: 0.9175 - val_loss: 0.3102 - val_accuracy: 0.8782
+Epoch 19/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.2308 - accuracy: 0.9214 - val_loss: 0.3032 - val_accuracy: 0.8812
+Epoch 20/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.2194 - accuracy: 0.9246 - val_loss: 0.2988 - val_accuracy: 0.8818
+Epoch 21/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.2093 - accuracy: 0.9280 - val_loss: 0.2956 - val_accuracy: 0.8821
+Epoch 22/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.2000 - accuracy: 0.9321 - val_loss: 0.2921 - val_accuracy: 0.8838
+Epoch 23/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1912 - accuracy: 0.9357 - val_loss: 0.2901 - val_accuracy: 0.8846
+Epoch 24/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1829 - accuracy: 0.9396 - val_loss: 0.2885 - val_accuracy: 0.8847
+Epoch 25/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1756 - accuracy: 0.9439 - val_loss: 0.2874 - val_accuracy: 0.8844
+Epoch 26/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1681 - accuracy: 0.9465 - val_loss: 0.2864 - val_accuracy: 0.8855
+Epoch 27/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1617 - accuracy: 0.9481 - val_loss: 0.2867 - val_accuracy: 0.8844
+Epoch 28/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1548 - accuracy: 0.9519 - val_loss: 0.2865 - val_accuracy: 0.8861
+Epoch 29/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1485 - accuracy: 0.9543 - val_loss: 0.2872 - val_accuracy: 0.8849
+Epoch 30/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1426 - accuracy: 0.9561 - val_loss: 0.2881 - val_accuracy: 0.8854
+Epoch 31/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1372 - accuracy: 0.9587 - val_loss: 0.2895 - val_accuracy: 0.8851
+Epoch 32/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1320 - accuracy: 0.9609 - val_loss: 0.2899 - val_accuracy: 0.8856
+Epoch 33/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1267 - accuracy: 0.9625 - val_loss: 0.2911 - val_accuracy: 0.8851
+Epoch 34/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1219 - accuracy: 0.9649 - val_loss: 0.2931 - val_accuracy: 0.8851
+Epoch 35/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1173 - accuracy: 0.9666 - val_loss: 0.2948 - val_accuracy: 0.8863
+Epoch 36/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1127 - accuracy: 0.9685 - val_loss: 0.2985 - val_accuracy: 0.8851
+Epoch 37/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1086 - accuracy: 0.9688 - val_loss: 0.2998 - val_accuracy: 0.8860
+Epoch 38/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1045 - accuracy: 0.9716 - val_loss: 0.3033 - val_accuracy: 0.8839
+Epoch 39/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.1007 - accuracy: 0.9723 - val_loss: 0.3049 - val_accuracy: 0.8847
+Epoch 40/40
+30/30 [==============================] - 0s 10ms/step - loss: 0.0967 - accuracy: 0.9737 - val_loss: 0.3087 - val_accuracy: 0.8832
+
+```
+
+## 评估模型
+
+我们来看一下模型的性能如何。将返回两个值。损失值（loss）（一个表示误差的数字，值越低越好）与准确率（accuracy）。
+
+```py
+results = model.evaluate(test_data,  test_labels, verbose=2)
+
+print(results) 
+```
+
+```py
+782/782 - 1s - loss: 0.3298 - accuracy: 0.8729
+[0.32977813482284546, 0.8728799819946289]
+
+```
+
+这种十分朴素的方法得到了约 87% 的准确率（accuracy）。若采用更好的方法，模型的准确率应当接近 95%。
+
+## 创建一个准确率（accuracy）和损失值（loss）随时间变化的图表
+
+`model.fit()` 返回一个 `History` 对象，该对象包含一个字典，其中包含训练阶段所发生的一切事件：
+
+```py
+history_dict = history.history
+history_dict.keys() 
+```
+
+```py
+dict_keys(['loss', 'accuracy', 'val_loss', 'val_accuracy'])
+
+```
+
+有四个条目：在训练和验证期间，每个条目对应一个监控指标。我们可以使用这些条目来绘制训练与验证过程的损失值（loss）和准确率（accuracy），以便进行比较。
+
+```py
+import matplotlib.pyplot as plt
+
+acc = history_dict['accuracy']
+val_acc = history_dict['val_accuracy']
+loss = history_dict['loss']
+val_loss = history_dict['val_loss']
+
+epochs = range(1, len(acc) + 1)
+
+# “bo”代表 "蓝点"
+plt.plot(epochs, loss, 'bo', label='Training loss')
+# b 代表“蓝色实线”
+plt.plot(epochs, val_loss, 'b', label='Validation loss')
+plt.title('Training and validation loss')
+plt.xlabel('Epochs')
+plt.ylabel('Loss')
+plt.legend()
+
+plt.show() 
+```
+
+![png](img/9c459926609b3f3452425d5e76209223.png)
+
+```py
+plt.clf()   # 清除数字
+
+plt.plot(epochs, acc, 'bo', label='Training acc')
+plt.plot(epochs, val_acc, 'b', label='Validation acc')
+plt.title('Training and validation accuracy')
+plt.xlabel('Epochs')
+plt.ylabel('Accuracy')
+plt.legend()
+
+plt.show() 
+```
+
+![png](img/6cd4981eb3c80dc3045b45bd7fd0e7ea.png)
+
+在该图中，点代表训练损失值（loss）与准确率（accuracy），实线代表验证损失值（loss）与准确率（accuracy）。
+
+注意训练损失值随每一个 epoch *下降*而训练准确率（accuracy）随每一个 epoch *上升*。这在使用梯度下降优化时是可预期的——理应在每次迭代中最小化期望值。
+
+验证过程的损失值（loss）与准确率（accuracy）的情况却并非如此——它们似乎在 20 个 epoch 后达到峰值。这是过拟合的一个实例：模型在训练数据上的表现比在以前从未见过的数据上的表现要更好。在此之后，模型过度优化并学习*特定*于训练数据的表示，而不能够*泛化*到测试数据。
+
+对于这种特殊情况，我们可以通过在 20 个左右的 epoch 后停止训练来避免过拟合。稍后，您将看到如何通过回调自动执行此操作。
+
+```py
+# MIT License
+#
+# Copyright (c) 2017 François Chollet
+#
+# Permission is hereby granted, free of charge, to any person obtaining a
+# copy of this software and associated documentation files (the "Software"),
+# to deal in the Software without restriction, including without limitation
+# the rights to use, copy, modify, merge, publish, distribute, sublicense,
+# and/or sell copies of the Software, and to permit persons to whom the
+# Software is furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
+# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
+# DEALINGS IN THE SOFTWARE. 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/008.md b/Tensorflow/TensorFlow2.0/008.md
new file mode 100644
index 00000000..89602096
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/008.md
@@ -0,0 +1,308 @@
+# 使用 Keras 和 Tensorflow Hub 对电影评论进行文本分类
+
+> 原文：[https://tensorflow.google.cn/tutorials/keras/text_classification_with_hub](https://tensorflow.google.cn/tutorials/keras/text_classification_with_hub)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+此笔记本（notebook）使用评论文本将影评分为*积极（positive）*或*消极（nagetive）*两类。这是一个*二元（binary）*或者二分类问题，一种重要且应用广泛的机器学习问题。
+
+本教程演示了使用 Tensorflow Hub 和 Keras 进行迁移学习的基本应用。
+
+我们将使用来源于[网络电影数据库（Internet Movie Database）](https://www.imdb.com/)的 [IMDB 数据集（IMDB dataset）](https://tensorflow.google.cn/api_docs/python/tf/keras/datasets/imdb)，其包含 50,000 条影评文本。从该数据集切割出的 25,000 条评论用作训练，另外 25,000 条用作测试。训练集与测试集是*平衡的（balanced）*，意味着它们包含相等数量的积极和消极评论。
+
+此笔记本（notebook）使用了 [tf.keras](https://tensorflow.google.cn/guide/keras)，它是一个 Tensorflow 中用于构建和训练模型的高级 API，此外还使用了 [TensorFlow Hub](https://tensorflow.google.cn/hub)，一个用于迁移学习的库和平台。有关使用 [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) 进行文本分类的更高级教程，请参阅 [MLCC 文本分类指南（MLCC Text Classification Guide）](https://developers.google.cn/machine-learning/guides/text-classification/)。
+
+```py
+import numpy as np
+
+import tensorflow as tf
+
+!pip install -q tensorflow-hub
+!pip install -q tfds-nightly
+import tensorflow_hub as hub
+import tensorflow_datasets as tfds
+
+print("Version: ", tf.__version__)
+print("Eager mode: ", tf.executing_eagerly())
+print("Hub version: ", hub.__version__)
+print("GPU is", "available" if tf.config.experimental.list_physical_devices("GPU") else "NOT AVAILABLE") 
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+Version:  2.3.0
+Eager mode:  True
+Hub version:  0.9.0
+GPU is available
+
+```
+
+## 下载 IMDB 数据集
+
+IMDB 数据集可以在 [Tensorflow 数据集](https://github.com/tensorflow/datasets)处获取。以下代码将 IMDB 数据集下载至您的机器（或 colab 运行时环境）中：
+
+```py
+# 将训练集分割成 60% 和 40%，从而最终我们将得到 15,000 个训练样本
+# 10,000 个验证样本以及 25,000 个测试样本。
+train_data, validation_data, test_data = tfds.load(
+    name="imdb_reviews", 
+    split=('train[:60%]', 'train[60%:]', 'test'),
+    as_supervised=True) 
+```
+
+```py
+Downloading and preparing dataset imdb_reviews/plain_text/1.0.0 (download: 80.23 MiB, generated: Unknown size, total: 80.23 MiB) to /home/kbuilder/tensorflow_datasets/imdb_reviews/plain_text/1.0.0...
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/imdb_reviews/plain_text/1.0.0.incompleteZDZ3AR/imdb_reviews-train.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/imdb_reviews/plain_text/1.0.0.incompleteZDZ3AR/imdb_reviews-test.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/imdb_reviews/plain_text/1.0.0.incompleteZDZ3AR/imdb_reviews-unsupervised.tfrecord
+Dataset imdb_reviews downloaded and prepared to /home/kbuilder/tensorflow_datasets/imdb_reviews/plain_text/1.0.0\. Subsequent calls will reuse this data.
+
+```
+
+## 探索数据
+
+让我们花一点时间来了解数据的格式。每一个样本都是一个表示电影评论和相应标签的句子。该句子不以任何方式进行预处理。标签是一个值为 0 或 1 的整数，其中 0 代表消极评论，1 代表积极评论。
+
+我们来打印下前十个样本。
+
+```py
+train_examples_batch, train_labels_batch = next(iter(train_data.batch(10)))
+train_examples_batch 
+```
+
+```py
+<tf.Tensor: shape=(10,), dtype=string, numpy=
+array([b"This was an absolutely terrible movie. Don't be lured in by Christopher Walken or Michael Ironside. Both are great actors, but this must simply be their worst role in history. Even their great acting could not redeem this movie's ridiculous storyline. This movie is an early nineties US propaganda piece. The most pathetic scenes were those when the Columbian rebels were making their cases for revolutions. Maria Conchita Alonso appeared phony, and her pseudo-love affair with Walken was nothing but a pathetic emotional plug in a movie that was devoid of any real meaning. I am disappointed that there are movies like this, ruining actor's like Christopher Walken's good name. I could barely sit through it.",
+       b'I have been known to fall asleep during films, but this is usually due to a combination of things including, really tired, being warm and comfortable on the sette and having just eaten a lot. However on this occasion I fell asleep because the film was rubbish. The plot development was constant. Constantly slow and boring. Things seemed to happen, but with no explanation of what was causing them or why. I admit, I may have missed part of the film, but i watched the majority of it and everything just seemed to happen of its own accord without any real concern for anything else. I cant recommend this film at all.',
+       b'Mann photographs the Alberta Rocky Mountains in a superb fashion, and Jimmy Stewart and Walter Brennan give enjoyable performances as they always seem to do. <br /><br />But come on Hollywood - a Mountie telling the people of Dawson City, Yukon to elect themselves a marshal (yes a marshal!) and to enforce the law themselves, then gunfighters battling it out on the streets for control of the town? <br /><br />Nothing even remotely resembling that happened on the Canadian side of the border during the Klondike gold rush. Mr. Mann and company appear to have mistaken Dawson City for Deadwood, the Canadian North for the American Wild West.<br /><br />Canadian viewers be prepared for a Reefer Madness type of enjoyable howl with this ludicrous plot, or, to shake your head in disgust.',
+       b'This is the kind of film for a snowy Sunday afternoon when the rest of the world can go ahead with its own business as you descend into a big arm-chair and mellow for a couple of hours. Wonderful performances from Cher and Nicolas Cage (as always) gently row the plot along. There are no rapids to cross, no dangerous waters, just a warm and witty paddle through New York life at its best. A family film in every sense and one that deserves the praise it received.',
+       b'As others have mentioned, all the women that go nude in this film are mostly absolutely gorgeous. The plot very ably shows the hypocrisy of the female libido. When men are around they want to be pursued, but when no "men" are around, they become the pursuers of a 14 year old boy. And the boy becomes a man really fast (we should all be so lucky at this age!). He then gets up the courage to pursue his true love.',
+       b"This is a film which should be seen by anybody interested in, effected by, or suffering from an eating disorder. It is an amazingly accurate and sensitive portrayal of bulimia in a teenage girl, its causes and its symptoms. The girl is played by one of the most brilliant young actresses working in cinema today, Alison Lohman, who was later so spectacular in 'Where the Truth Lies'. I would recommend that this film be shown in all schools, as you will never see a better on this subject. Alison Lohman is absolutely outstanding, and one marvels at her ability to convey the anguish of a girl suffering from this compulsive disorder. If barometers tell us the air pressure, Alison Lohman tells us the emotional pressure with the same degree of accuracy. Her emotional range is so precise, each scene could be measured microscopically for its gradations of trauma, on a scale of rising hysteria and desperation which reaches unbearable intensity. Mare Winningham is the perfect choice to play her mother, and does so with immense sympathy and a range of emotions just as finely tuned as Lohman's. Together, they make a pair of sensitive emotional oscillators vibrating in resonance with one another. This film is really an astonishing achievement, and director Katt Shea should be proud of it. The only reason for not seeing it is if you are not interested in people. But even if you like nature films best, this is after all animal behaviour at the sharp edge. Bulimia is an extreme version of how a tormented soul can destroy her own body in a frenzy of despair. And if we don't sympathise with people suffering from the depths of despair, then we are dead inside.",
+       b'Okay, you have:<br /><br />Penelope Keith as Miss Herringbone-Tweed, B.B.E. (Backbone of England.) She\'s killed off in the first scene - that\'s right, folks; this show has no backbone!<br /><br />Peter O\'Toole as Ol\' Colonel Cricket from The First War and now the emblazered Lord of the Manor.<br /><br />Joanna Lumley as the ensweatered Lady of the Manor, 20 years younger than the colonel and 20 years past her own prime but still glamourous (Brit spelling, not mine) enough to have a toy-boy on the side. It\'s alright, they have Col. Cricket\'s full knowledge and consent (they guy even comes \'round for Christmas!) Still, she\'s considerate of the colonel enough to have said toy-boy her own age (what a gal!)<br /><br />David McCallum as said toy-boy, equally as pointlessly glamourous as his squeeze. Pilcher couldn\'t come up with any cover for him within the story, so she gave him a hush-hush job at the Circus.<br /><br />and finally:<br /><br />Susan Hampshire as Miss Polonia Teacups, Venerable Headmistress of the Venerable Girls\' Boarding-School, serving tea in her office with a dash of deep, poignant advice for life in the outside world just before graduation. Her best bit of advice: "I\'ve only been to Nancherrow (the local Stately Home of England) once. I thought it was very beautiful but, somehow, not part of the real world." Well, we can\'t say they didn\'t warn us.<br /><br />Ah, Susan - time was, your character would have been running the whole show. They don\'t write \'em like that any more. Our loss, not yours.<br /><br />So - with a cast and setting like this, you have the re-makings of "Brideshead Revisited," right?<br /><br />Wrong! They took these 1-dimensional supporting roles because they paid so well. After all, acting is one of the oldest temp-jobs there is (YOU name another!)<br /><br />First warning sign: lots and lots of backlighting. They get around it by shooting outdoors - "hey, it\'s just the sunlight!"<br /><br />Second warning sign: Leading Lady cries a lot. When not crying, her eyes are moist. That\'s the law of romance novels: Leading Lady is "dewy-eyed."<br /><br />Henceforth, Leading Lady shall be known as L.L.<br /><br />Third warning sign: L.L. actually has stars in her eyes when she\'s in love. Still, I\'ll give Emily Mortimer an award just for having to act with that spotlight in her eyes (I wonder . did they use contacts?)<br /><br />And lastly, fourth warning sign: no on-screen female character is "Mrs." She\'s either "Miss" or "Lady."<br /><br />When all was said and done, I still couldn\'t tell you who was pursuing whom and why. I couldn\'t even tell you what was said and done.<br /><br />To sum up: they all live through World War II without anything happening to them at all.<br /><br />OK, at the end, L.L. finds she\'s lost her parents to the Japanese prison camps and baby sis comes home catatonic. Meanwhile (there\'s always a "meanwhile,") some young guy L.L. had a crush on (when, I don\'t know) comes home from some wartime tough spot and is found living on the street by Lady of the Manor (must be some street if SHE\'s going to find him there.) Both war casualties are whisked away to recover at Nancherrow (SOMEBODY has to be "whisked away" SOMEWHERE in these romance stories!)<br /><br />Great drama.',
+       b'The film is based on a genuine 1950s novel.<br /><br />Journalist Colin McInnes wrote a set of three "London novels": "Absolute Beginners", "City of Spades" and "Mr Love and Justice". I have read all three. The first two are excellent. The last, perhaps an experiment that did not come off. But McInnes\'s work is highly acclaimed; and rightly so. This musical is the novelist\'s ultimate nightmare - to see the fruits of one\'s mind being turned into a glitzy, badly-acted, soporific one-dimensional apology of a film that says it captures the spirit of 1950s London, and does nothing of the sort.<br /><br />Thank goodness Colin McInnes wasn\'t alive to witness it.',
+       b'I really love the sexy action and sci-fi films of the sixties and its because of the actress\'s that appeared in them. They found the sexiest women to be in these films and it didn\'t matter if they could act (Remember "Candy"?). The reason I was disappointed by this film was because it wasn\'t nostalgic enough. The story here has a European sci-fi film called "Dragonfly" being made and the director is fired. So the producers decide to let a young aspiring filmmaker (Jeremy Davies) to complete the picture. They\'re is one real beautiful woman in the film who plays Dragonfly but she\'s barely in it. Film is written and directed by Roman Coppola who uses some of his fathers exploits from his early days and puts it into the script. I wish the film could have been an homage to those early films. They could have lots of cameos by actors who appeared in them. There is one actor in this film who was popular from the sixties and its John Phillip Law (Barbarella). Gerard Depardieu, Giancarlo Giannini and Dean Stockwell appear as well. I guess I\'m going to have to continue waiting for a director to make a good homage to the films of the sixties. If any are reading this, "Make it as sexy as you can"! I\'ll be waiting!',
+       b'Sure, this one isn\'t really a blockbuster, nor does it target such a position. "Dieter" is the first name of a quite popular German musician, who is either loved or hated for his kind of acting and thats exactly what this movie is about. It is based on the autobiography "Dieter Bohlen" wrote a few years ago but isn\'t meant to be accurate on that. The movie is filled with some sexual offensive content (at least for American standard) which is either amusing (not for the other "actors" of course) or dumb - it depends on your individual kind of humor or on you being a "Bohlen"-Fan or not. Technically speaking there isn\'t much to criticize. Speaking of me I find this movie to be an OK-movie.'],
+      dtype=object)>
+
+```
+
+我们再打印下前十个标签。
+
+```py
+train_labels_batch 
+```
+
+```py
+<tf.Tensor: shape=(10,), dtype=int64, numpy=array([0, 0, 0, 1, 1, 1, 0, 0, 0, 0])>
+
+```
+
+## 构建模型
+
+神经网络由堆叠的层来构建，这需要从三个主要方面来进行体系结构决策：
+
+*   如何表示文本？
+*   模型里有多少层？
+*   每个层里有多少*隐层单元（hidden units）*？
+
+本示例中，输入数据由句子组成。预测的标签为 0 或 1。
+
+表示文本的一种方式是将句子转换为嵌入向量（embeddings vectors）。我们可以使用一个预先训练好的文本嵌入（text embedding）作为首层，这将具有三个优点：
+
+*   我们不必担心文本预处理
+*   我们可以从迁移学习中受益
+*   嵌入具有固定长度，更易于处理
+
+针对此示例我们将使用 [TensorFlow Hub](https://tensorflow.google.cn/hub) 中名为 [google/tf2-preview/gnews-swivel-20dim/1](https://hub.tensorflow.google.cn/google/tf2-preview/gnews-swivel-20dim/1) 的一种**预训练文本嵌入（text embedding）模型** 。
+
+为了达到本教程的目的还有其他三种预训练模型可供测试：
+
+*   [google/tf2-preview/gnews-swivel-20dim-with-oov/1](https://hub.tensorflow.google.cn/google/tf2-preview/gnews-swivel-20dim-with-oov/1) ——类似 [google/tf2-preview/gnews-swivel-20dim/1](https://hub.tensorflow.google.cn/google/tf2-preview/gnews-swivel-20dim/1)，但 2.5%的词汇转换为未登录词桶（OOV buckets）。如果任务的词汇与模型的词汇没有完全重叠，这将会有所帮助。
+*   [google/tf2-preview/nnlm-en-dim50/1](https://hub.tensorflow.google.cn/google/tf2-preview/nnlm-en-dim50/1) ——一个拥有约 1M 词汇量且维度为 50 的更大的模型。
+*   [google/tf2-preview/nnlm-en-dim128/1](https://hub.tensorflow.google.cn/google/tf2-preview/nnlm-en-dim128/1) ——拥有约 1M 词汇量且维度为 128 的更大的模型。
+
+让我们首先创建一个使用 Tensorflow Hub 模型嵌入（embed）语句的 Keras 层，并在几个输入样本中进行尝试。请注意无论输入文本的长度如何，嵌入（embeddings）输出的形状都是：`(num_examples, embedding_dimension)`。
+
+```py
+embedding = "https://hub.tensorflow.google.cn/google/tf2-preview/gnews-swivel-20dim/1"
+hub_layer = hub.KerasLayer(embedding, input_shape=[], 
+                           dtype=tf.string, trainable=True)
+hub_layer(train_examples_batch[:3]) 
+```
+
+```py
+<tf.Tensor: shape=(3, 20), dtype=float32, numpy=
+array([[ 1.765786  , -3.882232  ,  3.9134233 , -1.5557289 , -3.3362343 ,
+        -1.7357955 , -1.9954445 ,  1.2989551 ,  5.081598  , -1.1041286 ,
+        -2.0503852 , -0.72675157, -0.65675956,  0.24436149, -3.7208383 ,
+         2.0954835 ,  2.2969332 , -2.0689783 , -2.9489717 , -1.1315987 ],
+       [ 1.8804485 , -2.5852382 ,  3.4066997 ,  1.0982676 , -4.056685  ,
+        -4.891284  , -2.785554  ,  1.3874227 ,  3.8476458 , -0.9256538 ,
+        -1.896706  ,  1.2113281 ,  0.11474707,  0.76209456, -4.8791065 ,
+         2.906149  ,  4.7087674 , -2.3652055 , -3.5015898 , -1.6390051 ],
+       [ 0.71152234, -0.6353217 ,  1.7385626 , -1.1168286 , -0.5451594 ,
+        -1.1808156 ,  0.09504455,  1.4653089 ,  0.66059524,  0.79308075,
+        -2.2268345 ,  0.07446612, -1.4075904 , -0.70645386, -1.907037  ,
+         1.4419787 ,  1.9551861 , -0.42660055, -2.8022065 ,  0.43727064]],
+      dtype=float32)>
+
+```
+
+现在让我们构建完整模型：
+
+```py
+model = tf.keras.Sequential()
+model.add(hub_layer)
+model.add(tf.keras.layers.Dense(16, activation='relu'))
+model.add(tf.keras.layers.Dense(1))
+
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+keras_layer (KerasLayer)     (None, 20)                400020    
+_________________________________________________________________
+dense (Dense)                (None, 16)                336       
+_________________________________________________________________
+dense_1 (Dense)              (None, 1)                 17        
+=================================================================
+Total params: 400,373
+Trainable params: 400,373
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+层按顺序堆叠以构建分类器：
+
+1.  第一层是 Tensorflow Hub 层。这一层使用一个预训练的保存好的模型来将句子映射为嵌入向量（embedding vector）。我们所使用的预训练文本嵌入（embedding）模型([google/tf2-preview/gnews-swivel-20dim/1](https://hub.tensorflow.google.cn/google/tf2-preview/gnews-swivel-20dim/1))将句子切割为符号，嵌入（embed）每个符号然后进行合并。最终得到的维度是：`(num_examples, embedding_dimension)`。
+2.  该定长输出向量通过一个有 16 个隐层单元的全连接层（`Dense`）进行管道传输。
+3.  最后一层与单个输出结点紧密相连。使用 `Sigmoid` 激活函数，其函数值为介于 0 与 1 之间的浮点数，表示概率或置信水平。
+
+让我们编译模型。
+
+### 损失函数与优化器
+
+一个模型需要损失函数和优化器来进行训练。由于这是一个二分类问题且模型输出概率值（一个使用 sigmoid 激活函数的单一单元层），我们将使用 `binary_crossentropy` 损失函数。
+
+这不是损失函数的唯一选择，例如，您可以选择 `mean_squared_error` 。但是，一般来说 `binary_crossentropy` 更适合处理概率——它能够度量概率分布之间的“距离”，或者在我们的示例中，指的是度量 ground-truth 分布与预测值之间的“距离”。
+
+稍后，当我们研究回归问题（例如，预测房价）时，我们将介绍如何使用另一种叫做均方误差的损失函数。
+
+现在，配置模型来使用优化器和损失函数：
+
+```py
+model.compile(optimizer='adam',
+              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
+              metrics=['accuracy']) 
+```
+
+## 训练模型
+
+以 512 个样本的 mini-batch 大小迭代 20 个 epoch 来训练模型。 这是指对 `x_train` 和 `y_train` 张量中所有样本的的 20 次迭代。在训练过程中，监测来自验证集的 10,000 个样本上的损失值（loss）和准确率（accuracy）：
+
+```py
+history = model.fit(train_data.shuffle(10000).batch(512),
+                    epochs=20,
+                    validation_data=validation_data.batch(512),
+                    verbose=1) 
+```
+
+```py
+Epoch 1/20
+30/30 [==============================] - 2s 64ms/step - loss: 1.5444 - accuracy: 0.4965 - val_loss: 0.9259 - val_accuracy: 0.4705
+Epoch 2/20
+30/30 [==============================] - 2s 59ms/step - loss: 0.7667 - accuracy: 0.4990 - val_loss: 0.7017 - val_accuracy: 0.5327
+Epoch 3/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.6631 - accuracy: 0.5799 - val_loss: 0.6387 - val_accuracy: 0.6238
+Epoch 4/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.6156 - accuracy: 0.6327 - val_loss: 0.6051 - val_accuracy: 0.6390
+Epoch 5/20
+30/30 [==============================] - 2s 57ms/step - loss: 0.5819 - accuracy: 0.6623 - val_loss: 0.5761 - val_accuracy: 0.6639
+Epoch 6/20
+30/30 [==============================] - 2s 57ms/step - loss: 0.5492 - accuracy: 0.6983 - val_loss: 0.5475 - val_accuracy: 0.6873
+Epoch 7/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.5159 - accuracy: 0.7294 - val_loss: 0.5176 - val_accuracy: 0.7277
+Epoch 8/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.4813 - accuracy: 0.7609 - val_loss: 0.4884 - val_accuracy: 0.7490
+Epoch 9/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.4472 - accuracy: 0.7869 - val_loss: 0.4602 - val_accuracy: 0.7747
+Epoch 10/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.4141 - accuracy: 0.8113 - val_loss: 0.4352 - val_accuracy: 0.7983
+Epoch 11/20
+30/30 [==============================] - 2s 57ms/step - loss: 0.3837 - accuracy: 0.8312 - val_loss: 0.4113 - val_accuracy: 0.8074
+Epoch 12/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.3558 - accuracy: 0.8482 - val_loss: 0.3910 - val_accuracy: 0.8152
+Epoch 13/20
+30/30 [==============================] - 2s 57ms/step - loss: 0.3305 - accuracy: 0.8611 - val_loss: 0.3727 - val_accuracy: 0.8270
+Epoch 14/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.3071 - accuracy: 0.8746 - val_loss: 0.3602 - val_accuracy: 0.8455
+Epoch 15/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.2872 - accuracy: 0.8840 - val_loss: 0.3445 - val_accuracy: 0.8462
+Epoch 16/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.2678 - accuracy: 0.8942 - val_loss: 0.3333 - val_accuracy: 0.8538
+Epoch 17/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.2505 - accuracy: 0.9010 - val_loss: 0.3243 - val_accuracy: 0.8557
+Epoch 18/20
+30/30 [==============================] - 2s 57ms/step - loss: 0.2351 - accuracy: 0.9073 - val_loss: 0.3172 - val_accuracy: 0.8634
+Epoch 19/20
+30/30 [==============================] - 2s 58ms/step - loss: 0.2209 - accuracy: 0.9154 - val_loss: 0.3108 - val_accuracy: 0.8660
+Epoch 20/20
+30/30 [==============================] - 2s 57ms/step - loss: 0.2082 - accuracy: 0.9224 - val_loss: 0.3058 - val_accuracy: 0.8676
+
+```
+
+## 评估模型
+
+我们来看下模型的表现如何。将返回两个值。损失值（loss）（一个表示误差的数字，值越低越好）与准确率（accuracy）。
+
+```py
+results = model.evaluate(test_data.batch(512), verbose=2)
+
+for name, value in zip(model.metrics_names, results):
+  print("%s: %.3f" % (name, value)) 
+```
+
+```py
+49/49 - 1s - loss: 0.3208 - accuracy: 0.8546
+loss: 0.321
+accuracy: 0.855
+
+```
+
+这种十分朴素的方法得到了约 87% 的准确率（accuracy）。若采用更好的方法，模型的准确率应当接近 95%。
+
+## 进一步阅读
+
+有关使用字符串输入的更一般方法，以及对训练期间准确率（accuracy）和损失值（loss）更详细的分析，请参阅[此处](https://tensorflow.google.cn/tutorials/keras/basic_text_classification)。
+
+```py
+# MIT License
+#
+# Copyright (c) 2017 François Chollet
+#
+# Permission is hereby granted, free of charge, to any person obtaining a
+# copy of this software and associated documentation files (the "Software"),
+# to deal in the Software without restriction, including without limitation
+# the rights to use, copy, modify, merge, publish, distribute, sublicense,
+# and/or sell copies of the Software, and to permit persons to whom the
+# Software is furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
+# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
+# DEALINGS IN THE SOFTWARE. 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/009.md b/Tensorflow/TensorFlow2.0/009.md
new file mode 100644
index 00000000..ef083943
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/009.md
@@ -0,0 +1,450 @@
+# Basic regression: Predict fuel efficiency
+
+> 原文：[https://tensorflow.google.cn/tutorials/keras/regression](https://tensorflow.google.cn/tutorials/keras/regression)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+在 *回归 (regression)* 问题中，我们的目的是预测出如价格或概率这样连续值的输出。相对于*分类(classification)* 问题，*分类(classification)* 的目的是从一系列的分类出选择出一个分类 （如，给出一张包含苹果或橘子的图片，识别出图片中是哪种水果）。
+
+本 notebook 使用经典的 [Auto MPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg) 数据集，构建了一个用来预测 70 年代末到 80 年代初汽车燃油效率的模型。为了做到这一点，我们将为该模型提供许多那个时期的汽车描述。这个描述包含：气缸数，排量，马力以及重量。
+
+本示例使用 [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) API，相关细节请参阅 [本指南](https://tensorflow.google.cn/guide/keras)。
+
+```py
+# 使用 seaborn 绘制矩阵图 (pairplot)
+pip install -q seaborn
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import pathlib
+
+import matplotlib.pyplot as plt
+import pandas as pd
+import seaborn as sns
+
+import tensorflow as tf
+
+from tensorflow import keras
+from tensorflow.keras import layers
+
+print(tf.__version__) 
+```
+
+```py
+2.3.0
+
+```
+
+## Auto MPG 数据集
+
+该数据集可以从 [UCI 机器学习库](https://archive.ics.uci.edu/ml/) 中获取.
+
+### 获取数据
+
+首先下载数据集。
+
+```py
+dataset_path = keras.utils.get_file("auto-mpg.data", "http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")
+dataset_path 
+```
+
+```py
+Downloading data from http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data
+32768/30286 [================================] - 0s 1us/step
+
+'/home/kbuilder/.keras/datasets/auto-mpg.data'
+
+```
+
+使用 pandas 导入数据集。
+
+```py
+column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
+                'Acceleration', 'Model Year', 'Origin']
+raw_dataset = pd.read_csv(dataset_path, names=column_names,
+                      na_values = "?", comment='\t',
+                      sep=" ", skipinitialspace=True)
+
+dataset = raw_dataset.copy()
+dataset.tail() 
+```
+
+<devsite-iframe><iframe src="/tutorials/keras/regression_c2c7b23a4a5727b4a9181f216946c4e868a70ec07f79be23388ba93b29ea1a47.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+### 数据清洗
+
+数据集中包括一些未知值。
+
+```py
+dataset.isna().sum() 
+```
+
+```py
+MPG             0
+Cylinders       0
+Displacement    0
+Horsepower      6
+Weight          0
+Acceleration    0
+Model Year      0
+Origin          0
+dtype: int64
+
+```
+
+为了保证这个初始示例的简单性，删除这些行。
+
+```py
+dataset = dataset.dropna() 
+```
+
+`"Origin"` 列实际上代表分类，而不仅仅是一个数字。所以把它转换为独热码 （one-hot）:
+
+```py
+origin = dataset.pop('Origin') 
+```
+
+```py
+dataset['USA'] = (origin == 1)*1.0
+dataset['Europe'] = (origin == 2)*1.0
+dataset['Japan'] = (origin == 3)*1.0
+dataset.tail() 
+```
+
+<devsite-iframe><iframe src="/tutorials/keras/regression_e0297b2db24ea564c306921a48f1bc40c18ddc626a86746db61cd82dbc3c3c20.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+### 拆分训练数据集和测试数据集
+
+现在需要将数据集拆分为一个训练数据集和一个测试数据集。
+
+我们最后将使用测试数据集对模型进行评估。
+
+```py
+train_dataset = dataset.sample(frac=0.8,random_state=0)
+test_dataset = dataset.drop(train_dataset.index) 
+```
+
+### 数据检查
+
+快速查看训练集中几对列的联合分布。
+
+```py
+sns.pairplot(train_dataset[["MPG", "Cylinders", "Displacement", "Weight"]], diag_kind="kde") 
+```
+
+```py
+<seaborn.axisgrid.PairGrid at 0x7f708ca93e80>
+
+```
+
+![png](img/4a4c68a2d8914e8b1b75bed4a9b81a5b.png)
+
+也可以查看总体的数据统计:
+
+```py
+train_stats = train_dataset.describe()
+train_stats.pop("MPG")
+train_stats = train_stats.transpose()
+train_stats 
+```
+
+<devsite-iframe><iframe src="/tutorials/keras/regression_ba0849c742fe92394897de4a92ca81859740311a71cec773244f86a46b761fea.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+### 从标签中分离特征
+
+将特征值从目标值或者"标签"中分离。 这个标签是你使用训练模型进行预测的值。
+
+```py
+train_labels = train_dataset.pop('MPG')
+test_labels = test_dataset.pop('MPG') 
+```
+
+### 数据规范化
+
+再次审视下上面的 `train_stats` 部分，并注意每个特征的范围有什么不同。
+
+使用不同的尺度和范围对特征归一化是好的实践。尽管模型*可能* 在没有特征归一化的情况下收敛，它会使得模型训练更加复杂，并会造成生成的模型依赖输入所使用的单位选择。
+
+注意：尽管我们仅仅从训练集中有意生成这些统计数据，但是这些统计信息也会用于归一化的测试数据集。我们需要这样做，将测试数据集放入到与已经训练过的模型相同的分布中。
+
+```py
+def norm(x):
+  return (x - train_stats['mean']) / train_stats['std']
+normed_train_data = norm(train_dataset)
+normed_test_data = norm(test_dataset) 
+```
+
+我们将会使用这个已经归一化的数据来训练模型。
+
+警告: 用于归一化输入的数据统计（均值和标准差）需要反馈给模型从而应用于任何其他数据，以及我们之前所获得独热码。这些数据包含测试数据集以及生产环境中所使用的实时数据。
+
+## 模型
+
+### 构建模型
+
+让我们来构建我们自己的模型。这里，我们将会使用一个“顺序”模型，其中包含两个紧密相连的隐藏层，以及返回单个、连续值得输出层。模型的构建步骤包含于一个名叫 'build_model' 的函数中，稍后我们将会创建第二个模型。 两个密集连接的隐藏层。
+
+```py
+def build_model():
+  model = keras.Sequential([
+    layers.Dense(64, activation='relu', input_shape=[len(train_dataset.keys())]),
+    layers.Dense(64, activation='relu'),
+    layers.Dense(1)
+  ])
+
+  optimizer = tf.keras.optimizers.RMSprop(0.001)
+
+  model.compile(loss='mse',
+                optimizer=optimizer,
+                metrics=['mae', 'mse'])
+  return model 
+```
+
+```py
+model = build_model() 
+```
+
+### 检查模型
+
+使用 `.summary` 方法来打印该模型的简单描述。
+
+```py
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense (Dense)                (None, 64)                640       
+_________________________________________________________________
+dense_1 (Dense)              (None, 64)                4160      
+_________________________________________________________________
+dense_2 (Dense)              (None, 1)                 65        
+=================================================================
+Total params: 4,865
+Trainable params: 4,865
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+现在试用下这个模型。从训练数据中批量获取‘10’条例子并对这些例子调用 `model.predict` 。
+
+```py
+example_batch = normed_train_data[:10]
+example_result = model.predict(example_batch)
+example_result 
+```
+
+```py
+array([[0.15074062],
+       [0.0973136 ],
+       [0.17310914],
+       [0.08873479],
+       [0.52456   ],
+       [0.05311462],
+       [0.49406645],
+       [0.04333409],
+       [0.12005241],
+       [0.6703117 ]], dtype=float32)
+
+```
+
+它似乎在工作，并产生了预期的形状和类型的结果
+
+### 训练模型
+
+对模型进行 1000 个周期的训练，并在 `history` 对象中记录训练和验证的准确性。
+
+```py
+# 通过为每个完成的时期打印一个点来显示训练进度
+class PrintDot(keras.callbacks.Callback):
+  def on_epoch_end(self, epoch, logs):
+    if epoch % 100 == 0: print('')
+    print('.', end='')
+
+EPOCHS = 1000
+
+history = model.fit(
+  normed_train_data, train_labels,
+  epochs=EPOCHS, validation_split = 0.2, verbose=0,
+  callbacks=[PrintDot()]) 
+```
+
+```py
+
+....................................................................................................
+....................................................................................................
+....................................................................................................
+....................................................................................................
+....................................................................................................
+....................................................................................................
+....................................................................................................
+....................................................................................................
+....................................................................................................
+....................................................................................................
+
+```
+
+使用 `history` 对象中存储的统计信息可视化模型的训练进度。
+
+```py
+hist = pd.DataFrame(history.history)
+hist['epoch'] = history.epoch
+hist.tail() 
+```
+
+<devsite-iframe><iframe src="/tutorials/keras/regression_52ac85b91795872c54d7abf74ad7251d16b43867b9d311b29a56d2648222a3f7.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+```py
+def plot_history(history):
+  hist = pd.DataFrame(history.history)
+  hist['epoch'] = history.epoch
+
+  plt.figure()
+  plt.xlabel('Epoch')
+  plt.ylabel('Mean Abs Error [MPG]')
+  plt.plot(hist['epoch'], hist['mae'],
+           label='Train Error')
+  plt.plot(hist['epoch'], hist['val_mae'],
+           label = 'Val Error')
+  plt.ylim([0,5])
+  plt.legend()
+
+  plt.figure()
+  plt.xlabel('Epoch')
+  plt.ylabel('Mean Square Error [$MPG^2$]')
+  plt.plot(hist['epoch'], hist['mse'],
+           label='Train Error')
+  plt.plot(hist['epoch'], hist['val_mse'],
+           label = 'Val Error')
+  plt.ylim([0,20])
+  plt.legend()
+  plt.show()
+
+plot_history(history) 
+```
+
+![png](img/7fe4fe0b14735050369dc31f05672d65.png)
+
+![png](img/29af7886a5834acb3b056b86d97b4128.png)
+
+该图表显示在约 100 个 epochs 之后误差非但没有改进，反而出现恶化。 让我们更新 `model.fit` 调用，当验证值没有提高上是自动停止训练。 我们将使用一个 *EarlyStopping callback* 来测试每个 epoch 的训练条件。如果经过一定数量的 epochs 后没有改进，则自动停止训练。
+
+你可以从[这里](https://tensorflow.google.cn/versions/master/api_docs/python/tf/keras/callbacks/EarlyStopping)学习到更多的回调。
+
+```py
+model = build_model()
+
+# patience 值用来检查改进 epochs 的数量
+early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)
+
+history = model.fit(normed_train_data, train_labels, epochs=EPOCHS,
+                    validation_split = 0.2, verbose=0, callbacks=[early_stop, PrintDot()])
+
+plot_history(history) 
+```
+
+```py
+
+....................................................................................................
+...........................
+
+```
+
+![png](img/253f679c0d56ad236d24246ddb70d466.png)
+
+![png](img/0f98889f249aed7e8f8f5e90e5432e08.png)
+
+如图所示，验证集中的平均的误差通常在 +/- 2 MPG 左右。 这个结果好么？ 我们将决定权留给你。
+
+让我们看看通过使用 **测试集** 来泛化模型的效果如何，我们在训练模型时没有使用测试集。这告诉我们，当我们在现实世界中使用这个模型时，我们可以期望它预测得有多好。
+
+```py
+loss, mae, mse = model.evaluate(normed_test_data, test_labels, verbose=2)
+
+print("Testing set Mean Abs Error: {:5.2f} MPG".format(mae)) 
+```
+
+```py
+3/3 - 0s - loss: 5.9941 - mae: 1.8809 - mse: 5.9941
+Testing set Mean Abs Error:  1.88 MPG
+
+```
+
+### 做预测
+
+最后，使用测试集中的数据预测 MPG 值:
+
+```py
+test_predictions = model.predict(normed_test_data).flatten()
+
+plt.scatter(test_labels, test_predictions)
+plt.xlabel('True Values [MPG]')
+plt.ylabel('Predictions [MPG]')
+plt.axis('equal')
+plt.axis('square')
+plt.xlim([0,plt.xlim()[1]])
+plt.ylim([0,plt.ylim()[1]])
+_ = plt.plot([-100, 100], [-100, 100]) 
+```
+
+![png](img/54c9e1f17ab75ca37c6360c3e5230475.png)
+
+这看起来我们的模型预测得相当好。我们来看下误差分布。
+
+```py
+error = test_predictions - test_labels
+plt.hist(error, bins = 25)
+plt.xlabel("Prediction Error [MPG]")
+_ = plt.ylabel("Count") 
+```
+
+![png](img/25091cb1e90c92e9948c6c6cb9d0238b.png)
+
+它不是完全的高斯分布，但我们可以推断出，这是因为样本的数量很小所导致的。
+
+## 结论
+
+本笔记本 (notebook) 介绍了一些处理回归问题的技术。
+
+*   均方误差（MSE）是用于回归问题的常见损失函数（分类问题中使用不同的损失函数）。
+*   类似的，用于回归的评估指标与分类不同。 常见的回归指标是平均绝对误差（MAE）。
+*   当数字输入数据特征的值存在不同范围时，每个特征应独立缩放到相同范围。
+*   如果训练数据不多，一种方法是选择隐藏层较少的小网络，以避免过度拟合。
+*   早期停止是一种防止过度拟合的有效技术。
+
+```py
+# MIT License
+#
+# Copyright (c) 2017 François Chollet
+#
+# Permission is hereby granted, free of charge, to any person obtaining a
+# copy of this software and associated documentation files (the "Software"),
+# to deal in the Software without restriction, including without limitation
+# the rights to use, copy, modify, merge, publish, distribute, sublicense,
+# and/or sell copies of the Software, and to permit persons to whom the
+# Software is furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
+# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
+# DEALINGS IN THE SOFTWARE. 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/010.md b/Tensorflow/TensorFlow2.0/010.md
new file mode 100644
index 00000000..622a0587
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/010.md
@@ -0,0 +1,915 @@
+# Overfit and underfit
+
+> 原文：[https://tensorflow.google.cn/tutorials/keras/overfit_and_underfit](https://tensorflow.google.cn/tutorials/keras/overfit_and_underfit)
+
+As always, the code in this example will use the [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) API, which you can learn more about in the TensorFlow [Keras guide](https://tensorflow.google.cn/guide/keras).
+
+In both of the previous examples—[classifying text](https://tensorflow.google.cn/tutorials/keras/text_classification_with_hub) and [predicting fuel efficiency](https://tensorflow.google.cn/tutorials/keras/regression) — we saw that the accuracy of our model on the validation data would peak after training for a number of epochs, and would then stagnate or start decreasing.
+
+In other words, our model would *overfit* to the training data. Learning how to deal with overfitting is important. Although it's often possible to achieve high accuracy on the *training set*, what we really want is to develop models that generalize well to a *testing set* (or data they haven't seen before).
+
+The opposite of overfitting is *underfitting*. Underfitting occurs when there is still room for improvement on the train data. This can happen for a number of reasons: If the model is not powerful enough, is over-regularized, or has simply not been trained long enough. This means the network has not learned the relevant patterns in the training data.
+
+If you train for too long though, the model will start to overfit and learn patterns from the training data that don't generalize to the test data. We need to strike a balance. Understanding how to train for an appropriate number of epochs as we'll explore below is a useful skill.
+
+To prevent overfitting, the best solution is to use more complete training data. The dataset should cover the full range of inputs that the model is expected to handle. Additional data may only be useful if it covers new and interesting cases.
+
+A model trained on more complete data will naturally generalize better. When that is no longer possible, the next best solution is to use techniques like regularization. These place constraints on the quantity and type of information your model can store. If a network can only afford to memorize a small number of patterns, the optimization process will force it to focus on the most prominent patterns, which have a better chance of generalizing well.
+
+In this notebook, we'll explore several common regularization techniques, and use them to improve on a classification model.
+
+## Setup
+
+Before getting started, import the necessary packages:
+
+```py
+import tensorflow as tf
+
+from tensorflow.keras import layers
+from tensorflow.keras import regularizers
+
+print(tf.__version__) 
+```
+
+```py
+2.3.1
+
+```
+
+```py
+!pip install -q git+https://github.com/tensorflow/docs
+
+import tensorflow_docs as tfdocs
+import tensorflow_docs.modeling
+import tensorflow_docs.plots 
+```
+
+```py
+from  IPython import display
+from matplotlib import pyplot as plt
+
+import numpy as np
+
+import pathlib
+import shutil
+import tempfile 
+```
+
+```py
+logdir = pathlib.Path(tempfile.mkdtemp())/"tensorboard_logs"
+shutil.rmtree(logdir, ignore_errors=True) 
+```
+
+## The Higgs Dataset
+
+The goal of this tutorial is not to do particle physics, so don't dwell on the details of the dataset. It contains 11 000 000 examples, each with 28 features, and a binary class label.
+
+```py
+gz = tf.keras.utils.get_file('HIGGS.csv.gz', 'http://mlphysics.ics.uci.edu/data/higgs/HIGGS.csv.gz') 
+```
+
+```py
+Downloading data from http://mlphysics.ics.uci.edu/data/higgs/HIGGS.csv.gz
+2816409600/2816407858 [==============================] - 230s 0us/step
+
+```
+
+```py
+FEATURES = 28 
+```
+
+The [`tf.data.experimental.CsvDataset`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/CsvDataset) class can be used to read csv records directly from a gzip file with no intermediate decompression step.
+
+```py
+ds = tf.data.experimental.CsvDataset(gz,[float(),]*(FEATURES+1), compression_type="GZIP") 
+```
+
+That csv reader class returns a list of scalars for each record. The following function repacks that list of scalars into a (feature_vector, label) pair.
+
+```py
+def pack_row(*row):
+  label = row[0]
+  features = tf.stack(row[1:],1)
+  return features, label 
+```
+
+TensorFlow is most efficient when operating on large batches of data.
+
+So instead of repacking each row individually make a new `Dataset` that takes batches of 10000-examples, applies the `pack_row` function to each batch, and then splits the batches back up into individual records:
+
+```py
+packed_ds = ds.batch(10000).map(pack_row).unbatch() 
+```
+
+Have a look at some of the records from this new `packed_ds`.
+
+The features are not perfectly normalized, but this is sufficient for this tutorial.
+
+```py
+for features,label in packed_ds.batch(1000).take(1):
+  print(features[0])
+  plt.hist(features.numpy().flatten(), bins = 101) 
+```
+
+```py
+tf.Tensor(
+[ 0.8692932  -0.6350818   0.22569026  0.32747006 -0.6899932   0.75420225
+ -0.24857314 -1.0920639   0\.          1.3749921  -0.6536742   0.9303491
+  1.1074361   1.1389043  -1.5781983  -1.0469854   0\.          0.65792954
+ -0.01045457 -0.04576717  3.1019614   1.35376     0.9795631   0.97807616
+  0.92000484  0.72165745  0.98875093  0.87667835], shape=(28,), dtype=float32)
+
+```
+
+![png](img/b4bcda4ec74a98071e75941c07503a6c.png)
+
+To keep this tutorial relatively short use just the first 1000 samples for validation, and the next 10 000 for training:
+
+```py
+N_VALIDATION = int(1e3)
+N_TRAIN = int(1e4)
+BUFFER_SIZE = int(1e4)
+BATCH_SIZE = 500
+STEPS_PER_EPOCH = N_TRAIN//BATCH_SIZE 
+```
+
+The [`Dataset.skip`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#skip) and [`Dataset.take`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#take) methods make this easy.
+
+At the same time, use the [`Dataset.cache`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#cache) method to ensure that the loader doesn't need to re-read the data from the file on each epoch:
+
+```py
+validate_ds = packed_ds.take(N_VALIDATION).cache()
+train_ds = packed_ds.skip(N_VALIDATION).take(N_TRAIN).cache() 
+```
+
+```py
+train_ds 
+```
+
+```py
+<CacheDataset shapes: ((28,), ()), types: (tf.float32, tf.float32)>
+
+```
+
+These datasets return individual examples. Use the `.batch` method to create batches of an appropriate size for training. Before batching also remember to `.shuffle` and `.repeat` the training set.
+
+```py
+validate_ds = validate_ds.batch(BATCH_SIZE)
+train_ds = train_ds.shuffle(BUFFER_SIZE).repeat().batch(BATCH_SIZE) 
+```
+
+## Demonstrate overfitting
+
+The simplest way to prevent overfitting is to start with a small model: A model with a small number of learnable parameters (which is determined by the number of layers and the number of units per layer). In deep learning, the number of learnable parameters in a model is often referred to as the model's "capacity".
+
+Intuitively, a model with more parameters will have more "memorization capacity" and therefore will be able to easily learn a perfect dictionary-like mapping between training samples and their targets, a mapping without any generalization power, but this would be useless when making predictions on previously unseen data.
+
+Always keep this in mind: deep learning models tend to be good at fitting to the training data, but the real challenge is generalization, not fitting.
+
+On the other hand, if the network has limited memorization resources, it will not be able to learn the mapping as easily. To minimize its loss, it will have to learn compressed representations that have more predictive power. At the same time, if you make your model too small, it will have difficulty fitting to the training data. There is a balance between "too much capacity" and "not enough capacity".
+
+Unfortunately, there is no magical formula to determine the right size or architecture of your model (in terms of the number of layers, or the right size for each layer). You will have to experiment using a series of different architectures.
+
+To find an appropriate model size, it's best to start with relatively few layers and parameters, then begin increasing the size of the layers or adding new layers until you see diminishing returns on the validation loss.
+
+Start with a simple model using only [`layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) as a baseline, then create larger versions, and compare them.
+
+### Training procedure
+
+Many models train better if you gradually reduce the learning rate during training. Use [`optimizers.schedules`](https://tensorflow.google.cn/api_docs/python/tf/keras/optimizers/schedules) to reduce the learning rate over time:
+
+```py
+lr_schedule = tf.keras.optimizers.schedules.InverseTimeDecay(
+  0.001,
+  decay_steps=STEPS_PER_EPOCH*1000,
+  decay_rate=1,
+  staircase=False)
+
+def get_optimizer():
+  return tf.keras.optimizers.Adam(lr_schedule) 
+```
+
+The code above sets a [`schedules.InverseTimeDecay`](https://tensorflow.google.cn/api_docs/python/tf/keras/optimizers/schedules/InverseTimeDecay) to hyperbolically decrease the learning rate to 1/2 of the base rate at 1000 epochs, 1/3 at 2000 epochs and so on.
+
+```py
+step = np.linspace(0,100000)
+lr = lr_schedule(step)
+plt.figure(figsize = (8,6))
+plt.plot(step/STEPS_PER_EPOCH, lr)
+plt.ylim([0,max(plt.ylim())])
+plt.xlabel('Epoch')
+_ = plt.ylabel('Learning Rate') 
+```
+
+![png](img/1d906c8d5397ad3e918d2a91fcfbb78e.png)
+
+Each model in this tutorial will use the same training configuration. So set these up in a reusable way, starting with the list of callbacks.
+
+The training for this tutorial runs for many short epochs. To reduce the logging noise use the `tfdocs.EpochDots` which simply prints a `.` for each epoch, and a full set of metrics every 100 epochs.
+
+Next include [`callbacks.EarlyStopping`](https://tensorflow.google.cn/api_docs/python/tf/keras/callbacks/EarlyStopping) to avoid long and unnecessary training times. Note that this callback is set to monitor the `val_binary_crossentropy`, not the `val_loss`. This difference will be important later.
+
+Use [`callbacks.TensorBoard`](https://tensorflow.google.cn/api_docs/python/tf/keras/callbacks/TensorBoard) to generate TensorBoard logs for the training.
+
+```py
+def get_callbacks(name):
+  return [
+    tfdocs.modeling.EpochDots(),
+    tf.keras.callbacks.EarlyStopping(monitor='val_binary_crossentropy', patience=200),
+    tf.keras.callbacks.TensorBoard(logdir/name),
+  ] 
+```
+
+Similarly each model will use the same [`Model.compile`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#compile) and [`Model.fit`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#fit) settings:
+
+```py
+def compile_and_fit(model, name, optimizer=None, max_epochs=10000):
+  if optimizer is None:
+    optimizer = get_optimizer()
+  model.compile(optimizer=optimizer,
+                loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
+                metrics=[
+                  tf.keras.losses.BinaryCrossentropy(
+                      from_logits=True, name='binary_crossentropy'),
+                  'accuracy'])
+
+  model.summary()
+
+  history = model.fit(
+    train_ds,
+    steps_per_epoch = STEPS_PER_EPOCH,
+    epochs=max_epochs,
+    validation_data=validate_ds,
+    callbacks=get_callbacks(name),
+    verbose=0)
+  return history 
+```
+
+### Tiny model
+
+Start by training a model:
+
+```py
+tiny_model = tf.keras.Sequential([
+    layers.Dense(16, activation='elu', input_shape=(FEATURES,)),
+    layers.Dense(1)
+]) 
+```
+
+```py
+size_histories = {} 
+```
+
+```py
+size_histories['Tiny'] = compile_and_fit(tiny_model, 'sizes/Tiny') 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense (Dense)                (None, 16)                464       
+_________________________________________________________________
+dense_1 (Dense)              (None, 1)                 17        
+=================================================================
+Total params: 481
+Trainable params: 481
+Non-trainable params: 0
+_________________________________________________________________
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/ops/summary_ops_v2.py:1277: stop (from tensorflow.python.eager.profiler) is deprecated and will be removed after 2020-07-01.
+Instructions for updating:
+use `tf.profiler.experimental.stop` instead.
+WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0032s vs `on_train_batch_end` time: 0.0255s). Check your callbacks.
+
+Epoch: 0, accuracy:0.5092,  binary_crossentropy:0.7752,  loss:0.7752,  val_accuracy:0.5110,  val_binary_crossentropy:0.7376,  val_loss:0.7376,  
+....................................................................................................
+Epoch: 100, accuracy:0.6028,  binary_crossentropy:0.6251,  loss:0.6251,  val_accuracy:0.5680,  val_binary_crossentropy:0.6271,  val_loss:0.6271,  
+....................................................................................................
+Epoch: 200, accuracy:0.6231,  binary_crossentropy:0.6137,  loss:0.6137,  val_accuracy:0.5920,  val_binary_crossentropy:0.6146,  val_loss:0.6146,  
+....................................................................................................
+Epoch: 300, accuracy:0.6356,  binary_crossentropy:0.6038,  loss:0.6038,  val_accuracy:0.6190,  val_binary_crossentropy:0.6051,  val_loss:0.6051,  
+....................................................................................................
+Epoch: 400, accuracy:0.6470,  binary_crossentropy:0.5963,  loss:0.5963,  val_accuracy:0.6330,  val_binary_crossentropy:0.5968,  val_loss:0.5968,  
+....................................................................................................
+Epoch: 500, accuracy:0.6619,  binary_crossentropy:0.5909,  loss:0.5909,  val_accuracy:0.6280,  val_binary_crossentropy:0.5939,  val_loss:0.5939,  
+....................................................................................................
+Epoch: 600, accuracy:0.6618,  binary_crossentropy:0.5872,  loss:0.5872,  val_accuracy:0.6630,  val_binary_crossentropy:0.5910,  val_loss:0.5910,  
+....................................................................................................
+Epoch: 700, accuracy:0.6655,  binary_crossentropy:0.5847,  loss:0.5847,  val_accuracy:0.6290,  val_binary_crossentropy:0.5940,  val_loss:0.5940,  
+....................................................................................................
+Epoch: 800, accuracy:0.6683,  binary_crossentropy:0.5819,  loss:0.5819,  val_accuracy:0.6510,  val_binary_crossentropy:0.5908,  val_loss:0.5908,  
+....................................................................................................
+Epoch: 900, accuracy:0.6722,  binary_crossentropy:0.5797,  loss:0.5797,  val_accuracy:0.6620,  val_binary_crossentropy:0.5907,  val_loss:0.5907,  
+....................................................................................................
+Epoch: 1000, accuracy:0.6761,  binary_crossentropy:0.5779,  loss:0.5779,  val_accuracy:0.6470,  val_binary_crossentropy:0.5910,  val_loss:0.5910,  
+...............................
+
+```
+
+Now check how the model did:
+
+```py
+plotter = tfdocs.plots.HistoryPlotter(metric = 'binary_crossentropy', smoothing_std=10)
+plotter.plot(size_histories)
+plt.ylim([0.5, 0.7]) 
+```
+
+```py
+(0.5, 0.7)
+
+```
+
+![png](img/f865018e54d4c67ed60313c72d71e99c.png)
+
+### Small model
+
+To see if you can beat the performance of the small model, progressively train some larger models.
+
+Try two hidden layers with 16 units each:
+
+```py
+small_model = tf.keras.Sequential([
+    # `input_shape` is only required here so that `.summary` works.
+    layers.Dense(16, activation='elu', input_shape=(FEATURES,)),
+    layers.Dense(16, activation='elu'),
+    layers.Dense(1)
+]) 
+```
+
+```py
+size_histories['Small'] = compile_and_fit(small_model, 'sizes/Small') 
+```
+
+```py
+Model: "sequential_1"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense_2 (Dense)              (None, 16)                464       
+_________________________________________________________________
+dense_3 (Dense)              (None, 16)                272       
+_________________________________________________________________
+dense_4 (Dense)              (None, 1)                 17        
+=================================================================
+Total params: 753
+Trainable params: 753
+Non-trainable params: 0
+_________________________________________________________________
+WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0037s vs `on_train_batch_end` time: 0.0530s). Check your callbacks.
+
+Epoch: 0, accuracy:0.5029,  binary_crossentropy:0.7257,  loss:0.7257,  val_accuracy:0.4720,  val_binary_crossentropy:0.6927,  val_loss:0.6927,  
+....................................................................................................
+Epoch: 100, accuracy:0.6153,  binary_crossentropy:0.6185,  loss:0.6185,  val_accuracy:0.6290,  val_binary_crossentropy:0.6112,  val_loss:0.6112,  
+....................................................................................................
+Epoch: 200, accuracy:0.6551,  binary_crossentropy:0.5940,  loss:0.5940,  val_accuracy:0.6540,  val_binary_crossentropy:0.5941,  val_loss:0.5941,  
+....................................................................................................
+Epoch: 300, accuracy:0.6678,  binary_crossentropy:0.5824,  loss:0.5824,  val_accuracy:0.6680,  val_binary_crossentropy:0.5904,  val_loss:0.5904,  
+....................................................................................................
+Epoch: 400, accuracy:0.6731,  binary_crossentropy:0.5754,  loss:0.5754,  val_accuracy:0.6630,  val_binary_crossentropy:0.5872,  val_loss:0.5872,  
+....................................................................................................
+Epoch: 500, accuracy:0.6836,  binary_crossentropy:0.5679,  loss:0.5679,  val_accuracy:0.6740,  val_binary_crossentropy:0.5834,  val_loss:0.5834,  
+....................................................................................................
+Epoch: 600, accuracy:0.6839,  binary_crossentropy:0.5617,  loss:0.5617,  val_accuracy:0.6760,  val_binary_crossentropy:0.5849,  val_loss:0.5849,  
+....................................................................................................
+
+```
+
+### Medium model
+
+Now try 3 hidden layers with 64 units each:
+
+```py
+medium_model = tf.keras.Sequential([
+    layers.Dense(64, activation='elu', input_shape=(FEATURES,)),
+    layers.Dense(64, activation='elu'),
+    layers.Dense(64, activation='elu'),
+    layers.Dense(1)
+]) 
+```
+
+And train the model using the same data:
+
+```py
+size_histories['Medium']  = compile_and_fit(medium_model, "sizes/Medium") 
+```
+
+```py
+Model: "sequential_2"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense_5 (Dense)              (None, 64)                1856      
+_________________________________________________________________
+dense_6 (Dense)              (None, 64)                4160      
+_________________________________________________________________
+dense_7 (Dense)              (None, 64)                4160      
+_________________________________________________________________
+dense_8 (Dense)              (None, 1)                 65        
+=================================================================
+Total params: 10,241
+Trainable params: 10,241
+Non-trainable params: 0
+_________________________________________________________________
+WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0039s vs `on_train_batch_end` time: 0.0548s). Check your callbacks.
+
+Epoch: 0, accuracy:0.5027,  binary_crossentropy:0.6936,  loss:0.6936,  val_accuracy:0.5150,  val_binary_crossentropy:0.6758,  val_loss:0.6758,  
+....................................................................................................
+Epoch: 100, accuracy:0.7075,  binary_crossentropy:0.5382,  loss:0.5382,  val_accuracy:0.6670,  val_binary_crossentropy:0.6027,  val_loss:0.6027,  
+....................................................................................................
+Epoch: 200, accuracy:0.7705,  binary_crossentropy:0.4498,  loss:0.4498,  val_accuracy:0.6200,  val_binary_crossentropy:0.6833,  val_loss:0.6833,  
+...................................................................
+
+```
+
+### Large model
+
+As an exercise, you can create an even larger model, and see how quickly it begins overfitting. Next, let's add to this benchmark a network that has much more capacity, far more than the problem would warrant:
+
+```py
+large_model = tf.keras.Sequential([
+    layers.Dense(512, activation='elu', input_shape=(FEATURES,)),
+    layers.Dense(512, activation='elu'),
+    layers.Dense(512, activation='elu'),
+    layers.Dense(512, activation='elu'),
+    layers.Dense(1)
+]) 
+```
+
+And, again, train the model using the same data:
+
+```py
+size_histories['large'] = compile_and_fit(large_model, "sizes/large") 
+```
+
+```py
+Model: "sequential_3"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense_9 (Dense)              (None, 512)               14848     
+_________________________________________________________________
+dense_10 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dense_11 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dense_12 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dense_13 (Dense)             (None, 1)                 513       
+=================================================================
+Total params: 803,329
+Trainable params: 803,329
+Non-trainable params: 0
+_________________________________________________________________
+WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0041s vs `on_train_batch_end` time: 0.0613s). Check your callbacks.
+
+Epoch: 0, accuracy:0.5072,  binary_crossentropy:0.8249,  loss:0.8249,  val_accuracy:0.4810,  val_binary_crossentropy:0.6884,  val_loss:0.6884,  
+....................................................................................................
+Epoch: 100, accuracy:1.0000,  binary_crossentropy:0.0025,  loss:0.0025,  val_accuracy:0.6590,  val_binary_crossentropy:1.8242,  val_loss:1.8242,  
+....................................................................................................
+Epoch: 200, accuracy:1.0000,  binary_crossentropy:0.0001,  loss:0.0001,  val_accuracy:0.6590,  val_binary_crossentropy:2.5014,  val_loss:2.5014,  
+......................
+
+```
+
+### Plot the training and validation losses
+
+The solid lines show the training loss, and the dashed lines show the validation loss (remember: a lower validation loss indicates a better model).
+
+While building a larger model gives it more power, if this power is not constrained somehow it can easily overfit to the training set.
+
+In this example, typically, only the `"Tiny"` model manages to avoid overfitting altogether, and each of the larger models overfit the data more quickly. This becomes so severe for the `"large"` model that you need to switch the plot to a log-scale to really see what's happening.
+
+This is apparent if you plot and compare the validation metrics to the training metrics.
+
+*   It's normal for there to be a small difference.
+*   If both metrics are moving in the same direction, everything is fine.
+*   If the validation metric begins to stagnate while the training metric continues to improve, you are probably close to overfitting.
+*   If the validation metric is going in the wrong direction, the model is clearly overfitting.
+
+```py
+plotter.plot(size_histories)
+a = plt.xscale('log')
+plt.xlim([5, max(plt.xlim())])
+plt.ylim([0.5, 0.7])
+plt.xlabel("Epochs [Log Scale]") 
+```
+
+```py
+Text(0.5, 0, 'Epochs [Log Scale]')
+
+```
+
+![png](img/4c173dbd57644fa57c04cf1d62ca75e4.png)
+
+**Note:** All the above training runs used the [`callbacks.EarlyStopping`](https://tensorflow.google.cn/api_docs/python/tf/keras/callbacks/EarlyStopping) to end the training once it was clear the model was not making progress.
+
+### View in TensorBoard
+
+These models all wrote TensorBoard logs during training.
+
+Open an embedded TensorBoard viewer inside a notebook:
+
+```py
+ # Load the TensorBoard notebook extension
+%load_ext tensorboard
+
+# Open an embedded TensorBoard viewer
+%tensorboard --logdir {logdir}/sizes 
+```
+
+You can view the [results of a previous run](https://tensorboard.dev/experiment/vW7jmmF9TmKmy3rbheMQpw/#scalars&_smoothingWeight=0.97) of this notebook on [TensorBoard.dev](https://tensorboard.dev/).
+
+TensorBoard.dev is a managed experience for hosting, tracking, and sharing ML experiments with everyone.
+
+It's also included in an `<iframe>` for convenience:
+
+```py
+display.IFrame(
+    src="https://tensorboard.dev/experiment/vW7jmmF9TmKmy3rbheMQpw/#scalars&_smoothingWeight=0.97",
+    width="100%", height="800px") 
+```
+
+<devsite-iframe><iframe src="/tutorials/keras/overfit_and_underfit_b2e3abde2baf0d401dd70acbfc9be7edb69d49549b568d7034c72e54ebb5f379.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+If you want to share TensorBoard results you can upload the logs to [TensorBoard.dev](https://tensorboard.dev/) by copying the following into a code-cell.
+
+**Note:** This step requires a Google account.
+
+```py
+tensorboard dev upload --logdir  {logdir}/sizes
+
+```
+
+**Caution:** This command does not terminate. It's designed to continuously upload the results of long-running experiments. Once your data is uploaded you need to stop it using the "interrupt execution" option in your notebook tool.
+
+## Strategies to prevent overfitting
+
+Before getting into the content of this section copy the training logs from the `"Tiny"` model above, to use as a baseline for comparison.
+
+```py
+shutil.rmtree(logdir/'regularizers/Tiny', ignore_errors=True)
+shutil.copytree(logdir/'sizes/Tiny', logdir/'regularizers/Tiny') 
+```
+
+```py
+PosixPath('/tmp/tmp9n203dpq/tensorboard_logs/regularizers/Tiny')
+
+```
+
+```py
+regularizer_histories = {}
+regularizer_histories['Tiny'] = size_histories['Tiny'] 
+```
+
+### Add weight regularization
+
+You may be familiar with Occam's Razor principle: given two explanations for something, the explanation most likely to be correct is the "simplest" one, the one that makes the least amount of assumptions. This also applies to the models learned by neural networks: given some training data and a network architecture, there are multiple sets of weights values (multiple models) that could explain the data, and simpler models are less likely to overfit than complex ones.
+
+A "simple model" in this context is a model where the distribution of parameter values has less entropy (or a model with fewer parameters altogether, as we saw in the section above). Thus a common way to mitigate overfitting is to put constraints on the complexity of a network by forcing its weights only to take small values, which makes the distribution of weight values more "regular". This is called "weight regularization", and it is done by adding to the loss function of the network a cost associated with having large weights. This cost comes in two flavors:
+
+*   [L1 regularization](https://developers.google.cn/machine-learning/glossary/#L1_regularization), where the cost added is proportional to the absolute value of the weights coefficients (i.e. to what is called the "L1 norm" of the weights).
+
+*   [L2 regularization](https://developers.google.cn/machine-learning/glossary/#L2_regularization), where the cost added is proportional to the square of the value of the weights coefficients (i.e. to what is called the squared "L2 norm" of the weights). L2 regularization is also called weight decay in the context of neural networks. Don't let the different name confuse you: weight decay is mathematically the exact same as L2 regularization.
+
+L1 regularization pushes weights towards exactly zero encouraging a sparse model. L2 regularization will penalize the weights parameters without making them sparse since the penalty goes to zero for small weights. one reason why L2 is more common.
+
+In [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras), weight regularization is added by passing weight regularizer instances to layers as keyword arguments. Let's add L2 weight regularization now.
+
+```py
+l2_model = tf.keras.Sequential([
+    layers.Dense(512, activation='elu',
+                 kernel_regularizer=regularizers.l2(0.001),
+                 input_shape=(FEATURES,)),
+    layers.Dense(512, activation='elu',
+                 kernel_regularizer=regularizers.l2(0.001)),
+    layers.Dense(512, activation='elu',
+                 kernel_regularizer=regularizers.l2(0.001)),
+    layers.Dense(512, activation='elu',
+                 kernel_regularizer=regularizers.l2(0.001)),
+    layers.Dense(1)
+])
+
+regularizer_histories['l2'] = compile_and_fit(l2_model, "regularizers/l2") 
+```
+
+```py
+Model: "sequential_4"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense_14 (Dense)             (None, 512)               14848     
+_________________________________________________________________
+dense_15 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dense_16 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dense_17 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dense_18 (Dense)             (None, 1)                 513       
+=================================================================
+Total params: 803,329
+Trainable params: 803,329
+Non-trainable params: 0
+_________________________________________________________________
+WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0040s vs `on_train_batch_end` time: 0.0613s). Check your callbacks.
+
+Epoch: 0, accuracy:0.5087,  binary_crossentropy:0.8160,  loss:2.3363,  val_accuracy:0.4770,  val_binary_crossentropy:0.6979,  val_loss:2.1441,  
+....................................................................................................
+Epoch: 100, accuracy:0.6607,  binary_crossentropy:0.5920,  loss:0.6163,  val_accuracy:0.6530,  val_binary_crossentropy:0.5831,  val_loss:0.6076,  
+....................................................................................................
+Epoch: 200, accuracy:0.6820,  binary_crossentropy:0.5789,  loss:0.6033,  val_accuracy:0.6690,  val_binary_crossentropy:0.5799,  val_loss:0.6044,  
+....................................................................................................
+Epoch: 300, accuracy:0.6865,  binary_crossentropy:0.5696,  loss:0.5947,  val_accuracy:0.6360,  val_binary_crossentropy:0.5839,  val_loss:0.6088,  
+....................................................................................................
+Epoch: 400, accuracy:0.6908,  binary_crossentropy:0.5639,  loss:0.5908,  val_accuracy:0.6840,  val_binary_crossentropy:0.5898,  val_loss:0.6167,  
+..........................................
+
+```
+
+`l2(0.001)` means that every coefficient in the weight matrix of the layer will add `0.001 * weight_coefficient_value**2` to the total **loss** of the network.
+
+That is why we're monitoring the `binary_crossentropy` directly. Because it doesn't have this regularization component mixed in.
+
+So, that same `"Large"` model with an `L2` regularization penalty performs much better:
+
+```py
+plotter.plot(regularizer_histories)
+plt.ylim([0.5, 0.7]) 
+```
+
+```py
+(0.5, 0.7)
+
+```
+
+![png](img/87e59b9663f1f875cba8bbc04b3ec8d7.png)
+
+As you can see, the `"L2"` regularized model is now much more competitive with the the `"Tiny"` model. This `"L2"` model is also much more resistant to overfitting than the `"Large"` model it was based on despite having the same number of parameters.
+
+#### More info
+
+There are two important things to note about this sort of regularization.
+
+**First:** if you are writing your own training loop, then you need to be sure to ask the model for its regularization losses.
+
+```py
+result = l2_model(features)
+regularization_loss=tf.add_n(l2_model.losses) 
+```
+
+**Second:** This implementation works by adding the weight penalties to the model's loss, and then applying a standard optimization procedure after that.
+
+There is a second approach that instead only runs the optimizer on the raw loss, and then while applying the calculated step the optimizer also applies some weight decay. This "Decoupled Weight Decay" is seen in optimizers like `optimizers.FTRL` and [`optimizers.AdamW`](https://tensorflow.google.cn/addons/api_docs/python/tfa/optimizers/AdamW).
+
+### Add dropout
+
+Dropout is one of the most effective and most commonly used regularization techniques for neural networks, developed by Hinton and his students at the University of Toronto.
+
+The intuitive explanation for dropout is that because individual nodes in the network cannot rely on the output of the others, each node must output features that are useful on their own.
+
+Dropout, applied to a layer, consists of randomly "dropping out" (i.e. set to zero) a number of output features of the layer during training. Let's say a given layer would normally have returned a vector [0.2, 0.5, 1.3, 0.8, 1.1] for a given input sample during training; after applying dropout, this vector will have a few zero entries distributed at random, e.g. [0, 0.5, 1.3, 0, 1.1].
+
+The "dropout rate" is the fraction of the features that are being zeroed-out; it is usually set between 0.2 and 0.5\. At test time, no units are dropped out, and instead the layer's output values are scaled down by a factor equal to the dropout rate, so as to balance for the fact that more units are active than at training time.
+
+In [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) you can introduce dropout in a network via the Dropout layer, which gets applied to the output of layer right before.
+
+Let's add two Dropout layers in our network to see how well they do at reducing overfitting:
+
+```py
+dropout_model = tf.keras.Sequential([
+    layers.Dense(512, activation='elu', input_shape=(FEATURES,)),
+    layers.Dropout(0.5),
+    layers.Dense(512, activation='elu'),
+    layers.Dropout(0.5),
+    layers.Dense(512, activation='elu'),
+    layers.Dropout(0.5),
+    layers.Dense(512, activation='elu'),
+    layers.Dropout(0.5),
+    layers.Dense(1)
+])
+
+regularizer_histories['dropout'] = compile_and_fit(dropout_model, "regularizers/dropout") 
+```
+
+```py
+Model: "sequential_5"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense_19 (Dense)             (None, 512)               14848     
+_________________________________________________________________
+dropout (Dropout)            (None, 512)               0         
+_________________________________________________________________
+dense_20 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dropout_1 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_21 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dropout_2 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_22 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dropout_3 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_23 (Dense)             (None, 1)                 513       
+=================================================================
+Total params: 803,329
+Trainable params: 803,329
+Non-trainable params: 0
+_________________________________________________________________
+WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0040s vs `on_train_batch_end` time: 0.0632s). Check your callbacks.
+
+Epoch: 0, accuracy:0.5073,  binary_crossentropy:0.7984,  loss:0.7984,  val_accuracy:0.5200,  val_binary_crossentropy:0.6761,  val_loss:0.6761,  
+....................................................................................................
+Epoch: 100, accuracy:0.6576,  binary_crossentropy:0.5965,  loss:0.5965,  val_accuracy:0.6730,  val_binary_crossentropy:0.5833,  val_loss:0.5833,  
+....................................................................................................
+Epoch: 200, accuracy:0.6861,  binary_crossentropy:0.5554,  loss:0.5554,  val_accuracy:0.6790,  val_binary_crossentropy:0.5830,  val_loss:0.5830,  
+....................................................................................................
+Epoch: 300, accuracy:0.7280,  binary_crossentropy:0.5102,  loss:0.5102,  val_accuracy:0.6860,  val_binary_crossentropy:0.6088,  val_loss:0.6088,  
+................
+
+```
+
+```py
+plotter.plot(regularizer_histories)
+plt.ylim([0.5, 0.7]) 
+```
+
+```py
+(0.5, 0.7)
+
+```
+
+![png](img/b5a9ca25aab20c2b09a25fdab4c2b92b.png)
+
+It's clear from this plot that both of these regularization approaches improve the behavior of the `"Large"` model. But this still doesn't beat even the `"Tiny"` baseline.
+
+Next try them both, together, and see if that does better.
+
+### Combined L2 + dropout
+
+```py
+combined_model = tf.keras.Sequential([
+    layers.Dense(512, kernel_regularizer=regularizers.l2(0.0001),
+                 activation='elu', input_shape=(FEATURES,)),
+    layers.Dropout(0.5),
+    layers.Dense(512, kernel_regularizer=regularizers.l2(0.0001),
+                 activation='elu'),
+    layers.Dropout(0.5),
+    layers.Dense(512, kernel_regularizer=regularizers.l2(0.0001),
+                 activation='elu'),
+    layers.Dropout(0.5),
+    layers.Dense(512, kernel_regularizer=regularizers.l2(0.0001),
+                 activation='elu'),
+    layers.Dropout(0.5),
+    layers.Dense(1)
+])
+
+regularizer_histories['combined'] = compile_and_fit(combined_model, "regularizers/combined") 
+```
+
+```py
+Model: "sequential_6"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense_24 (Dense)             (None, 512)               14848     
+_________________________________________________________________
+dropout_4 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_25 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dropout_5 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_26 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dropout_6 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_27 (Dense)             (None, 512)               262656    
+_________________________________________________________________
+dropout_7 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_28 (Dense)             (None, 1)                 513       
+=================================================================
+Total params: 803,329
+Trainable params: 803,329
+Non-trainable params: 0
+_________________________________________________________________
+WARNING:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0046s vs `on_train_batch_end` time: 0.0686s). Check your callbacks.
+
+Epoch: 0, accuracy:0.5034,  binary_crossentropy:0.8003,  loss:0.9588,  val_accuracy:0.5040,  val_binary_crossentropy:0.6752,  val_loss:0.8330,  
+....................................................................................................
+Epoch: 100, accuracy:0.6514,  binary_crossentropy:0.6067,  loss:0.6373,  val_accuracy:0.6470,  val_binary_crossentropy:0.5868,  val_loss:0.6173,  
+....................................................................................................
+Epoch: 200, accuracy:0.6664,  binary_crossentropy:0.5900,  loss:0.6158,  val_accuracy:0.6510,  val_binary_crossentropy:0.5795,  val_loss:0.6053,  
+....................................................................................................
+Epoch: 300, accuracy:0.6690,  binary_crossentropy:0.5822,  loss:0.6104,  val_accuracy:0.6940,  val_binary_crossentropy:0.5611,  val_loss:0.5892,  
+....................................................................................................
+Epoch: 400, accuracy:0.6773,  binary_crossentropy:0.5764,  loss:0.6063,  val_accuracy:0.6820,  val_binary_crossentropy:0.5539,  val_loss:0.5839,  
+....................................................................................................
+Epoch: 500, accuracy:0.6840,  binary_crossentropy:0.5695,  loss:0.6012,  val_accuracy:0.6870,  val_binary_crossentropy:0.5500,  val_loss:0.5818,  
+....................................................................................................
+Epoch: 600, accuracy:0.6821,  binary_crossentropy:0.5692,  loss:0.6023,  val_accuracy:0.6850,  val_binary_crossentropy:0.5456,  val_loss:0.5787,  
+....................................................................................................
+Epoch: 700, accuracy:0.6836,  binary_crossentropy:0.5678,  loss:0.6021,  val_accuracy:0.6870,  val_binary_crossentropy:0.5502,  val_loss:0.5846,  
+....................................................................................................
+Epoch: 800, accuracy:0.6908,  binary_crossentropy:0.5585,  loss:0.5940,  val_accuracy:0.7000,  val_binary_crossentropy:0.5424,  val_loss:0.5780,  
+....................................................................................................
+Epoch: 900, accuracy:0.6931,  binary_crossentropy:0.5583,  loss:0.5948,  val_accuracy:0.6860,  val_binary_crossentropy:0.5447,  val_loss:0.5813,  
+....................................................................................................
+Epoch: 1000, accuracy:0.6919,  binary_crossentropy:0.5563,  loss:0.5940,  val_accuracy:0.7100,  val_binary_crossentropy:0.5422,  val_loss:0.5799,  
+....................................................................................................
+Epoch: 1100, accuracy:0.6914,  binary_crossentropy:0.5545,  loss:0.5935,  val_accuracy:0.6940,  val_binary_crossentropy:0.5375,  val_loss:0.5765,  
+....................................................................................................
+Epoch: 1200, accuracy:0.7012,  binary_crossentropy:0.5466,  loss:0.5867,  val_accuracy:0.6970,  val_binary_crossentropy:0.5429,  val_loss:0.5831,  
+....................................................................................................
+Epoch: 1300, accuracy:0.6939,  binary_crossentropy:0.5491,  loss:0.5903,  val_accuracy:0.6950,  val_binary_crossentropy:0.5477,  val_loss:0.5890,  
+..
+
+```
+
+```py
+plotter.plot(regularizer_histories)
+plt.ylim([0.5, 0.7]) 
+```
+
+```py
+(0.5, 0.7)
+
+```
+
+![png](img/77a7189086e1a02a870dbf630c311e5d.png)
+
+This model with the `"Combined"` regularization is obviously the best one so far.
+
+### View in TensorBoard
+
+These models also recorded TensorBoard logs.
+
+To open an embedded tensorboard viewer inside a notebook, copy the following into a code-cell:
+
+```py
+%tensorboard --logdir {logdir}/regularizers 
+```
+
+You can view the [results of a previous run](https://tensorboard.dev/experiment/fGInKDo8TXes1z7HQku9mw/#scalars&_smoothingWeight=0.97) of this notebook on [TensorDoard.dev](https://tensorboard.dev/).
+
+It's also included in an `<iframe>` for convenience:
+
+```py
+display.IFrame(
+    src="https://tensorboard.dev/experiment/fGInKDo8TXes1z7HQku9mw/#scalars&_smoothingWeight=0.97",
+    width = "100%",
+    height="800px") 
+```
+
+<devsite-iframe><iframe src="/tutorials/keras/overfit_and_underfit_f819422029cc7c7599f992ca8b2e0ee4056caa3f25d943155639b7c69c4525de.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+This was uploaded with:
+
+```py
+tensorboard dev upload --logdir  {logdir}/regularizers
+
+```
+
+## Conclusions
+
+To recap: here are the most common ways to prevent overfitting in neural networks:
+
+*   Get more training data.
+*   Reduce the capacity of the network.
+*   Add weight regularization.
+*   Add dropout.
+
+Two important approaches not covered in this guide are:
+
+*   data-augmentation
+*   batch normalization
+
+Remember that each method can help on its own, but often combining them can be even more effective.
+
+```py
+# MIT License
+#
+# Copyright (c) 2017 François Chollet
+#
+# Permission is hereby granted, free of charge, to any person obtaining a
+# copy of this software and associated documentation files (the "Software"),
+# to deal in the Software without restriction, including without limitation
+# the rights to use, copy, modify, merge, publish, distribute, sublicense,
+# and/or sell copies of the Software, and to permit persons to whom the
+# Software is furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
+# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
+# DEALINGS IN THE SOFTWARE. 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/011.md b/Tensorflow/TensorFlow2.0/011.md
new file mode 100644
index 00000000..616ca1de
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/011.md
@@ -0,0 +1,610 @@
+# 保存和恢复模型
+
+> 原文：[https://tensorflow.google.cn/tutorials/keras/save_and_load](https://tensorflow.google.cn/tutorials/keras/save_and_load)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+模型可以在训练期间和训练完成后进行保存。这意味着模型可以从任意中断中恢复，并避免耗费比较长的时间在训练上。保存也意味着您可以共享您的模型，而其他人可以通过您的模型来重新创建工作。在发布研究模型和技术时，大多数机器学习从业者分享：
+
+*   用于创建模型的代码
+*   模型训练的权重 (weight) 和参数 (parameters) 。
+
+共享数据有助于其他人了解模型的工作原理，并使用新数据自行尝试。
+
+注意：小心不受信任的代码——Tensorflow 模型是代码。有关详细信息，请参阅 [安全使用 Tensorflow](https://github.com/tensorflow/tensorflow/blob/master/SECURITY.md)。
+
+### 选项
+
+保存 Tensorflow 的模型有许多方法——具体取决于您使用的 API。本指南使用 [tf.keras](https://tensorflow.google.cn/guide/keras)， 一个高级 API 用于在 Tensorflow 中构建和训练模型。有关其他方法的实现，请参阅 TensorFlow [保存和恢复](https://tensorflow.google.cn/guide/saved_model)指南或[保存到 eager](https://tensorflow.google.cn/guide/eager#object-based_saving)。
+
+## 配置
+
+### 安装并导入
+
+安装并导入 Tensorflow 和依赖项：
+
+```py
+pip install -q pyyaml h5py  # 以 HDF5 格式保存模型所必须
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import os
+
+import tensorflow as tf
+from tensorflow import keras
+
+print(tf.version.VERSION) 
+```
+
+```py
+2.3.0
+
+```
+
+### 获取示例数据集
+
+要演示如何保存和加载权重，您将使用 [MNIST 数据集](http://yann.lecun.com/exdb/mnist/). 要加快运行速度，请使用前 1000 个示例：
+
+```py
+(train_images, train_labels), (test_images, test_labels) = tf.keras.datasets.mnist.load_data()
+
+train_labels = train_labels[:1000]
+test_labels = test_labels[:1000]
+
+train_images = train_images[:1000].reshape(-1, 28 * 28) / 255.0
+test_images = test_images[:1000].reshape(-1, 28 * 28) / 255.0 
+```
+
+### 定义模型
+
+首先构建一个简单的序列（sequential）模型：
+
+```py
+# 定义一个简单的序列模型
+def create_model():
+  model = tf.keras.models.Sequential([
+    keras.layers.Dense(512, activation='relu', input_shape=(784,)),
+    keras.layers.Dropout(0.2),
+    keras.layers.Dense(10)
+  ])
+
+  model.compile(optimizer='adam',
+                loss=tf.losses.SparseCategoricalCrossentropy(from_logits=True),
+                metrics=['accuracy'])
+
+  return model
+
+# 创建一个基本的模型实例
+model = create_model()
+
+# 显示模型的结构
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense (Dense)                (None, 512)               401920    
+_________________________________________________________________
+dropout (Dropout)            (None, 512)               0         
+_________________________________________________________________
+dense_1 (Dense)              (None, 10)                5130      
+=================================================================
+Total params: 407,050
+Trainable params: 407,050
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+## 在训练期间保存模型（以 checkpoints 形式保存）
+
+您可以使用训练好的模型而无需从头开始重新训练，或在您打断的地方开始训练，以防止训练过程没有保存。 [`tf.keras.callbacks.ModelCheckpoint`](https://tensorflow.google.cn/api_docs/python/tf/keras/callbacks/ModelCheckpoint) 允许在训练的*过程中*和*结束时*回调保存的模型。
+
+### Checkpoint 回调用法
+
+创建一个只在训练期间保存权重的 [`tf.keras.callbacks.ModelCheckpoint`](https://tensorflow.google.cn/api_docs/python/tf/keras/callbacks/ModelCheckpoint) 回调：
+
+```py
+checkpoint_path = "training_1/cp.ckpt"
+checkpoint_dir = os.path.dirname(checkpoint_path)
+
+# 创建一个保存模型权重的回调
+cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_path,
+                                                 save_weights_only=True,
+                                                 verbose=1)
+
+# 使用新的回调训练模型
+model.fit(train_images, 
+          train_labels,  
+          epochs=10,
+          validation_data=(test_images,test_labels),
+          callbacks=[cp_callback])  # 通过回调训练
+
+# 这可能会生成与保存优化程序状态相关的警告。
+# 这些警告（以及整个笔记本中的类似警告）
+# 是防止过时使用，可以忽略。 
+```
+
+```py
+Epoch 1/10
+29/32 [==========================>...] - ETA: 0s - loss: 1.1844 - accuracy: 0.6595
+Epoch 00001: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 8ms/step - loss: 1.1300 - accuracy: 0.6770 - val_loss: 0.7189 - val_accuracy: 0.7780
+Epoch 2/10
+30/32 [===========================>..] - ETA: 0s - loss: 0.4232 - accuracy: 0.8792
+Epoch 00002: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 5ms/step - loss: 0.4216 - accuracy: 0.8800 - val_loss: 0.5160 - val_accuracy: 0.8470
+Epoch 3/10
+29/32 [==========================>...] - ETA: 0s - loss: 0.2964 - accuracy: 0.9149
+Epoch 00003: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 4ms/step - loss: 0.2988 - accuracy: 0.9170 - val_loss: 0.4753 - val_accuracy: 0.8560
+Epoch 4/10
+29/32 [==========================>...] - ETA: 0s - loss: 0.2057 - accuracy: 0.9494
+Epoch 00004: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 4ms/step - loss: 0.2086 - accuracy: 0.9500 - val_loss: 0.4375 - val_accuracy: 0.8600
+Epoch 5/10
+29/32 [==========================>...] - ETA: 0s - loss: 0.1512 - accuracy: 0.9666
+Epoch 00005: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 4ms/step - loss: 0.1488 - accuracy: 0.9680 - val_loss: 0.4275 - val_accuracy: 0.8660
+Epoch 6/10
+30/32 [===========================>..] - ETA: 0s - loss: 0.1130 - accuracy: 0.9823
+Epoch 00006: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 4ms/step - loss: 0.1134 - accuracy: 0.9820 - val_loss: 0.4309 - val_accuracy: 0.8630
+Epoch 7/10
+29/32 [==========================>...] - ETA: 0s - loss: 0.0829 - accuracy: 0.9925
+Epoch 00007: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 4ms/step - loss: 0.0838 - accuracy: 0.9920 - val_loss: 0.4079 - val_accuracy: 0.8680
+Epoch 8/10
+29/32 [==========================>...] - ETA: 0s - loss: 0.0624 - accuracy: 0.9946
+Epoch 00008: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 4ms/step - loss: 0.0627 - accuracy: 0.9950 - val_loss: 0.4176 - val_accuracy: 0.8690
+Epoch 9/10
+29/32 [==========================>...] - ETA: 0s - loss: 0.0520 - accuracy: 0.9946
+Epoch 00009: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 4ms/step - loss: 0.0508 - accuracy: 0.9950 - val_loss: 0.4600 - val_accuracy: 0.8450
+Epoch 10/10
+29/32 [==========================>...] - ETA: 0s - loss: 0.0462 - accuracy: 0.9968
+Epoch 00010: saving model to training_1/cp.ckpt
+32/32 [==============================] - 0s 4ms/step - loss: 0.0459 - accuracy: 0.9970 - val_loss: 0.4378 - val_accuracy: 0.8660
+
+<tensorflow.python.keras.callbacks.History at 0x7fe7b286b710>
+
+```
+
+这将创建一个 TensorFlow checkpoint 文件集合，这些文件在每个 epoch 结束时更新：
+
+```py
+ls {checkpoint_dir}
+
+```
+
+```py
+checkpoint  cp.ckpt.data-00000-of-00001  cp.ckpt.index
+
+```
+
+创建一个新的未经训练的模型。仅恢复模型的权重时，必须具有与原始模型具有相同网络结构的模型。由于模型具有相同的结构，您可以共享权重，尽管它是模型的不同*实例*。 现在重建一个新的未经训练的模型，并在测试集上进行评估。未经训练的模型将在机会水平（chance levels）上执行（准确度约为 10％）：
+
+```py
+# 创建一个基本模型实例
+model = create_model()
+
+# 评估模型
+loss, acc = model.evaluate(test_images,  test_labels, verbose=2)
+print("Untrained model, accuracy: {:5.2f}%".format(100*acc)) 
+```
+
+```py
+32/32 - 0s - loss: 2.3734 - accuracy: 0.0990
+Untrained model, accuracy:  9.90%
+
+```
+
+然后从 checkpoint 加载权重并重新评估：
+
+```py
+# 加载权重
+model.load_weights(checkpoint_path)
+
+# 重新评估模型
+loss,acc = model.evaluate(test_images,  test_labels, verbose=2)
+print("Restored model, accuracy: {:5.2f}%".format(100*acc)) 
+```
+
+```py
+32/32 - 0s - loss: 0.4378 - accuracy: 0.8660
+Restored model, accuracy: 86.60%
+
+```
+
+### checkpoint 回调选项
+
+回调提供了几个选项，为 checkpoint 提供唯一名称并调整 checkpoint 频率。
+
+训练一个新模型，每五个 epochs 保存一次唯一命名的 checkpoint ：
+
+```py
+# 在文件名中包含 epoch (使用 `str.format`)
+checkpoint_path = "training_2/cp-{epoch:04d}.ckpt"
+checkpoint_dir = os.path.dirname(checkpoint_path)
+
+# 创建一个回调，每 5 个 epochs 保存模型的权重
+cp_callback = tf.keras.callbacks.ModelCheckpoint(
+    filepath=checkpoint_path, 
+    verbose=1, 
+    save_weights_only=True,
+    period=5)
+
+# 创建一个新的模型实例
+model = create_model()
+
+# 使用 `checkpoint_path` 格式保存权重
+model.save_weights(checkpoint_path.format(epoch=0))
+
+# 使用新的回调训练模型
+model.fit(train_images, 
+          train_labels,
+          epochs=50, 
+          callbacks=[cp_callback],
+          validation_data=(test_images,test_labels),
+          verbose=0) 
+```
+
+```py
+WARNING:tensorflow:`period` argument is deprecated. Please use `save_freq` to specify the frequency in number of batches seen.
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.iter
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.beta_1
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.beta_2
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.decay
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.learning_rate
+WARNING:tensorflow:A checkpoint was restored (e.g. tf.train.Checkpoint.restore or tf.keras.Model.load_weights) but not all checkpointed values were used. See above for specific issues. Use expect_partial() on the load status object, e.g. tf.train.Checkpoint.restore(...).expect_partial(), to silence these warnings, or use assert_consumed() to make the check explicit. See https://www.tensorflow.org/guide/checkpoint#loading_mechanics for details.
+
+Epoch 00005: saving model to training_2/cp-0005.ckpt
+
+Epoch 00010: saving model to training_2/cp-0010.ckpt
+
+Epoch 00015: saving model to training_2/cp-0015.ckpt
+
+Epoch 00020: saving model to training_2/cp-0020.ckpt
+
+Epoch 00025: saving model to training_2/cp-0025.ckpt
+
+Epoch 00030: saving model to training_2/cp-0030.ckpt
+
+Epoch 00035: saving model to training_2/cp-0035.ckpt
+
+Epoch 00040: saving model to training_2/cp-0040.ckpt
+
+Epoch 00045: saving model to training_2/cp-0045.ckpt
+
+Epoch 00050: saving model to training_2/cp-0050.ckpt
+
+<tensorflow.python.keras.callbacks.History at 0x7fe8021c76a0>
+
+```
+
+现在查看生成的 checkpoint 并选择最新的 checkpoint ：
+
+```py
+ls {checkpoint_dir}
+
+```
+
+```py
+checkpoint            cp-0025.ckpt.index
+cp-0000.ckpt.data-00000-of-00001  cp-0030.ckpt.data-00000-of-00001
+cp-0000.ckpt.index        cp-0030.ckpt.index
+cp-0005.ckpt.data-00000-of-00001  cp-0035.ckpt.data-00000-of-00001
+cp-0005.ckpt.index        cp-0035.ckpt.index
+cp-0010.ckpt.data-00000-of-00001  cp-0040.ckpt.data-00000-of-00001
+cp-0010.ckpt.index        cp-0040.ckpt.index
+cp-0015.ckpt.data-00000-of-00001  cp-0045.ckpt.data-00000-of-00001
+cp-0015.ckpt.index        cp-0045.ckpt.index
+cp-0020.ckpt.data-00000-of-00001  cp-0050.ckpt.data-00000-of-00001
+cp-0020.ckpt.index        cp-0050.ckpt.index
+cp-0025.ckpt.data-00000-of-00001
+
+```
+
+```py
+latest = tf.train.latest_checkpoint(checkpoint_dir)
+latest 
+```
+
+```py
+'training_2/cp-0050.ckpt'
+
+```
+
+注意: 默认的 tensorflow 格式仅保存最近的 5 个 checkpoint 。
+
+如果要进行测试，请重置模型并加载最新的 checkpoint ：
+
+```py
+# 创建一个新的模型实例
+model = create_model()
+
+# 加载以前保存的权重
+model.load_weights(latest)
+
+# 重新评估模型
+loss, acc = model.evaluate(test_images,  test_labels, verbose=2)
+print("Restored model, accuracy: {:5.2f}%".format(100*acc)) 
+```
+
+```py
+32/32 - 0s - loss: 0.4836 - accuracy: 0.8750
+Restored model, accuracy: 87.50%
+
+```
+
+## 这些文件是什么？
+
+上述代码将权重存储到 [checkpoint](https://tensorflow.google.cn/guide/saved_model#save_and_restore_variables)—— 格式化文件的集合中，这些文件仅包含二进制格式的训练权重。 Checkpoints 包含：
+
+*   一个或多个包含模型权重的分片。
+*   索引文件，指示哪些权重存储在哪个分片中。
+
+如果你只在一台机器上训练一个模型，你将有一个带有后缀的碎片： `.data-00000-of-00001`
+
+## 手动保存权重
+
+您将了解如何将权重加载到模型中。使用 [`Model.save_weights`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#save_weights) 方法手动保存它们同样简单。默认情况下， [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) 和 `save_weights` 特别使用 TensorFlow [checkpoints](https://tensorflow.google.cn/guide/keras/checkpoints) 格式 `.ckpt` 扩展名和 ( 保存在 [HDF5](https://js.tensorflow.org/tutorials/import-keras.html) 扩展名为 `.h5` [保存并序列化模型](https://tensorflow.google.cn/guide/keras/save_and_serialize#weights_only_saving_in_savedmodel_format) )：
+
+```py
+# 保存权重
+model.save_weights('./checkpoints/my_checkpoint')
+
+# 创建模型实例
+model = create_model()
+
+# 恢复权重
+model.load_weights('./checkpoints/my_checkpoint')
+
+# 评估模型
+loss,acc = model.evaluate(test_images,  test_labels, verbose=2)
+print("Restored model, accuracy: {:5.2f}%".format(100*acc)) 
+```
+
+```py
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.iter
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.beta_1
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.beta_2
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.decay
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.learning_rate
+WARNING:tensorflow:A checkpoint was restored (e.g. tf.train.Checkpoint.restore or tf.keras.Model.load_weights) but not all checkpointed values were used. See above for specific issues. Use expect_partial() on the load status object, e.g. tf.train.Checkpoint.restore(...).expect_partial(), to silence these warnings, or use assert_consumed() to make the check explicit. See https://www.tensorflow.org/guide/checkpoint#loading_mechanics for details.
+32/32 - 0s - loss: 0.4836 - accuracy: 0.8750
+Restored model, accuracy: 87.50%
+
+```
+
+## 保存整个模型
+
+调用 [`model.save`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#save) 将保存模型的结构，权重和训练配置保存在单个文件/文件夹中。这可以让您导出模型，以便在不访问原始 Python 代码*的情况下使用它。因为优化器状态（optimizer-state）已经恢复，您可以从中断的位置恢复训练。
+
+整个模型可以以两种不同的文件格式（`SavedModel` 和 `HDF5`）进行保存。需要注意的是 TensorFlow 的 `SavedModel` 格式是 TF2.x. 中的默认文件格式。但是，模型仍可以以 `HDF5` 格式保存。下面介绍了以两种文件格式保存整个模型的更多详细信息。
+
+保存完整模型会非常有用——您可以在 TensorFlow.js（[Saved Model](https://tensorflow.google.cn/js/tutorials/conversion/import_saved_model), [HDF5](https://tensorflow.google.cn/js/tutorials/conversion/import_keras)）加载它们，然后在 web 浏览器中训练和运行它们，或者使用 TensorFlow Lite 将它们转换为在移动设备上运行（[Saved Model](https://tensorflow.google.cn/lite/convert/python_api#converting_a_savedmodel_), [HDF5](https://tensorflow.google.cn/lite/convert/python_api#converting_a_keras_model_)）
+
+*自定义对象（例如，子类化模型或层）在保存和加载时需要特别注意。请参阅下面的**保存自定义对象**部分
+
+### SavedModel 格式
+
+SavedModel 格式是序列化模型的另一种方法。以这种格式保存的模型，可以使用 [`tf.keras.models.load_model`](https://tensorflow.google.cn/api_docs/python/tf/keras/models/load_model) 还原，并且模型与 TensorFlow Serving 兼容。[SavedModel 指南](https://tensorflow.google.cn/guide/saved_model)详细介绍了如何提供/检查 SavedModel。以下部分说明了保存和还原模型的步骤。
+
+```py
+# 创建并训练一个新的模型实例。
+model = create_model()
+model.fit(train_images, train_labels, epochs=5)
+
+# 将整个模型另存为 SavedModel。
+!mkdir -p saved_model
+model.save('saved_model/my_model') 
+```
+
+```py
+Epoch 1/5
+32/32 [==============================] - 0s 2ms/step - loss: 1.1705 - accuracy: 0.6690
+Epoch 2/5
+32/32 [==============================] - 0s 2ms/step - loss: 0.4326 - accuracy: 0.8780
+Epoch 3/5
+32/32 [==============================] - 0s 2ms/step - loss: 0.2910 - accuracy: 0.9190
+Epoch 4/5
+32/32 [==============================] - 0s 2ms/step - loss: 0.2045 - accuracy: 0.9520
+Epoch 5/5
+32/32 [==============================] - 0s 2ms/step - loss: 0.1538 - accuracy: 0.9650
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+INFO:tensorflow:Assets written to: saved_model/my_model/assets
+
+```
+
+SavedModel 格式是一个包含 protobuf 二进制文件和 Tensorflow 检查点（checkpoint）的目录。检查保存的模型目录：
+
+```py
+# my_model 文件夹
+ls saved_model
+
+# 包含一个 assets 文件夹，saved_model.pb，和变量文件夹。
+ls saved_model/my_model
+
+```
+
+```py
+my_model
+assets  saved_model.pb  variables
+
+```
+
+从保存的模型重新加载新的 Keras 模型：
+
+```py
+new_model = tf.keras.models.load_model('saved_model/my_model')
+
+# 检查其架构
+new_model.summary() 
+```
+
+```py
+Model: "sequential_5"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense_10 (Dense)             (None, 512)               401920    
+_________________________________________________________________
+dropout_5 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_11 (Dense)             (None, 10)                5130      
+=================================================================
+Total params: 407,050
+Trainable params: 407,050
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+还原的模型使用与原始模型相同的参数进行编译。 尝试使用加载的模型运行评估和预测：
+
+```py
+# 评估还原的模型
+loss, acc = new_model.evaluate(test_images,  test_labels, verbose=2)
+print('Restored model, accuracy: {:5.2f}%'.format(100*acc))
+
+print(new_model.predict(test_images).shape) 
+```
+
+```py
+32/32 - 0s - loss: 0.4630 - accuracy: 0.0890
+Restored model, accuracy:  8.90%
+(1000, 10)
+
+```
+
+### HDF5 格式
+
+Keras 使用 [HDF5](https://en.wikipedia.org/wiki/Hierarchical_Data_Format) 标准提供了一种基本的保存格式。
+
+```py
+# 创建并训练一个新的模型实例
+model = create_model()
+model.fit(train_images, train_labels, epochs=5)
+
+# 将整个模型保存为 HDF5 文件。
+# '.h5' 扩展名指示应将模型保存到 HDF5。
+model.save('my_model.h5') 
+```
+
+```py
+Epoch 1/5
+32/32 [==============================] - 0s 2ms/step - loss: 1.1465 - accuracy: 0.6560
+Epoch 2/5
+32/32 [==============================] - 0s 2ms/step - loss: 0.4152 - accuracy: 0.8850
+Epoch 3/5
+32/32 [==============================] - 0s 2ms/step - loss: 0.2801 - accuracy: 0.9280
+Epoch 4/5
+32/32 [==============================] - 0s 2ms/step - loss: 0.2108 - accuracy: 0.9480
+Epoch 5/5
+32/32 [==============================] - 0s 2ms/step - loss: 0.1520 - accuracy: 0.9660
+
+```
+
+现在，从该文件重新创建模型：
+
+```py
+# 重新创建完全相同的模型，包括其权重和优化程序
+new_model = tf.keras.models.load_model('my_model.h5')
+
+# 显示网络结构
+new_model.summary() 
+```
+
+```py
+Model: "sequential_6"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense_12 (Dense)             (None, 512)               401920    
+_________________________________________________________________
+dropout_6 (Dropout)          (None, 512)               0         
+_________________________________________________________________
+dense_13 (Dense)             (None, 10)                5130      
+=================================================================
+Total params: 407,050
+Trainable params: 407,050
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+检查其准确率（accuracy）：
+
+```py
+loss, acc = new_model.evaluate(test_images,  test_labels, verbose=2)
+print('Restored model, accuracy: {:5.2f}%'.format(100*acc)) 
+```
+
+```py
+32/32 - 0s - loss: 0.4639 - accuracy: 0.0840
+Restored model, accuracy:  8.40%
+
+```
+
+Keras 通过检查网络结构来保存模型。这项技术可以保存一切:
+
+*   权重值
+*   模型的架构
+*   模型的训练配置(您传递给编译的内容)
+*   优化器及其状态（如果有的话）（这使您可以在中断的地方重新开始训练）
+
+Keras 无法保存 `v1.x` 优化器（来自 [`tf.compat.v1.train`](https://tensorflow.google.cn/api_docs/python/tf/compat/v1/train)），因为它们与检查点不兼容。对于 v1.x 优化器，您需要在加载-失去优化器的状态后，重新编译模型。
+
+### 保存自定义对象
+
+如果使用的是 SavedModel 格式，则可以跳过此部分。HDF5 和 SavedModel 之间的主要区别在于，HDF5 使用对象配置保存模型结构，而 SavedModel 保存执行图。因此，SavedModel 能够保存自定义对象，例如子类化模型和自定义层，而无需原始代码。
+
+要将自定义对象保存到 HDF5，必须执行以下操作:
+
+1.  在对象中定义一个 `get_config` 方法，以及可选的 `from_config` 类方法。
+    *   `get_config(self)` 返回重新创建对象所需的参数的 JSON 可序列化字典。
+    *   `from_config(cls, config)` 使用从 get_config 返回的 config 来创建一个新对象。默认情况下，此函数将使用 config 作为初始化 kwargs（`return cls(**config)`）。
+2.  加载模型时，将对象传递给 `custom_objects` 参数。参数必须是将字符串类名称映射到 Python 类的字典。例如，`tf.keras.models.load_model(path, custom_objects={'CustomLayer': CustomLayer})`
+
+有关自定义对象和 `get_config` 的示例，请参见[从头开始编写层和模型](https://tensorflow.google.cn/guide/keras/custom_layers_and_models)教程。
+
+```py
+# MIT License
+#
+# Copyright (c) 2017 François Chollet
+#
+# Permission is hereby granted, free of charge, to any person obtaining a
+# copy of this software and associated documentation files (the "Software"),
+# to deal in the Software without restriction, including without limitation
+# the rights to use, copy, modify, merge, publish, distribute, sublicense,
+# and/or sell copies of the Software, and to permit persons to whom the
+# Software is furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
+# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
+# DEALINGS IN THE SOFTWARE. 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/012.md b/Tensorflow/TensorFlow2.0/012.md
new file mode 100644
index 00000000..466f1be0
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/012.md
@@ -0,0 +1,180 @@
+# Introduction to the Keras Tuner
+
+> 原文：[https://tensorflow.google.cn/tutorials/keras/keras_tuner](https://tensorflow.google.cn/tutorials/keras/keras_tuner)
+
+## Overview
+
+The Keras Tuner is a library that helps you pick the optimal set of hyperparameters for your TensorFlow program. The process of selecting the right set of hyperparameters for your machine learning (ML) application is called *hyperparameter tuning* or *hypertuning*.
+
+Hyperparameters are the variables that govern the training process and the topology of an ML model. These variables remain constant over the training process and directly impact the performance of your ML program. Hyperparameters are of two types:
+
+1.  **Model hyperparameters** which influence model selection such as the number and width of hidden layers
+2.  **Algorithm hyperparameters** which influence the speed and quality of the learning algorithm such as the learning rate for Stochastic Gradient Descent (SGD) and the number of nearest neighbors for a k Nearest Neighbors (KNN) classifier
+
+In this tutorial, you will use the Keras Tuner to perform hypertuning for an image classification application.
+
+## Setup
+
+```py
+import tensorflow as tf
+from tensorflow import keras
+
+import IPython 
+```
+
+Install and import the Keras Tuner.
+
+```py
+!pip install -q -U keras-tuner
+import kerastuner as kt 
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+## Download and prepare the dataset
+
+In this tutorial, you will use the Keras Tuner to find the best hyperparameters for a machine learning model that classifies images of clothing from the [Fashion MNIST dataset](https://github.com/zalandoresearch/fashion-mnist).
+
+Load the data.
+
+```py
+(img_train, label_train), (img_test, label_test) = keras.datasets.fashion_mnist.load_data() 
+```
+
+```py
+# Normalize pixel values between 0 and 1
+img_train = img_train.astype('float32') / 255.0
+img_test = img_test.astype('float32') / 255.0 
+```
+
+## Define the model
+
+When you build a model for hypertuning, you also define the hyperparameter search space in addition to the model architecture. The model you set up for hypertuning is called a *hypermodel*.
+
+You can define a hypermodel through two approaches:
+
+*   By using a model builder function
+*   By subclassing the `HyperModel` class of the Keras Tuner API
+
+You can also use two pre-defined `HyperModel` classes - [HyperXception](https://keras-team.github.io/keras-tuner/documentation/hypermodels/#hyperxception-class) and [HyperResNet](https://keras-team.github.io/keras-tuner/documentation/hypermodels/#hyperresnet-class) for computer vision applications.
+
+In this tutorial, you use a model builder function to define the image classification model. The model builder function returns a compiled model and uses hyperparameters you define inline to hypertune the model.
+
+```py
+def model_builder(hp):
+  model = keras.Sequential()
+  model.add(keras.layers.Flatten(input_shape=(28, 28)))
+
+  # Tune the number of units in the first Dense layer
+  # Choose an optimal value between 32-512
+  hp_units = hp.Int('units', min_value = 32, max_value = 512, step = 32)
+  model.add(keras.layers.Dense(units = hp_units, activation = 'relu'))
+  model.add(keras.layers.Dense(10))
+
+  # Tune the learning rate for the optimizer 
+  # Choose an optimal value from 0.01, 0.001, or 0.0001
+  hp_learning_rate = hp.Choice('learning_rate', values = [1e-2, 1e-3, 1e-4]) 
+
+  model.compile(optimizer = keras.optimizers.Adam(learning_rate = hp_learning_rate),
+                loss = keras.losses.SparseCategoricalCrossentropy(from_logits = True), 
+                metrics = ['accuracy'])
+
+  return model 
+```
+
+## Instantiate the tuner and perform hypertuning
+
+Instantiate the tuner to perform the hypertuning. The Keras Tuner has four tuners available - `RandomSearch`, `Hyperband`, `BayesianOptimization`, and `Sklearn`. In this tutorial, you use the [Hyperband](https://arxiv.org/pdf/1603.06560.pdf) tuner.
+
+To instantiate the Hyperband tuner, you must specify the hypermodel, the `objective` to optimize and the maximum number of epochs to train (`max_epochs`).
+
+```py
+tuner = kt.Hyperband(model_builder,
+                     objective = 'val_accuracy', 
+                     max_epochs = 10,
+                     factor = 3,
+                     directory = 'my_dir',
+                     project_name = 'intro_to_kt') 
+```
+
+The Hyperband tuning algorithm uses adaptive resource allocation and early-stopping to quickly converge on a high-performing model. This is done using a sports championship style bracket. The algorithm trains a large number of models for a few epochs and carries forward only the top-performing half of models to the next round. Hyperband determines the number of models to train in a bracket by computing 1 + log<sub>`factor`</sub>(`max_epochs`) and rounding it up to the nearest integer.
+
+Before running the hyperparameter search, define a callback to clear the training outputs at the end of every training step.
+
+```py
+class ClearTrainingOutput(tf.keras.callbacks.Callback):
+  def on_train_end(*args, **kwargs):
+    IPython.display.clear_output(wait = True) 
+```
+
+Run the hyperparameter search. The arguments for the search method are the same as those used for `tf.keras.model.fit` in addition to the callback above.
+
+```py
+tuner.search(img_train, label_train, epochs = 10, validation_data = (img_test, label_test), callbacks = [ClearTrainingOutput()])
+
+# Get the optimal hyperparameters
+best_hps = tuner.get_best_hyperparameters(num_trials = 1)[0]
+
+print(f"""
+The hyperparameter search is complete. The optimal number of units in the first densely-connected
+layer is {best_hps.get('units')} and the optimal learning rate for the optimizer
+is {best_hps.get('learning_rate')}.
+""") 
+```
+
+<devsite-iframe><iframe src="/tutorials/keras/keras_tuner_a519a78fea1911af04b2b9f7741c7a9753570cdd628b143c45b62cc7e1dd9962.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_ba2b44510f9e52684b49b0a894a6561d8e3fe1f44b674eb91418c93636c5e160.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_c2c5323108f4a7f5343e68d7709c1634a11ab4e4f369de802dd6d70997cc3c6f.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_f2075d216cc02c6b0dc3c4178af7fa1943023cb5865c03f9f49d5ead7e18701b.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_9ba94851ba50c73e2db777d333047fc2c1874bebed4fbfea5a7380298e700a65.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_50ba5b64a7fe929f83ea8725a872fdc9dedf3ef0ce7b7405a67a068666fabd73.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_168a4b88269c92f3ed9acf9a80c2b878f4fd9ca3ead0b2cdb205c4130bd83094.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_47b0a34966f43feebd04e333a60e16b04a27545aa60bf5520a59d6d7548fb9d7.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_e3825583c6f56f151f2465e7f385806859a0162d75c21b38045cdc1c9440c8e4.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_2e55df2b3a5831eeb4af6388d0d5dcb4bc9072b2679abd631ce3b38072257a12.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_6a5cdf58938bdd56963be72d5e8fe1cac4b1945785df35af1116dc123d320e58.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_ff7616aec6013d63a1d3c5dc5d4d5f8713577dac721174196098b2213945656a.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe><devsite-iframe><iframe src="/tutorials/keras/keras_tuner_e0f11c6203af33c31efc4fcbd8ab0f615a85620bf28f4672f398a6c8860a3a39.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+```py
+Epoch 3/4
+ 911/1875 [=============>................] - ETA: 1s - loss: 0.5757 - accuracy: 0.8040
+
+```
+
+To finish this tutorial, retrain the model with the optimal hyperparameters from the search.
+
+```py
+# Build the model with the optimal hyperparameters and train it on the data
+model = tuner.hypermodel.build(best_hps)
+model.fit(img_train, label_train, epochs = 10, validation_data = (img_test, label_test)) 
+```
+
+```py
+Epoch 1/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.4787 - accuracy: 0.8303 - val_loss: 0.4199 - val_accuracy: 0.8509
+Epoch 2/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.3600 - accuracy: 0.8684 - val_loss: 0.3902 - val_accuracy: 0.8570
+Epoch 3/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.3253 - accuracy: 0.8794 - val_loss: 0.3670 - val_accuracy: 0.8689
+Epoch 4/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.3038 - accuracy: 0.8874 - val_loss: 0.3714 - val_accuracy: 0.8684
+Epoch 5/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.2842 - accuracy: 0.8939 - val_loss: 0.3527 - val_accuracy: 0.8758
+Epoch 6/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.2678 - accuracy: 0.9005 - val_loss: 0.3334 - val_accuracy: 0.8785
+Epoch 7/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.2533 - accuracy: 0.9055 - val_loss: 0.3277 - val_accuracy: 0.8834
+Epoch 8/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.2445 - accuracy: 0.9089 - val_loss: 0.3487 - val_accuracy: 0.8768
+Epoch 9/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.2352 - accuracy: 0.9116 - val_loss: 0.3352 - val_accuracy: 0.8843
+Epoch 10/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.2260 - accuracy: 0.9145 - val_loss: 0.3457 - val_accuracy: 0.8814
+
+<tensorflow.python.keras.callbacks.History at 0x7f1f802512b0>
+
+```
+
+The `my_dir/intro_to_kt` directory contains detailed logs and checkpoints for every trial (model configuration) run during the hyperparameter search. If you re-run the hyperparameter search, the Keras Tuner uses the existing state from these logs to resume the search. To disable this behavior, pass an additional `overwrite = True` argument while instantiating the tuner.
+
+## Summary
+
+In this tutorial, you learned how to use the Keras Tuner to tune hyperparameters for a model. To learn more about the Keras Tuner, check out these additional resources:
+
+*   [Keras Tuner on the TensorFlow blog](https://blog.tensorflow.org/2020/01/hyperparameter-tuning-with-keras-tuner.html)
+*   [Keras Tuner website](https://keras-team.github.io/keras-tuner/)
+
+Also check out the [HParams Dashboard](https://tensorflow.google.cn/tensorboard/hyperparameter_tuning_with_hparams) in TensorBoard to interactively tune your model hyperparameters.
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/013.md b/Tensorflow/TensorFlow2.0/013.md
new file mode 100644
index 00000000..e2a98697
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/013.md
@@ -0,0 +1 @@
+# 加载和预处理数据
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/014.md b/Tensorflow/TensorFlow2.0/014.md
new file mode 100644
index 00000000..77fcec85
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/014.md
@@ -0,0 +1,872 @@
+# 用 tf.data 加载图片
+
+> 原文：[https://tensorflow.google.cn/tutorials/load_data/images](https://tensorflow.google.cn/tutorials/load_data/images)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程提供一个如何使用 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 加载图片的简单例子。
+
+本例中使用的数据集分布在图片文件夹中，一个文件夹含有一类图片。
+
+## 配置
+
+```py
+import tensorflow as tf 
+```
+
+```py
+AUTOTUNE = tf.data.experimental.AUTOTUNE 
+```
+
+## 下载并检查数据集
+
+### 检索图片
+
+在你开始任何训练之前，你将需要一组图片来教会网络你想要训练的新类别。你已经创建了一个文件夹，存储了最初使用的拥有创作共用许可的花卉照片。
+
+```py
+import pathlib
+data_root_orig = tf.keras.utils.get_file(origin='https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz',
+                                         fname='flower_photos', untar=True)
+data_root = pathlib.Path(data_root_orig)
+print(data_root) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz
+228818944/228813984 [==============================] - 2s 0us/step
+/home/kbuilder/.keras/datasets/flower_photos
+
+```
+
+下载了 218 MB 之后，你现在应该有花卉照片副本：
+
+```py
+for item in data_root.iterdir():
+  print(item) 
+```
+
+```py
+/home/kbuilder/.keras/datasets/flower_photos/sunflowers
+/home/kbuilder/.keras/datasets/flower_photos/daisy
+/home/kbuilder/.keras/datasets/flower_photos/LICENSE.txt
+/home/kbuilder/.keras/datasets/flower_photos/roses
+/home/kbuilder/.keras/datasets/flower_photos/tulips
+/home/kbuilder/.keras/datasets/flower_photos/dandelion
+
+```
+
+```py
+import random
+all_image_paths = list(data_root.glob('*/*'))
+all_image_paths = [str(path) for path in all_image_paths]
+random.shuffle(all_image_paths)
+
+image_count = len(all_image_paths)
+image_count 
+```
+
+```py
+3670
+
+```
+
+```py
+all_image_paths[:10] 
+```
+
+```py
+['/home/kbuilder/.keras/datasets/flower_photos/daisy/4820415253_15bc3b6833_n.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/roses/14172324538_2147808483_n.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/sunflowers/15054866658_c1a6223403_m.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/daisy/422094774_28acc69a8b_n.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/roses/22982871191_ec61e36939_n.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/tulips/8673416166_620fc18e2f_n.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/tulips/16582481123_06e8e6b966_n.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/daisy/5434914569_e9b982fde0_n.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/sunflowers/184682652_c927a49226_m.jpg',
+ '/home/kbuilder/.keras/datasets/flower_photos/dandelion/3021333497_b927cd8596.jpg']
+
+```
+
+### 检查图片
+
+现在让我们快速浏览几张图片，这样你知道你在处理什么：
+
+```py
+import os
+attributions = (data_root/"LICENSE.txt").open(encoding='utf-8').readlines()[4:]
+attributions = [line.split(' CC-BY') for line in attributions]
+attributions = dict(attributions) 
+```
+
+```py
+import IPython.display as display
+
+def caption_image(image_path):
+    image_rel = pathlib.Path(image_path).relative_to(data_root)
+    return "Image (CC BY 2.0) " + ' - '.join(attributions[str(image_rel)].split(' - ')[:-1]) 
+```
+
+```py
+for n in range(3):
+  image_path = random.choice(all_image_paths)
+  display.display(display.Image(image_path))
+  print(caption_image(image_path))
+  print() 
+```
+
+![jpeg](img/e954331a93f7da6b3ebeb6d2c90586f4.png)
+
+```py
+Image (CC BY 2.0)  by Pavlina Jane
+
+```
+
+![jpeg](img/82eeef92c3c39a6fc38d679c9e4c37fa.png)
+
+```py
+Image (CC BY 2.0)  by Samantha Forsberg
+
+```
+
+![jpeg](img/13fa130027f8343fe8d952fec8dd0555.png)
+
+```py
+Image (CC BY 2.0)  by Manu
+
+```
+
+### 确定每张图片的标签
+
+列出可用的标签：
+
+```py
+label_names = sorted(item.name for item in data_root.glob('*/') if item.is_dir())
+label_names 
+```
+
+```py
+['daisy', 'dandelion', 'roses', 'sunflowers', 'tulips']
+
+```
+
+为每个标签分配索引：
+
+```py
+label_to_index = dict((name, index) for index, name in enumerate(label_names))
+label_to_index 
+```
+
+```py
+{'daisy': 0, 'dandelion': 1, 'roses': 2, 'sunflowers': 3, 'tulips': 4}
+
+```
+
+创建一个列表，包含每个文件的标签索引：
+
+```py
+all_image_labels = [label_to_index[pathlib.Path(path).parent.name]
+                    for path in all_image_paths]
+
+print("First 10 labels indices: ", all_image_labels[:10]) 
+```
+
+```py
+First 10 labels indices:  [0, 2, 3, 0, 2, 4, 4, 0, 3, 1]
+
+```
+
+### 加载和格式化图片
+
+TensorFlow 包含加载和处理图片时你需要的所有工具：
+
+```py
+img_path = all_image_paths[0]
+img_path 
+```
+
+```py
+'/home/kbuilder/.keras/datasets/flower_photos/daisy/4820415253_15bc3b6833_n.jpg'
+
+```
+
+以下是原始数据：
+
+```py
+img_raw = tf.io.read_file(img_path)
+print(repr(img_raw)[:100]+"...") 
+```
+
+```py
+<tf.Tensor: shape=(), dtype=string, numpy=b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x00\x00\x01\x00...
+
+```
+
+将它解码为图像 tensor（张量）：
+
+```py
+img_tensor = tf.image.decode_image(img_raw)
+
+print(img_tensor.shape)
+print(img_tensor.dtype) 
+```
+
+```py
+(224, 320, 3)
+<dtype: 'uint8'>
+
+```
+
+根据你的模型调整其大小：
+
+```py
+img_final = tf.image.resize(img_tensor, [192, 192])
+img_final = img_final/255.0
+print(img_final.shape)
+print(img_final.numpy().min())
+print(img_final.numpy().max()) 
+```
+
+```py
+(192, 192, 3)
+0.0
+1.0
+
+```
+
+将这些包装在一个简单的函数里，以备后用。
+
+```py
+def preprocess_image(image):
+  image = tf.image.decode_jpeg(image, channels=3)
+  image = tf.image.resize(image, [192, 192])
+  image /= 255.0  # normalize to [0,1] range
+
+  return image 
+```
+
+```py
+def load_and_preprocess_image(path):
+  image = tf.io.read_file(path)
+  return preprocess_image(image) 
+```
+
+```py
+import matplotlib.pyplot as plt
+
+image_path = all_image_paths[0]
+label = all_image_labels[0]
+
+plt.imshow(load_and_preprocess_image(img_path))
+plt.grid(False)
+plt.xlabel(caption_image(img_path))
+plt.title(label_names[label].title())
+print() 
+```
+
+![png](img/d99736f992ec3e1883b57ef705221367.png)
+
+## 构建一个 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)
+
+### 一个图片数据集
+
+构建 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) 最简单的方法就是使用 `from_tensor_slices` 方法。
+
+将字符串数组切片，得到一个字符串数据集：
+
+```py
+path_ds = tf.data.Dataset.from_tensor_slices(all_image_paths) 
+```
+
+`shapes（维数）` 和 `types（类型）` 描述数据集里每个数据项的内容。在这里是一组标量二进制字符串。
+
+```py
+print(path_ds) 
+```
+
+```py
+<TensorSliceDataset shapes: (), types: tf.string>
+
+```
+
+现在创建一个新的数据集，通过在路径数据集上映射 `preprocess_image` 来动态加载和格式化图片。
+
+```py
+image_ds = path_ds.map(load_and_preprocess_image, num_parallel_calls=AUTOTUNE) 
+```
+
+```py
+import matplotlib.pyplot as plt
+
+plt.figure(figsize=(8,8))
+for n, image in enumerate(image_ds.take(4)):
+  plt.subplot(2,2,n+1)
+  plt.imshow(image)
+  plt.grid(False)
+  plt.xticks([])
+  plt.yticks([])
+  plt.xlabel(caption_image(all_image_paths[n]))
+  plt.show() 
+```
+
+![png](img/87f405a26e039fc527ac7f2dd59de28d.png)
+
+![png](img/309f23cd3db44be87a1c9d9d25619301.png)
+
+![png](img/461f849577ccb00ee49683e824e095cf.png)
+
+![png](img/187f414e1afde064024f6898871831da.png)
+
+### 一个`(图片, 标签)`对数据集
+
+使用同样的 `from_tensor_slices` 方法你可以创建一个标签数据集：
+
+```py
+label_ds = tf.data.Dataset.from_tensor_slices(tf.cast(all_image_labels, tf.int64)) 
+```
+
+```py
+for label in label_ds.take(10):
+  print(label_names[label.numpy()]) 
+```
+
+```py
+daisy
+roses
+sunflowers
+daisy
+roses
+tulips
+tulips
+daisy
+sunflowers
+dandelion
+
+```
+
+由于这些数据集顺序相同，你可以将他们打包在一起得到一个`(图片, 标签)`对数据集：
+
+```py
+image_label_ds = tf.data.Dataset.zip((image_ds, label_ds)) 
+```
+
+这个新数据集的 `shapes（维数）` 和 `types（类型）` 也是维数和类型的元组，用来描述每个字段：
+
+```py
+print(image_label_ds) 
+```
+
+```py
+<ZipDataset shapes: ((192, 192, 3), ()), types: (tf.float32, tf.int64)>
+
+```
+
+注意：当你拥有形似 `all_image_labels` 和 `all_image_paths` 的数组，`tf.data.dataset.Dataset.zip` 的替代方法是将这对数组切片。
+
+```py
+ds = tf.data.Dataset.from_tensor_slices((all_image_paths, all_image_labels))
+
+# 元组被解压缩到映射函数的位置参数中
+def load_and_preprocess_from_path_label(path, label):
+  return load_and_preprocess_image(path), label
+
+image_label_ds = ds.map(load_and_preprocess_from_path_label)
+image_label_ds 
+```
+
+```py
+<MapDataset shapes: ((192, 192, 3), ()), types: (tf.float32, tf.int32)>
+
+```
+
+### 训练的基本方法
+
+要使用此数据集训练模型，你将会想要数据：
+
+*   被充分打乱。
+*   被分割为 batch。
+*   永远重复。
+*   尽快提供 batch。
+
+使用 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) api 可以轻松添加这些功能。
+
+```py
+BATCH_SIZE = 32
+
+# 设置一个和数据集大小一致的 shuffle buffer size（随机缓冲区大小）以保证数据
+# 被充分打乱。
+ds = image_label_ds.shuffle(buffer_size=image_count)
+ds = ds.repeat()
+ds = ds.batch(BATCH_SIZE)
+# 当模型在训练的时候，`prefetch` 使数据集在后台取得 batch。
+ds = ds.prefetch(buffer_size=AUTOTUNE)
+ds 
+```
+
+```py
+<PrefetchDataset shapes: ((None, 192, 192, 3), (None,)), types: (tf.float32, tf.int32)>
+
+```
+
+这里有一些注意事项：
+
+1.  顺序很重要。
+
+    *   在 `.repeat` 之后 `.shuffle`，会在 epoch 之间打乱数据（当有些数据出现两次的时候，其他数据还没有出现过）。
+
+    *   在 `.batch` 之后 `.shuffle`，会打乱 batch 的顺序，但是不会在 batch 之间打乱数据。
+
+2.  你在完全打乱中使用和数据集大小一样的 `buffer_size（缓冲区大小）`。较大的缓冲区大小提供更好的随机化，但使用更多的内存，直到超过数据集大小。
+
+3.  在从随机缓冲区中拉取任何元素前，要先填满它。所以当你的 `Dataset（数据集）`启动的时候一个大的 `buffer_size（缓冲区大小）`可能会引起延迟。
+
+4.  在随机缓冲区完全为空之前，被打乱的数据集不会报告数据集的结尾。`Dataset（数据集）`由 `.repeat` 重新启动，导致需要再次等待随机缓冲区被填满。
+
+最后一点可以通过使用 [`tf.data.Dataset.apply`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#apply) 方法和融合过的 [`tf.data.experimental.shuffle_and_repeat`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/shuffle_and_repeat) 函数来解决:
+
+```py
+ds = image_label_ds.apply(
+  tf.data.experimental.shuffle_and_repeat(buffer_size=image_count))
+ds = ds.batch(BATCH_SIZE)
+ds = ds.prefetch(buffer_size=AUTOTUNE)
+ds 
+```
+
+```py
+WARNING:tensorflow:From <ipython-input-1-4dc713bd4d84>:2: shuffle_and_repeat (from tensorflow.python.data.experimental.ops.shuffle_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.data.Dataset.shuffle(buffer_size, seed)` followed by `tf.data.Dataset.repeat(count)`. Static tf.data optimizations will take care of using the fused implementation.
+
+<PrefetchDataset shapes: ((None, 192, 192, 3), (None,)), types: (tf.float32, tf.int32)>
+
+```
+
+### 传递数据集至模型
+
+从 [`tf.keras.applications`](https://tensorflow.google.cn/api_docs/python/tf/keras/applications) 取得 MobileNet v2 副本。
+
+该模型副本会被用于一个简单的迁移学习例子。
+
+设置 MobileNet 的权重为不可训练：
+
+```py
+mobile_net = tf.keras.applications.MobileNetV2(input_shape=(192, 192, 3), include_top=False)
+mobile_net.trainable=False 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/mobilenet_v2/mobilenet_v2_weights_tf_dim_ordering_tf_kernels_1.0_192_no_top.h5
+9412608/9406464 [==============================] - 0s 0us/step
+
+```
+
+该模型期望它的输出被标准化至 `[-1,1]` 范围内：
+
+```py
+help(keras_applications.mobilenet_v2.preprocess_input) 
+```
+
+```py
+……
+该函数使用“Inception”预处理，将
+RGB 值从 [0, 255] 转化为 [-1, 1]
+……
+
+```
+
+在你将输出传递给 MobilNet 模型之前，你需要将其范围从 `[0,1]` 转化为 `[-1,1]`：
+
+```py
+def change_range(image,label):
+  return 2*image-1, label
+
+keras_ds = ds.map(change_range) 
+```
+
+MobileNet 为每张图片的特征返回一个 `6x6` 的空间网格。
+
+传递一个 batch 的图片给它，查看结果：
+
+```py
+# 数据集可能需要几秒来启动，因为要填满其随机缓冲区。
+image_batch, label_batch = next(iter(keras_ds)) 
+```
+
+```py
+feature_map_batch = mobile_net(image_batch)
+print(feature_map_batch.shape) 
+```
+
+```py
+(32, 6, 6, 1280)
+
+```
+
+构建一个包装了 MobileNet 的模型并在 [`tf.keras.layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) 输出层之前使用 [`tf.keras.layers.GlobalAveragePooling2D`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/GlobalAveragePooling2D) 来平均那些空间向量：
+
+```py
+model = tf.keras.Sequential([
+  mobile_net,
+  tf.keras.layers.GlobalAveragePooling2D(),
+  tf.keras.layers.Dense(len(label_names), activation = 'softmax')]) 
+```
+
+现在它产出符合预期 shape(维数)的输出：
+
+```py
+logit_batch = model(image_batch).numpy()
+
+print("min logit:", logit_batch.min())
+print("max logit:", logit_batch.max())
+print()
+
+print("Shape:", logit_batch.shape) 
+```
+
+```py
+min logit: 0.0039403443
+max logit: 0.82328725
+
+Shape: (32, 5)
+
+```
+
+编译模型以描述训练过程：
+
+```py
+model.compile(optimizer=tf.keras.optimizers.Adam(),
+              loss='sparse_categorical_crossentropy',
+              metrics=["accuracy"]) 
+```
+
+此处有两个可训练的变量 —— Dense 层中的 `weights（权重）` 和 `bias（偏差）`：
+
+```py
+len(model.trainable_variables) 
+```
+
+```py
+2
+
+```
+
+```py
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+mobilenetv2_1.00_192 (Functi (None, 6, 6, 1280)        2257984   
+_________________________________________________________________
+global_average_pooling2d (Gl (None, 1280)              0         
+_________________________________________________________________
+dense (Dense)                (None, 5)                 6405      
+=================================================================
+Total params: 2,264,389
+Trainable params: 6,405
+Non-trainable params: 2,257,984
+_________________________________________________________________
+
+```
+
+你已经准备好来训练模型了。
+
+注意，出于演示目的每一个 epoch 中你将只运行 3 step，但一般来说在传递给 `model.fit()` 之前你会指定 step 的真实数量，如下所示：
+
+```py
+steps_per_epoch=tf.math.ceil(len(all_image_paths)/BATCH_SIZE).numpy()
+steps_per_epoch 
+```
+
+```py
+115.0
+
+```
+
+```py
+model.fit(ds, epochs=1, steps_per_epoch=3) 
+```
+
+```py
+3/3 [==============================] - 0s 31ms/step - loss: 1.8837 - accuracy: 0.2812
+
+<tensorflow.python.keras.callbacks.History at 0x7f43ec118eb8>
+
+```
+
+## 性能
+
+注意：这部分只是展示一些可能帮助提升性能的简单技巧。深入指南，请看：[输入 pipeline（管道）的性能](https://tensorflow.google.cn/guide/performance/datasets)。
+
+上面使用的简单 pipeline（管道）在每个 epoch 中单独读取每个文件。在本地使用 CPU 训练时这个方法是可行的，但是可能不足以进行 GPU 训练并且完全不适合任何形式的分布式训练。
+
+要研究这点，首先构建一个简单的函数来检查数据集的性能：
+
+```py
+import time
+default_timeit_steps = 2*steps_per_epoch+1
+
+def timeit(ds, steps=default_timeit_steps):
+  overall_start = time.time()
+  # 在开始计时之前
+  # 取得单个 batch 来填充 pipeline（管道）（填充随机缓冲区）
+  it = iter(ds.take(steps+1))
+  next(it)
+
+  start = time.time()
+  for i,(images,labels) in enumerate(it):
+    if i%10 == 0:
+      print('.',end='')
+  print()
+  end = time.time()
+
+  duration = end-start
+  print("{} batches: {} s".format(steps, duration))
+  print("{:0.5f} Images/s".format(BATCH_SIZE*steps/duration))
+  print("Total time: {}s".format(end-overall_start)) 
+```
+
+当前数据集的性能是：
+
+```py
+ds = image_label_ds.apply(
+  tf.data.experimental.shuffle_and_repeat(buffer_size=image_count))
+ds = ds.batch(BATCH_SIZE).prefetch(buffer_size=AUTOTUNE)
+ds 
+```
+
+```py
+<PrefetchDataset shapes: ((None, 192, 192, 3), (None,)), types: (tf.float32, tf.int32)>
+
+```
+
+```py
+timeit(ds) 
+```
+
+```py
+........................
+231.0 batches: 14.869637966156006 s
+497.12037 Images/s
+Total time: 21.789817333221436s
+
+```
+
+### 缓存
+
+使用 [`tf.data.Dataset.cache`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#cache) 在 epoch 之间轻松缓存计算结果。这是非常高效的，特别是当内存能容纳全部数据时。
+
+在被预处理之后（解码和调整大小），图片在此被缓存了：
+
+```py
+ds = image_label_ds.cache()
+ds = ds.apply(
+  tf.data.experimental.shuffle_and_repeat(buffer_size=image_count))
+ds = ds.batch(BATCH_SIZE).prefetch(buffer_size=AUTOTUNE)
+ds 
+```
+
+```py
+<PrefetchDataset shapes: ((None, 192, 192, 3), (None,)), types: (tf.float32, tf.int32)>
+
+```
+
+```py
+timeit(ds) 
+```
+
+```py
+........................
+231.0 batches: 0.5994970798492432 s
+12330.33529 Images/s
+Total time: 7.475242614746094s
+
+```
+
+使用内存缓存的一个缺点是必须在每次运行时重建缓存，这使得每次启动数据集时有相同的启动延迟：
+
+```py
+timeit(ds) 
+```
+
+```py
+........................
+231.0 batches: 0.6120779514312744 s
+12076.89312 Images/s
+Total time: 0.6253445148468018s
+
+```
+
+如果内存不够容纳数据，使用一个缓存文件：
+
+```py
+ds = image_label_ds.cache(filename='./cache.tf-data')
+ds = ds.apply(
+  tf.data.experimental.shuffle_and_repeat(buffer_size=image_count))
+ds = ds.batch(BATCH_SIZE).prefetch(1)
+ds 
+```
+
+```py
+<PrefetchDataset shapes: ((None, 192, 192, 3), (None,)), types: (tf.float32, tf.int32)>
+
+```
+
+```py
+timeit(ds) 
+```
+
+```py
+........................
+231.0 batches: 3.0341720581054688 s
+2436.24945 Images/s
+Total time: 12.044088363647461s
+
+```
+
+这个缓存文件也有可快速重启数据集而无需重建缓存的优点。注意第二次快了多少：
+
+```py
+timeit(ds) 
+```
+
+```py
+........................
+231.0 batches: 2.358055353164673 s
+3134.78646 Images/s
+Total time: 3.105525493621826s
+
+```
+
+### TFRecord 文件
+
+#### 原始图片数据
+
+TFRecord 文件是一种用来存储一串二进制 blob 的简单格式。通过将多个示例打包进同一个文件内，TensorFlow 能够一次性读取多个示例，当使用一个远程存储服务，如 GCS 时，这对性能来说尤其重要。
+
+首先，从原始图片数据中构建出一个 TFRecord 文件：
+
+```py
+image_ds = tf.data.Dataset.from_tensor_slices(all_image_paths).map(tf.io.read_file)
+tfrec = tf.data.experimental.TFRecordWriter('images.tfrec')
+tfrec.write(image_ds) 
+```
+
+接着，构建一个从 TFRecord 文件读取的数据集，并使用你之前定义的 `preprocess_image` 函数对图像进行解码/重新格式化：
+
+```py
+image_ds = tf.data.TFRecordDataset('images.tfrec').map(preprocess_image) 
+```
+
+压缩该数据集和你之前定义的标签数据集以得到期望的 `(图片,标签)` 对：
+
+```py
+ds = tf.data.Dataset.zip((image_ds, label_ds))
+ds = ds.apply(
+  tf.data.experimental.shuffle_and_repeat(buffer_size=image_count))
+ds=ds.batch(BATCH_SIZE).prefetch(AUTOTUNE)
+ds 
+```
+
+```py
+<PrefetchDataset shapes: ((None, 192, 192, 3), (None,)), types: (tf.float32, tf.int64)>
+
+```
+
+```py
+timeit(ds) 
+```
+
+```py
+........................
+231.0 batches: 14.661343574523926 s
+504.18299 Images/s
+Total time: 21.57948637008667s
+
+```
+
+这比 `缓存` 版本慢，因为你还没有缓存预处理。
+
+#### 序列化的 Tensor（张量）
+
+要为 TFRecord 文件省去一些预处理过程，首先像之前一样制作一个处理过的图片数据集：
+
+```py
+paths_ds = tf.data.Dataset.from_tensor_slices(all_image_paths)
+image_ds = paths_ds.map(load_and_preprocess_image)
+image_ds 
+```
+
+```py
+<MapDataset shapes: (192, 192, 3), types: tf.float32>
+
+```
+
+现在你有一个 tensor（张量）数据集，而不是一个 `.jpeg` 字符串数据集。
+
+要将此序列化至一个 TFRecord 文件你首先将该 tensor（张量）数据集转化为一个字符串数据集：
+
+```py
+ds = image_ds.map(tf.io.serialize_tensor)
+ds 
+```
+
+```py
+<MapDataset shapes: (), types: tf.string>
+
+```
+
+```py
+tfrec = tf.data.experimental.TFRecordWriter('images.tfrec')
+tfrec.write(ds) 
+```
+
+有了被缓存的预处理，就能从 TFrecord 文件高效地加载数据——只需记得在使用它之前反序列化：
+
+```py
+ds = tf.data.TFRecordDataset('images.tfrec')
+
+def parse(x):
+  result = tf.io.parse_tensor(x, out_type=tf.float32)
+  result = tf.reshape(result, [192, 192, 3])
+  return result
+
+ds = ds.map(parse, num_parallel_calls=AUTOTUNE)
+ds 
+```
+
+```py
+<ParallelMapDataset shapes: (192, 192, 3), types: tf.float32>
+
+```
+
+现在，像之前一样添加标签和进行相同的标准操作：
+
+```py
+ds = tf.data.Dataset.zip((ds, label_ds))
+ds = ds.apply(
+  tf.data.experimental.shuffle_and_repeat(buffer_size=image_count))
+ds=ds.batch(BATCH_SIZE).prefetch(AUTOTUNE)
+ds 
+```
+
+```py
+<PrefetchDataset shapes: ((None, 192, 192, 3), (None,)), types: (tf.float32, tf.int64)>
+
+```
+
+```py
+timeit(ds) 
+```
+
+```py
+........................
+231.0 batches: 1.8890972137451172 s
+3912.98020 Images/s
+Total time: 2.7021732330322266s
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/015.md b/Tensorflow/TensorFlow2.0/015.md
new file mode 100644
index 00000000..27a9fade
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/015.md
@@ -0,0 +1,291 @@
+# 使用 tf.data 加载文本数据
+
+> 原文：[https://tensorflow.google.cn/tutorials/load_data/text](https://tensorflow.google.cn/tutorials/load_data/text)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程为你提供了一个如何使用 [`tf.data.TextLineDataset`](https://tensorflow.google.cn/api_docs/python/tf/data/TextLineDataset) 来加载文本文件的示例。`TextLineDataset` 通常被用来以文本文件构建数据集（原文件中的一行为一个样本) 。这适用于大多数的基于行的文本数据（例如，诗歌或错误日志) 。下面我们将使用相同作品（荷马的伊利亚特）三个不同版本的英文翻译，然后训练一个模型来通过单行文本确定译者。
+
+## 环境搭建
+
+```py
+import tensorflow as tf
+
+import tensorflow_datasets as tfds
+import os 
+```
+
+三个版本的翻译分别来自于:
+
+*   [William Cowper](https://en.wikipedia.org/wiki/William_Cowper) — [text](https://storage.googleapis.com/download.tensorflow.org/data/illiad/cowper.txt)
+
+*   [Edward, Earl of Derby](https://en.wikipedia.org/wiki/Edward_Smith-Stanley,_14th_Earl_of_Derby) — [text](https://storage.googleapis.com/download.tensorflow.org/data/illiad/derby.txt)
+
+*   [Samuel Butler](https://en.wikipedia.org/wiki/Samuel_Butler_%28novelist%29) — [text](https://storage.googleapis.com/download.tensorflow.org/data/illiad/butler.txt)
+
+本教程中使用的文本文件已经进行过一些典型的预处理，主要包括删除了文档页眉和页脚，行号，章节标题。请下载这些已经被局部改动过的文件。
+
+```py
+DIRECTORY_URL = 'https://storage.googleapis.com/download.tensorflow.org/data/illiad/'
+FILE_NAMES = ['cowper.txt', 'derby.txt', 'butler.txt']
+
+for name in FILE_NAMES:
+  text_dir = tf.keras.utils.get_file(name, origin=DIRECTORY_URL+name)
+
+parent_dir = os.path.dirname(text_dir)
+
+parent_dir 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/illiad/cowper.txt
+819200/815980 [==============================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/illiad/derby.txt
+811008/809730 [==============================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/illiad/butler.txt
+811008/807992 [==============================] - 0s 0us/step
+
+'/home/kbuilder/.keras/datasets'
+
+```
+
+## 将文本加载到数据集中
+
+迭代整个文件，将整个文件加载到自己的数据集中。
+
+每个样本都需要单独标记，所以请使用 [`tf.data.Dataset.map`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#map) 来为每个样本设定标签。这将迭代数据集中的每一个样本并且返回（ `example, label` ）对。
+
+```py
+def labeler(example, index):
+  return example, tf.cast(index, tf.int64)  
+
+labeled_data_sets = []
+
+for i, file_name in enumerate(FILE_NAMES):
+  lines_dataset = tf.data.TextLineDataset(os.path.join(parent_dir, file_name))
+  labeled_dataset = lines_dataset.map(lambda ex: labeler(ex, i))
+  labeled_data_sets.append(labeled_dataset) 
+```
+
+将这些标记的数据集合并到一个数据集中，然后对其进行随机化操作。
+
+```py
+BUFFER_SIZE = 50000
+BATCH_SIZE = 64
+TAKE_SIZE = 5000 
+```
+
+```py
+all_labeled_data = labeled_data_sets[0]
+for labeled_dataset in labeled_data_sets[1:]:
+  all_labeled_data = all_labeled_data.concatenate(labeled_dataset)
+
+all_labeled_data = all_labeled_data.shuffle(
+    BUFFER_SIZE, reshuffle_each_iteration=False) 
+```
+
+你可以使用 [`tf.data.Dataset.take`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#take) 与 `print` 来查看 `(example, label)` 对的外观。`numpy` 属性显示每个 Tensor 的值。
+
+```py
+for ex in all_labeled_data.take(5):
+  print(ex) 
+```
+
+```py
+(<tf.Tensor: shape=(), dtype=string, numpy=b'To Ida; in his presence once arrived,'>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)
+(<tf.Tensor: shape=(), dtype=string, numpy=b"Such now appears th' o'er-ruling sov'reign will">, <tf.Tensor: shape=(), dtype=int64, numpy=1>)
+(<tf.Tensor: shape=(), dtype=string, numpy=b'Them so prepared the King of men beheld'>, <tf.Tensor: shape=(), dtype=int64, numpy=0>)
+(<tf.Tensor: shape=(), dtype=string, numpy=b'mourn you, but the eddies of Scamander shall bear you into the broad'>, <tf.Tensor: shape=(), dtype=int64, numpy=2>)
+(<tf.Tensor: shape=(), dtype=string, numpy=b'there was no life left in him.'>, <tf.Tensor: shape=(), dtype=int64, numpy=2>)
+
+```
+
+## 将文本编码成数字
+
+机器学习基于的是数字而非文本，所以字符串需要被转化成数字列表。 为了达到此目的，我们需要构建文本与整数的一一映射。
+
+### 建立词汇表
+
+首先，通过将文本标记为单独的单词集合来构建词汇表。在 TensorFlow 和 Python 中均有很多方法来达成这一目的。在本教程中:
+
+1.  迭代每个样本的 `numpy` 值。
+2.  使用 `tfds.features.text.Tokenizer` 来将其分割成 `token`。
+3.  将这些 `token` 放入一个 Python 集合中，借此来清除重复项。
+4.  获取该词汇表的大小以便于以后使用。
+
+```py
+tokenizer = tfds.features.text.Tokenizer()
+
+vocabulary_set = set()
+for text_tensor, _ in all_labeled_data:
+  some_tokens = tokenizer.tokenize(text_tensor.numpy())
+  vocabulary_set.update(some_tokens)
+
+vocab_size = len(vocabulary_set)
+vocab_size 
+```
+
+```py
+17178
+
+```
+
+### 样本编码
+
+通过传递 `vocabulary_set` 到 `tfds.features.text.TokenTextEncoder` 来构建一个编码器。编码器的 `encode` 方法传入一行文本，返回一个整数列表。
+
+```py
+encoder = tfds.features.text.TokenTextEncoder(vocabulary_set) 
+```
+
+你可以尝试运行这一行代码并查看输出的样式。
+
+```py
+example_text = next(iter(all_labeled_data))[0].numpy()
+print(example_text) 
+```
+
+```py
+b'To Ida; in his presence once arrived,'
+
+```
+
+```py
+encoded_example = encoder.encode(example_text)
+print(encoded_example) 
+```
+
+```py
+[15746, 11433, 8394, 9006, 379, 3463, 17072]
+
+```
+
+现在，在数据集上运行编码器（通过将编码器打包到 [`tf.py_function`](https://tensorflow.google.cn/api_docs/python/tf/py_function) 并且传参至数据集的 `map` 方法的方式来运行）。
+
+```py
+def encode(text_tensor, label):
+  encoded_text = encoder.encode(text_tensor.numpy())
+  return encoded_text, label
+
+def encode_map_fn(text, label):
+  # py_func doesn't set the shape of the returned tensors.
+  encoded_text, label = tf.py_function(encode, 
+                                       inp=[text, label], 
+                                       Tout=(tf.int64, tf.int64))
+
+  # `tf.data.Datasets` work best if all components have a shape set
+  #  so set the shapes manually: 
+  encoded_text.set_shape([None])
+  label.set_shape([])
+
+  return encoded_text, label
+
+all_encoded_data = all_labeled_data.map(encode_map_fn) 
+```
+
+## 将数据集分割为测试集和训练集且进行分支
+
+使用 [`tf.data.Dataset.take`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#take) 和 [`tf.data.Dataset.skip`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#skip) 来建立一个小一些的测试数据集和稍大一些的训练数据集。
+
+在数据集被传入模型之前，数据集需要被分批。最典型的是，每个分支中的样本大小与格式需要一致。但是数据集中样本并不全是相同大小的（每行文本字数并不相同）。因此，使用 [`tf.data.Dataset.padded_batch`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#padded_batch)（而不是 `batch` ）将样本填充到相同的大小。
+
+```py
+train_data = all_encoded_data.skip(TAKE_SIZE).shuffle(BUFFER_SIZE)
+train_data = train_data.padded_batch(BATCH_SIZE)
+
+test_data = all_encoded_data.take(TAKE_SIZE)
+test_data = test_data.padded_batch(BATCH_SIZE) 
+```
+
+现在，test_data 和 train_data 不是（ `example, label` ）对的集合，而是批次的集合。每个批次都是一对（*多样本*, *多标签* ），表示为数组。
+
+```py
+sample_text, sample_labels = next(iter(test_data))
+
+sample_text[0], sample_labels[0] 
+```
+
+```py
+(<tf.Tensor: shape=(16,), dtype=int64, numpy=
+ array([15746, 11433,  8394,  9006,   379,  3463, 17072,     0,     0,
+            0,     0,     0,     0,     0,     0,     0])>,
+ <tf.Tensor: shape=(), dtype=int64, numpy=0>)
+
+```
+
+由于我们引入了一个新的 token 来编码（填充零），因此词汇表大小增加了一个。
+
+```py
+vocab_size += 1 
+```
+
+## 建立模型
+
+```py
+model = tf.keras.Sequential() 
+```
+
+第一层将整数表示转换为密集矢量嵌入。更多内容请查阅 [Word Embeddings](https://tensorflow.google.cn/tutorials/sequences/word_embeddings) 教程。
+
+```py
+model.add(tf.keras.layers.Embedding(vocab_size, 64)) 
+```
+
+下一层是 [LSTM](http://colah.github.io/posts/2015-08-Understanding-LSTMs/) 层，它允许模型利用上下文中理解单词含义。 LSTM 上的双向包装器有助于模型理解当前数据点与其之前和之后的数据点的关系。
+
+```py
+model.add(tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64))) 
+```
+
+最后，我们将获得一个或多个紧密连接的层，其中最后一层是输出层。输出层输出样本属于各个标签的概率，最后具有最高概率的分类标签即为最终预测结果。
+
+```py
+# 一个或多个紧密连接的层
+# 编辑 `for` 行的列表去检测层的大小
+for units in [64, 64]:
+  model.add(tf.keras.layers.Dense(units, activation='relu'))
+
+# 输出层。第一个参数是标签个数。
+model.add(tf.keras.layers.Dense(3, activation='softmax')) 
+```
+
+最后，编译这个模型。对于一个 softmax 分类模型来说，通常使用 `sparse_categorical_crossentropy` 作为其损失函数。你可以尝试其他的优化器，但是 `adam` 是最常用的。
+
+```py
+model.compile(optimizer='adam',
+              loss='sparse_categorical_crossentropy',
+              metrics=['accuracy']) 
+```
+
+## 训练模型
+
+利用提供的数据训练出的模型有着不错的精度（大约 83% ）。
+
+```py
+model.fit(train_data, epochs=3, validation_data=test_data) 
+```
+
+```py
+Epoch 1/3
+697/697 [==============================] - 10s 14ms/step - loss: 0.5181 - accuracy: 0.7457 - val_loss: 0.3855 - val_accuracy: 0.8222
+Epoch 2/3
+697/697 [==============================] - 9s 13ms/step - loss: 0.2985 - accuracy: 0.8685 - val_loss: 0.3635 - val_accuracy: 0.8350
+Epoch 3/3
+697/697 [==============================] - 9s 13ms/step - loss: 0.2242 - accuracy: 0.9027 - val_loss: 0.3794 - val_accuracy: 0.8246
+
+<tensorflow.python.keras.callbacks.History at 0x7f4ff462aba8>
+
+```
+
+```py
+eval_loss, eval_acc = model.evaluate(test_data)
+
+print('\nEval loss: {}, Eval accuracy: {}'.format(eval_loss, eval_acc)) 
+```
+
+```py
+79/79 [==============================] - 1s 18ms/step - loss: 0.3794 - accuracy: 0.8246
+
+Eval loss: 0.3794495761394501, Eval accuracy: 0.8245999813079834
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/016.md b/Tensorflow/TensorFlow2.0/016.md
new file mode 100644
index 00000000..093ccb8e
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/016.md
@@ -0,0 +1,367 @@
+# 用 tf.data 加载 CSV 数据
+
+> 原文：[https://tensorflow.google.cn/tutorials/load_data/csv](https://tensorflow.google.cn/tutorials/load_data/csv)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+这篇教程通过一个示例展示了怎样将 CSV 格式的数据加载进 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)。
+
+这篇教程使用的是泰坦尼克号乘客的数据。模型会根据乘客的年龄、性别、票务舱和是否独自旅行等特征来预测乘客生还的可能性。
+
+## 设置
+
+```py
+import functools
+
+import numpy as np
+import tensorflow as tf
+import tensorflow_datasets as tfds 
+```
+
+```py
+TRAIN_DATA_URL = "https://storage.googleapis.com/tf-datasets/titanic/train.csv"
+TEST_DATA_URL = "https://storage.googleapis.com/tf-datasets/titanic/eval.csv"
+
+train_file_path = tf.keras.utils.get_file("train.csv", TRAIN_DATA_URL)
+test_file_path = tf.keras.utils.get_file("eval.csv", TEST_DATA_URL) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tf-datasets/titanic/train.csv
+32768/30874 [===============================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/tf-datasets/titanic/eval.csv
+16384/13049 [=====================================] - 0s 0us/step
+
+```
+
+```py
+# 让 numpy 数据更易读。
+np.set_printoptions(precision=3, suppress=True) 
+```
+
+## 加载数据
+
+开始的时候，我们通过打印 CSV 文件的前几行来了解文件的格式。
+
+```py
+head {train_file_path}
+
+```
+
+```py
+survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
+0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
+1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
+1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
+1,female,35.0,1,0,53.1,First,C,Southampton,n
+0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
+0,male,2.0,3,1,21.075,Third,unknown,Southampton,n
+1,female,27.0,0,2,11.1333,Third,unknown,Southampton,n
+1,female,14.0,1,0,30.0708,Second,unknown,Cherbourg,n
+1,female,4.0,1,1,16.7,Third,G,Southampton,n
+
+```
+
+正如你看到的那样，CSV 文件的每列都会有一个列名。dataset 的构造函数会自动识别这些列名。如果你使用的文件的第一行不包含列名，那么需要将列名通过字符串列表传给 `make_csv_dataset` 函数的 `column_names` 参数。
+
+```py
+ CSV_COLUMNS = ['survived', 'sex', 'age', 'n_siblings_spouses', 'parch', 'fare', 'class', 'deck', 'embark_town', 'alone']
+
+dataset = tf.data.experimental.make_csv_dataset(
+     ...,
+     column_names=CSV_COLUMNS,
+     ...) 
+```
+
+这个示例使用了所有的列。如果你需要忽略数据集中的某些列，创建一个包含你需要使用的列的列表，然后传给构造器的（可选）参数 `select_columns`。
+
+```py
+ dataset = tf.data.experimental.make_csv_dataset(
+  ...,
+  select_columns = columns_to_use, 
+  ...) 
+```
+
+对于包含模型需要预测的值的列是你需要显式指定的。
+
+```py
+LABEL_COLUMN = 'survived'
+LABELS = [0, 1] 
+```
+
+现在从文件中读取 CSV 数据并且创建 dataset。
+
+(完整的文档，参考 [`tf.data.experimental.make_csv_dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/make_csv_dataset))
+
+```py
+def get_dataset(file_path):
+  dataset = tf.data.experimental.make_csv_dataset(
+      file_path,
+      batch_size=12, # 为了示例更容易展示，手动设置较小的值
+      label_name=LABEL_COLUMN,
+      na_value="?",
+      num_epochs=1,
+      ignore_errors=True)
+  return dataset
+
+raw_train_data = get_dataset(train_file_path)
+raw_test_data = get_dataset(test_file_path) 
+```
+
+dataset 中的每个条目都是一个批次，用一个元组（*多个样本*，*多个标签*）表示。样本中的数据组织形式是以列为主的张量（而不是以行为主的张量），每条数据中包含的元素个数就是批次大小（这个示例中是 12）。
+
+阅读下面的示例有助于你的理解。
+
+```py
+examples, labels = next(iter(raw_train_data)) # 第一个批次
+print("EXAMPLES: \n", examples, "\n")
+print("LABELS: \n", labels) 
+```
+
+```py
+EXAMPLES: 
+ OrderedDict([('sex', <tf.Tensor: shape=(12,), dtype=string, numpy=
+array([b'male', b'male', b'male', b'male', b'male', b'female', b'male',
+       b'female', b'male', b'male', b'male', b'female'], dtype=object)>), ('age', <tf.Tensor: shape=(12,), dtype=float32, numpy=
+array([35., 30., 28., 40., 17., 19., 21.,  7., 58., 26., 19., 29.],
+      dtype=float32)>), ('n_siblings_spouses', <tf.Tensor: shape=(12,), dtype=int32, numpy=array([0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 1], dtype=int32)>), ('parch', <tf.Tensor: shape=(12,), dtype=int32, numpy=array([0, 0, 0, 0, 0, 2, 0, 2, 0, 0, 0, 0], dtype=int32)>), ('fare', <tf.Tensor: shape=(12,), dtype=float32, numpy=
+array([ 8.05 , 13\.   ,  7.225,  7.896,  8.663, 26.283,  7.925, 26.25 ,
+       29.7  ,  8.663,  0\.   , 26\.   ], dtype=float32)>), ('class', <tf.Tensor: shape=(12,), dtype=string, numpy=
+array([b'Third', b'Second', b'Third', b'Third', b'Third', b'First',
+       b'Third', b'Second', b'First', b'Third', b'Third', b'Second'],
+      dtype=object)>), ('deck', <tf.Tensor: shape=(12,), dtype=string, numpy=
+array([b'unknown', b'unknown', b'unknown', b'unknown', b'unknown', b'D',
+       b'unknown', b'unknown', b'B', b'unknown', b'unknown', b'unknown'],
+      dtype=object)>), ('embark_town', <tf.Tensor: shape=(12,), dtype=string, numpy=
+array([b'Southampton', b'Southampton', b'Cherbourg', b'Southampton',
+       b'Southampton', b'Southampton', b'Southampton', b'Southampton',
+       b'Cherbourg', b'Southampton', b'Southampton', b'Southampton'],
+      dtype=object)>), ('alone', <tf.Tensor: shape=(12,), dtype=string, numpy=
+array([b'y', b'y', b'y', b'y', b'y', b'n', b'y', b'n', b'y', b'n', b'y',
+       b'n'], dtype=object)>)]) 
+
+LABELS: 
+ tf.Tensor([0 0 0 0 0 1 0 1 0 0 0 1], shape=(12,), dtype=int32)
+
+```
+
+## 数据预处理
+
+### 分类数据
+
+CSV 数据中的有些列是分类的列。也就是说，这些列只能在有限的集合中取值。
+
+使用 [`tf.feature_column`](https://tensorflow.google.cn/api_docs/python/tf/feature_column) API 创建一个 [`tf.feature_column.indicator_column`](https://tensorflow.google.cn/api_docs/python/tf/feature_column/indicator_column) 集合，每个 [`tf.feature_column.indicator_column`](https://tensorflow.google.cn/api_docs/python/tf/feature_column/indicator_column) 对应一个分类的列。
+
+```py
+CATEGORIES = {
+    'sex': ['male', 'female'],
+    'class' : ['First', 'Second', 'Third'],
+    'deck' : ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
+    'embark_town' : ['Cherbourg', 'Southhampton', 'Queenstown'],
+    'alone' : ['y', 'n']
+} 
+```
+
+```py
+categorical_columns = []
+for feature, vocab in CATEGORIES.items():
+  cat_col = tf.feature_column.categorical_column_with_vocabulary_list(
+        key=feature, vocabulary_list=vocab)
+  categorical_columns.append(tf.feature_column.indicator_column(cat_col)) 
+```
+
+```py
+# 你刚才创建的内容
+categorical_columns 
+```
+
+```py
+[IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='sex', vocabulary_list=('male', 'female'), dtype=tf.string, default_value=-1, num_oov_buckets=0)),
+ IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='class', vocabulary_list=('First', 'Second', 'Third'), dtype=tf.string, default_value=-1, num_oov_buckets=0)),
+ IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='deck', vocabulary_list=('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'), dtype=tf.string, default_value=-1, num_oov_buckets=0)),
+ IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='embark_town', vocabulary_list=('Cherbourg', 'Southhampton', 'Queenstown'), dtype=tf.string, default_value=-1, num_oov_buckets=0)),
+ IndicatorColumn(categorical_column=VocabularyListCategoricalColumn(key='alone', vocabulary_list=('y', 'n'), dtype=tf.string, default_value=-1, num_oov_buckets=0))]
+
+```
+
+这将是后续构建模型时处理输入数据的一部分。
+
+### 连续数据
+
+连续数据需要标准化。
+
+写一个函数标准化这些值，然后将这些值改造成 2 维的张量。
+
+```py
+def process_continuous_data(mean, data):
+  # 标准化数据
+  data = tf.cast(data, tf.float32) * 1/(2*mean)
+  return tf.reshape(data, [-1, 1]) 
+```
+
+现在创建一个数值列的集合。`tf.feature_columns.numeric_column` API 会使用 `normalizer_fn` 参数。在传参的时候使用 [`functools.partial`](https://docs.python.org/3/library/functools.html#functools.partial)，`functools.partial` 由使用每个列的均值进行标准化的函数构成。
+
+```py
+MEANS = {
+    'age' : 29.631308,
+    'n_siblings_spouses' : 0.545455,
+    'parch' : 0.379585,
+    'fare' : 34.385399
+}
+
+numerical_columns = []
+
+for feature in MEANS.keys():
+  num_col = tf.feature_column.numeric_column(feature, normalizer_fn=functools.partial(process_continuous_data, MEANS[feature]))
+  numerical_columns.append(num_col) 
+```
+
+```py
+# 你刚才创建的内容。
+numerical_columns 
+```
+
+```py
+[NumericColumn(key='age', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=functools.partial(<function process_continuous_data at 0x7f3f083021e0>, 29.631308)),
+ NumericColumn(key='n_siblings_spouses', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=functools.partial(<function process_continuous_data at 0x7f3f083021e0>, 0.545455)),
+ NumericColumn(key='parch', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=functools.partial(<function process_continuous_data at 0x7f3f083021e0>, 0.379585)),
+ NumericColumn(key='fare', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=functools.partial(<function process_continuous_data at 0x7f3f083021e0>, 34.385399))]
+
+```
+
+这里使用标准化的方法需要提前知道每列的均值。如果需要计算连续的数据流的标准化的值可以使用 [TensorFlow Transform](https://tensorflow.google.cn/tfx/transform/get_started)。
+
+### 创建预处理层
+
+将这两个特征列的集合相加，并且传给 [`tf.keras.layers.DenseFeatures`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/DenseFeatures) 从而创建一个进行预处理的输入层。
+
+```py
+preprocessing_layer = tf.keras.layers.DenseFeatures(categorical_columns+numerical_columns) 
+```
+
+## 构建模型
+
+从 `preprocessing_layer` 开始构建 [`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential)。
+
+```py
+model = tf.keras.Sequential([
+  preprocessing_layer,
+  tf.keras.layers.Dense(128, activation='relu'),
+  tf.keras.layers.Dense(128, activation='relu'),
+  tf.keras.layers.Dense(1, activation='sigmoid'),
+])
+
+model.compile(
+    loss='binary_crossentropy',
+    optimizer='adam',
+    metrics=['accuracy']) 
+```
+
+## 训练、评估和预测
+
+现在可以实例化和训练模型。
+
+```py
+train_data = raw_train_data.shuffle(500)
+test_data = raw_test_data 
+```
+
+```py
+model.fit(train_data, epochs=20) 
+```
+
+```py
+Epoch 1/20
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'collections.OrderedDict'> input: OrderedDict([('sex', <tf.Tensor 'ExpandDims_8:0' shape=(None, 1) dtype=string>), ('age', <tf.Tensor 'ExpandDims:0' shape=(None, 1) dtype=float32>), ('n_siblings_spouses', <tf.Tensor 'ExpandDims_6:0' shape=(None, 1) dtype=int32>), ('parch', <tf.Tensor 'ExpandDims_7:0' shape=(None, 1) dtype=int32>), ('fare', <tf.Tensor 'ExpandDims_5:0' shape=(None, 1) dtype=float32>), ('class', <tf.Tensor 'ExpandDims_2:0' shape=(None, 1) dtype=string>), ('deck', <tf.Tensor 'ExpandDims_3:0' shape=(None, 1) dtype=string>), ('embark_town', <tf.Tensor 'ExpandDims_4:0' shape=(None, 1) dtype=string>), ('alone', <tf.Tensor 'ExpandDims_1:0' shape=(None, 1) dtype=string>)])
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'collections.OrderedDict'> input: OrderedDict([('sex', <tf.Tensor 'ExpandDims_8:0' shape=(None, 1) dtype=string>), ('age', <tf.Tensor 'ExpandDims:0' shape=(None, 1) dtype=float32>), ('n_siblings_spouses', <tf.Tensor 'ExpandDims_6:0' shape=(None, 1) dtype=int32>), ('parch', <tf.Tensor 'ExpandDims_7:0' shape=(None, 1) dtype=int32>), ('fare', <tf.Tensor 'ExpandDims_5:0' shape=(None, 1) dtype=float32>), ('class', <tf.Tensor 'ExpandDims_2:0' shape=(None, 1) dtype=string>), ('deck', <tf.Tensor 'ExpandDims_3:0' shape=(None, 1) dtype=string>), ('embark_town', <tf.Tensor 'ExpandDims_4:0' shape=(None, 1) dtype=string>), ('alone', <tf.Tensor 'ExpandDims_1:0' shape=(None, 1) dtype=string>)])
+Consider rewriting this model with the Functional API.
+53/53 [==============================] - 0s 4ms/step - loss: 0.5501 - accuracy: 0.7225
+Epoch 2/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.4399 - accuracy: 0.8102
+Epoch 3/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.4158 - accuracy: 0.8150
+Epoch 4/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.4137 - accuracy: 0.8118
+Epoch 5/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.4011 - accuracy: 0.8278
+Epoch 6/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3953 - accuracy: 0.8198
+Epoch 7/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3834 - accuracy: 0.8325
+Epoch 8/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3831 - accuracy: 0.8309
+Epoch 9/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3768 - accuracy: 0.8453
+Epoch 10/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3710 - accuracy: 0.8437
+Epoch 11/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3704 - accuracy: 0.8389
+Epoch 12/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3670 - accuracy: 0.8325
+Epoch 13/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3603 - accuracy: 0.8517
+Epoch 14/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3548 - accuracy: 0.8501
+Epoch 15/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3554 - accuracy: 0.8469
+Epoch 16/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3519 - accuracy: 0.8453
+Epoch 17/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3472 - accuracy: 0.8596
+Epoch 18/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3513 - accuracy: 0.8581
+Epoch 19/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3448 - accuracy: 0.8469
+Epoch 20/20
+53/53 [==============================] - 0s 3ms/step - loss: 0.3390 - accuracy: 0.8581
+
+<tensorflow.python.keras.callbacks.History at 0x7f3f082606a0>
+
+```
+
+当模型训练完成的时候，你可以在测试集 `test_data` 上检查准确性。
+
+```py
+test_loss, test_accuracy = model.evaluate(test_data)
+
+print('\n\nTest Loss {}, Test Accuracy {}'.format(test_loss, test_accuracy)) 
+```
+
+```py
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'collections.OrderedDict'> input: OrderedDict([('sex', <tf.Tensor 'ExpandDims_8:0' shape=(None, 1) dtype=string>), ('age', <tf.Tensor 'ExpandDims:0' shape=(None, 1) dtype=float32>), ('n_siblings_spouses', <tf.Tensor 'ExpandDims_6:0' shape=(None, 1) dtype=int32>), ('parch', <tf.Tensor 'ExpandDims_7:0' shape=(None, 1) dtype=int32>), ('fare', <tf.Tensor 'ExpandDims_5:0' shape=(None, 1) dtype=float32>), ('class', <tf.Tensor 'ExpandDims_2:0' shape=(None, 1) dtype=string>), ('deck', <tf.Tensor 'ExpandDims_3:0' shape=(None, 1) dtype=string>), ('embark_town', <tf.Tensor 'ExpandDims_4:0' shape=(None, 1) dtype=string>), ('alone', <tf.Tensor 'ExpandDims_1:0' shape=(None, 1) dtype=string>)])
+Consider rewriting this model with the Functional API.
+22/22 [==============================] - 0s 3ms/step - loss: 0.4596 - accuracy: 0.7992
+
+Test Loss 0.45956382155418396, Test Accuracy 0.7992424368858337
+
+```
+
+使用 [`tf.keras.Model.predict`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#predict) 推断一个批次或多个批次的标签。
+
+```py
+predictions = model.predict(test_data)
+
+# 显示部分结果
+for prediction, survived in zip(predictions[:10], list(test_data)[0][1][:10]):
+  print("Predicted survival: {:.2%}".format(prediction[0]),
+        " | Actual outcome: ",
+        ("SURVIVED" if bool(survived) else "DIED")) 
+```
+
+```py
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'collections.OrderedDict'> input: OrderedDict([('sex', <tf.Tensor 'ExpandDims_8:0' shape=(None, 1) dtype=string>), ('age', <tf.Tensor 'ExpandDims:0' shape=(None, 1) dtype=float32>), ('n_siblings_spouses', <tf.Tensor 'ExpandDims_6:0' shape=(None, 1) dtype=int32>), ('parch', <tf.Tensor 'ExpandDims_7:0' shape=(None, 1) dtype=int32>), ('fare', <tf.Tensor 'ExpandDims_5:0' shape=(None, 1) dtype=float32>), ('class', <tf.Tensor 'ExpandDims_2:0' shape=(None, 1) dtype=string>), ('deck', <tf.Tensor 'ExpandDims_3:0' shape=(None, 1) dtype=string>), ('embark_town', <tf.Tensor 'ExpandDims_4:0' shape=(None, 1) dtype=string>), ('alone', <tf.Tensor 'ExpandDims_1:0' shape=(None, 1) dtype=string>)])
+Consider rewriting this model with the Functional API.
+Predicted survival: 99.81%  | Actual outcome:  DIED
+Predicted survival: 14.77%  | Actual outcome:  SURVIVED
+Predicted survival: 11.87%  | Actual outcome:  DIED
+Predicted survival: 6.05%  | Actual outcome:  DIED
+Predicted survival: 10.83%  | Actual outcome:  DIED
+Predicted survival: 29.45%  | Actual outcome:  SURVIVED
+Predicted survival: 92.37%  | Actual outcome:  SURVIVED
+Predicted survival: 4.18%  | Actual outcome:  SURVIVED
+Predicted survival: 14.32%  | Actual outcome:  DIED
+Predicted survival: 4.36%  | Actual outcome:  SURVIVED
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/017.md b/Tensorflow/TensorFlow2.0/017.md
new file mode 100644
index 00000000..b7f8d227
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/017.md
@@ -0,0 +1,104 @@
+# 使用 tf.data 加载 NumPy 数据
+
+> 原文：[https://tensorflow.google.cn/tutorials/load_data/numpy](https://tensorflow.google.cn/tutorials/load_data/numpy)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程提供了将数据从 NumPy 数组加载到 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) 的示例 本示例从一个 `.npz` 文件中加载 MNIST 数据集。但是，本实例中 NumPy 数据的来源并不重要。
+
+## 安装
+
+```py
+ import numpy as np
+import tensorflow as tf
+import tensorflow_datasets as tfds 
+```
+
+### 从 `.npz` 文件中加载
+
+```py
+DATA_URL = 'https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz'
+
+path = tf.keras.utils.get_file('mnist.npz', DATA_URL)
+with np.load(path) as data:
+  train_examples = data['x_train']
+  train_labels = data['y_train']
+  test_examples = data['x_test']
+  test_labels = data['y_test'] 
+```
+
+## 使用 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) 加载 NumPy 数组
+
+假设您有一个示例数组和相应的标签数组，请将两个数组作为元组传递给 [`tf.data.Dataset.from_tensor_slices`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#from_tensor_slices) 以创建 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) 。
+
+```py
+train_dataset = tf.data.Dataset.from_tensor_slices((train_examples, train_labels))
+test_dataset = tf.data.Dataset.from_tensor_slices((test_examples, test_labels)) 
+```
+
+## 使用该数据集
+
+### 打乱和批次化数据集
+
+```py
+BATCH_SIZE = 64
+SHUFFLE_BUFFER_SIZE = 100
+
+train_dataset = train_dataset.shuffle(SHUFFLE_BUFFER_SIZE).batch(BATCH_SIZE)
+test_dataset = test_dataset.batch(BATCH_SIZE) 
+```
+
+### 建立和训练模型
+
+```py
+model = tf.keras.Sequential([
+    tf.keras.layers.Flatten(input_shape=(28, 28)),
+    tf.keras.layers.Dense(128, activation='relu'),
+    tf.keras.layers.Dense(10, activation='softmax')
+])
+
+model.compile(optimizer=tf.keras.optimizers.RMSprop(),
+                loss=tf.keras.losses.SparseCategoricalCrossentropy(),
+                metrics=[tf.keras.metrics.SparseCategoricalAccuracy()]) 
+```
+
+```py
+model.fit(train_dataset, epochs=10) 
+```
+
+```py
+Epoch 1/10
+938/938 [==============================] - 2s 2ms/step - loss: 3.1713 - sparse_categorical_accuracy: 0.8769
+Epoch 2/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.5085 - sparse_categorical_accuracy: 0.9271
+Epoch 3/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.3764 - sparse_categorical_accuracy: 0.9466
+Epoch 4/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.3165 - sparse_categorical_accuracy: 0.9550
+Epoch 5/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.2812 - sparse_categorical_accuracy: 0.9599
+Epoch 6/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.2587 - sparse_categorical_accuracy: 0.9645
+Epoch 7/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.2530 - sparse_categorical_accuracy: 0.9674
+Epoch 8/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.2192 - sparse_categorical_accuracy: 0.9707
+Epoch 9/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.2116 - sparse_categorical_accuracy: 0.9721
+Epoch 10/10
+938/938 [==============================] - 2s 2ms/step - loss: 0.2014 - sparse_categorical_accuracy: 0.9747
+
+<tensorflow.python.keras.callbacks.History at 0x7fe4f37d1470>
+
+```
+
+```py
+model.evaluate(test_dataset) 
+```
+
+```py
+157/157 [==============================] - 0s 2ms/step - loss: 0.5586 - sparse_categorical_accuracy: 0.9568
+
+[0.5586389303207397, 0.9567999839782715]
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/018.md b/Tensorflow/TensorFlow2.0/018.md
new file mode 100644
index 00000000..3e25bc3e
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/018.md
@@ -0,0 +1,297 @@
+# 使用 tf.data 加载 pandas dataframes
+
+> 原文：[https://tensorflow.google.cn/tutorials/load_data/pandas_dataframe](https://tensorflow.google.cn/tutorials/load_data/pandas_dataframe)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程提供了如何将 pandas dataframes 加载到 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)。
+
+本教程使用了一个小型[数据集](https://archive.ics.uci.edu/ml/datasets/heart+Disease)，由克利夫兰诊所心脏病基金会（Cleveland Clinic Foundation for Heart Disease）提供. 此数据集中有几百行 CSV。每行表示一个患者，每列表示一个属性（describe）。我们将使用这些信息来预测患者是否患有心脏病，这是一个二分类问题。
+
+## 使用 pandas 读取数据
+
+```py
+!pip install -q tensorflow-gpu==2.0.0-rc1
+import pandas as pd
+import tensorflow as tf 
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+下载包含心脏数据集的 csv 文件。
+
+```py
+csv_file = tf.keras.utils.get_file('heart.csv', 'https://storage.googleapis.com/applied-dl/heart.csv') 
+```
+
+使用 pandas 读取 csv 文件。
+
+```py
+df = pd.read_csv(csv_file) 
+```
+
+```py
+df.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/load_data/pandas_dataframe_420ecafb3d5d72c62762d056cc160cddfd15a9fd8290044191c203a794d6d136.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+```py
+df.dtypes 
+```
+
+```py
+age           int64
+sex           int64
+cp            int64
+trestbps      int64
+chol          int64
+fbs           int64
+restecg       int64
+thalach       int64
+exang         int64
+oldpeak     float64
+slope         int64
+ca            int64
+thal         object
+target        int64
+dtype: object
+
+```
+
+将 `thal` 列（数据帧（dataframe）中的 `object` ）转换为离散数值。
+
+```py
+df['thal'] = pd.Categorical(df['thal'])
+df['thal'] = df.thal.cat.codes 
+```
+
+```py
+df.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/load_data/pandas_dataframe_39d2bcddc17dbd9e94883df635bb9acdb6b07d463cf1ca2ea90daeb2b4275ca7.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+## 使用 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) 读取数据
+
+使用 [`tf.data.Dataset.from_tensor_slices`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#from_tensor_slices) 从 pandas dataframe 中读取数值。
+
+使用 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) 的其中一个优势是可以允许您写一些简单而又高效的数据管道（data pipelines)。从 [loading data guide](https://tensorflow.google.cn/guide/data) 可以了解更多。
+
+```py
+target = df.pop('target') 
+```
+
+```py
+dataset = tf.data.Dataset.from_tensor_slices((df.values, target.values)) 
+```
+
+```py
+for feat, targ in dataset.take(5):
+  print ('Features: {}, Target: {}'.format(feat, targ)) 
+```
+
+```py
+Features: [ 63\.    1\.    1\.  145\.  233\.    1\.    2\.  150\.    0\.    2.3   3\.    0.
+
+   2\. ], Target: 0
+Features: [ 67\.    1\.    4\.  160\.  286\.    0\.    2\.  108\.    1\.    1.5   2\.    3.
+   3\. ], Target: 1
+Features: [ 67\.    1\.    4\.  120\.  229\.    0\.    2\.  129\.    1\.    2.6   2\.    2.
+   4\. ], Target: 0
+Features: [ 37\.    1\.    3\.  130\.  250\.    0\.    0\.  187\.    0\.    3.5   3\.    0.
+   3\. ], Target: 0
+Features: [ 41\.    0\.    2\.  130\.  204\.    0\.    2\.  172\.    0\.    1.4   1\.    0.
+   3\. ], Target: 0
+
+```
+
+由于 `pd.Series` 实现了 `__array__` 协议，因此几乎可以在任何使用 `np.array` 或 [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) 的地方透明地使用它。
+
+```py
+tf.constant(df['thal']) 
+```
+
+```py
+<tf.Tensor: id=21, shape=(303,), dtype=int32, numpy=
+array([2, 3, 4, 3, 3, 3, 3, 3, 4, 4, 2, 3, 2, 4, 4, 3, 4, 3, 3, 3, 3, 3,
+       3, 4, 4, 3, 3, 3, 3, 4, 3, 4, 3, 4, 3, 3, 4, 2, 4, 3, 4, 3, 4, 4,
+       2, 3, 3, 4, 3, 3, 4, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 4, 4, 3, 3, 4,
+       4, 2, 3, 3, 4, 3, 4, 3, 3, 4, 4, 3, 3, 4, 4, 3, 3, 3, 3, 4, 4, 4,
+       3, 3, 4, 3, 4, 4, 3, 4, 3, 3, 3, 4, 3, 4, 4, 3, 3, 4, 4, 4, 4, 4,
+       3, 3, 3, 3, 4, 3, 4, 3, 4, 4, 3, 3, 2, 4, 4, 2, 3, 3, 4, 4, 3, 4,
+       3, 3, 4, 2, 4, 4, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4,
+       4, 3, 3, 3, 4, 3, 4, 3, 4, 3, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 3, 3,
+       3, 3, 3, 3, 3, 3, 3, 4, 4, 3, 3, 3, 3, 3, 3, 3, 3, 4, 3, 4, 3, 2,
+       4, 4, 3, 3, 3, 3, 3, 3, 4, 3, 3, 3, 3, 3, 2, 2, 4, 3, 4, 2, 4, 3,
+       3, 4, 3, 3, 3, 3, 4, 3, 4, 3, 4, 2, 2, 4, 3, 4, 3, 2, 4, 3, 3, 2,
+       4, 4, 4, 4, 3, 0, 3, 3, 3, 3, 1, 4, 3, 3, 3, 4, 3, 4, 3, 3, 3, 4,
+       3, 3, 4, 4, 4, 4, 3, 3, 4, 3, 4, 3, 4, 4, 3, 4, 4, 3, 4, 4, 3, 3,
+       3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 3, 2, 4, 4, 4, 4], dtype=int32)>
+
+```
+
+随机读取（shuffle）并批量处理数据集。
+
+```py
+train_dataset = dataset.shuffle(len(df)).batch(1) 
+```
+
+## 创建并训练模型
+
+```py
+def get_compiled_model():
+  model = tf.keras.Sequential([
+    tf.keras.layers.Dense(10, activation='relu'),
+    tf.keras.layers.Dense(10, activation='relu'),
+    tf.keras.layers.Dense(1, activation='sigmoid')
+  ])
+
+  model.compile(optimizer='adam',
+                loss='binary_crossentropy',
+                metrics=['accuracy'])
+  return model 
+```
+
+```py
+model = get_compiled_model()
+model.fit(train_dataset, epochs=15) 
+```
+
+```py
+WARNING:tensorflow:Layer sequential is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because it's dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+Epoch 1/15
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_core/python/ops/nn_impl.py:183: where (from tensorflow.python.ops.array_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use tf.where in 2.0, which has the same broadcast rule as np.where
+WARNING:tensorflow:Entity <function Function._initialize_uninitialized_variables.<locals>.initialize_variables at 0x7f3d7029f620> could not be transformed and will be executed as-is. Please report this to the AutoGraph team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output. Cause: module 'gast' has no attribute 'Num'
+WARNING: Entity <function Function._initialize_uninitialized_variables.<locals>.initialize_variables at 0x7f3d7029f620> could not be transformed and will be executed as-is. Please report this to the AutoGraph team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output. Cause: module 'gast' has no attribute 'Num'
+303/303 [==============================] - 1s 4ms/step - loss: 3.8214 - accuracy: 0.5149
+Epoch 2/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.9302 - accuracy: 0.6766
+Epoch 3/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.8203 - accuracy: 0.6964
+Epoch 4/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.7565 - accuracy: 0.7162
+Epoch 5/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.6607 - accuracy: 0.7162
+Epoch 6/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.6804 - accuracy: 0.6931
+Epoch 7/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.5967 - accuracy: 0.7525
+Epoch 8/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.6198 - accuracy: 0.7228
+Epoch 9/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.5584 - accuracy: 0.7624
+Epoch 10/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.5611 - accuracy: 0.7756
+Epoch 11/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.5364 - accuracy: 0.7492
+Epoch 12/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.5042 - accuracy: 0.7822
+Epoch 13/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.5168 - accuracy: 0.7624
+Epoch 14/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.4560 - accuracy: 0.8053
+Epoch 15/15
+303/303 [==============================] - 0s 1ms/step - loss: 0.4350 - accuracy: 0.7987
+
+<tensorflow.python.keras.callbacks.History at 0x7f3d7f250048>
+
+```
+
+## 代替特征列
+
+将字典作为输入传输给模型就像创建 [`tf.keras.layers.Input`](https://tensorflow.google.cn/api_docs/python/tf/keras/Input) 层的匹配字典一样简单，应用任何预处理并使用 [functional api](https://tensorflow.google.cn/guide/keras/functional)。 您可以使用它作为 [feature columns](https://tensorflow.google.cn/tutorials/keras/feature_columns) 的替代方法。
+
+```py
+inputs = {key: tf.keras.layers.Input(shape=(), name=key) for key in df.keys()}
+x = tf.stack(list(inputs.values()), axis=-1)
+
+x = tf.keras.layers.Dense(10, activation='relu')(x)
+output = tf.keras.layers.Dense(1, activation='sigmoid')(x)
+
+model_func = tf.keras.Model(inputs=inputs, outputs=output)
+
+model_func.compile(optimizer='adam',
+                   loss='binary_crossentropy',
+                   metrics=['accuracy']) 
+```
+
+与 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 一起使用时，保存 `pd.DataFrame` 列结构的最简单方法是将 `pd.DataFrame` 转换为 `dict` ，并对该字典进行切片。
+
+```py
+dict_slices = tf.data.Dataset.from_tensor_slices((df.to_dict('list'), target.values)).batch(16) 
+```
+
+```py
+for dict_slice in dict_slices.take(1):
+  print (dict_slice) 
+```
+
+```py
+({'age': <tf.Tensor: id=14781, shape=(16,), dtype=int32, numpy=
+array([63, 67, 67, 37, 41, 56, 62, 57, 63, 53, 57, 56, 56, 44, 52, 57],
+      dtype=int32)>, 'sex': <tf.Tensor: id=14789, shape=(16,), dtype=int32, numpy=array([1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1], dtype=int32)>, 'cp': <tf.Tensor: id=14784, shape=(16,), dtype=int32, numpy=array([1, 4, 4, 3, 2, 2, 4, 4, 4, 4, 4, 2, 3, 2, 3, 3], dtype=int32)>, 'trestbps': <tf.Tensor: id=14793, shape=(16,), dtype=int32, numpy=
+array([145, 160, 120, 130, 130, 120, 140, 120, 130, 140, 140, 140, 130,
+       120, 172, 150], dtype=int32)>, 'chol': <tf.Tensor: id=14783, shape=(16,), dtype=int32, numpy=
+array([233, 286, 229, 250, 204, 236, 268, 354, 254, 203, 192, 294, 256,
+       263, 199, 168], dtype=int32)>, 'fbs': <tf.Tensor: id=14786, shape=(16,), dtype=int32, numpy=array([1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0], dtype=int32)>, 'restecg': <tf.Tensor: id=14788, shape=(16,), dtype=int32, numpy=array([2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 2, 2, 0, 0, 0], dtype=int32)>, 'thalach': <tf.Tensor: id=14792, shape=(16,), dtype=int32, numpy=
+array([150, 108, 129, 187, 172, 178, 160, 163, 147, 155, 148, 153, 142,
+       173, 162, 174], dtype=int32)>, 'exang': <tf.Tensor: id=14785, shape=(16,), dtype=int32, numpy=array([0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0], dtype=int32)>, 'oldpeak': <tf.Tensor: id=14787, shape=(16,), dtype=float32, numpy=
+array([2.3, 1.5, 2.6, 3.5, 1.4, 0.8, 3.6, 0.6, 1.4, 3.1, 0.4, 1.3, 0.6,
+
+       0\. , 0.5, 1.6], dtype=float32)>, 'slope': <tf.Tensor: id=14790, shape=(16,), dtype=int32, numpy=array([3, 2, 2, 3, 1, 1, 3, 1, 2, 3, 2, 2, 2, 1, 1, 1], dtype=int32)>, 'ca': <tf.Tensor: id=14782, shape=(16,), dtype=int32, numpy=array([0, 3, 2, 0, 0, 0, 2, 0, 1, 0, 0, 0, 1, 0, 0, 0], dtype=int32)>, 'thal': <tf.Tensor: id=14791, shape=(16,), dtype=int32, numpy=array([2, 3, 4, 3, 3, 3, 3, 3, 4, 4, 2, 3, 2, 4, 4, 3], dtype=int32)>}, <tf.Tensor: id=14794, shape=(16,), dtype=int64, numpy=array([0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0])>)
+
+```
+
+```py
+model_func.fit(dict_slices, epochs=15) 
+```
+
+```py
+Epoch 1/15
+WARNING:tensorflow:Entity <function Function._initialize_uninitialized_variables.<locals>.initialize_variables at 0x7f3d2c33a510> could not be transformed and will be executed as-is. Please report this to the AutoGraph team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output. Cause: module 'gast' has no attribute 'Num'
+WARNING: Entity <function Function._initialize_uninitialized_variables.<locals>.initialize_variables at 0x7f3d2c33a510> could not be transformed and will be executed as-is. Please report this to the AutoGraph team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output. Cause: module 'gast' has no attribute 'Num'
+19/19 [==============================] - 1s 30ms/step - loss: 17.3744 - accuracy: 0.7261
+Epoch 2/15
+19/19 [==============================] - 0s 3ms/step - loss: 9.7210 - accuracy: 0.7261
+Epoch 3/15
+19/19 [==============================] - 0s 3ms/step - loss: 5.0425 - accuracy: 0.6106
+Epoch 4/15
+19/19 [==============================] - 0s 3ms/step - loss: 4.8356 - accuracy: 0.5182
+Epoch 5/15
+19/19 [==============================] - 0s 3ms/step - loss: 4.4312 - accuracy: 0.5743
+Epoch 6/15
+19/19 [==============================] - 0s 3ms/step - loss: 4.2668 - accuracy: 0.5644
+Epoch 7/15
+19/19 [==============================] - 0s 3ms/step - loss: 4.1296 - accuracy: 0.5776
+Epoch 8/15
+19/19 [==============================] - 0s 3ms/step - loss: 4.0027 - accuracy: 0.5776
+Epoch 9/15
+19/19 [==============================] - 0s 3ms/step - loss: 3.8945 - accuracy: 0.5776
+Epoch 10/15
+19/19 [==============================] - 0s 3ms/step - loss: 3.7877 - accuracy: 0.5776
+Epoch 11/15
+19/19 [==============================] - 0s 3ms/step - loss: 3.6851 - accuracy: 0.5776
+Epoch 12/15
+19/19 [==============================] - 0s 3ms/step - loss: 3.5828 - accuracy: 0.5743
+Epoch 13/15
+19/19 [==============================] - 0s 3ms/step - loss: 3.4813 - accuracy: 0.5776
+Epoch 14/15
+19/19 [==============================] - 0s 3ms/step - loss: 3.3808 - accuracy: 0.5842
+Epoch 15/15
+19/19 [==============================] - 0s 3ms/step - loss: 3.2814 - accuracy: 0.5842
+
+<tensorflow.python.keras.callbacks.History at 0x7f3d2c3a0828>
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/019.md b/Tensorflow/TensorFlow2.0/019.md
new file mode 100644
index 00000000..87f6fb23
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/019.md
@@ -0,0 +1,444 @@
+# Unicode 字符串
+
+> 原文：[https://tensorflow.google.cn/tutorials/load_data/unicode](https://tensorflow.google.cn/tutorials/load_data/unicode)
+
+## 简介
+
+处理自然语言的模型通常使用不同的字符集来处理不同的语言。*Unicode* 是一种标准的编码系统，用于表示几乎所有语言的字符。每个字符使用 `0` 和 `0x10FFFF` 之间的唯一整数[码位](https://en.wikipedia.org/wiki/Code_point)进行编码。*Unicode 字符串*是由零个或更多码位组成的序列。
+
+本教程介绍了如何在 TensorFlow 中表示 Unicode 字符串，以及如何使用标准字符串运算的 Unicode 等效项对其进行操作。它会根据字符体系检测将 Unicode 字符串划分为不同词例。
+
+```py
+import tensorflow as tf 
+```
+
+## [`tf.string`](https://tensorflow.google.cn/api_docs/python/tf#string) 数据类型
+
+您可以使用基本的 TensorFlow [`tf.string`](https://tensorflow.google.cn/api_docs/python/tf#string) `dtype` 构建字节字符串张量。Unicode 字符串默认使用 UTF-8 编码。
+
+```
+tf.constant(u"Thanks 😊") 
+```py
+
+```
+<tf.Tensor: shape=(), dtype=string, numpy=b'Thanks \xf0\x9f\x98\x8a'>
+
+```py
+
+[`tf.string`](https://tensorflow.google.cn/api_docs/python/tf#string) 张量可以容纳不同长度的字节字符串，因为字节字符串会被视为原子单元。字符串长度不包括在张量维度中。
+
+```
+tf.constant([u"You're", u"welcome!"]).shape 
+```py
+
+```
+TensorShape([2])
+
+```py
+
+注：使用 Python 构造字符串时，v2 和 v3 对 Unicode 的处理方式有所不同。在 v2 中，Unicode 字符串用前缀“u”表示（如上所示）。在 v3 中，字符串默认使用 Unicode 编码。
+
+## 表示 Unicode
+
+在 TensorFlow 中有两种表示 Unicode 字符串的标准方式：
+
+*   `string` 标量 - 使用已知[字符编码](https://en.wikipedia.org/wiki/Character_encoding)对码位序列进行编码。
+*   `int32` 向量 - 每个位置包含单个码位。
+
+例如，以下三个值均表示 Unicode 字符串 `"语言处理"`：
+
+```
+# Unicode string, represented as a UTF-8 encoded string scalar.
+text_utf8 = tf.constant(u"语言处理")
+text_utf8 
+```py
+
+```
+<tf.Tensor: shape=(), dtype=string, numpy=b'\xe8\xaf\xad\xe8\xa8\x80\xe5\xa4\x84\xe7\x90\x86'>
+
+```py
+
+```
+# Unicode string, represented as a UTF-16-BE encoded string scalar.
+text_utf16be = tf.constant(u"语言处理".encode("UTF-16-BE"))
+text_utf16be 
+```py
+
+```
+<tf.Tensor: shape=(), dtype=string, numpy=b'\x8b\xed\x8a\x00Y\x04t\x06'>
+
+```py
+
+```
+# Unicode string, represented as a vector of Unicode code points.
+text_chars = tf.constant([ord(char) for char in u"语言处理"])
+text_chars 
+```py
+
+```
+<tf.Tensor: shape=(4,), dtype=int32, numpy=array([35821, 35328, 22788, 29702], dtype=int32)>
+
+```py
+
+### 在不同表示之间进行转换
+
+TensorFlow 提供了在下列不同表示之间进行转换的运算：
+
+*   [`tf.strings.unicode_decode`](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_decode)：将编码的字符串标量转换为码位的向量。
+*   [`tf.strings.unicode_encode`](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_encode)：将码位的向量转换为编码的字符串标量。
+*   [`tf.strings.unicode_transcode`](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_transcode)：将编码的字符串标量转换为其他编码。
+
+```
+tf.strings.unicode_decode(text_utf8,
+                          input_encoding='UTF-8') 
+```py
+
+```
+<tf.Tensor: shape=(4,), dtype=int32, numpy=array([35821, 35328, 22788, 29702], dtype=int32)>
+
+```py
+
+```
+tf.strings.unicode_encode(text_chars,
+                          output_encoding='UTF-8') 
+```py
+
+```
+<tf.Tensor: shape=(), dtype=string, numpy=b'\xe8\xaf\xad\xe8\xa8\x80\xe5\xa4\x84\xe7\x90\x86'>
+
+```py
+
+```
+tf.strings.unicode_transcode(text_utf8,
+                             input_encoding='UTF8',
+                             output_encoding='UTF-16-BE') 
+```py
+
+```
+<tf.Tensor: shape=(), dtype=string, numpy=b'\x8b\xed\x8a\x00Y\x04t\x06'>
+
+```py
+
+### 批次维度
+
+解码多个字符串时，每个字符串中的字符数可能不相等。返回结果是 [`tf.RaggedTensor`](https://tensorflow.google.cn/guide/ragged_tensor)，其中最里面的维度的长度会根据每个字符串中的字符数而变化：
+
+```
+# A batch of Unicode strings, each represented as a UTF8-encoded string.
+batch_utf8 = [s.encode('UTF-8') for s in
+              [u'hÃllo',  u'What is the weather tomorrow',  u'Göödnight', u'😊']]
+batch_chars_ragged = tf.strings.unicode_decode(batch_utf8,
+                                               input_encoding='UTF-8')
+for sentence_chars in batch_chars_ragged.to_list():
+  print(sentence_chars) 
+```py
+
+```
+[104, 195, 108, 108, 111]
+[87, 104, 97, 116, 32, 105, 115, 32, 116, 104, 101, 32, 119, 101, 97, 116, 104, 101, 114, 32, 116, 111, 109, 111, 114, 114, 111, 119]
+[71, 246, 246, 100, 110, 105, 103, 104, 116]
+[128522]
+
+```py
+
+您可以直接使用此 [`tf.RaggedTensor`](https://tensorflow.google.cn/api_docs/python/tf/RaggedTensor)，也可以使用 [`tf.RaggedTensor.to_tensor`](https://tensorflow.google.cn/api_docs/python/tf/RaggedTensor#to_tensor) 和 [`tf.RaggedTensor.to_sparse`](https://tensorflow.google.cn/api_docs/python/tf/RaggedTensor#to_sparse) 方法将其转换为带有填充的密集 [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) 或 [`tf.SparseTensor`](https://tensorflow.google.cn/api_docs/python/tf/sparse/SparseTensor)。
+
+```
+batch_chars_padded = batch_chars_ragged.to_tensor(default_value=-1)
+print(batch_chars_padded.numpy()) 
+```py
+
+```
+[[   104    195    108    108    111     -1     -1     -1     -1     -1
+      -1     -1     -1     -1     -1     -1     -1     -1     -1     -1
+      -1     -1     -1     -1     -1     -1     -1     -1]
+ [    87    104     97    116     32    105    115     32    116    104
+     101     32    119    101     97    116    104    101    114     32
+     116    111    109    111    114    114    111    119]
+ [    71    246    246    100    110    105    103    104    116     -1
+      -1     -1     -1     -1     -1     -1     -1     -1     -1     -1
+      -1     -1     -1     -1     -1     -1     -1     -1]
+ [128522     -1     -1     -1     -1     -1     -1     -1     -1     -1
+      -1     -1     -1     -1     -1     -1     -1     -1     -1     -1
+      -1     -1     -1     -1     -1     -1     -1     -1]]
+
+```py
+
+```
+batch_chars_sparse = batch_chars_ragged.to_sparse() 
+```py
+
+在对多个具有相同长度的字符串进行编码时，可以将 [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) 用作输入：
+
+```
+tf.strings.unicode_encode([[99, 97, 116], [100, 111, 103], [ 99, 111, 119]],
+                          output_encoding='UTF-8') 
+```py
+
+```
+<tf.Tensor: shape=(3,), dtype=string, numpy=array([b'cat', b'dog', b'cow'], dtype=object)>
+
+```py
+
+当对多个具有不同长度的字符串进行编码时，应将 [`tf.RaggedTensor`](https://tensorflow.google.cn/api_docs/python/tf/RaggedTensor) 用作输入：
+
+```
+tf.strings.unicode_encode(batch_chars_ragged, output_encoding='UTF-8') 
+```py
+
+```
+<tf.Tensor: shape=(4,), dtype=string, numpy=
+array([b'h\xc3\x83llo', b'What is the weather tomorrow',
+       b'G\xc3\xb6\xc3\xb6dnight', b'\xf0\x9f\x98\x8a'], dtype=object)>
+
+```py
+
+如果您的张量具有填充或稀疏格式的多个字符串，请在调用 `unicode_encode` 之前将其转换为 [`tf.RaggedTensor`](https://tensorflow.google.cn/api_docs/python/tf/RaggedTensor)：
+
+```
+tf.strings.unicode_encode(
+    tf.RaggedTensor.from_sparse(batch_chars_sparse),
+    output_encoding='UTF-8') 
+```py
+
+```
+<tf.Tensor: shape=(4,), dtype=string, numpy=
+array([b'h\xc3\x83llo', b'What is the weather tomorrow',
+       b'G\xc3\xb6\xc3\xb6dnight', b'\xf0\x9f\x98\x8a'], dtype=object)>
+
+```py
+
+```
+tf.strings.unicode_encode(
+    tf.RaggedTensor.from_tensor(batch_chars_padded, padding=-1),
+    output_encoding='UTF-8') 
+```py
+
+```
+<tf.Tensor: shape=(4,), dtype=string, numpy=
+array([b'h\xc3\x83llo', b'What is the weather tomorrow',
+       b'G\xc3\xb6\xc3\xb6dnight', b'\xf0\x9f\x98\x8a'], dtype=object)>
+
+```py
+
+## Unicode 运算
+
+### 字符长度
+
+[`tf.strings.length`](https://tensorflow.google.cn/api_docs/python/tf/strings/length) 运算具有 `unit` 参数，该参数表示计算长度的方式。`unit` 默认为 `"BYTE"`，但也可以将其设置为其他值（例如 `"UTF8_CHAR"` 或 `"UTF16_CHAR"`），以确定每个已编码 `string` 中的 Unicode 码位数量。
+
+```
+# Note that the final character takes up 4 bytes in UTF8.
+thanks = u'Thanks 😊'.encode('UTF-8')
+num_bytes = tf.strings.length(thanks).numpy()
+num_chars = tf.strings.length(thanks, unit='UTF8_CHAR').numpy()
+print('{} bytes; {} UTF-8 characters'.format(num_bytes, num_chars)) 
+```py
+
+```
+11 bytes; 8 UTF-8 characters
+
+```py
+
+### 字符子字符串
+
+类似地，[`tf.strings.substr`](https://tensorflow.google.cn/api_docs/python/tf/strings/substr) 运算会接受 "`unit`" 参数，并用它来确定 "`pos`" 和 "`len`" 参数包含的偏移类型。
+
+```
+# default: unit='BYTE'. With len=1, we return a single byte.
+tf.strings.substr(thanks, pos=7, len=1).numpy() 
+```py
+
+```
+b'\xf0'
+
+```py
+
+```
+# Specifying unit='UTF8_CHAR', we return a single character, which in this case
+# is 4 bytes.
+print(tf.strings.substr(thanks, pos=7, len=1, unit='UTF8_CHAR').numpy()) 
+```py
+
+```
+b'\xf0\x9f\x98\x8a'
+
+```py
+
+### 拆分 Unicode 字符串
+
+[`tf.strings.unicode_split`](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_split) 运算会将 Unicode 字符串拆分为单个字符的子字符串：
+
+```
+tf.strings.unicode_split(thanks, 'UTF-8').numpy() 
+```py
+
+```
+array([b'T', b'h', b'a', b'n', b'k', b's', b' ', b'\xf0\x9f\x98\x8a'],
+      dtype=object)
+
+```py
+
+### 字符的字节偏移量
+
+为了将 [`tf.strings.unicode_decode`](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_decode) 生成的字符张量与原始字符串对齐，了解每个字符开始位置的偏移量很有用。方法 [`tf.strings.unicode_decode_with_offsets`](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_decode_with_offsets) 与 `unicode_decode` 类似，不同的是它会返回包含每个字符起始偏移量的第二张量。
+
+```
+codepoints, offsets = tf.strings.unicode_decode_with_offsets(u"🎈🎉🎊", 'UTF-8')
+
+for (codepoint, offset) in zip(codepoints.numpy(), offsets.numpy()):
+  print("At byte offset {}: codepoint {}".format(offset, codepoint)) 
+```py
+
+```
+At byte offset 0: codepoint 127880
+At byte offset 4: codepoint 127881
+At byte offset 8: codepoint 127882
+
+```py
+
+## Unicode 字符体系
+
+每个 Unicode 码位都属于某个码位集合，这些集合被称作[字符体系](https://en.wikipedia.org/wiki/Script_%28Unicode%29)。某个字符的字符体系有助于确定该字符可能所属的语言。例如，已知 'Б' 属于西里尔字符体系，表明包含该字符的现代文本很可能来自某个斯拉夫语种（如俄语或乌克兰语）。
+
+TensorFlow 提供了 [`tf.strings.unicode_script`](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_script) 运算来确定某一给定码位使用的是哪个字符体系。字符体系代码是对应于[国际 Unicode 组件](http://site.icu-project.org/home) (ICU) [`UScriptCode`](http://icu-project.org/apiref/icu4c/uscript_8h.html) 值的 `int32` 值。
+
+```
+uscript = tf.strings.unicode_script([33464, 1041])  # ['芸', 'Б']
+
+print(uscript.numpy())  # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC] 
+```py
+
+```
+[17  8]
+
+```py
+
+[`tf.strings.unicode_script`](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_script) 运算还可以应用于码位的多维 [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) 或 [`tf.RaggedTensor`](https://tensorflow.google.cn/api_docs/python/tf/RaggedTensor)：
+
+```
+print(tf.strings.unicode_script(batch_chars_ragged)) 
+```py
+
+```
+<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>
+
+```py
+
+## 示例：简单分词
+
+分词是将文本拆分为类似单词的单元的任务。当使用空格字符分隔单词时，这通常很容易，但是某些语言（如中文和日语）不使用空格，而某些语言（如德语）中存在长复合词，必须进行拆分才能分析其含义。在网页文本中，不同语言和字符体系常常混合在一起，例如“NY 株価”（纽约证券交易所）。
+
+我们可以利用字符体系的变化进行粗略分词（不实现任何 ML 模型），从而估算词边界。这对类似上面“NY 株価”示例的字符串都有效。这种方法对大多数使用空格的语言也都有效，因为各种字符体系中的空格字符都归类为 USCRIPT_COMMON，这是一种特殊的字符体系代码，不同于任何实际文本。
+
+```
+# dtype: string; shape: [num_sentences]
+#
+# The sentences to process.  Edit this line to try out different inputs!
+sentence_texts = [u'Hello, world.', u'世界こんにちは'] 
+```py
+
+首先，我们将句子解码为字符码位，然后查找每个字符的字符体系标识符。
+
+```
+# dtype: int32; shape: [num_sentences, (num_chars_per_sentence)]
+#
+# sentence_char_codepoint[i, j] is the codepoint for the j'th character in
+# the i'th sentence.
+sentence_char_codepoint = tf.strings.unicode_decode(sentence_texts, 'UTF-8')
+print(sentence_char_codepoint)
+
+# dtype: int32; shape: [num_sentences, (num_chars_per_sentence)]
+#
+# sentence_char_scripts[i, j] is the unicode script of the j'th character in
+# the i'th sentence.
+sentence_char_script = tf.strings.unicode_script(sentence_char_codepoint)
+print(sentence_char_script) 
+```py
+
+```
+<tf.RaggedTensor [[72, 101, 108, 108, 111, 44, 32, 119, 111, 114, 108, 100, 46], [19990, 30028, 12371, 12435, 12395, 12385, 12399]]>
+<tf.RaggedTensor [[25, 25, 25, 25, 25, 0, 0, 25, 25, 25, 25, 25, 0], [17, 17, 20, 20, 20, 20, 20]]>
+
+```py
+
+接下来，我们使用这些字符体系标识符来确定添加词边界的位置。我们在每个句子的开头添加一个词边界；如果某个字符与前一个字符属于不同的字符体系，也为该字符添加词边界。
+
+```
+# dtype: bool; shape: [num_sentences, (num_chars_per_sentence)]
+#
+# sentence_char_starts_word[i, j] is True if the j'th character in the i'th
+# sentence is the start of a word.
+sentence_char_starts_word = tf.concat(
+    [tf.fill([sentence_char_script.nrows(), 1], True),
+     tf.not_equal(sentence_char_script[:, 1:], sentence_char_script[:, :-1])],
+    axis=1)
+
+# dtype: int64; shape: [num_words]
+#
+# word_starts[i] is the index of the character that starts the i'th word (in
+# the flattened list of characters from all sentences).
+word_starts = tf.squeeze(tf.where(sentence_char_starts_word.values), axis=1)
+print(word_starts) 
+```py
+
+```
+tf.Tensor([ 0  5  7 12 13 15], shape=(6,), dtype=int64)
+
+```py
+
+然后，我们可以使用这些起始偏移量来构建 `RaggedTensor`，它包含了所有批次的单词列表：
+
+```
+# dtype: int32; shape: [num_words, (num_chars_per_word)]
+#
+# word_char_codepoint[i, j] is the codepoint for the j'th character in the
+# i'th word.
+word_char_codepoint = tf.RaggedTensor.from_row_starts(
+    values=sentence_char_codepoint.values,
+    row_starts=word_starts)
+print(word_char_codepoint) 
+```py
+
+```
+<tf.RaggedTensor [[72, 101, 108, 108, 111], [44, 32], [119, 111, 114, 108, 100], [46], [19990, 30028], [12371, 12435, 12395, 12385, 12399]]>
+
+```py
+
+最后，我们可以将词码位 `RaggedTensor` 划分回句子中：
+
+```
+# dtype: int64; shape: [num_sentences]
+#
+# sentence_num_words[i] is the number of words in the i'th sentence.
+sentence_num_words = tf.reduce_sum(
+    tf.cast(sentence_char_starts_word, tf.int64),
+    axis=1)
+
+# dtype: int32; shape: [num_sentences, (num_words_per_sentence), (num_chars_per_word)]
+#
+# sentence_word_char_codepoint[i, j, k] is the codepoint for the k'th character
+# in the j'th word in the i'th sentence.
+sentence_word_char_codepoint = tf.RaggedTensor.from_row_lengths(
+    values=word_char_codepoint,
+    row_lengths=sentence_num_words)
+print(sentence_word_char_codepoint) 
+```py
+
+```
+<tf.RaggedTensor [[[72, 101, 108, 108, 111], [44, 32], [119, 111, 114, 108, 100], [46]], [[19990, 30028], [12371, 12435, 12395, 12385, 12399]]]>
+
+```py
+
+为了使最终结果更易于阅读，我们可以将其重新编码为 UTF-8 字符串：
+
+```
+tf.strings.unicode_encode(sentence_word_char_codepoint, 'UTF-8').to_list() 
+```py
+
+```
+[[b'Hello', b', ', b'world', b'.'],
+ [b'\xe4\xb8\x96\xe7\x95\x8c',
+  b'\xe3\x81\x93\xe3\x82\x93\xe3\x81\xab\xe3\x81\xa1\xe3\x81\xaf']]
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/020.md b/Tensorflow/TensorFlow2.0/020.md
new file mode 100644
index 00000000..d3859380
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/020.md
@@ -0,0 +1,198 @@
+# TF.Text
+
+> 原文：[https://tensorflow.google.cn/tutorials/tensorflow_text/intro](https://tensorflow.google.cn/tutorials/tensorflow_text/intro)
+
+## Introduction
+
+TensorFlow Text provides a collection of text related classes and ops ready to use with TensorFlow 2.0\. The library can perform the preprocessing regularly required by text-based models, and includes other features useful for sequence modeling not provided by core TensorFlow.
+
+The benefit of using these ops in your text preprocessing is that they are done in the TensorFlow graph. You do not need to worry about tokenization in training being different than the tokenization at inference, or managing preprocessing scripts.
+
+## Eager Execution
+
+TensorFlow Text requires TensorFlow 2.0, and is fully compatible with eager mode and graph mode.
+
+* * *
+
+**Note:** On rare occassions, this import may fail looking for the TF library. Please reset the runtime and rerun the pip install -q above.
+
+```py
+!pip install -q tensorflow-text 
+```
+
+```py
+DEPRECATION: Python 3.4 support has been deprecated. pip 19.1 will be the last one supporting it. Please upgrade your Python as Python 3.4 won't be maintained after March 2019 (cf PEP 429).
+
+```
+
+```py
+import tensorflow as tf
+import tensorflow_text as text 
+```
+
+## Unicode
+
+Most ops expect that the strings are in UTF-8\. If you're using a different encoding, you can use the core tensorflow transcode op to transcode into UTF-8\. You can also use the same op to coerce your string to structurally valid UTF-8 if your input could be invalid.
+
+```py
+docs = tf.constant([u'Everything not saved will be lost.'.encode('UTF-16-BE'), u'Sad☹'.encode('UTF-16-BE')])
+utf8_docs = tf.strings.unicode_transcode(docs, input_encoding='UTF-16-BE', output_encoding='UTF-8') 
+```
+
+## Tokenization
+
+Tokenization is the process of breaking up a string into tokens. Commonly, these tokens are words, numbers, and/or punctuation.
+
+The main interfaces are `Tokenizer` and `TokenizerWithOffsets` which each have a single method `tokenize` and `tokenize_with_offsets` respectively. There are multiple tokenizers available now. Each of these implement `TokenizerWithOffsets` (which extends `Tokenizer`) which includes an option for getting byte offsets into the original string. This allows the caller to know the bytes in the original string the token was created from.
+
+All of the tokenizers return RaggedTensors with the inner-most dimension of tokens mapping to the original individual strings. As a result, the resulting shape's rank is increased by one. Please review the ragged tensor guide if you are unfamiliar with them. https://www.tensorflow.org/guide/ragged_tensors
+
+### WhitespaceTokenizer
+
+This is a basic tokenizer that splits UTF-8 strings on ICU defined whitespace characters (eg. space, tab, new line).
+
+```py
+tokenizer = text.WhitespaceTokenizer()
+tokens = tokenizer.tokenize(['everything not saved will be lost.', u'Sad☹'.encode('UTF-8')])
+print(tokens.to_list()) 
+```
+
+```py
+WARNING: Logging before flag parsing goes to stderr.
+W0701 13:16:14.667488 140633166759744 deprecation.py:323] From /tmpfs/src/tf_docs_env/lib/python3.4/site-packages/tensorflow/python/util/dispatch.py:180: batch_gather (from tensorflow.python.ops.array_ops) is deprecated and will be removed after 2017-10-25.
+Instructions for updating:
+`tf.batch_gather` is deprecated, please use `tf.gather` with `batch_dims` instead.
+W0701 13:16:14.671800 140633166759744 deprecation.py:323] From /tmpfs/src/tf_docs_env/lib/python3.4/site-packages/tensorflow/python/ops/array_ops.py:1340: add_dispatch_support.<locals>.wrapper (from tensorflow.python.ops.array_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use tf.where in 2.0, which has the same broadcast rule as np.where
+
+[[b'everything', b'not', b'saved', b'will', b'be', b'lost.'], [b'Sad\xe2\x98\xb9']]
+
+```
+
+### UnicodeScriptTokenizer
+
+This tokenizer splits UTF-8 strings based on Unicode script boundaries. The script codes used correspond to International Components for Unicode (ICU) UScriptCode values. See: http://icu-project.org/apiref/icu4c/uscript_8h.html
+
+In practice, this is similar to the `WhitespaceTokenizer` with the most apparent difference being that it will split punctuation (USCRIPT_COMMON) from language texts (eg. USCRIPT_LATIN, USCRIPT_CYRILLIC, etc) while also separating language texts from each other.
+
+```py
+tokenizer = text.UnicodeScriptTokenizer()
+tokens = tokenizer.tokenize(['everything not saved will be lost.', u'Sad☹'.encode('UTF-8')])
+print(tokens.to_list()) 
+```
+
+```py
+[[b'everything', b'not', b'saved', b'will', b'be', b'lost', b'.'], [b'Sad', b'\xe2\x98\xb9']]
+
+```
+
+### Unicode split
+
+When tokenizing languages without whitespace to segment words, it is common to just split by character, which can be accomplished using the [unicode_split](https://tensorflow.google.cn/api_docs/python/tf/strings/unicode_split) op found in core.
+
+```py
+tokens = tf.strings.unicode_split([u"仅今年前".encode('UTF-8')], 'UTF-8')
+print(tokens.to_list()) 
+```
+
+```py
+[[b'\xe4\xbb\x85', b'\xe4\xbb\x8a', b'\xe5\xb9\xb4', b'\xe5\x89\x8d']]
+
+```
+
+### Offsets
+
+When tokenizing strings, it is often desired to know where in the original string the token originated from. For this reason, each tokenizer which implements `TokenizerWithOffsets` has a *tokenize_with_offsets* method that will return the byte offsets along with the tokens. The offset_starts lists the bytes in the original string each token starts at, and the offset_limits lists the bytes where each token ends.
+
+```py
+tokenizer = text.UnicodeScriptTokenizer()
+(tokens, offset_starts, offset_limits) = tokenizer.tokenize_with_offsets(['everything not saved will be lost.', u'Sad☹'.encode('UTF-8')])
+print(tokens.to_list())
+print(offset_starts.to_list())
+print(offset_limits.to_list()) 
+```
+
+```py
+[[b'everything', b'not', b'saved', b'will', b'be', b'lost', b'.'], [b'Sad', b'\xe2\x98\xb9']]
+[[0, 11, 15, 21, 26, 29, 33], [0, 3]]
+[[10, 14, 20, 25, 28, 33, 34], [3, 6]]
+
+```
+
+### TF.Data Example
+
+Tokenizers work as expected with the tf.data API. A simple example is provided below.
+
+```py
+docs = tf.data.Dataset.from_tensor_slices([['Never tell me the odds.'], ["It's a trap!"]])
+tokenizer = text.WhitespaceTokenizer()
+tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))
+iterator = iter(tokenized_docs)
+print(next(iterator).to_list())
+print(next(iterator).to_list()) 
+```
+
+```py
+[[b'Never', b'tell', b'me', b'the', b'odds.']]
+[[b"It's", b'a', b'trap!']]
+
+```
+
+## Other Text Ops
+
+TF.Text packages other useful preprocessing ops. We will review a couple below.
+
+### Wordshape
+
+A common feature used in some natural language understanding models is to see if the text string has a certain property. For example, a sentence breaking model might contain features which check for word capitalization or if a punctuation character is at the end of a string.
+
+Wordshape defines a variety of useful regular expression based helper functions for matching various relevant patterns in your input text. Here are a few examples.
+
+```py
+tokenizer = text.WhitespaceTokenizer()
+tokens = tokenizer.tokenize(['Everything not saved will be lost.', u'Sad☹'.encode('UTF-8')])
+
+# Is capitalized?
+f1 = text.wordshape(tokens, text.WordShape.HAS_TITLE_CASE)
+# Are all letters uppercased?
+f2 = text.wordshape(tokens, text.WordShape.IS_UPPERCASE)
+# Does the token contain punctuation?
+f3 = text.wordshape(tokens, text.WordShape.HAS_SOME_PUNCT_OR_SYMBOL)
+# Is the token a number?
+f4 = text.wordshape(tokens, text.WordShape.IS_NUMERIC_VALUE)
+
+print(f1.to_list())
+print(f2.to_list())
+print(f3.to_list())
+print(f4.to_list()) 
+```
+
+```py
+[[True, False, False, False, False, False], [True]]
+[[False, False, False, False, False, False], [False]]
+[[False, False, False, False, False, True], [True]]
+[[False, False, False, False, False, False], [False]]
+
+```
+
+### N-grams & Sliding Window
+
+N-grams are sequential words given a sliding window size of *n*. When combining the tokens, there are three reduction mechanisms supported. For text, you would want to use `Reduction.STRING_JOIN` which appends the strings to each other. The default separator character is a space, but this can be changed with the string_separater argument.
+
+The other two reduction methods are most often used with numerical values, and these are `Reduction.SUM` and `Reduction.MEAN`.
+
+```py
+tokenizer = text.WhitespaceTokenizer()
+tokens = tokenizer.tokenize(['Everything not saved will be lost.', u'Sad☹'.encode('UTF-8')])
+
+# Ngrams, in this case bi-gram (n = 2)
+bigrams = text.ngrams(tokens, 2, reduction_type=text.Reduction.STRING_JOIN)
+
+print(bigrams.to_list()) 
+```
+
+```py
+[[b'Everything not', b'not saved', b'saved will', b'will be', b'be lost.'], []]
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/021.md b/Tensorflow/TensorFlow2.0/021.md
new file mode 100644
index 00000000..973362e4
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/021.md
@@ -0,0 +1,721 @@
+# TFRecord 和 tf.Example
+
+> 原文：[https://tensorflow.google.cn/tutorials/load_data/tfrecord](https://tensorflow.google.cn/tutorials/load_data/tfrecord)
+
+为了高效地读取数据，比较有帮助的一种做法是对数据进行序列化并将其存储在一组可线性读取的文件（每个文件 100-200MB）中。这尤其适用于通过网络进行流式传输的数据。这种做法对缓冲任何数据预处理也十分有用。
+
+TFRecord 格式是一种用于存储二进制记录序列的简单格式。
+
+[协议缓冲区](https://developers.google.cn/protocol-buffers/)是一个跨平台、跨语言的库，用于高效地序列化结构化数据。
+
+协议消息由 `.proto` 文件定义，这通常是了解消息类型最简单的方法。
+
+`tf.Example` 消息（或 protobuf）是一种灵活的消息类型，表示 `{"string": value}` 映射。它专为 TensorFlow 而设计，并被用于 [TFX](https://tensorflow.google.cn/tfx/) 等高级 API。
+
+本笔记本将演示如何创建、解析和使用 `tf.Example` 消息，以及如何在 `.tfrecord` 文件之间对 `tf.Example` 消息进行序列化、写入和读取。
+
+注：这些结构虽然有用，但并不是强制的。您无需转换现有代码即可使用 TFRecord，除非您正在使用 [tf.data](https://tensorflow.google.cn/guide/datasets) 且读取数据仍是训练的瓶颈。有关数据集性能的提示，请参阅[数据输入流水线性能](https://tensorflow.google.cn/guide/performance/datasets)。
+
+## 设置
+
+```py
+import tensorflow as tf
+
+import numpy as np
+import IPython.display as display 
+```
+
+## `tf.Example`
+
+### `tf.Example` 的数据类型
+
+从根本上讲，`tf.Example` 是 `{"string": tf.train.Feature}` 映射。
+
+[`tf.train.Feature`](https://tensorflow.google.cn/api_docs/python/tf/train/Feature) 消息类型可以接受以下三种类型（请参阅 [`.proto` 文件](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/feature.proto)）。大多数其他通用类型也可以强制转换成下面的其中一种：
+
+1.  [`tf.train.BytesList`](https://tensorflow.google.cn/api_docs/python/tf/train/BytesList)（可强制转换自以下类型）
+
+*   `string`
+*   `byte`
+
+1.  [`tf.train.FloatList`](https://tensorflow.google.cn/api_docs/python/tf/train/FloatList)（可强制转换自以下类型）
+
+*   `float` (`float32`)
+*   `double` (`float64`)
+
+1.  [`tf.train.Int64List`](https://tensorflow.google.cn/api_docs/python/tf/train/Int64List)（可强制转换自以下类型）
+
+*   `bool`
+*   `enum`
+*   `int32`
+*   `uint32`
+*   `int64`
+*   `uint64`
+
+为了将标准 TensorFlow 类型转换为兼容 `tf.Example` 的 [`tf.train.Feature`](https://tensorflow.google.cn/api_docs/python/tf/train/Feature)，可以使用下面的快捷函数。请注意，每个函数会接受标量输入值并返回包含上述三种 `list` 类型之一的 [`tf.train.Feature`](https://tensorflow.google.cn/api_docs/python/tf/train/Feature)：
+
+```py
+# The following functions can be used to convert a value to a type compatible
+# with tf.Example.
+
+def _bytes_feature(value):
+  """Returns a bytes_list from a string / byte."""
+  if isinstance(value, type(tf.constant(0))):
+    value = value.numpy() # BytesList won't unpack a string from an EagerTensor.
+  return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))
+
+def _float_feature(value):
+  """Returns a float_list from a float / double."""
+  return tf.train.Feature(float_list=tf.train.FloatList(value=[value]))
+
+def _int64_feature(value):
+  """Returns an int64_list from a bool / enum / int / uint."""
+  return tf.train.Feature(int64_list=tf.train.Int64List(value=[value])) 
+```
+
+注：为了简单起见，本示例仅使用标量输入。要处理非标量特征，最简单的方法是使用 [`tf.io.serialize_tensor`](https://tensorflow.google.cn/api_docs/python/tf/io/serialize_tensor) 将张量转换为二进制字符串。在 TensorFlow 中，字符串是标量。使用 [`tf.io.parse_tensor`](https://tensorflow.google.cn/api_docs/python/tf/io/parse_tensor) 可将二进制字符串转换回张量。
+
+下面是有关这些函数如何工作的一些示例。请注意不同的输入类型和标准化的输出类型。如果函数的输入类型与上述可强制转换的类型均不匹配，则该函数将引发异常（例如，`_int64_feature(1.0)` 将出错，因为 `1.0` 是浮点数，应该用于 `_float_feature` 函数）：
+
+```py
+print(_bytes_feature(b'test_string'))
+print(_bytes_feature(u'test_bytes'.encode('utf-8')))
+
+print(_float_feature(np.exp(1)))
+
+print(_int64_feature(True))
+print(_int64_feature(1)) 
+```
+
+```py
+bytes_list {
+  value: "test_string"
+}
+
+bytes_list {
+  value: "test_bytes"
+}
+
+float_list {
+  value: 2.7182817459106445
+}
+
+int64_list {
+  value: 1
+}
+
+int64_list {
+  value: 1
+}
+
+```
+
+可以使用 `.SerializeToString` 方法将所有协议消息序列化为二进制字符串：
+
+```py
+feature = _float_feature(np.exp(1))
+
+feature.SerializeToString() 
+```
+
+```py
+b'\x12\x06\n\x04T\xf8-@'
+
+```
+
+### 创建 `tf.Example` 消息
+
+假设您要根据现有数据创建 `tf.Example` 消息。在实践中，数据集可能来自任何地方，但是从单个观测值创建 `tf.Example` 消息的过程相同：
+
+1.  在每个观测结果中，需要使用上述其中一种函数，将每个值转换为包含三种兼容类型之一的 [`tf.train.Feature`](https://tensorflow.google.cn/api_docs/python/tf/train/Feature)。
+
+2.  创建一个从特征名称字符串到第 1 步中生成的编码特征值的映射（字典）。
+
+3.  将第 2 步中生成的映射转换为 [`Features` 消息](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/feature.proto#L85)。
+
+在此笔记本中，您将使用 NumPy 创建一个数据集。
+
+此数据集将具有 4 个特征：
+
+*   具有相等 `False` 或 `True` 概率的布尔特征
+*   从 `[0, 5]` 均匀随机选择的整数特征
+*   通过将整数特征作为索引从字符串表生成的字符串特征
+*   来自标准正态分布的浮点特征
+
+请思考一个样本，其中包含来自上述每个分布的 10,000 个独立且分布相同的观测值：
+
+```py
+# The number of observations in the dataset.
+n_observations = int(1e4)
+
+# Boolean feature, encoded as False or True.
+feature0 = np.random.choice([False, True], n_observations)
+
+# Integer feature, random from 0 to 4.
+feature1 = np.random.randint(0, 5, n_observations)
+
+# String feature
+strings = np.array([b'cat', b'dog', b'chicken', b'horse', b'goat'])
+feature2 = strings[feature1]
+
+# Float feature, from a standard normal distribution
+feature3 = np.random.randn(n_observations) 
+```
+
+您可以使用 `_bytes_feature`、`_float_feature` 或 `_int64_feature` 将下面的每个特征强制转换为兼容 `tf.Example` 的类型。然后，可以通过下面的已编码特征创建 `tf.Example` 消息：
+
+```py
+def serialize_example(feature0, feature1, feature2, feature3):
+  """
+  Creates a tf.Example message ready to be written to a file.
+  """
+  # Create a dictionary mapping the feature name to the tf.Example-compatible
+  # data type.
+  feature = {
+      'feature0': _int64_feature(feature0),
+      'feature1': _int64_feature(feature1),
+      'feature2': _bytes_feature(feature2),
+      'feature3': _float_feature(feature3),
+  }
+
+  # Create a Features message using tf.train.Example.
+
+  example_proto = tf.train.Example(features=tf.train.Features(feature=feature))
+  return example_proto.SerializeToString() 
+```
+
+例如，假设您从数据集中获得了一个观测值 `[False, 4, bytes('goat'), 0.9876]`。您可以使用 `create_message()` 创建和打印此观测值的 `tf.Example` 消息。如上所述，每个观测值将被写为一条 `Features` 消息。请注意，`tf.Example` [消息](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/example.proto#L88)只是 `Features` 消息外围的包装器：
+
+```py
+# This is an example observation from the dataset.
+
+example_observation = []
+
+serialized_example = serialize_example(False, 4, b'goat', 0.9876)
+serialized_example 
+```
+
+```py
+b'\nR\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04[\xd3|?\n\x14\n\x08feature2\x12\x08\n\x06\n\x04goat\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x04'
+
+```
+
+要解码消息，请使用 [`tf.train.Example.FromString`](https://tensorflow.google.cn/api_docs/python/tf/train/Example#FromString) 方法。
+
+```py
+example_proto = tf.train.Example.FromString(serialized_example)
+example_proto 
+```
+
+```py
+features {
+  feature {
+    key: "feature0"
+    value {
+      int64_list {
+        value: 0
+      }
+    }
+  }
+  feature {
+    key: "feature1"
+    value {
+      int64_list {
+        value: 4
+      }
+    }
+  }
+  feature {
+    key: "feature2"
+    value {
+      bytes_list {
+        value: "goat"
+      }
+    }
+  }
+  feature {
+    key: "feature3"
+    value {
+      float_list {
+        value: 0.9876000285148621
+      }
+    }
+  }
+}
+
+```
+
+## TFRecords 格式详细信息
+
+TFRecord 文件包含一系列记录。该文件只能按顺序读取。
+
+每条记录包含一个字节字符串（用于数据有效负载），外加数据长度，以及用于完整性检查的 CRC32C（使用 Castagnoli 多项式的 32 位 CRC）哈希值。
+
+每条记录会存储为以下格式：
+
+```py
+uint64 length uint32 masked_crc32_of_length byte   data[length] uint32 masked_crc32_of_data 
+```
+
+将记录连接起来以生成文件。[此处](https://en.wikipedia.org/wiki/Cyclic_redundancy_check)对 CRC 进行了说明，且 CRC 的掩码为：
+
+```py
+masked_crc = ((crc >> 15) | (crc << 17)) + 0xa282ead8ul 
+```
+
+注：不需要在 TFRecord 文件中使用 `tf.Example`。`tf.Example` 只是将字典序列化为字节字符串的一种方法。文本行、编码的图像数据，或序列化的张量（使用 [`tf.io.serialize_tensor`](https://tensorflow.google.cn/api_docs/python/tf/io/serialize_tensor)，或在加载时使用 [`tf.io.parse_tensor`](https://tensorflow.google.cn/api_docs/python/tf/io/parse_tensor)）。有关更多选项，请参阅 [`tf.io`](https://tensorflow.google.cn/api_docs/python/tf/io) 模块。
+
+## 使用 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 的 TFRecord 文件
+
+[`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 模块还提供用于在 TensorFlow 中读取和写入数据的工具。
+
+### 写入 TFRecord 文件
+
+要将数据放入数据集中，最简单的方式是使用 `from_tensor_slices` 方法。
+
+若应用于数组，将返回标量数据集：
+
+```py
+tf.data.Dataset.from_tensor_slices(feature1) 
+```
+
+```py
+<TensorSliceDataset shapes: (), types: tf.int64>
+
+```
+
+若应用于数组的元组，将返回元组的数据集：
+
+```py
+features_dataset = tf.data.Dataset.from_tensor_slices((feature0, feature1, feature2, feature3))
+features_dataset 
+```
+
+```py
+<TensorSliceDataset shapes: ((), (), (), ()), types: (tf.bool, tf.int64, tf.string, tf.float64)>
+
+```
+
+```py
+# Use `take(1)` to only pull one example from the dataset.
+for f0,f1,f2,f3 in features_dataset.take(1):
+  print(f0)
+  print(f1)
+  print(f2)
+  print(f3) 
+```
+
+```py
+tf.Tensor(False, shape=(), dtype=bool)
+tf.Tensor(1, shape=(), dtype=int64)
+tf.Tensor(b'dog', shape=(), dtype=string)
+tf.Tensor(-0.07658295354196158, shape=(), dtype=float64)
+
+```
+
+使用 [`tf.data.Dataset.map`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#map) 方法可将函数应用于 `Dataset` 的每个元素。
+
+映射函数必须在 TensorFlow 计算图模式下进行运算（它必须在 `tf.Tensors` 上运算并返回）。可以使用 [`tf.py_function`](https://tensorflow.google.cn/api_docs/python/tf/py_function) 包装非张量函数（如 `serialize_example`）以使其兼容。
+
+使用 [`tf.py_function`](https://tensorflow.google.cn/api_docs/python/tf/py_function) 需要指定形状和类型信息，否则它将不可用：
+
+```py
+def tf_serialize_example(f0,f1,f2,f3):
+  tf_string = tf.py_function(
+    serialize_example,
+    (f0,f1,f2,f3),  # pass these args to the above function.
+    tf.string)      # the return type is `tf.string`.
+  return tf.reshape(tf_string, ()) # The result is a scalar 
+```
+
+```py
+tf_serialize_example(f0,f1,f2,f3) 
+```
+
+```py
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nQ\n\x13\n\x08feature2\x12\x07\n\x05\n\x03dog\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x01\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04\x86\xd7\x9c\xbd\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00'>
+
+```
+
+将此函数应用于数据集中的每个元素：
+
+```py
+serialized_features_dataset = features_dataset.map(tf_serialize_example)
+serialized_features_dataset 
+```
+
+```py
+<MapDataset shapes: (), types: tf.string>
+
+```
+
+```py
+def generator():
+  for features in features_dataset:
+    yield serialize_example(*features) 
+```
+
+```py
+serialized_features_dataset = tf.data.Dataset.from_generator(
+    generator, output_types=tf.string, output_shapes=()) 
+```
+
+```py
+serialized_features_dataset 
+```
+
+```py
+<FlatMapDataset shapes: (), types: tf.string>
+
+```
+
+并将它们写入 TFRecord 文件：
+
+```py
+filename = 'test.tfrecord'
+writer = tf.data.experimental.TFRecordWriter(filename)
+writer.write(serialized_features_dataset) 
+```
+
+### 读取 TFRecord 文件
+
+您还可以使用 [`tf.data.TFRecordDataset`](https://tensorflow.google.cn/api_docs/python/tf/data/TFRecordDataset) 类来读取 TFRecord 文件。
+
+有关通过 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 使用 TFRecord 文件的详细信息，请参见[此处](https://tensorflow.google.cn/guide/datasets#consuming_tfrecord_data)。
+
+使用 `TFRecordDataset` 对于标准化输入数据和优化性能十分有用。
+
+```py
+filenames = [filename]
+raw_dataset = tf.data.TFRecordDataset(filenames)
+raw_dataset 
+```
+
+```py
+<TFRecordDatasetV2 shapes: (), types: tf.string>
+
+```
+
+此时，数据集包含序列化的 [`tf.train.Example`](https://tensorflow.google.cn/api_docs/python/tf/train/Example) 消息。迭代时，它会将其作为标量字符串张量返回。
+
+使用 `.take` 方法仅显示前 10 条记录。
+
+注：在 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) 上进行迭代仅在启用了 Eager Execution 时有效。
+
+```py
+for raw_record in raw_dataset.take(10):
+  print(repr(raw_record)) 
+```
+
+```py
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nQ\n\x13\n\x08feature2\x12\x07\n\x05\n\x03dog\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04\x86\xd7\x9c\xbd\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x01'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nQ\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00\n\x13\n\x08feature2\x12\x07\n\x05\n\x03dog\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04\xa2\x97\xeb=\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x01'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nQ\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04!a]?\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x00\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00\n\x13\n\x08feature2\x12\x07\n\x05\n\x03cat'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nQ\n\x13\n\x08feature2\x12\x07\n\x05\n\x03dog\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x01\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04\xc4\x84`\xbf\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x01'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nR\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x04\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04\xce\xb28\xbe\n\x14\n\x08feature2\x12\x08\n\x06\n\x04goat'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nU\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x01\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04P\xc4\x94?\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x02\n\x17\n\x08feature2\x12\x0b\n\t\n\x07chicken'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nQ\n\x13\n\x08feature2\x12\x07\n\x05\n\x03cat\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04\xa5\xc8\xea>\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x00'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nU\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x01\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x02\n\x17\n\x08feature2\x12\x0b\n\t\n\x07chicken\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04\xda\x16[?'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nS\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04nmO?\n\x15\n\x08feature2\x12\t\n\x07\n\x05horse\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x01\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x03'>
+<tf.Tensor: shape=(), dtype=string, numpy=b'\nU\n\x11\n\x08feature0\x12\x05\x1a\x03\n\x01\x00\n\x14\n\x08feature3\x12\x08\x12\x06\n\x04\x8c \x8d\xbf\n\x17\n\x08feature2\x12\x0b\n\t\n\x07chicken\n\x11\n\x08feature1\x12\x05\x1a\x03\n\x01\x02'>
+
+```
+
+可以使用以下函数对这些张量进行解析。请注意，这里的 `feature_description` 是必需的，因为数据集使用计算图执行，并且需要以下描述来构建它们的形状和类型签名：
+
+```py
+# Create a description of the features.
+feature_description = {
+    'feature0': tf.io.FixedLenFeature([], tf.int64, default_value=0),
+    'feature1': tf.io.FixedLenFeature([], tf.int64, default_value=0),
+    'feature2': tf.io.FixedLenFeature([], tf.string, default_value=''),
+    'feature3': tf.io.FixedLenFeature([], tf.float32, default_value=0.0),
+}
+
+def _parse_function(example_proto):
+  # Parse the input `tf.Example` proto using the dictionary above.
+  return tf.io.parse_single_example(example_proto, feature_description) 
+```
+
+或者，使用 `tf.parse example` 一次解析整个批次。使用 [`tf.data.Dataset.map`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#map) 方法将此函数应用于数据集中的每一项：
+
+```py
+parsed_dataset = raw_dataset.map(_parse_function)
+parsed_dataset 
+```
+
+```py
+<MapDataset shapes: {feature0: (), feature1: (), feature2: (), feature3: ()}, types: {feature0: tf.int64, feature1: tf.int64, feature2: tf.string, feature3: tf.float32}>
+
+```
+
+使用 Eager Execution 在数据集中显示观测值。此数据集中有 10,000 个观测值，但只会显示前 10 个。数据会作为特征字典进行显示。每一项都是一个 [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor)，此张量的 `numpy` 元素会显示特征的值：
+
+```py
+for parsed_record in parsed_dataset.take(10):
+  print(repr(parsed_record)) 
+```
+
+```py
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=0>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=1>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'dog'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=-0.07658295>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=0>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=1>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'dog'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=0.11503531>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=0>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=0>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'cat'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=0.8647633>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=1>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=1>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'dog'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=-0.87702584>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=0>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=4>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'goat'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=-0.18036959>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=1>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=2>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'chicken'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=1.162241>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=0>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=0>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'cat'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=0.45856205>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=1>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=2>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'chicken'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=0.85581744>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=1>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=3>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'horse'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=0.8102635>}
+{'feature0': <tf.Tensor: shape=(), dtype=int64, numpy=0>, 'feature1': <tf.Tensor: shape=(), dtype=int64, numpy=2>, 'feature2': <tf.Tensor: shape=(), dtype=string, numpy=b'chicken'>, 'feature3': <tf.Tensor: shape=(), dtype=float32, numpy=-1.1025558>}
+
+```
+
+在这里，`tf.parse_example` 函数会将 `tf.Example` 字段解压缩为标准张量。
+
+## Python 中的 TFRecord 文件
+
+[`tf.io`](https://tensorflow.google.cn/api_docs/python/tf/io) 模块还包含用于读取和写入 TFRecord 文件的纯 Python 函数。
+
+### 写入 TFRecord 文件
+
+接下来，将 10,000 个观测值写入文件 `test.tfrecord`。每个观测值都将转换为一条 `tf.Example` 消息，然后被写入文件。随后，您可以验证是否已创建 `test.tfrecord` 文件：
+
+```py
+# Write the `tf.Example` observations to the file.
+with tf.io.TFRecordWriter(filename) as writer:
+  for i in range(n_observations):
+    example = serialize_example(feature0[i], feature1[i], feature2[i], feature3[i])
+    writer.write(example) 
+```
+
+```py
+du -sh {filename}
+
+```
+
+```py
+984K    test.tfrecord
+
+```
+
+### 读取 TFRecord 文件
+
+您可以使用 [`tf.train.Example.ParseFromString`](https://tensorflow.google.cn/api_docs/python/tf/train/Example#ParseFromString) 轻松解析以下序列化张量：
+
+```py
+filenames = [filename]
+raw_dataset = tf.data.TFRecordDataset(filenames)
+raw_dataset 
+```
+
+```py
+<TFRecordDatasetV2 shapes: (), types: tf.string>
+
+```
+
+```py
+for raw_record in raw_dataset.take(1):
+  example = tf.train.Example()
+  example.ParseFromString(raw_record.numpy())
+  print(example) 
+```
+
+```py
+features {
+  feature {
+    key: "feature0"
+    value {
+      int64_list {
+        value: 0
+      }
+    }
+  }
+  feature {
+    key: "feature1"
+    value {
+      int64_list {
+        value: 1
+      }
+    }
+  }
+  feature {
+    key: "feature2"
+    value {
+      bytes_list {
+        value: "dog"
+      }
+    }
+  }
+  feature {
+    key: "feature3"
+    value {
+      float_list {
+        value: -0.07658295333385468
+      }
+    }
+  }
+}
+
+```
+
+## 演练：读取和写入图像数据
+
+下面是关于如何使用 TFRecord 读取和写入图像数据的端到端示例。您将使用图像作为输入数据，将数据写入 TFRecord 文件，然后将文件读取回来并显示图像。
+
+如果您想在同一个输入数据集上使用多个模型，这种做法会很有用。您可以不以原始格式存储图像，而是将图像预处理为 TFRecord 格式，然后将其用于所有后续的处理和建模中。
+
+首先，让我们下载雪中的猫的[图像](https://commons.wikimedia.org/wiki/File:Felis_catus-cat_on_snow.jpg)，以及施工中的纽约威廉斯堡大桥的[照片](https://upload.wikimedia.org/wikipedia/commons/f/fe/New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg)。
+
+### 提取图像
+
+```py
+cat_in_snow  = tf.keras.utils.get_file('320px-Felis_catus-cat_on_snow.jpg', 'https://storage.googleapis.com/download.tensorflow.org/example_images/320px-Felis_catus-cat_on_snow.jpg')
+williamsburg_bridge = tf.keras.utils.get_file('194px-New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg','https://storage.googleapis.com/download.tensorflow.org/example_images/194px-New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg') 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/320px-Felis_catus-cat_on_snow.jpg
+24576/17858 [=========================================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/194px-New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg
+16384/15477 [===============================] - 0s 0us/step
+
+```
+
+```py
+display.display(display.Image(filename=cat_in_snow))
+display.display(display.HTML('Image cc-by: &lt;a "href=https://commons.wikimedia.org/wiki/File:Felis_catus-cat_on_snow.jpg"&gt;Von.grzanka&lt;/a&gt;')) 
+```
+
+![jpeg](img/e8d23da7a633c8eaa5878bca988b63f3.png)
+
+<devsite-iframe><iframe src="/tutorials/load_data/tfrecord_18e75c221c94e393dd220675e75e11f00396fba71f4f2f7dd4243d29b5211f99.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+```py
+display.display(display.Image(filename=williamsburg_bridge))
+display.display(display.HTML('&lt;a "href=https://commons.wikimedia.org/wiki/File:New_East_River_Bridge_from_Brooklyn_det.4a09796u.jpg"&gt;From Wikimedia&lt;/a&gt;')) 
+```
+
+![jpeg](img/47e128c5852147da0f7b0158465fe752.png)
+
+<devsite-iframe><iframe src="/tutorials/load_data/tfrecord_fdbf6eeae5d946ca11fd6cf0ee65293f17b1d7924d0d1b5ff4c6af07d2f321a3.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+### 写入 TFRecord 文件
+
+和以前一样，将特征编码为与 `tf.Example` 兼容的类型。这将存储原始图像字符串特征，以及高度、宽度、深度和任意 `label` 特征。后者会在您写入文件以区分猫和桥的图像时使用。将 `0` 用于猫的图像，将 `1` 用于桥的图像：
+
+```py
+image_labels = {
+    cat_in_snow : 0,
+    williamsburg_bridge : 1,
+} 
+```
+
+```py
+# This is an example, just using the cat image.
+image_string = open(cat_in_snow, 'rb').read()
+
+label = image_labels[cat_in_snow]
+
+# Create a dictionary with features that may be relevant.
+def image_example(image_string, label):
+  image_shape = tf.image.decode_jpeg(image_string).shape
+
+  feature = {
+      'height': _int64_feature(image_shape[0]),
+      'width': _int64_feature(image_shape[1]),
+      'depth': _int64_feature(image_shape[2]),
+      'label': _int64_feature(label),
+      'image_raw': _bytes_feature(image_string),
+  }
+
+  return tf.train.Example(features=tf.train.Features(feature=feature))
+
+for line in str(image_example(image_string, label)).split('\n')[:15]:
+  print(line)
+print('...') 
+```
+
+```py
+features {
+  feature {
+    key: "depth"
+    value {
+      int64_list {
+        value: 3
+      }
+    }
+  }
+  feature {
+    key: "height"
+    value {
+      int64_list {
+        value: 213
+      }
+...
+
+```
+
+请注意，所有特征现在都存储在 `tf.Example` 消息中。接下来，函数化上面的代码，并将示例消息写入名为 `images.tfrecords` 的文件：
+
+```py
+# Write the raw image files to `images.tfrecords`.
+# First, process the two images into `tf.Example` messages.
+# Then, write to a `.tfrecords` file.
+record_file = 'images.tfrecords'
+with tf.io.TFRecordWriter(record_file) as writer:
+  for filename, label in image_labels.items():
+    image_string = open(filename, 'rb').read()
+    tf_example = image_example(image_string, label)
+    writer.write(tf_example.SerializeToString()) 
+```
+
+```py
+du -sh {record_file}
+
+```
+
+```py
+36K images.tfrecords
+
+```
+
+### 读取 TFRecord 文件
+
+现在，您有文件 `images.tfrecords`，并可以迭代其中的记录以将您写入的内容读取回来。因为在此示例中您只需重新生成图像，所以您只需要原始图像字符串这一个特征。使用上面描述的 getter 方法（即 `example.features.feature['image_raw'].bytes_list.value[0]`）提取该特征。您还可以使用标签来确定哪个记录是猫，哪个记录是桥：
+
+```py
+raw_image_dataset = tf.data.TFRecordDataset('images.tfrecords')
+
+# Create a dictionary describing the features.
+image_feature_description = {
+    'height': tf.io.FixedLenFeature([], tf.int64),
+    'width': tf.io.FixedLenFeature([], tf.int64),
+    'depth': tf.io.FixedLenFeature([], tf.int64),
+    'label': tf.io.FixedLenFeature([], tf.int64),
+    'image_raw': tf.io.FixedLenFeature([], tf.string),
+}
+
+def _parse_image_function(example_proto):
+  # Parse the input tf.Example proto using the dictionary above.
+  return tf.io.parse_single_example(example_proto, image_feature_description)
+
+parsed_image_dataset = raw_image_dataset.map(_parse_image_function)
+parsed_image_dataset 
+```
+
+```py
+<MapDataset shapes: {depth: (), height: (), image_raw: (), label: (), width: ()}, types: {depth: tf.int64, height: tf.int64, image_raw: tf.string, label: tf.int64, width: tf.int64}>
+
+```
+
+从 TFRecord 文件中恢复图像：
+
+```py
+for image_features in parsed_image_dataset:
+  image_raw = image_features['image_raw'].numpy()
+  display.display(display.Image(data=image_raw)) 
+```
+
+![jpeg](img/36943305bc87e9d7bacdd3122d2620ca.png)
+
+![jpeg](img/9a244f6224055e7727787fe289c2ca7c.png)
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/022.md b/Tensorflow/TensorFlow2.0/022.md
new file mode 100644
index 00000000..943515fa
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/022.md
@@ -0,0 +1 @@
+# Estimator
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/023.md b/Tensorflow/TensorFlow2.0/023.md
new file mode 100644
index 00000000..2f6d7866
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/023.md
@@ -0,0 +1,410 @@
+# 预创建的 Estimators
+
+> 原文：[https://tensorflow.google.cn/tutorials/estimator/premade](https://tensorflow.google.cn/tutorials/estimator/premade)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程将向您展示如何使用 Estimators 解决 Tensorflow 中的鸢尾花（Iris）分类问题。Estimator 是 Tensorflow 完整模型的高级表示，它被设计用于轻松扩展和异步训练。更多细节请参阅 [Estimators](https://tensorflow.google.cn/guide/estimator)。
+
+请注意，在 Tensorflow 2.0 中，[Keras API](https://tensorflow.google.cn/guide/keras) 可以完成许多相同的任务，而且被认为是一个更易学习的 API。如果您刚刚开始入门，我们建议您从 Keras 开始。有关 Tensorflow 2.0 中可用高级 API 的更多信息，请参阅 [Keras 标准化](https://medium.com/tensorflow/standardizing-on-keras-guidance-on-high-level-apis-in-tensorflow-2-0-bad2b04c819a)。
+
+## 首先要做的事
+
+为了开始，您将首先导入 Tensorflow 和一系列您需要的库。
+
+```py
+import tensorflow as tf
+
+import pandas as pd 
+```
+
+## 数据集
+
+本文档中的示例程序构建并测试了一个模型，该模型根据[花萼](https://en.wikipedia.org/wiki/Sepal)和[花瓣](https://en.wikipedia.org/wiki/Petal)的大小将鸢尾花分成三种物种。
+
+您将使用鸢尾花数据集训练模型。该数据集包括四个特征和一个[标签](https://developers.google.cn/machine-learning/glossary/#label)。这四个特征确定了单个鸢尾花的以下植物学特征：
+
+*   花萼长度
+*   花萼宽度
+*   花瓣长度
+*   花瓣宽度
+
+根据这些信息，您可以定义一些有用的常量来解析数据：
+
+```py
+CSV_COLUMN_NAMES = ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Species']
+SPECIES = ['Setosa', 'Versicolor', 'Virginica'] 
+```
+
+接下来，使用 Keras 与 Pandas 下载并解析鸢尾花数据集。注意为训练和测试保留不同的数据集。
+
+```py
+train_path = tf.keras.utils.get_file(
+    "iris_training.csv", "https://storage.googleapis.com/download.tensorflow.org/data/iris_training.csv")
+test_path = tf.keras.utils.get_file(
+    "iris_test.csv", "https://storage.googleapis.com/download.tensorflow.org/data/iris_test.csv")
+
+train = pd.read_csv(train_path, names=CSV_COLUMN_NAMES, header=0)
+test = pd.read_csv(test_path, names=CSV_COLUMN_NAMES, header=0) 
+```
+
+通过检查数据您可以发现有四列浮点型特征和一列 int32 型标签。
+
+```py
+train.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/estimator/premade_4ef55cf026eec3ed4d0c8562a0aea6d97ef7158cca81e5bee02dcca4014bb030.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+对于每个数据集都分割出标签，模型将被训练来预测这些标签。
+
+```py
+train_y = train.pop('Species')
+test_y = test.pop('Species')
+
+# 标签列现已从数据中删除
+train.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/estimator/premade_cb6311d9578c260b2f77793d8cda49d8df64c7169d77c5cd07ed7ef07477a397.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+## Estimator 编程概述
+
+现在您已经设定好了数据，您可以使用 Tensorflow Estimator 定义模型。Estimator 是从 [`tf.estimator.Estimator`](https://tensorflow.google.cn/api_docs/python/tf/estimator/Estimator) 中派生的任何类。Tensorflow 提供了一组[`tf.estimator`](https://tensorflow.google.cn/api_docs/python/tf/estimator)(例如，`LinearRegressor`)来实现常见的机器学习算法。此外，您可以编写您自己的[自定义 Estimator](https://tensorflow.google.cn/guide/custom_estimators)。入门阶段我们建议使用预创建的 Estimator。
+
+为了编写基于预创建的 Estimator 的 Tensorflow 项目，您必须完成以下工作：
+
+*   创建一个或多个输入函数
+*   定义模型的特征列
+*   实例化一个 Estimator，指定特征列和各种超参数。
+*   在 Estimator 对象上调用一个或多个方法，传递合适的输入函数以作为数据源。
+
+我们来看看这些任务是如何在鸢尾花分类中实现的。
+
+## 创建输入函数
+
+您必须创建输入函数来提供用于训练、评估和预测的数据。
+
+**输入函数**是一个返回 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) 对象的函数，此对象会输出下列含两个元素的元组：
+
+*   [`features`](https://developers.google.cn/machine-learning/glossary/#feature)——Python 字典，其中：
+    *   每个键都是特征名称
+    *   每个值都是包含此特征所有值的数组
+*   `label` 包含每个样本的[标签](https://developers.google.cn/machine-learning/glossary/#label)的值的数组。
+
+为了向您展示输入函数的格式，请查看下面这个简单的实现：
+
+```py
+def input_evaluation_set():
+    features = {'SepalLength': np.array([6.4, 5.0]),
+                'SepalWidth':  np.array([2.8, 2.3]),
+                'PetalLength': np.array([5.6, 3.3]),
+                'PetalWidth':  np.array([2.2, 1.0])}
+    labels = np.array([2, 1])
+    return features, labels 
+```
+
+您的输入函数可以以您喜欢的方式生成 `features` 字典与 `label` 列表。但是，我们建议使用 Tensorflow 的 [Dataset API](https://tensorflow.google.cn/guide/datasets)，该 API 可以用来解析各种类型的数据。
+
+Dataset API 可以为您处理很多常见情况。例如，使用 Dataset API，您可以轻松地从大量文件中并行读取记录，并将它们合并为单个数据流。
+
+为了简化此示例，我们将使用 [pandas](https://pandas.pydata.org/) 加载数据，并利用此内存数据构建输入管道。
+
+```py
+def input_fn(features, labels, training=True, batch_size=256):
+    """An input function for training or evaluating"""
+    # 将输入转换为数据集。
+    dataset = tf.data.Dataset.from_tensor_slices((dict(features), labels))
+
+    # 如果在训练模式下混淆并重复数据。
+    if training:
+        dataset = dataset.shuffle(1000).repeat()
+
+    return dataset.batch(batch_size) 
+```
+
+## 定义特征列（feature columns）
+
+[**特征列（feature columns）**](https://developers.google.cn/machine-learning/glossary/#feature_columns)是一个对象，用于描述模型应该如何使用特征字典中的原始输入数据。当您构建一个 Estimator 模型的时候，您会向其传递一个特征列的列表，其中包含您希望模型使用的每个特征。[`tf.feature_column`](https://tensorflow.google.cn/api_docs/python/tf/feature_column) 模块提供了许多为模型表示数据的选项。
+
+对于鸢尾花问题，4 个原始特征是数值，因此我们将构建一个特征列的列表，以告知 Estimator 模型将 4 个特征都表示为 32 位浮点值。故创建特征列的代码如下所示：
+
+```py
+# 特征列描述了如何使用输入。
+my_feature_columns = []
+for key in train.keys():
+    my_feature_columns.append(tf.feature_column.numeric_column(key=key)) 
+```
+
+特征列可能比上述示例复杂得多。您可以从[指南](https://tensorflow.google.cn/guide/feature_columns)获取更多关于特征列的信息。
+
+我们已经介绍了如何使模型表示原始特征，现在您可以构建 Estimator 了。
+
+## 实例化 Estimator
+
+鸢尾花为题是一个经典的分类问题。幸运的是，Tensorflow 提供了几个预创建的 Estimator 分类器，其中包括：
+
+*   [`tf.estimator.DNNClassifier`](https://tensorflow.google.cn/api_docs/python/tf/estimator/DNNClassifier) 用于多类别分类的深度模型
+*   [`tf.estimator.DNNLinearCombinedClassifier`](https://tensorflow.google.cn/api_docs/python/tf/estimator/DNNLinearCombinedClassifier) 用于广度与深度模型
+*   [`tf.estimator.LinearClassifier`](https://tensorflow.google.cn/api_docs/python/tf/estimator/LinearClassifier) 用于基于线性模型的分类器
+
+对于鸢尾花问题，[`tf.estimator.DNNClassifier`](https://tensorflow.google.cn/api_docs/python/tf/estimator/DNNClassifier) 似乎是最好的选择。您可以这样实例化该 Estimator：
+
+```py
+# 构建一个拥有两个隐层，隐藏节点分别为 30 和 10 的深度神经网络。
+classifier = tf.estimator.DNNClassifier(
+    feature_columns=my_feature_columns,
+    # 隐层所含结点数量分别为 30 和 10.
+    hidden_units=[30, 10],
+    # 模型必须从三个类别中做出选择。
+    n_classes=3) 
+```
+
+```py
+INFO:tensorflow:Using default config.
+WARNING:tensorflow:Using temporary folder as model directory: /tmp/tmpkhwws8ja
+INFO:tensorflow:Using config: {'_model_dir': '/tmp/tmpkhwws8ja', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
+graph_options {
+  rewrite_options {
+    meta_optimizer_iterations: ONE
+  }
+}
+, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_experimental_max_worker_delay_secs': None, '_session_creation_timeout_secs': 7200, '_service': None, '_cluster_spec': ClusterSpec({}), '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
+
+```
+
+## 训练、评估和预测
+
+我们已经有一个 Estimator 对象，现在可以调用方法来执行下列操作：
+
+*   训练模型。
+*   评估经过训练的模型。
+*   使用经过训练的模型进行预测。
+
+### 训练模型
+
+通过调用 Estimator 的 `Train` 方法来训练模型，如下所示：
+
+```py
+# 训练模型。
+classifier.train(
+    input_fn=lambda: input_fn(train, train_y, training=True),
+    steps=5000) 
+```
+
+```py
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/training_util.py:236: Variable.initialized_value (from tensorflow.python.ops.variables) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use Variable.read_value. Variables in 2.X are initialized automatically both in eager and graph (inside tf.defun) contexts.
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Layer dnn is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/keras/optimizer_v2/adagrad.py:83: calling Constant.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
+Instructions for updating:
+Call initializer instance with the dtype argument instead of passing it to the constructor
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Create CheckpointSaverHook.
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 0...
+INFO:tensorflow:Saving checkpoints for 0 into /tmp/tmpkhwws8ja/model.ckpt.
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 0...
+INFO:tensorflow:loss = 1.6968713, step = 0
+INFO:tensorflow:global_step/sec: 308.34
+INFO:tensorflow:loss = 1.1691835, step = 100 (0.325 sec)
+INFO:tensorflow:global_step/sec: 365.112
+INFO:tensorflow:loss = 1.0332501, step = 200 (0.274 sec)
+INFO:tensorflow:global_step/sec: 365.44
+INFO:tensorflow:loss = 0.9807229, step = 300 (0.274 sec)
+INFO:tensorflow:global_step/sec: 364.789
+INFO:tensorflow:loss = 0.9437329, step = 400 (0.274 sec)
+INFO:tensorflow:global_step/sec: 368.124
+INFO:tensorflow:loss = 0.94162637, step = 500 (0.272 sec)
+INFO:tensorflow:global_step/sec: 366.689
+INFO:tensorflow:loss = 0.9129944, step = 600 (0.273 sec)
+INFO:tensorflow:global_step/sec: 368.813
+INFO:tensorflow:loss = 0.91519016, step = 700 (0.271 sec)
+INFO:tensorflow:global_step/sec: 369.377
+INFO:tensorflow:loss = 0.8866866, step = 800 (0.271 sec)
+INFO:tensorflow:global_step/sec: 371.999
+INFO:tensorflow:loss = 0.88594323, step = 900 (0.269 sec)
+INFO:tensorflow:global_step/sec: 372.481
+INFO:tensorflow:loss = 0.8859284, step = 1000 (0.269 sec)
+INFO:tensorflow:global_step/sec: 369.793
+INFO:tensorflow:loss = 0.87800217, step = 1100 (0.270 sec)
+INFO:tensorflow:global_step/sec: 364.966
+INFO:tensorflow:loss = 0.8652306, step = 1200 (0.274 sec)
+INFO:tensorflow:global_step/sec: 368.742
+INFO:tensorflow:loss = 0.8569569, step = 1300 (0.271 sec)
+INFO:tensorflow:global_step/sec: 368.955
+INFO:tensorflow:loss = 0.8538004, step = 1400 (0.271 sec)
+INFO:tensorflow:global_step/sec: 371.44
+INFO:tensorflow:loss = 0.8501439, step = 1500 (0.269 sec)
+INFO:tensorflow:global_step/sec: 369.55
+INFO:tensorflow:loss = 0.8453819, step = 1600 (0.271 sec)
+INFO:tensorflow:global_step/sec: 366
+INFO:tensorflow:loss = 0.83854586, step = 1700 (0.273 sec)
+INFO:tensorflow:global_step/sec: 370.695
+INFO:tensorflow:loss = 0.81984085, step = 1800 (0.270 sec)
+INFO:tensorflow:global_step/sec: 371.791
+INFO:tensorflow:loss = 0.8254725, step = 1900 (0.271 sec)
+INFO:tensorflow:global_step/sec: 363.724
+INFO:tensorflow:loss = 0.839285, step = 2000 (0.273 sec)
+INFO:tensorflow:global_step/sec: 366.998
+INFO:tensorflow:loss = 0.81192434, step = 2100 (0.273 sec)
+INFO:tensorflow:global_step/sec: 362.578
+INFO:tensorflow:loss = 0.80626756, step = 2200 (0.276 sec)
+INFO:tensorflow:global_step/sec: 370.678
+INFO:tensorflow:loss = 0.8144733, step = 2300 (0.270 sec)
+INFO:tensorflow:global_step/sec: 367.415
+INFO:tensorflow:loss = 0.80486006, step = 2400 (0.272 sec)
+INFO:tensorflow:global_step/sec: 363.869
+INFO:tensorflow:loss = 0.7996403, step = 2500 (0.275 sec)
+INFO:tensorflow:global_step/sec: 366.247
+INFO:tensorflow:loss = 0.78972137, step = 2600 (0.273 sec)
+INFO:tensorflow:global_step/sec: 366.514
+INFO:tensorflow:loss = 0.7898851, step = 2700 (0.273 sec)
+INFO:tensorflow:global_step/sec: 363.635
+INFO:tensorflow:loss = 0.7798088, step = 2800 (0.275 sec)
+INFO:tensorflow:global_step/sec: 371.201
+INFO:tensorflow:loss = 0.7830296, step = 2900 (0.269 sec)
+INFO:tensorflow:global_step/sec: 372.843
+INFO:tensorflow:loss = 0.78415155, step = 3000 (0.268 sec)
+INFO:tensorflow:global_step/sec: 370.754
+INFO:tensorflow:loss = 0.7710204, step = 3100 (0.270 sec)
+INFO:tensorflow:global_step/sec: 373.092
+INFO:tensorflow:loss = 0.7817295, step = 3200 (0.268 sec)
+INFO:tensorflow:global_step/sec: 369.337
+INFO:tensorflow:loss = 0.78129435, step = 3300 (0.271 sec)
+INFO:tensorflow:global_step/sec: 368.646
+INFO:tensorflow:loss = 0.78726315, step = 3400 (0.271 sec)
+INFO:tensorflow:global_step/sec: 367.989
+INFO:tensorflow:loss = 0.76692796, step = 3500 (0.273 sec)
+INFO:tensorflow:global_step/sec: 365.108
+INFO:tensorflow:loss = 0.7719732, step = 3600 (0.272 sec)
+INFO:tensorflow:global_step/sec: 370.532
+INFO:tensorflow:loss = 0.76764953, step = 3700 (0.270 sec)
+INFO:tensorflow:global_step/sec: 362.993
+INFO:tensorflow:loss = 0.75807786, step = 3800 (0.277 sec)
+INFO:tensorflow:global_step/sec: 365.707
+INFO:tensorflow:loss = 0.7590251, step = 3900 (0.272 sec)
+INFO:tensorflow:global_step/sec: 368.977
+INFO:tensorflow:loss = 0.7478892, step = 4000 (0.271 sec)
+INFO:tensorflow:global_step/sec: 370.263
+INFO:tensorflow:loss = 0.74537545, step = 4100 (0.270 sec)
+INFO:tensorflow:global_step/sec: 370.648
+INFO:tensorflow:loss = 0.7506561, step = 4200 (0.270 sec)
+INFO:tensorflow:global_step/sec: 372.419
+INFO:tensorflow:loss = 0.74983096, step = 4300 (0.268 sec)
+INFO:tensorflow:global_step/sec: 370.771
+INFO:tensorflow:loss = 0.74485517, step = 4400 (0.270 sec)
+INFO:tensorflow:global_step/sec: 371.489
+INFO:tensorflow:loss = 0.74746263, step = 4500 (0.269 sec)
+INFO:tensorflow:global_step/sec: 370.063
+INFO:tensorflow:loss = 0.7356381, step = 4600 (0.270 sec)
+INFO:tensorflow:global_step/sec: 370.305
+INFO:tensorflow:loss = 0.74623525, step = 4700 (0.270 sec)
+INFO:tensorflow:global_step/sec: 365.488
+INFO:tensorflow:loss = 0.7425093, step = 4800 (0.274 sec)
+INFO:tensorflow:global_step/sec: 370.235
+INFO:tensorflow:loss = 0.7342787, step = 4900 (0.270 sec)
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 5000...
+INFO:tensorflow:Saving checkpoints for 5000 into /tmp/tmpkhwws8ja/model.ckpt.
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 5000...
+INFO:tensorflow:Loss for final step: 0.7211363.
+
+<tensorflow_estimator.python.estimator.canned.dnn.DNNClassifierV2 at 0x7f16ef6d0cf8>
+
+```
+
+注意将 `input_fn` 调用封装在 [`lambda`](https://docs.python.org/3/tutorial/controlflow.html) 中以获取参数，同时提供不带参数的输入函数，如 Estimator 所预期的那样。`step` 参数告知该方法在训练多少步后停止训练。
+
+### 评估经过训练的模型
+
+现在模型已经经过训练，您可以获取一些关于模型性能的统计信息。代码块将在测试数据上对经过训练的模型的准确率（accuracy）进行评估：
+
+```py
+eval_result = classifier.evaluate(
+    input_fn=lambda: input_fn(test, test_y, training=False))
+
+print('\nTest set accuracy: {accuracy:0.3f}\n'.format(**eval_result)) 
+```
+
+```py
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Layer dnn is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-09-22T19:58:23Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpkhwws8ja/model.ckpt-5000
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.20579s
+INFO:tensorflow:Finished evaluation at 2020-09-22-19:58:23
+INFO:tensorflow:Saving dict for global step 5000: accuracy = 0.53333336, average_loss = 0.760622, global_step = 5000, loss = 0.760622
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 5000: /tmp/tmpkhwws8ja/model.ckpt-5000
+
+Test set accuracy: 0.533
+
+```
+
+与对 `train` 方法的调用不同，我们没有传递 `steps` 参数来进行评估。用于评估的 `input_fn` 只生成一个 [epoch](https://developers.google.cn/machine-learning/glossary/#epoch) 的数据。
+
+`eval_result` 字典亦包含 `average_loss`（每个样本的平均误差），`loss`（每个 mini-batch 的平均误差）与 Estimator 的 `global_step`（经历的训练迭代次数）值。
+
+### 利用经过训练的模型进行预测（推理）
+
+我们已经有一个经过训练的模型，可以生成准确的评估结果。我们现在可以使用经过训练的模型，根据一些无标签测量结果预测鸢尾花的品种。与训练和评估一样，我们使用单个函数调用进行预测：
+
+```py
+# 由模型生成预测
+expected = ['Setosa', 'Versicolor', 'Virginica']
+predict_x = {
+    'SepalLength': [5.1, 5.9, 6.9],
+    'SepalWidth': [3.3, 3.0, 3.1],
+    'PetalLength': [1.7, 4.2, 5.4],
+    'PetalWidth': [0.5, 1.5, 2.1],
+}
+
+def input_fn(features, batch_size=256):
+    """An input function for prediction."""
+    # 将输入转换为无标签数据集。
+    return tf.data.Dataset.from_tensor_slices(dict(features)).batch(batch_size)
+
+predictions = classifier.predict(
+    input_fn=lambda: input_fn(predict_x)) 
+```
+
+`predict` 方法返回一个 Python 可迭代对象，为每个样本生成一个预测结果字典。以下代码输出了一些预测及其概率：
+
+```py
+for pred_dict, expec in zip(predictions, expected):
+    class_id = pred_dict['class_ids'][0]
+    probability = pred_dict['probabilities'][class_id]
+
+    print('Prediction is "{}" ({:.1f}%), expected "{}"'.format(
+        SPECIES[class_id], 100 * probability, expec)) 
+```
+
+```py
+INFO:tensorflow:Calling model_fn.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpkhwws8ja/model.ckpt-5000
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+Prediction is "Versicolor" (36.6%), expected "Setosa"
+Prediction is "Virginica" (50.9%), expected "Versicolor"
+Prediction is "Virginica" (62.6%), expected "Virginica"
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/024.md b/Tensorflow/TensorFlow2.0/024.md
new file mode 100644
index 00000000..185efaeb
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/024.md
@@ -0,0 +1,340 @@
+# Build a linear model with Estimators
+
+> 原文：[https://tensorflow.google.cn/tutorials/estimator/linear](https://tensorflow.google.cn/tutorials/estimator/linear)
+
+## Overview
+
+This end-to-end walkthrough trains a logistic regression model using the [`tf.estimator`](https://tensorflow.google.cn/api_docs/python/tf/estimator) API. The model is often used as a baseline for other, more complex, algorithms.
+
+## Setup
+
+```py
+pip install -q sklearn
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import os
+import sys
+
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+from IPython.display import clear_output
+from six.moves import urllib 
+```
+
+## Load the titanic dataset
+
+You will use the Titanic dataset with the (rather morbid) goal of predicting passenger survival, given characteristics such as gender, age, class, etc.
+
+```py
+import tensorflow.compat.v2.feature_column as fc
+
+import tensorflow as tf 
+```
+
+```py
+# Load dataset.
+dftrain = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/train.csv')
+dfeval = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/eval.csv')
+y_train = dftrain.pop('survived')
+y_eval = dfeval.pop('survived') 
+```
+
+## Explore the data
+
+The dataset contains the following features
+
+```py
+dftrain.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/estimator/linear_e1d1ae84a379eaa74df0c61aaa7a21a3176437c97b21c8d76a60084b4492e8af.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+```py
+dftrain.describe() 
+```
+
+<devsite-iframe><iframe src="/tutorials/estimator/linear_d8dcd808885e18f5a885898a43268a31ad574660d1cc95e2c479588cd86ac79e.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+There are 627 and 264 examples in the training and evaluation sets, respectively.
+
+```py
+dftrain.shape[0], dfeval.shape[0] 
+```
+
+```py
+(627, 264)
+
+```
+
+The majority of passengers are in their 20's and 30's.
+
+```py
+dftrain.age.hist(bins=20) 
+```
+
+```py
+<matplotlib.axes._subplots.AxesSubplot at 0x7f8e946914a8>
+
+```
+
+![png](img/7d1de3cd2c94ab5fb2b9e44445a2fa6b.png)
+
+There are approximately twice as many male passengers as female passengers aboard.
+
+```py
+dftrain.sex.value_counts().plot(kind='barh') 
+```
+
+```py
+<matplotlib.axes._subplots.AxesSubplot at 0x7f8e925da208>
+
+```
+
+![png](img/2ab61e10f9f53c1738f397150ea65f3d.png)
+
+The majority of passengers were in the "third" class.
+
+```py
+dftrain['class'].value_counts().plot(kind='barh') 
+```
+
+```py
+<matplotlib.axes._subplots.AxesSubplot at 0x7f8e920e0588>
+
+```
+
+![png](img/90c153ba31f6c32d7d760bc031b5d956.png)
+
+Females have a much higher chance of surviving versus males. This is clearly a predictive feature for the model.
+
+```py
+pd.concat([dftrain, y_train], axis=1).groupby('sex').survived.mean().plot(kind='barh').set_xlabel('% survive') 
+```
+
+```py
+Text(0.5, 0, '% survive')
+
+```
+
+![png](img/aaf0cfc73c7f275786e66d759ad26df6.png)
+
+## Feature Engineering for the Model
+
+Estimators use a system called [feature columns](https://tensorflow.google.cn/guide/feature_columns) to describe how the model should interpret each of the raw input features. An Estimator expects a vector of numeric inputs, and *feature columns* describe how the model should convert each feature.
+
+Selecting and crafting the right set of feature columns is key to learning an effective model. A feature column can be either one of the raw inputs in the original features `dict` (a *base feature column*), or any new columns created using transformations defined over one or multiple base columns (a *derived feature columns*).
+
+The linear estimator uses both numeric and categorical features. Feature columns work with all TensorFlow estimators and their purpose is to define the features used for modeling. Additionally, they provide some feature engineering capabilities like one-hot-encoding, normalization, and bucketization.
+
+### Base Feature Columns
+
+```py
+CATEGORICAL_COLUMNS = ['sex', 'n_siblings_spouses', 'parch', 'class', 'deck',
+                       'embark_town', 'alone']
+NUMERIC_COLUMNS = ['age', 'fare']
+
+feature_columns = []
+for feature_name in CATEGORICAL_COLUMNS:
+  vocabulary = dftrain[feature_name].unique()
+  feature_columns.append(tf.feature_column.categorical_column_with_vocabulary_list(feature_name, vocabulary))
+
+for feature_name in NUMERIC_COLUMNS:
+  feature_columns.append(tf.feature_column.numeric_column(feature_name, dtype=tf.float32)) 
+```
+
+The `input_function` specifies how data is converted to a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) that feeds the input pipeline in a streaming fashion. [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) can take in multiple sources such as a dataframe, a csv-formatted file, and more.
+
+```py
+def make_input_fn(data_df, label_df, num_epochs=10, shuffle=True, batch_size=32):
+  def input_function():
+    ds = tf.data.Dataset.from_tensor_slices((dict(data_df), label_df))
+    if shuffle:
+      ds = ds.shuffle(1000)
+    ds = ds.batch(batch_size).repeat(num_epochs)
+    return ds
+  return input_function
+
+train_input_fn = make_input_fn(dftrain, y_train)
+eval_input_fn = make_input_fn(dfeval, y_eval, num_epochs=1, shuffle=False) 
+```
+
+You can inspect the dataset:
+
+```py
+ds = make_input_fn(dftrain, y_train, batch_size=10)()
+for feature_batch, label_batch in ds.take(1):
+  print('Some feature keys:', list(feature_batch.keys()))
+  print()
+  print('A batch of class:', feature_batch['class'].numpy())
+  print()
+  print('A batch of Labels:', label_batch.numpy()) 
+```
+
+```py
+Some feature keys: ['sex', 'age', 'n_siblings_spouses', 'parch', 'fare', 'class', 'deck', 'embark_town', 'alone']
+
+A batch of class: [b'Third' b'Third' b'Third' b'Third' b'First' b'Third' b'Third' b'First'
+ b'Third' b'Third']
+
+A batch of Labels: [1 0 0 0 1 0 0 0 0 0]
+
+```
+
+You can also inspect the result of a specific feature column using the [`tf.keras.layers.DenseFeatures`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/DenseFeatures) layer:
+
+```py
+age_column = feature_columns[7]
+tf.keras.layers.DenseFeatures([age_column])(feature_batch).numpy() 
+```
+
+```py
+WARNING:tensorflow:Layer dense_features is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+array([[27.],
+       [28.],
+       [30.],
+       [18.],
+       [32.],
+       [26.],
+       [61.],
+       [37.],
+       [28.],
+       [40.]], dtype=float32)
+
+```
+
+`DenseFeatures` only accepts dense tensors, to inspect a categorical column you need to transform that to a indicator column first:
+
+```py
+gender_column = feature_columns[0]
+tf.keras.layers.DenseFeatures([tf.feature_column.indicator_column(gender_column)])(feature_batch).numpy() 
+```
+
+```py
+WARNING:tensorflow:Layer dense_features_1 is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+array([[1., 0.],
+       [1., 0.],
+       [1., 0.],
+       [0., 1.],
+       [1., 0.],
+       [1., 0.],
+       [1., 0.],
+       [1., 0.],
+       [1., 0.],
+       [1., 0.]], dtype=float32)
+
+```
+
+After adding all the base features to the model, let's train the model. Training a model is just a single command using the [`tf.estimator`](https://tensorflow.google.cn/api_docs/python/tf/estimator) API:
+
+```py
+linear_est = tf.estimator.LinearClassifier(feature_columns=feature_columns)
+linear_est.train(train_input_fn)
+result = linear_est.evaluate(eval_input_fn)
+
+clear_output()
+print(result) 
+```
+
+```py
+{'accuracy': 0.7613636, 'accuracy_baseline': 0.625, 'auc': 0.809244, 'auc_precision_recall': 0.75609726, 'average_loss': 0.5452906, 'label/mean': 0.375, 'loss': 0.5347039, 'precision': 0.75, 'prediction/mean': 0.27201703, 'recall': 0.54545456, 'global_step': 200}
+
+```
+
+### Derived Feature Columns
+
+Now you reached an accuracy of 75%. Using each base feature column separately may not be enough to explain the data. For example, the correlation between gender and the label may be different for different gender. Therefore, if you only learn a single model weight for `gender="Male"` and `gender="Female"`, you won't capture every age-gender combination (e.g. distinguishing between `gender="Male"` AND `age="30"` AND `gender="Male"` AND `age="40"`).
+
+To learn the differences between different feature combinations, you can add *crossed feature columns* to the model (you can also bucketize age column before the cross column):
+
+```py
+age_x_gender = tf.feature_column.crossed_column(['age', 'sex'], hash_bucket_size=100) 
+```
+
+After adding the combination feature to the model, let's train the model again:
+
+```py
+derived_feature_columns = [age_x_gender]
+linear_est = tf.estimator.LinearClassifier(feature_columns=feature_columns+derived_feature_columns)
+linear_est.train(train_input_fn)
+result = linear_est.evaluate(eval_input_fn)
+
+clear_output()
+print(result) 
+```
+
+```py
+{'accuracy': 0.7613636, 'accuracy_baseline': 0.625, 'auc': 0.84352624, 'auc_precision_recall': 0.78346276, 'average_loss': 0.48114488, 'label/mean': 0.375, 'loss': 0.4756022, 'precision': 0.65789473, 'prediction/mean': 0.4285249, 'recall': 0.75757575, 'global_step': 200}
+
+```
+
+It now achieves an accuracy of 77.6%, which is slightly better than only trained in base features. You can try using more features and transformations to see if you can do better!
+
+Now you can use the train model to make predictions on a passenger from the evaluation set. TensorFlow models are optimized to make predictions on a batch, or collection, of examples at once. Earlier, the `eval_input_fn` was defined using the entire evaluation set.
+
+```py
+pred_dicts = list(linear_est.predict(eval_input_fn))
+probs = pd.Series([pred['probabilities'][1] for pred in pred_dicts])
+
+probs.plot(kind='hist', bins=20, title='predicted probabilities') 
+```
+
+```py
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Layer linear/linear_model is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpg17o3o7e/model.ckpt-200
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+
+<matplotlib.axes._subplots.AxesSubplot at 0x7f8e2c1dd358>
+
+```
+
+![png](img/5fcd4749c7b37cf8714bd83753d1da5b.png)
+
+Finally, look at the receiver operating characteristic (ROC) of the results, which will give us a better idea of the tradeoff between the true positive rate and false positive rate.
+
+```py
+from sklearn.metrics import roc_curve
+from matplotlib import pyplot as plt
+
+fpr, tpr, _ = roc_curve(y_eval, probs)
+plt.plot(fpr, tpr)
+plt.title('ROC curve')
+plt.xlabel('false positive rate')
+plt.ylabel('true positive rate')
+plt.xlim(0,)
+plt.ylim(0,) 
+```
+
+```py
+(0.0, 1.05)
+
+```
+
+![png](img/2230343d999d9f0dd8b71b8bf390e82f.png)
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/025.md b/Tensorflow/TensorFlow2.0/025.md
new file mode 100644
index 00000000..cfeba579
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/025.md
@@ -0,0 +1,302 @@
+# 在 Tensorflow 中训练提升树（Boosted Trees）模型
+
+> 原文：[https://tensorflow.google.cn/tutorials/estimator/boosted_trees](https://tensorflow.google.cn/tutorials/estimator/boosted_trees)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程是使用基于 [`tf.estimator`](https://tensorflow.google.cn/api_docs/python/tf/estimator) API 的决策树来训练梯度提升模型的端到端演示。提升树（Boosted Trees）模型是回归和分类问题中最受欢迎并最有效的机器学习方法之一。这是一种融合技术，它结合了几个（10 个，100 个或者甚至 1000 个）树模型的预测值。
+
+提升树（Boosted Trees）模型受到许多机器学习从业者的欢迎，因为它们可以通过最小化的超参数调整获得令人印象深刻的性能。
+
+## 加载泰坦尼克数据集
+
+您将使用泰坦尼克数据集，该数据集的目标是在给出性别、年龄、阶级等特征的条件下预测乘客幸存与否。
+
+```py
+import numpy as np
+import pandas as pd
+from IPython.display import clear_output
+from matplotlib import pyplot as plt
+
+# 加载数据集。
+dftrain = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/train.csv')
+dfeval = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/eval.csv')
+y_train = dftrain.pop('survived')
+y_eval = dfeval.pop('survived') 
+```
+
+```py
+import tensorflow as tf
+tf.random.set_seed(123) 
+```
+
+数据集由训练集和验证集组成：
+
+*   `dftrain` 与 `y_train` 是*训练集*——模型用来学习的数据。
+*   模型根据*评估集*，`dfeval` 和 `y_eval` 进行测试。
+
+您将使用以下特征来进行训练：
+
+| 特征名称 | 描述 |
+| sex | 乘客的性别 |
+| age | 乘客的年龄 |
+| n_siblings_spouses | 船上的兄弟姐妹与伙伴 |
+| parch | 船上的父母与孩子 |
+| fare | 乘客所支付的票价 |
+| class | 乘客在船上的舱室等级 |
+| deck | 哪个甲板上的乘客 |
+| embark_town | 乘客是从哪个城镇上船的 |
+| alone | 是否乘客独自一人 |
+
+## 探索数据
+
+让我们首先预览一些数据，并在训练集上创建摘要统计。
+
+```py
+dftrain.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/estimator/boosted_trees_e1d1ae84a379eaa74df0c61aaa7a21a3176437c97b21c8d76a60084b4492e8af.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+```py
+dftrain.describe() 
+```
+
+<devsite-iframe><iframe src="/tutorials/estimator/boosted_trees_d8dcd808885e18f5a885898a43268a31ad574660d1cc95e2c479588cd86ac79e.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+训练集和评估集分别有 627 和 264 个样本。
+
+```py
+dftrain.shape[0], dfeval.shape[0] 
+```
+
+```py
+(627, 264)
+
+```
+
+大多数乘客在 20 岁或 30 岁。
+
+```py
+dftrain.age.hist(bins=20)
+plt.show() 
+```
+
+![png](img/58d9d20121aa86120aded9afa9cfff6d.png)
+
+男乘客大约是女乘客的两倍。
+
+```py
+dftrain.sex.value_counts().plot(kind='barh')
+plt.show() 
+```
+
+![png](img/3c3d7b5efcc814913b1fdc4d8ab17c2c.png)
+
+大多数乘客都在“三等”舱。
+
+```py
+dftrain['class'].value_counts().plot(kind='barh')
+plt.show() 
+```
+
+![png](img/4630405ff1451bfc3979433eb4bb7a43.png)
+
+大多数乘客从南安普顿出发。
+
+```py
+dftrain['embark_town'].value_counts().plot(kind='barh')
+plt.show() 
+```
+
+![png](img/a3920eb34218a65a21b046a30c7d3808.png)
+
+与男性相比，女性存活的几率要高得多。这显然是该模型的预测特征。
+
+```py
+pd.concat([dftrain, y_train], axis=1).groupby('sex').survived.mean().plot(kind='barh').set_xlabel('% survive')
+plt.show() 
+```
+
+![png](img/2c848f6027c084a244c86c336c02ce35.png)
+
+## 创建特征列与输入函数
+
+梯度提升（Gradient Boosting） Estimator 可以利用数值和分类特征。特征列适用于所有的 Tensorflow estimator，其目的是定义用于建模的特征。此外，它们还提供一些特征工程功能，如独热编码（one-hot-encoding）、标准化（normalization）和桶化（bucketization）。在本教程中，`CATEGORICAL_COLUMNS` 中的字段从分类列转换为独热编码列([指标列](https://tensorflow.google.cn/api_docs/python/tf/feature_column/indicator_column))：
+
+```py
+fc = tf.feature_column
+CATEGORICAL_COLUMNS = ['sex', 'n_siblings_spouses', 'parch', 'class', 'deck',
+                       'embark_town', 'alone']
+NUMERIC_COLUMNS = ['age', 'fare']
+
+def one_hot_cat_column(feature_name, vocab):
+  return tf.feature_column.indicator_column(
+      tf.feature_column.categorical_column_with_vocabulary_list(feature_name,
+                                                 vocab))
+feature_columns = []
+for feature_name in CATEGORICAL_COLUMNS:
+  # Need to one-hot encode categorical features.
+  vocabulary = dftrain[feature_name].unique()
+  feature_columns.append(one_hot_cat_column(feature_name, vocabulary))
+
+for feature_name in NUMERIC_COLUMNS:
+  feature_columns.append(tf.feature_column.numeric_column(feature_name,
+                                           dtype=tf.float32)) 
+```
+
+您可以查看特征列生成的转换。例如，以下是在单个样本中使用 `indicator_column` 的输出：
+
+```py
+example = dict(dftrain.head(1))
+class_fc = tf.feature_column.indicator_column(tf.feature_column.categorical_column_with_vocabulary_list('class', ('First', 'Second', 'Third')))
+print('Feature value: "{}"'.format(example['class'].iloc[0]))
+print('One-hot encoded: ', tf.keras.layers.DenseFeatures([class_fc])(example).numpy()) 
+```
+
+```py
+Feature value: "Third"
+One-hot encoded:  [[ 0\.  0\.  1.]]
+
+```
+
+此外，您还可以一起查看所有特征列的转换：
+
+```py
+tf.keras.layers.DenseFeatures(feature_columns)(example).numpy() 
+```
+
+```py
+array([[ 22\.  ,   1\.  ,   0\.  ,   1\.  ,   0\.  ,   0\.  ,   1\.  ,   0\.  ,
+
+          0\.  ,   0\.  ,   0\.  ,   0\.  ,   0\.  ,   0\.  ,   1\.  ,   0\.  ,
+          0\.  ,   0\.  ,   7.25,   1\.  ,   0\.  ,   0\.  ,   0\.  ,   0\.  ,
+          0\.  ,   0\.  ,   1\.  ,   0\.  ,   0\.  ,   0\.  ,   0\.  ,   0\.  ,
+          1\.  ,   0\.  ]], dtype=float32)
+
+```
+
+接下来，您需要创建输入函数。这些将指定如何将数据读入到我们的模型中以供训练与推理。您将使用 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data)API 中的 `from_tensor_slices` 方法直接从 Pandas 中读取数据。这适用于较小的内存数据集。对于较大的数据集，tf.data API 支持各种文件格式（包括 [csv](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/make_csv_dataset)）,以便您能处理那些不适合放入内存中的数据集。
+
+```py
+# 使用大小为全部数据的 batch ，因为数据规模非常小.
+NUM_EXAMPLES = len(y_train)
+
+def make_input_fn(X, y, n_epochs=None, shuffle=True):
+  def input_fn():
+    dataset = tf.data.Dataset.from_tensor_slices((dict(X), y))
+    if shuffle:
+      dataset = dataset.shuffle(NUM_EXAMPLES)
+    # 对于训练，可以按需多次循环数据集（n_epochs=None）。
+    dataset = dataset.repeat(n_epochs)
+    # 在内存中训练不使用 batch。
+    dataset = dataset.batch(NUM_EXAMPLES)
+    return dataset
+  return input_fn
+
+# 训练与评估的输入函数。
+train_input_fn = make_input_fn(dftrain, y_train)
+eval_input_fn = make_input_fn(dfeval, y_eval, shuffle=False, n_epochs=1) 
+```
+
+## 训练与评估模型
+
+您将执行以下步骤：
+
+1.  初始化模型，指定特征和超参数。
+2.  使用 `train_input_fn` 将训练数据输入模型，使用 `train` 函数训练模型。
+3.  您将使用此示例中的评估集评估模型性能，即 `dfeval` DataFrame。您将验证预测是否与 `y_eval` 数组中的标签匹配。
+
+在训练提升树（Boosted Trees）模型之前，让我们先训练一个线性分类器（逻辑回归模型）。最好的做法是从更简单的模型开始建立基准。
+
+```py
+linear_est = tf.estimator.LinearClassifier(feature_columns)
+
+# 训练模型。
+linear_est.train(train_input_fn, max_steps=100)
+
+# 评估。
+result = linear_est.evaluate(eval_input_fn)
+clear_output()
+print(pd.Series(result)) 
+```
+
+```py
+accuracy                  0.765152
+accuracy_baseline         0.625000
+auc                       0.832844
+auc_precision_recall      0.789631
+average_loss              0.478908
+global_step             100.000000
+label/mean                0.375000
+loss                      0.478908
+precision                 0.703297
+prediction/mean           0.350790
+recall                    0.646465
+dtype: float64
+
+```
+
+下面让我们训练提升树（Boosted Trees）模型。提升树（Boosted Trees）是支持回归（`BoostedTreesRegressor`）和分类（`BoostedTreesClassifier`）的。由于目标是预测一个生存与否的标签，您将使用 `BoostedTreesClassifier`。
+
+```py
+# 由于数据存入内存中，在每层使用全部数据会更快。
+# 上面一个 batch 定义为整个数据集。
+n_batches = 1
+est = tf.estimator.BoostedTreesClassifier(feature_columns,
+                                          n_batches_per_layer=n_batches)
+
+# 一旦建立了指定数量的树，模型将停止训练，
+# 而不是基于训练步数。
+est.train(train_input_fn, max_steps=100)
+
+# 评估。
+result = est.evaluate(eval_input_fn)
+clear_output()
+print(pd.Series(result)) 
+```
+
+```py
+accuracy                  0.829545
+accuracy_baseline         0.625000
+auc                       0.872788
+auc_precision_recall      0.857807
+average_loss              0.411839
+global_step             100.000000
+label/mean                0.375000
+loss                      0.411839
+precision                 0.793478
+prediction/mean           0.381942
+recall                    0.737374
+dtype: float64
+
+```
+
+现在您可以使用训练的模型从评估集上对乘客进行预测了。Tensorflow 模型经过优化，可以同时在一个 batch 或一个集合的样本上进行预测。之前，`eval_inout_fn` 是使用整个评估集定义的。
+
+```py
+pred_dicts = list(est.predict(eval_input_fn))
+probs = pd.Series([pred['probabilities'][1] for pred in pred_dicts])
+
+probs.plot(kind='hist', bins=20, title='predicted probabilities')
+plt.show() 
+```
+
+![png](img/56a137f761015af5a025d2d0cc2a9985.png)
+
+最后，您还可以查看结果的受试者工作特征曲线（ROC），这将使我们更好地了解真阳性率与假阴性率之间的权衡。
+
+```py
+from sklearn.metrics import roc_curve
+
+fpr, tpr, _ = roc_curve(y_eval, probs)
+plt.plot(fpr, tpr)
+plt.title('ROC curve')
+plt.xlabel('false positive rate')
+plt.ylabel('true positive rate')
+plt.xlim(0,)
+plt.ylim(0,)
+plt.show() 
+```
+
+![png](img/bf058b152584cc8e8c3987a57eb7331f.png)
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/026.md b/Tensorflow/TensorFlow2.0/026.md
new file mode 100644
index 00000000..58a949e7
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/026.md
@@ -0,0 +1,801 @@
+# 梯度提升树（Gradient Boosted Trees）：模型理解
+
+> 原文：[https://tensorflow.google.cn/tutorials/estimator/boosted_trees_model_understanding](https://tensorflow.google.cn/tutorials/estimator/boosted_trees_model_understanding)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+对于梯度提升模型（Gradient Boosting model）的端到端演示（end-to-end walkthrough），请查阅[在 Tensorflow 中训练提升树（Boosted Trees）模型](https://tensorflow.google.cn/tutorials/estimator/boosted_trees)。在本教程中，您将：
+
+*   学习到如何对提升树模型（Boosted Trees model）进行*局部解释*和*全局解释*
+*   了解到提升树模型在数据集上的表现。
+
+## 如何对提升树模型（Boosted Trees model）进行局部解释和全局解释
+
+局部可解释性指模型的预测在单一样例层面上的理解程度，而全局可解释性指模型作为一个整体的理解能力。这种技术可以帮助使用机器学习的人在模型开发阶段检测偏差（bias）和 bug。
+
+对于局部可解释性，您将了解到如何创造并可视化每个实例（per-instance）的贡献度。区别于特征重要性，这种贡献被称为 DFCs（定向特征贡献，directional feature contributions）。
+
+对于全局可解释性，您将学习并可视化基于增益的特征重要性（gain-based feature importances），排列特征重要性（[permutation feature importances](https://www.stat.berkeley.edu/%7Ebreiman/randomforest2001.pdf)）和总 DFCs。
+
+## 加载泰坦尼克数据集（titanic）
+
+本教程使用泰坦尼克数据集，旨在已知乘客的性别，年龄和客舱等级等特征的情况下预测的存活率。
+
+```py
+import numpy as np
+import pandas as pd
+from IPython.display import clear_output
+
+# 加载数据集。
+dftrain = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/train.csv')
+dfeval = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/eval.csv')
+y_train = dftrain.pop('survived')
+y_eval = dfeval.pop('survived') 
+```
+
+```py
+import tensorflow as tf
+tf.random.set_seed(123) 
+```
+
+```py
+TensorFlow 2.x selected.
+
+```
+
+有关特征的描述，请参阅之前的教程。
+
+## 创建特征列, 输入函数并训练 estimator
+
+### 数据预处理
+
+特征处理，使用原始的数值特征和独热编码（one-hot-encoding）处理过的非数值特征（如性别，舱位）别建立数据集。
+
+```py
+fc = tf.feature_column
+CATEGORICAL_COLUMNS = ['sex', 'n_siblings_spouses', 'parch', 'class', 'deck',
+                       'embark_town', 'alone']
+NUMERIC_COLUMNS = ['age', 'fare']
+
+def one_hot_cat_column(feature_name, vocab):
+  return fc.indicator_column(
+      fc.categorical_column_with_vocabulary_list(feature_name,
+                                                 vocab))
+feature_columns = []
+for feature_name in CATEGORICAL_COLUMNS:
+  # 需要使用独热编码（one-hot-encoding）处理非数值特征。
+  vocabulary = dftrain[feature_name].unique()
+  feature_columns.append(one_hot_cat_column(feature_name, vocabulary))
+
+for feature_name in NUMERIC_COLUMNS:
+  feature_columns.append(fc.numeric_column(feature_name,
+                                           dtype=tf.float32)) 
+```
+
+### 构建输入 pipeline
+
+使用 API [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 中的 `from_tensor_slices` 方法建立输入方程来从 Pandas 中直接读取数据。
+
+```py
+# 当数据集小的时候，将整个数据集作为一个 batch。
+NUM_EXAMPLES = len(y_train)
+
+def make_input_fn(X, y, n_epochs=None, shuffle=True):
+  def input_fn():
+    dataset = tf.data.Dataset.from_tensor_slices((X.to_dict(orient='list'), y))
+    if shuffle:
+      dataset = dataset.shuffle(NUM_EXAMPLES)
+    # 训练时让数据迭代尽可能多次 （n_epochs=None）。
+    dataset = (dataset
+      .repeat(n_epochs)
+      .batch(NUM_EXAMPLES))
+    return dataset
+  return input_fn
+
+# 训练并评估输入函数。
+train_input_fn = make_input_fn(dftrain, y_train)
+eval_input_fn = make_input_fn(dfeval, y_eval, shuffle=False, n_epochs=1) 
+```
+
+### 训练模型
+
+```py
+params = {
+  'n_trees': 50,
+  'max_depth': 3,
+  'n_batches_per_layer': 1,
+  # 为了得到 DFCs，请设置 center_bias = True。这将强制
+  # 模型在使用特征（例如：回归中训练集标签的均值，分类中使
+  # 用交叉熵损失函数时的对数几率）前做一个初始预测。
+  'center_bias': True
+}
+
+est = tf.estimator.BoostedTreesClassifier(feature_columns, **params)
+# 训练模型。
+est.train(train_input_fn, max_steps=100)
+
+# 评估。
+results = est.evaluate(eval_input_fn)
+clear_output()
+pd.Series(results).to_frame() 
+```
+
+<devsite-iframe><iframe src="/tutorials/estimator/boosted_trees_model_understanding_f7199848fc3467f053af4de68a7aeee860098bae3a9b9ae27d8d89628d6bda0c.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+出于性能方面的原因，当您的数据是内存数据集时，我们推荐您使用 `boosted_trees_classifier_train_in_memory` 函数。此外，如果您对训练时间没有要求抑或是您的数据集很大且不愿做分布式训练，请使用上面显示的 `tf.estimator.BoostedTrees` API。
+
+当您使用此方法时，请不要对数据分批（batch），而是对整个数据集进行操作。
+
+```py
+in_memory_params = dict(params)
+in_memory_params['n_batches_per_layer'] = 1
+# 在内存中的输入方程请不要对数据分批。
+def make_inmemory_train_input_fn(X, y):
+  y = np.expand_dims(y, axis=1)
+  def input_fn():
+    return dict(X), y
+  return input_fn
+train_input_fn = make_inmemory_train_input_fn(dftrain, y_train)
+
+# 训练模型。
+est = tf.estimator.BoostedTreesClassifier(
+    feature_columns, 
+    train_in_memory=True, 
+    **in_memory_params)
+
+est.train(train_input_fn)
+print(est.evaluate(eval_input_fn)) 
+```
+
+```py
+INFO:tensorflow:Using default config.
+WARNING:tensorflow:Using temporary folder as model directory: /tmp/tmpec8e696f
+INFO:tensorflow:Using config: {'_model_dir': '/tmp/tmpec8e696f', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
+graph_options {
+  rewrite_options {
+    meta_optimizer_iterations: ONE
+  }
+}
+, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_experimental_max_worker_delay_secs': None, '_session_creation_timeout_secs': 7200, '_service': None, '_cluster_spec': ClusterSpec({}), '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
+INFO:tensorflow:Calling model_fn.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Create CheckpointSaverHook.
+WARNING:tensorflow:Issue encountered when serializing resources.
+Type is unsupported, or the types of the items don't match field type in CollectionDef. Note this is a warning and probably safe to ignore.
+'_Resource' object has no attribute 'name'
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+WARNING:tensorflow:Issue encountered when serializing resources.
+Type is unsupported, or the types of the items don't match field type in CollectionDef. Note this is a warning and probably safe to ignore.
+'_Resource' object has no attribute 'name'
+INFO:tensorflow:Saving checkpoints for 0 into /tmp/tmpec8e696f/model.ckpt.
+WARNING:tensorflow:Issue encountered when serializing resources.
+Type is unsupported, or the types of the items don't match field type in CollectionDef. Note this is a warning and probably safe to ignore.
+'_Resource' object has no attribute 'name'
+INFO:tensorflow:loss = 0.6931472, step = 0
+WARNING:tensorflow:It seems that global step (tf.train.get_global_step) has not been increased. Current value (could be stable): 0 vs previous value: 0\. You could increase the global step by passing tf.train.get_global_step() to Optimizer.apply_gradients or Optimizer.minimize.
+INFO:tensorflow:global_step/sec: 80.2732
+INFO:tensorflow:loss = 0.34654337, step = 99 (1.249 sec)
+INFO:tensorflow:Saving checkpoints for 153 into /tmp/tmpec8e696f/model.ckpt.
+WARNING:tensorflow:Issue encountered when serializing resources.
+Type is unsupported, or the types of the items don't match field type in CollectionDef. Note this is a warning and probably safe to ignore.
+'_Resource' object has no attribute 'name'
+INFO:tensorflow:Loss for final step: 0.31796658.
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:14Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.55945s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:15
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.8030303, accuracy_baseline = 0.625, auc = 0.8679216, auc_precision_recall = 0.8527449, average_loss = 0.4203342, global_step = 153, label/mean = 0.375, loss = 0.4203342, precision = 0.7473684, prediction/mean = 0.38673538, recall = 0.7171717
+WARNING:tensorflow:Issue encountered when serializing resources.
+Type is unsupported, or the types of the items don't match field type in CollectionDef. Note this is a warning and probably safe to ignore.
+'_Resource' object has no attribute 'name'
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+{'accuracy': 0.8030303, 'accuracy_baseline': 0.625, 'auc': 0.8679216, 'auc_precision_recall': 0.8527449, 'average_loss': 0.4203342, 'label/mean': 0.375, 'loss': 0.4203342, 'precision': 0.7473684, 'prediction/mean': 0.38673538, 'recall': 0.7171717, 'global_step': 153}
+
+```
+
+## 模型说明与绘制
+
+```py
+import matplotlib.pyplot as plt
+import seaborn as sns
+sns_colors = sns.color_palette('colorblind') 
+```
+
+## 局部可解释性（Local interpretability）
+
+接下来，您将输出定向特征贡献（DFCs）来解释单个预测。输出依据 [Palczewska et al](https://arxiv.org/pdf/1312.1121.pdf) 和 Saabas 在 [解释随机森林（Interpreting Random Forests）](http://blog.datadive.net/interpreting-random-forests/) 中提出的方法产生(scikit-learn 中随机森林相关的包 [`treeinterpreter`](https://github.com/andosa/treeinterpreter) 使用原理相同的远离). 使用以下语句输出 DFCs:
+
+`pred_dicts = list(est.experimental_predict_with_explanations(pred_input_fn))`
+
+（注意：带 “experimental” 前缀为实验版本（开发中），在正式版发布前可能对其修改。）
+
+```py
+pred_dicts = list(est.experimental_predict_with_explanations(eval_input_fn)) 
+```
+
+```py
+INFO:tensorflow:Using config: {'_model_dir': '/tmp/tmpec8e696f', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
+graph_options {
+  rewrite_options {
+    meta_optimizer_iterations: ONE
+  }
+}
+, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_experimental_max_worker_delay_secs': None, '_session_creation_timeout_secs': 7200, '_service': None, '_cluster_spec': ClusterSpec({}), '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
+INFO:tensorflow:Calling model_fn.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+
+```
+
+```py
+# 创建 DFCs 的 DataFrame。
+labels = y_eval.values
+probs = pd.Series([pred['probabilities'][1] for pred in pred_dicts])
+df_dfc = pd.DataFrame([pred['dfc'] for pred in pred_dicts])
+df_dfc.describe().T 
+```
+
+<devsite-iframe><iframe src="/tutorials/estimator/boosted_trees_model_understanding_71083831610c50d67070b696b0a841b1713e1e897dc039770c9e156ad1464b80.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+DFCs 有个不错的特性：贡献和 + 偏差（bias） = 给出样例的预测值。
+
+```py
+# DFCs 的和 + 偏差（bias） == 可能性
+bias = pred_dicts[0]['bias']
+dfc_prob = df_dfc.sum(axis=1) + bias
+np.testing.assert_almost_equal(dfc_prob.values,
+                               probs.values) 
+```
+
+为单个乘客绘制 DFCs，绘图时按贡献的方向性对其进行涂色并添加特征的值。
+
+```py
+# 绘制模版 :)
+def _get_color(value):
+    """正的 DFCs 标为绿色，负的为红色。"""
+    green, red = sns.color_palette()[2:4]
+    if value >= 0: return green
+    return red
+
+def _add_feature_values(feature_values, ax):
+    """在图的左侧显示特征的值"""
+    x_coord = ax.get_xlim()[0]
+    OFFSET = 0.15
+    for y_coord, (feat_name, feat_val) in enumerate(feature_values.items()):
+        t = plt.text(x_coord, y_coord - OFFSET, '{}'.format(feat_val), size=12)
+        t.set_bbox(dict(facecolor='white', alpha=0.5))
+    from matplotlib.font_manager import FontProperties
+    font = FontProperties()
+    font.set_weight('bold')
+    t = plt.text(x_coord, y_coord + 1 - OFFSET, 'feature\nvalue',
+    fontproperties=font, size=12)
+
+def plot_example(example):
+  TOP_N = 8 # 显示前 8 个特征。
+  sorted_ix = example.abs().sort_values()[-TOP_N:].index  # 按值排序。
+  example = example[sorted_ix]
+  colors = example.map(_get_color).tolist()
+  ax = example.to_frame().plot(kind='barh',
+                          color=[colors],
+                          legend=None,
+                          alpha=0.75,
+                          figsize=(10,6))
+  ax.grid(False, axis='y')
+  ax.set_yticklabels(ax.get_yticklabels(), size=14)
+
+  # 添加特征的值。
+  _add_feature_values(dfeval.iloc[ID][sorted_ix], ax)
+  return ax 
+```
+
+```py
+# 绘制结果。
+ID = 182
+example = df_dfc.iloc[ID]  # 从评估集中选择第 i 个样例。
+TOP_N = 8  # 显示前 8 个特征。
+sorted_ix = example.abs().sort_values()[-TOP_N:].index
+ax = plot_example(example)
+ax.set_title('Feature contributions for example {}\n pred: {:1.2f}; label: {}'.format(ID, probs[ID], labels[ID]))
+ax.set_xlabel('Contribution to predicted probability', size=14)
+plt.show() 
+```
+
+![png](img/982e1307bbc8145644b791d775fcc2c7.png)
+
+更大的贡献值意味着对模型的预测有更大的影响。负的贡献表示此样例该特征的值减小了减小了模型的预测，正贡献值表示增加了模型的预测。
+
+您也可以使用小提琴图（violin plot）来绘制该样例的 DFCs 并与整体分布比较。
+
+```py
+# 绘制代码模版。
+def dist_violin_plot(df_dfc, ID):
+  # 初始化画布。
+  fig, ax = plt.subplots(1, 1, figsize=(10, 6))
+
+  # 创建样例 DataFrame。
+  TOP_N = 8  # 显示前 8 个特征。
+  example = df_dfc.iloc[ID]
+  ix = example.abs().sort_values()[-TOP_N:].index
+  example = example[ix]
+  example_df = example.to_frame(name='dfc')
+
+  # 添加整个分布的贡献。
+  parts=ax.violinplot([df_dfc[w] for w in ix],
+                 vert=False,
+                 showextrema=False,
+                 widths=0.7,
+                 positions=np.arange(len(ix)))
+  face_color = sns_colors[0]
+  alpha = 0.15
+  for pc in parts['bodies']:
+      pc.set_facecolor(face_color)
+      pc.set_alpha(alpha)
+
+  # 添加特征的值。
+  _add_feature_values(dfeval.iloc[ID][sorted_ix], ax)
+
+  # 添加局部贡献。
+  ax.scatter(example,
+              np.arange(example.shape[0]),
+              color=sns.color_palette()[2],
+              s=100,
+              marker="s",
+              label='contributions for example')
+
+  # 图例。
+  # 生成小提琴图的详细图例。
+  ax.plot([0,0], [1,1], label='eval set contributions\ndistributions',
+          color=face_color, alpha=alpha, linewidth=10)
+  legend = ax.legend(loc='lower right', shadow=True, fontsize='x-large',
+                     frameon=True)
+  legend.get_frame().set_facecolor('white')
+
+  # 调整格式。
+  ax.set_yticks(np.arange(example.shape[0]))
+  ax.set_yticklabels(example.index)
+  ax.grid(False, axis='y')
+  ax.set_xlabel('Contribution to predicted probability', size=14) 
+```
+
+绘制此样例。
+
+```py
+dist_violin_plot(df_dfc, ID)
+plt.title('Feature contributions for example {}\n pred: {:1.2f}; label: {}'.format(ID, probs[ID], labels[ID]))
+plt.show() 
+```
+
+![png](img/c91d625a0312bd25acf8dab10ecb51ed.png)
+
+最后，第三方的工具，如：[LIME](https://github.com/marcotcr/lime) 和 [shap](https://github.com/slundberg/shap) 也可以帮助理解模型的各个预测。
+
+## 全局特征重要性（Global feature importances）
+
+此外，您或许想了解模型这个整体而不是单个预测。接下来，您将计算并使用：
+
+*   通过 `est.experimental_feature_importances` 得到基于增益的特征重要性（Gain-based feature importances）
+*   排列特征重要性（Permutation feature importances）
+*   使用 `est.experimental_predict_with_explanations` 得到总 DFCs。
+
+基于增益的特征重要性在分离特定特征时测量损失的变化。而排列特征重要性是在评估集上通过每次打乱一个特征后观察模型性能的变化计算而出。
+
+一般来说，排列特征重要性要优于基于增益的特征重要性，尽管这两种方法在潜在预测变量的测量范围或类别数量不确定时和特征相关联时不可信（[来源](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-9-307)）。 对不同种类特征重要性的更透彻概括和更翔实讨论请参考 [这篇文章](http://explained.ai/rf-importance/index.html) 。
+
+### 基于增益的特征重要性（Gain-based feature importances）
+
+TensorFlow 的提升树估算器（estimator）内置了函数 `est.experimental_feature_importances` 用于计算基于增益的特征重要性。
+
+```py
+importances = est.experimental_feature_importances(normalize=True)
+df_imp = pd.Series(importances)
+
+# 可视化重要性。
+N = 8
+ax = (df_imp.iloc[0:N][::-1]
+    .plot(kind='barh',
+          color=sns_colors[0],
+          title='Gain feature importances',
+          figsize=(10, 6)))
+ax.grid(False, axis='y') 
+```
+
+![png](img/11c5fe9ef9f8ed2389fe40e5fa1ccbb7.png)
+
+### 平均绝对 DFCs
+
+您还可以得到绝对 DFCs 的平均值来从全局的角度分析影响。
+
+```py
+# 绘图。
+dfc_mean = df_dfc.abs().mean()
+N = 8
+sorted_ix = dfc_mean.abs().sort_values()[-N:].index  # 求平均并按绝对值排序。
+ax = dfc_mean[sorted_ix].plot(kind='barh',
+                       color=sns_colors[1],
+                       title='Mean |directional feature contributions|',
+                       figsize=(10, 6))
+ax.grid(False, axis='y') 
+```
+
+![png](img/edb8cf06303c60cf812dce4865e8d331.png)
+
+您可以看到 DFCs 如何随特征的值变化而变化。
+
+```py
+FEATURE = 'fare'
+feature = pd.Series(df_dfc[FEATURE].values, index=dfeval[FEATURE].values).sort_index()
+ax = sns.regplot(feature.index.values, feature.values, lowess=True)
+ax.set_ylabel('contribution')
+ax.set_xlabel(FEATURE)
+ax.set_xlim(0, 100)
+plt.show() 
+```
+
+![png](img/dbd4a3a9bd5a14a61bcaf558a2231993.png)
+
+### 排列特征重要性（Permutation feature importances）
+
+```py
+def permutation_importances(est, X_eval, y_eval, metric, features):
+    """
+    分别对每列，打散列中的值并观察其对评估集的影响。
+
+    在训练过程中，有一种类似的方法，请参阅文章（来源：http://explained.ai/rf-importance/index.html）
+    中有关 “Drop-column importance” 的部分。
+    """
+    baseline = metric(est, X_eval, y_eval)
+    imp = []
+    for col in features:
+        save = X_eval[col].copy()
+        X_eval[col] = np.random.permutation(X_eval[col])
+        m = metric(est, X_eval, y_eval)
+        X_eval[col] = save
+        imp.append(baseline - m)
+    return np.array(imp)
+
+def accuracy_metric(est, X, y):
+    """TensorFlow 估算器精度"""
+    eval_input_fn = make_input_fn(X,
+                                  y=y,
+                                  shuffle=False,
+                                  n_epochs=1)
+    return est.evaluate(input_fn=eval_input_fn)['accuracy']
+features = CATEGORICAL_COLUMNS + NUMERIC_COLUMNS
+importances = permutation_importances(est, dfeval, y_eval, accuracy_metric,
+                                      features)
+df_imp = pd.Series(importances, index=features)
+
+sorted_ix = df_imp.abs().sort_values().index
+ax = df_imp[sorted_ix][-5:].plot(kind='barh', color=sns_colors[2], figsize=(10, 6))
+ax.grid(False, axis='y')
+ax.set_title('Permutation feature importance')
+plt.show() 
+```
+
+```py
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:18Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.56113s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:18
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.8030303, accuracy_baseline = 0.625, auc = 0.8679216, auc_precision_recall = 0.8527449, average_loss = 0.4203342, global_step = 153, label/mean = 0.375, loss = 0.4203342, precision = 0.7473684, prediction/mean = 0.38673538, recall = 0.7171717
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:19Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.57949s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:19
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.6060606, accuracy_baseline = 0.625, auc = 0.64355683, auc_precision_recall = 0.5400543, average_loss = 0.74337494, global_step = 153, label/mean = 0.375, loss = 0.74337494, precision = 0.47524753, prediction/mean = 0.39103043, recall = 0.4848485
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:20Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.58528s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:21
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.7916667, accuracy_baseline = 0.625, auc = 0.8624732, auc_precision_recall = 0.8392693, average_loss = 0.43363357, global_step = 153, label/mean = 0.375, loss = 0.43363357, precision = 0.7244898, prediction/mean = 0.38975066, recall = 0.7171717
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:21Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.55600s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:22
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.8068182, accuracy_baseline = 0.625, auc = 0.8674931, auc_precision_recall = 0.85280114, average_loss = 0.4206087, global_step = 153, label/mean = 0.375, loss = 0.4206087, precision = 0.75, prediction/mean = 0.38792592, recall = 0.72727275
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:22Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.54454s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:23
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.72727275, accuracy_baseline = 0.625, auc = 0.76737064, auc_precision_recall = 0.62659556, average_loss = 0.6019534, global_step = 153, label/mean = 0.375, loss = 0.6019534, precision = 0.6626506, prediction/mean = 0.3688063, recall = 0.5555556
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:24Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.53149s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:24
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.7878788, accuracy_baseline = 0.625, auc = 0.8389348, auc_precision_recall = 0.8278463, average_loss = 0.45054114, global_step = 153, label/mean = 0.375, loss = 0.45054114, precision = 0.7263158, prediction/mean = 0.3912348, recall = 0.6969697
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:25Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.54399s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:25
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.8030303, accuracy_baseline = 0.625, auc = 0.862565, auc_precision_recall = 0.84412414, average_loss = 0.42553493, global_step = 153, label/mean = 0.375, loss = 0.42553493, precision = 0.75268817, prediction/mean = 0.37500647, recall = 0.7070707
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:26Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.56776s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:26
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.8030303, accuracy_baseline = 0.625, auc = 0.8679216, auc_precision_recall = 0.8527449, average_loss = 0.4203342, global_step = 153, label/mean = 0.375, loss = 0.4203342, precision = 0.7473684, prediction/mean = 0.38673538, recall = 0.7171717
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:27Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.56329s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:28
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.79924244, accuracy_baseline = 0.625, auc = 0.8132232, auc_precision_recall = 0.7860318, average_loss = 0.4787808, global_step = 153, label/mean = 0.375, loss = 0.4787808, precision = 0.7613636, prediction/mean = 0.37704408, recall = 0.67676765
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+WARNING:tensorflow:Trapezoidal rule is known to produce incorrect PR-AUCs; please switch to "careful_interpolation" instead.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Starting evaluation at 2020-03-09T21:21:28Z
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpec8e696f/model.ckpt-153
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Inference Time : 0.60489s
+INFO:tensorflow:Finished evaluation at 2020-03-09-21:21:29
+INFO:tensorflow:Saving dict for global step 153: accuracy = 0.8030303, accuracy_baseline = 0.625, auc = 0.8360882, auc_precision_recall = 0.7940172, average_loss = 0.45960733, global_step = 153, label/mean = 0.375, loss = 0.45960733, precision = 0.7473684, prediction/mean = 0.38010252, recall = 0.7171717
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 153: /tmp/tmpec8e696f/model.ckpt-153
+
+```
+
+![png](img/3b5e2e711798f7ff0d6ff949ea4f54f3.png)
+
+## 可视化模型拟合过程
+
+首先，使用以下公式构建训练数据：
+
+$$z=x* e^{-x^2 - y^2}$$
+
+其中， (z) 是您要试着预测的值（因变量），(x) 和 (y) 是特征。
+
+```py
+from numpy.random import uniform, seed
+from scipy.interpolate import griddata
+
+# 生成数据。
+seed(0)
+npts = 5000
+x = uniform(-2, 2, npts)
+y = uniform(-2, 2, npts)
+z = x*np.exp(-x**2 - y**2)
+xy = np.zeros((2,np.size(x)))
+xy[0] = x
+xy[1] = y
+xy = xy.T 
+```
+
+```py
+# 准备用于训练的数据。
+df = pd.DataFrame({'x': x, 'y': y, 'z': z})
+
+xi = np.linspace(-2.0, 2.0, 200),
+yi = np.linspace(-2.1, 2.1, 210),
+xi,yi = np.meshgrid(xi, yi)
+
+df_predict = pd.DataFrame({
+    'x' : xi.flatten(),
+    'y' : yi.flatten(),
+})
+predict_shape = xi.shape 
+```
+
+```py
+def plot_contour(x, y, z, **kwargs):
+  # 准备用于训练的数据。
+  plt.figure(figsize=(10, 8))
+  # 绘制等值线图，标出非均匀数据点。
+  CS = plt.contour(x, y, z, 15, linewidths=0.5, colors='k')
+  CS = plt.contourf(x, y, z, 15,
+                    vmax=abs(zi).max(), vmin=-abs(zi).max(), cmap='RdBu_r')
+  plt.colorbar()  # 绘制颜色图例。
+  # 绘制数据点。
+  plt.xlim(-2, 2)
+  plt.ylim(-2, 2) 
+```
+
+您可以可视化这个方程，红色代表较大的值。
+
+```py
+zi = griddata(xy, z, (xi, yi), method='linear', fill_value='0')
+plot_contour(xi, yi, zi)
+plt.scatter(df.x, df.y, marker='.')
+plt.title('Contour on training data')
+plt.show() 
+```
+
+![png](img/02b2fc97a46c88c22ee2d11e8c28bf0d.png)
+
+```py
+fc = [tf.feature_column.numeric_column('x'),
+      tf.feature_column.numeric_column('y')] 
+```
+
+```py
+def predict(est):
+  """已有估算器给出的预测"""
+  predict_input_fn = lambda: tf.data.Dataset.from_tensors(dict(df_predict))
+  preds = np.array([p['predictions'][0] for p in est.predict(predict_input_fn)])
+  return preds.reshape(predict_shape) 
+```
+
+首先，我们尝试用线性模型拟合数据。
+
+```py
+train_input_fn = make_input_fn(df, df.z)
+est = tf.estimator.LinearRegressor(fc)
+est.train(train_input_fn, max_steps=500); 
+```
+
+```py
+INFO:tensorflow:Using default config.
+WARNING:tensorflow:Using temporary folder as model directory: /tmp/tmpd4fqobc9
+INFO:tensorflow:Using config: {'_model_dir': '/tmp/tmpd4fqobc9', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
+graph_options {
+  rewrite_options {
+    meta_optimizer_iterations: ONE
+  }
+}
+, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_experimental_max_worker_delay_secs': None, '_session_creation_timeout_secs': 7200, '_service': None, '_cluster_spec': ClusterSpec({}), '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:From /tensorflow-2.1.0/python3.6/tensorflow_core/python/feature_column/feature_column_v2.py:518: Layer.add_variable (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
+Instructions for updating:
+Please use `layer.add_weight` method instead.
+WARNING:tensorflow:From /tensorflow-2.1.0/python3.6/tensorflow_core/python/keras/optimizer_v2/ftrl.py:143: calling Constant.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
+Instructions for updating:
+Call initializer instance with the dtype argument instead of passing it to the constructor
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Create CheckpointSaverHook.
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Saving checkpoints for 0 into /tmp/tmpd4fqobc9/model.ckpt.
+INFO:tensorflow:loss = 0.023290718, step = 0
+INFO:tensorflow:global_step/sec: 267.329
+INFO:tensorflow:loss = 0.017512696, step = 100 (0.377 sec)
+INFO:tensorflow:global_step/sec: 312.355
+INFO:tensorflow:loss = 0.018098738, step = 200 (0.321 sec)
+INFO:tensorflow:global_step/sec: 341.77
+INFO:tensorflow:loss = 0.019927984, step = 300 (0.291 sec)
+INFO:tensorflow:global_step/sec: 307.825
+INFO:tensorflow:loss = 0.01797011, step = 400 (0.327 sec)
+INFO:tensorflow:Saving checkpoints for 500 into /tmp/tmpd4fqobc9/model.ckpt.
+INFO:tensorflow:Loss for final step: 0.019703189.
+
+```
+
+```py
+plot_contour(xi, yi, predict(est)) 
+```
+
+```py
+INFO:tensorflow:Calling model_fn.
+WARNING:tensorflow:Layer linear/linear_model is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because it's dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmpd4fqobc9/model.ckpt-500
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+
+```
+
+![png](img/2bc3a9da8c0e479bf906dd0c765549f4.png)
+
+可见，拟合效果并不好。接下来，我们试着用 GBDT 模型拟合并了解模型是如何拟合方程的。
+
+```py
+n_trees = 37 
+
+est = tf.estimator.BoostedTreesRegressor(fc, n_batches_per_layer=1, n_trees=n_trees)
+est.train(train_input_fn, max_steps=500)
+clear_output()
+plot_contour(xi, yi, predict(est))
+plt.text(-1.8, 2.1, '# trees: {}'.format(n_trees), color='w', backgroundcolor='black', size=20)
+plt.show() 
+```
+
+```py
+INFO:tensorflow:Calling model_fn.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Restoring parameters from /tmp/tmp3jae7fgc/model.ckpt-222
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+
+```
+
+![png](img/60960a15d5ca50a1486f3c3f8c200635.png)
+
+随着树的数量增加，模型的预测越来越接近真实方程。
+
+![](img/cb18ad8212a0648018238babc8fe2325.png)
+
+## 总结
+
+本文介绍了如何使用定向特征贡献（DFCs）及几种特征重要性来解释提升树模型。这些方法可以帮助您了解特征是如何影响模型的预测。 最后，您还可以通过观察其他模型的超平面（decision surface）并结合本文内容来学习提升树模型是如何拟合方程的。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/027.md b/Tensorflow/TensorFlow2.0/027.md
new file mode 100644
index 00000000..5a0eeffe
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/027.md
@@ -0,0 +1,383 @@
+# 通过 Keras 模型创建 Estimator
+
+> 原文：[https://tensorflow.google.cn/tutorials/estimator/keras_model_to_estimator](https://tensorflow.google.cn/tutorials/estimator/keras_model_to_estimator)
+
+## 概述
+
+TensorFlow 完全支持 TensorFlow Estimator，可以从新的和现有的 [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) 模型创建 Estimator。本教程包含了该过程完整且最为简短的示例。
+
+## 设置
+
+```py
+import tensorflow as tf
+
+import numpy as np
+import tensorflow_datasets as tfds 
+```
+
+### 创建一个简单的 Keras 模型。
+
+在 Keras 中，需要通过组装*层*来构建*模型*。模型（通常）是由层构成的计算图。最常见的模型类型是一种叠加层：[`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) 模型。
+
+构建一个简单的全连接网络（即多层感知器）：
+
+```py
+model = tf.keras.models.Sequential([
+    tf.keras.layers.Dense(16, activation='relu', input_shape=(4,)),
+    tf.keras.layers.Dropout(0.2),
+    tf.keras.layers.Dense(3)
+]) 
+```
+
+编译模型并获取摘要。
+
+```py
+model.compile(loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+              optimizer='adam')
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense (Dense)                (None, 16)                80        
+_________________________________________________________________
+dropout (Dropout)            (None, 16)                0         
+_________________________________________________________________
+dense_1 (Dense)              (None, 3)                 51        
+=================================================================
+Total params: 131
+Trainable params: 131
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+### 创建输入函数
+
+使用 [Datasets API](https://tensorflow.google.cn/guide/data) 可以扩展到大型数据集或多设备训练。
+
+Estimator 需要控制构建输入流水线的时间和方式。为此，它们需要一个“输入函数”或 `input_fn`。`Estimator` 将不使用任何参数调用此函数。`input_fn` 必须返回 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)。
+
+```py
+def input_fn():
+  split = tfds.Split.TRAIN
+  dataset = tfds.load('iris', split=split, as_supervised=True)
+  dataset = dataset.map(lambda features, labels: ({'dense_input':features}, labels))
+  dataset = dataset.batch(32).repeat()
+  return dataset 
+```
+
+测试您的 `input_fn`
+
+```py
+for features_batch, labels_batch in input_fn().take(1):
+  print(features_batch)
+  print(labels_batch) 
+```
+
+```py
+Downloading and preparing dataset iris/2.0.0 (download: 4.44 KiB, generated: Unknown size, total: 4.44 KiB) to /home/kbuilder/tensorflow_datasets/iris/2.0.0...
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/iris/2.0.0.incompleteQ29ZWS/iris-train.tfrecord
+Dataset iris downloaded and prepared to /home/kbuilder/tensorflow_datasets/iris/2.0.0\. Subsequent calls will reuse this data.
+{'dense_input': <tf.Tensor: shape=(32, 4), dtype=float32, numpy=
+array([[5.1, 3.4, 1.5, 0.2],
+       [7.7, 3\. , 6.1, 2.3],
+       [5.7, 2.8, 4.5, 1.3],
+       [6.8, 3.2, 5.9, 2.3],
+       [5.2, 3.4, 1.4, 0.2],
+       [5.6, 2.9, 3.6, 1.3],
+       [5.5, 2.6, 4.4, 1.2],
+       [5.5, 2.4, 3.7, 1\. ],
+       [4.6, 3.4, 1.4, 0.3],
+       [7.7, 2.8, 6.7, 2\. ],
+       [7\. , 3.2, 4.7, 1.4],
+       [4.6, 3.2, 1.4, 0.2],
+       [6.5, 3\. , 5.2, 2\. ],
+       [5.5, 4.2, 1.4, 0.2],
+       [5.4, 3.9, 1.3, 0.4],
+       [5\. , 3.5, 1.3, 0.3],
+       [5.1, 3.8, 1.5, 0.3],
+       [4.8, 3\. , 1.4, 0.1],
+       [6.5, 3\. , 5.8, 2.2],
+       [7.6, 3\. , 6.6, 2.1],
+       [6.7, 3.3, 5.7, 2.1],
+       [7.9, 3.8, 6.4, 2\. ],
+       [6.7, 3\. , 5.2, 2.3],
+       [5.8, 4\. , 1.2, 0.2],
+       [6.3, 2.5, 5\. , 1.9],
+       [5\. , 3\. , 1.6, 0.2],
+       [6.9, 3.1, 5.1, 2.3],
+       [6.1, 3\. , 4.6, 1.4],
+       [5.8, 2.7, 4.1, 1\. ],
+       [5.2, 2.7, 3.9, 1.4],
+       [6.7, 3\. , 5\. , 1.7],
+       [5.7, 2.6, 3.5, 1\. ]], dtype=float32)>}
+tf.Tensor([0 2 1 2 0 1 1 1 0 2 1 0 2 0 0 0 0 0 2 2 2 2 2 0 2 0 2 1 1 1 1 1], shape=(32,), dtype=int64)
+
+```
+
+### 通过 tf.keras 模型创建 Estimator。
+
+可以使用 [`tf.estimator`](https://tensorflow.google.cn/api_docs/python/tf/estimator) API 来训练 [`tf.keras.Model`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model)，方法是使用 [`tf.keras.estimator.model_to_estimator`](https://tensorflow.google.cn/api_docs/python/tf/keras/estimator/model_to_estimator) 将模型转换为 [`tf.estimator.Estimator`](https://tensorflow.google.cn/api_docs/python/tf/estimator/Estimator) 对象。
+
+```py
+import tempfile
+model_dir = tempfile.mkdtemp()
+keras_estimator = tf.keras.estimator.model_to_estimator(
+    keras_model=model, model_dir=model_dir) 
+```
+
+```py
+INFO:tensorflow:Using default config.
+
+INFO:tensorflow:Using default config.
+
+INFO:tensorflow:Using the Keras model provided.
+
+INFO:tensorflow:Using the Keras model provided.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_estimator/python/estimator/keras.py:220: set_learning_phase (from tensorflow.python.keras.backend) is deprecated and will be removed after 2020-10-11.
+Instructions for updating:
+Simply pass a True/False value to the `training` argument of the `__call__` method of your layer or model.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_estimator/python/estimator/keras.py:220: set_learning_phase (from tensorflow.python.keras.backend) is deprecated and will be removed after 2020-10-11.
+Instructions for updating:
+Simply pass a True/False value to the `training` argument of the `__call__` method of your layer or model.
+
+INFO:tensorflow:Using config: {'_model_dir': '/tmp/tmp13998n2j', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
+graph_options {
+  rewrite_options {
+    meta_optimizer_iterations: ONE
+  }
+}
+, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_experimental_max_worker_delay_secs': None, '_session_creation_timeout_secs': 7200, '_service': None, '_cluster_spec': ClusterSpec({}), '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
+
+INFO:tensorflow:Using config: {'_model_dir': '/tmp/tmp13998n2j', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
+graph_options {
+  rewrite_options {
+    meta_optimizer_iterations: ONE
+  }
+}
+, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_experimental_max_worker_delay_secs': None, '_session_creation_timeout_secs': 7200, '_service': None, '_cluster_spec': ClusterSpec({}), '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
+
+```
+
+训练和评估 Estimator。
+
+```py
+keras_estimator.train(input_fn=input_fn, steps=500)
+eval_result = keras_estimator.evaluate(input_fn=input_fn, steps=10)
+print('Eval result: {}'.format(eval_result)) 
+```
+
+```py
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/training_util.py:236: Variable.initialized_value (from tensorflow.python.ops.variables) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use Variable.read_value. Variables in 2.X are initialized automatically both in eager and graph (inside tf.defun) contexts.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/training_util.py:236: Variable.initialized_value (from tensorflow.python.ops.variables) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use Variable.read_value. Variables in 2.X are initialized automatically both in eager and graph (inside tf.defun) contexts.
+
+INFO:tensorflow:Calling model_fn.
+
+INFO:tensorflow:Calling model_fn.
+
+INFO:tensorflow:Done calling model_fn.
+
+INFO:tensorflow:Done calling model_fn.
+
+INFO:tensorflow:Warm-starting with WarmStartSettings: WarmStartSettings(ckpt_to_initialize_from='/tmp/tmp13998n2j/keras/keras_model.ckpt', vars_to_warm_start='.*', var_name_to_vocab_info={}, var_name_to_prev_var_name={})
+
+INFO:tensorflow:Warm-starting with WarmStartSettings: WarmStartSettings(ckpt_to_initialize_from='/tmp/tmp13998n2j/keras/keras_model.ckpt', vars_to_warm_start='.*', var_name_to_vocab_info={}, var_name_to_prev_var_name={})
+
+INFO:tensorflow:Warm-starting from: /tmp/tmp13998n2j/keras/keras_model.ckpt
+
+INFO:tensorflow:Warm-starting from: /tmp/tmp13998n2j/keras/keras_model.ckpt
+
+INFO:tensorflow:Warm-starting variables only in TRAINABLE_VARIABLES.
+
+INFO:tensorflow:Warm-starting variables only in TRAINABLE_VARIABLES.
+
+INFO:tensorflow:Warm-started 4 variables.
+
+INFO:tensorflow:Warm-started 4 variables.
+
+INFO:tensorflow:Create CheckpointSaverHook.
+
+INFO:tensorflow:Create CheckpointSaverHook.
+
+INFO:tensorflow:Graph was finalized.
+
+INFO:tensorflow:Graph was finalized.
+
+INFO:tensorflow:Running local_init_op.
+
+INFO:tensorflow:Running local_init_op.
+
+INFO:tensorflow:Done running local_init_op.
+
+INFO:tensorflow:Done running local_init_op.
+
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 0...
+
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 0...
+
+INFO:tensorflow:Saving checkpoints for 0 into /tmp/tmp13998n2j/model.ckpt.
+
+INFO:tensorflow:Saving checkpoints for 0 into /tmp/tmp13998n2j/model.ckpt.
+
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 0...
+
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 0...
+
+INFO:tensorflow:loss = 1.5731332, step = 0
+
+INFO:tensorflow:loss = 1.5731332, step = 0
+
+INFO:tensorflow:global_step/sec: 444.326
+
+INFO:tensorflow:global_step/sec: 444.326
+
+INFO:tensorflow:loss = 0.79164267, step = 100 (0.227 sec)
+
+INFO:tensorflow:loss = 0.79164267, step = 100 (0.227 sec)
+
+INFO:tensorflow:global_step/sec: 515.459
+
+INFO:tensorflow:global_step/sec: 515.459
+
+INFO:tensorflow:loss = 0.5765847, step = 200 (0.193 sec)
+
+INFO:tensorflow:loss = 0.5765847, step = 200 (0.193 sec)
+
+INFO:tensorflow:global_step/sec: 518.855
+
+INFO:tensorflow:global_step/sec: 518.855
+
+INFO:tensorflow:loss = 0.48571444, step = 300 (0.193 sec)
+
+INFO:tensorflow:loss = 0.48571444, step = 300 (0.193 sec)
+
+INFO:tensorflow:global_step/sec: 527.318
+
+INFO:tensorflow:global_step/sec: 527.318
+
+INFO:tensorflow:loss = 0.3836534, step = 400 (0.190 sec)
+
+INFO:tensorflow:loss = 0.3836534, step = 400 (0.190 sec)
+
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 500...
+
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 500...
+
+INFO:tensorflow:Saving checkpoints for 500 into /tmp/tmp13998n2j/model.ckpt.
+
+INFO:tensorflow:Saving checkpoints for 500 into /tmp/tmp13998n2j/model.ckpt.
+
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 500...
+
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 500...
+
+INFO:tensorflow:Loss for final step: 0.46023262.
+
+INFO:tensorflow:Loss for final step: 0.46023262.
+
+INFO:tensorflow:Calling model_fn.
+
+INFO:tensorflow:Calling model_fn.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/keras/engine/training_v1.py:2048: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/keras/engine/training_v1.py:2048: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+INFO:tensorflow:Done calling model_fn.
+
+INFO:tensorflow:Done calling model_fn.
+
+INFO:tensorflow:Starting evaluation at 2020-09-22T19:57:20Z
+
+INFO:tensorflow:Starting evaluation at 2020-09-22T19:57:20Z
+
+INFO:tensorflow:Graph was finalized.
+
+INFO:tensorflow:Graph was finalized.
+
+INFO:tensorflow:Restoring parameters from /tmp/tmp13998n2j/model.ckpt-500
+
+INFO:tensorflow:Restoring parameters from /tmp/tmp13998n2j/model.ckpt-500
+
+INFO:tensorflow:Running local_init_op.
+
+INFO:tensorflow:Running local_init_op.
+
+INFO:tensorflow:Done running local_init_op.
+
+INFO:tensorflow:Done running local_init_op.
+
+INFO:tensorflow:Evaluation [1/10]
+
+INFO:tensorflow:Evaluation [1/10]
+
+INFO:tensorflow:Evaluation [2/10]
+
+INFO:tensorflow:Evaluation [2/10]
+
+INFO:tensorflow:Evaluation [3/10]
+
+INFO:tensorflow:Evaluation [3/10]
+
+INFO:tensorflow:Evaluation [4/10]
+
+INFO:tensorflow:Evaluation [4/10]
+
+INFO:tensorflow:Evaluation [5/10]
+
+INFO:tensorflow:Evaluation [5/10]
+
+INFO:tensorflow:Evaluation [6/10]
+
+INFO:tensorflow:Evaluation [6/10]
+
+INFO:tensorflow:Evaluation [7/10]
+
+INFO:tensorflow:Evaluation [7/10]
+
+INFO:tensorflow:Evaluation [8/10]
+
+INFO:tensorflow:Evaluation [8/10]
+
+INFO:tensorflow:Evaluation [9/10]
+
+INFO:tensorflow:Evaluation [9/10]
+
+INFO:tensorflow:Evaluation [10/10]
+
+INFO:tensorflow:Evaluation [10/10]
+
+INFO:tensorflow:Inference Time : 0.16498s
+
+INFO:tensorflow:Inference Time : 0.16498s
+
+INFO:tensorflow:Finished evaluation at 2020-09-22-19:57:20
+
+INFO:tensorflow:Finished evaluation at 2020-09-22-19:57:20
+
+INFO:tensorflow:Saving dict for global step 500: global_step = 500, loss = 0.33660004
+
+INFO:tensorflow:Saving dict for global step 500: global_step = 500, loss = 0.33660004
+
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 500: /tmp/tmp13998n2j/model.ckpt-500
+
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 500: /tmp/tmp13998n2j/model.ckpt-500
+
+Eval result: {'loss': 0.33660004, 'global_step': 500}
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/028.md b/Tensorflow/TensorFlow2.0/028.md
new file mode 100644
index 00000000..961991fe
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/028.md
@@ -0,0 +1 @@
+# 高级
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/029.md b/Tensorflow/TensorFlow2.0/029.md
new file mode 100644
index 00000000..997d7697
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/029.md
@@ -0,0 +1 @@
+# 自定义
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/030.md b/Tensorflow/TensorFlow2.0/030.md
new file mode 100644
index 00000000..8bab7da8
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/030.md
@@ -0,0 +1,230 @@
+# Customization basics: tensors and operations
+
+> 原文：[https://tensorflow.google.cn/tutorials/customization/basics](https://tensorflow.google.cn/tutorials/customization/basics)
+
+This is an introductory TensorFlow tutorial that shows how to:
+
+*   Import the required package
+*   Create and use tensors
+*   Use GPU acceleration
+*   Demonstrate [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)
+
+## Import TensorFlow
+
+To get started, import the `tensorflow` module. As of TensorFlow 2, eager execution is turned on by default. This enables a more interactive frontend to TensorFlow, the details of which we will discuss much later.
+
+```py
+import tensorflow as tf 
+```
+
+## Tensors
+
+A Tensor is a multi-dimensional array. Similar to NumPy `ndarray` objects, [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) objects have a data type and a shape. Additionally, [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor)s can reside in accelerator memory (like a GPU). TensorFlow offers a rich library of operations ([tf.add](https://tensorflow.google.cn/api_docs/python/tf/add), [tf.matmul](https://tensorflow.google.cn/api_docs/python/tf/matmul), [tf.linalg.inv](https://tensorflow.google.cn/api_docs/python/tf/linalg/inv) etc.) that consume and produce [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor)s. These operations automatically convert native Python types, for example:
+
+```py
+print(tf.add(1, 2))
+print(tf.add([1, 2], [3, 4]))
+print(tf.square(5))
+print(tf.reduce_sum([1, 2, 3]))
+
+# Operator overloading is also supported
+print(tf.square(2) + tf.square(3)) 
+```
+
+```py
+tf.Tensor(3, shape=(), dtype=int32)
+tf.Tensor([4 6], shape=(2,), dtype=int32)
+tf.Tensor(25, shape=(), dtype=int32)
+tf.Tensor(6, shape=(), dtype=int32)
+tf.Tensor(13, shape=(), dtype=int32)
+
+```
+
+Each [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) has a shape and a datatype:
+
+```py
+x = tf.matmul([[1]], [[2, 3]])
+print(x)
+print(x.shape)
+print(x.dtype) 
+```
+
+```py
+tf.Tensor([[2 3]], shape=(1, 2), dtype=int32)
+(1, 2)
+<dtype: 'int32'>
+
+```
+
+The most obvious differences between NumPy arrays and [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor)s are:
+
+1.  Tensors can be backed by accelerator memory (like GPU, TPU).
+2.  Tensors are immutable.
+
+### NumPy Compatibility
+
+Converting between a TensorFlow [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor)s and a NumPy `ndarray` is easy:
+
+*   TensorFlow operations automatically convert NumPy ndarrays to Tensors.
+*   NumPy operations automatically convert Tensors to NumPy ndarrays.
+
+Tensors are explicitly converted to NumPy ndarrays using their `.numpy()` method. These conversions are typically cheap since the array and [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) share the underlying memory representation, if possible. However, sharing the underlying representation isn't always possible since the [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) may be hosted in GPU memory while NumPy arrays are always backed by host memory, and the conversion involves a copy from GPU to host memory.
+
+```py
+import numpy as np
+
+ndarray = np.ones([3, 3])
+
+print("TensorFlow operations convert numpy arrays to Tensors automatically")
+tensor = tf.multiply(ndarray, 42)
+print(tensor)
+
+print("And NumPy operations convert Tensors to numpy arrays automatically")
+print(np.add(tensor, 1))
+
+print("The .numpy() method explicitly converts a Tensor to a numpy array")
+print(tensor.numpy()) 
+```
+
+```py
+TensorFlow operations convert numpy arrays to Tensors automatically
+tf.Tensor(
+[[42\. 42\. 42.]
+ [42\. 42\. 42.]
+ [42\. 42\. 42.]], shape=(3, 3), dtype=float64)
+And NumPy operations convert Tensors to numpy arrays automatically
+[[43\. 43\. 43.]
+ [43\. 43\. 43.]
+ [43\. 43\. 43.]]
+The .numpy() method explicitly converts a Tensor to a numpy array
+[[42\. 42\. 42.]
+ [42\. 42\. 42.]
+ [42\. 42\. 42.]]
+
+```
+
+## GPU acceleration
+
+Many TensorFlow operations are accelerated using the GPU for computation. Without any annotations, TensorFlow automatically decides whether to use the GPU or CPU for an operation—copying the tensor between CPU and GPU memory, if necessary. Tensors produced by an operation are typically backed by the memory of the device on which the operation executed, for example:
+
+```py
+x = tf.random.uniform([3, 3])
+
+print("Is there a GPU available: "),
+print(tf.config.experimental.list_physical_devices("GPU"))
+
+print("Is the Tensor on GPU #0:  "),
+print(x.device.endswith('GPU:0')) 
+```
+
+```py
+Is there a GPU available: 
+[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]
+Is the Tensor on GPU #0:  
+True
+
+```
+
+### Device Names
+
+The [`Tensor.device`](https://tensorflow.google.cn/api_docs/python/tf/Tensor#device) property provides a fully qualified string name of the device hosting the contents of the tensor. This name encodes many details, such as an identifier of the network address of the host on which this program is executing and the device within that host. This is required for distributed execution of a TensorFlow program. The string ends with `GPU:<N>` if the tensor is placed on the `N`-th GPU on the host.
+
+### Explicit Device Placement
+
+In TensorFlow, *placement* refers to how individual operations are assigned (placed on) a device for execution. As mentioned, when there is no explicit guidance provided, TensorFlow automatically decides which device to execute an operation and copies tensors to that device, if needed. However, TensorFlow operations can be explicitly placed on specific devices using the [`tf.device`](https://tensorflow.google.cn/api_docs/python/tf/device) context manager, for example:
+
+```py
+import time
+
+def time_matmul(x):
+  start = time.time()
+  for loop in range(10):
+    tf.matmul(x, x)
+
+  result = time.time()-start
+
+  print("10 loops: {:0.2f}ms".format(1000*result))
+
+# Force execution on CPU
+print("On CPU:")
+with tf.device("CPU:0"):
+  x = tf.random.uniform([1000, 1000])
+  assert x.device.endswith("CPU:0")
+  time_matmul(x)
+
+# Force execution on GPU #0 if available
+if tf.config.experimental.list_physical_devices("GPU"):
+  print("On GPU:")
+  with tf.device("GPU:0"): # Or GPU:1 for the 2nd GPU, GPU:2 for the 3rd etc.
+    x = tf.random.uniform([1000, 1000])
+    assert x.device.endswith("GPU:0")
+    time_matmul(x) 
+```
+
+```py
+On CPU:
+10 loops: 102.06ms
+On GPU:
+10 loops: 231.87ms
+
+```
+
+## Datasets
+
+This section uses the [`tf.data.Dataset` API](https://tensorflow.google.cn/guide/datasets) to build a pipeline for feeding data to your model. The [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) API is used to build performant, complex input pipelines from simple, re-usable pieces that will feed your model's training or evaluation loops.
+
+### Create a source `Dataset`
+
+Create a *source* dataset using one of the factory functions like [`Dataset.from_tensors`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#from_tensors), [`Dataset.from_tensor_slices`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#from_tensor_slices), or using objects that read from files like [`TextLineDataset`](https://tensorflow.google.cn/api_docs/python/tf/data/TextLineDataset) or [`TFRecordDataset`](https://tensorflow.google.cn/api_docs/python/tf/data/TFRecordDataset). See the [TensorFlow Dataset guide](https://tensorflow.google.cn/guide/datasets#reading_input_data) for more information.
+
+```py
+ds_tensors = tf.data.Dataset.from_tensor_slices([1, 2, 3, 4, 5, 6])
+
+# Create a CSV file
+import tempfile
+_, filename = tempfile.mkstemp()
+
+with open(filename, 'w') as f:
+  f.write("""Line 1
+Line 2
+Line 3
+  """)
+
+ds_file = tf.data.TextLineDataset(filename) 
+```
+
+### Apply transformations
+
+Use the transformations functions like [`map`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#map), [`batch`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#batch), and [`shuffle`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#shuffle) to apply transformations to dataset records.
+
+```py
+ds_tensors = ds_tensors.map(tf.square).shuffle(2).batch(2)
+
+ds_file = ds_file.batch(2) 
+```
+
+### Iterate
+
+[`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) objects support iteration to loop over records:
+
+```py
+print('Elements of ds_tensors:')
+for x in ds_tensors:
+  print(x)
+
+print('\nElements in ds_file:')
+for x in ds_file:
+  print(x) 
+```
+
+```py
+Elements of ds_tensors:
+tf.Tensor([1 4], shape=(2,), dtype=int32)
+tf.Tensor([16  9], shape=(2,), dtype=int32)
+tf.Tensor([25 36], shape=(2,), dtype=int32)
+
+Elements in ds_file:
+tf.Tensor([b'Line 1' b'Line 2'], shape=(2,), dtype=string)
+tf.Tensor([b'Line 3' b'  '], shape=(2,), dtype=string)
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/031.md b/Tensorflow/TensorFlow2.0/031.md
new file mode 100644
index 00000000..ad82eb1b
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/031.md
@@ -0,0 +1,308 @@
+# Custom layers
+
+> 原文：[https://tensorflow.google.cn/tutorials/customization/custom_layers](https://tensorflow.google.cn/tutorials/customization/custom_layers)
+
+We recommend using [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) as a high-level API for building neural networks. That said, most TensorFlow APIs are usable with eager execution.
+
+```py
+import tensorflow as tf 
+```
+
+```py
+print(tf.test.is_gpu_available()) 
+```
+
+```py
+WARNING:tensorflow:From <ipython-input-3-ae932be897c3>:1: is_gpu_available (from tensorflow.python.framework.test_util) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.config.list_physical_devices('GPU')` instead.
+True
+
+```
+
+## Layers: common sets of useful operations
+
+Most of the time when writing code for machine learning models you want to operate at a higher level of abstraction than individual operations and manipulation of individual variables.
+
+Many machine learning models are expressible as the composition and stacking of relatively simple layers, and TensorFlow provides both a set of many common layers as a well as easy ways for you to write your own application-specific layers either from scratch or as the composition of existing layers.
+
+TensorFlow includes the full [Keras](https://keras.io) API in the tf.keras package, and the Keras layers are very useful when building your own models.
+
+```py
+# In the tf.keras.layers package, layers are objects. To construct a layer,
+# simply construct the object. Most layers take as a first argument the number
+# of output dimensions / channels.
+layer = tf.keras.layers.Dense(100)
+# The number of input dimensions is often unnecessary, as it can be inferred
+# the first time the layer is used, but it can be provided if you want to
+# specify it manually, which is useful in some complex models.
+layer = tf.keras.layers.Dense(10, input_shape=(None, 5)) 
+```
+
+The full list of pre-existing layers can be seen in [the documentation](https://tensorflow.google.cn/api_docs/python/tf/keras/layers). It includes Dense (a fully-connected layer), Conv2D, LSTM, BatchNormalization, Dropout, and many others.
+
+```py
+# To use a layer, simply call it.
+layer(tf.zeros([10, 5])) 
+```
+
+```py
+<tf.Tensor: shape=(10, 10), dtype=float32, numpy=
+array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)>
+
+```
+
+```py
+# Layers have many useful methods. For example, you can inspect all variables
+# in a layer using `layer.variables` and trainable variables using
+# `layer.trainable_variables`. In this case a fully-connected layer
+# will have variables for weights and biases.
+layer.variables 
+```
+
+```py
+[<tf.Variable 'dense_1/kernel:0' shape=(5, 10) dtype=float32, numpy=
+ array([[-0.15722859,  0.57974607, -0.6042197 , -0.04509938, -0.34154978,
+          0.5545538 , -0.05465943,  0.41898602,  0.01103759,  0.3038023 ],
+        [ 0.02127045, -0.5874406 , -0.46126658,  0.44600803,  0.25224942,
+         -0.24498063,  0.16537589, -0.2237429 , -0.4222283 , -0.29941237],
+        [ 0.30734265,  0.6019073 , -0.4399919 , -0.35211664, -0.02590752,
+         -0.34433138,  0.26751322,  0.00731838, -0.04928106, -0.5188436 ],
+        [ 0.25729483, -0.15926728, -0.03268623,  0.36698097, -0.45867646,
+          0.02833885, -0.49959266,  0.09508026, -0.01607442, -0.10307193],
+        [ 0.33573806,  0.45685798,  0.21133131,  0.4112534 ,  0.51482946,
+          0.5442372 ,  0.21336573,  0.57636994, -0.40508842,  0.15163761]],
+       dtype=float32)>,
+ <tf.Variable 'dense_1/bias:0' shape=(10,) dtype=float32, numpy=array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>]
+
+```
+
+```py
+# The variables are also accessible through nice accessors
+layer.kernel, layer.bias 
+```
+
+```py
+(<tf.Variable 'dense_1/kernel:0' shape=(5, 10) dtype=float32, numpy=
+ array([[-0.15722859,  0.57974607, -0.6042197 , -0.04509938, -0.34154978,
+          0.5545538 , -0.05465943,  0.41898602,  0.01103759,  0.3038023 ],
+        [ 0.02127045, -0.5874406 , -0.46126658,  0.44600803,  0.25224942,
+         -0.24498063,  0.16537589, -0.2237429 , -0.4222283 , -0.29941237],
+        [ 0.30734265,  0.6019073 , -0.4399919 , -0.35211664, -0.02590752,
+         -0.34433138,  0.26751322,  0.00731838, -0.04928106, -0.5188436 ],
+        [ 0.25729483, -0.15926728, -0.03268623,  0.36698097, -0.45867646,
+          0.02833885, -0.49959266,  0.09508026, -0.01607442, -0.10307193],
+        [ 0.33573806,  0.45685798,  0.21133131,  0.4112534 ,  0.51482946,
+          0.5442372 ,  0.21336573,  0.57636994, -0.40508842,  0.15163761]],
+       dtype=float32)>,
+ <tf.Variable 'dense_1/bias:0' shape=(10,) dtype=float32, numpy=array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)>)
+
+```
+
+## Implementing custom layers
+
+The best way to implement your own layer is extending the tf.keras.Layer class and implementing:
+
+1.  `__init__` , where you can do all input-independent initialization
+2.  `build`, where you know the shapes of the input tensors and can do the rest of the initialization
+3.  `call`, where you do the forward computation
+
+Note that you don't have to wait until `build` is called to create your variables, you can also create them in `__init__`. However, the advantage of creating them in `build` is that it enables late variable creation based on the shape of the inputs the layer will operate on. On the other hand, creating variables in `__init__` would mean that shapes required to create the variables will need to be explicitly specified.
+
+```py
+class MyDenseLayer(tf.keras.layers.Layer):
+  def __init__(self, num_outputs):
+    super(MyDenseLayer, self).__init__()
+    self.num_outputs = num_outputs
+
+  def build(self, input_shape):
+    self.kernel = self.add_weight("kernel",
+                                  shape=[int(input_shape[-1]),
+                                         self.num_outputs])
+
+  def call(self, input):
+    return tf.matmul(input, self.kernel)
+
+layer = MyDenseLayer(10) 
+```
+
+```py
+_ = layer(tf.zeros([10, 5])) # Calling the layer `.builds` it. 
+```
+
+```py
+print([var.name for var in layer.trainable_variables]) 
+```
+
+```py
+['my_dense_layer/kernel:0']
+
+```
+
+Overall code is easier to read and maintain if it uses standard layers whenever possible, as other readers will be familiar with the behavior of standard layers. If you want to use a layer which is not present in [`tf.keras.layers`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers), consider filing a [github issue](http://github.com/tensorflow/tensorflow/issues/new) or, even better, sending us a pull request!
+
+## Models: Composing layers
+
+Many interesting layer-like things in machine learning models are implemented by composing existing layers. For example, each residual block in a resnet is a composition of convolutions, batch normalizations, and a shortcut. Layers can be nested inside other layers.
+
+Typically you inherit from [`keras.Model`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model) when you need the model methods like: [`Model.fit`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#fit),[`Model.evaluate`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#evaluate), and [`Model.save`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#save) (see [Custom Keras layers and models](https://tensorflow.google.cn/guide/keras/custom_layers_and_models) for details).
+
+One other feature provided by [`keras.Model`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model) (instead of [`keras.layers.Layer`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Layer)) is that in addition to tracking variables, a [`keras.Model`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model) also tracks its internal layers, making them easier to inspect.
+
+For example here is a ResNet block:
+
+```py
+class ResnetIdentityBlock(tf.keras.Model):
+  def __init__(self, kernel_size, filters):
+    super(ResnetIdentityBlock, self).__init__(name='')
+    filters1, filters2, filters3 = filters
+
+    self.conv2a = tf.keras.layers.Conv2D(filters1, (1, 1))
+    self.bn2a = tf.keras.layers.BatchNormalization()
+
+    self.conv2b = tf.keras.layers.Conv2D(filters2, kernel_size, padding='same')
+    self.bn2b = tf.keras.layers.BatchNormalization()
+
+    self.conv2c = tf.keras.layers.Conv2D(filters3, (1, 1))
+    self.bn2c = tf.keras.layers.BatchNormalization()
+
+  def call(self, input_tensor, training=False):
+    x = self.conv2a(input_tensor)
+    x = self.bn2a(x, training=training)
+    x = tf.nn.relu(x)
+
+    x = self.conv2b(x)
+    x = self.bn2b(x, training=training)
+    x = tf.nn.relu(x)
+
+    x = self.conv2c(x)
+    x = self.bn2c(x, training=training)
+
+    x += input_tensor
+    return tf.nn.relu(x)
+
+block = ResnetIdentityBlock(1, [1, 2, 3]) 
+```
+
+```py
+_ = block(tf.zeros([1, 2, 3, 3])) 
+```
+
+```py
+block.layers 
+```
+
+```py
+[<tensorflow.python.keras.layers.convolutional.Conv2D at 0x7f98d15a9c18>,
+ <tensorflow.python.keras.layers.normalization_v2.BatchNormalization at 0x7f99303a1e80>,
+ <tensorflow.python.keras.layers.convolutional.Conv2D at 0x7f98d15a7b00>,
+ <tensorflow.python.keras.layers.normalization_v2.BatchNormalization at 0x7f98d15a7860>,
+ <tensorflow.python.keras.layers.convolutional.Conv2D at 0x7f98d15a7630>,
+ <tensorflow.python.keras.layers.normalization_v2.BatchNormalization at 0x7f98d15a7390>]
+
+```
+
+```py
+len(block.variables) 
+```
+
+```py
+18
+
+```
+
+```py
+block.summary() 
+```
+
+```py
+Model: "resnet_identity_block"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+conv2d (Conv2D)              multiple                  4         
+_________________________________________________________________
+batch_normalization (BatchNo multiple                  4         
+_________________________________________________________________
+conv2d_1 (Conv2D)            multiple                  4         
+_________________________________________________________________
+batch_normalization_1 (Batch multiple                  8         
+_________________________________________________________________
+conv2d_2 (Conv2D)            multiple                  9         
+_________________________________________________________________
+batch_normalization_2 (Batch multiple                  12        
+=================================================================
+Total params: 41
+Trainable params: 29
+Non-trainable params: 12
+_________________________________________________________________
+
+```
+
+Much of the time, however, models which compose many layers simply call one layer after the other. This can be done in very little code using [`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential):
+
+```py
+my_seq = tf.keras.Sequential([tf.keras.layers.Conv2D(1, (1, 1),
+                                                    input_shape=(
+                                                        None, None, 3)),
+                             tf.keras.layers.BatchNormalization(),
+                             tf.keras.layers.Conv2D(2, 1,
+                                                    padding='same'),
+                             tf.keras.layers.BatchNormalization(),
+                             tf.keras.layers.Conv2D(3, (1, 1)),
+                             tf.keras.layers.BatchNormalization()])
+my_seq(tf.zeros([1, 2, 3, 3])) 
+```
+
+```py
+<tf.Tensor: shape=(1, 2, 3, 3), dtype=float32, numpy=
+array([[[[0., 0., 0.],
+         [0., 0., 0.],
+         [0., 0., 0.]],
+
+        [[0., 0., 0.],
+         [0., 0., 0.],
+         [0., 0., 0.]]]], dtype=float32)>
+
+```
+
+```py
+my_seq.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+conv2d_3 (Conv2D)            (None, None, None, 1)     4         
+_________________________________________________________________
+batch_normalization_3 (Batch (None, None, None, 1)     4         
+_________________________________________________________________
+conv2d_4 (Conv2D)            (None, None, None, 2)     4         
+_________________________________________________________________
+batch_normalization_4 (Batch (None, None, None, 2)     8         
+_________________________________________________________________
+conv2d_5 (Conv2D)            (None, None, None, 3)     9         
+_________________________________________________________________
+batch_normalization_5 (Batch (None, None, None, 3)     12        
+=================================================================
+Total params: 41
+Trainable params: 29
+Non-trainable params: 12
+_________________________________________________________________
+
+```
+
+# Next steps
+
+Now you can go back to the previous notebook and adapt the linear regression example to use layers and models to be better structured.
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/032.md b/Tensorflow/TensorFlow2.0/032.md
new file mode 100644
index 00000000..6c37305c
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/032.md
@@ -0,0 +1,626 @@
+# 自定义训练: 演示
+
+> 原文：[https://tensorflow.google.cn/tutorials/customization/custom_training_walkthrough](https://tensorflow.google.cn/tutorials/customization/custom_training_walkthrough)
+
+这个教程将利用机器学习的手段来对鸢尾花按照物种进行分类。本教程将利用 TensorFlow 来进行以下操作：
+
+1.  构建一个模型，
+2.  用样例数据集对模型进行训练，以及
+3.  利用该模型对未知数据进行预测。
+
+## TensorFlow 编程
+
+本指南采用了以下高级 TensorFlow 概念:
+
+*   使用 TensorFlow 默认的 [eager execution](https://tensorflow.google.cn/guide/eager) 开发环境,
+*   使用 [Datasets API](https://tensorflow.google.cn/guide/datasets) 导入数据,
+*   使用 TensorFlow 的 [Keras API](https://keras.io/getting-started/sequential-model-guide/) 来构建各层以及整个模型。
+
+本教程的结构同很多 TensorFlow 程序相似：
+
+1.  数据集的导入与解析
+2.  选择模型类型
+3.  对模型进行训练
+4.  评估模型效果
+5.  使用训练过的模型进行预测
+
+## 环境的搭建
+
+### 配置导入
+
+导入 TensorFlow 以及其他需要的 Python 库。 默认情况下，TensorFlow 用 [eager execution](https://tensorflow.google.cn/guide/eager) 来实时评估操作, 返回具体值而不是建立一个稍后执行的[计算图](https://tensorflow.google.cn/guide/graphs)。 如果您习惯使用 REPL 或 python 交互控制台, 对此您会感觉得心应手。
+
+```py
+import os
+import matplotlib.pyplot as plt 
+```
+
+```py
+import tensorflow as tf 
+```
+
+```py
+print("TensorFlow version: {}".format(tf.__version__))
+print("Eager execution: {}".format(tf.executing_eagerly())) 
+```
+
+```py
+TensorFlow version: 2.3.0
+Eager execution: True
+
+```
+
+## 鸢尾花分类问题
+
+想象一下，您是一名植物学家，正在寻找一种能够对所发现的每株鸢尾花进行自动归类的方法。机器学习可提供多种从统计学上分类花卉的算法。例如，一个复杂的机器学习程序可以根据照片对花卉进行分类。我们的要求并不高 - 我们将根据鸢尾花花萼和花瓣的长度和宽度对其进行分类。
+
+鸢尾属约有 300 个品种，但我们的程序将仅对下列三个品种进行分类：
+
+*   山鸢尾
+*   维吉尼亚鸢尾
+*   变色鸢尾
+
+| ![Petal geometry compared for three iris species: Iris setosa, Iris virginica, and Iris versicolor](img/bb63d10882d3aa9a631d3cf50ff7f21e.png) |
+| **Figure 1.** [山鸢尾](https://commons.wikimedia.org/w/index.php?curid=170298) (by [Radomil](https://commons.wikimedia.org/wiki/User:Radomil), CC BY-SA 3.0), [变色鸢尾](https://commons.wikimedia.org/w/index.php?curid=248095), (by [Dlanglois](https://commons.wikimedia.org/wiki/User:Dlanglois), CC BY-SA 3.0), and [维吉尼亚鸢尾](https://www.flickr.com/photos/33397993@N05/3352169862) (by [Frank Mayfield](https://www.flickr.com/photos/33397993@N05), CC BY-SA 2.0).
+  |
+
+幸运的是，有人已经创建了一个包含有花萼和花瓣的测量值的[120 株鸢尾花的数据集](https://en.wikipedia.org/wiki/Iris_flower_data_set)。这是一个在入门级机器学习分类问题中经常使用的经典数据集。
+
+## 导入和解析训练数据集
+
+下载数据集文件并将其转换为可供此 Python 程序使用的结构。
+
+### 下载数据集
+
+使用 [tf.keras.utils.get_file](https://tensorflow.google.cn/api_docs/python/tf/keras/utils/get_file) 函数下载训练数据集文件。该函数会返回下载文件的文件路径：
+
+```py
+train_dataset_url = "https://storage.googleapis.com/download.tensorflow.org/data/iris_training.csv"
+
+train_dataset_fp = tf.keras.utils.get_file(fname=os.path.basename(train_dataset_url),
+                                           origin=train_dataset_url)
+
+print("Local copy of the dataset file: {}".format(train_dataset_fp)) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/iris_training.csv
+8192/2194 [================================================================================================================] - 0s 0us/step
+Local copy of the dataset file: /home/kbuilder/.keras/datasets/iris_training.csv
+
+```
+
+### 检查数据
+
+数据集 `iris_training.csv` 是一个纯文本文件，其中存储了逗号分隔值 (CSV) 格式的表格式数据.请使用 `head -n5` 命令查看前 5 个条目：
+
+```py
+head -n5 {train_dataset_fp}
+
+```
+
+```py
+120,4,setosa,versicolor,virginica
+6.4,2.8,5.6,2.2,2
+5.0,2.3,3.3,1.0,1
+4.9,2.5,4.5,1.7,2
+4.9,3.1,1.5,0.1,0
+
+```
+
+我们可以从该数据集视图中注意到以下信息：
+
+1.  第一行是表头，其中包含数据集信息：
+
+*   共有 120 个样本。每个样本都有四个特征和一个标签名称，标签名称有三种可能。
+*   后面的行是数据记录，每个[样本](https://developers.google.cn/machine-learning/glossary/#example)各占一行，其中：
+    *   前四个字段是[特征](https://developers.google.cn/machine-learning/glossary/#feature): 这四个字段代表的是样本的特点。在此数据集中，这些字段存储的是代表花卉测量值的浮点数。
+    *   最后一列是[标签](https://developers.google.cn/machine-learning/glossary/#label):即我们想要预测的值。对于此数据集，该值为 0、1 或 2 中的某个整数值（每个值分别对应一个花卉名称）。
+
+我们用代码表示出来：
+
+```py
+# CSV 文件中列的顺序
+column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']
+
+feature_names = column_names[:-1]
+label_name = column_names[-1]
+
+print("Features: {}".format(feature_names))
+print("Label: {}".format(label_name)) 
+```
+
+```py
+Features: ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
+Label: species
+
+```
+
+每个标签都分别与一个字符串名称（例如 “setosa” ）相关联，但机器学习通常依赖于数字值。标签编号会映射到一个指定的表示法，例如：
+
+*   `0` : 山鸢尾
+*   `1` : 变色鸢尾
+*   `2` : 维吉尼亚鸢尾
+
+如需详细了解特征和标签，请参阅 [《机器学习速成课程》的“机器学习术语”部分](https://developers.google.cn/machine-learning/crash-course/framing/ml-terminology).
+
+```py
+class_names = ['Iris setosa', 'Iris versicolor', 'Iris virginica'] 
+```
+
+### 创建一个 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)
+
+TensorFlow 的 [Dataset API](https://tensorflow.google.cn/guide/datasets) 可处理在向模型加载数据时遇到的许多常见情况。这是一种高阶 API ，用于读取数据并将其转换为可供训练使用的格式。如需了解详情，请参阅[数据集快速入门指南](https://tensorflow.google.cn/get_started/datasets_quickstart)
+
+由于数据集是 CSV 格式的文本文件，请使用 [make_csv_dataset](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/make_csv_dataset) 函数将数据解析为合适的格式。由于此函数为训练模型生成数据，默认行为是对数据进行随机处理 （`shuffle=True, shuffle_buffer_size=10000`），并且无限期重复数据集（`num_epochs=None`）。 我们还设置了 [batch_size](https://developers.google.cn/machine-learning/glossary/#batch_size) 参数:
+
+```py
+batch_size = 32
+
+train_dataset = tf.data.experimental.make_csv_dataset(
+    train_dataset_fp,
+    batch_size,
+    column_names=column_names,
+    label_name=label_name,
+    num_epochs=1) 
+```
+
+`make_csv_dataset` 返回一个`(features, label)` 对构建的 [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) ，其中 `features` 是一个字典: `{'feature_name': value}`
+
+这些 `Dataset` 对象是可迭代的。 我们来看看下面的一些特征:
+
+```py
+features, labels = next(iter(train_dataset))
+
+print(features) 
+```
+
+```py
+OrderedDict([('sepal_length', <tf.Tensor: shape=(32,), dtype=float32, numpy=
+array([6.6, 5.8, 5\. , 7.7, 4.6, 4.7, 5.5, 6.1, 6.5, 6.1, 5\. , 6.4, 5.4,
+
+       6\. , 5.5, 7.2, 5.9, 6.4, 5\. , 5.2, 5\. , 6.4, 6.2, 5.1, 6.4, 5.8,
+       5.1, 6.3, 6.5, 4.9, 7.4, 5.7], dtype=float32)>), ('sepal_width', <tf.Tensor: shape=(32,), dtype=float32, numpy=
+array([2.9, 2.7, 3.4, 2.6, 3.1, 3.2, 2.4, 2.9, 3\. , 2.6, 3.5, 3.1, 3.9,
+       3\. , 2.4, 3.6, 3.2, 3.2, 3.2, 3.5, 2.3, 2.7, 3.4, 3.8, 2.8, 2.6,
+       2.5, 3.3, 3\. , 3.1, 2.8, 3.8], dtype=float32)>), ('petal_length', <tf.Tensor: shape=(32,), dtype=float32, numpy=
+array([4.6, 4.1, 1.5, 6.9, 1.5, 1.6, 3.8, 4.7, 5.5, 5.6, 1.6, 5.5, 1.7,
+       4.8, 3.7, 6.1, 4.8, 4.5, 1.2, 1.5, 3.3, 5.3, 5.4, 1.9, 5.6, 4\. ,
+       3\. , 6\. , 5.8, 1.5, 6.1, 1.7], dtype=float32)>), ('petal_width', <tf.Tensor: shape=(32,), dtype=float32, numpy=
+array([1.3, 1\. , 0.2, 2.3, 0.2, 0.2, 1.1, 1.4, 1.8, 1.4, 0.6, 1.8, 0.4,
+       1.8, 1\. , 2.5, 1.8, 1.5, 0.2, 0.2, 1\. , 1.9, 2.3, 0.4, 2.2, 1.2,
+       1.1, 2.5, 2.2, 0.1, 1.9, 0.3], dtype=float32)>)])
+
+```
+
+注意到具有相似特征的样本会归为一组，即分为一批。更改 `batch_size` 可以设置存储在这些特征数组中的样本数。
+
+绘制该批次中的几个特征后，就会开始看到一些集群现象：
+
+```py
+plt.scatter(features['petal_length'],
+            features['sepal_length'],
+            c=labels,
+            cmap='viridis')
+
+plt.xlabel("Petal length")
+plt.ylabel("Sepal length")
+plt.show() 
+```
+
+![png](img/6396c35912fab965e30d9adf6c7c8981.png)
+
+要简化模型构建步骤，请创建一个函数以将特征字典重新打包为形状为 `(batch_size, num_features)` 的单个数组。
+
+此函数使用 [tf.stack](https://tensorflow.google.cn/api_docs/python/tf/stack) 方法，该方法从张量列表中获取值，并创建指定维度的组合张量:
+
+```py
+def pack_features_vector(features, labels):
+  """将特征打包到一个数组中"""
+  features = tf.stack(list(features.values()), axis=1)
+  return features, labels 
+```
+
+然后使用 [tf.data.Dataset.map](https://tensorflow.google.cn/api_docs/python/tf/data/dataset/map) 方法将每个 `(features,label)` 对中的 `features` 打包到训练数据集中：
+
+```py
+train_dataset = train_dataset.map(pack_features_vector) 
+```
+
+`Dataset` 的特征元素被构成了形如 `(batch_size, num_features)` 的数组。我们来看看前几个样本:
+
+```py
+features, labels = next(iter(train_dataset))
+
+print(features[:5]) 
+```
+
+```py
+tf.Tensor(
+[[5\.  3.5 1.3 0.3]
+ [4.8 3.1 1.6 0.2]
+ [6.3 2.7 4.9 1.8]
+ [7.4 2.8 6.1 1.9]
+ [5\.  3.2 1.2 0.2]], shape=(5, 4), dtype=float32)
+
+```
+
+## 选择模型类型
+
+### 为何要使用模型?
+
+[模型](https://developers.google.cn/machine-learning/crash-course/glossary#model)是指特征与标签之间的关系。对于鸢尾花分类问题，模型定义了花萼和花瓣测量值与预测的鸢尾花品种之间的关系。一些简单的模型可以用几行代数进行描述，但复杂的机器学习模型拥有大量难以汇总的参数。
+
+您能否在不使用机器学习的情况下确定四个特征与鸢尾花品种之间的关系？也就是说，您能否使用传统编程技巧（例如大量条件语句）创建模型？也许能，前提是反复分析该数据集，并最终确定花瓣和花萼测量值与特定品种的关系。对于更复杂的数据集来说，这会变得非常困难，或许根本就做不到。一个好的机器学习方法可为您确定模型。如果您将足够多的代表性样本馈送到正确类型的机器学习模型中，该程序便会为您找出相应的关系。
+
+### 选择模型
+
+我们需要选择要进行训练的模型类型。模型具有许多类型，挑选合适的类型需要一定的经验。本教程使用神经网络来解决鸢尾花分类问题。[神经网络](https://developers.google.cn/machine-learning/glossary/#neural_network)可以发现特征与标签之间的复杂关系。神经网络是一个高度结构化的图，其中包含一个或多个[隐含层](https://developers.google.cn/machine-learning/glossary/#hidden_layer)。每个隐含层都包含一个或多个[神经元](https://developers.google.cn/machine-learning/glossary/#neuron)。 神经网络有多种类别，该程序使用的是密集型神经网络，也称为[全连接神经网络](https://developers.google.cn/machine-learning/glossary/#fully_connected_layer) : 一个层中的神经元将从上一层中的每个神经元获取输入连接。例如，图 2 显示了一个密集型神经网络，其中包含 1 个输入层、2 个隐藏层以及 1 个输出层：
+
+| ![网络结构示意图: 输入层, 2 隐含层, 输出层](img/d6c8610603858ddd864cc7f024f16e40.png) |
+| **图 2.** 包含特征、隐藏层和预测的神经网络
+  |
+
+当图 2 中的模型经过训练并获得无标签样本后，它会产生 3 个预测结果：相应鸢尾花属于指定品种的可能性。这种预测称为[推理](https://developers.google.cn/machine-learning/crash-course/glossary#inference)。对于该示例，输出预测结果的总和是 1.0。在图 2 中，该预测结果分解如下：山鸢尾为 0.02，变色鸢尾为 0.95，维吉尼亚鸢尾为 0.03。这意味着该模型预测某个无标签鸢尾花样本是变色鸢尾的概率为 95％。
+
+### 使用 Keras 创建模型
+
+TensorFlow [tf.keras](https://tensorflow.google.cn/api_docs/python/tf/keras) API 是创建模型和层的首选方式。通过该 API，您可以轻松地构建模型并进行实验，而将所有部分连接在一起的复杂工作则由 Keras 处理。
+
+[tf.keras.Sequential](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) 模型是层的线性堆叠。该模型的构造函数会采用一系列层实例；在本示例中，采用的是 2 个[密集层](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense)（各自包含 10 个节点）,以及 1 个输出层（包含 3 个代表标签预测的节点。第一个层的 `input_shape` 参数对应该数据集中的特征数量，它是一项必需参数：
+
+```py
+model = tf.keras.Sequential([
+  tf.keras.layers.Dense(10, activation=tf.nn.relu, input_shape=(4,)),  # 需要给出输入的形式
+  tf.keras.layers.Dense(10, activation=tf.nn.relu),
+  tf.keras.layers.Dense(3)
+]) 
+```
+
+[激活函数](https://developers.google.cn/machine-learning/crash-course/glossary#activation_function)可决定层中每个节点的输出形式。 这些非线性关系很重要，如果没有它们，模型将等同于单个层。[激活函数](https://tensorflow.google.cn/api_docs/python/tf/keras/activations)有很多种，但隐藏层通常使用 [ReLU](https://developers.google.cn/machine-learning/crash-course/glossary#ReLU)。
+
+隐藏层和神经元的理想数量取决于问题和数据集。与机器学习的多个方面一样，选择最佳的神经网络形状需要一定的知识水平和实验基础。一般来说，增加隐藏层和神经元的数量通常会产生更强大的模型，而这需要更多数据才能有效地进行训练。
+
+### 使用模型
+
+我们快速了解一下此模型如何处理一批特征：
+
+```py
+predictions = model(features)
+predictions[:5] 
+```
+
+```py
+<tf.Tensor: shape=(5, 3), dtype=float32, numpy=
+array([[ 2.371686  , -3.2583737 ,  0.06788294],
+       [ 2.1781201 , -3.0004797 ,  0.07583394],
+       [ 1.4679078 , -2.8879187 , -0.13730617],
+       [ 1.60235   , -3.2915173 , -0.18439294],
+       [ 2.3404026 , -3.2052171 ,  0.06615102]], dtype=float32)>
+
+```
+
+在此示例中，每个样本针对每个类别返回一个 [logit](https://developers.google.cn/machine-learning/crash-course/glossary#logits)。
+
+要将这些对数转换为每个类别的概率，请使用 [softmax](https://developers.google.cn/machine-learning/crash-course/glossary#softmax) 函数:
+
+```py
+tf.nn.softmax(predictions[:5]) 
+```
+
+```py
+<tf.Tensor: shape=(5, 3), dtype=float32, numpy=
+array([[0.9062349 , 0.0032519 , 0.09051319],
+       [0.88667214, 0.00499719, 0.10833076],
+       [0.8239415 , 0.01057268, 0.16548584],
+       [0.85106575, 0.00637652, 0.14255764],
+       [0.90352327, 0.00352783, 0.09294892]], dtype=float32)>
+
+```
+
+对每个类别执行 [`tf.argmax`](https://tensorflow.google.cn/api_docs/python/tf/math/argmax) 运算可得出预测的类别索引。不过，该模型尚未接受训练，因此这些预测并不理想。
+
+```py
+print("Prediction: {}".format(tf.argmax(predictions, axis=1)))
+print("    Labels: {}".format(labels)) 
+```
+
+```py
+Prediction: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
+    Labels: [0 0 2 2 0 2 0 1 0 0 1 1 0 1 0 0 2 2 1 1 0 2 2 0 0 2 1 0 0 0 2 2]
+
+```
+
+## 训练模型
+
+[训练](https://developers.google.cn/machine-learning/crash-course/glossary#training) 是一个机器学习阶段，在此阶段中，模型会逐渐得到优化，也就是说，模型会了解数据集。目标是充分了解训练数据集的结构，以便对未见过的数据进行预测。如果您从训练数据集中获得了过多的信息，预测便会仅适用于模型见过的数据，但是无法泛化。此问题被称之为[过拟合](https://developers.google.cn/machine-learning/crash-course/glossary#overfitting)—就好比将答案死记硬背下来，而不去理解问题的解决方式。
+
+鸢尾花分类问题是[监督式机器学习](https://developers.google.cn/machine-learning/glossary/#supervised_machine_learning)的一个示例: 模型通过包含标签的样本加以训练。 而在[非监督式机器学习](https://developers.google.cn/machine-learning/glossary/#unsupervised_machine_learning)中，样本不包含标签。相反，模型通常会在特征中发现一些规律。
+
+### 定义损失和梯度函数
+
+在训练和评估阶段，我们都需要计算模型的[损失](https://developers.google.cn/machine-learning/crash-course/glossary#loss)。 这样可以衡量模型的预测结果与预期标签有多大偏差，也就是说，模型的效果有多差。我们希望尽可能减小或优化这个值。
+
+我们的模型会使用 [`tf.keras.losses.SparseCategoricalCrossentropy`](https://tensorflow.google.cn/api_docs/python/tf/keras/losses/SparseCategoricalCrossentropy) 函数计算其损失，此函数会接受模型的类别概率预测结果和预期标签，然后返回样本的平均损失。
+
+```py
+loss_object = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True) 
+```
+
+```py
+def loss(model, x, y):
+  y_ = model(x)
+
+  return loss_object(y_true=y, y_pred=y_)
+
+l = loss(model, features, labels)
+print("Loss test: {}".format(l)) 
+```
+
+```py
+Loss test: 1.6707830429077148
+
+```
+
+使用 [tf.GradientTape](https://tensorflow.google.cn/api_docs/python/tf/GradientTape) 的前后关系来计算[梯度](https://developers.google.cn/machine-learning/crash-course/glossary#gradient)以优化你的模型:
+
+```py
+def grad(model, inputs, targets):
+  with tf.GradientTape() as tape:
+    loss_value = loss(model, inputs, targets)
+  return loss_value, tape.gradient(loss_value, model.trainable_variables) 
+```
+
+### 创建优化器
+
+[优化器](https://developers.google.cn/machine-learning/crash-course/glossary#optimizer) 会将计算出的梯度应用于模型的变量，以使 `loss` 函数最小化。您可以将损失函数想象为一个曲面（见图 3），我们希望通过到处走动找到该曲面的最低点。梯度指向最高速上升的方向，因此我们将沿相反的方向向下移动。我们以迭代方式计算每个批次的损失和梯度，以在训练过程中调整模型。模型会逐渐找到权重和偏差的最佳组合，从而将损失降至最低。损失越低，模型的预测效果就越好。
+
+| ![Optimization algorithms visualized over time in 3D space.](img/fb0bdd5ec0ad3a81aa686b46a6fa16d7.png) |
+| **图 3.** 优化算法在三维空间中随时间推移而变化的可视化效果。
+(来源: [斯坦福大学 CS231n 课程](http://cs231n.github.io/neural-networks-3/)，MIT 许可证，Image credit: [Alec Radford](https://twitter.com/alecrad)) |
+
+TensorFlow 有许多可用于训练的[优化算法](https://tensorflow.google.cn/api_guides/python/train)。此模型使用的是 [tf.train.GradientDescentOptimizer](https://tensorflow.google.cn/api_docs/python/tf/train/GradientDescentOptimizer) ， 它可以实现[随机梯度下降法](https://developers.google.cn/machine-learning/crash-course/glossary#gradient_descent)（SGD）。`learning_rate` 被用于设置每次迭代（向下行走）的步长。 这是一个 *超参数* ，您通常需要调整此参数以获得更好的结果。
+
+我们来设置优化器：
+
+```py
+optimizer = tf.keras.optimizers.Adam(learning_rate=0.01) 
+```
+
+我们将使用它来计算单个优化步骤：
+
+```py
+loss_value, grads = grad(model, features, labels)
+
+print("Step: {}, Initial Loss: {}".format(optimizer.iterations.numpy(),
+                                          loss_value.numpy()))
+
+optimizer.apply_gradients(zip(grads, model.trainable_variables))
+
+print("Step: {},         Loss: {}".format(optimizer.iterations.numpy(),
+                                          loss(model, features, labels).numpy())) 
+```
+
+```py
+Step: 0, Initial Loss: 1.6707830429077148
+Step: 1,         Loss: 1.447718620300293
+
+```
+
+### 训练循环
+
+一切准备就绪后，就可以开始训练模型了！训练循环会将数据集样本馈送到模型中，以帮助模型做出更好的预测。以下代码块可设置这些训练步骤：
+
+1.  迭代每个周期。通过一次数据集即为一个周期。
+2.  在一个周期中，遍历训练 `Dataset` 中的每个样本，并获取样本的*特征*（`x`）和*标签*（`y`）。
+3.  根据样本的特征进行预测，并比较预测结果和标签。衡量预测结果的不准确性，并使用所得的值计算模型的损失和梯度。
+4.  使用 `optimizer` 更新模型的变量。
+5.  跟踪一些统计信息以进行可视化。
+6.  对每个周期重复执行以上步骤。
+
+`num_epochs` 变量是遍历数据集集合的次数。与直觉恰恰相反的是，训练模型的时间越长，并不能保证模型就越好。`num_epochs` 是一个可以调整的[超参数](https://developers.google.cn/machine-learning/glossary/#hyperparameter)。选择正确的次数通常需要一定的经验和实验基础。
+
+```py
+## Note: 使用相同的模型变量重新运行此单元
+
+# 保留结果用于绘制
+train_loss_results = []
+train_accuracy_results = []
+
+num_epochs = 201
+
+for epoch in range(num_epochs):
+  epoch_loss_avg = tf.keras.metrics.Mean()
+  epoch_accuracy = tf.keras.metrics.SparseCategoricalAccuracy()
+
+  # Training loop - using batches of 32
+  for x, y in train_dataset:
+    # 优化模型
+    loss_value, grads = grad(model, x, y)
+    optimizer.apply_gradients(zip(grads, model.trainable_variables))
+
+    # 追踪进度
+    epoch_loss_avg(loss_value)  # 添加当前的 batch loss
+    # 比较预测标签与真实标签
+    epoch_accuracy(y, model(x))
+
+  # 循环结束
+  train_loss_results.append(epoch_loss_avg.result())
+  train_accuracy_results.append(epoch_accuracy.result())
+
+  if epoch % 50 == 0:
+    print("Epoch {:03d}: Loss: {:.3f}, Accuracy: {:.3%}".format(epoch,
+                                                                epoch_loss_avg.result(),
+                                                                epoch_accuracy.result())) 
+```
+
+```py
+Epoch 000: Loss: 1.470, Accuracy: 35.833%
+Epoch 050: Loss: 0.112, Accuracy: 96.667%
+Epoch 100: Loss: 0.055, Accuracy: 98.333%
+Epoch 150: Loss: 0.065, Accuracy: 98.333%
+Epoch 200: Loss: 0.053, Accuracy: 98.333%
+
+```
+
+### 可视化损失函数随时间推移而变化的情况
+
+虽然输出模型的训练过程有帮助，但查看这一过程往往*更有帮助*。 [TensorBoard](https://tensorflow.google.cn/guide/summaries_and_tensorboard) 是与 TensorFlow 封装在一起的出色可视化工具，不过我们可以使用 `matplotlib` 模块创建基本图表。
+
+解读这些图表需要一定的经验，不过您确实希望看到*损失*下降且*准确率*上升。
+
+```py
+fig, axes = plt.subplots(2, sharex=True, figsize=(12, 8))
+fig.suptitle('Training Metrics')
+
+axes[0].set_ylabel("Loss", fontsize=14)
+axes[0].plot(train_loss_results)
+
+axes[1].set_ylabel("Accuracy", fontsize=14)
+axes[1].set_xlabel("Epoch", fontsize=14)
+axes[1].plot(train_accuracy_results)
+plt.show() 
+```
+
+![png](img/4123df32a452f5e3727c6372cf1fa755.png)
+
+## 评估模型的效果
+
+模型已经过训练，现在我们可以获取一些关于其效果的统计信息了。
+
+*评估* 指的是确定模型做出预测的效果。要确定模型在鸢尾花分类方面的效果，请将一些花萼和花瓣测量值传递给模型，并要求模型预测它们所代表的鸢尾花品种。然后，将模型的预测结果与实际标签进行比较。例如，如果模型对一半输入样本的品种预测正确，则 [准确率](https://developers.google.cn/machine-learning/glossary/#accuracy) 为 `0.5` 。 图 4 显示的是一个效果更好一些的模型，该模型做出 5 次预测，其中有 4 次正确，准确率为 80%：
+
+<colgroup><col span="4"> <col span="1" bgcolor="lightblue"> <col span="1" bgcolor="lightgreen"></colgroup> 
+| 样本特征 | 标签 | 模型预测 |
+| 5.9 | 3.0 | 4.3 | 1.5 | 1 | 1 |
+| 6.9 | 3.1 | 5.4 | 2.1 | 2 | 2 |
+| 5.1 | 3.3 | 1.7 | 0.5 | 0 | 0 |
+| 6.0 | 3.4 | 4.5 | 1.6 | 1 | 2 |
+| 5.5 | 2.5 | 4.0 | 1.3 | 1 | 1 |
+| **图 4.** 准确率为 80% 的鸢尾花分类器
+  |
+
+### 建立测试数据集
+
+评估模型与训练模型相似。最大的区别在于，样本来自一个单独的[测试集](https://developers.google.cn/machine-learning/crash-course/glossary#test_set)，而不是训练集。为了公正地评估模型的效果，用于评估模型的样本务必与用于训练模型的样本不同。
+
+测试 `Dataset` 的建立与训练 `Dataset` 相似。下载 CSV 文本文件并解析相应的值，然后对数据稍加随机化处理：
+
+```py
+test_url = "https://storage.googleapis.com/download.tensorflow.org/data/iris_test.csv"
+
+test_fp = tf.keras.utils.get_file(fname=os.path.basename(test_url),
+                                  origin=test_url) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/iris_test.csv
+8192/573 [============================================================================================================================================================================================================================================================================================================================================================================================================================================] - 0s 0us/step
+
+```
+
+```py
+test_dataset = tf.data.experimental.make_csv_dataset(
+    test_fp,
+    batch_size,
+    column_names=column_names,
+    label_name='species',
+    num_epochs=1,
+    shuffle=False)
+
+test_dataset = test_dataset.map(pack_features_vector) 
+```
+
+### 根据测试数据集评估模型
+
+与训练阶段不同，模型仅评估测试数据的一个[周期](https://developers.google.cn/machine-learning/glossary/#epoch)。在以下代码单元格中，我们会遍历测试集中的每个样本，然后将模型的预测结果与实际标签进行比较。这是为了衡量模型在整个测试集中的准确率。
+
+```py
+test_accuracy = tf.keras.metrics.Accuracy()
+
+for (x, y) in test_dataset:
+  logits = model(x)
+  prediction = tf.argmax(logits, axis=1, output_type=tf.int32)
+  test_accuracy(prediction, y)
+
+print("Test set accuracy: {:.3%}".format(test_accuracy.result())) 
+```
+
+```py
+Test set accuracy: 96.667%
+
+```
+
+例如，我们可以看到对于最后一批数据，该模型通常预测正确：
+
+```py
+tf.stack([y,prediction],axis=1) 
+```
+
+```py
+<tf.Tensor: shape=(30, 2), dtype=int32, numpy=
+array([[1, 1],
+       [2, 2],
+       [0, 0],
+       [1, 1],
+       [1, 1],
+       [1, 1],
+       [0, 0],
+       [2, 2],
+       [1, 1],
+       [2, 2],
+       [2, 2],
+       [0, 0],
+       [2, 2],
+       [1, 1],
+       [1, 1],
+       [0, 0],
+       [1, 1],
+       [0, 0],
+       [0, 0],
+       [2, 2],
+       [0, 0],
+       [1, 1],
+       [2, 2],
+       [1, 2],
+       [1, 1],
+       [1, 1],
+       [0, 0],
+       [1, 1],
+       [2, 2],
+       [1, 1]], dtype=int32)>
+
+```
+
+## 使用经过训练的模型进行预测
+
+我们已经训练了一个模型并“证明”它是有效的，但在对鸢尾花品种进行分类方面，这还不够。现在，我们使用经过训练的模型对 [无标签样本](https://developers.google.cn/machine-learning/glossary/#unlabeled_example)（即包含特征但不包含标签的样本）进行一些预测。
+
+在现实生活中，无标签样本可能来自很多不同的来源，包括应用、CSV 文件和数据 Feed。暂时我们将手动提供三个无标签样本以预测其标签。回想一下，标签编号会映射到一个指定的表示法：
+
+*   `0`: 山鸢尾
+*   `1`: 变色鸢尾
+*   `2`: 维吉尼亚鸢尾
+
+```py
+predict_dataset = tf.convert_to_tensor([
+    [5.1, 3.3, 1.7, 0.5,],
+    [5.9, 3.0, 4.2, 1.5,],
+    [6.9, 3.1, 5.4, 2.1]
+])
+
+predictions = model(predict_dataset)
+
+for i, logits in enumerate(predictions):
+  class_idx = tf.argmax(logits).numpy()
+  p = tf.nn.softmax(logits)[class_idx]
+  name = class_names[class_idx]
+  print("Example {} prediction: {} ({:4.1f}%)".format(i, name, 100*p)) 
+```
+
+```py
+Example 0 prediction: Iris setosa (99.9%)
+Example 1 prediction: Iris versicolor (99.8%)
+Example 2 prediction: Iris virginica (99.6%)
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/033.md b/Tensorflow/TensorFlow2.0/033.md
new file mode 100644
index 00000000..dc3921ef
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/033.md
@@ -0,0 +1 @@
+# 分布式训练
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/034.md b/Tensorflow/TensorFlow2.0/034.md
new file mode 100644
index 00000000..acc35f3b
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/034.md
@@ -0,0 +1,450 @@
+# Keras 的分布式训练
+
+> 原文：[https://tensorflow.google.cn/tutorials/distribute/keras](https://tensorflow.google.cn/tutorials/distribute/keras)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+## 概述
+
+[`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) API 提供了一个抽象的 API ，用于跨多个处理单元（processing units）分布式训练。它的目的是允许用户使用现有模型和训练代码，只需要很少的修改，就可以启用分布式训练。
+
+本教程使用 [`tf.distribute.MirroredStrategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/MirroredStrategy)，这是在一台计算机上的多 GPU（单机多卡）进行同时训练的图形内复制（in-graph replication）。事实上，它会将所有模型的变量复制到每个处理器上，然后，通过使用 [all-reduce](http://mpitutorial.com/tutorials/mpi-reduce-and-allreduce/) 去整合所有处理器的梯度（gradients），并将整合的结果应用于所有副本之中。
+
+`MirroredStategy` 是 tensorflow 中可用的几种分发策略之一。 您可以在 [分发策略指南](https://tensorflow.google.cn/guide/distribute_strategy) 中阅读更多分发策略。
+
+### Keras API
+
+这个例子使用 [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) API 去构建和训练模型。 关于自定义训练模型，请参阅 [tf.distribute.Strategy with training loops](/tutorials/distribute/training_loops) 教程。
+
+## 导入依赖
+
+```py
+# 导入 TensorFlow 和 TensorFlow 数据集
+
+import tensorflow_datasets as tfds
+import tensorflow as tf
+tfds.disable_progress_bar()
+
+import os 
+```
+
+```py
+print(tf.__version__) 
+```
+
+```py
+2.3.0
+
+```
+
+## 下载数据集
+
+下载 MNIST 数据集并从 [TensorFlow Datasets](https://tensorflow.google.cn/datasets) 加载。 这会返回 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 格式的数据集。
+
+将 `with_info` 设置为 `True` 会包含整个数据集的元数据,其中这些数据集将保存在 `info` 中。 除此之外，该元数据对象包括训练和测试示例的数量。
+
+```py
+datasets, info = tfds.load(name='mnist', with_info=True, as_supervised=True)
+
+mnist_train, mnist_test = datasets['train'], datasets['test'] 
+```
+
+## 定义分配策略
+
+创建一个 `MirroredStrategy` 对象。这将处理分配策略，并提供一个上下文管理器（[`tf.distribute.MirroredStrategy.scope`](https://tensorflow.google.cn/api_docs/python/tf/distribute/MirroredStrategy#scope)）来构建你的模型。
+
+```py
+strategy = tf.distribute.MirroredStrategy() 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+```
+
+```py
+print('Number of devices: {}'.format(strategy.num_replicas_in_sync)) 
+```
+
+```py
+Number of devices: 1
+
+```
+
+## 设置输入管道（pipeline）
+
+在训练具有多个 GPU 的模型时，您可以通过增加批量大小（batch size）来有效地使用额外的计算能力。通常来说，使用适合 GPU 内存的最大批量大小（batch size），并相应地调整学习速率。
+
+```py
+# 您还可以执行 info.splits.total_num_examples 来获取总数
+# 数据集中的样例数量。
+
+num_train_examples = info.splits['train'].num_examples
+num_test_examples = info.splits['test'].num_examples
+
+BUFFER_SIZE = 10000
+
+BATCH_SIZE_PER_REPLICA = 64
+BATCH_SIZE = BATCH_SIZE_PER_REPLICA * strategy.num_replicas_in_sync 
+```
+
+0-255 的像素值， [必须标准化到 0-1 范围](https://en.wikipedia.org/wiki/Feature_scaling)。在函数中定义标准化。
+
+```py
+def scale(image, label):
+  image = tf.cast(image, tf.float32)
+  image /= 255
+
+  return image, label 
+```
+
+将此功能应用于训练和测试数据，随机打乱训练数据，并[批量训练](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#batch)。 请注意，我们还保留了训练数据的内存缓存以提高性能。
+
+```py
+train_dataset = mnist_train.map(scale).cache().shuffle(BUFFER_SIZE).batch(BATCH_SIZE)
+eval_dataset = mnist_test.map(scale).batch(BATCH_SIZE) 
+```
+
+## 生成模型
+
+在 `strategy.scope` 的上下文中创建和编译 Keras 模型。
+
+```py
+with strategy.scope():
+  model = tf.keras.Sequential([
+      tf.keras.layers.Conv2D(32, 3, activation='relu', input_shape=(28, 28, 1)),
+      tf.keras.layers.MaxPooling2D(),
+      tf.keras.layers.Flatten(),
+      tf.keras.layers.Dense(64, activation='relu'),
+      tf.keras.layers.Dense(10)
+  ])
+
+  model.compile(loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+                optimizer=tf.keras.optimizers.Adam(),
+                metrics=['accuracy']) 
+```
+
+## 定义回调（callback）
+
+这里使用的回调（callbacks）是：
+
+*   *TensorBoard*: 此回调（callbacks）为 TensorBoard 写入日志，允许您可视化图形。
+*   *Model Checkpoint*: 此回调（callbacks）在每个 epoch 后保存模型。
+*   *Learning Rate Scheduler*: 使用此回调（callbacks），您可以安排学习率在每个 epoch/batch 之后更改。
+
+为了便于说明，添加打印回调（callbacks）以在笔记本中显示*学习率*。
+
+```py
+# 定义检查点（checkpoint）目录以存储检查点（checkpoints）
+
+checkpoint_dir = './training_checkpoints'
+# 检查点（checkpoint）文件的名称
+checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt_{epoch}") 
+```
+
+```py
+# 衰减学习率的函数。
+# 您可以定义所需的任何衰减函数。
+def decay(epoch):
+  if epoch < 3:
+    return 1e-3
+  elif epoch >= 3 and epoch < 7:
+    return 1e-4
+  else:
+    return 1e-5 
+```
+
+```py
+# 在每个 epoch 结束时打印 LR 的回调（callbacks）。
+class PrintLR(tf.keras.callbacks.Callback):
+  def on_epoch_end(self, epoch, logs=None):
+    print('\nLearning rate for epoch {} is {}'.format(epoch + 1,
+                                                      model.optimizer.lr.numpy())) 
+```
+
+```py
+callbacks = [
+    tf.keras.callbacks.TensorBoard(log_dir='./logs'),
+    tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_prefix,
+                                       save_weights_only=True),
+    tf.keras.callbacks.LearningRateScheduler(decay),
+    PrintLR()
+] 
+```
+
+## 训练和评估
+
+在该部分，以普通的方式训练模型，在模型上调用 `fit` 并传入在教程开始时创建的数据集。 无论您是否分布式训练，此步骤都是相同的。
+
+```py
+model.fit(train_dataset, epochs=12, callbacks=callbacks) 
+```
+
+```py
+Epoch 1/12
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/data/ops/multi_device_iterator_ops.py:601: get_next_as_optional (from tensorflow.python.data.ops.iterator_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.data.Iterator.get_next_as_optional()` instead.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/data/ops/multi_device_iterator_ops.py:601: get_next_as_optional (from tensorflow.python.data.ops.iterator_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.data.Iterator.get_next_as_optional()` instead.
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+  1/938 [..............................] - ETA: 0s - loss: 2.3194 - accuracy: 0.0938WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/ops/summary_ops_v2.py:1277: stop (from tensorflow.python.eager.profiler) is deprecated and will be removed after 2020-07-01.
+Instructions for updating:
+use `tf.profiler.experimental.stop` instead.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/ops/summary_ops_v2.py:1277: stop (from tensorflow.python.eager.profiler) is deprecated and will be removed after 2020-07-01.
+Instructions for updating:
+use `tf.profiler.experimental.stop` instead.
+
+Warning:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0046s vs `on_train_batch_end` time: 0.0296s). Check your callbacks.
+
+Warning:tensorflow:Callbacks method `on_train_batch_end` is slow compared to the batch time (batch time: 0.0046s vs `on_train_batch_end` time: 0.0296s). Check your callbacks.
+
+932/938 [============================>.] - ETA: 0s - loss: 0.2055 - accuracy: 0.9422
+Learning rate for epoch 1 is 0.0010000000474974513
+938/938 [==============================] - 4s 5ms/step - loss: 0.2049 - accuracy: 0.9424
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+Epoch 2/12
+922/938 [============================>.] - ETA: 0s - loss: 0.0681 - accuracy: 0.9797
+Learning rate for epoch 2 is 0.0010000000474974513
+938/938 [==============================] - 3s 3ms/step - loss: 0.0680 - accuracy: 0.9798
+Epoch 3/12
+930/938 [============================>.] - ETA: 0s - loss: 0.0484 - accuracy: 0.9855
+Learning rate for epoch 3 is 0.0010000000474974513
+938/938 [==============================] - 3s 3ms/step - loss: 0.0484 - accuracy: 0.9855
+Epoch 4/12
+920/938 [============================>.] - ETA: 0s - loss: 0.0277 - accuracy: 0.9925
+Learning rate for epoch 4 is 9.999999747378752e-05
+938/938 [==============================] - 3s 3ms/step - loss: 0.0276 - accuracy: 0.9926
+Epoch 5/12
+931/938 [============================>.] - ETA: 0s - loss: 0.0248 - accuracy: 0.9935
+Learning rate for epoch 5 is 9.999999747378752e-05
+938/938 [==============================] - 3s 3ms/step - loss: 0.0247 - accuracy: 0.9936
+Epoch 6/12
+931/938 [============================>.] - ETA: 0s - loss: 0.0231 - accuracy: 0.9938
+Learning rate for epoch 6 is 9.999999747378752e-05
+938/938 [==============================] - 3s 3ms/step - loss: 0.0230 - accuracy: 0.9938
+Epoch 7/12
+936/938 [============================>.] - ETA: 0s - loss: 0.0217 - accuracy: 0.9941
+Learning rate for epoch 7 is 9.999999747378752e-05
+938/938 [==============================] - 3s 3ms/step - loss: 0.0216 - accuracy: 0.9941
+Epoch 8/12
+932/938 [============================>.] - ETA: 0s - loss: 0.0189 - accuracy: 0.9952
+Learning rate for epoch 8 is 9.999999747378752e-06
+938/938 [==============================] - 3s 3ms/step - loss: 0.0189 - accuracy: 0.9952
+Epoch 9/12
+932/938 [============================>.] - ETA: 0s - loss: 0.0188 - accuracy: 0.9953
+Learning rate for epoch 9 is 9.999999747378752e-06
+938/938 [==============================] - 3s 3ms/step - loss: 0.0187 - accuracy: 0.9953
+Epoch 10/12
+932/938 [============================>.] - ETA: 0s - loss: 0.0185 - accuracy: 0.9953
+Learning rate for epoch 10 is 9.999999747378752e-06
+938/938 [==============================] - 3s 3ms/step - loss: 0.0185 - accuracy: 0.9953
+Epoch 11/12
+934/938 [============================>.] - ETA: 0s - loss: 0.0183 - accuracy: 0.9953
+Learning rate for epoch 11 is 9.999999747378752e-06
+938/938 [==============================] - 3s 3ms/step - loss: 0.0184 - accuracy: 0.9953
+Epoch 12/12
+931/938 [============================>.] - ETA: 0s - loss: 0.0183 - accuracy: 0.9954
+Learning rate for epoch 12 is 9.999999747378752e-06
+938/938 [==============================] - 3s 3ms/step - loss: 0.0182 - accuracy: 0.9955
+
+<tensorflow.python.keras.callbacks.History at 0x7fe470118978>
+
+```
+
+如下所示，检查点（checkpoint）将被保存。
+
+```py
+# 检查检查点（checkpoint）目录
+ls {checkpoint_dir}
+
+```
+
+```py
+checkpoint           ckpt_4.data-00000-of-00001
+ckpt_1.data-00000-of-00001   ckpt_4.index
+ckpt_1.index             ckpt_5.data-00000-of-00001
+ckpt_10.data-00000-of-00001  ckpt_5.index
+ckpt_10.index            ckpt_6.data-00000-of-00001
+ckpt_11.data-00000-of-00001  ckpt_6.index
+ckpt_11.index            ckpt_7.data-00000-of-00001
+ckpt_12.data-00000-of-00001  ckpt_7.index
+ckpt_12.index            ckpt_8.data-00000-of-00001
+ckpt_2.data-00000-of-00001   ckpt_8.index
+ckpt_2.index             ckpt_9.data-00000-of-00001
+ckpt_3.data-00000-of-00001   ckpt_9.index
+ckpt_3.index
+
+```
+
+要查看模型的执行方式，请加载最新的检查点（checkpoint）并在测试数据上调用 `evaluate` 。
+
+使用适当的数据集调用 `evaluate` 。
+
+```py
+model.load_weights(tf.train.latest_checkpoint(checkpoint_dir))
+
+eval_loss, eval_acc = model.evaluate(eval_dataset)
+
+print('Eval loss: {}, Eval Accuracy: {}'.format(eval_loss, eval_acc)) 
+```
+
+```py
+157/157 [==============================] - 1s 6ms/step - loss: 0.0399 - accuracy: 0.9861
+Eval loss: 0.03988004848361015, Eval Accuracy: 0.9861000180244446
+
+```
+
+要查看输出，您可以在终端下载并查看 TensorBoard 日志。
+
+```py
+$ tensorboard --logdir=path/to/log-directory 
+```
+
+```py
+ls -sh ./logs
+
+```
+
+```py
+total 4.0K
+4.0K train
+
+```
+
+## 导出到 SavedModel
+
+将图形和变量导出为与平台无关的 SavedModel 格式。 保存模型后，可以在有或没有 scope 的情况下加载模型。
+
+```py
+path = 'saved_model/' 
+```
+
+```py
+model.save(path, save_format='tf') 
+```
+
+```py
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+INFO:tensorflow:Assets written to: saved_model/assets
+
+INFO:tensorflow:Assets written to: saved_model/assets
+
+```
+
+在无需 `strategy.scope` 加载模型。
+
+```py
+unreplicated_model = tf.keras.models.load_model(path)
+
+unreplicated_model.compile(
+    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+    optimizer=tf.keras.optimizers.Adam(),
+    metrics=['accuracy'])
+
+eval_loss, eval_acc = unreplicated_model.evaluate(eval_dataset)
+
+print('Eval loss: {}, Eval Accuracy: {}'.format(eval_loss, eval_acc)) 
+```
+
+```py
+157/157 [==============================] - 1s 3ms/step - loss: 0.0399 - accuracy: 0.9861
+Eval loss: 0.03988004848361015, Eval Accuracy: 0.9861000180244446
+
+```
+
+在含 `strategy.scope` 加载模型。
+
+```py
+with strategy.scope():
+  replicated_model = tf.keras.models.load_model(path)
+  replicated_model.compile(loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+                           optimizer=tf.keras.optimizers.Adam(),
+                           metrics=['accuracy'])
+
+  eval_loss, eval_acc = replicated_model.evaluate(eval_dataset)
+  print ('Eval loss: {}, Eval Accuracy: {}'.format(eval_loss, eval_acc)) 
+```
+
+```py
+157/157 [==============================] - 1s 5ms/step - loss: 0.0399 - accuracy: 0.9861
+Eval loss: 0.03988004848361015, Eval Accuracy: 0.9861000180244446
+
+```
+
+### 示例和教程
+
+以下是使用 keras fit/compile 分布式策略的一些示例：
+
+1.  使用[`tf.distribute.MirroredStrategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/MirroredStrategy) 训练 [Transformer](https://github.com/tensorflow/models/blob/master/official/nlp/transformer/transformer_main.py) 的示例。
+2.  使用[`tf.distribute.MirroredStrategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/MirroredStrategy) 训练 [NCF](https://github.com/tensorflow/models/blob/master/official/recommendation/ncf_keras_main.py) 的示例。
+
+[分布式策略指南](https://tensorflow.google.cn/guide/distribute_strategy#examples_and_tutorials)中列出的更多示例
+
+## 下一步
+
+*   阅读[分布式策略指南](https://tensorflow.google.cn/guide/distribute_strategy)。
+*   阅读[自定义训练的分布式训练](/tutorials/distribute/training_loops)教程。
+
+注意：[`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 正在积极开发中，我们将在不久的将来添加更多示例和教程。欢迎您进行尝试。我们欢迎您通过 [GitHub 上的 issue](https://github.com/tensorflow/tensorflow/issues/new) 提供反馈。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/035.md b/Tensorflow/TensorFlow2.0/035.md
new file mode 100644
index 00000000..8534fb4a
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/035.md
@@ -0,0 +1,447 @@
+# 使用 tf.distribute.Strategy 进行自定义训练
+
+> 原文：[https://tensorflow.google.cn/tutorials/distribute/custom_training](https://tensorflow.google.cn/tutorials/distribute/custom_training)
+
+本教程演示了如何使用 [`tf.distribute.Strategy`](https://tensorflow.google.cn/guide/distribute_strategy) 来进行自定义训练循环。 我们将在流行的 MNIST 数据集上训练一个简单的 CNN 模型。 流行的 MNIST 数据集包含了 60000 张尺寸为 28 x 28 的训练图像和 10000 张尺寸为 28 x 28 的测试图像。
+
+我们用自定义训练循环来训练我们的模型是因为它们在训练的过程中为我们提供了灵活性和在训练过程中更好的控制。而且，使它们调试模型和训练循环的时候更容易。
+
+```py
+# 导入 TensorFlow
+import tensorflow as tf
+
+# 帮助库
+import numpy as np
+import os
+
+print(tf.__version__) 
+```
+
+```py
+2.3.0
+
+```
+
+## 下载流行的 MNIST 数据集
+
+```py
+fashion_mnist = tf.keras.datasets.fashion_mnist
+
+(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()
+
+# 向数组添加维度 -> 新的维度 == (28, 28, 1)
+# 我们这样做是因为我们模型中的第一层是卷积层
+# 而且它需要一个四维的输入 (批大小, 高, 宽, 通道).
+# 批大小维度稍后将添加。
+train_images = train_images[..., None]
+test_images = test_images[..., None]
+
+# 获取[0,1]范围内的图像。
+train_images = train_images / np.float32(255)
+test_images = test_images / np.float32(255) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
+32768/29515 [=================================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
+26427392/26421880 [==============================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
+8192/5148 [===============================================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
+4423680/4422102 [==============================] - 0s 0us/step
+
+```
+
+## 创建一个分发变量和图形的策略
+
+[`tf.distribute.MirroredStrategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/MirroredStrategy) 策略是如何运作的？
+
+*   所有变量和模型图都复制在副本上。
+*   输入都均匀分布在副本中。
+*   每个副本在收到输入后计算输入的损失和梯度。
+*   通过求和，每一个副本上的梯度都能同步。
+*   同步后，每个副本上的复制的变量都可以同样更新。
+
+注意：您可以将下面的所有代码放在一个单独单元内。 我们将它分成几个代码单元用于说明目的。
+
+```py
+# 如果设备未在 `tf.distribute.MirroredStrategy` 的指定列表中，它会被自动检测到。
+strategy = tf.distribute.MirroredStrategy() 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+```
+
+```py
+print ('Number of devices: {}'.format(strategy.num_replicas_in_sync)) 
+```
+
+```py
+Number of devices: 1
+
+```
+
+## 设置输入流水线
+
+将图形和变量导出成平台不可识别的 SavedModel 格式。在你的模型保存后，你可以在有或没有范围的情况下载入它。
+
+```py
+BUFFER_SIZE = len(train_images)
+
+BATCH_SIZE_PER_REPLICA = 64
+GLOBAL_BATCH_SIZE = BATCH_SIZE_PER_REPLICA * strategy.num_replicas_in_sync
+
+EPOCHS = 10 
+```
+
+创建数据集并分发它们：
+
+```py
+train_dataset = tf.data.Dataset.from_tensor_slices((train_images, train_labels)).shuffle(BUFFER_SIZE).batch(GLOBAL_BATCH_SIZE) 
+test_dataset = tf.data.Dataset.from_tensor_slices((test_images, test_labels)).batch(GLOBAL_BATCH_SIZE) 
+
+train_dist_dataset = strategy.experimental_distribute_dataset(train_dataset)
+test_dist_dataset = strategy.experimental_distribute_dataset(test_dataset) 
+```
+
+## 创建模型
+
+使用 [`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) 创建一个模型。你也可以使用模型子类化 API 来完成这个。
+
+```py
+def create_model():
+  model = tf.keras.Sequential([
+      tf.keras.layers.Conv2D(32, 3, activation='relu'),
+      tf.keras.layers.MaxPooling2D(),
+      tf.keras.layers.Conv2D(64, 3, activation='relu'),
+      tf.keras.layers.MaxPooling2D(),
+      tf.keras.layers.Flatten(),
+      tf.keras.layers.Dense(64, activation='relu'),
+      tf.keras.layers.Dense(10, activation='softmax')
+    ])
+
+  return model 
+```
+
+```py
+# 创建检查点目录以存储检查点。
+checkpoint_dir = './training_checkpoints'
+checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt") 
+```
+
+## 定义损失函数
+
+通常，在一台只有一个 GPU / CPU 的机器上，损失需要除去输入批量中的示例数。
+
+*那么，使用 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 时应该如何计算损失？*
+
+*   举一个例子，假设您有 4 个 GPU，批量大小为 64\. 输入的一个批次分布在各个副本（4 个 GPU）上，每个副本获得的输入大小为 16。
+
+*   每个副本上的模型使用其各自的输入执行正向传递并计算损失。 现在，相较于将损耗除以其各自输入中的示例数（BATCH_SIZE_PER_REPLICA = 16），应将损失除以 GLOBAL_BATCH_SIZE（64）。
+
+*为什么这样做？*
+
+*   需要这样做是因为在每个副本上计算梯度之后，它们通过 **summing** 来使得在自身在各个副本之间同步。
+
+*如何在 TensorFlow 中执行此操作？*
+
+*   如果您正在编写自定义训练循环，如本教程中所示，您应该将每个示例损失相加并将总和除以 GLOBAL_BATCH_SIZE ： `scale_loss = tf.reduce_sum(loss) * (1\. / GLOBAL_BATCH_SIZE)` 或者你可以使用`tf.nn.compute_average_loss` 来获取每个示例的损失，可选的样本权重，将 GLOBAL_BATCH_SIZE 作为参数，并返回缩放的损失。
+
+*   如果您在模型中使用正则化损失，则需要进行缩放多个副本的损失。 您可以使用[`tf.nn.scale_regularization_loss`](https://tensorflow.google.cn/api_docs/python/tf/nn/scale_regularization_loss)函数执行此操作。
+
+*   建议不要使用[`tf.reduce_mean`](https://tensorflow.google.cn/api_docs/python/tf/math/reduce_mean)。 这样做会将损失除以实际的每个副本中每一步都会改变的批次大小。
+
+*   这种缩小和缩放是在 keras 中 `modelcompile`和`model.fit`中自动完成的
+
+*   如果使用[`tf.keras.losses`](https://tensorflow.google.cn/api_docs/python/tf/keras/losses)类（如下面这个例子所示），则需要将损失减少明确指定为“NONE”或者“SUM”。 使用 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 时，`AUTO`和`SUM_OVER_BATCH_SIZE` 是不能使用的。 不能使用 `AUTO` 是因为用户应明确考虑到在分布式情况下他们想做的哪些减少是正确的。不能使用`SUM_OVER_BATCH_SIZE`是因为目前它只按每个副本批次大小进行划分，并按照用户的副本数进行划分，这导致了它们很容易丢失。 因此，我们要求用户要明确这些减少。
+
+```py
+with strategy.scope():
+  # 将减少设置为“无”，以便我们可以在之后进行这个减少并除以全局批量大小。
+  loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
+      reduction=tf.keras.losses.Reduction.NONE)
+  # 或者使用 loss_fn = tf.keras.losses.sparse_categorical_crossentropy
+  def compute_loss(labels, predictions):
+    per_example_loss = loss_object(labels, predictions)
+    return tf.nn.compute_average_loss(per_example_loss, global_batch_size=GLOBAL_BATCH_SIZE) 
+```
+
+## 定义衡量指标以跟踪损失和准确性
+
+这些指标可以跟踪测试的损失，训练和测试的准确性。 您可以使用`.result()`随时获取累积的统计信息。
+
+```py
+with strategy.scope():
+  test_loss = tf.keras.metrics.Mean(name='test_loss')
+
+  train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
+      name='train_accuracy')
+  test_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
+      name='test_accuracy') 
+```
+
+## 训练循环
+
+```py
+# 必须在`strategy.scope`下创建模型和优化器。
+with strategy.scope():
+  model = create_model()
+
+  optimizer = tf.keras.optimizers.Adam()
+
+  checkpoint = tf.train.Checkpoint(optimizer=optimizer, model=model) 
+```
+
+```py
+with strategy.scope():
+  def train_step(inputs):
+    images, labels = inputs
+
+    with tf.GradientTape() as tape:
+      predictions = model(images, training=True)
+      loss = compute_loss(labels, predictions)
+
+    gradients = tape.gradient(loss, model.trainable_variables)
+    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
+
+    train_accuracy.update_state(labels, predictions)
+    return loss 
+
+  def test_step(inputs):
+    images, labels = inputs
+
+    predictions = model(images, training=False)
+    t_loss = loss_object(labels, predictions)
+
+    test_loss.update_state(t_loss)
+    test_accuracy.update_state(labels, predictions) 
+```
+
+```py
+with strategy.scope():
+  # `experimental_run_v2`将复制提供的计算并使用分布式输入运行它。
+  @tf.function
+  def distributed_train_step(dataset_inputs):
+    per_replica_losses = strategy.experimental_run_v2(train_step,
+                                                      args=(dataset_inputs,))
+    return strategy.reduce(tf.distribute.ReduceOp.SUM, per_replica_losses,
+                           axis=None)
+
+  @tf.function
+  def distributed_test_step(dataset_inputs):
+    return strategy.experimental_run_v2(test_step, args=(dataset_inputs,))
+
+  for epoch in range(EPOCHS):
+    # 训练循环
+    total_loss = 0.0
+    num_batches = 0
+    for x in train_dist_dataset:
+      total_loss += distributed_train_step(x)
+      num_batches += 1
+    train_loss = total_loss / num_batches
+
+    # 测试循环
+    for x in test_dist_dataset:
+      distributed_test_step(x)
+
+    if epoch % 2 == 0:
+      checkpoint.save(checkpoint_prefix)
+
+    template = ("Epoch {}, Loss: {}, Accuracy: {}, Test Loss: {}, "
+                "Test Accuracy: {}")
+    print (template.format(epoch+1, train_loss,
+                           train_accuracy.result()*100, test_loss.result(),
+                           test_accuracy.result()*100))
+
+    test_loss.reset_states()
+    train_accuracy.reset_states()
+    test_accuracy.reset_states() 
+```
+
+```py
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/data/ops/multi_device_iterator_ops.py:601: get_next_as_optional (from tensorflow.python.data.ops.iterator_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.data.Iterator.get_next_as_optional()` instead.
+WARNING:tensorflow:From <ipython-input-1-6439d0e9d271>:5: StrategyBase.experimental_run_v2 (from tensorflow.python.distribute.distribute_lib) is deprecated and will be removed in a future version.
+Instructions for updating:
+renamed to `run`
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+Epoch 1, Loss: 0.5272247791290283, Accuracy: 80.95500183105469, Test Loss: 0.39799919724464417, Test Accuracy: 86.08000183105469
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+Epoch 2, Loss: 0.3536641597747803, Accuracy: 87.19000244140625, Test Loss: 0.3652512729167938, Test Accuracy: 86.79999542236328
+Epoch 3, Loss: 0.30651605129241943, Accuracy: 88.96333312988281, Test Loss: 0.35199666023254395, Test Accuracy: 86.76000213623047
+Epoch 4, Loss: 0.2756423354148865, Accuracy: 89.99333190917969, Test Loss: 0.2974560558795929, Test Accuracy: 89.1500015258789
+Epoch 5, Loss: 0.24928639829158783, Accuracy: 90.86833953857422, Test Loss: 0.28945034742355347, Test Accuracy: 89.31999969482422
+Epoch 6, Loss: 0.22822219133377075, Accuracy: 91.66999816894531, Test Loss: 0.2690503001213074, Test Accuracy: 90.13999938964844
+Epoch 7, Loss: 0.21215270459651947, Accuracy: 92.19833374023438, Test Loss: 0.2673594057559967, Test Accuracy: 90.37000274658203
+Epoch 8, Loss: 0.19466665387153625, Accuracy: 92.86500549316406, Test Loss: 0.280720591545105, Test Accuracy: 90.36000061035156
+Epoch 9, Loss: 0.1819683462381363, Accuracy: 93.4000015258789, Test Loss: 0.2655133008956909, Test Accuracy: 90.54000091552734
+Epoch 10, Loss: 0.16936612129211426, Accuracy: 93.711669921875, Test Loss: 0.26561689376831055, Test Accuracy: 90.55999755859375
+
+```
+
+以上示例中需要注意的事项：
+
+*   我们使用`for x in ...`迭代构造`train_dist_dataset`和`test_dist_dataset`。
+*   缩放损失是`distributed_train_step`的返回值。 这个值会在各个副本使用[`tf.distribute.Strategy.reduce`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#reduce)的时候合并，然后通过[`tf.distribute.Strategy.reduce`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#reduce)叠加各个返回值来跨批次。
+*   在执行`tf.distribute.Strategy.experimental_run_v2`时，`tf.keras.Metrics`应在`train_step`和`test_step`中更新。
+*   `tf.distribute.Strategy.experimental_run_v2`返回策略中每个本地副本的结果，并且有多种方法可以处理此结果。 您可以执行[`tf.distribute.Strategy.reduce`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#reduce)来获取汇总值。 您还可以执行[`tf.distribute.Strategy.experimental_local_results`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#experimental_local_results)来获取每个本地副本中结果中包含的值列表。
+
+## 恢复最新的检查点并进行测试
+
+一个模型使用了[`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy)的检查点可以使用策略或者不使用策略进行恢复。
+
+```py
+eval_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
+      name='eval_accuracy')
+
+new_model = create_model()
+new_optimizer = tf.keras.optimizers.Adam()
+
+test_dataset = tf.data.Dataset.from_tensor_slices((test_images, test_labels)).batch(GLOBAL_BATCH_SIZE) 
+```
+
+```py
+@tf.function
+def eval_step(images, labels):
+  predictions = new_model(images, training=False)
+  eval_accuracy(labels, predictions) 
+```
+
+```py
+checkpoint = tf.train.Checkpoint(optimizer=new_optimizer, model=new_model)
+checkpoint.restore(tf.train.latest_checkpoint(checkpoint_dir))
+
+for images, labels in test_dataset:
+  eval_step(images, labels)
+
+print ('Accuracy after restoring the saved model without strategy: {}'.format(
+    eval_accuracy.result()*100)) 
+```
+
+```py
+Accuracy after restoring the saved model without strategy: 90.54000091552734
+
+```
+
+## 迭代一个数据集的替代方法
+
+### 使用迭代器
+
+如果你想要迭代一个已经给定步骤数量而不需要整个遍历的数据集，你可以创建一个迭代器并在迭代器上调用`iter`和显式调用`next`。 您可以选择在 tf.function 内部和外部迭代数据集。 这是一个小片段，演示了使用迭代器在 tf.function 外部迭代数据集。
+
+```py
+with strategy.scope():
+  for _ in range(EPOCHS):
+    total_loss = 0.0
+    num_batches = 0
+    train_iter = iter(train_dist_dataset)
+
+    for _ in range(10):
+      total_loss += distributed_train_step(next(train_iter))
+      num_batches += 1
+    average_train_loss = total_loss / num_batches
+
+    template = ("Epoch {}, Loss: {}, Accuracy: {}")
+    print (template.format(epoch+1, average_train_loss, train_accuracy.result()*100))
+    train_accuracy.reset_states() 
+```
+
+```py
+Epoch 10, Loss: 0.17099234461784363, Accuracy: 93.75
+Epoch 10, Loss: 0.12641692161560059, Accuracy: 95.9375
+Epoch 10, Loss: 0.11636483669281006, Accuracy: 96.09375
+Epoch 10, Loss: 0.1404765546321869, Accuracy: 95.0
+Epoch 10, Loss: 0.16838286817073822, Accuracy: 92.5
+Epoch 10, Loss: 0.1905607134103775, Accuracy: 93.125
+Epoch 10, Loss: 0.12706035375595093, Accuracy: 95.78125
+Epoch 10, Loss: 0.14852401614189148, Accuracy: 93.59375
+Epoch 10, Loss: 0.11990274488925934, Accuracy: 95.9375
+Epoch 10, Loss: 0.1237613782286644, Accuracy: 95.9375
+
+```
+
+### 在 tf.function 中迭代
+
+您还可以使用`for x in ...`构造在 tf.function 内部迭代整个输入`train_dist_dataset`，或者像上面那样创建迭代器。下面的例子演示了在 tf.function 中包装一个 epoch 并在功能内迭代`train_dist_dataset`。
+
+```py
+with strategy.scope():
+  @tf.function
+  def distributed_train_epoch(dataset):
+    total_loss = 0.0
+    num_batches = 0
+    for x in dataset:
+      per_replica_losses = strategy.experimental_run_v2(train_step,
+                                                        args=(x,))
+      total_loss += strategy.reduce(
+        tf.distribute.ReduceOp.SUM, per_replica_losses, axis=None)
+      num_batches += 1
+    return total_loss / tf.cast(num_batches, dtype=tf.float32)
+
+  for epoch in range(EPOCHS):
+    train_loss = distributed_train_epoch(train_dist_dataset)
+
+    template = ("Epoch {}, Loss: {}, Accuracy: {}")
+    print (template.format(epoch+1, train_loss, train_accuracy.result()*100))
+
+    train_accuracy.reset_states() 
+```
+
+```py
+Epoch 1, Loss: 0.1545342057943344, Accuracy: 94.34666442871094
+Epoch 2, Loss: 0.14368833601474762, Accuracy: 94.76666259765625
+Epoch 3, Loss: 0.13302761316299438, Accuracy: 95.22833251953125
+Epoch 4, Loss: 0.12302733212709427, Accuracy: 95.51499938964844
+Epoch 5, Loss: 0.11504675447940826, Accuracy: 95.7300033569336
+Epoch 6, Loss: 0.10611504316329956, Accuracy: 96.02000427246094
+Epoch 7, Loss: 0.09776321798563004, Accuracy: 96.3566665649414
+Epoch 8, Loss: 0.0923474133014679, Accuracy: 96.54166412353516
+Epoch 9, Loss: 0.08583918958902359, Accuracy: 96.85833740234375
+Epoch 10, Loss: 0.0784970372915268, Accuracy: 97.12332916259766
+
+```
+
+### 跟踪副本中的训练的损失
+
+注意：作为通用的规则，您应该使用`tf.keras.Metrics`来跟踪每个样本的值以避免它们在副本中合并。
+
+我们 *不* 建议使用[`tf.metrics.Mean`](https://tensorflow.google.cn/api_docs/python/tf/keras/metrics/Mean) 来跟踪不同副本的训练损失，因为在执行过程中会进行损失缩放计算。
+
+例如，如果您运行具有以下特点的训练作业：
+
+*   两个副本
+*   在每个副本上处理两个例子
+*   产生的损失值：每个副本为[2,3]和[4,5]
+*   全局批次大小 = 4
+
+通过损失缩放，您可以通过添加损失值来计算每个副本上的每个样本的损失值，然后除以全局批量大小。 在这种情况下：`（2 + 3）/ 4 = 1.25`和`（4 + 5）/ 4 = 2.25`。
+
+如果您使用 [`tf.metrics.Mean`](https://tensorflow.google.cn/api_docs/python/tf/keras/metrics/Mean) 来跟踪两个副本的损失，结果会有所不同。 在这个例子中，你最终得到一个`total`为 3.50 和`count`为 2 的结果，当调用`result（）`时，你将得到`total` /`count` = 1.75。 使用`tf.keras.Metrics`计算损失时会通过一个等于同步副本数量的额外因子来缩放。
+
+### 例子和教程
+
+以下是一些使用自定义训练循环来分发策略的示例：
+
+1.  [教程](/tutorials/distribute/training_loops) 使用 `MirroredStrategy` 来训练 MNIST 。
+2.  [DenseNet](https://github.com/tensorflow/examples/blob/master/tensorflow_examples/models/densenet/distributed_train.py) 使用 `MirroredStrategy`的例子。
+3.  [BERT](https://github.com/tensorflow/models/blob/master/official/nlp/bert/run_classifier.py) 使用 `MirroredStrategy` 和`TPUStrategy`来训练的例子。 此示例对于了解如何在分发训练过程中如何载入一个检测点和定期生成检查点特别有帮助。
+4.  [NCF](https://github.com/tensorflow/models/blob/master/official/recommendation/ncf_keras_main.py) 使用 `MirroredStrategy` 来启用 `keras_use_ctl` 标记。
+5.  [NMT](https://github.com/tensorflow/examples/blob/master/tensorflow_examples/models/nmt_with_attention/distributed_train.py) 使用 `MirroredStrategy`来训练的例子。
+
+更多的例子列在 [分发策略指南](https://tensorflow.google.cn/guide/distribute_strategy#examples_and_tutorials)。
+
+## 下一步
+
+在你的模型上尝试新的[`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) API。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/036.md b/Tensorflow/TensorFlow2.0/036.md
new file mode 100644
index 00000000..a76b5bda
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/036.md
@@ -0,0 +1,265 @@
+# 利用 Keras 来训练多工作器（worker）
+
+> 原文：[https://tensorflow.google.cn/tutorials/distribute/multi_worker_with_keras](https://tensorflow.google.cn/tutorials/distribute/multi_worker_with_keras)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+## 概述
+
+本教程使用 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) API 演示了使用 Keras 模型的多工作器（worker）分布式培训。借助专为多工作器（worker）训练而设计的策略，设计在单一工作器（worker）上运行的 Keras 模型可以在最少的代码更改的情况下无缝地处理多个工作器。
+
+[TensorFlow 中的分布式培训](https://tensorflow.google.cn/guide/distribute_strategy)指南可用于概述 TensorFlow 支持的分布式策略，并想要更深入理解[`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) API 感兴趣的人。
+
+## 配置
+
+首先，设置 TensorFlow 和必要的导入。
+
+```py
+!pip install -q tf-nightly
+import tensorflow_datasets as tfds
+import tensorflow as tf
+tfds.disable_progress_bar() 
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+## 准备数据集
+
+现在，让我们从 [TensorFlow 数据集](https://tensorflow.google.cn/datasets) 中准备 MNIST 数据集。 [MNIST 数据集](http://yann.lecun.com/exdb/mnist/) 包括 60,000 个训练样本和 10,000 个手写数字 0-9 的测试示例，格式为 28x28 像素单色图像。
+
+```py
+BUFFER_SIZE = 10000
+BATCH_SIZE = 64
+
+def make_datasets_unbatched():
+  # 将 MNIST 数据从 (0, 255] 缩放到 (0., 1.]
+  def scale(image, label):
+    image = tf.cast(image, tf.float32)
+    image /= 255
+    return image, label
+
+  datasets, info = tfds.load(name='mnist',
+                            with_info=True,
+                            as_supervised=True)
+
+  return datasets['train'].map(scale).cache().shuffle(BUFFER_SIZE)
+
+train_datasets = make_datasets_unbatched().batch(BATCH_SIZE) 
+```
+
+## 构建 Keras 模型
+
+在这里，我们使用[`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) API 来构建和编译一个简单的卷积神经网络 Keras 模型，用我们的 MNIST 数据集进行训练。
+
+注意：有关构建 Keras 模型的详细训练说明，请参阅[TensorFlow Keras 指南](https://tensorflow.google.cn/guide/keras#sequential_model)。
+
+```py
+def build_and_compile_cnn_model():
+  model = tf.keras.Sequential([
+      tf.keras.layers.Conv2D(32, 3, activation='relu', input_shape=(28, 28, 1)),
+      tf.keras.layers.MaxPooling2D(),
+      tf.keras.layers.Flatten(),
+      tf.keras.layers.Dense(64, activation='relu'),
+      tf.keras.layers.Dense(10)
+  ])
+  model.compile(
+      loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+      optimizer=tf.keras.optimizers.SGD(learning_rate=0.001),
+      metrics=['accuracy'])
+  return model 
+```
+
+让我们首先尝试用少量的 epoch 来训练模型，并在单个工作器（worker）中观察结果，以确保一切正常。 随着训练的迭代，您应该会看到损失（loss）下降和准确度（accuracy）接近 1.0。
+
+```py
+single_worker_model = build_and_compile_cnn_model()
+single_worker_model.fit(x=train_datasets, epochs=3, steps_per_epoch=5) 
+```
+
+```py
+Epoch 1/3
+5/5 [==============================] - 1s 15ms/step - loss: 2.3390 - accuracy: 0.0211
+Epoch 2/3
+5/5 [==============================] - 0s 14ms/step - loss: 2.3315 - accuracy: 0.0368
+Epoch 3/3
+5/5 [==============================] - 0s 13ms/step - loss: 2.3271 - accuracy: 0.0484
+
+<tensorflow.python.keras.callbacks.History at 0x7fb5d055e358>
+
+```
+
+## 多工作器（worker）配置
+
+现在让我们进入多工作器（worker)训练的世界。在 TensorFlow 中，需要 `TF_CONFIG` 环境变量来训练多台机器，每台机器可能具有不同的角色。 `TF_CONFIG`用于指定作为集群一部分的每个 worker 的集群配置。
+
+`TF_CONFIG` 有两个组件：`cluster` 和 `task` 。 `cluster` 提供有关训练集群的信息，这是一个由不同类型的工作组成的字典，例如 `worker` 。在多工作器（worker）培训中，除了常规的“工作器”之外，通常还有一个“工人”承担更多责任，比如保存检查点和为 TensorBoard 编写摘要文件。这样的工作器（worker）被称为“主要”工作者，习惯上`worker` 中 `index` 0 被指定为主要的 `worker`（事实上这就是[`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy)的实现方式）。 另一方面，`task` 提供当前任务的信息。
+
+在这个例子中，我们将任务 `type` 设置为 `"worker"` 并将任务 `index` 设置为 `0` 。这意味着具有这种设置的机器是第一个工作器，它将被指定为主要工作器并且要比其他工作器做更多的工作。请注意，其他机器也需要设置 `TF_CONFIG` 环境变量，它应该具有相同的 `cluster` 字典，但是不同的任务`type` 或 `index` 取决于这些机器的角色。
+
+为了便于说明，本教程展示了如何在 `localhost` 上设置一个带有 2 个工作器的`TF_CONFIG`。 实际上，用户会在外部 IP 地址/端口上创建多个工作器，并在每个工作器上适当地设置`TF_CONFIG`。
+
+警告：不要在 Colab 中执行以下代码。TensorFlow 的运行时将尝试在指定的 IP 地址和端口创建 gRPC 服务器，这可能会失败。
+
+```py
+os.environ['TF_CONFIG'] = json.dumps({
+    'cluster': {
+        'worker': ["localhost:12345", "localhost:23456"]
+    },
+    'task': {'type': 'worker', 'index': 0}
+}) 
+```
+
+注意，虽然在该示例中学习速率是固定的，但是通常可能需要基于全局批量大小来调整学习速率。
+
+## 选择正确的策略
+
+在 TensorFlow 中，分布式训练包括同步训练（其中训练步骤跨工作器和副本同步）、异步训练（训练步骤未严格同步）。
+
+`MultiWorkerMirroredStrategy` 是同步多工作器训练的推荐策略，将在本指南中进行演示。
+
+要训练模型，请使用 [`tf.distribute.experimental.MultiWorkerMirroredStrategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/experimental/MultiWorkerMirroredStrategy) 的实例。 `MultiWorkerMirroredStrategy` 在所有工作器的每台设备上创建模型层中所有变量的副本。 它使用 `CollectiveOps` ，一个用于集体通信的 TensorFlow 操作，来聚合梯度并使变量保持同步。 [`tf.distribute.Strategy`指南](https://tensorflow.google.cn/guide/distribute_strategy)有关于此策略的更多详细信息。
+
+```py
+strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy() 
+```
+
+```py
+WARNING:tensorflow:Collective ops is not configured at program startup. Some performance features may not be enabled.
+
+Warning:tensorflow:Collective ops is not configured at program startup. Some performance features may not be enabled.
+
+INFO:tensorflow:Using MirroredStrategy with devices ('/device:CPU:0',)
+
+INFO:tensorflow:Using MirroredStrategy with devices ('/device:CPU:0',)
+
+INFO:tensorflow:Single-worker MultiWorkerMirroredStrategy with local_devices = ('/device:CPU:0',), communication = CollectiveCommunication.AUTO
+
+INFO:tensorflow:Single-worker MultiWorkerMirroredStrategy with local_devices = ('/device:CPU:0',), communication = CollectiveCommunication.AUTO
+
+```
+
+注意：解析 `TF_CONFIG` 并且在调用 [`MultiWorkerMirroredStrategy.**init**()`](https://tensorflow.google.cn/api_docs/python/tf/distribute/experimental/MultiWorkerMirroredStrategy#__init__) 时启动 TensorFlow 的 GRPC 服务器，因此必须在创建[`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy)实例之前设置 `TF_CONFIG` 环境变量。
+
+`MultiWorkerMirroredStrategy` 通过[`CollectiveCommunication`](https://github.com/tensorflow/tensorflow/blob/a385a286a930601211d78530734368ccb415bee4/tensorflow/python/distribute/cross_device_ops.py#L928)参数提供多个实现。`RING` 使用 gRPC 作为跨主机通信层实现基于环的集合。`NCCL` 使用[Nvidia 的 NCCL](https://developer.nvidia.com/nccl)来实现集体。 `AUTO` 将选择推迟到运行时。 集体实现的最佳选择取决于 GPU 的数量和种类以及群集中的网络互连。
+
+## 使用 MultiWorkerMirroredStrategy 训练模型
+
+通过将 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) API 集成到 [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras) 中，将训练分发给多人的唯一更改就是将模型进行构建和 `model.compile()` 调用封装在 `strategy.scope()` 内部。 分发策略的范围决定了如何创建变量以及在何处创建变量，对于 MultiWorkerMirroredStrategy 而言，创建的变量为 MirroredVariable ，并且将它们复制到每个工作器上。
+
+注意：在此 Colab 中，以下代码可以按预期结果运行，但是由于未设置`TF_CONFIG`，因此这实际上是单机训练。 在您自己的示例中设置了 `TF_CONFIG` 后，您应该期望在多台机器上进行培训可以提高速度。
+
+```py
+NUM_WORKERS = 2
+# 由于 `tf.data.Dataset.batch` 需要全局的批处理大小，
+# 因此此处的批处理大小按工作器数量增加。
+# 以前我们使用 64，现在变成 128。
+GLOBAL_BATCH_SIZE = 64 * NUM_WORKERS
+
+# 创建数据集需要在 MultiWorkerMirroredStrategy 对象
+# 实例化后。
+train_datasets = make_datasets_unbatched().batch(GLOBAL_BATCH_SIZE)
+with strategy.scope():
+  # 模型的建立/编译需要在 `strategy.scope()` 内部。
+  multi_worker_model = build_and_compile_cnn_model()
+
+# Keras 的 `model.fit()` 以特定的时期数和每时期的步数训练模型。
+# 注意此处的数量仅用于演示目的，并不足以产生高质量的模型。
+multi_worker_model.fit(x=train_datasets, epochs=3, steps_per_epoch=5) 
+```
+
+```py
+Epoch 1/3
+5/5 [==============================] - 3s 23ms/step - loss: 2.3042 - accuracy: 0.1243
+Epoch 2/3
+5/5 [==============================] - 0s 18ms/step - loss: 2.3129 - accuracy: 0.0801
+Epoch 3/3
+5/5 [==============================] - 0s 19ms/step - loss: 2.2974 - accuracy: 0.1253
+
+<tensorflow.python.keras.callbacks.History at 0x7fb5a03fd828>
+
+```
+
+### 数据集分片和批（batch）大小
+
+在多工作器训练中，需要将数据分片为多个部分，以确保融合和性能。 但是，请注意，在上面的代码片段中，数据集直接发送到`model.fit（）`，而无需分片； 这是因为[`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) API 在多工作器训练中会自动处理数据集分片。
+
+如果您喜欢手动分片进行训练，则可以通过[`tf.data.experimental.DistributeOptions`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/DistributeOptions) API 关闭自动分片。
+
+```py
+options = tf.data.Options()
+options.experimental_distribute.auto_shard_policy = tf.data.experimental.AutoShardPolicy.OFF
+train_datasets_no_auto_shard = train_datasets.with_options(options) 
+```
+
+要注意的另一件事是 `datasets` 的批处理大小。 在上面的代码片段中，我们使用 `GLOBAL_BATCH_SIZE = 64 * NUM_WORKERS` ，这是单个工作器的大小的 `NUM_WORKERS` 倍，因为每个工作器的有效批量大小是全局批量大小（参数从 [`tf.data.Dataset.batch()`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#batch) 传入）除以工作器的数量，通过此更改，我们使每个工作器的批处理大小与以前相同。
+
+## 性能
+
+现在，您已经有了一个 Keras 模型，该模型全部通过 `MultiWorkerMirroredStrategy` 运行在多个工作器中。 您可以尝试以下技术来调整多工作器训练的效果。
+
+*   `MultiWorkerMirroredStrategy` 提供了多个[集体通信实现][collective communication implementations](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/distribute/cross_device_ops.py). `RING` 使用 gRPC 作为跨主机通信层实现基于环的集合。 `NCCL` 使用 [Nvidia's NCCL](https://developer.nvidia.com/nccl) 来实现集合。 `AUTO` 将推迟到运行时选择。集体实施的最佳选择取决于 GPU 的数量和种类以及集群中的网络互连。 要覆盖自动选择，请为 `MultiWorkerMirroredStrategy` 的构造函数的 `communication` 参数指定一个有效值，例如： `communication=tf.distribute.experimental.CollectiveCommunication.NCCL`.
+*   如果可能的话，将变量强制转换为 `tf.float`。ResNet 的官方模型包括如何完成此操作的[示例](https://github.com/tensorflow/models/blob/8367cf6dabe11adf7628541706b660821f397dce/official/resnet/resnet_model.py#L466)。
+
+## 容错能力
+
+在同步训练中，如果其中一个工作器出现故障并且不存在故障恢复机制，则集群将失败。 在工作器退出或不稳定的情况下，将 Keras 与 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 一起使用会具有容错的优势。 我们通过在您选择的分布式文件系统中保留训练状态来做到这一点，以便在重新启动先前失败或被抢占的实例后，将恢复训练状态。
+
+由于所有工作器在训练 epochs 和 steps 方面保持同步，因此其他工作器将需要等待失败或被抢占的工作器重新启动才能继续。
+
+### ModelCheckpoint 回调
+
+要在多工作器训练中利用容错功能，请在调用 [`tf.keras.Model.fit()`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#fit) 时提供一个 [`tf.keras.callbacks.ModelCheckpoint`](https://tensorflow.google.cn/api_docs/python/tf/keras/callbacks/ModelCheckpoint) 实例。 回调会将检查点和训练状态存储在与 `ModelCheckpoint` 的 `filepath` 参数相对应的目录中。
+
+```py
+# 将 `filepath` 参数替换为在文件系统中所有工作器都能访问的路径。
+callbacks = [tf.keras.callbacks.ModelCheckpoint(filepath='/tmp/keras-ckpt')]
+with strategy.scope():
+  multi_worker_model = build_and_compile_cnn_model()
+multi_worker_model.fit(x=train_datasets,
+                       epochs=3,
+                       steps_per_epoch=5,
+                       callbacks=callbacks) 
+```
+
+```py
+Epoch 1/3
+4/5 [=======================>......] - ETA: 0s - loss: 2.2830 - accuracy: 0.1810 
+/tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/keras/engine/training.py:2289: UserWarning: `Model.state_updates` will be removed in a future version. This property should not be used in TensorFlow 2.0, as `updates` are applied automatically.
+  warnings.warn('`Model.state_updates` will be removed in a future version. '
+/tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/keras/engine/base_layer.py:1377: UserWarning: `layer.updates` will be removed in a future version. This property should not be used in TensorFlow 2.0, as `updates` are applied automatically.
+  warnings.warn('`layer.updates` will be removed in a future version. '
+
+INFO:tensorflow:Assets written to: /tmp/keras-ckpt/assets
+
+INFO:tensorflow:Assets written to: /tmp/keras-ckpt/assets
+
+5/5 [==============================] - 4s 170ms/step - loss: 2.2852 - accuracy: 0.1790
+Epoch 2/3
+4/5 [=======================>......] - ETA: 0s - loss: 2.2871 - accuracy: 0.1758INFO:tensorflow:Assets written to: /tmp/keras-ckpt/assets
+
+INFO:tensorflow:Assets written to: /tmp/keras-ckpt/assets
+
+5/5 [==============================] - 1s 155ms/step - loss: 2.2869 - accuracy: 0.1797
+Epoch 3/3
+4/5 [=======================>......] - ETA: 0s - loss: 2.2876 - accuracy: 0.2041INFO:tensorflow:Assets written to: /tmp/keras-ckpt/assets
+
+INFO:tensorflow:Assets written to: /tmp/keras-ckpt/assets
+
+5/5 [==============================] - 1s 155ms/step - loss: 2.2872 - accuracy: 0.2064
+
+<tensorflow.python.keras.callbacks.History at 0x7fb5a03fd668>
+
+```
+
+如果某个工作线程被抢占，则整个集群将暂停，直到重新启动被抢占的工作线程为止。工作器重新加入集群后，其他工作器也将重新启动。 现在，每个工作器都将读取先前保存的检查点文件，并获取其以前的状态，从而使群集能够恢复同步，然后继续训练。
+
+如果检查包含在`ModelCheckpoint` 中指定的 `filepath` 的目录，则可能会注意到一些临时生成的检查点文件。 这些文件是恢复以前丢失的实例所必需的，并且在成功退出多工作器训练后，这些文件将在 [`tf.keras.Model.fit()`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#fit) 的末尾被库删除。
+
+## 您可以查阅
+
+1.  [Distributed Training in TensorFlow](https://tensorflow.google.cn/guide/distribute_strategy) 该指南概述了可用的分布式策略。
+2.  [ResNet50](https://github.com/tensorflow/models/blob/master/official/resnet/imagenet_main.py) 官方模型，该模型可以使用 `MirroredStrategy` 或 `MultiWorkerMirroredStrategy` 进行训练
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/037.md b/Tensorflow/TensorFlow2.0/037.md
new file mode 100644
index 00000000..cf80ebef
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/037.md
@@ -0,0 +1,427 @@
+# 利用 Estimator 进行多工作器训练
+
+> 原文：[https://tensorflow.google.cn/tutorials/distribute/multi_worker_with_estimator](https://tensorflow.google.cn/tutorials/distribute/multi_worker_with_estimator)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+## 概述
+
+本教程展示了在训练分布式多工作器（worker）时，如何使用 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy)。如果你的代码使用了 [`tf.estimator`](https://tensorflow.google.cn/api_docs/python/tf/estimator)，而且你也对拓展单机以获取高性能有兴趣，那么这个教程就是为你准备的。
+
+在开始之前，请先阅读 [`tf.distribute.Strategy` 指南](https://tensorflow.google.cn/guide/distribute_strategy)。同样相关的还有 [使用多 GPU 训练教程](https://tensorflow.google.cn/tutorials/distribute/keras)，因为在这个教程里也使用了相同的模型。
+
+## 创建
+
+首先，设置好 TensorFlow 以及将会用到的输入模块。
+
+```py
+import tensorflow_datasets as tfds
+import tensorflow as tf
+tfds.disable_progress_bar()
+
+import os, json 
+```
+
+## 输入函数
+
+本教程里我们使用的是 [TensorFlow 数据集（TensorFlow Datasets）](https://tensorflow.google.cn/datasets)里的 MNIST 数据集。本教程里的代码和 [使用多 GPU 训练教程](https://tensorflow.google.cn/tutorials/distribute/keras) 类似，但有一个主要区别：当我们使用 Estimator 进行多工作器训练时，需要根据工作器的数量对数据集进行拆分，以确保模型收敛。输入的数据根据工作器其自身的索引来拆分，因此每个工作器各自负责处理该数据集 `1/num_workers` 个不同部分。
+
+```py
+BUFFER_SIZE = 10000
+BATCH_SIZE = 64
+
+def input_fn(mode, input_context=None):
+  datasets, info = tfds.load(name='mnist',
+                                with_info=True,
+                                as_supervised=True)
+  mnist_dataset = (datasets['train'] if mode == tf.estimator.ModeKeys.TRAIN else
+                   datasets['test'])
+
+  def scale(image, label):
+    image = tf.cast(image, tf.float32)
+    image /= 255
+    return image, label
+
+  if input_context:
+    mnist_dataset = mnist_dataset.shard(input_context.num_input_pipelines,
+                                        input_context.input_pipeline_id)
+  return mnist_dataset.map(scale).shuffle(BUFFER_SIZE).batch(BATCH_SIZE) 
+```
+
+使模型收敛的另一种合理方式是在每个工作器上设置不同的随机种子，然后对数据集进行随机重排。
+
+## 多工作器配置
+
+本教程主要的不同（区别于[使用多 GPU 训练教程](https://tensorflow.google.cn/tutorials/distribute/keras)）在于多工作器的创建。明确集群中每个工作器的配置的标准方式是设置环境变量 `TF_CONFIG` 。
+
+`TF_CONFIG` 里包括了两个部分：`cluster` 和 `task`。`cluster` 提供了关于整个集群的信息，也就是集群中的工作器和参数服务器（parameter server）。`task` 提供了关于当前任务的信息。在本例中，任务的类型（type）是 worker 且该任务的索引（index）是 0。
+
+出于演示的目的，本教程展示了怎么将 `TF_CONFIG` 设置成两个本地的工作器。在实践中，你可以在外部的 IP 地址和端口上创建多个工作器，并为每个工作器正确地配置好 `TF_CONFIG` 变量，也就是更改任务的索引。
+
+警告：不要在 Colab 里执行以下代码。TensorFlow 的运行程序会试图在指定的 IP 地址和端口创建 gRPC 服务器，这会导致创建失败。
+
+```py
+os.environ['TF_CONFIG'] = json.dumps({
+    'cluster': {
+        'worker': ["localhost:12345", "localhost:23456"]
+    },
+    'task': {'type': 'worker', 'index': 0}
+}) 
+```
+
+## 定义模型
+
+定义训练中用到的层，优化器和损失函数。本教程使用 Keras layers 定义模型，同[使用多 GPU 训练教程](https://tensorflow.google.cn/tutorials/distribute/keras)类似。
+
+```py
+LEARNING_RATE = 1e-4
+def model_fn(features, labels, mode):
+  model = tf.keras.Sequential([
+      tf.keras.layers.Conv2D(32, 3, activation='relu', input_shape=(28, 28, 1)),
+      tf.keras.layers.MaxPooling2D(),
+      tf.keras.layers.Flatten(),
+      tf.keras.layers.Dense(64, activation='relu'),
+      tf.keras.layers.Dense(10, activation='softmax')
+  ])
+  logits = model(features, training=False)
+
+  if mode == tf.estimator.ModeKeys.PREDICT:
+    predictions = {'logits': logits}
+    return tf.estimator.EstimatorSpec(labels=labels, predictions=predictions)
+
+  optimizer = tf.compat.v1.train.GradientDescentOptimizer(
+      learning_rate=LEARNING_RATE)
+  loss = tf.keras.losses.SparseCategoricalCrossentropy(
+      from_logits=True, reduction=tf.keras.losses.Reduction.NONE)(labels, logits)
+  loss = tf.reduce_sum(loss) * (1\. / BATCH_SIZE)
+  if mode == tf.estimator.ModeKeys.EVAL:
+    return tf.estimator.EstimatorSpec(mode, loss=loss)
+
+  return tf.estimator.EstimatorSpec(
+      mode=mode,
+      loss=loss,
+      train_op=optimizer.minimize(
+          loss, tf.compat.v1.train.get_or_create_global_step())) 
+```
+
+注意：尽管在本例中学习率是固定的，但是通常情况下可能有必要基于全局的批次大小对学习率进行调整。
+
+## MultiWorkerMirroredStrategy
+
+为训练模型，需要使用 [`tf.distribute.experimental.MultiWorkerMirroredStrategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/experimental/MultiWorkerMirroredStrategy) 实例。`MultiWorkerMirroredStrategy` 创建了每个设备中模型层里所有变量的拷贝，且是跨工作器的。其用到了 `CollectiveOps`，这是 TensorFlow 里的一种操作，用来整合梯度以及确保变量同步。该策略的更多细节可以在 [`tf.distribute.Strategy` 指南](https://tensorflow.google.cn/guide/distribute_strategy)中找到。
+
+```py
+strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy() 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/device:GPU:0',)
+INFO:tensorflow:Single-worker MultiWorkerMirroredStrategy with local_devices = ('/device:GPU:0',), communication = CollectiveCommunication.AUTO
+
+```
+
+## 训练和评估模型
+
+接下来，在 `RunConfig` 中为 estimator 指明分布式策略，同时通过调用 [`tf.estimator.train_and_evaluate`](https://tensorflow.google.cn/api_docs/python/tf/estimator/train_and_evaluate) 训练和评估模型。本教程只通过指明 `train_distribute` 进行分布式训练。但是也同样也可以通过指明 `eval_distribute` 来进行分布式评估。
+
+```py
+config = tf.estimator.RunConfig(train_distribute=strategy)
+
+classifier = tf.estimator.Estimator(
+    model_fn=model_fn, model_dir='/tmp/multiworker', config=config)
+tf.estimator.train_and_evaluate(
+    classifier,
+    train_spec=tf.estimator.TrainSpec(input_fn=input_fn),
+    eval_spec=tf.estimator.EvalSpec(input_fn=input_fn)
+) 
+```
+
+```py
+INFO:tensorflow:Initializing RunConfig with distribution strategies.
+INFO:tensorflow:Not using Distribute Coordinator.
+INFO:tensorflow:Using config: {'_model_dir': '/tmp/multiworker', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': allow_soft_placement: true
+graph_options {
+  rewrite_options {
+    meta_optimizer_iterations: ONE
+  }
+}
+, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': <tensorflow.python.distribute.collective_all_reduce_strategy.CollectiveAllReduceStrategy object at 0x7f975c17f5f8>, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_experimental_max_worker_delay_secs': None, '_session_creation_timeout_secs': 7200, '_service': None, '_cluster_spec': ClusterSpec({}), '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1, '_distribute_coordinator_mode': None}
+INFO:tensorflow:Not using Distribute Coordinator.
+INFO:tensorflow:Running training and evaluation locally (non-distributed).
+INFO:tensorflow:Start train and evaluate loop. The evaluate will happen after every checkpoint. Checkpoint frequency is determined based on RunConfig arguments: save_checkpoints_steps None or save_checkpoints_secs 600.
+INFO:tensorflow:The `input_fn` accepts an `input_context` which will be given by DistributionStrategy
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/data/ops/multi_device_iterator_ops.py:339: get_next_as_optional (from tensorflow.python.data.ops.iterator_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.data.Iterator.get_next_as_optional()` instead.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/data/ops/multi_device_iterator_ops.py:339: get_next_as_optional (from tensorflow.python.data.ops.iterator_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.data.Iterator.get_next_as_optional()` instead.
+
+INFO:tensorflow:Calling model_fn.
+
+INFO:tensorflow:Calling model_fn.
+
+INFO:tensorflow:Done calling model_fn.
+
+INFO:tensorflow:Done calling model_fn.
+
+Warning:tensorflow:AutoGraph could not transform <function _combine_distributed_scaffold.<locals>.<lambda> at 0x7f975c181c80> and will run it as-is.
+Cause: could not parse the source code:
+
+      lambda scaffold: scaffold.ready_op, args=(grouped_scaffold,))
+
+This error may be avoided by creating the lambda in a standalone statement.
+
+To silence this warning, decorate the function with @tf.autograph.experimental.do_not_convert
+
+Warning:tensorflow:AutoGraph could not transform <function _combine_distributed_scaffold.<locals>.<lambda> at 0x7f975c181c80> and will run it as-is.
+Cause: could not parse the source code:
+
+      lambda scaffold: scaffold.ready_op, args=(grouped_scaffold,))
+
+This error may be avoided by creating the lambda in a standalone statement.
+
+To silence this warning, decorate the function with @tf.autograph.experimental.do_not_convert
+
+Warning: AutoGraph could not transform <function _combine_distributed_scaffold.<locals>.<lambda> at 0x7f975c181c80> and will run it as-is.
+Cause: could not parse the source code:
+
+      lambda scaffold: scaffold.ready_op, args=(grouped_scaffold,))
+
+This error may be avoided by creating the lambda in a standalone statement.
+
+To silence this warning, decorate the function with @tf.autograph.experimental.do_not_convert
+INFO:tensorflow:Create CheckpointSaverHook.
+
+INFO:tensorflow:Create CheckpointSaverHook.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_estimator/python/estimator/util.py:96: DistributedIteratorV1.initialize (from tensorflow.python.distribute.input_lib) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use the iterator's `initializer` property instead.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_estimator/python/estimator/util.py:96: DistributedIteratorV1.initialize (from tensorflow.python.distribute.input_lib) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use the iterator's `initializer` property instead.
+
+INFO:tensorflow:Graph was finalized.
+
+INFO:tensorflow:Graph was finalized.
+
+INFO:tensorflow:Running local_init_op.
+
+INFO:tensorflow:Running local_init_op.
+
+INFO:tensorflow:Done running local_init_op.
+
+INFO:tensorflow:Done running local_init_op.
+
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 0...
+
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 0...
+
+INFO:tensorflow:Saving checkpoints for 0 into /tmp/multiworker/model.ckpt.
+
+INFO:tensorflow:Saving checkpoints for 0 into /tmp/multiworker/model.ckpt.
+
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 0...
+
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 0...
+
+INFO:tensorflow:loss = 2.3033497, step = 0
+
+INFO:tensorflow:loss = 2.3033497, step = 0
+
+INFO:tensorflow:global_step/sec: 195.373
+
+INFO:tensorflow:global_step/sec: 195.373
+
+INFO:tensorflow:loss = 2.3039753, step = 100 (0.514 sec)
+
+INFO:tensorflow:loss = 2.3039753, step = 100 (0.514 sec)
+
+INFO:tensorflow:global_step/sec: 214.711
+
+INFO:tensorflow:global_step/sec: 214.711
+
+INFO:tensorflow:loss = 2.3031363, step = 200 (0.465 sec)
+
+INFO:tensorflow:loss = 2.3031363, step = 200 (0.465 sec)
+
+INFO:tensorflow:global_step/sec: 217.488
+
+INFO:tensorflow:global_step/sec: 217.488
+
+INFO:tensorflow:loss = 2.3034592, step = 300 (0.460 sec)
+
+INFO:tensorflow:loss = 2.3034592, step = 300 (0.460 sec)
+
+INFO:tensorflow:global_step/sec: 218.917
+
+INFO:tensorflow:global_step/sec: 218.917
+
+INFO:tensorflow:loss = 2.3013198, step = 400 (0.457 sec)
+
+INFO:tensorflow:loss = 2.3013198, step = 400 (0.457 sec)
+
+INFO:tensorflow:global_step/sec: 219.726
+
+INFO:tensorflow:global_step/sec: 219.726
+
+INFO:tensorflow:loss = 2.3037362, step = 500 (0.455 sec)
+
+INFO:tensorflow:loss = 2.3037362, step = 500 (0.455 sec)
+
+INFO:tensorflow:global_step/sec: 219.401
+
+INFO:tensorflow:global_step/sec: 219.401
+
+INFO:tensorflow:loss = 2.3062348, step = 600 (0.455 sec)
+
+INFO:tensorflow:loss = 2.3062348, step = 600 (0.455 sec)
+
+INFO:tensorflow:global_step/sec: 220.068
+
+INFO:tensorflow:global_step/sec: 220.068
+
+INFO:tensorflow:loss = 2.300187, step = 700 (0.455 sec)
+
+INFO:tensorflow:loss = 2.300187, step = 700 (0.455 sec)
+
+INFO:tensorflow:global_step/sec: 246.384
+
+INFO:tensorflow:global_step/sec: 246.384
+
+INFO:tensorflow:loss = 2.30475, step = 800 (0.405 sec)
+
+INFO:tensorflow:loss = 2.30475, step = 800 (0.405 sec)
+
+INFO:tensorflow:global_step/sec: 587.13
+
+INFO:tensorflow:global_step/sec: 587.13
+
+INFO:tensorflow:loss = 2.3031988, step = 900 (0.170 sec)
+
+INFO:tensorflow:loss = 2.3031988, step = 900 (0.170 sec)
+
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 938...
+
+INFO:tensorflow:Calling checkpoint listeners before saving checkpoint 938...
+
+INFO:tensorflow:Saving checkpoints for 938 into /tmp/multiworker/model.ckpt.
+
+INFO:tensorflow:Saving checkpoints for 938 into /tmp/multiworker/model.ckpt.
+
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 938...
+
+INFO:tensorflow:Calling checkpoint listeners after saving checkpoint 938...
+
+INFO:tensorflow:Calling model_fn.
+
+INFO:tensorflow:Calling model_fn.
+
+INFO:tensorflow:Done calling model_fn.
+
+INFO:tensorflow:Done calling model_fn.
+
+INFO:tensorflow:Starting evaluation at 2020-09-22T19:53:28Z
+
+INFO:tensorflow:Starting evaluation at 2020-09-22T19:53:28Z
+
+INFO:tensorflow:Graph was finalized.
+
+INFO:tensorflow:Graph was finalized.
+
+INFO:tensorflow:Restoring parameters from /tmp/multiworker/model.ckpt-938
+
+INFO:tensorflow:Restoring parameters from /tmp/multiworker/model.ckpt-938
+
+INFO:tensorflow:Running local_init_op.
+
+INFO:tensorflow:Running local_init_op.
+
+INFO:tensorflow:Done running local_init_op.
+
+INFO:tensorflow:Done running local_init_op.
+
+INFO:tensorflow:Evaluation [10/100]
+
+INFO:tensorflow:Evaluation [10/100]
+
+INFO:tensorflow:Evaluation [20/100]
+
+INFO:tensorflow:Evaluation [20/100]
+
+INFO:tensorflow:Evaluation [30/100]
+
+INFO:tensorflow:Evaluation [30/100]
+
+INFO:tensorflow:Evaluation [40/100]
+
+INFO:tensorflow:Evaluation [40/100]
+
+INFO:tensorflow:Evaluation [50/100]
+
+INFO:tensorflow:Evaluation [50/100]
+
+INFO:tensorflow:Evaluation [60/100]
+
+INFO:tensorflow:Evaluation [60/100]
+
+INFO:tensorflow:Evaluation [70/100]
+
+INFO:tensorflow:Evaluation [70/100]
+
+INFO:tensorflow:Evaluation [80/100]
+
+INFO:tensorflow:Evaluation [80/100]
+
+INFO:tensorflow:Evaluation [90/100]
+
+INFO:tensorflow:Evaluation [90/100]
+
+INFO:tensorflow:Evaluation [100/100]
+
+INFO:tensorflow:Evaluation [100/100]
+
+INFO:tensorflow:Inference Time : 0.98988s
+
+INFO:tensorflow:Inference Time : 0.98988s
+
+INFO:tensorflow:Finished evaluation at 2020-09-22-19:53:29
+
+INFO:tensorflow:Finished evaluation at 2020-09-22-19:53:29
+
+INFO:tensorflow:Saving dict for global step 938: global_step = 938, loss = 2.3031592
+
+INFO:tensorflow:Saving dict for global step 938: global_step = 938, loss = 2.3031592
+
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 938: /tmp/multiworker/model.ckpt-938
+
+INFO:tensorflow:Saving 'checkpoint_path' summary for global step 938: /tmp/multiworker/model.ckpt-938
+
+INFO:tensorflow:Loss for final step: 1.1519132.
+
+INFO:tensorflow:Loss for final step: 1.1519132.
+
+({'loss': 2.3031592, 'global_step': 938}, [])
+
+```
+
+# 优化训练后的模型性能
+
+现在你已经有了由 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 的模型和能支持多工作器的 Estimator。你可以尝试使用下列技巧来优化多工作器训练的性能。
+
+*   *增加单批次的大小：* 此处的批次大小指的是每个 GPU 上的批次大小。通常来说，最大的批次大小应该适应 GPU 的内存大小。
+*   *变量转换：* 尽可能将变量转换成 `tf.float`。官方的 ResNet 模型包括了如何完成的[样例](https://github.com/tensorflow/models/blob/8367cf6dabe11adf7628541706b660821f397dce/official/resnet/resnet_model.py#L466)。
+*   *使用集群通信：* `MultiWorkerMirroredStrategy` 提供了好几种[集群通信的实现](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/distribute/cross_device_ops.py).
+    *   `RING` 实现了基于环状的集群，使用了 gRPC 作为跨主机通讯层。
+    *   `NCCL` 使用了 [英伟达的 NCCL](https://developer.nvidia.com/nccl) 来实现集群。
+    *   `AUTO` 将选择延后至运行时。
+
+集群实现的最优选择不仅基于 GPU 的数量和种类，也基于集群间的通信网络。想要覆盖自动的选项，需要指明 `MultiWorkerMirroredStrategy` 的构造器里的 `communication` 参数，例如让 `communication=tf.distribute.experimental.CollectiveCommunication.NCCL` 。
+
+## 更多的代码示例
+
+1.  [端到端的示例](https://github.com/tensorflow/ecosystem/tree/master/distribution_strategy)里使用了 Kubernetes 模板。在这个例子里我们一开始使用了 Keras 模型，并使用了 [`tf.keras.estimator.model_to_estimator`](https://tensorflow.google.cn/api_docs/python/tf/keras/estimator/model_to_estimator) API 将其转换成了 Estimator。
+2.  官方的 [ResNet50](https://github.com/tensorflow/models/blob/master/official/resnet/imagenet_main.py) 模型，我们可以使用 `MirroredStrategy` 或 `MultiWorkerMirroredStrategy` 来训练它。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/038.md b/Tensorflow/TensorFlow2.0/038.md
new file mode 100644
index 00000000..42f9c185
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/038.md
@@ -0,0 +1,524 @@
+# 使用分布策略保存和加载模型
+
+> 原文：[https://tensorflow.google.cn/tutorials/distribute/save_and_load](https://tensorflow.google.cn/tutorials/distribute/save_and_load)
+
+## 概述
+
+在训练期间一般需要保存和加载模型。有两组用于保存和加载 Keras 模型的 API：高级 API 和低级 API。本教程演示了在使用 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 时如何使用 SavedModel API。要了解 SavedModel 和序列化的相关概况，请参阅[保存的模型指南](https://tensorflow.google.cn/guide/saved_model)和 [Keras 模型序列化指南](https://tensorflow.google.cn/guide/keras/save_and_serialize)。让我们从一个简单的示例开始：
+
+导入依赖项：
+
+```py
+import tensorflow_datasets as tfds
+
+import tensorflow as tf
+tfds.disable_progress_bar() 
+```
+
+使用 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 准备数据和模型：
+
+```py
+mirrored_strategy = tf.distribute.MirroredStrategy()
+
+def get_data():
+  datasets, ds_info = tfds.load(name='mnist', with_info=True, as_supervised=True)
+  mnist_train, mnist_test = datasets['train'], datasets['test']
+
+  BUFFER_SIZE = 10000
+
+  BATCH_SIZE_PER_REPLICA = 64
+  BATCH_SIZE = BATCH_SIZE_PER_REPLICA * mirrored_strategy.num_replicas_in_sync
+
+  def scale(image, label):
+    image = tf.cast(image, tf.float32)
+    image /= 255
+
+    return image, label
+
+  train_dataset = mnist_train.map(scale).cache().shuffle(BUFFER_SIZE).batch(BATCH_SIZE)
+  eval_dataset = mnist_test.map(scale).batch(BATCH_SIZE)
+
+  return train_dataset, eval_dataset
+
+def get_model():
+  with mirrored_strategy.scope():
+    model = tf.keras.Sequential([
+        tf.keras.layers.Conv2D(32, 3, activation='relu', input_shape=(28, 28, 1)),
+        tf.keras.layers.MaxPooling2D(),
+        tf.keras.layers.Flatten(),
+        tf.keras.layers.Dense(64, activation='relu'),
+        tf.keras.layers.Dense(10)
+    ])
+
+    model.compile(loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+                  optimizer=tf.keras.optimizers.Adam(),
+                  metrics=['accuracy'])
+    return model 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+```
+
+训练模型：
+
+```py
+model = get_model()
+train_dataset, eval_dataset = get_data()
+model.fit(train_dataset, epochs=2) 
+```
+
+```py
+Epoch 1/2
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/data/ops/multi_device_iterator_ops.py:601: get_next_as_optional (from tensorflow.python.data.ops.iterator_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.data.Iterator.get_next_as_optional()` instead.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/data/ops/multi_device_iterator_ops.py:601: get_next_as_optional (from tensorflow.python.data.ops.iterator_ops) is deprecated and will be removed in a future version.
+Instructions for updating:
+Use `tf.data.Iterator.get_next_as_optional()` instead.
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+938/938 [==============================] - 4s 5ms/step - loss: 0.1971 - accuracy: 0.9421
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
+
+Epoch 2/2
+938/938 [==============================] - 3s 3ms/step - loss: 0.0662 - accuracy: 0.9801
+
+<tensorflow.python.keras.callbacks.History at 0x7f96501659e8>
+
+```
+
+## 保存和加载模型
+
+现在，您已经有一个简单的模型可供使用，让我们了解一下如何保存/加载 API。有两组可用的 API：
+
+*   高级 Keras `model.save` 和 [`tf.keras.models.load_model`](https://tensorflow.google.cn/api_docs/python/tf/keras/models/load_model)
+*   低级 [`tf.saved_model.save`](https://tensorflow.google.cn/api_docs/python/tf/saved_model/save) 和 [`tf.saved_model.load`](https://tensorflow.google.cn/api_docs/python/tf/saved_model/load)
+
+### Keras API
+
+以下为使用 Keras API 保存和加载模型的示例：
+
+```py
+keras_model_path = "/tmp/keras_save"
+model.save(keras_model_path)  # save() should be called out of strategy scope 
+```
+
+```py
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+INFO:tensorflow:Assets written to: /tmp/keras_save/assets
+
+INFO:tensorflow:Assets written to: /tmp/keras_save/assets
+
+```
+
+恢复无 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 的模型：
+
+```py
+restored_keras_model = tf.keras.models.load_model(keras_model_path)
+restored_keras_model.fit(train_dataset, epochs=2) 
+```
+
+```py
+Epoch 1/2
+938/938 [==============================] - 3s 3ms/step - loss: 0.0480 - accuracy: 0.0990
+Epoch 2/2
+938/938 [==============================] - 2s 2ms/step - loss: 0.0334 - accuracy: 0.0989
+
+<tensorflow.python.keras.callbacks.History at 0x7f96c54d0a58>
+
+```
+
+恢复模型后，您可以继续在它上面进行训练，甚至无需再次调用 `compile()`，因为在保存之前已经对其进行了编译。模型以 TensorFlow 的标准 `SavedModel` proto 格式保存。有关更多信息，请参阅 [`saved_model` 格式指南](https://tensorflow.google.cn/guide/saved_model)。
+
+现在，加载模型并使用 [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 进行训练：
+
+```py
+another_strategy = tf.distribute.OneDeviceStrategy("/cpu:0")
+with another_strategy.scope():
+  restored_keras_model_ds = tf.keras.models.load_model(keras_model_path)
+  restored_keras_model_ds.fit(train_dataset, epochs=2) 
+```
+
+```py
+Epoch 1/2
+938/938 [==============================] - 9s 9ms/step - loss: 0.0481 - accuracy: 0.0989
+Epoch 2/2
+938/938 [==============================] - 9s 9ms/step - loss: 0.0329 - accuracy: 0.0990
+
+```
+
+如您所见， [`tf.distribute.Strategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy) 可以按预期进行加载。此处使用的策略不必与保存前所用策略相同。
+
+### [`tf.saved_model`](https://tensorflow.google.cn/api_docs/python/tf/saved_model) API
+
+现在，让我们看一下较低级别的 API。保存模型与 Keras API 类似：
+
+```py
+model = get_model()  # get a fresh model
+saved_model_path = "/tmp/tf_save"
+tf.saved_model.save(model, saved_model_path) 
+```
+
+```py
+INFO:tensorflow:Assets written to: /tmp/tf_save/assets
+
+INFO:tensorflow:Assets written to: /tmp/tf_save/assets
+
+```
+
+可以使用 [`tf.saved_model.load()`](https://tensorflow.google.cn/api_docs/python/tf/saved_model/load) 进行加载。但是，由于该 API 级别较低（因此用例范围更广泛），所以不会返回 Keras 模型。相反，它返回一个对象，其中包含可用于进行推断的函数。例如：
+
+```py
+DEFAULT_FUNCTION_KEY = "serving_default"
+loaded = tf.saved_model.load(saved_model_path)
+inference_func = loaded.signatures[DEFAULT_FUNCTION_KEY] 
+```
+
+加载的对象可能包含多个函数，每个函数与一个键关联。`"serving_default"` 是使用已保存的 Keras 模型的推断函数的默认键。要使用此函数进行推断，请运行以下代码：
+
+```py
+predict_dataset = eval_dataset.map(lambda image, label: image)
+for batch in predict_dataset.take(1):
+  print(inference_func(batch)) 
+```
+
+```py
+{'dense_3': <tf.Tensor: shape=(64, 10), dtype=float32, numpy=
+array([[ 0.17218862,  0.07492599, -0.0548683 ,  0.03503785, -0.03743191,
+        -0.05301537,  0.01267872, -0.02870197, -0.33800656,  0.17991678],
+       [ 0.12937182, -0.21557797, -0.09474514,  0.39076763, -0.22147779,
+        -0.1787742 ,  0.2154337 ,  0.00788027, -0.14960325,  0.43123117],
+       [ 0.04755233, -0.20264567, -0.17308846,  0.19781005, -0.11123425,
+        -0.4295108 ,  0.05442019,  0.01459119, -0.17129104,  0.04688327],
+       [ 0.09866484,  0.01627818, -0.08671301,  0.05742932, -0.20312837,
+        -0.38836166, -0.06952551,  0.05141062, -0.03084616,  0.05498504],
+       [ 0.00565811, -0.04239772,  0.04898138,  0.06162139, -0.16708252,
+        -0.12976539, -0.00474121,  0.05431085, -0.14715545,  0.07582194],
+       [ 0.17589626,  0.19629489, -0.2076093 ,  0.02031662, -0.1619812 ,
+        -0.24300966, -0.0310282 , -0.00850905, -0.18514219,  0.23665032],
+       [-0.02653   , -0.17737214, -0.24494407,  0.20125583, -0.17153463,
+        -0.18641792,  0.11408111,  0.01489197, -0.099539  ,  0.41159016],
+       [ 0.1903163 ,  0.1697292 , -0.14116906,  0.1588785 , -0.04286646,
+        -0.19863203, -0.04836996, -0.00679918, -0.14634813,  0.14979276],
+       [ 0.12109621,  0.03313948, -0.1955429 ,  0.23528968, -0.12369496,
+        -0.20725062,  0.06024174,  0.05078189, -0.158943  ,  0.16846842],
+       [ 0.16227934,  0.06379895, -0.08847713,  0.08261362, -0.03925761,
+        -0.17770812, -0.043965  ,  0.02072081, -0.07430968,  0.05749936],
+       [ 0.05508922, -0.14091367, -0.1887006 ,  0.12903523, -0.13182093,
+        -0.11879301,  0.20175044,  0.11686974, -0.1616871 ,  0.2226192 ],
+       [ 0.18285918, -0.01880376, -0.15778637,  0.04477023, -0.22364017,
+        -0.23864916, -0.06328501,  0.04380857, -0.04448643,  0.40406597],
+       [ 0.04721744,  0.06619421, -0.10837474,  0.1292499 , -0.17490903,
+        -0.17313394, -0.06603841,  0.15658481, -0.09657097, -0.04059617],
+       [-0.04412666,  0.02258963,  0.08539917,  0.2561011 , -0.18279126,
+        -0.2519745 , -0.00787598,  0.08598025, -0.21961546,  0.10189874],
+       [ 0.05089861,  0.06746367, -0.13205   ,  0.09160744, -0.30171782,
+        -0.25160635,  0.08317091,  0.03015741, -0.10570806,  0.28686398],
+       [ 0.13625176, -0.109529  ,  0.04985618,  0.08199271, -0.24280871,
+        -0.22908798,  0.17737128,  0.09937412, -0.31234092,  0.2290439 ],
+       [ 0.13812706,  0.10425253,  0.0128724 ,  0.12191941, -0.09126505,
+        -0.13897963, -0.17568447,  0.16489705, -0.26533198,  0.06911667],
+       [ 0.16982701,  0.087276  , -0.17102191,  0.06745699, -0.06239565,
+        -0.17226742, -0.02450407,  0.10939141, -0.13510445,  0.04026298],
+       [-0.05762933,  0.03908077,  0.0729831 ,  0.12001946, -0.12699135,
+        -0.37191632, -0.10294843,  0.1815257 , -0.10121268,  0.06880292],
+       [ 0.07649058, -0.03354908, -0.06362928, -0.00831218, -0.24217641,
+        -0.11137463,  0.01944396,  0.0310707 ,  0.0093919 ,  0.34353036],
+       [ 0.16107717, -0.04705916, -0.14095825,  0.05297582, -0.1485554 ,
+        -0.12321693,  0.07225874,  0.07695273, -0.17055047,  0.22460693],
+       [ 0.02565719, -0.05495968, -0.11961621,  0.03014402, -0.1645109 ,
+        -0.26333475,  0.07536604,  0.04426918, -0.12448484,  0.04142715],
+       [ 0.02295595,  0.01484419, -0.28111714,  0.05291839, -0.09908111,
+        -0.22002876,  0.00388122,  0.06801579, -0.03227042,  0.04201593],
+       [ 0.01293404, -0.15113808, -0.05814568,  0.29754263, -0.13849238,
+        -0.02268202,  0.16958144,  0.12881759, -0.13463333,  0.3364867 ],
+       [ 0.19805974, -0.01798259, -0.12835501,  0.26842418, -0.04154617,
+        -0.19442351, -0.08115683,  0.08586816,  0.00582654,  0.04328927],
+       [ 0.09159922,  0.12617984, -0.15028486,  0.23344447, -0.06932314,
+        -0.1483246 , -0.02017963,  0.03262286, -0.2800941 ,  0.18364596],
+       [ 0.1528    ,  0.13280275, -0.09938447,  0.03614349, -0.1096218 ,
+        -0.19335787, -0.04933339, -0.02397237, -0.13356304, -0.01165973],
+       [ 0.13618907,  0.14891617, -0.16118397,  0.10435603, -0.1831438 ,
+        -0.16405147, -0.14186187,  0.12581114, -0.15762964,  0.13493878],
+       [ 0.05534358, -0.0916103 ,  0.0352111 ,  0.0020496 , -0.19224274,
+        -0.17663556,  0.08702807, -0.08016825, -0.14833373,  0.10739949],
+       [ 0.02660379, -0.04472145,  0.01165188,  0.0219909 , -0.16059823,
+        -0.26817566, -0.09790543,  0.10905766, -0.01595427,  0.304615  ],
+       [ 0.08248052, -0.09962849, -0.02325149,  0.04280585, -0.20835052,
+        -0.2023199 , -0.0130603 ,  0.07936736,  0.0494375 ,  0.27143508],
+       [ 0.00310345,  0.04583906, -0.20415008,  0.1876276 , -0.06600557,
+        -0.19580218, -0.02222047,  0.07650423, -0.08899002,  0.10885157],
+       [ 0.0783096 , -0.01651647, -0.09479928,  0.07058451, -0.14990349,
+        -0.33366078,  0.0564964 ,  0.01118498, -0.14589244,  0.22603557],
+       [ 0.04565446,  0.05590308, -0.02989801, -0.07578284, -0.09796432,
+        -0.20807403, -0.00954358,  0.02622838, -0.10276475, -0.05590656],
+       [ 0.07286316,  0.01376749, -0.18262148,  0.28560585, -0.18269306,
+        -0.06166455,  0.12229253,  0.11880912, -0.08595768,  0.17080015],
+       [ 0.12635507, -0.0836257 ,  0.03501946,  0.30507207, -0.34584454,
+        -0.29186884,  0.26327768,  0.18378039, -0.09220086,  0.16707191],
+       [ 0.11742169,  0.02937749, -0.16469768,  0.31997636, -0.1280521 ,
+        -0.17700416,  0.05593231,  0.05017062, -0.31535   ,  0.15465745],
+       [ 0.08975917,  0.01203279,  0.09783987,  0.06205256, -0.05648104,
+        -0.27429107, -0.12651348,  0.09195078, -0.2890005 ,  0.08270936],
+       [ 0.09477694,  0.10097383, -0.05783979,  0.11597094, -0.05375554,
+        -0.04229444, -0.09689695,  0.08121311, -0.05716637,  0.09075539],
+       [-0.04117738, -0.06426363, -0.0629988 ,  0.00692648, -0.30303234,
+        -0.28447956, -0.01935545,  0.159902  , -0.10399745,  0.17079492],
+       [-0.01080875, -0.04450692, -0.19694453,  0.15313052, -0.11790004,
+        -0.21164687,  0.16064486,  0.05443045,  0.04431828,  0.18498638],
+       [ 0.16398555,  0.21772492, -0.03592323,  0.15181649, -0.02455682,
+        -0.28267485, -0.12445807,  0.17047536, -0.19300474, -0.01467199],
+       [ 0.04904355, -0.0152067 ,  0.09667489, -0.01841408, -0.08439851,
+        -0.2905228 , -0.0541675 ,  0.07489735, -0.13492545,  0.1839124 ],
+       [ 0.2369909 ,  0.08534706, -0.12017098,  0.04527019, -0.05781246,
+        -0.1196178 , -0.09442404,  0.01685349, -0.26979008,  0.17579612],
+       [ 0.04441281, -0.09139308,  0.00063404,  0.02085789, -0.17478338,
+        -0.1746104 ,  0.21254838,  0.07575508, -0.19009903,  0.26038024],
+       [ 0.23913413,  0.13267268, -0.11951514,  0.13184579, -0.11442515,
+        -0.1563474 , -0.13503158,  0.1639925 , -0.11313978,  0.05294855],
+       [ 0.11768216,  0.12213368, -0.00641227,  0.1983034 , -0.10263431,
+        -0.10918278, -0.06888436,  0.26294842, -0.1041921 ,  0.09731302],
+       [ 0.16183744, -0.14602011, -0.17195675,  0.1428874 , -0.26739907,
+        -0.3048862 ,  0.06860068,  0.03065268, -0.13347332,  0.4117231 ],
+       [-0.02206257,  0.00734324,  0.003649  ,  0.12295016, -0.22801307,
+        -0.23414296, -0.03367008,  0.11127277, -0.01726604, -0.0447302 ],
+       [ 0.10106434,  0.09055474, -0.12789255,  0.1377592 , -0.05564225,
+        -0.21510065, -0.09061419, -0.0219887 , -0.14411387, -0.03950592],
+       [ 0.12847602, -0.09453006, -0.04503661,  0.27597424, -0.17524761,
+        -0.05134012,  0.16526361,  0.08649909, -0.22461002,  0.45229536],
+       [ 0.04311011,  0.09949236, -0.04975891,  0.22421105, -0.12030718,
+        -0.09846736, -0.1408607 ,  0.2384947 , -0.21582088,  0.01464934],
+       [-0.03788627,  0.04636163,  0.07747708,  0.0814044 , -0.12896554,
+        -0.31223392, -0.0578138 ,  0.1859979 , -0.10911787,  0.15140374],
+       [ 0.08929176, -0.02551255, -0.06947158,  0.25500187, -0.18166143,
+        -0.1110489 ,  0.0658811 ,  0.23209906, -0.00346252,  0.27463445],
+       [ 0.12721871, -0.05336493, -0.01648436,  0.23337078, -0.22428553,
+        -0.17424905,  0.03487325,  0.28687072,  0.04055911,  0.30594033],
+       [ 0.18656036, -0.00513786, -0.16282284,  0.02530107, -0.17092519,
+        -0.24259233,  0.05227455,  0.19966123, -0.28181344,  0.14443643],
+       [ 0.02111852, -0.04639132, -0.01641255,  0.20416623, -0.11734181,
+        -0.08085347,  0.13685697,  0.10490854, -0.09023371,  0.32988763],
+       [ 0.06382357,  0.02803485,  0.03532831,  0.07898249, -0.10290041,
+        -0.2603921 , -0.03376516,  0.09166428, -0.14019875,  0.19503292],
+       [ 0.15105441,  0.0064583 , -0.1603775 ,  0.16818096, -0.22179885,
+        -0.36698502,  0.12694073, -0.1294238 , -0.21702135,  0.34743598],
+       [ 0.11475793, -0.08016841, -0.19020993,  0.27748483, -0.13198294,
+        -0.22254312,  0.19926155,  0.19124901, -0.08933976,  0.25242418],
+       [ 0.09380357, -0.02989926, -0.01782445,  0.00312767, -0.02519768,
+        -0.43802148, -0.00290839,  0.04753356, -0.02965541,  0.10304467],
+       [ 0.20286047, -0.07675526, -0.03217752,  0.17366095, -0.13799758,
+        -0.27491322,  0.00279245,  0.14233288, -0.05951798,  0.36937428],
+       [ 0.01445094, -0.07265921,  0.10096341,  0.17594802, -0.17472097,
+        -0.2958681 ,  0.0036519 ,  0.03119059, -0.2027646 , -0.01793122],
+       [-0.02391969, -0.10441571, -0.00624696,  0.06563509, -0.14965585,
+        -0.3743796 ,  0.0422266 ,  0.04684277,  0.05023851, -0.07264638]],
+      dtype=float32)>}
+
+```
+
+您还可以采用分布式方式加载和进行推断：
+
+```py
+another_strategy = tf.distribute.MirroredStrategy()
+with another_strategy.scope():
+  loaded = tf.saved_model.load(saved_model_path)
+  inference_func = loaded.signatures[DEFAULT_FUNCTION_KEY]
+
+  dist_predict_dataset = another_strategy.experimental_distribute_dataset(
+      predict_dataset)
+
+  # Calling the function in a distributed manner
+  for batch in dist_predict_dataset:
+    another_strategy.run(inference_func,args=(batch,)) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+Warning:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `experimental_run_v2` inside a tf.function to get the best performance.
+
+```
+
+调用已恢复的函数只是基于已保存模型的前向传递（预测）。如果您想继续训练加载的函数，或者将加载的函数嵌入到更大的模型中，应如何操作？ 通常的做法是将此加载对象包装到 Keras 层以实现此目的。幸运的是，[TF Hub](https://tensorflow.google.cn/hub) 为此提供了 [hub.KerasLayer](https://github.com/tensorflow/hub/blob/master/tensorflow_hub/keras_layer.py)，如下所示：
+
+```py
+import tensorflow_hub as hub
+
+def build_model(loaded):
+  x = tf.keras.layers.Input(shape=(28, 28, 1), name='input_x')
+  # Wrap what's loaded to a KerasLayer
+  keras_layer = hub.KerasLayer(loaded, trainable=True)(x)
+  model = tf.keras.Model(x, keras_layer)
+  return model
+
+another_strategy = tf.distribute.MirroredStrategy()
+with another_strategy.scope():
+  loaded = tf.saved_model.load(saved_model_path)
+  model = build_model(loaded)
+
+  model.compile(loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+                optimizer=tf.keras.optimizers.Adam(),
+                metrics=['accuracy'])
+  model.fit(train_dataset, epochs=2) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+Epoch 1/2
+938/938 [==============================] - 3s 3ms/step - loss: 0.2059 - accuracy: 0.9393
+Epoch 2/2
+938/938 [==============================] - 3s 3ms/step - loss: 0.0681 - accuracy: 0.9799
+
+```
+
+如您所见，[`hub.KerasLayer`](https://tensorflow.google.cn/hub/api_docs/python/hub/KerasLayer) 可将从 [`tf.saved_model.load()`](https://tensorflow.google.cn/api_docs/python/tf/saved_model/load) 加载回的结果包装到可供构建其他模型的 Keras 层。这对于迁移学习非常实用。
+
+### 我应使用哪种 API？
+
+对于保存，如果您使用的是 Keras 模型，那么始终建议使用 Keras 的 `model.save()` API。如果您所保存的不是 Keras 模型，那么您只能选择使用较低级的 API。
+
+对于加载，使用哪种 API 取决于您要从加载的 API 中获得什么。如果您无法或不想获取 Keras 模型，请使用 [`tf.saved_model.load()`](https://tensorflow.google.cn/api_docs/python/tf/saved_model/load)。否则，请使用 [`tf.keras.models.load_model()`](https://tensorflow.google.cn/api_docs/python/tf/keras/models/load_model)。请注意，只有保存 Keras 模型后，才能恢复 Keras 模型。
+
+可以混合使用 API。您可以使用 `model.save` 保存 Keras 模型，并使用低级 API [`tf.saved_model.load`](https://tensorflow.google.cn/api_docs/python/tf/saved_model/load) 加载非 Keras 模型。
+
+```py
+model = get_model()
+
+# Saving the model using Keras's save() API
+model.save(keras_model_path) 
+
+another_strategy = tf.distribute.MirroredStrategy()
+# Loading the model using lower level API
+with another_strategy.scope():
+  loaded = tf.saved_model.load(keras_model_path) 
+```
+
+```py
+INFO:tensorflow:Assets written to: /tmp/keras_save/assets
+
+INFO:tensorflow:Assets written to: /tmp/keras_save/assets
+
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+```
+
+### 警告
+
+有一种特殊情况，您的 Keras 模型没有明确定义的输入。例如，可以创建没有任何输入形状的序贯模型 (`Sequential([Dense(3), ...]`)。子类化模型在初始化后也没有明确定义的输入。在这种情况下，在保存和加载时都应坚持使用较低级别的 API，否则会出现错误。
+
+要检查您的模型是否具有明确定义的输入，只需检查 `model.inputs` 是否为 `None`。如果非 `None`，则一切正常。在 `.fit`、`.evaluate`、`.predict` 中使用模型，或调用模型 (`model(inputs)`) 时，输入形状将自动定义。
+
+以下为示例：
+
+```py
+class SubclassedModel(tf.keras.Model):
+
+  output_name = 'output_layer'
+
+  def __init__(self):
+    super(SubclassedModel, self).__init__()
+    self._dense_layer = tf.keras.layers.Dense(
+        5, dtype=tf.dtypes.float32, name=self.output_name)
+
+  def call(self, inputs):
+    return self._dense_layer(inputs)
+
+my_model = SubclassedModel()
+# my_model.save(keras_model_path)  # ERROR! 
+tf.saved_model.save(my_model, saved_model_path) 
+```
+
+```py
+WARNING:tensorflow:Skipping full serialization of Keras layer <__main__.SubclassedModel object at 0x7f96b1c92320>, because it is not built.
+
+Warning:tensorflow:Skipping full serialization of Keras layer <__main__.SubclassedModel object at 0x7f96b1c92320>, because it is not built.
+
+Warning:tensorflow:Skipping full serialization of Keras layer <tensorflow.python.keras.layers.core.Dense object at 0x7f96b1c92b70>, because it is not built.
+
+Warning:tensorflow:Skipping full serialization of Keras layer <tensorflow.python.keras.layers.core.Dense object at 0x7f96b1c92b70>, because it is not built.
+
+INFO:tensorflow:Assets written to: /tmp/tf_save/assets
+
+INFO:tensorflow:Assets written to: /tmp/tf_save/assets
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/039.md b/Tensorflow/TensorFlow2.0/039.md
new file mode 100644
index 00000000..b2995dda
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/039.md
@@ -0,0 +1,2216 @@
+# Distributed Input
+
+> 原文：[https://tensorflow.google.cn/tutorials/distribute/input](https://tensorflow.google.cn/tutorials/distribute/input)
+
+The [tf.distribute](https://tensorflow.google.cn/guide/distributed_training) APIs provide an easy way for users to scale their training from a single machine to multiple machines. When scaling their model, users also have to distribute their input across multiple devices. [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) provides APIs using which you can automatically distribute your input across devices.
+
+This guide will show you the different ways in which you can create distributed dataset and iterators using [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) APIs. Additionally, the following topics will be covered:
+
+*   Usage, sharding and batching options when using [`tf.distribute.Strategy.experimental_distribute_dataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#experimental_distribute_dataset) and `tf.distribute.Strategy.experimental_distribute_datasets_from_function`.
+*   Different ways in which you can iterate over the distributed dataset.
+*   Differences between [`tf.distribute.Strategy.experimental_distribute_dataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#experimental_distribute_dataset)/`tf.distribute.Strategy.experimental_distribute_datasets_from_function` APIs and [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) APIs as well any limitations that users may come across in their usage.
+
+This guide does not cover usage of distributed input with Keras APIs.
+
+## Distributed Datasets
+
+To use [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) APIs to scale, it is recommended that users use [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) to represent their input. [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) has been made to work efficiently with [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) (for example, automatic prefetch of data onto each accelerator device) with performance optimizations being regularly incorporated into the implementation. If you have a use case for using something other than [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset), please refer a later [section](/tutorials/distribute/%22tensorinputs%22) in this guide. In a non distributed training loop, users first create a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance and then iterate over the elements. For example:
+
+```py
+import tensorflow as tf
+
+# Helper libraries
+import numpy as np
+import os
+
+print(tf.__version__) 
+```
+
+```py
+2.4.0
+
+```
+
+```py
+global_batch_size = 16
+# Create a tf.data.Dataset object.
+dataset = tf.data.Dataset.from_tensors(([1.], [1.])).repeat(100).batch(global_batch_size)
+
+@tf.function
+def train_step(inputs):
+  features, labels = inputs
+  return labels - 0.3 * features
+
+# Iterate over the dataset using the for..in construct.
+for inputs in dataset:
+  print(train_step(inputs)) 
+```
+
+```py
+tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(4, 1), dtype=float32)
+
+```
+
+To allow users to use [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) strategy with minimal changes to a user’s existing code, two APIs were introduced which would distribute a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance and return a distributed dataset object. A user could then iterate over this distributed dataset instance and train their model as before. Let us now look at the two APIs - [`tf.distribute.Strategy.experimental_distribute_dataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#experimental_distribute_dataset) and `tf.distribute.Strategy.experimental_distribute_datasets_from_function` in more detail:
+
+### [`tf.distribute.Strategy.experimental_distribute_dataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#experimental_distribute_dataset)
+
+#### Usage
+
+This API takes a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance as input and returns a [`tf.distribute.DistributedDataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedDataset) instance. You should batch the input dataset with a value that is equal to the global batch size. This global batch size is the number of samples that you want to process across all devices in 1 step. You can iterate over this distributed dataset in a Pythonic fashion or create an iterator using `iter`. The returned object is not a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance and does not support any other APIs that transform or inspect the dataset in any way. This is the recommended API if you don’t have specific ways in which you want to shard your input over different replicas.
+
+```py
+global_batch_size = 16
+mirrored_strategy = tf.distribute.MirroredStrategy()
+
+dataset = tf.data.Dataset.from_tensors(([1.], [1.])).repeat(100).batch(global_batch_size)
+# Distribute input using the `experimental_distribute_dataset`.
+dist_dataset = mirrored_strategy.experimental_distribute_dataset(dataset)
+# 1 global batch of data fed to the model in 1 step.
+print(next(iter(dist_dataset))) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+(<tf.Tensor: shape=(16, 1), dtype=float32, numpy=
+array([[1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.]], dtype=float32)>, <tf.Tensor: shape=(16, 1), dtype=float32, numpy=
+array([[1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.],
+       [1.]], dtype=float32)>)
+
+```
+
+#### Properties
+
+##### Batching
+
+[`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) rebatches the input [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance with a new batch size that is equal to the global batch size divided by the number of replicas in sync. The number of replicas in sync is equal to the number of devices that are taking part in the gradient allreduce during training. When a user calls `next` on the distributed iterator, a per replica batch size of data is returned on each replica. The rebatched dataset cardinality will always be a multiple of the number of replicas. Here are a couple of examples:
+
+*   `tf.data.Dataset.range(6).batch(4, drop_remainder=False)`
+
+    *   Without distribution:
+    *   Batch 1: [0, 1, 2, 3]
+    *   Batch 2: [4, 5]
+    *   With distribution over 2 replicas. The last batch ([4, 5]) is split between 2 replicas.
+
+    *   Batch 1:
+
+        *   Replica 1:[0, 1]
+        *   Replica 2:[2, 3]
+    *   Batch 2:
+
+        *   Replica 2: [4]
+        *   Replica 2: [5]
+*   `tf.data.Dataset.range(4).batch(4)`
+
+    *   Without distribution:
+    *   Batch 1: [[0], [1], [2], [3]]
+    *   With distribution over 5 replicas:
+    *   Batch 1:
+        *   Replica 1: [0]
+        *   Replica 2: [1]
+        *   Replica 3: [2]
+        *   Replica 4: [3]
+        *   Replica 5: []
+*   `tf.data.Dataset.range(8).batch(4)`
+
+    *   Without distribution:
+    *   Batch 1: [0, 1, 2, 3]
+    *   Batch 2: [4, 5, 6, 7]
+    *   With distribution over 3 replicas:
+    *   Batch 1:
+        *   Replica 1: [0, 1]
+        *   Replica 2: [2, 3]
+        *   Replica 3: []
+    *   Batch 2:
+        *   Replica 1: [4, 5]
+        *   Replica 2: [6, 7]
+        *   Replica 3: []
+
+**Note:** The above examples only illustrate how a global batch is split on different replicas. It is not advisable to depend on the actual values that might end up on each replica as it can change depending on the implementation.
+
+Rebatching the dataset has a space complexity that increases linearly with the number of replicas. This means that for the multi worker training use case the input pipeline can run into OOM errors.
+
+##### Sharding
+
+[`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) also autoshards the input dataset in multi worker training with `MultiWorkerMirroredStrategy` and `TPUStrategy`. Each dataset is created on the CPU device of the worker. Autosharding a dataset over a set of workers means that each worker is assigned a subset of the entire dataset (if the right [`tf.data.experimental.AutoShardPolicy`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/AutoShardPolicy) is set). This is to ensure that at each step, a global batch size of non overlapping dataset elements will be processed by each worker. Autosharding has a couple of different options that can be specified using [`tf.data.experimental.DistributeOptions`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/DistributeOptions). Note that there is no autosharding in multi worker training with `ParameterServerStrategy`, and more information on dataset creation with this strategy can be found in the [Parameter Server Strategy tutorial](/tutorials/distribute/parameter_server_training).
+
+```py
+dataset = tf.data.Dataset.from_tensors(([1.],[1.])).repeat(64).batch(16)
+options = tf.data.Options()
+options.experimental_distribute.auto_shard_policy = tf.data.experimental.AutoShardPolicy.DATA
+dataset = dataset.with_options(options) 
+```
+
+There are three different options that you can set for the [`tf.data.experimental.AutoShardPolicy`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/AutoShardPolicy):
+
+*   AUTO: This is the default option which means an attempt will be made to shard by FILE. The attempt to shard by FILE fails if a file-based dataset is not detected. [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) will then fall back to sharding by DATA. Note that if the input dataset is file-based but the number of files is less than the number of workers, an `InvalidArgumentError` will be raised. If this happens, explicitly set the policy to [`AutoShardPolicy.DATA`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/AutoShardPolicy#DATA), or split your input source into smaller files such that number of files is greater than number of workers.
+*   FILE: This is the option if you want to shard the input files over all the workers. You should use this option if the number of input files is much larger than the number of workers and the data in the files is evenly distributed. The downside of this option is having idle workers if the data in the files is not evenly distributed. If the number of files is less than the number of workers, an `InvalidArgumentError` will be raised. If this happens, explicitly set the policy to [`AutoShardPolicy.DATA`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/AutoShardPolicy#DATA). For example, let us distribute 2 files over 2 workers with 1 replica each. File 1 contains [0, 1, 2, 3, 4, 5] and File 2 contains [6, 7, 8, 9, 10, 11]. Let the total number of replicas in sync be 2 and global batch size be 4.
+
+    *   Worker 0:
+    *   Batch 1 = Replica 1: [0, 1]
+    *   Batch 2 = Replica 1: [2, 3]
+    *   Batch 3 = Replica 1: [4]
+    *   Batch 4 = Replica 1: [5]
+    *   Worker 1:
+    *   Batch 1 = Replica 2: [6, 7]
+    *   Batch 2 = Replica 2: [8, 9]
+    *   Batch 3 = Replica 2: [10]
+    *   Batch 4 = Replica 2: [11]
+*   DATA: This will autoshard the elements across all the workers. Each of the workers will read the entire dataset and only process the shard assigned to it. All other shards will be discarded. This is generally used if the number of input files is less than the number of workers and you want better sharding of data across all workers. The downside is that the entire dataset will be read on each worker. For example, let us distribute 1 files over 2 workers. File 1 contains [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]. Let the total number of replicas in sync be 2.
+
+    *   Worker 0:
+    *   Batch 1 = Replica 1: [0, 1]
+    *   Batch 2 = Replica 1: [4, 5]
+    *   Batch 3 = Replica 1: [8, 9]
+    *   Worker 1:
+    *   Batch 1 = Replica 2: [2, 3]
+    *   Batch 2 = Replica 2: [6, 7]
+    *   Batch 3 = Replica 2: [10, 11]
+*   OFF: If you turn off autosharding, each worker will process all the data. For example, let us distribute 1 files over 2 workers. File 1 contains [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]. Let the total number of replicas in sync be 2\. Then each worker will see the following distribution:
+
+    *   Worker 0:
+    *   Batch 1 = Replica 1: [0, 1]
+    *   Batch 2 = Replica 1: [2, 3]
+    *   Batch 3 = Replica 1: [4, 5]
+    *   Batch 4 = Replica 1: [6, 7]
+    *   Batch 5 = Replica 1: [8, 9]
+    *   Batch 6 = Replica 1: [10, 11]
+
+    *   Worker 1:
+
+    *   Batch 1 = Replica 2: [0, 1]
+
+    *   Batch 2 = Replica 2: [2, 3]
+
+    *   Batch 3 = Replica 2: [4, 5]
+
+    *   Batch 4 = Replica 2: [6, 7]
+
+    *   Batch 5 = Replica 2: [8, 9]
+
+    *   Batch 6 = Replica 2: [10, 11]
+
+##### Prefetching
+
+By default, [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) adds a prefetch transformation at the end of the user provided [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance. The argument to the prefetch transformation which is `buffer_size` is equal to the number of replicas in sync.
+
+### `tf.distribute.Strategy.experimental_distribute_datasets_from_function`
+
+#### Usage
+
+This API takes an input function and returns a [`tf.distribute.DistributedDataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedDataset) instance. The input function that users pass in has a [`tf.distribute.InputContext`](https://tensorflow.google.cn/api_docs/python/tf/distribute/InputContext) argument and should return a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance. With this API, [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) does not make any further changes to the user’s [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance returned from the input function. It is the responsibility of the user to batch and shard the dataset. [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) calls the input function on the CPU device of each of the workers. Apart from allowing users to specify their own batching and sharding logic, this API also demonstrates better scalability and performance compared to [`tf.distribute.Strategy.experimental_distribute_dataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#experimental_distribute_dataset) when used for multi worker training.
+
+```py
+mirrored_strategy = tf.distribute.MirroredStrategy()
+
+def dataset_fn(input_context):
+  batch_size = input_context.get_per_replica_batch_size(global_batch_size)
+  dataset = tf.data.Dataset.from_tensors(([1.],[1.])).repeat(64).batch(16)
+  dataset = dataset.shard(
+    input_context.num_input_pipelines, input_context.input_pipeline_id)
+  dataset = dataset.batch(batch_size)
+  dataset = dataset.prefetch(2) # This prefetches 2 batches per device.
+  return dataset
+
+dist_dataset = mirrored_strategy.experimental_distribute_datasets_from_function(dataset_fn) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+WARNING:tensorflow:From <ipython-input-1-fae0baaaedb8>:12: StrategyBase.experimental_distribute_datasets_from_function (from tensorflow.python.distribute.distribute_lib) is deprecated and will be removed in a future version.
+Instructions for updating:
+rename to distribute_datasets_from_function
+
+```
+
+#### Properties
+
+##### Batching
+
+The [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance that is the return value of the input function should be batched using the per replica batch size. The per replica batch size is the global batch size divided by the number of replicas that are taking part in sync training. This is because [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) calls the input function on the CPU device of each of the workers. The dataset that is created on a given worker should be ready to use by all the replicas on that worker.
+
+##### Sharding
+
+The [`tf.distribute.InputContext`](https://tensorflow.google.cn/api_docs/python/tf/distribute/InputContext) object that is implicitly passed as an argument to the user’s input function is created by [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) under the hood. It has information about the number of workers, current worker id etc. This input function can handle sharding as per policies set by the user using these properties that are part of the [`tf.distribute.InputContext`](https://tensorflow.google.cn/api_docs/python/tf/distribute/InputContext) object.
+
+##### Prefetching
+
+[`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) does not add a prefetch transformation at the end of the [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) returned by the user provided input function.
+
+**Note:** Both [`tf.distribute.Strategy.experimental_distribute_dataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#experimental_distribute_dataset) and `tf.distribute.Strategy.experimental_distribute_datasets_from_function` return **[`tf.distribute.DistributedDataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedDataset) instances that are not of type [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)**. You can iterate over these instances (as shown in the Distributed Iterators section) and use the `element_spec` property.
+
+## Distributed Iterators
+
+Similar to non-distributed [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instances, you will need to create an iterator on the [`tf.distribute.DistributedDataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedDataset) instances to iterate over it and access the elements in the [`tf.distribute.DistributedDataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedDataset). The following are the ways in which you can create an [`tf.distribute.DistributedIterator`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedIterator) and use it to train your model:
+
+### Usages
+
+#### Use a Pythonic for loop construct
+
+You can use a user friendly Pythonic loop to iterate over the [`tf.distribute.DistributedDataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedDataset). The elements returned from the [`tf.distribute.DistributedIterator`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedIterator) can be a single [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) or a [`tf.distribute.DistributedValues`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedValues) which contains a value per replica. Placing the loop inside a [`tf.function`](https://tensorflow.google.cn/api_docs/python/tf/function) will give a performance boost. However, `break` and `return` are currently not supported for a loop over a [`tf.distribute.DistributedDataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedDataset) that is placed inside of a [`tf.function`](https://tensorflow.google.cn/api_docs/python/tf/function).
+
+```py
+global_batch_size = 16
+mirrored_strategy = tf.distribute.MirroredStrategy()
+
+dataset = tf.data.Dataset.from_tensors(([1.],[1.])).repeat(100).batch(global_batch_size)
+dist_dataset = mirrored_strategy.experimental_distribute_dataset(dataset)
+
+@tf.function
+def train_step(inputs):
+  features, labels = inputs
+  return labels - 0.3 * features
+
+for x in dist_dataset:
+  # train_step trains the model using the dataset elements
+  loss = mirrored_strategy.run(train_step, args=(x,))
+  print("Loss is ", loss) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(4, 1), dtype=float32)
+
+```
+
+#### Use `iter` to create an explicit iterator
+
+To iterate over the elements in a [`tf.distribute.DistributedDataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedDataset) instance, you can create a [`tf.distribute.DistributedIterator`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedIterator) using the `iter` API on it. With an explicit iterator, you can iterate for a fixed number of steps. In order to get the next element from an [`tf.distribute.DistributedIterator`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedIterator) instance `dist_iterator`, you can call `next(dist_iterator)`, `dist_iterator.get_next()`, or `dist_iterator.get_next_as_optional()`. The former two are essentially the same:
+
+```py
+num_epochs = 10
+steps_per_epoch = 5
+for epoch in range(num_epochs):
+  dist_iterator = iter(dist_dataset)
+  for step in range(steps_per_epoch):
+    # train_step trains the model using the dataset elements
+    loss = mirrored_strategy.run(train_step, args=(next(dist_iterator),))
+    # which is the same as
+    # loss = mirrored_strategy.run(train_step, args=(dist_iterator.get_next(),))
+    print("Loss is ", loss) 
+```
+
+```py
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+Loss is  tf.Tensor(
+[[0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]
+ [0.7]], shape=(16, 1), dtype=float32)
+
+```
+
+With `next()` or [`tf.distribute.DistributedIterator.get_next()`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedIterator#get_next), if the [`tf.distribute.DistributedIterator`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedIterator) has reached its end, an OutOfRange error will be thrown. The client can catch the error on python side and continue doing other work such as checkpointing and evaluation. However, this will not work if you are using a host training loop (i.e., run multiple steps per [`tf.function`](https://tensorflow.google.cn/api_docs/python/tf/function)), which looks like:
+
+```py
+@tf.function
+def train_fn(iterator):
+  for _ in tf.range(steps_per_loop):
+    strategy.run(step_fn, args=(next(iterator),)) 
+```
+
+`train_fn` contains multiple steps by wrapping the step body inside a [`tf.range`](https://tensorflow.google.cn/api_docs/python/tf/range). In this case, different iterations in the loop with no dependency could start in parallel, so an OutOfRange error can be triggered in later iterations before the computation of previous iterations finishes. Once an OutOfRange error is thrown, all the ops in the function will be terminated right away. If this is some case that you would like to avoid, an alternative that does not throw an OutOfRange error is [`tf.distribute.DistributedIterator.get_next_as_optional()`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedIterator#get_next_as_optional). `get_next_as_optional` returns a [`tf.experimental.Optional`](https://tensorflow.google.cn/api_docs/python/tf/experimental/Optional) which contains the next element or no value if the [`tf.distribute.DistributedIterator`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedIterator) has reached to an end.
+
+```py
+# You can break the loop with get_next_as_optional by checking if the Optional contains value
+global_batch_size = 4
+steps_per_loop = 5
+strategy = tf.distribute.MirroredStrategy(devices=["GPU:0", "CPU:0"])
+
+dataset = tf.data.Dataset.range(9).batch(global_batch_size)
+distributed_iterator = iter(strategy.experimental_distribute_dataset(dataset))
+
+@tf.function
+def train_fn(distributed_iterator):
+  for _ in tf.range(steps_per_loop):
+    optional_data = distributed_iterator.get_next_as_optional()
+    if not optional_data.has_value():
+      break
+    per_replica_results = strategy.run(lambda x:x, args=(optional_data.get_value(),))
+    tf.print(strategy.experimental_local_results(per_replica_results))
+train_fn(distributed_iterator) 
+```
+
+```py
+WARNING:tensorflow:There are non-GPU devices in `tf.distribute.Strategy`, not using nccl allreduce.
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0', '/job:localhost/replica:0/task:0/device:CPU:0')
+([0 1], [2 3])
+([4 5], [6 7])
+([8], [])
+
+```
+
+## Using `element_spec` property
+
+If you pass the elements of a distributed dataset to a [`tf.function`](https://tensorflow.google.cn/api_docs/python/tf/function) and want a [`tf.TypeSpec`](https://tensorflow.google.cn/api_docs/python/tf/TypeSpec) guarantee, you can specify the `input_signature` argument of the [`tf.function`](https://tensorflow.google.cn/api_docs/python/tf/function). The output of a distributed dataset is [`tf.distribute.DistributedValues`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedValues) which can represent the input to a single device or multiple devices. To get the [`tf.TypeSpec`](https://tensorflow.google.cn/api_docs/python/tf/TypeSpec) corresponding to this distributed value you can use the `element_spec` property of the distributed dataset or distributed iterator object.
+
+```py
+global_batch_size = 16
+epochs = 5
+steps_per_epoch = 5
+mirrored_strategy = tf.distribute.MirroredStrategy()
+
+dataset = tf.data.Dataset.from_tensors(([1.],[1.])).repeat(100).batch(global_batch_size)
+dist_dataset = mirrored_strategy.experimental_distribute_dataset(dataset)
+
+@tf.function(input_signature=[dist_dataset.element_spec])
+def train_step(per_replica_inputs):
+  def step_fn(inputs):
+    return 2 * inputs
+
+  return mirrored_strategy.run(step_fn, args=(per_replica_inputs,))
+
+for _ in range(epochs):
+  iterator = iter(dist_dataset)
+  for _ in range(steps_per_epoch):
+    output = train_step(next(iterator))
+    tf.print(output) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+([[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]], [[1]
+ [1]
+ [1]
+ ...
+ [1]
+ [1]
+ [1]])
+
+```
+
+## Partial Batches
+
+Partial batches are encountered when [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instances that users create may contain batch sizes that are not evenly divisible by the number of replicas or when the cardinality of the dataset instance is not divisible by the batch size. This means that when the dataset is distributed over multiple replicas, the `next` call on some iterators will result in an OutOfRangeError. To handle this use case, [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) returns dummy batches of batch size 0 on replicas that do not have any more data to process.
+
+For the single worker case, if data is not returned by the `next` call on the iterator, dummy batches of 0 batch size are created and used along with the real data in the dataset. In the case of partial batches, the last global batch of data will contain real data alongside dummy batches of data. The stopping condition for processing data now checks if any of the replicas have data. If there is no data on any of the replicas, an OutOfRange error is thrown.
+
+For the multi worker case, the boolean value representing presence of data on each of the workers is aggregated using cross replica communication and this is used to identify if all the workers have finished processing the distributed dataset. Since this involves cross worker communication there is some performance penalty involved.
+
+## Caveats
+
+*   When using [`tf.distribute.Strategy.experimental_distribute_dataset`](https://tensorflow.google.cn/api_docs/python/tf/distribute/Strategy#experimental_distribute_dataset) APIs with a multiple worker setup, users pass a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) that reads from files. If the [`tf.data.experimental.AutoShardPolicy`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/AutoShardPolicy) is set to `AUTO` or `FILE`, the actual per step batch size may be smaller than the user defined global batch size. This can happen when the remaining elements in the file are less than the global batch size. Users can either exhaust the dataset without depending on the number of steps to run or set [`tf.data.experimental.AutoShardPolicy`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/AutoShardPolicy) to `DATA` to work around it.
+
+*   Stateful dataset transformations are currently not supported with [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) and any stateful ops that the dataset may have are currently ignored. For example, if your dataset has a `map_fn` that uses [`tf.random.uniform`](https://tensorflow.google.cn/api_docs/python/tf/random/uniform) to rotate an image, then you have a dataset graph that depends on state (i.e the random seed) on the local machine where the python process is being executed.
+
+*   Experimental [`tf.data.experimental.OptimizationOptions`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/OptimizationOptions) that are disabled by default can in certain contexts -- such as when used together with [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) -- cause a performance degradation. You should only enable them after you validate that they benefit the performance of your workload in a distribute setting.
+
+*   Please refer to [this guide](https://tensorflow.google.cn/guide/data_performance) for how to optimize your input pipeline with [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) in general. A few additional tips:
+
+    *   If you have multiple workers and are using [`tf.data.Dataset.list_files`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#list_files) to create a dataset from all files matching one or more glob patterns, remember to set the `seed` argument or set `shuffle=False` so that each worker shard the file consistently.
+
+    *   If your input pipeline includes both shuffling the data on record level and parsing the data, unless the unparsed data is significantly larger than the parsed data (which is usually not the case), shuffle first and then parse, as shown in the following example. This may benefit memory usage and performance.
+
+```py
+d = tf.data.Dataset.list_files(pattern, shuffle=False)
+d = d.shard(num_workers, worker_index)
+d = d.repeat(num_epochs)
+d = d.shuffle(shuffle_buffer_size)
+d = d.interleave(tf.data.TFRecordDataset,
+                 cycle_length=num_readers, block_length=1)
+d = d.map(parser_fn, num_parallel_calls=num_map_threads) 
+```
+
+*   [`tf.data.Dataset.shuffle(buffer_size, seed=None, reshuffle_each_iteration=None)`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#shuffle) maintain an internal buffer of `buffer_size` elements, and thus reducing `buffer_size` could aleviate OOM issue.
+
+*   The order in which the data is processed by the workers when using `tf.distribute.experimental_distribute_dataset` or `tf.distribute.experimental_distribute_datasets_from_function` is not guaranteed. This is typically required if you are using [`tf.distribute`](https://tensorflow.google.cn/api_docs/python/tf/distribute) to scale prediction. You can however insert an index for each element in the batch and order outputs accordingly. The following snippet is an example of how to order outputs.
+
+**Note:** [`tf.distribute.MirroredStrategy()`](https://tensorflow.google.cn/api_docs/python/tf/distribute/MirroredStrategy) is used here for the sake of convenience. We only need to reorder inputs when we are using multiple workers and [`tf.distribute.MirroredStrategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/MirroredStrategy) is used to distribute training on a single worker.
+
+```py
+mirrored_strategy = tf.distribute.MirroredStrategy()
+dataset_size = 24
+batch_size = 6
+dataset = tf.data.Dataset.range(dataset_size).enumerate().batch(batch_size)
+dist_dataset = mirrored_strategy.experimental_distribute_dataset(dataset)
+
+def predict(index, inputs):
+  outputs = 2 * inputs
+  return index, outputs
+
+result = {}
+for index, inputs in dist_dataset:
+  output_index, outputs = mirrored_strategy.run(predict, args=(index, inputs))
+  indices = list(mirrored_strategy.experimental_local_results(output_index))
+  rindices = []
+  for a in indices:
+    rindices.extend(a.numpy())
+  outputs = list(mirrored_strategy.experimental_local_results(outputs))
+  routputs = []
+  for a in outputs:
+    routputs.extend(a.numpy())
+  for i, value in zip(rindices, routputs):
+    result[i] = value
+
+print(result) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+WARNING:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `run` inside a tf.function to get the best performance.
+WARNING:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `run` inside a tf.function to get the best performance.
+WARNING:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `run` inside a tf.function to get the best performance.
+WARNING:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `run` inside a tf.function to get the best performance.
+{0: 0, 1: 2, 2: 4, 3: 6, 4: 8, 5: 10, 6: 12, 7: 14, 8: 16, 9: 18, 10: 20, 11: 22, 12: 24, 13: 26, 14: 28, 15: 30, 16: 32, 17: 34, 18: 36, 19: 38, 20: 40, 21: 42, 22: 44, 23: 46}
+
+```
+
+## How do I distribute my data if I am not using a canonical tf.data.Dataset instance?
+
+Sometimes users cannot use a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) to represent their input and subsequently the above mentioned APIs to distribute the dataset to multiple devices. In such cases you can use raw tensors or inputs from a generator.
+
+### Use experimental_distribute_values_from_function for arbitrary tensor inputs
+
+`strategy.run` accepts [`tf.distribute.DistributedValues`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedValues) which is the output of `next(iterator)`. To pass the tensor values, use `experimental_distribute_values_from_function` to construct [`tf.distribute.DistributedValues`](https://tensorflow.google.cn/api_docs/python/tf/distribute/DistributedValues) from raw tensors.
+
+```py
+mirrored_strategy = tf.distribute.MirroredStrategy()
+worker_devices = mirrored_strategy.extended.worker_devices
+
+def value_fn(ctx):
+  return tf.constant(1.0)
+
+distributed_values = mirrored_strategy.experimental_distribute_values_from_function(value_fn)
+for _ in range(4):
+  result = mirrored_strategy.run(lambda x:x, args=(distributed_values,))
+  print(result) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+WARNING:tensorflow:Using MirroredStrategy eagerly has significant overhead currently. We will be working on improving this in the future, but for now please wrap `call_for_each_replica` or `experimental_run` or `run` inside a tf.function to get the best performance.
+tf.Tensor(1.0, shape=(), dtype=float32)
+tf.Tensor(1.0, shape=(), dtype=float32)
+tf.Tensor(1.0, shape=(), dtype=float32)
+tf.Tensor(1.0, shape=(), dtype=float32)
+
+```
+
+### Use tf.data.Dataset.from_generator if your input is from a generator
+
+If you have a generator function that you want to use, you can create a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) instance using the `from_generator` API.
+
+**Note:** This is currently not supported for [`tf.distribute.TPUStrategy`](https://tensorflow.google.cn/api_docs/python/tf/distribute/TPUStrategy).
+
+```py
+mirrored_strategy = tf.distribute.MirroredStrategy()
+def input_gen():
+  while True:
+    yield np.random.rand(4)
+
+# use Dataset.from_generator
+dataset = tf.data.Dataset.from_generator(
+    input_gen, output_types=(tf.float32), output_shapes=tf.TensorShape([4]))
+dist_dataset = mirrored_strategy.experimental_distribute_dataset(dataset)
+iterator = iter(dist_dataset)
+for _ in range(4):
+  mirrored_strategy.run(lambda x:x, args=(next(iterator),)) 
+```
+
+```py
+INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/040.md b/Tensorflow/TensorFlow2.0/040.md
new file mode 100644
index 00000000..b580f28c
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/040.md
@@ -0,0 +1 @@
+# 图像
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/041.md b/Tensorflow/TensorFlow2.0/041.md
new file mode 100644
index 00000000..2c2e17a8
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/041.md
@@ -0,0 +1,207 @@
+# 卷积神经网络（Convolutional Neural Network, CNN）
+
+> 原文：[https://tensorflow.google.cn/tutorials/images/cnn](https://tensorflow.google.cn/tutorials/images/cnn)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs-l10n](https://github.com/tensorflow/docs-l10n) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+### 导入 TensorFlow
+
+```py
+import tensorflow as tf
+
+from tensorflow.keras import datasets, layers, models
+import matplotlib.pyplot as plt 
+```
+
+### 下载并准备 CIFAR10 数据集
+
+CIFAR10 数据集包含 10 类，共 60000 张彩色图片，每类图片有 6000 张。此数据集中 50000 个样例被作为训练集，剩余 10000 个样例作为测试集。类之间相互度立，不存在重叠的部分。
+
+```py
+(train_images, train_labels), (test_images, test_labels) = datasets.cifar10.load_data()
+
+# 将像素的值标准化至 0 到 1 的区间内。
+train_images, test_images = train_images / 255.0, test_images / 255.0 
+```
+
+### 验证数据
+
+我们将测试集的前 25 张图片和类名打印出来，来确保数据集被正确加载。
+
+```py
+class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer',
+               'dog', 'frog', 'horse', 'ship', 'truck']
+
+plt.figure(figsize=(10,10))
+for i in range(25):
+    plt.subplot(5,5,i+1)
+    plt.xticks([])
+    plt.yticks([])
+    plt.grid(False)
+    plt.imshow(train_images[i], cmap=plt.cm.binary)
+    # 由于 CIFAR 的标签是 array， 
+    # 因此您需要额外的索引（index）。
+    plt.xlabel(class_names[train_labels[i][0]])
+plt.show() 
+```
+
+![png](img/25a15211c7a5c4ce6da843197b4b85eb.png)
+
+### 构造卷积神经网络模型
+
+下方展示的 6 行代码声明了了一个常见卷积神经网络，由几个 [Conv2D](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Conv2D) 和 [MaxPooling2D](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/MaxPool2D) 层组成。
+
+CNN 的输入是张量 (Tensor) 形式的 (image_height, image_width, color_channels)，包含了图像高度、宽度及颜色信息。不需要输入 batch size。如果您不熟悉图像处理，颜色信息建议您使用 RGB 色彩模式，此模式下，`color_channels` 为 `(R,G,B)` 分别对应 RGB 的三个颜色通道（color channel）。在此示例中，我们的 CNN 输入，CIFAR 数据集中的图片，形状是 `(32, 32, 3)`。您可以在声明第一层时将形状赋值给参数 `input_shape` 。
+
+```py
+model = models.Sequential()
+model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)))
+model.add(layers.MaxPooling2D((2, 2)))
+model.add(layers.Conv2D(64, (3, 3), activation='relu'))
+model.add(layers.MaxPooling2D((2, 2)))
+model.add(layers.Conv2D(64, (3, 3), activation='relu')) 
+```
+
+我们声明的 CNN 结构是：
+
+```py
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+conv2d (Conv2D)              (None, 30, 30, 32)        896       
+_________________________________________________________________
+max_pooling2d (MaxPooling2D) (None, 15, 15, 32)        0         
+_________________________________________________________________
+conv2d_1 (Conv2D)            (None, 13, 13, 64)        18496     
+_________________________________________________________________
+max_pooling2d_1 (MaxPooling2 (None, 6, 6, 64)          0         
+_________________________________________________________________
+conv2d_2 (Conv2D)            (None, 4, 4, 64)          36928     
+=================================================================
+Total params: 56,320
+Trainable params: 56,320
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+在上面的结构中，您可以看到每个 Conv2D 和 MaxPooling2D 层的输出都是一个三维的张量 (Tensor)，其形状描述了 (height, width, channels)。越深的层中，宽度和高度都会收缩。每个 Conv2D 层输出的通道数量 (channels) 取决于声明层时的第一个参数（如：上面代码中的 32 或 64）。这样，由于宽度和高度的收缩，您便可以（从运算的角度）增加每个 Conv2D 层输出的通道数量 (channels)。
+
+### 增加 Dense 层
+
+*Dense 层等同于全连接 (Full Connected) 层。*
+在模型的最后，您将把卷积后的输出张量（本例中形状为 (4, 4, 64)）传给一个或多个 Dense 层来完成分类。Dense 层的输入为向量（一维），但前面层的输出是 3 维的张量 (Tensor)。因此您需要将三维张量展开 (flatten) 到 1 维，之后再传入一个或多个 Dense 层。CIFAR 数据集有 10 个类，因此您最终的 Dense 层需要 10 个输出及一个 softmax 激活函数。
+
+```py
+model.add(layers.Flatten())
+model.add(layers.Dense(64, activation='relu'))
+model.add(layers.Dense(10)) 
+```
+
+查看完整的 CNN 结构：
+
+```py
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+conv2d (Conv2D)              (None, 30, 30, 32)        896       
+_________________________________________________________________
+max_pooling2d (MaxPooling2D) (None, 15, 15, 32)        0         
+_________________________________________________________________
+conv2d_1 (Conv2D)            (None, 13, 13, 64)        18496     
+_________________________________________________________________
+max_pooling2d_1 (MaxPooling2 (None, 6, 6, 64)          0         
+_________________________________________________________________
+conv2d_2 (Conv2D)            (None, 4, 4, 64)          36928     
+_________________________________________________________________
+flatten (Flatten)            (None, 1024)              0         
+_________________________________________________________________
+dense (Dense)                (None, 64)                65600     
+_________________________________________________________________
+dense_1 (Dense)              (None, 10)                650       
+=================================================================
+Total params: 122,570
+Trainable params: 122,570
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+可以看出，在被传入两个 Dense 层之前，形状为 (4, 4, 64) 的输出被展平成了形状为 (1024) 的向量。
+
+### 编译并训练模型
+
+```py
+model.compile(optimizer='adam',
+              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+              metrics=['accuracy'])
+
+history = model.fit(train_images, train_labels, epochs=10, 
+                    validation_data=(test_images, test_labels)) 
+```
+
+```py
+Epoch 1/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 1.5143 - accuracy: 0.4469 - val_loss: 1.2281 - val_accuracy: 0.5585
+Epoch 2/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 1.1625 - accuracy: 0.5855 - val_loss: 1.2102 - val_accuracy: 0.5660
+Epoch 3/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 1.0049 - accuracy: 0.6458 - val_loss: 0.9935 - val_accuracy: 0.6511
+Epoch 4/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 0.9089 - accuracy: 0.6801 - val_loss: 0.9658 - val_accuracy: 0.6536
+Epoch 5/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 0.8341 - accuracy: 0.7066 - val_loss: 0.9890 - val_accuracy: 0.6581
+Epoch 6/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 0.7797 - accuracy: 0.7272 - val_loss: 0.8948 - val_accuracy: 0.6891
+Epoch 7/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 0.7287 - accuracy: 0.7437 - val_loss: 0.9004 - val_accuracy: 0.6947
+Epoch 8/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 0.6858 - accuracy: 0.7609 - val_loss: 0.8284 - val_accuracy: 0.7191
+Epoch 9/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 0.6448 - accuracy: 0.7736 - val_loss: 0.8752 - val_accuracy: 0.7096
+Epoch 10/10
+1563/1563 [==============================] - 5s 3ms/step - loss: 0.6117 - accuracy: 0.7855 - val_loss: 0.8524 - val_accuracy: 0.7204
+
+```
+
+### 评估模型
+
+```py
+plt.plot(history.history['accuracy'], label='accuracy')
+plt.plot(history.history['val_accuracy'], label = 'val_accuracy')
+plt.xlabel('Epoch')
+plt.ylabel('Accuracy')
+plt.ylim([0.5, 1])
+plt.legend(loc='lower right')
+plt.show()
+
+test_loss, test_acc = model.evaluate(test_images,  test_labels, verbose=2) 
+```
+
+![png](img/9564eb108080dfcb0a0231e7db795b06.png)
+
+```py
+313/313 - 1s - loss: 0.8524 - accuracy: 0.7204
+
+```
+
+```py
+print(test_acc) 
+```
+
+```py
+0.7203999757766724
+
+```
+
+我们搭建的简单的 CNN 模型在测试集上可以达到 70% 的准确率。对于只有几行的代码来说效果不错！对于另一种 CNN 结构可参考另一个使用的基于 Keras 子类 API 和 [`tf.GradientTape`](https://tensorflow.google.cn/api_docs/python/tf/GradientTape) 的样例 [here](https://tensorflow.google.cn/tutorials/quickstart/advanced)。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/042.md b/Tensorflow/TensorFlow2.0/042.md
new file mode 100644
index 00000000..570f292a
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/042.md
@@ -0,0 +1,603 @@
+# Image classification
+
+> 原文：[https://tensorflow.google.cn/tutorials/images/classification](https://tensorflow.google.cn/tutorials/images/classification)
+
+This tutorial shows how to classify images of flowers. It creates an image classifier using a [`keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) model, and loads data using [`preprocessing.image_dataset_from_directory`](https://tensorflow.google.cn/api_docs/python/tf/keras/preprocessing/image_dataset_from_directory). You will gain practical experience with the following concepts:
+
+*   Efficiently loading a dataset off disk.
+*   Identifying overfitting and applying techniques to mitigate it, including data augmentation and Dropout.
+
+This tutorial follows a basic machine learning workflow:
+
+1.  Examine and understand data
+2.  Build an input pipeline
+3.  Build the model
+4.  Train the model
+5.  Test the model
+6.  Improve the model and repeat the process
+
+## Import TensorFlow and other libraries
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import os
+import PIL
+import tensorflow as tf
+
+from tensorflow import keras
+from tensorflow.keras import layers
+from tensorflow.keras.models import Sequential 
+```
+
+## Download and explore the dataset
+
+This tutorial uses a dataset of about 3,700 photos of flowers. The dataset contains 5 sub-directories, one per class:
+
+```py
+flower_photo/
+  daisy/
+  dandelion/
+  roses/
+  sunflowers/
+  tulips/ 
+```
+
+```py
+import pathlib
+dataset_url = "https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz"
+data_dir = tf.keras.utils.get_file('flower_photos', origin=dataset_url, untar=True)
+data_dir = pathlib.Path(data_dir) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz
+228818944/228813984 [==============================] - 5s 0us/step
+
+```
+
+After downloading, you should now have a copy of the dataset available. There are 3,670 total images:
+
+```py
+image_count = len(list(data_dir.glob('*/*.jpg')))
+print(image_count) 
+```
+
+```py
+3670
+
+```
+
+Here are some roses:
+
+```py
+roses = list(data_dir.glob('roses/*'))
+PIL.Image.open(str(roses[0])) 
+```
+
+![png](img/87abb24bd5c5230158bc1ff3b3bb5624.png)
+
+```py
+PIL.Image.open(str(roses[1])) 
+```
+
+![png](img/c5f05439bb7e2eb354fda7f89beadeb3.png)
+
+And some tulips:
+
+```py
+tulips = list(data_dir.glob('tulips/*'))
+PIL.Image.open(str(tulips[0])) 
+```
+
+![png](img/dcd2e24d351259809e8bd2dfe61f3f59.png)
+
+```py
+PIL.Image.open(str(tulips[1])) 
+```
+
+![png](img/25794664318bbd0dc1284a9ea6754d14.png)
+
+# Load using keras.preprocessing
+
+Let's load these images off disk using the helpful [image_dataset_from_directory](https://tensorflow.google.cn/api_docs/python/tf/keras/preprocessing/image_dataset_from_directory) utility. This will take you from a directory of images on disk to a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) in just a couple lines of code. If you like, you can also write your own data loading code from scratch by visiting the [load images](https://tensorflow.google.cn/tutorials/load_data/images) tutorial.
+
+## Create a dataset
+
+Define some parameters for the loader:
+
+```py
+batch_size = 32
+img_height = 180
+img_width = 180 
+```
+
+It's good practice to use a validation split when developing your model. Let's use 80% of the images for training, and 20% for validation.
+
+```py
+train_ds = tf.keras.preprocessing.image_dataset_from_directory(
+  data_dir,
+  validation_split=0.2,
+  subset="training",
+  seed=123,
+  image_size=(img_height, img_width),
+  batch_size=batch_size) 
+```
+
+```py
+Found 3670 files belonging to 5 classes.
+Using 2936 files for training.
+
+```
+
+```py
+val_ds = tf.keras.preprocessing.image_dataset_from_directory(
+  data_dir,
+  validation_split=0.2,
+  subset="validation",
+  seed=123,
+  image_size=(img_height, img_width),
+  batch_size=batch_size) 
+```
+
+```py
+Found 3670 files belonging to 5 classes.
+Using 734 files for validation.
+
+```
+
+You can find the class names in the `class_names` attribute on these datasets. These correspond to the directory names in alphabetical order.
+
+```py
+class_names = train_ds.class_names
+print(class_names) 
+```
+
+```py
+['daisy', 'dandelion', 'roses', 'sunflowers', 'tulips']
+
+```
+
+## Visualize the data
+
+Here are the first 9 images from the training dataset.
+
+```py
+import matplotlib.pyplot as plt
+
+plt.figure(figsize=(10, 10))
+for images, labels in train_ds.take(1):
+  for i in range(9):
+    ax = plt.subplot(3, 3, i + 1)
+    plt.imshow(images[i].numpy().astype("uint8"))
+    plt.title(class_names[labels[i]])
+    plt.axis("off") 
+```
+
+![png](img/01e618f7715193d849381e8d78c78c09.png)
+
+You will train a model using these datasets by passing them to `model.fit` in a moment. If you like, you can also manually iterate over the dataset and retrieve batches of images:
+
+```py
+for image_batch, labels_batch in train_ds:
+  print(image_batch.shape)
+  print(labels_batch.shape)
+  break 
+```
+
+```py
+(32, 180, 180, 3)
+(32,)
+
+```
+
+The `image_batch` is a tensor of the shape `(32, 180, 180, 3)`. This is a batch of 32 images of shape `180x180x3` (the last dimension refers to color channels RGB). The `label_batch` is a tensor of the shape `(32,)`, these are corresponding labels to the 32 images.
+
+You can call `.numpy()` on the `image_batch` and `labels_batch` tensors to convert them to a `numpy.ndarray`.
+
+## Configure the dataset for performance
+
+Let's make sure to use buffered prefetching so you can yield data from disk without having I/O become blocking. These are two important methods you should use when loading data.
+
+[`Dataset.cache()`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#cache) keeps the images in memory after they're loaded off disk during the first epoch. This will ensure the dataset does not become a bottleneck while training your model. If your dataset is too large to fit into memory, you can also use this method to create a performant on-disk cache.
+
+[`Dataset.prefetch()`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#prefetch) overlaps data preprocessing and model execution while training.
+
+Interested readers can learn more about both methods, as well as how to cache data to disk in the [data performance guide](https://tensorflow.google.cn/guide/data_performance#prefetching).
+
+```py
+AUTOTUNE = tf.data.experimental.AUTOTUNE
+
+train_ds = train_ds.cache().shuffle(1000).prefetch(buffer_size=AUTOTUNE)
+val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE) 
+```
+
+## Standardize the data
+
+The RGB channel values are in the `[0, 255]` range. This is not ideal for a neural network; in general you should seek to make your input values small. Here, you will standardize values to be in the `[0, 1]` range by using a Rescaling layer.
+
+```py
+normalization_layer = layers.experimental.preprocessing.Rescaling(1./255) 
+```
+
+**Note:** The Keras Preprocessing utilities and layers introduced in this section are currently experimental and may change.
+
+There are two ways to use this layer. You can apply it to the dataset by calling map:
+
+```py
+normalized_ds = train_ds.map(lambda x, y: (normalization_layer(x), y))
+image_batch, labels_batch = next(iter(normalized_ds))
+first_image = image_batch[0]
+# Notice the pixels values are now in `[0,1]`.
+print(np.min(first_image), np.max(first_image)) 
+```
+
+```py
+0.006427039 0.99052274
+
+```
+
+Or, you can include the layer inside your model definition, which can simplify deployment. Let's use the second approach here.
+
+**Note:** you previously resized images using the `image_size` argument of `image_dataset_from_directory`. If you want to include the resizing logic in your model as well, you can use the [Resizing](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing/Resizing) layer.
+
+# Create the model
+
+The model consists of three convolution blocks with a max pool layer in each of them. There's a fully connected layer with 128 units on top of it that is activated by a `relu` activation function. This model has not been tuned for high accuracy, the goal of this tutorial is to show a standard approach.
+
+```py
+num_classes = 5
+
+model = Sequential([
+  layers.experimental.preprocessing.Rescaling(1./255, input_shape=(img_height, img_width, 3)),
+  layers.Conv2D(16, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Conv2D(32, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Conv2D(64, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Flatten(),
+  layers.Dense(128, activation='relu'),
+  layers.Dense(num_classes)
+]) 
+```
+
+## Compile the model
+
+For this tutorial, choose the [`optimizers.Adam`](https://tensorflow.google.cn/api_docs/python/tf/keras/optimizers/Adam) optimizer and [`losses.SparseCategoricalCrossentropy`](https://tensorflow.google.cn/api_docs/python/tf/keras/losses/SparseCategoricalCrossentropy) loss function. To view training and validation accuracy for each training epoch, pass the `metrics` argument.
+
+```py
+model.compile(optimizer='adam',
+              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+              metrics=['accuracy']) 
+```
+
+## Model summary
+
+View all the layers of the network using the model's `summary` method:
+
+```py
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+rescaling_1 (Rescaling)      (None, 180, 180, 3)       0         
+_________________________________________________________________
+conv2d (Conv2D)              (None, 180, 180, 16)      448       
+_________________________________________________________________
+max_pooling2d (MaxPooling2D) (None, 90, 90, 16)        0         
+_________________________________________________________________
+conv2d_1 (Conv2D)            (None, 90, 90, 32)        4640      
+_________________________________________________________________
+max_pooling2d_1 (MaxPooling2 (None, 45, 45, 32)        0         
+_________________________________________________________________
+conv2d_2 (Conv2D)            (None, 45, 45, 64)        18496     
+_________________________________________________________________
+max_pooling2d_2 (MaxPooling2 (None, 22, 22, 64)        0         
+_________________________________________________________________
+flatten (Flatten)            (None, 30976)             0         
+_________________________________________________________________
+dense (Dense)                (None, 128)               3965056   
+_________________________________________________________________
+dense_1 (Dense)              (None, 5)                 645       
+=================================================================
+Total params: 3,989,285
+Trainable params: 3,989,285
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+## Train the model
+
+```py
+epochs=10
+history = model.fit(
+  train_ds,
+  validation_data=val_ds,
+  epochs=epochs
+) 
+```
+
+```py
+Epoch 1/10
+92/92 [==============================] - 3s 27ms/step - loss: 1.3816 - accuracy: 0.4077 - val_loss: 1.0884 - val_accuracy: 0.5518
+Epoch 2/10
+92/92 [==============================] - 1s 10ms/step - loss: 1.0222 - accuracy: 0.6039 - val_loss: 0.9661 - val_accuracy: 0.5872
+Epoch 3/10
+92/92 [==============================] - 1s 10ms/step - loss: 0.8417 - accuracy: 0.6778 - val_loss: 0.8763 - val_accuracy: 0.6417
+Epoch 4/10
+92/92 [==============================] - 1s 10ms/step - loss: 0.6234 - accuracy: 0.7691 - val_loss: 0.8961 - val_accuracy: 0.6444
+Epoch 5/10
+92/92 [==============================] - 1s 10ms/step - loss: 0.4066 - accuracy: 0.8580 - val_loss: 0.9164 - val_accuracy: 0.6717
+Epoch 6/10
+92/92 [==============================] - 1s 10ms/step - loss: 0.2379 - accuracy: 0.9234 - val_loss: 1.1665 - val_accuracy: 0.6417
+Epoch 7/10
+92/92 [==============================] - 1s 10ms/step - loss: 0.1372 - accuracy: 0.9571 - val_loss: 1.3581 - val_accuracy: 0.6621
+Epoch 8/10
+92/92 [==============================] - 1s 10ms/step - loss: 0.0802 - accuracy: 0.9789 - val_loss: 1.5392 - val_accuracy: 0.6526
+Epoch 9/10
+92/92 [==============================] - 1s 10ms/step - loss: 0.0405 - accuracy: 0.9918 - val_loss: 1.7072 - val_accuracy: 0.6730
+Epoch 10/10
+92/92 [==============================] - 1s 10ms/step - loss: 0.0311 - accuracy: 0.9925 - val_loss: 1.7984 - val_accuracy: 0.6458
+
+```
+
+## Visualize training results
+
+Create plots of loss and accuracy on the training and validation sets.
+
+```py
+acc = history.history['accuracy']
+val_acc = history.history['val_accuracy']
+
+loss = history.history['loss']
+val_loss = history.history['val_loss']
+
+epochs_range = range(epochs)
+
+plt.figure(figsize=(8, 8))
+plt.subplot(1, 2, 1)
+plt.plot(epochs_range, acc, label='Training Accuracy')
+plt.plot(epochs_range, val_acc, label='Validation Accuracy')
+plt.legend(loc='lower right')
+plt.title('Training and Validation Accuracy')
+
+plt.subplot(1, 2, 2)
+plt.plot(epochs_range, loss, label='Training Loss')
+plt.plot(epochs_range, val_loss, label='Validation Loss')
+plt.legend(loc='upper right')
+plt.title('Training and Validation Loss')
+plt.show() 
+```
+
+![png](img/14fce8d9f2fd98077c5bf9a8db1f25ec.png)
+
+As you can see from the plots, training accuracy and validation accuracy are off by large margin and the model has achieved only around 60% accuracy on the validation set.
+
+Let's look at what went wrong and try to increase the overall performance of the model.
+
+## Overfitting
+
+In the plots above, the training accuracy is increasing linearly over time, whereas validation accuracy stalls around 60% in the training process. Also, the difference in accuracy between training and validation accuracy is noticeable—a sign of [overfitting](https://tensorflow.google.cn/tutorials/keras/overfit_and_underfit).
+
+When there are a small number of training examples, the model sometimes learns from noises or unwanted details from training examples—to an extent that it negatively impacts the performance of the model on new examples. This phenomenon is known as overfitting. It means that the model will have a difficult time generalizing on a new dataset.
+
+There are multiple ways to fight overfitting in the training process. In this tutorial, you'll use *data augmentation* and add *Dropout* to your model.
+
+## Data augmentation
+
+Overfitting generally occurs when there are a small number of training examples. [Data augmentation](https://tensorflow.google.cn/tutorials/images/data_augmentation) takes the approach of generating additional training data from your existing examples by augmenting them using random transformations that yield believable-looking images. This helps expose the model to more aspects of the data and generalize better.
+
+You will implement data augmentation using experimental [Keras Preprocessing Layers](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing/?version=nightly). These can be included inside your model like other layers, and run on the GPU.
+
+```py
+data_augmentation = keras.Sequential(
+  [
+    layers.experimental.preprocessing.RandomFlip("horizontal", 
+                                                 input_shape=(img_height, 
+                                                              img_width,
+                                                              3)),
+    layers.experimental.preprocessing.RandomRotation(0.1),
+    layers.experimental.preprocessing.RandomZoom(0.1),
+  ]
+) 
+```
+
+Let's visualize what a few augmented examples look like by applying data augmentation to the same image several times:
+
+```py
+plt.figure(figsize=(10, 10))
+for images, _ in train_ds.take(1):
+  for i in range(9):
+    augmented_images = data_augmentation(images)
+    ax = plt.subplot(3, 3, i + 1)
+    plt.imshow(augmented_images[0].numpy().astype("uint8"))
+    plt.axis("off") 
+```
+
+![png](img/696df8a523ce550bf177c7051cef2c75.png)
+
+You will use data augmentation to train a model in a moment.
+
+## Dropout
+
+Another technique to reduce overfitting is to introduce [Dropout](https://developers.google.cn/machine-learning/glossary#dropout_regularization) to the network, a form of *regularization*.
+
+When you apply Dropout to a layer it randomly drops out (by setting the activation to zero) a number of output units from the layer during the training process. Dropout takes a fractional number as its input value, in the form such as 0.1, 0.2, 0.4, etc. This means dropping out 10%, 20% or 40% of the output units randomly from the applied layer.
+
+Let's create a new neural network using [`layers.Dropout`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dropout), then train it using augmented images.
+
+```py
+model = Sequential([
+  data_augmentation,
+  layers.experimental.preprocessing.Rescaling(1./255),
+  layers.Conv2D(16, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Conv2D(32, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Conv2D(64, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Dropout(0.2),
+  layers.Flatten(),
+  layers.Dense(128, activation='relu'),
+  layers.Dense(num_classes)
+]) 
+```
+
+## Compile and train the model
+
+```py
+model.compile(optimizer='adam',
+              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+              metrics=['accuracy']) 
+```
+
+```py
+model.summary() 
+```
+
+```py
+Model: "sequential_2"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+sequential_1 (Sequential)    (None, 180, 180, 3)       0         
+_________________________________________________________________
+rescaling_2 (Rescaling)      (None, 180, 180, 3)       0         
+_________________________________________________________________
+conv2d_3 (Conv2D)            (None, 180, 180, 16)      448       
+_________________________________________________________________
+max_pooling2d_3 (MaxPooling2 (None, 90, 90, 16)        0         
+_________________________________________________________________
+conv2d_4 (Conv2D)            (None, 90, 90, 32)        4640      
+_________________________________________________________________
+max_pooling2d_4 (MaxPooling2 (None, 45, 45, 32)        0         
+_________________________________________________________________
+conv2d_5 (Conv2D)            (None, 45, 45, 64)        18496     
+_________________________________________________________________
+max_pooling2d_5 (MaxPooling2 (None, 22, 22, 64)        0         
+_________________________________________________________________
+dropout (Dropout)            (None, 22, 22, 64)        0         
+_________________________________________________________________
+flatten_1 (Flatten)          (None, 30976)             0         
+_________________________________________________________________
+dense_2 (Dense)              (None, 128)               3965056   
+_________________________________________________________________
+dense_3 (Dense)              (None, 5)                 645       
+=================================================================
+Total params: 3,989,285
+Trainable params: 3,989,285
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+```py
+epochs = 15
+history = model.fit(
+  train_ds,
+  validation_data=val_ds,
+  epochs=epochs
+) 
+```
+
+```py
+Epoch 1/15
+92/92 [==============================] - 1s 13ms/step - loss: 1.4326 - accuracy: 0.3760 - val_loss: 1.1774 - val_accuracy: 0.5123
+Epoch 2/15
+92/92 [==============================] - 1s 12ms/step - loss: 1.1058 - accuracy: 0.5525 - val_loss: 0.9981 - val_accuracy: 0.5967
+Epoch 3/15
+92/92 [==============================] - 1s 12ms/step - loss: 1.0014 - accuracy: 0.5937 - val_loss: 0.9525 - val_accuracy: 0.6185
+Epoch 4/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.9205 - accuracy: 0.6383 - val_loss: 0.9474 - val_accuracy: 0.6376
+Epoch 5/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.8813 - accuracy: 0.6594 - val_loss: 0.9383 - val_accuracy: 0.6417
+Epoch 6/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.8366 - accuracy: 0.6734 - val_loss: 0.8468 - val_accuracy: 0.6512
+Epoch 7/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.7955 - accuracy: 0.6979 - val_loss: 0.8837 - val_accuracy: 0.6717
+Epoch 8/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.7485 - accuracy: 0.7163 - val_loss: 0.8417 - val_accuracy: 0.6730
+Epoch 9/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.7276 - accuracy: 0.7282 - val_loss: 0.8505 - val_accuracy: 0.6826
+Epoch 10/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.6981 - accuracy: 0.7374 - val_loss: 0.7679 - val_accuracy: 0.6948
+Epoch 11/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.6755 - accuracy: 0.7446 - val_loss: 0.7863 - val_accuracy: 0.6948
+Epoch 12/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.6375 - accuracy: 0.7585 - val_loss: 0.7911 - val_accuracy: 0.7044
+Epoch 13/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.6095 - accuracy: 0.7790 - val_loss: 0.7403 - val_accuracy: 0.7139
+Epoch 14/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.6116 - accuracy: 0.7681 - val_loss: 0.7794 - val_accuracy: 0.7153
+Epoch 15/15
+92/92 [==============================] - 1s 12ms/step - loss: 0.5818 - accuracy: 0.7762 - val_loss: 0.7729 - val_accuracy: 0.7044
+
+```
+
+## Visualize training results
+
+After applying data augmentation and Dropout, there is less overfitting than before, and training and validation accuracy are closer aligned.
+
+```py
+acc = history.history['accuracy']
+val_acc = history.history['val_accuracy']
+
+loss = history.history['loss']
+val_loss = history.history['val_loss']
+
+epochs_range = range(epochs)
+
+plt.figure(figsize=(8, 8))
+plt.subplot(1, 2, 1)
+plt.plot(epochs_range, acc, label='Training Accuracy')
+plt.plot(epochs_range, val_acc, label='Validation Accuracy')
+plt.legend(loc='lower right')
+plt.title('Training and Validation Accuracy')
+
+plt.subplot(1, 2, 2)
+plt.plot(epochs_range, loss, label='Training Loss')
+plt.plot(epochs_range, val_loss, label='Validation Loss')
+plt.legend(loc='upper right')
+plt.title('Training and Validation Loss')
+plt.show() 
+```
+
+![png](img/2127fb93f97c5aaf91e991540bbe84ed.png)
+
+## Predict on new data
+
+Finally, let's use our model to classify an image that wasn't included in the training or validation sets.
+
+**Note:** Data augmentation and Dropout layers are inactive at inference time.
+
+```py
+sunflower_url = "https://storage.googleapis.com/download.tensorflow.org/example_images/592px-Red_sunflower.jpg"
+sunflower_path = tf.keras.utils.get_file('Red_sunflower', origin=sunflower_url)
+
+img = keras.preprocessing.image.load_img(
+    sunflower_path, target_size=(img_height, img_width)
+)
+img_array = keras.preprocessing.image.img_to_array(img)
+img_array = tf.expand_dims(img_array, 0) # Create a batch
+
+predictions = model.predict(img_array)
+score = tf.nn.softmax(predictions[0])
+
+print(
+    "This image most likely belongs to {} with a {:.2f} percent confidence."
+    .format(class_names[np.argmax(score)], 100 * np.max(score))
+) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/592px-Red_sunflower.jpg
+122880/117948 [===============================] - 0s 0us/step
+This image most likely belongs to sunflowers with a 99.45 percent confidence.
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/043.md b/Tensorflow/TensorFlow2.0/043.md
new file mode 100644
index 00000000..651432d1
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/043.md
@@ -0,0 +1,1004 @@
+# Transfer learning and fine-tuning
+
+> 原文：[https://tensorflow.google.cn/tutorials/images/transfer_learning](https://tensorflow.google.cn/tutorials/images/transfer_learning)
+
+In this tutorial, you will learn how to classify images of cats and dogs by using transfer learning from a pre-trained network.
+
+A pre-trained model is a saved network that was previously trained on a large dataset, typically on a large-scale image-classification task. You either use the pretrained model as is or use transfer learning to customize this model to a given task.
+
+The intuition behind transfer learning for image classification is that if a model is trained on a large and general enough dataset, this model will effectively serve as a generic model of the visual world. You can then take advantage of these learned feature maps without having to start from scratch by training a large model on a large dataset.
+
+In this notebook, you will try two ways to customize a pretrained model:
+
+1.  Feature Extraction: Use the representations learned by a previous network to extract meaningful features from new samples. You simply add a new classifier, which will be trained from scratch, on top of the pretrained model so that you can repurpose the feature maps learned previously for the dataset.
+
+    You do not need to (re)train the entire model. The base convolutional network already contains features that are generically useful for classifying pictures. However, the final, classification part of the pretrained model is specific to the original classification task, and subsequently specific to the set of classes on which the model was trained.
+
+2.  Fine-Tuning: Unfreeze a few of the top layers of a frozen model base and jointly train both the newly-added classifier layers and the last layers of the base model. This allows us to "fine-tune" the higher-order feature representations in the base model in order to make them more relevant for the specific task.
+
+You will follow the general machine learning workflow.
+
+1.  Examine and understand the data
+2.  Build an input pipeline, in this case using Keras ImageDataGenerator
+3.  Compose the model
+    *   Load in the pretrained base model (and pretrained weights)
+    *   Stack the classification layers on top
+4.  Train the model
+5.  Evaluate model
+
+```py
+pip install -q tf-nightly
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import os
+import tensorflow as tf
+
+from tensorflow.keras.preprocessing import image_dataset_from_directory 
+```
+
+## Data preprocessing
+
+### Data download
+
+In this tutorial, you will use a dataset containing several thousand images of cats and dogs. Download and extract a zip file containing the images, then create a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) for training and validation using the [`tf.keras.preprocessing.image_dataset_from_directory`](https://tensorflow.google.cn/api_docs/python/tf/keras/preprocessing/image_dataset_from_directory) utility. You can learn more about loading images in this [tutorial](https://tensorflow.google.cn/tutorials/load_data/images).
+
+```py
+_URL = 'https://storage.googleapis.com/mledu-datasets/cats_and_dogs_filtered.zip'
+path_to_zip = tf.keras.utils.get_file('cats_and_dogs.zip', origin=_URL, extract=True)
+PATH = os.path.join(os.path.dirname(path_to_zip), 'cats_and_dogs_filtered')
+
+train_dir = os.path.join(PATH, 'train')
+validation_dir = os.path.join(PATH, 'validation')
+
+BATCH_SIZE = 32
+IMG_SIZE = (160, 160)
+
+train_dataset = image_dataset_from_directory(train_dir,
+                                             shuffle=True,
+                                             batch_size=BATCH_SIZE,
+                                             image_size=IMG_SIZE) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/mledu-datasets/cats_and_dogs_filtered.zip
+68608000/68606236 [==============================] - 1s 0us/step
+Found 2000 files belonging to 2 classes.
+
+```
+
+```py
+validation_dataset = image_dataset_from_directory(validation_dir,
+                                                  shuffle=True,
+                                                  batch_size=BATCH_SIZE,
+                                                  image_size=IMG_SIZE) 
+```
+
+```py
+Found 1000 files belonging to 2 classes.
+
+```
+
+Show the first nine images and labels from the training set:
+
+```py
+class_names = train_dataset.class_names
+
+plt.figure(figsize=(10, 10))
+for images, labels in train_dataset.take(1):
+  for i in range(9):
+    ax = plt.subplot(3, 3, i + 1)
+    plt.imshow(images[i].numpy().astype("uint8"))
+    plt.title(class_names[labels[i]])
+    plt.axis("off") 
+```
+
+![png](img/2a2da1f076940ee9e540d308733418d2.png)
+
+As the original dataset doesn't contains a test set, you will create one. To do so, determine how many batches of data are available in the validation set using `tf.data.experimental.cardinality`, then move 20% of them to a test set.
+
+```py
+val_batches = tf.data.experimental.cardinality(validation_dataset)
+test_dataset = validation_dataset.take(val_batches // 5)
+validation_dataset = validation_dataset.skip(val_batches // 5) 
+```
+
+```py
+print('Number of validation batches: %d' % tf.data.experimental.cardinality(validation_dataset))
+print('Number of test batches: %d' % tf.data.experimental.cardinality(test_dataset)) 
+```
+
+```py
+Number of validation batches: 26
+Number of test batches: 6
+
+```
+
+### Configure the dataset for performance
+
+Use buffered prefetching to load images from disk without having I/O become blocking. To learn more about this method see the [data performance](https://tensorflow.google.cn/guide/data_performance) guide.
+
+```py
+AUTOTUNE = tf.data.experimental.AUTOTUNE
+
+train_dataset = train_dataset.prefetch(buffer_size=AUTOTUNE)
+validation_dataset = validation_dataset.prefetch(buffer_size=AUTOTUNE)
+test_dataset = test_dataset.prefetch(buffer_size=AUTOTUNE) 
+```
+
+### Use data augmentation
+
+When you don't have a large image dataset, it's a good practice to artificially introduce sample diversity by applying random, yet realistic, transformations to the training images, such as rotation and horizontal flipping. This helps expose the model to different aspects of the training data and reduce [overfitting](https://tensorflow.google.cn/tutorials/keras/overfit_and_underfit). You can learn more about data augmentation in this [tutorial](https://tensorflow.google.cn/tutorials/images/data_augmentation).
+
+```py
+data_augmentation = tf.keras.Sequential([
+  tf.keras.layers.experimental.preprocessing.RandomFlip('horizontal'),
+  tf.keras.layers.experimental.preprocessing.RandomRotation(0.2),
+]) 
+```
+
+**Note:** These layers are active only during training, when you call `model.fit`. They are inactive when the model is used in inference mode in `model.evaulate` or `model.fit`.
+
+Let's repeatedly apply these layers to the same image and see the result.
+
+```py
+for image, _ in train_dataset.take(1):
+  plt.figure(figsize=(10, 10))
+  first_image = image[0]
+  for i in range(9):
+    ax = plt.subplot(3, 3, i + 1)
+    augmented_image = data_augmentation(tf.expand_dims(first_image, 0))
+    plt.imshow(augmented_image[0] / 255)
+    plt.axis('off') 
+```
+
+![png](img/a208fe52aacc14e668b9b681805d8302.png)
+
+### Rescale pixel values
+
+In a moment, you will download `tf.keras.applications.MobileNetV2` for use as your base model. This model expects pixel vaues in `[-1,1]`, but at this point, the pixel values in your images are in `[0-255]`. To rescale them, use the preprocessing method included with the model.
+
+```py
+preprocess_input = tf.keras.applications.mobilenet_v2.preprocess_input 
+```
+
+**Note:** Alternatively, you could rescale pixel values from `[0,255]` to `[-1, 1]` using a [Rescaling](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing/Rescaling) layer.
+
+```py
+rescale = tf.keras.layers.experimental.preprocessing.Rescaling(1./127.5, offset= -1) 
+```
+
+**Note:** If using other `tf.keras.applications`, be sure to check the API doc to determine if they expect pixels in `[-1,1]` or `[0,1]`, or use the included `preprocess_input` function.
+
+## Create the base model from the pre-trained convnets
+
+You will create the base model from the **MobileNet V2** model developed at Google. This is pre-trained on the ImageNet dataset, a large dataset consisting of 1.4M images and 1000 classes. ImageNet is a research training dataset with a wide variety of categories like `jackfruit` and `syringe`. This base of knowledge will help us classify cats and dogs from our specific dataset.
+
+First, you need to pick which layer of MobileNet V2 you will use for feature extraction. The very last classification layer (on "top", as most diagrams of machine learning models go from bottom to top) is not very useful. Instead, you will follow the common practice to depend on the very last layer before the flatten operation. This layer is called the "bottleneck layer". The bottleneck layer features retain more generality as compared to the final/top layer.
+
+First, instantiate a MobileNet V2 model pre-loaded with weights trained on ImageNet. By specifying the **include_top=False** argument, you load a network that doesn't include the classification layers at the top, which is ideal for feature extraction.
+
+```py
+# Create the base model from the pre-trained model MobileNet V2
+IMG_SHAPE = IMG_SIZE + (3,)
+base_model = tf.keras.applications.MobileNetV2(input_shape=IMG_SHAPE,
+                                               include_top=False,
+                                               weights='imagenet') 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/mobilenet_v2/mobilenet_v2_weights_tf_dim_ordering_tf_kernels_1.0_160_no_top.h5
+9412608/9406464 [==============================] - 1s 0us/step
+
+```
+
+This feature extractor converts each `160x160x3` image into a `5x5x1280` block of features. Let's see what it does to an example batch of images:
+
+```py
+image_batch, label_batch = next(iter(train_dataset))
+feature_batch = base_model(image_batch)
+print(feature_batch.shape) 
+```
+
+```py
+(32, 5, 5, 1280)
+
+```
+
+## Feature extraction
+
+In this step, you will freeze the convolutional base created from the previous step and to use as a feature extractor. Additionally, you add a classifier on top of it and train the top-level classifier.
+
+### Freeze the convolutional base
+
+It is important to freeze the convolutional base before you compile and train the model. Freezing (by setting layer.trainable = False) prevents the weights in a given layer from being updated during training. MobileNet V2 has many layers, so setting the entire model's `trainable` flag to False will freeze all of them.
+
+```py
+base_model.trainable = False 
+```
+
+### Important note about BatchNormalization layers
+
+Many models contain `tf.keras.layers.BatchNormalization` layers. This layer is a special case and precautions should be taken in the context of fine-tuning, as shown later in this tutorial.
+
+When you set `layer.trainable = False`, the `BatchNormalization` layer will run in inference mode, and will not update its mean and variance statistics.
+
+When you unfreeze a model that contains BatchNormalization layers in order to do fine-tuning, you should keep the BatchNormalization layers in inference mode by passing `training = False` when calling the base model. Otherwise, the updates applied to the non-trainable weights will destroy what the model has learned.
+
+For details, see the [Transfer learning guide](https://tensorflow.google.cn/guide/keras/transfer_learning).
+
+```py
+# Let's take a look at the base model architecture
+base_model.summary() 
+```
+
+```py
+Model: "mobilenetv2_1.00_160"
+__________________________________________________________________________________________________
+Layer (type)                    Output Shape         Param #     Connected to                     
+==================================================================================================
+input_1 (InputLayer)            [(None, 160, 160, 3) 0                                            
+__________________________________________________________________________________________________
+Conv1 (Conv2D)                  (None, 80, 80, 32)   864         input_1[0][0]                    
+__________________________________________________________________________________________________
+bn_Conv1 (BatchNormalization)   (None, 80, 80, 32)   128         Conv1[0][0]                      
+__________________________________________________________________________________________________
+Conv1_relu (ReLU)               (None, 80, 80, 32)   0           bn_Conv1[0][0]                   
+__________________________________________________________________________________________________
+expanded_conv_depthwise (Depthw (None, 80, 80, 32)   288         Conv1_relu[0][0]                 
+__________________________________________________________________________________________________
+expanded_conv_depthwise_BN (Bat (None, 80, 80, 32)   128         expanded_conv_depthwise[0][0]    
+__________________________________________________________________________________________________
+expanded_conv_depthwise_relu (R (None, 80, 80, 32)   0           expanded_conv_depthwise_BN[0][0] 
+__________________________________________________________________________________________________
+expanded_conv_project (Conv2D)  (None, 80, 80, 16)   512         expanded_conv_depthwise_relu[0][0
+__________________________________________________________________________________________________
+expanded_conv_project_BN (Batch (None, 80, 80, 16)   64          expanded_conv_project[0][0]      
+__________________________________________________________________________________________________
+block_1_expand (Conv2D)         (None, 80, 80, 96)   1536        expanded_conv_project_BN[0][0]   
+__________________________________________________________________________________________________
+block_1_expand_BN (BatchNormali (None, 80, 80, 96)   384         block_1_expand[0][0]             
+__________________________________________________________________________________________________
+block_1_expand_relu (ReLU)      (None, 80, 80, 96)   0           block_1_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_1_pad (ZeroPadding2D)     (None, 81, 81, 96)   0           block_1_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_1_depthwise (DepthwiseCon (None, 40, 40, 96)   864         block_1_pad[0][0]                
+__________________________________________________________________________________________________
+block_1_depthwise_BN (BatchNorm (None, 40, 40, 96)   384         block_1_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_1_depthwise_relu (ReLU)   (None, 40, 40, 96)   0           block_1_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_1_project (Conv2D)        (None, 40, 40, 24)   2304        block_1_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_1_project_BN (BatchNormal (None, 40, 40, 24)   96          block_1_project[0][0]            
+__________________________________________________________________________________________________
+block_2_expand (Conv2D)         (None, 40, 40, 144)  3456        block_1_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_2_expand_BN (BatchNormali (None, 40, 40, 144)  576         block_2_expand[0][0]             
+__________________________________________________________________________________________________
+block_2_expand_relu (ReLU)      (None, 40, 40, 144)  0           block_2_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_2_depthwise (DepthwiseCon (None, 40, 40, 144)  1296        block_2_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_2_depthwise_BN (BatchNorm (None, 40, 40, 144)  576         block_2_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_2_depthwise_relu (ReLU)   (None, 40, 40, 144)  0           block_2_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_2_project (Conv2D)        (None, 40, 40, 24)   3456        block_2_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_2_project_BN (BatchNormal (None, 40, 40, 24)   96          block_2_project[0][0]            
+__________________________________________________________________________________________________
+block_2_add (Add)               (None, 40, 40, 24)   0           block_1_project_BN[0][0]         
+                                                                 block_2_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_3_expand (Conv2D)         (None, 40, 40, 144)  3456        block_2_add[0][0]                
+__________________________________________________________________________________________________
+block_3_expand_BN (BatchNormali (None, 40, 40, 144)  576         block_3_expand[0][0]             
+__________________________________________________________________________________________________
+block_3_expand_relu (ReLU)      (None, 40, 40, 144)  0           block_3_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_3_pad (ZeroPadding2D)     (None, 41, 41, 144)  0           block_3_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_3_depthwise (DepthwiseCon (None, 20, 20, 144)  1296        block_3_pad[0][0]                
+__________________________________________________________________________________________________
+block_3_depthwise_BN (BatchNorm (None, 20, 20, 144)  576         block_3_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_3_depthwise_relu (ReLU)   (None, 20, 20, 144)  0           block_3_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_3_project (Conv2D)        (None, 20, 20, 32)   4608        block_3_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_3_project_BN (BatchNormal (None, 20, 20, 32)   128         block_3_project[0][0]            
+__________________________________________________________________________________________________
+block_4_expand (Conv2D)         (None, 20, 20, 192)  6144        block_3_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_4_expand_BN (BatchNormali (None, 20, 20, 192)  768         block_4_expand[0][0]             
+__________________________________________________________________________________________________
+block_4_expand_relu (ReLU)      (None, 20, 20, 192)  0           block_4_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_4_depthwise (DepthwiseCon (None, 20, 20, 192)  1728        block_4_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_4_depthwise_BN (BatchNorm (None, 20, 20, 192)  768         block_4_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_4_depthwise_relu (ReLU)   (None, 20, 20, 192)  0           block_4_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_4_project (Conv2D)        (None, 20, 20, 32)   6144        block_4_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_4_project_BN (BatchNormal (None, 20, 20, 32)   128         block_4_project[0][0]            
+__________________________________________________________________________________________________
+block_4_add (Add)               (None, 20, 20, 32)   0           block_3_project_BN[0][0]         
+                                                                 block_4_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_5_expand (Conv2D)         (None, 20, 20, 192)  6144        block_4_add[0][0]                
+__________________________________________________________________________________________________
+block_5_expand_BN (BatchNormali (None, 20, 20, 192)  768         block_5_expand[0][0]             
+__________________________________________________________________________________________________
+block_5_expand_relu (ReLU)      (None, 20, 20, 192)  0           block_5_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_5_depthwise (DepthwiseCon (None, 20, 20, 192)  1728        block_5_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_5_depthwise_BN (BatchNorm (None, 20, 20, 192)  768         block_5_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_5_depthwise_relu (ReLU)   (None, 20, 20, 192)  0           block_5_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_5_project (Conv2D)        (None, 20, 20, 32)   6144        block_5_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_5_project_BN (BatchNormal (None, 20, 20, 32)   128         block_5_project[0][0]            
+__________________________________________________________________________________________________
+block_5_add (Add)               (None, 20, 20, 32)   0           block_4_add[0][0]                
+                                                                 block_5_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_6_expand (Conv2D)         (None, 20, 20, 192)  6144        block_5_add[0][0]                
+__________________________________________________________________________________________________
+block_6_expand_BN (BatchNormali (None, 20, 20, 192)  768         block_6_expand[0][0]             
+__________________________________________________________________________________________________
+block_6_expand_relu (ReLU)      (None, 20, 20, 192)  0           block_6_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_6_pad (ZeroPadding2D)     (None, 21, 21, 192)  0           block_6_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_6_depthwise (DepthwiseCon (None, 10, 10, 192)  1728        block_6_pad[0][0]                
+__________________________________________________________________________________________________
+block_6_depthwise_BN (BatchNorm (None, 10, 10, 192)  768         block_6_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_6_depthwise_relu (ReLU)   (None, 10, 10, 192)  0           block_6_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_6_project (Conv2D)        (None, 10, 10, 64)   12288       block_6_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_6_project_BN (BatchNormal (None, 10, 10, 64)   256         block_6_project[0][0]            
+__________________________________________________________________________________________________
+block_7_expand (Conv2D)         (None, 10, 10, 384)  24576       block_6_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_7_expand_BN (BatchNormali (None, 10, 10, 384)  1536        block_7_expand[0][0]             
+__________________________________________________________________________________________________
+block_7_expand_relu (ReLU)      (None, 10, 10, 384)  0           block_7_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_7_depthwise (DepthwiseCon (None, 10, 10, 384)  3456        block_7_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_7_depthwise_BN (BatchNorm (None, 10, 10, 384)  1536        block_7_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_7_depthwise_relu (ReLU)   (None, 10, 10, 384)  0           block_7_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_7_project (Conv2D)        (None, 10, 10, 64)   24576       block_7_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_7_project_BN (BatchNormal (None, 10, 10, 64)   256         block_7_project[0][0]            
+__________________________________________________________________________________________________
+block_7_add (Add)               (None, 10, 10, 64)   0           block_6_project_BN[0][0]         
+                                                                 block_7_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_8_expand (Conv2D)         (None, 10, 10, 384)  24576       block_7_add[0][0]                
+__________________________________________________________________________________________________
+block_8_expand_BN (BatchNormali (None, 10, 10, 384)  1536        block_8_expand[0][0]             
+__________________________________________________________________________________________________
+block_8_expand_relu (ReLU)      (None, 10, 10, 384)  0           block_8_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_8_depthwise (DepthwiseCon (None, 10, 10, 384)  3456        block_8_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_8_depthwise_BN (BatchNorm (None, 10, 10, 384)  1536        block_8_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_8_depthwise_relu (ReLU)   (None, 10, 10, 384)  0           block_8_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_8_project (Conv2D)        (None, 10, 10, 64)   24576       block_8_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_8_project_BN (BatchNormal (None, 10, 10, 64)   256         block_8_project[0][0]            
+__________________________________________________________________________________________________
+block_8_add (Add)               (None, 10, 10, 64)   0           block_7_add[0][0]                
+                                                                 block_8_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_9_expand (Conv2D)         (None, 10, 10, 384)  24576       block_8_add[0][0]                
+__________________________________________________________________________________________________
+block_9_expand_BN (BatchNormali (None, 10, 10, 384)  1536        block_9_expand[0][0]             
+__________________________________________________________________________________________________
+block_9_expand_relu (ReLU)      (None, 10, 10, 384)  0           block_9_expand_BN[0][0]          
+__________________________________________________________________________________________________
+block_9_depthwise (DepthwiseCon (None, 10, 10, 384)  3456        block_9_expand_relu[0][0]        
+__________________________________________________________________________________________________
+block_9_depthwise_BN (BatchNorm (None, 10, 10, 384)  1536        block_9_depthwise[0][0]          
+__________________________________________________________________________________________________
+block_9_depthwise_relu (ReLU)   (None, 10, 10, 384)  0           block_9_depthwise_BN[0][0]       
+__________________________________________________________________________________________________
+block_9_project (Conv2D)        (None, 10, 10, 64)   24576       block_9_depthwise_relu[0][0]     
+__________________________________________________________________________________________________
+block_9_project_BN (BatchNormal (None, 10, 10, 64)   256         block_9_project[0][0]            
+__________________________________________________________________________________________________
+block_9_add (Add)               (None, 10, 10, 64)   0           block_8_add[0][0]                
+                                                                 block_9_project_BN[0][0]         
+__________________________________________________________________________________________________
+block_10_expand (Conv2D)        (None, 10, 10, 384)  24576       block_9_add[0][0]                
+__________________________________________________________________________________________________
+block_10_expand_BN (BatchNormal (None, 10, 10, 384)  1536        block_10_expand[0][0]            
+__________________________________________________________________________________________________
+block_10_expand_relu (ReLU)     (None, 10, 10, 384)  0           block_10_expand_BN[0][0]         
+__________________________________________________________________________________________________
+block_10_depthwise (DepthwiseCo (None, 10, 10, 384)  3456        block_10_expand_relu[0][0]       
+__________________________________________________________________________________________________
+block_10_depthwise_BN (BatchNor (None, 10, 10, 384)  1536        block_10_depthwise[0][0]         
+__________________________________________________________________________________________________
+block_10_depthwise_relu (ReLU)  (None, 10, 10, 384)  0           block_10_depthwise_BN[0][0]      
+__________________________________________________________________________________________________
+block_10_project (Conv2D)       (None, 10, 10, 96)   36864       block_10_depthwise_relu[0][0]    
+__________________________________________________________________________________________________
+block_10_project_BN (BatchNorma (None, 10, 10, 96)   384         block_10_project[0][0]           
+__________________________________________________________________________________________________
+block_11_expand (Conv2D)        (None, 10, 10, 576)  55296       block_10_project_BN[0][0]        
+__________________________________________________________________________________________________
+block_11_expand_BN (BatchNormal (None, 10, 10, 576)  2304        block_11_expand[0][0]            
+__________________________________________________________________________________________________
+block_11_expand_relu (ReLU)     (None, 10, 10, 576)  0           block_11_expand_BN[0][0]         
+__________________________________________________________________________________________________
+block_11_depthwise (DepthwiseCo (None, 10, 10, 576)  5184        block_11_expand_relu[0][0]       
+__________________________________________________________________________________________________
+block_11_depthwise_BN (BatchNor (None, 10, 10, 576)  2304        block_11_depthwise[0][0]         
+__________________________________________________________________________________________________
+block_11_depthwise_relu (ReLU)  (None, 10, 10, 576)  0           block_11_depthwise_BN[0][0]      
+__________________________________________________________________________________________________
+block_11_project (Conv2D)       (None, 10, 10, 96)   55296       block_11_depthwise_relu[0][0]    
+__________________________________________________________________________________________________
+block_11_project_BN (BatchNorma (None, 10, 10, 96)   384         block_11_project[0][0]           
+__________________________________________________________________________________________________
+block_11_add (Add)              (None, 10, 10, 96)   0           block_10_project_BN[0][0]        
+                                                                 block_11_project_BN[0][0]        
+__________________________________________________________________________________________________
+block_12_expand (Conv2D)        (None, 10, 10, 576)  55296       block_11_add[0][0]               
+__________________________________________________________________________________________________
+block_12_expand_BN (BatchNormal (None, 10, 10, 576)  2304        block_12_expand[0][0]            
+__________________________________________________________________________________________________
+block_12_expand_relu (ReLU)     (None, 10, 10, 576)  0           block_12_expand_BN[0][0]         
+__________________________________________________________________________________________________
+block_12_depthwise (DepthwiseCo (None, 10, 10, 576)  5184        block_12_expand_relu[0][0]       
+__________________________________________________________________________________________________
+block_12_depthwise_BN (BatchNor (None, 10, 10, 576)  2304        block_12_depthwise[0][0]         
+__________________________________________________________________________________________________
+block_12_depthwise_relu (ReLU)  (None, 10, 10, 576)  0           block_12_depthwise_BN[0][0]      
+__________________________________________________________________________________________________
+block_12_project (Conv2D)       (None, 10, 10, 96)   55296       block_12_depthwise_relu[0][0]    
+__________________________________________________________________________________________________
+block_12_project_BN (BatchNorma (None, 10, 10, 96)   384         block_12_project[0][0]           
+__________________________________________________________________________________________________
+block_12_add (Add)              (None, 10, 10, 96)   0           block_11_add[0][0]               
+                                                                 block_12_project_BN[0][0]        
+__________________________________________________________________________________________________
+block_13_expand (Conv2D)        (None, 10, 10, 576)  55296       block_12_add[0][0]               
+__________________________________________________________________________________________________
+block_13_expand_BN (BatchNormal (None, 10, 10, 576)  2304        block_13_expand[0][0]            
+__________________________________________________________________________________________________
+block_13_expand_relu (ReLU)     (None, 10, 10, 576)  0           block_13_expand_BN[0][0]         
+__________________________________________________________________________________________________
+block_13_pad (ZeroPadding2D)    (None, 11, 11, 576)  0           block_13_expand_relu[0][0]       
+__________________________________________________________________________________________________
+block_13_depthwise (DepthwiseCo (None, 5, 5, 576)    5184        block_13_pad[0][0]               
+__________________________________________________________________________________________________
+block_13_depthwise_BN (BatchNor (None, 5, 5, 576)    2304        block_13_depthwise[0][0]         
+__________________________________________________________________________________________________
+block_13_depthwise_relu (ReLU)  (None, 5, 5, 576)    0           block_13_depthwise_BN[0][0]      
+__________________________________________________________________________________________________
+block_13_project (Conv2D)       (None, 5, 5, 160)    92160       block_13_depthwise_relu[0][0]    
+__________________________________________________________________________________________________
+block_13_project_BN (BatchNorma (None, 5, 5, 160)    640         block_13_project[0][0]           
+__________________________________________________________________________________________________
+block_14_expand (Conv2D)        (None, 5, 5, 960)    153600      block_13_project_BN[0][0]        
+__________________________________________________________________________________________________
+block_14_expand_BN (BatchNormal (None, 5, 5, 960)    3840        block_14_expand[0][0]            
+__________________________________________________________________________________________________
+block_14_expand_relu (ReLU)     (None, 5, 5, 960)    0           block_14_expand_BN[0][0]         
+__________________________________________________________________________________________________
+block_14_depthwise (DepthwiseCo (None, 5, 5, 960)    8640        block_14_expand_relu[0][0]       
+__________________________________________________________________________________________________
+block_14_depthwise_BN (BatchNor (None, 5, 5, 960)    3840        block_14_depthwise[0][0]         
+__________________________________________________________________________________________________
+block_14_depthwise_relu (ReLU)  (None, 5, 5, 960)    0           block_14_depthwise_BN[0][0]      
+__________________________________________________________________________________________________
+block_14_project (Conv2D)       (None, 5, 5, 160)    153600      block_14_depthwise_relu[0][0]    
+__________________________________________________________________________________________________
+block_14_project_BN (BatchNorma (None, 5, 5, 160)    640         block_14_project[0][0]           
+__________________________________________________________________________________________________
+block_14_add (Add)              (None, 5, 5, 160)    0           block_13_project_BN[0][0]        
+                                                                 block_14_project_BN[0][0]        
+__________________________________________________________________________________________________
+block_15_expand (Conv2D)        (None, 5, 5, 960)    153600      block_14_add[0][0]               
+__________________________________________________________________________________________________
+block_15_expand_BN (BatchNormal (None, 5, 5, 960)    3840        block_15_expand[0][0]            
+__________________________________________________________________________________________________
+block_15_expand_relu (ReLU)     (None, 5, 5, 960)    0           block_15_expand_BN[0][0]         
+__________________________________________________________________________________________________
+block_15_depthwise (DepthwiseCo (None, 5, 5, 960)    8640        block_15_expand_relu[0][0]       
+__________________________________________________________________________________________________
+block_15_depthwise_BN (BatchNor (None, 5, 5, 960)    3840        block_15_depthwise[0][0]         
+__________________________________________________________________________________________________
+block_15_depthwise_relu (ReLU)  (None, 5, 5, 960)    0           block_15_depthwise_BN[0][0]      
+__________________________________________________________________________________________________
+block_15_project (Conv2D)       (None, 5, 5, 160)    153600      block_15_depthwise_relu[0][0]    
+__________________________________________________________________________________________________
+block_15_project_BN (BatchNorma (None, 5, 5, 160)    640         block_15_project[0][0]           
+__________________________________________________________________________________________________
+block_15_add (Add)              (None, 5, 5, 160)    0           block_14_add[0][0]               
+                                                                 block_15_project_BN[0][0]        
+__________________________________________________________________________________________________
+block_16_expand (Conv2D)        (None, 5, 5, 960)    153600      block_15_add[0][0]               
+__________________________________________________________________________________________________
+block_16_expand_BN (BatchNormal (None, 5, 5, 960)    3840        block_16_expand[0][0]            
+__________________________________________________________________________________________________
+block_16_expand_relu (ReLU)     (None, 5, 5, 960)    0           block_16_expand_BN[0][0]         
+__________________________________________________________________________________________________
+block_16_depthwise (DepthwiseCo (None, 5, 5, 960)    8640        block_16_expand_relu[0][0]       
+__________________________________________________________________________________________________
+block_16_depthwise_BN (BatchNor (None, 5, 5, 960)    3840        block_16_depthwise[0][0]         
+__________________________________________________________________________________________________
+block_16_depthwise_relu (ReLU)  (None, 5, 5, 960)    0           block_16_depthwise_BN[0][0]      
+__________________________________________________________________________________________________
+block_16_project (Conv2D)       (None, 5, 5, 320)    307200      block_16_depthwise_relu[0][0]    
+__________________________________________________________________________________________________
+block_16_project_BN (BatchNorma (None, 5, 5, 320)    1280        block_16_project[0][0]           
+__________________________________________________________________________________________________
+Conv_1 (Conv2D)                 (None, 5, 5, 1280)   409600      block_16_project_BN[0][0]        
+__________________________________________________________________________________________________
+Conv_1_bn (BatchNormalization)  (None, 5, 5, 1280)   5120        Conv_1[0][0]                     
+__________________________________________________________________________________________________
+out_relu (ReLU)                 (None, 5, 5, 1280)   0           Conv_1_bn[0][0]                  
+==================================================================================================
+Total params: 2,257,984
+Trainable params: 0
+Non-trainable params: 2,257,984
+__________________________________________________________________________________________________
+
+```
+
+### Add a classification head
+
+To generate predictions from the block of features, average over the spatial `5x5` spatial locations, using a `tf.keras.layers.GlobalAveragePooling2D` layer to convert the features to a single 1280-element vector per image.
+
+```py
+global_average_layer = tf.keras.layers.GlobalAveragePooling2D()
+feature_batch_average = global_average_layer(feature_batch)
+print(feature_batch_average.shape) 
+```
+
+```py
+(32, 1280)
+
+```
+
+Apply a `tf.keras.layers.Dense` layer to convert these features into a single prediction per image. You don't need an activation function here because this prediction will be treated as a `logit`, or a raw prediction value. Positive numbers predict class 1, negative numbers predict class 0.
+
+```py
+prediction_layer = tf.keras.layers.Dense(1)
+prediction_batch = prediction_layer(feature_batch_average)
+print(prediction_batch.shape) 
+```
+
+```py
+(32, 1)
+
+```
+
+Build a model by chaining together the data augmentation, rescaling, base_model and feature extractor layers using the [Keras Functional API](https://tensorflow.google.cn/guide/keras/functional). As previously mentioned, use training=False as our model contains a BatchNormalization layer.
+
+```py
+inputs = tf.keras.Input(shape=(160, 160, 3))
+x = data_augmentation(inputs)
+x = preprocess_input(x)
+x = base_model(x, training=False)
+x = global_average_layer(x)
+x = tf.keras.layers.Dropout(0.2)(x)
+outputs = prediction_layer(x)
+model = tf.keras.Model(inputs, outputs) 
+```
+
+### Compile the model
+
+Compile the model before training it. Since there are two classes, use a binary cross-entropy loss with `from_logits=True` since the model provides a linear output.
+
+```py
+base_learning_rate = 0.0001
+model.compile(optimizer=tf.keras.optimizers.Adam(lr=base_learning_rate),
+              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
+              metrics=['accuracy']) 
+```
+
+```py
+model.summary() 
+```
+
+```py
+Model: "model"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+input_2 (InputLayer)         [(None, 160, 160, 3)]     0         
+_________________________________________________________________
+sequential (Sequential)      (None, 160, 160, 3)       0         
+_________________________________________________________________
+tf.math.truediv (TFOpLambda) (None, 160, 160, 3)       0         
+_________________________________________________________________
+tf.math.subtract (TFOpLambda (None, 160, 160, 3)       0         
+_________________________________________________________________
+mobilenetv2_1.00_160 (Functi (None, 5, 5, 1280)        2257984   
+_________________________________________________________________
+global_average_pooling2d (Gl (None, 1280)              0         
+_________________________________________________________________
+dropout (Dropout)            (None, 1280)              0         
+_________________________________________________________________
+dense (Dense)                (None, 1)                 1281      
+=================================================================
+Total params: 2,259,265
+Trainable params: 1,281
+Non-trainable params: 2,257,984
+_________________________________________________________________
+
+```
+
+The 2.5M parameters in MobileNet are frozen, but there are 1.2K *trainable* parameters in the Dense layer. These are divided between two `tf.Variable` objects, the weights and biases.
+
+```py
+len(model.trainable_variables) 
+```
+
+```py
+2
+
+```
+
+### Train the model
+
+After training for 10 epochs, you should see ~94% accuracy on the validation set.
+
+```py
+initial_epochs = 10
+
+loss0, accuracy0 = model.evaluate(validation_dataset) 
+```
+
+```py
+26/26 [==============================] - 7s 199ms/step - loss: 0.9126 - accuracy: 0.3857
+
+```
+
+```py
+print("initial loss: {:.2f}".format(loss0))
+print("initial accuracy: {:.2f}".format(accuracy0)) 
+```
+
+```py
+initial loss: 0.91
+initial accuracy: 0.38
+
+```
+
+```py
+history = model.fit(train_dataset,
+                    epochs=initial_epochs,
+                    validation_data=validation_dataset) 
+```
+
+```py
+Epoch 1/10
+63/63 [==============================] - 22s 306ms/step - loss: 0.7643 - accuracy: 0.5285 - val_loss: 0.6197 - val_accuracy: 0.6324
+Epoch 2/10
+63/63 [==============================] - 19s 301ms/step - loss: 0.5608 - accuracy: 0.6780 - val_loss: 0.4556 - val_accuracy: 0.7710
+Epoch 3/10
+63/63 [==============================] - 19s 305ms/step - loss: 0.4410 - accuracy: 0.7810 - val_loss: 0.3487 - val_accuracy: 0.8428
+Epoch 4/10
+63/63 [==============================] - 19s 300ms/step - loss: 0.3661 - accuracy: 0.8270 - val_loss: 0.2757 - val_accuracy: 0.8948
+Epoch 5/10
+63/63 [==============================] - 19s 297ms/step - loss: 0.3097 - accuracy: 0.8680 - val_loss: 0.2295 - val_accuracy: 0.9134
+Epoch 6/10
+63/63 [==============================] - 19s 298ms/step - loss: 0.2851 - accuracy: 0.8795 - val_loss: 0.2078 - val_accuracy: 0.9257
+Epoch 7/10
+63/63 [==============================] - 21s 329ms/step - loss: 0.2658 - accuracy: 0.8865 - val_loss: 0.1758 - val_accuracy: 0.9418
+Epoch 8/10
+63/63 [==============================] - 19s 304ms/step - loss: 0.2432 - accuracy: 0.8990 - val_loss: 0.1697 - val_accuracy: 0.9369
+Epoch 9/10
+63/63 [==============================] - 19s 302ms/step - loss: 0.2305 - accuracy: 0.9025 - val_loss: 0.1516 - val_accuracy: 0.9468
+Epoch 10/10
+63/63 [==============================] - 20s 307ms/step - loss: 0.2104 - accuracy: 0.9170 - val_loss: 0.1451 - val_accuracy: 0.9493
+
+```
+
+### Learning curves
+
+Let's take a look at the learning curves of the training and validation accuracy/loss when using the MobileNet V2 base model as a fixed feature extractor.
+
+```py
+acc = history.history['accuracy']
+val_acc = history.history['val_accuracy']
+
+loss = history.history['loss']
+val_loss = history.history['val_loss']
+
+plt.figure(figsize=(8, 8))
+plt.subplot(2, 1, 1)
+plt.plot(acc, label='Training Accuracy')
+plt.plot(val_acc, label='Validation Accuracy')
+plt.legend(loc='lower right')
+plt.ylabel('Accuracy')
+plt.ylim([min(plt.ylim()),1])
+plt.title('Training and Validation Accuracy')
+
+plt.subplot(2, 1, 2)
+plt.plot(loss, label='Training Loss')
+plt.plot(val_loss, label='Validation Loss')
+plt.legend(loc='upper right')
+plt.ylabel('Cross Entropy')
+plt.ylim([0,1.0])
+plt.title('Training and Validation Loss')
+plt.xlabel('epoch')
+plt.show() 
+```
+
+![png](img/cd8127c26455c518a827f0ce6a07b1e0.png)
+
+**Note:** If you are wondering why the validation metrics are clearly better than the training metrics, the main factor is because layers like `tf.keras.layers.BatchNormalization` and `tf.keras.layers.Dropout` affect accuracy during training. They are turned off when calculating validation loss.
+
+To a lesser extent, it is also because training metrics report the average for an epoch, while validation metrics are evaluated after the epoch, so validation metrics see a model that has trained slightly longer.
+
+## Fine tuning
+
+In the feature extraction experiment, you were only training a few layers on top of an MobileNet V2 base model. The weights of the pre-trained network were **not** updated during training.
+
+One way to increase performance even further is to train (or "fine-tune") the weights of the top layers of the pre-trained model alongside the training of the classifier you added. The training process will force the weights to be tuned from generic feature maps to features associated specifically with the dataset.
+
+**Note:** This should only be attempted after you have trained the top-level classifier with the pre-trained model set to non-trainable. If you add a randomly initialized classifier on top of a pre-trained model and attempt to train all layers jointly, the magnitude of the gradient updates will be too large (due to the random weights from the classifier) and your pre-trained model will forget what it has learned.
+
+Also, you should try to fine-tune a small number of top layers rather than the whole MobileNet model. In most convolutional networks, the higher up a layer is, the more specialized it is. The first few layers learn very simple and generic features that generalize to almost all types of images. As you go higher up, the features are increasingly more specific to the dataset on which the model was trained. The goal of fine-tuning is to adapt these specialized features to work with the new dataset, rather than overwrite the generic learning.
+
+### Un-freeze the top layers of the model
+
+All you need to do is unfreeze the `base_model` and set the bottom layers to be un-trainable. Then, you should recompile the model (necessary for these changes to take effect), and resume training.
+
+```py
+base_model.trainable = True 
+```
+
+```py
+# Let's take a look to see how many layers are in the base model
+print("Number of layers in the base model: ", len(base_model.layers))
+
+# Fine-tune from this layer onwards
+fine_tune_at = 100
+
+# Freeze all the layers before the `fine_tune_at` layer
+for layer in base_model.layers[:fine_tune_at]:
+  layer.trainable =  False 
+```
+
+```py
+Number of layers in the base model:  154
+
+```
+
+### Compile the model
+
+As you are training a much larger model and want to readapt the pretrained weights, it is important to use a lower learning rate at this stage. Otherwise, your model could overfit very quickly.
+
+```py
+model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
+              optimizer = tf.keras.optimizers.RMSprop(lr=base_learning_rate/10),
+              metrics=['accuracy']) 
+```
+
+```py
+model.summary() 
+```
+
+```py
+Model: "model"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+input_2 (InputLayer)         [(None, 160, 160, 3)]     0         
+_________________________________________________________________
+sequential (Sequential)      (None, 160, 160, 3)       0         
+_________________________________________________________________
+tf.math.truediv (TFOpLambda) (None, 160, 160, 3)       0         
+_________________________________________________________________
+tf.math.subtract (TFOpLambda (None, 160, 160, 3)       0         
+_________________________________________________________________
+mobilenetv2_1.00_160 (Functi (None, 5, 5, 1280)        2257984   
+_________________________________________________________________
+global_average_pooling2d (Gl (None, 1280)              0         
+_________________________________________________________________
+dropout (Dropout)            (None, 1280)              0         
+_________________________________________________________________
+dense (Dense)                (None, 1)                 1281      
+=================================================================
+Total params: 2,259,265
+Trainable params: 1,862,721
+Non-trainable params: 396,544
+_________________________________________________________________
+
+```
+
+```py
+len(model.trainable_variables) 
+```
+
+```py
+56
+
+```
+
+### Continue training the model
+
+If you trained to convergence earlier, this step will improve your accuracy by a few percentage points.
+
+```py
+fine_tune_epochs = 10
+total_epochs =  initial_epochs + fine_tune_epochs
+
+history_fine = model.fit(train_dataset,
+                         epochs=total_epochs,
+                         initial_epoch=history.epoch[-1],
+                         validation_data=validation_dataset) 
+```
+
+```py
+Epoch 10/20
+63/63 [==============================] - 31s 426ms/step - loss: 0.1810 - accuracy: 0.9288 - val_loss: 0.0674 - val_accuracy: 0.9752
+Epoch 11/20
+63/63 [==============================] - 26s 406ms/step - loss: 0.1221 - accuracy: 0.9494 - val_loss: 0.0592 - val_accuracy: 0.9827
+Epoch 12/20
+63/63 [==============================] - 26s 402ms/step - loss: 0.1116 - accuracy: 0.9529 - val_loss: 0.0732 - val_accuracy: 0.9666
+Epoch 13/20
+63/63 [==============================] - 26s 402ms/step - loss: 0.0950 - accuracy: 0.9586 - val_loss: 0.0467 - val_accuracy: 0.9790
+Epoch 14/20
+63/63 [==============================] - 25s 396ms/step - loss: 0.1075 - accuracy: 0.9556 - val_loss: 0.0487 - val_accuracy: 0.9814
+Epoch 15/20
+63/63 [==============================] - 25s 396ms/step - loss: 0.0664 - accuracy: 0.9741 - val_loss: 0.0435 - val_accuracy: 0.9827
+Epoch 16/20
+63/63 [==============================] - 25s 398ms/step - loss: 0.0860 - accuracy: 0.9681 - val_loss: 0.0428 - val_accuracy: 0.9790
+Epoch 17/20
+63/63 [==============================] - 25s 394ms/step - loss: 0.0709 - accuracy: 0.9740 - val_loss: 0.0662 - val_accuracy: 0.9691
+Epoch 18/20
+63/63 [==============================] - 25s 394ms/step - loss: 0.0787 - accuracy: 0.9685 - val_loss: 0.0390 - val_accuracy: 0.9827
+Epoch 19/20
+63/63 [==============================] - 25s 394ms/step - loss: 0.0733 - accuracy: 0.9734 - val_loss: 0.0577 - val_accuracy: 0.9728
+Epoch 20/20
+63/63 [==============================] - 25s 395ms/step - loss: 0.0642 - accuracy: 0.9739 - val_loss: 0.0403 - val_accuracy: 0.9802
+
+```
+
+Let's take a look at the learning curves of the training and validation accuracy/loss when fine-tuning the last few layers of the MobileNet V2 base model and training the classifier on top of it. The validation loss is much higher than the training loss, so you may get some overfitting.
+
+You may also get some overfitting as the new training set is relatively small and similar to the original MobileNet V2 datasets.
+
+After fine tuning the model nearly reaches 98% accuracy on the validation set.
+
+```py
+acc += history_fine.history['accuracy']
+val_acc += history_fine.history['val_accuracy']
+
+loss += history_fine.history['loss']
+val_loss += history_fine.history['val_loss'] 
+```
+
+```py
+plt.figure(figsize=(8, 8))
+plt.subplot(2, 1, 1)
+plt.plot(acc, label='Training Accuracy')
+plt.plot(val_acc, label='Validation Accuracy')
+plt.ylim([0.8, 1])
+plt.plot([initial_epochs-1,initial_epochs-1],
+          plt.ylim(), label='Start Fine Tuning')
+plt.legend(loc='lower right')
+plt.title('Training and Validation Accuracy')
+
+plt.subplot(2, 1, 2)
+plt.plot(loss, label='Training Loss')
+plt.plot(val_loss, label='Validation Loss')
+plt.ylim([0, 1.0])
+plt.plot([initial_epochs-1,initial_epochs-1],
+         plt.ylim(), label='Start Fine Tuning')
+plt.legend(loc='upper right')
+plt.title('Training and Validation Loss')
+plt.xlabel('epoch')
+plt.show() 
+```
+
+![png](img/ac978eb483a5f2c471a3cbeb70bb6784.png)
+
+### Evaluation and prediction
+
+Finaly you can verify the performance of the model on new data using test set.
+
+```py
+loss, accuracy = model.evaluate(test_dataset)
+print('Test accuracy :', accuracy) 
+```
+
+```py
+6/6 [==============================] - 1s 188ms/step - loss: 0.0559 - accuracy: 0.9792
+Test accuracy : 0.9791666865348816
+
+```
+
+And now you are all set to use this model to predict if your pet is a cat or dog.
+
+```py
+#Retrieve a batch of images from the test set
+image_batch, label_batch = test_dataset.as_numpy_iterator().next()
+predictions = model.predict_on_batch(image_batch).flatten()
+
+# Apply a sigmoid since our model returns logits
+predictions = tf.nn.sigmoid(predictions)
+predictions = tf.where(predictions < 0.5, 0, 1)
+
+print('Predictions:\n', predictions.numpy())
+print('Labels:\n', label_batch)
+
+plt.figure(figsize=(10, 10))
+for i in range(9):
+  ax = plt.subplot(3, 3, i + 1)
+  plt.imshow(image_batch[i].astype("uint8"))
+  plt.title(class_names[predictions[i]])
+  plt.axis("off") 
+```
+
+```py
+Predictions:
+ [0 1 0 0 1 1 1 1 1 0 0 1 0 1 1 1 0 0 1 0 1 0 1 1 0 1 1 0 1 0 0 0]
+Labels:
+ [0 1 0 0 1 1 1 1 1 0 0 1 0 1 1 1 0 0 1 0 1 0 1 0 0 1 1 0 1 0 0 0]
+
+```
+
+![png](img/968128f6d4f50734ad92597399dacd79.png)
+
+## Summary
+
+*   **Using a pre-trained model for feature extraction**: When working with a small dataset, it is a common practice to take advantage of features learned by a model trained on a larger dataset in the same domain. This is done by instantiating the pre-trained model and adding a fully-connected classifier on top. The pre-trained model is "frozen" and only the weights of the classifier get updated during training. In this case, the convolutional base extracted all the features associated with each image and you just trained a classifier that determines the image class given that set of extracted features.
+
+*   **Fine-tuning a pre-trained model**: To further improve performance, one might want to repurpose the top-level layers of the pre-trained models to the new dataset via fine-tuning. In this case, you tuned your weights such that your model learned high-level features specific to the dataset. This technique is usually recommended when the training dataset is large and very similar to the original dataset that the pre-trained model was trained on.
+
+To learn more, visit the [Transfer learning guide](https://tensorflow.google.cn/guide/keras/transfer_learning).
+
+```py
+# MIT License
+#
+# Copyright (c) 2017 François Chollet                                                                                                                    # IGNORE_COPYRIGHT: cleared by OSS licensing
+#
+# Permission is hereby granted, free of charge, to any person obtaining a
+# copy of this software and associated documentation files (the "Software"),
+# to deal in the Software without restriction, including without limitation
+# the rights to use, copy, modify, merge, publish, distribute, sublicense,
+# and/or sell copies of the Software, and to permit persons to whom the
+# Software is furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in
+# all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
+# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
+# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
+# DEALINGS IN THE SOFTWARE. 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/044.md b/Tensorflow/TensorFlow2.0/044.md
new file mode 100644
index 00000000..8ff46660
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/044.md
@@ -0,0 +1,38 @@
+# Transfer learning with TensorFlow Hub
+
+> 原文：[https://tensorflow.google.cn/tutorials/images/transfer_learning_with_hub](https://tensorflow.google.cn/tutorials/images/transfer_learning_with_hub)
+
+[TensorFlow Hub](https://hub.tensorflow.google.cn/) is a repository of pre-trained TensorFlow models.
+
+This tutorial demonstrates how to:
+
+1.  Use models from TensorFlow Hub with [`tf.keras`](https://tensorflow.google.cn/api_docs/python/tf/keras)
+2.  Use an image classification model from TensorFlow Hub
+3.  Do simple transfer learning to fine-tune a model for your own image classes
+
+## Setup
+
+```py
+import numpy as np
+import time
+
+import PIL.Image as Image
+import matplotlib.pylab as plt
+
+import tensorflow as tf
+import tensorflow_hub as hub 
+```
+
+## An ImageNet classifier
+
+You'll start by using a pretrained classifer model to take an image and predict what it's an image of - no training required!
+
+### Download the classifier
+
+Use [`hub.KerasLayer`](https://tensorflow.google.cn/hub/api_docs/python/hub/KerasLayer) to load a [MobileNetV2 model](https://hub.tensorflow.google.cn/google/tf2-preview/mobilenet_v2/classification/2) from TensorFlow Hub. Any [compatible image classifier model](https://hub.tensorflow.google.cn/s?q=tf2&module-type=image-classification) from hub.tensorflow.google.cn will work here.
+
+<section class="expandable"><button type="button" class="button-red button expand-control">Toggle code</button></section>
+
+```py
+classifier_model ="https://hub.tensorflow.google.cn/google/tf2-preview/mobilenet_v2/classification/4" 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/045.md b/Tensorflow/TensorFlow2.0/045.md
new file mode 100644
index 00000000..801f8cb7
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/045.md
@@ -0,0 +1,500 @@
+# Data augmentation
+
+> 原文：[https://tensorflow.google.cn/tutorials/images/data_augmentation](https://tensorflow.google.cn/tutorials/images/data_augmentation)
+
+## Overview
+
+This tutorial demonstrates data augmentation: a technique to increase the diversity of your training set by applying random (but realistic) transformations such as image rotation. You will learn how to apply data augmentation in two ways. First, you will use [Keras Preprocessing Layers](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing/). Next, you will use [`tf.image`](https://tensorflow.google.cn/api_docs/python/tf/image).
+
+## Setup
+
+```py
+pip install -q tf-nightly
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import tensorflow as tf
+import tensorflow_datasets as tfds
+
+from tensorflow.keras import layers
+from tensorflow.keras.datasets import mnist 
+```
+
+## Download a dataset
+
+This tutorial uses the [tf_flowers](https://tensorflow.google.cn/datasets/catalog/tf_flowers) dataset. For convenience, download the dataset using [TensorFlow Datasets](https://tensorflow.google.cn/datasets). If you would like to learn about others ways of importing data, see the [load images](https://tensorflow.google.cn/tutorials/load_data/images) tutorial.
+
+```py
+(train_ds, val_ds, test_ds), metadata = tfds.load(
+    'tf_flowers',
+    split=['train[:80%]', 'train[80%:90%]', 'train[90%:]'],
+    with_info=True,
+    as_supervised=True,
+) 
+```
+
+```py
+Downloading and preparing dataset tf_flowers/3.0.1 (download: 218.21 MiB, generated: 221.83 MiB, total: 440.05 MiB) to /home/kbuilder/tensorflow_datasets/tf_flowers/3.0.1...
+
+Warning:absl:Dataset tf_flowers is hosted on GCS. It will automatically be downloaded to your
+local data directory. If you'd instead prefer to read directly from our public
+GCS bucket (recommended if you're running on GCP), you can instead pass
+`try_gcs=True` to `tfds.load` or set `data_dir=gs://tfds-data/datasets`.
+
+Dataset tf_flowers downloaded and prepared to /home/kbuilder/tensorflow_datasets/tf_flowers/3.0.1\. Subsequent calls will reuse this data.
+
+```
+
+The flowers dataset has five classes.
+
+```py
+num_classes = metadata.features['label'].num_classes
+print(num_classes) 
+```
+
+```py
+5
+
+```
+
+Let's retrieve an image from the dataset and use it to demonstrate data augmentation.
+
+```py
+get_label_name = metadata.features['label'].int2str
+
+image, label = next(iter(train_ds))
+_ = plt.imshow(image)
+_ = plt.title(get_label_name(label)) 
+```
+
+![png](img/aa45f39cd51486760afc706f90cf0afa.png)
+
+## Use Keras preprocessing layers
+
+**Note:** The [Keras Preprocesing Layers](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing) introduced in this section are currently experimental.
+
+### Resizing and rescaling
+
+You can use preprocessing layers to [resize](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing/Resizing) your images to a consistent shape, and to [rescale](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing/Rescaling) pixel values.
+
+```py
+IMG_SIZE = 180
+
+resize_and_rescale = tf.keras.Sequential([
+  layers.experimental.preprocessing.Resizing(IMG_SIZE, IMG_SIZE),
+  layers.experimental.preprocessing.Rescaling(1./255)
+]) 
+```
+
+**Note:** the rescaling layer above standardizes pixel values to `[0,1]`. If instead you wanted `[-1,1]`, you would write `Rescaling(1./127.5, offset=-1)`.
+
+You can see the result of applying these layers to an image.
+
+```py
+result = resize_and_rescale(image)
+_ = plt.imshow(result) 
+```
+
+![png](img/35228c04a07ff13d63e7c28043db3950.png)
+
+You can verify the pixels are in `[0-1]`.
+
+```py
+print("Min and max pixel values:", result.numpy().min(), result.numpy().max()) 
+```
+
+```py
+Min and max pixel values: 0.0 1.0
+
+```
+
+### Data augmentation
+
+You can use preprocessing layers for data augmentation as well.
+
+Let's create a few preprocessing layers and apply them repeatedly to the same image.
+
+```py
+data_augmentation = tf.keras.Sequential([
+  layers.experimental.preprocessing.RandomFlip("horizontal_and_vertical"),
+  layers.experimental.preprocessing.RandomRotation(0.2),
+]) 
+```
+
+```py
+# Add the image to a batch
+image = tf.expand_dims(image, 0) 
+```
+
+```py
+plt.figure(figsize=(10, 10))
+for i in range(9):
+  augmented_image = data_augmentation(image)
+  ax = plt.subplot(3, 3, i + 1)
+  plt.imshow(augmented_image[0])
+  plt.axis("off") 
+```
+
+![png](img/30586460013d859e496dd27ce6b18cbc.png)
+
+There are a variety of preprocessing [layers](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing) you can use for data augmentation including `layers.RandomContrast`, `layers.RandomCrop`, `layers.RandomZoom`, and others.
+
+### Two options to use the preprocessing layers
+
+There are two ways you can use these preprocessing layers, with important tradeoffs.
+
+#### Option 1: Make the preprocessing layers part of your model
+
+```py
+model = tf.keras.Sequential([
+  resize_and_rescale,
+  data_augmentation,
+  layers.Conv2D(16, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  # Rest of your model
+]) 
+```
+
+There are two important points to be aware of in this case:
+
+*   Data augmentation will run on-device, synchronously with the rest of your layers, and benefit from GPU acceleration.
+
+*   When you export your model using `model.save`, the preprocessing layers will be saved along with the rest of your model. If you later deploy this model, it will automatically standardize images (according to the configuration of your layers). This can save you from the effort of having to reimplement that logic server-side.
+
+**Note:** Data augmentation is inactive at test time so input images will only be augmented during calls to `model.fit` (not `model.evaluate` or `model.predict`).
+
+#### Option 2: Apply the preprocessing layers to your dataset
+
+```py
+aug_ds = train_ds.map(
+  lambda x, y: (resize_and_rescale(x, training=True), y)) 
+```
+
+With this approach, you use [`Dataset.map`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#map) to create a dataset that yields batches of augmented images. In this case:
+
+*   Data augmentation will happen asynchronously on the CPU, and is non-blocking. You can overlap the training of your model on the GPU with data preprocessing, using [`Dataset.prefetch`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#prefetch), shown below.
+*   In this case the prepreprocessing layers will not be exported with the model when you call `model.save`. You will need to attach them to your model before saving it or reimplement them server-side. After training, you can attach the preprocessing layers before export.
+
+You can find an example of the first option in the [image classification](https://tensorflow.google.cn/tutorials/images/classification) tutorial. Let's demonstrate the second option here.
+
+### Apply the preprocessing layers to the datasets
+
+Configure the train, validation, and test datasets with the preprocessing layers you created above. You will also configure the datasets for performance, using parallel reads and buffered prefetching to yield batches from disk without I/O become blocking. You can learn more dataset performance in the [Better performance with the tf.data API](https://tensorflow.google.cn/guide/data_performance) guide.
+
+**Note:** data augmentation should only be applied to the training set.
+
+```py
+batch_size = 32
+AUTOTUNE = tf.data.experimental.AUTOTUNE
+
+def prepare(ds, shuffle=False, augment=False):
+  # Resize and rescale all datasets
+  ds = ds.map(lambda x, y: (resize_and_rescale(x), y), 
+              num_parallel_calls=AUTOTUNE)
+
+  if shuffle:
+    ds = ds.shuffle(1000)
+
+  # Batch all datasets
+  ds = ds.batch(batch_size)
+
+  # Use data augmentation only on the training set
+  if augment:
+    ds = ds.map(lambda x, y: (data_augmentation(x, training=True), y), 
+                num_parallel_calls=AUTOTUNE)
+
+  # Use buffered prefecting on all datasets
+  return ds.prefetch(buffer_size=AUTOTUNE) 
+```
+
+```py
+train_ds = prepare(train_ds, shuffle=True, augment=True)
+val_ds = prepare(val_ds)
+test_ds = prepare(test_ds) 
+```
+
+### Train a model
+
+For completeness, you will now train a model using these datasets. This model has not been tuned for accuracy (the goal is to show you the mechanics).
+
+```py
+model = tf.keras.Sequential([
+  layers.Conv2D(16, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Conv2D(32, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Conv2D(64, 3, padding='same', activation='relu'),
+  layers.MaxPooling2D(),
+  layers.Flatten(),
+  layers.Dense(128, activation='relu'),
+  layers.Dense(num_classes)
+]) 
+```
+
+```py
+model.compile(optimizer='adam',
+              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+              metrics=['accuracy']) 
+```
+
+```py
+epochs=5
+history = model.fit(
+  train_ds,
+  validation_data=val_ds,
+  epochs=epochs
+) 
+```
+
+```py
+Epoch 1/5
+92/92 [==============================] - 30s 315ms/step - loss: 1.5078 - accuracy: 0.3428 - val_loss: 1.0809 - val_accuracy: 0.6240
+Epoch 2/5
+92/92 [==============================] - 28s 303ms/step - loss: 1.0781 - accuracy: 0.5724 - val_loss: 0.9762 - val_accuracy: 0.6322
+Epoch 3/5
+92/92 [==============================] - 28s 295ms/step - loss: 1.0083 - accuracy: 0.5900 - val_loss: 0.9570 - val_accuracy: 0.6376
+Epoch 4/5
+92/92 [==============================] - 28s 300ms/step - loss: 0.9537 - accuracy: 0.6116 - val_loss: 0.9081 - val_accuracy: 0.6485
+Epoch 5/5
+92/92 [==============================] - 28s 301ms/step - loss: 0.8816 - accuracy: 0.6525 - val_loss: 0.8353 - val_accuracy: 0.6594
+
+```
+
+```py
+loss, acc = model.evaluate(test_ds)
+print("Accuracy", acc) 
+```
+
+```py
+12/12 [==============================] - 1s 83ms/step - loss: 0.8226 - accuracy: 0.6567
+Accuracy 0.6566757559776306
+
+```
+
+### Custom data augmentation
+
+You can also create custom data augmenation layers. This tutorial shows two ways of doing so. First, you will create a [`layers.Lambda`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Lambda) layer. This is a good way to write concise code. Next, you will write a new layer via [subclassing](https://tensorflow.google.cn/guide/keras/custom_layers_and_models), which gives you more control. Both layers will randomly invert the colors in an image, accoring to some probability.
+
+```py
+def random_invert_img(x, p=0.5):
+  if  tf.random.uniform([]) < p:
+    x = (255-x)
+  else:
+    x
+  return x 
+```
+
+```py
+def random_invert(factor=0.5):
+  return layers.Lambda(lambda x: random_invert_img(x, factor))
+
+random_invert = random_invert() 
+```
+
+```py
+plt.figure(figsize=(10, 10))
+for i in range(9):
+  augmented_image = random_invert(image)
+  ax = plt.subplot(3, 3, i + 1)
+  plt.imshow(augmented_image[0].numpy().astype("uint8"))
+  plt.axis("off") 
+```
+
+![png](img/5c6f6f5e851c052e9e53969cd0419cbb.png)
+
+Next, implement a custom layer by [subclassing](https://tensorflow.google.cn/guide/keras/custom_layers_and_models).
+
+```py
+class RandomInvert(layers.Layer):
+  def __init__(self, factor=0.5, **kwargs):
+    super().__init__(**kwargs)
+    self.factor = factor
+
+  def call(self, x):
+    return random_invert_img(x) 
+```
+
+```py
+_ = plt.imshow(RandomInvert()(image)[0]) 
+```
+
+![png](img/8142c6b01c1a35d86e4ace60827bcce8.png)
+
+Both of these layers can be used as described in options 1 and 2 above.
+
+## Using tf.image
+
+The above `layers.preprocessing` utilities are convenient. For finer control, you can write your own data augmentation pipelines or layers using [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) and [`tf.image`](https://tensorflow.google.cn/api_docs/python/tf/image). You may also want to check out [TensorFlow Addons Image: Operations](https://tensorflow.google.cn/addons/tutorials/image_ops) and [TensorFlow I/O: Color Space Conversions](https://tensorflow.google.cn/io/tutorials/colorspace)
+
+Since the flowers dataset was previously configured with data augmentation, let's reimport it to start fresh.
+
+```py
+(train_ds, val_ds, test_ds), metadata = tfds.load(
+    'tf_flowers',
+    split=['train[:80%]', 'train[80%:90%]', 'train[90%:]'],
+    with_info=True,
+    as_supervised=True,
+) 
+```
+
+Retrieve an image to work with.
+
+```py
+image, label = next(iter(train_ds))
+_ = plt.imshow(image)
+_ = plt.title(get_label_name(label)) 
+```
+
+![png](img/cfa82b128c103151f142dae7b5ddecda.png)
+
+Let's use the following function to visualize and compare the original and augmented images side-by-side.
+
+```py
+def visualize(original, augmented):
+  fig = plt.figure()
+  plt.subplot(1,2,1)
+  plt.title('Original image')
+  plt.imshow(original)
+
+  plt.subplot(1,2,2)
+  plt.title('Augmented image')
+  plt.imshow(augmented) 
+```
+
+### Data augmentation
+
+### Flipping the image
+
+Flip the image either vertically or horizontally.
+
+```py
+flipped = tf.image.flip_left_right(image)
+visualize(image, flipped) 
+```
+
+![png](img/dda6acab76c9a017bbe16c3bebb8e54c.png)
+
+### Grayscale the image
+
+Grayscale an image.
+
+```py
+grayscaled = tf.image.rgb_to_grayscale(image)
+visualize(image, tf.squeeze(grayscaled))
+_ = plt.colorbar() 
+```
+
+![png](img/1d2f7cb104afa8ee05f37076045f9195.png)
+
+### Saturate the image
+
+Saturate an image by providing a saturation factor.
+
+```py
+saturated = tf.image.adjust_saturation(image, 3)
+visualize(image, saturated) 
+```
+
+![png](img/7ef992617c160736f94c086cc0a754d5.png)
+
+### Change image brightness
+
+Change the brightness of image by providing a brightness factor.
+
+```py
+bright = tf.image.adjust_brightness(image, 0.4)
+visualize(image, bright) 
+```
+
+![png](img/e46db7cde2b53be53d302c4b00d582a5.png)
+
+### Center crop the image
+
+Crop the image from center up to the image part you desire.
+
+```py
+cropped = tf.image.central_crop(image, central_fraction=0.5)
+visualize(image,cropped) 
+```
+
+![png](img/fe72873df8e5156872c578827579ba34.png)
+
+### Rotate the image
+
+Rotate an image by 90 degrees.
+
+```py
+rotated = tf.image.rot90(image)
+visualize(image, rotated) 
+```
+
+![png](img/f769d692ddcca3810cad6e32307d9b3a.png)
+
+### Apply augmentation to a dataset
+
+As before, apply data augmentation to a dataset using [`Dataset.map`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#map).
+
+```py
+def resize_and_rescale(image, label):
+  image = tf.cast(image, tf.float32)
+  image = tf.image.resize(image, [IMG_SIZE, IMG_SIZE])
+  image = (image / 255.0)
+  return image, label 
+```
+
+```py
+def augment(image,label):
+  image, label = resize_and_rescale(image, label)
+  # Add 6 pixels of padding
+  image = tf.image.resize_with_crop_or_pad(image, IMG_SIZE + 6, IMG_SIZE + 6) 
+   # Random crop back to the original size
+  image = tf.image.random_crop(image, size=[IMG_SIZE, IMG_SIZE, 3])
+  image = tf.image.random_brightness(image, max_delta=0.5) # Random brightness
+  image = tf.clip_by_value(image, 0, 1)
+  return image, label 
+```
+
+### Configure the datasets
+
+```py
+train_ds = (
+    train_ds
+    .shuffle(1000)
+    .map(augment, num_parallel_calls=AUTOTUNE)
+    .batch(batch_size)
+    .prefetch(AUTOTUNE)
+) 
+```
+
+```py
+val_ds = (
+    val_ds
+    .map(resize_and_rescale, num_parallel_calls=AUTOTUNE)
+    .batch(batch_size)
+    .prefetch(AUTOTUNE)
+) 
+```
+
+```py
+test_ds = (
+    test_ds
+    .map(resize_and_rescale, num_parallel_calls=AUTOTUNE)
+    .batch(batch_size)
+    .prefetch(AUTOTUNE)
+) 
+```
+
+These datasets can now be used to train a model as shown previously.
+
+## Next steps
+
+This tutorial demonstrated data augmentation using [Keras Preprocessing Layers](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing/) and [`tf.image`](https://tensorflow.google.cn/api_docs/python/tf/image). To learn how to include preprocessing layers inside your model, see the [Image classification](https://tensorflow.google.cn/tutorials/images/classification) tutorial. You may also be interested in learning how preprocessing layers can help you classify text, as shown in the [Basic text classification](https://tensorflow.google.cn/tutorials/keras/text_classification) tutorial. You can learn more about [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) in this [guide](https://tensorflow.google.cn/guide/data), and you can learn how to configure your input pipelines for performance [here](https://tensorflow.google.cn/guide/data_performance).
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/046.md b/Tensorflow/TensorFlow2.0/046.md
new file mode 100644
index 00000000..15780f1f
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/046.md
@@ -0,0 +1,326 @@
+# 图像分割
+
+> 原文：[https://tensorflow.google.cn/tutorials/images/segmentation](https://tensorflow.google.cn/tutorials/images/segmentation)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+这篇教程将重点讨论图像分割任务，使用的是改进版的 [U-Net](https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/)。
+
+## 什么是图像分割？
+
+目前你已经了解在图像分类中，神经网络的任务是给每张输入图像分配一个标签或者类别。但是，有时你想知道一个物体在一张图像中的位置、这个物体的形状、以及哪个像素属于哪个物体等等。这种情况下你会希望分割图像，也就是给图像中的每个像素各分配一个标签。因此，图像分割的任务是训练一个神经网络来输出该图像对每一个像素的掩码。这对从更底层，即像素层级，来理解图像很有帮助。图像分割在例如医疗图像、自动驾驶车辆以及卫星图像等领域有很多应用。
+
+本教程将使用的数据集是 [Oxford-IIIT Pet 数据集](https://www.robots.ox.ac.uk/%7Evgg/data/pets/)，由 Parkhi *et al.* 创建。该数据集由图像、图像所对应的标签、以及对像素逐一标记的掩码组成。掩码其实就是给每个像素的标签。每个像素分别属于以下三个类别中的一个：
+
+*   类别 1：像素是宠物的一部分。
+*   类别 2：像素是宠物的轮廓。
+*   类别 3：以上都不是/外围像素。
+
+```py
+pip install -q git+https://github.com/tensorflow/examples.git
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import tensorflow as tf 
+```
+
+```py
+from tensorflow_examples.models.pix2pix import pix2pix
+
+import tensorflow_datasets as tfds
+tfds.disable_progress_bar()
+
+from IPython.display import clear_output
+import matplotlib.pyplot as plt 
+```
+
+## 下载 Oxford-IIIT Pets 数据集
+
+这个数据集已经集成在 Tensorflow datasets 中，只需下载即可。图像分割掩码在版本 3.0.0 中才被加入，因此我们特别选用这个版本。
+
+```py
+dataset, info = tfds.load('oxford_iiit_pet:3.*.*', with_info=True) 
+```
+
+```py
+Downloading and preparing dataset oxford_iiit_pet/3.2.0 (download: 773.52 MiB, generated: 774.69 MiB, total: 1.51 GiB) to /home/kbuilder/tensorflow_datasets/oxford_iiit_pet/3.2.0...
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/oxford_iiit_pet/3.2.0.incompleteXSR11A/oxford_iiit_pet-train.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/oxford_iiit_pet/3.2.0.incompleteXSR11A/oxford_iiit_pet-test.tfrecord
+Dataset oxford_iiit_pet downloaded and prepared to /home/kbuilder/tensorflow_datasets/oxford_iiit_pet/3.2.0\. Subsequent calls will reuse this data.
+
+```
+
+下面的代码进行了一个简单的图像翻转扩充。然后，将图像标准化到 [0,1]。最后，如上文提到的，像素点在图像分割掩码中被标记为 {1, 2, 3} 中的一个。为了方便起见，我们将分割掩码都减 1，得到了以下的标签：{0, 1, 2}。
+
+```py
+def normalize(input_image, input_mask):
+  input_image = tf.cast(input_image, tf.float32) / 255.0
+  input_mask -= 1
+  return input_image, input_mask 
+```
+
+```py
+@tf.function
+def load_image_train(datapoint):
+  input_image = tf.image.resize(datapoint['image'], (128, 128))
+  input_mask = tf.image.resize(datapoint['segmentation_mask'], (128, 128))
+
+  if tf.random.uniform(()) > 0.5:
+    input_image = tf.image.flip_left_right(input_image)
+    input_mask = tf.image.flip_left_right(input_mask)
+
+  input_image, input_mask = normalize(input_image, input_mask)
+
+  return input_image, input_mask 
+```
+
+```py
+def load_image_test(datapoint):
+  input_image = tf.image.resize(datapoint['image'], (128, 128))
+  input_mask = tf.image.resize(datapoint['segmentation_mask'], (128, 128))
+
+  input_image, input_mask = normalize(input_image, input_mask)
+
+  return input_image, input_mask 
+```
+
+数据集已经包含了所需的测试集和训练集划分，所以我们也延续使用相同的划分。
+
+```py
+TRAIN_LENGTH = info.splits['train'].num_examples
+BATCH_SIZE = 64
+BUFFER_SIZE = 1000
+STEPS_PER_EPOCH = TRAIN_LENGTH // BATCH_SIZE 
+```
+
+```py
+train = dataset['train'].map(load_image_train, num_parallel_calls=tf.data.experimental.AUTOTUNE)
+test = dataset['test'].map(load_image_test) 
+```
+
+```py
+train_dataset = train.cache().shuffle(BUFFER_SIZE).batch(BATCH_SIZE).repeat()
+train_dataset = train_dataset.prefetch(buffer_size=tf.data.experimental.AUTOTUNE)
+test_dataset = test.batch(BATCH_SIZE) 
+```
+
+我们来看一下数据集中的一例图像以及它所对应的掩码。
+
+```py
+def display(display_list):
+  plt.figure(figsize=(15, 15))
+
+  title = ['Input Image', 'True Mask', 'Predicted Mask']
+
+  for i in range(len(display_list)):
+    plt.subplot(1, len(display_list), i+1)
+    plt.title(title[i])
+    plt.imshow(tf.keras.preprocessing.image.array_to_img(display_list[i]))
+    plt.axis('off')
+  plt.show() 
+```
+
+```py
+for image, mask in train.take(1):
+  sample_image, sample_mask = image, mask
+display([sample_image, sample_mask]) 
+```
+
+![png](img/a8a6734d5e53ebf66610af0af887bc96.png)
+
+## 定义模型
+
+这里用到的模型是一个改版的 U-Net。U-Net 由一个编码器（下采样器（downsampler））和一个解码器（上采样器（upsampler））组成。为了学习到鲁棒的特征，同时减少可训练参数的数量，这里可以使用一个预训练模型作为编码器。因此，这项任务中的编码器将使用一个预训练的 MobileNetV2 模型，它的中间输出值将被使用。解码器将使用在 TensorFlow Examples 中的 [Pix2pix tutorial](https://github.com/tensorflow/examples/blob/master/tensorflow_examples/models/pix2pix/pix2pix.py) 里实施过的升频取样模块。
+
+输出信道数量为 3 是因为每个像素有三种可能的标签。把这想象成一个多类别分类，每个像素都将被分到三个类别当中。
+
+```py
+OUTPUT_CHANNELS = 3 
+```
+
+如之前提到的，编码器是一个预训练的 MobileNetV2 模型，它在 [tf.keras.applications](https://tensorflow.google.cn/versions/r2.0/api_docs/python/tf/keras/applications) 中已被准备好并可以直接使用。编码器中包含模型中间层的一些特定输出。注意编码器在模型的训练过程中是不会被训练的。
+
+```py
+base_model = tf.keras.applications.MobileNetV2(input_shape=[128, 128, 3], include_top=False)
+
+# 使用这些层的激活设置
+layer_names = [
+    'block_1_expand_relu',   # 64x64
+    'block_3_expand_relu',   # 32x32
+    'block_6_expand_relu',   # 16x16
+    'block_13_expand_relu',  # 8x8
+    'block_16_project',      # 4x4
+]
+layers = [base_model.get_layer(name).output for name in layer_names]
+
+# 创建特征提取模型
+down_stack = tf.keras.Model(inputs=base_model.input, outputs=layers)
+
+down_stack.trainable = False 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/mobilenet_v2/mobilenet_v2_weights_tf_dim_ordering_tf_kernels_1.0_128_no_top.h5
+9412608/9406464 [==============================] - 0s 0us/step
+
+```
+
+解码器/升频取样器是简单的一系列升频取样模块，在 TensorFlow examples 中曾被实施过。
+
+```py
+up_stack = [
+    pix2pix.upsample(512, 3),  # 4x4 -> 8x8
+    pix2pix.upsample(256, 3),  # 8x8 -> 16x16
+    pix2pix.upsample(128, 3),  # 16x16 -> 32x32
+    pix2pix.upsample(64, 3),   # 32x32 -> 64x64
+] 
+```
+
+```py
+def unet_model(output_channels):
+  inputs = tf.keras.layers.Input(shape=[128, 128, 3])
+  x = inputs
+
+  # 在模型中降频取样
+  skips = down_stack(x)
+  x = skips[-1]
+  skips = reversed(skips[:-1])
+
+  # 升频取样然后建立跳跃连接
+  for up, skip in zip(up_stack, skips):
+    x = up(x)
+    concat = tf.keras.layers.Concatenate()
+    x = concat([x, skip])
+
+  # 这是模型的最后一层
+  last = tf.keras.layers.Conv2DTranspose(
+      output_channels, 3, strides=2,
+      padding='same')  #64x64 -> 128x128
+
+  x = last(x)
+
+  return tf.keras.Model(inputs=inputs, outputs=x) 
+```
+
+## 训练模型
+
+现在，要做的只剩下编译和训练模型了。这里用到的损失函数是 losses.sparse_categorical_crossentropy。使用这个损失函数是因为神经网络试图给每一个像素分配一个标签，和多类别预测是一样的。在正确的分割掩码中，每个像素点的值是 {0,1,2} 中的一个。同时神经网络也输出三个信道。本质上，每个信道都在尝试学习预测一个类别，而 losses.sparse_categorical_crossentropy 正是这一情形下推荐使用的损失函数。根据神经网络的输出值，分配给每个像素的标签为输出值最高的信道所表示的那一类。这就是 create_mask 函数所做的工作。
+
+```py
+model = unet_model(OUTPUT_CHANNELS)
+model.compile(optimizer='adam',
+              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
+              metrics=['accuracy']) 
+```
+
+快速浏览一下最终的模型架构：
+
+```py
+tf.keras.utils.plot_model(model, show_shapes=True) 
+```
+
+![png](img/fc1492a9c4124dcf0d9fb207c0a323d0.png)
+
+我们试着运行一下模型，看看它在训练之前给出的预测值。
+
+```py
+def create_mask(pred_mask):
+  pred_mask = tf.argmax(pred_mask, axis=-1)
+  pred_mask = pred_mask[..., tf.newaxis]
+  return pred_mask[0] 
+```
+
+```py
+def show_predictions(dataset=None, num=1):
+  if dataset:
+    for image, mask in dataset.take(num):
+      pred_mask = model.predict(image)
+      display([image[0], mask[0], create_mask(pred_mask)])
+  else:
+    display([sample_image, sample_mask,
+             create_mask(model.predict(sample_image[tf.newaxis, ...]))]) 
+```
+
+```py
+show_predictions() 
+```
+
+![png](img/79de81de8fa8f26b206d9f7e2e29232f.png)
+
+我们来观察模型是怎样随着训练而改善的。为达成这一目的，下面将定义一个 callback 函数。
+
+```py
+class DisplayCallback(tf.keras.callbacks.Callback):
+  def on_epoch_end(self, epoch, logs=None):
+    clear_output(wait=True)
+    show_predictions()
+    print ('\nSample Prediction after epoch {}\n'.format(epoch+1)) 
+```
+
+```py
+EPOCHS = 20
+VAL_SUBSPLITS = 5
+VALIDATION_STEPS = info.splits['test'].num_examples//BATCH_SIZE//VAL_SUBSPLITS
+
+model_history = model.fit(train_dataset, epochs=EPOCHS,
+                          steps_per_epoch=STEPS_PER_EPOCH,
+                          validation_steps=VALIDATION_STEPS,
+                          validation_data=test_dataset,
+                          callbacks=[DisplayCallback()]) 
+```
+
+![png](img/dd1b792428257ee1ffcb4e02d4e81c11.png)
+
+```py
+
+Sample Prediction after epoch 20
+
+57/57 [==============================] - 3s 54ms/step - loss: 0.1308 - accuracy: 0.9401 - val_loss: 0.3246 - val_accuracy: 0.8903
+
+```
+
+```py
+loss = model_history.history['loss']
+val_loss = model_history.history['val_loss']
+
+epochs = range(EPOCHS)
+
+plt.figure()
+plt.plot(epochs, loss, 'r', label='Training loss')
+plt.plot(epochs, val_loss, 'bo', label='Validation loss')
+plt.title('Training and Validation Loss')
+plt.xlabel('Epoch')
+plt.ylabel('Loss Value')
+plt.ylim([0, 1])
+plt.legend()
+plt.show() 
+```
+
+![png](img/12bbad2792cbf9031cf0f5c0e54b36a3.png)
+
+## 做出预测
+
+我们来做几个预测。为了节省时间，这里只使用很少的周期（epoch）数，但是你可以设置更多的数量以获得更准确的结果。
+
+```py
+show_predictions(test_dataset, 3) 
+```
+
+![png](img/a3923a442896cffee97920f98141a84c.png)
+
+![png](img/8fcdc694ecba49a443b3d3fa3db737c8.png)
+
+![png](img/58c58ebd47eeea7849c83cacae4000e9.png)
+
+## 接下来
+
+现在你已经对图像分割是什么以及它的工作原理有所了解。你可以在本教程里尝试使用不同的中间层输出值，或者甚至使用不同的预训练模型。你也可以去 Kaggle 举办的 [Carvana](https://www.kaggle.com/c/carvana-image-masking-challenge/overview) 图像分割挑战赛上挑战自己。
+
+你也可以看看 [Tensorflow Object Detection API](https://github.com/tensorflow/models/tree/master/research/object_detection) 上面其他的你可以使用自己数据进行再训练的模型。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/047.md b/Tensorflow/TensorFlow2.0/047.md
new file mode 100644
index 00000000..584a81a7
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/047.md
@@ -0,0 +1 @@
+# 文本
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/048.md b/Tensorflow/TensorFlow2.0/048.md
new file mode 100644
index 00000000..ab522b00
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/048.md
@@ -0,0 +1,367 @@
+# 单词嵌入向量
+
+> 原文：[https://tensorflow.google.cn/tutorials/text/word_embeddings](https://tensorflow.google.cn/tutorials/text/word_embeddings)
+
+本教程将介绍单词嵌入向量。包含完整的代码，可在小型数据集上从头开始训练单词嵌入向量，并使用 [Embedding Projector](http://projector.tensorflow.org)（如下图所示）可视化这些嵌入向量。
+
+![Screenshot of the embedding projector](img/16ea92d12fa8170f3e79e4c56f9affd1.png)
+
+## 用数字表示文本
+
+机器学习模型将向量（数字数组）作为输入。在处理文本时，我们必须先想出一种策略，将字符串转换为数字（或将文本“向量化”），然后再其馈入模型。在本部分中，我们将探究实现这一目标的三种策略。
+
+### 独热编码
+
+作为第一个想法，我们可以对词汇表中的每个单词进行“独热”编码。考虑这样一句话：“The cat sat on the mat”。这句话中的词汇（或唯一单词）是（cat、mat、on、sat、the）。为了表示每个单词，我们将创建一个长度等于词汇量的零向量，然后在与该单词对应的索引中放置一个 1。下图显示了这种方法。
+
+![Diagram of one-hot encodings](img/717d3c9c631162f5b991acff83eda7bc.png)
+
+为了创建一个包含句子编码的向量，我们可以将每个单词的独热向量连接起来。
+
+要点：这种方法效率低下。一个独热编码向量十分稀疏（这意味着大多数索引为零）。假设我们的词汇表中有 10,000 个单词。为了对每个单词进行独热编码，我们将创建一个其中 99.99% 的元素都为零的向量。
+
+### 用一个唯一的数字编码每个单词
+
+我们可以尝试的第二种方法是使用唯一的数字来编码每个单词。继续上面的示例，我们可以将 1 分配给“cat”，将 2 分配给“mat”，依此类推。然后，我们可以将句子“The cat sat on the mat”编码为一个密集向量，例如 [5, 1, 4, 3, 5, 2]。这种方法是高效的。现在，我们有了一个密集向量（所有元素均已满），而不是稀疏向量。
+
+但是，这种方法有两个缺点：
+
+*   整数编码是任意的（它不会捕获单词之间的任何关系）。
+
+*   对于要解释的模型而言，整数编码颇具挑战。例如，线性分类器针对每个特征学习一个权重。由于任何两个单词的相似性与其编码的相似性之间都没有关系，因此这种特征权重组合没有意义。
+
+### 单词嵌入向量
+
+单词嵌入向量为我们提供了一种使用高效、密集表示的方法，其中相似的单词具有相似的编码。重要的是，我们不必手动指定此编码。嵌入向量是浮点值的密集向量（向量的长度是您指定的参数）。它们是可以训练的参数（模型在训练过程中学习的权重，与模型学习密集层权重的方法相同），无需手动为嵌入向量指定值。8 维的单词嵌入向量（对于小型数据集）比较常见，而在处理大型数据集时最多可达 1024 维。维度更高的嵌入向量可以捕获单词之间的细粒度关系，但需要更多的数据来学习。
+
+![Diagram of an embedding](img/4341c4ebffdd0a35a50322abd93518de.png)
+
+上面是一个单词嵌入向量的示意图。每个单词都表示为浮点值的 4 维向量。还可以将嵌入向量视为“查找表”。学习完这些权重后，我们可以通过在表中查找对应的密集向量来编码每个单词。
+
+## 设置
+
+```py
+import tensorflow as tf 
+```
+
+```py
+from tensorflow import keras
+from tensorflow.keras import layers
+
+import tensorflow_datasets as tfds
+tfds.disable_progress_bar() 
+```
+
+## 使用嵌入向量层
+
+Keras 让使用单词嵌入向量变得轻而易举。我们来看一下[嵌入向量](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Embedding)层。
+
+可以将嵌入向量层理解为一个从整数索引（代表特定单词）映射到密集向量（其嵌入向量）的查找表。嵌入向量的维数（或宽度）是一个参数，您可以试验它的数值，以了解多少维度适合您的问题，这与您试验密集层中神经元数量的方式非常相似。
+
+```py
+embedding_layer = layers.Embedding(1000, 5) 
+```
+
+创建嵌入向量层时，嵌入向量的权重会随机初始化（就像其他任何层一样）。在训练过程中，通过反向传播来逐渐调整这些权重。训练后，学习到的单词嵌入向量将粗略地编码单词之间的相似性（因为它们是针对训练模型的特定问题而学习的）。
+
+如果将整数传递给嵌入向量层，结果会将每个整数替换为嵌入向量表中的向量：
+
+```py
+result = embedding_layer(tf.constant([1,2,3]))
+result.numpy() 
+```
+
+```py
+array([[ 0.02629578,  0.0097797 , -0.04365711,  0.03760537,  0.0260709 ],
+       [ 0.03876719,  0.01541508, -0.0483237 ,  0.03976549,  0.04153169],
+       [ 0.03035608,  0.0410546 , -0.03654389, -0.01073235,  0.02143143]],
+      dtype=float32)
+
+```
+
+对于文本或序列问题，嵌入向量层采用整数组成的 2D 张量，其形状为 `(samples, sequence_length)`，其中每个条目都是一个整数序列。它可以嵌入可变长度的序列。您可以在形状为 `(32, 10)`（32 个长度为 10 的序列组成的批次）或 `(64, 15)`（64 个长度为 15 的序列组成的批次）的批次上方馈入嵌入向量层。
+
+返回的张量比输入多一个轴，嵌入向量沿新的最后一个轴对齐。向其传递 `(2, 3)` 输入批次，输出为 `(2, 3, N)`
+
+```py
+result = embedding_layer(tf.constant([[0,1,2],[3,4,5]]))
+result.shape 
+```
+
+```py
+TensorShape([2, 3, 5])
+
+```
+
+当给定一个序列批次作为输入时，嵌入向量层将返回形状为 `(samples, sequence_length, embedding_dimensionality)` 的 3D 浮点张量。为了从可变长度的序列转换为固定表示，有多种标准方法。您可以先使用 RNN、注意力或池化层，然后再将其传递给密集层。本教程使用池化，因为它最简单。接下来，学习[使用 RNN 进行文本分类](/tutorials/text/text_classification_rnn)教程是一个不错的选择。
+
+## 从头开始学习嵌入向量
+
+在本教程中，您将基于 IMDB 电影评论来训练情感分类器。在此过程中，模型将从头开始学习嵌入向量。我们将使用经过预处理的数据集。
+
+要从头开始加载文本数据集，请参阅[加载文本教程](https://tensorflow.google.cn/tutorials/load_data/text)。
+
+```py
+(train_data, test_data), info = tfds.load(
+    'imdb_reviews/subwords8k', 
+    split = (tfds.Split.TRAIN, tfds.Split.TEST), 
+    with_info=True, as_supervised=True) 
+```
+
+```py
+WARNING:absl:TFDS datasets with text encoding are deprecated and will be removed in a future version. Instead, you should use the plain text version and tokenize the text using `tensorflow_text` (See: https://www.tensorflow.org/tutorials/tensorflow_text/intro#tfdata_example)
+
+```
+
+获取编码器 (`tfds.features.text.SubwordTextEncoder`)，并快速浏览词汇表。
+
+词汇表中的“*”代表空格。请注意词汇表如何包含完整单词（以“*”结尾）以及可用于构建更大单词的部分单词：
+
+```py
+encoder = info.features['text'].encoder
+encoder.subwords[:20] 
+```
+
+```py
+['the_',
+ ', ',
+ '. ',
+ 'a_',
+ 'and_',
+ 'of_',
+ 'to_',
+ 's_',
+ 'is_',
+ 'br',
+ 'in_',
+ 'I_',
+ 'that_',
+ 'this_',
+ 'it_',
+ ' /><',
+ ' />',
+ 'was_',
+ 'The_',
+ 'as_']
+
+```
+
+电影评论的长度可以不同。我们将使用 `padded_batch` 方法来标准化评论的长度。
+
+```py
+train_batches = train_data.shuffle(1000).padded_batch(10)
+test_batches = test_data.shuffle(1000).padded_batch(10) 
+```
+
+导入时，评论的文本是整数编码的（每个整数代表词汇表中的特定单词或单词部分）。
+
+请注意尾随零，因为批次会填充为最长的示例。
+
+```py
+train_batch, train_labels = next(iter(train_batches))
+train_batch.numpy() 
+```
+
+```py
+array([[5739,   46,  674, ...,    0,    0,    0],
+       [ 274, 2732, 1289, ...,    0,    0,    0],
+       [  19,  118,  874, ...,    0,    0,    0],
+       ...,
+       [ 324,   12,  118, ...,    0,    0,    0],
+       [  12,   31,  165, ...,    0,    0,    0],
+       [ 131,  196, 7968, ...,    0,    0,    0]])
+
+```
+
+### 创建一个简单模型
+
+我们将使用 [Keras 序列式 API](https://tensorflow.google.cn/guide/keras) 定义模型。在这种情况下，它是一个“连续词袋”样式的模型。
+
+*   接下来，嵌入向量层将采用整数编码的词汇表，并查找每个单词索引的嵌入向量。在模型训练时会学习这些向量。向量会向输出数组添加维度。得到的维度为：`(batch, sequence, embedding)`。
+
+*   接下来，通过对序列维度求平均值，GlobalAveragePooling1D 层会返回每个样本的固定长度输出向量。这让模型能够以最简单的方式处理可变长度的输入。
+
+*   此固定长度输出向量通过一个包含 16 个隐藏单元的完全连接（密集）层进行流水线传输。
+
+*   最后一层与单个输出节点密集连接。利用 Sigmoid 激活函数，得出此值是 0 到 1 之间的浮点数，表示评论为正面的概率（或置信度）。
+
+小心：此模型不使用遮盖，而是使用零填充作为输入的一部分，因此填充长度可能会影响输出。要解决此问题，请参阅[遮盖和填充指南](https://tensorflow.google.cn/guide/keras/masking_and_padding)。
+
+```py
+embedding_dim=16
+
+model = keras.Sequential([
+  layers.Embedding(encoder.vocab_size, embedding_dim),
+  layers.GlobalAveragePooling1D(),
+  layers.Dense(16, activation='relu'),
+  layers.Dense(1)
+])
+
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+embedding_1 (Embedding)      (None, None, 16)          130960    
+_________________________________________________________________
+global_average_pooling1d (Gl (None, 16)                0         
+_________________________________________________________________
+dense (Dense)                (None, 16)                272       
+_________________________________________________________________
+dense_1 (Dense)              (None, 1)                 17        
+=================================================================
+Total params: 131,249
+Trainable params: 131,249
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+### 编译和训练模型
+
+```py
+model.compile(optimizer='adam',
+              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
+              metrics=['accuracy'])
+
+history = model.fit(
+    train_batches,
+    epochs=10,
+    validation_data=test_batches, validation_steps=20) 
+```
+
+```py
+Epoch 1/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.4984 - accuracy: 0.7022 - val_loss: 0.3781 - val_accuracy: 0.8550
+Epoch 2/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.2807 - accuracy: 0.8854 - val_loss: 0.3049 - val_accuracy: 0.8600
+Epoch 3/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.2288 - accuracy: 0.9100 - val_loss: 0.3979 - val_accuracy: 0.8550
+Epoch 4/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.1971 - accuracy: 0.9245 - val_loss: 0.4573 - val_accuracy: 0.8500
+Epoch 5/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.1747 - accuracy: 0.9340 - val_loss: 0.3457 - val_accuracy: 0.8550
+Epoch 6/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.1571 - accuracy: 0.9423 - val_loss: 0.4098 - val_accuracy: 0.8550
+Epoch 7/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.1414 - accuracy: 0.9489 - val_loss: 0.4089 - val_accuracy: 0.8550
+Epoch 8/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.1319 - accuracy: 0.9517 - val_loss: 0.5068 - val_accuracy: 0.7900
+Epoch 9/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.1189 - accuracy: 0.9578 - val_loss: 0.4304 - val_accuracy: 0.8500
+Epoch 10/10
+2500/2500 [==============================] - 10s 4ms/step - loss: 0.1110 - accuracy: 0.9619 - val_loss: 0.6972 - val_accuracy: 0.8250
+
+```
+
+通过这种方法，我们的模型可以达到约 88% 的验证准确率（请注意，该模型过度拟合，因此训练准确率要高得多）。
+
+```py
+import matplotlib.pyplot as plt
+
+history_dict = history.history
+
+acc = history_dict['accuracy']
+val_acc = history_dict['val_accuracy']
+loss=history_dict['loss']
+val_loss=history_dict['val_loss']
+
+epochs = range(1, len(acc) + 1)
+
+plt.figure(figsize=(12,9))
+plt.plot(epochs, loss, 'bo', label='Training loss')
+plt.plot(epochs, val_loss, 'b', label='Validation loss')
+plt.title('Training and validation loss')
+plt.xlabel('Epochs')
+plt.ylabel('Loss')
+plt.legend()
+plt.show()
+
+plt.figure(figsize=(12,9))
+plt.plot(epochs, acc, 'bo', label='Training acc')
+plt.plot(epochs, val_acc, 'b', label='Validation acc')
+plt.title('Training and validation accuracy')
+plt.xlabel('Epochs')
+plt.ylabel('Accuracy')
+plt.legend(loc='lower right')
+plt.ylim((0.5,1))
+plt.show() 
+```
+
+![png](img/815371be4cdb93da43df2c0cb17bb929.png)
+
+![png](img/f9f505f9e0bb94757eb576cd0aa1c1f3.png)
+
+## 检索学习的嵌入向量
+
+接下来，我们检索在训练期间学习的单词嵌入向量。这将是一个形状为 `(vocab_size, embedding-dimension)` 的矩阵。
+
+```py
+e = model.layers[0]
+weights = e.get_weights()[0]
+print(weights.shape) # shape: (vocab_size, embedding_dim) 
+```
+
+```py
+(8185, 16)
+
+```
+
+现在，我们将权重写入磁盘。要使用 [Embedding Projector](http://projector.tensorflow.org)，我们将以制表符分隔的格式上传两个文件：一个向量文件（包含嵌入向量）和一个元数据文件（包含单词）。
+
+```py
+import io
+
+encoder = info.features['text'].encoder
+
+out_v = io.open('vecs.tsv', 'w', encoding='utf-8')
+out_m = io.open('meta.tsv', 'w', encoding='utf-8')
+
+for num, word in enumerate(encoder.subwords):
+  vec = weights[num+1] # skip 0, it's padding.
+  out_m.write(word + "\n")
+  out_v.write('\t'.join([str(x) for x in vec]) + "\n")
+out_v.close()
+out_m.close() 
+```
+
+如果您正在 [Colaboratory](https://colab.research.google.com) 中运行本教程，则可以使用以下代码段将这些文件下载到本地计算机上（或使用文件浏览器，*View -> Table of contents -> File browser*）。
+
+```py
+try:
+  from google.colab import files
+except ImportError:
+   pass
+else:
+  files.download('vecs.tsv')
+  files.download('meta.tsv') 
+```
+
+## 可视化嵌入向量
+
+为了可视化嵌入向量，我们将它们上传到 Embedding Projector。
+
+打开 [Embedding Projector](http://projector.tensorflow.org/)（也可以在本地 TensorBoard 实例中运行）。
+
+*   点击“Load data”。
+
+*   上传我们在上面创建的两个文件：`vecs.tsv` 和 `meta.tsv`。
+
+现在将显示您已训练的嵌入向量。您可以搜索单词以查找其最邻近。例如，尝试搜索“beautiful”，您可能会看到“wonderful”等相邻单词。
+
+注：您的结果可能会略有不同，具体取决于训练嵌入向量层之前如何随机初始化权重。
+
+注：您可以试验性地使用更简单的模型来生成更多可解释的嵌入向量。尝试删除 `Dense(16)` 层，重新训练模型，然后再次可视化嵌入向量。
+
+![Screenshot of the embedding projector](img/16ea92d12fa8170f3e79e4c56f9affd1.png)
+
+## 后续步骤
+
+本教程向您展示了如何在小数据集上从头开始训练和可视化单词嵌入向量。
+
+*   要了解循环网络，请参阅 [Keras RNN 指南](https://tensorflow.google.cn/guide/keras/rnn)。
+
+*   要详细了解文本分类（包括整个工作流，以及如果您对何时使用嵌入向量还是独热编码感到好奇），我们建议您阅读这篇实用的文本分类[指南](https://developers.google.cn/machine-learning/guides/text-classification/step-2-5)。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/049.md b/Tensorflow/TensorFlow2.0/049.md
new file mode 100644
index 00000000..3b901e95
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/049.md
@@ -0,0 +1,368 @@
+# 使用 RNN 进行文本分类
+
+> 原文：[https://tensorflow.google.cn/tutorials/text/text_classification_rnn](https://tensorflow.google.cn/tutorials/text/text_classification_rnn)
+
+此文本分类教程将在 [IMDB 大型电影评论数据集](http://ai.stanford.edu/%7Eamaas/data/sentiment/)上训练[循环神经网络](https://developers.google.cn/machine-learning/glossary/#recurrent_neural_network)，以进行情感分析。
+
+## 设置
+
+```py
+import tensorflow_datasets as tfds
+import tensorflow as tf 
+```
+
+导入 `matplotlib` 并创建一个辅助函数来绘制计算图：
+
+```py
+import matplotlib.pyplot as plt
+
+def plot_graphs(history, metric):
+  plt.plot(history.history[metric])
+  plt.plot(history.history['val_'+metric], '')
+  plt.xlabel("Epochs")
+  plt.ylabel(metric)
+  plt.legend([metric, 'val_'+metric])
+  plt.show() 
+```
+
+## 设置输入流水线
+
+IMDB 大型电影评论数据集是一个*二进制分类*数据集——所有评论都具有*正面*或*负面*情绪。
+
+使用 [TFDS](https://tensorflow.google.cn/datasets) 下载数据集。
+
+```py
+dataset, info = tfds.load('imdb_reviews/subwords8k', with_info=True,
+                          as_supervised=True)
+train_dataset, test_dataset = dataset['train'], dataset['test'] 
+```
+
+```py
+WARNING:absl:TFDS datasets with text encoding are deprecated and will be removed in a future version. Instead, you should use the plain text version and tokenize the text using `tensorflow_text` (See: https://www.tensorflow.org/tutorials/tensorflow_text/intro#tfdata_example)
+
+Downloading and preparing dataset imdb_reviews/subwords8k/1.0.0 (download: 80.23 MiB, generated: Unknown size, total: 80.23 MiB) to /home/kbuilder/tensorflow_datasets/imdb_reviews/subwords8k/1.0.0...
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/imdb_reviews/subwords8k/1.0.0.incomplete7GBYY4/imdb_reviews-train.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/imdb_reviews/subwords8k/1.0.0.incomplete7GBYY4/imdb_reviews-test.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/imdb_reviews/subwords8k/1.0.0.incomplete7GBYY4/imdb_reviews-unsupervised.tfrecord
+Dataset imdb_reviews downloaded and prepared to /home/kbuilder/tensorflow_datasets/imdb_reviews/subwords8k/1.0.0\. Subsequent calls will reuse this data.
+
+```
+
+数据集 `info` 包括编码器 (`tfds.features.text.SubwordTextEncoder`)。
+
+```py
+encoder = info.features['text'].encoder 
+```
+
+```py
+print('Vocabulary size: {}'.format(encoder.vocab_size)) 
+```
+
+```py
+Vocabulary size: 8185
+
+```
+
+此文本编码器将以可逆方式对任何字符串进行编码，并在必要时退回到字节编码。
+
+```py
+sample_string = 'Hello TensorFlow.'
+
+encoded_string = encoder.encode(sample_string)
+print('Encoded string is {}'.format(encoded_string))
+
+original_string = encoder.decode(encoded_string)
+print('The original string: "{}"'.format(original_string)) 
+```
+
+```py
+Encoded string is [4025, 222, 6307, 2327, 4043, 2120, 7975]
+The original string: "Hello TensorFlow."
+
+```
+
+```py
+assert original_string == sample_string 
+```
+
+```py
+for index in encoded_string:
+  print('{} ----&gt; {}'.format(index, encoder.decode([index]))) 
+```
+
+```py
+4025 ----&gt; Hell
+222 ----&gt; o 
+6307 ----&gt; Ten
+2327 ----&gt; sor
+4043 ----&gt; Fl
+2120 ----&gt; ow
+7975 ----&gt; .
+
+```
+
+## 准备用于训练的数据
+
+接下来，创建这些编码字符串的批次。使用 `padded_batch` 方法将序列零填充至批次中最长字符串的长度：
+
+```py
+BUFFER_SIZE = 10000
+BATCH_SIZE = 64 
+```
+
+```py
+train_dataset = train_dataset.shuffle(BUFFER_SIZE)
+train_dataset = train_dataset.padded_batch(BATCH_SIZE)
+
+test_dataset = test_dataset.padded_batch(BATCH_SIZE) 
+```
+
+## 创建模型
+
+构建一个 [`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) 模型并从嵌入向量层开始。嵌入向量层每个单词存储一个向量。调用时，它会将单词索引序列转换为向量序列。这些向量是可训练的。（在足够的数据上）训练后，具有相似含义的单词通常具有相似的向量。
+
+与通过 [`tf.keras.layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) 层传递独热编码向量的等效运算相比，这种索引查找方法要高效得多。
+
+循环神经网络 (RNN) 通过遍历元素来处理序列输入。RNN 将输出从一个时间步骤传递到其输入，然后传递到下一个步骤。
+
+[`tf.keras.layers.Bidirectional`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Bidirectional) 包装器也可以与 RNN 层一起使用。这将通过 RNN 层向前和向后传播输入，然后连接输出。这有助于 RNN 学习长程依赖关系。
+
+```py
+model = tf.keras.Sequential([
+    tf.keras.layers.Embedding(encoder.vocab_size, 64),
+    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
+    tf.keras.layers.Dense(64, activation='relu'),
+    tf.keras.layers.Dense(1)
+]) 
+```
+
+请注意，我们在这里选择 Keras 序贯模型，因为模型中的所有层都只有单个输入并产生单个输出。如果要使用有状态 RNN 层，则可能需要使用 Keras 函数式 API 或模型子类化来构建模型，以便可以检索和重用 RNN 层状态。有关更多详细信息，请参阅 [Keras RNN 指南](https://tensorflow.google.cn/guide/keras/rnn#rnn_state_reuse)。
+
+编译 Keras 模型以配置训练过程：
+
+```py
+model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
+              optimizer=tf.keras.optimizers.Adam(1e-4),
+              metrics=['accuracy']) 
+```
+
+## 训练模型
+
+```py
+history = model.fit(train_dataset, epochs=10,
+                    validation_data=test_dataset, 
+                    validation_steps=30) 
+```
+
+```py
+Epoch 1/10
+391/391 [==============================] - 41s 105ms/step - loss: 0.6363 - accuracy: 0.5736 - val_loss: 0.4592 - val_accuracy: 0.8010
+Epoch 2/10
+391/391 [==============================] - 41s 105ms/step - loss: 0.3426 - accuracy: 0.8556 - val_loss: 0.3710 - val_accuracy: 0.8417
+Epoch 3/10
+391/391 [==============================] - 42s 107ms/step - loss: 0.2520 - accuracy: 0.9047 - val_loss: 0.3444 - val_accuracy: 0.8719
+Epoch 4/10
+391/391 [==============================] - 41s 105ms/step - loss: 0.2103 - accuracy: 0.9228 - val_loss: 0.3348 - val_accuracy: 0.8625
+Epoch 5/10
+391/391 [==============================] - 42s 106ms/step - loss: 0.1803 - accuracy: 0.9360 - val_loss: 0.3591 - val_accuracy: 0.8552
+Epoch 6/10
+391/391 [==============================] - 42s 106ms/step - loss: 0.1589 - accuracy: 0.9450 - val_loss: 0.4146 - val_accuracy: 0.8635
+Epoch 7/10
+391/391 [==============================] - 41s 105ms/step - loss: 0.1466 - accuracy: 0.9505 - val_loss: 0.3780 - val_accuracy: 0.8484
+Epoch 8/10
+391/391 [==============================] - 41s 106ms/step - loss: 0.1463 - accuracy: 0.9485 - val_loss: 0.4074 - val_accuracy: 0.8156
+Epoch 9/10
+391/391 [==============================] - 41s 106ms/step - loss: 0.1327 - accuracy: 0.9555 - val_loss: 0.4608 - val_accuracy: 0.8589
+Epoch 10/10
+391/391 [==============================] - 41s 105ms/step - loss: 0.1666 - accuracy: 0.9404 - val_loss: 0.4364 - val_accuracy: 0.8422
+
+```
+
+```py
+test_loss, test_acc = model.evaluate(test_dataset)
+
+print('Test Loss: {}'.format(test_loss))
+print('Test Accuracy: {}'.format(test_acc)) 
+```
+
+```py
+391/391 [==============================] - 17s 43ms/step - loss: 0.4305 - accuracy: 0.8477
+Test Loss: 0.43051090836524963
+Test Accuracy: 0.8476799726486206
+
+```
+
+上面的模型没有遮盖应用于序列的填充。如果在填充序列上进行训练并在未填充序列上进行测试，则可能导致倾斜。理想情况下，您可以[使用遮盖](https://tensorflow.google.cn/guide/keras/masking_and_padding)来避免这种情况，但是正如您在下面看到的那样，它只会对输出产生很小的影响。
+
+如果预测 >= 0.5，则为正，否则为负。
+
+```py
+def pad_to_size(vec, size):
+  zeros = [0] * (size - len(vec))
+  vec.extend(zeros)
+  return vec 
+```
+
+```py
+def sample_predict(sample_pred_text, pad):
+  encoded_sample_pred_text = encoder.encode(sample_pred_text)
+
+  if pad:
+    encoded_sample_pred_text = pad_to_size(encoded_sample_pred_text, 64)
+  encoded_sample_pred_text = tf.cast(encoded_sample_pred_text, tf.float32)
+  predictions = model.predict(tf.expand_dims(encoded_sample_pred_text, 0))
+
+  return (predictions) 
+```
+
+```py
+# predict on a sample text without padding.
+
+sample_pred_text = ('The movie was cool. The animation and the graphics '
+                    'were out of this world. I would recommend this movie.')
+predictions = sample_predict(sample_pred_text, pad=False)
+print(predictions) 
+```
+
+```py
+[[-0.11829309]]
+
+```
+
+```py
+# predict on a sample text with padding
+
+sample_pred_text = ('The movie was cool. The animation and the graphics '
+                    'were out of this world. I would recommend this movie.')
+predictions = sample_predict(sample_pred_text, pad=True)
+print(predictions) 
+```
+
+```py
+[[-1.162545]]
+
+```
+
+```py
+plot_graphs(history, 'accuracy') 
+```
+
+![png](img/267bdfdd72740285a56d6dbc3f34c679.png)
+
+```py
+plot_graphs(history, 'loss') 
+```
+
+![png](img/ae60ced5a9a18ef2a947912ada799ca0.png)
+
+## 堆叠两个或更多 LSTM 层
+
+Keras 循环层有两种可用的模式，这些模式由 `return_sequences` 构造函数参数控制：
+
+*   返回每个时间步骤的连续输出的完整序列（形状为 `(batch_size, timesteps, output_features)` 的 3D 张量）。
+*   仅返回每个输入序列的最后一个输出（形状为 (batch_size, output_features) 的 2D 张量）。
+
+```py
+model = tf.keras.Sequential([
+    tf.keras.layers.Embedding(encoder.vocab_size, 64),
+    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64,  return_sequences=True)),
+    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(32)),
+    tf.keras.layers.Dense(64, activation='relu'),
+    tf.keras.layers.Dropout(0.5),
+    tf.keras.layers.Dense(1)
+]) 
+```
+
+```py
+model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
+              optimizer=tf.keras.optimizers.Adam(1e-4),
+              metrics=['accuracy']) 
+```
+
+```py
+history = model.fit(train_dataset, epochs=10,
+                    validation_data=test_dataset,
+                    validation_steps=30) 
+```
+
+```py
+Epoch 1/10
+391/391 [==============================] - 75s 192ms/step - loss: 0.6484 - accuracy: 0.5630 - val_loss: 0.4876 - val_accuracy: 0.7464
+Epoch 2/10
+391/391 [==============================] - 74s 190ms/step - loss: 0.3603 - accuracy: 0.8528 - val_loss: 0.3533 - val_accuracy: 0.8490
+Epoch 3/10
+391/391 [==============================] - 75s 191ms/step - loss: 0.2666 - accuracy: 0.9018 - val_loss: 0.3393 - val_accuracy: 0.8703
+Epoch 4/10
+391/391 [==============================] - 75s 193ms/step - loss: 0.2151 - accuracy: 0.9267 - val_loss: 0.3451 - val_accuracy: 0.8604
+Epoch 5/10
+391/391 [==============================] - 76s 194ms/step - loss: 0.1806 - accuracy: 0.9422 - val_loss: 0.3687 - val_accuracy: 0.8708
+Epoch 6/10
+391/391 [==============================] - 75s 193ms/step - loss: 0.1623 - accuracy: 0.9495 - val_loss: 0.3836 - val_accuracy: 0.8594
+Epoch 7/10
+391/391 [==============================] - 76s 193ms/step - loss: 0.1382 - accuracy: 0.9598 - val_loss: 0.4173 - val_accuracy: 0.8573
+Epoch 8/10
+391/391 [==============================] - 76s 194ms/step - loss: 0.1227 - accuracy: 0.9664 - val_loss: 0.4586 - val_accuracy: 0.8542
+Epoch 9/10
+391/391 [==============================] - 76s 194ms/step - loss: 0.0997 - accuracy: 0.9749 - val_loss: 0.4939 - val_accuracy: 0.8547
+Epoch 10/10
+391/391 [==============================] - 76s 194ms/step - loss: 0.0973 - accuracy: 0.9748 - val_loss: 0.5222 - val_accuracy: 0.8526
+
+```
+
+```py
+test_loss, test_acc = model.evaluate(test_dataset)
+
+print('Test Loss: {}'.format(test_loss))
+print('Test Accuracy: {}'.format(test_acc)) 
+```
+
+```py
+391/391 [==============================] - 30s 78ms/step - loss: 0.5205 - accuracy: 0.8572
+Test Loss: 0.5204932689666748
+Test Accuracy: 0.857200026512146
+
+```
+
+```py
+# predict on a sample text without padding.
+
+sample_pred_text = ('The movie was not good. The animation and the graphics '
+                    'were terrible. I would not recommend this movie.')
+predictions = sample_predict(sample_pred_text, pad=False)
+print(predictions) 
+```
+
+```py
+[[-2.6377363]]
+
+```
+
+```py
+# predict on a sample text with padding
+
+sample_pred_text = ('The movie was not good. The animation and the graphics '
+                    'were terrible. I would not recommend this movie.')
+predictions = sample_predict(sample_pred_text, pad=True)
+print(predictions) 
+```
+
+```py
+[[-3.0502243]]
+
+```
+
+```py
+plot_graphs(history, 'accuracy') 
+```
+
+![png](img/ee3ae6c62d5acf6adfea6458312bcb02.png)
+
+```py
+plot_graphs(history, 'loss') 
+```
+
+![png](img/f2f53e7a4522a77ce6e821a299a77c76.png)
+
+检查其他现有循环层，例如 [GRU 层](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/GRU)。
+
+如果您对构建自定义 RNN 感兴趣，请参阅 [Keras RNN 指南](https://tensorflow.google.cn/guide/keras/rnn)。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/050.md b/Tensorflow/TensorFlow2.0/050.md
new file mode 100644
index 00000000..1c102aae
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/050.md
@@ -0,0 +1,841 @@
+# 循环神经网络（RNN）文本生成
+
+> 原文：[https://tensorflow.google.cn/tutorials/text/text_generation](https://tensorflow.google.cn/tutorials/text/text_generation)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+本教程演示如何使用基于字符的 RNN 生成文本。我们将使用 Andrej Karpathy 在[《循环神经网络不合理的有效性》](http://karpathy.github.io/2015/05/21/rnn-effectiveness/)一文中提供的莎士比亚作品数据集。给定此数据中的一个字符序列 （“Shakespear”），训练一个模型以预测该序列的下一个字符（“e”）。通过重复调用该模型，可以生成更长的文本序列。
+
+请注意：启用 GPU 加速可以更快地执行此笔记本。在 Colab 中依次选择：*运行时 > 更改运行时类型 > 硬件加速器 > GPU*。如果在本地运行，请确保 TensorFlow 的版本为 1.11 或更高。
+
+本教程包含使用 [tf.keras](https://tensorflow.google.cn/programmers_guide/keras) 和 [eager execution](https://tensorflow.google.cn/programmers_guide/eager) 实现的可运行代码。以下是当本教程中的模型训练 30 个周期 （epoch），并以字符串 “Q” 开头时的示例输出：
+
+```py
+QUEENE:
+I had thought thou hadst a Roman; for the oracle,
+Thus by All bids the man against the word,
+Which are so weak of care, by old care done;
+Your children were in your holy love,
+And the precipitation through the bleeding throne.
+
+BISHOP OF ELY:
+Marry, and will, my lord, to weep in such a one were prettiest;
+Yet now I was adopted heir
+Of the world's lamentable day,
+To watch the next way with his father with his face?
+
+ESCALUS:
+The cause why then we are all resolved more sons.
+
+VOLUMNIA:
+O, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, it is no sin it should be dead,
+And love and pale as any will to that word.
+
+QUEEN ELIZABETH:
+But how long have I heard the soul for this world,
+And show his hands of life be proved to stand.
+
+PETRUCHIO:
+I say he look'd on, if I must be content
+To stay him from the fatal of our country's bliss.
+His lordship pluck'd from this sentence then for prey,
+And then let us twain, being the moon,
+were she such a case as fills m
+
+```
+
+虽然有些句子符合语法规则，但是大多数句子没有意义。这个模型尚未学习到单词的含义，但请考虑以下几点：
+
+*   此模型是基于字符的。训练开始时，模型不知道如何拼写一个英文单词，甚至不知道单词是文本的一个单位。
+
+*   输出文本的结构类似于剧本 -- 文本块通常以讲话者的名字开始；而且与数据集类似，讲话者的名字采用全大写字母。
+
+*   如下文所示，此模型由小批次 （batch） 文本训练而成（每批 100 个字符）。即便如此，此模型仍然能生成更长的文本序列，并且结构连贯。
+
+## 设置
+
+### 导入 TensorFlow 和其他库
+
+```py
+import tensorflow as tf
+
+import numpy as np
+import os
+import time 
+```
+
+### 下载莎士比亚数据集
+
+修改下面一行代码，在你自己的数据上运行此代码。
+
+```py
+path_to_file = tf.keras.utils.get_file('shakespeare.txt', 'https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt') 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt
+1122304/1115394 [==============================] - 0s 0us/step
+
+```
+
+### 读取数据
+
+首先，看一看文本：
+
+```py
+# 读取并为 py2 compat 解码
+text = open(path_to_file, 'rb').read().decode(encoding='utf-8')
+
+# 文本长度是指文本中的字符个数
+print ('Length of text: {} characters'.format(len(text))) 
+```
+
+```py
+Length of text: 1115394 characters
+
+```
+
+```py
+# 看一看文本中的前 250 个字符
+print(text[:250]) 
+```
+
+```py
+First Citizen:
+Before we proceed any further, hear me speak.
+
+All:
+Speak, speak.
+
+First Citizen:
+You are all resolved rather to die than to famish?
+
+All:
+Resolved. resolved.
+
+First Citizen:
+First, you know Caius Marcius is chief enemy to the people.
+
+```
+
+```py
+# 文本中的非重复字符
+vocab = sorted(set(text))
+print ('{} unique characters'.format(len(vocab))) 
+```
+
+```py
+65 unique characters
+
+```
+
+## 处理文本
+
+### 向量化文本
+
+在训练之前，我们需要将字符串映射到数字表示值。创建两个查找表格：一个将字符映射到数字，另一个将数字映射到字符。
+
+```py
+# 创建从非重复字符到索引的映射
+char2idx = {u:i for i, u in enumerate(vocab)}
+idx2char = np.array(vocab)
+
+text_as_int = np.array([char2idx[c] for c in text]) 
+```
+
+现在，每个字符都有一个整数表示值。请注意，我们将字符映射至索引 0 至 `len(unique)`.
+
+```py
+print('{')
+for char,_ in zip(char2idx, range(20)):
+    print('  {:4s}: {:3d},'.format(repr(char), char2idx[char]))
+print('  ...\n}') 
+```
+
+```py
+{
+  '\n':   0,
+  ' ' :   1,
+  '!' :   2,
+  '$' :   3,
+  '&' :   4,
+  "'" :   5,
+  ',' :   6,
+  '-' :   7,
+  '.' :   8,
+  '3' :   9,
+  ':' :  10,
+  ';' :  11,
+  '?' :  12,
+  'A' :  13,
+  'B' :  14,
+  'C' :  15,
+  'D' :  16,
+  'E' :  17,
+  'F' :  18,
+  'G' :  19,
+  ...
+}
+
+```
+
+```py
+# 显示文本首 13 个字符的整数映射
+print ('{} ---- characters mapped to int ---- > {}'.format(repr(text[:13]), text_as_int[:13])) 
+```
+
+```py
+'First Citizen' ---- characters mapped to int ---- > [18 47 56 57 58  1 15 47 58 47 64 43 52]
+
+```
+
+### 预测任务
+
+给定一个字符或者一个字符序列，下一个最可能出现的字符是什么？这就是我们训练模型要执行的任务。输入进模型的是一个字符序列，我们训练这个模型来预测输出 -- 每个时间步（time step）预测下一个字符是什么。
+
+由于 RNN 是根据前面看到的元素维持内部状态，那么，给定此时计算出的所有字符，下一个字符是什么？
+
+### 创建训练样本和目标
+
+接下来，将文本划分为样本序列。每个输入序列包含文本中的 `seq_length` 个字符。
+
+对于每个输入序列，其对应的目标包含相同长度的文本，但是向右顺移一个字符。
+
+将文本拆分为长度为 `seq_length+1` 的文本块。例如，假设 `seq_length` 为 4 而且文本为 “Hello”， 那么输入序列将为 “Hell”，目标序列将为 “ello”。
+
+为此，首先使用 [`tf.data.Dataset.from_tensor_slices`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#from_tensor_slices) 函数把文本向量转换为字符索引流。
+
+```py
+# 设定每个输入句子长度的最大值
+seq_length = 100
+examples_per_epoch = len(text)//seq_length
+
+# 创建训练样本 / 目标
+char_dataset = tf.data.Dataset.from_tensor_slices(text_as_int)
+
+for i in char_dataset.take(5):
+  print(idx2char[i.numpy()]) 
+```
+
+```py
+F
+i
+r
+s
+t
+
+```
+
+`batch` 方法使我们能轻松把单个字符转换为所需长度的序列。
+
+```py
+sequences = char_dataset.batch(seq_length+1, drop_remainder=True)
+
+for item in sequences.take(5):
+  print(repr(''.join(idx2char[item.numpy()]))) 
+```
+
+```py
+'First Citizen:\nBefore we proceed any further, hear me speak.\n\nAll:\nSpeak, speak.\n\nFirst Citizen:\nYou '
+'are all resolved rather to die than to famish?\n\nAll:\nResolved. resolved.\n\nFirst Citizen:\nFirst, you k'
+"now Caius Marcius is chief enemy to the people.\n\nAll:\nWe know't, we know't.\n\nFirst Citizen:\nLet us ki"
+"ll him, and we'll have corn at our own price.\nIs't a verdict?\n\nAll:\nNo more talking on't; let it be d"
+'one: away, away!\n\nSecond Citizen:\nOne word, good citizens.\n\nFirst Citizen:\nWe are accounted poor citi'
+
+```
+
+对于每个序列，使用 `map` 方法先复制再顺移，以创建输入文本和目标文本。`map` 方法可以将一个简单的函数应用到每一个批次 （batch）。
+
+```py
+def split_input_target(chunk):
+    input_text = chunk[:-1]
+    target_text = chunk[1:]
+    return input_text, target_text
+
+dataset = sequences.map(split_input_target) 
+```
+
+打印第一批样本的输入与目标值：
+
+```py
+for input_example, target_example in  dataset.take(1):
+  print ('Input data: ', repr(''.join(idx2char[input_example.numpy()])))
+  print ('Target data:', repr(''.join(idx2char[target_example.numpy()]))) 
+```
+
+```py
+Input data:  'First Citizen:\nBefore we proceed any further, hear me speak.\n\nAll:\nSpeak, speak.\n\nFirst Citizen:\nYou'
+Target data: 'irst Citizen:\nBefore we proceed any further, hear me speak.\n\nAll:\nSpeak, speak.\n\nFirst Citizen:\nYou '
+
+```
+
+这些向量的每个索引均作为一个时间步来处理。作为时间步 0 的输入，模型接收到 “F” 的索引，并尝试预测 “i” 的索引为下一个字符。在下一个时间步，模型执行相同的操作，但是 `RNN` 不仅考虑当前的输入字符，还会考虑上一步的信息。
+
+```py
+for i, (input_idx, target_idx) in enumerate(zip(input_example[:5], target_example[:5])):
+    print("Step {:4d}".format(i))
+    print("  input: {} ({:s})".format(input_idx, repr(idx2char[input_idx])))
+    print("  expected output: {} ({:s})".format(target_idx, repr(idx2char[target_idx]))) 
+```
+
+```py
+Step    0
+  input: 18 ('F')
+  expected output: 47 ('i')
+Step    1
+  input: 47 ('i')
+  expected output: 56 ('r')
+Step    2
+  input: 56 ('r')
+  expected output: 57 ('s')
+Step    3
+  input: 57 ('s')
+  expected output: 58 ('t')
+Step    4
+  input: 58 ('t')
+  expected output: 1 (' ')
+
+```
+
+### 创建训练批次
+
+前面我们使用 [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) 将文本拆分为可管理的序列。但是在把这些数据输送至模型之前，我们需要将数据重新排列 （shuffle） 并打包为批次。
+
+```py
+# 批大小
+BATCH_SIZE = 64
+
+# 设定缓冲区大小，以重新排列数据集
+# （TF 数据被设计为可以处理可能是无限的序列，
+# 所以它不会试图在内存中重新排列整个序列。相反，
+# 它维持一个缓冲区，在缓冲区重新排列元素。） 
+BUFFER_SIZE = 10000
+
+dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE, drop_remainder=True)
+
+dataset 
+```
+
+```py
+<BatchDataset shapes: ((64, 100), (64, 100)), types: (tf.int64, tf.int64)>
+
+```
+
+## 创建模型
+
+使用 [`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) 定义模型。在这个简单的例子中，我们使用了三个层来定义模型：
+
+*   [`tf.keras.layers.Embedding`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Embedding)：输入层。一个可训练的对照表，它会将每个字符的数字映射到一个 `embedding_dim` 维度的向量。
+*   [`tf.keras.layers.GRU`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/GRU)：一种 RNN 类型，其大小由 `units=rnn_units` 指定（这里你也可以使用一个 LSTM 层）。
+*   [`tf.keras.layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense)：输出层，带有 `vocab_size` 个输出。
+
+```py
+# 词集的长度
+vocab_size = len(vocab)
+
+# 嵌入的维度
+embedding_dim = 256
+
+# RNN 的单元数量
+rnn_units = 1024 
+```
+
+```py
+def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
+  model = tf.keras.Sequential([
+    tf.keras.layers.Embedding(vocab_size, embedding_dim,
+                              batch_input_shape=[batch_size, None]),
+    tf.keras.layers.GRU(rnn_units,
+                        return_sequences=True,
+                        stateful=True,
+                        recurrent_initializer='glorot_uniform'),
+    tf.keras.layers.Dense(vocab_size)
+  ])
+  return model 
+```
+
+```py
+model = build_model(
+  vocab_size = len(vocab),
+  embedding_dim=embedding_dim,
+  rnn_units=rnn_units,
+  batch_size=BATCH_SIZE) 
+```
+
+对于每个字符，模型会查找嵌入，把嵌入当作输入运行 GRU 一个时间步，并用密集层生成逻辑回归 （logits），预测下一个字符的对数可能性。 ![数据在模型中传输的示意图](img/643d654e7e1e3d928041b42363e0f099.png)
+
+## 试试这个模型
+
+现在运行这个模型，看看它是否按预期运行。
+
+首先检查输出的形状：
+
+```py
+for input_example_batch, target_example_batch in dataset.take(1):
+  example_batch_predictions = model(input_example_batch)
+  print(example_batch_predictions.shape, "# (batch_size, sequence_length, vocab_size)") 
+```
+
+```py
+(64, 100, 65) # (batch_size, sequence_length, vocab_size)
+
+```
+
+在上面的例子中，输入的序列长度为 `100`， 但是这个模型可以在任何长度的输入上运行：
+
+```py
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+embedding (Embedding)        (64, None, 256)           16640     
+_________________________________________________________________
+gru (GRU)                    (64, None, 1024)          3938304   
+_________________________________________________________________
+dense (Dense)                (64, None, 65)            66625     
+=================================================================
+Total params: 4,021,569
+Trainable params: 4,021,569
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+为了获得模型的实际预测，我们需要从输出分布中抽样，以获得实际的字符索引。这个分布是根据对字符集的逻辑回归定义的。
+
+请注意：从这个分布中 *抽样* 很重要，因为取分布的 *最大值自变量点集（argmax）* 很容易使模型卡在循环中。
+
+试试这个批次中的第一个样本：
+
+```py
+sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)
+sampled_indices = tf.squeeze(sampled_indices,axis=-1).numpy() 
+```
+
+这使我们得到每个时间步预测的下一个字符的索引。
+
+```py
+sampled_indices 
+```
+
+```py
+array([ 3, 19, 11,  8, 17, 50, 14,  5, 16, 57, 51, 53, 17, 54,  9, 11, 22,
+       13, 36, 57, 57, 50, 47, 22,  5,  7,  1, 59,  3, 26, 52,  2, 62, 30,
+       54, 18, 62,  9, 63,  2, 22, 11, 18, 12, 63,  0, 13, 16, 38, 49, 21,
+       25, 22, 53, 39, 63,  3, 26, 39, 15, 21, 56, 49, 39, 20, 55,  5, 39,
+       61, 29, 21, 39, 39, 63, 48, 11, 27, 42, 59,  0, 19, 58, 57, 27, 40,
+       13, 53, 13,  7,  4, 21, 32, 10, 57, 18, 30, 54, 36, 12,  3])
+
+```
+
+解码它们，以查看此未经训练的模型预测的文本：
+
+```py
+print("Input: \n", repr("".join(idx2char[input_example_batch[0]])))
+print()
+print("Next Char Predictions: \n", repr("".join(idx2char[sampled_indices ]))) 
+```
+
+```py
+Input: 
+ 'e, I say! madam! sweet-heart! why, bride!\nWhat, not a word? you take your pennyworths now;\nSleep for'
+
+Next Char Predictions: 
+ "$G;.ElB'DsmoEp3;JAXssliJ'- u$Nn!xRpFx3y!J;F?y\nADZkIMJoay$NaCIrkaHq'awQIaayj;Odu\nGtsObAoA-&IT:sFRpX?$"
+
+```
+
+## 训练模型
+
+此时，这个问题可以被视为一个标准的分类问题：给定先前的 RNN 状态和这一时间步的输入，预测下一个字符的类别。
+
+### 添加优化器和损失函数
+
+标准的 [`tf.keras.losses.sparse_categorical_crossentropy`](https://tensorflow.google.cn/api_docs/python/tf/keras/losses/sparse_categorical_crossentropy) 损失函数在这里适用，因为它被应用于预测的最后一个维度。
+
+因为我们的模型返回逻辑回归，所以我们需要设定命令行参数 `from_logits`。
+
+```py
+def loss(labels, logits):
+  return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)
+
+example_batch_loss  = loss(target_example_batch, example_batch_predictions)
+print("Prediction shape: ", example_batch_predictions.shape, " # (batch_size, sequence_length, vocab_size)")
+print("scalar_loss:      ", example_batch_loss.numpy().mean()) 
+```
+
+```py
+Prediction shape:  (64, 100, 65)  # (batch_size, sequence_length, vocab_size)
+scalar_loss:       4.1736827
+
+```
+
+使用 [`tf.keras.Model.compile`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#compile) 方法配置训练步骤。我们将使用 [`tf.keras.optimizers.Adam`](https://tensorflow.google.cn/api_docs/python/tf/keras/optimizers/Adam) 并采用默认参数，以及损失函数。
+
+```py
+model.compile(optimizer='adam', loss=loss) 
+```
+
+### 配置检查点
+
+使用 [`tf.keras.callbacks.ModelCheckpoint`](https://tensorflow.google.cn/api_docs/python/tf/keras/callbacks/ModelCheckpoint) 来确保训练过程中保存检查点。
+
+```py
+# 检查点保存至的目录
+checkpoint_dir = './training_checkpoints'
+
+# 检查点的文件名
+checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt_{epoch}")
+
+checkpoint_callback=tf.keras.callbacks.ModelCheckpoint(
+    filepath=checkpoint_prefix,
+    save_weights_only=True) 
+```
+
+### 执行训练
+
+为保持训练时间合理，使用 10 个周期来训练模型。在 Colab 中，将运行时设置为 GPU 以加速训练。
+
+```py
+EPOCHS=10 
+```
+
+```py
+history = model.fit(dataset, epochs=EPOCHS, callbacks=[checkpoint_callback]) 
+```
+
+```py
+Epoch 1/10
+172/172 [==============================] - 5s 27ms/step - loss: 2.6663
+Epoch 2/10
+172/172 [==============================] - 5s 27ms/step - loss: 1.9452
+Epoch 3/10
+172/172 [==============================] - 5s 27ms/step - loss: 1.6797
+Epoch 4/10
+172/172 [==============================] - 5s 27ms/step - loss: 1.5355
+Epoch 5/10
+172/172 [==============================] - 5s 27ms/step - loss: 1.4493
+Epoch 6/10
+172/172 [==============================] - 5s 27ms/step - loss: 1.3900
+Epoch 7/10
+172/172 [==============================] - 5s 27ms/step - loss: 1.3457
+Epoch 8/10
+172/172 [==============================] - 5s 26ms/step - loss: 1.3076
+Epoch 9/10
+172/172 [==============================] - 5s 27ms/step - loss: 1.2732
+Epoch 10/10
+172/172 [==============================] - 5s 27ms/step - loss: 1.2412
+
+```
+
+## 生成文本
+
+### 恢复最新的检查点
+
+为保持此次预测步骤简单，将批大小设定为 1。
+
+由于 RNN 状态从时间步传递到时间步的方式，模型建立好之后只接受固定的批大小。
+
+若要使用不同的 `batch_size` 来运行模型，我们需要重建模型并从检查点中恢复权重。
+
+```py
+tf.train.latest_checkpoint(checkpoint_dir) 
+```
+
+```py
+'./training_checkpoints/ckpt_10'
+
+```
+
+```py
+model = build_model(vocab_size, embedding_dim, rnn_units, batch_size=1)
+
+model.load_weights(tf.train.latest_checkpoint(checkpoint_dir))
+
+model.build(tf.TensorShape([1, None])) 
+```
+
+```py
+model.summary() 
+```
+
+```py
+Model: "sequential_1"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+embedding_1 (Embedding)      (1, None, 256)            16640     
+_________________________________________________________________
+gru_1 (GRU)                  (1, None, 1024)           3938304   
+_________________________________________________________________
+dense_1 (Dense)              (1, None, 65)             66625     
+=================================================================
+Total params: 4,021,569
+Trainable params: 4,021,569
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+### 预测循环
+
+下面的代码块生成文本：
+
+*   首先设置起始字符串，初始化 RNN 状态并设置要生成的字符个数。
+
+*   用起始字符串和 RNN 状态，获取下一个字符的预测分布。
+
+*   然后，用分类分布计算预测字符的索引。把这个预测字符当作模型的下一个输入。
+
+*   模型返回的 RNN 状态被输送回模型。现在，模型有更多上下文可以学习，而非只有一个字符。在预测出下一个字符后，更改过的 RNN 状态被再次输送回模型。模型就是这样，通过不断从前面预测的字符获得更多上下文，进行学习。
+
+![为生成文本，模型的输出被输送回模型作为输入](img/6ae78bb4c1ad3a2e0ade4489d4fdf706.png)
+
+查看生成的文本，你会发现这个模型知道什么时候使用大写字母，什么时候分段，而且模仿出了莎士比亚式的词汇。由于训练的周期小，模型尚未学会生成连贯的句子。
+
+```py
+def generate_text(model, start_string):
+  # 评估步骤（用学习过的模型生成文本）
+
+  # 要生成的字符个数
+  num_generate = 1000
+
+  # 将起始字符串转换为数字（向量化）
+  input_eval = [char2idx[s] for s in start_string]
+  input_eval = tf.expand_dims(input_eval, 0)
+
+  # 空字符串用于存储结果
+  text_generated = []
+
+  # 低温度会生成更可预测的文本
+  # 较高温度会生成更令人惊讶的文本
+  # 可以通过试验以找到最好的设定
+  temperature = 1.0
+
+  # 这里批大小为 1
+  model.reset_states()
+  for i in range(num_generate):
+      predictions = model(input_eval)
+      # 删除批次的维度
+      predictions = tf.squeeze(predictions, 0)
+
+      # 用分类分布预测模型返回的字符
+      predictions = predictions / temperature
+      predicted_id = tf.random.categorical(predictions, num_samples=1)[-1,0].numpy()
+
+      # 把预测字符和前面的隐藏状态一起传递给模型作为下一个输入
+      input_eval = tf.expand_dims([predicted_id], 0)
+
+      text_generated.append(idx2char[predicted_id])
+
+  return (start_string + ''.join(text_generated)) 
+```
+
+```py
+print(generate_text(model, start_string=u"ROMEO: ")) 
+```
+
+```py
+ROMEO: in't, Romeo rather
+say, bid me not say, the adden, and you man for all.
+Now, good Cart, or do held. Well, leaving her son,
+Some stomacame, brother, Edommen.
+
+PROSPERO:
+My lord Hastings, for death,
+Or as believell you be accoment.
+
+TRANIO:
+Mistraising? come, get abseng house:
+The that was a life upon none of the equard sud,
+Great Aufidius any joy;
+For well a fool, and loveth one stay,
+To whom Gare his moved me of Marcius shoulded.
+Pite o'erposens to him.
+
+KING RICHARD II:
+Come, civil and live, if wet to help and raisen fellow.
+
+CORIOLANUS:
+Mark, here, sir. But the palace-hate will be at him in
+some wondering danger, my bestilent.
+
+DUKE OF AUMERLE:
+You, my lord? my dearly uncles for,
+If't be fown'd for truth enough not him,
+He talk of youngest young princely sake.
+
+ROMEO:
+This let me have a still before the queen
+First worthy angel. Would yes, by return.
+
+BAPTISTA:
+You have dan,
+Dies, renown awrifes; I'll say you.
+
+Provost:
+And, come, make it out.
+
+LEONTES:
+They call thee, hangions,
+Not 
+
+```
+
+若想改进结果，最简单的方式是延长训练时间 （试试 `EPOCHS=30`）。
+
+你还可以试验使用不同的起始字符串，或者尝试增加另一个 RNN 层以提高模型的准确率，亦或调整温度参数以生成更多或者更少的随机预测。
+
+## 高级：自定义训练
+
+上面的训练步骤简单，但是能控制的地方不多。
+
+至此，你已经知道如何手动运行模型。现在，让我们打开训练循环，并自己实现它。这是一些任务的起点，例如实现 *课程学习* 以帮助稳定模型的开环输出。
+
+你将使用 [`tf.GradientTape`](https://tensorflow.google.cn/api_docs/python/tf/GradientTape) 跟踪梯度。关于此方法的更多信息请参阅 [eager execution 指南](https://tensorflow.google.cn/guide/eager)。
+
+步骤如下：
+
+*   首先，初始化 RNN 状态，使用 [`tf.keras.Model.reset_states`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#reset_states) 方法。
+
+*   然后，迭代数据集（逐批次）并计算每次迭代对应的 *预测*。
+
+*   打开一个 [`tf.GradientTape`](https://tensorflow.google.cn/api_docs/python/tf/GradientTape) 并计算该上下文时的预测和损失。
+
+*   使用 `tf.GradientTape.grads` 方法，计算当前模型变量情况下的损失梯度。
+
+*   最后，使用优化器的 `tf.train.Optimizer.apply_gradients` 方法向下迈出一步。
+
+```py
+model = build_model(
+  vocab_size = len(vocab),
+  embedding_dim=embedding_dim,
+  rnn_units=rnn_units,
+  batch_size=BATCH_SIZE) 
+```
+
+```py
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.iter
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.beta_1
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.beta_2
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.decay
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer.learning_rate
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'm' for (root).layer_with_weights-0.embeddings
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'm' for (root).layer_with_weights-2.kernel
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'm' for (root).layer_with_weights-2.bias
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'm' for (root).layer_with_weights-1.cell.kernel
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'm' for (root).layer_with_weights-1.cell.recurrent_kernel
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'm' for (root).layer_with_weights-1.cell.bias
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'v' for (root).layer_with_weights-0.embeddings
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'v' for (root).layer_with_weights-2.kernel
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'v' for (root).layer_with_weights-2.bias
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'v' for (root).layer_with_weights-1.cell.kernel
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'v' for (root).layer_with_weights-1.cell.recurrent_kernel
+WARNING:tensorflow:Unresolved object in checkpoint: (root).optimizer's state 'v' for (root).layer_with_weights-1.cell.bias
+WARNING:tensorflow:A checkpoint was restored (e.g. tf.train.Checkpoint.restore or tf.keras.Model.load_weights) but not all checkpointed values were used. See above for specific issues. Use expect_partial() on the load status object, e.g. tf.train.Checkpoint.restore(...).expect_partial(), to silence these warnings, or use assert_consumed() to make the check explicit. See https://www.tensorflow.org/guide/checkpoint#loading_mechanics for details.
+
+```
+
+```py
+optimizer = tf.keras.optimizers.Adam() 
+```
+
+```py
+@tf.function
+def train_step(inp, target):
+  with tf.GradientTape() as tape:
+    predictions = model(inp)
+    loss = tf.reduce_mean(
+        tf.keras.losses.sparse_categorical_crossentropy(
+            target, predictions, from_logits=True))
+  grads = tape.gradient(loss, model.trainable_variables)
+  optimizer.apply_gradients(zip(grads, model.trainable_variables))
+
+  return loss 
+```
+
+```py
+# 训练步骤
+EPOCHS = 10
+
+for epoch in range(EPOCHS):
+  start = time.time()
+
+  # 在每个训练周期开始时，初始化隐藏状态
+  # 隐藏状态最初为 None
+  hidden = model.reset_states()
+
+  for (batch_n, (inp, target)) in enumerate(dataset):
+    loss = train_step(inp, target)
+
+    if batch_n % 100 == 0:
+      template = 'Epoch {} Batch {} Loss {}'
+      print(template.format(epoch+1, batch_n, loss))
+
+  # 每 5 个训练周期，保存（检查点）1 次模型
+  if (epoch + 1) % 5 == 0:
+    model.save_weights(checkpoint_prefix.format(epoch=epoch))
+
+  print ('Epoch {} Loss {:.4f}'.format(epoch+1, loss))
+  print ('Time taken for 1 epoch {} sec\n'.format(time.time() - start))
+
+model.save_weights(checkpoint_prefix.format(epoch=epoch)) 
+```
+
+```py
+Epoch 1 Batch 0 Loss 4.173541069030762
+Epoch 1 Batch 100 Loss 2.3451342582702637
+Epoch 1 Loss 2.1603
+Time taken for 1 epoch 6.5293896198272705 sec
+
+Epoch 2 Batch 0 Loss 2.1137943267822266
+Epoch 2 Batch 100 Loss 1.9266924858093262
+Epoch 2 Loss 1.7417
+Time taken for 1 epoch 5.6192779541015625 sec
+
+Epoch 3 Batch 0 Loss 1.775771975517273
+Epoch 3 Batch 100 Loss 1.657868504524231
+Epoch 3 Loss 1.5520
+Time taken for 1 epoch 5.231291770935059 sec
+
+Epoch 4 Batch 0 Loss 1.543768048286438
+Epoch 4 Batch 100 Loss 1.5487240552902222
+Epoch 4 Loss 1.4920
+Time taken for 1 epoch 5.363192319869995 sec
+
+Epoch 5 Batch 0 Loss 1.4550749063491821
+Epoch 5 Batch 100 Loss 1.4589751958847046
+Epoch 5 Loss 1.4171
+Time taken for 1 epoch 5.297640085220337 sec
+
+Epoch 6 Batch 0 Loss 1.376267671585083
+Epoch 6 Batch 100 Loss 1.3637677431106567
+Epoch 6 Loss 1.3818
+Time taken for 1 epoch 5.299052476882935 sec
+
+Epoch 7 Batch 0 Loss 1.2916797399520874
+Epoch 7 Batch 100 Loss 1.3284915685653687
+Epoch 7 Loss 1.3983
+Time taken for 1 epoch 5.277729749679565 sec
+
+Epoch 8 Batch 0 Loss 1.2573177814483643
+Epoch 8 Batch 100 Loss 1.2979872226715088
+Epoch 8 Loss 1.3120
+Time taken for 1 epoch 5.250093460083008 sec
+
+Epoch 9 Batch 0 Loss 1.3046417236328125
+Epoch 9 Batch 100 Loss 1.2858468294143677
+Epoch 9 Loss 1.3266
+Time taken for 1 epoch 5.280868291854858 sec
+
+Epoch 10 Batch 0 Loss 1.1859409809112549
+Epoch 10 Batch 100 Loss 1.2690430879592896
+Epoch 10 Loss 1.2733
+Time taken for 1 epoch 5.34737491607666 sec
+
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/051.md b/Tensorflow/TensorFlow2.0/051.md
new file mode 100644
index 00000000..33131cb0
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/051.md
@@ -0,0 +1,716 @@
+# 基于注意力的神经机器翻译
+
+> 原文：[https://tensorflow.google.cn/tutorials/text/nmt_with_attention](https://tensorflow.google.cn/tutorials/text/nmt_with_attention)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+此笔记本训练一个将西班牙语翻译为英语的序列到序列（sequence to sequence，简写为 seq2seq）模型。此例子难度较高，需要对序列到序列模型的知识有一定了解。
+
+训练完此笔记本中的模型后，你将能够输入一个西班牙语句子，例如 *"¿todavia estan en casa?"*，并返回其英语翻译 *"are you still at home?"*
+
+对于一个简单的例子来说，翻译质量令人满意。但是更有趣的可能是生成的注意力图：它显示在翻译过程中，输入句子的哪些部分受到了模型的注意。
+
+![spanish-english attention plot](img/295a20785cb201af0f19ee7414550082.png)
+
+请注意：运行这个例子用一个 P100 GPU 需要花大约 10 分钟。
+
+```py
+import tensorflow as tf
+
+import matplotlib.pyplot as plt
+import matplotlib.ticker as ticker
+from sklearn.model_selection import train_test_split
+
+import unicodedata
+import re
+import numpy as np
+import os
+import io
+import time 
+```
+
+## 下载和准备数据集
+
+我们将使用 [http://www.manythings.org/anki/](http://www.manythings.org/anki/) 提供的一个语言数据集。这个数据集包含如下格式的语言翻译对：
+
+```py
+May I borrow this book? ¿Puedo tomar prestado este libro? 
+```
+
+这个数据集中有很多种语言可供选择。我们将使用英语 - 西班牙语数据集。为方便使用，我们在谷歌云上提供了此数据集的一份副本。但是你也可以自己下载副本。下载完数据集后，我们将采取下列步骤准备数据：
+
+1.  给每个句子添加一个 *开始* 和一个 *结束* 标记（token）。
+2.  删除特殊字符以清理句子。
+3.  创建一个单词索引和一个反向单词索引（即一个从单词映射至 id 的词典和一个从 id 映射至单词的词典）。
+4.  将每个句子填充（pad）到最大长度。
+
+```py
+# 下载文件
+path_to_zip = tf.keras.utils.get_file(
+    'spa-eng.zip', origin='http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip',
+    extract=True)
+
+path_to_file = os.path.dirname(path_to_zip)+"/spa-eng/spa.txt" 
+```
+
+```py
+Downloading data from http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip
+2646016/2638744 [==============================] - 0s 0us/step
+
+```
+
+```py
+# 将 unicode 文件转换为 ascii
+def unicode_to_ascii(s):
+    return ''.join(c for c in unicodedata.normalize('NFD', s)
+        if unicodedata.category(c) != 'Mn')
+
+def preprocess_sentence(w):
+    w = unicode_to_ascii(w.lower().strip())
+
+    # 在单词与跟在其后的标点符号之间插入一个空格
+    # 例如： "he is a boy." => "he is a boy ."
+    # 参考：https://stackoverflow.com/questions/3645931/python-padding-punctuation-with-white-spaces-keeping-punctuation
+    w = re.sub(r"([?.!,¿])", r" \1 ", w)
+    w = re.sub(r'[" "]+', " ", w)
+
+    # 除了 (a-z, A-Z, ".", "?", "!", ",")，将所有字符替换为空格
+    w = re.sub(r"[^a-zA-Z?.!,¿]+", " ", w)
+
+    w = w.rstrip().strip()
+
+    # 给句子加上开始和结束标记
+    # 以便模型知道何时开始和结束预测
+    w = '<start> ' + w + ' <end>'
+    return w 
+```
+
+```py
+en_sentence = u"May I borrow this book?"
+sp_sentence = u"¿Puedo tomar prestado este libro?"
+print(preprocess_sentence(en_sentence))
+print(preprocess_sentence(sp_sentence).encode('utf-8')) 
+```
+
+```py
+<start> may i borrow this book ? <end>
+b'<start> \xc2\xbf puedo tomar prestado este libro ? <end>'
+
+```
+
+```py
+# 1\. 去除重音符号
+# 2\. 清理句子
+# 3\. 返回这样格式的单词对：[ENGLISH, SPANISH]
+def create_dataset(path, num_examples):
+    lines = io.open(path, encoding='UTF-8').read().strip().split('\n')
+
+    word_pairs = [[preprocess_sentence(w) for w in l.split('\t')]  for l in lines[:num_examples]]
+
+    return zip(*word_pairs) 
+```
+
+```py
+en, sp = create_dataset(path_to_file, None)
+print(en[-1])
+print(sp[-1]) 
+```
+
+```py
+<start> if you want to sound like a native speaker , you must be willing to practice saying the same sentence over and over in the same way that banjo players practice the same phrase over and over until they can play it correctly and at the desired tempo . <end>
+<start> si quieres sonar como un hablante nativo , debes estar dispuesto a practicar diciendo la misma frase una y otra vez de la misma manera en que un musico de banjo practica el mismo fraseo una y otra vez hasta que lo puedan tocar correctamente y en el tiempo esperado . <end>
+
+```
+
+```py
+def max_length(tensor):
+    return max(len(t) for t in tensor) 
+```
+
+```py
+def tokenize(lang):
+  lang_tokenizer = tf.keras.preprocessing.text.Tokenizer(
+      filters='')
+  lang_tokenizer.fit_on_texts(lang)
+
+  tensor = lang_tokenizer.texts_to_sequences(lang)
+
+  tensor = tf.keras.preprocessing.sequence.pad_sequences(tensor,
+                                                         padding='post')
+
+  return tensor, lang_tokenizer 
+```
+
+```py
+def load_dataset(path, num_examples=None):
+    # 创建清理过的输入输出对
+    targ_lang, inp_lang = create_dataset(path, num_examples)
+
+    input_tensor, inp_lang_tokenizer = tokenize(inp_lang)
+    target_tensor, targ_lang_tokenizer = tokenize(targ_lang)
+
+    return input_tensor, target_tensor, inp_lang_tokenizer, targ_lang_tokenizer 
+```
+
+### 限制数据集的大小以加快实验速度（可选）
+
+在超过 10 万个句子的完整数据集上训练需要很长时间。为了更快地训练，我们可以将数据集的大小限制为 3 万个句子（当然，翻译质量也会随着数据的减少而降低）：
+
+```py
+# 尝试实验不同大小的数据集
+num_examples = 30000
+input_tensor, target_tensor, inp_lang, targ_lang = load_dataset(path_to_file, num_examples)
+
+# 计算目标张量的最大长度 （max_length）
+max_length_targ, max_length_inp = max_length(target_tensor), max_length(input_tensor) 
+```
+
+```py
+# 采用 80 - 20 的比例切分训练集和验证集
+input_tensor_train, input_tensor_val, target_tensor_train, target_tensor_val = train_test_split(input_tensor, target_tensor, test_size=0.2)
+
+# 显示长度
+print(len(input_tensor_train), len(target_tensor_train), len(input_tensor_val), len(target_tensor_val)) 
+```
+
+```py
+24000 24000 6000 6000
+
+```
+
+```py
+def convert(lang, tensor):
+  for t in tensor:
+    if t!=0:
+      print ("%d ----> %s" % (t, lang.index_word[t])) 
+```
+
+```py
+print ("Input Language; index to word mapping")
+convert(inp_lang, input_tensor_train[0])
+print ()
+print ("Target Language; index to word mapping")
+convert(targ_lang, target_tensor_train[0]) 
+```
+
+```py
+Input Language; index to word mapping
+1 ----> <start>
+13 ----> la
+1999 ----> belleza
+7 ----> es
+8096 ----> subjetiva
+3 ----> .
+2 ----> <end>
+
+Target Language; index to word mapping
+1 ----> <start>
+1148 ----> beauty
+8 ----> is
+4299 ----> subjective
+3 ----> .
+2 ----> <end>
+
+```
+
+### 创建一个 tf.data 数据集
+
+```py
+BUFFER_SIZE = len(input_tensor_train)
+BATCH_SIZE = 64
+steps_per_epoch = len(input_tensor_train)//BATCH_SIZE
+embedding_dim = 256
+units = 1024
+vocab_inp_size = len(inp_lang.word_index)+1
+vocab_tar_size = len(targ_lang.word_index)+1
+
+dataset = tf.data.Dataset.from_tensor_slices((input_tensor_train, target_tensor_train)).shuffle(BUFFER_SIZE)
+dataset = dataset.batch(BATCH_SIZE, drop_remainder=True) 
+```
+
+```py
+example_input_batch, example_target_batch = next(iter(dataset))
+example_input_batch.shape, example_target_batch.shape 
+```
+
+```py
+(TensorShape([64, 16]), TensorShape([64, 11]))
+
+```
+
+## 编写编码器 （encoder） 和解码器 （decoder） 模型
+
+实现一个基于注意力的编码器 - 解码器模型。关于这种模型，你可以阅读 TensorFlow 的 [神经机器翻译 (序列到序列) 教程](https://github.com/tensorflow/nmt)。本示例采用一组更新的 API。此笔记本实现了上述序列到序列教程中的 [注意力方程式](https://github.com/tensorflow/nmt#background-on-the-attention-mechanism)。下图显示了注意力机制为每个输入单词分配一个权重，然后解码器将这个权重用于预测句子中的下一个单词。下图和公式是 [Luong 的论文](https://arxiv.org/abs/1508.04025v5)中注意力机制的一个例子。
+
+![attention mechanism](img/b8397a070205f9293fbc989d8421eec5.png)
+
+输入经过编码器模型，编码器模型为我们提供形状为 *(批大小，最大长度，隐藏层大小)* 的编码器输出和形状为 *(批大小，隐藏层大小)* 的编码器隐藏层状态。
+
+下面是所实现的方程式：
+
+![attention equation 0](img/20fad379e19d0355132a97db41137f4b.png) ![attention equation 1](img/9c9248a99f6346e02b6be5c21e5ab7be.png)
+
+本教程的编码器采用 [Bahdanau 注意力](https://arxiv.org/pdf/1409.0473.pdf)。在用简化形式编写之前，让我们先决定符号：
+
+*   FC = 完全连接（密集）层
+*   EO = 编码器输出
+*   H = 隐藏层状态
+*   X = 解码器输入
+
+以及伪代码：
+
+*   `score = FC(tanh(FC(EO) + FC(H)))`
+*   `attention weights = softmax(score, axis = 1)`。 Softmax 默认被应用于最后一个轴，但是这里我们想将它应用于 *第一个轴*, 因为分数 （score） 的形状是 *(批大小，最大长度，隐藏层大小)*。最大长度 （`max_length`） 是我们的输入的长度。因为我们想为每个输入分配一个权重，所以 softmax 应该用在这个轴上。
+*   `context vector = sum(attention weights * EO, axis = 1)`。选择第一个轴的原因同上。
+*   `embedding output` = 解码器输入 X 通过一个嵌入层。
+*   `merged vector = concat(embedding output, context vector)`
+*   此合并后的向量随后被传送到 GRU
+
+每个步骤中所有向量的形状已在代码的注释中阐明：
+
+```py
+class Encoder(tf.keras.Model):
+  def __init__(self, vocab_size, embedding_dim, enc_units, batch_sz):
+    super(Encoder, self).__init__()
+    self.batch_sz = batch_sz
+    self.enc_units = enc_units
+    self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
+    self.gru = tf.keras.layers.GRU(self.enc_units,
+                                   return_sequences=True,
+                                   return_state=True,
+                                   recurrent_initializer='glorot_uniform')
+
+  def call(self, x, hidden):
+    x = self.embedding(x)
+    output, state = self.gru(x, initial_state = hidden)
+    return output, state
+
+  def initialize_hidden_state(self):
+    return tf.zeros((self.batch_sz, self.enc_units)) 
+```
+
+```py
+encoder = Encoder(vocab_inp_size, embedding_dim, units, BATCH_SIZE)
+
+# 样本输入
+sample_hidden = encoder.initialize_hidden_state()
+sample_output, sample_hidden = encoder(example_input_batch, sample_hidden)
+print ('Encoder output shape: (batch size, sequence length, units) {}'.format(sample_output.shape))
+print ('Encoder Hidden state shape: (batch size, units) {}'.format(sample_hidden.shape)) 
+```
+
+```py
+Encoder output shape: (batch size, sequence length, units) (64, 16, 1024)
+Encoder Hidden state shape: (batch size, units) (64, 1024)
+
+```
+
+```py
+class BahdanauAttention(tf.keras.layers.Layer):
+  def __init__(self, units):
+    super(BahdanauAttention, self).__init__()
+    self.W1 = tf.keras.layers.Dense(units)
+    self.W2 = tf.keras.layers.Dense(units)
+    self.V = tf.keras.layers.Dense(1)
+
+  def call(self, query, values):
+    # 隐藏层的形状 == （批大小，隐藏层大小）
+    # hidden_with_time_axis 的形状 == （批大小，1，隐藏层大小）
+    # 这样做是为了执行加法以计算分数  
+    hidden_with_time_axis = tf.expand_dims(query, 1)
+
+    # 分数的形状 == （批大小，最大长度，1）
+    # 我们在最后一个轴上得到 1， 因为我们把分数应用于 self.V
+    # 在应用 self.V 之前，张量的形状是（批大小，最大长度，单位）
+    score = self.V(tf.nn.tanh(
+        self.W1(values) + self.W2(hidden_with_time_axis)))
+
+    # 注意力权重 （attention_weights） 的形状 == （批大小，最大长度，1）
+    attention_weights = tf.nn.softmax(score, axis=1)
+
+    # 上下文向量 （context_vector） 求和之后的形状 == （批大小，隐藏层大小）
+    context_vector = attention_weights * values
+    context_vector = tf.reduce_sum(context_vector, axis=1)
+
+    return context_vector, attention_weights 
+```
+
+```py
+attention_layer = BahdanauAttention(10)
+attention_result, attention_weights = attention_layer(sample_hidden, sample_output)
+
+print("Attention result shape: (batch size, units) {}".format(attention_result.shape))
+print("Attention weights shape: (batch_size, sequence_length, 1) {}".format(attention_weights.shape)) 
+```
+
+```py
+Attention result shape: (batch size, units) (64, 1024)
+Attention weights shape: (batch_size, sequence_length, 1) (64, 16, 1)
+
+```
+
+```py
+class Decoder(tf.keras.Model):
+  def __init__(self, vocab_size, embedding_dim, dec_units, batch_sz):
+    super(Decoder, self).__init__()
+    self.batch_sz = batch_sz
+    self.dec_units = dec_units
+    self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
+    self.gru = tf.keras.layers.GRU(self.dec_units,
+                                   return_sequences=True,
+                                   return_state=True,
+                                   recurrent_initializer='glorot_uniform')
+    self.fc = tf.keras.layers.Dense(vocab_size)
+
+    # 用于注意力
+    self.attention = BahdanauAttention(self.dec_units)
+
+  def call(self, x, hidden, enc_output):
+    # 编码器输出 （enc_output） 的形状 == （批大小，最大长度，隐藏层大小）
+    context_vector, attention_weights = self.attention(hidden, enc_output)
+
+    # x 在通过嵌入层后的形状 == （批大小，1，嵌入维度）
+    x = self.embedding(x)
+
+    # x 在拼接 （concatenation） 后的形状 == （批大小，1，嵌入维度 + 隐藏层大小）
+    x = tf.concat([tf.expand_dims(context_vector, 1), x], axis=-1)
+
+    # 将合并后的向量传送到 GRU
+    output, state = self.gru(x)
+
+    # 输出的形状 == （批大小 * 1，隐藏层大小）
+    output = tf.reshape(output, (-1, output.shape[2]))
+
+    # 输出的形状 == （批大小，vocab）
+    x = self.fc(output)
+
+    return x, state, attention_weights 
+```
+
+```py
+decoder = Decoder(vocab_tar_size, embedding_dim, units, BATCH_SIZE)
+
+sample_decoder_output, _, _ = decoder(tf.random.uniform((64, 1)),
+                                      sample_hidden, sample_output)
+
+print ('Decoder output shape: (batch_size, vocab size) {}'.format(sample_decoder_output.shape)) 
+```
+
+```py
+Decoder output shape: (batch_size, vocab size) (64, 4935)
+
+```
+
+## 定义优化器和损失函数
+
+```py
+optimizer = tf.keras.optimizers.Adam()
+loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
+    from_logits=True, reduction='none')
+
+def loss_function(real, pred):
+  mask = tf.math.logical_not(tf.math.equal(real, 0))
+  loss_ = loss_object(real, pred)
+
+  mask = tf.cast(mask, dtype=loss_.dtype)
+  loss_ *= mask
+
+  return tf.reduce_mean(loss_) 
+```
+
+## 检查点（基于对象保存）
+
+```py
+checkpoint_dir = './training_checkpoints'
+checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt")
+checkpoint = tf.train.Checkpoint(optimizer=optimizer,
+                                 encoder=encoder,
+                                 decoder=decoder) 
+```
+
+## 训练
+
+1.  将 *输入* 传送至 *编码器*，编码器返回 *编码器输出* 和 *编码器隐藏层状态*。
+2.  将编码器输出、编码器隐藏层状态和解码器输入（即 *开始标记*）传送至解码器。
+3.  解码器返回 *预测* 和 *解码器隐藏层状态*。
+4.  解码器隐藏层状态被传送回模型，预测被用于计算损失。
+5.  使用 *教师强制 （teacher forcing）* 决定解码器的下一个输入。
+6.  *教师强制* 是将 *目标词* 作为 *下一个输入* 传送至解码器的技术。
+7.  最后一步是计算梯度，并将其应用于优化器和反向传播。
+
+```py
+@tf.function
+def train_step(inp, targ, enc_hidden):
+  loss = 0
+
+  with tf.GradientTape() as tape:
+    enc_output, enc_hidden = encoder(inp, enc_hidden)
+
+    dec_hidden = enc_hidden
+
+    dec_input = tf.expand_dims([targ_lang.word_index['<start>']] * BATCH_SIZE, 1)
+
+    # 教师强制 - 将目标词作为下一个输入
+    for t in range(1, targ.shape[1]):
+      # 将编码器输出 （enc_output） 传送至解码器
+      predictions, dec_hidden, _ = decoder(dec_input, dec_hidden, enc_output)
+
+      loss += loss_function(targ[:, t], predictions)
+
+      # 使用教师强制
+      dec_input = tf.expand_dims(targ[:, t], 1)
+
+  batch_loss = (loss / int(targ.shape[1]))
+
+  variables = encoder.trainable_variables + decoder.trainable_variables
+
+  gradients = tape.gradient(loss, variables)
+
+  optimizer.apply_gradients(zip(gradients, variables))
+
+  return batch_loss 
+```
+
+```py
+EPOCHS = 10
+
+for epoch in range(EPOCHS):
+  start = time.time()
+
+  enc_hidden = encoder.initialize_hidden_state()
+  total_loss = 0
+
+  for (batch, (inp, targ)) in enumerate(dataset.take(steps_per_epoch)):
+    batch_loss = train_step(inp, targ, enc_hidden)
+    total_loss += batch_loss
+
+    if batch % 100 == 0:
+        print('Epoch {} Batch {} Loss {:.4f}'.format(epoch + 1,
+                                                     batch,
+                                                     batch_loss.numpy()))
+  # 每 2 个周期（epoch），保存（检查点）一次模型
+  if (epoch + 1) % 2 == 0:
+    checkpoint.save(file_prefix = checkpoint_prefix)
+
+  print('Epoch {} Loss {:.4f}'.format(epoch + 1,
+                                      total_loss / steps_per_epoch))
+  print('Time taken for 1 epoch {} sec\n'.format(time.time() - start)) 
+```
+
+```py
+Epoch 1 Batch 0 Loss 4.6508
+Epoch 1 Batch 100 Loss 2.1923
+Epoch 1 Batch 200 Loss 1.7957
+Epoch 1 Batch 300 Loss 1.7889
+Epoch 1 Loss 2.0564
+Time taken for 1 epoch 28.358328819274902 sec
+
+Epoch 2 Batch 0 Loss 1.5558
+Epoch 2 Batch 100 Loss 1.5256
+Epoch 2 Batch 200 Loss 1.4604
+Epoch 2 Batch 300 Loss 1.3006
+Epoch 2 Loss 1.4770
+Time taken for 1 epoch 16.062172651290894 sec
+
+Epoch 3 Batch 0 Loss 1.1928
+Epoch 3 Batch 100 Loss 1.1909
+Epoch 3 Batch 200 Loss 1.0559
+Epoch 3 Batch 300 Loss 0.9279
+Epoch 3 Loss 1.1305
+Time taken for 1 epoch 15.620810270309448 sec
+
+Epoch 4 Batch 0 Loss 0.8910
+Epoch 4 Batch 100 Loss 0.7890
+Epoch 4 Batch 200 Loss 0.8234
+Epoch 4 Batch 300 Loss 0.8448
+Epoch 4 Loss 0.8080
+Time taken for 1 epoch 15.983836889266968 sec
+
+Epoch 5 Batch 0 Loss 0.4728
+Epoch 5 Batch 100 Loss 0.7090
+Epoch 5 Batch 200 Loss 0.6280
+Epoch 5 Batch 300 Loss 0.5421
+Epoch 5 Loss 0.5710
+Time taken for 1 epoch 15.588238716125488 sec
+
+Epoch 6 Batch 0 Loss 0.4209
+Epoch 6 Batch 100 Loss 0.3995
+Epoch 6 Batch 200 Loss 0.4426
+Epoch 6 Batch 300 Loss 0.4470
+Epoch 6 Loss 0.4063
+Time taken for 1 epoch 15.882423639297485 sec
+
+Epoch 7 Batch 0 Loss 0.2503
+Epoch 7 Batch 100 Loss 0.3373
+Epoch 7 Batch 200 Loss 0.3342
+Epoch 7 Batch 300 Loss 0.2955
+Epoch 7 Loss 0.2938
+Time taken for 1 epoch 15.601640939712524 sec
+
+Epoch 8 Batch 0 Loss 0.1662
+Epoch 8 Batch 100 Loss 0.1923
+Epoch 8 Batch 200 Loss 0.2131
+Epoch 8 Batch 300 Loss 0.2464
+Epoch 8 Loss 0.2175
+Time taken for 1 epoch 15.917790412902832 sec
+
+Epoch 9 Batch 0 Loss 0.1450
+Epoch 9 Batch 100 Loss 0.1351
+Epoch 9 Batch 200 Loss 0.2102
+Epoch 9 Batch 300 Loss 0.2188
+Epoch 9 Loss 0.1659
+Time taken for 1 epoch 15.727098941802979 sec
+
+Epoch 10 Batch 0 Loss 0.0995
+Epoch 10 Batch 100 Loss 0.1190
+Epoch 10 Batch 200 Loss 0.1444
+Epoch 10 Batch 300 Loss 0.1280
+Epoch 10 Loss 0.1294
+Time taken for 1 epoch 15.857161045074463 sec
+
+```
+
+## 翻译
+
+*   评估函数类似于训练循环，不同之处在于在这里我们不使用 *教师强制*。每个时间步的解码器输入是其先前的预测、隐藏层状态和编码器输出。
+*   当模型预测 *结束标记* 时停止预测。
+*   存储 *每个时间步的注意力权重*。
+
+请注意：对于一个输入，编码器输出仅计算一次。
+
+```py
+def evaluate(sentence):
+    attention_plot = np.zeros((max_length_targ, max_length_inp))
+
+    sentence = preprocess_sentence(sentence)
+
+    inputs = [inp_lang.word_index[i] for i in sentence.split(' ')]
+    inputs = tf.keras.preprocessing.sequence.pad_sequences([inputs],
+                                                           maxlen=max_length_inp,
+                                                           padding='post')
+    inputs = tf.convert_to_tensor(inputs)
+
+    result = ''
+
+    hidden = [tf.zeros((1, units))]
+    enc_out, enc_hidden = encoder(inputs, hidden)
+
+    dec_hidden = enc_hidden
+    dec_input = tf.expand_dims([targ_lang.word_index['<start>']], 0)
+
+    for t in range(max_length_targ):
+        predictions, dec_hidden, attention_weights = decoder(dec_input,
+                                                             dec_hidden,
+                                                             enc_out)
+
+        # 存储注意力权重以便后面制图
+        attention_weights = tf.reshape(attention_weights, (-1, ))
+        attention_plot[t] = attention_weights.numpy()
+
+        predicted_id = tf.argmax(predictions[0]).numpy()
+
+        result += targ_lang.index_word[predicted_id] + ' '
+
+        if targ_lang.index_word[predicted_id] == '<end>':
+            return result, sentence, attention_plot
+
+        # 预测的 ID 被输送回模型
+        dec_input = tf.expand_dims([predicted_id], 0)
+
+    return result, sentence, attention_plot 
+```
+
+```py
+# 注意力权重制图函数
+def plot_attention(attention, sentence, predicted_sentence):
+    fig = plt.figure(figsize=(10,10))
+    ax = fig.add_subplot(1, 1, 1)
+    ax.matshow(attention, cmap='viridis')
+
+    fontdict = {'fontsize': 14}
+
+    ax.set_xticklabels([''] + sentence, fontdict=fontdict, rotation=90)
+    ax.set_yticklabels([''] + predicted_sentence, fontdict=fontdict)
+
+    ax.xaxis.set_major_locator(ticker.MultipleLocator(1))
+    ax.yaxis.set_major_locator(ticker.MultipleLocator(1))
+
+    plt.show() 
+```
+
+```py
+def translate(sentence):
+    result, sentence, attention_plot = evaluate(sentence)
+
+    print('Input: %s' % (sentence))
+    print('Predicted translation: {}'.format(result))
+
+    attention_plot = attention_plot[:len(result.split(' ')), :len(sentence.split(' '))]
+    plot_attention(attention_plot, sentence.split(' '), result.split(' ')) 
+```
+
+## 恢复最新的检查点并验证
+
+```py
+# 恢复检查点目录 （checkpoint_dir） 中最新的检查点
+checkpoint.restore(tf.train.latest_checkpoint(checkpoint_dir)) 
+```
+
+```py
+<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7f3d31e73f98>
+
+```
+
+```py
+translate(u'hace mucho frio aqui.') 
+```
+
+```py
+Input: <start> hace mucho frio aqui . <end>
+Predicted translation: it s very cold here . <end> 
+
+```
+
+![png](img/86f4e22b402c9e48d76da7068ace2175.png)
+
+```py
+translate(u'esta es mi vida.') 
+```
+
+```py
+Input: <start> esta es mi vida . <end>
+Predicted translation: this is my life . <end> 
+
+```
+
+![png](img/5ae7b3b0f94a71db86b4168d116179ff.png)
+
+```py
+translate(u'¿todavia estan en casa?') 
+```
+
+```py
+Input: <start> ¿ todavia estan en casa ? <end>
+Predicted translation: are you still at home ? <end> 
+
+```
+
+![png](img/3e8e9f9ba0ac0f802575b228ffa360c0.png)
+
+```py
+# 错误的翻译
+translate(u'trata de averiguarlo.') 
+```
+
+```py
+Input: <start> trata de averiguarlo . <end>
+Predicted translation: try to be coming . <end> 
+
+```
+
+![png](img/996d41e44b9998dc439ec88b9b370cec.png)
+
+## 下一步
+
+*   [下载一个不同的数据集](http://www.manythings.org/anki/)实验翻译，例如英语到德语或者英语到法语。
+*   实验在更大的数据集上训练，或者增加训练周期。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/052.md b/Tensorflow/TensorFlow2.0/052.md
new file mode 100644
index 00000000..2ab62756
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/052.md
@@ -0,0 +1,819 @@
+# Image captioning with visual attention
+
+> 原文：[https://tensorflow.google.cn/tutorials/text/image_captioning](https://tensorflow.google.cn/tutorials/text/image_captioning)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+Given an image like the example below, our goal is to generate a caption such as "a surfer riding on a wave".
+
+![Man Surfing](img/72fcb6a7bcc602106e2c60268d3642c5.png)
+
+*[Image Source](https://commons.wikimedia.org/wiki/Surfing#/media/File:Surfing_in_Hawaii.jpg); License: Public Domain*
+
+To accomplish this, you'll use an attention-based model, which enables us to see what parts of the image the model focuses on as it generates a caption.
+
+![Prediction](img/7534c154062dc8f522f01d83838f3161.png)
+
+The model architecture is similar to [Show, Attend and Tell: Neural Image Caption Generation with Visual Attention](https://arxiv.org/abs/1502.03044).
+
+This notebook is an end-to-end example. When you run the notebook, it downloads the [MS-COCO](http://cocodataset.org/#home) dataset, preprocesses and caches a subset of images using Inception V3, trains an encoder-decoder model, and generates captions on new images using the trained model.
+
+In this example, you will train a model on a relatively small amount of data—the first 30,000 captions for about 20,000 images (because there are multiple captions per image in the dataset).
+
+```py
+import tensorflow as tf
+
+# You'll generate plots of attention in order to see which parts of an image
+# our model focuses on during captioning
+import matplotlib.pyplot as plt
+
+# Scikit-learn includes many helpful utilities
+from sklearn.model_selection import train_test_split
+from sklearn.utils import shuffle
+
+import collections
+import random
+import re
+import numpy as np
+import os
+import time
+import json
+from glob import glob
+from PIL import Image
+import pickle 
+```
+
+## Download and prepare the MS-COCO dataset
+
+You will use the [MS-COCO dataset](http://cocodataset.org/#home) to train our model. The dataset contains over 82,000 images, each of which has at least 5 different caption annotations. The code below downloads and extracts the dataset automatically.
+
+**Caution:** large download ahead**. You'll use the training set, which is a 13GB file.
+
+```py
+# Download caption annotation files
+annotation_folder = '/annotations/'
+if not os.path.exists(os.path.abspath('.') + annotation_folder):
+  annotation_zip = tf.keras.utils.get_file('captions.zip',
+                                          cache_subdir=os.path.abspath('.'),
+                                          origin = 'http://images.cocodataset.org/annotations/annotations_trainval2014.zip',
+                                          extract = True)
+  annotation_file = os.path.dirname(annotation_zip)+'/annotations/captions_train2014.json'
+  os.remove(annotation_zip)
+
+# Download image files
+image_folder = '/train2014/'
+if not os.path.exists(os.path.abspath('.') + image_folder):
+  image_zip = tf.keras.utils.get_file('train2014.zip',
+                                      cache_subdir=os.path.abspath('.'),
+                                      origin = 'http://images.cocodataset.org/zips/train2014.zip',
+                                      extract = True)
+  PATH = os.path.dirname(image_zip) + image_folder
+  os.remove(image_zip)
+else:
+  PATH = os.path.abspath('.') + image_folder 
+```
+
+```py
+Downloading data from http://images.cocodataset.org/annotations/annotations_trainval2014.zip
+252878848/252872794 [==============================] - 7s 0us/step
+Downloading data from http://images.cocodataset.org/zips/train2014.zip
+13510574080/13510573713 [==============================] - 374s 0us/step
+
+```
+
+## Optional: limit the size of the training set
+
+To speed up training for this tutorial, you'll use a subset of 30,000 captions and their corresponding images to train our model. Choosing to use more data would result in improved captioning quality.
+
+```py
+with open(annotation_file, 'r') as f:
+    annotations = json.load(f) 
+```
+
+```py
+# Group all captions together having the same image ID.
+image_path_to_caption = collections.defaultdict(list)
+for val in annotations['annotations']:
+  caption = f"<start> {val['caption']} <end>"
+  image_path = PATH + 'COCO_train2014_' + '%012d.jpg' % (val['image_id'])
+  image_path_to_caption[image_path].append(caption) 
+```
+
+```py
+image_paths = list(image_path_to_caption.keys())
+random.shuffle(image_paths)
+
+# Select the first 6000 image_paths from the shuffled set.
+# Approximately each image id has 5 captions associated with it, so that will 
+# lead to 30,000 examples.
+train_image_paths = image_paths[:6000]
+print(len(train_image_paths)) 
+```
+
+```py
+6000
+
+```
+
+```py
+train_captions = []
+img_name_vector = []
+
+for image_path in train_image_paths:
+  caption_list = image_path_to_caption[image_path]
+  train_captions.extend(caption_list)
+  img_name_vector.extend([image_path] * len(caption_list)) 
+```
+
+```py
+print(train_captions[0])
+Image.open(img_name_vector[0]) 
+```
+
+```py
+<start> a woman in a blue dress is playing tennis <end>
+
+```
+
+![png](img/77a9a1e4b542e966076c493155a71253.png)
+
+## Preprocess the images using InceptionV3
+
+Next, you will use InceptionV3 (which is pretrained on Imagenet) to classify each image. You will extract features from the last convolutional layer.
+
+First, you will convert the images into InceptionV3's expected format by:
+
+*   Resizing the image to 299px by 299px
+*   [Preprocess the images](https://cloud.google.com/tpu/docs/inception-v3-advanced#preprocessing_stage) using the [preprocess_input](https://tensorflow.google.cn/api_docs/python/tf/keras/applications/inception_v3/preprocess_input) method to normalize the image so that it contains pixels in the range of -1 to 1, which matches the format of the images used to train InceptionV3.
+
+```py
+def load_image(image_path):
+    img = tf.io.read_file(image_path)
+    img = tf.image.decode_jpeg(img, channels=3)
+    img = tf.image.resize(img, (299, 299))
+    img = tf.keras.applications.inception_v3.preprocess_input(img)
+    return img, image_path 
+```
+
+## Initialize InceptionV3 and load the pretrained Imagenet weights
+
+Now you'll create a tf.keras model where the output layer is the last convolutional layer in the InceptionV3 architecture. The shape of the output of this layer is `8x8x2048`. You use the last convolutional layer because you are using attention in this example. You don't perform this initialization during training because it could become a bottleneck.
+
+*   You forward each image through the network and store the resulting vector in a dictionary (image_name --> feature_vector).
+*   After all the images are passed through the network, you pickle the dictionary and save it to disk.
+
+```py
+image_model = tf.keras.applications.InceptionV3(include_top=False,
+                                                weights='imagenet')
+new_input = image_model.input
+hidden_layer = image_model.layers[-1].output
+
+image_features_extract_model = tf.keras.Model(new_input, hidden_layer) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/inception_v3/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5
+87916544/87910968 [==============================] - 1s 0us/step
+
+```
+
+## Caching the features extracted from InceptionV3
+
+You will pre-process each image with InceptionV3 and cache the output to disk. Caching the output in RAM would be faster but also memory intensive, requiring 8 * 8 * 2048 floats per image. At the time of writing, this exceeds the memory limitations of Colab (currently 12GB of memory).
+
+Performance could be improved with a more sophisticated caching strategy (for example, by sharding the images to reduce random access disk I/O), but that would require more code.
+
+The caching will take about 10 minutes to run in Colab with a GPU. If you'd like to see a progress bar, you can:
+
+1.  install [tqdm](https://github.com/tqdm/tqdm):
+
+    `!pip install -q tqdm`
+
+2.  Import tqdm:
+
+    `from tqdm import tqdm`
+
+3.  Change the following line:
+
+    `for img, path in image_dataset:`
+
+    to:
+
+    `for img, path in tqdm(image_dataset):`
+
+```py
+# Get unique images
+encode_train = sorted(set(img_name_vector))
+
+# Feel free to change batch_size according to your system configuration
+image_dataset = tf.data.Dataset.from_tensor_slices(encode_train)
+image_dataset = image_dataset.map(
+  load_image, num_parallel_calls=tf.data.experimental.AUTOTUNE).batch(16)
+
+for img, path in image_dataset:
+  batch_features = image_features_extract_model(img)
+  batch_features = tf.reshape(batch_features,
+                              (batch_features.shape[0], -1, batch_features.shape[3]))
+
+  for bf, p in zip(batch_features, path):
+    path_of_feature = p.numpy().decode("utf-8")
+    np.save(path_of_feature, bf.numpy()) 
+```
+
+## Preprocess and tokenize the captions
+
+*   First, you'll tokenize the captions (for example, by splitting on spaces). This gives us a vocabulary of all of the unique words in the data (for example, "surfing", "football", and so on).
+*   Next, you'll limit the vocabulary size to the top 5,000 words (to save memory). You'll replace all other words with the token "UNK" (unknown).
+*   You then create word-to-index and index-to-word mappings.
+*   Finally, you pad all sequences to be the same length as the longest one.
+
+```py
+# Find the maximum length of any caption in our dataset
+def calc_max_length(tensor):
+    return max(len(t) for t in tensor) 
+```
+
+```py
+# Choose the top 5000 words from the vocabulary
+top_k = 5000
+tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=top_k,
+                                                  oov_token="<unk>",
+                                                  filters='!"#$%&()*+.,-/:;=?@[\]^_`{|}~ ')
+tokenizer.fit_on_texts(train_captions)
+train_seqs = tokenizer.texts_to_sequences(train_captions) 
+```
+
+```py
+tokenizer.word_index['<pad>'] = 0
+tokenizer.index_word[0] = '<pad>' 
+```
+
+```py
+# Create the tokenized vectors
+train_seqs = tokenizer.texts_to_sequences(train_captions) 
+```
+
+```py
+# Pad each vector to the max_length of the captions
+# If you do not provide a max_length value, pad_sequences calculates it automatically
+cap_vector = tf.keras.preprocessing.sequence.pad_sequences(train_seqs, padding='post') 
+```
+
+```py
+# Calculates the max_length, which is used to store the attention weights
+max_length = calc_max_length(train_seqs) 
+```
+
+## Split the data into training and testing
+
+```py
+img_to_cap_vector = collections.defaultdict(list)
+for img, cap in zip(img_name_vector, cap_vector):
+  img_to_cap_vector[img].append(cap)
+
+# Create training and validation sets using an 80-20 split randomly.
+img_keys = list(img_to_cap_vector.keys())
+random.shuffle(img_keys)
+
+slice_index = int(len(img_keys)*0.8)
+img_name_train_keys, img_name_val_keys = img_keys[:slice_index], img_keys[slice_index:]
+
+img_name_train = []
+cap_train = []
+for imgt in img_name_train_keys:
+  capt_len = len(img_to_cap_vector[imgt])
+  img_name_train.extend([imgt] * capt_len)
+  cap_train.extend(img_to_cap_vector[imgt])
+
+img_name_val = []
+cap_val = []
+for imgv in img_name_val_keys:
+  capv_len = len(img_to_cap_vector[imgv])
+  img_name_val.extend([imgv] * capv_len)
+  cap_val.extend(img_to_cap_vector[imgv]) 
+```
+
+```py
+len(img_name_train), len(cap_train), len(img_name_val), len(cap_val) 
+```
+
+```py
+(24009, 24009, 6001, 6001)
+
+```
+
+## Create a tf.data dataset for training
+
+Our images and captions are ready! Next, let's create a tf.data dataset to use for training our model.
+
+```py
+# Feel free to change these parameters according to your system's configuration
+
+BATCH_SIZE = 64
+BUFFER_SIZE = 1000
+embedding_dim = 256
+units = 512
+vocab_size = top_k + 1
+num_steps = len(img_name_train) // BATCH_SIZE
+# Shape of the vector extracted from InceptionV3 is (64, 2048)
+# These two variables represent that vector shape
+features_shape = 2048
+attention_features_shape = 64 
+```
+
+```py
+# Load the numpy files
+def map_func(img_name, cap):
+  img_tensor = np.load(img_name.decode('utf-8')+'.npy')
+  return img_tensor, cap 
+```
+
+```py
+dataset = tf.data.Dataset.from_tensor_slices((img_name_train, cap_train))
+
+# Use map to load the numpy files in parallel
+dataset = dataset.map(lambda item1, item2: tf.numpy_function(
+          map_func, [item1, item2], [tf.float32, tf.int32]),
+          num_parallel_calls=tf.data.experimental.AUTOTUNE)
+
+# Shuffle and batch
+dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE)
+dataset = dataset.prefetch(buffer_size=tf.data.experimental.AUTOTUNE) 
+```
+
+## Model
+
+Fun fact: the decoder below is identical to the one in the example for [Neural Machine Translation with Attention](https://tensorflow.google.cn/tutorials/sequences/nmt_with_attention).
+
+The model architecture is inspired by the [Show, Attend and Tell](https://arxiv.org/pdf/1502.03044.pdf) paper.
+
+*   In this example, you extract the features from the lower convolutional layer of InceptionV3 giving us a vector of shape (8, 8, 2048).
+*   You squash that to a shape of (64, 2048).
+*   This vector is then passed through the CNN Encoder (which consists of a single Fully connected layer).
+*   The RNN (here GRU) attends over the image to predict the next word.
+
+```py
+class BahdanauAttention(tf.keras.Model):
+  def __init__(self, units):
+    super(BahdanauAttention, self).__init__()
+    self.W1 = tf.keras.layers.Dense(units)
+    self.W2 = tf.keras.layers.Dense(units)
+    self.V = tf.keras.layers.Dense(1)
+
+  def call(self, features, hidden):
+    # features(CNN_encoder output) shape == (batch_size, 64, embedding_dim)
+
+    # hidden shape == (batch_size, hidden_size)
+    # hidden_with_time_axis shape == (batch_size, 1, hidden_size)
+    hidden_with_time_axis = tf.expand_dims(hidden, 1)
+
+    # attention_hidden_layer shape == (batch_size, 64, units)
+    attention_hidden_layer = (tf.nn.tanh(self.W1(features) +
+                                         self.W2(hidden_with_time_axis)))
+
+    # score shape == (batch_size, 64, 1)
+    # This gives you an unnormalized score for each image feature.
+    score = self.V(attention_hidden_layer)
+
+    # attention_weights shape == (batch_size, 64, 1)
+    attention_weights = tf.nn.softmax(score, axis=1)
+
+    # context_vector shape after sum == (batch_size, hidden_size)
+    context_vector = attention_weights * features
+    context_vector = tf.reduce_sum(context_vector, axis=1)
+
+    return context_vector, attention_weights 
+```
+
+```py
+class CNN_Encoder(tf.keras.Model):
+    # Since you have already extracted the features and dumped it using pickle
+    # This encoder passes those features through a Fully connected layer
+    def __init__(self, embedding_dim):
+        super(CNN_Encoder, self).__init__()
+        # shape after fc == (batch_size, 64, embedding_dim)
+        self.fc = tf.keras.layers.Dense(embedding_dim)
+
+    def call(self, x):
+        x = self.fc(x)
+        x = tf.nn.relu(x)
+        return x 
+```
+
+```py
+class RNN_Decoder(tf.keras.Model):
+  def __init__(self, embedding_dim, units, vocab_size):
+    super(RNN_Decoder, self).__init__()
+    self.units = units
+
+    self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
+    self.gru = tf.keras.layers.GRU(self.units,
+                                   return_sequences=True,
+                                   return_state=True,
+                                   recurrent_initializer='glorot_uniform')
+    self.fc1 = tf.keras.layers.Dense(self.units)
+    self.fc2 = tf.keras.layers.Dense(vocab_size)
+
+    self.attention = BahdanauAttention(self.units)
+
+  def call(self, x, features, hidden):
+    # defining attention as a separate model
+    context_vector, attention_weights = self.attention(features, hidden)
+
+    # x shape after passing through embedding == (batch_size, 1, embedding_dim)
+    x = self.embedding(x)
+
+    # x shape after concatenation == (batch_size, 1, embedding_dim + hidden_size)
+    x = tf.concat([tf.expand_dims(context_vector, 1), x], axis=-1)
+
+    # passing the concatenated vector to the GRU
+    output, state = self.gru(x)
+
+    # shape == (batch_size, max_length, hidden_size)
+    x = self.fc1(output)
+
+    # x shape == (batch_size * max_length, hidden_size)
+    x = tf.reshape(x, (-1, x.shape[2]))
+
+    # output shape == (batch_size * max_length, vocab)
+    x = self.fc2(x)
+
+    return x, state, attention_weights
+
+  def reset_state(self, batch_size):
+    return tf.zeros((batch_size, self.units)) 
+```
+
+```py
+encoder = CNN_Encoder(embedding_dim)
+decoder = RNN_Decoder(embedding_dim, units, vocab_size) 
+```
+
+```py
+optimizer = tf.keras.optimizers.Adam()
+loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
+    from_logits=True, reduction='none')
+
+def loss_function(real, pred):
+  mask = tf.math.logical_not(tf.math.equal(real, 0))
+  loss_ = loss_object(real, pred)
+
+  mask = tf.cast(mask, dtype=loss_.dtype)
+  loss_ *= mask
+
+  return tf.reduce_mean(loss_) 
+```
+
+## Checkpoint
+
+```py
+checkpoint_path = "./checkpoints/train"
+ckpt = tf.train.Checkpoint(encoder=encoder,
+                           decoder=decoder,
+                           optimizer = optimizer)
+ckpt_manager = tf.train.CheckpointManager(ckpt, checkpoint_path, max_to_keep=5) 
+```
+
+```py
+start_epoch = 0
+if ckpt_manager.latest_checkpoint:
+  start_epoch = int(ckpt_manager.latest_checkpoint.split('-')[-1])
+  # restoring the latest checkpoint in checkpoint_path
+  ckpt.restore(ckpt_manager.latest_checkpoint) 
+```
+
+## Training
+
+*   You extract the features stored in the respective `.npy` files and then pass those features through the encoder.
+*   The encoder output, hidden state(initialized to 0) and the decoder input (which is the start token) is passed to the decoder.
+*   The decoder returns the predictions and the decoder hidden state.
+*   The decoder hidden state is then passed back into the model and the predictions are used to calculate the loss.
+*   Use teacher forcing to decide the next input to the decoder.
+*   Teacher forcing is the technique where the target word is passed as the next input to the decoder.
+*   The final step is to calculate the gradients and apply it to the optimizer and backpropagate.
+
+```py
+# adding this in a separate cell because if you run the training cell
+# many times, the loss_plot array will be reset
+loss_plot = [] 
+```
+
+```py
+@tf.function
+def train_step(img_tensor, target):
+  loss = 0
+
+  # initializing the hidden state for each batch
+  # because the captions are not related from image to image
+  hidden = decoder.reset_state(batch_size=target.shape[0])
+
+  dec_input = tf.expand_dims([tokenizer.word_index['<start>']] * target.shape[0], 1)
+
+  with tf.GradientTape() as tape:
+      features = encoder(img_tensor)
+
+      for i in range(1, target.shape[1]):
+          # passing the features through the decoder
+          predictions, hidden, _ = decoder(dec_input, features, hidden)
+
+          loss += loss_function(target[:, i], predictions)
+
+          # using teacher forcing
+          dec_input = tf.expand_dims(target[:, i], 1)
+
+  total_loss = (loss / int(target.shape[1]))
+
+  trainable_variables = encoder.trainable_variables + decoder.trainable_variables
+
+  gradients = tape.gradient(loss, trainable_variables)
+
+  optimizer.apply_gradients(zip(gradients, trainable_variables))
+
+  return loss, total_loss 
+```
+
+```py
+EPOCHS = 20
+
+for epoch in range(start_epoch, EPOCHS):
+    start = time.time()
+    total_loss = 0
+
+    for (batch, (img_tensor, target)) in enumerate(dataset):
+        batch_loss, t_loss = train_step(img_tensor, target)
+        total_loss += t_loss
+
+        if batch % 100 == 0:
+            print ('Epoch {} Batch {} Loss {:.4f}'.format(
+              epoch + 1, batch, batch_loss.numpy() / int(target.shape[1])))
+    # storing the epoch end loss value to plot later
+    loss_plot.append(total_loss / num_steps)
+
+    if epoch % 5 == 0:
+      ckpt_manager.save()
+
+    print ('Epoch {} Loss {:.6f}'.format(epoch + 1,
+                                         total_loss/num_steps))
+    print ('Time taken for 1 epoch {} sec\n'.format(time.time() - start)) 
+```
+
+```py
+Epoch 1 Batch 0 Loss 2.0618
+Epoch 1 Batch 100 Loss 1.1516
+Epoch 1 Batch 200 Loss 0.9201
+Epoch 1 Batch 300 Loss 0.8922
+Epoch 1 Loss 1.040854
+Time taken for 1 epoch 100.07987594604492 sec
+
+Epoch 2 Batch 0 Loss 0.8678
+Epoch 2 Batch 100 Loss 0.8257
+Epoch 2 Batch 200 Loss 0.8268
+Epoch 2 Batch 300 Loss 0.7109
+Epoch 2 Loss 0.786627
+Time taken for 1 epoch 36.52699089050293 sec
+
+Epoch 3 Batch 0 Loss 0.7747
+Epoch 3 Batch 100 Loss 0.7220
+Epoch 3 Batch 200 Loss 0.7071
+Epoch 3 Batch 300 Loss 0.7065
+Epoch 3 Loss 0.708941
+Time taken for 1 epoch 36.67209577560425 sec
+
+Epoch 4 Batch 0 Loss 0.7542
+Epoch 4 Batch 100 Loss 0.6422
+Epoch 4 Batch 200 Loss 0.6024
+Epoch 4 Batch 300 Loss 0.7107
+Epoch 4 Loss 0.657265
+Time taken for 1 epoch 36.70520520210266 sec
+
+Epoch 5 Batch 0 Loss 0.6684
+Epoch 5 Batch 100 Loss 0.6549
+Epoch 5 Batch 200 Loss 0.6364
+Epoch 5 Batch 300 Loss 0.6250
+Epoch 5 Loss 0.616459
+Time taken for 1 epoch 36.51219129562378 sec
+
+Epoch 6 Batch 0 Loss 0.6531
+Epoch 6 Batch 100 Loss 0.5622
+Epoch 6 Batch 200 Loss 0.5688
+Epoch 6 Batch 300 Loss 0.6302
+Epoch 6 Loss 0.581336
+Time taken for 1 epoch 37.36966156959534 sec
+
+Epoch 7 Batch 0 Loss 0.5335
+Epoch 7 Batch 100 Loss 0.5362
+Epoch 7 Batch 200 Loss 0.5960
+Epoch 7 Batch 300 Loss 0.5382
+Epoch 7 Loss 0.558110
+Time taken for 1 epoch 36.8504319190979 sec
+
+Epoch 8 Batch 0 Loss 0.5242
+Epoch 8 Batch 100 Loss 0.5142
+Epoch 8 Batch 200 Loss 0.5458
+Epoch 8 Batch 300 Loss 0.4814
+Epoch 8 Loss 0.523847
+Time taken for 1 epoch 36.90491819381714 sec
+
+Epoch 9 Batch 0 Loss 0.5318
+Epoch 9 Batch 100 Loss 0.4869
+Epoch 9 Batch 200 Loss 0.4791
+Epoch 9 Batch 300 Loss 0.4719
+Epoch 9 Loss 0.496363
+Time taken for 1 epoch 36.52782845497131 sec
+
+Epoch 10 Batch 0 Loss 0.4707
+Epoch 10 Batch 100 Loss 0.4642
+Epoch 10 Batch 200 Loss 0.4685
+Epoch 10 Batch 300 Loss 0.4659
+Epoch 10 Loss 0.470341
+Time taken for 1 epoch 36.24022054672241 sec
+
+Epoch 11 Batch 0 Loss 0.4530
+Epoch 11 Batch 100 Loss 0.4947
+Epoch 11 Batch 200 Loss 0.4457
+Epoch 11 Batch 300 Loss 0.4617
+Epoch 11 Loss 0.447154
+Time taken for 1 epoch 36.481024980545044 sec
+
+Epoch 12 Batch 0 Loss 0.4359
+Epoch 12 Batch 100 Loss 0.4257
+Epoch 12 Batch 200 Loss 0.4124
+Epoch 12 Batch 300 Loss 0.4302
+Epoch 12 Loss 0.424052
+Time taken for 1 epoch 37.11701226234436 sec
+
+Epoch 13 Batch 0 Loss 0.4531
+Epoch 13 Batch 100 Loss 0.4064
+Epoch 13 Batch 200 Loss 0.3677
+Epoch 13 Batch 300 Loss 0.3942
+Epoch 13 Loss 0.402709
+Time taken for 1 epoch 36.868356466293335 sec
+
+Epoch 14 Batch 0 Loss 0.3967
+Epoch 14 Batch 100 Loss 0.3455
+Epoch 14 Batch 200 Loss 0.3742
+Epoch 14 Batch 300 Loss 0.3905
+Epoch 14 Loss 0.382572
+Time taken for 1 epoch 36.95557117462158 sec
+
+Epoch 15 Batch 0 Loss 0.3754
+Epoch 15 Batch 100 Loss 0.3721
+Epoch 15 Batch 200 Loss 0.3633
+Epoch 15 Batch 300 Loss 0.3830
+Epoch 15 Loss 0.364831
+Time taken for 1 epoch 36.37884545326233 sec
+
+Epoch 16 Batch 0 Loss 0.3873
+Epoch 16 Batch 100 Loss 0.3499
+Epoch 16 Batch 200 Loss 0.3437
+Epoch 16 Batch 300 Loss 0.3232
+Epoch 16 Loss 0.346227
+Time taken for 1 epoch 36.44292426109314 sec
+
+Epoch 17 Batch 0 Loss 0.3250
+Epoch 17 Batch 100 Loss 0.3218
+Epoch 17 Batch 200 Loss 0.3703
+Epoch 17 Batch 300 Loss 0.2849
+Epoch 17 Loss 0.328413
+Time taken for 1 epoch 36.11301136016846 sec
+
+Epoch 18 Batch 0 Loss 0.3032
+Epoch 18 Batch 100 Loss 0.3321
+Epoch 18 Batch 200 Loss 0.3112
+Epoch 18 Batch 300 Loss 0.3129
+Epoch 18 Loss 0.315071
+Time taken for 1 epoch 36.2520546913147 sec
+
+Epoch 19 Batch 0 Loss 0.3005
+Epoch 19 Batch 100 Loss 0.3190
+Epoch 19 Batch 200 Loss 0.3243
+Epoch 19 Batch 300 Loss 0.2861
+Epoch 19 Loss 0.301502
+Time taken for 1 epoch 36.188610553741455 sec
+
+Epoch 20 Batch 0 Loss 0.3263
+Epoch 20 Batch 100 Loss 0.3182
+Epoch 20 Batch 200 Loss 0.2885
+Epoch 20 Batch 300 Loss 0.2923
+Epoch 20 Loss 0.285932
+Time taken for 1 epoch 36.192723989486694 sec
+
+```
+
+```py
+plt.plot(loss_plot)
+plt.xlabel('Epochs')
+plt.ylabel('Loss')
+plt.title('Loss Plot')
+plt.show() 
+```
+
+![png](img/f40a6da0d8471d4b9b979d456cb09d0d.png)
+
+## Caption!
+
+*   The evaluate function is similar to the training loop, except you don't use teacher forcing here. The input to the decoder at each time step is its previous predictions along with the hidden state and the encoder output.
+*   Stop predicting when the model predicts the end token.
+*   And store the attention weights for every time step.
+
+```py
+def evaluate(image):
+    attention_plot = np.zeros((max_length, attention_features_shape))
+
+    hidden = decoder.reset_state(batch_size=1)
+
+    temp_input = tf.expand_dims(load_image(image)[0], 0)
+    img_tensor_val = image_features_extract_model(temp_input)
+    img_tensor_val = tf.reshape(img_tensor_val, (img_tensor_val.shape[0], -1, img_tensor_val.shape[3]))
+
+    features = encoder(img_tensor_val)
+
+    dec_input = tf.expand_dims([tokenizer.word_index['<start>']], 0)
+    result = []
+
+    for i in range(max_length):
+        predictions, hidden, attention_weights = decoder(dec_input, features, hidden)
+
+        attention_plot[i] = tf.reshape(attention_weights, (-1, )).numpy()
+
+        predicted_id = tf.random.categorical(predictions, 1)[0][0].numpy()
+        result.append(tokenizer.index_word[predicted_id])
+
+        if tokenizer.index_word[predicted_id] == '<end>':
+            return result, attention_plot
+
+        dec_input = tf.expand_dims([predicted_id], 0)
+
+    attention_plot = attention_plot[:len(result), :]
+    return result, attention_plot 
+```
+
+```py
+def plot_attention(image, result, attention_plot):
+    temp_image = np.array(Image.open(image))
+
+    fig = plt.figure(figsize=(10, 10))
+
+    len_result = len(result)
+    for l in range(len_result):
+        temp_att = np.resize(attention_plot[l], (8, 8))
+        ax = fig.add_subplot(len_result//2, len_result//2, l+1)
+        ax.set_title(result[l])
+        img = ax.imshow(temp_image)
+        ax.imshow(temp_att, cmap='gray', alpha=0.6, extent=img.get_extent())
+
+    plt.tight_layout()
+    plt.show() 
+```
+
+```py
+# captions on the validation set
+rid = np.random.randint(0, len(img_name_val))
+image = img_name_val[rid]
+real_caption = ' '.join([tokenizer.index_word[i] for i in cap_val[rid] if i not in [0]])
+result, attention_plot = evaluate(image)
+
+print ('Real Caption:', real_caption)
+print ('Prediction Caption:', ' '.join(result))
+plot_attention(image, result, attention_plot) 
+```
+
+```py
+Real Caption: <start> a <unk> clock is on display on the surface of a building <end>
+Prediction Caption: a metal wall with a brick in the middle is <unk> that has some brown wall that looks out the ground <end>
+
+```
+
+![png](img/9cada0d075f4e1a104766ddd3754aba4.png)
+
+## Try it on your own images
+
+For fun, below we've provided a method you can use to caption your own images with the model we've just trained. Keep in mind, it was trained on a relatively small amount of data, and your images may be different from the training data (so be prepared for weird results!)
+
+```py
+image_url = 'https://tensorflow.org/images/surf.jpg'
+image_extension = image_url[-4:]
+image_path = tf.keras.utils.get_file('image'+image_extension,
+                                     origin=image_url)
+
+result, attention_plot = evaluate(image_path)
+print ('Prediction Caption:', ' '.join(result))
+plot_attention(image_path, result, attention_plot)
+# opening the image
+Image.open(image_path) 
+```
+
+```py
+Downloading data from https://tensorflow.org/images/surf.jpg
+65536/64400 [==============================] - 0s 2us/step
+Prediction Caption: a kid in <unk> their best to fall <end>
+
+```
+
+![png](img/e3e3424830f874b566c07a0e86696a13.png)
+
+![png](img/17877a5940e1f7245c707d3ecf9783e3.png)
+
+# Next steps
+
+Congrats! You've just trained an image captioning model with attention. Next, take a look at this example [Neural Machine Translation with Attention](https://tensorflow.google.cn/tutorials/sequences/nmt_with_attention). It uses a similar architecture to translate between Spanish and English sentences. You can also experiment with training the code in this notebook on a different dataset.
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/053.md b/Tensorflow/TensorFlow2.0/053.md
new file mode 100644
index 00000000..c49b1a16
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/053.md
@@ -0,0 +1,1591 @@
+# 理解语言的 Transformer 模型
+
+> 原文：[https://tensorflow.google.cn/tutorials/text/transformer](https://tensorflow.google.cn/tutorials/text/transformer)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)
+
+本教程训练了一个 [Transformer 模型](https://arxiv.org/abs/1706.03762) 用于将葡萄牙语翻译成英语。这是一个高级示例，假定您具备[文本生成（text generation）](/tutorials/text/text_generation)和 [注意力机制（attention）](/tutorials/text/nmt_with_attention) 的知识。
+
+Transformer 模型的核心思想是*自注意力机制（self-attention）*——能注意输入序列的不同位置以计算该序列的表示的能力。Transformer 创建了多层自注意力层（self-attetion layers）组成的堆栈，下文的*按比缩放的点积注意力（Scaled dot product attention）*和*多头注意力（Multi-head attention）*部分对此进行了说明。
+
+一个 transformer 模型用自注意力层而非 [RNNs](/tutorials/text/text_classification_rnn) 或 [CNNs](https://tensorflow.google.cn/tutorials/images/intro_to_cnns) 来处理变长的输入。这种通用架构有一系列的优势：
+
+*   它不对数据间的时间/空间关系做任何假设。这是处理一组对象（objects）的理想选择（例如，[星际争霸单位（StarCraft units）](https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/#block-8)）。
+*   层输出可以并行计算，而非像 RNN 这样的序列计算。
+*   远距离项可以影响彼此的输出，而无需经过许多 RNN 步骤或卷积层（例如，参见[场景记忆 Transformer（Scene Memory Transformer）](https://arxiv.org/pdf/1903.03878.pdf)）
+*   它能学习长距离的依赖。在许多序列任务中，这是一项挑战。
+
+该架构的缺点是：
+
+*   对于时间序列，一个单位时间的输出是从*整个历史记录*计算的，而非仅从输入和当前的隐含状态计算得到。这*可能*效率较低。
+*   如果输入*确实*有时间/空间的关系，像文本，则必须加入一些位置编码，否则模型将有效地看到一堆单词。
+
+在此 notebook 中训练完模型后，您将能输入葡萄牙语句子，得到其英文翻译。
+
+![Attention heatmap](img/f8876684e2b6e5576c9f4dc1029bb237.png)
+
+```py
+import tensorflow_datasets as tfds
+import tensorflow as tf
+
+import time
+import numpy as np
+import matplotlib.pyplot as plt 
+```
+
+## 设置输入流水线（input pipeline）
+
+使用 [TFDS](https://tensorflow.google.cn/datasets) 来导入 [葡萄牙语-英语翻译数据集](https://github.com/neulab/word-embeddings-for-nmt)，该数据集来自于 [TED 演讲开放翻译项目](https://www.ted.com/participate/translate).
+
+该数据集包含来约 50000 条训练样本，1100 条验证样本，以及 2000 条测试样本。
+
+```py
+examples, metadata = tfds.load('ted_hrlr_translate/pt_to_en', with_info=True,
+                               as_supervised=True)
+train_examples, val_examples = examples['train'], examples['validation'] 
+```
+
+```py
+Downloading and preparing dataset ted_hrlr_translate/pt_to_en/1.0.0 (download: 124.94 MiB, generated: Unknown size, total: 124.94 MiB) to /home/kbuilder/tensorflow_datasets/ted_hrlr_translate/pt_to_en/1.0.0...
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/ted_hrlr_translate/pt_to_en/1.0.0.incomplete3YLR59/ted_hrlr_translate-train.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/ted_hrlr_translate/pt_to_en/1.0.0.incomplete3YLR59/ted_hrlr_translate-validation.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/ted_hrlr_translate/pt_to_en/1.0.0.incomplete3YLR59/ted_hrlr_translate-test.tfrecord
+Dataset ted_hrlr_translate downloaded and prepared to /home/kbuilder/tensorflow_datasets/ted_hrlr_translate/pt_to_en/1.0.0\. Subsequent calls will reuse this data.
+
+```
+
+从训练数据集创建自定义子词分词器（subwords tokenizer）。
+
+```py
+tokenizer_en = tfds.features.text.SubwordTextEncoder.build_from_corpus(
+    (en.numpy() for pt, en in train_examples), target_vocab_size=2**13)
+
+tokenizer_pt = tfds.features.text.SubwordTextEncoder.build_from_corpus(
+    (pt.numpy() for pt, en in train_examples), target_vocab_size=2**13) 
+```
+
+```py
+sample_string = 'Transformer is awesome.'
+
+tokenized_string = tokenizer_en.encode(sample_string)
+print ('Tokenized string is {}'.format(tokenized_string))
+
+original_string = tokenizer_en.decode(tokenized_string)
+print ('The original string: {}'.format(original_string))
+
+assert original_string == sample_string 
+```
+
+```py
+Tokenized string is [7915, 1248, 7946, 7194, 13, 2799, 7877]
+The original string: Transformer is awesome.
+
+```
+
+如果单词不在词典中，则分词器（tokenizer）通过将单词分解为子词来对字符串进行编码。
+
+```py
+for ts in tokenized_string:
+  print ('{} ----> {}'.format(ts, tokenizer_en.decode([ts]))) 
+```
+
+```py
+7915 ----> T
+1248 ----> ran
+7946 ----> s
+7194 ----> former 
+13 ----> is 
+2799 ----> awesome
+7877 ----> .
+
+```
+
+```py
+BUFFER_SIZE = 20000
+BATCH_SIZE = 64 
+```
+
+将开始和结束标记（token）添加到输入和目标。
+
+```py
+def encode(lang1, lang2):
+  lang1 = [tokenizer_pt.vocab_size] + tokenizer_pt.encode(
+      lang1.numpy()) + [tokenizer_pt.vocab_size+1]
+
+  lang2 = [tokenizer_en.vocab_size] + tokenizer_en.encode(
+      lang2.numpy()) + [tokenizer_en.vocab_size+1]
+
+  return lang1, lang2 
+```
+
+Note：为了使本示例较小且相对较快，删除长度大于 40 个标记的样本。
+
+```py
+MAX_LENGTH = 40 
+```
+
+```py
+def filter_max_length(x, y, max_length=MAX_LENGTH):
+  return tf.logical_and(tf.size(x) <= max_length,
+                        tf.size(y) <= max_length) 
+```
+
+`.map()` 内部的操作以图模式（graph mode）运行，`.map()` 接收一个不具有 numpy 属性的图张量（graph tensor）。该`分词器（tokenizer）`需要将一个字符串或 Unicode 符号，编码成整数。因此，您需要在 [`tf.py_function`](https://tensorflow.google.cn/api_docs/python/tf/py_function) 内部运行编码过程，[`tf.py_function`](https://tensorflow.google.cn/api_docs/python/tf/py_function) 接收一个 eager 张量，该 eager 张量有一个包含字符串值的 numpy 属性。
+
+```py
+def tf_encode(pt, en):
+  result_pt, result_en = tf.py_function(encode, [pt, en], [tf.int64, tf.int64])
+  result_pt.set_shape([None])
+  result_en.set_shape([None])
+
+  return result_pt, result_en 
+```
+
+```py
+train_dataset = train_examples.map(tf_encode)
+train_dataset = train_dataset.filter(filter_max_length)
+# 将数据集缓存到内存中以加快读取速度。
+train_dataset = train_dataset.cache()
+train_dataset = train_dataset.shuffle(BUFFER_SIZE).padded_batch(BATCH_SIZE)
+train_dataset = train_dataset.prefetch(tf.data.experimental.AUTOTUNE)
+
+val_dataset = val_examples.map(tf_encode)
+val_dataset = val_dataset.filter(filter_max_length).padded_batch(BATCH_SIZE) 
+```
+
+```py
+pt_batch, en_batch = next(iter(val_dataset))
+pt_batch, en_batch 
+```
+
+```py
+(<tf.Tensor: shape=(64, 38), dtype=int64, numpy=
+ array([[8214,  342, 3032, ...,    0,    0,    0],
+        [8214,   95,  198, ...,    0,    0,    0],
+        [8214, 4479, 7990, ...,    0,    0,    0],
+        ...,
+        [8214,  584,   12, ...,    0,    0,    0],
+        [8214,   59, 1548, ...,    0,    0,    0],
+        [8214,  118,   34, ...,    0,    0,    0]])>,
+ <tf.Tensor: shape=(64, 40), dtype=int64, numpy=
+ array([[8087,   98,   25, ...,    0,    0,    0],
+        [8087,   12,   20, ...,    0,    0,    0],
+        [8087,   12, 5453, ...,    0,    0,    0],
+        ...,
+        [8087,   18, 2059, ...,    0,    0,    0],
+        [8087,   16, 1436, ...,    0,    0,    0],
+        [8087,   15,   57, ...,    0,    0,    0]])>)
+
+```
+
+## 位置编码（Positional encoding）
+
+因为该模型并不包括任何的循环（recurrence）或卷积，所以模型添加了位置编码，为模型提供一些关于单词在句子中相对位置的信息。
+
+位置编码向量被加到嵌入（embedding）向量中。嵌入表示一个 d 维空间的标记，在 d 维空间中有着相似含义的标记会离彼此更近。但是，嵌入并没有对在一句话中的词的相对位置进行编码。因此，当加上位置编码后，词将基于*它们含义的相似度以及它们在句子中的位置*，在 d 维空间中离彼此更近。
+
+参看 [位置编码](https://github.com/tensorflow/examples/blob/master/community/en/position_encoding.ipynb) 的 notebook 了解更多信息。计算位置编码的公式如下：
+
+$$\Large{PE_{(pos, 2i)} = sin(pos / 10000^{2i / d_{model} })} $$$$\Large{PE_{(pos, 2i+1)} = cos(pos / 10000^{2i / d_{model} })} $$
+
+```py
+def get_angles(pos, i, d_model):
+  angle_rates = 1 / np.power(10000, (2 * (i//2)) / np.float32(d_model))
+  return pos * angle_rates 
+```
+
+```py
+def positional_encoding(position, d_model):
+  angle_rads = get_angles(np.arange(position)[:, np.newaxis],
+                          np.arange(d_model)[np.newaxis, :],
+                          d_model)
+
+  # 将 sin 应用于数组中的偶数索引（indices）；2i
+  angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
+
+  # 将 cos 应用于数组中的奇数索引；2i+1
+  angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])
+
+  pos_encoding = angle_rads[np.newaxis, ...]
+
+  return tf.cast(pos_encoding, dtype=tf.float32) 
+```
+
+```py
+pos_encoding = positional_encoding(50, 512)
+print (pos_encoding.shape)
+
+plt.pcolormesh(pos_encoding[0], cmap='RdBu')
+plt.xlabel('Depth')
+plt.xlim((0, 512))
+plt.ylabel('Position')
+plt.colorbar()
+plt.show() 
+```
+
+```py
+(1, 50, 512)
+
+```
+
+![png](img/0dda76c01237658213cec93698233a22.png)
+
+## 遮挡（Masking）
+
+遮挡一批序列中所有的填充标记（pad tokens）。这确保了模型不会将填充作为输入。该 mask 表明填充值 `0` 出现的位置：在这些位置 mask 输出 `1`，否则输出 `0`。
+
+```py
+def create_padding_mask(seq):
+  seq = tf.cast(tf.math.equal(seq, 0), tf.float32)
+
+  # 添加额外的维度来将填充加到
+  # 注意力对数（logits）。
+  return seq[:, tf.newaxis, tf.newaxis, :]  # (batch_size, 1, 1, seq_len) 
+```
+
+```py
+x = tf.constant([[7, 6, 0, 0, 1], [1, 2, 3, 0, 0], [0, 0, 0, 4, 5]])
+create_padding_mask(x) 
+```
+
+```py
+<tf.Tensor: shape=(3, 1, 1, 5), dtype=float32, numpy=
+array([[[[0., 0., 1., 1., 0.]]],
+
+       [[[0., 0., 0., 1., 1.]]],
+
+       [[[1., 1., 1., 0., 0.]]]], dtype=float32)>
+
+```
+
+前瞻遮挡（look-ahead mask）用于遮挡一个序列中的后续标记（future tokens）。换句话说，该 mask 表明了不应该使用的条目。
+
+这意味着要预测第三个词，将仅使用第一个和第二个词。与此类似，预测第四个词，仅使用第一个，第二个和第三个词，依此类推。
+
+```py
+def create_look_ahead_mask(size):
+  mask = 1 - tf.linalg.band_part(tf.ones((size, size)), -1, 0)
+  return mask  # (seq_len, seq_len) 
+```
+
+```py
+x = tf.random.uniform((1, 3))
+temp = create_look_ahead_mask(x.shape[1])
+temp 
+```
+
+```py
+<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
+array([[0., 1., 1.],
+       [0., 0., 1.],
+       [0., 0., 0.]], dtype=float32)>
+
+```
+
+## 按比缩放的点积注意力（Scaled dot product attention）
+
+![scaled_dot_product_attention](img/0eda1b45396cd1c02a76bd76397b9a76.png)
+
+Transformer 使用的注意力函数有三个输入：Q（请求（query））、K（主键（key））、V（数值（value））。用于计算注意力权重的等式为：
+
+$$\Large{Attention(Q, K, V) = softmax_k(\frac{QK^T}{\sqrt{d_k} }) V} $$
+
+点积注意力被缩小了深度的平方根倍。这样做是因为对于较大的深度值，点积的大小会增大，从而推动 softmax 函数往仅有很小的梯度的方向靠拢，导致了一种很硬的（hard）softmax。
+
+例如，假设 `Q` 和 `K` 的均值为 0，方差为 1。它们的矩阵乘积将有均值为 0，方差为 `dk`。因此，*`dk` 的平方根*被用于缩放（而非其他数值），因为，`Q` 和 `K` 的矩阵乘积的均值本应该为 0，方差本应该为 1，这样会获得一个更平缓的 softmax。
+
+遮挡（mask）与 -1e9（接近于负无穷）相乘。这样做是因为遮挡与缩放的 Q 和 K 的矩阵乘积相加，并在 softmax 之前立即应用。目标是将这些单元归零，因为 softmax 的较大负数输入在输出中接近于零。
+
+```py
+def scaled_dot_product_attention(q, k, v, mask):
+  """计算注意力权重。
+  q, k, v 必须具有匹配的前置维度。
+  k, v 必须有匹配的倒数第二个维度，例如：seq_len_k = seq_len_v。
+  虽然 mask 根据其类型（填充或前瞻）有不同的形状，
+  但是 mask 必须能进行广播转换以便求和。
+
+  参数:
+    q: 请求的形状 == (..., seq_len_q, depth)
+    k: 主键的形状 == (..., seq_len_k, depth)
+    v: 数值的形状 == (..., seq_len_v, depth_v)
+    mask: Float 张量，其形状能转换成
+          (..., seq_len_q, seq_len_k)。默认为 None。
+
+  返回值:
+    输出，注意力权重
+  """
+
+  matmul_qk = tf.matmul(q, k, transpose_b=True)  # (..., seq_len_q, seq_len_k)
+
+  # 缩放 matmul_qk
+  dk = tf.cast(tf.shape(k)[-1], tf.float32)
+  scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)
+
+  # 将 mask 加入到缩放的张量上。
+  if mask is not None:
+    scaled_attention_logits += (mask * -1e9)  
+
+  # softmax 在最后一个轴（seq_len_k）上归一化，因此分数
+  # 相加等于 1。
+  attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)  # (..., seq_len_q, seq_len_k)
+
+  output = tf.matmul(attention_weights, v)  # (..., seq_len_q, depth_v)
+
+  return output, attention_weights 
+```
+
+当 softmax 在 K 上进行归一化后，它的值决定了分配到 Q 的重要程度。
+
+输出表示注意力权重和 V（数值）向量的乘积。这确保了要关注的词保持原样，而无关的词将被清除掉。
+
+```py
+def print_out(q, k, v):
+  temp_out, temp_attn = scaled_dot_product_attention(
+      q, k, v, None)
+  print ('Attention weights are:')
+  print (temp_attn)
+  print ('Output is:')
+  print (temp_out) 
+```
+
+```py
+np.set_printoptions(suppress=True)
+
+temp_k = tf.constant([[10,0,0],
+                      [0,10,0],
+                      [0,0,10],
+                      [0,0,10]], dtype=tf.float32)  # (4, 3)
+
+temp_v = tf.constant([[   1,0],
+                      [  10,0],
+                      [ 100,5],
+                      [1000,6]], dtype=tf.float32)  # (4, 2)
+
+# 这条 `请求（query）符合第二个`主键（key）`，
+# 因此返回了第二个`数值（value）`。
+temp_q = tf.constant([[0, 10, 0]], dtype=tf.float32)  # (1, 3)
+print_out(temp_q, temp_k, temp_v) 
+```
+
+```py
+Attention weights are:
+tf.Tensor([[0\. 1\. 0\. 0.]], shape=(1, 4), dtype=float32)
+Output is:
+tf.Tensor([[10\.  0.]], shape=(1, 2), dtype=float32)
+
+```
+
+```py
+# 这条请求符合重复出现的主键（第三第四个），
+# 因此，对所有的相关数值取了平均。
+temp_q = tf.constant([[0, 0, 10]], dtype=tf.float32)  # (1, 3)
+print_out(temp_q, temp_k, temp_v) 
+```
+
+```py
+Attention weights are:
+tf.Tensor([[0\.  0\.  0.5 0.5]], shape=(1, 4), dtype=float32)
+Output is:
+tf.Tensor([[550\.    5.5]], shape=(1, 2), dtype=float32)
+
+```
+
+```py
+# 这条请求符合第一和第二条主键，
+# 因此，对它们的数值去了平均。
+temp_q = tf.constant([[10, 10, 0]], dtype=tf.float32)  # (1, 3)
+print_out(temp_q, temp_k, temp_v) 
+```
+
+```py
+Attention weights are:
+tf.Tensor([[0.5 0.5 0\.  0\. ]], shape=(1, 4), dtype=float32)
+Output is:
+tf.Tensor([[5.5 0\. ]], shape=(1, 2), dtype=float32)
+
+```
+
+将所有请求一起*传递*。
+
+```py
+temp_q = tf.constant([[0, 0, 10], [0, 10, 0], [10, 10, 0]], dtype=tf.float32)  # (3, 3)
+print_out(temp_q, temp_k, temp_v) 
+```
+
+```py
+Attention weights are:
+tf.Tensor(
+[[0\.  0\.  0.5 0.5]
+ [0\.  1\.  0\.  0\. ]
+ [0.5 0.5 0\.  0\. ]], shape=(3, 4), dtype=float32)
+Output is:
+tf.Tensor(
+[[550\.    5.5]
+ [ 10\.    0\. ]
+ [  5.5   0\. ]], shape=(3, 2), dtype=float32)
+
+```
+
+## 多头注意力（Multi-head attention）
+
+![multi-head attention](img/2f1f2fc54135afd798139d45c013ef1f.png)
+
+多头注意力由四部分组成：
+
+*   线性层并分拆成多头。
+*   按比缩放的点积注意力。
+*   多头及联。
+*   最后一层线性层。
+
+每个多头注意力块有三个输入：Q（请求）、K（主键）、V（数值）。这些输入经过线性（Dense）层，并分拆成多头。
+
+将上面定义的 `scaled_dot_product_attention` 函数应用于每个头（进行了广播（broadcasted）以提高效率）。注意力这步必须使用一个恰当的 mask。然后将每个头的注意力输出连接起来（用[`tf.transpose`](https://tensorflow.google.cn/api_docs/python/tf/transpose) 和 [`tf.reshape`](https://tensorflow.google.cn/api_docs/python/tf/reshape)），并放入最后的 `Dense` 层。
+
+Q、K、和 V 被拆分到了多个头，而非单个的注意力头，因为多头允许模型共同注意来自不同表示空间的不同位置的信息。在分拆后，每个头部的维度减少，因此总的计算成本与有着全部维度的单个注意力头相同。
+
+```py
+class MultiHeadAttention(tf.keras.layers.Layer):
+  def __init__(self, d_model, num_heads):
+    super(MultiHeadAttention, self).__init__()
+    self.num_heads = num_heads
+    self.d_model = d_model
+
+    assert d_model % self.num_heads == 0
+
+    self.depth = d_model // self.num_heads
+
+    self.wq = tf.keras.layers.Dense(d_model)
+    self.wk = tf.keras.layers.Dense(d_model)
+    self.wv = tf.keras.layers.Dense(d_model)
+
+    self.dense = tf.keras.layers.Dense(d_model)
+
+  def split_heads(self, x, batch_size):
+    """分拆最后一个维度到 (num_heads, depth).
+    转置结果使得形状为 (batch_size, num_heads, seq_len, depth)
+    """
+    x = tf.reshape(x, (batch_size, -1, self.num_heads, self.depth))
+    return tf.transpose(x, perm=[0, 2, 1, 3])
+
+  def call(self, v, k, q, mask):
+    batch_size = tf.shape(q)[0]
+
+    q = self.wq(q)  # (batch_size, seq_len, d_model)
+    k = self.wk(k)  # (batch_size, seq_len, d_model)
+    v = self.wv(v)  # (batch_size, seq_len, d_model)
+
+    q = self.split_heads(q, batch_size)  # (batch_size, num_heads, seq_len_q, depth)
+    k = self.split_heads(k, batch_size)  # (batch_size, num_heads, seq_len_k, depth)
+    v = self.split_heads(v, batch_size)  # (batch_size, num_heads, seq_len_v, depth)
+
+    # scaled_attention.shape == (batch_size, num_heads, seq_len_q, depth)
+    # attention_weights.shape == (batch_size, num_heads, seq_len_q, seq_len_k)
+    scaled_attention, attention_weights = scaled_dot_product_attention(
+        q, k, v, mask)
+
+    scaled_attention = tf.transpose(scaled_attention, perm=[0, 2, 1, 3])  # (batch_size, seq_len_q, num_heads, depth)
+
+    concat_attention = tf.reshape(scaled_attention, 
+                                  (batch_size, -1, self.d_model))  # (batch_size, seq_len_q, d_model)
+
+    output = self.dense(concat_attention)  # (batch_size, seq_len_q, d_model)
+
+    return output, attention_weights 
+```
+
+创建一个 `MultiHeadAttention` 层进行尝试。在序列中的每个位置 `y`，`MultiHeadAttention` 在序列中的所有其他位置运行所有 8 个注意力头，在每个位置 y，返回一个新的同样长度的向量。
+
+```py
+temp_mha = MultiHeadAttention(d_model=512, num_heads=8)
+y = tf.random.uniform((1, 60, 512))  # (batch_size, encoder_sequence, d_model)
+out, attn = temp_mha(y, k=y, q=y, mask=None)
+out.shape, attn.shape 
+```
+
+```py
+(TensorShape([1, 60, 512]), TensorShape([1, 8, 60, 60]))
+
+```
+
+## 点式前馈网络（Point wise feed forward network）
+
+点式前馈网络由两层全联接层组成，两层之间有一个 ReLU 激活函数。
+
+```py
+def point_wise_feed_forward_network(d_model, dff):
+  return tf.keras.Sequential([
+      tf.keras.layers.Dense(dff, activation='relu'),  # (batch_size, seq_len, dff)
+      tf.keras.layers.Dense(d_model)  # (batch_size, seq_len, d_model)
+  ]) 
+```
+
+```py
+sample_ffn = point_wise_feed_forward_network(512, 2048)
+sample_ffn(tf.random.uniform((64, 50, 512))).shape 
+```
+
+```py
+TensorShape([64, 50, 512])
+
+```
+
+## 编码与解码（Encoder and decoder）
+
+![transformer](img/9c9dba05c6503363ec77df2a3d25a70b.png)
+
+Transformer 模型与标准的[具有注意力机制的序列到序列模型（sequence to sequence with attention model）](/tutorials/text/nmt_with_attention)，遵循相同的一般模式。
+
+*   输入语句经过 `N` 个编码器层，为序列中的每个词/标记生成一个输出。
+*   解码器关注编码器的输出以及它自身的输入（自注意力）来预测下一个词。
+
+### 编码器层（Encoder layer）
+
+每个编码器层包括以下子层：
+
+1.  多头注意力（有填充遮挡）
+2.  点式前馈网络（Point wise feed forward networks）。
+
+每个子层在其周围有一个残差连接，然后进行层归一化。残差连接有助于避免深度网络中的梯度消失问题。
+
+每个子层的输出是 `LayerNorm(x + Sublayer(x))`。归一化是在 `d_model`（最后一个）维度完成的。Transformer 中有 N 个编码器层。
+
+```py
+class EncoderLayer(tf.keras.layers.Layer):
+  def __init__(self, d_model, num_heads, dff, rate=0.1):
+    super(EncoderLayer, self).__init__()
+
+    self.mha = MultiHeadAttention(d_model, num_heads)
+    self.ffn = point_wise_feed_forward_network(d_model, dff)
+
+    self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
+    self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
+
+    self.dropout1 = tf.keras.layers.Dropout(rate)
+    self.dropout2 = tf.keras.layers.Dropout(rate)
+
+  def call(self, x, training, mask):
+
+    attn_output, _ = self.mha(x, x, x, mask)  # (batch_size, input_seq_len, d_model)
+    attn_output = self.dropout1(attn_output, training=training)
+    out1 = self.layernorm1(x + attn_output)  # (batch_size, input_seq_len, d_model)
+
+    ffn_output = self.ffn(out1)  # (batch_size, input_seq_len, d_model)
+    ffn_output = self.dropout2(ffn_output, training=training)
+    out2 = self.layernorm2(out1 + ffn_output)  # (batch_size, input_seq_len, d_model)
+
+    return out2 
+```
+
+```py
+sample_encoder_layer = EncoderLayer(512, 8, 2048)
+
+sample_encoder_layer_output = sample_encoder_layer(
+    tf.random.uniform((64, 43, 512)), False, None)
+
+sample_encoder_layer_output.shape  # (batch_size, input_seq_len, d_model) 
+```
+
+```py
+TensorShape([64, 43, 512])
+
+```
+
+### 解码器层（Decoder layer）
+
+每个解码器层包括以下子层：
+
+1.  遮挡的多头注意力（前瞻遮挡和填充遮挡）
+2.  多头注意力（用填充遮挡）。V（数值）和 K（主键）接收*编码器输出*作为输入。Q（请求）接收*遮挡的多头注意力子层的输出*。
+3.  点式前馈网络
+
+每个子层在其周围有一个残差连接，然后进行层归一化。每个子层的输出是 `LayerNorm(x + Sublayer(x))`。归一化是在 `d_model`（最后一个）维度完成的。
+
+Transformer 中共有 N 个解码器层。
+
+当 Q 接收到解码器的第一个注意力块的输出，并且 K 接收到编码器的输出时，注意力权重表示根据编码器的输出赋予解码器输入的重要性。换一种说法，解码器通过查看编码器输出和对其自身输出的自注意力，预测下一个词。参看按比缩放的点积注意力部分的演示。
+
+```py
+class DecoderLayer(tf.keras.layers.Layer):
+  def __init__(self, d_model, num_heads, dff, rate=0.1):
+    super(DecoderLayer, self).__init__()
+
+    self.mha1 = MultiHeadAttention(d_model, num_heads)
+    self.mha2 = MultiHeadAttention(d_model, num_heads)
+
+    self.ffn = point_wise_feed_forward_network(d_model, dff)
+
+    self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
+    self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
+    self.layernorm3 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
+
+    self.dropout1 = tf.keras.layers.Dropout(rate)
+    self.dropout2 = tf.keras.layers.Dropout(rate)
+    self.dropout3 = tf.keras.layers.Dropout(rate)
+
+  def call(self, x, enc_output, training, 
+           look_ahead_mask, padding_mask):
+    # enc_output.shape == (batch_size, input_seq_len, d_model)
+
+    attn1, attn_weights_block1 = self.mha1(x, x, x, look_ahead_mask)  # (batch_size, target_seq_len, d_model)
+    attn1 = self.dropout1(attn1, training=training)
+    out1 = self.layernorm1(attn1 + x)
+
+    attn2, attn_weights_block2 = self.mha2(
+        enc_output, enc_output, out1, padding_mask)  # (batch_size, target_seq_len, d_model)
+    attn2 = self.dropout2(attn2, training=training)
+    out2 = self.layernorm2(attn2 + out1)  # (batch_size, target_seq_len, d_model)
+
+    ffn_output = self.ffn(out2)  # (batch_size, target_seq_len, d_model)
+    ffn_output = self.dropout3(ffn_output, training=training)
+    out3 = self.layernorm3(ffn_output + out2)  # (batch_size, target_seq_len, d_model)
+
+    return out3, attn_weights_block1, attn_weights_block2 
+```
+
+```py
+sample_decoder_layer = DecoderLayer(512, 8, 2048)
+
+sample_decoder_layer_output, _, _ = sample_decoder_layer(
+    tf.random.uniform((64, 50, 512)), sample_encoder_layer_output, 
+    False, None, None)
+
+sample_decoder_layer_output.shape  # (batch_size, target_seq_len, d_model) 
+```
+
+```py
+TensorShape([64, 50, 512])
+
+```
+
+### 编码器（Encoder）
+
+`编码器` 包括：
+
+1.  输入嵌入（Input Embedding）
+2.  位置编码（Positional Encoding）
+3.  N 个编码器层（encoder layers）
+
+输入经过嵌入（embedding）后，该嵌入与位置编码相加。该加法结果的输出是编码器层的输入。编码器的输出是解码器的输入。
+
+```py
+class Encoder(tf.keras.layers.Layer):
+  def __init__(self, num_layers, d_model, num_heads, dff, input_vocab_size,
+               maximum_position_encoding, rate=0.1):
+    super(Encoder, self).__init__()
+
+    self.d_model = d_model
+    self.num_layers = num_layers
+
+    self.embedding = tf.keras.layers.Embedding(input_vocab_size, d_model)
+    self.pos_encoding = positional_encoding(maximum_position_encoding, 
+                                            self.d_model)
+
+    self.enc_layers = [EncoderLayer(d_model, num_heads, dff, rate) 
+                       for _ in range(num_layers)]
+
+    self.dropout = tf.keras.layers.Dropout(rate)
+
+  def call(self, x, training, mask):
+
+    seq_len = tf.shape(x)[1]
+
+    # 将嵌入和位置编码相加。
+    x = self.embedding(x)  # (batch_size, input_seq_len, d_model)
+    x *= tf.math.sqrt(tf.cast(self.d_model, tf.float32))
+    x += self.pos_encoding[:, :seq_len, :]
+
+    x = self.dropout(x, training=training)
+
+    for i in range(self.num_layers):
+      x = self.enc_layers[i](x, training, mask)
+
+    return x  # (batch_size, input_seq_len, d_model) 
+```
+
+```py
+sample_encoder = Encoder(num_layers=2, d_model=512, num_heads=8, 
+                         dff=2048, input_vocab_size=8500,
+                         maximum_position_encoding=10000)
+
+sample_encoder_output = sample_encoder(tf.random.uniform((64, 62)), 
+                                       training=False, mask=None)
+
+print (sample_encoder_output.shape)  # (batch_size, input_seq_len, d_model) 
+```
+
+```py
+(64, 62, 512)
+
+```
+
+### 解码器（Decoder）
+
+`解码器`包括：
+
+1.  输出嵌入（Output Embedding）
+2.  位置编码（Positional Encoding）
+3.  N 个解码器层（decoder layers）
+
+目标（target）经过一个嵌入后，该嵌入和位置编码相加。该加法结果是解码器层的输入。解码器的输出是最后的线性层的输入。
+
+```py
+class Decoder(tf.keras.layers.Layer):
+  def __init__(self, num_layers, d_model, num_heads, dff, target_vocab_size,
+               maximum_position_encoding, rate=0.1):
+    super(Decoder, self).__init__()
+
+    self.d_model = d_model
+    self.num_layers = num_layers
+
+    self.embedding = tf.keras.layers.Embedding(target_vocab_size, d_model)
+    self.pos_encoding = positional_encoding(maximum_position_encoding, d_model)
+
+    self.dec_layers = [DecoderLayer(d_model, num_heads, dff, rate) 
+                       for _ in range(num_layers)]
+    self.dropout = tf.keras.layers.Dropout(rate)
+
+  def call(self, x, enc_output, training, 
+           look_ahead_mask, padding_mask):
+
+    seq_len = tf.shape(x)[1]
+    attention_weights = {}
+
+    x = self.embedding(x)  # (batch_size, target_seq_len, d_model)
+    x *= tf.math.sqrt(tf.cast(self.d_model, tf.float32))
+    x += self.pos_encoding[:, :seq_len, :]
+
+    x = self.dropout(x, training=training)
+
+    for i in range(self.num_layers):
+      x, block1, block2 = self.dec_layers[i](x, enc_output, training,
+                                             look_ahead_mask, padding_mask)
+
+      attention_weights['decoder_layer{}_block1'.format(i+1)] = block1
+      attention_weights['decoder_layer{}_block2'.format(i+1)] = block2
+
+    # x.shape == (batch_size, target_seq_len, d_model)
+    return x, attention_weights 
+```
+
+```py
+sample_decoder = Decoder(num_layers=2, d_model=512, num_heads=8, 
+                         dff=2048, target_vocab_size=8000,
+                         maximum_position_encoding=5000)
+
+output, attn = sample_decoder(tf.random.uniform((64, 26)), 
+                              enc_output=sample_encoder_output, 
+                              training=False, look_ahead_mask=None, 
+                              padding_mask=None)
+
+output.shape, attn['decoder_layer2_block2'].shape 
+```
+
+```py
+(TensorShape([64, 26, 512]), TensorShape([64, 8, 26, 62]))
+
+```
+
+## 创建 Transformer
+
+Transformer 包括编码器，解码器和最后的线性层。解码器的输出是线性层的输入，返回线性层的输出。
+
+```py
+class Transformer(tf.keras.Model):
+  def __init__(self, num_layers, d_model, num_heads, dff, input_vocab_size, 
+               target_vocab_size, pe_input, pe_target, rate=0.1):
+    super(Transformer, self).__init__()
+
+    self.encoder = Encoder(num_layers, d_model, num_heads, dff, 
+                           input_vocab_size, pe_input, rate)
+
+    self.decoder = Decoder(num_layers, d_model, num_heads, dff, 
+                           target_vocab_size, pe_target, rate)
+
+    self.final_layer = tf.keras.layers.Dense(target_vocab_size)
+
+  def call(self, inp, tar, training, enc_padding_mask, 
+           look_ahead_mask, dec_padding_mask):
+
+    enc_output = self.encoder(inp, training, enc_padding_mask)  # (batch_size, inp_seq_len, d_model)
+
+    # dec_output.shape == (batch_size, tar_seq_len, d_model)
+    dec_output, attention_weights = self.decoder(
+        tar, enc_output, training, look_ahead_mask, dec_padding_mask)
+
+    final_output = self.final_layer(dec_output)  # (batch_size, tar_seq_len, target_vocab_size)
+
+    return final_output, attention_weights 
+```
+
+```py
+sample_transformer = Transformer(
+    num_layers=2, d_model=512, num_heads=8, dff=2048, 
+    input_vocab_size=8500, target_vocab_size=8000, 
+    pe_input=10000, pe_target=6000)
+
+temp_input = tf.random.uniform((64, 62))
+temp_target = tf.random.uniform((64, 26))
+
+fn_out, _ = sample_transformer(temp_input, temp_target, training=False, 
+                               enc_padding_mask=None, 
+                               look_ahead_mask=None,
+                               dec_padding_mask=None)
+
+fn_out.shape  # (batch_size, tar_seq_len, target_vocab_size) 
+```
+
+```py
+TensorShape([64, 26, 8000])
+
+```
+
+## 配置超参数（hyperparameters）
+
+为了让本示例小且相对较快，已经减小了*num_layers、 d_model 和 dff* 的值。
+
+Transformer 的基础模型使用的数值为：*num_layers=6*，*d_model = 512*，*dff = 2048*。关于所有其他版本的 Transformer，请查阅[论文](https://arxiv.org/abs/1706.03762)。
+
+Note：通过改变以下数值，您可以获得在许多任务上达到最先进水平的模型。
+
+```py
+num_layers = 4
+d_model = 128
+dff = 512
+num_heads = 8
+
+input_vocab_size = tokenizer_pt.vocab_size + 2
+target_vocab_size = tokenizer_en.vocab_size + 2
+dropout_rate = 0.1 
+```
+
+## 优化器（Optimizer）
+
+根据[论文](https://arxiv.org/abs/1706.03762)中的公式，将 Adam 优化器与自定义的学习速率调度程序（scheduler）配合使用。
+
+$$\Large{lrate = d_{model}^{-0.5} * min(step{\_}num^{-0.5}, step{\_}num * warmup{\_}steps^{-1.5})}$$
+
+```py
+class CustomSchedule(tf.keras.optimizers.schedules.LearningRateSchedule):
+  def __init__(self, d_model, warmup_steps=4000):
+    super(CustomSchedule, self).__init__()
+
+    self.d_model = d_model
+    self.d_model = tf.cast(self.d_model, tf.float32)
+
+    self.warmup_steps = warmup_steps
+
+  def __call__(self, step):
+    arg1 = tf.math.rsqrt(step)
+    arg2 = step * (self.warmup_steps ** -1.5)
+
+    return tf.math.rsqrt(self.d_model) * tf.math.minimum(arg1, arg2) 
+```
+
+```py
+learning_rate = CustomSchedule(d_model)
+
+optimizer = tf.keras.optimizers.Adam(learning_rate, beta_1=0.9, beta_2=0.98, 
+                                     epsilon=1e-9) 
+```
+
+```py
+temp_learning_rate_schedule = CustomSchedule(d_model)
+
+plt.plot(temp_learning_rate_schedule(tf.range(40000, dtype=tf.float32)))
+plt.ylabel("Learning Rate")
+plt.xlabel("Train Step") 
+```
+
+```py
+Text(0.5, 0, 'Train Step')
+
+```
+
+![png](img/852e0228b5aebca16dfadf758d11e902.png)
+
+## 损失函数与指标（Loss and metrics）
+
+由于目标序列是填充（padded）过的，因此在计算损失函数时，应用填充遮挡非常重要。
+
+```py
+loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
+    from_logits=True, reduction='none') 
+```
+
+```py
+def loss_function(real, pred):
+  mask = tf.math.logical_not(tf.math.equal(real, 0))
+  loss_ = loss_object(real, pred)
+
+  mask = tf.cast(mask, dtype=loss_.dtype)
+  loss_ *= mask
+
+  return tf.reduce_mean(loss_) 
+```
+
+```py
+train_loss = tf.keras.metrics.Mean(name='train_loss')
+train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
+    name='train_accuracy') 
+```
+
+## 训练与检查点（Training and checkpointing）
+
+```py
+transformer = Transformer(num_layers, d_model, num_heads, dff,
+                          input_vocab_size, target_vocab_size, 
+                          pe_input=input_vocab_size, 
+                          pe_target=target_vocab_size,
+                          rate=dropout_rate) 
+```
+
+```py
+def create_masks(inp, tar):
+  # 编码器填充遮挡
+  enc_padding_mask = create_padding_mask(inp)
+
+  # 在解码器的第二个注意力模块使用。
+  # 该填充遮挡用于遮挡编码器的输出。
+  dec_padding_mask = create_padding_mask(inp)
+
+  # 在解码器的第一个注意力模块使用。
+  # 用于填充（pad）和遮挡（mask）解码器获取到的输入的后续标记（future tokens）。
+  look_ahead_mask = create_look_ahead_mask(tf.shape(tar)[1])
+  dec_target_padding_mask = create_padding_mask(tar)
+  combined_mask = tf.maximum(dec_target_padding_mask, look_ahead_mask)
+
+  return enc_padding_mask, combined_mask, dec_padding_mask 
+```
+
+创建检查点的路径和检查点管理器（manager）。这将用于在每 `n` 个周期（epochs）保存检查点。
+
+```py
+checkpoint_path = "./checkpoints/train"
+
+ckpt = tf.train.Checkpoint(transformer=transformer,
+                           optimizer=optimizer)
+
+ckpt_manager = tf.train.CheckpointManager(ckpt, checkpoint_path, max_to_keep=5)
+
+# 如果检查点存在，则恢复最新的检查点。
+if ckpt_manager.latest_checkpoint:
+  ckpt.restore(ckpt_manager.latest_checkpoint)
+  print ('Latest checkpoint restored!!') 
+```
+
+目标（target）被分成了 tar_inp 和 tar_real。tar_inp 作为输入传递到解码器。`tar_real` 是位移了 1 的同一个输入：在 `tar_inp` 中的每个位置，`tar_real` 包含了应该被预测到的下一个标记（token）。
+
+例如，`sentence` = "SOS A lion in the jungle is sleeping EOS"
+
+`tar_inp` = "SOS A lion in the jungle is sleeping"
+
+`tar_real` = "A lion in the jungle is sleeping EOS"
+
+Transformer 是一个自回归（auto-regressive）模型：它一次作一个部分的预测，然后使用到目前为止的自身的输出来决定下一步要做什么。
+
+在训练过程中，本示例使用了 teacher-forcing 的方法（就像[文本生成教程](https://tensorflow.google.cn/tutorials/text/text_generation)中一样）。无论模型在当前时间步骤下预测出什么，teacher-forcing 方法都会将真实的输出传递到下一个时间步骤上。
+
+当 transformer 预测每个词时，*自注意力（self-attention）*功能使它能够查看输入序列中前面的单词，从而更好地预测下一个单词。
+
+为了防止模型在期望的输出上达到峰值，模型使用了前瞻遮挡（look-ahead mask）。
+
+```py
+EPOCHS = 20 
+```
+
+```py
+# 该 @tf.function 将追踪-编译 train_step 到 TF 图中，以便更快地
+# 执行。该函数专用于参数张量的精确形状。为了避免由于可变序列长度或可变
+# 批次大小（最后一批次较小）导致的再追踪，使用 input_signature 指定
+# 更多的通用形状。
+
+train_step_signature = [
+    tf.TensorSpec(shape=(None, None), dtype=tf.int64),
+    tf.TensorSpec(shape=(None, None), dtype=tf.int64),
+]
+
+@tf.function(input_signature=train_step_signature)
+def train_step(inp, tar):
+  tar_inp = tar[:, :-1]
+  tar_real = tar[:, 1:]
+
+  enc_padding_mask, combined_mask, dec_padding_mask = create_masks(inp, tar_inp)
+
+  with tf.GradientTape() as tape:
+    predictions, _ = transformer(inp, tar_inp, 
+                                 True, 
+                                 enc_padding_mask, 
+                                 combined_mask, 
+                                 dec_padding_mask)
+    loss = loss_function(tar_real, predictions)
+
+  gradients = tape.gradient(loss, transformer.trainable_variables)    
+  optimizer.apply_gradients(zip(gradients, transformer.trainable_variables))
+
+  train_loss(loss)
+  train_accuracy(tar_real, predictions) 
+```
+
+葡萄牙语作为输入语言，英语为目标语言。
+
+```py
+for epoch in range(EPOCHS):
+  start = time.time()
+
+  train_loss.reset_states()
+  train_accuracy.reset_states()
+
+  # inp -> portuguese, tar -> english
+  for (batch, (inp, tar)) in enumerate(train_dataset):
+    train_step(inp, tar)
+
+    if batch % 50 == 0:
+      print ('Epoch {} Batch {} Loss {:.4f} Accuracy {:.4f}'.format(
+          epoch + 1, batch, train_loss.result(), train_accuracy.result()))
+
+  if (epoch + 1) % 5 == 0:
+    ckpt_save_path = ckpt_manager.save()
+    print ('Saving checkpoint for epoch {} at {}'.format(epoch+1,
+                                                         ckpt_save_path))
+
+  print ('Epoch {} Loss {:.4f} Accuracy {:.4f}'.format(epoch + 1, 
+                                                train_loss.result(), 
+                                                train_accuracy.result()))
+
+  print ('Time taken for 1 epoch: {} secs\n'.format(time.time() - start)) 
+```
+
+```py
+Epoch 1 Batch 0 Loss 4.3163 Accuracy 0.0004
+Epoch 1 Batch 50 Loss 4.2825 Accuracy 0.0018
+Epoch 1 Batch 100 Loss 4.2022 Accuracy 0.0134
+Epoch 1 Batch 150 Loss 4.1526 Accuracy 0.0180
+Epoch 1 Batch 200 Loss 4.0717 Accuracy 0.0204
+Epoch 1 Batch 250 Loss 3.9939 Accuracy 0.0224
+Epoch 1 Batch 300 Loss 3.9193 Accuracy 0.0242
+Epoch 1 Batch 350 Loss 3.8341 Accuracy 0.0264
+Epoch 1 Batch 400 Loss 3.7555 Accuracy 0.0301
+Epoch 1 Batch 450 Loss 3.6772 Accuracy 0.0335
+Epoch 1 Batch 500 Loss 3.6066 Accuracy 0.0367
+Epoch 1 Batch 550 Loss 3.5419 Accuracy 0.0403
+Epoch 1 Batch 600 Loss 3.4774 Accuracy 0.0440
+Epoch 1 Batch 650 Loss 3.4262 Accuracy 0.0476
+Epoch 1 Batch 700 Loss 3.3708 Accuracy 0.0510
+Epoch 1 Loss 3.3693 Accuracy 0.0512
+Time taken for 1 epoch: 60.16580581665039 secs
+
+Epoch 2 Batch 0 Loss 2.5117 Accuracy 0.1003
+Epoch 2 Batch 50 Loss 2.5981 Accuracy 0.1028
+Epoch 2 Batch 100 Loss 2.5820 Accuracy 0.1058
+Epoch 2 Batch 150 Loss 2.5412 Accuracy 0.1078
+Epoch 2 Batch 200 Loss 2.5172 Accuracy 0.1099
+Epoch 2 Batch 250 Loss 2.4793 Accuracy 0.1118
+Epoch 2 Batch 300 Loss 2.4630 Accuracy 0.1138
+Epoch 2 Batch 350 Loss 2.4430 Accuracy 0.1156
+Epoch 2 Batch 400 Loss 2.4333 Accuracy 0.1174
+Epoch 2 Batch 450 Loss 2.4241 Accuracy 0.1191
+Epoch 2 Batch 500 Loss 2.4140 Accuracy 0.1207
+Epoch 2 Batch 550 Loss 2.4004 Accuracy 0.1220
+Epoch 2 Batch 600 Loss 2.3853 Accuracy 0.1232
+Epoch 2 Batch 650 Loss 2.3757 Accuracy 0.1244
+Epoch 2 Batch 700 Loss 2.3634 Accuracy 0.1255
+Epoch 2 Loss 2.3630 Accuracy 0.1255
+Time taken for 1 epoch: 31.393303871154785 secs
+
+Epoch 3 Batch 0 Loss 2.0532 Accuracy 0.1424
+Epoch 3 Batch 50 Loss 2.1493 Accuracy 0.1433
+Epoch 3 Batch 100 Loss 2.1437 Accuracy 0.1437
+Epoch 3 Batch 150 Loss 2.1445 Accuracy 0.1448
+Epoch 3 Batch 200 Loss 2.1471 Accuracy 0.1451
+Epoch 3 Batch 250 Loss 2.1426 Accuracy 0.1458
+Epoch 3 Batch 300 Loss 2.1416 Accuracy 0.1466
+Epoch 3 Batch 350 Loss 2.1400 Accuracy 0.1476
+Epoch 3 Batch 400 Loss 2.1315 Accuracy 0.1480
+Epoch 3 Batch 450 Loss 2.1271 Accuracy 0.1483
+Epoch 3 Batch 500 Loss 2.1217 Accuracy 0.1488
+Epoch 3 Batch 550 Loss 2.1167 Accuracy 0.1492
+Epoch 3 Batch 600 Loss 2.1111 Accuracy 0.1497
+Epoch 3 Batch 650 Loss 2.1069 Accuracy 0.1502
+Epoch 3 Batch 700 Loss 2.1020 Accuracy 0.1509
+Epoch 3 Loss 2.1011 Accuracy 0.1509
+Time taken for 1 epoch: 31.126026153564453 secs
+
+Epoch 4 Batch 0 Loss 1.8764 Accuracy 0.1534
+Epoch 4 Batch 50 Loss 1.9276 Accuracy 0.1609
+Epoch 4 Batch 100 Loss 1.9371 Accuracy 0.1636
+Epoch 4 Batch 150 Loss 1.9392 Accuracy 0.1644
+Epoch 4 Batch 200 Loss 1.9391 Accuracy 0.1654
+Epoch 4 Batch 250 Loss 1.9351 Accuracy 0.1660
+Epoch 4 Batch 300 Loss 1.9323 Accuracy 0.1669
+Epoch 4 Batch 350 Loss 1.9289 Accuracy 0.1675
+Epoch 4 Batch 400 Loss 1.9238 Accuracy 0.1684
+Epoch 4 Batch 450 Loss 1.9193 Accuracy 0.1692
+Epoch 4 Batch 500 Loss 1.9146 Accuracy 0.1704
+Epoch 4 Batch 550 Loss 1.9124 Accuracy 0.1714
+Epoch 4 Batch 600 Loss 1.9038 Accuracy 0.1726
+Epoch 4 Batch 650 Loss 1.8971 Accuracy 0.1735
+Epoch 4 Batch 700 Loss 1.8924 Accuracy 0.1747
+Epoch 4 Loss 1.8911 Accuracy 0.1746
+Time taken for 1 epoch: 31.81874442100525 secs
+
+Epoch 5 Batch 0 Loss 1.7212 Accuracy 0.1915
+Epoch 5 Batch 50 Loss 1.7288 Accuracy 0.1948
+Epoch 5 Batch 100 Loss 1.7079 Accuracy 0.1925
+Epoch 5 Batch 150 Loss 1.7059 Accuracy 0.1940
+Epoch 5 Batch 200 Loss 1.7098 Accuracy 0.1947
+Epoch 5 Batch 250 Loss 1.7009 Accuracy 0.1953
+Epoch 5 Batch 300 Loss 1.7049 Accuracy 0.1967
+Epoch 5 Batch 350 Loss 1.7009 Accuracy 0.1975
+Epoch 5 Batch 400 Loss 1.6954 Accuracy 0.1979
+Epoch 5 Batch 450 Loss 1.6900 Accuracy 0.1985
+Epoch 5 Batch 500 Loss 1.6858 Accuracy 0.1993
+Epoch 5 Batch 550 Loss 1.6856 Accuracy 0.2002
+Epoch 5 Batch 600 Loss 1.6810 Accuracy 0.2009
+Epoch 5 Batch 650 Loss 1.6746 Accuracy 0.2016
+Epoch 5 Batch 700 Loss 1.6698 Accuracy 0.2022
+Saving checkpoint for epoch 5 at ./checkpoints/train/ckpt-1
+Epoch 5 Loss 1.6697 Accuracy 0.2022
+Time taken for 1 epoch: 31.367265462875366 secs
+
+Epoch 6 Batch 0 Loss 1.4858 Accuracy 0.2155
+Epoch 6 Batch 50 Loss 1.4763 Accuracy 0.2153
+Epoch 6 Batch 100 Loss 1.4967 Accuracy 0.2173
+Epoch 6 Batch 150 Loss 1.4930 Accuracy 0.2183
+Epoch 6 Batch 200 Loss 1.4938 Accuracy 0.2190
+Epoch 6 Batch 250 Loss 1.5026 Accuracy 0.2205
+Epoch 6 Batch 300 Loss 1.5025 Accuracy 0.2208
+Epoch 6 Batch 350 Loss 1.4974 Accuracy 0.2208
+Epoch 6 Batch 400 Loss 1.4984 Accuracy 0.2214
+Epoch 6 Batch 450 Loss 1.4972 Accuracy 0.2220
+Epoch 6 Batch 500 Loss 1.4940 Accuracy 0.2222
+Epoch 6 Batch 550 Loss 1.4911 Accuracy 0.2223
+Epoch 6 Batch 600 Loss 1.4896 Accuracy 0.2227
+Epoch 6 Batch 650 Loss 1.4849 Accuracy 0.2231
+Epoch 6 Batch 700 Loss 1.4819 Accuracy 0.2237
+Epoch 6 Loss 1.4821 Accuracy 0.2237
+Time taken for 1 epoch: 31.269275426864624 secs
+
+Epoch 7 Batch 0 Loss 1.5062 Accuracy 0.2517
+Epoch 7 Batch 50 Loss 1.3157 Accuracy 0.2398
+Epoch 7 Batch 100 Loss 1.3275 Accuracy 0.2426
+Epoch 7 Batch 150 Loss 1.3256 Accuracy 0.2413
+Epoch 7 Batch 200 Loss 1.3212 Accuracy 0.2413
+Epoch 7 Batch 250 Loss 1.3213 Accuracy 0.2424
+Epoch 7 Batch 300 Loss 1.3195 Accuracy 0.2424
+Epoch 7 Batch 350 Loss 1.3158 Accuracy 0.2425
+Epoch 7 Batch 400 Loss 1.3112 Accuracy 0.2430
+Epoch 7 Batch 450 Loss 1.3050 Accuracy 0.2432
+Epoch 7 Batch 500 Loss 1.3025 Accuracy 0.2436
+Epoch 7 Batch 550 Loss 1.3013 Accuracy 0.2441
+Epoch 7 Batch 600 Loss 1.2981 Accuracy 0.2447
+Epoch 7 Batch 650 Loss 1.2952 Accuracy 0.2447
+Epoch 7 Batch 700 Loss 1.2947 Accuracy 0.2452
+Epoch 7 Loss 1.2947 Accuracy 0.2453
+Time taken for 1 epoch: 31.002289056777954 secs
+
+Epoch 8 Batch 0 Loss 1.0162 Accuracy 0.2484
+Epoch 8 Batch 50 Loss 1.1310 Accuracy 0.2597
+Epoch 8 Batch 100 Loss 1.1398 Accuracy 0.2611
+Epoch 8 Batch 150 Loss 1.1428 Accuracy 0.2607
+Epoch 8 Batch 200 Loss 1.1476 Accuracy 0.2613
+Epoch 8 Batch 250 Loss 1.1415 Accuracy 0.2614
+Epoch 8 Batch 300 Loss 1.1396 Accuracy 0.2620
+Epoch 8 Batch 350 Loss 1.1410 Accuracy 0.2625
+Epoch 8 Batch 400 Loss 1.1397 Accuracy 0.2627
+Epoch 8 Batch 450 Loss 1.1400 Accuracy 0.2629
+Epoch 8 Batch 500 Loss 1.1387 Accuracy 0.2629
+Epoch 8 Batch 550 Loss 1.1365 Accuracy 0.2632
+Epoch 8 Batch 600 Loss 1.1360 Accuracy 0.2632
+Epoch 8 Batch 650 Loss 1.1364 Accuracy 0.2636
+Epoch 8 Batch 700 Loss 1.1345 Accuracy 0.2638
+Epoch 8 Loss 1.1345 Accuracy 0.2638
+Time taken for 1 epoch: 31.10622811317444 secs
+
+Epoch 9 Batch 0 Loss 1.0940 Accuracy 0.3234
+Epoch 9 Batch 50 Loss 1.0242 Accuracy 0.2814
+Epoch 9 Batch 100 Loss 1.0237 Accuracy 0.2809
+Epoch 9 Batch 150 Loss 1.0214 Accuracy 0.2797
+Epoch 9 Batch 200 Loss 1.0180 Accuracy 0.2790
+Epoch 9 Batch 250 Loss 1.0185 Accuracy 0.2787
+Epoch 9 Batch 300 Loss 1.0184 Accuracy 0.2786
+Epoch 9 Batch 350 Loss 1.0166 Accuracy 0.2780
+Epoch 9 Batch 400 Loss 1.0162 Accuracy 0.2780
+Epoch 9 Batch 450 Loss 1.0146 Accuracy 0.2775
+Epoch 9 Batch 500 Loss 1.0163 Accuracy 0.2775
+Epoch 9 Batch 550 Loss 1.0183 Accuracy 0.2778
+Epoch 9 Batch 600 Loss 1.0188 Accuracy 0.2780
+Epoch 9 Batch 650 Loss 1.0199 Accuracy 0.2781
+Epoch 9 Batch 700 Loss 1.0234 Accuracy 0.2785
+Epoch 9 Loss 1.0232 Accuracy 0.2785
+Time taken for 1 epoch: 30.981273889541626 secs
+
+Epoch 10 Batch 0 Loss 0.8119 Accuracy 0.2732
+Epoch 10 Batch 50 Loss 0.9071 Accuracy 0.2880
+Epoch 10 Batch 100 Loss 0.9160 Accuracy 0.2894
+Epoch 10 Batch 150 Loss 0.9165 Accuracy 0.2896
+Epoch 10 Batch 200 Loss 0.9201 Accuracy 0.2897
+Epoch 10 Batch 250 Loss 0.9230 Accuracy 0.2895
+Epoch 10 Batch 300 Loss 0.9252 Accuracy 0.2900
+Epoch 10 Batch 350 Loss 0.9270 Accuracy 0.2900
+Epoch 10 Batch 400 Loss 0.9254 Accuracy 0.2899
+Epoch 10 Batch 450 Loss 0.9267 Accuracy 0.2895
+Epoch 10 Batch 500 Loss 0.9302 Accuracy 0.2890
+Epoch 10 Batch 550 Loss 0.9307 Accuracy 0.2889
+Epoch 10 Batch 600 Loss 0.9322 Accuracy 0.2890
+Epoch 10 Batch 650 Loss 0.9352 Accuracy 0.2892
+Epoch 10 Batch 700 Loss 0.9375 Accuracy 0.2890
+Saving checkpoint for epoch 10 at ./checkpoints/train/ckpt-2
+Epoch 10 Loss 0.9379 Accuracy 0.2891
+Time taken for 1 epoch: 31.26957678794861 secs
+
+Epoch 11 Batch 0 Loss 0.8713 Accuracy 0.2925
+Epoch 11 Batch 50 Loss 0.8490 Accuracy 0.3006
+Epoch 11 Batch 100 Loss 0.8531 Accuracy 0.3021
+Epoch 11 Batch 150 Loss 0.8443 Accuracy 0.3002
+Epoch 11 Batch 200 Loss 0.8487 Accuracy 0.3003
+Epoch 11 Batch 250 Loss 0.8535 Accuracy 0.2998
+Epoch 11 Batch 300 Loss 0.8542 Accuracy 0.2999
+Epoch 11 Batch 350 Loss 0.8569 Accuracy 0.2995
+Epoch 11 Batch 400 Loss 0.8586 Accuracy 0.2991
+Epoch 11 Batch 450 Loss 0.8596 Accuracy 0.2987
+Epoch 11 Batch 500 Loss 0.8608 Accuracy 0.2984
+Epoch 11 Batch 550 Loss 0.8628 Accuracy 0.2982
+Epoch 11 Batch 600 Loss 0.8642 Accuracy 0.2980
+Epoch 11 Batch 650 Loss 0.8671 Accuracy 0.2981
+Epoch 11 Batch 700 Loss 0.8693 Accuracy 0.2982
+Epoch 11 Loss 0.8693 Accuracy 0.2982
+Time taken for 1 epoch: 32.054973125457764 secs
+
+Epoch 12 Batch 0 Loss 0.7781 Accuracy 0.3277
+Epoch 12 Batch 50 Loss 0.7705 Accuracy 0.3061
+Epoch 12 Batch 100 Loss 0.7835 Accuracy 0.3090
+Epoch 12 Batch 150 Loss 0.7882 Accuracy 0.3070
+Epoch 12 Batch 200 Loss 0.7926 Accuracy 0.3069
+Epoch 12 Batch 250 Loss 0.7952 Accuracy 0.3075
+Epoch 12 Batch 300 Loss 0.7989 Accuracy 0.3073
+Epoch 12 Batch 350 Loss 0.8016 Accuracy 0.3069
+Epoch 12 Batch 400 Loss 0.8045 Accuracy 0.3073
+Epoch 12 Batch 450 Loss 0.8063 Accuracy 0.3070
+Epoch 12 Batch 500 Loss 0.8068 Accuracy 0.3066
+Epoch 12 Batch 550 Loss 0.8099 Accuracy 0.3064
+Epoch 12 Batch 600 Loss 0.8112 Accuracy 0.3060
+Epoch 12 Batch 650 Loss 0.8122 Accuracy 0.3058
+Epoch 12 Batch 700 Loss 0.8144 Accuracy 0.3057
+Epoch 12 Loss 0.8140 Accuracy 0.3056
+Time taken for 1 epoch: 30.988539934158325 secs
+
+Epoch 13 Batch 0 Loss 0.6429 Accuracy 0.3097
+Epoch 13 Batch 50 Loss 0.7236 Accuracy 0.3075
+Epoch 13 Batch 100 Loss 0.7323 Accuracy 0.3110
+Epoch 13 Batch 150 Loss 0.7314 Accuracy 0.3106
+Epoch 13 Batch 200 Loss 0.7346 Accuracy 0.3115
+Epoch 13 Batch 250 Loss 0.7388 Accuracy 0.3119
+Epoch 13 Batch 300 Loss 0.7461 Accuracy 0.3129
+Epoch 13 Batch 350 Loss 0.7477 Accuracy 0.3129
+Epoch 13 Batch 400 Loss 0.7488 Accuracy 0.3127
+Epoch 13 Batch 450 Loss 0.7526 Accuracy 0.3126
+Epoch 13 Batch 500 Loss 0.7566 Accuracy 0.3129
+Epoch 13 Batch 550 Loss 0.7606 Accuracy 0.3127
+Epoch 13 Batch 600 Loss 0.7626 Accuracy 0.3124
+Epoch 13 Batch 650 Loss 0.7644 Accuracy 0.3121
+Epoch 13 Batch 700 Loss 0.7657 Accuracy 0.3122
+Epoch 13 Loss 0.7658 Accuracy 0.3122
+Time taken for 1 epoch: 31.11562490463257 secs
+
+Epoch 14 Batch 0 Loss 0.6303 Accuracy 0.3125
+Epoch 14 Batch 50 Loss 0.6793 Accuracy 0.3209
+Epoch 14 Batch 100 Loss 0.6850 Accuracy 0.3220
+Epoch 14 Batch 150 Loss 0.6885 Accuracy 0.3205
+Epoch 14 Batch 200 Loss 0.6975 Accuracy 0.3208
+Epoch 14 Batch 250 Loss 0.7003 Accuracy 0.3199
+Epoch 14 Batch 300 Loss 0.7045 Accuracy 0.3197
+Epoch 14 Batch 350 Loss 0.7081 Accuracy 0.3205
+Epoch 14 Batch 400 Loss 0.7095 Accuracy 0.3197
+Epoch 14 Batch 450 Loss 0.7120 Accuracy 0.3189
+Epoch 14 Batch 500 Loss 0.7135 Accuracy 0.3186
+Epoch 14 Batch 550 Loss 0.7167 Accuracy 0.3186
+Epoch 14 Batch 600 Loss 0.7191 Accuracy 0.3183
+Epoch 14 Batch 650 Loss 0.7215 Accuracy 0.3182
+Epoch 14 Batch 700 Loss 0.7234 Accuracy 0.3179
+Epoch 14 Loss 0.7238 Accuracy 0.3179
+Time taken for 1 epoch: 30.928674936294556 secs
+
+Epoch 15 Batch 0 Loss 0.5921 Accuracy 0.3298
+Epoch 15 Batch 50 Loss 0.6525 Accuracy 0.3265
+Epoch 15 Batch 100 Loss 0.6511 Accuracy 0.3255
+Epoch 15 Batch 150 Loss 0.6618 Accuracy 0.3250
+Epoch 15 Batch 200 Loss 0.6659 Accuracy 0.3244
+Epoch 15 Batch 250 Loss 0.6658 Accuracy 0.3243
+Epoch 15 Batch 300 Loss 0.6666 Accuracy 0.3241
+Epoch 15 Batch 350 Loss 0.6695 Accuracy 0.3236
+Epoch 15 Batch 400 Loss 0.6723 Accuracy 0.3237
+Epoch 15 Batch 450 Loss 0.6759 Accuracy 0.3235
+Epoch 15 Batch 500 Loss 0.6783 Accuracy 0.3238
+Epoch 15 Batch 550 Loss 0.6800 Accuracy 0.3230
+Epoch 15 Batch 600 Loss 0.6826 Accuracy 0.3226
+Epoch 15 Batch 650 Loss 0.6850 Accuracy 0.3226
+Epoch 15 Batch 700 Loss 0.6884 Accuracy 0.3225
+Saving checkpoint for epoch 15 at ./checkpoints/train/ckpt-3
+Epoch 15 Loss 0.6887 Accuracy 0.3225
+Time taken for 1 epoch: 31.319037675857544 secs
+
+Epoch 16 Batch 0 Loss 0.5955 Accuracy 0.3319
+Epoch 16 Batch 50 Loss 0.6032 Accuracy 0.3275
+Epoch 16 Batch 100 Loss 0.6082 Accuracy 0.3308
+Epoch 16 Batch 150 Loss 0.6231 Accuracy 0.3322
+Epoch 16 Batch 200 Loss 0.6284 Accuracy 0.3314
+Epoch 16 Batch 250 Loss 0.6318 Accuracy 0.3313
+Epoch 16 Batch 300 Loss 0.6353 Accuracy 0.3306
+Epoch 16 Batch 350 Loss 0.6387 Accuracy 0.3304
+Epoch 16 Batch 400 Loss 0.6411 Accuracy 0.3302
+Epoch 16 Batch 450 Loss 0.6445 Accuracy 0.3294
+Epoch 16 Batch 500 Loss 0.6467 Accuracy 0.3288
+Epoch 16 Batch 550 Loss 0.6497 Accuracy 0.3289
+Epoch 16 Batch 600 Loss 0.6527 Accuracy 0.3286
+Epoch 16 Batch 650 Loss 0.6545 Accuracy 0.3283
+Epoch 16 Batch 700 Loss 0.6580 Accuracy 0.3280
+Epoch 16 Loss 0.6579 Accuracy 0.3280
+Time taken for 1 epoch: 31.29152202606201 secs
+
+Epoch 17 Batch 0 Loss 0.6259 Accuracy 0.3560
+Epoch 17 Batch 50 Loss 0.5865 Accuracy 0.3384
+Epoch 17 Batch 100 Loss 0.5974 Accuracy 0.3386
+Epoch 17 Batch 150 Loss 0.5999 Accuracy 0.3366
+Epoch 17 Batch 200 Loss 0.6053 Accuracy 0.3362
+Epoch 17 Batch 250 Loss 0.6058 Accuracy 0.3349
+Epoch 17 Batch 300 Loss 0.6092 Accuracy 0.3351
+Epoch 17 Batch 350 Loss 0.6106 Accuracy 0.3350
+Epoch 17 Batch 400 Loss 0.6127 Accuracy 0.3342
+Epoch 17 Batch 450 Loss 0.6141 Accuracy 0.3338
+Epoch 17 Batch 500 Loss 0.6171 Accuracy 0.3333
+Epoch 17 Batch 550 Loss 0.6198 Accuracy 0.3327
+Epoch 17 Batch 600 Loss 0.6224 Accuracy 0.3323
+Epoch 17 Batch 650 Loss 0.6248 Accuracy 0.3319
+Epoch 17 Batch 700 Loss 0.6276 Accuracy 0.3318
+Epoch 17 Loss 0.6277 Accuracy 0.3319
+Time taken for 1 epoch: 31.021020889282227 secs
+
+Epoch 18 Batch 0 Loss 0.5560 Accuracy 0.3509
+Epoch 18 Batch 50 Loss 0.5549 Accuracy 0.3416
+Epoch 18 Batch 100 Loss 0.5651 Accuracy 0.3412
+Epoch 18 Batch 150 Loss 0.5679 Accuracy 0.3397
+Epoch 18 Batch 200 Loss 0.5743 Accuracy 0.3396
+Epoch 18 Batch 250 Loss 0.5788 Accuracy 0.3399
+Epoch 18 Batch 300 Loss 0.5830 Accuracy 0.3405
+Epoch 18 Batch 350 Loss 0.5842 Accuracy 0.3387
+Epoch 18 Batch 400 Loss 0.5885 Accuracy 0.3385
+Epoch 18 Batch 450 Loss 0.5893 Accuracy 0.3379
+Epoch 18 Batch 500 Loss 0.5921 Accuracy 0.3380
+Epoch 18 Batch 550 Loss 0.5953 Accuracy 0.3371
+Epoch 18 Batch 600 Loss 0.5979 Accuracy 0.3365
+Epoch 18 Batch 650 Loss 0.6012 Accuracy 0.3363
+Epoch 18 Batch 700 Loss 0.6036 Accuracy 0.3358
+Epoch 18 Loss 0.6037 Accuracy 0.3358
+Time taken for 1 epoch: 31.022820949554443 secs
+
+Epoch 19 Batch 0 Loss 0.5412 Accuracy 0.3710
+Epoch 19 Batch 50 Loss 0.5427 Accuracy 0.3460
+Epoch 19 Batch 100 Loss 0.5431 Accuracy 0.3452
+Epoch 19 Batch 150 Loss 0.5443 Accuracy 0.3421
+Epoch 19 Batch 200 Loss 0.5474 Accuracy 0.3419
+Epoch 19 Batch 250 Loss 0.5527 Accuracy 0.3418
+Epoch 19 Batch 300 Loss 0.5561 Accuracy 0.3414
+Epoch 19 Batch 350 Loss 0.5596 Accuracy 0.3413
+Epoch 19 Batch 400 Loss 0.5640 Accuracy 0.3412
+Epoch 19 Batch 450 Loss 0.5658 Accuracy 0.3407
+Epoch 19 Batch 500 Loss 0.5694 Accuracy 0.3403
+Epoch 19 Batch 550 Loss 0.5720 Accuracy 0.3404
+Epoch 19 Batch 600 Loss 0.5744 Accuracy 0.3400
+Epoch 19 Batch 650 Loss 0.5780 Accuracy 0.3402
+Epoch 19 Batch 700 Loss 0.5803 Accuracy 0.3403
+Epoch 19 Loss 0.5802 Accuracy 0.3403
+Time taken for 1 epoch: 30.98587203025818 secs
+
+Epoch 20 Batch 0 Loss 0.5481 Accuracy 0.3458
+Epoch 20 Batch 50 Loss 0.5221 Accuracy 0.3459
+Epoch 20 Batch 100 Loss 0.5201 Accuracy 0.3470
+Epoch 20 Batch 150 Loss 0.5273 Accuracy 0.3471
+Epoch 20 Batch 200 Loss 0.5294 Accuracy 0.3463
+Epoch 20 Batch 250 Loss 0.5363 Accuracy 0.3454
+Epoch 20 Batch 300 Loss 0.5384 Accuracy 0.3446
+Epoch 20 Batch 350 Loss 0.5398 Accuracy 0.3441
+Epoch 20 Batch 400 Loss 0.5422 Accuracy 0.3441
+Epoch 20 Batch 450 Loss 0.5454 Accuracy 0.3439
+Epoch 20 Batch 500 Loss 0.5480 Accuracy 0.3440
+Epoch 20 Batch 550 Loss 0.5516 Accuracy 0.3441
+Epoch 20 Batch 600 Loss 0.5544 Accuracy 0.3434
+Epoch 20 Batch 650 Loss 0.5572 Accuracy 0.3432
+Epoch 20 Batch 700 Loss 0.5595 Accuracy 0.3428
+Saving checkpoint for epoch 20 at ./checkpoints/train/ckpt-4
+Epoch 20 Loss 0.5597 Accuracy 0.3427
+Time taken for 1 epoch: 31.170108795166016 secs
+
+```
+
+## 评估（Evaluate）
+
+以下步骤用于评估：
+
+*   用葡萄牙语分词器（`tokenizer_pt`）编码输入语句。此外，添加开始和结束标记，这样输入就与模型训练的内容相同。这是编码器输入。
+*   解码器输入为 `start token == tokenizer_en.vocab_size`。
+*   计算填充遮挡和前瞻遮挡。
+*   `解码器`通过查看`编码器输出`和它自身的输出（自注意力）给出预测。
+*   选择最后一个词并计算它的 argmax。
+*   将预测的词连接到解码器输入，然后传递给解码器。
+*   在这种方法中，解码器根据它预测的之前的词预测下一个。
+
+Note：这里使用的模型具有较小的能力以保持相对较快，因此预测可能不太正确。要复现论文中的结果，请使用全部数据集，并通过修改上述超参数来使用基础 transformer 模型或者 transformer XL。
+
+```py
+def evaluate(inp_sentence):
+  start_token = [tokenizer_pt.vocab_size]
+  end_token = [tokenizer_pt.vocab_size + 1]
+
+  # 输入语句是葡萄牙语，增加开始和结束标记
+  inp_sentence = start_token + tokenizer_pt.encode(inp_sentence) + end_token
+  encoder_input = tf.expand_dims(inp_sentence, 0)
+
+  # 因为目标是英语，输入 transformer 的第一个词应该是
+  # 英语的开始标记。
+  decoder_input = [tokenizer_en.vocab_size]
+  output = tf.expand_dims(decoder_input, 0)
+
+  for i in range(MAX_LENGTH):
+    enc_padding_mask, combined_mask, dec_padding_mask = create_masks(
+        encoder_input, output)
+
+    # predictions.shape == (batch_size, seq_len, vocab_size)
+    predictions, attention_weights = transformer(encoder_input, 
+                                                 output,
+                                                 False,
+                                                 enc_padding_mask,
+                                                 combined_mask,
+                                                 dec_padding_mask)
+
+    # 从 seq_len 维度选择最后一个词
+    predictions = predictions[: ,-1:, :]  # (batch_size, 1, vocab_size)
+
+    predicted_id = tf.cast(tf.argmax(predictions, axis=-1), tf.int32)
+
+    # 如果 predicted_id 等于结束标记，就返回结果
+    if predicted_id == tokenizer_en.vocab_size+1:
+      return tf.squeeze(output, axis=0), attention_weights
+
+    # 连接 predicted_id 与输出，作为解码器的输入传递到解码器。
+    output = tf.concat([output, predicted_id], axis=-1)
+
+  return tf.squeeze(output, axis=0), attention_weights 
+```
+
+```py
+def plot_attention_weights(attention, sentence, result, layer):
+  fig = plt.figure(figsize=(16, 8))
+
+  sentence = tokenizer_pt.encode(sentence)
+
+  attention = tf.squeeze(attention[layer], axis=0)
+
+  for head in range(attention.shape[0]):
+    ax = fig.add_subplot(2, 4, head+1)
+
+    # 画出注意力权重
+    ax.matshow(attention[head][:-1, :], cmap='viridis')
+
+    fontdict = {'fontsize': 10}
+
+    ax.set_xticks(range(len(sentence)+2))
+    ax.set_yticks(range(len(result)))
+
+    ax.set_ylim(len(result)-1.5, -0.5)
+
+    ax.set_xticklabels(
+        ['<start>']+[tokenizer_pt.decode([i]) for i in sentence]+['<end>'], 
+        fontdict=fontdict, rotation=90)
+
+    ax.set_yticklabels([tokenizer_en.decode([i]) for i in result 
+                        if i < tokenizer_en.vocab_size], 
+                       fontdict=fontdict)
+
+    ax.set_xlabel('Head {}'.format(head+1))
+
+  plt.tight_layout()
+  plt.show() 
+```
+
+```py
+def translate(sentence, plot=''):
+  result, attention_weights = evaluate(sentence)
+
+  predicted_sentence = tokenizer_en.decode([i for i in result 
+                                            if i < tokenizer_en.vocab_size])  
+
+  print('Input: {}'.format(sentence))
+  print('Predicted translation: {}'.format(predicted_sentence))
+
+  if plot:
+    plot_attention_weights(attention_weights, sentence, result, plot) 
+```
+
+```py
+translate("este é um problema que temos que resolver.")
+print ("Real translation: this is a problem we have to solve .") 
+```
+
+```py
+Input: este é um problema que temos que resolver.
+Predicted translation: this is a problem that we have to solve the united states is that we have to solve the world .
+Real translation: this is a problem we have to solve .
+
+```
+
+```py
+translate("os meus vizinhos ouviram sobre esta ideia.")
+print ("Real translation: and my neighboring homes heard about this idea .") 
+```
+
+```py
+Input: os meus vizinhos ouviram sobre esta ideia.
+Predicted translation: my neighbors heard about this idea .
+Real translation: and my neighboring homes heard about this idea .
+
+```
+
+```py
+translate("vou então muito rapidamente partilhar convosco algumas histórias de algumas coisas mágicas que aconteceram.")
+print ("Real translation: so i 'll just share with you some stories very quickly of some magical things that have happened .") 
+```
+
+```py
+Input: vou então muito rapidamente partilhar convosco algumas histórias de algumas coisas mágicas que aconteceram.
+Predicted translation: so i 'm going to share with you a couple of exciting stories of some magical things that happened .
+Real translation: so i 'll just share with you some stories very quickly of some magical things that have happened .
+
+```
+
+您可以为 `plot` 参数传递不同的层和解码器的注意力模块。
+
+```py
+translate("este é o primeiro livro que eu fiz.", plot='decoder_layer4_block2')
+print ("Real translation: this is the first book i've ever done.") 
+```
+
+```py
+Input: este é o primeiro livro que eu fiz.
+Predicted translation: this is the first book that i made .
+
+```
+
+![png](img/8317a6a03bbf1bff4913755d5d89c9c6.png)
+
+```py
+Real translation: this is the first book i've ever done.
+
+```
+
+## 总结
+
+在本教程中，您已经学习了位置编码，多头注意力，遮挡的重要性以及如何创建一个 transformer。
+
+尝试使用一个不同的数据集来训练 transformer。您可也可以通过修改上述的超参数来创建基础 transformer 或者 transformer XL。您也可以使用这里定义的层来创建 [BERT](https://arxiv.org/abs/1810.04805) 并训练最先进的模型。此外，您可以实现 beam search 得到更好的预测。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/054.md b/Tensorflow/TensorFlow2.0/054.md
new file mode 100644
index 00000000..4fd3a519
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/054.md
@@ -0,0 +1,996 @@
+# Fine-tuning a BERT model
+
+> 原文：[https://tensorflow.google.cn/official_models/fine_tuning_bert](https://tensorflow.google.cn/official_models/fine_tuning_bert)
+
+In this example, we will work through fine-tuning a BERT model using the tensorflow-models PIP package.
+
+The pretrained BERT model this tutorial is based on is also available on [TensorFlow Hub](https://tensorflow.org/hub), to see how to use it refer to the [Hub Appendix](#hub_bert)
+
+## Setup
+
+### Install the TensorFlow Model Garden pip package
+
+*   `tf-models-official` is the stable Model Garden package. Note that it may not include the latest changes in the `tensorflow_models` github repo. To include latest changes, you may install `tf-models-nightly`, which is the nightly Model Garden package created daily automatically.
+*   pip will install all models and dependencies automatically.
+
+```py
+pip install -q tf-models-official==2.3.0
+
+```
+
+```py
+WARNING: You are using pip version 20.2.3; however, version 20.2.4 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+### Imports
+
+```py
+import os
+
+import numpy as np
+import matplotlib.pyplot as plt
+
+import tensorflow as tf
+
+import tensorflow_hub as hub
+import tensorflow_datasets as tfds
+tfds.disable_progress_bar()
+
+from official.modeling import tf_utils
+from official import nlp
+from official.nlp import bert
+
+# Load the required submodules
+import official.nlp.optimization
+import official.nlp.bert.bert_models
+import official.nlp.bert.configs
+import official.nlp.bert.run_classifier
+import official.nlp.bert.tokenization
+import official.nlp.data.classifier_data_lib
+import official.nlp.modeling.losses
+import official.nlp.modeling.models
+import official.nlp.modeling.networks 
+```
+
+### Resources
+
+This directory contains the configuration, vocabulary, and a pre-trained checkpoint used in this tutorial:
+
+```py
+gs_folder_bert = "gs://cloud-tpu-checkpoints/bert/keras_bert/uncased_L-12_H-768_A-12"
+tf.io.gfile.listdir(gs_folder_bert) 
+```
+
+```py
+['bert_config.json',
+ 'bert_model.ckpt.data-00000-of-00001',
+ 'bert_model.ckpt.index',
+ 'vocab.txt']
+
+```
+
+You can get a pre-trained BERT encoder from [TensorFlow Hub](https://hub.tensorflow.google.cn/tensorflow/bert_en_uncased_L-12_H-768_A-12/2):
+
+```py
+hub_url_bert = "https://hub.tensorflow.google.cn/tensorflow/bert_en_uncased_L-12_H-768_A-12/2" 
+```
+
+## The data
+
+For this example we used the [GLUE MRPC dataset from TFDS](https://tensorflow.google.cn/datasets/catalog/glue#gluemrpc).
+
+This dataset is not set up so that it can be directly fed into the BERT model, so this section also handles the necessary preprocessing.
+
+### Get the dataset from TensorFlow Datasets
+
+The Microsoft Research Paraphrase Corpus (Dolan & Brockett, 2005) is a corpus of sentence pairs automatically extracted from online news sources, with human annotations for whether the sentences in the pair are semantically equivalent.
+
+*   Number of labels: 2.
+*   Size of training dataset: 3668.
+*   Size of evaluation dataset: 408.
+*   Maximum sequence length of training and evaluation dataset: 128.
+
+```py
+glue, info = tfds.load('glue/mrpc', with_info=True,
+                       # It's small, load the whole dataset
+                       batch_size=-1) 
+```
+
+```py
+Downloading and preparing dataset glue/mrpc/1.0.0 (download: 1.43 MiB, generated: Unknown size, total: 1.43 MiB) to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0...
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0.incompleteKZIBN9/glue-train.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0.incompleteKZIBN9/glue-validation.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0.incompleteKZIBN9/glue-test.tfrecord
+Dataset glue downloaded and prepared to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0\. Subsequent calls will reuse this data.
+
+```
+
+```py
+list(glue.keys()) 
+```
+
+```py
+['test', 'train', 'validation']
+
+```
+
+The `info` object describes the dataset and it's features:
+
+```py
+info.features 
+```
+
+```py
+FeaturesDict({
+    'idx': tf.int32,
+    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
+    'sentence1': Text(shape=(), dtype=tf.string),
+    'sentence2': Text(shape=(), dtype=tf.string),
+})
+
+```
+
+The two classes are:
+
+```py
+info.features['label'].names 
+```
+
+```py
+['not_equivalent', 'equivalent']
+
+```
+
+Here is one example from the training set:
+
+```py
+glue_train = glue['train']
+
+for key, value in glue_train.items():
+  print(f"{key:9s}: {value[0].numpy()}") 
+```
+
+```py
+idx      : 1680
+label    : 0
+sentence1: b'The identical rovers will act as robotic geologists , searching for evidence of past water .'
+sentence2: b'The rovers act as robotic geologists , moving on six wheels .'
+
+```
+
+### The BERT tokenizer
+
+To fine tune a pre-trained model you need to be sure that you're using exactly the same tokenization, vocabulary, and index mapping as you used during training.
+
+The BERT tokenizer used in this tutorial is written in pure Python (It's not built out of TensorFlow ops). So you can't just plug it into your model as a `keras.layer` like you can with [`preprocessing.TextVectorization`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/experimental/preprocessing/TextVectorization).
+
+The following code rebuilds the tokenizer that was used by the base model:
+
+```py
+# Set up tokenizer to generate Tensorflow dataset
+tokenizer = bert.tokenization.FullTokenizer(
+    vocab_file=os.path.join(gs_folder_bert, "vocab.txt"),
+     do_lower_case=True)
+
+print("Vocab size:", len(tokenizer.vocab)) 
+```
+
+```py
+Vocab size: 30522
+
+```
+
+Tokenize a sentence:
+
+```py
+tokens = tokenizer.tokenize("Hello TensorFlow!")
+print(tokens)
+ids = tokenizer.convert_tokens_to_ids(tokens)
+print(ids) 
+```
+
+```py
+['hello', 'tensor', '##flow', '!']
+[7592, 23435, 12314, 999]
+
+```
+
+### Preprocess the data
+
+The section manually preprocessed the dataset into the format expected by the model.
+
+This dataset is small, so preprocessing can be done quickly and easily in memory. For larger datasets the `tf_models` library includes some tools for preprocessing and re-serializing a dataset. See [Appendix: Re-encoding a large dataset](#re_encoding_tools) for details.
+
+#### Encode the sentences
+
+The model expects its two inputs sentences to be concatenated together. This input is expected to start with a `[CLS]` "This is a classification problem" token, and each sentence should end with a `[SEP]` "Separator" token:
+
+```py
+tokenizer.convert_tokens_to_ids(['[CLS]', '[SEP]']) 
+```
+
+```py
+[101, 102]
+
+```
+
+Start by encoding all the sentences while appending a `[SEP]` token, and packing them into ragged-tensors:
+
+```py
+def encode_sentence(s):
+   tokens = list(tokenizer.tokenize(s.numpy()))
+   tokens.append('[SEP]')
+   return tokenizer.convert_tokens_to_ids(tokens)
+
+sentence1 = tf.ragged.constant([
+    encode_sentence(s) for s in glue_train["sentence1"]])
+sentence2 = tf.ragged.constant([
+    encode_sentence(s) for s in glue_train["sentence2"]]) 
+```
+
+```py
+print("Sentence1 shape:", sentence1.shape.as_list())
+print("Sentence2 shape:", sentence2.shape.as_list()) 
+```
+
+```py
+Sentence1 shape: [3668, None]
+Sentence2 shape: [3668, None]
+
+```
+
+Now prepend a `[CLS]` token, and concatenate the ragged tensors to form a single `input_word_ids` tensor for each example. [`RaggedTensor.to_tensor()`](https://tensorflow.google.cn/api_docs/python/tf/RaggedTensor#to_tensor) zero pads to the longest sequence.
+
+```py
+cls = [tokenizer.convert_tokens_to_ids(['[CLS]'])]*sentence1.shape[0]
+input_word_ids = tf.concat([cls, sentence1, sentence2], axis=-1)
+_ = plt.pcolormesh(input_word_ids.to_tensor()) 
+```
+
+![png](img/10d71bce93ec45ba7076ef15a37bcb28.png)
+
+#### Mask and input type
+
+The model expects two additional inputs:
+
+*   The input mask
+*   The input type
+
+The mask allows the model to cleanly differentiate between the content and the padding. The mask has the same shape as the `input_word_ids`, and contains a `1` anywhere the `input_word_ids` is not padding.
+
+```py
+input_mask = tf.ones_like(input_word_ids).to_tensor()
+
+plt.pcolormesh(input_mask) 
+```
+
+```py
+<matplotlib.collections.QuadMesh at 0x7fad1c07ed30>
+
+```
+
+![png](img/1f9a0765029471b20952ac80887f73a4.png)
+
+The "input type" also has the same shape, but inside the non-padded region, contains a `0` or a `1` indicating which sentence the token is a part of.
+
+```py
+type_cls = tf.zeros_like(cls)
+type_s1 = tf.zeros_like(sentence1)
+type_s2 = tf.ones_like(sentence2)
+input_type_ids = tf.concat([type_cls, type_s1, type_s2], axis=-1).to_tensor()
+
+plt.pcolormesh(input_type_ids) 
+```
+
+```py
+<matplotlib.collections.QuadMesh at 0x7fad143c1710>
+
+```
+
+![png](img/e06760b4112e8fd989cdb1f7a948bc17.png)
+
+#### Put it all together
+
+Collect the above text parsing code into a single function, and apply it to each split of the `glue/mrpc` dataset.
+
+```py
+def encode_sentence(s, tokenizer):
+   tokens = list(tokenizer.tokenize(s))
+   tokens.append('[SEP]')
+   return tokenizer.convert_tokens_to_ids(tokens)
+
+def bert_encode(glue_dict, tokenizer):
+  num_examples = len(glue_dict["sentence1"])
+
+  sentence1 = tf.ragged.constant([
+      encode_sentence(s, tokenizer)
+      for s in np.array(glue_dict["sentence1"])])
+  sentence2 = tf.ragged.constant([
+      encode_sentence(s, tokenizer)
+       for s in np.array(glue_dict["sentence2"])])
+
+  cls = [tokenizer.convert_tokens_to_ids(['[CLS]'])]*sentence1.shape[0]
+  input_word_ids = tf.concat([cls, sentence1, sentence2], axis=-1)
+
+  input_mask = tf.ones_like(input_word_ids).to_tensor()
+
+  type_cls = tf.zeros_like(cls)
+  type_s1 = tf.zeros_like(sentence1)
+  type_s2 = tf.ones_like(sentence2)
+  input_type_ids = tf.concat(
+      [type_cls, type_s1, type_s2], axis=-1).to_tensor()
+
+  inputs = {
+      'input_word_ids': input_word_ids.to_tensor(),
+      'input_mask': input_mask,
+      'input_type_ids': input_type_ids}
+
+  return inputs 
+```
+
+```py
+glue_train = bert_encode(glue['train'], tokenizer)
+glue_train_labels = glue['train']['label']
+
+glue_validation = bert_encode(glue['validation'], tokenizer)
+glue_validation_labels = glue['validation']['label']
+
+glue_test = bert_encode(glue['test'], tokenizer)
+glue_test_labels  = glue['test']['label'] 
+```
+
+Each subset of the data has been converted to a dictionary of features, and a set of labels. Each feature in the input dictionary has the same shape, and the number of labels should match:
+
+```py
+for key, value in glue_train.items():
+  print(f'{key:15s} shape: {value.shape}')
+
+print(f'glue_train_labels shape: {glue_train_labels.shape}') 
+```
+
+```py
+input_word_ids  shape: (3668, 103)
+input_mask      shape: (3668, 103)
+input_type_ids  shape: (3668, 103)
+glue_train_labels shape: (3668,)
+
+```
+
+## The model
+
+### Build the model
+
+The first step is to download the configuration for the pre-trained model.
+
+```py
+import json
+
+bert_config_file = os.path.join(gs_folder_bert, "bert_config.json")
+config_dict = json.loads(tf.io.gfile.GFile(bert_config_file).read())
+
+bert_config = bert.configs.BertConfig.from_dict(config_dict)
+
+config_dict 
+```
+
+```py
+{'attention_probs_dropout_prob': 0.1,
+ 'hidden_act': 'gelu',
+ 'hidden_dropout_prob': 0.1,
+ 'hidden_size': 768,
+ 'initializer_range': 0.02,
+ 'intermediate_size': 3072,
+ 'max_position_embeddings': 512,
+ 'num_attention_heads': 12,
+ 'num_hidden_layers': 12,
+ 'type_vocab_size': 2,
+ 'vocab_size': 30522}
+
+```
+
+The `config` defines the core BERT Model, which is a Keras model to predict the outputs of `num_classes` from the inputs with maximum sequence length `max_seq_length`.
+
+This function returns both the encoder and the classifier.
+
+```py
+bert_classifier, bert_encoder = bert.bert_models.classifier_model(
+    bert_config, num_labels=2) 
+```
+
+The classifier has three inputs and one output:
+
+```py
+tf.keras.utils.plot_model(bert_classifier, show_shapes=True, dpi=48) 
+```
+
+![png](img/906a04e5434908ec33033e39f2e83f6b.png)
+
+Run it on a test batch of data 10 examples from the training set. The output is the logits for the two classes:
+
+```py
+glue_batch = {key: val[:10] for key, val in glue_train.items()}
+
+bert_classifier(
+    glue_batch, training=True
+).numpy() 
+```
+
+```py
+array([[ 0.08382261,  0.34465584],
+       [ 0.02057236,  0.24053624],
+       [ 0.04930754,  0.1117427 ],
+       [ 0.17041089,  0.20810834],
+       [ 0.21667874,  0.2840511 ],
+       [ 0.02325345,  0.33799925],
+       [-0.06198866,  0.13532838],
+       [ 0.084592  ,  0.20711854],
+       [-0.04323687,  0.17096342],
+       [ 0.23759182,  0.16801538]], dtype=float32)
+
+```
+
+The `TransformerEncoder` in the center of the classifier above **is** the `bert_encoder`.
+
+Inspecting the encoder, we see its stack of `Transformer` layers connected to those same three inputs:
+
+```py
+tf.keras.utils.plot_model(bert_encoder, show_shapes=True, dpi=48) 
+```
+
+![png](img/6d5e829de3a867f7bb56dff003b7e217.png)
+
+### Restore the encoder weights
+
+When built the encoder is randomly initialized. Restore the encoder's weights from the checkpoint:
+
+```py
+checkpoint = tf.train.Checkpoint(model=bert_encoder)
+checkpoint.restore(
+    os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed() 
+```
+
+```py
+<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7fad4580ffd0>
+
+```
+
+**Note:** The pretrained `TransformerEncoder` is also available on [TensorFlow Hub](https://tensorflow.org/hub). See the [Hub appendix](#hub_bert) for details.
+
+### Set up the optimizer
+
+BERT adopts the Adam optimizer with weight decay (aka "[AdamW](https://arxiv.org/abs/1711.05101)"). It also employs a learning rate schedule that firstly warms up from 0 and then decays to 0.
+
+```py
+# Set up epochs and steps
+epochs = 3
+batch_size = 32
+eval_batch_size = 32
+
+train_data_size = len(glue_train_labels)
+steps_per_epoch = int(train_data_size / batch_size)
+num_train_steps = steps_per_epoch * epochs
+warmup_steps = int(epochs * train_data_size * 0.1 / batch_size)
+
+# creates an optimizer with learning rate schedule
+optimizer = nlp.optimization.create_optimizer(
+    2e-5, num_train_steps=num_train_steps, num_warmup_steps=warmup_steps) 
+```
+
+This returns an `AdamWeightDecay` optimizer with the learning rate schedule set:
+
+```py
+type(optimizer) 
+```
+
+```py
+official.nlp.optimization.AdamWeightDecay
+
+```
+
+To see an example of how to customize the optimizer and it's schedule, see the [Optimizer schedule appendix](#optiizer_schedule).
+
+### Train the model
+
+The metric is accuracy and we use sparse categorical cross-entropy as loss.
+
+```py
+metrics = [tf.keras.metrics.SparseCategoricalAccuracy('accuracy', dtype=tf.float32)]
+loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
+
+bert_classifier.compile(
+    optimizer=optimizer,
+    loss=loss,
+    metrics=metrics)
+
+bert_classifier.fit(
+      glue_train, glue_train_labels,
+      validation_data=(glue_validation, glue_validation_labels),
+      batch_size=32,
+      epochs=epochs) 
+```
+
+```py
+Epoch 1/3
+115/115 [==============================] - 26s 222ms/step - loss: 0.6151 - accuracy: 0.6611 - val_loss: 0.5462 - val_accuracy: 0.7451
+Epoch 2/3
+115/115 [==============================] - 24s 212ms/step - loss: 0.4447 - accuracy: 0.8010 - val_loss: 0.4150 - val_accuracy: 0.8309
+Epoch 3/3
+115/115 [==============================] - 24s 213ms/step - loss: 0.2830 - accuracy: 0.8964 - val_loss: 0.3697 - val_accuracy: 0.8480
+
+<tensorflow.python.keras.callbacks.History at 0x7fad000ebda0>
+
+```
+
+Now run the fine-tuned model on a custom example to see that it works.
+
+Start by encoding some sentence pairs:
+
+```py
+my_examples = bert_encode(
+    glue_dict = {
+        'sentence1':[
+            'The rain in Spain falls mainly on the plain.',
+            'Look I fine tuned BERT.'],
+        'sentence2':[
+            'It mostly rains on the flat lands of Spain.',
+            'Is it working? This does not match.']
+    },
+    tokenizer=tokenizer) 
+```
+
+The model should report class `1` "match" for the first example and class `0` "no-match" for the second:
+
+```py
+result = bert_classifier(my_examples, training=False)
+
+result = tf.argmax(result).numpy()
+result 
+```
+
+```py
+array([1, 0])
+
+```
+
+```py
+np.array(info.features['label'].names)[result] 
+```
+
+```py
+array(['equivalent', 'not_equivalent'], dtype='<U14')
+
+```
+
+### Save the model
+
+Often the goal of training a model is to *use* it for something, so export the model and then restore it to be sure that it works.
+
+```py
+export_dir='./saved_model'
+tf.saved_model.save(bert_classifier, export_dir=export_dir) 
+```
+
+```py
+WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
+Instructions for updating:
+This property should not be used in TensorFlow 2.0, as updates are applied automatically.
+
+INFO:tensorflow:Assets written to: ./saved_model/assets
+
+INFO:tensorflow:Assets written to: ./saved_model/assets
+
+```
+
+```py
+reloaded = tf.saved_model.load(export_dir)
+reloaded_result = reloaded([my_examples['input_word_ids'],
+                            my_examples['input_mask'],
+                            my_examples['input_type_ids']], training=False)
+
+original_result = bert_classifier(my_examples, training=False)
+
+# The results are (nearly) identical:
+print(original_result.numpy())
+print()
+print(reloaded_result.numpy()) 
+```
+
+```py
+[[-0.95450354  1.1227685 ]
+ [ 0.40344787 -0.58954155]]
+
+[[-0.95450354  1.1227684 ]
+ [ 0.4034478  -0.5895414 ]]
+
+```
+
+## Appendix
+
+### Re-encoding a large dataset
+
+This tutorial you re-encoded the dataset in memory, for clarity.
+
+This was only possible because `glue/mrpc` is a very small dataset. To deal with larger datasets `tf_models` library includes some tools for processing and re-encoding a dataset for efficient training.
+
+The first step is to describe which features of the dataset should be transformed:
+
+```py
+processor = nlp.data.classifier_data_lib.TfdsProcessor(
+    tfds_params="dataset=glue/mrpc,text_key=sentence1,text_b_key=sentence2",
+    process_text_fn=bert.tokenization.convert_to_unicode) 
+```
+
+Then apply the transformation to generate new TFRecord files.
+
+```py
+# Set up output of training and evaluation Tensorflow dataset
+train_data_output_path="./mrpc_train.tf_record"
+eval_data_output_path="./mrpc_eval.tf_record"
+
+max_seq_length = 128
+batch_size = 32
+eval_batch_size = 32
+
+# Generate and save training data into a tf record file
+input_meta_data = (
+    nlp.data.classifier_data_lib.generate_tf_record_from_data_file(
+      processor=processor,
+      data_dir=None,  # It is `None` because data is from tfds, not local dir.
+      tokenizer=tokenizer,
+      train_data_output_path=train_data_output_path,
+      eval_data_output_path=eval_data_output_path,
+      max_seq_length=max_seq_length)) 
+```
+
+Finally create [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) input pipelines from those TFRecord files:
+
+```py
+training_dataset = bert.run_classifier.get_dataset_fn(
+    train_data_output_path,
+    max_seq_length,
+    batch_size,
+    is_training=True)()
+
+evaluation_dataset = bert.run_classifier.get_dataset_fn(
+    eval_data_output_path,
+    max_seq_length,
+    eval_batch_size,
+    is_training=False)() 
+```
+
+The resulting `tf.data.Datasets` return `(features, labels)` pairs, as expected by [`keras.Model.fit`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#fit):
+
+```py
+training_dataset.element_spec 
+```
+
+```py
+({'input_word_ids': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None),
+  'input_mask': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None),
+  'input_type_ids': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None)},
+ TensorSpec(shape=(32,), dtype=tf.int32, name=None))
+
+```
+
+#### Create tf.data.Dataset for training and evaluation
+
+If you need to modify the data loading here is some code to get you started:
+
+```py
+def create_classifier_dataset(file_path, seq_length, batch_size, is_training):
+  """Creates input dataset from (tf)records files for train/eval."""
+  dataset = tf.data.TFRecordDataset(file_path)
+  if is_training:
+    dataset = dataset.shuffle(100)
+    dataset = dataset.repeat()
+
+  def decode_record(record):
+    name_to_features = {
+      'input_ids': tf.io.FixedLenFeature([seq_length], tf.int64),
+      'input_mask': tf.io.FixedLenFeature([seq_length], tf.int64),
+      'segment_ids': tf.io.FixedLenFeature([seq_length], tf.int64),
+      'label_ids': tf.io.FixedLenFeature([], tf.int64),
+    }
+    return tf.io.parse_single_example(record, name_to_features)
+
+  def _select_data_from_record(record):
+    x = {
+        'input_word_ids': record['input_ids'],
+        'input_mask': record['input_mask'],
+        'input_type_ids': record['segment_ids']
+    }
+    y = record['label_ids']
+    return (x, y)
+
+  dataset = dataset.map(decode_record,
+                        num_parallel_calls=tf.data.experimental.AUTOTUNE)
+  dataset = dataset.map(
+      _select_data_from_record,
+      num_parallel_calls=tf.data.experimental.AUTOTUNE)
+  dataset = dataset.batch(batch_size, drop_remainder=is_training)
+  dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)
+  return dataset 
+```
+
+```py
+# Set up batch sizes
+batch_size = 32
+eval_batch_size = 32
+
+# Return Tensorflow dataset
+training_dataset = create_classifier_dataset(
+    train_data_output_path,
+    input_meta_data['max_seq_length'],
+    batch_size,
+    is_training=True)
+
+evaluation_dataset = create_classifier_dataset(
+    eval_data_output_path,
+    input_meta_data['max_seq_length'],
+    eval_batch_size,
+    is_training=False) 
+```
+
+```py
+training_dataset.element_spec 
+```
+
+```py
+({'input_word_ids': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None),
+  'input_mask': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None),
+  'input_type_ids': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None)},
+ TensorSpec(shape=(32,), dtype=tf.int64, name=None))
+
+```
+
+### TFModels BERT on TFHub
+
+You can get [the BERT model](https://hub.tensorflow.google.cn/tensorflow/bert_en_uncased_L-12_H-768_A-12/2) off the shelf from [TFHub](https://tensorflow.org/hub). It would not be hard to add a classification head on top of this [`hub.KerasLayer`](https://tensorflow.google.cn/hub/api_docs/python/hub/KerasLayer)
+
+```py
+# Note: 350MB download.
+import tensorflow_hub as hub 
+```
+
+```py
+hub_model_name = "bert_en_uncased_L-12_H-768_A-12" 
+```
+
+```py
+hub_encoder = hub.KerasLayer(f"https://hub.tensorflow.google.cn/tensorflow/{hub_model_name}/2",
+                             trainable=True)
+
+print(f"The Hub encoder has {len(hub_encoder.trainable_variables)} trainable variables") 
+```
+
+```py
+The Hub encoder has 199 trainable variables
+
+```
+
+Test run it on a batch of data:
+
+```py
+result = hub_encoder(
+    inputs=[glue_train['input_word_ids'][:10],
+            glue_train['input_mask'][:10],
+            glue_train['input_type_ids'][:10],],
+    training=False,
+)
+
+print("Pooled output shape:", result[0].shape)
+print("Sequence output shape:", result[1].shape) 
+```
+
+```py
+Pooled output shape: (10, 768)
+Sequence output shape: (10, 103, 768)
+
+```
+
+At this point it would be simple to add a classification head yourself.
+
+The `bert_models.classifier_model` function can also build a classifier onto the encoder from TensorFlow Hub:
+
+```py
+hub_classifier, hub_encoder = bert.bert_models.classifier_model(
+    # Caution: Most of `bert_config` is ignored if you pass a hub url.
+    bert_config=bert_config, hub_module_url=hub_url_bert, num_labels=2) 
+```
+
+The one downside to loading this model from TFHub is that the structure of internal keras layers is not restored. So it's more difficult to inspect or modify the model. The `TransformerEncoder` model is now a single layer:
+
+```py
+tf.keras.utils.plot_model(hub_classifier, show_shapes=True, dpi=64) 
+```
+
+![png](img/563b223dd04889d1963c53d7c10dfa02.png)
+
+```py
+try:
+  tf.keras.utils.plot_model(hub_encoder, show_shapes=True, dpi=64)
+  assert False
+except Exception as e:
+  print(f"{type(e).__name__}: {e}") 
+```
+
+```py
+AttributeError: 'KerasLayer' object has no attribute 'layers'
+
+```
+
+### Low level model building
+
+If you need a more control over the construction of the model it's worth noting that the `classifier_model` function used earlier is really just a thin wrapper over the `nlp.modeling.networks.TransformerEncoder` and `nlp.modeling.models.BertClassifier` classes. Just remember that if you start modifying the architecture it may not be correct or possible to reload the pre-trained checkpoint so you'll need to retrain from scratch.
+
+Build the encoder:
+
+```py
+transformer_config = config_dict.copy()
+
+# You need to rename a few fields to make this work:
+transformer_config['attention_dropout_rate'] = transformer_config.pop('attention_probs_dropout_prob')
+transformer_config['activation'] = tf_utils.get_activation(transformer_config.pop('hidden_act'))
+transformer_config['dropout_rate'] = transformer_config.pop('hidden_dropout_prob')
+transformer_config['initializer'] = tf.keras.initializers.TruncatedNormal(
+          stddev=transformer_config.pop('initializer_range'))
+transformer_config['max_sequence_length'] = transformer_config.pop('max_position_embeddings')
+transformer_config['num_layers'] = transformer_config.pop('num_hidden_layers')
+
+transformer_config 
+```
+
+```py
+{'hidden_size': 768,
+ 'intermediate_size': 3072,
+ 'num_attention_heads': 12,
+ 'type_vocab_size': 2,
+ 'vocab_size': 30522,
+ 'attention_dropout_rate': 0.1,
+ 'activation': <function official.modeling.activations.gelu.gelu(x)>,
+ 'dropout_rate': 0.1,
+ 'initializer': <tensorflow.python.keras.initializers.initializers_v2.TruncatedNormal at 0x7fac08046e10>,
+ 'max_sequence_length': 512,
+ 'num_layers': 12}
+
+```
+
+```py
+manual_encoder = nlp.modeling.networks.TransformerEncoder(**transformer_config) 
+```
+
+Restore the weights:
+
+```py
+checkpoint = tf.train.Checkpoint(model=manual_encoder)
+checkpoint.restore(
+    os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed() 
+```
+
+```py
+<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7fabefa596d8>
+
+```
+
+Test run it:
+
+```py
+result = manual_encoder(my_examples, training=True)
+
+print("Sequence output shape:", result[0].shape)
+print("Pooled output shape:", result[1].shape) 
+```
+
+```py
+Sequence output shape: (2, 23, 768)
+Pooled output shape: (2, 768)
+
+```
+
+Wrap it in a classifier:
+
+```py
+manual_classifier = nlp.modeling.models.BertClassifier(
+        bert_encoder,
+        num_classes=2,
+        dropout_rate=transformer_config['dropout_rate'],
+        initializer=tf.keras.initializers.TruncatedNormal(
+          stddev=bert_config.initializer_range)) 
+```
+
+```py
+manual_classifier(my_examples, training=True).numpy() 
+```
+
+```py
+array([[ 0.07863025, -0.02940944],
+       [ 0.30274656,  0.27299827]], dtype=float32)
+
+```
+
+### Optimizers and schedules
+
+The optimizer used to train the model was created using the `nlp.optimization.create_optimizer` function:
+
+```py
+optimizer = nlp.optimization.create_optimizer(
+    2e-5, num_train_steps=num_train_steps, num_warmup_steps=warmup_steps) 
+```
+
+That high level wrapper sets up the learning rate schedules and the optimizer.
+
+The base learning rate schedule used here is a linear decay to zero over the training run:
+
+```py
+epochs = 3
+batch_size = 32
+eval_batch_size = 32
+
+train_data_size = len(glue_train_labels)
+steps_per_epoch = int(train_data_size / batch_size)
+num_train_steps = steps_per_epoch * epochs 
+```
+
+```py
+decay_schedule = tf.keras.optimizers.schedules.PolynomialDecay(
+      initial_learning_rate=2e-5,
+      decay_steps=num_train_steps,
+      end_learning_rate=0)
+
+plt.plot([decay_schedule(n) for n in range(num_train_steps)]) 
+```
+
+```py
+[<matplotlib.lines.Line2D at 0x7fabef5e69e8>]
+
+```
+
+![png](img/868f946086995ef931b7b454d904e14b.png)
+
+This, in turn is wrapped in a `WarmUp` schedule that linearly increases the learning rate to the target value over the first 10% of training:
+
+```py
+warmup_steps = num_train_steps * 0.1
+
+warmup_schedule = nlp.optimization.WarmUp(
+        initial_learning_rate=2e-5,
+        decay_schedule_fn=decay_schedule,
+        warmup_steps=warmup_steps)
+
+# The warmup overshoots, because it warms up to the `initial_learning_rate`
+# following the original implementation. You can set
+# `initial_learning_rate=decay_schedule(warmup_steps)` if you don't like the
+# overshoot.
+plt.plot([warmup_schedule(n) for n in range(num_train_steps)]) 
+```
+
+```py
+[<matplotlib.lines.Line2D at 0x7fabef559630>]
+
+```
+
+![png](img/c542bc6784512a8abdc2e3a85a1e1905.png)
+
+Then create the `nlp.optimization.AdamWeightDecay` using that schedule, configured for the BERT model:
+
+```py
+optimizer = nlp.optimization.AdamWeightDecay(
+        learning_rate=warmup_schedule,
+        weight_decay_rate=0.01,
+        epsilon=1e-6,
+        exclude_from_weight_decay=['LayerNorm', 'layer_norm', 'bias']) 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/055.md b/Tensorflow/TensorFlow2.0/055.md
new file mode 100644
index 00000000..26d06b71
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/055.md
@@ -0,0 +1 @@
+# 结构化数据
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/056.md b/Tensorflow/TensorFlow2.0/056.md
new file mode 100644
index 00000000..a6ffa462
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/056.md
@@ -0,0 +1,16973 @@
+# 对结构化数据进行分类
+
+> 原文：[https://tensorflow.google.cn/tutorials/structured_data/feature_columns](https://tensorflow.google.cn/tutorials/structured_data/feature_columns)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程演示了如何对结构化数据进行分类（例如，CSV 中的表格数据）。我们将使用 [Keras](https://tensorflow.google.cn/guide/keras) 来定义模型，将[特征列（feature columns）](https://tensorflow.google.cn/guide/feature_columns) 作为从 CSV 中的列（columns）映射到用于训练模型的特征（features）的桥梁。本教程包括了以下内容的完整代码：
+
+*   用 [Pandas](https://pandas.pydata.org/) 导入 CSV 文件。
+*   用 [tf.data](https://tensorflow.google.cn/guide/datasets) 建立了一个输入流水线（pipeline），用于对行进行分批（batch）和随机排序（shuffle）。
+*   用特征列将 CSV 中的列映射到用于训练模型的特征。
+*   用 Keras 构建，训练并评估模型。
+
+## 数据集
+
+我们将使用一个小型 [数据集](https://archive.ics.uci.edu/ml/datasets/heart+Disease)，该数据集由克利夫兰心脏病诊所基金会（Cleveland Clinic Foundation for Heart Disease）提供。CSV 中有几百行数据。每行描述了一个病人（patient），每列描述了一个属性（attribute）。我们将使用这些信息来预测一位病人是否患有心脏病，这是在该数据集上的二分类任务。
+
+下面是该数据集的[描述](https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/heart-disease.names)。 请注意，有数值（numeric）和类别（categorical）类型的列。
+
+> | 列 | 描述 | 特征类型 | 数据类型 |
+> | --- | --- | --- | --- |
+> | Age | 年龄以年为单位 | Numerical | integer |
+> | Sex | （1 = 男；0 = 女） | Categorical | integer |
+> | CP | 胸痛类型（0，1，2，3，4） | Categorical | integer |
+> | Trestbpd | 静息血压（入院时，以 mm Hg 计） | Numerical | integer |
+> | Chol | 血清胆固醇（mg/dl） | Numerical | integer |
+> | FBS | （空腹血糖> 120 mg/dl）（1 = true；0 = false） | Categorical | integer |
+> | RestECG | 静息心电图结果（0，1，2） | Categorical | integer |
+> | Thalach | 达到的最大心率 | Numerical | integer |
+> | Exang | 运动诱发心绞痛（1 =是；0 =否） | Categorical | integer |
+> | Oldpeak | 与休息时相比由运动引起的 ST 节段下降 | Numerical | integer |
+> | Slope | 在运动高峰 ST 段的斜率 | Numerical | float |
+> | CA | 荧光透视法染色的大血管动脉（0-3）的数量 | Numerical | integer |
+> | Thal | 3 =正常；6 =固定缺陷；7 =可逆缺陷 | Categorical | string |
+> | Target | 心脏病诊断（1 = true；0 = false） | Classification | integer |
+
+## 导入 TensorFlow 和其他库
+
+```py
+pip install -q sklearn
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import numpy as np
+import pandas as pd
+
+import tensorflow as tf
+
+from tensorflow import feature_column
+from tensorflow.keras import layers
+from sklearn.model_selection import train_test_split 
+```
+
+## 使用 Pandas 创建一个 dataframe
+
+[Pandas](https://pandas.pydata.org/) 是一个 Python 库，它有许多有用的实用程序，用于加载和处理结构化数据。我们将使用 Pandas 从 URL 下载数据集，并将其加载到 dataframe 中。
+
+```py
+URL = 'https://storage.googleapis.com/applied-dl/heart.csv'
+dataframe = pd.read_csv(URL)
+dataframe.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/structured_data/feature_columns_420ecafb3d5d72c62762d056cc160cddfd15a9fd8290044191c203a794d6d136.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+## 将 dataframe 拆分为训练、验证和测试集
+
+我们下载的数据集是一个 CSV 文件。 我们将其拆分为训练、验证和测试集。
+
+```py
+train, test = train_test_split(dataframe, test_size=0.2)
+train, val = train_test_split(train, test_size=0.2)
+print(len(train), 'train examples')
+print(len(val), 'validation examples')
+print(len(test), 'test examples') 
+```
+
+```py
+193 train examples
+49 validation examples
+61 test examples
+
+```
+
+## 用 tf.data 创建输入流水线
+
+接下来，我们将使用 [tf.data](https://tensorflow.google.cn/guide/datasets) 包装 dataframe。这让我们能将特征列作为一座桥梁，该桥梁将 Pandas dataframe 中的列映射到用于训练模型的特征。如果我们使用一个非常大的 CSV 文件（非常大以至于它不能放入内存），我们将使用 tf.data 直接从磁盘读取它。本教程不涉及这一点。
+
+```py
+# 一种从 Pandas Dataframe 创建 tf.data 数据集的实用程序方法（utility method）
+def df_to_dataset(dataframe, shuffle=True, batch_size=32):
+  dataframe = dataframe.copy()
+  labels = dataframe.pop('target')
+  ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels))
+  if shuffle:
+    ds = ds.shuffle(buffer_size=len(dataframe))
+  ds = ds.batch(batch_size)
+  return ds 
+```
+
+```py
+batch_size = 5 # 小批量大小用于演示
+train_ds = df_to_dataset(train, batch_size=batch_size)
+val_ds = df_to_dataset(val, shuffle=False, batch_size=batch_size)
+test_ds = df_to_dataset(test, shuffle=False, batch_size=batch_size) 
+```
+
+## 理解输入流水线
+
+现在我们已经创建了输入流水线，让我们调用它来查看它返回的数据的格式。 我们使用了一小批量大小来保持输出的可读性。
+
+```py
+for feature_batch, label_batch in train_ds.take(1):
+  print('Every feature:', list(feature_batch.keys()))
+  print('A batch of ages:', feature_batch['age'])
+  print('A batch of targets:', label_batch ) 
+```
+
+```py
+Every feature: ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal']
+A batch of ages: tf.Tensor([58 44 44 50 54], shape=(5,), dtype=int64)
+A batch of targets: tf.Tensor([0 1 0 0 1], shape=(5,), dtype=int64)
+
+```
+
+我们可以看到数据集返回了一个字典，该字典从列名称（来自 dataframe）映射到 dataframe 中行的列值。
+
+## 演示几种特征列
+
+TensorFlow 提供了多种特征列。本节中，我们将创建几类特征列，并演示特征列如何转换 dataframe 中的列。
+
+```py
+# 我们将使用该批数据演示几种特征列
+example_batch = next(iter(train_ds))[0] 
+```
+
+```py
+# 用于创建一个特征列
+# 并转换一批次数据的一个实用程序方法
+def demo(feature_column):
+  feature_layer = layers.DenseFeatures(feature_column)
+  print(feature_layer(example_batch).numpy()) 
+```
+
+### 数值列
+
+一个特征列的输出将成为模型的输入（使用上面定义的 demo 函数，我们将能准确地看到 dataframe 中的每列的转换方式）。 [数值列（numeric column）](https://tensorflow.google.cn/api_docs/python/tf/feature_column/numeric_column) 是最简单的列类型。它用于表示实数特征。使用此列时，模型将从 dataframe 中接收未更改的列值。
+
+```py
+age = feature_column.numeric_column("age")
+demo(age) 
+```
+
+```py
+WARNING:tensorflow:Layer dense_features is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+[[63.]
+ [62.]
+ [59.]
+ [74.]
+ [68.]]
+
+```
+
+在这个心脏病数据集中，dataframe 中的大多数列都是数值列。
+
+### 分桶列
+
+通常，您不希望将数字直接输入模型，而是根据数值范围将其值分成不同的类别。考虑代表一个人年龄的原始数据。我们可以用 [分桶列（bucketized column）](https://tensorflow.google.cn/api_docs/python/tf/feature_column/bucketized_column)将年龄分成几个分桶（buckets），而不是将年龄表示成数值列。请注意下面的 one-hot 数值表示每行匹配的年龄范围。
+
+```py
+age_buckets = feature_column.bucketized_column(age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
+demo(age_buckets) 
+```
+
+```py
+WARNING:tensorflow:Layer dense_features_1 is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+[[0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 1\. 0.]
+ [0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 1\. 0.]
+ [0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 1\. 0\. 0.]
+ [0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 1.]
+ [0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 0\. 1.]]
+
+```
+
+### 分类列
+
+在此数据集中，thal 用字符串表示（如 'fixed'，'normal'，或 'reversible'）。我们无法直接将字符串提供给模型。相反，我们必须首先将它们映射到数值。分类词汇列（categorical vocabulary columns）提供了一种用 one-hot 向量表示字符串的方法（就像您在上面看到的年龄分桶一样）。词汇表可以用 [categorical_column_with_vocabulary_list](https://tensorflow.google.cn/api_docs/python/tf/feature_column/categorical_column_with_vocabulary_list) 作为 list 传递，或者用 [categorical_column_with_vocabulary_file](https://tensorflow.google.cn/api_docs/python/tf/feature_column/categorical_column_with_vocabulary_file) 从文件中加载。
+
+```py
+thal = feature_column.categorical_column_with_vocabulary_list(
+      'thal', ['fixed', 'normal', 'reversible'])
+
+thal_one_hot = feature_column.indicator_column(thal)
+demo(thal_one_hot) 
+```
+
+```py
+WARNING:tensorflow:Layer dense_features_2 is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+[[0\. 0\. 1.]
+ [0\. 0\. 1.]
+ [1\. 0\. 0.]
+ [0\. 1\. 0.]
+ [0\. 0\. 1.]]
+
+```
+
+在更复杂的数据集中，许多列都是分类列（如 strings）。在处理分类数据时，特征列最有价值。尽管在该数据集中只有一列分类列，但我们将使用它来演示在处理其他数据集时，可以使用的几种重要的特征列。
+
+### 嵌入列
+
+假设我们不是只有几个可能的字符串，而是每个类别有数千（或更多）值。 由于多种原因，随着类别数量的增加，使用 one-hot 编码训练神经网络变得不可行。我们可以使用嵌入列来克服此限制。[嵌入列（embedding column）](https://tensorflow.google.cn/api_docs/python/tf/feature_column/embedding_column)将数据表示为一个低维度密集向量，而非多维的 one-hot 向量，该低维度密集向量可以包含任何数，而不仅仅是 0 或 1。嵌入的大小（在下面的示例中为 8）是必须调整的参数。
+
+关键点：当分类列具有许多可能的值时，最好使用嵌入列。我们在这里使用嵌入列用于演示目的，为此您有一个完整的示例，以在将来可以修改用于其他数据集。
+
+```py
+# 注意到嵌入列的输入是我们之前创建的类别列
+thal_embedding = feature_column.embedding_column(thal, dimension=8)
+demo(thal_embedding) 
+```
+
+```py
+WARNING:tensorflow:Layer dense_features_3 is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+[[ 0.00543996 -0.5059579   0.0389499  -0.20236802  0.11128058  0.59121
+   0.14891742 -0.11942385]
+ [ 0.00543996 -0.5059579   0.0389499  -0.20236802  0.11128058  0.59121
+   0.14891742 -0.11942385]
+ [ 0.09787773 -0.5861865  -0.3713007  -0.1747458  -0.01538717  0.55458224
+   0.12537968 -0.11748305]
+ [-0.00701649  0.28291813  0.23547529 -0.5102454  -0.5388726   0.5154376
+   0.12235989  0.44484815]
+ [ 0.00543996 -0.5059579   0.0389499  -0.20236802  0.11128058  0.59121
+   0.14891742 -0.11942385]]
+
+```
+
+### 经过哈希处理的特征列
+
+表示具有大量数值的分类列的另一种方法是使用 [categorical_column_with_hash_bucket](https://tensorflow.google.cn/api_docs/python/tf/feature_column/categorical_column_with_hash_bucket)。该特征列计算输入的一个哈希值，然后选择一个 `hash_bucket_size` 分桶来编码字符串。使用此列时，您不需要提供词汇表，并且可以选择使 hash_buckets 的数量远远小于实际类别的数量以节省空间。
+
+关键点：该技术的一个重要缺点是可能存在冲突，不同的字符串被映射到同一个范围。实际上，无论如何，经过哈希处理的特征列对某些数据集都有效。
+
+```py
+thal_hashed = feature_column.categorical_column_with_hash_bucket(
+      'thal', hash_bucket_size=1000)
+demo(feature_column.indicator_column(thal_hashed)) 
+```
+
+```py
+WARNING:tensorflow:Layer dense_features_4 is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+[[0\. 0\. 0\. ... 0\. 0\. 0.]
+ [0\. 0\. 0\. ... 0\. 0\. 0.]
+ [0\. 0\. 0\. ... 0\. 0\. 0.]
+ [0\. 0\. 0\. ... 0\. 0\. 0.]
+ [0\. 0\. 0\. ... 0\. 0\. 0.]]
+
+```
+
+### 组合的特征列
+
+将多种特征组合到一个特征中，称为[特征组合（feature crosses）](https://developers.google.cn/machine-learning/glossary/#feature_cross)，它让模型能够为每种特征组合学习单独的权重。此处，我们将创建一个 age 和 thal 组合的新特征。请注意，`crossed_column` 不会构建所有可能组合的完整列表（可能非常大）。相反，它由 `hashed_column` 支持，因此您可以选择表的大小。
+
+```py
+crossed_feature = feature_column.crossed_column([age_buckets, thal], hash_bucket_size=1000)
+demo(feature_column.indicator_column(crossed_feature)) 
+```
+
+```py
+WARNING:tensorflow:Layer dense_features_5 is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+[[0\. 0\. 0\. ... 0\. 0\. 0.]
+ [0\. 0\. 0\. ... 0\. 0\. 0.]
+ [0\. 0\. 0\. ... 0\. 0\. 0.]
+ [0\. 0\. 0\. ... 0\. 0\. 0.]
+ [0\. 0\. 0\. ... 0\. 0\. 0.]]
+
+```
+
+## 选择要使用的列
+
+我们已经了解了如何使用几种类型的特征列。 现在我们将使用它们来训练模型。本教程的目标是向您展示使用特征列所需的完整代码（例如，机制）。我们任意地选择了几列来训练我们的模型。
+
+关键点：如果您的目标是建立一个准确的模型，请尝试使用您自己的更大的数据集，并仔细考虑哪些特征最有意义，以及如何表示它们。
+
+```py
+feature_columns = []
+
+# 数值列
+for header in ['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'slope', 'ca']:
+  feature_columns.append(feature_column.numeric_column(header))
+
+# 分桶列
+age_buckets = feature_column.bucketized_column(age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])
+feature_columns.append(age_buckets)
+
+# 分类列
+thal = feature_column.categorical_column_with_vocabulary_list(
+      'thal', ['fixed', 'normal', 'reversible'])
+thal_one_hot = feature_column.indicator_column(thal)
+feature_columns.append(thal_one_hot)
+
+# 嵌入列
+thal_embedding = feature_column.embedding_column(thal, dimension=8)
+feature_columns.append(thal_embedding)
+
+# 组合列
+crossed_feature = feature_column.crossed_column([age_buckets, thal], hash_bucket_size=1000)
+crossed_feature = feature_column.indicator_column(crossed_feature)
+feature_columns.append(crossed_feature) 
+```
+
+### 建立一个新的特征层
+
+现在我们已经定义了我们的特征列，我们将使用[密集特征（DenseFeatures）](https://tensorflow.google.cn/versions/r2.0/api_docs/python/tf/keras/layers/DenseFeatures)层将特征列输入到我们的 Keras 模型中。
+
+```py
+feature_layer = tf.keras.layers.DenseFeatures(feature_columns) 
+```
+
+之前，我们使用一个小批量大小来演示特征列如何运转。我们将创建一个新的更大批量的输入流水线。
+
+```py
+batch_size = 32
+train_ds = df_to_dataset(train, batch_size=batch_size)
+val_ds = df_to_dataset(val, shuffle=False, batch_size=batch_size)
+test_ds = df_to_dataset(test, shuffle=False, batch_size=batch_size) 
+```
+
+## 创建，编译和训练模型
+
+```py
+model = tf.keras.Sequential([
+  feature_layer,
+  layers.Dense(128, activation='relu'),
+  layers.Dense(128, activation='relu'),
+  layers.Dense(1, activation='sigmoid')
+])
+
+model.compile(optimizer='adam',
+              loss='binary_crossentropy',
+              metrics=['accuracy'],
+              run_eagerly=True)
+
+model.fit(train_ds,
+          validation_data=val_ds,
+          epochs=5) 
+```
+
+```py
+Epoch 1/5
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[57],
+       [45],
+       [49],
+       [67],
+       [54],
+       [70],
+       [54],
+       [52],
+       [52],
+       [44],
+       [57],
+       [43],
+       [62],
+       [59],
+       [62],
+       [58],
+       [42],
+       [68],
+       [56],
+       [46],
+       [44],
+       [40],
+       [52],
+       [63],
+       [57],
+       [56],
+       [37],
+       [64],
+       [43],
+       [34],
+       [57],
+       [51]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [4],
+       [2],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [1],
+       [4],
+       [2],
+       [4],
+       [3],
+       [4],
+       [2],
+       [2],
+       [1],
+       [2],
+       [4],
+       [4],
+       [4],
+       [3],
+       [1],
+       [3],
+       [1],
+       [2],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[128],
+       [138],
+       [134],
+       [106],
+       [110],
+       [160],
+       [150],
+       [112],
+       [125],
+       [112],
+       [154],
+       [150],
+       [130],
+       [170],
+       [120],
+       [120],
+       [136],
+       [118],
+       [200],
+       [101],
+       [120],
+       [140],
+       [120],
+       [124],
+       [128],
+       [125],
+       [130],
+       [110],
+       [122],
+       [118],
+       [124],
+       [140]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[229],
+       [236],
+       [271],
+       [223],
+       [214],
+       [269],
+       [232],
+       [230],
+       [212],
+       [290],
+       [232],
+       [247],
+       [231],
+       [288],
+       [267],
+       [284],
+       [315],
+       [277],
+       [288],
+       [197],
+       [263],
+       [199],
+       [325],
+       [197],
+       [303],
+       [249],
+       [250],
+       [211],
+       [213],
+       [182],
+       [261],
+       [308]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[150],
+       [152],
+       [162],
+       [142],
+       [158],
+       [112],
+       [165],
+       [160],
+       [168],
+       [153],
+       [164],
+       [171],
+       [146],
+       [159],
+       [ 99],
+       [160],
+       [125],
+       [151],
+       [133],
+       [156],
+       [173],
+       [178],
+       [172],
+       [136],
+       [159],
+       [144],
+       [187],
+       [144],
+       [165],
+       [174],
+       [141],
+       [142]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0.4],
+       [0.2],
+       [0\. ],
+       [0.3],
+       [1.6],
+       [2.9],
+       [1.6],
+       [0\. ],
+       [1\. ],
+       [0\. ],
+       [0\. ],
+       [1.5],
+       [1.8],
+       [0.2],
+       [1.8],
+       [1.8],
+       [1.8],
+       [1\. ],
+       [4\. ],
+       [0\. ],
+       [0\. ],
+       [1.4],
+       [0.2],
+       [0\. ],
+       [0\. ],
+       [1.2],
+       [3.5],
+       [1.8],
+       [0.2],
+       [0\. ],
+       [0.3],
+       [1.5]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [3],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [3],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [2],
+       [0],
+       [1],
+       [0],
+       [1],
+       [2],
+       [1],
+       [1],
+       [0],
+       [3],
+       [0],
+       [2],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layer dense_features_6 is casting an input tensor from dtype float64 to the layer's dtype of float32, which is new behavior in TensorFlow 2\.  The layer has dtype float32 because its dtype defaults to floatx.
+
+If you intended to run this layer in float32, you can safely ignore this warning. If in doubt, this warning is likely only an issue if you are porting a TensorFlow 1.X model to TensorFlow 2.
+
+To change all layers to have dtype float64 by default, call `tf.keras.backend.set_floatx('float64')`. To change just this layer, pass dtype='float64' to the layer constructor. If you are the author of this layer, you can disable autocasting by passing autocast=False to the base Layer constructor.
+
+1/7 [===>..........................] - ETA: 0s - loss: 1.9156 - accuracy: 0.8438WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[64],
+       [62],
+       [57],
+       [64],
+       [70],
+       [54],
+       [64],
+       [67],
+       [61],
+       [56],
+       [41],
+       [42],
+       [50],
+       [47],
+       [58],
+       [60],
+       [41],
+       [57],
+       [55],
+       [42],
+       [50],
+       [44],
+       [58],
+       [67],
+       [66],
+       [37],
+       [45],
+       [67],
+       [62],
+       [59],
+       [56],
+       [66]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [2],
+       [4],
+       [1],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [1],
+       [2],
+       [3],
+       [4],
+       [3],
+       [4],
+       [4],
+       [2],
+       [4],
+       [2],
+       [1],
+       [4],
+       [2],
+       [3],
+       [4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [2],
+       [3],
+       [2],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[125],
+       [128],
+       [120],
+       [170],
+       [130],
+       [122],
+       [145],
+       [100],
+       [138],
+       [120],
+       [126],
+       [120],
+       [144],
+       [138],
+       [114],
+       [130],
+       [135],
+       [150],
+       [132],
+       [148],
+       [110],
+       [120],
+       [105],
+       [160],
+       [160],
+       [120],
+       [104],
+       [152],
+       [120],
+       [126],
+       [140],
+       [120]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[309],
+       [208],
+       [354],
+       [227],
+       [322],
+       [286],
+       [212],
+       [299],
+       [166],
+       [193],
+       [306],
+       [240],
+       [200],
+       [257],
+       [318],
+       [253],
+       [203],
+       [276],
+       [342],
+       [244],
+       [254],
+       [220],
+       [240],
+       [286],
+       [228],
+       [215],
+       [208],
+       [277],
+       [281],
+       [218],
+       [294],
+       [302]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [1],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[131],
+       [140],
+       [163],
+       [155],
+       [109],
+       [116],
+       [132],
+       [125],
+       [125],
+       [162],
+       [163],
+       [194],
+       [126],
+       [156],
+       [140],
+       [144],
+       [132],
+       [112],
+       [166],
+       [178],
+       [159],
+       [170],
+       [154],
+       [108],
+       [138],
+       [170],
+       [148],
+       [172],
+       [103],
+       [134],
+       [153],
+       [151]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[1.8],
+       [0\. ],
+       [0.6],
+       [0.6],
+       [2.4],
+       [3.2],
+       [2\. ],
+       [0.9],
+       [3.6],
+       [1.9],
+       [0\. ],
+       [0.8],
+       [0.9],
+       [0\. ],
+       [4.4],
+       [1.4],
+       [0\. ],
+       [0.6],
+       [1.2],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.5],
+       [2.3],
+       [0\. ],
+       [3\. ],
+       [0\. ],
+       [1.4],
+       [2.2],
+       [1.3],
+       [0.4]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [3],
+       [2],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [3],
+       [1],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[63],
+       [43],
+       [52],
+       [54],
+       [65],
+       [45],
+       [44],
+       [34],
+       [40],
+       [51],
+       [64],
+       [47],
+       [54],
+       [63],
+       [60],
+       [54],
+       [41],
+       [53],
+       [56],
+       [54],
+       [57],
+       [59],
+       [43],
+       [67],
+       [68],
+       [53],
+       [44],
+       [58],
+       [46],
+       [59],
+       [47],
+       [53]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [3],
+       [3],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [0],
+       [3],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[140],
+       [120],
+       [128],
+       [135],
+       [140],
+       [142],
+       [140],
+       [118],
+       [110],
+       [140],
+       [140],
+       [112],
+       [124],
+       [130],
+       [117],
+       [108],
+       [110],
+       [123],
+       [130],
+       [140],
+       [150],
+       [110],
+       [130],
+       [115],
+       [144],
+       [130],
+       [130],
+       [128],
+       [142],
+       [164],
+       [108],
+       [142]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[187],
+       [177],
+       [255],
+       [304],
+       [417],
+       [309],
+       [235],
+       [210],
+       [167],
+       [298],
+       [313],
+       [204],
+       [266],
+       [254],
+       [230],
+       [309],
+       [235],
+       [282],
+       [283],
+       [239],
+       [168],
+       [239],
+       [315],
+       [564],
+       [193],
+       [264],
+       [233],
+       [216],
+       [177],
+       [176],
+       [243],
+       [226]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[144],
+       [120],
+       [161],
+       [170],
+       [157],
+       [147],
+       [180],
+       [192],
+       [114],
+       [122],
+       [133],
+       [143],
+       [109],
+       [147],
+       [160],
+       [156],
+       [153],
+       [ 95],
+       [103],
+       [160],
+       [174],
+       [142],
+       [162],
+       [160],
+       [141],
+       [143],
+       [179],
+       [131],
+       [160],
+       [ 90],
+       [152],
+       [111]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[4\. ],
+       [2.5],
+       [0\. ],
+       [0\. ],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [0.7],
+       [2\. ],
+       [4.2],
+       [0.2],
+       [0.1],
+       [2.2],
+       [1.4],
+       [1.4],
+       [0\. ],
+       [0\. ],
+       [2\. ],
+       [1.6],
+       [1.2],
+       [1.6],
+       [1.2],
+       [1.9],
+       [1.6],
+       [3.4],
+       [0.4],
+       [0.4],
+       [2.2],
+       [1.4],
+       [1\. ],
+       [0\. ],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [3],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [3],
+       [1],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [1],
+       [0],
+       [1],
+       [3],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [1],
+       [1],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [3],
+       [0],
+       [2],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'1'],
+       [b'normal'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+3/7 [===========>..................] - ETA: 0s - loss: 2.4590 - accuracy: 0.6354WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[71],
+       [61],
+       [41],
+       [48],
+       [54],
+       [51],
+       [43],
+       [50],
+       [52],
+       [57],
+       [59],
+       [67],
+       [56],
+       [45],
+       [42],
+       [49],
+       [44],
+       [54],
+       [50],
+       [56],
+       [47],
+       [60],
+       [61],
+       [55],
+       [57],
+       [58],
+       [46],
+       [49],
+       [46],
+       [55],
+       [68],
+       [39]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [1],
+       [3],
+       [4],
+       [2],
+       [4],
+       [3],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[160],
+       [148],
+       [130],
+       [122],
+       [120],
+       [125],
+       [110],
+       [129],
+       [134],
+       [165],
+       [150],
+       [120],
+       [134],
+       [110],
+       [130],
+       [130],
+       [130],
+       [110],
+       [140],
+       [132],
+       [130],
+       [140],
+       [130],
+       [140],
+       [152],
+       [100],
+       [150],
+       [120],
+       [140],
+       [180],
+       [120],
+       [ 94]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[302],
+       [203],
+       [214],
+       [222],
+       [188],
+       [245],
+       [211],
+       [196],
+       [201],
+       [289],
+       [212],
+       [237],
+       [409],
+       [264],
+       [180],
+       [269],
+       [219],
+       [206],
+       [233],
+       [184],
+       [253],
+       [293],
+       [330],
+       [217],
+       [274],
+       [234],
+       [231],
+       [188],
+       [311],
+       [327],
+       [211],
+       [199]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[162],
+       [161],
+       [168],
+       [186],
+       [113],
+       [166],
+       [161],
+       [163],
+       [158],
+       [124],
+       [157],
+       [ 71],
+       [150],
+       [132],
+       [150],
+       [163],
+       [188],
+       [108],
+       [163],
+       [105],
+       [179],
+       [170],
+       [169],
+       [111],
+       [ 88],
+       [156],
+       [147],
+       [139],
+       [120],
+       [117],
+       [115],
+       [179]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0.4],
+       [0\. ],
+       [2\. ],
+       [0\. ],
+       [1.4],
+       [2.4],
+       [0\. ],
+       [0\. ],
+       [0.8],
+       [1\. ],
+       [1.6],
+       [1\. ],
+       [1.9],
+       [1.2],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [2.1],
+       [0\. ],
+       [1.2],
+       [0\. ],
+       [5.6],
+       [1.2],
+       [0.1],
+       [3.6],
+       [2\. ],
+       [1.8],
+       [3.4],
+       [1.5],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [3],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [3],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [3],
+       [2],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[58],
+       [51],
+       [54],
+       [51],
+       [50],
+       [66],
+       [53],
+       [46],
+       [46],
+       [42],
+       [58],
+       [29],
+       [43],
+       [60],
+       [57],
+       [35],
+       [74],
+       [65],
+       [41],
+       [45],
+       [58],
+       [56],
+       [58],
+       [57],
+       [45],
+       [51],
+       [64],
+       [44],
+       [50],
+       [59],
+       [67],
+       [50]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [1],
+       [4],
+       [3],
+       [2],
+       [2],
+       [3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [1],
+       [3],
+       [2],
+       [1],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[100],
+       [125],
+       [110],
+       [130],
+       [120],
+       [160],
+       [130],
+       [138],
+       [120],
+       [102],
+       [132],
+       [130],
+       [115],
+       [150],
+       [110],
+       [126],
+       [120],
+       [138],
+       [112],
+       [112],
+       [150],
+       [120],
+       [128],
+       [140],
+       [115],
+       [130],
+       [140],
+       [120],
+       [150],
+       [174],
+       [125],
+       [120]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[248],
+       [213],
+       [239],
+       [256],
+       [244],
+       [246],
+       [246],
+       [243],
+       [249],
+       [265],
+       [224],
+       [204],
+       [303],
+       [258],
+       [335],
+       [282],
+       [269],
+       [282],
+       [250],
+       [160],
+       [283],
+       [240],
+       [259],
+       [192],
+       [260],
+       [305],
+       [335],
+       [169],
+       [243],
+       [249],
+       [254],
+       [219]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[122],
+       [125],
+       [126],
+       [149],
+       [162],
+       [120],
+       [173],
+       [152],
+       [144],
+       [122],
+       [173],
+       [202],
+       [181],
+       [157],
+       [143],
+       [156],
+       [121],
+       [174],
+       [179],
+       [138],
+       [162],
+       [169],
+       [130],
+       [148],
+       [185],
+       [142],
+       [158],
+       [144],
+       [128],
+       [143],
+       [163],
+       [158]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[1\. ],
+       [1.4],
+       [2.8],
+       [0.5],
+       [1.1],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0.8],
+       [0.6],
+       [3.2],
+       [0\. ],
+       [1.2],
+       [2.6],
+       [3\. ],
+       [0\. ],
+       [0.2],
+       [1.4],
+       [0\. ],
+       [0\. ],
+       [1\. ],
+       [0\. ],
+       [3\. ],
+       [0.4],
+       [0\. ],
+       [1.2],
+       [0\. ],
+       [2.8],
+       [2.6],
+       [0\. ],
+       [0.2],
+       [1.6]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [3],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [3],
+       [2],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [3],
+       [3],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+5/7 [====================>.........] - ETA: 0s - loss: 2.0828 - accuracy: 0.5938WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[43],
+       [55],
+       [44],
+       [58],
+       [48],
+       [62],
+       [62],
+       [52],
+       [58],
+       [60],
+       [38],
+       [42],
+       [57],
+       [69],
+       [57],
+       [57],
+       [55],
+       [63],
+       [49],
+       [63],
+       [60],
+       [59],
+       [64],
+       [59],
+       [68],
+       [62],
+       [59],
+       [62],
+       [42],
+       [53],
+       [59],
+       [64]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [3],
+       [4],
+       [2],
+       [4],
+       [3],
+       [1],
+       [2],
+       [4],
+       [1],
+       [4],
+       [4],
+       [1],
+       [3],
+       [2],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3],
+       [1],
+       [4],
+       [1],
+       [0],
+       [4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[132],
+       [132],
+       [118],
+       [150],
+       [110],
+       [140],
+       [130],
+       [118],
+       [136],
+       [145],
+       [120],
+       [140],
+       [132],
+       [160],
+       [150],
+       [130],
+       [128],
+       [130],
+       [130],
+       [135],
+       [102],
+       [134],
+       [180],
+       [178],
+       [144],
+       [150],
+       [164],
+       [140],
+       [120],
+       [130],
+       [138],
+       [128]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[341],
+       [353],
+       [242],
+       [270],
+       [229],
+       [394],
+       [263],
+       [186],
+       [319],
+       [282],
+       [231],
+       [226],
+       [207],
+       [234],
+       [126],
+       [236],
+       [205],
+       [330],
+       [266],
+       [252],
+       [318],
+       [204],
+       [325],
+       [270],
+       [193],
+       [244],
+       [176],
+       [268],
+       [295],
+       [197],
+       [271],
+       [263]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [1],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [1],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[136],
+       [132],
+       [149],
+       [111],
+       [168],
+       [157],
+       [ 97],
+       [190],
+       [152],
+       [142],
+       [182],
+       [178],
+       [168],
+       [131],
+       [173],
+       [174],
+       [130],
+       [132],
+       [171],
+       [172],
+       [160],
+       [162],
+       [154],
+       [145],
+       [141],
+       [154],
+       [ 90],
+       [160],
+       [162],
+       [152],
+       [182],
+       [105]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[3\. ],
+       [1.2],
+       [0.3],
+       [0.8],
+       [1\. ],
+       [1.2],
+       [1.2],
+       [0\. ],
+       [0\. ],
+       [2.8],
+       [3.8],
+       [0\. ],
+       [0\. ],
+       [0.1],
+       [0.2],
+       [0\. ],
+       [2\. ],
+       [1.8],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [0.8],
+       [0\. ],
+       [4.2],
+       [3.4],
+       [1.4],
+       [1\. ],
+       [3.6],
+       [0\. ],
+       [1.2],
+       [0\. ],
+       [0.2]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [2],
+       [1],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [3],
+       [1],
+       [3],
+       [1],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [3],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[51]])>, 'sex': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[1]])>, 'cp': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[3]])>, 'trestbps': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[110]])>, 'chol': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[175]])>, 'fbs': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'restecg': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'thalach': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[123]])>, 'exang': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'oldpeak': <tf.Tensor: shape=(1, 1), dtype=float64, numpy=array([[0.6]])>, 'slope': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[1]])>, 'ca': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'thal': <tf.Tensor: shape=(1, 1), dtype=string, numpy=array([[b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - ETA: 0s - loss: 2.0670 - accuracy: 0.6062WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[62],
+       [65],
+       [60],
+       [35],
+       [48],
+       [66],
+       [42],
+       [44],
+       [67],
+       [71],
+       [45],
+       [65],
+       [52],
+       [76],
+       [48],
+       [51],
+       [61],
+       [51],
+       [66],
+       [51],
+       [60],
+       [52],
+       [49],
+       [57],
+       [54],
+       [68],
+       [41],
+       [62],
+       [59],
+       [45],
+       [59],
+       [55]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [3],
+       [2],
+       [4],
+       [1],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [2],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[124],
+       [120],
+       [140],
+       [122],
+       [124],
+       [112],
+       [120],
+       [108],
+       [152],
+       [110],
+       [128],
+       [110],
+       [152],
+       [140],
+       [124],
+       [140],
+       [150],
+       [100],
+       [178],
+       [140],
+       [120],
+       [172],
+       [118],
+       [110],
+       [120],
+       [180],
+       [105],
+       [138],
+       [140],
+       [130],
+       [135],
+       [160]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[209],
+       [177],
+       [185],
+       [192],
+       [274],
+       [212],
+       [209],
+       [141],
+       [212],
+       [265],
+       [308],
+       [248],
+       [298],
+       [197],
+       [255],
+       [299],
+       [243],
+       [222],
+       [228],
+       [261],
+       [178],
+       [199],
+       [149],
+       [201],
+       [258],
+       [274],
+       [198],
+       [294],
+       [177],
+       [234],
+       [234],
+       [289]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[163],
+       [140],
+       [155],
+       [174],
+       [166],
+       [132],
+       [173],
+       [175],
+       [150],
+       [130],
+       [170],
+       [158],
+       [178],
+       [116],
+       [175],
+       [173],
+       [137],
+       [143],
+       [165],
+       [186],
+       [ 96],
+       [162],
+       [126],
+       [126],
+       [147],
+       [150],
+       [168],
+       [106],
+       [162],
+       [175],
+       [161],
+       [145]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0.4],
+       [3\. ],
+       [0\. ],
+       [0.5],
+       [0.1],
+       [0\. ],
+       [0.6],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.2],
+       [1.1],
+       [0\. ],
+       [1.6],
+       [1\. ],
+       [1.2],
+       [1\. ],
+       [0\. ],
+       [0\. ],
+       [0.5],
+       [0.8],
+       [1.5],
+       [0.4],
+       [1.6],
+       [0\. ],
+       [1.9],
+       [0\. ],
+       [0.6],
+       [0.5],
+       [0.8]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [3],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[77],
+       [39],
+       [60],
+       [41],
+       [56],
+       [51],
+       [59],
+       [41],
+       [60],
+       [64],
+       [64],
+       [70],
+       [62],
+       [58],
+       [58],
+       [67],
+       [35]])>, 'sex': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[125],
+       [118],
+       [130],
+       [130],
+       [130],
+       [ 94],
+       [140],
+       [120],
+       [125],
+       [130],
+       [120],
+       [156],
+       [160],
+       [125],
+       [130],
+       [120],
+       [138]])>, 'chol': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[304],
+       [219],
+       [206],
+       [204],
+       [256],
+       [227],
+       [221],
+       [157],
+       [258],
+       [303],
+       [246],
+       [245],
+       [164],
+       [300],
+       [197],
+       [229],
+       [183]])>, 'fbs': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[162],
+       [140],
+       [132],
+       [172],
+       [142],
+       [154],
+       [164],
+       [182],
+       [141],
+       [122],
+       [ 96],
+       [143],
+       [145],
+       [171],
+       [131],
+       [129],
+       [182]])>, 'exang': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(17, 1), dtype=float64, numpy=
+array([[0\. ],
+       [1.2],
+       [2.4],
+       [1.4],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [2.8],
+       [2\. ],
+       [2.2],
+       [0\. ],
+       [6.2],
+       [0\. ],
+       [0.6],
+       [2.6],
+       [1.4]])>, 'slope': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[3],
+       [0],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [2],
+       [1],
+       [0],
+       [3],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thal': <tf.Tensor: shape=(17, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - 0s 44ms/step - loss: 2.0670 - accuracy: 0.6062 - val_loss: 1.8843 - val_accuracy: 0.7347
+Epoch 2/5
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[57],
+       [56],
+       [50],
+       [52],
+       [56],
+       [61],
+       [68],
+       [34],
+       [58],
+       [50],
+       [40],
+       [51],
+       [47],
+       [35],
+       [45],
+       [64],
+       [44],
+       [44],
+       [38],
+       [57],
+       [58],
+       [51],
+       [59],
+       [43],
+       [41],
+       [55],
+       [47],
+       [56],
+       [54],
+       [43],
+       [64],
+       [57]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [3],
+       [1],
+       [4],
+       [4],
+       [3],
+       [1],
+       [1],
+       [3],
+       [1],
+       [3],
+       [3],
+       [4],
+       [2],
+       [4],
+       [4],
+       [2],
+       [1],
+       [3],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[140],
+       [134],
+       [120],
+       [118],
+       [130],
+       [138],
+       [120],
+       [118],
+       [150],
+       [129],
+       [140],
+       [125],
+       [108],
+       [126],
+       [112],
+       [180],
+       [112],
+       [130],
+       [120],
+       [150],
+       [132],
+       [130],
+       [174],
+       [115],
+       [130],
+       [180],
+       [112],
+       [125],
+       [120],
+       [110],
+       [145],
+       [110]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[192],
+       [409],
+       [219],
+       [186],
+       [283],
+       [166],
+       [211],
+       [182],
+       [283],
+       [196],
+       [199],
+       [245],
+       [243],
+       [282],
+       [160],
+       [325],
+       [290],
+       [219],
+       [231],
+       [168],
+       [224],
+       [256],
+       [249],
+       [303],
+       [214],
+       [327],
+       [204],
+       [249],
+       [188],
+       [211],
+       [212],
+       [335]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[148],
+       [150],
+       [158],
+       [190],
+       [103],
+       [125],
+       [115],
+       [174],
+       [162],
+       [163],
+       [178],
+       [166],
+       [152],
+       [156],
+       [138],
+       [154],
+       [153],
+       [188],
+       [182],
+       [174],
+       [173],
+       [149],
+       [143],
+       [181],
+       [168],
+       [117],
+       [143],
+       [144],
+       [113],
+       [161],
+       [132],
+       [143]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0.4],
+       [1.9],
+       [1.6],
+       [0\. ],
+       [1.6],
+       [3.6],
+       [1.5],
+       [0\. ],
+       [1\. ],
+       [0\. ],
+       [1.4],
+       [2.4],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [3.8],
+       [1.6],
+       [3.2],
+       [0.5],
+       [0\. ],
+       [1.2],
+       [2\. ],
+       [3.4],
+       [0.1],
+       [1.2],
+       [1.4],
+       [0\. ],
+       [2\. ],
+       [3\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [2],
+       [2],
+       [3],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [2],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+1/7 [===>..........................] - ETA: 0s - loss: 2.3728 - accuracy: 0.6875WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[53],
+       [43],
+       [49],
+       [37],
+       [60],
+       [58],
+       [41],
+       [45],
+       [40],
+       [59],
+       [63],
+       [60],
+       [42],
+       [45],
+       [49],
+       [57],
+       [67],
+       [50],
+       [58],
+       [50],
+       [51],
+       [68],
+       [44],
+       [59],
+       [55],
+       [52],
+       [54],
+       [44],
+       [43],
+       [54],
+       [58],
+       [41]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [3],
+       [1],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [2],
+       [4],
+       [3],
+       [4],
+       [2],
+       [1],
+       [3],
+       [2],
+       [4],
+       [4],
+       [2],
+       [2],
+       [3],
+       [3],
+       [4],
+       [4],
+       [2]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[123],
+       [120],
+       [130],
+       [120],
+       [130],
+       [128],
+       [112],
+       [110],
+       [110],
+       [150],
+       [140],
+       [145],
+       [140],
+       [142],
+       [130],
+       [124],
+       [120],
+       [140],
+       [128],
+       [120],
+       [125],
+       [118],
+       [120],
+       [164],
+       [132],
+       [120],
+       [108],
+       [118],
+       [130],
+       [140],
+       [150],
+       [126]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[282],
+       [177],
+       [269],
+       [215],
+       [253],
+       [216],
+       [250],
+       [264],
+       [167],
+       [212],
+       [187],
+       [282],
+       [226],
+       [309],
+       [266],
+       [261],
+       [237],
+       [233],
+       [259],
+       [244],
+       [213],
+       [277],
+       [220],
+       [176],
+       [353],
+       [325],
+       [309],
+       [242],
+       [315],
+       [239],
+       [270],
+       [306]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[ 95],
+       [120],
+       [163],
+       [170],
+       [144],
+       [131],
+       [179],
+       [132],
+       [114],
+       [157],
+       [144],
+       [142],
+       [178],
+       [147],
+       [171],
+       [141],
+       [ 71],
+       [163],
+       [130],
+       [162],
+       [125],
+       [151],
+       [170],
+       [ 90],
+       [132],
+       [172],
+       [156],
+       [149],
+       [162],
+       [160],
+       [111],
+       [163]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[2\. ],
+       [2.5],
+       [0\. ],
+       [0\. ],
+       [1.4],
+       [2.2],
+       [0\. ],
+       [1.2],
+       [2\. ],
+       [1.6],
+       [4\. ],
+       [2.8],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [0.3],
+       [1\. ],
+       [0.6],
+       [3\. ],
+       [1.1],
+       [1.4],
+       [1\. ],
+       [0\. ],
+       [1\. ],
+       [1.2],
+       [0.2],
+       [0\. ],
+       [0.3],
+       [1.9],
+       [1.2],
+       [0.8],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [0],
+       [0],
+       [1],
+       [3],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [2],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[37],
+       [44],
+       [58],
+       [54],
+       [29],
+       [56],
+       [62],
+       [62],
+       [44],
+       [57],
+       [67],
+       [50],
+       [56],
+       [56],
+       [61],
+       [51],
+       [67],
+       [58],
+       [42],
+       [66],
+       [52],
+       [57],
+       [46],
+       [48],
+       [70],
+       [65],
+       [53],
+       [60],
+       [57],
+       [34],
+       [57],
+       [50]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [3],
+       [2],
+       [4],
+       [2],
+       [4],
+       [4],
+       [2],
+       [3],
+       [4],
+       [4],
+       [4],
+       [1],
+       [2],
+       [4],
+       [4],
+       [3],
+       [2],
+       [1],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [3],
+       [1],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[130],
+       [140],
+       [120],
+       [110],
+       [130],
+       [132],
+       [150],
+       [120],
+       [130],
+       [132],
+       [106],
+       [144],
+       [120],
+       [140],
+       [130],
+       [140],
+       [152],
+       [136],
+       [148],
+       [160],
+       [125],
+       [152],
+       [140],
+       [122],
+       [160],
+       [138],
+       [142],
+       [140],
+       [150],
+       [118],
+       [165],
+       [150]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[250],
+       [235],
+       [284],
+       [206],
+       [204],
+       [184],
+       [244],
+       [281],
+       [233],
+       [207],
+       [223],
+       [200],
+       [193],
+       [294],
+       [330],
+       [298],
+       [277],
+       [319],
+       [244],
+       [246],
+       [212],
+       [274],
+       [311],
+       [222],
+       [269],
+       [282],
+       [226],
+       [293],
+       [276],
+       [210],
+       [289],
+       [243]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[187],
+       [180],
+       [160],
+       [108],
+       [202],
+       [105],
+       [154],
+       [103],
+       [179],
+       [168],
+       [142],
+       [126],
+       [162],
+       [153],
+       [169],
+       [122],
+       [172],
+       [152],
+       [178],
+       [120],
+       [168],
+       [ 88],
+       [120],
+       [186],
+       [112],
+       [174],
+       [111],
+       [170],
+       [112],
+       [192],
+       [124],
+       [128]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[3.5],
+       [0\. ],
+       [1.8],
+       [0\. ],
+       [0\. ],
+       [2.1],
+       [1.4],
+       [1.4],
+       [0.4],
+       [0\. ],
+       [0.3],
+       [0.9],
+       [1.9],
+       [1.3],
+       [0\. ],
+       [4.2],
+       [0\. ],
+       [0\. ],
+       [0.8],
+       [0\. ],
+       [1\. ],
+       [1.2],
+       [1.8],
+       [0\. ],
+       [2.9],
+       [1.4],
+       [0\. ],
+       [1.2],
+       [0.6],
+       [0.7],
+       [1\. ],
+       [2.6]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [3],
+       [1],
+       [2],
+       [2],
+       [3],
+       [2],
+       [1],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [2],
+       [1],
+       [0],
+       [3],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+3/7 [===========>..................] - ETA: 0s - loss: 2.1748 - accuracy: 0.6562WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[56],
+       [58],
+       [60],
+       [54],
+       [46],
+       [67],
+       [67],
+       [53],
+       [46],
+       [49],
+       [43],
+       [54],
+       [68],
+       [43],
+       [61],
+       [59],
+       [50],
+       [62],
+       [62],
+       [54],
+       [57],
+       [45],
+       [39],
+       [74],
+       [45],
+       [63],
+       [48],
+       [68],
+       [62],
+       [64],
+       [63],
+       [58]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [4],
+       [4],
+       [3],
+       [3],
+       [2],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [1],
+       [4],
+       [4],
+       [3],
+       [3],
+       [2],
+       [4],
+       [3],
+       [2],
+       [4],
+       [3],
+       [2],
+       [0],
+       [4],
+       [3],
+       [4],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[200],
+       [100],
+       [102],
+       [124],
+       [150],
+       [100],
+       [160],
+       [130],
+       [142],
+       [134],
+       [122],
+       [110],
+       [144],
+       [150],
+       [148],
+       [134],
+       [110],
+       [120],
+       [130],
+       [150],
+       [154],
+       [138],
+       [ 94],
+       [120],
+       [104],
+       [135],
+       [110],
+       [144],
+       [140],
+       [125],
+       [124],
+       [105]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[288],
+       [234],
+       [318],
+       [266],
+       [231],
+       [299],
+       [286],
+       [246],
+       [177],
+       [271],
+       [213],
+       [239],
+       [193],
+       [247],
+       [203],
+       [204],
+       [254],
+       [267],
+       [231],
+       [232],
+       [232],
+       [236],
+       [199],
+       [269],
+       [208],
+       [252],
+       [229],
+       [193],
+       [394],
+       [309],
+       [197],
+       [240]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[133],
+       [156],
+       [160],
+       [109],
+       [147],
+       [125],
+       [108],
+       [173],
+       [160],
+       [162],
+       [165],
+       [126],
+       [141],
+       [171],
+       [161],
+       [162],
+       [159],
+       [ 99],
+       [146],
+       [165],
+       [164],
+       [152],
+       [179],
+       [121],
+       [148],
+       [172],
+       [168],
+       [141],
+       [157],
+       [131],
+       [136],
+       [154]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[4\. ],
+       [0.1],
+       [0\. ],
+       [2.2],
+       [3.6],
+       [0.9],
+       [1.5],
+       [0\. ],
+       [1.4],
+       [0\. ],
+       [0.2],
+       [2.8],
+       [3.4],
+       [1.5],
+       [0\. ],
+       [0.8],
+       [0\. ],
+       [1.8],
+       [1.8],
+       [1.6],
+       [0\. ],
+       [0.2],
+       [0\. ],
+       [0.2],
+       [3\. ],
+       [0\. ],
+       [1\. ],
+       [3.4],
+       [1.2],
+       [1.8],
+       [0\. ],
+       [0.6]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [3],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [1],
+       [1],
+       [1],
+       [0],
+       [2],
+       [3],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [1],
+       [2],
+       [0],
+       [2],
+       [3],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[49],
+       [65],
+       [43],
+       [42],
+       [54],
+       [42],
+       [53],
+       [57],
+       [64],
+       [67],
+       [56],
+       [66],
+       [59],
+       [52],
+       [57],
+       [42],
+       [71],
+       [64],
+       [58],
+       [55],
+       [69],
+       [52],
+       [60],
+       [59],
+       [42],
+       [51],
+       [46],
+       [53],
+       [51],
+       [55],
+       [66],
+       [64]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [3],
+       [4],
+       [2],
+       [3],
+       [3],
+       [4],
+       [2],
+       [4],
+       [3],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [2],
+       [1],
+       [4],
+       [2],
+       [1],
+       [4],
+       [4],
+       [0],
+       [4],
+       [4],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[120],
+       [140],
+       [132],
+       [120],
+       [110],
+       [120],
+       [130],
+       [130],
+       [128],
+       [115],
+       [120],
+       [120],
+       [126],
+       [128],
+       [120],
+       [136],
+       [160],
+       [170],
+       [100],
+       [132],
+       [160],
+       [112],
+       [150],
+       [164],
+       [102],
+       [130],
+       [138],
+       [130],
+       [110],
+       [140],
+       [160],
+       [140]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[188],
+       [417],
+       [341],
+       [295],
+       [214],
+       [240],
+       [264],
+       [236],
+       [263],
+       [564],
+       [240],
+       [302],
+       [218],
+       [255],
+       [354],
+       [315],
+       [302],
+       [227],
+       [248],
+       [342],
+       [234],
+       [230],
+       [258],
+       [176],
+       [265],
+       [305],
+       [243],
+       [197],
+       [175],
+       [217],
+       [228],
+       [313]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[139],
+       [157],
+       [136],
+       [162],
+       [158],
+       [194],
+       [143],
+       [174],
+       [105],
+       [160],
+       [169],
+       [151],
+       [134],
+       [161],
+       [163],
+       [125],
+       [162],
+       [155],
+       [122],
+       [166],
+       [131],
+       [160],
+       [157],
+       [ 90],
+       [122],
+       [142],
+       [152],
+       [152],
+       [123],
+       [111],
+       [138],
+       [133]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[2\. ],
+       [0.8],
+       [3\. ],
+       [0\. ],
+       [1.6],
+       [0.8],
+       [0.4],
+       [0\. ],
+       [0.2],
+       [1.6],
+       [0\. ],
+       [0.4],
+       [2.2],
+       [0\. ],
+       [0.6],
+       [1.8],
+       [0.4],
+       [0.6],
+       [1\. ],
+       [1.2],
+       [0.1],
+       [0\. ],
+       [2.6],
+       [1\. ],
+       [0.6],
+       [1.2],
+       [0\. ],
+       [1.2],
+       [0.6],
+       [5.6],
+       [2.3],
+       [0.2]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [3],
+       [2],
+       [2],
+       [2],
+       [2],
+       [3],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [3],
+       [1],
+       [3],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'1'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+5/7 [====================>.........] - ETA: 0s - loss: 1.5868 - accuracy: 0.6313WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[46],
+       [47],
+       [57],
+       [64],
+       [41],
+       [62],
+       [62],
+       [57],
+       [59],
+       [54],
+       [60],
+       [58],
+       [70],
+       [46],
+       [57],
+       [41],
+       [64],
+       [63],
+       [59],
+       [52],
+       [42],
+       [59],
+       [55],
+       [62],
+       [59],
+       [51],
+       [63],
+       [44],
+       [47],
+       [45],
+       [67],
+       [44]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [3],
+       [3],
+       [3],
+       [2],
+       [4],
+       [2],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [1],
+       [4],
+       [1],
+       [2],
+       [3],
+       [4],
+       [4],
+       [3],
+       [1],
+       [3],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [2]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[101],
+       [130],
+       [150],
+       [140],
+       [135],
+       [140],
+       [128],
+       [128],
+       [110],
+       [122],
+       [117],
+       [114],
+       [130],
+       [120],
+       [128],
+       [110],
+       [110],
+       [130],
+       [170],
+       [134],
+       [130],
+       [138],
+       [128],
+       [130],
+       [178],
+       [140],
+       [130],
+       [120],
+       [138],
+       [115],
+       [125],
+       [120]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[197],
+       [253],
+       [126],
+       [335],
+       [203],
+       [268],
+       [208],
+       [229],
+       [239],
+       [286],
+       [230],
+       [318],
+       [322],
+       [249],
+       [303],
+       [235],
+       [211],
+       [254],
+       [288],
+       [201],
+       [180],
+       [271],
+       [205],
+       [263],
+       [270],
+       [308],
+       [330],
+       [169],
+       [257],
+       [260],
+       [254],
+       [263]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [1],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [1],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[156],
+       [179],
+       [173],
+       [158],
+       [132],
+       [160],
+       [140],
+       [150],
+       [142],
+       [116],
+       [160],
+       [140],
+       [109],
+       [144],
+       [159],
+       [153],
+       [144],
+       [147],
+       [159],
+       [158],
+       [150],
+       [182],
+       [130],
+       [ 97],
+       [145],
+       [142],
+       [132],
+       [144],
+       [156],
+       [185],
+       [163],
+       [173]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0\. ],
+       [0.2],
+       [0\. ],
+       [0\. ],
+       [3.6],
+       [0\. ],
+       [0.4],
+       [1.2],
+       [3.2],
+       [1.4],
+       [4.4],
+       [2.4],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [1.8],
+       [1.4],
+       [0.2],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [2\. ],
+       [1.2],
+       [4.2],
+       [1.5],
+       [1.8],
+       [2.8],
+       [0\. ],
+       [0\. ],
+       [0.2],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [3],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [3],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [1],
+       [1],
+       [3],
+       [1],
+       [1],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [2],
+       [0],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [3],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [3],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[54]])>, 'sex': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'cp': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[3]])>, 'trestbps': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[135]])>, 'chol': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[304]])>, 'fbs': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[1]])>, 'restecg': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'thalach': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[170]])>, 'exang': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'oldpeak': <tf.Tensor: shape=(1, 1), dtype=float64, numpy=array([[0.]])>, 'slope': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[1]])>, 'ca': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'thal': <tf.Tensor: shape=(1, 1), dtype=string, numpy=array([[b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - ETA: 0s - loss: 1.5046 - accuracy: 0.5803WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[62],
+       [65],
+       [60],
+       [35],
+       [48],
+       [66],
+       [42],
+       [44],
+       [67],
+       [71],
+       [45],
+       [65],
+       [52],
+       [76],
+       [48],
+       [51],
+       [61],
+       [51],
+       [66],
+       [51],
+       [60],
+       [52],
+       [49],
+       [57],
+       [54],
+       [68],
+       [41],
+       [62],
+       [59],
+       [45],
+       [59],
+       [55]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [3],
+       [2],
+       [4],
+       [1],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [2],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[124],
+       [120],
+       [140],
+       [122],
+       [124],
+       [112],
+       [120],
+       [108],
+       [152],
+       [110],
+       [128],
+       [110],
+       [152],
+       [140],
+       [124],
+       [140],
+       [150],
+       [100],
+       [178],
+       [140],
+       [120],
+       [172],
+       [118],
+       [110],
+       [120],
+       [180],
+       [105],
+       [138],
+       [140],
+       [130],
+       [135],
+       [160]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[209],
+       [177],
+       [185],
+       [192],
+       [274],
+       [212],
+       [209],
+       [141],
+       [212],
+       [265],
+       [308],
+       [248],
+       [298],
+       [197],
+       [255],
+       [299],
+       [243],
+       [222],
+       [228],
+       [261],
+       [178],
+       [199],
+       [149],
+       [201],
+       [258],
+       [274],
+       [198],
+       [294],
+       [177],
+       [234],
+       [234],
+       [289]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[163],
+       [140],
+       [155],
+       [174],
+       [166],
+       [132],
+       [173],
+       [175],
+       [150],
+       [130],
+       [170],
+       [158],
+       [178],
+       [116],
+       [175],
+       [173],
+       [137],
+       [143],
+       [165],
+       [186],
+       [ 96],
+       [162],
+       [126],
+       [126],
+       [147],
+       [150],
+       [168],
+       [106],
+       [162],
+       [175],
+       [161],
+       [145]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0.4],
+       [3\. ],
+       [0\. ],
+       [0.5],
+       [0.1],
+       [0\. ],
+       [0.6],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.2],
+       [1.1],
+       [0\. ],
+       [1.6],
+       [1\. ],
+       [1.2],
+       [1\. ],
+       [0\. ],
+       [0\. ],
+       [0.5],
+       [0.8],
+       [1.5],
+       [0.4],
+       [1.6],
+       [0\. ],
+       [1.9],
+       [0\. ],
+       [0.6],
+       [0.5],
+       [0.8]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [3],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[77],
+       [39],
+       [60],
+       [41],
+       [56],
+       [51],
+       [59],
+       [41],
+       [60],
+       [64],
+       [64],
+       [70],
+       [62],
+       [58],
+       [58],
+       [67],
+       [35]])>, 'sex': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[125],
+       [118],
+       [130],
+       [130],
+       [130],
+       [ 94],
+       [140],
+       [120],
+       [125],
+       [130],
+       [120],
+       [156],
+       [160],
+       [125],
+       [130],
+       [120],
+       [138]])>, 'chol': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[304],
+       [219],
+       [206],
+       [204],
+       [256],
+       [227],
+       [221],
+       [157],
+       [258],
+       [303],
+       [246],
+       [245],
+       [164],
+       [300],
+       [197],
+       [229],
+       [183]])>, 'fbs': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[162],
+       [140],
+       [132],
+       [172],
+       [142],
+       [154],
+       [164],
+       [182],
+       [141],
+       [122],
+       [ 96],
+       [143],
+       [145],
+       [171],
+       [131],
+       [129],
+       [182]])>, 'exang': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(17, 1), dtype=float64, numpy=
+array([[0\. ],
+       [1.2],
+       [2.4],
+       [1.4],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [2.8],
+       [2\. ],
+       [2.2],
+       [0\. ],
+       [6.2],
+       [0\. ],
+       [0.6],
+       [2.6],
+       [1.4]])>, 'slope': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[3],
+       [0],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [2],
+       [1],
+       [0],
+       [3],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thal': <tf.Tensor: shape=(17, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - 0s 42ms/step - loss: 1.5046 - accuracy: 0.5803 - val_loss: 0.5387 - val_accuracy: 0.7551
+Epoch 3/5
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[49],
+       [43],
+       [58],
+       [42],
+       [42],
+       [59],
+       [62],
+       [64],
+       [56],
+       [59],
+       [60],
+       [67],
+       [58],
+       [43],
+       [54],
+       [52],
+       [63],
+       [37],
+       [44],
+       [34],
+       [49],
+       [63],
+       [50],
+       [64],
+       [56],
+       [57],
+       [68],
+       [42],
+       [47],
+       [62],
+       [53],
+       [35]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [1],
+       [2],
+       [1],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [2],
+       [4],
+       [3],
+       [2],
+       [1],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [3],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[120],
+       [150],
+       [100],
+       [102],
+       [120],
+       [134],
+       [120],
+       [110],
+       [132],
+       [174],
+       [130],
+       [106],
+       [100],
+       [130],
+       [120],
+       [120],
+       [130],
+       [130],
+       [120],
+       [118],
+       [134],
+       [124],
+       [140],
+       [128],
+       [200],
+       [132],
+       [144],
+       [120],
+       [112],
+       [130],
+       [130],
+       [126]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[188],
+       [247],
+       [234],
+       [265],
+       [240],
+       [204],
+       [281],
+       [211],
+       [184],
+       [249],
+       [253],
+       [223],
+       [248],
+       [315],
+       [188],
+       [325],
+       [254],
+       [250],
+       [220],
+       [182],
+       [271],
+       [197],
+       [233],
+       [263],
+       [288],
+       [207],
+       [193],
+       [295],
+       [204],
+       [263],
+       [197],
+       [282]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[139],
+       [171],
+       [156],
+       [122],
+       [194],
+       [162],
+       [103],
+       [144],
+       [105],
+       [143],
+       [144],
+       [142],
+       [122],
+       [162],
+       [113],
+       [172],
+       [147],
+       [187],
+       [170],
+       [174],
+       [162],
+       [136],
+       [163],
+       [105],
+       [133],
+       [168],
+       [141],
+       [162],
+       [143],
+       [ 97],
+       [152],
+       [156]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[2\. ],
+       [1.5],
+       [0.1],
+       [0.6],
+       [0.8],
+       [0.8],
+       [1.4],
+       [1.8],
+       [2.1],
+       [0\. ],
+       [1.4],
+       [0.3],
+       [1\. ],
+       [1.9],
+       [1.4],
+       [0.2],
+       [1.4],
+       [3.5],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [0.2],
+       [4\. ],
+       [0\. ],
+       [3.4],
+       [0\. ],
+       [0.1],
+       [1.2],
+       [1.2],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [1],
+       [1],
+       [2],
+       [3],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [3],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [3],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [3],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [0],
+       [1],
+       [0],
+       [0],
+       [2],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+1/7 [===>..........................] - ETA: 0s - loss: 0.4726 - accuracy: 0.7500WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[38],
+       [55],
+       [61],
+       [53],
+       [47],
+       [52],
+       [59],
+       [44],
+       [56],
+       [52],
+       [54],
+       [74],
+       [53],
+       [58],
+       [57],
+       [57],
+       [50],
+       [43],
+       [67],
+       [59],
+       [45],
+       [45],
+       [66],
+       [60],
+       [64],
+       [68],
+       [69],
+       [67],
+       [51],
+       [58],
+       [57],
+       [42]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [4],
+       [4],
+       [4],
+       [3],
+       [2],
+       [0],
+       [3],
+       [2],
+       [4],
+       [4],
+       [2],
+       [3],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [1],
+       [4],
+       [4],
+       [3],
+       [4],
+       [0],
+       [1],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[120],
+       [132],
+       [148],
+       [142],
+       [108],
+       [134],
+       [164],
+       [140],
+       [140],
+       [112],
+       [122],
+       [120],
+       [130],
+       [136],
+       [140],
+       [120],
+       [110],
+       [110],
+       [100],
+       [138],
+       [110],
+       [138],
+       [120],
+       [102],
+       [145],
+       [144],
+       [160],
+       [120],
+       [130],
+       [120],
+       [150],
+       [130]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[231],
+       [353],
+       [203],
+       [226],
+       [243],
+       [201],
+       [176],
+       [235],
+       [294],
+       [230],
+       [286],
+       [269],
+       [246],
+       [319],
+       [192],
+       [354],
+       [254],
+       [211],
+       [299],
+       [271],
+       [264],
+       [236],
+       [302],
+       [318],
+       [212],
+       [193],
+       [234],
+       [237],
+       [305],
+       [284],
+       [168],
+       [180]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [1],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[182],
+       [132],
+       [161],
+       [111],
+       [152],
+       [158],
+       [ 90],
+       [180],
+       [153],
+       [160],
+       [116],
+       [121],
+       [173],
+       [152],
+       [148],
+       [163],
+       [159],
+       [161],
+       [125],
+       [182],
+       [132],
+       [152],
+       [151],
+       [160],
+       [132],
+       [141],
+       [131],
+       [ 71],
+       [142],
+       [160],
+       [174],
+       [150]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[3.8],
+       [1.2],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0.8],
+       [1\. ],
+       [0\. ],
+       [1.3],
+       [0\. ],
+       [3.2],
+       [0.2],
+       [0\. ],
+       [0\. ],
+       [0.4],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [0.9],
+       [0\. ],
+       [1.2],
+       [0.2],
+       [0.4],
+       [0\. ],
+       [2\. ],
+       [3.4],
+       [0.1],
+       [1\. ],
+       [1.2],
+       [1.8],
+       [1.6],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [1],
+       [2],
+       [1],
+       [3],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [2],
+       [2],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'1'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[59],
+       [63],
+       [62],
+       [48],
+       [40],
+       [50],
+       [29],
+       [67],
+       [51],
+       [45],
+       [65],
+       [41],
+       [45],
+       [46],
+       [43],
+       [57],
+       [64],
+       [55],
+       [41],
+       [41],
+       [61],
+       [57],
+       [52],
+       [49],
+       [66],
+       [58],
+       [59],
+       [62],
+       [63],
+       [62],
+       [58],
+       [66]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [4],
+       [1],
+       [2],
+       [4],
+       [2],
+       [4],
+       [3],
+       [1],
+       [4],
+       [3],
+       [2],
+       [4],
+       [3],
+       [1],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [3],
+       [2]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[164],
+       [140],
+       [120],
+       [110],
+       [110],
+       [150],
+       [130],
+       [125],
+       [140],
+       [142],
+       [138],
+       [135],
+       [115],
+       [101],
+       [115],
+       [150],
+       [170],
+       [128],
+       [130],
+       [110],
+       [130],
+       [128],
+       [118],
+       [130],
+       [160],
+       [128],
+       [126],
+       [130],
+       [135],
+       [140],
+       [132],
+       [160]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[176],
+       [187],
+       [267],
+       [229],
+       [167],
+       [243],
+       [204],
+       [254],
+       [308],
+       [309],
+       [282],
+       [203],
+       [260],
+       [197],
+       [303],
+       [126],
+       [227],
+       [205],
+       [214],
+       [235],
+       [330],
+       [229],
+       [186],
+       [266],
+       [228],
+       [259],
+       [218],
+       [231],
+       [252],
+       [268],
+       [224],
+       [246]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [1],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[ 90],
+       [144],
+       [ 99],
+       [168],
+       [114],
+       [128],
+       [202],
+       [163],
+       [142],
+       [147],
+       [174],
+       [132],
+       [185],
+       [156],
+       [181],
+       [173],
+       [155],
+       [130],
+       [168],
+       [153],
+       [169],
+       [150],
+       [190],
+       [171],
+       [138],
+       [130],
+       [134],
+       [146],
+       [172],
+       [160],
+       [173],
+       [120]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[1\. ],
+       [4\. ],
+       [1.8],
+       [1\. ],
+       [2\. ],
+       [2.6],
+       [0\. ],
+       [0.2],
+       [1.5],
+       [0\. ],
+       [1.4],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [1.2],
+       [0.2],
+       [0.6],
+       [2\. ],
+       [2\. ],
+       [0\. ],
+       [0\. ],
+       [0.4],
+       [0\. ],
+       [0.6],
+       [2.3],
+       [3\. ],
+       [2.2],
+       [1.8],
+       [0\. ],
+       [3.6],
+       [3.2],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [1],
+       [2],
+       [3],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [3],
+       [1],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [1],
+       [3],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [1],
+       [3],
+       [0],
+       [2],
+       [2],
+       [3]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+3/7 [===========>..................] - ETA: 0s - loss: 0.9738 - accuracy: 0.6979WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[58],
+       [60],
+       [58],
+       [44],
+       [59],
+       [57],
+       [53],
+       [54],
+       [54],
+       [45],
+       [64],
+       [57],
+       [60],
+       [46],
+       [68],
+       [47],
+       [64],
+       [40],
+       [62],
+       [42],
+       [44],
+       [42],
+       [43],
+       [39],
+       [61],
+       [44],
+       [50],
+       [54],
+       [49],
+       [50],
+       [68],
+       [46]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [1],
+       [2],
+       [1],
+       [4],
+       [4],
+       [2],
+       [4],
+       [2],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [4],
+       [1],
+       [2],
+       [4],
+       [4],
+       [1],
+       [4],
+       [3],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[114],
+       [140],
+       [150],
+       [120],
+       [170],
+       [110],
+       [130],
+       [108],
+       [140],
+       [112],
+       [140],
+       [130],
+       [145],
+       [138],
+       [120],
+       [130],
+       [180],
+       [140],
+       [128],
+       [136],
+       [112],
+       [148],
+       [132],
+       [ 94],
+       [138],
+       [118],
+       [120],
+       [124],
+       [130],
+       [129],
+       [118],
+       [150]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[318],
+       [293],
+       [283],
+       [263],
+       [288],
+       [335],
+       [264],
+       [309],
+       [239],
+       [160],
+       [313],
+       [236],
+       [282],
+       [243],
+       [211],
+       [253],
+       [325],
+       [199],
+       [208],
+       [315],
+       [290],
+       [244],
+       [341],
+       [199],
+       [166],
+       [242],
+       [244],
+       [266],
+       [269],
+       [196],
+       [277],
+       [231]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[140],
+       [170],
+       [162],
+       [173],
+       [159],
+       [143],
+       [143],
+       [156],
+       [160],
+       [138],
+       [133],
+       [174],
+       [142],
+       [152],
+       [115],
+       [179],
+       [154],
+       [178],
+       [140],
+       [125],
+       [153],
+       [178],
+       [136],
+       [179],
+       [125],
+       [149],
+       [162],
+       [109],
+       [163],
+       [163],
+       [151],
+       [147]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[4.4],
+       [1.2],
+       [1\. ],
+       [0\. ],
+       [0.2],
+       [3\. ],
+       [0.4],
+       [0\. ],
+       [1.2],
+       [0\. ],
+       [0.2],
+       [0\. ],
+       [2.8],
+       [0\. ],
+       [1.5],
+       [0\. ],
+       [0\. ],
+       [1.4],
+       [0\. ],
+       [1.8],
+       [0\. ],
+       [0.8],
+       [3\. ],
+       [0\. ],
+       [3.6],
+       [0.3],
+       [1.1],
+       [2.2],
+       [0\. ],
+       [0\. ],
+       [1\. ],
+       [3.6]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [2],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[41],
+       [62],
+       [45],
+       [71],
+       [42],
+       [47],
+       [51],
+       [54],
+       [59],
+       [67],
+       [57],
+       [56],
+       [58],
+       [54],
+       [67],
+       [63],
+       [37],
+       [34],
+       [43],
+       [65],
+       [46],
+       [44],
+       [60],
+       [70],
+       [52],
+       [64],
+       [56],
+       [55],
+       [50],
+       [51],
+       [70],
+       [55]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [3],
+       [3],
+       [3],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [4],
+       [3],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [1],
+       [4],
+       [3],
+       [3],
+       [4],
+       [2]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[112],
+       [150],
+       [104],
+       [160],
+       [140],
+       [138],
+       [110],
+       [135],
+       [150],
+       [152],
+       [124],
+       [130],
+       [128],
+       [150],
+       [115],
+       [130],
+       [120],
+       [118],
+       [120],
+       [140],
+       [120],
+       [120],
+       [117],
+       [160],
+       [125],
+       [125],
+       [120],
+       [180],
+       [120],
+       [125],
+       [130],
+       [132]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[250],
+       [244],
+       [208],
+       [302],
+       [226],
+       [257],
+       [175],
+       [304],
+       [212],
+       [277],
+       [261],
+       [283],
+       [216],
+       [232],
+       [564],
+       [330],
+       [215],
+       [210],
+       [177],
+       [417],
+       [249],
+       [169],
+       [230],
+       [269],
+       [212],
+       [309],
+       [193],
+       [327],
+       [219],
+       [245],
+       [322],
+       [342]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [1],
+       [0],
+       [2],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[179],
+       [154],
+       [148],
+       [162],
+       [178],
+       [156],
+       [123],
+       [170],
+       [157],
+       [172],
+       [141],
+       [103],
+       [131],
+       [165],
+       [160],
+       [132],
+       [170],
+       [192],
+       [120],
+       [157],
+       [144],
+       [144],
+       [160],
+       [112],
+       [168],
+       [131],
+       [162],
+       [117],
+       [158],
+       [166],
+       [109],
+       [166]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [1.4],
+       [3\. ],
+       [0.4],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [0\. ],
+       [1.6],
+       [0\. ],
+       [0.3],
+       [1.6],
+       [2.2],
+       [1.6],
+       [1.6],
+       [1.8],
+       [0\. ],
+       [0.7],
+       [2.5],
+       [0.8],
+       [0.8],
+       [2.8],
+       [1.4],
+       [2.9],
+       [1\. ],
+       [1.8],
+       [1.9],
+       [3.4],
+       [1.6],
+       [2.4],
+       [2.4],
+       [1.2]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [3],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [3],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [2],
+       [1],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+5/7 [====================>.........] - ETA: 0s - loss: 1.0254 - accuracy: 0.7188WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[54],
+       [59],
+       [58],
+       [44],
+       [43],
+       [56],
+       [55],
+       [57],
+       [54],
+       [54],
+       [57],
+       [57],
+       [57],
+       [48],
+       [64],
+       [51],
+       [52],
+       [51],
+       [56],
+       [50],
+       [46],
+       [56],
+       [59],
+       [60],
+       [51],
+       [67],
+       [53],
+       [44],
+       [46],
+       [41],
+       [58],
+       [57]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [1],
+       [4],
+       [2],
+       [3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [2],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [1],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [3],
+       [4],
+       [2],
+       [3],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[110],
+       [178],
+       [150],
+       [130],
+       [122],
+       [125],
+       [140],
+       [165],
+       [110],
+       [110],
+       [154],
+       [150],
+       [152],
+       [122],
+       [140],
+       [140],
+       [128],
+       [125],
+       [120],
+       [144],
+       [142],
+       [134],
+       [110],
+       [150],
+       [130],
+       [160],
+       [123],
+       [130],
+       [140],
+       [126],
+       [105],
+       [128]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[239],
+       [270],
+       [270],
+       [219],
+       [213],
+       [249],
+       [217],
+       [289],
+       [214],
+       [206],
+       [232],
+       [276],
+       [274],
+       [222],
+       [335],
+       [298],
+       [255],
+       [213],
+       [240],
+       [200],
+       [177],
+       [409],
+       [239],
+       [258],
+       [256],
+       [286],
+       [282],
+       [233],
+       [311],
+       [306],
+       [240],
+       [303]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[126],
+       [145],
+       [111],
+       [188],
+       [165],
+       [144],
+       [111],
+       [124],
+       [158],
+       [108],
+       [164],
+       [112],
+       [ 88],
+       [186],
+       [158],
+       [122],
+       [161],
+       [125],
+       [169],
+       [126],
+       [160],
+       [150],
+       [142],
+       [157],
+       [149],
+       [108],
+       [ 95],
+       [179],
+       [120],
+       [163],
+       [154],
+       [159]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[2.8],
+       [4.2],
+       [0.8],
+       [0\. ],
+       [0.2],
+       [1.2],
+       [5.6],
+       [1\. ],
+       [1.6],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.2],
+       [0\. ],
+       [0\. ],
+       [4.2],
+       [0\. ],
+       [1.4],
+       [0\. ],
+       [0.9],
+       [1.4],
+       [1.9],
+       [1.2],
+       [2.6],
+       [0.5],
+       [1.5],
+       [2\. ],
+       [0.4],
+       [1.8],
+       [0\. ],
+       [0.6],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [3],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [3],
+       [2],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [3],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [3],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [1],
+       [2],
+       [0],
+       [3],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[62]])>, 'sex': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'cp': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[4]])>, 'trestbps': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[140]])>, 'chol': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[394]])>, 'fbs': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'restecg': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[2]])>, 'thalach': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[157]])>, 'exang': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'oldpeak': <tf.Tensor: shape=(1, 1), dtype=float64, numpy=array([[1.2]])>, 'slope': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[2]])>, 'ca': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'thal': <tf.Tensor: shape=(1, 1), dtype=string, numpy=array([[b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - ETA: 0s - loss: 1.0386 - accuracy: 0.6995WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[62],
+       [65],
+       [60],
+       [35],
+       [48],
+       [66],
+       [42],
+       [44],
+       [67],
+       [71],
+       [45],
+       [65],
+       [52],
+       [76],
+       [48],
+       [51],
+       [61],
+       [51],
+       [66],
+       [51],
+       [60],
+       [52],
+       [49],
+       [57],
+       [54],
+       [68],
+       [41],
+       [62],
+       [59],
+       [45],
+       [59],
+       [55]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [3],
+       [2],
+       [4],
+       [1],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [2],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[124],
+       [120],
+       [140],
+       [122],
+       [124],
+       [112],
+       [120],
+       [108],
+       [152],
+       [110],
+       [128],
+       [110],
+       [152],
+       [140],
+       [124],
+       [140],
+       [150],
+       [100],
+       [178],
+       [140],
+       [120],
+       [172],
+       [118],
+       [110],
+       [120],
+       [180],
+       [105],
+       [138],
+       [140],
+       [130],
+       [135],
+       [160]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[209],
+       [177],
+       [185],
+       [192],
+       [274],
+       [212],
+       [209],
+       [141],
+       [212],
+       [265],
+       [308],
+       [248],
+       [298],
+       [197],
+       [255],
+       [299],
+       [243],
+       [222],
+       [228],
+       [261],
+       [178],
+       [199],
+       [149],
+       [201],
+       [258],
+       [274],
+       [198],
+       [294],
+       [177],
+       [234],
+       [234],
+       [289]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[163],
+       [140],
+       [155],
+       [174],
+       [166],
+       [132],
+       [173],
+       [175],
+       [150],
+       [130],
+       [170],
+       [158],
+       [178],
+       [116],
+       [175],
+       [173],
+       [137],
+       [143],
+       [165],
+       [186],
+       [ 96],
+       [162],
+       [126],
+       [126],
+       [147],
+       [150],
+       [168],
+       [106],
+       [162],
+       [175],
+       [161],
+       [145]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0.4],
+       [3\. ],
+       [0\. ],
+       [0.5],
+       [0.1],
+       [0\. ],
+       [0.6],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.2],
+       [1.1],
+       [0\. ],
+       [1.6],
+       [1\. ],
+       [1.2],
+       [1\. ],
+       [0\. ],
+       [0\. ],
+       [0.5],
+       [0.8],
+       [1.5],
+       [0.4],
+       [1.6],
+       [0\. ],
+       [1.9],
+       [0\. ],
+       [0.6],
+       [0.5],
+       [0.8]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [3],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[77],
+       [39],
+       [60],
+       [41],
+       [56],
+       [51],
+       [59],
+       [41],
+       [60],
+       [64],
+       [64],
+       [70],
+       [62],
+       [58],
+       [58],
+       [67],
+       [35]])>, 'sex': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[125],
+       [118],
+       [130],
+       [130],
+       [130],
+       [ 94],
+       [140],
+       [120],
+       [125],
+       [130],
+       [120],
+       [156],
+       [160],
+       [125],
+       [130],
+       [120],
+       [138]])>, 'chol': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[304],
+       [219],
+       [206],
+       [204],
+       [256],
+       [227],
+       [221],
+       [157],
+       [258],
+       [303],
+       [246],
+       [245],
+       [164],
+       [300],
+       [197],
+       [229],
+       [183]])>, 'fbs': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[162],
+       [140],
+       [132],
+       [172],
+       [142],
+       [154],
+       [164],
+       [182],
+       [141],
+       [122],
+       [ 96],
+       [143],
+       [145],
+       [171],
+       [131],
+       [129],
+       [182]])>, 'exang': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(17, 1), dtype=float64, numpy=
+array([[0\. ],
+       [1.2],
+       [2.4],
+       [1.4],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [2.8],
+       [2\. ],
+       [2.2],
+       [0\. ],
+       [6.2],
+       [0\. ],
+       [0.6],
+       [2.6],
+       [1.4]])>, 'slope': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[3],
+       [0],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [2],
+       [1],
+       [0],
+       [3],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thal': <tf.Tensor: shape=(17, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - 0s 42ms/step - loss: 1.0386 - accuracy: 0.6995 - val_loss: 0.6039 - val_accuracy: 0.6531
+Epoch 4/5
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[52],
+       [58],
+       [49],
+       [60],
+       [34],
+       [41],
+       [58],
+       [58],
+       [59],
+       [52],
+       [49],
+       [57],
+       [42],
+       [57],
+       [67],
+       [44],
+       [62],
+       [53],
+       [50],
+       [48],
+       [58],
+       [58],
+       [53],
+       [42],
+       [56],
+       [45],
+       [60],
+       [62],
+       [44],
+       [57],
+       [65],
+       [46]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [2],
+       [4],
+       [4],
+       [1],
+       [3],
+       [2],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [3],
+       [4],
+       [3],
+       [2],
+       [3],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [1],
+       [4],
+       [4],
+       [2],
+       [3],
+       [1],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[125],
+       [136],
+       [130],
+       [140],
+       [118],
+       [112],
+       [120],
+       [128],
+       [174],
+       [112],
+       [130],
+       [152],
+       [120],
+       [150],
+       [100],
+       [118],
+       [128],
+       [130],
+       [120],
+       [110],
+       [150],
+       [100],
+       [130],
+       [102],
+       [120],
+       [110],
+       [150],
+       [140],
+       [130],
+       [150],
+       [138],
+       [150]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[212],
+       [319],
+       [269],
+       [293],
+       [182],
+       [250],
+       [284],
+       [259],
+       [249],
+       [230],
+       [266],
+       [274],
+       [240],
+       [126],
+       [299],
+       [242],
+       [208],
+       [197],
+       [244],
+       [229],
+       [270],
+       [248],
+       [264],
+       [265],
+       [240],
+       [264],
+       [258],
+       [394],
+       [219],
+       [168],
+       [282],
+       [231]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[168],
+       [152],
+       [163],
+       [170],
+       [174],
+       [179],
+       [160],
+       [130],
+       [143],
+       [160],
+       [171],
+       [ 88],
+       [194],
+       [173],
+       [125],
+       [149],
+       [140],
+       [152],
+       [162],
+       [168],
+       [111],
+       [122],
+       [143],
+       [122],
+       [169],
+       [132],
+       [157],
+       [157],
+       [188],
+       [174],
+       [174],
+       [147]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[1\. ],
+       [0\. ],
+       [0\. ],
+       [1.2],
+       [0\. ],
+       [0\. ],
+       [1.8],
+       [3\. ],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.2],
+       [0.8],
+       [0.2],
+       [0.9],
+       [0.3],
+       [0\. ],
+       [1.2],
+       [1.1],
+       [1\. ],
+       [0.8],
+       [1\. ],
+       [0.4],
+       [0.6],
+       [0\. ],
+       [1.2],
+       [2.6],
+       [1.2],
+       [0\. ],
+       [1.6],
+       [1.4],
+       [3.6]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1],
+       [3],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [2],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [2],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+1/7 [===>..........................] - ETA: 0s - loss: 0.5663 - accuracy: 0.6875WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[63],
+       [57],
+       [44],
+       [41],
+       [46],
+       [66],
+       [51],
+       [46],
+       [62],
+       [58],
+       [41],
+       [68],
+       [58],
+       [64],
+       [60],
+       [63],
+       [45],
+       [57],
+       [52],
+       [59],
+       [29],
+       [42],
+       [63],
+       [56],
+       [58],
+       [40],
+       [55],
+       [67],
+       [52],
+       [64],
+       [43],
+       [42]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [2],
+       [3],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [0],
+       [3],
+       [3],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [1],
+       [2],
+       [1],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [1],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[135],
+       [154],
+       [140],
+       [135],
+       [138],
+       [160],
+       [140],
+       [120],
+       [140],
+       [100],
+       [126],
+       [144],
+       [132],
+       [125],
+       [102],
+       [130],
+       [115],
+       [128],
+       [128],
+       [134],
+       [130],
+       [148],
+       [130],
+       [130],
+       [114],
+       [110],
+       [180],
+       [160],
+       [120],
+       [170],
+       [110],
+       [140]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[252],
+       [232],
+       [235],
+       [203],
+       [243],
+       [228],
+       [298],
+       [249],
+       [268],
+       [234],
+       [306],
+       [193],
+       [224],
+       [309],
+       [318],
+       [254],
+       [260],
+       [303],
+       [255],
+       [204],
+       [204],
+       [244],
+       [330],
+       [283],
+       [318],
+       [167],
+       [327],
+       [286],
+       [325],
+       [227],
+       [211],
+       [226]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[172],
+       [164],
+       [180],
+       [132],
+       [152],
+       [138],
+       [122],
+       [144],
+       [160],
+       [156],
+       [163],
+       [141],
+       [173],
+       [131],
+       [160],
+       [147],
+       [185],
+       [159],
+       [161],
+       [162],
+       [202],
+       [178],
+       [132],
+       [103],
+       [140],
+       [114],
+       [117],
+       [108],
+       [172],
+       [155],
+       [161],
+       [178]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [2.3],
+       [4.2],
+       [0.8],
+       [3.6],
+       [0.1],
+       [0\. ],
+       [3.4],
+       [3.2],
+       [1.8],
+       [0\. ],
+       [1.4],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0.8],
+       [0\. ],
+       [0.8],
+       [1.8],
+       [1.6],
+       [4.4],
+       [2\. ],
+       [3.4],
+       [1.5],
+       [0.2],
+       [0.6],
+       [0\. ],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [3],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [3],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0],
+       [2],
+       [1],
+       [0],
+       [2],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [2],
+       [0],
+       [2],
+       [3],
+       [0],
+       [3],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[59],
+       [66],
+       [55],
+       [43],
+       [56],
+       [45],
+       [64],
+       [57],
+       [57],
+       [67],
+       [44],
+       [54],
+       [41],
+       [63],
+       [54],
+       [49],
+       [46],
+       [62],
+       [68],
+       [56],
+       [64],
+       [59],
+       [54],
+       [43],
+       [56],
+       [69],
+       [59],
+       [58],
+       [54],
+       [64],
+       [39],
+       [61]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [1],
+       [2],
+       [2],
+       [3],
+       [3],
+       [3],
+       [3],
+       [4],
+       [4],
+       [2],
+       [3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [3],
+       [4],
+       [3],
+       [4],
+       [1],
+       [1],
+       [1],
+       [4],
+       [4],
+       [3],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[164],
+       [160],
+       [132],
+       [115],
+       [200],
+       [142],
+       [110],
+       [130],
+       [124],
+       [115],
+       [130],
+       [135],
+       [130],
+       [140],
+       [120],
+       [134],
+       [142],
+       [150],
+       [144],
+       [134],
+       [140],
+       [126],
+       [122],
+       [130],
+       [125],
+       [160],
+       [170],
+       [150],
+       [110],
+       [145],
+       [ 94],
+       [130]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[176],
+       [246],
+       [342],
+       [303],
+       [288],
+       [309],
+       [211],
+       [236],
+       [261],
+       [564],
+       [233],
+       [304],
+       [214],
+       [187],
+       [188],
+       [271],
+       [177],
+       [244],
+       [193],
+       [409],
+       [313],
+       [218],
+       [286],
+       [315],
+       [249],
+       [234],
+       [288],
+       [283],
+       [206],
+       [212],
+       [199],
+       [330]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[ 90],
+       [120],
+       [166],
+       [181],
+       [133],
+       [147],
+       [144],
+       [174],
+       [141],
+       [160],
+       [179],
+       [170],
+       [168],
+       [144],
+       [113],
+       [162],
+       [160],
+       [154],
+       [141],
+       [150],
+       [133],
+       [134],
+       [116],
+       [162],
+       [144],
+       [131],
+       [159],
+       [162],
+       [108],
+       [132],
+       [179],
+       [169]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[1\. ],
+       [0\. ],
+       [1.2],
+       [1.2],
+       [4\. ],
+       [0\. ],
+       [1.8],
+       [0\. ],
+       [0.3],
+       [1.6],
+       [0.4],
+       [0\. ],
+       [2\. ],
+       [4\. ],
+       [1.4],
+       [0\. ],
+       [1.4],
+       [1.4],
+       [3.4],
+       [1.9],
+       [0.2],
+       [2.2],
+       [3.2],
+       [1.9],
+       [1.2],
+       [0.1],
+       [0.2],
+       [1\. ],
+       [0\. ],
+       [2\. ],
+       [0\. ],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [1],
+       [2],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [3],
+       [0],
+       [0],
+       [2],
+       [3],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'1'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+3/7 [===========>..................] - ETA: 0s - loss: 0.6564 - accuracy: 0.6562WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[35],
+       [62],
+       [44],
+       [57],
+       [64],
+       [67],
+       [62],
+       [68],
+       [50],
+       [53],
+       [48],
+       [59],
+       [49],
+       [43],
+       [50],
+       [51],
+       [54],
+       [44],
+       [65],
+       [50],
+       [56],
+       [57],
+       [51],
+       [64],
+       [43],
+       [50],
+       [51],
+       [50],
+       [50],
+       [44],
+       [53],
+       [37]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [1],
+       [3],
+       [2],
+       [3],
+       [4],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[126],
+       [130],
+       [120],
+       [120],
+       [180],
+       [106],
+       [130],
+       [118],
+       [129],
+       [142],
+       [122],
+       [164],
+       [120],
+       [150],
+       [120],
+       [125],
+       [150],
+       [120],
+       [140],
+       [144],
+       [140],
+       [165],
+       [110],
+       [128],
+       [132],
+       [110],
+       [140],
+       [140],
+       [150],
+       [120],
+       [130],
+       [120]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[282],
+       [263],
+       [220],
+       [354],
+       [325],
+       [223],
+       [231],
+       [277],
+       [196],
+       [226],
+       [222],
+       [176],
+       [188],
+       [247],
+       [219],
+       [213],
+       [232],
+       [263],
+       [417],
+       [200],
+       [294],
+       [289],
+       [175],
+       [263],
+       [341],
+       [254],
+       [308],
+       [233],
+       [243],
+       [169],
+       [246],
+       [215]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[156],
+       [ 97],
+       [170],
+       [163],
+       [154],
+       [142],
+       [146],
+       [151],
+       [163],
+       [111],
+       [186],
+       [ 90],
+       [139],
+       [171],
+       [158],
+       [125],
+       [165],
+       [173],
+       [157],
+       [126],
+       [153],
+       [124],
+       [123],
+       [105],
+       [136],
+       [159],
+       [142],
+       [163],
+       [128],
+       [144],
+       [173],
+       [170]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [1.2],
+       [0\. ],
+       [0.6],
+       [0\. ],
+       [0.3],
+       [1.8],
+       [1\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [1\. ],
+       [2\. ],
+       [1.5],
+       [1.6],
+       [1.4],
+       [1.6],
+       [0\. ],
+       [0.8],
+       [0.9],
+       [1.3],
+       [1\. ],
+       [0.6],
+       [0.2],
+       [3\. ],
+       [0\. ],
+       [1.5],
+       [0.6],
+       [2.6],
+       [2.8],
+       [0\. ],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [3],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [3],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [3],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [3],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[57],
+       [66],
+       [47],
+       [60],
+       [37],
+       [59],
+       [54],
+       [46],
+       [62],
+       [40],
+       [68],
+       [53],
+       [57],
+       [44],
+       [54],
+       [63],
+       [54],
+       [54],
+       [47],
+       [71],
+       [51],
+       [58],
+       [34],
+       [59],
+       [52],
+       [62],
+       [61],
+       [42],
+       [64],
+       [51],
+       [55],
+       [60]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [1],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [2],
+       [3],
+       [4],
+       [2],
+       [4],
+       [2],
+       [2],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[110],
+       [120],
+       [112],
+       [117],
+       [130],
+       [110],
+       [140],
+       [140],
+       [120],
+       [140],
+       [120],
+       [123],
+       [140],
+       [112],
+       [110],
+       [124],
+       [108],
+       [124],
+       [130],
+       [160],
+       [130],
+       [128],
+       [118],
+       [138],
+       [134],
+       [120],
+       [148],
+       [130],
+       [140],
+       [130],
+       [140],
+       [145]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[335],
+       [302],
+       [204],
+       [230],
+       [250],
+       [239],
+       [239],
+       [311],
+       [267],
+       [199],
+       [211],
+       [282],
+       [192],
+       [290],
+       [239],
+       [197],
+       [309],
+       [266],
+       [253],
+       [302],
+       [256],
+       [216],
+       [210],
+       [271],
+       [201],
+       [281],
+       [203],
+       [180],
+       [335],
+       [305],
+       [217],
+       [282]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[143],
+       [151],
+       [143],
+       [160],
+       [187],
+       [142],
+       [160],
+       [120],
+       [ 99],
+       [178],
+       [115],
+       [ 95],
+       [148],
+       [153],
+       [126],
+       [136],
+       [156],
+       [109],
+       [179],
+       [162],
+       [149],
+       [131],
+       [192],
+       [182],
+       [158],
+       [103],
+       [161],
+       [150],
+       [158],
+       [142],
+       [111],
+       [142]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[3\. ],
+       [0.4],
+       [0.1],
+       [1.4],
+       [3.5],
+       [1.2],
+       [1.2],
+       [1.8],
+       [1.8],
+       [1.4],
+       [1.5],
+       [2\. ],
+       [0.4],
+       [0\. ],
+       [2.8],
+       [0\. ],
+       [0\. ],
+       [2.2],
+       [0\. ],
+       [0.4],
+       [0.5],
+       [2.2],
+       [0.7],
+       [0\. ],
+       [0.8],
+       [1.4],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [1.2],
+       [5.6],
+       [2.8]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [1],
+       [1],
+       [3],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [3],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [2],
+       [0],
+       [1],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [3],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+5/7 [====================>.........] - ETA: 0s - loss: 0.6322 - accuracy: 0.6750WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[70],
+       [45],
+       [47],
+       [57],
+       [43],
+       [61],
+       [42],
+       [67],
+       [46],
+       [55],
+       [51],
+       [45],
+       [59],
+       [56],
+       [55],
+       [70],
+       [41],
+       [59],
+       [57],
+       [60],
+       [43],
+       [42],
+       [67],
+       [67],
+       [38],
+       [74],
+       [56],
+       [57],
+       [52],
+       [47],
+       [54],
+       [58]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [2],
+       [3],
+       [1],
+       [4],
+       [4],
+       [2],
+       [1],
+       [4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [4],
+       [1],
+       [2],
+       [4],
+       [4],
+       [1],
+       [3],
+       [3],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[160],
+       [104],
+       [138],
+       [128],
+       [122],
+       [138],
+       [136],
+       [120],
+       [101],
+       [132],
+       [125],
+       [112],
+       [150],
+       [120],
+       [128],
+       [130],
+       [110],
+       [178],
+       [132],
+       [130],
+       [120],
+       [120],
+       [152],
+       [125],
+       [120],
+       [120],
+       [132],
+       [150],
+       [118],
+       [108],
+       [110],
+       [105]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[269],
+       [208],
+       [257],
+       [229],
+       [213],
+       [166],
+       [315],
+       [237],
+       [197],
+       [353],
+       [245],
+       [160],
+       [212],
+       [193],
+       [205],
+       [322],
+       [235],
+       [270],
+       [207],
+       [253],
+       [177],
+       [295],
+       [277],
+       [254],
+       [231],
+       [269],
+       [184],
+       [276],
+       [186],
+       [243],
+       [214],
+       [240]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [1],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[112],
+       [148],
+       [156],
+       [150],
+       [165],
+       [125],
+       [125],
+       [ 71],
+       [156],
+       [132],
+       [166],
+       [138],
+       [157],
+       [162],
+       [130],
+       [109],
+       [153],
+       [145],
+       [168],
+       [144],
+       [120],
+       [162],
+       [172],
+       [163],
+       [182],
+       [121],
+       [105],
+       [112],
+       [190],
+       [152],
+       [158],
+       [154]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[2.9],
+       [3\. ],
+       [0\. ],
+       [0.4],
+       [0.2],
+       [3.6],
+       [1.8],
+       [1\. ],
+       [0\. ],
+       [1.2],
+       [2.4],
+       [0\. ],
+       [1.6],
+       [1.9],
+       [2\. ],
+       [2.4],
+       [0\. ],
+       [4.2],
+       [0\. ],
+       [1.4],
+       [2.5],
+       [0\. ],
+       [0\. ],
+       [0.2],
+       [3.8],
+       [0.2],
+       [2.1],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [1.6],
+       [0.6]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [3],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'fixed'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[45]])>, 'sex': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'cp': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[4]])>, 'trestbps': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[138]])>, 'chol': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[236]])>, 'fbs': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'restecg': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[2]])>, 'thalach': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[152]])>, 'exang': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[1]])>, 'oldpeak': <tf.Tensor: shape=(1, 1), dtype=float64, numpy=array([[0.2]])>, 'slope': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[2]])>, 'ca': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'thal': <tf.Tensor: shape=(1, 1), dtype=string, numpy=array([[b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - ETA: 0s - loss: 0.6209 - accuracy: 0.6943WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[62],
+       [65],
+       [60],
+       [35],
+       [48],
+       [66],
+       [42],
+       [44],
+       [67],
+       [71],
+       [45],
+       [65],
+       [52],
+       [76],
+       [48],
+       [51],
+       [61],
+       [51],
+       [66],
+       [51],
+       [60],
+       [52],
+       [49],
+       [57],
+       [54],
+       [68],
+       [41],
+       [62],
+       [59],
+       [45],
+       [59],
+       [55]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [3],
+       [2],
+       [4],
+       [1],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [2],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[124],
+       [120],
+       [140],
+       [122],
+       [124],
+       [112],
+       [120],
+       [108],
+       [152],
+       [110],
+       [128],
+       [110],
+       [152],
+       [140],
+       [124],
+       [140],
+       [150],
+       [100],
+       [178],
+       [140],
+       [120],
+       [172],
+       [118],
+       [110],
+       [120],
+       [180],
+       [105],
+       [138],
+       [140],
+       [130],
+       [135],
+       [160]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[209],
+       [177],
+       [185],
+       [192],
+       [274],
+       [212],
+       [209],
+       [141],
+       [212],
+       [265],
+       [308],
+       [248],
+       [298],
+       [197],
+       [255],
+       [299],
+       [243],
+       [222],
+       [228],
+       [261],
+       [178],
+       [199],
+       [149],
+       [201],
+       [258],
+       [274],
+       [198],
+       [294],
+       [177],
+       [234],
+       [234],
+       [289]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[163],
+       [140],
+       [155],
+       [174],
+       [166],
+       [132],
+       [173],
+       [175],
+       [150],
+       [130],
+       [170],
+       [158],
+       [178],
+       [116],
+       [175],
+       [173],
+       [137],
+       [143],
+       [165],
+       [186],
+       [ 96],
+       [162],
+       [126],
+       [126],
+       [147],
+       [150],
+       [168],
+       [106],
+       [162],
+       [175],
+       [161],
+       [145]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0.4],
+       [3\. ],
+       [0\. ],
+       [0.5],
+       [0.1],
+       [0\. ],
+       [0.6],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.2],
+       [1.1],
+       [0\. ],
+       [1.6],
+       [1\. ],
+       [1.2],
+       [1\. ],
+       [0\. ],
+       [0\. ],
+       [0.5],
+       [0.8],
+       [1.5],
+       [0.4],
+       [1.6],
+       [0\. ],
+       [1.9],
+       [0\. ],
+       [0.6],
+       [0.5],
+       [0.8]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [3],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[77],
+       [39],
+       [60],
+       [41],
+       [56],
+       [51],
+       [59],
+       [41],
+       [60],
+       [64],
+       [64],
+       [70],
+       [62],
+       [58],
+       [58],
+       [67],
+       [35]])>, 'sex': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[125],
+       [118],
+       [130],
+       [130],
+       [130],
+       [ 94],
+       [140],
+       [120],
+       [125],
+       [130],
+       [120],
+       [156],
+       [160],
+       [125],
+       [130],
+       [120],
+       [138]])>, 'chol': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[304],
+       [219],
+       [206],
+       [204],
+       [256],
+       [227],
+       [221],
+       [157],
+       [258],
+       [303],
+       [246],
+       [245],
+       [164],
+       [300],
+       [197],
+       [229],
+       [183]])>, 'fbs': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[162],
+       [140],
+       [132],
+       [172],
+       [142],
+       [154],
+       [164],
+       [182],
+       [141],
+       [122],
+       [ 96],
+       [143],
+       [145],
+       [171],
+       [131],
+       [129],
+       [182]])>, 'exang': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(17, 1), dtype=float64, numpy=
+array([[0\. ],
+       [1.2],
+       [2.4],
+       [1.4],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [2.8],
+       [2\. ],
+       [2.2],
+       [0\. ],
+       [6.2],
+       [0\. ],
+       [0.6],
+       [2.6],
+       [1.4]])>, 'slope': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[3],
+       [0],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [2],
+       [1],
+       [0],
+       [3],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thal': <tf.Tensor: shape=(17, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - 0s 43ms/step - loss: 0.6209 - accuracy: 0.6943 - val_loss: 0.6867 - val_accuracy: 0.7347
+Epoch 5/5
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[60],
+       [51],
+       [49],
+       [64],
+       [54],
+       [58],
+       [42],
+       [68],
+       [70],
+       [58],
+       [66],
+       [57],
+       [57],
+       [51],
+       [60],
+       [59],
+       [55],
+       [67],
+       [49],
+       [53],
+       [50],
+       [54],
+       [65],
+       [56],
+       [48],
+       [59],
+       [63],
+       [50],
+       [59],
+       [34],
+       [54],
+       [68]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [3],
+       [3],
+       [1],
+       [2],
+       [4],
+       [3],
+       [4],
+       [3],
+       [2],
+       [2],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[130],
+       [130],
+       [120],
+       [110],
+       [108],
+       [100],
+       [130],
+       [144],
+       [160],
+       [136],
+       [160],
+       [132],
+       [128],
+       [110],
+       [145],
+       [138],
+       [132],
+       [100],
+       [130],
+       [130],
+       [140],
+       [122],
+       [140],
+       [140],
+       [122],
+       [174],
+       [135],
+       [150],
+       [110],
+       [118],
+       [140],
+       [118]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[253],
+       [256],
+       [188],
+       [211],
+       [309],
+       [248],
+       [180],
+       [193],
+       [269],
+       [319],
+       [246],
+       [207],
+       [229],
+       [175],
+       [282],
+       [271],
+       [353],
+       [299],
+       [269],
+       [264],
+       [233],
+       [286],
+       [417],
+       [294],
+       [222],
+       [249],
+       [252],
+       [243],
+       [239],
+       [210],
+       [239],
+       [277]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[144],
+       [149],
+       [139],
+       [144],
+       [156],
+       [122],
+       [150],
+       [141],
+       [112],
+       [152],
+       [120],
+       [168],
+       [150],
+       [123],
+       [142],
+       [182],
+       [132],
+       [125],
+       [163],
+       [143],
+       [163],
+       [116],
+       [157],
+       [153],
+       [186],
+       [143],
+       [172],
+       [128],
+       [142],
+       [192],
+       [160],
+       [151]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[1.4],
+       [0.5],
+       [2\. ],
+       [1.8],
+       [0\. ],
+       [1\. ],
+       [0\. ],
+       [3.4],
+       [2.9],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0.4],
+       [0.6],
+       [2.8],
+       [0\. ],
+       [1.2],
+       [0.9],
+       [0\. ],
+       [0.4],
+       [0.6],
+       [3.2],
+       [0.8],
+       [1.3],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [2.6],
+       [1.2],
+       [0.7],
+       [1.2],
+       [1\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [1],
+       [2],
+       [3],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [1],
+       [2],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+1/7 [===>..........................] - ETA: 0s - loss: 0.8235 - accuracy: 0.6562WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[47],
+       [51],
+       [57],
+       [54],
+       [56],
+       [52],
+       [42],
+       [74],
+       [57],
+       [58],
+       [55],
+       [50],
+       [56],
+       [59],
+       [52],
+       [51],
+       [41],
+       [60],
+       [34],
+       [67],
+       [45],
+       [62],
+       [56],
+       [51],
+       [57],
+       [45],
+       [53],
+       [64],
+       [59],
+       [58],
+       [56],
+       [69]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [3],
+       [3],
+       [3],
+       [4],
+       [2],
+       [4],
+       [2],
+       [2],
+       [3],
+       [4],
+       [4],
+       [4],
+       [1],
+       [4],
+       [4],
+       [3],
+       [4],
+       [1],
+       [3],
+       [1],
+       [2],
+       [4],
+       [3],
+       [2],
+       [4],
+       [3],
+       [1],
+       [1],
+       [4],
+       [4],
+       [1]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[108],
+       [140],
+       [150],
+       [110],
+       [132],
+       [120],
+       [140],
+       [120],
+       [130],
+       [132],
+       [140],
+       [144],
+       [125],
+       [170],
+       [128],
+       [130],
+       [112],
+       [150],
+       [118],
+       [152],
+       [110],
+       [128],
+       [134],
+       [125],
+       [124],
+       [115],
+       [130],
+       [170],
+       [178],
+       [128],
+       [200],
+       [160]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[243],
+       [308],
+       [168],
+       [214],
+       [184],
+       [325],
+       [226],
+       [269],
+       [236],
+       [224],
+       [217],
+       [200],
+       [249],
+       [288],
+       [255],
+       [305],
+       [250],
+       [258],
+       [182],
+       [277],
+       [264],
+       [208],
+       [409],
+       [245],
+       [261],
+       [260],
+       [197],
+       [227],
+       [270],
+       [216],
+       [288],
+       [234]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[152],
+       [142],
+       [174],
+       [158],
+       [105],
+       [172],
+       [178],
+       [121],
+       [174],
+       [173],
+       [111],
+       [126],
+       [144],
+       [159],
+       [161],
+       [142],
+       [179],
+       [157],
+       [174],
+       [172],
+       [132],
+       [140],
+       [150],
+       [166],
+       [141],
+       [185],
+       [152],
+       [155],
+       [145],
+       [131],
+       [133],
+       [131]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [1.5],
+       [1.6],
+       [1.6],
+       [2.1],
+       [0.2],
+       [0\. ],
+       [0.2],
+       [0\. ],
+       [3.2],
+       [5.6],
+       [0.9],
+       [1.2],
+       [0.2],
+       [0\. ],
+       [1.2],
+       [0\. ],
+       [2.6],
+       [0\. ],
+       [0\. ],
+       [1.2],
+       [0\. ],
+       [1.9],
+       [2.4],
+       [0.3],
+       [0\. ],
+       [1.2],
+       [0.6],
+       [4.2],
+       [2.2],
+       [4\. ],
+       [0.1]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [3],
+       [2],
+       [3],
+       [2],
+       [3],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [2],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [2],
+       [0],
+       [1],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [3],
+       [2],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[37],
+       [55],
+       [68],
+       [29],
+       [57],
+       [45],
+       [44],
+       [44],
+       [45],
+       [54],
+       [49],
+       [58],
+       [52],
+       [46],
+       [58],
+       [41],
+       [60],
+       [60],
+       [63],
+       [40],
+       [58],
+       [57],
+       [44],
+       [52],
+       [43],
+       [66],
+       [51],
+       [63],
+       [68],
+       [43],
+       [67],
+       [62]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [4],
+       [0],
+       [2],
+       [4],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [1],
+       [4],
+       [2],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [4],
+       [4],
+       [4],
+       [1],
+       [4],
+       [3],
+       [4],
+       [4],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[130],
+       [128],
+       [144],
+       [130],
+       [120],
+       [112],
+       [120],
+       [112],
+       [138],
+       [110],
+       [134],
+       [150],
+       [118],
+       [140],
+       [120],
+       [135],
+       [117],
+       [102],
+       [140],
+       [110],
+       [114],
+       [154],
+       [140],
+       [125],
+       [150],
+       [160],
+       [125],
+       [130],
+       [120],
+       [110],
+       [160],
+       [130]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[250],
+       [205],
+       [193],
+       [204],
+       [354],
+       [160],
+       [263],
+       [290],
+       [236],
+       [206],
+       [271],
+       [270],
+       [186],
+       [311],
+       [284],
+       [203],
+       [230],
+       [318],
+       [187],
+       [167],
+       [318],
+       [232],
+       [235],
+       [212],
+       [247],
+       [228],
+       [213],
+       [254],
+       [211],
+       [211],
+       [286],
+       [263]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[187],
+       [130],
+       [141],
+       [202],
+       [163],
+       [138],
+       [173],
+       [153],
+       [152],
+       [108],
+       [162],
+       [111],
+       [190],
+       [120],
+       [160],
+       [132],
+       [160],
+       [160],
+       [144],
+       [114],
+       [140],
+       [164],
+       [180],
+       [168],
+       [171],
+       [138],
+       [125],
+       [147],
+       [115],
+       [161],
+       [108],
+       [ 97]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[3.5],
+       [2\. ],
+       [3.4],
+       [0\. ],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0.2],
+       [0\. ],
+       [0\. ],
+       [0.8],
+       [0\. ],
+       [1.8],
+       [1.8],
+       [0\. ],
+       [1.4],
+       [0\. ],
+       [4\. ],
+       [2\. ],
+       [4.4],
+       [0\. ],
+       [0\. ],
+       [1\. ],
+       [1.5],
+       [2.3],
+       [1.4],
+       [1.4],
+       [1.5],
+       [0\. ],
+       [1.5],
+       [1.2]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [3],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [1],
+       [2],
+       [0],
+       [3],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [3],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+3/7 [===========>..................] - ETA: 0s - loss: 0.7040 - accuracy: 0.6979WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[46],
+       [60],
+       [67],
+       [62],
+       [59],
+       [54],
+       [54],
+       [61],
+       [57],
+       [64],
+       [42],
+       [59],
+       [62],
+       [67],
+       [38],
+       [43],
+       [54],
+       [57],
+       [59],
+       [62],
+       [58],
+       [70],
+       [57],
+       [45],
+       [53],
+       [53],
+       [51],
+       [48],
+       [41],
+       [65],
+       [53],
+       [64]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [4],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [3],
+       [4],
+       [1],
+       [0],
+       [2],
+       [3],
+       [1],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [1],
+       [4],
+       [4],
+       [4],
+       [4],
+       [3],
+       [4],
+       [2],
+       [2],
+       [1],
+       [4],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[142],
+       [140],
+       [125],
+       [150],
+       [150],
+       [135],
+       [150],
+       [138],
+       [150],
+       [180],
+       [148],
+       [164],
+       [120],
+       [115],
+       [120],
+       [115],
+       [120],
+       [140],
+       [126],
+       [140],
+       [150],
+       [130],
+       [165],
+       [142],
+       [142],
+       [130],
+       [140],
+       [110],
+       [110],
+       [138],
+       [123],
+       [140]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[177],
+       [293],
+       [254],
+       [244],
+       [212],
+       [304],
+       [232],
+       [166],
+       [126],
+       [325],
+       [244],
+       [176],
+       [281],
+       [564],
+       [231],
+       [303],
+       [188],
+       [192],
+       [218],
+       [268],
+       [283],
+       [322],
+       [289],
+       [309],
+       [226],
+       [246],
+       [298],
+       [229],
+       [235],
+       [282],
+       [282],
+       [335]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[160],
+       [170],
+       [163],
+       [154],
+       [157],
+       [170],
+       [165],
+       [125],
+       [173],
+       [154],
+       [178],
+       [ 90],
+       [103],
+       [160],
+       [182],
+       [181],
+       [113],
+       [148],
+       [134],
+       [160],
+       [162],
+       [109],
+       [124],
+       [147],
+       [111],
+       [173],
+       [122],
+       [168],
+       [153],
+       [174],
+       [ 95],
+       [158]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[1.4],
+       [1.2],
+       [0.2],
+       [1.4],
+       [1.6],
+       [0\. ],
+       [1.6],
+       [3.6],
+       [0.2],
+       [0\. ],
+       [0.8],
+       [1\. ],
+       [1.4],
+       [1.6],
+       [3.8],
+       [1.2],
+       [1.4],
+       [0.4],
+       [2.2],
+       [3.6],
+       [1\. ],
+       [2.4],
+       [1\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [4.2],
+       [1\. ],
+       [0\. ],
+       [1.4],
+       [2\. ],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [3],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [2],
+       [2],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [2],
+       [0],
+       [3],
+       [3],
+       [3],
+       [0],
+       [3],
+       [3],
+       [0],
+       [0],
+       [1],
+       [2],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'1'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[46],
+       [57],
+       [44],
+       [42],
+       [57],
+       [43],
+       [49],
+       [41],
+       [44],
+       [63],
+       [56],
+       [62],
+       [52],
+       [43],
+       [54],
+       [58],
+       [63],
+       [71],
+       [55],
+       [62],
+       [46],
+       [52],
+       [47],
+       [61],
+       [40],
+       [50],
+       [59],
+       [47],
+       [47],
+       [62],
+       [57],
+       [64]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3],
+       [4],
+       [1],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [4],
+       [2],
+       [4],
+       [4],
+       [1],
+       [3],
+       [1],
+       [3],
+       [3],
+       [4],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[150],
+       [152],
+       [120],
+       [136],
+       [110],
+       [120],
+       [130],
+       [130],
+       [118],
+       [124],
+       [120],
+       [140],
+       [112],
+       [130],
+       [110],
+       [100],
+       [130],
+       [160],
+       [180],
+       [130],
+       [138],
+       [134],
+       [112],
+       [130],
+       [140],
+       [129],
+       [134],
+       [138],
+       [130],
+       [120],
+       [150],
+       [145]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[231],
+       [274],
+       [169],
+       [315],
+       [335],
+       [177],
+       [266],
+       [214],
+       [242],
+       [197],
+       [193],
+       [394],
+       [230],
+       [315],
+       [239],
+       [234],
+       [330],
+       [302],
+       [327],
+       [231],
+       [243],
+       [201],
+       [204],
+       [330],
+       [199],
+       [196],
+       [204],
+       [257],
+       [253],
+       [267],
+       [276],
+       [212]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[147],
+       [ 88],
+       [144],
+       [125],
+       [143],
+       [120],
+       [171],
+       [168],
+       [149],
+       [136],
+       [162],
+       [157],
+       [160],
+       [162],
+       [126],
+       [156],
+       [132],
+       [162],
+       [117],
+       [146],
+       [152],
+       [158],
+       [143],
+       [169],
+       [178],
+       [163],
+       [162],
+       [156],
+       [179],
+       [ 99],
+       [112],
+       [132]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[3.6],
+       [1.2],
+       [2.8],
+       [1.8],
+       [3\. ],
+       [2.5],
+       [0.6],
+       [2\. ],
+       [0.3],
+       [0\. ],
+       [1.9],
+       [1.2],
+       [0\. ],
+       [1.9],
+       [2.8],
+       [0.1],
+       [1.8],
+       [0.4],
+       [3.4],
+       [1.8],
+       [0\. ],
+       [0.8],
+       [0.1],
+       [0\. ],
+       [1.4],
+       [0\. ],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [1.8],
+       [0.6],
+       [2\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [2],
+       [3],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [3],
+       [2],
+       [0],
+       [3],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [1],
+       [2]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'fixed']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+5/7 [====================>.........] - ETA: 0s - loss: 0.6946 - accuracy: 0.7000WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[46],
+       [61],
+       [58],
+       [42],
+       [42],
+       [50],
+       [45],
+       [43],
+       [35],
+       [56],
+       [57],
+       [37],
+       [41],
+       [58],
+       [50],
+       [56],
+       [67],
+       [44],
+       [64],
+       [44],
+       [64],
+       [44],
+       [42],
+       [43],
+       [59],
+       [67],
+       [64],
+       [50],
+       [46],
+       [66],
+       [55],
+       [39]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [4],
+       [4],
+       [3],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [3],
+       [2],
+       [3],
+       [3],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3],
+       [4],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [2],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[101],
+       [148],
+       [128],
+       [120],
+       [120],
+       [120],
+       [104],
+       [132],
+       [126],
+       [120],
+       [128],
+       [120],
+       [126],
+       [105],
+       [120],
+       [130],
+       [120],
+       [120],
+       [140],
+       [130],
+       [128],
+       [130],
+       [102],
+       [122],
+       [164],
+       [106],
+       [125],
+       [110],
+       [120],
+       [120],
+       [132],
+       [ 94]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[197],
+       [203],
+       [259],
+       [240],
+       [295],
+       [244],
+       [208],
+       [341],
+       [282],
+       [240],
+       [303],
+       [215],
+       [306],
+       [240],
+       [219],
+       [283],
+       [237],
+       [220],
+       [313],
+       [233],
+       [263],
+       [219],
+       [265],
+       [213],
+       [176],
+       [223],
+       [309],
+       [254],
+       [249],
+       [302],
+       [342],
+       [199]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[156],
+       [161],
+       [130],
+       [194],
+       [162],
+       [162],
+       [148],
+       [136],
+       [156],
+       [169],
+       [159],
+       [170],
+       [163],
+       [154],
+       [158],
+       [103],
+       [ 71],
+       [170],
+       [133],
+       [179],
+       [105],
+       [188],
+       [122],
+       [165],
+       [ 90],
+       [142],
+       [131],
+       [159],
+       [144],
+       [151],
+       [166],
+       [179]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0\. ],
+       [3\. ],
+       [0.8],
+       [0\. ],
+       [1.1],
+       [3\. ],
+       [3\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.6],
+       [1.6],
+       [1\. ],
+       [0\. ],
+       [0.2],
+       [0.4],
+       [0.2],
+       [0\. ],
+       [0.6],
+       [0.2],
+       [1\. ],
+       [0.3],
+       [1.8],
+       [0\. ],
+       [0.8],
+       [0.4],
+       [1.2],
+       [0\. ]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [2],
+       [3],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [3],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[54]])>, 'sex': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[1]])>, 'cp': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[4]])>, 'trestbps': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[124]])>, 'chol': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[266]])>, 'fbs': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[0]])>, 'restecg': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[2]])>, 'thalach': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[109]])>, 'exang': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[1]])>, 'oldpeak': <tf.Tensor: shape=(1, 1), dtype=float64, numpy=array([[2.2]])>, 'slope': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[2]])>, 'ca': <tf.Tensor: shape=(1, 1), dtype=int64, numpy=array([[1]])>, 'thal': <tf.Tensor: shape=(1, 1), dtype=string, numpy=array([[b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - ETA: 0s - loss: 0.6719 - accuracy: 0.7098WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[62],
+       [65],
+       [60],
+       [35],
+       [48],
+       [66],
+       [42],
+       [44],
+       [67],
+       [71],
+       [45],
+       [65],
+       [52],
+       [76],
+       [48],
+       [51],
+       [61],
+       [51],
+       [66],
+       [51],
+       [60],
+       [52],
+       [49],
+       [57],
+       [54],
+       [68],
+       [41],
+       [62],
+       [59],
+       [45],
+       [59],
+       [55]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [3],
+       [2],
+       [4],
+       [1],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [4],
+       [4],
+       [3],
+       [3],
+       [3],
+       [4],
+       [3],
+       [3],
+       [2],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[124],
+       [120],
+       [140],
+       [122],
+       [124],
+       [112],
+       [120],
+       [108],
+       [152],
+       [110],
+       [128],
+       [110],
+       [152],
+       [140],
+       [124],
+       [140],
+       [150],
+       [100],
+       [178],
+       [140],
+       [120],
+       [172],
+       [118],
+       [110],
+       [120],
+       [180],
+       [105],
+       [138],
+       [140],
+       [130],
+       [135],
+       [160]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[209],
+       [177],
+       [185],
+       [192],
+       [274],
+       [212],
+       [209],
+       [141],
+       [212],
+       [265],
+       [308],
+       [248],
+       [298],
+       [197],
+       [255],
+       [299],
+       [243],
+       [222],
+       [228],
+       [261],
+       [178],
+       [199],
+       [149],
+       [201],
+       [258],
+       [274],
+       [198],
+       [294],
+       [177],
+       [234],
+       [234],
+       [289]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[163],
+       [140],
+       [155],
+       [174],
+       [166],
+       [132],
+       [173],
+       [175],
+       [150],
+       [130],
+       [170],
+       [158],
+       [178],
+       [116],
+       [175],
+       [173],
+       [137],
+       [143],
+       [165],
+       [186],
+       [ 96],
+       [162],
+       [126],
+       [126],
+       [147],
+       [150],
+       [168],
+       [106],
+       [162],
+       [175],
+       [161],
+       [145]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0.4],
+       [3\. ],
+       [0\. ],
+       [0.5],
+       [0.1],
+       [0\. ],
+       [0.6],
+       [0.8],
+       [0\. ],
+       [0\. ],
+       [0.6],
+       [1.2],
+       [1.1],
+       [0\. ],
+       [1.6],
+       [1\. ],
+       [1.2],
+       [1\. ],
+       [0\. ],
+       [0\. ],
+       [0.5],
+       [0.8],
+       [1.5],
+       [0.4],
+       [1.6],
+       [0\. ],
+       [1.9],
+       [0\. ],
+       [0.6],
+       [0.5],
+       [0.8]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [2],
+       [2]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [1],
+       [3],
+       [1],
+       [0],
+       [0],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[77],
+       [39],
+       [60],
+       [41],
+       [56],
+       [51],
+       [59],
+       [41],
+       [60],
+       [64],
+       [64],
+       [70],
+       [62],
+       [58],
+       [58],
+       [67],
+       [35]])>, 'sex': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0]])>, 'cp': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[4],
+       [4],
+       [4],
+       [2],
+       [3],
+       [3],
+       [2],
+       [2],
+       [4],
+       [4],
+       [4],
+       [2],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4]])>, 'trestbps': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[125],
+       [118],
+       [130],
+       [130],
+       [130],
+       [ 94],
+       [140],
+       [120],
+       [125],
+       [130],
+       [120],
+       [156],
+       [160],
+       [125],
+       [130],
+       [120],
+       [138]])>, 'chol': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[304],
+       [219],
+       [206],
+       [204],
+       [256],
+       [227],
+       [221],
+       [157],
+       [258],
+       [303],
+       [246],
+       [245],
+       [164],
+       [300],
+       [197],
+       [229],
+       [183]])>, 'fbs': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thalach': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[162],
+       [140],
+       [132],
+       [172],
+       [142],
+       [154],
+       [164],
+       [182],
+       [141],
+       [122],
+       [ 96],
+       [143],
+       [145],
+       [171],
+       [131],
+       [129],
+       [182]])>, 'exang': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(17, 1), dtype=float64, numpy=
+array([[0\. ],
+       [1.2],
+       [2.4],
+       [1.4],
+       [0.6],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [2.8],
+       [2\. ],
+       [2.2],
+       [0\. ],
+       [6.2],
+       [0\. ],
+       [0.6],
+       [2.6],
+       [1.4]])>, 'slope': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[1],
+       [2],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(17, 1), dtype=int64, numpy=
+array([[3],
+       [0],
+       [2],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [2],
+       [1],
+       [0],
+       [3],
+       [2],
+       [0],
+       [2],
+       [0]])>, 'thal': <tf.Tensor: shape=(17, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+7/7 [==============================] - 0s 41ms/step - loss: 0.6719 - accuracy: 0.7098 - val_loss: 0.5845 - val_accuracy: 0.7347
+
+<tensorflow.python.keras.callbacks.History at 0x7f8188a50eb8>
+
+```
+
+```py
+loss, accuracy = model.evaluate(test_ds)
+print("Accuracy", accuracy) 
+```
+
+```py
+WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[66],
+       [56],
+       [41],
+       [61],
+       [54],
+       [39],
+       [63],
+       [61],
+       [52],
+       [39],
+       [60],
+       [54],
+       [57],
+       [57],
+       [69],
+       [53],
+       [44],
+       [59],
+       [53],
+       [63],
+       [57],
+       [57],
+       [58],
+       [52],
+       [48],
+       [61],
+       [48],
+       [70],
+       [71],
+       [65],
+       [47],
+       [57]])>, 'sex': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1]])>, 'cp': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[3],
+       [2],
+       [3],
+       [4],
+       [2],
+       [3],
+       [2],
+       [4],
+       [4],
+       [3],
+       [4],
+       [3],
+       [0],
+       [4],
+       [3],
+       [4],
+       [3],
+       [1],
+       [4],
+       [1],
+       [4],
+       [1],
+       [4],
+       [2],
+       [3],
+       [1],
+       [2],
+       [4],
+       [4],
+       [3],
+       [4],
+       [0]])>, 'trestbps': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[146],
+       [120],
+       [112],
+       [120],
+       [192],
+       [138],
+       [140],
+       [145],
+       [108],
+       [140],
+       [158],
+       [125],
+       [140],
+       [140],
+       [140],
+       [138],
+       [120],
+       [160],
+       [140],
+       [145],
+       [130],
+       [130],
+       [170],
+       [128],
+       [130],
+       [134],
+       [130],
+       [145],
+       [112],
+       [160],
+       [110],
+       [130]])>, 'chol': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[278],
+       [236],
+       [268],
+       [260],
+       [283],
+       [220],
+       [195],
+       [307],
+       [233],
+       [321],
+       [305],
+       [273],
+       [241],
+       [241],
+       [254],
+       [234],
+       [226],
+       [273],
+       [203],
+       [233],
+       [131],
+       [236],
+       [225],
+       [205],
+       [275],
+       [234],
+       [245],
+       [174],
+       [149],
+       [360],
+       [275],
+       [131]])>, 'fbs': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [1],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [1]])>, 'thalach': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[152],
+       [178],
+       [172],
+       [140],
+       [195],
+       [152],
+       [179],
+       [146],
+       [147],
+       [182],
+       [161],
+       [152],
+       [123],
+       [123],
+       [146],
+       [160],
+       [169],
+       [125],
+       [155],
+       [150],
+       [115],
+       [174],
+       [146],
+       [184],
+       [139],
+       [145],
+       [180],
+       [125],
+       [125],
+       [151],
+       [118],
+       [115]])>, 'exang': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1]])>, 'oldpeak': <tf.Tensor: shape=(32, 1), dtype=float64, numpy=
+array([[0\. ],
+       [0.8],
+       [0\. ],
+       [3.6],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [1\. ],
+       [0.1],
+       [0\. ],
+       [0\. ],
+       [0.5],
+       [0.2],
+       [0.2],
+       [2\. ],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [3.1],
+       [2.3],
+       [1.2],
+       [0\. ],
+       [2.8],
+       [0\. ],
+       [0.2],
+       [2.6],
+       [0.2],
+       [2.6],
+       [1.6],
+       [0.8],
+       [1\. ],
+       [1.2]])>, 'slope': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1],
+       [3],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [3],
+       [3],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [2],
+       [3],
+       [2],
+       [1],
+       [2],
+       [1]])>, 'ca': <tf.Tensor: shape=(32, 1), dtype=int64, numpy=
+array([[1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [2],
+       [0],
+       [3],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [3],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [2],
+       [0],
+       [0],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1]])>, 'thal': <tf.Tensor: shape=(32, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'fixed'],
+       [b'reversible'],
+       [b'2'],
+       [b'fixed'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+1/2 [==============>...............] - ETA: 0s - loss: 0.3588 - accuracy: 0.8125WARNING:tensorflow:Layers in a Sequential model should only have a single input tensor, but we receive a <class 'dict'> input: {'age': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[66],
+       [40],
+       [55],
+       [65],
+       [58],
+       [41],
+       [61],
+       [60],
+       [52],
+       [58],
+       [54],
+       [56],
+       [58],
+       [65],
+       [54],
+       [69],
+       [63],
+       [55],
+       [54],
+       [58],
+       [65],
+       [44],
+       [59],
+       [63],
+       [48],
+       [35],
+       [45],
+       [46],
+       [51]])>, 'sex': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [1],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0]])>, 'cp': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[1],
+       [4],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [1],
+       [3],
+       [3],
+       [3],
+       [2],
+       [3],
+       [4],
+       [3],
+       [1],
+       [4],
+       [2],
+       [2],
+       [4],
+       [3],
+       [4],
+       [4],
+       [4],
+       [4],
+       [4],
+       [3],
+       [2],
+       [3]])>, 'trestbps': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[150],
+       [152],
+       [135],
+       [135],
+       [120],
+       [110],
+       [140],
+       [150],
+       [136],
+       [112],
+       [160],
+       [130],
+       [140],
+       [150],
+       [108],
+       [140],
+       [150],
+       [130],
+       [132],
+       [146],
+       [155],
+       [110],
+       [170],
+       [108],
+       [130],
+       [120],
+       [110],
+       [105],
+       [120]])>, 'chol': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[226],
+       [223],
+       [250],
+       [254],
+       [340],
+       [172],
+       [207],
+       [240],
+       [196],
+       [230],
+       [201],
+       [221],
+       [211],
+       [225],
+       [267],
+       [239],
+       [407],
+       [262],
+       [288],
+       [218],
+       [269],
+       [197],
+       [326],
+       [269],
+       [256],
+       [198],
+       [264],
+       [204],
+       [295]])>, 'fbs': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'restecg': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [2],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [2],
+       [0],
+       [0],
+       [2],
+       [2],
+       [0],
+       [2],
+       [0],
+       [1],
+       [0],
+       [2]])>, 'thalach': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[114],
+       [181],
+       [161],
+       [127],
+       [172],
+       [158],
+       [138],
+       [171],
+       [169],
+       [165],
+       [163],
+       [163],
+       [165],
+       [114],
+       [167],
+       [151],
+       [154],
+       [155],
+       [159],
+       [105],
+       [148],
+       [177],
+       [140],
+       [169],
+       [150],
+       [130],
+       [132],
+       [172],
+       [157]])>, 'exang': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [0],
+       [1],
+       [1],
+       [1],
+       [1],
+       [0],
+       [0],
+       [0]])>, 'oldpeak': <tf.Tensor: shape=(29, 1), dtype=float64, numpy=
+array([[2.6],
+       [0\. ],
+       [1.4],
+       [2.8],
+       [0\. ],
+       [0\. ],
+       [1.9],
+       [0.9],
+       [0.1],
+       [2.5],
+       [0\. ],
+       [0\. ],
+       [0\. ],
+       [1\. ],
+       [0\. ],
+       [1.8],
+       [4\. ],
+       [0\. ],
+       [0\. ],
+       [2\. ],
+       [0.8],
+       [0\. ],
+       [3.4],
+       [1.8],
+       [0\. ],
+       [1.6],
+       [1.2],
+       [0\. ],
+       [0.6]])>, 'slope': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[3],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [1],
+       [2],
+       [2],
+       [1],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [2],
+       [1],
+       [1],
+       [3],
+       [2],
+       [1],
+       [2],
+       [1],
+       [1],
+       [1]])>, 'ca': <tf.Tensor: shape=(29, 1), dtype=int64, numpy=
+array([[0],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [0],
+       [0],
+       [1],
+       [1],
+       [0],
+       [0],
+       [3],
+       [0],
+       [2],
+       [3],
+       [0],
+       [1],
+       [1],
+       [0],
+       [1],
+       [0],
+       [2],
+       [2],
+       [0],
+       [0],
+       [0],
+       [0]])>, 'thal': <tf.Tensor: shape=(29, 1), dtype=string, numpy=
+array([[b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'reversible'],
+       [b'normal'],
+       [b'reversible'],
+       [b'reversible'],
+       [b'normal'],
+       [b'normal'],
+       [b'normal']], dtype=object)>}
+Consider rewriting this model with the Functional API.
+2/2 [==============================] - 0s 14ms/step - loss: 0.4201 - accuracy: 0.8197
+Accuracy 0.8196721076965332
+
+```
+
+关键点：通常使用更大更复杂的数据集进行深度学习，您将看到最佳结果。使用像这样的小数据集时，我们建议使用决策树或随机森林作为强有力的基准。本教程的目的不是训练一个准确的模型，而是演示处理结构化数据的机制，这样，在将来使用自己的数据集时，您有可以使用的代码作为起点。
+
+### 下一步
+
+了解有关分类结构化数据的更多信息的最佳方法是亲自尝试。我们建议寻找另一个可以使用的数据集，并使用和上面相似的代码，训练一个模型，对其分类。要提高准确率，请仔细考虑模型中包含哪些特征，以及如何表示这些特征。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/057.md b/Tensorflow/TensorFlow2.0/057.md
new file mode 100644
index 00000000..5f42c422
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/057.md
@@ -0,0 +1,1278 @@
+# Classification on imbalanced data
+
+> 原文：[https://tensorflow.google.cn/tutorials/structured_data/imbalanced_data](https://tensorflow.google.cn/tutorials/structured_data/imbalanced_data)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+This tutorial demonstrates how to classify a highly imbalanced dataset in which the number of examples in one class greatly outnumbers the examples in another. You will work with the [Credit Card Fraud Detection](https://www.kaggle.com/mlg-ulb/creditcardfraud) dataset hosted on Kaggle. The aim is to detect a mere 492 fraudulent transactions from 284,807 transactions in total. You will use [Keras](https://tensorflow.google.cn/guide/keras/overview) to define the model and [class weights](https://tensorflow.google.cn/versions/r2.0/api_docs/python/tf/keras/Model) to help the model learn from the imbalanced data. .
+
+This tutorial contains complete code to:
+
+*   Load a CSV file using Pandas.
+*   Create train, validation, and test sets.
+*   Define and train a model using Keras (including setting class weights).
+*   Evaluate the model using various metrics (including precision and recall).
+*   Try common techniques for dealing with imbalanced data like:
+    *   Class weighting
+    *   Oversampling
+
+## Setup
+
+```py
+import tensorflow as tf
+from tensorflow import keras
+
+import os
+import tempfile
+
+import matplotlib as mpl
+import matplotlib.pyplot as plt
+import numpy as np
+import pandas as pd
+import seaborn as sns
+
+import sklearn
+from sklearn.metrics import confusion_matrix
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import StandardScaler 
+```
+
+```py
+mpl.rcParams['figure.figsize'] = (12, 10)
+colors = plt.rcParams['axes.prop_cycle'].by_key()['color'] 
+```
+
+## Data processing and exploration
+
+### Download the Kaggle Credit Card Fraud data set
+
+Pandas is a Python library with many helpful utilities for loading and working with structured data and can be used to download CSVs into a dataframe.
+
+**Note:** This dataset has been collected and analysed during a research collaboration of Worldline and the [Machine Learning Group](http://mlg.ulb.ac.be) of ULB (Université Libre de Bruxelles) on big data mining and fraud detection. More details on current and past projects on related topics are available [here](https://www.researchgate.net/project/Fraud-detection-5) and the page of the [DefeatFraud](https://mlg.ulb.ac.be/wordpress/portfolio_page/defeatfraud-assessment-and-validation-of-deep-feature-engineering-and-learning-solutions-for-fraud-detection/) project
+
+```py
+file = tf.keras.utils
+raw_df = pd.read_csv('https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv')
+raw_df.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/structured_data/imbalanced_data_0c4f86214be77177376f118e8968bdb18f3142f4c62b4f0137535f9174ed1f27.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+```py
+raw_df[['Time', 'V1', 'V2', 'V3', 'V4', 'V5', 'V26', 'V27', 'V28', 'Amount', 'Class']].describe() 
+```
+
+<devsite-iframe><iframe src="/tutorials/structured_data/imbalanced_data_dedddcdfc9cacebea7201b6e966755a5c703c43f30512a418cd6a74384bbb502.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+### Examine the class label imbalance
+
+Let's look at the dataset imbalance:
+
+```py
+neg, pos = np.bincount(raw_df['Class'])
+total = neg + pos
+print('Examples:\n    Total: {}\n    Positive: {} ({:.2f}% of total)\n'.format(
+    total, pos, 100 * pos / total)) 
+```
+
+```py
+Examples:
+    Total: 284807
+    Positive: 492 (0.17% of total)
+
+```
+
+This shows the small fraction of positive samples.
+
+### Clean, split and normalize the data
+
+The raw data has a few issues. First the `Time` and `Amount` columns are too variable to use directly. Drop the `Time` column (since it's not clear what it means) and take the log of the `Amount` column to reduce its range.
+
+```py
+cleaned_df = raw_df.copy()
+
+# You don't want the `Time` column.
+cleaned_df.pop('Time')
+
+# The `Amount` column covers a huge range. Convert to log-space.
+eps = 0.001 # 0 => 0.1¢
+cleaned_df['Log Ammount'] = np.log(cleaned_df.pop('Amount')+eps) 
+```
+
+Split the dataset into train, validation, and test sets. The validation set is used during the model fitting to evaluate the loss and any metrics, however the model is not fit with this data. The test set is completely unused during the training phase and is only used at the end to evaluate how well the model generalizes to new data. This is especially important with imbalanced datasets where [overfitting](https://developers.google.cn/machine-learning/crash-course/generalization/peril-of-overfitting) is a significant concern from the lack of training data.
+
+```py
+# Use a utility from sklearn to split and shuffle our dataset.
+train_df, test_df = train_test_split(cleaned_df, test_size=0.2)
+train_df, val_df = train_test_split(train_df, test_size=0.2)
+
+# Form np arrays of labels and features.
+train_labels = np.array(train_df.pop('Class'))
+bool_train_labels = train_labels != 0
+val_labels = np.array(val_df.pop('Class'))
+test_labels = np.array(test_df.pop('Class'))
+
+train_features = np.array(train_df)
+val_features = np.array(val_df)
+test_features = np.array(test_df) 
+```
+
+Normalize the input features using the sklearn StandardScaler. This will set the mean to 0 and standard deviation to 1.
+
+**Note:** The `StandardScaler` is only fit using the `train_features` to be sure the model is not peeking at the validation or test sets.
+
+```py
+scaler = StandardScaler()
+train_features = scaler.fit_transform(train_features)
+
+val_features = scaler.transform(val_features)
+test_features = scaler.transform(test_features)
+
+train_features = np.clip(train_features, -5, 5)
+val_features = np.clip(val_features, -5, 5)
+test_features = np.clip(test_features, -5, 5)
+
+print('Training labels shape:', train_labels.shape)
+print('Validation labels shape:', val_labels.shape)
+print('Test labels shape:', test_labels.shape)
+
+print('Training features shape:', train_features.shape)
+print('Validation features shape:', val_features.shape)
+print('Test features shape:', test_features.shape) 
+```
+
+```py
+Training labels shape: (182276,)
+Validation labels shape: (45569,)
+Test labels shape: (56962,)
+Training features shape: (182276, 29)
+Validation features shape: (45569, 29)
+Test features shape: (56962, 29)
+
+```
+
+**Caution:** If you want to deploy a model, it's critical that you preserve the preprocessing calculations. The easiest way to implement them as layers, and attach them to your model before export.
+
+### Look at the data distribution
+
+Next compare the distributions of the positive and negative examples over a few features. Good questions to ask yourself at this point are:
+
+*   Do these distributions make sense?
+    *   Yes. You've normalized the input and these are mostly concentrated in the `+/- 2` range.
+*   Can you see the difference between the distributions?
+    *   Yes the positive examples contain a much higher rate of extreme values.
+
+```py
+pos_df = pd.DataFrame(train_features[ bool_train_labels], columns=train_df.columns)
+neg_df = pd.DataFrame(train_features[~bool_train_labels], columns=train_df.columns)
+
+sns.jointplot(pos_df['V5'], pos_df['V6'],
+              kind='hex', xlim=(-5,5), ylim=(-5,5))
+plt.suptitle("Positive distribution")
+
+sns.jointplot(neg_df['V5'], neg_df['V6'],
+              kind='hex', xlim=(-5,5), ylim=(-5,5))
+_ = plt.suptitle("Negative distribution") 
+```
+
+```py
+/home/kbuilder/.local/lib/python3.6/site-packages/seaborn/_decorators.py:43: FutureWarning: Pass the following variables as keyword args: x, y. From version 0.12, the only valid positional argument will be `data`, and passing other arguments without an explicit keyword will result in an error or misinterpretation.
+  FutureWarning
+/home/kbuilder/.local/lib/python3.6/site-packages/seaborn/_decorators.py:43: FutureWarning: Pass the following variables as keyword args: x, y. From version 0.12, the only valid positional argument will be `data`, and passing other arguments without an explicit keyword will result in an error or misinterpretation.
+  FutureWarning
+
+```
+
+![png](img/72de951dda8439ddee9fe72a64a9ed2e.png)
+
+![png](img/67c5e6fec9fd9b11f792765822fbb538.png)
+
+## Define the model and metrics
+
+Define a function that creates a simple neural network with a densly connected hidden layer, a [dropout](https://developers.google.cn/machine-learning/glossary/#dropout_regularization) layer to reduce overfitting, and an output sigmoid layer that returns the probability of a transaction being fraudulent:
+
+```py
+METRICS = [
+      keras.metrics.TruePositives(name='tp'),
+      keras.metrics.FalsePositives(name='fp'),
+      keras.metrics.TrueNegatives(name='tn'),
+      keras.metrics.FalseNegatives(name='fn'), 
+      keras.metrics.BinaryAccuracy(name='accuracy'),
+      keras.metrics.Precision(name='precision'),
+      keras.metrics.Recall(name='recall'),
+      keras.metrics.AUC(name='auc'),
+]
+
+def make_model(metrics=METRICS, output_bias=None):
+  if output_bias is not None:
+    output_bias = tf.keras.initializers.Constant(output_bias)
+  model = keras.Sequential([
+      keras.layers.Dense(
+          16, activation='relu',
+          input_shape=(train_features.shape[-1],)),
+      keras.layers.Dropout(0.5),
+      keras.layers.Dense(1, activation='sigmoid',
+                         bias_initializer=output_bias),
+  ])
+
+  model.compile(
+      optimizer=keras.optimizers.Adam(lr=1e-3),
+      loss=keras.losses.BinaryCrossentropy(),
+      metrics=metrics)
+
+  return model 
+```
+
+### Understanding useful metrics
+
+Notice that there are a few metrics defined above that can be computed by the model that will be helpful when evaluating the performance.
+
+*   **False** negatives and **false** positives are samples that were **incorrectly** classified
+*   **True** negatives and **true** positives are samples that were **correctly** classified
+*   **Accuracy** is the percentage of examples correctly classified > $\frac{\text{true samples} }{\text{total samples} }$
+*   **Precision** is the percentage of **predicted** positives that were correctly classified > $\frac{\text{true positives} }{\text{true positives + false positives} }$
+*   **Recall** is the percentage of **actual** positives that were correctly classified > $\frac{\text{true positives} }{\text{true positives + false negatives} }$
+*   **AUC** refers to the Area Under the Curve of a Receiver Operating Characteristic curve (ROC-AUC). This metric is equal to the probability that a classifier will rank a random positive sample higher than a random negative sample.
+
+**Note:** Accuracy is not a helpful metric for this task. You can 99.8%+ accuracy on this task by predicting False all the time.
+
+Read more:
+
+*   [True vs. False and Positive vs. Negative](https://developers.google.cn/machine-learning/crash-course/classification/true-false-positive-negative)
+*   [Accuracy](https://developers.google.cn/machine-learning/crash-course/classification/accuracy)
+*   [Precision and Recall](https://developers.google.cn/machine-learning/crash-course/classification/precision-and-recall)
+*   [ROC-AUC](https://developers.google.cn/machine-learning/crash-course/classification/roc-and-auc)
+
+## Baseline model
+
+### Build the model
+
+Now create and train your model using the function that was defined earlier. Notice that the model is fit using a larger than default batch size of 2048, this is important to ensure that each batch has a decent chance of containing a few positive samples. If the batch size was too small, they would likely have no fraudulent transactions to learn from.
+
+**Note:** this model will not handle the class imbalance well. You will improve it later in this tutorial.
+
+```py
+EPOCHS = 100
+BATCH_SIZE = 2048
+
+early_stopping = tf.keras.callbacks.EarlyStopping(
+    monitor='val_auc', 
+    verbose=1,
+    patience=10,
+    mode='max',
+    restore_best_weights=True) 
+```
+
+```py
+model = make_model()
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+dense (Dense)                (None, 16)                480       
+_________________________________________________________________
+dropout (Dropout)            (None, 16)                0         
+_________________________________________________________________
+dense_1 (Dense)              (None, 1)                 17        
+=================================================================
+Total params: 497
+Trainable params: 497
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+Test run the model:
+
+```py
+model.predict(train_features[:10]) 
+```
+
+```py
+array([[0.14155667],
+       [0.08245954],
+       [0.14218365],
+       [0.09784216],
+       [0.15547438],
+       [0.04696527],
+       [0.20200476],
+       [0.16137381],
+       [0.08730176],
+       [0.04467227]], dtype=float32)
+
+```
+
+### Optional: Set the correct initial bias.
+
+These initial guesses are not great. You know the dataset is imbalanced. Set the output layer's bias to reflect that (See: [A Recipe for Training Neural Networks: "init well"](http://karpathy.github.io/2019/04/25/recipe/#2-set-up-the-end-to-end-trainingevaluation-skeleton--get-dumb-baselines)). This can help with initial convergence.
+
+With the default bias initialization the loss should be about [`math.log(2) = 0.69314`](https://tensorflow.google.cn/api_docs/python/tf/math/log)
+
+```py
+results = model.evaluate(train_features, train_labels, batch_size=BATCH_SIZE, verbose=0)
+print("Loss: {:0.4f}".format(results[0])) 
+```
+
+```py
+Loss: 0.1159
+
+```
+
+The correct bias to set can be derived from:
+
+$$ p_0 = pos/(pos + neg) = 1/(1+e^{-b_0}) $$$$ b_0 = -log_e(1/p_0 - 1) $$$$ b_0 = log_e(pos/neg)$$
+
+```py
+initial_bias = np.log([pos/neg])
+initial_bias 
+```
+
+```py
+array([-6.35935934])
+
+```
+
+Set that as the initial bias, and the model will give much more reasonable initial guesses.
+
+It should be near: `pos/total = 0.0018`
+
+```py
+model = make_model(output_bias=initial_bias)
+model.predict(train_features[:10]) 
+```
+
+```py
+array([[0.00172629],
+       [0.00338373],
+       [0.00397264],
+       [0.00406079],
+       [0.00449285],
+       [0.00492807],
+       [0.00254243],
+       [0.00370109],
+       [0.01771316],
+       [0.0022068 ]], dtype=float32)
+
+```
+
+With this initialization the initial loss should be approximately:
+
+$$-p_0log(p_0)-(1-p_0)log(1-p_0) = 0.01317$$
+
+```py
+results = model.evaluate(train_features, train_labels, batch_size=BATCH_SIZE, verbose=0)
+print("Loss: {:0.4f}".format(results[0])) 
+```
+
+```py
+Loss: 0.0141
+
+```
+
+This initial loss is about 50 times less than if would have been with naive initialization.
+
+This way the model doesn't need to spend the first few epochs just learning that positive examples are unlikely. This also makes it easier to read plots of the loss during training.
+
+### Checkpoint the initial weights
+
+To make the various training runs more comparable, keep this initial model's weights in a checkpoint file, and load them into each model before training.
+
+```py
+initial_weights = os.path.join(tempfile.mkdtemp(), 'initial_weights')
+model.save_weights(initial_weights) 
+```
+
+### Confirm that the bias fix helps
+
+Before moving on, confirm quick that the careful bias initialization actually helped.
+
+Train the model for 20 epochs, with and without this careful initialization, and compare the losses:
+
+```py
+model = make_model()
+model.load_weights(initial_weights)
+model.layers[-1].bias.assign([0.0])
+zero_bias_history = model.fit(
+    train_features,
+    train_labels,
+    batch_size=BATCH_SIZE,
+    epochs=20,
+    validation_data=(val_features, val_labels), 
+    verbose=0) 
+```
+
+```py
+model = make_model()
+model.load_weights(initial_weights)
+careful_bias_history = model.fit(
+    train_features,
+    train_labels,
+    batch_size=BATCH_SIZE,
+    epochs=20,
+    validation_data=(val_features, val_labels), 
+    verbose=0) 
+```
+
+```py
+def plot_loss(history, label, n):
+  # Use a log scale to show the wide range of values.
+  plt.semilogy(history.epoch, history.history['loss'],
+               color=colors[n], label='Train '+label)
+  plt.semilogy(history.epoch, history.history['val_loss'],
+          color=colors[n], label='Val '+label,
+          linestyle="--")
+  plt.xlabel('Epoch')
+  plt.ylabel('Loss')
+
+  plt.legend() 
+```
+
+```py
+plot_loss(zero_bias_history, "Zero Bias", 0)
+plot_loss(careful_bias_history, "Careful Bias", 1) 
+```
+
+![png](img/9ec1c5121631fabdd2734d5a380b07fc.png)
+
+The above figure makes it clear: In terms of validation loss, on this problem, this careful initialization gives a clear advantage.
+
+### Train the model
+
+```py
+model = make_model()
+model.load_weights(initial_weights)
+baseline_history = model.fit(
+    train_features,
+    train_labels,
+    batch_size=BATCH_SIZE,
+    epochs=EPOCHS,
+    callbacks=[early_stopping],
+    validation_data=(val_features, val_labels)) 
+```
+
+```py
+Epoch 1/100
+90/90 [==============================] - 1s 14ms/step - loss: 0.0127 - tp: 93.0000 - fp: 90.0000 - tn: 227362.0000 - fn: 300.0000 - accuracy: 0.9983 - precision: 0.5082 - recall: 0.2366 - auc: 0.8002 - val_loss: 0.0066 - val_tp: 8.0000 - val_fp: 4.0000 - val_tn: 45489.0000 - val_fn: 68.0000 - val_accuracy: 0.9984 - val_precision: 0.6667 - val_recall: 0.1053 - val_auc: 0.9394
+Epoch 2/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0081 - tp: 99.0000 - fp: 25.0000 - tn: 181934.0000 - fn: 218.0000 - accuracy: 0.9987 - precision: 0.7984 - recall: 0.3123 - auc: 0.8446 - val_loss: 0.0044 - val_tp: 40.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 36.0000 - val_accuracy: 0.9991 - val_precision: 0.8696 - val_recall: 0.5263 - val_auc: 0.9471
+Epoch 3/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0067 - tp: 147.0000 - fp: 29.0000 - tn: 181930.0000 - fn: 170.0000 - accuracy: 0.9989 - precision: 0.8352 - recall: 0.4637 - auc: 0.8739 - val_loss: 0.0036 - val_tp: 45.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 31.0000 - val_accuracy: 0.9992 - val_precision: 0.8824 - val_recall: 0.5921 - val_auc: 0.9472
+Epoch 4/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0061 - tp: 151.0000 - fp: 32.0000 - tn: 181927.0000 - fn: 166.0000 - accuracy: 0.9989 - precision: 0.8251 - recall: 0.4763 - auc: 0.8867 - val_loss: 0.0031 - val_tp: 50.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 26.0000 - val_accuracy: 0.9993 - val_precision: 0.8929 - val_recall: 0.6579 - val_auc: 0.9472
+Epoch 5/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0059 - tp: 162.0000 - fp: 35.0000 - tn: 181924.0000 - fn: 155.0000 - accuracy: 0.9990 - precision: 0.8223 - recall: 0.5110 - auc: 0.8970 - val_loss: 0.0028 - val_tp: 53.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 23.0000 - val_accuracy: 0.9994 - val_precision: 0.8983 - val_recall: 0.6974 - val_auc: 0.9538
+Epoch 6/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0056 - tp: 167.0000 - fp: 34.0000 - tn: 181925.0000 - fn: 150.0000 - accuracy: 0.9990 - precision: 0.8308 - recall: 0.5268 - auc: 0.8942 - val_loss: 0.0026 - val_tp: 53.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 23.0000 - val_accuracy: 0.9994 - val_precision: 0.8983 - val_recall: 0.6974 - val_auc: 0.9670
+Epoch 7/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0051 - tp: 179.0000 - fp: 32.0000 - tn: 181927.0000 - fn: 138.0000 - accuracy: 0.9991 - precision: 0.8483 - recall: 0.5647 - auc: 0.9023 - val_loss: 0.0024 - val_tp: 58.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 18.0000 - val_accuracy: 0.9995 - val_precision: 0.9062 - val_recall: 0.7632 - val_auc: 0.9669
+Epoch 8/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0049 - tp: 181.0000 - fp: 29.0000 - tn: 181930.0000 - fn: 136.0000 - accuracy: 0.9991 - precision: 0.8619 - recall: 0.5710 - auc: 0.9040 - val_loss: 0.0023 - val_tp: 59.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 17.0000 - val_accuracy: 0.9995 - val_precision: 0.9077 - val_recall: 0.7763 - val_auc: 0.9735
+Epoch 9/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0050 - tp: 181.0000 - fp: 36.0000 - tn: 181923.0000 - fn: 136.0000 - accuracy: 0.9991 - precision: 0.8341 - recall: 0.5710 - auc: 0.9025 - val_loss: 0.0022 - val_tp: 56.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 20.0000 - val_accuracy: 0.9994 - val_precision: 0.9032 - val_recall: 0.7368 - val_auc: 0.9735
+Epoch 10/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0048 - tp: 179.0000 - fp: 32.0000 - tn: 181927.0000 - fn: 138.0000 - accuracy: 0.9991 - precision: 0.8483 - recall: 0.5647 - auc: 0.9041 - val_loss: 0.0021 - val_tp: 57.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 19.0000 - val_accuracy: 0.9995 - val_precision: 0.9048 - val_recall: 0.7500 - val_auc: 0.9735
+Epoch 11/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0044 - tp: 188.0000 - fp: 29.0000 - tn: 181930.0000 - fn: 129.0000 - accuracy: 0.9991 - precision: 0.8664 - recall: 0.5931 - auc: 0.9246 - val_loss: 0.0020 - val_tp: 57.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 19.0000 - val_accuracy: 0.9995 - val_precision: 0.9048 - val_recall: 0.7500 - val_auc: 0.9735
+Epoch 12/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0047 - tp: 168.0000 - fp: 34.0000 - tn: 181925.0000 - fn: 149.0000 - accuracy: 0.9990 - precision: 0.8317 - recall: 0.5300 - auc: 0.9184 - val_loss: 0.0019 - val_tp: 63.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 13.0000 - val_accuracy: 0.9996 - val_precision: 0.9130 - val_recall: 0.8289 - val_auc: 0.9735
+Epoch 13/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0045 - tp: 186.0000 - fp: 32.0000 - tn: 181927.0000 - fn: 131.0000 - accuracy: 0.9991 - precision: 0.8532 - recall: 0.5868 - auc: 0.9105 - val_loss: 0.0019 - val_tp: 63.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 13.0000 - val_accuracy: 0.9996 - val_precision: 0.9130 - val_recall: 0.8289 - val_auc: 0.9735
+Epoch 14/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0043 - tp: 199.0000 - fp: 37.0000 - tn: 181922.0000 - fn: 118.0000 - accuracy: 0.9991 - precision: 0.8432 - recall: 0.6278 - auc: 0.9217 - val_loss: 0.0019 - val_tp: 59.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 17.0000 - val_accuracy: 0.9995 - val_precision: 0.9077 - val_recall: 0.7763 - val_auc: 0.9735
+Epoch 15/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0045 - tp: 180.0000 - fp: 28.0000 - tn: 181931.0000 - fn: 137.0000 - accuracy: 0.9991 - precision: 0.8654 - recall: 0.5678 - auc: 0.9216 - val_loss: 0.0019 - val_tp: 63.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 13.0000 - val_accuracy: 0.9996 - val_precision: 0.9130 - val_recall: 0.8289 - val_auc: 0.9801
+Epoch 16/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0044 - tp: 188.0000 - fp: 41.0000 - tn: 181918.0000 - fn: 129.0000 - accuracy: 0.9991 - precision: 0.8210 - recall: 0.5931 - auc: 0.9200 - val_loss: 0.0019 - val_tp: 52.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 24.0000 - val_accuracy: 0.9994 - val_precision: 0.9455 - val_recall: 0.6842 - val_auc: 0.9735
+Epoch 17/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0045 - tp: 178.0000 - fp: 29.0000 - tn: 181930.0000 - fn: 139.0000 - accuracy: 0.9991 - precision: 0.8599 - recall: 0.5615 - auc: 0.9153 - val_loss: 0.0018 - val_tp: 66.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 10.0000 - val_accuracy: 0.9996 - val_precision: 0.9167 - val_recall: 0.8684 - val_auc: 0.9801
+Epoch 18/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0043 - tp: 186.0000 - fp: 33.0000 - tn: 181926.0000 - fn: 131.0000 - accuracy: 0.9991 - precision: 0.8493 - recall: 0.5868 - auc: 0.9248 - val_loss: 0.0018 - val_tp: 65.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 11.0000 - val_accuracy: 0.9996 - val_precision: 0.9155 - val_recall: 0.8553 - val_auc: 0.9735
+Epoch 19/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0044 - tp: 188.0000 - fp: 28.0000 - tn: 181931.0000 - fn: 129.0000 - accuracy: 0.9991 - precision: 0.8704 - recall: 0.5931 - auc: 0.9091 - val_loss: 0.0018 - val_tp: 66.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 10.0000 - val_accuracy: 0.9996 - val_precision: 0.9167 - val_recall: 0.8684 - val_auc: 0.9801
+Epoch 20/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0042 - tp: 189.0000 - fp: 30.0000 - tn: 181929.0000 - fn: 128.0000 - accuracy: 0.9991 - precision: 0.8630 - recall: 0.5962 - auc: 0.9249 - val_loss: 0.0018 - val_tp: 63.0000 - val_fp: 5.0000 - val_tn: 45488.0000 - val_fn: 13.0000 - val_accuracy: 0.9996 - val_precision: 0.9265 - val_recall: 0.8289 - val_auc: 0.9735
+Epoch 21/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0042 - tp: 185.0000 - fp: 35.0000 - tn: 181924.0000 - fn: 132.0000 - accuracy: 0.9991 - precision: 0.8409 - recall: 0.5836 - auc: 0.9248 - val_loss: 0.0017 - val_tp: 66.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 10.0000 - val_accuracy: 0.9996 - val_precision: 0.9167 - val_recall: 0.8684 - val_auc: 0.9801
+Epoch 22/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0042 - tp: 188.0000 - fp: 31.0000 - tn: 181928.0000 - fn: 129.0000 - accuracy: 0.9991 - precision: 0.8584 - recall: 0.5931 - auc: 0.9249 - val_loss: 0.0017 - val_tp: 64.0000 - val_fp: 5.0000 - val_tn: 45488.0000 - val_fn: 12.0000 - val_accuracy: 0.9996 - val_precision: 0.9275 - val_recall: 0.8421 - val_auc: 0.9801
+Epoch 23/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0045 - tp: 175.0000 - fp: 39.0000 - tn: 181920.0000 - fn: 142.0000 - accuracy: 0.9990 - precision: 0.8178 - recall: 0.5521 - auc: 0.9169 - val_loss: 0.0017 - val_tp: 65.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 11.0000 - val_accuracy: 0.9996 - val_precision: 0.9155 - val_recall: 0.8553 - val_auc: 0.9801
+Epoch 24/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0043 - tp: 188.0000 - fp: 31.0000 - tn: 181928.0000 - fn: 129.0000 - accuracy: 0.9991 - precision: 0.8584 - recall: 0.5931 - auc: 0.9122 - val_loss: 0.0017 - val_tp: 64.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 12.0000 - val_accuracy: 0.9996 - val_precision: 0.9143 - val_recall: 0.8421 - val_auc: 0.9801
+Epoch 25/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0043 - tp: 179.0000 - fp: 29.0000 - tn: 181930.0000 - fn: 138.0000 - accuracy: 0.9991 - precision: 0.8606 - recall: 0.5647 - auc: 0.9311 - val_loss: 0.0017 - val_tp: 64.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 12.0000 - val_accuracy: 0.9996 - val_precision: 0.9143 - val_recall: 0.8421 - val_auc: 0.9801
+Epoch 26/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0041 - tp: 189.0000 - fp: 32.0000 - tn: 181927.0000 - fn: 128.0000 - accuracy: 0.9991 - precision: 0.8552 - recall: 0.5962 - auc: 0.9218 - val_loss: 0.0017 - val_tp: 66.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 10.0000 - val_accuracy: 0.9996 - val_precision: 0.9167 - val_recall: 0.8684 - val_auc: 0.9801
+Epoch 27/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0040 - tp: 193.0000 - fp: 27.0000 - tn: 181932.0000 - fn: 124.0000 - accuracy: 0.9992 - precision: 0.8773 - recall: 0.6088 - auc: 0.9202 - val_loss: 0.0017 - val_tp: 66.0000 - val_fp: 6.0000 - val_tn: 45487.0000 - val_fn: 10.0000 - val_accuracy: 0.9996 - val_precision: 0.9167 - val_recall: 0.8684 - val_auc: 0.9801
+Epoch 28/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0041 - tp: 189.0000 - fp: 31.0000 - tn: 181928.0000 - fn: 128.0000 - accuracy: 0.9991 - precision: 0.8591 - recall: 0.5962 - auc: 0.9187 - val_loss: 0.0017 - val_tp: 62.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 14.0000 - val_accuracy: 0.9996 - val_precision: 0.9538 - val_recall: 0.8158 - val_auc: 0.9801
+Epoch 29/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0041 - tp: 173.0000 - fp: 35.0000 - tn: 181924.0000 - fn: 144.0000 - accuracy: 0.9990 - precision: 0.8317 - recall: 0.5457 - auc: 0.9233 - val_loss: 0.0017 - val_tp: 64.0000 - val_fp: 4.0000 - val_tn: 45489.0000 - val_fn: 12.0000 - val_accuracy: 0.9996 - val_precision: 0.9412 - val_recall: 0.8421 - val_auc: 0.9801
+Epoch 30/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0041 - tp: 193.0000 - fp: 36.0000 - tn: 181923.0000 - fn: 124.0000 - accuracy: 0.9991 - precision: 0.8428 - recall: 0.6088 - auc: 0.9218 - val_loss: 0.0017 - val_tp: 62.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 14.0000 - val_accuracy: 0.9996 - val_precision: 0.9538 - val_recall: 0.8158 - val_auc: 0.9801
+Epoch 31/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0044 - tp: 190.0000 - fp: 35.0000 - tn: 181924.0000 - fn: 127.0000 - accuracy: 0.9991 - precision: 0.8444 - recall: 0.5994 - auc: 0.9122 - val_loss: 0.0017 - val_tp: 60.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 16.0000 - val_accuracy: 0.9996 - val_precision: 0.9524 - val_recall: 0.7895 - val_auc: 0.9801
+Epoch 32/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0043 - tp: 184.0000 - fp: 33.0000 - tn: 181926.0000 - fn: 133.0000 - accuracy: 0.9991 - precision: 0.8479 - recall: 0.5804 - auc: 0.9186 - val_loss: 0.0017 - val_tp: 61.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 15.0000 - val_accuracy: 0.9996 - val_precision: 0.9531 - val_recall: 0.8026 - val_auc: 0.9801
+Epoch 33/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0041 - tp: 188.0000 - fp: 36.0000 - tn: 181923.0000 - fn: 129.0000 - accuracy: 0.9991 - precision: 0.8393 - recall: 0.5931 - auc: 0.9218 - val_loss: 0.0016 - val_tp: 62.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 14.0000 - val_accuracy: 0.9996 - val_precision: 0.9538 - val_recall: 0.8158 - val_auc: 0.9801
+Epoch 34/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0039 - tp: 196.0000 - fp: 37.0000 - tn: 181922.0000 - fn: 121.0000 - accuracy: 0.9991 - precision: 0.8412 - recall: 0.6183 - auc: 0.9297 - val_loss: 0.0017 - val_tp: 62.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 14.0000 - val_accuracy: 0.9996 - val_precision: 0.9538 - val_recall: 0.8158 - val_auc: 0.9801
+Epoch 35/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0040 - tp: 189.0000 - fp: 39.0000 - tn: 181920.0000 - fn: 128.0000 - accuracy: 0.9991 - precision: 0.8289 - recall: 0.5962 - auc: 0.9281 - val_loss: 0.0017 - val_tp: 60.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 16.0000 - val_accuracy: 0.9996 - val_precision: 0.9524 - val_recall: 0.7895 - val_auc: 0.9801
+Epoch 36/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0039 - tp: 197.0000 - fp: 29.0000 - tn: 181930.0000 - fn: 120.0000 - accuracy: 0.9992 - precision: 0.8717 - recall: 0.6215 - auc: 0.9203 - val_loss: 0.0016 - val_tp: 65.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 11.0000 - val_accuracy: 0.9997 - val_precision: 0.9559 - val_recall: 0.8553 - val_auc: 0.9801
+Epoch 37/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0039 - tp: 195.0000 - fp: 26.0000 - tn: 181933.0000 - fn: 122.0000 - accuracy: 0.9992 - precision: 0.8824 - recall: 0.6151 - auc: 0.9234 - val_loss: 0.0016 - val_tp: 62.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 14.0000 - val_accuracy: 0.9996 - val_precision: 0.9538 - val_recall: 0.8158 - val_auc: 0.9801
+Epoch 38/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0038 - tp: 197.0000 - fp: 40.0000 - tn: 181919.0000 - fn: 120.0000 - accuracy: 0.9991 - precision: 0.8312 - recall: 0.6215 - auc: 0.9329 - val_loss: 0.0017 - val_tp: 59.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 17.0000 - val_accuracy: 0.9996 - val_precision: 0.9516 - val_recall: 0.7763 - val_auc: 0.9801
+Epoch 39/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0040 - tp: 195.0000 - fp: 34.0000 - tn: 181925.0000 - fn: 122.0000 - accuracy: 0.9991 - precision: 0.8515 - recall: 0.6151 - auc: 0.9343 - val_loss: 0.0016 - val_tp: 62.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 14.0000 - val_accuracy: 0.9996 - val_precision: 0.9538 - val_recall: 0.8158 - val_auc: 0.9801
+Epoch 40/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.0039 - tp: 199.0000 - fp: 35.0000 - tn: 181924.0000 - fn: 118.0000 - accuracy: 0.9992 - precision: 0.8504 - recall: 0.6278 - auc: 0.9250 - val_loss: 0.0016 - val_tp: 60.0000 - val_fp: 3.0000 - val_tn: 45490.0000 - val_fn: 16.0000 - val_accuracy: 0.9996 - val_precision: 0.9524 - val_recall: 0.7895 - val_auc: 0.9801
+Epoch 41/100
+88/90 [============================>.] - ETA: 0s - loss: 0.0041 - tp: 185.0000 - fp: 35.0000 - tn: 179875.0000 - fn: 129.0000 - accuracy: 0.9991 - precision: 0.8409 - recall: 0.5892 - auc: 0.9305Restoring model weights from the end of the best epoch.
+90/90 [==============================] - 1s 6ms/step - loss: 0.0041 - tp: 186.0000 - fp: 35.0000 - tn: 181924.0000 - fn: 131.0000 - accuracy: 0.9991 - precision: 0.8416 - recall: 0.5868 - auc: 0.9295 - val_loss: 0.0016 - val_tp: 65.0000 - val_fp: 5.0000 - val_tn: 45488.0000 - val_fn: 11.0000 - val_accuracy: 0.9996 - val_precision: 0.9286 - val_recall: 0.8553 - val_auc: 0.9801
+Epoch 00041: early stopping
+
+```
+
+### Check training history
+
+In this section, you will produce plots of your model's accuracy and loss on the training and validation set. These are useful to check for overfitting, which you can learn more about in this [tutorial](https://tensorflow.google.cn/tutorials/keras/overfit_and_underfit).
+
+Additionally, you can produce these plots for any of the metrics you created above. False negatives are included as an example.
+
+```py
+def plot_metrics(history):
+  metrics = ['loss', 'auc', 'precision', 'recall']
+  for n, metric in enumerate(metrics):
+    name = metric.replace("_"," ").capitalize()
+    plt.subplot(2,2,n+1)
+    plt.plot(history.epoch, history.history[metric], color=colors[0], label='Train')
+    plt.plot(history.epoch, history.history['val_'+metric],
+             color=colors[0], linestyle="--", label='Val')
+    plt.xlabel('Epoch')
+    plt.ylabel(name)
+    if metric == 'loss':
+      plt.ylim([0, plt.ylim()[1]])
+    elif metric == 'auc':
+      plt.ylim([0.8,1])
+    else:
+      plt.ylim([0,1])
+
+    plt.legend() 
+```
+
+```py
+plot_metrics(baseline_history) 
+```
+
+![png](img/f021b204e92d0e77d8439a03a43bb21e.png)
+
+**Note:** That the validation curve generally performs better than the training curve. This is mainly caused by the fact that the dropout layer is not active when evaluating the model.
+
+### Evaluate metrics
+
+You can use a [confusion matrix](https://developers.google.cn/machine-learning/glossary/#confusion_matrix) to summarize the actual vs. predicted labels where the X axis is the predicted label and the Y axis is the actual label.
+
+```py
+train_predictions_baseline = model.predict(train_features, batch_size=BATCH_SIZE)
+test_predictions_baseline = model.predict(test_features, batch_size=BATCH_SIZE) 
+```
+
+```py
+def plot_cm(labels, predictions, p=0.5):
+  cm = confusion_matrix(labels, predictions > p)
+  plt.figure(figsize=(5,5))
+  sns.heatmap(cm, annot=True, fmt="d")
+  plt.title('Confusion matrix @{:.2f}'.format(p))
+  plt.ylabel('Actual label')
+  plt.xlabel('Predicted label')
+
+  print('Legitimate Transactions Detected (True Negatives): ', cm[0][0])
+  print('Legitimate Transactions Incorrectly Detected (False Positives): ', cm[0][1])
+  print('Fraudulent Transactions Missed (False Negatives): ', cm[1][0])
+  print('Fraudulent Transactions Detected (True Positives): ', cm[1][1])
+  print('Total Fraudulent Transactions: ', np.sum(cm[1])) 
+```
+
+Evaluate your model on the test dataset and display the results for the metrics you created above.
+
+```py
+baseline_results = model.evaluate(test_features, test_labels,
+                                  batch_size=BATCH_SIZE, verbose=0)
+for name, value in zip(model.metrics_names, baseline_results):
+  print(name, ': ', value)
+print()
+
+plot_cm(test_labels, test_predictions_baseline) 
+```
+
+```py
+loss :  0.002797449706122279
+tp :  68.0
+fp :  3.0
+tn :  56860.0
+fn :  31.0
+accuracy :  0.9994031190872192
+precision :  0.9577465057373047
+recall :  0.6868686676025391
+auc :  0.949228823184967
+
+Legitimate Transactions Detected (True Negatives):  56860
+Legitimate Transactions Incorrectly Detected (False Positives):  3
+Fraudulent Transactions Missed (False Negatives):  31
+Fraudulent Transactions Detected (True Positives):  68
+Total Fraudulent Transactions:  99
+
+```
+
+![png](img/85d63bf8a53bc6d25baa38c0e3e2dde0.png)
+
+If the model had predicted everything perfectly, this would be a [diagonal matrix](https://en.wikipedia.org/wiki/Diagonal_matrix) where values off the main diagonal, indicating incorrect predictions, would be zero. In this case the matrix shows that you have relatively few false positives, meaning that there were relatively few legitimate transactions that were incorrectly flagged. However, you would likely want to have even fewer false negatives despite the cost of increasing the number of false positives. This trade off may be preferable because false negatives would allow fraudulent transactions to go through, whereas false positives may cause an email to be sent to a customer to ask them to verify their card activity.
+
+### Plot the ROC
+
+Now plot the [ROC](https://developers.google.cn/machine-learning/glossary#ROC). This plot is useful because it shows, at a glance, the range of performance the model can reach just by tuning the output threshold.
+
+```py
+def plot_roc(name, labels, predictions, **kwargs):
+  fp, tp, _ = sklearn.metrics.roc_curve(labels, predictions)
+
+  plt.plot(100*fp, 100*tp, label=name, linewidth=2, **kwargs)
+  plt.xlabel('False positives [%]')
+  plt.ylabel('True positives [%]')
+  plt.xlim([-0.5,20])
+  plt.ylim([80,100.5])
+  plt.grid(True)
+  ax = plt.gca()
+  ax.set_aspect('equal') 
+```
+
+```py
+plot_roc("Train Baseline", train_labels, train_predictions_baseline, color=colors[0])
+plot_roc("Test Baseline", test_labels, test_predictions_baseline, color=colors[0], linestyle='--')
+plt.legend(loc='lower right') 
+```
+
+```py
+<matplotlib.legend.Legend at 0x7fbcbc3cd0b8>
+
+```
+
+![png](img/74badb10696c0ffbba886121ce004be0.png)
+
+It looks like the precision is relatively high, but the recall and the area under the ROC curve (AUC) aren't as high as you might like. Classifiers often face challenges when trying to maximize both precision and recall, which is especially true when working with imbalanced datasets. It is important to consider the costs of different types of errors in the context of the problem you care about. In this example, a false negative (a fraudulent transaction is missed) may have a financial cost, while a false positive (a transaction is incorrectly flagged as fraudulent) may decrease user happiness.
+
+## Class weights
+
+### Calculate class weights
+
+The goal is to identify fraudulent transactions, but you don't have very many of those positive samples to work with, so you would want to have the classifier heavily weight the few examples that are available. You can do this by passing Keras weights for each class through a parameter. These will cause the model to "pay more attention" to examples from an under-represented class.
+
+```py
+# Scaling by total/2 helps keep the loss to a similar magnitude.
+# The sum of the weights of all examples stays the same.
+weight_for_0 = (1 / neg)*(total)/2.0 
+weight_for_1 = (1 / pos)*(total)/2.0
+
+class_weight = {0: weight_for_0, 1: weight_for_1}
+
+print('Weight for class 0: {:.2f}'.format(weight_for_0))
+print('Weight for class 1: {:.2f}'.format(weight_for_1)) 
+```
+
+```py
+Weight for class 0: 0.50
+Weight for class 1: 289.44
+
+```
+
+### Train a model with class weights
+
+Now try re-training and evaluating the model with class weights to see how that affects the predictions.
+
+**Note:** Using `class_weights` changes the range of the loss. This may affect the stability of the training depending on the optimizer. Optimizers whose step size is dependent on the magnitude of the gradient, like [`optimizers.SGD`](https://tensorflow.google.cn/api_docs/python/tf/keras/optimizers/SGD), may fail. The optimizer used here, [`optimizers.Adam`](https://tensorflow.google.cn/api_docs/python/tf/keras/optimizers/Adam), is unaffected by the scaling change. Also note that because of the weighting, the total losses are not comparable between the two models.
+
+```py
+weighted_model = make_model()
+weighted_model.load_weights(initial_weights)
+
+weighted_history = weighted_model.fit(
+    train_features,
+    train_labels,
+    batch_size=BATCH_SIZE,
+    epochs=EPOCHS,
+    callbacks=[early_stopping],
+    validation_data=(val_features, val_labels),
+    # The class weights go here
+    class_weight=class_weight) 
+```
+
+```py
+Epoch 1/100
+90/90 [==============================] - 1s 14ms/step - loss: 2.0102 - tp: 135.0000 - fp: 420.0000 - tn: 238402.0000 - fn: 281.0000 - accuracy: 0.9971 - precision: 0.2432 - recall: 0.3245 - auc: 0.8079 - val_loss: 0.0111 - val_tp: 45.0000 - val_fp: 51.0000 - val_tn: 45442.0000 - val_fn: 31.0000 - val_accuracy: 0.9982 - val_precision: 0.4688 - val_recall: 0.5921 - val_auc: 0.9314
+Epoch 2/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.9256 - tp: 178.0000 - fp: 793.0000 - tn: 181166.0000 - fn: 139.0000 - accuracy: 0.9949 - precision: 0.1833 - recall: 0.5615 - auc: 0.8662 - val_loss: 0.0164 - val_tp: 66.0000 - val_fp: 108.0000 - val_tn: 45385.0000 - val_fn: 10.0000 - val_accuracy: 0.9974 - val_precision: 0.3793 - val_recall: 0.8684 - val_auc: 0.9468
+Epoch 3/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.7136 - tp: 215.0000 - fp: 1377.0000 - tn: 180582.0000 - fn: 102.0000 - accuracy: 0.9919 - precision: 0.1351 - recall: 0.6782 - auc: 0.8811 - val_loss: 0.0238 - val_tp: 68.0000 - val_fp: 174.0000 - val_tn: 45319.0000 - val_fn: 8.0000 - val_accuracy: 0.9960 - val_precision: 0.2810 - val_recall: 0.8947 - val_auc: 0.9866
+Epoch 4/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.5158 - tp: 240.0000 - fp: 2141.0000 - tn: 179818.0000 - fn: 77.0000 - accuracy: 0.9878 - precision: 0.1008 - recall: 0.7571 - auc: 0.9124 - val_loss: 0.0334 - val_tp: 69.0000 - val_fp: 257.0000 - val_tn: 45236.0000 - val_fn: 7.0000 - val_accuracy: 0.9942 - val_precision: 0.2117 - val_recall: 0.9079 - val_auc: 0.9951
+Epoch 5/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.4060 - tp: 256.0000 - fp: 3039.0000 - tn: 178920.0000 - fn: 61.0000 - accuracy: 0.9830 - precision: 0.0777 - recall: 0.8076 - auc: 0.9329 - val_loss: 0.0439 - val_tp: 72.0000 - val_fp: 364.0000 - val_tn: 45129.0000 - val_fn: 4.0000 - val_accuracy: 0.9919 - val_precision: 0.1651 - val_recall: 0.9474 - val_auc: 0.9965
+Epoch 6/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.4045 - tp: 255.0000 - fp: 4034.0000 - tn: 177925.0000 - fn: 62.0000 - accuracy: 0.9775 - precision: 0.0595 - recall: 0.8044 - auc: 0.9289 - val_loss: 0.0557 - val_tp: 73.0000 - val_fp: 572.0000 - val_tn: 44921.0000 - val_fn: 3.0000 - val_accuracy: 0.9874 - val_precision: 0.1132 - val_recall: 0.9605 - val_auc: 0.9969
+Epoch 7/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2990 - tp: 267.0000 - fp: 5024.0000 - tn: 176935.0000 - fn: 50.0000 - accuracy: 0.9722 - precision: 0.0505 - recall: 0.8423 - auc: 0.9544 - val_loss: 0.0723 - val_tp: 74.0000 - val_fp: 825.0000 - val_tn: 44668.0000 - val_fn: 2.0000 - val_accuracy: 0.9819 - val_precision: 0.0823 - val_recall: 0.9737 - val_auc: 0.9971
+Epoch 8/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.3124 - tp: 267.0000 - fp: 6321.0000 - tn: 175638.0000 - fn: 50.0000 - accuracy: 0.9650 - precision: 0.0405 - recall: 0.8423 - auc: 0.9493 - val_loss: 0.0886 - val_tp: 74.0000 - val_fp: 1043.0000 - val_tn: 44450.0000 - val_fn: 2.0000 - val_accuracy: 0.9771 - val_precision: 0.0662 - val_recall: 0.9737 - val_auc: 0.9971
+Epoch 9/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2856 - tp: 276.0000 - fp: 6879.0000 - tn: 175080.0000 - fn: 41.0000 - accuracy: 0.9620 - precision: 0.0386 - recall: 0.8707 - auc: 0.9536 - val_loss: 0.0963 - val_tp: 74.0000 - val_fp: 1120.0000 - val_tn: 44373.0000 - val_fn: 2.0000 - val_accuracy: 0.9754 - val_precision: 0.0620 - val_recall: 0.9737 - val_auc: 0.9972
+Epoch 10/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2871 - tp: 272.0000 - fp: 7610.0000 - tn: 174349.0000 - fn: 45.0000 - accuracy: 0.9580 - precision: 0.0345 - recall: 0.8580 - auc: 0.9545 - val_loss: 0.1053 - val_tp: 74.0000 - val_fp: 1219.0000 - val_tn: 44274.0000 - val_fn: 2.0000 - val_accuracy: 0.9732 - val_precision: 0.0572 - val_recall: 0.9737 - val_auc: 0.9972
+Epoch 11/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2646 - tp: 273.0000 - fp: 8061.0000 - tn: 173898.0000 - fn: 44.0000 - accuracy: 0.9555 - precision: 0.0328 - recall: 0.8612 - auc: 0.9602 - val_loss: 0.1079 - val_tp: 74.0000 - val_fp: 1242.0000 - val_tn: 44251.0000 - val_fn: 2.0000 - val_accuracy: 0.9727 - val_precision: 0.0562 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 12/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2574 - tp: 277.0000 - fp: 8239.0000 - tn: 173720.0000 - fn: 40.0000 - accuracy: 0.9546 - precision: 0.0325 - recall: 0.8738 - auc: 0.9621 - val_loss: 0.1086 - val_tp: 74.0000 - val_fp: 1223.0000 - val_tn: 44270.0000 - val_fn: 2.0000 - val_accuracy: 0.9731 - val_precision: 0.0571 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 13/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2525 - tp: 279.0000 - fp: 7925.0000 - tn: 174034.0000 - fn: 38.0000 - accuracy: 0.9563 - precision: 0.0340 - recall: 0.8801 - auc: 0.9604 - val_loss: 0.1032 - val_tp: 74.0000 - val_fp: 1153.0000 - val_tn: 44340.0000 - val_fn: 2.0000 - val_accuracy: 0.9747 - val_precision: 0.0603 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 14/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2712 - tp: 273.0000 - fp: 8290.0000 - tn: 173669.0000 - fn: 44.0000 - accuracy: 0.9543 - precision: 0.0319 - recall: 0.8612 - auc: 0.9572 - val_loss: 0.1083 - val_tp: 74.0000 - val_fp: 1193.0000 - val_tn: 44300.0000 - val_fn: 2.0000 - val_accuracy: 0.9738 - val_precision: 0.0584 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 15/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2324 - tp: 283.0000 - fp: 8182.0000 - tn: 173777.0000 - fn: 34.0000 - accuracy: 0.9549 - precision: 0.0334 - recall: 0.8927 - auc: 0.9668 - val_loss: 0.1017 - val_tp: 74.0000 - val_fp: 1131.0000 - val_tn: 44362.0000 - val_fn: 2.0000 - val_accuracy: 0.9751 - val_precision: 0.0614 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 16/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2605 - tp: 277.0000 - fp: 7798.0000 - tn: 174161.0000 - fn: 40.0000 - accuracy: 0.9570 - precision: 0.0343 - recall: 0.8738 - auc: 0.9585 - val_loss: 0.1030 - val_tp: 74.0000 - val_fp: 1134.0000 - val_tn: 44359.0000 - val_fn: 2.0000 - val_accuracy: 0.9751 - val_precision: 0.0613 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 17/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2235 - tp: 281.0000 - fp: 7994.0000 - tn: 173965.0000 - fn: 36.0000 - accuracy: 0.9559 - precision: 0.0340 - recall: 0.8864 - auc: 0.9696 - val_loss: 0.1029 - val_tp: 74.0000 - val_fp: 1127.0000 - val_tn: 44366.0000 - val_fn: 2.0000 - val_accuracy: 0.9752 - val_precision: 0.0616 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 18/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2455 - tp: 278.0000 - fp: 7706.0000 - tn: 174253.0000 - fn: 39.0000 - accuracy: 0.9575 - precision: 0.0348 - recall: 0.8770 - auc: 0.9633 - val_loss: 0.1010 - val_tp: 74.0000 - val_fp: 1099.0000 - val_tn: 44394.0000 - val_fn: 2.0000 - val_accuracy: 0.9758 - val_precision: 0.0631 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 19/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1759 - tp: 285.0000 - fp: 7766.0000 - tn: 174193.0000 - fn: 32.0000 - accuracy: 0.9572 - precision: 0.0354 - recall: 0.8991 - auc: 0.9813 - val_loss: 0.1001 - val_tp: 74.0000 - val_fp: 1079.0000 - val_tn: 44414.0000 - val_fn: 2.0000 - val_accuracy: 0.9763 - val_precision: 0.0642 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 20/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2220 - tp: 283.0000 - fp: 7554.0000 - tn: 174405.0000 - fn: 34.0000 - accuracy: 0.9584 - precision: 0.0361 - recall: 0.8927 - auc: 0.9669 - val_loss: 0.0944 - val_tp: 74.0000 - val_fp: 1009.0000 - val_tn: 44484.0000 - val_fn: 2.0000 - val_accuracy: 0.9778 - val_precision: 0.0683 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 21/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2329 - tp: 282.0000 - fp: 7369.0000 - tn: 174590.0000 - fn: 35.0000 - accuracy: 0.9594 - precision: 0.0369 - recall: 0.8896 - auc: 0.9657 - val_loss: 0.0942 - val_tp: 74.0000 - val_fp: 1011.0000 - val_tn: 44482.0000 - val_fn: 2.0000 - val_accuracy: 0.9778 - val_precision: 0.0682 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 22/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2317 - tp: 281.0000 - fp: 7563.0000 - tn: 174396.0000 - fn: 36.0000 - accuracy: 0.9583 - precision: 0.0358 - recall: 0.8864 - auc: 0.9658 - val_loss: 0.0936 - val_tp: 74.0000 - val_fp: 993.0000 - val_tn: 44500.0000 - val_fn: 2.0000 - val_accuracy: 0.9782 - val_precision: 0.0694 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 23/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2109 - tp: 284.0000 - fp: 7520.0000 - tn: 174439.0000 - fn: 33.0000 - accuracy: 0.9586 - precision: 0.0364 - recall: 0.8959 - auc: 0.9702 - val_loss: 0.0940 - val_tp: 74.0000 - val_fp: 1003.0000 - val_tn: 44490.0000 - val_fn: 2.0000 - val_accuracy: 0.9779 - val_precision: 0.0687 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 24/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2089 - tp: 283.0000 - fp: 7119.0000 - tn: 174840.0000 - fn: 34.0000 - accuracy: 0.9608 - precision: 0.0382 - recall: 0.8927 - auc: 0.9731 - val_loss: 0.0898 - val_tp: 74.0000 - val_fp: 939.0000 - val_tn: 44554.0000 - val_fn: 2.0000 - val_accuracy: 0.9793 - val_precision: 0.0731 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 25/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2062 - tp: 280.0000 - fp: 7392.0000 - tn: 174567.0000 - fn: 37.0000 - accuracy: 0.9592 - precision: 0.0365 - recall: 0.8833 - auc: 0.9749 - val_loss: 0.0969 - val_tp: 74.0000 - val_fp: 1035.0000 - val_tn: 44458.0000 - val_fn: 2.0000 - val_accuracy: 0.9772 - val_precision: 0.0667 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 26/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2006 - tp: 284.0000 - fp: 7149.0000 - tn: 174810.0000 - fn: 33.0000 - accuracy: 0.9606 - precision: 0.0382 - recall: 0.8959 - auc: 0.9754 - val_loss: 0.0949 - val_tp: 74.0000 - val_fp: 1004.0000 - val_tn: 44489.0000 - val_fn: 2.0000 - val_accuracy: 0.9779 - val_precision: 0.0686 - val_recall: 0.9737 - val_auc: 0.9973
+Epoch 27/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2169 - tp: 281.0000 - fp: 7592.0000 - tn: 174367.0000 - fn: 36.0000 - accuracy: 0.9582 - precision: 0.0357 - recall: 0.8864 - auc: 0.9727 - val_loss: 0.0969 - val_tp: 74.0000 - val_fp: 1038.0000 - val_tn: 44455.0000 - val_fn: 2.0000 - val_accuracy: 0.9772 - val_precision: 0.0665 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 28/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2110 - tp: 285.0000 - fp: 6957.0000 - tn: 175002.0000 - fn: 32.0000 - accuracy: 0.9617 - precision: 0.0394 - recall: 0.8991 - auc: 0.9697 - val_loss: 0.0922 - val_tp: 74.0000 - val_fp: 988.0000 - val_tn: 44505.0000 - val_fn: 2.0000 - val_accuracy: 0.9783 - val_precision: 0.0697 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 29/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2234 - tp: 280.0000 - fp: 7030.0000 - tn: 174929.0000 - fn: 37.0000 - accuracy: 0.9612 - precision: 0.0383 - recall: 0.8833 - auc: 0.9679 - val_loss: 0.0942 - val_tp: 74.0000 - val_fp: 1024.0000 - val_tn: 44469.0000 - val_fn: 2.0000 - val_accuracy: 0.9775 - val_precision: 0.0674 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 30/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1889 - tp: 288.0000 - fp: 7228.0000 - tn: 174731.0000 - fn: 29.0000 - accuracy: 0.9602 - precision: 0.0383 - recall: 0.9085 - auc: 0.9771 - val_loss: 0.0895 - val_tp: 74.0000 - val_fp: 954.0000 - val_tn: 44539.0000 - val_fn: 2.0000 - val_accuracy: 0.9790 - val_precision: 0.0720 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 31/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1824 - tp: 286.0000 - fp: 6703.0000 - tn: 175256.0000 - fn: 31.0000 - accuracy: 0.9631 - precision: 0.0409 - recall: 0.9022 - auc: 0.9789 - val_loss: 0.0898 - val_tp: 74.0000 - val_fp: 957.0000 - val_tn: 44536.0000 - val_fn: 2.0000 - val_accuracy: 0.9790 - val_precision: 0.0718 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 32/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2014 - tp: 279.0000 - fp: 6918.0000 - tn: 175041.0000 - fn: 38.0000 - accuracy: 0.9618 - precision: 0.0388 - recall: 0.8801 - auc: 0.9756 - val_loss: 0.0933 - val_tp: 74.0000 - val_fp: 993.0000 - val_tn: 44500.0000 - val_fn: 2.0000 - val_accuracy: 0.9782 - val_precision: 0.0694 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 33/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2153 - tp: 283.0000 - fp: 6885.0000 - tn: 175074.0000 - fn: 34.0000 - accuracy: 0.9620 - precision: 0.0395 - recall: 0.8927 - auc: 0.9708 - val_loss: 0.0905 - val_tp: 74.0000 - val_fp: 949.0000 - val_tn: 44544.0000 - val_fn: 2.0000 - val_accuracy: 0.9791 - val_precision: 0.0723 - val_recall: 0.9737 - val_auc: 0.9974
+Epoch 34/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1970 - tp: 283.0000 - fp: 6969.0000 - tn: 174990.0000 - fn: 34.0000 - accuracy: 0.9616 - precision: 0.0390 - recall: 0.8927 - auc: 0.9769 - val_loss: 0.0958 - val_tp: 74.0000 - val_fp: 1018.0000 - val_tn: 44475.0000 - val_fn: 2.0000 - val_accuracy: 0.9776 - val_precision: 0.0678 - val_recall: 0.9737 - val_auc: 0.9975
+Epoch 35/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1737 - tp: 290.0000 - fp: 7040.0000 - tn: 174919.0000 - fn: 27.0000 - accuracy: 0.9612 - precision: 0.0396 - recall: 0.9148 - auc: 0.9806 - val_loss: 0.0907 - val_tp: 74.0000 - val_fp: 948.0000 - val_tn: 44545.0000 - val_fn: 2.0000 - val_accuracy: 0.9792 - val_precision: 0.0724 - val_recall: 0.9737 - val_auc: 0.9975
+Epoch 36/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1906 - tp: 288.0000 - fp: 6663.0000 - tn: 175296.0000 - fn: 29.0000 - accuracy: 0.9633 - precision: 0.0414 - recall: 0.9085 - auc: 0.9764 - val_loss: 0.0872 - val_tp: 74.0000 - val_fp: 904.0000 - val_tn: 44589.0000 - val_fn: 2.0000 - val_accuracy: 0.9801 - val_precision: 0.0757 - val_recall: 0.9737 - val_auc: 0.9975
+Epoch 37/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2071 - tp: 284.0000 - fp: 6688.0000 - tn: 175271.0000 - fn: 33.0000 - accuracy: 0.9631 - precision: 0.0407 - recall: 0.8959 - auc: 0.9727 - val_loss: 0.0905 - val_tp: 74.0000 - val_fp: 939.0000 - val_tn: 44554.0000 - val_fn: 2.0000 - val_accuracy: 0.9793 - val_precision: 0.0731 - val_recall: 0.9737 - val_auc: 0.9975
+Epoch 38/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1813 - tp: 283.0000 - fp: 6784.0000 - tn: 175175.0000 - fn: 34.0000 - accuracy: 0.9626 - precision: 0.0400 - recall: 0.8927 - auc: 0.9817 - val_loss: 0.0913 - val_tp: 74.0000 - val_fp: 951.0000 - val_tn: 44542.0000 - val_fn: 2.0000 - val_accuracy: 0.9791 - val_precision: 0.0722 - val_recall: 0.9737 - val_auc: 0.9975
+Epoch 39/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1897 - tp: 289.0000 - fp: 6872.0000 - tn: 175087.0000 - fn: 28.0000 - accuracy: 0.9621 - precision: 0.0404 - recall: 0.9117 - auc: 0.9767 - val_loss: 0.0916 - val_tp: 74.0000 - val_fp: 959.0000 - val_tn: 44534.0000 - val_fn: 2.0000 - val_accuracy: 0.9789 - val_precision: 0.0716 - val_recall: 0.9737 - val_auc: 0.9975
+Epoch 40/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1546 - tp: 295.0000 - fp: 6584.0000 - tn: 175375.0000 - fn: 22.0000 - accuracy: 0.9638 - precision: 0.0429 - recall: 0.9306 - auc: 0.9858 - val_loss: 0.0904 - val_tp: 74.0000 - val_fp: 948.0000 - val_tn: 44545.0000 - val_fn: 2.0000 - val_accuracy: 0.9792 - val_precision: 0.0724 - val_recall: 0.9737 - val_auc: 0.9976
+Epoch 41/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2263 - tp: 278.0000 - fp: 6677.0000 - tn: 175282.0000 - fn: 39.0000 - accuracy: 0.9632 - precision: 0.0400 - recall: 0.8770 - auc: 0.9676 - val_loss: 0.0908 - val_tp: 74.0000 - val_fp: 955.0000 - val_tn: 44538.0000 - val_fn: 2.0000 - val_accuracy: 0.9790 - val_precision: 0.0719 - val_recall: 0.9737 - val_auc: 0.9975
+Epoch 42/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2033 - tp: 281.0000 - fp: 6777.0000 - tn: 175182.0000 - fn: 36.0000 - accuracy: 0.9626 - precision: 0.0398 - recall: 0.8864 - auc: 0.9756 - val_loss: 0.0953 - val_tp: 74.0000 - val_fp: 1029.0000 - val_tn: 44464.0000 - val_fn: 2.0000 - val_accuracy: 0.9774 - val_precision: 0.0671 - val_recall: 0.9737 - val_auc: 0.9975
+Epoch 43/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1865 - tp: 283.0000 - fp: 6824.0000 - tn: 175135.0000 - fn: 34.0000 - accuracy: 0.9624 - precision: 0.0398 - recall: 0.8927 - auc: 0.9792 - val_loss: 0.0945 - val_tp: 74.0000 - val_fp: 1019.0000 - val_tn: 44474.0000 - val_fn: 2.0000 - val_accuracy: 0.9776 - val_precision: 0.0677 - val_recall: 0.9737 - val_auc: 0.9976
+Epoch 44/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1857 - tp: 286.0000 - fp: 6655.0000 - tn: 175304.0000 - fn: 31.0000 - accuracy: 0.9633 - precision: 0.0412 - recall: 0.9022 - auc: 0.9781 - val_loss: 0.0927 - val_tp: 74.0000 - val_fp: 975.0000 - val_tn: 44518.0000 - val_fn: 2.0000 - val_accuracy: 0.9786 - val_precision: 0.0705 - val_recall: 0.9737 - val_auc: 0.9977
+Epoch 45/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1874 - tp: 282.0000 - fp: 6595.0000 - tn: 175364.0000 - fn: 35.0000 - accuracy: 0.9636 - precision: 0.0410 - recall: 0.8896 - auc: 0.9810 - val_loss: 0.0934 - val_tp: 74.0000 - val_fp: 974.0000 - val_tn: 44519.0000 - val_fn: 2.0000 - val_accuracy: 0.9786 - val_precision: 0.0706 - val_recall: 0.9737 - val_auc: 0.9977
+Epoch 46/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1641 - tp: 291.0000 - fp: 6532.0000 - tn: 175427.0000 - fn: 26.0000 - accuracy: 0.9640 - precision: 0.0426 - recall: 0.9180 - auc: 0.9837 - val_loss: 0.0868 - val_tp: 74.0000 - val_fp: 885.0000 - val_tn: 44608.0000 - val_fn: 2.0000 - val_accuracy: 0.9805 - val_precision: 0.0772 - val_recall: 0.9737 - val_auc: 0.9976
+Epoch 47/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1909 - tp: 285.0000 - fp: 6662.0000 - tn: 175297.0000 - fn: 32.0000 - accuracy: 0.9633 - precision: 0.0410 - recall: 0.8991 - auc: 0.9780 - val_loss: 0.0874 - val_tp: 74.0000 - val_fp: 899.0000 - val_tn: 44594.0000 - val_fn: 2.0000 - val_accuracy: 0.9802 - val_precision: 0.0761 - val_recall: 0.9737 - val_auc: 0.9978
+Epoch 48/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1687 - tp: 287.0000 - fp: 6627.0000 - tn: 175332.0000 - fn: 30.0000 - accuracy: 0.9635 - precision: 0.0415 - recall: 0.9054 - auc: 0.9836 - val_loss: 0.0875 - val_tp: 74.0000 - val_fp: 899.0000 - val_tn: 44594.0000 - val_fn: 2.0000 - val_accuracy: 0.9802 - val_precision: 0.0761 - val_recall: 0.9737 - val_auc: 0.9977
+Epoch 49/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1740 - tp: 291.0000 - fp: 6522.0000 - tn: 175437.0000 - fn: 26.0000 - accuracy: 0.9641 - precision: 0.0427 - recall: 0.9180 - auc: 0.9794 - val_loss: 0.0848 - val_tp: 74.0000 - val_fp: 866.0000 - val_tn: 44627.0000 - val_fn: 2.0000 - val_accuracy: 0.9810 - val_precision: 0.0787 - val_recall: 0.9737 - val_auc: 0.9978
+Epoch 50/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1773 - tp: 292.0000 - fp: 6370.0000 - tn: 175589.0000 - fn: 25.0000 - accuracy: 0.9649 - precision: 0.0438 - recall: 0.9211 - auc: 0.9785 - val_loss: 0.0794 - val_tp: 74.0000 - val_fp: 791.0000 - val_tn: 44702.0000 - val_fn: 2.0000 - val_accuracy: 0.9826 - val_precision: 0.0855 - val_recall: 0.9737 - val_auc: 0.9978
+Epoch 51/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1828 - tp: 289.0000 - fp: 5870.0000 - tn: 176089.0000 - fn: 28.0000 - accuracy: 0.9676 - precision: 0.0469 - recall: 0.9117 - auc: 0.9789 - val_loss: 0.0791 - val_tp: 74.0000 - val_fp: 807.0000 - val_tn: 44686.0000 - val_fn: 2.0000 - val_accuracy: 0.9822 - val_precision: 0.0840 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 52/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1567 - tp: 290.0000 - fp: 5704.0000 - tn: 176255.0000 - fn: 27.0000 - accuracy: 0.9686 - precision: 0.0484 - recall: 0.9148 - auc: 0.9860 - val_loss: 0.0772 - val_tp: 74.0000 - val_fp: 765.0000 - val_tn: 44728.0000 - val_fn: 2.0000 - val_accuracy: 0.9832 - val_precision: 0.0882 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 53/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1752 - tp: 290.0000 - fp: 6278.0000 - tn: 175681.0000 - fn: 27.0000 - accuracy: 0.9654 - precision: 0.0442 - recall: 0.9148 - auc: 0.9808 - val_loss: 0.0854 - val_tp: 74.0000 - val_fp: 873.0000 - val_tn: 44620.0000 - val_fn: 2.0000 - val_accuracy: 0.9808 - val_precision: 0.0781 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 54/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1644 - tp: 289.0000 - fp: 6298.0000 - tn: 175661.0000 - fn: 28.0000 - accuracy: 0.9653 - precision: 0.0439 - recall: 0.9117 - auc: 0.9833 - val_loss: 0.0875 - val_tp: 74.0000 - val_fp: 904.0000 - val_tn: 44589.0000 - val_fn: 2.0000 - val_accuracy: 0.9801 - val_precision: 0.0757 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 55/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1721 - tp: 290.0000 - fp: 6318.0000 - tn: 175641.0000 - fn: 27.0000 - accuracy: 0.9652 - precision: 0.0439 - recall: 0.9148 - auc: 0.9816 - val_loss: 0.0827 - val_tp: 74.0000 - val_fp: 844.0000 - val_tn: 44649.0000 - val_fn: 2.0000 - val_accuracy: 0.9814 - val_precision: 0.0806 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 56/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1841 - tp: 284.0000 - fp: 6052.0000 - tn: 175907.0000 - fn: 33.0000 - accuracy: 0.9666 - precision: 0.0448 - recall: 0.8959 - auc: 0.9798 - val_loss: 0.0872 - val_tp: 74.0000 - val_fp: 911.0000 - val_tn: 44582.0000 - val_fn: 2.0000 - val_accuracy: 0.9800 - val_precision: 0.0751 - val_recall: 0.9737 - val_auc: 0.9977
+Epoch 57/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1710 - tp: 289.0000 - fp: 6593.0000 - tn: 175366.0000 - fn: 28.0000 - accuracy: 0.9637 - precision: 0.0420 - recall: 0.9117 - auc: 0.9824 - val_loss: 0.0856 - val_tp: 74.0000 - val_fp: 890.0000 - val_tn: 44603.0000 - val_fn: 2.0000 - val_accuracy: 0.9804 - val_precision: 0.0768 - val_recall: 0.9737 - val_auc: 0.9978
+Epoch 58/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1649 - tp: 287.0000 - fp: 6478.0000 - tn: 175481.0000 - fn: 30.0000 - accuracy: 0.9643 - precision: 0.0424 - recall: 0.9054 - auc: 0.9836 - val_loss: 0.0797 - val_tp: 74.0000 - val_fp: 817.0000 - val_tn: 44676.0000 - val_fn: 2.0000 - val_accuracy: 0.9820 - val_precision: 0.0831 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 59/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1752 - tp: 285.0000 - fp: 5981.0000 - tn: 175978.0000 - fn: 32.0000 - accuracy: 0.9670 - precision: 0.0455 - recall: 0.8991 - auc: 0.9827 - val_loss: 0.0813 - val_tp: 74.0000 - val_fp: 842.0000 - val_tn: 44651.0000 - val_fn: 2.0000 - val_accuracy: 0.9815 - val_precision: 0.0808 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 60/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1374 - tp: 298.0000 - fp: 5910.0000 - tn: 176049.0000 - fn: 19.0000 - accuracy: 0.9675 - precision: 0.0480 - recall: 0.9401 - auc: 0.9884 - val_loss: 0.0760 - val_tp: 74.0000 - val_fp: 764.0000 - val_tn: 44729.0000 - val_fn: 2.0000 - val_accuracy: 0.9832 - val_precision: 0.0883 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 61/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.1655 - tp: 288.0000 - fp: 5872.0000 - tn: 176087.0000 - fn: 29.0000 - accuracy: 0.9676 - precision: 0.0468 - recall: 0.9085 - auc: 0.9838 - val_loss: 0.0795 - val_tp: 74.0000 - val_fp: 819.0000 - val_tn: 44674.0000 - val_fn: 2.0000 - val_accuracy: 0.9820 - val_precision: 0.0829 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 62/100
+90/90 [==============================] - 1s 6ms/step - loss: 0.2024 - tp: 281.0000 - fp: 6087.0000 - tn: 175872.0000 - fn: 36.0000 - accuracy: 0.9664 - precision: 0.0441 - recall: 0.8864 - auc: 0.9758 - val_loss: 0.0841 - val_tp: 74.0000 - val_fp: 872.0000 - val_tn: 44621.0000 - val_fn: 2.0000 - val_accuracy: 0.9808 - val_precision: 0.0782 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 63/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1624 - tp: 288.0000 - fp: 6407.0000 - tn: 175552.0000 - fn: 29.0000 - accuracy: 0.9647 - precision: 0.0430 - recall: 0.9085 - auc: 0.9855 - val_loss: 0.0836 - val_tp: 74.0000 - val_fp: 876.0000 - val_tn: 44617.0000 - val_fn: 2.0000 - val_accuracy: 0.9807 - val_precision: 0.0779 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 64/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1757 - tp: 287.0000 - fp: 6419.0000 - tn: 175540.0000 - fn: 30.0000 - accuracy: 0.9646 - precision: 0.0428 - recall: 0.9054 - auc: 0.9812 - val_loss: 0.0803 - val_tp: 74.0000 - val_fp: 832.0000 - val_tn: 44661.0000 - val_fn: 2.0000 - val_accuracy: 0.9817 - val_precision: 0.0817 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 65/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1609 - tp: 287.0000 - fp: 6008.0000 - tn: 175951.0000 - fn: 30.0000 - accuracy: 0.9669 - precision: 0.0456 - recall: 0.9054 - auc: 0.9854 - val_loss: 0.0805 - val_tp: 74.0000 - val_fp: 838.0000 - val_tn: 44655.0000 - val_fn: 2.0000 - val_accuracy: 0.9816 - val_precision: 0.0811 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 66/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1593 - tp: 290.0000 - fp: 6104.0000 - tn: 175855.0000 - fn: 27.0000 - accuracy: 0.9664 - precision: 0.0454 - recall: 0.9148 - auc: 0.9838 - val_loss: 0.0801 - val_tp: 74.0000 - val_fp: 822.0000 - val_tn: 44671.0000 - val_fn: 2.0000 - val_accuracy: 0.9819 - val_precision: 0.0826 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 67/100
+90/90 [==============================] - 1s 8ms/step - loss: 0.1600 - tp: 292.0000 - fp: 5888.0000 - tn: 176071.0000 - fn: 25.0000 - accuracy: 0.9676 - precision: 0.0472 - recall: 0.9211 - auc: 0.9823 - val_loss: 0.0766 - val_tp: 74.0000 - val_fp: 786.0000 - val_tn: 44707.0000 - val_fn: 2.0000 - val_accuracy: 0.9827 - val_precision: 0.0860 - val_recall: 0.9737 - val_auc: 0.9981
+Epoch 68/100
+90/90 [==============================] - 1s 8ms/step - loss: 0.1803 - tp: 286.0000 - fp: 5871.0000 - tn: 176088.0000 - fn: 31.0000 - accuracy: 0.9676 - precision: 0.0465 - recall: 0.9022 - auc: 0.9792 - val_loss: 0.0785 - val_tp: 74.0000 - val_fp: 788.0000 - val_tn: 44705.0000 - val_fn: 2.0000 - val_accuracy: 0.9827 - val_precision: 0.0858 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 69/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1873 - tp: 284.0000 - fp: 5685.0000 - tn: 176274.0000 - fn: 33.0000 - accuracy: 0.9686 - precision: 0.0476 - recall: 0.8959 - auc: 0.9773 - val_loss: 0.0779 - val_tp: 74.0000 - val_fp: 786.0000 - val_tn: 44707.0000 - val_fn: 2.0000 - val_accuracy: 0.9827 - val_precision: 0.0860 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 70/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1525 - tp: 289.0000 - fp: 6048.0000 - tn: 175911.0000 - fn: 28.0000 - accuracy: 0.9667 - precision: 0.0456 - recall: 0.9117 - auc: 0.9857 - val_loss: 0.0791 - val_tp: 74.0000 - val_fp: 803.0000 - val_tn: 44690.0000 - val_fn: 2.0000 - val_accuracy: 0.9823 - val_precision: 0.0844 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 71/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1971 - tp: 284.0000 - fp: 5980.0000 - tn: 175979.0000 - fn: 33.0000 - accuracy: 0.9670 - precision: 0.0453 - recall: 0.8959 - auc: 0.9753 - val_loss: 0.0811 - val_tp: 74.0000 - val_fp: 837.0000 - val_tn: 44656.0000 - val_fn: 2.0000 - val_accuracy: 0.9816 - val_precision: 0.0812 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 72/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1695 - tp: 286.0000 - fp: 6341.0000 - tn: 175618.0000 - fn: 31.0000 - accuracy: 0.9650 - precision: 0.0432 - recall: 0.9022 - auc: 0.9845 - val_loss: 0.0846 - val_tp: 74.0000 - val_fp: 896.0000 - val_tn: 44597.0000 - val_fn: 2.0000 - val_accuracy: 0.9803 - val_precision: 0.0763 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 73/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1766 - tp: 287.0000 - fp: 6297.0000 - tn: 175662.0000 - fn: 30.0000 - accuracy: 0.9653 - precision: 0.0436 - recall: 0.9054 - auc: 0.9818 - val_loss: 0.0824 - val_tp: 74.0000 - val_fp: 865.0000 - val_tn: 44628.0000 - val_fn: 2.0000 - val_accuracy: 0.9810 - val_precision: 0.0788 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 74/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1623 - tp: 289.0000 - fp: 6086.0000 - tn: 175873.0000 - fn: 28.0000 - accuracy: 0.9665 - precision: 0.0453 - recall: 0.9117 - auc: 0.9851 - val_loss: 0.0805 - val_tp: 74.0000 - val_fp: 829.0000 - val_tn: 44664.0000 - val_fn: 2.0000 - val_accuracy: 0.9818 - val_precision: 0.0819 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 75/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1746 - tp: 286.0000 - fp: 6430.0000 - tn: 175529.0000 - fn: 31.0000 - accuracy: 0.9646 - precision: 0.0426 - recall: 0.9022 - auc: 0.9826 - val_loss: 0.0851 - val_tp: 74.0000 - val_fp: 920.0000 - val_tn: 44573.0000 - val_fn: 2.0000 - val_accuracy: 0.9798 - val_precision: 0.0744 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 76/100
+90/90 [==============================] - 1s 7ms/step - loss: 0.1439 - tp: 294.0000 - fp: 6075.0000 - tn: 175884.0000 - fn: 23.0000 - accuracy: 0.9665 - precision: 0.0462 - recall: 0.9274 - auc: 0.9877 - val_loss: 0.0818 - val_tp: 74.0000 - val_fp: 872.0000 - val_tn: 44621.0000 - val_fn: 2.0000 - val_accuracy: 0.9808 - val_precision: 0.0782 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 77/100
+82/90 [==========================>...] - ETA: 0s - loss: 0.1624 - tp: 266.0000 - fp: 5807.0000 - tn: 161834.0000 - fn: 29.0000 - accuracy: 0.9652 - precision: 0.0438 - recall: 0.9017 - auc: 0.9853Restoring model weights from the end of the best epoch.
+90/90 [==============================] - 1s 7ms/step - loss: 0.1554 - tp: 288.0000 - fp: 6332.0000 - tn: 175627.0000 - fn: 29.0000 - accuracy: 0.9651 - precision: 0.0435 - recall: 0.9085 - auc: 0.9862 - val_loss: 0.0818 - val_tp: 74.0000 - val_fp: 875.0000 - val_tn: 44618.0000 - val_fn: 2.0000 - val_accuracy: 0.9808 - val_precision: 0.0780 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 00077: early stopping
+
+```
+
+### Check training history
+
+```py
+plot_metrics(weighted_history) 
+```
+
+![png](img/677f173984390980c5f4af3a22313c24.png)
+
+### Evaluate metrics
+
+```py
+train_predictions_weighted = weighted_model.predict(train_features, batch_size=BATCH_SIZE)
+test_predictions_weighted = weighted_model.predict(test_features, batch_size=BATCH_SIZE) 
+```
+
+```py
+weighted_results = weighted_model.evaluate(test_features, test_labels,
+                                           batch_size=BATCH_SIZE, verbose=0)
+for name, value in zip(weighted_model.metrics_names, weighted_results):
+  print(name, ': ', value)
+print()
+
+plot_cm(test_labels, test_predictions_weighted) 
+```
+
+```py
+loss :  0.07622280716896057
+tp :  90.0
+fp :  998.0
+tn :  55865.0
+fn :  9.0
+accuracy :  0.982321560382843
+precision :  0.08272058516740799
+recall :  0.9090909361839294
+auc :  0.9769566059112549
+
+Legitimate Transactions Detected (True Negatives):  55865
+Legitimate Transactions Incorrectly Detected (False Positives):  998
+Fraudulent Transactions Missed (False Negatives):  9
+Fraudulent Transactions Detected (True Positives):  90
+Total Fraudulent Transactions:  99
+
+```
+
+![png](img/00fbc45eaf75c4132a6ea862403f4be4.png)
+
+Here you can see that with class weights the accuracy and precision are lower because there are more false positives, but conversely the recall and AUC are higher because the model also found more true positives. Despite having lower accuracy, this model has higher recall (and identifies more fraudulent transactions). Of course, there is a cost to both types of error (you wouldn't want to bug users by flagging too many legitimate transactions as fraudulent, either). Carefully consider the trade-offs between these different types of errors for your application.
+
+### Plot the ROC
+
+```py
+plot_roc("Train Baseline", train_labels, train_predictions_baseline, color=colors[0])
+plot_roc("Test Baseline", test_labels, test_predictions_baseline, color=colors[0], linestyle='--')
+
+plot_roc("Train Weighted", train_labels, train_predictions_weighted, color=colors[1])
+plot_roc("Test Weighted", test_labels, test_predictions_weighted, color=colors[1], linestyle='--')
+
+plt.legend(loc='lower right') 
+```
+
+```py
+<matplotlib.legend.Legend at 0x7fbc8c589080>
+
+```
+
+![png](img/13a6ef1c7f66c4208c56677c5ddd6506.png)
+
+## Oversampling
+
+### Oversample the minority class
+
+A related approach would be to resample the dataset by oversampling the minority class.
+
+```py
+pos_features = train_features[bool_train_labels]
+neg_features = train_features[~bool_train_labels]
+
+pos_labels = train_labels[bool_train_labels]
+neg_labels = train_labels[~bool_train_labels] 
+```
+
+#### Using NumPy
+
+You can balance the dataset manually by choosing the right number of random indices from the positive examples:
+
+```py
+ids = np.arange(len(pos_features))
+choices = np.random.choice(ids, len(neg_features))
+
+res_pos_features = pos_features[choices]
+res_pos_labels = pos_labels[choices]
+
+res_pos_features.shape 
+```
+
+```py
+(181959, 29)
+
+```
+
+```py
+resampled_features = np.concatenate([res_pos_features, neg_features], axis=0)
+resampled_labels = np.concatenate([res_pos_labels, neg_labels], axis=0)
+
+order = np.arange(len(resampled_labels))
+np.random.shuffle(order)
+resampled_features = resampled_features[order]
+resampled_labels = resampled_labels[order]
+
+resampled_features.shape 
+```
+
+```py
+(363918, 29)
+
+```
+
+#### Using [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data)
+
+If you're using [`tf.data`](https://tensorflow.google.cn/api_docs/python/tf/data) the easiest way to produce balanced examples is to start with a `positive` and a `negative` dataset, and merge them. See [the tf.data guide](https://tensorflow.google.cn/guide/data) for more examples.
+
+```py
+BUFFER_SIZE = 100000
+
+def make_ds(features, labels):
+  ds = tf.data.Dataset.from_tensor_slices((features, labels))#.cache()
+  ds = ds.shuffle(BUFFER_SIZE).repeat()
+  return ds
+
+pos_ds = make_ds(pos_features, pos_labels)
+neg_ds = make_ds(neg_features, neg_labels) 
+```
+
+Each dataset provides `(feature, label)` pairs:
+
+```py
+for features, label in pos_ds.take(1):
+  print("Features:\n", features.numpy())
+  print()
+  print("Label: ", label.numpy()) 
+```
+
+```py
+Features:
+ [-1.72731925  1.77656615 -3.74269876  2.74253414 -1.32668397 -1.34677584
+ -4.46175762  2.0139002  -2.59309618 -5\.          4.12736453 -5.
+  0.02274489 -5\.         -0.32786349 -5\.         -5\.         -2.96360886
+  2.89835815  0.75463714  1.2022707  -0.14114195 -0.95544067 -1.22935903
+  0.18671861 -0.27928716  3.04376109  0.29779937 -1.45688482]
+
+Label:  1
+
+```
+
+Merge the two together using [`experimental.sample_from_datasets`](https://tensorflow.google.cn/api_docs/python/tf/data/experimental/sample_from_datasets):
+
+```py
+resampled_ds = tf.data.experimental.sample_from_datasets([pos_ds, neg_ds], weights=[0.5, 0.5])
+resampled_ds = resampled_ds.batch(BATCH_SIZE).prefetch(2) 
+```
+
+```py
+for features, label in resampled_ds.take(1):
+  print(label.numpy().mean()) 
+```
+
+```py
+0.50537109375
+
+```
+
+To use this dataset, you'll need the number of steps per epoch.
+
+The definition of "epoch" in this case is less clear. Say it's the number of batches required to see each negative example once:
+
+```py
+resampled_steps_per_epoch = np.ceil(2.0*neg/BATCH_SIZE)
+resampled_steps_per_epoch 
+```
+
+```py
+278.0
+
+```
+
+### Train on the oversampled data
+
+Now try training the model with the resampled data set instead of using class weights to see how these methods compare.
+
+**Note:** Because the data was balanced by replicating the positive examples, the total dataset size is larger, and each epoch runs for more training steps.
+
+```py
+resampled_model = make_model()
+resampled_model.load_weights(initial_weights)
+
+# Reset the bias to zero, since this dataset is balanced.
+output_layer = resampled_model.layers[-1] 
+output_layer.bias.assign([0])
+
+val_ds = tf.data.Dataset.from_tensor_slices((val_features, val_labels)).cache()
+val_ds = val_ds.batch(BATCH_SIZE).prefetch(2) 
+
+resampled_history = resampled_model.fit(
+    resampled_ds,
+    epochs=EPOCHS,
+    steps_per_epoch=resampled_steps_per_epoch,
+    callbacks=[early_stopping],
+    validation_data=val_ds) 
+```
+
+```py
+Epoch 1/100
+278/278 [==============================] - 7s 25ms/step - loss: 0.4377 - tp: 243925.0000 - fp: 88309.0000 - tn: 253494.0000 - fn: 40578.0000 - accuracy: 0.7942 - precision: 0.7342 - recall: 0.8574 - auc: 0.9062 - val_loss: 0.2355 - val_tp: 75.0000 - val_fp: 1532.0000 - val_tn: 43961.0000 - val_fn: 1.0000 - val_accuracy: 0.9664 - val_precision: 0.0467 - val_recall: 0.9868 - val_auc: 0.9984
+Epoch 2/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.2055 - tp: 258676.0000 - fp: 18235.0000 - tn: 266800.0000 - fn: 25633.0000 - accuracy: 0.9229 - precision: 0.9341 - recall: 0.9098 - auc: 0.9741 - val_loss: 0.1247 - val_tp: 74.0000 - val_fp: 1074.0000 - val_tn: 44419.0000 - val_fn: 2.0000 - val_accuracy: 0.9764 - val_precision: 0.0645 - val_recall: 0.9737 - val_auc: 0.9981
+Epoch 3/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.1640 - tp: 263104.0000 - fp: 12413.0000 - tn: 272291.0000 - fn: 21536.0000 - accuracy: 0.9404 - precision: 0.9549 - recall: 0.9243 - auc: 0.9834 - val_loss: 0.0981 - val_tp: 74.0000 - val_fp: 937.0000 - val_tn: 44556.0000 - val_fn: 2.0000 - val_accuracy: 0.9794 - val_precision: 0.0732 - val_recall: 0.9737 - val_auc: 0.9980
+Epoch 4/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.1417 - tp: 265623.0000 - fp: 10539.0000 - tn: 274390.0000 - fn: 18792.0000 - accuracy: 0.9485 - precision: 0.9618 - recall: 0.9339 - auc: 0.9882 - val_loss: 0.0842 - val_tp: 74.0000 - val_fp: 866.0000 - val_tn: 44627.0000 - val_fn: 2.0000 - val_accuracy: 0.9810 - val_precision: 0.0787 - val_recall: 0.9737 - val_auc: 0.9979
+Epoch 5/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.1275 - tp: 267112.0000 - fp: 9551.0000 - tn: 275482.0000 - fn: 17199.0000 - accuracy: 0.9530 - precision: 0.9655 - recall: 0.9395 - auc: 0.9909 - val_loss: 0.0745 - val_tp: 74.0000 - val_fp: 822.0000 - val_tn: 44671.0000 - val_fn: 2.0000 - val_accuracy: 0.9819 - val_precision: 0.0826 - val_recall: 0.9737 - val_auc: 0.9978
+Epoch 6/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.1175 - tp: 268432.0000 - fp: 8918.0000 - tn: 276042.0000 - fn: 15952.0000 - accuracy: 0.9563 - precision: 0.9678 - recall: 0.9439 - auc: 0.9926 - val_loss: 0.0663 - val_tp: 74.0000 - val_fp: 750.0000 - val_tn: 44743.0000 - val_fn: 2.0000 - val_accuracy: 0.9835 - val_precision: 0.0898 - val_recall: 0.9737 - val_auc: 0.9972
+Epoch 7/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.1088 - tp: 269482.0000 - fp: 8208.0000 - tn: 276504.0000 - fn: 15150.0000 - accuracy: 0.9590 - precision: 0.9704 - recall: 0.9468 - auc: 0.9938 - val_loss: 0.0595 - val_tp: 74.0000 - val_fp: 703.0000 - val_tn: 44790.0000 - val_fn: 2.0000 - val_accuracy: 0.9845 - val_precision: 0.0952 - val_recall: 0.9737 - val_auc: 0.9969
+Epoch 8/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.1040 - tp: 269902.0000 - fp: 7829.0000 - tn: 276891.0000 - fn: 14722.0000 - accuracy: 0.9604 - precision: 0.9718 - recall: 0.9483 - auc: 0.9943 - val_loss: 0.0527 - val_tp: 74.0000 - val_fp: 634.0000 - val_tn: 44859.0000 - val_fn: 2.0000 - val_accuracy: 0.9860 - val_precision: 0.1045 - val_recall: 0.9737 - val_auc: 0.9962
+Epoch 9/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.0992 - tp: 271117.0000 - fp: 7567.0000 - tn: 276382.0000 - fn: 14278.0000 - accuracy: 0.9616 - precision: 0.9728 - recall: 0.9500 - auc: 0.9948 - val_loss: 0.0509 - val_tp: 74.0000 - val_fp: 651.0000 - val_tn: 44842.0000 - val_fn: 2.0000 - val_accuracy: 0.9857 - val_precision: 0.1021 - val_recall: 0.9737 - val_auc: 0.9959
+Epoch 10/100
+278/278 [==============================] - 7s 24ms/step - loss: 0.0960 - tp: 270783.0000 - fp: 7337.0000 - tn: 277379.0000 - fn: 13845.0000 - accuracy: 0.9628 - precision: 0.9736 - recall: 0.9514 - auc: 0.9950 - val_loss: 0.0467 - val_tp: 74.0000 - val_fp: 612.0000 - val_tn: 44881.0000 - val_fn: 2.0000 - val_accuracy: 0.9865 - val_precision: 0.1079 - val_recall: 0.9737 - val_auc: 0.9959
+Epoch 11/100
+278/278 [==============================] - ETA: 0s - loss: 0.0927 - tp: 271368.0000 - fp: 7017.0000 - tn: 277337.0000 - fn: 13622.0000 - accuracy: 0.9637 - precision: 0.9748 - recall: 0.9522 - auc: 0.9954Restoring model weights from the end of the best epoch.
+278/278 [==============================] - 7s 25ms/step - loss: 0.0927 - tp: 271368.0000 - fp: 7017.0000 - tn: 277337.0000 - fn: 13622.0000 - accuracy: 0.9637 - precision: 0.9748 - recall: 0.9522 - auc: 0.9954 - val_loss: 0.0434 - val_tp: 74.0000 - val_fp: 555.0000 - val_tn: 44938.0000 - val_fn: 2.0000 - val_accuracy: 0.9878 - val_precision: 0.1176 - val_recall: 0.9737 - val_auc: 0.9957
+Epoch 00011: early stopping
+
+```
+
+If the training process were considering the whole dataset on each gradient update, this oversampling would be basically identical to the class weighting.
+
+But when training the model batch-wise, as you did here, the oversampled data provides a smoother gradient signal: Instead of each positive example being shown in one batch with a large weight, they're shown in many different batches each time with a small weight.
+
+This smoother gradient signal makes it easier to train the model.
+
+### Check training history
+
+Note that the distributions of metrics will be different here, because the training data has a totally different distribution from the validation and test data.
+
+```py
+plot_metrics(resampled_history) 
+```
+
+![png](img/6e877844629f2888009486ac2f5ece0b.png)
+
+### Re-train
+
+Because training is easier on the balanced data, the above training procedure may overfit quickly.
+
+So break up the epochs to give the [`callbacks.EarlyStopping`](https://tensorflow.google.cn/api_docs/python/tf/keras/callbacks/EarlyStopping) finer control over when to stop training.
+
+```py
+resampled_model = make_model()
+resampled_model.load_weights(initial_weights)
+
+# Reset the bias to zero, since this dataset is balanced.
+output_layer = resampled_model.layers[-1] 
+output_layer.bias.assign([0])
+
+resampled_history = resampled_model.fit(
+    resampled_ds,
+    # These are not real epochs
+    steps_per_epoch=20,
+    epochs=10*EPOCHS,
+    callbacks=[early_stopping],
+    validation_data=(val_ds)) 
+```
+
+```py
+Epoch 1/1000
+20/20 [==============================] - 1s 56ms/step - loss: 0.9282 - tp: 14181.0000 - fp: 14018.0000 - tn: 51871.0000 - fn: 6459.0000 - accuracy: 0.7634 - precision: 0.5029 - recall: 0.6871 - auc: 0.8612 - val_loss: 0.9177 - val_tp: 68.0000 - val_fp: 32432.0000 - val_tn: 13061.0000 - val_fn: 8.0000 - val_accuracy: 0.2881 - val_precision: 0.0021 - val_recall: 0.8947 - val_auc: 0.8450
+Epoch 2/1000
+20/20 [==============================] - 1s 26ms/step - loss: 0.7143 - tp: 16471.0000 - fp: 12416.0000 - tn: 7841.0000 - fn: 4232.0000 - accuracy: 0.5936 - precision: 0.5702 - recall: 0.7956 - auc: 0.7514 - val_loss: 0.8173 - val_tp: 70.0000 - val_fp: 28250.0000 - val_tn: 17243.0000 - val_fn: 6.0000 - val_accuracy: 0.3799 - val_precision: 0.0025 - val_recall: 0.9211 - val_auc: 0.9056
+Epoch 3/1000
+20/20 [==============================] - 1s 26ms/step - loss: 0.5979 - tp: 17119.0000 - fp: 11055.0000 - tn: 9528.0000 - fn: 3258.0000 - accuracy: 0.6506 - precision: 0.6076 - recall: 0.8401 - auc: 0.8194 - val_loss: 0.7158 - val_tp: 70.0000 - val_fp: 22377.0000 - val_tn: 23116.0000 - val_fn: 6.0000 - val_accuracy: 0.5088 - val_precision: 0.0031 - val_recall: 0.9211 - val_auc: 0.9283
+Epoch 4/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.5265 - tp: 17496.0000 - fp: 9591.0000 - tn: 10955.0000 - fn: 2918.0000 - accuracy: 0.6946 - precision: 0.6459 - recall: 0.8571 - auc: 0.8542 - val_loss: 0.6276 - val_tp: 72.0000 - val_fp: 16226.0000 - val_tn: 29267.0000 - val_fn: 4.0000 - val_accuracy: 0.6438 - val_precision: 0.0044 - val_recall: 0.9474 - val_auc: 0.9576
+Epoch 5/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.4682 - tp: 17653.0000 - fp: 8002.0000 - tn: 12532.0000 - fn: 2773.0000 - accuracy: 0.7369 - precision: 0.6881 - recall: 0.8642 - auc: 0.8793 - val_loss: 0.5534 - val_tp: 75.0000 - val_fp: 10889.0000 - val_tn: 34604.0000 - val_fn: 1.0000 - val_accuracy: 0.7610 - val_precision: 0.0068 - val_recall: 0.9868 - val_auc: 0.9848
+Epoch 6/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.4174 - tp: 17837.0000 - fp: 6635.0000 - tn: 13890.0000 - fn: 2598.0000 - accuracy: 0.7746 - precision: 0.7289 - recall: 0.8729 - auc: 0.9003 - val_loss: 0.4905 - val_tp: 75.0000 - val_fp: 6493.0000 - val_tn: 39000.0000 - val_fn: 1.0000 - val_accuracy: 0.8575 - val_precision: 0.0114 - val_recall: 0.9868 - val_auc: 0.9922
+Epoch 7/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.3787 - tp: 17939.0000 - fp: 5276.0000 - tn: 15251.0000 - fn: 2494.0000 - accuracy: 0.8103 - precision: 0.7727 - recall: 0.8779 - auc: 0.9162 - val_loss: 0.4380 - val_tp: 75.0000 - val_fp: 4314.0000 - val_tn: 41179.0000 - val_fn: 1.0000 - val_accuracy: 0.9053 - val_precision: 0.0171 - val_recall: 0.9868 - val_auc: 0.9954
+Epoch 8/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.3537 - tp: 18025.0000 - fp: 4431.0000 - tn: 15994.0000 - fn: 2510.0000 - accuracy: 0.8305 - precision: 0.8027 - recall: 0.8778 - auc: 0.9242 - val_loss: 0.3942 - val_tp: 75.0000 - val_fp: 3206.0000 - val_tn: 42287.0000 - val_fn: 1.0000 - val_accuracy: 0.9296 - val_precision: 0.0229 - val_recall: 0.9868 - val_auc: 0.9972
+Epoch 9/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.3290 - tp: 17975.0000 - fp: 3746.0000 - tn: 16823.0000 - fn: 2416.0000 - accuracy: 0.8496 - precision: 0.8275 - recall: 0.8815 - auc: 0.9341 - val_loss: 0.3560 - val_tp: 75.0000 - val_fp: 2593.0000 - val_tn: 42900.0000 - val_fn: 1.0000 - val_accuracy: 0.9431 - val_precision: 0.0281 - val_recall: 0.9868 - val_auc: 0.9979
+Epoch 10/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.3121 - tp: 18157.0000 - fp: 3263.0000 - tn: 17154.0000 - fn: 2386.0000 - accuracy: 0.8621 - precision: 0.8477 - recall: 0.8839 - auc: 0.9397 - val_loss: 0.3239 - val_tp: 75.0000 - val_fp: 2212.0000 - val_tn: 43281.0000 - val_fn: 1.0000 - val_accuracy: 0.9514 - val_precision: 0.0328 - val_recall: 0.9868 - val_auc: 0.9982
+Epoch 11/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.2934 - tp: 18151.0000 - fp: 2867.0000 - tn: 17641.0000 - fn: 2301.0000 - accuracy: 0.8738 - precision: 0.8636 - recall: 0.8875 - auc: 0.9471 - val_loss: 0.2972 - val_tp: 75.0000 - val_fp: 1970.0000 - val_tn: 43523.0000 - val_fn: 1.0000 - val_accuracy: 0.9567 - val_precision: 0.0367 - val_recall: 0.9868 - val_auc: 0.9983
+Epoch 12/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.2765 - tp: 18454.0000 - fp: 2498.0000 - tn: 17838.0000 - fn: 2170.0000 - accuracy: 0.8860 - precision: 0.8808 - recall: 0.8948 - auc: 0.9537 - val_loss: 0.2727 - val_tp: 75.0000 - val_fp: 1763.0000 - val_tn: 43730.0000 - val_fn: 1.0000 - val_accuracy: 0.9613 - val_precision: 0.0408 - val_recall: 0.9868 - val_auc: 0.9984
+Epoch 13/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.2649 - tp: 18355.0000 - fp: 2240.0000 - tn: 18272.0000 - fn: 2093.0000 - accuracy: 0.8942 - precision: 0.8912 - recall: 0.8976 - auc: 0.9577 - val_loss: 0.2528 - val_tp: 75.0000 - val_fp: 1638.0000 - val_tn: 43855.0000 - val_fn: 1.0000 - val_accuracy: 0.9640 - val_precision: 0.0438 - val_recall: 0.9868 - val_auc: 0.9984
+Epoch 14/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.2547 - tp: 18293.0000 - fp: 2013.0000 - tn: 18577.0000 - fn: 2077.0000 - accuracy: 0.9001 - precision: 0.9009 - recall: 0.8980 - auc: 0.9609 - val_loss: 0.2338 - val_tp: 75.0000 - val_fp: 1516.0000 - val_tn: 43977.0000 - val_fn: 1.0000 - val_accuracy: 0.9667 - val_precision: 0.0471 - val_recall: 0.9868 - val_auc: 0.9985
+Epoch 15/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.2414 - tp: 18414.0000 - fp: 1709.0000 - tn: 18760.0000 - fn: 2077.0000 - accuracy: 0.9076 - precision: 0.9151 - recall: 0.8986 - auc: 0.9641 - val_loss: 0.2187 - val_tp: 75.0000 - val_fp: 1462.0000 - val_tn: 44031.0000 - val_fn: 1.0000 - val_accuracy: 0.9679 - val_precision: 0.0488 - val_recall: 0.9868 - val_auc: 0.9984
+Epoch 16/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.2386 - tp: 18465.0000 - fp: 1792.0000 - tn: 18740.0000 - fn: 1963.0000 - accuracy: 0.9083 - precision: 0.9115 - recall: 0.9039 - auc: 0.9660 - val_loss: 0.2044 - val_tp: 75.0000 - val_fp: 1383.0000 - val_tn: 44110.0000 - val_fn: 1.0000 - val_accuracy: 0.9696 - val_precision: 0.0514 - val_recall: 0.9868 - val_auc: 0.9984
+Epoch 17/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.2290 - tp: 18685.0000 - fp: 1578.0000 - tn: 18675.0000 - fn: 2022.0000 - accuracy: 0.9121 - precision: 0.9221 - recall: 0.9024 - auc: 0.9673 - val_loss: 0.1913 - val_tp: 75.0000 - val_fp: 1297.0000 - val_tn: 44196.0000 - val_fn: 1.0000 - val_accuracy: 0.9715 - val_precision: 0.0547 - val_recall: 0.9868 - val_auc: 0.9983
+Epoch 18/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.2170 - tp: 18526.0000 - fp: 1453.0000 - tn: 19039.0000 - fn: 1942.0000 - accuracy: 0.9171 - precision: 0.9273 - recall: 0.9051 - auc: 0.9714 - val_loss: 0.1812 - val_tp: 75.0000 - val_fp: 1266.0000 - val_tn: 44227.0000 - val_fn: 1.0000 - val_accuracy: 0.9722 - val_precision: 0.0559 - val_recall: 0.9868 - val_auc: 0.9983
+Epoch 19/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.2160 - tp: 18362.0000 - fp: 1402.0000 - tn: 19310.0000 - fn: 1886.0000 - accuracy: 0.9197 - precision: 0.9291 - recall: 0.9069 - auc: 0.9715 - val_loss: 0.1716 - val_tp: 75.0000 - val_fp: 1219.0000 - val_tn: 44274.0000 - val_fn: 1.0000 - val_accuracy: 0.9732 - val_precision: 0.0580 - val_recall: 0.9868 - val_auc: 0.9982
+Epoch 20/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.2081 - tp: 18722.0000 - fp: 1297.0000 - tn: 19031.0000 - fn: 1910.0000 - accuracy: 0.9217 - precision: 0.9352 - recall: 0.9074 - auc: 0.9735 - val_loss: 0.1633 - val_tp: 75.0000 - val_fp: 1192.0000 - val_tn: 44301.0000 - val_fn: 1.0000 - val_accuracy: 0.9738 - val_precision: 0.0592 - val_recall: 0.9868 - val_auc: 0.9981
+Epoch 21/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.2041 - tp: 18929.0000 - fp: 1263.0000 - tn: 18884.0000 - fn: 1884.0000 - accuracy: 0.9232 - precision: 0.9375 - recall: 0.9095 - auc: 0.9742 - val_loss: 0.1571 - val_tp: 75.0000 - val_fp: 1187.0000 - val_tn: 44306.0000 - val_fn: 1.0000 - val_accuracy: 0.9739 - val_precision: 0.0594 - val_recall: 0.9868 - val_auc: 0.9980
+Epoch 22/1000
+20/20 [==============================] - 1s 27ms/step - loss: 0.2017 - tp: 18834.0000 - fp: 1224.0000 - tn: 19064.0000 - fn: 1838.0000 - accuracy: 0.9252 - precision: 0.9390 - recall: 0.9111 - auc: 0.9752 - val_loss: 0.1508 - val_tp: 75.0000 - val_fp: 1162.0000 - val_tn: 44331.0000 - val_fn: 1.0000 - val_accuracy: 0.9745 - val_precision: 0.0606 - val_recall: 0.9868 - val_auc: 0.9980
+Epoch 23/1000
+20/20 [==============================] - 1s 28ms/step - loss: 0.1951 - tp: 18612.0000 - fp: 1127.0000 - tn: 19424.0000 - fn: 1797.0000 - accuracy: 0.9286 - precision: 0.9429 - recall: 0.9120 - auc: 0.9764 - val_loss: 0.1458 - val_tp: 75.0000 - val_fp: 1158.0000 - val_tn: 44335.0000 - val_fn: 1.0000 - val_accuracy: 0.9746 - val_precision: 0.0608 - val_recall: 0.9868 - val_auc: 0.9979
+Epoch 24/1000
+18/20 [==========================>...] - ETA: 0s - loss: 0.1945 - tp: 16932.0000 - fp: 1065.0000 - tn: 17301.0000 - fn: 1566.0000 - accuracy: 0.9286 - precision: 0.9408 - recall: 0.9153 - auc: 0.9765Restoring model weights from the end of the best epoch.
+20/20 [==============================] - 1s 27ms/step - loss: 0.1943 - tp: 18796.0000 - fp: 1179.0000 - tn: 19226.0000 - fn: 1759.0000 - accuracy: 0.9283 - precision: 0.9410 - recall: 0.9144 - auc: 0.9765 - val_loss: 0.1401 - val_tp: 75.0000 - val_fp: 1136.0000 - val_tn: 44357.0000 - val_fn: 1.0000 - val_accuracy: 0.9750 - val_precision: 0.0619 - val_recall: 0.9868 - val_auc: 0.9979
+Epoch 00024: early stopping
+
+```
+
+### Re-check training history
+
+```py
+plot_metrics(resampled_history) 
+```
+
+![png](img/217c4e55f89d4a55a78dc082bbdc1e2f.png)
+
+### Evaluate metrics
+
+```py
+train_predictions_resampled = resampled_model.predict(train_features, batch_size=BATCH_SIZE)
+test_predictions_resampled = resampled_model.predict(test_features, batch_size=BATCH_SIZE) 
+```
+
+```py
+resampled_results = resampled_model.evaluate(test_features, test_labels,
+                                             batch_size=BATCH_SIZE, verbose=0)
+for name, value in zip(resampled_model.metrics_names, resampled_results):
+  print(name, ': ', value)
+print()
+
+plot_cm(test_labels, test_predictions_resampled) 
+```
+
+```py
+loss :  0.23386089503765106
+tp :  91.0
+fp :  1892.0
+tn :  54971.0
+fn :  8.0
+accuracy :  0.9666444063186646
+precision :  0.045890066772699356
+recall :  0.9191918969154358
+auc :  0.977620542049408
+
+Legitimate Transactions Detected (True Negatives):  54971
+Legitimate Transactions Incorrectly Detected (False Positives):  1892
+Fraudulent Transactions Missed (False Negatives):  8
+Fraudulent Transactions Detected (True Positives):  91
+Total Fraudulent Transactions:  99
+
+```
+
+![png](img/5224f36bbf08c7f64fa501011640042b.png)
+
+### Plot the ROC
+
+```py
+plot_roc("Train Baseline", train_labels, train_predictions_baseline, color=colors[0])
+plot_roc("Test Baseline", test_labels, test_predictions_baseline, color=colors[0], linestyle='--')
+
+plot_roc("Train Weighted", train_labels, train_predictions_weighted, color=colors[1])
+plot_roc("Test Weighted", test_labels, test_predictions_weighted, color=colors[1], linestyle='--')
+
+plot_roc("Train Resampled", train_labels, train_predictions_resampled, color=colors[2])
+plot_roc("Test Resampled", test_labels, test_predictions_resampled, color=colors[2], linestyle='--')
+plt.legend(loc='lower right') 
+```
+
+```py
+<matplotlib.legend.Legend at 0x7fbc386785c0>
+
+```
+
+![png](img/f1fa73dd5b685549afd6264592919903.png)
+
+## Applying this tutorial to your problem
+
+Imbalanced data classification is an inherently difficult task since there are so few samples to learn from. You should always start with the data first and do your best to collect as many samples as possible and give substantial thought to what features may be relevant so the model can get the most out of your minority class. At some point your model may struggle to improve and yield the results you want, so it is important to keep in mind the context of your problem and the trade offs between different types of errors.
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/058.md b/Tensorflow/TensorFlow2.0/058.md
new file mode 100644
index 00000000..0bb37132
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/058.md
@@ -0,0 +1,1843 @@
+# Time series forecasting
+
+> 原文：[https://tensorflow.google.cn/tutorials/structured_data/time_series](https://tensorflow.google.cn/tutorials/structured_data/time_series)
+
+This tutorial is an introduction to time series forecasting using TensorFlow. It builds a few different styles of models including Convolutional and Recurrent Neural Networks (CNNs and RNNs).
+
+This is covered in two main parts, with subsections:
+
+*   Forecast for a single timestep:
+    *   A single feature.
+    *   All features.
+*   Forecast multiple steps:
+    *   Single-shot: Make the predictions all at once.
+    *   Autoregressive: Make one prediction at a time and feed the output back to the model.
+
+## Setup
+
+```py
+import os
+import datetime
+
+import IPython
+import IPython.display
+import matplotlib as mpl
+import matplotlib.pyplot as plt
+import numpy as np
+import pandas as pd
+import seaborn as sns
+import tensorflow as tf
+
+mpl.rcParams['figure.figsize'] = (8, 6)
+mpl.rcParams['axes.grid'] = False 
+```
+
+## The weather dataset
+
+This tutorial uses a [weather time series dataset](https://www.bgc-jena.mpg.de/wetter/) recorded by the [Max Planck Institute for Biogeochemistry](https://www.bgc-jena.mpg.de).
+
+This dataset contains 14 different features such as air temperature, atmospheric pressure, and humidity. These were collected every 10 minutes, beginning in 2003\. For efficiency, you will use only the data collected between 2009 and 2016\. This section of the dataset was prepared by François Chollet for his book [Deep Learning with Python](https://www.manning.com/books/deep-learning-with-python).
+
+```py
+zip_path = tf.keras.utils.get_file(
+    origin='https://storage.googleapis.com/tensorflow/tf-keras-datasets/jena_climate_2009_2016.csv.zip',
+    fname='jena_climate_2009_2016.csv.zip',
+    extract=True)
+csv_path, _ = os.path.splitext(zip_path) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/jena_climate_2009_2016.csv.zip
+13574144/13568290 [==============================] - 0s 0us/step
+
+```
+
+This tutorial will just deal with **hourly predictions**, so start by sub-sampling the data from 10 minute intervals to 1h:
+
+```py
+df = pd.read_csv(csv_path)
+# slice [start:stop:step], starting from index 5 take every 6th record.
+df = df[5::6]
+
+date_time = pd.to_datetime(df.pop('Date Time'), format='%d.%m.%Y %H:%M:%S') 
+```
+
+Let's take a glance at the data. Here are the first few rows:
+
+```py
+df.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/structured_data/time_series_6126afe8a5bc764ac54bd1548fd1b8c67c48f30e782ea59e077de96d525b51f3.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+Here is the evolution of a few features over time.
+
+```py
+plot_cols = ['T (degC)', 'p (mbar)', 'rho (g/m**3)']
+plot_features = df[plot_cols]
+plot_features.index = date_time
+_ = plot_features.plot(subplots=True)
+
+plot_features = df[plot_cols][:480]
+plot_features.index = date_time[:480]
+_ = plot_features.plot(subplots=True) 
+```
+
+![png](img/78576e063fbd26107e5efc5a23a8ec2d.png)
+
+![png](img/147de2a992900105434d95a527a869c8.png)
+
+### Inspect and cleanup
+
+Next look at the statistics of the dataset:
+
+```py
+df.describe().transpose() 
+```
+
+<devsite-iframe><iframe src="/tutorials/structured_data/time_series_166fe1a8b8d22139628731f61080f4f56eb10150290c10ddfcc6145e15396357.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+#### Wind velocity
+
+One thing that should stand out is the `min` value of the wind velocity, `wv (m/s)` and `max. wv (m/s)` columns. This `-9999` is likely erroneous. There's a separate wind direction column, so the velocity should be `>=0`. Replace it with zeros:
+
+```py
+wv = df['wv (m/s)']
+bad_wv = wv == -9999.0
+wv[bad_wv] = 0.0
+
+max_wv = df['max. wv (m/s)']
+bad_max_wv = max_wv == -9999.0
+max_wv[bad_max_wv] = 0.0
+
+# The above inplace edits are reflected in the DataFrame
+df['wv (m/s)'].min() 
+```
+
+```py
+0.0
+
+```
+
+### Feature engineering
+
+Before diving in to build a model it's important to understand your data, and be sure that you're passing the model appropriately formatted data.
+
+#### Wind
+
+The last column of the data, `wd (deg)`, gives the wind direction in units of degrees. Angles do not make good model inputs, 360° and 0° should be close to each other, and wrap around smoothly. Direction shouldn't matter if the wind is not blowing.
+
+Right now the distribution of wind data looks like this:
+
+```py
+plt.hist2d(df['wd (deg)'], df['wv (m/s)'], bins=(50, 50), vmax=400)
+plt.colorbar()
+plt.xlabel('Wind Direction [deg]')
+plt.ylabel('Wind Velocity [m/s]') 
+```
+
+```py
+Text(0, 0.5, 'Wind Velocity [m/s]')
+
+```
+
+![png](img/4f82813c049f4e0039986833c582376d.png)
+
+But this will be easier for the model to interpret if you convert the wind direction and velocity columns to a wind **vector**:
+
+```py
+wv = df.pop('wv (m/s)')
+max_wv = df.pop('max. wv (m/s)')
+
+# Convert to radians.
+wd_rad = df.pop('wd (deg)')*np.pi / 180
+
+# Calculate the wind x and y components.
+df['Wx'] = wv*np.cos(wd_rad)
+df['Wy'] = wv*np.sin(wd_rad)
+
+# Calculate the max wind x and y components.
+df['max Wx'] = max_wv*np.cos(wd_rad)
+df['max Wy'] = max_wv*np.sin(wd_rad) 
+```
+
+The distribution of wind vectors is much simpler for the model to correctly interpret.
+
+```py
+plt.hist2d(df['Wx'], df['Wy'], bins=(50, 50), vmax=400)
+plt.colorbar()
+plt.xlabel('Wind X [m/s]')
+plt.ylabel('Wind Y [m/s]')
+ax = plt.gca()
+ax.axis('tight') 
+```
+
+```py
+(-11.305513973134667, 8.24469928549079, -8.27438540335515, 7.7338312955467785)
+
+```
+
+![png](img/df0f8cf3d780ab200f3e674a67324435.png)
+
+#### Time
+
+Similarly the `Date Time` column is very useful, but not in this string form. Start by converting it to seconds:
+
+```py
+timestamp_s = date_time.map(datetime.datetime.timestamp) 
+```
+
+Similar to the wind direction the time in seconds is not a useful model input. Being weather data it has clear daily and yearly periodicity. There are many ways you could deal with periodicity.
+
+A simple approach to convert it to a usable signal is to use `sin` and `cos` to convert the time to clear "Time of day" and "Time of year" signals:
+
+```py
+day = 24*60*60
+year = (365.2425)*day
+
+df['Day sin'] = np.sin(timestamp_s * (2 * np.pi / day))
+df['Day cos'] = np.cos(timestamp_s * (2 * np.pi / day))
+df['Year sin'] = np.sin(timestamp_s * (2 * np.pi / year))
+df['Year cos'] = np.cos(timestamp_s * (2 * np.pi / year)) 
+```
+
+```py
+plt.plot(np.array(df['Day sin'])[:25])
+plt.plot(np.array(df['Day cos'])[:25])
+plt.xlabel('Time [h]')
+plt.title('Time of day signal') 
+```
+
+```py
+Text(0.5, 1.0, 'Time of day signal')
+
+```
+
+![png](img/70c92a3e3d823d4469d81b23380fef63.png)
+
+This gives the model access to the most important frequency features. In this case you knew ahead of time which frequencies were important.
+
+If you didn't know, you can determine which frequencies are important using an `fft`. To check our assumptions, here is the [`tf.signal.rfft`](https://tensorflow.google.cn/api_docs/python/tf/signal/rfft) of the temperature over time. Note the obvious peaks at frequencies near `1/year` and `1/day`:
+
+```py
+fft = tf.signal.rfft(df['T (degC)'])
+f_per_dataset = np.arange(0, len(fft))
+
+n_samples_h = len(df['T (degC)'])
+hours_per_year = 24*365.2524
+years_per_dataset = n_samples_h/(hours_per_year)
+
+f_per_year = f_per_dataset/years_per_dataset
+plt.step(f_per_year, np.abs(fft))
+plt.xscale('log')
+plt.ylim(0, 400000)
+plt.xlim([0.1, max(plt.xlim())])
+plt.xticks([1, 365.2524], labels=['1/Year', '1/day'])
+_ = plt.xlabel('Frequency (log scale)') 
+```
+
+![png](img/e8229311b22645eacfe9d45893aa40bc.png)
+
+### Split the data
+
+We'll use a `(70%, 20%, 10%)` split for the training, validation, and test sets. Note the data is **not** being randomly shuffled before splitting. This is for two reasons.
+
+1.  It ensures that chopping the data into windows of consecutive samples is still possible.
+2.  It ensures that the validation/test results are more realistic, being evaluated on data collected after the model was trained.
+
+```py
+column_indices = {name: i for i, name in enumerate(df.columns)}
+
+n = len(df)
+train_df = df[0:int(n*0.7)]
+val_df = df[int(n*0.7):int(n*0.9)]
+test_df = df[int(n*0.9):]
+
+num_features = df.shape[1] 
+```
+
+### Normalize the data
+
+It is important to scale features before training a neural network. Normalization is a common way of doing this scaling. Subtract the mean and divide by the standard deviation of each feature.
+
+The mean and standard deviation should only be computed using the training data so that the models have no access to the values in the validation and test sets.
+
+It's also arguable that the model shouldn't have access to future values in the training set when training, and that this normalization should be done using moving averages. That's not the focus of this tutorial, and the validation and test sets ensure that you get (somewhat) honest metrics. So in the interest of simplicity this tutorial uses a simple average.
+
+```py
+train_mean = train_df.mean()
+train_std = train_df.std()
+
+train_df = (train_df - train_mean) / train_std
+val_df = (val_df - train_mean) / train_std
+test_df = (test_df - train_mean) / train_std 
+```
+
+Now peek at the distribution of the features. Some features do have long tails, but there are no obvious errors like the `-9999` wind velocity value.
+
+```py
+df_std = (df - train_mean) / train_std
+df_std = df_std.melt(var_name='Column', value_name='Normalized')
+plt.figure(figsize=(12, 6))
+ax = sns.violinplot(x='Column', y='Normalized', data=df_std)
+_ = ax.set_xticklabels(df.keys(), rotation=90) 
+```
+
+![png](img/a50df54eefaa2e0b41728c5e66685f3a.png)
+
+## Data windowing
+
+The models in this tutorial will make a set of predictions based on a window of consecutive samples from the data.
+
+The main features of the input windows are:
+
+*   The width (number of time steps) of the input and label windows
+*   The time offset between them.
+*   Which features are used as inputs, labels, or both.
+
+This tutorial builds a variety of models (including Linear, DNN, CNN and RNN models), and uses them for both:
+
+*   *Single-output*, and *multi-output* predictions.
+*   *Single-time-step* and *multi-time-step* predictions.
+
+This section focuses on implementing the data windowing so that it can be reused for all of those models.
+
+Depending on the task and type of model you may want to generate a variety of data windows. Here are some examples:
+
+1.  For example, to make a single prediction 24h into the future, given 24h of history you might define a window like this:
+
+    ![One prediction 24h into the future.](img/e2f893946253a84a1410e69624e915bc.png)
+
+2.  A model that makes a prediction 1h into the future, given 6h of history would need a window like this:
+
+    ![One prediction 1h into the future.](img/5fc218fbba095949ac4ca115de92329b.png)
+
+The rest of this section defines a `WindowGenerator` class. This class can:
+
+1.  Handle the indexes and offsets as shown in the diagrams above.
+2.  Split windows of features into a `(features, labels)` pairs.
+3.  Plot the content of the resulting windows.
+4.  Efficiently generate batches of these windows from the training, evaluation, and test data, using [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)s.
+
+### 1\. Indexes and offsets
+
+Start by creating the `WindowGenerator` class. The `__init__` method includes all the necessary logic for the input and label indices.
+
+It also takes the train, eval, and test dataframes as input. These will be converted to [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)s of windows later.
+
+```py
+class WindowGenerator():
+  def __init__(self, input_width, label_width, shift,
+               train_df=train_df, val_df=val_df, test_df=test_df,
+               label_columns=None):
+    # Store the raw data.
+    self.train_df = train_df
+    self.val_df = val_df
+    self.test_df = test_df
+
+    # Work out the label column indices.
+    self.label_columns = label_columns
+    if label_columns is not None:
+      self.label_columns_indices = {name: i for i, name in
+                                    enumerate(label_columns)}
+    self.column_indices = {name: i for i, name in
+                           enumerate(train_df.columns)}
+
+    # Work out the window parameters.
+    self.input_width = input_width
+    self.label_width = label_width
+    self.shift = shift
+
+    self.total_window_size = input_width + shift
+
+    self.input_slice = slice(0, input_width)
+    self.input_indices = np.arange(self.total_window_size)[self.input_slice]
+
+    self.label_start = self.total_window_size - self.label_width
+    self.labels_slice = slice(self.label_start, None)
+    self.label_indices = np.arange(self.total_window_size)[self.labels_slice]
+
+  def __repr__(self):
+    return '\n'.join([
+        f'Total window size: {self.total_window_size}',
+        f'Input indices: {self.input_indices}',
+        f'Label indices: {self.label_indices}',
+        f'Label column name(s): {self.label_columns}']) 
+```
+
+Here is code to create the 2 windows shown in the diagrams at the start of this section:
+
+```py
+w1 = WindowGenerator(input_width=24, label_width=1, shift=24,
+                     label_columns=['T (degC)'])
+w1 
+```
+
+```py
+Total window size: 48
+Input indices: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
+Label indices: [47]
+Label column name(s): ['T (degC)']
+
+```
+
+```py
+w2 = WindowGenerator(input_width=6, label_width=1, shift=1,
+                     label_columns=['T (degC)'])
+w2 
+```
+
+```py
+Total window size: 7
+Input indices: [0 1 2 3 4 5]
+Label indices: [6]
+Label column name(s): ['T (degC)']
+
+```
+
+### 2\. Split
+
+Given a list consecutive inputs, the `split_window` method will convert them to a window of inputs and a window of labels.
+
+The example `w2`, above, will be split like this:
+
+![The initial window is all consecuitive samples, this splits it into an (inputs, labels) pairs](img/b84cdc6273e2ce65876a86561af080a5.png)
+
+This diagram doesn't show the `features` axis of the data, but this `split_window` function also handles the `label_columns` so it can be used for both the single output and multi-output examples.
+
+```py
+def split_window(self, features):
+  inputs = features[:, self.input_slice, :]
+  labels = features[:, self.labels_slice, :]
+  if self.label_columns is not None:
+    labels = tf.stack(
+        [labels[:, :, self.column_indices[name]] for name in self.label_columns],
+        axis=-1)
+
+  # Slicing doesn't preserve static shape information, so set the shapes
+  # manually. This way the `tf.data.Datasets` are easier to inspect.
+  inputs.set_shape([None, self.input_width, None])
+  labels.set_shape([None, self.label_width, None])
+
+  return inputs, labels
+
+WindowGenerator.split_window = split_window 
+```
+
+Try it out:
+
+```py
+# Stack three slices, the length of the total window:
+example_window = tf.stack([np.array(train_df[:w2.total_window_size]),
+                           np.array(train_df[100:100+w2.total_window_size]),
+                           np.array(train_df[200:200+w2.total_window_size])])
+
+example_inputs, example_labels = w2.split_window(example_window)
+
+print('All shapes are: (batch, time, features)')
+print(f'Window shape: {example_window.shape}')
+print(f'Inputs shape: {example_inputs.shape}')
+print(f'labels shape: {example_labels.shape}') 
+```
+
+```py
+All shapes are: (batch, time, features)
+Window shape: (3, 7, 19)
+Inputs shape: (3, 6, 19)
+labels shape: (3, 1, 1)
+
+```
+
+Typically data in TensorFlow is packed into arrays where the outermost index is across examples (the "batch" dimension). The middle indices are the "time" or "space" (width, height) dimension(s). The innermost indices are the features.
+
+The code above took a batch of 3, 7-timestep windows, with 19 features at each time step. It split them into a batch of 6-timestep, 19 feature inputs, and a 1-timestep 1-feature label. The label only has one feature because the `WindowGenerator` was initialized with `label_columns=['T (degC)']`. Initially this tutorial will build models that predict single output labels.
+
+### 3\. Plot
+
+Here is a plot method that allows a simple visualization of the split window:
+
+```py
+w2.example = example_inputs, example_labels 
+```
+
+```py
+def plot(self, model=None, plot_col='T (degC)', max_subplots=3):
+  inputs, labels = self.example
+  plt.figure(figsize=(12, 8))
+  plot_col_index = self.column_indices[plot_col]
+  max_n = min(max_subplots, len(inputs))
+  for n in range(max_n):
+    plt.subplot(3, 1, n+1)
+    plt.ylabel(f'{plot_col} [normed]')
+    plt.plot(self.input_indices, inputs[n, :, plot_col_index],
+             label='Inputs', marker='.', zorder=-10)
+
+    if self.label_columns:
+      label_col_index = self.label_columns_indices.get(plot_col, None)
+    else:
+      label_col_index = plot_col_index
+
+    if label_col_index is None:
+      continue
+
+    plt.scatter(self.label_indices, labels[n, :, label_col_index],
+                edgecolors='k', label='Labels', c='#2ca02c', s=64)
+    if model is not None:
+      predictions = model(inputs)
+      plt.scatter(self.label_indices, predictions[n, :, label_col_index],
+                  marker='X', edgecolors='k', label='Predictions',
+                  c='#ff7f0e', s=64)
+
+    if n == 0:
+      plt.legend()
+
+  plt.xlabel('Time [h]')
+
+WindowGenerator.plot = plot 
+```
+
+This plot aligns inputs, labels, and (later) predictions based on the time that the item refers to:
+
+```py
+w2.plot() 
+```
+
+![png](img/9de9afda3f7352b4106f61a83025d8e1.png)
+
+You can plot the other columns, but the example window `w2` configuration only has labels for the `T (degC)` column.
+
+```py
+w2.plot(plot_col='p (mbar)') 
+```
+
+![png](img/651f6b2fbf396ac15fb7661af005bb0e.png)
+
+### 4\. Create [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset)s
+
+Finally this `make_dataset` method will take a time series `DataFrame` and convert it to a [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) of `(input_window, label_window)` pairs using the [`preprocessing.timeseries_dataset_from_array`](https://tensorflow.google.cn/api_docs/python/tf/keras/preprocessing/timeseries_dataset_from_array) function.
+
+```py
+def make_dataset(self, data):
+  data = np.array(data, dtype=np.float32)
+  ds = tf.keras.preprocessing.timeseries_dataset_from_array(
+      data=data,
+      targets=None,
+      sequence_length=self.total_window_size,
+      sequence_stride=1,
+      shuffle=True,
+      batch_size=32,)
+
+  ds = ds.map(self.split_window)
+
+  return ds
+
+WindowGenerator.make_dataset = make_dataset 
+```
+
+The `WindowGenerator` object holds training, validation and test data. Add properties for accessing them as `tf.data.Datasets` using the above `make_dataset` method. Also add a standard example batch for easy access and plotting:
+
+```py
+@property
+def train(self):
+  return self.make_dataset(self.train_df)
+
+@property
+def val(self):
+  return self.make_dataset(self.val_df)
+
+@property
+def test(self):
+  return self.make_dataset(self.test_df)
+
+@property
+def example(self):
+  """Get and cache an example batch of `inputs, labels` for plotting."""
+  result = getattr(self, '_example', None)
+  if result is None:
+    # No example batch was found, so get one from the `.train` dataset
+    result = next(iter(self.train))
+    # And cache it for next time
+    self._example = result
+  return result
+
+WindowGenerator.train = train
+WindowGenerator.val = val
+WindowGenerator.test = test
+WindowGenerator.example = example 
+```
+
+Now the `WindowGenerator` object gives you access to the [`tf.data.Dataset`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset) objects, so you can easily iterate over the data.
+
+The [`Dataset.element_spec`](https://tensorflow.google.cn/api_docs/python/tf/data/Dataset#element_spec) property tells you the structure, `dtypes` and shapes of the dataset elements.
+
+```py
+# Each element is an (inputs, label) pair
+w2.train.element_spec 
+```
+
+```py
+(TensorSpec(shape=(None, 6, 19), dtype=tf.float32, name=None),
+ TensorSpec(shape=(None, 1, 1), dtype=tf.float32, name=None))
+
+```
+
+Iterating over a `Dataset` yields concrete batches:
+
+```py
+for example_inputs, example_labels in w2.train.take(1):
+  print(f'Inputs shape (batch, time, features): {example_inputs.shape}')
+  print(f'Labels shape (batch, time, features): {example_labels.shape}') 
+```
+
+```py
+Inputs shape (batch, time, features): (32, 6, 19)
+Labels shape (batch, time, features): (32, 1, 1)
+
+```
+
+## Single step models
+
+The simplest model you can build on this sort of data is one that predicts a single feature's value, 1 timestep (1h) in the future based only on the current conditions.
+
+So start by building models to predict the `T (degC)` value 1h into the future.
+
+![Predict the next time step](img/572dbe03f38bc28e6575b97b2ce91fda.png)
+
+Configure a `WindowGenerator` object to produce these single-step `(input, label)` pairs:
+
+```py
+single_step_window = WindowGenerator(
+    input_width=1, label_width=1, shift=1,
+    label_columns=['T (degC)'])
+single_step_window 
+```
+
+```py
+Total window size: 2
+Input indices: [0]
+Label indices: [1]
+Label column name(s): ['T (degC)']
+
+```
+
+The `window` object creates `tf.data.Datasets` from the training, validation, and test sets, allowing you to easily iterate over batches of data.
+
+```py
+for example_inputs, example_labels in single_step_window.train.take(1):
+  print(f'Inputs shape (batch, time, features): {example_inputs.shape}')
+  print(f'Labels shape (batch, time, features): {example_labels.shape}') 
+```
+
+```py
+Inputs shape (batch, time, features): (32, 1, 19)
+Labels shape (batch, time, features): (32, 1, 1)
+
+```
+
+### Baseline
+
+Before building a trainable model it would be good to have a performance baseline as a point for comparison with the later more complicated models.
+
+This first task is to predict temperature 1h in the future given the current value of all features. The current values include the current temperature.
+
+So start with a model that just returns the current temperature as the prediction, predicting "No change". This is a reasonable baseline since temperature changes slowly. Of course, this baseline will work less well if you make a prediction further in the future.
+
+![Send the input to the output](img/1b0da93649f50a8108ee8ddd8b08bc04.png)
+
+```py
+class Baseline(tf.keras.Model):
+  def __init__(self, label_index=None):
+    super().__init__()
+    self.label_index = label_index
+
+  def call(self, inputs):
+    if self.label_index is None:
+      return inputs
+    result = inputs[:, :, self.label_index]
+    return result[:, :, tf.newaxis] 
+```
+
+Instantiate and evaluate this model:
+
+```py
+baseline = Baseline(label_index=column_indices['T (degC)'])
+
+baseline.compile(loss=tf.losses.MeanSquaredError(),
+                 metrics=[tf.metrics.MeanAbsoluteError()])
+
+val_performance = {}
+performance = {}
+val_performance['Baseline'] = baseline.evaluate(single_step_window.val)
+performance['Baseline'] = baseline.evaluate(single_step_window.test, verbose=0) 
+```
+
+```py
+439/439 [==============================] - 1s 2ms/step - loss: 0.0128 - mean_absolute_error: 0.0785
+
+```
+
+That printed some performance metrics, but those don't give you a feeling for how well the model is doing.
+
+The `WindowGenerator` has a plot method, but the plots won't be very interesting with only a single sample. So, create a wider `WindowGenerator` that generates windows 24h of consecutive inputs and labels at a time.
+
+The `wide_window` doesn't change the way the model operates. The model still makes predictions 1h into the future based on a single input time step. Here the `time` axis acts like the `batch` axis: Each prediction is made independently with no interaction between time steps.
+
+```py
+wide_window = WindowGenerator(
+    input_width=24, label_width=24, shift=1,
+    label_columns=['T (degC)'])
+
+wide_window 
+```
+
+```py
+Total window size: 25
+Input indices: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
+Label indices: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24]
+Label column name(s): ['T (degC)']
+
+```
+
+This expanded window can be passed directly to the same `baseline` model without any code changes. This is possible because the inputs and labels have the same number of timesteps, and the baseline just forwards the input to the output:
+
+![One prediction 1h into the future, ever hour.](img/8c90a903ef2c498784c14d3c169e9ee6.png)
+
+```py
+print('Input shape:', wide_window.example[0].shape)
+print('Output shape:', baseline(wide_window.example[0]).shape) 
+```
+
+```py
+Input shape: (32, 24, 19)
+Output shape: (32, 24, 1)
+
+```
+
+Plotting the baseline model's predictions you can see that it is simply the labels, shifted right by 1h.
+
+```py
+wide_window.plot(baseline) 
+```
+
+![png](img/89837448c36d73e735364038e7b3e689.png)
+
+In the above plots of three examples the single step model is run over the course of 24h. This deserves some explaination:
+
+*   The blue "Inputs" line shows the input temperature at each time step. The model recieves all features, this plot only shows the temperature.
+*   The green "Labels" dots show the target prediction value. These dots are shown at the prediction time, not the input time. That is why the range of labels is shifted 1 step relative to the inputs.
+*   The orange "Predictions" crosses are the model's prediction's for each output time step. If the model were predicting perfectly the predictions would land directly on the "labels".
+
+### Linear model
+
+The simplest **trainable** model you can apply to this task is to insert linear transformation between the input and output. In this case the output from a time step only depends on that step:
+
+![A single step prediction](img/572dbe03f38bc28e6575b97b2ce91fda.png)
+
+A [`layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) with no `activation` set is a linear model. The layer only transforms the last axis of the data from `(batch, time, inputs)` to `(batch, time, units)`, it is applied independently to every item across the `batch` and `time` axes.
+
+```py
+linear = tf.keras.Sequential([
+    tf.keras.layers.Dense(units=1)
+]) 
+```
+
+```py
+print('Input shape:', single_step_window.example[0].shape)
+print('Output shape:', linear(single_step_window.example[0]).shape) 
+```
+
+```py
+Input shape: (32, 1, 19)
+Output shape: (32, 1, 1)
+
+```
+
+This tutorial trains many models, so package the training procedure into a function:
+
+```py
+MAX_EPOCHS = 20
+
+def compile_and_fit(model, window, patience=2):
+  early_stopping = tf.keras.callbacks.EarlyStopping(monitor='val_loss',
+                                                    patience=patience,
+                                                    mode='min')
+
+  model.compile(loss=tf.losses.MeanSquaredError(),
+                optimizer=tf.optimizers.Adam(),
+                metrics=[tf.metrics.MeanAbsoluteError()])
+
+  history = model.fit(window.train, epochs=MAX_EPOCHS,
+                      validation_data=window.val,
+                      callbacks=[early_stopping])
+  return history 
+```
+
+Train the model and evaluate its performance:
+
+```py
+history = compile_and_fit(linear, single_step_window)
+
+val_performance['Linear'] = linear.evaluate(single_step_window.val)
+performance['Linear'] = linear.evaluate(single_step_window.test, verbose=0) 
+```
+
+```py
+Epoch 1/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.2864 - mean_absolute_error: 0.2848 - val_loss: 0.0163 - val_mean_absolute_error: 0.0975
+Epoch 2/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0121 - mean_absolute_error: 0.0817 - val_loss: 0.0103 - val_mean_absolute_error: 0.0752
+Epoch 3/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0103 - mean_absolute_error: 0.0749 - val_loss: 0.0098 - val_mean_absolute_error: 0.0738
+Epoch 4/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0099 - mean_absolute_error: 0.0733 - val_loss: 0.0095 - val_mean_absolute_error: 0.0731
+Epoch 5/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0096 - mean_absolute_error: 0.0721 - val_loss: 0.0092 - val_mean_absolute_error: 0.0719
+Epoch 6/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0095 - mean_absolute_error: 0.0715 - val_loss: 0.0091 - val_mean_absolute_error: 0.0716
+Epoch 7/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0094 - mean_absolute_error: 0.0710 - val_loss: 0.0091 - val_mean_absolute_error: 0.0716
+Epoch 8/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0093 - mean_absolute_error: 0.0707 - val_loss: 0.0090 - val_mean_absolute_error: 0.0706
+Epoch 9/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0092 - mean_absolute_error: 0.0704 - val_loss: 0.0090 - val_mean_absolute_error: 0.0712
+Epoch 10/20
+1534/1534 [==============================] - 5s 3ms/step - loss: 0.0092 - mean_absolute_error: 0.0703 - val_loss: 0.0091 - val_mean_absolute_error: 0.0715
+439/439 [==============================] - 1s 2ms/step - loss: 0.0091 - mean_absolute_error: 0.0715
+
+```
+
+Like the `baseline` model, the linear model can be called on batches of wide windows. Used this way the model makes a set of independent predictions on consecuitive time steps. The `time` axis acts like another `batch` axis. There are no interactions between the predictions at each time step.
+
+![A single step prediction](img/f8f7d813408efbfa9b764dfcfe54d2ad.png)
+
+```py
+print('Input shape:', wide_window.example[0].shape)
+print('Output shape:', baseline(wide_window.example[0]).shape) 
+```
+
+```py
+Input shape: (32, 24, 19)
+Output shape: (32, 24, 1)
+
+```
+
+Here is the plot of its example predictions on the `wide_window`, note how in many cases the prediction is clearly better than just returning the input temperature, but in a few cases it's worse:
+
+```py
+wide_window.plot(linear) 
+```
+
+![png](img/05dfb322f577170f0e9218f00221d363.png)
+
+One advantage to linear models is that they're relatively simple to interpret. You can pull out the layer's weights, and see the weight assigned to each input:
+
+```py
+plt.bar(x = range(len(train_df.columns)),
+        height=linear.layers[0].kernel[:,0].numpy())
+axis = plt.gca()
+axis.set_xticks(range(len(train_df.columns)))
+_ = axis.set_xticklabels(train_df.columns, rotation=90) 
+```
+
+![png](img/019d6a002d56ca3eff0330fbb68495d2.png)
+
+Sometimes the model doesn't even place the most weight on the input `T (degC)`. This is one of the risks of random initialization.
+
+### Dense
+
+Before applying models that actually operate on multiple time-steps, it's worth checking the performance of deeper, more powerful, single input step models.
+
+Here's a model similar to the `linear` model, except it stacks several a few `Dense` layers between the input and the output:
+
+```py
+dense = tf.keras.Sequential([
+    tf.keras.layers.Dense(units=64, activation='relu'),
+    tf.keras.layers.Dense(units=64, activation='relu'),
+    tf.keras.layers.Dense(units=1)
+])
+
+history = compile_and_fit(dense, single_step_window)
+
+val_performance['Dense'] = dense.evaluate(single_step_window.val)
+performance['Dense'] = dense.evaluate(single_step_window.test, verbose=0) 
+```
+
+```py
+Epoch 1/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0159 - mean_absolute_error: 0.0814 - val_loss: 0.0086 - val_mean_absolute_error: 0.0693
+Epoch 2/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0079 - mean_absolute_error: 0.0645 - val_loss: 0.0076 - val_mean_absolute_error: 0.0629
+Epoch 3/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0074 - mean_absolute_error: 0.0622 - val_loss: 0.0085 - val_mean_absolute_error: 0.0666
+Epoch 4/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0072 - mean_absolute_error: 0.0608 - val_loss: 0.0071 - val_mean_absolute_error: 0.0593
+Epoch 5/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0070 - mean_absolute_error: 0.0595 - val_loss: 0.0067 - val_mean_absolute_error: 0.0579
+Epoch 6/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0068 - mean_absolute_error: 0.0588 - val_loss: 0.0072 - val_mean_absolute_error: 0.0594
+Epoch 7/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0068 - mean_absolute_error: 0.0583 - val_loss: 0.0066 - val_mean_absolute_error: 0.0564
+Epoch 8/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0066 - mean_absolute_error: 0.0576 - val_loss: 0.0078 - val_mean_absolute_error: 0.0637
+Epoch 9/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0066 - mean_absolute_error: 0.0576 - val_loss: 0.0066 - val_mean_absolute_error: 0.0564
+Epoch 10/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0065 - mean_absolute_error: 0.0569 - val_loss: 0.0062 - val_mean_absolute_error: 0.0551
+Epoch 11/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0065 - mean_absolute_error: 0.0571 - val_loss: 0.0070 - val_mean_absolute_error: 0.0596
+Epoch 12/20
+1534/1534 [==============================] - 6s 4ms/step - loss: 0.0064 - mean_absolute_error: 0.0565 - val_loss: 0.0063 - val_mean_absolute_error: 0.0551
+439/439 [==============================] - 1s 3ms/step - loss: 0.0063 - mean_absolute_error: 0.0551
+
+```
+
+### Multi-step dense
+
+A single-time-step model has no context for the current values of its inputs. It can't see how the input features are changing over time. To address this issue the model needs access to multiple time steps when making predictions:
+
+![Three time steps are used for each prediction.](img/b9f520a19b0bd493834819ddfc1ef26b.png)
+
+The `baseline`, `linear` and `dense` models handled each time step independently. Here the model will take multiple time steps as input to produce a single output.
+
+Create a `WindowGenerator` that will produce batches of the 3h of inputs and, 1h of labels:
+
+Note that the `Window`'s `shift` parameter is relative to the end of the two windows.
+
+```py
+CONV_WIDTH = 3
+conv_window = WindowGenerator(
+    input_width=CONV_WIDTH,
+    label_width=1,
+    shift=1,
+    label_columns=['T (degC)'])
+
+conv_window 
+```
+
+```py
+Total window size: 4
+Input indices: [0 1 2]
+Label indices: [3]
+Label column name(s): ['T (degC)']
+
+```
+
+```py
+conv_window.plot()
+plt.title("Given 3h as input, predict 1h into the future.") 
+```
+
+```py
+Text(0.5, 1.0, 'Given 3h as input, predict 1h into the future.')
+
+```
+
+![png](img/96e942cbf28db3cfff8c8f90167f2a8b.png)
+
+You could train a `dense` model on a multiple-input-step window by adding a [`layers.Flatten`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Flatten) as the first layer of the model:
+
+```py
+multi_step_dense = tf.keras.Sequential([
+    # Shape: (time, features) => (time*features)
+    tf.keras.layers.Flatten(),
+    tf.keras.layers.Dense(units=32, activation='relu'),
+    tf.keras.layers.Dense(units=32, activation='relu'),
+    tf.keras.layers.Dense(units=1),
+    # Add back the time dimension.
+    # Shape: (outputs) => (1, outputs)
+    tf.keras.layers.Reshape([1, -1]),
+]) 
+```
+
+```py
+print('Input shape:', conv_window.example[0].shape)
+print('Output shape:', multi_step_dense(conv_window.example[0]).shape) 
+```
+
+```py
+Input shape: (32, 3, 19)
+Output shape: (32, 1, 1)
+
+```
+
+```py
+history = compile_and_fit(multi_step_dense, conv_window)
+
+IPython.display.clear_output()
+val_performance['Multi step dense'] = multi_step_dense.evaluate(conv_window.val)
+performance['Multi step dense'] = multi_step_dense.evaluate(conv_window.test, verbose=0) 
+```
+
+```py
+438/438 [==============================] - 1s 2ms/step - loss: 0.0078 - mean_absolute_error: 0.0637
+
+```
+
+```py
+conv_window.plot(multi_step_dense) 
+```
+
+![png](img/dcf39b63e54ff302e7e37e39b90facc7.png)
+
+The main down-side of this approach is that the resulting model can only be executed on input windows of exactly this shape.
+
+```py
+print('Input shape:', wide_window.example[0].shape)
+try:
+  print('Output shape:', multi_step_dense(wide_window.example[0]).shape)
+except Exception as e:
+  print(f'\n{type(e).__name__}:{e}') 
+```
+
+```py
+Input shape: (32, 24, 19)
+
+InvalidArgumentError:Matrix size-incompatible: In[0]: [32,456], In[1]: [57,32] [Op:MatMul]
+
+```
+
+The convolutional models in the next section fix this problem.
+
+### Convolution neural network
+
+A convolution layer ([`layers.Conv1D`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Conv1D)) also takes multiple time steps as input to each prediction.
+
+Below is the **same** model as `multi_step_dense`, re-written with a convolution.
+
+Note the changes:
+
+*   The [`layers.Flatten`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Flatten) and the first [`layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) are replaced by a [`layers.Conv1D`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Conv1D).
+*   The [`layers.Reshape`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Reshape) is no longer necessary since the convolution keeps the time axis in its output.
+
+```py
+conv_model = tf.keras.Sequential([
+    tf.keras.layers.Conv1D(filters=32,
+                           kernel_size=(CONV_WIDTH,),
+                           activation='relu'),
+    tf.keras.layers.Dense(units=32, activation='relu'),
+    tf.keras.layers.Dense(units=1),
+]) 
+```
+
+Run it on an example batch to see that the model produces outputs with the expected shape:
+
+```py
+print("Conv model on `conv_window`")
+print('Input shape:', conv_window.example[0].shape)
+print('Output shape:', conv_model(conv_window.example[0]).shape) 
+```
+
+```py
+Conv model on `conv_window`
+Input shape: (32, 3, 19)
+Output shape: (32, 1, 1)
+
+```
+
+Train and evaluate it on the `conv_window` and it should give performance similar to the `multi_step_dense` model.
+
+```py
+history = compile_and_fit(conv_model, conv_window)
+
+IPython.display.clear_output()
+val_performance['Conv'] = conv_model.evaluate(conv_window.val)
+performance['Conv'] = conv_model.evaluate(conv_window.test, verbose=0) 
+```
+
+```py
+438/438 [==============================] - 1s 3ms/step - loss: 0.0063 - mean_absolute_error: 0.0556
+
+```
+
+The difference between this `conv_model` and the `multi_step_dense` model is that the `conv_model` can be run on inputs of any length. The convolutional layer is applied to a sliding window of inputs:
+
+![Executing a convolutional model on a sequence](img/4ae87c070d1160e16944305509636b57.png)
+
+If you run it on wider input, it produces wider output:
+
+```py
+print("Wide window")
+print('Input shape:', wide_window.example[0].shape)
+print('Labels shape:', wide_window.example[1].shape)
+print('Output shape:', conv_model(wide_window.example[0]).shape) 
+```
+
+```py
+Wide window
+Input shape: (32, 24, 19)
+Labels shape: (32, 24, 1)
+Output shape: (32, 22, 1)
+
+```
+
+Note that the output is shorter than the input. To make training or plotting work, you need the labels, and prediction to have the same length. So build a `WindowGenerator` to produce wide windows with a few extra input time steps so the label and prediction lengths match:
+
+```py
+LABEL_WIDTH = 24
+INPUT_WIDTH = LABEL_WIDTH + (CONV_WIDTH - 1)
+wide_conv_window = WindowGenerator(
+    input_width=INPUT_WIDTH,
+    label_width=LABEL_WIDTH,
+    shift=1,
+    label_columns=['T (degC)'])
+
+wide_conv_window 
+```
+
+```py
+Total window size: 27
+Input indices: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
+ 24 25]
+Label indices: [ 3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26]
+Label column name(s): ['T (degC)']
+
+```
+
+```py
+print("Wide conv window")
+print('Input shape:', wide_conv_window.example[0].shape)
+print('Labels shape:', wide_conv_window.example[1].shape)
+print('Output shape:', conv_model(wide_conv_window.example[0]).shape) 
+```
+
+```py
+Wide conv window
+Input shape: (32, 26, 19)
+Labels shape: (32, 24, 1)
+Output shape: (32, 24, 1)
+
+```
+
+Now you can plot the model's predictions on a wider window. Note the 3 input time steps before the first prediction. Every prediction here is based on the 3 preceding timesteps:
+
+```py
+wide_conv_window.plot(conv_model) 
+```
+
+![png](img/7eb3066f3b0de91799a8bcae1606a337.png)
+
+### Recurrent neural network
+
+A Recurrent Neural Network (RNN) is a type of neural network well-suited to time series data. RNNs process a time series step-by-step, maintaining an internal state from time-step to time-step.
+
+For more details, read the [text generation tutorial](https://tensorflow.google.cn/tutorials/text/text_generation) or the [RNN guide](https://tensorflow.google.cn/guide/keras/rnn).
+
+In this tutorial, you will use an RNN layer called Long Short Term Memory ([LSTM](https://tensorflow.google.cn/versions/r2.0/api_docs/python/tf/keras/layers/LSTM)).
+
+An important constructor argument for all keras RNN layers is the `return_sequences` argument. This setting can configure the layer in one of two ways.
+
+1.  If `False`, the default, the layer only returns the output of the final timestep, giving the model time to warm up its internal state before making a single prediction:
+
+![An lstm warming up and making a single prediction](img/e0df7b7876498420dcf8663d9c91a023.png)
+
+1.  If `True` the layer returns an output for each input. This is useful for:
+    *   Stacking RNN layers.
+    *   Training a model on multiple timesteps simultaneously.
+
+![An lstm making a prediction after every timestep](img/45d997f6558f9b2c948978653a5112f5.png)
+
+```py
+lstm_model = tf.keras.models.Sequential([
+    # Shape [batch, time, features] => [batch, time, lstm_units]
+    tf.keras.layers.LSTM(32, return_sequences=True),
+    # Shape => [batch, time, features]
+    tf.keras.layers.Dense(units=1)
+]) 
+```
+
+With `return_sequences=True` the model can be trained on 24h of data at a time.
+
+**Note:** This will give a pessimistic view of the model's performance. On the first timestep the model has no access to previous steps, and so can't do any better than the simple `linear` and `dense` models shown earlier.
+
+```py
+print('Input shape:', wide_window.example[0].shape)
+print('Output shape:', lstm_model(wide_window.example[0]).shape) 
+```
+
+```py
+Input shape: (32, 24, 19)
+Output shape: (32, 24, 1)
+
+```
+
+```py
+history = compile_and_fit(lstm_model, wide_window)
+
+IPython.display.clear_output()
+val_performance['LSTM'] = lstm_model.evaluate(wide_window.val)
+performance['LSTM'] = lstm_model.evaluate(wide_window.test, verbose=0) 
+```
+
+```py
+438/438 [==============================] - 1s 3ms/step - loss: 0.0057 - mean_absolute_error: 0.0523
+
+```
+
+```py
+wide_window.plot(lstm_model) 
+```
+
+![png](img/fa2d5bf8aeffd46cc7559d7104f99ba2.png)
+
+### Performance
+
+With this dataset typically each of the models does slightly better than the one before it.
+
+```py
+x = np.arange(len(performance))
+width = 0.3
+metric_name = 'mean_absolute_error'
+metric_index = lstm_model.metrics_names.index('mean_absolute_error')
+val_mae = [v[metric_index] for v in val_performance.values()]
+test_mae = [v[metric_index] for v in performance.values()]
+
+plt.ylabel('mean_absolute_error [T (degC), normalized]')
+plt.bar(x - 0.17, val_mae, width, label='Validation')
+plt.bar(x + 0.17, test_mae, width, label='Test')
+plt.xticks(ticks=x, labels=performance.keys(),
+           rotation=45)
+_ = plt.legend() 
+```
+
+![png](img/8f2ea45ce97f58e2339af71a7d349532.png)
+
+```py
+for name, value in performance.items():
+  print(f'{name:12s}: {value[1]:0.4f}') 
+```
+
+```py
+Baseline    : 0.0852
+Linear      : 0.0694
+Dense       : 0.0566
+Multi step dense: 0.0667
+Conv        : 0.0572
+LSTM        : 0.0528
+
+```
+
+### Multi-output models
+
+The models so far all predicted a single output feature, `T (degC)`, for a single time step.
+
+All of these models can be converted to predict multiple features just by changing the number of units in the output layer and adjusting the training windows to include all features in the `labels`.
+
+```py
+single_step_window = WindowGenerator(
+    # `WindowGenerator` returns all features as labels if you 
+    # don't set the `label_columns` argument.
+    input_width=1, label_width=1, shift=1)
+
+wide_window = WindowGenerator(
+    input_width=24, label_width=24, shift=1)
+
+for example_inputs, example_labels in wide_window.train.take(1):
+  print(f'Inputs shape (batch, time, features): {example_inputs.shape}')
+  print(f'Labels shape (batch, time, features): {example_labels.shape}') 
+```
+
+```py
+Inputs shape (batch, time, features): (32, 24, 19)
+Labels shape (batch, time, features): (32, 24, 19)
+
+```
+
+Note above that the `features` axis of the labels now has the same depth as the inputs, instead of 1.
+
+#### Baseline
+
+The same baseline model can be used here, but this time repeating all features instead of selecting a specific `label_index`.
+
+```py
+baseline = Baseline()
+baseline.compile(loss=tf.losses.MeanSquaredError(),
+                 metrics=[tf.metrics.MeanAbsoluteError()]) 
+```
+
+```py
+val_performance = {}
+performance = {}
+val_performance['Baseline'] = baseline.evaluate(wide_window.val)
+performance['Baseline'] = baseline.evaluate(wide_window.test, verbose=0) 
+```
+
+```py
+438/438 [==============================] - 1s 2ms/step - loss: 0.0886 - mean_absolute_error: 0.1589
+
+```
+
+#### Dense
+
+```py
+dense = tf.keras.Sequential([
+    tf.keras.layers.Dense(units=64, activation='relu'),
+    tf.keras.layers.Dense(units=64, activation='relu'),
+    tf.keras.layers.Dense(units=num_features)
+]) 
+```
+
+```py
+history = compile_and_fit(dense, single_step_window)
+
+IPython.display.clear_output()
+val_performance['Dense'] = dense.evaluate(single_step_window.val)
+performance['Dense'] = dense.evaluate(single_step_window.test, verbose=0) 
+```
+
+```py
+439/439 [==============================] - 1s 3ms/step - loss: 0.0706 - mean_absolute_error: 0.1362
+
+```
+
+#### RNN
+
+```py
+%%time
+wide_window = WindowGenerator(
+    input_width=24, label_width=24, shift=1)
+
+lstm_model = tf.keras.models.Sequential([
+    # Shape [batch, time, features] => [batch, time, lstm_units]
+    tf.keras.layers.LSTM(32, return_sequences=True),
+    # Shape => [batch, time, features]
+    tf.keras.layers.Dense(units=num_features)
+])
+
+history = compile_and_fit(lstm_model, wide_window)
+
+IPython.display.clear_output()
+val_performance['LSTM'] = lstm_model.evaluate( wide_window.val)
+performance['LSTM'] = lstm_model.evaluate( wide_window.test, verbose=0)
+
+print() 
+```
+
+```py
+438/438 [==============================] - 1s 3ms/step - loss: 0.0613 - mean_absolute_error: 0.1192
+
+CPU times: user 6min 18s, sys: 1min 36s, total: 7min 55s
+Wall time: 2min 53s
+
+```
+
+#### Advanced: Residual connections
+
+The `Baseline` model from earlier took advantage of the fact that the sequence doesn't change drastically from time step to time step. Every model trained in this tutorial so far was randomly initialized, and then had to learn that the output is a a small change from the previous time step.
+
+While you can get around this issue with careful initialization, it's simpler to build this into the model structure.
+
+It's common in time series analysis to build models that instead of predicting the next value, predict how the value will change in the next timestep. Similarly, "Residual networks" or "ResNets" in deep learning refer to architectures where each layer adds to the model's accumulating result.
+
+That is how you take advantage of the knowledge that the change should be small.
+
+![A model with a residual connection](img/918c568bb9e84acfad1ad27dbca52256.png)
+
+Essentially this initializes the model to match the `Baseline`. For this task it helps models converge faster, with slightly better performance.
+
+This approach can be used in conjunction with any model discussed in this tutorial.
+
+Here it is being applied to the LSTM model, note the use of the [`tf.initializers.zeros`](https://tensorflow.google.cn/api_docs/python/tf/keras/initializers/Zeros) to ensure that the initial predicted changes are small, and don't overpower the residual connection. There are no symmetry-breaking concerns for the gradients here, since the `zeros` are only used on the last layer.
+
+```py
+class ResidualWrapper(tf.keras.Model):
+  def __init__(self, model):
+    super().__init__()
+    self.model = model
+
+  def call(self, inputs, *args, **kwargs):
+    delta = self.model(inputs, *args, **kwargs)
+
+    # The prediction for each timestep is the input
+    # from the previous time step plus the delta
+    # calculated by the model.
+    return inputs + delta 
+```
+
+```py
+%%time
+residual_lstm = ResidualWrapper(
+    tf.keras.Sequential([
+    tf.keras.layers.LSTM(32, return_sequences=True),
+    tf.keras.layers.Dense(
+        num_features,
+        # The predicted deltas should start small
+        # So initialize the output layer with zeros
+        kernel_initializer=tf.initializers.zeros)
+]))
+
+history = compile_and_fit(residual_lstm, wide_window)
+
+IPython.display.clear_output()
+val_performance['Residual LSTM'] = residual_lstm.evaluate(wide_window.val)
+performance['Residual LSTM'] = residual_lstm.evaluate(wide_window.test, verbose=0)
+print() 
+```
+
+```py
+438/438 [==============================] - 1s 3ms/step - loss: 0.0619 - mean_absolute_error: 0.1181
+
+CPU times: user 2min 2s, sys: 31.2 s, total: 2min 33s
+Wall time: 56.9 s
+
+```
+
+#### Performance
+
+Here is the overall performance for these multi-output models.
+
+```py
+x = np.arange(len(performance))
+width = 0.3
+
+metric_name = 'mean_absolute_error'
+metric_index = lstm_model.metrics_names.index('mean_absolute_error')
+val_mae = [v[metric_index] for v in val_performance.values()]
+test_mae = [v[metric_index] for v in performance.values()]
+
+plt.bar(x - 0.17, val_mae, width, label='Validation')
+plt.bar(x + 0.17, test_mae, width, label='Test')
+plt.xticks(ticks=x, labels=performance.keys(),
+           rotation=45)
+plt.ylabel('MAE (average over all outputs)')
+_ = plt.legend() 
+```
+
+![png](img/707c82ef753d85482b462054a3e19161.png)
+
+```py
+for name, value in performance.items():
+  print(f'{name:15s}: {value[1]:0.4f}') 
+```
+
+```py
+Baseline       : 0.1638
+Dense          : 0.1367
+LSTM           : 0.1208
+Residual LSTM  : 0.1197
+
+```
+
+The above performances are averaged across all model outputs.
+
+## Multi-step models
+
+Both the single-output and multiple-output models in the previous sections made **single time step predictions**, 1h into the future.
+
+This section looks at how to expand these models to make **multiple time step predictions**.
+
+In a multi-step prediction, the model needs to learn to predict a range of future values. Thus, unlike a single step model, where only a single future point is predicted, a multi-step model predicts a sequence of the future values.
+
+There are two rough approaches to this:
+
+1.  Single shot predictions where the entire time series is predicted at once.
+2.  Autoregressive predictions where the model only makes single step predictions and its output is fed back as its input.
+
+In this section all the models will predict **all the features across all output time steps**.
+
+For the multi-step model, the training data again consists of hourly samples. However, here, the models will learn to predict 24h of the future, given 24h of the past.
+
+Here is a `Window` object that generates these slices from the dataset:
+
+```py
+OUT_STEPS = 24
+multi_window = WindowGenerator(input_width=24,
+                               label_width=OUT_STEPS,
+                               shift=OUT_STEPS)
+
+multi_window.plot()
+multi_window 
+```
+
+```py
+Total window size: 48
+Input indices: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
+Label indices: [24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47]
+Label column name(s): None
+
+```
+
+![png](img/4e0ba8d4a487b7517b7dbff7e19c4d52.png)
+
+### Baselines
+
+A simple baseline for this task is to repeat the last input time step for the required number of output timesteps:
+
+![Repeat the last input, for each output step](img/ca5c6f8a5c7444a19483d53990e42c33.png)
+
+```py
+class MultiStepLastBaseline(tf.keras.Model):
+  def call(self, inputs):
+    return tf.tile(inputs[:, -1:, :], [1, OUT_STEPS, 1])
+
+last_baseline = MultiStepLastBaseline()
+last_baseline.compile(loss=tf.losses.MeanSquaredError(),
+                      metrics=[tf.metrics.MeanAbsoluteError()])
+
+multi_val_performance = {}
+multi_performance = {}
+
+multi_val_performance['Last'] = last_baseline.evaluate(multi_window.val)
+multi_performance['Last'] = last_baseline.evaluate(multi_window.test, verbose=0)
+multi_window.plot(last_baseline) 
+```
+
+```py
+437/437 [==============================] - 1s 2ms/step - loss: 0.6285 - mean_absolute_error: 0.5007
+
+```
+
+![png](img/a71722493bd8850dfcd7c1ec0e69918f.png)
+
+Since this task is to predict 24h given 24h another simple approach is to repeat the previous day, assuming tomorrow will be similar:
+
+![Repeat the previous day](img/5edc6f55df9224577119e687a2c97282.png)
+
+```py
+class RepeatBaseline(tf.keras.Model):
+  def call(self, inputs):
+    return inputs
+
+repeat_baseline = RepeatBaseline()
+repeat_baseline.compile(loss=tf.losses.MeanSquaredError(),
+                        metrics=[tf.metrics.MeanAbsoluteError()])
+
+multi_val_performance['Repeat'] = repeat_baseline.evaluate(multi_window.val)
+multi_performance['Repeat'] = repeat_baseline.evaluate(multi_window.test, verbose=0)
+multi_window.plot(repeat_baseline) 
+```
+
+```py
+437/437 [==============================] - 1s 2ms/step - loss: 0.4270 - mean_absolute_error: 0.3959
+
+```
+
+![png](img/ae14079092bef088b0ecf83c8f429ef2.png)
+
+### Single-shot models
+
+One high level approach to this problem is use a "single-shot" model, where the model makes the entire sequence prediction in a single step.
+
+This can be implemented efficiently as a [`layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) with `OUT_STEPS*features` output units. The model just needs to reshape that output to the required `(OUTPUT_STEPS, features)`.
+
+#### Linear
+
+A simple linear model based on the last input time step does better than either baseline, but is underpowered. The model needs to predict `OUTPUT_STEPS` time steps, from a single input time step with a linear projection. It can only capture a low-dimensional slice of the behavior, likely based mainly on the time of day and time of year.
+
+![Predct all timesteps from the last time-step](img/74469ffcda8aa53d4c29cfcfda5831ad.png)
+
+```py
+multi_linear_model = tf.keras.Sequential([
+    # Take the last time-step.
+    # Shape [batch, time, features] => [batch, 1, features]
+    tf.keras.layers.Lambda(lambda x: x[:, -1:, :]),
+    # Shape => [batch, 1, out_steps*features]
+    tf.keras.layers.Dense(OUT_STEPS*num_features,
+                          kernel_initializer=tf.initializers.zeros),
+    # Shape => [batch, out_steps, features]
+    tf.keras.layers.Reshape([OUT_STEPS, num_features])
+])
+
+history = compile_and_fit(multi_linear_model, multi_window)
+
+IPython.display.clear_output()
+multi_val_performance['Linear'] = multi_linear_model.evaluate(multi_window.val)
+multi_performance['Linear'] = multi_linear_model.evaluate(multi_window.test, verbose=0)
+multi_window.plot(multi_linear_model) 
+```
+
+```py
+437/437 [==============================] - 1s 2ms/step - loss: 0.2556 - mean_absolute_error: 0.3050
+
+```
+
+![png](img/c9a00de59da2a696666612d0bd08c7a7.png)
+
+#### Dense
+
+Adding a [`layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) between the input and output gives the linear model more power, but is still only based on a single input timestep.
+
+```py
+multi_dense_model = tf.keras.Sequential([
+    # Take the last time step.
+    # Shape [batch, time, features] => [batch, 1, features]
+    tf.keras.layers.Lambda(lambda x: x[:, -1:, :]),
+    # Shape => [batch, 1, dense_units]
+    tf.keras.layers.Dense(512, activation='relu'),
+    # Shape => [batch, out_steps*features]
+    tf.keras.layers.Dense(OUT_STEPS*num_features,
+                          kernel_initializer=tf.initializers.zeros),
+    # Shape => [batch, out_steps, features]
+    tf.keras.layers.Reshape([OUT_STEPS, num_features])
+])
+
+history = compile_and_fit(multi_dense_model, multi_window)
+
+IPython.display.clear_output()
+multi_val_performance['Dense'] = multi_dense_model.evaluate(multi_window.val)
+multi_performance['Dense'] = multi_dense_model.evaluate(multi_window.test, verbose=0)
+multi_window.plot(multi_dense_model) 
+```
+
+```py
+437/437 [==============================] - 1s 3ms/step - loss: 0.2192 - mean_absolute_error: 0.2807
+
+```
+
+![png](img/a3f9320fc0125d442f2b7412c2492197.png)
+
+#### CNN
+
+A convolutional model makes predictions based on a fixed-width history, which may lead to better performance than the dense model since it can see how things are changing over time:
+
+![A convolutional model sees how things change over time](img/6b1df74992f4b9253cc3e928d73cd3a8.png)
+
+```py
+CONV_WIDTH = 3
+multi_conv_model = tf.keras.Sequential([
+    # Shape [batch, time, features] => [batch, CONV_WIDTH, features]
+    tf.keras.layers.Lambda(lambda x: x[:, -CONV_WIDTH:, :]),
+    # Shape => [batch, 1, conv_units]
+    tf.keras.layers.Conv1D(256, activation='relu', kernel_size=(CONV_WIDTH)),
+    # Shape => [batch, 1,  out_steps*features]
+    tf.keras.layers.Dense(OUT_STEPS*num_features,
+                          kernel_initializer=tf.initializers.zeros),
+    # Shape => [batch, out_steps, features]
+    tf.keras.layers.Reshape([OUT_STEPS, num_features])
+])
+
+history = compile_and_fit(multi_conv_model, multi_window)
+
+IPython.display.clear_output()
+
+multi_val_performance['Conv'] = multi_conv_model.evaluate(multi_window.val)
+multi_performance['Conv'] = multi_conv_model.evaluate(multi_window.test, verbose=0)
+multi_window.plot(multi_conv_model) 
+```
+
+```py
+437/437 [==============================] - 1s 3ms/step - loss: 0.2142 - mean_absolute_error: 0.2805
+
+```
+
+![png](img/4d094983d2f7b41e395fe05b64ee1a36.png)
+
+#### RNN
+
+A recurrent model can learn to use a long history of inputs, if it's relevant to the predictions the model is making. Here the model will accumulate internal state for 24h, before making a single prediction for the next 24h.
+
+In this single-shot format, the LSTM only needs to produce an output at the last time step, so set `return_sequences=False`.
+
+![The lstm accumulates state over the input window, and makes a single prediction for the next 24h](img/de0d6e38c509169ec5a4edafdcb08e55.png)
+
+```py
+multi_lstm_model = tf.keras.Sequential([
+    # Shape [batch, time, features] => [batch, lstm_units]
+    # Adding more `lstm_units` just overfits more quickly.
+    tf.keras.layers.LSTM(32, return_sequences=False),
+    # Shape => [batch, out_steps*features]
+    tf.keras.layers.Dense(OUT_STEPS*num_features,
+                          kernel_initializer=tf.initializers.zeros),
+    # Shape => [batch, out_steps, features]
+    tf.keras.layers.Reshape([OUT_STEPS, num_features])
+])
+
+history = compile_and_fit(multi_lstm_model, multi_window)
+
+IPython.display.clear_output()
+
+multi_val_performance['LSTM'] = multi_lstm_model.evaluate(multi_window.val)
+multi_performance['LSTM'] = multi_lstm_model.evaluate(multi_window.test, verbose=0)
+multi_window.plot(multi_lstm_model) 
+```
+
+```py
+437/437 [==============================] - 1s 3ms/step - loss: 0.2146 - mean_absolute_error: 0.2829
+
+```
+
+![png](img/9534e12498035f0762e0c85eee6f02ca.png)
+
+### Advanced: Autoregressive model
+
+The above models all predict the entire output sequence as a in a single step.
+
+In some cases it may be helpful for the model to decompose this prediction into individual time steps. Then each model's output can be fed back into itself at each step and predictions can be made conditioned on the previous one, like in the classic [Generating Sequences With Recurrent Neural Networks](https://arxiv.org/abs/1308.0850).
+
+One clear advantage to this style of model is that it can be set up to produce output with a varying length.
+
+You could take any of single single-step multi-output models trained in the first half of this tutorial and run in an autoregressive feedback loop, but here you'll focus on building a model that's been explicitly trained to do that.
+
+![Feedback a model's output to its input](img/55e97ec60fa87503352f7debd65515af.png)
+
+#### RNN
+
+This tutorial only builds an autoregressive RNN model, but this pattern could be applied to any model that was designed to output a single timestep.
+
+The model will have the same basic form as the single-step `LSTM` models: An `LSTM` followed by a [`layers.Dense`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Dense) that converts the `LSTM` outputs to model predictions.
+
+A [`layers.LSTM`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/LSTM) is a [`layers.LSTMCell`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/LSTMCell) wrapped in the higher level [`layers.RNN`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/RNN) that manages the state and sequence results for you (See [Keras RNNs](https://tensorflow.google.cn/guide/keras/rnn) for details).
+
+In this case the model has to manually manage the inputs for each step so it uses [`layers.LSTMCell`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/LSTMCell) directly for the lower level, single time step interface.
+
+```py
+class FeedBack(tf.keras.Model):
+  def __init__(self, units, out_steps):
+    super().__init__()
+    self.out_steps = out_steps
+    self.units = units
+    self.lstm_cell = tf.keras.layers.LSTMCell(units)
+    # Also wrap the LSTMCell in an RNN to simplify the `warmup` method.
+    self.lstm_rnn = tf.keras.layers.RNN(self.lstm_cell, return_state=True)
+    self.dense = tf.keras.layers.Dense(num_features) 
+```
+
+```py
+feedback_model = FeedBack(units=32, out_steps=OUT_STEPS) 
+```
+
+The first method this model needs is a `warmup` method to initialize its internal state based on the inputs. Once trained this state will capture the relevant parts of the input history. This is equivalent to the single-step `LSTM` model from earlier:
+
+```py
+def warmup(self, inputs):
+  # inputs.shape => (batch, time, features)
+  # x.shape => (batch, lstm_units)
+  x, *state = self.lstm_rnn(inputs)
+
+  # predictions.shape => (batch, features)
+  prediction = self.dense(x)
+  return prediction, state
+
+FeedBack.warmup = warmup 
+```
+
+This method returns a single time-step prediction, and the internal state of the LSTM:
+
+```py
+prediction, state = feedback_model.warmup(multi_window.example[0])
+prediction.shape 
+```
+
+```py
+TensorShape([32, 19])
+
+```
+
+With the `RNN`'s state, and an initial prediction you can now continue iterating the model feeding the predictions at each step back as the input.
+
+The simplest approach to collecting the output predictions is to use a python list, and [`tf.stack`](https://tensorflow.google.cn/api_docs/python/tf/stack) after the loop.
+
+**Note:** Stacking a python list like this only works with eager-execution, using [`Model.compile(..., run_eagerly=True)`](https://tensorflow.google.cn/api_docs/python/tf/keras/Model#compile) for training, or with a fixed length output. For a dynamic output length you would need to use a [`tf.TensorArray`](https://tensorflow.google.cn/api_docs/python/tf/TensorArray) instead of a python list, and [`tf.range`](https://tensorflow.google.cn/api_docs/python/tf/range) instead of the python `range`.
+
+```py
+def call(self, inputs, training=None):
+  # Use a TensorArray to capture dynamically unrolled outputs.
+  predictions = []
+  # Initialize the lstm state
+  prediction, state = self.warmup(inputs)
+
+  # Insert the first prediction
+  predictions.append(prediction)
+
+  # Run the rest of the prediction steps
+  for n in range(1, self.out_steps):
+    # Use the last prediction as input.
+    x = prediction
+    # Execute one lstm step.
+    x, state = self.lstm_cell(x, states=state,
+                              training=training)
+    # Convert the lstm output to a prediction.
+    prediction = self.dense(x)
+    # Add the prediction to the output
+    predictions.append(prediction)
+
+  # predictions.shape => (time, batch, features)
+  predictions = tf.stack(predictions)
+  # predictions.shape => (batch, time, features)
+  predictions = tf.transpose(predictions, [1, 0, 2])
+  return predictions
+
+FeedBack.call = call 
+```
+
+Test run this model on the example inputs:
+
+```py
+print('Output shape (batch, time, features): ', feedback_model(multi_window.example[0]).shape) 
+```
+
+```py
+Output shape (batch, time, features):  (32, 24, 19)
+
+```
+
+Now train the model:
+
+```py
+history = compile_and_fit(feedback_model, multi_window)
+
+IPython.display.clear_output()
+
+multi_val_performance['AR LSTM'] = feedback_model.evaluate(multi_window.val)
+multi_performance['AR LSTM'] = feedback_model.evaluate(multi_window.test, verbose=0)
+multi_window.plot(feedback_model) 
+```
+
+```py
+437/437 [==============================] - 3s 8ms/step - loss: 0.2352 - mean_absolute_error: 0.3116
+
+```
+
+![png](img/28877f41199c01fa4ec5041f5b1fac9f.png)
+
+### Performance
+
+There are clearly diminishing returns as a function of model complexity on this problem.
+
+```py
+x = np.arange(len(multi_performance))
+width = 0.3
+
+metric_name = 'mean_absolute_error'
+metric_index = lstm_model.metrics_names.index('mean_absolute_error')
+val_mae = [v[metric_index] for v in multi_val_performance.values()]
+test_mae = [v[metric_index] for v in multi_performance.values()]
+
+plt.bar(x - 0.17, val_mae, width, label='Validation')
+plt.bar(x + 0.17, test_mae, width, label='Test')
+plt.xticks(ticks=x, labels=multi_performance.keys(),
+           rotation=45)
+plt.ylabel(f'MAE (average over all times and outputs)')
+_ = plt.legend() 
+```
+
+![png](img/fa351313bf1ddb033fe47d07a518db6c.png)
+
+The metrics for the multi-output models in the first half of this tutorial show the performance averaged across all output features. These performances similar but also averaged across output timesteps.
+
+```py
+for name, value in multi_performance.items():
+  print(f'{name:8s}: {value[1]:0.4f}') 
+```
+
+```py
+Last    : 0.5157
+Repeat  : 0.3774
+Linear  : 0.2980
+Dense   : 0.2754
+Conv    : 0.2724
+LSTM    : 0.2770
+AR LSTM : 0.3026
+
+```
+
+The gains achieved going from a dense model to convolutional and recurrent models are only a few percent (if any), and the autoregressive model performed clearly worse. So these more complex approaches may not be worth while on **this** problem, but there was no way to know without trying, and these models could be helpful for **your** problem.
+
+## Next steps
+
+This tutorial was a quick introduction to time series forecasting using TensorFlow.
+
+*   For further understanding, see:
+    *   Chapter 15 of [Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow](https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/), 2nd Edition
+    *   Chapter 6 of [Deep Learning with Python](https://www.manning.com/books/deep-learning-with-python).
+    *   Lesson 8 of [Udacity's intro to TensorFlow for deep learning](https://www.udacity.com/course/intro-to-tensorflow-for-deep-learning--ud187), and the [exercise notebooks](https://github.com/tensorflow/examples/tree/master/courses/udacity_intro_to_tensorflow_for_deep_learning)
+*   Also remember that you can implement any [classical time series model](https://otexts.com/fpp2/index.html) in TensorFlow, this tutorial just focuses on TensorFlow's built-in functionality.
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/059.md b/Tensorflow/TensorFlow2.0/059.md
new file mode 100644
index 00000000..c10a0c07
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/059.md
@@ -0,0 +1 @@
+# 生成
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/060.md b/Tensorflow/TensorFlow2.0/060.md
new file mode 100644
index 00000000..9b48e8eb
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/060.md
@@ -0,0 +1,689 @@
+# 神经风格迁移
+
+> 原文：[https://tensorflow.google.cn/tutorials/generative/style_transfer](https://tensorflow.google.cn/tutorials/generative/style_transfer)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程使用深度学习来用其他图像的风格创造一个图像（曾经你是否希望可以像毕加索或梵高一样绘画？）。 这被称为*神经风格迁移*，该技术概述于 [A Neural Algorithm of Artistic Style](https://arxiv.org/abs/1508.06576) (Gatys et al.).
+
+**Note:** 本教程演示了原始的风格迁移算法。它将图像内容优化为特定样式。最新的一些方法训练模型以直接生成风格化图像（类似于 [cyclegan](/tutorials/generative/cyclegan)）。原始的这种方法要快得多（高达 1000 倍）。[TensorFlow Hub](https://tensorflow.google.cn/hub) 和 [TensorFlow Lite](https://tensorflow.google.cn/lite/models/style_transfer/overview) 中提供了预训练的[任意图像风格化模块](https://colab.sandbox.google.com/github/tensorflow/hub/blob/master/examples/colab/tf2_arbitrary_image_stylization.ipynb)。
+
+神经风格迁移是一种优化技术，用于将两个图像——一个*内容*图像和一个*风格参考*图像（如著名画家的一个作品）——混合在一起，使输出的图像看起来像内容图像， 但是用了风格参考图像的风格。
+
+这是通过优化输出图像以匹配内容图像的内容统计数据和风格参考图像的风格统计数据来实现的。 这些统计数据可以使用卷积网络从图像中提取。
+
+例如，我们选取这张小狗的照片和 Wassily Kandinsky 的作品 7：
+
+![](img/8d456c03cff000c86147a07dbbcb6f32.png)
+
+[黄色拉布拉多犬的凝视](https://commons.wikimedia.org/wiki/File:YellowLabradorLooking_new.jpg)，来自 Wikimedia Commons
+
+![](img/35253af9a3f5a4e0035787fd80b11ca3.png)
+
+如果 Kandinsky 决定用这种风格来专门描绘这只海龟会是什么样子？ 是否如下图一样？
+
+![](img/40793e753f5cc525c8f3c9cd20d1085c.png)
+
+## 配置
+
+### 导入和配置模块
+
+```py
+import tensorflow as tf 
+```
+
+```py
+import IPython.display as display
+
+import matplotlib.pyplot as plt
+import matplotlib as mpl
+mpl.rcParams['figure.figsize'] = (12,12)
+mpl.rcParams['axes.grid'] = False
+
+import numpy as np
+import PIL.Image
+import time
+import functools 
+```
+
+```py
+def tensor_to_image(tensor):
+  tensor = tensor*255
+  tensor = np.array(tensor, dtype=np.uint8)
+  if np.ndim(tensor)>3:
+    assert tensor.shape[0] == 1
+    tensor = tensor[0]
+  return PIL.Image.fromarray(tensor) 
+```
+
+下载图像并选择风格图像和内容图像：
+
+```py
+content_path = tf.keras.utils.get_file('YellowLabradorLooking_new.jpg', 'https://storage.googleapis.com/download.tensorflow.org/example_images/YellowLabradorLooking_new.jpg')
+
+# https://commons.wikimedia.org/wiki/File:Vassily_Kandinsky,_1913_-_Composition_7.jpg
+style_path = tf.keras.utils.get_file('kandinsky5.jpg','https://storage.googleapis.com/download.tensorflow.org/example_images/Vassily_Kandinsky%2C_1913_-_Composition_7.jpg') 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/YellowLabradorLooking_new.jpg
+90112/83281 [================================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/Vassily_Kandinsky%2C_1913_-_Composition_7.jpg
+196608/195196 [==============================] - 0s 0us/step
+
+```
+
+## 将输入可视化
+
+定义一个加载图像的函数，并将其最大尺寸限制为 512 像素。
+
+```py
+def load_img(path_to_img):
+  max_dim = 512
+  img = tf.io.read_file(path_to_img)
+  img = tf.image.decode_image(img, channels=3)
+  img = tf.image.convert_image_dtype(img, tf.float32)
+
+  shape = tf.cast(tf.shape(img)[:-1], tf.float32)
+  long_dim = max(shape)
+  scale = max_dim / long_dim
+
+  new_shape = tf.cast(shape * scale, tf.int32)
+
+  img = tf.image.resize(img, new_shape)
+  img = img[tf.newaxis, :]
+  return img 
+```
+
+创建一个简单的函数来显示图像：
+
+```py
+def imshow(image, title=None):
+  if len(image.shape) > 3:
+    image = tf.squeeze(image, axis=0)
+
+  plt.imshow(image)
+  if title:
+    plt.title(title) 
+```
+
+```py
+content_image = load_img(content_path)
+style_image = load_img(style_path)
+
+plt.subplot(1, 2, 1)
+imshow(content_image, 'Content Image')
+
+plt.subplot(1, 2, 2)
+imshow(style_image, 'Style Image') 
+```
+
+![png](img/d85fdaff014f0211e5ef646977087e50.png)
+
+## 使用 TF-Hub 进行快速风格迁移
+
+本教程演示了原始的风格迁移算法。其将图像内容优化为特定风格。在进入细节之前，让我们看一下 [TensorFlow Hub](https://tensorflow.google.cn/hub) 模块如何快速风格迁移：
+
+```py
+import tensorflow_hub as hub
+hub_module = hub.load('https://hub.tensorflow.google.cn/google/magenta/arbitrary-image-stylization-v1-256/1')
+stylized_image = hub_module(tf.constant(content_image), tf.constant(style_image))[0]
+tensor_to_image(stylized_image) 
+```
+
+![png](img/833d9eeff633ce77dec2eb85f74e8bbb.png)
+
+## 定义内容和风格的表示
+
+使用模型的中间层来获取图像的*内容*和*风格*表示。 从网络的输入层开始，前几个层的激励响应表示边缘和纹理等低级 feature (特征)。 随着层数加深，最后几层代表更高级的 feature (特征)——实体的部分，如*轮子*或*眼睛*。 在此教程中，我们使用的是 VGG19 网络结构，这是一个已经预训练好的图像分类网络。 这些中间层是从图像中定义内容和风格的表示所必需的。 对于一个输入图像，我们尝试匹配这些中间层的相应风格和内容目标的表示。
+
+加载 [VGG19](https://keras.io/applications/#vgg19) 并在我们的图像上测试它以确保正常运行：
+
+```py
+x = tf.keras.applications.vgg19.preprocess_input(content_image*255)
+x = tf.image.resize(x, (224, 224))
+vgg = tf.keras.applications.VGG19(include_top=True, weights='imagenet')
+prediction_probabilities = vgg(x)
+prediction_probabilities.shape 
+```
+
+```py
+TensorShape([1, 1000])
+
+```
+
+```py
+predicted_top_5 = tf.keras.applications.vgg19.decode_predictions(prediction_probabilities.numpy())[0]
+[(class_name, prob) for (number, class_name, prob) in predicted_top_5] 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/imagenet_class_index.json
+40960/35363 [==================================] - 0s 0us/step
+
+[('Labrador_retriever', 0.493171),
+ ('golden_retriever', 0.23665288),
+ ('kuvasz', 0.036357544),
+ ('Chesapeake_Bay_retriever', 0.024182763),
+ ('Greater_Swiss_Mountain_dog', 0.0186461)]
+
+```
+
+现在，加载没有分类部分的 `VGG19` ，并列出各层的名称：
+
+```py
+vgg = tf.keras.applications.VGG19(include_top=False, weights='imagenet')
+
+print()
+for layer in vgg.layers:
+  print(layer.name) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/vgg19/vgg19_weights_tf_dim_ordering_tf_kernels_notop.h5
+80142336/80134624 [==============================] - 1s 0us/step
+
+input_2
+block1_conv1
+block1_conv2
+block1_pool
+block2_conv1
+block2_conv2
+block2_pool
+block3_conv1
+block3_conv2
+block3_conv3
+block3_conv4
+block3_pool
+block4_conv1
+block4_conv2
+block4_conv3
+block4_conv4
+block4_pool
+block5_conv1
+block5_conv2
+block5_conv3
+block5_conv4
+block5_pool
+
+```
+
+从网络中选择中间层的输出以表示图像的风格和内容：
+
+```py
+# 内容层将提取出我们的 feature maps （特征图）
+content_layers = ['block5_conv2'] 
+
+# 我们感兴趣的风格层
+style_layers = ['block1_conv1',
+                'block2_conv1',
+                'block3_conv1', 
+                'block4_conv1', 
+                'block5_conv1']
+
+num_content_layers = len(content_layers)
+num_style_layers = len(style_layers) 
+```
+
+#### 用于表示风格和内容的中间层
+
+那么,为什么我们预训练的图像分类网络中的这些中间层的输出允许我们定义风格和内容的表示？
+
+从高层理解，为了使网络能够实现图像分类（该网络已被训练过），它必须理解图像。 这需要将原始图像作为输入像素并构建内部表示，这个内部表示将原始图像像素转换为对图像中存在的 feature (特征)的复杂理解。
+
+这也是卷积神经网络能够很好地推广的一个原因：它们能够捕获不变性并定义类别（例如猫与狗）之间的 feature (特征)，这些 feature (特征)与背景噪声和其他干扰无关。 因此，将原始图像传递到模型输入和分类标签输出之间的某处的这一过程，可以视作复杂的 feature (特征)提取器。通过这些模型的中间层，我们就可以描述输入图像的内容和风格。
+
+## 建立模型
+
+使用[`tf.keras.applications`](https://tensorflow.google.cn/api_docs/python/tf/keras/applications)中的网络可以让我们非常方便的利用 Keras 的功能接口提取中间层的值。
+
+在使用功能接口定义模型时，我们需要指定输入和输出：
+
+`model = Model(inputs, outputs)`
+
+以下函数构建了一个 VGG19 模型，该模型返回一个中间层输出的列表：
+
+```py
+def vgg_layers(layer_names):
+  """ Creates a vgg model that returns a list of intermediate output values."""
+  # 加载我们的模型。 加载已经在 imagenet 数据上预训练的 VGG 
+  vgg = tf.keras.applications.VGG19(include_top=False, weights='imagenet')
+  vgg.trainable = False
+
+  outputs = [vgg.get_layer(name).output for name in layer_names]
+
+  model = tf.keras.Model([vgg.input], outputs)
+  return model 
+```
+
+然后建立模型：
+
+```py
+style_extractor = vgg_layers(style_layers)
+style_outputs = style_extractor(style_image*255)
+
+#查看每层输出的统计信息
+for name, output in zip(style_layers, style_outputs):
+  print(name)
+  print("  shape: ", output.numpy().shape)
+  print("  min: ", output.numpy().min())
+  print("  max: ", output.numpy().max())
+  print("  mean: ", output.numpy().mean())
+  print() 
+```
+
+```py
+block1_conv1
+  shape:  (1, 336, 512, 64)
+  min:  0.0
+  max:  835.5256
+  mean:  33.97525
+
+block2_conv1
+  shape:  (1, 168, 256, 128)
+  min:  0.0
+  max:  4625.8857
+  mean:  199.82687
+
+block3_conv1
+  shape:  (1, 84, 128, 256)
+  min:  0.0
+  max:  8789.239
+  mean:  230.78099
+
+block4_conv1
+  shape:  (1, 42, 64, 512)
+  min:  0.0
+  max:  21566.135
+  mean:  791.24005
+
+block5_conv1
+  shape:  (1, 21, 32, 512)
+  min:  0.0
+  max:  3189.2542
+  mean:  59.179478
+
+```
+
+## 风格计算
+
+图像的内容由中间 feature maps (特征图)的值表示。
+
+事实证明，图像的风格可以通过不同 feature maps (特征图)上的平均值和相关性来描述。 通过在每个位置计算 feature (特征)向量的外积，并在所有位置对该外积进行平均,可以计算出包含此信息的 Gram 矩阵。 对于特定层的 Gram 矩阵，具体计算方法如下所示：
+
+$$G^l_{cd} = \frac{\sum_{ij} F^l_{ijc}(x)F^l_{ijd}(x)}{IJ}$$
+
+这可以使用[`tf.linalg.einsum`](https://tensorflow.google.cn/api_docs/python/tf/einsum)函数来实现：
+
+```py
+def gram_matrix(input_tensor):
+  result = tf.linalg.einsum('bijc,bijd->bcd', input_tensor, input_tensor)
+  input_shape = tf.shape(input_tensor)
+  num_locations = tf.cast(input_shape[1]*input_shape[2], tf.float32)
+  return result/(num_locations) 
+```
+
+## 提取风格和内容
+
+构建一个返回风格和内容张量的模型。
+
+```py
+class StyleContentModel(tf.keras.models.Model):
+  def __init__(self, style_layers, content_layers):
+    super(StyleContentModel, self).__init__()
+    self.vgg =  vgg_layers(style_layers + content_layers)
+    self.style_layers = style_layers
+    self.content_layers = content_layers
+    self.num_style_layers = len(style_layers)
+    self.vgg.trainable = False
+
+  def call(self, inputs):
+    "Expects float input in [0,1]"
+    inputs = inputs*255.0
+    preprocessed_input = tf.keras.applications.vgg19.preprocess_input(inputs)
+    outputs = self.vgg(preprocessed_input)
+    style_outputs, content_outputs = (outputs[:self.num_style_layers], 
+                                      outputs[self.num_style_layers:])
+
+    style_outputs = [gram_matrix(style_output)
+                     for style_output in style_outputs]
+
+    content_dict = {content_name:value 
+                    for content_name, value 
+                    in zip(self.content_layers, content_outputs)}
+
+    style_dict = {style_name:value
+                  for style_name, value
+                  in zip(self.style_layers, style_outputs)}
+
+    return {'content':content_dict, 'style':style_dict} 
+```
+
+在图像上调用此模型，可以返回 style_layers 的 gram 矩阵（风格）和 content_layers 的内容：
+
+```py
+extractor = StyleContentModel(style_layers, content_layers)
+
+results = extractor(tf.constant(content_image))
+
+style_results = results['style']
+
+print('Styles:')
+for name, output in sorted(results['style'].items()):
+  print("  ", name)
+  print("    shape: ", output.numpy().shape)
+  print("    min: ", output.numpy().min())
+  print("    max: ", output.numpy().max())
+  print("    mean: ", output.numpy().mean())
+  print()
+
+print("Contents:")
+for name, output in sorted(results['content'].items()):
+  print("  ", name)
+  print("    shape: ", output.numpy().shape)
+  print("    min: ", output.numpy().min())
+  print("    max: ", output.numpy().max())
+  print("    mean: ", output.numpy().mean()) 
+```
+
+```py
+Styles:
+   block1_conv1
+    shape:  (1, 64, 64)
+    min:  0.0055228462
+    max:  28014.562
+    mean:  263.79025
+
+   block2_conv1
+    shape:  (1, 128, 128)
+    min:  0.0
+    max:  61479.49
+    mean:  9100.949
+
+   block3_conv1
+    shape:  (1, 256, 256)
+    min:  0.0
+    max:  545623.44
+    mean:  7660.976
+
+   block4_conv1
+    shape:  (1, 512, 512)
+    min:  0.0
+    max:  4320502.0
+    mean:  134288.84
+
+   block5_conv1
+    shape:  (1, 512, 512)
+    min:  0.0
+    max:  110005.34
+    mean:  1487.0381
+
+Contents:
+   block5_conv2
+    shape:  (1, 26, 32, 512)
+    min:  0.0
+    max:  2410.8796
+    mean:  13.764149
+
+```
+
+## 梯度下降
+
+使用此风格和内容提取器，我们现在可以实现风格传输算法。我们通过计算每个图像的输出和目标的均方误差来做到这一点，然后取这些损失值的加权和。
+
+设置风格和内容的目标值：
+
+```py
+style_targets = extractor(style_image)['style']
+content_targets = extractor(content_image)['content'] 
+```
+
+定义一个 [`tf.Variable`](https://tensorflow.google.cn/api_docs/python/tf/Variable) 来表示要优化的图像。 为了快速实现这一点，使用内容图像对其进行初始化（ [`tf.Variable`](https://tensorflow.google.cn/api_docs/python/tf/Variable) 必须与内容图像的形状相同）
+
+```py
+image = tf.Variable(content_image) 
+```
+
+由于这是一个浮点图像，因此我们定义一个函数来保持像素值在 0 和 1 之间：
+
+```py
+def clip_0_1(image):
+  return tf.clip_by_value(image, clip_value_min=0.0, clip_value_max=1.0) 
+```
+
+创建一个 optimizer 。 本教程推荐 LBFGS，但 `Adam` 也可以正常工作：
+
+```py
+opt = tf.optimizers.Adam(learning_rate=0.02, beta_1=0.99, epsilon=1e-1) 
+```
+
+为了优化它，我们使用两个损失的加权组合来获得总损失：
+
+```py
+style_weight=1e-2
+content_weight=1e4 
+```
+
+```py
+def style_content_loss(outputs):
+    style_outputs = outputs['style']
+    content_outputs = outputs['content']
+    style_loss = tf.add_n([tf.reduce_mean((style_outputs[name]-style_targets[name])**2) 
+                           for name in style_outputs.keys()])
+    style_loss *= style_weight / num_style_layers
+
+    content_loss = tf.add_n([tf.reduce_mean((content_outputs[name]-content_targets[name])**2) 
+                             for name in content_outputs.keys()])
+    content_loss *= content_weight / num_content_layers
+    loss = style_loss + content_loss
+    return loss 
+```
+
+使用 [`tf.GradientTape`](https://tensorflow.google.cn/api_docs/python/tf/GradientTape) 来更新图像。
+
+```py
+@tf.function()
+def train_step(image):
+  with tf.GradientTape() as tape:
+    outputs = extractor(image)
+    loss = style_content_loss(outputs)
+
+  grad = tape.gradient(loss, image)
+  opt.apply_gradients([(grad, image)])
+  image.assign(clip_0_1(image)) 
+```
+
+现在，我们运行几个步来测试一下：
+
+```py
+train_step(image)
+train_step(image)
+train_step(image)
+tensor_to_image(image) 
+```
+
+![png](img/643455194a29bfd2dc25c8821cbbf3b4.png)
+
+运行正常，我们来执行一个更长的优化：
+
+```py
+import time
+start = time.time()
+
+epochs = 10
+steps_per_epoch = 100
+
+step = 0
+for n in range(epochs):
+  for m in range(steps_per_epoch):
+    step += 1
+    train_step(image)
+    print(".", end='')
+  display.clear_output(wait=True)
+  display.display(tensor_to_image(image))
+  print("Train step: {}".format(step))
+
+end = time.time()
+print("Total time: {:.1f}".format(end-start)) 
+```
+
+![png](img/867e80eb383cce30a1f013a43e465d02.png)
+
+```py
+Train step: 1000
+Total time: 20.4
+
+```
+
+## 总变分损失
+
+此实现只是一个基础版本，它的一个缺点是它会产生大量的高频误差。 我们可以直接通过正则化图像的高频分量来减少这些高频误差。 在风格转移中，这通常被称为*总变分损失*：
+
+```py
+def high_pass_x_y(image):
+  x_var = image[:,:,1:,:] - image[:,:,:-1,:]
+  y_var = image[:,1:,:,:] - image[:,:-1,:,:]
+
+  return x_var, y_var 
+```
+
+```py
+x_deltas, y_deltas = high_pass_x_y(content_image)
+
+plt.figure(figsize=(14,10))
+plt.subplot(2,2,1)
+imshow(clip_0_1(2*y_deltas+0.5), "Horizontal Deltas: Original")
+
+plt.subplot(2,2,2)
+imshow(clip_0_1(2*x_deltas+0.5), "Vertical Deltas: Original")
+
+x_deltas, y_deltas = high_pass_x_y(image)
+
+plt.subplot(2,2,3)
+imshow(clip_0_1(2*y_deltas+0.5), "Horizontal Deltas: Styled")
+
+plt.subplot(2,2,4)
+imshow(clip_0_1(2*x_deltas+0.5), "Vertical Deltas: Styled") 
+```
+
+![png](img/e3d2caa770c7f600fb5cdc2a95ad0e0a.png)
+
+这显示了高频分量如何增加。
+
+而且，本质上高频分量是一个边缘检测器。 我们可以从 Sobel 边缘检测器获得类似的输出，例如：
+
+```py
+plt.figure(figsize=(14,10))
+
+sobel = tf.image.sobel_edges(content_image)
+plt.subplot(1,2,1)
+imshow(clip_0_1(sobel[...,0]/4+0.5), "Horizontal Sobel-edges")
+plt.subplot(1,2,2)
+imshow(clip_0_1(sobel[...,1]/4+0.5), "Vertical Sobel-edges") 
+```
+
+![png](img/03dad7eb5e1c97b1391c9925be7da416.png)
+
+与此相关的正则化损失是这些值的平方和：
+
+```py
+def total_variation_loss(image):
+  x_deltas, y_deltas = high_pass_x_y(image)
+  return tf.reduce_sum(tf.abs(x_deltas)) + tf.reduce_sum(tf.abs(y_deltas)) 
+```
+
+```py
+total_variation_loss(image).numpy() 
+```
+
+```py
+149342.6
+
+```
+
+以上说明了总变分损失的用途。但是无需自己实现，因为 TensorFlow 包含了一个标准实现：
+
+```py
+tf.image.total_variation(image).numpy() 
+```
+
+```py
+array([149342.6], dtype=float32)
+
+```
+
+## 重新进行优化
+
+选择 `total_variation_loss` 的权重：
+
+```py
+total_variation_weight=30 
+```
+
+现在，将它加入 `train_step` 函数中：
+
+```py
+@tf.function()
+def train_step(image):
+  with tf.GradientTape() as tape:
+    outputs = extractor(image)
+    loss = style_content_loss(outputs)
+    loss += total_variation_weight*tf.image.total_variation(image)
+
+  grad = tape.gradient(loss, image)
+  opt.apply_gradients([(grad, image)])
+  image.assign(clip_0_1(image)) 
+```
+
+重新初始化优化的变量：
+
+```py
+image = tf.Variable(content_image) 
+```
+
+并进行优化：
+
+```py
+import time
+start = time.time()
+
+epochs = 10
+steps_per_epoch = 100
+
+step = 0
+for n in range(epochs):
+  for m in range(steps_per_epoch):
+    step += 1
+    train_step(image)
+    print(".", end='')
+  display.clear_output(wait=True)
+  display.display(tensor_to_image(image))
+  print("Train step: {}".format(step))
+
+end = time.time()
+print("Total time: {:.1f}".format(end-start)) 
+```
+
+![png](img/c67ce581d874e2d04e2761cc44b1d094.png)
+
+```py
+Train step: 1000
+Total time: 21.7
+
+```
+
+最后，保存结果：
+
+```py
+file_name = 'stylized-image.png'
+tensor_to_image(image).save(file_name)
+
+try:
+  from google.colab import files
+except ImportError:
+   pass
+else:
+  files.download(file_name) 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/061.md b/Tensorflow/TensorFlow2.0/061.md
new file mode 100644
index 00000000..a649569e
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/061.md
@@ -0,0 +1,373 @@
+# DeepDream
+
+> 原文：[https://tensorflow.google.cn/tutorials/generative/deepdream](https://tensorflow.google.cn/tutorials/generative/deepdream)
+
+This tutorial contains a minimal implementation of DeepDream, as described in this [blog post](https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html) by Alexander Mordvintsev.
+
+DeepDream is an experiment that visualizes the patterns learned by a neural network. Similar to when a child watches clouds and tries to interpret random shapes, DeepDream over-interprets and enhances the patterns it sees in an image.
+
+It does so by forwarding an image through the network, then calculating the gradient of the image with respect to the activations of a particular layer. The image is then modified to increase these activations, enhancing the patterns seen by the network, and resulting in a dream-like image. This process was dubbed "Inceptionism" (a reference to [InceptionNet](https://arxiv.org/pdf/1409.4842.pdf), and the [movie](https://en.wikipedia.org/wiki/Inception) Inception).
+
+Let's demonstrate how you can make a neural network "dream" and enhance the surreal patterns it sees in an image.
+
+![Dogception](img/ad462e5b3dc8d32430aaa7de7e4bf303.png)
+
+```py
+import tensorflow as tf 
+```
+
+```py
+import numpy as np
+
+import matplotlib as mpl
+
+import IPython.display as display
+import PIL.Image
+
+from tensorflow.keras.preprocessing import image 
+```
+
+## Choose an image to dream-ify
+
+For this tutorial, let's use an image of a [labrador](https://commons.wikimedia.org/wiki/File:YellowLabradorLooking_new.jpg).
+
+```py
+url = 'https://storage.googleapis.com/download.tensorflow.org/example_images/YellowLabradorLooking_new.jpg' 
+```
+
+```py
+# Download an image and read it into a NumPy array.
+def download(url, max_dim=None):
+  name = url.split('/')[-1]
+  image_path = tf.keras.utils.get_file(name, origin=url)
+  img = PIL.Image.open(image_path)
+  if max_dim:
+    img.thumbnail((max_dim, max_dim))
+  return np.array(img)
+
+# Normalize an image
+def deprocess(img):
+  img = 255*(img + 1.0)/2.0
+  return tf.cast(img, tf.uint8)
+
+# Display an image
+def show(img):
+  display.display(PIL.Image.fromarray(np.array(img)))
+
+# Downsizing the image makes it easier to work with.
+original_img = download(url, max_dim=500)
+show(original_img)
+display.display(display.HTML('Image cc-by: <a "href=https://commons.wikimedia.org/wiki/File:Felis_catus-cat_on_snow.jpg">Von.grzanka</a>')) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/YellowLabradorLooking_new.jpg
+90112/83281 [================================] - 0s 0us/step
+
+```
+
+![png](img/61002e329110c6cb1db1a82acd8d232f.png)
+
+<devsite-iframe><iframe src="/tutorials/generative/deepdream_25faafe1baef788a2a4b21f9734926a3864096c5fe44122aa3752bb96ccd0445.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+## Prepare the feature extraction model
+
+Download and prepare a pre-trained image classification model. You will use [InceptionV3](https://keras.io/applications/#inceptionv3) which is similar to the model originally used in DeepDream. Note that any [pre-trained model](https://keras.io/applications/#models-for-image-classification-with-weights-trained-on-imagenet) will work, although you will have to adjust the layer names below if you change this.
+
+```py
+base_model = tf.keras.applications.InceptionV3(include_top=False, weights='imagenet') 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/inception_v3/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5
+87916544/87910968 [==============================] - 2s 0us/step
+
+```
+
+The idea in DeepDream is to choose a layer (or layers) and maximize the "loss" in a way that the image increasingly "excites" the layers. The complexity of the features incorporated depends on layers chosen by you, i.e, lower layers produce strokes or simple patterns, while deeper layers give sophisticated features in images, or even whole objects.
+
+The InceptionV3 architecture is quite large (for a graph of the model architecture see TensorFlow's [research repo](https://github.com/tensorflow/models/tree/master/research/inception)). For DeepDream, the layers of interest are those where the convolutions are concatenated. There are 11 of these layers in InceptionV3, named 'mixed0' though 'mixed10'. Using different layers will result in different dream-like images. Deeper layers respond to higher-level features (such as eyes and faces), while earlier layers respond to simpler features (such as edges, shapes, and textures). Feel free to experiment with the layers selected below, but keep in mind that deeper layers (those with a higher index) will take longer to train on since the gradient computation is deeper.
+
+```py
+# Maximize the activations of these layers
+names = ['mixed3', 'mixed5']
+layers = [base_model.get_layer(name).output for name in names]
+
+# Create the feature extraction model
+dream_model = tf.keras.Model(inputs=base_model.input, outputs=layers) 
+```
+
+## Calculate loss
+
+The loss is the sum of the activations in the chosen layers. The loss is normalized at each layer so the contribution from larger layers does not outweigh smaller layers. Normally, loss is a quantity you wish to minimize via gradient descent. In DeepDream, you will maximize this loss via gradient ascent.
+
+```py
+def calc_loss(img, model):
+  # Pass forward the image through the model to retrieve the activations.
+  # Converts the image into a batch of size 1.
+  img_batch = tf.expand_dims(img, axis=0)
+  layer_activations = model(img_batch)
+  if len(layer_activations) == 1:
+    layer_activations = [layer_activations]
+
+  losses = []
+  for act in layer_activations:
+    loss = tf.math.reduce_mean(act)
+    losses.append(loss)
+
+  return  tf.reduce_sum(losses) 
+```
+
+## Gradient ascent
+
+Once you have calculated the loss for the chosen layers, all that is left is to calculate the gradients with respect to the image, and add them to the original image.
+
+Adding the gradients to the image enhances the patterns seen by the network. At each step, you will have created an image that increasingly excites the activations of certain layers in the network.
+
+The method that does this, below, is wrapped in a [`tf.function`](https://tensorflow.google.cn/api_docs/python/tf/function) for performance. It uses an `input_signature` to ensure that the function is not retraced for different image sizes or `steps`/`step_size` values. See the [Concrete functions guide](https://tensorflow.google.cn/guide/concrete_function) for details.
+
+```py
+class DeepDream(tf.Module):
+  def __init__(self, model):
+    self.model = model
+
+  @tf.function(
+      input_signature=(
+        tf.TensorSpec(shape=[None,None,3], dtype=tf.float32),
+        tf.TensorSpec(shape=[], dtype=tf.int32),
+        tf.TensorSpec(shape=[], dtype=tf.float32),)
+  )
+  def __call__(self, img, steps, step_size):
+      print("Tracing")
+      loss = tf.constant(0.0)
+      for n in tf.range(steps):
+        with tf.GradientTape() as tape:
+          # This needs gradients relative to `img`
+          # `GradientTape` only watches `tf.Variable`s by default
+          tape.watch(img)
+          loss = calc_loss(img, self.model)
+
+        # Calculate the gradient of the loss with respect to the pixels of the input image.
+        gradients = tape.gradient(loss, img)
+
+        # Normalize the gradients.
+        gradients /= tf.math.reduce_std(gradients) + 1e-8 
+
+        # In gradient ascent, the "loss" is maximized so that the input image increasingly "excites" the layers.
+        # You can update the image by directly adding the gradients (because they're the same shape!)
+        img = img + gradients*step_size
+        img = tf.clip_by_value(img, -1, 1)
+
+      return loss, img 
+```
+
+```py
+deepdream = DeepDream(dream_model) 
+```
+
+## Main Loop
+
+```py
+def run_deep_dream_simple(img, steps=100, step_size=0.01):
+  # Convert from uint8 to the range expected by the model.
+  img = tf.keras.applications.inception_v3.preprocess_input(img)
+  img = tf.convert_to_tensor(img)
+  step_size = tf.convert_to_tensor(step_size)
+  steps_remaining = steps
+  step = 0
+  while steps_remaining:
+    if steps_remaining>100:
+      run_steps = tf.constant(100)
+    else:
+      run_steps = tf.constant(steps_remaining)
+    steps_remaining -= run_steps
+    step += run_steps
+
+    loss, img = deepdream(img, run_steps, tf.constant(step_size))
+
+    display.clear_output(wait=True)
+    show(deprocess(img))
+    print ("Step {}, loss {}".format(step, loss))
+
+  result = deprocess(img)
+  display.clear_output(wait=True)
+  show(result)
+
+  return result 
+```
+
+```py
+dream_img = run_deep_dream_simple(img=original_img, 
+                                  steps=100, step_size=0.01) 
+```
+
+![png](img/e47b08aec7cc62d5268c6c6af8cf2b16.png)
+
+## Taking it up an octave
+
+Pretty good, but there are a few issues with this first attempt:
+
+1.  The output is noisy (this could be addressed with a [`tf.image.total_variation`](https://tensorflow.google.cn/api_docs/python/tf/image/total_variation) loss).
+2.  The image is low resolution.
+3.  The patterns appear like they're all happening at the same granularity.
+
+One approach that addresses all these problems is applying gradient ascent at different scales. This will allow patterns generated at smaller scales to be incorporated into patterns at higher scales and filled in with additional detail.
+
+To do this you can perform the previous gradient ascent approach, then increase the size of the image (which is referred to as an octave), and repeat this process for multiple octaves.
+
+```py
+import time
+start = time.time()
+
+OCTAVE_SCALE = 1.30
+
+img = tf.constant(np.array(original_img))
+base_shape = tf.shape(img)[:-1]
+float_base_shape = tf.cast(base_shape, tf.float32)
+
+for n in range(-2, 3):
+  new_shape = tf.cast(float_base_shape*(OCTAVE_SCALE**n), tf.int32)
+
+  img = tf.image.resize(img, new_shape).numpy()
+
+  img = run_deep_dream_simple(img=img, steps=50, step_size=0.01)
+
+display.clear_output(wait=True)
+img = tf.image.resize(img, base_shape)
+img = tf.image.convert_image_dtype(img/255.0, dtype=tf.uint8)
+show(img)
+
+end = time.time()
+end-start 
+```
+
+![png](img/a3d4072cdd299fedb28dda8fdab7e611.png)
+
+```py
+5.535110235214233
+
+```
+
+## Optional: Scaling up with tiles
+
+One thing to consider is that as the image increases in size, so will the time and memory necessary to perform the gradient calculation. The above octave implementation will not work on very large images, or many octaves.
+
+To avoid this issue you can split the image into tiles and compute the gradient for each tile.
+
+Applying random shifts to the image before each tiled computation prevents tile seams from appearing.
+
+Start by implementing the random shift:
+
+```py
+def random_roll(img, maxroll):
+  # Randomly shift the image to avoid tiled boundaries.
+  shift = tf.random.uniform(shape=[2], minval=-maxroll, maxval=maxroll, dtype=tf.int32)
+  img_rolled = tf.roll(img, shift=shift, axis=[0,1])
+  return shift, img_rolled 
+```
+
+```py
+shift, img_rolled = random_roll(np.array(original_img), 512)
+show(img_rolled) 
+```
+
+![png](img/47c750cbb275e148fd8d76c4bf49d4a6.png)
+
+Here is a tiled equivalent of the `deepdream` function defined earlier:
+
+```py
+class TiledGradients(tf.Module):
+  def __init__(self, model):
+    self.model = model
+
+  @tf.function(
+      input_signature=(
+        tf.TensorSpec(shape=[None,None,3], dtype=tf.float32),
+        tf.TensorSpec(shape=[], dtype=tf.int32),)
+  )
+  def __call__(self, img, tile_size=512):
+    shift, img_rolled = random_roll(img, tile_size)
+
+    # Initialize the image gradients to zero.
+    gradients = tf.zeros_like(img_rolled)
+
+    # Skip the last tile, unless there's only one tile.
+    xs = tf.range(0, img_rolled.shape[0], tile_size)[:-1]
+    if not tf.cast(len(xs), bool):
+      xs = tf.constant([0])
+    ys = tf.range(0, img_rolled.shape[1], tile_size)[:-1]
+    if not tf.cast(len(ys), bool):
+      ys = tf.constant([0])
+
+    for x in xs:
+      for y in ys:
+        # Calculate the gradients for this tile.
+        with tf.GradientTape() as tape:
+          # This needs gradients relative to `img_rolled`.
+          # `GradientTape` only watches `tf.Variable`s by default.
+          tape.watch(img_rolled)
+
+          # Extract a tile out of the image.
+          img_tile = img_rolled[x:x+tile_size, y:y+tile_size]
+          loss = calc_loss(img_tile, self.model)
+
+        # Update the image gradients for this tile.
+        gradients = gradients + tape.gradient(loss, img_rolled)
+
+    # Undo the random shift applied to the image and its gradients.
+    gradients = tf.roll(gradients, shift=-shift, axis=[0,1])
+
+    # Normalize the gradients.
+    gradients /= tf.math.reduce_std(gradients) + 1e-8 
+
+    return gradients 
+```
+
+```py
+get_tiled_gradients = TiledGradients(dream_model) 
+```
+
+Putting this together gives a scalable, octave-aware deepdream implementation:
+
+```py
+def run_deep_dream_with_octaves(img, steps_per_octave=100, step_size=0.01, 
+                                octaves=range(-2,3), octave_scale=1.3):
+  base_shape = tf.shape(img)
+  img = tf.keras.preprocessing.image.img_to_array(img)
+  img = tf.keras.applications.inception_v3.preprocess_input(img)
+
+  initial_shape = img.shape[:-1]
+  img = tf.image.resize(img, initial_shape)
+  for octave in octaves:
+    # Scale the image based on the octave
+    new_size = tf.cast(tf.convert_to_tensor(base_shape[:-1]), tf.float32)*(octave_scale**octave)
+    img = tf.image.resize(img, tf.cast(new_size, tf.int32))
+
+    for step in range(steps_per_octave):
+      gradients = get_tiled_gradients(img)
+      img = img + gradients*step_size
+      img = tf.clip_by_value(img, -1, 1)
+
+      if step % 10 == 0:
+        display.clear_output(wait=True)
+        show(deprocess(img))
+        print ("Octave {}, Step {}".format(octave, step))
+
+  result = deprocess(img)
+  return result 
+```
+
+```py
+img = run_deep_dream_with_octaves(img=original_img, step_size=0.01)
+
+display.clear_output(wait=True)
+img = tf.image.resize(img, base_shape)
+img = tf.image.convert_image_dtype(img/255.0, dtype=tf.uint8)
+show(img) 
+```
+
+![png](img/1c3bc0a947aefadc9c04f9c5f0bf1991.png)
+
+Much better! Play around with the number of octaves, octave scale, and activated layers to change how your DeepDream-ed image looks.
+
+Readers might also be interested in [TensorFlow Lucid](https://github.com/tensorflow/lucid) which expands on ideas introduced in this tutorial to visualize and interpret neural networks.
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/062.md b/Tensorflow/TensorFlow2.0/062.md
new file mode 100644
index 00000000..83740f7d
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/062.md
@@ -0,0 +1,389 @@
+# 深度卷积生成对抗网络
+
+> 原文：[https://tensorflow.google.cn/tutorials/generative/dcgan](https://tensorflow.google.cn/tutorials/generative/dcgan)
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本教程演示了如何使用[深度卷积生成对抗网络](https://arxiv.org/pdf/1511.06434.pdf)（DCGAN）生成手写数字图片。该代码是使用 [Keras Sequential API](https://tensorflow.google.cn/guide/keras) 与 [`tf.GradientTape`](https://tensorflow.google.cn/api_docs/python/tf/GradientTape) 训练循环编写的。
+
+## 什么是生成对抗网络？
+
+[生成对抗网络](https://arxiv.org/abs/1406.2661)（GANs）是当今计算机科学领域最有趣的想法之一。两个模型通过对抗过程同时训练。一个*生成器*（“艺术家”）学习创造看起来真实的图像，而*判别器*（“艺术评论家”）学习区分真假图像。
+
+![生成器和判别器图示](img/d6513785291f1616fa5a88b830c9a438.png)
+
+训练过程中，*生成器*在生成逼真图像方面逐渐变强，而*判别器*在辨别这些图像的能力上逐渐变强。当*判别器*不再能够区分真实图片和伪造图片时，训练过程达到平衡。
+
+![生成器和判别器图示二](img/a84da0fdd95c0b8365360f941f57e017.png)
+
+本笔记在 MNIST 数据集上演示了该过程。下方动画展示了当训练了 50 个 epoch （全部数据集迭代 50 次） 时*生成器*所生成的一系列图片。图片从随机噪声开始，随着时间的推移越来越像手写数字。
+
+![输出样本](img/2e071a2b770d50ed5ef40dabbe1fd1a7.png)
+
+要了解关于 GANs 的更多信息，我们建议参阅 MIT 的 [深度学习入门](http://introtodeeplearning.com/) 课程。
+
+### Import TensorFlow and other libraries
+
+```py
+import tensorflow as tf 
+```
+
+```py
+tf.__version__ 
+```
+
+```py
+'2.3.0'
+
+```
+
+```py
+# 用于生成 GIF 图片
+pip install -q imageio
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import glob
+import imageio
+import matplotlib.pyplot as plt
+import numpy as np
+import os
+import PIL
+from tensorflow.keras import layers
+import time
+
+from IPython import display 
+```
+
+### 加载和准备数据集
+
+您将使用 MNIST 数据集来训练生成器和判别器。生成器将生成类似于 MNIST 数据集的手写数字。
+
+```py
+(train_images, train_labels), (_, _) = tf.keras.datasets.mnist.load_data() 
+```
+
+```py
+train_images = train_images.reshape(train_images.shape[0], 28, 28, 1).astype('float32')
+train_images = (train_images - 127.5) / 127.5 # 将图片标准化到 [-1, 1] 区间内 
+```
+
+```py
+BUFFER_SIZE = 60000
+BATCH_SIZE = 256 
+```
+
+```py
+# 批量化和打乱数据
+train_dataset = tf.data.Dataset.from_tensor_slices(train_images).shuffle(BUFFER_SIZE).batch(BATCH_SIZE) 
+```
+
+## 创建模型
+
+生成器和判别器均使用 [Keras Sequential API](https://tensorflow.google.cn/guide/keras#sequential_model) 定义。
+
+### 生成器
+
+生成器使用 [`tf.keras.layers.Conv2DTranspose`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Conv2DTranspose) （上采样）层来从种子（随机噪声）中产生图片。以一个使用该种子作为输入的 `Dense` 层开始，然后多次上采样直到达到所期望的 28x28x1 的图片尺寸。注意除了输出层使用 tanh 之外，其他每层均使用 [`tf.keras.layers.LeakyReLU`](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/LeakyReLU) 作为激活函数。
+
+```py
+def make_generator_model():
+    model = tf.keras.Sequential()
+    model.add(layers.Dense(7*7*256, use_bias=False, input_shape=(100,)))
+    model.add(layers.BatchNormalization())
+    model.add(layers.LeakyReLU())
+
+    model.add(layers.Reshape((7, 7, 256)))
+    assert model.output_shape == (None, 7, 7, 256) # 注意：batch size 没有限制
+
+    model.add(layers.Conv2DTranspose(128, (5, 5), strides=(1, 1), padding='same', use_bias=False))
+    assert model.output_shape == (None, 7, 7, 128)
+    model.add(layers.BatchNormalization())
+    model.add(layers.LeakyReLU())
+
+    model.add(layers.Conv2DTranspose(64, (5, 5), strides=(2, 2), padding='same', use_bias=False))
+    assert model.output_shape == (None, 14, 14, 64)
+    model.add(layers.BatchNormalization())
+    model.add(layers.LeakyReLU())
+
+    model.add(layers.Conv2DTranspose(1, (5, 5), strides=(2, 2), padding='same', use_bias=False, activation='tanh'))
+    assert model.output_shape == (None, 28, 28, 1)
+
+    return model 
+```
+
+使用（尚未训练的）生成器创建一张图片。
+
+```py
+generator = make_generator_model()
+
+noise = tf.random.normal([1, 100])
+generated_image = generator(noise, training=False)
+
+plt.imshow(generated_image[0, :, :, 0], cmap='gray') 
+```
+
+```py
+<matplotlib.image.AxesImage at 0x7f01d26074a8>
+
+```
+
+![png](img/22f7bd226b742292050c368b980067f4.png)
+
+### 判别器
+
+判别器是一个基于 CNN 的图片分类器。
+
+```py
+def make_discriminator_model():
+    model = tf.keras.Sequential()
+    model.add(layers.Conv2D(64, (5, 5), strides=(2, 2), padding='same',
+                                     input_shape=[28, 28, 1]))
+    model.add(layers.LeakyReLU())
+    model.add(layers.Dropout(0.3))
+
+    model.add(layers.Conv2D(128, (5, 5), strides=(2, 2), padding='same'))
+    model.add(layers.LeakyReLU())
+    model.add(layers.Dropout(0.3))
+
+    model.add(layers.Flatten())
+    model.add(layers.Dense(1))
+
+    return model 
+```
+
+使用（尚未训练的）判别器来对图片的真伪进行判断。模型将被训练为为真实图片输出正值，为伪造图片输出负值。
+
+```py
+discriminator = make_discriminator_model()
+decision = discriminator(generated_image)
+print (decision) 
+```
+
+```py
+tf.Tensor([[-0.00427552]], shape=(1, 1), dtype=float32)
+
+```
+
+## 定义损失函数和优化器
+
+为两个模型定义损失函数和优化器。
+
+```py
+# 该方法返回计算交叉熵损失的辅助函数
+cross_entropy = tf.keras.losses.BinaryCrossentropy(from_logits=True) 
+```
+
+### 判别器损失
+
+该方法量化判别器从判断真伪图片的能力。它将判别器对真实图片的预测值与值全为 1 的数组进行对比，将判别器对伪造（生成的）图片的预测值与值全为 0 的数组进行对比。
+
+```py
+def discriminator_loss(real_output, fake_output):
+    real_loss = cross_entropy(tf.ones_like(real_output), real_output)
+    fake_loss = cross_entropy(tf.zeros_like(fake_output), fake_output)
+    total_loss = real_loss + fake_loss
+    return total_loss 
+```
+
+### 生成器损失
+
+生成器损失量化其欺骗判别器的能力。直观来讲，如果生成器表现良好，判别器将会把伪造图片判断为真实图片（或 1）。这里我们将把判别器在生成图片上的判断结果与一个值全为 1 的数组进行对比。
+
+```py
+def generator_loss(fake_output):
+    return cross_entropy(tf.ones_like(fake_output), fake_output) 
+```
+
+由于我们需要分别训练两个网络，判别器和生成器的优化器是不同的。
+
+```py
+generator_optimizer = tf.keras.optimizers.Adam(1e-4)
+discriminator_optimizer = tf.keras.optimizers.Adam(1e-4) 
+```
+
+### 保存检查点
+
+本笔记还演示了如何保存和恢复模型，这在长时间训练任务被中断的情况下比较有帮助。
+
+```py
+checkpoint_dir = './training_checkpoints'
+checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt")
+checkpoint = tf.train.Checkpoint(generator_optimizer=generator_optimizer,
+                                 discriminator_optimizer=discriminator_optimizer,
+                                 generator=generator,
+                                 discriminator=discriminator) 
+```
+
+## 定义训练循环
+
+```py
+EPOCHS = 50
+noise_dim = 100
+num_examples_to_generate = 16
+
+# 我们将重复使用该种子（因此在动画 GIF 中更容易可视化进度）
+seed = tf.random.normal([num_examples_to_generate, noise_dim]) 
+```
+
+训练循环在生成器接收到一个随机种子作为输入时开始。该种子用于生产一张图片。判别器随后被用于区分真实图片（选自训练集）和伪造图片（由生成器生成）。针对这里的每一个模型都计算损失函数，并且计算梯度用于更新生成器与判别器。
+
+```py
+# 注意 `tf.function` 的使用
+# 该注解使函数被“编译”
+@tf.function
+def train_step(images):
+    noise = tf.random.normal([BATCH_SIZE, noise_dim])
+
+    with tf.GradientTape() as gen_tape, tf.GradientTape() as disc_tape:
+      generated_images = generator(noise, training=True)
+
+      real_output = discriminator(images, training=True)
+      fake_output = discriminator(generated_images, training=True)
+
+      gen_loss = generator_loss(fake_output)
+      disc_loss = discriminator_loss(real_output, fake_output)
+
+    gradients_of_generator = gen_tape.gradient(gen_loss, generator.trainable_variables)
+    gradients_of_discriminator = disc_tape.gradient(disc_loss, discriminator.trainable_variables)
+
+    generator_optimizer.apply_gradients(zip(gradients_of_generator, generator.trainable_variables))
+    discriminator_optimizer.apply_gradients(zip(gradients_of_discriminator, discriminator.trainable_variables)) 
+```
+
+```py
+def train(dataset, epochs):
+  for epoch in range(epochs):
+    start = time.time()
+
+    for image_batch in dataset:
+      train_step(image_batch)
+
+    # 继续进行时为 GIF 生成图像
+    display.clear_output(wait=True)
+    generate_and_save_images(generator,
+                             epoch + 1,
+                             seed)
+
+    # 每 15 个 epoch 保存一次模型
+    if (epoch + 1) % 15 == 0:
+      checkpoint.save(file_prefix = checkpoint_prefix)
+
+    print ('Time for epoch {} is {} sec'.format(epoch + 1, time.time()-start))
+
+  # 最后一个 epoch 结束后生成图片
+  display.clear_output(wait=True)
+  generate_and_save_images(generator,
+                           epochs,
+                           seed) 
+```
+
+**生成与保存图片**
+
+```py
+def generate_and_save_images(model, epoch, test_input):
+  # 注意 training` 设定为 False
+  # 因此，所有层都在推理模式下运行（batchnorm）。
+  predictions = model(test_input, training=False)
+
+  fig = plt.figure(figsize=(4,4))
+
+  for i in range(predictions.shape[0]):
+      plt.subplot(4, 4, i+1)
+      plt.imshow(predictions[i, :, :, 0] * 127.5 + 127.5, cmap='gray')
+      plt.axis('off')
+
+  plt.savefig('image_at_epoch_{:04d}.png'.format(epoch))
+  plt.show() 
+```
+
+## 训练模型
+
+调用上面定义的 `train()` 方法来同时训练生成器和判别器。注意，训练 GANs 可能是棘手的。重要的是，生成器和判别器不能够互相压制对方（例如，他们以相似的学习率训练）。
+
+在训练之初，生成的图片看起来像是随机噪声。随着训练过程的进行，生成的数字将越来越真实。在大概 50 个 epoch 之后，这些图片看起来像是 MNIST 数字。使用 Colab 中的默认设置可能需要大约 1 分钟每 epoch。
+
+```py
+%%time
+train(train_dataset, EPOCHS) 
+```
+
+![png](img/f3c5a66b35a03bd6a2bf9c3a65a39dfb.png)
+
+```py
+CPU times: user 1min 52s, sys: 11.7 s, total: 2min 4s
+Wall time: 3min 22s
+
+```
+
+恢复最新的检查点。
+
+```py
+checkpoint.restore(tf.train.latest_checkpoint(checkpoint_dir)) 
+```
+
+```py
+<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7f0118537668>
+
+```
+
+## 创建 GIF
+
+```py
+# 使用 epoch 数生成单张图片
+def display_image(epoch_no):
+  return PIL.Image.open('image_at_epoch_{:04d}.png'.format(epoch_no)) 
+```
+
+```py
+display_image(EPOCHS) 
+```
+
+![png](img/c12f3797e75b6aa8bdc206f4b91344c1.png)
+
+使用训练过程中生成的图片通过 `imageio` 生成动态 gif
+
+```py
+anim_file = 'dcgan.gif'
+
+with imageio.get_writer(anim_file, mode='I') as writer:
+  filenames = glob.glob('image*.png')
+  filenames = sorted(filenames)
+  last = -1
+  for i,filename in enumerate(filenames):
+    frame = 2*(i**0.5)
+    if round(frame) > round(last):
+      last = frame
+    else:
+      continue
+    image = imageio.imread(filename)
+    writer.append_data(image)
+  image = imageio.imread(filename)
+  writer.append_data(image)
+
+import IPython
+if IPython.version_info > (6,2,0,''):
+  display.Image(filename=anim_file) 
+```
+
+如果您正在使用 Colab，您可以通过如下代码下载动画：
+
+```py
+try:
+  from google.colab import files
+except ImportError:
+   pass
+else:
+  files.download(anim_file) 
+```
+
+## 下一步
+
+本教程展示了实现和训练 GAN 模型所需的全部必要代码。接下来，您可能想尝试其他数据集，例如大规模名人面部属性（CelebA）数据集 [在 Kaggle 上获取](https://www.kaggle.com/jessicali9530/celeba-dataset)。要了解更多关于 GANs 的信息，我们推荐参阅 [NIPS 2016 教程： 生成对抗网络](https://arxiv.org/abs/1701.00160)。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/063.md b/Tensorflow/TensorFlow2.0/063.md
new file mode 100644
index 00000000..57a5ef65
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/063.md
@@ -0,0 +1,703 @@
+# Pix2Pix
+
+> 原文：[https://tensorflow.google.cn/tutorials/generative/pix2pix](https://tensorflow.google.cn/tutorials/generative/pix2pix)
+
+This notebook demonstrates image to image translation using conditional GAN's, as described in [Image-to-Image Translation with Conditional Adversarial Networks](https://arxiv.org/abs/1611.07004). Using this technique we can colorize black and white photos, convert google maps to google earth, etc. Here, we convert building facades to real buildings.
+
+In example, we will use the [CMP Facade Database](http://cmp.felk.cvut.cz/%7Etylecr1/facade/), helpfully provided by the [Center for Machine Perception](http://cmp.felk.cvut.cz/) at the [Czech Technical University in Prague](https://www.cvut.cz/). To keep our example short, we will use a preprocessed [copy](https://people.eecs.berkeley.edu/%7Etinghuiz/projects/pix2pix/datasets/) of this dataset, created by the authors of the [paper](https://arxiv.org/abs/1611.07004) above.
+
+Each epoch takes around 15 seconds on a single V100 GPU.
+
+Below is the output generated after training the model for 200 epochs.
+
+![sample output_1](img/e297781397cdc97e304b45625f7ae423.png) ![sample output_2](img/7f05b53be9225270c3955654d7d465de.png)
+
+## Import TensorFlow and other libraries
+
+```py
+import tensorflow as tf
+
+import os
+import time
+
+from matplotlib import pyplot as plt
+from IPython import display 
+```
+
+```py
+pip install -q -U tensorboard
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+## Load the dataset
+
+You can download this dataset and similar datasets from [here](https://people.eecs.berkeley.edu/%7Etinghuiz/projects/pix2pix/datasets). As mentioned in the [paper](https://arxiv.org/abs/1611.07004) we apply random jittering and mirroring to the training dataset.
+
+*   In random jittering, the image is resized to `286 x 286` and then randomly cropped to `256 x 256`
+*   In random mirroring, the image is randomly flipped horizontally i.e left to right.
+
+```py
+_URL = 'https://people.eecs.berkeley.edu/~tinghuiz/projects/pix2pix/datasets/facades.tar.gz'
+
+path_to_zip = tf.keras.utils.get_file('facades.tar.gz',
+                                      origin=_URL,
+                                      extract=True)
+
+PATH = os.path.join(os.path.dirname(path_to_zip), 'facades/') 
+```
+
+```py
+Downloading data from https://people.eecs.berkeley.edu/~tinghuiz/projects/pix2pix/datasets/facades.tar.gz
+30171136/30168306 [==============================] - 2s 0us/step
+
+```
+
+```py
+BUFFER_SIZE = 400
+BATCH_SIZE = 1
+IMG_WIDTH = 256
+IMG_HEIGHT = 256 
+```
+
+```py
+def load(image_file):
+  image = tf.io.read_file(image_file)
+  image = tf.image.decode_jpeg(image)
+
+  w = tf.shape(image)[1]
+
+  w = w // 2
+  real_image = image[:, :w, :]
+  input_image = image[:, w:, :]
+
+  input_image = tf.cast(input_image, tf.float32)
+  real_image = tf.cast(real_image, tf.float32)
+
+  return input_image, real_image 
+```
+
+```py
+inp, re = load(PATH+'train/100.jpg')
+# casting to int for matplotlib to show the image
+plt.figure()
+plt.imshow(inp/255.0)
+plt.figure()
+plt.imshow(re/255.0) 
+```
+
+```py
+<matplotlib.image.AxesImage at 0x7f5576b28550>
+
+```
+
+![png](img/52194b6e27c77c651d0f3c56066448f5.png)
+
+![png](img/ab876a0a7878b27ea0658f95d96f1ddb.png)
+
+```py
+def resize(input_image, real_image, height, width):
+  input_image = tf.image.resize(input_image, [height, width],
+                                method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
+  real_image = tf.image.resize(real_image, [height, width],
+                               method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
+
+  return input_image, real_image 
+```
+
+```py
+def random_crop(input_image, real_image):
+  stacked_image = tf.stack([input_image, real_image], axis=0)
+  cropped_image = tf.image.random_crop(
+      stacked_image, size=[2, IMG_HEIGHT, IMG_WIDTH, 3])
+
+  return cropped_image[0], cropped_image[1] 
+```
+
+```py
+# normalizing the images to [-1, 1]
+
+def normalize(input_image, real_image):
+  input_image = (input_image / 127.5) - 1
+  real_image = (real_image / 127.5) - 1
+
+  return input_image, real_image 
+```
+
+```py
+@tf.function()
+def random_jitter(input_image, real_image):
+  # resizing to 286 x 286 x 3
+  input_image, real_image = resize(input_image, real_image, 286, 286)
+
+  # randomly cropping to 256 x 256 x 3
+  input_image, real_image = random_crop(input_image, real_image)
+
+  if tf.random.uniform(()) > 0.5:
+    # random mirroring
+    input_image = tf.image.flip_left_right(input_image)
+    real_image = tf.image.flip_left_right(real_image)
+
+  return input_image, real_image 
+```
+
+As you can see in the images below that they are going through random jittering Random jittering as described in the paper is to
+
+1.  Resize an image to bigger height and width
+2.  Randomly crop to the target size
+3.  Randomly flip the image horizontally
+
+```py
+plt.figure(figsize=(6, 6))
+for i in range(4):
+  rj_inp, rj_re = random_jitter(inp, re)
+  plt.subplot(2, 2, i+1)
+  plt.imshow(rj_inp/255.0)
+  plt.axis('off')
+plt.show() 
+```
+
+![png](img/be737507a3c4409c7dc8aa33d2196e15.png)
+
+```py
+def load_image_train(image_file):
+  input_image, real_image = load(image_file)
+  input_image, real_image = random_jitter(input_image, real_image)
+  input_image, real_image = normalize(input_image, real_image)
+
+  return input_image, real_image 
+```
+
+```py
+def load_image_test(image_file):
+  input_image, real_image = load(image_file)
+  input_image, real_image = resize(input_image, real_image,
+                                   IMG_HEIGHT, IMG_WIDTH)
+  input_image, real_image = normalize(input_image, real_image)
+
+  return input_image, real_image 
+```
+
+## Input Pipeline
+
+```py
+train_dataset = tf.data.Dataset.list_files(PATH+'train/*.jpg')
+train_dataset = train_dataset.map(load_image_train,
+                                  num_parallel_calls=tf.data.experimental.AUTOTUNE)
+train_dataset = train_dataset.shuffle(BUFFER_SIZE)
+train_dataset = train_dataset.batch(BATCH_SIZE) 
+```
+
+```py
+test_dataset = tf.data.Dataset.list_files(PATH+'test/*.jpg')
+test_dataset = test_dataset.map(load_image_test)
+test_dataset = test_dataset.batch(BATCH_SIZE) 
+```
+
+## Build the Generator
+
+*   The architecture of generator is a modified U-Net.
+*   Each block in the encoder is (Conv -> Batchnorm -> Leaky ReLU)
+*   Each block in the decoder is (Transposed Conv -> Batchnorm -> Dropout(applied to the first 3 blocks) -> ReLU)
+*   There are skip connections between the encoder and decoder (as in U-Net).
+
+```py
+OUTPUT_CHANNELS = 3 
+```
+
+```py
+def downsample(filters, size, apply_batchnorm=True):
+  initializer = tf.random_normal_initializer(0., 0.02)
+
+  result = tf.keras.Sequential()
+  result.add(
+      tf.keras.layers.Conv2D(filters, size, strides=2, padding='same',
+                             kernel_initializer=initializer, use_bias=False))
+
+  if apply_batchnorm:
+    result.add(tf.keras.layers.BatchNormalization())
+
+  result.add(tf.keras.layers.LeakyReLU())
+
+  return result 
+```
+
+```py
+down_model = downsample(3, 4)
+down_result = down_model(tf.expand_dims(inp, 0))
+print (down_result.shape) 
+```
+
+```py
+(1, 128, 128, 3)
+
+```
+
+```py
+def upsample(filters, size, apply_dropout=False):
+  initializer = tf.random_normal_initializer(0., 0.02)
+
+  result = tf.keras.Sequential()
+  result.add(
+    tf.keras.layers.Conv2DTranspose(filters, size, strides=2,
+                                    padding='same',
+                                    kernel_initializer=initializer,
+                                    use_bias=False))
+
+  result.add(tf.keras.layers.BatchNormalization())
+
+  if apply_dropout:
+      result.add(tf.keras.layers.Dropout(0.5))
+
+  result.add(tf.keras.layers.ReLU())
+
+  return result 
+```
+
+```py
+up_model = upsample(3, 4)
+up_result = up_model(down_result)
+print (up_result.shape) 
+```
+
+```py
+(1, 256, 256, 3)
+
+```
+
+```py
+def Generator():
+  inputs = tf.keras.layers.Input(shape=[256,256,3])
+
+  down_stack = [
+    downsample(64, 4, apply_batchnorm=False), # (bs, 128, 128, 64)
+    downsample(128, 4), # (bs, 64, 64, 128)
+    downsample(256, 4), # (bs, 32, 32, 256)
+    downsample(512, 4), # (bs, 16, 16, 512)
+    downsample(512, 4), # (bs, 8, 8, 512)
+    downsample(512, 4), # (bs, 4, 4, 512)
+    downsample(512, 4), # (bs, 2, 2, 512)
+    downsample(512, 4), # (bs, 1, 1, 512)
+  ]
+
+  up_stack = [
+    upsample(512, 4, apply_dropout=True), # (bs, 2, 2, 1024)
+    upsample(512, 4, apply_dropout=True), # (bs, 4, 4, 1024)
+    upsample(512, 4, apply_dropout=True), # (bs, 8, 8, 1024)
+    upsample(512, 4), # (bs, 16, 16, 1024)
+    upsample(256, 4), # (bs, 32, 32, 512)
+    upsample(128, 4), # (bs, 64, 64, 256)
+    upsample(64, 4), # (bs, 128, 128, 128)
+  ]
+
+  initializer = tf.random_normal_initializer(0., 0.02)
+  last = tf.keras.layers.Conv2DTranspose(OUTPUT_CHANNELS, 4,
+                                         strides=2,
+                                         padding='same',
+                                         kernel_initializer=initializer,
+                                         activation='tanh') # (bs, 256, 256, 3)
+
+  x = inputs
+
+  # Downsampling through the model
+  skips = []
+  for down in down_stack:
+    x = down(x)
+    skips.append(x)
+
+  skips = reversed(skips[:-1])
+
+  # Upsampling and establishing the skip connections
+  for up, skip in zip(up_stack, skips):
+    x = up(x)
+    x = tf.keras.layers.Concatenate()([x, skip])
+
+  x = last(x)
+
+  return tf.keras.Model(inputs=inputs, outputs=x) 
+```
+
+```py
+generator = Generator()
+tf.keras.utils.plot_model(generator, show_shapes=True, dpi=64) 
+```
+
+![png](img/027fe3c7c1b2c8f4ba851311692e3d91.png)
+
+```py
+gen_output = generator(inp[tf.newaxis,...], training=False)
+plt.imshow(gen_output[0,...]) 
+```
+
+```py
+Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for integers).
+
+<matplotlib.image.AxesImage at 0x7f54c85167b8>
+
+```
+
+![png](img/e4d27c794147e0649dec40c1e673fa3d.png)
+
+*   **Generator loss**
+    *   It is a sigmoid cross entropy loss of the generated images and an **array of ones**.
+    *   The [paper](https://arxiv.org/abs/1611.07004) also includes L1 loss which is MAE (mean absolute error) between the generated image and the target image.
+    *   This allows the generated image to become structurally similar to the target image.
+    *   The formula to calculate the total generator loss = gan_loss + LAMBDA * l1_loss, where LAMBDA = 100\. This value was decided by the authors of the [paper](https://arxiv.org/abs/1611.07004).
+
+The training procedure for the generator is shown below:
+
+```py
+LAMBDA = 100 
+```
+
+```py
+def generator_loss(disc_generated_output, gen_output, target):
+  gan_loss = loss_object(tf.ones_like(disc_generated_output), disc_generated_output)
+
+  # mean absolute error
+  l1_loss = tf.reduce_mean(tf.abs(target - gen_output))
+
+  total_gen_loss = gan_loss + (LAMBDA * l1_loss)
+
+  return total_gen_loss, gan_loss, l1_loss 
+```
+
+![Generator Update Image](img/b7fd03ac59129ba2515cf59b292f3296.png)
+
+## Build the Discriminator
+
+*   The Discriminator is a PatchGAN.
+*   Each block in the discriminator is (Conv -> BatchNorm -> Leaky ReLU)
+*   The shape of the output after the last layer is (batch_size, 30, 30, 1)
+*   Each 30x30 patch of the output classifies a 70x70 portion of the input image (such an architecture is called a PatchGAN).
+*   Discriminator receives 2 inputs.
+    *   Input image and the target image, which it should classify as real.
+    *   Input image and the generated image (output of generator), which it should classify as fake.
+    *   We concatenate these 2 inputs together in the code (`tf.concat([inp, tar], axis=-1)`)
+
+```py
+def Discriminator():
+  initializer = tf.random_normal_initializer(0., 0.02)
+
+  inp = tf.keras.layers.Input(shape=[256, 256, 3], name='input_image')
+  tar = tf.keras.layers.Input(shape=[256, 256, 3], name='target_image')
+
+  x = tf.keras.layers.concatenate([inp, tar]) # (bs, 256, 256, channels*2)
+
+  down1 = downsample(64, 4, False)(x) # (bs, 128, 128, 64)
+  down2 = downsample(128, 4)(down1) # (bs, 64, 64, 128)
+  down3 = downsample(256, 4)(down2) # (bs, 32, 32, 256)
+
+  zero_pad1 = tf.keras.layers.ZeroPadding2D()(down3) # (bs, 34, 34, 256)
+  conv = tf.keras.layers.Conv2D(512, 4, strides=1,
+                                kernel_initializer=initializer,
+                                use_bias=False)(zero_pad1) # (bs, 31, 31, 512)
+
+  batchnorm1 = tf.keras.layers.BatchNormalization()(conv)
+
+  leaky_relu = tf.keras.layers.LeakyReLU()(batchnorm1)
+
+  zero_pad2 = tf.keras.layers.ZeroPadding2D()(leaky_relu) # (bs, 33, 33, 512)
+
+  last = tf.keras.layers.Conv2D(1, 4, strides=1,
+                                kernel_initializer=initializer)(zero_pad2) # (bs, 30, 30, 1)
+
+  return tf.keras.Model(inputs=[inp, tar], outputs=last) 
+```
+
+```py
+discriminator = Discriminator()
+tf.keras.utils.plot_model(discriminator, show_shapes=True, dpi=64) 
+```
+
+![png](img/0425284f7bd595a686480abe82721a04.png)
+
+```py
+disc_out = discriminator([inp[tf.newaxis,...], gen_output], training=False)
+plt.imshow(disc_out[0,...,-1], vmin=-20, vmax=20, cmap='RdBu_r')
+plt.colorbar() 
+```
+
+```py
+<matplotlib.colorbar.Colorbar at 0x7f54c83a3fd0>
+
+```
+
+![png](img/644c999529792fb810f213e660e582b8.png)
+
+**Discriminator loss**
+
+*   The discriminator loss function takes 2 inputs; **real images, generated images**
+*   real_loss is a sigmoid cross entropy loss of the **real images** and an **array of ones(since these are the real images)**
+*   generated_loss is a sigmoid cross entropy loss of the **generated images** and an **array of zeros(since these are the fake images)**
+*   Then the total_loss is the sum of real_loss and the generated_loss
+
+```py
+loss_object = tf.keras.losses.BinaryCrossentropy(from_logits=True) 
+```
+
+```py
+def discriminator_loss(disc_real_output, disc_generated_output):
+  real_loss = loss_object(tf.ones_like(disc_real_output), disc_real_output)
+
+  generated_loss = loss_object(tf.zeros_like(disc_generated_output), disc_generated_output)
+
+  total_disc_loss = real_loss + generated_loss
+
+  return total_disc_loss 
+```
+
+The training procedure for the discriminator is shown below.
+
+To learn more about the architecture and the hyperparameters you can refer the [paper](https://arxiv.org/abs/1611.07004).
+
+![Discriminator Update Image](img/a49dab0e9e9ab0a58b2928fb2760dab6.png)
+
+## Define the Optimizers and Checkpoint-saver
+
+```py
+generator_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5)
+discriminator_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5) 
+```
+
+```py
+checkpoint_dir = './training_checkpoints'
+checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt")
+checkpoint = tf.train.Checkpoint(generator_optimizer=generator_optimizer,
+                                 discriminator_optimizer=discriminator_optimizer,
+                                 generator=generator,
+                                 discriminator=discriminator) 
+```
+
+## Generate Images
+
+Write a function to plot some images during training.
+
+*   We pass images from the test dataset to the generator.
+*   The generator will then translate the input image into the output.
+*   Last step is to plot the predictions and **voila!**
+
+**Note:** The `training=True` is intentional here since we want the batch statistics while running the model on the test dataset. If we use training=False, we will get the accumulated statistics learned from the training dataset (which we don't want)
+
+```py
+def generate_images(model, test_input, tar):
+  prediction = model(test_input, training=True)
+  plt.figure(figsize=(15,15))
+
+  display_list = [test_input[0], tar[0], prediction[0]]
+  title = ['Input Image', 'Ground Truth', 'Predicted Image']
+
+  for i in range(3):
+    plt.subplot(1, 3, i+1)
+    plt.title(title[i])
+    # getting the pixel values between [0, 1] to plot it.
+    plt.imshow(display_list[i] * 0.5 + 0.5)
+    plt.axis('off')
+  plt.show() 
+```
+
+```py
+for example_input, example_target in test_dataset.take(1):
+  generate_images(generator, example_input, example_target) 
+```
+
+![png](img/a2d79e6f20ade2372271c76afeaca800.png)
+
+## Training
+
+*   For each example input generate an output.
+*   The discriminator receives the input_image and the generated image as the first input. The second input is the input_image and the target_image.
+*   Next, we calculate the generator and the discriminator loss.
+*   Then, we calculate the gradients of loss with respect to both the generator and the discriminator variables(inputs) and apply those to the optimizer.
+*   Then log the losses to TensorBoard.
+
+```py
+EPOCHS = 150 
+```
+
+```py
+import datetime
+log_dir="logs/"
+
+summary_writer = tf.summary.create_file_writer(
+  log_dir + "fit/" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S")) 
+```
+
+```py
+@tf.function
+def train_step(input_image, target, epoch):
+  with tf.GradientTape() as gen_tape, tf.GradientTape() as disc_tape:
+    gen_output = generator(input_image, training=True)
+
+    disc_real_output = discriminator([input_image, target], training=True)
+    disc_generated_output = discriminator([input_image, gen_output], training=True)
+
+    gen_total_loss, gen_gan_loss, gen_l1_loss = generator_loss(disc_generated_output, gen_output, target)
+    disc_loss = discriminator_loss(disc_real_output, disc_generated_output)
+
+  generator_gradients = gen_tape.gradient(gen_total_loss,
+                                          generator.trainable_variables)
+  discriminator_gradients = disc_tape.gradient(disc_loss,
+                                               discriminator.trainable_variables)
+
+  generator_optimizer.apply_gradients(zip(generator_gradients,
+                                          generator.trainable_variables))
+  discriminator_optimizer.apply_gradients(zip(discriminator_gradients,
+                                              discriminator.trainable_variables))
+
+  with summary_writer.as_default():
+    tf.summary.scalar('gen_total_loss', gen_total_loss, step=epoch)
+    tf.summary.scalar('gen_gan_loss', gen_gan_loss, step=epoch)
+    tf.summary.scalar('gen_l1_loss', gen_l1_loss, step=epoch)
+    tf.summary.scalar('disc_loss', disc_loss, step=epoch) 
+```
+
+The actual training loop:
+
+*   Iterates over the number of epochs.
+*   On each epoch it clears the display, and runs `generate_images` to show it's progress.
+*   On each epoch it iterates over the training dataset, printing a '.' for each example.
+*   It saves a checkpoint every 20 epochs.
+
+```py
+def fit(train_ds, epochs, test_ds):
+  for epoch in range(epochs):
+    start = time.time()
+
+    display.clear_output(wait=True)
+
+    for example_input, example_target in test_ds.take(1):
+      generate_images(generator, example_input, example_target)
+    print("Epoch: ", epoch)
+
+    # Train
+    for n, (input_image, target) in train_ds.enumerate():
+      print('.', end='')
+      if (n+1) % 100 == 0:
+        print()
+      train_step(input_image, target, epoch)
+    print()
+
+    # saving (checkpoint) the model every 20 epochs
+    if (epoch + 1) % 20 == 0:
+      checkpoint.save(file_prefix = checkpoint_prefix)
+
+    print ('Time taken for epoch {} is {} sec\n'.format(epoch + 1,
+                                                        time.time()-start))
+  checkpoint.save(file_prefix = checkpoint_prefix) 
+```
+
+This training loop saves logs you can easily view in TensorBoard to monitor the training progress. Working locally you would launch a separate tensorboard process. In a notebook, if you want to monitor with TensorBoard it's easiest to launch the viewer before starting the training.
+
+To launch the viewer paste the following into a code-cell:
+
+```py
+%load_ext tensorboard
+%tensorboard --logdir {log_dir} 
+```
+
+Now run the training loop:
+
+```py
+fit(train_dataset, EPOCHS, test_dataset) 
+```
+
+![png](img/4c8ef6a2c8f0548a9f5bb182b8d3de01.png)
+
+```py
+Epoch:  149
+....................................................................................................
+....................................................................................................
+....................................................................................................
+....................................................................................................
+
+Time taken for epoch 150 is 16.14578342437744 sec
+
+```
+
+If you want to share the TensorBoard results *publicly* you can upload the logs to [TensorBoard.dev](https://tensorboard.dev/) by copying the following into a code-cell.
+
+**Note:** This requires a Google account.
+
+```py
+tensorboard dev upload --logdir  {log_dir}
+
+```
+
+**Caution:** This command does not terminate. It's designed to continuously upload the results of long-running experiments. Once your data is uploaded you need to stop it using the "interrupt execution" option in your notebook tool.
+
+You can view the [results of a previous run](https://tensorboard.dev/experiment/lZ0C6FONROaUMfjYkVyJqw) of this notebook on [TensorBoard.dev](https://tensorboard.dev/).
+
+TensorBoard.dev is a managed experience for hosting, tracking, and sharing ML experiments with everyone.
+
+It can also included inline using an `<iframe>`:
+
+```py
+display.IFrame(
+    src="https://tensorboard.dev/experiment/lZ0C6FONROaUMfjYkVyJqw",
+    width="100%",
+    height="1000px") 
+```
+
+<devsite-iframe><iframe src="/tutorials/generative/pix2pix_528ecc0a7230cf0eefd54a1c1b455500df0787fc66f9b1de7498d3e87694f029.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+Interpreting the logs from a GAN is more subtle than a simple classification or regression model. Things to look for::
+
+*   Check that neither model has "won". If either the `gen_gan_loss` or the `disc_loss` gets very low it's an indicator that this model is dominating the other, and you are not successfully training the combined model.
+*   The value `log(2) = 0.69` is a good reference point for these losses, as it indicates a perplexity of 2: That the discriminator is on average equally uncertain about the two options.
+*   For the `disc_loss` a value below `0.69` means the discriminator is doing better than random, on the combined set of real+generated images.
+*   For the `gen_gan_loss` a value below `0.69` means the generator i doing better than random at foolding the descriminator.
+*   As training progresses the `gen_l1_loss` should go down.
+
+## Restore the latest checkpoint and test
+
+```py
+ls {checkpoint_dir}
+
+```
+
+```py
+checkpoint          ckpt-5.data-00000-of-00001
+ckpt-1.data-00000-of-00001  ckpt-5.index
+ckpt-1.index            ckpt-6.data-00000-of-00001
+ckpt-2.data-00000-of-00001  ckpt-6.index
+ckpt-2.index            ckpt-7.data-00000-of-00001
+ckpt-3.data-00000-of-00001  ckpt-7.index
+ckpt-3.index            ckpt-8.data-00000-of-00001
+ckpt-4.data-00000-of-00001  ckpt-8.index
+ckpt-4.index
+
+```
+
+```py
+# restoring the latest checkpoint in checkpoint_dir
+checkpoint.restore(tf.train.latest_checkpoint(checkpoint_dir)) 
+```
+
+```py
+<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7f4fce701160>
+
+```
+
+## Generate using test dataset
+
+```py
+# Run the trained model on a few examples from the test dataset
+for inp, tar in test_dataset.take(5):
+  generate_images(generator, inp, tar) 
+```
+
+![png](img/21b3b7303748422d35a6212f940d399c.png)
+
+![png](img/711ebb2cc10e3bb88f77a6eb89fac014.png)
+
+![png](img/7138c243e1e2c00466be2191f6395597.png)
+
+![png](img/a83182d7f6b11d76dd2d428db01ade58.png)
+
+![png](img/5f0049e4eda5b1689106731ac4d622f6.png)
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/064.md b/Tensorflow/TensorFlow2.0/064.md
new file mode 100644
index 00000000..a0472e86
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/064.md
@@ -0,0 +1,499 @@
+# CycleGAN
+
+> 原文：[https://tensorflow.google.cn/tutorials/generative/cyclegan](https://tensorflow.google.cn/tutorials/generative/cyclegan)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+本笔记演示了使用条件 GAN 进行的未配对图像到图像转换，如[使用循环一致的对抗网络进行未配对图像到图像转换](https://arxiv.org/abs/1703.10593) 中所述，也称之为 CycleGAN。论文提出了一种可以捕捉图像域特征并找出如何将这些特征转换为另一个图像域的方法，而无需任何成对的训练样本。
+
+本笔记假定您熟悉 Pix2Pix，您可以在 [Pix2Pix 教程](https://tensorflow.google.cn/tutorials/generative/pix2pix)中了解有关它的信息。CycleGAN 的代码与其相似，主要区别在于额外的损失函数，以及非配对训练数据的使用。
+
+CycleGAN 使用循环一致损失来使训练过程无需配对数据。换句话说，它可以从一个域转换到另一个域，而不需要在源域与目标域之间进行一对一映射。
+
+这为完成许多有趣的任务开辟了可能性，例如照片增强、图片着色、风格迁移等。您所需要的只是源数据集和目标数据集（仅仅是图片目录）
+
+![输出图像 1](img/921588a88d035dfd280c98f420033345.png) ![输出图像 2](img/f89cb56c5d3c77f56118a42ca7fb3936.png)
+
+## 设定输入管线
+
+安装 [tensorflow_examples](https://github.com/tensorflow/examples) 包，以导入生成器和判别器。
+
+```py
+pip install -q git+https://github.com/tensorflow/examples.git
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+import tensorflow as tf 
+```
+
+```py
+import tensorflow_datasets as tfds
+from tensorflow_examples.models.pix2pix import pix2pix
+
+import os
+import time
+import matplotlib.pyplot as plt
+from IPython.display import clear_output
+
+tfds.disable_progress_bar()
+AUTOTUNE = tf.data.experimental.AUTOTUNE 
+```
+
+## 输入管线
+
+本教程训练一个模型，以将普通马图片转换为斑马图片。您可以在[此处](https://tensorflow.google.cn/datasets/datasets#cycle_gan)获取该数据集以及类似数据集。
+
+如[论文](https://arxiv.org/abs/1703.10593)所述，将随机抖动和镜像应用到训练集。这是一些避免过拟合的图像增强技术。
+
+这类似于 [pix2pix](https://tensorflow.google.cn/tutorials/generative/pix2pix#load_the_dataset) 中所做的工作。
+
+*   在随机抖动中，图片大小调整为 `286 x 286`，随后被随机裁剪为 `256 x 256`。
+*   在随机镜像中，图片会从左到右随机翻转。
+
+```py
+dataset, metadata = tfds.load('cycle_gan/horse2zebra',
+                              with_info=True, as_supervised=True)
+
+train_horses, train_zebras = dataset['trainA'], dataset['trainB']
+test_horses, test_zebras = dataset['testA'], dataset['testB'] 
+```
+
+```py
+Downloading and preparing dataset cycle_gan/horse2zebra/2.0.0 (download: 111.45 MiB, generated: Unknown size, total: 111.45 MiB) to /home/kbuilder/tensorflow_datasets/cycle_gan/horse2zebra/2.0.0...
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/cycle_gan/horse2zebra/2.0.0.incompleteNSW88L/cycle_gan-trainA.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/cycle_gan/horse2zebra/2.0.0.incompleteNSW88L/cycle_gan-trainB.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/cycle_gan/horse2zebra/2.0.0.incompleteNSW88L/cycle_gan-testA.tfrecord
+Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/cycle_gan/horse2zebra/2.0.0.incompleteNSW88L/cycle_gan-testB.tfrecord
+Dataset cycle_gan downloaded and prepared to /home/kbuilder/tensorflow_datasets/cycle_gan/horse2zebra/2.0.0\. Subsequent calls will reuse this data.
+
+```
+
+```py
+BUFFER_SIZE = 1000
+BATCH_SIZE = 1
+IMG_WIDTH = 256
+IMG_HEIGHT = 256 
+```
+
+```py
+def random_crop(image):
+  cropped_image = tf.image.random_crop(
+      image, size=[IMG_HEIGHT, IMG_WIDTH, 3])
+
+  return cropped_image 
+```
+
+```py
+# 将图像归一化到区间 [-1, 1] 内。
+def normalize(image):
+  image = tf.cast(image, tf.float32)
+  image = (image / 127.5) - 1
+  return image 
+```
+
+```py
+def random_jitter(image):
+  # 调整大小为 286 x 286 x 3
+  image = tf.image.resize(image, [286, 286],
+                          method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
+
+  # 随机裁剪到 256 x 256 x 3
+  image = random_crop(image)
+
+  # 随机镜像
+  image = tf.image.random_flip_left_right(image)
+
+  return image 
+```
+
+```py
+def preprocess_image_train(image, label):
+  image = random_jitter(image)
+  image = normalize(image)
+  return image 
+```
+
+```py
+def preprocess_image_test(image, label):
+  image = normalize(image)
+  return image 
+```
+
+```py
+train_horses = train_horses.map(
+    preprocess_image_train, num_parallel_calls=AUTOTUNE).cache().shuffle(
+    BUFFER_SIZE).batch(1)
+
+train_zebras = train_zebras.map(
+    preprocess_image_train, num_parallel_calls=AUTOTUNE).cache().shuffle(
+    BUFFER_SIZE).batch(1)
+
+test_horses = test_horses.map(
+    preprocess_image_test, num_parallel_calls=AUTOTUNE).cache().shuffle(
+    BUFFER_SIZE).batch(1)
+
+test_zebras = test_zebras.map(
+    preprocess_image_test, num_parallel_calls=AUTOTUNE).cache().shuffle(
+    BUFFER_SIZE).batch(1) 
+```
+
+```py
+sample_horse = next(iter(train_horses))
+sample_zebra = next(iter(train_zebras)) 
+```
+
+```py
+plt.subplot(121)
+plt.title('Horse')
+plt.imshow(sample_horse[0] * 0.5 + 0.5)
+
+plt.subplot(122)
+plt.title('Horse with random jitter')
+plt.imshow(random_jitter(sample_horse[0]) * 0.5 + 0.5) 
+```
+
+```py
+<matplotlib.image.AxesImage at 0x7f5a600b8048>
+
+```
+
+![png](img/6b843e3001e6a49928fc35d8af4c843d.png)
+
+```py
+plt.subplot(121)
+plt.title('Zebra')
+plt.imshow(sample_zebra[0] * 0.5 + 0.5)
+
+plt.subplot(122)
+plt.title('Zebra with random jitter')
+plt.imshow(random_jitter(sample_zebra[0]) * 0.5 + 0.5) 
+```
+
+```py
+<matplotlib.image.AxesImage at 0x7f5a101663c8>
+
+```
+
+![png](img/34e85547487e77a52b9e494a05fdc8f8.png)
+
+## 导入并重用 Pix2Pix 模型
+
+通过安装的 [tensorflow_examples](https://github.com/tensorflow/examples) 包导入 [Pix2Pix](https://github.com/tensorflow/examples/blob/master/tensorflow_examples/models/pix2pix/pix2pix.py) 中的生成器和判别器。
+
+本教程中使用模型体系结构与 [pix2pix](https://github.com/tensorflow/examples/blob/master/tensorflow_examples/models/pix2pix/pix2pix.py) 中所使用的非常相似。一些区别在于：
+
+*   Cyclegan 使用 [instance normalization（实例归一化）](https://arxiv.org/abs/1607.08022)而不是 [batch normalization （批归一化）](https://arxiv.org/abs/1502.03167)。
+*   [CycleGAN 论文](https://arxiv.org/abs/1703.10593)使用一种基于 `resnet` 的改进生成器。简单起见，本教程使用的是改进的 `unet` 生成器。
+
+这里训练了两个生成器（G 和 F）以及两个判别器（X 和 Y）。
+
+*   生成器 `G` 学习将图片 `X` 转换为 `Y`。 $(G: X -> Y)$
+*   生成器 `F` 学习将图片 `Y` 转换为 `X`。 $(F: Y -> X)$
+*   判别器 `D_X` 学习区分图片 `X` 与生成的图片 `X` (`F(Y)`)。
+*   判别器 `D_Y` 学习区分图片 `Y` 与生成的图片 `Y` (`G(X)`)。
+
+![Cyclegan 模型](img/141e262e42c195dfe1174f7824ff4c3c.png)
+
+```py
+OUTPUT_CHANNELS = 3
+
+generator_g = pix2pix.unet_generator(OUTPUT_CHANNELS, norm_type='instancenorm')
+generator_f = pix2pix.unet_generator(OUTPUT_CHANNELS, norm_type='instancenorm')
+
+discriminator_x = pix2pix.discriminator(norm_type='instancenorm', target=False)
+discriminator_y = pix2pix.discriminator(norm_type='instancenorm', target=False) 
+```
+
+```py
+to_zebra = generator_g(sample_horse)
+to_horse = generator_f(sample_zebra)
+plt.figure(figsize=(8, 8))
+contrast = 8
+
+imgs = [sample_horse, to_zebra, sample_zebra, to_horse]
+title = ['Horse', 'To Zebra', 'Zebra', 'To Horse']
+
+for i in range(len(imgs)):
+  plt.subplot(2, 2, i+1)
+  plt.title(title[i])
+  if i % 2 == 0:
+    plt.imshow(imgs[i][0] * 0.5 + 0.5)
+  else:
+    plt.imshow(imgs[i][0] * 0.5 * contrast + 0.5)
+plt.show() 
+```
+
+```py
+WARNING:matplotlib.image:Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for integers).
+WARNING:matplotlib.image:Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for integers).
+
+```
+
+![png](img/e2143b6a00159c480e078bcbc7c8c72b.png)
+
+```py
+plt.figure(figsize=(8, 8))
+
+plt.subplot(121)
+plt.title('Is a real zebra?')
+plt.imshow(discriminator_y(sample_zebra)[0, ..., -1], cmap='RdBu_r')
+
+plt.subplot(122)
+plt.title('Is a real horse?')
+plt.imshow(discriminator_x(sample_horse)[0, ..., -1], cmap='RdBu_r')
+
+plt.show() 
+```
+
+![png](img/6637dace2ef4faea4a327361aec7c4ae.png)
+
+## 损失函数
+
+在 CycleGAN 中，没有可训练的成对数据，因此无法保证输入 `x` 和 目标 `y` 数据对在训练期间是有意义的。所以为了强制网络学习正确的映射，作者提出了循环一致损失。
+
+判别器损失和生成器损失和 [pix2pix](https://google.tensorflow.cn/tutorials/generative/pix2pix#define_the_loss_functions_and_the_optimizer) 中所使用的类似。
+
+```py
+LAMBDA = 10 
+```
+
+```py
+loss_obj = tf.keras.losses.BinaryCrossentropy(from_logits=True) 
+```
+
+```py
+def discriminator_loss(real, generated):
+  real_loss = loss_obj(tf.ones_like(real), real)
+
+  generated_loss = loss_obj(tf.zeros_like(generated), generated)
+
+  total_disc_loss = real_loss + generated_loss
+
+  return total_disc_loss * 0.5 
+```
+
+```py
+def generator_loss(generated):
+  return loss_obj(tf.ones_like(generated), generated) 
+```
+
+循环一致意味着结果应接近原始输出。例如，将一句英文译为法文，随后再从法文翻译回英文，最终的结果句应与原始句输入相同。
+
+在循环一致损失中，
+
+*   图片 $X$ 通过生成器 $G$ 传递，该生成器生成图片 $\hat{Y}$。
+*   生成的图片 $\hat{Y}$ 通过生成器 $F$ 传递，循环生成图片 $\hat{X}$。
+*   在 $X$ 和 $\hat{X}$ 之间计算平均绝对误差。
+
+$$forward\ cycle\ consistency\ loss: X -> G(X) -> F(G(X)) \sim \hat{X}$$$$backward\ cycle\ consistency\ loss: Y -> F(Y) -> G(F(Y)) \sim \hat{Y}$$
+
+![循环损失](img/4aa12ddc0a8f44acc45b9ed9dc9055bf.png)
+
+```py
+def calc_cycle_loss(real_image, cycled_image):
+  loss1 = tf.reduce_mean(tf.abs(real_image - cycled_image))
+
+  return LAMBDA * loss1 
+```
+
+如上所示，生成器 $G$ 负责将图片 $X$ 转换为 $Y$。一致性损失表明，如果您将图片 $Y$ 馈送给生成器 $G$，它应当生成真实图片 $Y$ 或接近于 $Y$ 的图片。
+
+$$Identity\ loss = |G(Y) - Y| + |F(X) - X|$$
+
+```py
+def identity_loss(real_image, same_image):
+  loss = tf.reduce_mean(tf.abs(real_image - same_image))
+  return LAMBDA * 0.5 * loss 
+```
+
+为所有生成器和判别器初始化优化器。
+
+```py
+generator_g_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5)
+generator_f_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5)
+
+discriminator_x_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5)
+discriminator_y_optimizer = tf.keras.optimizers.Adam(2e-4, beta_1=0.5) 
+```
+
+## Checkpoints
+
+```py
+checkpoint_path = "./checkpoints/train"
+
+ckpt = tf.train.Checkpoint(generator_g=generator_g,
+                           generator_f=generator_f,
+                           discriminator_x=discriminator_x,
+                           discriminator_y=discriminator_y,
+                           generator_g_optimizer=generator_g_optimizer,
+                           generator_f_optimizer=generator_f_optimizer,
+                           discriminator_x_optimizer=discriminator_x_optimizer,
+                           discriminator_y_optimizer=discriminator_y_optimizer)
+
+ckpt_manager = tf.train.CheckpointManager(ckpt, checkpoint_path, max_to_keep=5)
+
+# 如果存在检查点，恢复最新版本检查点
+if ckpt_manager.latest_checkpoint:
+  ckpt.restore(ckpt_manager.latest_checkpoint)
+  print ('Latest checkpoint restored!!') 
+```
+
+## 训练
+
+注意：本示例模型比论文中训练了更少的 epoch（本示例为 40 epoch，论文中为 200 epoch），以使训练时间相对于本教程是合理的。预测的准确率可能会低一些。
+
+```py
+EPOCHS = 40 
+```
+
+```py
+def generate_images(model, test_input):
+  prediction = model(test_input)
+
+  plt.figure(figsize=(12, 12))
+
+  display_list = [test_input[0], prediction[0]]
+  title = ['Input Image', 'Predicted Image']
+
+  for i in range(2):
+    plt.subplot(1, 2, i+1)
+    plt.title(title[i])
+    # 获取范围在 [0, 1] 之间的像素值以绘制它。
+    plt.imshow(display_list[i] * 0.5 + 0.5)
+    plt.axis('off')
+  plt.show() 
+```
+
+尽管训练循环看起来很复杂，其实包含四个基本步骤：
+
+*   获取预测。
+*   计算损失值。
+*   使用反向传播计算损失值。
+*   将梯度应用于优化器。
+
+```py
+@tf.function
+def train_step(real_x, real_y):
+  # persistent 设置为 Ture，因为 GradientTape 被多次应用于计算梯度。
+  with tf.GradientTape(persistent=True) as tape:
+    # 生成器 G 转换 X -> Y。
+    # 生成器 F 转换 Y -> X。
+
+    fake_y = generator_g(real_x, training=True)
+    cycled_x = generator_f(fake_y, training=True)
+
+    fake_x = generator_f(real_y, training=True)
+    cycled_y = generator_g(fake_x, training=True)
+
+    # same_x 和 same_y 用于一致性损失。
+    same_x = generator_f(real_x, training=True)
+    same_y = generator_g(real_y, training=True)
+
+    disc_real_x = discriminator_x(real_x, training=True)
+    disc_real_y = discriminator_y(real_y, training=True)
+
+    disc_fake_x = discriminator_x(fake_x, training=True)
+    disc_fake_y = discriminator_y(fake_y, training=True)
+
+    # 计算损失。
+    gen_g_loss = generator_loss(disc_fake_y)
+    gen_f_loss = generator_loss(disc_fake_x)
+
+    total_cycle_loss = calc_cycle_loss(real_x, cycled_x) + calc_cycle_loss(real_y, cycled_y)
+
+    # 总生成器损失 = 对抗性损失 + 循环损失。
+    total_gen_g_loss = gen_g_loss + total_cycle_loss + identity_loss(real_y, same_y)
+    total_gen_f_loss = gen_f_loss + total_cycle_loss + identity_loss(real_x, same_x)
+
+    disc_x_loss = discriminator_loss(disc_real_x, disc_fake_x)
+    disc_y_loss = discriminator_loss(disc_real_y, disc_fake_y)
+
+  # 计算生成器和判别器损失。
+  generator_g_gradients = tape.gradient(total_gen_g_loss, 
+                                        generator_g.trainable_variables)
+  generator_f_gradients = tape.gradient(total_gen_f_loss, 
+                                        generator_f.trainable_variables)
+
+  discriminator_x_gradients = tape.gradient(disc_x_loss, 
+                                            discriminator_x.trainable_variables)
+  discriminator_y_gradients = tape.gradient(disc_y_loss, 
+                                            discriminator_y.trainable_variables)
+
+  # 将梯度应用于优化器。
+  generator_g_optimizer.apply_gradients(zip(generator_g_gradients, 
+                                            generator_g.trainable_variables))
+
+  generator_f_optimizer.apply_gradients(zip(generator_f_gradients, 
+                                            generator_f.trainable_variables))
+
+  discriminator_x_optimizer.apply_gradients(zip(discriminator_x_gradients,
+                                                discriminator_x.trainable_variables))
+
+  discriminator_y_optimizer.apply_gradients(zip(discriminator_y_gradients,
+                                                discriminator_y.trainable_variables)) 
+```
+
+```py
+for epoch in range(EPOCHS):
+  start = time.time()
+
+  n = 0
+  for image_x, image_y in tf.data.Dataset.zip((train_horses, train_zebras)):
+    train_step(image_x, image_y)
+    if n % 10 == 0:
+      print ('.', end='')
+    n+=1
+
+  clear_output(wait=True)
+  # 使用一致的图像（sample_horse），以便模型的进度清晰可见。
+  generate_images(generator_g, sample_horse)
+
+  if (epoch + 1) % 5 == 0:
+    ckpt_save_path = ckpt_manager.save()
+    print ('Saving checkpoint for epoch {} at {}'.format(epoch+1,
+                                                         ckpt_save_path))
+
+  print ('Time taken for epoch {} is {} sec\n'.format(epoch + 1,
+                                                      time.time()-start)) 
+```
+
+![png](img/c2a117375845a6a7d1c87b2c84de54e8.png)
+
+```py
+Saving checkpoint for epoch 40 at ./checkpoints/train/ckpt-8
+Time taken for epoch 40 is 175.41231870651245 sec
+
+```
+
+## 使用测试数据集进行生成
+
+```py
+# 在测试数据集上运行训练的模型。
+for inp in test_horses.take(5):
+  generate_images(generator_g, inp) 
+```
+
+![png](img/d68f92600680dfc45d965045e843ec4d.png)
+
+![png](img/0ba1e7316ba7e228576bbcd85280c309.png)
+
+![png](img/33043d022bdb4912f00756593d5b4a7c.png)
+
+![png](img/032dc17ad0509afd4505858b1f0c7d19.png)
+
+![png](img/d653a0d6330958d36f31b35e1410ff6d.png)
+
+## 下一步
+
+本教程展示了如何从 [Pix2Pix](https://tensorflow.google.cn/tutorials/generative/pix2pix) 教程实现的生成器和判别器开始实现 CycleGAN。 下一步，您可以尝试使用一个来源于 [TensorFlow 数据集](https://tensorflow.google.cn/datasets/datasets#cycle_gan)的不同的数据集。
+
+您也可以训练更多的 epoch 以改进结果，或者可以实现[论文](https://arxiv.org/abs/1703.10593)中所使用的改进 ResNet 生成器来代替这里使用的 U-Net 生成器。
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/065.md b/Tensorflow/TensorFlow2.0/065.md
new file mode 100644
index 00000000..0fd7c72c
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/065.md
@@ -0,0 +1,186 @@
+# Adversarial example using FGSM
+
+> 原文：[https://tensorflow.google.cn/tutorials/generative/adversarial_fgsm](https://tensorflow.google.cn/tutorials/generative/adversarial_fgsm)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+This tutorial creates an *adversarial example* using the Fast Gradient Signed Method (FGSM) attack as described in [Explaining and Harnessing Adversarial Examples](https://arxiv.org/abs/1412.6572) by Goodfellow *et al*. This was one of the first and most popular attacks to fool a neural network.
+
+## What is an adversarial example?
+
+Adversarial examples are specialised inputs created with the purpose of confusing a neural network, resulting in the misclassification of a given input. These notorious inputs are indistinguishable to the human eye, but cause the network to fail to identify the contents of the image. There are several types of such attacks, however, here the focus is on the fast gradient sign method attack, which is a *white box* attack whose goal is to ensure misclassification. A white box attack is where the attacker has complete access to the model being attacked. One of the most famous examples of an adversarial image shown below is taken from the aforementioned paper.
+
+![Adversarial Example](img/ac69959225a206f2b2c5ed2e33218511.png)
+
+Here, starting with the image of a panda, the attacker adds small perturbations (distortions) to the original image, which results in the model labelling this image as a gibbon, with high confidence. The process of adding these perturbations is explained below.
+
+## Fast gradient sign method
+
+The fast gradient sign method works by using the gradients of the neural network to create an adversarial example. For an input image, the method uses the gradients of the loss with respect to the input image to create a new image that maximises the loss. This new image is called the adversarial image. This can be summarised using the following expression:
+
+$$adv\_x = x + \epsilon*\text{sign}(\nabla_xJ(\theta, x, y))$$
+
+where
+
+*   adv_x : Adversarial image.
+*   x : Original input image.
+*   y : Original input label.
+*   $\epsilon$ : Multiplier to ensure the perturbations are small.
+*   $\theta$ : Model parameters.
+*   $J$ : Loss.
+
+An intriguing property here, is the fact that the gradients are taken with respect to the input image. This is done because the objective is to create an image that maximises the loss. A method to accomplish this is to find how much each pixel in the image contributes to the loss value, and add a perturbation accordingly. This works pretty fast because it is easy to find how each input pixel contributes to the loss by using the chain rule and finding the required gradients. Hence, the gradients are taken with respect to the image. In addition, since the model is no longer being trained (thus the gradient is not taken with respect to the trainable variables, i.e., the model parameters), and so the model parameters remain constant. The only goal is to fool an already trained model.
+
+So let's try and fool a pretrained model. In this tutorial, the model is [MobileNetV2](https://tensorflow.google.cn/versions/r2.0/api_docs/python/tf/keras/applications/MobileNetV2) model, pretrained on [ImageNet](http://www.image-net.org/).
+
+```py
+import tensorflow as tf
+import matplotlib as mpl
+import matplotlib.pyplot as plt
+
+mpl.rcParams['figure.figsize'] = (8, 8)
+mpl.rcParams['axes.grid'] = False 
+```
+
+Let's load the pretrained MobileNetV2 model and the ImageNet class names.
+
+```py
+pretrained_model = tf.keras.applications.MobileNetV2(include_top=True,
+                                                     weights='imagenet')
+pretrained_model.trainable = False
+
+# ImageNet labels
+decode_predictions = tf.keras.applications.mobilenet_v2.decode_predictions 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/mobilenet_v2/mobilenet_v2_weights_tf_dim_ordering_tf_kernels_1.0_224.h5
+14540800/14536120 [==============================] - 0s 0us/step
+
+```
+
+```py
+# Helper function to preprocess the image so that it can be inputted in MobileNetV2
+def preprocess(image):
+  image = tf.cast(image, tf.float32)
+  image = tf.image.resize(image, (224, 224))
+  image = tf.keras.applications.mobilenet_v2.preprocess_input(image)
+  image = image[None, ...]
+  return image
+
+# Helper function to extract labels from probability vector
+def get_imagenet_label(probs):
+  return decode_predictions(probs, top=1)[0][0] 
+```
+
+## Original image
+
+Let's use a sample image of a [Labrador Retriever](https://commons.wikimedia.org/wiki/File:YellowLabradorLooking_new.jpg) by Mirko [CC-BY-SA 3.0](https://creativecommons.org/licenses/by-sa/3.0/) from Wikimedia Common and create adversarial examples from it. The first step is to preprocess it so that it can be fed as an input to the MobileNetV2 model.
+
+```py
+image_path = tf.keras.utils.get_file('YellowLabradorLooking_new.jpg', 'https://storage.googleapis.com/download.tensorflow.org/example_images/YellowLabradorLooking_new.jpg')
+image_raw = tf.io.read_file(image_path)
+image = tf.image.decode_image(image_raw)
+
+image = preprocess(image)
+image_probs = pretrained_model.predict(image) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/example_images/YellowLabradorLooking_new.jpg
+90112/83281 [================================] - 0s 0us/step
+
+```
+
+Let's have a look at the image.
+
+```py
+plt.figure()
+plt.imshow(image[0]*0.5+0.5) # To change [-1, 1] to [0,1]
+_, image_class, class_confidence = get_imagenet_label(image_probs)
+plt.title('{} : {:.2f}% Confidence'.format(image_class, class_confidence*100))
+plt.show() 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/imagenet_class_index.json
+40960/35363 [==================================] - 0s 0us/step
+
+```
+
+![png](img/1c498df577bb9dd0638c25332e7b68a1.png)
+
+## Create the adversarial image
+
+### Implementing fast gradient sign method
+
+The first step is to create perturbations which will be used to distort the original image resulting in an adversarial image. As mentioned, for this task, the gradients are taken with respect to the image.
+
+```py
+loss_object = tf.keras.losses.CategoricalCrossentropy()
+
+def create_adversarial_pattern(input_image, input_label):
+  with tf.GradientTape() as tape:
+    tape.watch(input_image)
+    prediction = pretrained_model(input_image)
+    loss = loss_object(input_label, prediction)
+
+  # Get the gradients of the loss w.r.t to the input image.
+  gradient = tape.gradient(loss, input_image)
+  # Get the sign of the gradients to create the perturbation
+  signed_grad = tf.sign(gradient)
+  return signed_grad 
+```
+
+The resulting perturbations can also be visualised.
+
+```py
+# Get the input label of the image.
+labrador_retriever_index = 208
+label = tf.one_hot(labrador_retriever_index, image_probs.shape[-1])
+label = tf.reshape(label, (1, image_probs.shape[-1]))
+
+perturbations = create_adversarial_pattern(image, label)
+plt.imshow(perturbations[0]*0.5+0.5); # To change [-1, 1] to [0,1] 
+```
+
+![png](img/e3ffe6a29488821b01dd98cba6690e5f.png)
+
+Let's try this out for different values of epsilon and observe the resultant image. You'll notice that as the value of epsilon is increased, it becomes easier to fool the network. However, this comes as a trade-off which results in the perturbations becoming more identifiable.
+
+```py
+def display_images(image, description):
+  _, label, confidence = get_imagenet_label(pretrained_model.predict(image))
+  plt.figure()
+  plt.imshow(image[0]*0.5+0.5)
+  plt.title('{} \n {} : {:.2f}% Confidence'.format(description,
+                                                   label, confidence*100))
+  plt.show() 
+```
+
+```py
+epsilons = [0, 0.01, 0.1, 0.15]
+descriptions = [('Epsilon = {:0.3f}'.format(eps) if eps else 'Input')
+                for eps in epsilons]
+
+for i, eps in enumerate(epsilons):
+  adv_x = image + eps*perturbations
+  adv_x = tf.clip_by_value(adv_x, -1, 1)
+  display_images(adv_x, descriptions[i]) 
+```
+
+![png](img/8aa1d48ada55b367535dbe964ad2cd79.png)
+
+![png](img/4bebff99ef427fe52c09346e6f6b1971.png)
+
+![png](img/7fb60d07e3fa3bd88b02197b1f12223f.png)
+
+![png](img/66503afc507478f400022c625de3c878.png)
+
+## Next steps
+
+Now that you know about adversarial attacks, try this out on different datasets and different architectures. You may also create and train your own model, and then attempt to fool it using the same method. You can also try and see how the confidence in predictions vary as you change epsilon.
+
+Though powerful, the attack shown in this tutorial was just the start of research into adversarial attacks, and there have been multiple papers creating more powerful attacks since then. In addition to adversarial attacks, research has also led to the creation of defenses, which aims at creating robust machine learning models. You may review this [survey paper](https://arxiv.org/abs/1810.00069) for a comprehensive list of adversarial attacks and defences.
+
+For many more implementations of adversarial attacks and defenses, you may want to see the adversarial example library [CleverHans](https://github.com/tensorflow/cleverhans).
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/066.md b/Tensorflow/TensorFlow2.0/066.md
new file mode 100644
index 00000000..0aa4c4bf
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/066.md
@@ -0,0 +1,632 @@
+# Intro to Autoencoders
+
+> 原文：[https://tensorflow.google.cn/tutorials/generative/autoencoder](https://tensorflow.google.cn/tutorials/generative/autoencoder)
+
+This tutorial introduces autoencoders with three examples: the basics, image denoising, and anomaly detection.
+
+An autoencoder is a special type of neural network that is trained to copy its input to its output. For example, given an image of a handwritten digit, an autoencoder first encodes the image into a lower dimensional latent representation, then decodes the latent representation back to an image. An autoencoder learns to compress the data while minimizing the reconstruction error.
+
+To learn more about autoencoders, please consider reading chapter 14 from [Deep Learning](https://www.deeplearningbook.org/) by Ian Goodfellow, Yoshua Bengio, and Aaron Courville.
+
+## Import TensorFlow and other libraries
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import pandas as pd
+import tensorflow as tf
+
+from sklearn.metrics import accuracy_score, precision_score, recall_score
+from sklearn.model_selection import train_test_split
+from tensorflow.keras import layers, losses
+from tensorflow.keras.datasets import fashion_mnist
+from tensorflow.keras.models import Model 
+```
+
+## Load the dataset
+
+To start, you will train the basic autoencoder using the Fashon MNIST dataset. Each image in this dataset is 28x28 pixels.
+
+```py
+(x_train, _), (x_test, _) = fashion_mnist.load_data()
+
+x_train = x_train.astype('float32') / 255.
+x_test = x_test.astype('float32') / 255.
+
+print (x_train.shape)
+print (x_test.shape) 
+```
+
+```py
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
+32768/29515 [=================================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
+26427392/26421880 [==============================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
+8192/5148 [===============================================] - 0s 0us/step
+Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
+4423680/4422102 [==============================] - 0s 0us/step
+(60000, 28, 28)
+(10000, 28, 28)
+
+```
+
+## First example: Basic autoencoder
+
+![Basic autoencoder results](img/ee409d59cd41f3de0f02655abfc4d0c0.png)
+
+Define an autoencoder with two Dense layers: an `encoder`, which compresses the images into a 64 dimensional latent vector, and a `decoder`, that reconstructs the original image from the latent space.
+
+To define your model, use the [Keras Model Subclassing API](https://tensorflow.google.cn/guide/keras/custom_layers_and_models).
+
+```py
+latent_dim = 64 
+
+class Autoencoder(Model):
+  def __init__(self, latent_dim):
+    super(Autoencoder, self).__init__()
+    self.latent_dim = latent_dim   
+    self.encoder = tf.keras.Sequential([
+      layers.Flatten(),
+      layers.Dense(latent_dim, activation='relu'),
+    ])
+    self.decoder = tf.keras.Sequential([
+      layers.Dense(784, activation='sigmoid'),
+      layers.Reshape((28, 28))
+    ])
+
+  def call(self, x):
+    encoded = self.encoder(x)
+    decoded = self.decoder(encoded)
+    return decoded
+
+autoencoder = Autoencoder(latent_dim) 
+```
+
+```py
+autoencoder.compile(optimizer='adam', loss=losses.MeanSquaredError()) 
+```
+
+Train the model using `x_train` as both the input and the target. The `encoder` will learn to compress the dataset from 784 dimensions to the latent space, and the `decoder` will learn to reconstruct the original images. .
+
+```py
+autoencoder.fit(x_train, x_train,
+                epochs=10,
+                shuffle=True,
+                validation_data=(x_test, x_test)) 
+```
+
+```py
+Epoch 1/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0239 - val_loss: 0.0132
+Epoch 2/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0116 - val_loss: 0.0105
+Epoch 3/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0100 - val_loss: 0.0097
+Epoch 4/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0095 - val_loss: 0.0094
+Epoch 5/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0092 - val_loss: 0.0092
+Epoch 6/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0090 - val_loss: 0.0091
+Epoch 7/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0090 - val_loss: 0.0090
+Epoch 8/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0089 - val_loss: 0.0090
+Epoch 9/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0088 - val_loss: 0.0090
+Epoch 10/10
+1875/1875 [==============================] - 3s 2ms/step - loss: 0.0088 - val_loss: 0.0088
+
+<tensorflow.python.keras.callbacks.History at 0x7f220fe53fd0>
+
+```
+
+Now that the model is trained, let's test it by encoding and decoding images from the test set.
+
+```py
+encoded_imgs = autoencoder.encoder(x_test).numpy()
+decoded_imgs = autoencoder.decoder(encoded_imgs).numpy() 
+```
+
+```py
+n = 10
+plt.figure(figsize=(20, 4))
+for i in range(n):
+  # display original
+  ax = plt.subplot(2, n, i + 1)
+  plt.imshow(x_test[i])
+  plt.title("original")
+  plt.gray()
+  ax.get_xaxis().set_visible(False)
+  ax.get_yaxis().set_visible(False)
+
+  # display reconstruction
+  ax = plt.subplot(2, n, i + 1 + n)
+  plt.imshow(decoded_imgs[i])
+  plt.title("reconstructed")
+  plt.gray()
+  ax.get_xaxis().set_visible(False)
+  ax.get_yaxis().set_visible(False)
+plt.show() 
+```
+
+![png](img/c239b9ad6cf9b5f72e3d6d37fd17b9d1.png)
+
+## Second example: Image denoising
+
+![Image denoising results](img/9461d6f88eb7d390eea25f1f034101b5.png)
+
+An autoencoder can also be trained to remove noise from images. In the following section, you will create a noisy version of the Fashion MNIST dataset by applying random noise to each image. You will then train an autoencoder using the noisy image as input, and the original image as the target.
+
+Let's reimport the dataset to omit the modifications made earlier.
+
+```py
+(x_train, _), (x_test, _) = fashion_mnist.load_data() 
+```
+
+```py
+x_train = x_train.astype('float32') / 255.
+x_test = x_test.astype('float32') / 255.
+
+x_train = x_train[..., tf.newaxis]
+x_test = x_test[..., tf.newaxis]
+
+print(x_train.shape) 
+```
+
+```py
+(60000, 28, 28, 1)
+
+```
+
+Adding random noise to the images
+
+```py
+noise_factor = 0.2
+x_train_noisy = x_train + noise_factor * tf.random.normal(shape=x_train.shape) 
+x_test_noisy = x_test + noise_factor * tf.random.normal(shape=x_test.shape) 
+
+x_train_noisy = tf.clip_by_value(x_train_noisy, clip_value_min=0., clip_value_max=1.)
+x_test_noisy = tf.clip_by_value(x_test_noisy, clip_value_min=0., clip_value_max=1.) 
+```
+
+Plot the noisy images.
+
+```py
+n = 10
+plt.figure(figsize=(20, 2))
+for i in range(n):
+    ax = plt.subplot(1, n, i + 1)
+    plt.title("original + noise")
+    plt.imshow(tf.squeeze(x_test_noisy[i]))
+    plt.gray()
+plt.show() 
+```
+
+![png](img/6c3e8444c64a773d92f67fd4f07992b7.png)
+
+### Define a convolutional autoencoder
+
+In this example, you will train a convolutional autoencoder using [Conv2D](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Conv2D) layers in the `encoder`, and [Conv2DTranspose](https://tensorflow.google.cn/api_docs/python/tf/keras/layers/Conv2DTranspose) layers in the `decoder`.
+
+```py
+class Denoise(Model):
+  def __init__(self):
+    super(Denoise, self).__init__()
+    self.encoder = tf.keras.Sequential([
+      layers.Input(shape=(28, 28, 1)), 
+      layers.Conv2D(16, (3,3), activation='relu', padding='same', strides=2),
+      layers.Conv2D(8, (3,3), activation='relu', padding='same', strides=2)])
+
+    self.decoder = tf.keras.Sequential([
+      layers.Conv2DTranspose(8, kernel_size=3, strides=2, activation='relu', padding='same'),
+      layers.Conv2DTranspose(16, kernel_size=3, strides=2, activation='relu', padding='same'),
+      layers.Conv2D(1, kernel_size=(3,3), activation='sigmoid', padding='same')])
+
+  def call(self, x):
+    encoded = self.encoder(x)
+    decoded = self.decoder(encoded)
+    return decoded
+
+autoencoder = Denoise() 
+```
+
+```py
+autoencoder.compile(optimizer='adam', loss=losses.MeanSquaredError()) 
+```
+
+```py
+autoencoder.fit(x_train_noisy, x_train,
+                epochs=10,
+                shuffle=True,
+                validation_data=(x_test_noisy, x_test)) 
+```
+
+```py
+Epoch 1/10
+1875/1875 [==============================] - 26s 14ms/step - loss: 0.0182 - val_loss: 0.0112
+Epoch 2/10
+1875/1875 [==============================] - 25s 14ms/step - loss: 0.0100 - val_loss: 0.0093
+Epoch 3/10
+1875/1875 [==============================] - 25s 13ms/step - loss: 0.0089 - val_loss: 0.0087
+Epoch 4/10
+1875/1875 [==============================] - 26s 14ms/step - loss: 0.0085 - val_loss: 0.0084
+Epoch 5/10
+1875/1875 [==============================] - 25s 14ms/step - loss: 0.0083 - val_loss: 0.0083
+Epoch 6/10
+1875/1875 [==============================] - 26s 14ms/step - loss: 0.0082 - val_loss: 0.0082
+Epoch 7/10
+1875/1875 [==============================] - 25s 13ms/step - loss: 0.0081 - val_loss: 0.0081
+Epoch 8/10
+1875/1875 [==============================] - 25s 13ms/step - loss: 0.0081 - val_loss: 0.0080
+Epoch 9/10
+1875/1875 [==============================] - 25s 13ms/step - loss: 0.0080 - val_loss: 0.0080
+Epoch 10/10
+1875/1875 [==============================] - 25s 14ms/step - loss: 0.0079 - val_loss: 0.0080
+
+<tensorflow.python.keras.callbacks.History at 0x7f22122b45c0>
+
+```
+
+Let's take a look at a summary of the encoder. Notice how the images are downsampled from 28x28 to 7x7.
+
+```py
+autoencoder.encoder.summary() 
+```
+
+```py
+Model: "sequential_2"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+conv2d (Conv2D)              (None, 14, 14, 16)        160       
+_________________________________________________________________
+conv2d_1 (Conv2D)            (None, 7, 7, 8)           1160      
+=================================================================
+Total params: 1,320
+Trainable params: 1,320
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+The decoder upsamples the images back from 7x7 to 28x28.
+
+```py
+autoencoder.decoder.summary() 
+```
+
+```py
+Model: "sequential_3"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+conv2d_transpose (Conv2DTran (None, 14, 14, 8)         584       
+_________________________________________________________________
+conv2d_transpose_1 (Conv2DTr (None, 28, 28, 16)        1168      
+_________________________________________________________________
+conv2d_2 (Conv2D)            (None, 28, 28, 1)         145       
+=================================================================
+Total params: 1,897
+Trainable params: 1,897
+Non-trainable params: 0
+_________________________________________________________________
+
+```
+
+Plotting both the noisy images and the denoised images produced by the autoencoder.
+
+```py
+encoded_imgs = autoencoder.encoder(x_test).numpy()
+decoded_imgs = autoencoder.decoder(encoded_imgs).numpy() 
+```
+
+```py
+n = 10
+plt.figure(figsize=(20, 4))
+for i in range(n):
+
+    # display original + noise
+    ax = plt.subplot(2, n, i + 1)
+    plt.title("original + noise")
+    plt.imshow(tf.squeeze(x_test_noisy[i]))
+    plt.gray()
+    ax.get_xaxis().set_visible(False)
+    ax.get_yaxis().set_visible(False)
+
+    # display reconstruction
+    bx = plt.subplot(2, n, i + n + 1)
+    plt.title("reconstructed")
+    plt.imshow(tf.squeeze(decoded_imgs[i]))
+    plt.gray()
+    bx.get_xaxis().set_visible(False)
+    bx.get_yaxis().set_visible(False)
+plt.show() 
+```
+
+![png](img/d6d4178e447bc9f8c984345c73202b01.png)
+
+## Third example: Anomaly detection
+
+## Overview
+
+In this example, you will train an autoencoder to detect anomalies on the [ECG5000 dataset](http://www.timeseriesclassification.com/description.php?Dataset=ECG5000). This dataset contains 5,000 [Electrocardiograms](https://en.wikipedia.org/wiki/Electrocardiography), each with 140 data points. You will use a simplified version of the dataset, where each example has been labeled either `0` (corresponding to an abnormal rhythm), or `1` (corresponding to a normal rhythm). You are interested in identifying the abnormal rhythms.
+
+**Note:** This is a labeled dataset, so you could phrase this as a supervised learning problem. The goal of this example is to illustrate anomaly detection concepts you can apply to larger datasets, where you do not have labels available (for example, if you had many thousands of normal rhythms, and only a small number of abnormal rhythms).
+
+How will you detect anomalies using an autoencoder? Recall that an autoencoder is trained to minimize reconstruction error. You will train an autoencoder on the normal rhythms only, then use it to reconstruct all the data. Our hypothesis is that the abnormal rhythms will have higher reconstruction error. You will then classify a rhythm as an anomaly if the reconstruction error surpasses a fixed threshold.
+
+### Load ECG data
+
+The dataset you will use is based on one from [timeseriesclassification.com](http://www.timeseriesclassification.com/description.php?Dataset=ECG5000).
+
+```py
+# Download the dataset
+dataframe = pd.read_csv('http://storage.googleapis.com/download.tensorflow.org/data/ecg.csv', header=None)
+raw_data = dataframe.values
+dataframe.head() 
+```
+
+<devsite-iframe><iframe src="/tutorials/generative/autoencoder_d1e264d3aef03a2f0ce0c60938dad7e5c8bc047c81aeacdbf265389b3baf6cfe.frame" class="framebox inherit-locale " allowfullscreen="" is-upgraded=""></iframe></devsite-iframe>
+
+```py
+# The last element contains the labels
+labels = raw_data[:, -1]
+
+# The other data points are the electrocadriogram data
+data = raw_data[:, 0:-1]
+
+train_data, test_data, train_labels, test_labels = train_test_split(
+    data, labels, test_size=0.2, random_state=21
+) 
+```
+
+Normalize the data to `[0,1]`.
+
+```py
+min_val = tf.reduce_min(train_data)
+max_val = tf.reduce_max(train_data)
+
+train_data = (train_data - min_val) / (max_val - min_val)
+test_data = (test_data - min_val) / (max_val - min_val)
+
+train_data = tf.cast(train_data, tf.float32)
+test_data = tf.cast(test_data, tf.float32) 
+```
+
+You will train the autoencoder using only the normal rhythms, which are labeled in this dataset as `1`. Separate the normal rhythms from the abnormal rhythms.
+
+```py
+train_labels = train_labels.astype(bool)
+test_labels = test_labels.astype(bool)
+
+normal_train_data = train_data[train_labels]
+normal_test_data = test_data[test_labels]
+
+anomalous_train_data = train_data[~train_labels]
+anomalous_test_data = test_data[~test_labels] 
+```
+
+Plot a normal ECG.
+
+```py
+plt.grid()
+plt.plot(np.arange(140), normal_train_data[0])
+plt.title("A Normal ECG")
+plt.show() 
+```
+
+![png](img/aef2c569f7fec52ed4d6e656dddb8da4.png)
+
+Plot an anomalous ECG.
+
+```py
+plt.grid()
+plt.plot(np.arange(140), anomalous_train_data[0])
+plt.title("An Anomalous ECG")
+plt.show() 
+```
+
+![png](img/7e31e526f055ddde2fd0d3a4e5d60aef.png)
+
+### Build the model
+
+```py
+class AnomalyDetector(Model):
+  def __init__(self):
+    super(AnomalyDetector, self).__init__()
+    self.encoder = tf.keras.Sequential([
+      layers.Dense(32, activation="relu"),
+      layers.Dense(16, activation="relu"),
+      layers.Dense(8, activation="relu")])
+
+    self.decoder = tf.keras.Sequential([
+      layers.Dense(16, activation="relu"),
+      layers.Dense(32, activation="relu"),
+      layers.Dense(140, activation="sigmoid")])
+
+  def call(self, x):
+    encoded = self.encoder(x)
+    decoded = self.decoder(encoded)
+    return decoded
+
+autoencoder = AnomalyDetector() 
+```
+
+```py
+autoencoder.compile(optimizer='adam', loss='mae') 
+```
+
+Notice that the autoencoder is trained using only the normal ECGs, but is evaluated using the full test set.
+
+```py
+history = autoencoder.fit(normal_train_data, normal_train_data, 
+          epochs=20, 
+          batch_size=512,
+          validation_data=(test_data, test_data),
+          shuffle=True) 
+```
+
+```py
+Epoch 1/20
+5/5 [==============================] - 0s 20ms/step - loss: 0.0582 - val_loss: 0.0534
+Epoch 2/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0564 - val_loss: 0.0519
+Epoch 3/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0540 - val_loss: 0.0508
+Epoch 4/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0514 - val_loss: 0.0491
+Epoch 5/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0482 - val_loss: 0.0467
+Epoch 6/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0448 - val_loss: 0.0449
+Epoch 7/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0414 - val_loss: 0.0429
+Epoch 8/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0380 - val_loss: 0.0413
+Epoch 9/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0345 - val_loss: 0.0400
+Epoch 10/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0316 - val_loss: 0.0390
+Epoch 11/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0293 - val_loss: 0.0382
+Epoch 12/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0276 - val_loss: 0.0379
+Epoch 13/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0262 - val_loss: 0.0370
+Epoch 14/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0251 - val_loss: 0.0366
+Epoch 15/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0244 - val_loss: 0.0359
+Epoch 16/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0237 - val_loss: 0.0355
+Epoch 17/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0231 - val_loss: 0.0352
+Epoch 18/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0225 - val_loss: 0.0345
+Epoch 19/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0219 - val_loss: 0.0343
+Epoch 20/20
+5/5 [==============================] - 0s 5ms/step - loss: 0.0214 - val_loss: 0.0341
+
+```
+
+```py
+plt.plot(history.history["loss"], label="Training Loss")
+plt.plot(history.history["val_loss"], label="Validation Loss")
+plt.legend() 
+```
+
+```py
+<matplotlib.legend.Legend at 0x7f21d014f438>
+
+```
+
+![png](img/062d680b7bfc538f75dbd6e3d7562502.png)
+
+You will soon classify an ECG as anomalous if the reconstruction error is greater than one standard deviation from the normal training examples. First, let's plot a normal ECG from the training set, the reconstruction after it's encoded and decoded by the autoencoder, and the reconstruction error.
+
+```py
+encoded_imgs = autoencoder.encoder(normal_test_data).numpy()
+decoded_imgs = autoencoder.decoder(encoded_imgs).numpy()
+
+plt.plot(normal_test_data[0],'b')
+plt.plot(decoded_imgs[0],'r')
+plt.fill_between(np.arange(140), decoded_imgs[0], normal_test_data[0], color='lightcoral' )
+plt.legend(labels=["Input", "Reconstruction", "Error"])
+plt.show() 
+```
+
+![png](img/8f8b815630d4213a923f492eacc9d2d0.png)
+
+Create a similar plot, this time for an anomalous test example.
+
+```py
+encoded_imgs = autoencoder.encoder(anomalous_test_data).numpy()
+decoded_imgs = autoencoder.decoder(encoded_imgs).numpy()
+
+plt.plot(anomalous_test_data[0],'b')
+plt.plot(decoded_imgs[0],'r')
+plt.fill_between(np.arange(140), decoded_imgs[0], anomalous_test_data[0], color='lightcoral' )
+plt.legend(labels=["Input", "Reconstruction", "Error"])
+plt.show() 
+```
+
+![png](img/65e3cc57565dea4503cb5f3f7dca3035.png)
+
+### Detect anomalies
+
+Detect anomalies by calculating whether the reconstruction loss is greater than a fixed threshold. In this tutorial, you will calculate the mean average error for normal examples from the training set, then classify future examples as anomalous if the reconstruction error is higher than one standard deviation from the training set.
+
+Plot the reconstruction error on normal ECGs from the training set
+
+```py
+reconstructions = autoencoder.predict(normal_train_data)
+train_loss = tf.keras.losses.mae(reconstructions, normal_train_data)
+
+plt.hist(train_loss, bins=50)
+plt.xlabel("Train loss")
+plt.ylabel("No of examples")
+plt.show() 
+```
+
+![png](img/17b66fa7e9565fdeabc4fe4752bad60d.png)
+
+Choose a threshold value that is one standard deviations above the mean.
+
+```py
+threshold = np.mean(train_loss) + np.std(train_loss)
+print("Threshold: ", threshold) 
+```
+
+```py
+Threshold:  0.033377893
+
+```
+
+**Note:** There are other strategies you could use to select a threshold value above which test examples should be classified as anomalous, the correct approach will depend on your dataset. You can learn more with the links at the end of this tutorial.
+
+If you examine the recontruction error for the anomalous examples in the test set, you'll notice most have greater reconstruction error than the threshold. By varing the threshold, you can adjust the [precision](https://developers.google.cn/machine-learning/glossary#precision) and [recall](https://developers.google.cn/machine-learning/glossary#recall) of your classifier.
+
+```py
+reconstructions = autoencoder.predict(anomalous_test_data)
+test_loss = tf.keras.losses.mae(reconstructions, anomalous_test_data)
+
+plt.hist(test_loss, bins=50)
+plt.xlabel("Test loss")
+plt.ylabel("No of examples")
+plt.show() 
+```
+
+![png](img/f9843723cb76f7e84a4d3e7435c3a2c0.png)
+
+Classify an ECG as an anomaly if the reconstruction error is greater than the threshold.
+
+```py
+def predict(model, data, threshold):
+  reconstructions = model(data)
+  loss = tf.keras.losses.mae(reconstructions, data)
+  return tf.math.less(loss, threshold)
+
+def print_stats(predictions, labels):
+  print("Accuracy = {}".format(accuracy_score(labels, preds)))
+  print("Precision = {}".format(precision_score(labels, preds)))
+  print("Recall = {}".format(recall_score(labels, preds))) 
+```
+
+```py
+preds = predict(autoencoder, test_data, threshold)
+print_stats(preds, test_labels) 
+```
+
+```py
+Accuracy = 0.944
+Precision = 0.9921875
+Recall = 0.9071428571428571
+
+```
+
+## Next steps
+
+To learn more about anomaly detection with autoencoders, check out this excellent [interactive example](https://anomagram.fastforwardlabs.com/#/) built with TensorFlow.js by Victor Dibia. For a real-world use case, you can learn how [Airbus Detects Anomalies in ISS Telemetry Data](https://blog.tensorflow.org/2020/04/how-airbus-detects-anomalies-iss-telemetry-data-tfx.html) using TensorFlow. To learn more about the basics, consider reading this [blog post](https://blog.keras.io/building-autoencoders-in-keras.html) by François Chollet. For more details, check out chapter 14 from [Deep Learning](https://www.deeplearningbook.org/) by Ian Goodfellow, Yoshua Bengio, and Aaron Courville.
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/067.md b/Tensorflow/TensorFlow2.0/067.md
new file mode 100644
index 00000000..34dd3103
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/067.md
@@ -0,0 +1,329 @@
+# 卷积变分自编码器
+
+> 原文：[https://tensorflow.google.cn/tutorials/generative/cvae](https://tensorflow.google.cn/tutorials/generative/cvae)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+**Note:** 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的 [官方英文文档](https://tensorflow.google.cn/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到 [tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入 [docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+![训练过程中输出的演变](img/82444fa7539ed0a798d9a1de5aaf147b.png)
+
+本笔记演示了如何通过训练变分自编码器（[1](https://arxiv.org/abs/1312.6114), [2](https://arxiv.org/abs/1401.4082)）来生成手写数字图片。
+
+```py
+# 用于生成 gif
+pip install -q imageio
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+## 导入 Tensorflow 与其他库
+
+```py
+import tensorflow as tf
+
+import os
+import time
+import numpy as np
+import glob
+import matplotlib.pyplot as plt
+import PIL
+import imageio
+
+from IPython import display 
+```
+
+## 加载 MNIST 数据集
+
+每个 MNIST 图片最初都是包含 784 个整数的向量，每个整数取值都在 0-255 之间，表示像素的强度。我们在模型中使用伯努利分布对每个像素进行建模，并对数据集进行静态二值化。
+
+```py
+(train_images, _), (test_images, _) = tf.keras.datasets.mnist.load_data() 
+```
+
+```py
+train_images = train_images.reshape(train_images.shape[0], 28, 28, 1).astype('float32')
+test_images = test_images.reshape(test_images.shape[0], 28, 28, 1).astype('float32')
+
+# 标准化图片到区间 [0., 1.] 内
+train_images /= 255.
+test_images /= 255.
+
+# 二值化
+train_images[train_images >= .5] = 1.
+train_images[train_images < .5] = 0.
+test_images[test_images >= .5] = 1.
+test_images[test_images < .5] = 0. 
+```
+
+```py
+TRAIN_BUF = 60000
+BATCH_SIZE = 100
+
+TEST_BUF = 10000 
+```
+
+## 使用 *tf.data* 来将数据分批和打乱
+
+```py
+train_dataset = tf.data.Dataset.from_tensor_slices(train_images).shuffle(TRAIN_BUF).batch(BATCH_SIZE)
+test_dataset = tf.data.Dataset.from_tensor_slices(test_images).shuffle(TEST_BUF).batch(BATCH_SIZE) 
+```
+
+## 通过 *tf.keras.Sequential* 连接生成网络与推理网络
+
+在我们的 VAE 示例中，我们将两个小型的 ConvNet 用于生成和推断网络。由于这些神经网络较小，我们使用 [`tf.keras.Sequential`](https://tensorflow.google.cn/api_docs/python/tf/keras/Sequential) 来简化代码。在下面的描述中，令 $x$ 和 $z$ 分别表示观测值和潜在变量
+
+### 生成网络
+
+这里定义了生成模型，该模型将潜在编码作为输入，并输出用于观测条件分布的参数，即 $p(x|z)$。另外，我们对潜在变量使用单位高斯先验 $p(z)$。
+
+### 推理网络
+
+这里定义了近似后验分布 $q(z|x)$，该后验分布以观测值作为输入，并输出用于潜在表示的条件分布的一组参数。在本示例中，我们仅将此分布建模为对角高斯模型。在这种情况下，推断网络将输出因式分解的高斯均值和对数方差参数（为了数值稳定性使用对数方差而不是直接使用方差）。
+
+### 重参数化技巧
+
+在优化过程中，我们可以从 $q(z|x)$ 中采样，方法是首先从单位高斯采样，然后乘以标准偏差并加平均值。这样可以确保梯度能够通过样本传递到推理网络参数。
+
+### 网络架构
+
+对于推理网络，我们使用两个卷积层，后接一个全连接层。在生成网络中，我们通过使用全连接层，后接三个卷积转置层（在某些情况下也称为反卷积层）来镜像词体系结构。请注意，在训练 VAE 时避免使用批归一化（batch normalization）是一种常见的做法，因为使用小批量处理会导致额外的随机性，从而加剧随机抽样的不稳定性。
+
+```py
+class CVAE(tf.keras.Model):
+  def __init__(self, latent_dim):
+    super(CVAE, self).__init__()
+    self.latent_dim = latent_dim
+    self.inference_net = tf.keras.Sequential(
+      [
+          tf.keras.layers.InputLayer(input_shape=(28, 28, 1)),
+          tf.keras.layers.Conv2D(
+              filters=32, kernel_size=3, strides=(2, 2), activation='relu'),
+          tf.keras.layers.Conv2D(
+              filters=64, kernel_size=3, strides=(2, 2), activation='relu'),
+          tf.keras.layers.Flatten(),
+          # No activation
+          tf.keras.layers.Dense(latent_dim + latent_dim),
+      ]
+    )
+
+    self.generative_net = tf.keras.Sequential(
+        [
+          tf.keras.layers.InputLayer(input_shape=(latent_dim,)),
+          tf.keras.layers.Dense(units=7*7*32, activation=tf.nn.relu),
+          tf.keras.layers.Reshape(target_shape=(7, 7, 32)),
+          tf.keras.layers.Conv2DTranspose(
+              filters=64,
+              kernel_size=3,
+              strides=(2, 2),
+              padding="SAME",
+              activation='relu'),
+          tf.keras.layers.Conv2DTranspose(
+              filters=32,
+              kernel_size=3,
+              strides=(2, 2),
+              padding="SAME",
+              activation='relu'),
+          # No activation
+          tf.keras.layers.Conv2DTranspose(
+              filters=1, kernel_size=3, strides=(1, 1), padding="SAME"),
+        ]
+    )
+
+  @tf.function
+  def sample(self, eps=None):
+    if eps is None:
+      eps = tf.random.normal(shape=(100, self.latent_dim))
+    return self.decode(eps, apply_sigmoid=True)
+
+  def encode(self, x):
+    mean, logvar = tf.split(self.inference_net(x), num_or_size_splits=2, axis=1)
+    return mean, logvar
+
+  def reparameterize(self, mean, logvar):
+    eps = tf.random.normal(shape=mean.shape)
+    return eps * tf.exp(logvar * .5) + mean
+
+  def decode(self, z, apply_sigmoid=False):
+    logits = self.generative_net(z)
+    if apply_sigmoid:
+      probs = tf.sigmoid(logits)
+      return probs
+
+    return logits 
+```
+
+## 定义损失函数和优化器
+
+VAE 通过最大化边际对数似然的证据下界（ELBO）进行训练：
+
+$$\log p(x) \ge \text{ELBO} = \mathbb{E}_{q(z|x)}\left[\log \frac{p(x, z)}{q(z|x)}\right].$$
+
+实际上，我们优化了此期望的单样本蒙卡特罗估计：
+
+$$\log p(x| z) + \log p(z) - \log q(z|x),$$
+
+其中 $z$ 从 $q(z|x)$ 中采样。
+
+**注意**：我们也可以分析性地计算 KL 项，但简单起见，这里我们将所有三个项合并到蒙卡特罗估计器中。
+
+```py
+optimizer = tf.keras.optimizers.Adam(1e-4)
+
+def log_normal_pdf(sample, mean, logvar, raxis=1):
+  log2pi = tf.math.log(2\. * np.pi)
+  return tf.reduce_sum(
+      -.5 * ((sample - mean) ** 2\. * tf.exp(-logvar) + logvar + log2pi),
+      axis=raxis)
+
+@tf.function
+def compute_loss(model, x):
+  mean, logvar = model.encode(x)
+  z = model.reparameterize(mean, logvar)
+  x_logit = model.decode(z)
+
+  cross_ent = tf.nn.sigmoid_cross_entropy_with_logits(logits=x_logit, labels=x)
+  logpx_z = -tf.reduce_sum(cross_ent, axis=[1, 2, 3])
+  logpz = log_normal_pdf(z, 0., 0.)
+  logqz_x = log_normal_pdf(z, mean, logvar)
+  return -tf.reduce_mean(logpx_z + logpz - logqz_x)
+
+@tf.function
+def compute_apply_gradients(model, x, optimizer):
+  with tf.GradientTape() as tape:
+    loss = compute_loss(model, x)
+  gradients = tape.gradient(loss, model.trainable_variables)
+  optimizer.apply_gradients(zip(gradients, model.trainable_variables)) 
+```
+
+## 训练
+
+*   我们从迭代数据集开始
+*   在每次迭代期间，我们将图像传递给编码器，以获得近似后验 $q(z|x)$ 的一组均值和对数方差参数
+*   然后，我们应用 *重参数化技巧* 从 $q(z|x)$ 中采样
+*   最后，我们将重新参数化的样本传递给解码器，以获取生成分布 $p(x|z)$ 的 logit
+*   **注意：**由于我们使用的是由 keras 加载的数据集，其中训练集中有 6 万个数据点，测试集中有 1 万个数据点，因此我们在测试集上的最终 ELBO 略高于对 Larochelle 版 MNIST 使用动态二值化的文献中的报告结果。
+
+## 生成图片
+
+*   进行训练后，可以生成一些图片了
+*   我们首先从单位高斯先验分布 $p(z)$ 中采样一组潜在向量
+*   随后生成器将潜在样本 $z$ 转换为观测值的 logit，得到分布 $p(x|z)$
+*   这里我们画出伯努利分布的概率
+
+```py
+epochs = 100
+latent_dim = 50
+num_examples_to_generate = 16
+
+# 保持随机向量恒定以进行生成（预测），以便更易于看到改进。
+random_vector_for_generation = tf.random.normal(
+    shape=[num_examples_to_generate, latent_dim])
+model = CVAE(latent_dim) 
+```
+
+```py
+def generate_and_save_images(model, epoch, test_input):
+  predictions = model.sample(test_input)
+  fig = plt.figure(figsize=(4,4))
+
+  for i in range(predictions.shape[0]):
+      plt.subplot(4, 4, i+1)
+      plt.imshow(predictions[i, :, :, 0], cmap='gray')
+      plt.axis('off')
+
+  # tight_layout 最小化两个子图之间的重叠
+  plt.savefig('image_at_epoch_{:04d}.png'.format(epoch))
+  plt.show() 
+```
+
+```py
+generate_and_save_images(model, 0, random_vector_for_generation)
+
+for epoch in range(1, epochs + 1):
+  start_time = time.time()
+  for train_x in train_dataset:
+    compute_apply_gradients(model, train_x, optimizer)
+  end_time = time.time()
+
+  if epoch % 1 == 0:
+    loss = tf.keras.metrics.Mean()
+    for test_x in test_dataset:
+      loss(compute_loss(model, test_x))
+    elbo = -loss.result()
+    display.clear_output(wait=False)
+    print('Epoch: {}, Test set ELBO: {}, '
+          'time elapse for current epoch {}'.format(epoch,
+                                                    elbo,
+                                                    end_time - start_time))
+    generate_and_save_images(
+        model, epoch, random_vector_for_generation) 
+```
+
+```py
+Epoch: 100, Test set ELBO: -77.80061340332031, time elapse for current epoch 1.6898043155670166
+
+```
+
+![png](img/25c5372b82b31daf5535e4f1571434a9.png)
+
+### 使用 epoch 编号显示图片
+
+```py
+def display_image(epoch_no):
+  return PIL.Image.open('image_at_epoch_{:04d}.png'.format(epoch_no)) 
+```
+
+```py
+plt.imshow(display_image(epochs))
+plt.axis('off')# 显示图片 
+```
+
+```py
+(-0.5, 287.5, 287.5, -0.5)
+
+```
+
+![png](img/74d6d6302722b19888cd2b8a076a9899.png)
+
+### 生成所有保存图片的 GIF
+
+```py
+anim_file = 'cvae.gif'
+
+with imageio.get_writer(anim_file, mode='I') as writer:
+  filenames = glob.glob('image*.png')
+  filenames = sorted(filenames)
+  last = -1
+  for i,filename in enumerate(filenames):
+    frame = 2*(i**0.5)
+    if round(frame) > round(last):
+      last = frame
+    else:
+      continue
+    image = imageio.imread(filename)
+    writer.append_data(image)
+  image = imageio.imread(filename)
+  writer.append_data(image)
+
+import IPython
+if IPython.version_info >= (6,2,0,''):
+  display.Image(filename=anim_file) 
+```
+
+如果您正使用 Colab，您可以使用以下代码下载动画。
+
+```py
+try:
+  from google.colab import files
+except ImportError:
+   pass
+else:
+  files.download(anim_file) 
+```
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/068.md b/Tensorflow/TensorFlow2.0/068.md
new file mode 100644
index 00000000..0d022968
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/068.md
@@ -0,0 +1 @@
+# 可解释性
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/069.md b/Tensorflow/TensorFlow2.0/069.md
new file mode 100644
index 00000000..29538d6a
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/069.md
@@ -0,0 +1,600 @@
+# Integrated gradients
+
+> 原文：[https://tensorflow.google.cn/tutorials/interpretability/integrated_gradients](https://tensorflow.google.cn/tutorials/interpretability/integrated_gradients)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+This tutorial demonstrates how to implement **Integrated Gradients (IG)**, an [Explainable AI](https://en.wikipedia.org/wiki/Explainable_artificial_intelligence) technique introduced in the paper [Axiomatic Attribution for Deep Networks](https://arxiv.org/abs/1703.01365). IG aims to explain the relationship between a model's predictions in terms of its features. It has many use cases including understanding feature importances, identifying data skew, and debugging model performance.
+
+IG has become a popular interpretability technique due to its broad applicability to any differentiable model (e.g. images, text, structured data), ease of implementation, theoretical justifications, and computational efficiency relative to alternative approaches that allows it to scale to large networks and feature spaces such as images.
+
+In this tutorial, you will walk through an implementation of IG step-by-step to understand the pixel feature importances of an image classifier. As an example, consider this [image](https://commons.wikimedia.org/wiki/File:San_Francisco_fireboat_showing_off.jpg) of a fireboat spraying jets of water. You would classify this image as a fireboat and might highlight the pixels making up the boat and water cannons as being important to your decision. Your model will also classify this image as a fireboat later on in this tutorial; however, does it highlight the same pixels as important when explaining its decision?
+
+In the images below titled "IG Attribution Mask" and "Original + IG Mask Overlay" you can see that your model instead highlights (in purple) the pixels comprising the boat's water cannons and jets of water as being more important than the boat itself to its decision. How will your model generalize to new fireboats? What about fireboats without water jets? Read on to learn more about how IG works and how to apply IG to your models to better understand the relationship between their predictions and underlying features.
+
+![Output Image 1](img/8350c367e4679800cd155cf00a343b47.png)
+
+## Setup
+
+```py
+import matplotlib.pylab as plt
+import numpy as np
+import tensorflow as tf
+import tensorflow_hub as hub 
+```
+
+### Download a pretrained image classifier from TF-Hub
+
+IG can be applied to any differentiable model. In the spirit of the original paper, you will use a pre-trained version of the same model, Inception V1, which you will download from [TensorFlow Hub](https://hub.tensorflow.google.cn/google/imagenet/inception_v1/classification/4).
+
+```py
+model = tf.keras.Sequential([
+    hub.KerasLayer(
+        name='inception_v1',
+        handle='https://hub.tensorflow.google.cn/google/imagenet/inception_v1/classification/4',
+        trainable=False),
+])
+model.build([None, 224, 224, 3])
+model.summary() 
+```
+
+```py
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #   
+=================================================================
+inception_v1 (KerasLayer)    (None, 1001)              6633209   
+=================================================================
+Total params: 6,633,209
+Trainable params: 0
+Non-trainable params: 6,633,209
+_________________________________________________________________
+
+```
+
+From the module page, you need to keep in mind the following about Inception V1:
+
+**Inputs**: The expected input shape for the model is `(None, 224, 224, 3)`. This is a dense 4D tensor of dtype float32 and shape `(batch_size, height, width, RGB channels)` whose elements are RGB color values of pixels normalized to the range [0, 1]. The first element is `None` to indicate that the model can take any integer batch size.
+
+**Outputs**: A [`tf.Tensor`](https://tensorflow.google.cn/api_docs/python/tf/Tensor) of logits in the shape of `(batch_size, 1001)`. Each row represents the model's predicted score for each of 1,001 classes from ImageNet. For the model's top predicted class index you can use `tf.argmax(predictions, axis=-1)`. Furthermore, you can also convert the model's logit output to predicted probabilities across all classes using `tf.nn.softmax(predictions, axis=-1)` to quantify the model's uncertainty as well as explore similar predicted classes for debugging.
+
+```py
+def load_imagenet_labels(file_path):
+  labels_file = tf.keras.utils.get_file('ImageNetLabels.txt', file_path)
+  with open(labels_file) as reader:
+    f = reader.read()
+    labels = f.splitlines()
+  return np.array(labels) 
+```
+
+```py
+imagenet_labels = load_imagenet_labels('https://storage.googleapis.com/download.tensorflow.org/data/ImageNetLabels.txt') 
+```
+
+### Load and preprocess images with [`tf.image`](https://tensorflow.google.cn/api_docs/python/tf/image)
+
+You will illustrate IG using two images from [Wikimedia Commons](https://commons.wikimedia.org/wiki/Main_Page): a [Fireboat](https://commons.wikimedia.org/wiki/File:San_Francisco_fireboat_showing_off.jpg), and a [Giant Panda](https://commons.wikimedia.org/wiki/File:Giant_Panda_2.JPG).
+
+```py
+def read_image(file_name):
+  image = tf.io.read_file(file_name)
+  image = tf.image.decode_jpeg(image, channels=3)
+  image = tf.image.convert_image_dtype(image, tf.float32)
+  image = tf.image.resize_with_pad(image, target_height=224, target_width=224)
+  return image 
+```
+
+```py
+img_url = {
+    'Fireboat': 'http://storage.googleapis.com/download.tensorflow.org/example_images/San_Francisco_fireboat_showing_off.jpg',
+    'Giant Panda': 'http://storage.googleapis.com/download.tensorflow.org/example_images/Giant_Panda_2.jpeg',
+}
+
+img_paths = {name: tf.keras.utils.get_file(name, url) for (name, url) in img_url.items()}
+img_name_tensors = {name: read_image(img_path) for (name, img_path) in img_paths.items()} 
+```
+
+```py
+Downloading data from http://storage.googleapis.com/download.tensorflow.org/example_images/San_Francisco_fireboat_showing_off.jpg
+3956736/3954129 [==============================] - 0s 0us/step
+Downloading data from http://storage.googleapis.com/download.tensorflow.org/example_images/Giant_Panda_2.jpeg
+811008/802859 [==============================] - 0s 0us/step
+
+```
+
+```py
+plt.figure(figsize=(8, 8))
+for n, (name, img_tensors) in enumerate(img_name_tensors.items()):
+  ax = plt.subplot(1, 2, n+1)
+  ax.imshow(img_tensors)
+  ax.set_title(name)
+  ax.axis('off')
+plt.tight_layout() 
+```
+
+![png](img/e68189c9da69b7848e9033d29a0dc574.png)
+
+### Classify images
+
+Let's start by classifying these images and displaying the top 3 most confident predictions. Following is a utility function to retrieve the top k predicted labels and probabilities.
+
+```py
+def top_k_predictions(img, k=3):
+  image_batch = tf.expand_dims(img, 0)
+  predictions = model(image_batch)
+  probs = tf.nn.softmax(predictions, axis=-1)
+  top_probs, top_idxs = tf.math.top_k(input=probs, k=k)
+  top_labels = imagenet_labels[tuple(top_idxs)]
+  return top_labels, top_probs[0] 
+```
+
+```py
+for (name, img_tensor) in img_name_tensors.items():
+  plt.imshow(img_tensor)
+  plt.title(name, fontweight='bold')
+  plt.axis('off')
+  plt.show()
+
+  pred_label, pred_prob = top_k_predictions(img_tensor)
+  for label, prob in zip(pred_label, pred_prob):
+    print(f'{label}: {prob:0.1%}') 
+```
+
+![png](img/518bc2d08038969576066eb381910cc1.png)
+
+```py
+fireboat: 32.6%
+pier: 12.7%
+suspension bridge: 5.7%
+
+```
+
+![png](img/fecda9bde6f4c7551c164dc066491cb5.png)
+
+```py
+giant panda: 89.4%
+teddy: 0.3%
+gibbon: 0.3%
+
+```
+
+## Calculate Integrated Gradients
+
+Your model, Inception V1, is a learned function that describes a mapping between your input feature space, image pixel values, and an output space defined by ImageNet class probability values between 0 and 1\. Early interpretability methods for neural networks assigned feature importance scores using gradients, which tell you which pixels have the steepest local relative to your model's prediction at a given point along your model's prediction function. However, gradients only describe *local* changes in your model's prediction function with respect to pixel values and do not fully describe your entire model prediction function. As your model fully "learns" the relationship between the range of an individual pixel and the correct ImageNet class, the gradient for this pixel will *saturate*, meaning become increasingly small and even go to zero. Consider the simple model function below:
+
+```py
+def f(x):
+  """A simplified model function."""
+  return tf.where(x < 0.8, x, 0.8)
+
+def interpolated_path(x):
+  """A straight line path."""
+  return tf.zeros_like(x)
+
+x = tf.linspace(start=0.0, stop=1.0, num=6)
+y = f(x) 
+```
+
+```py
+fig = plt.figure(figsize=(12, 5))
+ax0 = fig.add_subplot(121)
+ax0.plot(x, f(x), marker='o')
+ax0.set_title('Gradients saturate over F(x)', fontweight='bold')
+ax0.text(0.2, 0.5, 'Gradients > 0 = \n x is important')
+ax0.text(0.7, 0.85, 'Gradients = 0 \n x not important')
+ax0.set_yticks(tf.range(0, 1.5, 0.5))
+ax0.set_xticks(tf.range(0, 1.5, 0.5))
+ax0.set_ylabel('F(x) - model true class predicted probability')
+ax0.set_xlabel('x - (pixel value)')
+
+ax1 = fig.add_subplot(122)
+ax1.plot(x, f(x), marker='o')
+ax1.plot(x, interpolated_path(x), marker='>')
+ax1.set_title('IG intuition', fontweight='bold')
+ax1.text(0.25, 0.1, 'Accumulate gradients along path')
+ax1.set_ylabel('F(x) - model true class predicted probability')
+ax1.set_xlabel('x - (pixel value)')
+ax1.set_yticks(tf.range(0, 1.5, 0.5))
+ax1.set_xticks(tf.range(0, 1.5, 0.5))
+ax1.annotate('Baseline', xy=(0.0, 0.0), xytext=(0.0, 0.2),
+             arrowprops=dict(facecolor='black', shrink=0.1))
+ax1.annotate('Input', xy=(1.0, 0.0), xytext=(0.95, 0.2),
+             arrowprops=dict(facecolor='black', shrink=0.1))
+plt.show(); 
+```
+
+![png](img/6d8da708f09878fc993e75adb40fd2a1.png)
+
+*   **left**: Your model's gradients for pixel `x` are positive between 0.0 and 0.8 but go to 0.0 between 0.8 and 1.0\. Pixel `x` clearly has a significant impact on pushing your model toward 80% predicted probability on the true class. *Does it make sense that pixel `x`'s importance is small or discontinuous?*
+
+*   **right**: The intuition behind IG is to accumulate pixel `x`'s local gradients and attribute its importance as a score for how much it adds or subtracts to your model's overall output class probability. You can break down and compute IG in 3 parts:
+
+    1.  interpolate small steps along a straight line in the feature space between 0 (a baseline or starting point) and 1 (input pixel's value)
+    2.  compute gradients at each step between your model's predictions with respect to each step
+    3.  approximate the integral between your baseline and input by accumulating (cumulative average) these local gradients.
+
+To reinforce this intuition, you will walk through these 3 parts by applying IG to the example "Fireboat" image below.
+
+### Establish a baseline
+
+A baseline is an input image used as a starting point for calculating feature importance. Intuitively, you can think of the baseline's explanatory role as representing the impact of the absence of each pixel on the "Fireboat" prediction to contrast with its impact of each pixel on the "Fireboat" prediction when present in the input image. As a result, the choice of the baseline plays a central role in interpreting and visualizing pixel feature importances. For additional discussion of baseline selection, see the resources in the "Next steps" section at the bottom of this tutorial. Here, you will use a black image whose pixel values are all zero.
+
+Other choices you could experiment with include an all white image, or a random image, which you can create with `tf.random.uniform(shape=(224,224,3), minval=0.0, maxval=1.0)`.
+
+```py
+baseline = tf.zeros(shape=(224,224,3)) 
+```
+
+```py
+plt.imshow(baseline)
+plt.title("Baseline")
+plt.axis('off')
+plt.show() 
+```
+
+![png](img/3e1bc64db4c260d2327ca5a9defae306.png)
+
+### Unpack formulas into code
+
+The formula for Integrated Gradients is as follows:
+
+$IntegratedGradients_{i}(x) ::= (x_{i} - x'_{i})\times\int_{\alpha=0}^1\frac{\partial F(x'+\alpha \times (x - x'))}{\partial x_i}{d\alpha}$
+
+where:
+
+$_{i}$ = feature
+$x$ = input
+$x'$ = baseline
+$\alpha$ = interpolation constant to perturbe features by
+
+In practice, computing a definite integral is not always numerically possible and can be computationally costly, so you compute the following numerical approximation:
+
+$IntegratedGrads^{approx}_{i}(x)::=(x_{i}-x'_{i})\times\sum_{k=1}^{m}\frac{\partial F(x' + \frac{k}{m}\times(x - x'))}{\partial x_{i} } \times \frac{1}{m}$
+
+where:
+
+$_{i}$ = feature (individual pixel)
+$x$ = input (image tensor)
+$x'$ = baseline (image tensor)
+$k$ = scaled feature perturbation constant
+$m$ = number of steps in the Riemann sum approximation of the integral
+$(x_{i}-x'_{i})$ = a term for the difference from the baseline. This is necessary to scale the integrated gradients and keep them in terms of the original image. The path from the baseline image to the input is in pixel space. Since with IG you are integrating in a straight line (linear transformation) this ends up being roughly equivalent to the integral term of the derivative of the interpolated image function with respect to $\alpha$ with enough steps. The integral sums each pixel's gradient times the change in the pixel along the path. It's simpler to implement this integration as uniform steps from one image to the other, substituting $x := (x' + \alpha(x-x'))$. So the change of variables gives $dx = (x-x')d\alpha$. The $(x-x')$ term is constant and is factored out of the integral.
+
+### Interpolate images
+
+$IntegratedGrads^{approx}_{i}(x)::=(x_{i}-x'_{i})\times\sum_{k=1}^{m}\frac{\partial F(\overbrace{x' + \frac{k}{m}\times(x - x')}^\text{interpolate m images at k intervals})}{\partial x_{i} } \times \frac{1}{m}$
+
+First, you will generate a [linear interpolation](https://en.wikipedia.org/wiki/Linear_interpolation) between the baseline and the original image. You can think of interpolated images as small steps in the feature space between your baseline and input, represented by $\alpha$ in the original equation.
+
+```py
+m_steps=50
+alphas = tf.linspace(start=0.0, stop=1.0, num=m_steps+1) # Generate m_steps intervals for integral_approximation() below. 
+```
+
+```py
+def interpolate_images(baseline,
+                       image,
+                       alphas):
+  alphas_x = alphas[:, tf.newaxis, tf.newaxis, tf.newaxis]
+  baseline_x = tf.expand_dims(baseline, axis=0)
+  input_x = tf.expand_dims(image, axis=0)
+  delta = input_x - baseline_x
+  images = baseline_x +  alphas_x * delta
+  return images 
+```
+
+Let's use the above function to generate interpolated images along a linear path at alpha intervals between a black baseline image and the example "Fireboat" image.
+
+```py
+interpolated_images = interpolate_images(
+    baseline=baseline,
+    image=img_name_tensors['Fireboat'],
+    alphas=alphas) 
+```
+
+Let's visualize the interpolated images. Note: another way of thinking about the $\alpha$ constant is that it is consistently increasing each interpolated image's intensity.
+
+```py
+fig = plt.figure(figsize=(20, 20))
+
+i = 0
+for alpha, image in zip(alphas[0::10], interpolated_images[0::10]):
+  i += 1
+  plt.subplot(1, len(alphas[0::10]), i)
+  plt.title(f'alpha: {alpha:.1f}')
+  plt.imshow(image)
+  plt.axis('off')
+
+plt.tight_layout(); 
+```
+
+![png](img/e2e6d59bb8ebd47a957558d11e836ec1.png)
+
+### Compute gradients
+
+Now let's take a look at how to calculate gradients in order to measure the relationship between changes to a feature and changes in the model's predictions. In the case of images, the gradient tells us which pixels have the strongest effect on the models predicted class probabilities.
+
+$IntegratedGrads^{approx}_{i}(x)::=(x_{i}-x'_{i})\times\sum_{k=1}^{m}\frac{\overbrace{\partial F(\text{interpolated images})}^\text{compute gradients} }{\partial x_{i} } \times \frac{1}{m}$
+
+where:
+$F()$ = your model's prediction function
+$\frac{\partial{F} }{\partial{x_i} }$ = gradient (vector of partial derivatives $\partial$) of your model F's prediction function relative to each feature $x_i$
+
+TensorFlow makes computing gradients easy for you with a [`tf.GradientTape`](https://tensorflow.google.cn/api_docs/python/tf/GradientTape).
+
+```py
+def compute_gradients(images, target_class_idx):
+  with tf.GradientTape() as tape:
+    tape.watch(images)
+    logits = model(images)
+    probs = tf.nn.softmax(logits, axis=-1)[:, target_class_idx]
+  return tape.gradient(probs, images) 
+```
+
+Let's compute the gradients for each image along the interpolation path with respect to the correct output. Recall that your model returns a `(1, 1001)` shaped `Tensor` with logits that you convert to predicted probabilities for each class. You need to pass the correct ImageNet target class index to the `compute_gradients` function for your image.
+
+```py
+path_gradients = compute_gradients(
+    images=interpolated_images,
+    target_class_idx=555) 
+```
+
+Note the output shape of `(n_interpolated_images, img_height, img_width, RGB)`, which gives us the gradient for every pixel of every image along the interpolation path. You can think of these gradients as measuring the change in your model's predictions for each small step in the feature space.
+
+```py
+print(path_gradients.shape) 
+```
+
+```py
+(51, 224, 224, 3)
+
+```
+
+**Visualizing gradient saturation**
+
+Recall that the gradients you just calculated above describe *local* changes to your model's predicted probability of "Fireboat" and can *saturate*.
+
+These concepts are visualized using the gradients you calculated above in the 2 plots below.
+
+```py
+pred = model(interpolated_images)
+pred_proba = tf.nn.softmax(pred, axis=-1)[:, 555]
+
+plt.figure(figsize=(10, 4))
+ax1 = plt.subplot(1, 2, 1)
+ax1.plot(alphas, pred_proba)
+ax1.set_title('Target class predicted probability over alpha')
+ax1.set_ylabel('model p(target class)')
+ax1.set_xlabel('alpha')
+ax1.set_ylim([0, 1])
+
+ax2 = plt.subplot(1, 2, 2)
+# Average across interpolation steps
+average_grads = tf.reduce_mean(path_gradients, axis=[1, 2, 3])
+# Normalize gradients to 0 to 1 scale. E.g. (x - min(x))/(max(x)-min(x))
+average_grads_norm = (average_grads-tf.math.reduce_min(average_grads))/(tf.math.reduce_max(average_grads)-tf.reduce_min(average_grads))
+ax2.plot(alphas, average_grads_norm)
+ax2.set_title('Average pixel gradients (normalized) over alpha')
+ax2.set_ylabel('Average pixel gradients')
+ax2.set_xlabel('alpha')
+ax2.set_ylim([0, 1]); 
+```
+
+```py
+(0.0, 1.0)
+
+```
+
+![png](img/0b0835e78f54f2c464c9df77cfe6a93b.png)
+
+*   **left**: This plot shows how your model's confidence in the "Fireboat" class varies across alphas. Notice how the gradients, or slope of the line, largely flattens or saturates between 0.6 and 1.0 before settling at the final "Fireboat" predicted probability of about 40%.
+
+*   **right**: The right plot shows the average gradients magnitudes over alpha more directly. Note how the values sharply approach and even briefly dip below zero. In fact, your model "learns" the most from gradients at lower values of alpha before saturating. Intuitively, you can think of this as your model has learned the pixels e.g. water cannons to make the correct prediction, sending these pixels gradients to zero, but is still quite uncertain and focused on spurious bridge or water jet pixels as the alpha values approach the original input image.
+
+To make sure these important water cannon pixels are reflected as important to the "Fireboat" prediction, you will continue on below to learn how to accumulate these gradients to accurately approximate how each pixel impacts your "Fireboat" predicted probability.
+
+### Accumulate gradients (integral approximation)
+
+There are many different ways you can go about computing the numerical approximation of an integral for IG with different tradeoffs in accuracy and convergence across varying functions. A popular class of methods is called [Riemann sums](https://en.wikipedia.org/wiki/Riemann_sum). Here, you will use the Trapezoidal rule (you can find additional code to explore different approximation methods at the end of this tutorial).
+
+$IntegratedGrads^{approx}_{i}(x)::=(x_{i}-x'_{i})\times \overbrace{\sum_{k=1}^{m} }^\text{Sum m local gradients} \text{gradients(interpolated images)} \times \overbrace{\frac{1}{m} }^\text{Divide by m steps}$
+
+From the equation, you can see you are summing over `m` gradients and dividing by `m` steps. You can implement the two operations together for part 3 as an *average of the local gradients of `m` interpolated predictions and input images*.
+
+```py
+def integral_approximation(gradients):
+  # riemann_trapezoidal
+  grads = (gradients[:-1] + gradients[1:]) / tf.constant(2.0)
+  integrated_gradients = tf.math.reduce_mean(grads, axis=0)
+  return integrated_gradients 
+```
+
+The `integral_approximation` function takes the gradients of the predicted probability of the target class with respect to the interpolated images between the baseline and the original image.
+
+```py
+ig = integral_approximation(
+    gradients=path_gradients) 
+```
+
+You can confirm averaging across the gradients of `m` interpolated images returns an integrated gradients tensor with the same shape as the original "Giant Panda" image.
+
+```py
+print(ig.shape) 
+```
+
+```py
+(224, 224, 3)
+
+```
+
+### Putting it all together
+
+Now you will combine the 3 previous general parts together into an `IntegratedGradients` function and utilize a [@tf.function](https://tensorflow.google.cn/guide/function) decorator to compile it into a high performance callable TensorFlow graph. This is implemented as 5 smaller steps below:
+
+$IntegratedGrads^{approx}_{i}(x)::=\overbrace{(x_{i}-x'_{i})}^\text{5.}\times \overbrace{\sum_{k=1}^{m} }^\text{4.} \frac{\partial \overbrace{F(\overbrace{x' + \overbrace{\frac{k}{m} }^\text{1.}\times(x - x'))}^\text{2.} }^\text{3.} }{\partial x_{i} } \times \overbrace{\frac{1}{m} }^\text{4.}$
+
+1.  Generate alphas $\alpha$
+
+2.  Generate interpolated images = $(x' + \frac{k}{m}\times(x - x'))$
+
+3.  Compute gradients between model $F$ output predictions with respect to input features = $\frac{\partial F(\text{interpolated path inputs})}{\partial x_{i} }$
+
+4.  Integral approximation through averaging gradients = $\sum_{k=1}^m \text{gradients} \times \frac{1}{m}$
+
+5.  Scale integrated gradients with respect to original image = $(x_{i}-x'_{i}) \times \text{integrated gradients}$. The reason this step is necessary is to make sure that the attribution values accumulated across multiple interpolated images are in the same units and faithfully represent the pixel importances on the original image.
+
+```py
+@tf.function
+def integrated_gradients(baseline,
+                         image,
+                         target_class_idx,
+                         m_steps=50,
+                         batch_size=32):
+  # 1\. Generate alphas.
+  alphas = tf.linspace(start=0.0, stop=1.0, num=m_steps+1)
+
+  # Initialize TensorArray outside loop to collect gradients.    
+  gradient_batches = tf.TensorArray(tf.float32, size=m_steps+1)
+
+  # Iterate alphas range and batch computation for speed, memory efficiency, and scaling to larger m_steps.
+  for alpha in tf.range(0, len(alphas), batch_size):
+    from_ = alpha
+    to = tf.minimum(from_ + batch_size, len(alphas))
+    alpha_batch = alphas[from_:to]
+
+    # 2\. Generate interpolated inputs between baseline and input.
+    interpolated_path_input_batch = interpolate_images(baseline=baseline,
+                                                       image=image,
+                                                       alphas=alpha_batch)
+
+    # 3\. Compute gradients between model outputs and interpolated inputs.
+    gradient_batch = compute_gradients(images=interpolated_path_input_batch,
+                                       target_class_idx=target_class_idx)
+
+    # Write batch indices and gradients to extend TensorArray.
+    gradient_batches = gradient_batches.scatter(tf.range(from_, to), gradient_batch)    
+
+  # Stack path gradients together row-wise into single tensor.
+  total_gradients = gradient_batches.stack()
+
+  # 4\. Integral approximation through averaging gradients.
+  avg_gradients = integral_approximation(gradients=total_gradients)
+
+  # 5\. Scale integrated gradients with respect to input.
+  integrated_gradients = (image - baseline) * avg_gradients
+
+  return integrated_gradients 
+```
+
+```py
+ig_attributions = integrated_gradients(baseline=baseline,
+                                       image=img_name_tensors['Fireboat'],
+                                       target_class_idx=555,
+                                       m_steps=240) 
+```
+
+Again, you can check that the IG feature attributions have the same shape as the input "Fireboat" image.
+
+```py
+print(ig_attributions.shape) 
+```
+
+```py
+(224, 224, 3)
+
+```
+
+The paper suggests the number of steps to range between 20 to 300 depending upon the example (although in practice this can be higher in the 1,000s to accurately approximate the integral). You can find additional code to check for the appropriate number of steps in the "Next steps" resources at the end of this tutorial.
+
+### Visualize attributions
+
+You are ready to visualize attributions, and overlay them on the original image. The code below sums the absolute values of the integrated gradients across the color channels to produce an attribution mask. This plotting method captures the relative impact of pixels on the model's predictions.
+
+```py
+def plot_img_attributions(baseline,
+                          image,
+                          target_class_idx,
+                          m_steps=50,
+                          cmap=None,
+                          overlay_alpha=0.4):
+
+  attributions = integrated_gradients(baseline=baseline,
+                                      image=image,
+                                      target_class_idx=target_class_idx,
+                                      m_steps=m_steps)
+
+  # Sum of the attributions across color channels for visualization.
+  # The attribution mask shape is a grayscale image with height and width
+  # equal to the original image.
+  attribution_mask = tf.reduce_sum(tf.math.abs(attributions), axis=-1)
+
+  fig, axs = plt.subplots(nrows=2, ncols=2, squeeze=False, figsize=(8, 8))
+
+  axs[0, 0].set_title('Baseline image')
+  axs[0, 0].imshow(baseline)
+  axs[0, 0].axis('off')
+
+  axs[0, 1].set_title('Original image')
+  axs[0, 1].imshow(image)
+  axs[0, 1].axis('off')
+
+  axs[1, 0].set_title('Attribution mask')
+  axs[1, 0].imshow(attribution_mask, cmap=cmap)
+  axs[1, 0].axis('off')
+
+  axs[1, 1].set_title('Overlay')
+  axs[1, 1].imshow(attribution_mask, cmap=cmap)
+  axs[1, 1].imshow(image, alpha=overlay_alpha)
+  axs[1, 1].axis('off')
+
+  plt.tight_layout()
+  return fig 
+```
+
+Looking at the attributions on the "Fireboat" image, you can see the model identifies the water cannons and spouts as contributing to its correct prediction.
+
+```py
+_ = plot_img_attributions(image=img_name_tensors['Fireboat'],
+                          baseline=baseline,
+                          target_class_idx=555,
+                          m_steps=240,
+                          cmap=plt.cm.inferno,
+                          overlay_alpha=0.4) 
+```
+
+![png](img/29af5825a7303165115c9cfbc59ae606.png)
+
+On the "Giant Panda" image, the attributions highlight the texture, nose, and the fur of the Panda's face.
+
+```py
+_ = plot_img_attributions(image=img_name_tensors['Giant Panda'],
+                          baseline=baseline,
+                          target_class_idx=389,
+                          m_steps=55,
+                          cmap=plt.cm.viridis,
+                          overlay_alpha=0.5) 
+```
+
+![png](img/07f89687b786f68c1561b81ac448c45e.png)
+
+## Uses and limitations
+
+Use cases
+
+*   Employing techniques like Integrated Gradients before deploying your model can help you develop intuition for how and why it works. Do the features highlighted by this technique match your intuition? If not, that may be indicative of a bug in your model or dataset, or overfitting.
+
+Limitations
+
+*   Integrated Gradients provides feature importances on individual examples, however, it does not provide global feature importances across an entire dataset.
+
+*   Integrated Gradients provides individual feature importances, but it does not explain feature interactions and combinations.
+
+## Next steps
+
+This tutorial presented a basic implementation of Integrated Gradients. As a next step, you can use this notebook to try this technique with different models and images yourself.
+
+For interested readers, there is a lengthier version of this tutorial (which includes code for different baselines, to compute integral approximations, and to determine a sufficient number of steps) which you can find [here](https://github.com/GoogleCloudPlatform/training-data-analyst/tree/master/blogs/integrated_gradients).
+
+To deepen your understanding, check out the paper [Axiomatic Attribution for Deep Networks](https://arxiv.org/abs/1703.01365) and [Github repository](https://github.com/ankurtaly/Integrated-Gradients), which contains an implementation in a previous version of TensorFlow. You can also explore feature attribution, and the impact of different baselines, on [distill.pub](https://distill.pub/2020/attribution-baselines/).
+
+Interested in incorporating IG into your production machine learning workflows for feature importances, model error analysis, and data skew monitoring? Check out Google Cloud's [Explainable AI](https://cloud.google.com/explainable-ai) product that supports IG attributions. The Google AI PAIR research group also open-sourced the [What-if tool](https://pair-code.github.io/what-if-tool/index.html#about) which can be used for model debugging, including visualizing IG feature attributions.
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/070.md b/Tensorflow/TensorFlow2.0/070.md
new file mode 100644
index 00000000..f9d86906
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/070.md
@@ -0,0 +1 @@
+# 强化学习
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/071.md b/Tensorflow/TensorFlow2.0/071.md
new file mode 100644
index 00000000..4af3cf7a
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/071.md
@@ -0,0 +1,476 @@
+# Playing CartPole with the Actor-Critic Method
+
+> 原文：[https://tensorflow.google.cn/tutorials/reinforcement_learning/actor_critic](https://tensorflow.google.cn/tutorials/reinforcement_learning/actor_critic)
+
+<devsite-mathjax config="TeX-AMS-MML_SVG"></devsite-mathjax>
+
+This tutorial demonstrates how to implement the [Actor-Critic](https://papers.nips.cc/paper/1786-actor-critic-algorithms.pdf) method using TensorFlow to train an agent on the [Open AI Gym](https://gym.openai.com/) CartPole-V0 environment. The reader is assumed to have some familiarity with [policy gradient methods](https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf) of reinforcement learning.
+
+**Actor-Critic methods**
+
+Actor-Critic methods are [temporal difference (TD) learning](https://en.wikipedia.org/wiki/Temporal_difference_learning) methods that represent the policy function independent of the value function.
+
+A policy function (or policy) returns a probability distribution over actions that the agent can take based on the given state. A value function determines the expected return for an agent starting at a given state and acting according to a particular policy forever after.
+
+In the Actor-Critic method, the policy is referred to as the *actor* that proposes a set of possible actions given a state, and the estimated value function is referred to as the *critic*, which evaluates actions taken by the *actor* based on the given policy.
+
+In this tutorial, both the *Actor* and *Critic* will be represented using one neural network with two outputs.
+
+**CartPole-v0**
+
+In the [CartPole-v0 environment](https://gym.openai.com/envs/CartPole-v0), a pole is attached to a cart moving along a frictionless track. The pole starts upright and the goal of the agent is to prevent it from falling over by applying a force of -1 or +1 to the cart. A reward of +1 is given for every time step the pole remains upright. An episode ends when (1) the pole is more than 15 degrees from vertical or (2) the cart moves more than 2.4 units from the center.
+
+<center>
+
+<figure>![](/tutorials/reinforcement_learning/images/cartpole-v0.gif)
+
+<figcaption>Trained actor-critic model in Cartpole-v0 environment</figcaption>
+
+</figure>
+
+</center>
+
+The problem is considered "solved" when the average total reward for the episode reaches 195 over 100 consecutive trials.
+
+## Setup
+
+Import necessary packages and configure global settings.
+
+```py
+pip install -q gym
+
+```
+
+```py
+WARNING: You are using pip version 20.2.2; however, version 20.2.3 is available.
+You should consider upgrading via the '/tmpfs/src/tf_docs_env/bin/python -m pip install --upgrade pip' command.
+
+```
+
+```py
+# Install additional packages for visualization
+sudo apt-get install -y xvfb python-opengl > /dev/null 2>&1
+pip install -q pyvirtualdisplay > /dev/null 2>&1
+pip install -q git+https://github.com/tensorflow/docs > /dev/null 2>&1
+
+```
+
+```py
+import collections
+import gym
+import numpy as np
+import tensorflow as tf
+import tqdm
+
+from matplotlib import pyplot as plt
+from tensorflow.keras import layers
+from typing import Any, List, Sequence, Tuple
+
+# Create the environment
+env = gym.make("CartPole-v0")
+
+# Set seed for experiment reproducibility
+seed = 42
+env.seed(seed)
+tf.random.set_seed(seed)
+np.random.seed(seed)
+
+# Small epsilon value for stabilizing division operations
+eps = np.finfo(np.float32).eps.item() 
+```
+
+## Model
+
+The *Actor* and *Critic* will be modeled using one neural network that generates the action probabilities and critic value respectively. We use model subclassing to define the model.
+
+During the forward pass, the model will take in the state as the input and will output both action probabilities and critic value $V$, which models the state-dependent [value function](https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#value-functions). The goal is to train a model that chooses actions based on a policy $\pi$ that maximizes expected [return](https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#reward-and-return).
+
+For Cartpole-v0, there are four values representing the state: cart position, cart-velocity, pole angle and pole velocity respectively. The agent can take two actions to push the cart left (0) and right (1) respectively.
+
+Refer to [OpenAI Gym's CartPole-v0 wiki page](http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf) for more information.
+
+```py
+class ActorCritic(tf.keras.Model):
+  """Combined actor-critic network."""
+
+  def __init__(
+      self, 
+      num_actions: int, 
+      num_hidden_units: int):
+    """Initialize."""
+    super().__init__()
+
+    self.common = layers.Dense(num_hidden_units, activation="relu")
+    self.actor = layers.Dense(num_actions)
+    self.critic = layers.Dense(1)
+
+  def call(self, inputs: tf.Tensor) -> Tuple[tf.Tensor, tf.Tensor]:
+    x = self.common(inputs)
+    return self.actor(x), self.critic(x) 
+```
+
+```py
+num_actions = env.action_space.n  # 2
+num_hidden_units = 128
+
+model = ActorCritic(num_actions, num_hidden_units) 
+```
+
+## Training
+
+To train the agent, you will follow these steps:
+
+1.  Run the agent on the environment to collect training data per episode.
+2.  Compute expected return at each time step.
+3.  Compute the loss for the combined actor-critic model.
+4.  Compute gradients and update network parameters.
+5.  Repeat 1-4 until either success criterion or max episodes has been reached.
+
+### 1\. Collecting training data
+
+As in supervised learning, in order to train the actor-critic model, we need to have training data. However, in order to collect such data, the model would need to be "run" in the environment.
+
+We collect training data for each episode. Then at each time step, the model's forward pass will be run on the environment's state in order to generate action probabilities and the critic value based on the current policy parameterized by the model's weights.
+
+The next action will be sampled from the action probabilities generated by the model, which would then be applied to the environment, causing the next state and reward to be generated.
+
+This process is implemented in the `run_episode` function, which uses TensorFlow operations so that it can later be compiled into a TensorFlow graph for faster training. Note that [`tf.TensorArray`](https://tensorflow.google.cn/api_docs/python/tf/TensorArray)s were used to support Tensor iteration on variable length arrays.
+
+```py
+# Wrap OpenAI Gym's `env.step` call as an operation in a TensorFlow function.
+# This would allow it to be included in a callable TensorFlow graph.
+
+def env_step(action: np.ndarray) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
+  """Returns state, reward and done flag given an action."""
+
+  state, reward, done, _ = env.step(action)
+  return (state.astype(np.float32), 
+          np.array(reward, np.int32), 
+          np.array(done, np.int32))
+
+def tf_env_step(action: tf.Tensor) -> List[tf.Tensor]:
+  return tf.numpy_function(env_step, [action], 
+                           [tf.float32, tf.int32, tf.int32]) 
+```
+
+```py
+def run_episode(
+    initial_state: tf.Tensor,  
+    model: tf.keras.Model, 
+    max_steps: int) -> List[tf.Tensor]:
+  """Runs a single episode to collect training data."""
+
+  action_probs = tf.TensorArray(dtype=tf.float32, size=0, dynamic_size=True)
+  values = tf.TensorArray(dtype=tf.float32, size=0, dynamic_size=True)
+  rewards = tf.TensorArray(dtype=tf.int32, size=0, dynamic_size=True)
+
+  initial_state_shape = initial_state.shape
+  state = initial_state
+
+  for t in tf.range(max_steps):
+    # Convert state into a batched tensor (batch size = 1)
+    state = tf.expand_dims(state, 0)
+
+    # Run the model and to get action probabilities and critic value
+    action_logits_t, value = model(state)
+
+    # Sample next action from the action probability distribution
+    action = tf.random.categorical(action_logits_t, 1)[0, 0]
+    action_probs_t = tf.nn.softmax(action_logits_t)
+
+    # Store critic values
+    values = values.write(t, tf.squeeze(value))
+
+    # Store log probability of the action chosen
+    action_probs = action_probs.write(t, action_probs_t[0, action])
+
+    # Apply action to the environment to get next state and reward
+    state, reward, done = tf_env_step(action)
+    state.set_shape(initial_state_shape)
+
+    # Store reward
+    rewards = rewards.write(t, reward)
+
+    if tf.cast(done, tf.bool):
+      break
+
+  action_probs = action_probs.stack()
+  values = values.stack()
+  rewards = rewards.stack()
+
+  return action_probs, values, rewards 
+```
+
+### 2\. Computing expected returns
+
+We convert the sequence of rewards for each timestep $t$, ${r_{t}}^{T}_{t=1}$ collected during one episode into a sequence of expected returns ${G_{t}}^{T}_{t=1}$ in which the sum of rewards is taken from the current timestep $t$ to $T$ and each reward is multiplied with an exponentially decaying discount factor $\gamma$:
+
+$$G_{t} = \sum^{T}_{t'=t} \gamma^{t'-t}r_{t'}$$
+
+Since $\gamma\in(0,1)$, rewards further out from the current timestep are given less weight.
+
+Intuitively, expected return simply implies that rewards now are better than rewards later. In a mathematical sense, it is to ensure that the sum of the rewards converges.
+
+To stabilize training, we also standardize the resulting sequence of returns (i.e. to have zero mean and unit standard deviation).
+
+```py
+def get_expected_return(
+    rewards: tf.Tensor, 
+    gamma: float, 
+    standardize: bool = True) -> tf.Tensor:
+  """Compute expected returns per timestep."""
+
+  n = tf.shape(rewards)[0]
+  returns = tf.TensorArray(dtype=tf.float32, size=n)
+
+  # Start from the end of `rewards` and accumulate reward sums
+  # into the `returns` array
+  rewards = tf.cast(rewards[::-1], dtype=tf.float32)
+  discounted_sum = tf.constant(0.0)
+  discounted_sum_shape = discounted_sum.shape
+  for i in tf.range(n):
+    reward = rewards[i]
+    discounted_sum = reward + gamma * discounted_sum
+    discounted_sum.set_shape(discounted_sum_shape)
+    returns = returns.write(i, discounted_sum)
+  returns = returns.stack()[::-1]
+
+  if standardize:
+    returns = ((returns - tf.math.reduce_mean(returns)) / 
+               (tf.math.reduce_std(returns) + eps))
+
+  return returns 
+```
+
+### 3\. The actor-critic loss
+
+Since we are using a hybrid actor-critic model, we will use loss function that is a combination of actor and critic losses for training, as shown below:
+
+$$L = L_{actor} + L_{critic}$$
+
+#### Actor loss
+
+We formulate the actor loss based on [policy gradients with the critic as a state dependent baseline](https://www.youtube.com/watch?v=EKqxumCuAAY&t=62m23s) and compute single-sample (per-episode) estimates.
+
+$$L_{actor} = -\sum^{T}_{t=1} log\pi_{\theta}(a_{t} | s_{t})[G(s_{t}, a_{t}) - V^{\pi}_{\theta}(s_{t})]$$
+
+where:
+
+*   $T$: the number of timesteps per episode, which can vary per episode
+*   $s_{t}$: the state at timestep $t$
+*   $a_{t}$: chosen action at timestep $t$ given state $s$
+*   $\pi_{\theta}$: is the policy (actor) parameterized by $\theta$
+*   $V^{\pi}_{\theta}$: is the value function (critic) also parameterized by $\theta$
+*   $G = G_{t}$: the expected return for a given state, action pair at timestep $t$
+
+We add a negative term to the sum since we want to maximize the probabilities of actions yielding higher rewards by minimizing the combined loss.
+
+##### Advantage
+
+The $G - V$ term in our $L_{actor}$ formulation is called the [advantage](https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#advantage-functions), which indicates how much better an action is given a particular state over a random action selected according to the policy $\pi$ for that state.
+
+While it's possible to exclude a baseline, this may result in high variance during training. And the nice thing about choosing the critic $V$ as a baseline is that it trained to be as close as possible to $G$, leading to a lower variance.
+
+In addition, without the critic, the algorithm would try to increase probabilities for actions taken on a particular state based on expected return, which may not make much of a difference if the relative probabilities between actions remain the same.
+
+For instance, suppose that two actions for a given state would yield the same expected return. Without the critic, the algorithm would try to raise the probability of these actions based on the objective $J$. With the critic, it may turn out that there's no advantage ($G - V = 0$) and thus no benefit gained in increasing the actions' probabilities and the algorithm would set the gradients to zero.
+
+#### Critic loss
+
+Training $V$ to be as close possible to $G$ can be set up as a regression problem with the following loss function:
+
+$$L_{critic} = L_{\delta}(G, V^{\pi}_{\theta})$$
+
+where $L_{\delta}$ is the [Huber loss](https://en.wikipedia.org/wiki/Huber_loss), which is less sensitive to outliers in data than squared-error loss.
+
+```py
+huber_loss = tf.keras.losses.Huber(reduction=tf.keras.losses.Reduction.SUM)
+
+def compute_loss(
+    action_probs: tf.Tensor,  
+    values: tf.Tensor,  
+    returns: tf.Tensor) -> tf.Tensor:
+  """Computes the combined actor-critic loss."""
+
+  advantage = returns - values
+
+  action_log_probs = tf.math.log(action_probs)
+  actor_loss = -tf.math.reduce_sum(action_log_probs * advantage)
+
+  critic_loss = huber_loss(values, returns)
+
+  return actor_loss + critic_loss 
+```
+
+### 4\. Defining the training step to update parameters
+
+We combine all of the steps above into a training step that is run every episode. All steps leading up to the loss function are executed with the [`tf.GradientTape`](https://tensorflow.google.cn/api_docs/python/tf/GradientTape) context to enable automatic differentiation.
+
+We use the Adam optimizer to apply the gradients to the model parameters.
+
+We also compute the sum of the undiscounted rewards, `episode_reward`, in this step which would be used later on to evaluate if we have met the success criterion.
+
+We apply the [`tf.function`](https://tensorflow.google.cn/api_docs/python/tf/function) context to the `train_step` function so that it can be compiled into a callable TensorFlow graph, which can lead to 10x speedup in training.
+
+```py
+optimizer = tf.keras.optimizers.Adam(learning_rate=0.01)
+
+@tf.function
+def train_step(
+    initial_state: tf.Tensor, 
+    model: tf.keras.Model, 
+    optimizer: tf.keras.optimizers.Optimizer, 
+    gamma: float, 
+    max_steps_per_episode: int) -> tf.Tensor:
+  """Runs a model training step."""
+
+  with tf.GradientTape() as tape:
+
+    # Run the model for one episode to collect training data
+    action_probs, values, rewards = run_episode(
+        initial_state, model, max_steps_per_episode) 
+
+    # Calculate expected returns
+    returns = get_expected_return(rewards, gamma)
+
+    # Convert training data to appropriate TF tensor shapes
+    action_probs, values, returns = [
+        tf.expand_dims(x, 1) for x in [action_probs, values, returns]] 
+
+    # Calculating loss values to update our network
+    loss = compute_loss(action_probs, values, returns)
+
+  # Compute the gradients from the loss
+  grads = tape.gradient(loss, model.trainable_variables)
+
+  # Apply the gradients to the model's parameters
+  optimizer.apply_gradients(zip(grads, model.trainable_variables))
+
+  episode_reward = tf.math.reduce_sum(rewards)
+
+  return episode_reward 
+```
+
+### 5\. Run the training loop
+
+We execute training by run the training step until either the success criterion or maximum number of episodes is reached.
+
+We keep a running record of episode rewards using a queue. Once 100 trials are reached, the oldest reward is removed at the left (tail) end of the queue and the newest one is added at the head (right). A running sum of the rewards is also maintained for computational efficiency.
+
+Depending on your runtime, training can finish in less than a minute.
+
+```py
+%%time
+
+max_episodes = 10000
+max_steps_per_episode = 1000
+
+# Cartpole-v0 is considered solved if average reward is >= 195 over 100 
+# consecutive trials
+reward_threshold = 195
+running_reward = 0
+
+# Discount factor for future rewards
+gamma = 0.99
+
+with tqdm.trange(max_episodes) as t:
+  for i in t:
+    initial_state = tf.constant(env.reset(), dtype=tf.float32)
+    episode_reward = int(train_step(
+        initial_state, model, optimizer, gamma, max_steps_per_episode))
+
+    running_reward = episode_reward*0.01 + running_reward*.99
+
+    t.set_description(f'Episode {i}')
+    t.set_postfix(
+        episode_reward=episode_reward, running_reward=running_reward)
+
+    # Show average episode reward every 10 episodes
+    if i % 10 == 0:
+      pass # print(f'Episode {i}: average reward: {avg_reward}')
+
+    if running_reward > reward_threshold:  
+        break
+
+print(f'\nSolved at episode {i}: average reward: {running_reward:.2f}!') 
+```
+
+```py
+Episode 1524:  15%|█▌        | 1524/10000 [08:16<46:00,  3.07it/s, episode_reward=200, running_reward=195]
+
+Solved at episode 1524: average reward: 195.03!
+CPU times: user 20min 43s, sys: 4min 52s, total: 25min 35s
+Wall time: 8min 16s
+
+```
+
+## Visualization
+
+After training, it would be good to visualize how the model performs in the environment. You can run the cells below to generate a GIF animation of one episode run of the model. Note that additional packages need to be installed for OpenAI Gym to render the environment's images correctly in Colab.
+
+```py
+# Render an episode and save as a GIF file
+
+from IPython import display as ipythondisplay
+from PIL import Image
+from pyvirtualdisplay import Display
+
+display = Display(visible=0, size=(400, 300))
+display.start()
+
+def render_episode(env: gym.Env, model: tf.keras.Model, max_steps: int): 
+  screen = env.render(mode='rgb_array')
+  im = Image.fromarray(screen)
+
+  images = [im]
+
+  state = tf.constant(env.reset(), dtype=tf.float32)
+  for i in range(1, max_steps + 1):
+    state = tf.expand_dims(state, 0)
+    action_probs, _ = model(state)
+    action = np.argmax(np.squeeze(action_probs))
+
+    state, _, done, _ = env.step(action)
+    state = tf.constant(state, dtype=tf.float32)
+
+    # Render screen every 10 steps
+    if i % 10 == 0:
+      screen = env.render(mode='rgb_array')
+      images.append(Image.fromarray(screen))
+
+    if done:
+      break
+
+  return images
+
+# Save GIF image
+images = render_episode(env, model, max_steps_per_episode)
+image_file = 'cartpole-v0.gif'
+# loop=0: loop forever, duration=1: play each frame for 1ms
+images[0].save(
+    image_file, save_all=True, append_images=images[1:], loop=0, duration=1) 
+```
+
+```py
+import tensorflow_docs.vis.embed as embed
+embed.embed_file(image_file) 
+```
+
+![gif](img/536f812a8cb3bafa44a738899b173733.png)
+
+## Next steps
+
+This tutorial demonstrated how to implement the actor-critic method using Tensorflow.
+
+As a next step, you could try training a model on a different environment in OpenAI Gym.
+
+For additional information regarding actor-critic methods and the Cartpole-v0 problem, you may refer to the following resources:
+
+*   [Actor Critic Method](https://hal.inria.fr/hal-00840470/document)
+*   [Actor Critic Lecture (CAL)](https://www.youtube.com/watch?v=EKqxumCuAAY&list=PLkFD6_40KJIwhWJpGazJ9VSj9CFMkb79A&index=7&t=0s)
+*   [Cartpole learning control problem [Barto, et al. 1983]](http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf)
+
+For more reinforcement learning examples in TensorFlow, you can check the following resources:
+
+*   [Reinforcement learning code examples (keras.io)](https://keras.io/examples/rl/)
+*   [TF-Agents reinforcement learning library](https://tensorflow.google.cn/agents)
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/README.md b/Tensorflow/TensorFlow2.0/README.md
new file mode 100644
index 00000000..71563c1d
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/README.md
@@ -0,0 +1,3 @@
+# TensorFlow 2.4 官方教程
+
+来源：[https://tensorflow.google.cn/tutorials?authuser=0](https://tensorflow.google.cn/tutorials?authuser=0)
\ No newline at end of file
diff --git a/Tensorflow/TensorFlow2.0/SUMMARY.md b/Tensorflow/TensorFlow2.0/SUMMARY.md
new file mode 100644
index 00000000..722ae95b
--- /dev/null
+++ b/Tensorflow/TensorFlow2.0/SUMMARY.md
@@ -0,0 +1,71 @@
++   [TensorFlow 2.4 官方教程](README.md)
++   [初学者的 TensorFlow 2.0 教程](002.md)
++   [针对专业人员的 TensorFlow 2.0 入门](003.md)
++   [初级](004.md)
+	+   [Keras 机器学习基础知识](005.md)
+		+   [基本分类：对服装图像进行分类](006.md)
+		+   [电影评论文本分类](007.md)
+		+   [使用 Keras 和 Tensorflow Hub 对电影评论进行文本分类](008.md)
+		+   [Basic regression: Predict fuel efficiency](009.md)
+		+   [Overfit and underfit](010.md)
+		+   [保存和恢复模型](011.md)
+		+   [Introduction to the Keras Tuner](012.md)
+	+   [加载和预处理数据](013.md)
+		+   [用 tf.data 加载图片](014.md)
+		+   [使用 tf.data 加载文本数据](015.md)
+		+   [用 tf.data 加载 CSV 数据](016.md)
+		+   [使用 tf.data 加载 NumPy 数据](017.md)
+		+   [使用 tf.data 加载 pandas dataframes](018.md)
+		+   [Unicode 字符串](019.md)
+		+   [TF.Text](020.md)
+		+   [TFRecord 和 tf.Example](021.md)
+	+   [Estimator](022.md)
+		+   [预创建的 Estimators](023.md)
+		+   [Build a linear model with Estimators](024.md)
+		+   [在 Tensorflow 中训练提升树（Boosted Trees）模型](025.md)
+		+   [梯度提升树（Gradient Boosted Trees）：模型理解](026.md)
+		+   [通过 Keras 模型创建 Estimator](027.md)
++   [高级](028.md)
+	+   [自定义](029.md)
+		+   [Customization basics: tensors and operations](030.md)
+		+   [Custom layers](031.md)
+		+   [自定义训练: 演示](032.md)
+	+   [分布式训练](033.md)
+		+   [Keras 的分布式训练](034.md)
+		+   [使用 tf.distribute.Strategy 进行自定义训练](035.md)
+		+   [利用 Keras 来训练多工作器（worker）](036.md)
+		+   [利用 Estimator 进行多工作器训练](037.md)
+		+   [使用分布策略保存和加载模型](038.md)
+		+   [Distributed Input](039.md)
+	+   [图像](040.md)
+		+   [卷积神经网络（Convolutional Neural Network, CNN）](041.md)
+		+   [Image classification](042.md)
+		+   [Transfer learning and fine-tuning](043.md)
+		+   [Transfer learning with TensorFlow Hub](044.md)
+		+   [Data augmentation](045.md)
+		+   [图像分割](046.md)
+	+   [文本](047.md)
+		+   [单词嵌入向量](048.md)
+		+   [使用 RNN 进行文本分类](049.md)
+		+   [循环神经网络（RNN）文本生成](050.md)
+		+   [基于注意力的神经机器翻译](051.md)
+		+   [Image captioning with visual attention](052.md)
+		+   [理解语言的 Transformer 模型](053.md)
+		+   [Fine-tuning a BERT model](054.md)
+	+   [结构化数据](055.md)
+		+   [对结构化数据进行分类](056.md)
+		+   [Classification on imbalanced data](057.md)
+		+   [Time series forecasting](058.md)
+	+   [生成](059.md)
+		+   [神经风格迁移](060.md)
+		+   [DeepDream](061.md)
+		+   [深度卷积生成对抗网络](062.md)
+		+   [Pix2Pix](063.md)
+		+   [CycleGAN](064.md)
+		+   [Adversarial example using FGSM](065.md)
+		+   [Intro to Autoencoders](066.md)
+		+   [卷积变分自编码器](067.md)
+	+   [可解释性](068.md)
+		+   [Integrated gradients](069.md)
+	+   [强化学习](070.md)
+		+   [Playing CartPole with the Actor-Critic Method](071.md)
diff --git a/Tensorflow/TensorFlow2.0/img/00e8007835b36bd4dd63de1a16bd2f94.png b/Tensorflow/TensorFlow2.0/img/00e8007835b36bd4dd63de1a16bd2f94.png
new file mode 100644
index 00000000..e4bb8d00
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/00e8007835b36bd4dd63de1a16bd2f94.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/00ec3c3882214936d486fb8107b457b2.png b/Tensorflow/TensorFlow2.0/img/00ec3c3882214936d486fb8107b457b2.png
new file mode 100644
index 00000000..582120e6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/00ec3c3882214936d486fb8107b457b2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/00fbc45eaf75c4132a6ea862403f4be4.png b/Tensorflow/TensorFlow2.0/img/00fbc45eaf75c4132a6ea862403f4be4.png
new file mode 100644
index 00000000..23297cf3
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/00fbc45eaf75c4132a6ea862403f4be4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/019d6a002d56ca3eff0330fbb68495d2.png b/Tensorflow/TensorFlow2.0/img/019d6a002d56ca3eff0330fbb68495d2.png
new file mode 100644
index 00000000..b93f7d81
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/019d6a002d56ca3eff0330fbb68495d2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/01e618f7715193d849381e8d78c78c09.png b/Tensorflow/TensorFlow2.0/img/01e618f7715193d849381e8d78c78c09.png
new file mode 100644
index 00000000..e4da706a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/01e618f7715193d849381e8d78c78c09.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/027fe3c7c1b2c8f4ba851311692e3d91.png b/Tensorflow/TensorFlow2.0/img/027fe3c7c1b2c8f4ba851311692e3d91.png
new file mode 100644
index 00000000..8a94ce42
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/027fe3c7c1b2c8f4ba851311692e3d91.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/02b2fc97a46c88c22ee2d11e8c28bf0d.png b/Tensorflow/TensorFlow2.0/img/02b2fc97a46c88c22ee2d11e8c28bf0d.png
new file mode 100644
index 00000000..7c863402
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/02b2fc97a46c88c22ee2d11e8c28bf0d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/032dc17ad0509afd4505858b1f0c7d19.png b/Tensorflow/TensorFlow2.0/img/032dc17ad0509afd4505858b1f0c7d19.png
new file mode 100644
index 00000000..6cf29d57
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/032dc17ad0509afd4505858b1f0c7d19.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/03dad7eb5e1c97b1391c9925be7da416.png b/Tensorflow/TensorFlow2.0/img/03dad7eb5e1c97b1391c9925be7da416.png
new file mode 100644
index 00000000..ac95c751
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/03dad7eb5e1c97b1391c9925be7da416.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/040af2c2187faf5ae826579d657c0aa0.png b/Tensorflow/TensorFlow2.0/img/040af2c2187faf5ae826579d657c0aa0.png
new file mode 100644
index 00000000..3d6a29db
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/040af2c2187faf5ae826579d657c0aa0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/0425284f7bd595a686480abe82721a04.png b/Tensorflow/TensorFlow2.0/img/0425284f7bd595a686480abe82721a04.png
new file mode 100644
index 00000000..59a1facf
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/0425284f7bd595a686480abe82721a04.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/05dfb322f577170f0e9218f00221d363.png b/Tensorflow/TensorFlow2.0/img/05dfb322f577170f0e9218f00221d363.png
new file mode 100644
index 00000000..6a8097d9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/05dfb322f577170f0e9218f00221d363.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/062d680b7bfc538f75dbd6e3d7562502.png b/Tensorflow/TensorFlow2.0/img/062d680b7bfc538f75dbd6e3d7562502.png
new file mode 100644
index 00000000..721061db
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/062d680b7bfc538f75dbd6e3d7562502.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/073182c1df7eec341936447672fb0376.png b/Tensorflow/TensorFlow2.0/img/073182c1df7eec341936447672fb0376.png
new file mode 100644
index 00000000..df1bf1bf
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/073182c1df7eec341936447672fb0376.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/07f89687b786f68c1561b81ac448c45e.png b/Tensorflow/TensorFlow2.0/img/07f89687b786f68c1561b81ac448c45e.png
new file mode 100644
index 00000000..de252075
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/07f89687b786f68c1561b81ac448c45e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/07fde30d678eaceba2bf9695ee89c403.png b/Tensorflow/TensorFlow2.0/img/07fde30d678eaceba2bf9695ee89c403.png
new file mode 100644
index 00000000..1e0226ac
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/07fde30d678eaceba2bf9695ee89c403.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/086f42f4106103986aa93b67010f2cf9.png b/Tensorflow/TensorFlow2.0/img/086f42f4106103986aa93b67010f2cf9.png
new file mode 100644
index 00000000..395fd7a8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/086f42f4106103986aa93b67010f2cf9.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/0b0835e78f54f2c464c9df77cfe6a93b.png b/Tensorflow/TensorFlow2.0/img/0b0835e78f54f2c464c9df77cfe6a93b.png
new file mode 100644
index 00000000..10e2e15f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/0b0835e78f54f2c464c9df77cfe6a93b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/0ba1e7316ba7e228576bbcd85280c309.png b/Tensorflow/TensorFlow2.0/img/0ba1e7316ba7e228576bbcd85280c309.png
new file mode 100644
index 00000000..7028311c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/0ba1e7316ba7e228576bbcd85280c309.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/0c7474d216a51a2b258a81a689920596.png b/Tensorflow/TensorFlow2.0/img/0c7474d216a51a2b258a81a689920596.png
new file mode 100644
index 00000000..cc3552ac
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/0c7474d216a51a2b258a81a689920596.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/0dda76c01237658213cec93698233a22.png b/Tensorflow/TensorFlow2.0/img/0dda76c01237658213cec93698233a22.png
new file mode 100644
index 00000000..00398651
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/0dda76c01237658213cec93698233a22.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/0eda1b45396cd1c02a76bd76397b9a76.png b/Tensorflow/TensorFlow2.0/img/0eda1b45396cd1c02a76bd76397b9a76.png
new file mode 100644
index 00000000..792d740e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/0eda1b45396cd1c02a76bd76397b9a76.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/0f98889f249aed7e8f8f5e90e5432e08.png b/Tensorflow/TensorFlow2.0/img/0f98889f249aed7e8f8f5e90e5432e08.png
new file mode 100644
index 00000000..f8ad2704
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/0f98889f249aed7e8f8f5e90e5432e08.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/0fc5058e71e5828192048ef6a6b9a595.png b/Tensorflow/TensorFlow2.0/img/0fc5058e71e5828192048ef6a6b9a595.png
new file mode 100644
index 00000000..4bd2ff98
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/0fc5058e71e5828192048ef6a6b9a595.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/10d71bce93ec45ba7076ef15a37bcb28.png b/Tensorflow/TensorFlow2.0/img/10d71bce93ec45ba7076ef15a37bcb28.png
new file mode 100644
index 00000000..8a1a7233
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/10d71bce93ec45ba7076ef15a37bcb28.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/11c5fe9ef9f8ed2389fe40e5fa1ccbb7.png b/Tensorflow/TensorFlow2.0/img/11c5fe9ef9f8ed2389fe40e5fa1ccbb7.png
new file mode 100644
index 00000000..d2866117
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/11c5fe9ef9f8ed2389fe40e5fa1ccbb7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/12bbad2792cbf9031cf0f5c0e54b36a3.png b/Tensorflow/TensorFlow2.0/img/12bbad2792cbf9031cf0f5c0e54b36a3.png
new file mode 100644
index 00000000..740e26e9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/12bbad2792cbf9031cf0f5c0e54b36a3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/13a6ef1c7f66c4208c56677c5ddd6506.png b/Tensorflow/TensorFlow2.0/img/13a6ef1c7f66c4208c56677c5ddd6506.png
new file mode 100644
index 00000000..64cc0fcd
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/13a6ef1c7f66c4208c56677c5ddd6506.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/13fa130027f8343fe8d952fec8dd0555.png b/Tensorflow/TensorFlow2.0/img/13fa130027f8343fe8d952fec8dd0555.png
new file mode 100644
index 00000000..e40ca1cc
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/13fa130027f8343fe8d952fec8dd0555.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/141e262e42c195dfe1174f7824ff4c3c.png b/Tensorflow/TensorFlow2.0/img/141e262e42c195dfe1174f7824ff4c3c.png
new file mode 100644
index 00000000..a6c72a35
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/141e262e42c195dfe1174f7824ff4c3c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/147de2a992900105434d95a527a869c8.png b/Tensorflow/TensorFlow2.0/img/147de2a992900105434d95a527a869c8.png
new file mode 100644
index 00000000..727947db
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/147de2a992900105434d95a527a869c8.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/14fce8d9f2fd98077c5bf9a8db1f25ec.png b/Tensorflow/TensorFlow2.0/img/14fce8d9f2fd98077c5bf9a8db1f25ec.png
new file mode 100644
index 00000000..847948de
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/14fce8d9f2fd98077c5bf9a8db1f25ec.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/16ea92d12fa8170f3e79e4c56f9affd1.png b/Tensorflow/TensorFlow2.0/img/16ea92d12fa8170f3e79e4c56f9affd1.png
new file mode 100644
index 00000000..f4ddae50
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/16ea92d12fa8170f3e79e4c56f9affd1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/17877a5940e1f7245c707d3ecf9783e3.png b/Tensorflow/TensorFlow2.0/img/17877a5940e1f7245c707d3ecf9783e3.png
new file mode 100644
index 00000000..bf07422e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/17877a5940e1f7245c707d3ecf9783e3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/17b66fa7e9565fdeabc4fe4752bad60d.png b/Tensorflow/TensorFlow2.0/img/17b66fa7e9565fdeabc4fe4752bad60d.png
new file mode 100644
index 00000000..e6bd59b7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/17b66fa7e9565fdeabc4fe4752bad60d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/187f414e1afde064024f6898871831da.png b/Tensorflow/TensorFlow2.0/img/187f414e1afde064024f6898871831da.png
new file mode 100644
index 00000000..366b3fc3
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/187f414e1afde064024f6898871831da.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/193b876c3df893a8ae22aad38d3b264e.png b/Tensorflow/TensorFlow2.0/img/193b876c3df893a8ae22aad38d3b264e.png
new file mode 100644
index 00000000..e21313ee
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/193b876c3df893a8ae22aad38d3b264e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/1b0da93649f50a8108ee8ddd8b08bc04.png b/Tensorflow/TensorFlow2.0/img/1b0da93649f50a8108ee8ddd8b08bc04.png
new file mode 100644
index 00000000..c1e047dc
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/1b0da93649f50a8108ee8ddd8b08bc04.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/1c115680e9c0080caf5ac79ab3f9ba0d.png b/Tensorflow/TensorFlow2.0/img/1c115680e9c0080caf5ac79ab3f9ba0d.png
new file mode 100644
index 00000000..abdabd90
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/1c115680e9c0080caf5ac79ab3f9ba0d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/1c3bc0a947aefadc9c04f9c5f0bf1991.png b/Tensorflow/TensorFlow2.0/img/1c3bc0a947aefadc9c04f9c5f0bf1991.png
new file mode 100644
index 00000000..bd6c8168
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/1c3bc0a947aefadc9c04f9c5f0bf1991.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/1c498df577bb9dd0638c25332e7b68a1.png b/Tensorflow/TensorFlow2.0/img/1c498df577bb9dd0638c25332e7b68a1.png
new file mode 100644
index 00000000..458a2529
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/1c498df577bb9dd0638c25332e7b68a1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/1d2f7cb104afa8ee05f37076045f9195.png b/Tensorflow/TensorFlow2.0/img/1d2f7cb104afa8ee05f37076045f9195.png
new file mode 100644
index 00000000..bde07eaa
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/1d2f7cb104afa8ee05f37076045f9195.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/1d906c8d5397ad3e918d2a91fcfbb78e.png b/Tensorflow/TensorFlow2.0/img/1d906c8d5397ad3e918d2a91fcfbb78e.png
new file mode 100644
index 00000000..9690b230
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/1d906c8d5397ad3e918d2a91fcfbb78e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/1f9a0765029471b20952ac80887f73a4.png b/Tensorflow/TensorFlow2.0/img/1f9a0765029471b20952ac80887f73a4.png
new file mode 100644
index 00000000..1e83b544
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/1f9a0765029471b20952ac80887f73a4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/20fad379e19d0355132a97db41137f4b.png b/Tensorflow/TensorFlow2.0/img/20fad379e19d0355132a97db41137f4b.png
new file mode 100644
index 00000000..1a8e9c8e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/20fad379e19d0355132a97db41137f4b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2127fb93f97c5aaf91e991540bbe84ed.png b/Tensorflow/TensorFlow2.0/img/2127fb93f97c5aaf91e991540bbe84ed.png
new file mode 100644
index 00000000..f8acbad8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2127fb93f97c5aaf91e991540bbe84ed.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/217c4e55f89d4a55a78dc082bbdc1e2f.png b/Tensorflow/TensorFlow2.0/img/217c4e55f89d4a55a78dc082bbdc1e2f.png
new file mode 100644
index 00000000..2a9777de
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/217c4e55f89d4a55a78dc082bbdc1e2f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/21b3b7303748422d35a6212f940d399c.png b/Tensorflow/TensorFlow2.0/img/21b3b7303748422d35a6212f940d399c.png
new file mode 100644
index 00000000..fde4a734
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/21b3b7303748422d35a6212f940d399c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2230343d999d9f0dd8b71b8bf390e82f.png b/Tensorflow/TensorFlow2.0/img/2230343d999d9f0dd8b71b8bf390e82f.png
new file mode 100644
index 00000000..14ac85ba
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2230343d999d9f0dd8b71b8bf390e82f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/224feef511a9609d22547ec5c769829a.png b/Tensorflow/TensorFlow2.0/img/224feef511a9609d22547ec5c769829a.png
new file mode 100644
index 00000000..c7364c7a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/224feef511a9609d22547ec5c769829a.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/22f7bd226b742292050c368b980067f4.png b/Tensorflow/TensorFlow2.0/img/22f7bd226b742292050c368b980067f4.png
new file mode 100644
index 00000000..5f498d42
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/22f7bd226b742292050c368b980067f4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/23878cd7b5d0e50299dced2de8ebd52d.png b/Tensorflow/TensorFlow2.0/img/23878cd7b5d0e50299dced2de8ebd52d.png
new file mode 100644
index 00000000..4157f8aa
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/23878cd7b5d0e50299dced2de8ebd52d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/25091cb1e90c92e9948c6c6cb9d0238b.png b/Tensorflow/TensorFlow2.0/img/25091cb1e90c92e9948c6c6cb9d0238b.png
new file mode 100644
index 00000000..9397e7f3
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/25091cb1e90c92e9948c6c6cb9d0238b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/253f679c0d56ad236d24246ddb70d466.png b/Tensorflow/TensorFlow2.0/img/253f679c0d56ad236d24246ddb70d466.png
new file mode 100644
index 00000000..69237f64
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/253f679c0d56ad236d24246ddb70d466.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/25794664318bbd0dc1284a9ea6754d14.png b/Tensorflow/TensorFlow2.0/img/25794664318bbd0dc1284a9ea6754d14.png
new file mode 100644
index 00000000..eaa104b4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/25794664318bbd0dc1284a9ea6754d14.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/25a15211c7a5c4ce6da843197b4b85eb.png b/Tensorflow/TensorFlow2.0/img/25a15211c7a5c4ce6da843197b4b85eb.png
new file mode 100644
index 00000000..57df8191
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/25a15211c7a5c4ce6da843197b4b85eb.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/25c5372b82b31daf5535e4f1571434a9.png b/Tensorflow/TensorFlow2.0/img/25c5372b82b31daf5535e4f1571434a9.png
new file mode 100644
index 00000000..908d667a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/25c5372b82b31daf5535e4f1571434a9.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/267bdfdd72740285a56d6dbc3f34c679.png b/Tensorflow/TensorFlow2.0/img/267bdfdd72740285a56d6dbc3f34c679.png
new file mode 100644
index 00000000..e78ecf6b
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/267bdfdd72740285a56d6dbc3f34c679.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/27014e8a5d49cb56f79937d834cb2466.png b/Tensorflow/TensorFlow2.0/img/27014e8a5d49cb56f79937d834cb2466.png
new file mode 100644
index 00000000..f63460e2
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/27014e8a5d49cb56f79937d834cb2466.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/27bba4e01880a45cea2ffcffdc0aa311.png b/Tensorflow/TensorFlow2.0/img/27bba4e01880a45cea2ffcffdc0aa311.png
new file mode 100644
index 00000000..0d5d8a3b
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/27bba4e01880a45cea2ffcffdc0aa311.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/28877f41199c01fa4ec5041f5b1fac9f.png b/Tensorflow/TensorFlow2.0/img/28877f41199c01fa4ec5041f5b1fac9f.png
new file mode 100644
index 00000000..27e3cb28
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/28877f41199c01fa4ec5041f5b1fac9f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/295a20785cb201af0f19ee7414550082.png b/Tensorflow/TensorFlow2.0/img/295a20785cb201af0f19ee7414550082.png
new file mode 100644
index 00000000..b754271d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/295a20785cb201af0f19ee7414550082.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/29af5825a7303165115c9cfbc59ae606.png b/Tensorflow/TensorFlow2.0/img/29af5825a7303165115c9cfbc59ae606.png
new file mode 100644
index 00000000..a1a41323
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/29af5825a7303165115c9cfbc59ae606.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/29af7886a5834acb3b056b86d97b4128.png b/Tensorflow/TensorFlow2.0/img/29af7886a5834acb3b056b86d97b4128.png
new file mode 100644
index 00000000..4712c2d0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/29af7886a5834acb3b056b86d97b4128.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2a2da1f076940ee9e540d308733418d2.png b/Tensorflow/TensorFlow2.0/img/2a2da1f076940ee9e540d308733418d2.png
new file mode 100644
index 00000000..34f5ab62
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2a2da1f076940ee9e540d308733418d2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2ab61e10f9f53c1738f397150ea65f3d.png b/Tensorflow/TensorFlow2.0/img/2ab61e10f9f53c1738f397150ea65f3d.png
new file mode 100644
index 00000000..13c01bd4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2ab61e10f9f53c1738f397150ea65f3d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2b4481790f3718f3fc44681160e972ab.png b/Tensorflow/TensorFlow2.0/img/2b4481790f3718f3fc44681160e972ab.png
new file mode 100644
index 00000000..fdef8aaf
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2b4481790f3718f3fc44681160e972ab.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2bc3a9da8c0e479bf906dd0c765549f4.png b/Tensorflow/TensorFlow2.0/img/2bc3a9da8c0e479bf906dd0c765549f4.png
new file mode 100644
index 00000000..1bcaa779
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2bc3a9da8c0e479bf906dd0c765549f4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2c848f6027c084a244c86c336c02ce35.png b/Tensorflow/TensorFlow2.0/img/2c848f6027c084a244c86c336c02ce35.png
new file mode 100644
index 00000000..2e33c877
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2c848f6027c084a244c86c336c02ce35.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2d28811c34377a23029670cd3acc5d2e.png b/Tensorflow/TensorFlow2.0/img/2d28811c34377a23029670cd3acc5d2e.png
new file mode 100644
index 00000000..8c70a582
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2d28811c34377a23029670cd3acc5d2e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2e071a2b770d50ed5ef40dabbe1fd1a7.png b/Tensorflow/TensorFlow2.0/img/2e071a2b770d50ed5ef40dabbe1fd1a7.png
new file mode 100644
index 00000000..5fea4490
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2e071a2b770d50ed5ef40dabbe1fd1a7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/2f1f2fc54135afd798139d45c013ef1f.png b/Tensorflow/TensorFlow2.0/img/2f1f2fc54135afd798139d45c013ef1f.png
new file mode 100644
index 00000000..bc2d2e50
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/2f1f2fc54135afd798139d45c013ef1f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/30586460013d859e496dd27ce6b18cbc.png b/Tensorflow/TensorFlow2.0/img/30586460013d859e496dd27ce6b18cbc.png
new file mode 100644
index 00000000..7d4deb39
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/30586460013d859e496dd27ce6b18cbc.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3077ee17ed3bcc58a21e5ae34601aeaa.png b/Tensorflow/TensorFlow2.0/img/3077ee17ed3bcc58a21e5ae34601aeaa.png
new file mode 100644
index 00000000..62728972
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3077ee17ed3bcc58a21e5ae34601aeaa.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/309f23cd3db44be87a1c9d9d25619301.png b/Tensorflow/TensorFlow2.0/img/309f23cd3db44be87a1c9d9d25619301.png
new file mode 100644
index 00000000..75abf85c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/309f23cd3db44be87a1c9d9d25619301.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/31f7567659d665b396ba290e435595b4.png b/Tensorflow/TensorFlow2.0/img/31f7567659d665b396ba290e435595b4.png
new file mode 100644
index 00000000..e5fdc20a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/31f7567659d665b396ba290e435595b4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/322fe6c3912c3a4f2472e8f42ced52ce.png b/Tensorflow/TensorFlow2.0/img/322fe6c3912c3a4f2472e8f42ced52ce.png
new file mode 100644
index 00000000..8fcab198
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/322fe6c3912c3a4f2472e8f42ced52ce.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/33043d022bdb4912f00756593d5b4a7c.png b/Tensorflow/TensorFlow2.0/img/33043d022bdb4912f00756593d5b4a7c.png
new file mode 100644
index 00000000..45901f9d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/33043d022bdb4912f00756593d5b4a7c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3390b6303137e50e6a04ecf43748a4fc.png b/Tensorflow/TensorFlow2.0/img/3390b6303137e50e6a04ecf43748a4fc.png
new file mode 100644
index 00000000..392d13bb
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3390b6303137e50e6a04ecf43748a4fc.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/34e85547487e77a52b9e494a05fdc8f8.png b/Tensorflow/TensorFlow2.0/img/34e85547487e77a52b9e494a05fdc8f8.png
new file mode 100644
index 00000000..f7a58a4d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/34e85547487e77a52b9e494a05fdc8f8.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/35228c04a07ff13d63e7c28043db3950.png b/Tensorflow/TensorFlow2.0/img/35228c04a07ff13d63e7c28043db3950.png
new file mode 100644
index 00000000..f1406e3f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/35228c04a07ff13d63e7c28043db3950.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/35253af9a3f5a4e0035787fd80b11ca3.png b/Tensorflow/TensorFlow2.0/img/35253af9a3f5a4e0035787fd80b11ca3.png
new file mode 100644
index 00000000..701f2b04
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/35253af9a3f5a4e0035787fd80b11ca3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/35aea8e2802acf908920febe4776fbf0.png b/Tensorflow/TensorFlow2.0/img/35aea8e2802acf908920febe4776fbf0.png
new file mode 100644
index 00000000..8311f464
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/35aea8e2802acf908920febe4776fbf0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/36943305bc87e9d7bacdd3122d2620ca.png b/Tensorflow/TensorFlow2.0/img/36943305bc87e9d7bacdd3122d2620ca.png
new file mode 100644
index 00000000..9dea5f1f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/36943305bc87e9d7bacdd3122d2620ca.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/369c7a269758731e601b622ad8074a20.png b/Tensorflow/TensorFlow2.0/img/369c7a269758731e601b622ad8074a20.png
new file mode 100644
index 00000000..41e6bff4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/369c7a269758731e601b622ad8074a20.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3a91563a3651ff89460c7e6daf95d78e.png b/Tensorflow/TensorFlow2.0/img/3a91563a3651ff89460c7e6daf95d78e.png
new file mode 100644
index 00000000..f0b686f6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3a91563a3651ff89460c7e6daf95d78e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3b156bb2ffa19f7a08e10cf29e3fe8c9.png b/Tensorflow/TensorFlow2.0/img/3b156bb2ffa19f7a08e10cf29e3fe8c9.png
new file mode 100644
index 00000000..46c202f8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3b156bb2ffa19f7a08e10cf29e3fe8c9.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3b5e2e711798f7ff0d6ff949ea4f54f3.png b/Tensorflow/TensorFlow2.0/img/3b5e2e711798f7ff0d6ff949ea4f54f3.png
new file mode 100644
index 00000000..cb4b4841
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3b5e2e711798f7ff0d6ff949ea4f54f3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3c18a835b05587069a53a3709112d9c2.png b/Tensorflow/TensorFlow2.0/img/3c18a835b05587069a53a3709112d9c2.png
new file mode 100644
index 00000000..26ada32c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3c18a835b05587069a53a3709112d9c2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3c3d7b5efcc814913b1fdc4d8ab17c2c.png b/Tensorflow/TensorFlow2.0/img/3c3d7b5efcc814913b1fdc4d8ab17c2c.png
new file mode 100644
index 00000000..e0ce9cf1
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3c3d7b5efcc814913b1fdc4d8ab17c2c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3e1bc64db4c260d2327ca5a9defae306.png b/Tensorflow/TensorFlow2.0/img/3e1bc64db4c260d2327ca5a9defae306.png
new file mode 100644
index 00000000..9a159969
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3e1bc64db4c260d2327ca5a9defae306.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/3e8e9f9ba0ac0f802575b228ffa360c0.png b/Tensorflow/TensorFlow2.0/img/3e8e9f9ba0ac0f802575b228ffa360c0.png
new file mode 100644
index 00000000..099541c8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/3e8e9f9ba0ac0f802575b228ffa360c0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4027509537fdad6efb501fba81748e0f.png b/Tensorflow/TensorFlow2.0/img/4027509537fdad6efb501fba81748e0f.png
new file mode 100644
index 00000000..7cb4d4fd
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4027509537fdad6efb501fba81748e0f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/40793e753f5cc525c8f3c9cd20d1085c.png b/Tensorflow/TensorFlow2.0/img/40793e753f5cc525c8f3c9cd20d1085c.png
new file mode 100644
index 00000000..96581423
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/40793e753f5cc525c8f3c9cd20d1085c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4123df32a452f5e3727c6372cf1fa755.png b/Tensorflow/TensorFlow2.0/img/4123df32a452f5e3727c6372cf1fa755.png
new file mode 100644
index 00000000..f17a357c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4123df32a452f5e3727c6372cf1fa755.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/42885d1d6ac3f11492d97fe4c7d7f6ff.png b/Tensorflow/TensorFlow2.0/img/42885d1d6ac3f11492d97fe4c7d7f6ff.png
new file mode 100644
index 00000000..c581d2fb
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/42885d1d6ac3f11492d97fe4c7d7f6ff.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4341c4ebffdd0a35a50322abd93518de.png b/Tensorflow/TensorFlow2.0/img/4341c4ebffdd0a35a50322abd93518de.png
new file mode 100644
index 00000000..2978dd4c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4341c4ebffdd0a35a50322abd93518de.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/458690c5e898eeb73aae0c7f04339c81.png b/Tensorflow/TensorFlow2.0/img/458690c5e898eeb73aae0c7f04339c81.png
new file mode 100644
index 00000000..50435b5f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/458690c5e898eeb73aae0c7f04339c81.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/45d997f6558f9b2c948978653a5112f5.png b/Tensorflow/TensorFlow2.0/img/45d997f6558f9b2c948978653a5112f5.png
new file mode 100644
index 00000000..41e3be08
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/45d997f6558f9b2c948978653a5112f5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/461f849577ccb00ee49683e824e095cf.png b/Tensorflow/TensorFlow2.0/img/461f849577ccb00ee49683e824e095cf.png
new file mode 100644
index 00000000..fb6a6714
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/461f849577ccb00ee49683e824e095cf.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4630405ff1451bfc3979433eb4bb7a43.png b/Tensorflow/TensorFlow2.0/img/4630405ff1451bfc3979433eb4bb7a43.png
new file mode 100644
index 00000000..6b6d79c8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4630405ff1451bfc3979433eb4bb7a43.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/46db10c9de77d0eba54a4bd268680d27.png b/Tensorflow/TensorFlow2.0/img/46db10c9de77d0eba54a4bd268680d27.png
new file mode 100644
index 00000000..07e9a5e4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/46db10c9de77d0eba54a4bd268680d27.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/47c750cbb275e148fd8d76c4bf49d4a6.png b/Tensorflow/TensorFlow2.0/img/47c750cbb275e148fd8d76c4bf49d4a6.png
new file mode 100644
index 00000000..36210228
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/47c750cbb275e148fd8d76c4bf49d4a6.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/47d10fb7606b95e0fc52794eb6634024.png b/Tensorflow/TensorFlow2.0/img/47d10fb7606b95e0fc52794eb6634024.png
new file mode 100644
index 00000000..6f1163ff
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/47d10fb7606b95e0fc52794eb6634024.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/47e128c5852147da0f7b0158465fe752.png b/Tensorflow/TensorFlow2.0/img/47e128c5852147da0f7b0158465fe752.png
new file mode 100644
index 00000000..a51bbe00
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/47e128c5852147da0f7b0158465fe752.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4a4c68a2d8914e8b1b75bed4a9b81a5b.png b/Tensorflow/TensorFlow2.0/img/4a4c68a2d8914e8b1b75bed4a9b81a5b.png
new file mode 100644
index 00000000..d983c988
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4a4c68a2d8914e8b1b75bed4a9b81a5b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4aa12ddc0a8f44acc45b9ed9dc9055bf.png b/Tensorflow/TensorFlow2.0/img/4aa12ddc0a8f44acc45b9ed9dc9055bf.png
new file mode 100644
index 00000000..451bc4c8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4aa12ddc0a8f44acc45b9ed9dc9055bf.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4ae87c070d1160e16944305509636b57.png b/Tensorflow/TensorFlow2.0/img/4ae87c070d1160e16944305509636b57.png
new file mode 100644
index 00000000..7042b477
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4ae87c070d1160e16944305509636b57.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4bebff99ef427fe52c09346e6f6b1971.png b/Tensorflow/TensorFlow2.0/img/4bebff99ef427fe52c09346e6f6b1971.png
new file mode 100644
index 00000000..c6f5f356
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4bebff99ef427fe52c09346e6f6b1971.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4c173dbd57644fa57c04cf1d62ca75e4.png b/Tensorflow/TensorFlow2.0/img/4c173dbd57644fa57c04cf1d62ca75e4.png
new file mode 100644
index 00000000..ed258269
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4c173dbd57644fa57c04cf1d62ca75e4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4c843845ce60ced7dbe13555dfe3c827.png b/Tensorflow/TensorFlow2.0/img/4c843845ce60ced7dbe13555dfe3c827.png
new file mode 100644
index 00000000..b31340ba
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4c843845ce60ced7dbe13555dfe3c827.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4c8ef6a2c8f0548a9f5bb182b8d3de01.png b/Tensorflow/TensorFlow2.0/img/4c8ef6a2c8f0548a9f5bb182b8d3de01.png
new file mode 100644
index 00000000..88ca44b6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4c8ef6a2c8f0548a9f5bb182b8d3de01.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4d094983d2f7b41e395fe05b64ee1a36.png b/Tensorflow/TensorFlow2.0/img/4d094983d2f7b41e395fe05b64ee1a36.png
new file mode 100644
index 00000000..90bb0c39
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4d094983d2f7b41e395fe05b64ee1a36.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4e0ba8d4a487b7517b7dbff7e19c4d52.png b/Tensorflow/TensorFlow2.0/img/4e0ba8d4a487b7517b7dbff7e19c4d52.png
new file mode 100644
index 00000000..32c30232
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4e0ba8d4a487b7517b7dbff7e19c4d52.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/4f82813c049f4e0039986833c582376d.png b/Tensorflow/TensorFlow2.0/img/4f82813c049f4e0039986833c582376d.png
new file mode 100644
index 00000000..885c5b32
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/4f82813c049f4e0039986833c582376d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/516bf734f26c8fd886eecb17974e7f9b.png b/Tensorflow/TensorFlow2.0/img/516bf734f26c8fd886eecb17974e7f9b.png
new file mode 100644
index 00000000..8d72f5c9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/516bf734f26c8fd886eecb17974e7f9b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/518bc2d08038969576066eb381910cc1.png b/Tensorflow/TensorFlow2.0/img/518bc2d08038969576066eb381910cc1.png
new file mode 100644
index 00000000..7b16da1d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/518bc2d08038969576066eb381910cc1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/52194b6e27c77c651d0f3c56066448f5.png b/Tensorflow/TensorFlow2.0/img/52194b6e27c77c651d0f3c56066448f5.png
new file mode 100644
index 00000000..95c92989
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/52194b6e27c77c651d0f3c56066448f5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5224f36bbf08c7f64fa501011640042b.png b/Tensorflow/TensorFlow2.0/img/5224f36bbf08c7f64fa501011640042b.png
new file mode 100644
index 00000000..ad7c2ba5
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5224f36bbf08c7f64fa501011640042b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/536f812a8cb3bafa44a738899b173733.png b/Tensorflow/TensorFlow2.0/img/536f812a8cb3bafa44a738899b173733.png
new file mode 100644
index 00000000..5fb56ba3
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/536f812a8cb3bafa44a738899b173733.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/54c9e1f17ab75ca37c6360c3e5230475.png b/Tensorflow/TensorFlow2.0/img/54c9e1f17ab75ca37c6360c3e5230475.png
new file mode 100644
index 00000000..4530ad60
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/54c9e1f17ab75ca37c6360c3e5230475.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/55d2924ed5a33ffad4b9f727cd335194.png b/Tensorflow/TensorFlow2.0/img/55d2924ed5a33ffad4b9f727cd335194.png
new file mode 100644
index 00000000..473a533e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/55d2924ed5a33ffad4b9f727cd335194.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/55e97ec60fa87503352f7debd65515af.png b/Tensorflow/TensorFlow2.0/img/55e97ec60fa87503352f7debd65515af.png
new file mode 100644
index 00000000..5998eaa3
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/55e97ec60fa87503352f7debd65515af.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/563b223dd04889d1963c53d7c10dfa02.png b/Tensorflow/TensorFlow2.0/img/563b223dd04889d1963c53d7c10dfa02.png
new file mode 100644
index 00000000..0eef937a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/563b223dd04889d1963c53d7c10dfa02.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/56a137f761015af5a025d2d0cc2a9985.png b/Tensorflow/TensorFlow2.0/img/56a137f761015af5a025d2d0cc2a9985.png
new file mode 100644
index 00000000..f36a79f5
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/56a137f761015af5a025d2d0cc2a9985.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/572dbe03f38bc28e6575b97b2ce91fda.png b/Tensorflow/TensorFlow2.0/img/572dbe03f38bc28e6575b97b2ce91fda.png
new file mode 100644
index 00000000..17c70e0a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/572dbe03f38bc28e6575b97b2ce91fda.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/58c58ebd47eeea7849c83cacae4000e9.png b/Tensorflow/TensorFlow2.0/img/58c58ebd47eeea7849c83cacae4000e9.png
new file mode 100644
index 00000000..a482f444
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/58c58ebd47eeea7849c83cacae4000e9.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/58d9d20121aa86120aded9afa9cfff6d.png b/Tensorflow/TensorFlow2.0/img/58d9d20121aa86120aded9afa9cfff6d.png
new file mode 100644
index 00000000..dc0c1769
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/58d9d20121aa86120aded9afa9cfff6d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5a99ef9a46f69b148f306ff1fc040611.png b/Tensorflow/TensorFlow2.0/img/5a99ef9a46f69b148f306ff1fc040611.png
new file mode 100644
index 00000000..2cbe4815
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5a99ef9a46f69b148f306ff1fc040611.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5ae7b3b0f94a71db86b4168d116179ff.png b/Tensorflow/TensorFlow2.0/img/5ae7b3b0f94a71db86b4168d116179ff.png
new file mode 100644
index 00000000..f2691ecc
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5ae7b3b0f94a71db86b4168d116179ff.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5c1c4854000457ae3fc18d0292519bfc.png b/Tensorflow/TensorFlow2.0/img/5c1c4854000457ae3fc18d0292519bfc.png
new file mode 100644
index 00000000..f0af01c2
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5c1c4854000457ae3fc18d0292519bfc.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5c6f6f5e851c052e9e53969cd0419cbb.png b/Tensorflow/TensorFlow2.0/img/5c6f6f5e851c052e9e53969cd0419cbb.png
new file mode 100644
index 00000000..7b30f5d0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5c6f6f5e851c052e9e53969cd0419cbb.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5edc6f55df9224577119e687a2c97282.png b/Tensorflow/TensorFlow2.0/img/5edc6f55df9224577119e687a2c97282.png
new file mode 100644
index 00000000..978cfd1d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5edc6f55df9224577119e687a2c97282.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5f0049e4eda5b1689106731ac4d622f6.png b/Tensorflow/TensorFlow2.0/img/5f0049e4eda5b1689106731ac4d622f6.png
new file mode 100644
index 00000000..a19bd2cb
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5f0049e4eda5b1689106731ac4d622f6.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5fc218fbba095949ac4ca115de92329b.png b/Tensorflow/TensorFlow2.0/img/5fc218fbba095949ac4ca115de92329b.png
new file mode 100644
index 00000000..a8b59097
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5fc218fbba095949ac4ca115de92329b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5fcd4749c7b37cf8714bd83753d1da5b.png b/Tensorflow/TensorFlow2.0/img/5fcd4749c7b37cf8714bd83753d1da5b.png
new file mode 100644
index 00000000..5600986b
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5fcd4749c7b37cf8714bd83753d1da5b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/5ff0d069276967832a1c7690ce8bcfa3.png b/Tensorflow/TensorFlow2.0/img/5ff0d069276967832a1c7690ce8bcfa3.png
new file mode 100644
index 00000000..947dd2f3
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/5ff0d069276967832a1c7690ce8bcfa3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/60960a15d5ca50a1486f3c3f8c200635.png b/Tensorflow/TensorFlow2.0/img/60960a15d5ca50a1486f3c3f8c200635.png
new file mode 100644
index 00000000..a3954c76
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/60960a15d5ca50a1486f3c3f8c200635.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/60f296c47de6a4f924d14241f6205011.png b/Tensorflow/TensorFlow2.0/img/60f296c47de6a4f924d14241f6205011.png
new file mode 100644
index 00000000..4d32894d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/60f296c47de6a4f924d14241f6205011.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/61002e329110c6cb1db1a82acd8d232f.png b/Tensorflow/TensorFlow2.0/img/61002e329110c6cb1db1a82acd8d232f.png
new file mode 100644
index 00000000..6e241739
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/61002e329110c6cb1db1a82acd8d232f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/62b95a860e23180ece55e3d2749a9db0.png b/Tensorflow/TensorFlow2.0/img/62b95a860e23180ece55e3d2749a9db0.png
new file mode 100644
index 00000000..1e2cd483
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/62b95a860e23180ece55e3d2749a9db0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6396c35912fab965e30d9adf6c7c8981.png b/Tensorflow/TensorFlow2.0/img/6396c35912fab965e30d9adf6c7c8981.png
new file mode 100644
index 00000000..18472aca
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6396c35912fab965e30d9adf6c7c8981.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/643455194a29bfd2dc25c8821cbbf3b4.png b/Tensorflow/TensorFlow2.0/img/643455194a29bfd2dc25c8821cbbf3b4.png
new file mode 100644
index 00000000..d5a24976
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/643455194a29bfd2dc25c8821cbbf3b4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/643d654e7e1e3d928041b42363e0f099.png b/Tensorflow/TensorFlow2.0/img/643d654e7e1e3d928041b42363e0f099.png
new file mode 100644
index 00000000..a2694b77
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/643d654e7e1e3d928041b42363e0f099.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/644c999529792fb810f213e660e582b8.png b/Tensorflow/TensorFlow2.0/img/644c999529792fb810f213e660e582b8.png
new file mode 100644
index 00000000..f84a64d0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/644c999529792fb810f213e660e582b8.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/651f6b2fbf396ac15fb7661af005bb0e.png b/Tensorflow/TensorFlow2.0/img/651f6b2fbf396ac15fb7661af005bb0e.png
new file mode 100644
index 00000000..9eee8f7c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/651f6b2fbf396ac15fb7661af005bb0e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/65e3cc57565dea4503cb5f3f7dca3035.png b/Tensorflow/TensorFlow2.0/img/65e3cc57565dea4503cb5f3f7dca3035.png
new file mode 100644
index 00000000..c58a90a6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/65e3cc57565dea4503cb5f3f7dca3035.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6637dace2ef4faea4a327361aec7c4ae.png b/Tensorflow/TensorFlow2.0/img/6637dace2ef4faea4a327361aec7c4ae.png
new file mode 100644
index 00000000..a506ac8f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6637dace2ef4faea4a327361aec7c4ae.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/66503afc507478f400022c625de3c878.png b/Tensorflow/TensorFlow2.0/img/66503afc507478f400022c625de3c878.png
new file mode 100644
index 00000000..a06e88c2
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/66503afc507478f400022c625de3c878.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/677f173984390980c5f4af3a22313c24.png b/Tensorflow/TensorFlow2.0/img/677f173984390980c5f4af3a22313c24.png
new file mode 100644
index 00000000..868b98d7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/677f173984390980c5f4af3a22313c24.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/67c5e6fec9fd9b11f792765822fbb538.png b/Tensorflow/TensorFlow2.0/img/67c5e6fec9fd9b11f792765822fbb538.png
new file mode 100644
index 00000000..89918a48
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/67c5e6fec9fd9b11f792765822fbb538.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/696df8a523ce550bf177c7051cef2c75.png b/Tensorflow/TensorFlow2.0/img/696df8a523ce550bf177c7051cef2c75.png
new file mode 100644
index 00000000..8903589f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/696df8a523ce550bf177c7051cef2c75.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6a2da58193a35a905b6a102743897cbd.png b/Tensorflow/TensorFlow2.0/img/6a2da58193a35a905b6a102743897cbd.png
new file mode 100644
index 00000000..77221d24
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6a2da58193a35a905b6a102743897cbd.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6ae78bb4c1ad3a2e0ade4489d4fdf706.png b/Tensorflow/TensorFlow2.0/img/6ae78bb4c1ad3a2e0ade4489d4fdf706.png
new file mode 100644
index 00000000..5ac9884a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6ae78bb4c1ad3a2e0ade4489d4fdf706.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6b1df74992f4b9253cc3e928d73cd3a8.png b/Tensorflow/TensorFlow2.0/img/6b1df74992f4b9253cc3e928d73cd3a8.png
new file mode 100644
index 00000000..ececa3b0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6b1df74992f4b9253cc3e928d73cd3a8.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6b843e3001e6a49928fc35d8af4c843d.png b/Tensorflow/TensorFlow2.0/img/6b843e3001e6a49928fc35d8af4c843d.png
new file mode 100644
index 00000000..3cbdbd86
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6b843e3001e6a49928fc35d8af4c843d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6c3e8444c64a773d92f67fd4f07992b7.png b/Tensorflow/TensorFlow2.0/img/6c3e8444c64a773d92f67fd4f07992b7.png
new file mode 100644
index 00000000..864e7840
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6c3e8444c64a773d92f67fd4f07992b7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6c6872963385e03ea4f524449a601d33.png b/Tensorflow/TensorFlow2.0/img/6c6872963385e03ea4f524449a601d33.png
new file mode 100644
index 00000000..4642d521
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6c6872963385e03ea4f524449a601d33.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6cd4981eb3c80dc3045b45bd7fd0e7ea.png b/Tensorflow/TensorFlow2.0/img/6cd4981eb3c80dc3045b45bd7fd0e7ea.png
new file mode 100644
index 00000000..014f1817
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6cd4981eb3c80dc3045b45bd7fd0e7ea.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6d3cbd4df24ab25d853127035bfd6b5b.png b/Tensorflow/TensorFlow2.0/img/6d3cbd4df24ab25d853127035bfd6b5b.png
new file mode 100644
index 00000000..f66c5e5d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6d3cbd4df24ab25d853127035bfd6b5b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6d5e829de3a867f7bb56dff003b7e217.png b/Tensorflow/TensorFlow2.0/img/6d5e829de3a867f7bb56dff003b7e217.png
new file mode 100644
index 00000000..6c327f78
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6d5e829de3a867f7bb56dff003b7e217.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6d8da708f09878fc993e75adb40fd2a1.png b/Tensorflow/TensorFlow2.0/img/6d8da708f09878fc993e75adb40fd2a1.png
new file mode 100644
index 00000000..671efbd1
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6d8da708f09878fc993e75adb40fd2a1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6e7c99c48b9dcda32be57092d1d9d6bb.png b/Tensorflow/TensorFlow2.0/img/6e7c99c48b9dcda32be57092d1d9d6bb.png
new file mode 100644
index 00000000..bf163c45
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6e7c99c48b9dcda32be57092d1d9d6bb.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/6e877844629f2888009486ac2f5ece0b.png b/Tensorflow/TensorFlow2.0/img/6e877844629f2888009486ac2f5ece0b.png
new file mode 100644
index 00000000..7f07f2f7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/6e877844629f2888009486ac2f5ece0b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/707c82ef753d85482b462054a3e19161.png b/Tensorflow/TensorFlow2.0/img/707c82ef753d85482b462054a3e19161.png
new file mode 100644
index 00000000..73a12beb
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/707c82ef753d85482b462054a3e19161.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/70aad5930c300b7d64d15effb7f89419.png b/Tensorflow/TensorFlow2.0/img/70aad5930c300b7d64d15effb7f89419.png
new file mode 100644
index 00000000..76b42cff
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/70aad5930c300b7d64d15effb7f89419.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/70c92a3e3d823d4469d81b23380fef63.png b/Tensorflow/TensorFlow2.0/img/70c92a3e3d823d4469d81b23380fef63.png
new file mode 100644
index 00000000..dabe8001
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/70c92a3e3d823d4469d81b23380fef63.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/711ebb2cc10e3bb88f77a6eb89fac014.png b/Tensorflow/TensorFlow2.0/img/711ebb2cc10e3bb88f77a6eb89fac014.png
new file mode 100644
index 00000000..140d1a3d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/711ebb2cc10e3bb88f77a6eb89fac014.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7138c243e1e2c00466be2191f6395597.png b/Tensorflow/TensorFlow2.0/img/7138c243e1e2c00466be2191f6395597.png
new file mode 100644
index 00000000..0070a46e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7138c243e1e2c00466be2191f6395597.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/714e44b919585c6cb716b313e7f35787.png b/Tensorflow/TensorFlow2.0/img/714e44b919585c6cb716b313e7f35787.png
new file mode 100644
index 00000000..94fb10e8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/714e44b919585c6cb716b313e7f35787.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/717d3c9c631162f5b991acff83eda7bc.png b/Tensorflow/TensorFlow2.0/img/717d3c9c631162f5b991acff83eda7bc.png
new file mode 100644
index 00000000..580edf0c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/717d3c9c631162f5b991acff83eda7bc.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/720daa43063b46bf1f7dcc96c25df451.png b/Tensorflow/TensorFlow2.0/img/720daa43063b46bf1f7dcc96c25df451.png
new file mode 100644
index 00000000..e5b70874
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/720daa43063b46bf1f7dcc96c25df451.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/72de951dda8439ddee9fe72a64a9ed2e.png b/Tensorflow/TensorFlow2.0/img/72de951dda8439ddee9fe72a64a9ed2e.png
new file mode 100644
index 00000000..7ee7b1cb
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/72de951dda8439ddee9fe72a64a9ed2e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/72fcb6a7bcc602106e2c60268d3642c5.png b/Tensorflow/TensorFlow2.0/img/72fcb6a7bcc602106e2c60268d3642c5.png
new file mode 100644
index 00000000..26b5f801
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/72fcb6a7bcc602106e2c60268d3642c5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/74469ffcda8aa53d4c29cfcfda5831ad.png b/Tensorflow/TensorFlow2.0/img/74469ffcda8aa53d4c29cfcfda5831ad.png
new file mode 100644
index 00000000..c18ed4c6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/74469ffcda8aa53d4c29cfcfda5831ad.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/74badb10696c0ffbba886121ce004be0.png b/Tensorflow/TensorFlow2.0/img/74badb10696c0ffbba886121ce004be0.png
new file mode 100644
index 00000000..0cc1fe87
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/74badb10696c0ffbba886121ce004be0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/74d574698188902058a67179ab1b7192.png b/Tensorflow/TensorFlow2.0/img/74d574698188902058a67179ab1b7192.png
new file mode 100644
index 00000000..dd7aa5b4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/74d574698188902058a67179ab1b7192.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/74d6d6302722b19888cd2b8a076a9899.png b/Tensorflow/TensorFlow2.0/img/74d6d6302722b19888cd2b8a076a9899.png
new file mode 100644
index 00000000..31daa66a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/74d6d6302722b19888cd2b8a076a9899.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7534c154062dc8f522f01d83838f3161.png b/Tensorflow/TensorFlow2.0/img/7534c154062dc8f522f01d83838f3161.png
new file mode 100644
index 00000000..c2d46e3d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7534c154062dc8f522f01d83838f3161.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/77a7189086e1a02a870dbf630c311e5d.png b/Tensorflow/TensorFlow2.0/img/77a7189086e1a02a870dbf630c311e5d.png
new file mode 100644
index 00000000..83ecf420
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/77a7189086e1a02a870dbf630c311e5d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/77a9a1e4b542e966076c493155a71253.png b/Tensorflow/TensorFlow2.0/img/77a9a1e4b542e966076c493155a71253.png
new file mode 100644
index 00000000..aa5bf4ff
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/77a9a1e4b542e966076c493155a71253.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/78576e063fbd26107e5efc5a23a8ec2d.png b/Tensorflow/TensorFlow2.0/img/78576e063fbd26107e5efc5a23a8ec2d.png
new file mode 100644
index 00000000..e285ae30
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/78576e063fbd26107e5efc5a23a8ec2d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/78ca1a250f36dcb02f9c3bdeed26f8cc.png b/Tensorflow/TensorFlow2.0/img/78ca1a250f36dcb02f9c3bdeed26f8cc.png
new file mode 100644
index 00000000..51ad2eb6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/78ca1a250f36dcb02f9c3bdeed26f8cc.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/79de81de8fa8f26b206d9f7e2e29232f.png b/Tensorflow/TensorFlow2.0/img/79de81de8fa8f26b206d9f7e2e29232f.png
new file mode 100644
index 00000000..19cb2e09
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/79de81de8fa8f26b206d9f7e2e29232f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7cdba0cc0b42056375b866ad3630f029.png b/Tensorflow/TensorFlow2.0/img/7cdba0cc0b42056375b866ad3630f029.png
new file mode 100644
index 00000000..49836832
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7cdba0cc0b42056375b866ad3630f029.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7d1de3cd2c94ab5fb2b9e44445a2fa6b.png b/Tensorflow/TensorFlow2.0/img/7d1de3cd2c94ab5fb2b9e44445a2fa6b.png
new file mode 100644
index 00000000..a278b8af
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7d1de3cd2c94ab5fb2b9e44445a2fa6b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7e31e526f055ddde2fd0d3a4e5d60aef.png b/Tensorflow/TensorFlow2.0/img/7e31e526f055ddde2fd0d3a4e5d60aef.png
new file mode 100644
index 00000000..d1f82973
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7e31e526f055ddde2fd0d3a4e5d60aef.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7eb3066f3b0de91799a8bcae1606a337.png b/Tensorflow/TensorFlow2.0/img/7eb3066f3b0de91799a8bcae1606a337.png
new file mode 100644
index 00000000..fcdcb29f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7eb3066f3b0de91799a8bcae1606a337.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7eb74540a68f2291fad5d0e857c5b792.png b/Tensorflow/TensorFlow2.0/img/7eb74540a68f2291fad5d0e857c5b792.png
new file mode 100644
index 00000000..7f936f80
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7eb74540a68f2291fad5d0e857c5b792.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7ef992617c160736f94c086cc0a754d5.png b/Tensorflow/TensorFlow2.0/img/7ef992617c160736f94c086cc0a754d5.png
new file mode 100644
index 00000000..88f4dd1c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7ef992617c160736f94c086cc0a754d5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7f05b53be9225270c3955654d7d465de.png b/Tensorflow/TensorFlow2.0/img/7f05b53be9225270c3955654d7d465de.png
new file mode 100644
index 00000000..8b875b8a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7f05b53be9225270c3955654d7d465de.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7fb60d07e3fa3bd88b02197b1f12223f.png b/Tensorflow/TensorFlow2.0/img/7fb60d07e3fa3bd88b02197b1f12223f.png
new file mode 100644
index 00000000..c3f7cd1f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7fb60d07e3fa3bd88b02197b1f12223f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/7fe4fe0b14735050369dc31f05672d65.png b/Tensorflow/TensorFlow2.0/img/7fe4fe0b14735050369dc31f05672d65.png
new file mode 100644
index 00000000..ec512ee4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/7fe4fe0b14735050369dc31f05672d65.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/80b7b3f55ab0abb83e2fa9303508fd68.png b/Tensorflow/TensorFlow2.0/img/80b7b3f55ab0abb83e2fa9303508fd68.png
new file mode 100644
index 00000000..2e820d81
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/80b7b3f55ab0abb83e2fa9303508fd68.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/810312a7c3f1fcd32a88650d8631239e.png b/Tensorflow/TensorFlow2.0/img/810312a7c3f1fcd32a88650d8631239e.png
new file mode 100644
index 00000000..177389d5
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/810312a7c3f1fcd32a88650d8631239e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/810fd9bfb9c1343a9406169df9bf12df.png b/Tensorflow/TensorFlow2.0/img/810fd9bfb9c1343a9406169df9bf12df.png
new file mode 100644
index 00000000..6bbf04e2
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/810fd9bfb9c1343a9406169df9bf12df.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8142c6b01c1a35d86e4ace60827bcce8.png b/Tensorflow/TensorFlow2.0/img/8142c6b01c1a35d86e4ace60827bcce8.png
new file mode 100644
index 00000000..7f6efba0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8142c6b01c1a35d86e4ace60827bcce8.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/815371be4cdb93da43df2c0cb17bb929.png b/Tensorflow/TensorFlow2.0/img/815371be4cdb93da43df2c0cb17bb929.png
new file mode 100644
index 00000000..3eeaf5bc
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/815371be4cdb93da43df2c0cb17bb929.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/82444fa7539ed0a798d9a1de5aaf147b.png b/Tensorflow/TensorFlow2.0/img/82444fa7539ed0a798d9a1de5aaf147b.png
new file mode 100644
index 00000000..d20abdbc
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/82444fa7539ed0a798d9a1de5aaf147b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/82589e03628e8bb6a3ba169733c4cc9e.png b/Tensorflow/TensorFlow2.0/img/82589e03628e8bb6a3ba169733c4cc9e.png
new file mode 100644
index 00000000..f204eaac
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/82589e03628e8bb6a3ba169733c4cc9e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/82eeef92c3c39a6fc38d679c9e4c37fa.png b/Tensorflow/TensorFlow2.0/img/82eeef92c3c39a6fc38d679c9e4c37fa.png
new file mode 100644
index 00000000..90bac262
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/82eeef92c3c39a6fc38d679c9e4c37fa.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8317a6a03bbf1bff4913755d5d89c9c6.png b/Tensorflow/TensorFlow2.0/img/8317a6a03bbf1bff4913755d5d89c9c6.png
new file mode 100644
index 00000000..9a19ac3f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8317a6a03bbf1bff4913755d5d89c9c6.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/833d9eeff633ce77dec2eb85f74e8bbb.png b/Tensorflow/TensorFlow2.0/img/833d9eeff633ce77dec2eb85f74e8bbb.png
new file mode 100644
index 00000000..f9ff390f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/833d9eeff633ce77dec2eb85f74e8bbb.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8350c367e4679800cd155cf00a343b47.png b/Tensorflow/TensorFlow2.0/img/8350c367e4679800cd155cf00a343b47.png
new file mode 100644
index 00000000..d08040e8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8350c367e4679800cd155cf00a343b47.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/852e0228b5aebca16dfadf758d11e902.png b/Tensorflow/TensorFlow2.0/img/852e0228b5aebca16dfadf758d11e902.png
new file mode 100644
index 00000000..77360ac7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/852e0228b5aebca16dfadf758d11e902.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/85d63bf8a53bc6d25baa38c0e3e2dde0.png b/Tensorflow/TensorFlow2.0/img/85d63bf8a53bc6d25baa38c0e3e2dde0.png
new file mode 100644
index 00000000..3eaf725b
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/85d63bf8a53bc6d25baa38c0e3e2dde0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/864dc18cd572f84b2ce62f1f5d620663.png b/Tensorflow/TensorFlow2.0/img/864dc18cd572f84b2ce62f1f5d620663.png
new file mode 100644
index 00000000..31a6e1ce
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/864dc18cd572f84b2ce62f1f5d620663.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/867e80eb383cce30a1f013a43e465d02.png b/Tensorflow/TensorFlow2.0/img/867e80eb383cce30a1f013a43e465d02.png
new file mode 100644
index 00000000..19c4c9ba
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/867e80eb383cce30a1f013a43e465d02.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/868f946086995ef931b7b454d904e14b.png b/Tensorflow/TensorFlow2.0/img/868f946086995ef931b7b454d904e14b.png
new file mode 100644
index 00000000..e90a9097
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/868f946086995ef931b7b454d904e14b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8699bedea334d056223fb477ad561204.png b/Tensorflow/TensorFlow2.0/img/8699bedea334d056223fb477ad561204.png
new file mode 100644
index 00000000..54170326
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8699bedea334d056223fb477ad561204.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/86f4e22b402c9e48d76da7068ace2175.png b/Tensorflow/TensorFlow2.0/img/86f4e22b402c9e48d76da7068ace2175.png
new file mode 100644
index 00000000..4fb6db89
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/86f4e22b402c9e48d76da7068ace2175.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/87abb24bd5c5230158bc1ff3b3bb5624.png b/Tensorflow/TensorFlow2.0/img/87abb24bd5c5230158bc1ff3b3bb5624.png
new file mode 100644
index 00000000..94eb6504
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/87abb24bd5c5230158bc1ff3b3bb5624.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/87e59b9663f1f875cba8bbc04b3ec8d7.png b/Tensorflow/TensorFlow2.0/img/87e59b9663f1f875cba8bbc04b3ec8d7.png
new file mode 100644
index 00000000..f3253762
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/87e59b9663f1f875cba8bbc04b3ec8d7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/87f405a26e039fc527ac7f2dd59de28d.png b/Tensorflow/TensorFlow2.0/img/87f405a26e039fc527ac7f2dd59de28d.png
new file mode 100644
index 00000000..3723f1a0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/87f405a26e039fc527ac7f2dd59de28d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/89837448c36d73e735364038e7b3e689.png b/Tensorflow/TensorFlow2.0/img/89837448c36d73e735364038e7b3e689.png
new file mode 100644
index 00000000..a105772f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/89837448c36d73e735364038e7b3e689.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8a26efaab988f8c9054ea977baabb45a.png b/Tensorflow/TensorFlow2.0/img/8a26efaab988f8c9054ea977baabb45a.png
new file mode 100644
index 00000000..3b6a9ef4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8a26efaab988f8c9054ea977baabb45a.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8aa1d48ada55b367535dbe964ad2cd79.png b/Tensorflow/TensorFlow2.0/img/8aa1d48ada55b367535dbe964ad2cd79.png
new file mode 100644
index 00000000..52b26e5f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8aa1d48ada55b367535dbe964ad2cd79.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8c90a903ef2c498784c14d3c169e9ee6.png b/Tensorflow/TensorFlow2.0/img/8c90a903ef2c498784c14d3c169e9ee6.png
new file mode 100644
index 00000000..52a10393
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8c90a903ef2c498784c14d3c169e9ee6.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8cfd7ac31a67f47e311e6db012947c3e.png b/Tensorflow/TensorFlow2.0/img/8cfd7ac31a67f47e311e6db012947c3e.png
new file mode 100644
index 00000000..7d49568f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8cfd7ac31a67f47e311e6db012947c3e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8d456c03cff000c86147a07dbbcb6f32.png b/Tensorflow/TensorFlow2.0/img/8d456c03cff000c86147a07dbbcb6f32.png
new file mode 100644
index 00000000..e1f15ecb
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8d456c03cff000c86147a07dbbcb6f32.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8ece215a943b54af726cd35da72293a2.png b/Tensorflow/TensorFlow2.0/img/8ece215a943b54af726cd35da72293a2.png
new file mode 100644
index 00000000..badcee15
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8ece215a943b54af726cd35da72293a2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8f2ea45ce97f58e2339af71a7d349532.png b/Tensorflow/TensorFlow2.0/img/8f2ea45ce97f58e2339af71a7d349532.png
new file mode 100644
index 00000000..6921c691
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8f2ea45ce97f58e2339af71a7d349532.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8f40b70083328d6f68f1d2c5821927d1.png b/Tensorflow/TensorFlow2.0/img/8f40b70083328d6f68f1d2c5821927d1.png
new file mode 100644
index 00000000..593dd407
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8f40b70083328d6f68f1d2c5821927d1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8f8b815630d4213a923f492eacc9d2d0.png b/Tensorflow/TensorFlow2.0/img/8f8b815630d4213a923f492eacc9d2d0.png
new file mode 100644
index 00000000..ebf3880e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8f8b815630d4213a923f492eacc9d2d0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/8fcdc694ecba49a443b3d3fa3db737c8.png b/Tensorflow/TensorFlow2.0/img/8fcdc694ecba49a443b3d3fa3db737c8.png
new file mode 100644
index 00000000..b6419b4a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/8fcdc694ecba49a443b3d3fa3db737c8.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/906a04e5434908ec33033e39f2e83f6b.png b/Tensorflow/TensorFlow2.0/img/906a04e5434908ec33033e39f2e83f6b.png
new file mode 100644
index 00000000..10d735aa
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/906a04e5434908ec33033e39f2e83f6b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/90c153ba31f6c32d7d760bc031b5d956.png b/Tensorflow/TensorFlow2.0/img/90c153ba31f6c32d7d760bc031b5d956.png
new file mode 100644
index 00000000..b3c8b2a8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/90c153ba31f6c32d7d760bc031b5d956.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/918c568bb9e84acfad1ad27dbca52256.png b/Tensorflow/TensorFlow2.0/img/918c568bb9e84acfad1ad27dbca52256.png
new file mode 100644
index 00000000..d16a8f41
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/918c568bb9e84acfad1ad27dbca52256.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/921588a88d035dfd280c98f420033345.png b/Tensorflow/TensorFlow2.0/img/921588a88d035dfd280c98f420033345.png
new file mode 100644
index 00000000..275aeea9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/921588a88d035dfd280c98f420033345.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/921a4bdd48f0d134cefd395ce4a30708.png b/Tensorflow/TensorFlow2.0/img/921a4bdd48f0d134cefd395ce4a30708.png
new file mode 100644
index 00000000..c9eada40
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/921a4bdd48f0d134cefd395ce4a30708.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/92783ce299d17a6100276f8087c404f5.png b/Tensorflow/TensorFlow2.0/img/92783ce299d17a6100276f8087c404f5.png
new file mode 100644
index 00000000..46c202f8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/92783ce299d17a6100276f8087c404f5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/93885449f16f07fe470e025617b7acf3.png b/Tensorflow/TensorFlow2.0/img/93885449f16f07fe470e025617b7acf3.png
new file mode 100644
index 00000000..7b04a694
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/93885449f16f07fe470e025617b7acf3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9461d6f88eb7d390eea25f1f034101b5.png b/Tensorflow/TensorFlow2.0/img/9461d6f88eb7d390eea25f1f034101b5.png
new file mode 100644
index 00000000..88c81049
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9461d6f88eb7d390eea25f1f034101b5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/952f47865ecb556d71d2bcdfe9caad34.png b/Tensorflow/TensorFlow2.0/img/952f47865ecb556d71d2bcdfe9caad34.png
new file mode 100644
index 00000000..8df0f437
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/952f47865ecb556d71d2bcdfe9caad34.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9534e12498035f0762e0c85eee6f02ca.png b/Tensorflow/TensorFlow2.0/img/9534e12498035f0762e0c85eee6f02ca.png
new file mode 100644
index 00000000..01342d82
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9534e12498035f0762e0c85eee6f02ca.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9564eb108080dfcb0a0231e7db795b06.png b/Tensorflow/TensorFlow2.0/img/9564eb108080dfcb0a0231e7db795b06.png
new file mode 100644
index 00000000..ea434e01
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9564eb108080dfcb0a0231e7db795b06.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9666a8448543e729e35645bbb2244464.png b/Tensorflow/TensorFlow2.0/img/9666a8448543e729e35645bbb2244464.png
new file mode 100644
index 00000000..bda77a79
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9666a8448543e729e35645bbb2244464.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/968128f6d4f50734ad92597399dacd79.png b/Tensorflow/TensorFlow2.0/img/968128f6d4f50734ad92597399dacd79.png
new file mode 100644
index 00000000..2438684f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/968128f6d4f50734ad92597399dacd79.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/96d1ebcace7bea24e438e658512e1e53.png b/Tensorflow/TensorFlow2.0/img/96d1ebcace7bea24e438e658512e1e53.png
new file mode 100644
index 00000000..1c5a1218
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/96d1ebcace7bea24e438e658512e1e53.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/96e942cbf28db3cfff8c8f90167f2a8b.png b/Tensorflow/TensorFlow2.0/img/96e942cbf28db3cfff8c8f90167f2a8b.png
new file mode 100644
index 00000000..de5cbd97
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/96e942cbf28db3cfff8c8f90167f2a8b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/982e1307bbc8145644b791d775fcc2c7.png b/Tensorflow/TensorFlow2.0/img/982e1307bbc8145644b791d775fcc2c7.png
new file mode 100644
index 00000000..2604ce7e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/982e1307bbc8145644b791d775fcc2c7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/996d41e44b9998dc439ec88b9b370cec.png b/Tensorflow/TensorFlow2.0/img/996d41e44b9998dc439ec88b9b370cec.png
new file mode 100644
index 00000000..a82f27e1
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/996d41e44b9998dc439ec88b9b370cec.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9a244f6224055e7727787fe289c2ca7c.png b/Tensorflow/TensorFlow2.0/img/9a244f6224055e7727787fe289c2ca7c.png
new file mode 100644
index 00000000..a51bbe00
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9a244f6224055e7727787fe289c2ca7c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9c459926609b3f3452425d5e76209223.png b/Tensorflow/TensorFlow2.0/img/9c459926609b3f3452425d5e76209223.png
new file mode 100644
index 00000000..d327ec24
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9c459926609b3f3452425d5e76209223.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9c9248a99f6346e02b6be5c21e5ab7be.png b/Tensorflow/TensorFlow2.0/img/9c9248a99f6346e02b6be5c21e5ab7be.png
new file mode 100644
index 00000000..908cc653
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9c9248a99f6346e02b6be5c21e5ab7be.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9c9dba05c6503363ec77df2a3d25a70b.png b/Tensorflow/TensorFlow2.0/img/9c9dba05c6503363ec77df2a3d25a70b.png
new file mode 100644
index 00000000..5c782375
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9c9dba05c6503363ec77df2a3d25a70b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9cada0d075f4e1a104766ddd3754aba4.png b/Tensorflow/TensorFlow2.0/img/9cada0d075f4e1a104766ddd3754aba4.png
new file mode 100644
index 00000000..cd52a65c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9cada0d075f4e1a104766ddd3754aba4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9de9afda3f7352b4106f61a83025d8e1.png b/Tensorflow/TensorFlow2.0/img/9de9afda3f7352b4106f61a83025d8e1.png
new file mode 100644
index 00000000..a961bedf
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9de9afda3f7352b4106f61a83025d8e1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9ec1c5121631fabdd2734d5a380b07fc.png b/Tensorflow/TensorFlow2.0/img/9ec1c5121631fabdd2734d5a380b07fc.png
new file mode 100644
index 00000000..73544a0f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9ec1c5121631fabdd2734d5a380b07fc.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9fb3392ca5993899f47b18579cbe31b2.png b/Tensorflow/TensorFlow2.0/img/9fb3392ca5993899f47b18579cbe31b2.png
new file mode 100644
index 00000000..b7aa33a7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9fb3392ca5993899f47b18579cbe31b2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/9fe57f7953fe53d67a38187c0888cb68.png b/Tensorflow/TensorFlow2.0/img/9fe57f7953fe53d67a38187c0888cb68.png
new file mode 100644
index 00000000..a58dd240
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/9fe57f7953fe53d67a38187c0888cb68.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a010d7e20315211304fe4a28f6c6f8e7.png b/Tensorflow/TensorFlow2.0/img/a010d7e20315211304fe4a28f6c6f8e7.png
new file mode 100644
index 00000000..9a1307d7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a010d7e20315211304fe4a28f6c6f8e7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a07663add154e45bd446c2344b406190.png b/Tensorflow/TensorFlow2.0/img/a07663add154e45bd446c2344b406190.png
new file mode 100644
index 00000000..cd1aaf4d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a07663add154e45bd446c2344b406190.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a0fc8485669a9e30fd4f2ba2db4ebe0e.png b/Tensorflow/TensorFlow2.0/img/a0fc8485669a9e30fd4f2ba2db4ebe0e.png
new file mode 100644
index 00000000..b87776fc
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a0fc8485669a9e30fd4f2ba2db4ebe0e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a208fe52aacc14e668b9b681805d8302.png b/Tensorflow/TensorFlow2.0/img/a208fe52aacc14e668b9b681805d8302.png
new file mode 100644
index 00000000..09f73479
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a208fe52aacc14e668b9b681805d8302.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a2d79e6f20ade2372271c76afeaca800.png b/Tensorflow/TensorFlow2.0/img/a2d79e6f20ade2372271c76afeaca800.png
new file mode 100644
index 00000000..1d639a26
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a2d79e6f20ade2372271c76afeaca800.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a2df7f5d9e1c60caea95f5df1cc01ee2.png b/Tensorflow/TensorFlow2.0/img/a2df7f5d9e1c60caea95f5df1cc01ee2.png
new file mode 100644
index 00000000..b025278d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a2df7f5d9e1c60caea95f5df1cc01ee2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a3920eb34218a65a21b046a30c7d3808.png b/Tensorflow/TensorFlow2.0/img/a3920eb34218a65a21b046a30c7d3808.png
new file mode 100644
index 00000000..e3a0f9c4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a3920eb34218a65a21b046a30c7d3808.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a3923a442896cffee97920f98141a84c.png b/Tensorflow/TensorFlow2.0/img/a3923a442896cffee97920f98141a84c.png
new file mode 100644
index 00000000..9f32bb11
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a3923a442896cffee97920f98141a84c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a3d4072cdd299fedb28dda8fdab7e611.png b/Tensorflow/TensorFlow2.0/img/a3d4072cdd299fedb28dda8fdab7e611.png
new file mode 100644
index 00000000..81cc5015
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a3d4072cdd299fedb28dda8fdab7e611.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a3f9320fc0125d442f2b7412c2492197.png b/Tensorflow/TensorFlow2.0/img/a3f9320fc0125d442f2b7412c2492197.png
new file mode 100644
index 00000000..0e7031ce
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a3f9320fc0125d442f2b7412c2492197.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a49dab0e9e9ab0a58b2928fb2760dab6.png b/Tensorflow/TensorFlow2.0/img/a49dab0e9e9ab0a58b2928fb2760dab6.png
new file mode 100644
index 00000000..17a40f9f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a49dab0e9e9ab0a58b2928fb2760dab6.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a4e3dc308082391c952aa74215418950.png b/Tensorflow/TensorFlow2.0/img/a4e3dc308082391c952aa74215418950.png
new file mode 100644
index 00000000..e1f951b2
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a4e3dc308082391c952aa74215418950.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a50df54eefaa2e0b41728c5e66685f3a.png b/Tensorflow/TensorFlow2.0/img/a50df54eefaa2e0b41728c5e66685f3a.png
new file mode 100644
index 00000000..d4cde950
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a50df54eefaa2e0b41728c5e66685f3a.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a71722493bd8850dfcd7c1ec0e69918f.png b/Tensorflow/TensorFlow2.0/img/a71722493bd8850dfcd7c1ec0e69918f.png
new file mode 100644
index 00000000..2e1acaa8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a71722493bd8850dfcd7c1ec0e69918f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a83182d7f6b11d76dd2d428db01ade58.png b/Tensorflow/TensorFlow2.0/img/a83182d7f6b11d76dd2d428db01ade58.png
new file mode 100644
index 00000000..10f33e87
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a83182d7f6b11d76dd2d428db01ade58.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a84da0fdd95c0b8365360f941f57e017.png b/Tensorflow/TensorFlow2.0/img/a84da0fdd95c0b8365360f941f57e017.png
new file mode 100644
index 00000000..8198760a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a84da0fdd95c0b8365360f941f57e017.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a8a6734d5e53ebf66610af0af887bc96.png b/Tensorflow/TensorFlow2.0/img/a8a6734d5e53ebf66610af0af887bc96.png
new file mode 100644
index 00000000..e8e52bd7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a8a6734d5e53ebf66610af0af887bc96.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/a949ce3a88563b30ea494e744fe3cd5f.png b/Tensorflow/TensorFlow2.0/img/a949ce3a88563b30ea494e744fe3cd5f.png
new file mode 100644
index 00000000..66c34c4b
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/a949ce3a88563b30ea494e744fe3cd5f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/aa45f39cd51486760afc706f90cf0afa.png b/Tensorflow/TensorFlow2.0/img/aa45f39cd51486760afc706f90cf0afa.png
new file mode 100644
index 00000000..08e34e65
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/aa45f39cd51486760afc706f90cf0afa.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/aaf0cfc73c7f275786e66d759ad26df6.png b/Tensorflow/TensorFlow2.0/img/aaf0cfc73c7f275786e66d759ad26df6.png
new file mode 100644
index 00000000..c07e06ca
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/aaf0cfc73c7f275786e66d759ad26df6.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ab876a0a7878b27ea0658f95d96f1ddb.png b/Tensorflow/TensorFlow2.0/img/ab876a0a7878b27ea0658f95d96f1ddb.png
new file mode 100644
index 00000000..55cf57d0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ab876a0a7878b27ea0658f95d96f1ddb.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ac69959225a206f2b2c5ed2e33218511.png b/Tensorflow/TensorFlow2.0/img/ac69959225a206f2b2c5ed2e33218511.png
new file mode 100644
index 00000000..ec65f711
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ac69959225a206f2b2c5ed2e33218511.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ac9289d9a0758fb9367cad77aaac2cad.png b/Tensorflow/TensorFlow2.0/img/ac9289d9a0758fb9367cad77aaac2cad.png
new file mode 100644
index 00000000..196214c1
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ac9289d9a0758fb9367cad77aaac2cad.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ac978eb483a5f2c471a3cbeb70bb6784.png b/Tensorflow/TensorFlow2.0/img/ac978eb483a5f2c471a3cbeb70bb6784.png
new file mode 100644
index 00000000..45956b65
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ac978eb483a5f2c471a3cbeb70bb6784.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/acec4256cc684c59dc4dc1bad6a07a7f.png b/Tensorflow/TensorFlow2.0/img/acec4256cc684c59dc4dc1bad6a07a7f.png
new file mode 100644
index 00000000..66c92959
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/acec4256cc684c59dc4dc1bad6a07a7f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ad462e5b3dc8d32430aaa7de7e4bf303.png b/Tensorflow/TensorFlow2.0/img/ad462e5b3dc8d32430aaa7de7e4bf303.png
new file mode 100644
index 00000000..013e3118
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ad462e5b3dc8d32430aaa7de7e4bf303.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ae14079092bef088b0ecf83c8f429ef2.png b/Tensorflow/TensorFlow2.0/img/ae14079092bef088b0ecf83c8f429ef2.png
new file mode 100644
index 00000000..dec7d5c1
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ae14079092bef088b0ecf83c8f429ef2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ae60ced5a9a18ef2a947912ada799ca0.png b/Tensorflow/TensorFlow2.0/img/ae60ced5a9a18ef2a947912ada799ca0.png
new file mode 100644
index 00000000..adf9a989
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ae60ced5a9a18ef2a947912ada799ca0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/aef2c569f7fec52ed4d6e656dddb8da4.png b/Tensorflow/TensorFlow2.0/img/aef2c569f7fec52ed4d6e656dddb8da4.png
new file mode 100644
index 00000000..6d562f43
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/aef2c569f7fec52ed4d6e656dddb8da4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b038d931bd8b770e0d244bb981ce446c.png b/Tensorflow/TensorFlow2.0/img/b038d931bd8b770e0d244bb981ce446c.png
new file mode 100644
index 00000000..b891aeab
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b038d931bd8b770e0d244bb981ce446c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b14e045bbc9dfbc31c1d4f77e4567e6d.png b/Tensorflow/TensorFlow2.0/img/b14e045bbc9dfbc31c1d4f77e4567e6d.png
new file mode 100644
index 00000000..87b0eec0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b14e045bbc9dfbc31c1d4f77e4567e6d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b38a330815f01aa53bb358d34b4a3c5b.png b/Tensorflow/TensorFlow2.0/img/b38a330815f01aa53bb358d34b4a3c5b.png
new file mode 100644
index 00000000..b4f05d7a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b38a330815f01aa53bb358d34b4a3c5b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b4bcda4ec74a98071e75941c07503a6c.png b/Tensorflow/TensorFlow2.0/img/b4bcda4ec74a98071e75941c07503a6c.png
new file mode 100644
index 00000000..deeab29f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b4bcda4ec74a98071e75941c07503a6c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b59ec7633714f0220810184e7792c80a.png b/Tensorflow/TensorFlow2.0/img/b59ec7633714f0220810184e7792c80a.png
new file mode 100644
index 00000000..717e7eba
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b59ec7633714f0220810184e7792c80a.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b5a9ca25aab20c2b09a25fdab4c2b92b.png b/Tensorflow/TensorFlow2.0/img/b5a9ca25aab20c2b09a25fdab4c2b92b.png
new file mode 100644
index 00000000..892679e9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b5a9ca25aab20c2b09a25fdab4c2b92b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b7fd03ac59129ba2515cf59b292f3296.png b/Tensorflow/TensorFlow2.0/img/b7fd03ac59129ba2515cf59b292f3296.png
new file mode 100644
index 00000000..52d3b6ae
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b7fd03ac59129ba2515cf59b292f3296.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b8397a070205f9293fbc989d8421eec5.png b/Tensorflow/TensorFlow2.0/img/b8397a070205f9293fbc989d8421eec5.png
new file mode 100644
index 00000000..88b11353
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b8397a070205f9293fbc989d8421eec5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b84cdc6273e2ce65876a86561af080a5.png b/Tensorflow/TensorFlow2.0/img/b84cdc6273e2ce65876a86561af080a5.png
new file mode 100644
index 00000000..88896d1e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b84cdc6273e2ce65876a86561af080a5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b9c02a2b74c4b9c99f2707fddae68a8d.png b/Tensorflow/TensorFlow2.0/img/b9c02a2b74c4b9c99f2707fddae68a8d.png
new file mode 100644
index 00000000..313a5ed6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b9c02a2b74c4b9c99f2707fddae68a8d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/b9f520a19b0bd493834819ddfc1ef26b.png b/Tensorflow/TensorFlow2.0/img/b9f520a19b0bd493834819ddfc1ef26b.png
new file mode 100644
index 00000000..9a91caf7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/b9f520a19b0bd493834819ddfc1ef26b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/bb63d10882d3aa9a631d3cf50ff7f21e.png b/Tensorflow/TensorFlow2.0/img/bb63d10882d3aa9a631d3cf50ff7f21e.png
new file mode 100644
index 00000000..657a40e0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/bb63d10882d3aa9a631d3cf50ff7f21e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/be737507a3c4409c7dc8aa33d2196e15.png b/Tensorflow/TensorFlow2.0/img/be737507a3c4409c7dc8aa33d2196e15.png
new file mode 100644
index 00000000..658846be
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/be737507a3c4409c7dc8aa33d2196e15.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/bf058b152584cc8e8c3987a57eb7331f.png b/Tensorflow/TensorFlow2.0/img/bf058b152584cc8e8c3987a57eb7331f.png
new file mode 100644
index 00000000..0e8f19b6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/bf058b152584cc8e8c3987a57eb7331f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/bf18f34f1076405e0bca19939de2bd91.png b/Tensorflow/TensorFlow2.0/img/bf18f34f1076405e0bca19939de2bd91.png
new file mode 100644
index 00000000..fd38897c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/bf18f34f1076405e0bca19939de2bd91.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/bfdf8a09e5b289018514265caa15c398.png b/Tensorflow/TensorFlow2.0/img/bfdf8a09e5b289018514265caa15c398.png
new file mode 100644
index 00000000..f953c1e8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/bfdf8a09e5b289018514265caa15c398.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c05647567564d6207cec5962f562a1d7.png b/Tensorflow/TensorFlow2.0/img/c05647567564d6207cec5962f562a1d7.png
new file mode 100644
index 00000000..47fad364
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c05647567564d6207cec5962f562a1d7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c12f3797e75b6aa8bdc206f4b91344c1.png b/Tensorflow/TensorFlow2.0/img/c12f3797e75b6aa8bdc206f4b91344c1.png
new file mode 100644
index 00000000..b12b517d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c12f3797e75b6aa8bdc206f4b91344c1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c152c7181c46470c9085620544ab9be7.png b/Tensorflow/TensorFlow2.0/img/c152c7181c46470c9085620544ab9be7.png
new file mode 100644
index 00000000..65ece1f6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c152c7181c46470c9085620544ab9be7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c22fa60f9660a04e79c3549bc99392df.png b/Tensorflow/TensorFlow2.0/img/c22fa60f9660a04e79c3549bc99392df.png
new file mode 100644
index 00000000..ed898b47
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c22fa60f9660a04e79c3549bc99392df.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c239b9ad6cf9b5f72e3d6d37fd17b9d1.png b/Tensorflow/TensorFlow2.0/img/c239b9ad6cf9b5f72e3d6d37fd17b9d1.png
new file mode 100644
index 00000000..740b8b45
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c239b9ad6cf9b5f72e3d6d37fd17b9d1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c2a117375845a6a7d1c87b2c84de54e8.png b/Tensorflow/TensorFlow2.0/img/c2a117375845a6a7d1c87b2c84de54e8.png
new file mode 100644
index 00000000..ce27fca9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c2a117375845a6a7d1c87b2c84de54e8.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c40faed8e3efd524ec22fb4842e81867.png b/Tensorflow/TensorFlow2.0/img/c40faed8e3efd524ec22fb4842e81867.png
new file mode 100644
index 00000000..1108f9be
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c40faed8e3efd524ec22fb4842e81867.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c542bc6784512a8abdc2e3a85a1e1905.png b/Tensorflow/TensorFlow2.0/img/c542bc6784512a8abdc2e3a85a1e1905.png
new file mode 100644
index 00000000..165da78c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c542bc6784512a8abdc2e3a85a1e1905.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c55318af9effb720969a76a37cfc3a42.png b/Tensorflow/TensorFlow2.0/img/c55318af9effb720969a76a37cfc3a42.png
new file mode 100644
index 00000000..a42bf678
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c55318af9effb720969a76a37cfc3a42.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c5f05439bb7e2eb354fda7f89beadeb3.png b/Tensorflow/TensorFlow2.0/img/c5f05439bb7e2eb354fda7f89beadeb3.png
new file mode 100644
index 00000000..b65655d7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c5f05439bb7e2eb354fda7f89beadeb3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c67ce581d874e2d04e2761cc44b1d094.png b/Tensorflow/TensorFlow2.0/img/c67ce581d874e2d04e2761cc44b1d094.png
new file mode 100644
index 00000000..2b1f6a20
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c67ce581d874e2d04e2761cc44b1d094.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c705ca2a522a41c9585fcf3ac5b4f667.png b/Tensorflow/TensorFlow2.0/img/c705ca2a522a41c9585fcf3ac5b4f667.png
new file mode 100644
index 00000000..dc0dc52e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c705ca2a522a41c9585fcf3ac5b4f667.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c7a03d480eb2e9be1f4499761937f9ee.png b/Tensorflow/TensorFlow2.0/img/c7a03d480eb2e9be1f4499761937f9ee.png
new file mode 100644
index 00000000..e02a5daf
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c7a03d480eb2e9be1f4499761937f9ee.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c7e184638977ee322a898f6148f543c3.png b/Tensorflow/TensorFlow2.0/img/c7e184638977ee322a898f6148f543c3.png
new file mode 100644
index 00000000..f7e28e36
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c7e184638977ee322a898f6148f543c3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c91d625a0312bd25acf8dab10ecb51ed.png b/Tensorflow/TensorFlow2.0/img/c91d625a0312bd25acf8dab10ecb51ed.png
new file mode 100644
index 00000000..1dec8e35
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c91d625a0312bd25acf8dab10ecb51ed.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/c9a00de59da2a696666612d0bd08c7a7.png b/Tensorflow/TensorFlow2.0/img/c9a00de59da2a696666612d0bd08c7a7.png
new file mode 100644
index 00000000..e03b8aa7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/c9a00de59da2a696666612d0bd08c7a7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ca5c6f8a5c7444a19483d53990e42c33.png b/Tensorflow/TensorFlow2.0/img/ca5c6f8a5c7444a19483d53990e42c33.png
new file mode 100644
index 00000000..ce8f9f37
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ca5c6f8a5c7444a19483d53990e42c33.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/cb18ad8212a0648018238babc8fe2325.png b/Tensorflow/TensorFlow2.0/img/cb18ad8212a0648018238babc8fe2325.png
new file mode 100644
index 00000000..5a73a574
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/cb18ad8212a0648018238babc8fe2325.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/cd8127c26455c518a827f0ce6a07b1e0.png b/Tensorflow/TensorFlow2.0/img/cd8127c26455c518a827f0ce6a07b1e0.png
new file mode 100644
index 00000000..8cdd16b9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/cd8127c26455c518a827f0ce6a07b1e0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/cfa82b128c103151f142dae7b5ddecda.png b/Tensorflow/TensorFlow2.0/img/cfa82b128c103151f142dae7b5ddecda.png
new file mode 100644
index 00000000..08e34e65
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/cfa82b128c103151f142dae7b5ddecda.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d33aeddd8358af50caa929e3528cf6e5.png b/Tensorflow/TensorFlow2.0/img/d33aeddd8358af50caa929e3528cf6e5.png
new file mode 100644
index 00000000..6bbf04e2
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d33aeddd8358af50caa929e3528cf6e5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d48861f9a16908e3c3980990638ecb40.png b/Tensorflow/TensorFlow2.0/img/d48861f9a16908e3c3980990638ecb40.png
new file mode 100644
index 00000000..b025278d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d48861f9a16908e3c3980990638ecb40.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d5d8ce7c60645b3e01a6e088280470ba.png b/Tensorflow/TensorFlow2.0/img/d5d8ce7c60645b3e01a6e088280470ba.png
new file mode 100644
index 00000000..5a62c81f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d5d8ce7c60645b3e01a6e088280470ba.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d6513785291f1616fa5a88b830c9a438.png b/Tensorflow/TensorFlow2.0/img/d6513785291f1616fa5a88b830c9a438.png
new file mode 100644
index 00000000..82b44f39
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d6513785291f1616fa5a88b830c9a438.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d653a0d6330958d36f31b35e1410ff6d.png b/Tensorflow/TensorFlow2.0/img/d653a0d6330958d36f31b35e1410ff6d.png
new file mode 100644
index 00000000..be55cc8f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d653a0d6330958d36f31b35e1410ff6d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d68f92600680dfc45d965045e843ec4d.png b/Tensorflow/TensorFlow2.0/img/d68f92600680dfc45d965045e843ec4d.png
new file mode 100644
index 00000000..aa190631
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d68f92600680dfc45d965045e843ec4d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d6c8610603858ddd864cc7f024f16e40.png b/Tensorflow/TensorFlow2.0/img/d6c8610603858ddd864cc7f024f16e40.png
new file mode 100644
index 00000000..13accab2
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d6c8610603858ddd864cc7f024f16e40.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d6d4178e447bc9f8c984345c73202b01.png b/Tensorflow/TensorFlow2.0/img/d6d4178e447bc9f8c984345c73202b01.png
new file mode 100644
index 00000000..f6aa17ff
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d6d4178e447bc9f8c984345c73202b01.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d85fdaff014f0211e5ef646977087e50.png b/Tensorflow/TensorFlow2.0/img/d85fdaff014f0211e5ef646977087e50.png
new file mode 100644
index 00000000..ee37ede5
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d85fdaff014f0211e5ef646977087e50.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/d99736f992ec3e1883b57ef705221367.png b/Tensorflow/TensorFlow2.0/img/d99736f992ec3e1883b57ef705221367.png
new file mode 100644
index 00000000..7ad866d8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/d99736f992ec3e1883b57ef705221367.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/dbd4a3a9bd5a14a61bcaf558a2231993.png b/Tensorflow/TensorFlow2.0/img/dbd4a3a9bd5a14a61bcaf558a2231993.png
new file mode 100644
index 00000000..9f130204
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/dbd4a3a9bd5a14a61bcaf558a2231993.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/dcd2e24d351259809e8bd2dfe61f3f59.png b/Tensorflow/TensorFlow2.0/img/dcd2e24d351259809e8bd2dfe61f3f59.png
new file mode 100644
index 00000000..5c5eec51
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/dcd2e24d351259809e8bd2dfe61f3f59.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/dcf39b63e54ff302e7e37e39b90facc7.png b/Tensorflow/TensorFlow2.0/img/dcf39b63e54ff302e7e37e39b90facc7.png
new file mode 100644
index 00000000..161ad9fd
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/dcf39b63e54ff302e7e37e39b90facc7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/dd1b792428257ee1ffcb4e02d4e81c11.png b/Tensorflow/TensorFlow2.0/img/dd1b792428257ee1ffcb4e02d4e81c11.png
new file mode 100644
index 00000000..5c91f967
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/dd1b792428257ee1ffcb4e02d4e81c11.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/dd4897a112d5aa5b56d54b9d8f8ac97d.png b/Tensorflow/TensorFlow2.0/img/dd4897a112d5aa5b56d54b9d8f8ac97d.png
new file mode 100644
index 00000000..171c9b3e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/dd4897a112d5aa5b56d54b9d8f8ac97d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/dda6acab76c9a017bbe16c3bebb8e54c.png b/Tensorflow/TensorFlow2.0/img/dda6acab76c9a017bbe16c3bebb8e54c.png
new file mode 100644
index 00000000..8bd2ff4d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/dda6acab76c9a017bbe16c3bebb8e54c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/de0d6e38c509169ec5a4edafdcb08e55.png b/Tensorflow/TensorFlow2.0/img/de0d6e38c509169ec5a4edafdcb08e55.png
new file mode 100644
index 00000000..cbfa59c0
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/de0d6e38c509169ec5a4edafdcb08e55.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/df0f8cf3d780ab200f3e674a67324435.png b/Tensorflow/TensorFlow2.0/img/df0f8cf3d780ab200f3e674a67324435.png
new file mode 100644
index 00000000..c72b376c
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/df0f8cf3d780ab200f3e674a67324435.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/df68f144581e032c370ca708f4983bdb.png b/Tensorflow/TensorFlow2.0/img/df68f144581e032c370ca708f4983bdb.png
new file mode 100644
index 00000000..cf9a1b0d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/df68f144581e032c370ca708f4983bdb.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e06760b4112e8fd989cdb1f7a948bc17.png b/Tensorflow/TensorFlow2.0/img/e06760b4112e8fd989cdb1f7a948bc17.png
new file mode 100644
index 00000000..db3e02e8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e06760b4112e8fd989cdb1f7a948bc17.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e078fc18f5dbcddacb9cc4e95629a3bf.png b/Tensorflow/TensorFlow2.0/img/e078fc18f5dbcddacb9cc4e95629a3bf.png
new file mode 100644
index 00000000..67bd2d17
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e078fc18f5dbcddacb9cc4e95629a3bf.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e0ae5b8f55425e83ab36e4a3a097b4e8.png b/Tensorflow/TensorFlow2.0/img/e0ae5b8f55425e83ab36e4a3a097b4e8.png
new file mode 100644
index 00000000..c581d2fb
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e0ae5b8f55425e83ab36e4a3a097b4e8.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e0df7b7876498420dcf8663d9c91a023.png b/Tensorflow/TensorFlow2.0/img/e0df7b7876498420dcf8663d9c91a023.png
new file mode 100644
index 00000000..93075b18
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e0df7b7876498420dcf8663d9c91a023.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e2143b6a00159c480e078bcbc7c8c72b.png b/Tensorflow/TensorFlow2.0/img/e2143b6a00159c480e078bcbc7c8c72b.png
new file mode 100644
index 00000000..2776aad5
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e2143b6a00159c480e078bcbc7c8c72b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e297781397cdc97e304b45625f7ae423.png b/Tensorflow/TensorFlow2.0/img/e297781397cdc97e304b45625f7ae423.png
new file mode 100644
index 00000000..a702ec30
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e297781397cdc97e304b45625f7ae423.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e2e6d59bb8ebd47a957558d11e836ec1.png b/Tensorflow/TensorFlow2.0/img/e2e6d59bb8ebd47a957558d11e836ec1.png
new file mode 100644
index 00000000..7f948808
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e2e6d59bb8ebd47a957558d11e836ec1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e2f893946253a84a1410e69624e915bc.png b/Tensorflow/TensorFlow2.0/img/e2f893946253a84a1410e69624e915bc.png
new file mode 100644
index 00000000..0934615a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e2f893946253a84a1410e69624e915bc.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e3d2caa770c7f600fb5cdc2a95ad0e0a.png b/Tensorflow/TensorFlow2.0/img/e3d2caa770c7f600fb5cdc2a95ad0e0a.png
new file mode 100644
index 00000000..bbe26f08
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e3d2caa770c7f600fb5cdc2a95ad0e0a.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e3e3424830f874b566c07a0e86696a13.png b/Tensorflow/TensorFlow2.0/img/e3e3424830f874b566c07a0e86696a13.png
new file mode 100644
index 00000000..8188cc33
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e3e3424830f874b566c07a0e86696a13.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e3ef015d6cba8b2d535ce30b60549453.png b/Tensorflow/TensorFlow2.0/img/e3ef015d6cba8b2d535ce30b60549453.png
new file mode 100644
index 00000000..223d0e52
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e3ef015d6cba8b2d535ce30b60549453.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e3ffe6a29488821b01dd98cba6690e5f.png b/Tensorflow/TensorFlow2.0/img/e3ffe6a29488821b01dd98cba6690e5f.png
new file mode 100644
index 00000000..6e263b50
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e3ffe6a29488821b01dd98cba6690e5f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e46db7cde2b53be53d302c4b00d582a5.png b/Tensorflow/TensorFlow2.0/img/e46db7cde2b53be53d302c4b00d582a5.png
new file mode 100644
index 00000000..2ef0f536
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e46db7cde2b53be53d302c4b00d582a5.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e47b08aec7cc62d5268c6c6af8cf2b16.png b/Tensorflow/TensorFlow2.0/img/e47b08aec7cc62d5268c6c6af8cf2b16.png
new file mode 100644
index 00000000..7a0b4d56
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e47b08aec7cc62d5268c6c6af8cf2b16.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e4d27c794147e0649dec40c1e673fa3d.png b/Tensorflow/TensorFlow2.0/img/e4d27c794147e0649dec40c1e673fa3d.png
new file mode 100644
index 00000000..fc02b115
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e4d27c794147e0649dec40c1e673fa3d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e61ee4650b5d251079d57baa98bff19e.png b/Tensorflow/TensorFlow2.0/img/e61ee4650b5d251079d57baa98bff19e.png
new file mode 100644
index 00000000..4bb11e4d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e61ee4650b5d251079d57baa98bff19e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e68189c9da69b7848e9033d29a0dc574.png b/Tensorflow/TensorFlow2.0/img/e68189c9da69b7848e9033d29a0dc574.png
new file mode 100644
index 00000000..a676c13a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e68189c9da69b7848e9033d29a0dc574.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e8229311b22645eacfe9d45893aa40bc.png b/Tensorflow/TensorFlow2.0/img/e8229311b22645eacfe9d45893aa40bc.png
new file mode 100644
index 00000000..889f033d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e8229311b22645eacfe9d45893aa40bc.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e8d23da7a633c8eaa5878bca988b63f3.png b/Tensorflow/TensorFlow2.0/img/e8d23da7a633c8eaa5878bca988b63f3.png
new file mode 100644
index 00000000..9dea5f1f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e8d23da7a633c8eaa5878bca988b63f3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/e954331a93f7da6b3ebeb6d2c90586f4.png b/Tensorflow/TensorFlow2.0/img/e954331a93f7da6b3ebeb6d2c90586f4.png
new file mode 100644
index 00000000..404d97b8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/e954331a93f7da6b3ebeb6d2c90586f4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ea3d81df30a4c5fa3b8c108a2be71e73.png b/Tensorflow/TensorFlow2.0/img/ea3d81df30a4c5fa3b8c108a2be71e73.png
new file mode 100644
index 00000000..71337fd6
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ea3d81df30a4c5fa3b8c108a2be71e73.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ec46666ea7ae5ed4692fbbd51a12f72c.png b/Tensorflow/TensorFlow2.0/img/ec46666ea7ae5ed4692fbbd51a12f72c.png
new file mode 100644
index 00000000..0083d384
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ec46666ea7ae5ed4692fbbd51a12f72c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ed58bf9aecc879b9fef41103a0178752.png b/Tensorflow/TensorFlow2.0/img/ed58bf9aecc879b9fef41103a0178752.png
new file mode 100644
index 00000000..04010ab7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ed58bf9aecc879b9fef41103a0178752.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/edb8cf06303c60cf812dce4865e8d331.png b/Tensorflow/TensorFlow2.0/img/edb8cf06303c60cf812dce4865e8d331.png
new file mode 100644
index 00000000..8a9a3335
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/edb8cf06303c60cf812dce4865e8d331.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ee3ae6c62d5acf6adfea6458312bcb02.png b/Tensorflow/TensorFlow2.0/img/ee3ae6c62d5acf6adfea6458312bcb02.png
new file mode 100644
index 00000000..a29bdc04
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ee3ae6c62d5acf6adfea6458312bcb02.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/ee409d59cd41f3de0f02655abfc4d0c0.png b/Tensorflow/TensorFlow2.0/img/ee409d59cd41f3de0f02655abfc4d0c0.png
new file mode 100644
index 00000000..1ef1d423
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/ee409d59cd41f3de0f02655abfc4d0c0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/eeb0649161960b7c64a96a75e088eab6.png b/Tensorflow/TensorFlow2.0/img/eeb0649161960b7c64a96a75e088eab6.png
new file mode 100644
index 00000000..9fadc3b7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/eeb0649161960b7c64a96a75e088eab6.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f021b204e92d0e77d8439a03a43bb21e.png b/Tensorflow/TensorFlow2.0/img/f021b204e92d0e77d8439a03a43bb21e.png
new file mode 100644
index 00000000..d9bf7664
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f021b204e92d0e77d8439a03a43bb21e.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f1fa73dd5b685549afd6264592919903.png b/Tensorflow/TensorFlow2.0/img/f1fa73dd5b685549afd6264592919903.png
new file mode 100644
index 00000000..c8701cb8
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f1fa73dd5b685549afd6264592919903.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f2f53e7a4522a77ce6e821a299a77c76.png b/Tensorflow/TensorFlow2.0/img/f2f53e7a4522a77ce6e821a299a77c76.png
new file mode 100644
index 00000000..cb5544f9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f2f53e7a4522a77ce6e821a299a77c76.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f33f21e1842dad5f569cc75d0c43b4c1.png b/Tensorflow/TensorFlow2.0/img/f33f21e1842dad5f569cc75d0c43b4c1.png
new file mode 100644
index 00000000..b548eeca
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f33f21e1842dad5f569cc75d0c43b4c1.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f3c5a66b35a03bd6a2bf9c3a65a39dfb.png b/Tensorflow/TensorFlow2.0/img/f3c5a66b35a03bd6a2bf9c3a65a39dfb.png
new file mode 100644
index 00000000..c06ef4e1
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f3c5a66b35a03bd6a2bf9c3a65a39dfb.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f40a6da0d8471d4b9b979d456cb09d0d.png b/Tensorflow/TensorFlow2.0/img/f40a6da0d8471d4b9b979d456cb09d0d.png
new file mode 100644
index 00000000..e6d97c45
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f40a6da0d8471d4b9b979d456cb09d0d.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f5468d2d190850a0c5adf6682ae9a2b3.png b/Tensorflow/TensorFlow2.0/img/f5468d2d190850a0c5adf6682ae9a2b3.png
new file mode 100644
index 00000000..aa258ba4
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f5468d2d190850a0c5adf6682ae9a2b3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f769d692ddcca3810cad6e32307d9b3a.png b/Tensorflow/TensorFlow2.0/img/f769d692ddcca3810cad6e32307d9b3a.png
new file mode 100644
index 00000000..e75f1408
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f769d692ddcca3810cad6e32307d9b3a.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f7ad29c64650bcb7c917f1bd3c34a678.png b/Tensorflow/TensorFlow2.0/img/f7ad29c64650bcb7c917f1bd3c34a678.png
new file mode 100644
index 00000000..039334cd
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f7ad29c64650bcb7c917f1bd3c34a678.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f80edb85b33ee8d70b05983a35aca22f.png b/Tensorflow/TensorFlow2.0/img/f80edb85b33ee8d70b05983a35aca22f.png
new file mode 100644
index 00000000..ac522c7a
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f80edb85b33ee8d70b05983a35aca22f.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f865018e54d4c67ed60313c72d71e99c.png b/Tensorflow/TensorFlow2.0/img/f865018e54d4c67ed60313c72d71e99c.png
new file mode 100644
index 00000000..7a2c68a7
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f865018e54d4c67ed60313c72d71e99c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f8876684e2b6e5576c9f4dc1029bb237.png b/Tensorflow/TensorFlow2.0/img/f8876684e2b6e5576c9f4dc1029bb237.png
new file mode 100644
index 00000000..afcb4945
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f8876684e2b6e5576c9f4dc1029bb237.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f89cb56c5d3c77f56118a42ca7fb3936.png b/Tensorflow/TensorFlow2.0/img/f89cb56c5d3c77f56118a42ca7fb3936.png
new file mode 100644
index 00000000..342e1751
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f89cb56c5d3c77f56118a42ca7fb3936.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f8f7d813408efbfa9b764dfcfe54d2ad.png b/Tensorflow/TensorFlow2.0/img/f8f7d813408efbfa9b764dfcfe54d2ad.png
new file mode 100644
index 00000000..1799122d
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f8f7d813408efbfa9b764dfcfe54d2ad.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f9843723cb76f7e84a4d3e7435c3a2c0.png b/Tensorflow/TensorFlow2.0/img/f9843723cb76f7e84a4d3e7435c3a2c0.png
new file mode 100644
index 00000000..e55c2f69
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f9843723cb76f7e84a4d3e7435c3a2c0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f9857876c8d165f58db57e4f8cb7bbc4.png b/Tensorflow/TensorFlow2.0/img/f9857876c8d165f58db57e4f8cb7bbc4.png
new file mode 100644
index 00000000..4e4806a9
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f9857876c8d165f58db57e4f8cb7bbc4.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/f9f505f9e0bb94757eb576cd0aa1c1f3.png b/Tensorflow/TensorFlow2.0/img/f9f505f9e0bb94757eb576cd0aa1c1f3.png
new file mode 100644
index 00000000..6b56b66f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/f9f505f9e0bb94757eb576cd0aa1c1f3.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/fa2d5bf8aeffd46cc7559d7104f99ba2.png b/Tensorflow/TensorFlow2.0/img/fa2d5bf8aeffd46cc7559d7104f99ba2.png
new file mode 100644
index 00000000..7e666c5e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/fa2d5bf8aeffd46cc7559d7104f99ba2.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/fa351313bf1ddb033fe47d07a518db6c.png b/Tensorflow/TensorFlow2.0/img/fa351313bf1ddb033fe47d07a518db6c.png
new file mode 100644
index 00000000..565aae81
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/fa351313bf1ddb033fe47d07a518db6c.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/fb0bdd5ec0ad3a81aa686b46a6fa16d7.png b/Tensorflow/TensorFlow2.0/img/fb0bdd5ec0ad3a81aa686b46a6fa16d7.png
new file mode 100644
index 00000000..491c1f6e
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/fb0bdd5ec0ad3a81aa686b46a6fa16d7.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/fb25ef686fd2905523f707dff3e20b36.png b/Tensorflow/TensorFlow2.0/img/fb25ef686fd2905523f707dff3e20b36.png
new file mode 100644
index 00000000..2bc30421
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/fb25ef686fd2905523f707dff3e20b36.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/fc1492a9c4124dcf0d9fb207c0a323d0.png b/Tensorflow/TensorFlow2.0/img/fc1492a9c4124dcf0d9fb207c0a323d0.png
new file mode 100644
index 00000000..fdf754fa
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/fc1492a9c4124dcf0d9fb207c0a323d0.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/fe72873df8e5156872c578827579ba34.png b/Tensorflow/TensorFlow2.0/img/fe72873df8e5156872c578827579ba34.png
new file mode 100644
index 00000000..71ea3138
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/fe72873df8e5156872c578827579ba34.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/fea91dec17000f60233620455539d42b.png b/Tensorflow/TensorFlow2.0/img/fea91dec17000f60233620455539d42b.png
new file mode 100644
index 00000000..c7e6557f
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/fea91dec17000f60233620455539d42b.png differ
diff --git a/Tensorflow/TensorFlow2.0/img/fecda9bde6f4c7551c164dc066491cb5.png b/Tensorflow/TensorFlow2.0/img/fecda9bde6f4c7551c164dc066491cb5.png
new file mode 100644
index 00000000..5cf06baa
Binary files /dev/null and b/Tensorflow/TensorFlow2.0/img/fecda9bde6f4c7551c164dc066491cb5.png differ
diff --git a/pytorch/01.md b/pytorch/01.md
new file mode 100644
index 00000000..a50456ff
--- /dev/null
+++ b/pytorch/01.md
@@ -0,0 +1 @@
+# PyTorch 简介
\ No newline at end of file
diff --git a/pytorch/02.md b/pytorch/02.md
new file mode 100644
index 00000000..eca57a08
--- /dev/null
+++ b/pytorch/02.md
@@ -0,0 +1,36 @@
+# 1.1 – Why PyTorch?
+
+## 为什么用 PyTorch
+
+[PyTorch](http://pytorch.org/) 是 [Torch](http://torch.ch/) 在 Python 上的衍生. 因为 [Torch](http://torch.ch/) 是一个使用 [Lua](https://www.lua.org/) 语言的神经网络库, Torch 很好用, 但是 Lua 又不是特别流行, 所有开发团队将 Lua 的 Torch 移植到了更流行的语言 Python 上. 是的 PyTorch 一出生就引来了剧烈的反响. 为什么呢?
+
+很简单, 我们就看看有谁在用 PyTorch 吧.
+
+![](img/20e2ebdf112e4aa3202e951e072c2dc2.png)
+
+可见, 著名的 Facebook, twitter 等都在使用它, 这就说明 PyTorch 的确是好用的, 而且是值得推广.
+
+而且如果你知道 [Numpy](http://www.numpy.org/), PyTorch 说他就是在神经网络领域可以用来替换 numpy 的模块.
+
+## 神经网络在做什么
+
+神经网络在学习拟合线条(回归):
+
+![](img/c8011979fa20046cbfa36e46cf508689.png)
+
+神经网络在学习区分数据(分类):
+
+![](img/94268b7d9687d039d872da203453c97b.png)
+
+## PyTorch 和 Tensorflow
+
+据 PyTorch 自己介绍, 他们家的最大优点就是建立的神经网络是动态的, 对比静态的 Tensorflow, 他能更有效地处理一些问题, 比如说 RNN 变化时间长度的输出. 而我认为, 各家有各家的优势和劣势, 所以我们要以中立的态度. 两者都是大公司, Tensorflow 自己说自己在分布式训练上下了很大的功夫, 那我就默认 Tensorflow 在这一点上要超出 PyTorch, 但是 Tensorflow 的静态计算图使得他在 RNN 上有一点点被动 (虽然它用其他途径解决了), 不过用 PyTorch 的时候, 你会对这种动态的 RNN 有更好的理解.
+
+而且 Tensorflow 的高度工业化, 它的底层代码… 你是看不懂的. PyTorch 好那么一点点, 如果你深入 API, 你至少能比看 Tensorflow 多看懂一点点 PyTorch 的底层在干嘛.
+
+最后我的建议就是:
+
+*   如果你是学生, 随便选一个学, 或者稍稍偏向 PyTorch, 因为写代码的时候应该更好理解. 懂了一个模块, 转换 Tensorflow 或者其他的模块都好说.
+*   如果是上班了, 跟着你公司来, 公司用什么, 你就用什么, 不要脱群.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/03.md b/pytorch/03.md
new file mode 100644
index 00000000..326541d1
--- /dev/null
+++ b/pytorch/03.md
@@ -0,0 +1,24 @@
+# 1.2 – 安装 PyTorch
+
+## 支持的系统
+
+PyTorch 暂时只支持 MacOS, Linux. 暂不支持 Windows! (可怜的 Windows 同学们.. 又被抛弃了). 不过说不定像 Tensorflow 一样, 因为 Windows 用户的强烈要求, 他们在某天就突然支持了.
+
+## 安装
+
+PyTorch 安装起来很简单, [它自家网页](http://pytorch.org/)上就有很方便的选择方式 (网页升级改版后可能和下图有点不同):
+
+![](img/b708f231f544bd7bcefa1d55c82653dd.png)
+
+所以根据你的情况选择适合你的安装方法, 我已自己为例, 我使用的是 MacOS, 想用 pip 安装, 我的 Python 是 3.5 版的, 我没有 GPU 加速, 那我就按上面的选:
+
+然后根据上面的提示, 我只需要在我的 Terminal 当中输入以下指令就好了:
+
+```py
+$ pip install http://download.pytorch.org/whl/torch-0.1.11.post5-cp35-cp35m-macosx_10_7_x86_64.whl
+$ pip install torchvision
+```
+
+注意, 我安装的是0.1.11版本的 torch, 你需要去他们网站上看是否有新版本的. 安装 PyTorch 会安装两个模块, 一个是 torch, 一个 torchvision, torch 是主模块, 用来搭建神经网络的, torchvision 是辅模块, 有数据库, 还有一些已经训练好的神经网络等着你直接用, 比如 ([VGG, AlexNet, ResNet](http://pytorch.org/docs/torchvision/models.html)).
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/04.md b/pytorch/04.md
new file mode 100644
index 00000000..bdded7df
--- /dev/null
+++ b/pytorch/04.md
@@ -0,0 +1 @@
+# PyTorch 神经网络基础
\ No newline at end of file
diff --git a/pytorch/05.md b/pytorch/05.md
new file mode 100644
index 00000000..c14f3676
--- /dev/null
+++ b/pytorch/05.md
@@ -0,0 +1,74 @@
+# 2.1 – Torch vs Numpy
+
+## 用 Numpy 还是 Torch
+
+Torch 自称为神经网络界的 Numpy, 因为他能将 torch 产生的 tensor 放在 GPU 中加速运算 (前提是你有合适的 GPU), 就像 Numpy 会把 array 放在 CPU 中加速运算. 所以神经网络的话, 当然是用 Torch 的 tensor 形式数据最好咯. 就像 Tensorflow 当中的 tensor 一样.
+
+当然, 我们对 Numpy 还是爱不释手的, 因为我们太习惯 numpy 的形式了. 不过 torch 看出来我们的喜爱, 他把 torch 做的和 numpy 能很好的兼容. 比如这样就能自由地转换 numpy array 和 torch tensor 了:
+
+```py
+import torch
+import numpy as np
+
+np_data = np.arange(6).reshape((2, 3))
+torch_data = torch.from_numpy(np_data)
+tensor2array = torch_data.numpy()
+print(
+    \'\nnumpy array:\', np_data,          # [[0 1 2], [3 4 5]]
+    \'\ntorch tensor:\', torch_data,      #  0  1  2 \n 3  4  5    [torch.LongTensor of size 2x3]
+    \'\ntensor to array:\', tensor2array, # [[0 1 2], [3 4 5]]
+)
+```
+
+## Torch 中的数学运算
+
+其实 torch 中 tensor 的运算和 numpy array 的如出一辙, 我们就以对比的形式来看. 如果想了解 torch 中其它更多有用的运算符, [API就是你要去的地方](http://pytorch.org/docs/torch.html#math-operations).
+
+```py
+# abs 绝对值计算
+data = [-1, -2, 1, 2]
+tensor = torch.FloatTensor(data)  # 转换成32位浮点 tensor
+print(
+    \'\nabs\',
+    \'\nnumpy: \', np.abs(data),          # [1 2 1 2]
+    \'\ntorch: \', torch.abs(tensor)      # [1 2 1 2]
+)
+
+# sin   三角函数 sin
+print(
+    \'\nsin\',
+    \'\nnumpy: \', np.sin(data),      # [-0.84147098 -0.90929743  0.84147098  0.90929743]
+    \'\ntorch: \', torch.sin(tensor)  # [-0.8415 -0.9093  0.8415  0.9093]
+)
+
+# mean  均值
+print(
+    \'\nmean\',
+    \'\nnumpy: \', np.mean(data),         # 0.0
+    \'\ntorch: \', torch.mean(tensor)     # 0.0
+)
+```
+
+除了简单的计算, 矩阵运算才是神经网络中最重要的部分. 所以我们展示下矩阵的乘法. 注意一下包含了一个 numpy 中可行, 但是 torch 中不可行的方式.
+
+```py
+# matrix multiplication 矩阵点乘
+data = [[1,2], [3,4]]
+tensor = torch.FloatTensor(data)  # 转换成32位浮点 tensor
+# correct method
+print(
+    \'\nmatrix multiplication (matmul)\',
+    \'\nnumpy: \', np.matmul(data, data),     # [[7, 10], [15, 22]]
+    \'\ntorch: \', torch.mm(tensor, tensor)   # [[7, 10], [15, 22]]
+)
+
+# !!!!  下面是错误的方法 !!!!
+data = np.array(data)
+print(
+    \'\nmatrix multiplication (dot)\',
+    \'\nnumpy: \', data.dot(data),        # [[7, 10], [15, 22]] 在numpy 中可行
+    \'\ntorch: \', tensor.dot(tensor)     # torch 会转换成 [1,2,3,4].dot([1,2,3,4) = 30.0
+)
+```
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/06.md b/pytorch/06.md
new file mode 100644
index 00000000..5bc71a1d
--- /dev/null
+++ b/pytorch/06.md
@@ -0,0 +1,90 @@
+# 2.2 – 变量 (Variable)
+
+## 什么是 Variable
+
+在 Torch 中的 Variable 就是一个存放会变化的值的地理位置. 里面的值会不停的变化. 就像一个裝鸡蛋的篮子, 鸡蛋数会不停变动. 那谁是里面的鸡蛋呢, 自然就是 Torch 的 Tensor 咯. **如果用一个 Variable 进行计算, 那返回的也是一个同类型的 Variable.**
+
+我们定义一个 Variable:
+
+```py
+import torch
+from torch.autograd import Variable # torch 中 Variable 模块
+
+# 先生鸡蛋
+tensor = torch.FloatTensor([[1,2],[3,4]])
+# 把鸡蛋放到篮子里, requires_grad是参不参与误差反向传播, 要不要计算梯度
+variable = Variable(tensor, requires_grad=True)
+
+print(tensor)
+"""
+ 1  2
+ 3  4
+[torch.FloatTensor of size 2x2]
+"""
+
+print(variable)
+"""
+Variable containing:
+ 1  2
+ 3  4
+[torch.FloatTensor of size 2x2]
+"""
+```
+
+## Variable 计算, 梯度
+
+我们再对比一下 tensor 的计算和 variable 的计算.\’
+
+```py
+t_out = torch.mean(tensor*tensor)       # x^2
+v_out = torch.mean(variable*variable)   # x^2
+print(t_out)
+print(v_out)    # 7.5
+```
+
+到目前为止, 我们看不出什么不同, **但是时刻记住, Variable 计算时, 它在背景幕布后面一步步默默地搭建着一个庞大的系统, 叫做计算图, computational graph. 这个图是用来干嘛的? 原来是将所有的计算步骤 (节点) 都连接起来, 最后进行误差反向传递的时候, 一次性将所有 variable 里面的修改幅度 (梯度) 都计算出来, 而 tensor 就没有这个能力啦.**
+
+v_out  =  torch.mean(variable*variable) 就是在计算图中添加的一个计算步骤, 计算误差反向传递的时候有他一份功劳, 我们就来举个例子:
+
+```py
+v_out.backward()    # 模拟 v_out 的误差反向传递
+
+# 下面两步看不懂没关系, 只要知道 Variable 是计算图的一部分, 可以用来传递误差就好.
+# v_out = 1/4 * sum(variable*variable) 这是计算图中的 v_out 计算步骤
+# 针对于 v_out 的梯度就是, d(v_out)/d(variable) = 1/4*2*variable = variable/2
+
+print(variable.grad)    # 初始 Variable 的梯度
+\'\'\'
+ 0.5000  1.0000
+ 1.5000  2.0000
+\'\'\'
+```
+
+#### 获取 Variable 里面的数据
+
+直接 print(variable) 只会输出 Variable 形式的数据, 在很多时候是用不了的(比如想要用 plt 画图), 所以我们要转换一下, 将它变成 tensor 形式.
+
+```py
+print(variable)     #  Variable 形式
+"""
+Variable containing:
+ 1  2
+ 3  4
+[torch.FloatTensor of size 2x2]
+"""
+
+print(variable.data)    # tensor 形式
+"""
+ 1  2
+ 3  4
+[torch.FloatTensor of size 2x2]
+"""
+
+print(variable.data.numpy())    # numpy 形式
+"""
+[[ 1\.  2.]
+ [ 3\.  4.]]
+"""
+```
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/07.md b/pytorch/07.md
new file mode 100644
index 00000000..31b0c1bc
--- /dev/null
+++ b/pytorch/07.md
@@ -0,0 +1,65 @@
+# 2.3 – 激励函数 (Activation)
+
+## 什么是 Activation
+
+一句话概括 Activation: 就是让神经网络可以描述非线性问题的步骤, 是神经网络变得更强大. 如果还不是特别了解, 我有制作一个动画短片（如下）, 浅显易懂的阐述了激励函数的作用. 包懂.
+
+## Torch 中的激励函数
+
+Torch 中的激励函数有很多, 不过我们平时要用到的就这几个.  relu, sigmoid, tanh, softplus . 那我们就看看他们各自长什么样啦.
+
+```py
+import torch
+import torch.nn.functional as F     # 激励函数都在这
+from torch.autograd import Variable
+
+# 做一些假数据来观看图像
+x = torch.linspace(-5, 5, 200)  # x data (tensor), shape=(100, 1)
+x = Variable(x)
+```
+
+接着就是做生成不同的激励函数数据:
+
+```py
+x_np = x.data.numpy()   # 换成 numpy array, 出图时用
+
+# 几种常用的 激励函数
+y_relu = F.relu(x).data.numpy()
+y_sigmoid = F.sigmoid(x).data.numpy()
+y_tanh = F.tanh(x).data.numpy()
+y_softplus = F.softplus(x).data.numpy()
+# y_softmax = F.softmax(x)  softmax 比较特殊, 不能直接显示, 不过他是关于概率的, 用于分类
+```
+
+接着我们开始画图, 画图的代码也在下面:
+
+![](img/f1108a1b6941305fa7a39e488c023fe9.png)
+
+```py
+import matplotlib.pyplot as plt  # python 的可视化模块, 我有教程 (https://morvanzhou.github.io/tutorials/data-manipulation/plt/)
+
+plt.figure(1, figsize=(8, 6))
+plt.subplot(221)
+plt.plot(x_np, y_relu, c=\'red\', label=\'relu\')
+plt.ylim((-1, 5))
+plt.legend(loc=\'best\')
+
+plt.subplot(222)
+plt.plot(x_np, y_sigmoid, c=\'red\', label=\'sigmoid\')
+plt.ylim((-0.2, 1.2))
+plt.legend(loc=\'best\')
+
+plt.subplot(223)
+plt.plot(x_np, y_tanh, c=\'red\', label=\'tanh\')
+plt.ylim((-1.2, 1.2))
+plt.legend(loc=\'best\')
+
+plt.subplot(224)
+plt.plot(x_np, y_softplus, c=\'red\', label=\'softplus\')
+plt.ylim((-0.2, 6))
+plt.legend(loc=\'best\')
+
+plt.show()
+```
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/08.md b/pytorch/08.md
new file mode 100644
index 00000000..bf7ddb5b
--- /dev/null
+++ b/pytorch/08.md
@@ -0,0 +1 @@
+# 建造第一个神经网络
\ No newline at end of file
diff --git a/pytorch/09.md b/pytorch/09.md
new file mode 100644
index 00000000..67158afa
--- /dev/null
+++ b/pytorch/09.md
@@ -0,0 +1,108 @@
+# 3.1 – 关系拟合 (回归 Regression)
+
+我会这次会来见证神经网络是如何通过简单的形式将一群数据用一条线条来表示. 或者说, 是如何在数据当中找到他们的关系, 然后用神经网络模型来建立一个可以代表他们关系的线条.
+
+![](img/1f0b990d5a8d78692d3730d855fe44ea.png)
+
+## 建立数据集
+
+我们创建一些假数据来模拟真实的情况. 比如一个一元二次函数:  y  =  a  *  x^2  b , 我们给  y  数据加上一点噪声来更加真实的展示它.
+
+```py
+import torch
+from torch.autograd import Variable
+import matplotlib.pyplot as plt
+
+x = torch.unsqueeze(torch.linspace(-1, 1, 100), dim=1)  # x data (tensor), shape=(100, 1)
+y = x.pow(2)   0.2*torch.rand(x.size())                 # noisy y data (tensor), shape=(100, 1)
+
+# 用 Variable 来修饰这些数据 tensor
+x, y = torch.autograd.Variable(x), Variable(y)
+
+# 画图
+plt.scatter(x.data.numpy(), y.data.numpy())
+plt.show()
+```
+
+## 建立神经网络
+
+建立一个神经网络我们可以直接运用 torch 中的体系. 先定义所有的层属性( __init__() ), 然后再一层层搭建( forward(x) )层于层的关系链接. 建立关系的时候, 我们会用到激励函数, 如果还不清楚激励函数用途的同学, 这里有非常好的一篇动画教程 （如下）.
+
+```py
+import torch
+import torch.nn.functional as F     # 激励函数都在这
+
+class Net(torch.nn.Module):  # 继承 torch 的 Module
+    def __init__(self, n_feature, n_hidden, n_output):
+        super(Net, self).__init__()     # 继承 __init__ 功能
+        # 定义每层用什么样的形式
+        self.hidden = torch.nn.Linear(n_feature, n_hidden)   # 隐藏层线性输出
+        self.predict = torch.nn.Linear(n_hidden, n_output)   # 输出层线性输出
+
+    def forward(self, x):   # 这同时也是 Module 中的 forward 功能
+        # 正向传播输入值, 神经网络分析出输出值
+        x = F.relu(self.hidden(x))      # 激励函数(隐藏层的线性值)
+        x = self.predict(x)             # 输出值
+        return x
+
+net = Net(n_feature=1, n_hidden=10, n_output=1)
+
+print(net)  # net 的结构
+"""
+Net (
+  (hidden): Linear (1 -> 10)
+  (predict): Linear (10 -> 1)
+)
+"""
+```
+
+## 训练网络
+
+训练的步骤很简单, 如下:
+
+```py
+# optimizer 是训练的工具
+optimizer = torch.optim.SGD(net.parameters(), lr=0.5)  # 传入 net 的所有参数, 学习率
+loss_func = torch.nn.MSELoss()      # 预测值和真实值的误差计算公式 (均方差)
+
+for t in range(100):
+    prediction = net(x)     # 喂给 net 训练数据 x, 输出预测值
+
+    loss = loss_func(prediction, y)     # 计算两者的误差
+
+    optimizer.zero_grad()   # 清空上一步的残余更新参数值
+    loss.backward()         # 误差反向传播, 计算参数更新值
+    optimizer.step()        # 将参数更新值施加到 net 的 parameters 上
+```
+
+## 可视化训练过程
+
+为了可视化整个训练的过程, 更好的理解是如何训练, 我们如下操作:
+
+```py
+import matplotlib.pyplot as plt
+
+plt.ion()   # 画图
+plt.show()
+
+for t in range(100):
+
+    ...
+    loss.backward()
+    optimizer.step()
+
+    # 接着上面来
+    if t % 5 == 0:
+        # plot and show learning process
+        plt.cla()
+        plt.scatter(x.data.numpy(), y.data.numpy())
+        plt.plot(x.data.numpy(), prediction.data.numpy(), \'r-\', lw=5)
+        plt.text(0.5, 0, \'Loss=%.4f\' % loss.data[0], fontdict={\'size\': 20, \'color\':  \'red\'})
+        plt.pause(0.1)
+```
+
+![](img/13e0473ef73a9de2569a81c62e30d054.png)
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/301_regression.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/10.md b/pytorch/10.md
new file mode 100644
index 00000000..4c1976b9
--- /dev/null
+++ b/pytorch/10.md
@@ -0,0 +1,126 @@
+# 3.2 – 区分类型 (分类 Classification)
+
+这次我们也是用最简单的途径来看看神经网络是怎么进行事物的分类.
+
+![](img/5a415b795ebbb116db6d4a2394d93b27.png)
+
+## 建立数据集
+
+我们创建一些假数据来模拟真实的情况. 比如两个二次分布的数据, 不过他们的均值都不一样.
+
+```py
+import torch
+from torch.autograd import Variable
+import matplotlib.pyplot as plt
+
+# 假数据
+n_data = torch.ones(100, 2)         # 数据的基本形态
+x0 = torch.normal(2*n_data, 1)      # 类型0 x data (tensor), shape=(100, 2)
+y0 = torch.zeros(100)               # 类型0 y data (tensor), shape=(100, 1)
+x1 = torch.normal(-2*n_data, 1)     # 类型1 x data (tensor), shape=(100, 1)
+y1 = torch.ones(100)                # 类型1 y data (tensor), shape=(100, 1)
+
+# 注意 x, y 数据的数据形式是一定要像下面一样 (torch.cat 是在合并数据)
+x = torch.cat((x0, x1), 0).type(torch.FloatTensor)  # FloatTensor = 32-bit floating
+y = torch.cat((y0, y1), ).type(torch.LongTensor)    # LongTensor = 64-bit integer
+
+# torch 只能在 Variable 上训练, 所以把它们变成 Variable
+x, y = Variable(x), Variable(y)
+
+# plt.scatter(x.data.numpy()[:, 0], x.data.numpy()[:, 1], c=y.data.numpy(), s=100, lw=0, cmap=\'RdYlGn\')
+# plt.show()
+
+# 画图
+plt.scatter(x.data.numpy(), y.data.numpy())
+plt.show()
+```
+
+## 建立神经网络
+
+建立一个神经网络我们可以直接运用 torch 中的体系. 先定义所有的层属性( __init__() ), 然后再一层层搭建( forward(x) )层于层的关系链接. 这个和我们在前面 regression 的时候的神经网络基本没差. 建立关系的时候, 我们会用到激励函数.
+
+```py
+import torch
+import torch.nn.functional as F     # 激励函数都在这
+
+class Net(torch.nn.Module):     # 继承 torch 的 Module
+    def __init__(self, n_feature, n_hidden, n_output):
+        super(Net, self).__init__()     # 继承 __init__ 功能
+        self.hidden = torch.nn.Linear(n_feature, n_hidden)   # 隐藏层线性输出
+        self.out = torch.nn.Linear(n_hidden, n_output)       # 输出层线性输出
+
+    def forward(self, x):
+        # 正向传播输入值, 神经网络分析出输出值
+        x = F.relu(self.hidden(x))      # 激励函数(隐藏层的线性值)
+        x = self.out(x)                 # 输出值, 但是这个不是预测值, 预测值还需要再另外计算
+        return x
+
+net = Net(n_feature=2, n_hidden=10, n_output=2) # 几个类别就几个 output
+
+print(net)  # net 的结构
+"""
+Net (
+  (hidden): Linear (2 -> 10)
+  (out): Linear (10 -> 2)
+)
+"""
+```
+
+## 训练网络
+
+训练的步骤很简单, 如下:
+
+```py
+# optimizer 是训练的工具
+optimizer = torch.optim.SGD(net.parameters(), lr=0.02)  # 传入 net 的所有参数, 学习率
+# 算误差的时候, 注意真实值!不是! one-hot 形式的, 而是1D Tensor, (batch,)
+# 但是预测值是2D tensor (batch, n_classes)
+loss_func = torch.nn.CrossEntropyLoss()
+
+for t in range(100):
+    out = net(x)     # 喂给 net 训练数据 x, 输出分析值
+
+    loss = loss_func(out, y)     # 计算两者的误差
+
+    optimizer.zero_grad()   # 清空上一步的残余更新参数值
+    loss.backward()         # 误差反向传播, 计算参数更新值
+    optimizer.step()        # 将参数更新值施加到 net 的 parameters 上
+```
+
+## 可视化训练过程
+
+为了可视化整个训练的过程, 更好的理解是如何训练, 我们如下操作:
+
+```py
+import matplotlib.pyplot as plt
+
+plt.ion()   # 画图
+plt.show()
+
+for t in range(100):
+
+    ...
+    loss.backward()
+    optimizer.step()
+
+    # 接着上面来
+    if t % 2 == 0:
+        plt.cla()
+        # 过了一道 softmax 的激励函数后的最大概率才是预测值
+        prediction = torch.max(F.softmax(out), 1)[1]
+        pred_y = prediction.data.numpy().squeeze()
+        target_y = y.data.numpy()
+        plt.scatter(x.data.numpy()[:, 0], x.data.numpy()[:, 1], c=pred_y, s=100, lw=0, cmap=\'RdYlGn\')
+        accuracy = sum(pred_y == target_y)/200  # 预测中有多少和真实值一样
+        plt.text(1.5, -4, \'Accuracy=%.2f\' % accuracy, fontdict={\'size\': 20, \'color\':  \'red\'})
+        plt.pause(0.1)
+
+plt.ioff()  # 停止画图
+plt.show()
+```
+
+![](img/bce7313d5ac6f2600b62a4962a6daf3a.png)
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/302_classification.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/11.md b/pytorch/11.md
new file mode 100644
index 00000000..ffbc7c3a
--- /dev/null
+++ b/pytorch/11.md
@@ -0,0 +1,58 @@
+# 3.3 – 快速搭建回归神经网络
+
+Torch 中提供了很多方便的途径, 同样是神经网络, 能快则快, 我们看看如何用更简单的方式搭建同样的回归神经网络.
+
+## 快速搭建
+
+我们先看看之前写神经网络时用到的步骤. 我们用 net1  代表这种方式搭建的神经网络.
+
+```py
+class Net(torch.nn.Module):
+    def __init__(self, n_feature, n_hidden, n_output):
+        super(Net, self).__init__()
+        self.hidden = torch.nn.Linear(n_feature, n_hidden)
+        self.predict = torch.nn.Linear(n_hidden, n_output)
+
+    def forward(self, x):
+        x = F.relu(self.hidden(x))
+        x = self.predict(x)
+        return x
+
+net1 = Net(1, 10, 1)   # 这是我们用这种方式搭建的 net1
+```
+
+我们用 class 继承了一个 torch 中的神经网络结构, 然后对其进行了修改, 不过还有更快的一招, 用一句话就概括了上面所有的内容!
+
+```py
+net2 = torch.nn.Sequential(
+    torch.nn.Linear(1, 10),
+    torch.nn.ReLU(),
+    torch.nn.Linear(10, 1)
+)
+```
+
+我们再对比一下两者的结构:
+
+```py
+print(net1)
+"""
+Net (
+  (hidden): Linear (1 -> 10)
+  (predict): Linear (10 -> 1)
+)
+"""
+print(net2)
+"""
+Sequential (
+  (0): Linear (1 -> 10)
+  (1): ReLU ()
+  (2): Linear (10 -> 1)
+)
+"""
+```
+
+我们会发现 net2  多显示了一些内容, 这是为什么呢? 原来他把激励函数也一同纳入进去了, 但是 net1  中, 激励函数实际上是在 forward()  功能中才被调用的. 这也就说明了, 相比 net2 , net1  的好处就是, 你可以根据你的个人需要更加个性化你自己的前向传播过程, 比如(RNN). 不过如果你不需要七七八八的过程, 相信 net2  这种形式更适合你.
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/303_build_nn_quickly.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/12.md b/pytorch/12.md
new file mode 100644
index 00000000..3faff92a
--- /dev/null
+++ b/pytorch/12.md
@@ -0,0 +1,82 @@
+# 3.4 – 保存和恢复模型
+
+训练好了一个模型, 我们当然想要保存它, 留到下次要用的时候直接提取直接用, 这就是这节的内容啦. 我们用回归的神经网络举例实现保存提取.
+
+## 保存
+
+我们快速地建造数据, 搭建网络:
+
+```py
+torch.manual_seed(1)    # reproducible
+
+# 假数据
+x = torch.unsqueeze(torch.linspace(-1, 1, 100), dim=1)  # x data (tensor), shape=(100, 1)
+y = x.pow(2)   0.2*torch.rand(x.size())  # noisy y data (tensor), shape=(100, 1)
+x, y = Variable(x, requires_grad=False), Variable(y, requires_grad=False)
+
+def save():
+    # 建网络
+    net1 = torch.nn.Sequential(
+        torch.nn.Linear(1, 10),
+        torch.nn.ReLU(),
+        torch.nn.Linear(10, 1)
+    )
+    optimizer = torch.optim.SGD(net1.parameters(), lr=0.5)
+    loss_func = torch.nn.MSELoss()
+
+    # 训练
+    for t in range(100):
+        prediction = net1(x)
+        loss = loss_func(prediction, y)
+        optimizer.zero_grad()
+        loss.backward()
+        optimizer.step()
+```
+
+接下来我们有两种途径来保存
+
+```py
+torch.save(net1, \'net.pkl\')  # 保存整个网络
+torch.save(net1.state_dict(), \'net_params.pkl\')   # 只保存网络中的参数 (速度快, 占内存少)
+```
+
+## 提取网络
+
+这种方式将会提取整个神经网络, 网络大的时候可能会比较慢.
+
+```py
+def restore_net():
+    # restore entire net1 to net2
+    net2 = torch.load(\'net.pkl\')
+    prediction = net2(x)
+```
+
+## 只提取网络参数
+
+这种方式将会提取所有的参数, 然后再放到你的新建网络中.
+
+```py
+def restore_params():
+    # 新建 net3
+    net3 = torch.nn.Sequential(
+        torch.nn.Linear(1, 10),
+        torch.nn.ReLU(),
+        torch.nn.Linear(10, 1)
+    )
+
+    # 将保存的参数复制到 net3
+    net3.load_state_dict(torch.load(\'net_params.pkl\'))
+    prediction = net3(x)
+```
+
+## 显示结果
+
+调用上面建立的几个功能, 然后出图.
+
+![](img/68f39521fc6853acdf26440e7d5a2861.png)
+
+这样我们就能看出三个网络完全一模一样啦.
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/304_save_reload.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/13.md b/pytorch/13.md
new file mode 100644
index 00000000..5be9e301
--- /dev/null
+++ b/pytorch/13.md
@@ -0,0 +1,72 @@
+# 3.5 – 数据读取 (Data Loader)
+
+DataLoader  是 torch 给你用来包装你的数据的工具. 所以你要讲自己的 (numpy array 或其他) 数据形式装换成 Tensor, 然后再放进这个包装器中. 使用 DataLoader  有什么好处呢? 就是他们帮你有效地迭代数据, 举例:
+
+```py
+import torch
+import torch.utils.data as Data
+torch.manual_seed(1)    # reproducible
+
+BATCH_SIZE = 5      # 批训练的数据个数
+
+x = torch.linspace(1, 10, 10)       # x data (torch tensor)
+y = torch.linspace(10, 1, 10)       # y data (torch tensor)
+
+# 先转换成 torch 能识别的 Dataset
+torch_dataset = Data.TensorDataset(data_tensor=x, target_tensor=y)
+
+# 把 dataset 放入 DataLoader
+loader = Data.DataLoader(
+    dataset=torch_dataset,      # torch TensorDataset format
+    batch_size=BATCH_SIZE,      # mini batch size
+    shuffle=True,               # 要不要打乱数据 (打乱比较好)
+    num_workers=2,              # 多线程来读数据
+)
+
+for epoch in range(3):   # 训练所有!整套!数据 3 次
+    for step, (batch_x, batch_y) in enumerate(loader):  # 每一步 loader 释放一小批数据用来学习
+        # 假设这里就是你训练的地方...
+
+        # 打出来一些数据
+        print(\'Epoch: \', epoch, \'| Step: \', step, \'| batch x: \',
+              batch_x.numpy(), \'| batch y: \', batch_y.numpy())
+
+"""
+Epoch:  0 | Step:  0 | batch x:  [ 6\.  7\.  2\.  3\.  1.] | batch y:  [  5\.   4\.   9\.   8\.  10.]
+Epoch:  0 | Step:  1 | batch x:  [  9\.  10\.   4\.   8\.   5.] | batch y:  [ 2\.  1\.  7\.  3\.  6.]
+Epoch:  1 | Step:  0 | batch x:  [  3\.   4\.   2\.   9\.  10.] | batch y:  [ 8\.  7\.  9\.  2\.  1.]
+Epoch:  1 | Step:  1 | batch x:  [ 1\.  7\.  8\.  5\.  6.] | batch y:  [ 10\.   4\.   3\.   6\.   5.]
+Epoch:  2 | Step:  0 | batch x:  [ 3\.  9\.  2\.  6\.  7.] | batch y:  [ 8\.  2\.  9\.  5\.  4.]
+Epoch:  2 | Step:  1 | batch x:  [ 10\.   4\.   8\.   1\.   5.] | batch y:  [  1\.   7\.   3\.  10\.   6.]
+"""
+```
+
+可以看出, 每步都导出了5个数据进行学习. 然后每个 epoch 的导出数据都是先打乱了以后再导出.
+
+真正方便的还不是这点. 如果我们改变一下 BATCH_SIZE  =  8 , 这样我们就知道, step=0  会导出8个数据, 但是, step=1  时数据库中的数据不够 8个, 这时怎么办呢:
+
+```py
+BATCH_SIZE = 8      # 批训练的数据个数
+
+...
+
+for ...:
+    for ...:
+        ...
+        print(\'Epoch: \', epoch, \'| Step: \', step, \'| batch x: \',
+              batch_x.numpy(), \'| batch y: \', batch_y.numpy())
+"""
+Epoch:  0 | Step:  0 | batch x:  [  6\.   7\.   2\.   3\.   1\.   9\.  10\.   4.] | batch y:  [  5\.   4\.   9\.   8\.  10\.   2\.   1\.   7.]
+Epoch:  0 | Step:  1 | batch x:  [ 8\.  5.] | batch y:  [ 3\.  6.]
+Epoch:  1 | Step:  0 | batch x:  [  3\.   4\.   2\.   9\.  10\.   1\.   7\.   8.] | batch y:  [  8\.   7\.   9\.   2\.   1\.  10\.   4\.   3.]
+Epoch:  1 | Step:  1 | batch x:  [ 5\.  6.] | batch y:  [ 6\.  5.]
+Epoch:  2 | Step:  0 | batch x:  [  3\.   9\.   2\.   6\.   7\.  10\.   4\.   8.] | batch y:  [ 8\.  2\.  9\.  5\.  4\.  1\.  7\.  3.]
+Epoch:  2 | Step:  1 | batch x:  [ 1\.  5.] | batch y:  [ 10\.   6.]
+"""
+```
+
+这时, 在 step=1  就只给你返回这个 epoch 中剩下的数据就好了.
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/305_batch_train.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/14.md b/pytorch/14.md
new file mode 100644
index 00000000..3c2fca9d
--- /dev/null
+++ b/pytorch/14.md
@@ -0,0 +1,109 @@
+# 3.6 – 优化器 (Optimizer)
+
+这节内容主要是用 Torch 实践几种优化器, 这几种优化器具体的优势不会在这个节内容中说了, 所以想快速了解的话, 上面的那个动画链接是很好的去处.
+
+下图就是这节内容对比各种优化器的效果:
+
+![](img/7a8716c377832b032ee24276b7ddcc31.png)
+
+## 伪数据
+
+为了对比各种优化器的效果, 我们需要有一些数据, 今天我们还是自己编一些伪数据, 这批数据是这样的:
+
+![](img/2fc34594dcb247d4a3414467eed4a109.png)
+
+```py
+import torch
+import torch.utils.data as Data
+import torch.nn.functional as F
+from torch.autograd import Variable
+import matplotlib.pyplot as plt
+
+torch.manual_seed(1)    # reproducible
+
+LR = 0.01
+BATCH_SIZE = 32
+EPOCH = 12
+
+# fake dataset
+x = torch.unsqueeze(torch.linspace(-1, 1, 1000), dim=1)
+y = x.pow(2)   0.1*torch.normal(torch.zeros(*x.size()))
+
+# plot dataset
+plt.scatter(x.numpy(), y.numpy())
+plt.show()
+
+# 使用上节内容提到的 data loader
+torch_dataset = Data.TensorDataset(data_tensor=x, target_tensor=y)
+loader = Data.DataLoader(dataset=torch_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=2,)
+```
+
+## 每个优化器优化一个神经网络
+
+为了对比每一种优化器, 我们给他们各自创建一个神经网络, 但这个神经网络都来自同一个 Net 形式.
+
+```py
+# 默认的 network 形式
+class Net(torch.nn.Module):
+    def __init__(self):
+        super(Net, self).__init__()
+        self.hidden = torch.nn.Linear(1, 20)   # hidden layer
+        self.predict = torch.nn.Linear(20, 1)   # output layer
+
+    def forward(self, x):
+        x = F.relu(self.hidden(x))      # activation function for hidden layer
+        x = self.predict(x)             # linear output
+        return x
+
+# 为每个优化器创建一个 net
+net_SGD         = Net()
+net_Momentum    = Net()
+net_RMSprop     = Net()
+net_Adam        = Net()
+nets = [net_SGD, net_Momentum, net_RMSprop, net_Adam]
+```
+
+## 优化器 Optimizer
+
+接下来在创建不同的优化器, 用来训练不同的网络. 并创建一个 loss_func  用来计算误差. 我们用几种常见的优化器, SGD , Momentum , RMSprop , Adam .
+
+```py
+# different optimizers
+opt_SGD         = torch.optim.SGD(net_SGD.parameters(), lr=LR)
+opt_Momentum    = torch.optim.SGD(net_Momentum.parameters(), lr=LR, momentum=0.8)
+opt_RMSprop     = torch.optim.RMSprop(net_RMSprop.parameters(), lr=LR, alpha=0.9)
+opt_Adam        = torch.optim.Adam(net_Adam.parameters(), lr=LR, betas=(0.9, 0.99))
+optimizers = [opt_SGD, opt_Momentum, opt_RMSprop, opt_Adam]
+
+loss_func = torch.nn.MSELoss()
+losses_his = [[], [], [], []]   # 记录 training 时不同神经网络的 loss
+```
+
+## 训练/出图
+
+接下来训练和 loss 画图.
+
+```py
+for epoch in range(EPOCH):
+    print(\\'Epoch: \\', epoch)
+    for step, (batch_x, batch_y) in enumerate(loader):
+        b_x = Variable(batch_x)  # 务必要用 Variable 包一下
+        b_y = Variable(batch_y)
+
+        # 对每个优化器, 优化属于他的神经网络
+        for net, opt, l_his in zip(nets, optimizers, losses_his):
+            output = net(b_x)              # get output for every net
+            loss = loss_func(output, b_y)  # compute loss for every net
+            opt.zero_grad()                # clear gradients for next train
+            loss.backward()                # backpropagation, compute gradients
+            opt.step()                     # apply gradients
+            l_his.append(loss.data[0])     # loss recoder
+```
+
+![](img/7a8716c377832b032ee24276b7ddcc31.png)
+
+SGD  是最普通的优化器, 也可以说没有加速效果, 而 Momentum  是 SGD  的改良版, 它加入了动量原则. 后面的 RMSprop  又是 Momentum  的升级版. 而 Adam  又是 RMSprop  的升级版. 不过从这个结果中我们看到, Adam  的效果似乎比 RMSprop  要差一点. 所以说并不是越先进的优化器, 结果越佳. 我们在自己的试验中可以尝试不同的优化器, 找到那个最适合你数据/网络的优化器.
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/306_optimizer.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/15.md b/pytorch/15.md
new file mode 100644
index 00000000..3e29533e
--- /dev/null
+++ b/pytorch/15.md
@@ -0,0 +1 @@
+# 高级神经网络结构
\ No newline at end of file
diff --git a/pytorch/16.md b/pytorch/16.md
new file mode 100644
index 00000000..7595a7b6
--- /dev/null
+++ b/pytorch/16.md
@@ -0,0 +1,159 @@
+# 4.1 – CNN 卷积神经网络
+
+卷积神经网络目前被广泛地用在图片识别上, 已经有层出不穷的应用, 如果你对卷积神经网络还没有特别了解, 我制作的 卷积神经网络 动画简介 （如下） 能让你花几分钟就了解什么是卷积神经网络. 接着我们就一步一步做一个分析手写数字的 CNN 吧.
+
+下面是一个 CNN 最后一层的学习过程, 我们先可视化看看:
+
+![](img/388ca39bf710c8f053f533ad10872cd7.png)
+
+## MNIST手写数据
+
+```py
+import torch
+import torch.nn as nn
+from torch.autograd import Variable
+import torch.utils.data as Data
+import torchvision      # 数据库模块
+import matplotlib.pyplot as plt
+
+torch.manual_seed(1)    # reproducible
+
+# Hyper Parameters
+EPOCH = 1           # 训练整批数据多少次, 为了节约时间, 我们只训练一次
+BATCH_SIZE = 50
+LR = 0.001          # 学习率
+DOWNLOAD_MNIST = True  # 如果你已经下载好了mnist数据就写上 Fasle
+
+# Mnist 手写数字
+train_data = torchvision.datasets.MNIST(
+    root=\\'./mnist/\\',    # 保存或者提取位置
+    train=True,  # this is training data
+    transform=torchvision.transforms.ToTensor(),    # 转换 PIL.Image or numpy.ndarray 成
+                                                    # torch.FloatTensor (C x H x W), 训练的时候 normalize 成 [0.0, 1.0] 区间
+    download=DOWNLOAD_MNIST,          # 没下载就下载, 下载了就不用再下了
+)
+```
+
+![](img/25ed82d9ef8a8b1c9c60445c7c08c732.png)
+
+黑色的地方的值都是0, 白色的地方值大于0.
+
+同样, 我们除了训练数据, 还给一些测试数据, 测试看看它有没有训练好.
+
+```py
+test_data = torchvision.datasets.MNIST(root=\\'./mnist/\\', train=False)
+
+# 批训练 50samples, 1 channel, 28x28 (50, 1, 28, 28)
+train_loader = Data.DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
+
+# 为了节约时间, 我们测试时只测试前2000个
+test_x = Variable(torch.unsqueeze(test_data.test_data, dim=1), volatile=True).type(torch.FloatTensor)[:2000]/255\.   # shape from (2000, 28, 28) to (2000, 1, 28, 28), value in range(0,1)
+test_y = test_data.test_labels[:2000]
+```
+
+## CNN模型
+
+和以前一样, 我们用一个 class 来建立 CNN 模型. 这个 CNN 整体流程是 卷积( Conv2d ) -> 激励函数( ReLU ) -> 池化, 向下采样 ( MaxPooling ) -> 再来一遍 -> 展平多维的卷积成的特征图 -> 接入全连接层 ( Linear ) -> 输出
+
+```py
+class CNN(nn.Module):
+    def __init__(self):
+        super(CNN, self).__init__()
+        self.conv1 = nn.Sequential(  # input shape (1, 28, 28)
+            nn.Conv2d(
+                in_channels=1,      # input height
+                out_channels=16,    # n_filters
+                kernel_size=5,      # filter size
+                stride=1,           # filter movement/step
+                padding=2,      # 如果想要 con2d 出来的图片长宽没有变化, padding=(kernel_size-1)/2 当 stride=1
+            ),      # output shape (16, 28, 28)
+            nn.ReLU(),    # activation
+            nn.MaxPool2d(kernel_size=2),    # 在 2x2 空间里向下采样, output shape (16, 14, 14)
+        )
+        self.conv2 = nn.Sequential(  # input shape (1, 28, 28)
+            nn.Conv2d(16, 32, 5, 1, 2),  # output shape (32, 14, 14)
+            nn.ReLU(),  # activation
+            nn.MaxPool2d(2),  # output shape (32, 7, 7)
+        )
+        self.out = nn.Linear(32 * 7 * 7, 10)   # fully connected layer, output 10 classes
+
+    def forward(self, x):
+        x = self.conv1(x)
+        x = self.conv2(x)
+        x = x.view(x.size(0), -1)   # 展平多维的卷积图成 (batch_size, 32 * 7 * 7)
+        output = self.out(x)
+        return output
+
+cnn = CNN()
+print(cnn)  # net architecture
+"""
+CNN (
+  (conv1): Sequential (
+    (0): Conv2d(1, 16, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))
+    (1): ReLU ()
+    (2): MaxPool2d (size=(2, 2), stride=(2, 2), dilation=(1, 1))
+  )
+  (conv2): Sequential (
+    (0): Conv2d(16, 32, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))
+    (1): ReLU ()
+    (2): MaxPool2d (size=(2, 2), stride=(2, 2), dilation=(1, 1))
+  )
+  (out): Linear (1568 -> 10)
+)
+"""
+```
+
+## 训练
+
+下面我们开始训练, 将  y 都用 Variable 包起来, 然后放入 cnn 中计算 output, 最后再计算误差. 下面代码省略了计算精确度 accuracy 的部分, 如果想细看 accuracy 代码的同学, 请去往我的 github 看全部代码.
+
+```py
+optimizer = torch.optim.Adam(cnn.parameters(), lr=LR)   # optimize all cnn parameters
+loss_func = nn.CrossEntropyLoss()   # the target label is not one-hotted
+
+# training and testing
+for epoch in range(EPOCH):
+    for step, (x, y) in enumerate(train_loader):   # 分配 batch data, normalize x when iterate train_loader
+        b_x = Variable(x)   # batch x
+        b_y = Variable(y)   # batch y
+
+        output = cnn(b_x)               # cnn output
+        loss = loss_func(output, b_y)   # cross entropy loss
+        optimizer.zero_grad()           # clear gradients for this training step
+        loss.backward()                 # backpropagation, compute gradients
+        optimizer.step()                # apply gradients
+
+"""
+...
+Epoch:  0 | train loss: 0.0306 | test accuracy: 0.97
+Epoch:  0 | train loss: 0.0147 | test accuracy: 0.98
+Epoch:  0 | train loss: 0.0427 | test accuracy: 0.98
+Epoch:  0 | train loss: 0.0078 | test accuracy: 0.98
+"""
+```
+
+最后我们再来取10个数据, 看看预测的值到底对不对:
+
+```py
+test_output = cnn(test_x[:10])
+pred_y = torch.max(test_output, 1)[1].data.numpy().squeeze()
+print(pred_y, \\'prediction number\\')
+print(test_y[:10].numpy(), \\'real number\\')
+
+"""
+[7 2 1 0 4 1 4 9 5 9] prediction number
+[7 2 1 0 4 1 4 9 5 9] real number
+"""
+```
+
+#### 可视化训练(视频中没有)
+
+这是做完视频后突然想要补充的内容, 因为可视化可以帮助理解, 所以还是有必要提一下. 可视化的代码主要是用 matplotlib  和 sklearn  来完成的, 因为其中我们用到了 T-SNE  的降维手段, 将高维的 CNN 最后一层输出结果可视化, 也就是 CNN forward 代码中的 x  =  x.view(x.size(0),  -1)  这一个结果.
+
+可视化的代码不是重点, 我们就直接展示可视化的结果吧.
+
+![](img/388ca39bf710c8f053f533ad10872cd7.png)
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/401_CNN.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/17.md b/pytorch/17.md
new file mode 100644
index 00000000..646caf7c
--- /dev/null
+++ b/pytorch/17.md
@@ -0,0 +1,145 @@
+# 4.2 – RNN 循环神经网络 (分类 Classification)
+
+循环神经网络让神经网络有了记忆, 对于序列话的数据,循环神经网络能达到更好的效果. 如果你对循环神经网络还没有特别了解, 请观看几分钟的短动画, RNN 动画简介（如下） 和 LSTM（如下） 动画简介 能让你生动理解 RNN. 接着我们就一步一步做一个分析手写数字的 RNN 吧.
+
+## RNN 简介
+
+## LSTM 简介
+
+## MNIST手写数据
+
+```py
+import torch
+from torch import nn
+from torch.autograd import Variable
+import torchvision.datasets as dsets
+import torchvision.transforms as transforms
+import matplotlib.pyplot as plt
+
+torch.manual_seed(1)    # reproducible
+
+# Hyper Parameters
+EPOCH = 1           # 训练整批数据多少次, 为了节约时间, 我们只训练一次
+BATCH_SIZE = 64
+TIME_STEP = 28      # rnn 时间步数 / 图片高度
+INPUT_SIZE = 28     # rnn 每步输入值 / 图片每行像素
+LR = 0.01           # learning rate
+DOWNLOAD_MNIST = True  # 如果你已经下载好了mnist数据就写上 Fasle
+
+# Mnist 手写数字
+train_data = torchvision.datasets.MNIST(
+    root=\\'./mnist/\\',    # 保存或者提取位置
+    train=True,  # this is training data
+    transform=torchvision.transforms.ToTensor(),    # 转换 PIL.Image or numpy.ndarray 成
+                                                    # torch.FloatTensor (C x H x W), 训练的时候 normalize 成 [0.0, 1.0] 区间
+    download=DOWNLOAD_MNIST,          # 没下载就下载, 下载了就不用再下了
+)
+```
+
+![](img/99c72d57612c137b62599837526f0e0e.png)
+
+黑色的地方的值都是0, 白色的地方值大于0.
+
+同样, 我们除了训练数据, 还给一些测试数据, 测试看看它有没有训练好.
+
+```py
+test_data = torchvision.datasets.MNIST(root=\\'./mnist/\\', train=False)
+
+# 批训练 50samples, 1 channel, 28x28 (50, 1, 28, 28)
+train_loader = Data.DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
+
+# 为了节约时间, 我们测试时只测试前2000个
+test_x = Variable(torch.unsqueeze(test_data.test_data, dim=1), volatile=True).type(torch.FloatTensor)[:2000]/255\.   # shape from (2000, 28, 28) to (2000, 1, 28, 28), value in range(0,1)
+test_y = test_data.test_labels[:2000]
+```
+
+#### RNN模型
+
+和以前一样, 我们用一个 class 来建立 RNN 模型. 这个 RNN 整体流程是
+
+1.  (input0,  state0) -> LSTM -> (output0,  state1) ;
+2.  (input1,  state1) -> LSTM -> (output1,  state2) ;
+3.  …
+4.  (inputN,  stateN)-> LSTM -> (outputN,  stateN  1) ;
+5.  outputN -> Linear -> prediction . 通过LSTM分析每一时刻的值, 并且将这一时刻和前面时刻的理解合并在一起, 生成当前时刻对前面数据的理解或记忆. 传递这种理解给下一时刻分析.
+
+```py
+class RNN(nn.Module):
+    def __init__(self):
+        super(RNN, self).__init__()
+
+        self.rnn = nn.LSTM(     # LSTM 效果要比 nn.RNN() 好多了
+            input_size=28,      # 图片每行的数据像素点
+            hidden_size=64,     # rnn hidden unit
+            num_layers=1,       # 有几层 RNN layers
+            batch_first=True,   # input & output 会是以 batch size 为第一维度的特征集 e.g. (batch, time_step, input_size)
+        )
+
+        self.out = nn.Linear(64, 10)    # 输出层
+
+    def forward(self, x):
+        # x shape (batch, time_step, input_size)
+        # r_out shape (batch, time_step, output_size)
+        # h_n shape (n_layers, batch, hidden_size)   LSTM 有两个 hidden states, h_n 是分线, h_c 是主线
+        # h_c shape (n_layers, batch, hidden_size)
+        r_out, (h_n, h_c) = self.rnn(x, None)   # None 表示 hidden state 会用全0的 state
+
+        # 选取最后一个时间点的 r_out 输出
+        # 这里 r_out[:, -1, :] 的值也是 h_n 的值
+        out = self.out(r_out[:, -1, :])
+        return out
+
+rnn = RNN()
+print(rnn)
+"""
+RNN (
+  (rnn): LSTM(28, 64, batch_first=True)
+  (out): Linear (64 -> 10)
+)
+"""
+```
+
+#### 训练
+
+我们将图片数据看成一个时间上的连续数据, 每一行的像素点都是这个时刻的输入, 读完整张图片就是从上而下的读完了每行的像素点. 然后我们就可以拿出 RNN 在最后一步的分析值判断图片是哪一类了. 下面的代码省略了计算 accuracy 的部分, 你可以在我的 github 中看到全部代码.
+
+```py
+optimizer = torch.optim.Adam(rnn.parameters(), lr=LR)   # optimize all parameters
+loss_func = nn.CrossEntropyLoss()   # the target label is not one-hotted
+
+# training and testing
+for epoch in range(EPOCH):
+    for step, (x, y) in enumerate(train_loader):   # gives batch data
+        b_x = Variable(x.view(-1, 28, 28))   # reshape x to (batch, time_step, input_size)
+        b_y = Variable(y)   # batch y
+
+        output = rnn(b_x)               # rnn output
+        loss = loss_func(output, b_y)   # cross entropy loss
+        optimizer.zero_grad()           # clear gradients for this training step
+        loss.backward()                 # backpropagation, compute gradients
+        optimizer.step()                # apply gradients
+"""
+...
+Epoch:  0 | train loss: 0.0945 | test accuracy: 0.94
+Epoch:  0 | train loss: 0.0984 | test accuracy: 0.94
+Epoch:  0 | train loss: 0.0332 | test accuracy: 0.95
+Epoch:  0 | train loss: 0.1868 | test accuracy: 0.96
+"""
+```
+
+最后我们再来取10个数据, 看看预测的值到底对不对:
+
+```py
+test_output = rnn(test_x[:10].view(-1, 28, 28))
+pred_y = torch.max(test_output, 1)[1].data.numpy().squeeze()
+print(pred_y, \\'prediction number\\')
+print(test_y[:10], \\'real number\\')
+"""
+[7 2 1 0 4 1 4 9 5 9] prediction number
+[7 2 1 0 4 1 4 9 5 9] real number
+"""
+```
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/402_RNN_classifier.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/18.md b/pytorch/18.md
new file mode 100644
index 00000000..80f86cd5
--- /dev/null
+++ b/pytorch/18.md
@@ -0,0 +1,117 @@
+# 4.3 – RNN 循环神经网络 (回归 Regression)
+
+循环神经网络让神经网络有了记忆, 对于序列话的数据,循环神经网络能达到更好的效果. 如果你对循环神经网络还没有特别了解, 请观看几分钟的短动画,RNN 动画简介（如下） 和 LSTM（如下）动画简介 能让你生动理解 RNN. 上次我们提到了用 RNN 的最后一个时间点输出来判断之前看到的图片属于哪一类, 这次我们来真的了, 用 RNN 来及时预测时间序列.
+
+![](img/f38868821469cadc36810cfd827511d1.png)
+
+## RNN 简介
+
+## LSTM 简介
+
+## 训练数据
+
+我们要用到的数据就是这样的一些数据, 我们想要用 sin  的曲线预测出 cos  的曲线.
+
+![](img/22309cd02ee52b3a65e1f0022e8b964e.png)
+
+```py
+import torch
+from torch import nn
+from torch.autograd import Variable
+import numpy as np
+import matplotlib.pyplot as plt
+
+torch.manual_seed(1)    # reproducible
+
+# Hyper Parameters
+TIME_STEP = 10      # rnn time step / image height
+INPUT_SIZE = 1      # rnn input size / image width
+LR = 0.02           # learning rate
+DOWNLOAD_MNIST = False  # set to True if haven\'t download the data
+```
+
+## RNN模型
+
+这一次的 RNN, 我们对每一个 r_out  都得放到 Linear  中去计算出预测的 output , 所以我们能用一个 for loop 来循环计算. **这点是 Tensorflow 望尘莫及的!** 除了这点, 还有一些动态的过程都可以在这个教程中查看, 看看我们的 PyTorch 和 Tensorflow 到底哪家强.
+
+```py
+class RNN(nn.Module):
+    def __init__(self):
+        super(RNN, self).__init__()
+
+        self.rnn = nn.RNN(  # 这回一个普通的 RNN 就能胜任
+            input_size=1,
+            hidden_size=32,     # rnn hidden unit
+            num_layers=1,       # 有几层 RNN layers
+            batch_first=True,   # input & output 会是以 batch size 为第一维度的特征集 e.g. (batch, time_step, input_size)
+        )
+        self.out = nn.Linear(32, 1)
+
+    def forward(self, x, h_state):  # 因为 hidden state 是连续的, 所以我们要一直传递这一个 state
+        # x (batch, time_step, input_size)
+        # h_state (n_layers, batch, hidden_size)
+        # r_out (batch, time_step, output_size)
+        r_out, h_state = self.rnn(x, h_state)   # h_state 也要作为 RNN 的一个输入
+
+        outs = []    # 保存所有时间点的预测值
+        for time_step in range(r_out.size(1)):    # 对每一个时间点计算 output
+            outs.append(self.out(r_out[:, time_step, :]))
+        return torch.stack(outs, dim=1), h_state
+
+rnn = RNN()
+print(rnn)
+"""
+RNN (
+  (rnn): RNN(1, 32, batch_first=True)
+  (out): Linear (32 -> 1)
+)
+"""
+```
+
+其实熟悉 RNN 的朋友应该知道, forward  过程中的对每个时间点求输出还有一招使得计算量比较小的. 不过上面的内容主要是为了呈现 PyTorch 在动态构图上的优势, 所以我用了一个 for  loop  来搭建那套输出系统. 下面介绍一个替换方式. 使用 reshape 的方式整批计算.
+
+```py
+def forward(self, x, h_state):
+    r_out, h_state = self.rnn(x, h_state)
+    r_out_reshaped = r_out.view(-1, HIDDEN_SIZE) # to 2D data
+    outs = self.linear_layer(r_out_reshaped)
+    outs = outs.view(-1, TIME_STEP, INPUT_SIZE)  # to 3D data
+```
+
+## 训练
+
+下面的代码就能实现动图的效果啦~开心, 可以看出, 我们使用 x 作为输入的 sin 值, 然后 y作为想要拟合的输出, cos 值. 因为他们两条曲线是存在某种关系的, 所以我们就能用 sin 来预测 cos. rnn 会理解他们的关系, 并用里面的参数分析出来这个时刻 sin 曲线上的点如何对应上 cos 曲线上的点.
+
+![](img/f38868821469cadc36810cfd827511d1.png)
+
+```py
+optimizer = torch.optim.Adam(rnn.parameters(), lr=LR)   # optimize all rnn parameters
+loss_func = nn.MSELoss()
+
+h_state = None   # 要使用初始 hidden state, 可以设成 None
+
+for step in range(60):
+    start, end = step * np.pi, (step 1)*np.pi   # time steps
+    # sin 预测 cos
+    steps = np.linspace(start, end, 10, dtype=np.float32)
+    x_np = np.sin(steps)    # float32 for converting torch FloatTensor
+    y_np = np.cos(steps)
+
+    x = Variable(torch.from_numpy(x_np[np.newaxis, :, np.newaxis]))    # shape (batch, time_step, input_size)
+    y = Variable(torch.from_numpy(y_np[np.newaxis, :, np.newaxis]))
+
+    prediction, h_state = rnn(x, h_state)   # rnn 对于每个 step 的 prediction, 还有最后一个 step 的 h_state
+    # !!  下一步十分重要 !!
+    h_state = Variable(h_state.data)  # 要把 h_state 重新包装一下才能放入下一个 iteration, 不然会报错
+
+    loss = loss_func(prediction, y)     # cross entropy loss
+    optimizer.zero_grad()               # clear gradients for this training step
+    loss.backward()                     # backpropagation, compute gradients
+    optimizer.step()                    # apply gradients
+```
+
+![](img/04a6040ad4f06a69a92f440ea17dde44.png)
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/403_RNN_regressor.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/19.md b/pytorch/19.md
new file mode 100644
index 00000000..8e147cd5
--- /dev/null
+++ b/pytorch/19.md
@@ -0,0 +1,138 @@
+# 4.4 – AutoEncoder (自编码/非监督学习)
+
+神经网络也能进行非监督学习, 只需要训练数据, 不需要标签数据. 自编码就是这样一种形式. 自编码能自动分类数据, 而且也能嵌套在半监督学习的上面, 用少量的有标签样本和大量的无标签样本学习.
+
+这次我们还用 MNIST 手写数字数据来压缩再解压图片.
+
+![](img/c429fb827df769a542339e200e2ea20c.png)
+
+然后用压缩的特征进行非监督分类.
+
+![](img/f790e22ee4be05f818e52467c2f13b37.png)
+
+## 训练数据
+
+自编码只用训练集就好了, 而且只需要训练 training data 的 image, 不用训练 labels.
+
+```py
+import torch
+import torch.nn as nn
+from torch.autograd import Variable
+import torch.utils.data as Data
+import torchvision
+
+# 超参数
+EPOCH = 10
+BATCH_SIZE = 64
+LR = 0.005
+DOWNLOAD_MNIST = True   # 下过数据的话, 就可以设置成 False
+N_TEST_IMG = 5          # 到时候显示 5张图片看效果, 如上图一
+
+# Mnist digits dataset
+train_data = torchvision.datasets.MNIST(
+    root=\'./mnist/\',
+    train=True,                                     # this is training data
+    transform=torchvision.transforms.ToTensor(),    # Converts a PIL.Image or numpy.ndarray to
+                                                    # torch.FloatTensor of shape (C x H x W) and normalize in the range [0.0, 1.0]
+    download=DOWNLOAD_MNIST,                        # download it if you don\'t have it
+)
+```
+
+![](img/ffeedc89cc695e61aa6e941c1c696a39.png)
+
+这就是一张我们要训练的手写数字 4.
+
+## AutoEncoder
+
+AutoEncoder 形式很简单, 分别是 encoder  和 decoder , 压缩和解压, 压缩后得到压缩的特征值, 再从压缩的特征值解压成原图片.
+
+```py
+class AutoEncoder(nn.Module):
+    def __init__(self):
+        super(AutoEncoder, self).__init__()
+
+        # 压缩
+        self.encoder = nn.Sequential(
+            nn.Linear(28*28, 128),
+            nn.Tanh(),
+            nn.Linear(128, 64),
+            nn.Tanh(),
+            nn.Linear(64, 12),
+            nn.Tanh(),
+            nn.Linear(12, 3),   # 压缩成3个特征, 进行 3D 图像可视化
+        )
+        # 解压
+        self.decoder = nn.Sequential(
+            nn.Linear(3, 12),
+            nn.Tanh(),
+            nn.Linear(12, 64),
+            nn.Tanh(),
+            nn.Linear(64, 128),
+            nn.Tanh(),
+            nn.Linear(128, 28*28),
+            nn.Sigmoid(),       # 激励函数让输出值在 (0, 1)
+        )
+
+    def forward(self, x):
+        encoded = self.encoder(x)
+        decoded = self.decoder(encoded)
+        return encoded, decoded
+
+autoencoder = AutoEncoder()
+```
+
+#### 训练
+
+训练, 并可视化训练的过程. 我们可以有效的利用 encoder 和 decoder 来做很多事, 比如这里我们用 decoder 的信息输出看和原图片的对比, 还能用 encoder 来看经过压缩后, 神经网络对原图片的理解. encoder 能将不同图片数据大概的分离开来. 这样就是一个无监督学习的过程.
+
+![](img/c429fb827df769a542339e200e2ea20c.png)
+
+```py
+optimizer = torch.optim.Adam(autoencoder.parameters(), lr=LR)
+loss_func = nn.MSELoss()
+
+for epoch in range(EPOCH):
+    for step, (x, y) in enumerate(train_loader):
+        b_x = Variable(x.view(-1, 28*28))   # batch x, shape (batch, 28*28)
+        b_y = Variable(x.view(-1, 28*28))   # batch y, shape (batch, 28*28)
+        b_label = Variable(y)               # batch label
+
+        encoded, decoded = autoencoder(b_x)
+
+        loss = loss_func(decoded, b_y)      # mean square error
+        optimizer.zero_grad()               # clear gradients for this training step
+        loss.backward()                     # backpropagation, compute gradients
+        optimizer.step()                    # apply gradients
+```
+
+![](img/9e1df524980c8f42ab4353070c2a1b74.png)
+
+## 画3D图
+
+![](img/f790e22ee4be05f818e52467c2f13b37.png)
+
+3D 的可视化图挺有趣的, 还能挪动观看, 更加直观, 好理解.
+
+```py
+# 要观看的数据
+view_data = Variable(train_data.train_data[:200].view(-1, 28*28).type(torch.FloatTensor)/255.)
+encoded_data, _ = autoencoder(view_data)    # 提取压缩的特征值
+fig = plt.figure(2)
+ax = Axes3D(fig)    # 3D 图
+# x, y, z 的数据值
+X = encoded_data.data[:, 0].numpy()
+Y = encoded_data.data[:, 1].numpy()
+Z = encoded_data.data[:, 2].numpy()
+values = train_data.train_labels[:200].numpy()  # 标签值
+for x, y, z, s in zip(X, Y, Z, values):
+    c = cm.rainbow(int(255*s/9))    # 上色
+    ax.text(x, y, z, s, backgroundcolor=c)  # 标位子
+ax.set_xlim(X.min(), X.max())
+ax.set_ylim(Y.min(), Y.max())
+ax.set_zlim(Z.min(), Z.max())
+plt.show()
+```
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/404_autoencoder.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/20.md b/pytorch/20.md
new file mode 100644
index 00000000..0bf22ec8
--- /dev/null
+++ b/pytorch/20.md
@@ -0,0 +1,165 @@
+# 4.5 – DQN 强化学习 (Reinforcement Learning)
+
+Torch 是神经网络库, 那么也可以拿来做强化学习, 之前我用另一个强大神经网络库 Tensorflow来制作了这一个 从浅入深强化学习教程, 你同样也可以用 PyTorch 来实现, 这次我们就举 DQN 的例子, 我对比了我的 Tensorflow DQN 的代码, 发现 PyTorch 写的要简单很多. 如果对 DQN 或者强化学习还没有太多概念, 强烈推荐我的这个DQN动画短片（如下）, 让你秒懂DQN. 还有强推这套花了我几个月来制作的[强化学习教程](https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/)!
+
+<video class="wp-video-shortcode" id="video-135-1" width="760" height="427" preload="metadata" controls="controls"><source type="video/mp4" src="https://www.pytorchtutorial.com/wp-content/uploads/2017/08/cartpole-dqn.mp4?_=1">[https://www.pytorchtutorial.com/wp-content/uploads/2017/08/cartpole-dqn.mp4](https://www.pytorchtutorial.com/wp-content/uploads/2017/08/cartpole-dqn.mp4)</video>
+
+## 模块导入和参数设置
+
+这次除了 Torch 自家模块, 我们还要导入 Gym 环境库模块.
+
+```py
+import torch
+import torch.nn as nn
+from torch.autograd import Variable
+import torch.nn.functional as F
+import numpy as np
+import gym
+
+# 超参数
+BATCH_SIZE = 32
+LR = 0.01                   # learning rate
+EPSILON = 0.9               # 最优选择动作百分比
+GAMMA = 0.9                 # 奖励递减参数
+TARGET_REPLACE_ITER = 100   # Q 现实网络的更新频率
+MEMORY_CAPACITY = 2000      # 记忆库大小
+env = gym.make(\'CartPole-v0\')   # 立杆子游戏
+env = env.unwrapped
+N_ACTIONS = env.action_space.n  # 杆子能做的动作
+N_STATES = env.observation_space.shape[0]   # 杆子能获取的环境信息数
+```
+
+## 神经网络
+
+DQN 当中的神经网络模式, 我们将依据这个模式建立两个神经网络, 一个是现实网络 (Target Net), 一个是估计网络 (Eval Net).
+
+```py
+class Net(nn.Module):
+    def __init__(self, ):
+        super(Net, self).__init__()
+        self.fc1 = nn.Linear(N_STATES, 10)
+        self.fc1.weight.data.normal_(0, 0.1)   # initialization
+        self.out = nn.Linear(10, N_ACTIONS)
+        self.out.weight.data.normal_(0, 0.1)   # initialization
+
+    def forward(self, x):
+        x = self.fc1(x)
+        x = F.relu(x)
+        actions_value = self.out(x)
+        return actions_value
+```
+
+## DQN体系
+
+简化的 DQN 体系是这样, 我们有两个 net, 有选动作机制, 有存经历机制, 有学习机制.
+
+```py
+class DQN(object):
+    def __init__(self):
+        # 建立 target net 和 eval net 还有 memory
+
+    def choose_action(self, x):
+        # 根据环境观测值选择动作的机制
+        return action
+
+    def store_transition(self, s, a, r, s_):
+        # 存储记忆
+
+    def learn(self):
+        # target 网络更新
+        # 学习记忆库中的记忆
+```
+
+接下来就是具体的啦, 在 DQN 中每个功能都是怎么做的.
+
+```py
+class DQN(object):
+    def __init__(self):
+        self.eval_net, self.target_net = Net(), Net()
+
+        self.learn_step_counter = 0     # 用于 target 更新计时
+        self.memory_counter = 0         # 记忆库记数
+        self.memory = np.zeros((MEMORY_CAPACITY, N_STATES * 2   2))     # 初始化记忆库
+        self.optimizer = torch.optim.Adam(self.eval_net.parameters(), lr=LR)    # torch 的优化器
+        self.loss_func = nn.MSELoss()   # 误差公式
+
+    def choose_action(self, x):
+        x = Variable(torch.unsqueeze(torch.FloatTensor(x), 0))
+        # 这里只输入一个 sample
+        if np.random.uniform() < EPSILON:   # 选最优动作
+            actions_value = self.eval_net.forward(x)
+            action = torch.max(actions_value, 1)[1].data.numpy()[0, 0]     # return the argmax
+        else:   # 选随机动作
+            action = np.random.randint(0, N_ACTIONS)
+        return action
+
+    def store_transition(self, s, a, r, s_):
+        transition = np.hstack((s, [a, r], s_))
+        # 如果记忆库满了, 就覆盖老数据
+        index = self.memory_counter % MEMORY_CAPACITY
+        self.memory[index, :] = transition
+        self.memory_counter  = 1
+
+    def learn(self):
+        # target net 参数更新
+        if self.learn_step_counter % TARGET_REPLACE_ITER == 0:
+            self.target_net.load_state_dict(self.eval_net.state_dict())
+        self.learn_step_counter  = 1
+
+        # 抽取记忆库中的批数据
+        sample_index = np.random.choice(MEMORY_CAPACITY, BATCH_SIZE)
+        b_memory = self.memory[sample_index, :]
+        b_s = Variable(torch.FloatTensor(b_memory[:, :N_STATES]))
+        b_a = Variable(torch.LongTensor(b_memory[:, N_STATES:N_STATES 1].astype(int)))
+        b_r = Variable(torch.FloatTensor(b_memory[:, N_STATES 1:N_STATES 2]))
+        b_s_ = Variable(torch.FloatTensor(b_memory[:, -N_STATES:]))
+
+        # 针对做过的动作b_a, 来选 q_eval 的值, (q_eval 原本有所有动作的值)
+        q_eval = self.eval_net(b_s).gather(1, b_a)  # shape (batch, 1)
+        q_next = self.target_net(b_s_).detach()     # q_next 不进行反向传递误差, 所以 detach
+        q_target = b_r   GAMMA * q_next.max(1)[0]   # shape (batch, 1)
+        loss = self.loss_func(q_eval, q_target)
+
+        # 计算, 更新 eval net
+        self.optimizer.zero_grad()
+        loss.backward()
+        self.optimizer.step()
+```
+
+## 训练
+
+按照 Qlearning 的形式进行 off-policy 的更新. 我们进行回合制更行, 一个回合完了, 进入下一回合. 一直到他们将杆子立起来很久.
+
+```py
+dqn = DQN() # 定义 DQN 系统
+
+for i_episode in range(400):
+    s = env.reset()
+    while True:
+        env.render()    # 显示实验动画
+        a = dqn.choose_action(s)
+
+        # 选动作, 得到环境反馈
+        s_, r, done, info = env.step(a)
+
+        # 修改 reward, 使 DQN 快速学习
+        x, x_dot, theta, theta_dot = s_
+        r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8
+        r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5
+        r = r1   r2
+
+        # 存记忆
+        dqn.store_transition(s, a, r, s_)
+
+        if dqn.memory_counter > MEMORY_CAPACITY:
+            dqn.learn() # 记忆库满了就进行学习
+
+        if done:    # 如果回合结束, 进入下回合
+            break
+
+        s = s_
+```
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/405_DQN_Reinforcement_learning.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/21.md b/pytorch/21.md
new file mode 100644
index 00000000..c0635944
--- /dev/null
+++ b/pytorch/21.md
@@ -0,0 +1,112 @@
+# 4.6 – GAN (Generative Adversarial Nets 生成对抗网络)
+
+GAN 是一个近几年比较流行的生成网络形式. 对比起传统的生成模型, 他减少了模型限制和生成器限制, 他具有有更好的生成能力. 人们常用假钞鉴定者和假钞制造者来打比喻, 但是我不喜欢这个比喻, 觉得没有真实反映出 GAN 里面的机理.
+
+所以我的一句话介绍 GAN 就是: Generator 是新手画家, Discriminator 是新手鉴赏家, 你是高级鉴赏家. 你将著名画家的品和新手画家的作品都给新手鉴赏家评定, 并告诉新手鉴赏家哪些是新手画家画的, 哪些是著名画家画的, 新手鉴赏家就慢慢学习怎么区分新手画家和著名画家的画, 但是新手画家和新手鉴赏家是好朋友, 新手鉴赏家会告诉新手画家要怎么样画得更像著名画家, 新手画家就能将自己的突然来的灵感 (random noise) 画得更像著名画家. 我用一个短动画形式来诠释了整个过程 (GAN 动画简介) (如下).
+
+下面是本节内容的效果, 绿线的变化是新手画家慢慢学习如何踏上画家之路的过程. 而能被认定为著名的画作在 upper bound  和 lower bound  之间.
+
+![](img/febe7e5dc5d5b9a5004d15c50d3228c1.png)
+
+## 超参数设置
+
+新手画家 (Generator) 在作画的时候需要有一些灵感 (random noise), 我们这些灵感的个数定义为 N_IDEAS . 而一幅画需要有一些规格, 我们将这幅画的画笔数定义一下, N_COMPONENTS  就是一条一元二次曲线(这幅画画)上的点个数. 为了进行批训练, 我们将一整批话的点都规定一下( PAINT_POINTS ).
+
+```py
+import torch
+import torch.nn as nn
+from torch.autograd import Variable
+import numpy as np
+import matplotlib.pyplot as plt
+
+torch.manual_seed(1)    # reproducible
+np.random.seed(1)
+
+# 超参数
+BATCH_SIZE = 64
+LR_G = 0.0001           # learning rate for generator
+LR_D = 0.0001           # learning rate for discriminator
+N_IDEAS = 5             # think of this as number of ideas for generating an art work (Generator)
+ART_COMPONENTS = 15     # it could be total point G can draw in the canvas
+PAINT_POINTS = np.vstack([np.linspace(-1, 1, ART_COMPONENTS) for _ in range(BATCH_SIZE)])
+```
+
+## 著名画家的画
+
+我们需要有很多画是来自著名画家的(real data), 将这些著名画家的画, 和新手画家的画都传给新手鉴赏家, 让鉴赏家来区分哪些是著名画家, 哪些是新手画家的画. 如何区分我们在后面呈现. 这里我们生成一些著名画家的画 (batch 条不同的一元二次方程曲线).
+
+```py
+def artist_works():     # painting from the famous artist (real target)
+    a = np.random.uniform(1, 2, size=BATCH_SIZE)[:, np.newaxis]
+    paintings = a * np.power(PAINT_POINTS, 2)   (a-1)
+    paintings = torch.from_numpy(paintings).float()
+    return Variable(paintings)
+```
+
+下面就是会产生曲线的一个上限和下限.
+
+![](img/a577eb2dc81a64cfc4f6d04ff9a25873.png)
+
+## 神经网络
+
+这里会创建两个神经网络, 分别是 Generator (新手画家), Discriminator(新手鉴赏家). G 会拿着自己的一些灵感当做输入, 输出一元二次曲线上的点 (G 的画).
+
+D 会接收一幅画作 (一元二次曲线), 输出这幅画作到底是不是著名画家的画(是著名画家的画的概率).
+
+```py
+G = nn.Sequential(                      # Generator
+    nn.Linear(N_IDEAS, 128),            # random ideas (could from normal distribution)
+    nn.ReLU(),
+    nn.Linear(128, ART_COMPONENTS),     # making a painting from these random ideas
+)
+
+D = nn.Sequential(                      # Discriminator
+    nn.Linear(ART_COMPONENTS, 128),     # receive art work either from the famous artist or a newbie like G
+    nn.ReLU(),
+    nn.Linear(128, 1),
+    nn.Sigmoid(),                       # tell the probability that the art work is made by artist
+)
+```
+
+## 训练
+
+接着我们来同时训练 D 和 G. 训练之前, 我们来看看G作画的原理. G 首先会有些灵感, G_ideas 就会拿到这些随机灵感 (可以是正态分布的随机数), 然后 G 会根据这些灵感画画. 接着我们拿着著名画家的画和 G 的画, 让 D 来判定这两批画作是著名画家画的概率.
+
+```py
+for step in range(10000):
+    artist_paintings = artist_works()           # real painting from artist
+    G_ideas = Variable(torch.randn(BATCH_SIZE, N_IDEAS))    # random ideas
+    G_paintings = G(G_ideas())                  # fake painting from G (random ideas)
+
+    prob_artist0 = D(artist_paintings)          # D try to increase this prob
+    prob_artist1 = D(G_paintings)               # D try to reduce this prob
+```
+
+然后计算有多少来之画家的画猜对了, 有多少来自 G 的画猜对了, 我们想最大化这些猜对的次数. 这也就是 log(D(x))  log(1-D(G(z))  在[论文](https://arxiv.org/abs/1406.2661)中的形式. 而因为 torch 中提升参数的形式是最小化误差, 那我们把最大化 score 转换成最小化 loss, 在两个 score 的合的地方加一个符号就好. 而 G 的提升就是要减小 D 猜测 G 生成数据的正确率, 也就是减小 D_score1.
+
+```py
+    D_loss = - torch.mean(torch.log(prob_artist0)   torch.log(1\. - prob_artist1))
+    G_loss = torch.mean(torch.log(1\. - prob_artist1))
+```
+
+最后我们在根据 loss  提升神经网络就好了.
+
+```py
+    opt_D.zero_grad()
+    D_loss.backward(retain_variables=True)      # retain_variables 这个参数是为了再次使用计算图纸
+    opt_D.step()
+
+    opt_G.zero_grad()
+    G_loss.backward()
+    opt_G.step()
+```
+
+上面的全部代码内容在我的 [github](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/406_GAN.py).
+
+## 可视化训练过程
+
+可视化的代码很简单, 在这里就不会意义叙说了, 大家直接看[代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/406_GAN.py) 吧. 在本节的最上面就是这次的动图效果, 最后达到收敛时, 下过如下, G 能成功的根据自己的”灵感”, 产生出一条很像 artist画出的曲线, 而 D 再也没有能力猜出这到底是 G 的画作还是 artist 的画作, 他只能一半时间猜是 G 的, 一半时间猜是 artist的.
+
+![](img/7eca2f8318f254b17ca0bc215ec4f5a0.png)
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/22.md b/pytorch/22.md
new file mode 100644
index 00000000..2c0e24be
--- /dev/null
+++ b/pytorch/22.md
@@ -0,0 +1 @@
+# 高阶内容
\ No newline at end of file
diff --git a/pytorch/23.md b/pytorch/23.md
new file mode 100644
index 00000000..270f2271
--- /dev/null
+++ b/pytorch/23.md
@@ -0,0 +1,61 @@
+# 5.1 – 为什么 Torch 是动态的
+
+听说过 Torch 的人都听说了 torch 是动态的, 那他的动态到底是什么呢? 我们用一个 RNN 的例子来展示一下动态计算到底长什么样.
+
+## 动态?静态?
+
+对比静态动态, 我们就得知道谁是静态的. 在流行的神经网络模块中, Tensorflow 就是最典型的静态计算模块. 下图是一种我在强化学习教程中的 Tensorflow 计算图. 也就是说, 大部分时候, 用 Tensorflow 是先搭建好这样一个计算系统, 一旦搭建好了, 就不能改动了 (也有例外, 比如 dynamic_rnn() , 但是总体来说他还是运用了一个静态思维), 所有的计算都会在这种图中流动, 当然很多情况, 这样就够了, 我们不需要改动什么结构. 不动结构当然可以提高效率. 但是一旦计算流程不是静态的, 计算图要变动. 最典型的例子就是 RNN, 有时候 RNN 的 time step 不会一样, 或者在 training 和 testing 的时候, batch_size  和 time_step  也不一样, 这时, Tensorflow 就头疼了, Tensorflow 的人也头疼了. 哈哈, 如果用一个动态计算图的 Torch, 我们就好理解多了, 写起来也简单多了.
+
+![](img/1b292936f4a0c3be1d04e43a994fd48c.png)
+
+## 动态RNN
+
+我们拿 [这一节内容的 RNN](https://www.pytorchtutorial.com/4-3-rnn-for-regression/) 来解释动态计算图. 那节内容的[代码在这](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/11_RNN_regressor.py).
+
+```py
+..
+
+######################## 前面代码都一样, 下面开始不同 #########################
+
+################ 那节内容的代码结构 (静态 time step) ##########
+for step in range(60):
+    start, end = step * np.pi, (step 1)*np.pi   # time steps 都是一样长的
+    # use sin predicts cos
+    steps = np.linspace(start, end, 10, dtype=np.float32)
+    ...
+
+################ 这节内容修改代码 (动态 time step) #########
+step = 0
+for i in range(60):
+    dynamic_steps = np.random.randint(1, 4)  # 随机 time step 长度
+    start, end = step * np.pi, (step   dynamic_steps) * np.pi  # different time steps length
+    step  = dynamic_steps
+
+    # use sin predicts cos
+    steps = np.linspace(start, end, 10 * dynamic_steps, dtype=np.float32)
+
+#######################  这下面又一样了 ###########################
+    print(len(steps))   # print how many time step feed to RNN
+
+    x_np = np.sin(steps)    # float32 for converting torch FloatTensor
+    y_np = np.cos(steps)
+    ...
+
+"""
+输出的动态time step 长
+30
+30
+10
+30
+20
+30
+"""
+```
+
+有人会说了, Tensorflow 也有类似的功能呀, 比如说 dynamic_rnn(). 对的, 没错, 不过大家是否想过, 如果我在 Tensorflow 当中定义一个 input 的 placeholder, 这个 placeholder 将会有 (batch, time step, input size) 这几个维度, batch 好说, 随便什么大小都可以, 可是 time step 可是固定的呀, 这可不好改, 或者说改起来很麻烦. 那 PyTorch 中又可以变 batch 又可以变 time step, 这不是很方便吗. 这就体现了动态神经网络的好处.
+
+经过这样的折腾, torch 还能 handle 住, 已经很不容易啦. 所以当你想要处理这些动态计算图的时候, Torch 还是你首选的神经网络模块.
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/501_why_torch_dynamic_graph.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/24.md b/pytorch/24.md
new file mode 100644
index 00000000..9cad93c8
--- /dev/null
+++ b/pytorch/24.md
@@ -0,0 +1,66 @@
+# 5.2 – GPU 加速运算
+
+在 GPU 训练可以大幅提升运算速度. 而且 Torch 也有一套很好的 GPU 运算体系. 但是要强调的是:
+
+*   你的电脑里有合适的 GPU 显卡(NVIDIA), 且支持 CUDA 模块. [请在NVIDIA官网查询](https://developer.nvidia.com/cuda-gpus)
+*   必须安装 GPU 版的 Torch, [点击这里查看如何安装](https://www.pytorchtutorial.com/1-2-install-pytorch/)
+
+## 用 GPU 训练 CNN
+
+这份 GPU 的代码是依据[之前这份CNN](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/401_CNN.py)的代码修改的. 大概修改的地方包括将数据的形式变成 GPU 能读的形式, 然后将 CNN 也变成 GPU 能读的形式. 做法就是在后面加上 .cuda() , 很简单.
+
+```py
+...
+
+test_data = torchvision.datasets.MNIST(root=\'./mnist/\', train=False)
+
+# !!!!!!!! 修改 test data 形式 !!!!!!!!! #
+test_x = Variable(torch.unsqueeze(test_data.test_data, dim=1)).type(torch.FloatTensor)[:2000].cuda()/255\.   # Tensor on GPU
+test_y = test_data.test_labels[:2000].cuda()
+```
+
+再来把我们的 CNN 参数也变成 GPU 兼容形式.
+
+```py
+class CNN(nn.Module):
+    ...
+
+cnn = CNN()
+
+# !!!!!!!! 转换 cnn 去 CUDA !!!!!!!!! #
+cnn.cuda()      # Moves all model parameters and buffers to the GPU.
+```
+
+然后就是在 train 的时候, 将每次的training data 变成 GPU 形式. .cuda()
+
+```py
+for epoch ..:
+    for step, ...:
+        # !!!!!!!! 这里有修改 !!!!!!!!! #
+        b_x = Variable(x).cuda()    # Tensor on GPU
+        b_y = Variable(y).cuda()    # Tensor on GPU
+
+        ...
+
+        if step % 50 == 0:
+            test_output = cnn(test_x)
+
+            # !!!!!!!! 这里有修改  !!!!!!!!! #
+            pred_y = torch.max(test_output, 1)[1].cuda().data.squeeze()  # 将操作放去 GPU
+
+            accuracy = torch.sum(pred_y == test_y) / test_y.size(0)
+            ...
+
+test_output = cnn(test_x[:10])
+
+# !!!!!!!! 这里有修改 !!!!!!!!! #
+pred_y = torch.max(test_output, 1)[1].cuda().data.squeeze()  # 将操作放去 GPU
+...
+print(test_y[:10], \'real number\')
+```
+
+大功告成~
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/502_GPU.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/25.md b/pytorch/25.md
new file mode 100644
index 00000000..acd16d5c
--- /dev/null
+++ b/pytorch/25.md
@@ -0,0 +1,121 @@
+# 5.3 – Dropout 防止过拟合
+
+过拟合让人头疼, 明明训练时误差已经降得足够低, 可是测试的时候误差突然飙升. 这很有可能就是出现了过拟合现象. 强烈推荐通过（下面）这个动画的形式短时间了解什么是过拟合, 怎么解决过拟合. 下面动图就显示了我们成功缓解了过拟合现象.
+
+![](img/a545e4a49909bd7a80e042fd6d8267cb.png)
+
+## 做点数据
+
+自己做一些伪数据, 用来模拟真实情况. 数据少, 才能凸显过拟合问题, 所以我们就做10个数据点.
+
+![](img/761c210ceb0fdd69c7e0f8bd85e39698.png)
+
+```py
+import torch
+from torch.autograd import Variable
+import matplotlib.pyplot as plt
+
+torch.manual_seed(1)    # reproducible
+
+N_SAMPLES = 20
+N_HIDDEN = 300
+
+# training data
+x = torch.unsqueeze(torch.linspace(-1, 1, N_SAMPLES), 1)
+y = x   0.3*torch.normal(torch.zeros(N_SAMPLES, 1), torch.ones(N_SAMPLES, 1))
+x, y = Variable(x, requires_grad=False), Variable(y, requires_grad=False)
+
+# test data
+test_x = torch.unsqueeze(torch.linspace(-1, 1, N_SAMPLES), 1)
+test_y = test_x   0.3*torch.normal(torch.zeros(N_SAMPLES, 1), torch.ones(N_SAMPLES, 1))
+test_x, test_y = Variable(test_x, requires_grad=False), Variable(test_y, requires_grad=False)
+
+# show data
+plt.scatter(x.data.numpy(), y.data.numpy(), c=\'magenta\', s=50, alpha=0.5, label=\'train\')
+plt.scatter(test_x.data.numpy(), test_y.data.numpy(), c=\'cyan\', s=50, alpha=0.5, label=\'test\')
+plt.legend(loc=\'upper left\')
+plt.ylim((-2.5, 2.5))
+plt.show()
+```
+
+## 搭建神经网络
+
+我们在这里搭建两个神经网络, 一个没有 dropout, 一个有 dropout. 没有 dropout 的容易出现 过拟合, 那我们就命名为 net_overfitting, 另一个就是 net_dropped.  torch.nn.Dropout(0.5)  这里的 0.5 指的是随机有 50% 的神经元会被关闭/丢弃.
+
+```py
+net_overfitting = torch.nn.Sequential(
+    torch.nn.Linear(1, N_HIDDEN),
+    torch.nn.ReLU(),
+    torch.nn.Linear(N_HIDDEN, N_HIDDEN),
+    torch.nn.ReLU(),
+    torch.nn.Linear(N_HIDDEN, 1),
+)
+
+net_dropped = torch.nn.Sequential(
+    torch.nn.Linear(1, N_HIDDEN),
+    torch.nn.Dropout(0.5),  # drop 50% of the neuron
+    torch.nn.ReLU(),
+    torch.nn.Linear(N_HIDDEN, N_HIDDEN),
+    torch.nn.Dropout(0.5),  # drop 50% of the neuron
+    torch.nn.ReLU(),
+    torch.nn.Linear(N_HIDDEN, 1),
+)
+```
+
+## 训练
+
+训练的时候, 这两个神经网络分开训练. 训练的环境都一样.
+
+```py
+optimizer_ofit = torch.optim.Adam(net_overfitting.parameters(), lr=0.01)
+optimizer_drop = torch.optim.Adam(net_dropped.parameters(), lr=0.01)
+loss_func = torch.nn.MSELoss()
+
+for t in range(500):
+    pred_ofit = net_overfitting(x)
+    pred_drop = net_dropped(x)
+
+    loss_ofit = loss_func(pred_ofit, y)
+    loss_drop = loss_func(pred_drop, y)
+
+    optimizer_ofit.zero_grad()
+    optimizer_drop.zero_grad()
+    loss_ofit.backward()
+    loss_drop.backward()
+    optimizer_ofit.step()
+    optimizer_drop.step()
+```
+
+## 对比测试结果
+
+在这个 for  循环里, 我们加上画测试图的部分. 注意在测试时, 要将网络改成 eval()  形式, 特别是 net_dropped , net_overfitting  改不改其实无所谓. 画好图再改回 train()  模式.
+
+![](img/a545e4a49909bd7a80e042fd6d8267cb.png)
+
+```py
+...
+
+    optimizer_ofit.step()
+    optimizer_drop.step()
+
+    # 接着上面来
+    if t % 10 == 0:     # 每 10 步画一次图
+        # 将神经网络转换成测试形式, 画好图之后改回 训练形式
+        net_overfitting.eval()
+        net_dropped.eval()  # 因为 drop 网络在 train 的时候和 test 的时候参数不一样.
+
+        ...
+        test_pred_ofit = net_overfitting(test_x)
+        test_pred_drop = net_dropped(test_x)
+        ...
+
+        # 将两个网络改回 训练形式
+        net_overfitting.train()
+        net_dropped.train()
+```
+
+![](img/c2914d88b6f17b84982e162cf6930a88.png)
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/503_dropout.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/26.md b/pytorch/26.md
new file mode 100644
index 00000000..8bfcb766
--- /dev/null
+++ b/pytorch/26.md
@@ -0,0 +1,187 @@
+# 5.4 – Batch Normalization 批标准化
+
+批标准化通俗来说就是对每一层神经网络进行标准化 (normalize) 处理, 我们知道对输入数据进行标准化能让机器学习有效率地学习. 如果把每一层后看成这种接受输入数据的模式, 那我们何不 “批标准化” 所有的层呢? 具体而且清楚的解释请看到 我（原作者）制作的 什么批标准化 动画简介(推荐)（如下）.
+
+那我们就看看下面的两个动图, 这就是在每层神经网络有无 batch normalization 的区别啦.
+
+![](img/6730e1145d2a40e8ced1fda4d453d9c6.png)
+
+![](img/cb2138c3f800c7ca4b5ae38076d09429.png)
+
+## 做点数据
+
+自己做一些伪数据, 用来模拟真实情况. 而且 Batch Normalization (之后都简称BN) 还能有效的控制坏的参数初始化 (initialization), 比如说 ReLU  这种激励函数最怕所有的值都落在附属区间, 那我们就将所有的参数都水平移动一个 -0.2 ( bias_initialization  =  -0.2 , 来看看 BN 的实力.
+
+![](img/fedaa24e2fcad876c77a2038c2d8d14d.png)
+
+```py
+import torch
+from torch.autograd import Variable
+from torch import nn
+from torch.nn import init
+import torch.utils.data as Data
+import torch.nn.functional as F
+import matplotlib.pyplot as plt
+import numpy as np
+
+# 超参数
+N_SAMPLES = 2000
+BATCH_SIZE = 64
+EPOCH = 12
+LR = 0.03
+N_HIDDEN = 8
+ACTIVATION = F.tanh     # 你可以换 relu 试试
+B_INIT = -0.2   # 模拟不好的 参数初始化
+
+# training data
+x = np.linspace(-7, 10, N_SAMPLES)[:, np.newaxis]
+noise = np.random.normal(0, 2, x.shape)
+y = np.square(x) - 5   noise
+
+# test data
+test_x = np.linspace(-7, 10, 200)[:, np.newaxis]
+noise = np.random.normal(0, 2, test_x.shape)
+test_y = np.square(test_x) - 5   noise
+
+train_x, train_y = torch.from_numpy(x).float(), torch.from_numpy(y).float()
+test_x = Variable(torch.from_numpy(test_x).float(), volatile=True)  # volatile=True 不进行梯度计算
+test_y = Variable(torch.from_numpy(test_y).float(), volatile=True)
+
+train_dataset = Data.TensorDataset(data_tensor=train_x, target_tensor=train_y)
+train_loader = Data.DataLoader(dataset=train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=2,)
+
+# show data
+plt.scatter(train_x.numpy(), train_y.numpy(), c=\'#FF9359\', s=50, alpha=0.2, label=\'train\')
+plt.legend(loc=\'upper left\')
+plt.show()
+```
+
+## 搭建神经网络
+
+这里就教你如何构建带有 BN 的神经网络的. BN 其实可以看做是一个 layer ( BN layer ). 我们就像平时加层一样加 BN layer  就好了. 注意, 我还对输入数据进行了一个 BN 处理, 因为如果你把输入数据看出是 从前面一层来的输出数据, 我们同样也能对她进行 BN.
+
+```py
+class Net(nn.Module):
+    def __init__(self, batch_normalization=False):
+        super(Net, self).__init__()
+        self.do_bn = batch_normalization
+        self.fcs = []   # 太多层了, 我们用 for loop 建立
+        self.bns = []
+        self.bn_input = nn.BatchNorm1d(1, momentum=0.5)   # 给 input 的 BN
+
+        for i in range(N_HIDDEN):               # 建层
+            input_size = 1 if i == 0 else 10
+            fc = nn.Linear(input_size, 10)
+            setattr(self, \'fc%i\' % i, fc)       # 注意! pytorch 一定要你将层信息变成 class 的属性! 我在这里花了2天时间发现了这个 bug
+            self._set_init(fc)                  # 参数初始化
+            self.fcs.append(fc)
+            if self.do_bn:
+                bn = nn.BatchNorm1d(10, momentum=0.5)
+                setattr(self, \'bn%i\' % i, bn)   # 注意! pytorch 一定要你将层信息变成 class 的属性! 我在这里花了2天时间发现了这个 bug
+                self.bns.append(bn)
+
+        self.predict = nn.Linear(10, 1)         # output layer
+        self._set_init(self.predict)            # 参数初始化
+
+    def _set_init(self, layer):     # 参数初始化
+        init.normal(layer.weight, mean=0., std=.1)
+        init.constant(layer.bias, B_INIT)
+
+    def forward(self, x):
+        pre_activation = [x]
+        if self.do_bn: x = self.bn_input(x)    # 判断是否要加 BN
+        layer_input = [x]
+        for i in range(N_HIDDEN):
+            x = self.fcs[i](x)
+            pre_activation.append(x)    # 为之后出图
+            if self.do_bn: x = self.bns[i](x)  # 判断是否要加 BN
+            x = ACTIVATION(x)
+            layer_input.append(x)       # 为之后出图
+        out = self.predict(x)
+        return out, layer_input, pre_activation
+
+# 建立两个 net, 一个有 BN, 一个没有
+nets = [Net(batch_normalization=False), Net(batch_normalization=True)]
+```
+
+## 训练
+
+训练的时候, 这两个神经网络分开训练. 训练的环境都一样.
+
+```py
+opts = [torch.optim.Adam(net.parameters(), lr=LR) for net in nets]
+
+loss_func = torch.nn.MSELoss()
+
+losses = [[], []]  # 每个网络一个 list 来记录误差
+for epoch in range(EPOCH):
+    print(\'Epoch: \', epoch)
+    for step, (b_x, b_y) in enumerate(train_loader):
+        b_x, b_y = Variable(b_x), Variable(b_y)
+        for net, opt in zip(nets, opts):     # 训练两个网络
+            pred, _, _ = net(b_x)
+            loss = loss_func(pred, b_y)
+            opt.zero_grad()
+            loss.backward()
+            opt.step()    # 这也会训练 BN 里面的参数
+```
+
+## 画图
+
+这个教程有几张图要画, 首先我们画训练时的动态图. 我单独定义了一个画动图的功能 plot_histogram() , 因为不是重点, 所以代码的具体细节请看我的 [github](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/504_batch_normalization.py),
+
+![](img/cb2138c3f800c7ca4b5ae38076d09429.png)
+
+```py
+f, axs = plt.subplots(4, N_HIDDEN 1, figsize=(10, 5))
+
+def plot_histogram(l_in, l_in_bn, pre_ac, pre_ac_bn):
+    ...
+
+for epoch in range(EPOCH):
+    layer_inputs, pre_acts = [], []
+    for net, l in zip(nets, losses):
+        # 一定要把 net 的设置成 eval 模式, eval下的 BN 参数会被固定
+        net.eval()
+        pred, layer_input, pre_act = net(test_x)
+        l.append(loss_func(pred, test_y).data[0])
+        layer_inputs.append(layer_input)
+        pre_acts.append(pre_act)
+        # 收集好信息后将 net 设置成 train 模式, 继续训练
+        net.train()
+    plot_histogram(*layer_inputs, *pre_acts)     # plot histogram
+
+    # 后面接着之前 for loop 中的代码来
+    for step, (b_x, b_y) in enumerate(train_loader):
+    ...
+```
+
+后面还有两张图, 一张是预测曲线, 一张是误差变化曲线, 具体代码不在这里呈现, 想知道如何画图的朋友, 请参考我的 [github](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/504_batch_normalization.py)
+
+## 对比结果
+
+首先来看看这次对比的两个激励函数是长什么样:
+
+![](img/7345448d48d8d6c6c1b03fda91334e3e.png)
+
+然后我们来对比使用不同激励函数的结果.
+
+![](img/4d69c0a49be83a66f774caf12e64c3a7.png)
+
+![](img/25959870b2b1e7d6fd61229cb20bed29.png)
+
+![](img/03f4667f9aae4918338a56b74865a389.png)
+
+上面是使用 relu  激励函数的结果, 我们可以看到, 没有使用 BN 的误差要高, 线条不能拟合数据, 原因是我们有一个 “Bad initialization”, 初始 bias  =  -0.2 , 这一招, 让 relu  无法捕捉到在负数区间的输入值. 而有了 BN, 这就不成问题了.
+
+![](img/bbd3ae66e0235fac8745c37306e74a52.png)
+
+![](img/90e1ab65f286c889d94c9f6c57d596c9.png)
+
+![](img/c42f3cec435a83431d5a1737e99b8b8c.png)
+
+上面结果是使用 tanh  作为激励函数的结果, 可以看出, 不好的初始化, 让输入数据在激活前分散得非常离散, 而有了 BN, 数据都被收拢了. 收拢的数据再放入激励函数就能很好地利用激励函数的非线性. 而且可以看出没有 BN 的数据让激活后的结果都分布在 tanh  的两端, 而这两端的梯度又非常的小, 是的后面的误差都不能往前传, 导致神经网络死掉了.
+
+所以这也就是在我 [github 代码](https://github.com/MorvanZhou/PyTorch-Tutorial/blob/master/tutorial-contents/504_batch_normalization.py) 中的每一步的意义啦.
+
+文章来源：[莫烦](https://morvanzhou.github.io/)
\ No newline at end of file
diff --git a/pytorch/README.md b/pytorch/README.md
new file mode 100644
index 00000000..b5ce3919
--- /dev/null
+++ b/pytorch/README.md
@@ -0,0 +1 @@
+# 莫烦 PyTorch 系列教程
diff --git a/pytorch/SUMMARY.md b/pytorch/SUMMARY.md
new file mode 100644
index 00000000..2ee25f55
--- /dev/null
+++ b/pytorch/SUMMARY.md
@@ -0,0 +1,27 @@
++   [莫烦 PyTorch 系列教程](README.md)
++   [PyTorch 简介](01.md)
+    +   [1.1 – Why PyTorch?](02.md)
+    +   [1.2 – 安装 PyTorch](03.md)
++   [PyTorch 神经网络基础](04.md)
+    +   [2.1 – Torch vs Numpy](05.md)
+    +   [2.2 – 变量 (Variable)](06.md)
+    +   [2.3 – 激励函数 (Activation)](07.md)
++   [建造第一个神经网络](08.md)
+    +   [3.1 – 关系拟合 (回归 Regression)](09.md)
+    +   [3.2 – 区分类型 (分类 Classification)](10.md)
+    +   [3.3 – 快速搭建回归神经网络](11.md)
+    +   [3.4 – 保存和恢复模型](12.md)
+    +   [3.5 – 数据读取 (Data Loader)](13.md)
+    +   [3.6 – 优化器 (Optimizer)](14.md)
++   [高级神经网络结构](15.md)
+    +   [4.1 – CNN 卷积神经网络](16.md)
+    +   [4.2 – RNN 循环神经网络 (分类 Classification)](17.md)
+    +   [4.3 – RNN 循环神经网络 (回归 Regression)](18.md)
+    +   [4.4 – AutoEncoder (自编码/非监督学习)](19.md)
+    +   [4.5 – DQN 强化学习 (Reinforcement Learning)](20.md)
+    +   [4.6 – GAN (Generative Adversarial Nets 生成对抗网络)](21.md)
++   [高阶内容](22.md)
+    +   [5.1 – 为什么 Torch 是动态的](23.md)
+    +   [5.2 – GPU 加速运算](24.md)
+    +   [5.3 – Dropout 防止过拟合](25.md)
+    +   [5.4 – Batch Normalization 批标准化](26.md)
\ No newline at end of file
diff --git a/pytorch/img/03f4667f9aae4918338a56b74865a389.png b/pytorch/img/03f4667f9aae4918338a56b74865a389.png
new file mode 100644
index 00000000..d729375e
Binary files /dev/null and b/pytorch/img/03f4667f9aae4918338a56b74865a389.png differ
diff --git a/pytorch/img/04a6040ad4f06a69a92f440ea17dde44.png b/pytorch/img/04a6040ad4f06a69a92f440ea17dde44.png
new file mode 100644
index 00000000..5792acb4
Binary files /dev/null and b/pytorch/img/04a6040ad4f06a69a92f440ea17dde44.png differ
diff --git a/pytorch/img/13e0473ef73a9de2569a81c62e30d054.png b/pytorch/img/13e0473ef73a9de2569a81c62e30d054.png
new file mode 100644
index 00000000..35bab638
Binary files /dev/null and b/pytorch/img/13e0473ef73a9de2569a81c62e30d054.png differ
diff --git a/pytorch/img/1b292936f4a0c3be1d04e43a994fd48c.png b/pytorch/img/1b292936f4a0c3be1d04e43a994fd48c.png
new file mode 100644
index 00000000..afc1e3a4
Binary files /dev/null and b/pytorch/img/1b292936f4a0c3be1d04e43a994fd48c.png differ
diff --git a/pytorch/img/1f0b990d5a8d78692d3730d855fe44ea.png b/pytorch/img/1f0b990d5a8d78692d3730d855fe44ea.png
new file mode 100644
index 00000000..9d305fb9
Binary files /dev/null and b/pytorch/img/1f0b990d5a8d78692d3730d855fe44ea.png differ
diff --git a/pytorch/img/20e2ebdf112e4aa3202e951e072c2dc2.png b/pytorch/img/20e2ebdf112e4aa3202e951e072c2dc2.png
new file mode 100644
index 00000000..af1af4c0
Binary files /dev/null and b/pytorch/img/20e2ebdf112e4aa3202e951e072c2dc2.png differ
diff --git a/pytorch/img/22309cd02ee52b3a65e1f0022e8b964e.png b/pytorch/img/22309cd02ee52b3a65e1f0022e8b964e.png
new file mode 100644
index 00000000..ccbb2119
Binary files /dev/null and b/pytorch/img/22309cd02ee52b3a65e1f0022e8b964e.png differ
diff --git a/pytorch/img/25959870b2b1e7d6fd61229cb20bed29.png b/pytorch/img/25959870b2b1e7d6fd61229cb20bed29.png
new file mode 100644
index 00000000..657eb7ae
Binary files /dev/null and b/pytorch/img/25959870b2b1e7d6fd61229cb20bed29.png differ
diff --git a/pytorch/img/25ed82d9ef8a8b1c9c60445c7c08c732.png b/pytorch/img/25ed82d9ef8a8b1c9c60445c7c08c732.png
new file mode 100644
index 00000000..d92ae449
Binary files /dev/null and b/pytorch/img/25ed82d9ef8a8b1c9c60445c7c08c732.png differ
diff --git a/pytorch/img/2fc34594dcb247d4a3414467eed4a109.png b/pytorch/img/2fc34594dcb247d4a3414467eed4a109.png
new file mode 100644
index 00000000..5b51f0b6
Binary files /dev/null and b/pytorch/img/2fc34594dcb247d4a3414467eed4a109.png differ
diff --git a/pytorch/img/388ca39bf710c8f053f533ad10872cd7.png b/pytorch/img/388ca39bf710c8f053f533ad10872cd7.png
new file mode 100644
index 00000000..363f334b
Binary files /dev/null and b/pytorch/img/388ca39bf710c8f053f533ad10872cd7.png differ
diff --git a/pytorch/img/4d69c0a49be83a66f774caf12e64c3a7.png b/pytorch/img/4d69c0a49be83a66f774caf12e64c3a7.png
new file mode 100644
index 00000000..1e7de9aa
Binary files /dev/null and b/pytorch/img/4d69c0a49be83a66f774caf12e64c3a7.png differ
diff --git a/pytorch/img/5a415b795ebbb116db6d4a2394d93b27.png b/pytorch/img/5a415b795ebbb116db6d4a2394d93b27.png
new file mode 100644
index 00000000..d405db74
Binary files /dev/null and b/pytorch/img/5a415b795ebbb116db6d4a2394d93b27.png differ
diff --git a/pytorch/img/6730e1145d2a40e8ced1fda4d453d9c6.png b/pytorch/img/6730e1145d2a40e8ced1fda4d453d9c6.png
new file mode 100644
index 00000000..43b03488
Binary files /dev/null and b/pytorch/img/6730e1145d2a40e8ced1fda4d453d9c6.png differ
diff --git a/pytorch/img/68f39521fc6853acdf26440e7d5a2861.png b/pytorch/img/68f39521fc6853acdf26440e7d5a2861.png
new file mode 100644
index 00000000..1c4e6a0f
Binary files /dev/null and b/pytorch/img/68f39521fc6853acdf26440e7d5a2861.png differ
diff --git a/pytorch/img/7345448d48d8d6c6c1b03fda91334e3e.png b/pytorch/img/7345448d48d8d6c6c1b03fda91334e3e.png
new file mode 100644
index 00000000..ce2ce47e
Binary files /dev/null and b/pytorch/img/7345448d48d8d6c6c1b03fda91334e3e.png differ
diff --git a/pytorch/img/761c210ceb0fdd69c7e0f8bd85e39698.png b/pytorch/img/761c210ceb0fdd69c7e0f8bd85e39698.png
new file mode 100644
index 00000000..14ccd41b
Binary files /dev/null and b/pytorch/img/761c210ceb0fdd69c7e0f8bd85e39698.png differ
diff --git a/pytorch/img/7a8716c377832b032ee24276b7ddcc31.png b/pytorch/img/7a8716c377832b032ee24276b7ddcc31.png
new file mode 100644
index 00000000..925b6190
Binary files /dev/null and b/pytorch/img/7a8716c377832b032ee24276b7ddcc31.png differ
diff --git a/pytorch/img/7eca2f8318f254b17ca0bc215ec4f5a0.png b/pytorch/img/7eca2f8318f254b17ca0bc215ec4f5a0.png
new file mode 100644
index 00000000..ed65e285
Binary files /dev/null and b/pytorch/img/7eca2f8318f254b17ca0bc215ec4f5a0.png differ
diff --git a/pytorch/img/90e1ab65f286c889d94c9f6c57d596c9.png b/pytorch/img/90e1ab65f286c889d94c9f6c57d596c9.png
new file mode 100644
index 00000000..6d237097
Binary files /dev/null and b/pytorch/img/90e1ab65f286c889d94c9f6c57d596c9.png differ
diff --git a/pytorch/img/94268b7d9687d039d872da203453c97b.png b/pytorch/img/94268b7d9687d039d872da203453c97b.png
new file mode 100644
index 00000000..d405db74
Binary files /dev/null and b/pytorch/img/94268b7d9687d039d872da203453c97b.png differ
diff --git a/pytorch/img/99c72d57612c137b62599837526f0e0e.png b/pytorch/img/99c72d57612c137b62599837526f0e0e.png
new file mode 100644
index 00000000..d92ae449
Binary files /dev/null and b/pytorch/img/99c72d57612c137b62599837526f0e0e.png differ
diff --git a/pytorch/img/9e1df524980c8f42ab4353070c2a1b74.png b/pytorch/img/9e1df524980c8f42ab4353070c2a1b74.png
new file mode 100644
index 00000000..32b9b261
Binary files /dev/null and b/pytorch/img/9e1df524980c8f42ab4353070c2a1b74.png differ
diff --git a/pytorch/img/a545e4a49909bd7a80e042fd6d8267cb.png b/pytorch/img/a545e4a49909bd7a80e042fd6d8267cb.png
new file mode 100644
index 00000000..c75ef432
Binary files /dev/null and b/pytorch/img/a545e4a49909bd7a80e042fd6d8267cb.png differ
diff --git a/pytorch/img/a577eb2dc81a64cfc4f6d04ff9a25873.png b/pytorch/img/a577eb2dc81a64cfc4f6d04ff9a25873.png
new file mode 100644
index 00000000..3a34918c
Binary files /dev/null and b/pytorch/img/a577eb2dc81a64cfc4f6d04ff9a25873.png differ
diff --git a/pytorch/img/b708f231f544bd7bcefa1d55c82653dd.png b/pytorch/img/b708f231f544bd7bcefa1d55c82653dd.png
new file mode 100644
index 00000000..661d17af
Binary files /dev/null and b/pytorch/img/b708f231f544bd7bcefa1d55c82653dd.png differ
diff --git a/pytorch/img/bbd3ae66e0235fac8745c37306e74a52.png b/pytorch/img/bbd3ae66e0235fac8745c37306e74a52.png
new file mode 100644
index 00000000..cf4e02d0
Binary files /dev/null and b/pytorch/img/bbd3ae66e0235fac8745c37306e74a52.png differ
diff --git a/pytorch/img/bce7313d5ac6f2600b62a4962a6daf3a.png b/pytorch/img/bce7313d5ac6f2600b62a4962a6daf3a.png
new file mode 100644
index 00000000..a9f9d1a1
Binary files /dev/null and b/pytorch/img/bce7313d5ac6f2600b62a4962a6daf3a.png differ
diff --git a/pytorch/img/c2914d88b6f17b84982e162cf6930a88.png b/pytorch/img/c2914d88b6f17b84982e162cf6930a88.png
new file mode 100644
index 00000000..a5f3e171
Binary files /dev/null and b/pytorch/img/c2914d88b6f17b84982e162cf6930a88.png differ
diff --git a/pytorch/img/c429fb827df769a542339e200e2ea20c.png b/pytorch/img/c429fb827df769a542339e200e2ea20c.png
new file mode 100644
index 00000000..b9f33818
Binary files /dev/null and b/pytorch/img/c429fb827df769a542339e200e2ea20c.png differ
diff --git a/pytorch/img/c42f3cec435a83431d5a1737e99b8b8c.png b/pytorch/img/c42f3cec435a83431d5a1737e99b8b8c.png
new file mode 100644
index 00000000..411c7987
Binary files /dev/null and b/pytorch/img/c42f3cec435a83431d5a1737e99b8b8c.png differ
diff --git a/pytorch/img/c8011979fa20046cbfa36e46cf508689.png b/pytorch/img/c8011979fa20046cbfa36e46cf508689.png
new file mode 100644
index 00000000..9d305fb9
Binary files /dev/null and b/pytorch/img/c8011979fa20046cbfa36e46cf508689.png differ
diff --git a/pytorch/img/cb2138c3f800c7ca4b5ae38076d09429.png b/pytorch/img/cb2138c3f800c7ca4b5ae38076d09429.png
new file mode 100644
index 00000000..d704b279
Binary files /dev/null and b/pytorch/img/cb2138c3f800c7ca4b5ae38076d09429.png differ
diff --git a/pytorch/img/f1108a1b6941305fa7a39e488c023fe9.png b/pytorch/img/f1108a1b6941305fa7a39e488c023fe9.png
new file mode 100644
index 00000000..9ebfce3e
Binary files /dev/null and b/pytorch/img/f1108a1b6941305fa7a39e488c023fe9.png differ
diff --git a/pytorch/img/f38868821469cadc36810cfd827511d1.png b/pytorch/img/f38868821469cadc36810cfd827511d1.png
new file mode 100644
index 00000000..ae431fad
Binary files /dev/null and b/pytorch/img/f38868821469cadc36810cfd827511d1.png differ
diff --git a/pytorch/img/f790e22ee4be05f818e52467c2f13b37.png b/pytorch/img/f790e22ee4be05f818e52467c2f13b37.png
new file mode 100644
index 00000000..c2934477
Binary files /dev/null and b/pytorch/img/f790e22ee4be05f818e52467c2f13b37.png differ
diff --git a/pytorch/img/febe7e5dc5d5b9a5004d15c50d3228c1.png b/pytorch/img/febe7e5dc5d5b9a5004d15c50d3228c1.png
new file mode 100644
index 00000000..595f5fe8
Binary files /dev/null and b/pytorch/img/febe7e5dc5d5b9a5004d15c50d3228c1.png differ
diff --git a/pytorch/img/fedaa24e2fcad876c77a2038c2d8d14d.png b/pytorch/img/fedaa24e2fcad876c77a2038c2d8d14d.png
new file mode 100644
index 00000000..7821901c
Binary files /dev/null and b/pytorch/img/fedaa24e2fcad876c77a2038c2d8d14d.png differ
diff --git a/pytorch/img/ffeedc89cc695e61aa6e941c1c696a39.png b/pytorch/img/ffeedc89cc695e61aa6e941c1c696a39.png
new file mode 100644
index 00000000..3403989c
Binary files /dev/null and b/pytorch/img/ffeedc89cc695e61aa6e941c1c696a39.png differ
diff --git a/机器学习/AI学习路线.md b/机器学习/AI学习路线.md
new file mode 100644
index 00000000..2cec8527
--- /dev/null
+++ b/机器学习/AI学习路线.md
@@ -0,0 +1,660 @@
+# 基础知识
+![图片](https://uploader.shimo.im/f/bxR0xWoah6gf2gMo.png!thumbnail)
+## 1.数学
+数学是学不完的，也没有几个人能像博士一样扎实地学好数学基础，入门人工智能领域，其实只需要掌握必要的基础知识就好。AI的数学基础最主要是高等数学、线性代数、概率论与数理统计三门课程，这三门课程是本科必修的。这里整理了一个简易的数学入门文章。
+数学基础: 高等数学
+[https://zhuanlan.zhihu.com/p/36311622](https://zhuanlan.zhihu.com/p/36311622)
+数学基础: 线性代数
+[https://zhuanlan.zhihu.com/p/36584206](https://zhuanlan.zhihu.com/p/36584206)
+数学基础: 概率论与数理统计
+[https://zhuanlan.zhihu.com/p/36584335](https://zhuanlan.zhihu.com/p/36584335)
+
+机器学习的数学基础资料下载: 
+1.机器学习的数学基础.docx
+中文版，对高等数学、线性代数、概率论与数理统计三门课的公式做了总结
+2) 斯坦福大学机器学习的数学基础.pdf
+原版英文材料，非常全面，建议英语好的同学直接学习这个材料
+下载链接: [https://pan.baidu.com/s/1LaUlrJzy98CG1Wma9FgBtg](https://pan.baidu.com/s/1LaUlrJzy98CG1Wma9FgBtg) 提取码: hktx 
+
+推荐教材
+相比国内浙大版和同济版的数学教材，通俗易懂，便于初学者更好地奠定数学基础
+下载链接: [https://blog.csdn.net/Datawhale/article/details/81744961](https://blog.csdn.net/Datawhale/article/details/81744961)
+
+## 2.统计学
+* 入门教材: 
+
+深入浅出统计学
+* 进阶教材: 
+
+商务与经济统计
+* 视频
+
+可汗学院统计学: [http://open.163.com/special/Khan/khstatistics.html](http://open.163.com/special/Khan/khstatistics.html)
+
+## 3.编程
+入门人工智能领域，推荐Python这门编程语言。
+1) Python安装: 
+关于python安装包，我推荐下载Anaconda，Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本Python并存、切换以及各种第三方包安装问题。
+下载地址: [https://www.](https://link.zhihu.com/?target=https%3A//www.anaconda.com/download/)[anaconda.com/download/](https://link.zhihu.com/?target=https%3A//www.anaconda.com/download/) 推荐选Anaconda （python 3.7版本）
+
+IDE: 推荐使用pycharm，社区版免费
+下载地址: [https://www.](https://link.zhihu.com/?target=https%3A//www.jetbrains.com/)[jetbrains.com/](https://link.zhihu.com/?target=https%3A//www.jetbrains.com/)
+
+安装教程: 
+Anaconda+Jupyter notebook+Pycharm: 
+[https://zhuanlan.zhihu.com/p/59027692](https://zhuanlan.zhihu.com/p/59027692)
+Ubuntu18.04深度学习环境配置(CUDA9+CUDNN7.4+TensorFlow1.8): 
+[https://zhuanlan.zhihu.com/p/50302396](https://zhuanlan.zhihu.com/p/50302396)
+
+
+2) python入门的资料推荐
+a.廖雪峰python学习笔记
+[https://blog.csdn.net/datawhale/article/category/7779959](https://blog.csdn.net/datawhale/article/category/7779959)
+
+b.python入门笔记
+作者李金，这个是jupyter notebook文件，把python的主要语法演示了一次，值得推荐。
+下载链接: [https://pan.baidu.com/s/1IPZI5rygbIh5R5OuTHajzA](https://pan.baidu.com/s/1IPZI5rygbIh5R5OuTHajzA) 提取码: 2bzh 
+
+
+c.南京大学python视频教程
+这个教程非常值得推荐，python主要语法和常用的库基本涵盖了。
+查看地址: [https://www.icourse163.org/course/0809NJU004-1001571005?from=study](https://www.icourse163.org/course/0809NJU004-1001571005?from=study)
+
+看完这三个资料，python基本入门了，可以使用scikit-learn等机器学习库来解决机器学习的
+问题了。
+
+3）补充
+代码规范: 
+[https://zhuanlan.zhihu.com/p/59763076](https://zhuanlan.zhihu.com/p/59763076)
+numpy练习题: 
+[https://zhuanlan.zhihu.com/p/57872490](https://zhuanlan.zhihu.com/p/57872490)
+pandas练习题: 
+[https://zhuanlan.zhihu.com/p/56644669](https://zhuanlan.zhihu.com/p/56644669)
+
+# 数据分析/挖掘
+![图片](https://uploader.shimo.im/f/G1qZ7iUeRrAhFK9u.png!thumbnail)
+## 1.数据分析的基础书籍: 
+《利用python进行数据分析》
+这本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy，Pandas、Matplotlib以及IPython等）高效地解决各式各样的数据分析问题。如果把代码都运行一次，基本上就能解决数据分析的大部分问题了。
+## 2.特征工程: 
+[https://blog.csdn.net/Datawhale/article/details/83033869](https://blog.csdn.net/Datawhale/article/details/83033869)
+## 3.数据挖掘项目: 
+[https://blog.csdn.net/datawhale/article/details/80847662](https://blog.csdn.net/datawhale/article/details/80847662)
+# 机器学习
+![图片](https://uploader.shimo.im/f/udrFwkqrEeA6mjVe.png!thumbnail)
+## 1.公开课 - 吴恩达《Machine Learning》
+这绝对是机器学习入门的首选课程，没有之一！即便你没有扎实的机器学习所需的扎实的概率论、线性代数等数学基础，也能轻松上手这门机器学习入门课，并体会到机器学习的无穷趣味。
+
+课程主页
+[https://www.coursera.org/learn/machine-learning](https://www.coursera.org/learn/machine-learning)
+
+课程完整思维导图: 
+
+![图片](https://uploader.shimo.im/f/NZFYqVr4ghI09BnJ.png!thumbnail)
+
+下载链接: [https://pan.baidu.com/s/16065BpNAP7JEx_PpFHLSOw](https://pan.baidu.com/s/16065BpNAP7JEx_PpFHLSOw)[ ](https://pan.baidu.com/s/16065BpNAP7JEx_PpFHLSOw提取码)提取码: xcmi
+
+**中文视频**
+网易云课堂搬运了这门课，并由黄海广等人翻译了中文字幕。
+
+观看地址: [https://study.163.com/course/introduction.htm?courseId=1004570029&_trace_c_p_k2_=d107b2ac93794ae79c941899f93332a1](https://study.163.com/course/introduction.htm?courseId=1004570029&_trace_c_p_k2_=d107b2ac93794ae79c941899f93332a1)
+
+**中文笔记及作业代码**
+[https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes](https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes)
+
+
+## 2.公开课 - 吴恩达 CS229
+吴恩达在斯坦福教授的机器学习课程 CS229 与 吴恩达在 Coursera 上的《Machine Learning》相似，但是有更多的数学要求和公式的推导，难度稍难一些。该课程对机器学习和统计模式识别进行了广泛的介绍。主题包括: 监督学习（生成/鉴别学习、参数/非参数学习、神经网络、支持向量机）；无监督学习（聚类、降维、核方法）；学习理论（偏差/方差权衡；VC理论；大幅度利润）；强化学习和自适应控制。本课程还将讨论机器学习的最新应用，如机器人控制、数据挖掘、自主导航、生物信息学、语音识别以及文本和Web数据处理。
+### 课程主页: [http://cs229.stanford.edu/](http://cs229.stanford.edu/)
+### 中文视频
+[http://open.163.com/special/opencourse/machinelearning.html](http://open.163.com/special/opencourse/machinelearning.html)
+### 中文笔记
+[https://kivy-cn.github.io/Stanford-CS-229-CN/#/](https://kivy-cn.github.io/Stanford-CS-229-CN/#/)
+### 速查表
+这份给力的资源贡献者是一名斯坦福的毕业生 Shervine Amidi。作者关于 CS229 整理了一份超级详细的速查表
+[https://zhuanlan.zhihu.com/p/56534902](https://zhuanlan.zhihu.com/p/56534902)
+### 作业代码
+[https://github.com/Sierkinhane/CS229-ML-Implements](https://github.com/Sierkinhane/CS229-ML-Implements)
+## 3.公开课 - 林轩田《机器学习基石》
+### 课程介绍
+台湾大学林轩田老师的《机器学习基石》课程由浅入深、内容全面，基本涵盖了机器学习领域的很多方面。其作为机器学习的入门和进阶资料非常适合。而且林老师的教学风格也很幽默风趣，总让读者在轻松愉快的氛围中掌握知识。这门课比 Ng 的《Machine Learning》稍难一些，侧重于机器学习理论知识。
+### 中文视频
+[https://www.bilibili.com/video/av36731342](https://www.bilibili.com/video/av36731342)
+### 中文笔记
+[https://redstonewill.com/category/ai-notes/lin-ml-foundations/](https://redstonewill.com/category/ai-notes/lin-ml-foundations/)
+### 配套教材
+配套书籍为《Learning From Data》，在线书籍主页: [http://amlbook.com/](http://amlbook.com/)
+## 4.公开课 - 林轩田《机器学习技法》
+### 课程介绍
+《机器学习技法》课程是《机器学习基石》的进阶课程。主要介绍了机器学习领域经典的一些算法，包括支持向量机、决策树、随机森林、神经网络等等。难度要略高于《机器学习基石》，具有很强的实用性。
+### 中文视频
+[https://www.bilibili.com/video/av36760800](https://www.bilibili.com/video/av36760800)
+### 中文笔记
+[https://redstonewill.com/category/ai-notes/lin-ml-techniques/](https://redstonewill.com/category/ai-notes/lin-ml-techniques/)
+## 5.书籍 - 《机器学习》
+周志华的《机器学习》被大家亲切地称为“西瓜书”。这本书非常经典，讲述了机器学习核心数学理论和算法，适合有作为学校的教材或者中阶读者自学使用，入门时学习这本书籍难度稍微偏高了一些。
+![图片](https://uploader.shimo.im/f/P3AKvtlFmbIlJVrN.png!thumbnail)
+这本书配合《机器学习实战》这本书，效果很好！
+### 读书笔记
+[https://www.cnblogs.com/limitlessun/p/8505647.html#_label0](https://www.cnblogs.com/limitlessun/p/8505647.html#_label0)
+### 公式推导
+[https://datawhalechina.github.io/pumpkin-book/#/](https://datawhalechina.github.io/pumpkin-book/#/)
+### 课后习题
+[https://zhuanlan.zhihu.com/c_1013850291887845376](https://zhuanlan.zhihu.com/c_1013850291887845376)
+
+## 6.书籍 - 《统计学习方法》
+李航的这本《统计学习方法》堪称经典，包含更加完备和专业的机器学习理论知识，作为夯实理论非常不错。
+![图片](https://uploader.shimo.im/f/5n2sq6L07OkA1XJg.png!thumbnail)
+### 课讲 PPT
+[https://github.com/fengdu78/lihang-code/tree/master/ppt](https://github.com/fengdu78/lihang-code/tree/master/ppt)
+### 读书笔记
+[http://www.cnblogs.com/limitlessun/p/86111](http://www.cnblogs.com/limitlessun/p/8611103.html)[03.html](http://03.html
+参考笔记
+https://zhuanlan.zhihu.com/p/36378498
+代码实现
+)
+
+[https://github.com/SmirkCao/Lihang](https://github.com/SmirkCao/Lihang)
+### 参考笔记
+[https://zhuanlan.zhihu.com/p/36378498](http://03.html
+参考笔记
+https://zhuanlan.zhihu.com/p/36378498
+代码实现
+)
+### 代码实现
+[https://github.com/fengdu78/lihang-code/tree/master/code](https://github.com/fengdu78/lihang-code/tree/master/code)
+## 7.书籍 - 《Scikit-Learn 与 TensorFlow 机器学习实用指南》
+在经过前面的学习之后，这本《Scikit-Learn 与 TensorFlow 机器学习实用指南》非常适合提升你的机器学习实战编程能力。这本书分为两大部分，第一部分介绍机器学习基础算法，每章都配备 Scikit-Learn 实操项目；第二部分介绍神经网络与深度学习，每章配备 TensorFlow 实操项目。如果只是机器学习，可先看第一部分的内容。
+![图片](https://uploader.shimo.im/f/ARnTj6fm9UA67x7z.png!thumbnail)
+### 全书代码
+[https://github.com/ageron/handson-ml](https://github.com/ageron/handson-ml)
+## 8.实战 - Kaggle 比赛
+比赛是提升自己机器学习实战能力的最有效的方式，首选 Kaggle 比赛。
+### Kaggle 主页
+[https://www.kaggle.com/](https://www.kaggle.com/)
+### Kaggle 路线
+[https://github.com/apachecn/kaggle](https://github.com/apachecn/kaggle)
+## 9.工具 - Scikit-Learn 官方文档
+Scikit-Learn 作为机器学习一个非常全面的库，是一份不可多得的实战编程手册。
+### 官方文档
+[https://scikit-learn.org/stable/index.html](https://scikit-learn.org/stable/index.html)
+### 中文文档（0.19）
+[http://sklearn.apachecn.org/#/](http://sklearn.apachecn.org/#/)
+# 深度学习
+![图片](https://uploader.shimo.im/f/CWIQXBU0YksSqDOc.png!thumbnail)
+## 1.公开课 - 吴恩达《Deep Learning》
+在吴恩达开设了机器学习课程之后，发布的《Deep Learning》课程也备受好评，吴恩达老师的课程最大的特点就是将知识循序渐进的传授给你，是入门学习不可多得良好视频资料。整个专题共包括五门课程: 01.神经网络和深度学习；02.改善深层神经网络-超参数调试、正则化以及优化；03.结构化机器学习项目；04.卷积神经网络；05.序列模型。
+### 课程视频
+网易云课堂: [https://mooc.study.163.com/university/deeplearning_ai#/c](https://mooc.study.163.com/university/deeplearning_ai#/c)
+Coursera: [https://www.coursera.org/specializations/deep-learning](https://www.coursera.org/specializations/deep-learning)
+
+### 课程笔记
+之前编写过吴恩达老师机器学习个人笔记黄海广博士带领团队整理了中文笔记
+地址: [https://github.com/fengdu78/deeplearning_ai_books](https://github.com/fengdu78/deeplearning_ai_books)
+### 参考论文
+吴恩达老师在课程中提到了很多优秀论文，黄海广博士整理如下: 
+[https://github.com/fengdu78/deeplearning_ai_books/tree/master/%E5%8F%82%E8%80%83%E8%AE%BA%E6%96%87](https://github.com/fengdu78/deeplearning_ai_books/tree/master/%E5%8F%82%E8%80%83%E8%AE%BA%E6%96%87)
+
+### 课程PPT及课后作业
+吴恩达深度学习课程，包含课程的课件、课后作业和一些其他资料: 
+[https://github.com/stormstone/deeplearning.ai](https://github.com/stormstone/deeplearning.ai)
+
+## 2.公开课 - Fast.ai《程序员深度学习实战》
+说到深度学习的公开课，与吴恩达《Deep Learning》并驾齐驱的另一门公开课便是由Fast.ai出品的《程序员深度学习实战》。这门课最大的特点便是**“自上而下”**而不是**“自下而上”**,是绝佳的通过实战学习深度学习的课程。
+### 视频地址
+B站地址(英文字幕): 
+[https://www.bilibili.com/video/av18904696?from=search&seid=10813837536595120136](https://www.bilibili.com/video/av18904696?from=search&seid=10813837536595120136)
+CSDN地址(2017版中文字幕):
+[https://edu.csdn.net/course/detail/5192](https://edu.csdn.net/course/detail/5192)
+### 课程笔记
+英文笔记原文: 
+[https://medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f73869197](https://medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f73869197)
+由ApacheCN组织进行的中文翻译: 
+[https://github.com/apachecn/fastai-ml-dl-notes-zh](https://github.com/apachecn/fastai-ml-dl-notes-zh)
+
+## 3.公开课-CS230 Deep Learning
+### 课程介绍
+斯坦福的深度学习课程CS230在4月2日刚刚开课，对应的全套PPT也随之上线。从内容来看，今年的课程与去年的差别不大，涵盖了CNNs, RNNs, LSTM, Adam, Dropout, BatchNorm, Xavier/He initialization 等深度学习的基本模型，涉及医疗、自动驾驶、手语识别、音乐生成和自然语言处理等领域。
+
+Datawhale整理了该门课程的详细介绍及参考资料
+[https://mp.weixin.qq.com/s/kA-L8t5mGq6jExMBRjyg4g](https://mp.weixin.qq.com/s/kA-L8t5mGq6jExMBRjyg4g)
+### 
+## 4.书籍-复旦教授邱锡鹏《神经网络与深度学习》
+本书是入门深度学习领域的极佳教材，主要介绍了神经网络与深度学习中的基础知识、主要模型（前馈网络、卷积网络、循环网络等）以及在计算机视觉、自然语言处理等领域的应用。
+[https://mp.weixin.qq.com/s/-NaDpXsxvu4DpXqVNXIAvQ](https://mp.weixin.qq.com/s/-NaDpXsxvu4DpXqVNXIAvQ)
+
+## 5.书籍 -《深度学习》
+![图片](https://uploader.shimo.im/f/ExWrjEUvH1E0SakQ.png!thumbnail)
+完成以上学习后，想要更加系统的建立深度学习的知识体系，阅读《深度学习》准没错。该书从浅入深介绍了基础数学知识、机器学习经验以及现阶段深度学习的理论和发展，它能帮助人工智能技术爱好者和从业人员在三位专家学者的思维带领下全方位了解深度学习。
+### 书籍介绍
+《深度学习》通常又被称为花书，深度学习领域最经典的畅销书。由全球知名的三位专家IanGoodfellow、YoshuaBengio和AaronCourville撰写，是深度学习领域奠基性的经典教材。全书的内容包括3个部分: 第1部分介绍基本的数学工具和机器学习的概念，它们是深度学习的预备知识；第2部分系统深入地讲解现今已成熟的深度学习方法和技术；第3部分讨论某些具有前瞻性的方向和想法，它们被公认为是深度学习未来的研究重点。该书被大众尊称为“AI圣经”。
+
+### 在线阅读
+该书由众多网友众包翻译，电子版在以下地址获得: 
+[https://github.com/exacity/deeplearningbook-chinese](https://github.com/exacity/deeplearningbook-chinese)
+
+## 6.书籍 -《深度学习 500 问》
+当你看完了所有的视频，研习了AI圣经，一定充满了满脑子问号，此时不如来深度学习面试中常见的500个问题。
+### 书籍介绍
+DeepLearning-500-questions，作者是川大的一名优秀毕业生谈继勇。该项目以深度学习面试问答形式，收集了 500 个问题和答案。内容涉及了常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题，该书目前尚未完结，却已经收获了Github 2.4w stars。
+### 项目地址
+[https://github.com/scutan90/DeepLearning-500-questions](https://github.com/scutan90/DeepLearning-500-questions)
+
+## 7.工具 - TensorFlow 官方文档
+进行深度学习怎么离得开TensorFlow
+### 官方文档
+[https://www.tensorflow.org/api_docs/python/tf](https://www.tensorflow.org/api_docs/python/tf)
+### 中文文档
+[https://github.com/jikexueyuanwiki/tensorflow-zh](https://github.com/jikexueyuanwiki/tensorflow-zh)
+
+## 7.工具 - PyTorch官方文档
+PyTorch是进行深度学习的另一个主流框架
+### 官方文档
+[https://pytorch.org/docs/stable/index.html](https://pytorch.org/docs/stable/index.html)
+### 中文文档(版本0.3)
+[https://github.com/apachecn/pytorch-doc-zh](https://github.com/apachecn/pytorch-doc-zh)
+# 强化学习
+![图片](https://uploader.shimo.im/f/E8K8fklpvKceOGQe.png!thumbnail)
+## 1.公开课 - David Silver《Reinforcement Learning》
+同吴恩达的课程对于机器学习和深度学习初学者的意义一样，David Silver的这门课程绝对是大多数人学习强化学习必选的课程。课程从浅到深，把强化学习的内容娓娓道来，极其详尽。不过由于强化学习本身的难度，听讲这门课还是有一定的门槛，建议还是在大致了解这个领域之后观看该视频学习效果更佳，更容易找到学习的重点。另外，由于强化学习领域飞速地发展，最前沿的知识（特别是与深度学习相关的）没有被涵盖在这个课程中，需要另外补充。
+### 课程介绍
+该课程对强化学习领域做了相当详尽的讲解，其主要内容有: 马尔可夫决策过程（强化学习的基础理论）、动态规划、免模型预测（蒙特卡洛学习、时序差分学习和λ时序差分强化学习）、免模型控制（On-policy Learning和Off-policy Learning）、价值函数的近似表示、策略梯度算法、集成学习与计划、探索与利用以及实例演示。
+
+### 视频地址
+B站地址(中文字幕): 
+[https://www.bilibili.com/video/av45357759?from=search&seid=9547815852611563503](https://www.bilibili.com/video/av45357759?from=search&seid=9547815852611563503)
+课程原地址: 
+[https://www.youtube.com/watch?v=2pWv7GOvuf0](https://www.youtube.com/watch?v=2pWv7GOvuf0)
+
+### 课程资料
+课程PPT: 
+[http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html)
+课程笔记: 
+[https://www.zhihu.com/people/qqiang00/posts](https://www.zhihu.com/people/qqiang00/posts)
+
+## 2.公开课 - 李宏毅《深度强化学习》
+David Silver的课程虽然内容详尽，但前沿的很多内容都没有被包括在内，这时，台大李宏毅的《深度强化学习》就是学习前沿动态的不二之选。李宏毅老师讲课非常幽默风趣，并且浅显易懂，而且对于大多数初学者来说，中文教学可谓是福音。当然，这门课程也有着没有对理论知识做太多详尽地展开、内容主要围绕着深度强化学习进行等缺陷，但这并不妨碍其成为初学者们的首选之一。
+### 课程介绍
+该课程上线于2018年，基本涵盖了当年的前沿技术，其主要内容有: 策略梯度算法（David Silver的课程中提到的算法大多都在这部分的内容中提到，但其主要是从神经网络的角度出发）、Q-learning（这部分涵盖了大量的Q-learning优化的讲解）、Actor-Critic、Sparse Reward 和 Imitation Learning。
+### 视频地址
+B站地址(中文字幕): 
+[https://www.bilibili.com/video/av24724071?from=search&seid=9547815852611563503](https://www.bilibili.com/video/av24724071?from=search&seid=9547815852611563503)
+课程原地址: 
+[https://www.youtube.com/watch?v=2pWv7GOvuf0](https://www.youtube.com/watch?v=2pWv7GOvuf0)
+
+### 课程资料
+课程PPT: 
+[http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html](http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html)
+课程笔记: 
+[https://blog.csdn.net/cindy_1102/article/details/87905272](https://blog.csdn.net/cindy_1102/article/details/87905272)
+
+
+# 前沿 Paper
+![图片](https://uploader.shimo.im/f/zViCOYrXGokl9Taa.png!thumbnail)
+## Arxiv
+### Arxiv Stats
+Arxiv 机器学习最新论文检索，主页地址: 
+[https://arxiv.or](https://arxiv.org/list/stat.ML/recent?ref=bestofml.com)[g/list/stat.ML](https://arxiv.org/list/stat.ML/recent?ref=bestofml.com)[/recent?ref=bestofml.com](https://arxiv.org/list/stat.ML/recent?ref=bestofml.com)
+### Arxiv Sanity Preserver
+Andrej Karpathy 开发了 Arxiv Sanity Preserver，帮助分类、搜索和过滤特征，主页地址: 
+[ht](http://www.arxiv-sanity.com/?ref=bestofml.com)[tp://www.arxiv-sanity.com/?ref=bestofml.co](http://www.arxiv-sanity.com/?ref=bestofml.com)[m](http://www.arxiv-sanity.com/?ref=bestofml.com)
+## Papers with Code
+### Papers with Code(Browse state-of-the-art)
+这个网站叫做 Browse state-of-the-art。它将 ArXiv 上的最新深度学习论文与 GitHub 上的开源代码联系起来。该项目目前包含了 651 个排行榜，1016 个深度学习任务，795 个数据集，以及重磅的 10257 个含复现代码的优秀论文。简直就是一个寻找论文和代码的利器。它将 1016 个深度学习任务分成了 16 大类，涉及了深度学习的各个方面。
+
+主页地址: 
+[https://paperswithcode.com/sota](https://paperswithcode.com/sota)
+
+举两个例子: 
+
+（1）CV: [https://paperswithcode.com/area/computer-vision](https://paperswithcode.com/area/computer-vision)
+（2）NLP: [https://paperswithcode.com/area/natural-language-processing](https://paperswithcode.com/area/natural-language-processing)
+
+介绍: [https://redstonewill.com/2039/](https://redstonewill.com/2039/)
+### Papers with Code(Sorted by stars)
+这份资源收集了 AI 领域从 2013 - 2018 年所有的论文，并按照在 GitHub 上的标星数量进行排序。GitHub 项目地址: 
+[https://github.com/zziz/pwc](https://github.com/zziz/pwc)
+## Deep Learning Papers(Reading Roadmap)
+如果你是深度学习领域的新手，你可能会遇到的第一个问题是“我应该从哪篇论文开始阅读？”下面是一个深入学习论文的阅读路线图！GitHub 项目地址: 
+[https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap](https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap)
+
+这份深度学习论文阅读路线分为三大块: 
+
+**1 Deep Learning History and Basics**
+**2 Deep Learning Method**
+**3 Applications**
+## Deep Learning Object Detection
+目标检测（Object Detection）是深度学习 CV 领域的一个核心研究领域和重要分支。纵观 2013 年到 2019 年，从最早的 R-CNN、Fast R-CNN 到后来的 YOLO v2、YOLO v3 再到今年的 M2Det，新模型层出不穷，性能也越来越好！本资源对目标检测近几年的发展和相关论文做出一份系统介绍，总结一份超全的文献 paper 列表。
+
+![图片](https://uploader.shimo.im/f/wIBvBV6ZPYYpL5GA.png!thumbnail)
+
+GitHub 项目地址: 
+[https://github.com/hoya012/deep_learning_object_detection](https://github.com/hoya012/deep_learning_object_detection)
+
+介绍: [https://redstonewill.com/1934/](https://redstonewill.com/1934/)
+## 知名会议
+**NeurIPS**: [https://nips.cc/](https://nips.cc/)
+**ICML**: [https://icml.cc/](https://icml.cc/)
+**ICLR**: [https://iclr.cc/](https://iclr.cc/)
+**AAAI**: [https://aaai.org/Conferences/AAAI-19/](https://aaai.org/Conferences/AAAI-19/)
+**IJCAI**: [https://www.ijcai.org/](https://www.ijcai.org/)
+**UAI**: [http://www.auai.org/uai2019/index.php](http://www.auai.org/uai2019/index.php)
+
+### 计算机视觉: 
+**CVPR**: [http://cvpr2019.thecvf.com/](http://cvpr2019.thecvf.com/)
+**ECCV**: [https://eccv2018.org/program/main-conference/](https://eccv2018.org/program/main-conference/)
+**ICCV**: [http://iccv2019.thecvf.com/](http://iccv2019.thecvf.com/)
+
+### 自然语言处理: 
+**ACL**: [http://www.aclcargo.com/](http://www.aclcargo.com/)
+**EMNLP**: [https://www.aclweb.org/portal/content/emnlp-2018](https://www.aclweb.org/portal/content/emnlp-2018)
+**NAACL**: [https://naacl2019.org/](https://naacl2019.org/)
+### 知名期刊
+**JAIR**: [https://www.jair.org/index.php/jair](https://www.jair.org/index.php/jair)
+**JMLR**: [http://www.jmlr.org/](http://www.jmlr.org/)
+### 其它
+机器人方面，有 CoRL（学习）、ICAPS（规划，包括但不限于机器人）、ICRA、IROS、RSS；对于更理论性的研究，有 AISTATS、COLT、KDD。
+# 理论应用
+![图片](https://uploader.shimo.im/f/O1TdCdH56vcst1dF.png!thumbnail)
+## 自然语言处理
+
+1. NLP是什么
+
+自然语言处理（NLP，Natural Language Processing）是研究计算机处理人类语言的一门技术，目的是弥补人类交流（自然语言）和计算机理解（机器语言）之间的差距。NLP包含句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统和对话系统等领域。
+
+1. 课程推荐
+
+① CS224n 斯坦福深度自然语言处理课
+17版中文字幕 [https://www.bilibili.com/video/av41393758/?p=1](https://www.bilibili.com/video/av41393758/?p=1)
+课程笔记: [http://www.hankcs.com/?s=CS224n%E7%AC%94%E8%AE%B0](http://www.hankcs.com/?s=CS224n%E7%AC%94%E8%AE%B0)
+2019版课程主页: [http://web.stanford.edu/class/cs224n/](http://web.stanford.edu/class/cs224n/) （需科学上网）
+② 自然语言处理 - Dan Jurafsky 和 Chris Manning
+B站英文字幕版: [https://www.bilibili.com/video/av35805262/](https://www.bilibili.com/video/av35805262/)
+学术激流网: [http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab](http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab)
+
+1. 书籍推荐
+
+① Python自然语言处理
+中英文版
+>入门读物，整本书不仅涉及了语料库的操作，也对传统的基于规则的方法有所涉及。全书包括了分词（tokenization）、词性标注（POS）、语块（Chunk）标注、句法剖析与语义剖析等方面，是nlp中不错的一本实用教程。
+
+② 自然语言处理综论
+中英文版
+>By Daniel Jurafsky和James H. Martin
+>权威性杠杠的！经典的NLP教科书，涵盖了经典自然语言处理、统计自然语言处理、语音识别和计算语言学等方面。
+
+③ 统计自然语言处理基础
+中英文版
+>By Chris Manning和HinrichSchütze
+>更高级的统计NLP方法，在统计基本部分和n元语法部分介绍地都很不错 
+
+1. 博客推荐
+
+我爱自然语言处理网站  [http://www.52nlp.cn/](http://www.52nlp.cn/)
+>TFIDF、文档相似度等等网站上都有通俗易懂的解释
+
+语言日志博客（Mark Liberman）[http://languagelog.ldc.upenn.edu/nll/](http://languagelog.ldc.upenn.edu/nll/)  
+natural language processing blog [https://nlpers.blogspot.com/](https://nlpers.blogspot.com/)
+>美国Hal Daumé III维护的一个natural language processing的博客，经常评论最新学术动态，值得关注。有关于ACL、NAACL等学术会议的参会感想和对论文的点评
+### 5.项目推荐
+基于LSTM的中文问答系统 [https://github.com/S-H-Y-GitHub/QA](https://github.com/S-H-Y-GitHub/QA)
+基于RNN的文本生成器 [https://github.com/karpathy/char-rnn](https://github.com/karpathy/char-rnn)
+基于char-rnn的汪峰歌词生成器 [https://github.com/phunterlau/wangfeng-rnn](https://github.com/phunterlau/wangfeng-rnn)
+用RNN生成手写数字 [https://github.com/skaae/lasagne-draw](https://github.com/skaae/lasagne-draw)
+1. 开源NLP工具包
+
+中文NLP相关:  [https://github.com/crownpku/Awesome-Chinese-NLP](https://github.com/crownpku/Awesome-Chinese-NLP)
+英文NLP相关: 
+>NLTK [http://www.nltk.org/](http://www.nltk.org/)
+>TextBlob: [http://textblob.readthedocs.org/en/dev/](http://textblob.readthedocs.org/en/dev/)
+>Gensim: [http://radimrehurek.com/gensim/](http://radimrehurek.com/gensim/)
+>Pattern: [http://www.clips.ua.ac.be/pattern](http://www.clips.ua.ac.be/pattern)
+>Spacy:: [http://spacy.io](http://spacy.io)
+>Orange: [http://orange.biolab.si/features/](http://orange.biolab.si/features/)
+>Pineapple: [https://github.com/proycon/pynlpl](https://github.com/proycon/pynlpl)
+1. 相关论文
+
+100 Must-Read NLP Papers [https://github.com/mhagiwara/100-nlp-papers](https://github.com/mhagiwara/100-nlp-papers)
+## **计算机视觉**
+1. 计算机视觉的应用
+| 计算机视觉的应用   | 无人驾驶   | 
+|:----:|:----:|:----:|:----:|
+|    | 无人安防   | 
+|    | 人脸识别   | 
+|    | 车辆车牌识别   | 
+|    | 以图搜图   | 
+|    | VR/AR   | 
+|    | 3D重构   | 
+|    | 无人机   | 
+|    | 医学图像分析   | 
+|    | 其他   | 
+
+### 2.课程推荐
+**Stanford CS223B** 
+比较适合基础，适合刚刚入门的同学，跟深度学习的结合相对来说会少一点，不会整门课讲深度学习，而是主要讲计算机视觉，方方面面都会讲到
+
+李飞飞: CS231n课程
+[https://mp.weixin.qq.com/s/-NaDpXsxvu4DpXqVNXIAvQ](https://mp.weixin.qq.com/s/-NaDpXsxvu4DpXqVNXIAvQ)
+### 3.书籍推荐
+1）入门学习: 《**Computer Vision: Models, Learning and Inference**》
+2）经典权威的参考资料: 《**Computer Vision: Algorithms and Applications**》
+3）理论实践: 《**OpenCV3编程入门**》
+## **推荐系统**
+### 1.推荐系统是什么
+推荐系统就是自动联系用户和物品的一种工具，它能够在信息过载的环境中帮助用户发现令他们感兴趣的信息，也能将信息推送给对它们感兴趣的用户。 推荐系统属于资讯过滤的一种应用。
+### 2.推荐课程
+推荐系统专项课程《[Recommender Systems Specialization](https://www.coursera.org/specializations/recommender-systems)》
+这个系列由4门子课程和1门毕业项目课程组成，包括推荐系统导论，最近邻协同过滤，推荐系统评价，矩阵分解和高级技术等。
+观看地址: [https://www.coursera.org/specializations/recommender-systems](https://www.coursera.org/specializations/recommender-systems)
+### 3.书籍推荐
+《推荐系统实践》（项亮 著）
+《推荐系统》（Dietmar Jannach等 著，蒋凡 译）
+《用户网络行为画像》（牛温佳等 著）
+《Recommender Systems Handbook》（Paul B·Kantor等 著）
+### 4.算法库
+**LibRec**
+LibRec是一个Java版本的覆盖了70余个各类型推荐算法的推荐系统开源算法库，由国内的推荐系统大牛郭贵冰创办，目前已更新到2.0版本，它有效地解决了评分预测和物品推荐两大关键的推荐问题。
+项目地址: [https://github.com/guoguibing/librec](https://github.com/guoguibing/librec)
+官网: [官网https://www.librec.net/](https://www.librec.net/)
+**LibMF**
+C++版本开源推荐系统，主要实现了基于矩阵分解的推荐系统。针对SGD（随即梯度下降）优化方法在并行计算中存在的 locking problem 和 memory discontinuity问题，提出了一种 矩阵分解的高效算法FPSGD（Fast Parallel SGD），根据计算节点的个数来划分评分矩阵block，并分配计算节点。
+项目地址: [http://www.csie.ntu.edu.tw/~cjlin/libmf/](http://www.csie.ntu.edu.tw/~cjlin/libmf/)
+**SurPRISE**
+一个Python版本的开源推荐系统，有多种经典推荐算法
+项目地址: [http://surpriselib.com/](http://surpriselib.com/)
+**Neural Collaborative Filtering**
+神经协同过滤推荐算法的Python实现
+项目地址: [https://github.com/hexiangnan/neural_collaborative_filtering](https://github.com/hexiangnan/neural_collaborative_filtering)
+**Crab**
+基于Python开发的开源推荐软件，其中实现有item和user的协同过滤
+项目地址: [http://muricoca.github.io/crab/](http://muricoca.github.io/crab/)
+
+### 5.常用数据集
+**MovieLen**
+地址: [https://grouplens.org/datasets/movielens/](https://grouplens.org/datasets/movielens/)
+MovieLens数据集中，用户对自己看过的电影进行评分，分值为1~5。MovieLens包括两个不同大小的库，适用于不同规模的算法。小规模的库是943个独立用户对1 682部电影作的10 000次评分的数据；大规模的库是6 040个独立用户对3 900部电影作的大约100万次评分。适用于传统的推荐任务
+**Douban**
+地址: [https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban](https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban)
+Douban是豆瓣的匿名数据集，它包含了12万用户和5万条电影数据，是用户对电影的评分信息和用户间的社交信息，适用于社会化推荐任务。
+**BookCrossing**
+地址: [http://www2.informatik.uni-freiburg.de/~cziegler/BX/](http://www2.informatik.uni-freiburg.de/~cziegler/BX/)
+这个数据集是网上的Book-Crossing图书社区的278858个用户对271379本书进行的评分，包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。
+**Jester Joke**
+地址: [http://eigentaste.berkeley.edu/dataset/](http://eigentaste.berkeley.edu/dataset/)
+Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73496个用户对100个笑话作的410万次评分。评分范围是−10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。
+**Netflix**
+[地址: http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a](http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a)
+这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize)，征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480 189个匿名用户对大约17 770部电影作的大约10亿次评分。
+Usenet Newsgroups(http://qwone.com/~jason/20Newsgroups/) 
+这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD 2007上的论文。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
+**UCI库**
+地址: [https://archive.ics.uci.edu/ml/datasets.html](https://archive.ics.uci.edu/ml/datasets.html)
+UCI库是Blake等人在1998年开放的一个用于机器学习和评测的数据库，其中存储大量用于模型训练的标注样本，可用于推荐系统的性能测试数据。
+### 6.推荐论文
+经典必读论文整理，包括综述文章、传统经典推荐文章、社会化推荐文章、基于深度学习的推荐系统文章、专门用于解决冷启动的文章、POI相关的论文、利用哈希技术来加速推荐的文章以及推荐系统中经典的探索与利用问题的相关文章等。
+项目地址: [https://github.com/hongleizhang/RSPapers](https://github.com/hongleizhang/RSPapers)
+### 7.推荐项目
+今日头条推荐系统机制介绍，面向内容创作者
+[分享人: 项亮，今日头条推荐算法架构师](https://v.qq.com/x/page/f0800qavik7.html?)
+[https://v.qq.com/x/page/f0800qavik7.html?](https://v.qq.com/x/page/f0800qavik7.html?)
+
+3分钟了解今日头条推荐系统原理
+[https://v.qq.com/x/page/g05349lb80j.html?](https://v.qq.com/x/page/g05349lb80j.html?)
+
+facebook是如何为十亿人推荐好友的
+[https://code.facebook.com/posts/861999383875667/recommending-items-to-more-than-a-billion-people/](https://code.facebook.com/posts/861999383875667/recommending-items-to-more-than-a-billion-people/)
+
+Netflix的个性化和推荐系统架构
+[http://techblog.netflix.com/2013/03/system-architectures-for.html](http://techblog.netflix.com/2013/03/system-architectures-for.html)
+
+## 风控模型（评分卡模型）
+### 1.评分卡模型简介
+ 评分卡模型时在银行、互金等公司与借贷相关业务中最常见也是最重要的模型之一。简而言之它的作用就是对客户进行打分，来对客户是否优质进行评判。根据评分卡模型应用的业务阶段不用，评分卡模型主要分为三大类: A卡（Application score card）申请评分卡、B卡（Behavior score card）行为评分卡、C卡（Collection score card）催收评分卡。其中申请评分卡用于贷前，行为评分卡用于贷中，催收评分卡用于贷后，这三种评分卡在我们的信贷业务的整个生命周期都至关重要。
+### 2.推荐书籍
+《信用风险评分卡研究——基于SAS的开发与实施》
+### 3.评分卡模型建模过程
+（1）样本选取: 确定训练样本、测试样本的观察窗（特征的时间跨度）与表现窗（标签的时间跨度），且样本的标签定义是什么？一般情况下风险评分卡的标签都是考虑客户某一段时间内的延滞情况。
+（2）特征准备: 原始特征、衍生变量
+（3）数据清洗: 根据业务需求对缺失值或异常值等进行处理
+（4）特征筛选: 根据特征的IV值（特征对模型的贡献度）、PSI（特征的稳定性）来进行特征筛选，IV值越大越好（但是一个特征的IV值超过一定阈值可能要考虑是否用到未来数据），PSI越小越好（一般建模时取特征的PSI小于等于0.01）
+（5）对特征进行WOE转换，即对特征进行分箱操作，注意在进行WOE转换时要注重特征的可解释性
+（6）建立模型，在建立模型过程中可根据模型和变量的统计量判断模型中包含和不包含每个变量时的模型质量来进行变量的二次筛选。
+（7）评分卡模型一般关注的指标是KS值（衡量的是好坏样本累计分部之间的差值）、模型的PSI(即模型整体的稳定性）、AUC值等。
+## **知识图谱**
+### 1.知识图谱是什么
+知识图谱是一种结构化数据的处理方法，它涉及知识的提取、表示、存储、检索等一系列技术。从渊源上讲，它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。
+### 2.推荐资料
+[为什么需要知识图谱？什么是知识图谱？——KG的前世今生](https://zhuanlan.zhihu.com/p/31726910)
+[什么是知识图谱？](https://zhuanlan.zhihu.com/p/34393554)
+[智能搜索时代: 知识图谱有何价值？](https://zhuanlan.zhihu.com/p/35982177?from=1084395010&wm=9848_0009&weiboauthoruid=5249689143)
+[百度王海峰: 知识图谱是 AI 的基石](http://www.infoq.com/cn/news/2017/11/Knowledge-map-cornerstone-AI#0-tsina-1-5001-397232819ff9a47a7b7e80a40613cfe1)
+[译文|从知识抽取到RDF知识图谱可视化](http://rdc.hundsun.com/portal/article/907.html?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io)
+### **3.主要内容**
+1. **知识提取**
+
+构建kg首先需要解决的是数据，知识提取是要解决结构化数据生成的问题。我们可以用自然语言处理的方法，也可以利用规则。
+* 使用规则: 
+    * 正则表达式: 
+
+       正则表达式（Regular Expression， regex）是字符串处理的基本功。数据爬取、数据清洗、实体提取、关系提取，都离不开regex。
+推荐资料入门: 
+          * [精通正则表达式](https://book.douban.com/subject/2154713/)
+          * regexper 可视化:  [例 [a-z]*(\d{4}(\D+))](https://regexper.com/#%5Ba-z%5D*(%5Cd%7B4%7D(%5CD%2B)))
+          * pythex 在线测试正则表达式 [http://pythex.org/](http://pythex.org/)
+
+推荐资料进阶: 
+          * re2 一个更快的Cython实现 [https://pypi.python.org/pypi/re2/](https://pypi.python.org/pypi/re2/)
+          * Parsley 更人性化的正则表达语法 [http://parsley.readthedocs.io/en/latest/tutorial.html](http://parsley.readthedocs.io/en/latest/tutorial.html)
+
+    * 中文分词和词性标注
+
+        分词也是后续所有处理的基础，词性（Part of Speech, POS）就是中学大家学过的动词、名词、形容词等等的词的分类。一般的分词工具都会有词性标注的选项。 
+推荐资料入门: 
+          * jieba 中文分词包  [https://github.com/fxsjy/jieba](https://github.com/fxsjy/jieba)
+          * 中文词性标记集 [https://github.com/memect/kg-beijing/wiki/中文词性标记集](https://github.com/memect/kg-beijing/wiki/%E4%B8%AD%E6%96%87%E8%AF%8D%E6%80%A7%E6%A0%87%E8%AE%B0%E9%9B%86)
+
+ 推荐资料进阶: 
+          * genius 采用 CRF条件随机场算法 [https://github.com/duanhongyi/genius](https://github.com/duanhongyi/genius)
+          * Stanford CoreNLP分词  [https://blog.csdn.net/guolindonggld/article/details/72795022](https://blog.csdn.net/guolindonggld/article/details/72795022)
+
+    *  命名实体识别
+
+       命名实体识别（NER）是信息提取应用领域的重要基础工具，一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。
+
+推荐资料: 
+          * Stanford CoreNLP 进行中文命名实体识别 [https://blog.csdn.net/guolindonggld/article/details/72795022](https://blog.csdn.net/guolindonggld/article/details/72795022)
+* 使用深度学习: 
+
+        使用自然语言处理的方法，一般是给定schema，从非结构化数据中抽取特定领域的三元组（spo），如最近[百度举办的比赛](http://lic2019.ccf.org.cn/kg)就是使用DL模型进行信息抽取。
+
+    * 序列标注
+
+       使用序列生出模型，主要是标记出三元组中subject及object的起始位置，从而抽取信息。
+推荐资料: 
+          * 序列标注问题 [https://www.cnblogs.com/jiangxinyang/p/9368482.html](https://www.cnblogs.com/jiangxinyang/p/9368482.html)
+
+
+    * seq2seq
+
+      使用seq2seq端到端的模型，主要借鉴文本摘要的思想，将三元组看成是非结构化文本的摘要，从而进行抽取，其中还涉及Attention机制。
+
+推荐资料: 
+          * seq2seq详解 [https://blog.csdn.net/irving_zhang/article/details/78889364](https://blog.csdn.net/irving_zhang/article/details/78889364)
+          * 详解从Seq2Seq模型到Attention模型  [https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/](https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/)
+
+1. **知识表示**
+
+     知识表示（Knowledge Representation，KR，也译为知识表现）是研究如何将结构化数据组织，以便于机器处理和人的理解的方法。
+
+需要熟悉下面内容: 
+* JSON和YAML
+  * json库 [https://docs.python.org/2/library/json.html](https://docs.python.org/2/library/json.html)
+  * PyYAML是Python里的Yaml处理库 [http://pyyaml.org/wiki/PyYAML](http://pyyaml.org/wiki/PyYAML)
+* RDF和OWL
+  * RDF和OWL语义 [http://blog.memect.cn/?p=871](http://blog.memect.cn/?p=871) 
+* JSON-LD
+  * JSON-LD主页 [http://json-ld.org/](http://json-ld.org/)
+
+1. **知识存储**
+
+需要熟悉常见的图数据库
+* 知识链接的方式: 字符串、外键、URI
+* PostgreSQL及其JSON扩展
+  * Psycopg包操作PostgreSQL [http://initd.org/psycopg/docs/](http://initd.org/psycopg/docs/)
+* 图数据库 Neo4j和OrientDB
+  * Neo4j的Python接口 [https://neo4j.com/developer/python/](https://neo4j.com/developer/python/)
+  * OrientDB: [http://orientdb.com/orientdb/](http://orientdb.com/orientdb/)
+* RDF数据库Stardog
+  * Stardog官网: [http://stardog.com/](http://stardog.com/)
+
+1. **知识检索**
+
+需要熟悉常见的检索技术
+* ElasticSearch
+
+ES教程:  [http://joelabrahamsson.com/elasticsearch-101/](http://joelabrahamsson.com/elasticsearch-101/)
+
+1. 相关术语及技术路线
+* [本体](https://www.zhihu.com/question/19558514)
+* [RDF](https://www.w3.org/RDF/)
+* [Apache Jena](https://jena.apache.org/)
+* [D2RQ](http://d2rq.org/getting-started)
+  * Protege构建本体系列
+* [protege](https://protege.stanford.edu/)
+* [protege使用](https://zhuanlan.zhihu.com/p/32389370)
+  * 开发语言
+* python或java
+  * 图数据库技术
+* [Neo4j](https://neo4j.com/)
+* [AllegroGraph](https://franz.com/agraph/allegrograph/)
+  * 可视化技术
+* [d3.js](https://d3js.org/)
+* [Cytoscape.js](http://js.cytoscape.org/)
+  * 分词技术
+* [jieba](https://github.com/fxsjy/jieba)
+* [hanlp](https://github.com/hankcs/HanLP)
+### 5.项目实战
+* [基于知识图谱的问答](https://github.com/kangzhun/KnowledgeGraph-QA-Service)
+* [Agriculture_KnowledgeGraph](https://github.com/qq547276542/Agriculture_KnowledgeGraph)
+# 贡献平台
+由知名开源平台，AI技术平台以及领域专家: ApacheCN，Datawhale，AI有道和黄海广博士联合整理贡献。
+参与名单: 
+ApacheCN: 片刻，李翔宇，飞龙，王翔
+Datawhale: 范晶晶，马晶敏，李碧涵，李福，光城，居居，康兵兵，郑家豪
+AI有道: 红色石头
+# 平台介绍
+* **Datawhale**: 一个专注于AI领域的开源组织，上海交通大学国家级孵化项目，目前有7个独立团队，聚集了一群有开源精神和探索精神的团队成员，汇聚了来自各个高校和企业的优秀学习者，致力于构建纯粹的学习圈子和优质的开源项目，提供的组队学习涵盖了数据分析，数据挖掘，机器学习，深度学习，编程等16个内容领域。
+
+![图片](https://uploader.shimo.im/f/zZmdWtiX9iop46uo.png!thumbnail)
+* **AI有道**: 一个专注于 AI 领域的技术公众号。公众号主要涉及人工智能领域 Python、ML 、CV、NLP 等前沿知识、干货笔记和优质资源！我们致力于为广大人工智能爱好者提供优质的 AI 资源和切实可行的 AI 学习路线。
+
+![图片](https://uploader.shimo.im/f/SFZ8X6UVSCQom4Ek.png!thumbnail)
+* **黄博（机器学习初学者）**: 机器学习课程在国内还不够普及，大部分初学者还是很迷茫，走了很多弯路，黄海广博士希望能尽自己的微薄之力，为机器学习初学者提供一个学习交流的平台。
+
+![图片](https://uploader.shimo.im/f/FUax8CI2ZTYyvYcF.png!thumbnail)
+* **ApacheCN**: 一个致力于提供优质开源项目的开源组织，致力于AI文档翻译，Kaggle比赛交流、LeetCode算法刷题、大数据交流等项目。我们希望做出广大 AI 爱好者真正需要的东西，打造真正有价值的长尾作品。官方网址: [http://www.apachecn.org/](http://www.apachecn.org/)，点击阅读原文即可查看。
+
+## 
+
+
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/README.md b/机器学习/ApacheCN/apachecn-dl-zh/README.md
new file mode 100644
index 00000000..7f237198
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/README.md
@@ -0,0 +1,110 @@
+# ApacheCN 深度学习译文集
+
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [在线阅读（Gitee）](https://apachecn.gitee.io/apachecn-dl-zh/)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 目录
+
++   [Sklearn 与 TensorFlow 机器学习实用指南第二版](docs/hands-on-ml-2e-zh/SUMMARY.md)
++   [PyTorch 自然语言处理](docs/nlp-pytorch-zh/SUMMARY.md)
++   [TensorFlow 1.x 深度学习秘籍](docs/tf-1x-dl-cookbook/SUMMARY.md)
++   [PyTorch 中文官方教程 1.7](docs/pt-tut-17/SUMMARY.md)
++   [使用 TensorFlow 构建机器学习项目中文版](docs/build-ml-proj-tf-zh/SUMMARY.md)
++   [TensorFlow 深度学习中文第二版](docs/dl-tf-2e-zh/SUMMARY.md)
++   [TensorFlow 深度学习实战指南中文版](docs/hands-on-dl-tf-zh/SUMMARY.md)
++   [精通 TensorFlow 1.x](docs/mastering-tf-1x-zh/SUMMARY.md)
++   [TensorFlow 机器学习秘籍中文第二版](docs/tf-ml-cookbook-2e-zh/SUMMARY.md)
++   [与 TensorFlow 的初次接触](docs/first_contact_with_tensorFlow/SUMMARY.md)
++   [TensorFlow 学习指南](docs/learning-tf-zh/SUMMARY.md)
++   [TensorFlow Rager 教程](docs/tf-eager-tut/SUMMARY.md)
++   [TensorFlow 高效编程](docs/effective-tf.md)
++   [图嵌入综述：问题，技术与应用](docs/ge-survey-arxiv-1709-07604-zh/SUMMARY.md)
++   [基于深度学习的推荐系统：综述和新视角](docs/rs-survey-arxiv-1707-07435-zh/SUMMARY.md)
++   [关于卷积神经网络我们理解了什么](docs/what-do-we-understand-about-convnet/SUMMARY.md)
++   [机器学习超级复习笔记](docs/super-machine-learning-revision-notes/SUMMARY.md)
++   [Python 迁移学习实用指南](docs/handson-tl-py/SUMMARY.md)
++   [面向计算机视觉的深度学习](docs/dl-cv/SUMMARY.md)
++   [深度学习快速参考](docs/dl-quick-ref/SUMMARY.md)
++   [TensorFlow 2.0 快速入门指南](docs/tf-20-quick-start-guide/SUMMARY.md)
++   [TensorFlow 入门](docs/get-start-tf/SUMMARY.md)
++   [TensorFlow 卷积神经网络实用指南](docs/handson-cnn-tf/SUMMARY.md)
++   [Python 人工智能中文版](docs/ai-py/SUMMARY.md)
++   [Python 无监督学习实用指南](docs/handson-unsup-learn-py/SUMMARY.md)
++   [生成对抗网络项目](docs/gan-proj/SUMMARY.md)
++   [TensorFlow 智能移动项目](docs/intel-mobi-proj-tf/SUMMARY.md)
++   [TensorFlow 和 Keras 应用开发入门](docs/begin-app-dev-tf-keras/SUMMARY.md)
++   [TensorFlow 图像深度学习实用指南](docs/handson-dl-img-tf/SUMMARY.md)
++   [Python 元学习实用指南](docs/handson-meta-learn-py/SUMMARY.md)
++   [Python 强化学习实用指南](docs/handson-rl-py/SUMMARY.md)
++   [Python 智能项目](docs/intel-proj-py/SUMMARY.md)
++   [精通 Sklearn 和 TensorFlow 预测性分析](docs/master-pred-anal-sklearn-tf/SUMMARY.md)
++   [TensorFlow 2.0 的新增功能](docs/whats-new-tf2/SUMMARY.md)
++   [UCB CS294-112 深度强化学习中文笔记](docs/ucb-cs294-112-notes-zh/SUMMARY.md)
++   [TensorFlow 2 和 Keras 高级深度学习](docs/adv-dl-tf2-keras/SUMMARY.md)
++   [GCP 上的人工智能实用指南](docs/handson-ai-gcp/SUMMARY.md)
++   [Python 深度学习架构实用指南](docs/handson-dl-arch-py/SUMMARY.md)
++   [Python Web 深度学习实用指南](docs/handson-py-dl-web/SUMMARY.md)
++   [精通 TensorFlow 2.x 计算机视觉](docs/master-cv-tf-2x/SUMMARY.md)
++   [TensorFlow Lite，ML Kit 和 Flutter 移动深度学习](docs/mobi-dl-tflite/SUMMARY.md)
++   [PyTorch 人工智能研讨会](docs/dl-pt-workshop/SUMMARY.md)
++   [Python 一次学习实用指南](docs/handson-1shot-learn-py/SUMMARY.md)
++   [Python 自然语言处理实用指南](docs/handson-nlp-pt-1x/SUMMARY.md)
++   [PyTorch 人工智能基础知识](docs/pt-ai-fund/SUMMARY.md)
++   [PyTorch 深度学习实用指南](docs/pt-dl-handson/SUMMARY.md)
++   [TensorFlow 强化学习](docs/rl-tf/SUMMARY.md)
+
+## 下载
+
+### Docker
+
+```
+docker pull apachecn0/apachecn-dl-zh
+docker run -tid -p <port>:80 apachecn0/apachecn-dl-zh
+# 访问 http://localhost:{port} 查看文档
+```
+
+### PYPI
+
+```
+pip install apachecn-dl-zh
+apachecn-dl-zh <port>
+# 访问 http://localhost:{port} 查看文档
+```
+
+### NPM
+
+```
+npm install -g apachecn-dl-zh
+apachecn-dl-zh <port>
+# 访问 http://localhost:{port} 查看文档
+```
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/SUMMARY.md
new file mode 100644
index 00000000..e7dfd44e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/SUMMARY.md
@@ -0,0 +1,613 @@
++   [Sklearn 与 TensorFlow 机器学习实用指南第二版](docs/hands-on-ml-2e-zh/README.md)
+    +   [零、前言](docs/hands-on-ml-2e-zh/0.md)
+    +   [一、机器学习概览](docs/hands-on-ml-2e-zh/1.md)
+    +   [二、端到端的机器学习项目](docs/hands-on-ml-2e-zh/2.md)
+    +   [三、分类](docs/hands-on-ml-2e-zh/3.md)
+    +   [四、训练模型](docs/hands-on-ml-2e-zh/4.md)
+    +   [五、支持向量机](docs/hands-on-ml-2e-zh/5.md)
+    +   [六、决策树](docs/hands-on-ml-2e-zh/6.md)
+    +   [七、集成学习和随机森林](docs/hands-on-ml-2e-zh/7.md)
+    +   [八、降维](docs/hands-on-ml-2e-zh/8.md)
+    +   [十、使用 Keras 搭建人工神经网络](docs/hands-on-ml-2e-zh/10.md)
+    +   [十一、训练深度神经网络](docs/hands-on-ml-2e-zh/11.md)
+    +   [十二、使用 TensorFlow 自定义模型并训练](docs/hands-on-ml-2e-zh/12.md)
+    +   [十三、使用 TensorFlow 加载和预处理数据](docs/hands-on-ml-2e-zh/13.md)
+    +   [十四、使用卷积神经网络实现深度计算机视觉](docs/hands-on-ml-2e-zh/14.md)
+    +   [十五、使用 RNN 和 CNN 处理序列](docs/hands-on-ml-2e-zh/15.md)
+    +   [十六、使用 RNN 和注意力机制进行自然语言处理](docs/hands-on-ml-2e-zh/16.md)
+    +   [十七、使用自编码器和 GAN 做表征学习和生成式学习](docs/hands-on-ml-2e-zh/17.md)
+    +   [十八、强化学习](docs/hands-on-ml-2e-zh/18.md)
+    +   [十九、规模化训练和部署 TensorFlow 模型](docs/hands-on-ml-2e-zh/19.md)
++   [PyTorch 自然语言处理](docs/nlp-pytorch-zh/README.md)
+    +   [一、基础介绍](docs/nlp-pytorch-zh/1.md)
+    +   [二、传统 NLP 快速回顾](docs/nlp-pytorch-zh/2.md)
+    +   [三、神经网络基础组件](docs/nlp-pytorch-zh/3.md)
+    +   [四、自然语言处理的前馈网络](docs/nlp-pytorch-zh/4.md)
+    +   [五、嵌入单词和类型](docs/nlp-pytorch-zh/5.md)
+    +   [六、自然语言处理的序列模型](docs/nlp-pytorch-zh/6.md)
+    +   [七、自然语言处理的进阶序列模型](docs/nlp-pytorch-zh/7.md)
+    +   [八、自然语言处理的高级序列模型](docs/nlp-pytorch-zh/8.md)
+    +   [九、经典, 前沿和后续步骤](docs/nlp-pytorch-zh/9.md)
++   [TensorFlow 1.x 深度学习秘籍](docs/tf-1x-dl-cookbook/README.md)
+    +   [零、前言](docs/tf-1x-dl-cookbook/00.md)
+    +   [一、TensorFlow 简介](docs/tf-1x-dl-cookbook/01.md)
+    +   [二、回归](docs/tf-1x-dl-cookbook/02.md)
+    +   [三、神经网络：感知器](docs/tf-1x-dl-cookbook/03.md)
+    +   [四、卷积神经网络](docs/tf-1x-dl-cookbook/04.md)
+    +   [五、高级卷积神经网络](docs/tf-1x-dl-cookbook/05.md)
+    +   [六、循环神经网络](docs/tf-1x-dl-cookbook/06.md)
+    +   [七、无监督学习](docs/tf-1x-dl-cookbook/07.md)
+    +   [八、自编码器](docs/tf-1x-dl-cookbook/08.md)
+    +   [九、强化学习](docs/tf-1x-dl-cookbook/09.md)
+    +   [十、移动计算](docs/tf-1x-dl-cookbook/10.md)
+    +   [十一、生成模型和 CapsNet](docs/tf-1x-dl-cookbook/11.md)
+    +   [十二、分布式 TensorFlow 和云深度学习](docs/tf-1x-dl-cookbook/12.md)
+    +   [十三、AutoML 和学习如何学习（元学习）](docs/tf-1x-dl-cookbook/13.md)
+    +   [十四、TensorFlow 处理单元](docs/tf-1x-dl-cookbook/14.md)
++   [PyTorch 中文官方教程 1.7](docs/pt-tut-17/README.md)
+    +   [学习 PyTorch](docs/pt-tut-17/01.md)
+        +   [PyTorch 深度学习：60 分钟的突击](docs/pt-tut-17/02.md)
+            +   [张量](docs/pt-tut-17/03.md)
+            +   [`torch.autograd`的简要介绍](docs/pt-tut-17/04.md)
+            +   [神经网络](docs/pt-tut-17/05.md)
+            +   [训练分类器](docs/pt-tut-17/06.md)
+        +   [通过示例学习 PyTorch](docs/pt-tut-17/07.md)
+            +   [热身：NumPy](docs/pt-tut-17/08.md)
+            +   [PyTorch：张量](docs/pt-tut-17/09.md)
+            +   [PyTorch：张量和 Autograd](docs/pt-tut-17/10.md)
+            +   [PyTorch：定义新的 Autograd 函数](docs/pt-tut-17/11.md)
+            +   [PyTorch：`nn`](docs/pt-tut-17/12.md)
+            +   [PyTorch：`optim`](docs/pt-tut-17/13.md)
+            +   [PyTorch：自定义`nn`模块](docs/pt-tut-17/14.md)
+            +   [PyTorch：控制流 + 权重共享](docs/pt-tut-17/15.md)
+        +   [`torch.nn`到底是什么？](docs/pt-tut-17/16.md)
+        +   [使用 TensorBoard 可视化模型，数据和训练](docs/pt-tut-17/17.md)
+    +   [图片/视频](docs/pt-tut-17/18.md)
+        +   [`torchvision`对象检测微调教程](docs/pt-tut-17/19.md)
+        +   [计算机视觉的迁移学习教程](docs/pt-tut-17/20.md)
+        +   [对抗示例生成](docs/pt-tut-17/21.md)
+        +   [DCGAN 教程](docs/pt-tut-17/22.md)
+    +   [音频](docs/pt-tut-17/23.md)
+        +   [音频 I/O 和`torchaudio`的预处理](docs/pt-tut-17/24.md)
+        +   [使用`torchaudio`的语音命令识别](docs/pt-tut-17/25.md)
+    +   [文本](docs/pt-tut-17/26.md)
+        +   [使用`nn.Transformer`和`torchtext`的序列到序列建模](docs/pt-tut-17/27.md)
+        +   [从零开始的 NLP：使用字符级 RNN 分类名称](docs/pt-tut-17/28.md)
+        +   [从零开始的 NLP：使用字符级 RNN 生成名称](docs/pt-tut-17/29.md)
+        +   [从零开始的 NLP：使用序列到序列网络和注意力的翻译](docs/pt-tut-17/30.md)
+        +   [使用`torchtext`的文本分类](docs/pt-tut-17/31.md)
+        +   [`torchtext`语言翻译](docs/pt-tut-17/32.md)
+    +   [强化学习](docs/pt-tut-17/33.md)
+        +   [强化学习（DQN）教程](docs/pt-tut-17/34.md)
+        +   [训练玩马里奥的 RL 智能体](docs/pt-tut-17/35.md)
+    +   [在生产中部署 PyTorch 模型](docs/pt-tut-17/36.md)
+        +   [通过使用 Flask 的 REST API 在 Python 中部署 PyTorch](docs/pt-tut-17/37.md)
+        +   [TorchScript 简介](docs/pt-tut-17/38.md)
+        +   [在 C++ 中加载 TorchScript 模型](docs/pt-tut-17/39.md)
+        +   [将模型从 PyTorch 导出到 ONNX 并使用 ONNX 运行时运行它（可选）](docs/pt-tut-17/40.md)
+    +   [前端 API](docs/pt-tut-17/41.md)
+        +   [PyTorch 中的命名张量简介（原型）](docs/pt-tut-17/42.md)
+        +   [PyTorch 中通道在最后的内存格式（beta）](docs/pt-tut-17/43.md)
+        +   [使用 PyTorch C++ 前端](docs/pt-tut-17/44.md)
+        +   [自定义 C++ 和 CUDA 扩展](docs/pt-tut-17/45.md)
+        +   [使用自定义 C++ 运算符扩展 TorchScript](docs/pt-tut-17/46.md)
+        +   [使用自定义 C++ 类扩展 TorchScript](docs/pt-tut-17/47.md)
+        +   [TorchScript 中的动态并行性](docs/pt-tut-17/48.md)
+        +   [C++ 前端中的 Autograd](docs/pt-tut-17/49.md)
+        +   [在 C++ 中注册调度运算符](docs/pt-tut-17/50.md)
+    +   [模型优化](docs/pt-tut-17/51.md)
+        +   [分析您的 PyTorch 模块](docs/pt-tut-17/52.md)
+        +   [使用 Ray Tune 的超参数调整](docs/pt-tut-17/53.md)
+        +   [模型剪裁教程](docs/pt-tut-17/54.md)
+        +   [LSTM 单词语言模型上的动态量化（beta）](docs/pt-tut-17/55.md)
+        +   [BERT 上的动态量化（Beta）](docs/pt-tut-17/56.md)
+        +   [PyTorch 中使用 Eager 模式的静态量化（beta）](docs/pt-tut-17/57.md)
+        +   [计算机视觉的量化迁移学习教程（beta）](docs/pt-tut-17/58.md)
+    +   [并行和分布式训练](docs/pt-tut-17/59.md)
+        +   [PyTorch 分布式概述](docs/pt-tut-17/60.md)
+        +   [单机模型并行最佳实践](docs/pt-tut-17/61.md)
+        +   [分布式数据并行入门](docs/pt-tut-17/62.md)
+        +   [用 PyTorch 编写分布式应用](docs/pt-tut-17/63.md)
+        +   [分布式 RPC 框架入门](docs/pt-tut-17/64.md)
+        +   [使用分布式 RPC 框架实现参数服务器](docs/pt-tut-17/65.md)
+        +   [使用 RPC 的分布式管道并行化](docs/pt-tut-17/66.md)
+        +   [使用异步执行实现批量 RPC 处理](docs/pt-tut-17/67.md)
+        +   [将分布式`DataParallel`与分布式 RPC 框架相结合](docs/pt-tut-17/68.md)
++   [使用 TensorFlow 构建机器学习项目中文版](docs/build-ml-proj-tf-zh/README.md)
+    +   [一、探索和转换数据](docs/build-ml-proj-tf-zh/ch01.md)
+    +   [二、聚类](docs/build-ml-proj-tf-zh/ch02.md)
+    +   [三、线性回归](docs/build-ml-proj-tf-zh/ch03.md)
+    +   [四、逻辑回归](docs/build-ml-proj-tf-zh/ch04.md)
+    +   [五、简单的前馈神经网络](docs/build-ml-proj-tf-zh/ch05.md)
+    +   [六、卷积神经网络](docs/build-ml-proj-tf-zh/ch06.md)
+    +   [七、循环神经网络和 LSTM](docs/build-ml-proj-tf-zh/ch07.md)
+    +   [八、深度神经网络](docs/build-ml-proj-tf-zh/ch08.md)
+    +   [九、大规模运行模型 -- GPU 和服务](docs/build-ml-proj-tf-zh/ch09.md)
+    +   [十、库安装和其他提示](docs/build-ml-proj-tf-zh/ch10.md)
++   [TensorFlow 深度学习中文第二版](docs/dl-tf-2e-zh/README.md)
+    +   [一、人工神经网络](docs/dl-tf-2e-zh/ch01.md)
+    +   [二、TensorFlow v1.6 的新功能是什么？](docs/dl-tf-2e-zh/ch02.md)
+    +   [三、实现前馈神经网络](docs/dl-tf-2e-zh/ch03.md)
+    +   [四、CNN 实战](docs/dl-tf-2e-zh/ch04.md)
+    +   [五、使用 TensorFlow 实现自编码器](docs/dl-tf-2e-zh/ch05.md)
+    +   [六、RNN 和梯度消失或爆炸问题](docs/dl-tf-2e-zh/ch06.md)
+    +   [七、TensorFlow GPU 配置](docs/dl-tf-2e-zh/ch07.md)
+    +   [八、TFLearn](docs/dl-tf-2e-zh/ch08.md)
+    +   [九、使用协同过滤的电影推荐](docs/dl-tf-2e-zh/ch09.md)
+    +   [十、OpenAI Gym](docs/dl-tf-2e-zh/ch10.md)
++   [TensorFlow 深度学习实战指南中文版](docs/hands-on-dl-tf-zh/README.md)
+    +   [一、入门](docs/hands-on-dl-tf-zh/ch01.md)
+    +   [二、深度神经网络](docs/hands-on-dl-tf-zh/ch02.md)
+    +   [三、卷积神经网络](docs/hands-on-dl-tf-zh/ch03.md)
+    +   [四、循环神经网络介绍](docs/hands-on-dl-tf-zh/ch04.md)
+    +   [五、总结](docs/hands-on-dl-tf-zh/ch05.md)
++   [精通 TensorFlow 1.x](docs/mastering-tf-1x-zh/README.md)
+    +   [一、TensorFlow 101](docs/mastering-tf-1x-zh/ch01.md)
+    +   [二、TensorFlow 的高级库](docs/mastering-tf-1x-zh/ch02.md)
+    +   [三、Keras 101](docs/mastering-tf-1x-zh/ch03.md)
+    +   [四、TensorFlow 中的经典机器学习](docs/mastering-tf-1x-zh/ch04.md)
+    +   [五、TensorFlow 和 Keras 中的神经网络和 MLP](docs/mastering-tf-1x-zh/ch05.md)
+    +   [六、TensorFlow 和 Keras 中的 RNN](docs/mastering-tf-1x-zh/ch06.md)
+    +   [七、TensorFlow 和 Keras 中的用于时间序列数据的 RNN](docs/mastering-tf-1x-zh/ch07.md)
+    +   [八、TensorFlow 和 Keras 中的用于文本数据的 RNN](docs/mastering-tf-1x-zh/ch08.md)
+    +   [九、TensorFlow 和 Keras 中的 CNN](docs/mastering-tf-1x-zh/ch09.md)
+    +   [十、TensorFlow 和 Keras 中的自编码器](docs/mastering-tf-1x-zh/ch10.md)
+    +   [十一、TF 服务：生产中的 TensorFlow 模型](docs/mastering-tf-1x-zh/ch11.md)
+    +   [十二、迁移学习和预训练模型](docs/mastering-tf-1x-zh/ch12.md)
+    +   [十三、深度强化学习](docs/mastering-tf-1x-zh/ch13.md)
+    +   [十四、生成对抗网络](docs/mastering-tf-1x-zh/ch14.md)
+    +   [十五、TensorFlow 集群的分布式模型](docs/mastering-tf-1x-zh/ch15.md)
+    +   [十六、移动和嵌入式平台上的 TensorFlow 模型](docs/mastering-tf-1x-zh/ch16.md)
+    +   [十七、R 中的 TensorFlow 和 Keras](docs/mastering-tf-1x-zh/ch17.md)
+    +   [十八、调试 TensorFlow 模型](docs/mastering-tf-1x-zh/ch18.md)
+    +   [十九、张量处理单元](docs/mastering-tf-1x-zh/ch19.md)
++   [TensorFlow 机器学习秘籍中文第二版](docs/tf-ml-cookbook-2e-zh/README.md)
+    +   [一、TensorFlow 入门](docs/tf-ml-cookbook-2e-zh/ch01.md)
+    +   [二、TensorFlow 的方式](docs/tf-ml-cookbook-2e-zh/ch02.md)
+    +   [三、线性回归](docs/tf-ml-cookbook-2e-zh/ch03.md)
+    +   [四、支持向量机](docs/tf-ml-cookbook-2e-zh/ch04.md)
+    +   [五、最近邻方法](docs/tf-ml-cookbook-2e-zh/ch05.md)
+    +   [六、神经网络](docs/tf-ml-cookbook-2e-zh/ch06.md)
+    +   [七、自然语言处理](docs/tf-ml-cookbook-2e-zh/ch07.md)
+    +   [八、卷积神经网络](docs/tf-ml-cookbook-2e-zh/ch08.md)
+    +   [九、循环神经网络](docs/tf-ml-cookbook-2e-zh/ch09.md)
+    +   [十、将 TensorFlow 投入生产](docs/tf-ml-cookbook-2e-zh/ch10.md)
+    +   [十一、更多 TensorFlow](docs/tf-ml-cookbook-2e-zh/ch11.md)
++   [与 TensorFlow 的初次接触](docs/first_contact_with_tensorFlow/README.md)
+    +   [前言](docs/first_contact_with_tensorFlow/0.md)
+    +   [1. TensorFlow 基础知识](docs/first_contact_with_tensorFlow/1.md)
+    +   [2. TensorFlow 中的线性回归](docs/first_contact_with_tensorFlow/2.md)
+    +   [3. TensorFlow 中的聚类](docs/first_contact_with_tensorFlow/3.md)
+    +   [4. TensorFlow 中的单层神经网络](docs/first_contact_with_tensorFlow/4.md)
+    +   [5. TensorFlow 中的多层神经网络](docs/first_contact_with_tensorFlow/5.md)
+    +   [6. 并行](docs/first_contact_with_tensorFlow/6.md)
+    +   [后记](docs/first_contact_with_tensorFlow/7.md)
++   [TensorFlow 学习指南](docs/learning-tf-zh/README.md)
+    +   [一、基础](docs/learning-tf-zh/1.md)
+    +   [二、线性模型](docs/learning-tf-zh/2.md)
+    +   [三、学习](docs/learning-tf-zh/3.md)
+    +   [四、分布式](docs/learning-tf-zh/4.md)
++   [TensorFlow Rager 教程](docs/tf-eager-tut/README.md)
+    +   [一、如何使用 TensorFlow Eager 构建简单的神经网络](docs/tf-eager-tut/1.md)
+    +   [二、在 Eager 模式中使用指标](docs/tf-eager-tut/2.md)
+    +   [三、如何保存和恢复训练模型](docs/tf-eager-tut/3.md)
+    +   [四、文本序列到 TFRecords](docs/tf-eager-tut/4.md)
+    +   [五、如何将原始图片数据转换为 TFRecords](docs/tf-eager-tut/5.md)
+    +   [六、如何使用 TensorFlow Eager 从 TFRecords 批量读取数据](docs/tf-eager-tut/6.md)
+    +   [七、使用 TensorFlow Eager 构建用于情感识别的卷积神经网络（CNN）](docs/tf-eager-tut/7.md)
+    +   [八、用于 TensorFlow Eager 序列分类的动态循坏神经网络](docs/tf-eager-tut/8.md)
+    +   [九、用于 TensorFlow Eager 时间序列回归的递归神经网络](docs/tf-eager-tut/9.md)
++   [TensorFlow 高效编程](docs/effective-tf.md)
++   [图嵌入综述：问题，技术与应用](docs/ge-survey-arxiv-1709-07604-zh/README.md)
+    +   [一、引言](docs/ge-survey-arxiv-1709-07604-zh/1.md)
+    +   [三、图嵌入的问题设定](docs/ge-survey-arxiv-1709-07604-zh/2.md)
+    +   [四、图嵌入技术](docs/ge-survey-arxiv-1709-07604-zh/3.md)
+    +   [基于边重构的优化问题](docs/ge-survey-arxiv-1709-07604-zh/4.md)
+    +   [应用](docs/ge-survey-arxiv-1709-07604-zh/5.md)
++   [基于深度学习的推荐系统：综述和新视角](docs/rs-survey-arxiv-1707-07435-zh/README.md)
+    +   [引言](docs/rs-survey-arxiv-1707-07435-zh/1.md)
+    +   [基于深度学习的推荐：最先进的技术](docs/rs-survey-arxiv-1707-07435-zh/2.md)
+    +   [基于卷积神经网络的推荐](docs/rs-survey-arxiv-1707-07435-zh/3.md)
++   [关于卷积神经网络我们理解了什么](docs/what-do-we-understand-about-convnet/README.md)
+    +   [第1章概论](docs/what-do-we-understand-about-convnet/1.md)
+    +   [第2章多层网络](docs/what-do-we-understand-about-convnet/2.1.1-2.1.3.md)
+    +   [2.1.4生成对抗网络](docs/what-do-we-understand-about-convnet/2.1.4-2.1.6.md)
+    +   [2.2.1最近ConvNets演变中的关键架构](docs/what-do-we-understand-about-convnet/2.2.1.md)
+    +   [2.2.2走向ConvNet不变性](docs/what-do-we-understand-about-convnet/2.2.2-2.2.3.md)
+    +   [2.3时空卷积网络](docs/what-do-we-understand-about-convnet/2.3-2.4.md)
+    +   [第3章了解ConvNets构建块](docs/what-do-we-understand-about-convnet/3.1.md)
+    +   [3.2整改](docs/what-do-we-understand-about-convnet/3.2.md)
+    +   [3.3规范化](docs/what-do-we-understand-about-convnet/3.3.md)
+    +   [3.4汇集](docs/what-do-we-understand-about-convnet/3.4-3.5.md)
+    +   [第四章现状](docs/what-do-we-understand-about-convnet/4.1.md)
+    +   [4.2打开问题](docs/what-do-we-understand-about-convnet/4.2.md)
+    +   [参考](docs/what-do-we-understand-about-convnet/ref.md)
++   [机器学习超级复习笔记](docs/super-machine-learning-revision-notes/README.md)
++   [Python 迁移学习实用指南](docs/handson-tl-py/README.md)
+    +   [零、前言](docs/handson-tl-py/0.md)
+    +   [一、机器学习基础](docs/handson-tl-py/1.md)
+    +   [二、深度学习基础](docs/handson-tl-py/2.md)
+    +   [三、了解深度学习架构](docs/handson-tl-py/3.md)
+    +   [四、迁移学习基础](docs/handson-tl-py/4.md)
+    +   [五、释放迁移学习的力量](docs/handson-tl-py/5.md)
+    +   [六、图像识别与分类](docs/handson-tl-py/6.md)
+    +   [七、文本文件分类](docs/handson-tl-py/7.md)
+    +   [八、音频事件识别与分类](docs/handson-tl-py/8.md)
+    +   [九、DeepDream](docs/handson-tl-py/9.md)
+    +   [十、自动图像字幕生成器](docs/handson-tl-py/10.md)
+    +   [十一、图像着色](docs/handson-tl-py/11.md)
++   [面向计算机视觉的深度学习](docs/dl-cv/README.md)
+    +   [零、前言](docs/dl-cv/00.md)
+    +   [一、入门](docs/dl-cv/01.md)
+    +   [二、图像分类](docs/dl-cv/02.md)
+    +   [三、图像检索](docs/dl-cv/03.md)
+    +   [四、对象检测](docs/dl-cv/04.md)
+    +   [五、语义分割](docs/dl-cv/05.md)
+    +   [六、相似性学习](docs/dl-cv/06.md)
+    +   [七、图像字幕](docs/dl-cv/07.md)
+    +   [八、生成模型](docs/dl-cv/08.md)
+    +   [九、视频分类](docs/dl-cv/09.md)
+    +   [十、部署](docs/dl-cv/10.md)
++   [深度学习快速参考](docs/dl-quick-ref/README.md)
+    +   [零、前言](docs/dl-quick-ref/00.md)
+    +   [一、深度学习的基础](docs/dl-quick-ref/01.md)
+    +   [二、使用深度学习解决回归问题](docs/dl-quick-ref/02.md)
+    +   [三、使用 TensorBoard 监控网络训练](docs/dl-quick-ref/03.md)
+    +   [四、使用深度学习解决二分类问题](docs/dl-quick-ref/04.md)
+    +   [五、使用 Keras 解决多分类问题](docs/dl-quick-ref/05.md)
+    +   [六、超参数优化](docs/dl-quick-ref/06.md)
+    +   [七、从头开始训练 CNN](docs/dl-quick-ref/07.md)
+    +   [八、将预训练的 CNN 用于迁移学习](docs/dl-quick-ref/08.md)
+    +   [九、从头开始训练 RNN](docs/dl-quick-ref/09.md)
+    +   [十、使用词嵌入从头开始训练 LSTM](docs/dl-quick-ref/10.md)
+    +   [十一、训练 Seq2Seq 模型](docs/dl-quick-ref/11.md)
+    +   [十二、深度强化学习](docs/dl-quick-ref/12.md)
+    +   [十三、生成对抗网络](docs/dl-quick-ref/13.md)
++   [TensorFlow 2.0 快速入门指南](docs/tf-20-quick-start-guide/README.md)
+    +   [零、前言](docs/tf-20-quick-start-guide/00.md)
+    +   [第 1 部分：TensorFlow 2.00 Alpha 简介](docs/tf-20-quick-start-guide/s1.md)
+    +   [一、TensorFlow 2 简介](docs/tf-20-quick-start-guide/01.md)
+    +   [二、Keras：TensorFlow 2 的高级 API](docs/tf-20-quick-start-guide/02.md)
+    +   [三、TensorFlow 2 和 ANN 技术](docs/tf-20-quick-start-guide/03.md)
+    +   [第 2 部分：TensorFlow 2.00 Alpha 中的监督和无监督学习](docs/tf-20-quick-start-guide/s2.md)
+    +   [四、TensorFlow 2 和监督机器学习](docs/tf-20-quick-start-guide/04.md)
+    +   [五、TensorFlow 2 和无监督学习](docs/tf-20-quick-start-guide/05.md)
+    +   [第 3 部分：TensorFlow 2.00 Alpha 的神经网络应用](docs/tf-20-quick-start-guide/s3.md)
+    +   [六、使用 TensorFlow 2 识别图像](docs/tf-20-quick-start-guide/06.md)
+    +   [七、TensorFlow 2 和神经风格迁移](docs/tf-20-quick-start-guide/07.md)
+    +   [八、TensorFlow 2 和循环神经网络](docs/tf-20-quick-start-guide/08.md)
+    +   [九、TensorFlow 估计器和 TensorFlow HUB](docs/tf-20-quick-start-guide/09.md)
+    +   [十、从 tf1.12 转换为 tf2](docs/tf-20-quick-start-guide/10.md)
++   [TensorFlow 入门](docs/get-start-tf/README.md)
+    +   [零、前言](docs/get-start-tf/ch00.md)
+    +   [一、TensorFlow 基本概念](docs/get-start-tf/ch01.md)
+    +   [二、TensorFlow 数学运算](docs/get-start-tf/ch02.md)
+    +   [三、机器学习入门](docs/get-start-tf/ch03.md)
+    +   [四、神经网络简介](docs/get-start-tf/ch04.md)
+    +   [五、深度学习](docs/get-start-tf/ch05.md)
+    +   [六、TensorFlow GPU 编程和服务](docs/get-start-tf/ch06.md)
++   [TensorFlow 卷积神经网络实用指南](docs/handson-cnn-tf/README.md)
+    +   [零、前言](docs/handson-cnn-tf/0.md)
+    +   [一、TensorFlow 的设置和介绍](docs/handson-cnn-tf/1.md)
+    +   [二、深度学习和卷积神经网络](docs/handson-cnn-tf/2.md)
+    +   [三、TensorFlow 中的图像分类](docs/handson-cnn-tf/3.md)
+    +   [四、目标检测与分割](docs/handson-cnn-tf/4.md)
+    +   [五、VGG，Inception，ResNet 和 MobileNets](docs/handson-cnn-tf/5.md)
+    +   [六、自编码器，变分自编码器和生成对抗网络](docs/handson-cnn-tf/6.md)
+    +   [七、迁移学习](docs/handson-cnn-tf/7.md)
+    +   [八、机器学习最佳实践和故障排除](docs/handson-cnn-tf/8.md)
+    +   [九、大规模训练](docs/handson-cnn-tf/9.md)
+    +   [十、参考文献](docs/handson-cnn-tf/10.md)
++   [Python 人工智能中文版](docs/ai-py/README.md)
+    +   [0 前言](docs/ai-py/00.md)
+    +   [1 人工智能简介](docs/ai-py/01.md)
+    +   [2 人工智能的基本用例](docs/ai-py/02.md)
+    +   [3 机器学习管道](docs/ai-py/03.md)
+    +   [4 特征选择和特征工程](docs/ai-py/04.md)
+    +   [5 使用监督学习的分类和回归](docs/ai-py/05.md)
+    +   [6 集成学习的预测分析](docs/ai-py/06.md)
+    +   [7 通过无监督学习检测模式](docs/ai-py/07.md)
+    +   [8 构建推荐系统](docs/ai-py/08.md)
+    +   [9 逻辑编程](docs/ai-py/09.md)
+    +   [10 启发式搜索技术](docs/ai-py/10.md)
+    +   [11 遗传算法和遗传编程](docs/ai-py/11.md)
+    +   [12 云上的人工智能](docs/ai-py/12.md)
+    +   [13 使用人工智能构建游戏](docs/ai-py/13.md)
+    +   [14 构建语音识别器](docs/ai-py/14.md)
+    +   [15 自然语言处理](docs/ai-py/15.md)
+    +   [16 聊天机器人](docs/ai-py/16.md)
+    +   [17 序列数据和时间序列分析](docs/ai-py/17.md)
+    +   [18 图像识别](docs/ai-py/18.md)
+    +   [19 神经网络](docs/ai-py/19.md)
+    +   [20 将卷积神经网络用于深度学习](docs/ai-py/20.md)
+    +   [21 循环神经网络和其他深度学习模型](docs/ai-py/21.md)
+    +   [22 通过强化学习创建智能体](docs/ai-py/22.md)
+    +   [23 人工智能和大数据](docs/ai-py/23.md)
++   [Python 无监督学习实用指南](docs/handson-unsup-learn-py/README.md)
+    +   [零、前言](docs/handson-unsup-learn-py/00.md)
+    +   [一、无监督学习入门](docs/handson-unsup-learn-py/01.md)
+    +   [二、聚类基础](docs/handson-unsup-learn-py/02.md)
+    +   [三、高级聚类](docs/handson-unsup-learn-py/03.md)
+    +   [四、实用的层次聚类](docs/handson-unsup-learn-py/04.md)
+    +   [五、软聚类和高斯混合模型](docs/handson-unsup-learn-py/05.md)
+    +   [六、异常检测](docs/handson-unsup-learn-py/06.md)
+    +   [七、降维和成分分析](docs/handson-unsup-learn-py/07.md)
+    +   [八、无监督神经网络模型](docs/handson-unsup-learn-py/08.md)
+    +   [九、生成对抗网络和 SOM](docs/handson-unsup-learn-py/09.md)
+    +   [十、习题](docs/handson-unsup-learn-py/10.md)
++   [生成对抗网络项目](docs/gan-proj/README.md)
+    +   [零、前言](docs/gan-proj/0.md)
+    +   [一、生成对抗网络简介](docs/gan-proj/1.md)
+    +   [二、3D-GAN -- 使用 GAN 生成形状](docs/gan-proj/2.md)
+    +   [三、使用条件 GAN 进行人脸老化](docs/gan-proj/3.md)
+    +   [四、使用 DCGAN 生成动漫角色](docs/gan-proj/4.md)
+    +   [五、使用 SRGAN 生成逼真的图像](docs/gan-proj/5.md)
+    +   [六、StackGAN - 逼真的文本到图像合成](docs/gan-proj/6.md)
+    +   [七、CycleGAN - 将绘画变成照片](docs/gan-proj/7.md)
+    +   [八、条件 GAN - 使用条件对抗网络的图像到图像翻译](docs/gan-proj/8.md)
+    +   [九、预测 GAN 的未来](docs/gan-proj/9.md)
++   [TensorFlow 智能移动项目](docs/intel-mobi-proj-tf/README.md)
+    +   [零、前言](docs/intel-mobi-proj-tf/00.md)
+    +   [一、移动 TensorFlow 入门](docs/intel-mobi-proj-tf/01.md)
+    +   [二、通过迁移学习对图像进行分类](docs/intel-mobi-proj-tf/02.md)
+    +   [三、检测物体及其位置](docs/intel-mobi-proj-tf/03.md)
+    +   [四、以惊人的艺术风格变换图片](docs/intel-mobi-proj-tf/04.md)
+    +   [五、了解简单的语音命令](docs/intel-mobi-proj-tf/05.md)
+    +   [六、用自然语言描述图像](docs/intel-mobi-proj-tf/06.md)
+    +   [七、使用 CNN 和 LSTM 识别绘画](docs/intel-mobi-proj-tf/07.md)
+    +   [八、用 RNN 预测股价](docs/intel-mobi-proj-tf/08.md)
+    +   [九、使用 GAN 生成和增强图像](docs/intel-mobi-proj-tf/09.md)
+    +   [十、构建类似 AlphaZero 的手机游戏应用](docs/intel-mobi-proj-tf/10.md)
+    +   [十一、在移动设备上使用 TensorFlow Lite 和 Core ML](docs/intel-mobi-proj-tf/11.md)
+    +   [十二、在 Raspberry Pi 上开发 TensorFlow 应用](docs/intel-mobi-proj-tf/12.md)
++   [TensorFlow 和 Keras 应用开发入门](docs/begin-app-dev-tf-keras/README.md)
+    +   [零、前言](docs/begin-app-dev-tf-keras/0.md)
+    +   [一、神经网络和深度学习简介](docs/begin-app-dev-tf-keras/1.md)
+    +   [二、模型架构](docs/begin-app-dev-tf-keras/2.md)
+    +   [三、模型评估和优化](docs/begin-app-dev-tf-keras/3.md)
+    +   [四、产品化](docs/begin-app-dev-tf-keras/4.md)
++   [TensorFlow 图像深度学习实用指南](docs/handson-dl-img-tf/README.md)
+    +   [零、前言](docs/handson-dl-img-tf/0.md)
+    +   [一、机器学习工具包](docs/handson-dl-img-tf/1.md)
+    +   [二、图片数据](docs/handson-dl-img-tf/2.md)
+    +   [三、经典神经网络](docs/handson-dl-img-tf/3.md)
++   [Python 元学习实用指南](docs/handson-meta-learn-py/README.md)
+    +   [零、前言](docs/handson-meta-learn-py/00.md)
+    +   [一、元学习导论](docs/handson-meta-learn-py/01.md)
+    +   [二、使用连体网络的人脸和音频识别](docs/handson-meta-learn-py/02.md)
+    +   [三、原型网络及其变体](docs/handson-meta-learn-py/03.md)
+    +   [四、使用 TensorFlow 的关系和匹配网络](docs/handson-meta-learn-py/04.md)
+    +   [五、记忆增强神经网络](docs/handson-meta-learn-py/05.md)
+    +   [六、MAML 及其变体](docs/handson-meta-learn-py/06.md)
+    +   [七、元 SGD 和 Reptile](docs/handson-meta-learn-py/07.md)
+    +   [八、作为优化目标的梯度一致性](docs/handson-meta-learn-py/08.md)
+    +   [九、最新进展和后续步骤](docs/handson-meta-learn-py/09.md)
+    +   [十、答案](docs/handson-meta-learn-py/10.md)
++   [Python 强化学习实用指南](docs/handson-rl-py/README.md)
+    +   [零、前言](docs/handson-rl-py/00.md)
+    +   [一、强化学习导论](docs/handson-rl-py/01.md)
+    +   [二、OpenAI 和 TensorFlow 入门](docs/handson-rl-py/02.md)
+    +   [三、马尔可夫决策过程与动态规划](docs/handson-rl-py/03.md)
+    +   [四、用于游戏的蒙特卡洛方法](docs/handson-rl-py/04.md)
+    +   [五、时间差异学习](docs/handson-rl-py/05.md)
+    +   [六、多臂老虎机问题](docs/handson-rl-py/06.md)
+    +   [七、深度学习基础](docs/handson-rl-py/07.md)
+    +   [八、深度 Q 网络和 Atari 游戏](docs/handson-rl-py/08.md)
+    +   [九、用深度循环 Q 网络玩《毁灭战士》](docs/handson-rl-py/09.md)
+    +   [十、异步优势演员评论家网络](docs/handson-rl-py/10.md)
+    +   [十一、策略梯度和优化](docs/handson-rl-py/11.md)
+    +   [十二、Capstone 项目 – 将 DQN 用于赛车](docs/handson-rl-py/12.md)
+    +   [十三、最新进展和后续步骤](docs/handson-rl-py/13.md)
+    +   [十四、答案](docs/handson-rl-py/14.md)
++   [Python 智能项目](docs/intel-proj-py/README.md)
+    +   [零、前言](docs/intel-proj-py/00.md)
+    +   [一、人工智能系统的基础](docs/intel-proj-py/01.md)
+    +   [二、迁移学习](docs/intel-proj-py/02.md)
+    +   [三、神经机器翻译](docs/intel-proj-py/03.md)
+    +   [四、使用 GAN 的时尚行业样式迁移](docs/intel-proj-py/04.md)
+    +   [五、视频字幕应用](docs/intel-proj-py/05.md)
+    +   [六、智能推荐系统](docs/intel-proj-py/06.md)
+    +   [七、电影评论情感分析移动应用](docs/intel-proj-py/07.md)
+    +   [八、用于客户服务的会话式 AI 聊天机器人](docs/intel-proj-py/08.md)
+    +   [九、使用强化学习的自主无人驾驶汽车](docs/intel-proj-py/09.md)
+    +   [十、深度学习视角的验证码](docs/intel-proj-py/10.md)
++   [精通 Sklearn 和 TensorFlow 预测性分析](docs/master-pred-anal-sklearn-tf/README.md)
+    +   [零、前言](docs/master-pred-anal-sklearn-tf/0.md)
+    +   [一、回归和分类的集成方法](docs/master-pred-anal-sklearn-tf/1.md)
+    +   [二、交叉验证和参数调整](docs/master-pred-anal-sklearn-tf/2.md)
+    +   [三、使用特征](docs/master-pred-anal-sklearn-tf/3.md)
+    +   [四、人工神经网络和 TensorFlow 简介](docs/master-pred-anal-sklearn-tf/4.md)
+    +   [五、将 TensorFlow 和深度神经网络用于预测分析](docs/master-pred-anal-sklearn-tf/5.md)
++   [TensorFlow 2.0 的新增功能](docs/whats-new-tf2/README.md)
+    +   [零、前言](docs/whats-new-tf2/0.md)
+    +   [第 1 部分：TensorFlow 2.0 - 架构和 API 更改](docs/whats-new-tf2/pt1.md)
+        +   [一、TensorFlow 2.0 入门](docs/whats-new-tf2/1.md)
+        +   [二、Keras 默认集成和急切执行](docs/whats-new-tf2/2.md)
+    +   [第 2 部分：TensorFlow 2.0 - 数据和模型训练管道](docs/whats-new-tf2/pt2.md)
+        +   [三、设计和构建输入数据管道](docs/whats-new-tf2/3.md)
+        +   [四、TensorBoard 的模型训练和使用](docs/whats-new-tf2/4.md)
+    +   [第 3 部分：TensorFlow 2.0 - 模型推断和部署以及 AIY](docs/whats-new-tf2/pt3.md)
+        +   [五、模型推理管道 - 多平台部署](docs/whats-new-tf2/5.md)
+        +   [六、AIY 项目和 TensorFlow Lite](docs/whats-new-tf2/6.md)
+    +   [第 4 部分：TensorFlow 2.0 - 迁移，总结](docs/whats-new-tf2/pt4.md)
+        +   [七、从 TensorFlow 1.x 迁移到 2.0](docs/whats-new-tf2/7.md)
++   [UCB CS294-112 深度强化学习中文笔记](docs/ucb-cs294-112-notes-zh/README.md)
+    +   [(1) 简介](docs/ucb-cs294-112-notes-zh/1.md)
+    +   [(2) 模仿学习](docs/ucb-cs294-112-notes-zh/2.md)
+    +   [(3) 增强学习简介](docs/ucb-cs294-112-notes-zh/3.md)
+    +   [(4) 策略梯度法](docs/ucb-cs294-112-notes-zh/4.md)
+    +   [(5) 演员-评论家算法](docs/ucb-cs294-112-notes-zh/5.md)
+    +   [(6) 基于值函数的方法](docs/ucb-cs294-112-notes-zh/6.md)
+    +   [(7) 深度增强学习中的 Q 学习方法](docs/ucb-cs294-112-notes-zh/7.md)
+    +   [(8) 最优控制与规划](docs/ucb-cs294-112-notes-zh/8.md)
+    +   [(9) 用数据拟合模型](docs/ucb-cs294-112-notes-zh/9.md)
+    +   [(10) 基于模型的增强学习的策略训练](docs/ucb-cs294-112-notes-zh/10.md)
+    +   [(11) 概率图模型与软化增强学习](docs/ucb-cs294-112-notes-zh/11.md)
+    +   [(12) 逆增强学习](docs/ucb-cs294-112-notes-zh/12.md)
++   [TensorFlow 2 和 Keras 高级深度学习](docs/adv-dl-tf2-keras/README.md)
+    +   [零、前言](docs/adv-dl-tf2-keras/00.md)
+    +   [一、使用 Keras 入门高级深度学习](docs/adv-dl-tf2-keras/01.md)
+    +   [二、深度神经网络](docs/adv-dl-tf2-keras/02.md)
+    +   [三、自编码器](docs/adv-dl-tf2-keras/03.md)
+    +   [四、生成对抗网络（GAN）](docs/adv-dl-tf2-keras/04.md)
+    +   [五、改进的 GAN](docs/adv-dl-tf2-keras/05.md)
+    +   [六、纠缠表示 GAN](docs/adv-dl-tf2-keras/06.md)
+    +   [七、跨域 GAN](docs/adv-dl-tf2-keras/07.md)
+    +   [八、变分自编码器（VAE）](docs/adv-dl-tf2-keras/08.md)
+    +   [九、深度强化学习](docs/adv-dl-tf2-keras/09.md)
+    +   [十、策略梯度方法](docs/adv-dl-tf2-keras/10.md)
+    +   [十一、对象检测](docs/adv-dl-tf2-keras/11.md)
+    +   [十二、语义分割](docs/adv-dl-tf2-keras/12.md)
+    +   [十三、使用互信息的无监督学习](docs/adv-dl-tf2-keras/13.md)
++   [GCP 上的人工智能实用指南](docs/handson-ai-gcp/README.md)
+    +   [零、前言](docs/handson-ai-gcp/00.md)
+    +   [第 1 节：Google Cloud Platform 的基础](docs/handson-ai-gcp/sec1.md)
+        +   [一、AI 和 GCP 概述](docs/handson-ai-gcp/01.md)
+        +   [二、使用 GCP 组件的计算和处理](docs/handson-ai-gcp/02.md)
+    +   [第 2 节：使用 Google Cloud Platform 的人工智能](docs/handson-ai-gcp/sec2.md)
+        +   [三、XGBoost 的机器学习应用](docs/handson-ai-gcp/03.md)
+        +   [四、使用 Cloud AutoML](docs/handson-ai-gcp/04.md)
+        +   [五、构建大数据云机器学习引擎](docs/handson-ai-gcp/05.md)
+        +   [六、使用 DialogFlow 的智能对话应用](docs/handson-ai-gcp/06.md)
+    +   [第 3 节：Google Cloud Platform 上的 TensorFlow](docs/handson-ai-gcp/sec3.md)
+        +   [七、了解云 TPU](docs/handson-ai-gcp/07.md)
+        +   [八、使用 Cloud ML Engine 实现 TensorFlow 模型](docs/handson-ai-gcp/08.md)
+        +   [九、构建预测应用](docs/handson-ai-gcp/09.md)
+    +   [第 4 节：构建应用和即将发布的功能](docs/handson-ai-gcp/sec4.md)
+        +   [十、构建一个 AI 应用](docs/handson-ai-gcp/10.md)
++   [Python 深度学习架构实用指南](docs/handson-dl-arch-py/README.md)
+    +   [零、前言](docs/handson-dl-arch-py/0.md)
+    +   [第 1 节：深度学习的元素](docs/handson-dl-arch-py/sec1.md)
+        +   [一、深度学习入门](docs/handson-dl-arch-py/1.md)
+        +   [二、深度前馈网络](docs/handson-dl-arch-py/2.md)
+        +   [三、受限玻尔兹曼机和自编码器](docs/handson-dl-arch-py/3.md)
+    +   [第 2 节：卷积神经网络](docs/handson-dl-arch-py/sec2.md)
+        +   [四、CNN 架构](docs/handson-dl-arch-py/4.md)
+        +   [五、移动神经网络和 CNN](docs/handson-dl-arch-py/5.md)
+    +   [第 3 节：序列建模](docs/handson-dl-arch-py/sec3.md)
+        +   [六、循环神经网络](docs/handson-dl-arch-py/6.md)
+    +   [第 4 节：生成对抗网络（GAN）](docs/handson-dl-arch-py/sec4.md)
+        +   [七、生成对抗网络](docs/handson-dl-arch-py/7.md)
+    +   [第 5 节：深度学习和高级人工智能的未来](docs/handson-dl-arch-py/sec5.md)
+        +   [八、深度学习的新趋势](docs/handson-dl-arch-py/8.md)
++   [Python Web 深度学习实用指南](docs/handson-py-dl-web/README.md)
+    +   [零、前言](docs/handson-py-dl-web/00.md)
+    +   [第 1 节：Web 人工智能](docs/handson-py-dl-web/sec1.md)
+        +   [一、揭秘人工智能和机器学习基础](docs/handson-py-dl-web/01.md)
+    +   [第 2 节：使用深度学习的 Web 开发](docs/handson-py-dl-web/sec2.md)
+        +   [二、使用 Python 入门深度学习](docs/handson-py-dl-web/02.md)
+        +   [三、创建您的第一个深度学习 Web 应用](docs/handson-py-dl-web/03.md)
+        +   [四、TensorFlow.js 入门](docs/handson-py-dl-web/04.md)
+    +   [第 3 节：用于 Web 开发的不同深度学习 API 入门](docs/handson-py-dl-web/sec3.md)
+        +   [五、通过 API 进行深度学习](docs/handson-py-dl-web/05.md)
+        +   [六、Google Cloud Platform 上的 Python 深度学习](docs/handson-py-dl-web/06.md)
+        +   [七、AWS 上的 Python DL：对象检测和家庭自动化](docs/handson-py-dl-web/07.md)
+        +   [八、Microsoft Azure 上的 Python 深度学习](docs/handson-py-dl-web/08.md)
+    +   [第 4 节：生产中的深度学习（智能 Web 应用）](docs/handson-py-dl-web/sec4.md)
+        +   [九、启用深度学习的网站的通用生产框架](docs/handson-py-dl-web/09.md)
+        +   [十、通过深度学习保护 Web 应用安全](docs/handson-py-dl-web/10.md)
+        +   [十一、DIY - Web DL 生产环境](docs/handson-py-dl-web/11.md)
+        +   [十二、使用 DL API 和客户支持聊天机器人创建 E2E Web 应用](docs/handson-py-dl-web/12.md)
+    +   [十三、附录：Web 深度学习的成功案例和新兴领域](docs/handson-py-dl-web/13.md)
++   [精通 TensorFlow 2.x 计算机视觉](docs/master-cv-tf-2x/README.md)
+    +   [零、前言](docs/master-cv-tf-2x/0.md)
+    +   [第 1 节：计算机视觉和神经网络概论](docs/master-cv-tf-2x/sec1.md)
+        +   [一、计算机视觉和 TensorFlow 基础知识](docs/master-cv-tf-2x/1.md)
+        +   [二、使用局部二进制模式的内容识别](docs/master-cv-tf-2x/2.md)
+        +   [三、使用 OpenCV 和 CNN 的人脸检测](docs/master-cv-tf-2x/3.md)
+        +   [四、用于图像的深度学习](docs/master-cv-tf-2x/4.md)
+    +   [第 2 节：使用 TensorFlow 的计算机视觉高级概念](docs/master-cv-tf-2x/sec2.md)
+        +   [五、神经网络架构和模型](docs/master-cv-tf-2x/5.md)
+        +   [六、使用迁移学习的视觉搜索](docs/master-cv-tf-2x/6.md)
+        +   [七、YOLO 对象检测](docs/master-cv-tf-2x/7.md)
+        +   [八、语义分割与神经样式迁移](docs/master-cv-tf-2x/8.md)
+    +   [第 3 节：使用 TensorFlow 的计算机视觉的高级实现](docs/master-cv-tf-2x/sec3.md)
+        +   [九、使用多任务深度学习的动作识别](docs/master-cv-tf-2x/9.md)
+        +   [十、R-CNN，SSD 和 R-FCN 对象检测](docs/master-cv-tf-2x/10.md)
+    +   [第 4 节：边缘和云端的 TensorFlow 实现](docs/master-cv-tf-2x/sec4.md)
+        +   [十一、带有 CPU/GPU 优化的边缘设备上的深度学习](docs/master-cv-tf-2x/11.md)
+        +   [十二、用于计算机视觉的云计算平台](docs/master-cv-tf-2x/12.md)
++   [TensorFlow Lite，ML Kit 和 Flutter 移动深度学习](docs/mobi-dl-tflite/README.md)
+    +   [零、前言](docs/mobi-dl-tflite/00.md)
+    +   [一、移动深度学习简介](docs/mobi-dl-tflite/01.md)
+    +   [二、移动视觉 - 使用设备上的模型的人脸检测](docs/mobi-dl-tflite/02.md)
+    +   [三、使用 Google Action 的聊天机器人](docs/mobi-dl-tflite/03.md)
+    +   [四、认识植物种类](docs/mobi-dl-tflite/04.md)
+    +   [五、从摄像机源生成实时字幕](docs/mobi-dl-tflite/05.md)
+    +   [六、构建人工智能认证系统](docs/mobi-dl-tflite/06.md)
+    +   [七、语音/多媒体处理 - 使用 AI 生成音乐](docs/mobi-dl-tflite/07.md)
+    +   [八、基于强化神经网络的国际象棋引擎](docs/mobi-dl-tflite/08.md)
+    +   [九、构建图像超分辨率应用](docs/mobi-dl-tflite/09.md)
+    +   [十、前方的路](docs/mobi-dl-tflite/10.md)
+    +   [十一、附录](docs/mobi-dl-tflite/11.md)
++   [PyTorch 人工智能研讨会](docs/dl-pt-workshop/README.md)
+    +   [零、前言](docs/dl-pt-workshop/0.md)
+    +   [一、深度学习和 PyTorch 简介](docs/dl-pt-workshop/1.md)
+    +   [二、神经网络的构建块](docs/dl-pt-workshop/2.md)
+    +   [三、使用 DNN 的分类问题](docs/dl-pt-workshop/3.md)
+    +   [四、卷积神经网络](docs/dl-pt-workshop/4.md)
+    +   [五、样式迁移](docs/dl-pt-workshop/5.md)
+    +   [六、使用 RNN 分析数据序列](docs/dl-pt-workshop/6.md)
+    +   [七、附录](docs/dl-pt-workshop/7.md)
++   [Python 一次学习实用指南](docs/handson-1shot-learn-py/README.md)
+    +   [零、前言](docs/handson-1shot-learn-py/0.md)
+    +   [第一部分：一次学习简介](docs/handson-1shot-learn-py/sec1.md)
+        +   [一、一次学习简介](docs/handson-1shot-learn-py/1.md)
+    +   [第二部分：深度学习架构](docs/handson-1shot-learn-py/sec2.md)
+        +   [二、基于指标的方法](docs/handson-1shot-learn-py/2.md)
+        +   [三、基于模型的方法](docs/handson-1shot-learn-py/3.md)
+        +   [四、基于优化的方法](docs/handson-1shot-learn-py/4.md)
+    +   [第三部分：其他方法和结论](docs/handson-1shot-learn-py/sec3.md)
+        +   [五、基于生成建模的方法](docs/handson-1shot-learn-py/5.md)
+        +   [六、总结和其他方法](docs/handson-1shot-learn-py/6.md)
++   [Python 自然语言处理实用指南](docs/handson-nlp-pt-1x/README.md)
+    +   [零、前言](docs/handson-nlp-pt-1x/0.md)
+    +   [第一部分：用于 NLP 的 PyTorch 1.x 的要点](docs/handson-nlp-pt-1x/sec1.md)
+        +   [一、机器学习和深度学习的基础](docs/handson-nlp-pt-1x/1.md)
+        +   [二、用于 NLP 的 PyTorch 1.x 入门](docs/handson-nlp-pt-1x/2.md)
+    +   [第二部分：自然语言处理基础](docs/handson-nlp-pt-1x/sec2.md)
+        +   [三、NLP 和文本嵌入](docs/handson-nlp-pt-1x/3.md)
+        +   [四、文本预处理，词干提取和词形还原](docs/handson-nlp-pt-1x/4.md)
+    +   [第三部分：使用 PyTorch 1.x 的实际 NLP 应用](docs/handson-nlp-pt-1x/sec3.md)
+        +   [五、循环神经网络和情感分析](docs/handson-nlp-pt-1x/5.md)
+        +   [六、用于文本分类的卷积神经网络](docs/handson-nlp-pt-1x/6.md)
+        +   [七、使用序列到序列神经网络的文本翻译](docs/handson-nlp-pt-1x/7.md)
+        +   [八、使用基于注意力的神经网络构建聊天机器人](docs/handson-nlp-pt-1x/8.md)
+        +   [九、前方的路](docs/handson-nlp-pt-1x/9.md)
++   [PyTorch 人工智能基础知识](docs/pt-ai-fund/README.md)
+    +   [零、前言](docs/pt-ai-fund/0.md)
+    +   [一、使用 PyTorch 使用张量](docs/pt-ai-fund/1.md)
+    +   [二、与神经网络协作](docs/pt-ai-fund/2.md)
+    +   [三、用于计算机视觉的卷积神经网络](docs/pt-ai-fund/3.md)
+    +   [四、用于 NLP 的循环神经网络](docs/pt-ai-fund/4.md)
+    +   [五、迁移学习和 TensorBoard](docs/pt-ai-fund/5.md)
+    +   [六、探索生成对抗网络](docs/pt-ai-fund/6.md)
+    +   [七、深度强化学习](docs/pt-ai-fund/7.md)
+    +   [八、在 PyTorch 中生产 AI 模型](docs/pt-ai-fund/8.md)
++   [PyTorch 深度学习实用指南](docs/pt-dl-handson/README.md)
+    +   [零、前言](docs/pt-dl-handson/0.md)
+    +   [一、深度学习演练和 PyTorch 简介](docs/pt-dl-handson/1.md)
+    +   [二、简单的神经网络](docs/pt-dl-handson/2.md)
+    +   [三、深度学习工作流程](docs/pt-dl-handson/3.md)
+    +   [四、计算机视觉](docs/pt-dl-handson/4.md)
+    +   [五、序列数据处理](docs/pt-dl-handson/5.md)
+    +   [六、生成网络](docs/pt-dl-handson/6.md)
+    +   [七、强化学习](docs/pt-dl-handson/7.md)
+    +   [八、生产中的 PyTorch ](docs/pt-dl-handson/8.md)
++   [TensorFlow 强化学习](docs/rl-tf/README.md)
+    +   [零、前言](docs/rl-tf/00.md)
+    +   [一、深度学习–架构和框架](docs/rl-tf/01.md)
+    +   [二、使用 OpenAI Gym 训练强化学习智能体](docs/rl-tf/02.md)
+    +   [三、马尔可夫决策过程](docs/rl-tf/03.md)
+    +   [四、策略梯度](docs/rl-tf/04.md)
+    +   [五、Q 学习和深度 Q 网络](docs/rl-tf/05.md)
+    +   [六、异步方法](docs/rl-tf/06.md)
+    +   [七、一切都是机器人-真正的战略游戏](docs/rl-tf/07.md)
+    +   [八、AlphaGo –最好的强化学习](docs/rl-tf/08.md)
+    +   [九、自动驾驶中的强化学习](docs/rl-tf/09.md)
+    +   [十、金融投资组合管理](docs/rl-tf/10.md)
+    +   [十一、机器人技术中的强化学习](docs/rl-tf/11.md)
+    +   [十二、广告技术中的深度强化学习](docs/rl-tf/12.md)
+    +   [十三、图像处理中的强化学习](docs/rl-tf/13.md)
+    +   [十四、NLP 中的深度强化学习](docs/rl-tf/14.md)
+    +   [十五、强化学习的其他主题](docs/rl-tf/15.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/00.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/00.md
new file mode 100644
index 00000000..9d3c83b6
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/00.md
@@ -0,0 +1,137 @@
+# 零、前言
+
+近年来，深度学习在视觉，语音，自然语言处理和理解以及所有其他领域的大量数据难题中取得了前所未有的成功案例。 公司，大学，政府和研究组织对该领域的兴趣加速了该领域的发展。 本书通过三个新的章节介绍了深度学习中的重要主题：“对象检测”，“语义分割”和“使用互信息的无监督学习”。 通过提供原理的背景知识，挖掘概念背后的直觉，使用 Keras 实现方程式和算法以及检查结果来解释高级理论。
+
+**人工智能**（**AI**）到今天为止还远远不是一个易于理解的领域。 **深度学习**（**DL**）作为 AI 的子字段，处于相同位置。 尽管它还不是一个成熟的领域，但许多现实世界的应用，例如基于视觉的检测和识别，自主导航，产品推荐，语音识别和合成，节能，药物发现，财务和营销，已经在使用 DL 算法。 。 将发现并构建更多应用。 本书的目的是解释高级概念，提供示例实现，并让作为其领域专家的读者识别目标应用。
+
+尚未完全成熟的领域是一把双刃剑。 一方面，它为发现和利用提供了很多机会。 深度学习中有许多未解决的问题。 这就意味着可以抢先进入市场的机会–无论是在产品开发，发布还是认可方面。 另一个优势是，在关键任务环境中很难信任一个尚未被完全理解的领域。 我们可以肯定地说，如果被问到，很少有机器学习工程师会乘坐由深度学习系统控制的自动驾驶飞机。 要获得这种信任级别，需要做很多工作。 本书中讨论的高级概念很有可能在获得这种信任级别中扮演重要角色。
+
+没有 DL 书能够完全涵盖整个领域。 这本书也不例外。 给定时间和空间，我们可能会涉及到有趣的领域，例如自然语言处理和理解，语音合成，自动机器学习（AutoML），图神经网络（GNN），贝叶斯深度学习等等。 但是，本书相信选择和解释选定的区域，以便读者可以从事其他未涵盖的领域。
+
+作为即将着手阅读本书的读者，请记住，您选择的是一个令人兴奋的领域，会对社会产生巨大影响。 我们很幸运能有一份工作，希望我们在早晨醒来时继续努力。
+
+# 这本书是给谁的
+
+本书面向希望更好地了解深度学习高级主题的机器学习工程师和学生。 每个讨论都通过 Keras 中的代码实现进行了补充。 特别是，使用的是 TensorFlow 2 的 Keras API 或简称为`tf.keras`。这本书适合希望了解如何将理论转化为 Keras 中的工作代码实现的读者。 除了理解理论外，代码实现通常是将机器学习应用于实际问题的艰巨任务之一。
+
+# 本书涵盖的内容
+
+“第 1 章”，“Keras 高级深度学习入门”涵盖了深度学习的关键概念，例如优化，正则化，损失函数，基本层和网络及其在`tf.keras`中的实现 。 本章回顾了使用顺序 API 的深度学习和`tf.keras`。
+
+“第 2 章”，“深度神经网络”讨论了`tf.keras`的函数式 API。 使用函数式 API 在`tf.keras`中检查并实现了两种广泛使用的深度网络架构 ResNet 和 DenseNet。
+
+“第 3 章”，“自编码器”涵盖了一种称为自编码器的通用网络结构，该结构用于发现输入数据的潜在表示形式。 `tf.keras`中讨论并实现了自编码器的两个示例应用，即降噪和着色。
+
+“第 4 章”，“生成对抗网络（GANs）”讨论了深度学习的最新重大进展之一。 GAN 用于生成看起来真实的新综合数据。 本章介绍 GAN 的原理。 在`tf.keras`中检查并实现了 GAN 的两个示例 DCGAN 和 CGAN。
+
+“第 5 章”，“改进的 GAN” 涵盖了改进基本 GAN 的算法。 该算法解决了训练 GAN 的困难，并提高了合成数据的感知质量。 在`tf.keras`中讨论并实现了 WGAN，LSGAN 和 ACGAN。
+
+“第 6 章”，“纠缠表示 GAN” 讨论了如何控制 GAN 生成的合成数据的属性。 如果潜在表示被解开，则可以控制属性。 `tf.keras`中介绍了并实现了两种解开表示的技术，即 InfoGAN 和 StackedGAN。
+
+“第 7 章”，“跨域 GAN” 涵盖了 GAN 的实际应用，将图像从一个域转换为另一个域，通常称为跨域迁移。 CycleGAN 是一种广泛使用的跨域 GAN，在`tf.keras`中进行了讨论和实现。 本章演示 CycleGAN 执行着色和样式迁移。
+
+“第 8 章”，“变分自编码器（VAE）”讨论了 DL 中的另一个重要主题。 与 GAN 类似，VAE 是用于生成综合数据的生成模型。 与 GAN 不同，VAE 专注于可解码的连续潜空间，该空间适合于变化推理。 `tf.keras`涵盖并实现了 VAE 及其变体 CVAE 和 β-VAE。
+
+“第 9 章”，“深度强化学习”解释了强化学习和 Q 学习的原理。 提出了两种实现离散动作空间 Q 学习的技术，即 Q 表更新和**深度 Q 网络**（**DQN**）。 在 OpenAI Gym 环境中演示了在`tf.keras`中使用 Python 和 DQN 进行 Q 学习的实现。
+
+“第 10 章”，“策略梯度方法”解释了如何使用神经网络来学习强化学习中的决策策略。 在`tf.keras`和 OpenAI Gym 环境中涵盖并实现了四种方法，即 REINFORCE，带有基线的 REINFORCE，演员评论家和优势演员评论家。 本章中的示例演示了连续操作空间上的策略梯度方法。
+
+“第 11 章”，“对象检测”讨论了计算机视觉，对象检测或识别和定位图像中对象的最常见应用之一。 涵盖了称为 SSD 的多尺度目标检测算法的关键概念，并使用`tf.keras`逐步构建了实现。 提出了用于数据集收集和标记的示例技术。 之后，使用数据集对 SSD 的`tf.keras`实现进行训练和评估。
+
+“第 12 章”，“语义分割”讨论了计算机视觉，语义分割或识别图像中每个像素的对象类别的另一种常见应用。 讨论了分割原理。 然后，将更详细地介绍语义分割。 使用`tf.keras`构建并评估了称为 FCN 的语义分割算法的示例实现。 使用上一章中收集的相同数据集，但重新标记了语义分割。
+
+“第 13 章”，“使用互信息的无监督学习”研究了如果 DL 严重依赖人类标签，它将不会继续发展。 无监督学习侧重于不需要人工标签的算法。 一种实现无监督学习的有效技术是利用**互信息**（**MI**）的概念。 通过最大化 MI，可以使用`tf.keras`实现和评估无监督的聚类/分类。
+
+# 充分利用这本书
+
+*   **深度学习和 Python**：读者应该具有深度学习及其在 Python 中的实现的基础知识。 尽管以前使用 Keras 实现深度学习算法的经验很重要，但这不是必需的。“第 1 章”， “Keras 高级深度学习入门”概述了深度学习的概念及其在`tf.keras`中的实现。
+*   **数学**：本书中的讨论假定读者熟悉大学级别的微积分，线性代数，统计和概率。
+*   **GPU**：本书中的大多数`tf.keras`实现都需要 GPU。 如果没有 GPU，则由于涉及的时间（数小时至数天），因此无法执行许多代码示例。 本书中的示例尽可能多地使用合理数量的数据，以最大程度地减少高性能计算机的使用。 读者应该至少可以使用 NVIDIA GTX 1060。
+*   **编辑器**：本书的示例代码是在 Ubuntu Linux 18.04 LTS 和 MacOS Catalina 中使用 vim 编辑的。 任何支持 Python 的文本编辑器都是可以接受的。
+*   **TensorFlow 2**：本书中的代码示例是使用 TensorFlow 2 的 Keras API 或`tf2`编写的。 请确保正确安装了 NVIDIA GPU 驱动和`tf2`。
+*   **GitHub**：我们通过示例和实验学习。 请从其 GitHub 存储库中`git pull`或`fork`这本书的代码包。 获取代码后，对其进行检查。 运行。 更改。 再次运行。 通过调整代码进行创造性的实验。 这是欣赏本章中解释的所有理论的唯一方法。 在[此书的 GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)上点击星星也受到高度赞赏。
+
+## 下载示例代码文件
+
+[本书的代码包托管在 GitHub 上](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+我们还从[这里](https://github.com/PacktPublishing/)提供了丰富的书籍和视频目录中的其他代码包。 去看一下！
+
+## 下载彩色图像
+
+我们还提供本书中使用的彩色图像图像。 [您可以在此处下载](https://static.packt-cdn.com/downloads/9787838821654_ColorImages.pdf)。
+
+## 使用约定
+
+本书中的代码使用 Python。 更具体地说，是 Python3。例如：
+
+代码块设置如下：
+
+```py
+def build_generator(inputs, image_size):
+    """Build a Generator Model
+    Stack of BN-ReLU-Conv2DTranpose to generate fake images
+    Output activation is sigmoid instead of tanh in [1].
+    Sigmoid converges easily.
+    Arguments:
+        inputs (Layer): Input layer of the generator 
+            the z-vector)
+        image_size (tensor): Target size of one side
+            (assuming square image)
+    Returns:
+        generator (Model): Generator Model
+    """
+    image_resize = image_size // 4
+    # network parameters 
+    kernel_size = 5
+    layer_filters = [128, 64, 32, 1]
+    x = Dense(image_resize * image_resize * layer_filters[0])(inputs)
+    x = Reshape((image_resize, image_resize, layer_filters[0]))(x)
+    for filters in layer_filters:
+        # first two convolution layers use strides = 2
+        # the last two use strides = 1
+        if filters > layer_filters[-2]:
+            strides = 2
+        else:
+            strides = 1
+        x = BatchNormalization()(x)
+        x = Activation('relu')(x)
+        x = Conv2DTranspose(filters=filters,
+                            kernel_size=kernel_size,
+                            strides=strides,
+                            padding='same')(x)
+    x = Activation('sigmoid')(x)
+    generator = Model(inputs, x, name='generator')
+    return generator 
+```
+
+当我们希望提请您注意代码块的特定部分时，相关的行或项以粗体显示：
+
+```py
+# generate fake images
+fake_images = generator.predict([noise, fake_labels])
+# real + fake images = 1 batch of train data
+x = np.concatenate((real_images, fake_images))
+# real + fake labels = 1 batch of train data labels
+labels = np.concatenate((real_labels, fake_labels)) 
+```
+
+只要有可能，都包括文档字符串。 至少，文本注释用于最小化空间使用。
+
+任何命令行代码执行都编写如下：
+
+```py
+python3 dcgan-mnist-4.2.1.py 
+```
+
+上面的示例具有以下布局：`algorithm-dataset-chapter.section.number.py`。 命令行示例是“第 4 章”，“生成对抗网络（GANs）”第二部分和第一列表中 MNIST 数据集上的 DCGAN。 在某些情况下，未编写要执行的显式命令行，但假定是：
+
+```py
+python3 name-of-the-file-in-listing 
+```
+
+该代码示例的文件名包含在“列表”标题中。 本书使用“列表”标识文本中的代码示例。
+
+**粗体**：表示新的术语，重要的单词或您在屏幕上看到的单词，例如在菜单或对话框中，也显示在这样的文本中。 例如：StackedGAN 具有两个附加损失函数，即**条件**和**熵**。
+
+警告或重要提示如下所示。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/01.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/01.md
new file mode 100644
index 00000000..458a837b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/01.md
@@ -0,0 +1,934 @@
+# 一、使用 Keras 入门高级深度学习
+
+在第一章中，我们将介绍在本书中将使用的三个深度学习人工神经网络。 这些网络是 MLP，CNN 和 RNN（在第 2 节中定义和描述），它们是本书涵盖的所选高级深度学习主题的构建块，例如自回归网络（自编码器，GAN 和 VAE），深度强化学习 ，对象检测和分割以及使用互信息的无监督学习。
+
+在本章中，我们将一起讨论如何使用 Keras 库实现基于 MLP，CNN 和 RNN 的模型。 更具体地说，我们将使用名为`tf.keras`的 TensorFlow Keras 库。 我们将首先探讨为什么`tf.keras`是我们的理想选择。 接下来，我们将深入研究三个深度学习网络中的实现细节。
+
+本章将：
+
+*   确定为什么`tf.keras`库是进行高级深度学习的绝佳选择
+*   介绍 MLP，CNN 和 RNN –高级深度学习模型的核心构建模块，我们将在本书中使用它们
+*   提供有关如何使用`tf.keras`实现基于 MLP，CNN 和 RNN 的模型的示例
+*   在此过程中，开始引入重要的深度学习概念，包括优化，正则化和损失函数
+
+在本章结束时，我们将使用`tf.keras`实现基本的深度学习网络。 在下一章中，我们将介绍基于这些基础的高级深度学习主题。 让我们通过讨论 Keras 及其作为深度学习库的功能来开始本章。
+
+# 1\. Keras 为什么是完美的深度学习库？
+
+Keras [1]是一个受欢迎的深度学习库，在撰写本文时有 370,000 个开发人员在使用它-这个数字每年以大约 35% 的速度增长。 超过 800 位贡献者积极维护它。 我们将在本书中使用的一些示例已添加到 Keras GitHub 官方存储库中。
+
+谷歌的 TensorFlow 是一个流行的开源深度学习库，它使用 Keras 作为其库的高级 API。 通常称为`tf.keras`。 在本书中，我们将交替使用 Keras 和`tf.keras`一词。
+
+`tf.keras`作为深度学习库是一种流行的选择，因为它已高度集成到 TensorFlow 中，TensorFlow 因其可靠性而在生产部署中广为人知。 TensorFlow 还提供了各种工具，用于生产部署和维护，调试和可视化以及在嵌入式设备和浏览器上运行模型。 在技​​术行业中，Google，Netflix，Uber 和 NVIDIA 使用 Keras。
+
+我们选择`tf.keras`作为本书的首选工具，因为它是致力于加速深度学习模型实现的库。 这使得 Keras 非常适合我们想要实用且动手的时候，例如，当我们探索本书中的高级深度学习概念时。 由于 Keras 旨在加速深度学习模型的开发，训练和验证，因此在有人可以最大限度地利用库之前，必须学习该领域的关键概念。
+
+[本书的所有示例都可以在 GitHub 的以下链接上找到](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+在`tf.keras`库中，各层之间就像乐高积木一样相互连接，从而形成了一个干净且易于理解的模型。 模型训练非常简单，只需要数据，大量训练和监控指标即可。
+
+最终结果是，与其他深度学习库（例如 PyTorch）相比，大多数深度学习模型可以用更少的代码行来实现。 通过使用 Keras，我们将通过节省代码实现时间来提高生产率，而这些时间可以用于执行更关键的任务，例如制定更好的深度学习算法。
+
+同样，Keras 是快速实现深度学习模型的理想选择，就像我们将在本书中使用的那样。 使用**顺序模型 API**，只需几行代码即可构建典型模型。 但是，不要被它的简单性所误导。
+
+Keras 还可以使用其函数式 API 以及用于动态图的`Model`和`Layer`类来构建更高级和复杂的模型，可以对其进行定制以满足独特的需求。 函数式 API 支持构建类似图的模型，层重用以及创建行为类似于 Python 函数的模型。 同时，`Model`和`Layer`类提供了用于实现罕见或实验性深度学习模型和层的框架。
+
+## 安装 Keras 和 TensorFlow
+
+Keras 不是独立的深度学习库。 如您在“图 1.1.1”中所看到的，它建立在另一个深度学习库或后端的之上。 这可能是 Google 的 TensorFlow，MILA 的 Theano，微软的 CNTK 或 Apache MXNet。 但是，与本书的上一版不同，我们将使用 TensorFlow 2.0（`tf2`或简称为`tf`）提供的 Keras（更好地称为`tf.keras`），以利用 tf2 所提供的有用工具。 `tf.keras`也被认为是 TensorFlow 的事实上的前端，它在生产环境中表现出了公认的可靠性。 此外，在不久的将来，将不再提供 Keras 对 TensorFlow 以外的后端的支持。
+
+从 Keras 迁移到`tf.keras`通常就像更改一样简单：
+
+```py
+from keras... import ... 
+```
+
+至
+
+```py
+from tensorflow.keras... import ... 
+```
+
+本书中的代码示例全部以 **Python 3** 编写，以支持 **Python 2** 于 2020 年结束。
+
+在硬件上，Keras 在 CPU，GPU 和 Google 的 TPU 上运行。 在本书中，我们将在 CPU 和 NVIDIA GPU（特别是 GTX 1060，GTX 1080Ti，RTX 2080Ti，V100 和 Quadro RTX 8000）上进行测试：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_01_01.png)
+
+图 1.1.1：Keras 是位于其他深度学习框架之上的高级库。 CPU，GPU 和 TPU 支持 Keras。
+
+在继续进行本书的其余部分之前，我们需要确保正确安装了`tf2`。 有多种执行安装的方法。 一个示例是通过使用`pip3`安装`tf2`：
+
+```py
+$ sudo pip3 install tensorflow 
+```
+
+如果我们具有支持已正确安装驱动的 NVIDIA GPU，以及 NVIDIA CUDA 工具包和 cuDNN 深度神经网络库，则强烈建议您安装启用 GPU 的版本，因为它可以加快训练和预测的速度：
+
+```py
+$ sudo pip3 install tensorflow-gpu 
+```
+
+无需安装 Keras，因为它已经是`tf2`中的包。 如果您不愿意在系统范围内安装库，强烈建议使用 [Anaconda](https://www.anaconda.com/distribution/) 之类的环境。 除了具有隔离环境之外，Anaconda 发行版还安装了用于数据科学的常用第三方包，这些包对于深度学习是必不可少的。
+
+本书中提供的示例将需要其他包，例如`pydot`，`pydot_ng`，`vizgraph`，`python3-tk`和`matplotlib`。 在继续本章之前，我们需要安装这些包。
+
+如果安装了`tf2`及其依赖项，则以下内容不会产生任何错误：
+
+```py
+$ python3
+>>> import tensorflow as tf
+>>> print(tf.__version__)
+2.0.0
+>>> from tensorflow.keras import backend as K
+>>> print(K.epsilon())
+1e-07 
+```
+
+本书没有涵盖完整的 Keras API。 我们将仅介绍解释本书中选定的高级深度学习主题所需的材料。 有关更多信息，请查阅 Keras 官方文档，该文档在[这里](https://keras.io)或[这里](https://www.tensorflow.org/guide/keras/overview)。
+
+在随后的部分中，将讨论 MLP，CNN 和 RNN 的详细信息。 这些网络将用于使用`tf.keras`构建简单的分类器。
+
+# 2\. MLP，CNN 和 RNN
+
+我们已经提到，我们将使用三个深度学习网络，它们是：
+
+*   **MLP**：多层感知器
+*   **CNN**：卷积神经网络
+*   **RNN**：循环神经网络
+
+这些是我们将在本书中使用的三个网络。 稍后，您会发现它们经常结合在一起以利用每个网络的优势。
+
+在本章中，我们将更详细地讨论这些构建块。 在以下各节中，将介绍 MLP 以及其他重要主题，例如损失函数，优化器和正则化器。 接下来，我们将介绍 CNN 和 RNN。
+
+## MLP，CNN 和 RNN 之间的区别
+
+MLP 是**全连接**（**FC**）网络。 在某些文献中，您经常会发现将该称为或深度前馈网络或前馈神经网络。 在本书中，我们将使用术语 MLP。 从已知目标应用的角度了解此网络将有助于我们深入了解高级深度学习模型设计的根本原因。
+
+MLP 在简单的逻辑和线性回归问题中很常见。 但是，MLP 对于处理顺序和多维数据模式不是最佳的。 通过设计，MLP 难以记住顺序数据中的模式，并且需要大量参数来处理多维数据。
+
+对于顺序数据输入，RNN 很受欢迎，因为内部设计允许网络发现数据历史记录中的依存关系，这对预测很有用。 对于诸如图像和视频之类的多维数据，CNN 擅长提取用于分类，分割，生成和其他下游任务的特征映射。 在某些情况下，一维卷积形式的 CNN 也用于具有顺序输入数据的网络。 但是，在大多数深度学习模型中，将 MLP 和 CNN 或 RNN 结合起来可以充分利用每个网络。
+
+MLP，CNN 和 RNN 并不完整整个深度网络。 需要识别**目标**或**损失函数**，**优化器**，和**调节器**。 目标是减少训练期间的损失函数值，因为这样的减少是模型正在学习的一个很好的指标。
+
+为了使值最小化，模型使用了优化器。 这是一种算法，它确定在每个训练步骤中应如何调整权重和偏差。 经过训练的模型不仅必须对训练数据起作用，而且还必须对训练环境之外的数据起作用。 正则化器的作用是确保训练后的模型能够推广到新数据。
+
+现在，让我们进入这三个网络–我们将从谈论 MLP 网络开始。
+
+# 3\. 多层感知器（MLP）
+
+我们将要看的这三个网络中的第一个是 MLP 网络。 让我们假设目标是创建一个神经网络，用于基于手写数字识别数字。 例如，当网络的输入是手写数字 8 的图像时，相应的预测也必须是数字 8。这是分类器网络的经典工作，可以使用逻辑回归进行训练。 为了训练和验证分类器网络，必须有足够大的手写数字数据集。 *国家标准技术混合研究院*数据集，简称 MNIST [2]，通常被视为 **Hello World 深度学习数据集**。 它是用于手写数字分类的合适数据集。
+
+在我们讨论 MLP 分类器模型之前，必须了解 MNIST 数据集。 本书中的大量示例都使用 MNIST 数据集。 MNIST 用于来解释并验证许多深度学习理论，因为它包含的 70,000 个样本很小，但是的信息足够丰富：
+
+![](img/B14853_01_02.png)
+
+图 1.3.1：来自 MNIST 数据集的示例图像。 每个灰度图像为`28×28`像素。
+
+在下面的中，我们将简要介绍 MNIST。
+
+## MNIST 数据集
+
+MNIST 是从 0 到 9 的手写数字的集合。它具有 60,000 张图像的训练集和 10,000 张测试图像，这些图像被分为相应的类别或标签。 在某些文献中，术语**目标**或**基本事实**也用于指**标签**。
+
+在上图中，可以看到 MNIST 数字的样本图像，每个样本的大小为`28 x 28`像素（灰度）。 为了在 Keras 中使用 MNIST 数据集，提供了一个 API，用于下载并自动提取图像和标签。“列表 1.3.1”演示了如何仅在一行中加载 MNIST 数据集，从而使我们既可以计算训练和测试标签，又可以绘制 25 个随机数字图像。
+
+“列表 1.3.1”：`mnist-sampler-1.3.1.py`
+
+```py
+import numpy as np
+from tensorflow.keras.datasets import mnist
+import matplotlib.pyplot as plt 
+```
+
+```py
+# load dataset
+(x_train, y_train), (x_test, y_test) = mnist.load_data() 
+```
+
+```py
+# count the number of unique train labels
+unique, counts = np.unique(y_train, return_counts=True)
+print("Train labels: ", dict(zip(unique, counts))) 
+```
+
+```py
+# count the number of unique test labels
+unique, counts = np.unique(y_test, return_counts=True)
+print("Test labels: ", dict(zip(unique, counts))) 
+```
+
+```py
+# sample 25 mnist digits from train dataset
+indexes = np.random.randint(0, x_train.shape[0], size=25)
+images = x_train[indexes]
+labels = y_train[indexes] 
+```
+
+```py
+# plot the 25 mnist digits
+plt.figure(figsize=(5,5))
+for i in range(len(indexes)):
+    plt.subplot(5, 5, i + 1)
+    image = images[i]
+    plt.imshow(image, cmap='gray')
+    plt.axis('off') 
+```
+
+```py
+plt.savefig("mnist-samples.png")
+plt.show()
+plt.close('all') 
+```
+
+`mnist.load_data()`方法很方便，因为不需要分别加载所有 70,000 张图像和标签并将它们存储在数组中。 执行以下命令：
+
+```py
+python3 mnist-sampler-1.3.1.py 
+```
+
+在命令行上，该代码示例打印训练和测试数据集中的标签分布：
+
+```py
+Train labels:{0: 5923, 1: 6742, 2: 5958, 3: 6131, 4: 5842, 5: 5421, 6: 5918, 7: 6265, 8: 5851, 9: 5949}
+Test labels:{0: 980, 1: 1135, 2: 1032, 3: 1010, 4: 982, 5: 892, 6: 958, 7: 1028, 8: 974, 9: 1009} 
+```
+
+之后，代码将绘制 25 个随机数字，如先前在“图 1.3.1”中所示。
+
+在讨论 MLP 分类器模型之前，必须记住，虽然 MNIST 数据由二维张量组成，但应根据输入层的类型对它进行重塑。 以下“图 1.3.2”显示了如何为 MLP，CNN 和 RNN 输入层重塑`3×3`灰度图像：
+
+![](img/B14853_01_03.png)
+
+图 1.3.2：根据输入层的类型，对与 MNIST 数据相似的输入图像进行重塑。 为简单起见，显示了`3×3`灰度图像的重塑。
+
+在以下各节中，将介绍 MNIST 的 MLP 分类器模型。 我们将演示如何使用`tf.keras`有效地构建，训练和验证模型。
+
+## MNIST 数字分类器模型
+
+“图 1.3.3”中显示的建议的 MLP 模型可用于 MNIST 数字分类。 当单元或感知器暴露在外时，MLP 模型是一个全连接网络，如图“图 1.3.4”所示。 我们还将展示如何根据第`n`个单元的权重`w[i]`和偏置`b[n]`的输入来计算感知器的输出。 相应的`tf.keras`实现在“列表 1.3.2”中进行了说明：
+
+![](img/B14853_01_04.png)
+
+图 1.3.3：MLP MNIST 数字分类器模型
+
+![](img/B14853_01_05.png)
+
+图 1.3.4：图 1.3.3 中的 MLP MNIST 数字分类器由全连接层组成。 为简单起见，未显示激活层和退出层。 还详细显示了一个单元或感知器。
+
+“列表 1.3.2”：`mlp-mnist-1.3.2.py`
+
+```py
+import numpy as np
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import Dense, Activation, Dropout
+from tensorflow.keras.utils import to_categorical, plot_model
+from tensorflow.keras.datasets import mnist 
+```
+
+```py
+# load mnist dataset
+(x_train, y_train), (x_test, y_test) = mnist.load_data() 
+```
+
+```py
+# compute the number of labels
+num_labels = len(np.unique(y_train)) 
+```
+
+```py
+# convert to one-hot vector
+y_train = to_categorical(y_train)
+y_test = to_categorical(y_test)
+
+# image dimensions (assumed square)
+image_size = x_train.shape[1]
+input_size = image_size * image_size 
+```
+
+```py
+# resize and normalize
+x_train = np.reshape(x_train, [-1, input_size])
+x_train = x_train.astype('float32') / 255
+x_test = np.reshape(x_test, [-1, input_size])
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# network parameters
+batch_size = 128
+hidden_units = 256
+dropout = 0.45 
+```
+
+```py
+# model is a 3-layer MLP with ReLU and dropout after each layer
+model = Sequential()
+model.add(Dense(hidden_units, input_dim=input_size))
+model.add(Activation('relu'))
+model.add(Dropout(dropout))
+model.add(Dense(hidden_units))
+model.add(Activation('relu'))
+model.add(Dropout(dropout))
+model.add(Dense(num_labels))
+# this is the output for one-hot vector
+model.add(Activation('softmax'))
+model.summary()
+plot_model(model, to_file='mlp-mnist.png', show_shapes=True) 
+```
+
+```py
+# loss function for one-hot vector
+# use of adam optimizer
+# accuracy is good metric for classification tasks
+model.compile(loss='categorical_crossentropy',
+              optimizer='adam',
+              metrics=['accuracy'])
+# train the network
+model.fit(x_train, y_train, epochs=20, batch_size=batch_size) 
+```
+
+```py
+# validate the model on test dataset to determine generalization
+_, acc = model.evaluate(x_test,
+                        y_test,
+                        batch_size=batch_size,
+                        verbose=0)
+print("\nTest accuracy: %.1f%%" % (100.0 * acc)) 
+```
+
+在讨论模型实现之前，数据必须具有正确的形状和格式。 加载 MNIST 数据集后，标签的数量计算为：
+
+```py
+# compute the number of labels
+num_labels = len(np.unique(y_train)) 
+```
+
+硬编码`num_labels = 10`也可以选择。 但是，让计算机完成工作始终是一个好习惯。 该代码假定`y_train`的标签为 0 到 9。
+
+此时，标签为数字格式，即从 0 到 9。标签的这种稀疏标量表示形式不适用于按类别输出概率的神经网络预测层。 一种更合适的格式称为`one-hot vector`，这是一个十维向量，除数字类的索引外，所有元素均为 0。 例如，如果标签为 2，则等效`one-hot vector`为[0,0,1,0,0,0,0,0,0,0]。 第一个标签的索引为 0。
+
+以下各行将每个标签转换为`one-hot vector`：
+
+```py
+# convert to one-hot vector
+y_train = to_categorical(y_train)
+y_test = to_categorical(y_test) 
+```
+
+在深度学习中，数据存储在张量中。 张量一词适用于标量（0D 张量），向量（1D 张量），矩阵（二维张量）和多维张量。
+
+从这一点出发，除非标量，向量或矩阵使解释更清楚，否则将使用术语张量。
+
+如下所示的其余代码将计算图像尺寸，第一密集层的`input_size`值，并将每个像素值从 0 缩放到 255，范围从 0.0 缩放到 1.0。 尽管可以直接使用原始像素值，但最好对输入数据进行规范化，以避免产生可能会使训练变得困难的较大梯度值。 网络的输出也被标准化。 训练后，可以通过将输出张量乘以 255 来将所有内容恢复为整数像素值。
+
+提出的模型基于 MLP 层。 因此，输入应为一维张量。 这样，将`x_train`和`x_test`分别重塑为`[60,000，28 * 28]`和`[10,000，28 * 28]`。 在 NumPy 中，大小为 -1 表示让库计算正确的尺寸。 在`x_train`的情况下为 60,000。
+
+```py
+# image dimensions (assumed square) 400
+image_size = x_train.shape[1]
+input_size = image_size * image_size 
+```
+
+```py
+# resize and normalize
+x_train = np.reshape(x_train, [-1, input_size])
+x_train = x_train.astype('float32') / 255
+x_test = np.reshape(x_test, [-1, input_size])
+x_test = x_test.astype('float32') / 255 
+```
+
+在准备好数据集之后，以下内容将重点介绍使用 Keras 的顺序 API 构建 MLP 分类器模型。
+
+## 使用 MLP 和 Keras 构建模型
+
+数据准备之后，接下来是构建模型。 所提出的模型由三个 MLP 层组成。 在 Keras 中，将 MLP 层称为**密集**，它表示紧密连接的层。 第一和第二个 MLP 层本质上是相同的，每个都有 256 个单元，然后是**整流线性单元**（**ReLU**）激活和退出。 由于 128、512 和 1,024 个单元的表现指标较低，因此选择 256 个单元。 在 128 个单元的情况下，网络收敛迅速，但测试精度较低。 512 或 1,024 的额外单元数量不会显着提高测试精度。
+
+单元数是超参数。 它控制网络的**容量**。 容量是网络可以近似的函数复杂性的度量。 例如，对于多项式，度是超参数。 随着程度的增加，函数的能力也随之增加。
+
+如以下代码行所示，使用 Keras 的顺序 API 实现分类器模型。 如果模型需要一个输入和一个输出（由一系列层处理），这就足够了。 为了简单起见，我们现在将使用它。 但是，在“第 2 章”，“深度神经网络”中，将引入 Keras 的函数式 API 来实现高级深度学习模型，该模型需要更复杂的结构（例如多个输入和输出）。
+
+```py
+# model is a 3-layer MLP with ReLU and dropout after each layer model = Sequential()
+model.add(Dense(hidden_units, input_dim=input_size))
+model.add(Activation('relu'))
+model.add(Dropout(dropout))
+model.add(Dense(hidden_units))
+model.add(Activation('relu'))
+model.add(Dropout(dropout))
+model.add(Dense(num_labels))
+# this is the output for one-hot vector model.add(Activation('softmax')) 
+```
+
+由于`Dense`层是线性运算，因此`Dense`层的序列只能近似线性函数。 问题是 MNIST 数字分类本质上是非线性过程。 在`Dense`层之间插入`relu`激活将使 MLP 网络能够对非线性映射建模。 `relu`或 ReLU 是一个简单的非线性函数。 这很像一个过滤器，它允许正输入不变地通过，同时将其他所有值都钳位为零。 数学上，`relu`用以下公式表示，见“图 1.3.5”：
+
+![](img/B14853_01_001.png)
+
+![](img/B14853_01_06.png)
+
+图 1.3.5：ReLU 函数图。 ReLU 函数在神经网络中引入了非线性。
+
+还可以使用其他非线性函数，例如`elu`，`selu`，`softplus`，`sigmoid`和`tanh`。 但是，`relu`是最常用的函数，由于其简单性，在计算上是有效的。 Sigmoid 和 tanh 函数在输出层中用作激活函数，稍后将描述。“表 1.3.1”显示了每个激活函数的方程式：
+
+| `relu` | `relu(x) = max(0, x)` | 1.3.1 |
+| --- | --- | --- |
+| `softplus` | `softplus(x) = log(1 + exp(x))` | 1.3.2 |
+| `elu` | ![](img/B14853_01_002.png) 其中`a≥0`并且是可调超参数 | 1.3.3 |
+| `selu` | `selu(x) = k×elu(x, a)`其中`k = 1.0507009873554804934193193349852946`和`a = 1.6732632423543772848170429916717` | 1.3.4 |
+| `sigmoid` | ![](img/B14853_01_003.png) | 1.3.5 |
+| `tanh` | ![](img/B14853_01_004.png) | 1.3.6 |
+
+表 1.3.1：常见非线性激活函数的定义
+
+尽管我们已完成 MLP 分类器模型的关键层，但我们尚未解决泛化问题或模型超出训练数据集的能力。 为了解决这个问题，我们将在下一节介绍正则化。
+
+## 正则化
+
+神经网络倾向于记住其训练数据，特别是如果它包含的容量超过。 在这种情况下，当经受测试数据时，网络将发生灾难性的故障。 这是网络无法推广的经典情况。 为了避免这种趋势，模型使用了正则化层或函数。 常见的正则化层是`Dropout`。
+
+丢弃的想法很简单。 给定丢弃率（此处将其设置为`dropout = 0.45`），丢弃层会从参与下一层的单元中随机删除这一部分。 例如，如果第一层具有 256 个单元，则在应用`dropout = 0.45`之后，只有`(1-0.45) * 256`个单元，来自第 1 层的 140 个单元参与第 2 层。
+
+丢弃层使神经网络对于无法预见的输入数据具有鲁棒性，因为即使缺少某些单元，训练后的神经网络也可以正确预测。 值得注意的是，输出层中没有使用丢弃，它仅在训练期间处于活动状态。 此外，在预测期间不存在丢弃现象。
+
+除了诸如丢弃之类的正则化之外，还可以使用其他正则化器。 在 Keras 中，可以按层对偏置，权重和激活输出进行正则化。 `l1`和`l2`通过添加罚函数来支持较小的参数值。 `l1`和`l2`都使用绝对值（`l1`）或平方（`l2`）之和的分数来执行惩罚。 换句话说，惩罚函数迫使优化器找到较小的参数值。 参数值小的神经网络对来自输入数据的噪声的存在更加不敏感。
+
+例如，带有`fraction=0.001`的`l2`权重正则器可以实现为：
+
+```py
+from tensorflow.keras.regularizers import l2
+model.add(Dense(hidden_units,
+                kernel_regularizer=l2(0.001),
+                input_dim=input_size)) 
+```
+
+如果使用`l1`或`l2`正则化，则不添加任何附加层。 正则化在内部施加在`Dense`层中。 对于建议的模型，丢弃仍然具有比`l2`更好的表现。
+
+我们的模型几乎已经完成。 下一节将重点介绍输出层和损失函数。
+
+## 输出激活和损失函数
+
+输出的层具有 10 个单元，其后是`softmax`激活层。 这 10 个单元对应于 10 个可能的标签，类或类别。 可以用数学方式表示`softmax`激活，如以下等式所示：
+
+![](img/B14853_01_005.png) (Equation 1.3.7)
+
+该方程适用于所有`N = 10`输出，`x[i]`对于`i = 0, 1, ..., 9`作最终预测。 `softmax`的概念非常简单。 通过对预测进行归一化，将输出压缩为概率。 在此，每个预测输出都是该索引是给定输入图像的正确标签的概率。 所有输出的所有概率之和为 1.0。 例如，当`softmax`层生成预测时，它将是一个 10 维一维张量，看起来像以下输出：
+
+```py
+[3.57351579e-11 7.08998016e-08   
+ 2.30154569e-07 6.35787558e-07 
+ 5.57471187e-11 4.15353840e-09 
+ 3.55973775e-16 9.99995947e-01
+ 1.29531730e-09 3.06023480e-06] 
+```
+
+预测输出张量建议输入图像的索引具有最高概率，因此将为 7。 `numpy.argmax()`方法可用于确定具有最高值的元素的索引。
+
+输出激活层还有其他选择，例如`linear`，`sigmoid`或`tanh`。 `linear`激活是一种恒等函数。 它将其输入复制到其输出。 `sigmoid`函数更具体地是，称为**逻辑 Sigmoid**。 如果预测张量的元素将独立地映射在 0.0 和 1.0 之间，则将使用此方法。 与`softmax`中不同，预测张量的所有元素的总和不限于 1.0。 例如，`sigmoid`用作情感预测（从 0.0 到 1.0、0.0 不好，1.0 很好）或图像生成（0.0 映射到像素级别 0 和 1.0 映射到像素 255）的最后一层 。
+
+`tanh`函数将其输入映射在 -1.0 到 1.0 的范围内。 如果输出可以同时以正值和负值摆幅，则这一点很重要。 `tanh`函数在循环神经网络的内部层中更普遍使用，但也已用作输出层激活。 如果在输出激活中使用 tanh 代替`sigmoid`，则必须适当缩放使用的数据。 例如，不是使用`x = x / 255`缩放`[0.0, 1.0]`范围内的每个灰度像素，而是使用`x = (x - 127.5) / 127.5`将其分配在`[-1.0, 1.0]`范围内。
+
+下图“图 1.3.6”显示了`sigmoid`和`tanh`函数。 数学上，Sigmoid 可以用以下公式表示：
+
+![](img/B14853_01_008.png) (Equation 1.3.5)
+
+![](img/B14853_01_07.png)
+
+图 1.3.6：Sigmoid 和正切图
+
+预测张量距单热地面真值向量有多远称为损失。 损失函数的一种类型是`mean_squared_error`（**MSE**），或者是目标或标签与预测之间差异的平方的平均值。 在当前示例中，我们使用`categorical_crossentropy`。 它是目标或标签乘积与每个类别的预测对数之和的负数。 Keras 中还有其他损失函数，例如`mean_absolute_error`和`binary_crossentropy`。“表 1.3.2”总结了的常见损失函数。
+
+| **损失函数** | **公式** |
+| --- | --- |
+| `mean_squared_error` | ![](img/B14853_01_009.png) |
+| `mean_absolute_error` | ![](img/B14853_01_010.png) |
+| `categorical_crossentropy` | ![](img/B14853_01_011.png) |
+| `binary_crossentropy` | ![](img/B14853_01_012.png) |
+
+表 1.3.2：常见损失函数汇总。 类别是指标签和预测中的类别数（例如：MNIST 为 10）。 所示的损失方程式仅适用于一个输出。 平均损失值是整个批量的平均值。
+
+损失函数的选择不是任意的，而应作为模型正在学习的标准。 对于按类别进行分类，在`softmax`激活层之后，`categorical_crossentropy`或`mean_squared_error`是一个不错的选择。 `binary_crossentropy`损失函数通常在`sigmoid`激活层之后使用，而`mean_squared_error`是`tanh`输出的选项。
+
+在下一部分中，我们将讨论优化算法以最小化我们在此处讨论的损失函数。
+
+## 优化
+
+通过优化，目标是使损失函数最小化。 这个想法是，如果将损失减少到可接受的水平，则该模型将间接学习将输入映射到输出的函数。 表现指标用于确定模型是否了解了基础数据分布。 Keras 中的默认指标是**损失**。 在训练，验证和测试期间，还可以包括其他指标，例如**准确率**。 准确率是基于地面真实性的正确预测的百分比或分数。 在深度学习中，还有许多其他表现指标。 但是，它取决于模型的目标应用。 在文献中，报告了**测试数据集**上训练后的模型的表现指标，用于与其他深度学习模型进行比较。
+
+在 Keras 中，优化器有个选择。 最常用的优化器是**随机梯度下降**（**SGD**），**自适应矩**（**Adam**）和**均方根传播**（**RMSprop**）。 每个优化器均具有可调参数，例如学习率，动量和衰减。 Adam 和 RMSprop 是具有自适应学习率的 SGD 的变体。 在提出的分类器网络中，使用了 Adam，因为它具有最高的测试精度。
+
+SGD 被认为是最基本的优化程序。 它是演算中梯度下降的简单版本。 在**梯度下降**（**GD**）中，追踪下坡函数的曲线可找到最小值，就像在山谷中下坡直至到达底部一样。
+
+GD 算法如图 1.3.7 所示。 假设`x`是被调整以找到`y`的最小值（例如，损失函数）的参数（例如，权重）。 从`x = -0.5`的任意点开始。 梯度`dy/dx = -2.0`。 GD 算法强加`x`然后更新为`x = -0.5 - ε(-2.0)`。 `x`的新值等于旧值，再加上`ε`缩放的梯度的相反值。 小数字`ε`是指学习率。 如果`ε = 0.01`，则`x`的新值为 -0.48。 GD 是迭代执行的。 在每一步，`y`都将接近其最小值。 在`x = 0.5`时，`dy/dx = 0`。 GD 已找到`y = -1.25`的绝对最小值。 梯度建议不要进一步改变`x`。
+
+学习率的选择至关重要。 大的`ε`值可能找不到最小值，因为搜索只会在最小值附近来回摆动。 一方面，在找到最小值之前，较大的`ε`值可能需要进行大量迭代。 在有多个最小值的情况下，搜索可能会陷入局部最小值。
+
+![](img/B14853_01_08.png)
+
+图 1.3.7：GD 类似于在函数曲线上向下走直到到达最低点。 在此图中，全局最小值为`x = 0.5`。
+
+多个极小值的示例可以在“图 1.3.8”中看到。 如果由于某种原因从图的左侧开始搜索并且学习率很小，则 GD 很可能会发现`x = -1.51`是*最小值* 。 GD 无法在`x = 1.66`时找到全局最小值。 具有足够值的学习率将使 GD 可以克服`x = 0.0`的问题。
+
+在深度学习实践中，通常建议从更高的学习率开始（例如，从 0.1 到 0.001），并随着损失接近最小值而逐渐降低学习率。
+
+![](img/B14853_01_09.png)
+
+图 1.3.8：具有 2 个最小值的函数图，`x = -1.51`和`x = 1.66`。 还显示了该函数的导数。
+
+GD 通常不用于深度神经网络，因为遇到数百万个要训练的参数很常见。 执行完整的 GD 在计算上效率低下。 而是使用 SGD。 在 SGD 中，选择一小批样本以计算下降的近似值。 参数（例如权重和偏差）可通过以下公式进行调整：
+
+![](img/B14853_01_021.png)
+
+在该等式中，`θ`和`g = 1/m ᐁ[θ] ΣL`分别是损失函数的参数和梯度张量。`g`由损失函数的偏导数计算得出。 出于 GPU 优化的目的，建议最小批量大小为 2 的幂。 在建议的网络中，`batch_size = 128`。
+
+“公式 1.3.8”计算最后一层参数更新。 那么，我们如何调整前几层的参数呢？ 在这种情况下，应用微分链规则将导数传播到较低层并相应地计算梯度。 该算法在深度学习中称为**反向传播**。 反向传播的详细信息超出了本书的范围。 但是，可以在[这里](http://neuralnetworksanddeeplearning.com)找到很好的在线参考。
+
+由于优化是基于微分的，因此得出损失函数的重要标准是它必须平滑或可微。 当引入新的损失函数时，这是要牢记的重要约束。
+
+给定训练数据集，损失函数的选择，优化器和正则化器，现在可以通过调用`fit()`函数来训练模型：
+
+```py
+# loss function for one-hot vector 
+# use of adam optimizer
+# accuracy is a good metric for classification tasks model.compile(loss='categorical_crossentropy',
+optimizer='adam', metrics=['accuracy']) 
+```
+
+```py
+# train the network
+model.fit(x_train, y_train, epochs=20, batch_size=batch_size) 
+```
+
+这是 Keras 的另一个有用函数。 通过仅提供`x`和`y`数据，要训练的周期数和批量大小，`fit()`完成了其余工作。 在其他深度学习框架中，这转化为多项任务，例如以适当的格式准备输入和输出数据，加载，监视等等。 尽管所有这些都必须在`for`循环内完成，但在 Keras 中，一切都只需要一行即可完成。
+
+在`fit()`函数中，一个周期是整个训练数据的完整采样。 `batch_size`参数是每个训练步骤要处理的输入数量的样本大小。 为了完成一个周期，`fit()`将处理等于训练数据集大小的步数除以批量大小再加上 1，以补偿任何小数部分。
+
+训练模型后，我们现在可以评估其表现。
+
+## 表现评估
+
+至此，MNIST 数字分类器的模型现已完成。 表现评估将是的下一个关键步骤，以确定提议的训练模型是否已提出令人满意的解决方案。 将模型训练 20 个时间段就足以获得可比较的表现指标。
+
+下表“表 1.3.3”列出了不同的网络配置和相应的表现指标。 在“层”下，显示第 1 到第 3 层的单元数。对于每个优化器，将使用`tf.keras`中的默认参数。 可以观察到改变正则化器，优化器和每层单元数的效果。“表 1.3.3”中的另一个重要观察结果是，更大的网络不一定会转化为更好的表现。
+
+在训练和测试数据集的准确率方面，增加此网络的深度不会显示任何其他好处。 另一方面，较少的单元（例如 128）也可能会降低测试和训练的准确率。 删除正则器后，将在`99.93%`处获得最佳的训练精度，并且每层使用 256 个单元。 但是，由于网络过拟合，测试精度在`98.0%`时要低得多。
+
+最高的测试精度是使用 Adam 优化器和`98.5%`处的`Dropout(0.45)`。 从技术上讲，鉴于其训练精度为`99.39%`，仍然存在某种程度的过拟合。 对于`256-512-256`，`Dropout(0.45)`和 SGD，在`98.2%`时，训练和测试精度均相同。 同时去除正则化和 ReLU 层会导致其表现最差。 通常，我们会发现`Dropout`层比`l2`具有更好的表现。
+
+下表演示了调整期间典型的深度神经网络表现：
+
+| **层** | **正则化函数** | **优化器** | **ReLU** | **训练准确率（%）** | **测试准确率（%）** |
+| --- | --- | --- | --- | --- | --- |
+| 256-256-256 | 没有 | SGD | 没有 | 93.65 | 92.5 |
+| 256-256-256 | L2（0.001） | SGD | 是 | 99.35 | 98.0 |
+| 256-256-256 | L2（0.01） | SGD | 是 | 96.90 | 96.7 |
+| 256-256-256 | 没有 | SGD | 是 | 99.93 | 98.0 |
+| 256-256-256 | 丢弃（0.4） | SGD | 是 | 98.23 | 98.1 |
+| 256-256-256 | 丢弃（0.45） | SGD | 是 | 98.07 | 98.1 |
+| 256-256-256 | 丢弃（0.5） | SGD | 是 | 97.68 | 98.1 |
+| 256-256-256 | 丢弃（0.6） | SGD | 是 | 97.11 | 97.9 |
+| 256-512-256 | 丢弃（0.45） | SGD | 是 | 98.21 | 98.2 |
+| 512-512-512 | 丢弃（0.2） | SGD | 是 | 99.45 | 98.3 |
+| 512-512-512 | 丢弃（0.4） | SGD | 是 | 98.95 | 98.3 |
+| 512-1024-512 | 丢弃（0.45） | SGD | 是 | 98.90 | 98.2 |
+| 1024-1024-1024 | 丢弃（0.4） | SGD | 是 | 99.37 | 98.3 |
+| 256-256-256 | 丢弃（0.6） | Adam | 是 | 98.64 | 98.2 |
+| 256-256-256 | 丢弃（0.55） | Adam | 是 | 99.02 | 98.3 |
+| 256-256-256 | 丢弃（0.45） | Adam | 是 | 99.39 | 98.5 |
+| 256-256-256 | 丢弃（0.45） | RMSprop | 是 | 98.75 | 98.1 |
+| 128-128-128 | 丢弃（0.45） | Adam | 是 | 98.70 | 97.7 |
+
+表 1.3.3 不同的 MLP 网络配置和表现指标
+
+示例指示需要改进网络架构。 在下一节讨论了 MLP 分类器模型摘要之后，我们将介绍另一个 MNIST 分类器。 下一个模型基于 CNN，并证明了测试准确率的显着提高。
+
+## 模型摘要
+
+使用 Keras 库为我们提供了一种快速的机制，可以通过调用以下方法来仔细检查模型描述：
+
+```py
+model.summary() 
+```
+
+下面的“列表 1.3.3”显示了所建议网络的模型摘要。 它总共需要 269,322 个参数。 考虑到我们具有对 MNIST 数字进行分类的简单任务，这一点非常重要。 MLP 的参数效率不高。 可以通过关注如何计算感知器的输出，从“图 1.3.4”计算参数的数量。 从输入到密集层：`784 × 256 + 256 = 200,960`。 从第一密集层到第二密集层：`256 × 256 + 256 = 65,792`。 从第二个密集层到输出层：`10 × 256 + 10 = 2,570`。 总数是`269,322`。
+
+“列表 1.3.3”：MLP MNIST 数字分类器模型的摘要：
+
+```py
+Layer (type)	               Output Shape	  Param #
+=================================================================
+dense_1 (Dense)                (None, 256)         200960
+activation_1 (Activation)      (None, 256)            0
+dropout_1 (Dropout)            (None, 256)            0
+dense_2 (Dense)                (None, 256)         65792
+activation_2 (Activation)      (None, 256)            0
+dropout_2 (Dropout)            (None, 256)            0
+dense_3 (Dense)                (None, 10)          2750
+activation_3 (Activation)      (None, 10)             0
+=================================================================
+Total params: 269,322
+Trainable params: 269,322
+Non-trainable params: 0 
+```
+
+验证网络的另一种方法是通过调用：
+
+```py
+plot_model(model, to_file='mlp-mnist.png', show_shapes=True) 
+```
+
+“图 1.3.9”显示了该图。 您会发现这类似于`summary()`的结果，但是以图形方式显示了每个层的互连和 I/O。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_01_10.png)
+
+图 1.3.9：MLP MNIST 数字分类器的图形描述
+
+在总结了我们模型的之后，到此结束了我们对 MLP 的讨论。 在下一部分中，我们将基于 CNN 构建 MNIST 数字分类器模型。
+
+# 4\. 卷积神经网络（CNN）
+
+现在，我们将进入第二个人工神经网络 CNN。 在本节中，我们将解决相同的 MNIST 数字分类问题，但这一次使用 CNN。
+
+“图 1.4.1”显示了我们将用于 MNIST 数字分类的 CNN 模型，而其实现在“列表 1.4.1”中进行了说明。 实现 CNN 模型将需要对先前模型进行一些更改。 现在，输入张量不再具有输入向量，而具有新尺寸（`height`，`width`，`channels`）或（`image_size`，`image_size`，`1`）=（`28`，`28` ，`1`）用于 MNIST 灰度图像。 需要调整训练和测试图像的大小以符合此输入形状要求。
+
+![](img/B14853_01_11.png)
+
+图 1.4.1：用于 MNIST 数字分类的 CNN 模型
+
+实现上图：
+
+“列表 1.4.1”：`cnn-mnist-1.4.1.py`
+
+```py
+import numpy as np
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import Activation, Dense, Dropout
+from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten
+from tensorflow.keras.utils import to_categorical, plot_model
+from tensorflow.keras.datasets import mnist 
+```
+
+```py
+# load mnist dataset
+(x_train, y_train), (x_test, y_test) = mnist.load_data() 
+```
+
+```py
+# compute the number of labels
+num_labels = len(np.unique(y_train)) 
+```
+
+```py
+# convert to one-hot vector
+y_train = to_categorical(y_train)
+y_test = to_categorical(y_test) 
+```
+
+```py
+# input image dimensions
+image_size = x_train.shape[1]
+# resize and normalize
+x_train = np.reshape(x_train,[-1, image_size, image_size, 1])
+x_test = np.reshape(x_test,[-1, image_size, image_size, 1])
+x_train = x_train.astype('float32') / 255
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# network parameters
+# image is processed as is (square grayscale)
+input_shape = (image_size, image_size, 1)
+batch_size = 128
+kernel_size = 3
+pool_size = 2
+filters = 64
+dropout = 0.2 
+```
+
+```py
+# model is a stack of CNN-ReLU-MaxPooling
+model = Sequential()
+model.add(Conv2D(filters=filters,
+                 kernel_size=kernel_size,
+                 activation='relu',
+                 input_shape=input_shape))
+model.add(MaxPooling2D(pool_size))
+model.add(Conv2D(filters=filters,
+                 kernel_size=kernel_size,
+                 activation='relu'))
+model.add(MaxPooling2D(pool_size))
+model.add(Conv2D(filters=filters,
+                 kernel_size=kernel_size,
+                 activation='relu'))
+model.add(Flatten())
+# dropout added as regularizer
+model.add(Dropout(dropout))
+# output layer is 10-dim one-hot vector
+model.add(Dense(num_labels))
+model.add(Activation('softmax'))
+model.summary()
+plot_model(model, to_file='cnn-mnist.png', show_shapes=True) 
+```
+
+```py
+# loss function for one-hot vector
+# use of adam optimizer
+# accuracy is good metric for classification tasks
+model.compile(loss='categorical_crossentropy',
+              optimizer='adam',
+              metrics=['accuracy'])
+# train the network
+model.fit(x_train, y_train, epochs=10, batch_size=batch_size) 
+```
+
+```py
+_, acc = model.evaluate(x_test,
+                        y_test,
+                        batch_size=batch_size,
+                   verbose=0)
+print("\nTest accuracy: %.1f%%" % (100.0 * acc)) 
+```
+
+的主要更改是`Conv2D`层的使用。 `ReLU`激活函数已经是`Conv2D`的参数。 当模型中包含`batch normalization`层时，可以将`ReLU`函数作为`Activation`层使用。 `Batch normalization`用于深层 CNN，因此可以利用较大的学习率而不会引起训练过程中的不稳定。
+
+## 卷积
+
+如果在 MLP 模型中，单元数量表示密集层，则核表示 CNN 操作。 如图“图 1.4.2”所示，可以将核可视化为矩形补丁或窗口，该补丁或窗口从左到右，从上到下在整个图像中滑动。 此操作称为卷积。 它将输入图像转换成特征映射，该特征映射表示核从输入图像中学到的内容。 然后将特征映射转换为后续层中的另一个特征映射，依此类推。 每个`Conv2D`生成的特征映射的数量由`filters`参数控制。
+
+![](img/B14853_01_12.png)
+
+图 1.4.2：3×3 核与 MNIST 数字图像卷积。
+
+在步骤`t[n]`和`t[n + 1]`中显示了卷积，其中核向右移动了 1 个像素 。
+
+卷积中涉及的计算显示在“图 1.4.3”中：
+
+![](img/B14853_01_13.png)
+
+图 1.4.3：卷积运算显示如何计算特征映射的一个元素
+
+为简单起见，显示了应用了`3×3`核的`3×3`输入图像（或输入特征映射）。 卷积后显示结果特征映射。 特征映射中一个元素的值被加阴影。 您会注意到，结果特征映射小于原始输入图像的，这是因为卷积仅在有效元素上执行。 核不能超出映像的边界。 如果输入的尺寸应与输出特征映射相同，则`Conv2D`接受选项`padding='same'`。 输入在其边界周围填充零，以在卷积后保持尺寸不变。
+
+## 池化操作
+
+最后的更改是添加了`MaxPooling2D`层以及参数`pool_size=2`。 `MaxPooling2D`压缩每个特征映射。 每个大小为`pool_size × pool_size`的补丁都减少为 1 个特征映射点。 该值等于补丁中的最大特征点值。 下图显示了`MaxPooling2D`的两个补丁：
+
+![](img/B14853_01_14.png)
+
+图 1.4.4：`MaxPooling2D`操作。 为简单起见，输入特征映射为`4×4`，结果为`2×2`特征映射。
+
+`MaxPooling2D`的意义在于特征映射尺寸的减小，这转化为感受野尺寸的增加。 例如，在`MaxPooling2D(2)`之后，2×2 核现在大约与`4×4`补丁卷积。 CNN 学会了针对不同接收场大小的一组新的特征映射。
+
+还有其他合并和压缩方式。 例如，要使`MaxPooling2D(2)`的尺寸减少 50%，`AveragePooling2D(2)`会取一个补丁的平均值而不是找到最大值。 交叉卷积`Conv2D(strides=2,…)`在卷积过程中将跳过每两个像素，并且仍具有相同的 50% 缩小效果。 每种还原技术的有效性都有细微的差异。
+
+在`Conv2D`和`MaxPooling2D`中，`pool_size`和`kernel`都可以是非正方形的。 在这些情况下，必须同时指定行和列的大小。 例如，`pool_ size = (1, 2)`和`kernel = (3, 5)`。
+
+最后一个`MaxPooling2D`操作的输出是一堆特征映射。 `Flatten`的作用是，将特征映射的栈转换为适用于`Dropout`或`Dense`层的向量格式，类似于 MLP 模型输出层。
+
+在下一部分中，我们将评估经过训练的 MNIST CNN 分类器模型的表现。
+
+## 表现评估和模型摘要
+
+如“列表 1.4.2”中所示，“列表 1.4.1”中的 CNN 模型在 80,226 处需要较少数量的参数，而使用 MLP 层时需要 269,322 个参数。 `conv2d_1`层具有 640 个参数，因为每个核具有`3×3 = 9`个参数，并且 64 个特征映射中的每一个都有一个核，一个偏置参数。 其他卷积层的参数数量可以类似的方式计算。
+
+“列表 1.4.2”：CNN MNIST 数字分类器的摘要
+
+```py
+Layer (type)	                 Output Shape	        Param #
+=================================================================
+conv2d_1 (Conv2D)                (None, 26, 26, 64)      640
+max_pooling2d_1 (MaxPooiling2)   (None, 13, 13, 64)      0
+conv2d_2 (Conv2D)                (None, 11, 11, 64)      36928
+max_pooling2d_2 (MaxPooiling2)   (None, 5.5, 5, 64)      0
+conv2d_3 (Conv2D)                (None, 3.3, 3, 64)      36928
+flatten_1 (Flatten)              (None, 576)             0
+dropout_1 (Dropout)              (None, 576)             0
+dense_1 (Dense)                  (None, 10)              5770
+activation_1 (Activation)        (None, 10)              0
+===================================================================
+Total params: 80,266
+Trainable params: 80,266
+Non-trainable params: 0 
+```
+
+“图 1.4.5”：显示了 CNN MNIST 数字分类器的图形表示形式。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_01_15.png)
+
+图 1.4.5：CNN MNIST 数字分类器的图形描述
+
+“表 1.4.1”显示了 99.4% 的最大测试准确率，这对于使用带有`dropout=0.2`的 Adam 优化器的每层具有 64 个特征映射的 3 层网络可以实现。 CNN 比 MLP 具有更高的参数效率，并且具有更高的准确率。 同样，CNN 也适合从顺序数据，图像和视频中学习表示形式。
+
+| **层** | **优化器** | **正则化函数** | **训练准确率（%）** | **测试准确率（%）** |
+| --- | --- | --- | --- | --- | --- |
+| 64-64-64 | SGD | 丢弃（0.2） | 97.76 | 98.50 |
+| 64-64-64 | RMSprop | 丢弃（0.2） | 99.11 | 99.00 |
+| 64-64-64 | Adam | 丢弃（0.2） | 99.75 | 99.40 |
+| 64-64-64 | Adam | 丢弃（0.4） | 99.64 | 99.30 |
+
+表 1.4.1：CNN MNIST 数字分类器的不同 CNN 网络配置和表现指标。
+
+看了 CNN 并评估了训练好的模型之后，让我们看一下我们将在本章中讨论的最终核心网络：RNN。
+
+# 5\. 循环神经网络（RNN）
+
+现在，我们来看一下三个人工神经网络中的最后一个，即 RNN。
+
+RNN 是网络的序列，适用于学习顺序数据的表示形式，例如**自然语言处理**（**NLP**）中的文本或仪器中的传感器数据流 。 尽管每个 MNIST 数据样本本质上都不是顺序的，但不难想象每个图像都可以解释为像素行或列的序列。 因此，基于 RNN 的模型可以将每个 MNIST 图像作为 28 个元素的输入向量序列进行处理，时间步长等于 28。下面的清单在“图 1.5.1”中显示了 RNN 模型的代码：
+
+![](img/B14853_01_16.png)
+
+图 1.5.1：用于 MNIST 数字分类的 RNN 模型
+
+“列表 1.5.1”：`rnn-mnist-1.5.1.py`
+
+```py
+import numpy as np
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import Dense, Activation, SimpleRNN
+from tensorflow.keras.utils import to_categorical, plot_model
+from tensorflow.keras.datasets import mnist 
+```
+
+```py
+# load mnist dataset
+(x_train, y_train), (x_test, y_test) = mnist.load_data() 
+```
+
+```py
+# compute the number of labels
+num_labels = len(np.unique(y_train)) 
+```
+
+```py
+# convert to one-hot vector
+y_train = to_categorical(y_train)
+y_test = to_categorical(y_test) 
+```
+
+```py
+# resize and normalize
+image_size = x_train.shape[1]
+x_train = np.reshape(x_train,[-1, image_size, image_size])
+x_test = np.reshape(x_test,[-1, image_size, image_size])
+x_train = x_train.astype('float32') / 255
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# network parameters
+input_shape = (image_size, image_size)
+batch_size = 128
+units = 256
+dropout = 0.2 
+```
+
+```py
+# model is RNN with 256 units, input is 28-dim vector 28 timesteps
+model = Sequential()
+model.add(SimpleRNN(units=units,
+                    dropout=dropout,
+                    input_shape=input_shape))
+model.add(Dense(num_labels))
+model.add(Activation('softmax'))
+model.summary()
+plot_model(model, to_file='rnn-mnist.png', show_shapes=True) 
+```
+
+```py
+# loss function for one-hot vector
+# use of sgd optimizer
+# accuracy is good metric for classification tasks
+model.compile(loss='categorical_crossentropy',
+              optimizer='sgd',
+              metrics=['accuracy'])
+# train the network
+model.fit(x_train, y_train, epochs=20, batch_size=batch_size) 
+```
+
+```py
+_, acc = model.evaluate(x_test,
+                        y_test,
+                        batch_size=batch_size,
+                        verbose=0)
+print("\nTest accuracy: %.1f%%" % (100.0 * acc)) 
+```
+
+RNN 分类器与之前的两个模型之间有两个主要区别。 首先是`input_shape = (image_size, image_size)`，它实际上是`input_ shape = (timesteps, input_dim)`或时间步长的`input_dim`维向量序列。 其次是使用`SimpleRNN`层以`units=256`表示 RNN 单元。 `units`变量代表输出单元的数量。 如果 CNN 是通过输入特征映射上的核卷积来表征的，则 RNN 输出不仅是当前输入的函数，而且是先前输出或隐藏状态的函数。 由于前一个输出也是前一个输入的函数，因此当前输出也是前一个输出和输入的函数，依此类推。 Keras 中的`SimpleRNN`层是真实 RNN 的简化版本。 以下等式描述了`SimpleRNN`的输出：
+
+![](img/B14853_01_024.png) (Equation 1.5.1)
+
+在此等式中，`b`是偏差，而`W`和`U`被称为循环核（先前输出的权重）和核（当前输入的权重） ）， 分别。 下标`t`用于指示序列中的位置。 对于具有`units=256`的`SimpleRNN`层，参数总数为`256 + 256×256 + 256×28 = 72,960`，对应于`b`，`W`和个贡献。
+
+下图显示了用于分类任务的`SimpleRNN`和 RNN 的图。 使`SimpleRNN`比 RNN 更简单的是缺少输出值`o[t] = Vh[t] + c`在计算`softmax`函数之前：
+
+![](img/B14853_01_17.png)
+
+图 1.5.2：`SimpleRNN`和 RNN 图
+
+与 MLP 或 CNN 相比，RNN 最初可能较难理解。 在 MLP 中，感知器是基本单元。 一旦了解了感知器的概念，MLP 就是感知器的网络。 在 CNN 中，核是一个补丁或窗口，可在特征映射中滑动以生成另一个特征映射。 在 RNN 中，最重要的是自环的概念。 实际上只有一个单元。
+
+出现多个单元的错觉是因为每个时间步都有一个单元，但实际上，除非网络展开，否则它只是重复使用的同一单元。 RNN 的基础神经网络在单元之间共享。
+
+“列表 1.5.2”中的摘要指示使用`SimpleRNN`需要较少数量的参数。
+
+“列表 1.5.2”：RNN MNIST 数字分类器的摘要
+
+```py
+Layer (type)	               Output Shape	  Param #
+=================================================================
+simple_rnn_1 (SimpleRNN)       (None, 256)        72960
+dense_1 (Dense)                (None, 10)         2570
+activation_1 (Activation)      (None, 10)         36928
+=================================================================
+Total params: 75,530
+Trainable params: 75,530
+Non-trainable params: 0 
+```
+
+“图 1.5.3”显示了 RNN MNIST 数字分类器的图形描述。 该模型非常简洁：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_01_18.png)
+
+图 1.5.3：RNN MNIST 数字分类器图形说明
+
+“表 1.5.1”显示 SimpleRNN 在所呈现的网络中具有最低的准确率：
+
+| **层** | **优化器** | **正则化函数** | **训练准确率（%）** | **测试准确率（%）** |
+| --- | --- | --- | --- | --- | --- |
+| 256 | SGD | 丢弃（0.2） | 97.26 | 98.00 |
+| 256 | RMSprop | 丢弃（0.2） | 96.72 | 97.60 |
+| 256 | Adam | 丢弃（0.2） | 96.79 | 97.40 |
+| 512 | SGD | 丢弃（0.2） | 97.88 | 98.30 |
+
+表 1.5.1：不同的`SimpleRNN`网络配置和表现指标
+
+在许多深度神经网络中，更常使用 RNN 家族的其他成员。 例如，机器翻译和问答问题都使用了**长短期记忆**（**LSTM**）。 LSTM 解决了长期依赖或记住与当前输出相关的过去信息的问题。
+
+与 RNN 或`SimpleRNN`不同，LSTM 单元的内部结构更为复杂。“图 1.5.4”显示了 LSTM 的示意图。 LSTM 不仅使用当前输入和过去的输出或隐藏状态，还引入了一个单元状态`s[t]`，该状态将信息从一个单元传送到另一个单元。 单元状态之间的信息流由三个门控制`f[t]`，`i[t]`和`q[t]`。 这三个门的作用是确定应保留或替换哪些信息，以及过去对当前单元状态或输出有贡献的信息量以及过去和当前的输入。 我们不会在本书中讨论 LSTM 单元内部结构的细节。 但是，可以在[这个页面](http://colah.github.io/posts/2015-08-Understanding-LSTMs)上找到 LSTM 的直观指南。
+
+`LSTM()`层可以用作`SimpleRNN()`的嵌入式替代。 如果 LSTM 对于手头的任务过于苛刻，则可以使用更简单的版本，称为**门控循环单元**（**GRU**）。 GRU 通过将单元状态和隐藏状态组合在一起来简化 LSTM。 GRU 还将门数量减少了一个。 `GRU()`函数也可以用作`SimpleRNN()`的直接替代品。
+
+![](img/B14853_01_19.png)
+
+图 1.5.4：LSTM 图。为了清楚起见，未显示参数。
+
+还有许多其他方法可以配置 RNN。 一种方法是制作双向 RNN 模型。 默认情况下，从当前输出仅受过去状态和当前输入影响的意义上讲，RNN 是单向的。
+
+在双向 RNN 中，未来状态还可以通过允许信息向后流动来影响当前状态和过去状态。 根据收到的新信息，根据需要更新过去的输出。 可以通过调用包装器函数使 RNN 双向。 例如，双向 LSTM 的实现是`Bidirectional(LSTM())`。
+
+对于所有类型的 RNN，增加单元数量也将增加容量。 但是，增加容量的另一种方法是堆叠 RNN 层。 尽管应注意，但作为一般经验法则，只有在需要时才应增加模型的容量。 容量过大可能会导致过拟合，结果可能导致训练时间延长和预测期间的表现降低。
+
+# 6\. 总结
+
+本章概述了三种深度学习模型（MLP，RNN，CNN），并介绍了 TensorFlow 2 `tf.keras`，这是一个用于快速开发，训练和测试适合于生产环境的深度学习模型的库。 还讨论了 Keras 的顺序 API。 在下一章中，将介绍函数式 API，这将使我们能够构建更复杂的模型，专门用于高级深度神经网络。
+
+本章还回顾了深度学习的重要概念，例如优化，正则化和损失函数。 为了便于理解，这些概念是在 MNIST 数字分类的背景下提出的。
+
+还讨论了使用人工神经网络（特别是 MLP，CNN 和 RNN）进行 MNIST 数字分类的不同解决方案，它们是深度神经网络的重要组成部分，并讨论了它们的表现指标。
+
+了解了深度学习概念以及如何将 Keras 用作工具之后，我们现在可以分析高级深度学习模型。 在下一章讨论了函数式 API 之后，我们将继续执行流行的深度学习模型。 随后的章节将讨论选定的高级主题，例如自回归模型（自编码器，GAN，VAE），深度强化学习，对象检测和分段以及使用互信息的无监督学习。 随附的 Keras 代码实现将在理解这些主题方面发挥重要作用。
+
+# 7\. 参考
+
+1.  `Chollet, François. Keras (2015). https://github.com/keras-team/keras.`
+2.  `LeCun, Yann, Corinna Cortes, and C. J. Burges. MNIST handwritten digit database. AT&T Labs [Online]. Available: http://yann.lecun.com/exdb/mnist2 (2010).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/02.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/02.md
new file mode 100644
index 00000000..d6ddd212
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/02.md
@@ -0,0 +1,897 @@
+# 二、深度神经网络
+
+在本章中，我们将研究深度神经网络。 这些网络在更具挑战性的数据集，如 ImageNet，[CIFAR10](https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf) 和 CIFAR100。 为简洁起见，我们仅关注两个网络： **ResNet** [2] [4]和 **DenseNet** [5]。 尽管我们会更加详细，但重要的是花一点时间介绍这些网络。
+
+ResNet 引入了残差学习的概念，使残障学习能够通过解决深度卷积网络中消失的梯度问题（在第 2 节中讨论）来构建非常深的网络。
+
+DenseNet 允许每个卷积直接访问输入和较低层的特征映射，从而进一步改进了 ResNet。 通过利用**瓶颈**和**过渡层**，还可以在深层网络中将参数的数量保持为较低。
+
+但是，为什么这些是两个模型，而不是其他？ 好吧，自从引入它们以来，已经有无数的模型，例如 **ResNeXt** [6]和 **WideResNet** [7]，它们受到这两个网络使用的技术的启发。 同样，在了解 ResNet 和 DenseNet 的情况下，我们将能够使用他们的设计指南来构建我们自己的模型。 通过使用迁移学习，这也将使我们能够将预训练的 ResNet 和 DenseNet 模型用于我们自己的目的，例如对象检测和分割。 仅出于这些原因，以及与 Keras 的兼容性，这两个模型非常适合探索和补充本书的高级深度学习范围。
+
+尽管本章的重点是深度神经网络； 在本章中，我们将讨论 Keras 的重要功能，称为**函数式 API**。 该 API 充当在`tf.keras`中构建网络的替代方法，使我们能够构建更复杂的网络，而这是顺序模型 API 无法实现的。 我们之所以专注于此 API 的原因是，它将成为构建诸如本章重点介绍的两个之类的深度网络的非常有用的工具。 建议您先完成“第 1 章”，“Keras 的高级深度学习介绍”，然后再继续本章，因为我们将参考在本章中探讨的入门级代码和概念，我们将它们带入了更高的层次。
+
+本章的目的是介绍：
+
+*   Keras 中的函数式 API，以及探索运行该 API 的网络示例
+*   `tf.keras`中的深度残差网络（ResNet 版本 1 和 2）实现
+*   `tf.keras`中密集连接卷积网络（DenseNet）的实现
+*   探索两种流行的深度学习模型，即 **ResNet** 和 **DenseNet**
+
+让我们开始讨论函数式 API。
+
+# 1\. 函数式 API
+
+在我们首先在“第 1 章”，“Keras 高级深度学习入门”的顺序模型 API 中，一层堆叠在另一层之上。 通常，将通过其输入和输出层访问模型。 我们还了解到，如果我们发现自己想要在网络中间添加辅助输入，或者甚至想在最后一层之前提取辅助输出，则没有简单的机制。
+
+这种模式也有缺点。 例如，它不支持类似图的模型或行为类似于 Python 函数的模型。 此外，在两个模型之间共享层也很困难。函数式 API 解决了这些局限性，这就是为什么它对于想要使用深度学习模型的任何人来说都是至关重要的工具的原因。
+
+函数式 API 遵循以下两个概念：
+
+*   层是接受张量作为参数的实例。 一层的输出是另一个张量。 为了构建模型，层实例是通过输入和输出张量彼此链接的对象。 这与在顺序模型中堆叠多个层有类似的最终结果。 但是，使用层实例会使模型更容易具有辅助或多个输入和输出，因为每个层的输入/输出将易于访问。
+*   模型是一个或多个输入张量和输出张量之间的函数。 在模型输入和输出之间，张量是通过层输入和输出张量彼此链接的层实例。 因此，模型是一个或多个输入层和一个或多个输出层的函数。 该模型实例将数据从输入流到输出流的形式的计算图形式化。
+
+在完成函数式 API 模型的构建之后，训练和评估将由顺序模型中使用的相同函数执行。 为了说明，在函数式 API 中，二维卷积层`Conv2D`带有 32 个过滤器，并且`x`作为层输入张量，`y`作为层输出张量可以写为：
+
+```py
+y = Conv2D(32)(x) 
+```
+
+我们也可以堆叠多层来构建模型。 例如，我们可以使用函数式 API 重写 MNIST `cnn-mnist-1.4.1.py`上的**卷积神经网络**（**CNN**），如下所示：
+
+“列表 2.1.1”：`cnn-functional-2.1.1.py`
+
+```py
+import numpy as np
+from tensorflow.keras.layers import Dense, Dropout, Input
+from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten
+from tensorflow.keras.models import Model
+from tensorflow.keras.datasets import mnist
+from tensorflow.keras.utils import to_categorical 
+```
+
+```py
+# load MNIST dataset
+(x_train, y_train), (x_test, y_test) = mnist.load_data() 
+```
+
+```py
+# from sparse label to categorical
+num_labels = len(np.unique(y_train))
+y_train = to_categorical(y_train)
+y_test = to_categorical(y_test) 
+```
+
+```py
+# reshape and normalize input images
+image_size = x_train.shape[1]
+x_train = np.reshape(x_train,[-1, image_size, image_size, 1])
+x_test = np.reshape(x_test,[-1, image_size, image_size, 1])
+x_train = x_train.astype('float32') / 255
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# network parameters
+input_shape = (image_size, image_size, 1)
+batch_size = 128
+kernel_size = 3
+filters = 64
+dropout = 0.3 
+```
+
+```py
+# use functional API to build cnn layers
+inputs = Input(shape=input_shape)
+y = Conv2D(filters=filters,
+           kernel_size=kernel_size,
+           activation='relu')(inputs)
+y = MaxPooling2D()(y)
+y = Conv2D(filters=filters,
+           kernel_size=kernel_size,
+           activation='relu')(y)
+y = MaxPooling2D()(y)
+y = Conv2D(filters=filters,
+           kernel_size=kernel_size,
+           activation='relu')(y)
+# image to vector before connecting to dense layer
+y = Flatten()(y)
+# dropout regularization
+y = Dropout(dropout)(y)
+outputs = Dense(num_labels, activation='softmax')(y) 
+```
+
+```py
+# build the model by supplying inputs/outputs
+model = Model(inputs=inputs, outputs=outputs)
+# network model in text
+model.summary()
+# classifier loss, Adam optimizer, classifier accuracy
+model.compile(loss='categorical_crossentropy',
+              optimizer='adam',
+              metrics=['accuracy']) 
+```
+
+```py
+# train the model with input images and labels
+model.fit(x_train,
+          y_train,
+          validation_data=(x_test, y_test),
+          epochs=20,
+          batch_size=batch_size) 
+```
+
+```py
+# model accuracy on test dataset
+score = model.evaluate(x_test,
+                       y_test,
+                       batch_size=batch_size,
+                       verbose=0)
+print("\nTest accuracy: %.1f%%" % (100.0 * score[1])) 
+```
+
+默认情况下，使用`pool_size=2`作为参数，因此`MaxPooling2D`已被删除。
+
+在前面的清单中，每一层都是张量的函数。 每一层生成一个张量作为输出，该张量成为下一层的输入。 要创建此模型，我们可以调用`Model()`并提供`inputs`和`outputs`张量，或者提供张量列表。 其他一切保持不变。
+
+类似于顺序模型，也可以使用`fit()`和`evaluate()`函数来训练和评估相同的列表。 实际上，`Sequential`类是`Model`类的子类。 我们需要记住，我们在`fit()`函数中插入了`validation_data`参数，以查看训练期间验证准确率的进度。 在 20 个周期内，准确率范围从 99.3% 到 99.4%。
+
+## 创建两输入一输出模型
+
+现在，我们将做一些令人兴奋的事情，创建一个具有两个输入和一个输出的高级模型。 在开始之前，重要的是要知道序列模型 API 是为仅构建 1 输入和 1 输出模型而设计的。
+
+假设发明了一种用于 MNIST 数字分类的新模型，它称为 Y 网络，如图“图 2.1.1”所示。 Y 网络在左 CNN 分支和右 CNN 分支两次使用相同的输入。 网络使用`concatenate`层合并结果。 合并操作`concatenate`类似于沿连接轴堆叠两个相同形状的张量以形成一个张量。 例如，沿着最后一个轴连接两个形状为`(3, 3, 16)`的张量将导致一个形状为`(3, 3, 32)`的张量。
+
+`concatenate`层之后的所有其他内容将与上一章的 CNN MNIST 分类器模型相同：`Flatten`，然后是`Dropout`，然后是`Dense`：
+
+![](img/B14853_02_01.png)
+
+图 2.1.1：Y 网络接受两次相同的输入，但是在卷积网络的两个分支中处理输入。 分支的输出使用连接层进行合并。最后一层的预测将类似于上一章的 CNN MNIST 分类器模型。
+
+为了提高“列表 2.1.1”中模型的表现，我们可以提出一些更改。 首先，Y 网络的分支将过滤器数量加倍，以补偿`MaxPooling2D()`之后特征映射尺寸的减半。 例如，如果第一个卷积的输出为`(28, 28, 32)`，则在最大池化之后，新形状为`(14, 14, 32)`。 下一个卷积的过滤器大小为 64，输出尺寸为`(14, 14, 64)`。
+
+其次，尽管两个分支的核大小相同，但右分支使用 2 的扩展率。“图 2.1.2”显示了不同的扩展率对大小为 3 的核的影响。 这个想法是，通过使用扩张率增加核的有效接受域大小，CNN 将使正确的分支能够学习不同的特征映射。 使用大于 1 的扩张速率是一种计算有效的近似方法，可以增加接收场的大小。 这是近似值，因为该核实际上不是成熟的核。 这是有效的，因为我们使用与膨胀率等于 1 相同的操作数。
+
+要了解接受域的概念，请注意，当核计算特征映射的每个点时，其输入是前一层特征映射中的补丁，该补丁也取决于其前一层特征映射。 如果我们继续将此依赖关系一直跟踪到输入图像，则核将依赖于称为接收场的图像补丁。
+
+我们将使用选项`padding='same'`来确保使用扩张的 CNN 时不会出现负张量。 通过使用`padding='same'`，我们将使输入的尺寸与输出特征映射相同。 这是通过用零填充输入以确保输出的**大小**相同来实现的。
+
+![](img/B14853_02_02.png)
+
+图 2.1.2：通过从 1 增加膨胀率，有效的核接受域大小也增加了
+
+“列表 2.1.2”的`cnn-y-network-2.1.2.py`显示了使用函数式 API 的 Y 网络的实现。 两个分支由两个`for`循环创建。 两个分支期望输入形状相同。 两个`for`循环将创建两个`Conv2D-Dropout-MaxPooling2D`的三层栈。 虽然我们使用`concatenate`层组合了左右分支的输出，但我们还可以利用`tf.keras`的其他合并函数，例如`add`，`dot`和`multiply`。 合并函数的选择并非纯粹是任意的，而必须基于合理的模型设计决策。
+
+在 Y 网络中，`concatenate`不会丢弃特征映射的任何部分。 取而代之的是，我们让`Dense`层确定如何处理连接的特征映射。
+
+“列表 2.1.2”：`cnn-y-network-2.1.2.py`
+
+```py
+import numpy as np
+from tensorflow.keras.layers import Dense, Dropout, Input
+from tensorflow.keras.layers import Conv2D, MaxPooling2D
+from tensorflow.keras.layers import Flatten, concatenate
+from tensorflow.keras.models import Model
+from tensorflow.keras.datasets import mnist
+from tensorflow.keras.utils import to_categorical
+from tensorflow.keras.utils import plot_model 
+```
+
+```py
+# load MNIST dataset
+(x_train, y_train), (x_test, y_test) = mnist.load_data() 
+```
+
+```py
+# from sparse label to categorical
+num_labels = len(np.unique(y_train))
+y_train = to_categorical(y_train)
+y_test = to_categorical(y_test) 
+```
+
+```py
+# reshape and normalize input images
+image_size = x_train.shape[1]
+x_train = np.reshape(x_train,[-1, image_size, image_size, 1])
+x_test = np.reshape(x_test,[-1, image_size, image_size, 1])
+x_train = x_train.astype('float32') / 255
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# network parameters
+input_shape = (image_size, image_size, 1)
+batch_size = 32
+kernel_size = 3
+dropout = 0.4
+n_filters = 32 
+```
+
+```py
+# left branch of Y network
+left_inputs = Input(shape=input_shape)
+x = left_inputs
+filters = n_filters
+# 3 layers of Conv2D-Dropout-MaxPooling2D
+# number of filters doubles after each layer (32-64-128)
+for i in range(3):
+    x = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               padding='same',
+               activation='relu')(x)
+    x = Dropout(dropout)(x)
+    x = MaxPooling2D()(x)
+    filters *= 2 
+```
+
+```py
+# right branch of Y network
+right_inputs = Input(shape=input_shape)
+y = right_inputs
+filters = n_filters
+# 3 layers of Conv2D-Dropout-MaxPooling2Do
+# number of filters doubles after each layer (32-64-128)
+for i in range(3):
+    y = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               padding='same',
+               activation='relu',
+               dilation_rate=2)(y)
+    y = Dropout(dropout)(y)
+    y = MaxPooling2D()(y)
+    filters *= 2 
+```
+
+```py
+# merge left and right branches outputs
+y = concatenate([x, y])
+# feature maps to vector before connecting to Dense 
+y = Flatten()(y)
+y = Dropout(dropout)(y)
+outputs = Dense(num_labels, activation='softmax')(y) 
+```
+
+```py
+# build the model in functional API
+model = Model([left_inputs, right_inputs], outputs)
+# verify the model using graph
+plot_model(model, to_file='cnn-y-network.png', show_shapes=True)
+# verify the model using layer text description
+model.summary() 
+```
+
+```py
+# classifier loss, Adam optimizer, classifier accuracy
+model.compile(loss='categorical_crossentropy',
+              optimizer='adam',
+              metrics=['accuracy']) 
+```
+
+```py
+# train the model with input images and labels
+model.fit([x_train, x_train],
+          y_train,
+          validation_data=([x_test, x_test], y_test),
+          epochs=20,
+          batch_size=batch_size) 
+```
+
+```py
+# model accuracy on test dataset
+score = model.evaluate([x_test, x_test],
+                       y_test,
+                       batch_size=batch_size,
+                       verbose=0)
+print("\nTest accuracy: %.1f%%" % (100.0 * score[1])) 
+```
+
+退后一步，我们可以注意到 Y 网络期望有两个输入用于训练和验证。 输入是相同的，因此提供了`[x_train, x_train]`。
+
+在 20 个周期的过程中，Y 网络的准确率为 99.4% 至 99.5%。 与 3 叠 CNN 相比，这是一个微小的改进，CNN 的精度在 99.3% 到 99.4% 之间。 但是，这是以更高的复杂度和两倍以上的参数数量为代价的。
+
+下图“图 2.1.3”显示了 Keras 理解并由`plot_model()`函数生成的 Y 网络的架构：
+
+![A close up of text on a white background  Description automatically generated](img/B14853_02_03.png)
+
+图 2.1.3：清单 2.1.2 中实现的 CNN Y 网络
+
+总结我们对函数式 API 的了解。 我们应该花时间记住本章的重点是构建深度神经网络，特别是 ResNet 和 DenseNet。 因此，我们只讨论构建它们所需的函数式 API 材料，因为涵盖整个的 API 将超出本书的范围。 话虽如此，让我们继续讨论 ResNet。
+
+有关函数式 API 的其他信息，请阅读[这里](https://keras.io/)。
+
+# 2\. 深度残差网络（ResNet）
+
+深度网络的一个主要优点是，它们具有从输入图和特征映射学习不同级别表示的能力。 在分类，分割，检测和许多其他计算机视觉问题中，学习不同的特征映射通常可以提高性能。
+
+但是，您会发现训练深层网络并不容易，因为在反向传播过程中，梯度可能会随着浅层中的深度消失（或爆炸）。“图 2.2.1”说明了梯度消失的问题。 通过从输出层向所有先前层的反向传播来更新网络参数。 由于反向传播是基于链法则的，因此当梯度到达浅层时，梯度会逐渐减小。 这是由于小数的乘法，尤其是对于小损失函数和参数值。
+
+乘法运算的数量将与网络深度成正比。 还要注意的是，如果梯度降低，则不会适当更新参数。
+
+因此，网络将无法提高其表现。
+
+![](img/B14853_02_04.png)
+
+图 2.2.1：深层网络中的一个常见问题是，在反向传播过程中，梯度在到达浅层时会消失。
+
+为了减轻深度网络中梯度的降级，ResNet 引入了深度残差学习框架的概念。 让我们分析一个块：深度网络的一小部分。
+
+“图 2.2.2”显示了典型 CNN 块和 ResNet 残差块之间的比较。 ResNet 的想法是，为了防止梯度降级，我们将让信息通过快捷连接流到浅层。
+
+![](img/B14853_02_05.png)
+
+图 2.2.2：典型 CNN 中的块与 ResNet 中的块之间的比较。 为了防止反向传播期间梯度的降低，引入了快捷连接。
+
+接下来，我们将在中讨论两个模块之间的差异，以了解更多详细信息。“图 2.2.3”显示了另一个常用的深层网络 **VGG** [3]和 ResNet 的 CNN 块的更多详细信息。 我们将层特征映射表示为`x`。 层`l`的特征映射为`x[l]`。 在 CNN 层中的操作是 **Conv2D 批量规范化（BN）- ReLU**。
+
+假设我们以`H() = Conv2D-Batch Normalization(BN)-ReLU`的形式表示这组操作； 然后：
+
+`x[l-1] = H(x[l-2])`（公式 2.2.1）
+
+`x[l] = H(x[l-1])`（方程式 2.2.2）
+
+换句话说，通过`H() =Conv2D-Batch Normalization(BN)-ReLU`将`l-2`层上的特征映射转换为`x[l-1]`。 应用相同的操作集将`x[l-1]`转换为`x[l]`。 换句话说，如果我们有一个 18 层的 VGG，则在将输入图像转换为第 18 个层特征映射之前，有 18 个`H()`操作。
+
+一般而言，我们可以观察到`l`层输出特征映射仅直接受先前的特征映射影响。 同时，对于 ResNet：
+
+`x[l-1] = H(x[l-2])`（公式 2.2.3）
+
+`x[l] = ReLU(F(x[l-1]) + x[l-2])`（公式 2.2.4）
+
+![](img/B14853_02_06.png)
+
+图 2.2.3：普通 CNN 块和残差块的详细层操作
+
+`F(x[l-1])`由`Conv2D-BN`制成，这也被称为残差映射。 `+`符号是快捷方式连接和`F(x[l-1])`输出之间的张量元素加法。 快捷连接不会增加额外的参数，也不会增加计算复杂度。
+
+可以通过`add()`合并函数在`tf.keras`中实现添加操作。 但是，`F(x[l-1])`和`x[l-2]`应该具有相同的尺寸。
+
+如果尺寸不同，例如，当更改特征映射尺寸时，我们应该在`x[l-2]`上进行线性投影以匹配尺寸`F([l-1])`的含量。 在原始论文中，当特征映射的大小减半时，情况的线性投影是通过`Conv2D`和 1 `strides=2`核完成的。
+
+在“第 1 章”，“Keras 高级深度学习”，我们讨论了`stride > 1`等效于在卷积期间跳过像素。 例如，如果`strides=2`，则在卷积过程中滑动核时，可以跳过其他每个像素。
+
+前面的“公式 2.2.3”和“公式 2.2.4”都对 ResNet 残余块操作进行建模。 他们暗示，如果可以训练较深的层具有较少的误差，则没有理由为什么较浅的层应具有较高的误差。
+
+知道 ResNet 的基本构建块后，我们就可以设计一个深度残差网络来进行图像分类。 但是，这一次，我们将处理更具挑战性的数据集。
+
+在我们的示例中，我们将考虑 CIFAR10，它是原始论文所基于的数据集之一。 在此示例中，`tf.keras`提供了一个 API，可以方便地访问 CIFAR10 数据集，如下所示：
+
+```py
+from tensorflow.keras.datasets import cifar10
+(x_train, y_train), (x_test, y_test) = cifar10.load_data() 
+```
+
+与 MNIST 一样，CIFAR10 数据集也有 10 个类别。 数据集是对应于飞机，汽车，鸟，猫，鹿，狗，青蛙，马，船和卡车的小型（`32×32`）RGB 真实世界图像的集合。 10 个类别中的每个类别。“图 2.2.4”显示了来自 CIFAR10 的示例图像。
+
+在数据集中，有 50,000 个标记的训练图像和 10,000 个标记的测试图像用于验证：
+
+![](img/B14853_02_07.png)
+
+图 2.2.4：来自 CIFAR10 数据集的样本图像。 完整的数据集包含 50,000 张标签的训练图像和 10,000 张标签的测试图像以进行验证。
+
+对于 CIFAR10 数据，可以使用“表 2.2.1”中所示的不同网络架构来构建 ResNet。“表 2.2.1”表示我们有三组残差块。 每组具有对应于`n`个残余块的`2n`层。`32×32`的额外层是输入图像的第一层。
+
+| **层** | **输出大小** | **过滤器尺寸** | **操作** |
+| --- | --- | --- | --- |
+| 卷积 | `32 × 32` | 16 | `3 x 3 Conv2D` |
+| 残差块（1） | `32 × 32` |  | ![](img/B14853_02_001.png) |
+| 过渡层（1） | `32 × 32` |  | `{1 x 1 Conv2D, stride = 2}` |
+| | `16 × 16` |  |
+| 残差块（2） | `16 × 16` | 32 | ![](img/B14853_02_002.png) |
+| 过渡层（2） | `16 × 16` |  |  |  | `{1 x 1 Conv2D, stride = 2}` |
+| | `8 × 8` |  |
+| 残差块（3） | `8 × 8` | 64 | ![](img/B14853_02_003.png) |
+| 平均池化 | `1 × 1` |  |  | `8 x 8 AveragePooling2D` |
+
+表 2.2.1：ResNet 网络架构配置
+
+核大小为 3，不同大小的两个特征映射之间的过渡除外，该过渡实现了线性映射。 例如，核大小为 1 的`Conv2D`和`strides=2`。 为了与 DenseNet 保持一致，当我们连接两个大小不同的剩余块时，我们将使用项`Transition`层。
+
+ResNet 使用`kernel_initializer='he_normal'`以便在进行反向传播时帮助收敛[1]。 最后一层由`AveragePooling2D-Flatten-Dense`制成。 在这一点上值得注意的是 ResNet 不使用丢弃。 似乎`add` 合并操作和`1 x 1`卷积具有自正则化效果。“图 2.2.5”显示了 CIFAR10 数据集的 ResNet 模型架构，如“表 2.2.1”中所述。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_02_08.png)
+
+图 2.2.5：用于 CIFAR10 数据集分类的 ResNet 的模型架构
+
+以下代码段显示了`tf.keras`中的部分 ResNet 实现。 该代码已添加到 Keras GitHub 存储库中。 从“表 2.2.2”（稍后显示）中，我们还可以看到，通过修改`n`的值，我们可以增加网络的深度。
+
+例如，对于`n = 18`，我们已经拥有 ResNet110，这是一个具有 110 层的深度网络。 要构建 ResNet20，我们使用`n = 3`：
+
+```py
+n = 3 
+```
+
+```py
+# model version
+# orig paper: version = 1 (ResNet v1),
+# improved ResNet: version = 2 (ResNet v2)
+version = 1 
+```
+
+```py
+# computed depth from supplied model parameter n
+if version == 1:
+    depth = n * 6 + 2
+elif version == 2:
+    depth = n * 9 + 2 
+```
+
+```py
+ if version == 2:
+    model = resnet_v2(input_shape=input_shape, depth=depth)
+else:
+    model = resnet_v1(input_shape=input_shape, depth=depth) 
+```
+
+`resnet_v1()`方法是 ResNet 的模型构建器。 它使用工具函数`resnet_layer(),`来帮助构建`Conv2D-BN-ReLU`的栈。
+
+它将称为版本 1，正如我们将在下一节中看到的那样，提出了一种改进的 ResNet，该版本称为 ResNet 版本 2 或 v2。 通过 ResNet，ResNet v2 改进了残差块设计，从而提高了表现。
+
+以下清单显示了`resnet-cifar10-2.2.1.py`的部分代码，它是 ResNet v1 的`tf.keras`模型实现。
+
+“列表 2.2.1”：`resnet-cifar10-2.2.1.py`
+
+```py
+def resnet_v1(input_shape, depth, num_classes=10):
+    """ResNet Version 1 Model builder [a] 
+```
+
+```py
+ Stacks of 2 x (3 x 3) Conv2D-BN-ReLU
+    Last ReLU is after the shortcut connection.
+    At the beginning of each stage, the feature map size is halved
+    (downsampled) by a convolutional layer with strides=2, while 
+    the number of filters is doubled. Within each stage, 
+    the layers have the same number filters and the
+    same number of filters.
+    Features maps sizes:
+    stage 0: 32x32, 16
+    stage 1: 16x16, 32
+    stage 2:  8x8,  64
+    The Number of parameters is approx the same as Table 6 of [a]:
+    ResNet20 0.27M
+    ResNet32 0.46M
+    ResNet44 0.66M
+    ResNet56 0.85M
+    ResNet110 1.7M 
+```
+
+```py
+ Arguments:
+        input_shape (tensor): shape of input image tensor
+        depth (int): number of core convolutional layers
+        num_classes (int): number of classes (CIFAR10 has 10) 
+```
+
+```py
+ Returns:
+        model (Model): Keras model instance
+    """
+    if (depth - 2) % 6 != 0:
+        raise ValueError('depth should be 6n+2 (eg 20, 32, in [a])')
+    # Start model definition.
+    num_filters = 16
+    num_res_blocks = int((depth - 2) / 6) 
+```
+
+```py
+ inputs = Input(shape=input_shape)
+    x = resnet_layer(inputs=inputs)
+    # instantiate the stack of residual units
+    for stack in range(3):
+        for res_block in range(num_res_blocks):
+            strides = 1
+            # first layer but not first stack
+            if stack > 0 and res_block == 0:
+                strides = 2  # downsample
+            y = resnet_layer(inputs=x,
+                             num_filters=num_filters,
+                             strides=strides)
+            y = resnet_layer(inputs=y,
+                             num_filters=num_filters,
+                             activation=None)
+            # first layer but not first stack
+            if stack > 0 and res_block == 0:
+                # linear projection residual shortcut
+                # connection to match changed dims
+                x = resnet_layer(inputs=x,
+                                 num_filters=num_filters,
+                                 kernel_size=1,
+                                 strides=strides,
+                                 activation=None,
+                                 batch_normalization=False)
+            x = add([x, y])
+            x = Activation('relu')(x)
+        num_filters *= 2 
+```
+
+```py
+ # add classifier on top.
+    # v1 does not use BN after last shortcut connection-ReLU
+    x = AveragePooling2D(pool_size=8)(x)
+    y = Flatten()(x)
+    outputs = Dense(num_classes,
+                    activation='softmax',
+                    kernel_initializer='he_normal')(y) 
+```
+
+```py
+ # instantiate model.
+    model = Model(inputs=inputs, outputs=outputs)
+    return model 
+```
+
+ResNet 在`n`的各种值上的表现显示在“表 2.2.2”中。
+
+| **层** | `n` | **CIFAR10 的准确率百分比（原始论文）** | **CIFAR10 的准确率百分比（本书）** |
+| --- | --- | --- | --- |
+| ResNet20 | 3 | 91.25 | 92.16 |
+| ResNet32 | 5 | 92.49 | 92.46 |
+| ResNet44 | 7 | 92.83 | 92.50 |
+| ResNet56 | 9 | 93.03 | 92.71 |
+| ResNet110 | 18 | 93.57 | 92.65 |
+
+表 2.2.2：针对不同的 n 值，使用 CIFAR10 验证的 ResNet 架构
+
+与 ResNet 的原始实现有一些细微的差异。 特别是，我们不使用 SGD，而是使用 Adam。 这是因为 ResNet 更容易与 Adam 融合。 我们还将使用学习率调度器`lr_schedule()`，以便将`lr`的减少量从默认的`1e-3`缩短为 80、120、160 和 180 个周期。 在训练期间的每个周期之后，都会将`lr_schedule()`函数作为回调变量的一部分进行调用。
+
+每当验证准确率方面取得进展时，另一个回调将保存检查点。 训练深层网络时，保存模型或权重检查点是一个好习惯。 这是因为训练深度网络需要大量时间。
+
+当您想使用网络时，您只需要做的就是重新加载检查点，然后恢复经过训练的模型。 这可以通过调用`tf.keras load_model()`来完成。 包含`lr_reducer()`函数。 如果指标在排定的减少之前已稳定在上，则如果在`patience = 5`周期之后验证损失没有改善，则此回调将以参数中提供的某个因子来降低学习率。
+
+调用`model.fit()`方法时，会提供**回调**变量。 与原始论文相似，`tf.keras`实现使用数据扩充`ImageDataGenerator()`来提供其他训练数据作为正则化方案的一部分。 随着训练数据数量的增加，概括性将会提高。
+
+例如，简单的数据扩充就是翻转一条狗的照片，如图“图 2.2.6”（`horizontal_flip = True`）所示。 如果它是狗的图像，则翻转的图像仍然是狗的图像。 您还可以执行其他变换，例如缩放，旋转，变白等等，并且标签将保持不变：
+
+![A brown and white dog looking at the camera  Description automatically generated](img/B14853_02_09.png)
+
+图 2.2.6：一个简单的数据扩充就是翻转原始图像
+
+[完整的代码可在 GitHub 上获得](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+准确复制原始论文的实现通常很困难。 在本书中，我们使用了不同的优化器和数据扩充。 这可能会导致本书中所实现的`tf.keras` ResNet 和原始模型中的表现略有不同。
+
+在 **ResNet** [4]的第二篇论文发布之后，本节中介绍的原始模型为，称为 ResNet v1。 改进的 ResNet 通常称为 ResNet v2，我们将在下一部分讨论。
+
+# 3\. ResNet v2
+
+ResNet v2 的改进主要体现在残块中各层的排列中，如图“图 2.3.1”所示。
+
+ResNet v2 的主要变化是：
+
+*   使用`1 x 1 – 3 x 3 – 1 × 1`的栈`BN-ReLU-Conv2D`
+*   批量标准化和 ReLU 激活先于二维卷积
+
+![](img/B14853_02_10.png)
+
+图 2.3.1：ResNet v1 和 ResNet v2 之间的剩余块比较
+
+ResNet v2 也以与`resnet-cifar10-2.2.1.py`相同的代码实现，如“列表 2.2.1”所示：
+
+“列表 2.2.1”：`resnet-cifar10-2.2.1.py`
+
+```py
+def resnet_v2(input_shape, depth, num_classes=10):
+    """ResNet Version 2 Model builder [b] 
+```
+
+```py
+ Stacks of (1 x 1)-(3 x 3)-(1 x 1) BN-ReLU-Conv2D or 
+    also known as bottleneck layer.
+    First shortcut connection per layer is 1 x 1 Conv2D.
+    Second and onwards shortcut connection is identity.
+    At the beginning of each stage, 
+    the feature map size is halved (downsampled)
+    by a convolutional layer with strides=2, 
+    while the number of filter maps is
+    doubled. Within each stage, the layers have 
+    the same number filters and the same filter map sizes.
+    Features maps sizes:
+    conv1  : 32x32,  16
+    stage 0: 32x32,  64
+    stage 1: 16x16, 128
+    stage 2:  8x8,  256 
+```
+
+```py
+ Arguments:
+        input_shape (tensor): shape of input image tensor
+        depth (int): number of core convolutional layers
+        num_classes (int): number of classes (CIFAR10 has 10) 
+```
+
+```py
+ Returns:
+        model (Model): Keras model instance
+    """
+    if (depth - 2) % 9 != 0:
+        raise ValueError('depth should be 9n+2 (eg 110 in [b])')
+    # start model definition.
+    num_filters_in = 16
+    num_res_blocks = int((depth - 2) / 9) 
+```
+
+```py
+ inputs = Input(shape=input_shape)
+    # v2 performs Conv2D with BN-ReLU
+    # on input before splitting into 2 paths
+    x = resnet_layer(inputs=inputs,
+                     num_filters=num_filters_in,
+                     conv_first=True) 
+```
+
+```py
+ # instantiate the stack of residual units
+    for stage in range(3):
+        for res_block in range(num_res_blocks):
+            activation = 'relu'
+            batch_normalization = True
+            strides = 1
+            if stage == 0:
+                num_filters_out = num_filters_in * 4
+                # first layer and first stage
+                if res_block == 0:
+                    activation = None
+                    batch_normalization = False
+            else:
+                num_filters_out = num_filters_in * 2
+                # first layer but not first stage
+                if res_block == 0:
+                    # downsample
+                    strides = 2 
+```
+
+```py
+ # bottleneck residual unit
+            y = resnet_layer(inputs=x,
+                             num_filters=num_filters_in,
+                             kernel_size=1,
+                             strides=strides,
+                             activation=activation,
+                             batch_normalization=batch_normalization,
+                             conv_first=False)
+            y = resnet_layer(inputs=y,
+                             num_filters=num_filters_in,
+                             conv_first=False)
+            y = resnet_layer(inputs=y,
+                             num_filters=num_filters_out,
+                             kernel_size=1,
+                             conv_first=False)
+            if res_block == 0:
+                # linear projection residual shortcut connection
+                # to match changed dims
+                x = resnet_layer(inputs=x,
+                                 num_filters=num_filters_out,
+                                 kernel_size=1,
+                                 strides=strides,
+                                 activation=None,
+                                 batch_normalization=False)
+            x = add([x, y]) 
+```
+
+```py
+ num_filters_in = num_filters_out 
+```
+
+```py
+ # add classifier on top.
+    # v2 has BN-ReLU before Pooling
+    x = BatchNormalization()(x)
+    x = Activation('relu')(x)
+    x = AveragePooling2D(pool_size=8)(x)
+    y = Flatten()(x)
+    outputs = Dense(num_classes,
+                    activation='softmax',
+                    kernel_initializer='he_normal')(y) 
+```
+
+```py
+ # instantiate model.
+    model = Model(inputs=inputs, outputs=outputs)
+    return model 
+```
+
+下面的代码显示了 ResNet v2 的模型构建器。 例如，要构建 ResNet110 v2，我们将使用`n = 12`和`version = 2`：
+
+```py
+n = 12
+```
+
+```py
+# model version
+# orig paper: version = 1 (ResNet v1), 
+# improved ResNet: version = 2 (ResNet v2)
+version = 2
+```
+
+```py
+# computed depth from supplied model parameter n
+if version == 1:
+    depth = n * 6 + 2
+elif version == 2:
+    depth = n * 9 + 2 
+```
+
+```py
+ if version == 2:
+    model = resnet_v2(input_shape=input_shape, depth=depth)
+else:
+    model = resnet_v1(input_shape=input_shape, depth=depth) 
+```
+
+ResNet v2 的准确率显示在下面的“表 2.3.1”中：
+
+| **层** | `n` | **CIFAR10 的准确率百分比（原始论文）** | **CIFAR10 的准确率百分比（本书）** |
+| --- | --- | --- | --- |
+| ResNet56 | 9 | 不适用 | 93.01 |
+| ResNet110 | 18 | 93.63 | 93.15 |
+
+表 2.3.1：在 CIFAR10 数据集上验证的 ResNet v2 架构
+
+在 Keras 应用包中，已实现某些 ResNet v1 和 v2 模型（例如：50、101、152）。 这些是替代的实现方式，其中预训练的权重不清楚，可以轻松地重新用于迁移学习。 本书中使用的模型在层数方面提供了灵活性。
+
+我们已经完成了对最常用的深度神经网络之一 ResNet v1 和 v2 的讨论。 在以下部分中，将介绍另一种流行的深度神经网络架构 DenseNet。
+
+# 4\. 紧密连接的卷积网络（DenseNet）
+
+![](img/B14853_02_11.png)
+
+图 2.4.1：DenseNet 中的一个 4 层`Dense`块，每层的输入均由所有先前的特征映射组成。
+
+DenseNet 使用另一种方法攻击梯度消失的问题。 代替使用快捷方式连接，所有先前的特征映射都将成为下一层的输入。 上图显示了一个`Dense`块中密集互连的示例。
+
+为简单起见，在此图中，我们仅显示四层。 注意，层`l`的输入是所有先前特征映射的连接。 如果用操作`H`表示`BN-ReLU-Conv2D`（`x`），则层`l`的输出为：
+
+`x[l] = H(x[0], x[1], x[2], x[l-1])`（公式 2.4.1）
+
+`Conv2D`使用大小为 3 的核。每层生成的特征映射的数量称为增长率`k`。 通常，在 Huang 等人的论文“密集连接卷积网络”中，也使用`k = 12`，但是`k = 24` [5]。 因此，如果特征映射`x[0]`的数量为`k[0]`，则“图 2.4.1”中，4 层`Dense`块的末尾的特征映射总数为`4 x k + k[0]`。
+
+DenseNet 建议在`Dense`块之前加上`BN-ReLU-Conv2D`，以及许多是增长率两倍的特征映射`k[0]`= 2 x`k`。 在`Dense`块的末尾，特征映射的总数将为`4 x 12 + 2 x 12 = 72`。
+
+在输出层，DenseNet 建议我们在具有`softmax`层的`Dense()`之前执行平均池化。 如果未使用数据扩充，则必须在`Dense`块`Conv2D`之后跟随一个丢弃层。
+
+随着网络的深入，将出现两个新问题。 首先，由于每一层都贡献了`k`特征映射，因此`l`层的输入数量为`(l – 1) x k + k[0]`。 特征映射可以在深层中快速增长，从而减慢了计算速度。 例如，对于 101 层网络，对于`k = 12`，这将是`1200 + 24 = 1224`。
+
+其次，类似于 ResNet，随着网络的不断深入，特征映射的大小将减小，从而增加核的接收域大小。 如果 DenseNet 在合并操作中使用连接，则必须协调大小上的差异。
+
+为了防止特征映射的数量增加到计算效率低的程度，DenseNet 引入了`Bottleneck`层，如图“图 2.4.2”所示。 这个想法是，在每次连接之后，现在应用`1 x 1`卷积，其过滤器大小等于`4k`。 这种降维技术阻止了`Conv2D(3)`处理的特征映射的数量快速增加。
+
+![](img/B14853_02_12.png)
+
+图 2.4.2：DenseNet 的 Dense 块中的一层，带有和不带有瓶颈层 BN-ReLU-Conv2D（1）。 为了清楚起见，我们将核大小作为 Conv2D 的参数。
+
+然后`Bottleneck`层将 DenseNet 层修改为`BN-ReLU-Conv2D(1)-BN- ReLU-Conv2D(3)`，而不仅仅是`BN-ReLU-Conv2D(3)`。 为了清楚起见，我们将核大小作为`Conv2D`的参数。 在瓶颈层，每个`Conv2D(3)`仅处理 4 个`k`特征映射，而不是`(l – 1) x k + k[0]`的，对于层`l`。 例如，对于 101 层网络，最后一个`Conv2D(3)`的输入仍然是`k = 12`而不是先前计算的 1224 的 48 个特征映射。
+
+为了解决特征映射大小不匹配的问题，DenseNet 将深度网络划分为多个 Dense 块，这些块通过过渡层连接在一起，如图“图 2.4.3”所示。 在每个`Dense`块中，特征映射的大小（即宽度和高度）将保持不变。
+
+过渡层的作用是在两个`Dense`块之间从一个特征映射大小过渡到较小的特征映射大小。 尺寸通常减少一半。 这是通过平均池化层完成的。 例如，默认值为`pool_size=2`的`AveragePooling2D`会将大小从`(64, 64, 256)`减小为`(32, 32, 256)`。 过渡层的输入是前一个`Dense`块中最后一个连接层的输出。
+
+![A close up of a logo  Description automatically generated](img/B14853_02_13.png)
+
+图 2.4.3：两个密集块之间的过渡层
+
+但是，在将特征映射传递到平均池之前，使用`Conv2D(1)`将其数量减少某个压缩因子`0 < θ < 1`。DenseNet 在实验中使用`θ = 0.5`。 例如，如果先前`Dense`块的最后连接的输出是`(64, 64, 512)`，则在`Conv2D(1)`之后，特征映射的新尺寸将是`(64, 64, 256)`。 当压缩和降维放在一起时，过渡层由`BN-Conv2D(1)-AveragePooling2D`层组成。 实际上，批量归一化在卷积层之前。
+
+现在，我们已经涵盖了 DenseNet 的重要概念。 接下来，我们将为`tf.keras`中的 CIFAR10 数据集构建并验证 DenseNet-BC。
+
+## 为 CIFAR10 构建 100 层 DenseNet-BC
+
+现在，我们将要为 CIFAR10 数据集构建一个具有 100 层的 **DenseNet-BC**（**瓶颈压缩**）， 我们在上面讨论过。
+
+“表 2.4.1”显示了模型配置，而“图 2.4.4”显示了模型架构。 清单为我们展示了具有 100 层的 DenseNet-BC 的部分 Keras 实现。 我们需要注意的是，我们使用`RMSprop`，因为在使用 DenseNet 时，它的收敛性优于 SGD 或 Adam。
+
+| **层** | **输出大小** | **DenseNet-100 BC** |
+| --- | --- | --- |
+| 卷积 | `32 x 32` | `3 x 3 Conv2D` |
+| 密集块（1） | `32 x 32` | ![](img/B14853_02_006.png) |
+| 过渡层（1） | `32 x 32` | ![](img/B14853_02_007.png) |
+| `16 x 16` |
+| 密集块（2） | `16 x 16` | ![](img/B14853_02_008.png) |
+| 过渡层（2） | `16 x 16` | ![](img/B14853_02_009.png) |
+| `8 x 8` |
+| 密集块（3） | `8 x 8` | ![](img/B14853_02_006.png) |
+| 平均池化 | `1 x 1` | `8 x 8 AveragePooling2D` |
+| 分类层 |  | `Flatten-Dense(10)-softmax` |
+
+表 2.4.1：100 层的 DenseNet-BC 用于 CIFAR10 分类
+
+将从配置移至架构：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_02_14.png)
+
+图 2.4.4：用于 CIFAR10 分类的 100 个层的 DenseNet-BC 模型架构
+
+下面“列表 2.4.1”是具有 100 层的 DenseNet-BC 的部分 Keras 实现，如“表 2.4.1”所示。
+
+“列表 2.4.1”：`densenet-cifar10-2.4.1.py`
+
+```py
+# start model definition
+# densenet CNNs (composite function) are made of BN-ReLU-Conv2D
+inputs = Input(shape=input_shape)
+x = BatchNormalization()(inputs)
+x = Activation('relu')(x)
+x = Conv2D(num_filters_bef_dense_block,
+           kernel_size=3,
+           padding='same',
+           kernel_initializer='he_normal')(x)
+x = concatenate([inputs, x]) 
+```
+
+```py
+# stack of dense blocks bridged by transition layers
+for i in range(num_dense_blocks):
+    # a dense block is a stack of bottleneck layers
+    for j in range(num_bottleneck_layers):
+        y = BatchNormalization()(x)
+        y = Activation('relu')(y)
+        y = Conv2D(4 * growth_rate,
+                   kernel_size=1,
+                   padding='same',
+                   kernel_initializer='he_normal')(y)
+        if not data_augmentation:
+            y = Dropout(0.2)(y)
+        y = BatchNormalization()(y)
+        y = Activation('relu')(y)
+        y = Conv2D(growth_rate,
+                   kernel_size=3,
+                   padding='same',
+                   kernel_initializer='he_normal')(y)
+        if not data_augmentation:
+            y = Dropout(0.2)(y)
+        x = concatenate([x, y]) 
+```
+
+```py
+ # no transition layer after the last dense block
+    if i == num_dense_blocks - 1:
+        continue
+    # transition layer compresses num of feature maps and # reduces the size by 2
+    num_filters_bef_dense_block += num_bottleneck_layers * growth_rate
+    num_filters_bef_dense_block = int(num_filters_bef_dense_block * compression_factor)
+    y = BatchNormalization()(x)
+    y = Conv2D(num_filters_bef_dense_block,
+               kernel_size=1,
+               padding='same',
+               kernel_initializer='he_normal')(y)
+    if not data_augmentation:
+        y = Dropout(0.2)(y)
+    x = AveragePooling2D()(y) 
+```
+
+```py
+# add classifier on top
+# after average pooling, size of feature map is 1 x 1
+x = AveragePooling2D(pool_size=8)(x)
+y = Flatten()(x)
+outputs = Dense(num_classes,
+                kernel_initializer='he_normal',
+                activation='softmax')(y)
+# instantiate and compile model
+# orig paper uses SGD but RMSprop works better for DenseNet
+model = Model(inputs=inputs, outputs=outputs)
+model.compile(loss='categorical_crossentropy',
+              optimizer=RMSprop(1e-3),
+              metrics=['accuracy'])
+model.summary() 
+```
+
+训练 DenseNet 的`tf.keras`实现 200 个周期，可以达到 93.74% 的准确率，而本文中报道的是 95.49%。 使用数据扩充。 我们在 ResNet v1 / v2 中为 DenseNet 使用了相同的回调函数。
+
+对于更深的层，必须使用 Python 代码上的表来更改`growth_rate`和`depth`变量。 但是，如本文所述，以深度 190 或 250 训练网络将需要大量时间。 为了给我们一个训练时间的想法，每个周期在 1060Ti GPU 上运行大约一个小时。 与 ResNet 相似，Keras 应用包具有针对 DenseNet 121 及更高版本的预训练模型。
+
+DenseNet 完成了我们对深度神经网络的讨论。 与 ResNet 一起，这两个网络已成为许多下游任务中不可或缺的特征提取器网络。
+
+# 5\. 总结
+
+在本章中，我们介绍了函数式 API 作为使用`tf.keras`构建复杂的深度神经网络模型的高级方法。 我们还演示了如何使用函数式 API 来构建多输入单输出 Y 网络。 与单分支 CNN 网络相比，该网络具有更高的准确率。 在本书的其余部分中，我们将发现在构建更复杂和更高级的模型时必不可少的函数式 API。 例如，在下一章中，函数式 API 将使我们能够构建模块化编码器，解码器和自编码器。
+
+我们还花费了大量时间探索两个重要的深度网络 ResNet 和 DenseNet。 这两个网络不仅用于分类，而且还用于其他领域，例如分段，检测，跟踪，生成和视觉语义理解。 在“第 11 章”，“对象检测”和“第 12 章”，“语义分割”中，我们将使用 ResNet 进行对象检测和分割。 我们需要记住，与仅仅遵循原始实现相比，更仔细地了解 ResNet 和 DenseNet 中的模型设计决策至关重要。 这样，我们就可以将 ResNet 和 DenseNet 的关键概念用于我们的目的。
+
+# 6\. 参考
+
+1.  `Kaiming He et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. Proceedings of the IEEE international conference on computer vision, 2015 (https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdfspm=5176.100239.blogcont55892.28.pm8zm1&file=He_Delving_Deep_into_ICCV_2015_paper.pdf).`
+1.  `Kaiming He et al. Deep Residual Learning for Image Recognition. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016a (http://openaccess.thecvf.com/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf).`
+1.  `Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. ICLR, 2015 (https://arxiv.org/pdf/1409.1556/).`
+1.  `Kaiming He et al. Identity Mappings in Deep Residual Networks. European Conference on Computer Vision. Springer International Publishing, 2016b (https://arxiv.org/pdf/1603.05027.pdf).`
+1.  `Gao Huang et al. Densely Connected Convolutional Networks. Proceedings of the IEEE conference on computer vision and pattern recognition, 2017 (http://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf).`
+1.  `Saining Xie et al. Aggregated Residual Transformations for Deep Neural Networks. Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017 (http://openaccess.thecvf.com/content_cvpr_2017/papers/Xie_Aggregated_Residual_Transformations_CVPR_2017_paper.pdf).`
+1.  `Zagoruyko, Sergey, and Nikos Komodakis. "Wide residual networks." arXiv preprint arXiv:1605.07146 (2016).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/03.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/03.md
new file mode 100644
index 00000000..a59f4ebf
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/03.md
@@ -0,0 +1,891 @@
+# 三、自编码器
+
+在上一章“第 2 章”，“深度神经网络”中，我们介绍了深度神经网络的概念。 现在，我们将继续研究自编码器，它是一种神经网络架构，试图找到给定输入数据的压缩表示形式。
+
+与前面的章节相似，输入数据可以采用多种形式，包括语音，文本，图像或视频。 自编码器将尝试查找表示形式或一段代码，以便对输入数据执行有用的转换。 例如，当对自编码器进行降噪处理时，神经网络将尝试找到可用于将噪声数据转换为干净数据的代码。 嘈杂的数据可以是带有静态噪声的录音形式，然后将其转换为清晰的声音。 自编码器将自动从数据中自动学习代码，而无需人工标记。 这样，自编码器可以在**无监督**学习算法下分类为。
+
+在本书的后续章节中，我们将研究**生成对抗网络**（**GAN**）和**变分自编码器**（**VAE**） 也是无监督学习算法的代表形式。 这与我们在前几章中讨论过的监督学习算法相反，后者需要人工标注。
+
+总之，本章介绍：
+
+*   自编码器的原理
+*   如何使用`tf.keras`实现自编码器
+*   去噪和着色自编码器的实际应用
+
+让我们从了解自编码器是什么以及自编码器的原理开始。
+
+# 1\. 自编码器的原理
+
+自编码器以最简单的形式通过尝试将输入复制到输出中来学习表示形式或代码。 但是，使用自编码器并不像将输入复制到输出那样简单。 否则，神经网络将无法发现输入分布中的隐藏结构。
+
+自编码器将输入分布编码为低维张量，通常采用向量形式。 这将近似通常称为潜在表示，代码或向量的隐藏结构。 该处理构成编码部分。 然后，潜在向量将由解码器部分解码，以恢复原始输入。
+
+由于潜向量是输入分布的低维压缩表示，因此应该期望解码器恢复的输出只能近似输入。 输入和输出之间的差异可以通过损失函数来衡量。
+
+但是为什么我们要使用自编码器？ 简而言之，自编码器在原始形式或更复杂的神经网络的一部分中都有实际应用。
+
+它们是了解深度学习的高级主题的关键工具，因为它们为我们提供了适合密度估计的低维数据表示。 此外，可以有效地对其进行处理以对输入数据执行结构化操作。 常见的操作包括去噪，着色，特征级算术，检测，跟踪和分割，仅举几例。
+
+在本节中，我们将介绍自编码器的原理。 我们将使用前几章介绍的带有 MNIST 数据集的自编码器。
+
+首先，我们需要意识到自编码器具有两个运算符，它们是：
+
+*   **编码器**：这会将输入`x`转换为低维潜向量`z = f(x)`。 由于潜向量是低维的，编码器被迫仅学习输入数据的最重要特征。 例如，在 MNIST 数字的情况下，要学习的重要特征可能包括书写风格，倾斜角度，笔触圆度，厚度等。 从本质上讲，这些是代表数字 0 至 9 所需的最重要的信息位。
+*   **解码器**：这尝试从潜在向量`g(z) = x`中恢复输入。
+
+尽管潜向量的维数较小，但它的大小足以使解码器恢复输入数据。
+
+解码器的目标是使`x_tilde`尽可能接近`x`。 通常，编码器和解码器都是非线性函数。`z`的尺寸是可以表示的重要特征数量的度量。 该维数通常比输入维数小得多，以提高效率，并为了限制潜在代码仅学习输入分布的最显着属性[1]。
+
+当潜码的维数明显大于`x`时，自编码器倾向于记忆输入。
+
+合适的损失函数`L(x, x_tilde)`衡量输入`x`与输出（即）恢复后的输入`x_tilde`的相异程度。 如下式所示，均方误差（MSE）是此类损失函数的一个示例：
+
+![](img/B14853_03_006.png) (Equation 3.1.1)
+
+在此示例中，`m`是输出尺寸（例如，在 MNIST 中，`m = width × height × channels = 28 × 28 × 1 = 784`）。`x[i]`和`x_tilde[i]`分别是`x`和`x_tilde`的元素。 由于损失函数是输入和输出之间差异的量度，因此我们可以使用替代的重建损失函数，例如二进制交叉熵或结构相似性指数（SSIM）。
+
+与其他神经网络类似，自编码器会在训练过程中尝试使此误差或损失函数尽可能小。“图 3.1.1”显示了一个自编码器。 编码器是将输入`x`压缩为低维潜向量`z`的函数。 该潜向量代表输入分布的重要特征。 然后，解码器尝试以`x_tilde`的形式从潜向量中恢复原始输入。
+
+![](img/B14853_03_01.png)
+
+图 3.1.1：自编码器的框图
+
+为了将自编码器置于上下文中，`x`可以是尺寸为`28×28×1 = 784`的 MNIST 数字。编码器将输入转换为低维的`z`，可以是 16 维潜在向量。 解码器将尝试从`z`中以`x_tilde`的形式恢复输入。
+
+在视觉上，每个 MNIST 数字`x`看起来都类似于`x_tilde`。“图 3.1.2”向我们演示了此自编码过程。
+
+![](img/B14853_03_02.png)
+
+图 3.1.2：带有 MNIST 数字输入和输出的自编码器。 潜在向量为 16 角
+
+我们可以看到，虽然解码后的数字 7 并不完全相同，但仍然足够接近。
+
+由于编码器和解码器都是非线性函数，因此我们可以使用神经网络来实现两者。 例如，在 MNIST 数据集中，自编码器可以由 MLP 或 CNN 实现。 通过最小化通过反向传播的损失函数，可以训练自编码器。 与其他神经网络类似，反向传播的要求是损失函数必须是可微的。
+
+如果将输入视为分布，则可以将编码器解释为分布的编码器，`p(z | x)`，将解码器解释为分布的解码器`p(x | z)`。 自编码器的损失函数表示为：
+
+![](img/B14853_03_012.png) (Equation 3.1.2)
+
+损失函数只是意味着我们要在给定潜在向量分布的情况下最大程度地恢复输入分布的机会。 如果假设解码器的输出分布为为高斯，则损失函数归结为 MSE，因为：
+
+![](img/B14853_03_013.png) (Equation 3.1.3)
+
+在此示例中，`N(x[i]; x_tilde[i], σ²`表示平均值为`x_tilde[i]`且方差为`σ²`的高斯分布。 假设恒定方差。 假定解码器输出`x_tilde[i]`是独立的。`m`是输出尺寸。
+
+了解自编码器背后的原理将有助于我们执行代码。 在下一节中，我们将研究如何使用`tf.keras`函数式 API 来构建编码器，解码器和自编码器。
+
+# 2\. 使用 Keras 构建自编码器
+
+现在，我们要使用进行一些令人兴奋的事情，使用`tf.keras`库构建一个自编码器。 为了简单起见，我们将使用 MNIST 数据集作为第一组示例。 然后，自编码器将根据输入数据生成潜向量，并使用解码器恢复输入。 在该第一示例中，潜向量是 16 维。
+
+首先，我们将通过构建编码器来实现自编码器。
+
+“列表 3.2.1”显示了将 MNIST 数字压缩为 16 维潜在向量的编码器。 编码器是两个`Conv2D`的栈。 最后阶段是具有 16 个单元的`Dense`层，以生成潜向量。
+
+“列表 3.2.1”：`autoencoder-mnist-3.2.1.py`
+
+```py
+from tensorflow.keras.layers import Dense, Input
+from tensorflow.keras.layers import Conv2D, Flatten
+from tensorflow.keras.layers import Reshape, Conv2DTranspose
+from tensorflow.keras.models import Model
+from tensorflow.keras.datasets import mnist
+from tensorflow.keras.utils import plot_model
+from tensorflow.keras import backend as K 
+```
+
+```py
+import numpy as np
+import matplotlib.pyplot as plt 
+```
+
+```py
+# load MNIST dataset
+(x_train, _), (x_test, _) = mnist.load_data()
+# reshape to (28, 28, 1) and normalize input images
+image_size = x_train.shape[1]
+x_train = np.reshape(x_train, [-1, image_size, image_size, 1])
+x_test = np.reshape(x_test, [-1, image_size, image_size, 1])
+x_train = x_train.astype('float32') / 255
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# network parameters
+input_shape = (image_size, image_size, 1)
+batch_size = 32
+kernel_size = 3
+latent_dim = 16
+# encoder/decoder number of CNN layers and filters per layer
+layer_filters = [32, 64]
+# build the autoencoder model
+# first build the encoder model
+inputs = Input(shape=input_shape, name='encoder_input')
+x = inputs
+# stack of Conv2D(32)-Conv2D(64)
+for filters in layer_filters:
+    x = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               activation='relu',
+               strides=2,
+               padding='same')(x) 
+```
+
+```py
+# shape info needed to build decoder model
+# so we don't do hand computation
+# the input to the decoder's first
+# Conv2DTranspose will have this shape
+# shape is (7, 7, 64) which is processed by
+# the decoder back to (28, 28, 1)
+shape = K.int_shape(x) 
+```
+
+```py
+# generate latent vector
+x = Flatten()(x)
+latent = Dense(latent_dim, name='latent_vector')(x) 
+```
+
+```py
+# instantiate encoder model
+encoder = Model(inputs,
+                latent,
+                name='encoder')
+encoder.summary()
+plot_model(encoder,
+           to_file='encoder.png',
+           show_shapes=True) 
+```
+
+```py
+# build the decoder model
+latent_inputs = Input(shape=(latent_dim,), name='decoder_input')
+# use the shape (7, 7, 64) that was earlier saved
+x = Dense(shape[1] * shape[2] * shape[3])(latent_inputs)
+# from vector to suitable shape for transposed conv
+x = Reshape((shape[1], shape[2], shape[3]))(x) 
+```
+
+```py
+# stack of Conv2DTranspose(64)-Conv2DTranspose(32)
+for filters in layer_filters[::-1]:
+    x = Conv2DTranspose(filters=filters,
+                        kernel_size=kernel_size,
+                        activation='relu',
+                        strides=2,
+                        padding='same')(x) 
+```
+
+```py
+# reconstruct the input
+outputs = Conv2DTranspose(filters=1,
+                          kernel_size=kernel_size,
+                          activation='sigmoid',
+                          padding='same',
+                          name='decoder_output')(x) 
+```
+
+```py
+# instantiate decoder model
+decoder = Model(latent_inputs, outputs, name='decoder')
+decoder.summary()
+plot_model(decoder, to_file='decoder.png', show_shapes=True) 
+```
+
+```py
+# autoencoder = encoder + decoder
+# instantiate autoencoder model
+autoencoder = Model(inputs,
+                    decoder(encoder(inputs)),
+                    name='autoencoder')
+autoencoder.summary()
+plot_model(autoencoder,
+           to_file='autoencoder.png',
+           show_shapes=True) 
+```
+
+```py
+# Mean Square Error (MSE) loss function, Adam optimizer
+autoencoder.compile(loss='mse', optimizer='adam') 
+```
+
+```py
+# train the autoencoder
+autoencoder.fit(x_train,
+                x_train,
+                validation_data=(x_test, x_test),
+                epochs=1,
+                batch_size=batch_size) 
+```
+
+```py
+# predict the autoencoder output from test data
+x_decoded = autoencoder.predict(x_test) 
+```
+
+```py
+# display the 1st 8 test input and decoded images
+imgs = np.concatenate([x_test[:8], x_decoded[:8]])
+imgs = imgs.reshape((4, 4, image_size, image_size))
+imgs = np.vstack([np.hstack(i) for i in imgs])
+plt.figure()
+plt.axis('off')
+plt.title('Input: 1st 2 rows, Decoded: last 2 rows')
+plt.imshow(imgs, interpolation='none', cmap='gray')
+plt.savefig('input_and_decoded.png')
+plt.show() 
+```
+
+“图 3.2.1”显示了`plot_model()`生成的架构模型图，与`encoder.summary()`生成的文本版本相同。 保存最后一个`Conv2D`的输出形状以计算解码器输入层的尺寸，以便轻松重建 MNIST 图像：`shape = K.int_shape(x)`。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_03_03.png)
+
+图 3.2.1：编码器模型由`Conv2D(32) - Conv2D(64) - Dense(16)`组成，以生成低维潜向量
+
+列表 3.2.1 中的解码器对潜在向量进行解压缩，以恢复 MNIST 数字。 解码器输入级是`Dense`层，它将接受潜在向量。 单元的数量等于从编码器保存的`Conv2D`输出尺寸的乘积。 这样做是为了便于我们调整`Dense`层`Dense`层的输出大小，以最终恢复原始 MNIST 图像尺寸。
+
+解码器由三个`Conv2DTranspose`的栈组成。 在我们的案例中，我们将使用**转置的 CNN**（有时称为**反卷积**），它是解码器中常用的。 我们可以将转置的 CNN（`Conv2DTranspose`）想象成 CNN 的逆过程。
+
+在一个简单的示例中，如果 CNN 将图像转换为特征映射，则转置的 CNN 将生成给定特征映射的图像。“图 3.2.2”显示了解码器模型：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_03_04.png)
+
+图 3.2.2：解码器模型由`Dense(16) - Conv2DTranspose(64) - Conv2DTranspose(32) - Conv2DTranspose(1)`组成。 输入是经过解码以恢复原始输入的潜向量
+
+通过将编码器和解码器连接在一起，我们可以构建自编码器。“图 3.2.3”说明了自编码器的模型图：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_03_05.png)
+
+图 3.2.3：通过将编码器模型和解码器模型结合在一起来构建自编码器模型。 此自编码器有 178 k 个参数
+
+编码器的张量输出也是解码器的输入，该解码器生成自编码器的输出。 在此示例中，我们将使用 MSE 损失函数和 Adam 优化器。 在训练期间，输入与输出`x_train`相同。 我们应该注意，在我们的示例中，只有几层足以将验证损失在一个周期内驱动到 0.01。 对于更复杂的数据集，我们可能需要更深的编码器和解码器，以及更多的训练时间。
+
+在对自编码器进行了一个周期的验证损失为 0.01 的训练之后，我们能够验证它是否可以对以前从未见过的 MNIST 数据进行编码和解码。“图 3.2.4”向我们展示了来自测试数据和相应解码图像的八个样本：
+
+![](img/B14853_03_06.png)
+
+图 3.2.4：根据测试数据预测自编码器。 前两行是原始输入测试数据。 最后两行是预测数据
+
+除了图像中的轻微模糊之外，我们能够轻松识别出自编码器能够以良好的质量恢复输入。 随着我们训练更多的周期，结果将有所改善。
+
+在这一点上，我们可能想知道：我们如何可视化空间中的潜在向量？ 一种简单的可视化方法是强制自编码器使用 2 维潜在向量来学习 MNIST 数字特征。 从那里，我们可以将该潜在向量投影到二维空间上，以查看 MNIST 潜在向量的分布方式。“图 3.2.5”和“图 3.2.6”显示了 MNIST 数字的分布与潜在代码尺寸的关系。
+
+![A close up of a mans face  Description automatically generated](img/B14853_03_07.png)
+
+图 3.2.5：MNIST 数字分布与潜在代码尺寸`z[0]`和`z[1]`的关系。 原始照片可以在本书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter3-autoencoders/README.md)中找到。
+
+在“图 3.2.5”中，我们可以看到特定数字的潜向量聚集在空间的某个区域上。 例如，数字 0 在左下象限中，而数字 1 在右上象限中。 这种群集在图中得到了反映。 实际上，同一图显示了导航或从潜在空间生成新数字的结果，如图“图 3.2.5”所示。
+
+例如，从中心开始，向右上象限改变 2 维潜向量的值，这表明数字从 9 变为 1。这是可以预期的，因为从“图 3.2.5”开始，我们可以看到数字 9 群集的潜在代码值在中心附近，数字 1 群集的潜在代码值在右上象限。
+
+对于“图 3.2.5”和“图 3.2.6”，我们仅研究了每个潜在向量维在 -4.0 和 +4.0 之间的区域：
+
+![](img/B14853_03_08.png)
+
+图 3.2.6：导航 2 维潜在向量空间时生成的数字
+
+从“图 3.2.5”中可以看出，潜在代码分布不是连续的。 理想情况下，应该看起来像一个圆圈，其中到处都有有效值。 由于这种不连续性，因此如果解码潜伏向量，则几乎不会产生任何可识别的数字。
+
+“图 3.2.5”和“图 3.2.6”经过 20 个训练周期后生成。 通过设置`latent_dim = 2`修改了`autoencoder-mnist-3.2.1.py`代码。 `plot_ results()`函数将 MNIST 数字绘制为 2 维潜在向量的函数。 为了方便起见，该程序另存为`autoencoder-2dim-mnist-3.2.2.py`，其部分代码显示在“列表 3.2.2”中。 其余代码实际上类似于“列表 3.2.1”，在此不再显示。
+
+“列表 3.2.2”：`autoencoder-2dim-mnist-3.2.2.py`
+
+```py
+def plot_results(models,
+                 data,
+                 batch_size=32,
+                 model_name="autoencoder_2dim"):
+    """Plots 2-dim latent values as scatter plot of digits
+        then, plot MNIST digits as function of 2-dim latent vector 
+```
+
+```py
+ Arguments:
+        models (list): encoder and decoder models
+        data (list): test data and label
+        batch_size (int): prediction batch size
+        model_name (string): which model is using this function
+    """ 
+```
+
+```py
+ encoder, decoder = models
+    x_test, y_test = data
+    xmin = ymin = -4
+    xmax = ymax = +4
+    os.makedirs(model_name, exist_ok=True) 
+```
+
+```py
+ filename = os.path.join(model_name, "latent_2dim.png")
+    # display a 2D plot of the digit classes in the latent space
+    z = encoder.predict(x_test,
+                        batch_size=batch_size)
+    plt.figure(figsize=(12, 10)) 
+```
+
+```py
+ # axes x and y ranges
+    axes = plt.gca()
+    axes.set_xlim([xmin,xmax])
+    axes.set_ylim([ymin,ymax]) 
+```
+
+```py
+ # subsample to reduce density of points on the plot
+    z = z[0::2]
+    y_test = y_test[0::2]
+    plt.scatter(z[:, 0], z[:, 1], marker="")
+    for i, digit in enumerate(y_test):
+        axes.annotate(digit, (z[i, 0], z[i, 1]))
+    plt.xlabel("z[0]")
+    plt.ylabel("z[1]")
+    plt.savefig(filename)
+    plt.show() 
+```
+
+```py
+ filename = os.path.join(model_name, "digits_over_latent.png")
+    # display a 30x30 2D manifold of the digits
+    n = 30
+    digit_size = 28
+    figure = np.zeros((digit_size * n, digit_size * n))
+    # linearly spaced coordinates corresponding to the 2D plot
+    # of digit classes in the latent space
+    grid_x = np.linspace(xmin, xmax, n)
+    grid_y = np.linspace(ymin, ymax, n)[::-1] 
+```
+
+```py
+ for i, yi in enumerate(grid_y):
+        for j, xi in enumerate(grid_x):
+            z = np.array([[xi, yi]])
+            x_decoded = decoder.predict(z)
+            digit = x_decoded[0].reshape(digit_size, digit_size)
+            figure[i * digit_size: (i + 1) * digit_size,
+                   j * digit_size: (j + 1) * digit_size] = digit 
+```
+
+```py
+ plt.figure(figsize=(10, 10))
+    start_range = digit_size // 2
+    end_range = n * digit_size + start_range + 1
+    pixel_range = np.arange(start_range, end_range, digit_size)
+    sample_range_x = np.round(grid_x, 1)
+    sample_range_y = np.round(grid_y, 1)
+    plt.xticks(pixel_range, sample_range_x)
+    plt.yticks(pixel_range, sample_range_y)
+    plt.xlabel("z[0]")
+    plt.ylabel("z[1]")
+    plt.imshow(figure, cmap='Greys_r')
+    plt.savefig(filename)
+    plt.show() 
+```
+
+这样就完成了和自编码器的检查。 接下来的章节将重点介绍其实际应用。 我们将从去噪自编码器开始。
+
+# 3\. 去噪自编码器（DAE）
+
+现在，我们将构建具有实际应用的自编码器。 首先，让我们画一幅画，然后想象 MNIST 的数字图像被噪声破坏了，从而使人类更难以阅读。 我们能够构建一个去噪自编码器（DAE），以消除这些图像中的噪声。“图 3.3.1”向我们展示了三组 MNIST 数字。 每组的顶部行（例如，MNIST 数字 7、2、1、9、0、6、3、4 和 9）是原始图像。 中间的行显示了 DAE 的输入，这些输入是被噪声破坏的原始图像。 作为人类，我们发现很难读取损坏的 MNIST 数字。 最后一行显示 DAE 的输出。
+
+![](img/B14853_03_09.png)
+
+图 3.3.1：原始 MNIST 数字（顶部行），损坏的原始图像（中间行）和去噪图像（最后一行）
+
+如图“图 3.3.2”所示，去噪自编码器的结构实际上与我们在上一节中介绍的 MNIST 的自编码器相同。
+
+![](img/B14853_03_10.png)
+
+图 3.3.2：去噪自编码器的输入是损坏的图像。 输出是干净或去噪的图像。 假定潜向量为 16 维
+
+“图 3.3.2”中的输入定义为：
+
+`x = x_ori + noise`（公式 3.3.1）
+
+在该公式中，`x_ori`表示被*噪声*破坏的原始 MNIST 图像。 编码器的目的是发现如何产生潜向量`z`，这将使解码器能够恢复诸如 MSE，如下所示：`x_ori`通过最小化相异损失函数：
+
+![](img/B14853_03_018.png) (Equation 3.3.2)
+
+在此示例中，`m`是输出尺寸（例如，在 MNIST 中，`m = width × height × channels = 28 × 28 × 1 = 784`）。 `x_ori[i]`和`x_tilde[i]`分别是`x_ori`和`x_tilde`的元素。
+
+为了实现 DAE，我们将需要对上一节中介绍的自编码器进行一些更改。 首先，训练输入数据应损坏的 MNIST 数字。 训练输出数据是原始的原始 MNIST 数字相同。 这就像告诉自编码器应校正的图像是什么，或要求它找出在图像损坏的情况下如何消除噪声。 最后，我们必须在损坏的 MNIST 测试数据上验证自编码器。
+
+“图 3.3.2"左侧所示的 MNIST 数字 7 是实际损坏的图像输入。 右边的是经过训练的降噪自编码器的干净图像输出。
+
+“列表 3.3.1”：`denoising-autoencoder-mnist-3.3.1.py`
+
+```py
+from tensorflow.keras.layers import Dense, Input
+from tensorflow.keras.layers import Conv2D, Flatten
+from tensorflow.keras.layers import Reshape, Conv2DTranspose
+from tensorflow.keras.models import Model
+from tensorflow.keras import backend as K
+from tensorflow.keras.datasets import mnist
+import numpy as np
+import matplotlib.pyplot as plt
+from PIL import Image 
+```
+
+```py
+np.random.seed(1337) 
+```
+
+```py
+# load MNIST dataset
+(x_train, _), (x_test, _) = mnist.load_data() 
+```
+
+```py
+# reshape to (28, 28, 1) and normalize input images
+image_size = x_train.shape[1]
+x_train = np.reshape(x_train, [-1, image_size, image_size, 1])
+x_test = np.reshape(x_test, [-1, image_size, image_size, 1])
+x_train = x_train.astype('float32') / 255
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# generate corrupted MNIST images by adding noise with normal dist
+# centered at 0.5 and std=0.5
+noise = np.random.normal(loc=0.5, scale=0.5, size=x_train.shape)
+x_train_noisy = x_train + noise 
+```
+
+```py
+noise = np.random.normal(loc=0.5, scale=0.5, size=x_test.shape)
+x_test_noisy = x_test + noise
+# adding noise may exceed normalized pixel values>1.0 or <0.0
+# clip pixel values >1.0 to 1.0 and <0.0 to 0.0
+x_train_noisy = np.clip(x_train_noisy, 0., 1.)
+x_test_noisy = np.clip(x_test_noisy, 0., 1.)
+# network parameters
+input_shape = (image_size, image_size, 1)
+batch_size = 32
+kernel_size = 3
+latent_dim = 16
+# encoder/decoder number of CNN layers and filters per layer
+layer_filters = [32, 64] 
+```
+
+```py
+# build the autoencoder model
+# first build the encoder model
+inputs = Input(shape=input_shape, name='encoder_input')
+x = inputs 
+```
+
+```py
+# stack of Conv2D(32)-Conv2D(64)
+for filters in layer_filters:
+    x = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               strides=2,
+               activation='relu',
+               padding='same')(x) 
+```
+
+```py
+# shape info needed to build decoder model so we don't do hand computation
+# the input to the decoder's first Conv2DTranspose will have this shape
+# shape is (7, 7, 64) which can be processed by the decoder back to (28, 28, 1)
+shape = K.int_shape(x) 
+```
+
+```py
+# generate the latent vector
+x = Flatten()(x)
+latent = Dense(latent_dim, name='latent_vector')(x) 
+```
+
+```py
+# instantiate encoder model
+encoder = Model(inputs, latent, name='encoder')
+encoder.summary() 
+```
+
+```py
+# build the decoder model
+latent_inputs = Input(shape=(latent_dim,), name='decoder_input')
+# use the shape (7, 7, 64) that was earlier saved
+x = Dense(shape[1] * shape[2] * shape[3])(latent_inputs)
+# from vector to suitable shape for transposed conv
+x = Reshape((shape[1], shape[2], shape[3]))(x) 
+```
+
+```py
+# stack of Conv2DTranspose(64)-Conv2DTranspose(32)
+for filters in layer_filters[::-1]:
+    x = Conv2DTranspose(filters=filters,
+                        kernel_size=kernel_size,
+                        strides=2,
+                        activation='relu',
+                        padding='same')(x) 
+```
+
+```py
+# reconstruct the denoised input
+outputs = Conv2DTranspose(filters=1,
+                          kernel_size=kernel_size,
+                          padding='same',
+                          activation='sigmoid',
+                          name='decoder_output')(x) 
+```
+
+```py
+# instantiate decoder model
+decoder = Model(latent_inputs, outputs, name='decoder')
+decoder.summary() 
+```
+
+```py
+# autoencoder = encoder + decoder
+# instantiate autoencoder model
+autoencoder = Model(inputs, decoder(encoder(inputs)), name='autoencoder')
+autoencoder.summary() 
+```
+
+```py
+# Mean Square Error (MSE) loss function, Adam optimizer
+autoencoder.compile(loss='mse', optimizer='adam') 
+```
+
+```py
+# train the autoencoder
+autoencoder.fit(x_train_noisy,
+                x_train,
+                validation_data=(x_test_noisy, x_test),
+                epochs=10,
+                batch_size=batch_size) 
+```
+
+```py
+# predict the autoencoder output from corrupted test images
+x_decoded = autoencoder.predict(x_test_noisy) 
+```
+
+```py
+# 3 sets of images with 9 MNIST digits
+# 1st rows - original images
+# 2nd rows - images corrupted by noise
+# 3rd rows - denoised images
+rows, cols = 3, 9
+num = rows * cols
+imgs = np.concatenate([x_test[:num], x_test_noisy[:num], x_decoded[:num]])
+imgs = imgs.reshape((rows * 3, cols, image_size, image_size))
+imgs = np.vstack(np.split(imgs, rows, axis=1))
+imgs = imgs.reshape((rows * 3, -1, image_size, image_size))
+imgs = np.vstack([np.hstack(i) for i in imgs])
+imgs = (imgs * 255).astype(np.uint8)
+plt.figure()
+plt.axis('off')
+plt.title('Original images: top rows, '
+          'Corrupted Input: middle rows, '
+          'Denoised Input:  third rows')
+plt.imshow(imgs, interpolation='none', cmap='gray')
+Image.fromarray(imgs).save('corrupted_and_denoised.png')
+plt.show() 
+```
+
+“列表 3.3.1”显示了去噪自编码器，该编码器已添加到官方 Keras GitHub 存储库中。 使用相同的 MNIST 数据集，我们可以通过添加随机噪声来模拟损坏的图像。 添加的噪声是高斯分布，平均值为`μ = 0.5`，标准差为`σ = 0.5`。 由于添加随机噪声可能会将像素数据推入小于 0 或大于 1 的无效值，因此像素值会被裁剪为`[0.1, 1.0]`范围。
+
+其他所有内容实际上都与上一节中的自编码器相同。 我们将使用相同的 MSE 损失函数和 Adam 优化器。 但是，训练的周期数已增加到 10。这是为了进行足够的参数优化。
+
+“图 3.3.3”显示了 DAE 在某种程度上的鲁棒性，因为噪声级别从`σ = 0.5`增至`σ = 0.75`和`σ = 1.0`。 在`σ = 0.75`处，DAE 仍能够恢复原始图像。 但是，在`σ = 1.0`处，一些数字，例如第二和第三组中的 4 和 5，将无法正确恢复。
+
+![](img/B14853_03_11.png)
+
+图 3.3.3：降噪自编码器的表现随着噪声水平的提高而增加
+
+我们已经完成去噪自编码器的讨论和实现。 尽管此概念已在 MNIST 数字上进行了演示，但该思想也适用于其他信号。 在下一节中，我们将介绍自编码器的另一种实际应用，称为着色自编码器。
+
+# 4\. 自动着色自编码器
+
+现在，我们将致力于自编码器的另一个实际应用。 在这种情况下，我们将想象一下，我们有一张灰度照片，并且想要构建一个可以自动为其添加颜色的工具。 我们要复制人类的能力，以识别海洋和天空为蓝色，草地和树木为绿色，云层为白色，依此类推。
+
+如图“图 3.4.1”所示，如果给我们前景的稻田，背景的火山和顶部的天空的灰度照片（左），我们可以添加适当的颜色（右）。
+
+![](img/B14853_03_12.png)
+
+图 3.4.1：为 Mayon 火山的灰度照片添加颜色。 着色网络应通过向灰度照片添加颜色来复制人类的能力。 左照片是灰度的。 正确的照片是彩色的。 原始彩色照片可以在本书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter3-autoencoders/README.md)中找到。
+
+对于自编码器，一种简单的自动着色算法似乎是一个合适的问题。 如果我们可以使用足够数量的灰度照片作为输入并使用相应的彩色照片作为输出来训练自编码器，则可能会在正确应用颜色时发现隐藏的结构。 大致上，这是去噪的反向过程。 问题是，自编码器能否在原始灰度图像上添加颜色（良好的噪点）？
+
+“列表 3.4.1”显示了着色自编码器网络。 着色自编码器网络是我们用于 MNIST 数据集的降噪自编码器的修改版本。 首先，我们需要一个彩色照片的灰度数据集。 我们之前使用过的 CIFAR10 数据库进行了 50,000 次训练和 10,000 次测试，可以将`32×32` RGB 照片转换为灰度图像。 如下清单所示，我们可以使用`rgb2gray()`函数在 R，G 和 B 分量上应用权重，以从彩色转换为灰度：
+
+“列表 3.4.1”：`colorization-autoencoder-cifar10-3.4.1.py`
+
+```py
+from tensorflow.keras.layers import Dense, Input
+from tensorflow.keras.layers import Conv2D, Flatten
+from tensorflow.keras.layers import Reshape, Conv2DTranspose
+from tensorflow.keras.models import Model
+from tensorflow.keras.callbacks import ReduceLROnPlateau
+from tensorflow.keras.callbacks import ModelCheckpoint
+from tensorflow.keras.datasets import cifar10
+from tensorflow.keras.utils import plot_model
+from tensorflow.keras import backend as K 
+```
+
+```py
+import numpy as np
+import matplotlib.pyplot as plt
+import os 
+```
+
+```py
+def rgb2gray(rgb):
+    """Convert from color image (RGB) to grayscale.
+       Source: opencv.org
+       grayscale = 0.299*red + 0.587*green + 0.114*blue
+    Argument:
+        rgb (tensor): rgb image
+    Return:
+        (tensor): grayscale image
+    """
+    return np.dot(rgb[...,:3], [0.299, 0.587, 0.114]) 
+```
+
+```py
+# load the CIFAR10 data
+(x_train, _), (x_test, _) = cifar10.load_data() 
+```
+
+```py
+# input image dimensions
+# we assume data format "channels_last"
+img_rows = x_train.shape[1]
+img_cols = x_train.shape[2]
+channels = x_train.shape[3]
+# create saved_images folder
+imgs_dir = 'saved_images'
+save_dir = os.path.join(os.getcwd(), imgs_dir)
+if not os.path.isdir(save_dir):
+        os.makedirs(save_dir) 
+```
+
+```py
+# display the 1st 100 input images (color and gray)
+imgs = x_test[:100]
+imgs = imgs.reshape((10, 10, img_rows, img_cols, channels))
+imgs = np.vstack([np.hstack(i) for i in imgs])
+plt.figure()
+plt.axis('off')
+plt.title('Test color images (Ground  Truth)')
+plt.imshow(imgs, interpolation='none')
+plt.savefig('%s/test_color.png' % imgs_dir)
+plt.show() 
+```
+
+```py
+# convert color train and test images to gray
+x_train_gray = rgb2gray(x_train)
+x_test_gray = rgb2gray(x_test) 
+```
+
+```py
+# display grayscale version of test images
+imgs = x_test_gray[:100]
+imgs = imgs.reshape((10, 10, img_rows, img_cols))
+imgs = np.vstack([np.hstack(i) for i in imgs])
+plt.figure()
+plt.axis('off')
+plt.title('Test gray images (Input)')
+plt.imshow(imgs, interpolation='none', cmap='gray')
+plt.savefig('%s/test_gray.png' % imgs_dir)
+plt.show() 
+```
+
+```py
+# normalize output train and test color images
+x_train = x_train.astype('float32') / 255
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# normalize input train and test grayscale images
+x_train_gray = x_train_gray.astype('float32') / 255
+x_test_gray = x_test_gray.astype('float32') / 255 
+```
+
+```py
+# reshape images to row x col x channel for CNN output/validation
+x_train = x_train.reshape(x_train.shape[0], img_rows, img_cols, channels)
+x_test = x_test.reshape(x_test.shape[0], img_rows, img_cols, channels) 
+```
+
+```py
+# reshape images to row x col x channel for CNN input
+x_train_gray = x_train_gray.reshape(x_train_gray.shape[0], img_rows, img_cols, 1)
+x_test_gray = x_test_gray.reshape(x_test_gray.shape[0], img_rows, img_cols, 1) 
+```
+
+```py
+# network parameters
+input_shape = (img_rows, img_cols, 1)
+batch_size = 32
+kernel_size = 3
+latent_dim = 256
+# encoder/decoder number of CNN layers and filters per layer
+layer_filters = [64, 128, 256] 
+```
+
+```py
+# build the autoencoder model
+# first build the encoder model
+inputs = Input(shape=input_shape, name='encoder_input')
+x = inputs
+# stack of Conv2D(64)-Conv2D(128)-Conv2D(256)
+for filters in layer_filters:
+    x = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               strides=2,
+               activation='relu',
+               padding='same')(x) 
+```
+
+```py
+# shape info needed to build decoder model so we don't do hand computation
+# the input to the decoder's first Conv2DTranspose will have this shape
+# shape is (4, 4, 256) which is processed by the decoder back to (32, 32, 3)
+shape = K.int_shape(x) 
+```
+
+```py
+# generate a latent vector
+x = Flatten()(x)
+latent = Dense(latent_dim, name='latent_vector')(x) 
+```
+
+```py
+# instantiate encoder model
+encoder = Model(inputs, latent, name='encoder')
+encoder.summary()
+# build the decoder model
+latent_inputs = Input(shape=(latent_dim,), name='decoder_input')
+x = Dense(shape[1]*shape[2]*shape[3])(latent_inputs)
+x = Reshape((shape[1], shape[2], shape[3]))(x) 
+```
+
+```py
+# stack of Conv2DTranspose(256)-Conv2DTranspose(128)-Conv2DTranspose(64)
+for filters in layer_filters[::-1]:
+    x = Conv2DTranspose(filters=filters,
+                        kernel_size=kernel_size,
+                        strides=2,
+                        activation='relu',
+                        padding='same')(x) 
+```
+
+```py
+outputs = Conv2DTranspose(filters=channels,
+                          kernel_size=kernel_size,
+                          activation='sigmoid',
+                          padding='same',
+                          name='decoder_output')(x) 
+```
+
+```py
+# instantiate decoder model
+decoder = Model(latent_inputs, outputs, name='decoder')
+decoder.summary()
+# autoencoder = encoder + decoder
+# instantiate autoencoder model
+autoencoder = Model(inputs, decoder(encoder(inputs)), name='autoencoder')
+autoencoder.summary() 
+```
+
+```py
+# prepare model saving directory.
+save_dir = os.path.join(os.getcwd(), 'saved_models')
+model_name = 'colorized_ae_model.{epoch:03d}.h5'
+if not os.path.isdir(save_dir):
+        os.makedirs(save_dir)
+filepath = os.path.join(save_dir, model_name) 
+```
+
+```py
+# reduce learning rate by sqrt(0.1) if the loss does not improve in 5 epochs
+lr_reducer = ReduceLROnPlateau(factor=np.sqrt(0.1),
+                               cooldown=0,
+                               patience=5,
+                               verbose=1,
+                               min_lr=0.5e-6)
+# save weights for future use (e.g. reload parameters w/o training)
+checkpoint = ModelCheckpoint(filepath=filepath,
+                             monitor='val_loss',
+                             verbose=1,
+                             save_best_only=True) 
+```
+
+```py
+# Mean Square Error (MSE) loss function, Adam optimizer
+autoencoder.compile(loss='mse', optimizer='adam') 
+```
+
+```py
+# called every epoch
+callbacks = [lr_reducer, checkpoint] 
+```
+
+```py
+# train the autoencoder
+autoencoder.fit(x_train_gray,
+                x_train,
+                validation_data=(x_test_gray, x_test),
+                epochs=30,
+                batch_size=batch_size,
+                callbacks=callbacks)
+# predict the autoencoder output from test data
+x_decoded = autoencoder.predict(x_test_gray) 
+```
+
+```py
+# display the 1st 100 colorized images
+imgs = x_decoded[:100]
+imgs = imgs.reshape((10, 10, img_rows, img_cols, channels))
+imgs = np.vstack([np.hstack(i) for i in imgs])
+plt.figure()
+plt.axis('off')
+plt.title('Colorized test images (Predicted)')
+plt.imshow(imgs, interpolation='none')
+plt.savefig('%s/colorized.png' % imgs_dir)
+plt.show() 
+```
+
+通过添加更多卷积和转置卷积，我们提高了自编码器的容量。 我们还将每个 CNN 块的过滤器数量增加了一倍。 潜向量现在为 256 维，以增加其可以表示的显着属性的数量，如自编码器部分所述。 最后，输出过滤器的大小已增加到三倍，或等于预期的彩色输出的 RGB 中的通道数。
+
+现在使用灰度作为输入，原始 RGB 图像作为输出来训练着色自编码器。 训练将花费更多的时间，并在验证损失没有改善的情况下使用学习率降低器来缩小学习率。 通过告诉`tf.keras fit()`函数中的 callbacks 参数调用`lr_reducer()`函数，可以轻松完成此操作。
+
+“图 3.4.2”演示了来自 CIFAR10 测试数据集的灰度图像的着色。
+
+![A picture containing photo, many, indoor, different  Description automatically generated](img/B14853_03_13.png)
+
+图 3.4.2：使用自编码器将灰度自动转换为彩色图像。 CIFAR10 测试灰度输入图像（左）和预测的彩色图像（右）。 原始彩色照片可以在本书的 GitHub 存储库中找到，网址为 https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter3-autoencoders/README.md
+
+“图 3.4.3”将基本事实与着色自编码器预测进行了比较：
+
+![A picture containing photo, indoor  Description automatically generated](img/B14853_03_14.png)
+
+图 3.4.3：地面真彩色图像与预测彩色图像的并排比较。 原始彩色照片可以在本书的 GitHub 存储库中找到，网址为 https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter3-autoencoders/README.md
+
+自编码器执行可接受的着色作业。 预计大海或天空为蓝色，动物的阴影为棕色，云为白色，依此类推。
+
+有一些明显的错误预测，例如红色车辆变成蓝色或蓝色车辆变成红色，偶尔的绿色领域被误认为是蓝天，而黑暗或金色的天空被转换为蓝天。
+
+这是关于自编码器的最后一部分。 在以下各章中，我们将重新讨论以一种或另一种形式进行编码和解码的概念。 表示学习的概念在深度学习中非常基础。
+
+# 5\. 总结
+
+在本章中，我们已经介绍了自编码器，它们是将输入数据压缩为低维表示形式的神经网络，以便有效地执行结构转换，例如降噪和着色。 我们为 GAN 和 VAE 的更高级主题奠定了基础，我们将在后面的章节中介绍它们。 我们已经演示了如何从两个构建模块模型（编码器和解码器）实现自编码器。 我们还学习了如何提取输入分布的隐藏结构是 AI 的常见任务之一。
+
+一旦学习了潜在代码，就可以对原始输入分布执行许多结构操作。 为了更好地了解输入分布，可以使用低级嵌入（类似于本章内容）或通过更复杂的降维技术（例如 t-SNE 或 PCA）来可视化潜在向量形式的隐藏结构。
+
+除了去噪和着色外，自编码器还用于将输入分布转换为低维潜向量，可以针对其他任务（例如，分割，检测，跟踪，重建和视觉理解）进一步对其进行处理。 在“第 8 章”，“变分自编码器（VAE）”中，我们将讨论 VAE，它们在结构上与自编码器相同，但具有可解释的潜在代码，这些代码可以产生连续的潜在向量投影，因此有所不同。
+
+在下一章中，我们将着手介绍 AI 最近最重要的突破之一，即 GAN。 在下一章中，我们将学习 GAN 的核心优势，即其综合看起来真实的数据的能力。
+
+# 6\. 参考
+
+1.  `Ian Goodfellow et al.: Deep Learning. Vol. 1. Cambridge: MIT press, 2016 (http://www.deeplearningbook.org/).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/04.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/04.md
new file mode 100644
index 00000000..c4c08c1a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/04.md
@@ -0,0 +1,784 @@
+# 四、生成对抗网络（GAN）
+
+在本章中，我们将研究**生成对抗网络**（**GAN**）[1]。 GAN 属于生成模型家族。 但是，与自编码器不同，生成模型能够在给定任意编码的情况下创建新的有意义的输出。
+
+在本章中，将讨论 GAN 的工作原理。 我们还将使用`tf.keras`回顾几个早期 GAN 的实现，而在本章的后面，我们将演示实现稳定训练所需的技术。 本章的范围涵盖了 GAN 实现的两个流行示例，**深度卷积 GAN**（**DCGAN**）[2]和**条件 GAN**（**CGAN**）[3]。
+
+总之，本章的目标是：
+
+*   GAN 的原理简介
+*   GAN 的早期工作实现之一的简介，称为 DCGAN
+*   改进的 DCGAN，称为 CGAN，它使用条件
+*   在`tf.keras`中实现 DCGAN 和 CGAN
+
+让我们从 GAN 的概述开始。
+
+# 1\. GAN 概述
+
+在进入 GAN 的更高级概念之前，让我们开始研究 GAN，并介绍它们背后的基本概念。 GAN 非常强大。 通过执行潜在空间插值，他们可以生成不是真实人的新人脸这一事实证明了这一简单的陈述。
+
+可以在以下 YouTube 视频中看到 GAN 的高级功能：
+
+*   [Progressive GAN [4]](https://youtu.be/G06dEcZ-QTg)
+*   [StyleGAN v1 [5]](https://youtu.be/kSLJriaOumA)
+*   [StyleGAN v2 [6]](https://youtu.be/c-NJtV9Jvp0)
+
+展示如何利用 GAN 产生逼真的面部的视频演示了它们的功能。 这个主题比我们之前看过的任何内容都先进得多。 例如，上面的视频演示了自编码器无法轻松完成的事情，我们在“第 3 章”，“自编码器”中介绍了这些内容。
+
+GAN 可以通过训练两个相互竞争（且相互配合）的网络（称为**生成器**和**判别器**（有时称为**评论家**）。 生成器的作用是继续弄清楚如何生成伪造数据或信号（包括音频和图像），使伪造者蒙上阴影。 同时，判别器被训练以区分假信号和真实信号。 随着训练的进行，判别器将不再能够看到合成生成的数据与真实数据之间的差异。 从那里，可以丢弃判别器，然后可以使用生成器来创建从未见过的新的真实数据。
+
+GAN 的基本概念很简单。 但是，我们将发现的一件事是，最具挑战性的问题是我们如何实现对生成器－判别器网络的稳定训练？ 为了使两个网络都能同时学习，生成器和判别器之间必须存在健康的竞争。 由于损失函数是根据判别器的输出计算得出的，因此其参数会快速更新。 当判别器收敛速度更快时，生成器不再为其参数接收到足够的梯度更新，并且无法收敛。 除了难以训练之外，GAN 还可能遭受部分或全部模态崩溃的影响，这种情况下，生成器针对不同的潜在编码生成几乎相似的输出。
+
+## GAN 的原理
+
+如图“图 4.1.1”所示，GAN 类似于伪造者（生成器）-警察（判别器）场景。 在学院里，警察被教导如何确定美钞是真钞还是假钞。 来自银行的真实美钞样本和来自伪造者的伪钞样本被用来训练警察。 但是，伪造者会不时地假装他印制了真实的美元钞票。 最初，警方不会上当，并且会告诉造假者这笔钱是假的。 考虑到此反馈，造假者再次磨练他的技能，并尝试制作新的假美元钞票。 如预期的那样，警察将能够发现这笔钱是伪造的，并说明为什么美元钞票是伪造的：
+
+![A picture containing toy  Description automatically generated](img/B14853_04_01.png)
+
+图 4.1.1：GAN 的生成器和判别器类似于伪造者和警察。 造假者的目的是欺骗警察，使他们相信美元钞票是真实的
+
+此过程无限期地继续，但是到了造假者已经掌握了伪造货币的程度，以至于伪造品与真实货币几乎无法区分-甚至对于最受执业的警察也是如此。 然后，伪造者可以无限次打印美元钞票，而不会被警方抓获，因为它们不再可识别为伪造的。
+
+如图“图 4.1.2”所示，GAN 由两个网络组成，一个生成器和一个判别器：
+
+![A close up of a logo  Description automatically generated](img/B14853_04_02.png)
+
+图 4.1.2：GAN 由两个网络组成，一个生成器和一个判别器。 判别器经过训练，可以区分真实信号和虚假信号或数据。 生成器的工作是生成伪造的信号或数据，这些伪造的信号或数据最终会欺骗判别器
+
+生成器的输入是噪声，输出是合成数据。 同时，判别器的输入将是实数据或合成数据。 真实数据来自真实的采样数据，而虚假数据来自生成器。 所有有效数据均标记为 1.0（即 100% 为真实概率），而所有合成数据均标记为 0.0（即 0% 为真实概率）。 由于标记过程是自动化的，因此 GAN 仍被认为是深度学习中无监督学习方法的一部分。
+
+判别器的目标是从此提供的数据集中学习如何区分真实数据与伪数据。 在 GAN 训练的这一部分中，仅判别器参数将被更新。 像典型的二元分类器一样，判别器经过训练，可以在 0.0 到 1.0 的范围内预测置信度值，以了解给定输入数据与真实数据的接近程度。 但是，这只是故事的一半。
+
+生成器将以固定的时间间隔假装其输出是真实数据，并要求 GAN 将其标记为 1.0。 然后，当将伪造数据提供给判别器时，自然会将其分类为伪造，标签接近 0.0。
+
+优化器根据显示的标签（即 1.0）计算生成器参数更新。 在对新数据进行训练时，它还会考虑自己的预测。 换句话说，判别器对其预测有一些疑问，因此，GAN 将其考虑在内。 这次，GAN 将让梯度从判别器的最后一层向下向下传播到生成器的第一层。 但是，在大多数实践中，在训练的此阶段，判别器参数会暂时冻结。 生成器将使用梯度来更新其参数并提高其合成伪数据的能力。
+
+总体而言，整个过程类似于两个网络相互竞争，同时仍在合作。 当 GAN 训练收敛时，最终结果是生成器，可以合成看似真实的数据。 判别器认为该合成数据是真实数据或带有接近 1.0 的标签，这意味着该判别器可以被丢弃。 生成器部分将有助于从任意噪声输入中产生有意义的输出。
+
+下面的“图 4.1.3”中概述了该过程：
+
+![](img/B14853_04_03.png)
+
+图 4.1.3：训练判别器类似于使用二进制交叉熵损失训练二分类器网络。 伪数据由生成器提供，而真实数据来自真实样本
+
+如上图所示，可以通过最小化以下等式中的损失函数来训练判别器：
+
+![](img/B14853_04_001.png) (Equation 4.1.1)
+
+该方程只是标准的二进制交叉熵代价函数。 损失是正确识别真实数据`1 - D(g(z))`的期望值与 1.0 正确识别合成数据`1 - D(g(z))`的期望值之和。 日志不会更改本地最小值的位置。
+
+训练过程中将两个小批数据提供给判别器：
+
+1. `x`，来自采样数据的实数据（换言之，`x ~ p_data`），标签为 1.0
+
+1.  `x' = g(z)`，来自生成器的带有标签 0.0 的伪造数据
+
+为了使的损失函数最小，将通过反向传播通过正确识别真实数据`D(x)`和合成数据`1 - D(g(z))`来更新判别器参数`θ^(D)`。 正确识别真实数据等同于`D(x) -> 1.0`，而正确分类伪造数据则与`D(g(z)) -> 0.0`或`1 - D(g(z)) -> 1.0`相同。 在此等式中，`z`是生成器用来合成新信号的任意编码或噪声向量。 两者都有助于最小化损失函数。
+
+为了训练生成器，GAN 将判别器和生成器损失的总和视为零和博弈。 生成器损失函数只是判别器损失函数的负数：
+
+![](img/B14853_04_012.png) (Equation 4.1.2)
+
+然后可以将其更恰当地重写为值函数：
+
+![](img/B14853_04_013.png) (Equation 4.1.3)
+
+从生成器的角度来看，应将“公式 4.1.3”最小化。 从判别器的角度来看，值函数应最大化。 因此，生成器训练准则可以写成极大极小问题：
+
+![](img/B14853_04_014.png) (Equation 4.1.4)
+
+有时，我们会假装合成数据是带有标签 1.0 的真实数据，以此来欺骗判别器。 通过最大化`θ^(D)`，优化器将梯度更新发送到判别器参数，以将该合成数据视为真实数据。 同时，通过将`θ^(G)`的相关性减至最小，优化器将在上训练生成器的参数，从而欺骗识别器。 但是，实际上，判别器对将合成数据分类为伪造的预测很有信心，并且不会更新 GAN 参数。 此外，梯度更新很小，并且在传播到生成器层时已大大减小。 结果，生成器无法收敛。
+
+![](img/B14853_04_04.png)
+
+图 4.1.4：训练生成器就像使用二进制交叉熵损失函数训练网络一样。 来自生成器的虚假数据显示为真实数据
+
+解决方案是按以下形式重新构造生成器的损失函数：
+
+![](img/B14853_04_017.png) (Equation 4.1.5)
+
+损失函数只是通过训练生成器，最大程度地提高了判别器认为合成数据是真实数据的机会。 新公式不再是零和，而是纯粹由启发式驱动的。“图 4.1.4”显示了训练过程中的生成器。 在此图中，仅在训练整个对抗网络时才更新生成器参数。 这是因为梯度从判别器向下传递到生成器。 但是，实际上，判别器权重仅在对抗训练期间临时冻结。
+
+在深度学习中，可以使用合适的神经网络架构来实现生成器和判别器。 如果数据或信号是图像，则生成器和判别器网络都将使用 CNN。 对于诸如音频之类的一维序列，两个网络通常都是循环的（RNN，LSTM 或 GRU）。
+
+在本节中，我们了解到 GAN 的原理很简单。 我们还了解了如何通过熟悉的网络层实现 GAN。 GAN 与其他网络的区别在于众所周知，它们很难训练。 只需稍作更改，就可以使网络变得不稳定。 在以下部分中，我们将研究使用深度 CNN 的 GAN 早期成功实现之一。 它称为 DCGAN [3]。
+
+# 2\. 在 Keras 中实现 DCGAN
+
+“图 4.2.1”显示 DCGAN，其中用于生成伪造的 MNIST 图像：
+
+![](img/B14853_04_05.png)
+
+图 4.2.1：DCGAN 模型
+
+DCGAN 实现以下设计原则：
+
+*   使用`stride > 1`和卷积代替`MaxPooling2D`或`UpSampling2D`。 通过`stride > 1`，CNN 可以学习如何调整特征映射的大小。
+*   避免使用`Dense`层。 在所有层中使用 CNN。 `Dense`层仅用作生成器的第一层以接受`z`向量。 调整`Dense`层的输出大小，并成为后续 C​​NN 层的输入。
+*   使用**批量归一化**（**BN**），通过将每一层的输入归一化以使均值和单位方差为零，来稳定学习。 生成器输出层和判别器输入层中没有 BN。 在此处要介绍的实现示例中，没有在标识符中使用批量归一化。
+*   **整流线性单元**（**ReLU**）在生成器的所有层中均使用，但在输出层中则使用`tanh`激活。 在此处要介绍的实现示例中，在生成器的输出中使用`sigmoid`代替`tanh`，因为通常会导致对 MNIST 数字进行更稳定的训练。
+*   在判别器的所有层中使用 **Leaky ReLU**。 与 ReLU 不同，Leaky ReLU 不会在输入小于零时将所有输出清零，而是生成一个等于`alpha x input`的小梯度。 在以下示例中，`alpha = 0.2`。
+
+生成器学习从 100 维输入向量（`[-1.0，1.0]`范围内具有均匀分布的 100 维随机噪声）生成伪图像。 判别器将真实图像与伪图像分类，但是在训练对抗网络时无意中指导生成器如何生成真实图像。 在我们的 DCGAN 实现中使用的核大小为 5。这是为了允许它增加卷积的接收场大小和表达能力。
+
+生成器接受由 -1.0 到 1.0 范围内的均匀分布生成的 100 维`z`向量。 生成器的第一层是`7 x 7 x 128 = 6,272`单元的密集层。 基于输出图像的预期最终尺寸（`28 x 28 x 1`，28 是 7 的倍数）和第一个`Conv2DTranspose`的过滤器数量（等于 128）来计算单元数量。
+
+我们可以将转置的 CNN（`Conv2DTranspose`）想象成 CNN 的逆过程。 在一个简单的示例中，如果 CNN 将图像转换为特征映射，则转置的 CNN 将生成给定特征映射的图像。 因此，转置的 CNN 在上一章的解码器中和本章的生成器中使用。
+
+在对`strides = 2`进行两个`Conv2DTranspose`之后，特征映射的大小将为`28 x 28 x n_filter`。 每个`Conv2DTranspose`之前都有批量规范化和 ReLU。 最后一层具有 *Sigmoid* 激活，可生成`28 x 28 x 1`假 MNIST 图像。 将每个像素标准化为与`[0, 255]`灰度级相对应的`[0.0, 1.0]`。 下面的“列表 4.2.1”显示了`tf.keras`中生成器网络的实现。 定义了一个函数来生成生成器模型。 由于整个代码的长度，我们将列表限制为正在讨论的特定行。
+
+[完整的代码可在 GitHub 上获得](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+“列表 4.2.1”：`dcgan-mnist-4.2.1.py`
+
+```py
+def build_generator(inputs, image_size):
+    """Build a Generator Model 
+```
+
+```py
+ Stack of BN-ReLU-Conv2DTranpose to generate fake images
+    Output activation is sigmoid instead of tanh in [1].
+    Sigmoid converges easily. 
+```
+
+```py
+ Arguments:
+        inputs (Layer): Input layer of the generator 
+            the z-vector)
+        image_size (tensor): Target size of one side
+            (assuming square image) 
+```
+
+```py
+ Returns:
+        generator (Model): Generator Model
+    """ 
+```
+
+```py
+ image_resize = image_size // 4
+    # network parameters 
+    kernel_size = 5
+    layer_filters = [128, 64, 32, 1] 
+```
+
+```py
+ x = Dense(image_resize * image_resize * layer_filters[0])(inputs)
+    x = Reshape((image_resize, image_resize, layer_filters[0]))(x) 
+```
+
+```py
+ for filters in layer_filters:
+        # first two convolution layers use strides = 2
+        # the last two use strides = 1
+        if filters > layer_filters[-2]:
+            strides = 2
+        else:
+            strides = 1
+        x = BatchNormalization()(x)
+        x = Activation('relu')(x)
+        x = Conv2DTranspose(filters=filters,
+                            kernel_size=kernel_size,
+                            strides=strides,
+                            padding='same')(x) 
+```
+
+```py
+ x = Activation('sigmoid')(x)
+    generator = Model(inputs, x, name='generator')
+    return generator 
+```
+
+判别器与相似，是许多基于 CNN 的分类器。 输入是`28 x 28 x 1`MNIST 图像，分类为真实（1.0）或伪（0.0）。 有四个 CNN 层。 除了最后的卷积，每个`Conv2D`都使用`strides = 2`将特征映射下采样两个。 然后每个`Conv2D`之前都有一个泄漏的 ReLU 层。 最终的过滤器大小为 256，而初始的过滤器大小为 32，并使每个卷积层加倍。 最终的过滤器大小 128 也适用。 但是，我们会发现生成的图像在 256 的情况下看起来更好。最终输出层被展平，并且在通过 Sigmoid 激活层缩放后，单个单元`Dense`层在 0.0 到 1.0 之间生成预测。 输出被建模为伯努利分布。 因此，使用了二进制交叉熵损失函数。
+
+建立生成器和判别器模型后，通过将生成器和判别器网络连接起来，建立对抗模型。 鉴别网络和对抗网络都使用 RMSprop 优化器。 判别器的学习率是`2e-4`，而对抗网络的学习率是`1e-4`。 判别器的 RMSprop 衰减率为`6e-8`，对抗网络的 RMSprop 衰减率为`3e-8`。
+
+将对手的学习率设置为判别器的一半将使训练更加稳定。 您会从“图 4.1.3”和“图 4.1.4”中回忆起，GAN 训练包含两个部分：判别器训练和生成器训练，这是冻结判别器权重的对抗训练。
+
+“列表 4.2.2”显示了`tf.keras`中判别器的实现。 定义一个函数来建立鉴别模型。
+
+“列表 4.2.2”：`dcgan-mnist-4.2.1.py`
+
+```py
+def build_discriminator(inputs):
+    """Build a Discriminator Model 
+```
+
+```py
+ Stack of LeakyReLU-Conv2D to discriminate real from fake.
+    The network does not converge with BN so it is not used here
+    unlike in [1] or original paper. 
+```
+
+```py
+ Arguments:
+        inputs (Layer): Input layer of the discriminator (the image) 
+```
+
+```py
+ Returns:
+        discriminator (Model): Discriminator Model
+    """
+    kernel_size = 5
+    layer_filters = [32, 64, 128, 256] 
+```
+
+```py
+ x = inputs
+    for filters in layer_filters:
+        # first 3 convolution layers use strides = 2
+        # last one uses strides = 1
+        if filters == layer_filters[-1]:
+            strides = 1
+        else:
+            strides = 2
+        x = LeakyReLU(alpha=0.2)(x)
+        x = Conv2D(filters=filters,
+                   kernel_size=kernel_size,
+                   strides=strides,
+                   padding='same')(x) 
+```
+
+```py
+ x = Flatten()(x)
+    x = Dense(1)(x)
+    x = Activation('sigmoid')(x)
+    discriminator = Model(inputs, x, name='discriminator')
+    return discriminator 
+```
+
+在“列表 4.2.3”中，我们将说明如何构建 GAN 模型。 首先，建立鉴别模型，然后实例化生成器模型。 对抗性模型只是生成器和判别器组合在一起。 在许多 GAN 中，批大小为 64 似乎是最常见的。 网络参数显示在“列表 4.2.3”中。
+
+“列表 4.2.3”：`dcgan-mnist-4.2.1.py`
+
+建立 DCGAN 模型并调用训练例程的函数：
+
+```py
+def build_and_train_models():
+    # load MNIST dataset
+    (x_train, _), (_, _) = mnist.load_data() 
+```
+
+```py
+ # reshape data for CNN as (28, 28, 1) and normalize
+    image_size = x_train.shape[1]
+    x_train = np.reshape(x_train, [-1, image_size, image_size, 1])
+    x_train = x_train.astype('float32') / 255 
+```
+
+```py
+ model_name = "dcgan_mnist"
+    # network parameters
+    # the latent or z vector is 100-dim
+    latent_size = 100
+    batch_size = 64
+    train_steps = 40000
+    lr = 2e-4
+    decay = 6e-8
+    input_shape = (image_size, image_size, 1) 
+```
+
+```py
+ # build discriminator model
+    inputs = Input(shape=input_shape, name='discriminator_input')
+    discriminator = build_discriminator(inputs)
+    # [1] or original paper uses Adam, 
+    # but discriminator converges easily with RMSprop
+    optimizer = RMSprop(lr=lr, decay=decay)
+    discriminator.compile(loss='binary_crossentropy',
+                          optimizer=optimizer,
+                          metrics=['accuracy'])
+    discriminator.summary() 
+```
+
+```py
+ # build generator model
+    input_shape = (latent_size, )
+    inputs = Input(shape=input_shape, name='z_input')
+    generator = build_generator(inputs, image_size)
+    generator.summary() 
+```
+
+```py
+ # build adversarial model
+    optimizer = RMSprop(lr=lr * 0.5, decay=decay * 0.5)
+    # freeze the weights of discriminator during adversarial training
+    discriminator.trainable = False
+    # adversarial = generator + discriminator
+    adversarial = Model(inputs,
+                        discriminator(generator(inputs)),
+                        name=model_name)
+    adversarial.compile(loss='binary_crossentropy',
+                        optimizer=optimizer,
+                        metrics=['accuracy'])
+    adversarial.summary() 
+```
+
+```py
+ # train discriminator and adversarial networks
+    models = (generator, discriminator, adversarial)
+    params = (batch_size, latent_size, train_steps, model_name)
+    train(models, x_train, params) 
+```
+
+从“列表 4.2.1”和“列表 4.2.2”中可以看出，DCGAN 模型很简单。 使它们难以构建的原因是，网络中的较小更改设计很容易破坏训练收敛。 例如，如果在判别器中使用批量归一化，或者如果生成器中的`strides = 2`传输到后面的 C​​NN 层，则 DCGAN 将无法收敛。
+
+“列表 4.2.4”显示了专用于训练判别器和对抗网络的函数。 由于自定义训练，将不使用常规的`fit()`函数。 取而代之的是，调用`train_on_batch()`对给定的数据批量运行单个梯度更新。 然后通过对抗网络训练生成器。 训练首先从数据集中随机选择一批真实图像。 这被标记为实数（1.0）。 然后，生成器将生成一批伪图像。 这被标记为假（0.0）。 这两个批量是连接在一起的，用于训练判别器。
+
+完成此操作后，生成器将生成一批新的伪图像，并将其标记为真实（1.0）。 这批将用于训练对抗网络。 交替训练这两个网络约 40,000 步。 定期将基于特定噪声向量生成的 MNIST 数字保存在文件系统中。 在最后的训练步骤中，网络已收敛。 生成器模型也保存在文件中，因此我们可以轻松地将训练后的模型重新用于未来的 MNIST 数字生成。 但是，仅保存生成器模型，因为这是该 DCGAN 在生成新 MNIST 数字时的有用部分。 例如，我们可以通过执行以下操作来生成新的和随机的 MNIST 数字：
+
+```py
+python3 dcgan-mnist-4.2.1.py --generator=dcgan_mnist.h5 
+```
+
+“列表 4.2.4”：`dcgan-mnist-4.2.1.py`
+
+训练判别器和对抗网络的函数：
+
+```py
+def train(models, x_train, params):
+    """Train the Discriminator and Adversarial Networks 
+```
+
+```py
+ Alternately train Discriminator and Adversarial networks by batch.
+    Discriminator is trained first with properly real and fake images.
+    Adversarial is trained next with fake images pretending to be real
+    Generate sample images per save_interval. 
+```
+
+```py
+ Arguments:
+        models (list): Generator, Discriminator, Adversarial models
+        x_train (tensor): Train images
+        params (list) : Networks parameters 
+```
+
+```py
+ """
+    # the GAN component models
+    generator, discriminator, adversarial = models
+    # network parameters
+    batch_size, latent_size, train_steps, model_name = params
+    # the generator image is saved every 500 steps
+    save_interval = 500
+    # noise vector to see how the generator output evolves during training
+    noise_input = np.random.uniform(-1.0, 1.0, size=[16, latent_size])
+    # number of elements in train dataset
+    train_size = x_train.shape[0]
+    for i in range(train_steps):
+        # train the discriminator for 1 batch
+        # 1 batch of real (label=1.0) and fake images (label=0.0)
+        # randomly pick real images from dataset
+        rand_indexes = np.random.randint(0, train_size, size=batch_size)
+        real_images = x_train[rand_indexes]
+        # generate fake images from noise using generator 
+        # generate noise using uniform distribution
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        # generate fake images
+        fake_images = generator.predict(noise)
+        # real + fake images = 1 batch of train data
+        x = np.concatenate((real_images, fake_images))
+        # label real and fake images
+        # real images label is 1.0
+        y = np.ones([2 * batch_size, 1])
+        # fake images label is 0.0
+        y[batch_size:, :] = 0.0
+        # train discriminator network, log the loss and accuracy
+        loss, acc = discriminator.train_on_batch(x, y)
+        log = "%d: [discriminator loss: %f, acc: %f]" % (i, loss, acc) 
+```
+
+```py
+ # train the adversarial network for 1 batch
+        # 1 batch of fake images with label=1.0
+        # since the discriminator weights 
+        # are frozen in adversarial network
+        # only the generator is trained
+        # generate noise using uniform distribution
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        # label fake images as real or 1.0
+        y = np.ones([batch_size, 1])
+        # train the adversarial network 
+        # note that unlike in discriminator training, 
+        # we do not save the fake images in a variable
+        # the fake images go to the discriminator input of the adversarial
+        # for classification
+        # log the loss and accuracy
+        loss, acc = adversarial.train_on_batch(noise, y)
+        log = "%s [adversarial loss: %f, acc: %f]" % (log, loss, acc)
+        print(log)
+        if (i + 1) % save_interval == 0:
+            # plot generator images on a periodic basis
+            plot_images(generator,
+                        noise_input=noise_input,
+                        show=False,
+                        step=(i + 1),
+                        model_name=model_name) 
+```
+
+```py
+ # save the model after training the generator
+    # the trained generator can be reloaded for 
+    # future MNIST digit generation
+    generator.save(model_name + ".h5") 
+```
+
+“图 4.2.2”显示了生成器伪造图像根据训练步骤的演变。 生成器已经以 5,000 步的速度生成了可识别的图像。 非常像拥有一个知道如何绘制数字的智能体。 值得注意的是，某些数字从一种可识别的形式（例如，最后一行的第二列中的 8）变为另一种形式（例如，0）。 当训练收敛时，判别器损失接近 0.5，而对抗性损失接近 1.0，如下所示：
+
+```py
+39997: [discriminator loss: 0.423329, acc: 0.796875] [adversarial loss:
+0.819355, acc: 0.484375]
+39998: [discriminator loss: 0.471747, acc: 0.773438] [adversarial loss:
+1.570030, acc: 0.203125]
+39999: [discriminator loss: 0.532917, acc: 0.742188] [adversarial loss:
+0.824350, acc: 0.453125] 
+```
+
+我们可以看到以下结果：
+
+![](img/B14853_04_06.png)
+
+图 4.2.2：DCGAN 生成器在不同训练步骤生成的伪造图像
+
+在本节中，由 DCGAN 生成的伪造图像是随机的。
+
+生成器无法控制哪个特定数字。 没有机制可以请求生成器提供特定的数字。 这个问题可以通过称为 CGAN [4]的 GAN 变体来解决，我们将在下一部分中进行讨论。
+
+# 3\. Conditional GAN
+
+使用与上一节相同的 GAN ，会对生成器和判别器输入都施加一个条件。 条件是数字的一键向量形式。 这与要生成的图像（生成器）或分类为真实或伪造的图像（判别器）相关。 CGAN 模型显示在“图 4.3.1”中。
+
+CGAN 与 DCGAN 相似，除了附加的单热向量输入。 对于生成器，单热标签在`Dense`层之前与潜向量连接在一起。 对于判别器，添加了新的`Dense`层。 新层用于处理单热向量并对其进行整形，以使其适合于与后续 CNN 层的另一个输入连接。
+
+![](img/B14853_04_07.png)
+
+图 4.3.1：CGAN 模型与 DCGAN 相似，只不过是单热向量，用于调节生成器和判别器的输出
+
+生成器学习从 100 维输入向量和指定位数生成伪图像。 判别器基于真实和伪图像及其对应的标签将真实图像与伪图像分类。
+
+CGAN 的基础仍然与原始 GAN 原理相同，区别在于判别器和生成器的输入均以“一热”标签`y`为条件。
+
+通过在“公式 4.1.1”和“公式 4.1.5”中合并此条件，判别器和生成器的损失函数在“公式 4.3.1”和“公式 4.3.2”中显示，分别为：
+
+![](img/B14853_04_018.png) (Equation 4.3.1)
+
+![](img/B14853_04_019.png) (Equation 4.3.2)
+
+给定“图 4.3.2”，将损失函数写为：
+
+![](img/B14853_04_020.png) (Equation 4.3.3)
+
+![](img/B14853_04_021.png) (Equation 4.3.4)
+
+判别器的新损失函数旨在最大程度地减少预测来自数据集的真实图像和来自生成器的假图像（给定单热点标签）的误差。“图 4.3.2”显示了如何训练判别器。
+
+![](img/B14853_04_08.png)
+
+图 4.3.2：训练 CGAN 判别器类似于训练 GAN 判别器。 唯一的区别是，所生成的伪造品和数据集的真实图像均以其相应的“一键通”标签作为条件。
+
+生成器的新损失函数可最大程度地减少对以指定的一幅热标签为条件的伪造图像进行鉴别的正确预测。 生成器学习如何在给定单热向量的情况下生成特定的 MNIST 数字，该数字可能使判别器蒙蔽。“图 4.3.3”显示了如何训练生成器。
+
+![](img/B14853_04_09.png)
+
+图 4.3.3：通过对抗网络训练 CGAN 生成器类似于训练 GAN 生成器。 唯一的区别是，生成的伪造图像以“一热”标签为条件
+
+“列表 4.3.1”突出显示了判别器模型中所需的微小更改。 该代码使用`Dense`层处理单热点向量，并将其与输入图像连接在一起。 修改了`Model`实例以用于图像和一键输入向量。
+
+“列表 4.3.1”：`cgan-mnist-4.3.1.py`
+
+突出显示了 DCGAN 中所做的更改：
+
+```py
+def build_discriminator(inputs, labels, image_size):
+    """Build a Discriminator Model 
+```
+
+```py
+ Inputs are concatenated after Dense layer.
+    Stack of LeakyReLU-Conv2D to discriminate real from fake.
+    The network does not converge with BN so it is not used here
+    unlike in DCGAN paper. 
+```
+
+```py
+ Arguments:
+        inputs (Layer): Input layer of the discriminator (the image)
+        labels (Layer): Input layer for one-hot vector to condition
+            the inputs
+        image_size: Target size of one side (assuming square image)
+    Returns:
+        discriminator (Model): Discriminator Model
+    """
+    kernel_size = 5
+    layer_filters = [32, 64, 128, 256] 
+```
+
+```py
+ x = inputs 
+```
+
+```py
+ y = Dense(image_size * image_size)(labels)
+    y = Reshape((image_size, image_size, 1))(y)
+    x = concatenate([x, y]) 
+```
+
+```py
+ for filters in layer_filters:
+        # first 3 convolution layers use strides = 2
+        # last one uses strides = 1
+        if filters == layer_filters[-1]:
+            strides = 1
+        else:
+            strides = 2
+        x = LeakyReLU(alpha=0.2)(x)
+        x = Conv2D(filters=filters,
+                   kernel_size=kernel_size,
+                   strides=strides,
+                   padding='same')(x) 
+```
+
+```py
+ x = Flatten()(x)
+    x = Dense(1)(x)
+    x = Activation('sigmoid')(x)
+    # input is conditioned by labels
+    discriminator = Model([inputs, labels], x, name='discriminator')
+    return discriminator 
+```
+
+以下“列表 4.3.2”突出显示了代码更改，以在生成器生成器函数中合并条件化单热标签。 对于`z`向量和单热向量输入，修改了`Model`实例。
+
+“列表 4.3.2”：`cgan-mnist-4.3.1.py`
+
+突出显示了 DCGAN 中所做的更改：
+
+```py
+def build_generator(inputs, labels, image_size):
+    """Build a Generator Model
+    Inputs are concatenated before Dense layer.
+    Stack of BN-ReLU-Conv2DTranpose to generate fake images.
+    Output activation is sigmoid instead of tanh in orig DCGAN.
+    Sigmoid converges easily. 
+```
+
+```py
+ Arguments:
+        inputs (Layer): Input layer of the generator (the z-vector)
+        labels (Layer): Input layer for one-hot vector to condition the inputs
+        image_size: Target size of one side (assuming square image)
+    Returns:
+        generator (Model): Generator Model
+    """
+    image_resize = image_size // 4
+    # network parameters
+    kernel_size = 5
+    layer_filters = [128, 64, 32, 1] 
+```
+
+```py
+ x = concatenate([inputs, labels], axis=1)
+    x = Dense(image_resize * image_resize * layer_filters[0])(x)
+    x = Reshape((image_resize, image_resize, layer_filters[0]))(x) 
+```
+
+```py
+ for filters in layer_filters:
+        # first two convolution layers use strides = 2
+        # the last two use strides = 1
+        if filters > layer_filters[-2]:
+            strides = 2
+        else:
+            strides = 1
+        x = BatchNormalization()(x)
+        x = Activation('relu')(x)
+        x = Conv2DTranspose(filters=filters,
+                            kernel_size=kernel_size,
+                            strides=strides,
+                            padding='same')(x) 
+```
+
+```py
+ x = Activation('sigmoid')(x)
+    # input is conditioned by labels
+    generator = Model([inputs, labels], x, name='generator')
+    return generator 
+```
+
+“列表 4.3.3”突出显示了在`train()`函数中所做的更改，以适应判别器和生成器的条件一热向量。 首先对 CGAN 判别器进行训练，以一批真实和伪造的数据为条件，这些数据以其各自的热门标签为条件。 然后，在给定单热标签条件假冒数据为假的情况下，通过训练对抗网络来更新生成器参数。 与 DCGAN 相似，在对抗训练中，判别器权重被冻结。
+
+“列表 4.3.3”：`cgan-mnist-4.3.1.py`
+
+着重介绍了 DCGAN 中所做的更改：
+
+```py
+def train(models, data, params):
+    """Train the Discriminator and Adversarial Networks 
+```
+
+```py
+ Alternately train Discriminator and Adversarial networks by batch.
+    Discriminator is trained first with properly labelled real and fake images.
+    Adversarial is trained next with fake images pretending to be real.
+    Discriminator inputs are conditioned by train labels for real images,
+    and random labels for fake images.
+    Adversarial inputs are conditioned by random labels.
+    Generate sample images per save_interval. 
+```
+
+```py
+ Arguments:
+        models (list): Generator, Discriminator, Adversarial models
+        data (list): x_train, y_train data
+        params (list): Network parameters 
+```
+
+```py
+ """
+    # the GAN models
+    generator, discriminator, adversarial = models
+    # images and labels
+    x_train, y_train = data
+    # network parameters
+    batch_size, latent_size, train_steps, num_labels, model_name = params
+    # the generator image is saved every 500 steps
+    save_interval = 500
+    # noise vector to see how the generator output evolves during training
+    noise_input = np.random.uniform(-1.0, 1.0, size=[16, latent_size])
+    # one-hot label the noise will be conditioned to
+    noise_class = np.eye(num_labels)[np.arange(0, 16) % num_labels]
+    # number of elements in train dataset
+    train_size = x_train.shape[0] 
+```
+
+```py
+ print(model_name,
+          "Labels for generated images: ",
+          np.argmax(noise_class, axis=1)) 
+```
+
+```py
+ for i in range(train_steps):
+        # train the discriminator for 1 batch
+        # 1 batch of real (label=1.0) and fake images (label=0.0)
+        # randomly pick real images from dataset
+        rand_indexes = np.random.randint(0, train_size, size=batch_size)
+        real_images = x_train[rand_indexes]
+        # corresponding one-hot labels of real images
+        real_labels = y_train[rand_indexes]
+        # generate fake images from noise using generator
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                 size=[batch_size, latent_size]) 
+```
+
+```py
+ # assign random one-hot labels
+        fake_labels = np.eye(num_labels)[np.random.choice(num_labels,batch_size)]
+        # generate fake images conditioned on fake labels
+        fake_images = generator.predict([noise, fake_labels])
+        # real + fake images = 1 batch of train data
+        x = np.concatenate((real_images, fake_images))
+        # real + fake one-hot labels = 1 batch of train one-hot labels
+        labels = np.concatenate((real_labels, fake_labels))
+        # label real and fake images
+        # real images label is 1.0
+        y = np.ones([2 * batch_size, 1])
+        # fake images label is 0.0
+        y[batch_size:, :] = 0.0
+        # train discriminator network, log the loss and accuracy
+        loss, acc = discriminator.train_on_batch([x, labels], y)
+        log = "%d: [discriminator loss: %f, acc: %f]" % (i, loss, acc)
+        # train the adversarial network for 1 batch
+        # 1 batch of fake images conditioned on fake 1-hot labels 
+        # w/ label=1.0
+        # since the discriminator weights are frozen in 
+        # adversarial network only the generator is trained
+        # generate noise using uniform distribution        
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        # assign random one-hot labels
+        fake_labels = np.eye(num_labels)[np.random.choice(num_labels,batch_size)] 
+```
+
+```py
+ # label fake images as real or 1.0
+        y = np.ones([batch_size, 1])
+        # train the adversarial network 
+        # note that unlike in discriminator training, 
+        # we do not save the fake images in a variable
+        # the fake images go to the discriminator input of the adversarial
+        # for classification
+        # log the loss and accuracy
+        loss, acc = adversarial.train_on_batch([noise, fake_labels], y)
+        log = "%s [adversarial loss: %f, acc: %f]" % (log, loss, acc)
+        print(log)
+        if (i + 1) % save_interval == 0:
+            # plot generator images on a periodic basis
+            plot_images(generator,
+                        noise_input=noise_input,
+                        noise_class=noise_class,
+                        show=False,
+                        step=(i + 1),
+                        model_name=model_name) 
+```
+
+```py
+ # save the model after training the generator
+    # the trained generator can be reloaded for 
+    # future MNIST digit generation
+    generator.save(model_name + ".h5") 
+```
+
+“图 4.3.4”显示了当生成器被调整为产生带有以下标签的数字时生成的 MNIST 数字的演变：
+
+```py
+[0 1 2 3
+4 5 6 7
+8 9 0 1
+2 3 4 5] 
+```
+
+我们可以看到以下结果：
+
+![](img/B14853_04_10.png)
+
+图 4.3.4：使用标签`[0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5]`对 CGAN 在不同训练步骤中生成的伪造图像
+
+鼓励您运行经过训练的生成器模型，以查看新的合成 MNIST 数字图像：
+
+```py
+python3 cgan-mnist-4.3.1.py --generator=cgan_mnist.h5 
+```
+
+或者，也可以请求要生成的特定数字（例如 8）：
+
+```py
+python3 cgan-mnist-4.3.1.py --generator=cgan_mnist.h5 --digit=8 
+```
+
+使用 CGAN，就像有一个智能体，我们可以要求绘制数字，类似于人类如何写数字。 与 DCGAN 相比，CGAN 的主要优势在于我们可以指定希望智能体绘制的数字。
+
+# 4。结论
+
+本章讨论了 GAN 的一般原理，以便为我们现在要讨论的更高级的主题奠定基础，包括改进的 GAN，解缠的表示 GAN 和跨域 GAN。 我们从了解 GAN 如何由两个网络（称为生成器和判别器）组成的这一章开始。 判别器的作用是区分真实信号和虚假信号。 生成器的目的是欺骗判别器。 生成器通常与判别器结合以形成对抗网络。 生成器是通过训练对抗网络来学习如何生成可欺骗判别器的虚假数据的。
+
+我们还了解了 GAN 的构建方法，但众所周知，其操作起来非常困难。 提出了`tf.keras`中的两个示例实现。 DCGAN 证明了可以训练 GAN 使用深层 CNN 生成伪造图像。 伪造的图像是 MNIST 数字。 但是，DCGAN 生成器无法控制应绘制的特定数字。 CGAN 通过调节生成器以绘制特定数字来解决此问题。 该病是单热标签的形式。 如果我们要构建可以生成特定类数据的智能体，则 CGAN 很有用。
+
+在下一章中，将介绍 DCGAN 和 CGAN 的改进。 特别是，重点将放在如何稳定 DCGAN 的训练以及如何提高 CGAN 的感知质量上。 这将通过引入新的损失函数和稍有不同的模型架构来完成。
+
+# 5\. 参考
+
+1.  `Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks. arXiv preprint arXiv:1701.00160, 2016 (https://arxiv.org/pdf/1701.00160.pdf).`
+1.  `Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. arXiv preprint arXiv:1511.06434, 2015 (https://arxiv.org/pdf/1511.06434.pdf).`
+1.  `Mehdi Mirza and Simon Osindero. Conditional Generative Adversarial Nets. arXiv preprint arXiv:1411.1784, 2014 (https://arxiv.org/pdf/1411.1784.pdf).`
+1.  `Tero Karras et al. Progressive Growing of GANs for Improved Quality, Stability, and Variation. ICLR, 2018 (https://arxiv.org/pdf/1710.10196.pdf).`
+1.  `Tero Karras, , Samuli Laine, and Timo Aila. A Style-Based Generator Architecture for Generative Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.`
+1.  `Tero Karras et al. Analyzing and Improving the Image Quality of StyleGAN. 2019 (https://arxiv.org/abs/1912.04958).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/05.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/05.md
new file mode 100644
index 00000000..1815e4e3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/05.md
@@ -0,0 +1,1136 @@
+# 五、改进的 GAN
+
+自 2014 年引入**生成对抗网络**（**GAN**）以来，其流行度迅速提高。 GAN 已被证明是有用的生成模型，可以合成看起来真实的新数据。 深度学习中的许多研究论文都遵循提出的措施来解决原始 GAN 的困难和局限性。
+
+正如我们在前几章中讨论的那样，众所周知，GAN 很难训练，并且易于崩溃。 模式损失是一种情况，即使损失函数已经被优化，但生成器仍会产生看起来相同的输出。 在 MNIST 数字的情况下，模式折叠时，生成器可能只产生数字 4 和 9，因为看起来很相似。 **Wasserstein GAN**（**WGAN**）[2]解决了这些问题，认为只需替换基于 **Wasserstein** 的 GAN 损失函数就可以稳定的训练和避免模式崩溃，也称为**陆地移动距离**（**EMD**）。
+
+但是，稳定性问题并不是 GAN 的唯一问题。 也越来越需要来提高所生成图像的感知质量。 **最小二乘 GAN**（**LSGAN**）[3]建议同时解决这两个问题。 基本前提是，在训练过程中，Sigmoid 交叉熵损失会导致梯度消失。 这导致较差的图像质量。 最小二乘损失不会导致梯度消失。 与原始 GAN 生成的图像相比，生成的生成图像具有更高的感知质量。
+
+在上一章中，CGAN 介绍了一种调节生成器输出的方法。 例如，如果要获取数字 8，则可以在生成器的输入中包含条件标签。 受 CGAN 的启发，**辅助分类器 GAN**（**ACGAN**）[4]提出了一种改进的条件算法，可产生更好的感知质量和输出多样性。
+
+总之，本章的目的是介绍：
+
+*   WGAN 的理论描述
+*   对 LSGAN 原理的理解
+*   对 ACGAN 原理的理解
+*   改进的 GAN 的`tf.keras`实现 – WGAN，LSGAN 和 ACGAN
+
+让我们从讨论 WGAN 开始。
+
+# 1\. Wasserstein GAN
+
+如前所述，众所周知，GAN 很难训练。 判别器和生成器这两个网络的相反目标很容易导致训练不稳定。 判别器尝试从真实数据中正确分类伪造数据。 同时，生成器将尽最大努力欺骗判别器。 如果判别器的学习速度比生成器快，则生成器参数将无法优化。 另一方面，如果判别器学习较慢，则梯度可能会在到达生成器之前消失。 在最坏的情况下，如果判别器无法收敛，则生成器将无法获得任何有用的反馈。
+
+WGAN 认为 GAN 固有的不稳定性是由于它的损失函数引起的，该函数基于 **Jensen-Shannon**（**JS**）距离。 在 GAN 中，生成器的目的是学习如何将一种源分布（例如噪声）从转换为估计的目标分布（例如 MNIST 数字）。 使用 GAN 的原始公式，损失函数实际上是使目标分布与其估计值之间的距离最小。 问题是，对于某些分布对，没有平滑的路径可以最小化此 JS 距离。 因此，训练将无法收敛。
+
+在以下部分中，我们将研究三个距离函数，并分析什么可以替代更适合 GAN 优化的 JS 距离函数。
+
+## 距离函数
+
+可以通过检查其损失函数来了解训练 GAN 的稳定性。 为了更好地理解 GAN 损失函数，我们将回顾两个概率分布之间的公共距离或散度函数。
+
+我们关注的是用于真实数据分配的`p_data`与用于生成器数据分配的`p_g`之间的距离。 GAN 的目标是制造`p_g -> p_data`。“表 5.1.1”显示了散度函数。
+
+在大多数个最大似然任务中，我们将使用 **Kullback-Leibler**（**KL**）散度，或`D[KL]`损失函数可以衡量我们的神经网络模型预测与真实分布函数之间的距离。 如“公式 5.1.1”所示，由于`D[KL](p_data || p_g) ≠ D[KL](p_g || p_data)`，所以`D[KL]`不对称。
+
+**JS** 或`D[JS]`是基于`D[KL]`的差异。 但是，与`D[KL]`不同，`D[JS]`是对称的并且是有限的。 在本节中，我们将演示优化 GAN 损失函数等同于优化`D[JS]`：
+
+| **散度** | **表达式** |
+| --- | --- |
+| Kullback-Leibler（KL）“公式 5.1.1” | ![](img/B14853_05_003.png) |
+| | ![](img/B14853_05_004.png) |
+| *詹森·香农（JS）“公式 5.1.2” | ![](img/B14853_05_005.png) |
+| 陆地移动距离（EMD）或 Wasserstein 1 “公式 5.1.3” | ![](img/B14853_05_006.png) |
+| | 其中`Π(p_data, p_g)`是所有联合分布`γ(x, y)`的集合，其边际为`p_data`和`p_g`。 |
+
+表 5.1.1：两个概率分布函数`p_data`和`p_g`之间的散度函数
+
+EMD 背后的想法是，它是`d = ||x - y||`传输多少质量`γ(x, y)`，为了让概率分布`p_data`匹配`p_g`的度量。 `γ(x, y)`是所有可能的联合分布`Π(p_data, p_g)`的空间中的联合分布。 `γ(x, y)`也被称为运输计划，以反映运输质量以匹配两个概率分布的策略。 给定两个概率分布，有许多可能的运输计划。 大致而言， `inf`表示成本最低的运输计划。
+
+例如，“图 5.1.1”向我们展示了两个简单的离散分布`x`和`y`：
+
+![](img/B14853_05_01.png)
+
+图 5.1.1：EMD 是从`x`传输以匹配目标分布`y`的质量的加权数量。
+
+在位置`i = 1, 2, 3, 4`上，`x`在具有质量`m[i], i = 1, 2, 3, 4`。同时，位置`y[i], i = 1, 2`上，`y`的质量为`m[i], i = 1, 2`。为了匹配分布`y`，图中的箭头显示了将每个质量`x[i]`移动`d[i]`的最小运输计划。 EMD 计算如下：
+
+![](img/B14853_05_014.png) (Equation 5.1.4)
+
+在“图 5.1.1”中，EMD 可解释为移动一堆污物`x`填充孔`y`所需的最少工作量。 尽管在此示例中，也可以从图中推导出`inf`，但在大多数情况下，尤其是在连续分布中，用尽所有可能的运输计划是很棘手的。 我们将在本章中稍后回到这个问题。 同时，我们将向您展示 GAN 损失函数的作用，实际上是如何使 **JS** 的差异最小化。
+
+## GAN 中的距离函数
+
+现在，在上一章的损失函数给定任何生成器的情况下，我们将计算最佳判别器。 我们将回顾上一章中的以下等式：
+
+![](img/B14853_05_015.png) (Equation 4.1.1)
+
+除了从噪声分布中采样外，前面的等式也可以表示为从生成器分布中采样：
+
+![](img/B14853_05_016.png) (Equation 5.1.5)
+
+找出最小的`L^(D)`：
+
+![](img/B14853_05_018.png) (Equation 5.1.6)
+
+![](img/B14853_05_019.png) (Equation 5.1.7)
+
+积分内部的项为`y -> a log(y) + b log(1 - y)`的形式，对于不包括`{0, 0}`的任何`a, b ∈ R^2`，在`y ∈ [0. 1]`的`a / (a + b)`处都有一个已知的最大值。 由于该积分不会更改此表达式的最大值（或`L^(D)`的最小值）的位置，因此最佳判别器为：
+
+![](img/B14853_05_026.png) (Equation 5.1.8)
+
+因此，给定最佳判别器的损失函数为：
+
+![](img/B14853_05_027.png) (Equation 5.1.9)
+
+![](img/B14853_05_028.png) (Equation 5.1.10)
+
+![](img/B14853_05_029.png) (Equation 5.1.11)
+
+![](img/B14853_05_030.png) (Equation 5.1.12)
+
+我们可以从“公式 5.1.12”观察到，最佳判别器的损失函数为常数减去真实分布`p_data`和任何生成器分布`p_g`之间的 JS 散度的两倍。 最小化`L^(D*)`意味着最大化`D[JS](p_data || p_g)`，否则判别器必须正确地将真实数据中的伪造物分类。
+
+同时，我们可以放心地说，最佳生成器是当生成器分布等于真实数据分布时：
+
+![](img/B14853_05_034.png) (Equation 5.1.13)
+
+这是有道理的，因为生成器的目的是通过学习真实的数据分布来欺骗判别器。 有效地，我们可以通过最小化`D[JS]`或通过制作`p_g -> p_data`来获得最佳生成器。 给定最佳生成器，最佳判别器为`D*(x) = 1 / 2`和`L^(D*) = 2log2 = 0.60`。
+
+问题在于，当两个分布没有重叠时，就没有平滑函数可以帮助缩小它们之间的差距。 训练 GAN 不会因梯度下降而收敛。 例如，假设：
+
+`p_data = (x, y) where x = 0, y ~ U(0, 1)` (Equation 5.1.14)
+
+`p_g = (x, y) where x = θ, y ~ U(0, 1)` (Equation 5.1.15)
+
+这两个分布显示在“图 5.1.2”中：
+
+![](img/B14853_05_02.png)
+
+图 5.1.2：没有重叠的两个分布的示例。 对于`p_g`，`θ = 0.5`
+
+![](img/B14853_05_044.png)是均匀分布。 每个距离函数的差异如下：
+
+*   ![](img/B14853_05_045.png)
+*   ![](img/B14853_05_046.png)
+*   ![](img/B14853_05_047.png)
+*   ![](img/B14853_05_048.png)
+
+由于`D[JS]`是一个常数，因此 GAN 将没有足够的梯度来驱动`p_g -> p_data`。 我们还会发现`D[KL]`或反向`D[KL]`也不起作用。 但是，通过`W(p_data, p_g)`，我们可以拥有平滑函数，以便通过梯度下降获得`p_g -> p_data`。 为了优化 GAN，EMD 或 Wasserstein 1 似乎是一个更具逻辑性的损失函数，因为在两个分布具有极小或没有重叠的情况下，`D[JS]`会失败。
+
+为了帮助进一步理解，可以在以下位置找到[有关距离函数的精彩讨论](https://lilianweng.github.io/lil-log/2017/08/20/from-GAN-to-WGAN.html)。
+
+在下一节中，我们将重点介绍使用 EMD 或 Wasserstein 1 距离函数来开发替代损失函数，以鼓励稳定训练 GAN。
+
+## 使用 Wasserstein 损失
+
+在使用 EMD 或 Wasserstein 1 之前，还有一个要解决的问题。 耗尽`Π(p_data, p_g)`的空间来找到`γ ~ Π(p_data, p_g)`是很棘手的。 提出的解决方案是使用其 Kantorovich-Rubinstein 对偶：
+
+![](img/B14853_05_053.png) (Equation 5.1.16)
+
+等效地，EMD `sup ||f||_L <= 1`是所有 K-Lipschitz 函数上的最高值（大约是最大值）：`f: x -> R`。 K-Lipschitz 函数满足以下约束：
+
+![](img/B14853_05_056.png) (Equation 5.1.17)
+
+对于所有`x[1], x[2] ∈ R`。 K-Lipschitz 函数具有有界导数，并且几乎总是连续可微的（例如，`f(x) = |x|`具有有界导数并且是连续的，但在`x = 0`时不可微分）。
+
+“公式 5.1.16”可以通过找到 K-Lipschitz 函数`{f[w]}, w ∈ W`的族来求解：
+
+![](img/B14853_05_060.png) (Equation 5.1.18)
+
+在 GAN 中，可以通过从`z`-噪声分布采样并用`f[w]`替换“公式 5.1.18”来重写。 鉴别函数，`D[w]`：
+
+![](img/B14853_05_061.png) (Equation 5.1.19)
+
+我们使用粗体字母突出显示多维样本的一般性。 最后一个问题是如何找到函数族`w ∈ W`。 所提出的解决方案是在每次梯度更新时进行的。 判别器`w`的权重被限制在上下限之间（例如，-0.01 和 0.01）：
+
+![](img/B14853_05_063.png) (Equation 5.1.20)
+
+`w`的较小值将判别器约束到紧凑的参数空间，从而确保 Lipschitz 连续性。
+
+我们可以使用“公式 5.1.19”作为我们新的 GAN 损失函数的基础。 EMD 或 Wasserstein 1 是生成器旨在最小化的损失函数，以及判别器试图最大化的损失函数（或最小化`-W(p_data, p_g)`：
+
+![](img/B14853_05_064.png) (Equation 5.1.21)
+
+![](img/B14853_05_065.png) (Equation 5.1.22)
+
+在生成器损失函数中，第一项消失了，因为它没有针对实际数据进行直接优化。
+
+“表 5.1.2”显示了 GAN 和 WGAN 的损失函数之间的差异。 为简洁起见，我们简化了`L^(D)`和`L^(G)`的表示法：
+
+| **网络** | **损失函数** | **公式** |
+| --- | --- | --- |
+| GAN | ![](img/B14853_05_068.png) | 4.1.1 |
+| | ![](img/B14853_05_069.png) | 4.1.5 |
+| WGAN | ![](img/B14853_05_070.png) | 5.1.21 |
+| | ![](img/B14853_05_071.png) | 5.1.22 |
+| | ![](img/B14853_05_072.png) | 5.1.20 |
+
+表 5.1.2：GAN 和 WGAN 的损失函数之间的比较
+
+这些损失函数用于训练 WGAN，如“算法 5.1.1”中所示。
+
+**算法 5.1.1 WGAN**。 参数的值为`α = 0.00005`，`c = 0.01`，`m = 64`和`n_critic = 5`。
+
+要求：`α`，学习率。`c`是削波参数。`m`，批量大小。 `n_critic`，即每个生成器迭代的评论（鉴别）迭代次数。
+
+要求：`w[D]`，初始判别器（discriminator）参数。 `θ[D]`，初始生成器参数：
+
+1.  当`θ[D]`尚未收敛，执行：
+2.  对于`t = 1, ..., n_critic`，执行：
+3.  从真实数据中抽样一批`{x^(i)} ~ p_data, i = 1, ..., m`
+4.  从均匀的噪声分布中采样一批`{z^(i)} ~ p_x, i = 1, ..., m`
+5.  ![](img/B14853_05_085.png)
+
+    计算判别器梯度
+6.  ![](img/B14853_05_086.png)
+
+    更新判别器参数
+7.  ![](img/B14853_05_087.png)
+
+    剪辑判别器权重
+8.  `end for`
+9.  从均匀的噪声分布中采样一批`{z^(i)} ~ p_x, i = 1, ..., m`
+10.  ![](img/B14853_05_089.png)
+
+    计算生成器梯度
+11.  ![](img/B14853_05_090.png)
+
+    更新生成器参数
+12.  `end while`
+
+“图 5.1.3”展示了 WGAN 模型实际上与 DCGAN 相同，除了伪造的/真实的数据标签和损失函数：
+
+![](img/B14853_05_03.png)
+
+图 5.1.3：顶部：训练 WGAN 判别器需要来自生成器的虚假数据和来自真实分发的真实数据。 下：训练 WGAN 生成器要求生成器中假冒的真实数据是真实的
+
+与 GAN 相似，WGAN 交替训练判别器和生成器（通过对抗）。 但是，在 WGAN 中，判别器（也称为评论者）在训练生成器进行一次迭代（第 9 至 11 行）之前，先训练`n_critic`迭代（第 2 至 8 行）。 这与对于判别器和生成器具有相同数量的训练迭代的 GAN 相反。 换句话说，在 GAN 中，`n_critic = 1`。
+
+训练判别器意味着学习判别器的参数（权重和偏差）。 这需要从真实数据中采样一批（第 3 行），并从伪数据中采样一批（第 4 行），然后将采样数据馈送到判别器网络，然后计算判别器参数的梯度（第 5 行）。 判别器参数使用 RMSProp（第 6 行）进行了优化。 第 5 行和第 6 行都是“公式 5.1.21”的优化。
+
+最后，EM 距离优化中的 Lipschitz 约束是通过裁剪判别器参数（第 7 行）来施加的。 第 7 行是“公式 5.1.20”的实现。 在`n_critic`迭代判别器训练之后，判别器参数被冻结。 生成器训练通过对一批伪造数据进行采样开始（第 9 行）。 采样的数据被标记为实数（1.0），以致愚弄判别器网络。 在第 10 行中计算生成器梯度，并在第 11 行中使用 RMSProp 对其进行优化。第 10 行和第 11 行执行梯度更新以优化“公式 5.1.22”。
+
+训练生成器后，将解冻判别器参数，并开始另一个`n_critic`判别器训练迭代。 我们应该注意，在判别器训练期间不需要冻结生成器参数，因为生成器仅涉及数据的制造。 类似于 GAN，可以将判别器训练为一个单独的网络。 但是，训练生成器始终需要判别器通过对抗网络参与，因为损失是根据生成器网络的输出计算得出的。
+
+与 GAN 不同，在 WGAN 中，将实际数据标记为 1.0，而将伪数据标记为 -1.0，作为计算第 5 行中的梯度的一种解决方法。第 5-6 和 10-11 行执行梯度更新以优化“公式 5.1.21”和“5.1.22”。 第 5 行和第 10 行中的每一项均建模为：
+
+![](img/B14853_05_091.png) (Equation 5.1.23)
+
+对于真实数据，其中`y_label = 1.0`，对于假数据，`y_label= -1.0`。 为了简化符号，我们删除了上标`(i)`。 对于判别器，当使用实际数据进行训练时，WGAN 增加`y_pred = D[w](x)`以最小化损失函数。
+
+使用伪造数据进行训练时，WGAN 会降低`y_pred = D[w](g(z))`以最大程度地减少损失函数。 对于生成器，当在训练过程中将伪数据标记为真实数据时，WGAN 增加`y_pred = D[w](g(z))`以最小化损失函数。 请注意，`y_label`除了其符号外，对损失函数没有直接贡献。 在`tf.keras`中，“公式 5.1.23”实现为：
+
+```py
+def wasserstein_loss(y_label, y_pred):
+    return -K.mean(y_label * y_pred) 
+```
+
+本节最重要的部分是用于稳定训练 GAN 的新损失函数。 它基于 EMD 或 Wasserstein1。“算法 5.1.1”形式化了 WGAN 的完整训练算法，包括损失函数。 在下一节中，将介绍`tf.keras`中训练算法的实现。
+
+## 使用 Keras 的 WGAN 实现
+
+为了在`tf.keras`中实现 WGAN，我们可以重用 GAN 的 DCGAN 实现，这是我们在上一一章中介绍的。 DCGAN 构建器和工具函数在`lib`文件夹的`gan.py`中作为模块实现。
+
+函数包括：
+
+*   `generator()`：生成器模型构建器
+*   `discriminator()`：判别器模型构建器
+*   `train()`：DCGAN 训练师
+*   `plot_images()`：通用生成器输出绘图仪
+*   `test_generator()`：通用的生成器测试工具
+
+如“列表 5.1.1”所示，我们可以通过简单地调用以下命令来构建一个判别器：
+
+```py
+discriminator = gan.discriminator(inputs, activation='linear') 
+```
+
+WGAN 使用线性输出激活。 对于生成器，我们执行：
+
+```py
+generator = gan.generator(inputs, image_size) 
+```
+
+`tf.keras`中的整体网络模型类似于 DCGAN 的“图 4.2.1”中看到的模型。
+
+“列表 5.1.1”突出显示了 RMSprop 优化器和 Wasserstein 损失函数的使用。 在训练期间使用“算法 5.1.1”中的超参数。
+
+[完整的代码可在 GitHub 上获得](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+“列表 5.1.1”：`wgan-mnist-5.1.2.py`
+
+```py
+def build_and_train_models():
+    """Load the dataset, build WGAN discriminator,
+    generator, and adversarial models.
+    Call the WGAN train routine.
+    """
+    # load MNIST dataset
+    (x_train, _), (_, _) = mnist.load_data() 
+```
+
+```py
+ # reshape data for CNN as (28, 28, 1) and normalize
+    image_size = x_train.shape[1]
+    x_train = np.reshape(x_train, [-1, image_size, image_size, 1])
+    x_train = x_train.astype('float32') / 255 
+```
+
+```py
+ model_name = "wgan_mnist"
+    # network parameters
+    # the latent or z vector is 100-dim
+    latent_size = 100
+    # hyper parameters from WGAN paper [2]
+    n_critic = 5
+    clip_value = 0.01
+    batch_size = 64
+    lr = 5e-5
+    train_steps = 40000
+    input_shape = (image_size, image_size, 1) 
+```
+
+```py
+ # build discriminator model
+    inputs = Input(shape=input_shape, name='discriminator_input')
+    # WGAN uses linear activation in paper [2]
+    discriminator = gan.discriminator(inputs, activation='linear')
+    optimizer = RMSprop(lr=lr)
+    # WGAN discriminator uses wassertein loss
+    discriminator.compile(loss=wasserstein_loss,
+                          optimizer=optimizer,
+                          metrics=['accuracy'])
+    discriminator.summary() 
+```
+
+```py
+ # build generator model
+    input_shape = (latent_size, )
+    inputs = Input(shape=input_shape, name='z_input')
+    generator = gan.generator(inputs, image_size)
+    generator.summary() 
+```
+
+```py
+ # build adversarial model = generator + discriminator
+    # freeze the weights of discriminator during adversarial training
+    discriminator.trainable = False
+    adversarial = Model(inputs,
+                        discriminator(generator(inputs)),
+                        name=model_name)
+    adversarial.compile(loss=wasserstein_loss,
+                        optimizer=optimizer,
+                        metrics=['accuracy'])
+    adversarial.summary() 
+```
+
+```py
+ # train discriminator and adversarial networks
+    models = (generator, discriminator, adversarial)
+    params = (batch_size,
+              latent_size,
+              n_critic,
+              clip_value,
+              train_steps,
+              model_name)
+    train(models, x_train, params) 
+```
+
+“列表 5.1.2”是紧跟“算法 5.1.1”的训练函数。 但是，在判别器的训练中有一个小的调整。 与其在单个合并的真实数据和虚假数据中组合训练权重，不如先训练一批真实数据，然后再训练一批虚假数据。 这种调整将防止梯度消失，因为真实和伪造数据标签中的符号相反，并且由于裁剪而导致的权重较小。
+
+“列表 5.1.2”：`wgan-mnist-5.1.2.py`
+
+为 WGAN 训练算法：
+
+```py
+def train(models, x_train, params):
+    """Train the Discriminator and Adversarial Networks 
+```
+
+```py
+ Alternately train Discriminator and Adversarial
+    networks by batch.
+    Discriminator is trained first with properly labelled
+    real and fake images for n_critic times.
+    Discriminator weights are clipped as a requirement 
+    of Lipschitz constraint.
+    Generator is trained next (via Adversarial) with 
+    fake images pretending to be real.
+    Generate sample images per save_interval 
+```
+
+```py
+ Arguments:
+        models (list): Generator, Discriminator,
+            Adversarial models
+        x_train (tensor): Train images
+        params (list) : Networks parameters 
+```
+
+```py
+ """
+    # the GAN models
+    generator, discriminator, adversarial = models
+    # network parameters
+    (batch_size, latent_size, n_critic,
+            clip_value, train_steps, model_name) = params
+    # the generator image is saved every 500 steps
+    save_interval = 500
+    # noise vector to see how the 
+    # generator output evolves during training
+    noise_input = np.random.uniform(-1.0,
+                                    1.0,
+                                    size=[16, latent_size])
+    # number of elements in train dataset
+    train_size = x_train.shape[0]
+    # labels for real data
+    real_labels = np.ones((batch_size, 1))
+    for i in range(train_steps):
+        # train discriminator n_critic times
+        loss = 0
+        acc = 0
+        for _ in range(n_critic):
+            # train the discriminator for 1 batch
+            # 1 batch of real (label=1.0) and 
+            # fake images (label=-1.0)
+            # randomly pick real images from dataset
+            rand_indexes = np.random.randint(0,
+                                             train_size,
+                                             size=batch_size)
+            real_images = x_train[rand_indexes]
+            # generate fake images from noise using generator
+            # generate noise using uniform distribution
+            noise = np.random.uniform(-1.0,
+                                      1.0,
+                                      size=[batch_size, latent_size])
+            fake_images = generator.predict(noise) 
+```
+
+```py
+ # train the discriminator network
+            # real data label=1, fake data label=-1
+            # instead of 1 combined batch of real and fake images,
+            # train with 1 batch of real data first, then 1 batch
+            # of fake images.
+            # this tweak prevents the gradient 
+            # from vanishing due to opposite
+            # signs of real and fake data labels (i.e. +1 and -1) and 
+            # small magnitude of weights due to clipping.
+            real_loss, real_acc = \
+                discriminator.train_on_batch(real_images,
+                                             real_labels)
+            fake_loss, fake_acc = \
+                discriminator.train_on_batch(fake_images,
+                                             -real_labels)
+            # accumulate average loss and accuracy
+            loss += 0.5 * (real_loss + fake_loss)
+            acc += 0.5 * (real_acc + fake_acc)
+            # clip discriminator weights to satisfy Lipschitz constraint
+            for layer in discriminator.layers:
+                weights = layer.get_weights()
+                weights = [np.clip(weight,
+                                   -clip_value,
+                                   clip_value) for weight in weights]
+                layer.set_weights(weights) 
+```
+
+```py
+ # average loss and accuracy per n_critic training iterations
+        loss /= n_critic
+        acc /= n_critic
+        log = "%d: [discriminator loss: %f, acc: %f]" % (i, loss, acc) 
+```
+
+```py
+ # train the adversarial network for 1 batch
+        # 1 batch of fake images with label=1.0
+        # since the discriminator weights are frozen in 
+        # adversarial network only the generator is trained
+        # generate noise using uniform distribution
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        # train the adversarial network
+        # note that unlike in discriminator training,
+        # we do not save the fake images in a variable
+        # the fake images go to the discriminator 
+        # input of the adversarial for classification
+        # fake images are labelled as real
+        # log the loss and accuracy
+        loss, acc = adversarial.train_on_batch(noise, real_labels)
+        log = "%s [adversarial loss: %f, acc: %f]" % (log, loss, acc)
+        print(log)
+        if (i + 1) % save_interval == 0:
+            # plot generator images on a periodic basis
+            gan.plot_images(generator,
+                            noise_input=noise_input,
+                            show=False,
+                            step=(i + 1),
+                            model_name=model_name) 
+```
+
+```py
+ # save the model after training the generator
+    # the trained generator can be reloaded 
+    # for future MNIST digit generation
+    generator.save(model_name + ".h5") 
+```
+
+“图 5.1.4”显示了 MNIST 数据集上 WGAN 输出的演变：
+
+![](img/B14853_05_04.png)
+
+图 5.1.4：WGAN 与训练步骤的示例输出。 在训练和测试期间，WGAN 的任何输出均不会遭受模式崩溃
+
+即使在网络配置更改的情况下，WGAN 也稳定。 例如，当在识别符网络的 ReLU 之前插入批量规范化时，已知 DCGAN 不稳定。 在 WGAN 中，相同的配置是稳定的。
+
+下图“图 5.1.5”向我们展示了 DCGAN 和 WGAN 的输出，并在判别器网络上进行了批量归一化：
+
+![](img/B14853_05_05.png)
+
+图 5.1.5：在判别器网络中的 ReLU 激活之前插入批量归一化时，DCGAN（左）和 WGAN（右）的输出比较
+
+与上一章中的 GAN 训练相似，经过 40,000 个训练步骤，将训练后的模型保存在文件中。 使用训练有素的生成器模型，通过运行以下命令来生成新的合成 MNIST 数字图像：
+
+```py
+python3 wgan-mnist-5.1.2.py --generator=wgan_mnist.h5 
+```
+
+正如我们所讨论的，原始 GAN 很难训练。 当 GAN 优化的损失函数时，就会出现问题。 实际上是在优化 *JS* 差异，`D[JS]`。 当两个分布函数之间几乎没有重叠时，很难优化`D[JS]`。
+
+WGAN 提出通过使用 EMD 或 Wasserstein 1 损失函数来解决该问题，该函数即使在两个分布之间很少或没有重叠时也具有平滑的微分函数。 但是，WGAN 与生成的图像质量无关。 除了稳定性问题之外，原始 GAN 生成的图像在感知质量方面还有很多改进的地方。 LSGAN 理论上可以同时解决两个问题。 在下一节中，我们将介绍 LSGAN。
+
+# 2\. 最小二乘 GAN（LSGAN）
+
+LSGAN 提出最小二乘损失。“图 5.2.1”演示了为什么在 GAN 中使用 Sigmoid 交叉熵损失会导致生成的数据质量较差：
+
+![](img/B14853_05_06.png)
+
+图 5.2.1：真实样本和虚假样本分布均除以各自的决策边界：Sigmoid 和最小二乘
+
+理想情况下，假样本分布应尽可能接近真实样本的分布。 但是，对于 GAN，一旦伪样本已经位于决策边界的正确一侧，梯度就消失了。
+
+这会阻止生成器具有足够的动机来提高生成的伪数据的质量。 远离决策边界的伪样本将不再试图靠近真实样本的分布。 使用最小二乘损失函数，只要假样本分布与真实样本的分布相距甚远，梯度就不会消失。 即使假样本已经位于决策边界的正确一侧，生成器也将努力改善其对实际密度分布的估计。
+
+“表 5.2.1”显示了 GAN，WGAN 和 LSGAN 之间的损失函数的比较：
+
+| **网络** | **损失函数** | **公式** |
+| --- | --- | --- |
+| GAN | ![](img/B14853_05_095.png) | 4.1.1 |
+| | ![](img/B14853_05_096.png) | 4.1.5 |
+| WGAN | ![](img/B14853_05_097.png) | 5.1.21 |
+| | ![](img/B14853_05_098.png) | 5.1.22 |
+| | ![](img/B14853_05_099.png) | 5.1.20 |
+| LSGAN | ![](img/B14853_05_100.png) | 5.2.1 |
+| | ![](img/B14853_05_101.png) | 5.2.2 |
+
+表 5.2.1：GAN，WGAN 和 LSGAN 损失函数之间的比较
+
+最小化“公式 5.2.1”或判别器损失函数意味着实际数据分类与真实标签 1.0 之间的 MSE 应该接近零。 此外，假数据分类和真实标签 0.0 之间的 MSE 应该接近零。
+
+与其他 GAN 相似，对 LSGAN 判别器进行了训练，可以从假数据样本中对真实数据进行分类。 最小化公式 5.2.2 意味着在标签 1.0 的帮助下，使判别器认为生成的假样本数据是真实的。
+
+以上一章中的 DCGAN 代码为基础来实现 LSGAN 仅需进行一些更改。 如“列表 5.2.1”所示，删除了判别器 Sigmoid 激活。 判别器是通过调用以下命令构建的：
+
+```py
+discriminator = gan.discriminator(inputs, activation=None) 
+```
+
+生成器类似于原始的 DCGAN：
+
+```py
+generator = gan.generator(inputs, image_size) 
+```
+
+鉴别函数和对抗损失函数都被`mse`代替。 所有网络参数均与 DCGAN 中的相同。 `tf.keras`中 LSGAN 的网络模型类似于“图 4.2.1”，除了存在线性激活或无输出激活外。 训练过程类似于 DCGAN 中的训练过程，由工具函数提供：
+
+```py
+gan.train(models, x_train, params) 
+```
+
+“列表 5.2.1”：`lsgan-mnist-5.2.1.py`
+
+```py
+def build_and_train_models():
+    """Load the dataset, build LSGAN discriminator,
+    generator, and adversarial models.
+    Call the LSGAN train routine.
+    """
+    # load MNIST dataset
+    (x_train, _), (_, _) = mnist.load_data()
+    # reshape data for CNN as (28, 28, 1) and normalize
+    image_size = x_train.shape[1]
+    x_train = np.reshape(x_train,
+                         [-1, image_size, image_size, 1])
+    x_train = x_train.astype('float32') / 255
+    model_name = "lsgan_mnist"
+    # network parameters
+    # the latent or z vector is 100-dim
+    latent_size = 100
+    input_shape = (image_size, image_size, 1)
+    batch_size = 64
+    lr = 2e-4
+    decay = 6e-8
+    train_steps = 40000
+    # build discriminator model
+    inputs = Input(shape=input_shape, name='discriminator_input')
+    discriminator = gan.discriminator(inputs, activation=None)
+    # [1] uses Adam, but discriminator easily 
+    # converges with RMSprop
+    optimizer = RMSprop(lr=lr, decay=decay)
+    # LSGAN uses MSE loss [2]
+    discriminator.compile(loss='mse',
+                          optimizer=optimizer,
+                          metrics=['accuracy'])
+    discriminator.summary()
+    # build generator model
+    input_shape = (latent_size, )
+    inputs = Input(shape=input_shape, name='z_input')
+    generator = gan.generator(inputs, image_size)
+    generator.summary()
+    # build adversarial model = generator + discriminator
+    optimizer = RMSprop(lr=lr*0.5, decay=decay*0.5)
+    # freeze the weights of discriminator 
+    # during adversarial training
+    discriminator.trainable = False
+    adversarial = Model(inputs,
+                        discriminator(generator(inputs)),
+                        name=model_name)
+    # LSGAN uses MSE loss [2]
+    adversarial.compile(loss='mse',
+                        optimizer=optimizer,
+                        metrics=['accuracy'])
+    adversarial.summary()
+    # train discriminator and adversarial networks
+    models = (generator, discriminator, adversarial)
+    params = (batch_size, latent_size, train_steps, model_name)
+    gan.train(models, x_train, params) 
+```
+
+“图 5.2.2”显示了使用 MNIST 数据集对 40,000 个训练步骤进行 LSGAN 训练后生成的样本：
+
+![](img/B14853_05_07.png)
+
+图 5.2.2：LSGAN 的示例输出与训练步骤
+
+与上一章中 DCGAN 中的“图 4.2.1”相比，输出图像的感知质量更好。
+
+使用训练有素的生成器模型，通过运行以下命令来生成新的合成 MNIST 数字图像：
+
+```py
+python3 lsgan-mnist-5.2.1.py --generator=lsgan_mnist.h5 
+```
+
+在本节中，我们讨论了损失函数的另一种改进。 通过使用 MSE 或 L2，我们解决了训练 GAN 的稳定性和感知质量的双重问题。 在下一节中，提出了相对于 CGAN 的另一项改进，这已在上一章中进行了讨论。
+
+# 3\. 辅助分类器 GAN (ACGAN)
+
+ACGAN 在原理上类似于我们在上一章中讨论的**条件 GAN**（**CGAN**）。 我们将比较 CGAN 和 ACGAN。 对于 CGAN 和 ACGAN，生成器输入均为噪声及其标签。 输出是属于输入类标签的伪图像。 对于 CGAN，判别器的输入是图像（假的或真实的）及其标签。 输出是图像真实的概率。 对于 ACGAN，判别器的输入是一幅图像，而输出是该图像是真实的且其类别是标签的概率。
+
+“图 5.3.1”突出显示了生成器训练期间 CGAN 和 ACGAN 之间的区别：
+
+![](img/B14853_05_08.png)
+
+图 5.3.1：CGAN 与 ACGAN 生成器训练。 主要区别是判别器的输入和输出
+
+本质上，在 CGAN 中，我们向网络提供了边信息（标签）。 在 ACGAN 中，我们尝试使用辅助类解码器网络重建辅助信息。 ACGAN 理论认为，强制网络执行其他任务可以提高原始任务的表现。 在这种情况下，附加任务是图像分类。 原始任务是生成伪造图像。
+
+“表 5.3.1”显示了 ACGAN 损失函数与 CGAN 损失函数的比较：
+
+| **网络** | **损失函数** | **编号** |
+| --- | --- | --- |
+| CGAN | ![](img/B14853_05_102.png) | 4.3.1 |
+| | ![](img/B14853_05_103.png) | 4.3.2 |
+| ACGAN | ![](img/B14853_05_104.png) | 5.3.1 |
+| | ![](img/B14853_05_105.png) | 5.3.2 |
+
+表 5.3.1：CGAN 和 ACGAN 损失函数之间的比较
+
+ACGAN 损失函数与 CGAN 相同，除了附加的分类器损失函数。 除了从假图片中识别真实图像的原始任务之外，判别器的“公式 5.3.1”还具有对真假图像正确分类的附加任务。 生成器的“公式 5.3.2”意味着，除了尝试用伪造的图像来欺骗判别器（`-E[z] log D(g(z | y))`）之外，它还要求判别器正确地对那些伪造的图像进行分类（`-E[z] log P(c | g(z | y))`）。
+
+从 CGAN 代码开始，仅修改判别器和训练函数以实现 ACGAN。 `gan.py`还提供了判别器和生成器构建器函数。 要查看判别器上所做的更改，清单 5.3.1 显示了构建器函数，其中突出显示了执行图像分类的辅助解码器网络和双输出。
+
+“列表 5.3.1”：`gan.py`
+
+```py
+def discriminator(inputs,
+                  activation='sigmoid',
+                  num_labels=None,
+                  num_codes=None):
+    """Build a Discriminator Model 
+```
+
+```py
+ Stack of LeakyReLU-Conv2D to discriminate real from fake
+    The network does not converge with BN so it is not used here
+    unlike in [1]
+    Arguments:
+        inputs (Layer): Input layer of the discriminator (the image)
+        activation (string): Name of output activation layer
+        num_labels (int): Dimension of one-hot labels for ACGAN & InfoGAN
+        num_codes (int): num_codes-dim Q network as output 
+                    if StackedGAN or 2 Q networks if InfoGAN
+
+    Returns:
+        Model: Discriminator Model
+    """
+    kernel_size = 5
+    layer_filters = [32, 64, 128, 256] 
+```
+
+```py
+ x = inputs
+    for filters in layer_filters:
+        # first 3 convolution layers use strides = 2
+        # last one uses strides = 1
+        if filters == layer_filters[-1]:
+            strides = 1
+        else:
+            strides = 2
+        x = LeakyReLU(alpha=0.2)(x)
+        x = Conv2D(filters=filters,
+                   kernel_size=kernel_size,
+                   strides=strides,
+                   padding='same')(x) 
+```
+
+```py
+ x = Flatten()(x)
+    # default output is probability that the image is real
+    outputs = Dense(1)(x)
+    if activation is not None:
+        print(activation)
+        outputs = Activation(activation)(outputs) 
+```
+
+```py
+ if num_labels:
+        # ACGAN and InfoGAN have 2nd output
+        # 2nd output is 10-dim one-hot vector of label
+        layer = Dense(layer_filters[-2])(x)
+        labels = Dense(num_labels)(layer)
+        labels = Activation('softmax', name='label')(labels)
+        if num_codes is None:
+            outputs = [outputs, labels]
+        else:
+            # InfoGAN have 3rd and 4th outputs
+            # 3rd output is 1-dim continous Q of 1st c given x
+            code1 = Dense(1)(layer)
+            code1 = Activation('sigmoid', name='code1')(code1) 
+```
+
+```py
+ # 4th output is 1-dim continuous Q of 2nd c given x
+            code2 = Dense(1)(layer)
+            code2 = Activation('sigmoid', name='code2')(code2) 
+```
+
+```py
+ outputs = [outputs, labels, code1, code2]
+    elif num_codes is not None:
+        # StackedGAN Q0 output
+        # z0_recon is reconstruction of z0 normal distribution
+        z0_recon =  Dense(num_codes)(x)
+        z0_recon = Activation('tanh', name='z0')(z0_recon)
+        outputs = [outputs, z0_recon] 
+```
+
+```py
+ return Model(inputs, outputs, name='discriminator') 
+```
+
+然后通过调用以下命令来构建判别器：
+
+```py
+discriminator = gan.discriminator(inputs, num_labels=num_labels) 
+```
+
+生成器与 WGAN 和 LSGAN 中的生成器相同。 回想一下，在以下“列表 5.3.2”中显示了生成器生成器。 我们应该注意，“列表 5.3.1”和“5.3.2”与上一节中 WGAN 和 LSGAN 使用的生成器函数相同。 重点介绍了适用于 LSGAN 的部件。
+
+“列表 5.3.2”：`gan.py`
+
+```py
+def generator(inputs,
+              image_size,
+              activation='sigmoid',
+              labels=None,
+              codes=None):
+    """Build a Generator Model 
+```
+
+```py
+ Stack of BN-ReLU-Conv2DTranpose to generate fake images.
+    Output activation is sigmoid instead of tanh in [1].
+    Sigmoid converges easily. 
+```
+
+```py
+ Arguments:
+        inputs (Layer): Input layer of the generator (the z-vector)
+        image_size (int): Target size of one side 
+            (assuming square image)
+        activation (string): Name of output activation layer
+        labels (tensor): Input labels
+        codes (list): 2-dim disentangled codes for InfoGAN 
+```
+
+```py
+ Returns:
+        Model: Generator Model
+    """
+    image_resize = image_size // 4
+    # network parameters
+    kernel_size = 5
+    layer_filters = [128, 64, 32, 1] 
+```
+
+```py
+ if labels is not None:
+        if codes is None:
+            # ACGAN labels
+            # concatenate z noise vector and one-hot labels
+            inputs = [inputs, labels]
+        else:
+            # infoGAN codes
+            # concatenate z noise vector, 
+            # one-hot labels and codes 1 & 2
+            inputs = [inputs, labels] + codes
+        x = concatenate(inputs, axis=1)
+    elif codes is not None:
+        # generator 0 of StackedGAN
+        inputs = [inputs, codes]
+        x = concatenate(inputs, axis=1)
+    else:
+        # default input is just 100-dim noise (z-code)
+        x = inputs 
+```
+
+```py
+ x = Dense(image_resize * image_resize * layer_filters[0])(x)
+    x = Reshape((image_resize, image_resize, layer_filters[0]))(x) 
+```
+
+```py
+ for filters in layer_filters:
+        # first two convolution layers use strides = 2
+        # the last two use strides = 1
+        if filters > layer_filters[-2]:
+            strides = 2
+        else:
+            strides = 1
+        x = BatchNormalization()(x)
+        x = Activation('relu')(x)
+        x = Conv2DTranspose(filters=filters,
+                            kernel_size=kernel_size,
+                            strides=strides,
+                            padding='same')(x) 
+```
+
+```py
+ if activation is not None:
+        x = Activation(activation)(x) 
+```
+
+```py
+ # generator output is the synthesized image x
+    return Model(inputs, x, name='generator') 
+```
+
+在 ACGAN 中，生成器实例化为：
+
+```py
+generator = gan.generator(inputs, image_size, labels=labels) 
+```
+
+“图 5.3.2”显示了`tf.keras`中 ACGAN 的网络模型：
+
+![](img/B14853_05_09.png)
+
+图 5.3.2：ACGAN 的`tf.keras`模型
+
+如“列表 5.3.3”所示，对判别器和对抗模型进行了修改，以适应判别器网络中的更改。 现在，我们有两个损失函数。 首先是原始的二进制交叉熵，用于训练判别器来估计输入图像为实的概率。
+
+第二个是图像分类器，用于预测类别标签。 输出是一个 10 维的单热向量。
+
+“列表 5.3.3”：`acgan-mnist-5.3.1.py`
+
+重点介绍了在判别器和对抗网络中实现的更改：
+
+```py
+def build_and_train_models():
+    """Load the dataset, build ACGAN discriminator,
+    generator, and adversarial models.
+    Call the ACGAN train routine.
+    """
+    # load MNIST dataset
+    (x_train, y_train), (_, _) = mnist.load_data() 
+```
+
+```py
+ # reshape data for CNN as (28, 28, 1) and normalize
+    image_size = x_train.shape[1]
+    x_train = np.reshape(x_train,
+                         [-1, image_size, image_size, 1])
+    x_train = x_train.astype('float32') / 255 
+```
+
+```py
+ # train labels
+    num_labels = len(np.unique(y_train))
+    y_train = to_categorical(y_train) 
+```
+
+```py
+ model_name = "acgan_mnist"
+    # network parameters
+    latent_size = 100
+    batch_size = 64
+    train_steps = 40000
+    lr = 2e-4
+    decay = 6e-8
+    input_shape = (image_size, image_size, 1)
+    label_shape = (num_labels, ) 
+```
+
+```py
+ # build discriminator Model
+    inputs = Input(shape=input_shape,
+                   name='discriminator_input')
+    # call discriminator builder 
+    # with 2 outputs, pred source and labels
+    discriminator = gan.discriminator(inputs,
+                                      num_labels=num_labels) 
+```
+
+```py
+ # [1] uses Adam, but discriminator 
+    # easily converges with RMSprop
+    optimizer = RMSprop(lr=lr, decay=decay)
+    # 2 loss fuctions: 1) probability image is real
+    # 2) class label of the image
+    loss = ['binary_crossentropy', 'categorical_crossentropy']
+    discriminator.compile(loss=loss,
+                          optimizer=optimizer,
+                          metrics=['accuracy'])
+    discriminator.summary() 
+```
+
+```py
+ # build generator model
+    input_shape = (latent_size, )
+    inputs = Input(shape=input_shape, name='z_input')
+    labels = Input(shape=label_shape, name='labels')
+    # call generator builder with input labels
+    generator = gan.generator(inputs,
+                              image_size,
+                              labels=labels)
+    generator.summary() 
+```
+
+```py
+ # build adversarial model = generator + discriminator
+    optimizer = RMSprop(lr=lr*0.5, decay=decay*0.5)
+    # freeze the weights of discriminator 
+    # during adversarial training
+    discriminator.trainable = False
+    adversarial = Model([inputs, labels],
+                        discriminator(generator([inputs, labels])),
+                        name=model_name)
+    # same 2 loss fuctions: 1) probability image is real
+    # 2) class label of the image
+    adversarial.compile(loss=loss,
+                        optimizer=optimizer,
+                        metrics=['accuracy'])
+    adversarial.summary() 
+```
+
+```py
+ # train discriminator and adversarial networks
+    models = (generator, discriminator, adversarial)
+    data = (x_train, y_train)
+    params = (batch_size, latent_size, \
+             train_steps, num_labels, model_name)
+    train(models, data, params) 
+```
+
+在“列表 5.3.4”中，我们重点介绍了训练例程中实现的更改。 将与 CGAN 代码进行比较的主要区别在于，必须在鉴别和对抗训练中提供输出标签。
+
+“列表 5.3.4”：`acgan-mnist-5.3.1.py`
+
+```py
+def train(models, data, params):
+    """Train the discriminator and adversarial Networks
+    Alternately train discriminator and adversarial 
+    networks by batch.
+    Discriminator is trained first with real and fake 
+    images and corresponding one-hot labels.
+    Adversarial is trained next with fake images pretending 
+    to be real and corresponding one-hot labels.
+    Generate sample images per save_interval.
+    # Arguments
+        models (list): Generator, Discriminator,
+            Adversarial models
+        data (list): x_train, y_train data
+        params (list): Network parameters
+    """
+    # the GAN models
+    generator, discriminator, adversarial = models
+    # images and their one-hot labels
+    x_train, y_train = data
+    # network parameters
+    batch_size, latent_size, train_steps, num_labels, model_name \
+            = params
+    # the generator image is saved every 500 steps
+    save_interval = 500
+    # noise vector to see how the generator 
+    # output evolves during training
+    noise_input = np.random.uniform(-1.0,
+                                    1.0,
+                                    size=[16, latent_size])
+    # class labels are 0, 1, 2, 3, 4, 5, 
+    # 6, 7, 8, 9, 0, 1, 2, 3, 4, 5
+    # the generator must produce these MNIST digits
+    noise_label = np.eye(num_labels)[np.arange(0, 16) % num_labels]
+    # number of elements in train dataset
+    train_size = x_train.shape[0]
+    print(model_name,
+          "Labels for generated images: ",
+          np.argmax(noise_label, axis=1)) 
+```
+
+```py
+ for i in range(train_steps):
+        # train the discriminator for 1 batch
+        # 1 batch of real (label=1.0) and fake images (label=0.0)
+        # randomly pick real images and 
+        # corresponding labels from dataset 
+        rand_indexes = np.random.randint(0,
+                                         train_size,
+                                         size=batch_size)
+        real_images = x_train[rand_indexes]
+        real_labels = y_train[rand_indexes]
+        # generate fake images from noise using generator
+        # generate noise using uniform distribution
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        # randomly pick one-hot labels
+        fake_labels = np.eye(num_labels)[np.random.choice(num_labels,
+                                                          batch_size)]
+        # generate fake images
+        fake_images = generator.predict([noise, fake_labels])
+        # real + fake images = 1 batch of train data
+        x = np.concatenate((real_images, fake_images))
+        # real + fake labels = 1 batch of train data labels
+        labels = np.concatenate((real_labels, fake_labels)) 
+```
+
+```py
+ # label real and fake images
+        # real images label is 1.0
+        y = np.ones([2 * batch_size, 1])
+        # fake images label is 0.0
+        y[batch_size:, :] = 0
+        # train discriminator network, log the loss and accuracy
+        # ['loss', 'activation_1_loss', 
+        # 'label_loss', 'activation_1_acc', 'label_acc']
+        metrics  = discriminator.train_on_batch(x, [y, labels])
+        fmt = "%d: [disc loss: %f, srcloss: %f,"
+        fmt += "lblloss: %f, srcacc: %f, lblacc: %f]"
+        log = fmt % (i, metrics[0], metrics[1], \
+                metrics[2], metrics[3], metrics[4]) 
+```
+
+```py
+ # train the adversarial network for 1 batch
+        # 1 batch of fake images with label=1.0 and
+        # corresponding one-hot label or class 
+        # since the discriminator weights are frozen 
+        # in adversarial network only the generator is trained
+        # generate noise using uniform distribution
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        # randomly pick one-hot labels
+        fake_labels = np.eye(num_labels)[np.random.choice(num_labels,
+                                                          batch_size)]
+        # label fake images as real
+        y = np.ones([batch_size, 1])
+        # train the adversarial network 
+        # note that unlike in discriminator training, 
+        # we do not save the fake images in a variable
+        # the fake images go to the discriminator input 
+        # of the adversarial for classification
+        # log the loss and accuracy
+        metrics  = adversarial.train_on_batch([noise, fake_labels],
+                                              [y, fake_labels])
+        fmt = "%s [advr loss: %f, srcloss: %f,"
+        fmt += "lblloss: %f, srcacc: %f, lblacc: %f]"
+        log = fmt % (log, metrics[0], metrics[1],\
+                metrics[2], metrics[3], metrics[4])
+        print(log)
+        if (i + 1) % save_interval == 0:
+            # plot generator images on a periodic basis
+            gan.plot_images(generator,
+                        noise_input=noise_input,
+                        noise_label=noise_label,
+                        show=False,
+                        step=(i + 1),
+                        model_name=model_name) 
+```
+
+```py
+ # save the model after training the generator
+    # the trained generator can be reloaded 
+    # for future MNIST digit generation
+    generator.save(model_name + ".h5") 
+```
+
+可以看出，与其他任务相比，与我们之前讨论的所有 GAN 相比，ACGAN 的表现显着提高。 ACGAN 训练是稳定的，如“图 5.3.3”的 ACGAN 示例输出的以下标签所示：
+
+```py
+[0    1    2    3
+ 4    5    6    7
+ 8    9    0    1
+ 2    3    4    5] 
+```
+
+与 CGAN 不同，样本输出的外观在训练过程中变化不大。 MNIST 数字图像的感知质量也更好。
+
+![](img/B14853_05_10.png)
+
+图 5.3.3：ACGAN 根据标签的训练步骤生成的示例输出`[0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5]`
+
+使用训练有素的生成器模型，通过运行以下命令来生成新的合成 MNIST 数字图像：
+
+```py
+python3 acgan-mnist-5.3.1.py --generator=acgan_mnist.h5 
+```
+
+或者，也可以请求生成要生成的特定数字（例如 3）：
+
+```py
+python3 acgan-mnist-5.3.1.py --generator=acgan_mnist.h5 --digit=3 
+```
+
+“图 5.3.4”显示了 CGAN 和 ACGAN 产生的每个 MNIST 数字的并排比较。 ACGAN 中的数字 2-6 比 CGAN 中的数字质量更好：
+
+![](img/B14853_05_11.png)
+
+图 5.3.4：以数字 0 到 9 为条件的 CGAN 和 ACGAN 输出的并排比较
+
+与 WGAN 和 LSGAN 相似，ACGAN 通过微调的损失函数，对现有 GAN CGAN 进行了改进。 在接下来的章节中，我们将发现新的损失函数，这些函数将使 GAN 能够执行新的有用任务。
+
+# 4\. 总结
+
+在本章中，我们介绍了对原始 GAN 算法的各种改进，这些改进在上一章中首次介绍。 WGAN 提出了一种通过使用 EMD 或 Wasserstein 1 损失来提高训练稳定性的算法。 LSGAN 认为，与最小二乘损失不同，GANs 的原始交叉熵函数倾向于消失梯度。 LSGAN 提出了一种实现稳定训练和高质量输出的算法。 ACGAN 通过要求判别器在确定输入图像是假的还是真实的基础上执行分类任务，来令人信服地提高了 MNIST 数字有条件生成的质量。
+
+在下一章中，我们将研究如何控制生成器输出的属性。 尽管 CGAN 和 ACGAN 可以指示要生成的期望数字，但我们尚未分析可以指定输出属性的 GAN。 例如，我们可能想要控制 MNIST 数字的书写风格，例如圆度，倾斜角度和厚度。 因此，目标是引入具有纠缠表示的 GAN，以控制生成器输出的特定属性。
+
+# 5\. 参考
+
+1.  `Ian Goodfellow et al.: Generative Adversarial Nets. Advances in neural information processing systems, 2014 (http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf).`
+1.  `Martin Arjovsky, Soumith Chintala, and Léon Bottou: Wasserstein GAN. arXiv preprint, 2017 (https://arxiv.org/pdf/1701.07875.pdf).`
+1.  `Xudong Mao et al.: Least Squares Generative Adversarial Networks. 2017 IEEE International Conference on Computer Vision (ICCV). IEEE 2017 (http://openaccess.thecvf.com/content_ICCV_2017/papers/Mao_Least_Squares_Generative_ICCV_2017_paper.pdf).`
+1.  `Augustus Odena, Christopher Olah, and Jonathon Shlens. Conditional Image Synthesis with Auxiliary Classifier GANs. ICML, 2017 (http://proceedings.mlr.press/v70/odena17a/odena17a.pdf).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/06.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/06.md
new file mode 100644
index 00000000..925fb4fa
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/06.md
@@ -0,0 +1,1374 @@
+# 六、纠缠表示 GAN
+
+正如我们已经探索的那样，GAN 可以通过学习数据分布来产生有意义的输出。 但是，无法控制所生成输出的属性。 GAN 的一些变体，例如**条件 GAN**（**CGAN**）和**辅助分类器 GAN**（**ACGAN**），如前两章所讨论的，都可以训练生成器，该生成器可以合成特定的输出。 例如，CGAN 和 ACGAN 都可以诱导生成器生成特定的 MNIST 数字。 这可以通过同时使用 100 维噪声代码和相应的一号热标签作为输入来实现。 但是，除了单热标签外，我们没有其他方法可以控制生成的输出的属性。
+
+有关 CGAN 和 ACGAN 的评论，请参阅“第 4 章”，“生成对抗网络（GANs）”和“第 5 章”，“改进的 GANs”。
+
+在本章中，我们将介绍使我们能够修改生成器输出的 GAN 的变体。 在 MNIST 数据集的上下文中，除了要生成的数字外，我们可能会发现我们想要控制书写样式。 这可能涉及所需数字的倾斜度或宽度。 换句话说，GAN 也可以学习纠缠的潜在代码或表示形式，我们可以使用它们来改变生成器输出的属性。 解开的代码或表示形式是张量，可以在不影响其他属性的情况下更改输出数据的特定特征或属性。
+
+在本章的第一部分中，我们将讨论《InfoGAN：通过最大化生成对抗网络的信息进行可解释的表示学习》[1]，这是 GAN 的扩展。 InfoGAN 通过最大化输入代码和输出观察值之间的互信息来以无监督的方式学习解缠结的表示形式。 在 MNIST 数据集上，InfoGAN 从数字数据集中解开了写作风格。
+
+在本章的以下部分中，我们还将讨论《栈式生成对抗网络或 StackedGAN》[2]，这是 GAN 的另一种扩展。
+
+StackedGAN 使用预训练的编码器或分类器，以帮助解开潜在代码。 StackedGAN 可以看作是一堆模型，每个模型都由编码器和 GAN 组成。 通过使用相应编码器的输入和输出数据，以对抗性方式训练每个 GAN。
+
+总之，本章的目的是介绍：
+
+*   纠缠表示的概念
+*   InfoGAN 和 StackedGAN 的原理
+*   使用`tf.keras`实现 InfoGAN 和 StackedGAN
+
+让我们从讨论纠缠的表示开始。
+
+# 1\. 纠缠表示
+
+最初的 GAN 能够产生有意义的输出，但是缺点是它的属性无法控制。 例如，如果我们训练 GAN 来学习名人面孔的分布，则生成器将产生名人形象的新图像。 但是，没有任何方法可以影响生成器有关所需脸部的特定属性。 例如，我们无法向生成器询问女性名人的脸，该女性名人是黑发，白皙的肤色，棕色的眼睛，微笑着。 这样做的根本原因是因为我们使用的 100 维噪声代码纠缠了生成器输出的所有显着属性。 我们可以回想一下，在`tf.keras`中，`100-dim`代码是由均匀噪声分布的随机采样生成的：
+
+```py
+ # generate fake images from noise using generator 
+        # generate noise using uniform distribution
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        # generate fake images
+        fake_images = generator.predict(noise) 
+```
+
+如果我们能够修改原始 GAN，以便将表示形式分为纠缠的和解缠的可解释的潜在代码向量，则我们将能够告诉生成器合成什么。
+
+“图 6.1.1”向我们展示了一个带纠缠代码的 GAN，以及它的纠缠和解缠表示的混合形式。 在假设的名人脸生成的情况下，使用解开的代码，我们可以指出我们希望生成的脸的性别，发型，面部表情，肤色和肤色。 仍然需要`n–dim`纠缠代码来表示我们尚未纠缠的所有其他面部属性，例如面部形状，面部毛发，眼镜等，仅是三个示例。 纠缠和解纠缠的代码向量的连接用作生成器的新输入。 级联代码的总维不一定是 100：
+
+![](img/B14853_06_01.png)
+
+图 6.1.1：带有纠缠码的 GAN 及其随纠缠码和解缠码的变化。 此示例在名人脸生成的背景下显示
+
+查看上图中的，似乎可以以与原始 GAN 相同的方式优化具有解缠表示的 GAN。 这是因为生成器的输出可以表示为：
+
+![](img/B14853_06_001.png) (Equation 6.1.1)
+
+代码`z = (z, c)`包含两个元素：
+
+*   类似于 GANs`z`或噪声向量的不可压缩纠缠噪声代码。
+*   潜在代码`c[1]`，`c[2]`，…，`c[L]`， 代表数据分配的可解译的纠缠码。 所有潜在代码共同表示为`c`。
+
+为简单起见，假定所有潜在代码都是独立的：
+
+![](img/B14853_06_002.png) (Equation 6.1.2)
+
+生成器函数`x = g(z, c) = g(z)`带有不可压缩的噪声代码和潜在代码。 从生成器的角度来看，优化`z = (z, c)`与优化`z`相同。
+
+当提出解决方案时，生成器网络将仅忽略解纠结代码所施加的约束。
+
+生成器学习分布`p_g(x | c) = p_g(x)`。 这实际上将打乱分散表示的目的。
+
+InfoGAN 的关键思想是强制 GAN 不要忽略潜在代码`c`。 这是通过最大化`c`和`g(z, c)`之间的相互信息来完成的。 在下一节中，我们将公式化 InfoGAN 的损失函数。
+
+# InfoGAN
+
+为了加强对代码的纠缠，InfoGAN 提出了一种针对原始损失函数的正则化函数，该函数可最大化潜在代码`c`和`g(z, c)`之间的互信息：
+
+![](img/B14853_06_007.png) (Equation 6.1.3)
+
+正则化器在生成用于合成伪图像的函数时，会强制生成器考虑潜在代码。 在信息论领域，潜码`c`和`g(z, c)`之间的互信息定义为：
+
+![](img/B14853_06_009.png) (Equation 6.1.4)
+
+其中`H(c)`是潜码`c`的熵，`H(c | g(z | c))`是观察生成器的输出后`c`的条件熵， `g(z, c)`。 熵是对随机变量或事件的不确定性的度量。 例如，**在东方升起**之类的信息具有较低的熵，而**在彩票中赢得大奖**具有较高的熵。 可以在“第 13 章”，“使用互信息的无监督学习”中找到有关互信息的更详细讨论。
+
+在“公式 6.1.4”中，最大化互信息意味着在观察生成的输出时，将`H(c | g(z | c))`最小化或减小潜码中的不确定性。 这是有道理的，因为例如在 MNIST 数据集中，如果 GAN 看到生成器 8 看到了数字 8，则生成器对合成数字 8 变得更有信心。
+
+但是，`H(c | g(z | c))`很难估计，因为它需要后验`P(c | g(z | c)) = P(c | x)`的知识，这是我们无法获得的。 为简单起见，我们将使用常规字母`x`表示数据分布。
+
+解决方法是通过使用辅助分布`Q(c | x)`估计后验来估计互信息的下界。 InfoGAN 估计相互信息的下限为：
+
+![](img/B14853_06_016.png) (Equation 6.1.5)
+
+在 InfoGAN 中，`H(c)`被假定为常数。 因此，使相互信息最大化是使期望最大化的问题。 生成器必须确信已生成具有特定属性的输出。 我们应注意，此期望的最大值为零。 因此，相互信息的下限的最大值为`H(c)`。 在 InfoGAN 中，离散隐码的`Q(c | x)`可以由`softmax`非线性表示。 期望是`tf.keras`中的负`categorical_crossentropy`损失。
+
+对于一维连续代码，期望是`c`和`x`的双整数。 这是由于期望从纠缠的代码分布和生成器分布中采样。 估计期望值的一种方法是通过假设样本是连续数据的良好度量。 因此，损失估计为`c log Q(c | x)`。 在“第 13 章”，“使用互信息的无监督学习”中，我们将提供对互信息的更精确估计。
+
+为了完成 InfoGAN 的网络，我们应该有`Q(c | x)`的实现。 为了简单起见，网络 Q 是一个附加到判别器第二到最后一层的辅助网络。 因此，这对原始 GAN 的训练影响很小。
+
+“图 6.1.2”显示了 InfoGAN 网络图：
+
+![](img/B14853_06_02.png)
+
+图 6.1.2 网络图显示 InfoGAN 中的判别器和生成器训练
+
+“表 6.1.1”显示了与 GAN 相比 InfoGAN 的损失函数：
+
+| **网络** | **损失函数** | **编号** |
+| --- | --- | --- |
+| GAN | ![](img/B14853_06_019.png) | 4.1.1 |
+| | ![](img/B14853_06_020.png) | 4.1.5 |
+| InfoGAN | ![](img/B14853_06_021.png) | 6.1.1 |
+| | ![](img/B14853_06_022.png) | 6.1.2 |
+| | 对于连续代码，InfoGAN 建议使用`λ < 1`的值。 在我们的示例中，我们设置`λ = 0.5`。 对于离散代码，InfoGAN 建议使用`λ = 1`。 | |
+
+表 6.1.1：GAN 和 InfoGAN 的损失函数之间的比较
+
+InfoGAN 的损失函数与 GAN 的区别是附加项`-λI(c; g(z, c))`，其中`λ`是一个小的正常数。 最小化 InfoGAN 的损失函数可以将原始 GAN 的损失最小化，并将互信息最大化`I(c; g(z, c))`。
+
+如果将其应用于 MNIST 数据集，InfoGAN 可以学习解开的离散码和连续码，以修改生成器输出属性。 例如，像 CGAN 和 ACGAN 一样，将使用`10-dim`一键标签形式的离散代码来指定要生成的数字。 但是，我们可以添加两个连续的代码，一个用于控制书写样式的角度，另一个用于调整笔划宽度。“图 6.1.3”显示了 InfoGAN 中 MNIST 数字的代码。 我们保留较小尺寸的纠缠代码以表示所有其他属性：
+
+![](img/B14853_06_03.png)
+
+图 6.1.3：MNIST 数据集中 GAN 和 InfoGAN 的代码
+
+在讨论了 InfoGAN 背后的一些概念之后，让我们看一下`tf.keras`中的 InfoGAN 实现。
+
+## 在 Keras 中实现 InfoGAN
+
+为了在 MNIST 数据集上实现 InfoGAN，需要对 ACGAN 的基本代码进行一些更改。 如“列表 6.1.1”中突出显示的那样，生成器将纠缠的（`z`噪声代码）和解纠结的代码（单标签和连续代码）连接起来作为输入：
+
+```py
+inputs = [inputs, labels] + codes 
+```
+
+`generator`和`discriminator`的构建器函数也在`lib`文件夹的`gan.py`中实现。
+
+[完整的代码可在 GitHub 上获得](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+“列表 6.1.1”：`infogan-mnist-6.1.1.py`
+
+突出显示了特定于 InfoGAN 的行：
+
+```py
+def generator(inputs,
+              image_size,
+              activation='sigmoid',
+              labels=None,
+              codes=None):
+    """Build a Generator Model 
+```
+
+```py
+ Stack of BN-ReLU-Conv2DTranpose to generate fake images.
+    Output activation is sigmoid instead of tanh in [1].
+    Sigmoid converges easily. 
+```
+
+```py
+ Arguments:
+        inputs (Layer): Input layer of the generator (the z-vector)
+        image_size (int): Target size of one side 
+            (assuming square image)
+        activation (string): Name of output activation layer
+        labels (tensor): Input labels
+        codes (list): 2-dim disentangled codes for InfoGAN 
+```
+
+```py
+ Returns:
+        Model: Generator Model
+    """
+    image_resize = image_size // 4
+    # network parameters
+    kernel_size = 5
+    layer_filters = [128, 64, 32, 1] 
+```
+
+```py
+ if labels is not None:
+        if codes is None:
+            # ACGAN labels
+            # concatenate z noise vector and one-hot labels
+            inputs = [inputs, labels]
+        else:
+            # infoGAN codes
+            # concatenate z noise vector, 
+            # one-hot labels and codes 1 & 2
+            inputs = [inputs, labels] + codes
+        x = concatenate(inputs, axis=1)
+    elif codes is not None:
+        # generator 0 of StackedGAN
+        inputs = [inputs, codes]
+        x = concatenate(inputs, axis=1)
+    else:
+        # default input is just 100-dim noise (z-code)
+        x = inputs 
+```
+
+```py
+ x = Dense(image_resize * image_resize * layer_filters[0])(x)
+    x = Reshape((image_resize, image_resize, layer_filters[0]))(x) 
+```
+
+```py
+ for filters in layer_filters:
+        # first two convolution layers use strides = 2
+        # the last two use strides = 1
+        if filters > layer_filters[-2]:
+            strides = 2
+        else:
+            strides = 1
+        x = BatchNormalization()(x)
+        x = Activation('relu')(x)
+        x = Conv2DTranspose(filters=filters,
+                            kernel_size=kernel_size,
+                            strides=strides,
+                            padding='same')(x) 
+```
+
+```py
+ if activation is not None:
+        x = Activation(activation)(x) 
+```
+
+```py
+ # generator output is the synthesized image x
+    return Model(inputs, x, name='generator') 
+```
+
+“列表 6.1.2”显示了具有原始默认 GAN 输出的判别器和 Q 网络。 高亮显示了三个辅助输出，它们对应于离散代码（用于单热标签）`softmax`预测的和给定输入 MNIST 数字图像的连续代码概率。
+
+“列表 6.1.2”：`infogan-mnist-6.1.1.py`
+
+突出显示了特定于 InfoGAN 的行：
+
+```py
+def discriminator(inputs,
+                  activation='sigmoid',
+                  num_labels=None,
+                  num_codes=None):
+    """Build a Discriminator Model 
+```
+
+```py
+ Stack of LeakyReLU-Conv2D to discriminate real from fake
+    The network does not converge with BN so it is not used here
+    unlike in [1] 
+```
+
+```py
+ Arguments:
+        inputs (Layer): Input layer of the discriminator (the image)
+        activation (string): Name of output activation layer
+        num_labels (int): Dimension of one-hot labels for ACGAN & InfoGAN
+        num_codes (int): num_codes-dim Q network as output 
+                    if StackedGAN or 2 Q networks if InfoGAN 
+```
+
+```py
+ Returns:
+        Model: Discriminator Model
+    """
+    kernel_size = 5
+    layer_filters = [32, 64, 128, 256] 
+```
+
+```py
+ x = inputs
+    for filters in layer_filters:
+        # first 3 convolution layers use strides = 2
+        # last one uses strides = 1
+        if filters == layer_filters[-1]:
+            strides = 1
+        else:
+            strides = 2
+        x = LeakyReLU(alpha=0.2)(x)
+        x = Conv2D(filters=filters,
+                   kernel_size=kernel_size,
+                   strides=strides,
+                   padding='same')(x) 
+```
+
+```py
+ x = Flatten()(x)
+    # default output is probability that the image is real
+    outputs = Dense(1)(x)
+    if activation is not None:
+        print(activation)
+        outputs = Activation(activation)(outputs) 
+```
+
+```py
+ if num_labels:
+        # ACGAN and InfoGAN have 2nd output
+        # 2nd output is 10-dim one-hot vector of label
+        layer = Dense(layer_filters[-2])(x)
+        labels = Dense(num_labels)(layer)
+        labels = Activation('softmax', name='label')(labels)
+        if num_codes is None:
+            outputs = [outputs, labels]
+        else:
+            # InfoGAN have 3rd and 4th outputs
+            # 3rd output is 1-dim continous Q of 1st c given x
+            code1 = Dense(1)(layer)
+            code1 = Activation('sigmoid', name='code1')(code1)
+            # 4th output is 1-dim continuous Q of 2nd c given x
+            code2 = Dense(1)(layer)
+            code2 = Activation('sigmoid', name='code2')(code2) 
+```
+
+```py
+ outputs = [outputs, labels, code1, code2]
+    elif num_codes is not None:
+        # StackedGAN Q0 output
+        # z0_recon is reconstruction of z0 normal distribution
+        z0_recon =  Dense(num_codes)(x)
+        z0_recon = Activation('tanh', name='z0')(z0_recon)
+        outputs = [outputs, z0_recon] 
+```
+
+```py
+ return Model(inputs, outputs, name='discriminator') 
+```
+
+“图 6.1.4”显示了`tf.keras`中的 InfoGAN 模型：
+
+![](img/B14853_06_04.png)
+
+图 6.1.4：InfoGAN Keras 模型
+
+建立判别器和对抗模型还需要进行许多更改。 更改取决于所使用的损失函数。 原始的判别器损失函数`binary_crossentropy`，用于离散码的`categorical_crossentropy`和每个连续码的`mi_loss`函数构成了整体损失函数。 除`mi_loss`函数的权重为 0.5（对应于连续代码的`λ = 0.5`）外，每个损失函数的权重均为 1.0。
+
+“列表 6.1.3”突出显示了所做的更改。 但是，我们应该注意，通过使用构造器函数，判别器被实例化为：
+
+```py
+ # call discriminator builder with 4 outputs:
+    # source, label, and 2 codes
+    discriminator = gan.discriminator(inputs,
+                                      num_labels=num_labels,
+                                      num_codes=2) 
+```
+
+生成器通过以下方式创建：
+
+```py
+ # call generator with inputs, 
+    # labels and codes as total inputs to generator
+    generator = gan.generator(inputs,
+                              image_size,
+                              labels=labels,
+                              codes=[code1, code2]) 
+```
+
+“列表 6.1.3”：`infogan-mnist-6.1.1.py`
+
+以下代码演示了互信息损失函数以及建立和训练 InfoGAN 判别器和对抗网络的过程：
+
+```py
+def mi_loss(c, q_of_c_given_x):
+    """ Mutual information, Equation 5 in [2],
+        assuming H(c) is constant
+    """
+    # mi_loss = -c * log(Q(c|x))
+    return K.mean(-K.sum(K.log(q_of_c_given_x + K.epsilon()) * c,
+                               axis=1)) 
+```
+
+```py
+def build_and_train_models(latent_size=100):
+    """Load the dataset, build InfoGAN discriminator,
+    generator, and adversarial models.
+    Call the InfoGAN train routine.
+    """ 
+```
+
+```py
+ # load MNIST dataset
+    (x_train, y_train), (_, _) = mnist.load_data() 
+```
+
+```py
+ # reshape data for CNN as (28, 28, 1) and normalize
+    image_size = x_train.shape[1]
+    x_train = np.reshape(x_train, [-1, image_size, image_size, 1])
+    x_train = x_train.astype('float32') / 255 
+```
+
+```py
+ # train labels
+    num_labels = len(np.unique(y_train))
+    y_train = to_categorical(y_train) 
+```
+
+```py
+ model_name = "infogan_mnist"
+    # network parameters
+    batch_size = 64
+    train_steps = 40000
+    lr = 2e-4
+    decay = 6e-8
+    input_shape = (image_size, image_size, 1)
+    label_shape = (num_labels, )
+    code_shape = (1, ) 
+```
+
+```py
+ # build discriminator model
+    inputs = Input(shape=input_shape, name='discriminator_input')
+    # call discriminator builder with 4 outputs: 
+    # source, label, and 2 codes
+    discriminator = gan.discriminator(inputs,
+                                      num_labels=num_labels,
+                                      num_codes=2)
+    # [1] uses Adam, but discriminator converges easily with RMSprop
+    optimizer = RMSprop(lr=lr, decay=decay)
+    # loss functions: 1) probability image is real
+    # (binary crossentropy)
+    # 2) categorical cross entropy image label,
+    # 3) and 4) mutual information loss
+    loss = ['binary_crossentropy',
+            'categorical_crossentropy',
+            mi_loss,
+            mi_loss]
+    # lamda or mi_loss weight is 0.5
+    loss_weights = [1.0, 1.0, 0.5, 0.5]
+    discriminator.compile(loss=loss,
+                          loss_weights=loss_weights,
+                          optimizer=optimizer,
+                          metrics=['accuracy'])
+    discriminator.summary() 
+```
+
+```py
+ # build generator model
+    input_shape = (latent_size, )
+    inputs = Input(shape=input_shape, name='z_input')
+    labels = Input(shape=label_shape, name='labels')
+    code1 = Input(shape=code_shape, name="code1")
+    code2 = Input(shape=code_shape, name="code2")
+    # call generator with inputs, 
+    # labels and codes as total inputs to generator
+    generator = gan.generator(inputs,
+                              image_size,
+                              labels=labels,
+                              codes=[code1, code2])
+    generator.summary() 
+```
+
+```py
+ # build adversarial model = generator + discriminator
+    optimizer = RMSprop(lr=lr*0.5, decay=decay*0.5)
+    discriminator.trainable = False
+    # total inputs = noise code, labels, and codes
+    inputs = [inputs, labels, code1, code2]
+    adversarial = Model(inputs,
+                        discriminator(generator(inputs)),
+                        name=model_name)
+    # same loss as discriminator
+    adversarial.compile(loss=loss,
+                        loss_weights=loss_weights,
+                        optimizer=optimizer,
+                        metrics=['accuracy'])
+    adversarial.summary() 
+```
+
+```py
+ # train discriminator and adversarial networks
+    models = (generator, discriminator, adversarial)
+    data = (x_train, y_train)
+    params = (batch_size,
+              latent_size,
+              train_steps,
+              num_labels,
+              model_name)
+    train(models, data, params) 
+```
+
+就训练而言，我们可以看到 InfoGAN 与 ACGAN 类似，除了我们需要为连续代码提供`c`。`c`是从正态分布中提取的，标准差为 0.5，平均值为 0.0。 我们将对伪数据使用随机采样的标签，对实际数据使用数据集的类标签来表示离散的潜在代码。
+
+“列表 6.1.4”突出显示了对训练函数所做的更改。 与以前的所有 GAN 相似，判别器和生成器（通过对抗性训练）被交替训练。 在对抗训练期间，判别器的权重被冻结。
+
+通过使用`gan.py plot_images()`函数，样本生成器输出图像每 500 个间隔步被保存一次。
+
+“列表 6.1.4”：`infogan-mnist-6.1.1.py`
+
+```py
+def train(models, data, params):
+    """Train the Discriminator and Adversarial networks 
+```
+
+```py
+ Alternately train discriminator and adversarial networks by batch.
+    Discriminator is trained first with real and fake images,
+    corresponding one-hot labels and continuous codes.
+    Adversarial is trained next with fake images pretending 
+    to be real, corresponding one-hot labels and continous codes.
+    Generate sample images per save_interval. 
+```
+
+```py
+ # Arguments
+        models (Models): Generator, Discriminator, Adversarial models
+        data (tuple): x_train, y_train data
+        params (tuple): Network parameters
+    """
+    # the GAN models
+    generator, discriminator, adversarial = models
+    # images and their one-hot labels
+    x_train, y_train = data
+    # network parameters
+    batch_size, latent_size, train_steps, num_labels, model_name = \
+            params
+    # the generator image is saved every 500 steps
+    save_interval = 500
+    # noise vector to see how the generator output 
+    # evolves during training
+    noise_input = np.random.uniform(-1.0,
+                                    1.0,
+                                    size=[16, latent_size])
+    # random class labels and codes
+    noise_label = np.eye(num_labels)[np.arange(0, 16) % num_labels]
+    noise_code1 = np.random.normal(scale=0.5, size=[16, 1])
+    noise_code2 = np.random.normal(scale=0.5, size=[16, 1])
+    # number of elements in train dataset
+    train_size = x_train.shape[0]
+    print(model_name,
+          "Labels for generated images: ",
+          np.argmax(noise_label, axis=1)) 
+```
+
+```py
+ for i in range(train_steps):
+        # train the discriminator for 1 batch
+        # 1 batch of real (label=1.0) and fake images (label=0.0)
+        # randomly pick real images and 
+        # corresponding labels from dataset 
+        rand_indexes = np.random.randint(0,
+                                         train_size,
+                                         size=batch_size)
+        real_images = x_train[rand_indexes]
+        real_labels = y_train[rand_indexes]
+        # random codes for real images
+        real_code1 = np.random.normal(scale=0.5,
+                                      size=[batch_size, 1])
+        real_code2 = np.random.normal(scale=0.5,
+                                      size=[batch_size, 1])
+        # generate fake images, labels and codes
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        fake_labels = np.eye(num_labels)[np.random.choice(num_labels,
+                                                          batch_size)]
+        fake_code1 = np.random.normal(scale=0.5,
+                                      size=[batch_size, 1])
+        fake_code2 = np.random.normal(scale=0.5,
+                                      size=[batch_size, 1])
+        inputs = [noise, fake_labels, fake_code1, fake_code2]
+        fake_images = generator.predict(inputs)
+        # real + fake images = 1 batch of train data
+        x = np.concatenate((real_images, fake_images))
+        labels = np.concatenate((real_labels, fake_labels))
+        codes1 = np.concatenate((real_code1, fake_code1))
+        codes2 = np.concatenate((real_code2, fake_code2))
+        # label real and fake images
+        # real images label is 1.0
+        y = np.ones([2 * batch_size, 1])
+        # fake images label is 0.0
+        y[batch_size:, :] = 0
+        # train discriminator network, 
+        # log the loss and label accuracy
+        outputs = [y, labels, codes1, codes2]
+        # metrics = ['loss', 'activation_1_loss', 'label_loss',
+        # 'code1_loss', 'code2_loss', 'activation_1_acc',
+        # 'label_acc', 'code1_acc', 'code2_acc']
+        # from discriminator.metrics_names
+        metrics = discriminator.train_on_batch(x, outputs)
+        fmt = "%d: [discriminator loss: %f, label_acc: %f]"
+        log = fmt % (i, metrics[0], metrics[6])
+        # train the adversarial network for 1 batch
+        # 1 batch of fake images with label=1.0 and
+        # corresponding one-hot label or class + random codes
+        # since the discriminator weights are frozen 
+        # in adversarial network only the generator is trained
+        # generate fake images, labels and codes
+        noise = np.random.uniform(-1.0,
+                                  1.0,
+                                  size=[batch_size, latent_size])
+        fake_labels = np.eye(num_labels)[np.random.choice(num_labels,
+                                                          batch_size)]
+        fake_code1 = np.random.normal(scale=0.5,
+                                      size=[batch_size, 1])
+        fake_code2 = np.random.normal(scale=0.5,
+                                      size=[batch_size, 1])
+        # label fake images as real
+        y = np.ones([batch_size, 1])
+        # train the adversarial network 
+        # note that unlike in discriminator training,
+        # we do not save the fake images in a variable
+        # the fake images go to the discriminator
+        # input of the adversarial for classification
+        # log the loss and label accuracy
+        inputs = [noise, fake_labels, fake_code1, fake_code2]
+        outputs = [y, fake_labels, fake_code1, fake_code2]
+        metrics  = adversarial.train_on_batch(inputs, outputs)
+        fmt = "%s [adversarial loss: %f, label_acc: %f]"
+        log = fmt % (log, metrics[0], metrics[6])
+        print(log)
+        if (i + 1) % save_interval == 0:
+            # plot generator images on a periodic basis
+            gan.plot_images(generator,
+                            noise_input=noise_input,
+                            noise_label=noise_label,
+                            noise_codes=[noise_code1, noise_code2],
+                            show=False,
+                            step=(i + 1),
+                            model_name=model_name)
+    # save the model after training the generator
+    # the trained generator can be reloaded for
+    # future MNIST digit generation
+    generator.save(model_name + ".h5") 
+```
+
+给定 InfoGAN 的`tf.keras`实现，下一个部分介绍具有解缠结属性的生成器 MNIST 输出。
+
+## InfoGAN 的生成器输出
+
+与以前提供给我们的所有 GAN 相似，我们已经对 InfoGAN 进行了 40,000 步的训练。 训练完成后，我们可以运行 InfoGAN 生成器，以使用`infogan_mnist.h5`文件中保存的模型生成新输出。 进行以下验证：
+
+1.  通过将离散标签从 0 更改为 9，可生成数字 0 至 9。 两个连续代码都设置为零。 结果显示在“图 6.1.5”中。 我们可以看到，InfoGAN 离散代码可以控制生成器产生的数字：
+
+    ```py
+    python3 infogan-mnist-6.1.1.py --generator=infogan_mnist.h5
+    --digit=0 --code1=0 --code2=0 
+    ```
+
+    至
+
+    ```py
+    python3 infogan-mnist-6.1.1.py --generator=infogan_mnist.h5
+    --digit=9 --code1=0 --code2=0 
+    ```
+
+    在“图 6.1.5”中，我们可以看到 InfoGAN 生成的图像：
+
+    ![](img/B14853_06_05.png)
+
+    图 6.1.5：当离散代码从 0 变为 9 时，InfoGAN 生成的图像都被设置为零。
+
+2.  检查第一个连续代码的效果，以了解哪个属性已受到影响。 我们将 0 到 9 的第一个连续代码从 -2.0 更改为 2.0。 第二个连续代码设置为 0.0。 “图 6.1.6”显示了第一个连续代码控制数字的粗细：
+
+    ```py
+    python3 infogan-mnist-6.1.1.py --generator=infogan_mnist.h5
+    --digit=0 --code1=0 --code2=0 --p1 
+    ```
+
+    ![](img/B14853_06_06.png)
+
+    图 6.1.6：InfoGAN 作为第一个连续代码将 0 到 9 的数字从-2.0 更改为 2.0。第二个连续代码设置为零。 第一个连续代码控制数字的粗细
+
+3.  与上一步的类似，但更多地关注第二个连续代码。“图 6.1.7”显示第二个连续代码控制书写样式的旋转角度（倾斜）：
+
+    ```py
+    python3 infogan-mnist-6.1.1.py --generator=infogan_mnist.h5
+    --digit=0 --code1=0 --code2=0 --p2 
+    ```
+
+![](img/B14853_06_07.png)
+
+图 6.1.7：InfoGAN 生成的图像作为第二个连续代码从 0 到 9 的数字从 -2.0 变为 2.0。第一个连续代码设置为零。 第二个连续代码控制书写样式的旋转角度（倾斜）
+
+从这些验证结果中，我们可以看到，除了生成 MNIST 外观数字的能力之外，InfoGAN 还扩展了条件 GAN（如 CGAN 和 ACGAN）的功能。 网络自动学习了两个可以控制生成器输出的特定属性的任意代码。 有趣的是，如果我们将连续代码的数量增加到 2 以上，可以控制哪些附加属性，可以通过将“列表 6.1.1”的突出显示行中的代码扩展到列表 6.1.4 来实现。
+
+本节中的结果表明，可以通过最大化代码和数据分布之间的互信息来纠缠生成器输出的属性。 在以下部分中，介绍了一种不同的解缠结方法。 StackedGAN 的想法是在特征级别注入代码。
+
+# 2\. StackedGAN
+
+与 InfoGAN 一样，StackedGAN 提出了一种用于分解潜在表示的方法，以调节生成器输出。 但是，StackedGAN 使用不同的方法来解决此问题。 与其学习如何调节噪声以产生所需的输出，不如将 StackedGAN 分解为 GAN 栈。 每个 GAN 均以通常的区分对手的方式进行独立训练，并带有自己的潜在代码。
+
+“图 6.2.1”向我们展示了 StackedGAN 在假设名人脸生成的背景下如何工作，假设已经训练了*编码器*网络对名人脸进行分类：
+
+![](img/B14853_06_08.png)
+
+图 6.2.1：在名人脸生成的背景下 StackedGAN 的基本思想。 假设有一个假设的深层编码器网络可以对名人脸进行分类，那么 StackedGAN 可以简单地反转编码器的过程
+
+*编码器*网络是由一堆简单的编码器组成的，`Encoder[i]`，其中`i = 0 … n-1`对应`n`个特征。 每个编码器都提取某些面部特征。 例如，`Encoder[0]`可能是发型特征的编码器，`Feature[1]`。 所有简单的编码器都有助于使整个*编码器*执行正确的预测。
+
+StackedGAN 背后的想法是，如果我们想构建一个可生成假名人面孔的 GAN，则只需将*编码器*反转即可。 StackedGAN 由一堆更简单的 GAN 组成，`GAN[i]`，其中`i = 0 … n-1`与`n`个特征相对应。 每个`GAN[i]`学会反转其相应编码器`Encoder[i]`的过程。 例如，`GAN[0]`从假发型特征生成假名人脸，这是`Encoder[0]`处理的逆过程。
+
+每个`GAN[i]`使用潜码`z[i]`，以调节其生成器输出。 例如，潜在代码`z[0]`可以将发型从卷曲更改为波浪形。 GAN 的栈也可以用作合成假名人面孔的对象，从而完成整个*编码器*的逆过程。 每个`GAN[i]`，`z[i]`的潜在代码都可以用来更改假名人面孔的特定属性。
+
+有了 StackedGAN 的工作原理的关键思想，让我们继续下一节，看看如何在`tf.keras`中实现它。
+
+## Keras 中 StackedGAN 的实现
+
+StackedGAN 的详细网络模型可以在“图 6.2.2”中看到。 为简洁起见，每个栈仅显示两个编码器 GAN。 该图最初可能看起来很复杂，但这只是一个编码器 GAN 的重复，这意味着如果我们了解如何训练一个编码器 GAN，其余的将使用相同的概念。
+
+在本节中，我们假设 StackedGAN 是为 MNIST 数字生成而设计的。
+
+![](img/B14853_06_09.png)
+
+图 6.2.2：StackedGAN 包含编码器和 GAN 的栈。 对编码器进行预训练以执行分类。 `Generator[1]`，`G[1]`学会合成特征`f[1f]`，假标签`y[f]`和潜在代码`z[1f]`。 `Generator[0]`，`G[0]`均使用这两个伪特征`f[1f]`生成伪图像和潜在代码`z[0f]`。
+
+StackedGAN 以*编码器*开头。 它可能是训练有素的分类器，可以预测正确的标签。 可以将中间特征向量`f[1r]`用于 GAN 训练。 对于 MNIST，我们可以使用基于 CNN 的分类器，类似于在“第 1 章”，“Keras 高级深度学习”中讨论的分类器。
+
+“图 6.2.3”显示了*编码器*及其在`tf.keras`中的网络模型实现：
+
+![](img/B14853_06_10.png)
+
+图 6.2.3：StackedGAN 中的编码器是一个基于 CNN 的简单分类器
+
+“列表 6.2.1”显示了上图的`tf.keras`代码。 它与“第 1 章”，“Keras 高级深度学习”中的基于 CNN 的分类器相似，不同之处在于，我们使用`Dense`层来提取`256-dim` 特征。 有两个输出模型，`Encoder[0]`和`Encoder[1]`。 两者都将用于训练 StackedGAN。
+
+“列表 6.2.1”：`stackedgan-mnist-6.2.1.py`
+
+```py
+def build_encoder(inputs, num_labels=10, feature1_dim=256):
+    """ Build the Classifier (Encoder) Model sub networks 
+```
+
+```py
+ Two sub networks: 
+    1) Encoder0: Image to feature1 (intermediate latent feature)
+    2) Encoder1: feature1 to labels 
+```
+
+```py
+ # Arguments
+        inputs (Layers): x - images, feature1 - 
+            feature1 layer output
+        num_labels (int): number of class labels
+        feature1_dim (int): feature1 dimensionality 
+```
+
+```py
+ # Returns
+        enc0, enc1 (Models): Description below 
+    """
+    kernel_size = 3
+    filters = 64 
+```
+
+```py
+ x, feature1 = inputs
+    # Encoder0 or enc0
+    y = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               padding='same',
+               activation='relu')(x)
+    y = MaxPooling2D()(y)
+    y = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               padding='same',
+               activation='relu')(y)
+    y = MaxPooling2D()(y)
+    y = Flatten()(y)
+    feature1_output = Dense(feature1_dim, activation='relu')(y) 
+```
+
+```py
+ # Encoder0 or enc0: image (x or feature0) to feature1 
+    enc0 = Model(inputs=x, outputs=feature1_output, name="encoder0") 
+```
+
+```py
+ # Encoder1 or enc1
+    y = Dense(num_labels)(feature1)
+    labels = Activation('softmax')(y)
+    # Encoder1 or enc1: feature1 to class labels (feature2)
+    enc1 = Model(inputs=feature1, outputs=labels, name="encoder1") 
+```
+
+```py
+ # return both enc0 and enc1
+    return enc0, enc1 
+```
+
+`Encoder[0]`输出`f[1r]`是我们想要的`256`维特征向量*生成器* 1 学习合成。 可以将用作`Encoder[0]`，`E[0]`的辅助输出。 训练整个*编码器*以对 MNIST 数字进行分类，即`x[r]`。 正确的标签`y[r]`由`Encoder[1]`，`E[1]`。 在此过程中，学习了的中间特征集`f[1r]`，可用于`Generator[0]`训练。 当针对该编码器训练 GAN 时，下标`r`用于强调和区分真实数据与伪数据。
+
+假设*编码器*输入（`x[r]`）中间特征（`f[1r]`）和标签（`y[r]`），每个 GAN 都采用通常的区分-对抗方式进行训练。 损失函数由“表 6.2.1”中的“公式 6.2.1”至“公式 6.2.5”给出。“公式 6.2.1”和“公式 6.2.2”是通用 GAN 的常见损失函数。 StackedGAN 具有两个附加损失函数，即**有条件**和**熵**。
+
+| **网络** | **损失函数** | **编号** |
+| --- | --- | --- |
+| GAN | ![](img/B14853_06_030.png) | 4.1.1 |
+| | ![](img/B14853_06_031.png) | 4.1.5 |
+| 栈式 | ![](img/B14853_06_032.png) | 6.2.1 |
+| | ![](img/B14853_06_033.png) | 6.2.2 |
+| | ![](img/B14853_06_034.png) | 6.2.3 |
+| | ![](img/B14853_06_035.png) | 6.2.4 |
+| | ![](img/B14853_06_036.png) | 6.2.5 |
+| | 其中`λ1, λ2, λ3`是权重，`i`是编码器和 GAN ID | |
+
+表 6.2.1：GAN 和 StackedGAN 的损失函数之间的比较。 `~p_data`表示从相应的编码器数据（输入，特征或输出）采样
+
+条件“公式 6.2.3”中的损失函数`L_i^(G_cond)`确保生成器不会忽略输入`f[i + 1]`， 当从输入噪声代码`z[i]`合成输出`f[i]`时。 编码器`Encoder[i]`必须能够通过反转生成器的过程`Generator[i]`来恢复生成器输入。 通过`L2`或欧几里德距离（**均方误差**（**MSE**））来测量生成器输入和使用编码器恢复的输入之间的差异。
+
+“图 6.2.4”显示了`L_0^(G_cond)`计算所涉及的网络元素：
+
+![](img/B14853_06_11.png)
+
+图 6.2.4：图 6.2.3 的简化版本，仅显示`L_0^(G_cond)`计算中涉及的网络元素
+
+但是，条件损失函数引入了一个新问题。 生成器忽略输入噪声代码`z[i]`，仅依赖`f[i + 1]`。 熵损失函数“公式 6.2.4”中的`L_0^(G_ent)`确保生成器不会忽略噪声代码`z[i]`。 *Q 网络*从生成器的输出中恢复噪声代码。 恢复的噪声和输入噪声之间的差异也通过`L2`或欧几里德距离（MSE）进行测量。
+
+“图 6.2.5”显示了`L_0^(G_ent)`计算中涉及的网络元素：
+
+![](img/B14853_06_12.png)
+
+图 6.2.5：图 6.2.3 的简单版本仅向我们显示了`L_0^(G_ent)`计算中涉及的网络元素
+
+最后的损失函数类似于通常的 GAN 损失。 它包括判别器损失`L_i^(D)`和生成器（通过对抗性）损失`L_i^(G_adv)`。“图 6.2.6”显示了 GAN 损失所涉及的元素。
+
+![](img/B14853_06_13.png)
+
+图 6.2.6：图 6.2.3 的简化版本，仅显示了`L_i^(D)`和`L_0^(G_adv)`计算中涉及的网络元素
+
+在“公式 6.2.5”中，三个生成器损失函数的加权和为最终生成器损失函数。 在我们将要介绍的 Keras 代码中，除的熵损失设置为 10.0 之外，所有权重都设置为 1.0。 在“公式 6.2.1”至“公式 6.2.5”中，`i`是指编码器和 GAN 组 ID 或级别。 在原始论文中，首先对网络进行独立训练，然后进行联合训练。 在独立训练期间，编码器将首先进行训练。 在联合训练期间，将使用真实数据和虚假数据。
+
+`tf.keras`中 StackedGAN 生成器和判别器的实现只需进行少量更改即可提供辅助点来访问中间特征。“图 6.2.7”显示了生成器`tf.keras`模型。
+
+![](img/B14853_06_14.png)
+
+图 6.2.7：Keras 中的 StackedGAN 生成器模型
+
+“列表 6.2.2”说明了构建与`Generator[0]`和`Generator[1]`相对应的两个生成器（`gen0`和`gen1`）的函数。 `gen1`生成器由三层`Dense`层组成，标签为和噪声代码`z[1f]`作为输入。 第三层生成伪造的`f[1f]`特征。 `gen0`生成器类似于我们介绍的其他 GAN 生成器，可以使用`gan.py`中的生成器生成器实例化：
+
+```py
+# gen0: feature1 + z0 to feature0 (image)
+gen0 = gan.generator(feature1, image_size, codes=z0) 
+```
+
+`gen0`输入为`f[1]`特征，并且噪声代码为`z[0]`。 输出是生成的伪图像`x[f]`：
+
+“列表 6.2.2”：`stackedgan-mnist-6.2.1.py`
+
+```py
+def build_generator(latent_codes, image_size, feature1_dim=256):
+    """Build Generator Model sub networks 
+```
+
+```py
+ Two sub networks: 1) Class and noise to feature1 
+        (intermediate feature)
+        2) feature1 to image 
+```
+
+```py
+ # Arguments
+        latent_codes (Layers): dicrete code (labels),
+            noise and feature1 features
+        image_size (int): Target size of one side
+            (assuming square image)
+        feature1_dim (int): feature1 dimensionality 
+```
+
+```py
+ # Returns
+        gen0, gen1 (Models): Description below
+    """ 
+```
+
+```py
+ # Latent codes and network parameters
+    labels, z0, z1, feature1 = latent_codes
+    # image_resize = image_size // 4
+    # kernel_size = 5
+    # layer_filters = [128, 64, 32, 1] 
+```
+
+```py
+ # gen1 inputs
+    inputs = [labels, z1]      # 10 + 50 = 62-dim
+    x = concatenate(inputs, axis=1)
+    x = Dense(512, activation='relu')(x)
+    x = BatchNormalization()(x)
+    x = Dense(512, activation='relu')(x)
+    x = BatchNormalization()(x)
+    fake_feature1 = Dense(feature1_dim, activation='relu')(x)
+    # gen1: classes and noise (feature2 + z1) to feature1
+    gen1 = Model(inputs, fake_feature1, name='gen1') 
+```
+
+```py
+ # gen0: feature1 + z0 to feature0 (image)
+    gen0 = gan.generator(feature1, image_size, codes=z0) 
+```
+
+```py
+ return gen0, gen1 
+```
+
+“图 6.2.8”显示了判别器`tf.keras`模型：
+
+![](img/B14853_06_15.png)
+
+图 6.2.8：Keras 中的 StackedGAN 判别器模型
+
+我们提供函数来构建`Discriminator[0]`和`Discriminator[1]`（`dis0`和`dis1`）。 `dis0`判别器类似于 GAN 判别器，除了特征向量输入和辅助网络`Q[0]`，其恢复`z[0]`。 `gan.py`中的构造器函数用于创建`dis0`：
+
+```py
+dis0 = gan.discriminator(inputs, num_codes=z_dim) 
+```
+
+`dis1`判别器由三层 MLP 组成，如清单 6.2.3 所示。 最后一层将区分为真假`f[1]`。`Q[1]`网络共享`dis1`的前两层。 其第三层回收`z[1]`。
+
+“列表 6.2.3”：`stackedgan-mnist-6.2.1.py`
+
+```py
+def build_discriminator(inputs, z_dim=50):
+    """Build Discriminator 1 Model 
+```
+
+```py
+ Classifies feature1 (features) as real/fake image and recovers
+    the input noise or latent code (by minimizing entropy loss) 
+```
+
+```py
+ # Arguments
+        inputs (Layer): feature1
+        z_dim (int): noise dimensionality 
+```
+
+```py
+ # Returns
+        dis1 (Model): feature1 as real/fake and recovered latent code
+    """ 
+```
+
+```py
+ # input is 256-dim feature1
+    x = Dense(256, activation='relu')(inputs)
+    x = Dense(256, activation='relu')(x) 
+```
+
+```py
+ # first output is probability that feature1 is real
+    f1_source = Dense(1)(x)
+    f1_source = Activation('sigmoid',
+                           name='feature1_source')(f1_source) 
+```
+
+```py
+ # z1 reonstruction (Q1 network)
+    z1_recon = Dense(z_dim)(x)
+    z1_recon = Activation('tanh', name='z1')(z1_recon) 
+```
+
+```py
+ discriminator_outputs = [f1_source, z1_recon]
+    dis1 = Model(inputs, discriminator_outputs, name='dis1')
+    return dis1 
+```
+
+有了所有可用的构建器函数，StackedGAN 就会在“列表 6.2.4”中进行组装。 在训练 StackedGAN 之前，对编码器进行了预训练。 请注意，我们已经在对抗模型训练中纳入了三个生成器损失函数（对抗，条件和熵）。`Q`网络与判别器模型共享一些公共层。 因此，其损失函数也被纳入判别器模型训练中。
+
+“列表 6.2.4”：`stackedgan-mnist-6.2.1.py`
+
+```py
+def build_and_train_models():
+    """Load the dataset, build StackedGAN discriminator,
+    generator, and adversarial models.
+    Call the StackedGAN train routine.
+    """
+    # load MNIST dataset
+    (x_train, y_train), (x_test, y_test) = mnist.load_data() 
+```
+
+```py
+ # reshape and normalize images
+    image_size = x_train.shape[1]
+    x_train = np.reshape(x_train, [-1, image_size, image_size, 1])
+    x_train = x_train.astype('float32') / 255 
+```
+
+```py
+ x_test = np.reshape(x_test, [-1, image_size, image_size, 1])
+    x_test = x_test.astype('float32') / 255 
+```
+
+```py
+ # number of labels
+    num_labels = len(np.unique(y_train))
+    # to one-hot vector
+    y_train = to_categorical(y_train)
+    y_test = to_categorical(y_test) 
+```
+
+```py
+ model_name = "stackedgan_mnist"
+    # network parameters
+    batch_size = 64
+    train_steps = 10000
+    lr = 2e-4
+    decay = 6e-8
+    input_shape = (image_size, image_size, 1)
+    label_shape = (num_labels, )
+    z_dim = 50
+    z_shape = (z_dim, )
+    feature1_dim = 256
+    feature1_shape = (feature1_dim, ) 
+```
+
+```py
+ # build discriminator 0 and Q network 0 models
+    inputs = Input(shape=input_shape, name='discriminator0_input')
+    dis0 = gan.discriminator(inputs, num_codes=z_dim)
+    # [1] uses Adam, but discriminator converges easily with RMSprop
+    optimizer = RMSprop(lr=lr, decay=decay)
+    # loss fuctions: 1) probability image is real (adversarial0 loss)
+    # 2) MSE z0 recon loss (Q0 network loss or entropy0 loss)
+    loss = ['binary_crossentropy', 'mse']
+    loss_weights = [1.0, 10.0]
+    dis0.compile(loss=loss,
+                 loss_weights=loss_weights,
+                 optimizer=optimizer,
+                 metrics=['accuracy'])
+    dis0.summary() # image discriminator, z0 estimator 
+```
+
+```py
+ # build discriminator 1 and Q network 1 models
+    input_shape = (feature1_dim, )
+    inputs = Input(shape=input_shape, name='discriminator1_input')
+    dis1 = build_discriminator(inputs, z_dim=z_dim )
+    # loss fuctions: 1) probability feature1 is real 
+    # (adversarial1 loss)
+    # 2) MSE z1 recon loss (Q1 network loss or entropy1 loss)
+    loss = ['binary_crossentropy', 'mse']
+    loss_weights = [1.0, 1.0]
+    dis1.compile(loss=loss,
+                 loss_weights=loss_weights,
+                 optimizer=optimizer,
+                 metrics=['accuracy'])
+    dis1.summary() # feature1 discriminator, z1 estimator 
+```
+
+```py
+ # build generator models
+    feature1 = Input(shape=feature1_shape, name='feature1_input')
+    labels = Input(shape=label_shape, name='labels')
+    z1 = Input(shape=z_shape, name="z1_input")
+    z0 = Input(shape=z_shape, name="z0_input")
+    latent_codes = (labels, z0, z1, feature1)
+    gen0, gen1 = build_generator(latent_codes, image_size)
+    gen0.summary() # image generator
+    gen1.summary() # feature1 generator 
+```
+
+```py
+ # build encoder models
+    input_shape = (image_size, image_size, 1)
+    inputs = Input(shape=input_shape, name='encoder_input')
+    enc0, enc1 = build_encoder((inputs, feature1), num_labels)
+    enc0.summary() # image to feature1 encoder
+    enc1.summary() # feature1 to labels encoder (classifier)
+    encoder = Model(inputs, enc1(enc0(inputs)))
+    encoder.summary() # image to labels encoder (classifier) 
+```
+
+```py
+ data = (x_train, y_train), (x_test, y_test)
+    train_encoder(encoder, data, model_name=model_name) 
+```
+
+```py
+ # build adversarial0 model =
+    # generator0 + discriminator0 + encoder0
+    optimizer = RMSprop(lr=lr*0.5, decay=decay*0.5)
+    # encoder0 weights frozen
+    enc0.trainable = False
+    # discriminator0 weights frozen
+    dis0.trainable = False
+    gen0_inputs = [feature1, z0]
+    gen0_outputs = gen0(gen0_inputs)
+    adv0_outputs = dis0(gen0_outputs) + [enc0(gen0_outputs)]
+    # feature1 + z0 to prob feature1 is 
+    # real + z0 recon + feature0/image recon
+    adv0 = Model(gen0_inputs, adv0_outputs, name="adv0")
+    # loss functions: 1) prob feature1 is real (adversarial0 loss)
+    # 2) Q network 0 loss (entropy0 loss)
+    # 3) conditional0 loss
+    loss = ['binary_crossentropy', 'mse', 'mse']
+    loss_weights = [1.0, 10.0, 1.0]
+    adv0.compile(loss=loss,
+                 loss_weights=loss_weights,
+                 optimizer=optimizer,
+                 metrics=['accuracy'])
+    adv0.summary() 
+```
+
+```py
+ # build adversarial1 model = 
+    # generator1 + discriminator1 + encoder1
+    # encoder1 weights frozen
+    enc1.trainable = False
+    # discriminator1 weights frozen
+    dis1.trainable = False
+    gen1_inputs = [labels, z1]
+    gen1_outputs = gen1(gen1_inputs)
+    adv1_outputs = dis1(gen1_outputs) + [enc1(gen1_outputs)]
+    # labels + z1 to prob labels are real + z1 recon + feature1 recon
+    adv1 = Model(gen1_inputs, adv1_outputs, name="adv1")
+    # loss functions: 1) prob labels are real (adversarial1 loss)
+    # 2) Q network 1 loss (entropy1 loss)
+    # 3) conditional1 loss (classifier error)
+    loss_weights = [1.0, 1.0, 1.0]
+    loss = ['binary_crossentropy',
+            'mse',
+            'categorical_crossentropy']
+    adv1.compile(loss=loss,
+                 loss_weights=loss_weights,
+                 optimizer=optimizer,
+                 metrics=['accuracy'])
+    adv1.summary() 
+```
+
+```py
+ # train discriminator and adversarial networks
+    models = (enc0, enc1, gen0, gen1, dis0, dis1, adv0, adv1)
+    params = (batch_size, train_steps, num_labels, z_dim, model_name)
+    train(models, data, params) 
+```
+
+最后，训练函数与典型的 GAN 训练相似，不同之处在于我们一次只训练一个 GAN（即`GAN[0]`然后是`GAN[0]`）。 代码显示在“列表 6.2.5”中。 值得注意的是，训练顺序为：
+
+1.  `Discriminator[1]`和`Q[1]`网络通过最小化判别器和熵损失
+2.  `Discriminator[0]`和`Q[0]`网络通过最小化判别器和熵损失
+3.  `Adversarial[1]`网络通过最小化对抗性，熵和条件损失
+
+1.  `Adversarial[0]`网络通过最小化对抗性，熵和条件损失
+
+“列表 6.2.5”：`stackedgan-mnist-6.2.1.py`
+
+```py
+def train(models, data, params):
+    """Train the discriminator and adversarial Networks 
+```
+
+```py
+ Alternately train discriminator and adversarial networks by batch.
+    Discriminator is trained first with real and fake images,
+    corresponding one-hot labels and latent codes.
+    Adversarial is trained next with fake images pretending
+    to be real, corresponding one-hot labels and latent codes.
+    Generate sample images per save_interval. 
+```
+
+```py
+ # Arguments
+        models (Models): Encoder, Generator, Discriminator,
+            Adversarial models
+        data (tuple): x_train, y_train data
+        params (tuple): Network parameters 
+```
+
+```py
+ """
+    # the StackedGAN and Encoder models
+    enc0, enc1, gen0, gen1, dis0, dis1, adv0, adv1 = models
+    # network parameters
+    batch_size, train_steps, num_labels, z_dim, model_name = params
+    # train dataset
+    (x_train, y_train), (_, _) = data
+    # the generator image is saved every 500 steps
+    save_interval = 500 
+```
+
+```py
+ # label and noise codes for generator testing
+    z0 = np.random.normal(scale=0.5, size=[16, z_dim])
+    z1 = np.random.normal(scale=0.5, size=[16, z_dim])
+    noise_class = np.eye(num_labels)[np.arange(0, 16) % num_labels]
+    noise_params = [noise_class, z0, z1]
+    # number of elements in train dataset
+    train_size = x_train.shape[0]
+    print(model_name,
+          "Labels for generated images: ",
+          np.argmax(noise_class, axis=1)) 
+```
+
+```py
+ for i in range(train_steps):
+        # train the discriminator1 for 1 batch
+        # 1 batch of real (label=1.0) and fake feature1 (label=0.0)
+        # randomly pick real images from dataset
+        rand_indexes = np.random.randint(0,
+                                         train_size,
+                                         size=batch_size)
+        real_images = x_train[rand_indexes]
+        # real feature1 from encoder0 output
+        real_feature1 = enc0.predict(real_images)
+        # generate random 50-dim z1 latent code
+        real_z1 = np.random.normal(scale=0.5,
+                                   size=[batch_size, z_dim])
+        # real labels from dataset
+        real_labels = y_train[rand_indexes] 
+```
+
+```py
+ # generate fake feature1 using generator1 from
+        # real labels and 50-dim z1 latent code
+        fake_z1 = np.random.normal(scale=0.5,
+                                   size=[batch_size, z_dim])
+        fake_feature1 = gen1.predict([real_labels, fake_z1]) 
+```
+
+```py
+ # real + fake data
+        feature1 = np.concatenate((real_feature1, fake_feature1))
+        z1 = np.concatenate((fake_z1, fake_z1)) 
+```
+
+```py
+ # label 1st half as real and 2nd half as fake
+        y = np.ones([2 * batch_size, 1])
+        y[batch_size:, :] = 0 
+```
+
+```py
+ # train discriminator1 to classify feature1 as
+        # real/fake and recover
+        # latent code (z1). real = from encoder1,
+        # fake = from genenerator1
+        # joint training using discriminator part of
+        # advserial1 loss and entropy1 loss
+        metrics = dis1.train_on_batch(feature1, [y, z1])
+        # log the overall loss only
+        log = "%d: [dis1_loss: %f]" % (i, metrics[0]) 
+```
+
+```py
+ # train the discriminator0 for 1 batch
+        # 1 batch of real (label=1.0) and fake images (label=0.0)
+        # generate random 50-dim z0 latent code
+        fake_z0 = np.random.normal(scale=0.5, size=[batch_size, z_dim])
+        # generate fake images from real feature1 and fake z0
+        fake_images = gen0.predict([real_feature1, fake_z0])
+        # real + fake data
+        x = np.concatenate((real_images, fake_images))
+        z0 = np.concatenate((fake_z0, fake_z0))
+        # train discriminator0 to classify image 
+        # as real/fake and recover latent code (z0)
+        # joint training using discriminator part of advserial0 loss
+        # and entropy0 loss
+        metrics = dis0.train_on_batch(x, [y, z0])
+        # log the overall loss only (use dis0.metrics_names)
+        log = "%s [dis0_loss: %f]" % (log, metrics[0]) 
+```
+
+```py
+ # adversarial training 
+        # generate fake z1, labels
+        fake_z1 = np.random.normal(scale=0.5,
+                                   size=[batch_size, z_dim])
+        # input to generator1 is sampling fr real labels and
+        # 50-dim z1 latent code
+        gen1_inputs = [real_labels, fake_z1] 
+```
+
+```py
+ # label fake feature1 as real
+        y = np.ones([batch_size, 1]) 
+```
+
+```py
+ # train generator1 (thru adversarial) by fooling i
+        # the discriminator
+        # and approximating encoder1 feature1 generator
+        # joint training: adversarial1, entropy1, conditional1
+        metrics = adv1.train_on_batch(gen1_inputs,
+                                      [y, fake_z1, real_labels])
+        fmt = "%s [adv1_loss: %f, enc1_acc: %f]"
+        # log the overall loss and classification accuracy
+        log = fmt % (log, metrics[0], metrics[6]) 
+```
+
+```py
+ # input to generator0 is real feature1 and
+        # 50-dim z0 latent code
+        fake_z0 = np.random.normal(scale=0.5,
+                                   size=[batch_size, z_dim])
+        gen0_inputs = [real_feature1, fake_z0] 
+```
+
+```py
+ # train generator0 (thru adversarial) by fooling
+        # the discriminator and approximating encoder1 imag 
+        # source generator joint training:
+        # adversarial0, entropy0, conditional0
+        metrics = adv0.train_on_batch(gen0_inputs,
+                                      [y, fake_z0, real_feature1])
+        # log the overall loss only
+        log = "%s [adv0_loss: %f]" % (log, metrics[0]) 
+```
+
+```py
+ print(log)
+        if (i + 1) % save_interval == 0:
+            generators = (gen0, gen1)
+            plot_images(generators,
+                        noise_params=noise_params,
+                        show=False,
+                        step=(i + 1),
+                        model_name=model_name) 
+```
+
+```py
+ # save the modelis after training generator0 & 1
+    # the trained generator can be reloaded for
+    # future MNIST digit generation
+    gen1.save(model_name + "-gen1.h5")
+    gen0.save(model_name + "-gen0.h5") 
+```
+
+`tf.keras`中 StackedGAN 的代码实现现已完成。 训练后，可以评估生成器的输出以检查合成 MNIST 数字的某些属性是否可以以与我们在 InfoGAN 中所做的类似的方式进行控制。
+
+## StackedGAN 的生成器输出
+
+在对 StackedGAN 进行 10,000 步训练之后，`Generator[0]`和`Generator[1]`模型被保存在文件中。 `Generator[0]`和`Generator[1]`堆叠在一起可以合成以标签和噪声代码`z[0]`和`z[1]`为条件的伪造图像。
+
+StackedGAN 生成器可以通过以下方式进行定性验证：
+
+1.  从两个噪声代码`z[0]`和`z[1]`的离散标签从 0 变到 9，从正态分布中采样，均值为 0.5，标准差为 1.0。 结果显示在“图 6.2.9”中。 我们可以看到 StackedGAN 离散代码可以控制生成器生成的数字：
+
+    ```py
+    python3 stackedgan-mnist-6.2.1.py --generator0=stackedgan_mnist-gen0.h5 --generator1=stackedgan_mnist-gen1.h5 --digit=0 
+    ```
+
+    至
+
+    ```py
+    python3 stackedgan-mnist-6.2.1.py --generator0=stackedgan_mnist-gen0.h5 --generator1=stackedgan_mnist-gen1.h5 --digit=9 
+    ```
+
+    ![](img/B14853_06_16.png)
+
+    图 6.2.9：当离散代码从 0 变为 9 时，StackedGAN 生成的图像。`z0`和`z1`均从正态分布中采样，平均值为 0，标准差为 0.5。
+
+2.  如下所示，将第一噪声码`z[0]`从 -4.0 到 4.0 的恒定向量变为从 0 到 9 的数字。 第二噪声代码`z[1]`被设置为零向量。 “图 6.2.10”显示第一个噪声代码控制数字的粗细。 例如，对于数字 8：
+
+    ```py
+    python3 stackedgan-mnist-6.2.1.py --generator0=stackedgan_mnist-gen0.h5 --generator1=stackedgan_mnist-gen1.h5 --z0=0 --z1=0 --p0 --digit=8 
+    ```
+
+    ![](img/B14853_06_17.png)
+
+    图 6.2.10：使用 StackedGAN 作为第一个噪声代码`z0`生成的图像，对于数字 0 到 9，其向量从 -4.0 到 4.0 不变。`z0`似乎控制着每个数字的粗细。
+
+3.  如下所示，对于数字 0 到 9，从 -1.0 到 1.0 的恒定向量变化第二噪声代码`z[1]`。 将第一噪声代码`z[0]`设置为零向量。“图 6.2.11”显示第二个噪声代码控制旋转（倾斜），并在一定程度上控制手指的粗细。 例如，对于数字 8：
+
+    ```py
+    python3 stackedgan-mnist-6.2.1.py --generator0=stackedgan_mnist-gen0.h5 --generator1=stackedgan_mnist-gen1.h5 --z0=0 --z1=0 --p1 --digit=8 
+    ```
+
+![](img/B14853_06_18.png)
+
+图 6.2.11：由 StackedGAN 生成的图像作为第二个噪声代码`z1`从 0 到 9 的恒定向量 -1.0 到 1.0 变化。`z1`似乎控制着每个数字的旋转（倾斜）和笔划粗细
+
+“图 6.2.9”至“图 6.2.11”证明 StackedGAN 提供了对生成器输出属性的附加控制。 控件和属性为（标签，哪个数字），（`z0`，数字粗细）和（`z1`，数字倾斜度）。 从此示例中，我们可以控制其他可能的实验，例如：
+
+*   从当前数量 2 增加栈中的元素数量
+*   像在 InfoGAN 中一样，减小代码`z[0]`和`z[1]`的尺寸
+
+“图 6.2.12”显示了 InfoGAN 和 StackedGAN 的潜在代码之间的区别：
+
+![](img/B14853_06_19.png)
+
+图 6.2.12：不同 GAN 的潜在表示
+
+解开代码的基本思想是对损失函数施加约束，以使仅特定属性受代码影响。 从结构上讲，与 StackedGAN 相比，InfoGAN 更易于实现。 InfoGAN 的训练速度也更快。
+
+# 4\. 总结
+
+在本章中，我们讨论了如何解开 GAN 的潜在表示。 在本章的前面，我们讨论了 InfoGAN 如何最大化互信息以迫使生成器学习解纠缠的潜向量。 在 MNIST 数据集示例中，InfoGAN 使用三种表示形式和一个噪声代码作为输入。 噪声以纠缠的形式表示其余的属性。 StackedGAN 以不同的方式处理该问题。 它使用一堆编码器 GAN 来学习如何合成伪造的特征和图像。 首先对编码器进行训练，以提供特征数据集。 然后，对编码器 GAN 进行联合训练，以学习如何使用噪声代码控制生成器输出的属性。
+
+在下一章中，我们将着手一种新型的 GAN，它能够在另一个域中生成新数据。 例如，给定马的图像，GAN 可以将其自动转换为斑马的图像。 这种 GAN 的有趣特征是无需监督即可对其进行训练，并且不需要成对的样本数据。
+
+# 5\. 参考
+
+1.  `Xi Chen et al.: InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets. Advances in Neural Information Processing Systems, 2016 (http://papers.nips.cc/paper/6399-infogan-interpretable-representation-learning-by-information-maximizing-generative-adversarial-nets.pdf).`
+1.  `Xun Huang et al. Stacked Generative Adversarial Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Vol. 2, 2017 (http://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Stacked_Generative_Adversarial_CVPR_2017_paper.pdf).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/07.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/07.md
new file mode 100644
index 00000000..a259129a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/07.md
@@ -0,0 +1,990 @@
+# 七、跨域 GAN
+
+在计算机视觉，计算机图形学和图像处理中，许多任务涉及将图像从一种形式转换为另一种形式。 灰度图像的着色，将卫星图像转换为地图，将一位艺术家的艺术品风格更改为另一位艺术家，将夜间图像转换为白天，将夏季照片转换为冬天只是几个例子。 这些任务被称为**跨域迁移**，将成为本章的重点。 源域中的图像将迁移到目标域，从而生成新的转换图像。
+
+跨域迁移在现实世界中具有许多实际应用。 例如，在自动驾驶研究中，收集公路现场驾驶数据既费时又昂贵。 为了在该示例中覆盖尽可能多的场景变化，将在不同的天气条件，季节和时间中遍历道路，从而为我们提供了大量不同的数据。 使用跨域迁移，可以通过转换现有图像来生成看起来真实的新合成场景。 例如，我们可能只需要在夏天从一个区域收集道路场景，在冬天从另一地方收集道路场景。 然后，我们可以将夏季图像转换为冬季，并将冬季图像转换为夏季。 在这种情况下，它将必须完成的任务数量减少了一半。
+
+现实的合成图像的生成是 GAN 擅长的领域。 因此，跨域翻译是 GAN 的应用之一。 在本章中，我们将重点介绍一种流行的跨域 GAN 算法，称为 *CycleGAN* [2]。 与其他跨域迁移算法（例如 *pix2pix* [3]）不同，CycleGAN 不需要对齐的训练图像即可工作。 在对齐的图像中，训练数据应该是由源图像及其对应的目标图像组成的一对图像； 例如，卫星图像和从该图像得出的相应地图。
+
+CycleGAN 仅需要卫星数据图像和地图。 这些地图可以来自其他卫星数据，而不必事先从训练数据中生成。
+
+在本章中，我们将探讨以下内容：
+
+*   CycleGAN 的原理，包括其在`tf.keras`中的实现
+*   CycleGAN 的示例应用，包括使用 CIFAR10 数据集对灰度图像进行着色和应用于 MNIST 数字和*街景门牌号码（SVHN）* [1]数据集的样式迁移
+
+让我们开始讨论 CycleGAN 背后的原理。
+
+# 1\. CycleGAN 的原理
+
+将图像从一个域转换到另一个域是计算机视觉，计算机图形学和图像处理中的常见任务。“图 7.1.1”显示了边缘检测，这是常见的图像转换任务：
+
+![](img/B14853_07_01.png)
+
+图 7.1.1：对齐图像对的示例：使用 Canny 边缘检测器的左，原始图像和右，变换后的图像。 原始照片是作者拍摄的。
+
+在此示例中，我们可以将真实照片（左）视为源域中的图像，将边缘检测的照片（右）视为目标域中的样本。 还有许多其他具有实际应用的跨域翻译过程，例如：
+
+*   卫星图像到地图
+*   脸部图像到表情符号，漫画或动画
+*   身体图像到头像
+*   灰度照片的着色
+*   医学扫描到真实照片
+*   真实照片到画家的绘画
+
+在不同领域中还有许多其他示例。 例如，在计算机视觉和图像处理中，我们可以通过发明一种从源图像中提取特征并将其转换为目标图像的算法来执行翻译。 坎尼边缘算子就是这种算法的一个例子。 但是，在很多情况下，翻译对于手工工程师而言非常复杂，因此几乎不可能找到合适的算法。 源域分布和目标域分布都是高维且复杂的。
+
+解决图像翻译问题的一种方法是使用深度学习技术。 如果我们具有来自源域和目标域的足够大的数据集，则可以训练神经网络对转换进行建模。 由于必须在给定源图像的情况下自动生成目标域中的图像，因此它们必须看起来像是来自目标域的真实样本。 GAN 是适合此类跨域任务的网络。 *pix2pix* [3]算法是跨域算法的示例。
+
+pix2pix 算法与**条件 GAN**（**CGAN**）[4]相似，我们在“第 4 章”，“生成对抗网络（GAN）”。 我们可以回想起在 CGAN 中，除了`z`噪声输入之外，诸如单热向量之类的条件会限制生成器的输出。 例如，在 MNIST 数字中，如果我们希望生成器输出数字 8，则条件为单热向量`[0, 0, 0, 0, 0, 0, 0, 0, 1, 0]`。 在 pix2pix 中，条件是要翻译的图像。 生成器的输出是翻译后的图像。 通过优化 CGAN 损失来训练 pix2pix 算法。 为了使生成的图像中的模糊最小化，还包括 *L1* 损失。
+
+类似于 pix2pix 的神经网络的主要缺点是训练输入和输出图像必须对齐。“图 7.1.1”是对齐的图像对的示例。 样本目标图像是从源生成的。 在大多数情况下，对齐的图像对不可用或无法从源图像生成，也不昂贵，或者我们不知道如何从给定的源图像生成目标图像。 我们拥有的是来自源域和目标域的样本数据。“图 7.1.2”是来自同一向日葵主题上源域（真实照片）和目标域（范高的艺术风格）的数据示例。 源图像和目标图像不一定对齐。
+
+与 pix2pix 不同，CycleGAN 会学习图像翻译，只要源数据和目标数据之间有足够的数量和差异即可。 无需对齐。 CycleGAN 学习源和目标分布，以及如何从给定的样本数据中将源分布转换为目标分布。 无需监督。 在“图 7.1.2”的上下文中，我们只需要数千张真实向日葵的照片和数千张梵高向日葵画的照片。 在训练了 CycleGAN 之后，我们可以将向日葵的照片转换成梵高的画作：
+
+![A close up of a flower  Description automatically generated](img/B14853_07_02.png)
+
+图 7.1.2：未对齐的图像对示例：左侧为菲律宾大学沿着大学大道的真实向日葵照片，右侧为伦敦国家美术馆的梵高的向日葵， 英国。 原始照片由作者拍摄。
+
+下一个问题是：我们如何建立可以从未配对数据中学习的模型？ 在下一部分中，我们将构建一个使用正向和反向循环 GAN 的 CycleGAN，以及一个循环一致性检查，以消除对配对输入数据的需求。
+
+## CycleGAN 模型
+
+“图 7.1.3”显示了 CycleGAN 的网络模型：
+
+![A close up of a logo  Description automatically generated](img/B14853_07_03.png)
+
+图 7.1.3：CycleGAN 模型包含四个网络：生成器`G`，生成器`F`，判别器`D[y]`和判别器`D[x]`
+
+让我们逐个讨论“图 7.1.3”。 让我们首先关注上层网络，即转发周期 GAN。 如下图“图 7.1.4”所示，正向循环 CycleGAN 的目标是学习以下函数：
+
+![](img/B14853_07_001.png) (Equation 7.1.1)
+
+![A close up of a logo  Description automatically generated](img/B14853_07_04.png)
+
+图 7.1.4：伪造`y`的 CycleGAN 生成器`G`
+
+“公式 7.1.1”只是假目标数据`y'`的生成器`G`。 它将数据从源域`x`转换为目标域`y`。
+
+要训​​练生成器，我们必须构建 GAN。 这是正向循环 GAN，如图“图 7.1.5”所示。 该图表明，它类似于“第 4 章”，“生成对抗网络（GANs）”中的典型 GAN，由生成器`G`和判别器`D[y]`组成，它可以以相同的对抗方式进行训练。通过仅利用源域中的可用实际图像`x`和目标域中的实际图像`y`，进行无监督学习。
+
+![A close up of a logo  Description automatically generated](img/B14853_07_05.png)
+
+图 7.1.5：CycleGAN 正向循环 GAN
+
+与常规 GAN 不同，CycleGAN 施加了周期一致性约束，如图“图 7.1.6”所示。 前向循环一致性网络可确保可以从伪造的目标数据中重建真实的源数据：
+
+![](img/B14853_07_004.png) (Equation 7.1.2)
+
+![](img/B14853_07_06.png)
+
+图 7.1.6：CycleGAN 循环一致性检查
+
+通过最小化正向循环一致性 *L1* 损失来完成：
+
+![](img/B14853_07_005.png) (Equation 7.1.3)
+
+周期一致性损失使用 *L1* 或**平均绝对误差**（**MAE**），因为与 *L2* 或**均方误差**（**MSE**）相比，它通常导致较少的模糊图像重建。
+
+循环一致性检查表明，尽管我们已将源数据`x`转换为域`y`，但`x`的原始特征仍应保留在`y`中并且可恢复。 网络`F`只是我们将从反向循环 GAN 借用的另一个生成器，如下所述。
+
+CycleGAN 是对称的。 如图“图 7.1.7”所示，后向循环 GAN 与前向循环 GAN 相同，但将源数据`x`和目标数据`y`的作用逆转。 现在，源数据为`y`，目标数据为`x`。 生成器`G`和`F`的作用也相反。`F`现在是生成器，而`G`恢复输入。 在正向循环 GAN 中，生成器`F`是用于恢复源数据的网络，而`G`是生成器。
+
+Backward Cycle GAN 生成器的目标是合成：
+
+![](img/B14853_07_006.png) (Equation 7.1.2)
+
+![A close up of a logo  Description automatically generated](img/B14853_07_07.png)
+
+图 7.1.7：CycleGAN 向后循环 GAN
+
+这可以通过对抗性训练反向循环 GAN 来完成。 目的是让生成器`F`学习如何欺骗判别器`D[x]`。
+
+此外，还具有类似的向后循环一致性，以恢复原始源`y`：
+
+![](img/B14853_07_008.png) (Equation 7.1.4)
+
+这是通过最小化后向循环一致性 *L1* 损失来完成的：
+
+![](img/B14853_07_009.png) (Equation 7.1.5)
+
+总而言之，CycleGAN 的最终目标是使生成器`G`学习如何合成伪造的目标数据`y'`，该伪造的目标数据`y'`会在正向循环中欺骗识别器`D[y]`。 由于网络是对称的，因此 CycleGAN 还希望生成器`F`学习如何合成伪造的源数据`x'`，该伪造的源数据可以使判别器`D[x]`在反向循环中蒙蔽。 考虑到这一点，我们现在可以将所有损失函数放在一起。
+
+让我们从 GAN 部分开始。 受到*最小二乘 GAN（LSGAN）* [5]更好的感知质量的启发，如“第 5 章”，“改进的 GAN” 中所述，CycleGAN 还使用 MSE 作为判别器和生成器损失。 回想一下，LSGAN 与原始 GAN 之间的差异需要使用 MSE 损失，而不是二进制交叉熵损失。
+
+CycleGAN 将生成器－标识符损失函数表示为：
+
+![](img/B14853_07_014.png) (Equation 7.1.6)
+
+![](img/B14853_07_015.png) (Equation 7.1.7)
+
+![](img/B14853_07_016.png) (Equation 7.1.8)
+
+![](img/B14853_07_017.png) (Equation 7.1.9)
+
+![](img/B14853_07_018.png) (Equation 7.1.10)
+
+![](img/B14853_07_019.png) (Equation 7.1.11)
+
+损失函数的第二组是周期一致性损失，可以通过汇总前向和后向 GAN 的贡献来得出：
+
+![](img/B14853_07_020.png)
+
+![](img/B14853_07_021.png) (Equation 7.1.12)
+
+CycleGAN 的总损失为：
+
+![](img/B14853_07_022.png) (Equation 7.1.13)
+
+CycleGAN 建议使用以下权重值`λ1 = 1.0`和`λ2 = 10.0`，以更加重视循环一致性检查。
+
+训练策略类似于原始 GAN。 “算法 7.1.1”总结了 CycleGAN 训练过程。
+
+“算法 7.1.1”：CycleGAN 训练
+
+对`n`训练步骤重复上述步骤：
+
+1.  通过使用真实的源数据和目标数据训练前向循环判别器，将`L_forward_GAN^(D)`降至最低。 实际目标数据的小批量`y`标记为 1.0。 伪造的目标数据`y' = G(x)`的小批量标记为 0.0。
+2.  通过使用真实的源数据和目标数据训练反向循环判别器，将`L_backward_GAN^(D)`最小化。 实际源数据的小批量`x`标记为 1.0。 一小部分伪造的源数据`x' = F(y)`被标记为 0.0。
+
+1.  通过训练对抗网络中的前向周期和后向周期生成器，将`L_GAN^(D)`和`L_cyc`最小化。 伪造目标数据的一个小批量`y' = G(x)`被标记为 1.0。 一小部分伪造的源数据`x' = F(y)`被标记为 1.0。 判别器的权重被冻结。
+
+在神经样式迁移问题中，颜色组合可能无法成功地从源图像迁移到伪造目标图像。 此问题显示在“图 7.1.8”中：
+
+![](img/B14853_07_08.png)
+
+图 7.1.8：在样式迁移过程中，颜色组合可能无法成功迁移。 为了解决此问题，将恒等损失添加到总损失函数中
+
+为了解决这个问题，CycleGAN 建议包括正向和反向循环身份损失函数：
+
+![](img/B14853_07_033.png) (Equation 7.1.14)
+
+CycleGAN 的总损失变为：
+
+![](img/B14853_07_034.png) (Equation 7.1.15)
+
+其中`λ3 = 0.5`。 在对抗训练中，身份损失也得到了优化。“图 7.1.9”重点介绍了实现身份正则器的 CycleGAN 辅助网络：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_07_09.png)
+
+图 7.1.9：具有身份正则化网络的 CycleGAN 模型，图像左侧突出显示
+
+在下一个部分，我们将在`tf.keras`中实现 CycleGAN。
+
+## 使用 Keras 实现 CycleGAN
+
+我们来解决，这是 CycleGAN 可以解决的简单问题。 在“第 3 章”，“自编码器”中，我们使用了自编码器为 CIFAR10 数据集中的灰度图像着色。 我们可以记得，CIFAR10 数据集包含 50,000 个训练过的数据项和 10,000 个测试数据样本，这些样本属于 10 个类别的`32 x 32` RGB 图像。 我们可以使用`rgb2gray`（RGB）将所有彩色图像转换为灰度图像，如“第 3 章”，“自编码器”中所述。
+
+接下来，我们可以将灰度训练图像用作源域图像，将原始彩色图像用作目标域图像。 值得注意的是，尽管数据集是对齐的，但我们 CycleGAN 的输入是彩色图像的随机样本和灰度图像的随机样本。 因此，我们的 CycleGAN 将看不到训练数据对齐。 训练后，我们将使用测试的灰度图像来观察 CycleGAN 的表现。
+
+如前几节所述，要实现 CycleGAN，我们需要构建两个生成器和两个判别器。 CycleGAN 的生成器学习源输入分布的潜在表示，并将该表示转换为目标输出分布。 这正是自编码器的功能。 但是，类似于“第 3 章”，“自编码器”中讨论的典型自编码器，使用的编码器会对输入进行下采样，直到瓶颈层为止，此时解码器中的处理过程相反。
+
+由于在编码器和解码器层之间共享许多低级特征，因此该结构不适用于某些图像转换问题。 例如，在着色问题中，灰度图像的形式，结构和边缘与彩色图像中的相同。 为了解决这个问题，CycleGAN 生成器使用 *U-Net* [7]结构，如图“图 7.1.10”所示：
+
+![](img/B14853_07_10.png)
+
+图 7.1.10：在 Keras 中实现正向循环生成器`G`。 产生器是包括编码器和解码器的 U 网络[7]。
+
+在 U-Net 结构中，编码器层的输出`e[ni]`与解码器层的输出`d[i]`，其中`n = 4`是编码器/解码器的层数，`i = 1, 2, 3`是共享信息的层号。
+
+我们应该注意，尽管该示例使用`n = 4`，但输入/输出尺寸较大的问题可能需要更深的编码器/解码器层。 通过 U-Net 结构，可以在编码器和解码器之间自由迁移特征级别的信息。
+
+编码器层由`Instance Normalization(IN)-LeakyReLU-Conv2D`组成，而解码器层由`IN-ReLU-Conv2D`组成。 编码器/解码器层的实现如清单 7.1.1 所示，而生成器的实现如列表 7.1.2 所示。
+
+[完整的代码可在 GitHub 上找到](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+**实例规范化**（**IN**）是每个数据（即 IN 是图像或每个特征的 BN）。 在样式迁移中，重要的是标准化每个样本而不是每个批量的对比度。 IN 等于，相当于对比度归一化。 同时，BN 打破了对比度标准化。
+
+记住在使用 IN 之前先安装`tensorflow-addons`：
+
+```py
+$ pip install tensorflow-addons 
+```
+
+“列表 7.1.1”：`cyclegan-7.1.1.py`
+
+```py
+def encoder_layer(inputs,
+                  filters=16,
+                  kernel_size=3,
+                  strides=2,
+                  activation='relu',
+                  instance_norm=True):
+    """Builds a generic encoder layer made of Conv2D-IN-LeakyReLU
+    IN is optional, LeakyReLU may be replaced by ReLU
+    """ 
+```
+
+```py
+ conv = Conv2D(filters=filters,
+                  kernel_size=kernel_size,
+                  strides=strides,
+                  padding='same') 
+```
+
+```py
+ x = inputs
+    if instance_norm:
+        x = InstanceNormalization(axis=3)(x)
+    if activation == 'relu':
+        x = Activation('relu')(x)
+    else:
+        x = LeakyReLU(alpha=0.2)(x)
+    x = conv(x)
+    return x 
+```
+
+```py
+def decoder_layer(inputs,
+                  paired_inputs,
+                  filters=16,
+                  kernel_size=3,
+                  strides=2,
+                  activation='relu',
+                  instance_norm=True):
+    """Builds a generic decoder layer made of Conv2D-IN-LeakyReLU
+    IN is optional, LeakyReLU may be replaced by ReLU
+    Arguments: (partial)
+    inputs (tensor): the decoder layer input
+    paired_inputs (tensor): the encoder layer output 
+          provided by U-Net skip connection &
+          concatenated to inputs.
+    """ 
+```
+
+```py
+ conv = Conv2DTranspose(filters=filters,
+                           kernel_size=kernel_size,
+                           strides=strides,
+                           padding='same') 
+```
+
+```py
+ x = inputs
+    if instance_norm:
+        x = InstanceNormalization(axis=3)(x)
+    if activation == 'relu':
+        x = Activation('relu')(x)
+    else:
+        x = LeakyReLU(alpha=0.2)(x)
+    x = conv(x)
+    x = concatenate([x, paired_inputs])
+    return x 
+```
+
+将移至生成器实现中：
+
+“列表 7.1.2”：`cyclegan-7.1.1.py`
+
+Keras 中的生成器实现：
+
+```py
+def build_generator(input_shape,
+                    output_shape=None,
+                    kernel_size=3,
+                    name=None):
+    """The generator is a U-Network made of a 4-layer encoder
+    and a 4-layer decoder. Layer n-i is connected to layer i. 
+```
+
+```py
+ Arguments:
+    input_shape (tuple): input shape
+    output_shape (tuple): output shape
+    kernel_size (int): kernel size of encoder & decoder layers
+    name (string): name assigned to generator model 
+```
+
+```py
+ Returns:
+    generator (Model):
+    """ 
+```
+
+```py
+ inputs = Input(shape=input_shape)
+    channels = int(output_shape[-1])
+    e1 = encoder_layer(inputs,
+                       32,
+                       kernel_size=kernel_size,
+                       activation='leaky_relu',
+                       strides=1)
+    e2 = encoder_layer(e1,
+                       64,
+                       activation='leaky_relu',
+                       kernel_size=kernel_size)
+    e3 = encoder_layer(e2,
+                       128,
+                       activation='leaky_relu',
+                       kernel_size=kernel_size)
+    e4 = encoder_layer(e3,
+                       256,
+                       activation='leaky_relu',
+                       kernel_size=kernel_size) 
+```
+
+```py
+ d1 = decoder_layer(e4,
+                       e3,
+                       128,
+                       kernel_size=kernel_size)
+    d2 = decoder_layer(d1,
+                       e2,
+                       64,
+                       kernel_size=kernel_size)
+    d3 = decoder_layer(d2,
+                       e1,
+                       32,
+                       kernel_size=kernel_size)
+    outputs = Conv2DTranspose(channels,
+                              kernel_size=kernel_size,
+                              strides=1,
+                              activation='sigmoid',
+                              padding='same')(d3) 
+```
+
+```py
+ generator = Model(inputs, outputs, name=name) 
+```
+
+```py
+ return generator 
+```
+
+CycleGAN 的判别器类似于原始 GAN 判别器。 输入图像被下采样数次（在此示例中为 3 次）。 最后一层是`Dense`（1）层，它预测输入为实数的可能性。 除了不使用 IN 之外，每个层都类似于生成器的编码器层。 然而，在大图像中，用一个数字将图像计算为真实图像或伪图像会导致参数效率低下，并导致生成器的图像质量较差。
+
+解决方案是使用 PatchGAN [6]，该方法将图像划分为补丁网格，并使用标量值网格来预测补丁是真实概率。“图 7.1.11”显示了原始 GAN 判别器和`2 x 2` PatchGAN 判别器之间的比较：
+
+![](img/B14853_07_11.png)
+
+图 7.1.11：GAN 与 PatchGAN 判别器的比较
+
+在此示例中，面片不重叠且在其边界处相遇。 但是，通常，补丁可能会重叠。
+
+我们应该注意，PatchGAN 并没有在 CycleGAN 中引入一种新型的 GAN。 为了提高生成的图像质量，如果使用`2 x 2` PatchGAN，则没有四个输出可以区分，而没有一个输出可以区分。 损失函数没有变化。 从直觉上讲，这是有道理的，因为如果图像的每个面片或部分看起来都是真实的，则整个图像看起来会更加真实。
+
+“图 7.1.12”显示了`tf.keras`中实现的判别器网络。 下图显示了判别器确定输入图像或色块为彩色 CIFAR10 图像的可能性：
+
+![](img/B14853_07_12.png)
+
+图 7.1.12：目标标识符`D[y]`在`tf.keras`中的实现。 PatchGAN 判别器显示在右侧
+
+由于输出图像只有`32 x 32` RGB 时较小，因此表示该图像是真实的单个标量就足够了。 但是，当使用 PatchGAN 时，我们也会评估结果。“列表 7.1.3”显示了判别器的函数构建器：
+
+“列表 7.1.3”：`cyclegan-7.1.1.py`
+
+`tf.keras`中的判别器实现：
+
+```py
+def build_discriminator(input_shape,
+                        kernel_size=3,
+                        patchgan=True,
+                        name=None):
+    """The discriminator is a 4-layer encoder that outputs either
+    a 1-dim or a n x n-dim patch of probability that input is real 
+```
+
+```py
+ Arguments:
+    input_shape (tuple): input shape
+    kernel_size (int): kernel size of decoder layers
+    patchgan (bool): whether the output is a patch 
+        or just a 1-dim
+    name (string): name assigned to discriminator model 
+```
+
+```py
+ Returns:
+    discriminator (Model):
+    """ 
+```
+
+```py
+ inputs = Input(shape=input_shape)
+    x = encoder_layer(inputs,
+                      32,
+                      kernel_size=kernel_size,
+                      activation='leaky_relu',
+                      instance_norm=False)
+    x = encoder_layer(x,
+                      64,
+                      kernel_size=kernel_size,
+                      activation='leaky_relu',
+                      instance_norm=False)
+    x = encoder_layer(x,
+                      128,
+                      kernel_size=kernel_size,
+                      activation='leaky_relu',
+                      instance_norm=False)
+    x = encoder_layer(x,
+                      256,
+                      kernel_size=kernel_size,
+                      strides=1,
+                      activation='leaky_relu',
+                      instance_norm=False) 
+```
+
+```py
+ # if patchgan=True use nxn-dim output of probability
+    # else use 1-dim output of probability
+    if patchgan:
+        x = LeakyReLU(alpha=0.2)(x)
+        outputs = Conv2D(1,
+                         kernel_size=kernel_size,
+                         strides=2,
+                         padding='same')(x)
+    else:
+        x = Flatten()(x)
+        x = Dense(1)(x)
+        outputs = Activation('linear')(x) 
+```
+
+```py
+ discriminator = Model(inputs, outputs, name=name) 
+```
+
+```py
+ return discriminator 
+```
+
+使用生成器和判别器生成器，我们现在可以构建 CycleGAN。“列表 7.1.4”显示了构建器函数。 与上一节中的讨论一致，实例化了两个生成器`g_source = F`和`g_target = G`以及两个判别器`d_source = D[x]`和`d_target = D[y]`。 正向循环为`x' = F(G(x)) = reco_source = g_source(g_target(source_input))`。反向循环为`y' = G(F(y)) = reco_target = g_target(g_source (target_input))`。
+
+对抗模型的输入是源数据和目标数据，而输出是`D[x]`和`D[y]`的输出以及重构的输入`x'`和`y'`。 在本示例中，由于由于灰度图像和彩色图像中通道数之间的差异，因此未使用身份网络。 对于 GAN 和循环一致性损失，我们分别使用建议的`λ1 = 1.0`和`λ2 = 10.0`损失权重。 与前几章中的 GAN 相似，我们使用 RMSprop 作为判别器的优化器，其学习率为`2e-4`，衰减率为`6e-8`。 对抗的学习率和衰退率是判别器的一半。
+
+“列表 7.1.4”：`cyclegan-7.1.1.py`
+
+`tf.keras`中的 CycleGAN 构建器：
+
+```py
+def build_cyclegan(shapes,
+                   source_name='source',
+                   target_name='target',
+                   kernel_size=3,
+                   patchgan=False,
+                   identity=False
+                   ):
+    """Build the CycleGAN 
+```
+
+```py
+ 1) Build target and source discriminators
+    2) Build target and source generators
+    3) Build the adversarial network 
+```
+
+```py
+ Arguments:
+    shapes (tuple): source and target shapes
+    source_name (string): string to be appended on dis/gen models
+    target_name (string): string to be appended on dis/gen models
+    kernel_size (int): kernel size for the encoder/decoder
+        or dis/gen models
+    patchgan (bool): whether to use patchgan on discriminator
+    identity (bool): whether to use identity loss 
+```
+
+```py
+ Returns:
+    (list): 2 generator, 2 discriminator, 
+        and 1 adversarial models 
+    """ 
+```
+
+```py
+ source_shape, target_shape = shapes
+    lr = 2e-4
+    decay = 6e-8
+    gt_name = "gen_" + target_name
+    gs_name = "gen_" + source_name
+    dt_name = "dis_" + target_name
+    ds_name = "dis_" + source_name 
+```
+
+```py
+ # build target and source generators
+    g_target = build_generator(source_shape,
+                               target_shape,
+                               kernel_size=kernel_size,
+                               name=gt_name)
+    g_source = build_generator(target_shape,
+                               source_shape,
+                               kernel_size=kernel_size,
+                               name=gs_name)
+    print('---- TARGET GENERATOR ----')
+    g_target.summary()
+    print('---- SOURCE GENERATOR ----')
+    g_source.summary() 
+```
+
+```py
+ # build target and source discriminators
+    d_target = build_discriminator(target_shape,
+                                   patchgan=patchgan,
+                                   kernel_size=kernel_size,
+                                   name=dt_name)
+    d_source = build_discriminator(source_shape,
+                                   patchgan=patchgan,
+                                   kernel_size=kernel_size,
+                                   name=ds_name)
+    print('---- TARGET DISCRIMINATOR ----')
+    d_target.summary()
+    print('---- SOURCE DISCRIMINATOR ----')
+    d_source.summary() 
+```
+
+```py
+ optimizer = RMSprop(lr=lr, decay=decay)
+    d_target.compile(loss='mse',
+                     optimizer=optimizer,
+                     metrics=['accuracy'])
+    d_source.compile(loss='mse',
+                     optimizer=optimizer,
+                     metrics=['accuracy']) 
+```
+
+```py
+ d_target.trainable = False
+    d_source.trainable = False 
+```
+
+```py
+ # build the computational graph for the adversarial model
+    # forward cycle network and target discriminator
+    source_input = Input(shape=source_shape)
+    fake_target = g_target(source_input)
+    preal_target = d_target(fake_target)
+    reco_source = g_source(fake_target) 
+```
+
+```py
+ # backward cycle network and source discriminator
+    target_input = Input(shape=target_shape)
+    fake_source = g_source(target_input)
+    preal_source = d_source(fake_source)
+    reco_target = g_target(fake_source) 
+```
+
+```py
+ # if we use identity loss, add 2 extra loss terms
+    # and outputs
+    if identity:
+        iden_source = g_source(source_input)
+        iden_target = g_target(target_input)
+        loss = ['mse', 'mse', 'mae', 'mae', 'mae', 'mae']
+        loss_weights = [1., 1., 10., 10., 0.5, 0.5]
+        inputs = [source_input, target_input]
+        outputs = [preal_source,
+                   preal_target,
+                   reco_source,
+                   reco_target,
+                   iden_source,
+                   iden_target]
+    else:
+        loss = ['mse', 'mse', 'mae', 'mae']
+        loss_weights = [1., 1., 10., 10.]
+        inputs = [source_input, target_input]
+        outputs = [preal_source,
+                   preal_target,
+                   reco_source,
+                   reco_target] 
+```
+
+```py
+ # build adversarial model
+    adv = Model(inputs, outputs, name='adversarial')
+    optimizer = RMSprop(lr=lr*0.5, decay=decay*0.5)
+    adv.compile(loss=loss,
+                loss_weights=loss_weights,
+                optimizer=optimizer,
+                metrics=['accuracy'])
+    print('---- ADVERSARIAL NETWORK ----')
+    adv.summary() 
+```
+
+```py
+ return g_source, g_target, d_source, d_target, adv 
+```
+
+我们遵循训练过程，我们可以从上一节中的“算法 7.1.1”中调用。“列表 7.1.5”显示了 CycleGAN 训练。 此训练与原始 GAN 之间的次要区别是有两个要优化的判别器。 但是，只有一种对抗模型需要优化。 对于每 2,000 步，生成器将保存预测的源图像和目标图像。 我们将的批量大小设为 32。我们也尝试了 1 的批量大小，但是输出质量几乎相同，并且需要花费更长的时间进行训练（批量为每个图像 43 ms，在 NVIDIA GTX 1060 上批量大小为 32 时，最大大小为每个图像 1 vs 3.6 ms）
+
+“列表 7.1.5”：`cyclegan-7.1.1.py`
+
+`tf.keras`中的 CycleGAN 训练例程：
+
+```py
+def train_cyclegan(models,
+                   data,
+                   params,
+                   test_params,
+                   test_generator):
+    """ Trains the CycleGAN. 
+
+    1) Train the target discriminator
+    2) Train the source discriminator
+    3) Train the forward and backward cyles of 
+        adversarial networks 
+```
+
+```py
+ Arguments:
+    models (Models): Source/Target Discriminator/Generator,
+        Adversarial Model
+    data (tuple): source and target training data
+    params (tuple): network parameters
+    test_params (tuple): test parameters
+    test_generator (function): used for generating 
+        predicted target and source images
+    """ 
+```
+
+```py
+ # the models
+    g_source, g_target, d_source, d_target, adv = models
+    # network parameters
+    batch_size, train_steps, patch, model_name = params
+    # train dataset
+    source_data, target_data, test_source_data, test_target_data\
+            = data 
+```
+
+```py
+ titles, dirs = test_params 
+```
+
+```py
+ # the generator image is saved every 2000 steps
+    save_interval = 2000
+    target_size = target_data.shape[0]
+    source_size = source_data.shape[0] 
+```
+
+```py
+ # whether to use patchgan or not
+    if patch > 1:
+        d_patch = (patch, patch, 1)
+        valid = np.ones((batch_size,) + d_patch)
+        fake = np.zeros((batch_size,) + d_patch)
+    else:
+        valid = np.ones([batch_size, 1])
+        fake = np.zeros([batch_size, 1]) 
+```
+
+```py
+ valid_fake = np.concatenate((valid, fake))
+    start_time = datetime.datetime.now() 
+```
+
+```py
+ for step in range(train_steps):
+        # sample a batch of real target data
+        rand_indexes = np.random.randint(0,
+                                         target_size,
+                                         size=batch_size)
+        real_target = target_data[rand_indexes] 
+```
+
+```py
+ # sample a batch of real source data
+        rand_indexes = np.random.randint(0,
+                                         source_size,
+                                         size=batch_size)
+        real_source = source_data[rand_indexes]
+        # generate a batch of fake target data fr real source data
+        fake_target = g_target.predict(real_source) 
+```
+
+```py
+ # combine real and fake into one batch
+        x = np.concatenate((real_target, fake_target))
+        # train the target discriminator using fake/real data
+        metrics = d_target.train_on_batch(x, valid_fake)
+        log = "%d: [d_target loss: %f]" % (step, metrics[0]) 
+```
+
+```py
+ # generate a batch of fake source data fr real target data
+        fake_source = g_source.predict(real_target)
+        x = np.concatenate((real_source, fake_source))
+        # train the source discriminator using fake/real data
+        metrics = d_source.train_on_batch(x, valid_fake)
+        log = "%s [d_source loss: %f]" % (log, metrics[0]) 
+```
+
+```py
+ # train the adversarial network using forward and backward
+        # cycles. the generated fake source and target 
+        # data attempts to trick the discriminators
+        x = [real_source, real_target]
+        y = [valid, valid, real_source, real_target]
+        metrics = adv.train_on_batch(x, y)
+        elapsed_time = datetime.datetime.now() - start_time
+        fmt = "%s [adv loss: %f] [time: %s]"
+        log = fmt % (log, metrics[0], elapsed_time)
+        print(log)
+        if (step + 1) % save_interval == 0:
+            test_generator((g_source, g_target),
+                           (test_source_data, test_target_data),
+                           step=step+1,
+                           titles=titles,
+                           dirs=dirs,
+                           show=False) 
+```
+
+```py
+ # save the models after training the generators
+    g_source.save(model_name + "-g_source.h5")
+    g_target.save(model_name + "-g_target.h5") 
+```
+
+最后，在使用 CycleGAN 构建和训练函数之前，我们必须执行一些数据准备。 模块`cifar10_utils.py`和`other_ utils.py`加载`CIFAR10`训练和测试数据。 有关这两个文件的详细信息，请参考源代码。 加载后，将训练图像和测试图像转换为灰度，以生成源数据和测试源数据。
+
+“列表 7.1.6”显示了 CycleGAN 如何用于构建和训练用于灰度图像着色的生成器网络（`g_target`）。 由于 CycleGAN 是对称的，因此我们还构建并训练了第二个生成器网络（`g_source`），该网络可以将颜色转换为灰度。 训练了两个 CycleGAN 着色网络。 第一种使用标量输出类似于原始 GAN 的判别器，第二种使用`2 x 2` PatchGAN。
+
+“列表 7.1.6”：`cyclegan-7.1.1.py`
+
+CycleGAN 用于着色：
+
+```py
+def graycifar10_cross_colorcifar10(g_models=None):
+    """Build and train a CycleGAN that can do
+        grayscale <--> color cifar10 images
+    """ 
+```
+
+```py
+ model_name = 'cyclegan_cifar10'
+    batch_size = 32
+    train_steps = 100000
+    patchgan = True
+    kernel_size = 3
+    postfix = ('%dp' % kernel_size) \
+            if patchgan else ('%d' % kernel_size) 
+```
+
+```py
+ data, shapes = cifar10_utils.load_data()
+    source_data, _, test_source_data, test_target_data = data
+    titles = ('CIFAR10 predicted source images.',
+              'CIFAR10 predicted target images.',
+              'CIFAR10 reconstructed source images.',
+              'CIFAR10 reconstructed target images.')
+    dirs = ('cifar10_source-%s' % postfix, \
+            'cifar10_target-%s' % postfix) 
+```
+
+```py
+ # generate predicted target(color) and source(gray) images
+    if g_models is not None:
+        g_source, g_target = g_models
+        other_utils.test_generator((g_source, g_target),
+                                   (test_source_data, \
+                                           test_target_data),
+                                   step=0,
+                                   titles=titles,
+                                   dirs=dirs,
+                                   show=True)
+        return 
+```
+
+```py
+ # build the cyclegan for cifar10 colorization
+    models = build_cyclegan(shapes,
+                            "gray-%s" % postfix,
+                            "color-%s" % postfix,
+                            kernel_size=kernel_size,
+                            patchgan=patchgan)
+    # patch size is divided by 2^n since we downscaled the input
+    # in the discriminator by 2^n (ie. we use strides=2 n times)
+    patch = int(source_data.shape[1] / 2**4) if patchgan else 1
+    params = (batch_size, train_steps, patch, model_name)
+    test_params = (titles, dirs)
+    # train the cyclegan
+    train_cyclegan(models,
+                   data,
+                   params,
+                   test_params,
+                   other_utils.test_generator) 
+```
+
+在的下一部分中，我们将检查 CycleGAN 的生成器输出以进行着色。
+
+## CycleGAN 的生成器输出
+
+“图 7.1.13”显示 CycleGAN 的着色结果。 源图像来自测试数据集：
+
+![](img/B14853_07_13.png)
+
+图 7.1.13：使用不同技术进行着色。 显示的是基本事实，使用自编码器的着色（第 3 章，自编码器），使用带有原始 GAN 判别器的 CycleGAN 进行着色，以及使用带有 PatchGAN 判别器的 CycleGAN 进行着色。 彩色效果最佳。 原始彩色照片可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter7-cross-domain-gan/README.md)中找到。
+
+为了进行比较，我们使用第 3 章，“自编码器”中描述的普通自编码器显示了地面真实情况和着色结果。 通常，所有彩色图像在感觉上都是可接受的。 总体而言，似乎每种着色技术都有自己的优点和缺点。 所有着色方法与天空和车辆的正确颜色不一致。
+
+例如，平面背景（第三行，第二列）中的天空为白色。 自编码器没错，但是 CycleGAN 认为它是浅棕色或蓝色。
+
+对于第六行第六列，暗海上的船天空阴沉，但自编码器将其涂成蓝色和蓝色，而 CycleGAN 将其涂成蓝色和白色，而没有 PatchGAN。 两种预测在现实世界中都是有意义的。 同时，使用 PatchGAN 对 CycleGAN 的预测与基本事实相似。 在倒数第二行和第二列上，没有方法能够预测汽车的红色。 在动物身上，CycleGAN 的两种口味都具有接近真实情况的颜色。
+
+由于 CycleGAN 是对称的，因此它还能在给定彩色图像的情况下预测灰度图像。“图 7.1.14”显示了两个 CycleGAN 变体执行的颜色到灰度转换。 目标图像来自测试数据集。 除了某些图像的灰度阴影存在细微差异外，这些预测通常是准确的。
+
+![](img/B14853_07_14.png)
+
+图 7.1.14：颜色（来自图 7.1.9）到 CycleGAN 的灰度转换
+
+要训​​练 CycleGAN 进行着色，命令是：
+
+```py
+python3 cyclegan-7.1.1.py -c 
+```
+
+读者可以使用带有 PatchGAN 的 CycleGAN 预训练模型来运行图像转换：
+
+```py
+python3 cyclegan-7.1.1.py --cifar10_g_source=cyclegan_cifar10-g_source.h5
+--cifar10_g_target=cyclegan_cifar10-g_target.h5 
+```
+
+在本节中，我们演示了 CycleGAN 在着色上的一种实际应用。 在下一部分中，我们将在更具挑战性的数据集上训练 CycleGAN。 源域 MNIST 与目标域 SVHN 数据集有很大的不同[1]。
+
+## MNIST 和 SVHN 数据集上的 CycleGAN
+
+我们现在要解决一个更具挑战性的问题。 假设我们使用 MNIST 灰度数字作为源数据，并且我们想从 *SVHN* [1]中借鉴样式，这是我们的目标数据。 每个域中的样本数据显示在“图 7.1.15”中：
+
+![](img/B14853_07_15.png)
+
+图 7.1.15：两个未对齐数据的不同域。 原始彩色照片可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter7-cross-domain-gan/README.md)中找到。
+
+我们可以重用上一节中讨论的 CycleGAN 的所有构建和训练函数，以执行样式迁移。 唯一的区别是，我们必须添加用于加载 MNIST 和 SVHN 数据的例程。 SVHN 数据集可在[这个页面](http://ufldl.stanford.edu/housenumbers/)中找到。
+
+我们介绍`mnist_svhn_utils.py`模块来帮助我们完成此任务。“列表 7.1.7”显示了针对跨域迁移的 CycleGAN 的初始化和训练。
+
+CycleGAN 结构与上一部分相同，不同之处在于我们使用的核大小为 5，因为两个域完全不同。
+
+“列表 7.1.7”：`cyclegan-7.1.1.py`
+
+CycleGAN 用于 MNIST 和 SVHN 之间的跨域样式迁移：
+
+```py
+def mnist_cross_svhn(g_models=None):
+    """Build and train a CycleGAN that can do mnist <--> svhn
+    """ 
+```
+
+```py
+ model_name = 'cyclegan_mnist_svhn'
+    batch_size = 32
+    train_steps = 100000
+    patchgan = True
+    kernel_size = 5
+    postfix = ('%dp' % kernel_size) \
+            if patchgan else ('%d' % kernel_size) 
+```
+
+```py
+ data, shapes = mnist_svhn_utils.load_data()
+    source_data, _, test_source_data, test_target_data = data
+    titles = ('MNIST predicted source images.',
+              'SVHN predicted target images.',
+              'MNIST reconstructed source images.',
+              'SVHN reconstructed target images.')
+    dirs = ('mnist_source-%s' \
+            % postfix, 'svhn_target-%s' % postfix) 
+```
+
+```py
+ # generate predicted target(svhn) and source(mnist) images
+    if g_models is not None:
+        g_source, g_target = g_models
+        other_utils.test_generator((g_source, g_target),
+                                   (test_source_data, \
+                                           test_target_data),
+                                   step=0,
+                                   titles=titles,
+                                   dirs=dirs,
+                                   show=True)
+        return 
+```
+
+```py
+ # build the cyclegan for mnist cross svhn
+    models = build_cyclegan(shapes,
+                            "mnist-%s" % postfix,
+                            "svhn-%s" % postfix,
+                            kernel_size=kernel_size,
+                            patchgan=patchgan)
+    # patch size is divided by 2^n since we downscaled the input
+    # in the discriminator by 2^n (ie. we use strides=2 n times)
+    patch = int(source_data.shape[1] / 2**4) if patchgan else 1
+    params = (batch_size, train_steps, patch, model_name)
+    test_params = (titles, dirs)
+    # train the cyclegan
+    train_cyclegan(models,
+                   data,
+                   params,
+                   test_params,
+                   other_utils.test_generator) 
+```
+
+将 MNIST 从测试数据集迁移到 SVHN 的结果显示在“图 7.1.16”中。 生成的图像具有样式的 SVHN，但是数字未完全传送。 例如，在第四行上，数字 3、1 和 3 由 CycleGAN 进行样式化。
+
+但是，在第三行中，不带有和带有 PatchGAN 的 CycleGAN 的数字 9、6 和 6 分别设置为 0、6、01、0、65 和 68：
+
+![](img/B14853_07_16.png)
+
+图 7.1.16：测试数据从 MNIST 域到 SVHN 的样式迁移。 原始彩色照片可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter7-cross-domain-gan/README.md)中找到。
+
+向后循环的结果为“图 7.1.17”中所示的。 在这种情况下，目标图像来自 SVHN 测试数据集。 生成的图像具有 MNIST 的样式，但是数字没有正确翻译。 例如，在第一行中，对于不带和带有 PatchGAN 的 CycleGAN，数字 5、2 和 210 分别被样式化为 7、7、8、3、3 和 1：
+
+![](img/B14853_07_17.png)
+
+图 7.1.17：测试数据从 SVHN 域到 MNIST 的样式迁移。 原始彩色照片可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter7-cross-domain-gan/README.md)中找到。
+
+在 PatchGAN 的情况下，假设预测的 MNIST 数字被限制为一位，则输出 1 是可以理解的。 有以某种方式正确的预测，例如在第二行中，不使用 PatchGAN 的 CycleGAN 将 SVHN 数字的最后三列 6、3 和 4 转换为 6、3 和 6。 但是，CycleGAN 两种版本的输出始终是个位数且可识别。
+
+从 MNIST 到 SVHN 的转换中出现的问题称为“标签翻转”[8]，其中源域中的数字转换为目标域中的另一个数字。 尽管 CycleGAN 的预测是周期一致的，但它们不一定是语义一致的。 在翻译过程中数字的含义会丢失。
+
+为了解决这个问题， *Hoffman* [8]引入了一种改进的 CycleGAN，称为**循环一致性对抗域自适应**（**CyCADA**）。 不同之处在于，附加的语义损失项可确保预测不仅周期一致，而且语义一致。
+
+“图 7.1.18”显示 CycleGAN 在正向循环中重建 MNIST 数字。 重建的 MNIST 数字几乎与源 MNIST 数字相同：
+
+![](img/B14853_07_18.png)
+
+图 7.1.18：带有 MNIST 上的 PatchGAN 的 CycleGAN（源）到 SVHN（目标）的前向周期。 重建的源类似于原始源。 原始彩色照片可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter7-cross-domain-gan/README.md)中找到。
+
+“图 7.1.19”显示了 CycleGAN 在向后周期中重构 SVHN 数字的过程：
+
+![](img/B14853_07_19.png)
+
+图 7.1.19：带有 MNIST 上的 PatchGAN 的 CycleGAN 与 SVHN（目标）的反向循环。 重建的目标与原始目标并不完全相似。 原始彩色照片可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/blob/master/chapter7-cross-domain-gan/README.md)中找到。
+
+在“图 7.1.3”中，CycleGAN 被描述为具有周期一致性。 换句话说，给定源`x`，CycleGAN 将正向循环中的源重构为`x'`。 另外，在给定目标`y`的情况下，CycleGAN 在反向循环中将目标重构为`y'`。
+
+重建了许多目标图像。 有些数字显然是相同的，例如最后两列（3 和 4）中的第二行，而有些数字却是相同的但是模糊的，例如前两列列中的第一行（5 和 2）。  尽管样式仍像第二行一样，但在前两列（从 33 和 6 到 1 以及无法识别的数字）中，有些数字会转换为另一数字。
+
+要将 MNIST 的 CycleGAN 训练为 SVHN，命令为：
+
+```py
+python3 cyclegan-7.1.1.py -m 
+```
+
+鼓励读者使用带有 PatchGAN 的 CycleGAN 预训练模型来运行图像翻译：
+
+```py
+python3 cyclegan-7.1.1.py --mnist_svhn_g_source=cyclegan_mnist_svhn-g_ source.h5 --mnist_svhn_g_target=cyclegan_mnist_svhn-g_target.h5 
+```
+
+到目前为止，我们只看到了 CycleGAN 的两个实际应用。 两者都在小型数据集上进行了演示，以强调可重复性的概念。 如本章前面所述，CycleGAN 还有许多其他实际应用。 我们在这里介绍的 CycleGAN 可以作为分辨率更高的图像转换的基础。
+
+# 2\. 总结
+
+在本章中，我们讨论了 CycleGAN 作为可用于图像翻译的算法。 在 CycleGAN 中，源数据和目标数据不一定要对齐。 我们展示了两个示例，*灰度 ↔ 颜色*和 *MNIST ↔ SVHN* ，尽管 CycleGAN 可以执行许多其他可能的图像转换 。
+
+在下一章中，我们将着手另一种生成模型，即**变分自编码器**（**VAE**）。 VAE 具有类似的学习目标–如何生成新图像（数据）。 他们专注于学习建模为高斯分布的潜在向量。 我们将以有条件的 VAE 和解开 VAE 中的潜在表示形式来证明 GAN 解决的问题中的其他相似之处。
+
+# 3\. 参考
+
+1.  `Yuval Netzer et al.: Reading Digits in Natural Images with Unsupervised Feature Learning. NIPS workshop on deep learning and unsupervised feature learning. Vol. 2011. No. 2. 2011 (https://www-cs.stanford.edu/~twangcat/papers/nips2011_housenumbers.pdf).`
+1.  `Zhu-Jun-Yan et al.: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017 (http://openaccess.thecvf.com/content_ICCV_2017/papers/Zhu_Unpaired_Image-To-Image_Translation_ICCV_2017_paper.pdf).`
+1.  `Phillip Isola et al.: Image-to-Image Translation with Conditional Adversarial Networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017 (http://openaccess.thecvf.com/content_cvpr_2017/papers/Isola_Image-To-Image_Translation_With_CVPR_2017_paper.pdf).`
+1.  `Mehdi Mirza and Simon Osindero. Conditional Generative Adversarial Nets. arXiv preprint arXiv:1411.1784, 2014 (https://arxiv.org/pdf/1411.1784.pdf).`
+1.  `Xudong Mao et al.: Least Squares Generative Adversarial Networks. 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017 (http://openaccess.thecvf.com/content_ICCV_2017/papers/Mao_Least_Squares_Generative_ICCV_2017_paper.pdf).`
+1.  `Chuan Li and Michael Wand. Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks. European Conference on Computer Vision. Springer, Cham, 2016 (https://arxiv.org/pdf/1604.04382.pdf).`
+1.  `Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-Net: Convolutional Networks for Biomedical Image Segmentation. International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015 (https://arxiv.org/pdf/1505.04597.pdf).`
+1.  `Judy Hoffman et al.: CyCADA: Cycle-Consistent Adversarial Domain Adaptation. arXiv preprint arXiv:1711.03213, 2017 (https://arxiv.org/pdf/1711.03213.pdf).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/08.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/08.md
new file mode 100644
index 00000000..c45a273c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/08.md
@@ -0,0 +1,699 @@
+# 八、变分自编码器（VAE）
+
+与我们在之前的章节中讨论过的**生成对抗网络**（**GAN**）类似，**变分自编码器**（**VAE**）[1] 属于生成模型家族。 VAE 的生成器能够在导航其连续潜在空间的同时产生有意义的输出。 通过潜向量探索解码器输出的可能属性。
+
+在 GAN 中，重点在于如何得出近似输入分布的模型。 VAE 尝试对可解码的连续潜在空间中的输入分布进行建模。 这是 GAN 与 VAE 相比能够生成更真实信号的可能的潜在原因之一。 例如，在图像生成中，GAN 可以生成看起来更逼真的图像，而相比之下，VAE 生成的图像清晰度较差。
+
+在 VAE 中，重点在于潜在代码的变分推理。 因此，VAE 为潜在变量的学习和有效贝叶斯推理提供了合适的框架。 例如，带有解缠结表示的 VAE 可以将潜在代码重用于迁移学习。
+
+在结构上，VAE 与自编码器相似。 它也由编码器（也称为识别或推理模型）和解码器（也称为生成模型）组成。 VAE 和自编码器都试图在学习潜向量的同时重建输入数据。
+
+但是，与自编码器不同，VAE 的潜在空间是连续的，并且解码器本身被用作生成模型。
+
+在前面各章中讨论的 GAN 讨论中，也可以对 VAE 的解码器进行调整。 例如，在 MNIST 数据集中，我们能够指定一个给定的单热向量产生的数字。 这种有条件的 VAE 类别称为 CVAE [2]。 也可以通过在损失函数中包含正则化超参数来解开 VAE 潜向量。 这称为 β-VAE [5]。 例如，在 MNIST 中，我们能够隔离确定每个数字的粗细或倾斜角度的潜向量。 本章的目的是介绍：
+
+*   VAE 的原理
+*   了解重新参数化技巧，有助于在 VAE 优化中使用随机梯度下降
+*   有条件的 VAE（CVAE）和 β-VAE 的原理
+*   了解如何使用`tf.keras`实现 VAE
+
+我们将从谈论 VAE 的基本原理开始。
+
+# 1\. VAE 原理
+
+在生成模型中，我们经常对使用神经网络来逼近输入的真实分布感兴趣：
+
+![](img/B14853_08_003.png) (Equation 8.1.1)
+
+在前面的等式中，`θ`表示训练期间确定的参数。 例如，在名人面孔数据集的上下文中，这等效于找到可以绘制面孔的分布。 同样，在 MNIST 数据集中，此分布可以生成可识别的手写数字。
+
+在机器学习中，为了执行特定级别的推理，我们有兴趣寻找`P[θ](x, z)`，这是输入`x`和潜在变量`z`之间的联合分布。 潜在变量不是数据集的一部分，而是对可从输入中观察到的某些属性进行编码。 在名人面孔的背景下，这些可能是面部表情，发型，头发颜色，性别等。 在 MNIST 数据集中，潜在变量可以表示数字和书写样式。
+
+`P[θ](x, z)`实际上是输入数据点及其属性的分布。 `P[θ](x)`可以从边际分布计算得出：
+
+![](img/B14853_08_010.png) (Equation 8.1.2)
+
+换句话说，考虑所有可能的属性，我们最终得到描述输入的分布。 在名人面孔中，如果考虑所有面部表情，发型，头发颜色和性别，将恢复描述名人面孔的分布。 在 MNIST 数据集中，如果考虑所有可能的数字，书写风格等，我们以手写数字的分布来结束。
+
+问题在于“公式 8.1.2”很难处理。 该方程式没有解析形式或有效的估计量。 它的参数无法微分。 因此，通过神经网络进行优化是不可行的。
+
+使用贝叶斯定理，我们可以找到“公式 8.1.2”的替代表达式：
+
+![](img/B14853_08_011.png) (Equation 8.1.3)
+
+`P(z)`是`z`的先验分布。 它不以任何观察为条件。 如果`z`是离散的，而`P[θ](x | z)`是高斯分布，则`P[θ](x)`是高斯的混合。 如果`z`是连续的，则`P[θ](x)`是高斯的无限混合。
+
+实际上，如果我们尝试在没有合适的损失函数的情况下建立一个近似`P[θ](x | z)`的神经网络，它将忽略`z`得出一个简单的解`P[θ](x | z) = P[θ](x)`。 因此，“公式 8.1.3”无法为我们提供`P[θ](x)`的良好估计。 或者，“公式 8.1.2”也可以表示为：
+
+![](img/B14853_08_024.png) (Equation 8.1.4)
+
+但是，`P[θ](z | x)`也很棘手。 VAE 的目标是在给定输入的情况下，找到一种可预测的分布，该分布易于估计`P[θ](z | x)`，即潜在属性`z`的条件分布的估计。
+
+## 变分推理
+
+为了使易于处理，VAE 引入了变化推理模型（编码器）：
+
+![](img/B14853_08_030.png) (Equation 8.1.5)
+
+`Q[φ](z | x)`提供了`P[θ](z | x)`的良好估计。 它既参数化又易于处理。 `Q[φ](z | x)`可以通过优化参数`φ`由深度神经网络近似。 通常，`Q[φ](z | x)`被选择为多元高斯：
+
+![](img/B14853_08_036.png) (Equation 8.1.6)
+
+均值`μ(x)`和标准差`σ(x)`均由编码器神经网络使用输入数据点计算得出。 对角线矩阵表示`z`的元素是独立的。
+
+在下一节中，我们将求解 VAE 的核心方程。 核心方程式将引导我们找到一种优化算法，该算法将帮助我们确定推理模型的参数。
+
+## 核心方程
+
+推理模型`Q[φ](z | x)`从输入`x`生成潜向量`z`。 `Q[φ](z | x)`似于自编码器模型中的编码器。 另一方面，从潜在代码`z`重构输入。 `P[θ](x | z)`的作用类似于自编码器模型中的解码器。 要估计`P[θ](x)`，我们必须确定其与`Q[φ](z | x)`和`P[θ](x | z)`的关系。
+
+如果`Q[φ](z | x)`是`P[θ](z | x)`的估计值，则 **Kullback-Leibler**（**KL**）的差异决定了这两个条件密度之间的距离：
+
+![](img/B14853_08_052.png) (Equation 8.1.7)
+
+使用贝叶斯定理：
+
+![](img/B14853_08_053.png) (Equation 8.1.8)
+
+在“公式 8.1.7”中：
+
+![](img/B14853_08_054.png) (Equation 8.1.9)
+
+由于`log P[θ](x)`不依赖于`z ~ Q`，因此可能会超出预期。 重新排列“公式 8.1.9”并认识到：
+
+![](img/B14853_08_057.png)，其结果是：
+
+![](img/B14853_08_058.png) (Equation 8.1.10)
+
+“公式 8.1.10”是 VAE 的核心。 左侧是项`P[θ](x)`，由于`Q[φ](z | x)`与真实`P[θ](z | x)`的距离，我们使误差最小化。 我们可以记得，的对数不会更改最大值（或最小值）的位置。 给定提供`P[θ](z | x)`良好估计的推断模型，`D[KL](Q[φ](z | x) || P[θ](z | x)`大约为零。
+
+右边的第一项`P[θ](x | z)`类似于解码器，该解码器从推理模型中抽取样本以重建输入。
+
+第二个项是另一个距离。 这次是在`Q[φ](z | x)`和先前的`P[θ](z)`之间。 “公式 8.1.10”的左侧也称为**变异下界**或**证据下界**（**ELBO**）。 由于 KL 始终为正，因此 ELBO 是`log P[θ](x)`的下限。 通过优化神经网络的参数`φ`和`θ`来最大化 ELBO 意味着：
+
+*   在将`z`中的`x`属性编码时，`D[KL](Q[φ](z | x) || P[θ](z | x) -> 0`或推理模型变得更好。
+*   右边的`log P[θ](x | z)`最大化了“公式 8.1.10”或解码器模型在从潜在向量`z`重构`x`方面变得更好。
+*   在下一节中，我们将利用“公式 8.1.10”的结构来确定推理模型（编码器）和解码器的损失函数。
+
+## 优化
+
+“公式 8.1.10”的右侧具有有关 VAE 的`loss`函数的两个重要信息。 解码器项`E[z~Q] [log P[θ](x | z)]`表示生成器从推理模型的输出中提取`z`个样本，以重建输入。 使最大化是指我们将**重构损失**和`L_R`降到最低。 如果假设图像（数据）分布为高斯分布，则可以使用 MSE。
+
+如果每个像素（数据）都被认为是伯努利分布，那么损失函数就是二进制互熵。
+
+第二项`-D[KL](Q[φ](z | x) || P[θ](z))`易于评估。 根据“公式 8.1.6”，`Q[φ]`是高斯分布。 通常，`P[θ](z) = P(z) = N(0, 1)`也是平均值为零且标准差等于 1.0 的高斯。 在“公式 8.1.11”中，我们看到 KL 项简化为：
+
+![](img/B14853_08_082.png) (Equation 8.1.11)
+
+其中`J`是`z`的维。 `μ[j]`和`σ[j]`都是通过推理模型计算的`x`的函数。 要最大化：`-D[KL]`，`σ[j] -> 1`和`μ[j] -> 9`。 `P(z) = N(0, 1)`的选择源于各向同性单位高斯的性质，在具有适当函数的情况下，它可以变形为任意分布[6]。
+
+根据“公式 8.1.11”，KL 损失`L_KL`简称为`D[KL]`。
+
+总之，在“公式 8.1.12”中将 VAE `loss`函数定义为：
+
+![](img/B14853_08_094.png) (Equation 8.1.12)
+
+在给定编码器和解码器模型的情况下，在我们可以构建和训练 VAE（随机采样块，生成潜在属性）之前，还需要解决一个问题。 在下一节中，我们将讨论此问题以及如何使用重新参数化技巧解决它。
+
+## 重新参数化技巧
+
+“图 8.1.1”的左侧显示了 VAE 网络。 编码器获取输入`x`，并估计潜向量`z`的多元高斯分布的平均值`μ`和标准差`σ`。 解码器从潜向量`z`中提取样本，以将输入重构为`x_tilde`。 这似乎很简单，直到在反向传播期间发生梯度更新为止：
+
+![](img/B14853_08_01.png)
+
+图 8.1.1：带有和不带有重新参数化技巧的 VAE 网络
+
+反向传播梯度将不会通过随机**采样**块。 尽管具有用于神经网络的随机输入是可以的，但梯度不可能穿过随机层。
+
+解决此问题的方法是将**采样**处理作为输入，如“图 8.1.1”右侧所示。 然后，将样本计算为：
+
+![](img/B14853_08_101.png) (Equation 8.1.13)
+
+如果`ε`和`σ`以向量格式表示，则`εσ`是逐元素乘法。 使用“公式 8.1.13”，看起来好像采样直接来自潜在空间一样。 这项技术被称为*重新参数化技巧*。
+
+现在，在输入端发生*采样*时，可以使用熟悉的优化算法（例如 SGD，Adam 或 RMSProp）来训练 VAE 网络。
+
+在讨论如何在`tf.keras`中实现 VAE 之前，让我们首先展示如何测试经过训练的解码器。
+
+## 解码器测试
+
+在训练了 VAE 网络之后，可以丢弃推理模型，包括加法和乘法运算符。 为了生成新的有意义的输出，请从用于生成`ε`的高斯分布中抽取样本。“图 8.1.2”向我们展示了解码器的测试设置：
+
+![](img/B14853_08_02.png)
+
+图 8.1.2：解码器测试设置
+
+通过重新参数化技巧解决了 VAE 上的最后一个问题，我们现在可以在`tf.keras`中实现和训练变分自编码器。
+
+## ALAS 与 Keras
+
+VAE 的结构类似于典型的自编码器。 区别主要在于重新参数化技巧中的高斯随机变量的采样。“列表 8.1.1”显示了使用 MLP 实现的编码器，解码器和 VAE。
+
+[此代码也已添加到官方 Keras GitHub 存储库中](https://github.com/keras-team/keras/blob/master/examples/variational_autoencoder.py)。
+
+为便于显示潜在代码，将`z`的维设置为 2。编码器仅是两层 MLP，第二层生成均值和对数方差。 对数方差的使用是为了简化 KL 损失和重新参数化技巧的计算。 编码器的第三个输出是使用重新参数化技巧进行的`z`采样。 我们应该注意，在采样函数`exp(0.5 log σ²) = sqrt(σ²) = σ`中，因为`σ > 0`假定它是高斯分布的标准差。
+
+解码器也是两层 MLP，它采用`z`的样本来近似输入。 编码器和解码器均使用大小为 512 的中间尺寸。
+
+VAE 网络只是将编码器和解码器连接在一起。 `loss`函数是*重建损失*和 *KL 损失*的总和。 在默认的 Adam 优化器上，VAE 网络具有良好的效果。 VAE 网络中的参数总数为 807,700。
+
+VAE MLP 的 Keras 代码具有预训练的权重。 要测试，我们需要运行：
+
+```py
+python3 vae-mlp-mnist-8.1.1.py --weights=vae_mlp_mnist.tf 
+```
+
+[完整的代码可以在以下链接中找到](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+“列表 8.1.1”：`vae-mlp-mnist-8.1.1.py`
+
+```py
+# reparameterization trick
+# instead of sampling from Q(z|X), sample eps = N(0,I)
+# z = z_mean + sqrt(var)*eps
+def sampling(args):
+    """Reparameterization trick by sampling 
+        fr an isotropic unit Gaussian. 
+```
+
+```py
+ # Arguments:
+        args (tensor): mean and log of variance of Q(z|X) 
+```
+
+```py
+ # Returns:
+        z (tensor): sampled latent vector
+    """ 
+```
+
+```py
+ z_mean, z_log_var = args
+    # K is the keras backend
+    batch = K.shape(z_mean)[0]
+    dim = K.int_shape(z_mean)[1]
+    # by default, random_normal has mean=0 and std=1.0
+    epsilon = K.random_normal(shape=(batch, dim))
+    return z_mean + K.exp(0.5 * z_log_var) * epsilon 
+```
+
+```py
+# MNIST dataset
+(x_train, y_train), (x_test, y_test) = mnist.load_data() 
+```
+
+```py
+image_size = x_train.shape[1]
+original_dim = image_size * image_size
+x_train = np.reshape(x_train, [-1, original_dim])
+x_test = np.reshape(x_test, [-1, original_dim])
+x_train = x_train.astype('float32') / 255
+x_test = x_test.astype('float32') / 255 
+```
+
+```py
+# network parameters
+input_shape = (original_dim, )
+intermediate_dim = 512
+batch_size = 128
+latent_dim = 2
+epochs = 50 
+```
+
+```py
+# VAE model = encoder + decoder
+# build encoder model
+inputs = Input(shape=input_shape, name='encoder_input')
+x = Dense(intermediate_dim, activation='relu')(inputs)
+z_mean = Dense(latent_dim, name='z_mean')(x)
+z_log_var = Dense(latent_dim, name='z_log_var')(x) 
+```
+
+```py
+# use reparameterization trick to push the sampling out as input
+# note that "output_shape" isn't necessary 
+# with the TensorFlow backend
+z = Lambda(sampling,
+           output_shape=(latent_dim,),
+           name='z')([z_mean, z_log_var]) 
+```
+
+```py
+# instantiate encoder model
+encoder = Model(inputs, [z_mean, z_log_var, z], name='encoder') 
+```
+
+```py
+# build decoder model
+latent_inputs = Input(shape=(latent_dim,), name='z_sampling')
+x = Dense(intermediate_dim, activation='relu')(latent_inputs)
+outputs = Dense(original_dim, activation='sigmoid')(x) 
+```
+
+```py
+# instantiate decoder model
+decoder = Model(latent_inputs, outputs, name='decoder')
+# instantiate VAE model
+outputs = decoder(encoder(inputs)[2])
+vae = Model(inputs, outputs, name='vae_mlp') 
+```
+
+```py
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    help_ = "Load tf model trained weights"
+    parser.add_argument("-w", "--weights", help=help_)
+    help_ = "Use binary cross entropy instead of mse (default)"
+    parser.add_argument("--bce", help=help_, action='store_true')
+    args = parser.parse_args()
+    models = (encoder, decoder)
+    data = (x_test, y_test) 
+```
+
+```py
+ # VAE loss = mse_loss or xent_loss + kl_loss
+    if args.bce:
+        reconstruction_loss = binary_crossentropy(inputs,
+                                                  outputs)
+    else:
+        reconstruction_loss = mse(inputs, outputs)
+
+    reconstruction_loss *= original_dim
+    kl_loss = 1 + z_log_var - K.square(z_mean) - K.exp(z_log_var)
+    kl_loss = K.sum(kl_loss, axis=-1)
+    kl_loss *= -0.5
+    vae_loss = K.mean(reconstruction_loss + kl_loss)
+    vae.add_loss(vae_loss)
+    vae.compile(optimizer='adam') 
+```
+
+“图 8.1.3”显示了编码器模型，它是一个 MLP，具有两个输出，即潜向量的均值和方差。 lambda 函数实现了重新参数化技巧，将随机潜在代码的采样推送到 VAE 网络之外：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_08_03.png)
+
+图 8.1.3：VAE MLP 的编码器模型
+
+“图 8.1.4”显示了解码器模型。 2 维输入来自 lambda 函数。 输出是重构的 MNIST 数字：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_08_04.png)
+
+图 8.1.4：VAE MLP 的解码器模型
+
+“图 8.1.5”显示了完整的 VAE 模型。 通过将编码器和解码器模型结合在一起制成：
+
+![](img/B14853_08_05.png)
+
+图 8.1.5：使用 MLP 的 VAE 模型
+
+“图 8.1.6”显示了使用`plot_results()`在 50 个周期后潜向量的连续空间。 为简单起见，此函数未在此处显示，但可以在`vae-mlp-mnist-8.1.1.py`的其余代码中找到。 该函数绘制两个图像，即测试数据集标签（“图 8.1.6”）和样本生成的数字（“图 8.1.7”），这两个图像都是`z`的函数。 这两个图都说明了潜在向量如何确定所生成数字的属性：
+
+![A close up of a plant  Description automatically generated](img/B14853_08_06.png)
+
+图 8.1.6：MNIST 数字标签作为测试数据集（VAE MLP）的潜在向量平均值的函数。 原始图像可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter8-vae)中找到。
+
+浏览时，连续空格始终会产生与 MNIST 数字相似的输出。 例如，数字 9 的区域接近数字 7 的区域。从中心附近的 9 移动到左下角会将数字变形为 7。从中心向上移动会将生成的数字从 3 更改为 5，最后变为 0.数字的变形在“图 8.1.7”中更明显，这是解释“图 8.1.6”的另一种方式。
+
+在“图 8.1.7”中，显示生成器输出。 显示了潜在空间中数字的分布。 可以观察到所有数字都被表示。 由于中心附近分布密集，因此变化在中间迅速，在平均值较高的区域则缓慢。 我们需要记住，“图 8.1.7”是“图 8.1.6”的反映。 例如，数字 0 在两个图的左上象限中，而数字 1 在右下象限中。
+
+“图 8.1.7”中存在一些无法识别的数字，尤其是在右上象限中。 从“图 8.1.6”可以看出，该区域大部分是空的，并且远离中心：
+
+![](img/B14853_08_07.png)
+
+图 8.1.7：根据潜在向量平均值（VAE MLP）生成的数字。 为了便于解释，均值的范围类似于图 8.1.6
+
+在本节中，我们演示了如何在 MLP 中实现 VAE。 我们还解释了导航潜在空间的结果。 在的下一部分中，我们将使用 CNN 实现相同的 VAE。
+
+## 带有 CNN 的 AE
+
+在原始论文《自编码变分贝叶斯》[1]中，使用 MLP 来实现 VAE 网络，这与我们在上一节中介绍的类似。 在本节中，我们将证明使用 CNN 将显着提高所产生数字的质量，并将参数数量显着减少至 134,165。
+
+“列表 8.1.3”显示了编码器，解码器和 VAE 网络。 [该代码也被添加到了官方的 Keras GitHub 存储库中](https://github.com/keras-team/keras/blob/master/examples/variational_autoencoder_deconv.py)。
+
+为简洁起见，不再显示与 MLP VAE 类似的某些代码行。 编码器由两层 CNN 和两层 MLP 组成，以生成潜在代码。 编码器的输出结构与上一节中看到的 MLP 实现类似。 解码器由一层`Dense`和三层转置的 CNN 组成。
+
+VAE CNN 的 Keras 代码具有预训练的权重。 要测试，我们需要运行：
+
+```py
+python3 vae-cnn-mnist-8.1.2.py --weights=vae_cnn_mnist.tf 
+```
+
+“列表 8.1.3”：`vae-cnn-mnist-8.1.2.py`
+
+使用 CNN 层的`tf.keras`中的 VAE：
+
+```py
+# network parameters
+input_shape = (image_size, image_size, 1)
+batch_size = 128
+kernel_size = 3
+filters = 16
+latent_dim = 2
+epochs = 30 
+```
+
+```py
+# VAE model = encoder + decoder
+# build encoder model
+inputs = Input(shape=input_shape, name='encoder_input')
+x = inputs
+for i in range(2):
+    filters *= 2
+    x = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               activation='relu',
+               strides=2,
+               padding='same')(x) 
+```
+
+```py
+# shape info needed to build decoder model
+shape = K.int_shape(x) 
+```
+
+```py
+# generate latent vector Q(z|X)
+x = Flatten()(x)
+x = Dense(16, activation='relu')(x)
+z_mean = Dense(latent_dim, name='z_mean')(x)
+z_log_var = Dense(latent_dim, name='z_log_var')(x) 
+```
+
+```py
+# use reparameterization trick to push the sampling out as input
+# note that "output_shape" isn't necessary 
+# with the TensorFlow backend
+z = Lambda(sampling,
+           output_shape=(latent_dim,),
+           name='z')([z_mean, z_log_var]) 
+```
+
+```py
+# instantiate encoder model
+encoder = Model(inputs, [z_mean, z_log_var, z], name='encoder') 
+```
+
+```py
+# build decoder model
+latent_inputs = Input(shape=(latent_dim,), name='z_sampling')
+x = Dense(shape[1] * shape[2] * shape[3],
+          activation='relu')(latent_inputs)
+x = Reshape((shape[1], shape[2], shape[3]))(x) 
+```
+
+```py
+for i in range(2):
+    x = Conv2DTranspose(filters=filters,
+                        kernel_size=kernel_size,
+                        activation='relu',
+                        strides=2,
+                        padding='same')(x)
+    filters //= 2 
+```
+
+```py
+outputs = Conv2DTranspose(filters=1,
+                          kernel_size=kernel_size,
+                          activation='sigmoid',
+                          padding='same',
+                          name='decoder_output')(x) 
+```
+
+```py
+# instantiate decoder model
+decoder = Model(latent_inputs, outputs, name='decoder') 
+```
+
+```py
+# instantiate VAE model
+outputs = decoder(encoder(inputs)[2])
+vae = Model(inputs, outputs, name='vae') 
+```
+
+“图 8.1.8”显示了 CNN 编码器模型的两个输出，即潜向量的均值和方差。 lambda 函数实现了重新参数化技巧，将随机潜码的采样推送到 VAE 网络之外：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_08_08.png)
+
+图 8.1.8：VAE CNN 的编码器
+
+“图 8.1.9”显示了 CNN 解码器模型。 2 维输入来自 lambda 函数。 输出是重构的 MNIST 数字：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_08_09.png)
+
+图 8.1.9：VAE CNN 的解码器
+
+“图 8.1.10”显示完整的 CNN VAE 模型。 通过将编码器和解码器模型结合在一起制成：
+
+![](img/B14853_08_10.png)
+
+图 8.1.10：使用 CNN 的 VAE 模型
+
+对 VAE 进行了 30 个周期的训练。“图 8.1.11”显示了在导航 VAE 的连续潜在空间时数字的分布。 例如，从中间到右边从 2 变为 0：
+
+![A picture containing tree  Description automatically generated](img/B14853_08_11.png)
+
+图 8.1.11：MNIST 数字标签作为测试数据集（VAE CNN）的潜在向量平均值的函数。 原始图像可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter8-vae)中找到。
+
+“图 8.1.12”向我们展示了生成模型的输出。 从质量上讲，与“图 8.1.7”（具有 MLP 实现）相比，模棱两可的位数更少：
+
+![](img/B14853_08_12.png)
+
+图 8.1.12：根据潜在向量平均值（VAE CNN）生成的数字。 为了便于解释，均值的范围类似于图 8.1.11
+
+前的两节讨论了使用 MLP 或 CNN 的 VAE 的实现。 我们分析了两种实现方式的结果，结果表明 CNN 可以减少参数数量并提高感知质量。 在下一节中，我们将演示如何在 VAE 中实现条件，以便我们可以控制要生成的数字。
+
+# 2\. 条件 VAE（CVAE）
+
+有条件的 VAE [2]与 CGAN 相似。 在 MNIST 数据集的上下文中，如果随机采样潜在空间，则 VAE 无法控制将生成哪个数字。 CVAE 可以通过包含要产生的数字的条件（单标签）来解决此问题。 该条件同时施加在编码器和解码器输入上。
+
+正式地，将“公式 8.1.10”中 VAE 的核心公式修改为包括条件`c`：
+
+![](img/B14853_08_113.png) (Equation 8.2.1)
+
+与 VAE 相似，“公式 8.2.1”表示如果要最大化输出条件`c`和`P[θ](x | c)`，则必须最小化两个损失项：
+
+*   给定潜在向量和条件，解码器的重建损失。
+*   给定潜在向量和条件的编码器之间的 KL 损失以及给定条件的先验分布。 与 VAE 相似，我们通常选择`P[θ](x | c) = P(x | c) = N(0, 1)`。
+
+实现 CVAE 需要对 VAE 的代码进行一些修改。 对于 CVAE，使用 VAE CNN 实现是因为它可以形成一个较小的网络，并产生感知上更好的数字。
+
+“列表 8.2.1”突出显示了针对 MNIST 数字的 VAE 原始代码所做的更改。 编码器输入现在是原始输入图像及其单标签的连接。 解码器输入现在是潜在空间采样与其应生成的图像的一键热标签的组合。 参数总数为 174,437。 与 β-VAE 相关的代码将在本章下一节中讨论。
+
+损失函数没有改变。 但是，在训练，测试和结果绘制过程中会提供单热标签。
+
+“列表 8.2.1”：`cvae-cnn-mnist-8.2.1.py`
+
+`tf.keras`中使用 CNN 层的 CVAE。 重点介绍了为支持 CVAE 而进行的更改：
+
+```py
+# compute the number of labels
+num_labels = len(np.unique(y_train)) 
+```
+
+```py
+# network parameters
+input_shape = (image_size, image_size, 1)
+label_shape = (num_labels, )
+batch_size = 128
+kernel_size = 3
+filters = 16
+latent_dim = 2
+epochs = 30 
+```
+
+```py
+# VAE model = encoder + decoder
+# build encoder model
+inputs = Input(shape=input_shape, name='encoder_input')
+y_labels = Input(shape=label_shape, name='class_labels')
+x = Dense(image_size * image_size)(y_labels)
+x = Reshape((image_size, image_size, 1))(x)
+x = keras.layers.concatenate([inputs, x])
+for i in range(2):
+    filters *= 2
+    x = Conv2D(filters=filters,
+               kernel_size=kernel_size,
+               activation='relu',
+               strides=2,
+               padding='same')(x) 
+```
+
+```py
+# shape info needed to build decoder model
+shape = K.int_shape(x) 
+```
+
+```py
+# generate latent vector Q(z|X)
+x = Flatten()(x)
+x = Dense(16, activation='relu')(x)
+z_mean = Dense(latent_dim, name='z_mean')(x)
+z_log_var = Dense(latent_dim, name='z_log_var')(x) 
+```
+
+```py
+# use reparameterization trick to push the sampling out as input
+# note that "output_shape" isn't necessary 
+# with the TensorFlow backend
+z = Lambda(sampling,
+           output_shape=(latent_dim,),
+           name='z')([z_mean, z_log_var]) 
+```
+
+```py
+# instantiate encoder model
+encoder = Model([inputs, y_labels],
+                [z_mean, z_log_var, z],
+                name='encoder') 
+```
+
+```py
+# build decoder model
+latent_inputs = Input(shape=(latent_dim,), name='z_sampling')
+x = concatenate([latent_inputs, y_labels])
+x = Dense(shape[1]*shape[2]*shape[3], activation='relu')(x)
+x = Reshape((shape[1], shape[2], shape[3]))(x) 
+```
+
+```py
+for i in range(2):
+    x = Conv2DTranspose(filters=filters,
+                        kernel_size=kernel_size,
+                        activation='relu',
+                        strides=2,
+                        padding='same')(x)
+    filters //= 2 
+```
+
+```py
+outputs = Conv2DTranspose(filters=1,
+                          kernel_size=kernel_size,
+                          activation='sigmoid',
+                          padding='same',
+                          name='decoder_output')(x) 
+```
+
+```py
+# instantiate decoder model
+decoder = Model([latent_inputs, y_labels],
+                outputs,
+                name='decoder')
+# instantiate vae model
+outputs = decoder([encoder([inputs, y_labels])[2], y_labels])
+cvae = Model([inputs, y_labels], outputs, name='cvae') 
+```
+
+“图 8.2.1”显示了 CVAE 模型的编码器。 附加输入，即单热向量`class_labels`形式的条件标签表示：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_08_13.png)
+
+图 8.2.1：CVAE CNN 中的编码器。 输入现在包括 VAE 输入和条件标签的连接
+
+“图 8.2.2”显示了 CVAE 模型的解码器。 附加输入，即单热向量`class_labels`形式的条件标签表示：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_08_14.png)
+
+图 8.2.2：CVAE CNN 中的解码器。 输入现在包括 z 采样和条件标签的连接
+
+“图 8.2.3”显示了完整的 CVAE 模型，该模型是编码器和解码器结合在一起的。 附加输入，即单热向量`class_labels`形式的条件标签：
+
+![](img/B14853_08_15.png)
+
+图 8.2.3：使用 CNN 的 CVAE 模型。输入现在包含一个 VAE 输入和一个条件标签
+
+在“图 8.2.4”中，每个标记的平均值分布在 30 个周期后显示。 与前面章节中的“图 8.1.6”和“图 8.1.11”不同，每个标签不是集中在一个区域上，而是分布在整个图上。 这是预期的，因为潜在空间中的每个采样都应生成一个特定的数字。 浏览潜在空间会更改该特定数字的属性。 例如，如果指定的数字为 0，则在潜伏空间中导航仍将产生 0，但是诸如倾斜角度，厚度和其他书写样式方面的属性将有所不同。
+
+![](img/B14853_08_16.png)
+
+图 8.2.4：作为测试数据集（CVAE CNN）的潜在向量平均值的函数的 MNIST 数字标签。 原始图像可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter8-vae)中找到。
+
+“图 8.2.4”在“图 8.2.5”中更清楚地显示，数字 0 到 5。每个帧都有相同的数字，并且属性在我们浏览时顺畅地变化。 潜在代码：
+
+![](img/B14853_08_17.png)
+
+图 8.2.5：根据潜在向量平均值和单热点标签（CVAE CNN）生成的数字 0 至 5。 为了便于解释，均值的范围类似于图 8.2.4。
+
+“图 8.2.6”显示“图 8.2.4”，用于数字 6 至 9：
+
+![](img/B14853_08_18.png)
+
+图 8.2.6：根据潜在向量平均值和单热点标签（CVAE CNN）生成的数字 6 至 9。 为了便于解释，均值的范围类似于图 8.2.4。
+
+为了便于比较，潜向量的值范围与“图 8.2.4”中的相同。 使用预训练的权重，可以通过执行以下命令来生成数字（例如 0）：
+
+```py
+python3 cvae-cnn-mnist-8.2.1.py –bce --weights=cvae_cnn_mnist.tf --digit=0 
+```
+
+在“图 8.2.5”和“图 8.2.6”中，可以注意到，每个数字的宽度和圆度（如果适用）随`z[0]`的变化而变化。 从左到右追踪。 同时，当`z[1]`从上到下导航时，每个数字的倾斜角度和圆度（如果适用）也会发生变化。 随着我们离开分布中心，数字的图像开始退化。 这是可以预期的，因为潜在空间是一个圆形。
+
+属性中其他明显的变化可能是数字特定的。 例如，数字 1 的水平笔划（手臂）在左上象限中可见。 数字 7 的水平笔划（纵横线）只能在右象限中看到。
+
+在下一节中，我们将发现 CVAE 实际上只是另一种称为 β-VAE 的 VAE 的特例。
+
+# 3\.  β-VAE – 具有纠缠的潜在表示形式的 VAE
+
+在“第 6 章”，“非纠缠表示 GAN”中，讨论了潜码非纠缠表示的概念和重要性。 我们可以回想起，一个纠缠的表示是单个潜伏单元对单个生成因子的变化敏感，而相对于其他因子的变化相对不变[3]。 更改潜在代码会导致生成的输出的一个属性发生更改，而其余属性保持不变。
+
+在同一章中，InfoGAN [4]向我们展示了对于 MNIST 数据集，可以控制生成哪个数字以及书写样式的倾斜度和粗细。 观察上一节中的结果，可以注意到，VAE 在本质上使潜向量维解开了一定程度。 例如，查看“图 8.2.6”中的数字 8，从上到下导航`z[1]`会减小宽度和圆度，同时顺时针旋转数字。 从左至右增加`z[0]`也会在逆时针旋转数字时减小宽度和圆度。 换句话说，`z[1]`控制顺时针旋转，而`z[0]`影响逆时针旋转，并且两者都改变​​宽度和圆度。
+
+在本节中，我们将演示对 VAE 损失函数的简单修改会迫使潜在代码进一步解开纠缠。 修改为正恒重`β > 1`，用作 KL 损失的调节器：
+
+![](img/B14853_08_121.png) (Equation 8.3.1)
+
+VAE 的这种变化称为 β-VAE [5]。 `β`的隐含效果是更严格的标准差。 换句话说，`β`强制后验分布中的潜码`Q[φ](z | x)`独立。
+
+实现 β-VAE 很简单。 例如，对于上一个示例中的 CVAE，所需的修改是`kl_loss`中的额外`beta`因子：
+
+```py
+kl_loss = 1 + z_log_var - K.square(z_mean) - K.exp(z_log_var)
+kl_loss = K.sum(kl_loss, axis=-1)
+kl_loss *= -0.5 * beta 
+```
+
+CVAE 是 β-VAE 的特例，其中`β = 1`。 其他一切都一样。 但是，确定的值需要一些反复试验。 为了潜在的代码独立性，在重构误差和正则化之间必须有一个仔细的平衡。 解缠最大在`β = 9`附近。 当中`β = 9`的值时，β-VAE 仅被迫学习一个解纠缠的表示，而忽略另一个潜在维度。
+
+“图 8.3.1”和“图 8.3.2”显示 β-VAE 的潜向量平均值，其中`β = 9`和`β = 10`：
+
+![](img/B14853_08_19.png)
+
+图 8.3.1：MNIST 数字标签与测试数据集的潜在向量平均值的函数（β-VAE，`β = 9`）。 原始图像可以在该书的 [GitHub 存储库](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter8-vae)中找到。
+
+`β = 9`时，与 CVAE 相比，分布具有较小的标准差。 在`β = 10`的情况下，仅学习了潜在代码。 分布实际上缩小为一个维度，编码器和解码器忽略了第一潜码`z[0]`。
+
+![](img/B14853_08_20.png)
+
+图 8.3.2：MNIST 数字标签与测试数据集的潜向量平均值的函数（β-VAE 和`β = 10`）
+
+[原始图像可以在该书的 GitHub 存储库中找到](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter8-vae)。
+
+这些观察结果反映在“图 8.3.3”中。 具有`β = 9`的 β-VAE 具有两个实际上独立的潜在代码。 `z[0]`确定书写样式的倾斜度，而`z[1]`指定数字的宽度和圆度（如果适用）。 对于中`β = 10`的 β-VAE，`z[0]`被静音。 `z[0]`的增加不会显着改变数字。`z[1]`确定书写样式的倾斜角度和宽度：
+
+![A picture containing grass, window  Description automatically generated](img/B14853_08_21.png)
+
+图 8.3.3：根据潜在向量平均值和单热点标签（β-VAE，`β = 1, 9, 10`）生成的数字 0 至 3。 为了便于解释，均值的范围类似于图 8.3.1。
+
+β-VAE 的`tf.keras`代码具有预训练的权重。 要使用`β = 9`生成数字 0 来测试 β-VAE，我们需要运行以下命令：
+
+```py
+python3 cvae-cnn-mnist-8.2.1.py --beta=9 --bce --weights=beta-cvae_cnn_mnist.tf --digit=0 
+```
+
+总而言之，我们已经证明与 GAN 相比，在 β-VAE 上更容易实现解缠表示学习。 我们所需要做的就是调整单个超参数。
+
+# 4\. 总结
+
+在本章中，我们介绍了 VAE 的原理。 正如我们从 VAE 原理中学到的那样，从两次尝试从潜在空间创建合成输出的角度来看，它们都与 GAN 相似。 但是，可以注意到，与 GAN 相比，VAE 网络更简单，更容易训练。 越来越清楚的是 CVAE 和 β-VAE 在概念上分别类似于条件 GAN 和解缠表示 GAN。
+
+VAE 具有消除潜在向量纠缠的内在机制。 因此，构建 β-VAE 很简单。 但是，我们应该注意，可解释和解开的代码对于构建智能体很重要。
+
+在下一章中，我们将专注于强化学习。 在没有任何先验数据的情况下，智能体通过与周围的世界进行交互来学习。 我们将讨论如何为智能体的正确行为提供奖励，并为错误的行为提供惩罚。
+
+# 5\. 参考
+
+1.  `Diederik P. Kingma and Max Welling. Auto-encoding Variational Bayes. arXiv preprint arXiv:1312.6114, 2013 (https://arxiv.org/pdf/1312.6114.pdf).`
+1.  `Kihyuk Sohn, Honglak Lee, and Xinchen Yan. Learning Structured Output Representation Using Deep Conditional Generative Models. Advances in Neural Information Processing Systems, 2015 (http://papers.nips.cc/paper/5775-learning-structured-output-representation-using-deep-conditional-generative-models.pdf).`
+1.  `Yoshua Bengio, Aaron Courville, and Pascal Vincent. Representation Learning.`
+1.  `A Review and New Perspectives. IEEE transactions on Pattern Analysis and Machine Intelligence 35.8, 2013: 1798-1828 (https://arxiv.org/pdf/1206.5538.pdf).`
+1.  `Xi Chen et al.: Infogan: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets. Advances in Neural Information Processing Systems, 2016 (http://papers.nips.cc/paper/6399-infogan-interpretable-representation-learning-by-information-maximizing-generative-adversarial-nets.pdf).`
+1.  `I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, and A. Lerchner. -VAE: Learning Basic Visual Concepts with a Constrained Variational Framework. ICLR, 2017 (https://openreview.net/pdf?id=Sy2fzU9gl).`
+1.  `Carl Doersch. Tutorial on variational autoencoders. arXiv preprint arXiv:1606.05908, 2016 (https://arxiv.org/pdf/1606.05908.pdf).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/09.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/09.md
new file mode 100644
index 00000000..6795b85d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/09.md
@@ -0,0 +1,1187 @@
+# 九、深度强化学习
+
+**强化学习**（**RL**）是智能体程序用于决策的框架。 智能体不一定是软件实体，例如您在视频游戏中可能看到的那样。 相反，它可以体现在诸如机器人或自动驾驶汽车之类的硬件中。 内在的智能体可能是充分理解和利用 RL 的最佳方法，因为物理实体与现实世界进行交互并接收响应。
+
+该智能体位于**环境**中。 环境具有**状态**，可以部分或完全观察到。 该智能体具有一组**操作**，可用于与环境交互。 动作的结果将环境转换为新状态。 执行动作后，会收到相应的标量**奖励**。
+
+智能体的目标是通过学习**策略**来最大化累积的未来奖励，该策略将决定在特定状态下应采取的行动。
+
+RL 与人类心理学有很强的相似性。 人类通过体验世界来学习。 错误的行为会导致某种形式的惩罚，将来应避免使用，而正确的行为应得到奖励并应予以鼓励。 这种与人类心理学的强相似之处使许多研究人员相信 RL 可以将引向真正的**人工智能**（**AI**）。
+
+RL 已经存在了几十年。 但是，除了简单的世界模型之外，RL 还在努力扩展规模。 这是，其中**深度学习**（**DL**）开始发挥作用。 它解决了这个可扩展性问题，从而开启了**深度强化学习**（**DRL**）的时代。 在本章中，我们的重点是 DRL。 DRL 中值得注意的例子之一是 DeepMind 在智能体上的工作，这些智能体能够在不同的视频游戏上超越最佳的人类表现。
+
+在本章中，我们将讨论 RL 和 DRL。
+
+总之，本章的目的是介绍：
+
+*   RL 的原理
+*   RL 技术，Q 学习
+*   高级主题，包括**深度 Q 网络**（**DQN**）和**双重 Q 学习**（**DDQN**）
+*   关于如何使用`tf.keras`在 Python 和 DRL 上实现 RL 的说明
+
+让我们从 RL 的基本原理开始。
+
+# 1\. 强化学习原理（RL）
+
+“图 9.1.1”显示了用于描述 RL 的感知动作学习循环。 环境是苏打水可以坐在地板上。 智能体是一个移动机器人，其目标是拾取苏打水。 它观察周围的环境，并通过车载摄像头跟踪汽水罐的位置。 观察结果以一种状态的形式进行了汇总，机器人将使用该状态来决定要采取的动作。 所采取的动作可能与低级控制有关，例如每个车轮的旋转角度/速度，手臂的每个关节的旋转角度/速度以及抓手是打开还是关闭。
+
+可替代地，动作可以是高级控制动作，诸如向前/向后移动机器人，以特定角度转向以及抓取/释放。 将夹持器从汽水中移开的任何动作都会得到负回报。 缩小抓取器位置和苏打之间的缝隙的任何动作都会获得积极的回报。 当机械臂成功捡起汽水罐时，它会收到丰厚的回报。 RL 的目标是学习最佳策略，该策略可帮助机器人决定在给定状态下采取哪种行动以最大化累积的折扣奖励：
+
+![](img/B14853_09_01.png)
+
+图 9.1.1：RL 中的感知-动作-学习循环
+
+形式上，RL 问题可以描述为 **Markov 决策过程**（**MDP**）。
+
+为简单起见，我们将假定为*确定性*环境，在该环境中，给定状态下的某个动作将始终导致已知的下一个状态和奖励。 在本章的后面部分，我们将研究如何考虑随机性。 在时间步`t`时：
+
+*   环境处于状态空间`S`的状态下，状态`s[0]`，该状态可以是离散的也可以是连续的。 起始状态为`s[0]`，而终止状态为`s[T]`。
+*   智能体通过遵循策略`π(a[t] | s[t])`从操作空间`A`采取操作，即`s[a]`。 `A`可以是离散的或连续的。
+*   环境使用状态转换动态`T(s[t + 1] | s[t], a[t])`转换为新状态，`s[t + 1]`。 下一个状态仅取决于当前状态和操作。 智能体不知道`T`。
+*   智能体使用奖励函数接收标量奖励，`r[t + 1] = R(s[t], a[t])`，以及`r: A x S -> R`。 奖励仅取决于当前状态和操作。 智能体不知道`R`。
+*   将来的奖励折扣为`γ^k`，其中`γ ∈ [0, 1]`和`k`是未来的时间步长。
+*   *地平线*，`H`是完成从`s[0]`到`s[T]`的一集所需的时间步长`T`。
+
+该环境可以是完全或部分可观察的。 后者也称为**部分可观察的 MDP** 或 **POMDP**。 在大多数情况下，完全观察环境是不现实的。 为了提高的可观察性，当前的观测值也考虑了过去的观测值。 状态包括对环境的足够观察，以使策略决定采取哪种措施。 回忆“图 9.1.1”，这可能是汽水罐相对于机器人抓手的三维位置，如机器人摄像头所估计的那样。
+
+每当环境转换到新状态时，智能体都会收到标量奖励`r[t + 1]`。 在“图 9.1.1”中，每当机器人靠近汽水罐时，奖励可能为 +1；当机器人离汽水罐更远时，奖励为 -1；当机器人关闭夹具并成功捡起苏打时，奖励为 +100。 能够。 智能体的目标是学习一种最佳策略`π*`，该策略可使所有状态的收益最大化：
+
+![](img/14853_09_012.png) (Equation 9.1.1)
+
+回报定义为折扣累积奖励`R[t] = Σ γ^t r[t+k], k = 0, ..., T`。 从“公式 9.1.1”可以看出，与通常的`γ^k < 1.0`相比，与立即获得的奖励相比，未来的奖励权重较低。 在极端情况下，当`γ = 0`时，仅立即获得奖励很重要。 当`γ = 1`时，将来的奖励与立即奖励的权重相同。
+
+遵循任意策略`π`，可以将回报解释为对给定状态值的度量：
+
+![](img/14853_09_019.png) (Equation 9.1.2)
+
+换句话说，RL 问题是智能体的目标，是学习使所有状态`s`最大化的最优策略`V^π`：
+
+![](img/14853_09_021.png) (Equation 9.1.3)
+
+最优策略的值函数就是`V*`。 在“图 9.1.1”中，最佳策略是生成最短动作序列的一种，该动作序列使机器人越来越靠近苏打罐，直到被取走为止。 状态越接近目标状态，其值越高。 可以将导致目标（或最终状态）的事件序列建模为策略的*轨迹*或*部署*：
+
+![](img/14853_09_023.png) (Equation 9.1.4)
+
+如果 MDP 是偶发的，则当智能体到达终端状态`s[T]`时，状态将重置为`s[0]`。 如果`T`是有限的，则我们的水平范围是有限的。 否则，视野是无限的。 在“图 9.1.1”中，如果 MDP 是情景*剧集*，则在收集苏打罐后，机器人可能会寻找另一个苏打罐来拾取，并且 RL 问题重发。
+
+因此，RL 的主要目标是找到一种使每个状态的值最大化的策略。 在下一部分中，我们将介绍可用于最大化值函数的策略学习算法。
+
+# 2\. Q 值
+
+如果 RL 问题是找到`π*`，则智能体如何通过与环境交互来学习？“公式 9.1.3”并未明确指出尝试进行的操作以及计算收益的后续状态。 在 RL 中，使用 Q 值更容易学习`π*`：
+
+![](img/14853_09_026.png) (Equation 9.2.1)
+
+哪里：
+
+![](img/14853_09_027.png) (Equation 9.2.2)
+
+换句话说，不是找到使所有状态的值最大化的策略，而是“公式 9.2.1”寻找使所有状态的质量（Q）值最大化的操作。 在找到 Q 值函数之后，分别由“公式 9.2.2”和“公式 9.1.3”确定`V*`，因此确定了`π*`。
+
+如果对于每个动作，都可以观察到奖励和下一状态，则可以制定以下迭代或反复试验算法来学习 Q 值：
+
+![](img/14853_09_030.png) (Equation 9.2.3)
+
+为了简化符号，`s'`和`a'`分别是下一个状态和动作。 “公式 9.2.3”被称为贝尔曼方程，它是 Q 学习算法的核心。 Q 学习尝试根据当前状态和作用来近似返回值或值的一阶展开（“公式 9.1.2”）。 从对环境动态的零知识中，智能体尝试执行操作`a`，观察以奖励`r`和下一个状态`s'`的形式发生的情况。 `max[a'] Q(s', a')`选择下一个逻辑动作，该动作将为下一个状态提供最大 Q 值。 有了“公式 9.2.3”中的所有项，该当前状态-动作对的 Q 值就会更新。 迭代地执行更新将最终使智能体能够学习 Q 值函数。
+
+Q 学习是一种*脱离策略* RL 算法。 它学习了如何通过不直接从策略中抽取经验来改进策略。 换句话说，Q 值的获取与智能体所使用的基础策略无关。 当 Q 值函数收敛时，才使用“公式 9.2.1”确定最佳策略。
+
+在为提供有关如何使用 Q 学习的示例之前，请注意，智能体必须在不断利用其到目前为止所学知识的同时不断探索其环境。 这是 RL 中的问题之一-在*探索*和*开发*之间找到适当的平衡。 通常，在学习开始时，动作是随机的（探索）。 随着学习的进行，智能体会利用 Q 值（利用）。 例如，一开始，90% 的动作是随机的，而 10% 的动作则来自 Q 值函数。 在每个剧集的结尾，这逐渐减少。 最终，该动作是 10% 随机的，并且是 Q 值函数的 90%。
+
+在下一节中，我们将给出有关在简单的确定性环境中如何使用 Q 学习的具体示例。
+
+# 3\. Q 学习实例
+
+为了说明 Q 学习算法，我们需要考虑一个简单的确定性环境，如图“图 9.3.1”所示。 环境具有六个状态。
+
+显示允许的过渡的奖励。 在两种情况下，奖励是非零的。 转换为**目标**（`G`）状态可获得 +100 的奖励，同时移至**洞**（`H`）状态具有 -100 奖励。 这两个状态是终端状态，从**开始**状态构成一个剧集的结尾：
+
+![](img/B14853_09_02.png)
+
+图 9.3.1：简单确定性世界中的奖励
+
+为了使每个状态的身份正式化，我们使用`(行, 列)`标识符，如图“图 9.3.2”所示。 由于智能体尚未了解有关其环境的任何信息，因此“图 9.3.2”中所示的 Q 表的初始值为零。 在此示例中，折扣因子`γ = 0.9`。 回想一下，在当前 Q 值的估计中，折扣因子确定了未来 Q 值的权重，该权重是步数`γ^k`的函数。 在“公式 9.2.3”中，我们仅考虑近期 Q 值`k = 1`。
+
+![](img/B14853_09_03.png)
+
+图 9.3.2：简单确定性环境中的状态和智能体的初始 Q 表
+
+最初，智能体采用的策略是 90% 的时间选择随机操作，并 10% 的时间使用 Q 表。 假设第一个动作是随机选择的，并且指示向右移动。“图 9.3.3”说明了向右移动时状态`(0, 0)`的新 Q 值的计算。 下一个状态是`(0, 1)`。 奖励为 0，所有下一个状态的 Q 值的最大值为零。 因此，向右移动的状态`(0, 0)`的 Q 值保持为 0。
+
+为了轻松跟踪初始状态和下一个状态，我们在环境和 Q 表上使用不同的灰色阴影-初始状态浅灰色，下一个状态灰色。
+
+在为下一个状态选择下一个动作时，候选动作位于较粗的边框中：
+
+![](img/B14853_09_04.png)
+
+图 9.3.3：假设智能体采取的行动是向右移动，则显示状态`(0, 0)`的 Q 值的更新
+
+假设下一个随机选择的动作是向下移动。“图 9.3.4”显示状态`(0, 1)`的 Q 值沿向下方向的移动没有​​变化：
+
+![](img/B14853_09_05.png)
+
+图 9.3.4：假设智能体选择的动作是向下移动，则显示状态`(0, 1)`的 Q 值的更新
+
+在“图 9.3.5”中，智能体的第三个随机动作是向右移动。
+
+![](img/B14853_09_06.png)
+
+图 9.3.5：假设智能体选择的动作是向右移动，则显示状态`(1, 1)`的 Q 值的更新
+
+它遇到了，`H`状态，并获得了 -100 奖励。 这次，更新不为零。 向右移动时，状态`(1, 1)`的新 Q 值为 -100。 注意，由于这是终端状态，因此没有下一个状态。 一集刚刚结束，**智能体**返回到**开始**状态。
+
+假设**智能体**仍处于探索模式，如图“图 9.3.6”所示：
+
+![](img/B14853_09_07.png)
+
+图 9.3.6：假设智能体选择的动作是向右连续两次移动，则显示状态`(0, 1)`的 Q 值的更新
+
+为第二集采取的第一步是向右移动。 正如预期的那样，更新为 0。但是，它选择的第二个随机动作也是向右移动。 智能体到达`G`状态并获得 +100 的巨额奖励。 向右移动的状态`(0, 1)`的 Q 值变为 100。完成第二集，并且**智能体**返回到**启动**状态。
+
+在第三集开始时，智能体采取的随机行动是向右移动。 现在，状态`(0, 0)`的 Q 值将更新为非零值，因为下一个状态的可能动作将最大 Q 值设为 100。“图 9.3.7”显示了所涉及的计算。 下一个状态`(0, 1)`的 Q 值波动回到较早的状态`(0, 0)`。 这就像对帮助找到`G`状态的早期状态表示赞赏。
+
+![](img/B14853_09_08.png)
+
+图 9.3.7：假设智能体选择的动作是向右移动，则显示状态`(0, 0)`的 Q 值的更新
+
+Q 表的进步很大。 实际上，在下一集中，如果由于某种原因该策略决定使用 Q 表而不是随机探索环境，则第一个动作是根据“图 9.3.8”中的计算向右移动。  在 Q 表的第一行中，导致最大 Q 值的动作是向右移动。 对于下一个状态`(0, 1)`，Q 表的第二行表明下一个动作仍然是向右移动。 **智能体**已成功实现其目标。 该策略指导智能体采取了正确的措施来实现其目标：
+
+![](img/B14853_09_09.png)
+
+图 9.3.8：在这种情况下，智能体的策略决定利用 Q 表来确定状态`(0, 0)`和`(0, 1)`的动作。 Q 表建议两个状态都向右移动
+
+如果 Q 学习算法继续无限期运行，则 Q 表将收敛。 收敛的假设是 RL 问题必须是具有有限奖励的确定性 MDP，并且所有状态都将被无限次地访问。
+
+在下一节中，我们将使用 Python 模拟环境。 我们还将展示 Q 学习算法的代码实现。
+
+## 用 Python 进行 Q 学习
+
+上一节中讨论的环境和 Q 学习可以在 Python 中实现。 由于该策略只是一个简单的表，因此在此时，无需使用`tf.keras`库。“列表 9.3.1”显示了`q-learning-9.3.1.py`，它是使用`QWorld`类实现的简单确定性世界（环境，智能体，操作和 Q 表算法）的实现。 为简洁起见，未显示处理用户界面的函数。
+
+在此示例中，环境动态由`self.transition_table`表示。 在每个动作中，`self.transition_table`确定下一个状态。 执行动作的奖励存储在`self.reward_table`中。 每次通过`step()`函数执行动作时，都要查阅这两个表。 Q 学习算法由`update_q_table()`函数实现。 每当智能体需要决定要采取的操作时，它都会调用`act()`函数。 策略可以使用 Q 表随机抽取或决定。 所选动作是随机的机会百分比存储在`self.epsilon`变量中，该变量由`update_epsilon()`函数使用固定的`epsilon_decay`更新。
+
+在执行“列表 9.3.1”中的代码之前，我们需要运行：
+
+```py
+sudo pip3 install termcolor 
+```
+
+安装`termcolor`包。 该包有助于可视化终端上的文本输出。
+
+[完整的代码可以在 GitHub 上找到](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)。
+
+“列表 9.3.1”：`q-learning-9.3.1.py`
+
+具有六个状态的简单确定性 MDP：
+
+```py
+from collections import deque
+import numpy as np
+import argparse
+import os
+import time
+from termcolor import colored 
+```
+
+```py
+class QWorld:
+    def __init__(self):
+        """Simulated deterministic world made of 6 states.
+        Q-Learning by Bellman Equation. 
+        """
+        # 4 actions
+        # 0 - Left, 1 - Down, 2 - Right, 3 - Up
+        self.col = 4 
+```
+
+```py
+ # 6 states
+        self.row = 6 
+```
+
+```py
+ # setup the environment
+        self.q_table = np.zeros([self.row, self.col])
+        self.init_transition_table()
+        self.init_reward_table() 
+```
+
+```py
+ # discount factor
+        self.gamma = 0.9 
+```
+
+```py
+ # 90% exploration, 10% exploitation
+        self.epsilon = 0.9
+        # exploration decays by this factor every episode
+        self.epsilon_decay = 0.9
+        # in the long run, 10% exploration, 90% exploitation
+        self.epsilon_min = 0.1 
+```
+
+```py
+ # reset the environment
+        self.reset()
+        self.is_explore = True 
+```
+
+```py
+ def reset(self):
+        """start of episode"""
+        self.state = 0
+        return self.state 
+```
+
+```py
+ def is_in_win_state(self):
+        """agent wins when the goal is reached"""
+        return self.state == 2 
+```
+
+```py
+ def init_reward_table(self):
+        """
+        0 - Left, 1 - Down, 2 - Right, 3 - Up
+        ----------------
+        | 0 | 0 | 100  |
+        ----------------
+        | 0 | 0 | -100 |
+        ----------------
+        """
+        self.reward_table = np.zeros([self.row, self.col])
+        self.reward_table[1, 2] = 100.
+        self.reward_table[4, 2] = -100. 
+```
+
+```py
+ def init_transition_table(self):
+        """
+        0 - Left, 1 - Down, 2 - Right, 3 - Up
+        -------------
+        | 0 | 1 | 2 |
+        -------------
+        | 3 | 4 | 5 |
+        -------------
+        """
+        self.transition_table = np.zeros([self.row, self.col],
+                                         dtype=int)
+        self.transition_table[0, 0] = 0
+        self.transition_table[0, 1] = 3
+        self.transition_table[0, 2] = 1
+        self.transition_table[0, 3] = 0 
+```
+
+```py
+ self.transition_table[1, 0] = 0
+        self.transition_table[1, 1] = 4
+        self.transition_table[1, 2] = 2
+        self.transition_table[1, 3] = 1 
+```
+
+```py
+ # terminal Goal state
+        self.transition_table[2, 0] = 2
+        self.transition_table[2, 1] = 2
+        self.transition_table[2, 2] = 2
+        self.transition_table[2, 3] = 2 
+```
+
+```py
+ self.transition_table[3, 0] = 3
+        self.transition_table[3, 1] = 3
+        self.transition_table[3, 2] = 4
+        self.transition_table[3, 3] = 0 
+```
+
+```py
+ self.transition_table[4, 0] = 3
+        self.transition_table[4, 1] = 4
+        self.transition_table[4, 2] = 5
+        self.transition_table[4, 3] = 1 
+```
+
+```py
+ # terminal Hole state
+        self.transition_table[5, 0] = 5
+        self.transition_table[5, 1] = 5
+        self.transition_table[5, 2] = 5
+        self.transition_table[5, 3] = 5 
+```
+
+```py
+ def step(self, action):
+        """execute the action on the environment
+        Argument:
+            action (tensor): An action in Action space
+        Returns:
+            next_state (tensor): next env state
+            reward (float): reward received by the agent
+            done (Bool): whether the terminal state 
+                is reached
+        """
+        # determine the next_state given state and action
+        next_state = self.transition_table[self.state, action]
+        # done is True if next_state is Goal or Hole
+        done = next_state == 2 or next_state == 5
+        # reward given the state and action
+        reward = self.reward_table[self.state, action]
+        # the enviroment is now in new state
+        self.state = next_state
+        return next_state, reward, done 
+```
+
+```py
+ def act(self):
+        """determine the next action
+            either fr Q Table(exploitation) or
+            random(exploration)
+        Return:
+            action (tensor): action that the agent
+                must execute
+        """
+        # 0 - Left, 1 - Down, 2 - Right, 3 - Up
+        # action is from exploration
+        if np.random.rand() <= self.epsilon:
+            # explore - do random action
+            self.is_explore = True
+            return np.random.choice(4,1)[0] 
+```
+
+```py
+ # or action is from exploitation
+        # exploit - choose action with max Q-value
+        self.is_explore = False
+        action = np.argmax(self.q_table[self.state])
+        return action 
+```
+
+```py
+ def update_q_table(self, state, action, reward, next_state):
+        """Q-Learning - update the Q Table using Q(s, a)
+        Arguments:
+            state (tensor) : agent state
+            action (tensor): action executed by the agent
+            reward (float): reward after executing action 
+                for a given state
+            next_state (tensor): next state after executing
+                action for a given state
+        """
+        # Q(s, a) = reward + gamma * max_a' Q(s', a')
+        q_value = self.gamma * np.amax(self.q_table[next_state])
+        q_value += reward
+        self.q_table[state, action] = q_value 
+```
+
+```py
+ def update_epsilon(self):
+        """update Exploration-Exploitation mix"""
+        if self.epsilon > self.epsilon_min:
+            self.epsilon *= self.epsilon_decay 
+```
+
+感知动作学习循环在“列表 9.3.2”中进行了说明。 在每个剧集中，环境都会重置为**开始**状态。 选择要执行的动作并将其应用于环境。 观察**奖励**和**下一个**状态，并将其用于更新 Q 表。 达到**目标**或**洞**状态后，剧集完成（`done = True`）。
+
+对于此示例，Q 学习运行 100 集或 10 获胜，以先到者为准。 由于在每个剧集中变量的值均降低，因此智能体开始倾向于利用 Q 表来确定在给定状态下要执行的动作。 要查看 Q 学习模拟，我们只需要运行以下命令：
+
+```py
+python3 q-learning-9.3.1.py 
+```
+
+“列表 9.3.2”：`q-learning-9.3.1.py`
+
+主要的 Q 学习循环：
+
+```py
+ # state, action, reward, next state iteration
+    for episode in range(episode_count):
+        state = q_world.reset()
+        done = False
+        print_episode(episode, delay=delay)
+        while not done:
+            action = q_world.act()
+            next_state, reward, done = q_world.step(action)
+            q_world.update_q_table(state, action, reward, next_state)
+            print_status(q_world, done, step, delay=delay)
+            state = next_state
+            # if episode is done, perform housekeeping
+            if done:
+                if q_world.is_in_win_state():
+                    wins += 1
+                    scores.append(step)
+                    if wins > maxwins:
+                        print(scores)
+                        exit(0)
+                # Exploration-Exploitation is updated every episode
+                q_world.update_epsilon()
+                step = 1
+            else:
+                step += 1 
+```
+
+“图 9.3.9”显示了`maxwins = 2000`（达到`2000 x`目标状态）和`delay = 0`时的屏幕截图。 要仅查看最终的 Q 表，请执行：
+
+```py
+python3 q-learning-9.3.1.py --train 
+```
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_09_10.png)
+
+图 9.3.9：屏幕快照显示智能体在 2,000 次获胜后的 Q 表
+
+Q 表已收敛，并显示了智能体可以在给定状态下采取的逻​​辑操作。 例如，在第一行或状态`(0, 0)`中，该策略建议向右移动。 第二行的状态`(0, 1)`也是如此。 第二个动作达到**目标**状态。 `scores`变量转储显示，随着智能体从策略获取正确的操作，所采取的最少步骤数减少了。
+
+从“图 9.3.9”，我们可以从“公式 9.2.2”和`V*(s) = max[a] Q(s, a)`计算每个状态的值。 例如，对于状态`(0, 0)`，`V*(s) = max[a](0.0, 72.9, 90.0, 81.0) = 9.0`。
+
+“图 9.3.10”显示每种状态的值。
+
+![](img/B14853_09_11.png)
+
+图 9.3.10：图 9.3.9 和公式 9.2.2 中每个状态的值
+
+这个简单的示例说明了在简单确定性世界中智能体的 Q 学习的所有元素。 在下一节中，我们将介绍考虑随机性所需的轻微修改。
+
+# 4\. 非确定性环境
+
+如果环境不确定，则奖励和行动都是概率性的。 新系统是随机的 MDP。 为了反映不确定性报酬，新的值函数为：
+
+![](img/14853_09_042.png) (Equation 9.4.1)
+
+贝尔曼方程修改为：
+
+![](img/14853_09_043.png) (Equation 9.4.2)
+
+但是，在本章中，我们将重点介绍确定性环境。 在下一节中，我们将提出一种更通用的 Q 学习算法，称为**时差**（**TD**）学习。
+
+# 5\. 时差学习
+
+Q 学习是更广义的 TD 学习`TD(λ)`的特例。 更具体地说，这是单步 TD 学习的特殊情况，`TD(0)`：
+
+![](img/14853_09_045.png) (Equation 9.5.1)
+
+其中`α`是学习率。 注意，当`α = 1`，“公式 9.5.1”与贝尔曼等式相似。 为简单起见，我们还将“公式 9.5.1”称为 Q 学习或广义 Q 学习。
+
+以前，我们将 Q 学习称为一种非策略性 RL 算法，因为它学习 Q 值函数而没有直接使用它尝试优化的策略。 *上策略*一步式 TD 学习算法的示例是 SARSA，类似于“公式 9.5.1”：
+
+![](img/14853_09_048.png) (Equation 9.5.2)
+
+主要区别是使用已优化的策略来确定`a'`。 必须知道项`s`，`a`，`r`，`s'`和`a'`（因此名称为 SARSA）才能在每次迭代时更新 Q 值函数。 Q 学习和 SARSA 都在 Q 值迭代中使用现有的估计，该过程称为*自举*。 在引导过程中，我们从奖励中更新当前的 Q 值估计，并随后更新 Q 值估计。
+
+在提出另一个示例之前，似乎需要合适的 RL 模拟环境。 否则，我们只能对非常简单的问题（如上一个示例）运行 RL 模拟。 幸运的是，OpenAI 创建了 [Gym](https://gym.openai.com)，我们将在下一节中介绍。
+
+## 在 OpenAI Gym 上进行 Q 学习
+
+OpenAI Gym 是的工具包，用于开发和比较 RL 算法。 它适用于大多数 DL 库，包括`tf.keras`。 可以通过运行以下命令来安装健身房：
+
+```py
+sudo pip3 install gym 
+```
+
+该体育馆有多种可以测试 RL 算法的环境，例如玩具文字，经典控件，算法，Atari 和二维/三维机器人。 例如，`FrozenLake-v0`（“图 9.5.1”）是一个玩具文本环境，类似于在 Python Q 学习示例中使用的简单确定性世界：
+
+![](img/B14853_09_12.png)
+
+图 9.5.1：OpenAI Gym 中的 FrozenLake-v0 环境
+
+`FrozenLake-v0`具有 12 个状态，标记为`S`的状态为起始状态，`F`的状态为湖泊的冰冻部分，这是安全的，`H`为安全状态。 应当避免的空穴状态，`G`是飞盘所在的目标状态。 转换为目标状态的奖励为 +1。 对于所有其他状态，奖励为**零**。
+
+在`FrozenLake-v0`中，还有四个可用动作（左，下，右，上），称为动作空间。 但是，与之前的简单确定性世界不同，实际运动方向仅部分取决于所选的动作。 `FrozenLake-v0`环境有两种变体。 滑和不滑。 不出所料，滑动模式更具挑战性。
+
+应用于`FrozenLake-v0`的操作将返回观察结果（等效于下一个状态），奖励，完成（无论剧集是否完成）以及调试信息字典。 返回的观察对象捕获环境的可观察属性，称为观察空间。
+
+通用 Q 学习可以应用于`FrozenLake-v0`环境。“表 9.5.1”显示了湿滑和非湿滑环境的表现改进。 衡量策略表现的一种方法是执行的事件达到目标状态的百分比。 百分比越高，效果越好。 从大约 1.5% 的纯探查（随机操作）的基准来看，该策略可以在非光滑环境中达到约 76% 的目标状态，在光滑环境中可以达到约 71% 的目标状态。 不出所料，很难控制湿滑的环境。
+
+| **模式** | **运行** | **大约百分比的目标** |
+| --- | --- | --- |
+| 训练非滑动 | `python3 q-frozenlake-9.5.1.py` | 26 |
+| 测试非滑动 | `python3 q-frozenlake-9.5.1.py -d` | 76 |
+| 纯随机动作非滑动 | `python3 q-frozenlake-9.5.1.py -e` | 1.5 |
+| 训练滑动 | `python3 q-frozenlake-9.5.1.py -s` | 26 |
+| 测试滑动 | `python3 q-frozenlake-9.5.1.py -s -d` | 71 |
+| 纯随机动作滑动 | `python3 q-frozenlake-9.5.1.py -s -e` | 1.5 |
+
+表 9.5.1：在 FrozenLake-v0 环境中学习率为 0.5 的广义 Q 学习的基线和表现
+
+由于该代码仅需要一个 Q 表，因此仍可以在 Python 和 NumPy 中实现。“列表 9.5.1”显示了`QAgent`类的实现。 除了使用 OpenAI Gym 的`FrozenLake-v0`环境之外，最重要的更改是广义 Q 学习的实现，这由`update_q_table()`函数中的“公式 9.5.1”定义。
+
+“列表 9.5.1”：`q-frozenlake-9.5.1.py`
+
+关于 FrozenLake-v0 环境的 Q 学习：
+
+```py
+from collections import deque
+import numpy as np
+import argparse
+import os
+import time
+import gym
+from gym import wrappers, logger 
+```
+
+```py
+class QAgent:
+    def __init__(self,
+                 observation_space,
+                 action_space,
+                 demo=False,
+                 slippery=False,
+                 episodes=40000):
+        """Q-Learning agent on FrozenLake-v0 environment 
+```
+
+```py
+ Arguments:
+            observation_space (tensor): state space
+            action_space (tensor): action space
+            demo (Bool): whether for demo or training
+            slippery (Bool): 2 versions of FLv0 env
+            episodes (int): number of episodes to train
+        """ 
+```
+
+```py
+ self.action_space = action_space
+        # number of columns is equal to number of actions
+        col = action_space.n
+        # number of rows is equal to number of states
+        row = observation_space.n
+        # build Q Table with row x col dims
+        self.q_table = np.zeros([row, col]) 
+```
+
+```py
+ # discount factor
+        self.gamma = 0.9 
+```
+
+```py
+ # initially 90% exploration, 10% exploitation
+        self.epsilon = 0.9
+        # iteratively applying decay til 
+        # 10% exploration/90% exploitation
+        self.epsilon_min = 0.1
+        self.epsilon_decay = self.epsilon_min / self.epsilon
+        self.epsilon_decay = self.epsilon_decay ** \
+                             (1\. / float(episodes)) 
+```
+
+```py
+ # learning rate of Q-Learning
+        self.learning_rate = 0.1 
+```
+
+```py
+ # file where Q Table is saved on/restored fr
+        if slippery:
+            self.filename = 'q-frozenlake-slippery.npy'
+        else:
+            self.filename = 'q-frozenlake.npy' 
+```
+
+```py
+ # demo or train mode 
+        self.demo = demo
+        # if demo mode, no exploration
+        if demo:
+            self.epsilon = 0 
+```
+
+```py
+ def act(self, state, is_explore=False):
+        """determine the next action
+            if random, choose from random action space
+            else use the Q Table
+        Arguments:
+            state (tensor): agent's current state
+            is_explore (Bool): exploration mode or not
+        Return:
+            action (tensor): action that the agent
+                must execute
+        """
+        # 0 - left, 1 - Down, 2 - Right, 3 - Up
+        if is_explore or np.random.rand() < self.epsilon:
+            # explore - do random action
+            return self.action_space.sample() 
+```
+
+```py
+ # exploit - choose action with max Q-value
+        action = np.argmax(self.q_table[state])
+        return action 
+```
+
+```py
+ def update_q_table(self, state, action, reward, next_state):
+        """TD(0) learning (generalized Q-Learning) with learning rate
+        Arguments:
+            state (tensor): environment state
+            action (tensor): action executed by the agent for
+                the given state
+            reward (float): reward received by the agent for
+                executing the action
+            next_state (tensor): the environment next state
+        """
+        # Q(s, a) += 
+        # alpha * (reward + gamma * max_a' Q(s', a') - Q(s, a))
+        q_value = self.gamma * np.amax(self.q_table[next_state])
+        q_value += reward
+        q_value -= self.q_table[state, action]
+        q_value *= self.learning_rate
+        q_value += self.q_table[state, action]
+        self.q_table[state, action] = q_value 
+```
+
+```py
+ def update_epsilon(self):
+        """adjust epsilon"""
+        if self.epsilon > self.epsilon_min:
+            self.epsilon *= self.epsilon_decay 
+```
+
+“列表 9.5.2”演示了智能体的感知行为学习循环。 在每个剧集中，通过调用`env.reset()`重置环境。 要执行的动作由`agent.act()`选择，并由`env.step(action)`应用于环境。 奖励和下一个状态将被观察并用于更新 Q 表。
+
+在每个动作之后，通过`agent.update_q_table()`执行 TD 学习。 由于每次调用`agent.update_epsilon()`时处`self.epsilon`变量的值都会减少，该智能体开始支持利用 Q 表来确定在给定状态下执行的操作。 达到目标或空洞状态后，剧集完成（`done = True`）。 对于此示例，TD 学习运行 4,000 集。
+
+“列表 9.5.2”：`q-frozenlake-9.5.1.py`。
+
+`FrozenLake-v0`环境的 Q 学习循环：
+
+```py
+ # loop for the specified number of episode
+    for episode in range(episodes):
+        state = env.reset()
+        done = False
+        while not done:
+            # determine the agent's action given state
+            action = agent.act(state, is_explore=args.explore)
+            # get observable data
+            next_state, reward, done, _ = env.step(action)
+            # clear the screen before rendering the environment
+            os.system('clear')
+            # render the environment for human debugging
+            env.render()
+            # training of Q Table
+            if done:
+                # update exploration-exploitation ratio
+                # reward > 0 only when Goal is reached
+                # otherwise, it is a Hole
+                if reward > 0:
+                    wins += 1 
+```
+
+```py
+ if not args.demo:
+                agent.update_q_table(state,
+                                     action, 
+                                     reward, 
+                                     next_state)
+                agent.update_epsilon() 
+```
+
+```py
+ state = next_state
+            percent_wins = 100.0 * wins / (episode + 1) 
+```
+
+`agent`对象可以在湿滑或非湿滑模式下运行。 训练后，智能体可以利用 Q 表选择给定任何策略执行的操作，如“表 9.5.1”的测试模式所示。 如“表 9.5.1”所示，使用学习的策略可显着提高性能。 随着体育馆的使用，不再需要中构建环境的许多代码行。 例如，与上一个示例不同，使用 OpenAI Gym，我们不需要创建状态转换表和奖励表。
+
+这将帮助我们专注于构建有效的 RL 算法。 要以慢动作方式运行代码或每个动作延迟 1 秒，请执行以下操作：
+
+```py
+python3 q-frozenlake-9.5.1.py -d -t=1 
+```
+
+在本节中，我们在更具挑战性的环境中演示了 Q 学习。 我们还介绍了 OpenAI 体育馆。 但是，我们的环境仍然是玩具环境。 如果我们有大量的状态或动作怎么办？ 在这种情况下，使用 Q 表不再可行。 在下一节中，我们将使用深度神经网络来学习 Q 表。
+
+# 6\. 深度 Q 网络（DQN）
+
+在小型离散环境中，使用 Q 表执行 Q 学习是很好的选择。 但是，在大多数情况下，当环境具有许多状态或连续时，Q 表是不可行或不实际的。 例如，如果我们观察由四个连续变量组成的状态，则表的大小是无限的。 即使我们尝试将这四个变量离散化为 1,000 个值，表中的总行数也达到了惊人的`1000^4 = 1e12`。 即使经过训练，该表仍是稀疏的–该表中的大多数单元都是零。
+
+这个问题的解决方案称为 DQN [2]，它使用深度神经网络来近似 Q 表，如图“图 9.6.1”所示。 有两种构建 Q 网络的方法：
+
+*   输入是状态-动作对，预测是 Q 值
+*   输入是状态，预测是每个动作的 Q 值
+
+第一种选择不是最佳的，因为网络被调用的次数等于操作数。 第二种是首选方法。 Q 网络仅被调用一次。
+
+最希望得到的作用就是 Q 值最大的作用。
+
+![](img/B14853_09_13.png)
+
+图 9.6.1：深度 Q 网络
+
+训练 Q 网络所需的数据来自智能体的经验：`(s[0]a[0]r[1]s[1], s[1]a[1]r[2]s[2],d ..., s[T-1]a[T-1]r[T]s[T])`。 每个训练样本都是经验单元`s[t]a[t]r[t+1]s[t+1]`。 在时间步`t`，`s = s[t]`的给定状态下，使用类似于前一部分的 Q 学习算法来确定动作`a = a[t]`：
+
+![](img/14853_09_060.png) (Equation 9.6.1)
+
+为了简化符号，我们省略了下标和粗体字母的使用。 注意，`Q(s, a)`是 Q 网络。 严格来说，它是`Q(a | s)`，因为动作已移至预测阶段（换句话说，是输出），如“图 9.6.1”的右侧所示。 Q 值最高的动作是应用于环境以获得奖励`r = r[t+1]`，下一状态`s' = s[t+1]`和布尔值`done`的动作，指示下一个状态是否为终端 。 根据关于广义 Q 学习的“公式 9.5.1”，可以通过应用所选的操作来确定 MSE 损失函数：
+
+![](img/14853_09_065.png) (Equation 9.6.2)
+
+在前面有关 Q 学习和`Q(a | s) -> Q(s, a)`的讨论中，所有项都很熟悉。 项`max[a'] Q(a' | s') -> max[a'] Q(s', a')`。 换句话说，使用 Q 网络，在给定下一个状态的情况下预测每个动作的 Q 值，并从其中获得最大值。 注意，在终端状态下，`s'`，`max[a'] Q(a' | s') -> max[a'] Q(s', a') = 0`。
+
+但是，事实证明训练 Q 网络是不稳定的。 导致不稳定的问题有两个：1）样本之间的相关性高； 2）非平稳目标。 高度相关性是由于采样经验的顺序性质。 DQN 通过创建经验缓冲解决了问题。 训练数据是从该缓冲区中随机采样的。 此过程称为**经验回放**。
+
+非固定目标的问题是由于目标网络`Q(s', a')`在每小批训练后都会被修改。 目标网络的微小变化会导致策略，数据分布以及当前 Q 值和目标 Q 值之间的相关性发生重大变化。 这可以通过冻结`C`训练步骤的目标网络的权重来解决。 换句话说，创建了两个相同的 Q 网络。 在每个`C`训练步骤中，从训练中的 Q 网络复制目标 Q 网络参数。
+
+“算法 9.6.1”中概述了深度 Q 网络算法。
+
+“算法 9.6.1”： **DQN 算法**
+
+要求：将重播内存`D`初始化为容量`N`
+
+要求：使用随机权重`θ`初始化动作值函数`Q`
+
+要求：使用权重`θ- = 0`初始化目标操作值函数`Q_target`
+
+需要：探索率`ε`和折扣系数`γ`
+
+1.  对于`episode = 1, ..., M`，执行：
+2.  给定初始状态`s`
+3.  对于`step = 1, ..., T`，执行：
+4.  选择动作
+
+    ![](img/14853_09_082.png)
+5.  执行动作`a`，观察奖励`r`，以及下一个状态`s'`
+6.  将转换`(s, a, r, s')`存储在`D`中
+7.  更新状态`s = s'`
+8.  经验回放
+9.  从`D`中抽样一小部分经验`(s[j], a[j], r[j+1], s[j+1])`
+10.  ![](img/14853_09_090.png)
+11.  在`(Q_max - Q(s[j], a[j]; θ))²`上相对于参数`θ`执行梯度下降步骤。
+12.  定期更新目标网络
+13.  每`C`个步骤，即`Q_target = Q`，换句话说，设置`θ- = θ`
+14.  `end`
+
+1.  `end`
+
+“算法 9.6.1”总结了在具有离散动作空间和连续状态空间的环境上实现 Q 学习所需的所有技术。 在下一节中，我们将演示如何在更具挑战性的 OpenAI Gym 环境中使用 DQN。
+
+## Keras 中的 DQN
+
+为了说明 DQN，使用了 OpenAI Gym 的`CartPole-v0`环境。 `CartPole-v0`是极点平衡问题。 目的是防止电杆跌落。 环境是二维的。 动作空间由两个离散的动作（左右移动）组成。 但是，状态空间是连续的，并且包含四个变量：
+
+*   直线位置
+*   线速度
+*   旋转角度
+*   角速度
+
+`CartPole-v0`环境如图 9.6.1 所示：
+
+![](img/B14853_09_14.png)
+
+图 9.6.1：CartPole-v0 环境
+
+最初，杆是直立的。 杆保持直立的每个时间步长都提供 +1 的奖励。 当极点与垂直方向的夹角超过 15 度或与中心的距离超过 2.4 单位时，剧集结束。 如果在 100 个连续试验中平均奖励为 195.0，则认为`CartPole-v0`问题已解决：
+
+“列表 9.6.1”向我们展示了`CartPole-v0`的 DQN 实现。 `DQNAgent`类表示使用 DQN 的智能体。 创建了两个 Q 网络：
+
+*   “算法 9.6.1”中的 Q 网络或 Q
+*   “算法 9.6.1”中的目标 Q 网络或`Q_target`
+
+两个网络都是 MLP，每个都有 256 个单元的 3 个隐藏层。 这两个网络都是通过`build_model()`方法创建的。 在**经验回放**，`replay()`期间训练 Q 网络。 以`update_weights()`的固定间隔`C = 10`个训练步骤，将 Q 网络参数复制到目标 Q 网络。 在“算法 9.6.1”中，这实现了第 13 行，`Q_target = Q`。 每次发作后，`update_epsilon()`都会降低探索利用的比例，以利用已学习的策略。
+
+“列表 9.6.1”：`dqn-cartpole-9.6.1.py`
+
+`tf.keras`中的 DQN：
+
+```py
+class DQNAgent:
+    def __init__(self,
+                 state_space,
+                 action_space,
+                 episodes=500):
+        """DQN Agent on CartPole-v0 environment 
+```
+
+```py
+ Arguments:
+            state_space (tensor): state space
+            action_space (tensor): action space
+            episodes (int): number of episodes to train
+        """
+        self.action_space = action_space 
+```
+
+```py
+ # experience buffer
+        self.memory = [] 
+```
+
+```py
+ # discount rate
+        self.gamma = 0.9 
+```
+
+```py
+ # initially 90% exploration, 10% exploitation
+        self.epsilon = 1.0
+        # iteratively applying decay til 
+        # 10% exploration/90% exploitation
+        self.epsilon_min = 0.1
+        self.epsilon_decay = self.epsilon_min / self.epsilon
+        self.epsilon_decay = self.epsilon_decay ** \
+                             (1\. / float(episodes)) 
+```
+
+```py
+ # Q Network weights filename
+        self.weights_file = 'dqn_cartpole.h5'
+        # Q Network for training
+        n_inputs = state_space.shape[0]
+        n_outputs = action_space.n
+        self.q_model = self.build_model(n_inputs, n_outputs)
+        self.q_model.compile(loss='mse', optimizer=Adam())
+        # target Q Network
+        self.target_q_model = self.build_model(n_inputs, n_outputs)
+        # copy Q Network params to target Q Network
+        self.update_weights() 
+```
+
+```py
+ self.replay_counter = 0
+        self.ddqn = True if args.ddqn else False 
+```
+
+```py
+ def build_model(self, n_inputs, n_outputs):
+        """Q Network is 256-256-256 MLP 
+```
+
+```py
+ Arguments:
+            n_inputs (int): input dim
+            n_outputs (int): output dim 
+```
+
+```py
+ Return:
+            q_model (Model): DQN
+        """
+        inputs = Input(shape=(n_inputs, ), name='state')
+        x = Dense(256, activation='relu')(inputs)
+        x = Dense(256, activation='relu')(x)
+        x = Dense(256, activation='relu')(x)
+        x = Dense(n_outputs,
+                  activation='linear',
+                  name='action')(x)
+        q_model = Model(inputs, x)
+        q_model.summary()
+        return q_model 
+```
+
+```py
+ def act(self, state):
+        """eps-greedy policy
+        Return:
+            action (tensor): action to execute
+        """
+        if np.random.rand() < self.epsilon:
+            # explore - do random action
+            return self.action_space.sample() 
+```
+
+```py
+ # exploit
+        q_values = self.q_model.predict(state)
+        # select the action with max Q-value
+        action = np.argmax(q_values[0])
+        return action 
+```
+
+```py
+ def remember(self, state, action, reward, next_state, done):
+        """store experiences in the replay buffer
+        Arguments:
+            state (tensor): env state
+            action (tensor): agent action
+            reward (float): reward received after executing
+                action on state
+            next_state (tensor): next state
+        """
+        item = (state, action, reward, next_state, done)
+        self.memory.append(item) 
+```
+
+```py
+ def get_target_q_value(self, next_state, reward):
+        """compute Q_max
+           Use of target Q Network solves the 
+            non-stationarity problem
+        Arguments:
+            reward (float): reward received after executing
+                action on state
+            next_state (tensor): next state
+        Return:
+            q_value (float): max Q-value computed by
+                DQN or DDQN
+        """
+        # max Q value among next state's actions
+        if self.ddqn:
+            # DDQN
+            # current Q Network selects the action
+            # a'_max = argmax_a' Q(s', a')
+            action = np.argmax(self.q_model.predict(next_state)[0])
+            # target Q Network evaluates the action
+            # Q_max = Q_target(s', a'_max)
+            q_value = self.target_q_model.predict(\
+                                          next_state)[0][action]
+        else:
+            # DQN chooses the max Q value among next actions
+            # selection and evaluation of action is 
+            # on the target Q Network
+            # Q_max = max_a' Q_target(s', a')
+            q_value = np.amax(\
+                      self.target_q_model.predict(next_state)[0]) 
+```
+
+```py
+ # Q_max = reward + gamma * Q_max
+        q_value *= self.gamma
+        q_value += reward
+        return q_value 
+```
+
+```py
+ def replay(self, batch_size):
+        """experience replay addresses the correlation issue 
+            between samples
+        Arguments:
+            batch_size (int): replay buffer batch 
+                sample size
+        """
+        # sars = state, action, reward, state' (next_state)
+        sars_batch = random.sample(self.memory, batch_size)
+        state_batch, q_values_batch = [], [] 
+```
+
+```py
+ # fixme: for speedup, this could be done on the tensor level
+        # but easier to understand using a loop
+        for state, action, reward, next_state, done in sars_batch:
+            # policy prediction for a given state
+            q_values = self.q_model.predict(state) 
+```
+
+```py
+ # get Q_max
+            q_value = self.get_target_q_value(next_state, reward) 
+```
+
+```py
+ # correction on the Q value for the action used
+            q_values[0][action] = reward if done else q_value 
+```
+
+```py
+ # collect batch state-q_value mapping
+            state_batch.append(state[0])
+            q_values_batch.append(q_values[0]) 
+```
+
+```py
+ # train the Q-network
+        self.q_model.fit(np.array(state_batch),
+                         np.array(q_values_batch),
+                         batch_size=batch_size,
+                         epochs=1,
+                         verbose=0) 
+```
+
+```py
+ # update exploration-exploitation probability
+        self.update_epsilon() 
+```
+
+```py
+ # copy new params on old target after 
+        # every 10 training updates
+        if self.replay_counter % 10 == 0:
+            self.update_weights() 
+```
+
+```py
+ self.replay_counter += 1 
+```
+
+```py
+ def update_epsilon(self):
+        """decrease the exploration, increase exploitation"""
+        if self.epsilon > self.epsilon_min:
+            self.epsilon *= self.epsilon_decay 
+```
+
+为了在“算法 9.6.1”**经验回放**`replay()`中实现第 10 行，对于每个体验单元（`s[j]`，`a[j]`，`r[j + 1]`和`s[j + 1]`）将动作`a[j]`的 Q 值设置为`Q_max`。 所有其他动作的 Q 值保持不变。
+
+这是通过 DQNAgent `replay()`函数中的以下行实现的：
+
+```py
+# policy prediction for a given state q_values = self.q_model.predict(state)
+# get Q_max
+q_value = self.get_target_q_value(next_state)
+# correction on the Q value for the action used q_values[0][action] = reward if done else q_value 
+```
+
+如“算法 9.6.1”的第 11 行所示，只有动作`a[j]`具有等于`(Q_max - Q(s[j], a[j]; θ))²`的非零损失。 请注意，假设缓冲区中有足够的数据，换句话说，在每个剧集结束后，“列表 9.6.2”中的感知动作学习循环会调用经验回放。 缓冲区的大小大于或等于批量大小）。 在经验回放期间，会随机采样一批体验单元，并将其用于训练 Q 网络。
+
+与 Q 表类似，`act()`实现了 ε-贪婪策略，“公式 9.6.1”。
+
+体验由`remember()`存储在重播缓冲区中。 Q 通过`get_target_q_value()`函数计算。
+
+“列表 9.6.2”总结了智能体的感知－行动－学习循环。 在每个剧集中，通过调用`env.reset()`重置环境。 要执行的动作由`agent.act()`选择，并由`env.step(action)`应用于环境。 奖励和下一状态将被观察并存储在重播缓冲区中。 在执行每个操作之后，智能体会调用`replay()`来训练 DQN 并调整探索利用比率。
+
+当极点与垂直方向的夹角超过 15 度或与中心的距离超过 2.4 单位时，剧集完成（`done = True`）。 对于此示例，如果 DQN 智能体无法解决问题，则 Q 学习最多运行 3,000 集。 如果`average mean_score`奖励在 100 次连续试验`win_trials`中为 195.0，则认为`CartPole-v0`问题已解决。
+
+“列表 9.6.2”：`dqn-cartpole-9.6.1.py`
+
+`tf.keras`中的 DQN 训练循环：
+
+```py
+ # Q-Learning sampling and fitting
+    for episode in range(episode_count):
+        state = env.reset()
+        state = np.reshape(state, [1, state_size])
+        done = False
+        total_reward = 0
+        while not done:
+            # in CartPole-v0, action=0 is left and action=1 is right
+            action = agent.act(state)
+            next_state, reward, done, _ = env.step(action)
+            # in CartPole-v0:
+            # state = [pos, vel, theta, angular speed]
+            next_state = np.reshape(next_state, [1, state_size])
+            # store every experience unit in replay buffer
+            agent.remember(state, action, reward, next_state, done)
+            state = next_state
+            total_reward += reward 
+```
+
+```py
+ # call experience relay
+        if len(agent.memory) >= batch_size:
+            agent.replay(batch_size) 
+```
+
+```py
+ scores.append(total_reward)
+        mean_score = np.mean(scores)
+        if mean_score >= win_reward[args.env_id] \
+                and episode >= win_trials:
+            print("Solved in episode %d: \
+                   Mean survival = %0.2lf in %d episodes"
+                  % (episode, mean_score, win_trials))
+            print("Epsilon: ", agent.epsilon)
+            agent.save_weights()
+            break
+        if (episode + 1) % win_trials == 0:
+            print("Episode %d: Mean survival = \
+                   %0.2lf in %d episodes" %
+                  ((episode + 1), mean_score, win_trials)) 
+```
+
+在平均 10 次运行的中，DQN 在 822 集内解决了。 我们需要注意的是，每次训练运行的结果可能会有所不同。
+
+自从引入 DQN 以来，连续的论文都提出了对“算法 9.6.1”的改进。 一个很好的例子是**双 DQN（DDQN）**，下面将对其进行讨论。
+
+## 双重 Q 学习（DDQN）
+
+在 DQN 中，目标 Q 网络选择并评估每个动作，从而导致 Q 值过高。 为了解决这个问题，DDQN [3]建议使用 Q 网络选择动作，并使用目标 Q 网络评估动作。
+
+在 DQN 中，如“算法 9.6.1”所概述，第 10 行中 Q 值的估计为：
+
+![](img/14853_09_097.png)
+
+*   `Q_target`选择并评估动作，`a[j+1]`。
+
+DDQN 建议将第 10 行更改为：
+
+![](img/14853_09_100.png)
+
+项`argmax[a[j+1]] Q(s[j+1], a[j+1]; θ)`使 Q 函数可以选择动作。 然后，该动作由`Q_target`评估。
+
+“列表 9.6.3”显示了当我们创建一个新的`DDQNAgent`类时，该类继承自`DQNAgent`类。 只有`get_target_q_value()`方法被覆盖，以实现最大 Q 值计算中的更改。
+
+“列表 9.6.3”：`dqn-cartpole-9.6.1.py`：
+
+```py
+class DDQNAgent(DQNAgent):
+    def __init__(self,
+                 state_space,
+                 action_space,
+                 episodes=500):
+        super().__init__(state_space,
+                         action_space,
+                         episodes)
+        """DDQN Agent on CartPole-v0 environment 
+```
+
+```py
+ Arguments:
+            state_space (tensor): state space
+            action_space (tensor): action space
+            episodes (int): number of episodes to train
+        """ 
+```
+
+```py
+ # Q Network weights filename
+        self.weights_file = 'ddqn_cartpole.h5' 
+```
+
+```py
+ def get_target_q_value(self, next_state, reward):
+        """compute Q_max
+           Use of target Q Network solves the 
+            non-stationarity problem
+        Arguments:
+            reward (float): reward received after executing
+                action on state
+            next_state (tensor): next state
+        Returns:
+            q_value (float): max Q-value computed
+        """
+        # max Q value among next state's actions
+        # DDQN
+        # current Q Network selects the action
+        # a'_max = argmax_a' Q(s', a')
+        action = np.argmax(self.q_model.predict(next_state)[0])
+        # target Q Network evaluates the action
+        # Q_max = Q_target(s', a'_max)
+        q_value = self.target_q_model.predict(\
+                                      next_state)[0][action] 
+```
+
+```py
+ # Q_max = reward + gamma * Q_max
+        q_value *= self.gamma
+        q_value += reward
+        return q_value 
+```
+
+为了进行比较，在平均 10 次运行中，`CartPole-v0`由 DDQN 在 971 个剧集中求解。 要使用 DDQN，请运行以下命令：
+
+```py
+python3 dqn-cartpole-9.6.1.py -d 
+```
+
+DQN 和 DDQN 均表明，借助 DL，Q 学习能够扩展并解决具有连续状态空间和离散动作空间的问题。 在本章中，我们仅在具有连续状态空间和离散动作空间的最简单问题之一上演示了 DQN。 在原始论文中，DQN [2]证明了它可以在许多 Atari 游戏中达到超人的表现水平。
+
+# 7\. 总结
+
+在本章中，我们已经介绍了 DRL，DRL 是一种强大的技术，许多研究人员认为它是 AI 的最有希望的领先者。 我们已经超越了 RL 的原则。 RL 能够解决许多玩具问题，但是 Q 表无法扩展到更复杂的现实问题。 解决方案是使用深度神经网络学习 Q 表。 但是，由于样本相关性和目标 Q 网络的非平稳性，在 RL 上训练深度神经网络非常不稳定。
+
+DQN 提出了一种使用经验回放并将目标网络与受训 Q 网络分离的解决方案。 DDQN 建议通过将动作选择与动作评估分开来最大程度地降低 Q 值，从而进一步改进算法。 DQN 还提出了其他改进建议。 优先经验回放[6]认为，不应对体验缓冲区进行统一采样。
+
+取而代之的是，应更频繁地采样基于 TD 误差的更重要的经验，以完成更有效的训练。 文献[7]提出了一种对决网络架构来估计状态值函数和优势函数。 这两个函数均用于估计 Q 值，以加快学习速度。
+
+本章介绍的方法是值迭代/拟合。 通过找到最佳值函数间接学习策略。 在下一章中，方法将是使用称为策略梯度方法的一系列算法直接学习最佳策略。 学习策略有很多好处。 特别地，策略梯度方法可以处理离散和连续的动作空间。
+
+# 8\. 参考
+
+1.  `Sutton and Barto: Reinforcement Learning: An Introduction, 2017 (http://incompleteideas.net/book/bookdraft2017nov5.pdf).`
+1.  `Volodymyr Mnih et al.: Human-level Control through Deep Reinforcement Learning. Nature 518.7540, 2015: 529 (http://www.davidqiu.com:8888/research/nature14236.pdf).`
+1.  `Hado Van Hasselt, Arthur Guez, and David Silver: Deep Reinforcement Learning with Double Q-Learning. AAAI. Vol. 16, 2016 (http://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847).`
+1.  `Kai Arulkumaran et al.: A Brief Survey of Deep Reinforcement Learning. arXiv preprint arXiv:1708.05866, 2017 (https://arxiv.org/pdf/1708.05866.pdf).`
+1.  `David Silver: Lecture Notes on Reinforcement Learning (http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html).`
+1.  `Tom Schaul et al.: Prioritized experience replay. arXiv preprint arXiv:1511.05952, 2015 (https://arxiv.org/pdf/1511.05952.pdf).`
+1.  `Ziyu Wang et al.: Dueling Network Architectures for Deep Reinforcement Learning. arXiv preprint arXiv:1511.06581, 2015 (https://arxiv.org/pdf/1511.06581.pdf).`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/10.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/10.md
new file mode 100644
index 00000000..a25c3417
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/10.md
@@ -0,0 +1,1189 @@
+# 十、策略梯度方法
+
+在本章中，我们将介绍在强化学习中直接优化策略网络的算法。 这些算法统称为“策略梯度方法”。 由于策略网络是在训练期间直接优化的，因此策略梯度方法属于*基于策略*强化学习算法的族。 就像我们在“第 9 章”，“深度强化学习”中讨论的基于值的方法一样，策略梯度方法也可以实现为深度强化学习算法。
+
+研究策略梯度方法的基本动机是解决 Q 学习的局限性。 我们会回想起 Q 学习是关于选择使状态值最大化的动作。 借助 Q 函数，我们能够确定策略，使智能体能够决定对给定状态采取何种操作。 选择的动作只是使智能体最大化的动作。 在这方面，Q 学习仅限于有限数量的离散动作。 它不能处理连续的动作空间环境。 此外，Q 学习不是直接优化策略。 最后，强化学习是要找到智能体能够使用的最佳策略，以便决定应采取何种行动以最大化回报。
+
+相反，策略梯度方法适用于具有离散或连续动作空间的环境。 另外，我们将在本章中介绍的四种策略梯度方法是直接优化策略网络的表现度量。 这样就形成了一个经过训练的策略网络，智能体可以使用该网络来最佳地在其环境中采取行动。
+
+总之，本章的目的是介绍：
+
+*   策略梯度定理
+*   四种策略梯度方法： **REINFORCE** ， **带基线的 REINFORCE**， **演员评论家**和**优势演员评论家（A2C）**
+*   在连续动作空间环境中如何在`tf.keras`中实现策略梯度方法的指南
+
+让我们从定理开始。
+
+# 1\. 策略梯度定理
+
+如“第 9 章”，“深度强化学习”中所讨论的，智能体位于环境中，处于状态`s[t]`中，它是状态空间`S`的一个元素。 状态空间`S`可以是离散的，也可以是连续的。 智能体通过遵循策略`π(a[t], s[t])`从动作空间`A`采取动作`a[t]`。 `A`可以是离散的或连续的。 作为执行动作`a[t]`的结果，智能体会收到奖励`r[t + 1]`，并且环境转换为新状态`s[t + 1]`。 新状态仅取决于当前状态和操作。 智能体的目标是学习一种最佳策略`π*`，该策略可最大化所有状态的回报：
+
+![](img/B14853_10_009.png) (Equation 9.1.1)
+
+收益`R[t]`定义为从时间`t`直到剧集结束或达到最终状态时的折扣累积奖励：
+
+![](img/B14853_10_010.png) (Equation 9.1.2)
+
+根据“公式 9.1.2”，还可以通过遵循策略`π`将返回解释为给定状态的值。 从“公式 9.1.1”可以看出，与通常的`γ^k < 1.0`相比，与立即奖励相比，未来奖励的权重较低。
+
+到目前为止，我们仅考虑通过优化基于值的函数`Q(s, a)`来学习策略。
+
+本章的目标是通过参数化`π(a[t] | s[t]) -> π(a[t] | s[t], θ)`直接学习该策略。 通过参数化，我们可以使用神经网络来学习策略函数。
+
+学习策略意味着我们将最大化某个目标函数`J(θ)`，这是相对于参数`θ`的一种表现度量。在间歇式强化学习中，表现度量是起始状态的值。 在连续的情况下，目标函数是平均奖励率。
+
+通过执行梯度上升来最大化目标函数`J(θ)`。 在梯度上升中，梯度更新是在要优化的函数的导数方向上。 到目前为止，我们的所有损失函数都通过最小化或通过执行梯度下降进行了优化。 稍后，在`tf.keras`实现中，我们将看到可以通过简单地否定目标函数并执行梯度下降来执行梯度上升。
+
+直接学习策略的好处是它可以应用于离散和连续动作空间。 对于离散的动作空间：
+
+![](img/B14853_10_019.png) (Equation 10.1.1)
+
+其中`a[i]`是第`i`个动作。 `a[i]`可以是神经网络的预测或状态作用特征的线性函数：
+
+![](img/B14853_10_022.png) (Equation 10.1.2)
+
+`φ(s[t], a[i])`是将状态操作转换为特征的任何函数，例如编码器。
+
+`π(a[t] | s[t], θ)`确定每个`a[i]`的概率。 例如，在上一章中的柱杆平衡问题中，目标是通过沿二维轴向左或向右移动柱车来保持柱子直立。 在这种情况下，`a[0]`和`a[1]`分别是左右移动的概率。 通常，智能体以最高概率`a[t] = max[i] π(a[t] | s[t], θ)`采取行动。
+
+对于连续动作空间，`π(a[t] | s[t], θ)`根据给定状态的概率分布对动作进行采样。 例如，如果连续动作空间在`a[t] ∈ [-1.0, 1.0]`范围内，则`π(a[t] | s[t], θ)`通常是高斯分布，其均值和标准差由策略网络预测。 预测动作是来自此高斯分布的样本。 为了确保不会生成任何无效的预测，该操作将被限制在 -1.0 和 1.0 之间。
+
+正式地，对于连续的动作空间，该策略是高斯分布的样本：
+
+![](img/B14853_10_032.png) (Equation 10.1.3)
+
+平均值`μ`和标准差`σ`都是状态特征的函数：
+
+![](img/B14853_10_035.png) (Equation 10.1.4)
+
+![](img/B14853_10_036.png) (Equation 10.1.5)
+
+`φ(s[i])`是将状态转换为其特征的任何函数。 `ζ(x) = log(1 + e^x)`是确保标准差为正值的`softplus`函数。 实现状态特征函数`φ(s[t])`的一种方法是使用自编码器网络的编码器。 在本章的最后，我们将训练一个自编码器，并将编码器部分用作状态特征。 因此，训练策略网络是优化参数的问题`θ = [θ[μ], θ[σ]]`。
+
+给定连续可微分的策略函数`π(a[t] | s[t], θ)`，策略梯度可以计算为：
+
+![](img/B14853_10_042.png) (Equation 10.1.6)
+
+“公式 10.1.6”也被称为*策略梯度定理*。 它适用于离散和连续动作空间。 根据通过 Q 值缩放的策略操作采样的自然对数，可以计算出相对于参数`θ`的梯度。“公式 10.1.6”利用了自然对数`ᐁx/x = ᐁlnx`的特性。
+
+策略梯度定理在某种意义上是直观的，即表现梯度是根据目标策略样本估计的，并且与策略梯度成比例。 策略梯度由 Q 值缩放，以鼓励对状态值产生积极贡献的行动。 梯度还与动作概率成反比，以惩罚对提高性能没有贡献的频繁发生的动作。
+
+有关策略梯度定理的证明，请参阅[2]和 [David Silver 关于强化学习的讲义](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/pg.pdf)。
+
+与策略梯度方法相关的细微优势。 例如，在某些基于纸牌的游戏中，与基于策略的方法不同，基于值的方法在处理随机性方面没有直接的过程。 在基于策略的方法中，操作概率随参数而平滑变化。
+
+同时，相对于参数的微小变化，基于值的行为可能会发生剧烈变化。 最后，基于策略的方法对参数的依赖性使我们对如何执行表现考核的梯度提升产生了不同的表述。 这些是在后续部分中介绍的四种策略梯度方法。
+
+基于策略的方法也有其自身的缺点。 由于趋向于收敛于局部最优而非全局最优，所以它们通常更难训练。 在本章末尾提出的实验中，智能体很容易适应并选择不一定提供最高值的动作。 策略梯度的特征还在于高差异。
+
+梯度更新经常被高估。 此外，基于训练策略的方法非常耗时。 训练需要成千上万集（即采样效率不高）。 每个剧集仅提供少量样本。 在本章结尾处提供的实现方面的典型训练，大约需要一个小时才能在 GTX 1060 GPU 上进行 1,000 集。
+
+在以下各节中，我们将讨论四种策略梯度方法。 虽然讨论的重点是连续的动作空间，但是该概念通常适用于离散的动作空间。
+
+# 2\. 蒙特卡洛策略梯度（REINFORCE）方法
+
+最简单的策略梯度方法是 REINFORCE [4]，这是蒙特卡洛策略梯度方法：
+
+![](img/B14853_10_045.png) (Equation 10.2.1)
+
+其中`R[t]`是返回值，如“公式 9.1.2”所定义。`R[t]`是策略梯度定理中`Q^π(s[t], a[t])`的无偏样本。
+
+“算法 10.2.1”总结了 REINFORCE 算法[2]。 REINFORCE 是一种蒙特卡洛算法。 它不需要环境动态知识（换句话说，无需模型）。 仅需要经验样本`(s[i], a[i], r[i+1], s[i+1])`来优化策略网络`π(a[t] | s[t])`的参数。 折扣因子`γ`考虑到奖励随着步数增加而降低的事实。 梯度被`γ^k`打折。 在后续步骤中采用的梯度贡献较小。 学习率`α`是梯度更新的比例因子。
+
+通过使用折扣梯度和学习率执行梯度上升来更新参数。 作为蒙特卡洛算法，REINFORCE 要求智能体在处理梯度更新之前先完成一集。 同样由于其蒙特卡洛性质，REINFORCE 的梯度更新具有高方差的特征。
+
+**算法 10.2.1 REINFORCE**
+
+*要求*：可微分的参数化目标策略网络`π(a[t] | s[t], θ)`。
+
+*要求*：折扣因子，`γ = [0, 1]`和学习率`α`。 例如，`γ = 0.99`和`α = 1e - 3`。
+
+*要求*：`θ[0]`，初始策略网络参数（例如，`θ[0] -> 0`）。
+
+1.  重复。
+2.  通过跟随`π(a[t] | s[t], θ)`来生成剧集`(s[0]a[0]r[1]s[1], s[1]a[1]r[2]s[2], ..., s[T-1]a[T-1]r[T]s[T])`。
+3.  对于步骤`t = 0, ..., T - 1`，执行：
+4.  计算返回值`R[t] = Σ γ^t r[t+k], k = 0, ..., T`。
+5.  计算折扣的表现梯度`ᐁJ(θ) = r^t R[t] ᐁ[θ] ln π(a[t] | s[t], θ)`。
+
+1.  执行梯度上升`θ = θ + αᐁJ(θ)`。
+
+在 REINFORCE 中，可以通过神经网络对参数化策略进行建模，如图“图 10.2.1”所示：
+
+![](img/B14853_10_01.png)
+
+图 10.2.1：策略网络
+
+如上一节中讨论的，在连续动作空间的情况下，状态输入被转换为特征。 状态特征是策略网络的输入。 代表策略函数的高斯分布具有均值和标准差，均是状态特征的函数。 根据状态输入的性质，策略网络`π(θ)`可以是 MLP，CNN 或 RNN。 预测的动作只是策略函数的样本。
+
+“列表 10.2.1”显示了`REINFORCEAgent` 类，该类在`tf.keras`中实现了“算法 10.2.1”。 `train_by_episode()`在剧集完成后调用，以计算每个步骤的回报。 `train()`通过针对目标函数`logp_model`优化网络来执行“算法 10.2.1”的第 5 行和第 6 行。 父类`PolicyAgent`在本章介绍的四种策略梯度方法的算法中实现了的通用代码。 在讨论所有策略梯度方法之后，将介绍`PolicyAgent`。
+
+“列表 10.2.1”：`policygradient-car-10.1.1.py`
+
+```py
+class REINFORCEAgent(PolicyAgent):
+    def __init__(self, env):
+        """Implements the models and training of 
+           REINFORCE policy gradient method
+        Arguments:
+            env (Object): OpenAI gym environment
+        """
+        super().__init__(env) 
+```
+
+```py
+ def train_by_episode(self):
+        """Train by episode
+           Prepare the dataset before the step by step training
+        """
+        # only REINFORCE and REINFORCE with baseline
+        # use the ff code
+        # convert the rewards to returns
+        rewards = []
+        gamma = 0.99
+        for item in self.memory:
+            [_, _, _, reward, _] = item
+            rewards.append(reward)
+
+        # compute return per step
+        # return is the sum of rewards from t til end of episode
+        # return replaces reward in the list
+        for i in range(len(rewards)):
+            reward = rewards[i:]
+            horizon = len(reward)
+            discount =  [math.pow(gamma, t) for t in range(horizon)]
+            return_ = np.dot(reward, discount)
+            self.memory[i][3] = return_ 
+```
+
+```py
+ # train every step
+        for item in self.memory:
+            self.train(item, gamma=gamma) 
+```
+
+```py
+ def train(self, item, gamma=1.0):
+        """Main routine for training 
+        Arguments:
+            item (list) : one experience unit
+            gamma (float) : discount factor [0,1]
+        """
+        [step, state, next_state, reward, done] = item 
+```
+
+```py
+ # must save state for entropy computation
+        self.state = state 
+```
+
+```py
+ discount_factor = gamma**step
+        delta = reward 
+```
+
+```py
+ # apply the discount factor as shown in Algorithms
+        # 10\. 2.1, 10.3.1 and 10.4.1
+        discounted_delta = delta * discount_factor
+        discounted_delta = np.reshape(discounted_delta, [-1, 1])
+        verbose = 1 if done else 0 
+```
+
+```py
+ # train the logp model (implies training of actor model
+        # as well) since they share exactly the same set of
+        # parameters
+        self.logp_model.fit(np.array(state),
+                            discounted_delta,
+                            batch_size=1,
+                            epochs=1,
+                            verbose=verbose) 
+```
+
+以下部分提出了对 REINFORCE 方法的改进。
+
+# 3\. 带基线方法的 REINFORCE
+
+REINFORCE 算法可以通过从收益`δ = R[t] - B(s[t])`中减去基线来概括。 基线函数`B(s[t])`可以是任何函数，只要它不依赖`a[t]`即可。 基线不会改变表现梯度的期望：
+
+![](img/B14853_10_069.png) (Equation 10.3.1)
+
+“公式 10.3.1”隐含`E[π] [B(s[t]) ᐁ[θ] ln π(a[t] | s[t], θ)] = 0`，因为`B(s[t])`不是`a[t]`的函数。 尽管引入基准不会改变期望值，但会减小梯度更新的方差。 方差的减少通常会加速学习。
+
+在大多数情况下，我们使用值函数`B(s[t]) = V(s[t])`作为基准。 如果收益被高估，则比例系数将通过值函数成比例地减小，从而导致较低的方差。 值函数也已参数化`V(s[t]) = V(s[t]; θ[v])`，并与策略网络一起进行了训练。 在连续动作空间中，状态值可以是状态特征的线性函数：
+
+![](img/B14853_10_075.png) (Equation 10.3.2)
+
+“算法 10.3.1”用基线方法[1]总结了 REINFORCE。 这与 REINFORCE 相似，只不过将返回值替换为`δ`。 区别在于我们现在正在训练两个神经网络。
+
+算法 10.3.1 带基线的 REINFORCE
+
+*要求*：可微分的参数化目标策略网络`π(a[t] | s[t], θ)`。
+
+*要求*：可微分的参数化值网络`V(s[t], θ[v])`。
+
+*要求*：折扣因子`γ ∈ [0, 1]`，表现梯度的学习率`α`和值梯度`α[v]`的学习率。
+
+*要求*：`θ[0]`，初始策略网络参数（例如，`θ[0] -> 0`）。 `θ[v0]`，初始值网络参数（例如`θ[v0] -> 0`）。
+
+1.  重复。
+2.  通过跟随`π(a[t] | s[t], θ)`来生成剧集`(s[0]a[0]r[1]s[1], s[1]a[1]r[2]s[2], ..., a[T-1]a[T-1]r[T]s[T])`。
+3.  对于步骤`t = 0, ..., T - 1`，执行：
+4.  计算返回值：
+
+    ![](img/B14853_10_062.png)
+5.  减去基线：
+
+    ![](img/B14853_10_090.png)
+6.  计算折扣值梯度：
+
+    ![](img/B14853_10_091.png)
+7.  执行梯度上升：
+
+    ![](img/B14853_10_092.png)
+8.  计算折扣的表现梯度：
+
+    ![](img/B14853_10_093.png)
+
+1.  执行梯度上升：
+
+    ![](img/B14853_10_064.png)
+
+如图“图 10.3.1”所示，除了策略网络`π(θ)`之外，值网络`V(θ)`也同时受到训练。 通过表现梯度`ᐁJ(θ)`更新策略网络参数，而通过梯度`ᐁV(θ[v])`调整值网络参数。 由于 REINFORCE 是蒙特卡罗算法，因此值函数训练也是蒙特卡罗算法。
+
+学习率不一定相同。 请注意，值网络也在执行梯度上升。
+
+![](img/B14853_10_02.png)
+
+图 10.3.1：策略和值网络。 具有基线的 REINFORCE 具有一个计算基线的值网络
+
+“列表 10.3.1”显示了`REINFORCEBaselineAgent`类，该类在`tf.keras`中实现了“算法 10.3.1”。 它继承自`REINFORCEAgent`，因为这两种算法仅在和`train()`方法上有所不同。 “算法 10.3.1”的第 5 行由`delta = reward - self.value(state)[0]`计算。 然后，通过调用各自模型的`fit()`方法来优化第 7 行和第 9 行中用于目标和值函数的网络`logp_model`和`value_model`。
+
+“列表 10.3.1”：`policygradient-car-10.1.1.py`
+
+```py
+class REINFORCEBaselineAgent(REINFORCEAgent):
+    def __init__(self, env):
+        """Implements the models and training of 
+           REINFORCE w/ baseline policy 
+           gradient method
+        Arguments:
+            env (Object): OpenAI gym environment
+        """
+        super().__init__(env) 
+```
+
+```py
+ def train(self, item, gamma=1.0):
+        """Main routine for training 
+        Arguments:
+            item (list) : one experience unit
+            gamma (float) : discount factor [0,1]
+        """
+        [step, state, next_state, reward, done] = item 
+```
+
+```py
+ # must save state for entropy computation
+        self.state = state 
+```
+
+```py
+ discount_factor = gamma**step 
+```
+
+```py
+ # reinforce-baseline: delta = return - value
+        delta = reward - self.value(state)[0] 
+```
+
+```py
+ # apply the discount factor as shown in Algorithms
+        # 10\. 2.1, 10.3.1 and 10.4.1
+        discounted_delta = delta * discount_factor
+        discounted_delta = np.reshape(discounted_delta, [-1, 1])
+        verbose = 1 if done else 0 
+```
+
+```py
+ # train the logp model (implies training of actor model
+        # as well) since they share exactly the same set of
+        # parameters
+        self.logp_model.fit(np.array(state),
+                            discounted_delta,
+                            batch_size=1,
+                            epochs=1,
+                            verbose=verbose) 
+```
+
+```py
+ # train the value network (critic)
+        self.value_model.fit(np.array(state),
+                             discounted_delta,
+                             batch_size=1,
+                             epochs=1,
+                             verbose=verbose) 
+```
+
+在的下一部分中，我们将介绍使用基准线方法对 REINFORCE 的改进。
+
+# 4\. 演员评论家方法
+
+在带有基线的 REINFORCE 方法中，该值用作基线。 它不用于训练值函数。 在本节中，我们介绍 REINFORCE 与基线的变化，称为演员评论家方法。 策略和值网络扮演着参与者和批评者网络的角色。 策略网络是参与者决定给定状态时要采取的操作。 同时，值网络评估参与者或策略网络做出的决策。
+
+值网络充当批评者的角色，可以量化参与者所选择的行动的好坏。 值网络通过将状态值`V(s, θ[v]`与收到的奖励`r`和观察到的下一个状态`γV(s', θ[v])`的折扣值之和来评估状态值。 差异`δ`表示为：
+
+![](img/B14853_10_103.png) (Equation 10.4.1)
+
+为了简单起见，我们在中删除了`r`和`s`的下标。“公式 10.4.1”类似于“第 9 章”，“深度强化学习”中讨论的 Q 学习中的时间差异。 下一个状态值被`γ = [0.0, 1.0]`折扣。估计遥远的未来奖励很困难。 因此，我们的估计仅基于近期`r + γV(s', θ[v])`。 这就是*自举*技术。
+
+自举技术和“公式 10.4.1”中状态表示的依赖性通常会加速学习并减少差异。 从“公式 10.4.1”，我们注意到值网络评估了当前状态`s = s[t]`，这是由于策略网络的上一个操作`a[t-1]`。 同时，策略梯度基于当前动作`a[t]`。 从某种意义上说，评估延迟了一步。
+
+“算法 10.4.1”总结了演员评论家方法[1]。 除了评估用于训练策略和值网络的状态值评估外，还可以在线进行训练。 在每个步骤中，两个网络都经过训练。 这与 REINFORCE 和带有基线的 REINFORCE 不同，在基线之前，智能体完成了一个剧集。 首先，在当前状态的值估计期间向值网络查询两次，其次，为下一个状态的值查询。 这两个值都用于梯度计算中。
+
+**算法 10.4.1 演员评论家**
+
+*要求*：可微分的参数化目标策略网络`π(a | s, θ)`。
+
+*要求*：可微分的参数化值网络`V(s, θ[v])`。
+
+*要求*：折扣因子`γ ∈ [0, 1]`，表现梯度的学习率`α`和值梯度`α[v]`的学习率。
+
+*要求*：`θ[0]`，初始策略网络参数（例如，`θ[0] -> 0`）。 `θ[v0]`，初始值网络参数（例如`θ[v0] -> 0`）。
+
+1.  重复。
+2.  对于步骤`t = 0, ..., T - 1`，执行：
+3.  对动作`a ~ π(a | s, θ)`进行采样。
+4.  执行动作并观察奖励`r`和下一个状态`s'`。
+5.  评估状态值估计：
+
+    ![](img/B14853_10_121.png)
+6.  计算折扣值梯度：
+
+    ![](img/B14853_10_122.png)
+7.  执行梯度上升：
+
+    ![](img/B14853_10_092.png)
+8.  计算折扣表现梯度：
+
+    ![](img/B14853_10_124.png)
+9.  执行梯度上升：
+
+    ![](img/B14853_10_064.png)
+
+1.  `s = s'`
+
+“图 10.4.1”显示了演员评论家网络：
+
+![](img/B14853_10_03.png)
+
+图 10.4.1：演员评论家网络。 通过对值`V'`的第二次评估，演员评论家与 REINFORCE 的基线有所不同
+
+“列表 10.4.1”显示了`ActorCriticAgent`类，该类在`tf.keras`中实现了“算法 10.4.1”。 与两种 REINFORCE 方法不同，演员评论家不等待剧集完成。 因此，它没有实现`train_by_episode()`。 在每个体验单元，通过调用各自模型的`fit()`方法，优化第 7 行和第 9 行中用于目标和值函数`logp_model`和`value_model`的网络。 `delta`变量存储第 5 行的结果。
+
+“列表 10.4.1”：`policygradient-car-10.1.1.py`
+
+```py
+class ActorCriticAgent(PolicyAgent):
+    def __init__(self, env):
+        """Implements the models and training of 
+           Actor Critic policy gradient method
+        Arguments:
+            env (Object): OpenAI gym environment
+        """
+        super().__init__(env) 
+```
+
+```py
+ def train(self, item, gamma=1.0):
+        """Main routine for training
+        Arguments:
+            item (list) : one experience unit
+            gamma (float) : discount factor [0,1]
+        """
+        [step, state, next_state, reward, done] = item 
+```
+
+```py
+ # must save state for entropy computation
+        self.state = state 
+```
+
+```py
+ discount_factor = gamma**step 
+```
+
+```py
+ # actor-critic: delta = reward - value 
+        #       + discounted_next_value
+        delta = reward - self.value(state)[0] 
+```
+
+```py
+ # since this function is called by Actor-Critic
+        # directly, evaluate the value function here
+        if not done:
+            next_value = self.value(next_state)[0]
+            # add  the discounted next value
+            delta += gamma*next_value 
+```
+
+```py
+ # apply the discount factor as shown in Algortihms
+        # 10\. 2.1, 10.3.1 and 10.4.1
+        discounted_delta = delta * discount_factor
+        discounted_delta = np.reshape(discounted_delta, [-1, 1])
+        verbose = 1 if done else 0 
+```
+
+```py
+ # train the logp model (implies training of actor model
+        # as well) since they share exactly the same set of
+        # parameters
+        self.logp_model.fit(np.array(state),
+                            discounted_delta,
+                            batch_size=1,
+                            epochs=1,
+                            verbose=verbose) 
+```
+
+最终的策略梯度方法是 A2C。
+
+# 5\. 优势演员评论家（A2C）方法
+
+在上一节的演员评论家方法中，目标是使的值函数正确评估状态值。 还有其他用于训练值网络的技术。 一种明显的方法是在值函数优化中使用**均方误差**（**MSE**），类似于 Q 学习中的算法。 新值梯度等于返回值`R[t]`与状态值之间的 MSE 偏导数：
+
+![](img/B14853_10_127.png) (Equation 10.5.1)
+
+作为`(R[t] - V(s, θ[v])) -> 0`，值网络预测在预测给定状态的收益时变得更加准确。 我们将演员评论家算法的这种变化称为“优势演员评论家（A2C）”。 A2C 是[3]提出的“异步优势参与者关键（A3C）”的单线程或同步版本。 数量`R[t] - V(s, θ[v])`被称为*优势*。
+
+“算法 10.5.1”总结了 A2C 方法。 A2C 和演员评论家之间存在一些差异。演员评论家在线上或根据经验样本进行训练。 A2C 类似于带基线的蒙特卡洛算法，REINFORCE 和 REINFORCE。 一集完成后，将对其进行训练。 从第一个状态到最后一个状态都对演员评论家进行了训练。 A2C 训练从最后一个状态开始，并在第一个状态结束。 此外，`γ^t`不再打折 A2C 策略和值梯度。
+
+A2C 的相应网络类似于“图 10.4.1”，因为我们仅更改了梯度计算方法。 为了鼓励训练过程中的探员探索，A3C 算法[3]建议将策略函数的加权熵值的梯度添加到到梯度函数`β ᐁ[θ] H(π(a[t] | s[t], θ))`中。 回想一下，熵是对信息或事件不确定性的度量。
+
+**算法 10.5.1 优势演员评论家（A2C）**
+
+*要求*：可微分的参数化目标策略网络`π(a[t] | s[t], θ)`。
+
+*要求*：可微分的参数化值网络`V(s[t], θ[v])`。
+
+*要求*：折扣因子`γ ∈ [0, 1]`，表现梯度的学习率`α`，值梯度的学习率`α[v]`和熵权`β`。
+
+*要求*：`θ[0]`，初始策略网络参数（例如，`θ[0] -> 0`）。 `θ[v0]`，初始值网络参数（例如`θ[v0] -> 0`）。
+
+1.  重复。
+2.  通过跟随`π(a[t] | s[t], θ)`来生成剧集`(s[0]a[0]r[1]s[1], s[1]a[1]r[2]s[2], ..., a[T-1]a[T-1]r[T]s[T])`。
+3.  ![](img/B14853_10_144.png)
+4.  对于步骤`t = 0, ..., T - 1`，执行：
+5.  计算返回值：
+
+    ![](img/B14853_10_146.png)
+6.  计算值梯度：
+
+    ![](img/B14853_10_147.png)
+7.  累积梯度：
+
+    ![](img/B14853_10_092.png)
+8.  计算表现梯度：
+
+    ![](img/B14853_10_149.png)
+
+1.  执行梯度上升：
+
+    ![](img/B14853_10_064.png)
+
+“列表 10.5.1”显示了`A2CAgent`类，该类在`tf.keras`中实现了“算法 10.5.1”。 与两个 REINFORCE 方法不同，返回值是从最后一个体验单元或状态到第一个体验单元或状态的计算得出的。 在每个体验单元，通过调用各自模型的`fit()`方法，优化第 7 行和第 9 行中用于目标和值函数`logp_model`和`value_model`的网络。 注意，在对象实例化期间，熵损失的`beta`或权重设置为`0.9`，以指示将使用熵损失函数。 此外，使用 MSE 损失函数训练`value_model`。
+
+“列表 10.5.1”：`policygradient-car-10.1.1.py`
+
+```py
+class A2CAgent(PolicyAgent):
+    def __init__(self, env):
+        """Implements the models and training of 
+           A2C policy gradient method
+        Arguments:
+            env (Object): OpenAI gym environment
+        """
+        super().__init__(env)
+        # beta of entropy used in A2C
+        self.beta = 0.9
+        # loss function of A2C value_model is mse
+        self.loss = 'mse' 
+```
+
+```py
+ def train_by_episode(self, last_value=0):
+        """Train by episode 
+           Prepare the dataset before the step by step training
+        Arguments:
+            last_value (float): previous prediction of value net
+        """
+        # implements A2C training from the last state
+        # to the first state
+        # discount factor
+        gamma = 0.95
+        r = last_value
+        # the memory is visited in reverse as shown
+        # in Algorithm 10.5.1
+        for item in self.memory[::-1]:
+            [step, state, next_state, reward, done] = item
+            # compute the return
+            r = reward + gamma*r
+            item = [step, state, next_state, r, done]
+            # train per step
+            # a2c reward has been discounted
+            self.train(item) 
+```
+
+```py
+ def train(self, item, gamma=1.0):
+        """Main routine for training 
+        Arguments:
+            item (list) : one experience unit
+            gamma (float) : discount factor [0,1]
+        """
+        [step, state, next_state, reward, done] = item 
+```
+
+```py
+ # must save state for entropy computation
+        self.state = state 
+```
+
+```py
+ discount_factor = gamma**step 
+```
+
+```py
+ # a2c: delta = discounted_reward - value
+        delta = reward - self.value(state)[0] 
+```
+
+```py
+ verbose = 1 if done else 0 
+```
+
+```py
+ # train the logp model (implies training of actor model
+        # as well) since they share exactly the same set of
+        # parameters
+        self.logp_model.fit(np.array(state),
+                            discounted_delta,
+                            batch_size=1,
+                            epochs=1,
+                            verbose=verbose) 
+```
+
+```py
+ # in A2C, the target value is the return (reward
+        # replaced by return in the train_by_episode function)
+        discounted_delta = reward
+        discounted_delta = np.reshape(discounted_delta, [-1, 1]) 
+```
+
+```py
+ # train the value network (critic)
+        self.value_model.fit(np.array(state),
+                             discounted_delta,
+                             batch_size=1,
+                             epochs=1,
+                             verbose=verbose) 
+```
+
+在介绍的四种算法中，它们仅在目标函数和值（如果适用）优化方面有所不同。 在下一节中，我们将介绍四种算法的统一代码。
+
+# 6\. 使用 Keras 的策略梯度方法
+
+上一节中讨论的策略梯度方法（“算法 10.2.1”至“算法 10.5.1”）使用相同的策略和值网络模型。“图 10.2.1”至“图 10.4.1”中的策略和值网络具有相同的配置。 四种策略梯度方法的不同之处仅在于：
+
+*   表现和值梯度公式
+*   训练策略
+
+在本节中，我们将以一个代码讨论`tf.keras`算法 10.2.1 至“算法 10.5.1”的通用例程在`tf.keras`中的实现。
+
+完整的代码可以在[这个页面](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras)中找到。
+
+但是在讨论实现之前，让我们简要探讨训练环境。
+
+与 Q 学习不同，策略梯度方法适用于离散和连续动作空间。 在我们的示例中，我们将在连续动作空间案例示例中演示四种策略梯度方法，例如 OpenAI 健身房的[`MountainCarContinuous-v0`](https://gym.openai.com)。 如果您不熟悉 OpenAI Gym，请参阅“第 9 章”，“深度强化学习”。
+
+“图 10.6.1”中显示了`MountainCarContinuous-v0`二维环境的快照。在此二维环境中，一辆功率不太强的汽车停在两座山之间：
+
+![](img/B14853_10_04.png)
+
+图 10.6.1：`MountainCarContinuous-v0` OpenAI Gym 环境
+
+为了到达右侧山顶的黄旗，它必须来回行驶以获得足够的动力。 应用于汽车的能量越多（即动作的绝对值越大），则奖励越小（或负作用越大）。
+
+奖励始终为负，到达标志时仅为正。 在这种情况下，汽车将获得 +100 的奖励。 但是，每个操作都会受到以下代码的惩罚：
+
+```py
+reward-= math.pow(action[0],2)*0.1 
+```
+
+有效动作值的连续范围是`[-1.0, 1.0]`。 超出范围时，动作将被剪裁为其最小值或最大值。 因此，应用大于 1.0 或小于 -1.0 的操作值是没有意义的。
+
+`MountainCarContinuous-v0`环境状态包含两个元素：
+
+*   车厢位置
+*   车速
+
+通过编码器将状态转换为状态特征。 像动作空间一样，状态空间也是连续的。 预测的动作是给定状态的策略模型的输出。 值函数的输出是状态的预测值。
+
+如图“图 10.2.1”到“图 10.4.1”所示，在建立策略和值网络之前，我们必须首先创建一个将状态转换为特征的函数。 该函数由自编码器的编码器实现，类似于在“第 3 章”，“自编码器”中实现的编码器。
+
+“图 10.6.2”显示了包括编码器和解码器的自编码器：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_10_05.png)
+
+图 10.6.2：自编码器模型
+
+在“图 10.6.3”中，编码器是由`Input(2)-Dense(256, activation='relu')-Dense(128, activation='relu')-Dense(32)`制成的 MLP。 每个状态都转换为 32 维特征向量：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_10_06.png)
+
+图 10.6.3：编码器模型
+
+在“图 10.6.4”中，解码器也是 MLP，但由`Input(32)-Dense(128, activation='relu')-Dense(256, activation='relu')-Dense(2)`制成：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_10_07.png)
+
+图 10.6.4：解码器模型
+
+自编码器使用 MSE，损失函数和`tf.keras`默认的 Adam 优化器训练了 10 个周期。 我们为训练和测试数据集采样了 220,000 个随机状态，并应用了 200,000:20,000 个训练测试拆分。 训练后，将保存编码器权重，以备将来在策略和值网络的训练中使用。“列表 10.6.1”显示了构建和训练自编码器的方法。
+
+在`tf.keras`实现中，除非另有说明，否则我们将在本节中提及的所有例程均作为`PolicyAgent`类中的方法实现。 `PolicyAgent`的作用是代表策略梯度方法的常用功能，包括建立和训练自编码器网络模型以及预测动作，对数概率，熵和状态值。 这是“列表 10.2.1”至“列表 10.5.1”中介绍的每个策略梯度方法智能体类的超类。
+
+“列表 10.6.1”：`policygradient-car-10.1.1.py`
+
+构建和训练特征自编码器的方法：
+
+```py
+class PolicyAgent:
+    def __init__(self, env):
+        """Implements the models and training of 
+            Policy Gradient Methods
+        Argument:
+            env (Object): OpenAI gym environment
+        """ 
+```
+
+```py
+ self.env = env
+        # entropy loss weight
+        self.beta = 0.0
+        # value loss for all policy gradients except A2C
+        self.loss = self.value_loss 
+```
+
+```py
+ # s,a,r,s' are stored in memory
+        self.memory = [] 
+```
+
+```py
+ # for computation of input size
+        self.state = env.reset()
+        self.state_dim = env.observation_space.shape[0]
+        self.state = np.reshape(self.state, [1, self.state_dim])
+        self.build_autoencoder() 
+```
+
+```py
+ def build_autoencoder(self):
+        """autoencoder to convert states into features
+        """
+        # first build the encoder model
+        inputs = Input(shape=(self.state_dim, ), name='state')
+        feature_size = 32
+        x = Dense(256, activation='relu')(inputs)
+        x = Dense(128, activation='relu')(x)
+        feature = Dense(feature_size, name='feature_vector')(x) 
+```
+
+```py
+ # instantiate encoder model
+        self.encoder = Model(inputs, feature, name='encoder')
+        self.encoder.summary()
+        plot_model(self.encoder,
+                   to_file='encoder.png',
+                   show_shapes=True) 
+```
+
+```py
+ # build the decoder model
+        feature_inputs = Input(shape=(feature_size,),
+                               name='decoder_input')
+        x = Dense(128, activation='relu')(feature_inputs)
+        x = Dense(256, activation='relu')(x)
+        outputs = Dense(self.state_dim, activation='linear')(x) 
+```
+
+```py
+ # instantiate decoder model
+        self.decoder = Model(feature_inputs,
+                             outputs,
+                             name='decoder')
+        self.decoder.summary()
+        plot_model(self.decoder,
+                   to_file='decoder.png',
+                   show_shapes=True) 
+```
+
+```py
+ # autoencoder = encoder + decoder
+        # instantiate autoencoder model
+        self.autoencoder = Model(inputs,
+                                 self.decoder(self.encoder(inputs)),
+                                 name='autoencoder')
+        self.autoencoder.summary()
+        plot_model(self.autoencoder,
+                   to_file='autoencoder.png',
+                   show_shapes=True) 
+```
+
+```py
+ # Mean Square Error (MSE) loss function, Adam optimizer
+        self.autoencoder.compile(loss='mse', optimizer='adam') 
+```
+
+```py
+ def train_autoencoder(self, x_train, x_test):
+        """Training the autoencoder using randomly sampled
+            states from the environment
+        Arguments:
+            x_train (tensor): autoencoder train dataset
+            x_test (tensor): autoencoder test dataset
+        """ 
+```
+
+```py
+ # train the autoencoder
+        batch_size = 32
+        self.autoencoder.fit(x_train,
+                             x_train,
+                             validation_data=(x_test, x_test),
+                             epochs=10,
+                             batch_size=batch_size) 
+```
+
+在给定`MountainCarContinuous-v0`环境的情况下，策略（或参与者）模型会预测必须应用于汽车的操作。 如本章第一部分中有关策略梯度方法的讨论所述，对于连续动作空间，策略模型从高斯分布`π(a[t] | s[t], θ) = a[t] ~ N(μ(s[t]), σ²(s[t]))`中采样一个动作。 在`tf.` `keras`中，实现为：
+
+```py
+import tensorflow_probability as tfp
+    def action(self, args):
+        """Given mean and stddev, sample an action, clip 
+            and return
+            We assume Gaussian distribution of probability 
+            of selecting an action given a state
+        Arguments:
+            args (list) : mean, stddev list
+        """
+        mean, stddev = args
+        dist = tfp.distributions.Normal(loc=mean, scale=stddev)
+        action = dist.sample(1)
+        action = K.clip(action,
+                        self.env.action_space.low[0],
+                        self.env.action_space.high[0])
+        return action 
+```
+
+动作被限制在其最小和最大可能值之间。 在这种方法中，我们使用`TensorFlow probability`包。 可以通过以下方式单独安装：
+
+```py
+pip3 install --upgrade tensorflow-probability 
+```
+
+策略网络的作用是预测高斯分布的均值和标准差。“图 10.6.5”显示了为`π(a[t] | s[t], θ)`建模的策略网络。
+
+![A close up of text on a white background  Description automatically generated](img/B14853_10_08.png)
+
+图 10.6.5：策略模型（参与者模型）
+
+请注意，编码器模型具有冻结的预训练权重。 仅平均值和标准差权重会收到表现梯度更新。 策略网络基本上是“公式 10.1.4”和“公式 10.1.5”的实现，为方便起见在此重复：
+
+![](img/B14853_10_153.png) (Equation 10.1.4)
+
+![](img/B14853_10_036.png) (Equation 10.1.5)
+
+其中`φ(s[t])`是编码器，`θ[μ]`是平均值`Dense(1)`层的权重，`θ[σ]`是标准差`Dense(1)`层的权重。 我们使用修改后的`softplus`函数`ζ(·)`来避免标准差为零：
+
+```py
+def softplusk(x):
+    """Some implementations use a modified softplus 
+        to ensure that the stddev is never zero
+    Argument:
+        x (tensor): activation input
+    """
+    return K.softplus(x) + 1e-10 
+```
+
+策略模型构建器显示在“列表 10.6.2”中。 对数概率，熵和值模型也包含在此清单中，我们将在下面讨论。
+
+“列表 10.6.2”：`policygradient-car-10.1.1.py`
+
+根据编码后的状态特征构建策略（角色），`logp`，熵和值模型的方法：
+
+```py
+ def build_actor_critic(self):
+        """4 models are built but 3 models share the
+            same parameters. hence training one, trains the rest.
+            The 3 models that share the same parameters 
+                are action, logp, and entropy models. 
+            Entropy model is used by A2C only.
+            Each model has the same MLP structure:
+            Input(2)-Encoder-Output(1).
+            The output activation depends on the nature 
+                of the output.
+        """
+        inputs = Input(shape=(self.state_dim, ), name='state')
+        self.encoder.trainable = False
+        x = self.encoder(inputs)
+        mean = Dense(1,
+                     activation='linear',
+                     kernel_initializer='zero',
+                     name='mean')(x)
+        stddev = Dense(1,
+                       kernel_initializer='zero',
+                       name='stddev')(x)
+        # use of softplusk avoids stddev = 0
+        stddev = Activation('softplusk', name='softplus')(stddev)
+        action = Lambda(self.action,
+                        output_shape=(1,),
+                        name='action')([mean, stddev])
+        self.actor_model = Model(inputs, action, name='action')
+        self.actor_model.summary()
+        plot_model(self.actor_model,
+                   to_file='actor_model.png',
+                   show_shapes=True) 
+```
+
+```py
+ logp = Lambda(self.logp,
+                      output_shape=(1,),
+                      name='logp')([mean, stddev, action])
+        self.logp_model = Model(inputs, logp, name='logp')
+        self.logp_model.summary()
+        plot_model(self.logp_model,
+                   to_file='logp_model.png',
+                   show_shapes=True) 
+```
+
+```py
+ entropy = Lambda(self.entropy,
+                         output_shape=(1,),
+                         name='entropy')([mean, stddev])
+        self.entropy_model = Model(inputs, entropy, name='entropy')
+        self.entropy_model.summary()
+        plot_model(self.entropy_model,
+                   to_file='entropy_model.png',
+                   show_shapes=True) 
+```
+
+```py
+ value = Dense(1,
+                      activation='linear',
+                      kernel_initializer='zero',
+                      name='value')(x)
+        self.value_model = Model(inputs, value, name='value')
+        self.value_model.summary()
+        plot_model(self.value_model,
+                   to_file='value_model.png',
+                   show_shapes=True) 
+```
+
+```py
+ # logp loss of policy network
+        loss = self.logp_loss(self.get_entropy(self.state),
+                              beta=self.beta)
+        optimizer = RMSprop(lr=1e-3)
+        self.logp_model.compile(loss=loss, optimizer=optimizer) 
+```
+
+```py
+ optimizer = Adam(lr=1e-3)
+        self.value_model.compile(loss=self.loss, optimizer=optimizer) 
+```
+
+![](img/B14853_10_09.png)
+
+图 10.6.6：策略的高斯对数概率模型
+
+除了策略网络`π(a[t] | s[t], θ)`之外，我们还必须具有操作日志概率（`logp`）网络`ln π(a[t] | s[t], θ)`，因为该实际上是计算梯度的系统。 如图“图 10.6.6”所示，`logp`网络只是一个策略网络，其中附加的 Lambda（1）层在给定了作用，均值和标准差的情况下计算了高斯分布的对数概率。
+
+`logp`网络和参与者（策略）模型共享同一组参数。 Lambda 层没有任何参数。 它是通过以下函数实现的：
+
+```py
+ def logp(self, args):
+        """Given mean, stddev, and action compute
+            the log probability of the Gaussian distribution
+        Arguments:
+            args (list) : mean, stddev action, list
+        """
+        mean, stddev, action = args
+        dist = tfp.distributions.Normal(loc=mean, scale=stddev)
+        logp = dist.log_prob(action)
+        return logp 
+```
+
+训练`logp`网络也可以训练角色模型。 在本节中讨论的训练方法中，仅训练`logp`网络。
+
+如图“图 10.6.7”所示，熵模型还与策略网络共享参数：
+
+![](img/B14853_10_10.png)
+
+图 10.6.7：熵模型
+
+给定平均值和标准差，使用以下函数，输出`Lambda(1)`层计算高斯分布的熵：
+
+```py
+ def entropy(self, args):
+        """Given the mean and stddev compute 
+            the Gaussian dist entropy
+        Arguments:
+            args (list) : mean, stddev list
+        """
+        mean, stddev = args
+        dist = tfp.distributions.Normal(loc=mean, scale=stddev)
+        entropy = dist.entropy()
+        return entropy 
+```
+
+熵模型仅用于 A2C 方法。
+
+“图 10.6.8”显示了值模型：
+
+![](img/B14853_10_11.png)
+
+图 10.6.8：值模型
+
+该模型还使用具有权重的预训练编码器来实现以下公式“公式 10.3.2”，为方便起见，在此重复：
+
+![](img/B14853_10_161.png) (Equation 10.3.2)
+
+`θ[v]`是`Dense(1)`层的权重，该层是唯一接收值梯度更新的层。“图 10.6.8”表示“算法 10.3.1”至“算法 10.5.1”中的`V(s[t], θ[v])`。 值模型可以建立在以下几行中：
+
+```py
+inputs = Input(shape=(self.state_dim, ), name='state')
+self.encoder.trainable = False
+x = self.encoder(inputs)
+value = Dense(1,
+              activation='linear',
+              kernel_initializer='zero',
+              name='value')(x)
+self.value_model = Model(inputs, value, name='value') 
+```
+
+这些行也用`build_actor_critic()`方法实现，如清单 10.6.2 所示。
+
+建立网络模型后，下一步就是训练。 在“算法 10.2.1”至“算法 10.5.1”中，我们通过梯度上升执行目标函数最大化。 在`tf.keras`中，我们通过梯度下降执行损失函数最小化。 损失函数只是目标函数最大化的负数。 梯度下降是梯度上升的负值。“列表 10.6.3”显示了`logp`和值损失函数。
+
+我们可以利用损失函数的通用结构来统一“算法 10.2.1”至“算法 10.5.1”中的损失函数。 表现和值梯度仅在其恒定因子上有所不同。 所有表现梯度都有一个通用项`ᐁ[θ] ln π(a[t] | s[t], θ)`。 这由策略日志概率损失函数`logp_loss()`中的`y_pred`表示。 通用项`ᐁ[θ] ln π(a[t] | s[t], θ)`的因素取决于哪种算法，并实现为`y_true`。“表 10.6.1”显示`y_true`的值。 其余项是熵的加权梯度`β ᐁ[θ] H(π(a[t] | s[t], θ))`。 这是通过`logp_loss()`函数中`beta`和`entropy`的乘积实现的。 仅 A2C 使用此项，因此默认为`self.beta=0.0`。 对于 A2C，`self.beta=0.9`。
+
+“列表 10.6.3”：`policygradient-car-10.1.1.py`
+
+`logp`和值网络的损失函数：
+
+```py
+ def logp_loss(self, entropy, beta=0.0):
+        """logp loss, the 3rd and 4th variables 
+            (entropy and beta) are needed by A2C 
+            so we have a different loss function structure
+        Arguments:
+            entropy (tensor): Entropy loss
+            beta (float): Entropy loss weight
+        """
+        def loss(y_true, y_pred):
+            return -K.mean((y_pred * y_true) \
+                    + (beta * entropy), axis=-1) 
+```
+
+```py
+ return loss 
+```
+
+```py
+ def value_loss(self, y_true, y_pred):
+        """Typical loss function structure that accepts 
+            2 arguments only
+           this will be used by value loss of all methods 
+            except A2C
+        Arguments:
+            y_true (tensor): value ground truth
+            y_pred (tensor): value prediction
+        """
+        return -K.mean(y_pred * y_true, axis=-1) 
+```
+
+| **算法** | `logp_loss`的`y_true` | `value_loss`的`y_true` |
+| --- | --- | --- |
+| 10.2.1 REINFORCE | `γ^t R[t]` | 不适用 |
+| 10.3.1 使用基线的 REINFORCE | `γ^t δ` | `γ^t δ` |
+| 10.4.1 演员评论家 | `γ^t δ` | `γ^t δ` |
+| 10.5.1 A2C | `R[t] - V(s, θ[v])` | `R[t]` |
+
+表 10.6.1：`logp_loss`的`y_true`值和`value_loss`
+
+“表 10.6.2”中显示了用于计算“表 10.6.1”中的`y_true`的代码实现：
+
+| **算法** | `y_true`公式 | Keras 中的`y_true` |
+| --- | --- | --- |
+| 10.2.1 REINFORCE | `γ^t R[t]` | `reward * discount_factor` |
+| 10.3.1 使用基线的 REINFORCE | `γ^t δ` | `(reward - self.value(state)[0]) * discount_factor` |
+| 10.4.1 演员评论家 | `γ^t δ` | `(reward - self.value(state)[0] +  gamma * next_value) * discount_factor` |
+| 10.5.1 A2C | `R[t] - V(s, θ[v])`和`R[t]` | （`reward - self.value(state)[0]`）和`reward` |
+
+表 10.6.2：表 10.6.1 中的`y_true`值
+
+类似地，“算法 10.3.1”和“算法 10.4.1”的值损失函数具有相同的结构。 值损失函数在`tf.keras`中实现为`value_loss()`，如“列表 10.6.3”所示。 公共梯度因子`ᐁ[θ[v]] V(s[t], θ[v])`由张量`y_pred`表示。 剩余因子由`y_true`表示。 `y_true`值也显示在“表 10.6.1”中。 REINFORCE 不使用值函数。 A2C 使用 MSE 损失函数来学习值函数。 在 A2C 中，`y_true`代表目标值或基本情况。
+
+有了所有网络模型和损失函数，最后一部分是训练策略，每种算法都不同。 每个策略梯度方法的训练算法已在“列表 10.2.1”至“列表 10.5.1”中进行了讨论。 “算法 10.2.1”，“算法 10.3.1”和“算法 10.5.1”等待完整的剧集在训练之前完成，因此它同时运行`train_by_episode()` 和`train()`。 完整剧集保存在`self.memory`中。 演员评论家“算法 10.4.1”每步训练一次，仅运行`train()`。
+
+“列表 10.6.4”显示了当智能体执行并训练策略和值模型时，一个剧集如何展开。 `for`循环执行 1,000 集。 当达到 1,000 步或汽车触及旗帜时，剧集终止。 智能体在每个步骤执行策略预测的操作。 在每个剧集或步骤之后，将调用训练例程。
+
+“列表 10.6.4”：`policygradient-car-10.1.1.py`
+
+```py
+ # sampling and fitting
+    for episode in range(episode_count):
+        state = env.reset()
+        # state is car [position, speed]
+        state = np.reshape(state, [1, state_dim])
+        # reset all variables and memory before the start of
+        # every episode
+        step = 0
+        total_reward = 0
+        done = False
+        agent.reset_memory()
+        while not done:
+            # [min, max] action = [-1.0, 1.0]
+            # for baseline, random choice of action will not move
+            # the car pass the flag pole
+            if args.random:
+                action = env.action_space.sample()
+            else:
+                action = agent.act(state)
+            env.render()
+            # after executing the action, get s', r, done
+            next_state, reward, done, _ = env.step(action)
+            next_state = np.reshape(next_state, [1, state_dim])
+            # save the experience unit in memory for training
+            # Actor-Critic does not need this but we keep it anyway.
+            item = [step, state, next_state, reward, done]
+            agent.remember(item) 
+```
+
+```py
+ if args.actor_critic and train:
+                # only actor-critic performs online training
+                # train at every step as it happens
+                agent.train(item, gamma=0.99)
+            elif not args.random and done and train:
+                # for REINFORCE, REINFORCE with baseline, and A2C
+                # we wait for the completion of the episode before 
+                # training the network(s)
+                # last value as used by A2C
+                if args.a2c:
+                    v = 0 if reward > 0 else agent.value(next_state)[0]
+                    agent.train_by_episode(last_value=v)
+                else:
+                    agent.train_by_episode() 
+```
+
+```py
+ # accumulate reward
+            total_reward += reward
+            # next state is the new state
+            state = next_state
+            step += 1 
+```
+
+在训练期间，我们收集了数据以确定每个策略梯度算法的表现。 在下一部分中，我们总结了结果。
+
+# 7\. 策略梯度方法的表现评估
+
+通过训练智能体 1000 次剧集，评估了 4 种策略梯度方法。 我们将 1 次训练定义为 1,000 次训练。 第一表现度量标准是通过累计汽车在 1,000 集内达到标志的次数来衡量的。
+
+在此指标中，A2C 达到该标志的次数最多，其次是 REINFORCE（具有基线，演员评论家和 REINFORCE）。 使用基线或批判者可以加速学习。 请注意，这些是训练会话，智能体会在其中不断提高其表现。 在实验中，有些情况下智能体的表现没有随时间改善。
+
+第二个表现指标基于以下要求：如果每集的总奖励至少为 90.0，则认为`MountainCarContinuous-v0`已解决。 从每种方法的 5 个训练会话中，我们选择了最近 100 个剧集（第 900 至 999 集）中最高总奖励的 1 个训练会话。
+
+“图 10.7.1”至“图 10.7.4”显示了在执行 1000 集时山地车到达标志的次数。
+
+![](img/B14853_10_12.png)
+
+图 10.7.1：山车使用 REINFORCE 方法到达标志的次数
+
+![](img/B14853_10_13.png)
+
+图 10.7.2：使用基线方法使用 REINFORCE，山地车到达标志的次数
+
+![](img/B14853_10_14.png)
+
+图 10.7.3：使用演员评论家方法山地车到达旗帜的次数
+
+![](img/B14853_10_15.png)
+
+图 10.7.4：山地车使用 A2C 方法到达标志的次数
+
+“图 10.7.5”至“图 10.7.8”显示 1,000 集的总奖励。
+
+![](img/B14853_10_16.png)
+
+图 10.7.5：使用 REINFORCE 方法获得的每集总奖励
+
+![](img/B14853_10_17.png)
+
+图 10.7.6：使用带有基线方法的 REINFORCE，每集获得的总奖励。
+
+![](img/B14853_10_18.png)
+
+图 10.7.7：使用演员评论家方法获得的每集总奖励
+
+![](img/B14853_10_19.png)
+
+图 10.7.8：使用 A2C 方法获得的每集总奖励
+
+以为基准的 REINFORCE 是唯一能够在 1,000 次训练中始终获得约 90 的总奖励的方法。 A2C 的表现仅次于第二名，但无法始终达到至少 90 分的总奖励。
+
+在进行的实验中，我们使用相同的学习率`1e-3`进行对数概率和值网络优化。 折扣系数设置为 0.99（A2C 除外），以 0.95 的折扣系数更容易训练。
+
+鼓励阅读器通过执行以下操作来运行受过训练的网络：
+
+```py
+python3 policygradient-car-10.1.1.py
+--encoder_weights=encoder_weights.h5 --actor_weights=actor_weights.h5 
+```
+
+“表 10.7.1”显示了其他运行`policygradient-car-10.1.1.py`的模式。 权重文件（即`*.h5`）可以替换为您自己的预训练权重文件。 请查阅代码以查看其他可能的选项。
+
+| **目的** | **运行** |
+| --- | --- |
+| 从零开始训练 REINFORCE | `python3 policygradient-car-10.1.1.py` |
+| 从头开始使用基线训练 REINFORCE | `python3 policygradient-car-10.1.1.py -b` |
+| 从零开始训练演员评论家 | `python3 policygradient-car-10.1.1.py -a` |
+| 从头开始训练 A2C | `python3 policygradient-car-10.1.1.py -c` |
+| 从先前保存的权重中训练 REINFORCE | `python3 policygradient-car-10.1.1.py``--encoder-weights=encoder_weights.h5``--actor-weights=actor_weights.h5 --train` |
+| 使用先前保存的权重使用基线训练 REINFORCE | `python3 policygradient-car-10.1.1.py``--encoder-weights=encoder_weights.h5``--actor-weights=actor_weights.h5``--value-weights=value_weights.h5 -b --train` |
+| 使用先前保存的权重训练演员评论家 | `python3 policygradient-car-10.1.1.py``--encoder-weights=encoder_weights.h5``--actor-weights=actor_weights.h5``--value-weights=value_weights.h5 -a --train` |
+| 使用先前保存的权重训练 A2C | `python3 policygradient-car-10.1.1.py``--encoder-weights=encoder_weights.h5``--actor-weights=actor_weights.h5``--value-weights=value_weights.h5 -c --train` |
+
+表 10.7.1：运行 policygradient-car-10.1.1.py 时的不同选项
+
+最后一点，我们在`tf.keras`中对策略梯度方法的实现存在一些局限性。 例如，训练演员模型需要对动作进行重新采样。 首先对动作进行采样并将其应用于环境，以观察奖励和下一个状态。 然后，采取另一个样本来训练对数概率模型。 第二个样本不一定与第一个样本相同，但是用于训练的奖励来自第一个采样动作，这可能会在梯度计算中引入随机误差。
+
+# 8\. 总结
+
+在本章中，我们介绍了策略梯度方法。 从策略梯度定理开始，我们制定了四种方法来训练策略网络。 详细讨论了四种方法：REINFORCE，带有基线的 REINFORCE，演员评论家和 A2C 算法。 我们探讨了如何在 Keras 中实现这四种方法。 然后，我们通过检查智能体成功达到目标的次数以及每集获得的总奖励来验证算法。
+
+与上一章中讨论的深度 Q 网络[2]相似，基本策略梯度算法可以进行一些改进。 例如，最突出的一个是 A3C [3]，它是 A2C 的多线程版本。 这使智能体可以同时接触不同的经验，并异步优化策略和值网络。 但是，在 [OpenAI](https://blog.openai.com/baselines-acktr-a2c/) 进行的实验中，与 A2C 相比，A3C 没有强大的优势，因为前者无法利用当今提供强大的 GPU 的优势。
+
+在接下来的两章中，我们将着手于另一个领域-对象检测和语义分割。 对象检测使智能体能够识别和定位给定图像中的对象。 语义分割基于对象类别识别给定图像中的像素区域。
+
+# 9\. 参考
+
+1.  `Richard Sutton and Andrew Barto: Reinforcement Learning: An Introduction: http://incompleteideas.net/book/bookdraft2017nov5.pdf (2017)`
+1.  `Volodymyr Mnih et al.: Human-level control through deep reinforcement learning, Nature 518.7540 (2015): 529`
+1.  `Volodymyr Mnih et al.: Asynchronous Methods for Deep Reinforcement Learning, International conference on machine learning, 2016`
+1.  `Ronald Williams: Simple statistical gradient-following algorithms for connectionist reinforcement learning, Machine learning 8.3-4 (1992): 229-256`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/11.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/11.md
new file mode 100644
index 00000000..73ee0810
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/11.md
@@ -0,0 +1,1672 @@
+# 十一、对象检测
+
+目标检测是计算机视觉最重要的应用之一。 对象检测是同时定位和识别图像中存在的对象的任务。 为了使自动驾驶汽车安全地在街道上行驶，该算法必须检测到行人，道路，车辆，交通信号灯，标志和意外障碍物的存在。 在安全方面，入侵者的存在可以用来触发警报或通知适当的当局。
+
+尽管很重要，但是对象检测一直是计算机视觉中的一个长期存在的问题。 已经提出了许多算法，但是通常很慢，并且精度和召回率很低。 与 AlexNet [1]在 ImageNet 大规模图像分类问题中所取得的成就类似，深度学习显着提高了对象检测领域。 最新的对象检测方法现在可以实时运行，并且具有更高的精度和召回率。
+
+在本章中，我们重点介绍实时对象检测。 特别是，我们讨论了`tf.keras`中**单发检测**（**SSD**）[2]的概念和实现。 与其他深度学习检测算法相比，SSD 可在现代 GPU 上实现实时检测速度，而表现不会显着下降。 SSD 还易于端到端训练。
+
+总之，本章的目的是介绍：
+
+*   对象检测的概念
+*   多尺度目标检测的概念
+*   SSD 作为多尺度目标检测算法
+*   `tf.keras`中 SSD 的实现
+
+我们将从介绍对象检测的概念开始。
+
+# 1\. 对象检测
+
+在对象检测中，目标是在图像中定位和识别物体。“图 11.1.1”显示了目标**汽水罐**的目标物检测。 本地化意味着必须估计对象的边界框。 使用左上角像素坐标和右下角像素坐标是用于描述边界框的通用约定。 在“图 11.1.1”中，左上角像素具有坐标`(x_min, y_min)`，而右下角像素的坐标为`(x_max, y_max)`。像素坐标系的原点`(0, 0)`位于整个图像的左上角像素。
+
+在执行定位时，检测还必须识别对象。 识别是计算机视觉中的经典识别或分类任务。 至少，对象检测必须确定边界框是属于已知对象还是背景。 可以训练对象检测网络以仅检测一个特定对象，例如“图 11.1.1”中的**汽水罐**。 其他所有内容均视为背景，因此无需显示其边界框。 同一对象的多个实例，例如两个或多个**汽水罐**，也可以通过同一网络检测到，如图“图 11.1.2”所示。
+
+![](img/B14853_11_01.png)
+
+图 11.1.1 说明了对象检测是在图像中定位和识别对象的过程。
+
+![](img/B14853_11_02.png)
+
+图 11.1.2 被训练为检测一个对象实例的同一网络可以检测到同一对象的多个实例。
+
+如果场景中存在多个对象，例如在“图 11.1.3”中，则对象检测方法只能识别在其上训练的一个对象。 其他两个对象将被分类为背景，并且不会分配边界框。
+
+![](img/B14853_11_03.png)
+
+图 11.1.3 如果仅在检测汽水罐方面训练了对象检测，它将忽略图像中的其他两个对象。
+
+但是，如果重新训练了网络以检测三个对象：1）**汽水罐**，2）**果汁罐**和 3）**水瓶**会同时定位和识别，如图“图 11.1.4”所示。
+
+![](img/B14853_11_04.png)
+
+图 11.1.4 即使背景杂乱或照明发生变化，也可以重新训练对象检测网络以检测所有三个对象。
+
+一个好的对象检测器必须在现实环境中具有鲁棒性。“图 11.1.4”显示了一个好的对象检测网络，即使背景杂乱甚至在弱光条件下，也可以定位和识别已知对象。 对象检测器必须具有鲁棒性的其他因素是物体变换（旋转和/或平移），表面反射，纹理变化和噪声。
+
+总之，对象检测的目标是针对图像中每个**可识别的**对象同时预测以下内容：
+
+*   `y_cls`或单热向量形式的类别或类
+*   `y_box = ((x_min, y_min), (x_max, y_max))`或像素坐标形式的边界框坐标
+
+通过解释了对象检测的基本概念，我们可以开始讨论对象检测的某些特定机制。 我们将从介绍锚框开始。
+
+# 2\. 锚框
+
+从上一节的讨论中，我们了解到，对象检测必须预测边界框区域以及其中的对象类别。 假设与此同时，我们的重点是边界框坐标估计。
+
+网络如何预测坐标`(x_min, y_min)`和`(x_max, y_max)`？ 网络可以做出与图像的左上角像素坐标和右下角像素坐标相对应的初始猜测，例如`(0, 0)`和`(w, h)`。`w`是图像宽度，而`h`是图像高度。 然后，网络通过对地面真实边界框坐标执行回归来迭代地校正估计。
+
+由于可能的像素值存在较大差异，因此使用原始像素估计边界框坐标不是最佳方法。 SSD 代替原始像素，将地面真值边界框和预测边界框坐标之间的像素误差值最小化。 对于此示例，像素的误差值为`(x_min, y_min)`和`(x_max - w, y_max - h)`。 这些值称为`offsets`。
+
+为了帮助网络找出正确的边界框坐标，将图像划分为多个区域。 每个区域称为**定位框**。 然后，网络估计每个锚框的**偏移**。 这样得出的预测更接近于基本事实。
+
+例如，如图“图 11.2.1”所示，将普通图像尺寸`640 x 480`分为`2 x 1`个区域，从而产生两个锚框。 与`2 x 2`的大小不同，`2 x 1`的划分创建了近似方形的锚框。 在第一个锚点框中，新的偏移量是`(x_min, y_min)`和`{x_max - w/2, y_max - h}`，它们比没有锚框的像素误差值更小。 第二个锚框的偏移量也较小。
+
+在“图 11.2.2”中，图像被进一步分割。 这次，锚框为`3 x 2`。第二个锚框偏移为`{x_min - w/3, y_min}`和`{x_max - 2w/3, y_max - h/2}`，这是迄今为止最小的。 但是，如果将图像进一步分为`5 x 4`，则偏移量开始再次增加。 主要思想是，在创建各种尺寸的区域的过程中，将出现最接近地面真值边界框的最佳锚框大小。 使用多尺度锚框有效地检测不同大小的对象将巩固**多尺度对象检测**算法的概念。
+
+找到一个最佳的锚框并不是零成本。 尤其是，有些外部锚框的偏移量比使用整个图像还要差。 在这种情况下，SSD 建议这些锚定框不应对整个优化过程有所帮助，而应予以抑制。 在以下各节中，将更详细地讨论排除非最佳锚框的算法。
+
+到目前为止，我们已经有三套锚框。
+
+第一个创建一个`2 x 1`的锚框网格，每个锚框的尺寸为`(w/2, h)`。
+
+第二个创建一个`3 x 2`的锚框网格，每个锚框的尺寸为`(w/3, h/2)`。
+
+第三个创建一个`5 x 4`的锚框网格，每个锚框的尺寸为`(w/5, h/4)`。
+
+我们还需要多少套锚盒？ 它取决于图像的尺寸和对象最小边框的尺寸。 对于此示例中使用的`640 x 480`图像，其他锚点框为：
+
+`10 x 8`格的锚框，每个框的尺寸为`(w/10, h/8)`
+
+`20 x 15`格的锚框，每个锚框的尺寸为`(w/20, h/15)`
+
+`40 x 30`格的锚框，每个框的尺寸为`(w/40, h/30)`
+
+对于具有`40 x 30`网格的锚框的`640 x 480`图像，最小的锚框覆盖输入图像的`16 x 16`像素斑块，也称为**接收域**。 到目前为止，包围盒的总数为 1608。对于所有尺寸，最小的**缩放因子**可以总结为：
+
+![](img/B14853_11_010.png) (Equation 11.2.1)
+
+锚框如何进一步改进？ 如果我们允许锚框具有不同的纵横比，则可以减少偏移量。 每个调整大小的锚点框的质心与原始锚点框相同。 除宽高比 1 外，SSD [2]包括其他宽高比：
+
+![](img/B14853_11_011.png) (Equation 11.2.2)
+
+对于每个纵横比`a[i]`，对应的锚框尺寸为：
+
+![](img/B14853_11_013.png) (Equation 11.2.3)
+
+`(s[xj], s[yj])`是“公式 11.2.1”中的第`j`个比例因子。
+
+使用每个锚框五个不同的长宽比，锚框的总数将增加到`1,608 x 5 = 8,040`。“图 11.2.3”显示了`(s[x4], s[y4]) = (1/3, 1/2)`和`a[i ∈ {0, 1, 3}] = 1, 2, 1/2`情况下的锚框。
+
+请注意，为了达到一定的纵横比，我们不会使锚框变形。 而是调整锚框的宽度和高度。
+
+对于`a[0] = 1`，SSD 建议使用其他尺寸的锚框：
+
+![](img/B14853_11_018.png) (Equation 11.2.4)
+
+现在每个区域有六个锚定框。 有五个是由于五个纵横比，另外还有一个纵横比为 1。新的锚框总数增加到 9,648。
+
+![](img/B14853_11_05.png)
+
+图 11.2.1 将图像划分为多个区域（也称为锚框），使网络可以进行更接近地面真实情况的预测。
+
+![](img/B14853_11_06.png)
+
+图 11.2.2 使用较小的锚框可以进一步减少偏移。
+
+![](img/B14853_11_07.png)
+
+图 11.2.3 具有比例因子`(s[x4], s[y4]) = (1/3, 1/2)`和纵横比`a[i ∈ {0, 1, 3}] = 1, 2, 1/2`的一个区域的锚框。
+
+下面的“列表 11.2.1”显示了锚框生成函数`anchor_boxes()`。 给定输入的图像形状（`image_shape`），纵横比（`aspect_ratios`）和缩放因子（`sizes`），将计算不同的锚框大小并将其存储在名为`width_height`的列表中。 从给定的特征映射形状（`feature_shape`或`(h_fmap, w_fmap)`和`width_height`， 生成具有尺寸`(h_fmap, w_fmap, n_boxes, 4)`。`n_boxes`或每个特征映射点的锚点框数是基于纵横比和等于 1 的纵横比的一个附加大小计算的。
+
+“列表 11.2.1”：锚框生成函数的`layer_utils.py`函数：
+
+```py
+def anchor_boxes(feature_shape,
+                 image_shape,
+                 index=0,
+                 n_layers=4,
+                 aspect_ratios=(1, 2, 0.5)):
+    """ Compute the anchor boxes for a given feature map.
+    Anchor boxes are in minmax format 
+```
+
+```py
+ Arguments:
+        feature_shape (list): Feature map shape
+        image_shape (list): Image size shape
+        index (int): Indicates which of ssd head layers
+            are we referring to
+        n_layers (int): Number of ssd head layers 
+```
+
+```py
+ Returns:
+        boxes (tensor): Anchor boxes per feature map
+    """ 
+```
+
+```py
+ # anchor box sizes given an index of layer in ssd head
+    sizes = anchor_sizes(n_layers)[index]
+    # number of anchor boxes per feature map pt
+    n_boxes = len(aspect_ratios) + 1
+    # ignore number of channels (last)
+    image_height, image_width, _ = image_shape
+    # ignore number of feature maps (last)
+    feature_height, feature_width, _ = feature_shape 
+```
+
+```py
+ # normalized width and height
+    # sizes[0] is scale size, sizes[1] is sqrt(scale*(scale+1))
+    norm_height = image_height * sizes[0]
+    norm_width = image_width * sizes[0] 
+```
+
+```py
+ # list of anchor boxes (width, height)
+    width_height = []
+    # anchor box by aspect ratio on resized image dims
+    # Equation 11.2.3
+    for ar in aspect_ratios:
+        box_width = norm_width * np.sqrt(ar)
+        box_height = norm_height / np.sqrt(ar)
+        width_height.append((box_width, box_height))
+    # multiply anchor box dim by size[1] for aspect_ratio = 1
+    # Equation 11.2.4
+    box_width = image_width * sizes[1]
+    box_height = image_height * sizes[1]
+    width_height.append((box_width, box_height)) 
+```
+
+```py
+ # now an array of (width, height)
+    width_height = np.array(width_height) 
+```
+
+```py
+ # dimensions of each receptive field in pixels
+    grid_width = image_width / feature_width
+    grid_height = image_height / feature_height 
+```
+
+```py
+ # compute center of receptive field per feature pt
+    # (cx, cy) format 
+    # starting at midpoint of 1st receptive field
+    start = grid_width * 0.5
+    # ending at midpoint of last receptive field
+    end = (feature_width - 0.5) * grid_width
+    cx = np.linspace(start, end, feature_width) 
+```
+
+```py
+ start = grid_height * 0.5
+    end = (feature_height - 0.5) * grid_height
+    cy = np.linspace(start, end, feature_height) 
+```
+
+```py
+ # grid of box centers
+    cx_grid, cy_grid = np.meshgrid(cx, cy) 
+```
+
+```py
+ # for np.tile()
+    cx_grid = np.expand_dims(cx_grid, -1)
+    cy_grid = np.expand_dims(cy_grid, -1) 
+```
+
+```py
+ # tensor = (feature_map_height, feature_map_width, n_boxes, 4)
+    # aligned with image tensor (height, width, channels)
+    # last dimension = (cx, cy, w, h)
+    boxes = np.zeros((feature_height, feature_width, n_boxes, 4)) 
+```
+
+```py
+ # (cx, cy)
+    boxes[..., 0] = np.tile(cx_grid, (1, 1, n_boxes))
+    boxes[..., 1] = np.tile(cy_grid, (1, 1, n_boxes)) 
+```
+
+```py
+ # (w, h)
+    boxes[..., 2] = width_height[:, 0]
+    boxes[..., 3] = width_height[:, 1] 
+```
+
+```py
+ # convert (cx, cy, w, h) to (xmin, xmax, ymin, ymax)
+    # prepend one dimension to boxes 
+    # to account for the batch size = 1
+    boxes = centroid2minmax(boxes)
+    boxes = np.expand_dims(boxes, axis=0)
+    return boxes 
+```
+
+```py
+def centroid2minmax(boxes):
+    """Centroid to minmax format 
+    (cx, cy, w, h) to (xmin, xmax, ymin, ymax) 
+```
+
+```py
+ Arguments:
+        boxes (tensor): Batch of boxes in centroid format 
+```
+
+```py
+ Returns:
+        minmax (tensor): Batch of boxes in minmax format
+    """
+    minmax= np.copy(boxes).astype(np.float)
+    minmax[..., 0] = boxes[..., 0] - (0.5 * boxes[..., 2])
+    minmax[..., 1] = boxes[..., 0] + (0.5 * boxes[..., 2])
+    minmax[..., 2] = boxes[..., 1] - (0.5 * boxes[..., 3])
+    minmax[..., 3] = boxes[..., 1] + (0.5 * boxes[..., 3])
+    return minmax 
+```
+
+我们已经介绍了锚框如何协助对象检测以及如何生成它们。 在下一节中，我们将介绍一种特殊的锚点框：真实情况锚点框。 给定图像中的对象，必须将其分配给多个锚点框之一。 这就是，称为真实情况锚定框。
+
+# 3\. 真实情况锚框
+
+从“图 11.2.3”看来，给定一个对象边界框，有许多可以分配给对象的真实情况锚定框。 实际上，仅出于“图 11.2.3”中的说明，已经有 3 个锚定框。 如果考虑每个区域的所有锚框，则仅针对`(s[x4], s[y4]) = (1/3, 1/2)`就有`6 x 6 = 36`个地面真实框。 使用所有 9,648 个锚点框显然过多。 所有锚定框中只有一个应与地面真值边界框相关联。 所有其他锚点框都是背景锚点框。 选择哪个对象应被视为图像中对象的真实情况锚定框的标准是什么？
+
+选择锚框的基础称为**交并比**（**IoU**）。 IoU 也称为 *Jaccard 指数*。 在“图 11.3.1”中说明了 IoU。 给定 2 个区域，对象边界框`B[0]`和锚定框`A[1]`，IoU 等于重叠除以合并区域的面积：
+
+![](img/B14853_11_022.png) (Equation 11.3.1)
+
+![](img/B14853_11_08.png)
+
+图 11.3.1 IoU 等于（左）候选锚点框`A[1]`与（右）对象边界框`B[0]`之间的相交面积除以并集面积。
+
+我们删除了该等式的下标。 对于给定的对象边界框`B[i]`，对于所有锚点框`A[j]`，地面真值锚点框`A[j(gt)]`是具有最大 IoU 的一个：
+
+![](img/B14853_11_023.png) (Equation 11.3.2)
+
+请注意，对于每个对象，只有一个基于“公式 11.3.2”的地面真值锚定框。 此外，必须在所有比例因子和尺寸（长宽比和附加尺寸）中对所有锚框进行最大化。 在“图 11.3.1”中，在 9,648 个锚框中仅显示了一个比例因子大小。
+
+为了说明“公式 11.3.2”，假设考虑了“图 11.3.1”中纵横比为 1 的锚框。 对于每个锚框，估计的 IoU 均显示在“表 11.3.1”中。 由于边界框`B[0]`的最大 IoU 为 0.32，因此带有锚框`A[1]`，`A[1]`被分配为地面真值边界框`B[0]`。`A[1]`也被称为**正锚框**。
+
+正锚定框的类别和偏移量是相对于其地面真值边界框确定的。 正锚定框的类别与其地面真值边界框相同。 同时，可以将正锚框偏移量计算为等于地面真实边界框坐标减去其自身的边界框坐标。
+
+其余锚框发生了什么，`A[0]`，`A[2]`，`A[3]`，`A[4]`，和`A[5]`？ 我们可以通过找到他们的 IoU 大于某个阈值的边界框来给他们第二次机会。
+
+例如，如果阈值为 0.5，则没有可分配给它们的地面真理边界框。 如果阈值降低到 0.25，则`A[4]`也分配有地面真值边界框`B[0]`，因为其 IoU 为 0.30 。 将`A[4]`添加到肯定锚框列表中。 在这本书中，`A[4]`被称为额外的正面锚盒。 没有地面边界框的其余锚框称为**负锚框**。
+
+在以下有关损失函数的部分中，负锚框不构成偏移损失函数。
+
+|  |`B[0]`|
+| --- | --- |
+|`A[0]`| 0 |
+|`A[1]`| 0.32 |
+|`A[2]`| 0 |
+|`A[3]`| 0 |
+|`A[4]`| 0.30 |
+|`A[5]`| 0 |
+
+“表 11.3.1”每个锚框`A[j ∈ 0 .. 5]`的 IoU，带有对象边界框`B[0]`，如“图 11.3.1”所示。
+
+如果加载了另一个带有 2 个要检测的对象的图像，我们将寻找 2 个正 IoU，最大 IoU，并带有边界框`B[0]`和`B[1]`。 然后，我们使用边界框`B[0]`和`B[1]`寻找满足最小 IoU 准则的额外正锚框。
+
+为了简化讨论，我们只考虑每个区域一个锚框。 实际上，应该考虑代表不同缩放比例，大小和纵横比的所有锚框。 在下一节中，我们讨论如何制定损失函数，这些损失函数将通过 SSD 网络进行优化。
+
+“列表 11.3.1”显示了`get_gt_data()`的实现，该实现计算锚定框的真实情况标签。
+
+“列表 11.3.1”：`layer_utils.py`
+
+```py
+def get_gt_data(iou,
+                n_classes=4,
+                anchors=None,
+                labels=None,
+                normalize=False,
+                threshold=0.6):
+    """Retrieve ground truth class, bbox offset, and mask
+
+    Arguments:
+        iou (tensor): IoU of each bounding box wrt each anchor box
+        n_classes (int): Number of object classes
+        anchors (tensor): Anchor boxes per feature layer
+        labels (list): Ground truth labels
+        normalize (bool): If normalization should be applied
+        threshold (float): If less than 1.0, anchor boxes>threshold
+            are also part of positive anchor boxes 
+```
+
+```py
+ Returns:
+        gt_class, gt_offset, gt_mask (tensor): Ground truth classes,
+            offsets, and masks
+    """
+    # each maxiou_per_get is index of anchor w/ max iou
+    # for the given ground truth bounding box
+    maxiou_per_gt = np.argmax(iou, axis=0) 
+```
+
+```py
+ # get extra anchor boxes based on IoU
+    if threshold < 1.0:
+        iou_gt_thresh = np.argwhere(iou>threshold)
+        if iou_gt_thresh.size > 0:
+            extra_anchors = iou_gt_thresh[:,0]
+            extra_classes = iou_gt_thresh[:,1]
+            extra_labels = labels[extra_classes]
+            indexes = [maxiou_per_gt, extra_anchors]
+            maxiou_per_gt = np.concatenate(indexes,
+                                           axis=0)
+            labels = np.concatenate([labels, extra_labels],
+                                    axis=0) 
+```
+
+```py
+ # mask generation
+    gt_mask = np.zeros((iou.shape[0], 4))
+    # only indexes maxiou_per_gt are valid bounding boxes
+    gt_mask[maxiou_per_gt] = 1.0 
+```
+
+```py
+ # class generation
+    gt_class = np.zeros((iou.shape[0], n_classes))
+    # by default all are background (index 0)
+    gt_class[:, 0] = 1
+    # but those that belong to maxiou_per_gt are not
+    gt_class[maxiou_per_gt, 0] = 0
+    # we have to find those column indexes (classes)
+    maxiou_col = np.reshape(maxiou_per_gt,
+                            (maxiou_per_gt.shape[0], 1))
+    label_col = np.reshape(labels[:,4],
+                           (labels.shape[0], 1)).astype(int)
+    row_col = np.append(maxiou_col, label_col, axis=1)
+    # the label of object in maxio_per_gt
+    gt_class[row_col[:,0], row_col[:,1]]  = 1.0 
+```
+
+```py
+ # offsets generation
+    gt_offset = np.zeros((iou.shape[0], 4)) 
+```
+
+```py
+ #(cx, cy, w, h) format
+    if normalize:
+        anchors = minmax2centroid(anchors)
+        labels = minmax2centroid(labels)
+        # bbox = bounding box
+        # ((bbox xcenter - anchor box xcenter)/anchor box width)/.1
+        # ((bbox ycenter - anchor box ycenter)/anchor box height)/.1
+        # Equation 11.4.8 Chapter 11
+        offsets1 = labels[:, 0:2] - anchors[maxiou_per_gt, 0:2]
+        offsets1 /= anchors[maxiou_per_gt, 2:4]
+        offsets1 /= 0.1 
+```
+
+```py
+ # log(bbox width / anchor box width) / 0.2
+        # log(bbox height / anchor box height) / 0.2
+        # Equation 11.4.8 Chapter 11
+        offsets2 = np.log(labels[:, 2:4]/anchors[maxiou_per_gt, 2:4])
+        offsets2 /= 0.2 
+```
+
+```py
+ offsets = np.concatenate([offsets1, offsets2], axis=-1) 
+```
+
+```py
+ # (xmin, xmax, ymin, ymax) format
+    else:
+        offsets = labels[:, 0:4] - anchors[maxiou_per_gt] 
+```
+
+```py
+ gt_offset[maxiou_per_gt] = offsets 
+```
+
+```py
+ return gt_class, gt_offset, gt_mask 
+```
+
+```py
+def minmax2centroid(boxes):
+    """Minmax to centroid format
+    (xmin, xmax, ymin, ymax) to (cx, cy, w, h) 
+```
+
+```py
+ Arguments:
+        boxes (tensor): Batch of boxes in minmax format 
+```
+
+```py
+ Returns:
+        centroid (tensor): Batch of boxes in centroid format
+    """
+    centroid = np.copy(boxes).astype(np.float)
+    centroid[..., 0] = 0.5 * (boxes[..., 1] - boxes[..., 0])
+    centroid[..., 0] += boxes[..., 0]
+    centroid[..., 1] = 0.5 * (boxes[..., 3] - boxes[..., 2])
+    centroid[..., 1] += boxes[..., 2]
+    centroid[..., 2] = boxes[..., 1] - boxes[..., 0]
+    centroid[..., 3] = boxes[..., 3] - boxes[..., 2]
+    return centroid 
+```
+
+`maxiou_per_gt = np.argmax(iou, axis=0)`实现了“公式 11.3.2”。 额外的阳性锚框是基于由`iou_gt_thresh = np.argwhere(iou>threshold)`实现的用户定义的阈值确定的。
+
+仅当阈值小于 1.0 时，才会查找额外的正锚框。 所有带有地面真值边界框的锚框（即组合的正锚框和额外的正锚框）的索引成为真实情况掩码的基础：
+
+`gt_mask[maxiou_per_gt] = 1.0`。
+
+所有其他锚定框（负锚定框）的掩码为 0.0，并且不影响偏移损失函数的优化。
+
+每个锚定框的类别`gt_class`被分配为其地面实况边界框的类别。 最初，为所有锚框分配背景类：
+
+```py
+ # class generation
+    gt_class = np.zeros((iou.shape[0], n_classes))
+    # by default all are background (index 0)
+    gt_class[:, 0] = 1 
+```
+
+然后，将每个正面锚点框的类分配给其非背景对象类：
+
+```py
+ # but those that belong to maxiou_per_gt are not
+    gt_class[maxiou_per_gt, 0] = 0
+    # we have to find those column indexes (classes)
+    maxiou_col = np.reshape(maxiou_per_gt,
+                            (maxiou_per_gt.shape[0], 1))
+    label_col = np.reshape(labels[:,4],
+                           (labels.shape[0], 1)).astype(int)
+    row_col = np.append(maxiou_col, label_col, axis=1)
+    # the label of object in maxio_per_gt
+    gt_class[row_col[:,0], row_col[:,1]]  = 1.0 
+```
+
+`row_col[:,0]`是正锚框的索引，而`row_col[:,1]`是它们的非背景对象类的索引。 请注意，`gt_class`是单热点向量的数组。 这些值都为零，除了锚点框对象的索引处。 索引 0 是背景，索引 1 是第一个非背景对象，依此类推。 最后一个非背景对象的索引等于`n_classes-1`。
+
+例如，如果锚点框 0 是负锚点框，并且有 4 个对象类别（包括背景），则：
+
+```py
+gt_class[0] = [1.0, 0.0, 0.0, 0.0] 
+```
+
+如果锚定框 1 是正锚定框，并且其地面真值边界框包含带有标签 2 的**汽水罐**，则：
+
+```py
+gt_class[1] = [0.0, 0.0, 1.0, 0.0] 
+```
+
+最后，偏移量只是地面真实边界框坐标减去锚框坐标：
+
+```py
+ # (xmin, xmax, ymin, ymax) format
+    else:
+        offsets = labels[:, 0:4] - anchors[maxiou_per_gt] 
+```
+
+注意，我们仅计算正锚框的偏移量。
+
+如果选择了该选项，则可以将偏移量标准化。 下一部分将讨论偏移量归一化。 我们将看到：
+
+```py
+ #(cx, cy, w, h) format
+    if normalize: 
+```
+
+```py
+ anchors = minmax2centroid(anchors)
+        labels = minmax2centroid(labels)
+        # bbox = bounding box
+        # ((bbox xcenter - anchor box xcenter)/anchor box width)/.1
+        # ((bbox ycenter - anchor box ycenter)/anchor box height)/.1
+        # Equation 11.4.8 
+        offsets1 = labels[:, 0:2] - anchors[maxiou_per_gt, 0:2]
+        offsets1 /= anchors[maxiou_per_gt, 2:4]
+        offsets1 /= 0.1 
+```
+
+```py
+ # log(bbox width / anchor box width) / 0.2
+        # log(bbox height / anchor box height) / 0.2
+        # Equation 11.4.8 
+        offsets2 = np.log(labels[:, 2:4]/anchors[maxiou_per_gt, 2:4])
+        offsets2 /= 0.2 
+```
+
+```py
+ offsets = np.concatenate([offsets1, offsets2], axis=-1) 
+```
+
+只是“公式 11.4.8”的实现，下一节将进行讨论，为方便起见，在此处显示：
+
+![](img/B14853_11_025.png) (Equation 11.4.8)
+
+现在我们已经了解了地面真锚框的作用，我们将继续研究对象检测中的另一个关键组件：损失函数。
+
+# 4\. 损失函数
+
+在 SSD 中，有数千个锚定框。 如本章前面所述，对象检测的目的是预测每个锚框的类别和偏移量。 我们可以对每个预测使用以下损失函数：
+
+*   `L_cls` - `y_cls`的分类交叉熵损失
+*   `L_off` - L1 或 L2，用于`y_cls`。 请注意，只有正锚框有助于`L_off` L1，也称为**平均绝对误差**（**MAE**）损失，而 L2 也称为**均方误差**（**MSE**）损失。
+
+总的损失函数为：
+
+![](img/B14853_11_081.png) (Equation 11.4.1)
+
+对于每个定位框，网络都会预测以下内容：
+
+*   `y_cls`或单热向量形式的类别或类
+*   `y_off = ((x_omin, y_omin), (x_omax, y_omax))`或相对于锚框的像素坐标形式的偏移。
+
+为了方便计算，可以将偏移量更好地表示为以下形式：
+
+`y_off = ((x_omin, y_omin), (x_omax, y_omax))` (Equation 11.4.2)
+
+SSD 是一种监督对象检测算法。 可以使用以下基本真值：
+
+*   `y_label`或要检测的每个对象的类标签
+*   `y_gt = (x_gmin, x_gmax, y_gmin, y_gmax)`或地面真实偏差，其计算公式如下：
+
+`y_gt = (x_bmin – x_amin, x_bmax – x_amax, y_bmin – y_amin, y_bmax – y_amax)` (Equation 11.4.3)
+
+换句话说，将地面真实偏移量计算为对象包围盒相对于锚定框的地面真实偏移量。 为了清楚起见，`y_box`下标中的细微调整。 如上一节所述，基本真值是通过`get_gt_data()`函数计算的。
+
+但是，SSD 不建议直接从预测原始像素误差值`y_off`。 而是使用归一化的偏移值。 地面真值边界框和锚点框坐标首先以质心尺寸格式表示：
+
+![](img/B14853_11_026.png)
+
+![](img/B14853_11_027.png) 
+
+(Equation 11.4.4)
+
+哪里：
+
+![](img/B14853_11_028.png) (Equation 11.4.5)
+
+是边界框中心的坐标，并且：
+
+`(w[b], h[b]) = (x_max – x_min, y_max - y_min)` (Equation 11.4.6)
+
+分别对应于宽度和高度。 锚框遵循相同的约定。 归一化的真实情况偏移量表示为：
+
+![](img/B14853_11_029.png) (Equation 11.4.7)
+
+通常，`y_gt`的元素值很小，`||y_gt|| << 1.0`。 较小的梯度会使网络训练更加难以收敛。
+
+为了缓解该问题，将每个元素除以其估计的标准差。 由此产生的基本事实抵消了：
+
+![](img/B14853_11_025.png) (Equation 11.4.8)
+
+推荐值为：`σ[x] = σ[y] = 0.1`和`σ[w] = σ[h] = 0.2`。 换句话说，沿着`x`和`y`轴的像素误差的预期范围是`± 10%`，而对于宽度和高度，则是`± 20%。 这些值纯粹是任意的。
+
+“列表 11.4.1”：`loss.py` L1 和平滑 L1 损失函数
+
+```py
+from tensorflow.keras.losses import Huber
+def mask_offset(y_true, y_pred): 
+    """Pre-process ground truth and prediction data"""
+    # 1st 4 are offsets
+    offset = y_true[..., 0:4]
+    # last 4 are mask
+    mask = y_true[..., 4:8]
+    # pred is actually duplicated for alignment
+    # either we get the 1st or last 4 offset pred
+    # and apply the mask
+    pred = y_pred[..., 0:4]
+    offset *= mask 
+    pred *= mask 
+    return offset, pred
+
+def l1_loss(y_true, y_pred):
+    """MAE or L1 loss
+    """ 
+    offset, pred = mask_offset(y_true, y_pred)
+    # we can use L1
+    return K.mean(K.abs(pred - offset), axis=-1)
+
+def smooth_l1_loss(y_true, y_pred):
+    """Smooth L1 loss using tensorflow Huber loss
+    """
+    offset, pred = mask_offset(y_true, y_pred)
+    # Huber loss as approx of smooth L1
+    return Huber()(offset, pred) 
+```
+
+此外，代替`y_cls`的 L1 损失，SSD 受 Fast-RCNN [3]启发，使用平滑 L1：
+
+![](img/B14853_11_035.png) (Equation 11.4.9)
+
+其中`u`代表地面真实情况与预测之间的误差中的每个元素：
+
+![](img/B14853_11_037.png) (Equation 11.4.10)
+
+与 L1 相比，平滑 L1 更健壮，并且对异常值的敏感性较低。 在 SSD 中，`σ = 1`。 作为`σ -> ∞`，平滑 L1 接近 L1。 L1 和平滑 L1 损失函数都在“列表 11.4.1”中显示。 `mask_offset()`方法可确保仅在具有地面真实边界框的预测上计算偏移量。 平滑的 L1 函数与`σ = 1`[8]时的 Huber 损失相同。
+
+作为对损失函数的进一步改进，RetinaNet [3]建议将 CE`y_cls`的分类交叉熵函数替换为焦点损失 FL：
+
+![](img/B14853_11_041.png) (Equation 11.4.11)
+
+![](img/B14853_11_042.png) (Equation 11.4.12)
+
+区别在于额外因素`α(1 - p[i])^γ`。 在 RetinaNet 中，当`γ = 2`和`α = 0.25`时，对象检测效果最好。 焦点损失在“列表 11.4.2”中实现。
+
+“列表 11.4.2”：`loss.py`焦点损失
+
+```py
+def focal_loss_categorical(y_true, y_pred):
+    """Categorical cross-entropy focal loss"""
+    gamma = 2.0
+    alpha = 0.25 
+```
+
+```py
+ # scale to ensure sum of prob is 1.0
+    y_pred /= K.sum(y_pred, axis=-1, keepdims=True) 
+```
+
+```py
+ # clip the prediction value to prevent NaN and Inf
+    epsilon = K.epsilon()
+    y_pred = K.clip(y_pred, epsilon, 1\. - epsilon)
+    # calculate cross entropy
+    cross_entropy = -y_true * K.log(y_pred) 
+```
+
+```py
+ # calculate focal loss
+    weight = alpha * K.pow(1 - y_pred, gamma)
+    cross_entropy *= weight 
+```
+
+```py
+ return K.sum(cross_entropy, axis=-1) 
+```
+
+聚焦损失的动机是，如果我们检查图像，则大多数锚框应分类为背景或负锚框。 只有很少的正锚框是代表目标对象的良好候选对象。 负熵损失是造成交叉熵损失的主要因素。 因此，负锚框的贡献使优化过程中正锚框的贡献无法实现。 这种现象也称为**类不平衡**，其中一个或几个类占主导地位。 有关其他详细信息，Lin 等。 文献[4]讨论了对象检测中的类不平衡问题。
+
+有了**焦点损失**，我们在优化过程的早期就确信负锚框属于背景。 因此，由于`p[i] -> 1.0`，项`(1 - p[i])^γ`减少了负锚框的贡献。 对于正锚框，其贡献仍然很大，因为`p[i]`远非 1.0。
+
+既然我们已经讨论了锚定框，地面真值锚定框和损失函数的概念，我们现在准备介绍实现多尺度目标检测算法的 SSD 模型架构。
+
+# 5\. SSD 模型架构
+
+“图 11.5.1”显示了 SSD 的模型架构，该模型实现了多尺度单发目标检测的概念框架。 网络接受 RGB 图像，并输出几个预测级别。 基本或**骨干**网络提取用于分类和偏移量预测的下游任务的特征。 ResNet50 是骨干网络的一个很好的例子，它类似于“第 2 章”，“深度神经网络”中讨论，实现和评估的内容。 在骨干网络之后，对象检测任务由执行其余的网络，我们将其称为 **SSD 头**。
+
+骨干网络可以是具有冻结权重的预训练网络（例如，以前为 ImageNet 分类而训练），也可以是与对象检测一起训练的网络。 如果使用预先训练的基础网络，则可以利用重用以前从大型数据集中学习的特征提取过滤器的优势。 此外，由于冻结了骨干网参数，因此可以加快学习速度。 仅训练对象检测中的顶层。 在这本书中，骨干网是与对象检测联合训练的，因为我们假设我们不一定需要访问预先训练的骨干网。
+
+骨干网网络通常使用跨步 2 或通过最大池化实现几轮下采样。 对于 ResNet50，这是 4 倍。 基本网络变为`(w/2^4, h/2^4) = (w/16, h/16)`之后，特征映射的结果尺寸。 如果图像的宽度和高度均可以被 16 整除，则尺寸是精确的。
+
+例如，对于`640 x 480`的图像，生成的特征映射的尺寸为`40 x 30 = 1200`。 如前几节所述，这是基础网络之后长宽比等于 1 的锚点框的数量。 此数字乘以每个锚定框的大小数。 在前面的部分中，由于长宽比，有 6 种不同的尺寸，而长宽比为 1 时，还有一个其他尺寸。
+
+在本书中，我们将纵横比限制为`a[i ∈ {0, 1, 3}] = 1, 2, 1/2`。 因此，将只有 4 种不同的大小。 对于`640 x 480`图像，第一组锚框的锚框总数为`n[1] = 4,800`。
+
+在“图 11.5.1”中，指示密集网格以表明对于第一组预测，存在大量预测（例如：`40 x 30 x 4`），从而导致大量补丁 。 尽管每个锚点框有 4 种尺寸，但为清楚起见，仅显示了与宽高比 1 对应的`16 x 16`锚点框。
+
+此锚框也是`40 x 30 x n_filter`特征映射中每个元素的接受字段大小。`n_filter`是骨干网最后卷积层中过滤器的数量。 对于每个锚框，都将预测类别和偏移量。
+
+总共有`n[1]`类和`n[1]`偏移量预测。 单热类预测的维数等于要检测的对象类别的数量，背景为 1。 每个偏移量变量预测的尺寸为 4，对应于`(x, y)`到预测边界框的 2 个角的偏移量。
+
+类预测器由卷积层组成，该卷积层由使用 *softmax* 进行分类交叉熵损失的激活层终止。 偏移量预测值是具有线性激活的独立卷积层。
+
+在基础网络之后可以应用其他特征提取模块。 每个特征提取器块都是`Conv2D(strides=2)-BN-ELU`的形式。 在特征提取块之后，特征映射的大小减半，并且过滤器的数量增加一倍。 例如，基本网络之后的第一个特征提取器块具有`20 x 15 x 2 n_filter`特征映射。 根据该特征映射，使用卷积层进行`n[2]`类和`n[2]`偏移量预测。`n[2] = 20 x 15 x 4 = 1,200`
+
+可以继续添加具有类和偏移量预测变量的特征提取块的过程。 在前面的部分中，对于`640 x 480`的图像，最大可达`2 x 1 x 2^5 n_filter`特征映射产生`n[6]`类和`n[6]`抵消了其中`n[6] = 2 x 1 x 4 = 8`的预测。 到 6 层特征提取和预测块。 在第 6 个块之后，一个`640 x 480`图像的锚点映射预测总数为 9,648。
+
+在前面的部分中，锚定框的比例因子大小按降序排列：
+
+![](img/B14853_11_050.png) Equation 11.5.1)
+
+这样做是为了使讨论清晰。 在本节中，应该意识到比例因子的大小实际上是从骨干网之后的特征映射大小开始的。 实际上，缩放因子应按升序排列：
+
+![](img/B14853_11_051.png) (Equation 11.5.2)
+
+这意味着如果将特征提取块的数量减少到 4，则缩放因子为：
+
+![](img/B14853_11_052.png) (Equation 11.5.3)
+
+如果特征映射的宽度或高度不能被 2 整除（例如：15），则将应用天花板函数（例如：`ceil(15/2) = 8`）。 但是，在原始的 SSD [2]实现中，所使用的缩放因子被简化为`[0.2, 0.9]`范围，该范围通过缩放因子的数量或特征提取块的数量`n_layers`进行线性缩放：
+
+```py
+s = np.linspace(0.2, 0.9, n_layers + 1) 
+```
+
+![](img/B14853_11_09.png)
+
+图 11.5.1 SSD 模型架构。请注意，对于`w/16 x h/16`网格，锚框的数量可能不准确。 网格显示了锚框的紧密包装。
+
+讨论了 SSD 模型架构之后，现在让我们看一下如何在 Keras 中实现 SSD 模型架构。
+
+# 6\. Keras 中的 SSD 模型架构
+
+与前面章节中的代码示例不同，SSD 的`tf.keras`实现更加复杂。 与 SSD 的其他`tf.keras`实现相比，本章中提供的代码示例重点介绍多尺度目标检测的关键概念。 可以进一步优化代码实现的某些部分，例如缓存地面真锚框类，偏移量和掩码。 在我们的示例中，每次从文件系统加载图像时，线程都会计算出地面真实值。
+
+“图 11.6.1”显示了包含 SSD 的`tf.keras`实现的代码块的概述。 `ssd-11.6.1.py`中的 SSD 对象可以构建，训练和评估 SSD 模型。 它借助`model.py`和`resnet.py`以及`data_generator.py`中的多线程数据生成器，位于 SSD 模型创建器的顶部。 SSD 模型实现了“图 11.5.1”中所示的 SSD 架构。 每个主要模块的实现将在后续部分中详细讨论。
+
+SSD 模型使用 ResNet 作为其骨干网络。 它在`resnet.py`中调用 ResNet V1 或 V2 模型创建者。 与前几章中的示例不同，SSD 使用的数据集由数千个高分辨率图像组成。 多线程数据生成器将加载文件，并且将这些文件从文件系统排队。 它还计算锚点箱的地面真值标签。 如果没有多线程数据生成器，则在训练期间图像的加载和排队以及地面真值的计算将非常缓慢。
+
+有许多小的但重要的例程在后台运行。 这些都集中存储在工具块中。 这些例程创建锚框，计算 IoU，建立真实情况标签，运行非最大抑制，绘制标签和框，在视频帧上显示检测到的对象，提供损失函数等。
+
+![](img/B14853_11_10.png)
+
+图 11.6.1 实现 SSD 的代码块。
+
+# 7\. Keras 中的 SSD 对象
+
+“列表 11.7.1”（很快显示）显示了 SSD 类。 说明了两个主要例程：
+
+1.  使用`build_model()`创建 SSD 模型
+
+1.  通过`build_generator()`实例化数据生成器
+
+`build_model`首先根据训练标签创建数据字典。 字典存储图像文件名以及每个图像中每个对象的地面真实边界框坐标和类。 之后，构建骨干网和 SSD 网络模型。 模型创建的最重要产品是`self.ssd` – SSD 的网络模型。
+
+标签存储在 csv 文件中。 对于本书中使用的示例训练图像，标签以以下格式保存在`dataset/drinks/labels_train.csv`中：
+
+```py
+frame,xmin,xmax,ymin,ymax,class_id
+0001000.jpg,310,445,104,443,1
+0000999.jpg,194,354,96,478,1
+0000998.jpg,105,383,134,244,1
+0000997.jpg,157,493,89,194,1
+0000996.jpg,51,435,207,347,1
+0000995.jpg,183,536,156,283,1
+0000994.jpg,156,392,178,266,2
+0000993.jpg,207,449,119,213,2
+0000992.jpg,47,348,213,346,2
+… 
+```
+
+“列表 11.7.1”：`ssd-11.6.1.py`
+
+```py
+class SSD:
+    """Made of an ssd network model and a dataset generator.
+    SSD defines functions to train and validate 
+    an ssd network model. 
+```
+
+```py
+ Arguments:
+        args: User-defined configurations 
+```
+
+```py
+ Attributes:
+        ssd (model): SSD network model
+        train_generator: Multi-threaded data generator for training
+    """
+    def __init__(self, args):
+        """Copy user-defined configs.
+        Build backbone and ssd network models.
+        """
+        self.args = args
+        self.ssd = None
+        self.train_generator = None
+        self.build_model() 
+```
+
+```py
+ def build_model(self):
+        """Build backbone and SSD models."""
+        # store in a dictionary the list of image files and labels
+        self.build_dictionary()
+        # input shape is (480, 640, 3) by default
+        self.input_shape = (self.args.height,
+                            self.args.width,
+                            self.args.channels) 
+```
+
+```py
+ # build the backbone network (eg ResNet50)
+        # the number of feature layers is equal to n_layers
+        # feature layers are inputs to SSD network heads
+        # for class and offsets predictions
+        self.backbone = self.args.backbone(self.input_shape,
+                                           n_layers=self.args.layers) 
+```
+
+```py
+ # using the backbone, build ssd network
+        # outputs of ssd are class and offsets predictions
+        anchors, features, ssd = build_ssd(self.input_shape,
+                                           self.backbone,
+                                           n_layers=self.args.layers,
+                                           n_classes=self.n_classes)
+        # n_anchors = num of anchors per feature point (eg 4)
+        self.n_anchors = anchors
+        # feature_shapes is a list of feature map shapes
+        # per output layer - used for computing anchor boxes sizes
+        self.feature_shapes = features
+        # ssd network model
+        self.ssd = ssd 
+```
+
+```py
+ def build_dictionary(self):
+        """Read input image filenames and obj detection labels
+        from a csv file and store in a dictionary.
+        """
+        # train dataset path
+        path = os.path.join(self.args.data_path,
+                            self.args.train_labels) 
+```
+
+```py
+ # build dictionary: 
+        # key=image filaname, value=box coords + class label
+        # self.classes is a list of class labels
+        self.dictionary, self.classes = build_label_dictionary(path)
+        self.n_classes = len(self.classes)
+        self.keys = np.array(list(self.dictionary.keys())) 
+```
+
+```py
+ def build_generator(self):
+        """Build a multi-thread train data generator.""" 
+```
+
+```py
+ self.train_generator = \
+                DataGenerator(args=self.args,
+                              dictionary=self.dictionary,
+                              n_classes=self.n_classes,
+                              feature_shapes=self.feature_shapes,
+                              n_anchors=self.n_anchors,
+                              shuffle=True) 
+```
+
+“列表 11.7.2”显示了 SSD 对象中的另一种重要方法`train()`。 指示了使用默认损失函数或改进的损失函数的选项，如先前部分所述。 还有一个选项可以选择仅平滑 L1。
+
+`self.ssd.fit_generator()`是此函数中最重要的调用。 它借助多线程数据生成器启动有监督的训练。 在每个周期，都会执行两个回调函数。 首先，将模型权重保存到文件中。 然后，对于 ResNet 模型，以与“第 2 章”，“深度神经网络”相同的方式使用的改进的学习率调度器称为：
+
+“列表 11.7.2”：`ssd-11.6.1.py`
+
+```py
+ def train(self):
+        """Train an ssd network."""
+        # build the train data generator
+        if self.train_generator is None:
+            self.build_generator() 
+```
+
+```py
+ optimizer = Adam(lr=1e-3)
+        # choice of loss functions via args
+        if self.args.improved_loss:
+            print_log("Focal loss and smooth L1", self.args.verbose)
+            loss = [focal_loss_categorical, smooth_l1_loss]
+        elif self.args.smooth_l1:
+            print_log("Smooth L1", self.args.verbose)
+            loss = ['categorical_crossentropy', smooth_l1_loss]
+        else:
+            print_log("Cross-entropy and L1", self.args.verbose)
+            loss = ['categorical_crossentropy', l1_loss] 
+```
+
+```py
+ self.ssd.compile(optimizer=optimizer, loss=loss) 
+```
+
+```py
+ # prepare callbacks for saving model weights
+        # and learning rate scheduler
+        # learning rate decreases by 50% every 20 epochs
+        # after 60th epoch
+        checkpoint = ModelCheckpoint(filepath=filepath,
+                                     verbose=1,
+                                     save_weights_only=True)
+        scheduler = LearningRateScheduler(lr_scheduler) 
+```
+
+```py
+ callbacks = [checkpoint, scheduler]
+        # train the ssd network
+        self.ssd.fit_generator(generator=self.train_generator,
+                               use_multiprocessing=True,
+                               callbacks=callbacks,
+                               epochs=self.args.epochs,
+                               workers=self.args.workers) 
+```
+
+在下一部分中，我们将讨论 Keras 中 SSD 架构实现的其他详细信息。 特别是 SSD 模型和多线程数据生成器的实现。
+
+# 8\. Keras 中的 SSD 模型
+
+“列表 11.8.1”显示了 SSD 模型创建函数`build_ssd()`。 该模型在“图 11.5.1”中进行了说明。 该函数通过调用`base_outputs = backbone(inputs)`从骨干网或基础网络检索输出特征的`n_layers`。
+
+在本书中，`backbone()`是`build_resnet()`。 `build_resnet()`可以生成的 ResNet 模型类似于“第 2 章”，“深度神经网络”中讨论的残差网络。 `build_resnet()`函数可以由构建基础网络的任何函数名称代替。
+
+如图“图 11.5.1”所示，返回值`base_outputs`是输出特征的列表，这些特征将作为类别和偏移预测层的输入。 例如，第一输出`base_outputs[0]`用于生成`n[1]`类预测和`n[1]`偏移量预测。
+
+在`build_ssd()`的`for`循环中，类别预测是`classes`变量，而偏移量预测是`offsets`变量。 在`for`循环迭代之后，将类别预测连接，并最终合并为一个具有以下尺寸的`classes`变量：
+
+![](img/B14853_11_055.png)
+
+对`offsets`变量执行相同的过程。 结果尺寸为：
+
+![](img/B14853_11_056.png)
+
+其中`n_mini_batch`是迷你批量大小，`n_anchor_box`是锚定框的数量。 `for`循环迭代的次数等于`n_layers`。 该数目也等于锚定框缩放因子的所需数目或 SSD 头的特征提取块的数目。
+
+函数`build_ssd()`返回每个特征点或区域的锚框数量，每个前类的特征形状，偏移量预测层以及 SSD 模型本身。
+
+“列表 11.8.1”：`model.py`
+
+```py
+def build_ssd(input_shape,
+              backbone,
+              n_layers=4,
+              n_classes=4,
+              aspect_ratios=(1, 2, 0.5)):
+    """Build SSD model given a backbone
+
+    Arguments:
+        input_shape (list): input image shape
+        backbone (model): Keras backbone model
+        n_layers (int): Number of layers of ssd head
+        n_classes (int): Number of obj classes
+        aspect_ratios (list): annchor box aspect ratios
+
+    Returns:
+        n_anchors (int): Number of anchor boxes per feature pt
+        feature_shape (tensor): SSD head feature maps
+        model (Keras model): SSD model
+    """ 
+    # number of anchor boxes per feature map pt
+    n_anchors = len(aspect_ratios) + 1 
+```
+
+```py
+ inputs = Input(shape=input_shape)
+    # no. of base_outputs depends on n_layers
+    base_outputs = backbone(inputs)
+
+    outputs = []
+    feature_shapes = []              
+    out_cls = []                     
+    out_off = [] 
+```
+
+```py
+ for i in range(n_layers):
+        # each conv layer from backbone is used
+        # as feature maps for class and offset predictions
+        # also known as multi-scale predictions
+        conv = base_outputs if n_layers==1 else base_outputs[i]
+        name = "cls" + str(i+1)
+        classes  = conv2d(conv,
+                          n_anchors*n_classes,
+                          kernel_size=3,
+                          name=name) 
+```
+
+```py
+ # offsets: (batch, height, width, n_anchors * 4)
+        name = "off" + str(i+1)
+        offsets  = conv2d(conv,
+                          n_anchors*4,
+                          kernel_size=3,
+                          name=name) 
+```
+
+```py
+ shape = np.array(K.int_shape(offsets))[1:]
+        feature_shapes.append(shape)
+        # reshape the class predictions, yielding 3D tensors of 
+        # shape (batch, height * width * n_anchors, n_classes)
+        # last axis to perform softmax on them
+        name = "cls_res" + str(i+1)
+        classes = Reshape((-1, n_classes),
+                          name=name)(classes) 
+```
+
+```py
+ # reshape the offset predictions, yielding 3D tensors of
+        # shape (batch, height * width * n_anchors, 4)
+        # last axis to compute the (smooth) L1 or L2 loss
+        name = "off_res" + str(i+1)
+        offsets = Reshape((-1, 4),
+                          name=name)(offsets)
+        # concat for alignment with ground truth size
+        # made of ground truth offsets and mask of same dim
+        # needed during loss computation
+        offsets = [offsets, offsets]
+        name = "off_cat" + str(i+1)
+        offsets = Concatenate(axis=-1,
+                              name=name)(offsets) 
+```
+
+```py
+ # collect offset prediction per scale
+        out_off.append(offsets) 
+```
+
+```py
+ name = "cls_out" + str(i+1) 
+```
+
+```py
+ #activation = 'sigmoid' if n_classes==1 else 'softmax'
+        #print("Activation:", activation) 
+```
+
+```py
+ classes = Activation('softmax',
+                             name=name)(classes) 
+```
+
+```py
+ # collect class prediction per scale
+        out_cls.append(classes) 
+```
+
+```py
+ if n_layers > 1:
+        # concat all class and offset from each scale
+        name = "offsets"
+        offsets = Concatenate(axis=1,
+                              name=name)(out_off)
+        name = "classes"
+        classes = Concatenate(axis=1,
+                              name=name)(out_cls)
+    else:
+        offsets = out_off[0]
+        classes = out_cls[0] 
+```
+
+```py
+ outputs = [classes, offsets]
+    model = Model(inputs=inputs,
+                  outputs=outputs,
+                  name='ssd_head') 
+```
+
+```py
+ return n_anchors, feature_shapes, model 
+```
+
+如前面所述，与 MNIST 和 CIFAR-10 等小型数据集不同，SSD 中使用的映像很大。 因此，不可能将图像加载到张量变量中。 在下一节中，我们将介绍一个多线程数据生成器，该生成器将使我们能够从文件系统并发加载图像，并避免内存瓶颈。
+
+# 9\. Keras 中的数据生成器模型
+
+SSD 需要大量带标签的高分辨率图像来进行对象检测。 与之前的章节中使用的数据集可以加载到到内存中以训练模型不同，SSD 实现了多线程数据生成器。 多线程生成器的任务是加载图像的多个迷你批量及其相应的标签。 由于具有多线程，GPU 可以保持繁忙，因为一个线程向其提供数据，而其余的 CPU 线程处于队列中，准备从文件系统中馈入另一批数据或加载一批图像并计算基本真值 。“列表 11.9.1”显示了 Keras 中的数据生成器模型。
+
+`DataGenerator`类继承自 Keras 的`Sequence`类，以确保它支持多处理。 `DataGenerator`保证在一个周期内使用整个数据集。
+
+给定批量大小的整个周期的长度由`__len__()`方法返回。 对小批量数据的每个请求都可以通过`__getitem__()`方法来满足。 在每个周期之后，如果`self.shuffle`为`True`，则调用`on_epoch_end()`方法以随机播放整个批量。
+
+“列表 11.9.1”：`data_generator.py`
+
+```py
+class DataGenerator(Sequence):
+    """Multi-threaded data generator.
+    Each thread reads a batch of images and their object labels 
+```
+
+```py
+ Arguments:
+        args: User-defined configuration
+        dictionary: Dictionary of image filenames and object labels
+        n_classes (int): Number of object classes
+        feature_shapes (tensor): Shapes of ssd head feature maps
+        n_anchors (int): Number of anchor boxes per feature map pt
+        shuffle (Bool): If dataset should be shuffled bef sampling
+    """
+    def __init__(self,
+                 args,
+                 dictionary,
+                 n_classes,
+                 feature_shapes=[],
+                 n_anchors=4,
+                 shuffle=True):
+        self.args = args
+        self.dictionary = dictionary
+        self.n_classes = n_classes
+        self.keys = np.array(list(self.dictionary.keys()))
+        self.input_shape = (args.height,
+                            args.width,
+                            args.channels)
+        self.feature_shapes = feature_shapes
+        self.n_anchors = n_anchors
+        self.shuffle = shuffle
+        self.on_epoch_end()
+        self.get_n_boxes() 
+```
+
+```py
+ def __len__(self):
+        """Number of batches per epoch"""
+        blen = np.floor(len(self.dictionary) / self.args.batch_size)
+        return int(blen) 
+```
+
+```py
+ def __getitem__(self, index):
+        """Get a batch of data"""
+        start_index = index * self.args.batch_size
+        end_index = (index+1) * self.args.batch_size
+        keys = self.keys[start_index: end_index]
+        x, y = self.__data_generation(keys)
+        return x, y 
+```
+
+```py
+ def on_epoch_end(self):
+        """Shuffle after each epoch"""
+        if self.shuffle == True:
+            np.random.shuffle(self.keys) 
+```
+
+```py
+ def get_n_boxes(self):
+        """Total number of bounding boxes"""
+        self.n_boxes = 0
+        for shape in self.feature_shapes:
+            self.n_boxes += np.prod(shape) // self.n_anchors
+        return self.n_boxes 
+```
+
+数据生成器的大部分工作都是通过`__data_generation()`方法完成的，如“列表 11.9.2”所示。 给定一个小批量，该方法执行：
+
+*   `imread()`从文件系统读取图像。
+*   `labels = self.dictionary[key]`访问词典中存储的边界框和类标签。 前四个项目是边界框偏移量。 最后一个是类标签。
+*   `anchor_boxes()`生成锚框。
+*   `iou()`计算相对于地面真值边界框的每个锚点框的 IoU。
+*   `get_gt_data()`为每个锚框分配地面真实等级和偏移量。
+
+样本数据扩充函数也包括在内，但此处不再讨论，例如添加随机噪声，强度重新缩放和曝光调整。 `__data_generation()`返回输入`x`和输出`y`对，其中张量`x`存储输入图像，而张量`y`捆绑类，偏移量 ，和面具一起。
+
+“列表 11.9.2”：`data_generator.py`
+
+```py
+import layer_utils 
+```
+
+```py
+from skimage.io import imread
+    def __data_generation(self, keys):
+        """Generate train data: images and 
+        object detection ground truth labels 
+```
+
+```py
+ Arguments:
+            keys (array): Randomly sampled keys
+                (key is image filename) 
+```
+
+```py
+ Returns:
+            x (tensor): Batch images
+            y (tensor): Batch classes, offsets, and masks
+        """
+        # train input data
+        x = np.zeros((self.args.batch_size, *self.input_shape))
+        dim = (self.args.batch_size, self.n_boxes, self.n_classes)
+        # class ground truth
+        gt_class = np.zeros(dim)
+        dim = (self.args.batch_size, self.n_boxes, 4)
+        # offsets ground truth
+        gt_offset = np.zeros(dim)
+        # masks of valid bounding boxes
+        gt_mask = np.zeros(dim) 
+```
+
+```py
+ for i, key in enumerate(keys):
+            # images are assumed to be stored in self.args.data_path
+            # key is the image filename 
+            image_path = os.path.join(self.args.data_path, key)
+            image = skimage.img_as_float(imread(image_path))
+            # assign image to a batch index
+            x[i] = image
+            # a label entry is made of 4-dim bounding box coords
+            # and 1-dim class label
+            labels = self.dictionary[key]
+            labels = np.array(labels)
+            # 4 bounding box coords are 1st four items of labels
+            # last item is object class label
+            boxes = labels[:,0:-1]
+            for index, feature_shape in enumerate(self.feature_shapes):
+                # generate anchor boxes
+                anchors = anchor_boxes(feature_shape,
+                                       image.shape,
+                                       index=index,
+                                       n_layers=self.args.layers)
+                # each feature layer has a row of anchor boxes 
+                anchors = np.reshape(anchors, [-1, 4])
+                # compute IoU of each anchor box 
+                # with respect to each bounding boxes
+                iou = layer_utils.iou(anchors, boxes) 
+```
+
+```py
+ # generate ground truth class, offsets & mask
+                gt = get_gt_data(iou,
+                                 n_classes=self.n_classes,
+                                 anchors=anchors,
+                                 labels=labels,
+                                 normalize=self.args.normalize,
+                                 threshold=self.args.threshold)
+                gt_cls, gt_off, gt_msk = gt
+                if index == 0:
+                    cls = np.array(gt_cls)
+                    off = np.array(gt_off)
+                    msk = np.array(gt_msk)
+                else:
+                    cls = np.append(cls, gt_cls, axis=0)
+                    off = np.append(off, gt_off, axis=0)
+                    msk = np.append(msk, gt_msk, axis=0) 
+```
+
+```py
+ gt_class[i] = cls
+            gt_offset[i] = off
+            gt_mask[i] = msk 
+```
+
+```py
+ y = [gt_class, np.concatenate((gt_offset, gt_mask), axis=-1)] 
+```
+
+```py
+ return x, y 
+```
+
+现在我们有一个多线程生成器，我们可以用它来从文件系统加载图像。 在下一节中，我们将演示如何通过拍摄目标对象的图像并对其进行标记来构建自定义数据集。
+
+# 10\. 示例数据集
+
+使用便宜的 USB 相机（A4TECH PK-635G）收集了一个由 1,000 `640 X 480` RGB 训练图像和 50 `640 X 480` RGB 测试图像组成的小型数据集。 使用 **VGG 图像标注器**（**VIA**）[5]标记数据集图像，以检测三个对象：1）**汽水罐**，2）**果汁罐**和 3）**水瓶**。“图 11.10.1”显示了标记过程的示例 UI。
+
+可以在`GitHub`存储库的`utils/video_capture.py`中找到用于收集图像的工具脚本。 该脚本每 5 秒自动捕获一次图像，因此可以加快数据收集过程。
+
+![](img/B14853_11_11.png)
+
+图 11.10.1 使用 VGG 图像标注器（VIA）进行数据集标记的过程
+
+数据收集和标记是一项耗时的活动。 在行业中，通常将其外包给第三方标注公司。 使用自动数据标记软件是加快数据标记任务的另一种选择。
+
+有了这个示例数据集，我们现在可以训练我们的对象检测网络。
+
+# 11\. SSD 模型训练
+
+[可以从以下链接下载包含 csv 格式标签的 train 和测试数据集](https://bit.ly/adl2-ssd)。
+
+在顶层文件夹（即“第 11 章”，“对象检测”）中，创建数据集文件夹，将下载的文件复制到此处，然后运行以下命令将其解压缩：
+
+```py
+mkdir dataset
+cp drinks.tar.gz dataset
+cd dataset
+tar zxvf drinks.tar.gz
+cd.. 
+```
+
+通过执行以下步骤，将 SSD 模型训练 200 个周期：
+
+```py
+python3 ssd-11.6.1.py --train 
+```
+
+可以根据 GPU 内存调整默认的批量大小`--batch-size=4`。 在 1080Ti 上，批量大小为 2。在 32GB V100 上，每个 GPU 可以为 4 或 8。 `--train`代表模型训练选项。
+
+为了支持边界框偏移量的归一化，包含`--normalize`选项。 为了使用改进的损失函数，添加了`--improved_loss`选项。 如果仅需要平滑的 L1（无焦点损失），请使用`–smooth-l1`。 为了显示：
+
+*   L1，无规范化：
+    *   `python3 ssd-11.1.1.py –-train`
+*   改进的损失函数，无规范化：
+    *   `python3 ssd-11.1.1.py –-train --improved-loss`
+*   改进的损失函数，具有规范化：
+    *   `python3 ssd-11.1.1.py –-train –improved-loss --normalize`
+*   平滑 L1，具有规范化：
+    *   `python3 ssd-11.1.1.py –-train –-smooth-l1 --normalize`
+
+训练完 SSD 网络之后，我们需要解决另一个问题。 我们如何处理给定对象的多个预测？ 在测试训练好的模型之前，我们将首先讨论**非最大抑制**（**NMS**）算法。
+
+# 12\. 非最大抑制（NMS）算法
+
+模型训练完成后，网络将预测边界框偏移量和相应的类别。 在某些情况下，两个或更多边界框引用同一对象，从而创建冗余预测。 图 11.12.1 中的**汽水罐**表示了这种情况。 为了删除多余的预测，将调用 NMS 算法。 本书涵盖了经典 NMS 和软 NMS [6]，如“算法 11.12.1”中所示。 两种算法都假定边界框和相应的置信度得分或概率是已知的。
+
+![](img/B14853_11_12.png)
+
+图 11.12.1 网络预测了汽水罐对象的两个重叠边界框。 只选择一个有效的边界框，即得分为 0.99 的边界框。
+
+在经典 NMS 中，基于概率选择最终边界框，并将其存储在列表`D`中，并带有相应的分数`S`。 所有边界框和相应的概率都存储在初始列表`B`和`P`中。 在第 3 行和第 4 行中，将具有最高分数`p[m]`的边界框用作参考，`b[m]`。
+
+参考边界框被添加到最终选择的边界框`D`的列表中，并从列表`B`中删除，如第 5 行所示。 并且列表`S`从`P`中删除。 对于其余边界框，如果 *IoU* 与`b[m]`大于或等于设置的阈值`N[t]`，将其从`B`中删除。 其相应的分数也从`P`中删除。
+
+步骤在第 6 和 9-11 行中显示。 这些步骤将删除所有分数较小的冗余边界框。 在检查完所有其余的边界框之后，重复从第 3 行开始的过程。 该过程继续进行，直到边界框`B`的列表为空。 该算法返回选定的边界框`D`和相应的分数`S`。
+
+经典 NMS 的问题是边界盒包含另一个对象，但其中的 *IoU* 和`b[m]`会从列表中删除。 Soft NMS [6]提出，与其从列表中彻底删除，不如以`b[m]`，如第 8 行所示。
+
+重叠的边界框具有第二次机会。 IoU 较小的边界框在将来的迭代中具有更高的生存机会。 在将来的选择中，它实际上可能证明它包含一个与`b[m]`不同的对象。 如“算法 11.12.1”中所示，Soft NMS 是传统 NMS 的便捷替代。 无需重新训练 SSD 网络。 与经典 NMS 相比，Soft NMS 具有更高的平均精度。
+
+“列表 11.12.1”说明了经典 NMS 和软 NMS。 除了最终的边界框和相应的分数外，还返回相应的对象。 当其余边界框的最大分数小于某个阈值（例如：0.2）时，该代码将实现 NMS 的提前终止。
+
+“算法 11.12.1”**NMS 和软 NMS**
+
+**要求**：边界框预测：`B = {b[1], b[2], …, b[n]}`
+
+**要求**：边界框类别的置信度或分数：`B = {b[1], b[2], …, b[n]}`
+
+**要求**：最小 NMS *IoU* 阈值：`N[t]`
+
+1.  `D <- {}`；`S <- {}`
+2.  当`B ≠ empty`，执行
+3.  `m <- argmax P`
+4.  `M <- b[m]`； `N <- p[m]`，
+5.  `D <- D ∪ M`；`B <- B - M`；`S <- S ∪ N`；`P <- P - N`；
+6.  对于步骤`b[i] ∈ B`，执行
+7.  如果`soft_NMS = True`
+8.  `p[i] = p[i] exp(-IOU(M, b[i])^2 / σ)`
+9.  否则如果`IOU(M, b[i]) >= N[t]`，那么
+10.  `B = B - b[i]`；`P = P - p[i]`
+11.  结束
+12.  结束
+13.  结束
+
+1.  返回`D, S`
+
+“列表 11.12.1”：`boxes.py`
+
+```py
+def nms(args, classes, offsets, anchors):
+    """Perform NMS (Algorithm 11.12.1). 
+```
+
+```py
+ Arguments:
+        args: User-defined configurations
+        classes (tensor): Predicted classes
+        offsets (tensor): Predicted offsets
+
+    Returns:
+        objects (tensor): class predictions per anchor
+        indexes (tensor): indexes of detected objects
+            filtered by NMS
+        scores (tensor): array of detected objects scores
+            filtered by NMS
+    """ 
+```
+
+```py
+ # get all non-zero (non-background) objects
+    objects = np.argmax(classes, axis=1)
+    # non-zero indexes are not background
+    nonbg = np.nonzero(objects)[0] 
+```
+
+```py
+ # D and S indexes in Line 1
+    indexes = []
+    while True:
+        # list of zero probability values
+        scores = np.zeros((classes.shape[0],))
+        # set probability values of non-background
+        scores[nonbg] = np.amax(classes[nonbg], axis=1) 
+```
+
+```py
+ # max probability given the list
+        # Lines 3 and 4
+        score_idx = np.argmax(scores, axis=0)
+        score_max = scores[score_idx] 
+```
+
+```py
+ # get all non max probability & set it as new nonbg
+        # Line 5
+        nonbg = nonbg[nonbg != score_idx] 
+```
+
+```py
+ # if max obj probability is less than threshold (def 0.8)
+        if score_max < args.class_threshold:
+            # we are done
+            break
+
+        # Line 5
+        indexes.append(score_idx)
+        score_anc = anchors[score_idx]
+        score_off = offsets[score_idx][0:4]
+        score_box = score_anc + score_off
+        score_box = np.expand_dims(score_box, axis=0)
+        nonbg_copy = np.copy(nonbg) 
+```
+
+```py
+ # get all overlapping predictions (Line 6)
+        # perform Non-Max Suppression (NMS)
+        for idx in nonbg_copy:
+            anchor = anchors[idx]
+            offset = offsets[idx][0:4]
+            box = anchor + offset
+            box = np.expand_dims(box, axis=0)
+            iou = layer_utils.iou(box, score_box)[0][0]
+            # if soft NMS is chosen (Line 7)
+            if args.soft_nms:
+                # adjust score: Line 8
+                iou = -2 * iou * iou
+                classes[idx] *= math.exp(iou)
+            # else NMS (Line 9), (iou threshold def 0.2)
+            elif iou >= args.iou_threshold:
+                # remove overlapping predictions with iou>threshold
+                # Line 10
+                nonbg = nonbg[nonbg != idx] 
+```
+
+```py
+ # Line 2, nothing else to process
+        if nonbg.size == 0:
+            break 
+```
+
+```py
+ # get the array of object scores
+    scores = np.zeros((classes.shape[0],))
+    scores[indexes] = np.amax(classes[indexes], axis=1) 
+```
+
+```py
+ return objects, indexes, scores 
+```
+
+假设我们具有训练有素的 SSD 网络和一种抑制冗余预测的方法，则下一节将讨论对测试数据集的验证。 基本上，我们想知道我们的 SSD 是否可以对从未见过的图像执行对象检测。
+
+# 13\. SSD 模型验证
+
+在对 SSD 模型进行 200 个周期的训练之后，可以验证表现。 用于评估的三个可能指标：1）**IoU**，2）**精度**和 3）**召回**。
+
+第一个指标是**平均 IoU**（**mIoU**）。 给定真实情况测试数据集，计算真实情况边界框和预测边界框之间的 IoU。 在执行 NMS 之后，对所有真实情况和预测的边界框执行此操作。 所有 IoU 的平均值计算为 mIoU：
+
+![](img/B14853_11_074.png) (Equation 11.13.1)
+
+其中`n_box`是地面真值边界框`b[i]`的数量和`n_pred`是预测边界框`d[j]`的数量。 请注意，该度量标准无法验证两个重叠的边界框是否属于同一类。 如果需要，则可以轻松修改代码。“列表 11.13.1”显示了代码实现。
+
+第二个度量是**精度**，如“公式 11.3.2”所示。 它是正确预测的对象类别的数量（真阳性或 TP）除以正确预测的对象类别的数量（真阳性或 TP）与错误预测的对象类别的数量（假阳性或 FP）之和。 精度是衡量 SSD 正确识别图像中对象的表现的指标。 精度越接近 1.0 越好。
+
+![](img/B14853_11_075.png) (Equation 11.3.2)
+
+第三个度量是**召回**，如“公式 11.3.3”所示。 它是正确预测的对象类别的数量（真阳性或 TP）除以正确预测的对象类别的数量（真阳性或 TP）加上错过的对象数量（假阴性或 FN）之和。 召回率是衡量 SSD 在不对图像中的对象进行错误分类方面有多出色的度量。 召回率越接近 1.0，则越好。
+
+![](img/B14853_11_076.png) (Equation 11.3.3)
+
+如果我们对测试数据集中的所有图像取均值，则它们称为平均精度和平均召回率。 在目标检测中，使用不同 mIoU 的精度和召回曲线来衡量表现。 为了简单起见，我们仅针对特定类别阈值（默认值为 0.5）计算这些指标的值。 感兴趣的读者可以参考 Pascal VOC [7]文章，以获取有关对象检测指标的更多详细信息。
+
+评价结果示于“表 11.13.1”。 结果可以通过运行：
+
+*   无规范化：
+    *   `python3 ssd-11.6.1.py --restore-weights=ResNet56v2-4layer-extra_anchors-drinks-200.h5 --evaluate`
+*   无规范化，平滑 L1：
+    *   `python3 ssd-11.6.1.py --restore-weights=ResNet56v2-4layer-smooth_l1-extra_anchors-drinks-200.h5 --evaluate`
+*   具有规范化：
+    *   `python3 ssd-11.6.1.py --restore-weights=ResNet56v2-4layer-norm-extra_anchors-drinks-200.h5 --evaluate --normalize`
+*   具有规范化，平滑 L1：
+    *   `python3 ssd-11.6.1.py --restore-weights=ResNet56v2-4layer-norm-smooth_l1-extra_anchors-drinks-200.h5 --evaluate --normalize`
+*   具有规范化，平滑 L1，焦点损失：
+    *   `python3 ssd-11.6.1.py --restore-weights=ResNet56v2-4layer-norm-improved_loss-extra_anchors-drinks-200.h5 --evaluate --normalize`
+
+权重在 GitHub 上可用。
+
+在 mIoU 上，最佳表现是非归一化偏移选项，而归一化偏移设置具有最高的平均精度和召回率。 考虑到训练数据集中只有 1,000 张图像，表现并不是最新技术。 也没有应用数据扩充。
+
+从结果来看，使用损失函数的改进会降低表现。 使用平滑 L1 或焦距损失函数或同时使用两者时，会发生这种情况。“图 11.13.1”至“图 11.13.5”显示了样本预测。 可以通过执行以下操作获得图像上的对象检测：
+
+```py
+python3 ssd-11.6.1.py –-restore-weights=<weights_file>
+--image-file=<target_image_file> --evaluate 
+```
+
+例如，要在`dataset/drinks/0010050.jpg`上运行对象检测：
+
+```py
+python3 ssd-11.6.1.py --restore-weights=ResNet56v2-4layer-extra_anchors-drinks-200.h5 --image-file=dataset/drinks/0010050.jpg --evaluate 
+```
+
+如果模型权重文件名中包含单词`norm`，请附加`--normalize option`。
+
+“列表 11.13.1”：`ssd-11.6.1.py`
+
+```py
+ def evaluate_test(self):
+        # test labels csv path
+        path = os.path.join(self.args.data_path,
+                            self.args.test_labels)
+        # test dictionary
+        dictionary, _ = build_label_dictionary(path)
+        keys = np.array(list(dictionary.keys()))
+        # sum of precision
+        s_precision = 0
+        # sum of recall
+        s_recall = 0
+        # sum of IoUs
+        s_iou = 0
+        # evaluate per image
+        for key in keys:
+            # ground truth labels
+            labels = np.array(dictionary[key])
+            # 4 boxes coords are 1st four items of labels
+            gt_boxes = labels[:, 0:-1]
+            # last one is class
+            gt_class_ids = labels[:, -1]
+            # load image id by key
+            image_file = os.path.join(self.args.data_path, key)
+            image = skimage.img_as_float(imread(image_file))
+            image, classes, offsets = self.detect_objects(image)
+            # perform nms
+            _, _, class_ids, boxes = show_boxes(args,
+                                                image,
+                                                classes,
+                                                offsets,
+                                                self.feature_shapes,
+                                                show=False) 
+```
+
+```py
+ boxes = np.reshape(np.array(boxes), (-1,4))
+            # compute IoUs
+            iou = layer_utils.iou(gt_boxes, boxes)
+            # skip empty IoUs
+            if iou.size ==0:
+                continue
+            # the class of predicted box w/ max iou
+            maxiou_class = np.argmax(iou, axis=1) 
+```
+
+```py
+ # true positive
+            tp = 0
+            # false positiove
+            fp = 0
+            # sum of objects iou per image
+            s_image_iou = []
+            for n in range(iou.shape[0]):
+                # ground truth bbox has a label
+                if iou[n, maxiou_class[n]] > 0:
+                    s_image_iou.append(iou[n, maxiou_class[n]])
+                    # true positive has the same class and gt
+                    if gt_class_ids[n] == class_ids[maxiou_class[n]]:
+                        tp += 1
+                    else:
+                        fp += 1 
+```
+
+```py
+ # objects that we missed (false negative)
+            fn = abs(len(gt_class_ids) - tp)
+            s_iou += (np.sum(s_image_iou) / iou.shape[0])
+            s_precision += (tp/(tp + fp))
+            s_recall += (tp/(tp + fn)) 
+```
+
+```py
+ n_test = len(keys)
+        print_log("mIoU: %f" % (s_iou/n_test),
+                  self.args.verbose)
+        print_log("Precision: %f" % (s_precision/n_test),
+                  self.args.verbose)
+        print_log("Recall: %f" % (s_recall/n_test),
+                  self.args.verbose) 
+```
+
+结果如下，在“表 11.13.1”中：
+
+|  | **未归一化的偏移** | **未归一化的偏移，平滑 L1** | **归一化的偏移** | **归一化偏移，平滑 L1** | **归一化偏移，平滑 L1，焦点损失** |
+| --- | --- | --- | --- | --- | --- |
+| IoU | 0.64 | 0.61 | 0.53 | 0.50 | 0.51 |
+| 平均精度 | 0.87 | 0.86 | 0.90 | 0.85 | 0.85 |
+| 平均召回率 | 0.87 | 0.85 | 0.87 | 0.83 | 0.83 |
+
+表 11.13.1 测试数据集上 SSD 的表现基准。
+
+![](img/B14853_11_13.png)
+
+图 11.13.1 来自测试数据集的图像上的示例预测示例（未归一化的偏移量）。
+
+![](img/B14853_11_14.png)
+
+图 11.13.2 来自测试数据集的图像上的示例预测示例（未归一化的偏移量，平滑 L1）。
+
+![](img/B14853_11_15.png)
+
+图 11.13.3 来自测试数据集的图像预测示例（标准化偏移）。
+
+![](img/B14853_11_16.png)
+
+图 11.13.4 对来自测试数据集的图像进行的预测示例（标准化偏移，平滑 L1）。
+
+![](img/B14853_11_17.png)
+
+图 11.13.5 对来自测试数据集的图像进行的预测示例（归一化偏移，平滑 L1，聚焦损失）。
+
+本节中的结果验证了我们的 SSD 模型。 一个重要的经验教训是，只要我们理解了问题，无论问题多么复杂，我们都可以逐步构建一个可行的解决方案。 SSD 是迄今为止我们在本书中介绍过的最复杂的模型。 它需要许多工具，模块以及大量数据准备和管理才能工作。
+
+# 14\. 总结
+
+在本章中，讨论了多尺度单发对象检测的概念。 使用以接收场斑块的质心为中心的锚框，可以计算地面真值边界框偏移量。 代替原始像素误差，归一化像素误差会鼓励更适合优化的有限范围。
+
+每个锚框都分配有地面实况类别标签。 如果锚点框不与对象重叠，则为其分配背景类，并且其偏移量不包括在偏移量损失计算中。 已经提出了焦点损失以改善类别损失函数。 可以使用平滑的 L1 损失函数代替默认的 L1 偏置损失函数。
+
+对测试数据集的评估表明，使用默认损失函数的归一化偏移可实现平均精度和召回率方面的最佳表现，而当消除偏移归一化时，mIoU 会得到改善。 通过增加训练图像的数量和变化可以提高性能。
+
+在“第 12 章”中，“语义分割”建立在本章中开发的概念的基础上。 特别是，我们重用 ResNet 骨干网络来构建分段网络和 IoU 指标进行验证。
+
+# 15\. 参考
+
+1.  `Krizhevsky Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.`
+1.  `Liu Wei, et al. "SSD: Single Shot MultiBox Detector." European conference on computer vision. Springer, Cham, 2016.`
+1.  `Girshick Ross. "Fast R-CNN." Proceedings of the IEEE international conference on computer vision. 2015.`
+1.  `Lin Tsung-Yi, et al. "Focal loss for Dense Object Detection. "Proceedings of the IEEE international conference on computer vision. 2017.`
+1.  `Dutta, et al. VGG Image Annotator http://www.robots.ox.ac.uk/~vgg/software/via/`
+1.  `Bodla Navaneeth, et al. "Soft-NMS--Improving Object Detection With One Line of Code." Proceedings of the IEEE international conference on computer vision. 2017.`
+1.  `Everingham Mark, et al. "The Pascal Visual Object Classes (VOC) challenge." International journal of computer vision 88.2 (2010): 303-338.`
+1.  `"Huber Loss." https://en.wikipedia.org/wiki/Huber_loss`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/12.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/12.md
new file mode 100644
index 00000000..00f0bb79
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/12.md
@@ -0,0 +1,420 @@
+# 十二、语义分割
+
+在“第 11 章”，“对象检测”中，我们讨论了对象检测作为一种重要的计算机视觉算法，具有多种实际应用。 在本章中，我们将讨论另一种称为语义分割的相关算法。 如果对象检测的目的是对图像中的每个对象同时执行定位和标识，则在语义分割中，目的是根据每个像素的对象类别对它们进行分类。
+
+进一步扩展类比，在对象检测中，我们使用边界框显示结果。 在语义分割中，同一对象的所有像素都属于同一类别。 在视觉上，同一对象的所有像素将具有相同的颜色。 例如，属于*汽水**类别的所有像素均为蓝色。 非苏打罐对象的像素将具有不同的颜色。
+
+类似于对象检测，语义分割有许多实际应用。 在医学成像中，它可用于分离和测量正常细胞与异常细胞的区域。 在卫星成像中，语义分段可用于度量森林覆盖率或灾难期间的洪水程度。 通常，语义分割可用于识别属于同一类对象的像素。 识别每个对象的各个实例并不重要。
+
+好奇的读者可能会想知道，一般而言，不同的分割算法与特别是语义分割算法之间有什么区别？ 在以下部分中，我们将对不同的分割算法进行限定。
+
+总而言之，本章的目的是为了提出：
+
+*   不同类型的分割算法
+*   **全卷积网络**（**FCN**）作为语义分割算法的实现
+*   `tf.keras`中 FCN 的实现和评估
+
+我们将从讨论不同的分割算法开始。
+
+# 1\. 分割
+
+分割算法将图像划分为像素或区域集。 分区的目的是为了更好地理解图像表示的内容。 像素组可以表示图像中特定应用感兴趣的对象。 我们划分的方式区分了不同的分割算法。
+
+在某些应用中，我们对给定图像中的特定可数对象感兴趣。 例如，在自主导航中，我们对车辆，交通标志，行人和道路上的其他物体的实例感兴趣。 这些可计数对象统称为，称为**事物**。 所有其他像素都集中在一起作为背景。 这种类型的细分称为**实例细分**。
+
+在其他应用中，我们对可数对象不感兴趣，而对无定形的不可数区域感兴趣，例如天空，森林，植被，道路，草地，建筑物和水体。 这些对象统称为东西。 这种类型的分段称为**语义分段**。
+
+大致上，**事物**和**事物**共同构成了整个图像。 如果算法可以识别事物像素和填充像素，则其称为**全光分割**，如 Kirilov 等人所定义 [1]。
+
+但是，事物与事物之间的区别并不严格。 应用可能将可数对象统称为东西。 例如，在百货商店中，不可能识别机架上的服装实例。 它们可以作为布料一起集中在一起。
+
+“图 12.1.1”显示了不同类型的细分之间的区别。 输入的图像在桌子的顶部显示了两个汽水罐和两个果汁罐。 背景杂乱无章。 假设我们只对汽水罐和果汁罐感兴趣，在实例细分中，我们为每个对象实例分配唯一的颜色以分别区分四个对象。 对于语义分割，我们假设将所有的汽水罐都塞在一起，将果汁罐作为另一罐塞在一起，将背景作为最后的罐塞在一起。 基本上，我们为每种物料分配了唯一的颜色。 最后，在全景分割中，我们假设只有背景才是背景，而我们只对苏打水和果汁罐感兴趣。
+
+对于这本书，我们仅探讨语义分割。 按照“图 12.1.1”中的示例，我们将为“第 11 章”，“对象检测”中使用的对象分配唯一的填充类别：1）水瓶，2）**汽水罐**和 3）**果汁罐**。 第四个也是最后一个类别是背景。
+
+![A close up of a bottle  Description automatically generated](img/B14853_12_01.png)
+
+![A picture containing indoor  Description automatically generated](img/B14853_12_02.png)
+
+![A close up of a logo  Description automatically generated](img/B14853_12_03.png)
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_12_04.png)
+
+图 12.1.1：显示不同分割算法的四幅图像。 彩色效果最佳。 原始图像可以在[这个页面](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter12-segmentation)中找到。
+
+# 2\. 语义分割网络
+
+从上一节中，我们了解到语义分割网络是一个像素级分类器。 网络框图显示在“图 12.2.1”中。 但是，与简单分类器不同（例如，“第 1 章”，“Keras 深度神经网络”和“第 2 章”，“MNIST 分类器简介”） 其中只有一个分类器生成`one-hot vector`作为输出，在语义分段中，我们有并行运行的并行分类器。 每个人都在生成自己的单热点向量预测。 分类器的数量等于输入图像中的像素数量或图像宽度与高度的乘积。 每个`one-hot vector`预测的维数等于感兴趣的填充对象类别的数量。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_12_05.png)
+
+图 12.2.1：可以将语义分割网络视为按像素分类器。 彩色效果最佳。 原始图像可以在[这个页面](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter12-segmentation)中找到
+
+例如，假设我们对以下四个类别感兴趣：0）**背景**，1）**水瓶**，2）**汽水罐**和 3）**果汁罐**，我们可以在“图 12.2.2”中看到，每个对象类别有四个像素。
+
+相应地，使用 4 维`one-hot vector`对每个像素进行分类。 我们使用阴影表示像素的类别。 利用这一知识，我们可以想象一个语义分割网络预测`image_width x image_height` 4 维一热向量作为输出，每个像素一个 4 维一热向量：
+
+![A bottle of water on a table  Description automatically generated](img/B14853_12_06.png)
+
+图 12.2.2：四个不同的样本像素。 使用 4 维一热向量，每个像素根据其类别进行分类。 彩色效果最佳。 原始图像可以在[这个页面](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter12-segmentation)中找到
+
+了解了语义分割的概念后，我们现在可以介绍神经网络像素级分类器。 Long 等人的《全卷积网络（FCN）》启发了我们的语义分段网络架构 [2]。FCN 的关键思想是在生成最终预测时使用多个比例的特征映射。
+
+我们的语义分段网络显示在“图 12.2.3”中。 它的输入是 RGB 图像（例如`640 x 480 x 3`），并且输出具有类似尺寸的张量，但最后一个尺寸是填充类别的数量（例如，对于 4 种填充类别而言是`640 x 480 x 4`）。 出于可视化目的，我们通过为每种类别分配颜色来将输出映射到 RGB：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_12_07.png)
+
+图 12.2.3：语义分割的网络架构。 除非另有说明，否则核大小为 3。 除非另有说明，否则跨步为 1。 彩色效果最佳。 原始图像可以在[这个页面](https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras/tree/master/chapter12-segmentation)中找到
+
+类似于“第 11 章”，“对象检测”中讨论的 SSD，我们采用骨干网作为特征提取器。 我们在 SSD 中使用类似的 ResNetv2 网络。 ResNet 主干网执行两次最大池化，以到达第一组特征映射，其尺寸为输入图像的 1/4。 通过使用连续的`Conv2D(strides=2)-BN-ReLU`层生成其他特征映射集，从而生成具有输入图像尺寸`(1/8, 1/16, 1/32)`的特征映射。
+
+Zhao 等人的《金字塔场景解析网络（PSPNet）》进行了改进，进一步增强了我们的语义分割网络架构 [3]。 在 PSPNet 中，每个特征映射由另一个卷积层进一步处理。 此外，还使用了第一组特征映射。
+
+FCN 和 PSPNet 都对特征金字塔进行了上采样，以达到与第一组特征映射相同的大小。 之后，使用`Concatenate`层将所有上采样特征融合在一起。 然后级联层通过步长等于 2 的转置卷积处理两次，以恢复原始图像的宽度和高度。 最后，使用核大小为 1 且过滤器等于 4（换句话说，类别数）和`Softmax`层的转置卷积生成按像素分类预测。
+
+在下一节中，我们将讨论细分网络的`tf.keras`实现。 我们可以重用“第 11 章”，“对象检测”中的 SSD 中的某些网络块，以加快实现速度。
+
+# 3\. Keras 中的语义分割网络
+
+如图“图 12.2.3”所示，我们已经有了语义细分网络的一些关键构建块。 我们可以重用“第 2 章”，“深度神经网络”中介绍的 ResNet 模型。 我们只需要构建特征的金字塔以及上采样和预测层。
+
+借用我们在“第 2 章”，“深度神经网络”中开发的 ResNet 模型，并在“第 11 章”，“对象检测”中重用了该模型， 我们提取具有四个级别的特征金字塔。“列表 12.3.1”显示了从 ResNet 提取特征的金字塔。 `conv_layer()`只是创建`Conv2D(strides=2)-BN-ReLU`层的辅助函数。
+
+“列表 12.3.1”：`resnet.py`：
+
+特征的金字塔函数：
+
+```py
+def features_pyramid(x, n_layers):
+    """Generate features pyramid from the output of the 
+    last layer of a backbone network (e.g. ResNetv1 or v2) 
+```
+
+```py
+ Arguments:
+        x (tensor): Output feature maps of a backbone network
+        n_layers (int): Number of additional pyramid layers 
+```
+
+```py
+ Return:
+        outputs (list): Features pyramid 
+    """
+    outputs = [x]
+    conv = AveragePooling2D(pool_size=2, name='pool1')(x)
+    outputs.append(conv)
+    prev_conv = conv
+    n_filters = 512 
+```
+
+```py
+ # additional feature map layers
+    for i in range(n_layers - 1):
+        postfix = "_layer" + str(i+2)
+        conv = conv_layer(prev_conv,
+                          n_filters,
+                          kernel_size=3,
+                          strides=2,
+                          use_maxpool=False,
+                          postfix=postfix)
+        outputs.append(conv)
+        prev_conv = conv 
+```
+
+```py
+ return outputs 
+```
+
+“列表 12.3.1”只是特征金字塔的一半。 剩下的一半是每组特征之后的卷积。 另一半显示在“列表 12.3.2”中，以及金字塔各层的上采样。 例如，图像尺寸为 1/8 的特征会被上采样 2 倍，以使其尺寸与图像尺寸为 1/4 的第一组特征相匹配。 在同一清单中，我们还建立了完整的分割模型，从骨干网络到特征金字塔，再连接上采样特征金字塔，最后进一步进行特征提取，上采样和预测。 我们在输出层使用`n`维（例如 4 维）`Softmax`层执行逐像素分类。
+
+“列表 12.3.2”：`model.py`：
+
+构建语义分割网络：
+
+```py
+def build_fcn(input_shape,
+              backbone,
+              n_classes=4):
+    """Helper function to build an FCN model.
+
+    Arguments:
+        backbone (Model): A backbone network
+            such as ResNetv2 or v1
+        n_classes (int): Number of object classes
+            including background.
+    """ 
+```
+
+```py
+ inputs = Input(shape=input_shape)
+    features = backbone(inputs) 
+```
+
+```py
+ main_feature = features[0]
+    features = features[1:]
+    out_features = [main_feature]
+    feature_size = 8
+    size = 2
+    # other half of the features pyramid
+    # including upsampling to restore the
+    # feature maps to the dimensions
+    # equal to 1/4 the image size
+    for feature in features:
+        postfix = "fcn_" + str(feature_size)
+        feature = conv_layer(feature,
+                             filters=256,
+                             use_maxpool=False,
+                             postfix=postfix)
+        postfix = postfix + "_up2d"
+        feature = UpSampling2D(size=size,
+                               interpolation='bilinear',
+                               name=postfix)(feature)
+        size = size * 2
+        feature_size = feature_size * 2
+        out_features.append(feature) 
+```
+
+```py
+ # concatenate all upsampled features
+    x = Concatenate()(out_features)
+    # perform 2 additional feature extraction 
+    # and upsampling
+    x = tconv_layer(x, 256, postfix="up_x2")
+    x = tconv_layer(x, 256, postfix="up_x4")
+    # generate the pixel-wise classifier
+    x = Conv2DTranspose(filters=n_classes,
+                        kernel_size=1,
+                        strides=1,
+                        padding='same',
+                        kernel_initializer='he_normal',
+                        name="pre_activation")(x)
+    x = Softmax(name="segmentation")(x) 
+```
+
+```py
+ model = Model(inputs, x, name="fcn") 
+```
+
+```py
+ return model 
+```
+
+给定分割网络模型，我们使用学习速度为`1e-3`的 Adam 优化器和分类交叉熵损失函数来训练网络。“列表 12.3.3”显示了模型构建和训练函数调用。 在 40 个周期之后，学习率每 20 个周期减半。 我们使用`AccuracyCallback`监视网络表现，类似于“第 11 章”，“对象检测”中的 SSD 网络。 回调使用类似于对象检测平均 IoU 的**平均 IoU**（**mIoU**）指标计算表现。 表现最佳的平均值 IoU 的权重保存在文件中。 通过调用`fit_generator()`将网络训练 100 个周期。
+
+“列表 12.3.3”：`fcn-12.3.1.py`：
+
+语义分割网络的初始化和训练：
+
+```py
+ def build_model(self):
+        """Build a backbone network and use it to
+            create a semantic segmentation 
+            network based on FCN.
+        """ 
+```
+
+```py
+ # input shape is (480, 640, 3) by default
+        self.input_shape = (self.args.height,
+                            self.args.width,
+                            self.args.channels) 
+```
+
+```py
+ # build the backbone network (eg ResNet50)
+        # the backbone is used for 1st set of features
+        # of the features pyramid
+        self.backbone = self.args.backbone(self.input_shape,
+                                           n_layers=self.args.layers) 
+```
+
+```py
+ # using the backbone, build fcn network
+        # output layer is a pixel-wise classifier
+        self.n_classes =  self.train_generator.n_classes
+        self.fcn = build_fcn(self.input_shape,
+                             self.backbone,
+                             self.n_classes) 
+```
+
+```py
+ def train(self):
+        """Train an FCN"""
+        optimizer = Adam(lr=1e-3)
+        loss = 'categorical_crossentropy'
+        self.fcn.compile(optimizer=optimizer, loss=loss) 
+```
+
+```py
+ log = "# of classes %d" % self.n_classes
+        print_log(log, self.args.verbose)
+        log = "Batch size: %d" % self.args.batch_size
+        print_log(log, self.args.verbose) 
+```
+
+```py
+ # prepare callbacks for saving model weights
+        # and learning rate scheduler
+        # model weights are saved when test iou is highest
+        # learning rate decreases by 50% every 20 epochs
+        # after 40th epoch
+        accuracy = AccuracyCallback(self)
+        scheduler = LearningRateScheduler(lr_scheduler) 
+```
+
+```py
+ callbacks = [accuracy, scheduler]
+        # train the fcn network
+        self.fcn.fit_generator(generator=self.train_generator,
+                               use_multiprocessing=True,
+                               callbacks=callbacks,
+                               epochs=self.args.epochs,
+                               workers=self.args.workers) 
+```
+
+多线程数据生成器类`DataGenerator`与“第 11 章”，“对象检测”中使用的类类似。 如“列表 12.3.4”所示，对`__data_generation(self, keys)`签名方法进行了修改，以生成一对图像张量及其相应的按像素方向的真实情况标签或分割蒙版 。 在下一节中，我们将讨论如何生成基本事实标签。
+
+“列表 12.3.4”：`data_generator.py`：
+
+`DataGenerator`类用于语义分割的数据生成方法：
+
+```py
+ def __data_generation(self, keys):
+        """Generate train data: images and 
+        segmentation ground truth labels 
+```
+
+```py
+ Arguments:
+            keys (array): Randomly sampled keys
+                (key is image filename) 
+```
+
+```py
+ Returns:
+            x (tensor): Batch of images
+            y (tensor): Batch of pixel-wise categories
+        """
+        # a batch of images
+        x = []
+        # and their corresponding segmentation masks
+        y = [] 
+```
+
+```py
+ for i, key in enumerate(keys):
+            # images are assumed to be stored 
+            # in self.args.data_path
+            # key is the image filename 
+            image_path = os.path.join(self.args.data_path, key)
+            image = skimage.img_as_float(imread(image_path))
+            # append image to the list
+            x.append(image)
+            # and its corresponding label (segmentation mask)
+            labels = self.dictionary[key]
+            y.append(labels) 
+```
+
+```py
+ return np.array(x), np.array(y) 
+```
+
+语义分割网络现已完成。 使用`tf.keras`，我们讨论了其架构实现，初始化和训练。
+
+在运行训练程序之前，我们需要训练和测试带有地面真实性标签的数据集。 在的下一部分中，我们将讨论将在本章中使用的语义分割数据集。
+
+# 4\. 示例数据集
+
+我们可以使用在“第 11 章”，“对象检测”中使用的数据集。 回想一下，我们使用了一个小型数据集，其中包含使用便宜的 USB 相机（A4TECH PK-635G）收集的 1,000 `640 x 480` RGB 训练图像和 50 `640 x 480` RGB 测试图像。 但是，我们没有使用边界框和类别进行标记，而是使用多边形形状跟踪了每个对象类别的边缘。 我们使用相同的数据集标注器 **VGG 图像标注器**（**VIA**）[4]手动跟踪边缘并分配以下标签：1）**水瓶**，2）**汽水罐**和 3）**果汁罐**。
+
+“图 12.4.1”显示了标记过程的示例 UI。
+
+![A picture containing indoor, bottle, appliance, wall  Description automatically generated](img/B14853_12_08.png)
+
+图 12.4.1：使用 VGG 图像标注器（VIA）进行语义分割的数据集标记过程
+
+威盛标签软件将标签保存在 JSON 文件中。 对于训练和测试数据集，这些是：
+
+```py
+segmentation_train.json
+segmentation_test.json 
+```
+
+无法原样使用存储在 JSON 文件中的多边形区域。 每个区域都必须转换成分割蒙版，即张量，其尺寸为`img_w x img_h x px – wise_category`。 在此数据集中，分割蒙版的尺寸为`640 x 480 x 4`。类别 0 为背景，其余为 1）对于**水瓶**，2）对于**苏打罐**，以及 3）表示**果汁罐**。 在`utils`文件夹中，我们创建了一个`generate_gt_segmentation.py`工具，用于将 JSON 文件转换为分段掩码。 为了方便起见，用于训练和测试的地面真实数据存储在压缩数据集中，该数据集是从[上一章](https://bit.ly/adl2-ssd)下载的：
+
+```py
+segmentation_train.npy
+segmentation_test.npy 
+```
+
+每个文件都包含`image filename: segmentation mask`格式的真实情况数据字典，该字典在训练和验证期间加载。“图 12.4.2”显示了使用彩色像素可视化的“图 12.4.1”中图像的分割蒙版的示例。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_12_09.png)
+
+图 12.4.2：可视化图 12.4.1 中所做标注的分段蒙版
+
+现在，我们准备训练和验证语义分割网络。 在下一节中，我们将显示在本节中标注的数据集上语义分割的结果。
+
+# 5\. 语义分割验证
+
+要训​​练语义分段网络，请运行以下命令：
+
+```py
+python3 fcn-12.3.1.py --train 
+```
+
+在每个周期，也会执行验证以确定表现最佳的参数。 对于语义分割，可以使用两个度量。 首先是平均 IOU。 这类似于上一章中目标检测中的平均 IoU。 区别在于针对每个填充类别在真实情况分割掩码和预测的分割掩码之间计算 IoU。 这包括背景。 平均 IoU 只是测试数据集所有 IoU 的平均值。
+
+“图 12.5.1”显示了在每个周期使用 mIoU 的语义分割网络的表现。 最大 mIoU 为 0.91。 这个比较高。 但是，我们的数据集只有四个对象类别：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_12_10.png)
+
+图 12.5.1：使用 mIoU 进行测试数据集训练期间的语义分割表现
+
+第二个指标是平均像素精度。 这类似于在分类器预测上计算准确率的方式。 不同之处在于，分割网络具有的预测数量等于图像中的像素数量，而不是具有一个预测。 对于每个测试输入图像，计算平均像素精度。 然后，计算所有测试图像的平均值。
+
+“图 12.5.2”显示了在每个周期使用平均像素精度的语义分割网络的表现。 最大平均像素精度为 97.9%。 我们可以看到平均像素精度与 mIoU 之间的相关性：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_12_11.png)
+
+图 12.5.2：使用测试数据集的平均像素精度在训练期间的语义分割表现
+
+“图 12.5.3”显示了输入图像，地面实况语义分割掩码和预测的语义分割掩码的样本：
+
+![A picture containing indoor, table, bottle  Description automatically generated](img/B14853_12_12.png)
+
+![](img/B14853_12_13.png)
+
+![](img/B14853_12_14.png)
+
+图 12.5.3：样本输入，基本事实和语义细分的预测。 我们将黑色分配为背景类，而不是紫色，如先前所用
+
+总体而言，我们基于 FCN 并经过 PSPNet 的思想改进的语义分割网络的表现相对较好。 我们的语义分割网络绝不是最优化的。 可以减少特征金字塔中的过滤器数量，以最大程度地减少参数的数量，该参数约为 1110 万。 探索增加特征金字塔中的级别数也很有趣。 读者可以通过执行以下命令来运行验证：
+
+```py
+python3 fcn-12.3.1.py --evaluate 
+--restore-weights=ResNet56v2-3layer-drinks-best-iou.h5 
+```
+
+在下一章中，我们将介绍无监督的学习算法。 考虑到监督学习中所需的昂贵且费时的标签，强烈地开发了无监督学习技术。 例如，在本章的语义分割数据集中，一个人花了大约 4 天的手工标签。 如果深度学习始终需要人工标记，那么它就不会前进。
+
+# 6\. 总结
+
+在本章中，讨论了分割的概念。 我们了解到细分有不同类别。 每个都有自己的目标应用。 本章重点介绍语义分段的网络设计，实现和验证。
+
+我们的语义分割网络受到 FCN 的启发，FCN 已成为许多现代，最先进的分割算法（例如 Mask-R-CNN [5]）的基础。 PSPNet 的构想进一步增强了我们的网络，该构想在 ImageNet 2016 解析挑战赛中获得第一名。
+
+使用 VIA 标记工具，使用与“第 11 章”，“对象检测”中使用的相同图像集生成用于语义分割的新数据集标签。 分割蒙版标记属于同一对象类的所有像素。
+
+我们使用平均 IoU 和平均像素准确率指标对语义分割网络进行了训练和验证。 测试数据集上的表现表明，它可以有效地对测试图像中的像素进行分类。
+
+如本章最后一部分所述，由于所涉及的成本和时间，深度学习领域正在意识到监督学习的局限性。 下一章重点介绍无监督学习。 它利用了通信领域信息理论中使用的互信息概念。
+
+# 7\. 参考
+
+1.  `Kirillov, Alexander, et al.: Panoptic Segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition. 2019.`
+1.  `Long, Jonathan, Evan Shelhamer, and Trevor Darrell: Fully Convolutional Networks for Semantic Segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.`
+1.  `Zhao, Hengshuang, et al.: Pyramid Scene Parsing Network. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.`
+1.  `Dutta, et al.: VGG Image Annotator http://www.robots.ox.ac.uk/~vgg/software/via/`
+1.  `He Kaiming, et al.: Mask R-CNN. Proceedings of the IEEE international conference on computer vision. 2017.`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/13.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/13.md
new file mode 100644
index 00000000..7836612f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/13.md
@@ -0,0 +1,1240 @@
+# 十三、使用互信息的无监督学习
+
+许多机器学习任务（例如分类，检测和分段）都依赖于标记的数据。 网络在这些任务上的表现直接受到标记质量和数据量的影响。 问题在于产生足够数量的高质量标注数据既昂贵又费时。
+
+为了继续机器学习的发展，新算法应减少对人类标签的依赖。 理想情况下，网络应该从无标签数据中学习，由于互联网的发展以及诸如智能手机和**物联网**（**IoT**）。 从未标记的数据中学习是无监督学习的领域。 在某些情况下，无监督学习也称为自我监督学习，以强调使用纯净的未标记数据进行训练和缺乏人工监督。 在本文中，我们将使用术语无监督学习。
+
+在机器学习中，有一些方法可以从未标记的数据中学习。 可以使用深度神经网络和无监督学习中的新思想来改善这些方法的表现。 当处理高度非结构化的数据（例如文本，图像，音频和视频）时，尤其如此。
+
+在无监督学习中成功的方法之一是最大化给定神经网络中两个随机变量之间的互信息。 在信息论领域，**互信息**（**MI**）是两个随机变量之间依存性的量度。
+
+MI 最近已成功地从未标记的数据中提取了有用的信息，可以帮助学习下游任务。 例如，MI 能够对潜在代码向量进行聚类，从而使分类任务成为简单的线性分离问题。
+
+总之，本章的目的是介绍：
+
+*   互信息的概念
+*   使用神经网络估计 MI
+*   下游任务的离散和连续随机变量上的 MI 最大化
+*   Keras 中 MI 估计网络的实现
+
+我们将从介绍互信息的概念开始。
+
+# 1\. 互信息
+
+互信息是对两个随机变量`X`和`Y`之间依赖性的度量。 有时，MI 也定义为通过观察`Y`得出的有关`X`的信息量。 MI 也被称为信息获取或观察`Y`时`X`不确定性的降低。
+
+与相关性相反，MI 可以测量`X`和`Y`之间的非线性统计依赖性。 在深度学习中，MI 是一种合适的方法，因为大多数现实世界中的数据都是非结构化的，并且输入和输出之间的依赖关系通常是非线性的。 在深度学习中，最终目标是对输入数据和预先训练的模型执行特定任务，例如分类，翻译，回归或检测。 这些任务也称为下游任务。
+
+由于 MI 可以发现输入，中间特征，表示和输出中的相关性的重要方面，这些方面本身就是随机变量，因此共享信息通常可以提高下游任务中模型的表现。
+
+在数学上，两个随机变量`X`和`Y`之间的 MI 可以定义为：
+
+![](img/B14853_13_001.png) (Equation 13.1.1)
+
+哪里：
+
+*   `P`（`X`，`Y`）是 X 和 Y 在样本空间`X`x`Y`上的联合分布 。
+*   `P`（`X`）`P`（`Y`）是边际分布`P`（`X`）和`P`（`Y`）分别位于样本空间`X`和`Y`上。
+
+换句话说，MI 是联合分布与边际分布乘积之间的 **Kullback-Leibler**（**KL**）散度。 回顾“第 5 章”，“改进的 GAN” ，KL 是两个分布之间距离的度量。 在 MI 的上下文中，KL 距离越大，两个随机变量`X`和`Y`之间的 MI 越高。 通过扩展，MI 越高，`X`对`Y`的依赖性越高。
+
+由于 MI 等于边际分布的联合与乘积之间的 KL 散度，因此它暗示它大于或等于零：`I(X; Y) > 0`。 当`X`和`Y`是独立随机变量时，MI 完全等于零。 当`X`和`Y`是独立的时，观察一个随机变量（例如`Y`）不会提供关于另一个随机变量的信息（例如`X`）。 因此，MI 是`X`和`Y`独立程度的度量。
+
+如果`X`和`Y`是**离散随机变量**，则通过扩展 KL 散度，MI 可以计算为：
+
+![](img/B14853_13_003.png) (Equation 13.1.2)
+
+哪里：
+
+*   `P`（`X`，`Y`）是联合**概率质量函数**（**PMF**）。
+*   `P`（`X`）和`P`（`Y`）是边际 PMF。
+
+如果联合和边际分布已知，则 MI 可以进行精确计算。
+
+如果`X`和`Y`是**连续随机变量**，则通过扩展 KL 散度，MI 可以表示为：
+
+![](img/B14853_13_004.png) (Equation 13.1.3)
+
+哪里：
+
+*   `p`（`x`，`y`）是联合**概率密度函数**（**PDF**）。
+*   `p`（`x`）和`p`（`y`）是边缘 PDF。
+
+连续随机变量的 MI 通常很难处理，并且可以通过变分方法进行估计。 在本章中，我们将讨论估计两个连续随机变量之间的 MI 的技术。
+
+在讨论用于计算互信息的技术之前，让我们首先解释一下 MI 与熵之间的关系。 熵在“第 6 章”，“纠缠表示 GAN”中非正式引入，并在 InfoGAN 中得到了应用。
+
+# 2\. 互信息和熵
+
+MI 也可以用熵来解释。 回想一下“第 6 章”，“纠缠表示 GAN” ，熵`H`（`X`）是对预期信息量的度量。 随机变量`X`的：
+
+![](img/B14853_13_005.png) (Equation 13.2.1)
+
+“公式 13.2.1”表示熵还是不确定性的量度。 不确定事件的发生给我们带来了更多的惊喜或信息。 例如，有关员工意外晋升的新闻具有大量信息或熵。
+
+使用“公式 13.2.1”，MI 可以表示为：
+
+![](img/B14853_13_006.png)
+
+![](img/B14853_13_007.png)
+
+![](img/B14853_13_008.png)
+
+![](img/B14853_13_009.png) (Equation 13.2.2)
+
+“公式 13.2.2”表示 MI 随着边际熵增加而增加，但随联合熵而减少。 就熵而言，MI 的一个更常见的表达式如下：
+
+![](img/B14853_13_010.png)
+
+![](img/B14853_13_011.png)
+
+![](img/B14853_13_012.png) (Equation 13.2.3)
+
+“公式 13.2.3”告诉我们，MI 随随机变量的熵增加而减小，而随另一个随机变量的条件熵而减小。 或者，如果我们知道`Y`，则 MI 是的信息减少量或`X`的不确定性。
+
+等效地，
+
+![](img/B14853_13_013.png)
+
+![](img/B14853_13_014.png) (Equation 13.2.4)
+
+“公式 13.2.4”表示 MI 是对称的：
+
+![](img/B14853_13_015.png) (Equation 13.2.5)
+
+MI 也可以用`X`和`Y`的条件熵表示：
+
+![](img/B14853_13_016.png) (Equation 13.2.6)
+
+使用贝叶斯定理：
+
+![](img/B14853_13_017.png)
+
+![](img/B14853_13_018.png)
+
+![](img/B14853_13_019.png)
+
+![](img/B14853_13_020.png) (Equation 13.2.7)
+
+“图 13.2.1”总结了到目前为止我们讨论的 MI 与条件熵和边际熵之间的所有关系：
+
+![MI_Venn_Diagram.png](img/B14853_13_01.png)
+
+图 13.2.1 维恩图显示了 MI 与条件熵和边际熵之间的关系
+
+MI 的另一种有趣解释是根据“公式 13.2.3”，可以将其重写为：
+
+![](img/B14853_13_021.png) (Equation 13.2.8)
+
+由于`H(X | Y)`是观察到`Y`时的`X`的不确定性，因此“公式 13.2.8”告诉我们， 如果可以最大化 MI，则可以确定`X`给定`Y`。 在“图 13.2.1”中，新月形`H(X | Y)`的面积随着代表 MI 的圆之间的交点增加而减小。
+
+再举一个的具体例子，假设`X`是一个随机变量，表示观察到在给定随机字节中的 0 到 255 之间的数字。 假设分布均匀，则转换为`P(X) = 1/256`的概率。 以 2 为底的`X`的熵为：
+
+![](img/B14853_13_023.png)
+
+假设随机变量`Y`代表随机字节的 4 个最高有效位。 如果我们观察到 4 个最高有效位全为零，则数字 0 到 15 包含`P(X) = 1/16`，其余数字具有`P(X) = 0`。条件熵在基数 2 中是：
+
+![](img/B14853_13_025.png)
+
+这为我们提供了`I(X; Y) = 8 - 4 = 4`的 MI。 注意，随机变量`X`的不确定性或预期信息量在知道`Y`后降低。`X`和`Y`共享的互信息为 4，这也等于两个随机变量共享的位数。“图 13.2.2”说明了两种情况，其中所有位都是随机的，而四个最高有效位都为 0。
+
+![A close up of a logo  Description automatically generated](img/B14853_13_02.png)
+
+图 13.2.2 当所有位未知时与某些位已知时的熵
+
+鉴于我们已经对 MI 和熵有了很好的了解，我们现在可以将此概念用作无监督学习的一种方法。
+
+# 3\. 通过最大化离散随机变量的互信息来进行无监督学习
+
+深度学习中的经典问题是监督分类。 在“第 1 章”，“Keras 简介”和“第 2 章”，“深度神经网络”中，我们了解到，在监督分类下，我们需要标记输入图像。 我们对 MNIST 和 CIFAR10 数据集都进行了分类。 对于 MNIST，三层 CNN 和密集层可实现高达 99.3% 的精度。 对于使用 ResNet 或 DenseNet 的 CIFAR10，我们可以实现大约 93% 至 94% 的精度。 MNIST 和 CIFAR10 都被标记为数据集。
+
+与监督学习不同，本章的目标是执行无监督学习。 我们的重点是没有标签的分类。 这个想法是，如果我们学习如何对所有训练数据的潜在代码向量进行聚类，那么线性分离算法可以对每个测试输入数据潜在向量进行分类。
+
+为了学习没有标签的潜在代码向量的聚类，我们的训练目标是在输入图像`X`和其潜在代码`Y`之间最大化 MI。`X`和`Y`都是随机变量。 这个想法是外观*相似的*图像将具有聚集到相同区域的潜在向量。 线性分配问题可以很容易地将彼此远离的区域分开。 因此，可以以无监督的方式完成分类问题。 数学上，目标是最大化：
+
+![](img/B14853_13_027.png) (Equation 13.2.3)
+
+直观地，一旦我们观察到`Y`，我们对`X`充满信心。 “公式 13.2.3”的问题在于，我们无法很好地估计要测量的密度`P(X | Y) H(X | Y)`。
+
+Ji 等人的**不变信息聚类**（**IIC**）[1] 建议从联合和边际分布直接测量`I(X; Y)`。 目的是使用“公式 13.1.2”测量引用同一输入的两个潜在代码随机变量之间的 MI。 假设输入`X`编码为`Z`：
+
+![](img/B14853_13_029.png)
+
+将相同的输入`X`转换为`X_bar = G(X)`，以便`X`仍可清晰地归类为与`X`相同的类别。 在图像处理中，`G`可以是常见的操作，例如小旋转，随机裁剪和剪切。 有时，只要结果图像的含义相同，就可以接受诸如对比度和亮度调整，边缘检测，少量噪声添加以及归一化之类的操作。 例如，如果`X`是狗的图像，则在`G`之后，`X_bar`显然仍是狗。
+
+使用相同编码器网络的潜在代码向量为：
+
+![](img/B14853_13_035.png)
+
+因此，我们可以用两个随机变量`Z`和`Z_bar`将“公式 13.1.2”重写为：
+
+![](img/B14853_13_037.png) (Equation 13.3.1)
+
+其中`P(Z)`和`P(Z_bar)`可以解释为`Z`和`Z_bar`的边际分布。 对于离散随机变量，`Z`和`Z_bar`都是`P(Z)`和`P(Z_bar)`都是分类分布。 我们可以想象，编码器输出是 *softmax* ，其维数等于训练和测试数据分布中的类数`N`。 例如，对于 MNIST，编码器输出是与训练和测试数据集中的 10 位数字相对应的 10 维一热向量。
+
+为了确定“公式 13.3.1”中的每个项，我们首先估计`P(Z, Z_bar)`。 IIC 假设`Z`和`Z_bar`是独立的，因此联合分布可以估计为：
+
+![](img/B14853_13_045.png) (Equation 13.3.2)
+
+这将创建一个`N x N`矩阵`P(Z, Z_bar)`，其中每个元素`Z[ij]`对应于同时观察两个随机变量`(Z[i], Z_bar[j])`的概率。 如果对大批量进行此估计，则大样本均值将估计联合概率。
+
+由于我们将使用 MI 来估计密度函数，因此 IIC 将采样限制为`(Z[i], Z_bar[i])`。 本质上，对于每个样本`x[i]`，我们计算其潜在代码`P(Z[i]) = E(X[i])`。 然后，我们将`x[i]`转换，并计算其潜在代码`P(Z_bar[i]) = E(X_bar[i])`。 联合分布计算如下：
+
+![](img/B14853_13_051.png) (Equation 13.3.3)
+
+其中`M`是批量大小。 由于我们对`x[i]`和`x_bar[i]`使用相同的编码器`E`，因此联合分布应该对称。 我们通过执行以下命令来增强对称性：
+
+![](img/B14853_13_054.png) (Equation 13.3.4)
+
+给定`P(Z, Z_bar)`，边际分布可以计算为：
+
+![](img/B14853_13_056.png) (Equation 13.3.5)
+
+我们按行求和矩阵的所有条目。 类似地：
+
+![](img/B14853_13_057.png) (Equation 13.3.6)
+
+我们按矩阵汇总矩阵的所有条目。
+
+给定“公式 13.3.1”中的所有项，我们可以训练神经网络编码器`E`，该编码器使用损失函数来最大化 MI 或最小化负 MI：
+
+![](img/B14853_13_059.png) (Equation 13.3.7)
+
+在实现无监督聚类之前，让我们再次反思目标–最大化`I(Z; Z_bar)`。 由于`X`和`X_bar = G(X)`及其对应的潜在代码向量`Z`和`Z_bar`共享相同的信息，因此神经网络编码器`E`应该学习映射`X`和`X_bar`成为潜在向量`Z`和`Z_bar`，它们具有几乎相同的值以最大化其 MI。 在 MNIST 的背景下，看起来相似的数字将具有潜在代码向量，它们聚集在空间的同一区域中。
+
+如果潜在代码向量是 *softmax* 的输出，则表明我们正在执行无监督聚类，可以使用线性分配算法将其转换为分类器。 在本章中，我们将介绍两种可能的线性分配算法，这些算法可用于将无监督的聚类转换为无监督的分类。
+
+在下一节中，我们将讨论可用于实现无监督聚类的编码器网络模型。 特别是，我们将介绍可用于估计`P(Z)`和`P(Z_bar)`的编码器网络。
+
+# 4\. 用于无监督聚类的编码器网络
+
+图 13.4.1 中显示了用于无监督聚类的编码器网络实现。 它是一种编码器，具有类似 VGG 的[2]主干和`Dense`层，并具有 *softmax* 输出。 最简单的 VGG-11 具有主干，如“图 13.4.2”所示。
+
+对于 MNIST，使用最简单的 VGG-11 骨干将特征映射大小从`MaxPooling2D`操作的 5 倍减至零。 因此，当在 Keras 中实现时，将使用按比例缩小的 VGG-11 主干版本，如图“图 13.4.3”所示。 使用同一组过滤器。
+
+![A close up of a logo  Description automatically generated](img/B14853_13_03.png)
+
+图 13.4.1 IIC 编码器网络`E`的网络实现。 输入的 MNIST 图像被中心裁剪为`24 x 24`像素。 在此示例中，`X_bar = G(X)`是随机的`24 x 24`像素裁剪操作。
+
+![](img/B14853_13_04.png)
+
+图 13.4.2 VGG-11 分类器主干
+
+在“图 13.4.3”中，有 4 个`Conv2D-BN-ReLU Activation-MaxPooling2D`层，其过滤器大小为`(64, 128, 256, 512)`。 最后的`Conv2D`层不使用`MaxPooling2D`。 因此，最后的`Conv2D`层针对`24 x 24 x 1`裁剪的 MNIST 输入输出`(3, 3, 512)`特征映射。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_05.png)
+
+图 13.4.3 缩小的 VGG 用作编码器主干
+
+“图 13.4.4”显示了“图 13.4.1”的 Keras 模型图。 为了提高性能，IIC 执行了超集群。 两个或更多编码器用于生成两个或更多个边际分布`P(Z)`和`P(Z_bar)`。 生成相应的联合分布。 就网络模型的而言，这是由具有两个或更多头的编码器实现的。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_06.png)
+
+图 13.4.4 Keras 中 IIC 编码器`E`的网络实现
+
+“图 13.4.4”是单头编码器，而“图 13.4.5”是双头编码器。 请注意，两个头共享相同的 VGG 主干。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_07.png)
+
+图 13.4.5 Keras 中的两头编码器网络`E`
+
+在以下两个部分的中，我们将研究[II]网络模型是如何实现，训练和评估的。 我们还将研究线性分配问题，作为为每个聚类指定标签的工具。
+
+# 5\. Keras 中的无监督聚类实现
+
+Keras 中用于无监督聚类的网络模型实现在“列表 13.5.1”中显示。 仅显示初始化。 网络超参数存储在`args`中。 VGG 主干对象在初始化期间提供。 给定骨干，模型实际上只是具有 *softmax* 激活的`Dense`层，如`build_model()`方法所示。 有创建多个头的选项。
+
+与“第 11 章”，“对象检测”相似，我们实现了`DataGenerator`类以多线程方式有效地提供输入数据。 `DataGenerator`对象生成由输入图像`X`及其变换后的图像`X_bar`组成的所需配对训练输入数据（即，连体输入图像）。 `DataGenerator`类中最关键的方法`__data_generation()`显示在“列表 13.5.2”中。 输入图像`X`从原始输入图像中央裁切。 对于 MNIST，这是`24 x 24`像素中心裁剪。 变换后的输入图像`X_bar`可以随机旋转`±20`范围内的某个角度，也可以从图像的任何部分随机裁剪`16 x 16`、`18 x 18`或`20 x 20`像素，然后将其调整为`24 x 24`像素。 作物尺寸存储在`crop_sizes`列表中。
+
+注意，仅输入图像和变换图像在`DataGenerator`对象生成的数据中很重要。 同样，损失函数所需的配对数据沿批量轴连接。 这将使我们能够在单批配对数据中计算损失函数。
+
+“列表 13.5.1”：`iic-13.5.1.py`。 显示初始化和模型创建的 IIC 类：IIC 类：
+
+```py
+ def __init__(self,
+                 args,
+                 backbone):
+        """Contains the encoder model, the loss function,
+            loading of datasets, train and evaluation routines
+            to implement IIC unsupervised clustering via mutual
+            information maximization 
+```
+
+```py
+ Arguments:
+            args : Command line arguments to indicate choice
+                of batch size, number of heads, folder to save
+                weights file, weights file name, etc
+            backbone (Model): IIC Encoder backbone (eg VGG)
+        """
+        self.args = args
+        self.backbone = backbone
+        self._model = None
+        self.train_gen = DataGenerator(args, siamese=True)
+        self.n_labels = self.train_gen.n_labels
+        self.build_model()
+        self.load_eval_dataset()
+        self.accuracy = 0 
+```
+
+```py
+ def build_model(self):
+        """Build the n_heads of the IIC model
+        """
+        inputs = Input(shape=self.train_gen.input_shape, name='x')
+        x = self.backbone(inputs)
+        x = Flatten()(x)
+        # number of output heads
+        outputs = []
+        for i in range(self.args.heads):
+            name = "z_head%d" % i
+            outputs.append(Dense(self.n_labels,
+                                 activation='softmax',
+                                 name=name)(x))
+        self._model = Model(inputs, outputs, name='encoder')
+        optimizer = Adam(lr=1e-3)
+        self._model.compile(optimizer=optimizer, loss=self.mi_loss) 
+```
+
+“列表 13.5.2”：`data_generator.py`。 用于生成成对的输入数据以训练 IIC 编码器的`DataGenerator`类方法：
+
+```py
+ def __data_generation(self, start_index, end_index):
+        """Data generation algorithm. The method generates
+            a batch of pair of images (original image X and
+            transformed imaged Xbar). The batch of Siamese
+            images is used to trained MI-based algorithms:
+            1) IIC and 2) MINE (Section 7) 
+```
+
+```py
+ Arguments:
+            start_index (int): Given an array of images,
+                this is the start index to retrieve a batch
+            end_index (int): Given an array of images,
+                this is the end index to retrieve a batch
+        """ 
+```
+
+```py
+ d = self.crop_size // 2
+        crop_sizes = [self.crop_size*2 + i for i in range(0,5,2)]
+        image_size = self.data.shape[1] - self.crop_size
+        x = self.data[self.indexes[start_index : end_index]]
+        y1 = self.label[self.indexes[start_index : end_index]] 
+```
+
+```py
+ target_shape = (x.shape[0], *self.input_shape)
+        x1 = np.zeros(target_shape)
+        if self.siamese:
+            y2 = y1
+            x2 = np.zeros(target_shape) 
+```
+
+```py
+ for i in range(x1.shape[0]):
+            image = x[i]
+            x1[i] = image[d: image_size + d, d: image_size + d]
+            if self.siamese:
+                rotate = np.random.randint(0, 2)
+                # 50-50% chance of crop or rotate
+                if rotate == 1:
+                    shape = target_shape[1:]
+                    x2[i] = self.random_rotate(image,
+                                               target_shape=shape)
+                else:
+                    x2[i] = self.random_crop(image,
+                                             target_shape[1:],
+                                             crop_sizes) 
+```
+
+```py
+ # for IIC, we are mostly interested in paired images
+        # X and Xbar = G(X)
+        if self.siamese:
+            # If MINE Algorithm is chosen, use this to generate
+            # the training data (see Section 9)
+            if self.mine:
+                y = np.concatenate([y1, y2], axis=0)
+                m1 = np.copy(x1)
+                m2 = np.copy(x2)
+                np.random.shuffle(m2)
+                x1 =  np.concatenate((x1, m1), axis=0)
+                x2 =  np.concatenate((x2, m2), axis=0)
+                x = (x1, x2)
+                return x, y 
+```
+
+```py
+ x_train = np.concatenate([x1, x2], axis=0)
+            y_train = np.concatenate([y1, y2], axis=0)
+            y = []
+            for i in range(self.args.heads):
+                y.append(y_train)
+            return x_train, y 
+```
+
+```py
+ return x1, y1 
+```
+
+为了实现 VGG 骨干，在 Keras 中实现了`VGG`类，如“列表 13.5.3”所示。 `VGG`类的灵活性在于可以用不同的方式（或 VGG 的不同样式）进行配置。 显示了用于 IIC VGG 主干配置`cfg`的选项'F'。 我们使用一个辅助函数来生成`Conv2D-BN-ReLU-MaxPooling2D`层。
+
+“列表 13.5.3”：`vgg.py`。
+
+Keras 中的`VGG backbone`类方法：
+
+```py
+cfg = {
+    'F': [64, 'M', 128, 'M', 256, 'M', 512],
+} 
+```
+
+```py
+class VGG:
+    def __init__(self, cfg, input_shape=(24, 24, 1)):
+        """VGG network model creator to be used as backbone
+            feature extractor 
+```
+
+```py
+ Arguments:
+            cfg (dict): Summarizes the network configuration
+            input_shape (list): Input image dims
+        """
+        self.cfg = cfg
+        self.input_shape = input_shape
+        self._model = None
+        self.build_model() 
+```
+
+```py
+ def build_model(self):
+        """Model builder uses a helper function
+            make_layers to read the config dict and
+            create a VGG network model
+        """
+        inputs = Input(shape=self.input_shape, name='x')
+        x = VGG.make_layers(self.cfg, inputs)
+        self._model = Model(inputs, x, name='VGG') 
+```
+
+```py
+ @property
+    def model(self):
+        return self._model 
+```
+
+```py
+ @staticmethod
+    def make_layers(cfg,
+                    inputs,
+                    batch_norm=True,
+                    in_channels=1):
+        """Helper function to ease the creation of VGG
+            network model 
+```
+
+```py
+ Arguments:
+            cfg (dict): Summarizes the network layer 
+                configuration
+            inputs (tensor): Input from previous layer
+            batch_norm (Bool): Whether to use batch norm
+                between Conv2D and ReLU
+            in_channel (int): Number of input channels
+        """
+        x = inputs
+        for layer in cfg:
+            if layer == 'M':
+                x = MaxPooling2D()(x)
+            elif layer == 'A':
+                x = AveragePooling2D(pool_size=3)(x)
+            else:
+                x = Conv2D(layer,
+                           kernel_size=3,
+                           padding='same',
+                           kernel_initializer='he_normal'
+                           )(x)
+                if batch_norm:
+                    x = BatchNormalization()(x)
+                x = Activation('relu')(x) 
+```
+
+```py
+ return x 
+```
+
+回到`IIC`类，`IIC`的关键算法是使负 MI 最小的损失函数。 此方法显示在“列表 13.5.4”中。 为了评估单个批量中的损失，我们研究了`y_pred`，并将其分为上下两半，分别对应于输入图像`X`及其变换后的图像`X_bar`的编码器输出的。 回想一下，配对数据是通过将一批图像`X`和一批其变换后的图像`X_bar`连接在一起而制成的。
+
+`y_pred`的下半部分为`Z`，而上半部分为`Z_bar`遵循“公式 10.3.2”至“公式 10.3.7”，联合分布`P(Z, Z_bar)`和边际分布被计算。 最后，返回负数 MI。 注意，每个头对总损失函数的贡献均等。 因此，损失是根据头部的数量来缩放的。
+
+“列表 13.5.4”：`iic-13.5.1.py`。
+
+Keras 中的`IIC`类损失函数。 损失函数使负 MI 最小化（即，使 MI 最大化）：
+
+```py
+ def mi_loss(self, y_true, y_pred):
+        """Mutual information loss computed from the joint
+           distribution matrix and the marginals 
+```
+
+```py
+ Arguments:
+            y_true (tensor): Not used since this is
+                unsupervised learning
+            y_pred (tensor): stack of softmax predictions for
+                the Siamese latent vectors (Z and Zbar)
+        """
+        size = self.args.batch_size
+        n_labels = y_pred.shape[-1]
+        # lower half is Z
+        Z = y_pred[0: size, :]
+        Z = K.expand_dims(Z, axis=2)
+        # upper half is Zbar
+        Zbar = y_pred[size: y_pred.shape[0], :]
+        Zbar = K.expand_dims(Zbar, axis=1)
+        # compute joint distribution (Eq 10.3.2 & .3)
+        P = K.batch_dot(Z, Zbar)
+        P = K.sum(P, axis=0)
+        # enforce symmetric joint distribution (Eq 10.3.4)
+        P = (P + K.transpose(P)) / 2.0
+        # normalization of total probability to 1.0
+        P = P / K.sum(P)
+        # marginal distributions (Eq 10.3.5 & .6)
+        Pi = K.expand_dims(K.sum(P, axis=1), axis=1)
+        Pj = K.expand_dims(K.sum(P, axis=0), axis=0)
+        Pi = K.repeat_elements(Pi, rep=n_labels, axis=1)
+        Pj = K.repeat_elements(Pj, rep=n_labels, axis=0)
+        P = K.clip(P, K.epsilon(), np.finfo(float).max)
+        Pi = K.clip(Pi, K.epsilon(), np.finfo(float).max)
+        Pj = K.clip(Pj, K.epsilon(), np.finfo(float).max)
+        # negative MI loss (Eq 10.3.7)
+        neg_mi = K.sum((P * (K.log(Pi) + K.log(Pj) - K.log(P))))
+        # each head contribute 1/n_heads to the total loss
+        return neg_mi/self.args.heads 
+```
+
+IIC 网络训练方法显示在“列表 13.5.5”中。 由于我们使用的是从`Sequence`类派生的`DataGenerator`对象，因此可以使用 Keras `fit_generator()`方法来训练模型。
+
+我们使用学习率调度器，每 400 个周期将学习率降低 80%。 `AccuracyCallback`调用`eval()`方法，因此我们可以在每个周期之后记录网络的表现。
+
+可以选择保存表现最佳的模型的权重。 在`eval()`方法中，我们使用线性分类器为每个聚类分配标签。 线性分类器`unsupervised_labels()`是一种匈牙利算法，它以最小的成本将标签分配给群集。
+
+最后一步将无监督的聚类转换为无监督的分类。 `unsupervised_labels()`函数在“列表 13.5.6”中显示。
+
+“列表 13.5.5”：`iic-13.5.1.py`。
+
+IIC 网络训练和评估：
+
+```py
+ def train(self):
+        """Train function uses the data generator,
+            accuracy computation, and learning rate
+            scheduler callbacks
+        """
+        accuracy = AccuracyCallback(self)
+        lr_scheduler = LearningRateScheduler(lr_schedule,
+                                             verbose=1)
+        callbacks = [accuracy, lr_scheduler]
+        self._model.fit_generator(generator=self.train_gen,
+                                  use_multiprocessing=True,
+                                  epochs=self.args.epochs,
+                                  callbacks=callbacks,
+                                  workers=4,
+                                  shuffle=True) 
+```
+
+```py
+ def eval(self):
+        """Evaluate the accuracy of the current model weights
+        """
+        y_pred = self._model.predict(self.x_test)
+        print("")
+        # accuracy per head
+        for head in range(self.args.heads):
+            if self.args.heads == 1:
+                y_head = y_pred
+            else:
+                y_head = y_pred[head]
+            y_head = np.argmax(y_head, axis=1)
+            accuracy = unsupervised_labels(list(self.y_test),
+                                           list(y_head),
+                                           self.n_labels,
+                                           self.n_labels)
+            info = "Head %d accuracy: %0.2f%%"
+            if self.accuracy > 0:
+                info += ", Old best accuracy: %0.2f%%"
+                data = (head, accuracy, self.accuracy)
+            else:
+                data = (head, accuracy)
+            print(info % data)
+            # if accuracy improves during training, 
+            # save the model weights on a file
+            if accuracy > self.accuracy \
+                    and self.args.save_weights is not None:
+                self.accuracy = accuracy
+                folder = self.args.save_dir
+                os.makedirs(folder, exist_ok=True)
+                path = os.path.join(folder, self.args.save_weights)
+                print("Saving weights... ", path)
+                self._model.save_weights(path) 
+```
+
+“列表 13.5.6”：`utils.py`。
+
+匈牙利语算法将标签分配给具有最低成本的集群：
+
+```py
+from scipy.optimize import linear_sum_assignment
+def unsupervised_labels(y, yp, n_classes, n_clusters):
+    """Linear assignment algorithm
+
+    Arguments:
+        y (tensor): Ground truth labels
+        yp (tensor): Predicted clusters
+        n_classes (int): Number of classes
+        n_clusters (int): Number of clusters
+    """
+    assert n_classes == n_clusters
+
+    # initialize count matrix
+    C = np.zeros([n_clusters, n_classes])
+
+    # populate count matrix
+    for i in range(len(y)):
+        C[int(yp[i]), int(y[i])] += 1
+
+    # optimal permutation using Hungarian Algo
+    # the higher the count, the lower the cost
+    # so we use -C for linear assignment
+    row, col = linear_sum_assignment(-C)
+
+    # compute accuracy
+    accuracy = C[row, col].sum() / C.sum()
+
+    return accuracy * 100 
+```
+
+![A close up of a logo  Description automatically generated](img/B14853_13_08.png)
+
+图 13.5.1 在三个群集的简单场景中说明的线性分配算法，可以将其最佳地分配给三个类别
+
+如图“图 13.5.1”所示，线性分配问题最好使用将三个群集分配给三个类别的简化方案来解释。 线性分配问题找到了类对类的一对一分配，从而使总成本最小。 在“图 13.5.1*”的左侧，显示了聚类结果和真实情况标签。
+
+线性分配问题可以找到每个群集的类或类别，或者如何为每个群集分配标签。 还显示了成本矩阵`C`。 对于每个聚类-真实情况对，成本矩阵像元递减 1。该像元的行-列索引是聚类编号-真实情况标签索引。 使用成本矩阵，线性分配问题的工作是找到导致总成本最小的最优矩阵`X`：
+
+![](img/B14853_13_080.png) (Equation 13.5.1)
+
+其中`c[ij]`和`x[ij]`分别是矩阵`C`和`X`的元素 。`i`和`j`是索引。`X`的元素受的以下约束：
+
+`x[ij] ∈ {0, 1}`
+
+`Σ[j] x[ij] = 1`对于`i = 1, 2, ..., N`
+
+`Σ[i] x[ij] = 1`对于`j = 1, 2, ..., N`
+
+`X`是一个二进制矩阵。 每行仅分配给一列。 因此，线性分配问题是组合问题。 最佳解决方案的详细信息超出了本书的范围，此处不再讨论。
+
+最佳权重矩阵`X`显示在“图 13.5.1”中。 群集 0 被分配了标签 1。群集 1 被分配了标签 2。群集 2 被分配了标签 0。这可以从成本矩阵中直观地进行验证，因为这导致最低成本为 -4，同时确保每行仅分配给一列。
+
+使用此矩阵，群集类的分配显示在最右边的表中。 使用群集类分配时，第四行上只有一个错误。 结果精度为五分之四，即 80%。
+
+我们可以将的线性分配问题扩展到为 10 个 MNIST 集群分配标签的问题。 我们在`scipy`包中使用`linear_sum_assignment()`函数。 该函数基于匈牙利算法。“列表 13.5.6”显示了群集标记过程的实现。 有关`linear_sum_assignment()`函数的更多详细信息，请参见[这里](https://docs.scipy.org/doc/scipy-0.18.1/reference/generated/scipy.optimize.linear_sum_assignment.html)。
+
+要训​​练 1 头情况下的 IIC 模型，请执行：
+
+```py
+python3 iic-13.5.1.py  --heads=1 --train --save-weights=head1.h5 
+```
+
+对于其他数量的打印头，应相应地修改选项`--heads`和`--save-weights`。 在下一部分中，我们将检查 IIC 作为 MNIST 分类器的表现。
+
+# 6\. 将 MNIST 用于验证
+
+在本节中，我们将研究使用 MNIST 测试数据集对 IIC 进行验证之后的结果。 在测试数据集上运行聚类预测后，线性分配问题为每个聚类分配标签，从本质上将聚类转换为分类。 我们计算了分类精度，如“表 13.6.1”所示。 IIC 的准确率高于论文中报告的 99.3%。 但是，应该注意的是，并非每次训练都会导致高精度分类。
+
+有时，由于优化似乎停留在局部最小值中，我们不得不多次运行训练。 此外，在多头 IIC 模型中，对于所有头部，我们都无法获得相同水平的表现。“表 13.6.1”报告了最佳表现的头部。
+
+| **头部数** |`1`|`2`|`3`|`4`|`5`|
+| --- | --- | --- | --- | --- | --- |
+| **精度，%** | 99.49 | 99.47 | 99.54 | 99.52 | 99.53 |
+
+表 13.6.1 不同头数的 IIC 精度
+
+权重在 GitHub 上可用。 例如，要在单头 IIC 上运行验证：
+
+```py
+python3 iic-13.5.1.py --heads=1 --eval --restore-weights=head1-best.h5 
+```
+
+总之，我们可以看到可以执行无监督分类。 结果实际上比我们在“第 2 章”，“深度神经网络”中检查的监督分类更好。 在以下各节中，我们将把注意力转向对连续随机变量的无监督学习。
+
+# 7\. 通过最大化连续随机变量的互信息进行无监督学习
+
+在前面的章节中，我们了解到可以很好地估计离散随机变量的 MI。 我们还证明了借助线性分配算法，通过最大化 MI 来执行聚类的网络可以得出准确的分类器。
+
+如果 IIC 是离散随机变量 MI 的良好估计者，那么连续随机变量又如何呢？ 在本节的中，我们讨论 Belghazi 等人的**互信息网络估计器**（**MINE**）。 [3]作为连续随机变量 MI 的估计量。
+
+MINE 在“公式 13.1.1”中提出了 KL 散度的另一种表示形式，以使用神经网络实现 MI 估计器。 在 MINE 中，使用 KL 散度的 **Donsker-Varadhan**（**DV**）表示：
+
+![](img/B14853_13_085.png) (Equation 13.7.1)
+
+在函数`T`的整个空间中占据最高位的位置。`T`是从输入空间（例如图像）映射到实数的任意函数。 回想一下，最高被粗略地解释为最大值。 对于`T`，我们可以从`θ ∈ Θ`参数化的函数`T[θ] = X x Y -> R`系列中进行选择。 因此，我们可以用估计 KL 散度的深度神经网络表示`T[θ]`，因此代表`T`。
+
+给定作为 MI 的精确（但难处理）表示`I(X; Y)`及其参数化的估计值`I[θ](X; Y)`作为易于处理的下限，我们可以安全地说：
+
+![](img/B14853_13_091.png) (Equation 13.7.2)
+
+其中参数化的 MI 估计为：
+
+![](img/B14853_13_092.png) (Equation 13.7.3)
+
+`I[θ](X; Y)`也称为神经信息测度。 在第一个期望中，样本`(x, y) ~ P(X, Y)`从联合分布`P`（`X`，`Y`）中获取。 在第二个期望中，样本`x ~ P(X), y ~ P(Y)`来自边际分布`P(X)`和`P(Y)`。
+
+“算法 13.7.1”：`MINE`。
+
+初始化所有网络参数`θ`。
+
+`θ`尚未收敛时，请执行：
+
+1.  从联合分布`{(x^(1), y^(1)), (x^(2), y^(2)), ..., (x^(b), y^(b))} ~ P(X, Y)`中抽取一个小批量的`b`
+2.  从边际分布`{x^(1), x^(2), ..., x^(b)} ~ P(X)`和`{y^(1), y^(2), ..., y^(b)} ~ P(Y)`中抽取一个小批量的`b`。
+3.  评估下界：
+
+    ![](img/B14853_13_101.png)
+4.  评估偏差校正后的梯度：
+
+    ![](img/B14853_13_103.png)
+
+1.  更新网络参数：
+
+    ![](img/B14853_13_102.png)
+    
+    其中`ε`是学习率。
+
+“算法 13.7.1”总结了 MINE 算法。 来自边际分布的样本是来自联合分布的样本，另一个变量已删除。 例如，样本`x`只是简单的样本`(x, y)`，变量`y`被丢弃。 在降为变量`y`的值之后，将`x`的样本进行混洗。 对`y`执行相同的采样方法。 为了清楚起见，我们使用符号`x_bar`和`y_bar`从边际分布中识别样本。
+
+在下一部分中，在双变量高斯分布的情况下，我们将使用 MINE 算法估计 MI。 我们将展示使用解析方法估计的 MI 和使用 MINE 估计 MI 的方法。
+
+# 8\. 估计二元高斯的互信息
+
+在本节中，我们将验证 MINE 的二元高斯分布。“图 13.8.1”显示具有均值和协方差的双变量高斯分布：
+
+![](img/B14853_13_107.png) (Equation 13.8.1)
+
+![](img/B14853_13_108.png) (Equation 13.8.2)
+
+![A picture containing text  Description automatically generated](img/B14853_13_09.png)
+
+图 13.8.1 具有均值和协方差的二维高斯分布，如公式 13.8.1 和公式 13.8.2 所示
+
+我们的目标是通过近似“公式 13.1.3”来估计 MI。 可以通过获得大量样本（例如 1 百万个）并创建具有大量箱子（例如 100 个箱子）的直方图来进行近似。“列表 13.8.1”显示了使用装仓对二元高斯分布的 MI 进行的手动计算。
+
+“列表 13.8.1”：`mine-13.8.1.py`：
+
+```py
+def sample(joint=True,
+           mean=[0, 0],
+           cov=[[1, 0.5], [0.5, 1]],
+           n_data=1000000):
+    """Helper function to obtain samples 
+        fr a bivariate Gaussian distribution 
+```
+
+```py
+ Arguments:
+        joint (Bool): If joint distribution is desired
+        mean (list): The mean values of the 2D Gaussian
+        cov (list): The covariance matrix of the 2D Gaussian
+        n_data (int): Number of samples fr 2D Gaussian
+    """
+    xy = np.random.multivariate_normal(mean=mean,
+                                       cov=cov,
+                                       size=n_data) 
+```
+
+```py
+ # samples fr joint distribution
+    if joint:
+        return xy
+    y = np.random.multivariate_normal(mean=mean,
+                                      cov=cov,
+                                      size=n_data) 
+```
+
+```py
+ # samples fr marginal distribution
+    x = xy[:,0].reshape(-1,1)
+    y = y[:,1].reshape(-1,1)
+    xy = np.concatenate([x, y], axis=1)
+    return xy 
+```
+
+```py
+def compute_mi(cov_xy=0.5, n_bins=100):
+    """Analytic computation of MI using binned 
+        2D Gaussian 
+```
+
+```py
+ Arguments:
+        cov_xy (list): Off-diagonal elements of covariance
+            matrix
+        n_bins (int): Number of bins to "quantize" the
+            continuous 2D Gaussian
+    """
+    cov=[[1, cov_xy], [cov_xy, 1]]
+    data = sample(cov=cov)
+    # get joint distribution samples
+    # perform histogram binning
+    joint, edge = np.histogramdd(data, bins=n_bins)
+    joint /= joint.sum()
+    eps = np.finfo(float).eps
+    joint[joint<eps] = eps
+    # compute marginal distributions
+    x, y = margins(joint) 
+```
+
+```py
+ xy = x*y
+    xy[xy<eps] = eps
+    # MI is P(X,Y)*log(P(X,Y)/P(X)*P(Y))
+    mi = joint*np.log(joint/xy)
+    mi = mi.sum()
+    return mi 
+```
+
+运行的结果：
+
+```py
+python3 mine-13.8.1.py --gaussian 
+```
+
+表示手动计算的 MI：
+
+```py
+Computed MI: 0.145158 
+```
+
+可以使用`--cov_xy`选项更改协方差。 例如：
+
+```py
+python3 mine-13.8.1.py  --gaussian --cov_xy=0.8 
+```
+
+表示手动计算的 MI：
+
+```py
+Computed MI: 0.510342 
+```
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_10.png)
+
+图 13.8.2 一个简单的 MINE 模型，用于估计双变量高斯分布的随机变量`X`和`Y`的 MI
+
+“列表 13.8.2”：`mine-13.8.1.py`。
+
+一个简单的 MINE 模型，用于估计双变量高斯分布的随机变量的 MI：
+
+```py
+class SimpleMINE:
+    def __init__(self,
+                 args,
+                 input_dim=1,
+                 hidden_units=16,
+                 output_dim=1):
+        """Learn to compute MI using MINE (Algorithm 13.7.1) 
+```
+
+```py
+ Arguments:
+            args : User-defined arguments such as off-diagonal
+                elements of covariance matrix, batch size, 
+                epochs, etc
+            input_dim (int): Input size dimension
+            hidden_units (int): Number of hidden units of the 
+                MINE MLP network
+            output_dim (int): Output size dimension
+        """
+        self.args = args
+        self._model = None
+        self.build_model(input_dim,
+                         hidden_units,
+                         output_dim) 
+```
+
+```py
+ def build_model(self,
+                    input_dim,
+                    hidden_units,
+                    output_dim):
+        """Build a simple MINE model 
+```
+
+```py
+ Arguments:
+            See class arguments.
+        """
+        inputs1 = Input(shape=(input_dim), name="x")
+        inputs2 = Input(shape=(input_dim), name="y")
+        x1 = Dense(hidden_units)(inputs1)
+        x2 = Dense(hidden_units)(inputs2)
+        x = Add()([x1, x2])
+        x = Activation('relu', name="ReLU")(x)
+        outputs = Dense(output_dim, name="MI")(x)
+        inputs = [inputs1, inputs2]
+        self._model = Model(inputs,
+                            outputs,
+                            name='MINE')
+        self._model.summary() 
+```
+
+```py
+ def mi_loss(self, y_true, y_pred):
+        """ MINE loss function 
+```
+
+```py
+ Arguments:
+            y_true (tensor): Not used since this is
+                unsupervised learning
+            y_pred (tensor): stack of predictions for
+                joint T(x,y) and marginal T(x,y)
+        """
+        size = self.args.batch_size
+        # lower half is pred for joint dist
+        pred_xy = y_pred[0: size, :] 
+```
+
+```py
+ # upper half is pred for marginal dist
+        pred_x_y = y_pred[size : y_pred.shape[0], :]
+        # implentation of MINE loss (Eq 13.7.3)
+        loss = K.mean(pred_xy) \
+               - K.log(K.mean(K.exp(pred_x_y)))
+        return -loss 
+```
+
+```py
+ def train(self):
+        """Train MINE to estimate MI between 
+            X and Y of a 2D Gaussian
+        """
+        optimizer = Adam(lr=0.01)
+        self._model.compile(optimizer=optimizer,
+                            loss=self.mi_loss)
+        plot_loss = []
+        cov=[[1, self.args.cov_xy], [self.args.cov_xy, 1]]
+        loss = 0.
+        for epoch in range(self.args.epochs):
+            # joint dist samples
+            xy = sample(n_data=self.args.batch_size,
+                        cov=cov)
+            x1 = xy[:,0].reshape(-1,1)
+            y1 = xy[:,1].reshape(-1,1)
+            # marginal dist samples
+            xy = sample(joint=False,
+                        n_data=self.args.batch_size,
+                        cov=cov)
+            x2 = xy[:,0].reshape(-1,1)
+            y2 = xy[:,1].reshape(-1,1) 
+```
+
+```py
+ # train on batch of joint & marginal samples
+            x =  np.concatenate((x1, x2))
+            y =  np.concatenate((y1, y2))
+            loss_item = self._model.train_on_batch([x, y],
+                                                   np.zeros(x.shape))
+            loss += loss_item
+            plot_loss.append(-loss_item)
+            if (epoch + 1) % 100 == 0:
+                fmt = "Epoch %d MINE MI: %0.6f"
+                print(fmt % ((epoch+1), -loss/100))
+                loss = 0. 
+```
+
+现在，让我们使用 MINE 估计此双变量高斯分布的 MI。“图 13.8.2”显示了一个简单的 2 层 MLP 作为`T[θ]`的模型。 输入层从联合分布中接收一批（`x`，`y`），从边缘分布中接收一批`(x_bar, y_bar)`。 该网络在`build_model()`中的“列表 13.8.2”中实现。 在同一清单中还显示了此简单 MINE 模型的训练例程。
+
+实现“公式 13.7.3”的损失函数也在“列表 13.8.2”中显示。 请注意，损失函数不使用基本真值。 它只是最小化了 MI 的负估计（从而使 MI 最大化）。 对于此简单的 MINE 模型，未实现移动平均损失。 我们使用“列表 13.8.1”中的相同函数`sample()`来获得联合和边际样本。
+
+现在，我们可以使用同一命令来估计双变量高斯分布的 MI：
+
+```py
+python3 mine-13.8.1.py --gaussian 
+```
+
+“图 13.8.3”显示了 MI 估计（负损失）与历时数的关系。 以下是每隔 100 个特定周期的定量结果。手动和 MINE 计算的结果接近。 这证明了 MINE 是连续随机变量 MI 的良好估计。
+
+```py
+Epoch 100 MINE MI: 0.112297
+Epoch 200 MINE MI: 0.141723
+Epoch 300 MINE MI: 0.142567
+Epoch 400 MINE MI: 0.142087
+Epoch 500 MINE MI: 0.142083
+Epoch 600 MINE MI: 0.144755
+Epoch 700 MINE MI: 0.141434
+Epoch 800 MINE MI: 0.142480
+Epoch 900 MINE MI: 0.143059
+Epoch 1000 MINE MI: 0.142186
+Computed MI: 0.147247 
+```
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_11.png)
+
+图 13.8.3 MI 估计作为简单 MINE 模型的函数周期。
+
+到目前为止，我们已经针对二元高斯分布情况证明了 MINE。 在下一节中，我们将使用 MINE 来处理与 IIC 相同的 MNIST 无监督聚类问题。
+
+# 9\. Keras 中的使用连续随机变量的无监督聚类
+
+在 MNIST 数字的无监督分类中，我们使用 IIC，因为可以使用离散的联合和边际分布来计算 MI 。 我们使用线性分配算法获得了良好的准确率。
+
+在此部分中，我们将尝试使用 MINE 进行聚类。 我们将使用来自 IIC 的相同关键思想：从一对图像及其转换后的版本`(X, X_bar)`中，最大化对应的编码潜向量`(Z, Z_bar)`的 MI。 通过最大化 MI，我们对编码的潜在向量进行聚类。 与 MINE 的不同之处在于，编码后的潜在向量是连续的，而不是 IIC 中使用的单热向量格式。 由于聚类的输出不是单热向量格式，因此我们将使用线性分类器。 线性分类器是没有诸如`ReLU`之类的非线性激活层的 MLP。 如果输出不是单热点向量格式，则使用线性分类器替代线性分配算法。
+
+“图 13.9.1”显示了 MINE 的网络模型。 对于 MNIST，从 MNIST 训练数据集中采样了`x`。 与 IIC 相似，称为变量`y`的其他输入只是图像`x`的变换后的版本。 在测试过程中，输入图像`x`来自 MNIST 测试数据集。 从本质上讲，数据生成与 IIC 中的相同，如“列表 13.5.2”中所示。
+
+![A close up of a logo  Description automatically generated](img/B14853_13_12.png)
+
+图 13.9.1 使用编码器网络`E`的 MINE 的网络实现。 输入的 MNIST 图像被中心裁剪为`24 x 24`像素。 在此示例中，`X_bar = Y = G(X)`是随机的`24 x 24`像素裁剪操作。
+
+当在 Keras 中实现时，“图 13.9.1”的编码器网络显示在“图 13.9.2”中。 我们在 Dense 输出中省略了维数，以便我们可以尝试不同的维数（例如 10、16 和 32）。
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_13.png)
+
+图 13.9.2 编码器网络`E`是 VGG 网络，类似于 IIC 中使用的网络
+
+MINE 网络模型显示在“图 13.9.3”中，代码显示在“列表 13.9.1”中。 它在架构中与上一节中实现的简单 MINE 类似，不同之处在于，我们在 MLP 中使用了 1,024 个隐藏单元，而不是 16 个。
+
+“列表 13.9.1”：`mine-13.8.1.py`。
+
+MINE 网络模型用于无监督群集：
+
+```py
+class MINE:
+    def __init__(self,
+                 args,
+                 backbone):
+        """Contains the encoder, SimpleMINE, and linear 
+            classifier models, the loss function,
+            loading of datasets, train and evaluation routines
+            to implement MINE unsupervised clustering via mutual
+            information maximization 
+```
+
+```py
+ Arguments:
+            args : Command line arguments to indicate choice
+                of batch size, folder to save
+                weights file, weights file name, etc
+            backbone (Model): MINE Encoder backbone (eg VGG)
+        """
+        self.args = args
+        self.latent_dim = args.latent_dim
+        self.backbone = backbone
+        self._model = None
+        self._encoder = None
+        self.train_gen = DataGenerator(args,
+                                       siamese=True,
+                                       mine=True)
+        self.n_labels = self.train_gen.n_labels
+        self.build_model()
+        self.accuracy = 0 
+```
+
+```py
+ def build_model(self):
+        """Build the MINE model unsupervised classifier
+        """
+        inputs = Input(shape=self.train_gen.input_shape,
+                       name="x")
+        x = self.backbone(inputs)
+        x = Flatten()(x)
+        y = Dense(self.latent_dim,
+                  activation='linear',
+                  name="encoded_x")(x)
+        # encoder is based on backbone (eg VGG)
+        # feature extractor
+        self._encoder = Model(inputs, y, name="encoder")
+        # the SimpleMINE in bivariate Gaussian is used 
+        # as T(x,y) function in MINE (Algorithm 13.7.1)
+        self._mine = SimpleMINE(self.args,
+                                input_dim=self.latent_dim,
+                                hidden_units=1024,
+                                output_dim=1)
+        inputs1 = Input(shape=self.train_gen.input_shape,
+                        name="x")
+        inputs2 = Input(shape=self.train_gen.input_shape,
+                        name="y")
+        x1 = self._encoder(inputs1)
+        x2 = self._encoder(inputs2)
+        outputs = self._mine.model([x1, x2])
+        # the model computes the MI between 
+        # inputs1 and 2 (x and y)
+        self._model = Model([inputs1, inputs2],
+                            outputs,
+                            name='encoder')
+        optimizer = Adam(lr=1e-3)
+        self._model.compile(optimizer=optimizer,
+                            loss=self.mi_loss)
+        self._model.summary()
+        self.load_eval_dataset()
+        self._classifier = LinearClassifier(\
+                            latent_dim=self.latent_dim) 
+```
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_14.png)
+
+图 13.9.3 MINE 网络模型
+
+如“列表 13.9.2”中所示，训练例程类似于 IIC 中的训练例程。 区别在于在每个周期之后执行的评估。 在这种情况下，我们针对个周期训练线性分类器，并将其用于评估聚类的潜在代码向量。 当精度提高时，可以选择保存模型权重。 损失函数和优化器与`SimpleMINE`中的类似，如“列表 13.8.2”中所示，此处不再赘述。
+
+“列表 13.9.2”：`mine-13.8.1.py`。
+
+矿山训练和评估职能：
+
+```py
+ def train(self):
+        """Train MINE to estimate MI between 
+            X and Y (eg MNIST image and its transformed
+            version)
+        """
+        accuracy = AccuracyCallback(self)
+        lr_scheduler = LearningRateScheduler(lr_schedule,
+                                             verbose=1)
+        callbacks = [accuracy, lr_scheduler]
+        self._model.fit_generator(generator=self.train_gen,
+                                  use_multiprocessing=True,
+                                  epochs=self.args.epochs,
+                                  callbacks=callbacks,
+                                  workers=4,
+                                  shuffle=True) 
+```
+
+```py
+ def eval(self):
+        """Evaluate the accuracy of the current model weights
+        """
+        # generate clustering predictions fr test data
+        y_pred = self._encoder.predict(self.x_test)
+        # train a linear classifier
+        # input: clustered data
+        # output: ground truth labels
+        self._classifier.train(y_pred, self.y_test)
+        accuracy = self._classifier.eval(y_pred, self.y_test) 
+```
+
+```py
+ info = "Accuracy: %0.2f%%"
+        if self.accuracy > 0:
+            info += ", Old best accuracy: %0.2f%%"
+            data = (accuracy, self.accuracy)
+        else:
+            data = (accuracy)
+        print(info % data)
+        # if accuracy improves during training, 
+        # save the model weights on a file
+        if accuracy > self.accuracy \
+            and self.args.save_weights is not None:
+            folder = self.args.save_dir
+            os.makedirs(folder, exist_ok=True)
+            args = (self.latent_dim, self.args.save_weights)
+            filename = "%d-dim-%s" % args
+            path = os.path.join(folder, filename)
+            print("Saving weights... ", path)
+            self._model.save_weights(path) 
+```
+
+```py
+ if accuracy > self.accuracy:
+            self.accuracy = accuracy 
+```
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_15.png)
+
+图 13.9.4 线性分类器模型
+
+线性分类器模型显示在“图 19.3.4”中。 它是一个具有 256 个单元的隐藏层的 MLP。 由于此模型不使用诸如`ReLU`之类的非线性激活，因此可以将其用作线性分配算法的近似值，以对 VGG-Dense 编码器`E`的输出进行分类。“列表 13.9.3”显示了在 Keras 中实现的线性分类器网络模型构建器。
+
+“列表 13.9.3”：`mine-13.8.1.py`。
+
+线性分类器网络：
+
+```py
+class LinearClassifier:
+    def __init__(self,
+                 latent_dim=10,
+                 n_classes=10):
+        """A simple MLP-based linear classifier. 
+            A linear classifier is an MLP network
+            without non-linear activations like ReLU.
+            This can be used as a substitute to linear
+            assignment algorithm. 
+```
+
+```py
+ Arguments:
+            latent_dim (int): Latent vector dimensionality
+            n_classes (int): Number of classes the latent
+                dim will be converted to.
+        """
+        self.build_model(latent_dim, n_classes) 
+```
+
+```py
+ def build_model(self, latent_dim, n_classes):
+        """Linear classifier model builder. 
+```
+
+```py
+ Arguments: (see class arguments)
+        """
+        inputs = Input(shape=(latent_dim,), name="cluster")
+        x = Dense(256)(inputs)
+        outputs = Dense(n_classes,
+                        activation='softmax',
+                        name="class")(x)
+        name = "classifier"
+        self._model = Model(inputs, outputs, name=name)
+        self._model.compile(loss='categorical_crossentropy',
+                            optimizer='adam',
+                            metrics=['accuracy'])
+        self._model.summary() 
+```
+
+可以通过执行以下命令来训练 MINE 非监督分类器：
+
+```py
+python3 mine-13.8.1.py  --train --batch-size=1024 --epochs=200 
+```
+
+可以根据可用的 GPU 内存来调整批量的大小。 要使用其他潜在尺寸大小（例如 64），请使用`--latent-dim`选项：
+
+```py
+python3 mine-13.8.1.py  --train --batch-size=1024 --latent-dim=64 --epochs=200 
+```
+
+在 200 个周期内，MINE 网络具有“图 13.9.5”中所示的精度：
+
+![A screenshot of a cell phone  Description automatically generated](img/B14853_13_16.png)
+
+图 13.9.5 MNIST 分类中的 MINE 准确率
+
+如图“图 13.9.5”所示，在默认潜伏昏暗 10 时，类似于 IIC，使用线性分类器的 MINE 可以达到 93.86% 的精度。 精度随潜在尺寸的值而增加。 由于 MINE 是真实 MI 的近似值，因此预计其精度会低于 IIC。
+
+到此结束本章和书。 无监督学习的领域是新生的。 鉴于人工智能发展的当前障碍之一是人工标签，这是一个巨大的研究机会，这既昂贵又费时。 我们预计在未来几年中，无监督学习将取得突破。
+
+# 10\. 总结
+
+在本章中，我们讨论了 MI 及其在解决无监督任务中有用的方式。 各种在线资源提供了有关 MI 的其他背景信息[4]。 当用于聚类时，最大化 MI 会强制使用线性分配或线性分类器将潜在代码向量聚类在适合轻松标记的区域中。
+
+我们介绍了 MI 的两种度量：IIC 和 MINE。 我们可以通过对离散随机变量使用 IIC 来近似逼近 MI，从而导致分类器以较高的精度执行。 IIC 适用于离散概率分布。 对于连续随机变量，MINE 使用 KL 散度的 Donsker-Varadhan 形式对估计 MI 的深度神经网络进行建模。 我们证明了 MINE 可以近似逼近双变量高斯分布的 MI。 作为一种无监督的方法，MINE 在对 MNIST 数字进行分类时显示出可接受的表现。
+
+# 11\. 参考
+
+1.  `Ji, Xu, João F. Henriques, and Andrea Vedaldi. Invariant Information Clustering for Unsupervised Image Classification and Segmentation. International Conference on Computer Vision, 2019.`
+1.  `Simonyan, Karen, and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014).`
+1.  `Belghazi, Mohamed Ishmael, et al. Mutual Information Neural Estimation. International Conference on Machine Learning. 2018.`
+1.  `https://en.wikipedia.org/wiki/Mutual_information.`
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/README.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/README.md
new file mode 100644
index 00000000..3b7a7bc4
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/README.md
@@ -0,0 +1,35 @@
+# TensorFlow 2 和 Keras 高级深度学习
+
+> 原文：[Advanced Deep Learning with TensorFlow 2 and Keras](https://b-ok.global/book/5559514/a60246)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/SUMMARY.md
new file mode 100644
index 00000000..e060893d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/SUMMARY.md
@@ -0,0 +1,15 @@
++   [TensorFlow 2 和 Keras 高级深度学习](README.md)
++   [零、前言](00.md)
++   [一、使用 Keras 入门高级深度学习](01.md)
++   [二、深度神经网络](02.md)
++   [三、自编码器](03.md)
++   [四、生成对抗网络（GAN）](04.md)
++   [五、改进的 GAN](05.md)
++   [六、纠缠表示 GAN](06.md)
++   [七、跨域 GAN](07.md)
++   [八、变分自编码器（VAE）](08.md)
++   [九、深度强化学习](09.md)
++   [十、策略梯度方法](10.md)
++   [十一、对象检测](11.md)
++   [十二、语义分割](12.md)
++   [十三、使用互信息的无监督学习](13.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_001.png
new file mode 100644
index 00000000..691a16a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_002.png
new file mode 100644
index 00000000..b461fefb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_003.png
new file mode 100644
index 00000000..a33d9814
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_004.png
new file mode 100644
index 00000000..098d19e7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_005.png
new file mode 100644
index 00000000..34e376a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_006.png
new file mode 100644
index 00000000..955f91bf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_007.png
new file mode 100644
index 00000000..49ac47f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_008.png
new file mode 100644
index 00000000..d5a026e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_009.png
new file mode 100644
index 00000000..a15c0cd0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_010.png
new file mode 100644
index 00000000..cea7e8ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_011.png
new file mode 100644
index 00000000..536aaa80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_012.png
new file mode 100644
index 00000000..8bcaf81c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_013.png
new file mode 100644
index 00000000..d10391a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_014.png
new file mode 100644
index 00000000..2a2da893
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_015.png
new file mode 100644
index 00000000..b0f3e9ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_016.png
new file mode 100644
index 00000000..f4bd312e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_017.png
new file mode 100644
index 00000000..1b849cd7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_018.png
new file mode 100644
index 00000000..9671ec65
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_019.png
new file mode 100644
index 00000000..353538f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_020.png
new file mode 100644
index 00000000..421b9dc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_021.png
new file mode 100644
index 00000000..e29a1cc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_022.png
new file mode 100644
index 00000000..50659211
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_023.png
new file mode 100644
index 00000000..17c73627
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_024.png
new file mode 100644
index 00000000..48ef42bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_026.png
new file mode 100644
index 00000000..a169f5a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_027.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_027.png
new file mode 100644
index 00000000..dd2129b1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_027.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_028.png
new file mode 100644
index 00000000..4bc2b752
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_029.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_029.png
new file mode 100644
index 00000000..3b99ecd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_029.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_030.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_030.png
new file mode 100644
index 00000000..47a9ba46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_030.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_031.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_031.png
new file mode 100644
index 00000000..a58a0c0a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_031.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_032.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_032.png
new file mode 100644
index 00000000..8fbf9ce7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_032.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_033.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_033.png
new file mode 100644
index 00000000..8bb7f49a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_033.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_034.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_034.png
new file mode 100644
index 00000000..52ab3f34
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_035.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_035.png
new file mode 100644
index 00000000..b2463ac3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_035.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_036.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_036.png
new file mode 100644
index 00000000..fa549b16
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_036.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_037.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_037.png
new file mode 100644
index 00000000..c6d8dfb7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_037.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_038.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_038.png
new file mode 100644
index 00000000..f3aaf84a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_038.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_039.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_039.png
new file mode 100644
index 00000000..40fd92da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_039.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_040.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_040.png
new file mode 100644
index 00000000..40be7f19
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_041.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_041.png
new file mode 100644
index 00000000..05d86cb5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_041.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_042.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_042.png
new file mode 100644
index 00000000..f306930a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_043.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_043.png
new file mode 100644
index 00000000..9198b21c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_043.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_044.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_044.png
new file mode 100644
index 00000000..4e8f9487
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_044.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_045.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_045.png
new file mode 100644
index 00000000..6263746a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_045.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_046.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_046.png
new file mode 100644
index 00000000..11275a93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_046.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_047.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_047.png
new file mode 100644
index 00000000..24f866e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_047.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_048.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_048.png
new file mode 100644
index 00000000..3d095b56
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_048.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_049.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_049.png
new file mode 100644
index 00000000..79e3b698
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_049.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_050.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_050.png
new file mode 100644
index 00000000..d6486376
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_050.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_051.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_051.png
new file mode 100644
index 00000000..6ade492f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_051.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_052.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_052.png
new file mode 100644
index 00000000..0bbb2afa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_052.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_053.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_053.png
new file mode 100644
index 00000000..8a6f9856
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_053.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_054.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_054.png
new file mode 100644
index 00000000..7e6b4475
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_054.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_055.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_055.png
new file mode 100644
index 00000000..82dae2cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_055.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_056.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_056.png
new file mode 100644
index 00000000..f992402a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_056.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_057.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_057.png
new file mode 100644
index 00000000..854306cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_057.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_058.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_058.png
new file mode 100644
index 00000000..fb41c5a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_058.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_059.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_059.png
new file mode 100644
index 00000000..16bea93c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_059.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_060.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_060.png
new file mode 100644
index 00000000..e4096b1b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_060.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_061.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_061.png
new file mode 100644
index 00000000..d84ac49c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_061.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_062.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_062.png
new file mode 100644
index 00000000..d0eb33d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_062.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_063.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_063.png
new file mode 100644
index 00000000..0eabf583
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_063.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_064.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_064.png
new file mode 100644
index 00000000..282bdb11
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_064.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_065.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_065.png
new file mode 100644
index 00000000..64733d09
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_065.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_066.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_066.png
new file mode 100644
index 00000000..63ea30e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_066.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_067.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_067.png
new file mode 100644
index 00000000..46c3ed56
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_067.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_068.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_068.png
new file mode 100644
index 00000000..0f8afcb0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_068.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_069.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_069.png
new file mode 100644
index 00000000..f3ac7cd0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_069.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_070.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_070.png
new file mode 100644
index 00000000..3e28011c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_070.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_071.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_071.png
new file mode 100644
index 00000000..8a99fe81
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_071.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_072.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_072.png
new file mode 100644
index 00000000..ffa0038f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_072.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_073.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_073.png
new file mode 100644
index 00000000..3cc9e5cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_073.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_074.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_074.png
new file mode 100644
index 00000000..99dc8b18
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_074.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_075.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_075.png
new file mode 100644
index 00000000..07c1f906
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_075.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_076.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_076.png
new file mode 100644
index 00000000..a58c3c0d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_076.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_077.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_077.png
new file mode 100644
index 00000000..cc130d41
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_077.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_078.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_078.png
new file mode 100644
index 00000000..75dffa86
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_079.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_079.png
new file mode 100644
index 00000000..ecd4049b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_079.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_080.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_080.png
new file mode 100644
index 00000000..c866a3e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_080.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_081.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_081.png
new file mode 100644
index 00000000..bcf00c7d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_081.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_082.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_082.png
new file mode 100644
index 00000000..4042a38b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_082.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_084.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_084.png
new file mode 100644
index 00000000..cc78d9ca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_084.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_085.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_085.png
new file mode 100644
index 00000000..3487154f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_085.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_086.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_086.png
new file mode 100644
index 00000000..15a3ae6a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_086.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_087.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_087.png
new file mode 100644
index 00000000..3d1c942f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_087.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_088.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_088.png
new file mode 100644
index 00000000..ae2619c2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_088.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_090.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_090.png
new file mode 100644
index 00000000..0759d3c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_090.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_091.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_091.png
new file mode 100644
index 00000000..0c102f0b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_091.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_092.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_092.png
new file mode 100644
index 00000000..154e669e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_092.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_094.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_094.png
new file mode 100644
index 00000000..1e611859
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_094.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_095.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_095.png
new file mode 100644
index 00000000..59085fd8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_095.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_096.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_096.png
new file mode 100644
index 00000000..955b9660
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_096.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_097.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_097.png
new file mode 100644
index 00000000..be55958f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_097.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_098.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_098.png
new file mode 100644
index 00000000..f68aec96
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_098.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_099.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_099.png
new file mode 100644
index 00000000..6719bd64
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_099.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_100.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_100.png
new file mode 100644
index 00000000..212f00d4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_100.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_101.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_101.png
new file mode 100644
index 00000000..034eb495
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_101.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_102.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_102.png
new file mode 100644
index 00000000..cca04313
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_102.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_103.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_103.png
new file mode 100644
index 00000000..d44b11ef
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/14853_09_103.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/9781789955750-original.jpg b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/9781789955750-original.jpg
new file mode 100644
index 00000000..1b20e348
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/9781789955750-original.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/9781838823412-original.jpg b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/9781838823412-original.jpg
new file mode 100644
index 00000000..497eb08d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/9781838823412-original.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_001.png
new file mode 100644
index 00000000..e3aa6cc1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_002.png
new file mode 100644
index 00000000..ca5c826a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_003.png
new file mode 100644
index 00000000..dfbab60b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_004.png
new file mode 100644
index 00000000..5e523608
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_005.png
new file mode 100644
index 00000000..08f352d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_006.png
new file mode 100644
index 00000000..83676eda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_007.png
new file mode 100644
index 00000000..7f4e5f13
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_008.png
new file mode 100644
index 00000000..e4e48a6a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_009.png
new file mode 100644
index 00000000..2ca822f6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_01.png
new file mode 100644
index 00000000..e725fb0c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_010.png
new file mode 100644
index 00000000..6c364b06
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_011.png
new file mode 100644
index 00000000..6bb03d4b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_012.png
new file mode 100644
index 00000000..e11905c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_013.png
new file mode 100644
index 00000000..a404d1b7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_014.png
new file mode 100644
index 00000000..d97414ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_015.png
new file mode 100644
index 00000000..126fa3b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_016.png
new file mode 100644
index 00000000..dd6e2c9b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_017.png
new file mode 100644
index 00000000..1a073af4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_018.png
new file mode 100644
index 00000000..edfa56f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_019.png
new file mode 100644
index 00000000..e51a9db3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_02.png
new file mode 100644
index 00000000..cec1c172
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_020.png
new file mode 100644
index 00000000..81f89da5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_021.png
new file mode 100644
index 00000000..035552f8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_022.png
new file mode 100644
index 00000000..ad65cea8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_023.png
new file mode 100644
index 00000000..9204917b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_024.png
new file mode 100644
index 00000000..56f59bd1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_03.png
new file mode 100644
index 00000000..df6020fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_04.png
new file mode 100644
index 00000000..3984228e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_05.png
new file mode 100644
index 00000000..688f806c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_06.png
new file mode 100644
index 00000000..81c0d5b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_07.png
new file mode 100644
index 00000000..8c1fad00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_08.png
new file mode 100644
index 00000000..b2a0da41
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_09.png
new file mode 100644
index 00000000..3fc1ef8c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_10.png
new file mode 100644
index 00000000..88d9b19a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_11.png
new file mode 100644
index 00000000..9b50cc5a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_12.png
new file mode 100644
index 00000000..470806fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_13.png
new file mode 100644
index 00000000..3f7dc728
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_14.png
new file mode 100644
index 00000000..75318245
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_15.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_15.png
new file mode 100644
index 00000000..60b5421f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_16.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_16.png
new file mode 100644
index 00000000..30e8c4ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_17.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_17.png
new file mode 100644
index 00000000..a6743476
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_18.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_18.png
new file mode 100644
index 00000000..64fef727
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_18.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_19.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_19.png
new file mode 100644
index 00000000..498ff036
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_01_19.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_001.png
new file mode 100644
index 00000000..3e244d80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_002.png
new file mode 100644
index 00000000..3fb1a799
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_003.png
new file mode 100644
index 00000000..5c031db8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_004.png
new file mode 100644
index 00000000..7fba2134
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_005.png
new file mode 100644
index 00000000..41553c5c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_006.png
new file mode 100644
index 00000000..df92d6ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_007.png
new file mode 100644
index 00000000..b2005865
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_008.png
new file mode 100644
index 00000000..9bba42d1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_009.png
new file mode 100644
index 00000000..9f1cefc4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_01.png
new file mode 100644
index 00000000..455d6c39
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_02.png
new file mode 100644
index 00000000..b2d5664a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_03.png
new file mode 100644
index 00000000..e28e8496
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_04.png
new file mode 100644
index 00000000..2db9eb1c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_05.png
new file mode 100644
index 00000000..68507562
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_06.png
new file mode 100644
index 00000000..2e0a076e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_07.png
new file mode 100644
index 00000000..e2e8523c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_08.png
new file mode 100644
index 00000000..5c658904
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_09.png
new file mode 100644
index 00000000..457e0a3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_10.png
new file mode 100644
index 00000000..9f060d0f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_11.png
new file mode 100644
index 00000000..f0dd21a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_12.png
new file mode 100644
index 00000000..13bdf5d4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_13.png
new file mode 100644
index 00000000..a8c28ab9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_14.png
new file mode 100644
index 00000000..c91ce1ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_02_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_001.png
new file mode 100644
index 00000000..5041a96c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_002.png
new file mode 100644
index 00000000..f9864bf4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_003.png
new file mode 100644
index 00000000..812e08ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_004.png
new file mode 100644
index 00000000..7d3577b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_006.png
new file mode 100644
index 00000000..c3b8c59b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_007.png
new file mode 100644
index 00000000..691d5409
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_01.png
new file mode 100644
index 00000000..49d839ca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_012.png
new file mode 100644
index 00000000..c0736e86
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_013.png
new file mode 100644
index 00000000..f7286188
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_014.png
new file mode 100644
index 00000000..d8e9eeba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_015.png
new file mode 100644
index 00000000..f241bb67
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_016.png
new file mode 100644
index 00000000..03eca21c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_018.png
new file mode 100644
index 00000000..6bb1e280
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_019.png
new file mode 100644
index 00000000..ea79f1bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_02.png
new file mode 100644
index 00000000..ea31f5a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_020.png
new file mode 100644
index 00000000..dec0c08e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_021.png
new file mode 100644
index 00000000..78cf491f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_022.png
new file mode 100644
index 00000000..8322611b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_023.png
new file mode 100644
index 00000000..8152f8dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_024.png
new file mode 100644
index 00000000..33304300
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_025.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_025.png
new file mode 100644
index 00000000..815ab987
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_025.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_026.png
new file mode 100644
index 00000000..c16a7c04
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_028.png
new file mode 100644
index 00000000..b39d65f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_03.png
new file mode 100644
index 00000000..9dd9794e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_04.png
new file mode 100644
index 00000000..f127e6e9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_05.png
new file mode 100644
index 00000000..655acbe0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_06.png
new file mode 100644
index 00000000..603637ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_07.png
new file mode 100644
index 00000000..2a2cd53e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_08.png
new file mode 100644
index 00000000..3bd629da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_09.png
new file mode 100644
index 00000000..5485f93d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_10.png
new file mode 100644
index 00000000..e75e433d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_11.png
new file mode 100644
index 00000000..4c93caf6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_12.png
new file mode 100644
index 00000000..eb8a1f79
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_13.png
new file mode 100644
index 00000000..50a76ccd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_14.png
new file mode 100644
index 00000000..d403f979
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_03_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_001.png
new file mode 100644
index 00000000..c98ad5e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_002.png
new file mode 100644
index 00000000..a27d59c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_003.png
new file mode 100644
index 00000000..379c0d89
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_004.png
new file mode 100644
index 00000000..5495a052
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_005.png
new file mode 100644
index 00000000..f94c2d7f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_006.png
new file mode 100644
index 00000000..8bc55658
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_007.png
new file mode 100644
index 00000000..4ab77fb8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_008.png
new file mode 100644
index 00000000..0d191136
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_009.png
new file mode 100644
index 00000000..60136b10
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_01.png
new file mode 100644
index 00000000..77ed2e4d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_010.png
new file mode 100644
index 00000000..443217bb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_011.png
new file mode 100644
index 00000000..8b857705
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_012.png
new file mode 100644
index 00000000..16f01fa0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_013.png
new file mode 100644
index 00000000..aebc0068
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_014.png
new file mode 100644
index 00000000..2920f941
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_015.png
new file mode 100644
index 00000000..1f80df4a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_016.png
new file mode 100644
index 00000000..32a972f4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_017.png
new file mode 100644
index 00000000..5d2c60fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_018.png
new file mode 100644
index 00000000..ca3b6b99
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_019.png
new file mode 100644
index 00000000..cdc1a493
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_02.png
new file mode 100644
index 00000000..c93bec91
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_020.png
new file mode 100644
index 00000000..a692dbbf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_021.png
new file mode 100644
index 00000000..cb39ba4f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_03.png
new file mode 100644
index 00000000..77a11bc7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_04.png
new file mode 100644
index 00000000..77ca3686
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_05.png
new file mode 100644
index 00000000..2e63a97c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_06.png
new file mode 100644
index 00000000..18a4bd99
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_07.png
new file mode 100644
index 00000000..67423040
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_08.png
new file mode 100644
index 00000000..822f0a6e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_09.png
new file mode 100644
index 00000000..017a2cd2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_10.png
new file mode 100644
index 00000000..cc885784
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_04_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_001.png
new file mode 100644
index 00000000..f4004054
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_002.png
new file mode 100644
index 00000000..27738c98
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_003.png
new file mode 100644
index 00000000..171e817b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_004.png
new file mode 100644
index 00000000..222d182a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_005.png
new file mode 100644
index 00000000..95523c19
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_006.png
new file mode 100644
index 00000000..ac0d2f3f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_007.png
new file mode 100644
index 00000000..1fead6c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_008.png
new file mode 100644
index 00000000..748860ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_009.png
new file mode 100644
index 00000000..f74f4263
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_01.png
new file mode 100644
index 00000000..f5c298be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_010.png
new file mode 100644
index 00000000..983c8d5a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_011.png
new file mode 100644
index 00000000..86316119
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_012.png
new file mode 100644
index 00000000..930c7d1c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_013.png
new file mode 100644
index 00000000..ea9f5dfd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_014.png
new file mode 100644
index 00000000..68a7ff29
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_015.png
new file mode 100644
index 00000000..43083dbc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_016.png
new file mode 100644
index 00000000..8190b796
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_017.png
new file mode 100644
index 00000000..3f90905d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_018.png
new file mode 100644
index 00000000..b1cb3a0c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_019.png
new file mode 100644
index 00000000..47c337bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_02.png
new file mode 100644
index 00000000..8c53e5bf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_020.png
new file mode 100644
index 00000000..bc25cd73
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_021.png
new file mode 100644
index 00000000..6f83bbea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_022.png
new file mode 100644
index 00000000..1fe1f571
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_023.png
new file mode 100644
index 00000000..2afe3db8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_024.png
new file mode 100644
index 00000000..e04818b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_025.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_025.png
new file mode 100644
index 00000000..04a52880
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_025.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_026.png
new file mode 100644
index 00000000..e7bfbb60
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_027.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_027.png
new file mode 100644
index 00000000..dffd9ce3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_027.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_028.png
new file mode 100644
index 00000000..d9fa653d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_029.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_029.png
new file mode 100644
index 00000000..d3f70dae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_029.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_03.png
new file mode 100644
index 00000000..5d56db1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_030.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_030.png
new file mode 100644
index 00000000..b5e2d7ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_030.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_031.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_031.png
new file mode 100644
index 00000000..ce8dea27
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_031.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_032.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_032.png
new file mode 100644
index 00000000..caafcd3c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_032.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_033.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_033.png
new file mode 100644
index 00000000..ad48d5f6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_033.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_034.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_034.png
new file mode 100644
index 00000000..070dd1c1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_035.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_035.png
new file mode 100644
index 00000000..3cbec58e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_035.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_036.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_036.png
new file mode 100644
index 00000000..35834bf1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_036.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_037.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_037.png
new file mode 100644
index 00000000..51c9290c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_037.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_038.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_038.png
new file mode 100644
index 00000000..8a452865
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_038.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_039.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_039.png
new file mode 100644
index 00000000..487606a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_039.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_04.png
new file mode 100644
index 00000000..c622e6fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_040.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_040.png
new file mode 100644
index 00000000..5768da07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_041.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_041.png
new file mode 100644
index 00000000..83f3f10d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_041.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_042.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_042.png
new file mode 100644
index 00000000..e200b417
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_043.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_043.png
new file mode 100644
index 00000000..864b0fa8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_043.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_044.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_044.png
new file mode 100644
index 00000000..769b0729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_044.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_045.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_045.png
new file mode 100644
index 00000000..d7e98cdb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_045.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_046.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_046.png
new file mode 100644
index 00000000..91050b00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_046.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_047.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_047.png
new file mode 100644
index 00000000..918d9d83
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_047.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_048.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_048.png
new file mode 100644
index 00000000..c6b42b55
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_048.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_049.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_049.png
new file mode 100644
index 00000000..82f44eaa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_049.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_05.png
new file mode 100644
index 00000000..f01e83ab
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_050.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_050.png
new file mode 100644
index 00000000..35274678
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_050.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_051.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_051.png
new file mode 100644
index 00000000..0910c46d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_051.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_052.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_052.png
new file mode 100644
index 00000000..b79676ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_052.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_053.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_053.png
new file mode 100644
index 00000000..be1e7662
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_053.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_054.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_054.png
new file mode 100644
index 00000000..c9071cb3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_054.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_055.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_055.png
new file mode 100644
index 00000000..d64c8e09
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_055.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_056.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_056.png
new file mode 100644
index 00000000..cece84a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_056.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_057.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_057.png
new file mode 100644
index 00000000..c752267a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_057.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_058.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_058.png
new file mode 100644
index 00000000..00cc48a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_058.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_059.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_059.png
new file mode 100644
index 00000000..6835e59b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_059.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_06.png
new file mode 100644
index 00000000..b4f5f461
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_060.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_060.png
new file mode 100644
index 00000000..a0be3525
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_060.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_061.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_061.png
new file mode 100644
index 00000000..aa206380
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_061.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_062.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_062.png
new file mode 100644
index 00000000..15395ac1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_062.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_063.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_063.png
new file mode 100644
index 00000000..5ec245fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_063.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_064.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_064.png
new file mode 100644
index 00000000..82f3a81e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_064.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_065.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_065.png
new file mode 100644
index 00000000..f343aacb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_065.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_066.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_066.png
new file mode 100644
index 00000000..7edcc483
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_066.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_067.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_067.png
new file mode 100644
index 00000000..cdb7163e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_067.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_068.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_068.png
new file mode 100644
index 00000000..1cfa7d3a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_068.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_069.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_069.png
new file mode 100644
index 00000000..5464c02c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_069.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_07.png
new file mode 100644
index 00000000..7411d845
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_070.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_070.png
new file mode 100644
index 00000000..0e748e4a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_070.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_071.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_071.png
new file mode 100644
index 00000000..0dabcd1a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_071.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_072.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_072.png
new file mode 100644
index 00000000..09ca2d14
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_072.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_073.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_073.png
new file mode 100644
index 00000000..098e9d5c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_073.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_074.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_074.png
new file mode 100644
index 00000000..9022da24
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_074.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_075.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_075.png
new file mode 100644
index 00000000..dee28ef1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_075.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_076.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_076.png
new file mode 100644
index 00000000..045d5385
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_076.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_077.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_077.png
new file mode 100644
index 00000000..74750f4a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_077.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_078.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_078.png
new file mode 100644
index 00000000..5eaf5126
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_079.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_079.png
new file mode 100644
index 00000000..dcd79e4a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_079.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_08.png
new file mode 100644
index 00000000..79f68fa8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_080.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_080.png
new file mode 100644
index 00000000..b4211796
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_080.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_081.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_081.png
new file mode 100644
index 00000000..1d9ce7cf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_081.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_082.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_082.png
new file mode 100644
index 00000000..e0266888
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_082.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_083.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_083.png
new file mode 100644
index 00000000..c9e3f6fe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_083.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_084.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_084.png
new file mode 100644
index 00000000..3ee6060d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_084.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_085.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_085.png
new file mode 100644
index 00000000..9fe0e656
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_085.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_086.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_086.png
new file mode 100644
index 00000000..88911426
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_086.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_087.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_087.png
new file mode 100644
index 00000000..c499f845
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_087.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_088.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_088.png
new file mode 100644
index 00000000..65b4c01a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_088.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_089.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_089.png
new file mode 100644
index 00000000..900de3a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_089.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_09.png
new file mode 100644
index 00000000..d6a2d4f5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_090.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_090.png
new file mode 100644
index 00000000..ffcb3455
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_090.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_091.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_091.png
new file mode 100644
index 00000000..245d7bee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_091.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_092.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_092.png
new file mode 100644
index 00000000..7fa78074
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_092.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_093.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_093.png
new file mode 100644
index 00000000..669ce588
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_093.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_094.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_094.png
new file mode 100644
index 00000000..16653e91
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_094.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_095.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_095.png
new file mode 100644
index 00000000..699245d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_095.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_096.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_096.png
new file mode 100644
index 00000000..7acc1b89
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_096.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_097.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_097.png
new file mode 100644
index 00000000..a38b32f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_097.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_098.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_098.png
new file mode 100644
index 00000000..1084a089
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_098.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_099.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_099.png
new file mode 100644
index 00000000..20d365a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_099.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_10.png
new file mode 100644
index 00000000..44beb614
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_100.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_100.png
new file mode 100644
index 00000000..30785aca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_100.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_101.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_101.png
new file mode 100644
index 00000000..477d4984
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_101.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_102.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_102.png
new file mode 100644
index 00000000..13b177e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_102.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_103.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_103.png
new file mode 100644
index 00000000..caf9b422
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_103.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_104.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_104.png
new file mode 100644
index 00000000..7c3ed115
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_104.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_105.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_105.png
new file mode 100644
index 00000000..a41de5f7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_105.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_106.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_106.png
new file mode 100644
index 00000000..8ceca515
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_106.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_107.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_107.png
new file mode 100644
index 00000000..4ce6aeb8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_107.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_108.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_108.png
new file mode 100644
index 00000000..578b30f0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_108.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_109.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_109.png
new file mode 100644
index 00000000..29ef01c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_109.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_11.png
new file mode 100644
index 00000000..a6b565f0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_05_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_001.png
new file mode 100644
index 00000000..46146be0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_002.png
new file mode 100644
index 00000000..e122765c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_003.png
new file mode 100644
index 00000000..044512df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_004.png
new file mode 100644
index 00000000..288886c9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_005.png
new file mode 100644
index 00000000..b62db314
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_006.png
new file mode 100644
index 00000000..561e1e46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_007.png
new file mode 100644
index 00000000..fc7515d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_008.png
new file mode 100644
index 00000000..d99d67dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_009.png
new file mode 100644
index 00000000..8b9ab613
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_01.png
new file mode 100644
index 00000000..71e5a80e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_010.png
new file mode 100644
index 00000000..1d8da3bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_011.png
new file mode 100644
index 00000000..c0a75221
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_012.png
new file mode 100644
index 00000000..60eb0667
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_013.png
new file mode 100644
index 00000000..9f98e022
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_014.png
new file mode 100644
index 00000000..cc5d69ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_015.png
new file mode 100644
index 00000000..a4bbb0db
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_0151.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_0151.png
new file mode 100644
index 00000000..9a3369ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_0151.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_016.png
new file mode 100644
index 00000000..2c1c5585
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_017.png
new file mode 100644
index 00000000..3015ced6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_018.png
new file mode 100644
index 00000000..9bf56739
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_019.png
new file mode 100644
index 00000000..76c2c266
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_02.png
new file mode 100644
index 00000000..e1f2595f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_020.png
new file mode 100644
index 00000000..c5aab0a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_021.png
new file mode 100644
index 00000000..7e021c59
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_022.png
new file mode 100644
index 00000000..07f59abb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_023.png
new file mode 100644
index 00000000..6774f16e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_024.png
new file mode 100644
index 00000000..e668595c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_025.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_025.png
new file mode 100644
index 00000000..e73c90d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_025.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_026.png
new file mode 100644
index 00000000..d1b6825a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_027.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_027.png
new file mode 100644
index 00000000..6e33a6a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_027.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_028.png
new file mode 100644
index 00000000..c12b9ed5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_029.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_029.png
new file mode 100644
index 00000000..0e52ac18
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_029.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_03.png
new file mode 100644
index 00000000..04958b93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_030.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_030.png
new file mode 100644
index 00000000..0668d107
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_030.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_031.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_031.png
new file mode 100644
index 00000000..22576c0f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_031.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_032.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_032.png
new file mode 100644
index 00000000..225e0f15
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_032.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_033.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_033.png
new file mode 100644
index 00000000..4ab540da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_033.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_034.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_034.png
new file mode 100644
index 00000000..e6d72755
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_035.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_035.png
new file mode 100644
index 00000000..ab86a89d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_035.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_036.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_036.png
new file mode 100644
index 00000000..154a97b9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_036.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_037.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_037.png
new file mode 100644
index 00000000..b8b1e991
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_037.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_038.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_038.png
new file mode 100644
index 00000000..d6334fd0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_038.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_039.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_039.png
new file mode 100644
index 00000000..e07a8319
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_039.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_04.png
new file mode 100644
index 00000000..3389aaad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_040.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_040.png
new file mode 100644
index 00000000..31f2a26e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_041.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_041.png
new file mode 100644
index 00000000..70dc2270
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_041.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_042.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_042.png
new file mode 100644
index 00000000..c156c9ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_043.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_043.png
new file mode 100644
index 00000000..0f67c622
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_043.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_044.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_044.png
new file mode 100644
index 00000000..0e26d5ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_044.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_045.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_045.png
new file mode 100644
index 00000000..15d55e01
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_045.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_046.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_046.png
new file mode 100644
index 00000000..c4ddcf09
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_046.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_047.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_047.png
new file mode 100644
index 00000000..f53496a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_047.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_05.png
new file mode 100644
index 00000000..882b6535
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_06.png
new file mode 100644
index 00000000..39c25671
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_07.png
new file mode 100644
index 00000000..6bc20ede
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_08.png
new file mode 100644
index 00000000..a3435ea8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_09.png
new file mode 100644
index 00000000..862a1c7b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_10.png
new file mode 100644
index 00000000..26ee3a8f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_11.png
new file mode 100644
index 00000000..22708e22
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_12.png
new file mode 100644
index 00000000..7876ac4e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_13.png
new file mode 100644
index 00000000..e3383063
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_14.png
new file mode 100644
index 00000000..d5dd7dea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_15.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_15.png
new file mode 100644
index 00000000..a7b99be6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_16.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_16.png
new file mode 100644
index 00000000..c6bbf6a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_17.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_17.png
new file mode 100644
index 00000000..bd45e74f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_18.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_18.png
new file mode 100644
index 00000000..090dd4ae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_18.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_19.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_19.png
new file mode 100644
index 00000000..4d61e9f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_06_19.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_001.png
new file mode 100644
index 00000000..4c2808b1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_002.png
new file mode 100644
index 00000000..e4ef61a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_003.png
new file mode 100644
index 00000000..b22750ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_004.png
new file mode 100644
index 00000000..a76bc896
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_005.png
new file mode 100644
index 00000000..efba5cc3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_006.png
new file mode 100644
index 00000000..1a5d9dde
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_007.png
new file mode 100644
index 00000000..3ef4d0a0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_008.png
new file mode 100644
index 00000000..7b8af25c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_009.png
new file mode 100644
index 00000000..dd2be371
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_01.png
new file mode 100644
index 00000000..70be9bba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_011.png
new file mode 100644
index 00000000..3a86bc64
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_012.png
new file mode 100644
index 00000000..94366c31
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_014.png
new file mode 100644
index 00000000..c6396ed5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_015.png
new file mode 100644
index 00000000..44ef3f0b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_016.png
new file mode 100644
index 00000000..528660e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_017.png
new file mode 100644
index 00000000..21e30f1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_018.png
new file mode 100644
index 00000000..856490d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_019.png
new file mode 100644
index 00000000..fa6079ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_02.png
new file mode 100644
index 00000000..b71f3b12
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_020.png
new file mode 100644
index 00000000..83604a86
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_021.png
new file mode 100644
index 00000000..93c9188d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_022.png
new file mode 100644
index 00000000..156344ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_023.png
new file mode 100644
index 00000000..2592c900
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_024.png
new file mode 100644
index 00000000..16a9f846
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_025.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_025.png
new file mode 100644
index 00000000..c7b97ac3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_025.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_026.png
new file mode 100644
index 00000000..534c577f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_027.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_027.png
new file mode 100644
index 00000000..b8cfe59f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_027.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_028.png
new file mode 100644
index 00000000..6f8d69b0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_029.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_029.png
new file mode 100644
index 00000000..6fe28d1c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_029.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_03.png
new file mode 100644
index 00000000..827ed9a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_030.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_030.png
new file mode 100644
index 00000000..91a24a05
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_030.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_033.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_033.png
new file mode 100644
index 00000000..6db7b6bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_033.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_034.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_034.png
new file mode 100644
index 00000000..c7066006
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_035.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_035.png
new file mode 100644
index 00000000..19c69da1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_035.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_036.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_036.png
new file mode 100644
index 00000000..e9caeb2c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_036.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_037.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_037.png
new file mode 100644
index 00000000..511f0113
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_037.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_039.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_039.png
new file mode 100644
index 00000000..11451065
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_039.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_04.png
new file mode 100644
index 00000000..a3f7900d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_040.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_040.png
new file mode 100644
index 00000000..c1ff117c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_042.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_042.png
new file mode 100644
index 00000000..de08d17a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_043.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_043.png
new file mode 100644
index 00000000..e1dc8326
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_043.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_045.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_045.png
new file mode 100644
index 00000000..0e7e71c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_045.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_05.png
new file mode 100644
index 00000000..553b7368
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_06.png
new file mode 100644
index 00000000..1cef80ef
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_07.png
new file mode 100644
index 00000000..41c20836
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_08.png
new file mode 100644
index 00000000..a9dd12c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_09.png
new file mode 100644
index 00000000..b9795350
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_10.png
new file mode 100644
index 00000000..75404d41
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_11.png
new file mode 100644
index 00000000..c7f476b7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_12.png
new file mode 100644
index 00000000..eabc7551
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_13.png
new file mode 100644
index 00000000..b48a9bc0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_14.png
new file mode 100644
index 00000000..c7db2fb0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_15.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_15.png
new file mode 100644
index 00000000..9114df6f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_16.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_16.png
new file mode 100644
index 00000000..6d2506e2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_17.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_17.png
new file mode 100644
index 00000000..52c7c6b9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_18.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_18.png
new file mode 100644
index 00000000..d87002b1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_18.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_19.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_19.png
new file mode 100644
index 00000000..872e7eef
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_07_19.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_001.png
new file mode 100644
index 00000000..3f6cdd6f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_002.png
new file mode 100644
index 00000000..7bc7e6f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_003.png
new file mode 100644
index 00000000..37bf730d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_004.png
new file mode 100644
index 00000000..9840e173
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_005.png
new file mode 100644
index 00000000..8953abf1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_006.png
new file mode 100644
index 00000000..67005837
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_007.png
new file mode 100644
index 00000000..a7ead049
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_008.png
new file mode 100644
index 00000000..44e43e52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_009.png
new file mode 100644
index 00000000..98edca31
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_01.png
new file mode 100644
index 00000000..a01025e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_010.png
new file mode 100644
index 00000000..edc81e64
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_011.png
new file mode 100644
index 00000000..986b9911
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_012.png
new file mode 100644
index 00000000..c90577ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_013.png
new file mode 100644
index 00000000..0f4586a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_014.png
new file mode 100644
index 00000000..3667f9f6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_015.png
new file mode 100644
index 00000000..c43ee487
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_016.png
new file mode 100644
index 00000000..7173f569
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_017.png
new file mode 100644
index 00000000..a9a3bd16
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_018.png
new file mode 100644
index 00000000..c68c8e57
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_019.png
new file mode 100644
index 00000000..9259f742
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_02.png
new file mode 100644
index 00000000..4bd9f6ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_020.png
new file mode 100644
index 00000000..acd51163
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_021.png
new file mode 100644
index 00000000..7194b7ea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_022.png
new file mode 100644
index 00000000..6186cd3e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_023.png
new file mode 100644
index 00000000..419ca619
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_024.png
new file mode 100644
index 00000000..27b7c3ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_025.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_025.png
new file mode 100644
index 00000000..7bf46f7c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_025.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_026.png
new file mode 100644
index 00000000..c041ba2e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_027.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_027.png
new file mode 100644
index 00000000..ce7ffcca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_027.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_028.png
new file mode 100644
index 00000000..17391652
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_029.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_029.png
new file mode 100644
index 00000000..9517d7a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_029.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_03.png
new file mode 100644
index 00000000..ed1b4d58
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_030.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_030.png
new file mode 100644
index 00000000..90dbc698
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_030.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_031.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_031.png
new file mode 100644
index 00000000..bdba96df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_031.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_032.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_032.png
new file mode 100644
index 00000000..de30e4c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_032.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_033.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_033.png
new file mode 100644
index 00000000..77ea2208
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_033.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_034.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_034.png
new file mode 100644
index 00000000..cf5480ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_035.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_035.png
new file mode 100644
index 00000000..c8c23e95
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_035.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_036.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_036.png
new file mode 100644
index 00000000..27a1ed54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_036.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_037.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_037.png
new file mode 100644
index 00000000..0f91d397
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_037.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_038.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_038.png
new file mode 100644
index 00000000..52db5a7b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_038.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_039.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_039.png
new file mode 100644
index 00000000..6b66d492
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_039.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_04.png
new file mode 100644
index 00000000..8e349bc8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_040.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_040.png
new file mode 100644
index 00000000..e228ee25
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_041.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_041.png
new file mode 100644
index 00000000..6a562fa4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_041.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_042.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_042.png
new file mode 100644
index 00000000..ec9ebbe9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_043.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_043.png
new file mode 100644
index 00000000..4f9a8135
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_043.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_044.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_044.png
new file mode 100644
index 00000000..150f0eda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_044.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_046.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_046.png
new file mode 100644
index 00000000..05d86497
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_046.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_047.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_047.png
new file mode 100644
index 00000000..01326f10
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_047.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_048.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_048.png
new file mode 100644
index 00000000..0c5952bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_048.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_049.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_049.png
new file mode 100644
index 00000000..fd023d3c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_049.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_05.png
new file mode 100644
index 00000000..f042969a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_050.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_050.png
new file mode 100644
index 00000000..267401f4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_050.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_051.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_051.png
new file mode 100644
index 00000000..a8e2ba7e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_051.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_052.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_052.png
new file mode 100644
index 00000000..659379ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_052.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_053.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_053.png
new file mode 100644
index 00000000..580bd789
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_053.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_054.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_054.png
new file mode 100644
index 00000000..2f166826
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_054.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_055.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_055.png
new file mode 100644
index 00000000..dac35af4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_055.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_056.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_056.png
new file mode 100644
index 00000000..891d4cd7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_056.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_057.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_057.png
new file mode 100644
index 00000000..0d8f35df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_057.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_058.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_058.png
new file mode 100644
index 00000000..fa473b85
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_058.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_059.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_059.png
new file mode 100644
index 00000000..5fc71210
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_059.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_06.png
new file mode 100644
index 00000000..cb715866
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_060.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_060.png
new file mode 100644
index 00000000..f2260e91
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_060.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_061.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_061.png
new file mode 100644
index 00000000..d9d2184c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_061.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_063.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_063.png
new file mode 100644
index 00000000..172fa800
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_063.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_064.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_064.png
new file mode 100644
index 00000000..8b926599
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_064.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_066.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_066.png
new file mode 100644
index 00000000..41c599e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_066.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_067.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_067.png
new file mode 100644
index 00000000..5b5c8d04
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_067.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_068.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_068.png
new file mode 100644
index 00000000..1c3e3062
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_068.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_069.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_069.png
new file mode 100644
index 00000000..430822f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_069.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_07.png
new file mode 100644
index 00000000..d8506b30
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_070.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_070.png
new file mode 100644
index 00000000..91ed1cd1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_070.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_071.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_071.png
new file mode 100644
index 00000000..f541c809
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_071.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_072.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_072.png
new file mode 100644
index 00000000..93f4b3ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_072.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_073.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_073.png
new file mode 100644
index 00000000..ab729822
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_073.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_074.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_074.png
new file mode 100644
index 00000000..9e9a97c2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_074.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_075.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_075.png
new file mode 100644
index 00000000..d1e659ae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_075.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_076.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_076.png
new file mode 100644
index 00000000..83c6817e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_076.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_077.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_077.png
new file mode 100644
index 00000000..c87f09c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_077.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_078.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_078.png
new file mode 100644
index 00000000..a02dd5e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_079.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_079.png
new file mode 100644
index 00000000..0ad2db43
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_079.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_08.png
new file mode 100644
index 00000000..536ef8d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_080.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_080.png
new file mode 100644
index 00000000..ea0d1788
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_080.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_081.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_081.png
new file mode 100644
index 00000000..fcc0c945
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_081.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_082.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_082.png
new file mode 100644
index 00000000..1c246abd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_082.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_083.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_083.png
new file mode 100644
index 00000000..ab3b88fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_083.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_085.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_085.png
new file mode 100644
index 00000000..83f050a0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_085.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_086.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_086.png
new file mode 100644
index 00000000..cef2c8ab
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_086.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_087.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_087.png
new file mode 100644
index 00000000..978c512d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_087.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_088.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_088.png
new file mode 100644
index 00000000..64ba957d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_088.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_089.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_089.png
new file mode 100644
index 00000000..26e15c00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_089.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_09.png
new file mode 100644
index 00000000..b5ff8227
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_090.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_090.png
new file mode 100644
index 00000000..01a1ad84
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_090.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_091.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_091.png
new file mode 100644
index 00000000..a7c4d3f4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_091.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_092.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_092.png
new file mode 100644
index 00000000..d2632fc5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_092.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_093.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_093.png
new file mode 100644
index 00000000..846f26a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_093.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_094.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_094.png
new file mode 100644
index 00000000..3336b01f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_094.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_095.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_095.png
new file mode 100644
index 00000000..b4ed688b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_095.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_096.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_096.png
new file mode 100644
index 00000000..ec2bf4a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_096.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_097.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_097.png
new file mode 100644
index 00000000..9f20714b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_097.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_098.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_098.png
new file mode 100644
index 00000000..e4e2c2df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_098.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_099.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_099.png
new file mode 100644
index 00000000..33b729ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_099.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_10.png
new file mode 100644
index 00000000..c2a3c2c3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_100.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_100.png
new file mode 100644
index 00000000..60b8c0e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_100.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_101.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_101.png
new file mode 100644
index 00000000..c818b51a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_101.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_102.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_102.png
new file mode 100644
index 00000000..28045e76
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_102.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_103.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_103.png
new file mode 100644
index 00000000..1e7777ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_103.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_104.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_104.png
new file mode 100644
index 00000000..1c21ee8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_104.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_105.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_105.png
new file mode 100644
index 00000000..d1492340
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_105.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_106.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_106.png
new file mode 100644
index 00000000..9f7e3a24
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_106.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_107.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_107.png
new file mode 100644
index 00000000..0e06e863
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_107.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_108.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_108.png
new file mode 100644
index 00000000..e895ddb1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_108.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_109.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_109.png
new file mode 100644
index 00000000..1db638da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_109.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_11.png
new file mode 100644
index 00000000..d587e65c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_110.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_110.png
new file mode 100644
index 00000000..13ba5261
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_110.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_112.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_112.png
new file mode 100644
index 00000000..46be0659
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_112.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_113.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_113.png
new file mode 100644
index 00000000..d08c817d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_113.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_114.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_114.png
new file mode 100644
index 00000000..3936df70
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_114.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_115.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_115.png
new file mode 100644
index 00000000..26d65088
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_115.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_116.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_116.png
new file mode 100644
index 00000000..f201cce4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_116.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_117.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_117.png
new file mode 100644
index 00000000..0cc2a878
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_117.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_119.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_119.png
new file mode 100644
index 00000000..d34a53f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_119.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_12.png
new file mode 100644
index 00000000..e1707f12
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_120.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_120.png
new file mode 100644
index 00000000..b1080725
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_120.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_121.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_121.png
new file mode 100644
index 00000000..169b66c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_121.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_122.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_122.png
new file mode 100644
index 00000000..3c64dee1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_122.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_124.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_124.png
new file mode 100644
index 00000000..4881a400
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_124.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_125.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_125.png
new file mode 100644
index 00000000..a87cdc82
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_125.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_126.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_126.png
new file mode 100644
index 00000000..591cf6b9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_126.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_127.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_127.png
new file mode 100644
index 00000000..b905cbc3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_127.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_128.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_128.png
new file mode 100644
index 00000000..bea5b702
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_128.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_129.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_129.png
new file mode 100644
index 00000000..37af46e7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_129.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_13.png
new file mode 100644
index 00000000..38071a85
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_131.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_131.png
new file mode 100644
index 00000000..506cb6a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_131.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_132.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_132.png
new file mode 100644
index 00000000..2ea62fb6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_132.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_133.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_133.png
new file mode 100644
index 00000000..bb63af41
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_133.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_134.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_134.png
new file mode 100644
index 00000000..e2d8b60c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_134.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_136.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_136.png
new file mode 100644
index 00000000..82996c43
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_136.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_137.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_137.png
new file mode 100644
index 00000000..379b04b7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_137.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_138.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_138.png
new file mode 100644
index 00000000..d4fa0360
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_138.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_14.png
new file mode 100644
index 00000000..bdb13645
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_140.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_140.png
new file mode 100644
index 00000000..ff7ff8a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_140.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_141.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_141.png
new file mode 100644
index 00000000..26f705be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_141.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_143.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_143.png
new file mode 100644
index 00000000..f2b214a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_143.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_144.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_144.png
new file mode 100644
index 00000000..8f8c659e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_144.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_145.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_145.png
new file mode 100644
index 00000000..b5502c18
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_145.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_146.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_146.png
new file mode 100644
index 00000000..dd2d1f5c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_146.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_147.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_147.png
new file mode 100644
index 00000000..92142d3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_147.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_148.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_148.png
new file mode 100644
index 00000000..929e5477
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_148.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_149.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_149.png
new file mode 100644
index 00000000..d3b82274
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_149.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_15.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_15.png
new file mode 100644
index 00000000..b25bbbb4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_150.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_150.png
new file mode 100644
index 00000000..7b82b380
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_150.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_151.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_151.png
new file mode 100644
index 00000000..69f05bde
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_151.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_16.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_16.png
new file mode 100644
index 00000000..6b6c5951
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_17.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_17.png
new file mode 100644
index 00000000..f6e56e32
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_18.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_18.png
new file mode 100644
index 00000000..e51dd5e9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_18.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_19.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_19.png
new file mode 100644
index 00000000..96572288
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_19.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_20.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_20.png
new file mode 100644
index 00000000..2c6b6aea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_20.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_21.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_21.png
new file mode 100644
index 00000000..c1e2ef7e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_08_21.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_01.png
new file mode 100644
index 00000000..4484add5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_02.png
new file mode 100644
index 00000000..903b9957
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_03.png
new file mode 100644
index 00000000..580b7e2d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_04.png
new file mode 100644
index 00000000..8631cbb6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_05.png
new file mode 100644
index 00000000..db69a203
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_06.png
new file mode 100644
index 00000000..e965ded3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_07.png
new file mode 100644
index 00000000..620f4390
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_08.png
new file mode 100644
index 00000000..192634d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_09.png
new file mode 100644
index 00000000..3ff3020c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_10.png
new file mode 100644
index 00000000..08ee07b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_11.png
new file mode 100644
index 00000000..4f3fa28c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_12.png
new file mode 100644
index 00000000..5e65779b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_13.png
new file mode 100644
index 00000000..69457cf5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_14.png
new file mode 100644
index 00000000..758c8e2d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_09_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_001.png
new file mode 100644
index 00000000..264f81c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_003.png
new file mode 100644
index 00000000..61d19d8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_004.png
new file mode 100644
index 00000000..90dfc4dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_005.png
new file mode 100644
index 00000000..4325e4d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_008.png
new file mode 100644
index 00000000..54cbc251
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_009.png
new file mode 100644
index 00000000..3c322994
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_01.png
new file mode 100644
index 00000000..e7f88595
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_010.png
new file mode 100644
index 00000000..b011cba2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_011.png
new file mode 100644
index 00000000..e83e2c4f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_012.png
new file mode 100644
index 00000000..3b259fd0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_013.png
new file mode 100644
index 00000000..87363722
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_014.png
new file mode 100644
index 00000000..da2df7dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_015.png
new file mode 100644
index 00000000..35ffe558
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_016.png
new file mode 100644
index 00000000..7fa4348a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_017.png
new file mode 100644
index 00000000..c467d9e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_019.png
new file mode 100644
index 00000000..6aaed093
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_02.png
new file mode 100644
index 00000000..79c4f4f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_020.png
new file mode 100644
index 00000000..16c2e909
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_022.png
new file mode 100644
index 00000000..1eb3943f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_023.png
new file mode 100644
index 00000000..ba36cf7a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_024.png
new file mode 100644
index 00000000..6b5f2fa6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_026.png
new file mode 100644
index 00000000..097aaa68
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_027.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_027.png
new file mode 100644
index 00000000..0453944f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_027.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_028.png
new file mode 100644
index 00000000..fdac9766
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_029.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_029.png
new file mode 100644
index 00000000..0aae68a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_029.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_03.png
new file mode 100644
index 00000000..3cad3e46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_030.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_030.png
new file mode 100644
index 00000000..7011be8f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_030.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_032.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_032.png
new file mode 100644
index 00000000..9011b814
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_032.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_033.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_033.png
new file mode 100644
index 00000000..9c3bac50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_033.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_034.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_034.png
new file mode 100644
index 00000000..94c820b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_035.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_035.png
new file mode 100644
index 00000000..ebcea420
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_035.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_036.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_036.png
new file mode 100644
index 00000000..b7945a89
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_036.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_037.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_037.png
new file mode 100644
index 00000000..01e6cbdc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_037.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_038.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_038.png
new file mode 100644
index 00000000..9beaea6d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_038.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_04.png
new file mode 100644
index 00000000..2901a6a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_040.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_040.png
new file mode 100644
index 00000000..8ea863c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_042.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_042.png
new file mode 100644
index 00000000..87edfff3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_043.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_043.png
new file mode 100644
index 00000000..44ba4dd7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_043.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_044.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_044.png
new file mode 100644
index 00000000..82c46527
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_044.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_045.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_045.png
new file mode 100644
index 00000000..9f62edf1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_045.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_046.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_046.png
new file mode 100644
index 00000000..e6f6f1b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_046.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_047.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_047.png
new file mode 100644
index 00000000..64d405f7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_047.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_049.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_049.png
new file mode 100644
index 00000000..d5fb8131
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_049.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_05.png
new file mode 100644
index 00000000..0607f1dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_050.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_050.png
new file mode 100644
index 00000000..d765d20b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_050.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_051.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_051.png
new file mode 100644
index 00000000..76fcfcda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_051.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_055.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_055.png
new file mode 100644
index 00000000..a35f4d9e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_055.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_056.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_056.png
new file mode 100644
index 00000000..71f75f87
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_056.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_057.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_057.png
new file mode 100644
index 00000000..fe4b738e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_057.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_058.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_058.png
new file mode 100644
index 00000000..64809c12
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_058.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_059.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_059.png
new file mode 100644
index 00000000..46648d36
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_059.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_06.png
new file mode 100644
index 00000000..30659b68
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_061.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_061.png
new file mode 100644
index 00000000..dcf0c40c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_061.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_062.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_062.png
new file mode 100644
index 00000000..831d25b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_062.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_063.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_063.png
new file mode 100644
index 00000000..40a0a59f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_063.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_064.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_064.png
new file mode 100644
index 00000000..4b5e0320
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_064.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_065.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_065.png
new file mode 100644
index 00000000..ed04b726
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_065.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_066.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_066.png
new file mode 100644
index 00000000..40c14aab
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_066.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_067.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_067.png
new file mode 100644
index 00000000..e15f2ba7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_067.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_068.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_068.png
new file mode 100644
index 00000000..3781285f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_068.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_069.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_069.png
new file mode 100644
index 00000000..dfbcaf85
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_069.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_07.png
new file mode 100644
index 00000000..e2a46271
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_070.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_070.png
new file mode 100644
index 00000000..9a50325a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_070.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_072.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_072.png
new file mode 100644
index 00000000..b01a7bf2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_072.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_073.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_073.png
new file mode 100644
index 00000000..aab1075e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_073.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_074.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_074.png
new file mode 100644
index 00000000..b472fd1c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_074.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_075.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_075.png
new file mode 100644
index 00000000..3ee21bc5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_075.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_076.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_076.png
new file mode 100644
index 00000000..ad3276ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_076.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_078.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_078.png
new file mode 100644
index 00000000..0ecd5891
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_08.png
new file mode 100644
index 00000000..8e7926c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_080.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_080.png
new file mode 100644
index 00000000..cc98a14f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_080.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_081.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_081.png
new file mode 100644
index 00000000..c9c53bd9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_081.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_082.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_082.png
new file mode 100644
index 00000000..39de146b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_082.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_084.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_084.png
new file mode 100644
index 00000000..549cfffb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_084.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_085.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_085.png
new file mode 100644
index 00000000..934247f8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_085.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_09.png
new file mode 100644
index 00000000..96df048d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_090.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_090.png
new file mode 100644
index 00000000..b4b2c955
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_090.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_091.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_091.png
new file mode 100644
index 00000000..abff2314
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_091.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_092.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_092.png
new file mode 100644
index 00000000..ad4ea6b7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_092.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_093.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_093.png
new file mode 100644
index 00000000..085a2c36
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_093.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_095.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_095.png
new file mode 100644
index 00000000..e11a8831
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_095.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_096.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_096.png
new file mode 100644
index 00000000..8373499f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_096.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_097.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_097.png
new file mode 100644
index 00000000..61a6b4ea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_097.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_098.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_098.png
new file mode 100644
index 00000000..4f01d4d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_098.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_099.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_099.png
new file mode 100644
index 00000000..3d122dee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_099.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_10.png
new file mode 100644
index 00000000..58ecb055
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_100.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_100.png
new file mode 100644
index 00000000..fc8a8149
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_100.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_101.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_101.png
new file mode 100644
index 00000000..261047c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_101.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_102.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_102.png
new file mode 100644
index 00000000..2c53de17
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_102.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_103.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_103.png
new file mode 100644
index 00000000..4078f514
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_103.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_104.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_104.png
new file mode 100644
index 00000000..3fd0b3ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_104.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_105.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_105.png
new file mode 100644
index 00000000..46439d2f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_105.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_106.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_106.png
new file mode 100644
index 00000000..79f67c47
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_106.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_107.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_107.png
new file mode 100644
index 00000000..9e912409
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_107.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_108.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_108.png
new file mode 100644
index 00000000..dd76959e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_108.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_109.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_109.png
new file mode 100644
index 00000000..c63ef11d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_109.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_11.png
new file mode 100644
index 00000000..c656b616
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_110.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_110.png
new file mode 100644
index 00000000..44ebf941
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_110.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_111.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_111.png
new file mode 100644
index 00000000..d37fce52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_111.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_112.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_112.png
new file mode 100644
index 00000000..ca7a468d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_112.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_118.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_118.png
new file mode 100644
index 00000000..70acfcd6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_118.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_12.png
new file mode 100644
index 00000000..00d5be2c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_120.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_120.png
new file mode 100644
index 00000000..239dbdb0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_120.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_121.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_121.png
new file mode 100644
index 00000000..e4f9acca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_121.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_122.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_122.png
new file mode 100644
index 00000000..46545ce1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_122.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_124.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_124.png
new file mode 100644
index 00000000..df4cb8f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_124.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_126.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_126.png
new file mode 100644
index 00000000..df9e5579
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_126.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_127.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_127.png
new file mode 100644
index 00000000..ca55cf97
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_127.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_128.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_128.png
new file mode 100644
index 00000000..05ab8ee4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_128.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_129.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_129.png
new file mode 100644
index 00000000..b3545702
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_129.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_13.png
new file mode 100644
index 00000000..51788257
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_130.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_130.png
new file mode 100644
index 00000000..a67b589d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_130.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_131.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_131.png
new file mode 100644
index 00000000..7ca570d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_131.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_137.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_137.png
new file mode 100644
index 00000000..77f2bdfa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_137.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_14.png
new file mode 100644
index 00000000..3dad8873
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_142.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_142.png
new file mode 100644
index 00000000..83ceca3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_142.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_144.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_144.png
new file mode 100644
index 00000000..c9867733
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_144.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_145.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_145.png
new file mode 100644
index 00000000..3efd557e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_145.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_146.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_146.png
new file mode 100644
index 00000000..b61c387c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_146.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_147.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_147.png
new file mode 100644
index 00000000..3cce7a50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_147.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_149.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_149.png
new file mode 100644
index 00000000..3f14f809
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_149.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_15.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_15.png
new file mode 100644
index 00000000..8705d381
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_153.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_153.png
new file mode 100644
index 00000000..048c1d48
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_153.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_156.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_156.png
new file mode 100644
index 00000000..662e8548
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_156.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_157.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_157.png
new file mode 100644
index 00000000..e61d699e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_157.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_158.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_158.png
new file mode 100644
index 00000000..bb14e579
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_158.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_16.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_16.png
new file mode 100644
index 00000000..bb01833e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_160.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_160.png
new file mode 100644
index 00000000..568327ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_160.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_161.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_161.png
new file mode 100644
index 00000000..50dd9fe6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_161.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_162.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_162.png
new file mode 100644
index 00000000..9e40dd54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_162.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_163.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_163.png
new file mode 100644
index 00000000..b90aba16
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_163.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_164.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_164.png
new file mode 100644
index 00000000..3461ac41
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_164.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_165.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_165.png
new file mode 100644
index 00000000..fdbda7b3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_165.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_166.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_166.png
new file mode 100644
index 00000000..74a45e9d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_166.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_167.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_167.png
new file mode 100644
index 00000000..7714cfb7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_167.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_168.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_168.png
new file mode 100644
index 00000000..5bc575b5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_168.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_169.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_169.png
new file mode 100644
index 00000000..6788c7e7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_169.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_17.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_17.png
new file mode 100644
index 00000000..057d9f55
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_170.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_170.png
new file mode 100644
index 00000000..3aaa2d29
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_170.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_171.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_171.png
new file mode 100644
index 00000000..a4fe22eb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_171.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_172.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_172.png
new file mode 100644
index 00000000..0f7d0f99
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_172.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_173.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_173.png
new file mode 100644
index 00000000..ffe4ffa6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_173.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_174.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_174.png
new file mode 100644
index 00000000..51229ad1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_174.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_175.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_175.png
new file mode 100644
index 00000000..f970b56d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_175.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_176.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_176.png
new file mode 100644
index 00000000..d774c2b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_176.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_177.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_177.png
new file mode 100644
index 00000000..59909994
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_177.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_178.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_178.png
new file mode 100644
index 00000000..7900b881
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_178.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_179.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_179.png
new file mode 100644
index 00000000..144d0bcc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_179.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_18.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_18.png
new file mode 100644
index 00000000..cdc34a84
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_18.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_19.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_19.png
new file mode 100644
index 00000000..307861d4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_10_19.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_001.png
new file mode 100644
index 00000000..ddd0295e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_002.png
new file mode 100644
index 00000000..3b647a42
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_003.png
new file mode 100644
index 00000000..fe3f2f48
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_004.png
new file mode 100644
index 00000000..bcbabc8b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_005.png
new file mode 100644
index 00000000..ffbe931d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_006.png
new file mode 100644
index 00000000..ba53015f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_007.png
new file mode 100644
index 00000000..7cf185d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_008.png
new file mode 100644
index 00000000..5c8f6128
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_009.png
new file mode 100644
index 00000000..86af364a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_01.png
new file mode 100644
index 00000000..69ed4357
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_010.png
new file mode 100644
index 00000000..b1fbad7a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_011.png
new file mode 100644
index 00000000..14b14ec7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_012.png
new file mode 100644
index 00000000..328043c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_013.png
new file mode 100644
index 00000000..ebdaf26f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_014.png
new file mode 100644
index 00000000..000a7fb2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_015.png
new file mode 100644
index 00000000..125fbdd1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_016.png
new file mode 100644
index 00000000..24dd27d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_017.png
new file mode 100644
index 00000000..849649b6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_018.png
new file mode 100644
index 00000000..bcf95bf2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_019.png
new file mode 100644
index 00000000..820e9d63
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_02.png
new file mode 100644
index 00000000..9e3accd6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_020.png
new file mode 100644
index 00000000..f3832705
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_021.png
new file mode 100644
index 00000000..28a599db
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_022.png
new file mode 100644
index 00000000..f8c8647f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_023.png
new file mode 100644
index 00000000..8fa40505
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_024.png
new file mode 100644
index 00000000..01affda5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_025.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_025.png
new file mode 100644
index 00000000..cadd0d39
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_025.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_026.png
new file mode 100644
index 00000000..e8620507
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_027.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_027.png
new file mode 100644
index 00000000..0538c823
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_027.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_028.png
new file mode 100644
index 00000000..2dcba2a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_029.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_029.png
new file mode 100644
index 00000000..d04bf4e9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_029.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_03.png
new file mode 100644
index 00000000..962447d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_031.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_031.png
new file mode 100644
index 00000000..b76747f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_031.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_032.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_032.png
new file mode 100644
index 00000000..e61a426b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_032.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_033.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_033.png
new file mode 100644
index 00000000..72aede50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_033.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_034.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_034.png
new file mode 100644
index 00000000..e053cde4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_035.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_035.png
new file mode 100644
index 00000000..3b4babee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_035.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_036.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_036.png
new file mode 100644
index 00000000..7af0d000
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_036.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_037.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_037.png
new file mode 100644
index 00000000..4a25d5ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_037.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_038.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_038.png
new file mode 100644
index 00000000..b5b9e160
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_038.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_039.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_039.png
new file mode 100644
index 00000000..3ed45875
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_039.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_04.png
new file mode 100644
index 00000000..cfaf68e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_040.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_040.png
new file mode 100644
index 00000000..2120c46f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_041.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_041.png
new file mode 100644
index 00000000..cc23e3d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_041.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_042.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_042.png
new file mode 100644
index 00000000..ce30a0c9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_043.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_043.png
new file mode 100644
index 00000000..578e1204
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_043.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_044.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_044.png
new file mode 100644
index 00000000..0617fc48
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_044.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_045.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_045.png
new file mode 100644
index 00000000..3f971705
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_045.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_046.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_046.png
new file mode 100644
index 00000000..d6208cbb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_046.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_047.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_047.png
new file mode 100644
index 00000000..7e04122d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_047.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_048.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_048.png
new file mode 100644
index 00000000..eeba9983
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_048.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_049.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_049.png
new file mode 100644
index 00000000..bb4ccecf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_049.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_05.png
new file mode 100644
index 00000000..102c81ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_050.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_050.png
new file mode 100644
index 00000000..f662fc29
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_050.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_051.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_051.png
new file mode 100644
index 00000000..0e5ba705
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_051.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_052.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_052.png
new file mode 100644
index 00000000..06acc046
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_052.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_053.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_053.png
new file mode 100644
index 00000000..5983dd5c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_053.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_054.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_054.png
new file mode 100644
index 00000000..b1876641
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_054.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_055.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_055.png
new file mode 100644
index 00000000..328759fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_055.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_056.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_056.png
new file mode 100644
index 00000000..92b9aad8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_056.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_057.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_057.png
new file mode 100644
index 00000000..f1174220
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_057.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_058.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_058.png
new file mode 100644
index 00000000..4a158d5b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_058.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_059.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_059.png
new file mode 100644
index 00000000..8873f3e7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_059.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_06.png
new file mode 100644
index 00000000..7479034d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_060.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_060.png
new file mode 100644
index 00000000..aa904f88
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_060.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_061.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_061.png
new file mode 100644
index 00000000..732f3300
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_061.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_062.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_062.png
new file mode 100644
index 00000000..15be7232
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_062.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_063.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_063.png
new file mode 100644
index 00000000..6539c050
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_063.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_064.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_064.png
new file mode 100644
index 00000000..f856a3cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_064.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_065.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_065.png
new file mode 100644
index 00000000..5ba16104
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_065.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_066.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_066.png
new file mode 100644
index 00000000..8629198d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_066.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_067.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_067.png
new file mode 100644
index 00000000..c5a6f8d4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_067.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_068.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_068.png
new file mode 100644
index 00000000..22eb2dd6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_068.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_069.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_069.png
new file mode 100644
index 00000000..76bf4eea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_069.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_07.png
new file mode 100644
index 00000000..2ea98a02
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_070.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_070.png
new file mode 100644
index 00000000..0601930b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_070.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_071.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_071.png
new file mode 100644
index 00000000..efe6a18d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_071.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_072.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_072.png
new file mode 100644
index 00000000..eff8118b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_072.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_073.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_073.png
new file mode 100644
index 00000000..6e975ac6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_073.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_074.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_074.png
new file mode 100644
index 00000000..bf0cd109
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_074.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_075.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_075.png
new file mode 100644
index 00000000..0dcb9f8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_075.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_076.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_076.png
new file mode 100644
index 00000000..232cceec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_076.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_077.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_077.png
new file mode 100644
index 00000000..738be714
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_077.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_0771.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_0771.png
new file mode 100644
index 00000000..e148bcb8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_0771.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_078.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_078.png
new file mode 100644
index 00000000..24141474
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_079.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_079.png
new file mode 100644
index 00000000..e502ff11
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_079.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_08.png
new file mode 100644
index 00000000..9a460b27
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_080.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_080.png
new file mode 100644
index 00000000..f79859d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_080.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_081.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_081.png
new file mode 100644
index 00000000..778164dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_081.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_082.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_082.png
new file mode 100644
index 00000000..20e7e08c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_082.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_083.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_083.png
new file mode 100644
index 00000000..f5701293
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_083.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_09.png
new file mode 100644
index 00000000..9785ce9a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_10.png
new file mode 100644
index 00000000..5d143a30
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_11.png
new file mode 100644
index 00000000..a887ba57
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_12.png
new file mode 100644
index 00000000..a5c64403
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_13.png
new file mode 100644
index 00000000..7df2b272
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_14.png
new file mode 100644
index 00000000..8362123a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_15.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_15.png
new file mode 100644
index 00000000..b71e0992
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_16.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_16.png
new file mode 100644
index 00000000..48e7119b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_17.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_17.png
new file mode 100644
index 00000000..1e53a599
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_11_17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_001.png
new file mode 100644
index 00000000..e8be8785
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_002.png
new file mode 100644
index 00000000..605ad71e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_003.png
new file mode 100644
index 00000000..c92b2047
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_004.png
new file mode 100644
index 00000000..ee3e9bc0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_01.png
new file mode 100644
index 00000000..2d5f0f8f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_02.png
new file mode 100644
index 00000000..feaf164e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_03.png
new file mode 100644
index 00000000..b7693d55
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_04.png
new file mode 100644
index 00000000..1cc01f45
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_05.png
new file mode 100644
index 00000000..ab2eeefa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_06.png
new file mode 100644
index 00000000..e14699a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_07.png
new file mode 100644
index 00000000..fe4ee866
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_08.png
new file mode 100644
index 00000000..3ea6259f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_09.png
new file mode 100644
index 00000000..7dae3a43
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_10.png
new file mode 100644
index 00000000..26e2cbca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_11.png
new file mode 100644
index 00000000..38f3c2b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_12.png
new file mode 100644
index 00000000..f550c03b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_13.png
new file mode 100644
index 00000000..2a8a9958
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_14.png
new file mode 100644
index 00000000..87d0f86a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_12_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_001.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_001.png
new file mode 100644
index 00000000..8238f4fe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_002.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_002.png
new file mode 100644
index 00000000..cc43ee17
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_002.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_003.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_003.png
new file mode 100644
index 00000000..d104c01e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_003.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_004.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_004.png
new file mode 100644
index 00000000..efa4d89b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_004.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_005.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_005.png
new file mode 100644
index 00000000..7f8f2422
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_006.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_006.png
new file mode 100644
index 00000000..09f5f8c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_007.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_007.png
new file mode 100644
index 00000000..c9af91c9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_008.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_008.png
new file mode 100644
index 00000000..cdd39c30
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_008.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_009.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_009.png
new file mode 100644
index 00000000..52806b03
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_009.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_01.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_01.png
new file mode 100644
index 00000000..722c5f51
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_010.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_010.png
new file mode 100644
index 00000000..95adc85c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_011.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_011.png
new file mode 100644
index 00000000..fc591ca5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_011.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_012.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_012.png
new file mode 100644
index 00000000..d4f7b58f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_012.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_013.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_013.png
new file mode 100644
index 00000000..4ef1b029
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_013.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_014.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_014.png
new file mode 100644
index 00000000..2bc34a46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_014.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_015.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_015.png
new file mode 100644
index 00000000..a3d7f078
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_015.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_016.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_016.png
new file mode 100644
index 00000000..a8e09afa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_016.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_017.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_017.png
new file mode 100644
index 00000000..9eaae4e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_018.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_018.png
new file mode 100644
index 00000000..23aca1ea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_018.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_019.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_019.png
new file mode 100644
index 00000000..32a0a0e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_019.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_02.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_02.png
new file mode 100644
index 00000000..502c7c25
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_020.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_020.png
new file mode 100644
index 00000000..93a0adce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_020.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_021.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_021.png
new file mode 100644
index 00000000..2a970bb6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_021.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_022.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_022.png
new file mode 100644
index 00000000..b662cf65
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_022.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_023.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_023.png
new file mode 100644
index 00000000..16d621bb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_023.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_024.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_024.png
new file mode 100644
index 00000000..e6d53bf3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_024.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_025.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_025.png
new file mode 100644
index 00000000..7ddf7870
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_025.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_026.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_026.png
new file mode 100644
index 00000000..d6b9f00e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_026.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_027.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_027.png
new file mode 100644
index 00000000..c7eb8ab6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_027.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_028.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_028.png
new file mode 100644
index 00000000..b70190b6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_028.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_029.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_029.png
new file mode 100644
index 00000000..d7e90632
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_029.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_03.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_03.png
new file mode 100644
index 00000000..faf8cb97
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_030.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_030.png
new file mode 100644
index 00000000..8bd480e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_030.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_031.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_031.png
new file mode 100644
index 00000000..bfe74393
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_031.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_032.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_032.png
new file mode 100644
index 00000000..2054a5c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_032.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_034.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_034.png
new file mode 100644
index 00000000..209d9693
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_035.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_035.png
new file mode 100644
index 00000000..7bc2f4ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_035.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_036.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_036.png
new file mode 100644
index 00000000..b66fb889
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_036.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_037.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_037.png
new file mode 100644
index 00000000..cf688d24
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_037.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_038.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_038.png
new file mode 100644
index 00000000..4f64cd06
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_038.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_04.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_04.png
new file mode 100644
index 00000000..9c65e86d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_040.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_040.png
new file mode 100644
index 00000000..c1e87bc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_041.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_041.png
new file mode 100644
index 00000000..bbc90549
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_041.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_042.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_042.png
new file mode 100644
index 00000000..ee68e776
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_043.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_043.png
new file mode 100644
index 00000000..6e66c1d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_043.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_044.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_044.png
new file mode 100644
index 00000000..acc40123
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_044.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_045.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_045.png
new file mode 100644
index 00000000..e6c50df9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_045.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_046.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_046.png
new file mode 100644
index 00000000..4d81c1d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_046.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_047.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_047.png
new file mode 100644
index 00000000..906393b3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_047.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_048.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_048.png
new file mode 100644
index 00000000..8e8dd1cd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_048.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_049.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_049.png
new file mode 100644
index 00000000..f90f33a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_049.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_05.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_05.png
new file mode 100644
index 00000000..6d54e6a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_050.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_050.png
new file mode 100644
index 00000000..175b9985
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_050.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_051.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_051.png
new file mode 100644
index 00000000..675eeffb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_051.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_052.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_052.png
new file mode 100644
index 00000000..d66047b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_052.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_053.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_053.png
new file mode 100644
index 00000000..72d05c0d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_053.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_054.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_054.png
new file mode 100644
index 00000000..9a0004e2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_054.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_055.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_055.png
new file mode 100644
index 00000000..f92dbdc7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_055.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_056.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_056.png
new file mode 100644
index 00000000..c350f287
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_056.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_057.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_057.png
new file mode 100644
index 00000000..aaedf36d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_057.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_058.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_058.png
new file mode 100644
index 00000000..44ab0c8f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_058.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_059.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_059.png
new file mode 100644
index 00000000..68a6b415
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_059.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_06.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_06.png
new file mode 100644
index 00000000..84a097de
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_060.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_060.png
new file mode 100644
index 00000000..d1d270cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_060.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_061.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_061.png
new file mode 100644
index 00000000..3aef9a75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_061.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_062.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_062.png
new file mode 100644
index 00000000..ed029c74
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_062.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_063.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_063.png
new file mode 100644
index 00000000..c945fe0d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_063.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_064.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_064.png
new file mode 100644
index 00000000..ba5aae68
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_064.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_065.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_065.png
new file mode 100644
index 00000000..e6e0667a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_065.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_066.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_066.png
new file mode 100644
index 00000000..ec9c10b1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_066.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_067.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_067.png
new file mode 100644
index 00000000..4325cc59
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_067.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_068.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_068.png
new file mode 100644
index 00000000..845a74b6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_068.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_069.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_069.png
new file mode 100644
index 00000000..a442c80f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_069.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_07.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_07.png
new file mode 100644
index 00000000..3c9192ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_070.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_070.png
new file mode 100644
index 00000000..4197f4fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_070.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_072.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_072.png
new file mode 100644
index 00000000..ab68ba5d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_072.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_073.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_073.png
new file mode 100644
index 00000000..81d5f26a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_073.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_074.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_074.png
new file mode 100644
index 00000000..aa278dfc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_074.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_075.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_075.png
new file mode 100644
index 00000000..54b12f65
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_075.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_076.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_076.png
new file mode 100644
index 00000000..1bad5a16
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_076.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_0761.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_0761.png
new file mode 100644
index 00000000..7c0f6e88
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_0761.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_077.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_077.png
new file mode 100644
index 00000000..98dfd506
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_077.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_078.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_078.png
new file mode 100644
index 00000000..d7571796
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_079.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_079.png
new file mode 100644
index 00000000..1eab2fad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_079.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_08.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_08.png
new file mode 100644
index 00000000..d1116ecf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_080.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_080.png
new file mode 100644
index 00000000..a3ecbedd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_080.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_081.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_081.png
new file mode 100644
index 00000000..6365795d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_081.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_082.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_082.png
new file mode 100644
index 00000000..4d2f1c88
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_082.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_083.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_083.png
new file mode 100644
index 00000000..e1df3a77
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_083.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_084.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_084.png
new file mode 100644
index 00000000..0f6cdd25
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_084.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_085.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_085.png
new file mode 100644
index 00000000..8ebf7552
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_085.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_086.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_086.png
new file mode 100644
index 00000000..2348867b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_086.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_087.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_087.png
new file mode 100644
index 00000000..4b576e90
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_087.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_088.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_088.png
new file mode 100644
index 00000000..d06d3f7d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_088.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_089.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_089.png
new file mode 100644
index 00000000..ff0f98e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_089.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_09.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_09.png
new file mode 100644
index 00000000..8af4780b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_090.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_090.png
new file mode 100644
index 00000000..0a94866e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_090.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_091.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_091.png
new file mode 100644
index 00000000..66c1e852
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_091.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_092.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_092.png
new file mode 100644
index 00000000..c34c101e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_092.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_093.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_093.png
new file mode 100644
index 00000000..554d75f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_093.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_094.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_094.png
new file mode 100644
index 00000000..6a1f8f9f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_094.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_095.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_095.png
new file mode 100644
index 00000000..a1e6c65b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_095.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_096.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_096.png
new file mode 100644
index 00000000..6954e653
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_096.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_097.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_097.png
new file mode 100644
index 00000000..cd33f916
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_097.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_098.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_098.png
new file mode 100644
index 00000000..d6a6ea1e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_098.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_099.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_099.png
new file mode 100644
index 00000000..3ad467f0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_099.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_10.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_10.png
new file mode 100644
index 00000000..6dbef3b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_100.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_100.png
new file mode 100644
index 00000000..89cdcf03
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_100.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_101.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_101.png
new file mode 100644
index 00000000..0eb33318
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_101.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_102.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_102.png
new file mode 100644
index 00000000..52918b0e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_102.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_103.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_103.png
new file mode 100644
index 00000000..d4be9cd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_103.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_104.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_104.png
new file mode 100644
index 00000000..b3582a1c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_104.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_105.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_105.png
new file mode 100644
index 00000000..f8ff2f9a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_105.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_106.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_106.png
new file mode 100644
index 00000000..a2e03fa6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_106.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_107.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_107.png
new file mode 100644
index 00000000..aba5fa46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_107.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_108.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_108.png
new file mode 100644
index 00000000..ef5ff3cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_108.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_109.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_109.png
new file mode 100644
index 00000000..2ba75eff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_109.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_11.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_11.png
new file mode 100644
index 00000000..962bc8b7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_110.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_110.png
new file mode 100644
index 00000000..2ac30e28
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_110.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_111.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_111.png
new file mode 100644
index 00000000..4b5b2e3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_111.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_112.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_112.png
new file mode 100644
index 00000000..fea3a6b9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_112.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_113.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_113.png
new file mode 100644
index 00000000..d50fb96d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_113.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_114.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_114.png
new file mode 100644
index 00000000..b7408ddc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_114.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_115.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_115.png
new file mode 100644
index 00000000..b95d38f0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_115.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_116.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_116.png
new file mode 100644
index 00000000..9b80fb1e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_116.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_12.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_12.png
new file mode 100644
index 00000000..cc0f3623
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_13.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_13.png
new file mode 100644
index 00000000..925680a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_14.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_14.png
new file mode 100644
index 00000000..b1db157b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_15.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_15.png
new file mode 100644
index 00000000..26b6f4f5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_16.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_16.png
new file mode 100644
index 00000000..7756a047
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/B14853_13_16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Image840.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Image840.png
new file mode 100644
index 00000000..3956ace8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Image840.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Image847.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Image847.png
new file mode 100644
index 00000000..6562f229
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Image847.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Information_Box_Icon.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Information_Box_Icon.png
new file mode 100644
index 00000000..438accba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/Information_Box_Icon.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/cover.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/cover.png
new file mode 100644
index 00000000..b677f09f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/cover.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/quote.png b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/quote.png
new file mode 100644
index 00000000..9c9a6f00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/adv-dl-tf2-keras/img/quote.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/0.md b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/0.md
new file mode 100644
index 00000000..7e4a6d0c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/0.md
@@ -0,0 +1,136 @@
+# 零、前言
+
+TensorFlow 是用于机器学习以及最近的深度学习的最受欢迎的架构之一。 本书是将 TensorFlow 和 Keras 模型部署到实际应用中的指南。
+
+本书从专门的蓝图开始，说明如何构建可生成预测的应用。 随后的每节课程都针对特定类型的模型，例如神经网络，使用 Keras 配置深度学习环境，并着重于三个重要问题，即模型如何工作，如何在示例模型中提高我们的预测准确率以及如何使用实际应用评估其表现。
+
+在本书中，您将学习如何创建一个应用，该应用可以从深度学习中生成预测。 这项学习之旅从探索神经网络的通用组件及其基本表现开始。 在课程结束时，您将探索使用 TensorFlow 创建的训练有素的神经网络。 在其余的课程中，您将学习建立一个将不同组件组合在一起的深度学习模型，并评估它们在预测中的表现。 最后，我们将能够部署可运行的 Web 应用
+
+到本书结尾，您将可以通过创建全新的模型并根据需要更改应用的核心组件来创建更准确的预测。
+
+# 这本书涵盖的内容
+
+第 1 课，“神经网络和深度学习简介”可帮助您设置和配置深度学习环境，并开始研究各个模型和案例研究。 它还讨论了神经网络及其思想及其起源，并探讨了其功能。
+
+第 2 课，“模型架构”显示了如何使用深度学习模型预测比特币价格。
+
+第 3 课，“模型评估和优化”展示了如何评估神经网络模型。 我们将修改网络的超参数以提高其表现。
+
+第 4 课，“产品化”解释了如何将深度学习模型产品化，并提供了如何将模型部署为 Web 应用的练习。
+
+# 这本书需要什么
+
+本书将要求以下最低硬件要求：
+
+*   处理器：1.8 GHz 或更高
+*   内存：2 GB RAM
+*   硬盘：10 GB
+
+在本书中，我们将使用 Python 3，TensorFlow，TensorBoard 和 Keras。 请确保在计算机上安装了以下软件：
+
+*   代码编辑器，例如：[Visual Studio Code](https://code.visualstudio.com/)
+*   Python 3.6
+*   Windows 上的 TensorFlow 1.4 或更高版本
+*   Keras 2
+*   TensorBoard
+*   Jupyter 笔记本
+*   Pandas
+*   NumPy
+*   操作系统：Windows（8 或更高版本），MacOS 或 Linux（Ubuntu）
+
+# 这本书适合谁
+
+本书专为对使用 TensorFlow 和 Keras 开发应用感兴趣的开发人员，分析师和数据科学家而设计。 您需要具备编程知识。 我们还假设您熟悉 Python 3 和 Web 应用的基本知识。 您还需要对线性代数，概率和统计数据有事先的了解和使用知识。
+
+# 约定
+
+在本书中，您将找到许多可以区分不同类型信息的文本样式。 以下是这些样式的一些示例，并解释了其含义。
+
+文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字显示如下：“ `\`类提供了静态方法来生成自身的实例，例如`()`。”
+
+代码块设置如下：
+
+```py
+tf.nn.max_pool(
+activation,
+ksize=[1, 2, 2, 1],
+strides=[1, 2, 2, 1],
+padding="SAME")
+```
+
+任何命令行输入或输出的编写方式如下：
+
+```py
+$ python3 lesson_1/activity_1/test_stack.py
+```
+
+**新术语**和**重要词**以粗体显示。 您在屏幕上看到的字词，例如在菜单或对话框中，将以如下形式显示在文本中：“单击“下一步”按钮将您移至下一个屏幕。”
+
+### 注意
+
+警告或重要提示会出现在这样的框中。
+
+### 提示
+
+提示和技巧如下所示。
+
+# 读者反馈
+
+始终欢迎读者的反馈。 让我们知道您对这本书的看法-您喜欢或不喜欢的东西。 读者反馈对我们很重要，因为它可以帮助我们开发出您真正能充分利用的标题。
+
+要向我们发送一般反馈，只需发送电子邮件`<[feedback@packtpub.com](mailto:feedback@packtpub.com)>`，然后在您的邮件主题中提及该书的标题。
+
+如果您有专业知识的主题，并且对写作或撰写书籍感兴趣，请参阅 [www.packtpub.com/authors](http://www.packtpub.com/authors) 上的作者指南。
+
+# 客户支持
+
+既然您是 Packt 书的骄傲拥有者，我们可以通过很多方法来帮助您从购买中获得最大收益。
+
+# 下载示例代码
+
+您可以从[这里](http://www.packtpub.com)的帐户中下载本书的示例代码文件。 如果您在其他地方购买了此书，则可以访问[这里](http://www.packtpub.com/support)并注册以将文件直接通过电子邮件发送给您。
+
+您可以按照以下步骤下载代码文件：
+
+1.  使用您的电子邮件地址和密码登录或注册到我们的网站。
+2.  将鼠标指针悬停在顶部的`SUPPORT`选项卡上。
+3.  单击**代码下载**和**勘误表**。
+4.  在**搜索**框中输入书籍的名称。
+5.  选择您要下载其代码文件的书。
+6.  从购买本书的下拉菜单中选择。
+7.  点击**代码下载**。
+
+您还可以通过在 Packt Publishing 网站上的图书网页上单击**代码文件**按钮来下载代码文件。 通过在**搜索**框中输入书名可以访问此页面。 请注意，您需要登录到 Packt 帐户。
+
+下载文件后，请确保使用以下最新版本解压缩或解压缩文件夹：
+
+*   Windows 的 WinRAR/7-Zip
+*   适用于 Mac 的 Zipeg/iZip/UnRarX
+*   适用于 Linux 的 7-Zip/PeaZip
+
+本书的代码包也托管在 [GitHub](https://github.com/TrainingByPackt/Beginning-Application-Developmentwith-TensorFlow-and-Keras) 上。 我们还从[这里](https://github.com/PacktPublishing/)提供了丰富的书籍和视频目录中的其他代码包。 去看一下！
+
+# 安装
+
+在开始本课程之前，我们将安装 Visual Studio Code，Python 3，TensorFlow 和 Keras。 安装步骤如下：
+
+## 安装 Visual Studio
+
+1.  在浏览器中访问[这里](https://code.visualstudio.com/)。
+2.  单击主页右上角的下载。
+3.  接下来，选择 Windows。
+4.  按照安装程序中的步骤就可以了！ 您的 Visual Studio Code 已准备就绪。
+
+## 安装 Python 3
+
+1.  转到[这里](https://www.python.org/downloads/)。
+2.  单击 Download Python 3.6.4 选项下载设置。
+3.  按照安装程序中的步骤就可以了！ 您的 Python 已准备就绪。
+
+## 安装 TensorFlow
+
+按照[以下网站](https://www.tensorflow.org/install/install_windows)上的说明下载并安装 TensorFlow。
+
+## 安装 Keras
+
+按照[以下网站](https://keras.io/#installation)上的说明下载并安装 Keras。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/1.md b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/1.md
new file mode 100644
index 00000000..42b3a57d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/1.md
@@ -0,0 +1,478 @@
+# 一、神经网络和深度学习简介
+
+在本课程中，我们将介绍神经网络的基础知识以及如何建立深度学习编程环境。 我们还将探讨神经网络的常见组件及其基本操作。 我们将通过探索使用 TensorFlow 创建的训练有素的神经网络来结束本课程。
+
+本课是关于了解神经网络可以做什么的。 我们将不讨论深度学习算法基础的数学概念，而将描述构成深度学习系统的基本部分。 我们还将看一些使用神经网络解决现实问题的例子。
+
+本课将为您提供有关如何设计使用神经网络解决问题的系统的实用直觉，包括如何确定是否可以使用此类算法完全解决给定的问题。 从本质上讲，本课挑战您将问题视为思想的数学表示形式。 在本课程结束时，您将能够考虑这些表示形式的集合来思考问题，然后开始认识到深度学习算法如何学习这些表示形式。
+
+# 课程目标
+
+在本课程结束时，您将能够：
+
+*   涵盖神经网络的基础
+*   设置深度学习编程环境
+*   探索神经网络的通用组件及其基本操作
+*   通过探索使用 TensorFlow 创建的训练有素的神经网络来结束本课程
+
+# 什么是神经网络？
+
+麻省理工学院的沃伦·麦卡洛（Warren McCullough）和沃尔特·皮茨（Walter Pitts）于 40 年代首次提出了神经网络，也称为，即人工神经网络。
+
+### 注意
+
+有关更多信息，请参见《神经网络解释》，[可在以下网址访问](http://news.mit.edu/2017/explained-neural-networks-deep-learning-0414)。
+
+受神经科学进步的启发，他们建议创建一个计算机系统，该计算机系统可以重现大脑（人类或其他方式）的工作方式。 其核心思想是作为互连网络工作的计算机系统。 即，具有许多简单组件的系统。 这些组件既可以解释数据，又可以相互影响如何解释数据。 今天仍然保留着相同的核心思想。
+
+深度学习在很大程度上被认为是神经网络的当代研究。 可以将其视为神经网络的当前名称。 主要区别在于，深度学习中使用的神经网络通常比早期的神经网络更大，即具有更多的节点和层。 深度学习算法和应用通常需要获得成功的资源，因此使用*深度*一词来强调其大小和大量相互连接的组件。
+
+## 成功的应用
+
+自从 40 年代以一种形式或另一种形式出现以来，一直在研究神经网络。 但是，直到最近，深度学习系统才在大型工业应用中成功使用。
+
+神经网络的当代支持者已在语音识别，语言翻译，图像分类和其他领域取得了巨大的成功。 其当前的突出优势是可用计算能力的显着提高以及**图形处理单元**（**GPU**）和**张量处理单元**（**TPU**）比常规 CPU 能够执行更多的同时数学运算，并且数据可用性更高。
+
+不同 AlphaGo 算法的功耗。 AlphaGo 是 DeepMind 的一项举措，旨在开发出一系列击败 Go 游戏的算法。 它被认为是深度学习的强大典范。 TPU 是 Google 开发的一种芯片组，用于深度学习程序。
+
+该图描绘了用于训练不同版本的 AlphaGo 算法的 GPU 和 TPU 的数量。 [来源](https://deepmind.com/blog/alphago-zero-learning-scratch/)。
+
+### 注意
+
+在本书中，我们不会使用 GPU 来完成我们的活动。 不需要 GPU 与神经网络一起使用。 在许多简单的示例（如本书中提供的示例）中，所有计算都可以使用简单的笔记本电脑的 CPU 执行。 但是，在处理非常大的数据集时，鉴于长时间训练神经网络不切实际，GPU 可能会提供很大帮助。
+
+这是神经网络在其中产生巨大影响的一些实例：
+
+*   **翻译文本**：2017 年，Google 宣布将为其翻译服务发布一种名为**转换器**的新算法。 该算法由使用双语文本训练的循环神经网络（LSTM）组成。 Google 表明，与行业标准（BLEU）相比，其算法已获得了显着的准确率，并且在计算效率上也很高。 据报道，在撰写本文时，转换器被 Google 翻译用作其主要翻译算法。
+
+    ### 注意
+
+    Google 研究博客，[《转换器：一种用于语言理解的新型神经网络架构》](https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)。
+
+*   **自动驾驶汽车**：Uber，NVIDIA 和 Waymo 被认为正在使用深度学习模型来控制不同的控制驾驶的车辆功能。 每个公司都在研究多种可能性，包括使用人工训练网络，模拟在虚拟环境中驾驶的车辆，甚至创建类似于城市的小型环境，在其中可以根据预期和意外事件对车辆进行训练。
+
+    ### 注意
+
+    +   [`Alexis C. Madrigal: Inside Waymo's Secret World for Training Self-Driving Cars. The Atlantic. August 23, 2017.`](https://www.theatlantic.com/technology/archive/2017/08/inside-waymos-secret-testing-and-simulation-facilities/537648/)
+    +   [`NVIDIA: End-to-End Deep Learning for Self-Driving Cars. August 17, 2016.`](https://devblogs.nvidia.com/parallelforall/deep-learning-self-driving-cars/)
+    +   [`Dave Gershgorn: Uber's new AI team is looking for the shortest route to self-driving cars. Quartz. December 5, 2016.`](https://qz.com/853236/ubers-new-ai-team-is-looking-for-the-shortest-route-to-self-driving-cars/)
+
+*   **图像识别**：Facebook 和 Google 使用深度学习模型来识别图像中的实体，并自动将这些实体标记为一组联系人中的人物。 在这两种情况下，都使用先前标记的图像以及目标朋友或联系人的图像来训练网络。 两家公司都报告说，在大多数情况下，这些模型能够以很高的精确度推荐朋友或联系人。
+
+尽管其他行业中有更多示例，但深度学习模型的应用仍处于起步阶段。 还有更多成功的应用，包括您创建的应用。
+
+### 为什么神经网络这么好？
+
+为什么神经网络如此强大？ 神经网络之所以强大，是因为它们可用于以合理的近似值预测任何给定的函数。 如果一个人能够将一个问题表示为一个数学函数，并且还具有可以正确表示该函数的数据，那么原则上，只要有足够的资源，深度学习模型就可以近似该函数。 这通常称为神经网络的通用性原则。
+
+### 注意
+
+有关更多信息，请参阅 Michael Nielsen 的[《神经网络和深度学习：神经网络可以计算任何函数的视觉证明》](http://neuralnetworksanddeeplearning.com/chap4.html)。
+
+在本书中，我们将不探讨通用性原理的数学证明。 但是，神经网络的两个特征应该为您提供有关如何理解该原理的正确直觉：表示学习和函数近似。
+
+### 注意
+
+有关更多信息，请参阅[《深度强化学习的简要概述》](https://www.arxiv-vanity.com/papers/1708.05866/)。
+
+#### 表示学习
+
+用于训练神经网络的数据包含表示形式（也称为*特征*），这些表示形式说明您要解决的问题。 例如，如果有兴趣从图像中识别人脸，则将一组包含人脸的图像中每个像素的颜色值用作起点。 然后，模型将在训练过程中将像素组合在一起，从而不断学习更高级别的表示。
+
+![Representation Learning](img/image01_01.jpg)
+
+图 1：从输入数据开始的一系列高级表示。 基于原始图像得出的图像，来自 Yan LeCun，Yoshua Bengio 和 Geoffrey Hinton 的《深度学习》。
+
+用正式的词来说，神经网络是计算图，其中每个步骤从输入数据计算更高的抽象表示。
+
+这些步骤中的每一步都代表进入不同抽象层的过程。 数据经过这些层，不断建立更高级别的表示。 该过程以最大可能的表示形式结束：模型试图进行预测。
+
+#### 函数近似
+
+当神经网络学习数据的新表示时，它们通过将权重和偏差与来自不同层的神经元相结合来实现。 每当训练周期发生时，他们就会使用称为反向传播的数学技术来调整这些连接的权重。 权重和偏差在每个回合中都会改善，直至达到最佳效果。 这意味着神经网络可以测量每个训练周期的错误程度，调整每个神经元的权重和偏差，然后重试。 如果确定某项修改产生的效果比上一轮更好，它将投资于该修改，直到获得最佳解决方案。
+
+简而言之，该过程是神经网络可以近似函数的原因。 但是，神经网络可能无法完美地预测函数有很多原因，其中主要的原因是：
+
+*   许多函数包含随机属性（即随机属性）
+*   训练数据可能会过拟合
+*   可能缺少训练数据
+
+在的许多实际应用中，简单的神经网络能够以合理的精度近似一个函数。 这些应用将成为本书的重点。
+
+### 深度学习的局限性
+
+深度学习技术最适合可以用形式化数学规则（即，数据表示形式）定义的问题。 如果很难用这种方式定义问题，则深度学习可能不会提供有用的解决方案。 此外，如果可用于给定问题的数据有偏差或仅包含生成该问题的基础函数的部分表示，则深度学习技术将仅能够重现该问题而不能学习解决该问题。
+
+记住，深度学习算法正在学习数据的不同表示以近似给定的函数。 如果数据不能恰当地表示函数，则可能是神经网络会错误地表示函数。 考虑以下类比：您正在尝试预测汽油（即燃料）的全国价格并创建深度学习模型。 您可以将信用卡对帐单与日常汽油费用一起用作该模型的输入数据。 该模型最终可能会了解您的汽油消耗模式，但可能会误述由仅在您的数据中每周代表的其他因素（例如政府策略，市场竞争，国际政治等）引起的汽油价格波动。 在生产中使用该模型时，最终将产生错误的结果。
+
+为避免此问题，请确保用于训练模型的数据代表该模型试图尽可能准确地解决的问题。
+
+### 注意
+
+有关此主题的深入讨论，请参阅 FrançoisChollet 即将出版的书[《使用 Python 进行深度学习》](https://blog.keras.io/the-limitations-of-deep-learning.html)。 François 是 Keras（本书中使用的 Python 库）的创建者。 深度学习的局限性这一章对于理解该主题特别重要。 
+
+#### 内在偏见和道德考量
+
+研究人员建议使用深度学习模型而不考虑训练数据中的固有偏差不仅会导致表现不佳，还会导致道德上的复杂化。
+
+例如，2016 年底，中国上海交通大学的研究人员创建了一个神经网络，该神经网络仅使用犯罪现场的面孔对犯罪分子进行正确分类。 研究人员使用了 1,856 张中国男子的图像，其中一半被定罪。
+
+### 注意
+
+[他们的模型识别出囚犯的准确率高达 89.5% ](https://blog.keras.io/the-limitations-of-deep-learning.html)。
+
+麻省理工学院技术评论，[《神经网络学习通过面孔识别犯罪分子》](https://blog.keras.io/the-limitations-of-deep-learning.html)。
+
+该论文在科学界和大众媒体中引起了极大轰动。 所提出的解决方案的一个关键问题是它不能正确地识别输入数据中固有的偏差。 即，本研究中使用的数据来自两个不同的来源：一个用于罪犯，一个用于非罪犯。 一些研究人员建议，他们的算法可以识别与研究中使用的不同数据源相关的模式，而不是从人们的人脸识别相关模式。 尽管可以对模型的可靠性进行技术上的考虑，但主要的批评是出于道德基础：人们应该清楚地认识到深度学习算法所使用的输入数据的固有偏差，并考虑其应用将如何对人们的学习产生影响。 生活。
+
+### 注意
+
+蒂莫西·雷维尔（Timothy Revell），[《用于“识别”罪犯的人脸识别技术的关注》](https://www.newscientist.com/article/2114900-concerns-as-face-recognition-tech-used-to-identify-criminals/)。
+
+为了使进一步了解学习算法（包括深度学习）中的道德主题，请参阅 [AI Now Institute](https://ainowinstitute.org/) 为了解智能系统的社会意义所做的工作。
+
+## 神经网络的通用组件和操作
+
+神经网络具有两个关键组成部分：层和节点。
+
+节点是负责特定操作的，层是用于区分系统不同阶段的节点组。 通常，神经网络具有以下三类类别：
+
+*   **输入**：接收并首先解释输入数据的位置
+*   **隐藏**：进行计算的位置，在处理数据时对其进行修改
+*   **输出**：组装并评估输出的位置
+
+![Common Components and Operations of Neural Networks](img/image01_02.jpg)
+
+图 2：神经网络中最常见的层的图示。 来自 Glosser.ca 自己的作品：[`Artificial neural network.svg`文件的衍生物](https://commons.wikimedia.org/w/index.php?curid=24913461)，CC BY-SA 3.0
+
+隐藏层是神经网络中最重要的层。 它们被称为*隐藏*的，因为在其中生成的表示形式在数据中不可用，但可以从中学习。 在这些层中，神经网络中进行了主要计算。
+
+节点是网络中表示数据的地方。 有两个与节点关联的值：偏差和权重。 这两个值都影响数据如何由节点表示并传递到其他节点。 当网络*学习*时，它会有效地调整这些值以满足优化函数。
+
+神经网络中的大部分工作都发生在隐藏层中。 不幸的是，没有明确的规则来确定网络应具有多少层或节点。 在实现神经网络时，人们可能会花费时间来尝试不同的层和节点组合。 建议始终从单个层开始，并且总是以反映输入数据具有的特征数量（即，数据集中有多少*列*可用）的数量的节点开始。 然后，将继续添加层和节点，直到获得令人满意的表现-或每当网络开始过度适应训练数据时。
+
+当前的神经网络实践通常仅限于实验，该实验涉及节点和层的数量（例如，网络的深度）以及在每一层执行的操作的种类。 在许多成功的实例中，仅通过调整这些参数，神经网络的表现就优于其他算法。
+
+作为一种直觉，考虑一下数据通过输入层进入神经网络系统，然后在网络中从一个节点移动到另一个节点。 数据采用的路径将取决于节点的互连程度，每个节点的权重和偏差，在每个层中执行的操作的类型以及此类操作结束时的数据状态。 神经网络通常需要许多“运行”（或周期），以便不断调整节点的权重和偏差，这意味着数据多次流经图的不同层。
+
+本节为您提供了神经网络和深度学习的概述。 此外，我们讨论了入门者的直觉，以了解以下关键概念：
+
+*   只要有足够的资源和数据，神经网络原则上就可以近似大多数函数。
+*   层和节点是神经网络最重要的结构组件。 通常，人们会花费大量时间来更改这些组件以找到一种有效的架构。
+*   权重和偏差是网络在训练过程中“学习”的关键属性。
+
+这些概念将在我们的下一部分中证明是有用的，因为我们探索了一个在现实世界中经过训练的神经网络，并进行了修改以训练自己的神经网络。
+
+# 配置深度学习环境
+
+在完成本课程之前，我们希望您与真实的神经网络进行交互。 我们将首先介绍本书中使用的主要软件组件，并确保已正确安装它们。 然后，我们将探索一个预训练的神经网络，并探索前面“什么是神经网络”部分讨论的一些组件和操作。
+
+## 深度学习的软件组件
+
+我们将使用以下软件组件进行深度学习：
+
+### Python 3
+
+本书中，我们将使用 Python 3。 Python 是一种通用编程语言，在科学界非常流行-因此在深度学习中得到了采用。 本书不支持 Python 2，但可用于训练神经网络而不是 Python3。即使您选择在 Python 2 中实现解决方案，也应考虑迁移到 Python 3，因为其现代功能集比 Python 3 更强大。 它的前身。
+
+### TensorFlow
+
+TensorFlow 是一个库，用于以图形式执行数学运算。 TensorFlow 最初由 Google 开发，如今已是一个由许多贡献者参与的开源项目。 它在设计时就考虑了神经网络，是创建深度学习算法时最受欢迎的选择之一。
+
+TensorFlow 也以其生产组件而闻名。 它随附 [TensorFlow 服务](https://github.com/tensorflow/serving)，这是一种用于深度学习模型的高性能系统。 此外，可以在其他高性能编程语言（例如 Java，Go 和 C）中使用经过训练的 TensorFlow 模型。这意味着人们可以在从微型计算机（即 RaspberryPi）到 Android 设备的任何内容中部署这些模型。 。
+
+### Keras
+
+为了与 TensorFlow 高效交互，我们将使用 [Keras](https://keras.io/)，这是一个具有高级 API 的 Python 包，用于开发神经网络。 虽然 TensorFlow 专注于在计算图中彼此交互的组件，但 Keras 专门专注于神经网络。 Keras 使用 TensorFlow 作为其后端引擎，使开发此类应用变得更加容易。
+
+截至 2017 年 11 月（TensorFlow 1.4 版），Keras 作为 TensorFlow 的一部分分发。 在`tf.keras`命名空间下可用。 如果安装了 TensorFlow 1.4 或更高版本，则系统中已经有 Keras 可用。
+
+### TensorBoard
+
+TensorBoard 是用于探索 TensorFlow 模型的数据可视化套件，并与 TensorFlow 原生集成。 TensorBoard 通过训练 TensorFlow 在训练神经网络时使用的检查点和摘要文件来工作。 可以近乎实时（延迟 30 秒）或在网络完成训练后进行探索。 TensorBoard 使实验和探索神经网络的过程变得更加容易，而且跟随您的网络训练也非常令人兴奋！
+
+### Jupyter 笔记本，Pandas 和 NumPy
+
+在使用 Python 创建深度学习模型时，通常开始进行交互工作，慢慢地开发一个模型，最终将其变成结构化的软件。 在此过程中，经常使用以下三个 Python 包：Jupyter 笔记本，Pandas 和 NumPy：
+
+*   Jupyter 笔记本创建交互式 Python 会话，使用网络浏览器作为其界面
+*   Pandas 是用于数据操纵和分析的包
+*   NumPy 是，经常用于整形数据和执行数值计算
+
+在本书中偶尔会使用这些包。 它们通常不构成生产系统的一部分，但经常在浏览数据和开始构建模型时使用。 我们将更加详细地关注其他工具。
+
+### 注意
+
+Michael Heydt 的《学习 Pandas》和 Dan Toomey 的《学习 Jupyter》提供了有关如何使用这些技术的全面指南。 这些书是继续学习的好参考。
+
+| 组件 | 描述 | 最低版本 |
+| --- | --- | --- |
+| Python | 通用编程语言。 深度学习应用开发中使用的流行语言。 | 3.6 |
+| TensorFlow | 开源图计算 Python 包，通常用于开发深度学习系统。 | 1.4 |
+| Keras | 提供与 TensorFlow 的高级接口的 Python 包。 | 2.0.8-tf（随 TensorFlow 一起分发） |
+| TensorBoard | 基于浏览器的软件，用于可视化神经网络统计信息。 | 0.4.0 |
+| Jupyter 笔记本 | 基于浏览器的软件，用于与 Python 会话进行交互。 | 5.2.1 |
+| Pandas | 用于分析和处理数据的 Python 包。 | 0.21.0 |
+| NumPy | 用于高性能数值计算的 Python 包。 | 1.13.3 |
+
+> 表 1：创建深度学习环境所需的软件组件
+
+### 活动 1 – 验证软件组件
+
+在探索训练有素的神经网络之前，让我们验证所需的所有软件组件是否可用。 我们包含了一个脚本，用于验证这些组件的工作情况。 让我们花点时间运行脚本并处理可能发现的所有最终问题。
+
+我们现在将测试您​​的工作环境中是否可以使用本书所需的软件组件。 首先，我们建议使用 Python 的本机模块`venv`创建一个 Python 虚拟环境。 虚拟环境用于管理项目依赖项。 我们建议您创建的每个项目都具有自己的虚拟环境。 现在创建一个。
+
+### 注意
+
+如果您对 conda 环境更满意，请随意使用它们。
+
+1.  可以使用以下命令创建 Python 虚拟环境：
+
+    ```py
+    $ python3 -m venv venv
+    $ source venv/bin/activate
+    ```
+
+2.  后面的命令会将字符串（`venv`）附加到命令行的开头。 使用以下命令停用您的虚拟环境：
+
+    ```py
+    $ deactivate
+    ```
+
+    ### 注意
+
+    确保在处理项目时始终激活您的 Python 虚拟环境。
+
+3.  激活您的虚拟环境后，通过对文件`requirements.txt`执行` pip`来确保安装了正确的组件。 这将尝试在该虚拟环境中安装本书中使用的模型。 如果它们已经可用，它将什么都不做：
+
+    ![Activity 1 – Verifying Software Components](img/image01_03.jpg)
+
+    > 图 3：运行 PIP 的终端的图像，用于从`requirements.txt`安装依赖项
+
+    通过运行以下命令来安装依赖项：
+
+    ```py
+    $ pip install –r requirements.txt
+    ```
+
+    此将为您的系统安装所有必需的依赖项。 如果它们已经安装，则此命令应仅通知您。
+
+    这些依赖项对于使用本书中的所有代码活动都是必不可少的。
+
+    作为此活动的最后一步，让我们执行脚本`test_stack.py`。 该脚本正式验证了本书所需的所有包是否已在系统中安装并可用。
+
+4.  学生，运行脚本`lesson_1/activity_1/test_stack.py`，检查 Python 3，TensorFlow 和 Keras 的依赖项是否可用。 使用以下命令：
+
+    ```py
+    $ python3 lesson_1/activity_1/test_stack.py
+    ```
+
+    该脚本返回有用的消息，说明已安装的内容和需要安装的内容。
+
+5.  在终端中运行以下脚本命令：
+
+    ```py
+    $ tensorboard --help
+    ```
+
+    您应该看到一条帮助消息，解释每个命令的作用。 如果您没有看到该消息-或看到一条错误消息-请向您的教练寻求帮助：
+
+    ![Activity 1 – Verifying Software Components](img/image01_04.jpg)
+
+    > 图 4：运行`python3 test_stack.py`的终端的图像。 该脚本返回消息，通知所有依赖项均已正确安装。
+
+    ### 注意
+
+    如果出现类似以下的消息，则无需担心：
+
+    ```py
+    RuntimeWarning: compiletime version 3.5 of module 'tensorflow.python.framework.fast_tensor_util' does not match runtime version 3.6
+    return f(*args, **kwds)
+    ```
+
+    如果您运行的是 Python 3.6，并且分布式 TensorFlow 滚轮是在其他版本（本例中为 3.5）下编译的，则会显示该消息。 您可以放心地忽略该消息。
+
+    一旦我们确认已安装 Python 3，TensorFlow，Keras，TensorBoard 和`requirements.txt`中概述的包，我们就可以继续进行有关如何训练神经网络的演示，然后继续使用这些工具的相同工具探索受过训练的网络。
+
+    ### 注意
+
+    对于参考解决方案，请使用`Code/Lesson-1/activity_1`文件夹。
+
+#### 探索训练有素的神经网络
+
+在本节中，我们探索训练有素的神经网络。 我们这样做是为了了解神经网络如何解决现实世界的问题（预测手写数字），并熟悉 TensorFlow API。 在探索该神经网络时，我们将认识到先前各节中介绍的许多组件，例如节点和层，但我们还将看到许多我们不认识的组件（例如激活函数），我们将在后续部分中进行探索。 然后，我们将完成一个有关如何训练神经网络的练习，然后自己训练该网络。
+
+我们将要探索的网络已经过训练，可以使用手写数字的图像识别数字（整数）。 它使用了 [MNIST 数据集](http://yann.lecun.com/exdb/mnist/)，该数据集通常用于探索模式识别任务。
+
+##### MNIST 数据集
+
+**国家标准技术混合研究所**（**MNIST**）数据集包含 60,000 张图像的训练集和 10,000 张图像的测试集。 每个图像都包含一个手写数字。 该数据集（是美国政府创建的数据集的衍生产品）最初用于测试解决计算机系统识别手写文本问题的不同方法。 为了提高邮政服务，税收系统和政府服务的表现，能够做到这一点很重要。 对于现代方法，MNIST 数据集被认为过于幼稚。 在现代研究中（例如 CIFAR）使用了不同的和更新的数据集。 但是，MNIST 数据集对于了解神经网络的工作原理仍然非常有用，因为已知的模型可以高效地达到很高的准确率。
+
+### 注意
+
+CIFAR 数据集是机器学习数据集，其中包含按不同类别组织的图像。 与 MNIST 数据集不同，CIFAR 数据集包含许多不同领域的类，例如动物，活动和物体。 CIFAR 数据集位于[这里](https://www.cs.toronto.edu/~kriz/cifar.html)。
+
+![MNIST Dataset](img/image01_05.jpg)
+
+图 5：MNIST 数据集训练集中的节选。 每个图像是一个单独的`20x20`像素的图像，带有一个手写数字。 原始数据集可在以下位置获得：http://yann.lecun.com/exdb/mnist/。
+
+###### 使用 TensorFlow 训练神经网络
+
+现在，让我们训练一个神经网络，以使用 MNIST 数据集识别新数字。
+
+我们将实现称为“卷积神经网络”的专用神经网络来解决这个问题（我们将在后面的部分中详细讨论）。 我们的网络包含三个隐藏层：两个全连接层和一个卷积层。 **卷积层**由以下 Python 代码的 TensorFlow 代码段定义：：
+
+```py
+  W = tf.Variable(
+      tf.truncated_normal([5, 5, size_in, size_out], 
+      stddev=0.1),
+      name="Weights")
+
+   B = tf.Variable(tf.constant(0.1, shape=[size_out]), name="Biases")
+
+   convolution = tf.nn.conv2d(input, W, strides=[1, 1, 1, 1], padding="SAME")
+   activation = tf.nn.relu(convolution + B)
+
+  tf.nn.max_pool(
+  activation,
+  ksize=[1, 2, 2, 1],
+  strides=[1, 2, 2, 1],
+  padding="SAME")
+```
+
+### 注意
+
+请在`Code/Lesson-1/activity_2/`中使用`mnist.py`文件作为参考。 在代码编辑器中打开脚本。
+
+在我们的网络训练期间，我们只执行一次该代码段。
+
+变量`W`和`B`代表权重和偏差。 这些是隐藏层内的节点使用的值，用于在数据通过网络时更改网络对数据的解释。 现在不用担心其他变量。
+
+**全连接层**由以下 Python 代码段定义：：
+
+```py
+ W = tf.Variable(
+     tf.truncated_normal([size_in, size_out], stddev=0.1),
+  	  name="Weights")
+
+ B = tf.Variable(tf.constant(0.1, shape=[size_out]), name="Biases")
+	  activation = tf.matmul(input, W) + B
+```
+
+### 注意
+
+请在`Code/Lesson-1/activity_2/`中使用`mnist.py`文件作为参考。 在代码编辑器中打开脚本。
+
+在这里，我们还有两个 TensorFlow 变量`W`和`B`。 请注意，这些变量的初始化非常简单：`W`被初始化为修剪后的高斯分布（修剪过`size_in`和`size_out`）的随机值，标准差为`0.1,`和`B`（项）初始化为`0.1`（常数）。 这两个值在每次运行期间都会不断变化。 该代码段执行两次，产生两个全连接网络-一个将数据传递到另一个。
+
+那 11 行 Python 代码代表了我们完整的神经网络。 我们将在“第 2 课”，“模型架构”中详细介绍使用 Keras 的每个组件。 目前，应重点了解网络在每次运行时都会改变每个层中的`W`和`B`值，以及这些代码片段如何形成不同的层。 这 11 行 Python 是数十年来神经网络研究的高潮。
+
+现在让我们训练该网络以评估其在 MNIST 数据集中的表现。
+
+###### 训练神经网络
+
+请按照以下步骤设置此练习：
+
+1.  打开两个终端实例。
+2.  在这两个目录中，导航到目录`lesson_1/exercise_a`。
+3.  在两者中，确保您的 Python 3 虚拟环境处于活动状态，并且已安装`requirements.txt`中概述的要求。
+4.  在其中之一中，使用以下命令启动 TensorBoard 服务器：
+
+    ```py
+    $ tensorboard --logdir=mnist_example/
+    ```
+
+5.  在另一个目录中，运行`train_mnist.py`脚本。
+6.  启动服务器时，在提供的 TensorBoard URL 中打开浏览器。
+
+在运行脚本`train_mnist.py,`的终端中，您将看到带有模型周期的进度条。 打开浏览器页面时，您将看到几个图形。 单击读取**精度**的那个，将其放大并让页面刷新（或单击**刷新**按钮）。 随着时间的流逝，您将看到模型越来越准确。
+
+利用这一刻来说明神经网络在训练过程中尽早达到高准确率的能力。
+
+我们可以看到，在大约 200 个周期（或步骤）内，网络的准确率超过了 90%。 也就是说，网络正确获取了测试集中 90% 的数字。 在训练到第 2000 步时，网络继续获得准确率，在此期间结束时达到 97% 的准确率。
+
+现在，让我们也测试那些网络在看不见的数据下的表现。 我们将使用 Shafeen Tejani 创建的开源 Web 应用来探索受过训练的网络是否正确地预测了我们创建的手写数字。
+
+###### 使用没见过的数据测试网络表现
+
+在浏览器中访问[网站](http://mnist-demo.herokuapp.com/)并在指定的白框中，绘制一个`0`和`9`之间的数字：
+
+![Testing Network Performance with Unseen Data](img/image01_06.jpg)
+
+图 6：Web 应用中，我们可以手动绘制数字并测试两个受过训练的网络的准确率
+
+### 注意
+
+[来源](https://github.com/ShafeenTejani/mnist-demo)。
+
+在应用中，您可以看到两个神经网络的结果。 我们训练过的那个在左边（称为 CNN）。 它能正确分类所有手写数字吗？ 尝试在指定区域的边缘绘制编号。 例如，尝试在该区域的右边缘附近绘制数字`1`：
+
+![Testing Network Performance with Unseen Data](img/image01_07.jpg)
+
+图 7：两个网络都难以估计区域边缘上绘制的值
+
+### 注意
+
+在此示例中，我们看到在绘图区域的右侧绘制了数字`1`。 在两个网络中，此数字为`1`的概率为`0`。
+
+MNIST 数据集在图像边缘不包含数字。 因此，两个网络都没有为位于该区域的像素分配相关值。 如果我们将它们拉近指定区域的中心，则这两个网络都将更好地正确分类数字。 这表明神经网络只能像用于训练它们的数据一样强大。 如果用于训练的数据与我们试图预测的数据完全不同，则该网络很可能会产生令人失望的结果。
+
+#### 活动 2 –探索训练有素的神经网络
+
+在本节中，我们将探索运动过程中训练的神经网络。 我们还将通过更改原始网络中的超参数来训练其他一些网络。
+
+让我们开始探索在练习中训练的网络。 我们在本书的目录中提供了与二进制文件相同的受训网络。 让我们使用 TensorBoard 打开受过训练的网络，并探索其组件。
+
+在您的终端上，导航至目录`lesson_1/activity_2`并执行以下命令以启动 TensorBoard：
+
+```py
+$ tensorboard --logdir=mnist_example/
+```
+
+现在，在浏览器中打开 TensorBoard 提供的 URL。 您应该能够看到 TensorBoard 标量页面：
+
+![Activity 2 – Exploring a Trained Neural Network](img/image01_08.jpg)
+
+图 8：启动 TensorBoard 实例后的终端图像
+
+打开`tensorboard`命令提供的 URL 后，您应该能够看到以下 TensorBoard 页面：
+
+![Activity 2 – Exploring a Trained Neural Network](img/image01_09.jpg)
+
+图 9：TensorBoard 登陆页面的图像
+
+现在让我们探索我们训练有素的神经网络，看看它是如何工作的。
+
+在 TensorBoard 页面上，单击**标量**页面，然后放大**精度**图。 现在，将**平滑**滑块移动到`0.9`。
+
+准确率图衡量网络能够猜测测试集标签的准确率。 最初，网络猜测这些标签完全错误。 发生这种情况是因为我们已使用随机值初始化了网络的权重和偏差，因此其首次尝试只是一个猜测。 然后，网络将在第二次运行中更改其层的权重和偏差； 网络将继续通过改变其权重和偏置来投资于那些能带来积极成果的节点，并通过逐渐减少其对网络的影响（最终达到`0`）来惩罚那些没有结果的节点。 如您所见，这是一种非常有效的技术，可以快速产生出色的结果。
+
+让我们将注意力集中在**精度**图表上。 看看在大约 1,000 个周期后，该算法如何达到很高的准确率（`> 95%`）？ 在 1,000 到 2,000 个周期之间会发生什么？ 如果我们继续训练更多的周期，它将变得更加准确吗？
+
+当网络的精度继续提高时，在 1,000 到 2,000 之间，但是的速率下降。 如果训练更多的时间段，网络可能会略有改善，但是在当前架构下，其精度不会达到 100%。
+
+该脚本是 Google 官方脚本的修改版，旨在显示 TensorFlow 的工作方式。 我们将脚本分为易于理解的函数，并添加了许多注释来指导您的学习。 尝试通过修改脚本顶部的变量来运行该脚本：
+
+```py
+ LEARNING_RATE = 0.0001
+ EPOCHS = 2000
+```
+
+### 注意
+
+请在`Code/Lesson-1/activity_2/`中使用`mnist.py`文件作为参考。
+
+现在，尝试通过修改这些变量的值来运行该脚本。 例如，尝试将学习率修改为`0.1`，将周期修改为`100`。 您认为网络可以达到可比的结果吗？
+
+### 注意
+
+您还可以在神经网络中修改许多其他参数。 现在，尝试网络的周期和学习率。 您会注意到，这两个超参数可以极大地改变您网络的输出，但幅度却很大。 进行实验，看看是否可以通过更改这两个参数来使用当前架构更快地训练该网络。
+
+使用 TensorBoard 验证网络的训练方式。 通过将起始值乘以 10，再更改几次这些参数，直到您注意到网络正在改善。 调整网络并提高准确率的过程类似于当今工业应用中用于改进现有神经网络模型的过程。
+
+# 总结
+
+在本课程中，我们使用 TensorBoard 探索了经过 TensorFlow 训练的神经网络，并以不同的周期和学习率训练了我们自己的该网络的修改版本。 这为您提供了有关如何训练高性能神经网络的动手经验，还使您能够探索其某些局限性。
+
+您认为我们可以使用真实的比特币数据达到类似的准确率吗？ 在“第 2 课”，“模型结构”期间，我们将尝试使用通用的神经网络算法预测未来的比特币价格。 在“第 3 课”，“模型评估和优化”中，我们将评估和改进该模型，最后，在“第 4 课”，“产品化”，我们将创建一个程序，通过 HTTP API 对该系统进行预测。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/2.md b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/2.md
new file mode 100644
index 00000000..b92fcd46
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/2.md
@@ -0,0 +1,677 @@
+# 二、模型架构
+
+基于“第 1 课”，“神经网络和深度学习简介”的基本概念，我们现在进入一个实际问题：我们可以使用深度学习模型预测比特币价格吗？ 在本课程中，我们将学习如何建立尝试这样做的深度学习模型。
+
+我们将通过将所有这些组件放在一起并构建一个简单而完整的深度学习应用的第一个版本来结束本课程。
+
+# 课程目标
+
+在本课程中，您将：
+
+*   为深度学习模型准备数据
+*   选择正确的模型架构
+*   使用 Keras，一个 TensorFlow 抽象库
+*   使用训练好的模型进行预测
+
+# 选择正确的模型架构
+
+深度学习是一个正在进行大量研究活动的领域。 除其他外，研究人员致力于发明新的神经网络架构，该架构可以解决新问题或提高以前实现的架构的表现。
+
+在本节中，我们将研究新旧架构。 较旧的架构已用于解决大量问题，并且在开始新项目时通常被认为是正确的选择。 较新的架构已在特定问题上取得了巨大的成功，但很难一概而论。 后者很有趣，可以作为下一步探索的参考，但在启动项目时并不是一个好的选择。
+
+## 通用架构
+
+考虑到有许多种可能的架构，经常被用作两种应用的两种流行架构：**卷积神经网络**（**CNN**）和 **循环神经网络**（**RNN**）。 这些是基本的网络，应该被视为大多数项目的起点。 由于它们在该领域中的相关性，我们还包括了另外三个网络的描述： **RNN 变体的长短期记忆**（**LSTM**）网络； **生成对抗网络**（**GAN**）； 和深度强化学习。 后面的这些架构在解决当代问题方面取得了巨大的成功，但是使用起来有些困难。
+
+### 卷积神经网络
+
+卷积神经网络因处理具有网格状结构的问题而臭名昭著。 它们最初是为了对图像进行分类而创建的，但已用于许多其他领域，从语音识别到自动驾驶车辆。
+
+CNN 的基本见解是将紧密相关的数据用作训练过程的特征，而不仅仅是单个数据输入。 这个想法在图像的上下文中特别有效，因为位于另一个像素右边的一个像素也与该像素有关，因为它们构成了较大合成的部分。 在这种情况下，网络正在训练预测该组成。 因此，将几个像素组合在一起比单独使用单个像素更好。
+
+**卷积**的名称是，以表示此过程的数学表达式：
+
+![Convolutional Neural Networks](img/image02_01.jpg)
+
+图 1：卷积过程的图示图像来源：Volodymyr Mnih 等。
+
+### 注意
+
+有关更多信息，请参考[《通过深度强化学习进行人类水平控制》](https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)。
+
+### 循环神经网络
+
+卷积神经网络与一组输入一起工作，这些输入不断改变网络各个层和节点的权重和偏差。 这种方法的一个已知局限性是，在确定如何更改网络的权重和偏差时，其架构会忽略这些输入的顺序。
+
+专门创建了循环神经网络来解决该问题。 RNN 旨在处理顺序数据。 这意味着在每个周期，各层都会受到先前层的输出的影响。 给定序列中的先前观测值的记忆在后验观测值的评估中起作用。
+
+由于该问题的顺序性质，RNN 已在语音识别中成功应用。 此外，它们还用于翻译问题。 Google Translate 当前的算法**转换器**使用 RNN 将文本从一种语言翻译成另一种语言。
+
+### 注意
+
+有关更多信息，请参阅 Jakob Uszkoreit 撰写的[《转换器：一种用于语言理解的新型神经网络架构》](https://research.googleblog.com/2017/08/transformer-novel-neural-network.html)。
+
+![Recurrent Neural Networks](img/image02_02.jpg)
+
+图 2：[来自 distill.pub 的插图](https://distill.pub/2016/augmented-rnns/)。
+
+图 2 根据单词在句子中的位置显示英语单词与法语单词相关。 RNN 在语言翻译问题中非常受欢迎。
+
+长期短期存储网络是为解决消失的梯度问题而创建的 RNN 变体。 逐渐消失的梯度问题是由与当前步骤相距太远的内存组件引起的，并且由于它们的距离而将获得较低的权重。 LSTM 是 RNN 的变体，其中包含一个称为**遗忘门**的内存组件。 该组件可用于评估最新元素和旧元素如何影响权重和偏差，具体取决于观察值在序列中的位置。
+
+### 注意
+
+有关更多详细信息，请参见 1997 年 Sepp Hochreiter 和 JürgenSchmidhuber 首次引入 LSTM 架构。当前的实现已进行了一些修改。 有关 LSTM 每个组件如何工作的详细数学解释，我们建议克里斯托弗·奥拉（Christopher Olah）于 2015 年 8 月发表的文章[《了解 LSTM 网络》](http://colah.github.io/posts/2015-08-Understanding-LSTMs/)。
+
+### 生成对抗网络
+
+**生成对抗网络**（**GAN**）由蒙特利尔大学的 Ian Goodfellow 和他的同事于 2014 年发明。 GAN 提出，与其拥有一个优化权重和偏向以最小化其误差为目标的神经网络，不如两个神经网络为此目的相互竞争。
+
+### 注意
+
+有关更多详细信息，请参见 Ian Goodfellow 等人的[《生成对抗网络》](https://arxiv.org/abs/1406.2661)。
+
+GAN 具有生成新数据（即“伪”数据）的网络和评估由第一个网络生成的数据为真实或“伪”数据的可能性的网络。 他们之所以竞争是因为两者都学到了：一种学习如何更好地生成“伪”数据，另一种学习如何区分所呈现的数据是否真实。 它们在每个周期都进行迭代，直到它们都收敛为止。 这就是评估生成的数据的网络无法再区分“伪数据”和真实数据的时候。
+
+GAN 已成功用于数据具有清晰拓扑结构的领域。 它的原始实现使用 GAN 来创建对象，人脸和动物的合成图像，这些图像类似于这些东西的真实图像。 GAN 是最常使用图像创建的领域，但是研究论文中偶尔会出现其他领域的应用。
+
+![Generative Adversarial Networks](img/image02_03.jpg)
+
+图 3：该图像显示了不同 GAN 算法根据给定的情感来改变人脸的结果。 资料来源：[StarGAN 项目](https://github.com/yunjey/StarGAN)。
+
+### 深度强化学习
+
+原始 DRL 架构受到总部位于英国的 Google 拥有的人工智能研究组织 DeepMind 的支持。 DRL 网络的关键思想是，它们本质上不受监督，可以从试错中学习，仅针对奖励函数进行优化。 也就是说，与其他网络（使用监督方法来优化预测的错误程度（与已知的正确方法相比）不同）相比，DRL 网络并不知道正确的解决问题的方法。 它们只是被赋予系统规则，然后在每次正确执行功能时得到奖励。 这个过程需要大量的迭代，最终会训练网络使其在许多任务中脱颖而出。
+
+### 注意
+
+有关更多信息，请参阅[《通过深度强化学习进行人类水平控制》](https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)。
+
+在 DeepMind 创建 AlphaGo 之后，深度强化学习（DRL）模型获得了普及，AlphaGo 是一种玩 Go 游戏的系统，其表现优于专业玩家。 DeepMind 还创建了 DRL 网络，该网络完全依靠自己来学习如何以超人的水平玩视频游戏：
+
+![Deep Reinforcement Learning](img/image02_04.jpg)
+
+图 4：代表 DQN 算法工作原理的图像
+
+### 注意
+
+有关更多信息，请参阅 DeepMind 创建的 DQN，以击败 Atari 游戏。 该算法使用深度强化学习解决方案来不断增加其奖励。 [图片来源](https://keon.io/deep-q-learning/)。
+
+| 架构 | 数据结构 | 成功的应用 |
+| --- | --- | --- |
+| 卷积神经网络（CNN） | 网格状的拓扑结构（即图像） | 图像识别与分类 |
+| 循环神经网络（RNN）和长短期记忆（LSTM）网络 | 顺序数据（即时间序列数据） | 语音识别，文本生成和翻译 |
+| 生成对抗网络（GAN） | 网格状的拓扑结构（即图像） | 图像生成 |
+| 深度强化学习（DRL） | 规则明确，奖励函数明确的系统 | 玩电子游戏和自动驾驶汽车 |
+
+> 表 1：不同的神经网络架构已在不同领域取得成功。 网络的架构通常与当前问题的结构有关。
+
+## 数据标准化
+
+在建立深度学习模型之前，还需要采取以下步骤：数据规范化。
+
+数据规范化是机器学习系统中的常见做法。 特别是在神经网络方面，研究人员提出，归一化是训练 RNN（和 LSTM）的一项必不可少的技术，主要是因为它减少了网络的训练时间并提高了网络的整体表现。
+
+### 注意
+
+有关更多信息，请参考 Sergey Ioffe 等人的[《批量归一化：通过减少内部协变量偏移来加速深度网络训练》](https://arxiv.org/abs/1502.03167)。
+
+根据数据和手头的问题，对进行归一化技术的决定会有所不同。 通常使用以下技术。
+
+### Z 得分
+
+当数据以呈正态分布（即高斯）时，可以将每个观测值之间的距离计算为与其平均值的标准差。 当标识数据点与分布中更可能出现的地方相距多远时，此规范化很有用。 Z 分数定义为：
+
+![Z-score](img/image02_05.jpg)
+
+此处，`x[i]`是第`i`个观察值，`μ`是平均值，而`σ`是序列的标准差。
+
+### 注意
+
+有关更多信息，请参阅[维基百科的标准评分（Z 评分）文章](https://en.wikipedia.org/wiki/Standard_score)。
+
+### 点相对归一化
+
+此归一化计算给定观测值与序列的第一个观测值的差。 这种规范化对于识别与起点有关的趋势很有用。 点相对归一化定义为：
+
+![Point-Relative Normalization](img/image02_10.jpg)
+
+在此，`o[i]`是第`i`个观测值，`o[0]`是该序列的第一个观测值。
+
+### 注意
+
+正如 Siraj Raval 在视频中建议的，[《如何轻松预测股票价格 - 深度学习入门 7》](https://www.youtube.com/watch?v=ftMq5ps503w)，可在 YouTube 上找到。
+
+### 最大最小归一化
+
+此归一化计算给定观察值与序列的最大值和最小值之间的距离。 当使用序列时，此最大值很有用，在该序列中，最大值和最小值不是离群值，并且对于将来的预测很重要。 此规范化技术可以应用于：
+
+![Maximum and Minimum Normalization](img/image02_14.jpg)
+
+在这里，`o[i]`是第`i`个观测值，`O`表示具有所有`0`值的向量，并且函数` min(O)`和`max(O)`分别表示该序列的最小值和最大值。
+
+在“活动 3”，“探索比特币数据集并为模型准备数据”中，我们将准备可用的比特币数据以用于我们的 LSTM 模式。 其中包括选择感兴趣的变量，选择相关时段并应用先前的点相对归一化技术。
+
+## 解决问题
+
+与研究人员相比，从业人员在启动新的深度学习项目时花费更少的时间来确定选择哪种架构。 在开发这些系统时，最重要的考虑因素是正确获取代表给定问题的数据，其次是了解数据集的固有偏差和局限性。
+
+在开始开发深度学习系统时，请考虑以下问题以进行反思：
+
+*   **我有正确的数据吗？** 这是训练深度学习模型时最困难的挑战。 首先，用数学规则定义问题。 使用精确的定义并按类别（分类问题）或连续规模（回归问题）组织问题。 现在，您如何收集有关这些指标的数据？
+*   **我有足够的数据吗？** 通常，深度学习算法在大型数据集中表现出比在小型数据集中更好的表现。 了解训练高性能算法所需的数据量取决于您要解决的问题类型，但目的是要收集尽可能多的数据。
+*   **我可以使用预训练的模型吗？** 如果您要解决的问题是更一般的应用的子集（但在同一领域内），请考虑使用预训练的模型。 预训练的模型可以让您抢先解决特定问题的模式，而不是整个领域的更一般特征。 [正式的 TensorFlow 仓库](https://github.com/tensorflow/models)是一个不错的起点。
+
+![Structuring Your Problem](img/Lesson-2-Algorithm.jpg)
+
+图 5：在深度学习项目开始时要做出的关键思考问题的决策树
+
+在某些情况下，可能根本无法获得数据。 根据情况，可能可以使用一系列技术从输入数据中有效创建更多数据。 此过程称为**数据扩充**，在处理图像识别问题时已成功应用。
+
+### 注意
+
+很好的参考是文章[《使用深度神经网络对浮游生物进行分类》](http://benanne.github.io/2015/03/17/plankton.html)。 作者展示了一系列用于增强少量图像数据以增加模型具有的训练样本数量的技术。
+
+## 活动 3 – 探索比特币数据集并为模型准备数据
+
+我们将使用最初从 CoinMarketCap 检索的公共数据集，该数据是一个流行的网站，跟踪不同的加密货币统计数据。 数据集已在本课程中提供，并将在本书的其余部分中使用。
+
+我们将使用 Jupyter 笔记本探索数据集。 Jupyter 笔记本通过网络浏览器提供 Python 会话，使您可以交互地处理数据。 它们是用于探索数据集的流行工具。 在本书的所有活动中都将使用它们。
+
+使用您的终端，导航到目录`lesson_2/activity_3`并执行以下命令以启动 Jupyter 笔记本实例：
+
+```py
+$ jupyter notebook
+```
+
+现在，在浏览器中打开应用提供的 URL。 您应该能够看到 Jupyter 笔记本页面，其中包含文件系统中的许多目录。
+
+您应该看到以下输出：
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_18.jpg)
+
+图 6：启动 Jupyter 笔记本实例后的终端镜像。 导航到浏览器中显示的 URL，您应该能够看到 Jupyter 笔记本登陆页面。
+
+现在，导航至目录，然后单击文件`Activity_3_Exploring_Bitcoin_Dataset.ipynb`。 这是一个 Jupyter 笔记本文件，将在新的浏览器选项卡中打开。 该应用将自动为您启动一个新的 Python 交互式会话。
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_19.jpg)
+
+图 7：Jupyter 笔记本实例的登录页面
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_20.jpg)
+
+图 8：笔记本的图像`Activity_3_Exploring_Bitcoin_Dataset.ipynb`。 您现在可以与该笔记本进行交互并进行修改。
+
+在打开我们的 Jupyter 笔记本电脑之后，现在让我们探索本课程提供的比特币数据。
+
+数据集`data/bitcoin_historical_prices.csv`包含自 2013 年初以来比特币价格的度量。最近的观察是在 2017 年 11 月，该数据集来自每日更新的在线服务 CoinMarketCap。 它包含八个变量，其中两个（`date`和`week`）描述数据的时间段（可以用作索引），另外六个变量（`open`，`high`，`low`，`close`，`volume`和`market_capitalization`），可用于了解比特币的价格和价值如何随时间变化：
+
+| 变量 | 描述 |
+| --- | --- |
+| `date` | 观察日期。 |
+| `iso_week` | 给定年份的星期数。 |
+| `open` | 单个比特币硬币的开盘价值。 |
+| `high` | 在给定的一天时间内实现的最高价值。 |
+| `low` | 在给定的一天内实现的最低价值。 |
+| `close` | 交易日结束时的价值。 |
+| `volume` | 当天交换的比特币总量。 |
+| `market_capitalization` | 市值，由`市值 = 价格 * 循环供给`来解释。 |
+
+> 表 2：比特币历史价格数据集中的可用变量（即列）
+
+现在使用打开的 Jupyter 笔记本实例，我们探索其中两个变量的时间序列：`close`和`volume`。 我们将从这些时间序列开始探讨价格波动模式。
+
+导航到 Jupyter 笔记本`Activity_3_Exploring_Bitcoin_Dataset.ipynb`的打开的实例。 现在，执行标题`Introduction`下的所有单元格。 这将导入所需的库并将数据集导入内存。
+
+将数据集导入内存后，移至`Exploration`部分。 您将找到一个代码片段，该代码片段为`close`变量生成时间序列图。 您可以为`volume`变量生成相同的图吗？
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_21.jpg)
+
+图 9：来自`close`变量的比特币收盘价的时间序列图。 重现此图，但在此图下面的新单元格中使用`volume`变量。
+
+您肯定会注意到这两个变量在 2017 年都在激增。这反映了当前的现象，即比特币的价格和价值自该年年初以来一直在持续增长。
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_22.jpg)
+
+图 10：以美元计的比特币硬币的收盘价。 请注意，2013 年底和 2014 年初出现了早期的飙升。此外，请注意，自 2017 年初以来，最近的价格已飙升。
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_23.jpg)
+
+图 11：比特币硬币的交易量（以美元为单位）显示，从 2017 年开始，趋势开始了，市场上交易的比特币数量明显增加。 每日总交易量的变化远大于每日收盘价。
+
+此外，我们注意到，多年来，比特币价格的波动幅度不如近年来。 尽管这些时间段可以被神经网络用来理解某些模式，但是我们将排除较早的观察结果，因为我们有兴趣预测不太遥远的周期的未来价格。 让我们仅过滤 2016 年和 2017 年的数据。
+
+导航至，“为模型准备数据集”部分。 我们将使用`pandas` API 过滤 2016 年和 2017 年的数据。Pandas 提供了直观的 API 来执行此操作：
+
+```py
+bitcoin_recent = bitcoin[bitcoin['date'] >= '2016-01-01']
+```
+
+变量`bitcoin_recent`现在具有我们原始比特币数据集的副本，但已过滤为更新或等于 2016 年 1 月 1 日的观测值。
+
+作为最后一步，我们现在使用“数据归一化”部分中介绍的点相对归一化技术对数据进行归一化。 我们将仅归一化两个变量（`close`和`volume`），因为这是我们正在努力预测的变量。
+
+在包含本课程的同一目录中，我们放置了一个名为`normalizations.py`的脚本。 该脚本包含本课中描述的三种标准化技术。 我们将该脚本导入到 Jupyter 笔记本中，并将这些功能应用于我们的序列。
+
+导航到“为模型准备数据集”部分。 现在，使用`iso_week`变量使用 pandas 方法`groupby()`将给定一周中的全天观察分组。 现在，我们可以在一周内将归一化函数`normalizations.point_relative_normalization()`直接应用于该序列。 我们使用以下命令将该归一化的输出存储为同一 Pandas 数据帧中的新变量：
+
+```py
+bitcoin_recent['close_point_relative_normalization'] =
+bitcoin_recent.groupby('iso_week')['close'].apply(
+lambda x: normalizations.point_relative_normalization(x))
+```
+
+现在，变量`close_point_relative_normalization`包含变量`close`的规范化数据。 对变量`volume`执行相同的操作：
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_24.jpg)
+
+图 12：Jupyter 笔记本的图像，重点是应用归一化函数的部分
+
+标准化的`close`变量每周包含一个有趣的方差模式。 我们将使用该变量来训练我们的 LSTM 模型。
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_25.jpg)
+
+图 13：显示归一化变量`close_point_relative_normalization`的序列的图
+
+为了评估模型的效果，我们需要对照其他数据测试其准确率。 为此，我们创建了两个数据集：训练集和测试集。 在本活动中，我们将使用 80% 的数据集训练 LSTM 模型，并使用 20% 的数据评估其表现。
+
+鉴于数据是连续的并且采用时间序列的形式，我们将可用周的最后 20% 用作测试集，并将前 80% 用作训练集：
+
+![Activity 3 – Exploring the Bitcoin Dataset and Preparing Data for Model](img/image02_26.jpg)
+
+图 14：使用几周来创建训练和测试集
+
+最后，将导航到`Storing Output`部分，并将过滤后的变量保存到磁盘，如下所示：
+
+```py
+test_dataset.to_csv('data/test_dataset.csv', index=False)
+train_dataset.to_csv('data/train_dataset.csv', index=False)
+bitcoin_recent.to_csv('data/bitcoin_recent.csv', index=False)
+```
+
+### 注意
+
+对于参考解决方案，请使用`Code/Lesson-2/activity_3`文件夹。
+
+在本节中，我们探索了比特币数据集，并将其准备好用于深度学习模型。
+
+我们了解到，在 2017 年期间，比特币的价格飞涨。 这种现象需要很长时间才能发生-并可能受此数据无法单独解释的许多外部因素的影响（例如，其他加密货币的出现）。 我们还使用点相对归一化技术按周块处理比特币数据集。 我们这样做是为了训练 LSTM 网络来学习比特币价格每周变化的模式，从而可以预测未来整整一周的时间。
+
+但是，比特币统计数据显示每周都有重大波动。 我们可以预测未来的比特币价格吗？ 从现在开始的 7 天里，这些价格将是多少？ 我们将在下一部分中使用 Keras 构建一个深度学习模型来探讨这个问题。
+
+# 使用 Keras 作为 TensorFlow 接口
+
+本节重点介绍 Keras。 我们之所以使用 Keras，是因为它将 TensorFlow 接口简化为通用抽象。 在后端，计算仍然在 TensorFlow 中执行，并且仍然使用 TensorFlow 组件构建图，但是接口要简单得多。 我们花费较少的时间来担心诸如变量和运算之类的各个组件，而花费更多的时间将网络构建为计算单元。 Keras 使您可以轻松地尝试不同的架构和超参数，从而更快地向高性能解决方案迈进。
+
+从 TensorFlow 1.4.0（2017 年 11 月）开始，Keras 现在以 TensorFlow 作为`tf.keras`正式发行。 这表明 Keras 现在已经与 TensorFlow 紧密集成，并且很可能会在很长一段时间内继续作为开源工具进行开发。
+
+## 模型组件
+
+正如我们在“第 1 课”，“神经网络和深度学习简介”中看到的那样，LSTM 网络也具有输入，隐藏和输出层。 每个隐藏层都有一个激活函数，用于评估该层的相关权重和偏差。 正如预期的那样，网络将数据从一层顺序移到另一层，并在每次迭代（即一个周期）时通过输出评估结果。
+
+Keras 提供了直观的类来表示这些组件中的每个组件：
+
+| 组件 | Keras 类 |
+| --- | --- |
+| 完整的顺序神经网络的高级抽象。 | `keras.models.Sequential()` |
+| 密集的全连接层。 | `keras.layers.core.Dense()` |
+| 激活函数。 | `keras.layers.core.Activation()` |
+| LSTM 循环神经网络。 此类包含此架构专有的组件，其中大多数由 Keras 抽象。 | `keras.layers.recurrent.LSTM()` |
+
+> 表 3：Keras API 中的关键组件说明。 我们将使用这些组件来构建深度学习模型。
+
+Keras 的`keras.models.Sequential()`组件代表整个顺序的神经网络。 可以单独实例化该 Python 类，然后再添加其他组件。
+
+我们对构建 LSTM 网络感兴趣，因为这些网络在使用顺序数据时表现良好，而时间序列是一种顺序数据。 使用 Keras，完整的 LSTM 网络将实现如下：
+
+```py
+from keras.models import Sequential
+from keras.layers.recurrent import LSTM
+from keras.layers.core import Dense, Activation
+
+model = Sequential()
+
+model.add(LSTM(
+units=number_of_periods,
+input_shape=(period_length, number_of_periods)
+return_sequences=False), stateful=True)
+
+model.add(Dense(units=period_length))
+
+model.add(Activation("linear"))
+model.compile(loss="mse", optimizer="rmsprop")
+```
+
+> 片段 1：使用 Keras 的 LSTM 实现
+
+此实现将在“第 3 课”，“模型评估和优化”中进一步优化。
+
+Keras 抽象允许人们专注于使深度学习系统更具表现的关键元素：正确的组件顺序，要包含的层和节点的数量以及要使用的激活函数。 所有这些选择都取决于将组件添加到实例化的`keras.models.Sequential()`类的顺序或通过传递给每个组件实例化的参数（即`Activation("linear")`）确定的。 最后的`model.compile()`步骤使用 TensorFlow 组件构建神经网络。
+
+建立网络后，我们使用`model.fit()`方法训练网络。 这将产生一个经过训练的模型，可用于进行预测：
+
+```py
+model.fit(
+X_train, Y_train,
+batch_size=32, epochs=epochs)
+```
+
+> “代码段 2.1”：`model.fit()`的用法
+
+变量`X_train`和`Y_train`分别是用于训练的集合和用于评估损失函数（即测试网络预测数据的能力）的较小集合。
+
+最后，我们可以使用`model.predict()`方法进行预测：
+
+```py
+model.predict(x=X_train)
+```
+
+> “代码段 2.2”：`model.predict()`的用法
+
+前面的步骤介绍了使用神经网络的 Keras 范例。 尽管可以用非常不同的方式处理不同的架构，但是 Keras 通过使用以下三个组件简化了使用不同架构的接口：网络架构，适应性和预测性：
+
+![Model Components](img/image02_27.jpg)
+
+图 15：Keras 神经网络范例：A. 设计神经网络架构，B. 训练神经网络（或拟合），以及 C. 进行预测
+
+Keras 允许在每个步骤中进行更大的控制。 但是，其重点是使用户在尽可能短的时间内尽可能轻松地创建神经网络。 这意味着我们可以从一个简单的模型开始，然后在上述每个步骤中增加复杂性，以使初始模型的表现更好。
+
+在即将进行的活动和课程中，我们将利用该范例。 在下一个活动中，我们将创建最简单的 LSTM 网络。 然后，在“第 3 课”，“模型评估和优化”中，我们将不断评估和更改该网络，以使其更加健壮和高效。
+
+## 活动 4 – 使用 Keras 创建 TensorFlow 模型
+
+在此活动中，我们将使用 Keras 创建一个 LSTM 模型。
+
+Keras 用作较低级程序的接口； 在这种情况下，使用 TensorFlow。 当我们使用 Keras 设计神经网络时，该神经网络被*编译为* TensorFlow 计算图。
+
+导航到 Jupyter 笔记本`Activity_4_Creating_a_TensorFlow_Model_Using_Keras.ipynb`的打开的实例。 现在，执行标题**构建模型**下的所有单元格。 在该部分中，我们建立第一个参数化两个值的 LSTM 模型：训练观察的输入大小（一天相当于 1 个值）和预测期间的输出大小（在我们的情况下为 7 天）：
+
+![Activity 4 – Creating a TensorFlow Model Using Keras](img/image02_28.jpg)
+
+图 16：来自 Jupyter 笔记本实例的图像，我们在其中构建了 LSTM 模型的第一个版本
+
+使用 Jupyter 笔记本`Activity_4_Creating_a_TensorFlow_Model_Using_Keras.ipynb`从“模型组件”部分构建相同的模型，对输入和输出的周期长度进行参数设置，以便进行实验。
+
+编译模型后，我们将其作为`h5`文件存储在磁盘上。 优良作法是偶尔将模型的版本存储在磁盘上，以便将模型架构的版本与预测特征一起保留。
+
+仍在同一 Jupyter 笔记本的上，导航至标题**保存模型**。 在该部分中，我们将使用以下命令将模型存储为磁盘上的文件：
+
+```py
+model.save('bitcoin_lstm_v0.h5')
+```
+
+模型`'bitcoin_lstm_v0.h5'`尚未训练。 如果在没有事先训练的情况下保存模型，则只能有效地保存模型的架构。 稍后可以使用 Keras 的`load_model()`函数来加载相同的模型，如下所示：
+
+```py
+1  model = keras.models.load_model('bitcoin_lstm_v0.h5')
+```
+
+### 注意
+
+加载 Keras 库时，您可能会遇到以下警告：
+
+```py
+    Using TensorFlow backend.
+```
+
+可以将 Keras 配置为使用其他后端而不是 TensorFlow（即 Theano）。 为了避免出现此消息，您可以创建一个名为`keras.json`的文件并在那里配置其后端。 该文件的正确配置取决于您的系统。 因此，建议您访问 [Keras 官方文档](https://keras.io/backend/)。
+
+### 注意
+
+对于参考解决方案，请使用`Code/Lesson-2/activity_4`文件夹。
+
+在本部分中，我们学习了如何使用 TensorFlow 的接口 Keras 构建深度学习模型。 我们研究了 Keras 的核心组件，并使用这些组件构建了基于 LSTM 模型的比特币价格预测系统的第一版。
+
+在下一节中，我们将讨论如何将本课中的所有组件整合到一个（几乎完整的）深度学习系统中。 该系统将产生我们最初的预测，作为未来改进的起点。
+
+# 从数据准备到建模
+
+本节重点介绍深度学习系统的实现方面。 我们将使用“选择正确的模型架构”中的比特币数据和 Keras 知识，并使用 Keras 作为 TensorFlow 接口将这两个组件组合在一起。 本节通过构建一个从磁盘读取数据并将其作为单个软件馈入模型的系统来结束本课程。
+
+## 训练神经网络
+
+神经网络可能需要很长时间才能训练。 许多因素影响该过程可能需要多长时间。 其中，三个因素通常被认为是最重要的：
+
+*   网络架构
+*   网络有多少层和神经元
+*   训练过程中将使用多少数据
+
+其他因素也可能极大地影响网络训练所需的时间，但是神经网络在解决业务问题时可以进行的大多数优化来自探索这三个方面。
+
+我们将使用上一节中的归一化数据。 回想一下，我们已将训练数据存储在名为`train_dataset.csv`的文件中。 我们将使用`pandas`将数据集加载到内存中，以方便探索：
+
+```py
+  import pandas as pd
+   train = pd.read_csv('data/train_dataset.csv')
+```
+
+![Training a Neural Network](img/image02_29.jpg)
+
+图 17：该表显示了从`train_d–ataset.csv`文件加载的训练数据集的前五行
+
+自 2016 年初以来，我们将使用变量`close_point_relative_normalization`的序列，该序列是变量`close`的归一化比特币收盘价序列。
+
+变量`close_point_relative_normalization`已每周标准化。 该周的周期的每个观察值都是相对于该周期第一天收盘价的差额进行的。 标准化步骤很重要，将有助于我们的网络训练更快。
+
+![Training a Neural Network](img/image02_25.jpg)
+
+> 图 18：显示归一化变量`close_point_relative_normalization`的序列的图。 此变量将用于训练我们的 LSTM 模型。
+
+### 重塑时间序列数据
+
+神经网络通常使用向量和张量，这两个数学对象都可以在多个维度上组织数据。 用 Keras 实现的每个神经网络都将具有根据规范进行组织的向量或张量作为输入。 首先，了解如何将数据重整为给定层所需的格式可能会造成混淆。 为避免混淆，建议从尽可能少的组件开始，然后逐渐添加组件。 Keras 的官方文档（在“层”部分下）对于了解每种层的要求至关重要。
+
+### 注意
+
+可在[这个页面](https://keras.io/layers/core/)上获得 Keras 官方文档。 该链接直接将您带到“层”部分。
+
+### 注意
+
+`NumPy`是一个流行的 Python 库，用于执行数值计算。 深度学习社区使用它来操纵向量和张量，并为深度学习系统做好准备。
+
+特别是，在为深度学习模型调整数据时，`numpy.reshape()`方法非常重要。 该模型允许对`NumPy`数组进行操作，这是类似于向量和张量的 Python 对象。
+
+现在，我们使用 2016 年和 2017 年的星期来组织变量`close_point_relative_normalization`的价格。我们创建不同的组，每个组包含七个观测值（一周中的每一天），共 77 个完整星期。 我们之所以这样做，是因为我们有兴趣预测一周交易量的价格。
+
+### 注意
+
+我们使用 ISO 标准来确定一周的开始和结束。 其他类型的组织也是完全可能的。 遵循此方法既简单又直观，但是仍有改进的空间。
+
+LSTM 网络使用三维张量。 这些维度中的每一个都代表了网络的一项重要属性。 这些大小是：
+
+*   **周期长度**：周期长度，即，一个周期中有多少个观测值
+*   **周期数**：数据集中有多少个周期可用
+*   **特征数量**：数据集中可用的特征数量
+
+目前，来自变量`close_point_relative_normalization`的数据是一维向量，我们需要对其进行重塑以匹配这三个维度。
+
+我们将以一周的时间为。 因此，我们的周期长度为 7 天（周期长度为 7）。 我们的数据中有 77 个完整的星期可用。 在训练期间，我们将使用这周的最后一周来测试我们的模型。 这给我们留下了 76 个不同的星期（周期数为 76）。 最后，我们将在此网络中使用单个特征（特征数量为 1）-将来的版本中将包含更多特征。
+
+我们如何重塑数据以匹配这些维度？ 我们将结合使用基本的 Python 属性和`numpy`库中的`reshape()`。 首先，我们使用纯 Python 创建 76 个不同的星期组，每个星期 7 天：
+
+```py
+group_size = 7
+samples = list()
+for i in range(0, len(data), group_size):
+sample = list(data[i:i + group_size])
+if len(sample) == group_size:
+samples.append(np.array(sample).reshape(group_size, 1).tolist())
+
+data = np.array(samples)
+```
+
+> “代码段 3”：创建不同星期组的 Python 代码段
+
+结果变量`data`是包含所有正确大小的变量。 Keras LSTM 层期望这些维度以特定的顺序进行组织：特征数量，观测数量和周期长度。 让我们重塑数据集以匹配该格式：
+
+```py
+X_train = data[:-1,:].reshape(1, 76, 7)
+Y_validation = data[-1].reshape(1, 7)
+```
+
+> “代码段 5”：代码段显示了如何训练我们的模型
+
+### 注意
+
+每个 Keras 层都希望以特定方式组织其输入。 但是，在大多数情况下，Keras 将相应地重塑数据。 在添加新层或遇到层形状问题时，请始终参阅层上的 [Keras 文档](https://keras.io/layers/core/)。
+
+“代码段 4”也选择我们集合的最后一周作为验证集合（通过`data[-1]`）。 我们将尝试使用前 76 周来预测数据集中的最后一周。
+
+下一步是使用这些变量来拟合我们的模型：
+
+```py
+  model.fit(x=X_train, y=Y_validation, epochs=100)
+```
+
+LSTM 是计算上昂贵的模型。 在现代计算机上，我们最多可能需要五分钟来训练我们的数据集。 当算法创建完整的计算图时，该时间中的大部分都花在了计算的开始。 开始训练后，该过程将加快速度：
+
+![Reshaping Time-Series Data](img/image02_30.jpg)
+
+图 19：该图显示了每个周期评估的损失函数的结果
+
+### 注意
+
+这将比较模型在每个周期预测的结果，然后使用称为均方误差的技术将其与实际数据进行比较。 该图显示了这些结果。
+
+乍一看，我们的网络运行情况非常好：它以很小的错误率开始，并不断降低。 现在，我们的预测告诉我们什么？
+
+## 做出预测
+
+在训练好网络之后，我们现在可以进行预测了。 我们将对超出时段的未来一周进行预测。
+
+一旦我们用`model.fit(),`训练了我们的模型，做出预测就变得微不足道了：
+
+```py
+  model.predict(x=X_train)
+```
+
+> “代码段 6”：使用我们之前用于训练的数据进行预测
+
+我们使用与用于训练的数据（`X_train`变量）相同的数据进行预测。 如果有更多可用数据，则可以改用 LSTM 要求的格式，而可以改用它。
+
+### 过拟合
+
+当神经网络过度适合于验证集时，意味着它会学习训练集中存在的模式，但无法将其推广到看不见的数据（例如测试集）。 在下一课中，我们将学习如何避免过拟合，并创建一个系统来评估我们的网络并提高其表现：
+
+![Overfitting](img/image02_31.jpg)
+
+图 20：归一化后，我们的 LSTM 模型预测，到 2017 年 7 月下旬，比特币的价格将从 2200 美元增加到大约 2800 美元，一周内增长 30% 
+
+## 活动 5 – 组装深度学习系统
+
+在本活动中，我们将构建基本的深度学习系统的所有基本特征汇总在一起：数据，模型和预测。
+
+我们将继续使用 Jupyter 笔记本，并将使用之前练习中准备的数据（`data/train_dataset.csv`）和我们本地存储的模型（`bitcoin_lstm_v0.h5`）。
+
+1.  启动 Jupyter 笔记本实例后，导航到名为`Activity_5_Assembling_a_Deep_Learning_System.ipynb`的笔记本并打开它。 执行标题中的单元以加载所需的组件，然后导航至标题`Shaping Data`:
+
+    ![Activity 5 – Assembling a Deep Learning System](img/image02_32.jpg)
+
+    图 21：显示归一化变量`close_point_relative_normalization`的序列的图
+
+    ### 注意
+
+    `close_point_relative_normalization`变量将用于训练我们的 LSTM 模型。
+
+    我们将通过加载先前活动中准备的数据集来开始。 我们使用`pandas`将数据集加载到内存中。
+
+2.  使用 Pandas 将训练数据集加载到内存中，如下所示：
+
+    ```py
+    train = pd.read_csv('data/train_dataset.csv')
+    ```
+
+3.  现在，通过执行以下命令快速检查数据集：
+
+    ```py
+    train.head()
+    ```
+
+    如本课程中所述，LSTM 网络需要具有三个维度的张量。 这些维度是：周期长度，周期数和特征数。
+
+    现在，继续创建每周组，然后重新排列结果数组以匹配这些大小。
+
+4.  随时使用提供的函数`create_groups()`执行此操作：
+
+    ```py
+    create_groups(data=train, group_size=7)
+    ```
+
+    该函数的默认值为 7 天。 如果将该数字更改为其他值（例如 10），会发生什么情况？
+
+    现在，确保将数据分为两组：训练和验证。 为此，我们将比特币价格数据集中的最后一周分配给评估集。 然后，我们训练网络对上周进行评估。
+
+    分开训练数据的最后一周，并使用`numpy.reshape()`对其进行调整。 重塑很重要，因为 LSTM 模型仅接受以这种方式组织的数据：
+
+    ```py
+    X_train = data[:-1,:].reshape(1, 76, 7)
+    Y_validation = data[-1].reshape(1, 7)
+    ```
+
+    现在我们的数据已准备好用于训练。 现在，我们加载先前保存的模型，并以给定的周期数对其进行训练。
+
+5.  导航至标题**加载我们的模型**并加载我们先前训练过的模型：
+
+    ```py
+    model = load_model('bitcoin_lstm_v0.h5')
+    ```
+
+6.  现在，使用我们的训练数据`X_train`和`Y_validation`训练模型：
+
+    ```py
+    history = model.fit(
+    x=X_train, y=Y_validation,
+    batch_size=32, epochs=100)
+    ```
+
+    注意，我们将模型的日志存储在名为`history`的变量中。 模型日志对于探索训练精度的特定变化以及了解损失函数的执行情况非常有用：
+
+    ![Activity 5 – Assembling a Deep Learning System](img/image02_33.jpg)
+
+    图 22：Jupyter 笔记本的部分，我们在其中加载早期模型并使用新数据进行训练
+
+    最后，让用我们训练有素的模型进行预测。
+
+7.  使用相同的数据`X_train`，调用以下方法：
+
+    ```py
+    model.predict(x=X_train)
+    ```
+
+8.  该模型会立即返回标准化值列表以及接下来 7 天的预测。 使用`denormalize()`函数将数据转换为美元值。 使用可用的最新值作为缩放预测结果的参考：
+
+    ```py
+    denormalized_prediction = denormalize(predictions, last_weeks_value)
+    ```
+
+    ![Activity 5 – Assembling a Deep Learning System](img/image02_34.jpg)
+
+    图 23：Jupyter 笔记本部分，我们在其中预测了未来 7 天的比特币价格。 我们的预测表明价格将大幅上涨约 30%。
+
+    ![Activity 5 – Assembling a Deep Learning System](img/image02_35.jpg)
+
+    图 24：使用我们刚刚建立的 LSTM 模型预测未来 7 天的比特币价格
+
+    ### 注意
+
+    我们在此图中组合了两个时间序列：实际数据（在行之前）和预测数据（在行之后）。 该模型显示出与之前看到的模式相似的方差，并且表明接下来的 7 天之内价格上涨。
+
+9.  完成实验后，请使用以下命令保存模型：
+
+    ```py
+    model.save('bitcoin_lstm_v0_trained.h5')
+    ```
+
+    我们将保存此训练有素的网络以供将来参考，并将其表现与其他模型进行比较。
+
+    网络可能已经从我们的数据中学到了模式，但是如何用如此简单的架构和很少的数据来做到这一点呢？ LSTM 是用于从数据中学习模式的强大工具。 但是，我们将在接下来的课程中学习到，他们也可能遭受*过拟合*的困扰，这是神经网络中常见的一种现象，他们会从训练数据中学习模式，这些模式在预测实际模式时无用 。 我们将学习如何处理该问题以及如何改进我们的网络以做出有用的预测。
+
+    ### 注意
+
+    对于参考解决方案，请使用`Code/Lesson-2/activity_5`文件夹。
+
+# 总结
+
+在本课程中，我们组装了一个完整的深度学习系统：从数据到预测。 在本活动中创建的模型必须加以大量改进，才能被认为有用。 但是，它是我们不断改进的一个很好的起点。
+
+我们的下一课将探讨用于衡量模型表现的技术，并将继续进行修改，直到获得一个既有用又健壮的模型。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/3.md b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/3.md
new file mode 100644
index 00000000..f926fa37
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/3.md
@@ -0,0 +1,758 @@
+# 三、模型评估和优化
+
+本课程侧重于如何评估神经网络模型。 与使用其他模型不同，在使用神经网络时，我们修改了网络的*超参数*以提高其表现。 但是，在更改任何参数之前，我们需要测量模型的表现。
+
+# 课程目标
+
+在本课程中，您将：
+
+*   评估模型
+
+    *   探索神经网络解决的问题类型
+    *   探索损失函数，准确率和错误率
+    *   使用 TensorBoard
+    *   评估指标和技术
+
+*   超参数优化
+
+    *   添加层和节点
+    *   探索并添加周期
+    *   实现激活函数
+    *   使用正则化策略
+
+# 模型评估
+
+在机器学习中，定义两个不同的术语是的共同点：**参数**和**超参数**。 参数是影响模型如何根据数据进行预测的属性。 超参数是指模型如何从数据中学习。 可以从数据中学习参数并进行动态修改。 超参数是高级属性，通常不会从数据中学习。 有关更详细的概述，请参阅 Sebastian Raschka 和 Vahid Mirjalili 撰写的书《Python 机器学习》。
+
+## 问题类别
+
+通常，神经网络可以解决两类问题：分类和回归。 分类问题涉及根据数据对正确类别的预测； 例如，如果温度为*热*或*冷*。 回归问题与连续标量中值的预测有关。 例如，实际温度值是多少？
+
+这两个类别中的问题具有以下特性：
+
+*   **分类**：以类别为特征的问题。 类别可以不同，也可以不同。 它们也可能是关于二进制问题的。 但是，必须将它们明确分配给每个数据元素。 分类问题的一个示例是使用卷积神经网络将标签*汽车*或*非汽车*分配给图像。 “第 1 课”，“神经网络和深度学习简介”中探讨的 MNIST 示例是分类问题的另一个示例。
+*   **回归**：以连续变量（即标量）为特征的问题。 这些问题的测量范围是，其评估考虑的是网络与实际值的接近程度。 一个示例是时间序列分类问题，其中使用循环神经网络预测未来温度值。 比特币价格预测问题是回归问题的另一个示例。
+
+虽然对于这两个问题类别，评估这些模型的总体结构是相同的，但我们采用了不同的技术来评估模型的表现。 在以下部分中，我们将探讨用于分类或回归问题的这些技术。
+
+### 注意
+
+本课程中的所有代码段均在“活动 6 和 7”中实现。 随时随地进行，但不要认为它是强制性的，因为在活动期间将对其进行更详细的重复。
+
+## 损失函数，准确率和错误率
+
+神经网络利用函数来测量与验证集相比网络的运行情况，也就是说，一部分数据被分离为，用作训练过程的一部分。 这些函数称为**损失函数**。
+
+损失函数评估神经网络预测的*误差*； 然后他们会将这些误差传播回去并调整网络，从而修改单个神经元的激活方式。 损失函数是神经网络的关键组成部分，选择正确的损失函数可能会对网络的表现产生重大影响。
+
+误差如何传播到网络中的每个神经元？
+
+误差通过称为反向传播的过程传播。 反向传播是一种将损失函数返回的误差传播回神经网络中每个神经元的技术。 传播的误差会影响神经元的激活方式，并最终影响神经网络的输出。
+
+许多神经网络包，包括 Keras，默认情况下都使用此技术。
+
+### 注意
+
+有关反向传播数学的更多信息，请参阅 Ian Goodfellow 等的《深度学习》。
+
+对于回归和分类问题，我们使用不同的损失函数。 对于分类问题，我们使用精度函数（即，预测正确的时间比例）。 对于回归问题，我们使用的错误率（即，预测值与观察值有多接近）。
+
+下表提供了常见损失函数以及它们的常见应用的摘要：
+
+| 问题类型 | 损失函数 | 问题 | 示例 |
+| --- | --- | --- | --- |
+| 回归 | 均方误差（**MSE**） | 预测连续特征。 即，预测值范围内的值。 | 使用过去的温度测量结果来预测将来的温度。 |
+| 回归 | 均方根误差（**RMSE**） | 与前面相同，但处理负值。 RMSE 通常提供更可解释的结果。 | 与前面相同。 |
+| 回归 | 平均绝对百分比误差（**MAPE**） | 预测连续特征。 在使用非标准化范围时具有更好的表现。 | 使用产品属性（例如，价格，类型，目标受众，市场条件）预测产品的销售。 |
+| 分类 | 二元交叉熵 | 两个类别之间或两个值之间的分类（即`true`或`false`）。 | 根据浏览器的活动预测网站的访问者是男性还是女性。 |
+| 分类 | 分类交叉熵 | 一组已知类别中许多类别之间的分类。 | 根据讲英语的口音来预测说话者的国籍。 |
+
+> 表 1：用于分类和回归问题的常见损失函数
+
+对于回归问题，MSE 函数是最常见的选择。 对于分类问题，二元交叉熵（对于二元类别问题）和分类交叉熵（对于多类别问题）是常见的选择。 建议从这些损失函数开始，然后在发展神经网络时尝试其他函数，以期获得表现。
+
+我们在“第 2 课”，“模型架构”中开发的网络使用 MSE 作为其损失函数。 在下一节中，我们将探讨该函数如何在网络训练中发挥作用。
+
+### 不同的损失函数，相同的架构
+
+在进入下一部分之前，让我们以实践的方式探讨这些问题在神经网络环境中的不同之处。
+
+TensorFlow 团队可使用 TensorFlow Playground 应用，以帮助我们了解神经网络的工作原理。 在这里，我们看到了一个由其层表示的神经网络：输入（在左侧），隐藏层（在中间）和输出（在右侧）。 我们还可以选择最左侧的不同样本数据集进行实验。 最后，在最右边，我们看到了网络的输出。
+
+![Different Loss Functions, Same Architecture](img/image03_01.jpg)
+
+图 1：TensorFlow Playground Web 应用在此可视化中获取神经网络的参数，以直观了解每个参数如何影响模型结果。
+
+应用帮助我们探索了上一节中讨论的不同问题类别。 当我们选择分类作为问题类型（右上角）时，数据集中的点仅用两种颜色值着色：蓝色或橙色。 选择回归时，点的颜色将在橙色和蓝色之间的一系列颜色值中上色。 在处理分类问题时，网络会根据网络出错了多少个蓝色和橙色来评估其损失函数。 在处理分类问题时，它将检查网络每个点距正确的颜色值的距离，如下图所示：
+
+![Different Loss Functions, Same Architecture](img/image03_03.jpg)
+
+> 图 2：TensorFlow Playground 应用的细节。 根据问题类型，将不同的颜色值分配给点。
+
+在单击播放按钮后，我们注意到**训练损失**区域中的数字随着网络不断训练而不断下降。 在每个问题类别中，数字非常相似，因为损失函数在两个神经网络中都扮演相同的角色。 但是，用于每个类别的实际损失函数是不同的，并且根据问题类型进行选择。
+
+### 使用 TensorBoard
+
+TensorBoard 擅长评估神经网络。 正如“第 1 课”，“神经网络和深度学习简介”中所述，TensorBoard 是 TensorFlow 附带的一套可视化工具。 在中，可以探索每个周期后损失函数评估的结果。 TensorBoard 的一大功能是可以分别组织每个运行的结果，并比较每个运行的结果损失函数指标。 然后，您可以决定要调整哪些超参数，并对网络的运行情况有一个大致的了解。 最好的部分是，这一切都是实时完成的。
+
+为了在我们的模型中使用 TensorBoard，我们将使用 Keras 回调函数。 我们通过导入`TensorBoard`回调并将其传递给我们的模型（在调用`fit()`函数时）来完成此操作。 以下代码显示了如何在上一课中创建的比特币模型中实现该示例：
+
+```py
+ from keras.callbacks import TensorBoard
+ model_name = 'bitcoin_lstm_v0_run_0'
+ tensorboard = TensorBoard(log_dir='./logs/{}'.format(model_name))
+ model.fit(x=X_train, y=Y_validate,
+ batch_size=1, epochs=100,
+ verbose=0, callbacks=[tensorboard])
+```
+
+> 片段 1：在我们的 LSTM 模型中实现 TensorBoard 回调的片段
+
+在每个时间段运行结束时调用 Keras 回调函数。 在这种情况下，Keras 调用 TensorBoard 回调以将每次运行的结果存储在磁盘上。 还有许多其他有用的回调函数，其中一个可以使用 Keras API 创建自定义函数。
+
+### 注意
+
+有关更多信息，请参阅 [Keras 回调文档](https://keras.io/callbacks/)。
+
+实现 TensorBoard 回调后，`loss`函数指标现在可在 TensorBoard 接口中使用。 现在，您可以运行 TensorBoard 进程（使用`tensorboard --logdir=./logs`），并在使用`fit()`训练网络时保持运行状态。 要评估的主要图通常称为*损失*。 通过将已知指标传递给`fit()`函数中的`metrics`参数，可以添加更多指标； 这些将可以在 TensorBoard 中用于可视化，但不会用于调整网络权重。 交互式图形将继续实时更新，这使您可以了解每个周期发生的情况。
+
+![Using TensorBoard](img/image03_05.jpg)
+
+图 3：TensorBoard 实例的屏幕快照，显示了损失函数结果以及添加到指标参数的其他指标
+
+# 实现模型评估指标
+
+在回归和分类问题中，我们将输入数据集分为其他三个数据集：训练，验证和测试。 训练和验证集都用于训练网络。 网络将训练集用作输入，损失函数将验证集用作输入，以将神经网络的输出与实际数据进行比较，计算预测的错误程度。 最后，在对网络进行训练之后，可以使用测试集来测量网络如何处理从未见过的数据。
+
+### 注意
+
+没有确定如何划分训练，验证和测试数据集的明确规则。 通常的方法是将原始数据集分为 80% 的训练和 20% 的测试，然后再将训练数据集分为 80% 的训练和 20% 的验证。 有关此问题的更多信息，请参阅 Sebastian Raschka 和 Vahid Mirjalili 撰写的书《Python 机器学习》。
+
+在分类问题中，您会将数据和标签都作为相关但又不同的数据传递给神经网络。 然后，网络将了解数据与每个标签的关系。 在回归问题中，不是传递数据和标签，而是传递感兴趣的变量作为一个参数，传递用于学习模式的变量作为另一个参数。 Keras 通过`fit()`方法为这两种用例提供​​了接口。 有关示例，请参见“代码段 2”：
+
+```py
+model.fit(x=X_train, y=Y_train,
+             batch_size=1, epochs=100,
+             verbose=0, callbacks=[tensorboard],
+             validation_split=0.1,
+             validation_data=(X_validation, Y_validation))
+ Snippet 2: Snippet that illustrates how to use the validation_split and validation_data parameters
+```
+
+> “代码段 2”：说明如何使用`validation_split` 和`validation_data`参数的代码段
+
+### 注意
+
+`fit()`方法可以使用`validation_split`或`validation_data`参数，但不能同时使用两者。
+
+损失函数评估模型的进度并在每次运行时调整其权重。 但是，损失函数仅描述训练数据与验证数据之间的关系。 为了评估模型是否正确执行，我们通常使用第三组数据（该数据不用于训练网络），并将模型做出的预测与该组数据中的可用值进行比较。 那就是测试集的作用。
+
+Keras 提供了`model.evaluate(),`方法，该方法使针对测试集评估训练有素的神经网络的过程变得容易。 有关示例，请参见以下代码：
+
+```py
+ model.evaluate(x=X_test, y=Y_test)
+```
+
+> “代码段 3”：说明如何使用`evaluate()`方法的代码段
+
+`evaluate()`方法返回损失函数的结果以及传递给`metrics`参数的函数的结果。 我们将在比特币问题中频繁使用该函数来测试模型在测试集上的表现。
+
+您会注意到，比特币模型看起来与上面的示例有些不同。 那是因为我们使用的是 LSTM 架构。 LSTM 旨在预测序列。 因此，即使是回归问题，我们也不使用一组变量来预测另一个变量。 相反，我们使用单个变量（或一组变量）的先前观察值来预测同一变量（或一组变量）的未来观察结果。 `Keras.fit()`上的`y`参数包含与`x`参数相同的变量，但仅包含预测序列。
+
+## 评估比特币模型
+
+我们在“第 1 课”，“神经网络和深度学习简介”的活动期间创建了一个测试集。 该测试集具有 19 周的比特币每日价格观察，大约相当于原始数据集的 20%。
+
+我们还在“第 2 课”，“模型结构”并将经过训练的网络存储在磁盘上（`bitcoin_lstm_v0).` 我们现在可以在测试集中的 19 周数据中的每一个中使用`evaluate()`方法，并检查第一个神经网络的表现。
+
+为了做到这一点，我们必须在前几周提供 76 个。 我们之所以必须这样做，是因为我们的网络已经过训练，可以准确地使用 76 周的连续数据来预测一周的数据（在第 4 课，“产品化”中）。当我们将神经网络部署为 Web 应用时，我们将通过定期对网络进行较大的定期训练来解决此问题：
+
+```py
+ combined_set = np.concatenate((train_data, test_data), axis=1)
+```
+
+```py
+  evaluated_weeks = []
+  for i in range(0, validation_data.shape[1]):
+  input_series = combined_set[0:,i:i+77]
+
+     X_test = input_series[0:,:-1].reshape(1, input_series.shape[1] - 1, )
+     Y_test = input_series[0:,-1:][0]
+
+     result = B.model.evaluate(x=X_test, y=Y_test, verbose=0)
+     evaluated_weeks.append(result)
+```
+
+> “代码段 4”：实现`evaluate()`方法以评估模型在测试数据集中的表现的代码段
+
+在前面的代码中，我们每周使用 Keras 的`model.evaluate()`进行评估，然后将其输出存储在变量`evaluated_weeks`中。 然后，在下图中绘制每个星期的结果 MSE：
+
+![Evaluating the Bitcoin Model](img/image03_07.jpg)
+
+> 图 4：测试集中每周的 MSE； 请注意，第 5 周的模型预测比其他任何一周都差
+
+根据我们的模型得出的 MSE 表明，我们的模型在除第 5 周外的大多数星期内均表现良好，此时其值增加到大约`0.08`。 在几乎所有其他测试周中，我们的模型似乎都表现良好。
+
+### 过拟合
+
+我们的首先训练网络（`bitcoin_lstm_v0`）可能正遭受一种称为*过拟合*的现象。 过拟合是指训练模型来优化验证集的方法，但是这样做会以我们有意预测的现象为基础，更笼统的模式为代价。 过拟合的主要问题是模型学习了如何预测验证集，但无法预测新数据。
+
+在训练过程结束时，模型中使用的损失函数达到非常低的水平（约`2.9 * 10-6`）。 不仅如此，而且这种情况发生得很早：用于预测我们数据最后一周的 MSE 损失函数在大约第 30 个周期下降到一个稳定的平台。这意味着我们的模型几乎可以完美地预测第 77 周的数据， 76 周。 这可能是过拟合的结果吗？
+
+让我们再次看图 4。 我们知道，我们的 LSTM 模型在验证集中达到极低的值（约`2.9 * 10-6`），但在测试集中也达到极低的值。 但是，关键的区别在于规模。 我们的测试集中每周的 MSE 大约是测试集中平均水平的 4,000 倍。 这意味着该模型在我们的测试数据中比在验证集中的表现要差得多。 这值得考虑。
+
+但是，规模隐藏了我们 LSTM 模型的力量：即使在我们的测试集中表现更差，预测的 MSE 误差仍然非常非常低。 这表明我们的模型可能是从数据中学习模式。
+
+### 模型预测
+
+一件事是测量我们的模型，比较 MSE 误差，另一件事是能够直观地解释其结果。
+
+使用相同的模型，我们现在使用 76 周作为输入来创建接下来几周的一系列预测。 通过在整个序列（即训练和测试集）上滑动 76 周的窗口，并对每个窗口进行预测，我们可以做到这一点。 预测是使用`Keras model.predict()`方法完成的：
+
+```py
+ combined_set = np.concatenate((train_data, test_data), axis=1)
+```
+
+```py
+ predicted_weeks = []
+ for i in range(0, validation_data.shape[1] + 1):
+ input_series = combined_set[0:,i:i+76]
+ predicted_weeks.append(B.predict(input_series))
+```
+
+> 片段 5：使用`model.predict()`方法对测试数据集的所有星期进行预测的片段
+
+在前面的代码中，我们使用`model.predict(),`进行预测，然后将这些预测存储在`predicted_weeks`变量中。 然后，我们绘制结果预测，如下图所示：
+
+![Model Predictions](img/image03_09.jpg)
+
+> 图 5：测试集中每周的 MSE。 请注意，第 5 周的模型预测比其他任何一周都差。
+
+我们模型的结果（如图“图 5”所示）表明它的表现还不错。 通过观察*预测*行的模式，您可以注意到该网络已识别出每周发生的波动模式，其中正常价格在一周中上调，然后在下周下跌。 结束。 除了为数不多的几周（最值得注意的是第 5 周，与我们之前的 MSE 分析相同）之外，大多数周都接近正确的值。
+
+现在让我们对预测进行反规范化，以便我们可以使用与原始数据相同的标度（即美元）调查预测值。 为此，我们可以实现一个反规范化函数，该函数使用来自预测数据的日索引来确定测试数据上的等效星期。 在确定了该周之后，该函数将采用该周的第一个值，并使用相同的点相对归一化技术，使用该值对预测值进行归一化，但取反：
+
+```py
+ def denormalize(reference, series,
+```
+
+```py
+ normalized_variable='close_point_relative_normalization',
+ denormalized_variable='close'):
+ week_values = observed[reference['iso_week'] == series['iso_week']. values[0]]
+ last_value = week_values[denormalized_variable].values[0]
+ series[denormalized_variable] = last_value * (series[normalized_variable] + 1)
+
+ return series
+
+ predicted_close = predicted.groupby('iso_week').apply(
+ lambda x: denormalize(observed, x))
+```
+
+> “代码段 6”：使用反向点相对归一化技术对数据进行归一化。 `denormalize()`函数从测试的等效一周的第一天起收取第一个收盘价。
+
+现在，我们的结果使用美元将预测值与测试集进行比较。 从“图 5”中可以看出，`bitcoin_lstm_v0` 模型在预测接下来的 7 天比特币价格时似乎表现良好。 但是，我们如何用可解释的项衡量表现呢？
+
+![Model Predictions](img/image03_09.jpg)
+
+图 6：测试集中每周的 MSE； 请注意，第 5 周的模型预测比其他任何一周都差
+
+#### 解释预测
+
+我们的最后一步是为我们的预测增加可解释性。 图 6 似乎表明我们的模型预测在某种程度上与测试数据匹配，但是与测试数据的匹配程度如何？
+
+Keras 的`model.evaluate()`函数对于理解模型在每个评估步骤中的执行情况很有用。 但是，鉴于我们通常使用规范化的数据集来训练神经网络，因此`model.evaluate()`方法生成的指标也难以解释。
+
+为了解决该问题，我们可以从模型中收集完整的预测集，并使用“表 1”中的两个易于解释的函数将其与测试集进行比较：MAPE 和 RMSE ，分别实现为`mape()`和`rmse()`：
+
+```py
+def mape(A, B):
+return np.mean(np.abs((A - B) / A)) * 100
+
+  def rmse(A, B):
+  return np.sqrt(np.square(np.subtract(A, B)).mean())
+```
+
+> “代码段 7”：`mape()`和`rmse()`函数的实现
+
+### 注意
+
+这些函数是使用 NumPy 实现的。 原始实现来自[这里](https://stats.stackexchange.com/questions/58391/mean-absolute-percentage-error-mape-in-scikit-learn)（MAPE）和[这里](https://stackoverflow.com/questions/16774849/mean-squared-error-in-numpy)（RMSE）。
+
+在使用这两个函数将测试集与预测进行比较之后，我们得到以下结果：
+
+*   非规范化的 **RMSE**: 399.6 美元
+*   非规范化的 **MAPE**：8.4%
+
+这表明我们的预测与实际数据的平均差异约为 399 美元。 这意味着与实际比特币价格相差约 8.4%。
+
+这些结果有助于理解我们的预测。 我们将继续使用`model.evaluate()`方法来跟踪我们的 LSTM 模型的改进情况，但还将在模型的每个版本的完整序列中计算`rmse()`和`mape()`来解释我们预测的比特币价格的接近程度。
+
+#### 活动 6 – 创建活动的训练环境
+
+在此活动中，我们为神经网络创建了一个训练环境，以促进其训练和评估。 这个环境对于我们的下一课特别重要，在下一课中，我们寻找超参数的最佳组合。
+
+首先，我们将启动 Jupyter 笔记本实例和 TensorBoard 实例。 在此活动的其余部分中，这两个实例都可以保持打开状态。
+
+1.  在您的终端上，导航至目录`lesson_3/activity_6`并执行以下代码以启动 Jupyter 笔记本实例：
+
+    ```py
+    $ jupyter notebook
+    ```
+
+2.  在浏览器中打开应用提供的 URL，然后打开名为`Activity_6_Creating_an_active_training_environment.ipynb`的 Jupyter 笔记本：
+
+    ![Activity 6 – Creating an Active Training Environment](img/image03_13.jpg)
+
+    图 7：Jupyter 笔记本突出显示“评估 LSTM 模型”部分
+
+3.  同样在您的终端机上，通过执行以下命令来启动 TensorBoard 实例：
+
+    ```py
+    $ cd ./lesson_3/activity_6/
+    $ tensorboard --logdir=logs/
+    ```
+
+4.  打开出现在屏幕上的 URL，并使该浏览器选项卡也保持打开状态。
+5.  现在，将训练（`train_dataset.csv`）和测试集（`test_dataset.csv`）以及我们先前编译的模型（`bitcoin_lstm_v0.h5`）都加载到笔记本中。
+6.  使用以下命令在 Jupyter 笔记本实例中加载训练和测试数据集：
+
+    ```py
+    $ train = pd.read_csv('data/train_dataset.csv')
+    $ test = pd.read_csv('data/test_dataset.csv')
+    ```
+
+7.  另外，使用以下命令加载先前编译的模型：
+
+    ```py
+    $ model = load_model('bitcoin_lstm_v0.h5')
+    ```
+
+    现在让我们评估我们的模型如何针对测试数据执行。 我们使用 76 周的时间对模型进行了训练，以预测未来的一周-即接下来的 7 天。 建立第一个模型时，我们将原始数据集分为训练集和测试集。 现在，我们将两个数据集的合并版本（我们称为合并集）并移动 76 周的滑动窗口。 在每个窗口中，我们执行 Keras 的`model.evaluate()`方法来评估网络在特定星期的表现。
+
+8.  执行标题**评估 LSTM 模型**下的单元格。 这些单元格的关键概念是在测试集中每个星期调用`model.evaluate()`方法。 这条线是最重要的：
+
+    ```py
+    $ result = model.evaluate(x=X_test, y=Y_test, verbose=0)
+    ```
+
+9.  现在，每个评估结果都存储在变量`evaluated_weeks`中。 该变量是一个简单的数组，其中包含测试集中每个星期的 MSE 预测序列。 继续并绘制以下结果：
+
+    ![Activity 6 – Creating an Active Training Environment](img/image03_07.jpg)
+
+    图 8：模型`set.evaluate()`方法对测试集每周的 MSE 结果
+
+    正如我们在本课程中讨论的那样，MSE 损失函数很难解释。 为了促进我们对模型表现的理解，我们还每周在测试集中调用方法`model.predict()`，并将其预测结果与该集的值进行比较。
+
+10.  导航至`Interpreting Model Results`部分，并在子标题`Make Predictions`下执行代码单元。 注意，我们正在调用方法`model.predict()`，但是参数的组合稍有不同。 我们不使用`X`和`Y`值，而是只使用`X`：
+
+    ```py
+     predicted_weeks = []
+     for i in range(0, test_data.shape[1]):
+     input_series = combined_set[0:,i:i+76]
+     predicted_weeks.append(model.predict(input_series))
+    ```
+
+    在每个窗口中，我们将发布下一周的预测并存储结果。 现在，我们可以将标准化结果与测试集中的标准化值一起绘制，如下图所示：
+
+    ![Activity 6 – Creating an Active Training Environment](img/image03_09.jpg)
+
+    图 9：绘制测试集每个星期从`model.predict()`返回的归一化值
+
+    我们还将进行相同的比较，但使用非标准化值。 为了使我们的数据不规范，我们必须首先确定测试集和预测之间的等效周。 然后，我们获取该周的第一个价格值，并使用它来逆转“第 2 课，模型架构”中的点相对标准化方程。
+
+11.  导航到标题“非规范化预测”，然后执行该标题下的所有单元格。
+12.  在本节中，我们定义了函数`denormalize()`，该函数执行完整的反规范化过程。 与其他函数不同，此函数采用 Pandas 数据帧而不是 NumPy 数组。 我们这样做是为了将日期用作索引。 这是与该标题最相关的单元格块：
+
+    ```py
+      predicted_close = predicted.groupby('iso_week').apply(
+                            lambda x: denormalize(observed, x))
+    ```
+
+    我们的归一化结果（如下图所示）表明，我们的模型做出的预测接近真实的比特币价格。 但是有多近？
+
+    ![Activity 6 – Creating an Active Training Environment](img/image03_11.jpg)
+
+    图 10：绘制测试集每个星期从`model.predict()`返回的归一化值
+
+    LSTM 网络使用 MSE 值作为其损失函数。 但是，正如课程中所讨论的，MSE 值难以解释。 为了解决这个问题，我们实现了两个函数（从脚本`utilities.py`加载），它们实现了函数 RMSE 和 MAPE。 这些函数通过返回与原始数据相同的比例尺的度量值，并比较比例尺的百分比差异，从而为我们的模型增加了可解释性。
+
+13.  导航至标题`De-normalizing Predictions`并从`utilities.py`脚本中加载两个函数：
+
+    ```py
+    from scripts.utilities import rmse, mape
+    ```
+
+    该脚本中的函数实际上非常简单：
+
+    ```py
+    def mape(A, B):
+        return np.mean(np.abs((A - B) / A)) * 100
+
+    def rmse(A, B):
+        return np.sqrt(np.square(np.subtract(A, B)).mean())
+    ```
+
+    每个函数都是使用 NumPy 的向量方式操作实现的。 它们在相同长度的向量中效果很好。 它们旨在应用于完整的结果集。
+
+    使用`mape()`函数，我们现在可以了解到，我们的模型预测与测试集的价格相比，大约相差 8.4%。 这等效于约 399.6 美元的均方根误差（使用`rmse()`函数计算）。
+
+    在继续下一部分之前，请回到笔记本电脑中，找到标题为 TensorBoard 的重新训练模型。 您可能已经注意到我们创建了一个名为`train_model()`的辅助函数。 该函数是模型的包装器，用于训练（使用`model.fit()`）模型，并将其各自的结果存储在新目录中。 然后，这些结果由 TensorBoard 用作判别器，以显示不同模型的统计信息。
+
+14.  继续并修改传递给`model.fit()`函数的参数的某些值（例如，尝试周期）。 现在，运行将模型从磁盘加载到内存的单元（这将替换您训练的模型）：
+
+    ```py
+    model = load_model('bitcoin_lstm_v0.h5')
+    ```
+
+15.  现在，再次运行`train_model()`函数，但使用不同的参数，指示新的运行版本：
+
+    ```py
+    train_model(X=X_train, Y=Y_validate, version=0, run_number=0)
+    ```
+
+    ### 注意
+
+    对于参考解决方案，请使用`Code/Lesson-3/activity_6`文件夹。
+
+在本节中，我们学习了如何使用损失函数评估网络。 我们了解到，损失函数是神经网络的关键元素，因为它们在每个周期评估网络的表现，并且是将调整传播回层和节点的起点。 我们还探讨了为什么某些损失函数可能难以解释（例如 MSE）的原因，并开发了使用其他两个函数（RMSE 和 MAPE）的策略来解释 LSTM 模型的预测结果。
+
+最重要的是，本课以一个活跃的训练环境结束。 我们现在拥有一个可以训练深度学习模型并不断评估其结果的系统。 当我们在下一个会话中转向优化我们的网络时，这将是关键。
+
+### 超参数优化
+
+我们已经训练了一个神经网络，以使用之前的 76 周价格来预测比特币价格的未来 7 天。 平均而言，该模型发出的预测与实际比特币价格相距约 8.4%。
+
+本节描述了改善神经网络模型表现的常用策略：
+
+*   添加或删除层并更改节点数
+*   增加或减少训练次数
+*   尝试不同的激活函数
+*   使用不同的正则化策略
+
+我们将使用在“模型评估”部分末尾开发的相同的主动学习环境来评估每种修改，并测量这些策略中的每一种如何帮助我们开发更精确的模型。
+
+#### 层和节点 - 添加更多层
+
+具有单个隐藏层的神经网络在许多问题上的表现都相当不错。 我们的第一个比特币模型（`bitcoin_lstm_v0`）是一个很好的例子：它可以使用单个 LSTM 层预测（根据测试集）未来七天的比特币价格（错误率约为 8.4% ）。 但是，并非所有问题都可以用单层建模。
+
+您正在预测的函数越复杂，则需要添加更多层的可能性就越高。 确定是否添加新层是一个好主意，这是了解它们在神经网络中的作用。
+
+每一层都创建其输入数据的模型表示。 链中较早的层创建较低级别的表示，较晚的层创建较高的级别。
+
+尽管该描述可能难以转化为现实问题，但其实际直觉很简单：当使用具有不同表示级别的复杂函数时，您可能需要尝试添加层。
+
+##### 添加更多节点
+
+层所需的神经元数量与输入和输出数据的结构方式有关。 例如，如果您要将`4 x 4`像素图像分为两类之一，则可以从一个具有 12 个神经元的隐藏层（每个可用像素一个）和一个只有两个神经元的输出层开始（每个预测类一个）。
+
+通常在添加新层的同时添加新神经元。 然后，可以添加一层具有与前一层相同数量的神经元，或者是前一层的神经元数量的倍数的层。 例如，如果您的第一个隐藏层具有 12 个神经元，则可以尝试添加第二个具有 12、6 或 24 个层的神经元。
+
+添加层和神经元可能具有明显的表现限制。 随意尝试添加层和节点。 通常从一个较小的网络（即具有少量层和神经元的网络）开始，然后根据其表现提升而增长。
+
+如果以上说法不准确，您的直觉是正确的。 引用 YouTube 视频分类的前负责人 AurélienGéron 的话，*找到完美数量的神经元仍然有些荒唐可笑*。
+
+### 注意
+
+《Scikit-Learn 和 TensorFlow 机器学习使用指南》，由 AureliénGéron 撰写，由 O'Reilly 于 2017 年 3 月发布。
+
+最后，请注意：您添加的层越多，您需要调整的超参数就越多，网络训练所需的时间也就越长。 如果您的模型运行良好且没有过拟合数据，请在将新层添加到网络之前尝试本课中概述的其他策略。
+
+##### 层和节点 - 实现
+
+现在，我们将通过添加更多层来修改我们的原始 LSTM 模型。 在 LSTM 模型中，通常会按顺序添加 LSTM 层，从而在 LSTM 层之间形成一条链。 在我们的案例中，新的 LSTM 层具有与原始层相同的神经元数量，因此我们不必配置该参数。
+
+我们将命名模型的修改版本`bitcoin_lstm_v1`。 优良作法是为每个要尝试不同的超参数配置的模型命名。 这有助于您跟踪每个不同架构的表现，还可以轻松比较 TensorBoard 中的模型差异。 在本课程结束时，我们将比较所有不同的修改架构。
+
+### 注意
+
+在添加新的 LSTM 层之前，我们需要在第一个 LSTM 层上将参数`return_sequences`修改为`True`。 我们这样做是因为第一层期望一个与第一层具有相同输入的数据序列。 当此参数设置为`False,`时，LSTM 层将以不同的不兼容输出输出预测参数。
+
+考虑以下代码示例：
+
+```py
+period_length = 7
+number_of_periods = 76
+batch_size = 1
+
+  model = Sequential()
+  model.add(LSTM(
+      units=period_length,
+      batch_input_shape=(batch_size, number_of_periods, period_length),
+      input_shape=(number_of_periods, period_length),
+      return_sequences=True, stateful=False))
+
+  model.add(LSTM(
+      units=period_length,
+      batch_input_shape=(batch_size, number_of_periods, period_length),
+      input_shape=(number_of_periods, period_length),
+      return_sequences=False, stateful=False))
+
+  model.add(Dense(units=period_length))
+  model.add(Activation("linear"))
+
+  model.compile(loss="mse", optimizer="rmsprop")
+```
+
+> 片段 8：在原始`bitcoin_lstm_v0 model`上添加第二个 LSTM 层，使其成为`bitcoin_lstm_v1`
+
+##### 周期
+
+周期是网络响应于数据通过及其损失函数而调整其权重的次数。 为更多周期运行模型可以使它从数据中学到更多，但同时也存在过拟合的风险。
+
+训练模型时，最好以指数形式增加历时，直到损失函数开始趋于平稳。 在`bitcoin_lstm_v0`模型的情况下，其损失函数稳定在大约 100 个周期。
+
+我们的 LSTM 模型使用少量数据进行训练，因此增加周期数不会显着影响其表现。 例如，如果尝试在 103 个周期训练它，该模型几乎没有任何改进。 如果要训练的模型使用大量数据，则情况并非如此。 在这些情况下，大量的时间对于实现良好的表现至关重要。
+
+我建议您使用以下关联：训练模型的日期越长，获得良好表现所需的时间越长。
+
+###### 周期 - 实现
+
+我们的比特币数据集非常小，因此增加了模型训练可能会对的表现产生边际影响的周期。 为了使模型具有更多的周期，只需更改`model.fit()`中的`epochs`参数即可：
+
+```py
+number_of_epochs = 10**3
+model.fit(x=X, y=Y, batch_size=1,
+          epochs=number_of_epochs,
+          verbose=0,
+          callbacks=[tensorboard])
+```
+
+> 片段 9：更改模型训练的周期数，使其变为`bitcoin_lstm_v2`
+
+这一变化将我们的模型更改为`v2`，有效地使其变为`bitcoin_lstm_v2`。
+
+###### 激活函数
+
+激活函数评估您需要多少时间才能*激活*单个神经元。 他们使用上一层的输入和损失函数的结果（或者神经元是否应该传递任何值）来确定每个神经元将传递到网络下一个元素的值。
+
+### 注意
+
+激活函数是研究神经网络的科学界非常感兴趣的主题。 有关当前正在对该主题进行的研究概述以及有关激活函数如何工作的更详细的评论，请参阅 Ian Goodfellow 等的《深度学习》。 麻省理工学院出版社，2017 年。
+
+TensorFlow 和 Keras 提供了许多激活函数-偶尔会添加新的激活函数。 引言中，三个重要的考虑因素； 让我们探索它们中的每一个。
+
+### 注意
+
+本部分的灵感来自 Avinash Sharma 撰写的文章[《了解神经网络中的激活函数》](https://medium.com/the-theory-of-everything/understanding-activation-functions-in-neural-networks-9491262884e0)，该文章可从获得启发。
+
+###### 线性（恒等）
+
+仅线性函数会基于恒定值激活神经元。 它们的定义是：
+
+![Linear (Identity)](img/image03_32.jpg)
+
+当`c = 1`时，神经元将按原样传递值，而无需激活函数进行修改。 使用线性函数的问题是，由于神经元是线性激活的，因此链接的层现在可以用作单个大层。 换句话说，一个人失去了构建多层网络的能力，其中一个人的输出会影响另一个人：
+
+![Linear (Identity)](img/image03_20.jpg)
+
+图 11：线性函数的图示
+
+对于大多数网络，线性函数的使用通常认为是。
+
+###### 双曲正切（Tanh）
+
+**Tanh** 是非线性函数，由以下公式表示：
+
+![Hyperbolic Tangent (Tanh)](img/image03_22.jpg)
+
+表示将连续评估它们对节点的影响。 同样，由于其非线性，可以使用此函数来更改一层如何影响链中的下一层。 使用非线性函数时，层会以不同的方式激活神经元，从而使从数据中学习不同的表示更为容易。 但是，它们具有类似于 Sigmoid 的图案，可反复惩罚极端节点值，从而导致称为的问题，即消失梯度。 消失的梯度对网络的学习能力产生负面影响：
+
+![Hyperbolic Tangent (Tanh)](img/image03_24.jpg)
+
+图 12：tanh 函数的图示
+
+Tanh 是的流行选择，但是由于它们的计算量很大，因此经常使用 ReLU。
+
+###### 整流线性单元
+
+ReLU 具有非线性属性。 它们的定义是：
+
+![Rectified Linear Unit](img/image03_31.jpg)
+
+![Rectified Linear Unit](img/image03_26.jpg)
+
+图 13：ReLU 函数示意图
+
+在尝试其他函数之前，通常建议将 ReLU 函数作为起点。 ReLU 倾向于惩罚负值。 因此，如果输入数据（例如，在`-1`和`1`之间进行归一化）包含负值，则这些数据现在将受到 ReLU 的惩罚。 可能不是预期的行为。
+
+我们不会在网络中使用 ReLU 函数，因为我们的规范化过程会创建许多负值，从而导致学习模型慢得多。
+
+###### 激活函数 - 实现
+
+在 Keras 中实现激活函数的最简单方法是实例化`Activation()`类，并将其添加到`Sequential()`模型中。 可以使用 Keras 中可用的任何激活函数实例化`Activation()`（有关完整列表，请参见[这里](https://keras.io/activations/)）。 在我们的例子中，我们将使用`tanh`函数。 实现激活函数后，我们将模型的版本更改为`v2`，使其变为`bitcoin_lstm_v3`：
+
+```py
+ model = Sequential()
+```
+
+```py
+  model.add(LSTM(
+      units=period_length,
+      batch_input_shape=(batch_size, number_of_periods, period_length),
+      input_shape=(number_of_periods, period_length),
+      return_sequences=True, stateful=False))
+
+  model.add(LSTM(
+      units=period_length,
+      batch_input_shape=(batch_size, number_of_periods, period_length),
+      input_shape=(number_of_periods, period_length),
+      return_sequences=False, stateful=False))
+
+  model.add(Dense(units=period_length))
+  model.add(Activation("tanh"))
+
+  model.compile(loss="mse", optimizer="rmsprop")
+```
+
+> “代码段 10”：在`bitcoin_lstm_v2 model`中添加激活函数 tanh，使其成为`bitcoin_lstm_v3`
+
+还有许多其他激活函数值得尝试。 TensorFlow 和 Keras 都在各自的官方文档中提供了已实现函数的列表。 在实现自己的方法之前，请先从 TensorFlow 和 Keras 中已实现的方法开始。
+
+###### 正则化策略
+
+神经网络特别容易过拟合。 当网络学习训练数据的模式但无法找到也可以应用于测试数据的可推广模式时，就会发生过拟合。
+
+正则化策略是指通过调整网络学习方式来解决过拟合问题的技术。 在本书中，我们讨论两种常见的策略：L2 和丢弃。
+
+###### L2 正则化
+
+L2 正则化（或权重衰减）是用于处理过拟合模型的常见技术。 在某些模型中，某些参数的变化幅度很大。 L2 正则化惩罚了这些参数，从而降低了这些参数对网络的影响。
+
+L2 正则化使用`λ`参数来确定对模型神经元的惩罚程度。 通常将其设置为一个非常低的值（即`0.0001`）； 否则，就有可能完全消除给定神经元的输入。
+
+###### 丢弃
+
+丢弃是一种基于简单问题的正则化技术：如果一个节点随机地从层中删除一部分节点，那么另一个节点将如何适应？ 事实证明，其余的神经元会适应，学会代表先前由缺失的那些神经元处理过的模式。
+
+退出策略易于实现，通常非常有效地避免过拟合。 这将是我们首选的正则化。
+
+###### 正则化策略 - 实现
+
+为了使用 Keras 实现的退出策略，我们导入`Dropout()`类并将其添加到每个 LSTM 层之后的网络中。 有效的添加使我们的网络`bitcoin_lstm_v4`：
+
+```py
+  model = Sequential()
+  model.add(LSTM(
+      units=period_length,
+      batch_input_shape=(batch_size, number_of_periods, period_length),
+      input_shape=(number_of_periods, period_length),
+      return_sequences=True, stateful=False))
+
+  model.add(Dropout(0.2))
+
+  model.add(LSTM(
+      units=period_length,
+      batch_input_shape=(batch_size, number_of_periods, period_length),
+      input_shape=(number_of_periods, period_length),
+      return_sequences=False, stateful=False))
+
+  model.add(Dropout(0.2))
+
+  model.add(Dense(units=period_length))
+  model.add(Activation("tanh"))
+
+  model.compile(loss="mse", optimizer="rmsprop")
+```
+
+> “代码段 11”：在此代码段中，我们将`Dropout()`步骤添加到模型`(bitcoin_lstm_v3)`中，使其设为`bitcoin_lstm_v4`
+
+可以使用 L2 正则化代替丢弃。 为此，只需实例化`ActivityRegularization()`类，并将`L2`参数设置为较低的值（例如`0.0001,`）。 然后，将其放置在`Dropout()`类添加到网络的位置。 随时进行测试，只需将其添加到网络中，同时保持`Dropout()`的两个步骤，或者直接将所有`Dropout()`实例替换为`ActivityRegularization()`。
+
+###### 优化结果
+
+总而言之，我们已经创建了四个版本的模型。 这些版本中的三个是通过应用本课中概述的不同优化技术创建的。
+
+在创建所有这些版本之后，我们现在必须评估哪种模型表现最佳。 为此，我们使用第一个模型中使用的相同指标：MSE，RMSE 和 MAPE。 MSE 用于比较每个预测周的模型错误率。 计算 RMSE 和 MAPE 使模型结果更易于解释。
+
+| 模型 | MSE（最后一个周期） | RMSE（整个序列） | MAPE（整个序列） | 训练时间 |
+| --- | --- | --- | --- | --- |
+| `bitcoin_lstm_v0` | - | 399.6 | 8.4%  | - |
+| `bitcoin_lstm_v1` | 7.15*10-6 | 419.3 | 8.8%  | 49.3 秒 |
+| `bitcoin_lstm_v2` | 3.55*10-6 | 425.4 | 9.0%  | 1 分 13 秒 |
+| `bitcoin_lstm_v3` | 2.8*10-4 | 423.9 | 8.8%  | 1 分 19 秒 |
+| `bitcoin_lstm_v4` | 4.8*10-7 | 442.4 | 9.4%  | 1 分 20 秒 |
+
+> 表 2：所有模型的模型结果
+
+有趣的是，我们的第一个模型（`bitcoin_lstm_v0`）在几乎所有定义的指标中表现最佳。 我们将使用该模型构建我们的 Web 应用并不断预测比特币价格。
+
+###### 活动 7 – 优化深度学习模型
+
+在此活动中，我们对在“第 2 课”，“模型架构”（`bitcoin_lstm_v0`）中创建的模型实现不同的优化策略。 该模型在完整的反规范化测试集上获得了大约 8.4% 的 MAPE 表现。 我们将努力缩小这一差距。
+
+1.  在您的终端上，通过执行以下命令来启动 TensorBoard 实例：
+
+    ```py
+    $ cd ./lesson_3/activity_7/
+    $ tensorboard --logdir=logs/
+    ```
+
+2.  打开出现在屏幕上的 URL，并使该浏览器选项卡也保持打开状态。 另外，使用以下命令启动 Jupyter 笔记本实例：
+
+    ```py
+    $ jupyter notebook
+    ```
+
+    打开出现在其他浏览器窗口中的 URL。
+
+3.  现在，打开名为`Activity_7_Optimizing_a_deep_learning_model.ipynb`的 Jupyter 笔记本，并导航至笔记本的标题并导入所有必需的库。
+
+    我们将像以前的活动一样加载训练和测试数据。 我们还将使用工具函数`split_lstm_input()`将分为训练组和测试组。
+
+    在本笔记本的每个部分中，我们将在模型中实现新的优化技术。 每次这样做，我们都会训练一个新模型并将其训练后的实例存储在描述模型版本的变量中。 例如，在本笔记本中，我们的第一个模型`bitcoin_lstm_v0,`被称为`model_v0`。 在笔记本的最后，我们使用 MSE，RMSE 和 MAPE 评估所有模型。
+
+4.  现在，在打开的 Jupyter 笔记本中，导航至标题`Adding Layers and Nodes`。 您将在下一个单元格中识别出我们的第一个模型。 这是我们在第 2 课，“模型架构”中构建的基本 LSTM 网络。 现在，我们必须向该网络添加一个新的 LSTM 层。
+
+    利用本课中的知识，继续并添加新的 LSTM 层，编译和训练模型。
+
+    在训练模型时，请记住经常访问正在运行的 TensorBoard 实例。 您将能够查看每个模型的运行情况，并在此处比较其损失函数的结果：
+
+    ![Activity 7 – Optimizing a Deep Learning Model](img/image03_30.jpg)
+
+    图 14：运行 TensorBoard 实例，该实例显示了许多不同的模型运行。 TensorBoard 对于实时跟踪模型训练非常有用。
+
+5.  现在，导航至标题`Epochs`。 在本节中，我们有兴趣探索不同周期的大小。 使用工具函数`train_model()`来命名不同的模型版本并运行：
+
+    ```py
+    train_model(model=model_v0, X=X_train, Y=Y_validate, epochs=100, version=0, run_number=0)
+    ```
+
+    使用一些不同的周期参数训练模型。
+
+    此时，您有兴趣确保模型不会过拟合训练数据。 您想避免这种情况，因为如果这样做，它将无法预测训练数据中表示的模式，但测试数据中具有不同的表示形式。
+
+    在尝试了新周期之后，请转到下一个优化技术：激活函数。
+
+6.  现在，导航至笔记本中的标题`Activation Functions`。 在本节中，您只需要更改以下变量：
+
+    ```py
+    activation_function = "tanh"
+    ```
+
+    我们在本节中使用了`tanh`函数，但是请随时尝试其他激活函数。 查看[这个页面](https://keras.io/activations/)上可用的列表，然后尝试其他可能性。
+
+    我们的最终选择是尝试不同的正则化策略。 这显然更加复杂，并且可能需要花费一些迭代才能注意到任何收益，尤其是数据量很少时。 此外，添加正则化策略通常会增加网络的训练时间。
+
+7.  现在，导航至笔记本中的标题**正则化策略**。 在本部分中，您需要实现`Dropout()`正则化策略。 找到合适的位置放置该步骤并将其实现到我们的模型中。
+8.  您也可以在这里尝试进行 L2 正则化（或将两者结合使用）。 与`Dropout()`相同，但现在使用`ActivityRegularization(l2=0.0001)`。
+
+    最后，让我们使用 RMSE 和 MAPE 评估我们的模型：
+
+9.  现在，导航至笔记本中的标题`Evaluate Models`。 在本节中，我们将评估测试集中未来 19 周数据的模型预测。 然后，我们将计算预测序列与测试序列的 RMSE 和 MAPE。
+
+    我们已经实现了与活动 6 相同的评估技术，所有这些技术都包含在工具函数中。 只需运行本节中的所有单元格，直到笔记本末尾即可查看结果。
+
+    ### 注意
+
+    对于参考解决方案，请使用`Code/Lesson-3/activity_7`文件夹。
+
+    借此机会来调整前面的优化技术的值，并尝试击败该模型的表现。
+
+# 总结
+
+在本课程中，我们学习了如何使用度量均方误差（MSE），均方误差（RMSE）和均值平均百分比误差（MAPE）来评估模型。 我们通过第一个神经网络模型进行的为期 19 周的一系列预测中计算了后两个指标。 然后我们得知它运行良好。
+
+我们还学习了如何优化模型。 我们研究了通常用于提高神经网络表现的优化技术。 此外，我们实现了许多这些技术，并创建了更多模型来预测具有不同错误率的比特币价格。
+
+在下一课中，我们将把我们的模型变成一个执行以下两件事的 Web 应用：使用新数据定期重新训练我们的模型，并能够使用 HTTP API 接口进行预测。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/4.md b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/4.md
new file mode 100644
index 00000000..7da3ee43
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/4.md
@@ -0,0 +1,453 @@
+# 四、产品化
+
+本课程重点介绍如何*产品化*深度学习模型。 我们使用“产品化”一词来定义可被其他人和应用使用的深度学习模型创建的软件产品。
+
+我们对在使用新数据时可用的模型，不断从新数据中学习模式并因此做出更好的预测的模型感兴趣。 我们研究了两种处理新数据的策略：一种重新训练现有模型，另一种创建全新模型。 然后，我们在比特币价格预测模型中实现后一种策略，以便它可以连续预测新的比特币价格。
+
+本课程还提供了如何将模型部署为 Web 应用的练习。 在本课程结束时，我们将能够部署一个有效的 Web 应用（具有正常运行的 HTTP API）并将其修改为我们的核心内容。
+
+由于其简单性和普遍性（毕竟，Web 应用非常普遍），我们以 Web 应用为例来说明如何部署深度学习模型，但是还有许多其他可能性。
+
+# 课程目标
+
+在本课程中，您将：
+
+*   处理新数据
+*   将模型部署为 Web 应用
+
+# 处理新数据
+
+可以在一组数据中训练模型，然后将其用于进行预测。 这样的静态模型可能非常有用，但是通常情况下，我们希望我们的模型不断从新数据中学习，并不断地不断改进。
+
+在本节中，我们将讨论关于如何重新训练深度学习模型以及如何在 Python 中实现它们的两种策略。
+
+## 分离数据和模型
+
+构建深度学习应用时，两个最重要的领域是数据和模型。 从架构的角度来看，我们建议将这两个区域分开。 我们认为这是一个好建议，因为这些区域中的每个区域都包含固有地彼此分离的功能。 通常需要收集，清理，组织和规范化数据； 模型需要进行训练，评估并能够做出预测。 这两个领域都是相互依存的，但最好分开处理。
+
+按照该建议，我们将使用两个类来帮助我们构建 Web 应用：`CoinMarketCap()`和`Model()`：
+
+*   `CoinMarketCap()`：此是[用于从以下网站获取比特币价格的类](http://www.coinmarketcap.com)。 这就是我们原始比特币数据来自的地方。 通过此类，可以轻松地定期检索该数据，并返回带有已解析记录和所有可用历史数据的 Pandas 数据帧。 `CoinMarketCap()`是我们的数据组件。
+*   `Model()`：此类将到目前为止已编写的所有代码实现为一个类。 该类提供了与我们先前训练的模型进行交互的工具，并且还允许使用非规范化数据进行预测，这更容易理解。 `Model()`类是我们的模型组件。
+
+这两个类在我们的示例应用中得到了广泛使用，并定义了数据和模型组件。
+
+### 数据组件
+
+`CoinMarketCap()`类创建用于检索和解析数据的方法。 它包含一种相关方法`historic()`，以下代码中对其进行了详细说明：
+
+```py
+ @classmethod
+ def historic(cls, start='2013-04-28', stop=None,
+ ticker='bitcoin', return_json=False):
+
+    start = start.replace('-', '')
+    if not stop:
+        stop = datetime.now().strftime('%Y%m%d')
+
+    base_url = 'https://coinmarketcap.com/currencies'
+    url = '/{}/historical-10\. data/?start={}&end={}'.format(ticker, start, 	    stop)
+    r = requests.get(url)
+```
+
+> “代码段 1”：`CoinMarketCap()`类中的`historic()`方法。 此方法从 CoinMarketCap 网站收集数据，对其进行解析，然后返回 Pandas 数据帧。
+
+`historic()`类返回一个 Pandas `DataFrame`，准备由`Model()`类使用。
+
+当在其他模型中工作时，请考虑创建实现与`CoinMarketCap()`类相同功能的程序组件（例如 Python 类）。 也就是说，创建一个组件，该组件将从可用数据中获取数据，解析该数据，并以可用格式将其提供给您的建模组件。
+
+`CoinMarketCap()`类使用参数`ticker`确定要收集的加密货币。 `CoinMarketCap`还有许多其他可用的加密货币，包括非常受欢迎的以太坊（`ethereum`）和比特币现金（`bitcoin-cash`）。 与使用本书中创建的比特币模型相比，使用`ticker`参数来更改加密货币并训练不同的模型。
+
+#### 模型组件
+
+在`Model()` 类中，我们实现了应用的模型组件。 此类包含五种方法，可实现本书中所有不同的建模主题。 这些是：
+
+*   `build()`：使用 Keras 构建 LSTM 模型。 此函数用作手动创建的模型的简单包装。
+*   `train()`：使用实例化类的数据训练模型。
+*   `evaluate()`：使用一组损失函数对进行模型评估。
+*   `save()`：将模型另存为本地文件。
+*   `predict()`：进行并根据以周为单位的观测值的输入序列返回预测。
+
+在本课程中，我们将使用这些方法来对我们的模型进行工作，训练，评估和发布预测。 `Model()`类是如何将基本 Keras 函数包装到 Web 应用中的示例。 前面的方法几乎与前面的课程完全一样，但是添加了语法糖以增强它们的接口。 例如，方法`train()`通过以下代码实现：
+
+```py
+ def train(self, data=None, epochs=300, verbose=0, batch_size=1):
+    self.train_history = self.model.fit(
+            x=self.X, y=self.Y,
+            batch_size=batch_size, epochs=epochs,
+            verbose=verbose, shuffle=False)
+
+    self.last_trained = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
+    return self.train_history
+```
+
+> “代码段 2”：`Model()`类中的`train()`方法。 该方法使用来自`self.X`和`self.Y`的数据训练`self.model`中可用的模型。
+
+在前面的代码片段中，您将注意到`train()`方法类似于“第 3 课”，“模型评估与优化”中“活动 6”和`7`的解决方案。 总体思路是，可以很容易地将 Keras 工作流程中的每个过程（构建或设计，训练，评估和预测）转变为程序的不同部分。 在我们的例子中，我们将它们变成可以从`Model()`类调用的方法。 这将组织我们的程序，并提供一系列约束（例如在模型架构或某些 API 参数上），以帮助我们在稳定的环境中部署模型。
+
+在下一部分中，我们将探讨处理新数据的通用策略。
+
+#### 处理新数据
+
+机器学习模型（包括神经网络）的核心思想是它们可以从数据中学习模式。 想象一下，某个模型是使用某个数据集训练的，而现在它正在发布预测。 现在，假设有新数据可用。 我们可以采用什么策略，以便模型可以利用新获得的数据来学习新模式并改善其预测？
+
+在此部分中，我们讨论两种策略：重新训练旧模型和训练新模型。
+
+##### 重新训练旧模型
+
+通过这种策略，我们用新数据重新训练了现有模型。 使用此策略，可以不断调整模型参数以适应新现象。 但是，后期训练期间使用的数据可能与其他较早的数据明显不同。 这种差异可能会导致模型参数发生重大变化，从而使其学习新模式而忘记旧模式。 这种现象通常称为*灾难性遗忘*。
+
+### 注意
+
+灾难性的遗忘是影响神经网络的常见现象。 深度学习研究人员多年来一直在努力解决这个问题。 DeepMind 是英国拥有的 Google 深度学习研究小组，在寻找解决方案方面取得了显着进步。 [《克服神经网络中的灾难性遗忘》](https://arxiv.org/pdf/1612.00796.pdf)是此类工作的很好参考。
+
+首次用于训练的接口（`model.fit()`）可以用于训练新数据：
+
+```py
+   X_train_new, Y_train_new = load_new_data()
+
+ model.fit(x=X_train_new, y=Y_train_new,
+ batch_size=1, epochs=100,
+ verbose=0)
+
+```
+
+> “代码段 3”：在我们的 LSTM 模型中实现 TensorBoard 回调的代码段
+
+在 Keras 中，训练模型时，将保留其权重信息-这是模型的状态。 当使用`model.save()`方法时，该状态也被保存。 当调用方法`model.fit()`时，将使用先前的状态作为起点，使用新的数据集重新训练模型。
+
+在典型的 Keras 模型中，可以毫无问题地使用此技术。 但是，在使用 LSTM 模型时，此技术有一个关键限制：训练数据和验证数据的形状必须相同。 例如，我们的 LSTM 模型（`bitcoin_lstm_v0`）使用 76 周来预测未来的一周。 如果我们尝试在接下来的一周内用 77 周的时间对网络进行训练，则该模型会引发一个异常，其中包含有关数据形状错误的信息。
+
+解决此问题的一种方法是按模型期望的格式排列数据。 在我们的案例中，我们需要配置模型以使用 40 周来预测未来一周。 使用此解决方案，我们首先在 2017 年的前 40 周训练模型，然后在接下来的几周内继续对其进行训练，直到达到 50 周为止。我们使用`Model()`类在以下代码中执行此操作：
+
+```py
+  M = Model(data=model_data[0*7:7*40 + 7],
+             variable='close',
+             predicted_period_size=7)
+
+  M.build()
+  6   M.train()
+
+  for i in range(1, 10 + 1):
+
+M.train(model_data[i*7:7*(40 + i) + 7])
+
+```
+
+> 片段 4：实现再训练技术的片段
+
+这项技术易于训练，并且在大序列中也可以很好地工作。 下一技术更易于实现，并且在较小的序列中效果很好。
+
+###### 训练新模型
+
+另一种策略是每当有新数据可用时创建并训练新模型。 这种方法倾向于减少灾难性的遗忘，但是训练时间会随着数据的增加而增加。 它的实现非常简单。
+
+以比特币模型为例，现在假设我们有 2017 年 49 周的旧数据，而一周后就有新数据可用。 我们用以下引号中的变量`old_data`和`new_data`表示这一点：
+
+```py
+   	old_data = model_data[0*7:7*48 + 7]
+   	new_data = model_data[0*7:7*49 + 7]
+
+   	M = Model(data=old_data,
+             variable='close',
+             predicted_period_size=7)
+
+   	M.build()
+   	M.train()
+ M = Model(data=new_data,
+ variable='close',
+ predicted_period_size=7)
+
+ M.build()
+ M.train()
+
+```
+
+> 片段 5：该片段实现了在有新数据时训练新模型的策略
+
+这种方法实现起来非常简单，并且对于小型数据集而言效果很好。 这将是我们比特币价格预测应用的首选解决方案。
+
+###### 活动 8 – 处理新数据
+
+在此活动中，每当有新数据可用时，我们都会重新训练模型。
+
+首先，我们从导入`cryptonic`开始。 Cryptonic 是为本书开发的简单软件应用，它使用 Python 类和模块实现了本节之前的所有步骤。 将 Cryptonic 视为开发相似应用的模板。
+
+`cryptonic`作为 Python 模块随此活动一起提供。 首先，我们将启动 Jupyter 笔记本实例，然后将加载`cryptonic`包。
+
+1.  在您的终端上使用，导航到目录`lesson_4/activity_8`，然后执行以下代码来启动 Jupyter 笔记本实例：
+
+    ```py
+    $ jupyter notebook
+    ```
+
+2.  在浏览器中打开应用提供的 URL，然后打开名为`Activity_8_Re_training_a_model_dynamically.ipynb`的 Jupyter 笔记本。
+
+    现在，我们将从`cryptonic: Model()`和`CoinMarketCap()`加载这两个类。 这些类有助于操纵模型的过程以及从网站 [CoinMarketCap](https://coinmarketcap.com/) 获取数据的过程。
+
+3.  在 Jupyter 笔记本实例中，导航至标题`Fetching Real-Time Data`。 现在，我们将从`CoinMarketCap`获取更新的历史数据。 只需调用方法：
+
+    ```py
+    $ historic_data = CoinMarketCap.historic()
+    ```
+
+    现在，变量`historic_data`填充有一个 Pandas 数据帧，其中包含截至今天或昨天的数据。 这很棒，可以在有更多数据时更容易地重新训练模型。
+
+    数据实际上包含了与我们之前的数据集相同的变量。 但是，许多数据来自较早周期。 与几年前的价格相比，最近的比特币价格已经大幅波动。 在模型中使用此数据之前，请确保将其过滤为 2017 年 1 月 1 日之后的日期。
+
+4.  使用 Pandas API，仅过滤 2017 年可用日期的数据：
+
+    ```py
+    $ model_data = # filter the dataset using pandas here
+    ```
+
+    您应该能够通过使用日期变量作为过滤索引来做到这一点。 在继续之前，请确保已过滤数据。
+
+    类`Model()`编译到目前为止我们在所有活动中编写的所有代码。 在本活动中，我们将使用该类来构建，训练和评估我们的模型。
+
+5.  使用`Model()`类，我们现在使用前面的过滤数据训练模型：
+
+    ```py
+    M = Model(data=model_data,
+              variable='close',
+              predicted_period_size=7)
+
+    M.build()
+    M.train()
+    M.predict(denormalized=True)
+    ```
+
+    使用`Model()`类训练模型时，前面的步骤展示了完整的工作流程。
+
+    ### 注意
+
+    对于参考解决方案，请使用`Code/Lesson-4/activity_8`文件夹。
+
+    接下来，我们将专注于每当有更多数据可用时就重新训练我们的模型。 这将网络的权重重新调整为新数据。
+
+    为此，我们将模型配置为使用 40 周来预测一周。 现在，我们要使用剩下的 10 个完整星期来创建 40 个星期的重叠期间，一次包括这 10 个星期中的一个，并针对其中每个期间重新训练模型。
+
+6.  导航到 Jupyter 笔记本中的标题`Re-Train Old Model`。 现在，使用索引将数据分成 7 天的重叠组，完成`range`函数和`model_data`过滤参数。 然后，重新训练我们的模型并收集结果：
+
+    ```py
+    results = []
+    for i in range(A, B):
+        M.train(model_data[C:D])
+        results.append(M.evaluate())
+    ```
+
+    变量`A`，`B`，`C`和`D`是占位符。 使用整数可创建 7 天的重叠组，其中重叠为 1 天。
+
+    重新训练模型后，继续并调用`M.predict(denormalized=True)`函数并欣赏结果。
+
+    接下来，我们将专注于每当有新数据可用时创建和训练新模型。 为此，我们现在假设我们拥有 2017 年 49 周的旧数据，而一周之后，我们现在有了新数据。 我们用变量`old_data`和`new_data`来表示。
+
+7.  导航至标题**训练新模型**，然后在变量`old_data`和`new_data`之间拆分数据：
+
+    ```py
+    old_data = model_data[0*7:7*48 + 7]
+    new_data = model_data[0*7:7*49 + 7]
+    ```
+
+8.  然后，首先使用`old_data`训练模型：
+
+    ```py
+    M = Model(data=old_data,
+              variable='close',
+              predicted_period_size=7)
+    M.build()
+    M.train()
+    ```
+
+该策略是从头开始构建模型，并在有新数据可用时对其进行训练。 继续并在以下单元格中实现它。
+
+现在，我们拥有了，以便动态地训练模型。 在下一部分中，我们将模型部署为 Web 应用，并通过 HTTP API 在浏览器中提供其预测。
+
+在本部分中，我们了解了在有新数据可用时训练模型的两种策略：
+
+*   重新训练旧模型
+*   训练新模型
+
+后者创建了一个新模型，该模型将使用完整的数据集进行训练，测试集中的观察结果除外。 前者在可用数据上训练模型一次，然后继续创建重叠的批量，以在每次有新数据可用时重新训练同一模型。
+
+###### 将模型部署为 Web 应用
+
+在此部分中，我们将模型部署为 Web 应用。 我们将使用一个名为`cryptonic`的示例 Web 应用来部署我们的模型，探索其架构，以便将来进行修改。 目的是让您将此应用用作更复杂应用的入门程序； 可以正常工作的启动器，可以根据需要扩展。
+
+除了熟悉 Python 外，本主题还假定您熟悉创建 Web 应用。 具体来说，我们假设您对 Web 服务器，路由，HTTP 协议和缓存有所了解。 无需广泛了解这些主题，您就可以在本地部署演示的密码应用，但是学习这些主题将使将来的开发变得更加容易。
+
+最后，使用 Docker 部署我们的 Web 应用，因此该技术的基础知识也很有用。
+
+###### 应用架构和技术
+
+为了部署我们的 Web 应用，我们将使用“表 1”中描述的工具和技术。 Flask 是关键，因为它有助于我们为模型创建 HTTP 接口，从而使我们能够访问 HTTP 端点（例如`/predict`）并以通用格式接收数据。 之所以使用其他组件，是因为它们是开发 Web 应用时的流行选择：
+
+| 工具或技术 |  描述 |  角色 |
+| --- | --- | --- |
+| Docker | Docker 是一种用于处理以容器形式打包的应用的技术。 Docker 是一种越来越流行的用于构建 Web 应用的技术。 | 打包 Python 应用和 UI。 |
+| Flask | Flask 是用于用 Python 构建 Web 应用的微框架。 | 创建应用路由。 |
+| Vue.js | JavaScript 框架通过根据来自后端的数据输入在前端动态更改模板来工作。 | 呈现用户界面。 |
+| Nginx | 可轻松配置 Web 服务器，以将流量路由到 Dockerized 应用并处理 HTTPS 连接的 SSL 证书。 | 在用户和 Flask 应用之间路由流量。 |
+| Redis | 键值数据库。 由于其简单性和速度，它是实现缓存系统的流行选择。 | 缓存 API 请求。 |
+
+> “表 1”：用于部署深度学习 Web 应用的工具和技术
+
+这些组件组合在一起，如下图所示：
+
+![Application Architecture and Technologies](img/image04_01.jpg)
+
+> 图 1：此项目中构建的 Web 应用的系统架构
+
+用户使用他们的浏览器访问 Web 应用。 然后，该流量由 Nginx 路由到包含 Flask 应用的 Docker 容器（默认情况下，在端口`5000`上运行）。 Flask 应用已在启动时实例化了我们的比特币模型。 如果给出了模型，则无需训练即可使用该模型； 如果没有，它将创建一个新模型并使用 CoinMarketCap 的数据从头开始训练它。
+
+准备好模型后，应用将验证请求是否已在 Redis 上缓存-如果是，它将返回缓存的数据。 如果不存在缓存，则它将继续进行并发布在 UI 中呈现的预测。
+
+###### 部署和使用加密
+
+`cryptonic`是作为 Docker 化应用开发的。 用 Docker 术语来说，意味着可以将应用构建为 Docker 镜像，然后在开发或生产环境中将其部署为 Docker 容器。
+
+Docker 使用名为`Dockerfile`的文件来描述如何构建镜像的规则以及将该镜像作为容器部署时会发生什么。 以下代码提供了 Cryptonic 的 Dockerfile：
+
+```py
+  FROM python:3.6
+  COPY . /cryptonic
+  WORKDIR "/cryptonic"
+  RUN pip install -r requirements.txt
+  EXPOSE 5000
+  CMD ["python", "run.py"]
+```
+
+> “代码段 7”：用于在本地构建 Docker 镜像的 Docker 命令
+
+可以使用 Dockerfile 通过以下命令构建 Docker 镜像：
+
+```py
+  $ docker build --tag cryptonic:latest
+```
+
+此命令将使镜像`cryptonic:latest`可以部署为容器。 可以在生产服务器上重复构建过程，也可以直接部署镜像，然后将其作为容器运行。
+
+生成镜像并可用后，可以使用命令`docker run`运行加密应用，如以下代码所示：
+
+```py
+  $ docker run --publish 5000:5000 \
+               --detach cryptonic:latest
+```
+
+> 片段 8：在终端中执行`docker run`命令的示例
+
+`--publish`标志将`localhost`上的端口`5000`绑定到 Docker 容器上的端口`5000`，并且`--detach`在后台将容器作为守护程序运行。
+
+如果您训练了不同的模型，并且想用它代替训练新的模型，则可以更改`docker-compose.yml`上的`MODEL_NAME`环境变量，如代码段 9 所示。该变量应包含您已经训练并想要使用的模型的文件名（例如`bitcoin_lstm_v1_trained.h5`），它也应该是 Keras 模型。 如果这样做，请确保也将本地目录装载到`/models`文件夹中。 您决定挂载的目录必须具有模型文件。
+
+`cryptonic`应用还包含许多环境变量，这些变量在部署自己的模型时可能会有用：
+
+*   `MODEL_NAME`：允许提供经过训练的模型供应用使用。
+*   `BITCOIN_START_DATE`：确定将哪一天用作比特币序列的开始日期。 近年来，比特币价格的波动性要比早期的波动大得多。 此参数仅将数据过滤到感兴趣的年份。 默认值为 2017 年 1 月 1 日。
+*   `PERIOD_SIZE`：以天数设置周期大小。 默认值为`7`。
+*   `EPOCHS`：配置模型在每次运行中训练的周期数。 默认值为`300`。
+
+可以在`docker-compose.yml`文件中配置这些变量，如以下代码所示：
+
+```py
+ version: "3"
+ services:
+ cache:
+ image: cryptonic-cache:latest
+ volumes: - $PWD/cache_data:/data
+ networks:- cryptonic
+ ports: - "6379:6379"
+
+ environment:
+ - MODEL_NAME=bitcoin_lstm_v0_trained.h5
+ - BITCOIN_START_DATE=2017-01-01
+ - EPOCH=300
+ - PERIOD_SIZE=7
+
+```
+
+> “代码段 9”：`docker-compose.yml`文件，包括环境变量
+
+部署`cryptonic`的最简单方法是使用代码段 9 中的`docker-compose.yml`文件。此文件包含应用运行所必需的所有规范，包括有关如何与 Redis 缓存连接以及要使用的环境变量的说明。 导航到`docker-compose.yml`文件的位置后，可以使用命令`docker-compose up`启动`cryptonic`，如以下代码所示：
+
+```py
+$ docker-compose up -d
+```
+
+> “代码段 10”：使用`docker-compose`启动 Docker 应用。 标志`-d`在后台执行应用。
+
+部署后，可以通过 Web 浏览器在端口`5000`上访问`cryptonic`。 该应用具有一个简单的用户界面，该用户界面带有一个时序图，描绘了真实的历史价格（换句话说，观察到的）和来自深度学习模型的预测未来价格（换句话说，预测的）。 您还可以在文本中读取使用`Model().evaluate()`方法计算出的 RMSE 和 MAPE：
+
+![Deploying and Using Cryptonic](img/image04_02.jpg)
+
+图 2：已部署的加密应用的屏幕截图
+
+除了其用户界面（使用 Vue.js 开发）外，该应用还具有 HTTP API，该 API 会在调用时进行预测。 该 API 具有端点`/predict`，该端点返回一个 JSON 对象，其中包含未来一周内非规范化的比特币价格预测：
+
+```py
+ {
+    message: "API for making predictions.",
+    period_length: 7,
+    result: [
+      15847.7,
+      15289.36,
+      17879.07,
+…
+      17877.23,
+      17773.08
+    ],
+    success: true,
+    version: 1
+  }
+```
+
+> 片段 11：`/predict`端点的示例 JSON 输出
+
+现在，应用可以部署在远程服务器中，并用于持续预测比特币价格。
+
+###### 活动 9 – 部署深度学习应用
+
+在此活动中，我们将模型作为本地 Web 应用部署。 这使我们可以使用浏览器连接到 Web 应用，或者通过应用的 HTTP API 使用另一个应用。 在继续之前，请确保您已经安装了以下应用，并且在计算机中可用：
+
+*   Docker（社区版）17.12.0-ce 或更高版本
+*   Docker Compose（`docker-compose`）1.18.0 或更高版本
+
+可以从[以下网站](https://www.docker.com/)下载上述两个组件并将其安装在所有主要系统中。 这些对于完成此活动至关重要。 继续前进之前，请确保这些在系统中可用。
+
+1.  在您的终端上，浏览至加密目录并为所有必需的组件构建 docker 镜像：
+
+    ```py
+    $ docker build --tag cryptonic:latest .
+    $ docker build --tag cryptonic-cache:latest ./ cryptonic-cache/
+    ```
+
+2.  这两个命令构建了我们将在此应用中使用的两个镜像：密码（包含 Flask 应用）和密码缓存（包含 Redis 缓存）。
+3.  生成图像后，识别`docker-compose.yml`文件并在文本编辑器中将其打开。 将参数`BITCOIN_START_DATE` 更改为 2017 年 1 月 1 日以外的日期：
+
+    ```py
+    BITCOIN_START_DATE = # Use other date here
+    ```
+
+4.  最后，使用`docker-compose`在本地部署 Web 应用，如下所示：
+
+    ```py
+    docker-compose up
+    ```
+
+    您应该在终端上看到活动日志，包括模型中的训练周期。
+
+5.  训练完模型后，您可以在`http://localhost:5000`上访问您的应用，并在`http://localhost:5000/predict`上进行预测：
+
+    ![Activity 9 – Deploying a Deep Learning Application](img/image04_02.jpg)
+
+    > 图 3：本地部署的加密应用的屏幕快照
+
+### 注意
+
+对于参考解决方案，请使用`Code/Lesson-4/activity_9` 文件夹。
+
+###### 总结
+
+本课结束了我们创建深度学习模型并将其部署为 Web 应用的旅程。 我们的最后一步包括部署一个模型，该模型预测使用 Keras 和 TensorFlow 引擎构建的比特币价格。 我们通过将应用打包为 Docker 容器并进行部署来完成工作，以便其他人可以通过其 API 以及我们的模型使用模型的预测。
+
+除了这项工作之外，您还了解到还有很多可以改进的地方。 我们的比特币模型只是模型可以做的事（尤其是 LSTM）的一个例子。 现在的挑战有两方面：随着时间的流逝，如何使该模型的表现更好？ 而且，可以将哪些功能添加到 Web 应用中以使模型更易于访问？ 祝你好运，继续学习！
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/README.md b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/README.md
new file mode 100644
index 00000000..a6c65150
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/README.md
@@ -0,0 +1,35 @@
+# TensorFlow 和 Keras 应用开发入门
+
+> 原文：[Beginning Application Development with TensorFlow and Keras](https://b-ok.global/book/3629129/d2be51)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/SUMMARY.md
new file mode 100644
index 00000000..39e91037
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/SUMMARY.md
@@ -0,0 +1,6 @@
++   [TensorFlow 和 Keras 应用开发入门](README.md)
++   [零、前言](0.md)
++   [一、神经网络和深度学习简介](1.md)
++   [二、模型架构](2.md)
++   [三、模型评估和优化](3.md)
++   [四、产品化](4.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/Lesson-2-Algorithm.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/Lesson-2-Algorithm.jpg
new file mode 100644
index 00000000..69285460
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/Lesson-2-Algorithm.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/Mapt_logo.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/Mapt_logo.jpg
new file mode 100644
index 00000000..4623a09a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/Mapt_logo.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_01.jpg
new file mode 100644
index 00000000..67159d17
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_02.jpg
new file mode 100644
index 00000000..02b56d1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_03.jpg
new file mode 100644
index 00000000..8f9c1616
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_04.jpg
new file mode 100644
index 00000000..d856357f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_05.jpg
new file mode 100644
index 00000000..39158ea4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_06.jpg
new file mode 100644
index 00000000..fa38224d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_07.jpg
new file mode 100644
index 00000000..a236e308
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_08.jpg
new file mode 100644
index 00000000..fdf8b35e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_09.jpg
new file mode 100644
index 00000000..89f7786a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image01_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_01.jpg
new file mode 100644
index 00000000..7275488c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_02.jpg
new file mode 100644
index 00000000..19be7033
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_03.jpg
new file mode 100644
index 00000000..aad8a4f8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_04.jpg
new file mode 100644
index 00000000..a5607d6d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_05.jpg
new file mode 100644
index 00000000..b473805b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_06.jpg
new file mode 100644
index 00000000..8fd51d02
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_07.jpg
new file mode 100644
index 00000000..994d4e18
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_08.jpg
new file mode 100644
index 00000000..ed6b736d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_09.jpg
new file mode 100644
index 00000000..84f898e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_10.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_10.jpg
new file mode 100644
index 00000000..699a4f8d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_10.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_11.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_11.jpg
new file mode 100644
index 00000000..95f7cb7d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_11.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_12.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_12.jpg
new file mode 100644
index 00000000..70e09303
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_12.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_13.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_13.jpg
new file mode 100644
index 00000000..f2b4b8f7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_13.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_14.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_14.jpg
new file mode 100644
index 00000000..d06568ea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_14.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_18.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_18.jpg
new file mode 100644
index 00000000..76879349
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_18.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_19.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_19.jpg
new file mode 100644
index 00000000..966e2388
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_19.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_20.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_20.jpg
new file mode 100644
index 00000000..e4fee148
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_20.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_21.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_21.jpg
new file mode 100644
index 00000000..60097b88
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_21.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_22.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_22.jpg
new file mode 100644
index 00000000..ff1c6665
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_22.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_23.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_23.jpg
new file mode 100644
index 00000000..dd15b8ae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_23.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_24.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_24.jpg
new file mode 100644
index 00000000..af1dce24
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_24.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_25.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_25.jpg
new file mode 100644
index 00000000..94d63706
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_25.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_26.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_26.jpg
new file mode 100644
index 00000000..362266b5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_26.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_27.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_27.jpg
new file mode 100644
index 00000000..7d4014af
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_27.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_28.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_28.jpg
new file mode 100644
index 00000000..7b7f7dbd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_28.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_29.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_29.jpg
new file mode 100644
index 00000000..47819a8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_29.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_30.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_30.jpg
new file mode 100644
index 00000000..2fc8668f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_30.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_31.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_31.jpg
new file mode 100644
index 00000000..5e7e4ff9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_31.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_32.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_32.jpg
new file mode 100644
index 00000000..907c2b75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_32.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_33.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_33.jpg
new file mode 100644
index 00000000..f4ff46a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_33.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_34.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_34.jpg
new file mode 100644
index 00000000..0994d020
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_34.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_35.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_35.jpg
new file mode 100644
index 00000000..e663fea8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image02_35.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_01.jpg
new file mode 100644
index 00000000..7c5c027d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_03.jpg
new file mode 100644
index 00000000..d3e376ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_05.jpg
new file mode 100644
index 00000000..7002e5d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_07.jpg
new file mode 100644
index 00000000..f06ab8e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_09.jpg
new file mode 100644
index 00000000..82b1016d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_11.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_11.jpg
new file mode 100644
index 00000000..7658b641
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_11.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_13.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_13.jpg
new file mode 100644
index 00000000..62131fb8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_13.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_20.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_20.jpg
new file mode 100644
index 00000000..1624ccc3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_20.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_22.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_22.jpg
new file mode 100644
index 00000000..b16b9b80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_22.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_24.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_24.jpg
new file mode 100644
index 00000000..77b21985
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_24.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_26.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_26.jpg
new file mode 100644
index 00000000..8a58e08f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_26.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_28.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_28.jpg
new file mode 100644
index 00000000..962d1592
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_28.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_30.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_30.jpg
new file mode 100644
index 00000000..6f3c54ca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_30.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_31.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_31.jpg
new file mode 100644
index 00000000..7e2cc014
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_31.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_32.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_32.jpg
new file mode 100644
index 00000000..03c92871
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image03_32.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image04_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image04_01.jpg
new file mode 100644
index 00000000..9a97ff01
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image04_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image04_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image04_02.jpg
new file mode 100644
index 00000000..ea5fff68
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/begin-app-dev-tf-keras/img/image04_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/README.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/README.md
new file mode 100644
index 00000000..2e26e46e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/README.md
@@ -0,0 +1,35 @@
+# 使用 TensorFlow 构建机器学习项目中文版
+
+> 原文：[Building Machine Learning Projects with TensorFlow](https://b-ok.global/book/2924595/0afd39)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/SUMMARY.md
new file mode 100644
index 00000000..4d805bf5
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/SUMMARY.md
@@ -0,0 +1,11 @@
++   [使用 TensorFlow 构建机器学习项目中文版](README.md)
++   [一、探索和转换数据](ch01.md)
++   [二、聚类](ch02.md)
++   [三、线性回归](ch03.md)
++   [四、逻辑回归](ch04.md)
++   [五、简单的前馈神经网络](ch05.md)
++   [六、卷积神经网络](ch06.md)
++   [七、循环神经网络和 LSTM](ch07.md)
++   [八、深度神经网络](ch08.md)
++   [九、大规模运行模型 -- GPU 和服务](ch09.md)
++   [十、库安装和其他提示](ch10.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch01.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch01.md
new file mode 100644
index 00000000..134fa1df
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch01.md
@@ -0,0 +1,797 @@
+# 一、探索和转换数据
+
+TensorFlow 是用于使用数据流图进行数值计算的开源软件库。 图中的节点表示数学运算，而图的边缘表示在它们之间传递的多维数据数组（张量）。
+
+该库包含各种函数，使您能够实现和探索用于图像和文本处理的最先进的卷积神经网络（CNN）和循环神经网络（RNN）架构。 由于复杂的计算以图的形式排列，因此 TensorFlow 可用作框架，使您能够轻松开发自己的模型并将其用于机器学习领域。
+
+它还能够在从 CPU 到移动处理器（包括高度并行的 GPU 计算）的大多数异构环境中运行，并且新的服务架构可以在所有指定选项的非常复杂的混合环境中运行：
+
+![Exploring and Transforming Data](img/00002.jpg)
+
+# TensorFlow 的主要数据结构 -- 张量
+
+TensorFlow 的数据管理基于张量。 张量是来自数学领域的概念，并且是作为向量和矩阵的线性代数项的概括而开发的。
+
+专门讨论 TensorFlow 时，张量只是在张量对象中建模的带类型的多维数组，带有其他操作。
+
+## 张量属性 -- 阶数，形状和类型
+
+如前所述，TensorFlow 使用张量数据结构表示所有数据。 任何张量都具有静态类型和动态尺寸，因此您可以实时更改张量的内部组织。
+
+张量的另一个特性是，只有张量类型的对象才能在计算图中的节点之间传递。
+
+现在让我们看一下张量的属性是什么（从现在开始，每次使用张量这个词时，我们都将引用 TensorFlow 的张量对象）。
+
+### 张量阶数
+
+张量阶数表示张量的维度方面，但与矩阵阶数不同。 它表示张量所处的维数，而不是行/列或等效空间中张量扩展的精确度量。
+
+秩为 1 的张量等于向量，秩为 2 的张量是矩阵。 对于二阶张量，您可以使用语法`t[i, j]`访问任何元素。 对于三阶张量，您将需要使用`t[i, j, k]`来寻址元素，依此类推。
+
+在下面的示例中，我们将创建一个张量，并访问其分量之一：
+
+```py
+>>> import tensorflow as tf 
+>>> tens1 = tf.constant([[[1,2],[2,3]],[[3,4],[5,6]]]) 
+>>> print sess.run(tens1)[1,1,0] 
+5 
+
+```
+
+这是三阶张量，因为在包含矩阵的每个元素中都有一个向量元素：
+
+| 秩 | 数学实体 | 代码定义示例 |
+| --- | --- | --- |
+| 0 | 标量 | `scalar = 1000` |
+| 1 | 向量 | `vector = [2, 8, 3]` |
+| 2 | 矩阵 | `matrix = [[4, 2, 1], [5, 3, 2], [5, 5, 6]]` |
+| 3 | 3 阶张量 | `tensor = [[[4], [3], [2]], [[6], [100], [4]], [[5], [1], [4]]]` |
+| n | n 阶张量 | ... |
+
+### 张量形状
+
+TensorFlow 文档使用三种符号约定来描述张量维数：阶数，形状和维数。 下表显示了它们之间的相互关系：
+
+| 秩 | 形状 | 维度数量 | 示例 |
+| --- | --- | --- | --- |
+| 0 | `[]` | 0 | `4` |
+| 1 | `[D0]` | 1 | `[2]` |
+| 2 | `[D0，D1]` | 2 | `[6, 2]` |
+| 3 | `[D0，D1，D2]` | 3 | `[7, 3, 2]` |
+| n | `[D0，D1，... Dn-1]` | d | 形状为`[D0, D1, ..., Dn-1]`的张量。 |
+
+在下面的示例中，我们创建一个样本阶数三张量，并打印其形状：
+
+![Tensor shape](img/00003.jpg)
+
+### 张量数据类型
+
+除了维数外，张量还具有固定的数据类型。 您可以将以下任意一种数据类型分配给张量：
+
+| 数据类型 | Python 类型 | 描述 |
+| --- | --- | --- |
+| `DT_FLOAT` | `tf.float32` | 32 位浮点。 |
+| `DT_DOUBLE` | `tf.float64` | 64 位浮点。 |
+| `DT_INT8` | `tf.int8` | 8 位有符号整数。 |
+| `DT_INT16` | `tf.int16` | 16 位有符号整数。 |
+| `DT_INT32` | `tf.int32` | 32 位有符号整数。 |
+| `DT_INT64` | `tf.int64` | 64 位有符号整数。 |
+| `DT_UINT8` | `tf.uint8` | 8 位无符号整数。 |
+| `DT_STRING` | `tf.string` | 可变长度字节数组。 张量的每个元素都是一个字节数组。 |
+| `DT_BOOL` | `tf.bool` | 布尔值。 |
+
+## 创建新的张量
+
+我们可以创建自己的张量，也可以从著名的 numpy 库派生它们。 在以下示例中，我们创建一些 numpy 数组，并对其进行一些基本数学运算：
+
+```py
+import tensorflow as tf
+import numpy as np
+x = tf.constant(np.random.rand(32).astype(np.float32))
+y=  tf.constant ([1,2,3])
+
+```
+
+### 从 numpy 到张量，以及反向
+
+TensorFlow 可与 numpy 互操作，通常`eval()`函数调用将返回一个 numpy 对象，准备与标准数值工具一起使用。
+
+### 提示
+
+我们必须注意，张量对象是操作结果的符号句柄，因此它不保存其包含的结构的结果值。 因此，我们必须运行`eval()`方法来获取实际值，该值等于`Session.run(tensor_to_eval)`。
+
+在此示例中，我们构建了两个 numpy 数组，并将它们转换为张量：
+
+```py
+import tensorflow as tf #we import tensorflow 
+import numpy as np   #we import numpy 
+sess = tf.Session() #start a new Session Object 
+x_data = np.array([[1.,2.,3.], 
+[3.,2.,6.]]) # 2x3 matrix 
+x = tf.convert_to_tensor(x_data, dtype=tf.float32) #Finally, we create the tensor, starting from the fload 3x matrix 
+
+```
+
+#### 有用的方法
+
+`tf.convert_to_tensor`：此函数将各种类型的 Python 对象转换为张量对象。 它接受张量对象，numpy 数组，Python 列表和 Python 标量。
+
+## 完成工作 -- 与 TensorFlow 交互
+
+与大多数 Python 模块一样，TensorFlow 允许使用 Python 的交互式控制台：
+
+![Getting things done - interacting with TensorFlow](img/00004.jpg)
+
+与 Python 的解释器和 TensorFlow 库轻松交互
+
+在上图中，我们调用 Python 解释器（通过简单地调用 Python）并创建常量类型的张量。 然后我们再次调用它，Python 解释器显示张量的形状和类型。
+
+我们还可以使用 IPython 解释器，该解释器将允许我们采用与笔记本样式工具（例如 Jupyter）更兼容的格式：
+
+![Getting things done - interacting with TensorFlow](img/00005.jpg)
+
+IPython 提示
+
+在谈论以交互方式运行 TensorFlow 会话时，最好使用`InteractiveSession`对象。
+
+与普通的`tf.Session`类不同，`tf.InteractiveSession`类将自身安装为构造时的默认会话。 因此，当您尝试求值张量或运行操作时，将不需要传递`Session`对象来指示它所引用的会话。
+
+# 处理计算工作流程 -- TensorFlow 的数据流程图
+
+TensorFlow 的数据流图是模型计算如何工作的符号表示：
+
+![Handling the computing workflow - TensorFlow's data flow graph](img/00006.jpg)
+
+在 TensorBoard 上绘制的简单数据流图表示
+
+简而言之，数据流图是一个完整的 TensorFlow 计算，表示为一个图，其中节点是操作，边是操作之间的数据流。
+
+通常，节点执行数学运算，但也表示连接以输入数据或变量，或推出结果。
+
+边缘描述节点之间的输入/输出关系。 这些数据边仅传输张量。 节点被分配给计算设备，并且一旦它们进入边缘上的所有张量都可用，就会异步并行执行。
+
+所有运算都有一个名称，并表示一个抽象计算（例如，矩阵求逆或乘积）。
+
+## 计算图构建
+
+通常在库用户创建张量和模型将支持的操作时构建计算图，因此无需直接构建`Graph()`对象。 Python 张量构造器，例如`tf.constant()`，会将必要的元素添加到默认图。 TensorFlow 操作也会发生同样的情况。
+
+例如，`c = tf.matmul(a, b)`创建一个`MatMul`类型的操作，该操作将张量`a`和`b`作为输入并产生`c`作为输出。
+
+### 有用的操作对象方法
+
+*   `tf.Operation.type`：返回操作的类型（例如`MatMul`）
+*   `tf.Operation.inputs`：返回代表操作输入的张量对象列表
+*   `tf.Graph.get_operations()`：返回图中的操作列表
+*   `tf.Graph.version`：返回图的自动数字版本
+
+## 馈送
+
+TensorFlow 还提供了一种馈送机制，可将张量直接修补到图中的任何操作中。
+
+提要用张量值临时替换操作的输出。 您将提要数据作为`run()`调用的参数提供。 提要仅用于传递给它的运行调用。 最常见的用例涉及通过使用`tf.placeholder()`创建特定的操作，使其指定为`feed`操作。
+
+## 变量
+
+在大多数计算中，图执行多次。 大多数张量都无法通过图的一次执行而幸存。 但是，变量是一种特殊的操作，它可以将句柄返回到持久可变的张量，该张量在图执行过程中仍然存在。 对于 TensorFlow 的机器学习应用，模型的参数通常存储在变量中保存的张量中，并在运行模型的训练图时进行更新。
+
+### 变量初始化
+
+要初始化变量，只需使用张量作为参数调用`Variable`对象构造器。
+
+在此示例中，我们使用`1000`零数组初始化了一些变量：
+
+```py
+b = tf.Variable(tf.zeros([1000])) 
+
+```
+
+## 保存数据流程图
+
+数据流图是使用 Google 的协议缓冲区编写的，因此以后可以使用多种语言进行读取。
+
+### 图序列化语言 -- 协议缓冲区
+
+协议缓冲区是一种不依赖语言，不依赖平台的可扩展机制，用于序列化结构化数据。 首先定义数据结构，然后可以使用专门生成的代码来使用多种语言进行读写。
+
+#### 有用的方法
+
+`tf.Graph.as_graph_def(from_version=None, add_shapes=False)`：返回此图的序列化`GraphDef`表示形式。
+
+参数：
+
+*   `from_version`：如果设置了此选项，它将返回带有从该版本添加的节点的`GraphDef`
+*   `add_shapes`：如果`true`，则向每个节点添加一个`shape`属性
+
+### 建立图的示例
+
+在此示例中，我们将构建一个非常简单的数据流图，并观察生成的 protobuffer 文件的概述：
+
+```py
+import tensorflow as tf 
+g = tf.Graph() 
+with g.as_default(): 
+import tensorflow as tf 
+sess = tf.Session() 
+W_m = tf.Variable(tf.zeros([10, 5])) 
+x_v = tf.placeholder(tf.float32, [None, 10]) 
+result = tf.matmul(x_v, W_m) 
+print g.as_graph_def() 
+
+```
+
+生成的 protobuffer（摘要）为：
+
+```py
+node {
+  name: "zeros"
+  op: "Const"
+  attr {
+    key: "dtype"
+    value {
+      type: DT_FLOAT
+    }
+  }
+  attr {
+    key: "value"
+    value {
+      tensor {
+        dtype: DT_FLOAT
+        tensor_shape {
+          dim {
+            size: 10
+          }
+          dim {
+            size: 5
+          }
+        }
+        float_val: 0.0
+      }
+    }
+  }
+}
+...
+node {
+  name: "MatMul"
+  op: "MatMul"
+  input: "Placeholder"
+  input: "Variable/read"
+  attr {
+    key: "T"
+    value {
+      type: DT_FLOAT
+    }
+  }
+...
+}
+versions {
+  producer: 8
+}
+```
+
+# 运行我们的程序 -- 会话
+
+客户端程序通过创建会话与 TensorFlow 系统交互。 会话对象表示将在其中运行计算的环境。 `Session`对象开始为空，并且当程序员创建不同的操作和张量时，它们将被自动添加到`Session`中，在调用`Run()`方法之前，该对象不会进行任何计算。
+
+`Run()`方法采用一组需要计算的输出名称，以及一组可选的张量，以代替节点的某些输出输入到图中。
+
+如果调用此方法，并且命名操作依赖于某些操作，则`Session`对象将执行所有这些操作，然后继续执行命名操作。
+
+这条简单的线是创建会话所需的唯一一行：
+
+```py
+s = tf.Session()
+Sample command line output:
+tensorflow/core/common_runtime/local_session.cc:45]Localsessioninteropparallelism threads:6
+
+```
+
+# 基本张量方法
+
+在本节中，我们将探索 TensorFlow 支持的一些基本方法。 它们对于初始数据探索和为更好的并行计算准备数据很有用。
+
+## 简单矩阵运算
+
+TensorFlow 支持许多更常见的矩阵运算，例如转置，乘法，获取行列式和逆运算。
+
+这是应用于样本数据的那些函数的一个小例子：
+
+```py
+In [1]: import tensorflow as tf 
+In [2]: sess = tf.InteractiveSession() 
+In [3]: x = tf.constant([[2, 5, 3, -5], 
+...:                  [0, 3,-2,  5], 
+...:                  [4, 3, 5,  3], 
+...:                  [6, 1, 4,  0]]) 
+
+In [4]: y = tf.constant([[4, -7, 4, -3, 4], 
+...:                  [6, 4,-7,  4, 7], 
+...:                  [2, 3, 2,  1, 4], 
+...:                  [1, 5, 5,  5, 2]]) 
+In [5]: floatx = tf.constant([[2., 5., 3., -5.], 
+...:                       [0., 3.,-2.,  5.], 
+...:                       [4., 3., 5.,  3.], 
+...:                       [6., 1., 4.,  0.]]) 
+In [6]: tf.transpose(x).eval() # Transpose matrix 
+Out[6]: 
+array([[ 2,  0,  4,  6], 
+[ 5,  3,  3,  1], 
+[ 3, -2,  5,  4], 
+[-5,  5,  3,  0]], dtype=int32) 
+
+In [7]: tf.matmul(x, y).eval() # Matrix multiplication 
+Out[7]: 
+array([[ 39, -10, -46,  -8,  45], 
+[ 19,  31,   0,  35,  23], 
+[ 47,  14,  20,  20,  63], 
+[ 38, -26,  25, -10,  47]], dtype=int32) 
+
+In [8]: tf.matrix_determinant(floatx).eval() # Matrix determinant 
+Out[8]: 818.0 
+
+In [9]: tf.matrix_inverse(floatx).eval() # Matrix inverse 
+Out[9]: 
+array([[-0.00855745,  0.10513446, -0.18948655,  0.29584351], 
+[ 0.12958434,  0.12224938,  0.01222495, -0.05134474], 
+[-0.01955992, -0.18826403,  0.28117359, -0.18092911], 
+[-0.08557458,  0.05134474,  0.10513448, -0.0415648 ]], dtype=float32) 
+
+In [10]: tf.matrix_solve(floatx, [[1],[1],[1],[1]]).eval() # Solve Matrix system 
+Out[10]: 
+array([[ 0.20293398], 
+[ 0.21271393], 
+[-0.10757945], 
+[ 0.02933985]], dtype=float32) 
+
+```
+
+### 归约
+
+归约运算是对张量的一个维度进行运算的操作，而其维数较小。
+
+支持的操作（具有相同参数）包括乘积，最小值，最大值，平均值，所有，任意和`accumulate_n`）。
+
+```py
+In [1]: import tensorflow as tf 
+
+In [2]: sess = tf.InteractiveSession() 
+In [3]: x = tf.constant([[1,  2, 3], 
+...:                  [3,  2, 1], 
+...:                  [-1,-2,-3]]) 
+In [4]: 
+
+In [4]: boolean_tensor = tf.constant([[True,  False, True], 
+...:                  [False, False, True], 
+...:                  [True, False, False]]) 
+
+In [5]: tf.reduce_prod(x, reduction_indices=1).eval() # reduce prod 
+Out[5]: array([ 6,  6, -6], dtype=int32) 
+
+In [6]: tf.reduce_min(x, reduction_indices=1).eval() # reduce min 
+Out[6]: array([ 1,  1, -3], dtype=int32) 
+
+In [7]: tf.reduce_max(x, reduction_indices=1).eval() # reduce max 
+Out[7]: array([ 3,  3, -1], dtype=int32) 
+
+In [8]: tf.reduce_mean(x, reduction_indices=1).eval() # reduce mean 
+Out[8]: array([ 2,  2, -2], dtype=int32) 
+
+In [9]: tf.reduce_all(boolean_tensor, reduction_indices=1).eval() # reduce all 
+Out[9]: array([False, False, False], dtype=bool) 
+
+In [10]: tf.reduce_any(boolean_tensor, reduction_indices=1).eval() # reduce any 
+Out[10]: array([ True,  True,  True], dtype=bool) 
+
+```
+
+### 张量分段
+
+张量分段是一个过程，其中某个维度被归约，并且所得元素由索引行确定。 如果该行中的某些元素被重复，则对应的索引将转到其中的值，并且该操作将在具有重复索引的索引之间应用。
+
+索引数组的大小应与索引数组的维度 0 的大小相同，并且必须增加 1。
+
+![Tensor segmentation](img/00007.jpg)
+
+细分说明（重做）
+
+```py
+In [1]: import tensorflow as tf 
+In [2]: sess = tf.InteractiveSession() 
+In [3]: seg_ids = tf.constant([0,1,1,2,2]); # Group indexes : 0|1,2|3,4 
+In [4]: tens1 = tf.constant([[2, 5, 3, -5], 
+...:                     [0, 3,-2,  5], 
+...:                     [4, 3, 5,  3], 
+...:                     [6, 1, 4,  0], 
+...:                     [6, 1, 4,  0]])  # A sample constant matrix 
+
+In [5]: tf.segment_sum(tens1, seg_ids).eval()   # Sum segmentation 
+Out[5]: 
+array([[ 2,  5,  3, -5], 
+[ 4,  6,  3,  8], 
+[12,  2,  8,  0]], dtype=int32) 
+
+In [6]: tf.segment_prod(tens1, seg_ids).eval() # Product segmentation 
+Out[6]: 
+array([[  2,   5,   3,  -5], 
+[  0,   9, -10,  15], 
+[ 36,   1,  16,   0]], dtype=int32) 
+
+In [7]: tf.segment_min(tens1, seg_ids).eval() # minimun value goes to group 
+Out[7]: 
+array([[ 2,  5,  3, -5], 
+[ 0,  3, -2,  3], 
+[ 6,  1,  4,  0]], dtype=int32) 
+
+In [8]: tf.segment_max(tens1, seg_ids).eval() # maximum value goes to group 
+Out[8]: 
+array([[ 2,  5,  3, -5], 
+[ 4,  3,  5,  5], 
+[ 6,  1,  4,  0]], dtype=int32) 
+
+In [9]: tf.segment_mean(tens1, seg_ids).eval() # mean value goes to group 
+Out[9]: 
+array([[ 2,  5,  3, -5], 
+[ 2,  3,  1,  4], 
+[ 6,  1,  4,  0]], dtype=int32) 
+
+```
+
+## 序列
+
+序列工具包括诸如`argmin`和`argmax`（显示维度的最小值和最大值），`listdiff`（显示列表之间交集的补码），`where`（显示真实值的索引）和`unique`（在列表上显示唯一值）之类的张量方法。
+
+```py
+In [1]: import tensorflow as tf 
+In [2]: sess = tf.InteractiveSession() 
+In [3]: x = tf.constant([[2, 5, 3, -5], 
+...:                  [0, 3,-2,  5], 
+...:                  [4, 3, 5,  3], 
+...:                  [6, 1, 4,  0]]) 
+In [4]: listx = tf.constant([1,2,3,4,5,6,7,8]) 
+In [5]: listy = tf.constant([4,5,8,9]) 
+
+In [6]: 
+
+In [6]: boolx = tf.constant([[True,False], [False,True]]) 
+
+In [7]: tf.argmin(x, 1).eval() # Position of the maximum value of columns 
+Out[7]: array([3, 2, 1, 3]) 
+
+In [8]: tf.argmax(x, 1).eval() # Position of the minimum value of rows 
+Out[8]: array([1, 3, 2, 0]) 
+
+In [9]: tf.listdiff(listx, listy)[0].eval() # List differences 
+Out[9]: array([1, 2, 3, 6, 7], dtype=int32) 
+
+In [10]: tf.where(boolx).eval() # Show true values 
+Out[10]: 
+array([[0, 0], 
+[1, 1]]) 
+
+In [11]: tf.unique(listx)[0].eval() # Unique values in list 
+Out[11]: array([1, 2, 3, 4, 5, 6, 7, 8], dtype=int32) 
+
+```
+
+## 张量形状变换
+
+这些操作与矩阵形状有关，用于调整不匹配的数据结构并检索有关数据量度的快速信息。 这在确定运行时的处理策略时很有用。
+
+在以下示例中，我们将从第二张量张量开始，并将打印有关它的一些信息。
+
+然后，我们将探讨按维度修改矩阵的操作，包括添加或删除维度，例如`squeeze`和`expand_dims`：
+
+```py
+In [1]: import tensorflow as tf 
+In [2]: sess = tf.InteractiveSession() 
+In [3]: x = tf.constant([[2, 5, 3, -5], 
+...:                  [0, 3,-2,  5], 
+...:                  [4, 3, 5,  3], 
+...:                  [6, 1, 4,  0]]) 
+
+In [4]: tf.shape(x).eval() # Shape of the tensor 
+Out[4]: array([4, 4], dtype=int32) 
+
+In [5]: tf.size(x).eval() # size of the tensor 
+Out[5]: 16 
+
+In [6]: tf.rank(x).eval() # rank of the tensor 
+Out[6]: 2 
+
+In [7]: tf.reshape(x, [8, 2]).eval() # converting to a 10x2 matrix 
+Out[7]: 
+array([[ 2,  5], 
+[ 3, -5], 
+[ 0,  3], 
+[-2,  5], 
+[ 4,  3], 
+[ 5,  3], 
+[ 6,  1], 
+[ 4,  0]], dtype=int32) 
+
+In [8]: tf.squeeze(x).eval() #  squeezing 
+Out[8]: 
+array([[ 2,  5,  3, -5], 
+[ 0,  3, -2,  5], 
+[ 4,  3,  5,  3], 
+[ 6,  1,  4,  0]], dtype=int32) 
+
+In [9]: tf.expand_dims(x,1).eval() #Expanding dims 
+Out[9]: 
+array([[[ 2,  5,  3, -5]], 
+[[ 0,  3, -2,  5]], 
+[[ 4,  3,  5,  3]], 
+[[ 6,  1,  4,  0]]], dtype=int32) 
+
+```
+
+### 张量切片和合并
+
+为了从大型数据集中提取和合并有用的信息，切片和联接方法使您可以合并所需的列信息，而不必使用非特定信息来占用内存空间。
+
+在以下示例中，我们将提取矩阵切片，对其进行分割，添加填充以及对行进行打包和解包：
+
+```py
+In [1]: import tensorflow as tf 
+In [2]: sess = tf.InteractiveSession() 
+In [3]: t_matrix = tf.constant([[1,2,3], 
+...:                         [4,5,6], 
+...:                         [7,8,9]]) 
+In [4]: t_array = tf.constant([1,2,3,4,9,8,6,5]) 
+In [5]: t_array2= tf.constant([2,3,4,5,6,7,8,9]) 
+
+In [6]: tf.slice(t_matrix, [1, 1], [2,2]).eval() # cutting an slice 
+Out[6]: 
+array([[5, 6], 
+[8, 9]], dtype=int32) 
+
+In [7]: tf.split(0, 2, t_array) # splitting the array in two 
+Out[7]: 
+[<tf.Tensor 'split:0' shape=(4,) dtype=int32>, 
+<tf.Tensor 'split:1' shape=(4,) dtype=int32>] 
+
+In [8]: tf.tile([1,2],[3]).eval() # tiling this little tensor 3 times 
+Out[8]: array([1, 2, 1, 2, 1, 2], dtype=int32) 
+
+In [9]: tf.pad(t_matrix, [[0,1],[2,1]]).eval() # padding 
+Out[9]: 
+array([[0, 0, 1, 2, 3, 0], 
+[0, 0, 4, 5, 6, 0], 
+[0, 0, 7, 8, 9, 0], 
+[0, 0, 0, 0, 0, 0]], dtype=int32) 
+
+In [10]: tf.concat(0, [t_array, t_array2]).eval() #concatenating list 
+Out[10]: array([1, 2, 3, 4, 9, 8, 6, 5, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32) 
+
+In [11]: tf.pack([t_array, t_array2]).eval() # packing 
+Out[11]: 
+array([[1, 2, 3, 4, 9, 8, 6, 5], 
+[2, 3, 4, 5, 6, 7, 8, 9]], dtype=int32) 
+
+In [12]: sess.run(tf.unpack(t_matrix)) # Unpacking, we need the run method to view the tensors 
+Out[12]: 
+[array([1, 2, 3], dtype=int32), 
+array([4, 5, 6], dtype=int32), 
+array([7, 8, 9], dtype=int32)] 
+
+In [13]: tf.reverse(t_matrix, [False,True]).eval() # Reverse matrix 
+Out[13]: 
+array([[3, 2, 1], 
+[6, 5, 4], 
+[9, 8, 7]], dtype=int32) 
+
+```
+
+## 数据流结构和结果可视化 -- TensorBoard
+
+可视化摘要信息是任何数据科学家工具箱的重要组成部分。
+
+TensorBoard 是一个软件工具，它允许数据流图的图形表示和用于解释结果的仪表板，通常来自日志记录工具：
+
+![Dataflow structure and results visualization - TensorBoard](img/00008.jpg)
+
+TensorBoard GUI
+
+可以将图的所有张量和操作设置为将信息写入日志。 TensorBoard 分析在`Session`运行时正常编写的信息，并向用户显示许多图形项，每个图形项一个。
+
+### 命令行用法
+
+要调用 TensorBoard，命令行为：
+
+![Command line use](img/00009.jpg)
+
+## TensorBoard 的工作方式
+
+我们构建的每个计算图都有 TensorFlow 的实时日志记录机制，以便保存模型拥有的几乎所有信息。
+
+但是，模型构建者必须考虑应保存的几百个信息维中的哪一个，以后才能用作分析工具。
+
+为了保存所有必需的信息，TensorFlow API 使用了称为摘要的数据输出对象。
+
+这些摘要将结果写入 TensorFlow 事件文件，该文件收集在`Session`运行期间生成的所有必需数据。
+
+在以下示例中，我们将直接在生成的事件日志目录上运行 TensorBoard：
+
+![How TensorBoard works](img/00010.jpg)
+
+### 添加摘要节点
+
+TensorFlow 会话中的所有摘要均由`SummaryWriter`对象编写。 调用的主要方法是：
+
+```py
+tf.train.SummaryWriter.__init__(logdir, graph_def=None) 
+
+```
+
+该命令将在参数的路径中创建一个`SummaryWriter`和一个事件文件。
+
+`SummaryWriter`的构造器将在`logdir`中创建一个新的事件文件。 当您调用以下函数之一时，此事件文件将包含`Event`类型的协议缓冲区：`add_summary()`，`add_session_log()`，`add_event()`或`add_graph()`。
+
+如果将`graph_def`协议缓冲区传递给构造器，则会将其添加到事件文件中。 （这等效于稍后调用`add_graph()`）。
+
+当您运行 TensorBoard 时，它将从文件中读取图定义并以图形方式显示它，以便您可以与其进行交互。
+
+首先，创建您要从中收集摘要数据的 TensorFlow 图，并确定要使用摘要操作标注的节点。
+
+TensorFlow 中的操作在您运行它们或取决于它们的输出的操作之前不会做任何事情。 我们刚刚创建的摘要节点是图的外围：当前运行的所有操作都不依赖于它们。 因此，要生成摘要，我们需要运行所有这些摘要节点。 手动管理它们很繁琐，因此请使用`tf.merge_all_summaries`将它们组合为一个可生成所有摘要数据的操作。
+
+然后，您可以运行合并的摘要操作，这将在给定步骤中生成一个包含所有摘要数据的序列化摘要`protobuf`对象。 最后，要将摘要数据写入磁盘，请将摘要`protobuf`传递给`tf.train.SummaryWriter`。
+
+`SummaryWriter`在其构造器中带有`logdir`，此`logdir`非常重要，它是所有事件将被写出的目录。 同样，`SummaryWriter`可以选择在其构造器中使用`GraphDef`。 如果收到一个，TensorBoard 还将可视化您的图。
+
+现在，您已经修改了图并具有`SummaryWriter`，就可以开始运行网络了！ 如果需要，您可以在每个步骤中运行合并的摘要操作，并记录大量的训练数据。 不过，这可能是您需要的更多数据。 相反，请考虑每 n 个步骤运行一次合并的摘要操作。
+
+### 通用摘要操作
+
+这是不同的摘要类型及其构造所使用的参数的列表：
+
+*   `tf.scalar_summary(label, value, collection=None, name=None)`
+*   `tf.image_summary(label, tensor, max_images=3, collection=None, name=None)`
+*   `tf.histogram_summary(label, value, collection=None, name=None)`
+
+### 特殊摘要函数
+
+这些是特殊函数，用于合并不同操作的值，无论是摘要的集合，还是图中的所有摘要：
+
+*   `tf.merge_summary(input, collection=None, name=None)`
+*   `tf.merge_all_summaries(key="summary")`
+
+最后，作为提高可读性的最后一项帮助，可视化对常数和汇总节点使用特殊的图标。 总而言之，这是节点符号表：
+
+| 符号 | 含义 |
+| --- | --- |
+| ![Special Summary functions](img/00011.jpg) | 代表名称范围的高级节点。 双击以展开一个高级节点。 |
+| ![Special Summary functions](img/00012.jpg) | 彼此不连接的编号节点序列。 |
+| ![Special Summary functions](img/00013.jpg) | 彼此连接的编号节点序列。 |
+| ![Special Summary functions](img/00014.jpg) | 单个操作节点。 |
+| ![Special Summary functions](img/00015.jpg) | 一个常数。 |
+| ![Special Summary functions](img/00016.jpg) | 摘要节点。 |
+| ![Special Summary functions](img/00017.jpg) | 显示操作之间的数据流的边。 |
+| ![Special Summary functions](img/00018.jpg) | 显示操作之间的控制依赖项的边。 |
+| ![Special Summary functions](img/00019.jpg) | 显示输出操作节点可以改变输入张量的参考边。 |
+
+### 与 TensorBoard 的 GUI 交互
+
+通过平移和缩放来浏览图形。单击并拖动以进行平移，然后使用滚动手势进行缩放。 双击节点，或单击其`+`按钮，以展开表示操作代码的名称范围。 为了轻松跟踪缩放时的当前视点，右下角有一个小地图：
+
+![Interacting with TensorBoard's GUI](img/00020.jpg)
+
+具有一个扩展的操作组和图例的 Openflow
+
+要关闭打开的节点，请再次双击它或单击其`-`按钮。 您也可以单击一次以选择一个节点。 它将变为较暗的颜色，有关该颜色及其连接的节点的详细信息将显示在可视化文件右上角的信息卡中。
+
+选择还有助于理解高级节点。 选择任何高度节点，其他连接的相应节点图标也会被选择。 例如，这可以轻松查看正在保存的节点和未保存的节点。
+
+单击信息卡中的节点名称将其选中。 如有必要，视点将自动平移以使该节点可见。
+
+最后，您可以使用图例上方的颜色菜单为图形选择两种配色方案。 默认的“结构视图”显示结构：当两个高级节点具有相同的结构时，它们以相同的彩虹色显示。 唯一结构化的节点为灰色。 第二个视图显示了不同操作在哪个设备上运行。 名称范围的颜色与设备中用于其内部操作的部分的比例成比例。
+
+## 从磁盘读取信息
+
+TensorFlow 读取许多最标准的格式，包括众所周知的 CSV，图像文件（JPG 和 PNG 解码器）以及标准 TensorFlow 格式。
+
+### 列表格式 -- CSV
+
+为了读取众所周知的 CSV 格式，TensorFlow 有自己的方法。 与其他库（例如熊猫）相比，读取简单 CSV 文件的过程稍微复杂一些。
+
+读取 CSV 文件需要完成前面的几个步骤。 首先，我们必须使用要使用的文件列表创建文件名队列对象，然后创建`TextLineReader`。 使用此行读取器，剩下的操作将是解码 CSV 列，并将其保存在张量上。 如果我们想将同类数据混合在一起，则`pack`方法将起作用。
+
+#### 鸢尾花数据集
+
+鸢尾花数据集或费舍尔鸢尾花数据集是分类问题的众所周知基准。 这是罗纳德·费舍尔（Ronald Fisher）在 1936 年的论文中引入的多元数据集，该分类法是将生物分类问题中的多次测量用作线性判别分析的示例。
+
+数据集包含来自三种鸢尾花（鸢尾鸢尾，初春鸢尾和杂色鸢尾）中每种的 50 个样本。 在每个样本中测量了四个特征：萼片和花瓣的长度和宽度，以厘米为单位。 基于这四个特征的组合，Fisher 开发了一个线性判别模型以区分物种。 （您可以在书的代码包中获取此数据集的`.csv`文件。）
+
+为了读取 CSV 文件，您必须下载它并将其放在与 Python 可执行文件运行所在的目录中。
+
+在下面的代码示例中，我们将从知名的鸢尾数据库中读取和打印前五个记录：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+filename_queue = tf.train.string_input_producer( 
+tf.train.match_filenames_once("./*.csv"), 
+shuffle=True) 
+reader = tf.TextLineReader(skip_header_lines=1) 
+key, value = reader.read(filename_queue) 
+record_defaults = [[0.], [0.], [0.], [0.], [""]] 
+col1, col2, col3, col4, col5 = tf.decode_csv(value, record_defaults=record_defaults)  # Convert CSV records to tensors. Each column maps to one tensor. 
+features = tf.pack([col1, col2, col3, col4]) 
+
+tf.initialize_all_variables().run(session=sess) 
+coord = tf.train.Coordinator() 
+threads = tf.train.start_queue_runners(coord=coord, sess=sess) 
+
+for iteration in range(0, 5):
+ example = sess.run([features])
+ print(example)
+ coord.request_stop()
+ coord.join(threads)
+
+```
+
+这就是输出的样子：
+
+![The Iris dataset](img/00021.jpg)
+
+### 读取图像数据
+
+TensorFlow 允许从图像格式导入数据，这对于导入面向图像的模型的自定义图像输入将非常有用。可接受的图像格式将为 JPG 和 PNG，内部表示形式为`uint8`张量，每个张量为图片通道的二阶张量：
+
+![Reading image data](img/00022.jpg)
+
+要读取的样本图像
+
+### 加载和处理图像
+
+在此示例中，我们将加载示例图像并对其进行一些其他处理，将生成的图像保存在单独的文件中：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+filename_queue = tf.train.string_input_producer(tf.train.match_filenames_once("./blue_jay.jpg")) 
+reader = tf.WholeFileReader() 
+key, value = reader.read(filename_queue) 
+image=tf.image.decode_jpeg(value) 
+flipImageUpDown=tf.image.encode_jpeg(tf.image.flip_up_down(image)) 
+flipImageLeftRight=tf.image.encode_jpeg(tf.image.flip_left_right(image)) 
+tf.initialize_all_variables().run(session=sess) 
+coord = tf.train.Coordinator() 
+threads = tf.train.start_queue_runners(coord=coord, sess=sess) 
+example = sess.run(flipImageLeftRight) 
+print example 
+file=open ("flippedUpDown.jpg", "wb+") 
+file.write (flipImageUpDown.eval(session=sess)) 
+file.close() 
+file=open ("flippedLeftRight.jpg", "wb+") 
+file.write (flipImageLeftRight.eval(session=sess)) 
+file.close() 
+
+```
+
+`print example`行将逐行显示图像中 RGB 值的摘要：
+
+![Loading and processing the images](img/00023.jpg)
+
+最终图像如下所示：
+
+![Loading and processing the images](img/00024.jpg)
+
+比较原始图像和变更后的图像（上下翻转和左右翻转）
+
+### 从标准 TensorFlow 格式读取
+
+另一种方法是将您拥有的任意数据转换为正式格式。 这种方法使混合和匹配数据集和网络架构变得更加容易。
+
+您可以编写一个获取数据的小程序，将其填充到示例协议缓冲区中，将协议缓冲区序列化为字符串，然后使用`tf.python_io.TFRecordWriter`类将字符串写入`TFRecords`文件。
+
+要读取`TFRecords`的文件，请将`tf.TFRecordReader`与`tf.parse_single_example`解码器一起使用。 `parse_single_example` `op`将示例协议缓冲区解码为张量。
+
+# 总结
+
+在本章中，我们学习了可应用于数据的主要数据结构和简单操作，并对计算图的各个部分进行了简要总结。
+
+这些操作将成为即将出现的技术的基础。 通过这些类，数据科学家可以在查看当前数据的总体特征之后，确定类的分离或调整特征是否足够清晰，或者直接使用更复杂的工具，从而决定是否使用更简单的模型。
+
+在下一章中，我们将开始构建和运行图，并使用本章中介绍的某些方法来解决问题。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch02.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch02.md
new file mode 100644
index 00000000..af98431d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch02.md
@@ -0,0 +1,552 @@
+# 二、聚类
+
+在本章中，我们将开始应用在上一章中学到的数据转换操作，并开始使用聚类技术在某些给定信息中找到有趣的模式，发现数据组或集群。
+
+在此过程中，我们还将获得两个新工具：能够通过 scikit-learn 库从一组代表性数据结构中生成合成样本集，并且能够通过 matplotlib 库以图形方式绘制我们的数据和模型结果 。
+
+我们将在本章中介绍的主题如下：
+
+*   了解群集的工作原理，并将其与替代的现有分类技术进行比较
+*   使用 scikit-learn 和 matplotlib 丰富数据集选择的可能性，并获得看起来专业的数据图形表示
+*   实现 K 均值聚类算法
+*   实现最近邻法，并将结果与​​K 均值进行比较
+
+# 从数据中学习 -- 无监督学习
+
+在本章中，我们将回顾两种无监督学习的情况。
+
+无监督学习基本上包括在先前的数据集中查找模式。 通常，很少或没有信息提供给该技术，并且该过程应该能够自动确定信息的组织方式，并识别数据组织中的不同结构。
+
+# 聚类
+
+最初可用于未标记数据集的最简单的操作之一是尝试了解数据集成员共同特征的可能组。
+
+为此，可以将数据集划分为任意数量的段，其中每个段都可以表示为中心质量（质心）点，该点代表属于已确定组或聚类的点。
+
+为了定义将同一组分配给不同组成员的标准，我们需要定义一个表示数据元素之间距离的概念，因此我们可以简单地说，所有类成员比任何其他质心更接近自己的质心 。
+
+在下图中，我们可以看到典型聚类算法的结果以及聚类中心的表示形式：
+
+![Clustering](img/00025.jpg)
+
+样本聚类算法输出
+
+# K 均值
+
+K 均值是一种非常流行的聚类算法，可以轻松实现。 这非常简单，将它作为具有良好类分离性的数据集的第一个过程应用，可以对数据有很好的先验理解。
+
+## K 均值的原理
+
+K 均值尝试使用成员的平均值作为主要指标，将一组样本分成 k 个不相交的组或簇。 这一点通常称为质心，指代具有相同名称的算术实体，并表示为任意尺寸空间中的向量。
+
+K 均值是一种幼稚的方法，因为它通过查找适当的质心而起作用，但是不知道先验簇的数量是多少。
+
+为了评估多少簇能够很好地表示所提供的数据，Elbow 方法是一种比较流行的方法。
+
+### 算法迭代准则
+
+此方法的标准和目标是最小化从群集成员到所有包含群集的样本的实际质心的平方距离之和。 这也称为惯性最小化。
+
+![Algorithm iteration criterion](img/00026.jpg)
+
+K 均值的误差最小化准则
+
+![](img/tex-1.gif)
+
+## K 均值算法细分
+
+K 均值算法的机制可以通过以下流程图总结：
+
+![k-means algorithm breakdown](img/00027.jpg)
+
+K 均值过程的简化流程图
+
+该算法可以简化如下：
+
+1.  我们从未分类的样本开始，以 k 个元素为起始质心。 为了简洁起见，也可以简化此算法，使元素列表中的第一个元素成为第一个元素。
+2.  然后，我们计算样本与首先选择的样本之间的距离，并获得第一个计算出的质心（或其他代表值）。 您可以看到图中的质心向着更常识的质心移动。
+3.  形心更改后，它们的位移将引起各个距离发生更改，因此群集成员身份可能会更改。
+4.  这是我们重新计算质心并在不满足停止条件的情况下重复第一步的时候。
+
+停止条件可以有多种类型：
+
+*   在 N 次迭代之后，可能是要么我们选择了一个非常大的数，然后我们将进行不必要的计算，否则它可能会收敛得很慢，并且如果质心没有非常稳定的方法，我们将得到非常令人难以置信的结果。 如果我们有一个很长的迭代过程，那么这个停止条件也可以作为最后的手段。
+*   参考先前的平均结果，可能的更好的迭代收敛标准是看重心的变化，无论是在总位移还是总簇元切换中。 最后一个通常被使用，因此一旦没有更多元素从其当前群集更改为另一个群集，我们将停止该过程。
+
+![k-means algorithm breakdown](img/00028.jpg)
+
+K 均值简化图形
+
+### K 均值的优缺点
+
+这种方法的优点是：
+
+*   它可以很好地扩展（大多数计算可以并行运行）
+*   它已经被用于很多应用中
+
+但是，简单性也要付出代价（没有适用的规则）：
+
+*   它需要先验知识（可能的簇数应事先知道）
+*   离群值可以推入质心的值，因为它们的值与任何其他样本相同
+*   由于我们假设该图是凸且各向同性的，因此对于非圆形定界簇来说效果不佳
+
+# K 最近邻
+
+K 最近邻（KNN）是一种简单的经典聚类方法，它将很好地介绍此类技术，着眼于每个样本的附近，并假设每个新样本都应属于的类别。 已经知道的数据点。
+
+![k-nearest neighbors](img/00029.jpg)
+
+## K 最近邻的原理
+
+KNN 可以在我们的多种配置中实现，但是在本章中，我们将使用“半监督”方法。 我们将从一定数量的已分配样本开始，稍后我们将根据训练集的特征猜测集群成员。
+
+![Mechanics of k-nearest neighbors](img/00030.jpg)
+
+最近邻算法
+
+在上图中，我们可以看到该算法的细分。 可以通过以下步骤进行总结：
+
+1.  我们将先前已知的样本放在数据结构上。
+2.  然后，我们读取要分类的下一个样本，并计算从新样本到训练集的每个样本的欧几里得距离。
+3.  我们通过根据欧几里得距离选择最近的样本的类别来确定新元素的类别。 KNN 方法需要对 k 个最接近的样本进行投票。
+4.  我们重复该过程，直到没有剩余的样本为止。
+
+### KNN 的优缺点
+
+这种方法的优点是：
+
+*   简单; 无需调整参数
+*   没有正规训练； 我们只需要更多的训练实例来改进模型
+
+缺点：
+
+*   计算昂贵（必须计算点与每个新样本之间的所有距离）
+
+## 有用库的实用示例
+
+在以下各节中，我们将讨论一些有用的库。
+
+### matplotlib 绘图库
+
+数据绘图是数据科学学科不可或缺的一部分。 因此，我们需要一个非常强大的框架来绘制结果。 对于此任务，我们没有在 TensorFlow 中实现的通用解决方案，我们将使用 matplotlib 库。
+
+在 matplotlib 站点（`http://matplotlib.org/`）中，定义为：
+
+> matplotlib 是一个 Python 2D 绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形。
+
+#### 合成样本的数据绘图
+
+在此示例中，我们将生成一个包含 100 个随机数的列表，生成样本图，并将结果保存在图形文件中：
+
+```py
+    import tensorflow as tf
+    import numpy as np
+    import matplotlib.pyplot as plt
+    with tf.Session() as sess:
+        fig, ax = plt.subplots()
+        ax.plot(tf.random_normal([100]).eval(), tf.random_normal([100] ).eval(),'o')
+        ax.set_title('Sample random plot for TensorFlow')
+        plt.savefig("result.png")
+
+```
+
+这是结果图像：
+
+![Sample synthetic data plotting](img/00031.jpg)
+
+使用 TensorFlow 和 matplotlib 生成的示例图
+
+### 提示
+
+为了查看 scikit 数据集模块的更一般的解释，请参考 [matplotlib.org](http://matplotlib.org/)。
+
+### scikit-learn 数据集模块
+
+TensorFlow 当前未实现用于轻松生成合成数据集的方法。 因此，我们将使用`sklearn`库作为帮助程序。
+
+#### 关于 scikit-learn 库
+
+[从其网站](http://scikit-learn.org/stable/)：
+
+> scikit-learn（以前为`scikits.learn`）是针对 Python 编程语言的开源机器学习库。它具有各种分类，回归和聚类模型，旨在与 Python 数字和科学库 NumPy 和 SciPy 互操作。
+
+在此示例中，我们将使用数据集模块，该模块处理许多众所周知的合成和现场提取的数据集的生成和加载。
+
+### 提示
+
+为了查看 scikit 数据集模块的更一般的解释，请参考[此链接](http://scikit-learn.org/stable/datasets/)。
+
+### 合成数据集类型
+
+我们将使用一些生成的数据集类型：
+
+![Synthetic dataset types](img/00032.jpg)
+
+Blob，圆圈和月亮数据集类型
+
+### Blob 数据集
+
+该数据集是测试简单聚类算法的理想选择。 不会出现问题，因为数据是一致地分组的，并且类别的分离很明确。
+
+#### 采用的方法
+
+以下方法用于所采用的方法：
+
+```py
+sklearn.datasets.make_blobs(n_samples=100, n_features=2,  centers=3, cluster_std=1.0, center_box=(-10.0, 10.0),  shuffle=True, random_state=None) 
+
+```
+
+在这里，`n_samples`是数据总数，`n_features`是数据的列数或特征数，`centers`是中心列表或许多随机中心，`cluster_std`是标准偏差，`center_box`是随机生成中心时每个聚类中心的边界框，`shuffle`指示是否必须对样本进行混洗，`random_state`是随机种子。
+
+### 圆圈数据集
+
+这是在其他圆圈中具有圆圈的数据集。 这是一个非线性的，可分离的问题，因此需要通过非线性模型来解决。 这排除了诸如 K 均值的简单算法。 在本章中，我们将尝试使用它来阐明观点。
+
+#### 采用的方法
+
+以下方法用于所采用的方法：
+
+```py
+sklearn.datasets.make_circles(n_samples=100,shuffle=True,noise=None, random_state=None,factor=0.8) 
+
+```
+
+在这里，`n_samples`是数据总数，`shuffle`表示是否必须对样本进行混洗，`noise`是要应用于循环数据的随机量的数量，`random_state`是随机种子，并且`factor`是圆之间的比例因子。
+
+### 月亮数据集
+
+这是另一个非线性问题，但是具有另一种类型的类分离，因为没有诸如圆环之类的闭合。
+
+# 项目 1 -- 合成数据集上的 K 均值聚类
+
+## 数据集说明和加载
+
+在本章中，我们将使用生成的数据集，这些数据集经过特殊设计以具有特殊的属性。 目标属性中的两个是类别线性分离的可能性以及是否存在明显分离的群集。
+
+### 生成数据集
+
+通过这些行，我们创建了数据结构，其中将包含用于解决方案的所有元素，即：
+
+```py
+centers = [(-2, -2), (-2, 1.5), (1.5, -2), (2, 1.5)] 
+data, features = make_blobs (n_samples=200, centers=centers, n_features = 2, cluster_std=0.8, shuffle=False, random_state=42) 
+
+```
+
+通过 matplotlib 绘制数据集图：
+
+```py
+    ax.scatter(np.asarray(centers).transpose()[0], np.asarray(centers).transpose()[1], marker = 'o', s = 250)
+    plt.plot()
+
+```
+
+## 模型架构
+
+`points`变量包含数据集点的 2D 坐标，质心变量将包含组中心点的坐标，`cluster_assignments`变量包含每个数据元素的质心索引。
+
+例如，`cluster_assignments[2] = 1`表示`data[2]`数据点属于具有中心重心`1`的群集。 重心`1`的位置位于`centroids[1]`中。
+
+```py
+points=tf.Variable(data) 
+cluster_assignments = tf.Variable(tf.zeros([N], dtype=tf.int64)) 
+centroids = tf.Variable(tf.slice(points.initialized_value(), [0,0], [K,2])) 
+
+```
+
+然后，我们可以使用 matplotlib 绘制这些质心的位置：
+
+```py
+fig, ax = plt.subplots() 
+ax.scatter(np.asarray(centers).transpose()[0], np.asarray(centers).transpose()[1], marker = 'o', s = 250) 
+plt.show() 
+
+```
+
+![Model architecture](img/00033.jpg)
+
+初始中心播种
+
+## 损失函数描述和优化器循环
+
+然后，我们将对所有质心进行 N 份复制，对每个点进行 K 份复制，对每个点进行`N x K`份复制，因此我们可以针对每个维度计算出每个点与每个质心之间的距离：
+
+```py
+rep_centroids = tf.reshape(tf.tile(centroids, [N, 1]), [N, K, 2]) 
+rep_points = tf.reshape(tf.tile(points, [1, K]), [N, K, 2]) 
+sum_squares = tf.reduce_sum(tf.square(rep_points - rep_centroids),  
+reduction_indices=2) 
+
+```
+
+然后，我们对所有维度执行总和，并获得最低总和的索引（这将是分配给每个点的质心或聚类的索引）：
+
+```py
+best_centroids = tf.argmin(sum_squares, 1) 
+
+```
+
+质心也将使用完整源代码中定义的`bucket:mean`函数进行更新。
+
+## 停止条件
+
+这是新质心和分配不变的停止条件：
+
+```py
+did_assignments_change = tf.reduce_any(tf.not_equal(best_centroids, cluster_assignments)) 
+
+```
+
+在这里，我们使用`control_dependencies`来计算是否需要更新质心：
+
+```py
+with tf.control_dependencies([did_assignments_change]): 
+    do_updates = tf.group( 
+    centroids.assign(means), 
+    cluster_assignments.assign(best_centroids)) 
+
+```
+
+## 结果描述
+
+程序执行后，我们得到以下输出：
+
+![Results description](img/00034.jpg)
+
+这是一轮迭代后质心变化的汇总图，其中绘制了从算法生成的原始聚类。
+
+在下图中，我们针对这种明显分离的情况表示了 K 均值算法在应用中的不同阶段：
+
+![Results description](img/00035.jpg)
+
+每次迭代的质心变化
+
+## 完整源代码
+
+以下是完整的源代码：
+
+```py
+import tensorflow as tf 
+import numpy as np 
+import time 
+
+import matplotlib 
+import matplotlib.pyplot as plt 
+
+from sklearn.datasets.samples_generator import make_blobs 
+from sklearn.datasets.samples_generator import make_circles 
+
+DATA_TYPE = 'blobs' 
+
+# Number of clusters, if we choose circles, only 2 will be enough 
+if (DATA_TYPE == 'circle'): 
+    K=2 
+else: 
+    K=4 
+
+# Maximum number of iterations, if the conditions are not met 
+MAX_ITERS = 1000 
+
+start = time.time() 
+
+centers = [(-2, -2), (-2, 1.5), (1.5, -2), (2, 1.5)] 
+if (DATA_TYPE == 'circle'): 
+    data, features = make_circles(n_samples=200, shuffle=True, noise= 0.01, factor=0.4) 
+else: 
+    data, features = make_blobs (n_samples=200, centers=centers, n_features = 2, cluster_std=0.8, shuffle=False, random_state=42) 
+
+fig, ax = plt.subplots() 
+ax.scatter(np.asarray(centers).transpose()[0], np.asarray(centers).transpose()[1], marker = 'o', s = 250) 
+plt.show() 
+
+fig, ax = plt.subplots() 
+if (DATA_TYPE == 'blobs'): 
+ax.scatter(np.asarray(centers).transpose()[0], np.asarray(centers).transpose()[1], marker = 'o', s = 250) 
+ax.scatter(data.transpose()[0], data.transpose()[1], marker = 'o', s = 100, c = features, cmap=plt.cm.coolwarm ) 
+plt.plot() 
+
+points=tf.Variable(data) 
+cluster_assignments = tf.Variable(tf.zeros([N], dtype=tf.int64)) 
+centroids = tf.Variable(tf.slice(points.initialized_value(), [0,0], [K,2])) 
+
+sess = tf.Session() 
+sess.run(tf.initialize_all_variables()) 
+
+rep_centroids = tf.reshape(tf.tile(centroids, [N, 1]), [N, K, 2]) 
+rep_points = tf.reshape(tf.tile(points, [1, K]), [N, K, 2]) 
+sum_squares = tf.reduce_sum(tf.square(rep_points - rep_centroids),  
+reduction_indices=2) 
+best_centroids = tf.argmin(sum_squares, 1) 
+
+did_assignments_change = tf.reduce_any(tf.not_equal(best_centroids, cluster_assignments)) 
+
+def bucket_mean(data, bucket_ids, num_buckets): 
+total = tf.unsorted_segment_sum(data, bucket_ids, num_buckets) 
+count = tf.unsorted_segment_sum(tf.ones_like(data), bucket_ids, num_buckets) 
+return total / count 
+
+means = bucket_mean(points, best_centroids, K) 
+
+with tf.control_dependencies([did_assignments_change]): 
+do_updates = tf.group( 
+centroids.assign(means), 
+cluster_assignments.assign(best_centroids)) 
+
+changed = True 
+iters = 0 
+
+fig, ax = plt.subplots() 
+if (DATA_TYPE == 'blobs'): 
+    colourindexes=[2,1,4,3] 
+else: 
+    colourindexes=[2,1] 
+while changed and iters < MAX_ITERS: 
+fig, ax = plt.subplots() 
+iters += 1 
+[changed, _] = sess.run([did_assignments_change, do_updates]) 
+[centers, assignments] = sess.run([centroids, cluster_assignments]) 
+ax.scatter(sess.run(points).transpose()[0], sess.run(points).transpose()[1], marker = 'o', s = 200, c = assignments, cmap=plt.cm.coolwarm ) 
+ax.scatter(centers[:,0],centers[:,1], marker = '^', s = 550, c = colourindexes, cmap=plt.cm.plasma) 
+ax.set_title('Iteration ' + str(iters)) 
+plt.savefig("kmeans" + str(iters) +".png") 
+
+ax.scatter(sess.run(points).transpose()[0], sess.run(points).transpose()[1], marker = 'o', s = 200, c = assignments, cmap=plt.cm.coolwarm ) 
+plt.show() 
+
+end = time.time() 
+print ("Found in %.2f seconds" % (end-start)), iters, "iterations" 
+print "Centroids:" 
+print centers 
+print "Cluster assignments:", assignments 
+
+```
+
+这是观察算法机制的最简单情况。 当数据来自真实世界时，这些类通常没有那么清晰地分开，并且标记数据样本更加困难。
+
+## 圆圈合成数据上的 K 均值
+
+对于圆图，我们观察到这种数据表征并不容易用一组简单的方法表示。 如图所示，两个圆要么共享一个质心的位置，要么真的很接近，因此我们无法预测明确的结果：
+
+![k-means on circle synthetic data](img/00036.jpg)
+
+圆型数据集
+
+对于此数据集，我们仅使用两个类来确保了解此算法的主要缺点：
+
+![k-means on circle synthetic data](img/00037.jpg)
+
+K 均值应用于圆形综合数据集
+
+如我们所见，初始中心向样本数量最集中的区域漂移，因此将数据线性划分。 这是我们现阶段使用的简单模型的局限性之一。 为了处理非线性可分离性样本，我们可以尝试本章范围以外的其他统计方法，例如基于密度的带噪应用空间聚类（DBSCAN）。
+
+# 项目 2 -- 合成数据集上的最近邻
+
+在这个项目中，我们将加载一个数据集，使用该数据集，以前的算法（K 均值）在分离类时遇到问题。
+
+## 数据集生成
+
+该数据集是第一个示例中具有两个类的相同循环类数据集，但是这次我们将通过增加一些噪声（从`0.01`到`0.12`）来增加错误概率：
+
+```py
+data, features = make_circles(n_samples=N, shuffle=True, noise=0.12,factor=0.4)
+
+```
+
+这是生成的训练数据图：
+
+![Dataset generation](img/00038.jpg)
+
+## 模型架构
+
+将保留数据的变量只是原始数据和测试列表，其中将包含计算出的测试数据类：
+
+```py
+data, features = make_circles(n_samples=N, shuffle=True, noise= 0.12, factor=0.4)
+tr_data, tr_features= data[:cut], features[:cut]
+te_data,te_features=data[cut:], features[cut:]
+test=[]
+
+```
+
+## 损失函数说明
+
+在聚类中，我们将使用函数来优化为欧式距离，与第 1 章，探索和转换数据相同。 它是在集群分配循环上计算的，获取从新点到现有训练点的距离，要求最小值的索引，然后使用该索引搜索最近的邻居的类：
+
+```py
+distances = tf.reduce_sum(tf.square(tf.sub(i , tr_data)),reduction_indices=1)
+neighbor = tf.arg_min(distances,0)
+
+```
+
+## 停止条件
+
+在这个简单的示例中，一旦访问了测试分区的所有元素，我们将完成操作。
+
+## 结果描述
+
+这是测试数据类分布的图形，在这里我们可以看到清晰分开的类。 我们可以观察到，至少在此有限的数据集范围内，此方法比非重叠，斑点优化，K 均值方法更好。
+
+![Results description](img/00039.jpg)
+
+## 完整源代码
+
+以下是完整的源代码：
+
+```py
+import tensorflow as tf 
+import numpy as np 
+import time 
+
+import matplotlib 
+import matplotlib.pyplot as plt 
+
+from sklearn.datasets.samples_generator import make_circles 
+
+N=210 
+K=2 
+# Maximum number of iterations, if the conditions are not met 
+MAX_ITERS = 1000 
+cut=int(N*0.7) 
+
+start = time.time() 
+
+data, features = make_circles(n_samples=N, shuffle=True, noise= 0.12, factor=0.4) 
+tr_data, tr_features= data[:cut], features[:cut] 
+te_data,te_features=data[cut:], features[cut:] 
+test=[] 
+
+fig, ax = plt.subplots() 
+ax.scatter(tr_data.transpose()[0], tr_data.transpose()[1], marker = 'o', s = 100, c = tr_features, cmap=plt.cm.coolwarm ) 
+plt.plot() 
+
+sess = tf.Session() 
+sess.run(tf.initialize_all_variables()) 
+
+for i, j in zip(te_data, te_features): 
+    distances = tf.reduce_sum(tf.square(tf.sub(i , tr_data)),reduction_indices=1) 
+    neighbor = tf.arg_min(distances,0) 
+
+    test.append(tr_features[sess.run(neighbor)]) 
+print test 
+fig, ax = plt.subplots() 
+ax.scatter(te_data.transpose()[0], te_data.transpose()[1], marker = 'o', s = 100, c = test, cmap=plt.cm.coolwarm ) 
+plt.plot() 
+
+end = time.time() 
+print ("Found in %.2f seconds" % (end-start)) 
+
+print "Cluster assignments:", test 
+
+```
+
+# 总结
+
+在本章中，我们简单地概述了一些我们可以实现的最基本的模型，但是尝试在解释中尽可能地详细。
+
+从现在开始，我们将能够生成综合数据集，从而使我们能够快速测试模型对于不同数据配置的适当性，从而评估它们的优缺点，而不必加载具有大量未知特征的模型。
+
+此外，我们已经实现了第一个迭代方法并测试了收敛性，该任务将以类似的方式在后续章节中继续进行，但是将使用更精细，更精确的方法。
+
+在下一章中，我们将使用线性函数解决分类问题，并且首次使用训练集中的先前数据来学习其特征。 这是监督学习技术的目标，通常对于解决许多现实生活中的问题更有用。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch03.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch03.md
new file mode 100644
index 00000000..17dfadcc
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch03.md
@@ -0,0 +1,631 @@
+# 三、线性回归
+
+在本章中，我们将开始应用机器学习项目中使用的所有标准步骤，以便使用一条使误差和损失函数最小化的线来拟合先前给定的数据。
+
+在上一章中，我们看到了范围有限和许多可能解决方案的问题。 这些类型的模型还与定性评估类型相关，即基于先前的标签为样本分配标签。 通常在与社会领域有关的问题中发现该结果。
+
+我们还可能对预测（先前建模的）函数的确切数字输出值感兴趣。 这种方法类似于物理领域，可用于在事先了解一系列历史值的情况下预测温度或湿度或某种商品的价值，这称为回归分析。
+
+在线性回归的情况下，我们在输入变量和输出变量之间寻找线性关系表示的确定关系。
+
+# 单变量线性建模函数
+
+如前所述，在线性回归中，我们尝试找到一个线性方程，以最小化数据点和建模线之间的距离。
+
+此关系可以用以下标准线性函数表示：
+
+![Univariate linear modelling function](img/00040.jpg)
+
+模型函数采用以下形式：
+
+在这里，`ss0` 或 `bias`是截距，`x`的函数值为零，`ss1`是建模线的斜率。 变量`x`通常被称为自变量，`y`被称为因变量，但它们也可以分别称为回归变量和响应变量。
+
+## 样本数据生成
+
+在下面的示例中，我们将基于`ss0` = `2.0`的线，加上最大幅度为`0.4`的垂直噪声，生成近似样本随机分布。
+
+```py
+In[]: 
+#Indicate the matplotlib to show the graphics inline 
+%matplotlib inline  
+import matplotlib.pyplot as plt # import matplotlib 
+import numpy as np # import numpy 
+trX = np.linspace(-1, 1, 101) # Linear space of 101 and [-1,1] 
+#Create The y function based on the x axis 
+trY = 2 * trX + np.random.randn(*trX.shape) * 0.4 + 0.2  
+plt.figure() # Create a new figure 
+plt.scatter(trX,trY) #Plot a scatter draw of the random datapoints 
+# Draw one line with the line function 
+plt.plot (trX, .2 + 2 * trX)
+```
+
+结果图将如下所示：
+
+![Sample data generation](img/00041.jpg)
+
+加噪声线性采样和线性函数
+
+# 成本函数的确定
+
+与所有机器学习技术一样，我们必须确定一个误差函数，我们需要将其最小化，这表明解决问题的适当性。
+
+用于线性回归的最常用的`cost`函数称为最小二乘。
+
+## 最小二乘
+
+为了计算函数的最小二乘误差，我们通常会寻找一种测量点与建模线的接近程度的方法。 因此，我们定义了一个函数，用于测量每个元组`x[n]`和`y[n]`与建模线的对应值之间的距离。
+
+对于 2D 回归，我们有一个数字元组`(X[0],Y[0]),(X[1],Y[1])...(X[n],Y[n])`的列表，通过最小化以下函数，可以找到`β[0]`和`β[1]`的值：
+
+![Least squares](img/00042.jpg)
+
+简单来说，求和代表预测值与实际值之间的欧几里得距离之和。
+
+进行运算的原因是，平方误差的总和为我们提供了一个唯一且简单的全局数，预期数与实数之差为我们提供了适当的距离，平方幂为我们提供了一个正数，这会惩罚一个整数。 多于线性的时尚。
+
+# 最小化成本函数
+
+下一步是设置最小化`cost`函数的方法。 在线性演算中，定位极小值任务的基本特征之一被简化为计算函数的导数并寻找其零点。 为此，该函数必须具有导数，最好是凸的。 可以证明最小二乘函数符合这两个条件。 这对于避免已知的局部极小问题非常有用。
+
+![Minimizing the cost function](img/00043.jpg)
+
+损失函数表示
+
+## 最小二乘的一般最小值
+
+我们尝试解决的问题（最小二乘）可以用矩阵形式表示：
+
+![General minima for least squares](img/00044.jpg)
+
+在此，`J`是成本函数，具有以下解决方案：
+
+![General minima for least squares](img/00045.jpg)
+
+在本章中，我们将使用迭代方法梯度下降，该方法将在以后的章节中以更通用的方式使用。
+
+## 迭代方法 -- 梯度下降
+
+梯度下降本身就是一种迭代方法，并且是机器学习领域中最常用的优化算法。 考虑到可以用它优化的参数组合的复杂性，它结合了简单的方法和良好的收敛速度。
+
+2D 线性回归从具有随机定义的权重或线性系数乘数的函数开始。 定义第一个值后，第二步是以以下形式应用迭代函数：
+
+![Iterative methods - gradient descent](img/00046.jpg)
+
+在该方程式中，我们可以轻松推导该方法的机理。 我们从一组初始系数开始，然后朝函数最大变化的相反方向移动。 `α`变量被称为步长，将影响我们在梯度搜索方向上移动最小的距离。
+
+最后一步是可选地测试迭代之间的更改，并查看更改是否大于`epsilon`或检查是否达到了迭代次数。
+
+如果函数不是凸函数，建议使用随机值多次运行梯度下降，然后选择成本值最低的系数。 在非凸函数的情况下，梯度下降最终以最小值出现，这可能是局部的。 因此，对于非凸函数，结果取决于初始值，建议将它们随机设置多次，并在所有解决方案中选择成本最低的解决方案。
+
+# 示例部分
+
+现在让我们讨论有用的库和模块。
+
+## TensorFlow 中的优化器方法 -- `train`模块
+
+训练或参数优化阶段是机器学习工作流程的重要组成部分。
+
+为此，TensorFlow 具有一个`tf.train`模块，该模块是一组对象的帮助程序，致力于实现数据科学家所需的各种不同优化策略。 此模块提供的主要对象称为优化器。
+
+### `tf.train.Optimizer`类
+
+`Optimizer`类允许您为`loss`函数计算梯度并将其应用于模型的不同变量。 在最著名的算法子类中，我们找到了梯度下降，Adam 和 Adagrad。
+
+关于该类的一个主要提示是`Optimizer`类本身无法实例化。 子类之一。
+
+如前所述，TensorFlow 允许您以符号方式定义函数，因此梯度也将以符号方式应用，从而提高了结果的准确率以及要应用于数据的操作的通用性。
+
+为了使用`Optimizer`类，我们需要执行以下步骤：
+
+1.  创建具有所需参数的`Optimizer`（在这种情况下为梯度下降）。
+
+    ```py
+            opt = GradientDescentOptimizer(learning_rate= [learning rate]) 
+
+    ```
+
+2.  为`cost`函数创建一个调用`minimize`方法的操作。
+
+    ```py
+            optimization_op = opt.minimize(cost, var_list=[variables list]) 
+
+    ```
+
+`minimize`方法具有以下形式：
+
+```py
+tf.train.Optimizer.minimize(loss, global_step=None, var_list=None, gate_gradients=1, aggregation_method=None, colocate_gradients_with_ops=False, name=None) 
+
+```
+
+主要参数如下：
+
+*   `loss`：这是一个张量，其中包含要最小化的值。
+*   `global_step`：`Optimizer`工作后，此变量将增加 1。
+*   `var_list`：包含要优化的变量。
+
+### 提示
+
+实际上，`optimize`方法结合了对`compute_gradients()`和`apply_gradients()`的调用。 如果要在应用梯度之前对其进行处理，请显式调用`compute_gradients()`和`apply_gradients()`，而不要使用此函数。 如果我们只想进行一步训练，就必须以`opt_op.run().`的形式执行`run`方法
+
+### 其他优化器实例类型
+
+以下是其他`Optimizer`实例类型：
+
+*   `tf.train.AdagradOptimizer`：这是一种基于参数频率的自适应方法，学习率单调下降。
+*   `tf.train.AdadeltaOptimizer`：这是对 Adagrad 的改进，它的学习率没有下降。
+*   `tf.train.MomentumOptimizer`：这是一种适应性方法，可解决尺寸之间的不同变化率。
+*   并且还有其他更具体的参数，例如`tf.train.AdamOptimizer`，`tf.train.FtrlOptimizer`和`tf.train.RMSPropOptimizer`。
+
+# 示例 1 -- 单变量线性回归
+
+现在，我们将在一个项目中工作，在该项目中，我们将应用前面几页中简要介绍的所有概念。 在此示例中，我们将创建一个近似线性分布； 之后，我们将创建一个回归模型，该模型试图拟合线性函数以最小化误差函数（由最小二乘法定义）。
+
+给定一个新样本，该模型将使我们能够预测输入值的结果。
+
+## 数据集说明
+
+对于此示例，我们将生成一个包含线性函数并添加噪声的合成数据集：
+
+```py
+import TensorFlow as tf
+import numpy as np
+trX = np.linspace(-1, 1, 101)
+trY = 2 * trX + np.random.randn(*trX.shape) * 0.4 + 0.2 # create a y value which is approximately linear but with some random noise
+
+```
+
+使用这些线，我们可以将线表示为散点图和理想线函数。
+
+```py
+import matplotlib.pyplot as plt 
+plt.scatter(trX,trY) 
+plt.plot (trX, .2 + 2 * trX)  
+
+```
+
+![Dataset description](img/00047.jpg)
+
+生成的样本和原始线性函数无噪声
+
+## 模型架构
+
+1.  现在，我们创建一个变量来保存`x`和`y`轴中的值。 然后，我们将模型定义为`X`和权重`w`的乘积。
+2.  然后，我们生成一些变量，并为其分配初始值以启动模型：
+
+    ```py
+            In[]: 
+            X = tf.placeholder("float", name="X") # create symbolic variables 
+            Y = tf.placeholder("float", name = "Y") 
+
+    ```
+
+3.  现在，我们通过将`name_scope`声明为`Model`来定义模型。 此作用域将其包含的所有变量分组，以形成具有同类实体的唯一实体。 在此范围内，我们首先定义一个函数，该函数接收`x`轴坐标，权重（斜率）和偏差的变量。 然后，我们创建一个新变量`objects,`来保存不断变化的参数，并使用`y_model`变量实例化该模型：
+
+    ```py
+             with tf.name_scope("Model"):
+
+               def model(X, w, b):
+                 return tf.mul(X, w) + b # just define the line as X*w + b0 
+
+               w = tf.Variable(-1.0, name="b0") # create a shared variable
+               b = tf.Variable(-2.0, name="b1") # create a shared variable
+               y_model = model(X, w, b)
+
+    ```
+
+在仪表板上，您可以看到我们一直在收集的损失函数的图像。 在图部分中，放大模型时，您可以看到求和与乘法运算，参数变量`b0`和`b1`以及应用于模型的梯度运算，如下所示：
+
+![Model architecture](img/00048.jpg)
+
+## 成本函数描述和优化器循环
+
+1.  在`Cost Function`中，我们创建了一个新的范围以包括该组的所有操作，并使用先前创建的`y_model`来说明用于计算损失的计算出的`y`轴值。
+
+    ```py
+            with tf.name_scope("CostFunction"): 
+            cost = (tf.pow(Y-y_model, 2)) # use sqr error for cost  
+
+    ```
+
+2.  为了定义选择的`optimizer,`，我们初始化一个`GradientDescentOptimizer`，步骤将是`0.01`，这似乎是收敛的合理起点。
+
+    ```py
+             train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost) 
+
+    ```
+
+3.  现在是时候创建会话并初始化要保存在 TensorBoard 中进行查看的变量了。 在此示例中，我们将为每个迭代保存一个标量变量以及最后一个样本的误差结果。 我们还将图结构保存在文件中以供查看。
+
+    ```py
+            sess = tf.Session() 
+            init = tf.initialize_all_variables()
+            tf.train.write_graph(sess.graph,
+              '/home/ubuntu/linear','graph.pbtxt')
+            cost_op = tf.scalar_summary("loss", cost) 
+            merged = tf.merge_all_summaries() 
+            sess.run(init) 
+            writer = tf.train.SummaryWriter('/home/ubuntu/linear',
+              sess.graph) 
+
+    ```
+
+4.  对于模型训练，我们将目标设置为 100 次迭代，然后将每个样本发送到梯度下降的`train`操作。 每次迭代后，我们绘制建模线并将最后一个误差的值添加到`summary`中。
+
+    ```py
+            In[]:
+            for i in range(100):
+             for (x, y) in zip(trX, trY): 
+               sess.run(train_op, feed_dict={X: x, Y: y}) 
+               summary_str = sess.run(cost_op, feed_dict={X: x, Y: y})
+               writer.add_summary(summary_str, i) 
+             b0temp=b.eval(session=sess)
+             b1temp=w.eval(session=sess)
+             plt.plot (trX, b0temp + b1temp * trX )
+    ```
+
+结果图如下： 我们可以看到初始行如何迅速收敛为更合理的结果：
+
+![Cost function description and Optimizer loop](img/00049.jpg)
+
+放大损失函数范围后，我们可以看到幂和减法运算以及书面摘要，如下图所示：
+
+![Cost function description and Optimizer loop](img/00050.jpg)
+
+## 停止条件
+
+## 结果描述
+
+现在让我们检查参数结果，打印`w`和`b`变量的`run`输出：
+
+```py
+printsess.run(w) # Should be around 2  
+printsess.run(b) #Should be around 0.2 
+2.09422 
+0.256044 
+
+```
+
+现在是时候再次以图形方式查看数据和建议的最后一行。
+
+```py
+plt.scatter(trX,trY) 
+plt.plot (trX, testb + trX * testw) 
+
+```
+
+![Results description](img/00051.jpg)
+
+## 使用 TensorBoard 查看结果
+
+现在，让我们回顾一下保存在 TensorBoard 中的数据。
+
+为了启动 TensorBoard，您可以转到`logs`目录并执行以下行：
+
+```py
+$ tensorboard --logdir=. 
+
+```
+
+TensorBoard 将加载事件和图形文件，并且将在`6006`端口上监听。 然后，您可以从浏览器转到`localhost:6000`，然后查看 TensorBoard 仪表板，如下图所示：
+
+![Reviewing results with TensorBoard](img/00052.jpg)
+
+## 完整源代码
+
+以下是完整的源代码：
+
+```py
+import matplotlib.pyplot as plt # import matplotlib 
+import numpy as np # import numpy 
+import tensorflow as tf 
+import numpy as np 
+
+trX = np.linspace(-1, 1, 101) #Create a linear space of 101 points between 1 and 1 
+trY = 2 * trX + np.random.randn(*trX.shape) * 0.4 + 0.2 #Create The y function based on the x axis 
+plt.figure() # Create a new figure 
+plt.scatter(trX,trY) #Plot a scatter draw of the random datapoints 
+plt.plot (trX, .2 + 2 * trX) # Draw one line with the line function 
+
+get_ipython().magic(u'matplotlib inline') 
+
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+import numpy as np 
+
+trX = np.linspace(-1, 1, 101) 
+trY = 2 * trX + np.random.randn(*trX.shape) * 0.4 + 0.2 # create a y value which is approximately linear but with some random noise 
+
+plt.scatter(trX,trY) 
+plt.plot (trX, .2 + 2 * trX) 
+
+X = tf.placeholder("float", name="X") # create symbolic variables 
+Y = tf.placeholder("float", name = "Y") 
+
+withtf.name_scope("Model"): 
+
+    def model(X, w, b): 
+        returntf.mul(X, w) + b # We just define the line as X*w + b0   
+
+    w = tf.Variable(-1.0, name="b0") # create a shared variable 
+    b = tf.Variable(-2.0, name="b1") # create a shared variable 
+    y_model = model(X, w, b) 
+
+withtf.name_scope("CostFunction"): 
+    cost = (tf.pow(Y-y_model, 2)) # use sqr error for cost function 
+
+train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost) 
+
+sess = tf.Session() 
+init = tf.initialize_all_variables() 
+tf.train.write_graph(sess.graph, '/home/ubuntu/linear','graph.pbtxt') 
+cost_op = tf.scalar_summary("loss", cost) 
+merged = tf.merge_all_summaries() 
+sess.run(init) 
+writer = tf.train.SummaryWriter('/home/ubuntu/linear', sess.graph) 
+
+fori in range(100): 
+for (x, y) in zip(trX, trY): 
+sess.run(train_op, feed_dict={X: x, Y: y})     
+summary_str = sess.run(cost_op, feed_dict={X: x, Y: y}) 
+writer.add_summary(summary_str, i)        
+    b0temp=b.eval(session=sess) 
+    b1temp=w.eval(session=sess) 
+plt.plot (trX, b0temp + b1temp * trX ) 
+
+printsess.run(w) # Should be around 2  
+printsess.run(b) #Should be around 0.2 
+
+plt.scatter(trX,trY) 
+plt.plot (trX, sess.run(b) + trX * sess.run(w)) 
+
+```
+
+![Full source code](img/00053.jpg)
+
+![Full source code](img/00051.jpg)
+
+# 示例 2 -- 多元线性回归
+
+在此示例中，我们将处理涉及多个变量的回归问题。
+
+这将基于 1993 年波士顿某些郊区不同价格的研究数据集。 它最初包含 13 个变量以及该处房产的平均价格。
+
+与原始文件相比，文件中唯一的变化是删除了一个变量`(b)`，该变量在种族上对不同的郊区进行了概述。
+
+除此之外，我们将选择一些我们认为具有线性条件可以建模的良好条件的变量。
+
+## 有用的库和方法
+
+本部分包含一个有用的库列表，我们将在此示例中以及本书其余部分中 TensorFlow 之外的部分中使用这些库，以帮助解决我们将要解决的各种问题。
+
+### Pandas 库
+
+当我们想快速读取并获得有关正常大小的数据文件的提示时，创建读取缓冲区和其他附加机制可能会减少开销。 这是熊猫当前的现实生活用例之一。
+
+这是 [Pandas 网站](http://pandas.pydata.org/)的摘录：
+
+> Pandas 是 BSD 许可的开放源代码库，为 Python 提供了高表现，易于使用的数据结构和数据分析工具。
+
+熊猫的主要特征如下：
+
+*   它具有 CSV 和文本文件，MS Excel，SQL 数据库甚至面向科学的 HDF5 格式的读写文件功能。
+*   CSV 文件加载例程自动识别列标题并支持更直接的列寻址
+*   数据结构自动转换为 NumPy 多维数组
+
+## 数据集说明
+
+数据集以 CSV 文件表示，我们将使用 Pandas 库打开它。
+
+数据集包含以下变量：
+
+*   `CRIM`：按城镇划分的人均犯罪率
+*   `ZN`：划定面积超过 25,000 平方英尺的住宅用地的比例。
+*   `INDUS`：每个城镇的非零售业务英亩比例
+*   `CHAS`：查尔斯河虚拟变量（如果区域限制河流，则为 1；否则为 0）
+*   `NOX`：一氧化氮浓度（百万分之几）
+*   `RM`：每个住宅的平均房间数
+*   `AGE`：1940 年之前建造的自有住房的比例
+*   `DIS`：到五个波士顿就业中心的加权距离
+*   `RAD`：径向公路的可达性指数
+*   `TAX`：每 10,000 美元的全值财产税率
+*   `PTRATIO`：按城镇划分的师生比率
+*   `LSTAT`：人口状况降低百分比
+*   `MEDV`：自有住房的中位数价值，以 1000 美元为单位
+
+在这里，我们有一个简单的程序，它将读取数据集并创建数据的详细说明：
+
+```py
+import tensorflow.contrib.learn as skflow 
+fromsklearn import datasets, metrics, preprocessing 
+import numpy as np 
+import pandas as pd 
+
+df = pd.read_csv("data/boston.csv", header=0) 
+printdf.describe() 
+
+```
+
+这将输出数据集变量的统计摘要。 前六个结果如下：
+
+```py
+
+CRIM         ZN       INDUS         CHAS         NOX          RM  \ 
+count  506.000000  506.000000  506.000000  506.000000  506.000000  506.000000    
+mean     3.613524   11.363636   11.136779    0.069170    0.554695    6.284634    
+std      8.601545   23.322453    6.860353    0.253994    0.115878    0.702617    
+min      0.006320    0.000000    0.460000    0.000000    0.385000    3.561000    
+25%      0.082045    0.000000    5.190000    0.000000    0.449000    5.885500   
+50%      0.256510    0.000000    9.690000    0.000000    0.538000    6.208500    
+75%      3.677082   12.500000   18.100000    0.000000    0.624000    6.623500    
+max     88.976200  100.000000   27.740000    1.000000    0.871000    8.780000    
+
+```
+
+![Dataset description](img/00054.jpg)
+
+## 模型架构
+
+在此示例中，我们将使用的模型很简单，但是几乎包含了处理更复杂模型所需的所有元素。
+
+在下图中，我们看到了整个设置的不同参与者：模型，损失函数和梯度。 TensorFlow 真正有用的功能是能够自动微分模型和函数。
+
+![Model architecture](img/00055.jpg)
+
+在这里，我们可以找到上一节中表示的变量的定义：`w`，`b`和模型线性方程。
+
+```py
+X = tf.placeholder("float", name="X") # create symbolic variables 
+Y = tf.placeholder("float", name = "Y") 
+
+withtf.name_scope("Model"): 
+    w = tf.Variable(tf.random_normal([2], stddev=0.01), name="b0") # create a shared variable 
+    b = tf.Variable(tf.random_normal([2], stddev=0.01), name="b1") # create a shared variable 
+def model(X, w, b): 
+returntf.mul(X, w) + b # We just define the line as X*w + b0   
+y_model = model(X, w, b)
+```
+
+![Model architecture](img/00056.jpg)
+
+## 损失函数说明和优化器循环
+
+在此示例中，我们将使用常用的均方误差，但是这次使用了多变量； 因此我们应用`reduce_mean`来收集不同维度上的误差值：
+
+```py
+withtf.name_scope("CostFunction"): 
+    cost = tf.reduce_mean(tf.pow(Y-y_model, 2)) # use sqr error for cost function 
+train_op = tf.train.AdamOptimizer(0.1).minimize(cost)
+```
+
+![Loss function description and Optimizer loop](img/00057.jpg)
+
+```py
+ for a in range (1,10): 
+    cost1=0.0 
+fori, j in zip(xvalues, yvalues):    
+sess.run(train_op, feed_dict={X: i, Y: j})  
+        cost1+=sess.run(cost, feed_dict={X: i, Y: i})/506.00 
+        #writer.add_summary(summary_str, i)  
+xvalues, yvalues = shuffle (xvalues, yvalues) 
+
+```
+
+## 停止条件
+
+停止条件将仅由针对所有数据样本训练参数来确定外循环中确定的周期数。
+
+## 结果描述
+
+结果如下：
+
+```py
+1580.53295174 
+[ 2.25225258  1.30112672] 
+[ 0.80297691  0.22137061] 
+1512.3965525 
+[ 4.62365675  2.90244412] 
+[ 1.16225874  0.28009811] 
+1495.47174799 
+[ 6.52791834  4.29297304] 
+[ 0.824792270.17988272] 
+... 
+1684.6247849 
+[ 29.71323776  29.96078873] 
+[-0.68271929 -0.13493828] 
+1688.25864746 
+[ 29.78564262  30.09841156] 
+[-0.58272243 -0.08323665] 
+1684.27538102 
+[ 29.75390816  30.13044167] 
+[-0.59861398 -0.11895057] 
+
+```
+
+从结果中我们可以看到，在训练的最后阶段，建模线同时基于以下系数：
+
+`price = 0.6 x Industry + 29.75`
+
+`price = 0.1 x Age + 30.13`
+
+## 完整源代码
+
+以下是完整的源代码：
+
+```py
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+import tensorflow.contrib.learn as skflow 
+from sklearn.utils import shuffle 
+import numpy as np 
+import pandas as pd 
+
+df = pd.read_csv("data/boston.csv", header=0) 
+printdf.describe() 
+
+f, ax1 = plt.subplots() 
+plt.figure() # Create a new figure 
+
+y = df['MEDV'] 
+
+for i in range (1,8): 
+    number = 420 + i 
+    ax1.locator_params(nbins=3) 
+    ax1 = plt.subplot(number) 
+    plt.title(list(df)[i]) 
+    ax1.scatter(df[df.columns[i]],y) #Plot a scatter draw of the datapoints 
+plt.tight_layout(pad=0.4, w_pad=0.5, h_pad=1.0) 
+
+X = tf.placeholder("float", name="X") # create symbolic variables 
+Y = tf.placeholder("float", name = "Y") 
+
+with tf.name_scope("Model"): 
+
+    w = tf.Variable(tf.random_normal([2], stddev=0.01), name="b0") # create a shared variable 
+    b = tf.Variable(tf.random_normal([2], stddev=0.01), name="b1") # create a shared variable 
+
+    def model(X, w, b): 
+        return tf.mul(X, w) + b # We just define the line as X*w + b0   
+
+    y_model = model(X, w, b) 
+
+with tf.name_scope("CostFunction"): 
+    cost = tf.reduce_mean(tf.pow(Y-y_model, 2)) # use sqr error for cost function 
+
+train_op = tf.train.AdamOptimizer(0.001).minimize(cost) 
+
+sess = tf.Session() 
+init = tf.initialize_all_variables() 
+tf.train.write_graph(sess.graph, '/home/bonnin/linear2','graph.pbtxt') 
+cost_op = tf.scalar_summary("loss", cost) 
+merged = tf.merge_all_summaries() 
+sess.run(init) 
+writer = tf.train.SummaryWriter('/home/bonnin/linear2', sess.graph) 
+
+xvalues = df[[df.columns[2], df.columns[4]]].values.astype(float) 
+yvalues = df[df.columns[12]].values.astype(float) 
+b0temp=b.eval(session=sess) 
+b1temp=w.eval(session=sess) 
+
+for a in range (1,10): 
+    cost1=0.0 
+for i, j in zip(xvalues, yvalues):    
+sess.run(train_op, feed_dict={X: i, Y: j})  
+        cost1+=sess.run(cost, feed_dict={X: i, Y: i})/506.00 
+        #writer.add_summary(summary_str, i)  
+xvalues, yvalues = shuffle (xvalues, yvalues) 
+print (cost1) 
+b0temp=b.eval(session=sess) 
+b1temp=w.eval(session=sess) 
+print (b0temp) 
+print (b1temp) 
+#plt.plot (trX, b0temp + b1temp * trX ) 
+
+```
+
+# 总结
+
+在本章中，我们使用 TensorFlow 的训练工具构建了第一个具有标准损失函数的完整模型。 我们还建立了一个多元模型来说明多个维度来计算回归。 除此之外，我们使用 TensorBoard 在训练阶段观察变量的行为。
+
+在下一章中，我们将开始使用非线性模型，通过它我们将更接近神经网络领域，这是 TensorFlow 的主要支持领域，其效用提供了巨大价值。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch04.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch04.md
new file mode 100644
index 00000000..127d19de
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch04.md
@@ -0,0 +1,581 @@
+# 四、逻辑回归
+
+在上一章中，我们已经看到了一种将现实的一部分建模为线性函数的方法，该函数具有独立变量，并且偏差最小化了误差函数。
+
+除了某些非常明确定义的问题（预期结果是连续的变量和函数）之外，这种特殊的分析还不够。
+
+但是，如果我们面对具有定性因变量的数据，将会发生什么？ 例如，是否存在确定的特征； 受试者有金色的头发吗？ 病人以前有病吗？
+
+这些是我们将在本章中处理的问题。
+
+# 问题描述
+
+线性回归旨在解决的问题不是基于连续函数的值预测，这一次，我们想知道样本属于确定类别的可能性。
+
+在本章中，我们将依靠线性模型的一般化来解决回归问题，但最终目标是解决分类问题，我们必须应用标签或将观察集中的所有元素分配给预定义的组。
+
+![Problem description](img/00058.jpg)
+
+在上图中，我们可以看到如何对旧问题和新问题进行分类。 第一个（线性回归）可以想象为值不断增长的连续体。
+
+另一个是基于`x`值的输出只能具有两个不同值的域。 在第二张图的特定情况下，我们可以看到对其中一个选项的特定偏向极端：在左侧，`y`值偏向 0，在右侧偏向 1。
+
+鉴于即使在进行回归从而寻找连续值的情况下，这种项也可能有些棘手，实际上，最终目标是为具有离散变量的分类问题建立预测。
+
+此处的关键是要了解我们将获得与类有关的项目的概率，而不是完全离散的值。
+
+# sigmoid 函数的前身 -- 对率（Logit）函数
+
+在研究逻辑函数之前，我们将回顾该函数所基于的原始函数，并为其提供一些更一般的属性。
+
+本质上，当我们谈论`logit`函数时，我们正在使用随机变量`p`的函数，更具体地说，是与伯努利分布相对应的函数。
+
+## 伯努利分布
+
+在解释理论细节之前，值得注意的是伯努利分布是一个随机变量，它具有：
+
+*   取值为 0 且失败概率为`q = 1 - p`
+
+*   取值为 1，成功概率为`p`
+
+可以表示如下（对于具有伯努利分布的随机变量`X`）：
+
+![Bernoulli distribution](img/00059.jpg)
+
+这是一种概率分布，它将以二元选项的形式表示事件的发生概率，就像我们要表示自己的变量（特征的存在，事件的发生，现象的因果关系等）一样。
+
+## 链接函数
+
+在尝试建立广义线性模型时，我们要从线性函数开始，并从因变量开始，获取到概率分布的映射。
+
+由于选项具有二元性质，因此通常选择的分布是最近提到的伯努利分布，而倾向于 logistic 函数的链接函数是`logit`函数。
+
+## Logit 函数
+
+我们可以利用的可能变量之一是`p`等于 1 的几率的自然对数。 此函数称为`logit`函数：
+
+![Logit function](img/00060.jpg)
+
+我们也可以将`logit`函数称为对数奇数函数，因为对于给定的概率`p`，我们正在计算赔率的对数`(p/1-p)`：
+
+![Logit function](img/00061.jpg)
+
+因此，正如我们可以直观地推断出的那样，用自变量的组合替换`X`，无论它们的值是什么，用从负无穷大到无穷大的任何出现替换`X`，我们将响应缩放到`0`和`1`。
+
+## Logit 反函数的重要性
+
+假设我们计算`logit`函数的逆。 这将使我们编写以下函数：
+
+![The importance of the logit inverse](img/00062.jpg)
+
+此函数是`sigmoid`函数。
+
+# sigmoid 函数
+
+逻辑函数将帮助我们在新的回归任务中表示二元类别。
+
+在下图中，您将找到`sigmoid`函数的图形表示：
+
+![The logistic function](img/00063.jpg)
+
+逻辑函数或 Sigmoid 的图形表示
+
+## Logistic 函数作为线性建模的泛化
+
+逻辑函数`δ(t)`定义如下：
+
+![Logistic function as a linear modeling generalization](img/00064.jpg)
+
+该方程式的正常解释是`t`代表一个简单的自变量。 但是，我们将改进此模型，并假定`t`是单个解释变量`x`的线性函数（对`t`是多个解释变量的线性组合的情况进行类似处理）。
+
+然后，我们将`t`表示为：
+
+![Logistic function as a linear modeling generalization](img/00065.jpg)
+
+### 最终估计的回归方程
+
+因此，我们从以下等式开始：
+
+![Final estimated regression equation](img/00066.jpg)
+
+使用所有这些元素，我们可以计算回归方程，这将为我们提供回归概率：
+
+![Final estimated regression equation](img/00067.jpg)
+
+下图将显示如何将从任意范围的映射最终转换为范围`[0, 1]`，该范围可以解释为表示事件发生的概率`p`：
+
+![Final estimated regression equation](img/00068.jpg)
+
+什么影响会改变线性函数的参数？ 它们是将更改`sigmoid`函数的中心斜率和从零开始的位移的值，从而使其可以更精确地减小回归值与实际数据点之间的误差。
+
+## Logistic 函数的属性
+
+函数空间中的每条曲线都可以通过可能适用的目标来描述。 对于 logistic 函数，它们是：
+
+*   根据一个或多个独立变量对事件的概率`p`进行建模。 例如，鉴于先前的资格，被授予奖品的可能性。
+*   对确定的观测值进行估计（这是回归部分）`p`，与事件未发生的可能性有关。
+*   预测自变量变化对二元响应的影响。
+*   通过计算某项属于确定类别的概率对观察进行分类。
+
+### 损失函数
+
+在上一节中，我们看到了近似的`p^`函数，该函数将对样本属于特定类别的概率进行建模。 为了衡量我们对解的近似程度，我们将寻找精心选择的损失函数。
+
+该损失函数表示为：
+
+![Loss function](img/00069.jpg)
+
+该损失函数的主要特性是它不会以类似的方式惩罚误差，当误差增加到远远超过 0.5 时，误差惩罚因子会渐近增长。
+
+## 多类应用 -- softmax 回归
+
+到目前为止，我们仅针对两个类的情况进行分类，或者以概率语言对事件发生概率`p`进行分类。
+
+在要决定两个以上类别的情况下，有两种主要方法： 一对一，一对剩余。
+
+*   第一种技术包括计算许多模型，这些模型代表每个类别相对于所有其他类别的概率。
+*   第二个由一组概率组成，其中我们代表一个类别相对于所有其他类别的概率。
+*   第二种方法是`softmax`回归的输出格式，它是 n 个类的逻辑回归的概括。
+
+因此，为了训练样本，我们将使用句柄`y(i)ε{1,...,K},`将二元标签`( y(i)ε{0,1})`更改为向量标签，其中`K`是类别数，标签`Y`可以采用`K`不同的值， 而不是只有两个。
+
+因此，对于这种特定技术，给定测试输入`X`，我们想要针对`k=1,...,K`的每个值估计`P`（`y=k|x`）的概率。 `softmax`回归将输出`K`维向量（其元素总和为 1），从而为我们提供了`K`估计的概率。
+
+在下图中，我们表示在单类和多类逻辑回归的概率映射上发生的映射：
+
+![Multiclass application - softmax regression](img/00070.jpg)
+
+### 成本函数
+
+`softmax`函数的成本函数是自适应的交叉熵函数，该函数不是线性的，因此对大阶函数差异的惩罚要比对小阶函数的惩罚更大。
+
+![Cost function](img/00071.jpg)
+
+在这里，`c`是类别编号，`I`是各个训练样本索引，`yc`对于期望的类别为 1，对于其余类别为 0。
+
+扩展这个方程，我们得到以下结果：
+
+![Cost function](img/00072.jpg)
+
+### 迭代方法的数据标准化
+
+正如我们将在以下各节中看到的那样，对于逻辑回归，我们将使用`gradient descent`方法来最小化成本函数。
+
+![Data normalization for iterative methods](img/00073.jpg)
+
+此方法对特征数据的形式和分布非常敏感。
+
+因此，我们将进行一些预处理，以便获得更好，更快的收敛结果。
+
+我们将把这种方法的理论原因留给其他书籍，但我们将总结其原因，即通过归一化可以平滑误差表面，使迭代`gradient descent`更快地达到最小误差。
+
+### 输出的单热表示
+
+为了将`softmax`函数用作回归函数，我们必须使用一种称为单热编码的编码。 这种编码形式只是将变量的数字整数值转换为数组，其中将值列表转换为数组列表，每个数组的长度与该列表的最大值相同，并且每个数组的表示方式是在值的索引上添加 1，其余元素保持为 0。
+
+例如，这将是单热编码形式的列表`[1, 3, 2, 4]`的表示形式：
+
+```py
+[[0 1 0 0 0] 
+[0 0 0 1 0] 
+[0 0 1 0 0]
+[0 0 0 0 1]]
+```
+
+# 示例 1 -- 单变量 logistic 回归
+
+在第一个示例中，我们将使用单变量 logistic 回归（患者年龄）来估计心脏病的概率。
+
+## 有用的库和方法
+
+从 0.8 版开始，TensorFlow 提供了一种生成热点的方法。 用于此生成的函数是`tf.one_hot`，其形式如下：
+
+```py
+tf.one_hot(indices, depth, on_value=1, off_value=0, axis=None, dtype=tf.float32, name=None)
+```
+
+此函数生成通用的单热编码数据结构，该结构可以指定值，生成轴，数据类型等。
+
+在生成的张量中，索引的指示值将采用`on_value`（默认值为`1`），其他值将具有`off_value`（默认`0`）。
+
+`Dtype`是生成的张量的数据类型； 默认值为`float32`。
+
+`depth`变量定义每个元素将具有多少列。 我们假设它在逻辑上应该为`max(indices) + 1`，但也可以将其切掉。
+
+### TensorFlow 的 softmax 实现
+
+在 TensorFlow 中应用`softmax`回归的方法包括`tf.nn.log_softmax, with the following form:`
+
+```py
+tf.nn.log_softmax(logits, name=None)
+```
+
+在这里，参数为：
+
+*   `logits`：张量必须为以下类型之一：`float32`，`float64` 形状为`[batch_size, num_classes]`的 2D
+*   `name`：操作的名称（可选）
+
+此函数返回具有与`logits`相同类型和形状的张量。
+
+## 数据集说明和加载
+
+我们将讨论的第一种情况是我们要拟合逻辑回归的方法，仅测量一个变量，并且只有两个可能的结果。
+
+### CHDAGE 数据集
+
+对于第一个简单的示例，我们将使用一个非常简单且经过研究的数据集，该数据集以在书中出版而闻名。 应用逻辑回归第三版，David W. Hosmer Jr.，Stanley Lemeshow，Rodney X. Sturdivant，作者：Wiley。
+
+列出`age`的年限（AGE），以及对心脏病风险因素进行假设性研究的 100 名受试者是否患有严重冠心病（CHD）的证据。 该表还包含一个标识符变量（ID）和一个年龄组变量（AGEGRP）。 结果变量是 CHD，它用`0`值编码以表示不存在 CHD，或用`1`编码以指示其存在于个体中。 通常，可以使用任何两个值，但是我们发现使用零和一最为方便。 我们将此数据集称为 CHDAGE 数据。
+
+#### CHDAGE 数据集格式
+
+CHDAGE 数据集是一个两列的 CSV 文件，我们将从外部仓库下载该文件。
+
+在第 1 章（探索和转换数据）中，我们使用了本机 TensorFlow 方法来读取数据集。 在本章中，我们将使用一个互补且流行的库来获取数据。
+
+进行此新添加的原因是，鉴于数据集只有 100 个元组，实际上只需要一行读取即可，而且`pandas`库提供了免费但简单但强大的分析方法 。
+
+因此，在该项目的第一阶段，我们将开始加载 CHDAGE 数据集的实例，然后将打印有关数据的重要统计信息，然后进行预处理。
+
+在对数据进行一些绘制之后，我们将构建一个由激活函数组成的模型，该激活函数将在特殊情况下成为`softmax`函数，在特殊情况下它将变为标准逻辑回归。 那就是只有两个类别（疾病的存在与否）。
+
+#### 数据集加载和预处理实现
+
+首先，我们导入所需的库，并指示所有`matplotlib`程序都将内联（如果我们使用 Jupyter）：
+
+```py
+>>> import pandas as pd 
+>>> import numpy as np 
+>>> %matplotlib inline 
+>>> import matplotlib.pyplot as plt 
+
+```
+
+然后，我们读取数据并要求`pandas`检查有关数据集的重要统计信息：
+
+```py
+>>> df = pd.read_csv("data/CHD.csv", header=0) 
+>>> print df.describe() 
+
+```
+
+```py
+    age        chd
+    count  100.000000  100.00000
+    mean    44.380000    0.43000
+    std     11.721327    0.49757
+    min     20.000000    0.00000
+    25%     34.750000    0.00000
+    50%     44.000000    0.00000
+    75%     55.000000    1.00000
+    max     69.000000    1.000000
+
+```
+
+然后，我们继续绘制数据以了解数据：
+
+```py
+plt.figure() # Create a new figure 
+plt.scatter(df['age'],df['chd']) #Plot a scatter draw of the random datapoints 
+
+```
+
+![Dataset loading and preprocessing implementation](img/00074.jpg)
+
+## 模型架构
+
+在这里，我们从以下变量开始，描述将在其中构建模型元素的代码部分：
+
+```py
+learning_rate = 0.8 #Learning speed 
+batch_size = 100 #number of samples for the batch 
+display_step = 2 #number of steps before showing progress
+```
+
+在这里，我们为图创建初始变量和占位符，即单变量`x`和`y`浮点值：
+
+```py
+x = tf.placeholder("float", [None, 1]) # Placeholder for the 1D data 
+y = tf.placeholder("float", [None, 2]) # Placeholder for the classes (2)
+```
+
+现在，我们将创建线性模型变量，随着模型拟合的进行，将对其进行修改和更新：
+
+```py
+W = tf.Variable(tf.zeros([1, 2])) 
+b = tf.Variable(tf.zeros([2]))
+```
+
+最后，我们将对线性函数应用`softmax`操作来构建激活函数：
+
+```py
+activation = tf.nn.softmax(tf.matmul(x, W) + b) 
+
+```
+
+## 损失函数描述和优化器循环
+
+在这里，我们仅将互相关函数定义为`loss`函数，并定义`optimizer`操作，即`gradient descent`。 以下各章将对此进行解释； 现在，您可以看到它是一个黑框，它将改变变量，直到损失最小：
+
+```py
+cost = tf.reduce_mean(-tf.reduce_sum(y*tf.log(activation), reduction_indices=1)) 
+optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost) 
+#Iterate through all the epochs 
+for epoch in range(training_epochs): 
+        avg_cost = 0\. 
+        total_batch = 400/batch_size 
+# Loop over all batches 
+        for i in range(total_batch): 
+            # Transform the array into a one hot format 
+
+        temp=tf.one_hot(indices = df['chd'].values, depth=2, on_value = 1, off_value = 0, axis = -1 , name = "a")       
+        batch_xs, batch_ys =(np.transpose([df['age']])-44.38)/11.721327, temp 
+
+        # Fit training using batch data 
+        sess.run(optimizer, feed_dict={x: batch_xs.astype(float), y: batch_ys.eval()}) 
+
+        # Compute average loss, suming the corrent cost divided by the batch total number 
+        avg_cost += sess.run(cost, feed_dict={x: batch_xs.astype(float), y: batch_ys.eval()})/total_batch 
+
+```
+
+## 停止条件
+
+一旦根据训练周期对数据进行了训练，该过程将简单地停止。
+
+## 结果描述
+
+这将是程序的输出：
+
+```py
+Epoch: 0001 cost= 0.638730764
+[ 0.04824295 -0.04824295]
+[[-0.17459483  0.17459483]]
+Epoch: 0002 cost= 0.589489654
+[ 0.08091066 -0.08091066]
+[[-0.29231569  0.29231566]]
+Epoch: 0003 cost= 0.565953553
+[ 0.10427245 -0.10427245]
+[[-0.37499282  0.37499279]]
+Epoch: 0004 cost= 0.553756475
+[ 0.12176144 -0.12176143]
+[[-0.43521613  0.4352161 ]]
+Epoch: 0005 cost= 0.547019333
+[ 0.13527818 -0.13527818]
+[[-0.48031801  0.48031798]]
+
+```
+
+### 拟合函数的跨周期表示
+
+在下图中，我们表示了拟合函数在不同周期之间的进展：
+
+![Fitting function representations across epochs](img/00075.jpg)
+
+## 完整源代码
+
+这是完整的源代码：
+
+```py
+import pandas as pd 
+import numpy as np 
+get_ipython().magic(u'matplotlib inline') 
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+
+df = pd.read_csv("data/CHD.csv", header=0) 
+# Parameters 
+
+learning_rate = 0.2 
+training_epochs = 5 
+batch_size = 100 
+display_step = 1 
+sess = tf.Session() 
+b=np.zeros((100,2)) 
+
+# tf Graph Input 
+
+x = tf.placeholder("float", [None, 1]) 
+y = tf.placeholder("float", [None, 2]) 
+
+# Create model 
+# Set model weights 
+W = tf.Variable(tf.zeros([1, 2])) 
+b = tf.Variable(tf.zeros([2])) 
+
+# Construct model 
+activation = tf.nn.softmax(tf.matmul(x, W) + b) 
+# Minimize error using cross entropy 
+cost = tf.reduce_mean(-tf.reduce_sum(y*tf.log(activation), reduction_indices=1)) # Cross entropy 
+optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost) # Gradient Descent 
+
+# Initializing the variables 
+init = tf.initialize_all_variables() 
+
+# Launch the graph 
+
+with tf.Session() as sess: 
+    tf.train.write_graph(sess.graph, './graphs','graph.pbtxt') 
+    sess.run(init) 
+    writer = tf.train.SummaryWriter('./graphs', sess.graph) 
+    #Initialize the graph structure 
+
+    graphnumber=321 
+
+    #Generate a new graph 
+    plt.figure(1) 
+
+    #Iterate through all the epochs 
+    for epoch in range(training_epochs): 
+        avg_cost = 0\. 
+        total_batch = 400/batch_size 
+        # Loop over all batches 
+
+        for i in range(total_batch): 
+            # Transform the array into a one hot format 
+
+            temp=tf.one_hot(indices = df['chd'].values, depth=2, on_value = 1, off_value = 0, axis = -1 , name = "a")       
+            batch_xs, batch_ys = (np.transpose([df['age']])-44.38)/11.721327, temp 
+
+            # Fit training using batch data 
+            sess.run(optimizer, feed_dict={x: batch_xs.astype(float), y: batch_ys.eval()}) 
+
+            # Compute average loss, suming the corrent cost divided by the batch total number 
+            avg_cost += sess.run(cost, feed_dict={x: batch_xs.astype(float), y: batch_ys.eval()})/total_batch 
+        # Display logs per epoch step 
+
+        if epoch % display_step == 0: 
+            print "Epoch:", '%05d' % (epoch+1), "cost=", "{:.8f}".format(avg_cost) 
+
+            #Generate a new graph, and add it to the complete graph 
+
+            trX = np.linspace(-30, 30, 100) 
+            print (b.eval()) 
+            print (W.eval()) 
+            Wdos=2*W.eval()[0][0]/11.721327 
+            bdos=2*b.eval()[0] 
+
+            # Generate the probabiliy function 
+            trY = np.exp(-(Wdos*trX)+bdos)/(1+np.exp(-(Wdos*trX)+bdos) ) 
+
+            # Draw the samples and the probability function, whithout the normalization 
+            plt.subplot(graphnumber) 
+            graphnumber=graphnumber+1 
+
+            #Plot a scatter draw of the random datapoints 
+            plt.scatter((df['age']),df['chd']) 
+            plt.plot(trX+44.38,trY) #Plot a scatter draw of the random datapoints 
+            plt.grid(True) 
+
+        #Plot the final graph 
+        plt.savefig("test.svg")  
+
+```
+
+### 图形表示
+
+使用 TensorBoard 工具，我们将看到操作链。 请注意，在一半的操作图中，我们定义了主要的全局操作（“小数点”）以及应用于其余项的梯度操作，这是进行`loss`函数最小化所必需的。 这是接下来几章要讨论的主题。
+
+![Graphical representation](img/00076.jpg)
+
+# 示例 2 -- skflow 中的单变量 logistic 回归
+
+在此示例中，我们将探索单变量示例域，但是这次我们将使用来自新库的帮助，该库为我们简化了模型构建，称为`skflow`。
+
+## 有用的库和方法
+
+在机器学习库领域中，有很多选择。 最知名的之一是`sklearn`，我们在第 2 章聚类中讨论过。
+
+在 TensorFlow 发布之后的很早，一个新的贡献库就出现了，叫做`skflow`，其主要目的是模拟`sklearn`的接口和工作流程，在这个 TensorFlow 会话环境中工作更简洁。
+
+在下面的示例中，我们将使用`skflow`接口重复先前回归的分析。
+
+在示例中，我们还将看到 skflow 如何为回归模型自动生成详细且组织良好的图，只需将日志目录设置为参数即可。
+
+## 数据集说明
+
+使用`pandas`库，数据集加载阶段与前面的示例相同：
+
+```py
+import pandas as pd 
+
+df = pd.read_csv("data/CHD.csv", header=0) 
+print df.describe() 
+
+```
+
+## 模型架构
+
+这是`my_model`的代码段：
+
+```py
+ def my_model(X, y): 
+    return skflow.models.logistic_regression(X, y) 
+
+X1 =a.fit_transform(df['age'].astype(float)) 
+y1 = df['chd'].values 
+classifier = skflow.TensorFlowEstimator(model_fn=my_model, n_classes=2) 
+
+```
+
+在这里，我们可以使用`softmax`分类器查看逻辑回归阶段的详细视图：
+
+![Model architecture](img/00077.jpg)
+
+![Model architecture](img/00078.jpg)
+
+## 结果描述
+
+```py
+score = metrics.accuracy_score(df['chd'].astype(float), classifier.predict(X)) 
+print("Accuracy: %f" % score) 
+
+```
+
+输出结果可观（为了简化模型）74% 的准确率：
+
+```py
+Accuracy: 0.740000
+
+```
+
+## 完整源代码
+
+这是完整的源代码：
+
+```py
+import tensorflow.contrib.learn as skflow 
+from sklearn import datasets, metrics, preprocessing 
+import numpy as np 
+import pandas as pd 
+
+df = pd.read_csv("data/CHD.csv", header=0) 
+print df.describe() 
+
+def my_model(X, y): 
+    return skflow.models.logistic_regression(X, y) 
+
+a = preprocessing.StandardScaler() 
+
+X1 =a.fit_transform(df['age'].astype(float)) 
+
+y1 = df['chd'].values 
+
+classifier = skflow.TensorFlowEstimator(model_fn=my_model, n_classes=2) 
+classifier.fit(X1,y1 , logdir='/tmp/logistic') 
+
+score = metrics.accuracy_score(df['chd'].astype(float), classifier.predict(X)) 
+print("Accuracy: %f" % score) 
+
+```
+
+# 总结
+
+在本章中，我们学习了一种新的建模技术，即逻辑函数，并从一种简单的分类任务入手。
+
+我们还学习了一种通过`pandas`库读取基于文本的数据的新方法。
+
+此外，我们还看到了与`skflow`库一起使用的经典工作流的一种补充方法。
+
+在下一章中，我们将开始处理更复杂的架构，并进入 TensorFlow 库擅长的领域：训练，测试和最终实现神经网络以解决实际问题。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch05.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch05.md
new file mode 100644
index 00000000..3fa3d2ed
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch05.md
@@ -0,0 +1,544 @@
+# 五、简单的前馈神经网络
+
+神经网络确实是 Tensorflow 擅长的机器学习领域。 可以用它实现多种类型的架构和算法，以及结合了符号引擎的其他优点，这实际上将有助于训练更复杂的设置。
+
+在本章中，我们开始利用高表现原语的功能来解决大量支持输入变量的日益复杂的问题。
+
+在本章中，我们将介绍以下主题：
+
+*   神经网络的初步概念
+*   非线性一般函数回归的神经网络项目
+*   利用非线性回归预测汽车燃油效率的项目
+*   学习葡萄酒的分类和多分类
+
+# 初步概念
+
+为了将简单的框架构建到神经网络的组件和架构中，我们将对原始概念进行简单明了的构建，这些原始概念为当前，复杂而多样的神经网络格局铺平了道路。
+
+## 人工神经元
+
+人工神经元是一种数学函数，被视为真实生物神经元的模型。
+
+它的主要特征是它接收一个或多个输入（训练数据），并对它们求和以产生输出。 此外，通常对总和进行加权（权重和偏差），然后将总和传递给非线性函数（激活函数或传递函数）。
+
+## 原始示例 -- 感知器
+
+感知器是实现人工神经元的最简单方法之一，并且它的算法可以追溯到 1950 年代，最早是在 1960 年代实现的。
+
+从本质上讲，它是一种学习二分类函数的算法，该算法将一个实数映射为两个数：
+
+![Original example - the Perceptron](img/00079.jpg)
+
+下图显示了单层感知器
+
+### 感知机算法
+
+感知器的简化算法为：
+
+1.  用随机分布初始化权重（通常为低值）
+2.  选择一个输入向量并将其呈现给网络，
+3.  为指定的输入向量和权重值计算网络的输出`y'`。
+4.  用于感知机的函数是：
+
+    ![Perceptron algorithm](img/00080.jpg)
+
+5.  如果`y' ≠ y`，则通过添加更改`Δw = yx[i]`修改所有连接`w[i]`
+6.  返回步骤 2。
+
+## 神经网络层
+
+单层感知器可以推广到彼此连接的多个层，但是仍然存在问题；表示函数是输入的线性组合，并且感知器只是一种线性分类器，不可能正确拟合非线性函数。
+
+![Neural network layers](img/00081.jpg)
+
+## 神经网络激活函数
+
+仅靠单变量线性分类器，神经网络的学习表现就不会那么好。 甚至机器学习中的一些轻微复杂的问题都涉及多个非线性变量，因此开发了许多变体来替代感知器的传递函数。
+
+为了表示非线性模型，可以在激活函数中使用许多不同的非线性函数。 这意味着神经元将对输入变量的变化做出反应的方式发生变化。 实际上，最常用的激活函数是：
+
+*   Sigmoid: 规范的激活函数，对于计算分类属性的概率具有很好的属性。
+
+    ![Neural Network activation functions](img/00082.jpg)
+
+*   Tanh: 与 Sigmoid 非常相似，但其值范围是`[-1,1]`而不是`[0,1]`
+
+    ![Neural Network activation functions](img/00083.jpg)
+
+*   Relu: 这称为整流线性单元，其主要优点之一是它不受“梯度消失”问题的影响，该问题通常存在于网络的第一层，趋向于 0 或很小的`epsilon`值：
+
+    ![Neural Network activation functions](img/00084.jpg)
+
+## 梯度和反向传播算法
+
+当我们描述感知器的学习阶段时，我们描述了根据权重对最终误差的“责任”来按比例调整权重的阶段。
+
+在这个复杂的神经元网络中，误差的责任将分布在整个架构中应用于数据的所有函数之间。
+
+因此，一旦我们计算了总误差，并且将整个函数应用于原始数据，我们现在就必须尝试调整方程式中的所有变量以将其最小化。
+
+正如最优化领域所研究的那样，我们需要知道的是能够使该误差最小化的是损失函数的梯度。
+
+鉴于数据要经过许多权重和传递函数，因此必须通过链式法则来解决合成函数的梯度。
+
+## 最小化损失函数：梯度下降
+
+让我们看下图以了解损失函数：
+
+![Minimizing loss function: Gradient descent](img/00085.jpg)
+
+### 神经网络问题的选择 -- 分类与回归
+
+神经网络可用于回归问题和分类问题。 架构上的共同差异在于输出层：为了能够带来实数为基础的结果，不应应用诸如 Sigmoid 之类的标准化函数，这样我们就不会将变量的结果更改为许多可能的类别值之一，获得了可能的连续结果。
+
+## 有用的库和方法
+
+在本章中，我们将使用 TensorFlow 和工具库中的一些新工具，这些是最重要的工具：
+
+### TensorFlow 激活函数
+
+TensorFlow 导航中最常用的函数：
+
+*   `tf.sigmoid(x)`：标准 Sigmoid 函数
+*   `tf.tanh(x)`：双曲正切
+*   `tf.nn.relu(features)`：Relu 传递函数
+
+TensorFlow 导航的其他函数：
+
+*   `tf.nn.elu(features)`：计算指数线性：如果`< 0`则为`exp(features) - 1`，否则为`features`
+*   `tf.nn.softsign(features)`：计算 softsign：`features / (abs(features) + 1)`
+*   `tf.nn.bias_add(value, bias)`：为值增加偏差
+
+### TensorFlow 损失优化方法
+
+TensorFlow 损失优化方法如下所述：
+
+*   `tf.train.GradientDescentOptimizer(learning_rate, use_locking, name)`：这是原始的梯度下降方法，仅具有学习率参数
+*   `tf.train.AdagradOptimizer(learning_rate, initial_accumulator_value, use_locking, name)`：此方法使学习率适应参数的频率，从而提高了最小搜索稀疏参数的效率
+*   `tf.train.AdadeltaOptimizer(learning_rate, rho, epsilon, use_locking, name)`：这是改良的 AdaGrad，它将限制频繁参数的累积到最大窗口，因此它考虑了一定数量的步骤，而不是整个参数历史记录。
+*   `tf.train.AdamOptimizer tf.train.AdamOptimizer.__init__(learning_rate, beta1, beta2, epsilon, use_locking, name)`：此方法在计算梯度时会添加一个因子，该因子对应于过去梯度的平均值，等同于动量因子。 因此，来自自适应矩估计的亚当这个名字。
+
+### Sklearn 预处理工具
+
+让我们看一下以下 Sklearn 预处理工具：
+
+*   `preprocessing.StandardScaler()`：数据集的正则化是许多机器学习估计器的普遍要求，因此，为了使收敛更加直接，数据集将必须更像是标准正态分布，即具有零均值和单位方差的高斯曲线。 在实践中，我们通常会忽略分布的形状，而只是通过删除每个特征的平均值来变换数据以使其居中，然后通过将非恒定特征除以它们的标准偏差来缩放它。 对于此任务，我们使用`StandardScaler`，它实现了前面提到的任务。 它还存储转换，以便能够将其重新应用于测试集。
+*   `StandardScaler` 。 `fit_transform()`：简单地将数据调整为所需格式。 `StandardScaler`对象将保存转换变量，因此您将能够取回非规格化数据。
+*   `cross_validation.train_test_split`：此方法将数据集分为训练和测试段，我们只需要提供分配给每个阶段的数据集的百分比即可。
+
+# 第一个项目 -- 非线性一般函数回归
+
+人工神经网络示例通常包含绝大多数分类问题，但实际上有大量应用可以表示为回归。
+
+用于回归的网络架构与用于分类问题的网络架构没有很大不同：它们可以采用多变量输入，也可以使用线性和非线性激活函数。
+
+在某些情况下，唯一必要的情况是仅在层的末尾删除类似于 Sigmoid 的函数，以允许出现所有选项。
+
+在第一个示例中，我们将对一个简单的，有噪声的二次函数进行建模，并将尝试通过单个隐藏层网络对其进行回归，并查看我们可以多么接近地预测从测试总体中得出的值。
+
+## 数据集说明和加载
+
+在这种情况下，我们将使用生成的数据集，该数据集与第 3 章的线性回归中的数据集非常相似。
+
+我们将使用常见的 Numpy 方法生成二次函数，然后添加随机噪声，这将有助于我们了解线性回归如何推广。
+
+核心样本创建例程如下：
+
+```py
+import numpy as np 
+trainsamples = 200 
+testsamples = 60 
+dsX = np.linspace(-1, 1, trainsamples + testsamples).transpose() 
+dsY = 0.4* pow(dsX,2) +2 * dsX + np.random.randn(*dsX.shape) * 0.22 + 0.8  
+
+```
+
+## 数据集预处理
+
+该数据集在生成时不需要进行预处理，并且具有良好的属性，例如居中并具有`-1, 1`的样本分布。
+
+## 模型架构 -- 损失函数描述
+
+此设置的损耗将简单地用均方根误差表示，如下所示：
+
+```py
+cost = tf.pow(py_x-Y, 2)/(2)  
+
+```
+
+## 损失函数优化器
+
+在这种情况下，我们将使用梯度下降成本优化器，可以通过以下代码调用该优化器：
+
+```py
+train_op = tf.train.AdamOptimizer(0.5).minimize(cost)  
+
+```
+
+## 准确率和收敛性测试
+
+`predict_op = tf.argmax(py_x, 1)`
+
+```py
+cost1 += sess.run(cost, feed_dict={X: [[x1]], Y: y1}) / testsamples 
+
+```
+
+### 示例代码
+
+让我们看一下下面显示的示例代码：
+
+```py
+import tensorflow as tf
+import numpy as np
+from sklearn.utils import shuffle
+%matplotlib inline
+import matplotlib.pyplot as plt
+trainsamples = 200
+testsamples = 60
+#Here we will represent the model, a simple imput, a hidden layer of sigmoid activation
+def model(X, hidden_weights1, hidden_bias1, ow):
+    hidden_layer =  tf.nn.sigmoid(tf.matmul(X, hidden_weights1)+ b)
+    return tf.matmul(hidden_layer, ow)  
+dsX = np.linspace(-1, 1, trainsamples + testsamples).transpose()
+dsY = 0.4* pow(dsX,2) +2 * dsX + np.random.randn(*dsX.shape) * 0.22 + 0.8
+plt.figure() # Create a new figure
+plt.title('Original data')
+plt.scatter(dsX,dsY) #Plot a scatter draw of the datapoints
+```
+
+![Example code](img/00086.jpg)
+
+```py
+X = tf.placeholder("float")
+Y = tf.placeholder("float")
+# Create first hidden layer
+hw1 = tf.Variable(tf.random_normal([1, 10], stddev=0.1))
+# Create output connection
+ow = tf.Variable(tf.random_normal([10, 1], stddev=0.0))
+# Create bias
+b = tf.Variable(tf.random_normal([10], stddev=0.1))
+model_y = model(X, hw1, b, ow)
+# Cost function
+cost = tf.pow(model_y-Y, 2)/(2)
+# construct an optimizer
+train_op = tf.train.GradientDescentOptimizer(0.05).minimize(cost)
+# Launch the graph in a session
+with tf.Session() as sess:
+    tf.initialize_all_variables().run() #Initialize all variables
+    for i in range(1,100):
+        dsX, dsY = shuffle (dsX.transpose(), dsY) #We randomize the samples to mplement a better training
+        trainX, trainY =dsX[0:trainsamples], dsY[0:trainsamples]
+        for x1,y1 in zip (trainX, trainY):
+            sess.run(train_op, feed_dict={X: [[x1]], Y: y1})
+        testX, testY = dsX[trainsamples:trainsamples + testsamples], dsY[0:trainsamples:trainsamples+testsamples]
+        cost1=0.
+        for x1,y1 in zip (testX, testY):
+            cost1 += sess.run(cost, feed_dict={X: [[x1]], Y: y1}) / testsamples      
+        if (i%10 == 0):
+            print "Average cost for epoch " + str (i) + ":" + str(cost1)
+```
+
+## 结果描述
+
+这是不同周期的结果的副本。请注意，由于这是一个非常简单的函数，因此即使第一次迭代也具有非常好的结果：
+
+```py
+Average cost for epoch 1:[[ 0.00753353]]
+Average cost for epoch 2:[[ 0.00381996]]
+Average cost for epoch 3:[[ 0.00134867]]
+Average cost for epoch 4:[[ 0.01020064]]
+Average cost for epoch 5:[[ 0.00240157]]
+Average cost for epoch 6:[[ 0.01248318]]
+Average cost for epoch 7:[[ 0.05143405]]
+Average cost for epoch 8:[[ 0.00621457]]
+Average cost for epoch 9:[[ 0.0007379]]
+```
+
+# 第二个项目 -- 非线性回归和汽车的燃油效率建模
+
+在此示例中，我们将进入一个区域，其中神经网络可提供大部分附加价值； 解决非线性问题。 为了开始这一旅程，我们将基于几个变量对几种汽车模型的燃油效率建模一个回归模型，该变量可以更好地用非线性函数表示。
+
+## 数据集说明和加载
+
+对于这个问题，我们将分析一个非常著名的，标准的，格式正确的数据集，该数据集将使我们能够分析一个多变量问题：根据离散和连续的一些相关变量来猜测汽车的 MPG。
+
+这可以被认为是一个玩具，并且有些过时了，但是它将为更复杂的问题铺平道路，并且具有已经被众多书目分析的优势。
+
+属性信息
+
+该数据集具有以下数据列：
+
+*   `mpg`：连续
+*   `cylinders`：多值离散
+*   `displacement`：连续
+*   `horsepower`：连续
+*   `weight`：连续
+*   `acceleration`：连续
+*   `model year:`多值离散
+*   `origin`：多值离散
+*   `car name`：字符串（将不使用）
+
+我们将不对数据进行详细的分析，但是我们可以非正式地推断出所有连续变量都与增加或减少目标变量相关：
+
+![Dataset description and loading](img/00087.jpg)
+
+## 数据集预处理
+
+对于此任务，我们将使用来自 sklearn 的上述缩放器对象：
+
+*   `scaler = preprocessing.StandardScaler()`
+*   `X_train = scaler.fit_transform(X_train)`
+
+## 模型架构
+
+我们将要构建的是一个前馈神经网络，具有多变量输入和简单输出：
+
+![Modeling architecture](img/00088.jpg)
+
+## 收敛性测试
+
+```py
+score = metrics.mean_squared_error(regressor.predict(scaler.transform(X_test)), y_test)
+print('MSE: {0:f}'.format(score))
+```
+
+## 结果描述
+
+```py
+Step #99, avg. train loss: 182.33624
+Step #199, avg. train loss: 25.09151
+Step #300, epoch #1, avg. train loss: 11.92343
+Step #400, epoch #1, avg. train loss: 11.20414
+Step #500, epoch #1, avg. train loss: 5.14056
+Total Mean Squared Error: 15.0792258911
+```
+
+```py
+%matplotlib inline  
+import matplotlib.pyplot as plt 
+import pandas as pd 
+
+from sklearn import datasets, cross_validation, metrics 
+from sklearn import preprocessing 
+from tensorflow.contrib import skflow 
+
+# Read the original dataset 
+df = pd.read_csv("data/mpg.csv", header=0) 
+# Convert the displacement column as float 
+df['displacement']=df['displacement'].astype(float) 
+# We get data columns from the dataset 
+# First and last (mpg and car names) are ignored for X 
+X = df[df.columns[1:8]] 
+y = df['mpg'] 
+
+plt.figure() # Create a new figure 
+
+for i in range (1,8): 
+    number = 420 + i 
+    ax1.locator_params(nbins=3) 
+    ax1 = plt.subplot(number) 
+    plt.title(list(df)[i]) 
+    ax1.scatter(df[df.columns[i]],y) #Plot a scatter draw of the  datapoints 
+plt.tight_layout(pad=0.4, w_pad=0.5, h_pad=1.0) 
+# Split the datasets 
+
+X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, 
+test_size=0.25) 
+
+# Scale the data for convergency optimization 
+scaler = preprocessing.StandardScaler() 
+
+# Set the transform parameters 
+X_train = scaler.fit_transform(X_train) 
+
+# Build a 2 layer fully connected DNN with 10 and 5 units respectively 
+regressor = skflow.TensorFlowDNNRegressor(hidden_units=[10, 5], 
+steps=500, learning_rate=0.051, batch_size=1) 
+
+# Fit the regressor 
+regressor.fit(X_train, y_train) 
+
+# Get some metrics based on the X and Y test data 
+score = metrics.mean_squared_error(regressor.predict(scaler.transform(X_test)), y_test) 
+
+print(" Total Mean Squared Error: " + str(score)) 
+
+```
+
+# 第三个项目 -- 葡萄酒分类：多类分类的学习
+
+在本节中，我们将使用更复杂的数据集，尝试根据产地对葡萄酒进行分类。
+
+## 数据集说明和加载
+
+该数据包含对来自意大利同一地区但来自三个不同品种的葡萄酒进行化学分析的结果。 分析确定了三种葡萄酒中每种所含 13 种成分的数量。
+
+数据变量：
+
+*   醇
+*   苹果酸
+*   灰
+*   灰的碱度
+*   镁
+*   总酚
+*   黄酮
+*   非类黄酮酚
+*   花青素
+*   色彩强度
+*   色调
+*   稀释酒的 OD280/OD315
+*   脯氨酸
+
+要读取数据集，我们将仅使用提供的 CSV 文件和熊猫：
+
+```py
+df = pd.read_csv("./wine.csv", header=0)
+```
+
+![Dataset description and loading](img/00089.jpg)
+
+## 数据集预处理
+
+随着 csv 上的值从 1 开始，我们将归一化带有偏差的值：
+
+```py
+y = df['Wine'].values-1 
+
+```
+
+对于结果，我们将这些选项表示为一个数组的热门列表：
+
+```py
+Y = tf.one_hot(indices = y, depth=3, on_value = 1., off_value = 0., axis = 1 , name = "a").eval() 
+
+```
+
+我们还将预先洗净值：
+
+```py
+X, Y = shuffle (X, Y) 
+scaler = preprocessing.StandardScaler() 
+X = scaler.fit_transform(X) 
+
+```
+
+## 模型架构
+
+这个特定的模型将由一个单层，全连接的神经网络组成：
+
+*   `x` = `tf.placeholder(tf.float32, [None, 12])`
+*   `W` = `tf.Variable(tf.zeros([12, 3]))`
+*   `b` = `tf.Variable(tf.zeros([3]))`
+*   `y` = `tf.nn.softmax(tf.matmul(x, W) + b)`
+
+## 损失函数说明
+
+我们将使用交叉熵函数来衡量损失：
+
+```py
+y_ = tf.placeholder(tf.float32, [None, 3]) 
+cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1])) 
+
+```
+
+## 损失函数优化器
+
+同样，将使用“梯度下降”方法来减少损失函数：
+
+```py
+train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy) 
+
+```
+
+## 收敛测试
+
+在收敛性测试中，我们将每个良好的回归均转换为 1，将每个错误的回归均转换为 0，然后获取值的平均值来衡量模型的准确率：
+
+```py
+correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
+accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) 
+print(accuracy.eval({x: Xt, y_: Yt})) 
+
+```
+
+## 结果描述
+
+如我们所见，随着历时的发展，我们具有可变精度，但是它总是优于 90% 的精度，具有 30% 的随机基数（如果我们生成 0 到 3 之间的随机数来猜测结果）。
+
+```py
+0.973684
+0.921053
+0.921053
+0.947368
+0.921053
+```
+
+## 完整源代码
+
+让我们看一下完整的源代码：
+
+```py
+sess = tf.InteractiveSession() 
+import pandas as pd 
+# Import data 
+from tensorflow.examples.tlutorials.mnist import input_data 
+from sklearn.utils import shuffle 
+import tensorflow as tf 
+
+from sklearn import preprocessing 
+
+flags = tf.app.flags 
+FLAGS = flags.FLAGS 
+
+df = pd.read_csv("./wine.csv", header=0) 
+print (df.describe()) 
+#df['displacement']=df['displacement'].astype(float) 
+X = df[df.columns[1:13]].values 
+y = df['Wine'].values-1 
+Y = tf.one_hot(indices = y, depth=3, on_value = 1., off_value = 0., axis = 1 , name = "a").eval() 
+X, Y = shuffle (X, Y) 
+
+scaler = preprocessing.StandardScaler() 
+X = scaler.fit_transform(X) 
+
+# Create the model 
+x = tf.placeholder(tf.float32, [None, 12]) 
+W = tf.Variable(tf.zeros([12, 3])) 
+b = tf.Variable(tf.zeros([3])) 
+y = tf.nn.softmax(tf.matmul(x, W) + b) 
+
+# Define loss and optimizer 
+y_ = tf.placeholder(tf.float32, [None, 3]) 
+cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1])) 
+train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy) 
+# Train 
+tf.initialize_all_variables().run() 
+for i in range(100): 
+X,Y =shuffle (X, Y, random_state=1) 
+
+Xtr=X[0:140,:] 
+Ytr=Y[0:140,:] 
+
+Xt=X[140:178,:] 
+Yt=Y[140:178,:] 
+Xtr, Ytr = shuffle (Xtr, Ytr, random_state=0) 
+#batch_xs, batch_ys = mnist.train.next_batch(100) 
+batch_xs, batch_ys = Xtr , Ytr 
+train_step.run({x: batch_xs, y_: batch_ys}) 
+cost = sess.run (cross_entropy, feed_dict={x: batch_xs, y_: batch_ys}) 
+# Test trained model 
+correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
+accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) 
+print(accuracy.eval({x: Xt, y_: Yt})) 
+
+```
+
+# 总结
+
+在本章中，我们已经开始着手实现 TensorFlow 能力的真正替代物：神经网络模型。
+
+我们还看到了在回归和分类任务中使用简单神经网络，简单生成模型和实验模型的情况。
+
+在下一章中，我们将以卷积神经网络的形式提高新架构的知识以及将神经网络范式应用于其他知识领域（例如计算机视觉）的方式。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch06.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch06.md
new file mode 100644
index 00000000..065bc02d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch06.md
@@ -0,0 +1,713 @@
+# 六、卷积神经网络
+
+卷积神经网络是当前使用的许多最高级模型的一部分。 它们被用于许多领域，但是主要的应用领域是图像分类和特征检测领域。
+
+我们将在本章中介绍的主题如下：
+
+*   了解卷积函数和卷积网络如何工作以及构建它们的主要操作类型
+*   将卷积运算应用于图像数据并学习一些应用于图像的预处理技术，以提高方法的准确率
+*   使用 CNN 的简单设置对 MNIST 数据集的数字进行分类
+*   使用应用于彩色图像的 CNN 模型对 CIFAR 数据集的真实图像进行分类
+
+# 卷积神经网络的起源
+
+新认知加速器是福岛教授在 1980 年发表的论文中介绍的卷积网络的前身，并且是一种能容忍位移和变形的自组织神经网络。
+
+这个想法在 1986 年再次出现在原始反向传播论文的书本中，并在 1988 年被用于语音识别中的时间信号。
+
+最初的设计后来在 1998 年通过 LeCun 的论文将基于梯度的学习应用于文档识别中进行了审查和改进，该论文提出了 LeNet-5 网络，该网络能够对手写数字进行分类。 与其他现有模型相比，该模型显示出更高的表现，尤其是在 SVM 的几种变体上，SVM 是出版年份中表现最高的操作之一。
+
+然后在 2003 年对该论文进行了概括，论文为图像解释的层次神经网络。 但是，总的来说，我们将使用 LeCun 的 LeNet 论文架构的近似表示。
+
+## 卷积入门
+
+为了理解在这些类型的操作中应用于信息的操作，我们将从研究卷积函数的起源开始，然后我们将解释如何将此概念应用于信息。
+
+为了开始跟踪操作的历史发展，我们将开始研究连续域中的卷积。
+
+### 连续卷积
+
+此操作的最初使用来自 18 世纪，并且可以在原始应用上下文中表示为将两个按时出现的特征混合在一起的操作。
+
+从数学上讲，它可以定义如下：
+
+![Continuous convolution](img/00090.jpg)
+
+当我们尝试将此操作概念化为算法时，可以在以下步骤中解释前面的方程式：
+
+1.  翻转信号：这是变量的`(-τ)`部分。
+2.  移动它：这是由`g(τ)`的`t`求和因子给出的。
+3.  乘以：这是`f`和`g`的乘积。
+4.  积分结果曲线：这是较不直观的部分，因为每个瞬时值都是积分的结果。
+
+![Continuous convolution](img/00091.jpg)
+
+### 离散卷积
+
+卷积可以转换为离散域，并以离散项描述离散函数：
+
+![Discrete convolution](img/00092.jpg)
+
+## 卷积核
+
+在离散域中应用卷积的概念时，经常会使用内核。
+
+内核可以定义为`nxm`维矩阵，通常是在所有维上长的几个元素，通常是`m = n`。
+
+卷积运算包括将对应的像素与内核相乘，一次一个像素，然后将这些值相加，以便将该值分配给中央像素。
+
+然后将应用相同的操作，将卷积矩阵向左移动，直到访问了所有可能的像素。
+
+在以下示例中，我们有一个包含许多像素的图像和一个大小为`3x3`的内核，这在图像处理中特别常见：
+
+![Kernels and convolutions](img/00093.jpg)
+
+## 卷积运算的解释
+
+回顾了连续场和离散场的卷积运算的主要特征之后，现在让我们看一下该运算在机器学习中的用途。
+
+卷积核突出或隐藏模式。 根据受过训练的（或在示例中，手动设置）参数，我们可以开始发现参数，例如不同尺寸的方向和边缘。 我们也可能通过诸如模糊内核之类的方法覆盖一些不必要的细节或离群值。
+
+正如 LeCun 在他的基础论文中所述：
+
+> 卷积网络可以看作是合成自己的特征提取器。
+
+卷积神经网络的这一特性是相对于以前的数据处理技术的主要优势。 我们可以非常灵活地确定已确定数据集的主要组成部分，并通过这些基本构件的组合来表示其他样本。
+
+## 在 TensorFlow 中应用卷积
+
+TensorFlow 提供了多种卷积方法。 规范形式通过`conv2d`操作应用。 让我们看一下此操作的用法：
+
+```py
+tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu, data_format, name=None)
+```
+
+我们使用的参数如下：
+
+*   `input`：这是将对其应用操作的原始张量。 它具有四个维度的确定格式，默认维度顺序如下所示。
+*   `[batch, in_height, in_width, in_channels]`：批量是允许您拥有图像集合的维度。 顺序称为`NHWC`。 另一个选项是`NCWH`。
+
+    例如，单个`100x100` 像素彩色图像将具有以下形状：
+
+    ```py
+            [1,100,100,3]
+    ```
+
+*   `filter`：这是代表`kernel`或`filter`的张量。 它有一个非常通用的方法：
+
+```py
+        [filter_height, filter_width, in_channels, out_channels]
+```
+
+*   `strides`：这是四个`int`张量数据类型的列表，这些数据类型指示每个维度的滑动窗口。
+*   `Padding`：可以是`SAME`或`VALID`。 `SAME`将尝试保留初始张量尺寸，但`VALID`将允许其增长，以防计算输出大小和填充。
+*   `use_cudnn_on_gpu`：这指示是否使用`CUDA GPU CNN`库来加速计算。
+*   `data_format`：这指定数据的组织顺序（`NHWC`或`NCWH`）。
+
+### 其他卷积运算
+
+TensorFlow 提供了多种应用卷积的方法，如下所示：
+
+*   `tf.nn.conv2d_transpose`：这适用于`conv2d`的转置（梯度），并用于反卷积网络中
+*   `tf.nn.conv1d`：给定 3D 输入和`filter`张量，这将执行 1D 卷积
+*   `tf.nn.conv3d`：给定 5D 输入和`filter`张量，这将执行 3D 卷积
+
+### 示例代码 -- 将卷积应用于灰度图像
+
+在此示例代码中，我们将读取 GIF 格式的灰度图像，该图像将生成一个三通道张量，但每个像素具有相同的 RGB 值。 然后，我们将张量转换为真实的灰度矩阵，应用`kernel`，并在 JPEG 格式的输出图像中检索结果。
+
+### 注意
+
+请注意，您可以调整`kernel`变量中的参数以观察图像变化的影响。
+
+以下是示例代码：
+
+```py
+import tensorflow as tf 
+
+#Generate the filename queue, and read the gif files contents 
+filename_queue = tf.train.string_input_producer(tf.train.match_filenames_once("data/test.gif")) 
+reader = tf.WholeFileReader() 
+key, value = reader.read(filename_queue) 
+image=tf.image.decode_gif(value) 
+
+#Define the kernel parameters 
+kernel=tf.constant( 
+[ 
+[[[-1.]],[[-1.]],[[-1.]]], 
+[[[-1.]],[[8.]],[[-1.]]], 
+[[[-1.]],[[-1.]],[[-1.]]] 
+]             
+) 
+
+#Define the train coordinator 
+coord = tf.train.Coordinator() 
+
+with tf.Session() as sess: 
+tf.initialize_all_variables().run() 
+threads = tf.train.start_queue_runners(coord=coord) 
+#Get first image 
+image_tensor = tf.image.rgb_to_grayscale(sess.run([image])[0]) 
+#apply convolution, preserving the image size 
+imagen_convoluted_tensor=tf.nn.conv2d(tf.cast(image_tensor, tf.float32),kernel,[1,1,1,1],"SAME") 
+#Prepare to save the convolution option 
+file=open ("blur2.jpg", "wb+") 
+#Cast to uint8 (0..255), previous scalation, because the convolution could alter the scale of the final image 
+out=tf.image.encode_jpeg(tf.reshape(tf.cast(imagen_convoluted_tensor/tf.reduce_max(imagen_convoluted_tensor)*255.,tf.uint8), tf.shape(imagen_convoluted_tensor.eval()[0]).eval())) 
+file.close() 
+coord.request_stop() 
+coord.join(threads) 
+
+```
+
+### 示例核的结果
+
+在下图中，您可以观察到参数的变化如何影响图像的结果。 第一张图片是原始图片。
+
+滤镜类型为从左到右，从上到下模糊，底部 Sobel（从上到下搜索边的一种滤镜），浮雕（突出显示拐角边）和轮廓（概述图像的外部边界）。
+
+![Sample kernels results](img/00094.jpg)
+
+## 二次采样操作 -- 池化
+
+在 TensorFlow 中通过称为池化的操作执行二次采样操作。 这个想法是应用一个（大小不一的）内核并提取内核覆盖的元素之一，其中`max_pool`和`avg_pool`是最著名的一些元素，它们仅获得最大和平均值。 应用内核的元素。
+
+在下图中，您可以看到将`2x2`内核应用于单通道`16x16`矩阵的操作。 它只是保持其覆盖的内部区域的最大值。
+
+![Subsampling operation - pooling](img/00095.jpg)
+
+可以进行的合并操作的类型也有所不同。 例如，在 LeCun 的论文中，应用于原始像素的运算必须将它们乘以一个可训练的参数，并添加一个额外的可训练`bias`。
+
+### 下采样层的属性
+
+二次采样层的主要目的与卷积层的目的大致相同。 减少信息的数量和复杂性，同时保留最重要的信息元素。 它们构建了基础信息的紧凑表示。
+
+### 不变性
+
+下采样层还允许将信息的重要部分从数据的详细表示转换为更简单的表示。 通过在图像上滑动滤镜，我们将检测到的特征转换为更重要的图像部分，最终达到 1 像素的图像，该特征由该像素值表示。 相反，此属性也可能导致模型丢失特征检测的局部性。
+
+### 下采样层实现的表现
+
+下采样层的实现要快得多，因为未使用的数据元素的消除标准非常简单。 通常，它只需要进行几个比较。
+
+### 在 TensorFlow 中应用池化操作
+
+首先，我们将分析最常用的`pool`操作`max_pool`。 它具有以下签名：
+
+```py
+tf.nn.max_pool(value, ksize, strides, padding, data_format, name)
+```
+
+此方法类似于`conv2d`，参数如下：
+
+*   `value`：这是`float32`元素和形状（批量长度，高度，宽度，通道）的 4D 张量。
+*   `ksize`：这是一个整数列表，代表每个维度上的窗口大小
+*   `strides`：这是在每个尺寸上移动窗口的步骤
+*   `data_format`：设置数据尺寸
+*   `ordering`：`NHWC`或`NCHW`
+*   `padding`：`VALID`或`SAME`
+
+### 其他池化操作
+
+*   `tf.nn.avg_pool`：这将返回每个窗口的平均值的缩减张量
+*   `tf.nn.max_pool_with_argmax`：这将返回`max_pool`张量和具有`max_value`的平展索引的张量
+*   `tf.nn.avg_pool3d`：此操作使用类似立方的窗口执行`avg_pool`操作； 输入有额外的深度
+*   `tf.nn.max_pool3d`：执行与（`...`）相同的操作，但应用`max`操作
+
+### 示例代码
+
+在以下示例代码中，我们将采用原始格式：
+
+```py
+import tensorflow as tf 
+
+#Generate the filename queue, and read the gif files contents 
+filename_queue = tf.train.string_input_producer(tf.train.match_filenames_once("data/test.gif")) 
+reader = tf.WholeFileReader() 
+key, value = reader.read(filename_queue) 
+image=tf.image.decode_gif(value) 
+
+#Define the  coordinator 
+coord = tf.train.Coordinator() 
+
+def normalize_and_encode (img_tensor): 
+    image_dimensions = tf.shape(img_tensor.eval()[0]).eval() 
+    return tf.image.encode_jpeg(tf.reshape(tf.cast(img_tensor, tf.uint8), image_dimensions)) 
+
+with tf.Session() as sess: 
+    maxfile=open ("maxpool.jpg", "wb+") 
+    avgfile=open ("avgpool.jpg", "wb+") 
+    tf.initialize_all_variables().run() 
+    threads = tf.train.start_queue_runners(coord=coord) 
+
+    image_tensor = tf.image.rgb_to_grayscale(sess.run([image])[0]) 
+
+    maxed_tensor=tf.nn.avg_pool(tf.cast(image_tensor, tf.float32),[1,2,2,1],[1,2,2,1],"SAME") 
+    averaged_tensor=tf.nn.avg_pool(tf.cast(image_tensor, tf.float32),[1,2,2,1],[1,2,2,1],"SAME") 
+
+    maxfile.write(normalize_and_encode(maxed_tensor).eval()) 
+    avgfile.write(normalize_and_encode(averaged_tensor).eval()) 
+    coord.request_stop() 
+    maxfile.close() 
+    avgfile.close() 
+coord.join(threads) 
+
+```
+
+在下图中，我们首先看到原始图像和缩小尺寸的图像，然后是`max_pool`，然后是`avg_pool`。 如您所见，这两个图像看起来是相等的，但是如果我们绘制它们之间的图像差异，我们会发现，如果取最大值而不是均值（始终小于或等于均值），则会有细微的差异。
+
+![Sample code](img/00096.jpg)
+
+## 提高效率 - 丢弃操作
+
+在大型神经网络训练过程中观察到的主要优点之一是过拟合，即为训练数据生成非常好的近似值，但为单点之间的区域发出噪声。
+
+在过拟合的情况下，该模型专门针对训练数据集进行了调整，因此对于一般化将无用。 因此，尽管它在训练集上表现良好，但是由于缺乏通用性，因此它在测试数据集和后续测试中的表现很差。
+
+因此，引入了丢弃操作。 此操作将某些随机选择的权重的值减小为零，从而使后续层为零。
+
+这种方法的主要优点是，它避免了一层中的所有神经元同步优化其权重。 随机分组进行的这种适应避免了所有神经元都收敛到相同的目标，从而使适应的权重解相关。
+
+在丢弃应用中发现的第二个属性是隐藏单元的激活变得稀疏，这也是理想的特性。
+
+在下图中，我们表示了原始的完全连接的多层神经网络以及具有链接的丢弃的关联网络：
+
+![Improving efficiency - dropout operation](img/00097.jpg)
+
+### 在 TensorFlow 中应用丢弃操作
+
+为了应用`dropout`操作，TensorFlows 实现了`tf.nn.dropout`方法，其工作方式如下：
+
+```py
+tf.nn.dropout (x, keep_prob, noise_shape, seed, name)
+```
+
+参数如下：
+
+*   `x`：这是原始张量
+*   `keep_prob`：这是保留神经元的概率以及乘以其余节点的因子
+*   `noise_shape`：这是一个四元素列表，用于确定尺寸是否将独立应用归零
+
+#### 示例代码
+
+在此样本中，我们将对样本向量应用丢弃操作。 丢弃还可以将丢弃传输到所有与架构相关的单元。
+
+在下面的示例中，您可以看到将丢弃应用于`x`变量的结果，其归零概率为 0.5，并且在未发生这种情况的情况下，值加倍（乘以`1 / 1.5`，丢弃概率）：
+
+![Sample code](img/00098.jpg)
+
+显然，大约一半的输入已被清零（选择此示例是为了显示概率不会总是给出预期的四个零）。
+
+可能使您感到惊讶的一个因素是应用于非放置元素的比例因子。 这项技术用于维护相同的网络，并在训练时将`keep_prob`设为 1，将其恢复到原始架构。
+
+## 卷积层的构建方法
+
+为了构建卷积神经网络层，存在一些通用的实践和方法，可以在构建深度神经网络的方式中将其视为准规范。
+
+为了促进卷积层的构建，我们将看一些简单的实用函数。
+
+### 卷积层
+
+这是卷积层的一个示例，它连接一个卷积，添加一个`bias`参数总和，最后返回我们为整个层选择的激活函数（在这种情况下，`relu`操作很常见）。
+
+```py
+def conv_layer(x_in, weights, bias, strides=1): 
+x = tf.nn.conv2d(x, weights, strides=[1, strides, strides, 1],                                                                      padding='SAME') 
+x = tf.nn.bias_add(x_in, bias) 
+return tf.nn.relu(x) 
+
+```
+
+### 下采样层
+
+通常可以通过维持层的初始参数，通过`max_pool`操作来表示下采样层：
+
+```py
+def maxpool2d(x, k=2): 
+return tf.nn.max_pool(x, ksize=[1, k, k, 1], strides=[1, k, k, 1], 
+padding='SAME') 
+
+```
+
+# 示例 1 -- MNIST 数字分类
+
+在本节中，我们将首次使用最知名的模式识别数据集中的一个。 它最初是为了训练神经网络来对支票上的手写数字进行字符识别而开发的。
+
+原始数据集有 60,000 个不同的数字用于训练和 10,000 个用于测试，并且在使用时是原始使用的数据集的子集。
+
+在下图中，我们显示了 LeNet-5 架构，这是有关该问题发布的第一个著名的卷积架构。
+
+在这里，您可以看到层的尺寸和最后的结果表示：
+
+![Example 1 - MNIST digit classification](img/00099.jpg)
+
+## 数据集说明和加载
+
+MNIST 是易于理解和阅读但难以掌握的数据集。 当前，有很多好的算法可以解决这个问题。 在我们的案例中，我们将寻求建立一个足够好的模型，以使其与 10% 的随机结果相去甚远。
+
+为了访问 MNIST 数据集，我们将使用为 TensorFlow 的 MNIST 教程开发的一些实用工具类。
+
+这两条线是我们拥有完整的 MNIST 数据集所需的全部工作。
+
+在下图中，我们可以看到数据集对象的数据结构的近似值：
+
+![Dataset description and loading](img/00100.jpg)
+
+通过此代码，我们将打开并探索 MNIST 数据集：
+
+![Dataset description and loading](img/00101.jpg)
+
+要打印字符（在 Jupyter 笔记本中），我们将重塑表示图像的线性方式，形成`28x28`的方矩阵，分配灰度色图，并使用以下行绘制所得的数据结构：
+
+```py
+plt.imshow(mnist.train.images[0].reshape((28, 28), order='C'), cmap='Greys', interpolation='nearest')
+```
+
+下图显示了此行应用于不同数据集元素的结果：
+
+![Dataset description and loading](img/00102.jpg)
+
+## 数据集预处理
+
+在此示例中，我们将不进行任何预处理； 我们只会提到，仅通过使用线性变换的现有样本（例如平移，旋转和倾斜的样本）扩展数据集示例，就可以实现更好的分类评分。
+
+## 模型架构
+
+在这里，我们将研究为该特定架构选择的不同层。
+
+它开始生成带有名称的权重字典：
+
+```py
+'wc1': tf.Variable(tf.random_normal([5, 5, 1, 32])), 
+'wc2': tf.Variable(tf.random_normal([5, 5, 32, 64])), 
+'wd1': tf.Variable(tf.random_normal([7*7*64, 1024])), 
+'out': tf.Variable(tf.random_normal([1024, n_classes])) 
+
+```
+
+对于每个权重，还将添加一个`bias`以说明常数。
+
+然后我们定义连接的层，一层又一层地集成：
+
+```py
+conv_layer_1 = conv2d(x_in, weights['wc1'], biases['bc1']) 
+
+conv_layer_1 = subsampling(conv_layer_1, k=2) 
+
+conv_layer_2 = conv2d(conv_layer_1, weights['wc2'], biases['bc2']) 
+
+conv_layer_2 = subsampling(conv_layer_2, k=2) 
+
+fully_connected_layer = tf.reshape(conv_layer_2, [-1, weights['wd1'].get_shape().as_list()[0]]) 
+fully_connected_layer = tf.add(tf.matmul(fully_connected_layer, weights['wd1']), biases['bd1']) 
+fully_connected_layer = tf.nn.relu(fully_connected_layer) 
+
+fully_connected_layer = tf.nn.dropout(fully_connected_layer, dropout) 
+
+prediction_output = tf.add(tf.matmul(fully_connected_layer, weights['out']), biases['out']) 
+
+```
+
+## 损失函数说明
+
+损失函数将是交叉熵误差函数的平均值，该函数通常是用于分类的 softmax 函数。
+
+```py
+cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred, y)) 
+
+```
+
+## 损失函数优化器
+
+对于此示例，我们将使用改进的`AdamOptimizer`，其学习率可配置，我们将其定义为 0.001。
+
+```py
+optimizer = tf.train.AdamOptimizer
+           (learning_rate=learning_rate).minimize(cost)
+```
+
+## 准确率测试
+
+准确率测试计算标签和结果之间比较的平均值，以获得`0`和`1`之间的值。
+
+```py
+correct_pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1)) 
+accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32)) 
+
+```
+
+## 结果说明
+
+此示例的结果简洁明了，并且假设我们仅训练 10,000 个样本，则准确率不是一流的，但与十分之一的随机采样结果明显分开：
+
+```py
+Optimization Finished! 
+Testing Accuracy: 0.382812 
+
+```
+
+## 完整源代码
+
+以下是源代码：
+
+```py
+import tensorflow as tf 
+%matplotlib inline 
+import matplotlib.pyplot as plt  
+# Import MINST data 
+from tensorflow.examples.tutorials.mnist import input_data 
+mnist = input_data.read_data_sets("/tmp/data/", one_hot=True) 
+# Parameters 
+learning_rate = 0.001 
+training_iters = 2000 
+batch_size = 128 
+display_step = 10 
+
+# Network Parameters 
+n_input = 784 # MNIST data input (img shape: 28*28) 
+n_classes = 10 # MNIST total classes (0-9 digits) 
+dropout = 0.75 # Dropout, probability to keep units 
+
+# tf Graph input 
+x = tf.placeholder(tf.float32, [None, n_input]) 
+y = tf.placeholder(tf.float32, [None, n_classes]) 
+keep_prob = tf.placeholder(tf.float32) #dropout (keep probability) 
+
+#plt.imshow(X_train[1202].reshape((20, 20), order='F'), cmap='Greys',  interpolation='nearest') 
+
+# Create some wrappers for simplicity 
+def conv2d(x, W, b, strides=1): 
+    # Conv2D wrapper, with bias and relu activation 
+    x = tf.nn.conv2d(x, W, strides=[1, strides, strides, 1], padding='SAME') 
+    x = tf.nn.bias_add(x, b) 
+    return tf.nn.relu(x) 
+def maxpool2d(x, k=2): 
+    # MaxPool2D wrapper 
+    return tf.nn.max_pool(x, ksize=[1, k, k, 1], strides=[1, k, k, 1], 
+                          padding='SAME') 
+# Create model 
+def conv_net(x, weights, biases, dropout): 
+    # Reshape input picture 
+    x = tf.reshape(x, shape=[-1, 28, 28, 1]) 
+
+    # Convolution Layer 
+    conv1 = conv2d(x, weights['wc1'], biases['bc1']) 
+    # Max Pooling (down-sampling) 
+    conv1 = maxpool2d(conv1, k=2) 
+
+    # Convolution Layer 
+    conv2 = conv2d(conv1, weights['wc2'], biases['bc2']) 
+    # Max Pooling (down-sampling) 
+    conv2 = maxpool2d(conv2, k=2) 
+
+    # Fully connected layer 
+    # Reshape conv2 output to fit fully connected layer input 
+    fc1 = tf.reshape(conv2, [-1, weights['wd1'].get_shape().as_list()[0]]) 
+    fc1 = tf.add(tf.matmul(fc1, weights['wd1']), biases['bd1']) 
+    fc1 = tf.nn.relu(fc1) 
+    # Apply Dropout 
+    fc1 = tf.nn.dropout(fc1, dropout) 
+
+    # Output, class prediction 
+    out = tf.add(tf.matmul(fc1, weights['out']), biases['out']) 
+    return out 
+# Store layers weight & bias 
+weights = { 
+# 5x5 conv, 1 input, 32 outputs 
+'wc1': tf.Variable(tf.random_normal([5, 5, 1, 32])), 
+# 5x5 conv, 32 inputs, 64 outputs 
+'wc2': tf.Variable(tf.random_normal([5, 5, 32, 64])), 
+# fully connected, 7*7*64 inputs, 1024 outputs 
+'wd1': tf.Variable(tf.random_normal([7*7*64, 1024])), 
+# 1024 inputs, 10 outputs (class prediction) 
+'out': tf.Variable(tf.random_normal([1024, n_classes])) 
+} 
+
+biases = { 
+'bc1': tf.Variable(tf.random_normal([32])), 
+'bc2': tf.Variable(tf.random_normal([64])), 
+'bd1': tf.Variable(tf.random_normal([1024])), 
+'out': tf.Variable(tf.random_normal([n_classes])) 
+} 
+
+# Construct model 
+pred = conv_net(x, weights, biases, keep_prob) 
+
+# Define loss and optimizer 
+cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred, y)) 
+optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost) 
+
+# Evaluate model 
+correct_pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1)) 
+accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32)) 
+
+# Initializing the variables 
+init = tf.initialize_all_variables() 
+
+# Launch the graph 
+with tf.Session() as sess: 
+    sess.run(init) 
+    step = 1 
+    # Keep training until reach max iterations 
+    while step * batch_size < training_iters: 
+        batch_x, batch_y = mnist.train.next_batch(batch_size) 
+        test = batch_x[0] 
+        fig = plt.figure() 
+        plt.imshow(test.reshape((28, 28), order='C'), cmap='Greys', 
+        interpolation='nearest') 
+        print (weights['wc1'].eval()[0]) 
+        plt.imshow(weights['wc1'].eval()[0][0].reshape(4, 8), cmap='Greys',  interpolation='nearest') 
+        # Run optimization op (backprop) 
+        sess.run(optimizer, feed_dict={x: batch_x, y: batch_y, 
+                                       keep_prob: dropout}) 
+        if step % display_step == 0: 
+            # Calculate batch loss and accuracy 
+            loss, acc = sess.run([cost, accuracy], feed_dict={x: batch_x, 
+                                                              y: batch_y, 
+                                                            keep_prob: 1.})
+            print "Iter " + str(step*batch_size) + ", Minibatch Loss= " + \ 
+                  "{:.6f}".format(loss) + ", Training Accuracy= " + \ 
+                  "{:.5f}".format(acc) 
+        step += 1 
+    print "Optimization Finished!" 
+
+    # Calculate accuracy for 256 mnist test images 
+    print "Testing Accuracy:", \ 
+        sess.run(accuracy, feed_dict={x: mnist.test.images[:256],
+                                      y: mnist.test.labels[:256],
+                                      keep_prob: 1.}) 
+
+```
+
+# 示例 2 -- CIFAR10 数据集和图像分类
+
+在此示例中，我们将研究图像理解中使用最广泛的数据集之一，该数据集用作简单但通用的基准。 在此示例中，我们将构建一个简单的 CNN 模型，以了解解决此类分类问题所需的一般计算结构。
+
+## 数据集说明和加载
+
+该数据集包含 40,000 个`32x32`像素的图像，代表以下类别：飞机，汽车，鸟类，猫，鹿，狗，青蛙，马，船和卡车。 在此示例中，我们将只处理 10,000 个图像包中的第一个。
+
+以下是您可以在数据集中找到的一些图像示例：
+
+![Dataset description and loading](img/00103.jpg)
+
+## 数据集预处理
+
+我们必须对原始数据集进行一些数据结构调整，首先将其转换为`[10000, 3, 32, 32]`多维数组，然后将通道维移动到最后一个顺序。
+
+```py
+datadir='data/cifar-10-batches-bin/' 
+plt.ion() 
+G = glob.glob (datadir + '*.bin') 
+A = np.fromfile(G[0],dtype=np.uint8).reshape([10000,3073]) 
+labels = A [:,0] 
+images = A [:,1:].reshape([10000,3,32,32]).transpose (0,2,3,1) 
+plt.imshow(images[14]) 
+print labels[11] 
+images_unroll = A [:,1:] 
+
+```
+
+## 模型架构
+
+在这里，我们将定义我们的建模函数，该函数是一系列卷积和池化操作，并使用最终的平坦层和逻辑回归来确定当前样本的分类概率。
+
+```py
+def conv_model (X, y): 
+X= tf. reshape(X, [-1, 32, 32, 3]) 
+    with tf.variable_scope('conv_layer1'): 
+        h_conv1=tf.contrib.layers.conv2d(X, num_outputs=16,  kernel_size=[5,5],  activation_fn=tf.nn.relu)#print (h_conv1) 
+        h_pool1=max_pool_2x2(h_conv1)#print (h_pool1) 
+with tf.variable_scope('conv_layer2'): 
+        h_conv2=tf.contrib.layers.conv2d(h_pool1, num_outputs=16, kernel_size=[5,5], activation_fn=tf.nn.relu) 
+    #print (h_conv2) 
+    h_pool2=max_pool_2x2(h_conv2) 
+    h_pool2_flat = tf.reshape(h_pool2,  [-1,8*8*16 ]) 
+    h_fc1 = tf.contrib.layers.stack(h_pool2_flat, tf.contrib.layers.fully_connected ,[96,48], activation_fn=tf.nn.relu ) 
+
+return skflow.models.logistic_regression(h_fc1,y) 
+
+```
+
+## 损失函数说明和优化器
+
+以下是函数：
+
+```py
+classifier = skflow.TensorFlowEstimator(model_fn=conv_model, n_classes=10, batch_size=100, steps=2000, learning_rate=0.01)
+```
+
+### 训练和准确率测试
+
+使用以下两个命令，我们开始使用图像集对模型进行拟合并生成训练后模型的评分：
+
+```py
+%time classifier.fit(images, labels, logdir='/tmp/cnn_train/')
+%time score =metrics.accuracy_score(labels, classifier.predict(images))
+```
+
+## 结果描述
+
+结果如下：
+
+| 参数 | 结果 1 | 结果 2 |
+| --- | --- | --- |
+| CPU 时间 | 用户 35 分钟 6 秒 | 用户 39.8 秒 |
+| 系统 | 1 分钟 50 秒 | 7.19 秒 |
+| 总时间 | 36 分钟 57 秒 | 47 秒 |
+| 墙上时间 | 25 分钟 3 秒 | 32.5 秒 |
+| 准确率 | 0.612200 |  |
+
+### 完整源代码
+
+以下是完整的源代码：
+
+```py
+import glob 
+import numpy as np 
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+import tensorflow.contrib.learn as skflow 
+from sklearn import metrics 
+from tensorflow.contrib import learn 
+
+datadir='data/cifar-10-batches-bin/' 
+
+plt.ion() 
+G = glob.glob (datadir + '*.bin') 
+A = np.fromfile(G[0],dtype=np.uint8).reshape([10000,3073]) 
+labels = A [:,0] 
+images = A [:,1:].reshape([10000,3,32,32]).transpose (0,2,3,1) 
+plt.imshow(images[15]) 
+print labels[11] 
+images_unroll = A [:,1:] 
+def max_pool_2x2(tensor_in): 
+    return tf.nn.max_pool(tensor_in,  ksize= [1,2,2,1], strides= [1,2,2,1], padding='SAME') 
+
+def conv_model (X, y): 
+    X= tf. reshape(X, [-1, 32, 32, 3]) 
+    with tf.variable_scope('conv_layer1'): 
+        h_conv1=tf.contrib.layers.conv2d(X, num_outputs=16,  kernel_size=[5,5],  activation_fn=tf.nn.relu)#print (h_conv1) 
+        h_pool1=max_pool_2x2(h_conv1)#print (h_pool1) 
+    with tf.variable_scope('conv_layer2'): 
+        h_conv2=tf.contrib.layers.conv2d(h_pool1, num_outputs=16, kernel_size=[5,5], activation_fn=tf.nn.relu) 
+    #print (h_conv2) 
+    h_pool2=max_pool_2x2(h_conv2) 
+    h_pool2_flat = tf.reshape(h_pool2,  [-1,8*8*16 ]) 
+    h_fc1 = tf.contrib.layers.stack(h_pool2_flat, tf.contrib.layers.fully_connected ,[96,48], activation_fn=tf.nn.relu ) 
+    return skflow.models.logistic_regression(h_fc1,y) 
+
+images = np.array(images,dtype=np.float32) 
+classifier = skflow.TensorFlowEstimator(model_fn=conv_model, n_classes=10, batch_size=100, steps=2000, learning_rate=0.01) 
+
+%time classifier.fit(images, labels, logdir='/tmp/cnn_train/') 
+%time score =metrics.accuracy_score(labels, classifier.predict(images)) 
+
+```
+
+# 总结
+
+在本章中，我们了解了最先进的神经网络架构的组成部分之一：卷积神经网络。 使用此新工具，我们可以处理更复杂的数据集和概念抽象，因此我们将能够了解最新的模型。
+
+在下一章中，我们将使用另一种新形式的神经网络以及更新的神经网络架构的一部分：循环神经网络。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch07.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch07.md
new file mode 100644
index 00000000..2a7e5015
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch07.md
@@ -0,0 +1,892 @@
+# 七、循环神经网络和 LSTM
+
+回顾我们对更传统的神经网络模型的了解后，我们发现训练阶段和预测阶段通常以静态方式表示，其中输入作为输入，而我们得到输出，但我们不仅考虑了事件发生的顺序。与到目前为止回顾的预测模型不同，循环神经网络的预测取决于当前的输入向量以及先前的输入向量。
+
+我们将在本章中介绍的主题如下：
+
+*   了解循环神经网络的工作原理以及构建它们的主要操作类型
+*   解释在更高级的模型（例如 LSTM）中实现的想法
+*   在 TensorFlow 中应用 LSTM 模型来预测能耗周期
+*   撰写新音乐，从 J.S Bach 的一系列研究开始
+
+# 循环神经网络
+
+知识通常不会从虚无中出现。 许多新的想法是先前知识的结合而诞生的，因此这是一种有用的模仿行为。 传统的神经网络不包含任何将先前看到的元素转换为当前状态的机制。
+
+为了实现这一概念，我们有循环神经网络，即 RNN。 可以将循环神经网络定义为神经网络的顺序模型，该模型具有重用已给定信息的特性。 他们的主要假设之一是，当前信息依赖于先前的数据。 在下图中，我们观察到称为单元的 RNN 基本元素的简化图：
+
+![Recurrent neural networks](img/00104.jpg)
+
+单元的主要信息元素是输入（`Xt`），状态和输出（`ht`）。 但是正如我们之前所说，单元没有独立的状态，因此它还存储状态信息。 在下图中，我们将显示一个“展开”的 RNN 单元，显示其从初始状态到输出最终`h[n]`值的过程，中间有一些中间状态。
+
+![Recurrent neural networks](img/00105.jpg)
+
+一旦我们定义了单元的动态性，下一个目标就是研究制造或定义 RNN 单元的内容。 在标准 RNN 的最常见情况下，仅存在一个神经网络层，该神经网络层将输入和先前状态作为输入，应用 tanh 操作，并输出新状态`h(t+1).`
+
+![Recurrent neural networks](img/00106.jpg)
+
+这种简单的设置能够随着周期的过去而对信息进行汇总，但是进一步的实验表明，对于复杂的知识而言，序列距离使得难以关联某些上下文（例如，建筑师知道设计漂亮的建筑物）似乎是一种简单的结构， 请记住，但是将它们关联所需的上下文需要增加顺序才能将两个概念关联起来。 这也带来了爆炸和消失梯度的相关问题。
+
+## 梯度爆炸和消失
+
+循环神经网络的主要问题之一发生在反向传播阶段，鉴于其循环性质，误差反向传播所具有的步骤数与一个非常深的网络相对应。 梯度计算的这种级联可能在最后阶段导致非常不重要的值，或者相​​反，导致不断增加且不受限制的参数。 这些现象被称为消失和爆炸梯度。 这是创建 LSTM 架构的原因之一。
+
+## LSTM 神经网络
+
+长短期内存（LSTM）是一种特定的 RNN 架构，其特殊的架构使它们可以表示长期依赖性。 而且，它们是专门为记住长时间的信息模式和信息而设计的。
+
+## 门操作 -- 基本组件
+
+为了更好地理解 lstm 单元内部的构造块，我们将描述 LSTM 的主要操作块：门操作。
+
+此操作基本上有一个多元输入，在此块中，我们决定让一些输入通过，将其他输入阻塞。 我们可以将其视为信息过滤器，并且主要有助于获取和记住所需的信息元素。
+
+为了实现此操作，我们采用了一个多元控制向量（标有箭头），该向量与具有 Sigmoid 激活函数的神经网络层相连。 应用控制向量并通过 Sigmoid 函数，我们将得到一个类似于二元的向量。
+
+我们将用许多开关符号来表示此操作：
+
+![The gate operation - a fundamental component](img/00107.jpg)
+
+定义了二元向量后，我们将输入函数与向量相乘，以便对其进行过滤，仅让部分信息通过。 我们将用一个三角形来表示此操作，该三角形指向信息行进的方向。
+
+![The gate operation - a fundamental component](img/00108.jpg)
+
+LSTM 单元格的一般结构
+
+在下面的图片中，我们代表了 LSTM 单元的一般结构。 它主要由上述三个门操作组成，以保护和控制单元状态。
+
+此操作将允许丢弃（希望不重要）低状态数据，并且将新数据（希望重要）合并到状态中。
+
+![The gate operation - a fundamental component](img/00109.jpg)
+
+上一个图试图显示一个 LSTM 单元的运行中发生的所有概念。
+
+作为输入，我们有：
+
+*   单元格状态将存储长期信息，因为它从一开始就从单元格训练的起点进行优化的权重，并且
+*   短期状态`h(t)`，将在每次迭代中直接与当前输入结合使用，因此，其状态将受输入的最新值的影响更大
+
+作为输出，我们得到了结合所有门操作的结果。
+
+## 操作步骤
+
+在本节中，我们将描述信息将对其操作的每个循环步骤执行的所有不同子步骤的概括。
+
+### 第 1 部分 -- 设置要忘记的值（输入门）
+
+在本节中，我们将采用来自短期的值，再加上输入本身，并且这些值将由多元 Sigmoid 表示的二元函数的值设置。 根据输入和短期记忆值，Sigmoid 输出将允许或限制一些先前的知识或单元状态中包含的权重。
+
+![Part 1 - set values to forget (input gate)](img/00110.jpg)
+
+### 第 2 部分 -- 设置要保留的值，更改状态
+
+然后是时候设置过滤器了，该过滤器将允许或拒绝将新的和短期的内存合并到单元半永久状态。
+
+因此，在此阶段，我们将确定将多少新信息和半新信息合并到新单元状态中。 此外，我们最终将通过我们一直在配置的信息过滤器，因此，我们将获得更新的长期状态。
+
+为了规范新的和短期的信息，我们通过具有`tanh`激活的神经网络传递新的和短期的信息，这将允许在正则化（`-1,1`）范围内提供新信息。
+
+![Part 2 - set values to keep, change state](img/00111.jpg)
+
+### 第 3 部分 -- 输出已过滤的单元状态
+
+现在轮到短期状态了。 它还将使用新的和先前的短期状态来允许新信息通过，但是输入将是长期状态，点乘以 tanh 函数，再一次将输入标准化为（`-1,1`）范围。
+
+![Part 3 - output filtered cell state](img/00112.jpg)
+
+## 其他 RNN 架构
+
+通常，在本章中，假设 RNN 的领域更为广泛，我们将集中讨论 LSTM 类型的循环神经网络单元。 例如，还采用了 RNN 的其他变体，并为该领域增加了优势。
+
+*   具有窥孔的 LSTM：在此网络中，单元门连接到单元状态
+*   门控循环单元：这是一个更简单的模型，它结合了忘记门和输入门，合并了单元的状态和隐藏状态，因此大大简化了网络的训练
+
+## TensorFlow LSTM 有用的类和方法
+
+在本节中，我们将回顾可用于构建 LSTM 层的主要类和方法，我们将在本书的示例中使用它们。
+
+### 类`tf.nn.rnn_cell.BasicLSTMCell`
+
+此类基本的 LSTM 循环网络单元，具有遗忘偏差，并且没有其他相关类型（如窥孔）的奇特特性，即使在不应影响的阶段，它也可以使单元查看所得状态。
+
+以下是主要参数：
+
+*   `num_units`：整数，LSTM 单元的单元数
+*   `forget_bias`：浮动，此偏差（默认为`1`）被添加到忘记门，以便允许第一次迭代以减少初始训练步骤的信息丢失。
+*   `activation`：内部状态的激活函数（默认为标准`tanh`）
+
+### 类`MultiRNNCell`（`RNNCell`）
+
+在将用于此特定示例的架构中，我们将不会使用单个单元来考虑历史值。 在这种情况下，我们将使用一组连接的单元格。 因此，我们将实例化`MultiRNNCell`类。
+
+```py
+MultiRNNCell(cells, state_is_tuple=False)
+```
+
+这是`multiRNNCell`的构造器，此方法的主要参数是单元格，它将是我们要堆叠的`RNNCells`的实例。
+
+![class MultiRNNCell(RNNCell)](img/00113.jpg)
+
+### `learning.ops.split_squeeze(dim, num_split, tensor_in)`
+
+此函数将输入拆分为一个维度，然后压缩拆分后的张量所属的前一个维度。 它需要切割的尺寸，切割方式的数量，然后是张量的切割。 它返回相同的张量，但缩小一维。
+
+# 示例 1 -- 能耗数据的单变量时间序列预测
+
+在此示例中，我们将解决回归域的问题。 我们将要处理的数据集是一个周期内对一个家庭的许多功耗量度的汇总。 正如我们可以推断的那样，这种行为很容易遵循以下模式（当人们使用微波炉准备早餐时，这种行为会增加，醒来后的电脑数量会有所增加，下午可能会有所减少，而到了晚上，一切都会增加。 灯，从午夜开始直到下一个起床时间减少为零）。
+
+因此，让我们尝试在一个示例案例中对此行为进行建模。
+
+## 数据集说明和加载
+
+在此示例中，我们将使用 [Artur Trindade](https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014) 的电力负荷图数据集。
+
+这是原始数据集的描述：
+
+> 数据集没有缺失值。 每 15 分钟以 kW 为单位的值。 要以 kWh 为单位转换值，必须将值除以 4。每一列代表一个客户端。 在 2011 年之后创建了一些客户。在这些情况下，消费被视为零。 所有时间标签均以葡萄牙语小时为单位。 但是，整天呈现 96 个小节（`24 * 15`）。 每年 3 月的时间更改日（只有 23 小时），所有时间点的凌晨 1:00 和 2:00 之间均为零。 每年 10 月的时间变更日（有 25 个小时），上午 1:00 和凌晨 2:00 之间的值合计消耗两个小时。
+
+为了简化我们的模型描述，我们仅对一位客户进行了完整的测量，并将其格式转换为标准 CSV。 它位于本章代码文件夹的数据子文件夹中
+
+使用以下代码行，我们将打开并表示客户的数据：
+
+```py
+import pandas as pd 
+from matplotlib import pyplot as plt
+df = pd.read_csv("data/elec_load.csv", error_bad_lines=False)
+plt.subplot()
+plot_test, = plt.plot(df.values[:1500], label='Load')
+plt.legend(handles=[plot_test])
+```
+
+![Dataset description and loading](img/00114.jpg)
+
+我看一下这种表示形式（我们看一下前 1500 个样本），我们看到了一个初始瞬态状态，可能是在进行测量时可能出现的状态，然后我们看到了一个清晰的高，低功耗水平的循环。
+
+从简单的观察中，我们还可以看到冰柱或多或少是 100 个样本的，非常接近该数据集每天的 96 个样本。
+
+## 数据集预处理
+
+为了确保反向传播方法更好的收敛性，我们应该尝试对输入数据进行正则化。
+
+因此，我们将应用经典的缩放和居中技术，减去平均值，然后按最大值的底数进行缩放。
+
+为了获得所需的值，我们使用熊猫`describe()`方法。
+
+```py
+                Load 
+count  140256.000000 
+mean      145.332503 
+std        48.477976 
+min         0.000000 
+25%       106.850998 
+50%       151.428571 
+75%       177.557604 
+max       338.218126 
+
+```
+
+![Dataset preprocessing](img/00115.jpg)
+
+## 模型架构
+
+在这里，我们将简要描述将尝试对电力消耗变化进行建模的架构：
+
+最终的架构基本上由 10 个成员连接的 LSTM 多单元组成，该单元的末尾具有线性回归或变量，对于给定的历史记录，它将线性单元数组输出的结果转换为最终的实数。 值（在这种情况下，我们必须输入最后 5 个值才能预测下一个）。
+
+```py
+def lstm_model(time_steps, rnn_layers, dense_layers=None): 
+    def lstm_cells(layers): 
+        return [tf.nn.rnn_cell.BasicLSTMCell(layer['steps'],state_is_tuple=True) 
+                for layer in layers] 
+
+    def dnn_layers(input_layers, layers): 
+            return input_layers 
+
+    def _lstm_model(X, y): 
+        stacked_lstm = tf.nn.rnn_cell.MultiRNNCell(lstm_cells(rnn_layers), state_is_tuple=True) 
+        x_ = learn.ops.split_squeeze(1, time_steps, X) 
+        output, layers = tf.nn.rnn(stacked_lstm, x_, dtype=dtypes.float32) 
+        output = dnn_layers(output[-1], dense_layers) 
+        return learn.models.linear_regression(output, y) 
+
+    return _lstm_model 
+
+```
+
+下图显示了主要模块，随后由学习模块进行了补充，您可以在其中看到 RNN 阶段，优化器以及输出之前的最终线性回归。
+
+![Modelling architecture](img/00116.jpg)
+
+在这张图片中，我们看了 RNN 阶段，在那里我们可以观察到各个 LSTM 单元的级联，输入的挤压以及该学习包所添加的所有互补操作。
+
+![Modelling architecture](img/00117.jpg)
+
+然后，我们将使用回归器完成模型的定义：
+
+```py
+regressor = learn.TensorFlowEstimator(model_fn=lstm_model( 
+                                    TIMESTEPS, RNN_LAYERS, DENSE_LAYERS), n_classes=0, 
+                                      verbose=2,  steps=TRAINING_STEPS, optimizer='Adagrad', 
+                                      learning_rate=0.03, batch_size=BATCH_SIZE) 
+
+```
+
+## 损失函数说明
+
+对于损失函数，经典回归参数均方误差将：
+
+```py
+rmse = np.sqrt(((predicted - y['test']) ** 2).mean(axis=0))
+```
+
+## 收敛性测试
+
+在这里，我们将为当前模型运行拟合函数：
+
+```py
+regressor.fit(X['train'], y['train'], monitors=[validation_monitor], logdir=LOG_DIR) 
+
+```
+
+并将获得以下内容（很好）！ 错误率。 我们可以做的一项工作是避免对数据进行标准化，并查看平均误差是否相同（注意：不是，差很多）
+
+这是我们将获得的简单控制台输出：
+
+```py
+MSE: 0.001139 
+
+```
+
+这是生成的损耗/均值图形，它告诉我们误差在每次迭代中如何衰减：
+
+![Convergency test](img/00118.jpg)
+
+## 结果描述
+
+现在我们可以得到真实测试值和预测值的图形，在图形中我们可以看到平均误差表明我们的循环模型具有很好的预测能力：
+
+![Results description](img/00119.jpg)
+
+## 完整源代码
+
+以下是完整的源代码：
+
+```py
+
+import numpy as np 
+import pandas as pd 
+import tensorflow as tf 
+from matplotlib import pyplot as plt 
+
+from tensorflow.python.framework import dtypes 
+from tensorflow.contrib import learn 
+
+import logging 
+logging.basicConfig(level=logging.INFO) 
+
+from tensorflow.contrib import learn 
+from sklearn.metrics import mean_squared_error 
+
+LOG_DIR = './ops_logs' 
+TIMESTEPS = 5 
+RNN_LAYERS = [{'steps': TIMESTEPS}] 
+DENSE_LAYERS = None 
+TRAINING_STEPS = 10000 
+BATCH_SIZE = 100 
+PRINT_STEPS = TRAINING_STEPS / 100 
+
+def lstm_model(time_steps, rnn_layers, dense_layers=None): 
+    def lstm_cells(layers): 
+        return [tf.nn.rnn_cell.BasicLSTMCell(layer['steps'],state_is_tuple=True) 
+                for layer in layers] 
+
+    def dnn_layers(input_layers, layers): 
+            return input_layers 
+
+    def _lstm_model(X, y): 
+        stacked_lstm = tf.nn.rnn_cell.MultiRNNCell(lstm_cells(rnn_layers), state_is_tuple=True) 
+        x_ = learn.ops.split_squeeze(1, time_steps, X) 
+        output, layers = tf.nn.rnn(stacked_lstm, x_, dtype=dtypes.float32) 
+        output = dnn_layers(output[-1], dense_layers) 
+        return learn.models.linear_regression(output, y) 
+
+    return _lstm_model 
+
+regressor = learn.TensorFlowEstimator(model_fn=lstm_model(TIMESTEPS, RNN_LAYERS, DENSE_LAYERS), n_classes=0, 
+                                      verbose=2,  steps=TRAINING_STEPS, optimizer='Adagrad', 
+                                      learning_rate=0.03, batch_size=BATCH_SIZE) 
+
+df = pd.read_csv("data/elec_load.csv", error_bad_lines=False) 
+plt.subplot() 
+plot_test, = plt.plot(df.values[:1500], label='Load') 
+plt.legend(handles=[plot_test]) 
+
+print df.describe() 
+array=(df.values- 147.0) /339.0 
+plt.subplot() 
+plot_test, = plt.plot(array[:1500], label='Normalized Load') 
+plt.legend(handles=[plot_test]) 
+
+listX = [] 
+listy = [] 
+X={} 
+y={} 
+
+for i in range(0,len(array)-6): 
+    listX.append(array[i:i+5].reshape([5,1])) 
+    listy.append(array[i+6]) 
+
+arrayX=np.array(listX) 
+arrayy=np.array(listy) 
+
+X['train']=arrayX[0:12000] 
+X['test']=arrayX[12000:13000] 
+X['val']=arrayX[13000:14000] 
+
+y['train']=arrayy[0:12000] 
+y['test']=arrayy[12000:13000] 
+y['val']=arrayy[13000:14000] 
+
+# print y['test'][0] 
+# print y2['test'][0] 
+
+#X1, y2 = generate_data(np.sin, np.linspace(0, 100, 10000), TIMESTEPS, seperate=False) 
+# create a lstm instance and validation monitor 
+validation_monitor = learn.monitors.ValidationMonitor(X['val'], y['val'], 
+                                                      every_n_steps=PRINT_STEPS, 
+                                                      early_stopping_rounds=1000) 
+
+regressor.fit(X['train'], y['train'], monitors=[validation_monitor], logdir=LOG_DIR) 
+
+predicted = regressor.predict(X['test']) 
+rmse = np.sqrt(((predicted - y['test']) ** 2).mean(axis=0)) 
+score = mean_squared_error(predicted, y['test']) 
+print ("MSE: %f" % score) 
+
+#plot_predicted, = plt.plot(array[:1000], label='predicted') 
+
+plt.subplot() 
+plot_predicted, = plt.plot(predicted, label='predicted') 
+
+plot_test, = plt.plot(y['test'], label='test') 
+plt.legend(handles=[plot_predicted, plot_test]) 
+
+```
+
+# 示例 2 -- 编写音乐 A La Bach
+
+在此示例中，我们将使用专门针对字符序列或字符 RNN 模型的循环神经网络。
+
+我们将使用一系列基于字符的格式表达的音乐，即巴赫·戈德堡变奏曲（Bach Goldberg Variations），馈入该神经网络，并根据所学的结构编写一首音乐样本。
+
+### 注意
+
+请注意，此示例归功于[《可视化和理解循环网络》](https://arxiv.org/abs/1506.02078)和[标题为“循环神经网络的不合理有效性”的文章](http://karpathy.github.io/2015/05/21/rnn-effectiveness/)，该文章提供了许多想法和概念。
+
+## 字符级别模型
+
+如我们先前所见，字符 RNN 模型可用于字符序列。 这类输入可以代表多种可能的语言。 以下是一些示例：
+
+*   代码
+*   不同的人类语言（某些作者的写作风格的建模）
+*   科学论文（tex）等
+
+### 字符序列和概率表示
+
+RNN 的输入内容需要一种清晰直接的表示方式。 因此，选择单热表示，可以方便地将其直接用于表征有限数量的可能结果（有限字符的数量是有限的并且以十为单位）的输出，并可以将其与 `Softmax`函数值。
+
+因此，模型的输入是字符序列，模型的输出将是每个实例的数组序列。 数组的长度将与词汇表的大小相同，因此，给定先前输入的序列字符，每个数组位置将代表当前字符在此序列位置中的概率。
+
+在下图中，我们观察到一个非常简化的设置模型，其中编码的输入单词和该模型预测单词`TEST`作为预期的输出：
+
+![Character sequences and probability representation](img/00120.jpg)
+
+### 将音乐编码为字符 -- ABC 音乐格式
+
+搜索表示输入数据的格式时，如果可能的话，选择一种更简单但结构上均一的格式很重要。
+
+关于音乐表示，ABC 格式是一种合适的选择，因为它的结构非常简单，使用的字符数有限，并且是 ASCII 字符集的子集。
+
+#### ABC 格式数据组织
+
+ABC 格式页面主要包含两个组件：标头和注释。
+
+*   `Header`：标头包含一些键：值行，例如`X:[Reference number]`，`T:[Title]`，`M:[Meter]`，`K:[Key]`和`C[Composer]`。
+*   注释：注释从`K`标题键之后开始，并列出每个小节的不同注释，以`|`字符分隔。
+
+还有其他元素，但是通过以下示例，即使没有音乐训练，您也将了解格式的工作原理：
+
+原始样本如下：
+
+```py
+X:1 
+T:Notes 
+M:C 
+L:1/4 
+K:C 
+C, D, E, F,|G, A, B, C|D E F G|A B c d|e f g a|b c' d' e'|f' g' a' b'|] 
+
+```
+
+最终表示如下：
+
+![ABC format data organization](img/00121.jpg)
+
+巴赫·戈德堡的变化：
+
+巴赫·戈德堡（Bach Goldberg）变奏曲是一组原始的咏叹调，并基于该咏叹调创作了 30 部作品，以巴赫的门徒约翰·哥特利布·戈德堡（Johann Gottlieb Goldberg）的名字命名，他可能是其主要的解释者。
+
+在下一个清单和图中，我们将表示变体`Nr 1`的第一部分，因此您对我们将尝试模仿的文档结构有所了解：
+
+```py
+X:1  
+T:Variation no. 1  
+C:J.S.Bach  
+M:3/4  
+L:1/16  
+Q:500  
+V:2 bass  
+K:G  
+[V:1]GFG2- GDEF GAB^c |d^cd2- dABc defd |gfg2- gfed ^ceAG|  
+[V:2]G,,2B,A, B,2G,2G,,2G,2 |F,,2F,E, F,2D,2F,,2D,2 |E,,2E,D, E,2G,2A,,2^C2|  
+%  (More parts with V:1 and V:2) 
+
+```
+
+![ABC format data organization](img/00122.jpg)
+
+### 有用的库和方法
+
+在本节中，我们将学习在此示例中将使用的新函数。
+
+### 保存和还原变量和模型
+
+对于现实世界的应用来说，一项非常重要的能力是能够保存和检索整个模型。 TensorFlow 通过`tf.train.Saver`对象提供此功能。
+
+该对象的主要方法如下：
+
+*   `tf.train.Saver(args)`：这是构造器。 这是主要参数的列表：
+    *   `var_list`：这是一个列表，其中包含要保存的所有变量的列表。 例如，{`firstvar: var1`，`secondvar: var2`}。 如果不存在，请保存所有对象。
+    *   `max_to_keep`：这表示要维护的最大检查点数。
+    *   `write_version`：这是文件格式版本，实际上只有 1 个有效。
+*   `tf.train.Saver.save`：此方法运行由构造器添加的用于保存变量的操作。 这需要当前会​​话，并且所有变量都已初始化。 主要参数如下：
+    *   `session`：这是保存变量的会话
+    *   `save_path`：这是检查点文件名的路径
+    *   `global_step`：这是唯一的步骤标识符
+
+此方法返回保存检查点的路径。
+
+*   `tf.train.Saver.restore`：此方法恢复以前保存的变量。 主要参数如下：
+    *   `session`：会话是要还原变量的位置
+    *   `save_path`：这是先前由`save`方法，对`last_checkpoint()`的调用或提供的变量先前返回的变量
+
+### 加载和保存的伪代码
+
+在这里，我们将使用一些示例代码来构建用于保存和检索两个示例变量的最小结构。
+
+#### 变量保存
+
+以下是创建变量的代码：
+
+```py
+# Create some variables.simplevar = tf.Variable(..., name="simple")anothervar = tf.Variable(..., name="another")...# Add ops to save and restore all the variables.saver = tf.train.Saver()# Later, launch the model, initialize the variables, do some work, save the# variables to disk.with tf.Session() as sess:  sess.run(tf.initialize_all_variables())  # Do some work with the model.  ..  # Save the variables to disk.  save_path = saver.save(sess, "/tmp/model.ckpt")
+```
+
+#### 变量还原
+
+以下是用于还原变量的代码：
+
+```py
+saver = tf.train.Saver()
+# Later, launch the model, use the saver to restore variables from disk, and
+# do some work with the model.
+with tf.Session() as sess:
+#Work with the restored model....
+
+```
+
+## 数据集说明和加载
+
+对于此数据集，我们从 30 幅作品开始，然后生成其随机分布的`1000`个实例的列表：
+
+```py
+import random 
+input = open('input.txt', 'r').read().split('X:') 
+for i in range (1,1000): 
+    print "X:" + input[random.randint(1,30)] + "\n_____________________________________\n" 
+
+```
+
+## 网络训练
+
+网络训练的原始材料将是 ABC 格式的`30`作品。
+
+### 注意
+
+请注意，原始 ABC 文件位于[此链接](http://www.barfly.dial.pipex.com/Goldbergs.abc)。
+
+然后，我们使用这个小程序。
+
+对于此数据集，我们从`30`作品开始，然后生成一个随机分布的`1000`实例列表：
+
+```py
+import random 
+input = open('original.txt', 'r').read().split('X:') 
+for i in range (1,1000): 
+    print "X:" + input[random.randint(1,30)] + "\n_____________________________________\n" 
+
+```
+
+然后我们执行以下命令来获取数据集：
+
+```py
+python generate_dataset.py > input.txt 
+
+```
+
+## 数据集预处理
+
+生成的数据集在有用之前需要一些信息。 首先，它需要词汇的定义。
+
+### 词汇定义
+
+该过程的第一步是找到可以在原始文本中找到的所有不同字符，以便以后能够确定尺寸并填充单热编码输入。
+
+在下图中，我们表示以 ABC 音乐格式找到的不同字符。 在这里，您可以看到标准中包含普通和特殊标点符号的内容：
+
+![Vocabulary definition](img/00123.jpg)
+
+### 模型架构
+
+下面的行中描述了此 RNN 的模型，它是具有初始零状态的多层 LSTM：
+
+```py
+        cell_fn = rnn_cell.BasicLSTMCell  
+        cell = cell_fn(args.rnn_size, state_is_tuple=True) 
+        self.cell = cell = rnn_cell.MultiRNNCell([cell] * args.num_layers, state_is_tuple=True) 
+        self.input_data = tf.placeholder(tf.int32, [args.batch_size, args.seq_length]) 
+        self.targets = tf.placeholder(tf.int32, [args.batch_size, args.seq_length]) 
+        self.initial_state = cell.zero_state(args.batch_size, tf.float32) 
+        with tf.variable_scope('rnnlm'): 
+            softmax_w = tf.get_variable("softmax_w", [args.rnn_size, args.vocab_size])  
+            softmax_b = tf.get_variable("softmax_b", [args.vocab_size])   
+            with tf.device("/cpu:0"): 
+                embedding = tf.get_variable("embedding", [args.vocab_size, args.rnn_size]) 
+                inputs = tf.split(1, args.seq_length, tf.nn.embedding_lookup(embedding, self.input_data)) 
+                inputs = [tf.squeeze(input_, [1]) for input_ in inputs] 
+        def loop(prev, _): 
+            prev = tf.matmul(prev, softmax_w) + softmax_b 
+            prev_symbol = tf.stop_gradient(tf.argmax(prev, 1)) 
+            return tf.nn.embedding_lookup(embedding, prev_symbol) 
+        outputs, last_state = seq2seq.rnn_decoder(inputs, self.initial_state, cell, loop_function=loop if infer else None, scope='rnnlm') 
+        output = tf.reshape(tf.concat(1, outputs), [-1, args.rnn_size]) 
+
+```
+
+## 损失函数说明
+
+损失函数由`losss_by_example`函数定义。 这是基于一种称为“困惑性”的度量，该度量可测量概率分布预测样本的程度。 此度量在语言模型中广泛使用：
+
+```py
+        self.logits = tf.matmul(output, softmax_w) + softmax_b 
+        self.probs = tf.nn.softmax(self.logits) 
+        loss = seq2seq.sequence_loss_by_example([self.logits], 
+                [tf.reshape(self.targets, [-1])], 
+                [tf.ones([args.batch_size * args.seq_length])], 
+                args.vocab_size) 
+        self.cost = tf.reduce_sum(loss) / args.batch_size / args.seq_length 
+
+```
+
+## 停止条件
+
+程序将迭代直到达到周期数和批号为止。 这是条件块：
+
+```py
+if (e==args.num_epochs-1 and b == data_loader.num_batches-1) 
+
+```
+
+## 结果描述
+
+为了运行程序，首先使用以下代码运行训练脚本：
+
+```py
+python train.py 
+
+```
+
+然后，使用以下代码运行示例程序：
+
+```py
+python sample.py 
+
+```
+
+配置`X:1\n`的质数，这是一个可能的初始化字符序列，我们可以根据 RNN 的深度（建议 3）和长度（建议 512）获得几乎可以识别的完整构图。
+
+根据现场诊断，获得了以下乐谱，将得到的字符序列复制到 [drawthedots.com](http://www.drawthedots.com/) 并进行简单的字符校正：
+
+![Results description](img/00124.jpg)
+
+## 完整源代码
+
+以下是完整的源代码（`train.py`）：
+
+```py
+from __future__ import print_function 
+import numpy as np 
+import tensorflow as tf 
+
+import argparse 
+import time 
+import os 
+from six.moves import cPickle 
+from utils import TextLoader 
+from model import Model 
+class arguments: 
+    def __init__(self): 
+        return 
+def main(): 
+    args = arguments()     
+    train(args) 
+def train(args): 
+    args.data_dir='data/'; args.save_dir='save'; args.rnn_size =64; 
+    args.num_layers=1;  args.batch_size=50;args.seq_length=50 
+    args.num_epochs=5;args.save_every=1000; args.grad_clip=5\. 
+    args.learning_rate=0.002; args.decay_rate=0.97 
+    data_loader = TextLoader(args.data_dir, args.batch_size, args.seq_length) 
+    args.vocab_size = data_loader.vocab_size 
+    with open(os.path.join(args.save_dir, 'config.pkl'), 'wb') as f: 
+        cPickle.dump(args, f) 
+    with open(os.path.join(args.save_dir, 'chars_vocab.pkl'), 'wb') as f: 
+        cPickle.dump((data_loader.chars, data_loader.vocab), f) 
+    model = Model(args) 
+    with tf.Session() as sess: 
+        tf.initialize_all_variables().run() 
+        saver = tf.train.Saver(tf.all_variables()) 
+        for e in range(args.num_epochs): 
+            sess.run(tf.assign(model.lr, args.learning_rate * (args.decay_rate ** e))) 
+            data_loader.reset_batch_pointer() 
+            state = sess.run(model.initial_state) 
+            for b in range(data_loader.num_batches): 
+                start = time.time() 
+                x, y = data_loader.next_batch() 
+                feed = {model.input_data: x, model.targets: y} 
+                for i, (c, h) in enumerate(model.initial_state): 
+                    feed[c] = state[i].c 
+                    feed[h] = state[i].h 
+                train_loss, state, _ = sess.run([model.cost, model.final_state, model.train_op], feed) 
+                end = time.time() 
+                print("{}/{} (epoch {}), train_loss = {:.3f}, time/batch = {:.3f}" \ 
+                    .format(e * data_loader.num_batches + b, 
+                            args.num_epochs * data_loader.num_batches, 
+                            e, train_loss, end - start)) 
+                if (e==args.num_epochs-1 and b == data_loader.num_batches-1): # save for the last result 
+                    checkpoint_path = os.path.join(args.save_dir, 'model.ckpt') 
+                    saver.save(sess, checkpoint_path, global_step = e * data_loader.num_batches + b) 
+                    print("model saved to {}".format(checkpoint_path)) 
+
+if __name__ == '__main__': 
+    main() 
+
+```
+
+以下是完整的源代码（`model.py`）：
+
+```py
+import tensorflow as tf
+from tensorflow.python.ops import rnn_cell
+from tensorflow.python.ops import seq2seq
+import numpy as np
+
+class Model():
+    def __init__(self, args, infer=False):
+        self.args = args
+        if infer: #When we sample, the batch and sequence lenght are = 1
+            args.batch_size = 1
+            args.seq_length = 1
+        cell_fn = rnn_cell.BasicLSTMCell #Define the internal cell structure
+        cell = cell_fn(args.rnn_size, state_is_tuple=True)
+        self.cell = cell = rnn_cell.MultiRNNCell([cell] * args.num_layers, state_is_tuple=True)
+        #Build the inputs and outputs placeholders, and start with a zero internal values
+        self.input_data = tf.placeholder(tf.int32, [args.batch_size, args.seq_length])
+        self.targets = tf.placeholder(tf.int32, [args.batch_size, args.seq_length])
+        self.initial_state = cell.zero_state(args.batch_size, tf.float32)
+        with tf.variable_scope('rnnlm'):
+            softmax_w = tf.get_variable("softmax_w", [args.rnn_size, args.vocab_size]) #Final w
+            softmax_b = tf.get_variable("softmax_b", [args.vocab_size]) #Final bias
+            with tf.device("/cpu:0"):
+                embedding = tf.get_variable("embedding", [args.vocab_size, args.rnn_size])
+                inputs = tf.split(1, args.seq_length, tf.nn.embedding_lookup(embedding, self.input_data))
+                inputs = [tf.squeeze(input_, [1]) for input_ in inputs]
+        def loop(prev, _):
+            prev = tf.matmul(prev, softmax_w) + softmax_b
+            prev_symbol = tf.stop_gradient(tf.argmax(prev, 1))
+            return tf.nn.embedding_lookup(embedding, prev_symbol)
+        outputs, last_state = seq2seq.rnn_decoder(inputs, self.initial_state, cell, loop_function=loop if infer else None, scope='rnnlm')
+        output = tf.reshape(tf.concat(1, outputs), [-1, args.rnn_size])
+        self.logits = tf.matmul(output, softmax_w) + softmax_b
+        self.probs = tf.nn.softmax(self.logits)
+        loss = seq2seq.sequence_loss_by_example([self.logits],
+            [tf.reshape(self.targets, [-1])],
+            [tf.ones([args.batch_size * args.seq_length])],
+            args.vocab_size)
+        self.cost = tf.reduce_sum(loss) / args.batch_size / args.seq_length
+        self.final_state = last_state
+        self.lr = tf.Variable(0.0, trainable=False)
+        tvars = tf.trainable_variables()
+        grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost,        tvars),
+        args.grad_clip)
+        optimizer = tf.train.AdamOptimizer(self.lr)
+        self.train_op = optimizer.apply_gradients(zip(grads, tvars))
+    def sample(self, sess, chars, vocab, num=200, prime='START', sampling_type=1):
+        state = sess.run(self.cell.zero_state(1, tf.float32))
+        for char in prime[:-1]:
+            x = np.zeros((1, 1))
+            x[0, 0] = vocab[char]
+            feed = {self.input_data: x, self.initial_state:state}
+            [state] = sess.run([self.final_state], feed)
+        def weighted_pick(weights):
+            t = np.cumsum(weights)
+            s = np.sum(weights)
+            return(int(np.searchsorted(t, np.random.rand(1)*s)))
+        ret = prime
+        char = prime[-1]
+        for n in range(num):
+            x = np.zeros((1, 1))
+            x[0, 0] = vocab[char]
+            feed = {self.input_data: x, self.initial_state:state}
+            [probs, state] = sess.run([self.probs, self.final_state], feed)
+            p = probs[0]
+            sample = weighted_pick(p)
+            pred = chars[sample]
+            ret += pred
+            char = pred
+        return ret
+```
+
+以下是完整的源代码（`sample.py`）：
+
+```py
+from __future__ import print_function
+
+import numpy as np
+import tensorflow as tf
+import time
+import os
+from six.moves import cPickle
+from utils import TextLoader
+from model import Model
+from six import text_type
+
+class arguments: #Generate the arguments class
+    save_dir= 'save'
+    n=1000
+    prime='x:1\n'
+    sample=1 
+
+def main():
+    args = arguments()
+    sample(args)   #Pass the argument object
+
+def sample(args):
+    with open(os.path.join(args.save_dir, 'config.pkl'), 'rb') as f:
+        saved_args = cPickle.load(f) #Load the config from the standard file
+    with open(os.path.join(args.save_dir, 'chars_vocab.pkl'), 'rb') as f:
+
+        chars, vocab = cPickle.load(f) #Load the vocabulary
+    model = Model(saved_args, True) #Rebuild the model
+    with tf.Session() as sess:
+        tf.initialize_all_variables().run() 
+        saver = tf.train.Saver(tf.all_variables())   
+        ckpt = tf.train.get_checkpoint_state(args.save_dir) #Retrieve the chkpoint
+        if ckpt and ckpt.model_checkpoint_path:
+            saver.restore(sess, ckpt.model_checkpoint_path) #Restore the model
+            print(model.sample(sess, chars, vocab, args.n, args.prime, args.sample))
+            #Execute the model, generating a n char sequence
+            #starting with the prime sequence
+if __name__ == '__main__':
+    main()
+
+```
+
+以下是完整的源代码（`utils.py`）：
+
+```py
+import codecs
+import os
+import collections
+from six.moves import cPickle
+import numpy as np
+
+class TextLoader():
+    def __init__(self, data_dir, batch_size, seq_length, encoding='utf-8'):
+        self.data_dir = data_dir
+        self.batch_size = batch_size
+        self.seq_length = seq_length
+        self.encoding = encoding
+
+        input_file = os.path.join(data_dir, "input.txt")
+        vocab_file = os.path.join(data_dir, "vocab.pkl")
+        tensor_file = os.path.join(data_dir, "data.npy")
+
+        if not (os.path.exists(vocab_file) and os.path.exists(tensor_file)):
+            print("reading text file")
+            self.preprocess(input_file, vocab_file, tensor_file)
+        else:
+            print("loading preprocessed files")
+            self.load_preprocessed(vocab_file, tensor_file)
+        self.create_batches()
+        self.reset_batch_pointer()
+
+    def preprocess(self, input_file, vocab_file, tensor_file):
+        with codecs.open(input_file, "r", encoding=self.encoding) as f:
+            data = f.read()
+        counter = collections.Counter(data)
+        count_pairs = sorted(counter.items(), key=lambda x: -x[1])
+        self.chars, _ = zip(*count_pairs)
+        self.vocab_size = len(self.chars)
+        self.vocab = dict(zip(self.chars, range(len(self.chars))))
+        with open(vocab_file, 'wb') as f:
+            cPickle.dump(self.chars, f)
+        self.tensor = np.array(list(map(self.vocab.get, data)))
+        np.save(tensor_file, self.tensor)
+
+    def load_preprocessed(self, vocab_file, tensor_file):
+        with open(vocab_file, 'rb') as f:
+            self.chars = cPickle.load(f)
+        self.vocab_size = len(self.chars)
+        self.vocab = dict(zip(self.chars, range(len(self.chars))))
+        self.tensor = np.load(tensor_file)
+        self.num_batches = int(self.tensor.size / (self.batch_size *
+                                                   self.seq_length))
+
+    def create_batches(self):
+        self.num_batches = int(self.tensor.size / (self.batch_size *
+                                                   self.seq_length))
+
+        self.tensor = self.tensor[:self.num_batches * self.batch_size * self.seq_length]
+        xdata = self.tensor
+        ydata = np.copy(self.tensor)
+        ydata[:-1] = xdata[1:]
+        ydata[-1] = xdata[0]
+        self.x_batches = np.split(xdata.reshape(self.batch_size, -1), self.num_batches, 1)
+        self.y_batches = np.split(ydata.reshape(self.batch_size, -1), self.num_batches, 1)
+
+    def next_batch(self):
+        x, y = self.x_batches[self.pointer], self.y_batches[self.pointer]
+        self.pointer += 1
+        return x, y
+
+    def reset_batch_pointer(self):
+        self.pointer = 0
+
+```
+
+# 总结
+
+在本章中，我们回顾了一种最新的神经网络架构，即循环神经网络，从而完善了机器学习领域主流方法的全景。
+
+在下一章中，我们将研究在最先进的实现中出现的不同的神经网络层类型组合，并涵盖一些新的有趣的实验模型。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch08.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch08.md
new file mode 100644
index 00000000..971d3f1e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch08.md
@@ -0,0 +1,611 @@
+# 八、深度神经网络
+
+在本章中，我们将回顾机器学习，深度神经网络中最先进的技术，也是研究最多的领域之一。
+
+# 深度神经网络定义
+
+这是一个新闻技术领域蓬勃发展的领域，每天我们都听到成功地将 DNN 用于解决新问题的实验，例如计算机视觉，自动驾驶，语音和文本理解等。
+
+在前几章中，我们使用了与 DNN 相关的技术，尤其是在涉及卷积神经网络的技术中。
+
+出于实际原因，我们将指深度学习和深度神经网络，即其中层数明显优于几个相似层的架构，我们将指代具有数十个层的神经网络架构，或者复杂结构的组合。
+
+# 穿越时空的深度网络架构
+
+在本节中，我们将回顾从 LeNet5 开始在整个深度学习历史中出现的里程碑架构。
+
+## LeNet 5
+
+在 1980 年代和 1990 年代，神经网络领域一直保持沉默。 尽管付出了一些努力，但是架构非常简单，并且需要大的（通常是不可用的）机器力量来尝试更复杂的方法。
+
+1998 年左右，在贝尔实验室中，在围绕手写校验数字分类的研究中，Ian LeCun 开始了一种新趋势，该趋势实现了所谓的“深度学习——卷积神经网络”的基础，我们已经在第 5 章，简单的前馈神经网络中对其进行了研究。
+
+在那些年里，SVM 和其他更严格定义的技术被用来解决这类问题，但是有关 CNN 的基础论文表明，与当时的现有方法相比，神经网络的表现可以与之媲美或更好。
+
+# Alexnet
+
+经过几年的中断（即使 LeCun 继续将其网络应用到其他任务，例如人脸和物体识别），可用结构化数据和原始处理能力的指数增长，使团队得以增长和调整模型， 在某种程度上被认为是不可能的，因此可以增加模型的复杂性，而无需等待数月的训练。
+
+来自许多技术公司和大学的计算机研究团队开始竞争一些非常艰巨的任务，包括图像识别。 对于以下挑战之一，即 Imagenet 分类挑战，开发了 Alexnet 架构：
+
+![Alexnet](img/00125.jpg)
+
+Alexnet 架构
+
+## 主要功能
+
+从其第一层具有卷积运算的意义上讲，Alexnet 可以看作是增强的 LeNet5。 但要添加未使用过的最大池化层，然后添加一系列密集的连接层，以建立最后的输出类别概率层。 视觉几何组（VGG）模型
+
+图像分类挑战的其他主要竞争者之一是牛津大学的 VGG。
+
+VGG 网络架构的主要特征是它们将卷积滤波器的大小减小到一个简单的`3x3`，并按顺序组合它们。
+
+微小的卷积内核的想法破坏了 LeNet 及其后继者 Alexnet 的最初想法，后者最初使用的过滤器高达`11x11`过滤器，但复杂得多且表现低下。 过滤器大小的这种变化是当前趋势的开始：
+
+![Main features](img/00126.jpg)
+
+VGG 中每层的参数编号摘要
+
+然而，使用一系列小的卷积权重的积极变化，总的设置是相当数量的参数（数以百万计的数量级），因此它必须受到许多措施的限制。
+
+## 原始的初始模型
+
+在由 Alexnet 和 VGG 主导的两个主要研究周期之后，Google 凭借非常强大的架构 Inception 打破了挑战，该架构具有多次迭代。
+
+这些迭代的第一个迭代是从其自己的基于卷积神经网络层的架构版本（称为 GoogLeNet）开始的，该架构的名称让人想起了始于网络的方法。
+
+## GoogLenet（InceptionV1）
+
+![GoogLenet (InceptionV1)](img/00127.jpg)
+
+InceptionV1
+
+GoogLeNet 是这项工作的第一个迭代，如下图所示，它具有非常深的架构，但是它具有九个链式初始模块的令人毛骨悚然的总和，几乎没有或根本没有修改：
+
+![GoogLenet (InceptionV1)](img/00128.jpg)
+
+盗梦空间原始架构
+
+与两年前发布的 Alexnet 相比，它是如此复杂，但它设法减少了所需的参数数量并提高了准确率。
+
+但是，由于几乎所有结构都由相同原始结构层构建块的确定排列和重复组成，因此提高了此复杂架构的理解和可伸缩性。
+
+## 批量归一化初始化（V2）
+
+2015 年最先进的神经网络在提高迭代效率的同时，还存在训练不稳定的问题。
+
+为了理解问题的构成，首先我们将记住在前面的示例中应用的简单正则化步骤。 它主要包括将这些值以零为中心，然后除以最大值或标准偏差，以便为反向传播的梯度提供良好的基线。
+
+在训练非常大的数据集的过程中，发生的事情是，经过大量训练示例之后，不同的值振荡开始放大平均参数值，就像在共振现象中一样。 我们非常简单地描述的被称为协方差平移。
+
+![Batch normalized inception (V2)](img/00129.jpg)
+
+有和没有批量归一化的表现比较
+
+这是开发批归一化技术的主要原因。
+
+再次简化了过程描述，它不仅包括对原始输入值进行归一化，还对每一层上的输出值进行了归一化，避免了在层之间出现不稳定性之前就开始影响或漂移这些值。
+
+这是 Google 在 2015 年 2 月发布的改进版 GoogLeNet 实现中提供的主要功能，也称为 InceptionV2。
+
+# InceptionV3
+
+快进到 2015 年 12 月，Inception 架构有了新的迭代。 两次发行之间月份的不同使我们对新迭代的开发速度有了一个想法。
+
+此架构的基本修改如下：
+
+*   将卷积数减少到最大`3x3`
+*   增加网络的总体深度
+*   在每一层使用宽度扩展技术来改善特征组合
+
+下图说明了如何解释改进的启动模块：
+
+![InceptionV3](img/00130.jpg)
+
+InceptionV3 基本模块
+
+这是整个 V3 架构的表示形式，其中包含通用构建模块的许多实例：
+
+![InceptionV3](img/00131.jpg)
+
+InceptionV3 总体图
+
+# 残差网络（ResNet）
+
+残差网络架构于 2015 年 12 月出现（与 InceptionV3 几乎同时出现），它带来了一个简单而新颖的想法：不仅使用每个构成层的输出，还将该层的输出与原始输入结合。
+
+在下图中，我们观察到 ResNet 模块之一的简化​​视图。 它清楚地显示了卷积层栈末尾的求和运算，以及最终的 relu 运算：
+
+![Residual Networks (ResNet)](img/00132.jpg)
+
+ResNet 一般架构
+
+模块的卷积部分包括将特征从 256 个值减少到 64 个值，一个保留特征数的`3x3`过滤层以及一个从 64 x 256 个值增加`1x1`层的特征。 在最近的发展中，ResNet 的使用深度还不到 30 层，分布广泛。
+
+## 其他深度神经网络架构
+
+最近开发了很多神经网络架构。 实际上，这个领域是如此活跃，以至于我们每年或多或少都有新的杰出架构外观。 最有前途的神经网络架构的列表是：
+
+*   SqueezeNet：此架构旨在减少 Alexnet 的参数数量和复杂性，声称减少了 50 倍的参数数量
+*   高效神经网络（Enet）：旨在构建更简单，低延迟的浮点运算数量，具有实时结果的神经网络
+*   Fractalnet：它的主要特征是非常深的网络的实现，不需要残留的架构，将结构布局组织为截断的分形
+
+# 示例 -- 风格绘画 -- VGG 风格迁移
+
+在此示例中，我们将配合 Leon Gatys 的论文《艺术风格的神经算法》的实现。
+
+### 注意
+
+此练习的原始代码由 [Anish Athalye](http://www.anishathalye.com/) 提供。
+
+我们必须注意，此练习没有训练内容。 我们将仅加载由 VLFeat 提供的预训练系数矩阵，该矩阵是预训练模型的数据库，可用于处理模型，从而避免了通常需要大量计算的训练：
+
+![Example - painting with style - VGG style transfer](img/00133.jpg)
+
+风格迁移主要概念
+
+## 有用的库和方法
+
+*   使用`scipy.io.loadmat`加载参数文件
+    *   我们将使用的第一个有用的库是`scipy.io`模块，用于加载系数数据，该数据另存为 matlab 的 MAT 格式。
+*   上一个参数的用法：
+
+```py
+scipy.io.loadmat(file_name, mdict=None, appendmat=True, **kwargs) 
+
+```
+
+*   返回前一个参数：
+
+    `mat_dict : dict :dictionary`，变量名作为键，加载的矩阵作为值。 如果填充了`mdict`参数，则将结果分配给它。
+
+## 数据集说明和加载
+
+为了解决这个问题，我们将使用预训练的数据集，即 VGG 神经网络的再训练系数和 Imagenet 数据集。
+
+![Dataset description and loading](img/00134.jpg)
+
+## 数据集预处理
+
+假设系数是在加载的参数矩阵中给出的，那么关于初始数据集的工作就不多了。
+
+## 模型架构
+
+模型架构主要分为两部分：风格和内容。
+
+为了生成最终图像，使用了没有最终完全连接层的 VGG 网络。
+
+## 损失函数
+
+该架构定义了两个不同的损失函数来优化最终图像的两个不同方面，一个用于内容，另一个用于风格。
+
+### 内容损失函数
+
+`content_loss`函数的代码如下：
+
+```py
+ # content loss 
+        content_loss = content_weight * (2 * tf.nn.l2_loss( 
+                net[CONTENT_LAYER] - content_features[CONTENT_LAYER]) / 
+                content_features[CONTENT_LAYER].size) 
+
+```
+
+## 风格损失函数
+
+### 损失优化循环
+
+损耗优化循环的代码如下：
+
+```py
+        best_loss = float('inf') 
+        best = None 
+        with tf.Session() as sess: 
+            sess.run(tf.initialize_all_variables()) 
+            for i in range(iterations): 
+                last_step = (i == iterations - 1) 
+                print_progress(i, last=last_step) 
+                train_step.run() 
+
+                if (checkpoint_iterations and i % checkpoint_iterations == 0) or last_step: 
+                    this_loss = loss.eval() 
+                    if this_loss < best_loss: 
+                        best_loss = this_loss 
+                        best = image.eval() 
+                    yield ( 
+                        (None if last_step else i), 
+                        vgg.unprocess(best.reshape(shape[1:]), mean_pixel) 
+                    ) 
+
+```
+
+## 收敛性测试
+
+在此示例中，我们将仅检查指示的迭代次数（迭代参数）。
+
+## 程序执行
+
+为了以良好的迭代次数（大约 1000 个）执行该程序，我们建议至少有 8GB 的 RAM 内存可用：
+
+```py
+python neural_style.py --content examples/2-content.jpg --styles examples/2-style1.jpg  --checkpoint-iterations=100 --iterations=1000 --checkpoint-output=out%s.jpg --output=outfinal
+
+```
+
+前面命令的结果如下：
+
+![Program execution](img/00135.jpg)
+
+风格迁移步骤
+
+控制台输出如下：
+
+```py
+Iteration 1/1000
+Iteration 2/1000
+Iteration 3/1000
+Iteration 4/1000
+...
+Iteration 999/1000
+Iteration 1000/1000
+  content loss: 908786
+    style loss: 261789
+       tv loss: 25639.9
+    total loss: 1.19621e+06
+
+```
+
+## 完整源代码
+
+`neural_style.py`的代码如下：
+
+```py
+import os 
+
+import numpy as np 
+import scipy.misc 
+
+from stylize import stylize 
+
+import math 
+from argparse import ArgumentParser 
+
+# default arguments 
+CONTENT_WEIGHT = 5e0 
+STYLE_WEIGHT = 1e2 
+TV_WEIGHT = 1e2 
+LEARNING_RATE = 1e1 
+STYLE_SCALE = 1.0 
+ITERATIONS = 100 
+VGG_PATH = 'imagenet-vgg-verydeep-19.mat' 
+
+def build_parser(): 
+    parser = ArgumentParser() 
+    parser.add_argument('--content', 
+            dest='content', help='content image', 
+            metavar='CONTENT', required=True) 
+    parser.add_argument('--styles', 
+            dest='styles', 
+            nargs='+', help='one or more style images', 
+            metavar='STYLE', required=True) 
+    parser.add_argument('--output', 
+            dest='output', help='output path', 
+            metavar='OUTPUT', required=True) 
+    parser.add_argument('--checkpoint-output', 
+            dest='checkpoint_output', help='checkpoint output format', 
+            metavar='OUTPUT') 
+    parser.add_argument('--iterations', type=int, 
+            dest='iterations', help='iterations (default %(default)s)', 
+            metavar='ITERATIONS', default=ITERATIONS) 
+    parser.add_argument('--width', type=int, 
+            dest='width', help='output width', 
+            metavar='WIDTH') 
+    parser.add_argument('--style-scales', type=float, 
+            dest='style_scales', 
+            nargs='+', help='one or more style scales', 
+            metavar='STYLE_SCALE') 
+    parser.add_argument('--network', 
+            dest='network', help='path to network parameters (default %(default)s)', 
+            metavar='VGG_PATH', default=VGG_PATH) 
+    parser.add_argument('--content-weight', type=float, 
+            dest='content_weight', help='content weight (default %(default)s)', 
+            metavar='CONTENT_WEIGHT', default=CONTENT_WEIGHT) 
+    parser.add_argument('--style-weight', type=float, 
+            dest='style_weight', help='style weight (default %(default)s)', 
+            metavar='STYLE_WEIGHT', default=STYLE_WEIGHT) 
+    parser.add_argument('--style-blend-weights', type=float, 
+            dest='style_blend_weights', help='style blending weights', 
+            nargs='+', metavar='STYLE_BLEND_WEIGHT') 
+    parser.add_argument('--tv-weight', type=float, 
+            dest='tv_weight', help='total variation regularization weight (default %(default)s)', 
+            metavar='TV_WEIGHT', default=TV_WEIGHT) 
+    parser.add_argument('--learning-rate', type=float, 
+            dest='learning_rate', help='learning rate (default %(default)s)', 
+            metavar='LEARNING_RATE', default=LEARNING_RATE) 
+    parser.add_argument('--initial', 
+            dest='initial', help='initial image', 
+            metavar='INITIAL') 
+    parser.add_argument('--print-iterations', type=int, 
+            dest='print_iterations', help='statistics printing frequency', 
+            metavar='PRINT_ITERATIONS') 
+    parser.add_argument('--checkpoint-iterations', type=int, 
+            dest='checkpoint_iterations', help='checkpoint frequency', 
+            metavar='CHECKPOINT_ITERATIONS') 
+    return parser 
+
+def main(): 
+    parser = build_parser() 
+    options = parser.parse_args() 
+
+    if not os.path.isfile(options.network): 
+        parser.error("Network %s does not exist. (Did you forget to download it?)" % options.network) 
+
+    content_image = imread(options.content) 
+    style_images = [imread(style) for style in options.styles] 
+
+    width = options.width 
+    if width is not None: 
+        new_shape = (int(math.floor(float(content_image.shape[0]) / 
+                content_image.shape[1] * width)), width) 
+        content_image = scipy.misc.imresize(content_image, new_shape) 
+    target_shape = content_image.shape 
+    for i in range(len(style_images)): 
+        style_scale = STYLE_SCALE 
+        if options.style_scales is not None: 
+            style_scale = options.style_scales[i] 
+        style_images[i] = scipy.misc.imresize(style_images[i], style_scale * 
+                target_shape[1] / style_images[i].shape[1]) 
+
+    style_blend_weights = options.style_blend_weights 
+    if style_blend_weights is None: 
+        # default is equal weights 
+        style_blend_weights = [1.0/len(style_images) for _ in style_images] 
+    else: 
+        total_blend_weight = sum(style_blend_weights) 
+        style_blend_weights = [weight/total_blend_weight 
+                               for weight in style_blend_weights] 
+
+    initial = options.initial 
+    if initial is not None: 
+        initial = scipy.misc.imresize(imread(initial), content_image.shape[:2]) 
+
+    if options.checkpoint_output and "%s" not in options.checkpoint_output: 
+        parser.error("To save intermediate images, the checkpoint output " 
+                     "parameter must contain `%s` (e.g. `foo%s.jpg`)") 
+
+    for iteration, image in stylize( 
+        network=options.network, 
+        initial=initial, 
+        content=content_image, 
+        styles=style_images, 
+        iterations=options.iterations, 
+        content_weight=options.content_weight, 
+        style_weight=options.style_weight, 
+        style_blend_weights=style_blend_weights, 
+        tv_weight=options.tv_weight, 
+        learning_rate=options.learning_rate, 
+        print_iterations=options.print_iterations, 
+        checkpoint_iterations=options.checkpoint_iterations 
+    ): 
+        output_file = None 
+        if iteration is not None: 
+            if options.checkpoint_output: 
+                output_file = options.checkpoint_output % iteration 
+        else: 
+            output_file = options.output 
+        if output_file: 
+            imsave(output_file, image) 
+
+def imread(path): 
+    return scipy.misc.imread(path).astype(np.float) 
+
+def imsave(path, img): 
+    img = np.clip(img, 0, 255).astype(np.uint8) 
+    scipy.misc.imsave(path, img) 
+
+if __name__ == '__main__': 
+    main() 
+
+```
+
+`Stilize.py`的代码如下：
+
+```py
+import vgg 
+
+import tensorflow as tf 
+import numpy as np 
+
+from sys import stderr 
+
+CONTENT_LAYER = 'relu4_2' 
+STYLE_LAYERS = ('relu1_1', 'relu2_1', 'relu3_1', 'relu4_1', 'relu5_1') 
+
+try: 
+    reduce 
+except NameError: 
+    from functools import reduce 
+
+def stylize(network, initial, content, styles, iterations, 
+        content_weight, style_weight, style_blend_weights, tv_weight, 
+        learning_rate, print_iterations=None, checkpoint_iterations=None): 
+    """ 
+    Stylize images. 
+
+    This function yields tuples (iteration, image); `iteration` is None 
+    if this is the final image (the last iteration).  Other tuples are yielded 
+    every `checkpoint_iterations` iterations. 
+
+    :rtype: iterator[tuple[int|None,image]] 
+    """ 
+    shape = (1,) + content.shape 
+    style_shapes = [(1,) + style.shape for style in styles] 
+    content_features = {} 
+    style_features = [{} for _ in styles] 
+
+    # compute content features in feedforward mode 
+    g = tf.Graph() 
+    with g.as_default(), g.device('/cpu:0'), tf.Session() as sess: 
+        image = tf.placeholder('float', shape=shape) 
+        net, mean_pixel = vgg.net(network, image) 
+        content_pre = np.array([vgg.preprocess(content, mean_pixel)]) 
+        content_features[CONTENT_LAYER] = net[CONTENT_LAYER].eval( 
+                feed_dict={image: content_pre}) 
+
+    # compute style features in feedforward mode 
+    for i in range(len(styles)): 
+        g = tf.Graph() 
+        with g.as_default(), g.device('/cpu:0'), tf.Session() as sess: 
+            image = tf.placeholder('float', shape=style_shapes[i]) 
+            net, _ = vgg.net(network, image) 
+            style_pre = np.array([vgg.preprocess(styles[i], mean_pixel)]) 
+            for layer in STYLE_LAYERS: 
+                features = net[layer].eval(feed_dict={image: style_pre}) 
+                features = np.reshape(features, (-1, features.shape[3])) 
+                gram = np.matmul(features.T, features) / features.size 
+                style_features[i][layer] = gram 
+
+    # make stylized image using backpropogation 
+    with tf.Graph().as_default(): 
+        if initial is None: 
+            noise = np.random.normal(size=shape, scale=np.std(content) * 0.1) 
+            initial = tf.random_normal(shape) * 0.256 
+        else: 
+            initial = np.array([vgg.preprocess(initial, mean_pixel)]) 
+            initial = initial.astype('float32') 
+        image = tf.Variable(initial) 
+        net, _ = vgg.net(network, image) 
+
+        # content loss 
+        content_loss = content_weight * (2 * tf.nn.l2_loss( 
+                net[CONTENT_LAYER] - content_features[CONTENT_LAYER]) / 
+                content_features[CONTENT_LAYER].size) 
+        # style loss 
+        style_loss = 0 
+        for i in range(len(styles)): 
+            style_losses = [] 
+            for style_layer in STYLE_LAYERS: 
+                layer = net[style_layer] 
+                _, height, width, number = map(lambda i: i.value, layer.get_shape()) 
+                size = height * width * number 
+                feats = tf.reshape(layer, (-1, number)) 
+                gram = tf.matmul(tf.transpose(feats), feats) / size 
+                style_gram = style_features[i][style_layer] 
+                style_losses.append(2 * tf.nn.l2_loss(gram - style_gram) / style_gram.size) 
+            style_loss += style_weight * style_blend_weights[i] * reduce(tf.add, style_losses) 
+        # total variation denoising 
+        tv_y_size = _tensor_size(image[:,1:,:,:]) 
+        tv_x_size = _tensor_size(image[:,:,1:,:]) 
+        tv_loss = tv_weight * 2 * ( 
+                (tf.nn.l2_loss(image[:,1:,:,:] - image[:,:shape[1]-1,:,:]) / 
+                    tv_y_size) + 
+                (tf.nn.l2_loss(image[:,:,1:,:] - image[:,:,:shape[2]-1,:]) / 
+                    tv_x_size)) 
+        # overall loss 
+        loss = content_loss + style_loss + tv_loss 
+
+        # optimizer setup 
+        train_step = tf.train.AdamOptimizer(learning_rate).minimize(loss) 
+
+        def print_progress(i, last=False): 
+            stderr.write('Iteration %d/%d\n' % (i + 1, iterations)) 
+            if last or (print_iterations and i % print_iterations == 0): 
+                stderr.write('  content loss: %g\n' % content_loss.eval()) 
+                stderr.write('    style loss: %g\n' % style_loss.eval()) 
+                stderr.write('       tv loss: %g\n' % tv_loss.eval()) 
+                stderr.write('    total loss: %g\n' % loss.eval()) 
+
+        # optimization 
+        best_loss = float('inf') 
+        best = None 
+        with tf.Session() as sess: 
+            sess.run(tf.initialize_all_variables()) 
+            for i in range(iterations): 
+                last_step = (i == iterations - 1) 
+                print_progress(i, last=last_step) 
+                train_step.run() 
+
+                if (checkpoint_iterations and i % checkpoint_iterations == 0) or last_step: 
+                    this_loss = loss.eval() 
+                    if this_loss < best_loss: 
+                        best_loss = this_loss 
+                        best = image.eval() 
+                    yield ( 
+                        (None if last_step else i), 
+                        vgg.unprocess(best.reshape(shape[1:]), mean_pixel) 
+                    ) 
+
+def _tensor_size(tensor): 
+    from operator import mul 
+    return reduce(mul, (d.value for d in tensor.get_shape()), 1) 
+ vgg.py 
+import tensorflow as tf 
+import numpy as np 
+import scipy.io 
+
+def net(data_path, input_image): 
+    layers = ( 
+        'conv1_1', 'relu1_1', 'conv1_2', 'relu1_2', 'pool1', 
+
+        'conv2_1', 'relu2_1', 'conv2_2', 'relu2_2', 'pool2', 
+
+        'conv3_1', 'relu3_1', 'conv3_2', 'relu3_2', 'conv3_3', 
+        'relu3_3', 'conv3_4', 'relu3_4', 'pool3', 
+
+        'conv4_1', 'relu4_1', 'conv4_2', 'relu4_2', 'conv4_3', 
+        'relu4_3', 'conv4_4', 'relu4_4', 'pool4', 
+
+        'conv5_1', 'relu5_1', 'conv5_2', 'relu5_2', 'conv5_3', 
+        'relu5_3', 'conv5_4', 'relu5_4' 
+    ) 
+
+    data = scipy.io.loadmat(data_path) 
+    mean = data['normalization'][0][0][0] 
+    mean_pixel = np.mean(mean, axis=(0, 1)) 
+    weights = data['layers'][0] 
+
+    net = {} 
+    current = input_image 
+    for i, name in enumerate(layers): 
+        kind = name[:4] 
+        if kind == 'conv': 
+            kernels, bias = weights[i][0][0][0][0] 
+            # matconvnet: weights are [width, height, in_channels, out_channels] 
+            # tensorflow: weights are [height, width, in_channels, out_channels] 
+            kernels = np.transpose(kernels, (1, 0, 2, 3)) 
+            bias = bias.reshape(-1) 
+            current = _conv_layer(current, kernels, bias) 
+        elif kind == 'relu': 
+            current = tf.nn.relu(current) 
+        elif kind == 'pool': 
+            current = _pool_layer(current) 
+        net[name] = current 
+
+    assert len(net) == len(layers) 
+    return net, mean_pixel 
+
+def _conv_layer(input, weights, bias): 
+    conv = tf.nn.conv2d(input, tf.constant(weights), strides=(1, 1, 1, 1), 
+            padding='SAME') 
+    return tf.nn.bias_add(conv, bias) 
+
+def _pool_layer(input): 
+    return tf.nn.max_pool(input, ksize=(1, 2, 2, 1), strides=(1, 2, 2, 1), 
+            padding='SAME') 
+
+def preprocess(image, mean_pixel): 
+    return image - mean_pixel 
+
+def unprocess(image, mean_pixel): 
+    return image + mean_pixel 
+
+```
+
+# 总结
+
+在本章中，我们一直在学习不同的深度神经网络架构。
+
+我们了解了如何构建近年来最著名的架构之一 VGG，以及如何使用它来生成可转换艺术风格的图像。
+
+在下一章中，我们将使用机器学习中最有用的技术之一：图形处理单元。 我们将回顾安装具有 GPU 支持的 TensorFlow 所需的步骤并对其进行训练，并将执行时间与唯一运行的模型 CPU 进行比较。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch09.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch09.md
new file mode 100644
index 00000000..396838b0
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch09.md
@@ -0,0 +1,513 @@
+# 九、大规模运行模型 -- GPU 和服务
+
+到目前为止，我们一直在运行在主机的主 CPU 上运行的代码。 这意味着最多使用所有不同的处理器内核（低端处理器使用 2 或 4 个内核，高级处理器使用多达 16 个内核）。
+
+在过去的十年中，通用处理单元（GPU）已成为所有高表现计算设置中无处不在的部分。 它的大量固有并行度非常适合于高维矩阵乘法以及机器学习模型训练和运行所需的其他运算。
+
+尽管如此，即使拥有真正强大的计算节点，也存在许多任务，即使是最强大的单个服务器也无法应对。
+
+因此，必须开发一种训练和运行模型的分布式方法。 这是分布式 TensorFlow 的原始功能。
+
+在本章中，您将：
+
+*   了解如何发现 TensorFlow 可用的计算资源
+*   了解如何将任务分配给计算节点中的任何不同计算单元
+*   了解如何记录 GPU 操作
+*   了解如何不仅在主主机中而且在许多分布式单元的集群中分布计算
+
+# TensorFlow 上的 GPU 支持
+
+TensorFlow 对至少两种计算设备具有本机支持：CPU 和 GPU。 为此，它为支持的每种计算设备实现每个操作的一个版本：
+
+![GPU support on TensorFlow](img/00136.jpg)
+
+## 记录设备的放置和设备能力
+
+在尝试执行计算之前，TensorFlow 允许您记录所有可用资源。 这样，我们只能将操作应用于现有的计算类型。
+
+### 查询计算能力
+
+为了获取机器上计算元素的日志，我们可以在创建 TensorFlow 会话时使用`log_device_placement`标志，方法是：
+
+```py
+python
+>>>Import tensorflow as tf
+>>>sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
+
+```
+
+这是命令的输出：
+
+![Querying the computing capabilities](img/00137.jpg)
+
+选择 GPU 来运行代码
+
+此长输出主要显示了所需的不同`CUDA`库的加载，然后显示了名称（`GRID K520`）和 GPU 的计算能力。
+
+## 选择用于计算的 CPU
+
+如果我们有可用的 GPU，但仍想继续使用 CPU，则可以通过`tf.Graph.device`方法选择一个。
+
+方法调用如下：
+
+```py
+tf.Graph.device(device_name_or_function) : 
+
+```
+
+该函数接收处理单元字符串，返回处理单元字符串的函数或不返回处理单元字符串，并返回分配了处理单元的上下文管理器。
+
+如果参数是一个函数，则每个操作都将调用此函数来决定它将在哪个处理单元中执行，这是组合所有操作的有用元素。
+
+### 设备命名
+
+为了指定在指定设备时我们指的是哪个计算单元，TensorFlow 使用以下格式的简单方案：
+
+![Device naming](img/00138.jpg)
+
+设备 ID 格式
+
+设备标识示例包括：
+
+*   `"/cpu:0"`：计算机的第一个 CPU
+*   `"/gpu:0"`：您计算机的 GPU（如果有）
+*   `"/gpu:1"`：计算机的第二个 GPU，依此类推
+
+可用时，如果没有相反指示，则使用第一个 GPU 设备。
+
+# 示例 1 -- 将操作分配给 GPU
+
+在此示例中，我们将创建两个张量，将现有 GPU 定位为默认位置，并将在配置了 CUDA 环境的服务器上执行张量总和（您将在附录 A-库安装和其他中学习安装该张量） 提示）。
+
+![Example 1 - assigning an operation to the GPU](img/00139.jpg)
+
+在这里，我们看到常量和求和操作都是在`/gpu:0`服务器上构建的。 这是因为 GPU 是可用时首选的计算设备类型。
+
+# 示例 2 -- 并行计算 Pi
+
+该示例将作为并行处理的介绍，实现 Pi 的蒙特卡洛近似。
+
+蒙特卡洛（Monte Carlo）利用随机数序列执行近似。
+
+为了解决这个问题，我们将抛出许多随机样本，因为我们知道圆内的样本与正方形上的样本之比与面积比相同。
+
+![Example 2 - calculating Pi number in parallel](img/00140.jpg)
+
+随机区域计算技术
+
+计算假设概率分布均匀，则分配的样本数与图形的面积成比例。
+
+我们使用以下比例：
+
+![Example 2 - calculating Pi number in parallel](img/00141.jpg)
+
+Pi 的面积比例
+
+从上述比例，我们可以推断出圆中的样本数/正方形的样本数也是`0.78`。
+
+另一个事实是，我们可以为计算生成的随机样本越多，答案就越近似。 这是在增加 GPU 数量时会给我们带来更多样本和准确率。
+
+我们做的进一步减少是我们生成`(X, Y)`坐标，范围是`(0..1)`，因此随机数生成更直接。 因此，我们需要确定样本是否属于圆的唯一标准是`distance = d < 1.0`（圆的半径）。
+
+## 解决方案实现
+
+该解决方案将基于 CPU。 它将管理服务器中拥有的 GPU 资源（在本例中为`4`），然后我们将接收结果，并进行最终的样本求和。
+
+### 提示
+
+注意：此方法的收敛速度非常慢，为`O(n^1/2)`，但由于其简单性，将作为示例。
+
+![Solution implementation](img/00142.jpg)
+
+计算任务时间表
+
+在上图中，我们看到了计算的并行行为，即样本生成和主要活动计数。
+
+## 源代码
+
+源代码如下：
+
+```py
+import tensorflow as tf 
+import numpy as np 
+c = [] 
+#Distribute the work between the GPUs 
+for d in ['/gpu:0', '/gpu:1', '/gpu:2', '/gpu:3']: 
+    #Generate the random 2D samples 
+    i=tf.constant(np.random.uniform(size=10000), shape=[5000,2]) 
+    with tf.Session() as sess: 
+        tf.initialize_all_variables() 
+        #Calculate the euclidean distance to the origin 
+        distances=tf.reduce_sum(tf.pow(i,2),1) 
+        #Sum the samples inside the circle 
+        tempsum = sess.run(tf.reduce_sum(tf.cast(tf.greater_equal(tf.cast(1.0,tf.float64),distances),tf.float64))) 
+        #append the current result to the results array 
+        c.append( tempsum) 
+    #Do the final ratio calculation on the CPU 
+    with tf.device('/cpu:0'): 
+        with tf.Session() as sess: 
+            sum = tf.add_n(c) 
+            print (sess.run(sum/20000.0)*4.0) 
+
+```
+
+# 分布式 TensorFlow
+
+分布式 TensorFlow 是一项补充技术，旨在轻松高效地创建计算节点集群，并以无缝方式在节点之间分配作业。
+
+这是创建分布式计算环境以及大规模执行模型的训练和运行的标准方法，因此能够完成生产，大量数据设置中的主要任务非常重要。
+
+## 技术组件
+
+在本节中，我们将描述分布式 TensorFlow 计算设置上的所有组件，从最细粒度的任务元素到整个集群描述。
+
+### 作业
+
+作业定义了一组同类任务，通常针对解决问题领域的同一子集。
+
+区分作业的示例有：
+
+*   参数服务器作业，它将模型参数存储在一个单独的作业中，并负责将初始和当前参数值分配给所有分布式节点
+*   工作器作业，在其中执行所有计算密集型任务
+
+### 任务
+
+任务是工作的细分，执行不同的步骤或并行的工作单元以解决其工作的问题区域，并且通常附加到单个过程中。
+
+每个作业都有许多任务，它们由索引标识。 通常，索引为 0 的任务被视为主要任务或协调者任务。
+
+### 服务器
+
+服务器是代表专用于实现任务的一组物理设备的逻辑对象。 服务器将专门分配给一个任务。
+
+#### 组件概览
+
+在下图中，我们将代表集群计算设置中的所有参与部分：
+
+![Combined overview](img/00143.jpg)
+
+TensorFlow 集群设置元素
+
+该图包含由`ps`和`worker`作业代表的两个作业，以及可以从客户端为其创建的 grpc 通讯通道（在附录 A 库安装和附加提示中介绍）。 对于每种作业类型，都有服务器执行不同的任务，从而解决了作业域问题的子集。
+
+### 创建一个 TensorFlow 集群
+
+分布式集群程序的第一个任务是定义和创建一个`ClusterSpec`对象，该对象包含真实服务器实例的地址和端口，它们将成为集群的一部分。
+
+定义此`ClusterSpec`的两种主要方法是：
+
+*   创建一个`tf.train.ClusterSpec`对象，该对象指定所有群集任务
+*   在创建`tf.train.Server`时，传递上述`ClusterSpec`对象，并将本地任务与作业名称和任务索引相关联
+
+#### `ClusterSpec`定义格式
+
+`ClusterSpec`对象是使用协议缓冲区格式定义的，该格式是基于 JSON 的特殊格式。
+
+格式如下：
+
+```py
+{ 
+    "job1 name": [ 
+        "task0 server uri", 
+        "task1 server uri" 
+         ... 
+    ] 
+... 
+    "jobn name"[ 
+        "task0 server uri", 
+        "task1 server uri" 
+    ]}) 
+... 
+
+```
+
+因此，这将是使用参数服务器任务服务器和三个工作者任务服务器创建集群的函数调用：
+
+```py
+tf.train.ClusterSpec({ 
+    "worker": [ 
+        "wk0.example.com:2222", 
+        "wk1.example.com:2222", 
+        "wk2.example.com:2222" 
+    ], 
+    "ps": [ 
+        "ps0.example.com:2222", 
+    ]}) 
+
+```
+
+#### 创建`tf.Train.Server`
+
+创建`ClusterSpec`之后，我们现在可以在运行时准确了解集群配置。 我们将继续创建本地服务器实例，并创建一个`tf.train.Server`实例：
+
+这是一个示例服务器创建，它使用集群对象，作业名称和任务索引作为参数：
+
+```py
+server = tf.train.Server(cluster, job_name="local", task_index=[Number of server]) 
+
+```
+
+## 集群操作 -- 将计算方法发送到任务
+
+为了开始学习集群的操作，我们需要学习计算资源的寻址。
+
+首先，我们假设我们已经创建了一个集群，它具有不同的作业和任务资源。 任何资源的 ID 字符串具有以下形式：
+
+![Cluster operation - sending computing methods to tasks](img/00144.jpg)
+
+上下文管理器中资源的常规调用是`with`关键字，具有以下结构。
+
+```py
+with tf.device("/job:ps/task:1"): 
+  [Code Block] 
+
+```
+
+`with`关键字指示在需要任务标识符时，将使用上下文管理器指令中指定的任务标识符。
+
+下图说明了一个示例集群设置，其中包含设置的所有不同部分的地址名称：
+
+![Cluster operation - sending computing methods to tasks](img/00145.jpg)
+
+服务器元素命名
+
+### 分布式示例代码结构
+
+此示例代码将向您显示解决集群中不同任务的程序的大致结构，特别是参数服务器和辅助作业：
+
+```py
+#Address the Parameter Server task 
+with tf.device("/job:ps/task:1"): 
+  weights = tf.Variable(...) 
+  bias = tf.Variable(...) 
+
+#Address the Parameter Server task 
+with tf.device("/job:worker/task:1"): 
+    #... Generate and train a model 
+  layer_1 = tf.nn.relu(tf.matmul(input, weights_1) + biases_1) 
+  logits = tf.nn.relu(tf.matmul(layer_1, weights_2) + biases_2) 
+  train_op = ... 
+
+#Command the main task of the cluster 
+with tf.Session("grpc://worker1.cluster:2222") as sess: 
+  for i in range(100): 
+    sess.run(train_op) 
+
+```
+
+# 示例 3 -- 分布式 Pi 计算
+
+在此示例中，我们将更改视角，从一台具有多个计算资源的服务器变为一台具有多个资源的服务器集群。
+
+分布式版本的执行将具有不同的设置，如下图所示：
+
+![Example 3 - distributed Pi calculation](img/00146.jpg)
+
+分布式协调运行
+
+## 服务器脚本
+
+该脚本将在每个计算节点上执行，这将生成一批样本，并通过可用服务器的数量增加生成的随机数的数量。 在这种情况下，我们将使用两台服务器，并假设我们在本地主机中启动它们，并在命令行中指示索引号。 如果要在单独的节点中运行它们，则只需替换`ClusterSpec`定义中的本地主机地址（如果希望它更具代表性，则可以替换名称）。
+
+该脚本的源代码如下：
+
+```py
+import tensorflow as tf 
+tf.app.flags.DEFINE_string("index", "0","Server index") 
+FLAGS = tf.app.flags.FLAGS 
+print FLAGS.index 
+cluster = tf.train.ClusterSpec({"local": ["localhost:2222", "localhost:2223"]}) 
+server = tf.train.Server(cluster, job_name="local", task_index=int(FLAGS.index)) 
+server.join() 
+
+```
+
+在`localhost`中执行此脚本的命令行如下：
+
+```py
+python start_server.py -index=0 #Server  task 0
+python start_server.py -index=1 #Server task 1
+
+```
+
+这是其中一台服务器的预期输出：
+
+![Server script](img/00147.jpg)
+
+单个服务器启动命令行
+
+## 客户端脚本
+
+然后，我们获得了客户端脚本，该脚本将向集群成员发送随机数创建任务，并将执行最终的 Pi 计算，几乎与 GPU 示例相同。
+
+## 完整源代码
+
+源代码如下：
+
+```py
+import tensorflow as tf 
+import numpy as np 
+
+tf.app.flags.DEFINE_integer("numsamples", "100","Number of samples per server") 
+FLAGS = tf.app.flags.FLAGS 
+
+print ("Sample number per server: " + str(FLAGS.numsamples)  ) 
+cluster = tf.train.ClusterSpec({"local": ["localhost:2222", "localhost:2223"]}) 
+#This is the list containing the sumation of samples on any node 
+c=[] 
+
+def generate_sum(): 
+        i=tf.constant(np.random.uniform(size=FLAGS.numsamples*2), shape=[FLAGS.numsamples,2]) 
+        distances=tf.reduce_sum(tf.pow(i,2),1) 
+        return (tf.reduce_sum(tf.cast(tf.greater_equal(tf.cast(1.0,tf.float64),distances),tf.int32))) 
+
+with tf.device("/job:local/task:0"): 
+        test1= generate_sum() 
+
+with tf.device("/job:local/task:1"): 
+        test2= generate_sum() 
+#If your cluster is local, you must replace localhost by the address of the first node 
+with tf.Session("grpc://localhost:2222") as sess: 
+      result = sess.run(tf.cast(test1 + test2,tf.float64)/FLAGS.numsamples*2.0) 
+      print(result) 
+
+```
+
+# 示例 4 -- 在集群中运行分布式模型
+
+这个非常简单的示例将为我们提供分布式 TensorFlow 设置工作原理的示例。
+
+在此示例中，我们将执行一个非常简单的任务，尽管如此，它仍将在机器学习过程中采取所有必需的步骤。
+
+![Example 4 - running a distributed model in a cluster](img/00148.jpg)
+
+分布式训练集群设置
+
+`Ps Server`将包含要求解的线性函数的不同参数（在本例中为`x`和`b0`），两个工作服务器将对变量进行训练，该变量将不断更新和改进。 最后一个，在协作模式下工作。
+
+## 示例代码
+
+示例代码如下：
+
+```py
+import tensorflow as tf 
+import numpy as np 
+from sklearn.utils import shuffle 
+
+# Here we define our cluster setup via the command line 
+tf.app.flags.DEFINE_string("ps_hosts", "", 
+                           "Comma-separated list of hostname:port pairs") 
+tf.app.flags.DEFINE_string("worker_hosts", "", 
+                           "Comma-separated list of hostname:port pairs") 
+
+# Define the characteristics of the cluster node, and its task index 
+tf.app.flags.DEFINE_string("job_name", "", "One of 'ps', 'worker'") 
+tf.app.flags.DEFINE_integer("task_index", 0, "Index of task within the job") 
+
+FLAGS = tf.app.flags.FLAGS 
+
+def main(_): 
+  ps_hosts = FLAGS.ps_hosts.split(",") 
+  worker_hosts = FLAGS.worker_hosts.split(",") 
+
+  # Create a cluster following the command line paramaters. 
+  cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts}) 
+
+  # Create the local task. 
+  server = tf.train.Server(cluster, 
+                           job_name=FLAGS.job_name, 
+                           task_index=FLAGS.task_index) 
+
+  if FLAGS.job_name == "ps": 
+    server.join() 
+  elif FLAGS.job_name == "worker": 
+
+    # Assigns ops to the local worker by default. 
+    with tf.device(tf.train.replica_device_setter( 
+        worker_device="/job:worker/task:%d" % FLAGS.task_index, 
+        cluster=cluster)): 
+
+      #Define the training set, and the model parameters, loss function and training operation 
+      trX = np.linspace(-1, 1, 101) 
+      trY = 2 * trX + np.random.randn(*trX.shape) * 0.4 + 0.2 # create a y value 
+      X = tf.placeholder("float", name="X") # create symbolic variables 
+      Y = tf.placeholder("float", name = "Y") 
+
+      def model(X, w, b): 
+        return tf.mul(X, w) + b # We just define the line as X*w + b0  
+
+      w = tf.Variable(-1.0, name="b0") # create a shared variable 
+      b = tf.Variable(-2.0, name="b1") # create a shared variable 
+      y_model = model(X, w, b) 
+
+      loss = (tf.pow(Y-y_model, 2)) # use sqr error for cost function 
+      global_step = tf.Variable(0) 
+
+      train_op = tf.train.AdagradOptimizer(0.8).minimize( 
+          loss, global_step=global_step) 
+
+    #Create a saver, and a summary and init operation 
+      saver = tf.train.Saver() 
+      summary_op = tf.merge_all_summaries() 
+      init_op = tf.initialize_all_variables() 
+
+    # Create a "supervisor", which oversees the training process. 
+    sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), 
+                             logdir="/tmp/train_logs", 
+                             init_op=init_op, 
+                             summary_op=summary_op, 
+                             saver=saver, 
+                             global_step=global_step, 
+                             save_model_secs=600) 
+
+    # The supervisor takes care of session initialization, restoring from 
+    # a checkpoint, and closing when done or an error occurs. 
+    with sv.managed_session(server.target) as sess: 
+      # Loop until the supervisor shuts down 
+      step = 0 
+      while not sv.should_stop() : 
+        # Run a training step asynchronously. 
+        # See `tf.train.SyncReplicasOptimizer` for additional details on how to 
+        # perform *synchronous* training. 
+        for i in range(100): 
+          trX, trY = shuffle (trX, trY, random_state=0) 
+          for (x, y) in zip(trX, trY): 
+              _, step = sess.run([train_op, global_step],feed_dict={X: x, Y: y}) 
+          #Print the partial results, and the current node doing the calculation 
+          print ("Partial result from node: " + str(FLAGS.task_index) + ", w: " + str(w.eval(session=sess))+ ", b0: " + str(b.eval(session=sess))) 
+    # Ask for all the services to stop. 
+    sv.stop() 
+
+if __name__ == "__main__": 
+  tf.app.run() 
+
+```
+
+在参数服务器当前主机中：
+
+```py
+python trainer.py  --ps_hosts=localhost:2222   --worker_hosts=localhost:2223,localhost:2224   --job_name=ps -task_index=0
+he first
+
+```
+
+在工作器主机编号中：
+
+```py
+python trainer.py  --ps_hosts=localhost:2222   --worker_hosts=localhost:2223,localhost:2224   --job_name=worker -task_index=0
+
+```
+
+在第二个工作者主机中：
+
+```py
+python trainer.py  --ps_hosts=localhost:2222   --worker_hosts=localhost:2223,localhost:2224   --job_name=worker --task_index=1
+
+```
+
+# 总结
+
+在本章中，我们回顾了 TensorFlow 工具箱中的两个主要元素，以在高表现环境中实现我们的模型，无论是在单服务器还是分布式集群环境中。
+
+在下一章中，我们将查看有关如何在各种环境和工具下安装 TensorFlow 的详细说明。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch10.md b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch10.md
new file mode 100644
index 00000000..37c48c1a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/ch10.md
@@ -0,0 +1,640 @@
+# 十、库安装和其他提示
+
+有多种安装 TensorFlow 的选项。 Google 已经为许多架构，操作系统和图形处理单元（GPU）准备了包。 尽管在 GPU 上机器学习任务的执行速度要快得多，但是两个安装选项都可用：
+
+*   CPU：它将在机器处理核心的所有处理单元中并行工作。
+*   GPU：此选项仅在使用多种架构之一的情况下才能使用，这些架构利用了非常强大的图形处理单元，即 NVIDIA 的 CUDA 架构。 还有许多其他架构/框架，例如 Vulkan，还没有达到成为标准的临界数量。
+
+在本章中，您将学习：
+
+*   如何在三种不同的操作系统（Linux，Windows 和 OSX）上安装 TensorFlow
+*   如何测试安装以确保您能够运行示例，并从中开发自己的脚本
+*   关于我们正在准备的其他资源，以简化您对机器学习解决方案进行编程的方式
+
+# Linux 安装
+
+首先，我们应该放弃免责声明。 您可能知道，Linux 领域中有很多替代品，它们具有自己的特定包管理。 因此，我们选择使用 Ubuntu 16.04 发行版。 毫无疑问，它是最广泛的 Linux 发行版，此外，Ubuntu 16.04 是 LTS 版本或长期支持。 这意味着该发行版将对桌面版本提供三年的支持，对服务器版本提供五年的支持。 这意味着我们将在本书中运行的基本软件在 2021 年之前将获得支持！
+
+### 注意
+
+您可以在[此链接](https://wiki.ubuntu.com/LTS)上找到有关 LTS 含义的更多信息。
+
+即使被认为是面向新手的发行版，Ubuntu 也为 TensorFlow 所需的所有技术提供了所有必要的支持，并且拥有最大的用户群。 因此，我们将解释该发行版所需的步骤，该步骤也将与其余基于 Debian 的发行版的发行版非常接近。
+
+### 提示
+
+在撰写本文时，TensorFlow 不支持 32 位 Linux，因此请确保以 64 位版本运行示例。
+
+## 初始要求
+
+对于 TensorFlow 的安装，您可以使用以下任一选项：
+
+*   在云上运行的基于 AMD64 的映像
+*   具有 AMD64 指令能力的计算机（通常称为 64 位处理器）
+
+### 提示
+
+在 AWS 上，非常适合的 AMI 映像是代码`ami-cf68e0d8`。 它可以在 CPU 上运行良好，如果需要，也可以在 GPU 图像上运行。
+
+## Ubuntu 准备（需要在任何方法之前应用）
+
+在开发最近发布的 Ubuntu 16.04 时，我们将确保已更新到最新的包版本，并且安装了最小的 Python 环境。
+
+让我们在命令行上执行以下指令：
+
+```py
+$ sudo apt-get update
+$ sudo apt-get upgrade -y 
+$ sudo apt-get install -y build-essential python-pip python-dev python-numpy swig python-dev default-jdk zip zlib1g-dev
+
+```
+
+## PIP 安装方法
+
+在本节中，我们将使用 PIP（PIP 安装包）包管理器来获取 TensorFlow 及其所有依赖项。
+
+这是一种非常简单的方法，您只需要进行一些调整就可以正常运行 TensorFlow 安装。
+
+### CPU 版本
+
+为了安装 TensorFlow 及其所有依赖项，我们只需要一个简单的命令行（只要我们已经实现了准备任务即可）。
+
+因此，这是标准 Python 2.7 所需的命令行：
+
+```py
+$ sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.9.0-cp27-none-linux_x86_64.whl
+
+```
+
+然后，您将找到正在下载的不同从属包，如果未检测到问题，则会显示相应的消息：
+
+![CPU version](img/00149.jpg)
+
+点安装输出
+
+### 测试您​​的安装
+
+在安装步骤之后，我们可以做一个非常简单的测试，调用 Python 解释器，然后导入 TensorFlow 库，将两个数字定义为一个常量，并获得其总和：
+
+```py
+$ python
+>>> import tensorflow as tf
+>>> a = tf.constant(2)
+>>> b = tf.constant(20)
+>>> print(sess.run(a + b))
+
+```
+
+### GPU 支持
+
+为了安装支持 GPU 的 TensorFlow 库，首先必须从源安装中执行 GPU 支持部分中的所有步骤。
+
+然后您将调用：
+
+```py
+$ sudo pip install -upgrade https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.10.0rc0-cp27-none-linux_x86_64.whl
+
+```
+
+### 提示
+
+预打包的 TensorFlow 有许多版本。
+
+它们遵循以下形式：
+
+```py
+https://storage.googleapis.com/tensorflow/linux/[processor type]/tensorflow-[version]-cp[python version]-none-linux_x86_64.whl
+
+```
+
+### 提示
+
+其中`[version]`可以是`cpu`或`gpu`，`[version]`是 TensorFlow 版本（实际上是 0.11），而 Python 版本可以是 2.7、3.4 或 3.5。
+
+## Virtualenv 安装方法
+
+在本节中，我们将使用 Virtualenv 工具说明 TensorFlow 的首选方法。
+
+来自 Virtualenv 页面（`virtualenv.pypa.io`）：
+
+> Virtualenv 是用于创建隔离的 Python 环境的工具。（...）它创建具有自己的安装目录的环境，该环境不与其他 Virtualenv 环境共享库（并且可以选择不访问全局安装的库） 。
+
+通过此工具，我们将为 TensorFlow 安装简单地安装隔离的环境，而不会干扰所有其他系统库，这又不会影响我们的安装。
+
+这些是我们将要执行的简单步骤（从 Linux 终端）：
+
+1.  设置`LC_ALL`变量：
+
+    ```py
+    $ export LC_ALL=C
+
+    ```
+
+2.  从安装程序安装`virtualenv` Ubuntu 包：
+
+    ```py
+    $ sudo apt-get install python-virtualenv
+
+    ```
+
+3.  安装`virtualenv`包：
+
+    ```py
+    virtualenv --system-site-packages ~/tensorflow
+
+    ```
+
+4.  然后，要使用新的 TensorFlow，您将始终需要记住激活 TensorFlow 环境：
+
+    ```py
+    source ~/tensorflow/bin/activate
+
+    ```
+
+5.  然后通过 PIP 安装`tensorflow`包：
+
+    ```py
+    pip install --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.9.0-cp27-none-linux_x86_64.whl
+
+    ```
+
+您将能够安装在 PIP linux 安装方法中转录的所有替代官方`tensorflow`包。
+
+### 环境测试
+
+在这里，我们将对 TensorFlow 做一个最小的测试。
+
+首先，我们将激活新创建的 TensorFlow 环境：
+
+```py
+$ source ~/tensorflow/bin/activate
+
+```
+
+然后，提示将以（`tensorflow`）前缀更改，我们可以执行简单的代码来加载 TensorFlow，并对两个值求和：
+
+```py
+(tensorflow) $ python
+>>> import tensorflow as tf
+>>> a = tf.constant(2)
+>>> b = tf.constant(3)
+>>> print(sess.run(a * b))
+6
+
+```
+
+完成工作后，如果要返回到正常环境，可以简单地停用该环境：
+
+```py
+(tensorflow)$ deactivate
+
+```
+
+## Docker 安装方法
+
+这种 TensorFlow 安装方法使用一种称为容器的最新操作技术。
+
+容器在某些方面与 Virtualenv 的工作相关，在 Docker 中，您将拥有一个新的虚拟环境。 主要区别在于此虚拟化工作的级别。 它在简化的包中包含应用和所有依赖项，并且这些封装的容器可以在公共层 Docker 引擎上同时运行，而 Docker 引擎又在主机操作系统上运行。
+
+![Docker installation method](img/00150.jpg)
+
+Docker 主要架构（[图片来源](https://www.docker.com/products/docker-engine)）
+
+### 安装 Docker
+
+首先，我们将通过`apt`包安装`docker`：
+
+```py
+sudo apt-get install docker.io
+
+```
+
+### 允许 Docker 以普通用户身份运行
+
+在此步骤中，我们创建一个 Docker 组以能够将 Docker 用作用户：
+
+```py
+sudo groupadd docker
+
+```
+
+### 提示
+
+您可能会得到错误； `group 'docker' already exists`。 您可以放心地忽略它。
+
+然后，将当前用户添加到 Docker 组：
+
+```py
+sudo usermod -aG docker [your user]
+
+```
+
+### 提示
+
+此命令不应返回任何输出。
+
+### 重新启动
+
+完成此步骤后，需要重新启动才能应用更改。
+
+### 测试 Docker 安装
+
+重新启动后，您可以尝试使用命令行调用 HelloWorld Docker 示例：
+
+```py
+$ docker run hello-world
+
+```
+
+![Testing the Docker installation](img/00151.jpg)
+
+Docker HelloWorld 容器
+
+### 运行 TensorFlow 容器
+
+然后，我们运行（如果之前未安装过，请安装）TensorFlow 二进制映像（在这种情况下为原始 CPU 二进制映像）：
+
+```py
+docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow
+
+```
+
+![Run the TensorFlow container](img/00152.jpg)
+
+通过 PIP 安装 TensorFlow
+
+安装完成后，您将看到最终的安装步骤，并且 Jupyter 笔记本开始：
+
+![Run the TensorFlow container](img/00153.jpg)
+
+### 注意
+
+许多示例使用 Jupyter 笔记本格式。 为了执行和运行它们，您可以在其主页 [jupyter.org](http://jupyter.org) 上找到有关许多架构的安装和使用的信息。
+
+## 从源代码安装
+
+现在我们来看看 TensorFlow 的最完整，对开发人员友好的安装方法。 从源代码安装将使您了解用于编译的不同工具。
+
+### 安装 Git 源代码版本管理器
+
+Git 是现有的最著名的源代码版本管理器之一，并且是 Google 选择的版本管理器，并将其代码发布在 GitHub 上。
+
+为了下载 TensorFlow 的源代码，我们将首先安装 Git 源代码管理器：
+
+#### 在 Linux 中安装 Git（Ubuntu 16.04）
+
+要在您的 Ubuntu 系统上安装 Git，请运行以下命令：
+
+```py
+$ sudo apt-get install git
+
+```
+
+### 安装 Bazel 构建工具
+
+Bazel（`bazel.io`）是一个构建工具，基于 Google 七年来一直使用的内部构建工具（称为 Blaze），并于 2015 年 9 月 9 日发布为 beta 版。
+
+此外，它还用作 TensorFlow 中的主要构建工具，因此，要执行一些高级任务，需要对工具有最少的了解。
+
+### 提示
+
+与诸如 Gradle 之类的竞争项目相比，优点有所不同，主要优点是：
+
+*   支持多种语言，例如 C++，Java，Python 等
+*   支持创建 Android 和 iOS 应用，甚至 Docker 映像
+*   支持使用来自许多不同来源的库，例如 GitHub，Maven 等
+*   通过 API 可扩展以便添加自定义构建规则
+
+#### 添加 Bazel 发行版 URI 作为包源
+
+首先，我们将 Bazel 仓库添加到可用仓库列表中，并将其各自的密钥添加到 APT 工具的配置中，该工具管理 Ubuntu 操作系统的依赖项。
+
+```py
+$ echo "deb http://storage.googleapis.com/bazel-apt stable jdk1.8" | sudo tee /etc/apt/sources.list.d/bazel.list
+$ curl https://storage.googleapis.com/bazel-apt/doc/apt-key.pub.gpg | sudo apt-key add -
+
+```
+
+![Adding the Bazel distribution URI as a package source](img/00154.jpg)
+
+挡板安装
+
+#### 更新和安装 Bazel
+
+一旦安装了所有包源，就可以通过`apt-get`安装 Bazel：
+
+```py
+$ sudo apt-get update && sudo apt-get install bazel
+
+```
+
+### 提示
+
+此命令将安装 Java 和大量依赖项，因此可能需要一些时间来安装它。
+
+### 安装 GPU 支持（可选）
+
+本节将教我们如何在 Linux 设置中安装支持 GPU 所需的必需包。
+
+实际上，获得 GPU 计算支持的唯一方法是通过 CUDA。
+
+检查 nouveau NVIDIA 显卡驱动程序是否不存在。 要对此进行测试，请执行以下命令并检查是否有任何输出：
+
+```py
+lsmod | grep nouveau
+
+```
+
+如果没有输出，请参阅安装 CUDA 系统包。如果没有输出，请执行以下命令：
+
+```py
+$ echo -e "blacklist nouveau\nblacklist lbm-nouveau\noptions nouveau modeset=0\nalias nouveau off\nalias lbm-nouveau off\n" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
+$ echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf
+$ sudo update-initramfs -u
+$ sudo reboot (a reboot will occur)
+
+```
+
+### 安装 CUDA 系统包
+
+第一步是从仓库中安装所需的包：
+
+```py
+sudo apt-get install -y linux-source linux-headers-`uname -r` 
+nvidia-graphics-drivers-361
+nvidia-cuda-dev
+sudo apt install nvidia-cuda-toolkit
+sudo apt-get install libcupti-dev
+
+```
+
+### 提示
+
+如果要在云映像上安装 CUDA，则应在以下命令阻止之前运行此命令：
+
+```py
+sudo apt-get install linux-image-extra-virtual
+
+```
+
+#### 创建替代位置
+
+当前的 TensorFlow 安装配置期望非常严格的结构，因此我们必须在文件系统上准备类似的结构。
+
+这是我们将需要运行的命令：
+
+```py
+sudo mkdir /usr/local/cuda
+cd /usr/local/cuda
+sudo ln -s /usr/lib/x86_64-linux-gnu/ lib64
+sudo ln -s /usr/include/ include
+sudo ln -s /usr/bin/ bin
+sudo ln -s /usr/lib/x86_64-linux-gnu/ nvvm
+sudo mkdir -p extras/CUPTI
+cd extras/CUPTI
+sudo ln -s /usr/lib/x86_64-linux-gnu/ lib64
+sudo ln -s /usr/include/ include
+sudo ln -s /usr/include/cuda.h /usr/local/cuda/include/cuda.h
+sudo ln -s /usr/include/cublas.h /usr/local/cuda/include/cublas.h
+sudo ln -s /usr/include/cudnn.h /usr/local/cuda/include/cudnn.h
+sudo ln -s /usr/include/cupti.h /usr/local/cuda/extras/CUPTI/include/cupti.h
+sudo ln -s /usr/lib/x86_64-linux-gnu/libcudart_static.a /usr/local/cuda/lib64/libcudart_static.a
+sudo ln -s /usr/lib/x86_64-linux-gnu/libcublas.so /usr/local/cuda/lib64/libcublas.so
+sudo ln -s /usr/lib/x86_64-linux-gnu/libcudart.so /usr/local/cuda/lib64/libcudart.so
+sudo ln -s /usr/lib/x86_64-linux-gnu/libcudnn.so /usr/local/cuda/lib64/libcudnn.so
+sudo ln -s /usr/lib/x86_64-linux-gnu/libcufft.so /usr/local/cuda/lib64/libcufft.so
+sudo ln -s /usr/lib/x86_64-linux-gnu/libcupti.so /usr/local/cuda/extras/CUPTI/lib64/libcupti.so
+
+```
+
+#### 安装 cuDNN
+
+TensorFlow 使用附加的 cuDNN 包来加速深度神经网络操作。
+
+然后，我们将下载`cudnn`包：
+
+```py
+$ wget http://developer.download.nvidia.com/compute/redist/cudnn/v5/cudnn-7.5-linux-x64-v5.0-ga.tgz
+
+```
+
+然后，我们需要解压缩包并链接它们：
+
+```py
+$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
+$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
+
+```
+
+### 克隆 TensorFlow 源
+
+最后，我们完成了获取 TensorFlow 源代码的任务。
+
+获得它就像执行以下命令一样容易：
+
+```py
+$ git clone https://github.com/tensorflow/tensorflow
+
+```
+
+![Clone TensorFlow source](img/00155.jpg)
+
+Git 安装
+
+### 配置 TensorFlow 构建
+
+然后我们访问`tensorflow`主目录：
+
+```py
+$ cd tensorflow
+
+```
+
+然后我们只需运行`configure`脚本：
+
+```py
+$ ./configure
+
+```
+
+在下图中，您可以看到大多数问题的答案（它们几乎都是输入的，是的）
+
+![Configuring TensorFlow build](img/00156.jpg)
+
+CUDA 配置
+
+因此，我们现在准备着手进行库的建设。
+
+### 提示
+
+如果要在 AWS 上安装它，则必须执行修改后的行：
+
+```py
+TF_UNOFFICIAL_SETTING=1 ./configure
+
+```
+
+### 构建 TensorFlow
+
+在完成所有准备步骤之后，我们将最终编译 TensorFlow。 以下几行可能引起您的注意，因为它涉及到教程。 我们构建示例的原因是它包含基础安装，并提供了一种测试安装是否有效的方法。
+
+运行以下命令：
+
+```py
+$ bazel build -c opt --config=cuda //tensorflow/cc:tutorials_example_trainer
+
+```
+
+### 测试安装
+
+现在该测试安装了。 在主`tensorflow`安装目录中，只需执行以下命令：
+
+```py
+$ bazel-bin/tensorflow/cc/tutorials_example_trainer --use_gpu
+
+```
+
+这是命令输出的示例表示：
+
+![Testing the installation](img/00157.jpg)
+
+TensorFlow GPU 测试
+
+# Windows 安装
+
+现在轮到 Windows 操作系统了。 首先，我们必须说这不是 TensorFlow 生态系统的首选，但是我们绝对可以使用 Windows 操作系统进行开发。
+
+## 经典 Docker 工具箱方法
+
+此方法使用经典的工具箱方法，该方法可用于大多数最新的 Windows 版本（从 Windows 7 开始，始终使用 64 位操作系统）。
+
+### 提示
+
+为了使 Docker（特别是 VirtualBox）正常工作，您需要安装 VT-X 扩展。 这是您需要在 BIOS 级别执行的任务。
+
+### 安装步骤
+
+在这里，我们将列出在 Windows 中通过 Docker 安装`tensorflow`所需的不同步骤。
+
+#### 下载 Docker 工具箱安装程序
+
+安装程序的当前 URL 位于[此链接](https://github.com/docker/toolbox/releases/download/v1.12.0/DockerToolbox-1.12.0.exe)。
+
+执行安装程序后，我们将看到第一个安装屏幕：
+
+![Downloading the Docker toolbox installer](img/00158.jpg)
+
+Docker 工具箱第一个安装屏幕
+
+![Downloading the Docker toolbox installer](img/00159.jpg)
+
+Docker 工具箱安装程序路径选择器
+
+然后，选择安装中需要的所有组件：
+
+![Downloading the Docker toolbox installer](img/00160.jpg)
+
+Docker 工具箱包选择屏幕
+
+完成各种安装操作后，我们的 Docker 安装将准备就绪：
+
+![Downloading the Docker toolbox installer](img/00161.jpg)
+
+Docker 工具箱安装最终屏幕
+
+#### 创建 Docker 机器
+
+为了创建初始机器，我们将在 Docker 终端中执行以下命令：
+
+```py
+docker-machine create vdocker -d virtualbox
+
+```
+
+![Creating the Docker machine](img/00162.jpg)
+
+Docker 初始映像安装
+
+然后，在命令窗口中，键入以下内容：
+
+```py
+FOR /f "tokens=*" %i IN ('docker-machine env --shell cmd vdocker') DO %i docker run -it b.gcr.io/tensorflow/tensorflow
+
+```
+
+这将打印并读取运行最近创建的虚拟机所需的许多变量。
+
+最后，要安装`tensorflow`容器，请像在 Linux 控制台上一样从同一控制台进行操作：
+
+```py
+docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow
+
+```
+
+### 提示
+
+如果您不想执行 Jupyter，但想直接启动到控制台，则可以通过以下方式运行 Docker 映像：
+
+```py
+run -it -p 8888:8888 gcr.io/tensorflow/tensorflow bash
+
+```
+
+# MacOSX 安装
+
+现在转到在 MacOSX 上进行安装。安装过程与 Linux 非常相似。 它们基于 OSX El Capitan 版本。 我们还将参考不支持 GPU 的 2.7 版 Python。
+
+安装要求安装用户具有`sudo`特权。
+
+## 安装 PIP
+
+在此步骤中，我们将使用`easy_install`包管理器安装 PIP 包管理器，该包管理器包含在安装工具 Python 包中，并且默认情况下包含在操作系统中。
+
+对于此安装，我们将在终端中执行以下操作：
+
+```py
+$ sudo easy_install pip
+
+```
+
+![Install pip](img/00163.jpg)
+
+然后，我们将安装六个模块，这是一个兼容性模块，可帮助 Python 2 程序支持 Python 3 编程：
+
+要安装`six`，我们执行以下命令：
+
+```py
+sudo easy_install --upgrade six
+
+```
+
+![Install pip](img/00164.jpg)
+
+在安装`six`包之后，我们通过执行以下命令来继续安装`tensorflow`包：
+
+```py
+sudo pip install -ignore-packages six https://storage.googleapis.com/tensorflow/mac/cpu/tensorflow-0.10.0-py2-none-any.whl
+
+```
+
+![Install pip](img/00165.jpg)
+
+然后我们调整`numpy`包的路径，这在 El Capitan 中是必需的：
+
+```py
+sudo easy_install numpy
+
+```
+
+![Install pip](img/00166.jpg)
+
+现在我们准备导入`tensorflow`模块并运行一些简单的示例：
+
+![Install pip](img/00167.jpg)
+
+# 总结
+
+在本章中，我们回顾了可以执行 TensorFlow 安装的一些主要方法。
+
+即使可能性是有限的，每个月左右我们都会看到支持新的架构或处理器，因此我们只能期望该技术的应用领域越来越多。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/cover.jpg
new file mode 100644
index 00000000..3b68269a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00001.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00001.jpg
new file mode 100644
index 00000000..4354996d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00001.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00002.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00002.jpg
new file mode 100644
index 00000000..ee757cfe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00002.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00003.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00003.jpg
new file mode 100644
index 00000000..7e618f7b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00003.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00004.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00004.jpg
new file mode 100644
index 00000000..68f35ce8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00004.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00005.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00005.jpg
new file mode 100644
index 00000000..72442077
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00005.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00006.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00006.jpg
new file mode 100644
index 00000000..04af144f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00006.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00007.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00007.jpg
new file mode 100644
index 00000000..5d7b5321
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00007.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00008.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00008.jpg
new file mode 100644
index 00000000..41ed7c96
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00008.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00009.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00009.jpg
new file mode 100644
index 00000000..d7f10f56
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00009.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00010.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00010.jpg
new file mode 100644
index 00000000..14aff6c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00010.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00011.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00011.jpg
new file mode 100644
index 00000000..7fabd3fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00011.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00012.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00012.jpg
new file mode 100644
index 00000000..bf4f09ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00012.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00013.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00013.jpg
new file mode 100644
index 00000000..99521197
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00013.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00014.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00014.jpg
new file mode 100644
index 00000000..5cf0ce6f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00014.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00015.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00015.jpg
new file mode 100644
index 00000000..ba51948e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00015.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00016.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00016.jpg
new file mode 100644
index 00000000..63e851d4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00016.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00017.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00017.jpg
new file mode 100644
index 00000000..3f23b68d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00017.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00018.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00018.jpg
new file mode 100644
index 00000000..f48f876a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00018.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00019.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00019.jpg
new file mode 100644
index 00000000..66ee9d82
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00019.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00020.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00020.jpg
new file mode 100644
index 00000000..74637f25
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00020.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00021.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00021.jpg
new file mode 100644
index 00000000..5b350214
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00021.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00022.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00022.jpg
new file mode 100644
index 00000000..d28b7cc4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00022.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00023.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00023.jpg
new file mode 100644
index 00000000..08fd99dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00023.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00024.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00024.jpg
new file mode 100644
index 00000000..32a5cf20
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00024.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00025.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00025.jpg
new file mode 100644
index 00000000..d674d2c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00025.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00026.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00026.jpg
new file mode 100644
index 00000000..7e9a0a74
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00026.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00027.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00027.jpg
new file mode 100644
index 00000000..f25d3b1f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00027.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00028.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00028.jpg
new file mode 100644
index 00000000..78d690dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00028.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00029.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00029.jpg
new file mode 100644
index 00000000..6c744905
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00029.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00030.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00030.jpg
new file mode 100644
index 00000000..5c27f8d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00030.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00031.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00031.jpg
new file mode 100644
index 00000000..5c27f8d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00031.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00032.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00032.jpg
new file mode 100644
index 00000000..366afb17
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00032.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00033.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00033.jpg
new file mode 100644
index 00000000..366afb17
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00033.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00034.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00034.jpg
new file mode 100644
index 00000000..bb3dc03b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00034.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00035.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00035.jpg
new file mode 100644
index 00000000..bb3dc03b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00035.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00036.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00036.jpg
new file mode 100644
index 00000000..7d1d0653
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00036.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00037.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00037.jpg
new file mode 100644
index 00000000..543a6b1e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00037.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00038.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00038.jpg
new file mode 100644
index 00000000..aa446b3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00038.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00039.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00039.jpg
new file mode 100644
index 00000000..f5743688
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00039.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00040.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00040.jpg
new file mode 100644
index 00000000..253d9b7b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00040.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00041.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00041.jpg
new file mode 100644
index 00000000..8f07c8c1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00041.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00042.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00042.jpg
new file mode 100644
index 00000000..aaea8d38
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00042.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00043.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00043.jpg
new file mode 100644
index 00000000..9c24e44e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00043.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00044.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00044.jpg
new file mode 100644
index 00000000..318062dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00044.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00045.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00045.jpg
new file mode 100644
index 00000000..94fc1606
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00045.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00046.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00046.jpg
new file mode 100644
index 00000000..521b2564
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00046.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00047.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00047.jpg
new file mode 100644
index 00000000..6f9a6ff8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00047.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00048.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00048.jpg
new file mode 100644
index 00000000..12832e8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00048.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00049.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00049.jpg
new file mode 100644
index 00000000..31c9e190
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00049.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00050.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00050.jpg
new file mode 100644
index 00000000..db2b63d4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00050.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00051.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00051.jpg
new file mode 100644
index 00000000..9e884d53
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00051.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00052.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00052.jpg
new file mode 100644
index 00000000..11adad02
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00052.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00053.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00053.jpg
new file mode 100644
index 00000000..31c9e190
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00053.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00054.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00054.jpg
new file mode 100644
index 00000000..a976936a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00054.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00055.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00055.jpg
new file mode 100644
index 00000000..18edc901
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00055.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00056.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00056.jpg
new file mode 100644
index 00000000..ba9d3ddc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00056.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00057.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00057.jpg
new file mode 100644
index 00000000..5cd925f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00057.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00058.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00058.jpg
new file mode 100644
index 00000000..444752df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00058.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00059.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00059.jpg
new file mode 100644
index 00000000..228b94f5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00059.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00060.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00060.jpg
new file mode 100644
index 00000000..fafa84ea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00060.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00061.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00061.jpg
new file mode 100644
index 00000000..d8b09b1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00061.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00062.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00062.jpg
new file mode 100644
index 00000000..58ff974c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00062.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00063.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00063.jpg
new file mode 100644
index 00000000..3cfef523
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00063.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00064.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00064.jpg
new file mode 100644
index 00000000..92e4247e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00064.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00065.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00065.jpg
new file mode 100644
index 00000000..0a6368f0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00065.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00066.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00066.jpg
new file mode 100644
index 00000000..8b6d727b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00066.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00067.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00067.jpg
new file mode 100644
index 00000000..8ae379dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00067.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00068.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00068.jpg
new file mode 100644
index 00000000..3b8168bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00068.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00069.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00069.jpg
new file mode 100644
index 00000000..f7898eed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00069.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00070.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00070.jpg
new file mode 100644
index 00000000..afd3fdd1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00070.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00071.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00071.jpg
new file mode 100644
index 00000000..9d27c227
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00071.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00072.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00072.jpg
new file mode 100644
index 00000000..09030f3c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00072.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00073.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00073.jpg
new file mode 100644
index 00000000..6f765d25
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00073.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00074.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00074.jpg
new file mode 100644
index 00000000..82a2be5c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00074.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00075.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00075.jpg
new file mode 100644
index 00000000..7ee7bee3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00075.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00076.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00076.jpg
new file mode 100644
index 00000000..3d456a64
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00076.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00077.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00077.jpg
new file mode 100644
index 00000000..cdf2342a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00077.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00078.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00078.jpg
new file mode 100644
index 00000000..739ccccb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00078.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00079.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00079.jpg
new file mode 100644
index 00000000..776cd116
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00079.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00080.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00080.jpg
new file mode 100644
index 00000000..553d62e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00080.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00081.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00081.jpg
new file mode 100644
index 00000000..a0d7d646
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00081.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00082.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00082.jpg
new file mode 100644
index 00000000..052537bb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00082.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00083.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00083.jpg
new file mode 100644
index 00000000..997f2c5d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00083.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00084.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00084.jpg
new file mode 100644
index 00000000..d98f9368
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00084.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00085.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00085.jpg
new file mode 100644
index 00000000..4f62d1fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00085.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00086.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00086.jpg
new file mode 100644
index 00000000..4209c0bb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00086.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00087.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00087.jpg
new file mode 100644
index 00000000..e5d7db6c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00087.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00088.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00088.jpg
new file mode 100644
index 00000000..24944bbd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00088.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00089.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00089.jpg
new file mode 100644
index 00000000..e186851a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00089.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00090.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00090.jpg
new file mode 100644
index 00000000..19d35a14
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00090.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00091.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00091.jpg
new file mode 100644
index 00000000..a0070616
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00091.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00092.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00092.jpg
new file mode 100644
index 00000000..1ec924bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00092.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00093.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00093.jpg
new file mode 100644
index 00000000..4a55b388
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00093.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00094.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00094.jpg
new file mode 100644
index 00000000..4e63c611
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00094.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00095.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00095.jpg
new file mode 100644
index 00000000..4ea60218
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00095.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00096.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00096.jpg
new file mode 100644
index 00000000..5cd9c214
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00096.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00097.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00097.jpg
new file mode 100644
index 00000000..4e9b4718
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00097.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00098.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00098.jpg
new file mode 100644
index 00000000..ff45a8a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00098.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00099.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00099.jpg
new file mode 100644
index 00000000..b6eecfa4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00099.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00100.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00100.jpg
new file mode 100644
index 00000000..6c696c98
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00100.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00101.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00101.jpg
new file mode 100644
index 00000000..02a6d739
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00101.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00102.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00102.jpg
new file mode 100644
index 00000000..46e95e1a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00102.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00103.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00103.jpg
new file mode 100644
index 00000000..b6286a32
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00103.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00104.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00104.jpg
new file mode 100644
index 00000000..b62fe4b9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00104.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00105.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00105.jpg
new file mode 100644
index 00000000..58dc2b0c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00105.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00106.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00106.jpg
new file mode 100644
index 00000000..037cf595
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00106.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00107.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00107.jpg
new file mode 100644
index 00000000..e502dbbf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00107.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00108.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00108.jpg
new file mode 100644
index 00000000..9aa466f5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00108.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00109.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00109.jpg
new file mode 100644
index 00000000..f004a60d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00109.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00110.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00110.jpg
new file mode 100644
index 00000000..bb97ec2c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00110.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00111.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00111.jpg
new file mode 100644
index 00000000..b52becad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00111.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00112.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00112.jpg
new file mode 100644
index 00000000..ca7cf7ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00112.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00113.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00113.jpg
new file mode 100644
index 00000000..352ffc8a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00113.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00114.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00114.jpg
new file mode 100644
index 00000000..11ff469a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00114.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00115.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00115.jpg
new file mode 100644
index 00000000..9c55d855
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00115.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00116.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00116.jpg
new file mode 100644
index 00000000..422cc933
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00116.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00117.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00117.jpg
new file mode 100644
index 00000000..2fac17a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00117.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00118.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00118.jpg
new file mode 100644
index 00000000..6a642bed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00118.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00119.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00119.jpg
new file mode 100644
index 00000000..c8827a9f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00119.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00120.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00120.jpg
new file mode 100644
index 00000000..36c8e739
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00120.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00121.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00121.jpg
new file mode 100644
index 00000000..3a59b585
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00121.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00122.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00122.jpg
new file mode 100644
index 00000000..54eeecf6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00122.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00123.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00123.jpg
new file mode 100644
index 00000000..a3687ac8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00123.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00124.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00124.jpg
new file mode 100644
index 00000000..b471ed68
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00124.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00125.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00125.jpg
new file mode 100644
index 00000000..f28825b0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00125.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00126.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00126.jpg
new file mode 100644
index 00000000..99e293dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00126.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00127.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00127.jpg
new file mode 100644
index 00000000..75f863f0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00127.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00128.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00128.jpg
new file mode 100644
index 00000000..ce491197
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00128.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00129.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00129.jpg
new file mode 100644
index 00000000..db6e6186
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00129.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00130.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00130.jpg
new file mode 100644
index 00000000..5d1d3530
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00130.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00131.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00131.jpg
new file mode 100644
index 00000000..5f4405ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00131.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00132.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00132.jpg
new file mode 100644
index 00000000..9c882912
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00132.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00133.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00133.jpg
new file mode 100644
index 00000000..99662851
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00133.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00134.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00134.jpg
new file mode 100644
index 00000000..0c5c3229
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00134.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00135.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00135.jpg
new file mode 100644
index 00000000..711174ab
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00135.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00136.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00136.jpg
new file mode 100644
index 00000000..0259338d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00136.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00137.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00137.jpg
new file mode 100644
index 00000000..446fe0ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00137.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00138.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00138.jpg
new file mode 100644
index 00000000..3326ad89
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00138.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00139.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00139.jpg
new file mode 100644
index 00000000..72352508
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00139.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00140.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00140.jpg
new file mode 100644
index 00000000..167963c9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00140.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00141.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00141.jpg
new file mode 100644
index 00000000..e4b84b08
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00141.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00142.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00142.jpg
new file mode 100644
index 00000000..008c9665
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00142.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00143.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00143.jpg
new file mode 100644
index 00000000..952ce99f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00143.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00144.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00144.jpg
new file mode 100644
index 00000000..cd5955f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00144.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00145.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00145.jpg
new file mode 100644
index 00000000..3707373e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00145.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00146.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00146.jpg
new file mode 100644
index 00000000..ddde7d6b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00146.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00147.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00147.jpg
new file mode 100644
index 00000000..4e264bf4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00147.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00148.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00148.jpg
new file mode 100644
index 00000000..1cbb3537
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00148.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00149.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00149.jpg
new file mode 100644
index 00000000..9d1f2547
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00149.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00150.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00150.jpg
new file mode 100644
index 00000000..20aaeace
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00150.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00151.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00151.jpg
new file mode 100644
index 00000000..d326a22c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00151.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00152.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00152.jpg
new file mode 100644
index 00000000..cf32990b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00152.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00153.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00153.jpg
new file mode 100644
index 00000000..12f45c65
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00153.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00154.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00154.jpg
new file mode 100644
index 00000000..3f8bae10
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00154.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00155.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00155.jpg
new file mode 100644
index 00000000..7c8ec37c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00155.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00156.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00156.jpg
new file mode 100644
index 00000000..2cedc595
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00156.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00157.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00157.jpg
new file mode 100644
index 00000000..0923bf9d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00157.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00158.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00158.jpg
new file mode 100644
index 00000000..26b05bd3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00158.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00159.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00159.jpg
new file mode 100644
index 00000000..da5a701b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00159.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00160.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00160.jpg
new file mode 100644
index 00000000..71003ee5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00160.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00161.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00161.jpg
new file mode 100644
index 00000000..5da44736
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00161.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00162.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00162.jpg
new file mode 100644
index 00000000..cc648d08
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00162.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00163.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00163.jpg
new file mode 100644
index 00000000..df8da67c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00163.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00164.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00164.jpg
new file mode 100644
index 00000000..48ec66cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00164.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00165.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00165.jpg
new file mode 100644
index 00000000..5321a3c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00165.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00166.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00166.jpg
new file mode 100644
index 00000000..d3e52d06
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00166.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00167.jpg b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00167.jpg
new file mode 100644
index 00000000..9954e3df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/00167.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/tex-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/tex-1.gif
new file mode 100644
index 00000000..f98f0647
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/build-ml-proj-tf-zh/img/tex-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/00.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/00.md
new file mode 100644
index 00000000..f6cf32f9
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/00.md
@@ -0,0 +1,88 @@
+# 零、前言
+
+《深度学习快速参考》演示了使用深度学习的快速实用方法。 它着重于现实生活中的问题，并且仅提供了足够的理论和数学知识来加深读者对该主题的理解。 深度学习是机器学习中令人兴奋的快速节奏分支，但它也是一个可以涉足的领域。 在这个领域，每天都会进行大量的详细而复杂的研究，而这可能会令人不知所措。 在本书中，我着重向您传授将深度学习应用于各种实际问题的技能。 我对这本书的最大希望是，它将为您提供使用深度学习技术解决机器学习问题所需的工具。
+
+# 这本书是给谁的
+
+我是一名实践中的数据科学家，我在写这本书时牢记其他实践中的数据科学家和机器学习工程师。 如果您是应用深度学习的软件工程师，那么这本书也很适合您。
+
+如果您是一名深度学习研究人员，那么这本书并不适合您。 但是，您仍然应该拿起副本，以便批评这本书缺乏证明和数学上的严格性。
+
+如果您是一名学者或教育家，那么这本书绝对适合您。 在过去的 3 年中，我在伊利诺伊大学斯普林菲尔德分校教授了数据科学的调查数据（去草原之星！），这样做，我有机会启发了许多未来的机器学习人员。 这种经历启发了我创作这本书。 我认为这样的书是帮助学生提高对一个非常复杂的主题的兴趣的好方法。
+
+# 本书涵盖的内容
+
+第 1 章“深度学习的基础知识”，回顾了有关神经网络操作的一些基础知识，涉及了优化算法，讨论了模型验证，并讨论了建立开发环境的内容。 适用于构建深度神经网络。
+
+第 2 章“使用深度学习解决回归问题”，您可以构建非常简单的神经网络来解决回归问题，并研究更深更复杂的模型对这些问题的影响。
+
+第 3 章“使用 TensorBoard 监视网络训练”让您立即开始使用 TensorBoard，这是监视和调试未来模型的绝佳应用。
+
+第 4 章“使用深度学习解决二分类问题”帮助您使用深度学习解决二分类问题。
+
+第 5 章“使用 Keras 解决多分类问题”，带您进行多分类并探讨它们之间的区别。 它还讨论了管理过拟合和最安全的选择。
+
+第 6 章“超参数优化”显示了两种独立的模型调整方法，一种是众所周知的且经过实战测试的方法，而另一种是最新方法。
+
+第 7 章“从头开始训练 CNN”教您如何使用卷积网络对图像进行分类。
+
+第 8 章“使用预训练的 CNN 的迁移学习”描述了如何应用迁移学习来从图像分类器中获得惊人的表现，即使数据很少。
+
+第 9 章“从头开始训练 RNN”，讨论 RNN 和 LSTMS，以及如何将其用于时间序列预测问题。
+
+第 10 章“从头开始用词嵌入训练 LSTM”继续我们关于 LSTM 的讨论，这次讨论的是自然语言分类任务。
+
+第 11 章“训练 Seq2Seq 模型”帮助我们使用序列对模型进行序列化以进行机器翻译。
+
+第 12 章“使用深度强化学习”引入了深度强化学习，并构建了可以为自治智能体提供动力的深度 Q 网络。
+
+第 13 章“生成对抗网络”解释了如何使用生成对抗网络生成令人信服的图像。
+
+# 充分利用这本书
+
+1.  我假设您已经对更传统的数据科学和预测建模技术（例如线性/逻辑回归和随机森林）有丰富的经验。 如果这是您第一次学习机器学习，那么对您来说可能有点困难。
+2.  我还假定您至少具有使用 Python 进行编程的经验，或者至少具有其他编程语言（如 Java 或 C++）。
+3.  深度学习是计算密集型的，我们在这里构建的某些模型需要 NVIDIA GPU 在合理的时间内运行。 如果您没有快速的 GPU，则可能希望在 Amazon Web Services 或 Google Cloud Platform 上使用基于 GPU 的云实例。
+
+# 使用约定
+
+本书中使用了许多文本约定。
+
+`CodeInText`：指示文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字。 这是一个示例：“这正是`ModelCheckpoint`回调为我们所做的。”
+
+代码块设置如下：
+
+```py
+def binary_accuracy(y_true, y_pred):
+    return K.mean(K.equal(y_true, K.round(y_pred)), axis=-1)
+```
+
+当我们希望引起您对代码块特定部分的注意时，相关的行或项目以粗体显示：
+
+```py
+def build_network(input_features=None):
+    inputs = Input(shape=(input_features,), name="input")
+    x = Dense(32, activation='relu', name="hidden1")(inputs)
+ x = Dense(32, activation='relu', name="hidden2")(x)
+ x = Dense(32, activation='relu', name="hidden3")(x)
+ x = Dense(32, activation='relu', name="hidden4")(x)
+ x = Dense(16, activation='relu', name="hidden5")(x)
+    prediction = Dense(1, activation='linear', name="final")(x)
+    model = Model(inputs=inputs, outputs=prediction)
+    model.compile(optimizer='adam', loss='mean_absolute_error')
+    return model
+```
+
+任何命令行输入或输出的编写方式如下：
+
+```py
+model-weights.00-0.971304.hdf5
+model-weights.02-0.977391.hdf5
+model-weights.05-0.985217.hdf5
+```
+
+**粗体**：表示新术语，重要单词或您在屏幕上看到的单词。 例如，菜单或对话框中的单词会出现在这样的文本中。 这是一个示例：“从管理面板中选择系统信息。”
+
+警告或重要提示如下所示。
+
+提示和技巧如下所示。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/01.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/01.md
new file mode 100644
index 00000000..870ca871
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/01.md
@@ -0,0 +1,432 @@
+# 一、深度学习的基础
+
+欢迎使用《深度学习快速参考》！ 在本书中，我将尝试使需要解决深度学习问题的数据科学家，机器学习工程师和软件工程师更容易使用，实用和使用深度学习技术。 如果您想训练自己的深度神经网络并且陷入困境，那么本指南很有可能会有所帮助。
+
+本书动手了，旨在作为实用指南，可以帮助您快速解决问题。 它主要供需要使用深度学习解决问题的经验丰富的机器学习工程师和数据科学家使用。 除了本章（其中提供了一些我们将要开始使用的术语，框架和背景知识）之外，它并不意味着要按顺序阅读。 每章均包含一个实际示例，并附有代码，一些最佳实践和安全选择。 我们希望您能跳到所需的章节并开始使用。
+
+本书不会深入研究深度学习和神经网络的理论。 有许多可以提供这种背景知识的精彩书籍，我强烈建议您至少阅读其中一本（也许是参考书目，也可以只是建议）。 我们希望提供足够的理论和数学直觉来帮助您入门。
+
+我们将在本章介绍以下主题：
+
+*   深度神经网络架构
+*   深度学习的优化算法
+*   深度学习框架
+*   构建用于深度学习的数据集
+
+# 深度神经网络架构
+
+深度神经网络架构的结构可能会因网络的应用而有很大差异，但它们都有一些基本组件。 在本节中，我们将简要讨论这些组件。
+
+在本书中，我将深度神经网络定义为一个具有多个隐藏层的网络。 除此之外，我们不会尝试将成员限制为*深度学习俱乐部*。 因此，我们的网络可能只有不到 100 个神经元，甚至可能有数百万个。 我们可能会使用特殊的神经元层，包括卷积和循环层，但尽管如此，我们仍将所有这些都称为神经元。
+
+# 神经元
+
+神经元是神经网络的原子单位。 有时这是受到生物学启发的。 但是，这是另一本书的主题。 神经元通常排列成层。 在本书中，如果我指的是特定的神经元，则将使用符号`n[k]^l`，其中`l`是神经元所在的层， `k`是神经元编号 。 由于我们将使用遵循第 0 个表示法的编程语言，因此我的表示法也将基于第 0 个表示法。
+
+大多数神经元的核心是两个共同起作用的函数：线性函数和激活函数。 让我们从较高的角度看一下这两个组成部分。
+
+# 神经元线性函数
+
+神经元的第一部分是线性函数，其输出是输入的总和，每个输入乘以一个系数。 这个函数实际上或多或少是线性回归。 这些系数通常在神经网络中称为权重。 例如，给定某些神经元，其输入特征为`x1`，`x2`和`x3`，输出`z`，则此线性分量或神经元线性函数将简单地为：
+
+![](img/4e5e3493-b790-47cc-84f3-a0be62d76138.png)
+
+在给定数据的情况下，`θ[1], θ[2], ..., θ[n]`是权重或系数，`b`是偏差项。
+
+# 神经元激活函数
+
+神经元的第二个函数是激活函数，其任务是在神经元之间引入非线性。 Sigmoid 激活是一种常用的激活，您可能会通过逻辑回归来熟悉它。 它将神经元的输出压缩到输出空间，其中`z`的非常大的值被驱动为 1，而`z`的非常小的值被驱动为 0。
+
+sigmoid 函数如下所示：
+
+![](img/bdfa5581-f926-457b-b8b0-5b9494717691.png)
+
+![](img/51caabd9-ef17-4057-a27d-71fa15ccb5d9.png)
+
+事实证明，激活函数对于中间神经元非常重要。 没有它，可以证明一堆具有线性激活的神经元（实际上不是激活，或更正式地说是`z = z`的激活函数）实际上只是一个线性函数。
+
+在这种情况下，单个线性函数是不理想的，因为在许多情况下，我们的网络可能未针对当前问题指定。 也就是说，由于输入特征和目标变量之间的非线性关系（我们正在预测），网络无法很好地对数据建模。
+
+不能用线性函数建模的函数的典型示例是排他的`OR`函数，如下图所示：
+
+![](img/bfe29865-0979-4da4-b431-943152306f2e.jpg)
+
+其他常见的激活函数是`tanh`函数和 ReLu 或整流线性激活。
+
+双曲正切或`tanh`函数如下所示：
+
+![](img/ebabb5f1-f275-4648-a265-618d4d2e74a0.png)
+
+![](img/de142212-317a-4975-bac2-8a73d64d08c9.png)
+
+对于中间层，`tanh`通常比 Sigmoid 更好。 您可能会看到，`tanh`的输出将在`[-1, 1]`之间，而 Sigmoid 曲线的输出将为`[0, 1]`。 这种额外的宽度可为消失或爆炸的梯度问题提供一定的弹性，我们将在后面详细介绍。 到目前为止，仅需知道消失的梯度问题就可以使网络在早期的层中收敛非常慢（如果有的话）。 因此，使用`tanh`的网络趋于比使用 Sigmoid 激活的网络收敛更快。 也就是说，它们仍然不如 ReLu 快。
+
+ReLu，或直线激活，简单定义为：
+
+![](img/699dd350-149d-48aa-80b9-147894e8370c.png)
+
+这是一个安全的赌注，我们在本书中的大部分时间都会使用它。 ReLu 不仅易于计算和微分，而且还可以抵抗消失的梯度问题。 ReLu 的唯一缺点是它的一阶导数未精确定义为 0。包括泄漏的 ReLu 在内的变体在计算上更加困难，但针对此问题更健壮。
+
+为了完整起见，以下是 ReLu 的一些明显图表：
+
+![](img/a7f14c61-3176-4310-8903-76943df30680.png)
+
+# 深度学习中的损失和成本函数
+
+每个机器学习模型实际上都是从成本函数开始的。 简单来说，成本函数可让您衡量模型对训练数据的拟合程度。 在本书中，我们将损失函数定义为训练集中单个观测值的拟合正确性。 这样，成本函数通常将是整个训练集中损失的平均值。 稍后，当我们介绍每种类型的神经网络时，我们将重新讨论损失函数。 但是，请快速考虑线性回归的成本函数作为示例：
+
+![](img/39a93548-a5c8-42d4-8696-f1cac167f5b9.png)
+
+在这种情况下，损失函数为`(y_hat - y)^2`，这实际上是平方误差。 因此，我们的`cost`函数`J`实际上只是均方误差，或整个数据集的均方误差的平均值。 按照惯例，添加了项 1/2 以使某些微积分更干净。
+
+# 正向传播过程
+
+正向传播是我们尝试使用单个观测值中存在的特征预测目标变量的过程。 想象一下，我们有一个两层神经网络。 在正向传播过程中，我们将从观察中出现的特征`x[1], x[2], ..., x[n]`开始，然后将这些特征乘以它们在第 1 层中的关联系数，并为每个神经元添加一个偏差项。 之后，我们会将输出发送到神经元的激活。 之后，输出将被发送到下一层，依此类推，直到到达网络的末端，然后剩下网络的预测：
+
+![](img/855a0a4f-c69b-49ee-841e-8a0b72e076a0.jpg)
+
+# 反向传播过程
+
+一旦正向传播完成，我们就可以对每个数据点进行网络预测。 我们也知道数据点的实际值。 通常，将预测定义为`y_hat`，而将目标变量的实际值定义为`y`。
+
+一旦`y`和`y_hat`都已知，就可以使用成本函数计算网络误差。 回想一下，代价函数是`loss`函数的平均值。
+
+为了使学习在网络中发生，网络的误差信号必须从最后一层到最后一层通过网络层向后传播。 我们反向传播的目标是在网络中向后传播该误差信号，同时随着信号的传播使用误差信号来更新网络权重。 在数学上，要做到这一点，我们需要对权重进行微调，以使成本函数最小，从而最小化成本函数。 此过程称为梯度下降。
+
+梯度是误差函数相对于网络内每个权重的偏导数。 可以使用链法则和上面各层的梯度逐层计算每个权重的梯度。
+
+一旦知道了每一层的梯度，我们就可以使用梯度下降算法来最小化`cost`函数。
+
+梯度下降将重复此更新，直到网络的误差最小化并且该过程收敛为止：
+
+![](img/1e890c56-85ae-4f6c-82e5-4ae9de2f0fc8.png)
+
+梯度下降算法将梯度乘以称为`alpha`的学习率，然后从每个权重的当前值中减去该值。 学习率是一个超参数。
+
+# 随机和小批量梯度下降
+
+上一节中描述的算法假定整个数据集都进行正向和相应的反向传递，因此将其称为批梯度下降。
+
+进行梯度下降的另一种可能方法是一次使用一个数据点，并随着我们的更新网络权重。 此方法可能有助于加快网络可能停止收敛的鞍点附近的收敛速度。 当然，仅单个点的误差估计可能无法很好地近似于整个数据集的误差。
+
+解决此问题的最佳解决方案是使用小型批量梯度下降，其中我们将采用称为小型批量的数据的随机子集来计算误差并更新网络权重。 这几乎总是最好的选择。 它还有一个额外的好处，即可以将非常大的数据集自然地拆分为多个块，这些块可以更容易地在计算机的内存中甚至跨计算机的内存中进行管理。
+
+这是对神经网络最重要部分之一的极高层次的描述，我们认为这与本书的实际性质相符。 实际上，大多数现代框架都为我们处理了这些步骤。 但是，至少在理论上，它们无疑是值得了解的。 我们鼓励读者在时间允许的情况下更深入地进行向前和向后传播。
+
+# 深度学习的优化算法
+
+梯度下降算法不是唯一可用于优化网络权重的优化算法，但它是大多数其他算法的基础。 虽然了解每种优化算法都有可能获得博士学位，但我们将为一些最实用的内容专门介绍几句话。
+
+# 梯度下降和动量
+
+通过使用具有动量的梯度下降，可以通过增加方向学习的速度来加快梯度下降，从而使梯度在方向上保持恒定，而在方向缓慢学习时，梯度会在方向上波动。 它允许梯度下降的速度增加。
+
+动量的工作原理是引入速度项，并在更新规则中使用该项的加权移动平均值，如下所示：
+
+![](img/c5beedac-b05c-4e0b-99c3-2cda0e22438a.png)
+
+![](img/c23360a9-e58b-4a17-88d0-7bc7f4a0c3e4.png)
+
+在动量的情况下，最通常将`β`设置为 0.9，通常这不是需要更改的超参数。
+
+# RMSProp 算法
+
+RMSProp 是另一种算法，可以通过跨网络权重表示的多维空间，通过在某些方向上加快学习速度，并在其他方向上抑制振荡来加快梯度下降：
+
+![](img/9e4968c2-7b0b-4b05-bc41-c78e494a6841.png)
+
+![](img/546ffd34-78a1-4693-801d-bb23aca435af.png)
+
+![](img/e2195ce4-cd4a-4c72-a0bb-ea6fc453ac8a.png)
+
+这具有在`v[t]`大的方向上进一步减少振荡的效果。
+
+# Adam 优化器
+
+Adam 是已知表现最好的**优化器**之一，这是我的首选。 它可以很好地解决各种问题。 它将动量和 RMSProp 的最佳部分组合到一个更新规则中：
+
+![](img/eef792ef-f454-4569-8c55-61286ccc904c.png)
+
+![](img/e9833db5-73b6-46cf-8bec-1a00b593763a.png)
+
+![](img/cc4cdee1-a83d-49fc-98eb-5ddab14d83c5.png)
+
+![](img/898ba591-7dc4-4be2-8a81-3eed0141913b.png)
+
+其中`ε`很小，可以防止被 0 除。
+
+亚当通常是一个不错的选择，当您进行原型设计时，这是一个很好的起点，因此，从亚当开始可以节省一些时间。
+
+# 深度学习框架
+
+虽然仅使用 Python 的`numpy`从头开始构建和训练深度神经网络是绝对可能的，但这将花费大量的时间和代码。 在几乎每种情况下，使用深度学习框架都更加实用。
+
+在本书中，我们将使用 **TensorFlow** 和 **Keras** 来使开发深度神经网络变得更加轻松和快捷。
+
+# 什么是 TensorFlow？
+
+TensorFlow 是一个可用于快速构建深度神经网络的库。 在 TensorFlow 中，我们到目前为止已涵盖的数学运算被表示为节点。 这些节点之间的边缘是张量或多维数据数组。 给定定义为图和损失函数的神经网络，TensorFlow 可以自动计算网络的梯度并优化图以最小化损失函数。
+
+TensorFlow 是 Google 在 2015 年发布的一个开源项目。此后，它已经获得了很大的关注，并拥有庞大的用户社区。 虽然 TensorFlow 提供 Java，C++，Go 和 Python 的 API，但我们仅介绍 Python API。 本书使用了 Python API，因为它既是最常用的，也是开发新模型时最常用的 API。
+
+通过在一个或多个图形处理单元上执行这些计算，TensorFlow 可以大大加快计算速度。 GPU 计算提供的加速已成为现代深度学习中的必要条件。
+
+# 什么是 Keras？
+
+尽管在 TensorFlow 中构建深度神经网络要比从头开始做起来容易得多，但 TensorFlow 仍然是一个非常底层的 API。 Keras 是一个高级 API，允许我们使用 TensorFlow（或 Theano 或 Microsoft 的 CNTK）快速构建深度学习网络。
+
+用 Keras 和 TensorFlow 构建的模型是便携式的，也可以在本机 TensorFlow 中进行训练或使用。 TensorFlow 中构建的模型可以加载到 Keras 中并在其中使用。
+
+# TensorFlow 的流行替代品
+
+那里还有许多其他很棒的深度学习框架。 我们之所以选择 Keras 和 TensorFlow，主要是因为其受欢迎程度，易用性，支持的可用性以及生产部署的准备就绪。 无疑还有其他有价值的选择。
+
+我最喜欢的 TensorFlow 替代品包括：
+
+*   **Apache MXNet**：一个非常高表现的框架，带有一个名为 [**Gluon**](https://mxnet.apache.org/) 的新命令式接口
+*   [**PyTorch**](http://pytorch.org/)：Facebook 最初开发的一种非常新颖且有希望的架构
+*   [**CNTK**](https://www.microsoft.com/en-us/cognitive-toolkit/)：也可以与 Keras 一起使用的 Microsoft 深度学习框架
+
+尽管我确实坚信 Keras 和 TensorFlow 是本书的正确选择，但我也想承认这些出色的框架以及每个项目对领域做出的贡献。
+
+# TensorFlow 和 Keras 的 GPU 要求
+
+在本书的其余部分，我们将使用 Keras 和 TensorFlow。 我们将探索的大多数示例都需要 GPU 来加速。 包括 TensorFlow 在内的大多数现代深度学习框架都使用 GPU 极大地加速了网络训练期间所需的大量计算。 如果没有 GPU，我们讨论的大多数模型的训练时间将过长。
+
+如果您没有安装有 GPU 的计算机，则可以从包括 Amazon 的 Amazon Web Services 和 Google 的 Google Cloud Platform 在内的各种云提供商处租用基于 GPU 的计算实例。 对于本书中的示例，我们将在运行 Ubuntu Server 16.04 的 Amazon EC2 中使用`p2.xlarge`实例。 p2.xlarge 实例提供了具有 2,496 个 CUDA 内核的 Nvidia Tesla K80 GPU，这将使我们在本书中显示的模型的运行速度甚至比非常高端的台式计算机所能达到的速度快得多。
+
+# 安装 Nvidia CUDA 工具包和 cuDNN
+
+由于您可能会在深度学习工作中使用基于云的解决方案，因此我提供了一些说明，这些说明可帮助您在 Ubuntu Linux 上快速启动并运行，Ubuntu Linux 在各个云提供商中普遍可用。 也可以在 Windows 上安装 TensorFlow 和 Keras。 从 TensorFlow v1.2 开始，TensorFlow 不幸地不支持 OSX 上的 GPU。
+
+在使用 GPU 之前，必须先安装 **NVidia CUDA 工具包**和 **cuDNN** 。 我们将安装 CUDA Toolkit 8.0 和 cuDNN v6.0，建议与 TensorFlow v1.4 一起使用。 在您阅读完本段之前，很有可能会发布新版本，因此，请访问 [www.tensorflow.org](http://www.tensorflow.org) 以获取最新的必需版本。
+
+我们将从在 Ubuntu 上安装`build-essential`包开始，该包包含编译 C++ 程序所需的大部分内容。 代码在这里给出：
+
+```py
+sudo apt-get update
+sudo apt-get install build-essential
+```
+
+接下来，我们可以下载并安装 CUDA Toolkit。 如前所述，我们将安装 8.0 版及其相关补丁。 您可以在[这个页面](https://developer.nvidia.com/cuda-zone)中找到最适合您的 CUDA 工具包。
+
+```py
+wget https://developer.nvidia.com/compute/cuda/8.0/Prod2/local_installers/cuda_8.0.61_375.26_linux-run
+sudo sh cuda_8.0.61_375.26_linux-run # Accept the EULA and choose defaults
+wget https://developer.nvidia.com/compute/cuda/8.0/Prod2/patches/2/cuda_8.0.61.2_linux-run
+sudo sh cuda_8.0.61.2_linux-run # Accept the EULA and choose defaults
+```
+
+CUDA 工具包现在应该安装在以下路径中：`/usr/local/cuda`。 您需要添加一些环境变量，以便 TensorFlow 可以找到它。 您可能应该考虑将这些环境变量添加到`~/.bash_profile`，以便在每次登录时进行设置，如以下代码所示：
+
+```py
+export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64"
+export CUDA_HOME="/usr/local/cuda"
+```
+
+此时，您可以通过执行以下命令来测试一切是否正常：`nvidia-smi`。 输出应类似于以下内容：
+
+```py
+$nvidia-smi
++-----------------------------------------------------------------------------+
+ | NVIDIA-SMI 375.26 Driver Version: 375.26 |
+ |-------------------------------+----------------------+----------------------+
+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
+ | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
+ |===============================+======================+======================|
+ | 0 Tesla K80 Off | 0000:00:1E.0 Off | 0 |
+ | N/A 41C P0 57W / 149W | 0MiB / 11439MiB | 99% Default |
+ +-------------------------------+----------------------+----------------------+
+```
+
+最后，我们需要安装 cuDNN，这是 NVIDIA CUDA 深度神经网络库。
+
+首先，将 cuDNN 下载到本地计算机。 为此，您需要在 **NVIDIA 开发人员网络**中注册为开发人员。 您可以在 [cuDNN 主页](https://developer.nvidia.com/cudnn) 上找到 cuDNN。 将其下载到本地计算机后，可以使用`scp`将其移至 EC2 实例。 虽然确切的说明会因云提供商的不同而有所差异，但是您可以在[这个页面](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AccessingInstancesLinux.html)中找到有关通过 SSH/SCP 连接到 AWS EC2 的其他信息。 。
+
+将 cuDNN 移至 EC2 映像后，可以使用以下代码解压缩文件：
+
+```py
+tar -xzvf cudnn-8.0-linux-x64-v6.0.tgz
+```
+
+最后，使用以下代码将解压缩的文件复制到其适当的位置：
+
+```py
+sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
+sudo cp cuda/lib64/* /usr/local/cuda/lib64
+```
+
+我不清楚为什么 CUDA 和 cuDNN 分别分发，为什么 cuDNN 需要注册。 cuDNN 的下载过程和手动安装过于复杂，这确实是深度学习中最大的谜团之一。
+
+# 安装 Python
+
+我们将使用`virtualenv`创建一个隔离的 Python 虚拟环境。 尽管这不是严格必要的，但这是一种极好的实践。 这样，我们会将该项目的所有 Python 库保存在一个独立的隔离环境中，该环境不会干扰系统 Python 的安装。 此外，`virtualenv`环境将使以后打包和部署我们的深度神经网络更加容易。
+
+首先，使用 Ubuntu 中的 aptitude 包管理器安装`Python`，`pip`和`virtualenv`。 以下是代码：
+
+```py
+sudo apt-get install python3-pip python3-dev python-virtualenv
+```
+
+现在，我们可以为我们的工作创建虚拟环境。 我们将所有虚拟环境文件保存在名为`~/deep-learn`的文件夹中。 您可以自由选择该虚拟环境的任何名称。 以下代码显示了如何创建虚拟环境：
+
+```py
+virtualenv --no-site-packages -p python3 ~/deep-learn
+```
+
+如果您是一位经验丰富的 Python 开发人员，您可能已经注意到我已将环境设置为默认为 Python3.x。 肯定不是必须的，并且 TensorFlow/Keras 都支持 Python 2.7。 也就是说，作者感到 Python 社区有道德义务支持现代版本的 Python。
+
+现在已经创建了虚拟环境，您可以按以下方式激活它：
+
+```py
+$source ~/deep-learn/bin/activate
+(deep-learn)$ # notice the shell changes to indicate the virtualenv
+```
+
+此时，每次登录时都需要激活要使用的虚拟环境。如果您想始终输入刚刚创建的虚拟环境，可以将`source`命令添加到`~/.bash_profile`。
+
+现在我们已经配置了虚拟环境，我们可以根据需要在其中添加 Python 包。 首先，请确保我们具有 Python 包管理器`pip`的最新版本：
+
+```py
+easy_install -U pip
+```
+
+最后，我建议安装 IPython，它是一个交互式 Python shell，可简化开发。
+
+```py
+pip install ipython
+```
+
+就是这样。 现在我们准备安装 TensorFlow 和 Keras。
+
+# 安装 TensorFlow 和 Keras
+
+在我们共同完成所有工作之后，您将很高兴看到现在安装 TensorFlow 和 Keras 多么简单。
+
+让我们开始安装 TensorFlow
+
+TensorFlow 的安装可以使用以下代码完成：
+
+```py
+pip install --upgrade tensorflow-gpu 
+
+```
+
+确保`pip install tensorflow-gpu`。 如果您通过 pip 安装 TensorfFow（不带`-gpu`），则将安装仅 CPU 版本。
+
+在安装 Keras 之前，让我们测试一下 TensorFlow 安装。 为此，我将使用 TensorFlow 网站和 IPython 解释器中的一些示例代码。
+
+通过在 bash 提示符下键入 **IPython** ，启动 **IPython** 解释程序。 **IPython** 启动后，让我们尝试导入 TensorFlow。 输出如下所示：
+
+```py
+In [1]: import tensorflow as tf
+In [2]: 
+```
+
+如果导入 TensorFlow 导致错误，请对到目前为止已执行的步骤进行故障排除。 大多数情况下，当无法导入 TensorFlow 时，可能未正确安装 CUDA 或 cuDNN。
+
+现在我们已经成功安装了 TensorFlow，我们将在 IPython 中运行一小段代码，以验证我们可以在 GPU 上运行计算：
+
+```py
+a = tf.constant([1.0,</span> 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
+b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
+c = tf.matmul(a, b)
+sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
+print(sess.run(c))
+```
+
+如果一切顺利，我们将看到许多迹象表明正在使用我们的 GPU。 我在此处提供了一些输出，并重点介绍了提请您注意的证据。 根据硬件，您的输出可能会有所不同，但是您应该看到类似的证据，如下所示：
+
+```py
+/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: Tesla K80, pci bus id: 0000:00:1e.0, compute capability: 3.7
+MatMul: (MatMul): /job:localhost/replica:0/task:0/device:GPU:0
+: I tensorflow/core/common_runtime/placer.cc:874] MatMul: (MatMul)/job:localhost/replica:0/task:0/device:GPU:0
+ b: (Const): /job:localhost/replica:0/task:0/device:GPU:0
+: I tensorflow/core/common_runtime/placer.cc:874] b: (Const)/job:localhost/replica:0/task:0/device:GPU:0
+ a: (Const): /job:localhost/replica:0/task:0/device:GPU:0
+: I tensorflow/core/common_runtime/placer.cc:874] a: (Const)/job:localhost/replica:0/task:0/device:GPU:0
+ [[ 22\. 28.]
+ [ 49\. 64.]]
+```
+
+在前面的输出中，我们可以看到张量`a`和`b`以及矩阵乘法运算已分配给 GPU。 如果访问 GPU 出现问题，则输出可能如下所示：
+
+```py
+I tensorflow/core/common_runtime/placer.cc:874] b_1: (Const)/job:localhost/replica:0/task:0/device:CPU:0
+a_1: (Const): /job:localhost/replica:0/task:0/device:CPU:0
+I tensorflow/core/common_runtime/placer.cc:874] a_1: (Const)/job:localhost/replica:0/task:0/device:CPU:0
+```
+
+在这里我们可以看到张量`b_1`和`a_1`被分配给 CPU 而不是 GPU。 如果发生这种情况，说明您的 TensorFlow，CUDA 或 cuDNN 安装存在问题。
+
+如果到目前为止，您已经安装了 TensorFlow。 剩下的唯一任务是安装 Keras。
+
+可以在以下代码的帮助下完成 Keras 的安装：
+
+```py
+pip install keras
+
+```
+
+就是这样！ 现在我们准备在 Keras 和 TensorFlow 中构建深度神经网络。
+
+这可能是创建快照甚至是 EC2 实例的 AMI 的好时机，因此您不必再次进行此安装。
+
+# 构建用于深度学习的数据集
+
+与您可能已经使用的其他预测模型相比，深度神经网络非常复杂。 考虑一个具有 100 个输入的网络，两个具有 30 个神经元的隐藏层以及一个逻辑输出层。 该网络将具有 3,930 个可学习的参数以及优化所需的超参数，这是一个非常小的例子。 大型卷积神经网络将具有数亿个可学习的参数。 所有这些参数使得深度神经网络在学习结构和模式方面如此惊人。 但是，这也使过度安装成为可能。
+
+# 深度学习中的偏差和方差误差
+
+您可能熟悉典型预测模型中的所谓偏差/方差折衷。 如果您不在，我们将在此处提供快速提醒。 在传统的预测模型中，当我们尝试从偏差中发现误差并从方差中发现误差时，通常会有一些折衷。 因此，让我们看看这两个误差是什么：
+
+*   **偏差误差**：偏差误差是模型引入的误差。 例如，如果您尝试使用线性模型对非线性函数建模，则模型将在指定的下为，*并且偏差误差会很高*。
+*   **方差误差**：方差误差是由训练数据中的随机性引起的误差。 当我们很好地拟合训练分布以至于我们的模型不再泛化时，我们就过拟合或引入了方差误差。
+
+在大多数机器学习应用中，我们寻求找到一些折衷方案，以最小化偏差误差，同时引入尽可能小的方差误差。 我之所以这么说是因为深度神经网络的一大优点是，在很大程度上，偏差和方差可以彼此独立地进行操纵。 但是，这样做时，我们将需要非常谨慎地构造训练数据。
+
+# 训练，验证和测试数据集
+
+在本书的其余部分中，我将把我的数据分为三个独立的集合，分别称为训练，验证和测试。 从总数据集中抽取为随机样本的这三个单独的数据集的结构和大小将大致如此。
+
+![](img/b2cbcf2b-3fd0-4b84-b089-c10eca3b4ded.png)
+
+训练数据集将按预期用于训练网络。
+
+验证数据集将用于查找理想的超参数并测量过拟合。 *在周期结束时*，即网络有机会观察训练集中的每个数据点时，我们将对验证集进行预测。 该预测将用于监视过拟合，并将帮助我们知道网络何时完成训练。 像这样在每个周期末尾使用验证设置与典型用法有些不同。 有关保留验证的更多信息，请参考 Hastie 和 Tibshirani 撰写的[《统计学习的特征》](https://web.stanford.edu/~hastie/ElemStatLearn)。
+
+一旦完成所有训练，就将使用测试数据集，以根据网络未看到的一组数据准确地测量模型表现。
+
+验证和测试数据来自同一数据集非常重要。 训练数据集匹配验证和测试不太重要，尽管那仍然是理想的。 例如，如果使用图像增强（对训练图像进行较小的修改以尝试扩大训练集大小），则训练集分布可能不再与验证集分布匹配。 这是可以接受的，并且只要验证和测试来自同一分布，就可以充分测量网络表现。
+
+在传统的机器学习应用中，习惯上将 10% 到 20% 的可用数据用于验证和测试。 在深度神经网络中，通常情况是我们的数据量很大，以至于我们可以用更小的验证和测试集来充分测量网络表现。 当数据量达到数以千万计的观测值时，将 98%，1%，1% 的拆分完全合适。
+
+# 在深度神经网络中管理偏差和方差
+
+现在，我们已经定义了如何构造数据并刷新偏差和方差，现在让我们考虑如何控制深度神经网络中的偏差和方差。
+
+*   **高偏差**：在训练集上进行预测时，具有高偏差的网络将具有非常高的错误率。 该模型在拟合数据方面表现不佳。 为了减少偏差，您可能需要更改网络架构。 您可能需要添加层，神经元或两者。 使用卷积或循环网络可能可以更好地解决您的问题。
+
+当然，有时由于信号不足或非常困难的问题而导致问题偏高，因此请务必以合理的速度校准您的期望（我喜欢从对人的准确率进行校准开始）。
+
+*   **高方差**：具有低偏差误差的网络很好地拟合了训练数据； 但是，如果验证误差大于测试误差，则网络已开始过拟合训练数据。 减少差异的两种最佳方法是添加数据并向网络添加正则化。
+
+添加数据很简单，但并非总是可能的。 在整本书中，我们将介绍适用的正则化技术。 我们将讨论的最常见的正则化技术是 L2 正则化，丢弃法和批量归一化。
+
+# K 折交叉验证
+
+如果您有机器学习的经验，您可能想知道为什么我会选择通过 K 折交叉验证而不是保留（训练/验证/测试）验证。 训练深度神经网络是一项非常昂贵的操作，并且非常简单地讲，针对每个我们想探索的超参数训练 K 个神经网络通常不太实用。
+
+我们可以确信，在给定的验证和测试集足够大的情况下，留出验证会做得很好。 在大多数情况下，我们希望在有大量数据的情况下应用深度学习，从而获得足够的值和测试集。
+
+最终，这取决于您。 稍后我们将看到，Keras 提供了 **scikit-learn** 接口，该接口可将 Keras 模型集成到 scikit-learn 管道中。 这使我们能够执行 K 折，分层 K 折，甚至使用 K 折进行网格搜索。 有时在训练深层模型时使用 K 折 CV 是可行且适当的。 也就是说，在本书的其余部分中，我们将重点介绍使用留出验证。
+
+# 总结
+
+希望本章能够使您对深度神经网络架构和优化算法有所了解。 因为这是快速参考，所以我们没有做太多的详细介绍，我鼓励读者对这里可能是新手或陌生的任何材料进行更深入的研究。
+
+我们讨论了 Keras 和 TensorFlow 的基础知识，以及为什么我们在本书中选择了这些框架。 我们还讨论了 CUDA，cuDNN，Keras 和 TensorFlow 的安装和配置。
+
+最后，我们介绍了本书其余部分将使用的留出验证方法，以及为什么对于大多数深度神经网络应用，我们都更喜欢 K 折 CV。
+
+当我们在以后的章节中重新审视这些主题时，我们将大量参考本章。 在下一章中，我们将开始使用 Keras 解决回归问题，这是构建深度神经网络的第一步。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/02.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/02.md
new file mode 100644
index 00000000..c886231d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/02.md
@@ -0,0 +1,325 @@
+# 二、使用深度学习解决回归问题
+
+在本章中，我们将构建一个简单的**多层感知器**（**MLP**），它是具有单个隐藏层的神经网络的奇特名称，用于解决回归问题。 然后，我们将深入研究具有多个隐藏层的深度神经网络。 在此过程中，我们将探索模型的表现和过拟合。 所以，让我们开始吧！
+
+我们将在本章介绍以下主题：
+
+*   回归分析和深度神经网络
+*   将深度神经网络用于回归
+*   在 Keras 中建立 MLP
+*   在 Keras 中建立深度神经网络
+*   保存和加载经过训练的 Keras 模型
+
+# 回归分析和深度神经网络
+
+在经典回归分析中，我们使用线性模型来学习一组独立变量和因变量之间的关系。 在找到这种关系时，我们希望能够在给定自变量值的情况下预测因变量的值。
+
+进行回归分析的第二个重要原因是要了解当所有其他自变量保持恒定时单个自变量对因变量的影响。 传统多元线性回归的一大优点是线性模型的*其他条件不变*属性。 我们可以通过使用与该自变量关联的学习权重来解释单个自变量对因变量的影响，而无需考虑其他自变量。 这种解释充其量是具有挑战性的，需要我们对我们的数据和模型做出很多假设。 但是，它通常非常有用。
+
+深度神经网络很难解释，尽管尝试这样做是一个活跃的研究领域。
+
+有关介绍深度神经网络的当前状态的介绍，请查看 Montavon 等人的[《解释和理解深度神经网络的方法》](https://arxiv.org/abs/1706.07979)。
+
+# 将神经网络用于回归的好处
+
+在本章的其余部分，我们将重点介绍使用深度神经网络进行预测。 与使用传统的多元线性回归进行比较时，您会很高兴地发现我们的神经网络具有以下优势：
+
+*   我们不需要选择或筛选特征。 神经网络是功能强大的特征工程机器，可以了解哪些特征是相关的，而忽略了无关的特征。
+*   给定足够复杂的网络，还可以学习特征交互（例如，除了`x[1]`和`x[2]`的独立效应，`x[1] * x[2]`的效应））
+*   您可能现在已经猜到了，我们还可以学习更高阶的多项式关系（例如`x[2]^3`）
+*   最后，只要我们确保最终激活可以对分布进行建模，我们就不必只对正态分布建模或对非正态分布使用不同的模型。
+
+# 将神经网络用于回归时要考虑的缺点
+
+但这并不是所有的彩虹和小猫，使用神经网络解决这些真正简单的问题也有一些弊端。 最明显的缺点是：
+
+*   如前所述，神经网络不容易解释。
+*   当具有许多特征和大量数据时，神经网络最有效。 许多简单的回归问题还不够大，无法真正从神经网络中受益。
+*   在很多情况下，传统的多元回归或树模型（例如梯度提升树）在此类问题上的表现将优于神经网络。 越复杂，就越适合神经网络。
+
+# 将深度神经网络用于回归
+
+既然您已经希望了解为什么（不希望）使用深度神经网络进行回归，那么我将向您展示如何做到这一点。 虽然它不像在 **scikit-learn** 中使用**线性回归器**那样简单，但我认为使用 **Keras** 会很容易。 最重要的是，Keras 将允许您快速迭代模型架构而无需更改大量代码。
+
+# 如何规划机器学习问题
+
+在构建新的神经网络时，我建议每次都遵循相同的基本步骤。
+
+深度神经网络很快就会变得非常复杂。 进行一点计划和组织，大大加快您的工作流程！
+
+以下是构建深度神经网络的步骤：
+
+1.  概述您要解决的问题。
+2.  确定模型的输入和输出。
+3.  选择`cost`函数和指标。
+4.  创建一个初始的网络架构。
+5.  训练和调整网络。
+
+# 定义示例问题
+
+在我们的示例问题中，我们将使用 P. Cortez 等人创建的[葡萄酒质量数据集](https://archive.ics.uci.edu/ml/datasets/wine+quality)。 考虑到白酒的其他 10 个化学特性，我们将预测白葡萄酒数据中所含酒精的百分比。
+
+此数据集中总共有 4,898 个观测值或元素，对于经典回归问题而言可能很大，但对于深度学习问题而言却很小。
+
+一些快速的探索性数据分析将告诉我们，我们将用来预测酒精含量的 10 个化学特征在不同尺度上都是连续变量。
+
+# 加载数据集
+
+虽然可能不是机器学习问题中最有趣的部分，但加载数据是重要的一步。 我将在这里介绍我的数据加载方法，以便您可以了解如何处理数据集。
+
+```py
+from sklearn.preprocessing import StandardScaler
+import pandas as pd
+
+TRAIN_DATA = "./data/train/train_data.csv"
+VAL_DATA = "./data/val/val_data.csv"
+TEST_DATA = "./data/test/test_data.csv"
+
+def load_data():
+ """Loads train, val, and test datasets from disk"""
+ train = pd.read_csv(TRAIN_DATA)
+ val = pd.read_csv(VAL_DATA)
+ test = pd.read_csv(TEST_DATA)
+
+ # we will use sklearn's StandardScaler to scale our data to 0 mean, unit variance.
+ scaler = StandardScaler()
+ train = scaler.fit_transform(train)
+ val = scaler.transform(val)
+ test = scaler.transform(test)
+ # we will use a dict to keep all this data tidy.
+ data = dict()
+
+ data["train_y"] = train[:, 10]
+ data["train_X"] = train[:, 0:9]
+ data["val_y"] = val[:, 10]
+ data["val_X"] = val[:, 0:9]
+ data["test_y"] = test[:, 10]
+ data["test_X"] = test[:, 0:9]
+ # it's a good idea to keep the scaler (or at least the mean/variance) so we can unscale predictions
+ data["scaler"] = scaler
+ return data
+```
+
+当我从 csv，excel 甚至是 DBMS 中读取数据时，第一步通常是将其加载到 pandas 数据框中。
+
+标准化我们的数据很重要，这样每个特征都应具有可比的范围，并且所有这些范围都应位于激活函数的范围之内。 在这里，我使用了 Scikit-Learn 的`StandardScaler`完成此任务。
+
+这为我们提供了一个形状完整的数据集`(4898, 10)`。 我们的目标变量`alcohol`的百分比介于 8% 和 14.2% 之间。
+
+在加载数据之前，我已经对数据进行了随机采样并将其划分为`train`，`val`和`test`数据集，因此我们在这里不必担心。
+
+最后，`load_data()`函数返回一个字典，该字典将所有内容保持整齐并放在一个位置。 如果您以后看到我参考数据`[X_train]`，则知道我正在参考训练数据集，该数据集已存储在数据字典中。
+
+。 [该项目的代码和数据均可在该书的 GitHub 网站上找到](https://github.com/mbernico/deep_learning_quick_reference)。
+
+# 定义成本函数
+
+对于回归任务，最常见的成本函数是**均方根误差**（**RMSE**）和**平均绝对误差**（**MAE**）。 我将在这里使用 MAE。 定义如下：
+
+![](img/15697b3b-001e-4120-a0d1-c4447a4dc47f.png)
+
+很简单，MAE 是数据集中所有示例的平均无符号误差。 与 RMSE 非常相似； 但是，我们使用`y`和`y_hat`之间的差的绝对值代替平均平方误差的平方根：
+
+![](img/f0a26b2f-9d67-4235-b6f1-c15e931a4efd.png)
+
+您可能想知道 MAE 与更熟悉​​的 RMSE 有何不同。 如果误差在数据集中均匀分布，则 RMSE 和 MAE 将相等。 如果数据集中有非常大的离群值，则 RMSE 将比 MAE 大得多。 您选择的成本函数应适合您的用例。 关于可解释性，MAE 比 RMSE 更具解释性，因为它是实际的平均误差。
+
+# 在 Keras 中建立 MLP
+
+Keras 使用模型对象的实例来包含神经网络。 对于熟悉 scikit-learn 的人来说，这可能是相当熟悉的。 略有不同的是 Keras 模型包含一组层。 这一组层需要由我们定义。 只需很少的代码，就可以在网络架构中实现惊人的灵活性。
+
+Keras 当前有两个用于构建模型的 API。 在我的示例中，我将使用函数式 API。 它稍微冗长一些，但可以提供更多的灵活性。 我建议尽可能使用函数式 API。
+
+我们的 MLP 将需要一个输入层，一个隐藏层和一个输出层。
+
+# 输入层形状
+
+由于我们已经确定了输入，因此我们知道输入矩阵的行数等于数据集中的数据元素/观测值的数量，并且列数等于变量/特征的数量。 输入矩阵的形状为`(观察数量 x 10 个特征)`。 TensorFlow 和 Keras 可以在定义数据集中元素的数量时使用`None`作为占位符，而不是定义数据集中或小批量中的确切记录数。
+
+如果看到 Keras 或 TensorFlow 模型层形状中使用了`None`维度，则它实际上表示任意维度，该维度可以采用任何正整数值。
+
+# 隐藏层形状
+
+我们的隐藏层将从 32 个神经元开始。 在这一点上，我们不知道需要多少神经元。 这确实是一个超参数，以后可以进行探索和调整。 为给定问题确定合适的网络架构是深度学习领域的一个开放问题。
+
+由于隐藏层中这 32 个神经元中的每一个都将其激活输出到输出层，因此隐藏层的形状将为`(10, 32)`。
+
+# 输出层形状
+
+我们的最后一层将由单个神经元组成，使用来自隐藏层的 32 个输入，将为每个观察值预测单个输出值`y_hat`。
+
+将所有各层放在一起，我们的 MLP 网络结构将如下所示：
+
+![](img/f2476d55-a48d-478c-ab29-987fe282d142.png)
+
+# 神经网络架构
+
+现在我们已经定义了输入和输出，我们可以看一下网络的代码。
+
+```py
+from keras.layers import Input, Dense
+from keras.models import Model
+def build_network(input_features=None):
+    inputs = Input(shape=(input_features,), name="input")
+    x = Dense(32, activation='relu', name="hidden")(inputs)
+    prediction = Dense(1, activation='linear', name="final")(x)
+    model = Model(inputs=inputs, outputs=prediction)
+    model.compile(optimizer='adam', loss='mean_absolute_error')
+    return model
+```
+
+这里的所有都是它的！ 然后，我们可以使用此代码，只需调用它即可构建适合于我们问题的神经网络实例，如下所示：
+
+```py
+model = build_network(input_features=10)
+```
+
+但是，在开始之前，让我们回顾一下前面代码中的一些有趣的部分：
+
+*   每层*链接到*到它上面的层。 每层都是可调用的，并返回张量。 例如，当隐藏层调用它时，我们的隐藏层*绑定到输入层*：
+
+```py
+        x = Dense(32, activation='relu', name="hidden")(inputs)
+```
+
+*   我们最后一层的激活函数是线性的。 这与不使用任何激活（这是我们要进行回归）相同。
+*   Keras 模型需要使用`.compile()`进行编译。
+*   在编译调用期间，您需要定义将要使用的成本函数和优化器。 正如我们所讨论的，在此示例中，我已将 MAE 用于成本函数。 我使用具有默认参数的 Adam 作为我的优化程序，我们在第 1 章中已经介绍了这一点。很可能我们最终将希望调整 Adam 的学习速度。 这样做非常简单：您只需要定义一个自定义`adam`实例，然后使用该实例即可：
+
+```py
+from keras.optimizers import Adam
+adam_optimizer = Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
+model.compile(optimizer=adam_optimizer, loss='mean_absolute_error')
+```
+
+# 训练 Keras 模型
+
+现在我们的网络已经构建和编译，剩下的就是训练它了。 就像 Python 的 scikit-learn 一样，您可以通过在模型实例上调用`.fit()`来做到这一点，如以下代码所示：
+
+```py
+model.fit(x=data["train_X"], y=data["train_y"], batch_size=32, epochs=200, verbose=1, validation_data=(data["val_X"], data["val_y"]))
+```
+
+让我们来看一下 Keras `fit`方法所采用的一些重要参数。 我将假设您熟悉小批量梯度下降和训练周期，但如果不熟悉，请查看第 1 章“深度学习的基础知识”， 概述。 Keras 拟合模型中的重要参数如下：
+
+*   `batch_size`：Keras 的默认批次大小为 32。批次大小是 Keras 将使用的迷你批次的大小。 当然，这意味着 Keras 假设您要使用小批量梯度下降。 如果由于某种原因不想使用小批量梯度，可以设置`batch_size=None`。
+*   `epochs`：一个周期只是整个训练集的单次通过。 在实践中，您需要在训练网络时对其进行监视，以了解网络何时收敛，因此`epochs`是一个易于学习的超参数。 稍后，我们将看到可以在每个周期甚至比最后一个周期更好的每个周期保存模型的权重。 一旦知道如何做到这一点，我们就可以选择我们认为最好的周期，并实现一种基于人的早期停止。
+*   `validation_data`：在这里，我们指定验证集。 在每个阶段结束时，Keras 将在验证集上测试模型，并使用损失函数和您指定的任何其他指标输出结果。 另外，您可以将`validation_split`设置为浮点值，以指定要用于验证的训练组的百分比。 这两个选项都可以正常工作，但是在数据集拆分方面，我希望讲得很明确。
+*   `verbose`：这有点不言而喻； 但是，值得一提。 `verbose=1`输出一个进度条，显示当前周期的状态，在周期结束时，Keras 将输出训练和验证损失。 也可以将`verbose`设置为 2（每个小批量输出损失信息），将其设置为 0（使 Keras 保持静音）。
+
+# 评估模型的表现
+
+现在我们的 MLP 已经过训练，我们可以开始了解它的表现。 为此，我将对`Train`，`Val`和`Test`数据集进行预测。 相同的代码如下：
+
+```py
+print("Model Train MAE: " + str(mean_absolute_error(data["train_y"], model.predict(data["train_X"]))))
+print("Model Val MAE: " + str(mean_absolute_error(data["val_y"], model.predict(data["val_X"]))))
+print("Model Test MAE: " + str(mean_absolute_error(data["test_y"], model.predict(data["test_X"]))))
+```
+
+对于我们的 MLP，这是我们做得如何：
+
+```py
+Model Train MAE: 0.190074701809
+Model Val MAE: 0.213255747475 
+Model Test MAE: 0.199885450841
+```
+
+请记住，我们的数据已缩放为 0 均值和单位方差。 `Train MAE`是`0.19`，而我们的`Val MAE`是`0.21`。 这两个误差彼此之间非常接近，所以过分适合并不是我太在意的事情。 因为我预计会有一些我看不到的过拟合（通常是更大的问题），所以我认为此模型可能有太多偏差。 换句话说，我们可能无法足够紧密地拟合数据。 发生这种情况时，我们需要为我们的模型添加更多的层，更多的神经元或两者。 我们需要更深入。 让我们接下来做。
+
+我们可以尝试通过以更多神经元的形式向网络添加参数来减少网络偏差。 虽然您可能会开始尝试优化优化器，但通常最好先找到自己熟悉的网络架构。
+
+# 在 Keras 中建立深度神经网络
+
+更改模型就像重新定义我们先前的`build_network()`函数一样容易。 我们的输入层将保持不变，因为我们的输入没有更改。 同样，输出层应保持不变。
+
+我将通过添加其他隐藏层将参数添加到我们的网络中。 我希望通过添加这些隐藏层，我们的网络可以了解输入和输出之间更复杂的关系。 我将从添加四个其他隐藏层开始； 前三个将具有 32 个神经元，第四个将具有 16 个神经元。其外观如下：
+
+![](img/99c9c0e2-cba2-4af0-bdc3-9e1c929a2f2d.png)
+
+以下是在 Keras 中构建模型的相关代码：
+
+```py
+def build_network(input_features=None):
+    inputs = Input(shape=(input_features,), name="input")
+    x = Dense(32, activation='relu', name="hidden1")(inputs)
+ x = Dense(32, activation='relu', name="hidden2")(x)
+ x = Dense(32, activation='relu', name="hidden3")(x)
+ x = Dense(32, activation='relu', name="hidden4")(x)
+ x = Dense(16, activation='relu', name="hidden5")(x)
+    prediction = Dense(1, activation='linear', name="final")(x)
+    model = Model(inputs=inputs, outputs=prediction)
+    model.compile(optimizer='adam', loss='mean_absolute_error')
+    return model
+```
+
+如所承诺的，我们的代码几乎没有改变。 我将其他行加粗了。 我们其余的代码可以保持不变。 但是，随着网络复杂性的增加，您通常必须训练更长的时间（更多的时间）。
+
+# 测量深度神经网络表现
+
+在这个问题上，深层网络真的比 MLP 好吗？ 让我们找出答案！ 训练了 500 个周期后，模型的效果如下：
+
+```py
+Model Train MAE: 0.0753991873787
+Model Val MAE: 0.189703853999
+Model Test MAE: 0.190189985043
+```
+
+我们可以看到`Train MAE`现在从`0.19`减少到`0.075`。 我们大大降低了网络的偏差。
+
+但是，我们的差异增加了。 训练误差和验证误差之间的差异要大得多。 我们的`Val`集误差确实略有下降，这很好； 但是，训练误差和验证误差之间的巨大差距表明我们开始过度适应训练集。
+
+在这种情况下，减少差异的最直接方法是添加其他训练数据或应用诸如 L2 正则化或丢弃法之类的正则化技术，我们将在下一章中介绍。
+
+对于高方差网络，更多的数据通常是最佳解决方案。 如果有可能收集更多数据，那可能就是花费时间的最佳位置。
+
+建立网络后，我想直观地检查误差，以了解网络对验证集分布进行建模的程度。 这通常会带来见解，这将有助于我改进模型。 对于回归模型，我想绘制验证集的预测值和实际值的直方图。 让我们看看我的表现如何。 该图如下，供您参考：
+
+![](img/f254ee63-9487-4f22-93f4-70090f208fe6.jpg)
+
+总体而言，我认为该模型正在相当接近地预测实际分布。 似乎实际的验证数据集比预测的数据集向左移动（较小的值）要多一些，这可能是一个重要的见解。 换句话说，网络可能会预测葡萄酒的酒精含量高于平均水平，尤其是在酒精含量较低的情况下。 更仔细地检查验证数据可能会建议我们如何收集更多的训练数据。
+
+# 调整模型超参数
+
+现在，我们已经针对该问题训练了 MLP 和六层深度神经网络，现在可以调整和优化模型超参数了。
+
+我们将在第 6 章“超参数优化”中讨论深度模型调整。 您可以使用多种策略为模型选择最佳参数。 您可能已经注意到，我们仍然可以优化许多可能的参数和超参数。
+
+如果要完全调整此模型，则应执行以下操作：
+
+*   试验隐藏层的数量。 看来五个可能太多，而一个可能还不够。
+*   试验每个隐藏层相对于层数的神经元数量。
+*   尝试添加丢弃或正则化。
+*   尝试通过尝试使用 SGD 或 RMS 属性而不是 Adam 或通过对 Adam 使用不同的学习率来进一步减少模型误差。
+
+深度神经网络有许多活动部分，有时要达到最佳状态是一个疲惫的概念。 您必须确定您的模型是否足够好。
+
+# 保存和加载经过训练的 Keras 模型
+
+您不太可能会训练一个深层的神经网络，然后将其应用到同一脚本中。 最有可能的是，您将需要训练网络，然后保存结构和权重，以便可以将其用于设计用于对新数据进行评分的面向生产的应用中。 为此，您需要能够保存和加载模型。
+
+在 Keras 中保存模型非常简单。 您可以使用模型实例的`.save()`方法将网络结构和权重保存到`hdf5`文件，如以下代码所示：
+
+```py
+model.save("regression_model.h5")
+```
+
+这就是全部。 从磁盘加载模型非常简单。 此处提供了执行此操作的代码供您参考：
+
+```py
+from keras.models import load_model
+model = load_model("regression_model.h5")
+```
+
+# 总结
+
+当您考虑深度学习时，您可能会想到令人印象深刻的复杂计算机视觉问题，但是即使对于像这样的简单回归问题，深度神经网络也可能有用。 希望我已经证明了这一点，同时还介绍了 Keras 语法并向您展示了如何构建一个非常简单的网络。
+
+随着我们的继续，我们将遇到更多的复杂性。 更大的网络，更复杂的成本函数以及高维输入数据。 但是，我在本章中使用的过程在大多数情况下将保持不变。 在每种情况下，我们都将概述问题，确定输入和输出，选择成本函数，创建网络架构，最后训练和调整模型。
+
+如果考虑以下因素，则在深度神经网络中通常可以独立地控制和减少偏差和方差：
+
+*   **偏差**：可以通过增加模型复杂度来减少此偏差。 其他神经元或层将有所帮助。 添加数据并不能真正帮助减少偏差。
+*   **方差**：可以通过添加数据或正则化来减少此变化。
+
+在下一章中，我们将讨论如何使用 TensorBoard 更快地对深度神经网络进行优化和故障排除。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/03.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/03.md
new file mode 100644
index 00000000..5a405c61
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/03.md
@@ -0,0 +1,195 @@
+# 三、使用 TensorBoard 监控网络训练
+
+在本章中，我将向您展示如何使用 TensorBoard 帮助更快更轻松地训练深度神经网络。 我认为 TensorBoard 是一个很棒的工具，经常被忽略，而它又常常被拖到脚注或上一章中。 现在，让我们看一下 TensorBoard，以便我们可以立即开始利用它。
+
+我们将在本章介绍以下主题：
+
+*   TensorBoard 的简要概述
+*   设置 TensorBoard
+*   将 Keras 连接到 TensorBoard
+*   使用 TensorBoard
+
+# TensorBoard 的简要概述
+
+TensorBoard 是一个基于 Web 的应用，可以帮助您可视化 TensorFlow 中创建的深度神经网络的指标，参数和结构。 它将帮助您更快，更轻松地调试和优化深度神经网络。
+
+正如您现在可能已经猜到的那样，深度神经网络可能变得相当复杂。 不幸的是，这意味着很多事情可能出错。 众所周知，我时不时地会犯一个错误，而当错误发生在一个深度神经网络内部时，该深度神经网络位于一个框架内，该框架在另一个框架上运行，在一个 GPU 上运行，很难找到这些错误。 他们。 TensorBoard 可能是您需要在其他本来很暗的房间中发现问题的手电筒。 TensorBoard 将允许您在训练网络时监视指标和参数的变化，这可以大大加快故障排除速度。
+
+TensorBoard 也非常适合优化。 借助 TensorBoard，您可以直观地比较多个模型运行。 这使您可以试验不断变化的架构和超参数，然后相对于网络的其他运行评估那些变化。 所有这一切都可能在每个周期发生，因此如果您愿意，您可以取消效果不佳的模型运行，从而节省了时间和金钱。 您可以在[这个页面](https://www.tensorflow.org/programmers_guide/summaries_and_tensorboard)上阅读有关 TensorBoard 的更多信息。
+
+# 设置 TensorBoard
+
+TensorBoard 是一个独立的 Web 应用。 您将通过网络浏览器使用它。 设置需要两个步骤。 首先，我们将设置 TensorBoard 以可视化在 TensorFlow 和 Keras 中构建的网络，然后我们将设置 Keras 与 TensorBoard 共享信息。
+
+本节介绍 TensorBoard 的设置。 接下来的内容将涉及修改 Keras 代码以与 TensorBoard 共享信息。
+
+# 安装 TensorBoard
+
+如果您已经安装了 TensorFlow，则您的机器上可能已经安装了 Tensorboard。 万一您可以安装和更新 TensorBoard，可以使用`pip`进行安装，就像 Keras 和 TensorFlow 一样。 要安装它，只需运行以下命令：
+
+```py
+pip install -U tensorboard
+```
+
+# TensorBoard 如何与 Keras/TensorFlow 交互
+
+TensorBoard 和 TensorFlow 使用公共日志目录共享信息。 在 Keras 和 TensorFlow 训练中，Keras 将指标和激活直方图（稍后将对此进行详细介绍）写入您指定的日志目录中。 现在，让我们使用以下代码在主目录中为该示例创建一个日志目录：
+
+```py
+mkdir ~/ch3_tb_log
+```
+
+# 运行 TensorBoard
+
+剩下的就是启动 TensorBoard 进程。 我们可以使用以下代码启动 TensorBoard：
+
+```py
+tensorboard --logdir ~/ch3_tb_log --port 6006
+```
+
+您可能已经猜到了，`--logdir`指定我们刚刚创建的目录，`--port 6006`指定 TensorBoard 将在其上运行的端口。 端口`6006`是默认端口。 但是，您可以使用所需的任何端口。
+
+现在，您应该可以通过将浏览器指向`http://<ip address>:6006`来导航到 TensorBoard URL。
+
+如果使用的是云服务，则可能还需要调整防火墙或安全规则，以允许通过端口`6006`连接到服务器。 在 Amazon Web Services（AWS）上，您可以通过编辑与您的 EC2 实例关联的安全组中的入站规则来执行此操作：
+
+![](img/c60f32d7-a490-4be7-9c2e-99d908a4629d.png)
+
+您可能不希望像我上面那样允许全世界范围内的开放访问。 这只是一个测试实例，因此我不太关心安全性，无论如何我都喜欢过着危险的生活。
+
+如果一切正常，您应该看到一个空的 TensorBoard，如下所示：
+
+![](img/993da368-288f-4f42-b203-95d36c77464d.png)
+
+不用担心，我们很快就会填满。
+
+# 将 Keras 连接到 TensorBoard
+
+现在 TensorBoard 已启动并正在运行，剩下的就是告诉 Keras 将 TensorBoard 日志写入我们上面指定的目录。 幸运的是，这确实很容易实现，它为我们提供了一个很好的机会来了解 Keras 中称为 **Keras 回调**的特殊函数类。
+
+# 引入 Keras 回调
+
+Keras 中的回调是可以在训练过程中运行的函数。 他们可以做各种伟大的事情，例如在某个周期之后节省模型权重，记录事情，更改超参数或方便地编写 TensorBoard 日志文件。 您甚至可以创建自己的自定义回调。
+
+在下一节中，我们将使用 TensorBoard 回调。 但是，我鼓励您在[这个页面](https://keras.io/callbacks)上查看 Keras 中可用的所有回调。
+
+TensorBoard 回调是可以在模型训练之前进行配置和实例化的对象。 我们将创建这些回调的列表。 一旦创建了要用于深度神经网络的回调列表，我们就可以将该列表作为参数传递给模型的`.fit()`方法。 然后，将在每个周期或 Keras 适当时使用这些回调。 在我们继续下一个示例时，这将更有意义。
+
+# 创建一个 TensorBoard 回调
+
+在本章中，我通过复制第 2 章“开始使用深度学习来解决回归问题”的网络和数据。 我们将做一些简单的添加来添加 TensorBoard 回调。 让我们从修改我们首先构建的`mlp`开始。
+
+首先，我们需要使用以下代码导入 TensorBoard 回调类：
+
+```py
+from keras.callbacks import TensorBoard
+```
+
+然后，我们将启动回调。 我喜欢在创建所有回调的函数中执行此操作，以使事情精心制作和整理。 下面的`create_callbacks()`函数将返回我们将传递给`.fit()`的所有回调的列表。 在这种情况下，它将返回一个包含一个元素的列表：
+
+```py
+def create_callbacks():
+    tensorboard_callback = TensorBoard(log_dir='~/ch3_tb_log/mlp',  
+      histogram_freq=1, batch_size=32, write_graph=True, 
+        write_grads=False)
+    return [tensorboard_callback]
+```
+
+在继续之前，我们先介绍一下这里使用的一些参数：
+
+*   `log_dir` **：**这是我们将为 TensorBoard 写入日志文件的路径。
+
+您可能已经注意到，我正在将 MLP 网络的 TensorBoard 回调的日志写入`~/ch_3_tb_log/mlp`，这将在我们为 TensorBoard 指定的目录下创建一个新的目录`mlp`。 这是故意的。 我们将配置在第 2 章，“使用深度学习解决回归问题”训练的深度神经网络模型，以登录到单独的目录`~/ch_3_tb_log/dnn`。 这样做将使我们能够比较两个模型的运行。
+
+*   `histogram_freq`：这指定我们将多长时间计算一次激活和权重的直方图（以周期为单位）。 它的默认值为 0，这会使日志更小，但不会生成直方图。 我们将介绍为什么以及何时您会对直方图感兴趣。
+*   `batch_size`：这是用于计算直方图的批量大小。 默认为 32。
+*   `write_graph`：此函数为布尔值。 这将告诉 TensorBoard 可视化网络图。 这可能非常方便，但也会使日志变得很大。
+*   `write_grads`：此函数也是布尔值。 这将告诉 TensorBoard 也计算梯度的直方图。
+
+由于 TensorFlow 会自动为您计算梯度，因此很少使用。 但是，如果您要使用自定义激活或费用，它可能是出色的故障排除工具。
+
+TensorBoard 回调可以接受用于在图像上运行神经网络或通过使用嵌入式层的其他参数。 我们将在本书的后面介绍这两个方面。 如果您对这些函数感兴趣，请访问 [TensorBoard API 文档](https://keras.io/callbacks/#tensorboard)。
+
+现在，我们只需要创建回调列表，并将`mlp`与`callbacks`参数匹配即可。 看起来像这样：
+
+```py
+callbacks = create_callbacks()
+model.fit(x=data["train_X"], y=data["train_y"], batch_size=32, 
+  epochs=200, verbose=1, validation_data=(data["val_X"], 
+    data["val_y"]), callbacks=callbacks)
+```
+
+为了清楚起见，我将新参数加粗了。
+
+在继续使用 TensorBoard 之前，我将以与检测`mlp`相同的方式来检测深度神经网络。 唯一的代码更改是我们将 TensorBoard 日志写入的目录。 下面给出了实现该方法的方法，供您参考：
+
+```py
+def create_callbacks():
+tensorboard_callback = TensorBoard(log_dir='./ch3_tb_log/dnn', 
+  histogram_freq=1, batch_size=32, write_graph=True, write_grads=False) 
+    return [tensorboard_callback]
+```
+
+其余代码将相同。 现在，让我们再次训练每个网络，看看 TensorBoard。
+
+# 使用 TensorBoard
+
+现在我们已经完全配置了 TensorBoard 并告诉我们的网络如何向其发送日志数据，我们可以开始利用它了。 在本章的其余部分，我将向您展示一些我最喜欢的使用 TensorBoard 的方式。 TensorBoard 的功能不只此而已，我们将在本书的其余部分中重新讨论其他功能。
+
+# 可视化训练
+
+由于我们已在第 2 章“使用了深度学习解决回归问题”中使用这两种模型编写了日志数据，因此可以使用 TensorBoard 以图形方式比较这两种模型。 打开 TensorBoard 并转到`SCALARS`选项卡。 您应该会看到类似这样的内容。 您可能需要单击`loss`和`val_loss`来展开图形：
+
+![](img/6ed1b1a7-9d13-4b10-91f3-2c4bfb2db2f3.png)
+
+张量板显示模型的损失图和`val_loss`图
+
+如果您查看屏幕的左下角，则应注意，我们创建的每个目录都有与之关联的运行。 两者均处于选中状态。 这意味着在我们的图形上，我们将看到两个模型的输出。
+
+TensorBoard 可以容纳许多运行，并且您可以通过正则表达式过滤它们（例如`^dnn`将显示所有以`dnn`开头的运行）。 这意味着，如果您通过许多实验或运行（例如超参数优化）来搜索*最佳*模型，则可以在明确并一致地命名运行，并包含有意义的超参数和架构信息的情况下，以这个名字快速浏览它们！
+
+这些图上的默认 **X** 比例尺是**周期**。 **Y** 值是我们选择的**损失函数**，即 **MAE**。 您可以单击图形以浏览它们并拖动以缩放。
+
+看到这样的图，我们真的可以看到每个网络的相对偏差和方差。 虽然模型之间在训练损失方面有很好的分离，但深度神经网络在验证集上只得到了一点点改善，这表明我们已经进入了过拟合的领域。
+
+# 可视化网络图
+
+虽然能够查看我们的训练过程并比较模型显然很不错，但这并不是 TensorBoard 所能做的。 我们还可以使用它来可视化网络结构。 在这里，我导航到`GRAPHS`并提出了深度神经网络的结构：
+
+![](img/72681941-2389-4a4d-a46b-4eab65916404.png)
+
+TensorBoard 显示深度神经网络的结构
+
+训练节点代表输入张量，默认情况下，正是这个巨型章鱼以某种无益的方式连接到图的其余部分。 要解决此问题，您只需单击该节点，然后单击从主图中删除。 然后将其移到侧面。
+
+# 可视化损坏的网络
+
+TensorBoard 是一个出色的故障排除工具。 为了证明这一点，我将复制我们的深度神经网络并将其破坏！ 幸运的是，打破神经网络真的很容易。 相信我，我已经无意间做了这件事，以至于我现在基本上是专家。
+
+想象一下，您刚刚训练了一个新的神经网络，并且看到损失看起来像这样：
+
+![](img/e381f86e-8ca3-4295-beaa-4445f3ac97cf.png)
+
+该网络的损失函数被卡住，并且比我们之前的运行要高得多。 什么地方出了错？
+
+导航到 TensorBoard 的`HISTOGRAMS`部分，并可视化第一个隐藏层。 让我们比较两个网络中隐藏层 1 的权重直方图：
+
+![](img/31967a1e-24c4-474d-bac9-67bc586e2c6a.png)
+
+显示两个网络中隐藏层 1 的权重直方图的屏幕截图
+
+对于标记为 dnn 的网络的偏差和权重，您将看到权重分布在整个图中。 您甚至可以说每个分布都可能是正态分布。
+
+您也可以在“分布”部分比较权重和偏差。 两者都以略有不同的方式呈现大多数相同的信息。
+
+现在，看看我们破碎的网络的权重和偏置。 并不是*这样分散*，实际上的权重基本上是相同的。 网络并不是真正的学习。 该层中的每个神经元看起来或多或少都是相同的。 如果您查看其他隐藏层，则会看到更多相同的层。
+
+您可能想知道我是怎么做到的。 您很幸运，我会分享我的秘密。 毕竟，您永远都不知道何时需要断开自己的网络。 为了解决问题，我将网络中的每个神经元初始化为完全相同的值。 发生这种情况时，每个神经元在反向传播期间收到的误差是完全相同的，并且更改的方式也完全相同。 网络然后无法破坏对称性。 以随机方式将权重初始化到深度神经网络非常重要，如果您违反了该规则，就会发生这种情况！
+
+遇到问题时，可以像这样完全使用 TensorBoard。 请记住，我们的深度神经网络有 4033，在深度学习领域中，它仍然可以算作*很小的*。 使用 TensorBoard，我们能够直观地检查 4033 个参数并确定问题。 TensorBoard 是一个用于深度学习的暗室中的神奇手电筒。
+
+# 总结
+
+在本章中，我们讨论了如何安装，配置和使用 TensorBoard。 我们讨论了如何使用 TensorBoard 在 TensorBoard 的`SCALARS`部分中的每个周期检查模型的损失函数，从而直观地比较模型。 然后，我们使用 TensorsBoard 的`GRAPHS`部分来可视化网络结构。 最后，我们通过查看直方图向您展示了如何使用 TensorBoard 进行故障排除。
+
+在下一章中，我们将研究如何使用 Keras 和 TensorFlow 解决二分类问题，从而扩展我们的深度学习技巧。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/04.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/04.md
new file mode 100644
index 00000000..b76dcdf7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/04.md
@@ -0,0 +1,336 @@
+# 四、使用深度学习解决二分类问题
+
+在本章中，我们将使用 Keras 和 TensorFlow 解决棘手的二分类问题。 我们将首先讨论深度学习对此类问题的利弊，然后我们将继续使用与第 2 章“学习解决回归问题”中使用的相同框架建立解决方案。 最后，我们将更深入地介绍 Keras 回调，甚至使用自定义回调来实现每个周期的**受试者工作特征的曲线下面积**（**ROC AUC**）指标。
+
+我们将在本章介绍以下主题：
+
+*   二分类和深度神经网络
+*   案例研究 – 癫痫发作识别
+*   在 Keras 中建立二分类器
+*   在 Keras 中使用检查点回调
+*   在自定义回调中测量 ROC AUC
+*   测量精度，召回率和 f1 得分
+
+# 二分类和深度神经网络
+
+二分类问题（例如回归问题）是非常常见的机器学习任务。 如此之多，以至于任何一本有关深度学习的书都无法完整覆盖。 可以肯定的是，我们还没有真正达到深度神经网络的甜蜜点，但是我们进展顺利。 在开始编写代码之前，让我们谈谈在选择深度神经网络来解决此类问题时应考虑的权衡。
+
+# 深度神经网络的好处
+
+与更传统的分类器（例如逻辑回归模型）或什至基于树的模型（例如**随机森林**或**梯度提升机**）相比，深度神经网络有一些不错的优点。
+
+与回归一样，在第 2 章“使用深度学习解决回归问题”中，我们不需要选择或筛选特征。 在本章选择的问题中，有 178 个输入变量。 每个输入变量都是来自标记为`x1..x178`的**脑电图**（**EEG**）的特定输入。 即使您是医生，也很难理解这么多特征与目标变量之间的关系。 这些特征中的某些特征很可能是不相关的，而这些变量和目标之间可能存在一些更高级别的交互，这是一个更好的机会。 如果使用传统模型，则经过特征选择步骤后，我们将获得最佳模型表现。 使用深度神经网络时不需要这样做。
+
+# 深度神经网络的缺点
+
+正如我们在第 2 章“使用深度学习解决回归问题”所述，深度神经网络不容易解释。 虽然深度神经网络是出色的预测器，但要理解它们为何得出自己的预测并不容易。 需要重复的是，当任务是要了解哪些特征与目标的变化最相关时，深度神经网络并不是工作的工具。 但是，如果目标是原始预测能力，则应考虑使用深度神经网络。
+
+我们还应该考虑复杂性。 深度神经网络是具有许多参数的复杂模型。 找到最佳的神经网络可能需要花费时间和实验。 并非所有问题都能确保达到如此复杂的水平。
+
+在现实生活中，我很少使用深度学习作为结构化数据问题的第一个解决方案。 我将从可能可行的最简单模型开始，然后根据问题的需要迭代进行深度学习。 当问题域包含图像，音频或文本时，我更有可能从深度学习开始。
+
+# 案例研究 – 癫痫发作识别
+
+您可能已经猜到了，我们将要解决二分类问题。 我们将使用与在第 2 章“使用深度学习解决回归问题”建立的框架相同的框架来计划问题，并根据需要对其进行修改。 您可以在本书的 GitHub 存储库中的第 4 章“使用深度学习解决回归问题”，找到本章的完整代码。
+
+# 定义我们的数据集
+
+我们将在本章中使用的数据集称为**癫痫发作识别**数据集。 数据最初来自Andrzejak RG 等人在 Phys 上发表的论文《指示脑电活动的时间序列中的非线性确定性和有限维结构：对记录区域和大脑状态的依赖性》。您可以在 [UCI 机器学习存储库](http://archive.ics.uci.edu/ml/datasets/Epileptic+Seizure+Recognition)中找到数据。
+
+我们的目标是创建一个深度神经网络，根据输入特征，该网络可以预测患者是否有癫痫发作。
+
+# 加载数据
+
+我们可以使用以下函数加载本章中使用的数据。 它与我们在第 2 章中使用的函数非常相似，但是适用于此数据集。
+
+```py
+from sklearn.preprocessing import StandardScaler
+
+def load_data():
+ """Loads train, val, and test datasets from disk"""
+ train = pd.read_csv(TRAIN_DATA)
+ val = pd.read_csv(VAL_DATA)
+ test = pd.read_csv(TEST_DATA)
+
+ # we will use a dict to keep all this data tidy.
+ data = dict()
+ data["train_y"] = train.pop('y')
+ data["val_y"] = val.pop('y')
+ data["test_y"] = test.pop('y')
+
+ # we will use sklearn's StandardScaler to scale our data to 0 mean, unit variance.
+ scaler = StandardScaler()
+ train = scaler.fit_transform(train)
+ val = scaler.transform(val)
+ test = scaler.transform(test)
+
+ data["train_X"] = train
+ data["val_X"] = val
+ data["test_X"] = test
+ # it's a good idea to keep the scaler (or at least the mean/variance) so we can unscale predictions
+ data["scaler"] = scaler
+ return data
+```
+
+# 模型输入和输出
+
+该数据集中有 11,500 行。 数据集的每一行包含 178 个数据点，每个数据点代表 1 秒钟的 EEG 记录样本和相应的患者状态，跨 100 个不同患者生成。
+
+数据集中有五个患者状态。 但是，状态 2 至状态 5 的患者未发生癫痫发作。 状态 1 的患者正在发作。
+
+我已经修改了原始数据集，通过将状态 2-5 更改为 0 级（表示无癫痫发作）和将 1 级（表示有癫痫发作）将状态重新定义为二分类问题。
+
+与第 2 章“使用深度学习解决回归问题”中的回归问题一样，我们将使用 80% 的训练，10% 的 val，10% 的测试分割。
+
+# 成本函数
+
+我们需要分类器来预测癫痫发作的可能性，即类别 1。这意味着我们的输出将被限制为`[0, 1]`，就像在传统的逻辑回归模型中一样。 在这种情况下，我们的成本函数将是二元交叉熵，也称为**对数损失**。 如果您以前使用过分类器，那么您可能很熟悉此数学运算； 但是，作为复习，我将在这里包括。
+
+对数损失的完整公式如下所示：
+
+![](img/0b843338-e484-47d0-9bec-6b9db1209675.png)
+
+这可能更简单地看作是两个函数的集合，对于情况`y[i] = 0`和`y[i] = 1`，一个函数：
+
+![](img/2c455fce-cf7b-4e8b-ad2b-be204b77667f.png)
+
+当`y[i] = 1`，
+
+![](img/e5f0cab0-6a5b-4bc5-a8d1-f8159aed950e.png)
+
+当`y[i] = 0`。
+
+对数函数在这里用于产生单调函数（一个一直在增加或减少的函数），我们可以轻松微分它。 与所有成本函数一样，我们将调整网络参数以最小化网络成本。
+
+# 使用指标评估表现
+
+除了`loss`函数之外，Keras 还使我们可以使用度量标准来帮助判断模型的表现。 虽然最大程度地降低损失是有好处的，但在给定`loss`函数的情况下，我们如何期望模型执行效果并不是特别明显。 度量标准并不用于训练模型，它们只是用来帮助我们了解当前状态。
+
+尽管损失对我们而言并不重要，但准确率却对我们而言意义重大。 我们人类非常了解准确率。
+
+Keras 定义二元精度如下：
+
+```py
+def binary_accuracy(y_true, y_pred):
+    return K.mean(K.equal(y_true, K.round(y_pred)), axis=-1)
+
+```
+
+这实际上只是将正确答案的数量除以总答案的一种聪明方法，这是我们自从上学初期就可能一直在做的一项工作，目的是计算出考试的成绩。
+
+您可能想知道我们的数据集是否平衡，因为准确率对于不平衡的数据集而言效果很差。 实际上这是不平衡的。 只有五分之一的数据集是类 1。我们将 ROC AUC 分数作为自定义回调来计算，以解决此问题。 在 Keras 中未将 ROC 用作度量标准，因为度量标准是针对每个小型批次计算的，并且 ROC AUC 分数并非真正由小型批次定义。
+
+# 在 Keras 中建立二分类器
+
+既然我们已经定义了问题，输入，期望的输出和成本函数，我们就可以在 Keras 中快速编写其余代码。 我们唯一缺少的是网络架构。 我们将很快讨论更多。 关于 Keras 的我最喜欢的事情之一是调整网络架构有多么容易。 如您所见，在找到最佳架构之前，可能需要进行大量实验。 如果是这样，那么易于更改的框架会使您的工作变得更加轻松！
+
+# 输入层
+
+和以前一样，我们的输入层需要知道数据集的维度。 我喜欢在一个函数中构建整个 Keras 模型，并允许该函数传递回已编译的模型。 现在，此函数仅接受一个参数，即特征数。 以下代码用于定义输入层：
+
+```py
+def build_network(input_features=None):
+    # first we specify an input layer, with a shape == features
+    inputs = Input(shape=(input_features,), name="input")
+```
+
+# 隐藏层
+
+我们已经定义了输入，这很容易。 现在我们需要确定网络架构。 我们如何知道应该包括多少层以及应该包含多少个神经元？ 我想给你一个公式。 我真的会。 不幸的是，它不存在。 实际上，有些人正在尝试构建可以学习其他神经网络的最佳架构的神经网络。 对于我们其余的人，我们将不得不尝试，寻找自己或借用别人的架构。
+
+# 如果我们使用的神经元过多会怎样？
+
+如果我们使网络架构过于复杂，则会发生两件事：
+
+*   我们可能会开发一个高方差模型
+*   该模型将比不太复杂的模型训练得慢
+
+如果我们增加许多层，我们的梯度将变得越来越小，直到前几层几乎没有训练为止，这就是**梯度消失问题**。 我们离那还很遥远，但是我们稍后会讨论。
+
+用说唱传奇克里斯托弗·华莱士（又名臭名昭著的 B.I.G.）的话来说，我们遇到的神经元越多，看到的问题就越多。 话虽如此，方差可以通过丢弃法，正则化和提早停止进行管理，GPU 计算的进步使更深层次的网络成为可能。
+
+如果我必须在神经元太多或太少的网络之间进行选择，而我只能尝试一个实验，那么我宁愿选择稍微过多的神经元。
+
+# 如果我们使用的神经元太少会怎样？
+
+想象一下，我们没有隐藏层，只有输入和输出的情况。 我们在第 1 章“深度学习的基础知识”中讨论了该架构，在此我们展示了如何无法为`XOR`函数建模。 这样的网络架构无法对数据中的任何非线性进行建模，因此无法通过网络进行建模。 每个隐藏层都为特征工程越来越复杂的交互提供了机会。
+
+如果选择的神经元太少，则结果可能如下：
+
+*   真正快速的神经网络
+*   那有很高的偏差，而且预测不是很好
+
+# 选择隐藏层架构
+
+因此，既然我们了解选择太多参数而不是选择太多参数的价格和行为，那么从哪里开始呢？ 据我所知，剩下的只是实验。
+
+测量这些实验可能很棘手。 如果像我们的早期网络一样，您的网络训练很快，那么可以在多种架构中实现诸如交叉验证之类的东西，以评估每种架构的多次运行。 如果您的网络需要很长时间进行训练，则可能会留下一些统计上不太复杂的信息。 我们将在第 6 章“超参数优化”中介绍网络优化。
+
+一些书籍提供了选择神经网络架构的经验法则。 我对此表示怀疑和怀疑，您当然不会在这里找到一个。
+
+# 为我们的示例编码隐藏层
+
+对于我们的示例问题，我将使用五个隐藏层，因为我认为特征之间存在许多交互。 我的直觉主要基于领域知识。 阅读数据描述后，我知道这是时间序列的横截面切片，并且可能是自动相关的。
+
+我将从第一层的 128 个神经元开始（略小于我的输入大小），然后在接近输出时减半到 16 个神经元。 这完全不是凭经验，它仅基于我自己的经验。 我们将使用以下代码定义隐藏层：
+
+```py
+x = Dense(128, activation='relu', name="hidden1")(inputs)
+x = Dense(64, activation='relu', name="hidden2")(x)
+x = Dense(64, activation='relu', name="hidden3")(x)
+x = Dense(32, activation='relu', name="hidden4")(x)
+x = Dense(16, activation='relu', name="hidden5")(x)
+```
+
+在每一层中，我都使用`relu`激活，因为它通常是最好和最安全的选择，但是要确保这也是可以试验的超参数。
+
+# 输出层
+
+最后，我们需要网络的输出层。 我们将使用以下代码定义输出层：
+
+```py
+prediction = Dense(1, activation='sigmoid', name="final")(x)
+```
+
+在此示例中，我们正在构建一个二分类器，因此我们希望我们的网络输出观察结果属于类 1 的概率。幸运的是，`sigmoid`激活将精确地做到这一点，将网络输出限制在 0 到 1 之间。
+
+# 放在一起
+
+将所有代码放在一起，剩下的就是编译我们的 Keras 模型，将`binary_crossentrophy`指定为我们的`loss`函数，将`accuracy`指定为我们希望在训练过程中监控的指标。 我们将使用以下代码来编译我们的 Keras 模型：
+
+```py
+def build_network(input_features=None):
+    inputs = Input(shape=(input_features,), name="input")
+    x = Dense(128, activation='relu', name="hidden1")(inputs)
+    x = Dense(64, activation='relu', name="hidden2")(x)
+    x = Dense(64, activation='relu', name="hidden3")(x)
+    x = Dense(32, activation='relu', name="hidden4")(x)
+    x = Dense(16, activation='relu', name="hidden5")(x)
+    prediction = Dense(1, activation='sigmoid', name="final")(x)
+    model = Model(inputs=inputs, outputs=prediction)
+    model.compile(optimizer='adam', loss='binary_crossentropy', 
+    metrics=["accuracy"])
+    return model
+```
+
+# 训练我们的模型
+
+现在我们已经定义了模型，我们都准备对其进行训练。 我们的操作方法如下：
+
+```py
+input_features = data["train_X"].shape[1]
+model = build_network(input_features=input_features)
+model.fit(x=data["train_X"], y=data["train_y"], batch_size=32, epochs=20, verbose=1, validation_data=(data["val_X"], data["val_y"]), callbacks=callbacks)
+```
+
+如果您已经阅读第 2 章“使用深度学习解决回归问题”，则应该看起来很熟悉。 在大多数情况下，实际上是相同的。 回调列表包含 TensorBoard 回调，因此让我们观看我们的网络训练 20 个周期，看看会发生什么：
+
+![](img/33cc8da8-37ba-4743-8e74-3bffbc02c050.png)
+
+尽管我们的训练损失继续下降，但我们可以看到`val_loss`到处都在跳跃。 大约在第八个周期之后，我们就过拟合了。
+
+有几种方法可以减少网络差异并管理这种过拟合，下一章将介绍大多数方法。 但是，在开始之前，我想向您展示一些有用的东西，称为**检查点回调**。
+
+# 在 Keras 中使用检查点回调
+
+在第 2 章“使用深度学习解决回归问题”中，我们看到了`.save()`方法，该方法使我们可以在完成训练后保存 Keras 模型。 但是，如果我们可以不时地将权重写入磁盘，以便在上一个示例中及时返回，并在模型开始过拟合之前保存其版本，那不好吗？ 然后，我们可以就此停止，并使用网络的最低​​方差版本。
+
+这正是`ModelCheckpoint`回调为我们所做的。 让我们来看看：
+
+```py
+checkpoint_callback = ModelCheckpoint(filepath="./model-weights.{epoch:02d}-{val_acc:.6f}.hdf5", monitor='val_acc', verbose=1, save_best_only=True)
+```
+
+`ModelCheckpoint`将为我们执行的工作是按计划的时间间隔保存模型。 在这里，我们告诉`ModelCheckpoint`每当我们达到新的最佳验证精度（`val_acc`）时都要保存模型的副本。 我们也可以监视验证损失或我们指定的任何其他指标。
+
+文件名字符串将包含周期编号和运行的验证准确率。
+
+当我们再次训练模型时，我们可以看到正在创建以下文件：
+
+```py
+model-weights.00-0.971304.hdf5
+model-weights.02-0.977391.hdf5
+model-weights.05-0.985217.hdf5
+```
+
+因此，我们可以看到在第 5 个阶段之后，我们无法达到`val_acc`的最佳水平，并且没有编写检查点。 然后，我们可以返回并从检查点 5 加载权重，并使用最佳模型。
+
+这里有一些大的假设，将第 5 期称为最佳。 您可能需要多次运行网络，尤其是在您的数据集相对较小的情况下，就像本书中的早期示例一样。 我们可以肯定地说，这个结果将是不稳定的。
+
+顺便说一下，这是防止过拟合的非常简单的方法。 我们可以选择使用方差太大之前发生的模型检查点。 这是做类似提前停止的一种方法，这意味着当我们看到模型没有改善时，我们会在指定的周期数之前停止训练。
+
+# 在自定义回调中测量 ROC AUC
+
+让我们再使用一个回调。 这次，我们将构建一个自定义的回调，以在每个周期结束时在训练集和测试集上计算曲线下的接收器工作特征区域（ROC AUC）。
+
+在 Keras 中创建自定义回调实际上非常简单。 我们需要做的就是创建一个固有的`Callback`类，并覆盖所需的方法。 由于我们想在每个周期结束时计算 ROC AUC 分数，因此我们将在`_epoch_end`上覆盖：
+
+```py
+from keras.callbacks import Callback
+
+class RocAUCScore(Callback):
+    def __init__(self, training_data, validation_data):
+        self.x = training_data[0]
+        self.y = training_data[1]
+        self.x_val = validation_data[0]
+        self.y_val = validation_data[1]
+        super(RocAUCScore, self).__init__()
+
+    def on_epoch_end(self, epoch, logs={}):
+        y_pred = self.model.predict(self.x)
+        roc = roc_auc_score(self.y, y_pred)
+        y_pred_val = self.model.predict(self.x_val)
+        roc_val = roc_auc_score(self.y_val, y_pred_val)
+        print('\n  *** ROC AUC Score: %s - roc-auc_val: %s ***' % 
+          (str(roc), str(roc_val)))
+        return
+
+```
+
+现在，我们已经创建了新的自定义回调，我们可以将其添加到回调创建器函数中，如以下代码所示：
+
+```py
+def create_callbacks(data):
+   tensorboard_callback = TensorBoard(log_dir=os.path.join(os.getcwd(),  
+     "tb_log", "5h_adam_20epochs"), histogram_freq=1, batch_size=32, 
+        write_graph=True, write_grads=False)
+   roc_auc_callback = RocAUCScore(training_data=(data["train_X"], 
+     data["train_y"]), validation_data=(data["val_X"], data["val_y"]))
+  checkpoint_callback = ModelCheckpoint(filepath="./model-weights.
+    {epoch:02d}-{val_acc:.6f}.hdf5", monitor='val_acc',verbose=1, 
+    save_best_only=True)
+    return [tensorboard_callback, roc_auc_callback, checkpoint_callback]
+```
+
+这里的所有都是它的！ 您可以用相同的方式实现其他任何指标。
+
+# 测量精度，召回率和 f1 得分
+
+正如您可能对其他二分类器有丰富的经验一样，我认为用几句话讨论如何创建与更传统的二分类器一起使用的一些常规指标是明智的。
+
+Keras 函数式 API 与 scikit-learn 中可能使用的 API 之间的区别是`.predict()`方法的行为。 当使用 Keras 时，对于`n`个样本中的每个，`.predict()`将返回`k`类概率的`nxk`矩阵。 对于二分类器，将只有一列，即类别 1 的类别概率。这使 Keras `.predict()`更像 scikit-learn 中的`.predict_proba()`。
+
+在计算精度，召回率或其他基于类的指标时，您需要通过选择一些操作点来转换`.predict()`输出，如以下代码所示：
+
+```py
+def class_from_prob(x, operating_point=0.5):
+    x[x >= operating_point] = 1
+    x[x < operating_point] = 0
+    return x
+```
+
+完成此操作后，您可以随意重用`sklearn.metric`中的典型指标，如以下代码所示：
+
+```py
+y_prob_val = model.predict(data["val_X"])
+y_hat_val = class_from_prob(y_prob_val)
+print(classification_report(data["val_y"], y_hat_val))
+```
+
+# 总结
+
+在本章中，我们讨论了使用深度神经网络作为二分类器。 我们花了很多时间讨论网络架构的设计选择，并提出了这样的想法，即搜索和试验是当前选择架构的最佳方法。
+
+我们学习了如何在 Keras 中使用检查点回调来使我们能够及时返回并找到具有所需表现特征的模型版本。 然后，我们在训练的模型中创建并使用了自定义回调来衡量 ROC AUC 得分。 我们总结了如何将 Keras `.predict()`方法与`sklearn.metrics`中的传统指标结合使用。
+
+在下一章中，我们将研究多分类，我们将更多地讨论如何防止过拟合。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/05.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/05.md
new file mode 100644
index 00000000..34ac422f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/05.md
@@ -0,0 +1,353 @@
+# 五、使用 Keras 解决多分类问题
+
+在本章中，我们将使用 Keras 和 TensorFlow 来处理具有许多自变量的 10 类多分类问题。 和以前一样，我们将讨论使用深度学习解决此问题的利弊； 但是，您不会发现很多缺点。 最后，我们将花费大量时间讨论控制过拟合的方法。
+
+我们将在本章介绍以下主题：
+
+*   多分类和深度神经网络
+*   案例研究 – 手写数字分类
+*   在 Keras 中建立多分类器
+*   通过丢弃控制方差
+*   通过正则化控制方差
+
+# 多分类和深度神经网络
+
+这里是！ 我们终于找到了有趣的东西！ 在本章中，我们将创建一个深度神经网络，该网络可以将观察结果分类为多个类别，这是神经网络确实发挥出色的地方之一。 让我们再谈一些关于深度神经网络对此类问题的好处。
+
+就像我们都在谈论同一件事一样，让我们​​在开始之前定义多分类。 想象我们有一个分类器，该分类器将各种水果的权重作为输入，并根据给定的权重来预测水果。 输出可能恰好是一组类（苹果，香蕉，芒果等）中的一个类。 这是多分类，不要与多标签混淆，在这种情况下，模型可能会预测一组标签是否将应用于互不排斥的观察结果。
+
+# 优点
+
+当我们需要预测大量类时，相对于其他模型，深度神经网络的确是出色的执行者。 当输入向量中的特征数量变大时，神经网络自然适合。 当这两种情况都集中在同一个问题上时，我可能就是从那里开始的。 这正是我们将在本章中要研究的案例研究中看到的问题的类型。
+
+# 缺点
+
+和以前一样，更简单的模型可能会比深度学习模型做的更好或更好。 在所有其他条件都相同的情况下，您可能应该支持更简单的模型。 但是，随着类数的增加，深度神经网络复杂性的弊端通常会减少。 为了容纳许多类，许多其他模型的实现必须变得非常复杂，有些模型甚至可能需要优化作为超参数用于模型的多类策略。
+
+# 案例研究 - 手写数字分类
+
+我们将使用多分类网络来识别手写数字的相应类。 与以前一样，如果您想继续阅读，可以在本书的 Git 存储库中的`Chapter05`下找到本章的完整代码。
+
+# 问题定义
+
+`MNIST`数据集已成为几乎规范的神经网络数据集。 该数据集由 60,000 个手写数字组成的图像，属于代表它们各自数字`(0, 1, 2 ... 9)`的 10 类。 由于此数据集变得如此普遍，因此许多深度学习框架都在 API 中内置了 MNIST 加载方法。 TensorFlow 和 Keras 都拥有一个，我们将使用 Keras MNIST 加载器使我们的生活更轻松。 但是，如果您想从原始数据中获取数据，或者想进一步了解 MNIST 的历史，可以在[这个页面](http://yann.lecun.com/exdb/mnist/)中找到更多信息。
+
+# 模型输入和输出
+
+我们的数据集已被划分为一个训练集，该训练集的大小为 50,000 个观察值，一个测试集为 10,000 个观察值。 我将从训练集中获取最后 5,000 个观察值，并将其用作验证集。
+
+# 拼合输入
+
+每个输入观察都是一个 28 像素乘 28 像素的黑白图像。 像这样的一幅图像在磁盘上表示为`28x28`的矩阵，其值介于 0 到 255 之间，其中每个值都是该像素中黑色的强度。 至此，我们只知道如何在二维向量上训练网络（稍后我们将学习一种更好的方法）； 因此我们将这个`28x28`矩阵展平为`1 x 784`输入向量。
+
+一旦我们堆叠了所有这些`1x784`向量，就剩下`50,000 x 784`训练集。
+
+如果您对卷积神经网络有丰富的经验，那么您可能现在正在翻白眼，如果您还没有，那么很快就会有更好的方法，但是不要太快地跳过本章。 我认为扁平化的`MNIST`是一个非常好的数据集，因为它的外观和行为与我们在许多投入领域（例如，物联网，制造业，生物，制药和医疗用例）中遇到的许多复杂的现实生活问题非常相似）。
+
+# 类别输出
+
+我们的输出层将为每个类包含一个神经元。 每个类别的关联神经元将经过训练，以将该类别的概率预测为介于 0 和 1 之间的值。我们将使用一种称为 **softmax** 的特殊激活，以确保所有这些输出总和为 1，我们将介绍 softmax 的详细信息。
+
+这意味着我们将需要为我们的类创建一个二元/分类编码。 例如，如果我们使`y = [0, 3, 2, 1]`并对其进行分类编码，则将具有如下矩阵`y`：
+
+![](img/557558d7-5f13-4821-96c1-7d2d8fe578b6.png)
+
+幸运的是，Keras 为我们提供了方便的功能来进行这种转换。
+
+# 成本函数
+
+我们将使用的成本函数称为**多项式交叉熵**。 多项式交叉熵实际上只是在第 4 章“使用 Keras 进行二分类”中看到的二元交叉熵函数的概括。
+
+让我们一起看看它们，而不只是显示分类交叉熵。 我要断言它们是平等的，然后解释原因：
+
+![](img/a445eae6-efe6-4be2-bffe-4f0706f461dd.png)
+
+前面的等式是正确的（`m = 2`时）
+
+好吧，别害怕。 我知道，这是一堆数学。 绝对交叉熵方程是一直存在于右边的方程。 二元交叉熵紧随其后。 现在，设想`m = 2`的情况。 在这种情况下，您可能会发现，`j = 0`和`j = 1`的`y[ij]log(p[ij])`的和，对于`i`中的每个值，等于来自二元交叉熵的结果。 希望这种减少足以使分类交叉熵有意义。 如果没有，我建议选择一些值并进行编码。 只需一秒钟，稍后您将感谢我！
+
+# 指标
+
+分类交叉熵是一个很好的成本函数，但实际上并不能告诉我们很多我们可以从网络中获得的预测质量。 不幸的是，像 ROC AUC 这样的二分类指标也对我们没有太大帮助，因为我们超越了二分类 AUC 的定义并没有。
+
+鉴于缺少更好的指标，我将使用准确率作为人类可以理解的训练指标。 幸运的是，在这种情况下，我的数据集是平衡的。 正如您所期望的那样，准确率是指真实值与预测值的匹配次数除以数据集的总大小。
+
+训练结束后，我将使用 scikit-learn 的分类报告向我们显示每个类的精确度和召回率。 如果您愿意，也可以为此使用混淆矩阵。
+
+# 在 Keras 中建立多分类器
+
+由于我们现在有一个定义明确的问题，因此可以开始对其进行编码。 如前所述，这次我们必须对输入和输出进行一些转换。 在我们建立网络的过程中，我将向您展示这些内容。
+
+# 载入 MNIST
+
+对我们来说幸运的是，在 Keras 中内置了一个 MNIST 加载函数，该函数可以检索 MNIST 数据并为我们加载。 我们需要做的就是导入`keras.datasets.mnist`并使用`load_data()`方法，如以下代码所示：
+
+```py
+(train_X, train_y), (test_X, test_y) = mnist.load_data()
+```
+
+`train_X`的形状为`50,000 x 28 x 28`。正如我们在“模型输入和输出”部分中所述，我们将需要将`28x28`矩阵展平为 784 个元素向量。 NumPy 使这变得非常容易。 以下代码说明了此技术：
+
+```py
+train_X = train_X.reshape(-1, 784)
+```
+
+有了这种方式，我们应该考虑扩展输入。 以前，我们使用 scikit-learn 的`StandardScaler`。 MNIST 不需要这样做。 由于我们知道每个像素都在 0 到 255 的相同范围内，因此我们可以通过除以`255`轻松地将值转换为 0 和 1 之间的值，然后在执行操作之前将数据类型显式转换为`float32`，如以下代码所示：
+
+```py
+train_X = train_X.astype('float32')
+train_X /= 255
+
+```
+
+正如我们在“模型输入和输出”部分中所述，在加载数据时，我们可能应该将因变量向量转换为分类向量。 为此，我们将在以下代码的帮助下使用`keras.utils.to_categorical()`：
+
+```py
+train_y = to_categorical(train_y)
+```
+
+这样，我们的数据就可以进行训练了！
+
+# 输入层
+
+我们的输入层实际上与之前的示例保持不变，但我将在此处包括它以使其成为适当的快速参考：
+
+```py
+def build_network(input_features=None):
+    inputs = Input(shape=(input_features,), name="input")
+```
+
+# 隐藏层
+
+我将使用带有`512`神经元的第一个隐藏层。 这比输入向量的 784 个元素略小，但这完全不是规则。 同样，此架构只是一个开始，并不一定是最好的。 然后，我将在第二和第三隐藏层中浏览大小，如以下代码所示：
+
+```py
+x = Dense(512, activation='relu', name="hidden1")(inputs)
+x = Dense(256, activation='relu', name="hidden2")(x)
+x = Dense(128, activation='relu', name="hidden3")(x)
+```
+
+# 输出层
+
+我们的输出层将包含 10 个神经元，一个观察值可能属于其中的每个可能的类。 这对应于我们在`y`向量上使用`to_categorical()`时施加的编码：
+
+```py
+prediction = Dense(10, activation='softmax', name="output")(x)
+```
+
+如您所见，我们正在使用的激活称为 **softmax**。 让我们讨论一下`softmax`是什么，以及为什么有用。
+
+# Softmax 激活
+
+想象一下，如果不是使用深层神经网络，而是使用`k`个逻辑回归，其中每个回归都预测单个类中的成员。 逻辑回归的集合（每个类一个）如下所示：
+
+![](img/692e8ef0-cac8-4075-88ce-2928f2998fc2.png)
+
+使用这组逻辑回归的问题是每个逻辑回归的输出都是独立的。 想象一下，在我们的集合中，这些逻辑回归中的一些不确定其所属类别的成员资格，从而导致多个答案在`P(Y = k) = 0.5`附近。 这使我们无法将这些输出用作`k`类中类成员资格的总体概率，因为它们不一定总和为 1。
+
+Softmax 压缩所有这些逻辑回归的输出，使它们的总和为 1，从而将其用作整体类成员的概率，从而为我们提供了帮助。
+
+`softmax`函数如下所示：
+
+![](img/b9124ebe-5e9a-4178-8c8e-43ec2619e9ed.png)
+
+（对于`j = 1`至`k`类，其中`zj / zk`是属于`k`的逻辑回归）
+
+因此，如果将`softmax`函数放在我们先前的回归集的前面，我们将得到一组类别概率，它们合计为 1，可以用作 k 个类别中成员资格的概率。 这改变了我们的整体函数，如下所示：
+
+![](img/dd793fbb-380f-4811-b53e-936c412a0595.png)
+
+先前的函数通常称为多项式逻辑回归。 它有点像一层，仅输出和神经网络。 我们不再频繁使用多项式逻辑回归。 但是，我们当然可以一直使用`softmax`函数。 对于本书中的大多数多分类问题，我们将使用`softmax`，因此值得理解。
+
+如果您像我一样，并且发现所有数学知识都难以阅读，那么在代码中查看`softmax`可能会更容易。 因此，在继续操作之前，请使用以下代码段进行操作：
+
+```py
+def softmax(z):
+ z_exp = [math.exp(x) for x in z]
+ sum_z_exp = sum(z_exp)
+ softmax = [round(i / sum_z_exp, 3) for i in z_exp]
+ return softmax
+```
+
+让我们快速尝试一个例子。 想象一下，我们有一组逻辑输出，如下所示：
+
+```py
+z = np.array([0.9, 0.8, 0.2, 0.1, 0.5])
+```
+
+如果应用`softmax`，我们可以轻松地将这些输出转换为相对的类概率，如下所示：
+
+```py
+print(softmax(z))
+[0.284, 0.257, 0.141, 0.128, 0.19]
+```
+
+# 放在一起
+
+现在我们已经涵盖了各个部分，让我们看一下我们的整个网络。 这看起来与我们之前在本书中介绍的模型相似。 但是，我们使用的损失函数`categorical_crossentropy`在本章的“成本函数”部分中介绍了。
+
+我们将使用以下代码定义网络：
+
+```py
+def build_network(input_features=None):
+    # first we specify an input layer, with a shape == features
+    inputs = Input(shape=(input_features,), name="input")
+    x = Dense(512, activation='relu', name="hidden1")(inputs)
+    x = Dense(256, activation='relu', name="hidden2")(x)
+    x = Dense(128, activation='relu', name="hidden3")(x)
+    prediction = Dense(10, activation='softmax', name="output")(x)
+    model = Model(inputs=inputs, outputs=prediction)
+    model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=["accuracy"])
+    return model
+```
+
+# 训练
+
+现在我们已经定义了神经网络并加载了数据，剩下的就是训练它了。
+
+在本书中以及本书的其他几个示例中，我使用的是称为数据的字典，以绕过`train_X`，`val_X`和`test_X`等各种数据集。 我使用这种表示法来保持代码的可读性，并且因为传递整个字典的必要性经常高于没有。
+
+这是我将如何训练我们刚刚建立的模型的方法。
+
+```py
+model = build_network(data["train_X"].shape[1])
+model.fit(x=data["train_X"], y=data["train_y"],
+          batch_size=30,
+          epochs=50,
+          validation_data=(data["val_X"], data["val_y"]),
+          verbose=1,
+          callbacks=callbacks)
+```
+
+我正在使用与以前相同的回调。 我没有使用我们在第 4 章“使用 Keras 进行二分类”中构建的 ROC AUC 回调，因为 ROC AUC 没有为多分类器明确定义。
+
+存在一些针对该问题的创造性解决方案。 例如，[**通过成对分析近似多类 ROC**](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.108.3250&rep=rep1&type=pdf) 和 [**ROC 表面下体积**](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.14.2427&rep=rep1&type=pdf)都是出色的论文，都可以解决这个问题。 但是，实际上，这些方法及其度量标准很少在 R 中使用，最常在 R 中实现。因此，到目前为止，让我们坚持使用多类准确率，并且远离 R。
+
+让我们观看 TensorBoard 在我们的模型训练中：
+
+![](img/475df0aa-0fbf-439c-afca-208e1a01627a.png)
+
+在阅读下一段之前，请花点时间思考一下这些图形在告诉我们什么。 得到它了？ 好的，让我们继续。
+
+因此，这是一个熟悉的情况。 我们的训练损失正在继续下降，而我们的验证损失正在上升。 我们过拟合。 虽然当然可以选择提前停止，但让我向您展示一些处理过拟合的新技巧。 让我们在下一部分中查看丢弃法和 l2 正则化。 但是，在进行此操作之前，我们应该研究如何使用多类网络来测量准确率和进行预测。
+
+# 在多类模型中使用 scikit-learn 指标
+
+和以前一样，我们可以借鉴 scikit-learn 的指标来衡量我们的模型。 但是，为此，我们需要从模型的`y`的分类输出中进行一些简单的转换，因为 scikit-learn 需要使用类标签，而不是二元类指示器。
+
+为了取得飞跃，我们将使用以下代码开始进行预测：
+
+```py
+y_softmax = model.predict(data["test_X"])
+```
+
+然后，我们将选择概率最大的类的索引，使用以下代码将其方便地作为该类：
+
+```py
+y_hat = y_softmax.argmax(axis=-1)
+```
+
+然后，我们可以像以前一样使用 scikit-learn 的分类报告。 相同的代码如下：
+
+```py
+from sklearn.metrics import classification_report
+print(classification_report(test_y, y_hat))
+```
+
+现在，我们实际上可以查看所有 10 个类的精度，召回率和 f1 得分。 下图说明了`sklearn.metrics.classification_report()`的输出：
+
+![](img/cbd5f3fa-48f2-40a5-9173-dd3ce0c68927.png)
+
+# 通过丢弃控制方差
+
+减少深度神经网络过拟合的一种非常好的方法是采用一种称为**丢弃法**的技术。 丢弃法完全按照其说的去做，它使神经元脱离隐藏层。 运作方式如下。
+
+通过每个小批量，我们将随机选择关闭每个隐藏层中的节点。 想象一下，我们在某个隐藏层中实现了丢弃，并且我们选择了丢弃率为 0.5。 这意味着，对于每个小批量，对于每个神经元，我们都掷硬币以查看是否使用该神经元。 这样，您可能会随机关闭该隐藏层中大约一半的神经元：
+
+![](img/6bff492d-dbf6-4c35-aaef-2e8283c4afed.png)
+
+如果我们一遍又一遍地执行此操作，就好像我们正在训练许多较小的网络。 模型权重保持相对较小，每个较小的网络不太可能过拟合数据。 这也迫使每个神经元减少对其他神经元的依赖。
+
+丢弃法效果惊人，可以很好地解决您可能遇到的许多（如果不是大多数）深度学习问题的过拟合问题。 如果您具有高方差模型，则丢弃是减少过拟合的好选择。
+
+Keras 包含一个内置的`Dropout`层，我们可以轻松地在网络中使用它来实现`Dropout`。 `Dropout`层将简单地随机关闭前一层神经元的输出，以使我们轻松地改造网络以使用`Dropout`。 要使用它，除了我们正在使用的其他层类型之外，我们还需要首先导入新层，如以下代码所示：
+
+```py
+from keras.layers import Input, Dense, Dropout
+```
+
+然后，我们只需将`Dropout`层插入模型，如以下代码所示：
+
+```py
+def build_network(input_features=None):
+    # first we specify an input layer, with a shape == features
+    inputs = Input(shape=(input_features,), name="input")
+    x = Dense(512, activation='relu', name="hidden1")(inputs)
+    x = Dropout(0.5)(x)
+    x = Dense(256, activation='relu', name="hidden2")(x)
+    x = Dropout(0.5)(x)
+    x = Dense(128, activation='relu', name="hidden3")(x)
+    x = Dropout(0.5)(x)
+    prediction = Dense(10, activation='softmax', name="output")(x)
+    model = Model(inputs=inputs, outputs=prediction)
+    model.compile(optimizer='adam', loss='categorical_crossentropy', 
+                  metrics=["accuracy"])
+    return model
+```
+
+这是我们先前使用的确切模型； 但是，我们在每个`Dense`层之后都插入了`Dropout`层，这是我通常在实现丢弃时开始的方式。 像其他模型架构决策一样，您可以选择仅在某些层，所有层或没有层中实现丢弃。 您还可以选择更改退出/保留概率； 但是，我确实建议从 0.5 开始，因为它通常效果很好。
+
+一个安全的选择是在每一层都退出，保持概率为 0.5。 不错的第二种尝试是仅在第一层使用丢弃。
+
+让我们用丢弃法训练我们的新模型，看看它与我们的第一次尝试相比如何：
+
+![](img/d2c65c07-5c92-4ad2-8428-71c70a27552f.png)
+
+首先让我们看一下验证准确率。 使用丢弃模型的训练速度与未规范模型的训练速度一样快，但是在这种情况下，它的确似乎很快就开始加速。 看看在第 44 个周期的验证准确率。它比非正规模型略好。
+
+现在，让我们看看验证损失。 您可以看到丢弃法对模型过拟合的影响，而且确实非常明显。 虽然仅转换为最终产品的少量改进，但丢弃法表现相当不错，可以防止我们的验证损失提升。
+
+# 通过正则化控制方差
+
+**正则化**是控制过拟合的另一种方法，当模型中的各个权重增大时会对其进行惩罚。 如果您熟悉线性模型（例如线性和逻辑回归），那么它与在神经元级别应用的技术完全相同。 可以使用两种形式的正则化，称为 L1 和 L2，来对神经网络进行正则化。 但是，由于 L2 正则化计算效率更高，因此几乎总是在神经网络中使用它。
+
+快速地，我们需要首先规范化成本函数。 如果我们将`C[0]`，分类交叉熵作为原始成本函数，则正规化的`cost`函数将如下所示：
+
+![](img/490b7c75-bc4c-47de-aff0-35881df64129.png)
+
+这里，`λ`是可以增加或减少以更改应用的正则化量的正则化参数。 此正则化参数会惩罚较大的权重值，从而使网络总体上希望具有较小的权重。
+
+要更深入地了解神经网络中的正则化，请查看 Michael Nielsen 的[《神经网络和深度学习》的第 3 章](http://neuralnetworksanddeeplearning.com/chap3.html)。
+
+可以将正则化应用于 Keras 层中的权重，偏差和激活。 我将使用带有默认参数的 L2 演示此技术。 在以下示例中，我将正则化应用于每个隐藏层：
+
+```py
+def build_network(input_features=None):
+    # first we specify an input layer, with a shape == features
+    inputs = Input(shape=(input_features,), name="input")
+    x = Dense(512, activation='relu', name="hidden1", kernel_regularizer='l2') \  
+      (inputs)
+    x = Dense(256, activation='relu', name="hidden2", kernel_regularizer='l2')(x)
+    x = Dense(128, activation='relu', name="hidden3", kernel_regularizer='l2')(x)
+    prediction = Dense(10, activation='softmax', name="output")(x)
+    model = Model(inputs=inputs, outputs=prediction)
+    model.compile(optimizer='adam', loss='categorical_crossentropy',
+                  metrics=["accuracy"])
+    return model
+```
+
+因此，让我们将默认的 L2 正则化与其他两个模型进行比较。 下图显示了比较：
+
+![](img/ca428764-c8dd-4e96-8726-49b4bd1b6b9b.png)
+
+不幸的是，我们的新 L2 正则化网络很容易找到。 在这种情况下，似乎 L2 正则化效果很好。 我们的网络现在偏差严重，对其他两个方面的了解还不够。
+
+如果我真的确定要使用正则化来解决此问题，那么我将首先更改正则化率并尝试找到更合适的值，但我们相距甚远，我对此表示怀疑，我们会做得比我们更好 `dropout`模型。
+
+# 总结
+
+在本章中，我们实际上已经开始了解深度神经网络在进行多分类时的威力。 我们详细介绍了`softmax`函数，然后我们构建并训练了一个网络来将手写数字分为 10 个各自的类别。
+
+最后，当我们注意到模型过拟合时，我们尝试同时使用丢弃和 L2 正则化来减少模型的方差。
+
+到目前为止，您已经看到深度神经网络需要很多选择，关于架构的选择，学习率，甚至是正则化率。 我们将在下一章中学习如何优化这些选择。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/06.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/06.md
new file mode 100644
index 00000000..fde5a712
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/06.md
@@ -0,0 +1,229 @@
+# 六、超参数优化
+
+使用深度神经网络的最大缺点之一是它们具有许多应优化的超参数，以使网络发挥最佳表现。 在前面的每个章节中，我们都遇到但没有涵盖超参数估计的挑战。 超参数优化是一个非常重要的话题。 在大多数情况下，这是一个未解决的问题，尽管我们不能涵盖本书的全部主题，但我认为它仍然值得一章。
+
+在本章中，我将为您提供一些我认为是选择超参数的实用建议。 可以肯定的是，由于本章是基于我自己的经验，因此本章可能会有些偏颇和偏颇。 我希望经验会有所帮助，同时也带您进一步对该主题进行调查。
+
+我们将在本章介绍以下主题：
+
+*   是否应该将网络架构视为超参数？
+*   我们应该优化哪些超参数？
+*   超参数优化策略
+
+# 是否应该将网络架构视为超参数？
+
+在构建最简单的网络时，我们必须对网络架构做出各种选择。 我们应该使用 1 个隐藏层还是 1,000 个？ 每层应包含多少个神经元？ 他们都应该使用`relu`激活函数还是`tanh`？ 我们应该在每个隐藏层上还是仅在第一层上使用丢弃？ 在设计网络架构时，我们必须做出许多选择。
+
+在最典型的情况下，我们穷举搜索每个超参数的最佳值。 但是，要穷举搜索网络架构并不容易。 实际上，我们可能没有时间或计算能力。 我们很少看到研究人员通过穷举搜索来寻找最佳架构，因为选择的数量非常多，而且存在不只一个正确的答案。 取而代之的是，我们看到该领域的研究人员通过实验尝试建立已知的架构，以尝试创建新的新颖架构并改善现有架构。
+
+因此，在介绍详尽搜索超参数的策略之前，让我们看一下两种推论出合理的，甚至不是最佳的网络架构的策略。
+
+# 找到一个巨人然后站在他的肩膀上
+
+沙特尔的伯纳德（Bernard of Chartres）被赋予了通过借鉴他人的发现来学习的概念。 但是，正是艾萨克·牛顿（Isaac Newton）说：“如果我进一步观察，那就是站在巨人的肩膀上。” 要明确的是，这正是我在这里建议的。
+
+如果我要设计一个用于新的深度学习问题的网络架构，我要做的第一件事就是尝试找到一个令人满意的方式，以前已经解决了类似的问题。 尽管可能没有人能够解决您面临的任务，但可能存在类似的情况。
+
+很可能存在几种可能的解决方案。 如果是这样，并且在时间允许的情况下，每次运行几次的平均结果可能会告诉您哪个运行效果最好。 当然，在这里我们发现自己很快进入了研究领域。
+
+# 添加，直到过拟合，然后进行正则化
+
+希望通过寻找类似问题的架构，您至少接近适合您的架构。 您如何做才能进一步优化网络架构？
+
+*   在多个实验运行中，添加层和/或神经元，直到您的网络开始针对问题过拟合。 在深度学习中，添加单元，直到您不再具有高偏差模型为止。
+*   一旦开始过拟合，您就会发现一些网络架构能够很好地拟合训练数据，甚至可能拟合得很好。 在这一点上，您应该集中精力通过使用丢弃，正则化，提早停止等方法来减少方差。
+
+这种方法通常归因于著名的神经网络研究员 Geoffrey Hinton。 这是一个有趣的想法，因为它使过拟合不是要避免的事情，而是构建网络架构的良好第一步。
+
+尽管没有规则可供我们选择最佳网络架构，并且可能存在许多最佳架构，但我发现这种策略在实践中对我来说非常有效。
+
+# 实用建议
+
+如果您对上述内容不太了解，我同意。 这对我也不是，我也不希望那样。 您当然可以在一组预定义的配置之间搜索最佳的网络架构，这也是正确的方法。 实际上，它可以说是更正确，更严格。 此过程旨在为您提供实用的建议，以帮助您在尽可能短的时间内达到最佳状态。
+
+# 我们应该优化哪些超参数？
+
+即使您遵循我的建议并选择了一个足够好的架构，您也可以并且仍然应该尝试在该架构中搜索理想的超参数。 我们可能要搜索的一些超参数包括：
+
+*   我们选择的优化器。 到目前为止，我一直在使用 Adam，但是 rmsprop 优化器或调整良好的 SGD 可能会更好。
+*   每个优化器都有一组我们可能需要调整的超参数，例如学习率，动量和衰减。
+*   网络权重初始化。
+*   神经元激活。
+*   正则化参数（例如丢弃概率）或 12 正则化中使用的正则化参数。
+*   批次大小。
+
+如上所述，这不是详尽的清单。 当然，您可以尝试更多的选择，包括在每个隐藏层中引入可变数量的神经元，每层中丢弃概率的变化等等。 就像我们一直暗示的那样，超参数的可能组合是无限的。 这些选择也很可能并非独立于网络架构，添加和删除层可能会为这些超参数中的任何一个带来新的最佳选择。
+
+# 超参数优化策略
+
+在本章的这一点上，我们建议，在大多数情况下，尝试我们可能想尝试的每个超参数组合在计算上都是不可能的，或者至少是不切实际的。 深度神经网络肯定会花费很长时间进行训练。 尽管您可以并行处理问题并投入计算资源，但搜索超参数的最大限制可能仍然是时间。
+
+如果时间是我们最大的限制，并且我们无法合理地探索拥有的所有可能性，那么我们将必须制定一种策略，使我们在拥有的时间内获得最大的效用。
+
+在本节的其余部分，我将介绍一些用于超参数优化的常用策略，然后向您展示如何使用我最喜欢的两种方法在 Keras 中优化超参数。
+
+# 通用策略
+
+在所有机器学习模型中都有一套通用的超参数优化策略。 从总体上讲，这些策略包括：
+
+*   网格搜索
+*   随机搜索
+*   贝叶斯优化
+*   遗传算法
+*   机器学习的超参数
+
+**网格搜索**只是尝试尝试所有事物，或者至少尝试离散事物，然后报告我们用蛮力找到的最佳超参数的最佳组合。 可以保证在我们确定的参数空间中找到最佳解决方案，以及其他较差的解决方案。
+
+网格搜索对于深度学习并不是很实用。 除了最基本的深度神经网络，我们无法现实地探索所有可能参数的每个可能值。 使用**随机搜索**，我们从每个参数分布中随机抽样，并尝试其中的`n`，其中（`n x`每个示例训练时间）是我们愿意分配给这个问题的时间预算。
+
+**贝叶斯优化**方法使用以前的观察结果来预测接下来要采样的超参数集。 尽管贝叶斯优化方法通常胜过蛮力技术，但目前的研究表明，与穷举方法相比，表现提升较小。 此外，由于贝叶斯方法取决于先前的经验，因此无论如何都不会令人尴尬地并行进行。
+
+**遗传算法**是机器学习中非常有趣且活跃的研究领域。 但是，我目前的观点是，它们也不是深度神经网络参数优化的理想选择，因为它们再次依赖于先前的经验。
+
+该领域中的一些最新研究着眼于训练神经网络，该神经网络可以预测给定网络架构的最佳参数。 可以参数化模型的模型的想法当然非常有趣，这是一个值得密切关注的地方。 这也可能是我们获得天网的方式。 只有时间证明一切。
+
+# 在 scikit-learn 中使用随机搜索
+
+使用 scikit-learn 可以轻松实现网格搜索和随机搜索。 在此示例中，我们将使用 Keras 的`KerasClassifier`类包装模型并使其与 scikit-learn API 兼容。 然后，我们将使用 scikit-learn 的`RandomSearchCV`类进行超参数搜索。
+
+为此，我们将从稍微更改现在熟悉的模型构建函数开始。 我们将使用我们要搜索的超参数对其进行参数化，如以下代码所示：
+
+```py
+def build_network(keep_prob=0.5, optimizer='adam'):
+    inputs = Input(shape=(784,), name="input")
+    x = Dense(512, activation='relu', name="hidden1")(inputs)
+    x = Dropout(keep_prob)(x)
+    x = Dense(256, activation='relu', name="hidden2")(x)
+    x = Dropout(keep_prob)(x)
+    x = Dense(128, activation='relu', name="hidden3")(x)
+    x = Dropout(keep_prob)(x)
+    prediction = Dense(10, activation='softmax', name="output")(x)
+    model = Model(inputs=inputs, outputs=prediction)
+    model.compile(optimizer=optimizer, loss='categorical_crossentropy', 
+                  metrics=["accuracy"])
+    return model
+```
+
+在此示例中，我想搜索一个理想的丢弃值，并且我想尝试几个不同的优化器。 为了实现这一点，我需要将它们作为参数包含在函数中，以便可以通过我们的随机搜索方法对其进行更改。 当然，我们可以使用相同的方法来参数化和测试许多其他网络架构选择，但是我们在这里保持简单。
+
+接下来，我们将创建一个函数，该函数返回一个字典，其中包含我们想搜索的所有可能的超参数及其值空间，如以下代码所示：
+
+```py
+def create_hyperparameters():
+    batches = [10, 20, 30, 40, 50]
+    optimizers = ['rmsprop', 'adam', 'adadelta']
+    dropout = np.linspace(0.1, 0.5, 5)
+    return {"batch_size": batches, "optimizer": optimizers, 
+      "keep_prob": dropout}
+```
+
+剩下的就是使用`RandomSearchCV`将这两部分连接在一起。 首先，我们将模型包装到`keras.wrappers.scikit_learn.KerasClassifier`中，以便与 scikit-learn 兼容，如以下代码所示：
+
+```py
+model = KerasClassifier(build_fn=build_network, verbose=0)
+```
+
+接下来，我们将使用以下代码获得超参数字典：
+
+```py
+hyperparameters = create_hyperparameters()
+```
+
+然后，最后，我们将创建一个`RandomSearchCV`对象，该对象将用于搜索模型的参数空间，如以下代码所示：
+
+```py
+search = RandomizedSearchCV(estimator=model, param_distributions=hyperparameters, n_iter=10, n_jobs=1, cv=3, verbose=1)
+```
+
+拟合此`RandomizedSearchCV`对象后，它将从参数分布中随机选择值并将其应用于模型。 它将执行 10 次（`n_iter=10`），并且将尝试每种组合 3 次，因为我们使用了 3 倍交叉验证。 这意味着我们将总共拟合模型 30 次。 使用每次运行的平均准确率，它将返回最佳模型作为类属性`.best_estimator`，并且将返回最佳参数作为`.best_params_`。
+
+为了适合它，我们只需调用它的`fit`方法，就好像它是一个模型一样，如以下代码所示：
+
+```py
+search.fit(data["train_X"], data["train_y"])
+
+print(search.best_params_)
+```
+
+在 Tesla K80 GPU 实例上，在上述网格上拟合第 5 章，“使用 Keras 进行多分类”所使用的 MNIST 模型。 在完成本节之前，让我们看一下搜索的一些输出，如以下代码所示：
+
+```py
+Using TensorFlow backend.
+ Fitting 3 folds for each of 10 candidates, totalling 30 fits
+tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Found device 0 with properties:
+ name: Tesla K80 major: 3 minor: 7 memoryClockRate(GHz): 0.8235
+ pciBusID: 0000:00:1e.0
+ totalMemory: 11.17GiB freeMemory: 11.10GiB
+tensorflow/core/common_runtime/gpu/gpu_device.cc:1120] Creating TensorFlow device (/device:GPU:0) -> (device: 0, name: Tesla K80, pci bus id: 0000:00:1e.0, compute capability: 3.7)
+ [Parallel(n_jobs=1)]: Done 30 out of 30 | elapsed: 8.8min finished
+ {'keep_prob': 0.20000000000000001, 'batch_size': 40, 'optimizer': 'adam'}
+```
+
+如您在此输出中看到的，在 10 次运行中，加粗的超参数似乎是表现最好的集合。 当然，我们当然可以运行更多的迭代，并且我们可能会找到一个更好的选择。 我们的预算仅由时间，耐心以及云帐户附带的信用卡决定。
+
+# Hyperband
+
+Hyperband 是一项超参数优化技术，由 Lisha Li，Kevin Jamieson，Guilia DeSalvo，Afshin Rostamizadeh 和 Ameet Talwalker 于 2016 年在伯克利开发。 您可以在[这里](https://arxiv.org/pdf/1603.06560.pdf)阅读他们的原始论文。
+
+想象一下，就像我们在`RandomSearchCV`中所做的那样，随机采样许多潜在的超参数集。 完成`RandomSearchCV`后，它将选择一个单一的超参数配置作为其采样的*最优值*。 Hyperband 利用这样的思想，即即使经过少量迭代，最佳的超参数配置也可能会胜过其他配置。 Hyperband 中的乐队来自土匪，指的是基于多臂土匪技术（用于优化竞争选择之间的资源分配以优化表现为目标的技术）的勘探与开发。
+
+使用 Hyperband，我们可以尝试一些可能的配置集（`n`），仅训练一次迭代。 作者将迭代一词留作多种可能的用途。 但是，我将周期作为迭代。 一旦完成第一个训练循环，就将根据表现对结果进行配置。 然后，对该列表的上半部分进行大量迭代的训练。 然后重复进行减半和剔除的过程，我们得到了一些非常小的配置集，我们将针对在搜索中定义的完整迭代次数进行训练。 与在每种可能的配置中搜索最大周期相比，此过程使我们在更短的时间内获得了*最佳*超参数集。
+
+在本章的 GitHub 存储库中，我在`hyperband.py`中包括了`hyperband`算法的实现。 此实现主要源自 FastML 的实现，您可以在[这个页面](http://fastml.com/tuning-hyperparams-fast-with-hyperband/)中找到。 要使用它，您需要首先实例化一个`hyperband`对象，如以下代码所示：
+
+```py
+from hyperband import Hyperband
+hb = Hyperband(data, get_params, try_params)
+```
+
+Hyperband 构造器需要三个参数：
+
+*   `data`：到目前为止，我在示例中一直在使用的数据字典
+*   `get_params`：用于从我们正在搜索的超参数空间中采样的函数的名称
+*   `try_param`：可用于评估`n_iter`迭代的超参数配置并返回损失的函数的名称
+
+在下面的示例中，我实现了`get_params`以在参数空间中以统一的方式进行采样：
+
+```py
+def get_params():
+    batches = np.random.choice([5, 10, 100])
+    optimizers = np.random.choice(['rmsprop', 'adam', 'adadelta'])
+    dropout = np.random.choice(np.linspace(0.1, 0.5, 10))
+    return {"batch_size": batches, "optimizer": optimizers, 
+      "keep_prob": dropout}
+```
+
+如您所见，所选的超参数配置将作为字典返回。
+
+接下来，可以实现`try_params`以在超参数配置上针对指定的迭代次数拟合模型，如下所示：
+
+```py
+def try_params(data, num_iters, hyperparameters):
+    model = build_network(keep_prob=hyperparameters["keep_prob"],
+                           optimizer=hyperparameters["optimizer"])
+    model.fit(x=data["train_X"], y=data["train_y"],
+              batch_size=hyperparameters["batch_size"],
+              epochs=int(num_iters))
+    loss = model.evaluate(x=data["val_X"], y=data["val_y"], verbose=0)
+    return {"loss": loss}
+```
+
+`try_params`函数返回一个字典，可用于跟踪任何数量的度量； 但是，由于它用于比较运行，因此需要损失。
+
+通过在对象上调用`.run()`方法，`hyperband`对象将通过我们上面描述的算法运行。
+
+```py
+results = hb.run()
+```
+
+在这种情况下，`results`将是每次运行，其运行时间和测试的超参数的字典。 因为即使这种高度优化的搜索都需要花费大量时间，并且 GPU 时间也很昂贵，所以我将 MNIST 搜索的结果包括在本章的 GitHub 存储库的`hyperband-output-mnist.txt`中，[可以在以下位置找到](https://github.com/mbernico/deep_learning_quick_reference/tree/master/chapter_6)。
+
+# 总结
+
+超参数优化是从我们的深度神经网络获得最佳效果的重要一步。 寻找搜索超参数的最佳方法是机器学习研究的一个开放而活跃的领域。 尽管您当然可以将最新技术应用于自己的深度学习问题，但您需要在决策中权衡实现的复杂性和搜索运行时间。
+
+有一些与网络架构有关的决策可以肯定地进行详尽地搜索，但是，如我上面提供的那样，一组启发式方法和最佳实践可能使您足够接近甚至减少搜索参数的数量。
+
+最终，超参数搜索是一个经济问题，任何超参数搜索的第一部分都应考虑您的计算时间和个人时间预算，以试图找出最佳的超参数配置。
+
+本章总结了深度学习的基础。 在下一章中，我们将从计算机视觉入手，介绍神经网络的一些更有趣和更高级的应用。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/07.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/07.md
new file mode 100644
index 00000000..263ca720
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/07.md
@@ -0,0 +1,318 @@
+# 七、从头开始训练 CNN
+
+深度神经网络彻底改变了计算机视觉。 实际上，我认为在最近几年中计算机视觉的进步已经使深层神经网络成为许多消费者每天使用的东西。 我们已经在第 5 章“使用 Keras 进行多分类”中使用计算机视觉分类器，其中我们使用了深度网络对手写数字进行分类。 现在，我想向您展示卷积层如何工作，如何使用它们以及如何在 Keras 中构建自己的卷积神经网络以构建更好，功能更强大的深度神经网络来解决计算机视觉问题。
+
+我们将在本章介绍以下主题：
+
+*   卷积介绍
+*   在 Keras 中训练卷积神经网络
+*   使用数据增强
+
+# 卷积介绍
+
+经过训练的卷积层由称为过滤器的许多特征检测器组成，这些特征检测器在输入图像上滑动作为移动窗口。 稍后我们将讨论过滤器内部的内容，但现在它可能是一个黑匣子。 想象一个已经训练过的过滤器。 也许该过滤器已经过训练，可以检测图像中的边缘，您可能会认为这是黑暗与明亮之间的过渡。 当它经过图像时，其输出表示它检测到的特征的存在和位置，这对于第二层过滤器很有用。 稍微扩展一下我们的思想实验，现在想象第二个卷积层中的一个过滤器，它也已经被训练过了。 也许这个新层已经学会了检测直角，其中存在由上一层找到的两个边缘。 不断地我们去； 随着我们添加层，可以了解更多复杂的特征。 特征层次结构的概念对于卷积神经网络至关重要。 下图来自 Honglak Lee 等人的《使用卷积深度信念网络的无监督学习层次表示》[2011]，非常好地说明了特征层次结构的概念：
+
+![](img/c63ca1b1-5e19-423c-8174-d62c87d452bc.png)
+
+这是一种非常强大的技术，它比我们先前在 MNIST 上使用的深度学习`flatten`和`classify`方法具有多个优势。 我们将在短期内讨论这些内容，但首先让我们深入了解过滤器。
+
+# 卷积层如何工作？
+
+在上一节中，我说过卷积层是一组充当特征检测器的过滤器。 在我们深入探讨该架构之前，让我们回顾一下卷积实际上是什么的数学。
+
+让我们首先手动将以下`4 x 4`矩阵与`3 x 3`矩阵卷积，我们将其称为过滤器。 卷积过程的第一步是获取过滤器与`4 x 4`矩阵的前九个框的按元素乘积：
+
+![](img/47bb2d29-6a4a-46d5-8193-51c49ee62817.jpg)
+
+完成此操作后，我们将过滤器滑到一行上并执行相同的操作。 最后，我们将过滤器向下滑动，然后再次滑动。 卷积过程一旦完成，将使我们剩下`2x2`矩阵，如下图所示：
+
+![](img/1ffeca84-f312-4324-bb86-19417a50f596.jpg)
+
+从技术上讲，这不是卷积，而是互相关。 按照惯例，我们将其称为卷积，并且就我们的目的而言，差异确实很小。
+
+# 三维卷积
+
+MNIST 是一个灰度示例，我们可以将每个图像表示为二维矩阵中从 0 到 255 的像素强度值。 但是，大多数时候，我们将使用彩色图像。 彩色图像实际上是三维矩阵，其中维是图像高度，图像宽度和颜色。 这将为图像中的每个像素生成一个矩阵，分别具有红色，蓝色和绿色值。
+
+虽然我们先前展示的是二维过滤器，但我们可以通过在（高度，宽度，3（颜色））矩阵与`3 x 3 x 3`之间进行卷积来将其思想轻松转换为三个维度。 过滤。 最后，当我们在矩阵的所有三个轴上进行逐元素乘积运算时，仍然剩下二维输出。 提醒一下，这些高维矩阵通常称为张量，而我们正在做的就是使它们流动。
+
+# 卷积层
+
+之前我们已经讨论了由多个线性函数单元以及一些非线性（例如`relu`）组成的深度神经网络层。 在卷积层中，每个单元都是一个过滤器，结合了非线性。 例如，可以在 Keras 中定义卷积层，如下所示：
+
+```py
+from keras.layers import Conv2D
+Conv2D(64, kernel_size=(3,3), activation="relu", name="conv_1")
+```
+
+在此层中，有 64 个独立的单元，每个单元都有`3 x 3 x 3`过滤器。 卷积操作完成后，每个单元都会像传统的完全连接层中那样为输出添加偏置和非线性（稍后会详细介绍该术语）。
+
+在继续之前，让我们快速浏览一下示例的维度，以便确保我们都在同一页面上。 想象一下，我们有一个`32 x 32 x 3`的输入图像。 现在，我们将其与上述卷积层进行卷积。 该层包含 64 个过滤器，因此输出为`30 x 30 x 64`。 每个过滤器输​​出一个`30 x 30`矩阵。
+
+# 卷积层的好处
+
+因此，现在您希望对卷积层的工作原理有所了解，让我们讨论为什么我们要进行所有这些疯狂的数学运算。 为什么我们要使用卷积层而不是以前使用的普通层？
+
+假设我们确实使用了普通层，以得到与之前讨论的相同的输出形状。 我们从`32 x 32 x 3`图像开始，所以总共有 3,072 个值。 我们剩下一个`30 x 30 x 64`矩阵。 总共有 57,600 个值。 如果我们要使用完全连接的层来连接这两个矩阵，则该层将具有 176,947,200 个可训练参数。 那是 1.76 亿。
+
+但是，当我们使用上面的卷积层时，我们使用了 64 个`3 x 3 x 3`过滤器，这将导致 1,728 个可学习权重加 64 个偏差（总共 1,792 个参数）。
+
+因此，显然卷积层需要的参数要少得多，但是为什么这很重要呢？
+
+# 参数共享
+
+由于过滤器是在整个图像中使用的，因此过滤器会学会检测特征，而不管其在图像中的位置如何。 事实证明，这非常有用，因为它为我们提供了平移不变性，这意味着我们可以检测到重要的内容，而不管其在整个图像中的朝向。
+
+回想一下 MNIST，不难想象我们可能想检测 9 的循环，而不管它在照片中的位置如何。 提前思考，想象一个将图片分类为猫或汽车的分类器。 容易想象有一组过滤器可以检测出像汽车轮胎一样复杂的东西。 无论轮胎的方向在图像中的什么位置，检测该轮胎都是有用的，因为轮胎之类的东西强烈表明该图像不是猫（除非图像是驾驶汽车的猫）。
+
+# 本地连接
+
+过滤器由于其固定大小而着重于相邻像素之间的连通性。 这意味着他们将最强烈地学习本地特征。 当与其他过滤器以及层和非线性结合使用时，这使我们逐渐关注更大，更复杂的特征。 确实需要这种局部化特征的堆叠，这也是卷积层如此之大的关键原因。
+
+# 池化层
+
+除了卷积层，卷积神经网络通常使用另一种类型的层，称为**池化层**。 当添加卷积层时，使用池化层来减少卷积网络的维数，这会减少过拟合。 它们具有使特征检测器更坚固的附加好处。
+
+池化层将矩阵划分为非重叠部分，然后通常在每个区域中采用最大值（在最大池化的情况下）。 可替代地，可以采用平均值。 但是，目前很少使用。 下图说明了此技术：
+
+![](img/020a3a99-27f2-41b0-b04f-7cb86e562db5.jpg)
+
+如我们所料，池化层在 Keras 中很容易实现。 以下代码可用于池化各层：
+
+```py
+from keras.layers import MaxPooling2D
+pool1 = MaxPooling2D(pool_size=(2, 2), name="pool_1")
+```
+
+在这里，我们将池窗口定义为`2 x 2`。
+
+尽管我们之前没有讨论过填充，但是在某些架构中，通常将卷积层或池化层的输入填充为 0，以使输出尺寸等于输入。 Keras 的卷积层和池化层中的默认值都是有效填充，这意味着按惯例没有填充。 如果需要，参数`padding="same"`将应用填充。
+
+# 批量标准化
+
+批量规范化有助于我们的网络整体表现更好，学习速度更快。 批量规范化在应用中也很容易理解。 但是，为什么它起作用，仍然受到研究人员的争议。
+
+使用批量归一化时，对于每个小批量，我们可以在每个非线性之后（或之前）对那个批量进行归一化，使其平均值为 0，单位方差。 这使每一层都可以从中学习标准化输入，从而使该层的学习效率更高。
+
+批归一化层很容易在 Keras 中实现，本章的示例将在每个卷积层之后使用它们。 以下代码用于批量规范化：
+
+```py
+from keras.layers import BatchNormalization
+x = BatchNormalization(name="batch_norm_1")
+```
+
+# 在 Keras 中训练卷积神经网络
+
+现在我们已经介绍了卷积神经网络的基础知识，是时候构建一个了。 在本案例研究中，我们将面对一个众所周知的问题，即 **CIFAR-10**。 该数据集由 Alex Krizhevsky，Vinod Nair 和 Geoffrey Hinton 创建。
+
+# 输入
+
+CIFAR-10 数据集由属于 10 类的 60,000 张`32 x 32`彩色图像组成，每类 6,000 张图像。 我将使用 50,000 张图像作为训练集，使用 5,000 张图像作为验证集，并使用 5,000 张图像作为测试集。
+
+卷积神经网络的输入张量层将为`(N, 32, 32, 3)`，我们将像以前一样将其传递给`build_network`函数。 以下代码用于构建网络：
+
+```py
+def build_network(num_gpu=1, input_shape=None):
+   inputs = Input(shape=input_shape, name="input")
+```
+
+# 输出
+
+该模型的输出将是 0-9 之间的类别预测。 我们将使用与 MNIST 相同的 10 节点`softmax`。 令人惊讶的是，我们的输出层没有任何变化。 我们将使用以下代码来定义输出：
+
+```py
+output = Dense(10, activation="softmax", name="softmax")(d2)
+```
+
+# 成本函数和指标
+
+在第 5 章中，我们使用分类交叉熵作为多分类器的损失函数。 这只是另一个多分类器，我们可以继续使用分类交叉熵作为我们的损失函数，并使用准确率作为度量。 我们已经开始使用图像作为输入，但是幸运的是我们的成本函数和指标保持不变。
+
+# 卷积层
+
+如果您开始怀疑此实现中是否会有任何不同之处，那就是这里。 我将使用两个卷积层，分别进行批量规范化和最大池化。 这将要求我们做出很多选择，当然我们以后可以选择作为超参数进行搜索。 不过，最好先让某些东西开始工作。 正如 Donald Knuth 所说，过早的优化是万恶之源。 我们将使用以下代码片段定义两个卷积块：
+
+```py
+# convolutional block 1
+conv1 = Conv2D(64, kernel_size=(3,3), activation="relu", name="conv_1")(inputs)
+batch1 = BatchNormalization(name="batch_norm_1")(conv1)
+pool1 = MaxPooling2D(pool_size=(2, 2), name="pool_1")(batch1)
+
+# convolutional block 2
+conv2 = Conv2D(32, kernel_size=(3,3), activation="relu", name="conv_2")(pool1)
+batch2 = BatchNormalization(name="batch_norm_2")(conv2)
+pool2 = MaxPooling2D(pool_size=(2, 2), name="pool_2")(batch2)
+```
+
+因此，很明显，我们在这里有两个卷积块，它们由一个卷积层，一个批量规范化层和一个池化层组成。
+
+在第一块中，我使用具有`relu`激活函数的 64 个`3 x 3`过滤器。 我使用的是有效（无）填充，跨度为 1。批量规范化不需要任何参数，并且实际上不是可训练的。 池化层使用`2 x 2`池化窗口，有效填充和跨度为 2（窗口尺寸）。
+
+第二个块几乎相同。 但是，我将过滤器数量减半为 32。
+
+尽管在该架构中有许多旋钮可以转动，但我首先要调整的是卷积的内核大小。 内核大小往往是一个重要的选择。 实际上，一些现代的神经网络架构（例如 Google 的 **Inception**）使我们可以在同一卷积层中使用多个过滤器大小。
+
+# 全连接层
+
+经过两轮卷积和合并后，我们的张量变得相对较小和较深。 在`pool_2`之后，输出尺寸为`(n, 6, 6, 32)`。
+
+我们希望在这些卷积层中提取此`6 x 6 x 32`张量表示的相关图像特征。 为了使用这些特征对图像进行分类，在进入最终输出层之前，我们将将该张量连接到几个完全连接的层。
+
+在此示例中，我将使用 512 神经元完全连接层，256 神经元完全连接层以及最后的 10 神经元输出层。 我还将使用丢弃法来帮助防止过拟合，但只有一点点！ 该过程的代码如下，供您参考：
+
+```py
+from keras.layers import Flatten, Dense, Dropout
+# fully connected layers
+flatten = Flatten()(pool2)
+fc1 = Dense(512, activation="relu", name="fc1")(flatten)
+d1 = Dropout(rate=0.2, name="dropout1")(fc1)
+fc2 = Dense(256, activation="relu", name="fc2")(d1)
+d2 = Dropout(rate=0.2, name="dropout2")(fc2)
+```
+
+我之前没有提到上面的`flatten`层。 `flatten`层完全按照其名称的含义执行。 将`flattens`，`n x 6 x 6 x 32`张量`flattens`转换为`n x 1152`向量。 这将作为全连接层的输入。
+
+# Keras 中的多 GPU 模型
+
+许多云计算平台可以提供包含多个 GPU 的实例。 随着我们模型的规模和复杂性的增长，您可能希望能够跨多个 GPU 并行化工作负载。 这在本机 TensorFlow 中可能涉及到一些过程，但是在 Keras 中，这只是一个函数调用。
+
+正常构建模型，如以下代码所示：
+
+```py
+model = Model(inputs=inputs, outputs=output)
+```
+
+然后，我们借助以下代码将该模型传递给`keras.utils.multi_gpu_model`：
+
+```py
+model = multi_gpu_model(model, num_gpu)
+```
+
+在此示例中，`num_gpu`是我们要使用的 GPU 的数量。
+
+# 训练
+
+将模型放在一起，并结合我们新的 CUDA GPU 功能，我们提出了以下架构：
+
+```py
+
+def build_network(num_gpu=1, input_shape=None):
+    inputs = Input(shape=input_shape, name="input")
+
+    # convolutional block 1
+    conv1 = Conv2D(64, kernel_size=(3,3), activation="relu", 
+      name="conv_1")(inputs)
+    batch1 = BatchNormalization(name="batch_norm_1")(conv1)
+    pool1 = MaxPooling2D(pool_size=(2, 2), name="pool_1")(batch1)
+
+    # convolutional block 2
+    conv2 = Conv2D(32, kernel_size=(3,3), activation="relu", 
+      name="conv_2")(pool1)
+    batch2 = BatchNormalization(name="batch_norm_2")(conv2)
+    pool2 = MaxPooling2D(pool_size=(2, 2), name="pool_2")(batch2)
+
+    # fully connected layers
+    flatten = Flatten()(pool2)
+    fc1 = Dense(512, activation="relu", name="fc1")(flatten)
+    d1 = Dropout(rate=0.2, name="dropout1")(fc1)
+    fc2 = Dense(256, activation="relu", name="fc2")(d1)
+    d2 = Dropout(rate=0.2, name="dropout2")(fc2)
+
+    # output layer
+    output = Dense(10, activation="softmax", name="softmax")(d2)
+
+    # finalize and compile
+    model = Model(inputs=inputs, outputs=output)
+    if num_gpu > 1:
+        model = multi_gpu_model(model, num_gpu)
+    model.compile(optimizer='adam', loss='categorical_crossentropy', 
+      metrics=["accuracy"])
+    return model
+```
+
+我们可以使用它来构建我们的模型：
+
+```py
+model = build_network(num_gpu=1, input_shape=(IMG_HEIGHT, IMG_WIDTH, CHANNELS))
+```
+
+然后，我们可以满足您的期望：
+
+```py
+model.fit(x=data["train_X"], y=data["train_y"],
+          batch_size=32,
+          epochs=200,
+          validation_data=(data["val_X"], data["val_y"]),
+          verbose=1,
+          callbacks=callbacks)
+```
+
+在我们训练该模型时，您会注意到过拟合是一个紧迫的问题。 即使只有相对较小的两个卷积层，我们也已经有点过拟合了。
+
+您可以从以下图形中看到过拟合的影响：
+
+![](img/bc72fd8e-e789-444f-836f-7ad5e015642c.png)
+
+不足为奇，50,000 次观察不是很多数据，尤其是对于计算机视觉问题。 在实践中，计算机视觉问题得益于非常大的数据集。 实际上，[Chen Sun 指出](https://arxiv.org/abs/1707.02968)，附加数据倾向于以数据量的对数线性帮助计算机视觉模型。 不幸的是，在这种情况下，我们无法真正找到更多数据。 但是也许我们可以做些。 接下来让我们讨论数据增强。
+
+# 使用数据增强
+
+数据增强是一种将变换应用于图像并使用原始图像和变换后的图像进行训练的技术。 想象一下，我们有一个训练类，里面有一只猫：
+
+![](img/f2fc9117-dda1-40a5-b677-7b5bdaddb3fb.jpg)
+
+如果将水平翻转应用于此图像，我们将得到如下所示的内容：
+
+![](img/9c828535-9310-4a38-9777-53ecf8041d54.jpg)
+
+当然，这是完全相同的图像，但是我们可以将原始图像和转换图像用作训练示例。 这不像我们训练中的两只猫那么好。 但是，它的确使我们可以告诉计算机，无论猫面对什么方向，猫都是猫。
+
+在实践中，我们可以做的不仅仅是水平翻转。 当有意义时，我们也可以垂直翻转，移动和随机旋转图像。 这使我们能够人为地放大我们的数据集，并使它看起来比实际的更大。 当然，您只能将其推到目前为止，但这是在存在少量数据的情况下防止过拟合的一个非常强大的工具。
+
+# Keras `ImageDataGenerator`
+
+不久前，进行图像增强的唯一方法是对转换进行编码，并将其随机应用于训练集，然后将转换后的图像保存在磁盘上（上下坡，在雪中）。 对我们来说幸运的是，Keras 现在提供了`ImageDataGenerator`类，可以在我们训练时即时应用转换，而无需手工编码转换。
+
+我们可以通过实例化`ImageDataGenerator`来创建一个数据生成器对象，如下所示：
+
+```py
+def create_datagen(train_X):
+    data_generator = ImageDataGenerator(
+        rotation_range=20,
+        width_shift_range=0.02,
+        height_shift_range=0.02,
+        horizontal_flip=True)
+    data_generator.fit(train_X)
+    return data_generator
+```
+
+在此示例中，我同时使用了移位，旋转和水平翻转。 我只使用很小的移位。 通过实验，我发现更大的变化太多了，而且我的网络实际上无法学到任何东西。 您的经验会随着您的问题而变化，但是我希望较大的图像更能容忍移动。 在这种情况下，我们使用 32 个像素的图像，这些图像非常小。
+
+# 用生成器训练
+
+如果您以前没有使用过生成器，则它就像迭代器一样工作。 每次调用`ImageDataGenerator` `.flow()`方法时，它都会产生一个新的训练小批量，并将随机变换应用于所馈送的图像。
+
+Keras `Model`类带有`.fit_generator()`方法，该方法使我们可以使用生成器而不是给定的数据集：
+
+```py
+model.fit_generator(data_generator.flow(data["train_X"], data["train_y"], batch_size=32),
+                    steps_per_epoch=len(data["train_X"]) // 32,
+                    epochs=200,
+                    validation_data=(data["val_X"], data["val_y"]),
+                    verbose=1,
+                    callbacks=callbacks)
+```
+
+在这里，我们用生成器替换了传统的`x`和`y`参数。 最重要的是，请注意`steps_per_epoch`参数。 您可以从训练集中任意采样替换次数，并且每次都可以应用随机变换。 这意味着我们每个周期可以使用的迷你批数比数据还多。 在这里，我将仅根据观察得到的样本数量进行采样，但这不是必需的。 如果可以，我们可以并且应该将这个数字提高。
+
+在总结之前，让我们看一下这种情况下图像增强的好处：
+
+![](img/fc4d1f15-9e77-4b74-bcb5-c783b63bf35f.png)
+
+如您所见，仅一点点图像增强确实帮助了我们。 不仅我们的整体精度更高，而且我们的网络过拟合的速度也慢得多。 如果您的计算机视觉问题只包含少量数据，那么图像增强就是您想要做的事情。
+
+# 总结
+
+在本章中，我们快速介绍了许多基础知识。 我们讨论了卷积层及其如何用于神经网络。 我们还介绍了批量规范化，池化层和数据增强。 最后，我们使用 Keras 从零开始训练卷积神经网络，然后使用数据增强对该网络进行改进。
+
+我们还讨论了如何基于数据的渴望计算机视觉的深度神经网络问题。 在下一章中，我将向您展示**迁移学习**，这是我最喜欢的技术之一。 这将帮助您快速解决计算机视觉问题，并获得惊人的结果并且数据量更少。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/08.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/08.md
new file mode 100644
index 00000000..06e861f4
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/08.md
@@ -0,0 +1,246 @@
+# 八、将预训练的 CNN 用于迁移学习
+
+迁移学习很棒。 实际上，在一本充满奇妙事物的书中，这可能是我必须告诉您的最奇妙的事物。 如果没有，那也许至少是我可以教给您的最有用和最实用的深度学习技术。 迁移学习可以帮助您解决深度学习问题，尤其是计算机视觉问题，而涉及问题范围的数据和数据却很少。 在本章中，我们将讨论什么是迁移学习，什么时候应该使用它，最后讨论如何在 Keras 中进行迁移学习。
+
+我们将在本章介绍以下主题：
+
+*   迁移学习概述
+*   何时应使用迁移
+*   源/目标数量和相似性的影响
+*   Keras 的迁移学习
+
+# 迁移学习概述
+
+在第 7 章和“卷积神经网络”中，我们训练了约 50,000 个观测值的卷积神经网络，并且由于网络和问题的复杂性，在开始训练的短短几个周期后，我们过拟合了。 如果您还记得的话，我曾评论说我们的训练集中有 50,000 个观察结果对于计算机视觉问题不是很大。 确实如此。 计算机视觉问题喜欢数据，而我们可以提供给他们的数据越多，它们的表现就越好。
+
+我们可能认为计算机视觉技术最先进的深度神经网络通常在称为 **ImageNet** 的数据集上进行训练。 [`ImageNet`数据集](http://www.image-net.org/)是包含 120 万张图像的 1,000 个分类器。 这还差不多！ 如此庞大的数据集使研究人员能够构建真正复杂的深度神经网络，以检测复杂的特征。 当然，在 120 万张图像上训练有时具有 100 多个层的模型的价格很高。 训练可能需要数周和数月，而不是数小时。
+
+但是，如果我们可以从一个最先进的，多层的，经过数百万张图像训练的网络开始，然后仅使用少量数据将该网络应用于我们自己的计算机视觉问题，该怎么办？ 那就是**迁移学习**！
+
+要使用迁移学习，我们将执行以下步骤：
+
+1.  从训练非常大的复杂计算机视觉问题的模型开始； 我们将其称为我们的源域
+2.  删除网络的最后一层（`softmax`层），并可能删除其他完全连接的层
+3.  将最后几层替换为适合我们新问题的层，我们将其称为目标域
+4.  冻结所有已训练的层，使其权重不变
+5.  在目标域数据上训练网络
+
+如果我们在这里停止，这通常被称为特征提取，因为我们正在使用在源域上训练的网络来提取目标域的视觉特征。 然后，我们使用栓接到该特征提取网络上的相对较小的神经网络来执行目标域任务。 根据我们的目标和数据集，这可能就足够了。
+
+可选地，我们将通过解冻一些或所有冻结的层来微调整个网络，然后通常以很小的学习率再次进行训练。 我们将在短期内讨论何时使用微调，但是请确保我们涵盖了首先使用迁移学习的一些原因。
+
+# 何时应使用迁移
+
+当您的数据有限且存在解决类似问题的网络时，迁移学习会非常有效。 您可以使用迁移学习将最先进的网络和大量数据带入一个其他小的问题。 那么，什么时候应该使用迁移学习？ 随时可以！ 但是，我希望您首先考虑两个规定。 我们将在以下各节中讨论它们。
+
+# 数据有限
+
+关于计算机视觉和迁移学习，我最常被问到的问题是：我必须拥有多少张图像？ 这是一个很难回答的问题，因为，正如我们将在下一节中看到的那样，更多通常更好。 一个更好的问题可能是：我可以使用几张图像来充分解决我的业务问题？
+
+那么，我们的数据集有多有限？ 尽管远非科学，但我已经建立了使用多达 2,000 张图像进行二分类任务的有用模型。 更简单的任务和更多样化的图像集通常可以在较小的数据集下获得更令人满意的结果。
+
+根据经验，您至少需要几千张某类的图像，而通常最好使用 10 至 2 万张图像。
+
+# 常见问题域
+
+如果您的目标域至少与源域有些相似，那么迁移学习会很有效。 例如，假设您正在将图像分类为包含猫或狗。 有许多`ImageNet`训练有素的图像分类器非常适合用于此类型或问题。
+
+相反，让我们想象我们的问题是将 CT 扫描或 MRI 归类为是否包含肿瘤。 此目标域与`ImageNet`源域非常不同。 这样，虽然使用迁移学习可能（并且可能会）有好处，但我们将需要更多的数据，并且可能需要进行一些微调才能使网络适应此目标域。
+
+# 源/目标数量和相似性的影响
+
+直到最近，很少有人研究数据量和源/目标域相似性对迁移学习表现的影响。 但是，这是一个对迁移学习的可用性很重要的主题，也是我撰写的主题。 在我的同事撰写的[《调查数据量和域相似性对迁移学习应用的影响》](https://arxiv.org/pdf/1712.04008.pdf)中，对这些主题进行了一些实验。 这就是我们发现的东西。
+
+# 更多数据总是有益的
+
+Google 研究人员在《重新研究深度学习周期数据的不合理有效性》中进行的几次实验中，构建了一个内部数据集，其中包含 3 亿个观测值，显然比`ImageNet`大得多。 然后，他们在该数据集上训练了几种最先进的架构，从而使模型显示的数据量从 1000 万增加到 3000 万，1 亿，最后是 3 亿。 通过这样做，他们表明模型表现随用于训练的观察次数的对数线性增加，这表明在源域中，更多的数据总是有帮助。
+
+但是目标域呢？ 我们使用了一些类似于我们在迁移学习过程中可能使用的类型的数据集重复了 Google 实验，包括我们将在本章稍后使用的`Dogs versus Cats`数据集。 我们发现，在目标域中，模型的表现随用于训练的观察次数的对数线性增加，就像在源域中一样。 更多数据总是有帮助的。
+
+# 源/目标域相似度
+
+迁移学习的独特之处在于您担心源域和目标域之间的相似度。 经过训练以识别人脸的分类器可能不会轻易迁移到识别各种架构的目标领域。 我们进行了源和目标尽可能不同的实验，以及源和目标域非常相似的实验。 毫不奇怪，当迁移学习应用中的源域和目标域非常不同时，与相似时相比，它们需要更多的数据。 它们也需要更多的微调，因为当域在视觉上非常不同时，特征提取层需要大量的学习。
+
+# Keras 的迁移学习
+
+与本书中的其他示例不同，在这里我们将需要涵盖目标域问题，源域问题以及我们正在使用的网络架构。 我们将从目标域的概述开始，这是我们要解决的问题。 然后，我们将介绍网络最初经过训练的源域，并简要介绍我们将使用的网络架构。 然后，我们将在本章的其余部分中将问题联系在一起。 我们需要分别考虑两个域，因为它们的大小和相似性与网络表现密切相关。 目标和源的类型越近，结果越好。
+
+# 目标域概述
+
+在本章的示例中，我将使用 Kaggle 的`Dogs versus Cats`数据集。 该数据集包含 25,000 张猫和狗的图像。 每个类别之间达到完美平衡，每个类别 12,500。 可以从[这里](https://www.kaggle.com/c/dogs-vs-cats/data)下载数据集。
+
+这是一个二分类问题。 每张照片都包含狗或猫，但不能同时包含两者。
+
+该数据集由 Jeremy Elson 等人于 2007 年组装。 ，它目前托管在 [www.kaggle.com](https://www.kaggle.com/) 上。 它是完全免费下载和用于学术用途的，但是它确实需要一个 Kaggle 帐户并接受其最终用户许可。 一样，这是一个了不起的数据集，因此我在此处包括使用说明。
+
+# 源域概述
+
+我们将从在 ImageNet 上训练的深度神经网络开始。 如果您从“迁移学习概述”部分中回顾过，`ImageNet`是一个 1,000 类分类器，训练了大约 120 万张图像。 `ImageNet`数据集中都包含狗和猫的图像，因此在这种情况下，我们的目标域实际上与我们的源域非常相似。
+
+# 源网络架构
+
+我们将使用 [**Inception-V3** 网络架构](https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Szegedy_Rethinking_the_Inception_CVPR_2016_paper.pdf)。 与您到目前为止在本书中所看到的相比，Inception 架构很有趣并且非常复杂。 如果您从第 7 章，“卷积神经网络”中回想起，我们必须围绕网络架构做出的决定之一就是选择过滤器大小。 对于每一层，我们必须决定是否应使用例如`3 x 3`过滤器，而不是`5 x 5`过滤器。 当然，也许根本就不需要另一次卷积。 也许像池化之类的东西可能更合适。 因此，如果我们在每一层都做所有事情，该怎么办？ 这就是开始的动机。
+
+该架构基于一系列模块或称为**初始模块**的构建块。 在每个初始模块中，先前的激活都赋予`1 x 1`卷积，`3 x 3`卷积，`5 x 5`卷积和最大池化层。 然后将输出连接在一起。
+
+Inception-V3 网络由几个相互堆叠的 Inception 模块组成。 最后两层都完全连接，输出层是 1,000 个神经元 softmax。
+
+通过使用`keras.applications.inception_v3`中的`InceptionV3`类，我们可以加载 Inception-V3 网络及其权重。 Keras 的网络动物园中有几个流行的网络，它们都位于`keras.applications`内部。 只需多一点工作就可以加载在 TensorFlow 中创建的模型。 也可以转换在其他架构中训练的模型，但这不在快速参考的范围之内。
+
+要加载 Inception，我们只需要实例化一个`InceptionV3`对象，它是 Keras 模型，如以下代码所示：
+
+```py
+from keras.applications.inception_v3 import InceptionV3
+base_model = InceptionV3(weights='imagenet', include_top=False)
+```
+
+您可能会注意到，我们在这里说了`include_top=False`，这表明我们不需要网络的顶层。 这免除了我们手动清除它们的工作。 第一次运行此代码时，它将下载 Inception-V3 网络架构并保存权重并将其缓存给我们。 现在，我们只需要添加我们自己的完全连接的层即可。
+
+# 迁移网络架构
+
+我们将用更适合我们的用例的全连接层替换最后两层。 由于我们的问题是二分类，因此我们将使用激活`sigmoid`的单个神经元替换输出层，如以下代码所示：
+
+```py
+# add a global spatial average pooling layer
+x = base_model.output
+x = GlobalAveragePooling2D()(x)
+# let's add a fully-connected layer
+x = Dense(1024, activation='relu')(x)
+# and a logistic layer
+predictions = Dense(1, activation='sigmoid')(x)
+
+# this is the model we will train
+model = Model(inputs=base_model.input, outputs=predictions)
+```
+
+注意，我们在这里使用`GlobalAveragePooling2D`层。 该层将前一层的 4D 输出平坦化为 2D 层，通过求平均将其适合于我们的全连接层。 通过指定`pooling='avg' or 'max'`来加载基本模型时，也可以完成此操作。 这是您如何处理此问题的电话。
+
+至此，我们已经准备好训练网络。 但是，在执行此操作之前，我们需要记住冻结基本模型中的层，以免新的完全连接的层疯狂地试图学习时它们的权重不变。 为此，我们可以使用以下代码遍历各层并将其设置为不可训练：
+
+```py
+for layer in base_model.layers:
+   layer.trainable = False
+
+```
+
+# 数据准备
+
+我们将首先从 [Kaggle](https://www.kaggle.com/c/dogs-vs-cats/data) 下载数据，然后将`train.zip`解压缩到本书的`Chapter08`目录中。 现在，您将拥有一个名为`train/`的目录，其中包含 25,000 张图像。 每个名称都将类似于`cat.number.jpg`。
+
+我们想移动这些数据，以便我们为训练，验证和测试创建单独的目录。 这些目录中的每一个都应具有猫和狗的目录。 这都是非常无聊且平凡的工作，因此，我创建了`data_setup.py`来为您执行此操作。 一旦运行它，数据将在本章的其余部分中全部格式化。
+
+完成后，您将拥有一个具有以下结构的数据目录：
+
+![](img/407018fd-63e4-450b-a1bd-640aad3b8e39.jpg)
+
+# 数据输入
+
+快速浏览图像应使您确信我们的图像的分辨率和大小均不同。 正如您从第 7 章，“卷积神经网络”，所了解的那样，我们需要这些图像的大小与神经网络的输入张量一致。 这是一个非常现实的问题，您将经常面对计算机视觉任务。 虽然当然可以使用 [**ImageMagick**](http://www.imagemagick.org) 之类的程序来批量调整图像大小，但 Keras `ImageDataGenerator`类可用于快速调整图像大小，这就是我们要做的。
+
+Inception-V3 期望`299 x 299 x 3`图像。 我们可以在数据生成器中指定此目标大小，如以下代码所示：
+
+```py
+train_datagen = ImageDataGenerator(rescale=1./255)
+val_datagen = ImageDataGenerator(rescale=1./255)
+
+train_generator = train_datagen.flow_from_directory(
+    train_data_dir,
+    target_size=(img_width, img_height),
+    batch_size=batch_size,
+    class_mode='binary')
+
+validation_generator = val_datagen.flow_from_directory(
+    val_data_dir,
+    target_size=(img_width, img_height),
+    batch_size=batch_size,
+    class_mode='binary')
+```
+
+如果需要，我们当然可以在这里使用数据增强，但是我们实际上并不需要它。
+
+我们在这里最有趣的事情可能是使用数据生成器的`flow_from_directory()`方法。 此方法采用一条路径，并根据该路径生成一批图像。 它为我们完成了将映像从磁盘中取出的所有工作。 由于它一次执行一批，因此即使不需要时，我们甚至不必将所有 50,000 个图像保留在 RAM 中。 很酷吧？
+
+# 训练（特征提取）
+
+对于此模型，我们将训练两次。 对于第一轮训练，我们将通过冻结网络的训练来进行 10 个周期的特征提取，仅调整完全连接的层权重，如我们在“迁移网络架构”部分中所讨论的。 然后，在下一部分中，我们将解冻某些层并再次进行训练，对另外 10 个周期进行微调，如以下代码所示：
+
+```py
+data_dir = "data/train/"
+val_dir = "data/val/"
+epochs = 10
+batch_size = 30
+model = build_model_feature_extraction()
+train_generator, val_generator = setup_data(data_dir, val_dir)
+callbacks_fe = create_callbacks(name='feature_extraction')
+# stage 1 fit
+model.fit_generator(
+    train_generator,
+    steps_per_epoch=train_generator.n // batch_size,
+    epochs=epochs,
+    validation_data=val_generator,
+    validation_steps=val_generator.n // batch_size,
+    callbacks=callbacks_fe,
+    verbose=1)
+
+scores = model.evaluate_generator(val_generator, steps=val_generator.n // batch_size)
+print("Step 1 Scores: Loss: " + str(scores[0]) + " Accuracy: " + str(scores[1]))
+```
+
+在前面的示例中，我们使用`ImageDataGenerator`的`n`属性来了解可用于生成器的图像总数，并将每个周期的步骤定义为该数目除以批量大小。
+
+此代码的其余部分应该很熟悉。
+
+如前所述，我们只需要训练大约 10 个周期。 现在，让我们看一下 TensorBoard 中的训练过程：
+
+![](img/ba99854e-0291-4744-b2ed-1b099411fa0c.png)
+
+如您所见，即使经过一个周期，网络的表现仍然非常好。 直到大约第 7 个阶段，我们都取得了非常微弱的表现提升。在第 7 个阶段，我们达到了最佳表现，导致 0.9828 的精度和 0.0547 的损失。
+
+# 训练（微调）
+
+为了微调网络，我们需要解冻一些冻结的层。 您可以解冻多少层，并且可以解冻任意数量的网络。 实际上，在大多数情况下，我们仅看到解冻最顶层的好处。 在这里，我仅解冻最后一个初始块，该块从图的`249`层开始。 以下代码描述了此技术：
+
+```py
+def build_model_fine_tuning(model, learning_rate=0.0001, momentum=0.9):
+        for layer in model.layers[:249]:
+            layer.trainable = False
+        for layer in model.layers[249:]:
+            layer.trainable = True
+        model.compile(optimizer=SGD(lr=learning_rate, 
+         momentum=momentum), loss='binary_crossentropy', metrics=
+           ['accuracy'])
+        return model
+```
+
+另请注意，我对**随机梯度下降**使用的学习率非常低，因此需要进行微调。 重要的是，此时应缓慢移动重物，以免在错误的方向上发生太大的飞跃。 我不建议使用`adam`或`rmsprop`进行微调。 以下代码描述了微调机制：
+
+```py
+callbacks_ft = create_callbacks(name='fine_tuning')
+# stage 2 fit
+model = build_model_fine_tuning(model)
+model.fit_generator(
+ train_generator,
+ steps_per_epoch=train_generator.n // batch_size,
+ epochs=epochs,
+ validation_data=val_generator,
+ validation_steps=val_generator.n // batch_size,
+ callbacks=callbacks_ft,
+ verbose=2)
+
+scores = model.evaluate_generator(val_generator, steps=val_generator.n // batch_size)
+print("Step 2 Scores: Loss: " + str(scores[0]) + " Accuracy: " + str(scores[1]))
+```
+
+我们可以再次查看 TensorBoard 图，以了解我们在进行微调后是否能得到任何收益：
+
+![](img/7eeae209-356e-4f83-96fe-51e61bceb6e7.png)
+
+毫无疑问，我们的模型确实可以改进，但是只有很少的改进。 虽然规模很小，但您会注意到验证损失正在努力改善，并且可能显示出一些过拟合的迹象。
+
+在这种情况下，微调几乎没有带来任何好处，但并非总是如此。 在此示例中，目标域和源域非常相似。 如前所述，由于源域和目标域不同，您从微调中获得的收益将增加。
+
+# 总结
+
+在本章中，我们介绍了迁移学习，并演示了如何使用在源域上进行预训练的网络如何极大地缩短训练时间，并最终改善我们的深度神经网络的表现。 我希望您喜欢这项技术，它是我的最爱之一，因为它非常实用，而且我通常会从中获得很好的效果。
+
+在下一章中，我们将从计算机视觉过渡到可以记住先前输入的网络，使它们成为预测序列中下一项的理想选择。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/09.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/09.md
new file mode 100644
index 00000000..332766f7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/09.md
@@ -0,0 +1,442 @@
+# 九、从头开始训练 RNN
+
+**循环神经网络**（**RNN**）是为建模顺序数据而构建的一组神经网络。 在最后几章中，我们研究了使用卷积层从图像中学习特征。 当我们想从所有相关的值中学习特征时，循环层同样有用： `x[t]`， `x[t-1]`，`x[t-2]`，`x[t-3]`。
+
+在本章中，我们将讨论如何将 RNN 用于时间序列问题，这无疑是涉及按时间或时间顺序排列的一系列数据点的问题。
+
+我们将在本章介绍以下主题：
+
+*   循环神经网络介绍
+*   时间序列问题
+*   将 LSTM 用于时间序列预测
+
+# 循环神经网络介绍
+
+如果定义不清楚，我们来看一个例子：一个股票行情指示器，我们可以在其中观察股票价格随时间的变化，例如以下屏幕快照中的 Alphabet Inc.，这是时间序列的一个示例：
+
+![](img/c8e78286-b120-4589-9bcc-791eeeb094d3.png)
+
+在下一章中，我们将讨论使用循环神经网络为语言建模，这是另一种类型的序列，即单词序列。 由于您正在阅读本书，因此无疑已经对语言顺序有了一些直觉。
+
+如果您不熟悉时间序列，您可能想知道是否可以使用普通的多层感知器来解决时间序列问题。 您当然可以做到； 但是，实际上，使用循环网络几乎总是可以得到更好的结果。 也就是说，循环神经网络在序列建模方面还有其他两个优点：
+
+*   他们可以比普通的 MLP 更轻松地学习很长的序列
+*   他们可以处理不同长度的序列
+
+当然，这给我们提出了一个重要的问题...
+
+# 是什么使神经元循环？
+
+循环神经网络具有循环，可以使信息从一个预测持续到下一个预测。 这意味着每个神经元的输出取决于网络的当前输入和先前的输出，如下图所示：
+
+![](img/c3a17aee-28bb-49e5-b4fc-70be936df1ad.jpg)
+
+如果我们将这个图跨时间展平，它将看起来更像下图。 网络通知本身的想法是“循环”一词的来源，尽管作为 CS 专业，我始终将其视为循环神经网络。
+
+![](img/78f99d5b-c72c-4dd8-a83f-e000b7e711c5.jpg)
+
+在上图中，我们可以看到神经元`A`接受输入`x[t0]`并输出`h[t0]`在时间步 0 处。然后在时间步 1，神经元使用输入`x[t1]`以及来自其上一个时间步的信号来输出`h[t1]`。 现在在时间步骤 2，它认为它是输入`x[t2]`以及上一个时间步骤的信号，该信号可能仍包含时间步骤 0 的信息。我们继续这种方式，直到到达序列中的最后一个时间步，网络逐步增加其内存。
+
+标准 RNN 使用权重矩阵将前一个时间步的信号与当前时间步的输入和隐藏权重矩阵的乘积混合。 在通过非线性函数（通常是双曲正切函数）进行馈送之前，将所有这些函数组合在一起。 对于每个时间步骤，它看起来像：
+
+![](img/801cc47b-f4df-4766-b94a-f3937353c039.png)
+
+![](img/b4034277-94c5-44ae-83e8-aec26521b29e.png)
+
+![](img/e391d033-316e-426f-bf52-c72785baffdb.png)
+
+此处`t`是前一个时间步输出和当前时间步输入的线性组合，均由权重矩阵`W`和`U`进行参数化。 一旦计算出`t`，它就具有非线性函数，最常见的是双曲正切`h[t]`。 最后，神经元的输出`o[t]`将`h[t]`与权重矩阵结合在一起，`V`和`a`偏置，`c`偏置。
+
+当您查看此结构时，请尝试想象一下一种情况，在该情况下，您很早就需要一些非常重要的信息。 随着序列的延长，重要的早期信息被遗忘的可能性就更高，因为新信号会轻易地压倒旧信息。 从数学上讲，单元的梯度将消失或爆炸。
+
+这是标准 RNN 的主要缺点。 在实践中，传统的 RNN 难以按顺序学习真正的长期交互作用。 他们很健忘！
+
+接下来，让我们看一下可以克服此限制的长短期内存网络。
+
+# 长期短期记忆网络
+
+每当需要循环网络时，**长期短期记忆网络**（**LSTM**）都能很好地工作。 您可能已经猜到了，LSTM 在学习长期交互方面很出色。 实际上，这就是他们的设计意图。
+
+LSTM 既可以积累先前时间步骤中的信息，又可以选择何时忘记一些不相关的信息，而选择一些新的更相关的信息。
+
+例如，考虑序列`In highschool I took Spanish. When I went to France I spoke French.`。 如果我们正在训练一个网络来预测`France`一词，那么记住`French`并有选择地忘记`Spanish`是非常重要的，因为上下文已经发生了变化。 当序列的上下文发生变化时，LSTM 可以有选择地忘记某些事情。
+
+为了完成这种选择性的长期记忆，LSTM 实现了一个“忘记门”，该门使 LSTM 成为了称为门控神经网络的神经网络家族的成员。 该遗忘门允许 LSTM 有选择地学习何时应从其长期存储器中丢弃信息。
+
+LSTM 的另一个关键特性是内部自循环，使设备可以长期积累信息。 除了我们在 RNN 中看到的循环之外，还使用了该循环，可以将其视为时间步之间的外部循环。
+
+相对于我们已经看到的其他神经元，LSTM 非常复杂，如下图所示：
+
+![](img/0a5218b1-b99c-496a-bf84-f9d97c188a58.png)
+
+每个 LSTM 单元展开时，都有一个时间段`t`的输入，称为`x[t]`，一个输出，称为`o[t]`以及从上一个时间步`C[t-1]`到下一个`C[t]`进行存储的存储器总线`C`。
+
+除这些输入外，该单元还包含多个门。 我们已经提到的第一个是忘记门，在图中标记为`F[t]`：
+
+![](img/355dbba6-b10b-4cc7-a992-727d56fbc887.png)
+
+该门的输出（将在 0 和 1 之间）逐点乘以`C[t-1]`。 这允许门调节从`C[t-1]`到`C[t]`的信息流。
+
+下一个门，即输入门`i[t]`与函数候选`C[t]`结合使用。 候选`C[t]`学习可以添加到内存状态的向量。 输入门了解总线`C`中的哪些值得到更新。 下式说明`i[t]`和候选`C[t]`：
+
+![](img/ec04eb9a-48f5-45fd-af5c-812bf60c1288.png)
+
+![](img/fd532fce-cd9f-4f87-a814-45976a16593d.png)
+
+我们取`i[t]`和候选`C[t]`的点积，决定添加到总线`C`的对象， 使用`F[t]`决定要忘记什么之后，如以下公式所示：
+
+![](img/c6d9fff9-d274-4af0-8ef2-69b3cd7c03bc.png)
+
+最后，我们将决定获取输出的内容。 输出主要来自内存总线`C`； 但是，它被另一个称为输出门的门过滤。 以下公式说明了输出：
+
+![](img/57790f79-d20b-4cb4-a728-d25af7dab0bf.png)
+
+![](img/356fa44b-b999-4d7b-80b0-bfc55dc3d4d9.png)
+
+尽管很复杂，但 LSTM 在各种问题上都非常有效。 尽管存在 LSTM 的多个变体，但在大多数任务上仍基本认为该基本实现是最新技术。
+
+这些任务之一是预测时间序列中的下一个值，这就是我们将在本章中使用的 LSTM。 但是，在我们开始将 LSTM 应用于时间序列之前，必须对时间序列分析和更传统的方法进行简短的复习。
+
+# 时间上的反向传播
+
+训练 RNN 要求**反向传播**的实现略有不同，即在整个时间（**BPTT**）中称为**反向传播**。
+
+与正常反向传播一样，BPTT 的目标是使用整体网络误差，通过梯度来调整每个神经元/单元对它们对整体误差的贡献的权重。 总体目标是相同的。
+
+但是，当使用 BPTT 时，我们对误差的定义会稍有变化。 正如我们刚刚看到的，可以通过几个时间步长展开神经元循环。 我们关心所有这些时间步长的预测质量，而不仅仅是终端时间步长，因为 RNN 的目标是正确预测序列，因为逻辑单元误差定义为所有时间步长上展开的误差之和。
+
+使用 BPTT 时，我们需要总结所有时间步骤中的误差。 然后，在计算完该总体误差后，我们将通过每个时间步的梯度来调整单元的权重。
+
+这迫使我们明确定义将展开 LSTM 的程度。 在下面的示例中，您将看到这一点，当我们创建一组特定的时间步长时，将为每个观察值进行训练。
+
+您选择反向传播的步骤数当然是超参数。 如果您需要从序列中很远的地方学习一些东西，显然您必须在序列中包括很多滞后。 您需要能够捕获相关期间。 另一方面，捕获太多的时间步长也不可取。 该网络将变得非常难以训练，因为随着时间的流逝，梯度会变得非常小。 这是前面几章中描述的梯度消失问题的另一个实例。
+
+如您想象的那样，您可能想知道是否选择太大的时间步会使程序崩溃。 如果梯度驱动得太小以至于变为 NaN，那么我们将无法完成更新操作。 解决此问题的一种常见且简便的方法是在某些上下阈值之间固定梯度，我们将其称为梯度裁剪。 默认情况下，所有 **Keras** 优化器均已启用梯度剪切。 如果您的梯度被剪裁，则在该时间范围内网络可能不会学到很多东西，但是至少您的程序不会崩溃。
+
+如果 BPTT 看起来确实令人困惑，请想象一下 LSTM 处于展开状态，其中每个时间步都有一个单元。 对于该网络结构，该算法实际上与标准反向传播几乎相同，不同之处在于所有展开的层均共享权重。
+
+# 时间序列问题回顾
+
+时间序列问题是涉及按时间顺序放置的一系列数据点的问题。 我们通常将这些数据点表示为一组：
+
+![](img/0969789c-bcfd-4c4a-b526-8e05a45d6ab1.png)
+
+通常，我们在时间序列分析中的目标是预测。 但是，使用时间序列当然还可以执行许多其他有趣的事情，而这不在本书的讨论范围之内。 预测实际上只是回归的一种特殊形式，我们的目标是根据给定的先前点`x[t-1], ..., x[t-n]`来预测某个点`x[t]`或点`x[t], x[t+1], x[t+2], ..., x[t+n]`。 当时间序列自动关联时，我们可以执行此操作，这意味着数据点与其自身关联一个或多个时间上的点（称为滞后）。 自相关性越强，预测就越容易。
+
+在许多书中，时间序列问题用`y`表示，而不是用`x`表示，以暗示我们通常关心预测给定自身的变量 y 的想法。
+
+# 库存和流量
+
+在计量经济学时间序列中，数量通常被定义为**库存**或**流量**。 库存度量是指特定时间点的数量。 例如，2008 年 12 月 31 日的 SP500 的值是库存测量值。 流量测量是一段时间间隔内的速率。 美国股票市场从 2009 年到 2010 年的增长率是一种流量度量。
+
+最经常进行预测时，我们会关注预测流量。 如果我们将预测想象为一种特定的回归，那么我们偏爱流量的第一个也是最明显的原因是，流量估计更有可能是插值而不是外推，而且插值几乎总是更安全。 此外，大多数时间序列模型都具有平稳性的假设。 固定时间序列是其统计属性（均值，方差和自相关）随时间恒定的序列。 如果我们使用一定数量的库存测量，则会发现大多数现实世界中的问题远非静止不动。
+
+使用 LSTM 进行时间序列分析时，虽然没有假设（读取规则）需要平稳性，但根据实际经验，我发现对相对固定的数据进行训练的 LSTM 更加健壮。 使用 LSTM 进行时间序列预测时，几乎在所有情况下，一阶差分就足够了。
+
+将库存数量转换为流量数量非常简单。 如果您具有`n`个点，则可以创建具有一阶差分的`n-1`流量测量值，其中，对于每个值`t'[n]`，我们通过从`t[n]`中减去`t[n-1]`来进行计算，从而得出跨时间间隔的两次测量的变化率，如以下公式所示：
+
+![](img/335dae59-80a2-4afd-bc88-829c9306832d.png)
+
+例如，如果我们在三月份拥有价值 80 美元的股票，而在四月份突然价值 100 美元，则该股票的流率将为 20 美元。
+
+一阶微分不能保证平稳的时间序列。 我们可能还需要删除季节或趋势。 趋势消除是专业预测员日常生活的重要组成部分。 如果我们使用传统的统计模型进行预测，则需要做更多的工作。 虽然我们没有涵盖这些内容的页面，但我们可能还需要执行二阶差分，季节性趋势下降或更多操作。 **增强 Dickey-Fuller**（**ADF**）测试是一种统计测试，通常用于确定我们的时间序列是否实际上是静止的。 如果您想知道时间序列是否稳定，[可以使用增强的 Dickey-Fuller 检验来检查](https://en.wikipedia.org/wiki/Augmented_Dickey%E2%80%93Fuller_test)。 但是，对于 LSTM，一阶微分通常可能就足够了。 只需了解网络最肯定会学习您数据集中剩余的季节和周期。
+
+# ARIMA 和 ARIMAX 预测
+
+值得一提的是**自回归综合移动平均值**（**ARIMA**）模型，因为它们传统上用于时间序列预测。 虽然我显然是深度神经网络的忠实拥护者（事实上，我写过关于它们的书），但我建议从 ARIMA 开始并逐步进行深度学习。 在许多情况下，ARIMA 的表现将优于 LSTM。 当数据稀疏时尤其如此。
+
+从可能可行的最简单模型开始。 有时这将是一个深层的神经网络，但通常情况会更简单一些，例如线性回归或 ARIMA 模型。 该模型的复杂性应通过其提供的提升来证明，通常越简单越好。 尽管整本书中多次重申，但在时间序列预测中，这一说法比其他任何话题都更为真实。
+
+ARIMA 模型是三个部分的组合。 AR，即自回归部分，是根据自身的自相关性对序列进行建模的部分。 MA 部分尝试对时间序列中的本地突发事件或冲击建模。 I 部分涵盖了差异，我们刚刚介绍了差异。 ARIMA 模型通常采用三个超参数`p`，`d`和`q`，分别对应于建模的自回归滞后的数量，微分度和模型的移动平均部分的顺序。
+
+ARIMA 模型在 R 的`auto.arima()`和预测包中实现得很好，这可能是使用 R 语言的唯一很好的理由之一。
+
+ARIMAX 模型允许在时间序列模型中包含一个或多个协变量。 您问这种情况下的协变量是多少？ 这是一个附加时间序列，也与因变量相关，可用于进一步改善预测表现。
+
+交易员的常见做法是尝试通过使用另一种商品的一个或多个滞后以及我们预测的商品的自回归部分来预测某些商品的价值。 在这种情况下，ARIMAX 模型将很有用。
+
+如果您有许多具有复杂的高阶交互作用的协变量，那么您已进入 LSTM 的最佳预测时间序列。 在本书的开头，我们讨论了多层感知器如何对输入变量之间的复杂相互作用进行建模，从而为我们提供了自动特征工程，该工程提供了线性或逻辑回归的提升。 此属性可以继续使用 LSTM 进行具有许多输入变量的时间序列预测。
+
+如果您想全面了解 ARIMA，ARIMAX 和时间序列预测，建议从 [Rob J. Hyndman 的博客 Hyndsight](https://robjhyndman.com/hyndsight/) 开始。
+
+# 将 LSTM 用于时间序列预测
+
+在本章中，我们将通过使用 2017 年 1 月至 5 月的比特币分钟价格来预测 2017 年 6 月美元的比特币分钟价格。我知道这听起来确实很赚钱，但是在您购买那条船之前，我建议您通读本章的最后； 说起来容易做起来难，甚至建模起来也容易。
+
+即使我们能够使用这种模型在美元和比特币之间创造套利潜力（由于效率低下而导致两个市场之间的价格差异），但由于存在延迟，围绕比特币制定交易策略可能极其复杂。 在完成比特币交易中。 在撰写本文时，比特币交易的平均交易时间超过一个小时！ 任何交易策略都应考虑这种“非流动性”。
+
+和以前一样，本书的 Git 存储库中的`Chapter09`下提供了本章的代码。 文件`data/bitcoin.csv`包含数年的比特币价格。 基于以下假设，即前几年的市场行为与 2017 年加密货币流行后的行为无关，我们将仅使用几个月的价格信息作为模型。
+
+# 数据准备
+
+对于此示例，我们将不使用验证集，而是将测试集用作验证集。 在处理此类预测问题时，验证成为一项具有挑战性的工作，因为训练数据从测试数据中获取的越多，执行效果越差的可能性就越大。 另一方面，这并不能为过度安装提供太多保护。
+
+为了使事情简单，在这里我们将只使用一个测试集，并希望最好。
+
+在继续之前，让我们看一下将要进行的数据准备的总体流程。 为了使用此数据集训练 LSTM，我们需要：
+
+1.  加载数据集并将周期时间转换为熊猫日期时间。
+2.  通过对日期范围进行切片来创建训练和测试集。
+3.  差分我们的数据集。
+4.  将差异缩放到更接近我们的激活函数的程度。 我们将使用 -1 到 1，因为我们将使用`tanh`作为激活
+5.  创建一个训练集，其中每个目标`x[t]`都有一系列与之相关的滞后`x[t-1], ..., x[t-n]`。 在此训练集中，您可以将`x[t]`视为我们的典型因变量`y`。 滞后序列`x[t-1], ..., x[t-n]`可以看作是典型的`X`训练矩阵。
+
+我将在接下来的主题中介绍每个步骤，并在进行过程中显示相关的代码。
+
+# 加载数据集
+
+从磁盘加载数据集是一项相当简单的工作。 如前所述，我们将按日期对数据进行切片。 为此，我们需要将数据集中的 Unix 周期时间转换为可分割的日期。 可以通过`pandas to_datetime()`方法轻松实现，如以下代码所示：
+
+```py
+def read_data():
+    df = pd.read_csv("./data/bitcoin.csv")
+    df["Time"] = pd.to_datetime(df.Timestamp, unit='s')
+    df.index = df.Time
+    df = df.drop(["Time", "Timestamp"], axis=1)
+    return df
+```
+
+# 按日期切片和测试
+
+现在，我们的数据帧已通过`datetime`时间戳编制索引，因此我们可以构造基于日期的切片函数。 为此，我们将定义一个布尔掩码，并使用该掩码选择现有的数据框。 虽然我们可以肯定地将其构造成一行，但我认为以这种方式阅读起来要容易一些，如以下代码所示：
+
+```py
+def select_dates(df, start, end):
+    mask = (df.index > start) & (df.index <= end)
+    return df[mask]
+```
+
+现在我们可以使用日期来获取数据框的某些部分，我们可以使用以下代码通过几次调用这些函数轻松地创建训练和测试数据框：
+
+```py
+df = read_data()
+df_train = select_dates(df, start="2017-01-01", end="2017-05-31")
+df_test = select_dates(df, start="2017-06-01", end="2017-06-30")
+```
+
+在使用这些数据集之前，我们需要对它们进行区别，如下所示。
+
+# 差分时间序列
+
+Pandas 数据框最初是为对时间序列数据进行操作而创建的，幸运的是，由于对数据集进行差分是时间序列中的一种常见操作，因此很容易内置。但是，根据良好的编码习惯，我们将围绕我们的一阶差分运算包装一个函数。 请注意，我们将用 0 填充无法进行一阶差分的所有空间。以下代码说明了此技术：
+
+```py
+def diff_data(df):
+    df_diffed = df.diff()
+    df_diffed.fillna(0, inplace=True)
+    return df_diffed
+```
+
+通过差分数据集，我们将这个问题（库存问题）转移到了流量问题。 在比特币投放中，流量可能会很大，因为比特币的价值会在数分钟之间发生很大变化。 我们将通过缩放数据集来解决此问题。
+
+# 缩放时间序列
+
+在此示例中，我们将使用`MinMaxScaler`将每个差异数据点缩放为最小值为 -1 且最大值为 1 的比例。这将使我们的数据与双曲线正切函数（`tanh` ），这是我们针对该问题的激活函数。 我们将使用以下代码缩放系列：
+
+```py
+
+def scale_data(df, scaler=None):
+    scaled_df = pd.DataFrame(index=df.index)
+    if not scaler:
+        scaler = MinMaxScaler(feature_range=(-1,1))
+    scaled_df["Price"] = scaler.fit_transform(df.Close.values.reshape(-1,1))
+    return scaler, scaled_df
+```
+
+请注意，此函数可以选择使用已经适合的缩放器。 这使我们能够将训练定标器应用到我们的测试仪上。
+
+# 创建滞后的训练集
+
+对于每个训练示例，给定一系列延迟`x[t-1], ..., x[t-n]`，我们希望训练网络以预测值`x[t]`。 理想的延迟数是一个超参数，因此需要进行一些实验。
+
+如前所述，以这种方式构造输入是 BPTT 算法的要求。 我们将使用以下代码来训练数据集：
+
+```py
+def lag_dataframe(data, lags=1):
+    df = pd.DataFrame(data)
+    columns = [df.shift(i) for i in range(lags, 0, -1)]
+    columns.append(df)
+    df = pd.concat(columns, axis=1)
+    df.fillna(0, inplace=True)
+
+    cols = df.columns.tolist()
+    for i, col in enumerate(cols):
+        if i == 0:
+            cols[i] = "x"
+        else:
+            cols[i] = "x-" + str(i)
+
+    cols[-1] = "y"
+    df.columns = cols
+    return df
+```
+
+例如，如果我们用`lags = 3`调用`lag_dataframe`，我们期望数据集返回`x[t-1], x[t-2], x[t-3]`。 我发现很难理解这样的滞后代码，因此，如果您也这样做，您并不孤单。 我建议运行它并建立一些熟悉的操作。
+
+在选择数量滞后时，在将模型部署到生产环境时，您可能还需要考虑要等待多少个滞后才能做出预测。
+
+# 输入形状
+
+Keras 期望 LSTM 的输入是一个三维张量，看起来像：
+
+![](img/e33c30d9-f1e9-4a50-94eb-df87a53faf1f.png)
+
+第一个维度显然是我们拥有的观测值的数量，并且我们可以预期。
+
+第二维对应于使用`lag_dataframe`函数时我们选择的滞后次数。 这是我们要给 Keras 做出预测的时间步数。
+
+第三维是该时间步中存在的特征数。 在我们的示例中，我们将使用一个，因为每个时间步只有一个特征，即该时间步的比特币价格。
+
+在继续阅读之前，请仔细考虑此处定义三维矩阵给您的威力。 我们绝对可以将数百个其他时间序列作为预测该时间序列的特征。 通过这样做以及使用 LSTM，我们可以免费获得这些特征之间的特征工程。 正是这种功能使 LSTM 在金融领域变得如此令人兴奋。
+
+对于当前的问题，我们将需要将二维矩阵转换为三维矩阵。 为此，我们将使用 NumPy 的便捷`reshape`函数，如以下代码所示：
+
+```py
+X_train = np.reshape(X_train.values, (X_train.shape[0], X_train.shape[1], 1))
+X_test = np.reshape(X_test.values, (X_test.shape[0], X_test.shape[1], 1))
+```
+
+# 数据准备
+
+在此示例中，我们做了很多转换。 在继续进行训练之前，我认为最好将两者结合起来。 如此处所示，我们将使用另一个函数将所有这些步骤联系在一起：
+
+```py
+def prep_data(df_train, df_test, lags):
+    df_train = diff_data(df_train)
+    scaler, df_train = scale_data(df_train)
+    df_test = diff_data(df_test)
+    scaler, df_test = scale_data(df_test, scaler)
+    df_train = lag_dataframe(df_train, lags=lags)
+    df_test = lag_dataframe(df_test, lags=lags)
+
+    X_train = df_train.drop("y", axis=1)
+    y_train = df_train.y
+    X_test = df_test.drop("y", axis=1)
+    y_test = df_test.y
+
+    X_train = np.reshape(X_train.values, (X_train.shape[0], X_train.shape[1], 1))
+    X_test = np.reshape(X_test.values, (X_test.shape[0], X_test.shape[1], 1))
+
+    return X_train, X_test, y_train, y_test
+```
+
+此函数采用训练和测试数据帧，并应用差分，缩放和滞后代码。 然后，将这些数据帧重新调整为我们熟悉的`X`和`y`张量，以进行训练和测试。
+
+现在，我们可以使用几行代码将这些转换粘合在一起，从而从加载数据到准备进行训练和测试，它们可以：
+
+```py
+LAGS=10
+df = read_data()
+df_train = select_dates(df, start="2017-01-01", end="2017-05-31")
+df_test = select_dates(df, start="2017-06-01", end="2017-06-30")
+X_train, X_test, y_train, y_test = prep_data(df_train, df_test, lags=LAGS)
+```
+
+这样，我们就可以开始训练了。
+
+# 网络输出
+
+我们的网络将输出一个单一值，该值是在前一分钟内给定分钟内比特流价格的缩放流量或预期变化。
+
+我们可以使用单个神经元获得此输出。 该神经元可以在 Keras 密集层中实现。 它将多个 LSTM 神经元的输出作为输入，我们将在下一部分中介绍。 最后，此神经元的激活可以是`tanh`，因为我们已将数据缩放到与双曲正切函数相同的比例，如下所示：
+
+```py
+output = Dense(1, activation='tanh', name='output')(lstm2)
+```
+
+# 网络架构
+
+我们的网络将使用两个 Keras LSTM 层，每个层具有 100 个 LSTM 单元：
+
+```py
+inputs = Input(batch_shape=(batch_shape, sequence_length, 
+               input_dim), name="input")
+lstm1 = LSTM(100, activation='tanh', return_sequences=True, 
+             stateful=True, name='lstm1')(inputs)
+lstm2 = LSTM(100, activation='tanh', return_sequences=False, 
+             stateful=True, name='lstm2')(lstm1)
+output = Dense(1, activation='tanh', name='output')(lstm2)
+```
+
+要特别注意`return_sequences`参数。 连接两个 LSTM 层时，您需要前一个 LSTM 层来输出序列中每个时间步的预测，以便下一个 LSTM 层的输入是三维的。 但是，我们的密集层仅需要二维输出即可预测其执行预测的确切时间步长。
+
+# 有状态与无状态 LSTM
+
+在本章的前面，我们讨论了 RNN 跨时间步长维护状态或内存的能力。
+
+使用 Keras 时，可以用两种方式配置 LSTM，即**有状态**和**无状态**。
+
+默认为无状态配置。 使用无状态 LSTM 配置时，每批 LSTM 单元存储器都会重置。 这使得批量大小成为非常重要的考虑因素。 当您正在学习的序列彼此不依赖时，无状态效果最佳。 下一个单词的句子级预测可能是何时使用无状态的一个很好的例子。
+
+有状态配置会在每个周期重置 LSTM 单元存储器。 当训练集中的每个序列取决于其之前的序列时，最常使用此配置。 如果句子级别的预测对于无状态配置可能是一项好任务，那么文档级别的预测对于有状态模型可能是一项好任务。
+
+最终，这种选择取决于问题，并且可能需要在测试每个选项时进行一些试验。
+
+对于此示例，我已经测试了每个选项，并选择使用有状态模型。 当我们考虑问题的背景时，这可能不足为奇。
+
+# 训练
+
+尽管此时的情况似乎有很大不同，但是训练 LSTM 实际上与训练典型横截面问题的深度神经网络没有什么不同：
+
+```py
+LAGS=10
+df = read_data()
+df_train = select_dates(df, start="2017-01-01", end="2017-05-31")
+df_test = select_dates(df, start="2017-06-01", end="2017-06-30")
+X_train, X_test, y_train, y_test = prep_data(df_train, df_test, lags=LAGS)
+model = build_network(sequence_length=LAGS)
+callbacks = create_callbacks("lstm_100_100")
+model.fit(x=X_train, y=y_train,
+          batch_size=100,
+          epochs=10,
+          callbacks=callbacks)
+model.save("lstm_model.h5")
+```
+
+在准备好数据之后，我们使用我们已经遍历的架构实例化一个网络，然后按预期对其进行拟合。
+
+在这里，我使用的是有状态的 LSTM。 有状态 LSTM 的一个实际好处是，与无状态 LSTM 相比，它们倾向于在更少的时间进行训练。 如果要将其重构为无状态 LSTM，则在网络完成学习之前可能需要 100 个周期，而此处我们仅使用 10 个周期。
+
+# 测量表现
+
+在有状态的配置中经过 10 个星期之后，我们的损失已经停止改善，并且我们的网络也受到了良好的训练，如下图所示：
+
+![](img/e866b9d4-0486-4a35-8373-913744c3c687.png)
+
+我们拥有一个合适的网络，似乎已经学到了一些东西。 现在，我们可以对比特币的价格流做出某种预测。 如果我们能做好，我们所有人都会非常富有。 在去买那栋豪宅之前，我们可能应该测量一下模型的表现。
+
+财务模型的最终检验是这个问题：“您愿意在上面花钱吗？”很难回答这个问题，因为在时间序列问题中衡量表现可能具有挑战性。
+
+一种衡量表现的非常简单的方法是使用均方根误差来评估`y_test`与`X_test`预测之间的差异。 我们最肯定可以做到这一点，如以下代码所示：
+
+```py
+RMSE = 0.0801932157201
+```
+
+0.08 是一个好分数吗？ 让我们通过比较我们的预测与 6 月份比特币流量的实际值，开始对商品的调查。 这样做可能会使我们对模型的表现有直观的了解，这是我始终建议的一种做法：
+
+![](img/92af7dd8-91fc-410a-bfc0-bbb0e36d4d6a.png)
+
+我们用绿色表示的预测有很多不足之处。 我们的模型已经学会了预测平均流量，但是在匹配完整信号方面确实做得很差。 甚至有可能我们只是在学习一种趋势，因为我们所做的努力不那么激烈。 我认为我们可能不得不把那栋豪宅推迟更长的时间，但是我们走了正确的道路。
+
+考虑到我们的预测，即仅给出比特币的先前价值，该模型就可以解释尽可能多的比特币价格。 我们可能在建模时间序列的自回归部分方面做得相当不错。 但是，可能有许多不同的外部因素影响比特币的价格。 美元的价值，其他市场的动向，也许最重要的是，围绕比特币的嗡嗡声或信息流通，都可能在美元的价格中发挥重要作用。
+
+这就是 LSTM 用于时间序列预测的功能真正发挥作用的地方。 通过添加附加的输入特征，所有这些信息都可以在某种程度上轻松地添加到模型中，希望可以解释越来越多的整个图片。
+
+但是，让我再破一次您的希望。 对表现进行更彻底的调查还将包括考虑模型相对于某些幼稚模型所提供的提升。 此简单模型的典型选择可能包括称为**随机游走**模型，指数平滑模型的模型，或者可能使用朴素的方法，例如使用上一个时间步长作为当前时间步长的预测。 如下图所示：
+
+![](img/afab68ad-33ef-49a9-8444-a4b7eeed2d8d.png)
+
+在此图中，我们将红色的预测与一个模型进行比较，在模型中，我们仅将前一分钟用作绿色的下一分钟的预测。 以蓝色表示的实际价格几乎完美地覆盖了这个朴素的模型。 我们的 LSTM 预测不如幼稚模型好。 仅使用最后一分钟的价格来预测当前分钟的价格会更好。 尽管我坚持认为我们走在正确的道路上，但在那艘船成为我们的船之前，我们还有很长的路要走。
+
+对任何商品建模非常困难。 对于这种类型的问题，使用深度神经网络是可以肯定的，但是这个问题并不容易。 我加入了这个也许详尽的解释，以便如果您决定走这条路，便会明白自己的目标。
+
+就是说，当您使用 LSTM 套利金融市场时，请记住给小费。
+
+# 总结
+
+在本章中，我们讨论了使用循环神经网络来预测序列中的下一个元素。 我们既涵盖了一般的 RNN，也涵盖了特定的 LSTM，我们专注于使用 LSTM 预测时间序列。 为了确保我们了解将 LSTM 用于时间序列的好处和挑战，我们简要回顾了时间序列分析的一些基础知识。 我们还花了几分钟讨论传统的时间序列模型，包括 ARIMA 和 ARIMAX。
+
+最后，我们介绍了一个具有挑战性的用例，其中我们使用 LSTM 来预测比特币的价格。
+
+在下一章中，我们将继续使用 RNN，现在将重点放在自然语言处理任务上，并介绍嵌入层的概念。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/10.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/10.md
new file mode 100644
index 00000000..c497374e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/10.md
@@ -0,0 +1,697 @@
+# 十、使用词嵌入从头开始训练 LSTM
+
+到目前为止，我们已经看到了深度学习在结构化数据，图像数据甚至时间序列数据中的应用示例。 似乎唯一正确的方法是继续进行**自然语言处理**（**NLP**）作为下一步。 机器学习和人类语言之间的联系非常有趣。 深度学习已像计算机视觉一样，以指数方式加快了该领域的发展速度。 让我们从 NLP 的简要概述开始，并在本章中将要完成的一些任务开始。
+
+我们还将在本章中介绍以下主题：
+
+*   自然语言处理入门
+*   向量化文本
+*   词嵌入
+*   Keras 嵌入层
+*   用于自然语言处理的一维 CNN 
+*   文档分类的案例研究
+
+# 自然语言处理入门
+
+NLP 领域广阔而复杂。 从技术上讲，人类语言与计算机科学之间的任何交互都可能属于此类。 不过，为了便于讨论，我将 NLP 限于分析，理解，有时生成人类语言。
+
+从计算机科学的起源开始，我们就对 NLP 着迷，因为它是通向强大人工智能的门户。 1950 年，艾伦·图灵（Alan Turing）提出了图灵测试，其中涉及一台计算机，它很好地模仿了一个人，使其与另一个人无法区分，以此作为机器智能的度量标准。 从那时起，我们一直在寻找帮助机器理解人类语言的聪明方法。 在此过程中，我们开发了语音到文本的转录，人类语言之间的自动翻译，文档的自动汇总，主题建模，命名实体标识以及各种其他用例。
+
+随着我们对 NLP 的了解不断增长，我们发现 AI 应用在日常生活中变得越来越普遍。 聊天机器人作为客户服务应用已变得司空见惯，最近，它们已成为我们的个人数字助理。 在撰写本文时，我可以要求 Alexa 在我的购物清单中添加一些内容或演奏一些流畅的爵士乐。 自然语言处理以一种非常有趣和强大的方式将人类连接到计算机。
+
+在本章中，我将专注于理解人类语言，然后使用这种理解进行分类。 我实际上将进行两个分类案例研究，一个涉及语义分析，另一个涉及文档分类。 这两个案例研究为深度学习的应用提供了巨大的机会，而且它们确实非常相似。
+
+# 语义分析
+
+**语义分析**从技术上讲是对语言含义的分析，但是通常当我们说语义分析时，我们是在谈论理解作者的感受。 语义分类器通常试图将某些话语分类为积极，消极，快乐，悲伤，中立等。
+
+讽刺是我最喜欢的语言之一，这使这成为一个具有挑战性的问题。 人类语言中有许多微妙的模式，这些对于计算机学习来说是非常具有挑战性的。 但是挑战并不意味着没有可能。 只要有一个好的数据集，这个任务就很有可能实现。
+
+要成功解决此类问题，需要一个好的数据集。 虽然我们当然可以在整个互联网上找到大量的人类对话，但其中大多数没有标签。 查找带标签的病例更具挑战性。 解决此问题的早期尝试是收集包含表情符号的 Twitter 数据。 如果一条推文中包含:)，则认为该推文是肯定的。 这成为 Jimmy Lin 和 Alek Kolcz 在 Twitter 上的[大规模机器学习中引用的知名表情符号技巧。](https://www.semanticscholar.org/paper/Large-scale-machine-learning-at-twitter-Lin-Kolcz/d192c32acab207b89fb11df88ef79c6ce5a69411)
+
+这种类型的分类器的大多数业务应用都是二元的，我们尝试在其中预测客户是否满意。 但是，那当然不是对这种语言模型的限制。 只要我们有用于此类事物的标签，我们就可以为其他音调建模。 我们甚至可能尝试衡量某人的声音或语言中的焦虑或困扰； 但是，解决音频输入超出了本章的范围。
+
+进一步挖掘数据的尝试包括使用与正面和负面电影评论相关的语言以及与在线购物产品评论相关的语言。 这些都是很好的方法。 但是，在使用这些类型的数据源对来自不同域的文本进行分类时，应格外小心。 您可能会想到，电影评论或在线购买中使用的语言可能与 IT 帮助台客户支持电话中使用的语言完全不同。
+
+当然，我们当然可以对情绪进行更多的分类。 在下一节中，我们将讨论文档分类的更一般的应用。
+
+# 文档分类
+
+**文档分类**与情感分析密切相关。 在这两种情况下，我们都使用文本将文档分类。 实际上，这只是改变的原因。 文档分类就是根据文档的类型对文档进行分类。 世界上最明显，最常见的文档分类系统是垃圾邮件过滤器，但它还有许多其他用途。
+
+我最喜欢的文档分类用途之一是解决“联邦主义者论文”的原始作者的辩论。 亚历山大·汉密尔顿（Alexander Hamilton），詹姆斯·麦迪逊（James Madison）和约翰·杰伊（John Jay）在 1787 年和 1788 年以化名 Publius 出版了 85 篇文章，支持批准美国宪法。 后来，汉密尔顿提供了一份清单，详细列出了每篇论文的作者在 1804 年与亚伦·伯尔（Aaron Burr）进行致命的对决之前。麦迪逊（Madison）在 1818 年提供了自己的清单，这在作者身份上引起了争执，此后学者一直在努力解决。 虽然大多数人都同意有争议的作品是麦迪逊的作品，但是关于两者之间的合作仍存在一些理论。 将这 12 个有争议的文档归类为 Madison 还是 Hamilton，已经成为许多数据科学博客的不二之选。 正式而言，Glenn Fung 的论文[《有争议的联邦主义者论文：通过凹面最小化进行 SVM 特征选择》](http://pages.cs.wisc.edu/~gfung/federalist.pdf) 涵盖了相当严格的主题。
+
+文档分类的最后一个示例可能是围绕了解文档的内容并规定操作。 想象一下一个分类器，它可能会读取有关法律案件的一些信息，例如请愿/投诉和传票，然后向被告提出建议。 然后，我们的假想系统可能会说：*鉴于我在其他类似情况下的经验，您可能想解决*。
+
+情感分析和文档分类是基于计算机理解自然语言的能力的强大技术。 但是，当然，这引出了一个问题，我们如何教计算机阅读？
+
+# 向量化文本
+
+机器学习模型（包括深度神经网络）吸收数字信息并产生数字输出。 自然语言处理的挑战自然就变成了将单词转换成数字。
+
+我们可以通过多种方式将单词转换为数字。 所有这些方法都满足相同的目标，即将某些单词序列转换为数字向量。 有些方法比其他方法更好，因为有时进行转换时，翻译中可能会失去一些含义。
+
+# NLP 术语
+
+让我们从定义一些通用术语开始，以便消除它们使用可能引起的任何歧义。 我知道，由于您可以阅读，因此您可能会对这些术语有所了解。 如果这看起来很古怪，我深表歉意，但是我保证，这将立即与我们接下来讨论的模型有关：
+
+*   **词**：我们将使用的大多数系统的原子元素。 尽管确实存在某些字符级模型，但我们今天不再讨论它们。
+*   **句子**：表达陈述，问题等的单词集合。
+*   **文档**：文档是句子的集合。 它可能是一个句子，或更可能是多个句子。
+*   **语料库**：文档的集合。
+
+# 词袋模型
+
+**词袋**（**BoW**）模型是 NLP 模型，实际上忽略了句子结构和单词放置。 在“单词袋”模型中，我们将每个文档视为单词袋。 很容易想到这一点。 每个文档都是一个包含大量单词的容器。 我们忽略句子，结构以及哪个词排在前或后。 我们对文档中包含“非常”，“很好”和“不好”这两个词的事实感到关注，但是我们并不真正在意“好”而不是“坏”。
+
+词袋模型很简单，需要相对较少的数据，并且考虑到该模型的朴素性，其运行效果非常好。
+
+注意，这里使用模型表示表示。 我并不是在特定意义上指深度学习模型或机器学习模型。 相反，在这种情况下，模型是表示文本的一种方式。
+
+给定一个由一组单词组成的文档，则需要定义一种策略来将单词转换为数字。 稍后我们将介绍几种策略，但首先我们需要简要讨论词干，词形化和停用词。
+
+# 词干，词根去除和停用词
+
+**词干**和**词根去除**是两种不同但非常相似的技术，它们试图将每个单词还原为基本形式，从而简化了语言模型。 例如，如果要阻止猫的各种形式，我们将在此示例中进行转换：
+
+```py
+cat, cats, cat's, cats' -> cat
+```
+
+限制词法化和词干化之间的差异成为我们进行此转换的方式。 提取是通过算法完成的。 当应用于同一个单词的多种形式时，提取的根在大多数情况下应相同。 这个概念可以与词条反义化形成对比，词条反义化使用具有已知基础的词汇表并考虑如何使用该词。
+
+词干处理通常比词条化处理快得多。 Porter 提取器在很多情况下都可以很好地工作，因此您可以将其作为提取的第一个安全选择。
+
+停用词是在该语言中非常常见的词，但几乎没有语义。 典范示例是`the`一词。 我在上一句话中只使用了 3 次，但实际上只保留了一次意思。 通常，我们会删除停用词，以使输入内容更加稀疏。
+
+大部分 BoW 模型都受益于词干，词根化和删除停用词。 有时，我们很快将要讨论的词嵌入模型也可以从词干提取或词义化中受益。 词嵌入模型很少会受益于停用词的删除。
+
+# 计数和 TF-IDF 向量化
+
+计数向量化和**词频逆文档频率**（**TF-IDF**）是两种策略，将词袋转换成适合机器学习算法输入的特征向量。
+
+计数向量化采用我们的一组单词，并创建一个向量，其中每个元素代表语料库词汇中的一个单词。 自然，一组文档中唯一单词的数量可能会很大，并且许多文档可能不包含语料库中存在的单词的任何实例。 在这种情况下，使用稀疏矩阵表示这些类型的字向量通常是非常明智的。 当一个单词出现一次或多次时，计数向量化器将简单地对该单词出现在文档中的次数进行计数，然后将该计数放置在代表该单词的位置。
+
+使用计数向量化器，整个语料库可以表示为二维矩阵，其中每一行是一个文档，每一列是一个单词，然后每个元素就是该单词在文档中的计数。
+
+在继续之前，让我们先看一个简单的例子。 想象一个具有两个文档的语料库：
+
+```py
+docA = "the cat sat on my face"
+docB = "the dog sat on my bed"
+```
+
+语料库词汇为：
+
+```py
+{'bed', 'cat', 'dog', 'face', 'my', 'on', 'sat', 'the'}
+```
+
+因此，如果我们要为该语料库创建一个计数嵌入，它将看起来像这样：
+
+|  | `bed` | `cat` | `dog` | `face` | `my` | `on` | `sat` | `the` |
+| --- | --- | --- | --- | --- | --- | --- | --- | --- |
+| **文件 0** | 0 | 1 | 0 | 1 | 1 | 1 | 1 | 1 |
+| **文件 1** | 1 | 0 | 1 | 0 | 1 | 1 | 1 | 1 |
+
+这就是计数向量化。 这是我们工具箱中最简单的向量化技术。
+
+计数向量化的问题在于我们使用了很多根本没有太多意义的单词。 实际上，英语中最常用的单词（`the`）占我们所讲单词的 7%，是第二个最受欢迎的单词（`of`）出现频率的两倍。 语言中单词的分布是幂律分布，[这是称为 Zipf 定律的基础](https://en.wikipedia.org/wiki/Zipf%27s_law)。 如果我们从计数中构造文档矩阵，那么最终得到的数字将包含很多信息，除非我们的目标是查看谁最经常使用`the`。
+
+更好的策略是根据单词在文档中的相对重要性对单词进行加权。 为此，我们可以使用 TF-IDF。
+
+一个单词的 TF-IDF 分数是：
+
+![](img/cb6ce52c-4dee-4416-adb5-42cdfd30161e.png)
+
+在此公式中：
+
+![](img/b1ca6787-9563-418b-aaa1-60a25fdc68c7.png)
+
+这个公式：
+
+![](img/cd6249c7-e42a-484b-90b3-4bf2de2f1300.png) 
+
+如果我们要为同一语料库计算 TF-IDF 矩阵，它将看起来像这样：
+
+|  | `bed` | `cat` | `dog` | `face` | `my` | `on` | `sat` | `the` |
+| --- | --- | --- | --- | --- | --- | --- | --- | --- |
+| **文件 0** | 0 | 0.116 | 0 | 0.116 | 0 | 0 | 0 | 0 |
+| **文件 1** | 0.116 | 0 | 0.116 | 0 | 0 | 0 | 0 | 0 |
+
+您可能会注意到，通过对单词频率乘以逆文档频率进行加权，我们取消了所有文档中出现的单词，从而放大了不同的单词。 文件 0 全部关于猫和脸，而文件 1 全部关于狗和床。 这正是我们对许多分类器所要的。
+
+# 词嵌入
+
+词袋模型具有一些不理想的属性，值得注意的是。
+
+我们之前研究过的词袋模型的第一个问题是它们没有考虑单词的上下文。 他们并没有真正考虑文档中单词之间存在的关系。
+
+第二个相关问题是向量空间中单词的分配有些随意。 可能无法捕获有关语料库词汇中两个单词之间的关系的信息。 例如，虽然鳄鱼和鳄鱼都是相似的具有许多特征的生物，但已经学会处理鳄鱼的单词的模型几乎无法利用鳄鱼学到的知识（爬行动物学家讨厌邮件） 。
+
+最后，由于语料库的词汇量可能很大，并且可能不会出现在所有文档中，因此 BoW 模型往往会产生非常稀疏的向量。
+
+单词嵌入模型通过为每个单词学习一个向量来解决这些问题，其中每个语义相似的单词都映射到（嵌入）附近的点。 另外，与 BoW 模型相比，我们将在更小的向量空间中表示整个词汇表。 这提供了降维效果，并为我们提供了一个更小，更密集的向量，该向量可以捕获单词的语义值。
+
+词嵌入模型在现实文档分类问题和语义分析问题中通常比词袋模型具有很大的提升，因为这种能力可以保留词相对于语料库中其他词的语义值。
+
+# 一个简单的例子
+
+如果您不熟悉单词嵌入，那么您现在可能会感到有些迷茫。 挂在那儿，它很快就会变得清晰起来。 让我们尝试一个具体的例子。
+
+使用流行的单词嵌入模型`word2vec`，我们可以从单词`cat`开始，找到它的 384 元素向量，如以下输出代码所示：
+
+```py
+array([ 5.81600726e-01, 3.07168198e+00, 3.73339128e+00,
+ 2.83814788e-01, 2.79787600e-01, 2.29124355e+00,
+ -2.14855480e+00, -1.22236431e+00, 2.20581269e+00,
+ 1.81546474e+00, 2.06929898e+00, -2.71712840e-01,...
+```
+
+我缩短了输出，但您明白了。 此模型中的每个单词都将转换为 384 个元素的向量。 可以对这些向量进行比较，以评估数据集中单词的语义相似性。
+
+现在我们有了猫的向量，我将计算狗和蜥蜴的词向量。 我建议猫比蜥蜴更像狗。 我应该能够测量猫向量和狗向量之间的距离，然后测量猫向量和蜥蜴向量之间的距离。 尽管有许多方法可以测量向量之间的距离，但余弦相似度可能是单词向量最常用的方法。 在下表中，我们正在比较猫与狗和蜥蜴的余弦相似度：
+
+|  | `dog` | `lizard` |
+| --- | --- | --- |
+| `cat` | 0.74 | 0.63 |
+
+不出所料，在我们的向量空间中，猫的含义比蜥蜴更接近狗。
+
+# 通过预测学习单词嵌入
+
+单词嵌入是通过使用专门为该任务构建的神经网络来计算的。 我将在这里介绍该网络的概述。 一旦计算了某些语料库的词嵌入，它们便可以轻松地重用于其他应用，因此使该技术成为迁移学习的候选者，类似于我们在第 8 章“使用预先训练的 CNN 的迁移学习”中介绍的技术。
+
+当我们完成了对该词嵌入网络的训练后，我们网络中单个隐藏层的权重将成为我们词嵌入的查找表。 对于词汇表中的每个单词，我们将学习该单词的向量。
+
+该隐藏层将包含比输入空间少的神经元，从而迫使网络学习输入层中存在的信息的压缩形式。 这种架构非常类似于自编码器。 但是，该技术围绕着一项任务，该任务帮助网络学习向量空间中每个单词的语义值。
+
+我们将用来训练嵌入网络的任务是预测某些目标词出现在距训练词距离窗口内的概率。 例如，如果`koala`是我们的输入词，而`marsupials`是我们的目标词，则我们想知道这两个词彼此靠近的可能性。
+
+此任务的输入层将是词汇表中每个单词的一个热编码向量。 输出层将是相同大小的`softmax`层，如下图所示：
+
+![](img/ec71e9df-b735-4432-ab12-d31905f6d2c6.png)
+
+该网络导致隐藏层的形状为权重矩阵`[词汇 x 神经元]`。 例如，如果我们的语料库中有 20,000 个唯一单词，而隐藏层中有 300 个神经元，那么我们的隐藏层权重矩阵将为`20,000 x 300`。将这些权重保存到磁盘后，我们将拥有一个 300 元素向量，可用于代表每个词。 然后，在训练其他模型时，可以使用这些向量表示单词。
+
+当然，除此以外，还有更多的训练词嵌入网络的方法，而我故意过分简化了快速参考样式。
+
+如果您想了解更多信息，我建议您先阅读 Mikolov 等人的[《单词和短语的分布式表示及其组成》](https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf)。 本文介绍了一种流行的创建单词嵌入的方法，称为`word2vec`。
+
+# 通过计数学习单词嵌入
+
+学习单词嵌入的另一种方法是通过计数。 [用于词表示的**全局向量**或 **GloVe** 是 Pennington 等人创建的算法](https://nlp.stanford.edu/projects/glove/)。
+
+GloVe 通过创建单词共现的非常大的矩阵来工作。 对于某些语料库，这实际上是两个单词彼此相邻出现的次数的计数。 该算法的作者根据单词的接近程度来加权此计数，以使彼此接近的单词对每个计数的贡献更大。 一旦创建了这个共现矩阵，它将分解为一个较小的空间，从而生成一个单词 x 特征较大的矩阵。
+
+有趣的是，`word2vec`和 GloVe 的结果非常相似，可以互换使用。 由 60 亿个单词的数据集预先构建的 GloVe 向量由斯坦福大学分发，是单词向量的常用来源。 本章稍后将使用 GloVe 向量。
+
+# 从文本到文档
+
+如果您一直在仔细阅读，您可能会注意到我尚未消除的鸿沟。 词嵌入模型为每个词创建一个向量。 相比之下，BoW 模型为每个文档创建一个向量。 那么，我们如何使用词嵌入模型进行文档分类呢？
+
+一种幼稚的方法可能是获取文档中所有单词的向量并计算均值。 我们可能将此值解释为文档的平均语义值。 在实践中，通常使用此解决方案，并且可以产生良好的结果。 但是，它并不总是优于 BoW 嵌入模型。 考虑短语`dog bites man`和`man bites dog`。 希望您会同意我的观点，这是两个截然不同的陈述。 但是，如果我们对它们的词向量进行平均，它们将具有相同的值。 这使我们提出了一些其他策略，可以用来设计文档中的特征，例如使用每个向量的均值，最大值和最小值。
+
+Le 和 Mikolov 在[《句子和文档的分布式表示》](https://arxiv.org/abs/1405.4053)中提出了一种从单词到文档的更好的想法。 基于`word2vec`的思想，本文将段落标识符添加到我们描述的用于学习单词向量的神经网络的输入中。 使用文本中的单词以及文档 ID 可以使网络学习将可变长度文档嵌入向量空间中。 该技术称为 **doc2vec**，它可以很好地用作主题建模以及为模型创建输入特征的技术。
+
+最后，许多深度学习框架都包含了嵌入层的概念。 嵌入层使您可以了解嵌入空间，这是网络正在执行的总体任务的一部分。 使用深度神经网络时，嵌入层可能是向量化文本的最佳选择。 接下来让我们看一下嵌入层。
+
+# Keras 嵌入层
+
+**Keras 嵌入层**允许我们学习输入词的向量空间表示，就像我们在训练模型时在`word2vec`中所做的那样。 使用函数式 API，Keras 嵌入层始终是网络中的第二层，紧随输入层之后。
+
+嵌入层需要以下三个参数：
+
+*   `input_dim`：语料库的词汇量。
+*   `output_dim`：我们要学习的向量空间的大小。 这将对应于`word2vec`隐藏层中神经元的数量。
+*   `input_length`：我们将在每次观察中使用的文字数量。 在下面的示例中，我们将根据需要发送的最长文本使用固定大小，并将较小的文档填充为 0。
+
+嵌入层将为每个输入文档输出 2D 矩阵，该矩阵包含`input_length`指定的每个单词的一个向量。
+
+例如，我们可能有一个如下所示的嵌入层：
+
+```py
+Embedding(input_dim=10000, output_dim=128, input_length=10)
+```
+
+在这种情况下，该层的输出将是形状为`10 x 128`的 2D 矩阵，其中每个文档的 10 个单词将具有与之关联的 128 元素向量。
+
+这样的单词序列可以作为 LSTM 的出色输入。 LSTM 层可以紧随嵌入层。 就像上一章一样，我们可以将嵌入层中的这 10 行视为 LSTM 的顺序输入。 在本章的第一个示例中，我将使用 LSTM，因此，如果您在未阅读第 9 章“从头开始训练 RNN”的情况下，则请花一点时间重新了解 LSTM 的操作，可以在此处找到。
+
+如果我们想将嵌入层直接连接到密集层，则需要对其进行展平，但您可能不想这样做。 如果您有序列文本，通常使用 LSTM 是更好的选择。 我们还有另外一个有趣的选择。
+
+# 用于自然语言处理的一维 CNN 
+
+回顾第 7 章，“从头开始训练 CNN”时，我们使用了卷积在图像区域上滑动窗口以学习复杂的视觉特征。 这使我们能够学习重要的局部视觉特征，而不管这些特征在图片中的位置，然后随着我们的网络越来越深入，逐步地学习越来越复杂的特征。 我们通常在 2D 或 3D 图像上使用`3 x 3`或`5 x 5`过滤器。 如果您对卷积层及其工作原理的理解感到生疏，则可能需要阅读第 7 章“从头开始训练 CNN”。
+
+事实证明，我们可以对一系列单词使用相同的策略。 在这里，我们的 2D 矩阵是嵌入层的输出。 每行代表一个单词，并且该行中的所有元素都是其单词向量。 继续前面的示例，我们将有一个 10 x 128 的向量，其中连续有 10 个单词，每个单词都由 128 个元素的向量空间表示。 我们当然可以在这些单词上滑动过滤器。
+
+卷积过滤器的大小针对 NLP 问题而改变。 当我们构建网络来解决 NLP 问题时，我们的过滤器将与单词向量一样宽。 过滤器的高度可以变化，通常在 2 到 5 之间。高度为 5 表示我们一次要在五个字上滑动过滤器。
+
+事实证明，对于许多 NLP 问题，CNN 可以很好地运行，并且比 LSTM 快得多。 很难就何时使用 RNN/LSTM 和何时使用 CNN 给出确切的规则。 通常，如果您的问题需要状态，或者从很远的序列中学习到一些东西，那么使用 LSTM 可能会更好。 如果您的问题需要检测描述文本的特定单词集或文档的语义感觉，那么 CNN 可能会更快甚至更好地解决您的问题。
+
+# 文档分类的案例研究
+
+由于我已经提出了两种可行的文档分类方法，因此本章将包含两个单独的文档分类示例。 两者都将使用嵌入层。 一个将使用 LSTM，另一个将使用 CNN。
+
+我们还将比较学习嵌入层与从其他人的权重开始采用迁移学习方法之间的表现。
+
+这两个示例的代码都可以在本书的 Git 存储库中的`Chapter10`文件夹中找到。 某些数据和 GloVe 向量将需要分别下载。 有关说明，请参见代码中的注释。
+
+# Keras 嵌入层和 LSTM 的情感分析
+
+本章的第一个案例研究将演示情绪分析。 在此示例中，我们将应用本章中学到的大多数内容。
+
+我们将使用从**互联网电影数据库**（**IMDB**）内置于 Keras 中的数据集。 该数据集包含 25,000 条电影评论，每条评论均按情感标记。 正面评论标记为 1，负面评论标记为 0。此数据集中的每个单词均已替换为标识该单词的整数。 每个评论都被编码为单词索引序列。
+
+我们的目标是仅使用评论中的文字将电影评论分为正面评论或负面评论。
+
+# 准备数据
+
+因为我们使用的是内置数据集，所以 Keras 会处理大量的日常工作，这些工作涉及标记，词干，停用词以及将词标记转换为数字标记的工作。 `keras.datasets.imbd`将为我们提供一个列表列表，每个列表包含一个长度可变的整数序列，这些整数表示审阅中的单词。 我们将使用以下代码定义数据：
+
+```py
+def load_data(vocab_size):
+    data = dict()
+    data["vocab_size"] = vocab_size
+    (data["X_train"], data["y_train"]), (data["X_test"], data["y_test"]) = 
+    imdb.load_data(num_words=vocab_size)
+    return data
+```
+
+我们可以通过调用`load_data`并为词汇表选择最大大小来加载数据。 在此示例中，我将使用 20,000 个单词作为词汇量。
+
+如果需要手动执行此操作，以使示例代码可以解决您自己的问题，则可以使用`keras.preprocessing.text.Tokenizer`类，我们将在下一个示例中介绍该类。 我们将使用以下代码加载数据：
+
+```py
+data = load_data(20000)
+```
+
+下一步，我希望这些序列中的每个序列都具有相同的长度，并且我需要此列表列表为 2D 矩阵，其中每个评论是一行，每列是一个单词。 为了使每个列表大小相同，我将用 0 填充较短的序列。 我们稍后将使用的 LSTM 将学习忽略那些 0，这对于我们当然非常方便。
+
+这种填充操作相当普遍，因此已内置在 Keras 中。 我们可以通过以下代码使用`keras.preprocessing.sequence.pad_sequences`完成此操作：
+
+```py
+def pad_sequences(data):
+    data["X_train"] = sequence.pad_sequences(data["X_train"])
+    data["sequence_length"] = data["X_train"].shape[1]
+    data["X_test"] = sequence.pad_sequences(data["X_test"], maxlen=data["sequence_length"])
+    return data
+```
+
+调用此函数会将列表列表转换为等长序列，并方便地将列表列表转换为 2D 矩阵，如下所示：
+
+```py
+data = pad_sequences(data)
+```
+
+# 输入和嵌入层架构
+
+在上一章中，我们使用时间序列中的一组滞后训练了 LSTM。 在这里，我们的滞后实际上是序列中的单词。 我们将使用这些词来预测审阅者的情绪。 为了从单词序列到考虑这些单词的语义值的输入向量，我们可以使用嵌入层。
+
+使用 Keras 函数式 API，嵌入层始终是网络中输入层之后的第二层。 让我们看一下这两层如何结合在一起：
+
+```py
+input = Input(shape=(sequence_length,), name="Input")
+embedding = Embedding(input_dim=vocab_size, output_dim=embedding_dim,
+                      input_length=sequence_length, name="embedding")(input)
+```
+
+我们的输入层需要知道序列长度，该长度与输入矩阵中的列数相对应。
+
+嵌入层将使用输入层。 但是，它需要知道整体语料库词汇量，我们将这些词嵌入到的向量空间的大小以及序列长度。
+
+我们定义的词汇量为 20,000 个单词，数据的序列长度为 2,494，并且指定的嵌入维数为 100。
+
+将所有这些放在一起，嵌入层将从每个文件的 20,000 个输入热向量到每个文档的`2,494 x 100` 2D 矩阵，从而为序列中的每个单词嵌入向量空间。 随着模型的学习，嵌入层将不断学习。 很酷吧？
+
+# LSTM 层
+
+我将在这里只使用一个 LSTM 层，只有 10 个神经元，如以下代码所示：
+
+```py
+lstm1 = LSTM(10, activation='tanh', return_sequences=False,
+             dropout=0.2, recurrent_dropout=0.2, name='lstm1')(embedding)
+```
+
+为什么要使用这么小的 LSTM 层？ 就像您将要看到的那样，该模型将因过拟合而陷入困境。 甚至只有 10 个 LSTM 单元也能很好地学习训练数据。 解决此问题的方法可能是添加数据，但实际上不能添加数据，因此保持网络结构简单是一个好主意。
+
+这导致我们使用丢弃法。 我将在这一层同时使用丢弃法和经常性丢弃。 我们还没有谈论经常性丢弃的问题，所以让我们现在解决它。 以这种方式应用于 LSTM 层的常规过滤器将随机掩盖 LSTM 的输入。 循环丢弃会随机打开和关闭 LSTM 单元/神经元中*展开的*单元之间的内存。 与往常一样，丢弃是一个超参数，您需要搜索最佳值。
+
+因为我们的输入是基于文档的，并且因为没有任何上下文，所以我们需要记住在文档之间，这是使用无状态 LSTM 的绝佳时机。
+
+# 输出层
+
+在此示例中，我们预测了二元目标。 和以前一样，我们可以使用具有单个 Sigmoid 神经元的密集层来完成此二分类任务：
+
+```py
+output = Dense(1, activation='sigmoid', name='sigmoid')(lstm1)
+```
+
+# 放在一起
+
+现在，我们了解了组成部分，现在来看整个网络。 该网络显示在以下代码中，以供您参考：
+
+```py
+def build_network(vocab_size, embedding_dim, sequence_length):
+    input = Input(shape=(sequence_length,), name="Input")
+    embedding = Embedding(input_dim=vocab_size,  
+       output_dim=embedding_dim, input_length=sequence_length, 
+         name="embedding")(input)
+    lstm1 = LSTM(10, activation='tanh', return_sequences=False,
+       dropout=0.2, recurrent_dropout=0.2, name='lstm1')(embedding)
+    output = Dense(1, activation='sigmoid', name='sigmoid')(lstm1)
+    model = Model(inputs=input, outputs=output)
+    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
+    return model
+```
+
+与其他二分类任务一样，我们可以使用二元交叉熵。 请注意，因为我们正在将 LSTM 层连接到密集层，所以我们需要将`return_sequences`设置为`False`，正如我们在第 9 章，“从头训练”中讨论的那样。
+
+为了使这部分代码可重用，我们使词汇量，嵌入维数和序列长度可配置。 如果要搜索超参数，则还可能希望参数化`dropout`，`recurrent_dropout`和 LSTM 神经元的数量。
+
+# 训练网络
+
+现在，我的情绪分析网络已经建立，现在该进行训练了：
+
+```py
+data = load_data(20000)
+data = pad_sequences(data)
+model = build_network(vocab_size=data["vocab_size"],
+                      embedding_dim=100,
+                      sequence_length=data["sequence_length"])
+
+callbacks = create_callbacks("sentiment")
+
+model.fit(x=data["X_train"], y=data["y_train"],
+          batch_size=32,
+          epochs=10,
+          validation_data=(data["X_test"], data["y_test"]),
+          callbacks=callbacks)
+```
+
+像这样将我所有的训练参数和数据保存在一个字典中，实际上只是一个样式问题，而与函数无关。 您可能希望单独处理所有事情。 我喜欢对所有内容使用字典，因为它使我无法来回传递大量参数。
+
+由于我们使用的是无状态 LSTM，因此我们将在每个批次中重置单元存储器。 我的信念是，我们可以在不损失任何罚款的情况下重置文档之间的单元状态，因此批量大小实际上与表现有关。 我在这里使用了 32 个观察批，但是只要 GPU 内存允许，128 个观察批会产生相似的结果，并且表现会有所提高。
+
+# 表现
+
+从下面的屏幕截图中，让我们看一下我们的网络运行情况。 检查这些图时，请密切注意`y`轴上的刻度。 虽然挥杆动作看起来很戏剧性，但幅度并不大：
+
+![](img/d2911d59-77b8-4069-9bee-621999666e5d.png)
+
+这里首先要注意的是，在第 1 阶段，网络正在做的相当不错。 此后，它迅速开始过拟合。 总体而言，我认为我们的结果相当不错。 在第 1 阶段，我们会在验证集上正确预测约 86% 的时间的情绪。
+
+尽管此案例研究涵盖了本章到目前为止已讨论的许多主题，但让我们再来看一个可以在嵌入层使用预训练的单词向量与我们学习的单词向量进行比较的地方。
+
+# 有和没有 GloVe 的文档分类
+
+在此示例中，我们将使用一个比较著名的文本分类问题，称为 [**news20**](http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/news20.html)。 在此问题中，我们获得了 19,997 个文档，每个文档都属于一个新闻组。 我们的目标是使用帖子的文本来预测该文本所属的新闻组。对于我们中间的千禧一代，新闻组是 **Reddit** 的先驱（但可能更接近伟大的 -Reddit 的曾祖父）。 这些新闻组涵盖的主题差异很大，包括政治，宗教和操作系统等主题，您应避免在礼貌的公司中讨论所有这些主题。 这些职位相当长，语料库中有 174,074 个独特的单词。
+
+这次，我将构建模型的两个版本。 在第一个版本中，我们将使用嵌入层，并且将学习嵌入空间，就像在前面的示例中一样。 在第二个版本中，我将使用 GloVe 向量作为嵌入层的权重。 然后，我将花一些时间比较和对比这两种方法。
+
+最后，在此示例中，我们将使用一维 CNN 代替 LSTM。
+
+# 准备数据
+
+当使用这样的文本文档时，可能需要很多平凡的代码才能使您到达想要的位置。 我将这个示例作为解决问题的一种方式。 一旦了解了这里发生的事情，就可以在将来的问题中重用其中的大部分内容并缩短开发时间，因此值得考虑。
+
+以下函数将进入 20 个新闻组文本所在的顶级目录。 在该目录中，将有 20 个单独的目录，每个目录都有文件。 每个文件都是新闻组帖子：
+
+```py
+def load_data(text_data_dir, vocab_size, sequence_length, validation_split=0.2):
+    data = dict()
+    data["vocab_size"] = vocab_size
+    data["sequence_length"] = sequence_length
+
+    # second, prepare text samples and their labels
+    print('Processing text dataset')
+
+    texts = []  # list of text samples
+    labels_index = {}  # dictionary mapping label name to numeric id
+    labels = []  # list of label ids
+    for name in sorted(os.listdir(text_data_dir)):
+        path = os.path.join(text_data_dir, name)
+        if os.path.isdir(path):
+            label_id = len(labels_index)
+            labels_index[name] = label_id
+            for fname in sorted(os.listdir(path)):
+                if fname.isdigit():
+                    fpath = os.path.join(path, fname)
+                    if sys.version_info < (3,):
+                        f = open(fpath)
+                    else:
+                        f = open(fpath, encoding='latin-1')
+                    t = f.read()
+                    i = t.find('\n\n')  # skip header
+                    if 0 < i:
+                        t = t[i:]
+                    texts.append(t)
+                    f.close()
+                    labels.append(label_id)
+    print('Found %s texts.' % len(texts))
+    data["texts"] = texts
+    data["labels"] = labels
+    return data
+```
+
+对于每个目录，我们将使用目录名称并将其添加到将其映射为数字的字典中。 这个数字将成为我们想要预测的值，我们的标签。 我们将把标签列表保留在`data["labels"]`中。
+
+同样，对于文本，我们将打开每个文件，仅解析相关文本，而忽略有关谁在信息中张贴的垃圾邮件。 然后，我们将文本存储在`data["texts"]`中。 顺便说一句，删除标头中标识新闻组的部分非常重要。 那是作弊！
+
+最后，我们剩下一个文本列表和一个相应的标签列表。 但是，此时，这些文本都是字符串。 我们需要做的下一件事是将这些字符串拆分为单词标记，将这些标记转换为数字标记，并填充序列，以使它们具有相同的长度。 这几乎是我们在前面的示例中所做的； 但是，在我们之前的示例中，数据已预先加标记。 我将使用此函数来完成任务，如以下代码所示：
+
+```py
+def tokenize_text(data):
+    tokenizer = Tokenizer(num_words=data["vocab_size"])
+    tokenizer.fit_on_texts(data["texts"])
+    data["tokenizer"] = tokenizer
+    sequences = tokenizer.texts_to_sequences(data["texts"])
+
+    word_index = tokenizer.word_index
+    print('Found %s unique tokens.' % len(word_index))
+
+    data["X"] = pad_sequences(sequences, maxlen=data["sequence_length"])
+    data["y"] = to_categorical(np.asarray(data["labels"]))
+    print('Shape of data tensor:', data["X"].shape)
+    print('Shape of label tensor:', data["y"].shape)
+
+    # texts and labels aren't needed anymore
+    data.pop("texts", None)
+    data.pop("labels", None)
+    return data
+```
+
+在这里，我们获取该文本列表，并使用`keras.preprocessing.text.Tokenizer`将其标记化。 之后，我们将它们填充为相等的长度。 最后，我们将数字标签转换为`one_hot`格式，就像 Keras 在其他多分类问题中一样。
+
+我们几乎完成了数据处理。 但是，最后，我们需要获取文本和标签，然后将数据随机分成训练，验证和测试集，如以下代码所示。 我没有太多数据需要处理，因此我将在此处选择`test`和`val`。 如果样本太小，可能无法很好地理解实际模型的表现，因此在执行此操作时要格外小心：
+
+```py
+def train_val_test_split(data):
+
+    data["X_train"], X_test_val, data["y_train"],  y_test_val = train_test_split(data["X"],
+                                                                                 data["y"],
+                                                                                 test_size=0.2,
+                                                                                 random_state=42)
+    data["X_val"], data["X_test"], data["y_val"], data["y_test"] = train_test_split(X_test_val,
+                                                                                    y_test_val,
+                                                                                  test_size=0.25,
+                                                                                 random_state=42)
+    return data
+```
+
+# 加载预训练的单词向量
+
+正如我刚才提到的，我将使用 Keras 嵌入层。 对于模型的第二个版本，我们将使用本章前面介绍的 GloVe 字向量来初始化嵌入层的权重。 为此，我们将需要从磁盘加载这些权重，并将它们放入合适的 2D 矩阵中，该层可用作权重。 我们将在这里介绍该操作。
+
+下载 GloVe 向量时，您会发现在将下载文件解压缩到的目录中有几个文本文件。每个文件都对应一组单独的尺寸。 但是，在所有情况下，这些载体都是使用包含 60 亿个唯一单词的相同通用语料库开发的（因此标题为`GloVe.6B`）。 我将演示如何使用`glove.6B.100d.txt`文件。 在`glove.6B.100d.txt`中，每行都是单个单词向量。 在该行上，您将找到该单词和与其相关联的 100 维向量。 单词和向量的元素存储为文本，并用空格分隔。
+
+为了使这些数据进入可用状态，我们将从磁盘加载开始。 然后，我们将线分为第一部分，单词和向量的元素。 完成此操作后，我们将向量转换为数组。 最后，我们将单词作为该值的键将数组作为值存储在字典中。 以下代码说明了此过程：
+
+```py
+def load_word_vectors(glove_dir):
+    print('Indexing word vectors.')
+
+    embeddings_index = {}
+    f = open(os.path.join(glove_dir, 'glove.6B.100d.txt'),    
+             encoding='utf8')
+    for line in f:
+        values = line.split()
+        word = values[0]
+        coefs = np.asarray(values[1:], dtype='float32')
+        embeddings_index[word] = coefs
+    f.close()
+
+    print('Found %s word vectors.' % len(embeddings_index))
+    return embeddings_index
+```
+
+运行此命令后，我们将有一个名为`embeddings_index`的字典，其中包含 GloVe 单词作为键，其向量作为值。 Keras 嵌入层需要 2D 矩阵作为输入，但是不需要字典，因此我们需要使用以下代码将字典操纵为矩阵：
+
+```py
+def embedding_index_to_matrix(embeddings_index, vocab_size, embedding_dim, word_index):
+    print('Preparing embedding matrix.')
+
+    # prepare embedding matrix
+    num_words = min(vocab_size, len(word_index))
+    embedding_matrix = np.zeros((num_words, embedding_dim))
+    for word, i in word_index.items():
+        if i >= vocab_size:
+            continue
+        embedding_vector = embeddings_index.get(word)
+        if embedding_vector is not None:
+            # words not found in embedding index will be all-zeros.
+            embedding_matrix[i] = embedding_vector
+    return embedding_matrix
+```
+
+我知道所有这些烦恼似乎都是可怕的，但确实如此，但是 GloVe 的作者在如何分配这些单词向量方面非常有心。 他们希望使使用任何一种编程语言的任何人都可以使用这些向量，为此，文本格式将受到人们的赞赏。 此外，如果您是一名实践中的数据科学家，您将习惯于此！
+
+现在，我们将向量表示为 2D 矩阵，现在可以在 Keras 嵌入层中使用它们了。 我们的准备工作已经完成，所以现在让我们建立网络。
+
+# 输入和嵌入层架构
+
+我们在这里格式化 API 的方式与前面的示例稍有不同。 这种略有不同的结构将使在嵌入层中使用预训练向量更加容易。 我们将在以下各节中讨论这些结构性更改。
+
+# 没有 GloVe 向量
+
+让我们演示没有先训练词向量的`embedding`层的代码。 此代码应与上一个示例中的代码几乎相同：
+
+```py
+sequence_input = Input(shape=(sequence_length,), dtype='int32')
+embedding_layer = Embedding(input_dim=vocab_size,
+                            output_dim=embedding_dim,
+                            input_length=sequence_length,
+                            name="embedding")(sequence_input)
+```
+
+# 带有 GloVe 向量
+
+现在，将其与包含以 2D 矩阵编码的预先训练的 GloVe 向量的代码进行比较：
+
+```py
+sequence_input = Input(shape=(sequence_length,), dtype='int32')
+embedding_layer = Embedding(input_dim=vocab_size,
+                            output_dim=embedding_dim,
+                            weights=[embedding_matrix],
+                            input_length=sequence_length,
+                            trainable=False,
+                            name="embedding")(sequence_input)
+```
+
+在大多数情况下，此代码看起来是等效的。 有两个主要区别：
+
+*   我们初始化层权重以包含在我们与`weights=[embedding_matrix]`组装的 GloVe 矩阵中。
+*   我们还将层设置为`trainable=False`。 这将阻止我们更新权重。 您可能希望以与微调权重相似的方式微调权重，该方式类似于我们在第 8 章“使用预训练的 CNN”进行的迁移学习中构建的 CNN，但是在大多数情况下， 不必要或没有帮助。
+
+# 卷积层
+
+对于一维卷积，层可以使用`keras.layers.Conv1D`。 我们将需要使用`MaxPooling1D`层以及`Conv1D`层，如以下代码所示：
+
+```py
+x = Conv1D(128, 5, activation='relu')(embedding_layer)
+x = MaxPooling1D(5)(x)
+x = Conv1D(128, 5, activation='relu')(x)
+x = MaxPooling1D(5)(x)
+x = Conv1D(128, 5, activation='relu')(x)
+x = GlobalMaxPooling1D()(x)
+```
+
+对于`Conv1D`层，第一个整数参数是单元数，第二个是过滤器大小。 我们的过滤器只有一维，因此命名为 1D 卷积。 上例中的窗口大小为 5。
+
+我正在使用的`MaxPooling1D`层也将使用 5 的窗口大小。相同的规则适用于一维实现中的池化层。
+
+在最后一个卷积层之后，我们应用`GlobalMaxPooling1D`层。 该层是最大池化的特殊实现，它将获取最后一个`Conv1D`层（一个`[batch x 35 x 128]`张量）的输出，并跨时间步长将其合并到`[batch x 128]`。 这通常是在 NLP 网络中完成的，其目的类似于在基于图像的卷积网络中使用`Flatten()`层。 该层充当卷积层和密集层之间的桥梁。
+
+# 输出层
+
+此示例中的输出层看起来像其他任何多分类。 我在输出层之前也包括了一个密集层，如以下代码所示：
+
+```py
+x = Dense(128, activation='relu')(x)
+preds = Dense(20, activation='softmax')(x)
+```
+
+# 放在一起
+
+和以前一样，我们将在此处显示整个神经网络结构。 请注意，此结构适用于包含 GloVe 向量的模型版本：
+
+```py
+def build_model(vocab_size, embedding_dim, sequence_length, embedding_matrix):
+
+    sequence_input = Input(shape=(sequence_length,), dtype='int32')
+    embedding_layer = Embedding(input_dim=vocab_size,
+                                output_dim=embedding_dim,
+                                weights=[embedding_matrix],
+                                input_length=sequence_length,
+                                trainable=False,
+                                name="embedding")(sequence_input)
+    x = Conv1D(128, 5, activation='relu')(embedding_layer)
+    x = MaxPooling1D(5)(x)
+    x = Conv1D(128, 5, activation='relu')(x)
+    x = MaxPooling1D(5)(x)
+    x = Conv1D(128, 5, activation='relu')(x)
+    x = GlobalMaxPooling1D()(x)
+    x = Dense(128, activation='relu')(x)
+    preds = Dense(20, activation='softmax')(x)
+    model = Model(sequence_input, preds)
+    model.compile(loss='categorical_crossentropy',
+              optimizer='adam',
+              metrics=['accuracy'])
+    return model
+```
+
+我在这里再次使用`adam`，`categorical_crossentropy`和`accuracy`。 尽管本章介绍了许多新主题，但希望能看到保持不变的感觉会有些安慰。
+
+# 训练
+
+将所有代码放在一起，只需几行就可以完成训练，如以下代码所示：
+
+```py
+glove_dir = os.path.join(BASE_DIR, 'glove.6B')
+text_data_dir = os.path.join(BASE_DIR, '20_newsgroup')
+embeddings_index = load_word_vectors(glove_dir)
+
+data = load_data(text_data_dir, vocab_size=20000, sequence_length=1000)
+data = tokenize_text(data)
+data = train_val_test_split(data)
+data["embedding_dim"] = 100
+data["embedding_matrix"] = embedding_index_to_matrix(embeddings_index=embeddings_index,
+                                                     vocab_size=data["vocab_size"],
+                                                     embedding_dim=data["embedding_dim"],
+                                                     word_index=data["tokenizer"].word_index)
+
+callbacks = create_callbacks("newsgroups-pretrained")
+model = build_model(vocab_size=data["vocab_size"],
+                    embedding_dim=data['embedding_dim'],
+                    sequence_length=data['sequence_length'],
+                    embedding_matrix=data['embedding_matrix'])
+
+model.fit(data["X_train"], data["y_train"],
+          batch_size=128,
+          epochs=10,
+          validation_data=(data["X_val"], data["y_val"]),
+          callbacks=callbacks)
+```
+
+请注意，我们只训练 10 个周期，因此将这个问题的损失降到最低不会花很长时间。
+
+# 表现
+
+而我们在这里处于关键时刻。 让我们看看我的表现如何。 更重要的是，让我们将 GloVe 向量与该问题的学习向量进行比较。
+
+以下屏幕截图中的橙色线对应于学习的嵌入层，蓝色线对应于 GloVe 向量：
+
+![](img/63265d98-f436-415a-ae52-1d53c78e5530.png)
+
+GloVe 预先训练的网络不仅学习得更快，而且在每个周期都表现得更好。 总体而言，这些网络似乎在学习文档分类任务方面做得很好。 大约在第五个周期之后，它们都开始过拟合。 但是，GloVe 模型比没有使用 GloVe 训练的网络更能防止过拟合。
+
+通常，我建议尽可能在任何地方使用迁移学习。 图片和文字都是如此。
+
+如果通过这些示例与我一起工作，我建议您对 LSTM 尝试同样的问题。 我认为使用 LSTM 时，您会发现该问题更加难以解决，并且难以解决过拟合问题。
+
+# 总结
+
+在本章中，我们以一般形式以及在情感分析的特定情况下研究了文档分类。 在此过程中，我们涵盖了很多 NLP 主题，包括 Word 袋模型，向量空间模型以及每个模型的相对优点。 我们还研究了使用 LSTM 和 1D 卷积进行文本分析。 最后，我们训练了两个单独的文档分类器，并通过实际示例应用了我们讨论的所有内容。
+
+在下一章中，我们将讨论一个非常酷的自然语言模型，该模型将允许我们实际生成单词，称为**序列到序列模型**。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/11.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/11.md
new file mode 100644
index 00000000..d5c448e2
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/11.md
@@ -0,0 +1,596 @@
+# 十一、训练 Seq2Seq 模型
+
+在上一章中，我们讨论了文档分类以及文档分类的一种特殊情况，称为**情感分类**。 这样做时，我们不得不谈论很多关于向量化的知识。
+
+在本章中，我们将继续谈论解决 NLP 问题，但是除了分类之外，我们将生成新的单词序列。
+
+我们将在本章介绍以下主题：
+
+*   序列到序列模型
+*   机器翻译
+
+# 序列到序列模型
+
+到目前为止，我们所研究的网络已经做了一些真正令人惊奇的事情。 但是它们都有一个很大的局限性：它们只能应用于输出具有固定且众所周知的大小的问题。
+
+序列到序列模型能够将输入序列映射到具有可变长度的输出序列。
+
+您可能还会看到术语序列到序列，甚至 **Seq2Seq**。 这些都是序列到序列模型的术语。
+
+当使用序列到序列模型时，我们将引入一个序列并交换出一个序列。 这些序列的长度不必相同。 序列到序列模型使我们能够学习输入序列和输出序列之间的映射。
+
+序列到序列模型可能在许多应用中有用，我们接下来将讨论这些应用。
+
+# 序列到序列模型的应用
+
+序列到序列模型具有许多实际应用。
+
+也许最实际的应用是**机器翻译**。 我们可以使用机器翻译将一种语言的短语作为输入，并输出另一种语言的短语。 机器翻译是我们越来越依赖的一项重要服务。 得益于计算机视觉和机器翻译的进步，我们可以听不懂的语言，或者用不懂的语言查看标志，并且几乎可以立即在智能手机上获得不错的翻译。 序列到序列的网络确实使我们非常接近道格拉斯·亚当（Douglas Adam）想象的《银河系漫游指南》中的通天鱼。
+
+问答也可以全部或部分通过序列到序列模型来完成，在这里我们可以将问题想象为输入序列，将答案想象为输出序列。 回答问题最普遍的应用是聊天。 如果您通过呼叫中心为企业提供支持，则每天会有成千上万甚至数百万个问题/答案对通过电话传递。 对于序列到序列聊天机器人来说，这是完美的训练。
+
+我们可以利用这种问答方式的多种细微形式。 每天，我收到大约 34 亿封电子邮件。 其中，我可能只需要阅读 20-30（这是一个分类任务）。 但是，我对这些电子邮件的回复很少新颖。 我几乎可以肯定地创建一个序列到序列的网络，该网络可以为我写电子邮件，或者至少起草回复。 我认为我们已经开始看到这种行为已经内置在我们最喜欢的电子邮件程序中，并且肯定会出现更加全自动的响应。
+
+序列到序列网络的另一个重要用途是自动文本摘要。 想象一下一组研究论文或大量期刊文章。 所有这些论文可能都有摘要。 这只是另一个翻译问题。 给定一些论文，我们可以使用序列到序列网络生成摘要。 网络可以学习以这种方式总结文档。
+
+在本章的后面，我们将实现一个序列到序列的网络来进行机器翻译。 不过，在进行此操作之前，让我们了解一下这种网络架构是如何工作的。
+
+# 序列到序列模型架构
+
+理解序列到序列模型架构的关键是要理解该架构是为了允许输入序列的长度与输出序列的长度而变化的。 然后可以使用整个输入序列来预测长度可变的输出序列。
+
+为此，网络被分为两个独立的部分，每个部分都包含一个或多个 LSTM 层，这些层负责一半的任务。 如果您想对其操作进行复习，我们在第 9 章“从头开始训练 RNN”中讨论了 LSTM。 我们将在以下各节中了解这两个部分。
+
+# 编码器和解码器
+
+序列到序列模型由两个单独的组件组成，一个编码器和一个解码器：
+
+*   **编码器**：模型的编码器部分采用输入序列，并返回输出和网络的内部状态。 我们并不在乎输出。 我们只想保留编码器的状态，即输入序列的内存。
+*   **解码器**：然后，模型的解码器部分将来自编码器的状态（称为**上下文**或**条件**）作为输入。 然后，根据前一个时间步长的输出，可以预测每个时间步长的目标序列。
+
+然后，编码器和解码器如下图所示一起工作，获取输入序列并生成输出序列。 如您所见，我们使用特殊字符表示序列的开始和结束。
+
+我们知道，一旦序列字符的结尾（我称之为`<EOS>`）结束，就停止生成输出：
+
+![](img/2a32ed66-4641-4bbf-9f24-77083ee3e768.png)
+
+尽管此示例涵盖了机器翻译，但是序列到序列学习的其他应用却以相同的方式工作。
+
+# 字符与文本
+
+可以在字符级别或单词级别建立序列到序列模型。 单词级序列到序列模型将单词作为输入的原子单位，而字符级模型将字符作为输入的原子单位。
+
+那么，您应该使用哪个呢？ 通常，最好的结果是从单词级模型中获得的。 就是说，预测序列中最可能出现的下一个单词需要`softmax`层与问题的词汇量一样宽。 这导致了非常广泛的，高度尺寸的问题。
+
+字符级模型要小得多。 字母表中有 26 个字母，但大约有 171,000 个英文单词是常用的。
+
+对于本章中提出的问题，我将使用字符级模型，因为我重视您的 AWS 预算。 转换为单词非常简单，其中大部分复杂性都在数据准备中，这是留给读者的练习。
+
+# 监督强迫
+
+如上图所示，当预测序列`y[t(n)]`某个位置的输出时，我们使用`y[t(n-1)]`作为 LSTM 的输入。 然后，我们使用此时间步骤的输出来预测`y[t(n+1)]`。
+
+训练中这样做的问题是，如果`y[t(n-1)]`错误，则`y[t(n)]`将更加错误。 错误不断增加的链条会使事情变得非常缓慢。
+
+解决该问题的一个显而易见的解决方案是将每个时间步长的每个序列预测替换为该时间步长的实际正确序列。 因此，我们将使用训练集中的实际值，而不是对`y[t(n-1)]`使用 LSTM 预测。
+
+通过使用这个概念，我们可以促进模型的训练过程，这恰好被称为**监督强迫**。
+
+教师强迫有时会使我们的模型难以可靠地生成训练中看不到的序列，但总的来说，该技术可能会有所帮助。
+
+# 注意
+
+注意是可以在序列到序列模型中实现的另一种有用的训练技巧。 注意使解码器在输入序列的每个步骤中都能看到隐藏状态。 这使网络可以专注于（或关注）特定的输入，这可以加快训练速度并可以提高模型的准确率。 注意通常是一件好事。 但是，在撰写本文时，Keras 尚未内置注意力。尽管如此，Keras 目前确实有一个拉取请求正在等待自定义注意层。 我怀疑很快就会在 Keras 中建立对关注的支持。
+
+# 翻译指标
+
+知道翻译是否良好很难。 机器翻译质量的通用度量标准称为**双语评估研究**（**BLEU**），它最初是由 Papineni 等人在[《BLEU：一种自动评估机器翻译的方法》](http://aclweb.org/anthology/P/P02/P02-1040.pdf)中创建的。 BLEU 是基于 ngram 的分类精度的改进应用。 如果您想使用 BLEU 来衡量翻译质量，TensorFlow 团队已经发布了一个脚本，该脚本可以根据给定的地面真实翻译和机器预测翻译的语料来计算 BLEU 分数。 您可以在[这里](https://github.com/tensorflow/nmt/blob/master/nmt/scripts/bleu.py)找到该脚本。
+
+# 机器翻译
+
+`Je ne parle pasfrançais`，那就是你怎么说我不会说英语的法语。 大约两年前，我发现自己在巴黎，几乎不会说法语。 在我去之前，我已经看过一本书，听过一些 DVD，但是即使经过几个月的练习，我对法语的掌握还是很可悲的。 然后，在旅途的第一个早晨，我醒来，走进附近的`boulangerie`（法国或法式面包店）吃早餐和早晨咖啡。 我说`Bonjour, parlez-vous anglais?`，他们一点也不讲英语，或者也许他们正在享受我的奋斗。 无论哪种方式，当我的早餐取决于我对法语的掌握时，我都会比过去更有动力去争取`Je voudrais un pain au chocolat`（翻译：我想要其中一种美味的巧克力面包）。 在最终成本函数（我的胃）的驱动下，我很快学会了在英语序列和法语序列之间进行映射。
+
+在本案例研究中，我们将教计算机讲法语。 在几个小时的训练中，该模型将比我说法语更好。 考虑一下，这真是太神奇了。 我将训练一台计算机来执行我自己无法完成的任务。 当然，也许您确实会说法语，但这并不会给您留下深刻的印象，在这种情况下，我将美国著名演员亚当·桑德勒（Adam Sandler）称为比利·麦迪逊（Billy Madison）：好吧，对我来说很难，所以退缩！
+
+该示例的大部分来自于弗朗索瓦·乔勒（Francois Chollet）的博客文章，标题为[《序列到序列学习的十分钟介绍》](https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html)。 尽管我怀疑自己是否可以改进这项工作，但我希望使用本示例的目的是花一点点多一点的时间看一下序列到序列的网络，以使您掌握实现自己的所有知识。
+
+与往常一样，本章的代码可以在本书的 Git 存储库中的`Chapter11`下找到。 您可以在[这个页面](http://www.manythings.org/anki/)中找到此示例所需的数据，该文件将存档许多双语句子对的数据集，我们将在后面详细讨论。 我要使用的文件是 [fra-eng.zip](http://www.manythings.org/anki/fra-eng.zip) 。 这是英语/法语句子对的集合。 如果需要，您可以轻松选择其他语言，而无需进行太多修改。
+
+在本案例研究中，我们将构建一个网络，该网络可以在给定一些英语句子的情况下学习法语句子。 这将是一个具有老师强迫作用的字符级序列到序列模型。
+
+我希望最终得到的是看起来很像翻译服务的东西，您可以在网上找到它或下载到手机上。
+
+# 了解数据
+
+我们正在使用的数据是一个文本文件。 每行都有一个英文短语及其法语翻译，并用一个选项卡分隔，如以下代码所示：
+
+```py
+Ignore Tom. Ignorez Tom.
+```
+
+（我不确定`Tom`对数据集的作者做了什么...）
+
+通常，每行英语翻译都有重复的法语翻译行。 当有多种常用方法翻译英语短语时，会发生这种情况。 看下面的代码例如：
+
+```py
+Go now.    Va, maintenant.
+Go now.    Allez-y maintenant.
+Go now.    Vas-y maintenant.
+```
+
+由于我们正在构建一个字符级序列到序列模型，因此需要将数据加载到内存中，然后对每个输入和输出在字符级进行热编码。 那是困难的部分。 让我们接下来做。
+
+# 加载数据
+
+加载此数据涉及很多工作。 阅读本文时，您可能想参考代码块。
+
+以下代码中的第一个`for`循环将遍历整个输入文件或调用`load_data()`时指定的一些样本。 我这样做是因为您可能没有 RAM 来加载整个数据集。 多达 10,000 个示例，您可能会获得良好的结果； 但是，多多益善。
+
+当我们逐行浏览输入文件时，我们一次要执行几项操作：
+
+*   我们将每个法语翻译包装在`'\t'`中，以开始该短语，并在`'\n'`中，以结束它。 这对应于我在序列到序列图中使用的`<SOS>`和`<EOS>`标签。 当我们要生成翻译序列时，这将允许我们使用`'\t'`作为输入来为解码器设定种子。
+*   我们将每一行分为英语输入和其各自的法语翻译。 这些存储在列表`input_texts`和`target_texts`中。
+*   最后，我们将输入文本和目标文本的每个字符添加到一个集合中。 这些集称为`input_characters`和`target_characters`。 当需要对短语进行热编码时，我们将使用这些集合。
+
+循环完成后，我们会将字符集转换为排序列表。 我们还将创建名为`num_encoder_tokens`和`num_decoder_tokens`的变量，以保存每个列表的大小。 稍后我们也将需要这些以进行单热编码。
+
+为了将输入和目标输入矩阵，我们需要像上一章一样，将短语填充到最长短语的长度。 为此，我们需要知道最长的短语。 我们将其存储在`max_encoder_seq_length`和`max_decoder_seq_length`中，如以下代码所示：
+
+```py
+def load_data(num_samples=50000, start_char='\t', end_char='\n', data_path='data/fra-eng/fra.txt'):
+    input_texts = []
+    target_texts = []
+    input_characters = set()
+    target_characters = set()
+    lines = open(data_path, 'r', encoding='utf-8').read().split('\n')
+    for line in lines[: min(num_samples, len(lines) - 1)]:
+        input_text, target_text = line.split('\t')
+        target_text = start_char + target_text + end_char
+        input_texts.append(input_text)
+        target_texts.append(target_text)
+        for char in input_text:
+            if char not in input_characters:
+                input_characters.add(char)
+        for char in target_text:
+            if char not in target_characters:
+                target_characters.add(char)
+
+    input_characters = sorted(list(input_characters))
+    target_characters = sorted(list(target_characters))
+    num_encoder_tokens = len(input_characters)
+    num_decoder_tokens = len(target_characters)
+    max_encoder_seq_length = max([len(txt) for txt in input_texts])
+    max_decoder_seq_length = max([len(txt) for txt in target_texts])
+
+    print('Number of samples:', len(input_texts))
+    print('Number of unique input tokens:', num_encoder_tokens)
+    print('Number of unique output tokens:', num_decoder_tokens)
+    print('Max sequence length for inputs:', max_encoder_seq_length)
+    print('Max sequence length for outputs:', max_decoder_seq_length)
+    return {'input_texts': input_texts, 'target_texts': target_texts,
+           'input_chars': input_characters, 'target_chars': 
+           target_characters, 'num_encoder_tokens': num_encoder_tokens, 
+           'num_decoder_tokens': num_decoder_tokens,
+           'max_encoder_seq_length': max_encoder_seq_length, 
+           'max_decoder_seq_length': max_decoder_seq_length}
+```
+
+加载数据后，我们将在字典中返回所有这些信息，这些信息可以传递给一个函数，该函数将对每个短语进行热编码。 让我们接下来做。
+
+# 单热编码
+
+在此函数中，我们将使用刚刚构建的字典，并对每个短语的文本进行热编码。
+
+一旦完成，我们将剩下三个字典。 它们每个的尺寸为`[文本数 * 最大序列长度 * 标记]`。 如果您停顿一下，回想一下第 10 章“使用单词嵌入从零开始训练 LSTM”的更简单的时间，您会发现这确实与我们在其他 NLP 模型中使用的相同，我们在输入端完成它。 我们将使用以下代码定义单热编码：
+
+```py
+def one_hot_vectorize(data):
+    input_chars = data['input_chars']
+    target_chars = data['target_chars']
+    input_texts = data['input_texts']
+    target_texts = data['target_texts']
+    max_encoder_seq_length = data['max_encoder_seq_length']
+    max_decoder_seq_length = data['max_decoder_seq_length']
+    num_encoder_tokens = data['num_encoder_tokens']
+    num_decoder_tokens = data['num_decoder_tokens']
+
+    input_token_index = dict([(char, i) for i, char in 
+      enumerate(input_chars)])
+    target_token_index = dict([(char, i) for i, char in 
+      enumerate(target_chars)])
+    encoder_input_data = np.zeros((len(input_texts), 
+      max_encoder_seq_length, num_encoder_tokens), dtype='float32')
+    decoder_input_data = np.zeros((len(input_texts), 
+      max_decoder_seq_length, num_decoder_tokens), dtype='float32')
+    decoder_target_data = np.zeros((len(input_texts), 
+      max_decoder_seq_length, num_decoder_tokens), dtype='float32')
+
+    for i, (input_text, target_text) in enumerate(zip(input_texts, 
+     target_texts)):
+        for t, char in enumerate(input_text):
+            encoder_input_data[i, t, input_token_index[char]] = 1.
+        for t, char in enumerate(target_text):
+    # decoder_target_data is ahead of decoder_input_data by one 
+       timestep
+            decoder_input_data[i, t, target_token_index[char]] = 1.
+            if t > 0:
+           # decoder_target_data will be ahead by one timestep
+           # and will not include the start character.
+           decoder_target_data[i, t - 1, target_token_index[char]] = 1.
+    data['input_token_index'] = input_token_index
+    data['target_token_index'] = target_token_index
+    data['encoder_input_data'] = encoder_input_data
+    data['decoder_input_data'] = decoder_input_data
+    data['decoder_target_data'] = decoder_target_data
+    return data
+```
+
+我们在此代码中创建了三个训练向量。 在继续之前，我想确保我们了解以下所有向量：
+
+*   `encoder_input_data`是形状为`number_of_pairs`，`max_english_sequence_length`，`number_of_english_characters`的 3D 矩阵。
+*   `decoder_input_data`是形状（`number_of_pairs`，`max_french_sequence_length`，`number_of_french_characters`）的 3d 矩阵。
+*   `decoder_output_data`与`decoder_input_data`相同，仅向前移了一个时间步。 这意味着`decoder_input_data[:, t+1, :]`等于`decoder_output_data[:, t, :]`。
+
+前面的每个向量都是字符层上整个短语的一个热编码表示。 这意味着，如果我们输入的短语是 Go！ 向量的第一步是为文本中每个可能的英文字符包含一个元素。 除`g`设置为 1 以外，其他每个元素都将设置为`0`。
+
+我们的目标是使用`encoder_input_data`和`decoder_input`数据作为输入特征，训练序列至序列模型来预测`decoder_output_data`。
+
+终于完成了数据准备，因此我们可以开始构建序列到序列的网络架构。
+
+# 用于训练的网络架构
+
+在此示例中，我们实际上将使用两种单独的架构，一种用于训练，另一种用于推理。 我们将从推理模型训练中使用训练过的层。 虽然实际上我们为每种架构使用了相同的部分，但是为了使事情更清楚，我将分别展示每个部分。 以下是我们将用来训练网络的模型：
+
+```py
+encoder_input = Input(shape=(None, num_encoder_tokens), name='encoder_input')
+encoder_outputs, state_h, state_c = LSTM(lstm_units, return_state=True,
+                                         name="encoder_lstm")(encoder_input)
+encoder_states = [state_h, state_c]
+decoder_input = Input(shape=(None, num_decoder_tokens), name='decoder_input')
+decoder_lstm = LSTM(lstm_units, return_sequences=True, 
+  return_state=True, name="decoder_lstm")
+decoder_outputs, _, _ = decoder_lstm(decoder_input, initial_state=encoder_states)
+decoder_dense = Dense(num_decoder_tokens, activation='softmax',
+  name='softmax_output')
+decoder_output = decoder_dense(decoder_outputs)
+
+model = Model([encoder_input, decoder_input], decoder_output)
+model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
+```
+
+如果我们将*放大*编码器，则会看到相当标准的 LSTM。 不同之处在于，我们从编码器（`return_state=True`）获取状态，如果将 LSTM 连接到密集层，通常不会这样做。 这些状态是我们将在`encoder_states`中捕获的状态。 我们将使用它们为解码器提供上下文或条件。
+
+在解码器方面，我们设置的`decoder_lstm`与我们先前构建 Keras 层的方式略有不同，但实际上只是语法略有不同。
+
+看下面的代码：
+
+```py
+decoder_lstm = LSTM(lstm_units, return_sequences=True, 
+   return_state=True, name="decoder_lstm")
+decoder_outputs, _, _ = decoder_lstm(decoder_input, initial_state=encoder_states)
+```
+
+其功能与以下代码相同：
+
+```py
+decoder_outputs, _, _ = LSTM(lstm_units, return_sequences=True, 
+  return_state=True, name="decoder_lstm")(decoder_input, initial_state=encoder_states)
+```
+
+我这样做的原因在推理架构中将变得显而易见。
+
+请注意，解码器将编码器的隐藏状态作为其初始状态。 然后将解码器输出传递到预测`decoder_output_data`的`softmax`层。
+
+最后，我们将定义训练模型，我将其创造性地称为`model`，该模型将`encoder_input_data`和`decoder_input`数据作为输入并预测`decoder_output_data`。
+
+# 用于推理的网络架构
+
+为了在给定输入序列的情况下预测整个序列，我们需要稍微重新安排一下架构。 我怀疑在 Keras 的未来版本中，这将变得更简单，但是从今天起这是必需的步骤。
+
+为什么需要有所不同？ 因为我们没有推断的`decoder_input_data`教师向量。 我们现在独自一人。 因此，我们将必须进行设置，以便我们不需要该向量。
+
+让我们看一下这种推理架构，然后逐步执行代码：
+
+```py
+encoder_model = Model(encoder_input, encoder_states)
+
+decoder_state_input_h = Input(shape=(lstm_units,))
+decoder_state_input_c = Input(shape=(lstm_units,))
+decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]
+decoder_outputs, state_h, state_c = decoder_lstm(
+    decoder_input, initial_state=decoder_states_inputs)
+decoder_states = [state_h, state_c]
+decoder_outputs = decoder_dense(decoder_outputs)
+decoder_model = Model(
+    [decoder_input] + decoder_states_inputs,
+    [decoder_outputs] + decoder_states)
+```
+
+首先，我们从构建编码器模型开始。 该模型将采用一个输入序列，并返回我们在先前模型中训练过的 LSTM 的隐藏状态。
+
+然后，解码器模型具有两个输入，即`h`和`c`隐藏状态，这些状态限制了其从编码器模型派生的输出。 我们统称为`decoder_states_inputs`。
+
+我们可以从上面重用`decoder_lstm`； 但是，这次我们不会丢弃状态`state_h`和`state_c`。 我们将把它们与目标的`softmax`预测一起作为网络输出传递。
+
+现在，当我们推断出一个新的输出序列时，我们可以在预测第一个字符之后获得这些状态，然后将它们通过`softmax`预测传递回 LSTM，以便 LSTM 可以预测另一个字符。 我们将重复该循环，直到解码器生成一个`'\n'`信号为止，该信号已到达`<EOS>`。
+
+我们将很快看一下推理代码。 现在，让我们看看如何训练和序列化此模型集合。
+
+# 放在一起
+
+按照本书的传统，我将在这里向您展示该模型的整个架构如何融合在一起：
+
+```py
+def build_models(lstm_units, num_encoder_tokens, num_decoder_tokens):
+    # train model
+    encoder_input = Input(shape=(None, num_encoder_tokens), 
+      name='encoder_input')
+    encoder_outputs, state_h, state_c = LSTM(lstm_units, 
+      return_state=True, name="encoder_lstm")(encoder_input)
+    encoder_states = [state_h, state_c]
+    decoder_input = Input(shape=(None, num_decoder_tokens), 
+      name='decoder_input')
+    decoder_lstm = LSTM(lstm_units, return_sequences=True, 
+      return_state=True, name="decoder_lstm")
+    decoder_outputs, _, _ = decoder_lstm(decoder_input,
+                                         initial_state=encoder_states)
+    decoder_dense = Dense(num_decoder_tokens, activation='softmax',
+                          name='softmax_output')
+    decoder_output = decoder_dense(decoder_outputs)
+    model = Model([encoder_input, decoder_input], decoder_output)
+    model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
+
+    encoder_model = Model(encoder_input, encoder_states)
+    decoder_state_input_h = Input(shape=(lstm_units,))
+    decoder_state_input_c = Input(shape=(lstm_units,))
+    decoder_states_inputs = [decoder_state_input_h, 
+      decoder_state_input_c]
+    decoder_outputs, state_h, state_c = decoder_lstm(
+        decoder_input, initial_state=decoder_states_inputs)
+    decoder_states = [state_h, state_c]
+    decoder_outputs = decoder_dense(decoder_outputs)
+    decoder_model = Model(
+        [decoder_input] + decoder_states_inputs,
+        [decoder_outputs] + decoder_states)
+
+    return model, encoder_model, decoder_model
+```
+
+请注意，我们将在此处返回所有三个模型。 训练完训练模型后，我将使用`keras model.save()`方法序列化这三个方法。
+
+# 训练
+
+我们终于准备好训练我们的序列到序列网络。 以下代码首先调用我们所有的数据加载函数，创建回调，然后拟合模型：
+
+```py
+data = load_data()
+data = one_hot_vectorize(data)
+callbacks = create_callbacks("char_s2s")
+model, encoder_model, decoder_model = build_models(256, data['num_encoder_tokens'], data['num_decoder_tokens'])
+print(model.summary())
+
+model.fit(x=[data["encoder_input_data"], data["decoder_input_data"]],
+          y=data["decoder_target_data"],
+          batch_size=64,
+          epochs=100,
+          validation_split=0.2,
+          callbacks=callbacks)
+
+model.save('char_s2s_train.h5')
+encoder_model.save('char_s2s_encoder.h5')
+decoder_model.save('char_s2s_decoder.h5')
+```
+
+您会注意到，我以前没有像通常那样定义验证或测试集。 这次，按照博客文章中给出的示例，我将让 Keras 随机选择 20% 的数据作为验证，这在示例中可以很好地工作。 如果要使用此代码实际进行机器翻译，请使用单独的测试集。
+
+训练模型适合后，我将保存所有三个模型，并将它们再次加载到为推理而构建的单独程序中。 我这样做是为了使代码保持简洁，因为推理代码本身非常复杂。
+
+让我们来看看这个模型的 100 个周期的模型训练：
+
+![](img/d6844cf9-3d55-4e3f-9722-4c54b3be05b5.png)
+
+如您所见，我们在第 20 个周期开始过拟合。虽然损失持续减少，但`val_loss`却在增加。 在这种情况下，模型检查指向可能无法正常工作，因为在训练结束之前我们不会序列化推理模型。 因此，理想情况下，我们应该再训练一次，将训练的周期数设置为略大于 TensorBoard 中观察到的最小值。
+
+# 推理
+
+现在我们有了训练有素的模型，我们将实际生成一些翻译。
+
+总体而言，推理步骤如下：
+
+1.  加载数据并再次向量化（我们需要字符到索引的映射以及一些转换进行测试）
+2.  使用字符对字典进行索引，我们将创建字符字典的反向索引，因此一旦我们预测了正确的字符，我们就可以从数字返回到字符
+3.  选择一些输入序列进行翻译，然后通过编码器运行，获取状态
+4.  将状态和`<SOS>`字符`'\t'`发送到解码器。
+5.  循环，获取每个下一个字符，直到解码器生成`<EOS>`或`'\n'`
+
+# 加载数据
+
+我们可以从训练脚本中导入`load_data`和`one_hot_vectorize`函数，以相同的方式调用这些方法，如以下代码所示：
+
+```py
+data = load_data()
+data = one_hot_vectorize(data)
+```
+
+# 创建反向索引
+
+解码器将预测正确字符的索引，该索引将是解码器的`softmax`输出的`argmax`。 我们将需要能够将索引映射到字符。 您可能还记得，数据字典中已经有一个字符到索引的映射，所以我们只需要反转它即可。 逆转字典非常简单，如下所示：
+
+```py
+def create_reverse_indicies(data):
+    data['reverse_target_char_index'] = dict(
+        (i, char) for char, i in data["target_token_index"].items())
+    return data
+```
+
+然后，我们可以如下调用此函数：
+
+```py
+data = create_reverse_indicies(data)
+```
+
+# 载入模型
+
+我们可以使用`keras.models.load_model`加载保存在训练脚本中的模型。 我创建了此助手来完成该任务。 我们将使用以下代码加载模型：
+
+```py
+def load_models():
+    model = load_model('char_s2s.h5')
+    encoder_model = load_model('char_s2s_encoder.h5')
+    decoder_model = load_model('char_s2s_decoder.h5')
+    return [model, encoder_model, decoder_model]
+```
+
+我们可以调用以下函数来加载所有三个模型：
+
+```py
+model, encoder_model, decoder_model = load_models()
+```
+
+# 翻译序列
+
+现在，我们准备对一些输入序列进行采样并进行翻译。 在示例代码中，我们使用前 100 个双语对进行翻译。 一个更好的测试可能是在整个空间中随机抽样，但是我认为这个简单的循环说明了这一过程：
+
+```py
+for seq_index in range(100):
+    input_seq = data["encoder_input_data"][seq_index: seq_index + 1]
+    decoded_sentence = decode_sequence(input_seq, data, encoder_model, 
+                                       decoder_model)
+    print('-')
+    print('Input sentence:', data['input_texts'][seq_index])
+    print('Correct Translation:', data['target_texts']
+      [seq_index].strip("\t\n"))
+    print('Decoded sentence:', decoded_sentence)
+```
+
+在这段代码中，我们将`encoder_input_data`的一个观察值用作`decode_sequence`的输入。 `decode_sequence`将传回解码器认为正确翻译的序列。 我们还需要将其传递给编码器和解码器模型，以便能够完成其工作。下面的翻译更加有趣，因为学习的短语未与
+
+有了解码器预测后，就可以将其与输入和正确的转换进行比较。
+
+当然，我们还没有完成，因为我们还没有探讨`decode_sequence`方法的工作方式。 接下来。
+
+# 解码序列
+
+解码器需要执行以下两项操作：
+
+*   来自编码器的状态。
+*   输入信号开始预测的翻译。 我们将在一个热向量中向其发送`'\t'`，因为这是我们的`<SOS>`字符。
+
+为了获得编码器状态，我们只需要使用以下代码将要翻译的短语的向量化版本发送到编码器：
+
+```py
+states_value = encoder_model.predict(input_seq)
+```
+
+为了启动解码器，我们还需要一个包含`<SOS>`字符的热向量。 这段代码将我们带到了那里：
+
+```py
+target_seq = np.zeros((1, 1, data['num_decoder_tokens']))
+target_seq[0, 0, data['target_token_index']['\t']] = 1.
+```
+
+现在，我们准备使用以下代码设置一个解码器循环，该循环将生成我们的翻译短语：
+
+```py
+stop_condition = False
+decoded_sentence = ''
+while not stop_condition:
+    output_tokens, h, c = decoder_model.predict(
+        [target_seq] + states_value)
+
+    sampled_token_index = np.argmax(output_tokens[0, -1, :])
+    sampled_char = data["reverse_target_char_index"][sampled_token_index]
+    decoded_sentence += sampled_char
+
+    if (sampled_char == '\n' or
+       len(decoded_sentence) > data['max_decoder_seq_length']):
+        stop_condition = True
+
+    target_seq = np.zeros((1, 1, data['num_decoder_tokens']))
+    target_seq[0, 0, sampled_token_index] = 1.
+
+    states_value = [h, c]
+```
+
+首先要注意的是，我们一直循环到`stop_condition = True`。 这在解码器生成`'\n'`时发生。
+
+第一次通过循环，我使用`<SOS>`向量和我们在循环外部创建的编码器的状态调用了`decoder_model`的预测方法。
+
+当然，`output_tokens`将包含解码器可以预测的每个字符的`softmax`预测。 通过取`output_tokens`的`argmax`，我们将获得最大`softmax`值的索引。 方便地，我可以使用之前创建的`reverse_target_char_index`将其转换回关联的字符，这是一个在索引和字符之间转换的字典。
+
+接下来，我们将该字符附加到`decode_sequence`字符串。
+
+接下来，我们可以检查该字符是否为`'\n'`并触发`stop_condition`为`True`。
+
+最后，我们将创建一个新的`target_seq`，其中包含解码器生成的最后一个字符，以及一个包含解码器隐藏状态的列表。 现在，我们准备再次重复循环。
+
+我们的解码器将遵循此过程，直到生成解码序列为止。
+
+# 翻译示例
+
+只是为了好玩，我在这里提供了一些尝试的翻译。 所有这些都来自训练集的前面，这意味着我正在对`training`数据集进行预测，因此这些转换可能会使模型看起来比实际更好。
+
+我们的第一版翻译使您对我们的期望有所了解，并且该网络做得很好：
+
+输入句子：`Help!`
+
+正确翻译：`À l'aide!`
+
+解码后的句子：`À l'aide!`
+
+后续的翻译更加有趣，因为学习的短语未与任何训练短语相关联。 短语`Vas-tu immédiatement!`转换为类似`You go immediately`的字词。这非常相似，甚至可能正确：
+
+输入句子：`Go on.`
+
+正确的翻译： `Poursuis.`
+
+解码后的句子： `Vas-tu immédiatement!`
+
+输入句子：`Go on.`
+
+正确的翻译：`Continuez.`
+
+解码后的句子： `Vas-tu immédiatement!`
+
+输入句子：`Go on.`
+
+正确的翻译： `Poursuivez.`
+
+解码后的句子： `Vas-tu immédiatement!`
+
+
+当然，有很多方法可以说相同的事情，这使得网络变得更加困难：
+
+输入句子：`Come on!`
+
+正确的翻译： `Allez !`
+
+解码后的句子： `Allez !`
+
+输入句子：`Come on!`
+
+正确的翻译： `Allez !`
+
+解码后的句子： `Allez !`
+
+输入句子：`Come on.`
+
+正确的翻译：`Viens!`
+
+解码后的句子： `Allez!`
+
+输入句子：`Come on.`
+
+正确的翻译：`Venez!`
+
+解码后的句子： `Allez!`
+
+# 总结
+
+在本章中，我们介绍了序列到序列模型的基础知识，包括它们如何工作以及如何使用它们。 希望我们已经向您展示了一个功能强大的工具，可用于机器翻译，问题解答和聊天应用。
+
+如果您已经做到了，那就好。 您已经看到了很多深度学习的应用，并且发现自己正处于深层神经网络应用的最先进的钟形曲线的右边。
+
+在下一章中，我将向您展示另一个高级主题的示例，即深度强化学习或深度 Q 学习，并向您展示如何实现自己的深度 Q 网络。
+
+在此之前，请放松！
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/12.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/12.md
new file mode 100644
index 00000000..86d57d18
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/12.md
@@ -0,0 +1,340 @@
+# 十二、深度强化学习
+
+在本章中，我们将以略有不同的方式使用深度神经网络。 我们将要构建一个智能体，而不是预测一个类的成员，估计一个值，甚至生成一个序列。 尽管机器学习和人工智能这两个术语经常互换使用，但在本章中，我们将讨论人工智能作为一种可以感知其环境的智能体，并采取步骤在该环境中实现某些目标。
+
+想象一个可以玩象棋或围棋之类策略游戏的特工。 构建神经网络来解决此类游戏的一种非常幼稚的方法可能是使用一种网络架构，在该架构中，我们对每个可能的棋盘/棋子组合进行热编码，然后预测每个可能的下一个动作。 尽管该网络庞大而复杂，但可能做得并不好。 要很好地玩国际象棋，您不仅要考虑下一步，而且还要考虑接下来的步伐。 在不确定的情况下，我们的智能体将需要考虑给定未来行动的最佳下一步行动。
+
+这是一个令人兴奋的领域。 正是在智能体领域，研究人员才朝着人工智能或强大的 AI 迈进，这是创建可以执行人类任何智力任务的智能体的崇高目标。 强 AI 的概念通常与弱 AI 形成对比，弱 AI 是解决某些单个任务或应用的能力。
+
+对于作者（我）和读者（您）而言，本章将是一个挑战，因为强化学习理应拥有自己的书，并且需要总结在数学，心理学和计算机科学方面所做的工作。 因此，请原谅快速参考处理，并知道我在为您提供足够的信息，而在接下来的部分中将不多说。
+
+强化学习，马尔可夫决策过程和 Q 学习是智能体的基础，我们接下来将讨论这些内容。
+
+我们将在本章中讨论以下主题：
+
+*   强化学习概述
+*   Keras 强化学习框架
+*   在 Keras 中建立强化学习智能体
+
+# 强化学习概述
+
+强化学习基于智能体的概念。 智能体通过观察某种状态然后采取行动来与其环境进行交互。 当智能体采取行动在状态之间移动时，它会以奖励信号的形式接收有关其行动良好性的反馈。 这个奖励信号是强化学习中的强化。 这是一个反馈循环，智能体可以使用它来学习其选择的优势。 当然，奖励可以是正面的，也可以是负面的（惩罚）。
+
+想象一下，无人驾驶汽车是我们正在制造的智能体。 在行驶过程中，它不断收到动作的奖励信号。 留在车道内可能会产生积极的报酬，而在行人上奔跑可能会给智能体带来非常消极的报酬。 当面临选择留在行人或撞到行人的选择时，智能体将希望学会以避开行人为代价，避开行人，损失车道线奖励，以避免更大的行人碰撞惩罚。
+
+强化学习概念的核心是状态，行为和奖励的概念。 我已经讨论过奖励，所以让我们谈谈行动和状态。 动作是智能体在观察到某种状态时可以执行的操作。 如果我们的特工正在玩一个简单的棋盘游戏，那么该动作将由该特工轮到它来做。 然后转弯就是座席的状态。 为了解决这些问题，我们将在这里着眼于一个智能体可以采取的行动始终是有限的和离散的。 下图说明了此概念：
+
+![](img/dea6219b-2da7-405e-877e-c72c52b20210.png)
+
+此反馈循环的一个步骤可以用数学方式表示为：
+
+![](img/e39144a7-9a97-4e55-8500-6f6a64fc8537.png)
+
+动作会在原始状态`s`和下一个状态`s'`的智能体之间进行转换，智能体会在其中获得一些奖励`r`。 智能体选择动作的方式称为**智能体策略**，通常称为`pi`。
+
+强化学习的目的是找到一系列动作，使行动者从一个状态到另一个状态，并获得尽可能多的报酬。
+
+# 马尔可夫决策过程
+
+我们构筑的这个世界恰好是**马尔可夫决策过程**（**MDP**），它具有以下属性：
+
+*   它具有一组有限的状态，`S`
+*   它具有一组有限的动作 `A`
+*   `P[a](s, s')`是采取行动`A`将在状态`s`和状态`s'`之间转换的概率
+*   `R[a](s, s')`是`s`和`s'`之间过渡的直接奖励。
+*   `γ ∈ [0, 1]`是折扣因子，这是我们相对于当前奖励对未来奖励的折扣程度（稍后会详细介绍）
+
+一旦我们有了确定每个状态要采取的操作的策略函数`pi`，MDP 就解决了，成为了马尔可夫链。
+
+好消息是，有一个警告就完全有可能完美解决 MDP。 需要注意的是，必须知道 MDP 的所有回报和概率。 事实证明，这种警告相当重要，因为在大多数情况下，由于智能体的环境混乱或至少不确定，因此智能体不知道所有的回报和状态更改概率。
+
+# Q 学习
+
+想象一下，我们有一些函数`Q`，可以估计出采取行动的回报：
+
+![](img/c0927993-35eb-4977-a4bc-ccd338f9fc95.png)
+
+对于某些状态`s`以及动作`a`，它会根据状态为该动作生成奖励。 如果我们知道环境带来的所有回报，那么我们就可以遍历`Q`并选择能够为我们带来最大回报的行动。 但是，正如我们在上一节中提到的那样，我们的智能体不知道所有的奖励状态和状态概率。 因此，我们的`Q`函数需要尝试近似奖励。
+
+我们可以使用称为 **Bellman 公式**的递归定义的`Q`函数来近似此理想的`Q`函数：
+
+![](img/92cb692e-ef61-427e-bd69-0e698f08f007.png)
+
+在这种情况下， `r[0]`是下一个动作的奖励，然后在下一个动作上（递归地）递归使用`Q`函数确定该行动的未来奖励。 为此，我们将`γ`作为相对于当前奖励的未来奖励的折扣。 只要伽玛小于 1，它就不会使我们的奖励序列变得无限大。 更明显地，与当前状态下的相同奖励相比，未来状态下的奖励的值要低。 具体来说，如果有人今天给您 100 美元，明天给您 100 美元，您应该立即拿走这笔钱，因为明天不确定。
+
+如果我们尽最大的努力让我们的智能体经历每种可能的状态转换，并使用此函数来估计我们的报酬，我们将得出我们试图近似的理想`Q`函数。
+
+# 无限状态空间
+
+对`Q`函数的讨论使我们陷入了传统强化学习的重要局限。 您可能还记得，它假设状态空间是有限且离散的。 不幸的是，这不是我们生活的世界，也不是我们的智能体在很多时候会发现自己的环境。 考虑一个可以打乒乓球的经纪人。 状态空间的重要组成部分是乒乓球的速度，它当然不是离散的。 像我们不久将要看到的那样，可以看到的特工会看到一个图像，该图像是一个很大的连续空间。
+
+我们讨论的 Bellman 方程将要求我们在状态与状态之间转移时保持经验奖励的大矩阵。 但是，当面对连续的状态空间时，这是不可能的。 可能的状态本质上是无限的，我们不能创建无限大小的矩阵。
+
+幸运的是，我们可以使用深度神经网络来近似`Q`函数。 这可能不会让您感到惊讶，因为您正在阅读一本深度学习书，因此您可能猜测深度学习必须在某个地方出现。 就是那个地方
+
+# 深度 Q 网络
+
+**深层 Q 网络**（**DQN**）是近似`Q`函数的神经网络。 他们将状态映射到动作，并学会估计每个动作的`Q`值，如下图所示：
+
+![](img/33ff32cb-b608-417d-afd0-60e35ff0f6d4.png)
+
+我们可以使用深度神经网络作为函数来逼近该矩阵，而不是尝试存储一个无限大的矩阵，而是将奖励从连续状态空间映射到动作。 这样，我们可以将神经网络用作智能体的大脑。 但这一切都导致我们提出一个非常有趣的问题。 我们如何训练这个网络？
+
+# 在线学习
+
+当我们的智能体通过采取行动从一个状态过渡到另一个状态时，它会得到奖励。 智能体可以通过使用每个状态，动作和奖励作为训练输入来在线学习。 在执行每个操作后，该智能体将更新其神经网络权重，并希望在此过程中变得更聪明。 这是在线学习的基本思想。 智能体就像您和我一样，不断学习。
+
+这种朴素的在线学习的缺点有些明显，有两个方面：
+
+*   经历之后，我们就会放弃经验。
+*   我们所经历的经验彼此高度相关，我们将过度适应最新的经验。 有趣的是，这也是人类遭受的苦难，称为可用性偏差。
+
+我们可以通过使用内存和经验重放来解决这些问题。
+
+# 记忆和经验重放
+
+当我们引入有限存储空间的概念时，可以找到针对这两个问题的巧妙解决方案，该存储空间用于存储智能体具有的一组经验。 在每个状态下，我们都可以借此机会记住状态，行动和奖励。 然后，智能体可以通过从内存中采样一个随机小批量并使用该小批量更新 DQN 权重，定期重放这些经验。
+
+这种重放机制使智能体能够以一般的方式从更长远的经验中学习，因为它是从内存中的那些经验中随机采样的，而不是仅使用最近的经验来更新整个网络。
+
+# 利用与探索
+
+通常，我们希望智能体遵循*贪婪*策略，这意味着我们希望智能体采取具有最大`Q`值的操作。 在学习网络的同时，我们不希望它总是贪婪地表现。 如果这样做，它将永远不会探索新的选择，也不会学习新的东西。 因此，我们需要我们的智能体偶尔执行不符合规定的策略。
+
+平衡这种探索的最佳方法是一个持续不断的研究主题，并且已经使用了很长时间。 但是，我们将使用的方法非常简单。 智能体每次执行操作时，我们都会生成一个随机数。 如果该数字等于或小于某个阈值`ε`，则智能体将采取随机措施。 这称为 **ε 贪婪策略**。
+
+智能体第一次启动时，对世界了解不多，应该探索更多。 随着智能体变得越来越聪明，它可能应该减少探索并更多地使用其对环境的了解。 为此，我们只需要在训练时逐渐降低`ε`。 在我们的示例中，我们将每转降低`ε`的衰减率，以使它随每个动作线性减小。
+
+综上所述，我们有一个**线性退火 ε - 贪心 Q 策略**，说起来既简单又有趣。
+
+# DeepMind
+
+至少没有提到 Mnih 等人的论文[《和深度强化学习一起玩 Atari》](https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf)，就不会完成关于强化学习的讨论。 然后是 DeepMind，现在是 Google。 在这篇具有里程碑意义的论文中，作者使用了卷积神经网络来训练深度 Q 网络来玩 Atari 2600 游戏。 他们从 Atari 2600 游戏中获取原始像素输出，将其缩小一点，将其转换为灰度，然后将其用作网络的状态空间输入。 为了使计算机了解屏幕上对象的速度和方向，他们使用了四个图像缓冲区作为深度 Q 网络的输入。
+
+作者能够创建一个智能体，该智能体能够使用完全相同的神经网络架构玩 7 个 Atari 2600 游戏，并且在其中三个游戏上，该智能体要比人类更好。 后来又扩大到 49 场比赛，其中大多数比赛都比人类出色。 本文是迈向通用 AI 的非常重要的一步，它实际上是目前在强化学习中开展的许多研究的基础。
+
+# Keras 强化学习框架
+
+在这一点上，我们应该有足够的背景知识来开始建立深层的 Q 网络，但是仍然需要克服很大的障碍。
+
+实现利用深度强化学习的智能体可能是一个很大的挑战，但是最初由 Matthias Plappert 编写的 Keras-RL 库使其变得更加容易。 我将使用他的库来为本章介绍的智能体提供支持。
+
+当然，如果没有环境，我们的经纪人将不会有太多的乐趣。 我将使用 OpenAI 体育馆，该体育馆提供许多环境，包括状态和奖励函数，我们可以轻松地使用它们来构建供智能体探索的世界。
+
+# 安装 Keras-RL
+
+Keras-RL 可以通过 PIP 安装。 但是，我建议从项目 GitHub 存储库中安装它，因为代码可能会更新一些。 为此，只需克隆存储库并按以下方式运行`python setup.py install`：
+
+```py
+git clone https://github.com/matthiasplappert/keras-rl.git
+cd keras-rl
+python setup.py install
+```
+
+# 安装 OpenAI Gym
+
+OpenAI 体育场可作为点子安装。 我将使用他们的`Box2D`和`atari`环境中的示例。 您可以使用以下代码安装它们：
+
+```py
+pip install gym
+pip install gym[atari]
+pip install gym[Box2D]
+```
+
+# 使用 OpenAI Gym
+
+使用 OpenAI 体育场确实使深度强化学习变得容易。 Keras-RL 将完成大部分艰苦的工作，但是我认为值得单独走遍体育馆，这样您才能了解智能体如何与环境互动。
+
+环境是可以实例化的对象。 例如，要创建`CartPole-v0`环境，我们只需要导入体育场并创建环境，如以下代码所示：
+
+```py
+import gym
+env = gym.make("CartPole-v0")
+```
+
+现在，如果我们的智能体想要在那种环境中行动，它只需要发送一个`action`并返回一个状态和一个`reward`，如下所示：
+
+```py
+next_state, reward, done, info = env.step(action)
+```
+
+该智能体可以通过使用循环与环境进行交互来播放整个剧集。 此循环的每次迭代都对应剧集中的单个步骤。 当智能体从环境接收到“完成”信号时，剧集结束。
+
+# 在 Keras 中建立强化学习智能体
+
+好消息，我们终于可以开始编码了。 在本部分中，我将演示两种名为 **CartPole** 和 **Lunar Lander** 的 Keras-RL 智能体。 我选择这些示例是因为它们不会消耗您的 GPU 和云预算来运行。 它们可以很容易地扩展到 Atari 问题，我在本书的 Git 存储库中也包括了其中之一。 您可以照常在`Chapter12`文件夹中找到所有这些代码。 让我们快速讨论一下这两种环境：
+
+*   **CartPole**：CartPole 环境由平衡在推车上的杆组成。 智能体必须学习如何在立柱下方的推车移动时垂直平衡立柱。 给智能体指定了推车的位置，推车的速度，杆的角度和杆的旋转速度作为输入。 智能体可以在推车的任一侧施加力。 如果电线杆与垂直线的夹角下降超过 15 度，我们的经纪人就此告吹。
+*   **Lunar Lander**：Lunar Lander 的环境更具挑战性。 特工必须将月球着陆器降落在着陆垫上。 月亮的表面会发生变化，着陆器的方位也会在每个剧集发生变化。 该智能体将获得一个八维数组，用于描述每个步骤中的世界状态，并且可以在该步骤中执行四个操作之一。 智能体可以选择不执行任何操作，启动其主引擎，启动其左向引擎或启动其右向引擎。
+
+# CartPole
+
+CartPole 智能体将使用一个相当适度的神经网络，即使没有 GPU，您也应该能够相当迅速地进行训练。 我们将一如既往地从模型架构开始。 然后，我们将定义网络的内存，探索策略，最后训练智能体。
+
+# CartPole 神经网络架构
+
+三个具有 16 个神经元的隐藏层实际上可能足以解决这个简单的问题。 这个模型非常类似于我们在本书开始时使用的一些基本模型。 我们将使用以下代码来定义模型：
+
+```py
+def build_model(state_size, num_actions):
+    input = Input(shape=(1,state_size))
+    x = Flatten()(input)
+    x = Dense(16, activation='relu')(x)
+    x = Dense(16, activation='relu')(x)
+    x = Dense(16, activation='relu')(x)
+    output = Dense(num_actions, activation='linear')(x)
+    model = Model(inputs=input, outputs=output)
+    print(model.summary())
+    return model
+```
+
+输入将是一个`1 x 状态空间`向量，每个可能的动作都有一个输出神经元，它将预测每个步骤该动作的`Q`值。 通过获取输出的`argmax`，我们可以选择`Q`值最高的动作，但是我们不必自己做，因为 Keras-RL 会为我们做。
+
+# 记忆
+
+Keras-RL 为我们提供了一个名为`rl.memory.SequentialMemory`的类，该类提供了快速有效的数据结构，我们可以将智能体的经验存储在以下位置：
+
+```py
+memory = SequentialMemory(limit=50000, window_length=1)
+```
+
+我们需要为此存储对象指定一个最大大小，它是一个超参数。 随着新的经验添加到该内存中并变得完整，旧的经验会被遗忘。
+
+# 策略
+
+Keras-RL 提供了一个称为`rl.policy.EpsGreedyQPolicy`的 ε-贪婪 Q 策略，我们可以用来平衡利用与探索。 当智能体程序向世界前进时，我们可以使用`rl.policy.LinearAnnealedPolicy`来衰减`ε`，如以下代码所示：
+
+```py
+policy = LinearAnnealedPolicy(EpsGreedyQPolicy(), attr='eps', value_max=1., value_min=.1, value_test=.05, nb_steps=10000)
+```
+
+在这里我们要说的是，我们要从`ε`的值 1 开始，并且不小于 0.1，同时测试我们的随机数是否小于 0.05。 我们将步数设置为 .1 到 10,000 之间，Keras-RL 为我们处理衰减数学。
+
+# 智能体
+
+定义了模型，内存和策略后，我们现在就可以创建一个深度 Q 网络智能体，并将这些对象发送给该智能体。 Keras RL 提供了一个称为`rl.agents.dqn.DQNAgent`的智能体类，我们可以为此使用它，如以下代码所示：
+
+```py
+dqn = DQNAgent(model=model, nb_actions=num_actions, memory=memory, nb_steps_warmup=10,
+               target_model_update=1e-2, policy=policy)
+
+dqn.compile(Adam(lr=1e-3), metrics=['mae'])
+```
+
+此时，其中两个参数`target_model_update`和`nb_steps_warmup`可能还不熟悉：
+
+*   `nb_steps_warmup`：确定我们开始进行经验重放之前需要等待的时间，如果您还记得的话，这是我们实际上开始训练网络的时间。 这使我们积累了足够的经验来构建适当的小批量生产。 如果您为此参数选择的值小于批量大小，则 Keras RL 将抽样替换。
+*   `target_model_update`：`Q`函数是递归的，当智能体更新它的网络以获取` Q(s, a)`时，更新也影响其对`Q(s', a)`所​​做的预测。 这会导致网络非常不稳定。 大多数深度 Q 网络实现解决此限制的方法是使用目标网络，该目标网络是未经训练的深度 Q 网络的副本，而经常被新副本替换。 `target_model_update`参数控制这种情况发生的频率。
+
+# 训练
+
+Keras RL 提供了多个类似 Keras 的回调，可以方便地进行模型检查指向和记录。 我将在下面使用这两个回调。 如果您想查看 Keras-RL 提供的更多回调，[可以在以下位置找到它们](https://github.com/matthiasplappert/keras-rl/blob/master/rl/callbacks.py)。 您还可以找到可用于创建自己的 Keras-RL 回调的回调类。
+
+我们将使用以下代码来训练我们的模型：
+
+```py
+def build_callbacks(env_name):
+    checkpoint_weights_filename = 'dqn_' + env_name + '_weights_{step}.h5f'
+    log_filename = 'dqn_{}_log.json'.format(env_name)
+    callbacks = [ModelIntervalCheckpoint(checkpoint_weights_filename, interval=5000)]
+    callbacks += [FileLogger(log_filename, interval=100)]
+    return callbacks
+
+callbacks = build_callbacks(ENV_NAME)
+
+dqn.fit(env, nb_steps=50000,
+ visualize=False,
+ verbose=2,
+ callbacks=callbacks)
+```
+
+一旦构建了智能体的回调，我们就可以使用`.fit()`方法来拟合`DQNAgent`，就像使用 Keras 模型一样。 在此示例中，请注意`visualize`参数。 如果将`visualize`设置为`True`，我们将能够观察智能体与环境的交互。 但是，这大大减慢了训练的速度。
+
+# 结果
+
+在前 250 个剧集之后，我们将看到剧集的总奖励接近 200，剧集步骤的总奖励也接近 200。这意味着智能体已学会平衡购物车上的杆位，直到环境结束最多 200 个步骤 。
+
+观看我们的成功当然很有趣，因此我们可以使用`DQNAgent` `.test()`方法评估某些剧集。 以下代码用于定义此方法：
+
+```py
+dqn.test(env, nb_episodes=5, visualize=True)
+```
+
+在这里，我们设置了`visualize=True`，以便我们可以看到我们的智能体平衡杆位，如下图所示：
+
+![](img/b7cebe8d-49bf-4557-be22-f17d87109762.png)
+
+我们走了，那是一根平衡杆！ 好吧，我知道，我承认平衡手推车上的电线杆并不是那么酷，所以让我们再做一个轻量级的例子。 在此示例中，我们将把月球着陆器降落在月球上，希望它将给您留下深刻的印象。
+
+# Lunar Lander
+
+感谢 Keras-RL，我们用于 Lunar Lander 的智能体几乎与 CartPole 相同，除了实际的模型架构和一些超参数更改外。 Lunar Lander 的环境有八个输入而不是四个输入，我们的智能体现在可以选择四个操作而不是两个。
+
+如果您受到这些示例的启发，并决定尝试构建 Keras-RL 网络，请记住，超参数选择非常非常重要。 对于 Lunar Lander 智能体，对模型架构的最小更改导致我的智能体无法学习环境解决方案。 使网络正确运行是一项艰巨的工作。
+
+# Lunar Lander 网络架构
+
+我的 Lunar Lander 智能体程序的架构仅比 CartPole 的架构稍微复杂一点，对于相同的三个隐藏层仅引入了几个神经元。 我们将使用以下代码来定义模型：
+
+```py
+def build_model(state_size, num_actions):
+    input = Input(shape=(1, state_size))
+    x = Flatten()(input)
+    x = Dense(64, activation='relu')(x)
+    x = Dense(32, activation='relu')(x)
+    x = Dense(16, activation='relu')(x)
+    output = Dense(num_actions, activation='linear')(x)
+    model = Model(inputs=input, outputs=output)
+    print(model.summary())
+    return model
+```
+
+在此问题的情况下，较小的架构会导致智能体学习控制和悬停着陆器，但实际上并未着陆。 当然，由于我们要对每个剧集的每个步骤进行小批量更新，因此我们需要仔细权衡复杂性与运行时和计算需求之间的关系。
+
+# 记忆和策略
+
+CartPole 的内存和策略可以重复使用。 我相信，通过进一步调整**线性退火策略**中的步骤，可能会提高智能体训练的速度，因为该智能体需要采取更多的步骤来进行训练。 但是，为 CartPole 选择的值似乎可以很好地工作，因此这是留给读者的练习。
+
+# 智能体
+
+从以下代码中可以看出，Lunar Lander `DQNAgent`再次相同，只是学习率小得多。
+
+```py
+dqn = DQNAgent(model=model, nb_actions=num_actions, memory=memory, nb_steps_warmup=10, target_model_update=1e-2, policy=policy)
+dqn.compile(Adam(lr=0.00025), metrics=['mae'])
+```
+
+# 训练
+
+在训练该特工时，您会注意到它学会做的第一件事是将着陆器悬停，并避免着陆。 当着陆器最终着陆时，它会收到非常高的奖励，成功着陆时为 +100，坠毁时为 -100。 这种 -100 的奖励是如此之强，以至于智能体一开始宁愿因悬停而受到小额罚款。 我们的探员要花很多时间才能得出这样的提示：良好的着陆总比没有良好着陆好，因为坠机着陆非常糟糕。
+
+可以塑造奖励信号来帮助座席更快地学习，但这超出了本书的范围。 有关更多信息，请查看奖励塑造。
+
+由于这种对坠机着陆的极端负面反馈，网络需要花费相当长的一段时间才能学会着陆。 在这里，我们正在运行五十万个训练步骤，以传达我们的信息。 我们将使用以下代码来训练智能体：
+
+```py
+callbacks = build_callbacks(ENV_NAME)
+
+dqn.fit(env, nb_steps=1000000,
+        visualize=False,
+        verbose=2,
+        callbacks=callbacks)
+```
+
+您可以通过调整参数`gamma`（默认值为 0.99）来进一步改进此示例。 如果您从`Q`函数中调用，此参数会减少或增加`Q`函数中将来奖励的影响。
+
+# 结果
+
+我在 Git 一章中包含了 Lunar Lander 的权重，并创建了一个脚本，该脚本在启用可视化的情况下运行这些权重`dqn_lunar_lander_test.py`。 它加载经过训练的模型权重并运行 10 集。 在大多数情况下，特工能够以惊人的技能和准确率将月球着陆器降落在其着陆板上，如以下屏幕截图所示：
+
+![](img/a22a91ff-1c32-4a61-90bb-3b52d6555309.png)
+
+希望这个例子可以说明，尽管深层 Q 网络并不是*火箭科学*，但仍可用于控制火箭。
+
+# 总结
+
+斯坦福大学只教授强化学习的整个课程。 可能只写了一本关于强化学习的书，实际上已经做了很多次。 我希望本章能够向您展示足够的知识，让您开始解决强化学习问题。
+
+当我解决“月球着陆器”问题时，很容易让我的头脑从玩具问题到利用深层 Q 网络驱动的特工进行实际太空探索而徘徊。 我希望本章为您做同样的事情。
+
+在下一章中，我将向您展示深度神经网络的最后一种用法，我们将研究可以生成新图像，数据点甚至音乐的网络，称为**生成对抗网络**。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/13.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/13.md
new file mode 100644
index 00000000..df8805ef
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/13.md
@@ -0,0 +1,469 @@
+# 十三、生成对抗网络
+
+尽管我在本书中花了很多时间谈论分类或估计的网络，但在本章中，我将向您展示一些具有创建能力的深度神经网络。 **生成对抗网络**（**GAN**）通过两个内部深层网络之间的内部竞争来学习如何做到这一点，我们将在下面讨论。 在**深度卷积生成对抗网络**（**DCGAN**）的情况下，这是我将在本章中重点介绍的 GAN 类型，该网络将学习创建类似于训练数据集的图像。
+
+我们将在本章介绍以下主题：
+
+*   GAN 概述
+*   深度卷积 GAN 架构
+*   GAN 如何失败
+*   GAN 的安全选择
+*   使用 Keras GAN 生成 MNIST 图像
+*   使用 Keras GAN 生成 CIFAR-10 图像
+
+# GAN 概述
+
+生成对抗网络都是关于生成新内容的。 GAN 能够学习一些分布并从该分布创建新样本。 该样本可能只是我们训练数据中未出现的直线上的新点，但也可能是非常复杂的数据集中的新点。 GAN 已用于生成新的音乐，声音和图像。 根据 Yann LeCun 所说，[《对抗训练是切片以来最酷的事情》](https://www.quora.com/session/Yann-LeCun/1)。 我不确定切片面包是否特别酷，但是 Yann LeCun 是​​一个非常酷的家伙，所以我会信守诺言。 无论如何，GAN 都非常受欢迎，虽然它可能不如我们在业务环境中涵盖的其他一些主题那么实用，但在我们对深度学习技术的调查中值得考虑。
+
+2014 年，伊恩·古德费洛（Ian Goodfellow）等人。 撰写了一篇名为[**生成对抗网络**](https://arxiv.org/pdf/1406.2661.pdf)的论文，提出了使用两个深度网络进行对抗训练的框架，每个都尝试打败对方。 该框架由两个独立的网络组成：判别器和生成器。
+
+判别器正在查看来自训练集的真实数据和来自生成器的假数据。 它的工作是将每一个作为传入数据实例分类为真实还是伪造。
+
+生成器试图使判别器误以为所生成的数据是真实的。
+
+生成器和判别器被锁定在一个游戏中，它们各自试图超越彼此。 这种竞争驱使每个网络不断改进，直到最终判别器将生成器的输出与训练集中的数据区分开。 当生成器和判别器都正确配置时，它们将达到纳什均衡，在纳什均衡中，两者都无法找到优势。
+
+# 深度卷积 GAN 架构
+
+关于 GAN 的论文很多，每篇都提出了新的新颖架构和调整。 但是，它们中的大多数至少在某种程度上基于**深度卷积 GAN**（**DCGAN**）。 在本章的其余部分中，我们将重点介绍这种模型，因为当您采用此处未介绍的新的令人兴奋的 GAN 架构（例如**条件 GAN**（**CGAN**），Stack GAN，InfoGAN 或 Wasserstein GAN），或者可能还有一些其他的新变种，您可能会选择接下来看看。
+
+DCGAN 由 Alex Radford，Luke Metz 和 Soumith Chintala 在论文[《深度卷积生成对抗网络》](https://arxiv.org/pdf/1511.06434.pdf)中提出。
+
+接下来让我们看一下 DCGAN 的总体架构。
+
+# 对抗训练架构
+
+GAN 的整体架构如下图所示。 生成器和判别器分别是单独的深度神经网络，为了易于使用，将它们简化为黑匣子。 我们将很快介绍它们的各个架构，但首先，我想着重介绍它们的交互方式：
+
+![](img/370d895f-0973-49cf-8e8a-a9746d082883.png)
+
+给生成器一个随机噪声向量（`z`），并创建一个输出`G(z)`（对于 DCGAN，这是一个图像），希望它能欺骗判别器。
+
+判别器既得到实际训练数据（`X`），又得到生成器输出`G(z)`。 要做的是确定其输入实际上是真实的概率`P(X)`。
+
+判别器和生成器都在栈中一起训练。 随着一个方面的改进，另一个方面也有所改进，直到希望生成器产生如此好的输出，从而使判别器不再能够识别该输出与训练数据之间的差异。
+
+当然，在您准备好构建自己的 GAN 之前，我们还要介绍更多细节。 接下来，让我们更深入地研究生成器。
+
+# 生成器架构
+
+在此示例中，我们使用适合于生成`28 x 28`灰度图像的层大小，这正是我们稍后在 MNIST 示例中将要执行的操作。 如果您以前没有使用过生成器，那么生成器的算法可能会有些棘手，因此我们将在遍历每一层时进行介绍。 下图显示了架构：
+
+![](img/6e7de048-2461-4be3-a702-f4d0a87d3c43.png)
+
+生成器的输入只是`100 x 1`的随机向量，我们将其称为噪声向量。 当此噪声向量是从正态分布生成时，GAN 往往工作得最好。
+
+网络的第一层是密集的并且完全连接。 它为我们提供了一种建立线性代数的方法，以便最终得到正确的输出形状。 对于每个卷积块，我们最终将第一轴和第二轴（最终将成为图像的高度和宽度的行和列）加倍，而通道数逐渐缩小到 1。我们最终需要输出的高度和宽度为 28。因此，我们将需要从`7 x 7 x 128`张量开始，以便它可以移动到`14 x 14`，然后最终是`28 x 28`。 为此，我们将密集层的大小设置为`128 x 7 x 7`神经元或 6,272 单元。 这使我们可以将密集层的输出重塑为`7 x 7 x 128`。 如果现在看来这还不算什么，请不用担心，在编写代码后，这才有意义。
+
+在完全连接的层之后，事情变得更加简单。 就像我们一直一样，我们正在使用卷积层。 但是，这次我们反向使用它们。 我们不再使用最大池来缩减样本量。 取而代之的是，我们进行上采样，在学习视觉特征时使用卷积来构建我们的网络，并最终输出适当形状的张量。
+
+通常，生成器中最后一层的激活是双曲正切，并且训练图像矩阵中的元素被归一化为 -1 和 1 之间。这是我将在整章中提到的众多 GAN 黑魔法之一。 研究人员已经发现了一些经验证明可以帮助构建稳定的 GAN 的黑魔法，Soumith Chintala 可以在此 Git 上找到大多数黑客，[而 Soumith Chintala 也是 DCGAN 原始论文的作者之一](https://github.com/soumith/ganhacks)。 深度学习研究的世界无疑是一个很小的领域。
+
+# 判别器架构
+
+判别器的架构更像我们在前几章中已经看到的。 它实际上只是一个典型的图像分类器，如下图所示。 输出是 Sigmoid 的，因为判别器将预测输入图像是真实图像集的成员的概率。 判别器正在解决二分类问题：
+
+![](img/68c3560e-2207-409d-94b3-aebcb4b7d247.png)
+
+现在，我们已经介绍了 DCGAN 的架构以及它的各个层次，下面让我们看一下如何训练框架。
+
+# DCGAN
+
+DCGAN 框架是使用迷你批量来进行训练的，这与我之前在本书中对网络进行训练的方式相同。 但是，稍后在构建代码时，您会注意到我们正在构建一个训练循环，该循环明确控制每个更新批量的情况，而不仅仅是调用`models.fit()`方法并依靠 Keras 为我们处理它。 我这样做是因为 GAN 训练需要多个模型来更新同一批次中的权重，所以它比我们以前所做的单个参数更新要稍微复杂一些。
+
+对 DCGAN 进行训练的过程分为两步，每批次进行一次。
+
+# 步骤 1 – 训练判别器
+
+批量训练 DCGAN 的第一步是在实际数据和生成的数据上训练判别器。 赋予真实数据的标签显然是`1`，而用于假数据的标签则是`0`。
+
+# 步骤 2 – 训练栈
+
+判别器更新权重后，我们将判别器和生成器一起训练为一个模型。 这样做时，我们将使判别器的权重不可训练，将其冻结在适当的位置，但仍允许判别器将梯度反向传播到生成器，以便生成器可以更新其权重。
+
+对于训练过程中的这一步，我们将使用噪声向量作为输入，这将导致生成器生成图像。 判别器将显示该图像，并要求预测该图像是否真实。 下图说明了此过程：
+
+![](img/c8cc7ae9-1801-46d0-af96-142955d6a9a2.png)
+
+判别器将提出一些预测，我们可以称之为`y_hat`。 此栈的`loss`函数将是二元交叉熵，并且我们将`loss`函数的标签传递为 1，我们可以考虑`y`。 如您在本书前面所提到的， `y`和`y_hat`之间的`loss`转换为梯度，然后通过判别器传给生成器。 这将更新生成器权重，使它可以从判别者对问题空间的了解中受益，以便它可以学习创建更逼真的生成图像。
+
+然后重复这两个步骤，直到生成器能够创建与训练集中的数据相似的数据，使得判别器无法再将两个数据集区分开，这成为了一个猜谜游戏。 判别器。 此时，生成器将不再能够改进。 当我们找到纳什均衡时，就对网络进行了训练。
+
+# GAN 如何失败
+
+至少可以说，训练 GAN 是一件棘手的事情。 训练 GAN 失败的方法有很多种。 实际上，在撰写本章时，我发现自己大大扩展了亵渎向量的词汇量，同时还花了一点时间在云 GPU 上！ 在本章稍后向您展示两个可用的 GAN 之前，让我们考虑可能发生的故障以及如何修复这些问题。
+
+# 稳定性
+
+训练 GAN 需要在判别器和生成器之间进行仔细的平衡。 判别器和生成器都在争夺深度网络优势。 另一方面，他们也需要彼此学习和成长。 为了使它起作用，任何一个都不能压倒另一个。
+
+在不稳定的 GAN 中，判别器可能会使生成器过载，并绝对确定生成器是假的。 损失为零，并且没有可用于发送到生成器的梯度，因此它不再可以改善。 网络游戏结束。 解决此问题的最佳方法是降低判别器的学习率。 您也可以尝试减少整个判别器架构中神经元的数量。 但是，您可能会在训练过程的后期错过这些神经元。 最终，调整网络架构和超参数是避免这种情况的最佳方法。
+
+当然，这可能是相反的方式，如模式崩溃的情况。
+
+# 模式崩溃
+
+**模式崩溃**是 GAN 失败的类似且相关的方式。 在模式崩溃中，生成器在多模式分布中学习一种模式，并选择始终使用该方法来利用判别器。 如果您的训练集中有鱼和小猫，并且您的生成器仅生成奇怪的小猫而没有鱼，则您经历了模式崩溃。 在这种情况下，增加判别器的威力可能会有所帮助。
+
+# GAN 的安全选择
+
+我之前已经提到过 Soumith Chintala 的 [GAN 黑魔法 Git](https://github.com/soumith/ganhacks)，当您试图使 GAN 稳定时，这是一个很好的起点。 既然我们已经讨论了训练稳定的 GAN 会有多么困难，让我们来谈谈一些安全的选择，这些选择可能会帮助您成功找到自己的地方。 尽管有很多技巧，但以下是本章中尚未涵盖的我的主要建议：
+
+*   **批量规范**：使用批量规范化时，请为真实数据和伪数据构造不同的微型批量，并分别进行更新。
+*   **泄漏的 ReLU**：泄漏的 ReLU 是 ReLU 激活函数的变异。 回想一下 ReLU 函数是`f(x) = max(0, x)`。
+
+但是，泄漏的 ReLU 可以表示为：
+
+![](img/24a66098-c4cd-49c4-8322-9e65ae01d963.png)
+
+当设备不工作时，泄漏的 ReLU 允许非常小的非零梯度。 这可以消除消失的梯度，当我们像在判别器和生成器的组合中那样将多个层堆叠在一起时，这总是一个问题。
+
+*   **在生成器中使用丢弃**：这将产生噪声并防止模式崩溃。
+*   **使用软标签**：对于真实示例，请使用介于 0.7 和 1 之间的标签，对于伪示例，请使用介于 0 和 0.3 之间的标签。 这种噪声有助于保持信息从判别器流向生成器。
+
+在本章的其他地方，我们还将介绍许多其他的 GAN 黑魔法。 但是，我认为在成功实现 GAN 时，这几项技巧是最重要的。
+
+# 使用 Keras GAN 生成 MNIST 图像
+
+我们之前曾与 MNIST 合作，但是这次我们将使用 GAN 生成新的 MNIST 图像。 训练 GAN 可能需要很长时间。 但是，此问题很小，可以在几个小时内在大多数笔记本电脑上运行，这是一个很好的例子。 稍后，我们将把这个例子扩展到 CIFAR-10 图像。
+
+我在这里使用的网络架构已被许多人发现并进行了优化，包括 DCGAN 论文的作者以及像 ErikLinder-Norén 这样的人，他是 GAN 实现的优秀集合，称为 [**Keras GAN**](https://github.com/eriklindernoren/Keras-GAN) 作为我在此处使用的代码的基础。 如果您想知道我是如何在这里使用的架构选择的，这些就是我试图站在肩膀上的巨人。
+
+# 加载数据集
+
+`MNIST`数据集由 60,000 个手绘数字（从 0 到 9）组成。Keras 为我们提供了一个内置加载程序，可将其分为 50,000 个训练图像和 10,000 个测试图像。 我们将使用以下代码加载数据集：
+
+```py
+from keras.datasets import mnist
+
+def load_data():
+    (X_train, _), (_, _) = mnist.load_data()
+    X_train = (X_train.astype(np.float32) - 127.5) / 127.5
+    X_train = np.expand_dims(X_train, axis=3)
+    return X_train
+```
+
+您可能已经注意到，我没有返回任何标签或测试数据集。 我将只使用训练数据集。 不需要标签，因为我要使用的唯一标签是`0`代表假货，`1`代表真货。 这些是真实的图像，因此将在判别器上将它们全部分配为标签 1。
+
+# 创建生成器
+
+生成器使用了一些新的层，我们将在本节中讨论这些层。 首先，有机会略读以下代码：
+
+```py
+def build_generator(noise_shape=(100,)):
+    input = Input(noise_shape)
+    x = Dense(128 * 7 * 7, activation="relu")(input)
+    x = Reshape((7, 7, 128))(x)
+    x = BatchNormalization(momentum=0.8)(x)
+    x = UpSampling2D()(x)
+    x = Conv2D(128, kernel_size=3, padding="same")(x)
+    x = Activation("relu")(x)
+    x = BatchNormalization(momentum=0.8)(x)
+    x = UpSampling2D()(x)
+    x = Conv2D(64, kernel_size=3, padding="same")(x)
+    x = Activation("relu")(x)
+    x = BatchNormalization(momentum=0.8)(x)
+    x = Conv2D(1, kernel_size=3, padding="same")(x)
+    out = Activation("tanh")(x)
+    model = Model(input, out)
+    print("-- Generator -- ")
+    model.summary()
+    return model
+```
+
+我们以前没有使用过`UpSampling2D`层。 该层将增加输入张量的行和列，从而使通道保持不变。 它通过重复输入张量中的值来实现。 默认情况下，它将使输入加倍。 如果给`UpSampling2D`层一个`7 x 7 x 128`输入，它将给我们一个`14 x 14 x 128`输出。
+
+通常，当我们构建一个 CNN 时，我们从一个非常高和宽的图像开始，并使用卷积层来获得一个非常深但又不高又不宽的张量。 在这里，我将相反。 我将使用一个密集层并进行重塑，以`7 x 7 x 128`张量开始，然后将其加倍两次后，剩下`28 x 28`张量。 由于我需要灰度图像，因此可以使用具有单个单元的卷积层来获得`28 x 28 x 1`输出。
+
+这种生成器运算法则有点令人反感，乍一看似乎很尴尬，但是经过几个小时的痛苦之后，您就会掌握它了！
+
+# 创建判别器
+
+判别符实际上在很大程度上与我之前谈到的任何其他 CNN 相同。 当然，我们应该谈论一些新事物。 我们将使用以下代码来构建判别器：
+
+```py
+def build_discriminator(img_shape):
+    input = Input(img_shape)
+    x =Conv2D(32, kernel_size=3, strides=2, padding="same")(input)
+    x = LeakyReLU(alpha=0.2)(x)
+    x = Dropout(0.25)(x)
+    x = Conv2D(64, kernel_size=3, strides=2, padding="same")(x)
+    x = ZeroPadding2D(padding=((0, 1), (0, 1)))(x)
+    x = (LeakyReLU(alpha=0.2))(x)
+    x = Dropout(0.25)(x)
+    x = BatchNormalization(momentum=0.8)(x)
+    x = Conv2D(128, kernel_size=3, strides=2, padding="same")(x)
+    x = LeakyReLU(alpha=0.2)(x)
+    x = Dropout(0.25)(x)
+    x = BatchNormalization(momentum=0.8)(x)
+    x = Conv2D(256, kernel_size=3, strides=1, padding="same")(x)
+    x = LeakyReLU(alpha=0.2)(x)
+    x = Dropout(0.25)(x)
+    x = Flatten()(x)
+    out = Dense(1, activation='sigmoid')(x)
+
+    model = Model(input, out)
+    print("-- Discriminator -- ")
+    model.summary()
+    return model
+```
+
+首先，您可能会注意到形状奇怪的`zeroPadding2D()`层。 第二次卷积后，我们的张量从`28 x 28 x 3`变为`7 x 7 x 64`。 这一层使我们回到偶数，在行和列的一侧都加零，这样我们的张量现在为`8 x 8 x 64`。
+
+更不寻常的是同时使用批量规范化和丢弃法。 通常，这两层不能一起使用。 但是，就 GAN 而言，它们似乎确实使网络受益。
+
+# 创建栈式模型
+
+现在我们已经组装了`generator`和`discriminator`，我们需要组装第三个模型，这是两个模型的栈，在`discriminator`损失的情况下，我们可以用来训练生成器。
+
+为此，我们可以创建一个新模型，这次使用以前的模型作为新模型中的层，如以下代码所示：
+
+```py
+discriminator = build_discriminator(img_shape=(28, 28, 1))
+generator = build_generator()
+
+z = Input(shape=(100,))
+img = generator(z)
+discriminator.trainable = False
+real = discriminator(img)
+combined = Model(z, real)
+```
+
+注意，在建立模型之前，我们将判别器的训练属性设置为`False`。 这意味着对于该模型，在反向传播期间，我们将不会更新判别器的权重。 正如我们在“栈式训练”部分中提到的，我们将冻结这些权重，仅将生成器的权重与栈一起移动。 判别器将单独训练。
+
+现在，所有模型都已构建，需要对其进行编译，如以下代码所示：
+
+```py
+gen_optimizer = Adam(lr=0.0002, beta_1=0.5)
+disc_optimizer = Adam(lr=0.0002, beta_1=0.5)
+
+discriminator.compile(loss='binary_crossentropy',
+                           optimizer=disc_optimizer,
+                           metrics=['accuracy'])
+
+generator.compile(loss='binary_crossentropy', optimizer=gen_optimizer)
+
+combined.compile(loss='binary_crossentropy', optimizer=gen_optimizer)
+
+```
+
+如果您会注意到，我们将创建两个自定义 **Adam 优化器**。 这是因为很多时候，我们只想更改判别器或生成器的学习率，从而减慢一个或另一个的学习速度，以至于我们得到一个稳定的 GAN，而后者却无法胜任另一个。 您还会注意到我正在使用`beta_1 = 0.5`。 这是我发扬光大并取得成功的 DCGAN 原始论文的推荐。 从原始 DCGAN 论文中可以发现，0.0002 的学习率也是一个很好的起点。
+
+# 训练循环
+
+以前，我们曾很奢侈地在模型上调用`.fit()`，让 Keras 处理将数据分成小批和为我们训练的痛苦过程。
+
+不幸的是，因为我们需要为一个批量器对判别器和堆叠模型一起执行单独的更新，所以我们将不得不用老式的方式来做一些循环。 这就是过去一直做的事情，因此虽然可能需要做更多的工作，但它的确使我感到怀旧。 以下代码说明了训练技术：
+
+```py
+num_examples = X_train.shape[0]
+num_batches = int(num_examples / float(batch_size))
+half_batch = int(batch_size / 2)
+
+for epoch in range(epochs + 1):
+  for batch in range(num_batches):
+      # noise images for the batch
+      noise = np.random.normal(0, 1, (half_batch, 100))
+      fake_images = generator.predict(noise)
+      fake_labels = np.zeros((half_batch, 1))
+      # real images for batch
+      idx = np.random.randint(0, X_train.shape[0], half_batch)
+      real_images = X_train[idx]
+      real_labels = np.ones((half_batch, 1))
+      # Train the discriminator (real classified as ones and 
+      generated as zeros)
+      d_loss_real = discriminator.train_on_batch(real_images, 
+        real_labels)
+      d_loss_fake = discriminator.train_on_batch(fake_images, 
+        fake_labels)
+      d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)
+      noise = np.random.normal(0, 1, (batch_size, 100))
+      # Train the generator
+      g_loss = combined.train_on_batch(noise, np.ones((batch_size, 1)))
+        # Plot the progress
+      print("Epoch %d Batch %d/%d [D loss: %f, acc.: %.2f%%] [G loss: 
+        %f]" %
+      (epoch,batch, num_batches, d_loss[0], 100 * d_loss[1], g_loss))
+        if batch % 50 == 0:
+            save_imgs(generator, epoch, batch)
+```
+
+可以肯定，这里发生了很多事情。 和以前一样，让我们​​逐个细分。 首先，让我们看一下生成噪声向量的代码：
+
+```py
+        noise = np.random.normal(0, 1, (half_batch, 100))
+        fake_images = generator.predict(noise)
+        fake_labels = np.zeros((half_batch, 1))
+```
+
+这段代码生成了一个噪声向量矩阵（我们之前将其称为`z`）并将其发送到生成器。 它返回了一组生成的图像，我称之为伪图像。 我们将使用它们来训练判别器，因此我们要使用的标签为 0，表示这些实际上是生成的图像。
+
+注意，这里的形状是`half_batch x 28 x 28 x 1`。 `half_batch`正是您所想的。 我们将创建一半的生成图像，因为另一半将是真实数据，我们将在下一步进行组装。 要获取真实图像，我们将在`X_train`上生成一组随机索引，并将`X_train`的切片用作真实图像，如以下代码所示：
+
+```py
+idx = np.random.randint(0, X_train.shape[0], half_batch)
+real_images = X_train[idx]
+real_labels = np.ones((half_batch, 1))
+```
+
+是的，在这种情况下，我们正在抽样更换。 它确实可以解决，但可能不是实现小批量训练的最佳方法。 但是，它可能是最简单，最常见的。
+
+由于我们正在使用这些图像来训练判别器，并且由于它们是真实图像，因此我们将它们分配为`1`作为标签，而不是`0`。 现在我们已经组装了判别器训练集，我们将更新判别器。 还要注意，我们没有使用我们之前讨论的软标签。 那是因为我想让事情尽可能地容易理解。 幸运的是，在这种情况下，网络不需要它们。 我们将使用以下代码来训练判别器：
+
+```py
+# Train the discriminator (real classified as ones and generated as zeros)
+d_loss_real = discriminator.train_on_batch(real_images, real_labels)
+d_loss_fake = discriminator.train_on_batch(fake_images, fake_labels)
+d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)
+```
+
+请注意，这里我使用的是判别符的`train_on_batch()`方法。 这是我第一次在本书中使用此方法。 `train_on_batch()`方法正好执行一轮正向和反向传播。 每次我们调用它时，它都会从模型的先前状态更新一次模型。
+
+另请注意，我正在分别对真实图像和伪图像进行更新。 这是我先前在“生成器架构”部分中引用的 GAN 黑魔法 Git 上给出的建议。 尤其是在训练的早期阶段，当真实图像和伪图像来自完全不同的分布时，如果我们将两组数据放在同一更新中，则批量归一化将导致训练问题。
+
+现在，判别器已经更新，是时候更新生成器了。 这是通过更新组合栈间接完成的，如以下代码所示：
+
+```py
+noise = np.random.normal(0, 1, (batch_size, 100))
+g_loss = combined.train_on_batch(noise, np.ones((batch_size, 1)))
+```
+
+为了更新组合模型，我们创建了一个新的噪声矩阵，这次它将与整个批次一样大。 我们将其用作栈的输入，这将使生成器生成图像，并使用判别器评估该图像。 最后，我们将使用`1`标签，因为我们想在实际图像和生成的图像之间反向传播误差。
+
+最后，训练循环报告`epoch`/`batch`处的判别器和生成器损失，然后每`epoch`中的每 50 批，我们将使用`save_imgs`生成示例图像并将其保存到磁盘，如以下代码所示：
+
+```py
+print("Epoch %d Batch %d/%d [D loss: %f, acc.: %.2f%%] [G loss: %f]" %
+      (epoch,batch, num_batches, d_loss[0], 100 * d_loss[1], g_loss))
+
+if batch % 50 == 0:
+    save_imgs(generator, epoch, batch)
+```
+
+`save_imgs`函数使用生成器在运行时创建图像，因此我们可以看到工作的成果。 我们将使用以下代码来定义`save_imgs`：
+
+```py
+def save_imgs(generator, epoch, batch):
+    r, c = 5, 5
+    noise = np.random.normal(0, 1, (r * c, 100))
+    gen_imgs = generator.predict(noise)
+    gen_imgs = 0.5 * gen_imgs + 0.5
+
+    fig, axs = plt.subplots(r, c)
+    cnt = 0
+    for i in range(r):
+for j in range(c):
+            axs[i, j].imshow(gen_imgs[cnt, :, :, 0], cmap='gray')
+            axs[i, j].axis('off')
+            cnt += 1
+    fig.savefig("images/mnist_%d_%d.png" % (epoch, batch))
+    plt.close()
+```
+
+它通过创建噪声矩阵并检索图像矩阵来仅使用生成器。 然后，使用`matplotlib.pyplot`将这些图像保存到`5 x 5`网格中的磁盘上。
+
+# 模型评估
+
+当您构建深层神经网络来创建图像时，好坏有点主观。 让我们看一下训练过程的一些示例，以便您可以亲自了解 GAN 如何开始学习如何生成 MNIST。
+
+这是第一个周期的第一批网络。 显然，此时生成器对生成 MNIST 并不了解。 只是噪音，如下图所示：
+
+![](img/100f93bf-4aee-47f2-9b5f-542ffd5ac42a.png)
+
+但是只有 50 个批次，正在发生一些事情，如下面的图像所示：
+
+![](img/6ccd70b9-a564-4bc3-9d65-99301b571751.png)
+
+在 200 个批次的周期 0 之后，我们几乎可以看到数字，如下图所示：
+
+![](img/69d0a788-d965-4e70-a6f5-e8589b810c9f.png)
+
+一个完整的周期后，这是我们的生成器。 我认为这些生成的数字看起来不错，而且我可以看到判别符可能会被它们欺骗。 在这一点上，我们可能会继续改善一点，但是随着计算机生成一些令人信服的 MNIST 数字，我们的 GAN 似乎已经发挥了作用，如下图所示：
+
+![](img/3b179ae1-40df-4859-8849-01c5011588f7.png)
+
+尽管大多数代码是相同的，但在结束本章之前，让我们再看一个使用彩色图像的示例。
+
+# 使用 Keras GAN 生成 CIFAR-10 图像
+
+虽然网络架构在很大程度上保持不变，但我认为有必要向您展示一个使用彩色图像的示例，并在 Git 中提供示例，以便在想要将 GAN 应用于您的 GAN 时有一些起点。 自己的数据。
+
+`CIFAR-10`是一个著名的数据集，包含 60,000 张`32 x 32 x 3` RGB 彩色图像，分布在 10 个类别中。 这些类别是飞机，汽车，鸟类，猫，鹿，狗，青蛙，马，船和卡车。 希望以后看到生成的图像时，您可能会看到一些可以想象的东西，就像那些对象。
+
+# 加载 CIFAR-10
+
+加载数据集几乎完全相同，因为 Keras 还使用以下代码为`CIFAR-10`提供了一个加载器：
+
+```py
+from keras.datasets import cifar10
+def load_data():
+ (X_train, y_train), (X_test, y_test) = cifar10.load_data()
+ X_train = (X_train.astype(np.float32) - 127.5) / 127.5
+ return X_train
+```
+
+# 创建生成器
+
+生成器需要产生`32 x 32 x 3`图像。 这需要对我们的网络架构进行两项细微更改，您可以在此处看到它们：
+
+```py
+input = Input(noise_shape)
+x = Dense(128 * 8 * 8, activation="relu")(input)
+x = Reshape((8, 8, 128))(x)
+x = BatchNormalization(momentum=0.8)(x)
+x = UpSampling2D()(x)
+x = Conv2D(128, kernel_size=3, padding="same")(x)
+x = Activation("relu")(x)
+x = BatchNormalization(momentum=0.8)(x)
+x = UpSampling2D()(x)
+x = Conv2D(64, kernel_size=3, padding="same")(x)
+x = Activation("relu")(x)
+x = BatchNormalization(momentum=0.8)(x)
+x = Conv2D(3, kernel_size=3, padding="same")(x)
+out = Activation("tanh")(x)
+model = Model(input, out)
+```
+
+由于我们需要在 32 处结束，并且我们将两次上采样，因此我们应该从 8 开始。这可以通过将密集层及其相应的重塑层从`128 * 7 * 7`更改为`128 * 8 * 8`来轻松实现。
+
+由于我们的图像现在包含三个通道，因此最后的卷积层也需要包含三个通道，而不是一个。 这里的所有都是它的; 我们现在可以生成彩色图像！
+
+# 创建判别器
+
+判别符几乎完全不变。 输入层需要从`28 x 28 x 1`更改为`32 x 32 x 3`。 另外`ZeroPadding2D`可以毫无问题地删除，因为没有它的层算术就可以工作。
+
+# 训练循环
+
+训练循环保持不变，区别器构建调用除外，该调用需要与 CIFAR-10 图像大小相对应的新尺寸，如以下代码所示：
+
+```py
+discriminator = build_discriminator(img_shape=(32, 32, 3))
+```
+
+当从一个数据集移动到另一个数据集时，通常会需要调整我们的学习率或网络架构。 幸运的是，在此示例中并非如此。
+
+# 模型评估
+
+`CIFAR-10`数据集当然更加复杂，并且网络具有更多的参数。 因此，事情将需要更长的时间。 这是在周期 0（批次 300）中我们的图像的样子：
+
+![](img/09db5d5d-b9fb-4d13-a89e-6f83e4c55da2.png)
+
+我可能开始看到一些边缘，但是看起来并不像什么。 但是，如果我们等待几个周期，我们显然处在松鼠和怪异的鱼类地区。 我们可以看到一些东西正在成形，只是有些模糊，如下图所示：
+
+![](img/72ffa712-8e86-49e4-8dc5-46daebb79db0.png)
+
+下图显示了 12 个周期后的生成器：
+
+![](img/7a6bfedb-d613-4204-badf-c62e7e5f00f4.png)
+
+我看到分辨率很低的鸟，鱼，甚至还有飞机和卡车。 当然，我们还有很长的路要走，但是我们的网络已经学会了创建图像，这非常令人兴奋。
+
+# 总结
+
+在本章中，我们研究了 GAN 以及如何将其用于生成新图像。 我们学习了一些很好地构建 GAN 的规则，甚至学习了模拟 MNIST 和 CIFAR-10 图像。 毫无疑问，您可能已经在媒体上看到了一些由 GANs 制作的惊人图像。 在阅读了本章并完成了这些示例之后，您将拥有执行相同操作的工具。 我希望您可以采纳这些想法并加以调整。 剩下的唯一限制是您自己的想象力，数据和 GPU 预算。
+
+在这本书中，我们涵盖了深度学习的许多应用，从简单的回归到生成对抗网络。 我对这本书的最大希望是，它可以帮助您实际使用深度学习技术，而其中的许多技术已经存在于学术界和研究领域，而这超出了实践数据科学家或机器学习工程师的能力。 在此过程中，我希望我能就如何构建更好的深度神经网络以及何时使用深度网络（而不是更传统的模型）提供一些建议。 如果您在这 13 章中一直跟着我，请多多关照。
+
+“我们都是手工艺品的学徒，没人能成为大师。”
+
+——欧内斯特·海明威
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/README.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/README.md
new file mode 100644
index 00000000..07795f3d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/README.md
@@ -0,0 +1,35 @@
+# 深度学习快速参考
+
+> 原文：[Deep Learning Quick Reference](https://b-ok.global/book/3628993/b5374b)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/SUMMARY.md
new file mode 100644
index 00000000..67bf2dee
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/SUMMARY.md
@@ -0,0 +1,15 @@
++   [深度学习快速参考](README.md)
++   [零、前言](00.md)
++   [一、深度学习的基础](01.md)
++   [二、使用深度学习解决回归问题](02.md)
++   [三、使用 TensorBoard 监控网络训练](03.md)
++   [四、使用深度学习解决二分类问题](04.md)
++   [五、使用 Keras 解决多分类问题](05.md)
++   [六、超参数优化](06.md)
++   [七、从头开始训练 CNN](07.md)
++   [八、将预训练的 CNN 用于迁移学习](08.md)
++   [九、从头开始训练 RNN](09.md)
++   [十、使用词嵌入从头开始训练 LSTM](10.md)
++   [十一、训练 Seq2Seq 模型](11.md)
++   [十二、深度强化学习](12.md)
++   [十三、生成对抗网络](13.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/cover.jpg
new file mode 100644
index 00000000..919d2dd8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/00a202fe-1100-4d7e-b183-32efc3c0dd7a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/00a202fe-1100-4d7e-b183-32efc3c0dd7a.png
new file mode 100644
index 00000000..e6441598
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/00a202fe-1100-4d7e-b183-32efc3c0dd7a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/020a3a99-27f2-41b0-b04f-7cb86e562db5.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/020a3a99-27f2-41b0-b04f-7cb86e562db5.jpg
new file mode 100644
index 00000000..b81c7e04
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/020a3a99-27f2-41b0-b04f-7cb86e562db5.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/02b74074-e384-4fa3-bccd-c0262c867f5b.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/02b74074-e384-4fa3-bccd-c0262c867f5b.png
new file mode 100644
index 00000000..6d4559d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/02b74074-e384-4fa3-bccd-c0262c867f5b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/05cdcd9e-d909-4bc0-a8ad-8f082ba859d2.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/05cdcd9e-d909-4bc0-a8ad-8f082ba859d2.png
new file mode 100644
index 00000000..147162d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/05cdcd9e-d909-4bc0-a8ad-8f082ba859d2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/08578297-d3d2-43dd-9cf8-7481a158df77.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/08578297-d3d2-43dd-9cf8-7481a158df77.png
new file mode 100644
index 00000000..0fbbab23
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/08578297-d3d2-43dd-9cf8-7481a158df77.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/08f40ad9-ae1d-4118-a408-29c9b1e24cc4.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/08f40ad9-ae1d-4118-a408-29c9b1e24cc4.png
new file mode 100644
index 00000000..84e94e4f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/08f40ad9-ae1d-4118-a408-29c9b1e24cc4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0969789c-bcfd-4c4a-b526-8e05a45d6ab1.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0969789c-bcfd-4c4a-b526-8e05a45d6ab1.png
new file mode 100644
index 00000000..0cef8fcb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0969789c-bcfd-4c4a-b526-8e05a45d6ab1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/09ae8c4e-fc27-4814-a227-503b89567814.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/09ae8c4e-fc27-4814-a227-503b89567814.png
new file mode 100644
index 00000000..e6441598
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/09ae8c4e-fc27-4814-a227-503b89567814.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/09db5d5d-b9fb-4d13-a89e-6f83e4c55da2.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/09db5d5d-b9fb-4d13-a89e-6f83e4c55da2.png
new file mode 100644
index 00000000..6ebf1b1e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/09db5d5d-b9fb-4d13-a89e-6f83e4c55da2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0a5218b1-b99c-496a-bf84-f9d97c188a58.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0a5218b1-b99c-496a-bf84-f9d97c188a58.png
new file mode 100644
index 00000000..3e36fcf8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0a5218b1-b99c-496a-bf84-f9d97c188a58.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0b843338-e484-47d0-9bec-6b9db1209675.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0b843338-e484-47d0-9bec-6b9db1209675.png
new file mode 100644
index 00000000..ab5e8ee0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0b843338-e484-47d0-9bec-6b9db1209675.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0bf64549-9cd7-4e9e-9941-71b0a980e034.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0bf64549-9cd7-4e9e-9941-71b0a980e034.png
new file mode 100644
index 00000000..01b97492
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/0bf64549-9cd7-4e9e-9941-71b0a980e034.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/100f93bf-4aee-47f2-9b5f-542ffd5ac42a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/100f93bf-4aee-47f2-9b5f-542ffd5ac42a.png
new file mode 100644
index 00000000..d7e0770c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/100f93bf-4aee-47f2-9b5f-542ffd5ac42a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/13362c21-ee4d-48aa-9406-c4a71e7cca41.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/13362c21-ee4d-48aa-9406-c4a71e7cca41.png
new file mode 100644
index 00000000..a2ad0575
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/13362c21-ee4d-48aa-9406-c4a71e7cca41.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/15697b3b-001e-4120-a0d1-c4447a4dc47f.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/15697b3b-001e-4120-a0d1-c4447a4dc47f.png
new file mode 100644
index 00000000..a6e520d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/15697b3b-001e-4120-a0d1-c4447a4dc47f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1a9812ab-15b6-46c8-84c2-e3c380e69973.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1a9812ab-15b6-46c8-84c2-e3c380e69973.png
new file mode 100644
index 00000000..d8927461
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1a9812ab-15b6-46c8-84c2-e3c380e69973.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1b0429eb-6319-461b-bab0-e4399ee0a985.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1b0429eb-6319-461b-bab0-e4399ee0a985.png
new file mode 100644
index 00000000..01b97492
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1b0429eb-6319-461b-bab0-e4399ee0a985.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1e890c56-85ae-4f6c-82e5-4ae9de2f0fc8.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1e890c56-85ae-4f6c-82e5-4ae9de2f0fc8.png
new file mode 100644
index 00000000..1bf407e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1e890c56-85ae-4f6c-82e5-4ae9de2f0fc8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1ffeca84-f312-4324-bb86-19417a50f596.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1ffeca84-f312-4324-bb86-19417a50f596.jpg
new file mode 100644
index 00000000..f769ece6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/1ffeca84-f312-4324-bb86-19417a50f596.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2034a34a-4744-448c-a000-97ae2f895294.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2034a34a-4744-448c-a000-97ae2f895294.png
new file mode 100644
index 00000000..01b97492
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2034a34a-4744-448c-a000-97ae2f895294.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/24a66098-c4cd-49c4-8322-9e65ae01d963.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/24a66098-c4cd-49c4-8322-9e65ae01d963.png
new file mode 100644
index 00000000..1ff76278
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/24a66098-c4cd-49c4-8322-9e65ae01d963.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2a32ed66-4641-4bbf-9f24-77083ee3e768.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2a32ed66-4641-4bbf-9f24-77083ee3e768.png
new file mode 100644
index 00000000..82cb0894
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2a32ed66-4641-4bbf-9f24-77083ee3e768.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2c3faff6-8c08-4086-9d0e-9ef3b6bf448e.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2c3faff6-8c08-4086-9d0e-9ef3b6bf448e.png
new file mode 100644
index 00000000..ce5710e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2c3faff6-8c08-4086-9d0e-9ef3b6bf448e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2c455fce-cf7b-4e8b-ad2b-be204b77667f.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2c455fce-cf7b-4e8b-ad2b-be204b77667f.png
new file mode 100644
index 00000000..c93e39dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2c455fce-cf7b-4e8b-ad2b-be204b77667f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2df1b0c3-91f5-4a39-80c2-ca92b5c36e15.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2df1b0c3-91f5-4a39-80c2-ca92b5c36e15.png
new file mode 100644
index 00000000..2aef6666
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/2df1b0c3-91f5-4a39-80c2-ca92b5c36e15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/31967a1e-24c4-474d-bac9-67bc586e2c6a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/31967a1e-24c4-474d-bac9-67bc586e2c6a.png
new file mode 100644
index 00000000..67bfe71b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/31967a1e-24c4-474d-bac9-67bc586e2c6a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/335dae59-80a2-4afd-bc88-829c9306832d.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/335dae59-80a2-4afd-bc88-829c9306832d.png
new file mode 100644
index 00000000..3cd70a1b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/335dae59-80a2-4afd-bc88-829c9306832d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/33cc8da8-37ba-4743-8e74-3bffbc02c050.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/33cc8da8-37ba-4743-8e74-3bffbc02c050.png
new file mode 100644
index 00000000..15845297
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/33cc8da8-37ba-4743-8e74-3bffbc02c050.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/33ff32cb-b608-417d-afd0-60e35ff0f6d4.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/33ff32cb-b608-417d-afd0-60e35ff0f6d4.png
new file mode 100644
index 00000000..b3418d3a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/33ff32cb-b608-417d-afd0-60e35ff0f6d4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/355dbba6-b10b-4cc7-a992-727d56fbc887.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/355dbba6-b10b-4cc7-a992-727d56fbc887.png
new file mode 100644
index 00000000..fc969714
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/355dbba6-b10b-4cc7-a992-727d56fbc887.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/356fa44b-b999-4d7b-80b0-bfc55dc3d4d9.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/356fa44b-b999-4d7b-80b0-bfc55dc3d4d9.png
new file mode 100644
index 00000000..7b11c62c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/356fa44b-b999-4d7b-80b0-bfc55dc3d4d9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/36beb758-d104-411f-8912-4fedf4502d67.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/36beb758-d104-411f-8912-4fedf4502d67.png
new file mode 100644
index 00000000..01b97492
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/36beb758-d104-411f-8912-4fedf4502d67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/370d895f-0973-49cf-8e8a-a9746d082883.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/370d895f-0973-49cf-8e8a-a9746d082883.png
new file mode 100644
index 00000000..10e0472a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/370d895f-0973-49cf-8e8a-a9746d082883.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/39a93548-a5c8-42d4-8696-f1cac167f5b9.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/39a93548-a5c8-42d4-8696-f1cac167f5b9.png
new file mode 100644
index 00000000..ca043b60
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/39a93548-a5c8-42d4-8696-f1cac167f5b9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/39b33940-3972-4624-bb21-3b73b5791e02.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/39b33940-3972-4624-bb21-3b73b5791e02.png
new file mode 100644
index 00000000..84e94e4f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/39b33940-3972-4624-bb21-3b73b5791e02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/3b179ae1-40df-4859-8849-01c5011588f7.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/3b179ae1-40df-4859-8849-01c5011588f7.png
new file mode 100644
index 00000000..b9e0be31
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/3b179ae1-40df-4859-8849-01c5011588f7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/407018fd-63e4-450b-a1bd-640aad3b8e39.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/407018fd-63e4-450b-a1bd-640aad3b8e39.jpg
new file mode 100644
index 00000000..fe8be652
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/407018fd-63e4-450b-a1bd-640aad3b8e39.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4215357f-dc6d-4b69-8e99-6ecdea5cf6b8.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4215357f-dc6d-4b69-8e99-6ecdea5cf6b8.png
new file mode 100644
index 00000000..a2ad0575
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4215357f-dc6d-4b69-8e99-6ecdea5cf6b8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4535c471-eb4b-493a-8248-21870b941877.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4535c471-eb4b-493a-8248-21870b941877.png
new file mode 100644
index 00000000..337a3359
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4535c471-eb4b-493a-8248-21870b941877.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/475df0aa-0fbf-439c-afca-208e1a01627a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/475df0aa-0fbf-439c-afca-208e1a01627a.png
new file mode 100644
index 00000000..c6c19cdb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/475df0aa-0fbf-439c-afca-208e1a01627a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/47bb2d29-6a4a-46d5-8193-51c49ee62817.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/47bb2d29-6a4a-46d5-8193-51c49ee62817.jpg
new file mode 100644
index 00000000..e37ea4d4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/47bb2d29-6a4a-46d5-8193-51c49ee62817.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/490b7c75-bc4c-47de-aff0-35881df64129.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/490b7c75-bc4c-47de-aff0-35881df64129.png
new file mode 100644
index 00000000..23b6f079
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/490b7c75-bc4c-47de-aff0-35881df64129.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4bb8b337-ac21-40e6-8bb7-de2e9ac39988.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4bb8b337-ac21-40e6-8bb7-de2e9ac39988.png
new file mode 100644
index 00000000..e357b0ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4bb8b337-ac21-40e6-8bb7-de2e9ac39988.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4e5e3493-b790-47cc-84f3-a0be62d76138.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4e5e3493-b790-47cc-84f3-a0be62d76138.png
new file mode 100644
index 00000000..a0c2836d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/4e5e3493-b790-47cc-84f3-a0be62d76138.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/51caabd9-ef17-4057-a27d-71fa15ccb5d9.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/51caabd9-ef17-4057-a27d-71fa15ccb5d9.png
new file mode 100644
index 00000000..2f0f204d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/51caabd9-ef17-4057-a27d-71fa15ccb5d9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/546ffd34-78a1-4693-801d-bb23aca435af.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/546ffd34-78a1-4693-801d-bb23aca435af.png
new file mode 100644
index 00000000..4c7cd461
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/546ffd34-78a1-4693-801d-bb23aca435af.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/557558d7-5f13-4821-96c1-7d2d8fe578b6.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/557558d7-5f13-4821-96c1-7d2d8fe578b6.png
new file mode 100644
index 00000000..6a162148
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/557558d7-5f13-4821-96c1-7d2d8fe578b6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/57790f79-d20b-4cb4-a728-d25af7dab0bf.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/57790f79-d20b-4cb4-a728-d25af7dab0bf.png
new file mode 100644
index 00000000..6fe065ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/57790f79-d20b-4cb4-a728-d25af7dab0bf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/5a1ad979-2258-40ca-a887-26d73721c4a1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/5a1ad979-2258-40ca-a887-26d73721c4a1.jpg
new file mode 100644
index 00000000..d53f8e95
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/5a1ad979-2258-40ca-a887-26d73721c4a1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/5c9c163f-374e-4d8f-a5f4-c434ce13a568.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/5c9c163f-374e-4d8f-a5f4-c434ce13a568.png
new file mode 100644
index 00000000..ddcc3d2e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/5c9c163f-374e-4d8f-a5f4-c434ce13a568.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/63265d98-f436-415a-ae52-1d53c78e5530.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/63265d98-f436-415a-ae52-1d53c78e5530.png
new file mode 100644
index 00000000..ddf9dfcc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/63265d98-f436-415a-ae52-1d53c78e5530.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/65b50102-86c9-4dab-9a73-246711c1ceee.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/65b50102-86c9-4dab-9a73-246711c1ceee.png
new file mode 100644
index 00000000..ce5710e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/65b50102-86c9-4dab-9a73-246711c1ceee.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/68c3560e-2207-409d-94b3-aebcb4b7d247.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/68c3560e-2207-409d-94b3-aebcb4b7d247.png
new file mode 100644
index 00000000..b625a190
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/68c3560e-2207-409d-94b3-aebcb4b7d247.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/692e8ef0-cac8-4075-88ce-2928f2998fc2.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/692e8ef0-cac8-4075-88ce-2928f2998fc2.png
new file mode 100644
index 00000000..cd48c815
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/692e8ef0-cac8-4075-88ce-2928f2998fc2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/693d5dde-563d-4124-bf3a-7f3cfa05d02a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/693d5dde-563d-4124-bf3a-7f3cfa05d02a.png
new file mode 100644
index 00000000..c6791d94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/693d5dde-563d-4124-bf3a-7f3cfa05d02a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/699dd350-149d-48aa-80b9-147894e8370c.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/699dd350-149d-48aa-80b9-147894e8370c.png
new file mode 100644
index 00000000..a04028cf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/699dd350-149d-48aa-80b9-147894e8370c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/69d0a788-d965-4e70-a6f5-e8589b810c9f.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/69d0a788-d965-4e70-a6f5-e8589b810c9f.png
new file mode 100644
index 00000000..9f9e68fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/69d0a788-d965-4e70-a6f5-e8589b810c9f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6bff492d-dbf6-4c35-aaef-2e8283c4afed.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6bff492d-dbf6-4c35-aaef-2e8283c4afed.png
new file mode 100644
index 00000000..c4db2307
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6bff492d-dbf6-4c35-aaef-2e8283c4afed.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6ccd70b9-a564-4bc3-9d65-99301b571751.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6ccd70b9-a564-4bc3-9d65-99301b571751.png
new file mode 100644
index 00000000..9f9e68fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6ccd70b9-a564-4bc3-9d65-99301b571751.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6e7de048-2461-4be3-a702-f4d0a87d3c43.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6e7de048-2461-4be3-a702-f4d0a87d3c43.png
new file mode 100644
index 00000000..e35e52a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6e7de048-2461-4be3-a702-f4d0a87d3c43.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6ed1b1a7-9d13-4b10-91f3-2c4bfb2db2f3.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6ed1b1a7-9d13-4b10-91f3-2c4bfb2db2f3.png
new file mode 100644
index 00000000..dc782734
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/6ed1b1a7-9d13-4b10-91f3-2c4bfb2db2f3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/719dcc27-4722-4d1d-8ec2-a6ac7b0cc37b.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/719dcc27-4722-4d1d-8ec2-a6ac7b0cc37b.png
new file mode 100644
index 00000000..f8500345
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/719dcc27-4722-4d1d-8ec2-a6ac7b0cc37b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/72681941-2389-4a4d-a46b-4eab65916404.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/72681941-2389-4a4d-a46b-4eab65916404.png
new file mode 100644
index 00000000..b590e221
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/72681941-2389-4a4d-a46b-4eab65916404.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/72ffa712-8e86-49e4-8dc5-46daebb79db0.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/72ffa712-8e86-49e4-8dc5-46daebb79db0.png
new file mode 100644
index 00000000..4362ad7f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/72ffa712-8e86-49e4-8dc5-46daebb79db0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/778cbc8f-17cd-4358-8279-1cc904d90f55.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/778cbc8f-17cd-4358-8279-1cc904d90f55.png
new file mode 100644
index 00000000..82876eee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/778cbc8f-17cd-4358-8279-1cc904d90f55.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/78f99d5b-c72c-4dd8-a83f-e000b7e711c5.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/78f99d5b-c72c-4dd8-a83f-e000b7e711c5.jpg
new file mode 100644
index 00000000..924d5398
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/78f99d5b-c72c-4dd8-a83f-e000b7e711c5.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/7a6bfedb-d613-4204-badf-c62e7e5f00f4.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/7a6bfedb-d613-4204-badf-c62e7e5f00f4.png
new file mode 100644
index 00000000..540f99e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/7a6bfedb-d613-4204-badf-c62e7e5f00f4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/7eeae209-356e-4f83-96fe-51e61bceb6e7.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/7eeae209-356e-4f83-96fe-51e61bceb6e7.png
new file mode 100644
index 00000000..6cda0aa4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/7eeae209-356e-4f83-96fe-51e61bceb6e7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/801cc47b-f4df-4766-b94a-f3937353c039.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/801cc47b-f4df-4766-b94a-f3937353c039.png
new file mode 100644
index 00000000..d6ea7862
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/801cc47b-f4df-4766-b94a-f3937353c039.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/855a0a4f-c69b-49ee-841e-8a0b72e076a0.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/855a0a4f-c69b-49ee-841e-8a0b72e076a0.jpg
new file mode 100644
index 00000000..6e1525be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/855a0a4f-c69b-49ee-841e-8a0b72e076a0.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/867a839f-774a-43a1-86ae-2a2078e3d488.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/867a839f-774a-43a1-86ae-2a2078e3d488.png
new file mode 100644
index 00000000..2a5ebd77
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/867a839f-774a-43a1-86ae-2a2078e3d488.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/898ba591-7dc4-4be2-8a81-3eed0141913b.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/898ba591-7dc4-4be2-8a81-3eed0141913b.png
new file mode 100644
index 00000000..57b0ad48
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/898ba591-7dc4-4be2-8a81-3eed0141913b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/8b55fa1a-fae4-46f4-9e7e-411752467d2c.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/8b55fa1a-fae4-46f4-9e7e-411752467d2c.png
new file mode 100644
index 00000000..27c39c97
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/8b55fa1a-fae4-46f4-9e7e-411752467d2c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/92af7dd8-91fc-410a-bfc0-bbb0e36d4d6a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/92af7dd8-91fc-410a-bfc0-bbb0e36d4d6a.png
new file mode 100644
index 00000000..d16f32be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/92af7dd8-91fc-410a-bfc0-bbb0e36d4d6a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/92cb692e-ef61-427e-bd69-0e698f08f007.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/92cb692e-ef61-427e-bd69-0e698f08f007.png
new file mode 100644
index 00000000..e39bbe96
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/92cb692e-ef61-427e-bd69-0e698f08f007.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/993da368-288f-4f42-b203-95d36c77464d.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/993da368-288f-4f42-b203-95d36c77464d.png
new file mode 100644
index 00000000..596c7fc4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/993da368-288f-4f42-b203-95d36c77464d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/99c9c0e2-cba2-4af0-bdc3-9e1c929a2f2d.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/99c9c0e2-cba2-4af0-bdc3-9e1c929a2f2d.png
new file mode 100644
index 00000000..5cd5d103
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/99c9c0e2-cba2-4af0-bdc3-9e1c929a2f2d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/9c828535-9310-4a38-9777-53ecf8041d54.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/9c828535-9310-4a38-9777-53ecf8041d54.jpg
new file mode 100644
index 00000000..ac7dce94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/9c828535-9310-4a38-9777-53ecf8041d54.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/9e4968c2-7b0b-4b05-bc41-c78e494a6841.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/9e4968c2-7b0b-4b05-bc41-c78e494a6841.png
new file mode 100644
index 00000000..aaaa0411
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/9e4968c2-7b0b-4b05-bc41-c78e494a6841.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a22a91ff-1c32-4a61-90bb-3b52d6555309.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a22a91ff-1c32-4a61-90bb-3b52d6555309.png
new file mode 100644
index 00000000..4df44909
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a22a91ff-1c32-4a61-90bb-3b52d6555309.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a377936f-e73a-42d1-b8da-b1988023a393.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a377936f-e73a-42d1-b8da-b1988023a393.png
new file mode 100644
index 00000000..3c2cb836
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a377936f-e73a-42d1-b8da-b1988023a393.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a445eae6-efe6-4be2-bffe-4f0706f461dd.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a445eae6-efe6-4be2-bffe-4f0706f461dd.png
new file mode 100644
index 00000000..0b49ef3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a445eae6-efe6-4be2-bffe-4f0706f461dd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a4f98a3d-01d5-4678-b33c-acf99f39d07c.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a4f98a3d-01d5-4678-b33c-acf99f39d07c.png
new file mode 100644
index 00000000..24240e07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a4f98a3d-01d5-4678-b33c-acf99f39d07c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a7f14c61-3176-4310-8903-76943df30680.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a7f14c61-3176-4310-8903-76943df30680.png
new file mode 100644
index 00000000..b499000b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/a7f14c61-3176-4310-8903-76943df30680.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/aad5fa43-4213-47a0-bbfd-83f7aca5a426.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/aad5fa43-4213-47a0-bbfd-83f7aca5a426.png
new file mode 100644
index 00000000..953d0311
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/aad5fa43-4213-47a0-bbfd-83f7aca5a426.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ab17a57d-6a09-47de-a96d-d80d9e5b2636.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ab17a57d-6a09-47de-a96d-d80d9e5b2636.png
new file mode 100644
index 00000000..2f83cca9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ab17a57d-6a09-47de-a96d-d80d9e5b2636.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/afab68ad-33ef-49a9-8444-a4b7eeed2d8d.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/afab68ad-33ef-49a9-8444-a4b7eeed2d8d.png
new file mode 100644
index 00000000..490318f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/afab68ad-33ef-49a9-8444-a4b7eeed2d8d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b1bec687-63ed-41b0-99de-6b2c1742619b.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b1bec687-63ed-41b0-99de-6b2c1742619b.png
new file mode 100644
index 00000000..60ba869e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b1bec687-63ed-41b0-99de-6b2c1742619b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b1ca6787-9563-418b-aaa1-60a25fdc68c7.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b1ca6787-9563-418b-aaa1-60a25fdc68c7.png
new file mode 100644
index 00000000..fdac417e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b1ca6787-9563-418b-aaa1-60a25fdc68c7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b2cbcf2b-3fd0-4b84-b089-c10eca3b4ded.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b2cbcf2b-3fd0-4b84-b089-c10eca3b4ded.png
new file mode 100644
index 00000000..1ed94a53
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b2cbcf2b-3fd0-4b84-b089-c10eca3b4ded.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b4034277-94c5-44ae-83e8-aec26521b29e.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b4034277-94c5-44ae-83e8-aec26521b29e.png
new file mode 100644
index 00000000..af986501
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b4034277-94c5-44ae-83e8-aec26521b29e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b5760af3-6d7e-4f89-a183-1005967eccf9.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b5760af3-6d7e-4f89-a183-1005967eccf9.png
new file mode 100644
index 00000000..82d215c9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b5760af3-6d7e-4f89-a183-1005967eccf9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b7cebe8d-49bf-4557-be22-f17d87109762.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b7cebe8d-49bf-4557-be22-f17d87109762.png
new file mode 100644
index 00000000..5b31c021
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b7cebe8d-49bf-4557-be22-f17d87109762.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b9124ebe-5e9a-4178-8c8e-43ec2619e9ed.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b9124ebe-5e9a-4178-8c8e-43ec2619e9ed.png
new file mode 100644
index 00000000..b588fb32
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/b9124ebe-5e9a-4178-8c8e-43ec2619e9ed.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ba99854e-0291-4744-b2ed-1b099411fa0c.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ba99854e-0291-4744-b2ed-1b099411fa0c.png
new file mode 100644
index 00000000..f880f389
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ba99854e-0291-4744-b2ed-1b099411fa0c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bc72fd8e-e789-444f-836f-7ad5e015642c.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bc72fd8e-e789-444f-836f-7ad5e015642c.png
new file mode 100644
index 00000000..fa358c8d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bc72fd8e-e789-444f-836f-7ad5e015642c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bdfa5581-f926-457b-b8b0-5b9494717691.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bdfa5581-f926-457b-b8b0-5b9494717691.png
new file mode 100644
index 00000000..f28f05e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bdfa5581-f926-457b-b8b0-5b9494717691.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bfe29865-0979-4da4-b431-943152306f2e.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bfe29865-0979-4da4-b431-943152306f2e.jpg
new file mode 100644
index 00000000..acaa77ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/bfe29865-0979-4da4-b431-943152306f2e.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c0927993-35eb-4977-a4bc-ccd338f9fc95.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c0927993-35eb-4977-a4bc-ccd338f9fc95.png
new file mode 100644
index 00000000..0e987ec5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c0927993-35eb-4977-a4bc-ccd338f9fc95.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c1765cf8-ce94-4e0a-87ce-d73b19bf41e5.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c1765cf8-ce94-4e0a-87ce-d73b19bf41e5.png
new file mode 100644
index 00000000..08e5eac0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c1765cf8-ce94-4e0a-87ce-d73b19bf41e5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c23360a9-e58b-4a17-88d0-7bc7f4a0c3e4.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c23360a9-e58b-4a17-88d0-7bc7f4a0c3e4.png
new file mode 100644
index 00000000..3a2e3147
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c23360a9-e58b-4a17-88d0-7bc7f4a0c3e4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c3a17aee-28bb-49e5-b4fc-70be936df1ad.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c3a17aee-28bb-49e5-b4fc-70be936df1ad.jpg
new file mode 100644
index 00000000..17fa9678
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c3a17aee-28bb-49e5-b4fc-70be936df1ad.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c5beedac-b05c-4e0b-99c3-2cda0e22438a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c5beedac-b05c-4e0b-99c3-2cda0e22438a.png
new file mode 100644
index 00000000..999f85ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c5beedac-b05c-4e0b-99c3-2cda0e22438a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c60e566c-69b7-4681-886e-282c5e3fb3ea.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c60e566c-69b7-4681-886e-282c5e3fb3ea.png
new file mode 100644
index 00000000..01b97492
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c60e566c-69b7-4681-886e-282c5e3fb3ea.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c60f32d7-a490-4be7-9c2e-99d908a4629d.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c60f32d7-a490-4be7-9c2e-99d908a4629d.png
new file mode 100644
index 00000000..d337adb2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c60f32d7-a490-4be7-9c2e-99d908a4629d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c63ca1b1-5e19-423c-8174-d62c87d452bc.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c63ca1b1-5e19-423c-8174-d62c87d452bc.png
new file mode 100644
index 00000000..64a4e781
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c63ca1b1-5e19-423c-8174-d62c87d452bc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c6d9fff9-d274-4af0-8ef2-69b3cd7c03bc.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c6d9fff9-d274-4af0-8ef2-69b3cd7c03bc.png
new file mode 100644
index 00000000..afe24c14
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c6d9fff9-d274-4af0-8ef2-69b3cd7c03bc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c756c9ec-79c1-4919-a567-1a60c335b71a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c756c9ec-79c1-4919-a567-1a60c335b71a.png
new file mode 100644
index 00000000..97845828
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c756c9ec-79c1-4919-a567-1a60c335b71a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c8cc7ae9-1801-46d0-af96-142955d6a9a2.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c8cc7ae9-1801-46d0-af96-142955d6a9a2.png
new file mode 100644
index 00000000..d93b3bd0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c8cc7ae9-1801-46d0-af96-142955d6a9a2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c8e78286-b120-4589-9bcc-791eeeb094d3.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c8e78286-b120-4589-9bcc-791eeeb094d3.png
new file mode 100644
index 00000000..88746afe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/c8e78286-b120-4589-9bcc-791eeeb094d3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ca428764-c8dd-4e96-8726-49b4bd1b6b9b.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ca428764-c8dd-4e96-8726-49b4bd1b6b9b.png
new file mode 100644
index 00000000..c7b9c623
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ca428764-c8dd-4e96-8726-49b4bd1b6b9b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cb6ce52c-4dee-4416-adb5-42cdfd30161e.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cb6ce52c-4dee-4416-adb5-42cdfd30161e.png
new file mode 100644
index 00000000..a40f4c54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cb6ce52c-4dee-4416-adb5-42cdfd30161e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cbd5f3fa-48f2-40a5-9173-dd3ce0c68927.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cbd5f3fa-48f2-40a5-9173-dd3ce0c68927.png
new file mode 100644
index 00000000..f58529cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cbd5f3fa-48f2-40a5-9173-dd3ce0c68927.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cc4cdee1-a83d-49fc-98eb-5ddab14d83c5.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cc4cdee1-a83d-49fc-98eb-5ddab14d83c5.png
new file mode 100644
index 00000000..4b804d86
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cc4cdee1-a83d-49fc-98eb-5ddab14d83c5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cd6249c7-e42a-484b-90b3-4bf2de2f1300.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cd6249c7-e42a-484b-90b3-4bf2de2f1300.png
new file mode 100644
index 00000000..5d3810e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cd6249c7-e42a-484b-90b3-4bf2de2f1300.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cover.jpg
new file mode 100644
index 00000000..bf1ca5d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d16a73a6-36ff-4092-ac21-700ea76f558c.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d16a73a6-36ff-4092-ac21-700ea76f558c.png
new file mode 100644
index 00000000..0fbbab23
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d16a73a6-36ff-4092-ac21-700ea76f558c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d18fdfd8-3bd4-4f7d-b1f2-e0e754230335.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d18fdfd8-3bd4-4f7d-b1f2-e0e754230335.png
new file mode 100644
index 00000000..0fbbab23
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d18fdfd8-3bd4-4f7d-b1f2-e0e754230335.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d2911d59-77b8-4069-9bee-621999666e5d.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d2911d59-77b8-4069-9bee-621999666e5d.png
new file mode 100644
index 00000000..fa1cefbd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d2911d59-77b8-4069-9bee-621999666e5d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d2c65c07-5c92-4ad2-8428-71c70a27552f.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d2c65c07-5c92-4ad2-8428-71c70a27552f.png
new file mode 100644
index 00000000..10276f1c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d2c65c07-5c92-4ad2-8428-71c70a27552f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d6844cf9-3d55-4e3f-9722-4c54b3be05b5.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d6844cf9-3d55-4e3f-9722-4c54b3be05b5.png
new file mode 100644
index 00000000..139665b3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/d6844cf9-3d55-4e3f-9722-4c54b3be05b5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/dd793fbb-380f-4811-b53e-936c412a0595.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/dd793fbb-380f-4811-b53e-936c412a0595.png
new file mode 100644
index 00000000..90e083ef
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/dd793fbb-380f-4811-b53e-936c412a0595.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/de142212-317a-4975-bac2-8a73d64d08c9.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/de142212-317a-4975-bac2-8a73d64d08c9.png
new file mode 100644
index 00000000..7a8471f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/de142212-317a-4975-bac2-8a73d64d08c9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/dea6219b-2da7-405e-877e-c72c52b20210.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/dea6219b-2da7-405e-877e-c72c52b20210.png
new file mode 100644
index 00000000..dc934b7c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/dea6219b-2da7-405e-877e-c72c52b20210.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e2195ce4-cd4a-4c72-a0bb-ea6fc453ac8a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e2195ce4-cd4a-4c72-a0bb-ea6fc453ac8a.png
new file mode 100644
index 00000000..0539d7ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e2195ce4-cd4a-4c72-a0bb-ea6fc453ac8a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e33c30d9-f1e9-4a50-94eb-df87a53faf1f.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e33c30d9-f1e9-4a50-94eb-df87a53faf1f.png
new file mode 100644
index 00000000..31ce92c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e33c30d9-f1e9-4a50-94eb-df87a53faf1f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e381f86e-8ca3-4295-beaa-4445f3ac97cf.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e381f86e-8ca3-4295-beaa-4445f3ac97cf.png
new file mode 100644
index 00000000..be78848b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e381f86e-8ca3-4295-beaa-4445f3ac97cf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e39144a7-9a97-4e55-8500-6f6a64fc8537.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e39144a7-9a97-4e55-8500-6f6a64fc8537.png
new file mode 100644
index 00000000..d05d1483
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e39144a7-9a97-4e55-8500-6f6a64fc8537.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e391d033-316e-426f-bf52-c72785baffdb.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e391d033-316e-426f-bf52-c72785baffdb.png
new file mode 100644
index 00000000..6c3dd75e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e391d033-316e-426f-bf52-c72785baffdb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e5f0cab0-6a5b-4bc5-a8d1-f8159aed950e.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e5f0cab0-6a5b-4bc5-a8d1-f8159aed950e.png
new file mode 100644
index 00000000..43dd6d39
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e5f0cab0-6a5b-4bc5-a8d1-f8159aed950e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e866b9d4-0486-4a35-8373-913744c3c687.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e866b9d4-0486-4a35-8373-913744c3c687.png
new file mode 100644
index 00000000..768dac4c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e866b9d4-0486-4a35-8373-913744c3c687.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e9833db5-73b6-46cf-8bec-1a00b593763a.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e9833db5-73b6-46cf-8bec-1a00b593763a.png
new file mode 100644
index 00000000..21fc2138
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/e9833db5-73b6-46cf-8bec-1a00b593763a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eb953b39-cb00-4772-bc93-a344af6f04fd.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eb953b39-cb00-4772-bc93-a344af6f04fd.png
new file mode 100644
index 00000000..e6441598
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eb953b39-cb00-4772-bc93-a344af6f04fd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ebabb5f1-f275-4648-a265-618d4d2e74a0.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ebabb5f1-f275-4648-a265-618d4d2e74a0.png
new file mode 100644
index 00000000..e08e9eb8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ebabb5f1-f275-4648-a265-618d4d2e74a0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ec04eb9a-48f5-45fd-af5c-812bf60c1288.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ec04eb9a-48f5-45fd-af5c-812bf60c1288.png
new file mode 100644
index 00000000..eb7ebca3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ec04eb9a-48f5-45fd-af5c-812bf60c1288.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ec71e9df-b735-4432-ab12-d31905f6d2c6.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ec71e9df-b735-4432-ab12-d31905f6d2c6.png
new file mode 100644
index 00000000..b02b8d4d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/ec71e9df-b735-4432-ab12-d31905f6d2c6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eda70b06-42dd-4146-b421-fabcdf53e914.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eda70b06-42dd-4146-b421-fabcdf53e914.png
new file mode 100644
index 00000000..24240e07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eda70b06-42dd-4146-b421-fabcdf53e914.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eef792ef-f454-4569-8c55-61286ccc904c.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eef792ef-f454-4569-8c55-61286ccc904c.png
new file mode 100644
index 00000000..aaaa0411
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/eef792ef-f454-4569-8c55-61286ccc904c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f0a26b2f-9d67-4235-b6f1-c15e931a4efd.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f0a26b2f-9d67-4235-b6f1-c15e931a4efd.png
new file mode 100644
index 00000000..7da5de10
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f0a26b2f-9d67-4235-b6f1-c15e931a4efd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f11e5dcb-d17d-4280-9485-b003fd9e0d4b.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f11e5dcb-d17d-4280-9485-b003fd9e0d4b.png
new file mode 100644
index 00000000..2a23daa7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f11e5dcb-d17d-4280-9485-b003fd9e0d4b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f2476d55-a48d-478c-ab29-987fe282d142.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f2476d55-a48d-478c-ab29-987fe282d142.png
new file mode 100644
index 00000000..d4056906
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f2476d55-a48d-478c-ab29-987fe282d142.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f254ee63-9487-4f22-93f4-70090f208fe6.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f254ee63-9487-4f22-93f4-70090f208fe6.jpg
new file mode 100644
index 00000000..8c2e4a85
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f254ee63-9487-4f22-93f4-70090f208fe6.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f27b326f-8544-47b8-a2e7-9820af78e39c.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f27b326f-8544-47b8-a2e7-9820af78e39c.png
new file mode 100644
index 00000000..84e94e4f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f27b326f-8544-47b8-a2e7-9820af78e39c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f2fc9117-dda1-40a5-b677-7b5bdaddb3fb.jpg b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f2fc9117-dda1-40a5-b677-7b5bdaddb3fb.jpg
new file mode 100644
index 00000000..956e5d0e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/f2fc9117-dda1-40a5-b677-7b5bdaddb3fb.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/fc4d1f15-9e77-4b74-bcb5-c783b63bf35f.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/fc4d1f15-9e77-4b74-bcb5-c783b63bf35f.png
new file mode 100644
index 00000000..e10fe143
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/fc4d1f15-9e77-4b74-bcb5-c783b63bf35f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/fd532fce-cd9f-4f87-a814-45976a16593d.png b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/fd532fce-cd9f-4f87-a814-45976a16593d.png
new file mode 100644
index 00000000..d94bf09d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/dl-quick-ref/img/fd532fce-cd9f-4f87-a814-45976a16593d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/effective-tf.md b/机器学习/ApacheCN/apachecn-dl-zh/effective-tf.md
new file mode 100644
index 00000000..adbd434d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/effective-tf.md
@@ -0,0 +1,1443 @@
+# TensorFlow 高效编程
+
+> 原文：[vahidk/EffectiveTensorflow](https://github.com/vahidk/EffectiveTensorflow)
+
+> 译者：[FesianXu](https://my.csdn.net/loseinvain)、[飞龙](https://github.com/wizardforcel)
+
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
+## 一、TensorFlow 基础
+
+TensorFlow 和其他数字计算库（如 numpy）之间最明显的区别在于 TensorFlow 中操作的是符号。这是一个强大的功能，这保证了 TensorFlow 可以做很多其他库（例如 numpy）不能完成的事情（例如自动区分）。这可能也是它更复杂的原因。今天我们来一步步探秘 TensorFlow，并为更有效地使用 TensorFlow 提供了一些指导方针和最佳实践。
+
+我们从一个简单的例子开始，我们要乘以两个随机矩阵。首先我们来看一下在 numpy 中如何实现：
+
+```py
+import numpy as np
+x = np.random.normal(size=[10, 10])
+y = np.random.normal(size=[10, 10])
+z = np.dot(x, y)
+print(z)
+
+```
+
+现在我们使用 TensorFlow 中执行完全相同的计算：  
+
+```py
+import TensorFlow as tf
+x = tf.random_normal([10, 10])
+y = tf.random_normal([10, 10])
+z = tf.matmul(x, y)
+sess = tf.Session()
+z_val = sess.run(z)
+print(z_val)
+
+```
+
+与立即执行计算并将结果复制给输出变量`z`的 numpy 不同，TensorFlow 只给我们一个可以操作的张量类型。如果我们尝试直接打印`z`的值，我们得到这样的东西：  
+
+```py
+Tensor("MatMul:0", shape=(10, 10), dtype=float32)
+```
+
+由于两个输入都是已经定义的类型，TensorFlow 能够推断张量的符号及其类型。为了计算张量的值，我们需要创建一个会话并使用`Session.run`方法进行评估。
+
+要了解如此强大的符号计算到底是什么，我们可以看看另一个例子。假设我们有一个曲线的样本（例如`f(x)= 5x ^ 2 + 3`），并且我们要估计`f(x)`在不知道它的参数的前提下。我们定义参数函数为`g(x，w)= w0 x ^ 2 + w1 x + w2`，它是输入`x`和潜在参数`w`的函数，我们的目标是找到潜在参数，使得`g(x, w)≈f(x)`。这可以通过最小化损失函数来完成：`L(w)=(f(x)-g(x，w))^ 2`。虽然这问题有一个简单的封闭式的解决方案，但是我们选择使用一种更为通用的方法，可以应用于任何可以区分的任务，那就是使用随机梯度下降。我们在一组采样点上简单地计算相对于`w`的`L(w)`的平均梯度，并沿相反方向移动。
+
+以下是在 TensorFlow 中如何完成：  
+
+```py
+import numpy as np
+import TensorFlow as tf
+x = tf.placeholder(tf.float32)
+y = tf.placeholder(tf.float32)
+w = tf.get_variable("w", shape=[3, 1])
+f = tf.stack([tf.square(x), x, tf.ones_like(x)], 1)
+yhat = tf.squeeze(tf.matmul(f, w), 1)
+loss = tf.nn.l2_loss(yhat - y) + 0.1 * tf.nn.l2_loss(w)
+train_op = tf.train.AdamOptimizer(0.1).minimize(loss)
+def generate_data():
+    x_val = np.random.uniform(-10.0, 10.0, size=100)
+    y_val = 5 * np.square(x_val) + 3
+    return x_val, y_val
+sess = tf.Session()
+sess.run(tf.global_variables_initializer())
+for _ in range(1000):
+    x_val, y_val = generate_data()
+    _, loss_val = sess.run([train_op, loss], {x: x_val, y: y_val})
+    print(loss_val)
+print(sess.run([w]))
+
+```
+
+通过运行这段代码，我们可以看到下面这组数据：
+
+```
+[4.9924135, 0.00040895029, 3.4504161]
+```
+
+这与我们的参数已经相当接近。
+
+这只是 TensorFlow 可以做的冰山一角。许多问题，如优化具有数百万个参数的大型神经网络，都可以在 TensorFlow 中使用短短的几行代码高效地实现。而且 TensorFlow 可以跨多个设备和线程进行扩展，并支持各种平台。
+
+## 二、理解静态和动态形状
+
+在 **TensorFlow** 中，`tensor`有一个在图构建过程中就被决定的**静态形状属性**， 这个静态形状可以是**未规定的**，比如，我们可以定一个具有形状`[None, 128]`大小的`tensor`。
+
+```python
+import TensorFlow as tf
+a = tf.placeholder(tf.float32, [None, 128])
+```
+
+这意味着`tensor`的第一个维度可以是任何尺寸，这个将会在`Session.run()`中被动态定义。当然，你可以查询一个`tensor`的静态形状，如：
+
+```python
+static_shape = a.shape.as_list()  # returns [None, 128]
+```
+
+为了得到一个`tensor`的动态形状，你可以调用`tf.shape`操作，这将会返回指定tensor的形状，如：
+
+```python
+dynamic_shape = tf.shape(a)
+```
+
+`tensor`的静态形状可以通过方法`Tensor_name.set_shape()`设定，如：
+
+```python
+a.set_shape([32, 128])  # static shape of a is [32, 128]
+a.set_shape([None, 128])  # first dimension of a is determined dynamically
+```
+
+调用`tf.reshape()`方法，你可以动态地重塑一个`tensor`的形状，如：
+
+```python
+a =  tf.reshape(a, [32, 128])
+```
+
+可以定义一个函数，当静态形状的时候返回其静态形状，当静态形状不存在时，返回其动态形状，如：
+
+```python
+def get_shape(tensor):
+  static_shape = tensor.shape.as_list()
+  dynamic_shape = tf.unstack(tf.shape(tensor))
+  dims = [s[1] if s[0] is None else s[0]
+          for s in zip(static_shape, dynamic_shape)]
+  return dims
+```
+
+现在，如果我们需要将一个三阶的`tensor`转变为 2 阶的`tensor`，通过折叠第二维和第三维成一个维度，我们可以通过我们刚才定义的`get_shape()`方法进行，如：
+
+```python
+b = tf.placeholder(tf.float32, [None, 10, 32])
+shape = get_shape(b)
+b = tf.reshape(b, [shape[0], shape[1] * shape[2]])
+```
+
+注意到无论这个`tensor`的形状是静态指定的还是动态指定的，这个代码都是有效的。事实上，我们可以写出一个通用的`reshape`函数，用于折叠维度的任意列表:
+
+```python
+import TensorFlow as tf
+import numpy as np
+
+def reshape(tensor, dims_list):
+  shape = get_shape(tensor)
+  dims_prod = []
+  for dims in dims_list:
+    if isinstance(dims, int):
+      dims_prod.append(shape[dims])
+    elif all([isinstance(shape[d], int) for d in dims]):
+      dims_prod.append(np.prod([shape[d] for d in dims]))
+    else:
+      dims_prod.append(tf.prod([shape[d] for d in dims]))
+  tensor = tf.reshape(tensor, dims_prod)
+  return tensor
+```
+
+然后折叠第二个维度就变得特别简单了。
+
+```python
+b = tf.placeholder(tf.float32, [None, 10, 32])
+b = reshape(b, [0, [1, 2]])
+```
+
+## 三、作用域和何时使用它
+
+在 TensorFlow 中，变量和张量有一个名字属性，用于作为他们在图中的标识。如果你在创造变量或者张量的时候，不给他们显式地指定一个名字，那么 TF 将会自动地，隐式地给他们分配名字，如：
+
+```python
+a = tf.constant(1)
+print(a.name)  # prints "Const:0"
+
+b = tf.Variable(1)
+print(b.name)  # prints "Variable:0"
+```
+
+你也可以在定义的时候，通过显式地给变量或者张量命名，这样将会重写他们的默认名，如：
+
+```python
+a = tf.constant(1, name="a")
+print(a.name)  # prints "b:0"
+
+b = tf.Variable(1, name="b")
+print(b.name)  # prints "b:0"
+```
+
+TF 引进了两个不同的上下文管理器，用于更改张量或者变量的名字，第一个就是`tf.name_scope`，如：
+
+```python
+with tf.name_scope("scope"):
+  a = tf.constant(1, name="a")
+  print(a.name)  # prints "scope/a:0"
+
+  b = tf.Variable(1, name="b")
+  print(b.name)  # prints "scope/b:0"
+
+  c = tf.get_variable(name="c", shape=[])
+  print(c.name)  # prints "c:0"
+```
+
+我们注意到，在 TF 中，我们有两种方式去定义一个新的变量，通过`tf.Variable()`或者调用`tf.get_variable()`。在调用`tf.get_variable()`的时候，给予一个新的名字，将会创建一个新的变量，但是如果这个名字并不是一个新的名字，而是已经存在过这个变量作用域中的，那么就会抛出一个`ValueError`异常，意味着重复声明一个变量是不被允许的。
+
+`tf.name_scope()`只会影响到**通过调用`tf.Variable`创建的**张量和变量的名字，而**不会影响到通过调用`tf.get_variable()`创建**的变量和张量。  
+
+和`tf.name_scope()`不同，`tf.variable_scope()`也会修改，影响通过`tf.get_variable()`创建的变量和张量，如：
+
+```python
+with tf.variable_scope("scope"):
+  a = tf.constant(1, name="a")
+  print(a.name)  # prints "scope/a:0"
+
+  b = tf.Variable(1, name="b")
+  print(b.name)  # prints "scope/b:0"
+
+  c = tf.get_variable(name="c", shape=[])
+  print(c.name)  # prints "scope/c:0"
+with tf.variable_scope("scope"):
+  a1 = tf.get_variable(name="a", shape=[])
+  a2 = tf.get_variable(name="a", shape=[])  # Disallowed
+```
+
+但是如果我们真的想要重复使用一个先前声明过了变量怎么办呢？变量管理器同样提供了一套机制去实现这个需求：
+
+```python
+with tf.variable_scope("scope"):
+  a1 = tf.get_variable(name="a", shape=[])
+with tf.variable_scope("scope", reuse=True):
+  a2 = tf.get_variable(name="a", shape=[])  # OK
+This becomes handy for example when using built-in neural network layers:
+
+features1 = tf.layers.conv2d(image1, filters=32, kernel_size=3)
+# Use the same convolution weights to process the second image:
+with tf.variable_scope(tf.get_variable_scope(), reuse=True):
+  features2 = tf.layers.conv2d(image2, filters=32, kernel_size=3)
+```
+
+这个语法可能看起来并不是特别的清晰明了。特别是，如果你在模型中想要实现一大堆的变量共享，你需要追踪各个变量，比如说什么时候定义新的变量，什么时候要复用他们，这些将会变得特别麻烦而且容易出错，因此 TF 提供了 TF 模版自动解决变量共享的问题：
+
+```python
+conv3x32 = tf.make_template("conv3x32", lambda x: tf.layers.conv2d(x, 32, 3))
+features1 = conv3x32(image1)
+features2 = conv3x32(image2)  # Will reuse the convolution weights.
+```
+
+你可以将任何函数都转换为 TF 模版。当第一次调用这个模版的时候，在这个函数内声明的变量将会被定义，同时在接下来的连续调用中，这些变量都将自动地复用。
+
+## 四、广播的优缺点
+
+TensorFlow 支持广播机制，可以广播逐元素操作。正常情况下，当你想要进行一些操作如加法，乘法时，你需要确保操作数的形状是相匹配的，如：你不能将一个具有形状`[3, 2]`的张量和一个具有`[3,4]`形状的张量相加。但是，这里有一个特殊情况，那就是当你的其中一个操作数是一个某个维度为一的张量的时候，TF 会隐式地填充它的单一维度方向，以确保和另一个操作数的形状相匹配。所以，对一个`[3,2]`的张量和一个`[3,1]`的张量相加在 TF 中是合法的。
+
+```python
+import TensorFlow as tf
+
+a = tf.constant([[1., 2.], [3., 4.]])
+b = tf.constant([[1.], [2.]])
+# c = a + tf.tile(b, [1, 2])
+c = a + b
+```
+
+广播机制允许我们在隐式情况下进行填充，而这可以使得我们的代码更加简洁，并且更有效率地利用内存，因为我们不需要另外储存填充操作的结果。一个可以表现这个优势的应用场景就是在结合具有不同长度的特征向量的时候。为了拼接具有不同长度的特征向量，我们一般都先填充输入向量，拼接这个结果然后进行之后的一系列非线性操作等。这是一大类神经网络架构的共同模式。
+
+```python
+a = tf.random_uniform([5, 3, 5])
+b = tf.random_uniform([5, 1, 6])
+
+# concat a and b and apply nonlinearity
+tiled_b = tf.tile(b, [1, 3, 1])
+c = tf.concat([a, tiled_b], 2)
+d = tf.layers.dense(c, 10, activation=tf.nn.relu)
+```
+
+但是这个可以通过广播机制更有效地完成。我们利用事实`f(m(x+y))=f(mx+my)f(m(x+y))=f(mx+my)f(m(x+y))=f(mx+my)`，简化我们的填充操作。因此，我们可以分离地进行这个线性操作，利用广播机制隐式地完成拼接操作。
+
+```python
+pa = tf.layers.dense(a, 10, activation=None)
+pb = tf.layers.dense(b, 10, activation=None)
+d = tf.nn.relu(pa + pb)
+```
+
+事实上，这个代码足够通用，并且可以在具有任意形状的张量间应用：
+
+```python
+def merge(a, b, units, activation=tf.nn.relu):
+    pa = tf.layers.dense(a, units, activation=None)
+    pb = tf.layers.dense(b, units, activation=None)
+    c = pa + pb
+    if activation is not None:
+        c = activation(c)
+    return c
+```
+
+一个更为通用函数形式如上所述：
+
+目前为止，我们讨论了广播机制的优点，但是同样的广播机制也有其缺点，隐式假设几乎总是使得调试变得更加困难，考虑下面的例子：
+
+```python
+a = tf.constant([[1.], [2.]])
+b = tf.constant([1., 2.])
+c = tf.reduce_sum(a + b)
+```
+
+你猜这个结果是多少？如果你说是 6，那么你就错了，答案应该是 12。这是因为当两个张量的阶数不匹配的时候，在进行元素间操作之前，TF 将会自动地在更低阶数的张量的第一个维度开始扩展，所以这个加法的结果将会变为`[[2, 3], [3, 4]]`，所以这个`reduce`的结果是12.  
+
+解决这种麻烦的方法就是尽可能地显式使用。我们在需要`reduce`某些张量的时候，显式地指定维度，然后寻找这个 bug 就会变得简单：
+
+```python
+a = tf.constant([[1.], [2.]])
+b = tf.constant([1., 2.])
+c = tf.reduce_sum(a + b, 0)
+```
+
+这样，`c`的值就是`[5, 7]`，我们就容易猜到其出错的原因。一个更通用的法则就是总是在`reduce`操作和在使用`tf.squeeze`中指定维度。
+
+## 五、向 TensorFlow 投喂数据
+
+**TensorFlow** 被设计可以在大规模的数据情况下高效地运行。所以你需要记住千万不要“饿着”你的 TF 模型，这样才能得到最好的表现。一般来说，一共有三种方法可以“投喂”你的模型。
+
+### 常数方式（`tf.constant`）
+
+最简单的方式莫过于直接将数据当成常数嵌入你的计算图中，如：
+
+```python
+import TensorFlow as tf
+import numpy as np
+
+actual_data = np.random.normal(size=[100])
+data = tf.constant(actual_data)
+```
+
+这个方式非常地高效，但是却不灵活。这个方式存在一个大问题就是为了在其他数据集上复用你的模型，你必须要重写你的计算图，而且你必须同时加载所有数据，并且一直保存在内存里，这意味着这个方式仅仅适用于小数剧集的情况。
+
+### 占位符方式（`tf.placeholder`）
+
+可以通过占位符的方式解决刚才常数投喂网络的问题，如：
+
+```python
+import TensorFlow as tf
+import numpy as np
+
+data = tf.placeholder(tf.float32)
+prediction = tf.square(data) + 1
+actual_data = np.random.normal(size=[100])
+tf.Session().run(prediction, feed_dict={data: actual_data})
+```
+
+占位符操作符返回一个张量，他的值在会话（`session`）中通过人工指定的`feed_dict`参数得到。
+
+### python 操作（`tf.py_func`）
+
+还可以通过利用 python 操作投喂数据：
+
+```python
+def py_input_fn():
+    actual_data = np.random.normal(size=[100])
+    return actual_data
+
+data = tf.py_func(py_input_fn, [], (tf.float32))
+```
+
+python 操作允许你将一个常规的 python 函数转换成一个 TF 的操作。
+
+### 利用 TF 的自带数据集 API
+
+最值得推荐的方式就是通过 TF 自带的数据集 API 进行投喂数据，如：
+
+```python
+actual_data = np.random.normal(size=[100])
+dataset = tf.contrib.data.Dataset.from_tensor_slices(actual_data)
+data = dataset.make_one_shot_iterator().get_next()
+```
+
+如果你需要从文件中读入数据，你可能需要将文件转化为`TFrecord`格式，这将会使得整个过程更加有效
+
+```python
+dataset = tf.contrib.data.Dataset.TFRecordDataset(path_to_data)
+```
+
+查看[官方文档](https://www.TensorFlow.org/api_guides/python/reading_data#Reading_from_files)，了解如何将你的数据集转化为`TFrecord`格式。
+
+```python
+dataset = ...
+dataset = dataset.cache()
+if mode == tf.estimator.ModeKeys.TRAIN:
+    dataset = dataset.repeat()
+    dataset = dataset.shuffle(batch_size * 5)
+dataset = dataset.map(parse, num_threads=8)
+dataset = dataset.batch(batch_size)
+```
+
+在读入了数据之后，我们使用`Dataset.cache()`方法，将其缓存到内存中，以求更高的效率。在训练模式中，我们不断地重复数据集，这使得我们可以多次处理整个数据集。我们也需要打乱数据集得到批量，这个批量将会有不同的样本分布。下一步，我们使用`Dataset.map()`方法，对原始数据进行预处理，将数据转换成一个模型可以识别，利用的格式。然后，我们就通过`Dataset.batch()`，创造样本的批量了。
+
+## 六、利用运算符重载
+
+和 Numpy 一样，TensorFlow 重载了很多 python 中的运算符，使得构建计算图更加地简单，并且使得代码具有可读性。
+
+**切片**操作是重载的诸多运算符中的一个，它可以使得索引张量变得很容易：
+
+```python
+z = x[begin:end]  # z = tf.slice(x, [begin], [end-begin])
+```
+
+但是在使用它的过程中，你还是需要非常地小心。切片操作非常低效，因此最好避免使用，特别是在切片的数量很大的时候。为了更好地理解这个操作符有多么地低效，我们先观察一个例子。我们想要人工实现一个对矩阵的行进行`reduce`操作的代码：
+
+```python
+import TensorFlow as tf
+import time
+
+x = tf.random_uniform([500, 10])
+
+z = tf.zeros([10])
+for i in range(500):
+    z += x[i]
+
+sess = tf.Session()
+start = time.time()
+sess.run(z)
+print("Took %f seconds." % (time.time() - start))
+```
+
+在笔者的 MacBook Pro 上，这个代码花费了 2.67 秒！那么耗时的原因是我们调用了切片操作 500 次，这个运行起来超级慢的！一个更好的选择是使用`tf.unstack()`操作去将一个矩阵切成一个向量的列表，而这只需要一次就行！
+
+```python
+z = tf.zeros([10])
+for x_i in tf.unstack(x):
+    z += x_i
+```
+
+这个操作花费了 0.18 秒，当然，最正确的方式去实现这个需求是使用`tf.reduce_sum()`操作：
+
+```python
+z = tf.reduce_sum(x, axis=0)
+```
+
+这个仅仅使用了 0.008 秒，是原始实现的 300 倍！
+TensorFlow 除了切片操作，也重载了一系列的数学逻辑运算，如：
+
+```python
+z = -x  # z = tf.negative(x)
+z = x + y  # z = tf.add(x, y)
+z = x - y  # z = tf.subtract(x, y)
+z = x * y  # z = tf.mul(x, y)
+z = x / y  # z = tf.div(x, y)
+z = x // y  # z = tf.floordiv(x, y)
+z = x % y  # z = tf.mod(x, y)
+z = x ** y  # z = tf.pow(x, y)
+z = x @ y  # z = tf.matmul(x, y)
+z = x > y  # z = tf.greater(x, y)
+z = x >= y  # z = tf.greater_equal(x, y)
+z = x < y  # z = tf.less(x, y)
+z = x <= y  # z = tf.less_equal(x, y)
+z = abs(x)  # z = tf.abs(x)
+z = x & y  # z = tf.logical_and(x, y)
+z = x | y  # z = tf.logical_or(x, y)
+z = x ^ y  # z = tf.logical_xor(x, y)
+z = ~x  # z = tf.logical_not(x)
+```
+
+你也可以使用这些操作符的增广版本，如 `x += y`和`x **=2`同样是合法的。  
+注意到 python 不允许重载`and`，`or`和`not`等关键字。  
+
+TensorFlow 也不允许把张量当成`boolean`类型使用，因为这个很容易出错：
+
+```python
+x = tf.constant(1.)
+if x:  # 这个将会抛出TypeError错误
+    ...
+```
+
+如果你想要检查这个张量的值的话，你也可以使用`tf.cond(x,...)`，或者使用`if x is None`去检查这个变量的值。  
+
+有些操作是不支持的，比如说等于判断`==`和不等于判断`!=`运算符，这些在 numpy 中得到了重载，但在 TF 中没有重载。如果需要使用，请使用这些功能的函数版本`tf.equal()`和`tf.not_equal()`。
+
+## 七、理解执行顺序和控制依赖
+
+我们知道，TensorFlow 是属于符号式编程的，它不会直接运行定义了的操作，而是在计算图中创造一个相关的节点，这个节点可以用`Session.run()`进行执行。这个使得 TF 可以在优化过程中决定优化的顺序，并且在运算中剔除一些不需要使用的节点，而这一切都发生在运行中。如果你只是在计算图中使用`tf.Tensors`，你就不需要担心依赖问题，但是你更可能会使用`tf.Variable()`，这个操作使得问题变得更加困难。笔者的建议是如果张量不能满足这个工作需求，那么仅仅使用`Variables`就足够了。这个可能不够直观，我们不妨先观察一个例子：
+
+```python
+import TensorFlow as tf
+
+a = tf.constant(1)
+b = tf.constant(2)
+a = a + b
+
+tf.Session().run(a)
+```
+
+计算`a`将会返回 3，就像期望中的一样。注意到我们现在有 3 个张量，两个常数张量和一个储存加法结果的张量。注意到我们不能重写一个张量的值，如果我们想要改变张量的值，我们就必须要创建一个新的张量，就像我们刚才做的那样。
+
+> **小提示：**如果你没有显式地定义一个新的计算图，TF 将会自动地为你构建一个默认的计算图。你可以使用`tf.get_default_graph()`去获得一个计算图的句柄，然后，你就可以查看这个计算图了。比如，可以打印属于这个计算图的所有张量之类的的操作都是可以的。如：
+
+```python
+print(tf.contrib.graph_editor.get_tensors(tf.get_default_graph()))
+```
+
+不像张量，变量可以更新，所以让我们用变量去实现我们刚才的需求：
+
+```python
+a = tf.Variable(1)
+b = tf.constant(2)
+assign = tf.assign(a, a + b)
+
+sess = tf.Session()
+sess.run(tf.global_variables_initializer())
+print(sess.run(assign))
+```
+
+同样，我们得到了 3，正如预期一样。注意到`tf.assign()`返回的代表这个赋值操作的张量。目前为止，所有事情都显得很棒，但是让我们观察一个稍微有点复杂的例子吧：
+
+```python
+a = tf.Variable(1)
+b = tf.constant(2)
+c = a + b
+
+assign = tf.assign(a, 5)
+
+sess = tf.Session()
+for i in range(10):
+    sess.run(tf.global_variables_initializer())
+    print(sess.run([assign, c]))
+```
+
+注意到，张量`c`并没有一个确定性的值。这个值可能是 3 或者 7，取决于加法和赋值操作谁先运行。  
+
+你应该也注意到了，你在代码中定义操作的顺序是不会影响到在 TF 运行时的执行顺序的，唯一会影响到执行顺序的是**控制依赖**。控制依赖对于张量来说是直接的。每一次你在操作中使用一个张量时，操作将会定义一个对于这个张量来说的隐式的依赖。但是如果你同时也使用了变量，事情就变得更糟糕了，因为变量可以取很多值。  
+
+当处理这些变量时，你可能需要显式地去通过使用`tf.control_dependencies()`去控制依赖，如：
+
+```python
+a = tf.Variable(1)
+b = tf.constant(2)
+c = a + b
+
+with tf.control_dependencies([c]):
+    assign = tf.assign(a, 5)
+
+sess = tf.Session()
+for i in range(10):
+    sess.run(tf.global_variables_initializer())
+    print(sess.run([assign, c]))
+```
+
+这会确保赋值操作在加法操作之后被调用。
+
+## 八、控制流操作：条件和循环
+
+在构建复杂模型（如循环神经网络）时，你可能需要通过条件和循环来控制操作流。 在本节中，我们将介绍一些常用的控制流操作。
+
+假设你要根据谓词决定，是否相乘或相加两个给定的张量。这可以简单地用`tf.cond`实现，它充当 python "if" 函数：
+
+```py
+a = tf.constant(1)
+b = tf.constant(2)
+
+p = tf.constant(True)
+
+x = tf.cond(p, lambda: a + b, lambda: a * b)
+
+print(tf.Session().run(x))
+```
+
+由于在这种情况下谓词为`True`，因此输出将是加法的结果，即 3。
+
+大多数情况下，使用 TensorFlow 时，你使用的是大型张量，并希望批量执行操作。 相关的条件操作是`tf.where`，类似于`tf.cond`，它接受谓词，但是基于批量中的条件来选择输出。
+
+```py
+a = tf.constant([1, 1])
+b = tf.constant([2, 2])
+
+p = tf.constant([True, False])
+
+x = tf.where(p, a + b, a * b)
+
+print(tf.Session().run(x))
+```
+
+这将返回`[3,2]`。
+
+另一种广泛使用的控制流操作是`tf.while_loop`。 它允许在 TensorFlow 中构建动态循环，这些循环操作可变长度的序列。 让我们看看如何使用`tf.while_loops`生成斐波那契序列：
+
+```py
+n = tf.constant(5)
+
+def cond(i, a, b):
+    return i < n
+
+def body(i, a, b):
+    return i + 1, b, a + b
+
+i, a, b = tf.while_loop(cond, body, (2, 1, 1))
+
+print(tf.Session().run(b))
+```
+
+这将打印 5。除了循环变量的初始值之外，`tf.while_loops`还接受条件函数和循环体函数。 然后通过多次调用循环体函数来更新这些循环变量，直到条件返回`False`。
+
+现在想象我们想要保留整个斐波那契序列。 我们可以更新我们的循环体来记录当前值的历史：
+
+```py
+n = tf.constant(5)
+
+def cond(i, a, b, c):
+    return i < n
+
+def body(i, a, b, c):
+    return i + 1, b, a + b, tf.concat([c, [a + b]], 0)
+
+i, a, b, c = tf.while_loop(cond, body, (2, 1, 1, tf.constant([1, 1])))
+
+print(tf.Session().run(c))
+```
+
+现在，如果你尝试运行它，TensorFlow 会报错，第四个循环变量的形状改变了。 因此，你必须明确指出它是有意的：
+
+```py
+i, a, b, c = tf.while_loop(
+    cond, body, (2, 1, 1, tf.constant([1, 1])),
+    shape_invariants=(tf.TensorShape([]),
+                      tf.TensorShape([]),
+                      tf.TensorShape([]),
+                      tf.TensorShape([None])))
+```
+
+这不仅变得丑陋，而且效率也有些低下。 请注意，我们正在构建许多我们不使用的中间张量。 TensorFlow 为这种不断增长的阵列提供了更好的解决方案。 看看`tf.TensorArray`。 让我们这次用张量数组做同样的事情：
+
+```py
+n = tf.constant(5)
+
+c = tf.TensorArray(tf.int32, n)
+c = c.write(0, 1)
+c = c.write(1, 1)
+
+def cond(i, a, b, c):
+    return i < n
+
+def body(i, a, b, c):
+    c = c.write(i, a + b)
+    return i + 1, b, a + b, c
+
+i, a, b, c = tf.while_loop(cond, body, (2, 1, 1, c))
+
+c = c.stack()
+
+print(tf.Session().run(c))
+```
+
+TensorFlow while 循环和张量数组是构建复杂的循环神经网络的基本工具。 作为练习，尝试使用`tf.while_loops`实现[集束搜索（beam search）](https://en.wikipedia.org/wiki/Beam_search)。 使用张量数组可以使效率更高吗？
+
+## 九、使用 Python 操作设计核心和高级可视化
+
+TensorFlow 中的操作核心完全用 C++ 编写，用于提高效率。 但是用 C++ 编写 TensorFlow 核心可能会非常痛苦。因此，在花费数小时实现核心之前，你可能希望快速创建原型，但效率低下。使用`tf.py_func()`，你可以将任何一段 python 代码转换为 TensorFlow 操作。
+
+例如，这就是如何在 TensorFlow 中将一个简单的 ReLU 非线性核心实现为 python 操作：
+
+```py
+import numpy as np
+import tensorflow as tf
+import uuid
+
+def relu(inputs):
+    # Define the op in python
+    def _relu(x):
+        return np.maximum(x, 0.)
+
+    # Define the op's gradient in python
+    def _relu_grad(x):
+        return np.float32(x > 0)
+
+    # An adapter that defines a gradient op compatible with TensorFlow
+    def _relu_grad_op(op, grad):
+        x = op.inputs[0]
+        x_grad = grad * tf.py_func(_relu_grad, [x], tf.float32)
+        return x_grad
+
+    # Register the gradient with a unique id
+    grad_name = "MyReluGrad_" + str(uuid.uuid4())
+    tf.RegisterGradient(grad_name)(_relu_grad_op)
+
+    # Override the gradient of the custom op
+    g = tf.get_default_graph()
+    with g.gradient_override_map({"PyFunc": grad_name}):
+        output = tf.py_func(_relu, [inputs], tf.float32)
+    return output
+```
+
+要验证梯度是否正确，可以使用 TensorFlow 的梯度检查器：
+
+```py
+x = tf.random_normal([10])
+y = relu(x * x)
+
+with tf.Session():
+    diff = tf.test.compute_gradient_error(x, [10], y, [10])
+    print(diff)
+```
+
+`compute_gradient_error()`以数值方式计算梯度，并返回提供的梯度的差。 我们想要的是非常低的差。
+
+请注意，此实现效率非常低，仅适用于原型设计，因为 python 代码不可并行化，不能在 GPU 上运行。 一旦验证了你的想法，你肯定会想把它写成 C++ 核心。
+
+在实践中，我们通常使用 python 操作在 Tensorboard 上进行可视化。 考虑你正在构建图像分类模型，并希望在训练期间可视化模型的预测情况。TensorFlow 允许使用`tf.summary.image()`函数可视化图像：
+
+```py
+image = tf.placeholder(tf.float32)
+tf.summary.image("image", image)
+```
+
+但这只能显示输入图像。 为了显示预测，你必须找到一种向图像添加注释的方法，这对现有操作几乎是不可能的。 更简单的方法是在 python 中绘制，并将其包装在 python 操作中：
+
+```py
+import io
+import matplotlib.pyplot as plt
+import numpy as np
+import PIL
+import tensorflow as tf
+
+def visualize_labeled_images(images, labels, max_outputs=3, name="image"):
+    def _visualize_image(image, label):
+        # Do the actual drawing in python
+        fig = plt.figure(figsize=(3, 3), dpi=80)
+        ax = fig.add_subplot(111)
+        ax.imshow(image[::-1,...])
+        ax.text(0, 0, str(label),
+          horizontalalignment="left",
+          verticalalignment="top")
+        fig.canvas.draw()
+
+        # Write the plot as a memory file.
+        buf = io.BytesIO()
+        data = fig.savefig(buf, format="png")
+        buf.seek(0)
+
+        # Read the image and convert to numpy array
+        img = PIL.Image.open(buf)
+        return np.array(img.getdata()).reshape(img.size[0], img.size[1], -1)
+
+    def _visualize_images(images, labels):
+        # Only display the given number of examples in the batch
+        outputs = []
+        for i in range(max_outputs):
+            output = _visualize_image(images[i], labels[i])
+            outputs.append(output)
+        return np.array(outputs, dtype=np.uint8)
+
+    # Run the python op.
+    figs = tf.py_func(_visualize_images, [images, labels], tf.uint8)
+    return tf.summary.image(name, figs)
+```
+
+请注意，由于摘要通常仅仅偶尔（不是每步）求值一次，因此可以在实践中使用此实现而不必担心效率。
+
+## 十、多 GPU 和数据并行
+
+如果你使用 C++ 等语言为单个 CPU 核心编写软件，并使其在多个 GPU 上并行运行，则需要从头开始重写软件。 但TensorFlow并非如此。 由于其象征性，TensorFlow 可以隐藏所有这些复杂性，使得无需在多个 CPU 和 GPU 上扩展程序。
+
+让我们以在 CPU 上相加两个向量的简单示例开始：
+
+```py
+ import tensorflow as tf
+
+with tf.device(tf.DeviceSpec(device_type="CPU", device_index=0)):
+    a = tf.random_uniform([1000, 100])
+    b = tf.random_uniform([1000, 100])
+    c = a + b
+
+tf.Session().run(c)
+```
+
+GPU 上可以做相同的事情：
+
+```py
+with tf.device(tf.DeviceSpec(device_type="GPU", device_index=0)):
+    a = tf.random_uniform([1000, 100])
+    b = tf.random_uniform([1000, 100])
+    c = a + b
+```
+
+但是，如果我们有两个 GPU 并且想要同时使用它们呢？ 为此，我们可以拆分数据并使用单独的 GPU 来处理每一半：
+
+```py
+split_a = tf.split(a, 2)
+split_b = tf.split(b, 2)
+
+split_c = []
+for i in range(2):
+    with tf.device(tf.DeviceSpec(device_type="GPU", device_index=i)):
+        split_c.append(split_a[i] + split_b[i])
+
+c = tf.concat(split_c, axis=0)
+```
+
+让我们以更一般的形式重写它，以便我们可以用任何其他操作替换加法：
+
+```py
+def make_parallel(fn, num_gpus, **kwargs):
+    in_splits = {}
+    for k, v in kwargs.items():
+        in_splits[k] = tf.split(v, num_gpus)
+
+    out_split = []
+    for i in range(num_gpus):
+        with tf.device(tf.DeviceSpec(device_type="GPU", device_index=i)):
+            with tf.variable_scope(tf.get_variable_scope(), reuse=i > 0):
+                out_split.append(fn(**{k : v[i] for k, v in in_splits.items()}))
+
+    return tf.concat(out_split, axis=0)
+
+
+def model(a, b):
+    return a + b
+
+c = make_parallel(model, 2, a=a, b=b)
+```
+
+你可以使用任何接受一组张量作为输入的函数替换模型，并在输入和输出都是批量的条件下，返回张量作为结果。请注意，我们还添加了一个变量作用域并将复用设置为`True`。这确保我们使用相同的变量来处理两个分割。在我们的下一个例子中，这将变得很方便。
+
+让我们看一个稍微更实际的例子。我们想在多个 GPU 上训练神经网络。在训练期间，我们不仅需要计算正向传播，还需要计算反向传播（梯度）。但是我们如何并行计算梯度呢？ 事实证明这很简单。
+
+回想一下第一节，我们想要将二次多项式拟合到一组样本。我们重新组织了一些代码，以便在模型函数中进行大量操作：
+
+```py
+import numpy as np
+import tensorflow as tf
+
+def model(x, y):
+    w = tf.get_variable("w", shape=[3, 1])
+
+    f = tf.stack([tf.square(x), x, tf.ones_like(x)], 1)
+    yhat = tf.squeeze(tf.matmul(f, w), 1)
+
+    loss = tf.square(yhat - y)
+    return loss
+
+x = tf.placeholder(tf.float32)
+y = tf.placeholder(tf.float32)
+
+loss = model(x, y)
+
+train_op = tf.train.AdamOptimizer(0.1).minimize(
+    tf.reduce_mean(loss))
+
+def generate_data():
+    x_val = np.random.uniform(-10.0, 10.0, size=100)
+    y_val = 5 * np.square(x_val) + 3
+    return x_val, y_val
+
+sess = tf.Session()
+sess.run(tf.global_variables_initializer())
+for _ in range(1000):
+    x_val, y_val = generate_data()
+    _, loss_val = sess.run([train_op, loss], {x: x_val, y: y_val})
+
+_, loss_val = sess.run([train_op, loss], {x: x_val, y: y_val})
+print(sess.run(tf.contrib.framework.get_variables_by_name("w")))
+```
+
+现在让我们使用我们刚刚编写的`make_parallel`来并行化它。我们只需要从上面的代码中更改两行代码：
+
+```py
+loss = make_parallel(model, 2, x=x, y=y)
+
+train_op = tf.train.AdamOptimizer(0.1).minimize(
+    tf.reduce_mean(loss),
+    colocate_gradients_with_ops=True)
+```
+
+为了更改为梯度的并行化反向传播，我们需要的唯一的东西是，将`colocate_gradients_with_ops`标志设置为`True`。这可确保梯度操作和原始操作在相同的设备上运行。
+
+## 十一、调试 TensorFlow 模型
+
+与常规 python 代码相比，TensorFlow 的符号性质使调试 TensorFlow 代码变得相对困难。 在这里，我们介绍 TensorFlow 的一些附带工具，使调试更容易。
+
+使用 TensorFlow 时可能出现的最常见错误，可能是将形状错误的张量传递给操作。 许多 TensorFlow 操作可以操作不同维度和形状的张量。 这在使用 API 时很方便，但在出现问题时可能会导致额外的麻烦。
+
+例如，考虑`tf.matmul`操作，它可以相乘两个矩阵：
+
+```py
+a = tf.random_uniform([2, 3])
+b = tf.random_uniform([3, 4])
+c = tf.matmul(a, b)  # c is a tensor of shape [2, 4]
+```
+
+
+但同样的函数也可以进行批量矩阵乘法：
+
+```py
+a = tf.random_uniform([10, 2, 3])
+b = tf.random_uniform([10, 3, 4])
+tf.matmul(a, b)  # c is a tensor of shape [10, 2, 4]
+```
+
+我们之前在广播部分谈到的另一个例子，是支持广播的加法操作：
+
+```py
+a = tf.constant([[1.], [2.]])
+b = tf.constant([1., 2.])
+c = a + b  # c is a tensor of shape [2, 2]
+```
+
+### 使用`tf.assert*`操作验证你的张量
+
+减少不必要行为的可能性的一种方法，是使用`tf.assert*`操作，明确验证中间张量的维度或形状。
+
+```py
+a = tf.constant([[1.], [2.]])
+b = tf.constant([1., 2.])
+check_a = tf.assert_rank(a, 1)  # This will raise an InvalidArgumentError exception
+check_b = tf.assert_rank(b, 1)
+with tf.control_dependencies([check_a, check_b]):
+    c = a + b  # c is a tensor of shape [2, 2]
+```
+
+请记住，断言节点像其他操作一样，是图形的一部分，如果不进行求值，则会在`Session.run()`期间进行修剪。 因此，请确保为断言操作创建显式依赖，来强制 TensorFlow 执行它们。
+
+你还可以使用断言，在运行时验证张量的值：
+
+```py
+check_pos = tf.assert_positive(a)
+```
+
+[断言操作的完整列表](https://www.tensorflow.org/api_guides/python/check_ops)请见官方文档。
+
+### 使用`tf.Print`记录张量的值
+
+用于调试的另一个有用的内置函数是`tf.Print`，它将给定的张量记录到标准错误：
+
+```py
+input_copy = tf.Print(input, tensors_to_print_list)
+```
+
+请注意，`tf.Print`返回第一个参数的副本作为输出。强制`tf.Print`运行的一种方法，是将其输出传递给另一个执行的操作。 例如，如果我们想在添加张量`a`和`b`之前，打印它们的值，我们可以这样做：
+
+```py
+a = ...
+b = ...
+a = tf.Print(a, [a, b])
+c = a + b
+```
+
+或者，我们可以手动定义控制依赖。
+
+### 使用`tf.compute_gradient_error`检查梯度
+
+TensorFlow 中并非所有操作都带有梯度，并且很容易在无意中构建 TensorFlow 无法计算梯度的图形。
+
+我们来看一个例子：
+
+```py
+import tensorflow as tf
+
+def non_differentiable_entropy(logits):
+    probs = tf.nn.softmax(logits)
+    return tf.nn.softmax_cross_entropy_with_logits(labels=probs, logits=logits)
+
+w = tf.get_variable("w", shape=[5])
+y = -non_differentiable_entropy(w)
+
+opt = tf.train.AdamOptimizer()
+train_op = opt.minimize(y)
+
+sess = tf.Session()
+sess.run(tf.global_variables_initializer())
+for i in range(10000):
+    sess.run(train_op)
+
+print(sess.run(tf.nn.softmax(w)))
+```
+
+我们使用`tf.nn.softmax_cross_entropy_with_logits`来定义类别分布的熵。然后我们使用 Adam 优化器来找到具有最大熵的权重。如果你通过了信息论课程，你就会知道均匀分布的熵最大。 所以你期望结果是`[0.2,0.2,0.2,0.2,0.2]`。 但如果你运行这个，你可能会得到意想不到的结果：
+
+```py
+[ 0.34081486  0.24287023  0.23465775  0.08935683  0.09230034]
+```
+
+事实证明，`tf.nn.softmax_cross_entropy_with_logits`的梯度对标签是未定义的！ 但如果我们不知道，我们怎么能发现它？
+
+幸运的是，TensorFlow 带有一个数值微分器，可用于查找符号梯度误差。 让我们看看我们如何使用它：
+
+```py
+with tf.Session():
+    diff = tf.test.compute_gradient_error(w, [5], y, [])
+    print(diff)
+```
+
+如果你运行它，你会发现数值和符号梯度之间的差异非常大（在我的尝试中为`0.06 - 0.1`）。
+
+现在让我们使用熵的可导版本，来修复我们的函数并再次检查：
+
+```py
+import tensorflow as tf
+import numpy as np
+
+def entropy(logits, dim=-1):
+    probs = tf.nn.softmax(logits, dim)
+    nplogp = probs * (tf.reduce_logsumexp(logits, dim, keep_dims=True) - logits)
+    return tf.reduce_sum(nplogp, dim)
+
+w = tf.get_variable("w", shape=[5])
+y = -entropy(w)
+
+print(w.get_shape())
+print(y.get_shape())
+
+with tf.Session() as sess:
+    diff = tf.test.compute_gradient_error(w, [5], y, [])
+    print(diff)
+```
+
+差应该约为 0.0001，看起来好多了。
+
+现在，如果再次使用正确的版本运行优化器，你可以看到最终权重为：
+
+```py
+[ 0.2  0.2  0.2  0.2  0.2]
+```
+
+这正是我们想要的。
+
+[TensorFlow 摘要](https://www.tensorflow.org/api_guides/python/summary)和 [tfdbg（TensorFlow 调试器）](https://www.tensorflow.org/api_guides/python/tfdbg)是可用于调试的其他工具。 请参阅官方文档来了解更多信息。
+
+## 十二、TensorFlow 中的数值稳定性
+
+当使用任何数值计算库（如 NumPy 或 TensorFlow）时，重要的是要注意，编写数学上正确的代码并不一定能产生正确的结果。 你还需要确保计算稳定。
+
+让我们从一个简单的例子开始吧。 从小学我们知道`x * y / y`等于`x`的任何非零值。 但是，让我们看看在实践中是否总是如此：
+
+```py
+import numpy as np
+
+x = np.float32(1)
+
+y = np.float32(1e-50)  # y would be stored as zero
+z = x * y / y
+
+print(z)  # prints nan
+```
+
+结果不正确的原因是`y`对于`float32`类型来说太小了。当`y`太大时会出现类似的问题：
+
+```py
+y = np.float32(1e39)  # y would be stored as inf
+z = x * y / y
+
+print(z)  # prints 0
+```
+
+`float32`类型可以表示的最小正值是`1.4013e-45`，低于该值的任何值都将存储为零。 此外，任何超过`3.40282e+38`的数字都将存储为`inf`。
+
+```py
+print(np.nextafter(np.float32(0), np.float32(1)))  # prints 1.4013e-45
+print(np.finfo(np.float32).max)  # print 3.40282e+38
+```
+
+为确保计算稳定，你需要避免使用绝对值非常小或大的值。这可能听起来非常明显，但这些问题可能变得非常难以调试，尤其是在 TensorFlow 中进行梯度下降时。这是因为你不仅需要确保正向传播中的所有值都在数据类型的有效范围内，而且还需要确保反向传播也相同（在梯度计算期间）。
+
+让我们看一个真实的例子。 我们想要在`logits`向量上计算 softmax。 一个朴素的实现看起来像这样：
+
+```py
+import tensorflow as tf
+
+def unstable_softmax(logits):
+    exp = tf.exp(logits)
+    return exp / tf.reduce_sum(exp)
+
+tf.Session().run(unstable_softmax([1000., 0.]))  # prints [ nan, 0.]
+```
+
+请注意，计算`logits`中相对较小数字的指数会产生浮点范围之外的巨大结果。 我们的初始 softmax 实现的最大有效`logit`是`ln(3.40282e + 38）= 88.7`，除此之外的任何东西都会产生`nan`结果。
+
+但是我们怎样才能让它更稳定呢？ 解决方案相当简单。 很容易看出`exp(x - c)/Σexp(x - c)= exp(x)/Σexp(x)`。 因此，我们可以从`logits`中减去任何常量，结果将保持不变。 我们选择此常量作为`logits`的最大值。 这样，指数函数的定义域将被限制为`[-inf，0]`，因此其值域将是`[0.0,1.0]`，这是预期的：
+
+```py
+import tensorflow as tf
+
+def softmax(logits):
+    exp = tf.exp(logits - tf.reduce_max(logits))
+    return exp / tf.reduce_sum(exp)
+
+tf.Session().run(softmax([1000., 0.]))  # prints [ 1., 0.]
+```
+
+让我们来看一个更复杂的案例。 考虑一下我们的分类问题。 我们使用 softmax 函数从我们的`logits`中产生概率。 然后，我们将损失函数定义为，我们的预测和标签之间的交叉熵。回想一下，分类分布的交叉熵可以简单地定义为`xe(p, q) = -∑ p_i log(q_i)`。 所以交叉熵的朴素实现看起来像这样：
+
+```py
+def unstable_softmax_cross_entropy(labels, logits):
+    logits = tf.log(softmax(logits))
+    return -tf.reduce_sum(labels * logits)
+
+labels = tf.constant([0.5, 0.5])
+logits = tf.constant([1000., 0.])
+
+xe = unstable_softmax_cross_entropy(labels, logits)
+
+print(tf.Session().run(xe))  # prints inf
+```
+
+注意，在此实现中，当 softmax 输出接近零时，`log`的输出接近无穷大，这导致我们的计算不稳定。 我们可以通过扩展 softmax 并进行一些简化来重写它：
+
+```py
+def softmax_cross_entropy(labels, logits):
+    scaled_logits = logits - tf.reduce_max(logits)
+    normalized_logits = scaled_logits - tf.reduce_logsumexp(scaled_logits)
+    return -tf.reduce_sum(labels * normalized_logits)
+
+labels = tf.constant([0.5, 0.5])
+logits = tf.constant([1000., 0.])
+
+xe = softmax_cross_entropy(labels, logits)
+
+print(tf.Session().run(xe))  # prints 500.0
+```
+
+我们还可以验证梯度是否也计算正确：
+
+```py
+g = tf.gradients(xe, logits)
+print(tf.Session().run(g))  # prints [0.5, -0.5]
+```
+
+是正确的。
+
+让我再次提醒一下，在进行梯度下降时必须格外小心，来确保函数范围以及每层的梯度都在有效范围内。 指数和对数函数在朴素使用时尤其成问题，因为它们可以将小数字映射到大数字，反之亦然。
+
+## 十三、使用学习 API 构建神经网络训练框架
+
+为简单起见，在这里的大多数示例中，我们手动创建会话，我们不关心保存和加载检查点，但这不是我们通常在实践中做的事情。你最有可能希望使用学习 API 来处理会话管理和日志记录。 我们提供了一个简单但实用的框架，用于使用 TensorFlow 训练神经网络。在本节中，我们将解释此框架的工作原理。
+
+在试验神经网络模型时，你通常需要进行训练/测试分割。你希望在训练集上训练你的模型，之后在测试集上评估它并计算一些指标。你还需要将模型参数存储为检查点，理想情况下，你希望能够停止和恢复训练。TensorFlow 的学习 API 旨在使这项工作更容易，让我们专注于开发实际模型。
+
+使用`tf.learn` API 的最基本方法是直接使用`tf.Estimator`对象。 你需要定义模型函数，它定义了损失函数，训练操作，一个或一组预测，以及一组用于求值的可选的指标操作：
+
+```py
+import tensorflow as tf
+
+def model_fn(features, labels, mode, params):
+    predictions = ...
+    loss = ...
+    train_op = ...
+    metric_ops = ...
+    return tf.estimator.EstimatorSpec(
+        mode=mode,
+        predictions=predictions,
+        loss=loss,
+        train_op=train_op,
+        eval_metric_ops=metric_ops)
+
+params = ...
+run_config = tf.contrib.learn.RunConfig(model_dir=FLAGS.output_dir)
+estimator = tf.estimator.Estimator(
+    model_fn=model_fn, config=run_config, params=params)
+```
+
+要训练模型，你只需调用`Estimator.train(0`函数，同时提供读取数据的输入函数。
+
+```py
+def input_fn():
+    features = ...
+    labels = ...
+    return features, labels
+
+estimator.train(input_fn=input_fn, max_steps=...)
+```
+
+要评估模型，只需调用`Estimator.evaluate()`：
+
+```py
+estimator.evaluate(input_fn=input_fn)
+```
+
+对于简单的情况，`Estimator`对象可能已经足够好了，但 TensorFlow 提供了一个名为`Experiment`的更高级别的对象，它提供了一些额外的有用功能。创建实验对象非常简单：
+
+```py
+experiment = tf.contrib.learn.Experiment(
+    estimator=estimator,
+    train_input_fn=train_input_fn,
+    eval_input_fn=eval_input_fn,
+    eval_metrics=eval_metrics)
+```
+
+现在我们可以调用`train_and_evaluate`函数来计算训练时的指标。
+
+```py
+experiment.train_and_evaluate()
+```
+
+更高级别的运行实验的方法，是使用`learn_runner.run()`函数。以下是我们的主函数在提供的框架中的样子：
+
+```py
+import tensorflow as tf
+
+tf.flags.DEFINE_string("output_dir", "", "Optional output dir.")
+tf.flags.DEFINE_string("schedule", "train_and_evaluate", "Schedule.")
+tf.flags.DEFINE_string("hparams", "", "Hyper parameters.")
+
+FLAGS = tf.flags.FLAGS
+
+def experiment_fn(run_config, hparams):
+  estimator = tf.estimator.Estimator(
+    model_fn=make_model_fn(), config=run_config, params=hparams)
+  return tf.contrib.learn.Experiment(
+    estimator=estimator,
+    train_input_fn=make_input_fn(tf.estimator.ModeKeys.TRAIN, hparams),
+    eval_input_fn=make_input_fn(tf.estimator.ModeKeys.EVAL, hparams),
+    eval_metrics=eval_metrics_fn(hparams))
+
+def main(unused_argv):
+  run_config = tf.contrib.learn.RunConfig(model_dir=FLAGS.output_dir)
+  hparams = tf.contrib.training.HParams()
+  hparams.parse(FLAGS.hparams)
+
+  estimator = tf.contrib.learn.learn_runner.run(
+    experiment_fn=experiment_fn,
+    run_config=run_config,
+    schedule=FLAGS.schedule,
+    hparams=hparams)
+
+if __name__ == "__main__":
+  tf.app.run()
+```
+
+`schedule`标志决定调用`Experiment`对象的哪个成员函数。 因此，如果你将`schedule`设置为`train_and_evaluate`，则会调用`experiment.train_and_evaluate()`。
+
+输入函数可以返回两个张量（或张量的字典），提供要传递给模型的特征和标签。
+
+```py
+def input_fn():
+    features = ...
+    labels = ...
+    return features, labels
+```
+
+对于如何使用数据集 API 读取数据的示例，请参阅[`mnist.py`](https://github.com/vahidk/TensorflowFramework/blob/master/dataset/mnist.py)。要了解在 TensorFlow 中阅读数据的各种方法，请参阅[这里](https://yiyibooks.cn/__trs__/wizard/effective-tf/13.html#data)。
+
+该框架还附带了一个简单的卷积网络分类器，在[`cnn_classifier.py`](https://github.com/vahidk/TensorflowFramework/blob/master/model/cnn_classifier.py)中，其中包含一个示例模型。
+
+就是这样！ 这就是开始使用 TensorFlow 学习 API 所需的全部内容。我建议你查看框架[源代码](https://github.com/vahidk/TensorFlowFramework)并查看官方 python API 来了解学习 API 的更多信息。
+
+## 十四、TensorFlow 秘籍
+
+本节包括在 TensorFlow 中实现的一组常用操作。
+
+### 集束搜索
+
+```py
+import tensorflow as tf
+
+def get_shape(tensor):
+  """Returns static shape if available and dynamic shape otherwise."""
+  static_shape = tensor.shape.as_list()
+  dynamic_shape = tf.unstack(tf.shape(tensor))
+  dims = [s[1] if s[0] is None else s[0]
+          for s in zip(static_shape, dynamic_shape)]
+  return dims
+
+def log_prob_from_logits(logits, axis=-1):
+  """Normalize the log-probabilities so that probabilities sum to one."""
+  return logits - tf.reduce_logsumexp(logits, axis=axis, keep_dims=True)
+
+def batch_gather(tensor, indices):
+  """Gather in batch from a tensor of arbitrary size.
+
+  In pseudocode this module will produce the following:
+  output[i] = tf.gather(tensor[i], indices[i])
+
+  Args:
+    tensor: Tensor of arbitrary size.
+    indices: Vector of indices.
+  Returns:
+    output: A tensor of gathered values.
+  """
+  shape = get_shape(tensor)
+  flat_first = tf.reshape(tensor, [shape[0] * shape[1]] + shape[2:])
+  indices = tf.convert_to_tensor(indices)
+  offset_shape = [shape[0]] + [1] * (indices.shape.ndims - 1)
+  offset = tf.reshape(tf.range(shape[0]) * shape[1], offset_shape)
+  output = tf.gather(flat_first, indices + offset)
+  return output
+
+def rnn_beam_search(update_fn, initial_state, sequence_length, beam_width,
+                    begin_token_id, end_token_id, name="rnn"):
+  """Beam-search decoder for recurrent models.
+
+  Args:
+    update_fn: Function to compute the next state and logits given the current
+               state and ids.
+    initial_state: Recurrent model states.
+    sequence_length: Length of the generated sequence.
+    beam_width: Beam width.
+    begin_token_id: Begin token id.
+    end_token_id: End token id.
+    name: Scope of the variables.
+  Returns:
+    ids: Output indices.
+    logprobs: Output log probabilities probabilities.
+  """
+  batch_size = initial_state.shape.as_list()[0]
+
+  state = tf.tile(tf.expand_dims(initial_state, axis=1), [1, beam_width, 1])
+
+  sel_sum_logprobs = tf.log([[1.] + [0.] * (beam_width - 1)])
+
+  ids = tf.tile([[begin_token_id]], [batch_size, beam_width])
+  sel_ids = tf.expand_dims(ids, axis=2)
+
+  mask = tf.ones([batch_size, beam_width], dtype=tf.float32)
+
+  for i in range(sequence_length):
+    with tf.variable_scope(name, reuse=True if i > 0 else None):
+
+      state, logits = update_fn(state, ids)
+      logits = log_prob_from_logits(logits)
+
+      sum_logprobs = (
+          tf.expand_dims(sel_sum_logprobs, axis=2) +
+          (logits * tf.expand_dims(mask, axis=2)))
+
+      num_classes = logits.shape.as_list()[-1]
+
+      sel_sum_logprobs, indices = tf.nn.top_k(
+          tf.reshape(sum_logprobs, [batch_size, num_classes * beam_width]),
+          k=beam_width)
+
+      ids = indices % num_classes
+
+      beam_ids = indices // num_classes
+
+      state = batch_gather(state, beam_ids)
+
+      sel_ids = tf.concat([batch_gather(sel_ids, beam_ids),
+                           tf.expand_dims(ids, axis=2)], axis=2)
+
+      mask = (batch_gather(mask, beam_ids) *
+              tf.to_float(tf.not_equal(ids, end_token_id)))
+
+  return sel_ids, sel_sum_logprobs
+```
+
+### 合并
+
+```py
+import tensorflow as tf
+
+def merge(tensors, units, activation=tf.nn.relu, name=None, **kwargs):
+  """Merge features with broadcasting support.
+
+  This operation concatenates multiple features of varying length and applies
+  non-linear transformation to the outcome.
+
+  Example:
+    a = tf.zeros([m, 1, d1])
+    b = tf.zeros([1, n, d2])
+    c = merge([a, b], d3)  # shape of c would be [m, n, d3].
+
+  Args:
+    tensors: A list of tensor with the same rank.
+    units: Number of units in the projection function.
+  """
+  with tf.variable_scope(name, default_name="merge"):
+    # Apply linear projection to input tensors.
+    projs = []
+    for i, tensor in enumerate(tensors):
+      proj = tf.layers.dense(
+          tensor, units, activation=None,
+          name="proj_%d" % i,
+          **kwargs)
+      projs.append(proj)
+
+    # Compute sum of tensors.
+    result = projs.pop()
+    for proj in projs:
+      result = result + proj
+
+    # Apply nonlinearity.
+    if activation:
+      result = activation(result)
+  return result
+```
+
+### 熵
+
+```py
+import tensorflow as tf
+
+def softmax(logits, dims=-1):
+  """Compute softmax over specified dimensions."""
+  exp = tf.exp(logits - tf.reduce_max(logits, dims, keep_dims=True))
+  return exp / tf.reduce_sum(exp, dims, keep_dims=True)
+
+def entropy(logits, dims=-1):
+  """Compute entropy over specified dimensions."""
+  probs = softmax(logits, dims)
+  nplogp = probs * (tf.reduce_logsumexp(logits, dims, keep_dims=True) - logits)
+  return tf.reduce_sum(nplogp, dims)
+```
+
+### KL 散度
+
+```py
+def gaussian_kl(q, p=(0., 0.)):
+  """Computes KL divergence between two isotropic Gaussian distributions.
+
+  To ensure numerical stability, this op uses mu, log(sigma^2) to represent
+  the distribution. If q is not provided, it's assumed to be unit Gaussian.
+
+  Args:
+    q: A tuple (mu, log(sigma^2)) representing a multi-variatie Gaussian.
+    p: A tuple (mu, log(sigma^2)) representing a multi-variatie Gaussian.
+  Returns:
+    A tensor representing KL(q, p).
+  """
+  mu1, log_sigma1_sq = q
+  mu2, log_sigma2_sq = p
+  return tf.reduce_sum(
+    0.5 * (log_sigma2_sq - log_sigma1_sq +
+           tf.exp(log_sigma1_sq - log_sigma2_sq) +
+           tf.square(mu1 - mu2) / tf.exp(log_sigma2_sq) -
+           1), axis=-1)
+```
+
+### 并行化
+
+```py
+def make_parallel(fn, num_gpus, **kwargs):
+  """Parallelize given model on multiple gpu devices.
+
+  Args:
+    fn: Arbitrary function that takes a set of input tensors and outputs a
+        single tensor. First dimension of inputs and output tensor are assumed
+        to be batch dimension.
+    num_gpus: Number of GPU devices.
+    **kwargs: Keyword arguments to be passed to the model.
+  Returns:
+    A tensor corresponding to the model output.
+  """
+  in_splits = {}
+  for k, v in kwargs.items():
+    in_splits[k] = tf.split(v, num_gpus)
+
+  out_split = []
+  for i in range(num_gpus):
+    with tf.device(tf.DeviceSpec(device_type="GPU", device_index=i)):
+      with tf.variable_scope(tf.get_variable_scope(), reuse=i > 0):
+        out_split.append(fn(**{k : v[i] for k, v in in_splits.items()}))
+
+  return tf.concat(out_split, axis=0)
+```
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/0.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/0.md
new file mode 100644
index 00000000..b4b94c18
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/0.md
@@ -0,0 +1,63 @@
+## 前言一
+
+由于计算，海量数据存储和互联网技术等关键领域的共同发展，机器学习领域呈现了巨大的发展。许多人的日常生活中的许多技术和事件，直接或间接地受到自动学习的影响。语音识别，手机上的图像分类或垃圾邮件检测等技术的例子，使得一些应用成为可能，它们只出现在十年前科幻小说中。股票市场模型或医疗模型中的学习的使用，对我们的社会产生了巨大的影响。此外，具有巡航控制，无人机和各种机器人的汽车将在不久的将来影响社会。
+
+深度学习是机器学习的一个子类型，自 2006 年重新发现以来，无疑是爆发性扩张的领域之一。事实上，硅谷的许多创业公司都专注于此，而谷歌，Facebook，微软或 IBM 等大型科技公司都有开发和研究团队。深度学习甚至引起了大学之外和研究领域的兴趣：许多专业杂志（如 Wired）甚至是通用杂志（如纽约时报，Bloomberg 或 BBC）为这个主题撰写了很多文章。
+
+这种兴趣促使许多学生，企业家和投资者加入深度学习。由于产生的所有兴趣，几个软件包已被制作成“开源”的。作为库的主要推动者之一，我们在 2012 年作为博士生在伯克利（Caffe）开发了它。我可以说，TensorFlow 将成为研究人员和中小企业公司用于实现他们的深度学习和机器学习的想法的主要工具之一，它出现在本书中并由 Google（加州）设计，我自 2013 年以来一直在那里研究它。对此的保证是参与该项目的工程师和顶尖研究人员的数量，它最终得到了开源。
+
+我希望这本入门书能够帮助有兴趣在这个非常有趣的领域开始冒险的读者。我要感谢作者，我很高兴了解到它传播这项技术的努力。在开源项目发布两个月后，他在创纪录的时间内写了这本书（首先是西班牙语版本）。这是巴塞罗那活力的另一个例子，它有兴趣成为这一技术场景中的参与者之一，无疑将影响我们的未来。
+
+Oriol Vinyals，Google Brain 的研究科学家
+
+
+## 前言二
+
+
+> 教育是你用来改变世界的最有力的武器。  
+> 
+> Nelson Mandela
+
+本书的目的是有助于将这些知识转播给工程师，它们希望在激动人心的机器学习世界中扩展智慧。我相信任何具有工程背景的人都可能会发现，深度学习和机器学习的应用对他们的工作很有价值。
+
+鉴于我的背景，读者可能会想知道为什么我提出了编写这种新的深度学习技术的挑战。我的研究重点是逐步从超级计算架构和运行时转向大数据工作负载的执行中间件，最近转向大规模数据的机器学习平台。
+
+正是作为一名工程师，而不是数据科学家，我认为我可以为这一主题贡献这种介绍性的方法，并且它对早期阶段的许多工程师都有帮助；然后他们会选择深入了解他们的需求。
+
+我希望这本书能为这个我非常喜爱的教育世界增添一些价值。我认为知识就是解放，应该让所有人都能获得。因此，本书的内容将在网站 [www.JordiTorres.eu/TensorFlow](http://www.jorditorres.eu/TensorFlow) 上完全免费提供。如果读者发现内容有用并认为适当补偿作者的写作，网站上有一个标签可以用于捐赠。另一方面，如果读者更喜欢选择纸质副本，你可以通过 Amazon.com 购买该书。
+
+本书还提供西班牙语版本。事实上，这本书是西班牙语的翻译，该书于去年 1 月完成，并在 GEMLeB Meetup（Grup d'Estudi de Machine Learning de Barcelona）中展示，我是其中一个共同组织者。
+
+感谢你阅读本书！它使我感到安慰，并证明了我写作的努力。那些了解我的人，知道技术传播是我的激情之一。它激励我继续学习。
+
+Jordi Torres，2016 年 2 月
+
+## 一种实用的方法
+
+> 告诉我，我会忘记。教我，我会记得。让我参与，我会学习。  
+> 
+> 本杰明·富兰克林
+
+深度学习的一个常见应用包括模式识别。因此，当你开始编程时，有个传统是打印“Hello World”，与它相同，在深度学习中，通常构造用于识别手写数字的模型 [1]。我将提供的第一个神经网络示例，也将允许我介绍这种名为 TensorFlow 的新技术。
+
+但是，我不打算写一本关于机器学习或深度学习的研究书籍，我只想尽快为每个人提供这个新的机器学习软件包 TensorFlow。因此，我向我的数据科学家们道歉，为了与普通读者分享这些知识，我允许自己进行某些简化。
+
+读者会在这里找到我在课堂上使用的常规结构；这会邀请你在学习的同时使用计算机的键盘。我们称之为“从实践中学习”，而我作为 UPC 教授的经历告诉我，这种方法对于尝试开始新主题的工程师来说非常有效。
+
+出于这个原因，这本书具有实用性，因此我尽可能地减少了理论部分。然而，当学习过程需要时，文本中已包含某些数学细节。
+
+我假设读者对机器学习有一些基本的理解，所以我将使用一些流行的算法逐步组织读者在 TensorFlow 中的训练。
+
+在第一章中，除了介绍TensorFlow将扮演重要角色的场景之外，我还借此机会解释TensorFlow程序的基本结构，并简要解释它在内部维护的数据。
+
+在第二章中，通过线性回归的一个例子，我将介绍一些代码基础知识，同时，如何调用学习过程中的各种重要组件，如损失函数或梯度下降优化算法。
+
+在第三章中，我展示了一个聚类算法，我将详细介绍 TensorFlow 的基本数据结构，称为`tensor`（张量），以及 TensorFlow 包提供的用于创建和管理张量的不同类和函数。
+
+第四章详细介绍了如何构建识别手写数字的单层神经网络。这将允许我们归纳上面提出的所有概念，以及查看创建和测试模型的整个过程。
+
+下一章首先介绍基于前一章中所见的神经网络概念，并介绍如何构建多层神经网络来获得更好的手写数字识别结果。它将更详细地介绍所谓的卷积神经网络。
+
+在第六章中，我们将讨论一个更具体的问题，利用 GPU 提供的计算能力，可能不是所有读者都感兴趣。如第 1 章所述，GPU 在神经网络的训练过程中发挥着重要作用。
+
+本书以后记结束，其中我强调了一些结论。我想强调的是，本书中的代码示例可以从本书 [2] 的 github 仓库下载。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/1.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/1.md
new file mode 100644
index 00000000..24e95a5e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/1.md
@@ -0,0 +1,194 @@
+## 1. TensorFlow 基础知识
+
+在本章中，我将简要介绍 TensorFlow 的代码及其编程模型。在本章的最后，读者可以在他们的个人计算机上安装 TensorFlow 软件包。
+
+### 开源软件包
+
+
+学术界已经对机器学习进行了数十年的调查，但直到近几年，它的渗透率在企业中也有所增加。这要归功于它已经拥有的大量数据以及现在可用的前所未有的计算能力。
+
+在这种情况下，毫无疑问，在 Alphabet 的支持下，谷歌是机器学习技术在其所有虚拟计划和产品中发挥关键作用的最大公司之一。
+
+去年10月，当 Alphabet 宣布那个季度谷歌的业绩，销售额和利润大幅增加时，首席执行官桑达皮采清楚地说：“机器学习是一种核心的，变革性的方式，我们正在重新思考我们正在做的一切”。
+
+从技术上讲，我们正面临着谷歌不是唯一一个重要角色的时代变迁。其他技术公司，如微软，Facebook，亚马逊和苹果等众多公司也在增加对这些领域的投资。
+
+在此背景下，几个月前谷歌在开源许可证（Apache 2.0）下发布了 TensorFlow 引擎。想要将机器学习纳入其项目和产品的开发人员和研究人员可以使用 TensorFlow，就像 Google 在内部使用 Gmail，Google 照片，搜索，语音识别等不同的商业产品一样。
+
+TensorFlow 最初是由 Google Brain Team 开发的，目的是进行机器学习和深度神经网络研究，但该系统足以应用于各种其他机器学习问题。
+
+由于我是一名工程师，而且我正在与工程师交谈，因此本书将深入了解数据流图如何表示算法。TensorFlow 可以看作是使用数据流图进行数值计算的库。图中的节点表示数学运算，而图的边表示多维数据数组（张量），它们将节点互连。
+
+TensorFlow 围绕构建和操作计算图的基本思想构建，象征性地表示要执行的数值运算。这使得 TensorFlow 现在可以从 Linux 64 位平台（如 Mac OS X）以及 Android 或 iOS 等移动平台中利用 CPU 和 GPU。
+
+这个新软件包的另一个优点是它的可视 TensorBoard 模块，它提供了大量有关如何监视和显示算法运行的信息。在创建更好的模型的过程中，能够测量和显示算法的行为是非常重要的。我感觉目前许多模型都是通过一个小型的盲目过程，通过试错来调优，明显浪费资源，以及最重要时间。
+
+### TensorFlow 服务
+
+
+最近 Google 推出了 TensorFlow 服务 [3]，这有助于开发人员将他们的 TensorFlow 机器学习模型（即使如此，也可以扩展来服务其他类型的模型）投入生产。TensorFlow 服务是一个开源服务系统（用 C++ 编写），现在可以在 Apache 2.0 许可下[在 GitHub ](http://tensorflow.github.io/serving/)上获得。
+
+TensorFlow 和 TensorFlow 服务有什么区别？ 在 TensorFlow 中，开发人员更容易构建机器学习算法，并针对某些类型的数据输入进行训练，TensorFlow 服务专门使这些模型可用于生产环境。我们的想法是开发人员使用 TensorFlow 训练他们的模型，然后他们使用 TensorFlow 服务的 API 来响应来自客户端的输入。
+
+这允许开发人员根据实际数据大规模试验不同的模型，并随时间变化，保持稳定的架构和 API。
+
+典型的流水线是将训练数据提供给学习器，学习器输出模型，模型在被验证之后准备好部署到 TensorFlow 服务系统。 随着时间的推移和新数据的出现，改进模型，启动和迭代我们的模型是很常见的。事实上，在 Google 的博文中 [4] 中，他们提到在谷歌，许多流水线都在持续运行，随着新数据的出现，产生了新的模型版本。
+
+![TensorFlowServing](https://jorditorres.org/wp-content/uploads/2016/04/TensorFlowServing.png)
+
+开发人员用来与 TensorFlow 服务进行通信的前端实现，基于 [gRPC](http://www.grpc.io/) ，这是一种来自 Google 的高性能开源RPC框架。
+
+如果你有兴趣了解 TensorFlow 服务的更多信息，我建议你先阅读服务架构概述 [5] 部分，设置你的环境并开始阅读基础教程 [6]。
+
+### TensorFlow 的安装
+
+
+是时候做一些事情了。从现在开始，我建议你交替阅读和在计算机上练习。
+
+TensorFlow 有 Python API（以及 C/C++），需要安装 Python 2.7（我假设任何阅读本书的工程师都知道如何操作）。
+
+通常，在使用 Python 时，应使用虚拟环境`virtualenv`。 `virtualenv`是一种工具，用于在同一台计算机的不同部分中保持不同项目所需的 Python 依赖关系。如果我们使用`virtualenv`来安装 TensorFlow，这将不会覆盖需要 TensorFlow 的其他项目的现有 Python 包版本。
+
+首先，如果尚未安装`pip`和`virtualenv`，则应安装，如下面的脚本所示：
+
+```
+# Ubuntu/Linux 64-bit 
+$ sudo apt-get install python-pip python-dev python-virtualenv 
+# Mac OS X 
+$ sudo easy_install pip
+$ sudo pip install --upgrade virtualenv
+```
+
+`~/tensorflow`目录中的环境`virtualenv`：
+
+`$ virtualenv --system-site-packages ~/tensorflow`
+
+下一步是激活`virtualenv`。这可以按如下方式完成：
+
+```
+$ source ~/tensorflow/bin/activate #  with bash 
+$ source ~/tensorflow/bin/activate.csh #  with csh  
+(tensorflow)$
+```
+
+我们工作的虚拟环境的名称，将从现在开始显示在每个命令行的开头。激活`virtualenv`后，你可以使用`pip`在其中安装 TensorFlow：
+
+```
+# Ubuntu/Linux 64-bit, CPU only:
+(tensorflow)$ sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.7.1-cp27-none-linux_x86_64.whl 
+
+# Mac OS X, CPU only:
+(tensorflow)$ sudo easy_install --upgrade six
+(tensorflow)$ sudo pip install --upgrade https://storage.googleapis.com/tensorflow/mac/tensorflow-0.7.1-cp27-none-any.whl
+```
+
+我建议你访问此处提供的官方文档，来确保你安装的是最新版本。
+
+如果运行代码的平台具有 GPU，要使用的包不同。我建议你访问官方文档，了解你的 GPU 是否符合支持 Tensorflow 所需的规范。运行 Tensorflow GPU 需要安装其他软件，所有信息都可以在下载和设置 TensorFlow [7] 网页上找到。对于使用 GPU 的更多信息，我建议阅读第 6 章。
+
+最后，当你完成后，你应该按如下方式禁用虚拟环境：
+
+```
+(tensorflow)$ deactivate
+```
+
+鉴于本书的介绍性质，我们建议读者访问上述官方文档页面，来查找安装 Tensorflow 的其他方法的更多信息。
+
+### 我在 TensorFlow 中的第一个代码
+
+正如我在开始时提到的那样，我们将通过很少的理论和大量练习来探索 TensorFlow 星球。开始吧！
+
+从现在开始，最好使用任何文本编辑器编写 python 代码并使用扩展名`.py`保存（例如`test.py`）。要运行代码，使用命令`python test.py`就足够了。
+
+为了获得 TensorFlow 程序的第一印象，我建议编写一个简单的乘法程序；代码看起来像这样：
+
+```py
+import tensorflow as tf
+  
+a = tf.placeholder("float")
+b = tf.placeholder("float")
+
+y = tf.mul(a, b)
+
+sess = tf.Session()
+
+print sess.run(y, feed_dict={a: 3, b: 3})
+```
+
+在此代码中，在导入 Python 模块`tensorflow`之后，我们定义“符号”变量，称为占位符，以便在程序执行期间操作它们。然后，我们将这些变量作为参数，调用 TensorFlow 提供的乘法函数。`tf.mul`是 TensorFlow 为操纵张量而提供的众多数学运算之一。在这个时候，张量可以认为是动态大小的多维数据数组。
+
+主要运算如下表所示：
+
+| 运算 | 描述 |
+| --- | --- |
+| `tf.add` | 加法 |
+| `tf.sub` | 减法 |
+| `tf.mul` | 乘法 |
+| `tf.div` | 除法 |
+| `tf.mod` | 模 |
+| `tf.abs` | 返回绝对值 |
+| `tf.neg` | 返回负值 |
+| `tf.sign` | 返回标志 |
+| `tf.inv` | 返回倒数 |
+| `tf.square` | 计算平方 |
+| `tf.round` | 返回最接近的整数 |
+| `tf.sqrt` | 计算平方根 |
+| `tf.pow` | 计算指数 |
+| `tf.exp` | 计算自然指数 |
+| `tf.log` | 计算自然对数 |
+| `tf.maximum` | 返回最大值 |
+| `tf.minimum` | 返回最小值 |
+| `tf.cos` | 计算余弦 |
+| `tf.sin` | 计算正弦 |
+
+TensorFlow 还为程序员提供了许多函数，来对矩阵执行数学运算。一些列在下面：
+
+| 运算 | 描述 |
+| --- | --- |
+| `tf.diag` | 返回具有给定对角线值的对角张量 |
+| `tf.transpose` | 返回参数的转置 |
+| `tf.matmul` | 返回由参数列出的两个张量的张量积 |
+| `tf.matrix_determinant` | 返回由参数指定的方阵的行列式 |
+| `tf.matrix_inverse` | 返回由参数指定的方阵的逆 |
+
+下一步，最重要的一步是创建一个会话来求解指定的符号表达式。实际上，到目前为止，这个 TensorFlow 代码尚未执行任何操作。我要强调的是，TensorFlow 既是表达机器学习算法的接口，又是运行它们的实现，这是一个很好的例子。
+
+程序通过使用`Session()`创建会话来与 Tensorflow 库交互；只有在我们调用`run()`方法时才会创建这个会话，这就是它真正开始运行指定代码的时候。在此特定示例中，使用`feed_dict`参数将变量的值传给`run()`方法。这里，相关代码求解表达式，并且从显示器返回 9 作为结果。
+
+通过这个简单的例子，我试图介绍在 TensorFlow 中编程的常规方法，首先指定整个问题，并最终创建一个可以运行相关计算的会话。
+
+然而，有时我们感兴趣的是构造代码的更多的灵活性，插入操作来构建某个图，这些操作运行它的一部分。例如，当我们使用 Python 的交互式环境时，例如 IPython [8]，就会发生这种情况。为此，TesorFlow 提供了`tf.InteractiveSession()`类。
+
+这种编程模型的动机超出了本书的范围。但是，为了继续下一章，我们只需要知道所有信息都在内部保存在图结构中，它包含所有操作和数据的信息。
+
+该图描述了数学运算。节点通常实现数学运算，但它们也可以表示数据输入，输出结果或读/写持久变量。边描述节点与其输入和输出之间的关系，同时携带张量，即 TensorFlow 的基本数据结构。
+
+将信息表示为图允许 TensorFlow 知道事务之间的依赖关系，并异步并行地将操作分配给设备，当这些操作已经具有可用的相关张量（在边缘输入中指示）时。
+
+因此，并行性是使我们能够加速一些计算昂贵的算法的执行的因素之一，但也因为 TensorFlow 已经有效地实现了一组复杂的操作。此外，大多数这些操作都具有关联的内核，这些内核是为特定设备（如 GPU）设计的操作的实现。下表总结了最重要的操作/内核 [9]：
+
+| 操作组 | 操作 |
+| --- | --- |
+| 数学 | 加，减，乘，除，指数，对数，大于，小于，等于 |
+| 排列 | 连接，切片，分割，常数，阶，形状，打乱 |
+| 矩阵 | MatMul，MatrixInverse，MatrixDeterminant |
+| 神经网络 | SoftMax，Sigmoid，ReLU，Convolution2D，MaxPool |
+| 检查点 | 保存，还原 |
+| 队列和同步 | Enqueue，Dequeue，MutexAcquire，MutexRelease |
+| 流量控制 | 合并，切换，进入，离开，NextIteration |
+
+### 显示面板 Tensorboard
+
+为了使其更加全面，TensorFlow 包含了名为 TensorBoard 的可视化工具来调试和优化程序的功能。TensorBoard 可以以图形方式查看计算图任何部分的参数和细节的不同类型的统计信息。
+
+TensorBoard 模块显示的数据在 TensorFlow 执行期间生成，并存储在跟踪文件中，其数据来自摘要操作。在 TensorFlow 的文档页面 [10] 中，你可以找到 Python API 的详细说明。
+
+我们调用它的方式非常简单：从命令行中使用 Tensorflow 命令启动服务，它包含要跟踪的文件作为参数。
+
+```
+(tensorflow)$ tensorboard --logdir=
+```
+
+你只需要使用`http//localhost：6006 /`从浏览器中 [11] 访问本地套接字 6006。
+
+名为 TensorBoard 的可视化工具超出了本书的范围。对于 Tensorboard 如何工作的更多详细信息，读者可以访问 TensorFlow 教程页面中的 TensorBoard 图形可视化 [12] 部分。  
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/2.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/2.md
new file mode 100644
index 00000000..e7de0ea3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/2.md
@@ -0,0 +1,235 @@
+## 2. TensorFlow 中的线性回归
+
+在本章中，我将开始使用简单模型：线性回归来探索 TensorFlow 编程。基于这个例子，我将介绍一些代码基础知识，以及，如何调用学习过程中的各种重要组件，如函数函数或算法梯度下降。
+
+### 变量之间的关系模型
+
+线性回归是一种用于衡量变量之间关系的统计技术。它的有趣之处在于实现它的算法在概念上不复杂，并且还可以适应各种各样的情况。由于这些原因，我发现用线性回归的例子开始深入研究 TensorFlow 很有意思。
+
+请记住，在两个变量（简单回归）和两个以上变量（多元回归）的情况下，线性回归拟合因变量和自变量之间的关系`xi`和随机项`b`。
+
+在本节中，我将创建一个简单的示例来解释 TensorFlow 如何工作，假设我们的数据模型对应简单的线性回归`y = W * x + b`。为此，我使用一个简单的 Python 程序在二维空间中创建数据，然后我会要求 TensorFlow 在这些点上寻找最适合的直线。
+
+首先要做的是导入我们将用于生成点的 NumPy 包。我们创建的代码如下：
+
+```py
+import numpy as np
+ 
+num_points = 1000
+vectors_set = []
+for i in xrange(num_points):
+         x1= np.random.normal(0.0, 0.55)
+         y1= x1 * 0.1 + 0.3 + np.random.normal(0.0, 0.03)
+         vectors_set.append([x1, y1])
+ 
+x_data = [v[0] for v in vectors_set]
+y_data = [v[1] for v in vectors_set]
+```
+
+从代码中可以看出，我们根据关系`y = 0.1 * x + 0.3`生成了点，尽管有一些正态分布的变化，因此这些点并不完全对应一条线，让我们编写一个更有趣的例子。
+
+在我们的例子中，所得到的点云是：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image014.png)
+
+读者可以使用以下代码查看它们（这里，我们需要导入`matplotlib`包的一些函数，运行`pip install matplotlib` [13]）：
+
+```py
+import matplotlib.pyplot as plt
+ 
+plt.plot(x_data, y_data, 'ro', label='Original data')
+plt.legend()
+plt.show()
+```
+
+这些点是我们将考虑的模型的训练数据集的数据。
+
+### 损失函数和梯度下降算法
+
+下一步是训练我们的学习算法，以便能够获得从输入数据`x_data`估计的输出值`y`。在这种情况下，正如我们事先所知，它是线性回归，我们只能用两个参数表示我们的模型：`W`和`b`。
+
+目标是生成 TensorFlow 代码，它能够找到最佳的参数`W`和`b`，它来自输入数据`x_data`，将其拟合到输出数据`y_data`，我们这里它是一条直线，由`y_data = W * x_data + b`定义。读者知道`W`应接近 0.1 且`b`为 0.3，但 TensorFlow 不知道它，必须自己实现。
+
+解决此类问题的一种标准方法是，遍历数据集的每个值并修改参数`W`和`b`，以便每次都能获得更精确的答案。为了确定我们是否在这些迭代中有所改进，我们将定义一个损失函数（也称为“误差函数”）来衡量某条线有多“好”（实际上是有多“坏”）。
+
+该函数接收参数`W`和`b`，并根据线与数据的拟合程度返回一个误差值。在我们的例子中，我们可以使用均方误差 [14] 作为损失函数。利用均方误差，我们得到“误差”的平均值，基于实际值与算法每次迭代估计值之间距离。
+
+稍后，我将详细介绍损失函数及其替代方法，但对于这个介绍性示例，均方误差有助于我们一步一步向前推进。
+
+现在是时候用 TensorFlow 编写我 解释过的所有内容了。为此，首先我们将使用以下语句创建三个变量：
+
+```py
+W = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
+b = tf.Variable(tf.zeros([1]))
+y = W * x_data + b
+```
+
+现在，我们可以继续前进，只知道方法`Variable`的调用定义了一个变量，驻留在 TensorFlow 的内部图数据结构中，我在上面已经说过了。 稍后我们将回到方法参数的更多信息，但是现在我认为最好继续前进来推进第一种方法。
+
+现在，通过定义这些变量，我们可以基于每个点与函数`y = W * x + b`计算的点之间的距离，来表示我们之前讨论的损失函数。之后，我们可以计算其平方和的平均值。 在 TensorFlow 中，此损失函数表示如下：
+
+```py
+loss = tf.reduce_mean(tf.square(y - y_data))
+```
+
+如我们所见，此表达式计算我们知道的`y_data`点与从输入`x_data`计算的点`y`之间的平方距离的平均值。
+
+此时，读者可能已经怀疑最适合我们数据的直线是误差值较小的直线。 因此，如果我们使误差函数最小，我们将找到我们数据的最佳模型。
+
+目前没有太多细节，这就是使函数最小的优化算法，称为梯度下降 [15]。 理论上，梯度下降是一种算法，它接受由一组参数定义的函数，它以一组初始参数值开始，并迭代地移向一组使函数最小的值。 在函数梯度 [16] 的负方向上移动来实现迭代式最小化。 通常计算距离平方来确保它是正的并且使误差函数可微分以便计算梯度。
+
+算法从一组参数的初始值开始（在我们的例子中为`W`和`b`），然后算法以某种方式迭代地调整这些变量的值，在过程结束时，变量的值使成本函数最小。
+
+要在 TensorFlow 中使用此算法，我们只需执行以下两个语句：
+
+```py
+optimizer = tf.train.GradientDescentOptimizer(0.5)
+train = optimizer.minimize(loss)
+```
+
+现在，这足以让 TensorFlow 在其内部数据结构中创建相关数据，并且在这个结构中也实现了一个可以由`train`调用的优化器，它是针对定义的成本函数的梯度下降算法。稍后，我们将讨论名为学习率的函数参数（在我们的示例中，值为 0.5）。
+
+### 运行算法
+
+正如我们之前所见，在代码的这个位置上，特定于 TensorFlow 库的调用，只向其内部图添加了信息，而 TensorFlow 的运行时尚未运行任何算法。因此，与前一章的示例一样，我们必须创建会话，调用`run`方法并传递`train`作为参数。另外，因为在代码中我们已经指定了变量，所以我们必须先使用以下调用对它们进行初始化：
+
+```py
+init = tf.initialize_all_variables()
+ 
+sess = tf.Session()
+sess.run(init)
+```
+
+现在我们可以开始迭代过程，这将允许我们找到`W`和`b`的值，它定义最适合输入点的模型直线。 训练过程一直持续到模型在训练数据上达到所需的准确度。 在我们的特定示例中，如果我们假设只有 8 次迭代就足够了，代码可能是：
+
+```py
+for step in xrange(8):
+   sess.run(train)
+print step, sess.run(W), sess.run(b)
+```
+
+运行此代码的结果表明，`W`和`b`的值接近我们事先知道的值。 在我的例子中，`print`的结果是：
+
+```py
+(array([ 0.09150752], dtype=float32), array([ 0.30007562], dtype=float32))
+```
+
+并且，如果我们使用以下代码以图形方式显示结果：
+
+```py
+plt.plot(x_data, y_data, 'ro')
+plt.plot(x_data, sess.run(W) * x_data + sess.run(b))
+plt.legend()
+plt.show()
+```
+
+我们可以用图形方式，看到参数`W = 0.0854`和`b = 0.299`定义的直线，只需 8 次迭代：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image016.png)
+
+请注意，我们只执行了八次迭代来简化说明，但如果我们运行更多，参数值会更接近预期值。 我们可以使用以下语句来打印`W`和`b`的值：
+
+```py
+print(step, sess.run(W), sess.run(b))
+```
+
+在我们的例子中，`print`输出是：
+
+```py
+(0, array([-0.04841119], dtype=float32), array([ 0.29720169], dtype=float32))
+(1, array([-0.00449257], dtype=float32), array([ 0.29804006], dtype=float32))
+(2, array([ 0.02618564], dtype=float32), array([ 0.29869056], dtype=float32))
+(3, array([ 0.04761609], dtype=float32), array([ 0.29914495], dtype=float32))
+(4, array([ 0.06258646], dtype=float32), array([ 0.29946238], dtype=float32))
+(5, array([ 0.07304412], dtype=float32), array([ 0.29968411], dtype=float32))
+(6, array([ 0.08034936], dtype=float32), array([ 0.29983902], dtype=float32))
+(7, array([ 0.08545248], dtype=float32), array([ 0.29994723], dtype=float32))
+```
+
+你可以观察到算法以`W = -0.0484`和`b = 0.2972`（在我们的例子中）的初始值开始，然后算法以一种方式迭代调整变量的值使损失函数最小。
+
+你还可以检查损失函数是否随之减少
+
+```py
+print(step, sess.run(loss))
+```
+
+在这种情况下，`print`输出是：
+
+```py
+(0, 0.015878126)
+(1, 0.0079048825)
+(2, 0.0041520335)
+(3, 0.0023856456)
+(4, 0.0015542418)
+(5, 0.001162916)
+(6, 0.00097872759)
+(7, 0.00089203351)
+```
+
+我建议读者在每次迭代时绘图，让我们可以直观地观察算法如何调整参数值。 在我们的例子中，8 个截图是：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image018.png)
+
+正如读者可以看到的，在算法的每次迭代中，直线更适合数据。 梯度下降算法如何更接近最小化损失函数的参数值？
+
+由于我们的误差函数由两个参数（`W`和`b`）组成，我们可以将它可视化为二维表面。 该二维空间中的每个点代表一条直线。 每个点的函数高度是该直线的误差值。 在该表面上，一些直线产生的误差值小于其他直线。 当 TensorFlow 运行梯度下降搜索时，它将从该表面上的某个位置开始（在我们的示例中，点`W = -0.04841119`和`b = 0.29720169`）并向下移动来查找具有最小误差的直线。
+
+要在此误差函数上运行梯度下降，TensorFlow 会计算其梯度。 梯度将像指南针一样，总是引导我们向下走。 为了计算它，TensorFlow 将对误差函数微分，在我们的情况下意味着它需要计算`W`和`b`的偏导数，它表明每次迭代中要移动的方向。
+
+之前提到的学习率参数控制每次迭代期间 TensorFlow 的每一步的下降程度。 如果我们引入的参数太大，我们可能会越过最小值。 但是，如果我们让 TensorFlow 采取较小步骤，则需要多次迭代才能达到最小值。 因此，使用良好的学习率至关重要。 有不同的技术来调整学习率参数的值，但它超出了本入门书的范围。 确保梯度下降算法正常工作的一种好方法，是确保每次迭代中的误差减小。
+
+请记住，为了便于读者测试本章所述的代码，你可以从本书的 Github [17] 下载`regression.py`。 在这里，你将发现所有东西都在一起以便跟踪：
+
+```py
+import numpy as np
+
+num_points = 1000
+vectors_set = []
+for i in xrange(num_points):
+         x1= np.random.normal(0.0, 0.55)
+         y1= x1 * 0.1 + 0.3 + np.random.normal(0.0, 0.03)
+         vectors_set.append([x1, y1])
+
+x_data = [v[0] for v in vectors_set]
+y_data = [v[1] for v in vectors_set]
+
+import matplotlib.pyplot as plt
+
+#Graphic display
+plt.plot(x_data, y_data, 'ro')
+plt.legend()
+plt.show()
+
+import tensorflow as tf
+
+W = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
+b = tf.Variable(tf.zeros([1]))
+y = W * x_data + b
+
+loss = tf.reduce_mean(tf.square(y - y_data))
+optimizer = tf.train.GradientDescentOptimizer(0.5)
+train = optimizer.minimize(loss)
+
+init = tf.initialize_all_variables()
+
+sess = tf.Session()
+sess.run(init)
+
+for step in xrange(8):
+     sess.run(train)
+     print(step, sess.run(W), sess.run(b))
+     print(step, sess.run(loss))
+
+     #Graphic display
+     plt.plot(x_data, y_data, 'ro')
+     plt.plot(x_data, sess.run(W) * x_data + sess.run(b))
+     plt.xlabel('x')
+     plt.xlim(-2,2)
+     plt.ylim(0.1,0.6)
+     plt.ylabel('y')
+     plt.legend()
+     plt.show()
+```
+
+在本章中，我们已经开始探索 TensorFlow 软件包的可能性，首先采用直观方法处理两个基本组件：损失函数和梯度下降算法，使用基本线性回归算法来介绍。 在下一章中，我们将详细介绍 TensorFlow 包使用的数据结构。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/3.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/3.md
new file mode 100644
index 00000000..d6d3a47e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/3.md
@@ -0,0 +1,442 @@
+# 3. TensorFlow 中的聚类
+
+前一章中介绍的线性回归是一种监督学习算法，我们使用数据和输出值（或标签）来构建适合它们的模型。但我们并不总是拥有标记数据，尽管如此，我们也希望以某种方式分析它们。在这种情况下，我们可以使用无监督学习算法，例如聚类。聚类方法被广泛使用，因为它通常是数据分析的初步筛选的好方法。
+
+在本章中，我将介绍名为 K-means 的聚类算法。它肯定是最受欢迎的，广泛用于自动将数据分组到相关的子集中，以便子集中的所有元素彼此更相似。在此算法中，我们没有任何目标或结果变量来预测估计值。
+
+我还将使用本章来介绍 TensorFlow 的知识，并在更详细地介绍名为`tensor`（张量）的基本数据结构。我将首先解释这种类型的数据是什么样的，并展示可以在其上执行的转换。然后，我将使用张量在案例研究中展示 K-means 算法的使用。
+
+### 基本数据结构：张量
+
+TensorFlow 程序使用称为张量的基本数据结构来表示其所有数据。张量可以被认为是动态大小的多维数据数组，其具有静态数据类型的属性，可以从布尔值或字符串到各种数字类型。下面是 Python 中的主要类型及其等价物的表格。
+
+
+| TensorFlow 中的类型 | Python 中的类型 | 描述 |
+| --- | --- | --- |
+| `DT_FLOAT` | `tf.float32` | 32 位浮点 |
+| `DT_INT16` | `tf.int16` | 16 位整数 |
+| `DT_INT32` | `tf.int32` | 32 位整数 |
+| `DT_INT64` | `tf.int64` | 64 位整数 |
+| `DT_STRING` | `tf.string` | 字符串 |
+| `DT_BOOL` | `tf.bool` | 布尔值 |
+
+另外，每个张量拥有阶（Rank），这是其维度的数量。例如，以下张量（在 Python 中定义为列表）的阶为 2：
+
+```
+t = [[1,2,3]，[4,5,6]，[7,8,9]]
+```
+
+张量可以有任何阶。二阶张量通常被认为是矩阵，一阶张量将是向量。零阶被认为是标量值。
+
+TensorFlow 文档使用三种类型的命名约定来描述张量的维度：形状（Shape），阶（Rank）和维数（Dimension Number）。下表显示了它们之间的关系，以便使跟踪 TensorFlow 文档更容易：
+
+
+| 形状 | 阶 | 维数 |
+| --- | --- | --- |
+| `[]` | 0 | 0-D |
+| `[D0]` | 1 | 1-D |
+| `[D0, D1]` | 2 | 2-D |
+| `[D0, D1, D2]` | 3 | 3-D |
+| … | … | … |
+| `[D0, D1, ... Dn]` | n | n-D |
+
+这些张量可以通过一系列 TensorFlow 软件包提供的转换进行操作。 下面，我们将在下表中讨论其中的一些内容。
+
+在本章中，我们将详细介绍其中一些内容。 可以在 TensorFlow 的官方网站 [18] 上找到完整的转换列表和详细信息。
+
+
+| 操作 | 描述 |
+| tf.shape | 获取张量的形状 |
+| tf.size | 获取张量的大小 |
+| tf.rank | 获取张量的阶 |
+| tf.reshape | 改变张量的形状，保持包含相同的元素 |
+| tf.squeeze | 删除大小为 1 的张量维度 |
+| tf.expand_dims | 将维度插入张量 |
+| tf.slice | 删除部分张量 |
+| tf.split | 将张量沿一个维度划分为多个张量 |
+| tf.tile | 将一个张量多次复制，并创建新的张量 |
+| tf.concat | 在一个维度上连接张量 |
+| tf.reverse | 反转张量的特定维度 |
+| tf.transpose | 转置张量中的维度 |
+| tf.gather | 根据索引收集部分 |
+
+例如，假设你要将`2×2000`（2D 张量）的数组扩展为立方体（3D 张量）。 我们可以使用`tf.expand_ dims`函数，它允许我们向张量插入一个维度：
+
+```py
+vectors = tf.constant(conjunto_puntos)
+extended_vectors = tf.expand_dims(vectors, 0)
+```
+
+在这种情况下，`tf.expand_dims`将一个维度插入到由参数给定的一个张量中（维度从零开始）。
+
+从视觉上看，上述转变如下：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image023.gif)
+
+如你所见，我们现在有了 3D 张量，但我们无法根据函数参数确定新维度 D0 的大小。
+
+如果我们使用`get_shape()`操作获得此`tensor`的形状，我们可以看到没有关联的大小：
+
+```py
+print expanded_vectors.get_shape()
+```
+
+它可能会显示：
+
+```py
+TensorShape([Dimension(1), Dimension(2000), Dimension(2)])
+```
+
+在本章的后面，我们将看到，由于 TensorFlow 形状广播， 张量的许多数学处理函数（如第一章所示），能够发现大小未指定的维度的大小，，并为其分配这个推导出的值。
+
+### TensorFlow 中的数据存储
+
+在介绍 TensorFlow 的软件包之后，从广义上讲，有三种主要方法可以在 TensorFlow 程序上获取数据：
+
+1.  来自数据文件。
+2.  数据作为常量或变量预加载。
+3.  那些由 Python 代码提供的。
+
+下面，我简要介绍其中的每一个。
+
+1)  **数据文件**
+
+通常，从数据文件加载初始数据。这个过程并不复杂，鉴于本书的介绍性质，我邀请读者访问TensorFlow 的网站 [19]，了解如何从不同文件类型加载数据。你还可以查看 Python 代码[`input_data.py`](https://github.com/jorditorresBCN/TutorialTensorFlow/blob/master/input_data.py) [20]（可在 Github 上找到），它从文件中加载 MNIST 数据（我将在下面几章使用它）。
+
+2)  **变量和常量**
+
+当谈到小集合时，也可以预先将数据加载到内存中；创建它们有两种基本方法，正如我们在前面的例子中看到的那样：
+
+*   `constant(…)`用于常量
+*   `Variable(…)`用于变量
+
+TensorFlow 包提供可用于生成常量的不同操作。在下表中，你可以找到最重要的操作的摘要：
+
+
+| 操作 | 描述 |
+| --- | --- |
+| `tf.zeros_like` | 创建一个张量，所有元素都初始化为 0 |
+| `tf.ones_like` | 创建一个张量，所有元素都初始化为 1 |
+| `tf.fill` | 创建一个张量，其中所有元素都初始化为由参数给出的标量值 |
+| `tf.constant` | 使用参数列出的元素创建常量张量 |
+
+在 TensorFlow 中，在模型的训练过程中，参数作为变量保存在存储器中。 创建变量时，可以使用由函数参数定义的张量作为初始值，该值可以是常量值或随机值。 TensorFlow 提供了一系列操作，可生成具有不同分布的随机张量：
+
+
+| 操作 | 描述 |
+| --- | --- |
+| `tf.random_normal` | 具有正态分布的随机值 |
+| `tf.truncated_normal` | 具有正态分布的随机值，但消除那些幅度大于标准差 2 倍的值 |
+| `tf.random_uniform` | 具有均匀分布的随机值 |
+| `tf.random_shuffle` | 在第一维中随机打乱张量元素 |
+| `tf.set_random_seed` | 设置随机种子 |
+
+一个重要的细节是，所有这些操作都需要特定形状的张量作为函数的参数，并且创建的变量具有相同的形状。 通常，变量具有固定的形状，但TensorFlow提供了在必要时对其进行重塑的机制。
+
+使用变量时，必须在构造图之后，在使用`run()`函数执行任何操作之前显式初始化这些变量。 正如我们所看到的，为此可以使用`tf.initialize_all_variables()`。 通过 TensorFlow 的`tf.train.Saver()`类，可以在训练模型时和之后将变量保存到磁盘上，但是这个类超出了本书的范围。
+
+3)  **由Python代码提供**
+
+最后，我们可以使用我们所谓的“符号变量”或占位符来在程序执行期间操作数据。调用是`placeholder()`，参数为元素类型和张量形状，以及可选的名称。
+
+从 Python 代码调用`Session.run()`或`Tensor.eval()`的同时，张量由`feed_dict`参数中指定的数据填充。回想第 1 章中的第一个代码：
+
+```py
+import tensorflow as tf
+a = tf.placeholder("float")
+b = tf.placeholder("float")
+y = tf.mul(a, b)
+sess = tf.Session()
+print sess.run(y, feed_dict={a: 3, b: 3})
+```
+
+在最后一行代码中，调用`sess.run()`时，我们传递两个张量`a`和`b`的值到`feed_dict`参数。
+
+通过张量的简要介绍，我希望从现在起读者可以毫不费力地读懂下面几章的代码。
+
+### K-Means 算法
+
+K-Means 是一种无监督算法，可以解决聚类问题。 它的过程遵循一种简单易行的方法，通过一定数量的簇（假设`k`簇）对给定数据集进行聚类。 簇内的数据点是同构的，不同簇的点是异构的，这意味着子集中的所有元素与其余元素相比更为相似。
+
+算法的结果是一组`K`个点，称为质心，它们是所得的不同组的焦点，以及点集的标签，这些点分配给其中一个簇。 簇内的所有点与质心的距离都比任何其他质心更近。
+
+如果我们想要直接最小化误差函数（所谓的 NP-hard 问题），那么簇的生成是一个计算上很昂贵的问题。因此，已经创建了一些算法，通过启发式在局部最优中快速收敛。 最常用的算法使用迭代优化技术，它在几次迭代中收敛。
+
+一般来讲，这种技术有三个步骤：
+
++   初始步骤（步骤 0）：确定`K`个质心的初始集合。
++   分配步骤（步骤 1）：将每个观测值分配到最近的组。
++   更新步骤（步骤 2）：计算每个新组的新质心。
+
+有几种方法可以确定初始`K`质心。 其中一个是在数据集中随机选择`K`个观测值并将它们视为质心；这是我们将在我们的示例中使用的那个。
+
+分配（步骤 1）和更新（步骤 2）的步骤在循环中交替，直到认为算法已经收敛为止，这可以是，例如，当点到组的分配不再改变的时候。
+
+由于这是一种启发式算法，因此无法保证它收敛于全局最优，结果取决于初始组。 因此，由于算法通常非常快，通常使用不同的初始质心值重复执行多次，然后权衡结果。
+
+要在 TensorFlow 中开始编写 K-means 的示例，我建议首先生成一些数据作为测试平台。 我建议做一些简单的事情，比如在 2D 空间中随机生成 2,000 个点，遵循二维正态分布来绘制一个空间，使我们能够更好地理解结果。 例如，我建议使用以下代码：
+
+```py
+num_puntos = 2000
+conjunto_puntos = []
+for i in xrange(num_puntos):
+   if np.random.random() &gt; 0.5:
+     conjunto_puntos.append([np.random.normal(0.0, 0.9), np.random.normal(0.0, 0.9)])
+   else:
+     conjunto_puntos.append([np.random.normal(3.0, 0.5), np.random.normal(1.0, 0.5)])
+```
+
+正如我们在前一章中所做的那样，我们可以使用一些 Python 图形库来绘制数据。 我建议像以前一样使用 matplotlib，但这次我们还将使用基于 matplotlib 的可视化包 Seaborn 和数据操作包 pandas，它允许我们使用更复杂的数据结构。
+
+如果未安装这些软件包，则必须先使用`pip`执行此操作，然后才能运行以下代码。
+
+要显示随机生成的点，我建议使用以下代码：
+
+```py
+import matplotlib.pyplot as plt
+import pandas as pd
+import seaborn as sns
+
+df = pd.DataFrame({"x": [v[0] for v in conjunto_puntos],
+        "y": [v[1] for v in conjunto_puntos]})
+sns.lmplot("x", "y", data=df, fit_reg=False, size=6)
+plt.show()
+```
+
+此代码生成二维空间中的点图，如下面的截图所示：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image024.png)
+
+在 TensorFlow 中实现的 k-means 算法将上述点分组，例如在四个簇中，可能像这样（基于 Shawn Simister 在他的博客中展示的模型 [21]）：
+
+```py
+import numpy as np
+vectors = tf.constant(conjunto_puntos)
+k = 4
+centroides = tf.Variable(tf.slice(tf.random_shuffle(vectors),[0,0],[k,-1]))
+
+expanded_vectors = tf.expand_dims(vectors, 0)
+expanded_centroides = tf.expand_dims(centroides, 1)
+
+assignments = tf.argmin(tf.reduce_sum(tf.square(tf.sub(expanded_vectors, expanded_centroides)), 2), 0)
+
+means = tf.concat(0, [tf.reduce_mean(tf.gather(vectors, tf.reshape(tf.where( tf.equal(assignments, c)),[1,-1])), reduction_indices=[1]) for c in xrange(k)])
+
+update_centroides = tf.assign(centroides, means)
+
+init_op = tf.initialize_all_variables()
+
+sess = tf.Session()
+sess.run(init_op)
+
+for step in xrange(100):
+   _, centroid_values, assignment_values = sess.run([update_centroides, centroides, assignments])
+```
+
+我建议读者使用以下代码检查`assignment_values`张量中的结果，该代码生成像上面那样的图：
+
+```py
+data = {"x": [], "y": [], "cluster": []}
+
+for i in xrange(len(assignment_values)):
+  data["x"].append(conjunto_puntos[i][0])
+  data["y"].append(conjunto_puntos[i][1])
+  data["cluster"].append(assignment_values[i])
+
+df = pd.DataFrame(data)
+sns.lmplot("x", "y", data=df, fit_reg=False, size=6, hue="cluster", legend=False)
+plt.show()
+```
+
+截图以及我的代码执行结果如下图所示：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image026.png)
+
+### 新的组
+
+我假设读者可能会对上一节中介绍的 K-means 代码感到有些不知所措。 好吧，我建议我们一步一步详细分析它，特别是观察涉及的张量以及它们在程序中如何转换。
+
+首先要做的是将所有数据移到张量。 在常数张量中，我们使初始点保持随机生成：
+
+```py
+vectors = tf.constant(conjunto_vectors)
+```
+
+按照上一节中介绍的算法，为了开始我们必须确定初始质心。 随着我前进，一个选项可能是，从输入数据中随机选择`K`个观测值。 一种方法是使用以下代码，它向 TensorFlow 表明，它必须随机地打乱初始点并选择前`K`个点作为质心：
+
+```py
+k = 4
+centroides = tf.Variable(tf.slice(tf.random_shuffle(vectors),[0,0],[k,-1]))
+```
+
+这`K`个点存储在 2D 张量中。 要知道这些张量的形状，我们可以使用`tf.Tensor.get_shape()`：
+
+```py
+print vectors.get_shape()
+print centroides.get_shape()
+
+TensorShape([Dimension(2000), Dimension(2)])
+TensorShape([Dimension(4), Dimension(2)])
+```
+
+我们可以看到`vectors`是一个数组，D0 维包含 2000 个位置，每个位置一个向量，D1 的位置是每个点`x, y`。 相反，`centroids`是一个矩阵，维度 D0 有四个位置，每个质心一个位置，D1 和`vectors`相同。
+
+接下来，算法进入循环。 第一步是为每个点计算其最接近的质心，根据平方欧几里德距离 [22]（只能在我们想要比较距离时使用）：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image028.jpg)
+
+为了计算该值，使用`tf.sub(vectors, centroides`。 我们应该注意到，虽然减法的两个张量都有 2 个维度，但它们在一个维度上大小不同（维度 D0 为 2000 和 4），实际上它们也代表不同的东西。
+
+为了解决这个问题，我们可以使用之前讨论过的一些函数，例如`tf.expand_dims`，以便在两个张量中插入一个维度。 目的是将两个张量从 2 维扩展到 3 维来使尺寸匹配，以便执行减法：
+
+```py
+expanded_vectors = tf.expand_dims(vectors, 0)
+expanded_centroides = tf.expand_dims(centroides, 1)
+```
+
+`tf.expand_dims`在每个张量中插入一个维度；在`vectors`张量的第一维（D0），以及`centroides`张量的第二维（D1）。 从图形上看，我们可以看到，在扩展后的张量中，每个维度具有相同的含义：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image031.gif)
+
+它似乎得到了解决，但实际上，如果你仔细观察（在插图中概述），在每种情况下都有大小无法确定的些维度。 请记住，使用`get_shape()`函数我们可以发现：
+
+```py
+print expanded_vectors.get_shape()
+print expanded_centroides.get_shape()
+```
+
+输出如下：
+
+```py
+TensorShape([Dimension(1), Dimension(2000), Dimension(2)])
+TensorShape([Dimension(4), Dimension(1), Dimension(2)])
+```
+
+使用 1 表示没有指定大小。
+
+但我已经展示 TensorFlow 允许广播，因此`tf.sub`函数能够自己发现如何在两个张量之间将元素相减。
+
+直观地，并且观察先前的附图，我们看到两个张量的形状匹配，并且在这些情况下，两个张量在一定维度上具有相同的尺寸。 这些数学，如 D2 维度所示。 相反，在维度 D0 中只有`expanded_centroides`的定义大小。
+
+在这种情况下，如果我们想要在此维度内对元素执行减法，则 TensorFlow 假定`expanded_vectors`张量的维度 D0 必须是相同的大小。
+
+对于`expended_centroides`张量的维度 D1 的大小也是如此，其中 TensorFlow 推导出`expanded_vectors`张量的尺寸 D1 的大小。
+
+因此，在分配步骤（步骤 1）中，算法可以用 TensorFlow 代码的这四行表示，它计算平方欧几里德距离：
+
+```py
+diff=tf.sub(expanded_vectors, expanded_centroides)
+sqr= tf.square(diff)
+distances = tf.reduce_sum(sqr, 2)
+assignments = tf.argmin(distances, 0)
+```
+
+而且，如果我们看一下张量的形状，我们会看到它们分别对应`diff`，`sqr`，`distance`和`assign`，如下所示：
+
+```py
+TensorShape([Dimension(4), Dimension(2000), Dimension(2)])
+TensorShape([Dimension(4), Dimension(2000), Dimension(2)])
+TensorShape([Dimension(4), Dimension(2000)])
+TensorShape([Dimension(2000)])
+```
+
+也就是说，`tf.sub`函数返回了张量`dist`，其中包含质心和向量的坐标的差（维度 D1 表示数据点，D0 表示质心，每个坐标`x, y`在维度 D2 中表示）。
+
+`sqr`张量包含它们的平方。 在`dist`张量中，我们可以看到它已经减少了一个维度，它在`tf.reduce_sum`函数中表示为一个参数。
+
+我用这个例子来解释 TensorFlow 提供的几个操作，它们可以用来执行减少张量维数的数学运算，如`tf.reduce_sum`。在下表中，你可以找到最重要的操作摘要。
+
+
+| 操作 | 描述 |
+| --- | --- |
+| tf.reduce_sum | 沿一个维度计算元素总和 |
+| tf.reduce_prod | 沿一个维度计算元素的乘积 |
+| tf.reduce_min | 沿一个维度计算元素最小值 |
+| tf.reduce_max | 沿一个维度计算元素最大值 |
+| tf.reduce_mean | 沿一个维度计算元素平均值 |
+
+最后，使用`tf.argmin`实现分配，它返回张量的某个维度的最小值的索引（在我们的例子中是 D0，记得它是质心）。 我们还有`tf.argmax`操作：
+
+| 手术 | 描述 |
+| --- | --- |
+| tf.argmin | 沿某个维度返回最小值的索引 |
+| tf.argmax | 沿某个维度返回最大值的索引 |
+
+事实上，上面提到的 4 条语句可以在一行代码中汇总，正如我们在上一节中看到的那样：
+
+```py
+assignments = tf.argmin(tf.reduce_sum(tf.square(tf.sub(expanded_vectors, expanded_centroides)), 2), 0)
+```
+
+但无论如何，内部的`tensors`，以及它们定义为节点和执行的内部图的操作，就像我们之前描述的那样。
+
+### 计算新的质心
+
+
+在那段代码中，我们可以看到`means`张量是`k`张量的连接结果，它们对应属于每个簇的每个点的平均值。
+
+接下来，我将评论每个 TensorFlow 操作，这些操作涉及计算属于每个簇的每个点的平均值 [23]。
+
+*   使用`equal`，我们可以得到布尔张量（`Dimension(2000)`），它（使用`true`）表示`assignments`张量`K`个簇匹配的位置，当时我们正在计算点的平均值。
+*   使用`where`构造一个张量（`Dimension(1) x Dimension(2000)`），带有布尔张量中值为`true`的位置，布尔张量作为参数接收的_布尔张量_。
+*   用`reshape`构造张量（`Dimension(2000) x Dimension(1)`），其中`vectors`张量内的点的索引属于簇`c`。
+*   用`gather`构造张量（`Dimension(1) x Dimension(2000)`），它收集形成簇`c`的点的坐标。
+*   使用`reduce_mean`，构造张量_（`Dimension(1) x Dimension(2)`）_，其中包含属于簇`c`的所有点的平均值。
+
+无论如何，如果读者想要深入研究代码，正如我常说的那样，你可以在 TensorFlow   API 页面上找到有关这些操作的更多信息，以及非常具有说明性的示例 [24]。
+
+### 图表执行
+
+
+最后，我们必须描述上述代码中，与循环相对应的部分，以及使用`means`张量的新值更新质心的部分。
+
+为此，我们需要创建一个操作，它将`means`张量的值分配到质心中，而不是在执行操作`run()`时，更新的质心的值在循环的下一次迭代中使用：
+
+```py
+update_centroides = tf.assign(centroides, means)
+```
+
+在开始运行图之前，我们还必须创建一个操作来初始化所有变量：
+
+```py
+init_op = tf.initialize_all_variables()
+```
+
+此时一切准备就绪。 我们可以开始运行图了：
+
+```py
+sess = tf.Session()
+sess.run(init_op)
+
+for step in xrange(num_steps):
+   _, centroid_values, assignment_values = sess.run([update_centroides, centroides, assignments])
+```
+
+在此代码中，每次迭代中，更新每个初始点的质心和新的簇分配。
+
+请注意，代码指定了三个操作，它必须查看`run()`调用的执行，并按此顺序运行。 由于要搜索三个值，`sess.run()`会在训练过程中返回元素为三个 numpy 数组的数据结构，内容为相应张量。
+
+由于`update_centroides`是一个结果是不返回的参数的操作，因此返回元组中的相应项不包含任何内容，因此被排除，用`_`来表示 [25] 。
+
+对于其他两个值，质心和每个簇的分配点，我们有兴趣在完成所有`num_steps`次迭代后在屏幕上显示它们。
+
+我们可以使用简单的打印。 输出如下：
+
+```py
+print centroid_values
+
+[[ 2.99835277e+00 9.89548564e-01]
+[ -8.30736756e-01 4.07433510e-01]
+[ 7.49640584e-01 4.99431938e-01]
+[ 1.83571398e-03 -9.78474259e-01]]
+```
+
+我希望读者的屏幕上有类似的值，因为这表明他已成功执行了本书这一章中展示的代码。
+
+我建议读者在继续之前尝试更改代码中的任何值。 例如`num_points`，特别是`k`的数量，并使用生成图的先前代码查看它如何更改`assignment_values`张量中的结果。
+
+请记住，为了便于测试本章所述的代码，可以从 Github [26] 下载。 包含此代码的文件名是`Kmeans.py`。
+
+在本章中，我们展示了 TensorFlow 的一些知识，特别是基本数据结构张量，它来自实现 KMeans 聚类算法的 TensorFlow 代码示例。
+
+有了这些知识，我们就可以在下一章中逐步使用 TensorFlow 构建单层神经网络。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/4.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/4.md
new file mode 100644
index 00000000..2072e25b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/4.md
@@ -0,0 +1,306 @@
+## 4. TensorFlow 中的单层神经网络
+
+在前言中，我评论说深度学习的一个常见用途包括模式识别。 考虑到这一点，就像初学者通过在屏幕上打印“Hello World”开始学习编程语言一样，在深度学习中，我们首先要识别手写数字。
+
+在本章中，我将介绍如何在 TensorFlow 中逐步构建具有单个层的神经网络。 这个神经网络将识别手写数字，它基于 TensorFlow 的初学者教程 [27] 的不同示例之一。
+
+鉴于本书的介绍风格，我选择引导读者，同时通过示例的某些步骤简化了一些概念和理论上的原因。
+
+如果读者在阅读本章后有兴趣了解这个示例的理论概念，我建议阅读神经网络和深度学习 [28]，可在线获取，它介绍了这个例子，但深入研究理论概念。
+
+
+### MNIST 数据集
+
+MNIST 数据集由一组包含手写数字的黑白图像组成，包含60,000 多个用于训练模型的示例，以及 10,000 个用于测试它的示例。 MNIST 数据集可以在 MNIST 数据库 [29] 中找到。
+
+这个数据集非常适合大多数开始在实例上进行模式识别的人，而不必花时间进行数据预处理或格式化，这是处理图像时的两个非常重要的步骤，但时间很长。
+
+黑白图像（二值）已经标准化为`20×20`像的素图像，保留了宽高比。 对于这种情况，我们注意到图像包含灰色像素 [30]，是归一化算法的结果（将所有图像的分辨率降低到最低级别之一）。 之后，通过计算质心并将其移动到帧的中心，图像以`28×28`像素帧为中心。 图像类似于此处显示的图像：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image034.png)
+
+此外，本例所需的学习类型是监督学习；图像用它们代表的数字标记。 这是最常见的机器学习形式。
+
+在这种情况下，我们首先收集数字图像的大数据集，每个数字都用其值标记。 在训练期间，模型接受图像并以得分向量的形式产生输出，每个类别一个得分。 我们希望所需类别在所有类别中得分最高，但这在训练之前不太可能发生。
+
+我们计算一个目标函数来衡量输出分数和所需分数模式之间的误差（正如我们在前面章节中所做的那样）。 然后，模型修改其内部可调参数，称为权重，来减少此误差。 在典型的深度学习系统中，可能存在数亿个这样的可调节权重，以及用于训练机器的数亿个标记示例。 我们将考虑一个较小的例子，来帮助理解这种模型的工作原理。
+
+要轻松下载数据，你可以使用从 Google 的网站 [32] 获取脚本`input_data.py`[31]，但它为你上传到的这本书的 github 上。 只需将代码`input_data.py`下载到使用 TensorFlow 编写神经网络的同一工作目录中。 在你的应用程序中，你只需要按以下方式导入和使用：
+
+```py
+import input_data
+mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
+```
+
+执行这两条指令后，你将在`mnist.train`中获得完整的训练数据集，并在`mnist.test`中设置测试数据。 如前所述，每个元素由一个图像组成，标记为`xs`，并且其对应的标签`ys`，以便更容易表达处理代码。 请记住，所有数据集，训练和测试集都包含`xs`和`ys`；此外，训练图像通过`mnist.train.images`引用，训练标签通过`mnist.train.labels`引用。
+
+如前所述，图像由`28×28`像素形成，并且可以表示为数字矩阵。 例如，数字 1 的图像之一可以表示为：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image036-1000x388.png)
+
+其中每个位置表示 0 到 1 之间每个像素的缺失度。 该矩阵可以表示为`28×28 = 784`个数的数组。 实际上，图像已经变换为 784 维度的向量空间中的一堆点中。 只是当我们将结构减少到 2 维时，我们可能会丢失部分信息，对于某些计算机视觉算法，这可能会影响他们的结果，但对于本教程中使用的最简单的方法，这不会是一个问题。
+
+总而言之，我们在 2D 中拥有张量`mnist.train.images`，其中调用函数`get_shape()`表示其形状：
+
+```py
+TensorShape([Dimension(60000), Dimension(784)])
+```
+
+第一维索引每个图像和第二维是每个像素。 张量的每个元素是 0 到 1 之间的每个像素的强度。
+
+此外，我们有 0 到 9 之间的数字形式的标签，表示每个图像代表哪个数字。 在这个例子中，我们将标签表示为 10 个位置的向量，其中所表示数字的对应位置是 1 而其余为 0。 所以`mnist.train.labels es`是形如`TensorShape([Dimension(60000), Dimension10)])`的张量。
+
+### 人造神经元
+
+虽然本书并未关注神经网络的理论概念，但简要而直观地介绍神经元如何学习训练数据，将有助于读者了解正在发生的事情。 那些已经了解该理论并且只是寻求如何使用 TensorFlow 的读者可以跳过本节。
+
+让我们看一个神经元如何学习的简单但说明性的例子。 假设有一组标记为“方形”和“圆形”的点。 给定一个新的点`X`，我们想知道对应哪个标签：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/Screen-Shot-2016-02-16-at-09.30.14.png)
+
+通常的近似可能是绘制一条划分两组的直线并将其用作分类器：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/Screen-Shot-2016-02-16-at-09.30.09.png)
+
+在这种情况下，输入数据由形状为`(x, y)`的向量表示，表示此二维空间中的坐标，并且我们的函数返回“0”或“1”（线上方或下方）来了解如何将其归类为“方形”或“圆形”。 在数学上，正如我们在线性回归章节中所学到的，“直线”（分类器）可以表示为`y = W * x + b`。
+
+推广时，神经元必须学习权重`W`（与输入数据`X`维度相同）和偏移量`b`（在神经元中称为偏置），来学习如何分类这些值。 利用它们，神经元将计算权重输入`X`和`W`的加权和，并添加偏移`b`；最后神经元将应用非线性“激活”函数来产生“0”或“1”的结果。
+
+神经元的功能可以更正式地表示为：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image043.png)
+
+在为我们的神经元定义了这个函数后，我们想知道神经元如何从带有“方块”和“圆圈”的标记数据中学习参数`W`和`b`，以便稍后标记新点`X`。
+
+第一种方法可以类似于我们对线性回归所做的，即用已知的标记数据喂养神经元，并将获得的结果与真实的结果进行比较。 然后，在迭代时，调整`W`和`b`来使误差最小化，如第 2 章中线性回归线所示。
+
+一旦我们得到`W`和`b`参数，我们就可以计算加权和，现在我们需要函数将存储在`z`中的结果转换为`0`或`1`。 有几个可用的激活函数，对于这个例子，我们可以使用一个名为 sigmoid [33] 的流行函数，返回 0 到 1 之间的实数值。
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image046.png)
+
+看看公式，我们发现它将倾向于返回接近 0 或 1 的值。 如果输入`z`足够大且为正，则`exp(-z)`为零，然后`y`为 1。 如果输入`z`足够大且为负，则`exp(-z)`也会变为大正数，因此分母变大，最终`y`变为 0。 如果我们绘制函数，它将如下所示：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image045.png)
+
+从这里我们已经介绍了如何定义神经元，但神经网络实际上是以不同方式互相连接，并使用不同激活函数的神经元组合。 鉴于本书的范围，我不会涉及神经网络的所有扩展，但我向你保证它真的令人兴奋。
+
+只是提到神经网络的一个特定情况（其中第 5 章基于），神经元组织为层的形式，其中下层（输入层）接收输入，上层（输出层）生成响应值。 神经网络可以有几个中间层，称为隐藏层。 表示这种情况的直观方式是：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image049.gif)
+
+在这些网络中，每层的神经元与前一层的神经元通信来接收信息，然后将其结果传递给下一层的神经元。
+
+如前所述，除了Sigmoid之外还有更多的激活函数，每个激活函数具有不同的属性。例如，当我们想要在输出层将数据分类为两个以上的类时，我们可以使用 Softmax [34] 激活函数，它是 sigmoid 函数的泛化。 Softmax 能够获得每个类的概率，因此它们的和为 1，最可能的结果是概率最高的结果。
+
+### 一个简单的例子：Softmax
+
+请记住，要解决的问题是，给定输入图像，我们得到它属于某个数字的概率。 例如，我们的模型可以预测，图像 80% 是“9”，但是有 5% 的机会为“8”（由于可疑性较低的痕迹），并且还给出，一定的低概率为任何其他数字。 识别手写数字存在一些不确定性，我们无法以 100% 的置信度识别数字。 在这种情况下，概率分布使我们更好地了解我们对预测的信心。
+
+因此，我们有一个输出向量，其中包含不同输出标签的概率分布，这是多余的。 这是一个具有 10 个概率值的向量，每个概率值对应于 0 到 9 的每个数字，并且所有概率总和为 1。
+
+如前所述，我们通过使用激活函数为 softmax 的输出层来实现此目的。 具有 softmax 函数的神经元的输出，取决于其层的其他神经元的输出，因为它们的所有输出必须总和为 1。
+
+softmax 函数有两个主要步骤：首先，计算属于某个标签的图像的“证据”，然后将证据转换为每个可能标签的概率。
+
+### 归属的证据
+
+测量某个图像属于特定类别/标签的证据，通常的近似是计算像素强度的加权和。 当高强度的像素恰好不在给定类中时，该权重为负，如果该像素在该类中频繁出现，则该权重为正。
+
+让我们看一个图形示例：假设一个数学“0”的学习模型（我们将看到以后如何学习）。 此时，我们将模型定义为“某事物”，其中包含了解数字是否属于特定类的信息。 在这种情况下，我们选择了如下所示的模型，其中红色（或 b/n 版本的亮灰色）代表负例（也就是，减少对“0”中存在的那些像素的支持），而蓝色（b/n 版的深灰色）代表了正例。看看它：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image050.png)
+
+想象一下`28×28`像素的白纸，并画上“0”。 通常我们的零将绘制在蓝色区域中（请记住，我们在`20×20`绘图区域周围留下了一些空间，稍后将其居中）。
+
+很明显，如果我们的绘图穿过红色区域，很可能我们没有绘制零。 因此，使用一种度量标准，奖励那些踩到蓝色区域的像素，并惩罚那些踩到红色区域的像素，似乎是合理的。
+
+现在考虑“3”：很明显，我们的模型的“0”的红色区域将惩罚它为“0”的概率。 但是如果参考模型是下面的那个，通常形成“3”的像素将遵循蓝色区域； “0”的绘制也会进入红色区域。
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image052.png)
+
+我希望看到这两个例子的读者理解，所解释的近似如何让我们估计哪张图代表哪个数字。
+
+下图显示了从 MNIST 数据集中学习的十个不同标签/类的示例（从 Tensorflow [35] 的示例中提取）。 请记住，红色（亮灰色）表示负权重，蓝色（深灰色）表示正值。
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image054.png)
+
+以更正式的方式，我们可以说给出输入`x`的类`i`的证据表示为：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image056.png)
+
+其中`i`表示类（在我们的情况下，介于 0 和 9 之间），`j`是对输入图像求和的索引。 最后，`Wi`表示上述权重。
+
+请记住，一般来说，模型还包括一个表示偏置的额外参数，增加了一些基本不确定性。 在我们的情况下，公式最终就像这样：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image058.png)
+
+对于每个`i`（在 0 和 9 之间），我们得到 784 个元素（`28×28`）的矩阵`Wi`，其中每个元素`j`乘以输入图像的相应分量`j`，共有 784 个分量，然后加上`bi`。矩阵演算和索引的图形视图是这样的：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image061.gif)
+
+### 归属概率
+
+我们评论说，第二步是计算概率。 具体来说，我们使用 softmax 函数将证据总和转换为预测概率，表示为`y`：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image062.png)
+
+请记住，输出向量必须是和为 1 的概率函数。 为了标准化每个成分，softmax 函数使用每个输入的指数值，然后按如下方式对它们进行标准化：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image064.png)
+
+使用指数时获得的效果是权重的乘法效应。 此外，当一个类的证据很小时，这个类的支持由之前权重的一小部分减少。 此外，softmax 对权重进行归一化，使它们总和为 1，从而产生概率分布。
+
+这种函数的一个有趣的事实是，好的预测将有一个接近 1 的输出值，而所有其他输出将接近零；在弱预测中，某些标签可能会显示类似的支持。
+
+### 在 TensorFlow 中编程
+
+在简要描述了算法做了什么来识别数字之后，我们可以在 TensorFlow 中实现它。 为此，我们可以快速了解张量应如何存储我们的数据和模型参数。 为此，下图描述了数据结构及其关系（来帮助读者轻松回忆我们的每个问题）：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image066.png)
+
+首先，我们创建两个变量来包含权重`W`和偏置`b`：
+
+```py
+W = tf.Variable(tf.zeros([784,10]))
+b = tf.Variable(tf.zeros([10]))
+```
+
+这些变量是使用`tf.Variable`函数和变量的初始值创建的；在这种情况下，我们用包含零的常数张量初始化张量。
+
+我们看到`W`的形状为`[Dimension(784), Dimension(10)]`，由其参数定义，常数张量`tf.zeros`和`W`一样为`[784,10]`。偏置`b`也是一样，由其参数将形状规定为`[Dimension(10)]`。
+
+矩阵`W`具有该大小，因为我们想要为 10 个可能的数字中的每一个乘以 784 个位置的图像向量，并在与`b`相加之后产生一定数量的证据。
+
+在使用 MNIST 进行研究的情况下，我们还创建了二维张量来保存`x`点的信息，使用以下代码行​​：
+
+```py
+x = tf.placeholder("float", [None, 784])
+```
+
+张量`x`将用于存储 MNIST 图像，作为 784 个浮点向量（我们使用`None`指示维度可以是任何大小；在我们的例子中它将等于学习过程中包含的元素数量）。
+
+现在我们定义了张量，我们可以实现我们的模型。 为此，TensorFlow 提供了几个操作，即`tf.nn.softmax(logits, name=None)`。它是其中一个可用的操作，实现了前面描述的 softmax 函数。 参数必须是张量，并且名称可选。 该函数返回类型和形状与传递的参数张量相同的张量。
+
+在我们的例子中，我们为这个函数提供了图像向量`x`乘以权重矩阵`W`加上`b`的结果张量：
+
+```py
+y = tf.nn.softmax(tf.matmul(x,W) + b)
+```
+
+一旦指定了模型实现，我们就可以使用迭代训练算法，指定必要的代码来获得权重`W`和偏置`b`。 对于每次迭代，训练算法获得训练数据，应用神经网络并将获得的结果与预期结果进行比较。
+
+要确定模型何时足够好，我们必须定义“足够好”的含义。 正如在前面的章节中所看到的，通常的方法是定义相反的东西：模型使用损失函数的“坏”的程度。 在这种情况下，目标是获得使函数最小的`W`和`b`的值，它指示模型“坏”的程度。
+
+结果输出与训练数据的预期输出之间的误差有不同的度量标准。 一个常见的度量是均方误差或平方欧几里德距离，这是以前见过的。 尽管如此，一些研究在神经网络中为此目的提出了其他指标，例如在我们的例子中使用的交叉熵误差。 此度量标准的计算方式如下：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image068.png)
+
+其中`y`是概率的预测分布，`y'`是从训练数据集的标签中获得的实际分布。 我们不会详细讨论交叉熵背后的数学及其在神经网络中的位置，因为它远比本书的预期范围复杂得多；只是表明当两个分布相同时有最小值。 同样，如果读者想要了解此函数的细节，我们建议阅读神经网络和深度学习 [36]。
+
+要实现交叉熵度量，我们需要一个新的占位符来表示正确的标签：
+
+```py
+y_ = tf.placeholder("float", [None,10])
+```
+
+用这个占位符，我们可以使用以下代码行实现交叉熵，代表我们的损失函数：
+
+```py
+cross_entropy = -tf.reduce_sum(y_*tf.log(y))
+```
+
+首先，我们使用 TensorFlow 中的内置函数`tf.log()`计算每个元素`y`的对数，然后我们将它们乘以每个`y_`元素。 最后，使用`tf.reduce_sum`，我们对张量的所有元素求和（稍后我们将看到图像以批量的形式访问，在这种情况下，交叉熵的值对应于图像批量`y`而不是单个图像）。
+
+在迭代中，一旦确定了样本的误差，我们必须更正模型（在我们的例子中是修改参数`W`和`b`）来减少下一次迭代中计算和预期输出之间的差异。
+
+最后，它仍然只是指定了这个迭代式最小化过程。 在神经网络中有几种用于此目的的算法；我们将使用反向传播（误差向后传播）算法，并且如其名称所示，它向后传播在输出处获得的误差，来重新计算`W`的权重，尤其是对于多层神经网络很重要。
+
+该方法与先前看到的梯度下降方法一起使用，该方法使用交叉熵损失函数，允许我们计算每次迭代时参数必须改变多少，以便在每个时刻使用可用的本地信息来减少误差。 在我们的例子中，直观地说，它包括在每次迭代时稍微改变权重`W`（这一点由学习率超参数表示，表示变化的速度）来减少错误。
+
+由于在我们的例子中我们只有一层神经网络，我们不会进入反向传播方法。 只需记得 TensorFlow 知道整个计算图，允许它应用优化算法来找到训练模型的训练函数的正确梯度。
+
+因此，在我们使用 MNIST 图像的示例中，以下代码行表明我们使用反向传播算法和梯度下降算法来最小化交叉熵，学习率为 0.01：
+
+```py
+train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
+```
+
+到这里之后，我们已经指定了所有问题，我们可以通过实例化`tf.Session()`来开始计算，它负责在系统，CPU 或 GPU 上的可用设备中执行 TensorFlow 操作：
+
+```py
+sess = tf.Session()
+```
+
+接下来，我们可以执行初始化所有变量的操作：
+
+```py
+sess.run(tf.initialize_all_variables())
+```
+
+从现在开始，我们可以开始训练我们的模型。 执行时，`train_step`的返回参数将梯度下降应用于所涉及的参数。 因此，可以通过重复执行`train_step`来实现模型的训练。 假设我们要迭代 1000 次`train_step`；我们必须指定以下代码行：
+
+```py
+for i in range(1000):
+   batch_xs, batch_ys = mnist.train.next_batch(100)
+   sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
+```
+
+循环内的第一行指定，对于每次迭代，挑选从训练数据集中随机采样的 100 个数据输入的批量。 我们可以在每次迭代时使用所有训练数据，但为了使第一个示例更加灵活，我们每次都使用一个小样本。 第二行表示之前获得的输入必须提供给相应的占位符。
+
+最后，基于梯度下降的机器学习算法可以利用 TensorFlow 自动微分的功能。 TensorFlow 用户只需定义预测模型的计算架构，将其与目标函数组合，然后只需添加数据即可。
+
+TensorFlow 已经管理了学习过程背后的相关微分。 当执行`minimize()`方法时，TensorFlow 识别损失函数所依赖的变量集，并计算每个变量的梯度。 如果你想知道如何实现微分，可以查看`ops/gradients.py`文件 [37]。
+
+### 模型评估
+
+训练后必须评估模型，来查看有多“好”（或多“坏”）。 例如，我们可以计算预测中命中和未命中的百分比，看看哪些例子是正确预测的。 在前面的章节中，我们看到`tf.argmax(y, 1)`函数，根据张量的给定轴返回最高值的索引。 实际上，`tf.argmax(y, 1)`是对于每个输入的，概率最高的标签，而 `tf.argmax(y_, 1)`是正确标签。 使用`tf.equal`方法，我们可以比较我们的预测是否与正确的标签重合：
+
+```py
+correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
+```
+
+指令返回布尔列表。 要确定哪些预测部分是正确的，我们可以将值转换为数值变量（浮点）并执行以下操作：
+
+```py
+accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
+```
+
+例如，`[True, False, True, True]`将变为`[1, 0, 1, 1]`，平均值将为 0.75，表示准确率。 现在我们可以使用`mnist.test`作为`feed_dict参`数来查询我们的测试数据集的准确率：
+
+```py
+print sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})
+```
+
+我的大约为 91%。 这些结果好吗？ 我认为它们太棒了，因为这意味着读者已经能够使用 TensorFlow 编程并执行第一个神经网络。
+
+另一个问题是其他模型可能提供更好的准确性，在下一章中介绍包含更多层的神经网络。
+
+读者将在本书 github [38] 的文件`RedNeuronalSimple.py`中找到本章中使用的全部代码。  为了提供它的全局视图，我将把它放在一起：
+
+```py
+import input_data
+mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
+
+import tensorflow as tf
+
+x = tf.placeholder("float", [None, 784])
+W = tf.Variable(tf.zeros([784,10]))
+b = tf.Variable(tf.zeros([10]))
+
+matm=tf.matmul(x,W)
+y = tf.nn.softmax(tf.matmul(x,W) + b)
+y_ = tf.placeholder("float", [None,10])
+
+cross_entropy = -tf.reduce_sum(y_*tf.log(y))
+train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
+
+sess = tf.Session()
+sess.run(tf.initialize_all_variables())
+
+for i in range(1000):
+    batch_xs, batch_ys = mnist.train.next_batch(100)
+    sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
+    correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
+    accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
+    print sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})
+```
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/5.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/5.md
new file mode 100644
index 00000000..eb3df41a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/5.md
@@ -0,0 +1,275 @@
+## 5. TensorFlow 中的多层神经网络
+
+在本章中，我将与读者一起编写一个简单的深度学习神经网络，该网络使用与前一章相同的 MNIST 数字识别问题。
+
+随着我的前进，深度学习神经网络由叠在一起的多个层组成。 具体来说，在本章中我们将构建一个卷积网络，这是深度学习的典型例子。 卷扬神经网络由 Yann LeCunn 等人于 1998 年推出并推广。 这些卷积网络最近引领了图像识别领域的最新技术；例如：在我们的数字识别案例中，它们的准确度高于 99%。
+
+在本章的其余部分，我将以示例代码为主，我将解释这些网络的两个最重要的概念：卷积和池化，而不输入参数的细节，鉴于本书的介绍性质。 但是，读者将能够运行所有代码，我希望它能让你了解卷积网络背后的通用思想。
+
+### 卷积神经网络
+
+卷积神经网络（也称为 CNN 或 CovNets）是深度学习的一个特例，并且在计算机视觉领域产生了重大影响。
+
+CNN 的典型特征是它们几乎总是将图像作为输入，这产生了更有效的实现并且减少所需参数的数量。 让我们看看我们的 MNIST 数字识别示例：在读取 MNIST 数据并使用 TensorFlow 定义占位符之后，就像我们在上一个示例中所做的那样：
+
+```py
+import input_data
+mnist = input_data.read_data_sets('MNIST_data', one_hot=True)
+
+import tensorflow as tf
+
+x = tf.placeholder("float", shape=[None, 784])
+y_ = tf.placeholder("float", shape=[None, 10])
+```
+
+我们可以重建输入数据图像的原始形状。 我们可以这样做：
+
+```py
+x_image = tf.reshape(x, [-1,28,28,1])
+```
+
+这里我们将输入形状更改为 4D 张量，第二维和第三维对应于图像的宽度和高度，而最后一维对应于颜色通道的数量，在这种情况下为 1。
+
+通过这种方式，我们可以将神经网络的输入视为大小为`28×28`的二维空间，如图所示：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image072-300x282.png)
+
+定义卷积神经网络有两个基本原则：滤波器和特征映射。 这些原则可以表示为特定的神经元分组，我们将很快看到。 但首先，鉴于它们在 CNN 中的重要性，我们将简要介绍这两个原则。
+
+直觉上，我们可以说卷积层的主要目的是检测图像中的特征或视觉特征，考虑边缘，线条，颜色斑点等。 这是由我们刚刚讨论过的，连接输入层的隐藏层来处理的。 在我们感兴趣的 CNN 的案例中，输入数据没有完全连接到第一个隐藏层的神经元；这只发生在输入神经元中的一个小型局部空间中，输入神经元存储图像像素值。 这可以看作：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image074.png)
+
+更确切地说，在给定的示例中，隐藏层的每个神经元与输入层的`5×5`小区域（因此是 25 个神经元）连接。
+
+我们可以认为这是一个大小为`5×5`的窗口，它滑过包含输入图像的整个`28×28`大小的输入层。 窗口滑过整个神经元层。 对于窗口的每个位置，隐藏层中都有一个处理该信息的神经元。
+
+我们可以通过假设窗口从图像的左上角开始来可视化；这将信息提供给隐藏层的第一个神经元。  然后窗口向右滑动一个像素；我们将这个`5×5`区域与隐藏层中的第二个神经元连接起来。 我们继续这样，直到整个空间从上到下，从左到右被窗口覆盖。
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image076.png)
+
+分析我们提出的具体案例，我们观察到，给定一个大小为`28×28`的输入图像和一个大小为`5×5`的窗口，在第一个隐藏层中产生了`24×24`的神经元，因为我们只能这样做，在触及输入图像的右下边缘之前，将窗口向下移动 23 次，向右移动 23 次。 这假设窗口每次只移动 1 个像素，因此新窗口与刚刚前进的旧窗口重叠。
+
+但是，可以在卷积层中一次移动多于 1 个像素，该参数称为`stride`（步长）。 另一个扩展是用零（或其他值）填充边缘，以便窗口可以在图像的边缘上滑动，这可以产生更好的结果。 控制此功能的参数称为`padding`（填充）[39]，你可以使用该参数确定填充的大小。 鉴于本书的介绍性质，我们不会进一步详细介绍这两个参数。
+
+鉴于我们的研究案例，并遵循前一章的形式，我们将需要一个偏置值`b`和一个`5×5`的权重矩阵`W`来连接隐层和输入层的神经元。CNN的一个关键特性是，该权重矩阵`W`和偏置`b`在隐藏层中的所有神经元之间共享；我们对隐藏层中的神经元使用相同的`W`和`b`。 在我们的情况下，这是`24×24`（576）个神经元。 读者应该能够看到，与完全连接的神经网络相比，这大大减少了人们需要的权重参数。 具体而言，由于共享权重矩阵`W`，这从 14000（`5x5x24x24`）减少到仅 25（`5x5`）。
+
+这个共享矩阵`W`和偏置`b`通常在 CNN 的上下文中称为核或过滤器。 这些过滤器类似于用于修饰图像的图像处理程序，在我们的例子中用于查找微分特征。 我建议查看 GIMP [40] 手册中的示例，以便了解卷积过程的工作原理。
+
+矩阵和偏置定义了核。 核只检测图像中的某个相关特征，因此建议使用多个核，每个核对应我们想要检测的每个特征。 这意味着 CNN 中的完整卷积层由几个核组成。  表示几个核的常用方法如下：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image078.png)
+
+第一个隐藏层由几个核组成。 在我们的例子中，我们使用 32 个核，每个核由`5×5`的权重矩阵`W`和偏置`b`定义，偏置`b`也在隐层的神经元之间共享。
+
+为了简化代码，我定义了以下两个与权重矩阵`W`和偏置`b`相关的函数：
+
+```py
+def weight_variable(shape):
+    initial = tf.truncated_normal(shape, stddev=0.1)
+    return tf.Variable(initial)
+
+def bias_variable(shape):
+    initial = tf.constant(0.1, shape=shape)
+    return tf.Variable(initial)
+```
+
+在没有详细说明的情况下，习惯上用一些随机噪声初始化权重，偏置值略微为正。
+
+除了我们刚才描述的卷积层之外，通常卷积层后面跟着一个所谓的池化层。 池化层简单地压缩来自卷积层的输出，并创建卷积层输出的信息的紧凑版本。 在我们的示例中，我们将使用卷积层的`2×2`区域，我们使用池化将它的数据汇总到单个点：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image080.png)
+
+有几种方法可以执行池化来压缩信息；在我们的示例中，我们将使用名为最大池化的方法。 通过仅保留所考虑的`2×2`区域中的最大值来压缩信息。
+
+如上所述，卷积层由许多核组成，因此，我们将分别对每个核应用最大池化。 通常，可以有多层池化和卷积：
+
+![](https://jorditorres.org/wp-content/uploads/2016/02/image082.png)
+
+这使`24×24`的卷积层结果，被对应`12×12`的最大池化层转换为`12×12`的空间，其中每个块来源于`2×2`的区域。 请注意，与卷积层不同，数据是平铺的，而不是由滑动窗口创建的。
+
+直观上，我们可以解释最大池化，来确定特定特征是否存在于图像中的任何位置，特征的确切位置不如对于其他特征的相对位置重要。
+
+### 模型的实现
+
+在本节中，我将基于可在 TensorFlow [41] 网站上找到的高级示例（Deep MNIST for experts），提供编写 CNN 的示例代码。 正如我在开始时所说的那样，参数的许多细节需要处理和理论方法，比本书中给出的更详细。 因此，我将仅概述代码，而不涉及 TensorFlow 参数的许多细节。
+
+正如我们已经看到的，我们必须为卷积和池化层定义几个参数。  我们将在每个维度中使用大小为 1 的步幅（这是滑动窗口的步长）和零填充模型。 我们将应用的池化是`2×2`的最大池化。 与上面类似，我建议使用以下两个通用函数来编写涉及卷积和最大池化的更清晰的代码。
+
+```py
+def conv2d(x, W):
+    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
+
+
+def max_pool_2x2(x):
+    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
+```
+
+现在是时候实现第一个卷积层，然后是池化层。 在我们的示例中，我们有 32 个过滤器，每个过滤器的窗口大小为`5×5`。 我们必须定义一个张量，来保持这个权重矩阵`W`的形状为`[5,5,1,32]`：前两个维度是窗口的大小，第三个是通道的数量，在我们的例子中为 1 。 最后一个定义了我们想要使用的过滤器数量。 此外，我们还需要为 32 个权重矩阵中的每一个定义偏置。 使用先前定义的函数，我们可以在 TensorFlow 中编写它，如下所示：
+
+```py
+W_conv1 = weight_variable([5, 5, 1, 32])
+b_conv1 = bias_variable([32])
+```
+
+ReLU（整流线性单元）激活函数最近成为深度神经网络隐藏层中使用的默认激活函数。 这个简单的函数返回`max(0, x)`，因此它为负值返回 0，否则返回`x`。  在我们的示例中，我们将在卷积层之后的隐藏层中使用此激活函数。
+
+我们编写的代码首先将卷积应用于输入图像`x_image`，它在 2D 张量`W_conv1`中，返回图像卷积的结果，然后加上偏置，最终应用 ReLU 激活函数。 最后一步，我们将最大池化应用于输出：
+
+```py
+h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
+h_pool1 = max_pool_2x2(h_conv1)
+```
+
+在构建深度神经网络时，我们可以将多个层叠在一起。 为了演示如何执行此操作，我将创建一个带有 64 个过滤器和`5×5`窗口的辅助卷积层。 在这种情况下，我们必须传递 32 作为我们需要的通道数，因为它是前一层的输出大小：
+
+```py
+W_conv2 = weight_variable([5, 5, 32, 64])
+b_conv2 = bias_variable([64])
+h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
+h_pool2 = max_pool_2x2(h_conv2)
+```
+
+由于我们将`5×5`窗口应用于步长为 1 的`12×12`空间，因此卷积的结果输出具有`8×8`的维数。 下一步是将一个全连接的层添加到`8×8`输出，然后将其输入到最后的 softmax 层，就像我们在前一章中所做的那样。
+
+我们将使用 1024 个神经元的一层，允许我们处理整个图像。 权重和偏置的张量如下：
+
+```py
+W_fc1 = weight_variable([8 * 8 * 64, 1024])
+b_fc1 = bias_variable([1024])
+```
+
+请记住，张量的第一个维度表示来自第二个卷积层的大小为`8x8`的 64 个过滤器，而第二个参数是层中神经元的数量，我们可以自由选择（在我们的例子中是 1024）。
+
+现在，我们想将张量展开为向量。 我们在前一章中看到，softmax 需要将向量形式的展开图像作为输入。 这通过将权重矩阵`W_fc1`与展开向量相乘，加上偏置`b_fc1`，再应用 ReLU 激活函数来实现：
+
+```py
+h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
+
+h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
+```
+
+下一步将使用称为 dropout 的技术减少神经网络中的有效参数量。 这包括删除节点及其传入和传出连接。 丢弃和保留哪些神经元是随机决定的。  为了以一致的方式执行此操作，我们将在代码中为丢弃或保留的神经元分配概率。
+
+在没有太多细节的情况下，dropout 降低了模型的过拟合风险。 当隐藏层具有大量神经元并因此可以产生非常富有表现力的模型时，这可能发生；在这种情况下，可能会对随机噪声（或误差）建模。 这被称为过拟合，如果与输入的维度相比，模型具有大量参数，则更有可能。 最好是避免这种情况，因为过拟合的模型具有较差的预测表现。
+
+在我们的模型中，我们应用 dropout，它包括在最终的 softmax 层之前使用 dropout 函数  `tf.nn.dropout`。 为此，我们构造一个占位符来存储在 dropout 期间保留神经元的概率：
+
+```py
+keep_prob = tf.placeholder("float")
+h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
+```
+
+最后，我们将 softmax 层添加到我们的模型中，就像前一章中所做的那样。 请记住，sofmax 返回输入属于每个类的概率（在我们的例子中为数字），以便总概率加起来为 1。 softmax 层代码如下：
+
+```py
+W_fc2 = weight_variable([1024, 10])
+b_fc2 = bias_variable([10])
+
+y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
+```
+
+### 模型的训练和评估
+
+我们现在通过调整卷积层和及全连接层中的所有权重，来准备训练我们刚刚定义的模型，并获得我们的带标签的图像的预测。 如果我们想知道模型的执行情况，我们必须遵循上一章中的示例。
+
+以下代码与前一章中的代码非常相似，但有一个例外：我们用 ADAM 优化器替换梯度下降优化器，因为该算法实现了不同的优化器，根据文献 [42]，它具有某些优点。
+
+我们还需要在`feed_dict`参数中包含附加参数`keep_prob`，该参数控制我们之前讨论过的 dropout 层的概率。
+
+```py
+cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))
+train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
+correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
+accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
+
+sess = tf.Session()
+
+sess.run(tf.initialize_all_variables())
+for i in range(20000):
+  batch = mnist.train.next_batch(50)
+  if i%100 == 0:
+     train_accuracy = sess.run( accuracy, feed_dict={x:batch[0], y_: batch[1], keep_prob: 1.0})
+     print("step %d, training accuracy %g"%(i, train_accuracy))
+  sess.run(train_step,feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})
+
+print("test accuracy %g"% sess.run(accuracy, feed_dict={ x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))
+```
+
+与之前的模型一样，整个代码可以在本书的 Github 页面上找到，可以验证该模型的准确率达到 99.2%。
+
+以下是使用 TensorFlow 构建，训练和评估深度神经网络的简要介绍。 如果读者设法运行提供的代码，他或她已经注意到该网络的训练时间明显长于前几章的训练时间；你可以想象，拥有更多层的网络需要花费更长的时间来训练。 我建议你阅读下一章，其中解释了如何使用 GPU 进行训练，这将减少你的训练时间。
+
+本章的代码可以在本书 github 页面 [43] 的`CNN.py`中找到，用于研究目的的代码在下面：
+
+```py
+import input_data
+mnist = input_data.read_data_sets('MNIST_data', one_hot=True)
+import tensorflow as tf
+
+x = tf.placeholder("float", shape=[None, 784])
+y_ = tf.placeholder("float", shape=[None, 10])
+
+x_image = tf.reshape(x, [-1,28,28,1])
+print "x_image="
+print x_image
+
+def weight_variable(shape):
+  initial = tf.truncated_normal(shape, stddev=0.1)
+  return tf.Variable(initial)
+
+def bias_variable(shape):
+  initial = tf.constant(0.1, shape=shape)
+  return tf.Variable(initial)
+
+def conv2d(x, W):
+  return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
+
+def max_pool_2x2(x):
+  return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
+
+W_conv1 = weight_variable([5, 5, 1, 32])
+b_conv1 = bias_variable([32])
+
+h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
+h_pool1 = max_pool_2x2(h_conv1)
+
+W_conv2 = weight_variable([5, 5, 32, 64])
+b_conv2 = bias_variable([64])
+
+h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
+h_pool2 = max_pool_2x2(h_conv2)
+
+W_fc1 = weight_variable([7 * 7 * 64, 1024])
+b_fc1 = bias_variable([1024])
+
+h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
+h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
+
+keep_prob = tf.placeholder("float")
+h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
+
+W_fc2 = weight_variable([1024, 10])
+b_fc2 = bias_variable([10])
+
+y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
+
+cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))
+train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
+correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
+accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
+
+sess = tf.Session()
+
+sess.run(tf.initialize_all_variables())
+
+for i in range(200):
+   batch = mnist.train.next_batch(50)
+   if i%10 == 0:
+     train_accuracy = sess.run( accuracy, feed_dict={ x:batch[0], y_: batch[1], keep_prob: 1.0})
+     print("step %d, training accuracy %g"%(i, train_accuracy))
+   sess.run(train_step,feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})
+
+print("test accuracy %g"% sess.run(accuracy, feed_dict={ 
+       x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))
+```
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/6.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/6.md
new file mode 100644
index 00000000..3ece0f0e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/6.md
@@ -0,0 +1,209 @@
+## 6. 并行
+
+2015 年 11 月发布的第一个 TensorFlow 软件包，已准备好在具有可用 GPU 的服务器上运行，并同时在其中执行训练操作。 2016 年 2 月，更新添加了分布式和并行化处理的功能。
+
+在这个简短的章节中，我将介绍如何使用 GPU。 对于那些想要了解这些设备如何工作的读者，有些参考文献将在上一节中给出。但是，鉴于本书的介绍性，我不会详细介绍分布式版本，但对于那些感兴趣的读者，一些参考将在上一节中给出。
+
+### 带有 GPU 的执行环境
+
+支持 GPU 的 TensorFlow 软件包需要 CudaToolkit 7.0 和 CUDNN 6.5 V2。 对于安装环境，我们建议访问 cuda 安装 [44] 网站，为了不会深入细节，同时信息也是最新的。
+
+在 TensorFlow 中引用这些设备的方法如下：
+
++   `/cpu:0`：引用服务器的 CPU。
++   `/gpu:0`：服务器的 GPU（如果只有一个可用）。
++   `/gpu:1`：服务器的第二个 GPU，依此类推。
+
+要知道我们的操作和张量分配在哪些设备中，我们需要创建一个`sesion`，选项`log_device_placement`为`True`。 我们在下面的例子中看到它：
+
+```py
+import tensorflow as tf
+a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
+b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
+c = tf.matmul(a, b)
+
+sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
+printsess.run(c)
+```
+
+当读者在计算机中测试此代码时，应出现类似的输出：
+
+```
+. . .
+Device mapping:
+/job:localhost/replica:0/task:0/gpu:0 -&gt; device: 0, name: Tesla K40c, pci bus id: 0000:08:00.0
+. . .
+b: /job:localhost/replica:0/task:0/gpu:0
+a: /job:localhost/replica:0/task:0/gpu:0
+MatMul: /job:localhost/replica:0/task:0/gpu:0
+…
+[[ 22.28.]
+[ 49.64.]]
+…
+```
+
+此外，使用操作的结果，它通知我们每个部分的执行位置。
+
+如果我们想要在特定设备中执行特定操作，而不是让系统自动选择设备，我们可以使用变量`tf.device`来创建设备上下文，因此所有操作都在上下文将分配相同的设备。
+
+如果我们在系统中拥有更多 GPU，则默认情况下将选择具有较低标识符的 GPU。 如果我们想要在不同的 GPU 中执行操作，我们必须明确指定它。 例如，如果我们希望先前的代码在 GPU#2 中执行，我们可以使用`tf.device('/gpu:2')`，如下所示：
+
+```py
+import tensorflow as tf
+
+with tf.device('/gpu:2'):
+a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
+b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
+c = tf.matmul(a, b)
+sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
+printsess.run(c)
+```
+
+### 多个 GPU 的并行
+
+如果我们有更多的 GPU，通常我们希望一起使用它们来并行地解决同样的问题。 为此，我们可以构建我们的模型，来在多个 GPU 之间分配工作。 我们在下一个例子中看到它：
+
+```py
+import tensorflow as tf
+
+c = []
+for d in ['/gpu:2', '/gpu:3']:
+with tf.device(d):
+a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3])
+b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2])
+c.append(tf.matmul(a, b))
+with tf.device('/cpu:0'):
+sum = tf.add_n(c)
+
+# Creates a session with log_device_placement set to True.
+sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
+print sess.run(sum)
+```
+
+正如我们所看到的，代码与前一代码相同，但现在我们有 2 个 GPU，由`tf.device`指定，它们执行乘法（两个 GPU 在这里都做同样的操作，以便简化示例代码），稍后 CPU 执行加法。 假设我们将`log_device_placement`设置为`true`，我们可以在输出中看到，操作如何分配给我们的设备 [45]。
+
+```py
+. . .
+Device mapping:
+/job:localhost/replica:0/task:0/gpu:0 -&gt; device: 0, name: Tesla K40c
+/job:localhost/replica:0/task:0/gpu:1 -&gt; device: 1, name: Tesla K40c
+/job:localhost/replica:0/task:0/gpu:2 -&gt; device: 2, name: Tesla K40c
+/job:localhost/replica:0/task:0/gpu:3 -&gt; device: 3, name: Tesla K40c
+. . .
+
+
+. . .
+
+Const_3: /job:localhost/replica:0/task:0/gpu:3
+I tensorflow/core/common_runtime/simple_placer.cc:289] Const_3: /job:localhost/replica:0/task:0/gpu:3
+Const_2: /job:localhost/replica:0/task:0/gpu:3
+I tensorflow/core/common_runtime/simple_placer.cc:289] Const_2: /job:localhost/replica:0/task:0/gpu:3
+MatMul_1: /job:localhost/replica:0/task:0/gpu:3
+I tensorflow/core/common_runtime/simple_placer.cc:289] MatMul_1: /job:localhost/replica:0/task:0/gpu:3
+Const_1: /job:localhost/replica:0/task:0/gpu:2
+I tensorflow/core/common_runtime/simple_placer.cc:289] Const_1: /job:localhost/replica:0/task:0/gpu:2
+Const: /job:localhost/replica:0/task:0/gpu:2
+I tensorflow/core/common_runtime/simple_placer.cc:289] Const: /job:localhost/replica:0/task:0/gpu:2
+MatMul: /job:localhost/replica:0/task:0/gpu:2
+I tensorflow/core/common_runtime/simple_placer.cc:289] MatMul: /job:localhost/replica:0/task:0/gpu:2
+AddN: /job:localhost/replica:0/task:0/cpu:0
+I tensorflow/core/common_runtime/simple_placer.cc:289] AddN: /job:localhost/replica:0/task:0/cpu:0
+[[44.56.]
+[98.128.]]
+. . .
+```
+
+### GPU 的代码示例
+
+为了总结这一简短的章节，我们提供了一段代码，其灵感来自 DamienAymeric 在 Github  [46] 中共享的代码，计算`An + Bn`，`n=10`，使用 Python `datetime`包，将 1 GPU 的执行时间与 2 个 GPU 进行比较。
+
+首先，我们导入所需的库：
+
+```py
+import numpy as np
+import tensorflow as tf
+import datetime
+```
+
+我们使用`numpy`包创建两个带随机值的矩阵：
+
+```py
+A = np.random.rand(1e4, 1e4).astype('float32')
+B = np.random.rand(1e4, 1e4).astype('float32')
+
+n = 10
+```
+
+然后，我们创建两个结构来存储结果：
+
+```py
+c1 = []
+c2 = []
+```
+
+接下来，我们定义`matpow()`函数，如下所示：
+
+```py
+defmatpow(M, n):
+    if n &lt; 1: #Abstract cases where n &lt; 1
+       return M
+    else:
+       return tf.matmul(M, matpow(M, n-1))
+```
+
+正如我们所见，要在单个 GPU 中执行代码，我们必须按如下方式指定：
+
+```py
+with tf.device('/gpu:0'):
+    a = tf.constant(A)
+    b = tf.constant(B)
+    c1.append(matpow(a, n))
+    c1.append(matpow(b, n))
+
+with tf.device('/cpu:0'):
+sum = tf.add_n(c1)
+
+t1_1 = datetime.datetime.now()
+
+with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as sess:
+sess.run(sum)
+t2_1 = datetime.datetime.now()
+```
+
+对于 2 个 GPU 的情况，代码如下：
+
+```py
+with tf.device('/gpu:0'):
+    #compute A^n and store result in c2
+    a = tf.constant(A)
+    c2.append(matpow(a, n))
+ 
+with tf.device('/gpu:1'):
+    #compute B^n and store result in c2
+    b = tf.constant(B)
+    c2.append(matpow(b, n))
+
+with tf.device('/cpu:0'):
+    sum = tf.add_n(c2) #Addition of all elements in c2, i.e. A^n + B^n
+    t1_2 = datetime.datetime.now()
+
+with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as sess:
+    # Runs the op.
+    sess.run(sum)
+t2_2 = datetime.datetime.now()
+```
+
+最后，我们打印计算时间的结果：
+
+```py
+print "Single GPU computation time: " + str(t2_1-t1_1)
+print "Multi GPU computation time: " + str(t2_2-t1_2)
+```
+
+### TensorFlow 的分布式版本
+
+正如我之前在本章开头所说，2016 年 2 月，Google 发布了 TensorFlow 的分布式版本，该版本由 gRPC 支持，这是一个用于进程间通信的高性能开源 RPC 框架（TensorFlow 服务使用的相同协议）。
+
+对于它的用法，必须构建二进制文件，因为此时包只提供源代码。 鉴于本书的介绍范围，我不会在分布式版本中解释它，但如果读者想要了解它，我建议从 TensorFlow 的分布式版本的官网开始 [47]。
+
+与前面的章节一样，本书中使用的代码可以在本书的 Github [48] 中找到。 我希望本章足以说明如何使用 GPU 加速代码。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/7.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/7.md
new file mode 100644
index 00000000..38336847
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/7.md
@@ -0,0 +1,141 @@
+## 后记
+
+> 探索是促进创新的引擎。创新促进经济增长。让我们一起去探索吧。
+> 
+> Edith Widder
+
+在这里，我提供了一个介绍性指南，解释了如何使用 TensorFlow，为这种技术提供热身，这无疑将在迫在眉睫的技术场景中发挥主导作用。 事实上，还有 TensorFlow 的其他替代方案，每个方案最适合特定问题；我想邀请读者探索 TensorFlow 包之外的内容。
+
+这些包有很多不同之处。 有些更专业，有些更不专业。 有些比其他更难安装。 其中一些有很好的文档，而另一些尽管运作良好，但更难找到如何使用它们的详细信息。
+
+重要的是：之后的日子里，TensorFlow 由谷歌发布，我在推文 [49] 中读到了 2010-2014 期间，新的深度学习包每 47 天发布一次，2015 年每 22 天发布一次。 这很惊人，不是吗？ 正如我在本书的第一章中提出的那样，作为读者的起点，可以在 Awesome Deep Learning [50] 找到一个广泛的列表。
+
+毫无疑问，2015 年 11 月，随着 Google TensorFlow 的发布，深度学习的格局受到影响，现在它是 Github 上最受欢迎的开源机器学习库 [51]。
+
+请记住，Github 的第二个最着名的机器学习项目是 Scikit-learn [52]，事实上的 Python 官方的通用机器学习框架。 这些用户可以通过 Scikit Flow（skflow）[53] 使用 TensorFlow，这是来自 Google 的 TensorFlow 的简化接口。
+
+实际上，Scikit Flow 是 TensorFlow 库的高级包装，它允许使用熟悉的 Scikit-Learn 方法训练和拟合神经网络。 该库涵盖了从线性模型到深度学习应用的各种需求。
+
+在我看来，在 TensorFlow 分布式，TensorFlow 服务和 Scikit Flow 发布后，TensorFlow 将成为事实上的主流深度学习库。
+
+深度学习大大提高了语音识别，视觉对象识别，对象检测和许多其他领域的最新技术水平。 它的未来会是什么？ 根据 Yann LeCun，Yoshua Bengio 和 Geoffrey Hilton 在 Nature 杂志上的精彩评论，答案是无监督学习 [54]。 他们期望从长远来看，无监督学习比监督学习更重要。 正如他们所提到的，人类和动物的学习基本上没有受到监督：我们通过观察世界来发现它的结构，而不是通过被告知每个物体的名称。
+
+他们对系统的未来进展有很多期望，系统将 CNN 与递归神经网络（RNN）相结合，并使用强化学习。 RNN 处理一个输入，该输入一次编码一个元素，在其隐藏单元中维护序列的所有过去元素的历史的信息。 对于 TensorFlow 中 RNN 实现的介绍，读者可以查看 TensorFlow 教程中的循环神经网络 [55] 部分。
+
+此外，深度学习还面临许多挑战；训练它们的时间推动了新型超级计算机系统的需求。 为了将最佳的知识分析与新的大数据技术和新兴计算系统的强大功能相结合，以前所未有的速度解释大量异构数据，仍然需要进行大量研究。
+
+科学进步通常是大型社区的跨学科，长期和持续努力的结果，而不是突破，深度学习和机器学习一般也不例外。 我们正在进入一个非常激动人心的跨学科研究时期，其中像巴塞罗那那样的生态系统，如 UPC 和 BSC-CNS，在高性能计算和大数据技术方面具有丰富的知识，将在这个新场景中发挥重要作用。
+
+## 参考
+
+[[1]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref1)   The MNIST database of handwritten digits. [Online]. Available at:[http://yann.lecun.com/exdb/mnist](http://yann.lecun.com/exdb/mnist) [Accessed: 16/12/2015].
+
+[[2]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref2)_  Github_, (2016) Fist Contact with TensorFlow. Source code [Online]. Available at:[https://github.com/jorditorresBCN/TutorialTensorFlow](https://github.com/jorditorresBCN/TutorialTensorFlow)[Accessed: 16/12/2015].
+
+[[3]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref3)_  TensorFlow Serving_[Online]. Available at: [http://tensorflow.github.io/serving/](http://tensorflow.github.io/serving/)[Accessed: 24/02/2016].
+
+[[4]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref4)  Google Research Blog [Online]. Available at: [http://googleresearch.blogspot.com.es/2016/02/running-your-models-in-production-with.html?m=1](http://googleresearch.blogspot.com.es/2016/02/running-your-models-in-production-with.html?m=1)[Accessed: 24/02/2016].
+
+[[5]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref5)_  TensorFlow Serving_-Architecture Overview[Online]. Available at: [http://tensorflow.github.io/serving/](http://tensorflow.github.io/serving/)[Accessed: 24/02/2016].
+
+[[6]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref6)  _TensorFlow Serving_– Serving a TensorFlow Model [Online]. Available at:[http://tensorflow.github.io/serving/serving_basic](http://tensorflow.github.io/serving/serving_basic) [Accessed: 24/02/2016].
+
+[[7]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref7) TensorFlow, (2016) Download & Setup [Online]. Available at: [https://www.tensorflow.org/versions/master/get_started/os_setup.html#download-and-setup](https://www.tensorflow.org/versions/master/get_started/os_setup.html#download-and-setup)[Accessed: 16/12/2015].
+
+[[8]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref8)  Wikipedia, (2016). IPython. [Online]. Available at: [https://en.wikipedia.org/wiki/IPython](https://en.wikipedia.org/wiki/IPython) [Accessed: 19/03/2016].
+
+[[9]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref9)  TensorFlow: Large-scale machine learning on heterogeneous systems, (2015). [Online]. Available at:[http://download.tensorflow.org/paper/whitepaper2015.pdf](http://download.tensorflow.org/paper/whitepaper2015.pdf)[Accessed: 20/12/2015].
+
+[[10]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref10) TensorFlow, (2016)_Python API – Summary Operations_. [Online]. Available at:[https://www.tensorflow.org/versions/master/api_docs/python/train.html#summary-operations](https://www.tensorflow.org/versions/master/api_docs/python/train.html#summary-operations) [Accessed: 03/01/2016].
+
+[[11]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref11)  I recommend using Google Chrome to ensure proper display.
+
+[[12]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref12)TensorFlow, (2016) TensorBoard: Graph Visualization.[Online]. Available at:[https://www.tensorflow.org/versions/master/how_tos/graph_viz/index.html](https://www.tensorflow.org/versions/master/how_tos/graph_viz/index.html)[Accessed: 02/01/2016].
+
+[[13]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref13) One reviewer of this book has indicated that he also had to install the package_python-gi-cairo_.
+
+[[14]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref14) Wikipedia, (2016). Mean Square Error. [Online]. Available at: [https://en.wikipedia.org/wiki/Mean_squared_error](https://en.wikipedia.org/wiki/Mean_squared_error) [Accessed: 9/01/2016].
+
+[[15]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref15)  Wikipedia, (2016). Gradient descent. [Online]. Available at: [https://en.wikipedia.org/wiki/Gradient_descent](https://en.wikipedia.org/wiki/Gradient_descent) [Accessed: 9/01/2016].
+
+[[16]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref16)  Wikipedia, (2016). Gradient. [Online]. Available at: [https://en.wikipedia.org/wiki/Gradient](https://en.wikipedia.org/wiki/Gradient)[Accessed: 9/01/2016].
+
+[[17]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref17)  _Github_, (2016) Book source code [Online]. Available at:[https://github.com/jorditorresBCN/TutorialTensorFlow](https://github.com/jorditorresBCN/TutorialTensorFlow). [Accessed: 16/12/2015].
+
+[[18]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref18)   TensorFlow, (2016) API de Python – Tensor Transformations [Online]. Available at:[https://www.tensorflow.org/versions/master/api_docs/python/array_ops.html](https://www.tensorflow.org/versions/master/api_docs/python/array_ops.html) [Accessed: 16/12/2015].
+
+[[19]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref19)  TensorFlow, (2016) Tutorial – Reading Data [Online]. Available at:[https://www.tensorflow.org/versions/master/how_tos/reading_data](https://www.tensorflow.org/versions/master/how_tos/reading_data)[Accessed: 16/12/2015].
+
+[[20]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref20) _Github_, (2016) TensorFlow Book – Jordi Torres. [Online]. Available at:[https://github.com/jorditorresBCN/LibroTensorFlow/blob/master/input_data.py](https://github.com/jorditorresBCN/LibroTensorFlow/blob/master/input_data.py)[Accessed: 19/02/2016].
+
+[[21]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref21)  _Github_, (2016) Shawn Simister. [Online]. Available at: [https://gist.github.com/narphorium/d06b7ed234287e319f18](https://gist.github.com/narphorium/d06b7ed234287e319f18) [Accessed: 9/01/2016].
+
+[[22]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref22)   Wikipedia, (2016). Squared Euclidean distance. [Online]. Available at:[https://en.wikipedia.org/wiki/Euclidean_distance#Squared_Euclidean_distance](https://en.wikipedia.org/wiki/Euclidean_distance#Squared_Euclidean_distance)[Accessed: 9/01/2016].
+
+[[23]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref23)  _In my opinion, the level of explanation of each operation it’s enough for the purpose of this book._
+
+[[24]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref24)  TensorFlow, (2016) Python API. [online]. Available in: [https://www.tensorflow.org/versions/master/api_docs/index.html](https://www.tensorflow.org/versions/master/api_docs/index.html) [Accessed: 19/02/2016].
+
+[[25]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref25)Actually “_” is like any other variable, but many Python users, by convention, we use it to discard results.
+
+[[26]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref26)  Github, (2016) TensorFlow Book – Jordi Torres. [online]. Available at: [https://github.com/jorditorresBCN/LibroTensorFlow](https://github.com/jorditorresBCN/LibroTensorFlow) [Accessed: 19/02/2016].
+
+[[27]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref27)   TensorFlow, (2016) Tutorial MNIST beginners. [online]. Available at:[https://www.tensorflow.org/versions/master/ tutorials/mnist/beginners](https://www.tensorflow.org/versions/master/%C2%A0tutorials/mnist/beginners)[Accessed: 16/12/2015].
+
+[[28]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref28)   Neural Networks and Deep Learning.[Michael Nielsen](http://michaelnielsen.org/). [online]. Available at: [http://neuralnetworksanddeeplearning.com/index.html](http://neuralnetworksanddeeplearning.com/index.html) [Accessed: 6/12/2015].
+
+[[29]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref29)    The MNIST database of handwritten digits.[online]. Available at:[http://yann.lecun.com/exdb/mnist](http://yann.lecun.com/exdb/mnist) [Accessed: 16/12/2015].
+
+[[30]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref30)    Wikipedia, (2016). Antialiasing [online]. Available at: [https://en.wikipedia.org/wiki/Antialiasing](https://en.wikipedia.org/wiki/Antialiasing)[Accessed: 9/01/2016].
+
+[[31]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref31)_    Github_, (2016) Book TensorFlow – Jordi Torres. [online]. Available at:[https://github.com/jorditorresBCN/LibroTensorFlow/blob/master/input_data.py](https://github.com/jorditorresBCN/LibroTensorFlow/blob/master/input_data.py) [Accessed: 9/01/2016].
+
+[[32]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref32)   Google (2016) TensorFlow. [online]. Available at: [https://tensorflow.googlesource.com](https://tensorflow.googlesource.com/)[Accessed: 9/01/2016].
+
+[[33]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref33)  Wikipedia, (2016). Sigmoid function [online]. Avaliable at: [https://en.wikipedia.org/wiki/Sigmoid_function](https://en.wikipedia.org/wiki/Sigmoid_function) [Accessed: 12/01/2016].
+
+[[34]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref34)  Wikipedia, (2016). Softmax function [online]. Available at: [https://en.wikipedia.org/wiki/Softmax_function](https://en.wikipedia.org/wiki/Softmax_function) [Accessed: 2/01/2016].
+
+[[35]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref35)   TensorFlow, (2016) Tutorial MNIST beginners. [online]. Available at:[https://www.tensorflow.org/versions/master/tutorials/mnist/beginners](https://www.tensorflow.org/versions/master/tutorials/mnist/beginners)[Accessed: 16/12/2015].
+
+[[36]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref36)  Neural Networks & Deep Learning.[Michael Nielsen](http://michaelnielsen.org/). [online]. Available at:[http://neuralnetworksanddeeplearning.com/index.html](http://neuralnetworksanddeeplearning.com/index.html)[Accessed: 6/12/2015].
+
+[[37]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref37)  TensorFlow Github: tensorflow/tensorflow/python/ops/gradients.py [Online].  Available at:[https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/ops/gradients.py](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/ops/gradients.py)[Accessed: 16/03/2016].
+
+[[38]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref38)_  Github_, (2016) Libro TensorFlow – Jordi Torres. [online]. Available at:[https://github.com/jorditorresBCN/LibroTensorFlow](https://github.com/jorditorresBCN/LibroTensorFlow)[Accessed: 9/01/2016].
+
+[[39]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref39)  The reader can read more about the details of these parameters on the course website of CS231 –_Convolutional Neural Networks for Visual Recognition_(2015) [online]. Available at:[http://cs231n.github.io/convolutional-networks](http://cs231n.github.io/convolutional-networks)[Accessed: 30/12/2015].
+
+[[40]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref40)  GIMP –_Image processing software by GNU,_Convlution matrix documentation available at:[https://docs.gimp.org/es/plug-in-convmatrix.html](https://docs.gimp.org/es/plug-in-convmatrix.html)[Accessed: 5/1/2016].
+
+[[41]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref41)  TensorFlow, (2016_) Tutorials: Deep MNIST for experts_. [on line]. Availbile at:[https://www.tensorflow.org/versions/master/tutorials/mnist/pros/index.html](https://www.tensorflow.org/versions/master/tutorials/mnist/pros/index.html) [Consulted on: 2/1/2016]
+
+[[42]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref42)  TensorFlow, (2016)_Python API. ADAM Optimizer_[on líne]. Available at:[https://www.tensorflow.org/versions/master/ api_docs/python/train.html#AdamOptimizer](https://www.tensorflow.org/versions/master/%C2%A0api_docs/python/train.html#AdamOptimizer)[Accessed: 2/1/2016].
+
+[[43]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref43) _Github_, (2016) Source code of this book [on líne]. Availible at: [https://github.com/jorditorresBCN/TutorialTensorFlow](https://github.com/jorditorresBCN/TutorialTensorFlow) [Consulted on: 29/12/2015].
+
+[[44]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref44)   TensorFlow, (2016) GPU-related issues. [online]. Available at: [https://www.tensorflow.org/versions/master/get_started/os_setup.html#gpu-related-issues](https://www.tensorflow.org/versions/master/get_started/os_setup.html#gpu-related-issues)[Accessed: 16/12/2015].
+
+[[45]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref45)  This output is result of using a server with 4 Tesla K40 GPUs from the[Barcelona Supercomputing Center (BSC-CNS)](http://www.bsc.es/).
+
+[[46]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref46)_  Github_(2016) AymericDamien. [online]. Available at: [https://github.com/aymericdamien/TensorFlow-Examples](https://github.com/aymericdamien/TensorFlow-Examples) [Accessed: 9/1/2015].
+
+[[47]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref47)  Distributed TensorFlow, (2016) [online]. Available at: [https://github.com/tensorflow/tensorflow/tree/master/tensorflow/core/distributed_runtime](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/core/distributed_runtime)[Accessed: 16/12/2015].
+
+[[48]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref48) _Github_, (2016) Source code of this book [on líne]. Availible at: [https://github.com/jorditorresBCN/TutorialTensorFlow](https://github.com/jorditorresBCN/TutorialTensorFlow) [Consulted on: 29/12/2015].
+
+[[49]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref49)  Twitter (11/11/2015). Kyle McDonald:_2010-2014: new deep learning toolkit is released every 47 days.__2015: every 22 days._[Online]. Available at:[https://twitter.com/kcimc/status/664217437840257024](https://twitter.com/kcimc/status/664217437840257024)[Accessed: 9/01/2016].
+
+[[50]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref50)  _GitHub,_(2016)_Awesome Deep Learning_. [Online]. Available at: [https://github.com/ChristosChristofidis/awesome-deep-learning](https://github.com/ChristosChristofidis/awesome-deep-learning)[Accessed: 9/01/2016].
+
+[[51]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref51)  Explore GitHub, Machine learning: [Online]. Available at:[https://github.com/showcases/machine-learning](https://github.com/showcases/machine-learning) [Accessed on: 2/01/2016]
+
+[[52]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref52)  Scikit-Learn GitHub: [Online]. Available at:[https://github.com/scikit-learn/scikit-learn](https://github.com/scikit-learn/scikit-learn)[Accessed: 2/3/2016]
+
+[[53]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref53)  Tensorflow/skflow GitHub: [Online]. Available at:[https://github.com/tensorflow/skflow](https://github.com/tensorflow/skflow)[Accessed: 2/1/2016]
+
+[[54]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref54)  Yann LeCun, Yoshua Bengio and Geoffrey Hinton (2015). “Deep Learning”. Nature 521: 436–444 doi:10.1038/nature14539.  Available at:[http://www.nature.com/nature/journal/v521/n7553/full/nature14539.html](http://www.nature.com/nature/journal/v521/n7553/full/nature14539.html)  [Accessed: 16/03/2016].
+
+[[55]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref55)  TensorFlow, (2016) Tutorial – Recurrent Neural Networks [Online]. Available at:[https://www.tensorflow.org/versions/r0.7/tutorials/recurrent/index.html](https://www.tensorflow.org/versions/r0.7/tutorials/recurrent/index.html)[Accessed: 16/03/2016].
+
+[[56]](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/#_ftnref56)  Hello World en TensorFlow. Spanish version of this book [Online]. Available at:[https://jorditorres.org/libro-hello-world-en-tensorflow/](https://jorditorres.org/libro-hello-world-en-tensorflow/)[Accessed: 16/03/2016].
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/README.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/README.md
new file mode 100644
index 00000000..8cf9faa6
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/README.md
@@ -0,0 +1,9 @@
+# 与 TensorFlow 的初次接触
+
+![](cover.png)
+
+> 原文：[First Contact With TensorFlow](https://jorditorres.org/research-teaching/tensorflow/first-contact-with-tensorflow-book/first-contact-with-tensorflow/)
+
+> 译者：[飞龙](https://github.com/wizardforcel)
+
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/SUMMARY.md
new file mode 100644
index 00000000..538659be
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/SUMMARY.md
@@ -0,0 +1,9 @@
++   [与 TensorFlow 的初次接触](README.md)
++   [前言](0.md)
++   [1. TensorFlow 基础知识](1.md)
++   [2. TensorFlow 中的线性回归](2.md)
++   [3. TensorFlow 中的聚类](3.md)
++   [4. TensorFlow 中的单层神经网络](4.md)
++   [5. TensorFlow 中的多层神经网络](5.md)
++   [6. 并行](6.md)
++   [后记](7.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/cover.png b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/cover.png
new file mode 100644
index 00000000..0b82a0ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/first_contact_with_tensorFlow/cover.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/README.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/README.md
new file mode 100644
index 00000000..53ed1079
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/README.md
@@ -0,0 +1,35 @@
+# TensorFlow 入门
+
+> 原文：[Getting Started with TensorFlow](https://b-ok.global/book/2926484/49c2a1)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/SUMMARY.md
new file mode 100644
index 00000000..8c89f80c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/SUMMARY.md
@@ -0,0 +1,8 @@
++   [TensorFlow 入门](README.md)
++   [零、前言](ch00.md)
++   [一、TensorFlow 基本概念](ch01.md)
++   [二、TensorFlow 数学运算](ch02.md)
++   [三、机器学习入门](ch03.md)
++   [四、神经网络简介](ch04.md)
++   [五、深度学习](ch05.md)
++   [六、TensorFlow GPU 编程和服务](ch06.md)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch00.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch00.md
new file mode 100644
index 00000000..2dc2dd69
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch00.md
@@ -0,0 +1,80 @@
+# 零、前言
+
+TensorFlow 是一个开源软件库，用于实现机器学习和深度学习系统。
+
+这两个名称的后面隐藏着一系列强大的算法，这些算法面临一个共同的挑战：使计算机学习如何自动识别复杂的模式并做出最明智的决策。
+
+机器学习算法是有监督的还是无监督的； 尽可能简化，我们可以说最大的不同是在监督学习中，程序员指示计算机如何做某事，而在无监督学习中，计算机将自己学习所有。
+
+相反，深度学习是机器学习研究的一个新领域，其目的是使机器学习更接近人工智能目标。 这意味着深度学习算法试图像人脑一样运作。
+
+为了在这些引人入胜的领域进行研究，Google 团队开发了 TensorFlow，这是本书的主题。
+
+为了介绍 TensorFlow 的编程功能，我们使用了 Python 编程语言。 Python 有趣且易于使用。 它是一种真正的通用语言，并且正在迅速成为任何自重程序员的必备工具。
+
+本书的目的不是完整地描述所有 TensorFlow 对象和方法。 取而代之的是，我们将介绍重要的系统概念，并引导您尽快高效地学习。 本书的每一章都介绍了 TensorFlow 的不同方面，并附带了一些反映机器和深度学习的典型问题的编程示例。
+
+尽管 TensorFlow 既庞大又复杂，但一旦您了解其基本设计和编程方法，它的设计便易于使用。
+
+《TensorFlow 入门》的目的是帮助您做到这一点。
+
+享受阅读！
+
+# 本书涵盖的内容
+
+第 1 章，“TensorFlow 基本概念”，包含有关 TensorFlow 的结构及其开发问题的一般信息。 它还提供了 Python 语言的基本编程准则以及安装过程之后的第一个 TensorFlow 工作会话。 本章最后对 TensorBoard 进行了描述，TensorBoard 是用于优化和调试的强大工具。
+
+第 2 章，“使用 TensorFlow 进行数学运算”，描述了 TensorFlow 的数学处理能力。 它涵盖了基本代数的编程示例，直至偏微分方程。 此外，还解释了 TensorFlow 中的基本数据结构，即张量。
+
+第 3 章，“机器学习入门”，介绍了一些机器学习模型。 我们开始实现线性回归算法，该算法与数据之间的建模关系有关。 本章的主要重点是解决机器学习中的两个基本问题。 分类，即如何将每个新输入分配给可能的给定类别之一； 数据聚类，这是将一组对象进行分组的任务，以使同一组中的对象比其他组中的对象更相似。
+
+第 4 章，“神经网络介绍”提供了神经网络的快速详细介绍。 这些是代表元件之间的互连的数学模型，即人工神经元。 它们是在某种程度上模仿活神经元特性的数学结构。 神经网络为深度学习算法的架构奠定了基础。 然后实现了两种基本类型的神经网络：用于分类问题的单层感知机和多层感知机。
+
+第 5 章，“深度学习”概述了深度学习算法。 直到最近几年，深度学习才收集了几年前难以想象的大量结果。 我们将展示如何实现两种基本的深度学习架构，即卷积神经网络（CNN）和循环神经网络（RNN），分别用于图像识别和语音翻译问题。
+
+第 6 章，“GPU 编程和使用 TensorFlow”，展示了用于 *GPU* 计算的 TensorFlow 工具，并介绍了 *TensorFlow 服务*，一种针对机器学习模型的高性能开源服务系统，该模型针对生产环境而设计，并针对 TensorFlow 进行了优化。
+
+# 这本书需要什么
+
+所有示例均已在 Ubuntu Linux 64 位计算机上使用 Python 版本 2.7 实现，包括 TensorFlow 库版本 0.7.1。
+
+您还将需要以下 Python 模块（最好是最新版本）：
+
+*   点子
+*   Bazel
+*   Matplotlib
+*   NumPy
+*   Pandas
+
+# 这本书是给谁的
+
+读者应该具有编程和数学概念的基础知识，并且同时希望向您介绍机器和深度学习的主题。 阅读本书后，您将能够掌握 TensorFlow 的功能以构建功能强大的应用。
+
+# 约定
+
+在本书中，您将找到许多可以区分不同类型信息的文本样式。 以下是这些样式的一些示例，并对其含义进行了解释。
+
+文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名称，虚拟 URL，用户输入和 Twitter 句柄中的代码字如下所示：“用于流控制的指令为`if`，`for`和 `while`。”
+
+任何命令行输入或输出的编写方式如下：
+
+```py
+>>> myvar = 3
+>>> myvar += 2
+>>> myvar
+5
+>>> myvar -= 1
+>>> myvar
+4
+
+```
+
+**新术语**和**重要词**以粗体显示。 您在屏幕上看到的字词，例如在菜单或对话框中的字样如下所示：“本书中的快捷方式基于`Mac OSX 10.5+`方案。”
+
+### 注意
+
+警告或重要提示会出现在这样的框中。
+
+### 小费
+
+提示和技巧如下所示。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch01.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch01.md
new file mode 100644
index 00000000..5968124a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch01.md
@@ -0,0 +1,764 @@
+# 一、TensorFlow 基本概念
+
+在本章中，我们将介绍以下主题：
+
+*   机器学习和深度学习基础
+*   TensorFlow 概述
+*   Python 基础
+*   安装 TensorFlow
+*   第一个工作会话
+*   数据流图
+*   TensorFlow 编程模型
+*   如何使用 TensorBoard
+
+# 机器学习和深度学习基础
+
+机器学习是人工智能（尤其是计算机科学）的一个分支，它研究可以从数据中学习的系统和算法，并从中综合新知识。
+
+“学习”一词直观地表明，基于机器学习的系统可能会基于对先前处理的数据的观察，*改善*的知识，以便在将来实现*更好的结果* ，或为特定系统提供输出，使其更接近。
+
+由于*过去的经验*，基于机器学习的程序或系统提高其在特定任务中的表现的能力与*识别数据*的能力紧密相关。 。 因此，这个主题称为*模式识别*，在人工智能领域具有至关重要的意义，并且引起了越来越多的关注。 它是所有机器学习技术的基础。
+
+机器学习系统的训练可以通过不同的方式完成：
+
+*   监督学习
+*   无监督学习
+
+## 监督学习
+
+监督学习是机器学习的最常见形式。 在监督学习的情况下，在*训练阶段*期间，将一组示例（训练集）作为输入提交给系统，其中，每个示例都被标记为相应的*期望输出值*。 例如，让我们考虑一个**分类问题**，其中系统必须将`N`个不同类别之一中的一些实验观察结果归因于已知的类别。 在此问题中，训练集被表示为类型为`{(X1, Y1), ....., (Xn, Yn)}`的成对序列，其中`Xi`是输入向量（*特征向量*），`Yi`代表相应输入的所需类别向量。 大多数受监督的学习算法都有一个特征：通过最小损失函数（*成本函数*）的最小化来执行训练，该损失函数表示相对于所需输出系统的*输出误差*。
+
+最常用于此类训练的成本函数计算所需输出与系统提供的输出之间的*标准差*。 训练后，在与训练集（即所谓的*验证集*）分离的一组示例中测量模型的*准确率*。
+
+![Supervised learning](img/image_01_001.jpg)
+
+监督学习工作流程
+
+然后在此阶段验证*模型的泛化能力*：对于训练阶段中未使用的输入，我们将测试是否输出正确。
+
+### 无监督学习
+
+在无监督学习中，系统提供的训练示例*未使用相关所属类别标记*。 因此，该系统开发并组织数据，在其中寻找*共同特征*，然后根据其内部知识对其进行更改。
+
+无监督学习算法特别用于*聚类问题*，其中存在许多输入示例，您不知道先验类，甚至不知道可能的类是什么，或者不知道他们有多少类。 当您无法使用监督学习时，这是很明显的情况，因为您不知道先验的类别数量。
+
+![Unsupervised learning](img/image_01_002.jpg)
+
+无监督学习工作流程
+
+### 深度学习
+
+深度学习技术代表了近几十年来机器学习所迈出的重要一步，它提供了许多应用从未见过的结果，例如图像和语音识别或**自然语言处理**（**NLP**）。 导致深度学习发展的原因有很多，仅在最近几十年中它才被置于机器学习领域的中心。 原因之一，也许是主要原因，可以肯定地以硬件的进步为代表，并且随着新处理器的出现，例如**图形处理单元**（**GPU**），它们大大减少了使用所需的数据训练网络的时间，将它们降低了 10 或 20 倍。另一个原因当然是训练系统所需的数据集越来越多，训练一定深度并具有高维度输入数据的架构所需的数据集。
+
+![Deep learning](img/image_01_003.jpg)
+
+深度学习工作流程
+
+深度学习基于*人脑*处理信息和学习并对外部刺激做出反应的方式。 它包含在*几个表示级别*的机器学习模型中，其中更深的级别将先前级别的输出作为输入，对其进行转换并始终进行抽象。 在此假设模型中，每个级别对应于大脑皮层的不同区域：当大脑接收图像时，它将通过*边检测*和*形式感知*等各个阶段对其进行处理，即从*原语*表示级别到*最复杂的*。 例如，在图像分类问题中，每个块借助于*过滤操作*，以各种抽象级别逐渐提取*特征*，输入已经处理的数据。
+
+# TensorFlow 概述
+
+[TensorFlow](https://www.tensorflow.org/) 是一个软件库，由 Google 机器学习情报研究组织的 Google Brain 团队开发，目的是进行机器学习和深度神经网络研究。 然后 TensorFlow 结合了编译优化技术的计算代数，从而简化了许多数学表达式的计算，其中问题是执行计算所需的时间。
+
+主要功能包括：
+
+*   定义，优化和有效地计算涉及多维数组（张量）的数学表达式。
+*   深度神经网络和机器学习技术的编程支持。
+*   透明使用 GPU 计算，自动管理和优化所使用的相同内存和数据。 您可以编写相同的代码，然后在 CPU 或 GPU 上运行它。 更具体地说，TensorFlow 将确定应将计算的哪些部分移至 GPU。
+*   跨机器和巨大数据集的计算具有高度可扩展性。
+
+![TensorFlow – A general overview](img/image_01_004.jpg)
+
+TensorFlow 主页
+
+TensorFlow 可以使用 Python 和 C++ 支持，并且我们将使用 Python 2.7 进行学习，因为 Python API 确实受到更好的支持并且更容易学习。 Python 的安装取决于您的系统。 [下载页面](https://www.python.org/downloads/)包含安装页面所需的所有信息。 在下一节中，我们将通过一些编程示例非常简要地解释 Python 语言的主要功能。
+
+# Python 基础
+
+Python 是一种强类型的动态语言（数据类型是必需的，但不必显式声明它们），区分大小写（`var`和`VAR`是两个不同的变量）和面向对象（Python 中的所有对象都是对象）。
+
+## 语法
+
+在 Python 中，不需要行终止符，并且使用缩进指定块。 缩进以开始一个块并删除缩进以结束它，仅此而已。 需要缩进的指令以冒号（`:`）结尾。 注释以井号（`#`）开头，为单行。 多行字符串用于多行注释。 分配以等号（`=`）完成。 对于相等性测试，我们使用双等于（`==`）符号。 您可以通过使用`+=`和`-=`后跟加号来增加和减少值。 这适用于许多数据类型，包括字符串。 您可以在同一行上分配和使用多个变量。
+
+以下是一些示例：
+
+```py
+>>> myvar = 3
+>>> myvar += 2
+>>> myvar
+5
+>>> myvar -= 1
+>>> myvar
+4
+"""This is a comment"""
+>>> mystring = "Hello"
+>>> mystring += " world."
+>>> print mystring
+Hello world.
+
+```
+
+以下代码在一行中交换两个变量：
+
+```py
+>>> myvar, mystring = mystring, myvar
+
+```
+
+## 数据类型
+
+Python 中最重要的结构是列表，元组和字典。 从 2.5 版开始，这些集就集成在 Python 中（对于以前的版本，它们在集库中可用）。 列表与一维数组相似，但是您可以创建包含其他列表的列表。 字典是包含键和值对（哈希表）的数组，元组是不可变的一维对象。 在 Python 中，数组可以是任何类型，因此您可以在列表/字典和元组中混合使用整数，字符串等。 任何类型的数组中第一个对象的索引始终为零。 允许使用负索引并从数组末尾开始计数，`-1`是最后一个元素。 变量可以引用函数。
+
+```py
+>>> example = [1, ["list1", "list2"], ("one", "tuple")]
+>>> mylist = ["Element 1", 2, 3.14]
+>>> mylist [0] 
+"Element 1"
+>>> mylist [-1]
+3.14
+>>> mydict = {"Key 1": "Val 1", 2: 3, "pi": 3.14}
+>>> mydict ["pi"]
+3.14
+>>> mytuple = (1, 2, 3)
+>>> myfunc = len
+>>> print myfunc (mylist)
+3
+
+```
+
+您可以使用冒号（`:`）获得数组范围。 不指定范围的起始索引意味着第一个元素； 不指示最终索引意味着最后一个元素。 负索引从最后一个元素开始计数（`-1`是最后一个元素）。 然后运行以下命令：
+
+```py
+>>> mylist = ["first element", 2, 3.14]
+>>> print mylist [:]
+['first element', 2, 3.1400000000000001]
+>>> print mylist [0:2]
+['first element', 2]
+>>> print mylist [-3:-1]
+['first element', 2]
+>>> print mylist [1:]
+[2, 3.14]
+
+```
+
+## 字符串
+
+Python 字符串用单引号（`'`）或双引号（`"`）表示，并允许在另一字符串（`"He said' hello '."It is valid`）上的定界字符串内使用符号。 多行字符串用三引号（或单引号）（`"""`）括起来。 Python 支持 unicode； 只需使用语法：`"This is a unicode string"`。 要将值插入字符串中，请使用`%`运算符（模）和元组。 每个`%`由一个元组元素从左到右替换，并允许使用字典进行替换。
+
+```py
+>>> print "Nome: %s\nNumber: %s\nString: %s" % (myclass.nome, 3, 3 * "-")
+Name: Poromenos
+Number: 3
+String: ---
+strString = """this is a string
+on multiple lines."""
+>>> print "This %(verbo)s un %(name)s." % {"name": "test", "verb": "is"}
+This is a test.
+
+```
+
+## 控制流
+
+流量控制的指令为`if`，`for`和`while`。 有`select`控制流； 我们使用`if`代替它。 `for`控制流用于枚举列表的成员。 要获取数字列表，请使用`range (number)`。
+
+```py
+rangelist = range(10)
+>>> print rangelist
+[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
+
+```
+
+让我们检查`number`是否为元组中的数字之一：
+
+```py
+for number in rangelist:
+    if number in (3, 4, 7, 9):
+        # "Break" ends the for instruction without the else clause
+        break
+    else:
+        # "Continue" continues with the next iteration of the loop
+        continue
+else:
+    # this is an optional "else" 
+    # executed only if the loop is not interrupted with "break".
+    pass # it does nothing
+if rangelist[1] == 2:
+    print "the second element (lists are 0-based) is 2"
+elif rangelist[1] == 3:
+    print "the second element is 3"
+else:
+    print "I don't know"
+while rangelist[1] == 1:
+    pass
+
+```
+
+## 函数
+
+函数用关键字`def`声明。 必须在必选参数之后声明所有可选参数，并且必须为其分配值。 使用参数命名的函数调用函数时，还必须传递值。 函数可以返回一个元组（元组拆包可以返回多个值）。 Lambda 函数是内联的。 参数是通过引用传递的，但是不能在函数中更改不可变的类型（元组，整数，字符串等）。 发生这种情况是因为它仅通过元素在内存中的位置传递，并且将另一个对象分配给变量会导致较早丢失对象引用。
+
+例如：
+
+```py
+# equal to a def f(x): return x + 1
+funzionevar = lambda x: x + 1
+>>> print funzionevar(1)
+2
+def passing_example(my_list,my_int):
+    my_list.append("new element")
+    my_int = 4
+    return my_list, my_int
+>>> input_my_list = [1, 2, 3]
+>>> input_my_int = 10
+>>> print passing_example(input_my_list, input_my_int)
+([1, 2, 3, 'new element'], 10)
+>>> my_list
+[1, 2, 3, 'new element']
+>>> my_int
+10
+
+```
+
+## 类
+
+Python 支持类的多重继承。 变量和私有方法是通过对流（这不是语言规则）声明的，方法是在变量和私有方法前加两个下划线（`__`）。 我们可以将属性（属性）分配给类的任意实例。
+
+以下是一个示例：
+
+```py
+class Myclass:
+    common = 10
+    def __init__(self):
+        self.myvariable= 3
+    def myfunc(self, arg1, arg2):
+        return self.myvariable
+# We create an instance of the class
+>>> instance= Myclass()
+>>> instance.myfunc(1, 2)
+3
+# This variable is shared by all instances
+>>> instance2= Myclass()
+>>> instance.common
+10
+>>> instance2.common
+10
+# Note here how we use the class name
+# Instead of the instance.
+>>> Myclass.common = 30
+>>> instance.common
+30
+>>> instance2.common
+30
+# This does not update the variable in the class, 
+# Instead assign a new object to the variable
+# of the first instance.
+>>> instance.common = 10
+>>> instance.common
+10
+>>> instance2.common
+30
+>>> Myclass.common = 50
+# The value is not changed because "common" is an instance variable.
+>>> instance.common
+10
+>>> instance2.common
+50
+# This class inherits from Myclass. Multiple inheritance
+# is declared like this:
+# class AltraClasse(Myclass1, Myclass2, MyclassN)
+class AnotherClass(Myclass):
+    # The topic "self" is automatically passed 
+    # and makes reference to instance of the class, so you can set 
+    # of instance variables as above, but within the class.    
+def __init__(self, arg1):
+        self.myvariable= 3
+        print arg1
+>>> instance= AnotherClass ("hello")
+hello
+>>> instance.myfunc(1, 2)
+3
+# This class does not have a member (property) .test member, but
+# We can add one all instance when we want. Note
+# .test That will be a member of only one instance.
+>>> instance.test = 10
+>>> instance.test
+10
+
+```
+
+## 异常
+
+Python 中的异常通过 `try-except`块[`exception_name`]处理：
+
+```py
+def my_func():
+    try:
+        # Division by zero causes an exception
+        10 / 0
+    except ZeroDivisionError:
+        print "Oops, error"
+    else:
+        # no exception, let's proceed
+        pass
+    finally:
+# This code is executed when the block
+    # Try..except is already executed and all exceptions
+    # Were handled, even if there is a new
+    # Exception directly in the block.
+        print "finish"
+>>> my_func()
+Oops, error.
+finish
+
+```
+
+## 导入库
+
+外部库通过`import [library name]`导入。 您也可以使用`[libraryname] import [funcname]`表格导入单个函数。 这是一个例子：
+
+```py
+import random
+from time import clock
+randomint = random.randint(1, 100)
+>>> print randomint
+64
+
+```
+
+# 安装 TensorFlow
+
+TensorFlow Python API 支持 Python 2.7 和 Python 3.3+。 GPU 版本（仅 Linux）需要 Cuda Toolkit >= 7.0 和 cuDNN >= v2。
+
+在 Python 环境中工作时，建议您使用`virtualenv`。 它将隔离您的 Python 配置用于不同的项目； 使用`virtualenv`不会覆盖 TensorFlow 所需的 Python 包的现有版本。
+
+## 在 Mac 或 Linux 发行版上安装
+
+以下是在 Mac 和 Linux 系统上安装 TensorFlow 的步骤：
+
+1.  如果尚未安装 PIP 和 Virtualenv（可选），请首先安装它们：
+
+    对于 Ubuntu/Linux 64 位：
+
+    ```py
+     $ sudo apt-get install python-pip python-dev python-virtualenv
+
+    ```
+
+    对于 Mac OSX：
+
+    ```py
+     $ sudo easy_install pip
+            $ sudo pip install --upgrade virtualenv
+
+    ```
+
+2.  然后，您可以创建虚拟环境 Virtualenv。 以下命令在`~ / tensorflow`目录中创建虚拟环境 virtualenv：
+
+    ```py
+     $ virtualenv --system-site-packages ~/tensorflow
+
+    ```
+
+3.  下一步是如下激活 Virtualenv：
+
+    ```py
+     $ source ~/tensorflow/bin/activate.csh
+        (tensorflow)$
+
+    ```
+
+4.  此后，我们正在使用的环境的名称在命令行之前。 一旦激活，PIP 将用于在其中安装 TensorFlow。
+
+对于 Ubuntu/Linux 64 位 CPU：
+
+```py
+(tensorflow)$ pip install --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.5.0-cp27-none-linux_x86_64.whl
+
+```
+
+对于 Mac OSX，CPU：
+
+```py
+(tensorflow)$ pip install --upgrade https://storage.googleapis.com/tensorflow/mac/tensorflow-0.5.0-py2-none-any.whl
+
+```
+
+如果您想将 GPU 卡与 TensorFlow 一起使用，请安装另一个包。 我建议您访问官方文档，以查看您的 GPU 是否满足支持 TensorFlow 所需的规格。
+
+### 注意
+
+要使用 TensorFlow 启用 GPU，有关完整的说明您可以参考[这里](https://www.tensorflow.org/versions/r0.9/get_started/os_setup.html#optional-linux-enable-gpu-support)。
+
+最后，完成后，必须禁用虚拟环境：
+
+```py
+(tensorflow)$ deactivate
+
+```
+
+### 注意
+
+鉴于本书的介绍性，我建议读者访问[下载和设置 TensorFlow 页面](https://www.tensorflow.org/versions/r0.7/get_started/os_setup.html#download-and-setup)以查找有关其他安装 TensorFlow 的方法的更多信息。
+
+## 在 Windows 上安装
+
+如果无法获得基于 Linux 的系统，则可以在虚拟机上安装 Ubuntu。 只需使用名为 VirtualBox 的免费应用，即可在 Windows 上创建虚拟 PC 并在后者中安装 Ubuntu。 因此，您可以尝试操作系统，而无需创建分区或处理繁琐的过程。
+
+### 注意
+
+安装 VirtualBox 后，您可以安装 [Ubuntu](http://www.ubuntu.com)，然后按照 Linux 机器的安装步骤来安装 TensorFlow。
+
+## 从源安装
+
+但是，PIP 安装可能会引起问题，[尤其是在使用可视化工具 TensorBoard 时](https://github.com/tensorflow/tensorflow/issues/530)。 要解决此问题，建议您通过以下步骤构建并安装 TensorFlow，以启动表单源文件：
+
+1.  克隆 TensorFlow 存储库：
+
+    ```py
+    git clone --recurse-submodules https://github.com/tensorflow/tensorflow
+
+    ```
+
+2.  按照[说明](http://bazel.io/docs/install.html)安装 Bazel（依赖项和安装程序）.
+
+3.  运行 Bazel 安装程序：
+
+    ```py
+     chmod +x bazel-version-installer-os.sh
+      ./bazel-version-installer-os.sh --user
+
+    ```
+
+4.  安装 Python 依赖项：
+
+    ```py
+    sudo apt-get install python-numpy swig python-dev
+
+    ```
+
+5.  在 TensorFlow 下载的存储库中配置安装（GPU 还是没有 GPU？）：
+
+    ```py
+    ./configure
+
+    ```
+
+6.  使用`bazel`创建自己的 TensorFlow PIP 包：
+
+    ```py
+    bazel build -c opt //tensorflow/tools/pip_package:build_pip_package
+
+    ```
+
+7.  要使用 GPU 支持进行构建，请再次使用`bazel build -c opt --config=cuda`和
+
+    ```py
+    //tensorflow/tools/pip_package:build_pip_package
+
+    ```
+
+8.  最后，安装 TensorBoard，其中`.whl`文件的名称将取决于您的平台。
+
+    ```py
+     pip install /tmp/tensorflow_pkg/tensorflow-0.7.1-py2-none- linux_x86_64.whl
+
+    ```
+
+9.  祝好运！
+
+### 注意
+
+有关更多信息，请参考[这里](https://www.tensorflow.org/versions/r0.7/get_started/os_setup.html#installation-for-linux)。
+
+## 测试您的 TensorFlow 安装
+
+打开一个终端并输入以下代码行：
+
+```py
+>>> import tensorflow as tf
+>>> hello = tf.constant("hello TensorFlow!")
+>>> sess=tf.Session()
+
+```
+
+要验证您的安装，只需键入：
+
+```py
+>>> print(sess.run(hello))
+
+```
+
+您应该具有以下输出：
+
+```py
+Hello TensorFlow!
+>>>
+
+```
+
+# 第一个工作会话
+
+最后，是时候从理论转向实践了。 我将使用 Python 2.7 IDE 编写所有示例。 要初步了解如何使用 TensorFlow，请打开 Python 编辑器并编写以下代码行：
+
+```py
+x = 1
+y = x + 9
+print(y)
+import tensorflow as tf
+x = tf.constant(1,name='x')
+y = tf.Variable(x+9,name='y')
+print(y)
+
+```
+
+如您在前三行中容易理解的那样，将等于`1`的常量`x`添加到`9`以设置变量`y`的新值，然后得出变量的最终结果。 变量`y`打印在屏幕上。
+
+在最后四行中，我们已根据 TensorFlow 库转换了前三个变量。
+
+如果运行程序，则将显示以下输出：
+
+```py
+10
+<tensorflow.python.ops.variables.Variable object at    0x7f30ccbf9190>
+
+```
+
+程序示例的前三行的 TensorFlow 转换会产生不同的结果。 让我们分析一下：
+
+1.  如果您想使用 TensorFlow 库，请不要错过以下声明。 它告诉我们我们正在导入库并将其命名为`tf`：
+
+    ```py
+    import tensorflow as tf 
+
+    ```
+
+2.  我们创建一个名为`x`的常数，其值等于 1：
+
+    ```py
+    x = tf.constant(1,name='x')
+
+    ```
+
+3.  然后，我们创建一个名为`y`的变量。 通过简单的公式`y=x+9`定义此变量：
+
+    ```py
+    y = tf.Variable(x+9,name='y')
+
+    ```
+
+4.  最后，打印出结果：
+
+    ```py
+    print(y)
+
+    ```
+
+那么我们如何解释不同的结果呢？ 区别在于变量定义。 实际上，变量`y`并不代表`x + 9`的当前值，而是表示：*在计算变量`y`时，取常数`x`的值并将其加 9*。 这就是从未执行`y`值的原因。 在下一节中，我将尝试修复它。
+
+因此，我们打开 Python IDE 并输入以下行：
+
+![First working session](img/image_01_005.jpg)
+
+运行前面的代码，输出结果最终如下：
+
+```py
+10
+
+```
+
+我们删除了打印指令，但是已经初始化了模型变量：
+
+```py
+model = tf.initialize_all_variables()
+
+```
+
+而且，大多数情况下，我们创建了一个用于计算值的会话。 在下一步中，我们运行先前创建的模型，最后仅运行变量`y`并打印出其当前值。
+
+```py
+with tf.Session() as session:
+    session.run(model)
+    print(session.run(y))
+
+```
+
+这是允许正确结果的魔术。 在此基本步骤中，在`session`中创建了称为数据流图的执行图，其中包含变量之间的所有依赖关系。 `y`变量取决于变量`x`，并且通过向其添加`9`来转换该值。 在执行会话之前不会计算该值。
+
+最后一个示例在 TensorFlow 中引入了另一个重要功能，即数据流图。
+
+# 数据流图
+
+机器学习应用是重复计算复杂数学表达式的结果。 在 TensorFlow 中，使用数据流图描述了计算，其中图中的每个*节点*代表数学运算的实例（`multiply`，`add`等）， 每个*边*是执行操作的多维数据集（*张量*）。
+
+TensorFlow 支持这些构造和这些运算符。 让我们详细看看 TensorFlow 如何管理节点和边：
+
+*   **节点**：在 TensorFlow 中，每个节点代表一个操作的实例。 每个操作都有`>=`输入和`>= 0`输出。
+*   **边**：在 TensorFlow 中，有两种类型的边：
+    *   **正常边**：它们是数据结构（张量）的载体，其中一个操作的输出（来自一个节点）成为另一操作的输入。
+    *   **特殊边**：这些边不是节点（运算符）的输出与另一节点的输入之间的数据载体。 特殊边表示两个节点之间的控制依赖关系。 假设我们有两个节点`A`和`B`，并且有一个特殊的边将`A`连接到`B`； 这意味着`B`仅在`A`中的操作结束时才开始操作。 数据流图中使用特殊边来设置张量上的操作之间的事前关系。
+
+让我们更详细地探讨数据流图中的一些组件：
+
+*   **操作**：这表示一种抽象计算，例如对矩阵进行相加或相乘。 一个操作管理张量。 它可以是多态的：同一操作可以操纵不同的张量元素类型。 例如，添加两个`int32`张量，添加两个浮点张量，依此类推。
+*   **内核**：这表示该操作的具体实现。 内核定义特定设备上操作的实现。 例如，加矩阵运算可以具有 CPU 实现和 GPU 实现。 在以下部分中，我们介绍了在 TensorFlow 中创建`del`执行图的会话概念。 让我们解释一下这个主题：
+*   **会话**：当客户端程序必须与 TensorFlow 运行时系统建立通信时，必须创建一个会话。 为客户端创建会话后，便会创建一个初始图，该图为空。 它有两种基本方法：
+    *   `session.extend`：在计算中，用户可以扩展执行图，请求添加更多操作（节点）和边（数据）。
+    *   `session.run`：使用 TensorFlow，使用一些图创建会话，并执行这些完整图以获得一些输出，或者有时，使用运行调用来执行子图数千/百万次。 基本上，该方法运行执行图以提供输出。
+
+![Data Flow Graphs](img/image_01_006.jpg)
+
+数据流图中的组件
+
+# TensorFlow 编程模型
+
+采用数据流图作为执行模型，您可以使用隐藏所有复杂性的单个编程接口将数据流设计（图构建和数据流）与其执行（CPU，GPU 卡或组合）分开。 它还定义了 TensorFlow 中的编程模型应该是什么样的。
+
+让我们考虑将两个整数相乘的简单问题，即`a`和`b`。
+
+以下是此简单问题所需的步骤：
+
+1.  定义并初始化变量。 每个变量都应定义当前执行的状态。 在 Python 中导入 TensorFlow 模块后：
+
+    ```py
+    import tensorflow as tf
+
+    ```
+
+2.  我们定义了计算中涉及的变量`a`和`b`。 这些是通过称为`placeholder`的基本结构定义的：
+
+    ```py
+    a = tf.placeholder("int32")
+    b = tf.placeholder("int32")
+
+    ```
+
+3.  `placeholder`允许我们创建操作并建立计算图，而无需*数据*。
+4.  然后，我们将这些变量用作 TensorFlow 函数`mul`的输入：
+
+    ```py
+    y = tf.mul(a,b)
+    this function will return the result of the multiplication the input   integers a and b.
+
+    ```
+
+5.  管理执行流程，这意味着我们必须构建一个*会话*：
+
+    ```py
+    sess = tf.Session()
+
+    ```
+
+6.  可视化结果。 我们在变量`a`和`b`上运行模型，通过先前定义的占位符将数据馈入数据流图中。
+
+    ```py
+    print sess.run(y , feed_dict={a: 2, b: 5})
+
+    ```
+
+## 如何使用 TensorBoard
+
+TensorBoard 是一个可视化工具，致力于分析数据流图以及更好地理解机器学习模型。 它可以以图形方式查看有关计算图的任何部分的参数和详细信息的不同类型的统计信息。 通常，计算图可能非常复杂。 深度神经网络最多可包含 36,000 个节点。 因此，TensorBoard 将节点折叠成高级块，从而突出显示具有相同结构的组。 这样做可以更好地分析图，仅关注计算图的核心部分。 而且，可视化过程是交互式的； 用户可以平移，缩放和展开节点以显示详细信息。
+
+下图显示了使用 TensorBoard 的神经网络模型：
+
+![How to use TensorBoard](img/image_01_007.jpg)
+
+TensorBoard 可视化示例
+
+TensorBoard 的算法将节点折叠为高级块，并突出显示具有相同结构的组，同时还分离出高级节点。 可视化工具也是交互式的：用户可以平移，放大，扩展和折叠节点。
+
+TensorBoard 在机器学习模型的开发和调整中同样有用。 因此，TensorFlow 允许您在图中插入所谓的**摘要操作**。 这些摘要操作监视在日志文件中写入的更改值（在执行计算期间）。 然后，将 TensorBoard 配置为观看带有摘要信息的日志文件，并显示该信息随时间的变化。
+
+让我们考虑一个基本的例子，以了解 TensorBoard 的用法。 我们有以下示例：
+
+```py
+import tensorflow as tf
+a = tf.constant(10,name="a")
+b = tf.constant(90,name="b")
+y = tf.Variable(a+b*2, name="y")
+model = tf.initialize_all_variables()
+with tf.Session() as session:
+    merged = tf.merge_all_summaries()
+    writer = tf.train.SummaryWriter\
+                      ("/tmp/tensorflowlogs",session.graph)   
+     session.run(model)
+    print(session.run(y))
+
+```
+
+得到以下结果：
+
+```py
+190
+
+```
+
+让我们指向会话管理。 要考虑的第一条指令如下：
+
+```py
+merged = tf.merge_all_summaries()
+
+```
+
+该指令必须合并默认图中收集的所有摘要。
+
+然后我们创建`SummaryWriter`。 它将将从代码执行中获得的所有摘要（在本例中为执行图）写入`/tmp/tensorflowlogs`目录：
+
+```py
+writer = tf.train.SummaryWriter\
+                    ("/tmp/tensorflowlogs",session.graph)
+
+```
+
+最后，我们运行模型并构建数据流图：
+
+```py
+session.run(model)
+print(session.run(y))
+
+```
+
+TensorBoard 的使用非常简单。 让我们打开一个终端并输入以下内容：
+
+```py
+$tensorboard --logdir=/tmp/tensorflowlogs
+
+```
+
+出现如下信息：
+
+```py
+startig tensorboard on port 6006
+
+```
+
+然后，通过打开 Web 浏览器，我们应该显示带有辅助节点的数据流图：
+
+![How to use TensorBoard](img/image_01_008.jpg)
+
+使用 TensorBoard 显示数据流图
+
+现在，我们将能够探索数据流图：
+
+![How to use TensorBoard](img/image_01_009.jpg)
+
+使用 TensorBoard 探索数据流图显示
+
+TensorBoard 对常量和摘要节点使用特殊的图标。 总而言之，我们在下图中报告显示的节点符号表：
+
+![How to use TensorBoard](img/image_01_010.jpg)
+
+TensorBoard 中的节点符号
+
+# 总结
+
+在本章中，我们介绍了主要主题：**机器学习**和**深度学习**。 机器学习探索可以学习数据并进行数据预测的算法的研究和构建，而深度学习正是基于*人脑处理信息和学习*的方式， [对外部刺激作出反应](https://en.wikipedia.org/wiki/Algorithm)。
+
+在这个庞大的科学研究和实际应用领域中，我们可以牢固地放置 **TensorFlow** 软件库，该库由 Google 人工智能研究小组（Google Brain Project）开发，并于 2015 年 11 月 9 日作为开源软件发布 。
+
+在选择 **Python** 编程语言作为示例和应用的开发工具之后，我们了解了如何安装和编译该库，然后进行了第一个工作会话。 这使我们可以介绍 TensorFlow 和**数据流图**的执行模型。 它引导我们定义了我们的编程模型。
+
+本章以如何使用重要工具调试机器学习应用的示例结尾： **TensorBoard**。
+
+在下一章中，我们将继续进入 TensorFlow 库，以展示其多功能性。 从基本概念张量开始，我们将看到如何将库用于纯数学应用。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch02.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch02.md
new file mode 100644
index 00000000..8c05156c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch02.md
@@ -0,0 +1,1085 @@
+# 二、TensorFlow 数学运算
+
+在本章中，我们将介绍以下主题：
+
+*   张量数据结构
+*   使用 TensorFlow 处理张量
+*   复数和分形
+*   计算导数
+*   随机数
+*   求解偏微分方程
+
+# 张量数据结构
+
+张量是 TensorFlow 中的基本数据结构。 正如我们已经说过的那样，它们表示数据流图中的连接边。 张量只是标识多维数组或列表。
+
+可以通过三个参数`rank`，`shape`和`type`进行标识：
+
+*   `rank`：每个张量由称为等级的维度单位描述。 它确定张量的维数。 因此，秩被称为张量的阶数或 n 维数（例如，秩 2 张量是矩阵，秩 1 张量是向量）。
+*   `shape`：张量的形状是其张数和列数。
+*   `type`：这是分配给张量元素的数据类型。
+
+好吧，现在我们对这种基本的数据结构充满信心。 要构建张量，我们可以：
+
+*   建立一个 n 维数组； 例如，通过使用 NumPy 库
+*   将 n 维数组转换为 TensorFlow 张量
+
+一旦获得张量，就可以使用 TensorFlow 运算符对其进行处理。 下图直观地介绍了所引入的概念：
+
+![The tensor data structure](img/image_02_001.jpg)
+
+多维张量的可视化
+
+## 一维张量
+
+要构建一维张量，我们使用 Numpy 数组命令，其中`s`是 Python 列表：
+
+```py
+>>> import numpy as np 
+>>> tensor_1d = np.array([1.3, 1, 4.0, 23.99])
+
+```
+
+与 Python 列表不同，元素之间的逗号不显示：
+
+```py
+>>> print tensor_1d 
+[  1.3    1\.     4\.    23.99] 
+
+```
+
+索引与 Python 列表相同。 第一个元素的位置为 0，第三个元素的位置为 2，依此类推：
+
+```py
+>>> print tensor_1d[0] 
+1.3 
+>>> print tensor_1d[2] 
+4.0
+
+```
+
+最后，您可以查看张量的基本属性，即张量的`rank`：
+
+```py
+>>> tensor_1d.ndim 
+1
+
+```
+
+张量维度的元组如下：
+
+```py
+>>> tensor_1d.shape 
+(4L,) 
+
+```
+
+张量的形状连续只有四个值。
+
+张量中的*数据类型*：
+
+```py
+>>> tensor_1d.dtype 
+dtype('float64')
+
+```
+
+现在，让我们看看如何将 NumPy 数组转换为 TensorFlow 张量：
+
+```py
+import TensorFlow as tf
+
+```
+
+TensorFlow 函数`tf_convert_to_tensor`将各种类型的 Python 对象转换为张量对象。 它接受张量对象，Numpy 数组，Python 列表和 Python 标量：
+
+```py
+tf_tensor=tf.convert_to_tensor(tensor_1d,dtype=tf.float64)
+
+```
+
+运行`Session`，我们可以可视化张量及其元素，如下所示：
+
+```py
+with tf.Session() as sess: 
+    print sess.run(tf_tensor) 
+    print sess.run(tf_tensor[0]) 
+    print sess.run(tf_tensor[2])
+
+```
+
+得到以下结果：
+
+```py
+>> 
+[  1.3    1\.     4\.    23.99] 
+1.3 
+4.0 
+>>> 
+
+```
+
+## 二维张量
+
+要创建二维张量或矩阵，我们再次使用数组，但是`s`将是数组序列：
+
+```py
+>>> import numpy as np 
+
+>>> tensor_2d=np.array([(1,2,3,4),(4,5,6,7),(8,9,10,11),(12,13,14,15)]) 
+
+>>> print tensor_2d 
+[[ 1  2  3  4] 
+ [ 4  5  6  7] 
+ [ 8  9 10 11] 
+ [12 13 14 15]] 
+>>>
+
+```
+
+`tensor_2d`中的值由表达式`tensor_2d[row,col]`标识，其中`row`是行位置，`col`是列位置：
+
+```py
+>>> tensor_2d[3][3] 
+15
+
+```
+
+您还可以使用切片运算符`:`提取子矩阵：
+
+```py
+>>> tensor_2d[0:2,0:2] 
+array([[1, 2], 
+       [4, 5]])
+
+```
+
+在这种情况下，我们提取了一个`2×2`子矩阵，其中包含`tensor_2d`的行 0 和 1，以及列 0 和 1。 TensorFlow 有自己的切片运算符。 在下一个小节中，我们将看到如何使用它。
+
+### 张量操作
+
+让我们看看如何对这些数据结构进行一些更复杂的操作。 考虑以下代码：
+
+1.  导入库：
+
+    ```py
+     import TensorFlow as tf 
+        import numpy as np
+
+    ```
+
+2.  让我们构建两个整数数组。 它们代表两个 3×3 矩阵：
+
+    ```py
+     matrix1 = np.array([(2,2,2),(2,2,2),(2,2,2)],dtype='int32') 
+        matrix2 = np.array([(1,1,1),(1,1,1),(1,1,1)],dtype='int32') 
+
+    ```
+
+3.  可视化它们：
+
+    ```py
+     print "matrix1  =" 
+        print matrix1 
+
+        print "matrix2 =" 
+        print matrix2
+
+    ```
+
+4.  要在我们的 TensorFlow 环境中使用这些矩阵，必须将它们转换为张量数据结构：
+
+    ```py
+     matrix1 = tf.constant(matrix1) 
+        matrix2 = tf.constant(matrix2) 
+
+    ```
+
+5.  我们使用 TensorFlow `constant`运算符执行转换。
+6.  准备使用 TensorFlow 运算符来处理矩阵。 在这种情况下，我们计算矩阵乘法和矩阵和：
+
+    ```py
+     matrix_product = tf.matmul(matrix1, matrix2) 
+        matrix_sum = tf.add(matrix1,matrix2) 
+
+    ```
+
+7.  以下矩阵将用于计算矩阵行列式：
+
+    ```py
+     matrix_3 = np.array([(2,7,2),(1,4,2),(9,0,2)],dtype='float32') 
+
+        print "matrix3 =" 
+        print matrix_3 
+
+        matrix_det = tf.matrix_determinant(matrix_3)
+
+    ```
+
+8.  现在是时候创建我们的图并运行会话了，并创建了张量和运算符：
+
+    ```py
+     with tf.Session() as sess: 
+            result1 = sess.run(matrix_product) 
+            result2 = sess.run(matrix_sum) 
+            result3 = sess.run(matrix_det) 
+
+    ```
+
+9.  通过运行以下命令将打印出结果：
+
+    ```py
+     print "matrix1*matrix2 =" 
+        print result1 
+
+        print "matrix1 + matrix2 =" 
+        print result2 
+
+        print "matrix3 determinant result =" 
+        print result3
+
+    ```
+
+下图显示了运行代码后的结果：
+
+![Tensor handling](img/image_02_002.jpg)
+
+TensorFlow 在张量上提供了许多数学运算。 下表总结了它们：
+
+| TensorFlow 运算符 | 描述 |
+| --- | --- |
+| `tf.add` | 返回和 |
+| `tf.sub` | 返回差 |
+| `tf.mul` | 返回积 |
+| `tf.div` | 返回商 |
+| `tf.mod` | 返回模数 |
+| `tf.abs` | 返回绝对值 |
+| `tf.neg` | 返回相反值 |
+| `tf.sign` | 返回符号 |
+| `tf.inv` | 返回逆 |
+| `tf.square` | 返回平方 |
+| `tf.round` | 返回最接近的整数 |
+| `tf.sqrt` | 返回平方根 |
+| `tf.pow` | 返回幂 |
+| `tf.exp` | 返回指数 |
+| `tf.log` | 返回对数 |
+| `tf.maximum` | 返回最大值 |
+| `tf.minimum` | 返回最小值 |
+| `tf.cos` | 返回余弦 |
+| `tf.sin` | 返回正弦 |
+
+## 三维张量
+
+以下命令构建三维张量：
+
+```py
+>>> import numpy as np 
+>>> tensor_3d = np.array([[[1,2],[3,4]],[[5,6],[7,8]]]) 
+>>> print tensor_3d 
+[[[1 2] 
+  [3 4]] 
+
+ [[5 6] 
+  [7 8]]] 
+>>>
+
+```
+
+创建的三维张量是`2x2x2`矩阵：
+
+```py
+>>> tensor_3d.shape 
+(2L, 2L, 2L)
+
+```
+
+要从三维张量中检索元素，我们使用以下形式的表达式：
+
+```py
+tensor_3d[plane,row,col]
+
+```
+
+遵循以下设置：
+
+![Three-dimensional tensors](img/image_02_003.jpg) Matrix 3×3 representation
+
+因此，由可变平面的值标识的第一平面中的所有四个元素都等于零：
+
+```py
+>>> tensor_3d[0,0,0] 
+1 
+>>> tensor_3d[0,0,1] 
+2 
+>>> tensor_3d[0,1,0] 
+3 
+>>> tensor_3d[0,1,1] 
+4
+
+```
+
+三维张量允许引入与图像操作相关的下一个主题，但更笼统地介绍我们以对张量的简单变换进行操作。
+
+## 使用 TensorFlow 处理张量
+
+TensorFlow 旨在处理各种大小的张量和可用于操纵它们的运算符。 在此示例中，为了查看数组操作，我们将使用数字图像。 您可能知道，彩色数字图像是 MxNx3 大小的矩阵（三阶张量），其分量与图像（RGB 空间）中的红色，绿色和蓝色分量相对应，这意味着矩形中的每个特征 RGB 图像的框将由`i`，`j`和`k`三个坐标指定。
+
+![Handling tensors with TensorFlow](img/image_02_004.jpg) The RGB tensor
+
+我想向您展示的第一件事是如何使用 TensorFlow 切片运算符上传图像，然后从原始图像中提取子图像。
+
+### 准备输入数据
+
+使用 matplotlib 中的`imread`命令，我们以标准格式的颜色（JPG，BMP，TIF）导入数字图像：
+
+```py
+import matplotlib.image as mp_image 
+filename = "packt.jpeg" 
+input_image = mp_image.imread(filename)
+
+```
+
+但是，我们可以看到张量的`rank`和`shape`：
+
+```py
+print 'input dim = {}'.format(input_image.ndim) 
+print 'input shape = {}'.format(input_image.shape) 
+
+```
+
+您将看到输出（`80, 144, 3`）。 这意味着图像的高度为`80`像素，宽度为`144`像素，深度为`3`。
+
+最后，使用`matplotlib`可以可视化导入的图像：
+
+```py
+import matplotlib.pyplot as plt 
+plt.imshow(input_image) 
+plt.show() 
+
+```
+
+![Prepare the input data](img/image_02_005.jpg) The starting image
+
+在此示例中，切片是起始图像的二维段，其中每个像素都具有 RGB 分量，因此我们需要一个占位符来存储切片的所有值：
+
+```py
+import TensorFlow as tf 
+ my_image = tf.placeholder("uint8",[None,None,3])
+
+```
+
+对于最后一个维度，我们仅需要三个值。 然后，我们使用 TensorFlow 运算符切片创建一个子图像：
+
+```py
+slice = tf.slice(my_image,[10,0,0],[16,-1,-1])
+
+```
+
+最后一步是构建 TensorFlow 工作会话：
+
+```py
+with tf.Session() as session: 
+    result = session.run(slice,feed_dict={my_image: input_image}) 
+    print(result.shape) 
+
+plt.imshow(result) 
+plt.show()
+
+```
+
+最终的形状如下图所示：
+
+![Prepare the input data](img/image_02_007-1.jpg) The input image after the slice
+
+在下一个示例中，我们将使用转置运算符对输入图像进行几何变换：
+
+```py
+import TensorFlow as tf
+
+```
+
+我们将输入图像与一个称为`x`的变量相关联：
+
+```py
+x = tf.Variable(input_image,name='x')
+
+```
+
+然后，我们初始化模型：
+
+```py
+model = tf.initialize_all_variables() 
+
+```
+
+接下来，我们使用我们的代码构建会话：
+
+```py
+with tf.Session() as session: 
+
+```
+
+要执行矩阵的转置，请使用 TensorFlow 的`transpose`函数。 此方法在输入矩阵的轴 0 和 1 之间执行交换，而`z`轴保持不变：
+
+```py
+ x = tf.transpose(x, perm=[1,0,2]) 
+    session.run(model) 
+    result=session.run(x) 
+
+plt.imshow(result) 
+plt.show()
+
+```
+
+结果如下：
+
+![Prepare the input data](img/image_02_008.jpg) The transposed image
+
+# 复数和分形
+
+首先，我们看一下 Python 如何处理复数。 这很简单。 例如，在 Python 中设置`x = 5 + 4j`，我们必须编写以下代码：
+
+```py
+>>> x = 5.+4j
+
+```
+
+这意味着`>>> x`等于`5+4j`。
+
+同时，您可以编写以下内容：
+
+```py
+>>> x = complex(5,4) 
+>>> x 
+(5+4j)
+
+```
+
+我们还注意到：
+
+*   Python 在数学中使用`j`表示`√-1`而不是`i`。
+*   如果将数字放在`j`之前，Python 会将其视为虚数，否则将其视为变量。 这意味着，如果要写入虚数`i`，则必须写入`1j`而不是`j`。
+
+要获取 Python 复数的实部和虚部，可以使用以下代码：
+
+```py
+>>> x.real 
+5.0 
+>>> x.imag 
+4.0 
+>>>
+
+```
+
+现在我们来看我们的问题，即如何使用 TensorFlow 显示分形。 Mandelbrot 图案是最著名的分形之一。 分形是一种几何对象，其结构以不同的比例重复出现。 分形在自然界中很常见，例如大不列颠海岸。
+
+为复数`c`定义了 Mandelbrot 集，对于该复数来说，以下连续是有界的：
+
+```py
+Z(n + 1) = Z(n)^2 + c，其中 Z(0) = 0
+```
+
+这套作品以其创造者 BenoîtMandelbrot（波兰数学家以制造著名的分形而闻名）的名字命名。 但是，仅在计算机编程的帮助下，他才能为 Mandelbrot 设置形状或图形表示。 1985 年，他在《科学美国人》上发表了第一个计算 Mandelbrot 集的算法。 算法（对于每个点的复数点`Z`）：
+
+1.  `Z`的初始值`Z(0) = 0`。
+2.  选择复数`c`作为当前点。 在笛卡尔平面中，横坐标轴（水平线）代表实部，而纵坐标轴（垂直线）代表`c`的虚部。
+3.  迭代： `Z(n + 1) = Z(n)^2 + c`
+    *   当`Z(n)^2`大于最大半径时停止；
+
+现在我们通过简单的步骤了解如何使用 TensorFlow 转换前面提到的算法。
+
+## 准备 Mandelbrot 集的数据
+
+将必要的库导入到我们的示例中：
+
+```py
+import TensorFlow as tf 
+import numpy as np 
+import matplotlib.pyplot as plt
+
+```
+
+我们构建了一个复杂的网格，其中将包含 Mandelbrot 的集合。 复平面的区域在实轴上位于`-1.3`和`+1.3`之间，在虚轴上位于`-2j`和`+1j`之间。 每个图像中的每个像素位置将代表不同的复数值`z`：
+
+```py
+Y, X = np.mgrid[-1.3:1.3:0.005, -2:1:0.005] 
+Z = X+1j*Y 
+c = tf.constant(Z.astype(np.complex64)) 
+
+```
+
+然后，我们定义数据结构或张量 TensorFlow，其中包含要包含在计算中的所有数据。 然后，我们定义两个变量。 第一个是我们进行迭代的那个。 它具有与复杂网格相同的尺寸，但是被声明为变量，也就是说，其值将在计算过程中发生变化：
+
+```py
+zs = tf.Variable(c) 
+
+```
+
+下一个变量初始化为零。 它的大小也与变量`zs`相同：
+
+```py
+ns = tf.Variable(tf.zeros_like(c, tf.float32)) 
+
+```
+
+## 为 Mandelbrot 集建立并执行数据流图
+
+代替引入会话，我们实例化一个`InteractiveSession()`：
+
+```py
+sess = tf.InteractiveSession()
+
+```
+
+正如我们将看到的，它需要`Tensor.eval()`和`Operation.run()`方法。 然后，我们通过`run()`方法初始化所有涉及的变量：
+
+```py
+tf.initialize_all_variables().run()
+
+```
+
+开始迭代：
+
+```py
+ zs_ = zs*zs + c
+
+```
+
+定义迭代的停止条件：
+
+```py
+not_diverged = tf.complex_abs(zs_) < 4 
+
+```
+
+然后，我们使用对多个操作进行分组的分组运算符：
+
+```py
+step = tf.group(zs.assign(zs_),\ 
+             ns.assign_add(tf.cast(not_diverged, tf.float32)))
+
+```
+
+第一个操作是步骤迭代`Z(n + 1) = Z(n)^2 + c`以创建新值。
+
+第二个操作将此值添加到`ns`中的对应元素变量中。 此`op`完成时，输入中的所有操作都已完成。 该运算符没有输出。
+
+然后，我们将运算符运行两百步：
+
+```py
+for i in range(200): step.run()
+
+```
+
+## 可视化 Mandelbrot 的结果
+
+结果将是张量`ns.eval()`。 使用 matplotlib，让我们可视化结果：
+
+```py
+plt.imshow(ns.eval()) 
+plt.show() 
+
+```
+
+![Visualize the result for Mandelbrot's set](img/image_02_015-300x226.jpg)
+
+曼德布罗集
+
+当然，Mandelbrot 集并不是我们可以看到的唯一分形。 朱莉娅集合是分形，以加斯顿·莫里斯·朱莉亚（Gaston Maurice Julia）的名字在该领域的工作而得名。 它们的构建过程与用于 Mandelbrot 集的过程非常相似。
+
+## 准备 Julia 的数据
+
+让我们定义输出复杂平面。 它在实轴上位于`-2`和`+2`之间，在虚轴上位于`-2j`和`+2j`之间：
+
+```py
+Y, X = np.mgrid[-2:2:0.005, -2:2:0.005]
+
+```
+
+和当前点位置：
+
+```py
+Z = X+1j*Y
+
+```
+
+朱莉娅集合的定义需要将`Z`重新定义为恒定张量：
+
+```py
+Z = tf.constant(Z.astype("complex64")) 
+
+```
+
+因此，支持我们的计算的输入张量如下：
+
+```py
+zs = tf.Variable(Z)
+ns = tf.Variable(tf.zeros_like(Z, "float32"))
+
+```
+
+## 为 Julia 集建立并执行数据流图
+
+与前面的示例一样，我们创建了自己的交互式会话：
+
+```py
+sess = tf.InteractiveSession()
+
+```
+
+然后我们初始化输入张量：
+
+```py
+tf.initialize_all_variables().run() 
+
+```
+
+为了计算 Julia 集的新值，我们将使用迭代公式`Z(n + 1) = Z(n)^2 + c`，其中初始点`c`等于虚数`0.75i`：
+
+```py
+c = complex(0.0,0.75) 
+zs_ = zs*zs - c
+
+```
+
+分组运算符和停止迭代的条件将与 Mandelbrot 计算中的相同：
+
+```py
+not_diverged = tf.complex_abs(zs_) < 4 
+
+step = tf.group(zs.assign(zs_),\ 
+              ns.assign_add(tf.cast(not_diverged, "float32"))) 
+
+```
+
+最后，我们将操作符运行两百步：
+
+```py
+for i in range(200): step.run()
+
+```
+
+## 可视化结果
+
+要显示结果，请运行以下命令：
+
+```py
+plt.imshow(ns.eval()) 
+plt.show()
+
+```
+
+![Visualize the result](img/image_02_018-1.jpg)
+
+朱莉娅套装
+
+# 计算梯度
+
+TensorFlow 具有解决其他更复杂任务的功能。 例如，我们将使用数学运算符来计算`y`相对于其表达式`x`参数的导数。 为此，我们使用`tf.gradients()`函数。
+
+让我们考虑数学函数`y = 2*x²`。 我们要计算相对于`x=1`的梯度`dy/dx`。 以下是计算此梯度的代码：
+
+1.  首先，导入 TensorFlow 库：
+
+    ```py
+     import TensorFlow as tf
+
+    ```
+
+2.  `x`变量是函数的自变量：
+
+    ```py
+     x = tf.placeholder(tf.float32)
+
+    ```
+
+3.  让我们构建函数：
+
+    ```py
+     y =  2*x*x
+
+    ```
+
+4.  最后，我们以`y`和`x`作为参数调用 `tf.gradients()`函数：
+
+    ```py
+     var_grad = tf.gradients(y, x)
+
+    ```
+
+5.  要求解梯度，我们必须建立一个会话：
+
+    ```py
+     with tf.Session() as session:
+
+    ```
+
+6.  将通过变量`x=1`求解梯度：
+
+    ```py
+     var_grad_val = session.run(var_grad,feed_dict={x:1}) 
+
+    ```
+
+7.  `var_grad_val`值是要打印的进纸结果：
+
+    ```py
+     print(var_grad_val)
+
+    ```
+
+8.  得到以下结果：
+
+    ```py
+     >> 
+        [4.0] 
+        >>
+
+    ```
+
+# 随机数
+
+随机数的生成对于机器学习和训练算法至关重要。 当计算机生成随机数时，它们是由**伪随机数生成器**（**PRNG**）生成的。 术语“伪”来自这样一个事实，即计算机是仅能模拟随机性的指令的染色逻辑编程运行。 尽管存在逻辑限制，但计算机在生成随机数方面非常有效。 TensorFlow 为开发者提供了创建具有不同分布的随机张量的方法。
+
+## 均匀分布
+
+通常，当我们需要使用随机数时，我们尝试获得相同频率，均匀分布的重复值。 运算符 TensorFlow 提供`minval`和`maxval`之间的值，所有这些值具有相同的概率。 让我们看一个简单的示例代码：
+
+```py
+random_uniform(shape, minval, maxval, dtype, seed, name) 
+
+```
+
+我们导入`TensorFlow`库和`matplotlib`以显示结果：
+
+```py
+import TensorFlow as tf 
+import matplotlib.pyplot as plt 
+
+```
+
+`uniform`变量是一维张量，元素`100`的值范围从 0 到 1，以相同的概率分布：
+
+```py
+uniform = tf.random_uniform([100],minval=0,maxval=1,dtype=tf.float32) 
+
+```
+
+让我们定义会话：
+
+```py
+sess = tf.Session()
+
+```
+
+在我们的会话中，我们使用`eval ()`运算符求值均匀的张量：
+
+```py
+with tf.Session() as session: 
+    print uniform.eval() 
+    plt.hist(uniform.eval(),normed=True) 
+    plt.show()
+
+```
+
+如您所见，所有介于 0 和 1 之间的中间值都具有大致相同的频率。 这种行为称为均匀分布。 因此，执行结果如下：
+
+![Uniform distribution](img/image_02_020-1.jpg)
+
+均匀分布
+
+## 正态分布
+
+在某些特定情况下，您可能需要生成相差几个单位的随机数。 在这种情况下，我们使用随机数的*正态分布*，也称为*高斯分布*，这增加了下一个问题在 0 处提取的可能性。每个整数代表标准差。 从未来的问题可以看出，该范围的边被提取的可能性很小。 以下是 TensorFlow 的实现：
+
+```py
+import TensorFlow as tf 
+import matplotlib.pyplot as plt 
+
+norm = tf.random_normal([100], mean=0, stddev=2) 
+with tf.Session() as session: 
+    plt.hist(norm.eval(),normed=True) 
+    plt.show()
+
+```
+
+我们使用运算符`tf.random_normal`创建了一个形状为`[100]`的`1d-tensor`，该形状由均值等于 0 且标准差等于`2`的随机正态值组成。 结果如下：
+
+![Normal distribution](img/image_02_022-1.jpg)
+
+正态分布
+
+## 用种子生成随机数
+
+我们回想起我们的序列是*伪随机*，因为这些值是使用确定性算法计算的，并且概率没有实际作用。 种子只是序列的起点，如果从同一种子开始，则将以相同的序列结束。 例如，这对于调试代码非常有用，例如当您在程序中搜索错误时，由于每次运行都会有所不同，因此您必须能够重现该问题。
+
+考虑以下示例，其中有两个均匀分布：
+
+```py
+uniform_with_seed = tf.random_uniform([1], seed=1)
+uniform_without_seed = tf.random_uniform([1])
+
+```
+
+在第一个均匀分布中，我们从种子`= 1`开始。这意味着重复求值两个分布，第一个均匀分布将始终生成值相同的序列：
+
+```py
+print("First Run") 
+with tf.Session() as first_session:
+print("uniform with (seed = 1) = {}"\
+.format(first_session.run(uniform_with_seed)))
+print("uniform with (seed = 1) = {}"\
+.format(first_session.run(uniform_with_seed)))
+print("uniform without seed = {}"\
+.format(first_session.run(uniform_without_seed)))
+print("uniform without seed = {}"\
+.format(first_session.run(uniform_without_seed)))
+print("Second Run")
+with tf.Session() as second_session:
+print("uniform with (seed = 1) = {}\
+.format(second_session.run(uniform_with_seed)))
+print("uniform with (seed = 1) = {}\
+.format(second_session.run(uniform_with_seed)))
+print("uniform without seed = {}"\
+.format(second_session.run(uniform_without_seed)))
+print("uniform without seed = {}"\
+.format(second_session.run(uniform_without_seed)))
+
+```
+
+如您所见，这是最终结果。 `seed = 1`的均匀分布总是得到相同的结果：
+
+```py
+>>>  
+First Run 
+uniform with (seed = 1) = [ 0.23903739] 
+uniform with (seed = 1) = [ 0.22267115] 
+uniform without seed = [ 0.92157185] 
+uniform without seed = [ 0.43226039] 
+Second Run 
+uniform with (seed = 1) = [ 0.23903739] 
+uniform with (seed = 1) = [ 0.22267115] 
+uniform without seed = [ 0.50188708] 
+uniform without seed = [ 0.21324408] 
+>>>
+
+```
+
+### 蒙特卡洛法
+
+我们以有关蒙特卡洛方法的简单注释结束有关随机数的部分。 它是一种数值概率方法，广泛应用于高性能科学计算的应用中。 在我们的示例中，我们将计算`π`的值：
+
+```py
+import TensorFlow as tf 
+
+trials = 100 
+hits = 0
+
+```
+
+使用`random_uniform`函数在正方形`[-1,1]×[-1,1]`内生成伪随机点：
+
+```py
+x = tf.random_uniform([1],minval=-1,maxval=1,dtype=tf.float32) 
+y = tf.random_uniform([1],minval=-1,maxval=1,dtype=tf.float32) 
+pi = []
+
+```
+
+开始会话：
+
+```py
+sess = tf.Session()
+
+```
+
+在会话中，我们计算`π`的值：圆的面积为`π`，正方形的面积为`4`。 圆内的数字与生成的点的总数之间的关系必须收敛（非常缓慢）到`π`，并且我们计算圆方程`x<sup>2</sup>+y<sup>2</sup>=1`内有多少点。
+
+```py
+with sess.as_default(): 
+    for i in range(1,trials): 
+        for j in range(1,trials): 
+            if x.eval()**2 + y.eval()**2 < 1 : 
+                hits = hits + 1 
+                pi.append((4 * float(hits) / i)/trials)   
+
+plt.plot(pi) 
+plt.show()
+
+```
+
+![Montecarlo's method](img/image_02_023-1.jpg)
+
+该图显示了测试次数达到π值时的收敛性
+
+# 求解偏微分方程
+
+**偏微分方程**（**PDE**）是一个微分方程，涉及多个独立变量的未知函数的偏导数。 PDE 通常用于制定和解决从量子力学到金融市场等各个领域的重大物理问题。 在本节中，我们以[这里](https://www.TensorFlow.org/versions/r0.8/tutorials/pdes/index.html)为例，展示了 TensorFlow 在二维 PDE 解决方案中的用法，它建模了方形池塘的表面，上面有几滴雨滴。 效果将是在池塘本身上产生二维波。 我们不会专注于问题的计算方面，因为这超出了本书的范围。 相反，我们将专注于使用 TensorFlow 定义问题。
+
+起点是导入以下基本库：
+
+```py
+import TensorFlow as tf 
+import numpy as np 
+import matplotlib.pyplot as plt
+
+```
+
+## 初始条件
+
+首先，我们必须定义问题的范围。 假设我们的池塘是`500x500`正方形：
+
+```py
+N = 500
+
+```
+
+以下二维张量是时间`t = 0`处的池塘，即我们问题的*初始条件*：
+
+```py
+u_init = np.zeros([N, N], dtype=np.float32) 
+
+```
+
+我们上面有`40`个随机雨滴
+
+```py
+for n in range(40): 
+  a,b = np.random.randint(0, N, 2) 
+  u_init[a,b] = np.random.uniform()
+
+```
+
+`np.random.randint(0, N, 2)`是 NumPy 函数，可在二维形状上返回从 0 到`N`的随机整数。
+
+使用 matplotlib，我们可以显示初始正方形池塘：
+
+```py
+plt.imshow(U.eval()) 
+plt.show()
+
+```
+
+![Initial condition](img/image_02_025-1.jpg)
+
+在初始状态下放大池塘：彩色圆点表示掉落的雨滴
+
+然后我们定义以下张量：
+
+```py
+ut_init = np.zeros([N, N], dtype=np.float32) 
+
+```
+
+它是池塘的*时间演变*。 在时间`t = t<sub>end</sub>`，它将包含池塘的最终状态。
+
+## 构建模型
+
+我们必须定义一些基本参数（使用 TensorFlow 占位符）和仿真的时间步长：
+
+```py
+eps = tf.placeholder(tf.float32, shape=())
+
+```
+
+我们还必须定义模型的物理参数，即`damping`系数：
+
+```py
+damping = tf.placeholder(tf.float32, shape=())
+
+```
+
+然后我们将起始张量重新定义为 TensorFlow 变量，因为它们的值将在模拟过程中发生变化：
+
+```py
+U  = tf.Variable(u_init) 
+Ut = tf.Variable(ut_init)
+
+```
+
+最后，我们建立 PDE 模型。 它代表雨滴落下后池塘时间的演变：
+
+```py
+U_ = U + eps * Ut 
+Ut_ = Ut + eps * (laplace(U) - damping * Ut) 
+
+```
+
+如您所见，我们引入了`laplace(U)`函数来解析 PDE（将在本节的最后一部分中进行介绍）。
+
+使用 TensorFlow 组运算符，我们定义了时间池`t`应该如何演变：
+
+```py
+ step = tf.group( 
+  U.assign(U_), 
+  Ut.assign(Ut_))
+
+```
+
+让我们回想一下，组运算符将多个操作分组为一个操作。
+
+## 执行图
+
+在我们的会话中，我们将以`1000`步长看到池塘的时间演变，其中每个时间步长等于`0.03s`，而阻尼系数设置为`0.04`。
+
+让我们初始化 TensorFlow 变量：
+
+```py
+tf.initialize_all_variables().run()
+
+```
+
+然后我们运行模拟：
+
+```py
+for i in range(1000): 
+  step.run({eps: 0.03, damping: 0.04}) 
+  if i % 50 == 0: 
+    clear_output() 
+    plt.imshow(U.eval()) 
+    plt.show()
+
+```
+
+每`50`个步骤，仿真结果将显示如下：
+
+![Graph execution](img/image_02_027-1.jpg)
+
+经过 400 个模拟步骤的池塘
+
+### 使用的计算函数
+
+现在让我们看看`Laplace(U)`函数和所使用的辅助函数是什么：
+
+```py
+def make_kernel(a): 
+  a = np.asarray(a) 
+  a = a.reshape(list(a.shape) + [1,1]) 
+  return tf.constant(a, dtype=1) 
+
+def simple_conv(x, k): 
+  x = tf.expand_dims(tf.expand_dims(x, 0), -1) 
+  y = tf.nn.depthwise_conv2d(x, k, [1, 1, 1, 1],padding='SAME') 
+  return y[0, :, :, 0] 
+
+def laplace(x): 
+    laplace_k = make_kernel([[0.5, 1.0, 0.5], 
+                           [1.0, -6., 1.0], 
+                           [0.5, 1.0, 0.5]]) 
+  return simple_conv(x, laplace_k)
+
+```
+
+这些函数描述了模型的物理性质，也就是说，随着波浪的产生和在池塘中的传播。 我不会详细介绍这些函数，对它们的理解超出了本书的范围。
+
+下图显示了雨滴落下后池塘上的波浪。
+
+![Computational function used](img/image_02_029-1.jpg)
+
+放大池塘
+
+# 总结
+
+在本章中，我们研究了 TensorFlow 的一些数学潜力。 从*张量*的基本定义（任何类型的计算的基本数据结构），我们看到了一些使用 TensorFlow 的数学运算符处理这些数据结构的示例。 使用*复数*数，我们探索了分形的世界。 然后，我们介绍了*随机*数的概念。 这些实际上用于机器学习中的模型开发和测试，因此本章以使用偏微分方程定义和解决数学问题的示例结尾。
+
+在下一章中，最后我们将开始在 TensorFlow 的开发领域立即开始运作-在机器学习中，解决诸如*分类*和*数据聚类*之类的复杂问题 。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch03.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch03.md
new file mode 100644
index 00000000..fd7346ac
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch03.md
@@ -0,0 +1,907 @@
+# 三、机器学习入门
+
+在本章中，我们将介绍以下主题：
+
+*   线性回归
+*   MNIST 数据集
+*   分类器
+*   最近邻算法
+*   数据聚类
+*   K 均值算法
+
+# 线性回归算法
+
+在本节中，我们将使用线性回归算法开始对机器学习技术的探索。 我们的目标是建立一个模型，通过该模型从一个或多个自变量的值预测因变量的值。
+
+这两个变量之间的关系是线性的。 也就是说，如果`y`是因变量，`x`是因变量，则两个变量之间的线性关系如下所示：`y = Ax + b`。
+
+线性回归算法可适应多种情况。 由于它的多功能性，它被广泛应用于应用科学领域，例如生物学和经济学。
+
+此外，该算法的实现使我们能够以一种完全清晰易懂的方式介绍机器学习的两个重要概念：成本函数和**梯度下降算法**。
+
+## 数据模型
+
+关键的第一步是建立我们的数据模型。 前面我们提到变量之间的关系是线性的，即：`y = Ax + b`，其中`A`和`b`是常数。 为了测试我们的算法，我们需要二维空间中的数据点。
+
+我们首先导入 Python 库 NumPy：
+
+```py
+import numpy as np
+
+```
+
+然后，我们定义要绘制的点数：
+
+```py
+number_of_points = 500
+
+```
+
+我们初始化以下两个列表：
+
+```py
+x_point = []
+y_point = []
+
+```
+
+这些点将包含生成的点。
+
+然后，我们设置将出现在`y`与`x`的线性关系中的两个常数：
+
+```py
+a = 0.22
+b = 0.78
+
+```
+
+通过 NumPy 的`random.normal`函数，我们在回归方程`y = 0.22x + 0.78`周围生成 300 个随机点：
+
+```py
+for i in range(number_of_points):
+    x = np.random.normal(0.0,0.5)
+    y = a*x + b +np.random.normal(0.0,0.1)
+    x_point.append([x])
+    y_point.append([y])
+
+```
+
+最后，通过`matplotlib`查看生成的点：
+
+```py
+import matplotlib.pyplot as plt
+plt.plot(x_point,y_point, 'o', label='Input Data')
+plt.legend()
+plt.show()
+
+```
+
+![Data model](img/B05474_03_01.jpg)
+
+线性回归：数据模型
+
+### 成本函数和梯度下降
+
+我们要用 TensorFlow 实现的机器学习算法必须根据我们的数据模型将`y`的值预测为`x`数据的函数。 线性回归算法将确定常数`A`和`b`（已为我们的数据模型固定）的值，然后这些常数才是问题的真正未知数。
+
+第一步是导入`tensorflow`库：
+
+```py
+import tensorflow as tf
+
+```
+
+然后使用 TensorFlow `tf.Variable`定义`A`和`b`未知数：
+
+```py
+A = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
+
+```
+
+使用`-1`和`1`之间的随机值初始化未知因子`A`，而变量`b`最初设置为零：
+
+```py
+b = tf.Variable(tf.zeros([1]))
+
+```
+
+因此，我们写了将`y`绑定到`x`的线性关系：
+
+```py
+y = A * x_point + b
+
+```
+
+现在，我们将介绍此*成本函数*：其参数包含一对要确定的值`A`和`b`，该参数将返回一个估计参数正确性的值。 在此示例中，我们的成本函数为*均方误差*：
+
+```py
+cost_function = tf.reduce_mean(tf.square(y - y_point))
+
+```
+
+它提供了对度量的可变性的估计，或更准确地说，是估计值在平均值附近的离散度； 该函数的较小值对应于未知参数`A`和`b`的最佳估计。
+
+为了使`cost_function`最小化，我们使用*梯度下降*的优化算法。 给定几个变量的数学函数，梯度下降允许找到该函数的局部最小值。 该技术如下：
+
+*   **在函数域的任意第一个点求值函数本身及其梯度**。 梯度表示函数趋向于最小的方向。
+*   **在梯度指示的方向上选择第二个点**。 如果此第二点的函数的值小于在第一点计算的值，则下降可以继续。
+
+您可以参考下图来直观地了解算法：
+
+![Cost functions and gradient descent](img/B05474_03_02.jpg)
+
+梯度下降算法
+
+我们还指出，梯度下降只是*局部函数最小值*，但它也可以用于搜索全局最小值，一旦找到了局部最小值，便会随机选择一个新的起点，然后重复很多次。 如果函数的最小值的数量有限，并且尝试的次数非常多，则很有可能早晚确定全局最小值。
+
+使用 TensorFlow，该算法的应用非常简单。 指令如下：
+
+```py
+optimizer = tf.train.GradientDescentOptimizer(0.5)
+
+```
+
+这里`0.5`是该算法的*学习率*。
+
+学习速度决定了我们朝着最佳权重发展的速度是多快还是多慢。 如果太大，则跳过最佳解决方案；如果太大，则需要太多迭代才能收敛到最佳值。
+
+提供了一个中间值（`0.5`），但是必须对其进行调整，以提高整个过程的表现。
+
+我们通过其`minimize`函数将`train`定义为`cost_function`（`optimizer`）应用的结果：
+
+```py
+train = optimizer.minimize(cost_function)
+
+```
+
+#### 测试模型
+
+现在，我们可以在您之前创建的数据模型上测试梯度下降算法。 和往常一样，我们必须初始化所有变量：
+
+```py
+model = tf.initialize_all_variables()
+
+```
+
+因此，我们构建了迭代（20 个计算步骤），使我们能够确定`A`和`b`的最佳值，它们定义最适合数据模型的线。 实例化求值图：
+
+```py
+with tf.Session() as session:
+
+```
+
+我们对模型进行仿真：
+
+```py
+ session.run(model)
+        for step in range(0,21):
+
+```
+
+对于每次迭代，我们执行优化步骤：
+
+```py
+ session.run(train)
+
+```
+
+每隔五个步骤，我们将打印出点的图形：
+
+```py
+ if (step % 5) == 0:
+                        plt.plot(x_point,y_point,'o',
+                                 label='step = {}'
+                                 .format(step))
+
+```
+
+直线是通过以下命令获得的：
+
+```py
+                        plt.plot(x_point,
+                                 session.run(A) * 
+                                 x_point + 
+                                 session.run(B))
+                        plt.legend()
+                        plt.show()
+
+```
+
+下图显示了所实现算法的收敛性：
+
+![Testing the model](img/B05474_03_03.jpg)
+
+线性回归：开始计算（步长`= 0`）
+
+仅需五个步骤，我们就可以看到（在下图中）该生产线的贴合性有了实质性的改进：
+
+![Testing the model](img/B05474_03_04.jpg)
+
+线性回归：5 个计算步骤后的情况
+
+下图（最后一张图）显示了 20 个步骤后的确定结果。 我们可以看到所使用算法的效率，完美地跨越了点云的直线效率。
+
+![Testing the model](img/B05474_03_05.jpg)
+
+线性回归：最终结果
+
+最后，我们报告完整的代码，以加深我们的理解：
+
+```py
+import numpy as np
+import matplotlib.pyplot as plt
+import tensorflow as tf
+number_of_points = 200
+x_point = []
+y_point = []
+a = 0.22
+b = 0.78
+for i in range(number_of_points):
+    x = np.random.normal(0.0,0.5)
+    y = a*x + b +np.random.normal(0.0,0.1)
+    x_point.append([x])
+    y_point.append([y])
+plt.plot(x_point,y_point, 'o', label='Input Data')
+plt.legend()
+plt.show()
+A = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
+B = tf.Variable(tf.zeros([1]))
+y = A * x_point + B
+cost_function = tf.reduce_mean(tf.square(y - y_point))
+optimizer = tf.train.GradientDescentOptimizer(0.5)
+train = optimizer.minimize(cost_function)
+model = tf.initialize_all_variables()
+with tf.Session() as session:
+        session.run(model)
+        for step in range(0,21):
+                session.run(train)
+                if (step % 5) == 0:
+                        plt.plot(x_point,y_point,'o',
+                                 label='step = {}'
+                                 .format(step))
+                        plt.plot(x_point,
+                                 session.run(A) * 
+                                 x_point + 
+                                 session.run(B))
+                        plt.legend()
+                        plt.show()
+
+```
+
+# MNIST 数据集
+
+[MNIST 数据集](http://yann.lecun.com/exdb/mnist/)在机器学习领域中广泛用于训练和测试，我们将在这本书的示例中使用它。 它包含从 0 到 9 的手写数字的黑白图像。
+
+数据集分为两个组：60,000 个用于训练模型，另外 10,000 个用于测试模型。 将黑白的原始图像规格化以适合大小为`28×28`像素的盒子，并通过计算像素的质心来居中。 下图表示如何在 MNIST 数据集中表示数字：
+
+![The MNIST dataset](img/B05474_03_06.jpg)
+
+MNIST 数字采样
+
+每个 MNIST 数据点是一个数字数组，描述每个像素有多暗。 例如，对于以下数字（数字 1），我们可以有：
+
+![The MNIST dataset](img/B05474_03_07.jpg)
+
+数字 1 的像素表示
+
+## 下载并准备数据
+
+以下代码导入了我们将要分类的 MNIST 数据文件。 我正在使用 Google 提供的脚本，[可以从以下位置下载该脚本](https://github.com/tensorflow/tensorflow/blob/r0.7/tensorflow/examples/tutorials/mnist/input_data.py)。 它必须在文件所在的同一文件夹中运行。
+
+现在，我们将展示如何加载和显示数据：
+
+```py
+import input_data
+import numpy as np
+import matplotlib.pyplot as plt
+
+```
+
+使用`input_data`，我们加载数据集：
+
+```py
+mnist_images = input_data.read_data_sets\
+               ("MNIST_data/",\
+                one_hot=False)
+train.next_batch(10) returns the first 10 images :
+pixels,real_values = mnist_images.train.next_batch(10)
+
+```
+
+这还会返回两个列表：加载的像素矩阵和包含加载的实数值的列表：
+
+```py
+print "list of values loaded ",real_values
+example_to_visualize = 5
+print "element N° " + str(example_to_visualize + 1)\
+                    + " of the list plotted"
+>>
+Extracting MNIST_data/train-labels-idx1-ubyte.gz
+Extracting MNIST_data/t10k-images-idx3-ubyte.gz 
+Extracting MNIST_data/t10k-labels-idx1-ubyte.gz 
+list of values loaded  [7 3 4 6 1 8 1 0 9 8] 
+element N 6 of the list plotted
+>>
+
+```
+
+在显示元素时，我们可以使用 matplotlib，如下所示：
+
+```py
+image = pixels[example_to_visualize,:]
+image = np.reshape(image,[28,28])
+plt.imshow(image)
+plt.show()
+
+```
+
+结果如下：
+
+![Downloading and preparing the data](img/B05474_03_08.jpg)
+
+MNIST 的数字八
+
+# 分类器
+
+在机器学习的上下文中，术语*分类*标识一种算法过程，该算法过程将每个新的输入数据（*实例*）分配给一种可能的类别（*类*） 。 如果只考虑两个类，我们将讨论二分类。 否则我们有一个多类分类。
+
+该分类属于*监督学习*类别，这使我们可以根据所谓的*训练集*对新实例进行分类。 解决监督分类问题的基本步骤如下：
+
+1.  构建训练示例，以表示完成分类的实际环境和应用。
+2.  选择分类器和相应的算法实现。
+3.  在训练集上训练算法，并通过验证设置任何控制参数。
+4.  通过应用一组新实例（测试集）评估分类器的准确率和表现。
+
+## 最近邻算法
+
+**K 最近邻**（**KNN**）是用于分类或回归的监督学习算法。 它是一个系统，根据其与内存中存储的对象之间的距离来分配测试样本的类别。
+
+距离`d`定义为两点之间的欧几里得距离：
+
+![The nearest neighbor algorithm](img/B05474_03_09.jpg)
+
+`n`是空间的尺寸。 这种分类方法的优点是能够对类别*无法线性分离*的对象进行分类。 考虑到训练数据的*小扰动*不会显着影响结果，因此这是一个稳定的分类器。 但是，最明显的缺点是它不能提供真正的数学模型。 相反，对于每个新分类，应通过将新数据添加到所有初始实例并针对所选 K 值重复计算过程来执行。
+
+此外，它需要相当大量的数据才能进行实际的预测，并且对分析数据的噪声敏感。
+
+在下一个示例中，我们将使用 MNIST 数据集实现 KNN 算法。
+
+### 建立训练集
+
+让我们从模拟所需的导入库开始：
+
+```py
+import numpy as np
+import tensorflow as tf
+import input_data
+
+```
+
+要构建训练集的数据模型，请使用前面介绍的`input_data.read_data_sets`函数：
+
+```py
+mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
+
+```
+
+在我们的示例中，我们将进行训练阶段，该阶段包括 100 个 MNIST 图像：
+
+```py
+train_pixels,train_list_values = mnist.train.next_batch(100) 
+
+```
+
+在测试`10`图像的算法时：
+
+```py
+test_pixels,test_list_of_values  = mnist.test.next_batch(10) 
+
+```
+
+最后，我们定义用于构建分类器的张量`train_pixel_tensor`和`test_pixel_tensor`：
+
+```py
+train_pixel_tensor = tf.placeholder\
+                     ("float", [None, 784])
+test_pixel_tensor = tf.placeholder\
+                    ("float", [784])
+
+```
+
+### 成本函数和优化
+
+成本函数由距离表示，以像素为单位：
+
+```py
+distance = tf.reduce_sum\
+           (tf.abs\
+            (tf.add(train_pixel_tensor, \
+                    tf.neg(test_pixel_tensor))), \
+            reduction_indices=1)
+
+```
+
+`tf.reduce`函数 sum 用于计算张量维度上的元素之和。 例如（摘自 TensorFlow 在线手册）：
+
+```py
+# 'x' is [[1, 1, 1]
+#         [1, 1, 1]]
+tf.reduce_sum(x) ==> 6
+tf.reduce_sum(x, 0) ==> [2, 2, 2]
+tf.reduce_sum(x, 1) ==> [3, 3]
+tf.reduce_sum(x, 1, keep_dims=True) ==> [[3], [3]]
+tf.reduce_sum(x, [0, 1]) ==> 6
+
+```
+
+最后，为了最小化距离函数，我们使用`arg_min`，它返回距离最小（最近邻）的索引：
+
+```py
+pred = tf.arg_min(distance, 0)
+
+```
+
+#### 测试和算法评估
+
+准确率是可以帮助我们计算分类器最终结果的参数：
+
+```py
+accuracy = 0
+
+```
+
+初始化变量：
+
+```py
+init = tf.initialize_all_variables()
+
+```
+
+开始模拟：
+
+```py
+with tf.Session() as sess:
+    sess.run(init)
+    for i in range(len(test_list_of_values)):
+
+```
+
+然后，我们使用前面定义的`pred`函数求值最近的邻居索引：
+
+```py
+nn_index = sess.run(pred,\
+    feed_dict={train_pixel_tensor:train_pixels,\
+    test_pixel_tensor:test_pixels[i,:]})
+
+```
+
+最后，我们找到最近的邻居类标签，并将其与其真实标签进行比较：
+
+```py
+ print "Test N° ", i,"Predicted Class: ", \
+    np.argmax(train_list_values[nn_index]),\
+    "True Class: ", np.argmax(test_list_of_values[i])
+        if np.argmax(train_list_values[nn_index])\
+    == np.argmax(test_list_of_values[i]):
+
+```
+
+然后，我们求值并报告分类器的准确率：
+
+```py
+ accuracy += 1./len(test_pixels)
+    print "Result = ", accuracy
+
+```
+
+如我们所见，训练集的每个元素均已正确分类。 仿真结果显示了预测类和真实类，最后报告了仿真的总值：
+
+```py
+>>>
+Extracting /tmp/data/train-labels-idx1-ubyte.gz                                Extracting /tmp/data/t10k-images-idx3-ubyte.gz
+Extracting /tmp/data/t10k-labels-idx1-ubyte.gz 
+Test N°  0 Predicted Class:  7 True Class:  7 
+Test N°  1 Predicted Class:  2 True Class:  2 
+Test N°  2 Predicted Class:  1 True Class:  1 
+Test N°  3 Predicted Class:  0 True Class:  0 
+Test N°  4 Predicted Class:  4 True Class:  4 
+Test N°  5 Predicted Class:  1 True Class:  1 
+Test N°  6 Predicted Class:  4 True Class:  4 
+Test N°  7 Predicted Class:  9 True Class:  9 
+Test N°  8 Predicted Class:  6 True Class:  5 
+Test N°  9 Predicted Class:  9 True Class:  9 
+Result =  0.9
+>>>
+
+```
+
+结果不是 100% 准确； 原因是在于对测试编号的错误评估。 8 代替 5，分类器的评分为 6。
+
+最后，我们报告用于 KNN 分类的完整代码：
+
+```py
+import numpy as np
+import tensorflow as tf
+import input_data
+#Build the Training Set
+
+```
+
+```py
+mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
+train_pixels,train_list_values = mnist.train.next_batch(100) 
+test_pixels,test_list_of_values  = mnist.test.next_batch(10) 
+train_pixel_tensor = tf.placeholder\
+                     ("float", [None, 784])
+test_pixel_tensor = tf.placeholder\
+                     ("float", [784])
+#Cost Function and distance optimization
+distance = tf.reduce_sum\
+           (tf.abs\
+            (tf.add(train_pixel_tensor, \
+                    tf.neg(test_pixel_tensor))), \
+            reduction_indices=1)
+pred = tf.arg_min(distance, 0)
+# Testing and algorithm evaluation
+accuracy = 0.
+init = tf.initialize_all_variables()
+with tf.Session() as sess:
+    sess.run(init)
+    for i in range(len(test_list_of_values)):
+        nn_index = sess.run(pred,\
+    feed_dict={train_pixel_tensor:train_pixels,\
+    test_pixel_tensor:test_pixels[i,:]})
+        print "Test N° ", i,"Predicted Class: ", \
+    np.argmax(train_list_values[nn_index]),\
+    "True Class: ", np.argmax(test_list_of_values[i])
+        if np.argmax(train_list_values[nn_index])\
+    == np.argmax(test_list_of_values[i]):
+            accuracy += 1./len(test_pixels)
+    print "Result = ", accuracy
+
+```
+
+# 数据聚类
+
+聚类问题包括从一组初始数据中选择和分组同类项目。 为了解决这个问题，我们必须：
+
+*   确定元素之间的*相似度*度量
+*   找出是否存在与所选测度*类似*的元素子集
+
+该算法确定哪些元素构成一个簇，以及在簇内将它们组合在一起的相似程度。
+
+聚类算法属于*无监督方法*，因为我们不假设有关聚类结构和特征的任何先验信息。
+
+## K 均值算法
+
+K 均值是最常见和最简单的*聚类算法*之一，它可以根据对象的属性将对象组细分为 k 个分区。 每个簇由*点*或*质心平均值*标识。
+
+该算法遵循一个迭代过程：
+
+1.  随机选择 K 个点作为初始质心。
+2.  重复：
+3.  通过将所有点分配给最接近的质心来形成表格 K 的聚类。
+4.  重新计算每个群集的质心。
+5.  直到质心不变。
+
+K 均值的流行来自其*收敛速度*和其*易于实现*。 就解决方案的质量而言，该算法不能保证实现全局最优。 最终解决方案的质量在很大程度上取决于集群的*初始集*，并且在实践中可能会获得更差的全局最优解。 由于该算法非常快，因此您可以多次应用它，并提供解决方案，您可以从中选择最满意的一种。 该算法的另一个缺点是，它要求您选择要查找的簇数（`k`）。
+
+如果数据不是自然分区的，您将最终得到奇怪的结果。 此外，该算法仅在数据中存在可识别的球形簇时才有效。
+
+现在让我们看看如何通过 TensorFlow 库实现 K 均值。
+
+## 建立训练集
+
+将所有必需的库导入到我们的仿真中：
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import tensorflow as tf
+import pandas as pd
+
+```
+
+### 注意
+
+Pandas 是适用于 Python 编程语言的开源，易于使用的数据结构和数据分析工具。 要安装它，请键入以下命令：
+
+```py
+sudo pip install pandas
+
+```
+
+我们必须定义问题的参数。 我们要聚类的总点数为`1000`分：
+
+```py
+num_vectors = 1000
+
+```
+
+您要通过所有首字母实现的分区数：
+
+```py
+num_clusters = 4
+
+```
+
+我们设置 K 均值算法的计算步骤数：
+
+```py
+num_steps = 100
+
+```
+
+我们初始化初始输入数据结构：
+
+```py
+x_values = []
+y_values = []
+vector_values = []
+
+```
+
+*训练集*创建了一个随机的点集，这就是为什么我们使用`random.normal` NumPy 函数，从而允许我们构建`x_values`和`y_values`向量的原因：
+
+```py
+for i in xrange(num_vectors):
+  if np.random.random() > 0.5:
+    x_values.append(np.random.normal(0.4, 0.7))
+    y_values.append(np.random.normal(0.2, 0.8))
+  else:
+    x_values.append(np.random.normal(0.6, 0.4))
+    y_values.append(np.random.normal(0.8, 0.5))
+
+```
+
+我们使用 Python 的`zip`函数来获取`vector_values`的完整列表：
+
+```py
+vector_values = zip(x_values,y_values)
+
+```
+
+然后，`vector_values`转换为可由 TensorFlow 使用的常量：
+
+```py
+vectors = tf.constant(vector_values)
+
+```
+
+我们可以使用以下命令查看用于聚类算法的*训练集*：
+
+```py
+plt.plot(x_values,y_values, 'o', label='Input Data')
+plt.legend()
+plt.show()
+
+```
+
+![Building the training set](img/B05474_03_10-1024x758.jpg)
+
+K 均值训练集
+
+在随机构建训练集之后，我们必须生成（`k = 4`）重心，然后使用`tf.random_shuffle`确定索引：
+
+```py
+n_samples = tf.shape(vector_values)[0]
+random_indices = tf.random_shuffle(tf.range(0, n_samples))
+
+```
+
+通过采用此过程，我们能够确定四个随机指数：
+
+```py
+begin = [0,]
+size = [num_clusters,]
+size[0] = num_clusters
+
+```
+
+它们具有我们初始质心的索引：
+
+```py
+centroid_indices = tf.slice(random_indices, begin, size)
+centroids = tf.Variable(tf.gather\
+            (vector_values, centroid_indices))
+
+```
+
+## 成本函数和优化
+
+我们要针对此问题最小化的成本函数再次是两点之间的欧式距离：
+
+![Cost functions and optimization](img/B05474_03_09.jpg)
+
+为了管理先前定义的张量`vectors`和`centroids`，我们使用 TensorFlow 函数`expand_dims`，该函数自动扩展两个参数的大小：
+
+```py
+expanded_vectors = tf.expand_dims(vectors, 0)
+expanded_centroids = tf.expand_dims(centroids, 1)
+
+```
+
+此函数允许您标准化两个张量的形状，以便通过`tf.sub`方法求值差异：
+
+```py
+vectors_subtration = tf.sub(expanded_vectors,expanded_centroids)
+
+```
+
+最后，我们使用`tf.reduce_sum`函数构建`euclidean_distances`成本函数，该函数计算张量维度上的元素总和，而`tf.square`函数计算`vectors_subtration`元素张量的平方：
+
+```py
+euclidean_distances = tf.reduce_sum(tf.square\
+                      (vectors_subtration), 2)
+assignments = tf.to_int32(tf.argmin(euclidean_distances, 0))
+
+```
+
+此处`assignments`是跨张量`euclidean_distances`的距离最小的索引值。 现在让我们进入优化阶段，其目的是改善质心的选择，而质心的构建依赖于质心的构建。 我们使用`assignments`的索引将`vectors`（这是我们的*训练集*）划分为`num_clusters`张量。
+
+以下代码获取每个样本的最近索引，并使用`tf.dynamic_partition`将它们作为单独的组获取：
+
+```py
+partitions = tf.dynamic_partition\
+             (vectors, assignments, num_clusters)
+
+```
+
+最后，我们对单个组使用`tf.reduce_mean`更新质心，以找到该组的平均值，从而形成其新质心：
+
+```py
+update_centroids = tf.concat(0, \
+                          [tf.expand_dims\
+                      (tf.reduce_mean(partition, 0), 0)\
+                           for partition in partitions])
+
+```
+
+为了形成`update_centroids`张量，我们使用`tf.concat`连接单个张量。
+
+### 测试和算法评估
+
+现在是测试和评估算法的时候了。 第一个过程是初始化所有变量并实例化求值图：
+
+```py
+init_op = tf.initialize_all_variables()
+sess = tf.Session()
+sess.run(init_op)
+
+```
+
+现在我们开始计算：
+
+```py
+for step in xrange(num_steps):
+   _, centroid_values, assignment_values =\
+      sess.run([update_centroids,\
+                centroids,\
+                assignments])
+
+```
+
+为了显示结果，我们实现以下函数：
+
+```py
+display_partition(x_values,y_values,assignment_values)
+
+```
+
+这将使用训练集的`x_values`和`y_values`向量以及`assignemnt_values`向量来绘制聚类。
+
+此可视化函数的代码如下：
+
+```py
+def display_partition(x_values,y_values,assignment_values):
+    labels = []
+    colors = ["red","blue","green","yellow"]
+    for i in xrange(len(assignment_values)):
+      labels.append(colors[(assignment_values[i])])
+    color = labels
+    df = pd.DataFrame\
+         (dict(x =x_values,y = y_values ,color = labels ))
+    fig, ax = plt.subplots()
+    ax.scatter(df['x'], df['y'], c=df['color'])
+    plt.show()
+
+```
+
+它通过以下数据结构将每个颜色的颜色关联到每个群集：
+
+```py
+colors = ["red","blue","green","yellow"]
+
+```
+
+然后通过 matplotlib 的`scatter`函数绘制它们：
+
+```py
+ax.scatter(df['x'], df['y'], c=df['color'])
+
+```
+
+让我们显示结果：
+
+![Testing and algorithm evaluation](img/B05474_11-1024x758.jpg)
+
+k-means 算法的最终结果
+
+这是 K 均值算法的完整代码：
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import pandas as pd
+import tensorflow as tf
+def display_partition(x_values,y_values,assignment_values):
+    labels = []
+    colors = ["red","blue","green","yellow"]
+    for i in xrange(len(assignment_values)):
+      labels.append(colors[(assignment_values[i])])
+    color = labels
+    df = pd.DataFrame\
+            (dict(x =x_values,y = y_values ,color = labels ))
+    fig, ax = plt.subplots()
+    ax.scatter(df['x'], df['y'], c=df['color'])
+    plt.show()
+num_vectors = 2000
+num_clusters = 4
+n_samples_per_cluster = 500
+num_steps = 1000
+x_values = []
+y_values = []
+vector_values = []
+# CREATE RANDOM DATA
+for i in xrange(num_vectors):
+  if np.random.random() > 0.5:
+    x_values.append(np.random.normal(0.4, 0.7))
+    y_values.append(np.random.normal(0.2, 0.8))
+  else:
+    x_values.append(np.random.normal(0.6, 0.4))
+    y_values.append(np.random.normal(0.8, 0.5))
+vector_values = zip(x_values,y_values)
+vectors = tf.constant(vector_values)
+n_samples = tf.shape(vector_values)[0]
+random_indices = tf.random_shuffle(tf.range(0, n_samples))
+begin = [0,]
+size = [num_clusters,]
+size[0] = num_clusters
+centroid_indices = tf.slice(random_indices, begin, size)
+centroids = tf.Variable(tf.gather(vector_values, centroid_indices))
+expanded_vectors = tf.expand_dims(vectors, 0)
+expanded_centroids = tf.expand_dims(centroids, 1)
+vectors_subtration = tf.sub(expanded_vectors,expanded_centroids)
+euclidean_distances =         
+               \tf.reduce_sum(tf.square(vectors_subtration), 2)
+assignments = tf.to_int32(tf.argmin(euclidean_distances, 0))
+partitions = [0, 0, 1, 1, 0]
+num_partitions = 2
+data = [10, 20, 30, 40, 50]
+outputs[0] = [10, 20, 50]
+outputs[1] = [30, 40]
+partitions = tf.dynamic_partition(vectors, assignments, num_clusters)
+update_centroids = tf.concat(0, [tf.expand_dims (tf.reduce_mean(partition, 0), 0)\
+                              for partition in partitions])
+init_op = tf.initialize_all_variables()
+sess = tf.Session()
+sess.run(init_op)
+for step in xrange(num_steps):
+   _, centroid_values, assignment_values =\
+      sess.run([update_centroids,\
+                centroids,\
+                assignments])
+display_partition(x_values,y_values,assignment_values)
+plt.plot(x_values,y_values, 'o', label='Input Data')
+plt.legend()
+plt.show()
+
+```
+
+# 总结
+
+在本章中，我们开始探索 TensorFlow 在机器学习中一些典型问题的潜力。 使用*线性回归*算法，解释了*成本函数*和使用*梯度下降*进行优化的重要概念。 然后，我们描述了手写数字的数据集 MNIST。 我们还使用*最近邻*算法实现了多类分类器，该分类器属于机器学习*监督学习*类别。 然后，本章以实现数据聚类问题的 K 均值算法为例，以*无监督学习*为例。
+
+在下一章中，我们将介绍神经网络。 这些是代表定义为*人工神经元*的元素之间相互联系的数学模型，即模仿活神经元特性的数学构造。
+
+我们还将使用 TensorFlow 实现一些神经网络学习模型。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch04.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch04.md
new file mode 100644
index 00000000..fc89379e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch04.md
@@ -0,0 +1,1070 @@
+# 四、神经网络简介
+
+在本章中，我们将介绍以下主题：
+
+*   什么是神经网络？
+*   单层感知机
+*   逻辑回归
+*   多层感知机
+*   多层感知机分类
+*   多层感知机函数近似
+
+# 什么是人工神经网络？
+
+**人工神经网络**（**ANN**）是一种信息处理系统，其运行机制受生物神经电路的启发。 由于它们的特性，神经网络是机器学习系统（尤其是在人工智能环境中）真正革命的主角。 根据各种架构，人工神经网络拥有许多相互连接的简单处理单元。 如果我们看一下稍后报告的 ANN 的架构，可以看到*隐藏单元*在输入和输出中与外部层通信，而*输入*和*输出单元*仅与网络的*隐藏层*通信。
+
+每个单元或节点都模拟神经元在生物神经网络中的作用。 每个节点，即*人工神经元*，都具有非常简单的操作：如果其接收到的信号总量超过其激活阈值（由所谓的激活函数定义），它将变为活动状态。 如果节点*变为活动*，它会发射信号，该信号沿着传输通道传输到与其连接的另一个单元。 每个连接点都充当过滤器，将消息转换为抑制性信号或兴奋性信号，根据其各自的特征来增加或减少强度。 连接点模拟生物突触，并具有通过将传输信号乘以权重（其值取决于连接本身）来权衡传输信号强度的基本功能。
+
+![What are artificial neural networks?](img/B05474_04_01.jpg)
+
+ANN 原理图
+
+## 神经网络架构
+
+连接节点的方式，*总层数*，即输入和输出之间的节点级别，以及每层神经元的数量-所有这些都定义了*神经网络的架构*。 例如，在**多层网络**中（我们将在本章的第二部分中介绍这些网络），可以识别层的人工神经元，使得：
+
+*   每个神经元都与下一层的所有神经元相连
+*   属于同一层的神经元之间没有连接
+*   层数和每层神经元的数量取决于要解决的问题
+
+现在，我们开始探索神经网络模型，介绍最简单的神经网络模型：单层感知机或所谓的罗森布拉特感知机。
+
+# 单层感知机
+
+单层感知机是第一个神经网络模型，由 Frank Rosenblatt 于 1958 年提出。 在此模型中，神经元局部记忆的内容由权重向量`W = (w1, w2,......, wn)`组成。 该计算是在计算输入向量`X =(x1, x2,......, xn)`的总和之后执行的，每个输入向量均与权重向量的相应元素相乘； 那么输出中提供的值（即加权总和）将是激活函数的输入。 如果结果大于某个阈值，则此函数返回`1`，否则返回`-1`。 在下图中，激活函数是所谓的`sign`函数：
+
+```py
+ +1        x > 0
+sign(x)=
+ −1        otherwise
+
+```
+
+可以使用其他激活函数，最好是非线性激活函数（例如`sigmoid`函数，我们将在下一部分中看到）。 网络的学习过程是迭代的：通过使用称为训练集的选定集，可以为每个学习周期（称为周期）稍微修改突触权重。 在每个循环中，必须修改权重以最小化成本函数，该成本函数特定于所考虑的问题。 最后，当感知机已在训练集上进行训练后，将在其他输入（测试集）上对其进行测试，以验证其概括能力。
+
+![Single Layer Perceptron](img/B05474_04_02.jpg)
+
+Rosemblatt 的感知机架构
+
+现在让我们看看如何使用 TensorFlow 对图像分类问题实现单层神经网络。
+
+# 逻辑回归
+
+该算法与我们在第 3 章“机器学习入门”开始看到的规范线性回归无关，但是它是允许我们解决监督分类问题的算法。 实际上，为了估计因变量，现在我们利用所谓的逻辑函数或 Sigmoid。 正是由于这个函数，我们将此算法称为逻辑回归。 Sigmoid 函数具有以下模式：
+
+![The logistic regression](img/B05474_04_03.jpg)
+
+Sigmoid 函数
+
+如我们所见，因变量的取值严格在`0`和`1`之间，这正是为我们服务的内容。 对于*逻辑回归*，我们希望我们的函数告诉我们属于我们的类别某个特定元素的*概率*是多少。 我们再次记得，通过神经网络对*监督*学习被配置为权重优化的*迭代过程*； 然后根据训练集的网络表现对它们进行修改。 实际上，其目标是使*损失函数*最小化，该函数表明网络行为偏离所需行为的程度。 然后，在*测试集*上验证网络的表现，该测试集由除受过训练的图像以外的其他图像组成。
+
+我们将要实现的训练的基本步骤如下：
+
+*   权重在训练开始时用随机值初始化。
+*   对于训练集的每个元素，都会计算*误差*，即期望输出与实际输出之间的差。 此误差用于调整权重。
+*   重复该过程，以随机顺序将训练集的所有示例重新提交给网络，直到整个训练集上的误差不小于某个阈值，或者直到达到最大迭代次数为止。
+
+现在让我们详细了解如何使用 TensorFlow 实现逻辑回归。 我们要解决的问题是对来自 MNIST 数据集的图像进行分类，如第 3 章，“机器学习入门”中的手写数字的数据库。
+
+## TensorFlow 实现
+
+要实现 TensorFlow，我们需要执行以下步骤：
+
+1.  首先，我们必须导入所有必需的库：
+
+    ```py
+    import input_data
+    import tensorflow as tf
+    import matplotlib.pyplot as plt
+
+    ```
+
+2.  我们使用第 3 章“机器学习入门”引入的 *MNIST 数据集*部分中的`input_data.read`函数，将图像上传到我们的问题中：
+
+    ```py
+    mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
+
+    ```
+
+3.  然后，我们设置训练阶段的总次数：
+
+    ```py
+    training_epochs = 25
+
+    ```
+
+4.  我们还必须定义构建模型所需的其他参数：
+
+    ```py
+    learning_rate = 0.01
+    batch_size = 100
+    display_step = 1
+
+    ```
+
+5.  现在我们转到模型的构建。
+
+## 建立模型
+
+将`x`定义为输入张量； 它表示大小为`28 x 28 = 784`像素的 MNIST 数据图像：
+
+```py
+x = tf.placeholder("float", [None, 784]) 
+
+```
+
+我们回想起我们的问题是为每种可能的隶属度类别（从 0 到 9 的数字）分配一个概率值。 在计算的最后，我们将使用概率分布，该分布为我们提供了对我们的预测的置信值。
+
+因此，我们要获得的输出将是一个具有`10`概率的输出张量，每个张量都对应一个数字（当然，概率之和必须为 1）：
+
+```py
+y = tf.placeholder("float", [None, 10]) 
+
+```
+
+为了给每个图像分配概率，我们将使用所谓的 softmax 激活函数。
+
+`softmax`函数在两个主要步骤中指定：
+
+*   计算*证据*，即某个图像属于特定类别
+*   将证据转换为属于 10 个可能类别中的每个类别的*概率*
+
+为了求值证据，我们首先将权重输入张量定义为`W`：
+
+```py
+W = tf.Variable(tf.zeros([784, 10]))
+
+```
+
+对于给定的图像，我们可以通过简单地将张量`W`与输入张量`x`相乘来求值每个类别`i`的证据。 使用 TensorFlow，我们应该具有以下内容：
+
+```py
+evidence = tf.matmul(x, W)
+
+```
+
+通常，模型包括代表偏差的额外参数，该参数表示一定程度的不确定性。 在我们的案例中，证据的最终公式如下：
+
+```py
+evidence = tf.matmul(x, W) + b
+
+```
+
+这意味着，对于每个`i`（从 0 到 9），我们都有一个`Wi`矩阵元素`784 (28 × 28)`，其中矩阵的每个元素`j`与输入图像的相应分量`j`相乘（784 部分），并添加相应的偏置元素`bi`。
+
+因此，要定义证据，我们必须定义以下偏差张量：
+
+```py
+b = tf.Variable(tf.zeros([10]))
+
+```
+
+第二步是最终使用`softmax`函数获得概率的输出向量，即`activation`：
+
+```py
+activation = tf.nn.softmax(tf.matmul(x, W) + b)
+
+```
+
+TensorFlow 的`tf.nn.softmax`函数提供了来自输入证据张量的基于概率的输出。 一旦实现模型，我们就可以指定必要的代码，以通过迭代训练算法找到权重`W`和偏置`b`网络。 在每次迭代中，训练算法都会获取训练数据，应用神经网络，并将结果与​​预期结果进行比较。
+
+### 注意
+
+TensorFlow 提供了许多其他激活函数。 有关更好的参考，请参见[这里](https://www.tensorflow.org/versions/r0.8/api_docs/index.html)。
+
+为了训练我们的模型并知道何时有一个好的模型，我们必须定义如何定义模型的准确率。 我们的目标是尝试获取参数`W`和`b`的值，这些值会最小化指示模型有多糟糕的度量值。
+
+不同的度量标准计算了期望输出和训练数据输出之间的误差。 常见的误差度量是均方误差或*平方欧几里德距离*。 但是，有一些研究发现建议对这种神经网络使用其他指标。
+
+在此示例中，我们使用所谓的`cross-entropy error`函数。 它定义为：
+
+```py
+cross_entropy = y*tf.lg(activation)
+
+```
+
+为了最小化`cross_entropy`，我们可以使用`tf.reduce_mean`和`tf.reduce_sum`的以下组合来构建成本函数：
+
+```py
+cost = tf.reduce_mean\
+         (-tf.reduce_sum\
+           (cross_entropy, reduction_indices=1)) 
+
+```
+
+然后，我们必须使用梯度下降优化算法将其最小化：
+
+```py
+optimizer = tf.train.GradientDescentOptimizer\
+                 (learning_rate).minimize(cost)
+
+```
+
+只需几行代码即可构建神经网络模型！
+
+## 启动会话
+
+现在是构建会话并启动我们的神经网络模型的时候了。
+
+我们修复了以下列表以可视化训练过程：
+
+```py
+avg_set = []
+epoch_set=[]
+
+```
+
+然后我们初始化 TensorFlow 变量：
+
+```py
+init = tf.initialize_all_variables()
+
+```
+
+开始会话：
+
+```py
+with tf.Session() as sess:
+    sess.run(init)
+
+```
+
+如前所述，每个周期都是一个训练周期：
+
+```py
+ for epoch in range(training_epochs):
+        avg_cost = 0.
+        total_batch = int(mnist.train.num_examples/batch_size)
+
+```
+
+然后我们遍历所有批次：
+
+```py
+ for i in range(total_batch):
+            batch_xs, batch_ys = \
+                            mnist.train.next_batch(batch_size)
+
+```
+
+使用批量数据拟合训练：
+
+```py
+ sess.run(optimizer, feed_dict={x: batch_xs, y: batch_ys})
+
+```
+
+用给定的图像值（`x`）和实际输出（`y_`）计算运行`train_step`函数的平均损失：
+
+```py
+ avg_cost += sess.run\
+                        (cost, feed_dict={x: batch_xs,\
+                                y: batch_ys})/total_batch
+
+```
+
+在计算过程中，我们每个周期显示一个日志：
+
+```py
+ if epoch % display_step == 0:
+            print "Epoch:",\
+                  '%04d' % (epoch+1),\
+                  "cost=","{:.9f}".format(avg_cost)
+    print " Training phase finished"
+
+```
+
+让我们获得模式的准确率。 如果`y`值最高的索引与实数向量中的`correct_prediction`均值使我们具有准确率，则是正确的。 我们需要使用测试集（`mnist.test`）运行准确率函数。
+
+我们使用`x`和`y`的关键图像和标签：
+
+```py
+ correct_prediction = tf.equal\
+                           (tf.argmax(activation, 1),\
+                            tf.argmax(y, 1))
+    accuracy = tf.reduce_mean\
+                       (tf.cast(correct_prediction, "float"))
+   print "MODEL accuracy:", accuracy.eval({x: mnist.test.images,\
+                                   y: mnist.test.labels})
+
+```
+
+## 测试和评估
+
+我们之前显示了训练阶段，并且对于每个周期，我们都打印了相对成本函数：
+
+```py
+Python 2.7.10 (default, Oct 14 2015, 16:09:02)  [GCC 5.2.1 20151010] on linux2 Type "copyright", "credits" or "license()" for more information. >>> ======================= RESTART ============================
+>>>
+Extracting /tmp/data/train-images-idx3-ubyte.gz 
+Extracting /tmp/data/train-labels-idx1-ubyte.gz 
+Extracting /tmp/data/t10k-images-idx3-ubyte.gz 
+Extracting /tmp/data/t10k-labels-idx1-ubyte.gz 
+Epoch: 0001 cost= 1.174406662 
+Epoch: 0002 cost= 0.661956009 
+Epoch: 0003 cost= 0.550468774 
+Epoch: 0004 cost= 0.496588717 
+Epoch: 0005 cost= 0.463674555 
+Epoch: 0006 cost= 0.440907706 
+Epoch: 0007 cost= 0.423837747 
+Epoch: 0008 cost= 0.410590841 
+Epoch: 0009 cost= 0.399881751 
+Epoch: 0010 cost= 0.390916621 
+Epoch: 0011 cost= 0.383320325 
+Epoch: 0012 cost= 0.376767031 
+Epoch: 0013 cost= 0.371007620 
+Epoch: 0014 cost= 0.365922904 
+Epoch: 0015 cost= 0.361327561 
+Epoch: 0016 cost= 0.357258660 
+Epoch: 0017 cost= 0.353508228 
+Epoch: 0018 cost= 0.350164634 
+Epoch: 0019 cost= 0.347015593 
+Epoch: 0020 cost= 0.344140861 
+Epoch: 0021 cost= 0.341420144 
+Epoch: 0022 cost= 0.338980592 
+Epoch: 0023 cost= 0.336655581 
+Epoch: 0024 cost= 0.334488012 
+Epoch: 0025 cost= 0.332488823 
+Training phase finished
+
+```
+
+如您所见，在训练阶段，成本函数被最小化。 在测试的最后，我们展示了实现模型的准确率：
+
+```py
+Model Accuracy: 0.9475 
+    >>>
+
+```
+
+最后，使用以下代码行，我们可以可视化网络的训练阶段：
+
+```py
+plt.plot(epoch_set,avg_set, 'o',\
+     label='Logistic Regression Training phase')
+plt.ylabel('cost')
+plt.xlabel('epoch')
+plt.legend()
+plt.show()
+
+```
+
+![Test evaluation](img/B05474_04_04.jpg)
+
+逻辑回归训练阶段
+
+## 源代码
+
+```py
+# Import MINST data
+import input_data
+mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
+import tensorflow as tf
+import matplotlib.pyplot as plt
+# Parameters
+learning_rate = 0.01
+training_epochs = 25
+batch_size = 100
+display_step = 1
+# tf Graph Input
+x = tf.placeholder("float", [None, 784]) 
+y = tf.placeholder("float", [None, 10]) 
+# Create model
+# Set model weights
+W = tf.Variable(tf.zeros([784, 10]))
+b = tf.Variable(tf.zeros([10]))
+# Construct model
+activation = tf.nn.softmax(tf.matmul(x, W) + b) 
+# Minimize error using cross entropy
+cross_entropy = y*tf.log(activation)
+cost = tf.reduce_mean\
+       (-tf.reduce_sum\
+        (cross_entropy,reduction_indices=1))
+optimizer = tf.train.\
+            GradientDescentOptimizer(learning_rate).minimize(cost) 
+#Plot settings
+avg_set = []
+epoch_set=[]
+# Initializing the variables
+init = tf.initialize_all_variables()
+# Launch the graph
+with tf.Session() as sess:
+    sess.run(init)
+    # Training cycle
+    for epoch in range(training_epochs):
+        avg_cost = 0.
+        total_batch = int(mnist.train.num_examples/batch_size)
+        # Loop over all batches
+        for i in range(total_batch):
+            batch_xs, batch_ys = \
+                      mnist.train.next_batch(batch_size)
+            # Fit training using batch data
+            sess.run(optimizer, \
+                     feed_dict={x: batch_xs, y: batch_ys})
+            # Compute average loss
+            avg_cost += sess.run(cost,feed_dict=\
+                                     {x: batch_xs,\ 
+                                      y: batch_ys})/total_batch
+        # Display logs per epoch step
+        if epoch % display_step == 0:
+            print "Epoch:", '%04d' % (epoch+1),\
+                  "cost=", "{:.9f}".format(avg_cost)
+        avg_set.append(avg_cost)
+        epoch_set.append(epoch+1)
+    print "Training phase finished"
+    plt.plot(epoch_set,avg_set, 'o',\
+             label='Logistic Regression Training phase')
+    plt.ylabel('cost')
+    plt.xlabel('epoch')
+    plt.legend()
+    plt.show()
+    # Test model
+    correct_prediction = tf.equal\
+                        (tf.argmax(activation, 1),\
+                         tf.argmax(y, 1))
+    # Calculate accuracy
+    accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
+    print "Model accuracy:", accuracy.eval({x: mnist.test.images,\
+                                            y: mnist.test.labels})
+
+```
+
+# 多层感知机
+
+更复杂和有效的架构是**多层感知机**（**MLP**）。 它基本上由多层感知机组成，因此至少存在*隐藏的层*，即**未连接到网络的输入或输出**：
+
+![Multi Layer Perceptron](img/B05474_04_05.jpg)
+
+MLP 架构
+
+根据上一段中概述的原则，通常使用监督学习来训练这种类型的网络。 特别地，用于 MLP 网络的典型学习算法是所谓的反向传播算法。
+
+### 注意
+
+反向传播算法是一种用于神经网络的学习算法。 它将系统的输出值与所需值进行比较。 基于由此计算出的差异（即误差），该算法通过逐步收敛所需输出值的集合来修改神经网络的突触权重。
+
+重要的是要注意，在 MLP 网络中，尽管您不知道网络隐藏层的神经元的期望输出，但是始终可以通过基于最小误差函数的最小化应用有监督的学习方法。 梯度下降技术的应用。
+
+在以下示例中，我们显示了针对图像分类问题（MNIST）的 MLP 实现。
+
+## 多层感知机分类
+
+导入必要的库：
+
+```py
+import input_data
+import tensorflow as tf
+import matplotlib.pyplot as plt
+
+```
+
+加载图像进行分类：
+
+```py
+mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
+
+```
+
+修复 MLP 模型的一些参数：
+
+网络学习率：
+
+```py
+learning_rate = 0.001
+
+```
+
+周期：
+
+```py
+training_epochs = 20
+
+```
+
+要分类的图像数量：
+
+```py
+batch_size = 100
+display_step = 1
+
+```
+
+第一层的神经元数量：
+
+```py
+n_hidden_1 = 256 
+
+```
+
+第二层的神经元数量：
+
+```py
+n_hidden_2 = 256 
+
+```
+
+输入的大小（每个图像都有`784`像素）：
+
+```py
+n_input = 784 # MNIST data input (img shape: 28*28)
+
+```
+
+输出类的大小：
+
+```py
+n_classes = 10
+
+```
+
+因此，应该注意的是，尽管对于给定的应用，输入和输出大小是完美定义的，但是对于如何定义隐藏层的数量和每层神经元的数量，没有严格的标准。
+
+每个选择都必须基于类似应用的经验，例如：
+
+*   当增加隐藏层的数量时，我们还应该在学习阶段增加必要的训练集的大小，并增加要更新的连接数。 这导致训练时间*增加*。
+*   另外，如果隐藏层中的神经元太多，不仅有更多的权重需要更新，而且网络还倾向于从训练示例集中学习太多，从而导致*泛化能力很差*。 但是，如果隐藏的神经元太少，即使使用训练集，网络*也无法学习*。
+
+### 建立模型
+
+输入层是`x`张量`[1×784]`，它表示要分类的图像：
+
+```py
+x = tf.placeholder("float", [None, n_input])
+
+```
+
+输出张量`y`等于类数：
+
+```py
+y = tf.placeholder("float", [None, n_classes])
+
+```
+
+在中间，我们有两个隐藏层。 第一层由权重的`h`张量构成，其权重为`[784 × 256]`，其中`256`是该层的节点总数：
+
+```py
+h = tf.Variable(tf.random_normal([n_input, n_hidden_1]))
+
+```
+
+对于第 1 层，我们必须定义各自的偏置张量：
+
+```py
+bias_layer_1 = tf.Variable(tf.random_normal([n_hidden_1]))
+
+```
+
+每个神经元接收要与`hij`权重连接相结合进行分类的输入图像像素，并添加到偏置张量的各个值中：
+
+```py
+layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(x,h),bias_layer_1))
+
+```
+
+它通过`activation`函数将其输出发送到下一层的神经元。 必须说，每个神经元的特征可能不同，但是在实践中，我们对所有神经元（通常为 Sigmoid）采用一个共同的特征。 有时输出神经元具有线性激活函数。 有趣的是，隐藏层中神经元的激活函数不能是线性的，因为在这种情况下，MLP 网络将等效于具有两层的网络，因此不再是 MLP 类型。 第二层必须执行与第一相同的步骤。
+
+第二中间层由权重张量`[256 × 256]`的形状表示：
+
+```py
+w = tf.Variable(tf.random_normal([n_hidden_1, n_hidden_2]))
+
+```
+
+有偏置张量：
+
+```py
+bias_layer_2 = tf.Variable(tf.random_normal([n_hidden_2]))
+
+```
+
+第二层中的每个神经元都接收来自第 1 层神经元的输入，并与权重`Wij`连接相结合，并添加到第 2 层的各个偏差中：
+
+```py
+layer_2 = tf.nn.sigmoid(tf.add(tf.matmul(layer_1,w),bias_layer_2))
+
+```
+
+它将其输出发送到下一层，即输出层：
+
+```py
+output = tf.Variable(tf.random_normal([n_hidden_2, n_classes]))
+bias_output = tf.Variable(tf.random_normal([n_classes]))
+output_layer = tf.matmul(layer_2, output) + bias_output
+
+```
+
+输出层接收来自层 2 的 n 个刺激（256）作为输入，该 n 个刺激被转换为每个数的相应概率类别。
+
+至于逻辑回归，我们然后定义`cost`函数：
+
+```py
+cost = tf.reduce_mean\
+    (tf.nn.softmax_cross_entropy_with_logits\
+(output_layer, y))
+
+```
+
+TensorFlow 函数`tf` `.nn.softmax_cross_entropy_with_logits`计算 softmax 层的成本。 仅在训练期间使用。 logits 是模型输出的未归一化对数概率（将 softmax 归一化之前输出的值）。
+
+使`cost`函数最小化的相应优化器是：
+
+```py
+optimizer = tf.train.AdamOptimizer\
+      (learning_rate=learning_rate).minimize(cost) 
+
+```
+
+`tf.train.AdamOptimizer`使用 Kingma 和 Ba 的 Adam 算法控制学习率。 与简单的`tf.train.GradientDescentOptimizer`相比，Adam 具有多个优点。 实际上，它使用了较大的有效步长，并且该算法将收敛到该步长而无需微调。
+
+一个简单的`tf.train.GradientDescentOptimizer`也可以在您的 MLP 中使用，但需要更多的超参数调整，才能使其快速收敛。
+
+### 注意
+
+TensorFlow 提供了优化器基类来计算损失的梯度并将梯度应用于变量。 此类定义用于添加操作以训练模型的 API。 您永远不会直接使用此类，而是实例化其子类之一。 请参阅[这里](https://www.tensorflow.org/versions/r0.8/api_docs/python/train.html#Optimizer)以查看优化程序的实现。
+
+### 启动会话
+
+以下是启动会话的步骤：
+
+1.  定义集合：
+
+    ```py
+    avg_set = []
+    epoch_set=[]
+
+    ```
+
+2.  初始化变量：
+
+    ```py
+    init = tf.initialize_all_variables()
+
+    ```
+
+3.  启动图：
+
+    ```py
+    with tf.Session() as sess:
+        sess.run(init)
+
+    ```
+
+4.  定义训练周期：
+
+    ```py
+     for epoch in range(training_epochs):
+            avg_cost = 0.
+            total_batch = int(mnist.train.num_examples/batch_size)
+
+    ```
+
+5.  循环所有批次（100）：
+
+    ```py
+     for i in range(total_batch):
+                batch_xs, batch_ys = mnist.train.next_batch(batch_size)
+
+    ```
+
+6.  使用批次数据进行拟合训练：
+
+    ```py
+     sess.run(optimizer, feed_dict={x: batch_xs, y: batch_ys})
+
+    ```
+
+7.  计算平均损失：
+
+    ```py
+     avg_cost += sess.run(cost,feed_dict={x: batch_xs,\
+                    y: batch_ys})/total_batch 
+    Display logs per epoch step
+            if epoch % display_step == 0:
+                print "Epoch:", '%04d' % (epoch+1),\
+              "cost=", "{:.9f}".format(avg_cost)
+            avg_set.append(avg_cost)
+            epoch_set.append(epoch+1)
+        print "Training phase finished"
+
+    ```
+
+8.  使用以下代码行，我们绘制了训练阶段：
+
+    ```py
+     plt.plot(epoch_set,avg_set, 'o', label='MLP Training phase')
+        plt.ylabel('cost')
+        plt.xlabel('epoch')
+        plt.legend()
+        plt.show()
+
+    ```
+
+9.  最后，我们可以测试 MLP 模型：
+
+    ```py
+     correct_prediction = tf.equal(tf.argmax(output_layer, 1),\
+                    tf.argmax(y, 1))
+    evaluating its accuracy
+        accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
+        print "Model Accuracy:", accuracy.eval({x: mnist.test.images,\
+                         y: mnist.test.labels})
+
+    ```
+
+10.  这是 20 个周期后的输出结果：
+
+    ```py
+    Python 2.7.10 (default, Oct 14 2015, 16:09:02)  [GCC 5.2.1 20151010] on linux2 Type "copyright", "credits" or "license()" for more information.
+    >>> ========================== RESTART ==============================
+    >>>  
+    Succesfully downloaded train-images-idx3-ubyte.gz 9912422 bytes. 
+    Extracting /tmp/data/train-images-idx3-ubyte.gz 
+    Succesfully downloaded train-labels-idx1-ubyte.gz 28881 bytes. 
+    Extracting /tmp/data/train-labels-idx1-ubyte.gz 
+    Succesfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes. 
+    Extracting /tmp/data/t10k-images-idx3-ubyte.gz 
+    Succesfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes. 
+    Extracting /tmp/data/t10k-labels-idx1-ubyte.gz 
+    Epoch: 0001 cost= 1.723947845 
+    Epoch: 0002 cost= 0.539266024 
+    Epoch: 0003 cost= 0.362600502 
+    Epoch: 0004 cost= 0.266637279 
+    Epoch: 0005 cost= 0.205345784 
+    Epoch: 0006 cost= 0.159139332 
+    Epoch: 0007 cost= 0.125232637 
+    Epoch: 0008 cost= 0.098572041 
+    Epoch: 0009 cost= 0.077509963 
+    Epoch: 0010 cost= 0.061127526 
+    Epoch: 0011 cost= 0.048033808 
+    Epoch: 0012 cost= 0.037297983 
+    Epoch: 0013 cost= 0.028884999 
+    Epoch: 0014 cost= 0.022818390 
+    Epoch: 0015 cost= 0.017447586 
+    Epoch: 0016 cost= 0.013652348 
+    Epoch: 0017 cost= 0.010417282 
+    Epoch: 0018 cost= 0.008079228 
+    Epoch: 0019 cost= 0.006203546 
+    Epoch: 0020 cost= 0.004961207 
+    Training phase finished 
+    Model Accuracy: 0.9775 
+    >>>
+
+    ```
+
+我们在下图中显示了训练阶段：
+
+![Launch the session](img/B05474_04_06.jpg)
+
+多层感知机的训练阶段
+
+### 源代码
+
+```py
+# Import MINST data
+import input_data
+mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
+import tensorflow as tf
+import matplotlib.pyplot as plt
+# Parameters
+learning_rate = 0.001
+training_epochs = 20
+batch_size = 100
+display_step = 1
+# Network Parameters
+n_hidden_1 = 256 # 1st layer num features
+n_hidden_2 = 256 # 2nd layer num features
+n_input = 784 # MNIST data input (img shape: 28*28)
+n_classes = 10 # MNIST total classes (0-9 digits)
+# tf Graph input
+x = tf.placeholder("float", [None, n_input])
+y = tf.placeholder("float", [None, n_classes])
+#weights layer 1
+h = tf.Variable(tf.random_normal([n_input, n_hidden_1]))
+#bias layer 1
+bias_layer_1 = tf.Variable(tf.random_normal([n_hidden_1]))
+#layer 1
+layer_1 = tf.nn.sigmoid(tf.add(tf.matmul(x,h),bias_layer_1))
+#weights layer 2
+w = tf.Variable(tf.random_normal([n_hidden_1, n_hidden_2]))
+#bias layer 2
+bias_layer_2 = tf.Variable(tf.random_normal([n_hidden_2]))
+#layer 2
+layer_2 = tf.nn.sigmoid(tf.add(tf.matmul(layer_1,w),bias_layer_2))
+#weights output layer
+output = tf.Variable(tf.random_normal([n_hidden_2, n_classes]))
+#biar output layer
+bias_output = tf.Variable(tf.random_normal([n_classes]))
+#output layer
+output_layer = tf.matmul(layer_2, output) + bias_output
+# cost function
+cost = tf.reduce_mean\
+    (tf.nn.softmax_cross_entropy_with_logits(output_layer, y))
+# optimizer
+optimizer = tf.train.AdamOptimizer\
+      (learning_rate=learning_rate).minimize(cost) 
+#Plot settings
+avg_set = []
+epoch_set=[]
+# Initializing the variables
+init = tf.initialize_all_variables()
+# Launch the graph
+with tf.Session() as sess:
+    sess.run(init)
+    # Training cycle
+    for epoch in range(training_epochs):
+        avg_cost = 0.
+        total_batch = int(mnist.train.num_examples/batch_size)
+        # Loop over all batches
+        for i in range(total_batch):
+            batch_xs, batch_ys = mnist.train.next_batch(batch_size)
+            # Fit training using batch data
+            sess.run(optimizer, feed_dict={x: batch_xs, y: batch_ys})
+            # Compute average loss
+            avg_cost += sess.run(cost, \
+        feed_dict={x: batch_xs,\
+              y: batch_ys})/total_batch
+        # Display logs per epoch step
+        if epoch % display_step == 0:
+            print "Epoch:", '%04d' % (epoch+1),\
+          "cost=", "{:.9f}".format(avg_cost)
+        avg_set.append(avg_cost)
+        epoch_set.append(epoch+1)
+    print "Training phase finished"
+    plt.plot(epoch_set,avg_set, 'o', label='MLP Training phase')
+    plt.ylabel('cost')
+    plt.xlabel('epoch')
+    plt.legend()
+    plt.show()
+    # Test model
+    correct_prediction = tf.equal(tf.argmax(output_layer, 1),\
+         tf.argmax(y, 1))
+    # Calculate accuracy
+    accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
+    print "Model Accuracy:", accuracy.eval({x: mnist.test.images,\                     y: mnist.test.labels})
+
+```
+
+## 多层感知机函数近似
+
+在以下示例中，我们实现了一个 MLP 网络，该网络将能够学习任意函数`f (x)`的趋势。 在训练阶段，网络将必须从一组已知点中学习`x`和`f (x)`，而在测试阶段，网络将仅从`x`值中扣除`f (x)`的值。
+
+这个非常简单的网络将由单个隐藏层构建。
+
+导入必要的库：
+
+```py
+import tensorflow as tf
+import numpy as np
+import math, random
+import matplotlib.pyplot as plt
+
+```
+
+我们建立数据模型。 要学习的函数将遵循`cosine`函数的趋势，并针对`1000`点进行了评估，并向其中添加了很少的随机误差（噪声）以重现真实情况：
+
+```py
+NUM_points = 1000
+np.random.seed(NUM_points) 
+function_to_learn = lambda x: np.cos(x) + \
+       0.1*np.random.randn(*x.shape)
+
+```
+
+我们的 MLP 网络将由`10`神经元的隐藏层形成：
+
+```py
+layer_1_neurons = 10
+
+```
+
+网络一次学习`100`点，总共学习`1500`个学习周期（周期）：
+
+```py
+batch_size = 100
+NUM_EPOCHS = 1500
+
+```
+
+最后，我们构造训练集和测试集：
+
+```py
+all_x contiene tutti i punti 
+all_x = np.float32(np.random.uniform\
+    (-2*math.pi, 2*math.pi,\
+       (1, NUM_points))).T
+np.random.shuffle(all_x)
+train_size = int(900)
+
+```
+
+前`900`点在训练集中：
+
+```py
+x_training = all_x[:train_size]
+y_training = function_to_learn(x_training)
+
+```
+
+最后一个`100`将在验证集中：
+
+```py
+x_validation = all_x[train_size:]
+y_validation = function_to_learn(x_validation)
+
+```
+
+使用 matplotlib，我们显示以下集合：
+
+```py
+plt.figure(1)
+plt.scatter(x_training, y_training, c='blue', label='train')
+plt.scatter(x_validation, y_validation,c='red',label='validation')
+plt.legend()
+plt.show()
+
+```
+
+![Multi Layer Perceptron function approximation](img/B05474_04_07.jpg)
+
+训练和验证集
+
+### 建立模型
+
+首先，我们为输入张量（`X`）和输出张量（`Y`）创建占位符：
+
+```py
+X = tf.placeholder(tf.float32, [None, 1], name="X")
+Y = tf.placeholder(tf.float32, [None, 1], name="Y")
+
+```
+
+然后，我们构建`[1 x 10]`尺寸的隐藏层：
+
+```py
+w_h = tf.Variable(tf.random_uniform([1, layer_1_neurons],\
+                                   minval=-1, maxval=1, \
+                                                                                               dtype=tf.float32))
+b_h = tf.Variable(tf.zeros([1, layer_1_neurons], \
+                            dtype=tf.float32))
+
+```
+
+它从`X`输入张量接收输入值，并与权重`w_hij`连接相结合，并加上第 1 层的各个偏置：
+
+```py
+h = tf.nn.sigmoid(tf.matmul(X, w_h) + b_h)
+
+```
+
+输出层是一个`[10 x 1]`张量：
+
+```py
+w_o = tf.Variable(tf.random_uniform([layer_1_neurons, 1],\
+                             minval=-1, maxval=1,\ 
+                                   dtype=tf.float32))
+b_o = tf.Variable(tf.zeros([1, 1], dtype=tf.float32))
+
+```
+
+第二层中的每个神经元都从层 1 的神经元接收输入，并与权重`w_oij`连接相结合，并与输出层的各个偏置相加：
+
+```py
+model = tf.matmul(h, w_o) + b_o
+
+```
+
+然后，我们为新定义的模型定义优化器：
+
+```py
+train_op = tf.train.AdamOptimizer().minimize\
+        (tf.nn.l2_loss(model - Y))
+
+```
+
+我们还注意到，在这种情况下，采用的成本函数如下：
+
+```py
+tf.nn.l2_loss(model - Y)
+
+```
+
+`tf.nn.l2_loss`函数是一个 TensorFlow，它计算不具有`sqrt`的张量的 L2 范数的一半，也就是说，前一个函数的输出如下：
+
+```py
+ output = sum((model - Y) ** 2) / 2
+
+```
+
+对于我们的示例，`tf.nn.l2_loss`函数可以是可行的成本函数。
+
+### 启动会话
+
+让我们建立求值图：
+
+```py
+sess = tf.Session()
+sess.run(tf.initialize_all_variables())
+
+```
+
+现在我们可以启动学习过程：
+
+```py
+errors = []
+for i in range(NUM_EPOCHS):
+    for start, end in zip(range(0, len(x_training), batch_size),\
+                          range(batch_size,\
+                                len(x_training), batch_size)):
+        sess.run(train_op, feed_dict={X: x_training[start:end],\
+                                      Y: y_training[start:end]})
+    cost = sess.run(tf.nn.l2_loss(model - y_validation),\
+                    feed_dict={X:x_validation})
+    errors.append(cost)
+    if i%100 == 0: print "epoch %d, cost = %g" % (i, cost)
+
+```
+
+将这个网络运行 1400 个周期，我们将看到误差逐渐减少并最终收敛：
+
+```py
+Python 2.7.10 (default, Oct 14 2015, 16:09:02)  [GCC 5.2.1 20151010] on linux2 Type "copyright", "credits" or "license()" for more information.
+>>> ======================= RESTART ============================ 
+>>>
+epoch 0, cost = 55.9286 
+epoch 100, cost = 22.0084 
+epoch 200, cost = 18.033 
+epoch 300, cost = 14.0481 
+epoch 400, cost = 9.74721 
+epoch 500, cost = 5.83419 
+epoch 600, cost = 3.05434 
+epoch 700, cost = 1.53706 
+epoch 800, cost = 0.91719 
+epoch 900, cost = 0.726675 
+epoch 1000, cost = 0.668316 
+epoch 1100, cost = 0.633737 
+epoch 1200, cost = 0.608306 
+epoch 1300, cost = 0.590429 
+epoch 1400, cost = 0.574602
+>>> 
+```
+
+ **以下代码行使我们能够显示成本在运行周期中的变化：
+
+```py
+plt.plot(errors,label='MLP Function Approximation')
+plt.xlabel('epochs')
+plt.ylabel('cost')
+plt.legend()
+plt.show()
+
+```
+
+![Launch the session](img/B05474_04_08.jpg)
+
+多层感知机的训练阶段
+
+# 总结
+
+在本章中，我们介绍了*人工神经网络*。 人工神经元是一种数学模型，在某种程度上模仿了活神经元的特性。 网络的每个神经元都有一个非常简单的操作，包括接收到的信号总量超过激活阈值时变为活动状态。 学习过程通常是*监督的*：神经网络使用训练集来推断输入和相应输出之间的关系，而学习算法会修改网络的权重以使成本函数*最小化*，它表示*训练集*有关的*预测误差*。 如果训练成功，则即使事先不知道输出结果，神经网络也将能够做出预测。 在本章中，我们使用 TensorFlow 实现了一些涉及神经网络的示例。 在使用 *Rosemblatt 的感知机*进行分类的问题中，我们已经看到神经网络作为*逻辑回归*算法来解决分类和回归问题。 在本章的最后，在实现*图像分类器*之前，我们介绍了*多层感知机*架构，然后在*数学函数仿真器*的实现中，我们已经看到了该架构的实际应用。
+
+在下一章中，我们最后介绍深度学习模型； 我们将研究和实现更复杂的神经网络架构，例如卷积神经网络和循环神经网络。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch05.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch05.md
new file mode 100644
index 00000000..1003281c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch05.md
@@ -0,0 +1,806 @@
+# 五、深度学习
+
+在本章中，我们将介绍以下主题：
+
+*   深度学习技巧
+*   卷积神经网络（CNN）
+    *   CNN 架构
+    *   CNN 的 TensorFlow 实现
+*   循环神经网络（RNN）
+    *   RNN 架构
+    *   使用 TensorFlow 进行自然语言处理
+
+# 深度学习技巧
+
+深度学习技术是机器学习研究人员近几十年来所迈出的关键一步，已提供了许多应用（如图像识别和语音识别）中前所未有的成功成果。
+
+有多种原因导致开发深度学习并将其置于机器学习范围内的关注焦点。 这些原因之一是硬件的进步，以及新处理器的可用性，例如图形处理单元（**GPU**），它们大大减少了训练网络所需的时间，降低了 10/20 的时间。
+
+另一个原因肯定是*越来越容易找到*，要在其上训练系统的*数据集*越多，这些数据集就需要训练一定深度和输入数据的高维结构。 深度学习包含一组方法，这些方法使系统可以在多个级别上获取数据的*分层表示*。 这是通过组合简单的单元（不是线性的）来实现的，每个简单的单元从输入级别开始将其自身级别的表示形式转换为更高级别的表示形式*更抽象*。 通过足够数量的这些转换，可以学习相当复杂的输入输出函数。
+
+关于分类问题，例如最高级别的表示，突出显示与分类相关的输入数据方面，从而抑制那些对分类目的没有影响的方面。
+
+![Deep learning techniques](img/image_05_001.jpg)
+
+图像分类系统中的分层特征提取
+
+前面的方案描述了图像分类系统（人脸识别器）的特征：每个块逐渐提取输入图像的特征，处理从先前块中已经预处理过的数据，提取输入图像的日益复杂的特征， 从而构建表征基于深度学习的系统的分层数据表示。
+
+层次结构特征的可能表示形式如下：
+
+```py
+ pixel --> edge --> texture --> motif --> part --> object
+
+```
+
+但是，在文本识别问题中，可以将层次表示形式构造如下：
+
+```py
+character --> word --> word group --> clause --> sentence --> story
+
+```
+
+因此，深度学习架构是*多层架构*，它由简单的单元组成，所有单元都受训练，其中许多单元包含*非线性变换*。 每个单元都对其输入进行转换以改善其*属性*，以仅出于分类目的选择和放大相关方面，以及其*不变性*，即其倾向*忽略无关的方面*。
+
+因此，通过多级非线性转换，深度大约在 5 到 20 级之间，深度学习系统可以学习并实现极其复杂和复杂的特征，同时*对最小的相关细节非常敏感*，以及对输入数据无关方面的大变化非常不敏感，在对象识别的情况下，这些变化可能是：图像的背景，亮度或所表示对象的位置。
+
+以下部分将借助 TensorFlow 说明两种重要的深度神经网络类型：**卷积神经网络**（**CNN**），主要针对分类问题，然后针对**自然语言处理**（**NLP**）问题的**循环神经网络**（**RNNs**）问题。
+
+## 卷积神经网络
+
+**卷积神经网络**（**CNN**）是面向神经网络的一种特殊类型的深度学习，在许多实际应用中都取得了优异的成绩，尤其是图像中的*对象识别*。
+
+实际上，CNN 被设计为处理以多个数组形式表示的数据，例如*彩色图像*，可通过包含像素颜色强度的三个二维数组表示。 CNN 与普通神经网络之间的实质区别在于，前者*在图像上直接操作*，而后者在*从图像中提取的特征上*。 因此，与普通神经网络不同，CNN 的输入将是*二维*，特征将是输入图像的像素。
+
+CNN 是几乎所有识别问题的主要方法。 这种类型的网络所提供的出色表现实际上已经促使诸如 Google 和 Facebook 之类的最大的技术公司投资于此类网络的研发项目，并开发和分发基于 CNN 的产品图像识别。
+
+### CNN 架构
+
+CNN 使用三个基本概念：*局部感受野*，*卷积*和*合并*。
+
+在卷积网络中，我们认为输入类似于下图所示：
+
+![CNN architecture](img/B05474_05_02.jpg)
+
+输入神经元
+
+CNN 背后的概念之一是*本地连接*。 实际上，CNN 利用输入数据中可能存在的空间相关性。 第一后续层的每个神经元仅连接*某些输入神经元。 该区域称为**局部感受野**。 在下图中，用*会聚*到隐藏的神经元的黑色`5x5`正方形表示：
+
+![CNN architecture](img/B05474_05_03.jpg)
+
+从输入到隐藏的神经元
+
+*隐藏的神经元*当然只会处理其接受区域内的输入数据，而不会实现其外部的变化。 但是，很容易看到，根据深度的基本原理，通过叠加多层本地连接的层，升级后，与输入相比，您将拥有处理越来越多的*全局数据*的学习单元，以使表现达到不断增长的抽象水平。
+
+### 注意
+
+本地连接的原因在于以下事实：在数组形式的数据（例如图像）中，值通常高度相关，从而形成了易于识别的不同数据组。
+
+每个连接都学习一个权重（因此它将得到`5x5 = 25`），而不是隐藏的神经元及其关联的连接会学习一个总偏差，然后我们将通过不时执行移位来将区域连接到单个神经元，例如在以下图中：
+
+![CNN architecture](img/B05474_05_04.jpg)
+
+卷积运算
+
+该操作称为**卷积**。这样，如果我们有一个`28x28`输入和`5x5`区域的图像，我们将在隐藏层中获得`24x24`神经元。 我们说过，每个神经元都有一个偏差和与该区域相关的`5x5`权重：我们将对所有`24x24`神经元使用这些权重和偏差。 这意味着第一隐藏层中的所有神经元将识别相同的特征，只是在输入图像中放置的位置不同。 因此，从输入层到隐藏特征图的连接图称为*共享权重*，偏置称为*共享偏置*，因为它们事实上是共享的。
+
+显然，我们需要识别的不仅仅是一个特征图，因此，一个完整的卷积层是由*多个特征图*组成的。
+
+![CNN architecture](img/B05474_05_05.jpg)
+
+多个特征图
+
+在上图中，我们看到了三个特征图。 当然，实际上它的数量会增加，甚至可以使用具有 20 或 40 个特征图的卷积层。 权重和偏差共享的一个巨大优势是卷积网络中涉及的参数的*显着降低*。 考虑我们的示例，对于每个特征图，我们需要 25 个权重（`5x5`）和一个偏差（共享）。 总共有 26 个参数。 假设我们有 20 个特征图，我们将定义 520 个参数。 在具有 784 个输入神经元和例如 30 个隐藏层神经元的完全连接的网络中，我们需要 30 个以上的`784x30`偏差权重，以达到总共 23.550 个参数。
+
+差异是显而易见的。 卷积网络还使用*池化层*，它们是紧接在卷积层之后的层。 这些简化了前一层的输出信息（*卷积*）。 它获取从卷积层出来的输入特征图，并准备一个*压缩的*特征图。 例如，我们可以说池化层可以以其所有单元汇总在上一层神经元的`2x2`区域中。
+
+该技术称为池化，可以用以下方案概括：
+
+![CNN architecture](img/B05474_05_06.jpg)
+
+池化操作有助于简化从一层到下一层的信息
+
+显然，我们通常有更多的特征图，并且我们将最大池分别应用于每个特征图。
+
+![CNN architecture](img/B05474_05_07.jpg)
+
+从输入层到第二个隐藏层
+
+因此，我们假设第一个隐藏层具有三个尺寸为`24x24`的特征图，第二个隐藏层的尺寸将为 12x12，因为我们假设每个单元汇总一个`2x2`区域。
+
+结合这三个思想，我们形成了一个完整的卷积网络。 其架构可以显示如下：
+
+![CNN architecture](img/B05474_05_08.jpg)
+
+CNN 架构架构
+
+让我们总结一下：有`28x28`个输入神经元，后跟一个*卷积层*，具有局部接收场`5x5`和 3 个特征图。 作为*的结果，我们获得了`3x24x24`神经元的隐藏层*。 然后在特征图的 3 个区域上将最大池应用于`2x2`，从而获得`3x12x12`的隐藏层。 最后一层是*完全连接的*：它将最大池化层的所有神经元连接到所有 10 个输出神经元，有助于识别相应的输出。
+
+然后将通过梯度下降和反向传播算法训练该网络。
+
+### CNN 的 TensorFlow 实现
+
+在以下示例中，我们将看到 CNN 在图像分类问题中的作用。 我们想展示构建 CNN 网络的过程：要执行哪些步骤以及需要执行哪些推理才能对整个网络进行适当的尺寸标注，当然还要如何使用 TensorFlow 进行实现。
+
+#### 初始化步骤
+
+1.  加载并准备 MNIST 数据：
+
+    ```py
+    import tensorflow as tf
+    import input_data
+    mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
+
+    ```
+
+2.  定义所有 CNN 参数：
+
+    ```py
+    learning_rate = 0.001
+    training_iters = 100000
+    batch_size = 128
+    display_step = 10
+
+    ```
+
+3.  MNIST 数据输入（每个形状为`28x28`数组像素）：
+
+    ```py
+    n_input = 784
+
+    ```
+
+4.  MNIST 的总类别（0-9）
+
+    ```py
+    n_classes = 10
+
+    ```
+
+5.  为了减少过拟合，我们应用了*丢弃*技术。 该术语是指在神经网络中删除单元（隐藏，输入和输出）。 确定要消除的神经元是随机的； 一种方法是应用概率，正如我们将在代码中看到的那样。 因此，我们定义以下参数（待调整）：
+
+    ```py
+    dropout = 0.75 
+
+    ```
+
+6.  定义输入图的占位符。 `x`占位符包含 MNIST 数据输入（恰好 728 像素）：
+
+    ```py
+    x = tf.placeholder(tf.float32, [None, n_input])
+
+    ```
+
+7.  然后，我们使用 TensorFlow `reshape`运算符将 4D 输入图像的形式更改为张量：
+
+```py
+_X = tf.reshape(x, shape=[-1, 28, 28, 1])
+
+```
+
+第二和第三个尺寸对应于图像的宽度和高度，而第二个尺寸是色彩通道的总数（在我们的情况下为 1）。
+
+因此，我们可以将输入图像显示为尺寸为`28x28`的二维张量：
+
+![Initialization step](img/B05474_05_09.jpg)
+
+我们问题的输入张量
+
+输出张量将包含每个数字的*输出概率*，以进行分类：
+
+```py
+y = tf.placeholder(tf.float32, [None, n_classes]).
+
+```
+
+#### 第一卷积层
+
+隐藏层的每个神经元都连接到尺寸为`5x5`的输入张量的一小部分。 这意味着隐藏层的大小为`24x24`。 我们还定义和初始化共享权重和共享偏差的张量：
+
+```py
+wc1 = tf.Variable(tf.random_normal([5, 5, 1, 32])) 
+bc1 = tf.Variable(tf.random_normal([32]))
+
+```
+
+回想一下，要识别图像，我们需要的不仅仅是特征图。 该数量仅是我们正在考虑的第一层特征图的数量。 在我们的例子中，卷积层由 32 个特征图组成。
+
+下一步是*第一个卷积层*和`conv1`的构造：
+
+```py
+conv1 = conv2d(_X,wc1,bc1)
+
+```
+
+在此，`conv2d`是以下函数：
+
+```py
+def conv2d(img, w, b):
+  return tf.nn.relu(tf.nn.bias_add\
+                    (tf.nn.conv2d(img, w,\
+                                   strides=[1, 1, 1, 1],\
+                                    padding='SAME'),b))
+
+```
+
+为此，我们使用了 TensorFlow `tf.nn.conv2d`函数。 它根据*输入张量*和*共享权重*计算 2D 卷积。 然后，该操作的结果将被添加到偏置`bc1`矩阵。 为此，我们使用函数`tf.nn.conv2d`从输入张量和共享权重的张量计算出二维卷积。 然后，该操作的结果将添加到偏置`bc1`矩阵中。 `tf.nn.relu`是 *Relu 函数*（整流线性单元），它是深层神经网络隐藏层中的*常见激活函数*。
+
+我们将这个激活函数应用于卷积函数的返回值。 填充值为`'SAME'`，它指示*输出张量将具有与输入张量*相同的大小。
+
+表示卷积层的一种方法为`conv1`，如下所示：
+
+![First convolutional layer](img/B05474_05_10.jpg)
+
+第一隐藏层
+
+卷积操作之后，我们强加了*池化*步骤，该步骤简化了先前创建的卷积层的输出信息。
+
+在我们的示例中，让我们采用卷积层的`2x2`区域，然后我们将汇总池层中每个点的信息。
+
+```py
+conv1 = max_pool(conv1, k=2)
+
+```
+
+在此，对于池操作，我们实现了以下函数：
+
+```py
+def max_pool(img, k):
+    return tf.nn.max_pool(img, \
+                          ksize=[1, k, k, 1],\
+                          strides=[1, k, k, 1],\
+                          padding='SAME')
+
+```
+
+`tf.nn.max_pool`函数对输入执行最大池化。 当然，我们将最大池化应用于每个卷积层，并且将有很多层池化和卷积。 在合并阶段结束时，我们将具有`12x12x32`*卷积隐藏层*。
+
+下图显示了池化和卷积操作后的 CNN 层：
+
+![First convolutional layer](img/B05474_05_11.jpg)
+
+第一次卷积和合并操作后的 CNN
+
+最后的操作是通过在卷积层上应用`tf.nn.dropout` TensorFlow 运算符来减少过拟合。 为此，我们为占位符（`keep_prob`）在删除期间保留神经元输出的概率创建一个占位符：
+
+```py
+keep_prob = tf. placeholder(tf.float32)
+conv1 = tf.nn.dropout(conv1,keep_prob)
+
+```
+
+#### 第二卷积层
+
+对于*第二隐藏层*，我们必须应用与第一层相同的操作，因此我们定义并初始化*共享权重*和*共享偏置*的张量：
+
+```py
+wc2 = tf.Variable(tf.random_normal([5, 5, 32, 64]))
+bc2 = tf.Variable(tf.random_normal([64]))
+
+```
+
+如您所注意到的，第二个隐藏层将具有`5x5`窗口的 64 个特征，而输入层的数量将从第一个卷积获得的层中给出。 接下来，我们将第二层应用于卷积`conv1`张量，但是这次我们将 64 组`5x5`过滤器分别应用于 32 个`conv1`层：
+
+```py
+conv2 = conv2d(conv1,wc2,bc2)
+
+```
+
+它为我们提供了 64 个`14x14`数组，通过最大池化将其减少到 64 个`7x7`数组：
+
+```py
+conv2 = max_pool(conv2, k=2)
+
+```
+
+最后，我们再次使用丢弃操作：
+
+```py
+conv2 = tf.nn.dropout(conv2, keep_prob)
+
+```
+
+生成的层是`7x7 x 64`卷积张量，因为我们从输入张量`12x12`和`5x5`的滑动窗口开始，考虑到步幅为 1。
+
+![Second convolutional layer](img/B05474_05_12.jpg)
+
+建立第二个隐藏层
+
+#### 密集连接层
+
+在此步骤中，我们将建立一个紧密连接的层，用于处理整个图像。 权重和偏差张量如下：
+
+```py
+wd1 = tf.Variable(tf.random_normal([7*7*64, 1024]))
+bd1 = tf.Variable(tf.random_normal([1024]))
+
+```
+
+如您所注意到的，该层将由`1024`神经元形成。
+
+然后我们将来自第二个卷积层的张量整形为一批向量：
+
+```py
+dense1 = tf.reshape(conv2, [-1, wd1.get_shape().as_list()[0]]) 
+
+```
+
+将该张量乘以权重矩阵`wd1`，将张量偏差`bd1`相加，然后执行 RELU 操作：
+
+```py
+dense1 = tf.nn.relu(tf.add(tf.matmul(dense1, wd1),bd1)) 
+
+```
+
+我们再次使用丢弃运算符完成这一层：
+
+```py
+dense1 = tf.nn.dropout(dense1, keep_prob) 
+
+```
+
+#### 输出层
+
+最后一层定义张量`wout`和`bout`：
+
+```py
+wout = tf.Variable(tf.random_normal([1024, n_classes]))
+bout = tf.Variable(tf.random_normal([n_classes]))
+
+```
+
+在应用`softmax`函数之前，我们必须计算该图像属于某个类别的*证据*：
+
+```py
+pred = tf.add(tf.matmul(dense1, wout), bout)
+
+```
+
+#### 测试和训练模型
+
+必须将证据转换为 10 种可能类别中每一种的概率（该方法与我们在第 4 章“神经网络介绍”中看到的方法相同）。 因此，我们定义了成本函数，该函数通过应用`softmax`函数来评估模型的质量：
+
+```py
+cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(pred, y))
+
+```
+
+使用 TensorFlow `AdamOptimizer`函数对其函数进行优化：
+
+```py
+optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)
+
+```
+
+以下张量将在模型的评估阶段使用：
+
+```py
+correct_pred = tf.equal(tf.argmax(pred,1), tf.argmax(y,1))
+accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))
+
+```
+
+#### 启动会话
+
+初始化变量：
+
+```py
+init = tf.initialize_all_variables()
+
+```
+
+建立求值图：
+
+```py
+with tf.Session() as sess:
+    sess.run(init)
+    step = 1
+
+```
+
+让我们训练网络直到`training_iters`：
+
+```py
+ while step * batch_size < training_iters:
+        batch_xs, batch_ys = mnist.train.next_batch(batch_size)       
+
+```
+
+使用`batch`数据进行健身训练：
+
+```py
+ sess.run(optimizer, feed_dict={x: batch_xs,\
+                                    y: batch_ys,\
+                                    keep_prob:  dropout})
+        if step % display_step == 0:
+
+```
+
+计算`accuracy`：
+
+```py
+ acc = sess.run(accuracy, feed_dict={x: batch_xs,\
+                                         y: batch_ys,\
+                                         keep_prob: 1.})
+
+```
+
+计算`loss`：
+
+```py
+ loss = sess.run(cost, feed_dict={x: batch_xs,\
+                                           y: batch_ys,\
+                                          keep_prob: 1.})
+            print "Iter " + str(step*batch_size) +\
+                  ", Minibatch Loss= " + \
+                  "{:.6f}".format(loss) + \
+                  ", Training Accuracy= " + \
+                  "{:.5f}".format(acc)
+        step += 1
+    print "Optimization Finished!"
+
+```
+
+我们打印`256` MNIST 测试图像的准确率：
+
+```py
+print "Testing Accuracy:",\
+           sess.run(accuracy,\
+                feed_dict={x: mnist.test.images[:256], \
+                           y: mnist.test.labels[:256],\
+                              keep_prob: 1.})
+
+```
+
+运行代码，我们得到以下输出：
+
+```py
+Extracting /tmp/data/train-images-idx3-ubyte.gz 
+Extracting /tmp/data/train-labels-idx1-ubyte.gz 
+Extracting /tmp/data/t10k-images-idx3-ubyte.gz 
+Extracting /tmp/data/t10k-labels-idx1-ubyte.gz 
+Iter 1280, Minibatch Loss= 27900.769531, 
+Training Accuracy= 0.17188 
+Iter 2560, Minibatch Loss= 17168.949219, Training Accuracy= 0.21094 
+Iter 3840, Minibatch Loss= 15000.724609, Training Accuracy= 0.41406 
+Iter 5120, Minibatch Loss= 8000.896484, Training Accuracy= 0.49219 
+Iter 6400, Minibatch Loss= 4587.275391, Training Accuracy= 0.61719 
+Iter 7680, Minibatch Loss= 5949.988281, Training Accuracy= 0.69531 
+Iter 8960, Minibatch Loss= 4932.690430, Training Accuracy= 0.70312 
+Iter 10240, Minibatch Loss= 5066.223633, Training Accuracy= 0.70312 . . . . . . . . . . . . . . . . . . . . 
+. . . . . . . . . . . . . . . . . . . . 
+Iter 81920, Minibatch Loss= 442.895020, Training Accuracy= 0.93750 
+Iter 83200, Minibatch Loss= 273.936676, Training Accuracy= 0.93750 
+Iter 84480, Minibatch Loss= 1169.810303, Training Accuracy= 0.89062 
+Iter 85760, Minibatch Loss= 737.561157, Training Accuracy= 0.90625 
+Iter 87040, Minibatch Loss= 583.576965, Training Accuracy= 0.89844 
+Iter 88320, Minibatch Loss= 375.274475, Training Accuracy= 0.93750 
+Iter 89600, Minibatch Loss= 183.815613, Training Accuracy= 0.94531 
+Iter 90880, Minibatch Loss= 410.157867, Training Accuracy= 0.89844 
+Iter 92160, Minibatch Loss= 895.187683, Training Accuracy= 0.84375 
+Iter 93440, Minibatch Loss= 819.893555, Training Accuracy= 0.89062 
+Iter 94720, Minibatch Loss= 460.179779, Training Accuracy= 0.90625 
+Iter 96000, Minibatch Loss= 514.344482, Training Accuracy= 0.87500 
+Iter 97280, Minibatch Loss= 507.836975, Training Accuracy= 0.89844 
+Iter 98560, Minibatch Loss= 353.565735, Training Accuracy= 0.92188 
+Iter 99840, Minibatch Loss= 195.138626, Training Accuracy= 0.93750 
+Optimization Finished! 
+Testing Accuracy: 0.921875
+
+```
+
+它提供约 99.2% 的精度。 显然，它不代表最新技术，因为该示例的目的只是看如何构建 CNN。 该模型可以进一步完善以提供更好的结果。
+
+#### 源代码
+
+```py
+# Import MINST data
+import input_data
+    mnist = input_data.read_data_sets("/tmp/data/",one_hot=True)
+import tensorflow as tf
+# Parameters
+learning_rate = 0.001
+training_iters = 100000
+batch_size = 128
+display_step = 10
+# Network Parameters
+n_input = 784 # MNIST data input (img shape: 28*28)
+n_classes = 10 # MNIST total classes (0-9 digits)
+dropout = 0.75 # Dropout, probability to keep units
+# tf Graph input
+x = tf.placeholder(tf.float32, [None, n_input])
+y = tf.placeholder(tf.float32, [None, n_classes])
+#dropout (keep probability)
+keep_prob = tf.placeholder(tf.float32) 
+# Create model
+def conv2d(img, w, b):
+    return tf.nn.relu(tf.nn.bias_add\
+                      (tf.nn.conv2d(img, w,\
+                                    strides=[1, 1, 1, 1],\
+                                    padding='SAME'),b))
+def max_pool(img, k):
+    return tf.nn.max_pool(img, \
+                          ksize=[1, k, k, 1],\
+                          strides=[1, k, k, 1],\
+                          padding='SAME')
+# Store layers weight & bias
+# 5x5 conv, 1 input, 32 outputs
+wc1 = tf.Variable(tf.random_normal([5, 5, 1, 32])) 
+bc1 = tf.Variable(tf.random_normal([32]))
+# 5x5 conv, 32 inputs, 64 outputs
+wc2 = tf.Variable(tf.random_normal([5, 5, 32, 64]))
+bc2 = tf.Variable(tf.random_normal([64]))
+# fully connected, 7*7*64 inputs, 1024 outputs 
+wd1 = tf.Variable(tf.random_normal([7*7*64, 1024]))
+# 1024 inputs, 10 outputs (class prediction) 
+wout = tf.Variable(tf.random_normal([1024, n_classes])) 
+bd1 = tf.Variable(tf.random_normal([1024]))
+bout = tf.Variable(tf.random_normal([n_classes]))
+# Construct model
+_X = tf.reshape(x, shape=[-1, 28, 28, 1])
+# Convolution Layer
+conv1 = conv2d(_X,wc1,bc1)
+# Max Pooling (down-sampling)
+conv1 = max_pool(conv1, k=2)
+# Apply Dropout
+conv1 = tf.nn.dropout(conv1,keep_prob)
+# Convolution Layer
+conv2 = conv2d(conv1,wc2,bc2)
+# Max Pooling (down-sampling)
+conv2 = max_pool(conv2, k=2)
+# Apply Dropout
+conv2 = tf.nn.dropout(conv2, keep_prob)
+# Fully connected layer
+# Reshape conv2 output to fit dense layer input
+dense1 = tf.reshape(conv2, [-1, wd1.get_shape().as_list()[0]]) 
+# Relu activation
+dense1 = tf.nn.relu(tf.add(tf.matmul(dense1, wd1),bd1)) 
+# Apply Dropout
+dense1 = tf.nn.dropout(dense1, keep_prob) 
+# Output, class prediction
+pred = tf.add(tf.matmul(dense1, wout), bout)
+# Define loss and optimizer
+cost = tf.reduce_mean\
+(tf.nn.softmax_cross_entropy_with_logits(pred, y))
+optimizer =\
+      tf.train.AdamOptimizer\
+(learning_rate=learning_rate).minimize(cost)
+# Evaluate model
+correct_pred = tf.equal(tf.argmax(pred,1), tf.argmax(y,1))
+accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))
+# Initializing the variables
+init = tf.initialize_all_variables()
+# Launch the graph
+with tf.Session() as sess:
+    sess.run(init)
+    step = 1
+    # Keep training until reach max iterations
+    while step * batch_size < training_iters:
+        batch_xs, batch_ys = mnist.train.next_batch(batch_size)
+        # Fit training using batch data
+        sess.run(optimizer, feed_dict={x: batch_xs,\
+                                       y: batch_ys,\
+                                       keep_prob: dropout})
+        if step % display_step == 0:
+            # Calculate batch accuracy
+            acc = sess.run(accuracy, feed_dict={x: batch_xs,\
+                                                y: batch_ys,\
+                                                keep_prob: 1.})
+            # Calculate batch loss
+            loss = sess.run(cost, feed_dict={x: batch_xs,\
+                                             y: batch_ys,\
+                                             keep_prob: 1.})
+            print "Iter " + str(step*batch_size) +\
+                  ", Minibatch Loss= " + \
+                  "{:.6f}".format(loss) + \
+                  ", Training Accuracy= " + \
+                  "{:.5f}".format(acc)
+        step += 1
+    print "Optimization Finished!"
+    # Calculate accuracy for 256 mnist test images
+    print "Testing Accuracy:",\
+          sess.run(accuracy,\
+                   feed_dict={x: mnist.test.images[:256], \
+                              y: mnist.test.labels[:256],\
+                              keep_prob: 1.})
+
+```
+
+## 循环神经网络
+
+另一个面向深度学习的架构是所谓的**循环神经网络**（**RNN**）的架构。 RNN 的基本思想是在输入中使用*序列信息*类型。 在神经网络中，我们通常假设每个输入和输出都独立于所有其他输入和输出。 但是，对于许多类型的问题，此假设并不肯定。 例如，如果您想预测一个短语的下一个单词，那么知道短语之前的单词肯定很重要。 这些神经网络称为*循环*，因为它们对输入序列的所有元素执行相同的计算，并且除当前输入外，每个元素的输出还取决于所有先前的计算。
+
+### RNN 架构
+
+RNN 一次处理一个顺序输入项，维护一种*更新状态向量*，该向量包含有关*序列*的所有过去元素的信息。 通常，RNN 具有以下类型的形状：
+
+![RNN architecture](img/B05474_05_13.jpg)
+
+RNN 架构架构
+
+上图显示了 RNN 的方面，其*展开*版本，解释了在每个时间点的整个输入序列的网络结构。 很明显，与典型的多级神经网络不同，在*每个级别*中*使用多个*参数，RNN 始终使用*相同的参数*，命名为`U`，`V`和`W`（请参见上图）。 此外，在相同输入序列的多个时刻的每个，RNN 执行相同的计算。 共享相同的参数，可以大大减少网络在训练阶段必须学习的参数数量，从而也可以缩短训练时间。
+
+显然，您也可以训练这种类型的网络，因为参数是在每个时间共享的，所以为每个输出计算的梯度不仅取决于当前计算，还取决于以前的。 例如，为了计算时间`t = 4`时的梯度，有必要使*向后传播*之前三个时间点的梯度，然后求和所得的梯度。 同样，*整个输入序列*通常被认为是训练集的*单元素*。
+
+但是，这种类型的网络的训练会遇到所谓的梯度*消失/爆炸*问题； 计算得出的梯度和向后传播的梯度在每个时间点倾向于使*增大*或*减小*，然后在一定时间间隔后，*趋于无穷大*或*收敛为零*。
+
+现在让我们检查 RNN 的工作方式。`X[t]`； 是时间`t`上的网络输入，例如可以是代表句子的单词，而`S[t]`的向量。 是网络的*状态向量*。 可以认为是系统的一种*记忆*，其中包含有关输入序列的所有先前元素的信息。 从*当前输入*（时间`t`）开始求值`t`时刻的状态向量，并通过`U`和`W`参数的先前时刻（时间`t-1`）求值状态：
+
+```py
+S[t] = f([U] * X[t] + [W] * S[t-1])
+```
+
+函数`f`是*非线性函数*，例如整流线性单元（ReLu），而`O[t]`； 是使用参数`V`计算的`t`时刻的输出。
+
+输出将取决于网络所使用的问题的类型。 例如，如果您要预测句子的下一个单词，则它可能是系统词汇表中每个单词的*概率向量*。
+
+### LSTM 网络
+
+**长短期记忆**（**LSTM**）网络是 RNN 架构基本模型的扩展。 主要思想是改进网络，为其提供显式内存。 实际上，尽管 LSTM 网络与 RNN 并没有本质上的不同，但它们配备了特殊的隐藏单元，称为存储单元，其行为是长时间记住以前的输入。
+
+![LSTM networks](img/B05474_05_14.jpg)
+
+LSTM 单元
+
+LSTM 单元具有三个门和四个输入权重， `x[t]`（从数据到输入和三个门），而`h[t]`是单元的输出。
+
+LSTM 块包含确定输入是否足够重要以进行保存的门。 该块由四个单元组成：
+
+*   **输入门**：允许在结构中输入值
+*   **遗忘门**：删除结构中包含的值
+*   **输出门**：确定设备何时输出陷在结构中的值
+*   **单元**：启用或禁用存储单元
+
+在下一个示例中，我们将在语言处理问题中看到 LSTM 网络的 TensorFlow 实现。
+
+### 使用 TensorFlow 的 NLP
+
+RNN 已被证明在诸如预测文本中的下一个字符或类似地预测句子中的下一个顺序词等问题上具有出色的表现。 但是，它们也用于更复杂的问题，例如**机器翻译**。 在这种情况下，网络将输入源语言中的单词序列，而您想要输出语言*目标*中的相应单词序列。 最后，RNN 被广泛使用的另一个非常重要的应用是*语音识别*。 在下文中，我们将开发一个计算模型，该模型可以根据前一个单词的顺序来预测文本中的下一个单词。 为了测量模型的*精度*，我们将使用 **Penn 树库**（**PTB**）数据集，该数据集是衡量这些模型精度的基准 。
+
+本示例引用您在 TensorFlow 发行版的`/rnn/ptb`目录中找到的文件。 它包含以下两个文件：
+
+*   `ptb_word_lm.py`：在 PTB 数据集上训练语言模型的队列
+*   `reader.py`：读取数据集的代码
+
+与前面的示例不同，我们将仅介绍所实现过程的伪代码，以便理解模型构建背后的主要思想，而不会陷入不必要的实现细节中。 源代码很长，一行一行地解释代码太麻烦了。
+
+### 注意
+
+有关其他参考，请参见[这里](https://www.tensorflow.org/versions/r0.8/tutorials/recurrent/index.html)。
+
+#### 下载数据
+
+您可以从[网页](http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz)下载数据，然后提取数据文件夹。 数据集经过预处理，包含 10000 个不同的单词，包括句子结尾标记和稀有单词的特殊符号（`<unk>`）。 我们将`reader.py`中的所有参数都转换为唯一的整数标识符，以使神经网络更易于处理。
+
+要使用`tar`解压缩`.tgz`文件，您需要使用以下命令：
+
+```py
+  tar -xvzf /path/to/yourfile.tgz
+
+```
+
+## 建立模型
+
+该模型使用 LSTM 实现 RNN 的架构。 实际上，它计划通过包括存储单元来增加 RNN 的架构，该存储单元允许保存有关长期时间依赖的信息。
+
+TensorFlow 库允许您通过以下命令创建 LSTM：
+
+```py
+lstm = rnn_cell.BasicLSTMCell(size)
+
+```
+
+这里`size`应该是 LSTM 要使用的单元数。 LSTM 内存初始化为零：
+
+```py
+state = tf.zeros([batch_size, lstm.state_size])
+
+```
+
+在计算过程中，用输出值更新要检查状态值的每个单词之后，以下是实现的步骤的伪代码列表：
+
+```py
+loss = 0.0
+for current_batch_of_words in words_in_dataset:
+       output, state = lstm(current_batch_of_words, state)
+
+```
+
+然后，`output`用于对下一个单词的预测进行预测：
+
+```py
+ logits = tf.matmul(output, softmax_w) + softmax_b
+       probabilities = tf.nn.softmax(logits)
+       loss += loss_function(probabilities, target_words)
+
+```
+
+`loss`函数将目标单词的平均负对数概率最小化，它是 TensorFow 函数：
+
+```py
+tf.nn.seq2seq.sequence_loss_by_example
+
+```
+
+它计算平均每个单词的*困惑度*，它的值衡量模型的准确率（值越小则表示最佳表现），并将在整个训练过程中进行监控。
+
+## 运行代码
+
+实现的模型支持三种类型的配置：`small`，`medium`和`large`。 它们之间的区别在于 LSTM 的大小和用于训练的一组超参数。 模型越大，应获得的结果越好。 `small`模型应该能够在测试集上达到低于 120 的困惑度，而`large`模型则能够达到低于 80 的困惑度，尽管可能需要花费几个小时来训练。
+
+要执行模型，只需键入以下内容：
+
+```py
+python ptb_word_lm --data_path=/tmp/simple-examples/data/ --model small
+
+```
+
+在`/tmp/simple-examples/data/`中，您必须已经从 PTB 数据集中下载了数据。
+
+以下列表显示了训练 8 个小时后的运行情况（对于*小型*配置，为 13 个周期）：
+
+```py
+Epoch: 1 Learning rate: 1.000
+0.004 perplexity: 5263.762 speed: 391 wps
+0.104 perplexity: 837.607 speed: 429 wps
+0.204 perplexity: 617.207 speed: 442 wps
+0.304 perplexity: 498.160 speed: 438 wps
+0.404 perplexity: 430.516 speed: 436 wps
+0.504 perplexity: 386.339 speed: 427 wps
+0.604 perplexity: 348.393 speed: 431 wps
+0.703 perplexity: 322.351 speed: 432 wps
+0.803 perplexity: 301.630 speed: 431 wps
+0.903 perplexity: 282.417 speed: 434 wps
+Epoch: 1 Train Perplexity: 268.124
+Epoch: 1 Valid Perplexity: 180.210
+Epoch: 2 Learning rate: 1.000
+0.004 perplexity: 209.082 speed: 448 wps
+0.104 perplexity: 150.589 speed: 437 wps
+0.204 perplexity: 157.965 speed: 436 wps
+0.304 perplexity: 152.896 speed: 453 wps
+0.404 perplexity: 150.299 speed: 458 wps
+0.504 perplexity: 147.984 speed: 462 wps
+0.604 perplexity: 143.367 speed: 462 wps
+0.703 perplexity: 141.246 speed: 446 wps
+0.803 perplexity: 139.299 speed: 436 wps
+0.903 perplexity: 135.632 speed: 435 wps
+Epoch: 2 Train Perplexity: 133.576
+Epoch: 2 Valid Perplexity: 143.072
+............................................................
+Epoch: 12 Learning rate: 0.008
+0.004 perplexity: 57.011 speed: 347 wps
+0.104 perplexity: 41.305 speed: 356 wps
+0.204 perplexity: 45.136 speed: 356 wps
+0.304 perplexity: 43.386 speed: 357 wps
+0.404 perplexity: 42.624 speed: 358 wps
+0.504 perplexity: 41.980 speed: 358 wps
+0.604 perplexity: 40.549 speed: 357 wps
+0.703 perplexity: 39.943 speed: 357 wps
+0.803 perplexity: 39.287 speed: 358 wps
+0.903 perplexity: 37.949 speed: 359 wps
+Epoch: 12 Train Perplexity: 37.125
+Epoch: 12 Valid Perplexity: 123.571
+Epoch: 13 Learning rate: 0.004
+0.004 perplexity: 56.576 speed: 365 wps
+0.104 perplexity: 40.989 speed: 358 wps
+0.204 perplexity: 44.809 speed: 358 wps
+0.304 perplexity: 43.082 speed: 356 wps
+0.404 perplexity: 42.332 speed: 356 wps
+0.504 perplexity: 41.694 speed: 356 wps
+0.604 perplexity: 40.275 speed: 357 wps
+0.703 perplexity: 39.673 speed: 356 wps
+0.803 perplexity: 39.021 speed: 356 wps
+0.903 perplexity: 37.690 speed: 356 wps
+Epoch: 13 Train Perplexity: 36.869
+Epoch: 13 Valid Perplexity: 123.358
+Test Perplexity: 117.171
+
+```
+
+如您所见，在每个周期之后，困惑变得更低了。
+
+# 总结
+
+在本章中，我们概述了深度学习技术，研究了使用中的两种深度学习架构，即 CNN 和 RNN。 通过 TensorFlow 库，我们开发了用于图像分类问题的卷积神经网络架构。 本章的最后一部分专门介绍 RNN，我们在其中描述了 TensorFlow 的 RNN 教程，其中建立了 LSTM 网络以预测英语句子中的下一个单词。
+
+下一章介绍了用于 GPU 计算的 TensorFlow 功能，并介绍了 *TensorFlow 服务*，这是一种用于机器学习模型的高表现，开源服务系统，专为生产环境设计，并针对 [TensorFlow](https://www.tensorflow.org/) 进行了优化。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch06.md b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch06.md
new file mode 100644
index 00000000..613ae418
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/ch06.md
@@ -0,0 +1,415 @@
+# 六、TensorFlow GPU 编程和服务
+
+在本章中，我们将介绍以下主题：
+
+*   GPU 编程
+*   TensorFlow 服务：
+    *   如何安装 TensorFlow 服务
+    *   如何使用 TensorFlow 服务
+    *   如何加载和导出 TensorFlow 模型
+
+# GPU 编程
+
+在第 5 章，“深度学习”中，我们针对 NLP 应用训练了**循环神经网络**（**RNN**）， 深度学习应用可能需要大量计算。 但是，您可以通过**图形处理单元**（**GPU**）使用并行编程技术来减少训练时间。 实际上，现代图形单元的计算资源使它们能够执行并行代码部分，从而确保了高性能。
+
+GPU 编程模型是一种编程策略，包括将 CPU 替换为 GPU 以加速各种应用的执行。 该策略的应用范围非常广泛，并且每天都在增长。 目前，GPU 能够减少跨平台（从汽车到手机，从平板电脑到无人机和机器人）的应用执行时间。
+
+下图显示了 GPU 编程模型如何工作。 在该应用中，有一些调用告诉 CPU 放弃代码 GPU 的特定部分，并使其运行以提高执行速度。 此类特定部分依赖两个 GPU 的原因取决于 GPU 架构提供的速度。 GPU 具有许多**流式多处理器**（**SMP**），每个处理器都具有许多计算核心。 这些内核借助**单指令多线程**（**SIMT**）调用能够执行 ALU 和其他操作，从而大大减少了执行时间。
+
+![GPU programming](img/image_06_001.jpg)
+
+在 GPU 编程模型中，有一些代码在 CPU 中顺序执行，而某些部分则由 GPU 并行执行
+
+TensorFlow 具有可以利用此编程模型的功能（如果您具有 NVIDIA GPU），支持 GPU 的包版本需要 Cuda Toolkit 7.0 和 6.5 CUDNN V2。
+
+### 注意
+
+对于 Cuda 环境的安装，[我们建议参考 Cuda 安装页面](http://docs.nvidia.com/cuda/cuda-getting-started-guide-for-linux/#axzz49w1XvzNj)：
+
+TensorFlow 通过以下方式引用这些设备：
+
+*   `/cpu:0`：引用服务器 CPU
+*   `/gpu:0`：GPU 服务器（如果只有一个）
+*   `/gpu:1`：第二个 GPU 服务器，依此类推
+
+要找出分配给我们的操作的设备，张紧器需要创建会话，并选择将实例化的`log_device_placement`设置为`True`。
+
+考虑以下示例。
+
+我们创建一个计算图； `a`和`b`将是两个矩阵：
+
+```py
+a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
+b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
+
+```
+
+在`c`中，我们将这两个输入张量的矩阵相乘：
+
+```py
+c = tf.matmul(a, b)
+
+```
+
+然后，我们将`log_device_placement`设置为`True`来建立会话：
+
+```py
+sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
+
+```
+
+最后，我们启动会话：
+
+```py
+print sess.run(c)
+
+```
+
+您应该看到以下输出：
+
+```py
+Device mapping:
+/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: Tesla K40c, pci bus
+id: 0000:05:00.0
+b: /job:localhost/replica:0/task:0/gpu:0
+a: /job:localhost/replica:0/task:0/gpu:0
+MatMul: /job:localhost/replica:0/task:0/gpu:0
+[[ 22\.  28.]
+ [ 49\.  64.]]
+
+```
+
+如果您希望某个特定的操作在您选择的设备上运行而不是自动为您选择的设备，则可以使用`tf.device`创建设备上下文，以便该上下文中的所有操作将具有相同的设备分配。
+
+让我们使用`tf.device`指令创建相同的计算图：
+
+```py
+with tf.device('/cpu:0'):
+a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
+b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
+c = tf.matmul(a, b)
+
+```
+
+同样，我们构建会话图并启动它：
+
+```py
+sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
+print sess.run(c)
+
+```
+
+您会看到`a`和`b`已分配给`cpu:0`：
+
+```py
+Device mapping:
+/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: Tesla K40c, pci bus
+id: 0000:05:00.0
+b: /job:localhost/replica:0/task:0/cpu:0
+a: /job:localhost/replica:0/task:0/cpu:0
+MatMul: /job:localhost/replica:0/task:0/gpu:0
+[[ 22\.  28.]
+ [ 49\.  64.]]
+
+```
+
+如果您拥有多个 GPU，则可以在创建会话时在配置选项中将`allow_soft_placement`设置为`True`来直接选择它。
+
+# TensorFlow 服务
+
+服务是 TensorFlow 包，已开发该包将机器学习模型带入生产系统。 这意味着开发人员可以使用 TensorFlow 服务的 API 来构建服务器以服务于已实现的模型。
+
+服务的模型每次都可以根据其客户提供的数据进行推断和预测，从而可以改进模型。
+
+为了与服务系统进行通信，客户端使用 Google 开发的高性能开源**远程过程调用**（**RPC**）接口，称为 gRPC。
+
+典型的管道（请参见下图）是将训练数据馈送到学习器，后者输出模型。 经过验证后，即可将其部署到 TensorFlow 服务系统。 随着新数据的可用或模型的改进，随着时间的推移启动和迭代我们的模型非常普遍。
+
+![TensorFlow Serving](img/image_06_002.jpg)
+
+TensorFlow 服务管道
+
+## 如何安装 TensorFlow 服务
+
+要编译和使用 TensorFlow 服务，您需要设置一些先决条件。
+
+### Bazel
+
+TensorFlow 服务需要 [Bazel 0.2.0](http://www.bazel.io/) ）或更高版本。 下载`bazel-0.2.0-installer-linux-x86_64.sh`。
+
+### 注意
+
+Bazel 是使软件构建和测试自动化的工具。 支持的构建任务包括运行编译器和链接器以生成可执行程序和库，以及组装可部署的包。
+
+运行以下命令：
+
+```py
+chmod +x bazel-0.2.0-installer-linux-x86_64.sh
+./bazel-0.2.0-installer-linux-x86_64.sh -user
+
+```
+
+最后，设置您的环境。 将其导出到您的`~/.bashrc`目录中：
+
+```py
+export PATH="$PATH:$HOME/bin"
+
+```
+
+### gRPC
+
+我们的教程使用 gRPC（0.13 或更高版本）作为我们的 RPC 框架。
+
+### 注意
+
+您可以在[这个页面](https://github.com/grpc)上找到其他参考。
+
+#### TensorFlow 服务依赖项
+
+要安装 TensorFlow 服务依赖项，请执行以下操作：
+
+```py
+sudo apt-get update && sudo apt-get install -y \
+        build-essential \
+        curl \
+        git \
+        libfreetype6-dev \
+        libpng12-dev \
+        libzmq3-dev \
+        pkg-config \
+        python-dev \
+        python-numpy \
+        python-pip \
+        software-properties-common \
+        swig \
+        zip \
+        zlib1g-dev
+
+```
+
+然后通过运行以下命令来配置 TensorFlow：
+
+```py
+cd tensorflow
+./configure
+cd ..
+
+```
+
+#### 安装服务
+
+使用 Git 克隆存储库：
+
+```py
+git clone --recurse-submodules 
+https://github.com/tensorflow/serving
+cd serving
+
+```
+
+需要`--recurse-submodules`选项来获取 TensorFlow，gRPC 和 TensorFlow 服务所依赖的其他库。 要构建 TensorFlow，您必须使用 Bazel：
+
+```py
+bazel build tensorflow_serving/
+
+```
+
+二进制文件将放置在`bazel-bin`目录中，并且可以使用以下命令运行：
+
+```py
+/bazel-bin/tensorflow_serving/example/mnist_inference
+
+```
+
+最后，您可以通过执行以下命令来测试安装：
+
+```py
+bazel test tensorflow_serving/
+
+```
+
+## 如何使用 TensorFlow 服务
+
+在本教程中，我们将展示*如何导出*训练有素的 TensorFlow 模型，以及*如何构建服务器*为导出的模型提供服务。 实现的模型是用于手写图像分类（MNIST 数据）的 Softmax 回归模型。
+
+该代码将由两部分组成：
+
+*   训练和导出模型的 Python 文件（`mnist_export.py`）
+*   一个 C++ 文件（`mnist_inference.cc`），该文件加载导出的模型并运行 gRPC 服务为其提供服务
+
+在以下各节中，我们报告使用 TensorFlow 服务的基本步骤。 对于其他参考，您可以查看[这里](https://tensorflow.github.io/serving/serving_basic)。
+
+### 训练和导出 TensorFlow 模型
+
+如您在`mnist_export.py`中看到的，训练的方法与 MNIST 中的方法相同。 对于初学者教程，请参考[以下链接](https://www.tensorflow.org/versions/r0.9/tutorials/mnist/beginners/index.html)。
+
+TensorFlow 图在 TensorFlow 会话`sess`中启动，输入张量（图像）为`x`，输出张量（Softmax 分数）为`y`。 然后我们使用 TensorFlow 服务导出器导出模型； 它构建了经过训练的模型的快照，以便以后可以加载以进行推断。 现在，让我们看一下用于导出训练后的模型的主要功能。
+
+导入`exporter`以序列化模型：
+
+```py
+from tensorflow_serving.session_bundle import exporter
+
+```
+
+然后，您必须使用 TensorFlow 函数`tf.train.Saver`定义`saver`。 它的`sharded` 参数等于`True`：
+
+```py
+saver = tf.train.Saver(sharded=True)
+
+```
+
+`saver`用于将图的变量值序列化为模型导出，以便以后可以正确还原它们。
+
+下一步是定义`model_exporter`：
+
+```py
+model_exporter = exporter.Exporter(saver)
+signature = exporter.classification_signature\
+                     (input_tensor=x, scores_tensor=y)
+model_exporter.init(sess.graph.as_graph_def(),
+                    default_graph_signature=signature)
+
+```
+
+`model_exporter`采用以下两个参数：
+
+*   `sess.graph.as_graph_def()`是该图的原型。 导出会将 protobuf 序列化为模型导出，以便稍后可以正确恢复 TensorFlow 图。
+*   `default_graph_signature=signature`指定模型导出签名。 签名指定要导出的模型类型，以及运行推理时绑定到的输入/输出张量。 在这种情况下，您可以使用`exporter.classification_signature`将该模型指定为分类模型。
+
+最后，我们创建`export`：
+
+```py
+model_exporter.export(export_path,tf.constant\
+                               (FLAGS.export_version), sess)
+
+```
+
+`model_exporter.export`采用以下参数：
+
+*   `export_path`是导出目录的路径。 如果目录不存在，导出将创建该目录。
+*   `tf.constant(FLAGS.export_version)`是一个张量，指定模型的版本。 导出同一模型的较新版本时，应指定一个较大的整数值。 每个版本将导出到给定路径下的不同子目录。
+*   `sess`是 TensorFlow 会话，其中包含您要导出的经过训练的模型。
+
+### 执行会话
+
+要导出模型，请首先清除导出目录：
+
+```py
+$>rm -rf /tmp/mnist_model
+
+```
+
+然后，使用`bazel`构建`mnist_export`示例：
+
+```py
+$>bazel build //tensorflow_serving/example:mnist_export
+
+```
+
+最后，您可以运行以下示例：
+
+```py
+$>bazel-bin/tensorflow_serving/example/mnist_export /tmp/mnist_model
+Training model...
+Done training!
+Exporting trained model to /tmp/mnist_model
+Done exporting!
+
+```
+
+在导出目录中，我们应该有一个子目录，用于导出模型的每个版本：
+
+```py
+$>ls /tmp/mnist_model
+00000001
+
+```
+
+对应的子目录的默认值为`1`，因为我们先前将`tf.constant(FLAGS.export_version)`指定为模型版本，而`FLAGS.export_version`的默认值为`1`。
+
+子目录的每个版本都包含以下文件：
+
+*   `export.meta`是模型的序列化`tensorflow::MetaGraphDef`。 它包括模型的图定义，以及模型的元数据，例如签名。
+*   `export-?????-of-?????`是保存图的序列化变量的文件。
+
+```py
+$>ls /tmp/mnist_model/00000001
+checkpoint export-00000-of-00001 export.meta
+
+```
+
+# 加载和导出 TensorFlow 模型
+
+用于加载导出的 TensorFlow 模型的 C++ 代码在`mnist_inference.cc`中的`main()`函数中。 在这里，我们报告摘录； 我们不考虑用于批量的参数。 如果要调整最大批量大小，超时阈值或用于批量推理的后台线程数，可以通过在`BatchingParameters`中设置更多值来进行调整：
+
+```py
+int main(int argc, char** argv) 
+{
+  SessionBundleConfig session_bundle_config;
+          . . . Here batching parameters 
+  std::unique_ptr<SessionBundleFactory> bundle_factory;
+  TF_QCHECK_OK(
+      SessionBundleFactory::Create(session_bundle_config,  
+                                       &bundle_factory));
+      std::unique_ptr<SessionBundle> bundle(new SessionBundle);
+      TF_QCHECK_OK(bundle_factory->CreateSessionBundle(bundle_path,
+                                                          &bundle));
+      ......
+      RunServer(FLAGS_port, std::move(bundle));
+      return 0;
+}
+
+```
+
+`SessionBundle`是 TensorFlow 服务的组件。 让我们考虑包含文件`SessionBundle.h`：
+
+```py
+struct SessionBundle {
+  std::unique_ptr<tensorflow::Session> session;
+  tensorflow::MetaGraphDef meta_graph_def;
+};
+
+```
+
+`session`参数是一个 TensorFlow 会话，具有原始图和正确还原了必要变量的图。
+
+`SessionBundleFactory::CreateSessionBundle()`从`bundle_path`加载导出的 TensorFlow 模型，并创建一个`SessionBundle`对象以对该模型进行推理。
+
+`RunServer`启动了一个 gRPC 服务器，该服务器导出单个`Classify()` API。
+
+每个推理请求将按以下步骤处理：
+
+1.  验证输入。 对于每个推理请求，服务器都只需要一个 MNIST 格式的图像。
+2.  将输入转换为推断输入张量并创建输出张量占位符。
+3.  运行推断。
+
+要运行推理，必须键入以下命令：
+
+```py
+$>bazel build //tensorflow_serving/example:mnist_inference
+$>bazel-bin/tensorflow_serving/example/mnist_inference --port=9000 /tmp/mnist_model/00000001
+
+```
+
+## 测试服务
+
+要测试服务器，我们使用[`mnist_client.py`](https://github.com/tensorflow/serving/blob/master/tensorflow_serving/example/mnist_client.py)工具。
+
+该客户端下载 MNIST 测试数据，将其作为请求发送到服务器，并计算推断错误率。
+
+要运行它，请键入以下命令：
+
+```py
+$>bazel build //tensorflow_serving/example:mnist_client
+$>bazel-bin/tensorflow_serving/example/mnist_client --num_tests=1000 
+--server=localhost:9000
+Inference error rate: 10.5%
+
+```
+
+结果确认服务器成功加载并运行了经过训练的模型。 实际上，对于 1,000 张图像，推理错误率为 10.5% ，这为训练后的 Softmax 模型提供了 91% 的准确率。
+
+# 总结
+
+我们在本章中描述了 TensorFlow 的两个重要功能。 首先是使用称为 *GPU 计算*的编程模型的可能性，通过该模型可以加快代码的速度（例如，神经网络的训练阶段）。 本章的第二部分专门描述框架 *TensorFlow 服务*。 这是一个用于机器学习模型的高性能，开源服务系统，专为生产环境而设计，并针对 TensorFlow 进行了优化。 这个强大的框架可以运行多个模型，这些模型可以根据现实世界的数据随时间变化，从而可以更有效地利用 GPU 资源，并允许开发人员改善自己的机器学习模型。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/cover.jpg
new file mode 100644
index 00000000..08c71ebf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_01.jpg
new file mode 100644
index 00000000..ef04ee52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_02.jpg
new file mode 100644
index 00000000..9bf0db50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_03.jpg
new file mode 100644
index 00000000..bfe74dba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_04.jpg
new file mode 100644
index 00000000..acf281e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_05.jpg
new file mode 100644
index 00000000..417eb913
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_06.jpg
new file mode 100644
index 00000000..a82cfea9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_07.jpg
new file mode 100644
index 00000000..3918b149
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_08.jpg
new file mode 100644
index 00000000..66e25d6d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_09.jpg
new file mode 100644
index 00000000..165f1718
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_10-1024x758.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_10-1024x758.jpg
new file mode 100644
index 00000000..f5e1a461
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_03_10-1024x758.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_01.jpg
new file mode 100644
index 00000000..e4b24fd1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_02.jpg
new file mode 100644
index 00000000..246947bb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_03.jpg
new file mode 100644
index 00000000..a647dc12
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_04.jpg
new file mode 100644
index 00000000..5022ac9d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_05.jpg
new file mode 100644
index 00000000..cad18554
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_06.jpg
new file mode 100644
index 00000000..77611ca4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_07.jpg
new file mode 100644
index 00000000..0434c464
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_08.jpg
new file mode 100644
index 00000000..f2656057
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_04_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_02.jpg
new file mode 100644
index 00000000..c8f56657
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_03.jpg
new file mode 100644
index 00000000..109942d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_04.jpg
new file mode 100644
index 00000000..4d8706d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_05.jpg
new file mode 100644
index 00000000..7417d254
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_06.jpg
new file mode 100644
index 00000000..994b0977
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_07.jpg
new file mode 100644
index 00000000..e0132973
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_08.jpg
new file mode 100644
index 00000000..cef5c918
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_09.jpg
new file mode 100644
index 00000000..06043992
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_10.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_10.jpg
new file mode 100644
index 00000000..ca57deee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_10.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_11.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_11.jpg
new file mode 100644
index 00000000..5bdf77a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_11.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_12.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_12.jpg
new file mode 100644
index 00000000..4abac102
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_12.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_13.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_13.jpg
new file mode 100644
index 00000000..b4c406b6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_13.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_14.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_14.jpg
new file mode 100644
index 00000000..2be19741
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_05_14.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_11-1024x758.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_11-1024x758.jpg
new file mode 100644
index 00000000..1f7589ab
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/B05474_11-1024x758.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/PacktLibLogo.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/PacktLibLogo.jpg
new file mode 100644
index 00000000..c920ef65
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/PacktLibLogo.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_001.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_001.jpg
new file mode 100644
index 00000000..fbe94a92
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_001.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_002.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_002.jpg
new file mode 100644
index 00000000..e1e66181
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_002.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_003.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_003.jpg
new file mode 100644
index 00000000..1b22f448
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_003.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_004.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_004.jpg
new file mode 100644
index 00000000..35caa2d4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_004.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_005.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_005.jpg
new file mode 100644
index 00000000..da2a2b44
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_005.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_006.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_006.jpg
new file mode 100644
index 00000000..63ab54fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_006.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_007.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_007.jpg
new file mode 100644
index 00000000..e5eff274
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_007.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_008.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_008.jpg
new file mode 100644
index 00000000..aed68b9d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_008.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_009.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_009.jpg
new file mode 100644
index 00000000..0d3d08c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_009.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_010.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_010.jpg
new file mode 100644
index 00000000..34c48a80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_01_010.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_001.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_001.jpg
new file mode 100644
index 00000000..db9220df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_001.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_002.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_002.jpg
new file mode 100644
index 00000000..e772ba4b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_002.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_003.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_003.jpg
new file mode 100644
index 00000000..ced531f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_003.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_004.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_004.jpg
new file mode 100644
index 00000000..8d46604d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_004.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_005.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_005.jpg
new file mode 100644
index 00000000..195dd55f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_005.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_007-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_007-1.jpg
new file mode 100644
index 00000000..f6646328
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_007-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_008.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_008.jpg
new file mode 100644
index 00000000..9353abb5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_008.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_015-300x226.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_015-300x226.jpg
new file mode 100644
index 00000000..126a9273
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_015-300x226.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_018-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_018-1.jpg
new file mode 100644
index 00000000..31d67cb7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_018-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_020-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_020-1.jpg
new file mode 100644
index 00000000..e0fffe52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_020-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_022-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_022-1.jpg
new file mode 100644
index 00000000..3c919856
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_022-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_023-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_023-1.jpg
new file mode 100644
index 00000000..b3fdcfc0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_023-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_025-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_025-1.jpg
new file mode 100644
index 00000000..ba3e9c83
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_025-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_027-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_027-1.jpg
new file mode 100644
index 00000000..04b8297a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_027-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_029-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_029-1.jpg
new file mode 100644
index 00000000..33b33ad3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_02_029-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_05_001.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_05_001.jpg
new file mode 100644
index 00000000..214086a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_05_001.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_06_001.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_06_001.jpg
new file mode 100644
index 00000000..9005f573
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_06_001.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_06_002.jpg b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_06_002.jpg
new file mode 100644
index 00000000..8001bc78
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/get-start-tf/img/image_06_002.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/README.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/README.md
new file mode 100644
index 00000000..40551c02
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/README.md
@@ -0,0 +1,35 @@
+# TensorFlow 深度学习实战指南中文版
+
+> 原文：[Hands-on Deep Learning with TensorFlow]()
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/SUMMARY.md
new file mode 100644
index 00000000..d2ee2567
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/SUMMARY.md
@@ -0,0 +1,8 @@
++   [TensorFlow 深度学习实战指南中文版](README.md)
++   [一、入门](ch01.md)
++   [二、深度神经网络](ch02.md)
++   [三、卷积神经网络](ch03.md)
++   [四、循环神经网络介绍](ch04.md)
++   [五、总结](ch05.md)
+
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch01.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch01.md
new file mode 100644
index 00000000..9e891ee8
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch01.md
@@ -0,0 +1,603 @@
+# 一、入门
+
+TensorFlow 是 Google 最近发布的新的机器学习和图计算库。 其 Python 接口可确保通用模型的优雅设计，而其编译后的后端可确保速度。
+
+让我们看一下应用 TensorFlow 时要学习的技术和要构建的模型。
+
+# 安装 TensorFlow
+
+在本节中，您将学习什么是 TensorFlow，如何安装 TensorFlow 以及如何构建简单模型和进行简单计算。 此外，您将学习如何建立用于分类的逻辑回归模型，并介绍机器学习问题以帮助我们学习 TensorFlow。
+
+我们将学习 TensorFlow 是什么类型的库，并将其安装在我们自己的 Linux 机器上；如果您无法访问 Linux 机器，则将其安装在 CoCalc 的免费实例中。
+
+## TensorFlow 主页
+
+首先，什么是 TensorFlow？ TensorFlow 是 Google 推出的新的机器学习库。 它被设计为非常易于使用且非常快。 如果您访问 [TensorFlow 网站](http://tensorflow.org)，则可以访问有关 TensorFlow 是什么以及如何使用的大量信息。 我们将经常提到这一点，特别是文档。
+
+## TensorFlow 安装页面
+
+在我们开始使用 TensorFlow 之前，请注意，您需要先安装它，因为它可能尚未预先安装在您的操作系统上。 因此，如果转到 TensorFlow 网页上的“安装”选项卡，单击在 Ubuntu 上安装 TensorFlow，然后单击“本机 PIP”，您将学习如何安装 TensorFlow。
+
+![TensorFlow – the installation page](img/00002.jpg)
+
+即使对于经验丰富的系统管理员来说，安装 TensorFlow 也是非常困难的。 因此，我强烈建议您使用类似`pip`的安装方式。 或者，如果您熟悉 Docker，请使用 Docker 安装。 您可以从源代码安装 TensorFlow，但这可能非常困难。 我们将使用称为 wheel 文件的预编译二进制文件安装 TensorFlow。 您可以使用 Python 的`pip`模块安装程序来安装此文件。
+
+## 通过`pip`安装
+
+对于`pip`安装，您可以选择使用 Python2 或 Python3 版本。 另外，您可以在 CPU 和 GPU 版本之间进行选择。 如果您的计算机具有功能强大的显卡，则可能适合您使用 GPU 版本。
+
+![Installing via pip](img/00003.jpg)
+
+但是，您需要检查显卡是否与 TensorFlow 兼容。 如果不是，那很好。 本系列中的所有内容都可以仅使用 CPU 版本来完成。
+
+### 注意
+
+我们可以使用`pip install tensorflow`命令（基于您的 CPU 或 GPU 支持以及`pip`版本）安装 TensorFlow，如前面的屏幕截图所示。
+
+因此，如果您为 TensorFlow 复制以下行，则也可以安装它：
+
+```py
+# Python 3.4 installation
+sudo pip3 install --upgrade \
+https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.2.1-cp34-cp34m-linux_x86_64.whl
+
+```
+
+如果您没有 Python 3.4，请按照 wheel 文件的要求进行操作，那就可以了。 您可能仍然可以使用相同的 wheel 文件。 让我们看一下如何在 Python 3.5 上执行此操作。 首先，只需将以下 URL 放在浏览器中，或使用命令行程序（例如`wget`）直接下载 wheel 文件，就像我们在这里所做的那样：
+
+```py
+wget  https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.2.1-cp34-cp34m-linux_x86_64.whl
+
+```
+
+如果下载此文件，它将很快被您的计算机抓住。
+
+现在，您需要做的就是将文件名从`cp34`（代表 Python 3.4）更改为您使用的任何版本的 Python3。 在这种情况下，我们将其更改为使用 Python 3.5 的版本，因此我们将`4`更改为`5`：
+
+```py
+mv tensorflow-1.2.1-cp34-cp34m-linux_x86_64.whl tensorflow-1.2.1-cp35-cp35m-linux_x86_64.whl
+
+```
+
+现在您可以通过简单地将安装行更改为`pip3 install`并将新 wheel 文件的名称更改为 3.5 后，来为 Python 3.5 安装 TensorFlow：
+
+```py
+sudo pip3 install ./tensorflow-1.2.1-cp35-cp35m-linux_x86_64.whl
+
+```
+
+我们可以看到这很好。 现在，您已经安装了 TensorFlow。
+
+![Installing via pip](img/00004.jpg)
+
+如果您的安装以后因某种原因损坏了，您可以随时跳回到该部分，以提醒自己有关安装所涉及的步骤。
+
+## 通过 CoCalc 安装
+
+如果您没有计算机的管理或安装权限，但仍然想尝试 TensorFlow，则可以尝试在 CoCalc 实例中通过 Web 运行 TensorFlow。 如果转到 [cocalc.com](https://cocalc.com/) 并创建一个新帐户，则可以创建一个新项目。 这将为您提供一种可以玩耍的虚拟机。 方便的是，TensorFlow 已经安装在 Anaconda 3 内核中。
+
+![Installing via CoCalc](img/00005.jpg)
+
+让我们创建一个名为`TensorFlow`的新项目。 单击+创建新项目...，为您的项目输入标题，然后单击创建项目。 现在，我们可以通过单击标题进入我们的项目。 加载将需要几秒钟。
+
+![Installing via CoCalc](img/00006.jpg)
+
+单击+新建以创建一个新文件。 在这里，我们将创建一个 Jupyter 笔记本：
+
+![Installing via CoCalc](img/00007.jpg)
+
+Jupyter 是与 IPython 进行交互的便捷方法，也是使用 CoCalc 进行这些计算的主要手段。 加载可能需要几秒钟。
+
+进入下面的屏幕快照中所示的界面时，您需要做的第一件事是通过转到“内核 | 更改内核… | Python3（Anaconda）”将内核更改为 Anaconda Python3：
+
+![Installing via CoCalc](img/00008.jpg)
+
+这将为您提供适当的依赖关系以使用 TensorFlow。 更改内核可能需要几秒钟。 连接到新内核后，可以在单元格中键入`import tensorflow`，然后转到“单元格 | 运行单元格”以检查其是否有效：
+
+![Installing via CoCalc](img/00009.jpg)
+
+如果 Jupyter 笔记本需要很长时间才能加载，则可以使用以下屏幕截图中所示的按钮在 CoCalc 中创建终端：
+
+![Installing via CoCalc](img/00010.jpg)
+
+到那里后，键入`anaconda3`切换环境，然后键入`ipython3`启动交互式 Python 会话，如以下屏幕截图所示：
+
+![Installing via CoCalc](img/00011.jpg)
+
+尽管您无法可视化输出，但是您可以在这里轻松地工作。 在终端中输入`import tensorflow`，然后离开。
+
+到目前为止，您已经了解了 TensorFlow 是什么以及如何在本地或 Web 上的虚拟机上安装 TensorFlow。 现在我们准备在 TensorFlow 中探索简单的计算。
+
+# 简单的计算
+
+首先，我们将看一下张量对象类型。 然后，我们将理解定义计算的 TensorFlow 图。 最后，我们将使用会话运行图，显示如何替换中间值。
+
+## 定义标量和张量
+
+您需要做的第一件事是下载本书的源代码包并打开`simple.py`文件。 您可以使用此文件将行复制并粘贴到 TensorFlow 或 CoCalc 中，也可以直接键入它们。 首先，让我们将`tensorflow`导入为`tf`。 这是在 Python 中引用它的便捷方法。 您需要在`tf.constant`通话中保留常数。 例如，做`a = tf.constant(1)`和`b = tf.constant(2)`：
+
+```py
+import tensorflow as tf
+# You can create constants in TF to hold specific values
+a = tf.constant(1)
+b = tf.constant(2)
+```
+
+当然，您可以将它们相加并相乘以获得其他值，即`c`和`d`：
+
+```py
+# Of course you can add, multiply, and compute on these as you like
+c = a + b
+d = a * b
+```
+
+TensorFlow 数字以张量存储，这是多维数组的一个花哨术语。 如果您将 Python 列表传递给 TensorFlow，它将做正确的事并将其转换为适当尺寸的张量。 您可以在以下代码中看到这一点：
+
+```py
+# TF numbers are stored in "tensors", a fancy term for multidimensional arrays. If you pass TF a Python list, it can convert it
+V1 = tf.constant([1., 2.])   # Vector, 1-dimensional
+V2 = tf.constant([3., 4.])   # Vector, 1-dimensional
+M = tf.constant([[1., 2.]])             # Matrix, 2d
+N = tf.constant([[1., 2.],[3.,4.]])     # Matrix, 2d
+K = tf.constant([[[1., 2.],[3.,4.]]])   # Tensor, 3d+
+```
+
+`V1`向量（一维张量）作为`[1\. , 2.]`的 Python 列表传递。 这里的点只是强制 Python 将数字存储为十进制值而不是整数。 `V2`向量是`[3\. , 4\. ]`的另一个 Python 列表。 `M`变量是由 Python 中的列表列表构成的二维矩阵，在 TensorFlow 中创建了二维张量。 `N`变量也是二维矩阵。 请注意，这一行实际上有多行。 最后，`K`是一个真实的张量，包含三个维度。 请注意，最终维度仅包含一个条目，即一个`2 x 2`框。
+
+如果该项有点混乱，请不要担心。 每当您看到一个奇怪的新变量时，都可以跳回到这一点以了解它可能是什么。
+
+## 张量计算
+
+您还可以做一些简单的事情，例如将张量相加：
+
+```py
+V3 = V1 + V2
+```
+
+或者，您可以将它们逐个元素相乘，以便将每个公共位置相乘在一起：
+
+```py
+# Operations are element-wise by default
+M2 = M * M
+```
+
+但是，对于真正的矩阵乘法，您需要使用`tf.matmul`，传入两个张量作为参数：
+
+```py
+NN = tf.matmul(N,N)
+```
+
+## 执行计算
+
+到目前为止，所有内容都已指定 TensorFlow 图； 我们还没有计算任何东西。 为此，我们需要启动一个进行计算的会话。 以下代码创建一个新的会话：
+
+```py
+sess = tf.Session()
+```
+
+打开会话后，请执行以下操作：`sess.run(NN)`将计算给定的表达式并返回一个数组。 通过执行以下操作，我们可以轻松地将其发送到变量：
+
+```py
+output = sess.run(NN)
+print("NN is:")
+print(output)
+```
+
+如果现在运行此单元格，则应该在屏幕上看到`NN`输出的正确张量数组：
+
+![Doing computation](img/00012.jpg)
+
+使用完会话后，最好将其关闭，就像关闭文件句柄一样：
+
+```py
+# Remember to close your session when you're done using it
+sess.close()
+```
+
+对于交互式工作，我们可以像这样使用`tf.InteractiveSession()`：
+
+```py
+sess = tf.InteractiveSession()
+```
+
+然后，您可以轻松计算任何节点的值。 例如，输入以下代码并运行单元格将输出`M2`的值：
+
+```py
+# Now we can compute any node
+print("M2 is:")
+print(M2.eval())
+```
+
+## 可变张量
+
+当然，并非我们所有的数字都是恒定的。 例如，要更新神经网络中的权重，我们需要使用`tf.Variable`创建适当的对象：
+
+```py
+W = tf.Variable(0, name="weight")
+```
+
+请注意，TensorFlow 中的变量不会自动初始化。 为此，我们需要使用一个特殊的调用，即`tf.global_variables_initializer()`，然后使用`sess.run()`运行该调用：
+
+```py
+init_op = tf.global_variables_initializer()
+sess.run(init_op)
+```
+
+这是在该变量中放置一个值。 在这种情况下，它将把`0`值填充到`W`变量中。 让我们验证一下`W`是否具有该值：
+
+```py
+print("W is:")
+print(W.eval())
+```
+
+您应该在单元格中看到`0`的`W`的输出值：
+
+![Variable tensors](img/00013.jpg)
+
+让我们看看向其中添加`a`会发生什么：
+
+```py
+W += a
+print("W after adding a:")
+print(W.eval())
+```
+
+回想一下`a`是`1`，因此您在这里得到`1`的期望值：
+
+![Variable tensors](img/00014.jpg)
+
+让我们再次添加`a`，以确保我们可以递增并且它确实是一个变量：
+
+```py
+W += a
+print("W after adding a:")
+print(W.eval())
+```
+
+现在您应该看到`W`持有`2`，因为我们已经使用`a`对其进行了两次递增：
+
+![Variable tensors](img/00015.jpg)
+
+## 查看和替换中间值
+
+在执行 TensorFlow 计算时，您可以返回或提供任意节点。 让我们定义一个新节点，但同时在`fetch`调用中返回另一个节点。 首先，让我们定义新节点`E`，如下所示：
+
+```py
+E = d + b # 1*2 + 2 = 4
+```
+
+让我们看看`E`的开头是：
+
+```py
+print("E as defined:")
+print(E.eval())
+```
+
+如您所料，您应该看到`E`等于`4`。 现在让我们看一下如何传递`E`和`d`多个节点，以从`sess.run`调用中返回多个值：
+
+```py
+# Let's see what d was at the same time
+print("E and d:")
+print(sess.run([E,d]))
+```
+
+您应该看到输出中返回了多个值，即`4`和`2`：
+
+![Viewing and substituting intermediate values](img/00016.jpg)
+
+现在假设我们要使用其他中间值，例如出于调试目的。 返回值时，我们可以使用`feed_dict`将自定义值提供给计算中任何位置的节点。 让我们现在用`d`等于`4`而不是`2`来做：
+
+```py
+# Use a custom d by specifying a dictionary
+print("E with custom d=4:")
+print(sess.run(E, feed_dict = {d:4.}))
+```
+
+请记住，`E` 等于 `d + b`，`d`和`b`的值都是`2`。 尽管我们为`d`插入了`4`的新值，但是您应该看到`E`的值现在将输出为`6`：
+
+![Viewing and substituting intermediate values](img/00017.jpg)
+
+您现在已经了解了如何使用 TensorFlow 张量进行核心计算。 现在是时候通过建立逻辑回归模型来迈出下一步。
+
+# 逻辑回归模型构建
+
+好的，让我们开始构建一个真正的机器学习模型。 首先，我们将看到提出的机器学习问题：字体分类。 然后，我们将回顾一个简单的分类算法，称为逻辑回归。 最后，我们将在 TensorFlow 中实现逻辑回归。
+
+## 字体分类数据集简介
+
+在开始之前，让我们加载所有必需的模块：
+
+```py
+import tensorflow as tf
+import numpy as np
+```
+
+如果要复制并粘贴到 IPython，请确保将`autoindent`属性设置为`OFF`：
+
+```py
+%autoindent
+```
+
+`tqdm`模块是可选的； 它只是显示了不错的进度条：
+
+```py
+try:
+    from tqdm import tqdm
+except ImportError:
+    def tqdm(x, *args, **kwargs):
+        return x
+```
+
+接下来，我们将设置`0`的种子，以使每次运行之间的数据分割保持一致：
+
+```py
+# Set random seed
+np.random.seed(0)
+```
+
+在本书中，我们提供了使用五种字体的字符图像数据集。 为方便起见，这些文件存储在压缩的 NumPy 文件（`data_with_labels.npz`）中，该文件可在本书的下载包中找到。 您可以使用`numpy.load`轻松将它们加载到 Python 中：
+
+```py
+# Load data
+data = np.load('data_with_labels.npz')
+train = data['arr_0']/255.
+labels = data['arr_1']
+```
+
+这里的`train`变量保存从 0 到 1 缩放的实际像素值，`labels`保留原来的字体类型。 因此，它将是 0、1、2、3 或 4，因为总共有五种字体。 您可以打印这些值，因此可以使用以下代码查看它们：
+
+```py
+# Look at some data
+print(train[0])
+print(labels[0])
+```
+
+但是，这不是很有启发性，因为大多数值都是零，并且仅屏幕的中央部分包含图像数据：
+
+![Introducing the font classification dataset](img/00018.jpg)
+
+如果您已安装 Matplotlib，则现在是导入它的好地方。 在需要时，我们将使用`plt.ion()`自动调出数字：
+
+```py
+# If you have matplotlib installed
+import matplotlib.pyplot as plt
+plt.ion()
+```
+
+这是每种字体的一些字符示例图：
+
+![Introducing the font classification dataset](img/00019.jpg)
+
+是的，他们很浮华。 在数据集中，每个图像都表示为像素暗度值的`36 x 36`二维矩阵。 0 值表示白色像素，而 255 表示黑色像素。 两者之间的一切都是灰色阴影。 这是在您自己的计算机上显示这些字体的代码：
+
+```py
+# Let's look at a subplot of one of A in each font
+f, plts = plt.subplots(5, sharex=True)
+c = 91
+for i in range(5):
+    plts[i].pcolor(train[c + i * 558],
+                   cmap=plt.cm.gray_r)
+```
+
+如果您的图看起来确实很宽，则可以使用鼠标轻松调整窗口大小。 如果您只是以交互方式进行绘图，则在 Python 中提前调整其大小通常需要做很多工作。 鉴于我们还有许多其他标记的字体图像，我们的目标是确定图像属于哪种字体。 为了扩展数据集并避免过拟合，我们还在`36 x 36`区域内抖动了每个字符，为我们提供了 9 倍的数据点。
+
+在使用较新的模型后重新回到这一点可能会有所帮助。 无论最终模型有多高级，记住原始数据都非常重要。
+
+## 逻辑回归
+
+如果您熟悉线性回归，那么您将了解逻辑回归。 基本上，我们将为图像中的每个像素分配一个权重，然后对这些像素进行加权求和（权重为`beta`，像素为`X`）。 这将为我们提供该图像是特定字体的分数。 每种字体都有自己的权重集，因为它们对像素的重视程度不同。 要将这些分数转换为适当的概率（由`Y`表示），我们将使用`softmax`函数将其总和强制在 0 到 1 之间，如下所示。 对于特定图像而言，无论最大概率是多少，我们都将其分类为关联的类别。
+
+您可以在大多数统计建模教科书中阅读有关逻辑回归理论的更多信息。 这是它的公式：
+
+![Logistic regression](img/00020.jpg)
+
+William H. Greene 的《计量经济学分析》（Pearson）于 2012 年出版，这是一本针对应用的很好的参考。
+
+## 准备数据
+
+在 TensorFlow 中实现逻辑回归非常容易，并将作为更复杂的机器学习算法的基础。 首先，我们需要将整数标签转换为单格式。 这意味着，不是将字体类标记为 2，而是将标签转换为`[0, 0, 1, 0, 0]`。 也就是说，我们将`1`放在第二个位置（注意，向上计数在计算机科学中很常见），而`0`则放在其他位置。 这是我们的`to_onehot`函数的代码：
+
+```py
+def to_onehot(labels,nclasses = 5):
+    '''
+    Convert labels to "one-hot" format.
+    >>> a = [0,1,2,3]
+    >>> to_onehot(a,5)
+    array([[ 1.,  0.,  0.,  0.,  0.],
+           [ 0.,  1.,  0.,  0.,  0.],
+           [ 0.,  0.,  1.,  0.,  0.],
+           [ 0.,  0.,  0.,  1.,  0.]])
+    '''
+    outlabels = np.zeros((len(labels),nclasses))
+    for i,l in enumerate(labels):
+        outlabels[i,l] = 1
+    return outlabels
+```
+
+完成此操作后，我们可以继续调用该函数：
+
+```py
+onehot = to_onehot(labels)
+```
+
+对于像素，在这种情况下，我们实际上并不需要矩阵，因此我们将`36 x 36`的数字展平为长度为 1,296 的一维向量，但这会在以后出现。 另外，回想一下，我们已经重新调整了 0-255 的像素值，使其介于 0 和 1 之间。
+
+好的，我们的最后准备是将数据集分为训练和验证集。 这将有助于我们稍后解决过拟合问题。 训练集将帮助我们确定逻辑回归模型中的权重，而验证集将仅用于确认这些权重在新数据上是否合理：
+
+```py
+# Split data into training and validation
+indices = np.random.permutation(train.shape[0])
+valid_cnt = int(train.shape[0] * 0.1)
+test_idx, training_idx = indices[:valid_cnt],\
+                         indices[valid_cnt:]
+test, train = train[test_idx,:],\
+              train[training_idx,:]
+onehot_test, onehot_train = onehot[test_idx,:],\
+                        onehot[training_idx,:]
+```
+
+## 建立 TensorFlow 模型
+
+好的，让我们通过创建一个交互式会话来开始 TensorFlow 代码：
+
+```py
+sess = tf.InteractiveSession()
+```
+
+这样，我们就在 TensorFlow 中开始了我们的第一个模型。
+
+我们将为`x`使用占位符变量，该变量代表我们的输入图像。 这只是告诉 TensorFlow 我们稍后将通过`feed_dict`为该节点提供值：
+
+```py
+# These will be inputs
+## Input pixels, flattened
+x = tf.placeholder("float", [None, 1296])
+```
+
+另外，请注意，我们可以指定此张量的形状，在这里我们将`None`用作大小之一。 `None`的大小允许我们立即将任意数量的数据点发送到算法中以进行批量。 同样，我们将使用变量`y_`来保存我们已知的标签，以便稍后进行训练：
+
+```py
+## Known labels
+y_ = tf.placeholder("float", [None,5])
+```
+
+要执行逻辑回归，我们需要一组权重（`W`）。 实际上，五个字体类别中的每一个都需要 1,296 的权重，这将为我们提供形状。 请注意，我们还希望为每个类别添加一个额外的权重作为偏差（`b`）。 这与添加始终为`1`值的额外输入变量相同：
+
+```py
+# Variables
+W = tf.Variable(tf.zeros([1296,5]))
+b = tf.Variable(tf.zeros([5]))
+```
+
+随着所有这些 TensorFlow 变量浮动，我们需要确保对其进行初始化。 现在给他们打电话：
+
+```py
+# Just initialize
+sess.run(tf.global_variables_initializer())
+```
+
+做得好！ 您已经准备好一切。 现在，您可以实现`softmax`公式来计算概率。 由于我们非常仔细地设置权重和输入，因此 TensorFlow 只需调用`tf.matmul`和`tf.nn.softmax`就可以轻松完成此任务：
+
+```py
+# Define model
+y = tf.nn.softmax(tf.matmul(x,W) + b)
+```
+
+而已！ 您已经在 TensorFlow 中实现了整个机器学习分类器。辛苦了。但是，我们从哪里获得权重的值？ 让我们看一下使用 TensorFlow 训练模型。
+
+# 逻辑回归训练
+
+首先，您将了解我们的机器学习分类器的损失函数，并在 TensorFlow 中实现它。 然后，我们将通过求值正确的 TensorFlow 节点来快速训练模型。 最后，我们将验证我们的模型是否合理准确，权重是否合理。
+
+## 定义损失函数
+
+优化我们的模型实际上意味着最大程度地减少我们的误差。 使用我们的标签，可以很容易地将它们与模型预测的类概率进行比较。 类别`cross_entropy`函数是测量此函数的正式方法。 尽管确切的统计信息超出了本课程的范围，但是您可以将其视为对模型的惩罚，以期获得更不准确的预测。 为了进行计算，我们将单热的实数标签与预测概率的自然对数相乘，然后将这些值相加并取反。 为方便起见，TensorFlow 已经包含此函数为`tf.nn.softmax_cross_entropy_with_logits()`，我们可以这样称呼它：
+
+```py
+# Climb on cross-entropy
+cross_entropy = tf.reduce_mean(
+        tf.nn.softmax_cross_entropy_with_logits(
+        logits = y + 1e-50, labels = y_))
+```
+
+请注意，我们在此处添加了一个较小的`1e-50`误差值，以避免数值不稳定问题。
+
+## 训练模型
+
+TensorFlow 的便利之处在于它提供了内置的优化器，以利用我们刚刚编写的损失函数。 梯度下降是一种常见的选择，它将使我们的权重逐渐趋于更好。 这是将更新我们权重的节点：
+
+```py
+# How we train
+train_step = tf.train.GradientDescentOptimizer(
+                0.02).minimize(cross_entropy)
+```
+
+在我们实际开始训练之前，我们应该指定一些其他节点来评估模型的表现：
+
+```py
+# Define accuracy
+correct_prediction = tf.equal(tf.argmax(y,1),
+                     tf.argmax(y_,1))
+accuracy = tf.reduce_mean(tf.cast(
+           correct_prediction, "float"))
+```
+
+如果我们的模型将最高概率分配给正确的类别，则`correct_prediction`节点为`1`，否则为`0`。 `accuracy`变量对可用数据的这些预测取平均值，从而使我们对模型的执行情况有一个整体认识。
+
+在进行机器学习训练时，我们经常希望多次使用同一数据点，以挤出所有信息。 每次遍历整个训练数据都称为一个周期。 在这里，我们将每 10 个时间段同时保存训练和验证准确率：
+
+```py
+# Actually train
+epochs = 1000
+train_acc = np.zeros(epochs//10)
+test_acc = np.zeros(epochs//10)
+for i in tqdm(range(epochs)):
+    # Record summary data, and the accuracy
+    if i % 10 == 0:
+        # Check accuracy on train set
+        A = accuracy.eval(feed_dict={
+            x: train.reshape([-1,1296]),
+            y_: onehot_train})
+        train_acc[i//10] = A
+        # And now the validation set
+        A = accuracy.eval(feed_dict={
+            x: test.reshape([-1,1296]),
+            y_: onehot_test})
+        test_acc[i//10] = A
+    train_step.run(feed_dict={
+        x: train.reshape([-1,1296]),
+        y_: onehot_train})
+```
+
+请注意，我们使用`feed_dict`传递不同类型的数据以获得不同的输出值。 最后，`train_step.run`每次迭代都会更新模型。 在典型的计算机上，这只需几分钟，如果使用 GPU，则要少得多，而在功率不足的计算机上则要花更多时间。
+
+您刚刚使用 TensorFlow 训练了模型; 真棒！
+
+## 评估模型准确率
+
+在 1,000 个周期之后，让我们看一下模型。 如果您安装了 Matplotlib，则可以在绘图中查看精度； 如果没有，您仍然可以查看电话号码。 对于最终结果，请使用以下代码：
+
+```py
+# Notice that accuracy flattens out
+print(train_acc[-1])
+print(test_acc[-1])
+```
+
+如果您确实安装了 Matplotlib，则可以使用以下代码显示图：
+
+```py
+# Plot the accuracy curves
+plt.figure(figsize=(6,6))
+plt.plot(train_acc,'bo')
+plt.plot(test_acc,'rx')
+```
+
+您应该看到类似下面的图（请注意，我们使用了一些随机初始化，因此可能并不完全相同）：
+
+![Evaluating the model accuracy](img/00021.jpg)
+
+验证精度似乎在经过约 400-500 次迭代后趋于平稳； 除此之外，我们的模型可能过拟合或没有学到更多。 同样，即使最终精度大约是 40%，看起来也很差，但请记住，对于五个类别，完全随机的猜测将仅具有 20% 的精度。 有了这个有限的数据集，简单的模型就可以做到。
+
+查看计算出的权重通常也很有帮助。 这些可以为您提供有关模型认为重要的线索。 让我们按给定类的像素位置绘制它们：
+
+```py
+# Look at a subplot of the weights for each font
+f, plts = plt.subplots(5, sharex=True)
+for i in range(5):
+    plts[i].pcolor(W.eval()[:,i].reshape([36,36]))
+```
+
+这应该给您类似于以下的结果（同样，如果图显示得很宽，则可以挤压窗口大小以使其平方）：
+
+![Evaluating the model accuracy](img/00022.jpg)
+
+我们可以看到，在某些模型中，靠近内部的权重很重要，而外部的权重基本上为零。 这是有道理的，因为没有字体字符到达图像的角落。
+
+同样，请注意，由于随机初始化的影响，最终结果可能看起来有些不同。 随时可以尝试并更改模型的参数； 这就是您学习新事物的方式。
+
+## 总结
+
+在本章中，我们在可以使用的机器上安装了 TensorFlow。 经过一些基本计算的小步骤，我们跳入了机器学习问题，仅通过逻辑回归和几行 TensorFlow 代码就成功构建了一个体面的模型。
+
+在下一章中，我们将看到 TensorFlow 在深度神经网络方面的优势。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch02.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch02.md
new file mode 100644
index 00000000..5a9b4ac6
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch02.md
@@ -0,0 +1,458 @@
+# 二、深度神经网络
+
+在上一章中，我们研究了简单的 TensorFlow 操作以及如何在字体分类问题上使用逻辑回归。 在本章中，我们将深入探讨一种最流行和成功的机器学习方法-神经网络。 使用 TensorFlow，我们将构建简单和深度的神经网络，以改善字体分类问题的模型。 在这里，我们将实践神经网络的基础。 我们还将使用 TensorFlow 构建和训练我们的第一个神经网络。 然后，我们将进入具有神经元隐藏层的神经网络，并完全理解它。 完成后，您将更好地掌握以下主题：
+
+*   基本神经网络
+*   单隐藏层模型
+*   单隐藏层说明
+*   多隐藏层模型
+*   多隐藏层的结果
+
+在第一部分中，我们将回顾神经网络的基础。 您将学习转换输入数据的常见方法，了解神经网络如何将这些转换联系在一起，最后，如何在 TensorFlow 中实现单个神经元。
+
+# 基本神经网络
+
+我们的逻辑回归模型运作良好，但本质上是线性的。 将像素的强度加倍会使像素对得分的贡献增加一倍，但我们可能只真正关心像素是否在某个阈值之上或将较小的权重放在较小的值上。 线性可能无法捕获问题的所有细微差别。 解决此问题的一种方法是使用非线性函数转换输入。 让我们看一下 TensorFlow 中的一个简单示例。
+
+首先，请确保加载所需的模块（`tensorflow`，`numpy`和`math`）并启动交互式会话：
+
+```py
+import tensorflow as tf
+import numpy as np
+import math
+
+sess = tf.InteractiveSession()
+```
+
+在下面的示例中，我们创建了三个五长向量的正常随机数，这些向量被截断以防止它们过于极端，中心不同：
+
+```py
+x1 = tf.Variable(tf.truncated_normal([5],
+                 mean=3, stddev=1./math.sqrt(5)))
+x2 = tf.Variable(tf.truncated_normal([5],
+                 mean=-1, stddev=1./math.sqrt(5)))
+x3 = tf.Variable(tf.truncated_normal([5],
+                 mean=0, stddev=1./math.sqrt(5)))
+
+sess.run(tf.global_variables_initializer())
+```
+
+### 注意
+
+请注意，由于这是随机的，因此您的值可能会有所不同，但这很好。
+
+常见的转换是对输入求平方。 这样做会使更大的值变得更加极端，当然也使所有事情都变得积极起来：
+
+```py
+sqx2 = x2 * x2
+print(x2.eval())
+print(sqx2.eval())
+```
+
+您可以在以下屏幕截图中看到结果：
+
+![Basic neural networks](img/00023.jpg)
+
+## 对数函数
+
+相反，如果您需要在较小的值中有更多细微差别，则可以尝试采用输入的自然对数或任何基本对数：
+
+```py
+logx1 = tf.log(x1)
+print(x1.eval())
+print(logx1.eval())
+```
+
+请参考以下屏幕截图，请注意，较大的值往往会挤在一起，而较小的值则散布得多：
+
+![Log function](img/00024.jpg)
+
+但是，对数不能处理负输入，并且您越接近零，小输入就变得越负。 因此，请注意对数。 最后，是 Sigmoid 变换。
+
+## sigmoid 函数
+
+不必担心公式，只需知道正负两个极值分别被压缩为加一或零，而接近零的输入就接近二分之一：
+
+```py
+sigx3 = tf.sigmoid(x3)
+print(x3.eval())
+print(sigx3.eval())
+```
+
+在这里，您将看到一个接近一半的示例。 它从四分之一开始，到现在将近一半：
+
+![Sigmoid function](img/00025.jpg)
+
+在机器学习中，我们通常将这些转换称为激活函数。 我们通常将输入的加权总和组合到其中。 当您考虑输入，权重和激活函数时，就将其称为神经元，因为它是受生物神经元启发的。
+
+真正的神经元如何在物理大脑中工作的细节不在本书的讨论范围之内。 如果您对此感兴趣，则神经生物学文章可能包含更多内容，或者您​​可以参考 Gordon M. Shepherd 的《神经元学说》作为近期参考。 让我们看一下 TensorFlow 中的一个简单示例：
+
+```py
+w1 = tf.constant(0.1)
+w2 = tf.constant(0.2)
+sess.run(tf.global_variables_initializer())
+```
+
+首先，只需创建一些常量`w1`和`w2`即可。 我们将`x1`乘以`w1`，将`x2`乘以`w2`，然后将这些中间值相加，最后将结果通过`tf.sigmoid`的`sigmoid`激活函数进行处理。 查看以下屏幕快照中显示的结果：
+
+![Sigmoid function](img/00026.jpg)
+
+同样，现在不必担心确切的公式，您可以拥有各种不同的激活函数。 请注意，这是您迈向自己的神经网络的第一步。
+
+那么，我们如何从单个神经元到整个网络？ 简单！ 一个神经元的输入仅成为网络下一层中另一神经元的输入。
+
+![Sigmoid function](img/00027.jpg)
+
+在上图中，我们有一个简单的网络，其中有两个输入`X0`和`X1`，两个输出`Y0`和`Y1`，中间有三个神经元。 `X0`中的值被发送到每个`N`神经元，但是权重不同，该权重乘以与每个相关的`X0`。 `X1`也发送到每个神经元，并具有自己的一组权重。 对于每个神经元，我们计算输入的加权总和，将其通过激活函数，然后产生中间输出。 现在，我们做同样的事情，但是将神经元的输出视为`Y`的输入。 注意，通过对输入加权和进行非线性激活，我们实际上只是为最终模型计算了一组新的特征。
+
+现在您已经了解了 TensorFlow 中非线性转换的基础以及什么是神经网络。 好吧，它们可能不会让您读懂思想，它们对于深度学习至关重要。 在下一节中，我们将使用简单的神经网络来改进分类算法。
+
+# 单隐藏层模型
+
+在这里，我们将实践神经网络的基础知识。 我们将逻辑回归 TenserFlow 代码改编为神经元的单个隐藏层。 然后，您将学习反向传播背后的思想以计算权重，即训练网络。 最后，您将在 TensorFlow 中训练您的第一个真正的神经网络。
+
+本部分的 TensorFlow 代码应该看起来很熟悉。 它只是逻辑回归代码的略微演变版本。 让我们看看如何添加神经元的隐藏层，以计算输入像素的非线性组合。
+
+您应该从全新的 Python 会话开始，执行代码以读入，并按照逻辑模型中的步骤设置数据。 相同的代码，只是复制到新文件中：
+
+```py
+import tensorflow as tf
+import numpy as np
+import math
+from tqdm import tqdm
+%autoindent
+try:
+    from tqdm import tqdm
+except ImportError:
+    def tqdm(x, *args, **kwargs):
+        return x
+```
+
+您总是可以回到前面的部分，并提醒自己该代码的作用； 直到`num_hidden`变量的所有内容都可以使您快速入门。
+
+## 探索单隐藏层模型
+
+现在，让我们逐步介绍单个隐藏层模型：
+
+1.  首先，让我们指定`num_hidden = 128`想要多少个神经元； 最终，这实际上是将多少个非线性组合传递给逻辑对数。
+2.  为了适应这一点，我们还需要更新`W1`和`b1`权重张量的形状。 他们现在正在馈送我们隐藏的神经元，因此需要匹配形状：
+
+    ```py
+    W1 = tf.Variable(tf.truncated_normal([1296, num_hidden],
+                                       stddev=1./math.sqrt(1296)))
+    b1 = tf.Variable(tf.constant(0.1,shape=[num_hidden]))
+    ```
+
+3.  我们计算加权和的激活函数的方法是使用单行`h1`。 这是将我们的输入像素乘以每个神经元各自的权重：
+
+    ```py
+    h1 = tf.sigmoid(tf.matmul(x,W1) + b1)
+    ```
+
+    添加神经元偏差项，最后通过`sigmoid`激活函数进行设置； 此时，我们有 128 个中间值：
+
+    ![Exploring the single hidden layer model](img/00028.jpg)
+
+4.  现在，这只是对您友好的逻辑回归； 您已经知道该怎么办。 这些新计算的 128 个特征需要它们自己的权重和偏置集来计算输出类的分数，分别为`W2`和`b2`。 注意形状如何与神经元的形状 128 匹配，并且输出类的数量为 5：
+
+    ```py
+    W2 = tf.Variable(tf.truncated_normal([num_hidden, 5],
+                                          stddev=1./math.sqrt(5)))
+    b2 = tf.Variable(tf.constant(0.1,shape=[5]))
+    sess.run(tf.global_variables_initializer())
+    ```
+
+    在所有这些权重中，我们使用此奇怪的截断普通调用对其进行初始化。 借助神经网络，我们希望获得良好的初始值分布，以便我们的权重可以攀升至有意义的值，而不是仅仅归零。
+
+5.  截断正态具有给定标准偏差的正态分布中的随机值，该研究标准按输入数量进行缩放，但抛出的值太极端，因此被截断了。 定义好权重和神经元后，我们将像以前一样设置最终的`softmax`模型，除了需要注意使用 128 个神经元作为输入`h1`以及相关的权重和偏差`W2`和`b2`：
+
+    ```py
+    y = tf.nn.softmax(tf.matmul(h1,W2) + b2)
+    ```
+
+## 反向传播
+
+训练神经网络和许多其他机器学习模型权重的关键称为反向传播。
+
+![Backpropagation](img/00029.jpg)
+
+完整的推导超出了本书的范围，但是让我们直观地进行研究。 当您在空中训练逻辑回归之类的模型并且训练集直接来自选择不当的权重时，您可以看到应该调整哪些权重以及应该调整多少权重并相应地更改它们。
+
+从形式上讲，TensorFlow 通过计算空气相对于权重的导数并将权重调整为该数值的一小部分来实现此目的。 反向传播实际上是同一过程的扩展。
+
+您从最底层的输出或成本函数层开始，计算导数，然后使用它们来计算与上一层神经元相关的导数。 通过将从成本到权重的路径上的导数乘积相加，我们可以计算相对于要调整的权重的成本的适当偏导数。 上图中显示的公式仅说明了红色箭头显示的内容。 如果这看起来很复杂，请不要担心。
+
+TensorFlow 使用优化器在后台为您处理。 由于我们使用 TensorFlow 精心指定了模型来训练模型，因此几乎与之前完全相同，因此我们将在此处使用相同的代码：
+
+```py
+epochs = 5000
+train_acc = np.zeros(epochs//10)
+test_acc = np.zeros(epochs//10)
+for i in tqdm(range(epochs), ascii=True):
+    if i % 10 == 0: # Record summary data, and the accuracy
+        # Check accuracy on train set
+        A = accuracy.eval(feed_dict={x: train.reshape([-1,1296]), y_: onehot_train})
+        train_acc[i//10] = A
+
+        # And now the validation set
+        A = accuracy.eval(feed_dict={x: test.reshape([-1,1296]), y_: onehot_test})
+        test_acc[i//10] = A
+    train_step.run(feed_dict={x: train.reshape([-1,1296]), y_: onehot_train})
+```
+
+需要注意的一件事是，因为我们有这些隐藏的神经元，所以有更多的权重可以拟合模型。 这意味着我们的模型将需要更长的运行时间，并且必须花费更多的迭代时间才能进行训练。 这次我们通过`5000`历时运行它：
+
+![Backpropagation](img/00030.jpg)
+
+该模型可能比以前的模型花费更长的时间，可能是前一个模型的四倍。 因此，您可能需要几分钟到 10 分钟的时间，具体取决于您的计算机。 现在，通过模型训练，我们将在稍后查看验证准确率。
+
+# 单隐藏层的说明
+
+在本节中，我们将仔细研究构建的模型。 首先，我们将验证模型的整体准确率，然后查看模型出了哪些问题。 最后，我们将可视化与多个神经元相关的权重，以查看它们在寻找什么：
+
+```py
+plt.figure(figsize=(6, 6))
+plt.plot(train_acc,'bo')
+plt.plot(test_acc,'rx')
+```
+
+确保您已经按照上一节中的步骤训练了模型，如果没有，您可能要在这里停下来并首先进行操作。 由于我们每隔 10 个训练周期就评估模型的准确率并保存结果，因此现在很容易探索模型的演变方式。
+
+使用 Matplotlib，我们可以在同一张图上绘制训练精度（蓝色点）和测试精度（红色点）：
+
+![Single hidden layer explained](img/00031.jpg)
+
+同样，如果您没有 Matplotlib，那就没关系。 您可以只查看数组值本身。 请注意，训练精度（蓝色）通常比测试精度（红色）好一点。 这并不奇怪，因为测试图像对于模型来说是全新的，并且可能包含以前看不见的特征。 另外，观察精度通常会攀升到更多的周期，然后逐渐上升，然后逐渐上升。 我们的模型在这里达到约 60% 的准确率； 并非完美，但对简单逻辑回归进行了改进。
+
+要查看我们的模型在哪里混淆，创建混淆矩阵会很有帮助。 也就是说，我们将寻找一个可以说的实际绘图类别。 该模型将其分类为什么？ 形式上是`5x5`矩阵。 对于每个测试图像，如果图像实际上是类别`i`和模型预测类别`j`，则我们增加值和位置`i j`。 请注意，当模型正确时，则为`i = j`。
+
+一个好的模型在对角线上将具有很大的值，而在其他地方则没有很多。 通过这种类型的分析，很容易看出两个类是否经常彼此混淆，或者模型很少选择某些类。
+
+在以下示例中，我们通过求值`y`（类概率）来创建预测类：
+
+```py
+pred = np.argmax(y.eval(feed_dict={x: 
+     test.reshape([-1,1296]), y_: onehot_test}), axis = 1)
+conf = np.zeros([5,5])
+for p,t in zip(pred,np.argmax(onehot_test,axis=1)):
+    conf[t,p] += 1
+
+plt.matshow(conf)
+plt.colorbar()
+```
+
+`np.argmax`函数提取概率最大的位置。 同样，为了确定实际的类别，我们使用`np.argmax`撤消一次热编码。 创建混乱矩阵始于全零数组，然后逐步遍历所有填充的测试数据。Matplotlib 让我们看一下彩色图像，但打印与会者的效果几乎相同：
+
+![Single hidden layer explained](img/00032.jpg)
+
+在前面的输出中，我们看到模型通常做得不错，只是它很少预测类`2`。 由于初始的随机性，您的确切结果可能看起来有些不同。
+
+## 了解模型的权重
+
+正如我们查看逻辑回归模型的权重一样，我们可以监视此模型的权重：
+
+```py
+plt.figure(figsize=(6, 6))
+f, plts = plt.subplots(4,8, sharex=True)
+for i in range(32):
+    plts[i//8, i%8].pcolormesh(W1.eval()[:,i].reshape([36,36]))
+```
+
+但是，现在我们有 128 个神经元，每个神经元的权重都来自输入像素，权重为`36x36`。 让我们看看其中的一些，以了解他们的发现。 同样，如果您没有 Matplotlib，则可以简单地打印出数组以查看相同的行为。 在这里，我们将研究 128 个神经元中的 32 个。 因此，让我们将子图的格式设置为四行八列。 现在，我们逐步求值每个神经元的权重，并将其重塑为图像大小。 双斜杠（`//`）使用整数除法将图像放入适当的行，而百分号（`%`）使用余数（实际上是模块化算术）来选择列。
+
+![Understanding weights of the model](img/00033.jpg)
+
+视觉上，在前面的输出中，您可以看到一些形状突出。 与它们的权重模式相比，某些神经元或多或少具有圆形形状。 其他人看起来很随意，但可能会选择我们不容易理解的特征。 我们也可以尝试可视化输出层的权重，但是这些不再直观。 我们称其为神经网络。 现在，输出逻辑回归是 128 个输入值，以及用于计算 5 个分数的权重。 不再有图像结构，因为每个像素都进入了隐藏层的每个神经元。 现在您知道了如何评估和解释神经网络结果。 做得好！
+
+# 多隐藏层模型
+
+在本节中，我们将向您展示如何使用其他隐藏层构建更复杂的模型。 我们将单层隐藏模型改编为称为深度神经网络的多层模型。 然后，我们将讨论选择要使用的神经元和层数。 最后，我们将耐心地训练模型本身，因为这可能需要一段时间才能计算出来。
+
+还记得我们向逻辑回归模型添加神经元的隐藏层吗？ 好了，我们可以再做一次，在我们的单个隐藏层模型中添加另一层。 一旦您拥有一层以上的神经元，我们就将其称为深度神经网络。 但是，您以前所学的一切都可以立即应用。 与本章前面的部分一样，您应该进行一个全新的 Python 会话并执行本部分代码文件中直到`num_hidden1`的代码。 然后，乐趣开始了。
+
+![The multiple hidden layer model](img/00034.jpg)
+
+## 探索多隐藏层模型
+
+首先，将旧的`num_hidden`更改为`num_hidden1`，以指示第一个隐藏层上的神经元数量：
+
+```py
+# Hidden layer 1
+num_hidden1 = 128
+```
+
+确保更改变量，同时定义权重和偏差变量。 现在，我们将插入第二个隐藏层：
+
+```py
+W1 = tf.Variable(tf.truncated_normal([1296,num_hidden1],
+                               stddev=1./math.sqrt(1296)))
+b1 = tf.Variable(tf.constant(0.1,shape=[num_hidden1]))
+h1 = tf.sigmoid(tf.matmul(x,W1) + b1)
+```
+
+这次使用带有`32`神经元的神经元。 请注意，权重的形状必须如何解释来自上一层的 128 个中间输出中的每一个进入当前层的 32 个输入或神经元，但是我们初始化权重和偏差的方式基本上相同：
+
+```py
+# Hidden Layer 2
+num_hidden2 = 32
+W2 = tf.Variable(tf.truncated_normal([num_hidden1,
+            num_hidden2],stddev=2./math.sqrt(num_hidden1)))
+b2 = tf.Variable(tf.constant(0.2,shape=[num_hidden2]))
+h2 = tf.sigmoid(tf.matmul(h1,W2) + b2)
+```
+
+如您在前面的代码中所见，我们像以前一样使用`sigmoid`函数创建`h2`输出，并使用矩阵乘法，加法和函数调用。
+
+对于输出逻辑回归层，我们只需要更新变量名称：
+
+```py
+# Output Layer
+W3 = tf.Variable(tf.truncated_normal([num_hidden2, 5],
+                                   stddev=1./math.sqrt(5)))
+b3 = tf.Variable(tf.constant(0.1,shape=[5]))
+```
+
+现在这是第三组权重，当然，此形状必须与前面的隐藏层的输出匹配，因此`32 x 5`：
+
+![Exploring the multiple hidden layer model](img/00035.jpg)
+
+不要忘记使用`h2`，`W3`和`b3`变量更新`y`模型函数。 您不想只使用旧模型就更新所有代码。
+
+您可能想知道我们如何决定第一层的 128 个神经元和第二层的 32 个神经元。 事实是，为网络确定合适的尺寸和形状可能是一个具有挑战性的问题。 尽管计算可能会很昂贵，但是反复试验是开发模型的一种方法。 通常，您可能会从旧模型开始并从那里开始工作。 在这里，我们从 128 个神经元的单个隐藏层开始，然后尝试在其下添加一个新层。 我们要计算一些特征以区分五类，因此在选择神经元数量时应牢记这一点。
+
+通常，最好从小处着手，逐步发展到解释数据的最小模型。 如果在顶层具有 128 个神经元而在下一层具有 8 个神经元的模型的效果较差，则可能表明我们需要为最后一层提供更多特征，并应添加更多而不是更少的神经元。
+
+尝试将最后一层中的神经元数量加倍，当然，最好回到较早的层并调整那里的神经元数量。 同样，您可以更改优化器的学习率，从而改变每一步调整权重的程度，甚至更改用于优化的函数。
+
+### 注意
+
+设置所有这些值称为超参数优化，这是机器学习研究中的热门话题。
+
+请注意，我们实际上是从最简单的模型，逻辑回归开始，然后慢慢添加新的功能和结构。 如果一个简单的模型运行良好，那么甚至没有必要花时间在更高级的东西上。
+
+现在已经指定了我们的模型，让我们实际进行训练：
+
+```py
+# Climb on cross-entropy
+cross_entropy = tf.reduce_mean(
+     tf.nn.softmax_cross_entropy_with_logits(logits= y + 1e-50, labels= y_))
+
+# How we train
+train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
+
+# Define accuracy
+correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
+accuracy=tf.reduce_mean(tf.cast(correct_prediction, "float"))
+```
+
+同样，我们需要在 T​​ensorFlow 图中重新定义我们的训练节点，但是这些与以前完全相同。 请注意，由于我们的第一个隐藏层现在挂接到神经元的另一层，因此我们需要计算更多的权重。 以下是实际的训练代码：
+
+```py
+epochs = 25000
+train_acc = np.zeros(epochs//10)
+test_acc = np.zeros(epochs//10)
+for i in tqdm(range(epochs)):
+    # Record summary data, and the accuracy
+    if i % 10 == 0:
+        # Check accuracy on train set
+        A = accuracy.eval(feed_dict={
+            x: train.reshape([-1,1296]),
+            y_: onehot_train})
+        train_acc[i//10] = A
+        # And now the validation set
+        A = accuracy.eval(feed_dict={
+            x: test.reshape([-1,1296]),
+            y_: onehot_test})
+        test_acc[i//10] = A
+    train_step.run(feed_dict={
+        x: train.reshape([-1,1296]),
+        y_: onehot_train})
+```
+
+以前，我们有 128 乘以 5 的权重，但是现在我们有 128 乘以 32 的权重-这是该层的六倍，这是从像素到神经元第一层的初始权重之上。 深度神经网络的一个缺点是它们可能需要一段时间才能训练。 在这里，我们将运行`25000`个周期，以确保权重收敛：
+
+![Exploring the multiple hidden layer model](img/00036.jpg)
+
+这可能需要一个小时或更长时间，具体取决于您的计算机和 GPU。 尽管这看起来似乎过多，但专业的机器学习研究人员通常会训练模型长达两个星期。 您可能会学得很快，但是计算机需要一些时间。
+
+在本节中，我们使用 TensorFlow 构建并训练了一个真正的深度神经网络。 许多专业的机器学习模型没有您已经编写的复杂。
+
+# 多隐藏层的结果
+
+现在，我们将研究深度神经网络内部的情况。 首先，我们将验证模型的准确率。 然后，我们将可视化并研究像素权重。 最后，我们还将查看输出权重。
+
+训练完您的深度神经网络后，让我们看一下模型的准确率。 我们将以与单隐藏层模型相同的方式进行操作。 这次的唯一区别是，从更多的周期开始，我们保存了更多的训练和测试准确率样本。
+
+和往常一样，如果您没有 Matplotlib，请不要担心。 打印数组的一部分很好。
+
+## 了解多隐藏层的图
+
+执行以下代码以查看结果：
+
+```py
+# Plot the accuracy curves
+plt.figure(figsize=(6,6))
+plt.plot(train_acc,'bo')
+plt.plot(test_acc,'rx')
+```
+
+![Understanding the multiple hidden layers graph](img/00037.jpg)
+
+从前面的输出图中，我们可以达到约 68% 的训练精度，也许还有 63% 的验证精度。 这还不错，但是确实留出了一些改进的空间。
+
+让我们花点时间看一下准确率在许多周期如何增长。 当然，它起步非常糟糕，并且存在一些最初的麻烦，但是权重是随机的，并且在那个时候仍在学习，并且在最初的数千个周期中它很快得到了改善。 虽然可能会暂时卡在局部最大值中，但通常会爬出并最终减慢其重音。 请注意，它仍然可以很好地进入训练阶段。 只是到了尽头，模型才可能达到其最大容量。 根据随机初始化，您的曲线可能看起来有些不同，但这没关系； 这是您的模型，非常好。
+
+要查看我们的模型在哪里出现问题，让我们看一下混淆矩阵：
+
+```py
+pred = np.argmax(y.eval(feed_dict={x:
+    test.reshape([-1,1296]), y_: onehot_test}), axis = 1)
+conf = np.zeros([5,5])
+for p,t in zip(pred,np.argmax(onehot_test,axis=1)):
+    conf[t,p] += 1
+
+plt.matshow(conf)
+plt.colorbar()
+```
+
+同样，这与我们用于单个隐藏层模型的过程完全相同，只是在更高级的方面：
+
+![Understanding the multiple hidden layers graph](img/00038.jpg)
+
+对此进行绘图，就像在前面的输出中一样，我们看到该模型总体上运行良好，但是仍然难以识别其中一个类，这次是`1`。 我们正在逐步取得进展。 验证准确率之后，让我们检查一下我们的第一层神经元，即 128 个人，发现了什么样的现象：
+
+```py
+# Let's look at a subplot of some weights
+f, plts = plt.subplots(4,8, sharex=True)
+for i in range(32):
+    plts[i//8, i%8].matshow(W1.eval()[:,i].reshape([36,36]))
+```
+
+为了简单起见，我们仅查看前 32 个此类神经元。 使用与先前模型相同的代码，可以轻松地使用 Matplotlib 进行绘制或打印出来：
+
+![Understanding the multiple hidden layers graph](img/00039.jpg)
+
+毫不奇怪，我们看到了许多与先前模型相同的函数。 尽管在这里，由于随机初始化，即使它们看起来像是同一类型的特征，它们也会位于不同的位置。 同样，您有一些环形神经元，具有非常条纹状特征的神经元，以及具有宽条纹状特征的另一个神经元。 就我们的神经网络而言，圆形和条纹形状是确定字体类别的良好成分。
+
+尽管我们其他隐藏层中的权重不再具有图像的结构，但查看输出的权重可能会很有帮助。 这将告诉我们每个最终神经元对每个类别的贡献。 我们可以将其绘制为热力图，或使用`W3.eval`任意方式打印单个数组：
+
+```py
+# Examine the output weights
+plt.matshow(W3.eval())
+plt.colorbar()
+```
+
+因为我们仔细指定了`W3`，所以每一行将代表一个神经元，每一列将代表一个类：
+
+![Understanding the multiple hidden layers graph](img/00040.jpg)
+
+从前面的输出图中我们可以看到，不同的神经元对某些类别的贡献要大于其他类别，这表明神经元正在计算的某些总体非线性特征与该特定字体类别有关。 也就是说，虽然这些神经元产生的值用于计算每种字体的分数，但非常重要且权重较大的一种字体的神经元可能与另一种字体几乎无关。 例如，对于`2`类，`N1`神经元的权重非常大，而对于所有其他类别，`N1`神经元的权重几乎为零。 该神经元具有什么计算特征，对于`2`类而言非常重要，但对于其他类别而言则没有那么重要。
+
+# 总结
+
+在本章中，我们使用 TensorFlow 进行了深度学习。 尽管我们从一个神经元隐藏层的简单模型开始，但是并不需要花很长时间就可以开发和训练用于字体分类问题的深度神经网络。
+
+您了解了单层和多层隐藏层模型，并对其进行了详细了解。 您还将了解神经网络的不同类型，并使用 TensorFlow 构建和训练了我们的第一个神经网络。
+
+在下一章中，我们将使用卷积神经网络（一种用于图像分类的强大工具）来证明我们的模型。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch03.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch03.md
new file mode 100644
index 00000000..db1ee001
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch03.md
@@ -0,0 +1,703 @@
+# 三、卷积神经网络
+
+在上一章中，我们探讨了深度神经网络，该神经网络需要更多的参数才能拟合。 本章将指导您完成深度学习中最强大的开发之一，并让我们使用有关问题空间的一些知识来改进模型。 首先，我们将解释一个神经网络中的卷积层，然后是一个 TensorFlow 示例。 然后，我们将对池化层执行相同的操作。 最后，我们将字体分类模型改编为卷积神经网络（CNN），然后看看它是如何工作的。
+
+在本章中，我们将介绍卷积神经网络的背景。 我们还将在 TensorFlow 中实现卷积层。 我们将学习最大池化层并将其付诸实践，并以单个池化层为例。
+
+在本章的最后，您将对以下概念有很好的控制：
+
+*   卷积层动机
+*   卷积层应用
+*   池化层动机
+*   池化层应用
+*   深度 CNN
+*   更深的 CNN
+*   深层 CNN 总结
+
+现在让我们进入卷积层。
+
+# 卷积层动机
+
+在本节中，我们将逐步使用示例图像上的卷积层。 我们将以图形方式看到卷积只是一个滑动窗口。 此外，我们将学习如何从窗口中提取多个特征以及如何接受到窗口的多层输入。
+
+在给定神经元的神经网络的经典密集层中，每个输入特征都具有自己的权重。
+
+![Convolutional layer motivation](img/00041.jpg)
+
+如果输入特征完全独立并测量不同的事物，那么这很好，但是如果特征之间存在结构，那该怎么办。 想象发生这种情况的最简单示例是，如果您的输入特征是图像中的像素。 一些像素彼此相邻，而其他像素则相距较远。
+
+对于诸如图像分类（尤其是字体分类）之类的任务，图像中出现小比例尺特征通常并不重要。 我们可以通过在整个图像中滑动较小的窗口来在较大的图像中查找小比例尺特征，这对于使用相同的权重矩阵至关重要，无论该窗口在图像中的位置如何。 这样，我们可以随时随地寻找相同的特征。
+
+假设我们有一个`10x10`的图像，并且想在其中滑动`3x3`的窗口。 通常，机器学习工程师每次只能将此窗口滑动一个像素。 这称为跨步，因此从一个窗口到下一个窗口会有一些重叠。 然后逐个元素地将我们小的`3x3`权重矩阵`W1`乘到我们的窗口`H1[00]`中，对结果求和，并通过称为`F`的激活函数进行处理。
+
+![Convolutional layer motivation](img/00042.jpg)
+
+第一个窗口`W1`进入新矩阵的第一个位置，如右图`H2`所示。 窗口以相同的权重滑过一个，但结果占据第二个位置。 请注意，我们实际上是使用左上像素作为存储结果的参考点。 在整个输入图像上滑动窗口以生成卷积输出。 下图中的点只是提醒您，您将在整个空间中滑动此窗口，而不仅是图中所示的两个位置：
+
+![Convolutional layer motivation](img/00043.jpg)
+
+您可能想知道当窗口到达图像边缘时会发生什么。 选择实际上是在忽略超出边缘的窗口和使用占位符值填充窗口之间。 对于卷积层，通常的选择是经常用零或平均值填充它们。 由于卷积的输出形状保持不变，因此在 Tensorflow 中被称为相同的填充。
+
+![Convolutional layer motivation](img/00044.jpg)
+
+请注意，在最后一个窗口中，这实际上只是看一个值。 但是该像素还参与了许多其他位置，因此不要觉得它被排除在外了。
+
+![Convolutional layer motivation](img/00045.jpg)
+
+## 提取多个特征
+
+上一节介绍了滑动窗口的一组权重。 这实际上使您可以计算滑动特征。 但是您可能想要在同一窗口中查找多个对象，例如垂直或水平边缘。
+
+要提取多个特征，您只需要将其他权重矩阵初始化为不同的值即可。 这些多组权重类似于其他神经元和紧密连接的层。 中心的每个权重矩阵`W1`（蓝色）和`W2`（绿色）将为您提供另一个输出矩阵，如下图所示，它们分别为`H2[1]`（粉红色）和`H2[0]`（橙色）。 正确的。
+
+![Multiple features extracted](img/00046.jpg)
+
+正如您可以从卷积中提取多个特征一样，也可以将多个特征放入这样的网络中。 最明显的例子是具有多种颜色的图像。
+
+![Multiple features extracted](img/00047.jpg)
+
+现在，观察上图中所示的矩阵。 您确实有一个红色值的矩阵，一个绿色值的矩阵和一个蓝色值的矩阵。 现在，您的权重矩阵实际上是大小为`3x3x3`的权重张量，并且在所有颜色上的窗口大小均相同。 当然，您可以组合所有这些方法，并且通常在计算完窗口上的 32 个特征后，尤其是在第一个卷积层之后进行； 现在，您有许多用于下一层的输入通道。
+
+# 卷积层应用
+
+现在让我们在 TensorFlow 中实现一个简单的卷积层。 首先，我们将遍历此示例中使用的显式形状，因为这通常很棘手。 然后，我们将完成实现和卷积的 TensorFlow 调用。 最后，我们将通过传递一个简单的示例图像直观地检查卷积的结果。
+
+## 探索卷积层
+
+让我们通过一个新的 IPython 会话直接进入代码。
+
+![Exploring the convolution layer](img/00048.jpg)
+
+这只是一个小例子，可以帮助我们熟悉将 TensorFlow 用于卷积层。
+
+导入必要的工具后，让我们制作一个假的`10x10`图像，但对角线的值较大：
+
+```py
+# Make some fake data, 1 data points
+image = np.random.randint(10,size=[1,10,10]) + np.eye(10)*10
+```
+
+请注意前面代码中指定的异常大小。 `10, 10`只是图像尺寸，但是`1`是指输入通道的数量。 在这种情况下，我们使用一个输入通道，就像一个灰度图像。 如果您有彩色图像，则这可能是代表红色，绿色和蓝色的三个通道。
+
+尽管此处的示例和研究问题只有一个通道（灰度级），但我们将在深度 CNN 部分中看到如何从卷积层产生多个输入，从而在下一个卷积层中产生多通道输入。 因此，您仍然会感觉如何处理。
+
+向下移动到 TensorFlow 占位符，我们还做了一些看似不寻常的事情。
+
+```py
+x = tf.placeholder("float", [None, 10, 10])
+x_im = tf.reshape(x, [-1,10,10,1])
+```
+
+在用`10, 10`和`None`自然地写入了占位符变量以用于可能的许多图像批量之后，我们将其称为`tf.reshape`。 这是为了重新排列图像的尺寸，并使它们具有 TensorFlow 期望的形状。 `-1`只是意味着根据需要填写尺寸以保持整体尺寸。 `10,10`当然是我们的图像尺寸，最后的`1`现在是通道数。 同样，如果您有一个带有三个通道的彩色图像，则为三个。
+
+对于我们的卷积层示例，我们希望查看图像的三个像素高和三个像素宽的窗口。 因此，我们指定了以下代码所示的内容：
+
+```py
+# Window size to use, 3x3 here
+winx = 3
+winy = 3
+```
+
+另外，让我们从每个窗口中提取两个特征，这就是我们的过滤器数量：
+
+```py
+# How many features to compute on the window
+num_filters = 2
+```
+
+您可能还会看到称为内核数量的信息。
+
+指定权重是使事情真正有趣的地方，但是一旦您知道语法，这并不难。
+
+```py
+W1 = tf.Variable(tf.truncated_normal(
+    [winx, winy,1, num_filters],
+    stddev=1./math.sqrt(winx*winy)))
+```
+
+我们正在像以前一样使用`tf.truncated_normal`来生成随机权重。 但是大小非常特殊。 属性`winx`和`winy`当然是我们窗口的尺寸，`1`这里是输入通道的数量，因此只是灰度，而最终尺寸（`num_filters`）是输出尺寸，过滤器的数量。
+
+同样，这类似于密集连接层的神经元数量。 对于随机性的标准差，我们仍然可以缩放到参数数量，但是请注意，每个权重都有一个参数，因此`win x*win y`。
+
+当然，每个输出神经元的偏差都需要一个变量，因此每个滤波器需要一个变量：
+
+```py
+b1 = tf.Variable(tf.constant(
+    0.1,shape=[num_filters]))
+```
+
+`tf.nn.conv2d`函数实际上是此处操作的核心。 我们首先传递调整后的输入`x_im`，然后传递应用于每个窗口的权重，然后传递`strides`参数。
+
+### 注意
+
+`strides`参数告诉 TensorFlow 每一步移动窗口多少。
+
+卷积层的典型用法是向右移动一个像素，完成一行后，向下移动一个像素。 因此有很多重叠之处。 如果要向右移动两个像素，向下移动两个像素； 但是，您可以输入`strides=[1,2,2,1]`。 最后一个数字用于在通道上移动，第一个数字用于在一批中移动单独的图像。 将这些设置为`1`是最常见的方法。
+
+```py
+xw = tf.nn.conv2d(x_im, W1,
+        strides=[1, 1, 1, 1],
+        padding='SAME')
+```
+
+`padding='SAME'`与上一节完全相同。 这意味着即使部分滑动窗口超出了输入图像的范围，滑动窗口也会运行。 结合跨度为 1 的步长，这意味着卷积输出尺寸将与输入相同，当然不计算通道或滤波器的数量。
+
+最后，我们要通过激活函数传递此卷积输出：
+
+```py
+h1 = tf.nn.relu(xw + b1)
+```
+
+在这里，我们使用`relu`函数，它代表整流线性。 基本上，这仅意味着将任何负输入设置为零，而将正输入保持不变。 您会看到这种激活常与卷积神经网络一起使用。 因此，熟悉它是一件好事。 由于我们已经乘以`W1`权重，因此我们只需要在此处添加偏置项即可产生卷积层输出。
+
+在 TensorFlow 中初始化变量：
+
+```py
+# Remember to initialize!
+sess.run(tf.global_variables_initializer())
+```
+
+现在，您有了一个有效的卷积。 太好了！ 让我们快速看一下我们劳动成果。
+
+首先，我们需要求值`h1`节点，并将示例图像作为数据传递：
+
+```py
+# Peek inside
+H = h1.eval(feed_dict = {x: image})
+```
+
+因此，我们知道从哪里开始，让我们使用以下代码查看示例图像：
+
+```py
+# Let's take a look
+import matplotlib.pyplot as plt
+plt.ion()
+
+# Original
+plt.matshow(image[0])
+plt.colorbar()
+```
+
+前面代码中的`0`只是因为奇怪的整形，实际上并没有多个数据点。 您可以看到对角线上的值大于其他值，这与纯随机的区别在于：
+
+![Exploring the convolution layer](img/00049.jpg)
+
+让我们看一下第一个输出特征，回想一下输出`H`的形状为`1,10,10,2`，因为有`1`数据点，`10`像素的宽度和高度以及`2`特征。 因此，要抓住第一个，我们需要所有像素和零个带过滤器。 好吧，那很有趣。
+
+```py
+# Conv channel 1
+plt.matshow(H[0,:,:,0])
+plt.colorbar()
+```
+
+请注意清零了多少个头寸：
+
+![Exploring the convolution layer](img/00050.jpg)
+
+这是`relu`激活的纠正部分。 整齐。 第二个特征应该看起来相似，直到随机初始化为止。 这些权重尚未经过任何训练，因此我们不应该期望它们产生有意义的输出。 在这里，我们看到碰巧有很多零，否则，有很多小值。
+
+![Exploring the convolution layer](img/00051.jpg)
+
+您的图像看起来或多或少会有所不同，需要注意的重要一点是，我们的输出尺寸相同，但是就像我们对同一图像有两个不同的视图一样。 在本部分中，我们在 TensorFlow 中创建了我们的第一个卷积层，以掌握所需的奇数形状。
+
+# 池化层动机
+
+现在，让我们了解池化层的共同合作伙伴。 在本节中，我们将学习与卷积层相似的最大池化层，尽管它们在通用用法上有所不同。 最后，我们将展示如何组合这些层以获得最大效果。
+
+## 最大池化层
+
+假设您使用了卷积层从图像中提取特征，并假设，您有一个小的权重矩阵，可以检测图像窗口中的狗形。
+
+![Max pooling layers](img/00052.jpg)
+
+当您围绕输出进行卷积时，可能会报告许多附近呈狗形的区域。 但这实际上只是由于重叠。 尽管可能只有小狗的形象，但彼此之间可能并没有多少只狗。 您真的只希望一次看到该特征，最好是在特征最强大的位置。 最大池化层尝试执行此操作。 像卷积层一样，池化层在图像的小滑动窗口上工作。
+
+![Max pooling layers](img/00053.jpg)
+
+通常，研究人员在一个或多个卷积层之后添加一个池化层。 您最常看到的窗口大小是`2x2`。 您要做的只是提取四个相邻的值，此处指的是`H[00]`，通常不会对其施加任何权重。 现在，我们希望以某种方式组合这四个值，以提取此窗口最有趣的特征。 通常，我们要提取最引人注目的特征，因此我们选择最大值（`max(H[00])`）的像素，然后丢弃其余像素。 但是，您也可以平均结果或做一些更奇特的事情。 同样，尽管我们的卷积窗口有很多重叠，但对于合并窗口，我们通常不希望有任何重叠，因此此步长将等于窗口大小 2。
+
+在前面的`10x10`示例输出中，由于步幅的变化，我们的池化输出仅为`5x5`。
+
+![Max pooling layers](img/00054.jpg)
+
+与卷积层的另一个主要区别是，池化层通常使用不同的填充方案，而卷积层乐于使用相同的填充并以零填充，我们最常使用具有有效填充的池化层。 这意味着，如果窗口超出图像的范围，则将其丢弃。
+
+![Max pooling layers](img/00055.jpg)
+
+这确实会丢失一些边缘信息，但要确保输出不会因填充值而产生偏差。
+
+### 注意
+
+请注意，此示例对池化层使用`9x9`输入，但由于有效的填充和跨度为 2，因此输出仅为`4x4`。 `8x8`输入也将具有`4x4`输出。
+
+当您将卷积层和池化层组合在一起时，它们的真正优势就体现出来了。 通常，您会在模型的顶部输入端看到一个卷积层，也许带有`3x3`窗口。
+
+![Max pooling layers](img/00056.jpg)
+
+这会在图像中的任何位置寻找相同的特征集。
+
+然后立即出现一个`2x2`的最大池化层，仅池出最具特征的区域并缩小尺寸。 您也可以重复此过程。
+
+合并后，您现在实际上具有较小的图像`P1`，但是具有像素强度，而不是像素颜色强度。 因此，您可以创建另一个卷积层以读取第一个池的输出，即底部出现的`P1`，然后可以对此应用另一个最大池化层。 请注意，由于池化，图像大小是如何逐渐缩小的。 直观地，您可以将其视为建立跨越图像较大区域的较大比例的特征。
+
+早期的卷积权重经常训练以检测简单的边缘，而连续的卷积层将这些边缘组合成逐渐更复杂的形状，例如人脸，汽车甚至狗。
+
+# 池化层应用
+
+在本节中，我们将研究用于最大池化的 TensorFlow 函数，然后我们将讨论从池化层过渡到完全连接层的过程。 最后，我们将目视观察池输出以验证其减小的大小。
+
+让我们从上一节中停下来的示例开始。 在开始本练习之前，请确保您已执行所有操作直到英镑池化层。
+
+回想一下，我们通过`3x3`卷积和校正的线性激活来放置`10x10`图像。 现在，让我们在卷积层之后添加一个最大`2x2`的池化层。
+
+```py
+p1 = tf.nn.max_pool(h1, ksize=[1, 2, 2, 1],
+          strides=[1, 2, 2, 1], padding='VALID')
+```
+
+关键是`tf.nn.max_pool`。 第一个参数只是我们先前的卷积层`h1`的输出。 接下来，我们有一个奇怪的`ksize`。 这实际上只是定义了池的窗口大小。 在这种情况下，为`2x2`。 第一个`1`指的是一次或批量多少个数据点。 通常，我们将其保留为`1`。 最后的`1`指的是一次包含在合并中的通道数。 请注意，这里有两个通道，因为卷积产生了两个输出滤波器。 但是我们只有`1`在这个位置； 这是一次最多只有一个特征的唯一故障。 步幅的工作方式与卷积层相同。 此处的区别在于我们使用`2x2`（即合并窗口的大小），因为我们不希望有任何重叠。 `1`之前和之后的值与卷积层中的值完全相同。
+
+因此，我们的输出将是每个尺寸的一半，这里是`5x5`。 最后，我们将`padding`设置为`VALID`。 这意味着，如果一个窗口超出了图像的边缘（实际上是卷积输出），我们将把它扔掉而不使用它。 如果我们的池化层进入另一个卷积层，则可以在以下代码行中添加它：
+
+```py
+# We automatically determine the size
+p1_size = np.product([s.value for s in p1.get_shape()[1:]])
+```
+
+但是，如果您已经完成了卷积层的工作，并且想要像上一节中的模型那样馈入经典的完全连接层，该怎么办？ 这很容易做到； 我们只需要将具有许多输出通道的 2D 矩阵的输出展平到长的一维向量即可。
+
+该行是自动计算展平池输出长度的一种方法。 它所做的就是乘以所有尺寸的大小。 因此，具有两个通道的`5x5`矩阵将产生`5x5x2`，即`50`输出。 下一行`tf.reshape`使用此值实际展平数组：
+
+```py
+p1f = tf.reshape(p1, [-1, p1_size ])
+```
+
+前面的代码行中的`-1`用于一次处理许多输入图像的潜在批量。 它告诉 TensorFlow 选择第一个维度，以便参数的总数保持不变。 让我们看一下池化层的输出，以便可以看到一个具体示例：
+
+```py
+P = p1.eval(feed_dict = {x: image})
+```
+
+首先，我们必须根据给定输入图像来实际求值池输出。
+
+由于池化层取决于卷积层，因此 TensorFlow 会自动将图像首先放置在其中。 我们可以以与卷积输出完全相同的方式查看结果。
+
+![Pooling layer application](img/00057.jpg)
+
+仅查看前面的第一个过滤器输出，您会注意到它是`5x5`。
+
+还要注意，存在的值全部在卷积输出的某些单元中。 由于我们在池化层上的唯一激活是最大值，因此在每个`2x2`窗口中会丢弃三个值，并且一个值会前进到下一层。
+
+# 深度 CNN
+
+现在，在本节中，让我们着重考虑。 在本节中，我们将向我们的字体分类模型添加卷积和池化层组合。 我们将确保将其填充到一个密集层中，然后我们将看到此模型的工作方式。 在进入新的卷积模型之前，请确保开始一个新的 IPython 会话。 执行所有操作，直到`num_filters = 4`，您就可以准备就绪。
+
+## 添加卷积和池化层组合
+
+对于卷积层，我们将使用`5x5`窗口，其中提取了四个特征。 这比示例要大一些。
+
+我们真的希望模型现在学习一些东西。 首先，我们应该使用`tf.reshape`将`36x36`的图像放入大小为`36x36x1`的张量中。
+
+```py
+x_im = tf.reshape(x, [-1,36,36,1])
+```
+
+这仅对于保持通道数笔直很重要。 现在，我们将如上所述为过滤器和窗口的数量设置常量：
+
+```py
+num_filters = 4
+winx = 5
+winy = 5
+```
+
+我们可以像示例问题中那样设置权重张量：
+
+```py
+W1 = tf.Variable(tf.truncated_normal(
+    [winx, winy, 1 , num_filters],
+    stddev=1./math.sqrt(winx*winy)))
+```
+
+`winx`和`winy`常数只是窗口尺寸。 `1`值是输入通道数，仅是灰色，`num_filters`是我们要提取的特征数。 同样，这就像密集层中神经元的数量。 偏差的工作方式相同，但只担心过滤器的数量：
+
+```py
+b1 = tf.Variable(tf.constant(0.1,
+                shape=[num_filters]))
+```
+
+对`conv2d`本身的调用也与我们的示例相同。
+
+```py
+xw = tf.nn.conv2d(x_im, W1,
+                  strides=[1, 1, 1, 1],
+                  padding='SAME')
+```
+
+好东西，我们在那里推广了它，现在使生活变得轻松。 以下是上述代码行的描述：
+
+*   `x_im`是要转换的输入
+*   `W1`属性是我们刚刚指定的权重矩阵
+*   `strides`告诉 TensorFlow 每一步将窗口移动一次
+*   `padding='SAME'`表示接受图像边缘上的窗口
+
+现在，我们可以通过`relu`激活函数进行卷积，以完成卷积层。 做得好！
+
+```py
+h1 = tf.nn.relu(xw + b1)
+```
+
+池化层也与上一节完全相同：
+
+```py
+# 2x2 Max pooling, no padding on edges
+p1 = tf.nn.max_pool(h1, ksize=[1, 2, 2, 1],
+        strides=[1, 2, 2, 1], padding='VALID')
+```
+
+只是为了回顾一下，我们在每次跨步时将`2x2`窗口`ksize`在卷积输出上滑动两个。 当我们超出数据范围时，`padding='VALID'`告诉我们停止。 现在我们有了卷积池和池化层的组合，让我们附加一个典型的密集连接层：
+
+```py
+p1_size = np.product(
+          [s.value for s in p1.get_shape()[1:]])
+p1f = tf.reshape(p1, [-1, p1_size ])
+```
+
+首先，我们需要将合​​并输出调整为一维向量。 这正是我们在上一节中所做的。 我们自动计算池输出的尺寸，以获取用于展平的参数数量。
+
+## CNN 字体分类
+
+现在让我们创建一个包含 32 个神经元的密集连接层：
+
+```py
+# Dense layer
+num_hidden = 32
+W2 = tf.Variable(tf.truncated_normal(
+     [p1_size, num_hidden],
+     stddev=2./math.sqrt(p1_size)))
+b2 = tf.Variable(tf.constant(0.2,
+     shape=[num_hidden]))
+h2 = tf.nn.relu(tf.matmul(p1f,W2) + b2)
+```
+
+当然，我们需要使用`p1_size`该层的输入数量来初始化权重矩阵。 那只是卷积和池输出中的扁平数组。 我们需要`num_hidden` 32 个输出。 有偏项对一些小的非零初始值以相同的方式工作。 在这里，我们碰巧也在使用`relu`激活。
+
+最后，我们像往常一样定义输出逻辑回归：
+
+```py
+# Output Layer
+W3 = tf.Variable(tf.truncated_normal(
+     [num_hidden, 5],
+     stddev=1./math.sqrt(num_hidden)))
+b3 = tf.Variable(tf.constant(0.1,shape=[5]))
+
+keep_prob = tf.placeholder("float")
+h2_drop = tf.nn.dropout(h2, keep_prob)
+```
+
+使用旧模型工作，只需确保最终权重使用`num_hidden, 5`作为尺寸即可。 我们在这里有一个名为`dropout`的新元素。 现在不用担心。 我们将在下一部分中确切描述它的作用。 只知道它有助于过拟合。
+
+现在，您可以初始化所有变量并实现对`softmax`的最终调用：
+
+```py
+# Just initialize
+sess.run(tf.global_variables_initializer())
+
+# Define model
+y = tf.nn.softmax(tf.matmul(h2_drop,W3) + b3)
+```
+
+请注意您的变量名正确匹配。 好的，现在完成设置，让我们对其进行训练：
+
+```py
+# Climb on cross-entropy
+cross_entropy = tf.reduce_mean(
+        tf.nn.softmax_cross_entropy_with_logits(
+        logits = y + 1e-50, labels = y_))
+
+# How we train
+train_step = tf.train.GradientDescentOptimizer(
+             0.01).minimize(cross_entropy)
+
+# Define accuracy
+correct_prediction = tf.equal(tf.argmax(y,1),
+                              tf.argmax(y_,1))
+accuracy = tf.reduce_mean(tf.cast(
+           correct_prediction, "float"))
+```
+
+实际上，我们训练模型的方式与之前的模型完全相同。 `cross_entropy`节点测量我们的预测有多少误差，`GradientDescentOptimizer`调整矩阵的权重。 我们还应谨慎定义节点以提高准确率，以便以后进行测量。 现在让我们训练模型约 5,000 次：
+
+```py
+# Actually train
+epochs = 5000
+train_acc = np.zeros(epochs//10)
+test_acc = np.zeros(epochs//10)
+for i in tqdm(range(epochs), ascii=True):
+    # Record summary data, and the accuracy
+    if i % 10 == 0:  
+        # Check accuracy on train set
+        A = accuracy.eval(feed_dict={x: train,
+            y_: onehot_train, keep_prob: 1.0})
+        train_acc[i//10] = A
+        # And now the validation set
+        A = accuracy.eval(feed_dict={x: test,
+            y_: onehot_test, keep_prob: 1.0})
+        test_acc[i//10] = A
+    train_step.run(feed_dict={x: train,
+        y_: onehot_train, keep_prob: 0.5})
+```
+
+这可能需要一个小时或更长时间。 但是试想一下，如果您必须为卷积中的每个窗口训练不同的权重。 通过训练模型，让我们看一下精度曲线。
+
+![CNN to classify our fonts](img/00058.jpg)
+
+我们可以看到，该模型优于旧的紧密连接模型，现在达到了 76% 的训练准确率和约 68% 的验证。
+
+这可能是因为字体即使创建许多不同的字母也以相同的方式使用了许多小范围的特征。 让我们也看看混淆矩阵。
+
+![CNN to classify our fonts](img/00059.jpg)
+
+在这里，我们看到该模型仍不完美，但正在取得进展。 第一类仍然没有得到很好的代表，但是它至少在某种程度上是正确的，这与某些以前的模型从来都不是正确的不同。 其他类大多都不错。 第三类实际上是完美的。 这不是一个容易的问题，因此任何改进都是好的。 我们还设置了一些代码来专门检查权重，但是我们将在以后的部分中保存它。 不过，请随时与他们一起玩耍。 您可以将模型权重和信息保存在检查点文件中。
+
+```py
+# Save the weights
+saver = tf.train.Saver()
+saver.save(sess, "conv1.ckpt")
+
+# Restore
+saver.restore(sess, "conv1.ckpt")
+```
+
+这很简单。 您只需创建一个`saver`对象，然后将会话保存到文件名即可。 恢复同样容易。 您告诉 TensorFlow 哪个会话将已保存的文件放入和退出。 如果您更喜欢使用 NumPy 手动保存权重，则代码文件还提供以下函数：
+
+```py
+# Or use Numpy manually
+def save_all(name = 'conv1'):
+    np.savez_compressed(name, W1.eval(),
+            b1.eval(), W2.eval(), b2.eval(),
+            W3.eval(), b3.eval())
+
+save_all()
+
+def load_all(name = 'conv1.npz'):
+    data = np.load(name)
+    sess.run(W1.assign(data['arr_0']))
+    sess.run(b1.assign(data['arr_1']))
+    sess.run(W2.assign(data['arr_2']))
+    sess.run(b2.assign(data['arr_3']))
+    sess.run(W3.assign(data['arr_4']))
+    sess.run(b3.assign(data['arr_5']))
+
+load_all()
+```
+
+因为 NumPy 格式非常可移植且相当轻巧，所以这会更方便。 如果要将值导出到另一个 Python 脚本中，从而不需要 TensorFlow，则您可能更喜欢 NumPy。 在本节中，我们建立了卷积神经网络对字体进行分类。 一个类似的模型可以解决当前的研究问题。 您处于 TensorFlow 深度学习的最前沿。
+
+# 更深的 CNN
+
+在本节中，我们将向模型添加另一个卷积层。 不用担心，我们将逐步遍历参数以使尺寸调整一致，并且我们将学习什么是丢弃训练。
+
+## 将 CNN 的一层添加到另一层
+
+与往常一样，在启动新模型时，进行一个新的 IPython 会话并执行直到`num_filters1`的代码。 太好了，现在您都可以开始学习了。 让我们跳入卷积模型。
+
+我们为何不抱有雄心，将第一个卷积层设置为具有`16`过滤器，远远超过旧模型中的`4`。 但是，这次我们将使用较小的窗口大小。 只有`3x3`。 另请注意，我们将某些变量名称（例如`num_filters`更改为`num_filters1`）。 这是因为我们将在短时间内拥有另一个卷积层，并且我们可能希望在每个卷积层上使用不同数量的过滤器。 该层的其余部分与以前完全一样，我们可以进行卷积并进行`2x2`最大池化，并使用整流的线性激活单元。
+
+现在，我们添加另一个卷积层。 一些模型先进行几次卷积，然后再进行池化，另一些模型先进行一次卷积，再进行一次池化，再进行一次卷积，依此类推。 我们在这里做后者。 假设您需要四个滤镜和一个`3x3`的窗口。 这很容易产生权重； 与上一层的唯一大不同是我们现在有许多输入通道，请参见`num_filters1`：
+
+```py
+# Conv layer 2
+num_filters2 = 4
+winx2 = 3
+winy2 = 3
+W2 = tf.Variable(tf.truncated_normal(
+    [winx2, winy2, num_filters1, num_filters2],
+    stddev=1./math.sqrt(winx2*winy2)))
+b2 = tf.Variable(tf.constant(0.1,
+     shape=[num_filters2]))
+```
+
+这是因为我们有`16`输入通道来自上一层。 如果我们使用`num_filters1 = 8`，则只有`8`输入通道。 将此视为我们将要建立的低级特征。 请记住，通道的数量和输入就像颜色的数量一样，因此，如果您要这样考虑，可能会有所帮助。
+
+当我们进行实际的第二个卷积层时，请确保传入第一个池化层`p1`的输出。 现在，这可以进入新的`relu`激活函数，然后是另一个池化层。 像往常一样，我们使用有效填充进行最大`2x2`的池化：
+
+```py
+# 3x3 convolution, pad with zeros on edges
+p1w2 = tf.nn.conv2d(p1, W2,
+       strides=[1, 1, 1, 1], padding='SAME')
+h1 = tf.nn.relu(p1w2 + b2)
+# 2x2 Max pooling, no padding on edges
+p2 = tf.nn.max_pool(h1, ksize=[1, 2, 2, 1],
+     strides=[1, 2, 2, 1], padding='VALID')
+```
+
+展平卷积的池化输出也遵循与最后一个模型相同的过程。 但是，这次，我们当然致力于合并输出 2。 将其所有参数从窗口中的所有特征转换为一个大向量：
+
+```py
+# Need to flatten convolutional output
+p2_size = np.product(
+        [s.value for s in p2.get_shape()[1:]])
+p2f = tf.reshape(p2, [-1, p2_size ])
+```
+
+现在，就像在前面的部分中所做的那样，将密集连接的层插入到我们的神经网络中。 只要确保更新变量名即可。
+
+```py
+# Dense layer
+num_hidden = 32
+W3 = tf.Variable(tf.truncated_normal(
+     [p2_size, num_hidden],
+     stddev=2./math.sqrt(p2_size)))
+b3 = tf.Variable(tf.constant(0.2,
+     shape=[num_hidden]))
+h3 = tf.nn.relu(tf.matmul(p2f,W3) + b3)
+```
+
+现在，我们看到了与我们使用的相同的`tf.nn.dropout`，但在上一个模型中没有解释：
+
+```py
+# Drop out training
+keep_prob = tf.placeholder("float")
+h3_drop = tf.nn.dropout(h3, keep_prob)
+```
+
+丢弃是一种从模型中暂时切断神经元的方法。 我们在训练过程中这样做是为了避免过拟合。 每批 TensorFlow 将在此连接层选择不同的神经元输出以进行删除。 面对训练期间的细微变化，这有助于模型变得健壮。 `keep_prob`是保持特定神经元输出的概率。 在训练过程中通常将其设置为`0.5`。
+
+再一次，最终的逻辑回归层和训练节点代码与之前的相同：
+
+```py
+# Output Layer
+W4 = tf.Variable(tf.truncated_normal(
+     [num_hidden, 5],
+     stddev=1./math.sqrt(num_hidden)))
+b4 = tf.Variable(tf.constant(0.1,shape=[5]))
+
+# Just initialize
+sess.run(tf.initialize_all_variables())
+
+# Define model
+y = tf.nn.softmax(tf.matmul(h3_drop,W4) + b4)
+
+### End model specification, begin training code
+
+# Climb on cross-entropy
+cross_entropy = tf.reduce_mean(
+        tf.nn.softmax_cross_entropy_with_logits(
+        y + 1e-50, y_))
+
+# How we train
+train_step = tf.train.GradientDescentOptimizer(
+             0.01).minimize(cross_entropy)
+
+# Define accuracy
+correct_prediction = tf.equal(tf.argmax(y,1),
+                              tf.argmax(y_,1))
+accuracy = tf.reduce_mean(tf.cast(
+           correct_prediction, "float"))
+```
+
+您现在可以执行该操作。 现在，我们可以训练我们的完整卷积神经网络，这是到目前为止建模的顶点：
+
+```py
+# Actually train
+epochs = 6000
+train_acc = np.zeros(epochs//10)
+test_acc = np.zeros(epochs//10)
+for i in tqdm(range(epochs), ascii=True):
+    # Record summary data, and the accuracy
+    if i % 10 == 0:  
+        # Check accuracy on train set
+        A = accuracy.eval(feed_dict={x: train,
+            y_: onehot_train, keep_prob: 1.0})
+        train_acc[i//10] = A
+        # And now the validation set
+        A = accuracy.eval(feed_dict={x: test,
+            y_: onehot_test, keep_prob: 1.0})
+        test_acc[i//10] = A
+    train_step.run(feed_dict={x: train,\
+        y_: onehot_train, keep_prob: 0.5})
+```
+
+训练该模型可能需要几个小时，因此您可能希望在下一节之前立即开始。
+
+# 深度 CNN 总结
+
+我们将通过评估模型的准确率来总结深层的 CNN。 上一次，我们建立了最终的字体识别模型。 现在，让我们看看它是如何工作的。 在本节中，我们将学习如何在训练期间处理丢弃问题。 然后，我们将看到模型达到了什么精度。 最后，我们将权重可视化以了解模型学到了什么。
+
+确保在上一个模型中进行训练后，在 IPython 会话中接手。 回想一下，当我们训练模型时，我们使用`dropout`删除了一些输出。
+
+尽管这有助于过拟合，但在测试过程中，我们要确保使用每个神经元。 这既提高了准确率，又确保我们不会忘记评估模型的一部分。 这就是为什么在以下代码行中，`keep_prob`为`1.0`以便始终保留所有神经元的原因。
+
+```py
+# Check accuracy on train set
+        A = accuracy.eval(feed_dict={x: train,
+            y_: onehot_train, keep_prob: 1.0})
+        train_acc[i//10] = A
+        # And now the validation set
+        A = accuracy.eval(feed_dict={x: test,
+            y_: onehot_test, keep_prob: 1.0})
+        test_acc[i//10] = A
+```
+
+让我们看看最终模型是如何做的； 像往常一样看一下训练和测试的准确率：
+
+![Wrapping up deep CNN](img/00060.jpg)
+
+这里的训练准确率高达 85%，并且测试准确率也相差不远。还不错。模型的效果取决于输入数据的噪声。 如果我们仅包含少量信息，无论是示例数量还是参数或像素数量，那么我们都无法期望模型表现完美。
+
+在这种情况下，您可以应用的一种度量标准是人类将单个字母的图像分类到这些字体中的每种字体的程度。 一些字体非常有特色，而另一些则相似，尤其是某些字母。 由于这是一个新颖的数据集，因此没有直接的基准可以与之进行比较，但是您可以挑战自己以击败本课程中介绍的模型。 如果这样做，您可能希望减少训练时间。 当然，具有较少参数和更简单计算的较小网络将更快。 另外，如果您开始使用 GPU 或至少使用多核 CPU，则可以显着提高速度。 通常 10 倍更好，具体取决于硬件。
+
+其中一部分是并行性，一部分是针对神经网络进行了微调的高效低层库。 但是，最简单的方法是从简单开始，逐步发展到更复杂的模型，就像您一直在处理此问题一样。 回到这个模型，让我们看一下混淆矩阵：
+
+```py
+# Look at the final testing confusion matrix
+pred = np.argmax(y.eval(
+       feed_dict={x: test, keep_prob: 1.0,
+       y_: onehot_test}), axis = 1)
+conf = np.zeros([5,5])
+for p,t in zip(pred,np.argmax(onehot_test,
+                              axis=1)):
+    conf[t,p] += 1
+
+plt.matshow(conf)
+plt.colorbar()
+```
+
+以下是输出：
+
+![Wrapping up deep CNN](img/00061.jpg)
+
+在这里，我们可以看到该模型通常在各个类上都做得很好。 类`1`仍然不是完美的，但是比以前的模型要好得多。 通过将较小比例的特征分解为较大的片段，我们终于找到了一些适合这些类的指标。 您的图像可能看起来不完全相同。 根据权重的随机初始化，结果可能会有些不幸。
+
+让我们看一下第一卷积层的 16 个特征的权重：
+
+```py
+# Let's look at a subplot of some weights
+f, plts = plt.subplots(4,4)
+for i in range(16):
+    plts[i//4,i%4].matshow(W1.eval()[:,:,0,i],
+            cmap = plt.cm.gray_r)
+```
+
+因为窗口大小是`3x3`，所以每个都是`3x3`矩阵。 嗯！ 我们可以看到，权重肯定是缩小了小范围的特征。
+
+![Wrapping up deep CNN](img/00062.jpg)
+
+您可以看到某些事物，例如检测到边缘或圆角，诸如此类。 如果我们使用更大的窗口重做模型，这可能会更加明显。 但是令人印象深刻的是，您可以在这些小补丁中发现多少特征。
+
+我们还要看一下最终的层权重，以了解不同的字体类如何解释最终的紧密连接的神经元。
+
+![Wrapping up deep CNN](img/00063.jpg)
+
+每行代表一类，每列代表最终的隐藏层神经元之一。 有些类别受到某些神经元的强烈影响，而另一些类别的影响则微乎其微。 您会看到，对于某些类别，给定的神经元在积极或消极方面非常重要，而对于其他类别则非常重要。
+
+请注意，因为我们已经使卷积变平，所以我们不希望在输出中看到明显的结构。 这些列可以按任何顺序排列，但仍会产生相同的结果。 在本章的最后部分，我们检查了一个真实的，实时的，坦率的，非常好的深度卷积神经网络模型。 我们使用卷积层和池化层的做法来构筑该思想，以便提取结构化数据（例如图像）中的小规模和大规模型征。
+
+对于许多问题，这是神经网络最强大的类型之一。
+
+# 总结
+
+在本章中，我们遍历了示例图像上的卷积层。 我们解决了理解卷积的实际问题。 它们可以令人费解，但希望不再造成混淆。 我们最终将此概念应用于 TensorFlow 中的一个简单示例。 我们探索了卷积，池化层的共同伙伴。 我们解释了常见的卷积伙伴最大池化层的工作原理。 然后，随着我们的进步，我们通过在示例中添加一个池化层将其付诸实践。 我们还练习了在 TensorFlow 中创建最大池化层。 我们开始将卷积神经网络添加到字体分类问题中。
+
+在下一章中，我们将研究具有时间成分的模型，即循环神经网络（RNN）。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch04.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch04.md
new file mode 100644
index 00000000..87494517
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch04.md
@@ -0,0 +1,526 @@
+# 四、循环神经网络介绍
+
+在上一章中，您了解了卷积网络。 现在，该介绍一种新型的模型和问题了-循环神经网络（RNN）。 在本章中，我们将解释 RNN 的工作原理，并在 TensorFlow 中实现一个。 我们的示例问题将是具有天气信息的简单季节预报器。 我们还将看一下`skflow`，它是 TensorFlow 的简化接口。 这将使我们能够快速重新实现旧的图像分类模型和新的 RNN。 在本章的最后，您将对以下概念有很好的理解：
+
+*   探索 RNN
+*   TensorFlow Learn
+*   密集神经网络（DNN）
+
+# 探索 RNN
+
+在本节中，我们将探索 RNN。 一些背景信息将使我们开始工作，然后我们将探讨一个激发性的天气建模问题。 我们还将在 TensorFlow 中实现和训练 RNN。
+
+![Exploring RNNs](img/00064.jpg)
+
+在典型模型中，您要预测一些`X`输入特征和一些`Y`输出。 我们通常将不同的训练样本视为独立的观察结果。 因此，数据点 1 的特征不应影响数据点 2 的预测。 但是，如果我们的数据点相互关联怎么办？ 最常见的示例是每个数据点`Xt`代表在时间`t`收集的特征。 自然地假设时间`t`和时间`t+1`的特征对于时间`t+1`的预测都将很重要。 换句话说，历史很重要。
+
+现在，在建模时，您可以只包含两倍的输入特征，将前一个时间步长添加到当前特征中，并计算两倍的输入权重。 但是，如果您正在努力构建神经网络来计算变换特征，那么可以在当前时间步网络中使用上一个时间步的中间特征就很好了。
+
+RNN 正是这样做的。 像往常一样考虑您的输入`Xt`，但在某些状态下添加来自上一个时间步的`St-1`作为附加特征。 现在，您可以像往常一样计算权重以预测`Yt`，并产生一个新的内部状态`St`，以供下一步使用。 对于第一步，通常使用默认或零初始状态。 经典的 RNN 实际上就是这么简单，但是当今文学中有更高级的结构，例如门控循环单元和长短期存储电路。 这些不在本书的讨论范围之内，但是它们遵循相同的原理，并且通常适用于相同类型的问题。
+
+## 模型权重
+
+您可能想知道我们如何根据上一个时间步长计算所有这些相关性的权重。 计算梯度确实涉及到时间计算的递归，但不要担心，TensorFlow 处理乏味的东西，让我们进行建模：
+
+```py
+# read in data
+filename = 'weather.npz'
+data = np.load(filename)
+daily = data['daily']
+weekly = data['weekly']
+
+num_weeks = len(weekly)
+dates = np.array([datetime.datetime.strptime(str(int(d)),
+                '%Y%m%d') for d in weekly[:,0]])
+```
+
+要使用 RNN，我们需要一个带有时间成分的数据建模问题。
+
+字体分类问题在这里并不是很合适。 因此，让我们看一些天气数据。 `weather.npz`文件是几十年来来自美国一个城市的气象站数据的集合。 `daily`数组包含一年中每一天的测量值。 数据有六列，从日期开始。 接下来是降雨量，以英寸为单位测量当日的降雨量。 之后，出现两列降雪-第一列是当前地面上的实测雪，而第二列是当天的降雪，单位是英寸。 最后，我们有一些温度信息，以华氏度为单位的每日最高和最低每日温度。
+
+我们将使用的`weekly`数组是每日信息的每周摘要。 我们将使用中间日期来表示一周，然后，我们将汇总一周中的所有降雨量。 但是，对于降雪，我们将平均降雪量，因为从一个寒冷的天气到第二天坐在地上的积雪都没有意义。 虽然降雪，但我们总共要一周，就像下雨一样。 最后，我们将平均一周的高温和低温。 现在您已经掌握了数据集，我们该如何处理？ 一个有趣的基于时间的建模问题是，尝试使用天气信息和前几周的历史来预测特定一周的季节。
+
+在美国的北半球，6 月至 8 月的气温较高，而 12 月至 2 月的气温较低，两者之间有过渡。 春季通常是多雨的，冬季通常包括雪。 尽管一周的变化很大，但一周的历史应该可以提供一定的预测能力。
+
+## 了解 RNN
+
+首先，让我们从压缩的 NumPy 数组中读取数据。 如果您想探索自己的模型，`weather.npz`文件也包括每日数据。 `np.load`将两个数组都读入字典，并将每周设置为我们感兴趣的数据； `num_weeks`自然就是我们拥有多少个数据点，在这里，几十年的信息的值：
+
+```py
+num_weeks = len(weekly)
+```
+
+为了格式化星期，我们使用 Python `datetime.datetime`对象以年月日格式读取存储字符串：
+
+```py
+dates = np.array([datetime.datetime.strptime(str(int(d)),
+                '%Y%m%d') for d in weekly[:,0]])
+```
+
+我们可以使用每周的日期来指定其季节。 对于此模型，因为我们正在查看天气数据，所以我们使用气象季节而不是普通的天文季节。 幸运的是，这很容易通过 Python 函数实现。 从`datetime`对象中获取月份，我们可以直接计算出该季节。 春季，零季节是 3 月至 5 月，夏季是 6 月至 8 月，秋天是 9 月至 11 月，最后是冬季 12 月至 2 月。 以下是简单的函数，它仅求值月份并实现该月份：
+
+```py
+def assign_season(date):
+    ''' Assign season based on meteorological season.
+        Spring - from Mar 1 to May 31
+        Summer - from Jun 1 to Aug 31
+        Autumn - from Sep 1 to Nov 30
+        Winter - from Dec 1 to Feb 28 (Feb 29 in a leap year)
+    '''
+    month = date.month
+    # spring = 0
+    if 3 <= month < 6:
+        season = 0
+    # summer = 1
+    elif 6 <= month < 9:
+        season = 1
+    # autumn = 2
+    elif 9 <= month < 12:
+        season = 2
+    # winter = 3
+    elif month == 12 or month < 3:
+        season = 3
+    return season
+```
+
+让我们注意一下，我们有四个季节和五个输入变量，例如历史状态中的 11 个值：
+
+```py
+# There are 4 seasons
+num_classes = 4
+
+# and 5 variables
+num_inputs = 5
+
+# And a state of 11 numbers
+state_size = 11
+```
+
+现在您可以计算标签了：
+
+```py
+labels = np.zeros([num_weeks,num_classes])
+# read and convert to one-hot
+for i,d in enumerate(dates):
+    labels[i,assign_season(d)] = 1
+```
+
+通过制作全零数组并在分配季节的位置放置一个全零，我们直接以一键式格式执行此操作。
+
+凉！ 您仅用几个命令就总结了几十年的时间。
+
+由于这些输入特征在非常不同的尺度上测量非常不同的事物，即降雨，降雪和温度，因此我们应注意将它们全部置于相同的尺度上。 在下面的代码中，我们抓住了输入特征，当然跳过了日期列，并减去平均值以将所有特征居中为零：
+
+```py
+# extract and scale training data
+train = weekly[:,1:]
+train = train - np.average(train,axis=0)
+train = train / train.std(axis=0)
+```
+
+然后，我们将每个特征除以其标准偏差来缩放。 这说明温度范围大约为 0 到 100，而降雨量仅在大约 0 到 10 之间变化。数据准备工作不错！ 它并不总是很有趣，但这是机器学习和 TensorFlow 的关键部分。
+
+现在进入 TensorFlow 模型：
+
+```py
+# These will be inputs
+x = tf.placeholder("float", [None, num_inputs])
+# TF likes a funky input to RNN
+x_ = tf.reshape(x, [1, num_weeks, num_inputs])
+```
+
+我们使用占位符变量正常输入数据，但是随后您会看到将整个数据集奇怪地重塑为一个大张量。 不用担心，这是因为从技术上讲，我们有一个漫长而连续的观测序列。 `y_`变量只是我们的输出：
+
+```py
+y_ = tf.placeholder("float", [None,num_classes])
+```
+
+我们将计算每个季节每周的概率。
+
+`cell`变量是循环神经网络的关键：
+
+```py
+cell = tf.nn.rnn_cell.BasicRNNCell(state_size)
+```
+
+这告诉 TensorFlow 当前时间步长如何取决于前一个时间步长。 在这种情况下，我们将使用基本的 RNN 单元。 因此，我们一次只回首一周。 假设它具有状态大小或 11 个值。 随意尝试使用更多奇异的单元和不同的状态大小。
+
+要使用该单元格，我们将使用`tf.nn.dynamic_rnn`：
+
+```py
+outputs, states = tf.nn.dynamic_rnn(cell,x_,
+            dtype=tf.nn.dtypes.float32, initial_state=None)
+```
+
+这可以智能地处理递归，而不是简单地将所有时间步长展开成一个巨大的计算图。 因为我们在一个序列中有成千上万的观测值，所以这对于获得合理的速度至关重要。 在单元格之后，我们指定输入`x_`，然后指定`dtype`以使用 32 位将十进制数字存储在浮点数中，然后指定空的`initial_state`。 我们使用此输出建立一个简单的模型。 从这一点开始，该模型几乎完全符合您对任何神经网络的期望：
+
+我们将 RNN 单元的输出，一些权重相乘，并添加一个偏差以获得该周每个类的分数：
+
+```py
+W1 = tf.Variable(tf.truncated_normal([state_size,num_classes],
+                          stddev=1./math.sqrt(num_inputs)))
+b1 = tf.Variable(tf.constant(0.1,shape=[num_classes]))
+# reshape the output for traditional usage
+h1 = tf.reshape(outputs,[-1,state_size])
+```
+
+### 注意
+
+请注意，由于我们有一个长序列，因此我们确实需要进行此重塑操作以再次获得合适的大小。
+
+您应该非常熟悉我们的分类`cross_entropy`损失函数和训练优化器：
+
+```py
+# Climb on cross-entropy
+cross_entropy = tf.reduce_mean(
+     tf.nn.softmax_cross_entropy_with_logits(y + 1e-50, y_))
+
+# How we train
+train_step = tf.train.GradientDescentOptimizer(0.01
+                    ).minimize(cross_entropy)
+
+# Define accuracy
+correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
+accuracy=tf.reduce_mean(tf.cast(correct_prediction, "float"))
+```
+
+搭建 TensorFlow 模型的出色工作！ 为了训练这一点，我们将使用一个熟悉的循环：
+
+```py
+# Actually train
+epochs = 100
+train_acc = np.zeros(epochs//10)
+for i in tqdm(range(epochs), ascii=True):
+    if i % 10 == 0: 
+  # Record summary data, and the accuracy
+        # Check accuracy on train set
+        A = accuracy.eval(feed_dict={x: train, y_: labels})
+        train_acc[i//10] = A
+    train_step.run(feed_dict={x: train, y_: labels})
+```
+
+由于这是一个虚拟的问题，因此我们不必担心模型的实际准确率。 这里的目的只是看 RNN 的工作原理。 您可以看到它像任何 TensorFlow 模型一样运行：
+
+![Understanding RNNs](img/00065.jpg)
+
+如果您确实看过准确率，您会发现它做得很好。 比 25% 的随机猜测要好得多，但仍有很多东西需要学习。
+
+# TensorFlowLearn
+
+正如 Scikit-Learn 是传统机器学习算法的便捷接口一样，[`tf.contrib.learn`](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/learn/python/learn)（以前称为`skflow`），它是构建和训练 DNN 的简化接口。 现在，随 TensorFlow 的每次安装免费提供！
+
+即使您不喜欢该语法，也值得将 TensorFlow Learn 作为 TensorFlow 的高级 API。 这是因为它是当前唯一受官方支持的版本。 但是，您应该知道，有许多替代的高级 API 可能具有更直观的接口。 如果有兴趣，请参阅 [Keras](https://keras.io/)，`tf.slim`（包含在 TF 中）或 [TFLearn](http://tflearn.org/)。为了了解有关 TensorFlow-Slim 的更多信息，请参阅[此链接](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/slim)。
+
+## 起步
+
+要开始使用 TensorFlow Learn，您只需导入它即可。 我们还将导入`estimators`函数，这将帮助我们制作常规模型：
+
+```py
+# TF made EZ
+import tensorflow.contrib.learn as learn
+from tensorflow.contrib.learn.python.learn.estimators import estimator
+```
+
+我们还希望导入一些用于基本操作的库 -- 抓取 NumPy，`math`和 Matplotlib（可选）。 这里值得注意的是`sklearn`，这是一个通用的机器学习库，它试图简化模型的创建，训练和使用。 我们主要将其用于方便的指标，但是您会发现它具有与 Learn 类似的主接口：
+
+```py
+# Some basics
+import numpy as np
+import math
+import matplotlib.pyplot as plt
+plt.ion()
+
+# Learn more sklearn
+# scikit-learn.org
+import sklearn
+from sklearn import metrics
+```
+
+接下来，我们将读取一些数据进行处理。 由于您熟悉字体分类问题，因此让我们继续对其建模。 为了重现性，您可以使用自己喜欢的数字为 NumPy 播种：
+
+```py
+# Seed the data
+np.random.seed(42)
+
+# Load data
+data = np.load('data_with_labels.npz')
+train = data['arr_0']/255.
+labels = data['arr_1']
+```
+
+对于本练习，将您的数据分为训练和验证集； `np.random.permutation`对于为您的输入数据生成随机顺序很有用，所以让我们像在以前的模块中那样使用它：
+
+```py
+# Split data into training and validation
+indices = np.random.permutation(train.shape[0])
+valid_cnt = int(train.shape[0] * 0.1)
+test_idx, training_idx = indices[:valid_cnt],\
+                         indices[valid_cnt:]
+test, train = train[test_idx,:],\
+              train[training_idx,:]
+test_labels, train_labels = labels[test_idx],\
+                        labels[training_idx]
+```
+
+在这里，`tf.contrib.learn`可以对其接收的数据类型有所变幻。 为了发挥出色，我们需要重铸数据。 图像输入将是`np.float32`，而不是默认的 64 位。 同样，我们的标签将是`np.int32`而不是`np.uint8`，即使这只会占用更多内存：
+
+```py
+train = np.array(train,dtype=np.float32)
+test = np.array(test,dtype=np.float32)
+train_labels = np.array(train_labels,dtype=np.int32)
+test_labels = np.array(test_labels,dtype=np.int32)
+```
+
+## 逻辑回归
+
+让我们做一个简单的逻辑回归示例。 这将非常迅速，并显示`learn`如何使简单的模型变得异常简单。 首先，我们必须创建模型期望输入的变量列表。 您可能希望可以使用一个简单的参数来设置它，但实际上是这个不直观的`learn.infer_real_valued_columns_from_input`函数。 基本上，如果将输入数据提供给该函数，它将推断出您拥有多少个特征列以及其应处于的形状。在我们的线性模型中，我们希望将图像展平为一维，因此我们对其执行整形推断函数时：
+
+```py
+# Convert features to learn style
+feature_columns = learn.infer_real_valued_columns_from_input(train.reshape([-1,36*36]))
+```
+
+现在创建一个名为`classifier`的新变量，并为其分配`estimator.SKCompat`结构。 这是一个 Scikit-Learn 兼容性层，允许您在 TensorFlow 模型中使用某些 Scikit-Learn 模块。
+
+无论如何，这仅仅是敷料，真正创建模型的是`learn.LinearClassifier`。 这样就建立了模型，但是没有训练。 因此，它只需要几个参数。 首先是那个时髦的`feature_columns`对象，只是让您的模型知道期望输入什么。 第二个也是最后一个必需的参数是它的反函数，模型应具有多少个输出值？ 我们有五种字体，因此设置`n_classes = 5`。 这就是整个模型规格！
+
+```py
+# Logistic Regression
+classifier = estimator.SKCompat(learn.LinearClassifier(
+            feature_columns = feature_columns,
+            n_classes=5))
+```
+
+要进行训练，只需要一行。 调用`classifier.fit`并输入数据（当然是经过调整的形状），输出标签（请注意，这些标签不必是一字不漏的格式）以及其他一些参数。 `steps`参数确定模型将查看多少批次，即优化算法要采取的步骤。 `batch_size`参数通常是优化步骤中要使用的数据点数。 因此，您可以将步数乘以批次大小除以训练集中的数据点数来计算周期数。 这似乎有点违反直觉，但至少是一个快速的说明，您可以轻松编写帮助函数以在步骤和周期之间进行转换：
+
+```py
+# One line training
+# steps is number of total batches
+# steps*batch_size/len(train) = num_epochs
+classifier.fit(train.reshape([-1,36*36]),
+               train_labels,
+               steps=1024,
+               batch_size=32)
+```
+
+为了评估我们的模型，我们将照常使用`sklearn`的`metrics`。 但是，基本学习模型预测的输出现在是字典，其中包含预先计算的类标签以及概率和对数。 要提取类标签，请使用键`classes`：
+
+```py
+# sklearn compatible accuracy
+test_probs = classifier.predict(test.reshape([-1,36*36]))
+sklearn.metrics.accuracy_score(test_labels,
+        test_probs['classes'])
+```
+
+# DNN
+
+尽管有更好的方法来实现纯线性模型，但 TensorFlow 和`learn`真正的亮点在于简化具有不同层数的 DNN。
+
+我们将使用相同的输入特征，但现在我们将构建一个具有两个隐藏层的 DNN，首先是`10`神经元，然后是`5`。 创建此模型仅需一行 Python 代码； 这再简单不过了。
+
+规格类似于我们的线性模型。 我们仍然需要`SKCompat`，但现在是`learn.DNNClassifier`。 对于参数，还有一个额外的要求：每个隐藏层上的神经元数量，以列表的形式传递。 这个简单的参数真正抓住了 DNN 模型的本质，使深度学习的力量触手可及。
+
+也有一些可选的参数，但是我们只提及`optimizer`。 这样，您就可以在不同的常见优化器例程之间进行选择，例如随机梯度下降（SGD）或 Adam。 很方便！
+
+```py
+# Dense neural net
+classifier = estimator.SKCompat(learn.DNNClassifier(
+            feature_columns = feature_columns,
+            hidden_units=[10,5],
+            n_classes=5,
+            optimizer='Adam'))
+```
+
+训练和评估与线性模型完全一样。 仅出于演示目的，我们还可以查看此模型创建的混淆矩阵。 请注意，我们训练不多，因此该模型可能无法与使用纯 TensorFlow 的早期作品竞争：
+
+```py
+# Same training call
+classifier.fit(train.reshape([-1,36*36]),
+               train_labels,
+               steps=1024,
+               batch_size=32)
+
+# simple accuracy
+test_probs = classifier.predict(test.reshape([-1,36*36]))
+sklearn.metrics.accuracy_score(test_labels,
+        test_probs['classes'])
+
+# confusion is easy
+train_probs = classifier.predict(train.reshape([-1,36*36]))
+conf = metrics.confusion_matrix(train_labels,
+        train_probs['classes'])
+print(conf)
+```
+
+## TFLearn 中的卷积神经网络（CNN）
+
+CNN 支持一些最成功的机器学习模型，因此我们希望`learn`支持它们。 实际上，该库支持使用任意 TensorFlow 代码！ 您会发现这是一种祝福和诅咒。 拥有任意可用的代码意味着您可以使用`learn`来执行几乎可以使用纯 TensorFlow 进行的所有操作，从而提供最大的灵活性。 但是通用接口往往会使代码更难以读写。
+
+如果您发现自己在`learn`中使用接口使某些复杂的模型起作用，那么可能是时候使用纯 TensorFlow 或切换到另一个 API 了。
+
+为了证明这种通用性，我们将构建一个简单的 CNN 来解决字体分类问题。 它将具有一个带有四个过滤器的卷积层，然后将其展平为具有五个神经元的隐藏密集层，最后以密集连接的输出逻辑回归结束。
+
+首先，让我们再进行几个导入。 我们想要访问通用的 TensorFlow，但是我们还需要`layers`模块以`learn`期望的方式调用 TensorFlow `layers`：
+
+```py
+# Access general TF functions
+import tensorflow as tf
+import tensorflow.contrib.layers as layers
+```
+
+通用接口迫使我们编写为模型创建操作的函数。 您可能会发现这很乏味，但这就是灵活性的代价。
+
+用三个参数启动一个名为`conv_learn`的新函数。 `X`将作为输入数据，`y`将作为输出标签（尚未进行一次热编码），`mode`确定您是训练还是预测。 请注意，您永远不会直接与此特征交互； 您只需将其传递给需要这些参数的构造器。 因此，如果您想改变层的数量或类型，则需要编写一个新的模型函数（或另一个会生成这种模型函数的函数）：
+
+```py
+def conv_learn(X, y, mode):
+```
+
+由于这是卷积模型，因此我们需要确保数据格式正确。 特别是，这意味着将输入重塑为不仅具有正确的二维形状（`36x36`），而且具有 1 个颜色通道（最后一个尺寸）。 这是 TensorFlow 计算图的一部分，因此我们使用`tf.reshape`而不是`np.reshape`。 同样，由于这是通用图，因此我们希望将输出进行一次热编码，`tf.one_hot`提供了该功能。 请注意，我们必须描述有多少类（`5`），应设置的值（`1`）和未设置的值（`0`）：
+
+```py
+    # Ensure our images are 2d 
+    X = tf.reshape(X, [-1, 36, 36, 1])
+    # We'll need these in one-hot format
+    y = tf.one_hot(tf.cast(y, tf.int32), 5, 1, 0)
+```
+
+现在，真正的乐趣开始了。 为了指定卷积层，让我们初始化一个新的作用域`conv_layer`。 这只会确保我们不会破坏任何变量。 `layers.convolutional`提供了基本的机制。 它接受我们的输入（一个 TensorFlow 张量），多个输出（实际上是内核或过滤器的数量）以及内核的大小，这里是`5x5`的窗口。 对于激活函数，让我们使用整流线性，可以从主 TensorFlow 模块调用它。 这给了我们基本的卷积输出`h1`。
+
+实际上，最大池化的发生与常规 TensorFlow 中的发生完全相同，既不容易也不难。 具有通常的内核大小和步幅的`tf.nn.max_pool`函数可以正常工作。 保存到`p1`中：
+
+```py
+    # conv layer will compute 4 kernels for each 5x5 patch
+    with tf.variable_scope('conv_layer'):
+        # 5x5 convolution, pad with zeros on edges
+        h1 = layers.convolution2d(X, num_outputs=4,
+                kernel_size=[5, 5], 
+                activation_fn=tf.nn.relu)
+        # 2x2 Max pooling, no padding on edges
+        p1 = tf.nn.max_pool(h1, ksize=[1, 2, 2, 1],
+                strides=[1, 2, 2, 1], padding='VALID')
+```
+
+现在，要在此时展平张量，我们需要计算将要成为一维张量的元素数量。 一种方法是将所有尺寸值（`batch_size`除外，它占据第一个位置）相乘。 此特定操作可以在计算图之外进行，因此我们使用`np.product`。 一旦提供了总大小，我们就可以将其传递给`tf.reshape`以重新划分图中的中间张量：
+
+```py
+    # Need to flatten conv output for use in dense layer
+    p1_size = np.product(
+              [s.value for s in p1.get_shape()[1:]])
+    p1f = tf.reshape(p1, [-1, p1_size ])
+```
+
+现在是时候建立紧密连接的层了。 `layers`模块再次出现，这一次具有`fully_connected`函数（致密层的另一个名称）。 这需要上一层，神经元的数量和激活函数，它们又由通用 TensorFlow 提供。
+
+为了演示的目的，我们也在此处添加一个`dropout`对象。 `layers.dropout`提供了接口。 不出所料，它需要上一层以及保持给定节点输出的概率。 但是它也需要我们传递给原始`conv_learn`函数的`mode`参数。 所有这些复杂的接口只不过是在训练期间丢弃节点。 如果您能解决这个问题，那么我们几乎可以遍历整个模型！
+
+```py
+     # densely connected layer with 32 neurons and dropout
+     h_fc1 = layers.fully_connected(p1f,
+             5,
+             activation_fn=tf.nn.relu)
+     drop = layers.dropout(h_fc1, keep_prob=0.5,
+     is_training=mode == tf.contrib.learn.ModeKeys.TRAIN)
+```
+
+现在有一些坏消息。 我们需要手动写出最终的线性模型，损失函数和优化参数。 这可能会因版本而异，因为在某些情况下，以前对用户来说更容易，但对后端的维护则更困难。 但是，让我们坚持下去； 确实不是很繁琐。
+
+另一个`layers.fully_connected`层创建最终的逻辑回归。 请注意，此处的激活应为`None`，因为它是线性的。 处理方程逻辑方面的是损失函数。 值得庆幸的是，TensorFlow 提供了`softmax_cross_entropy`函数，因此我们无需手动将其写出。 给定输入，输出和损失函数，我们可以应用优化例程。 同样，`layers.optimize_loss`以及相关函数可以最大程度地减少痛苦。 将您的损失节点，优化器（作为字符串）和学习率传递给它。 此外，为其提供此`get_global_step()`参数，以确保优化程序正确处理衰减。
+
+最后，我们的函数需要返回一些东西。 第一，它应该报告预测的类别。 接下来，它必须自己提供损失节点输出。 最后，训练节点必须可用于外部例程以实际执行所有操作：
+
+```py
+    logits = layers.fully_connected(drop, 5, activation_fn=None)
+    loss = tf.losses.softmax_cross_entropy(y, logits)
+    # Setup the training function manually
+    train_op = layers.optimize_loss(
+        loss,
+        tf.contrib.framework.get_global_step(),
+        optimizer='Adam',
+        learning_rate=0.01)
+    return tf.argmax(logits, 1), loss, train_op
+```
+
+虽然指定模型可能很麻烦，但使用它就像以前一样容易。 现在，使用最通用的例程`learn.Estimator`，并将模型函数传递给`model_fn`。 并且不要忘记`SKCompat`！
+
+训练的工作原理与以前完全相同，只是请注意，我们不需要在此处重塑输入内容，因为这是在函数内部处理的。
+
+要使用模型进行预测，您可以简单地调用`classifier.predict`，但是请注意，您会获得函数返回的第一个参数作为输出。 我们选择返回该类，但也可以从`softmax`函数中返回概率。 这就是`tf.contrib.learn`模型的基础！
+
+```py
+# Use generic estimator with our function
+classifier = estimator.SKCompat(
+         learn.Estimator(
+         model_fn=conv_learn))
+
+classifier.fit(train,train_labels,
+                steps=1024,
+                batch_size=32)
+
+# simple accuracy
+metrics.accuracy_score(test_labels,classifier.predict(test))
+```
+
+## 提取权重
+
+虽然训练和预测是模型的核心用途，但也必须研究模型的内部也很重要。 不幸的是，此 API 使得提取参数权重变得困难。 值得庆幸的是，本节提供了一些文献记载较弱的功能的简单示例，以使权重从`tf.contrib.learn`模型中消失。
+
+为了拉出模型的权重，我们确实需要从基础 TensorFlow 计算图中的某些点获取值。 TensorFlow 提供了许多方法来执行此操作，但是第一个问题只是弄清楚您感兴趣的变量被称为什么。
+
+可以使用`learn`图中的变量名列表，但该变量名已隐藏在`_estimator`隐藏属性下。 调用`classifier._estimator.get_variable_names()`将返回您各种名称的字符串列表。 其中许多将是无趣的，例如`OptimizeLoss`条目。 在我们的情况下，我们正在寻找`conv_layer`和`fully_connected`元素：
+
+```py
+# See layer names
+print(classifier._estimator.get_variable_names())
+['OptimizeLoss/beta1_power',
+ 'OptimizeLoss/beta2_power',
+ 'OptimizeLoss/conv_layer/Conv/biases/Adam',
+ 'OptimizeLoss/conv_layer/Conv/biases/Adam_1',
+ 'OptimizeLoss/conv_layer/Conv/weights/Adam',
+ 'OptimizeLoss/conv_layer/Conv/weights/Adam_1',
+ 'OptimizeLoss/fully_connected/biases/Adam',
+ 'OptimizeLoss/fully_connected/biases/Adam_1',
+ 'OptimizeLoss/fully_connected/weights/Adam',
+ 'OptimizeLoss/fully_connected/weights/Adam_1',
+ 'OptimizeLoss/fully_connected_1/biases/Adam',
+ 'OptimizeLoss/fully_connected_1/biases/Adam_1',
+ 'OptimizeLoss/fully_connected_1/weights/Adam',
+ 'OptimizeLoss/fully_connected_1/weights/Adam_1',
+ 'OptimizeLoss/learning_rate',
+ 'conv_layer/Conv/biases',
+ 'conv_layer/Conv/weights',
+ 'fully_connected/biases',
+ 'fully_connected/weights',
+ 'fully_connected_1/biases',
+ 'fully_connected_1/weights',
+ 'global_step']
+```
+
+找出哪个条目是您要查找的层可能是一个挑战。 在这里，`conv_layer`显然来自我们的卷积层。 但是，您看到两个`fully_connected`元素，一个是展平时的密集层，另一个是输出权重。 事实证明，它们是按指定的顺序命名的。 我们首先创建了密集的隐藏层，所以它获得了基本的`fully_connected`名称，而输出层位于最后，因此在其上面加上了`_1`。 如果不确定，可以随时查看权重数组的形状，具体取决于模型的形状。
+
+要真正发挥作用，这是另一个不可思议的要求。 这次，`classifier._estimator.get_variable_value`（带有变量名字符串）提供了具有相关权重的 NumPy 数组。 试用卷积权重和偏差以及密集层：
+
+```py
+# Convolutional Layer Weights
+print(classifier._estimator.get_variable_value(
+        'conv_layer/Conv/weights'))
+print(classifier._estimator.get_variable_value(
+        'conv_layer/Conv/biases'))
+
+# Dense Layer
+print(classifier._estimator.get_variable_value(
+        'fully_connected/weights'))
+
+# Logistic weights
+print(classifier._estimator.get_variable_value(
+        'fully_connected_1/weights'))
+```
+
+现在，掌握了如何在`tf.contrib.learn`神经网络内部进行交流的深奥知识，您将可以使用此高级 API 拥有更多的能力。 尽管在许多情况下很方便，但在其他情况下却很麻烦。 永远不要害怕暂停并考虑切换到另一个库； 为正确的机器学习工作使用正确的机器学习工具。
+
+# 总结
+
+从简单理解 RNN 到在新的 TensorFlow 模型中实现它们，您在本章中学到了很多东西。 我们还查看了 TensorFlow 的一个简单接口，称为 TensorFlow Learn。 我们还遍历了 DNN，并了解了 CNN 和详细提取权重。
+
+在下一章中，我们将对 TensorFlow 进行总结，看看我们已经走了多远，以及从这里可以去哪里。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch05.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch05.md
new file mode 100644
index 00000000..296654f3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/ch05.md
@@ -0,0 +1,316 @@
+# 五、总结
+
+在上一章中，我们了解了 TensorFlow 和 RNN 模型的另一个接口。 本章将对 TensorFlow 进行总结，探讨我们已经走了多远，以及从这里可以去哪里。 首先，我们将回顾字体分类问题的研究进展，然后简要介绍除深度学习之外的 TensorFlow，并查看其将来的发展方向。 在本章的最后，您将熟悉以下概念：
+
+*   研究回顾
+*   快速浏览所有模型
+*   TensorFlow 的未来
+*   其他一些 TensorFlow 项目
+
+现在让我们开始详细研究和评估模型。
+
+# 研究回顾
+
+在本节中，我们将比较字体分类问题中的模型。 首先，我们应该提醒自己数据是什么样的。 然后，我们将检查简单的逻辑密集神经网络和卷积神经网络模型。 使用 TensorFlow 建模已经走了很长一段路。
+
+但是，在继续进行深度学习之前，让我们回头看看模型如何比较字体分类问题。 首先，让我们再次查看数据，这样我们就不会忽略这个问题。 实际上，让我们看一个包含每种字体的所有字母和数字的图像，只是看看我们有什么形状：
+
+```py
+# One look at a letter/digit from each font
+# Best to reshape as one large array, then plot
+all_letters = np.zeros([5*36,62*36])
+for font in range(5):
+    for letter in range(62):
+        all_letters[font*36:(font+1)*36,
+                letter*36:(letter+1)*36] = \
+                train[9*(font*62 + letter)]
+```
+
+Matplotlib 需要处理很多子图。 因此，我们将创建一个新数组，高 5 幅图像，5 种字体乘以 36 像素，宽 62 幅图像，62 个字母或数字乘以 36 像素。 分配零数组后，我们可以将训练图像堆叠到其中。 字体和字母充当索引，并且我们在大型数组中一次设置`36x36`的值。 注意，这里我们在`train`数组中有`9`，因为我们每个字母只采取一种抖动类型。
+
+让我们来看一下`pcolormesh`的快速调用：
+
+```py
+plt.pcolormesh(all_letters,
+        cmap=plt.cm.gray)
+```
+
+![Research evaluation](img/00066.jpg)
+
+如您所见，我们拥有整个字母，大写和小写以及数字 0 到 9。某些字体看起来与其他字体相似，而无论如何`0`字体在其自身的世界中，无论如何对于人眼都是如此。 每种字体都有有趣的样式属性，我们希望我们的模型能够继续使用。
+
+# 快速浏览所有模型
+
+让我们回顾一下我们构建的每个模型，以对这些字体及其优点和缺点进行建模：
+
+![A quick review of all the models](img/00067.jpg)
+
+乍一看，我们缓慢地建立了更复杂的模型，并考虑了数据的结构以提高准确率。
+
+## 逻辑回归模型
+
+首先，我们从一个简单的逻辑回归模型开始：
+
+![The logistic regression model](img/00068.jpg)
+
+它具有`36x36`像素外加 1 倍乘以 5 类总权重，即我们需要训练的 6,485 个参数。 经过 1,000 次训练后，此模型的验证准确率达到了 40%。 您的结果可能会有所不同。 这相对较差，但是该模型具有一些优势。
+
+让我们回头看一下代码：
+
+```py
+# These will be inputs
+## Input pixels, flattened
+x = tf.placeholder("float", [None, 1296])
+## Known labels
+y_ = tf.placeholder("float", [None,5])
+
+# Variables
+W = tf.Variable(tf.zeros([1296,5]))
+b = tf.Variable(tf.zeros([5]))
+
+# Just initialize
+sess.run(tf.initialize_all_variables())
+
+# Define model
+y = tf.nn.softmax(tf.matmul(x,W) + b)
+```
+
+逻辑回归的简单性意味着我们可以直接看到并计算每个像素如何影响类概率。 这种简单性也使模型在训练中相对较快地收敛，并且当然也易于编程，因为它只需要几行 TensorFlow 代码。
+
+## 单隐层神经网络模型
+
+我们的下一个模型是具有最终 Softmax 激活层的单个隐藏层密集连接的神经网络，等效于逻辑回归：
+
+![The single hidden layer neural network model](img/00069.jpg)
+
+该模型具有`36x36`像素，外加 1 个偏移乘以 128 个节点，再加上 128 个隐藏节点加上 1 个偏移乘以 5 个类的总权重，即 166,661 个参数。 隐藏层使用`sigmoid`激活函数来实现非线性。 在经过 5,000 个周期后，参数的纠缠达到了约 60% 的验证准确率，这是一个很大的改进。 但是，此改进的代价是大量增加了计算复杂性中的参数数量，您可以从代码中大致了解一下：
+
+```py
+# These will be inputs
+## Input pixels, flattened
+x = tf.placeholder("float", [None, 1296])
+## Known labels
+y_ = tf.placeholder("float", [None,5])
+
+# Hidden layer
+num_hidden = 128
+W1 = tf.Variable(tf.truncated_normal([1296, num_hidden],
+                                stddev=1./math.sqrt(1296)))
+b1 = tf.Variable(tf.constant(0.1,shape=[num_hidden]))
+h1 = tf.sigmoid(tf.matmul(x,W1) + b1)
+
+# Output Layer
+W2 = tf.Variable(tf.truncated_normal([num_hidden, 5],
+                                   stddev=1./math.sqrt(5)))
+b2 = tf.Variable(tf.constant(0.1,shape=[5]))
+
+# Just initialize
+sess.run(tf.initialize_all_variables())
+
+# Define model
+y = tf.nn.softmax(tf.matmul(h1,W2) + b2)
+```
+
+我们不再具有将单个像素分类到概率的简单函数。 但这仅需要几行编码，并且表现会更好。
+
+## 深度神经网络
+
+深度神经网络更进一步，由第一层的 128 个节点组成，馈入下一层的 32 个节点，然后馈入 Softmax 以获得 170,309 个参数； 真的没有那么多：
+
+![Deep neural network](img/00070.jpg)
+
+经过 25,000 个周期后，我们的验证准确率微幅提高了 63%：
+
+```py
+# These will be inputs
+## Input pixels, flattened
+x = tf.placeholder("float", [None, 1296])
+## Known labels
+y_ = tf.placeholder("float", [None,5])
+
+# Hidden layer 1
+num_hidden1 = 128
+W1 = tf.Variable(tf.truncated_normal([1296,num_hidden1],
+                               stddev=1./math.sqrt(1296)))
+b1 = tf.Variable(tf.constant(0.1,shape=[num_hidden1]))
+h1 = tf.sigmoid(tf.matmul(x,W1) + b1)
+
+# Hidden Layer 2
+num_hidden2 = 32
+W2 = tf.Variable(tf.truncated_normal([num_hidden1,
+            num_hidden2],stddev=2./math.sqrt(num_hidden1)))
+b2 = tf.Variable(tf.constant(0.2,shape=[num_hidden2]))
+h2 = tf.sigmoid(tf.matmul(h1,W2) + b2)
+
+# Output Layer
+W3 = tf.Variable(tf.truncated_normal([num_hidden2, 5],
+                                   stddev=1./math.sqrt(5)))
+b3 = tf.Variable(tf.constant(0.1,shape=[5]))
+
+# Just initialize
+sess.run(tf.initialize_all_variables())
+
+# Define model
+y = tf.nn.softmax(tf.matmul(h2,W3) + b3)
+```
+
+更深层次的静态模型可能会做得更好，但这证明了深度学习的某些优势，可以处理相当大的非线性，并且这再次花费了一些额外的编程精力。
+
+## 卷积神经网络
+
+紧密连接的神经网络工作得很好，但是字体是由它们的样式而不是特定的像素定义的：
+
+![Convolutional neural network](img/00071.jpg)
+
+重复出现的局部特征应该是您模型的重要线索。 我们使用卷积神经网络捕获了其中一些局部特征。 我们从一个卷积层开始，一个`5x5`窗口，使用整流线性单元，通过四个额外的偏项计算四个特征，并提取了有趣的局部参数。 接下来，我们将`2x2`的最大池化层应用于每个特征，从而将中间值的数量减少到`18x18x4`加上 1 个偏差。 将其平整为 1,297 个数字，并放入一个密集的神经网络的 32 个节点，然后进行 Softmax 激活，从而完成了具有 41,773 个参数的模型。
+
+尽管实现和代码比以前要花更多的精力，但是这可以很好地缩减模型的整体大小：
+
+```py
+# Conv layer 1
+num_filters = 4
+winx = 5
+winy = 5
+W1 = tf.Variable(tf.truncated_normal(
+    [winx, winy, 1 , num_filters],
+    stddev=1./math.sqrt(winx*winy)))
+b1 = tf.Variable(tf.constant(0.1,
+                shape=[num_filters]))
+# 5x5 convolution, pad with zeros on edges
+xw = tf.nn.conv2d(x_im, W1,
+                  strides=[1, 1, 1, 1],
+                  padding='SAME')
+h1 = tf.nn.relu(xw + b1)
+# 2x2 Max pooling, no padding on edges
+p1 = tf.nn.max_pool(h1, ksize=[1, 2, 2, 1],
+        strides=[1, 2, 2, 1], padding='VALID')
+
+# Need to flatten convolutional output for use in dense layer
+p1_size = np.product(
+          [s.value for s in p1.get_shape()[1:]])
+p1f = tf.reshape(p1, [-1, p1_size ])
+
+# Dense layer
+num_hidden = 32
+W2 = tf.Variable(tf.truncated_normal(
+     [p1_size, num_hidden],
+     stddev=2./math.sqrt(p1_size)))
+b2 = tf.Variable(tf.constant(0.2,
+     shape=[num_hidden]))
+h2 = tf.nn.relu(tf.matmul(p1f,W2) + b2)
+
+# Output Layer
+W3 = tf.Variable(tf.truncated_normal(
+     [num_hidden, 5],
+     stddev=1./math.sqrt(num_hidden)))
+b3 = tf.Variable(tf.constant(0.1,shape=[5]))
+
+keep_prob = tf.placeholder("float")
+h2_drop = tf.nn.dropout(h2, keep_prob)
+```
+
+仅训练了 5000 个周期后，我们就清除了 68% 的准确率。 我们确实必须对卷积进行编码，但这并不是那么困难。 通过对问题的结构应用一些知识，我们同时减小了模型大小，但提高了准确率。 干得好！
+
+## 深度卷积神经网络
+
+结合了深度和卷积方法，我们最终创建了一个具有几个卷积层的模型：
+
+![Deep convolutional neural network](img/00072.jpg)
+
+尽管我们使用了较小的`3x3`窗口，但我们在第一个卷积层上计算了 16 个滤镜。 在进行最大`2x2`的池化之后，我们再次使用另一个`3x3`窗口和 4 个过滤器对池化值进行了处理。 另一个合并层再次馈入 32 个紧密连接的神经元和 Softmax 输出。 因为在馈入密集神经网络之前我们在池中有更多的卷积，所以在此模型中实际上我们具有较少的参数（准确地说是 10,765 个），几乎与逻辑回归模型一样少。 但是，该模型以 6,000 个周期的速度达到了 80% 的验证准确率，证明了您的新深度学习和 TensorFlow 技能。
+
+```py
+# Conv layer 1
+num_filters1 = 16
+winx1 = 3
+winy1 = 3
+W1 = tf.Variable(tf.truncated_normal(
+    [winx1, winy1, 1 , num_filters1],
+    stddev=1./math.sqrt(winx1*winy1)))
+b1 = tf.Variable(tf.constant(0.1,
+                shape=[num_filters1]))
+# 5x5 convolution, pad with zeros on edges
+xw = tf.nn.conv2d(x_im, W1,
+                  strides=[1, 1, 1, 1],
+                  padding='SAME')
+h1 = tf.nn.relu(xw + b1)
+# 2x2 Max pooling, no padding on edges
+p1 = tf.nn.max_pool(h1, ksize=[1, 2, 2, 1],
+        strides=[1, 2, 2, 1], padding='VALID')
+
+# Conv layer 2
+num_filters2 = 4
+winx2 = 3
+winy2 = 3
+W2 = tf.Variable(tf.truncated_normal(
+    [winx2, winy2, num_filters1, num_filters2],
+    stddev=1./math.sqrt(winx2*winy2)))
+b2 = tf.Variable(tf.constant(0.1,
+     shape=[num_filters2]))
+# 3x3 convolution, pad with zeros on edges
+p1w2 = tf.nn.conv2d(p1, W2,
+       strides=[1, 1, 1, 1], padding='SAME')
+h1 = tf.nn.relu(p1w2 + b2)
+# 2x2 Max pooling, no padding on edges
+p2 = tf.nn.max_pool(h1, ksize=[1, 2, 2, 1],
+     strides=[1, 2, 2, 1], padding='VALID')
+```
+
+# TensorFlow 的未来
+
+在本部分中，我们将观察 TensorFlow 的变化方式，谁开始使用 TensorFlow 以及如何产生影响。
+
+自 2015 年底发布以来，TensorFlow 已经看到更多发布版本：
+
+![The future of TensorFlow](img/00073.jpg)
+
+TensorFlow 不断更新。 尽管它不是 Google 的正式产品，但它还是开源的，并托管在 GitHub 上。 在撰写本文时，TensorFlow 的版本为 1.2。 最新版本增加了分布式计算功能。 这些超出了本书的范围，但总的来说，它们允许跨多台机器上的多个 GPU 进行计算，以实现最大程度的并行化。 在繁重的开发过程中，更多功能总是指日可待。 TensorFlow 每天变得越来越流行。
+
+几家软件公司最近发布了机器学习框架，但 TensorFlow 在采用方面表现突出。 在内部，Google 正在实践他们的讲道。 他们广受赞誉的 DeepMind 团队已改用 TensorFlow。
+
+![The future of TensorFlow](img/00074.jpg)
+
+此外，许多拥有机器学习或数据科学程序的大学都将 TensorFlow 用于课程和研究项目。 当然，您已经在研究项目中使用过 TensorFlow，因此您处于领先地位。
+
+## 其他一些 TensorFlow 项目
+
+最后，无论大小，其他公司都在使用 TensorFlow。 现在您是 TensorFlow 的从业人员，唯一的限制就是您可能遇到的问题和您的计算资源。 以下是一些有关 TensorFlow 下一步可以解决的问题的想法：
+
+*   图像中的叶子分类：
+
+    像字体一样，植物叶子在一个物种中具有相似的样式。 您是否可以修改在本课程中建立的模型，以仅使用图像识别物种？
+
+*   使用行车记录仪视频的路标识别：
+
+    假设您从长途旅行中获得了许多行车记录仪镜头。 高速公路上的路标可以为您提供许多信息，例如您在哪里以及应该走多快。 您可以建立一系列 TensorFlow 模型来查找素材中的速度限制吗？
+
+*   预测出行时间的运输研究：
+
+    此外，无论您的工作距离有多近，通勤时间都太长。 在交通和天气等当前条件下，您应该能够建立基于回归的模型来预测您的旅行时间。
+
+*   用于查找兼容日期的匹配算法：
+
+    最后，一家初创公司正在探索使用 TensorFlow 来寻找匹配算法。 如果将来算法会给您带来一个约会，请不要感到惊讶。
+
+基于 TensorFlow 的整洁项目太多，无法一一列举。 但是，有机会，您会发现与自己的兴趣有关的东西，如果没有，那是贡献自己的完美场所。 机器学习库很多，但是 TensorFlow 仍然存在。
+
+尽管本书侧重于深度学习，但 TensorFlow 是一个通用的图计算库。
+
+![Some more TensorFlow projects](img/00075.jpg)
+
+深度神经网络确实是 TensorFlow 能够很好处理的一小部分数据建模。 但是，正如您在第 1 章入门中的“简单计算”部分所看到的那样，在简单计算中，可以为图规定的任何操作都可以在 TensorFlow 中进行。 一个实际的例子是在 TensorFlow 中实现 K 均值聚类。
+
+更一般而言，可以很好地向量化并且需要某种训练的操作可能会受益于 TensorFlow 的使用。 这一切都说明您是 TensorFlow 的未来！
+
+TensorFlow 是开源的，并且一直在变化。 因此，您可以在 GitHub 上轻松贡献新功能。 这些可能是高度复杂的新模型类型或简单的文档更新。
+
+![Some more TensorFlow projects](img/00076.jpg)
+
+所有更改都可以改善库。 TensorFlow 的日益普及意味着您是最早掌握它的专业人士之一。 您在机器学习事业或研究中拥有优势。 而且由于它不仅仅是深度学习，所以无论您处于哪个领域，TensorFlow 都可能适用于它的某些方面。
+
+# 总结
+
+在本章中，我们回顾了如何从谦虚的 Logistic 回归模型爬升到使用深度卷积神经网络对字体进行分类的高度。 我们还讨论了 TensorFlow 的未来。 最后，我们回顾了用于字体分类的 TensorFlow 模型，并回顾了其准确率。 我们还花了一些时间来讨论 TensorFlow 的发展方向。 恭喜！ 您现在已经精通 TensorFlow。 您已将其应用于本系列中的多个研究问题和模型，并了解了其广泛应用。
+
+下一步是在您自己的项目中部署 TensorFlow。 造型愉快！
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/cover.jpg
new file mode 100644
index 00000000..793b940a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00001.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00001.jpg
new file mode 100644
index 00000000..6af75d41
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00001.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00002.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00002.jpg
new file mode 100644
index 00000000..42fc2c00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00002.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00003.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00003.jpg
new file mode 100644
index 00000000..90d89070
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00003.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00004.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00004.jpg
new file mode 100644
index 00000000..da9121db
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00004.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00005.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00005.jpg
new file mode 100644
index 00000000..acba82ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00005.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00006.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00006.jpg
new file mode 100644
index 00000000..19a2a4fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00006.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00007.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00007.jpg
new file mode 100644
index 00000000..967c66de
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00007.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00008.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00008.jpg
new file mode 100644
index 00000000..eb920ea0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00008.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00009.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00009.jpg
new file mode 100644
index 00000000..f94af938
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00009.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00010.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00010.jpg
new file mode 100644
index 00000000..5ef66b08
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00010.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00011.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00011.jpg
new file mode 100644
index 00000000..fd836c35
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00011.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00012.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00012.jpg
new file mode 100644
index 00000000..c7ad1047
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00012.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00013.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00013.jpg
new file mode 100644
index 00000000..21cdda21
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00013.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00014.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00014.jpg
new file mode 100644
index 00000000..021b2410
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00014.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00015.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00015.jpg
new file mode 100644
index 00000000..36857ac0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00015.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00016.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00016.jpg
new file mode 100644
index 00000000..b9209d9b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00016.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00017.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00017.jpg
new file mode 100644
index 00000000..a3f6c0c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00017.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00018.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00018.jpg
new file mode 100644
index 00000000..d4195c12
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00018.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00019.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00019.jpg
new file mode 100644
index 00000000..9c1cb214
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00019.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00020.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00020.jpg
new file mode 100644
index 00000000..edd468c2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00020.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00021.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00021.jpg
new file mode 100644
index 00000000..39f7eb94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00021.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00022.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00022.jpg
new file mode 100644
index 00000000..cdac7de8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00022.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00023.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00023.jpg
new file mode 100644
index 00000000..0c9c8552
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00023.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00024.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00024.jpg
new file mode 100644
index 00000000..72f31a9e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00024.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00025.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00025.jpg
new file mode 100644
index 00000000..4cb6ae14
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00025.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00026.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00026.jpg
new file mode 100644
index 00000000..0134ca35
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00026.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00027.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00027.jpg
new file mode 100644
index 00000000..45383769
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00027.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00028.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00028.jpg
new file mode 100644
index 00000000..87c99def
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00028.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00029.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00029.jpg
new file mode 100644
index 00000000..a089e793
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00029.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00030.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00030.jpg
new file mode 100644
index 00000000..85f22a1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00030.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00031.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00031.jpg
new file mode 100644
index 00000000..f10263b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00031.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00032.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00032.jpg
new file mode 100644
index 00000000..fe23f483
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00032.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00033.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00033.jpg
new file mode 100644
index 00000000..efc5ac24
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00033.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00034.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00034.jpg
new file mode 100644
index 00000000..d7673358
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00034.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00035.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00035.jpg
new file mode 100644
index 00000000..4d14aff9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00035.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00036.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00036.jpg
new file mode 100644
index 00000000..c679f0fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00036.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00037.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00037.jpg
new file mode 100644
index 00000000..ee2b55bb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00037.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00038.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00038.jpg
new file mode 100644
index 00000000..e307a4eb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00038.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00039.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00039.jpg
new file mode 100644
index 00000000..6242657e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00039.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00040.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00040.jpg
new file mode 100644
index 00000000..8b5e188e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00040.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00041.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00041.jpg
new file mode 100644
index 00000000..ebfef307
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00041.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00042.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00042.jpg
new file mode 100644
index 00000000..8168d233
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00042.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00043.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00043.jpg
new file mode 100644
index 00000000..e34b313b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00043.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00044.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00044.jpg
new file mode 100644
index 00000000..88d9b24b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00044.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00045.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00045.jpg
new file mode 100644
index 00000000..42493c2b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00045.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00046.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00046.jpg
new file mode 100644
index 00000000..56b2b544
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00046.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00047.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00047.jpg
new file mode 100644
index 00000000..448fd347
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00047.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00048.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00048.jpg
new file mode 100644
index 00000000..5c975ee7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00048.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00049.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00049.jpg
new file mode 100644
index 00000000..93f7e4e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00049.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00050.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00050.jpg
new file mode 100644
index 00000000..dac934ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00050.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00051.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00051.jpg
new file mode 100644
index 00000000..dd221e68
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00051.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00052.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00052.jpg
new file mode 100644
index 00000000..0e595c8c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00052.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00053.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00053.jpg
new file mode 100644
index 00000000..0541171d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00053.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00054.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00054.jpg
new file mode 100644
index 00000000..bdb727a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00054.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00055.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00055.jpg
new file mode 100644
index 00000000..f3513900
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00055.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00056.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00056.jpg
new file mode 100644
index 00000000..fcadb406
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00056.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00057.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00057.jpg
new file mode 100644
index 00000000..548883f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00057.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00058.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00058.jpg
new file mode 100644
index 00000000..f2cd1905
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00058.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00059.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00059.jpg
new file mode 100644
index 00000000..376cc865
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00059.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00060.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00060.jpg
new file mode 100644
index 00000000..e66bfaeb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00060.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00061.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00061.jpg
new file mode 100644
index 00000000..cc43af22
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00061.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00062.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00062.jpg
new file mode 100644
index 00000000..21b09d2f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00062.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00063.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00063.jpg
new file mode 100644
index 00000000..4055abdb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00063.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00064.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00064.jpg
new file mode 100644
index 00000000..e02eee5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00064.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00065.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00065.jpg
new file mode 100644
index 00000000..78947715
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00065.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00066.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00066.jpg
new file mode 100644
index 00000000..b37bc5bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00066.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00067.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00067.jpg
new file mode 100644
index 00000000..58e12968
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00067.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00068.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00068.jpg
new file mode 100644
index 00000000..3d611e46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00068.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00069.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00069.jpg
new file mode 100644
index 00000000..414e9f33
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00069.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00070.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00070.jpg
new file mode 100644
index 00000000..0a7a25b9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00070.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00071.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00071.jpg
new file mode 100644
index 00000000..a3b81e17
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00071.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00072.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00072.jpg
new file mode 100644
index 00000000..13b8b43a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00072.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00073.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00073.jpg
new file mode 100644
index 00000000..cb9682f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00073.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00074.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00074.jpg
new file mode 100644
index 00000000..fc3c424f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00074.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00075.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00075.jpg
new file mode 100644
index 00000000..ea668073
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00075.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00076.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00076.jpg
new file mode 100644
index 00000000..7c10d6ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-dl-tf-zh/img/00076.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/0.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/0.md
new file mode 100644
index 00000000..a6f4d9f8
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/0.md
@@ -0,0 +1,195 @@
+# 零、前言
+
+> 译者：[@小瑶](https://github.com/chenyyx)
+> 
+> 校对者：[@小瑶](https://github.com/chenyyx)
+
+## 1、机器学习海啸
+
+2006 年，Geoffrey Hinton 等人发表了一篇论文，展示了如何训练能够识别具有最新精度（> 98%）的手写数字的深度神经网络。他们称这种技术为“Deep Learning”。当时，深度神经网络的训练被广泛认为是不可能的，并且大多数研究人员自 20 世纪 90 年代以来就放弃了这个想法。这篇论文重新激起了科学界的兴趣，不久之后，许多新发表的论文表明，深度学习不仅是可能的，而且能够取得其他的 Machine Learning 技术都难以匹配的令人兴奋的成就（借助巨大的计算能力和大量的数据）。这种热情很快扩展到机器学习的许多的其他领域。
+
+Deep Learning 快速发展的 10 年间和机器学习已经征服了这个行业：它现在成为了当今高科技产品中的许多黑科技的核心，比如，为您的网络搜索结果排名，为智能手机的语音识别提供支持，为您推荐您喜欢的视频，在围棋游戏中击败世界冠军。在你知道之前，它都可能会驾驶您的汽车。
+
+## 2、您项目中的机器学习
+
+现在你是不是对机器学习感到兴奋，并且很乐意加入到这个阵营中？
+也许你希望给自己制造的机器人赋予一个自己的大脑？让它可以面部识别？还是学会到处走走？
+
+也许你的公司有大量的数据（用户日志，财务数据，生产数据，机器传感器数据，热线统计数据，人力资源报告等），如果你知道在哪方面观察，你可能会发现一些隐藏着的瑰宝。例如：
+* 细分客户，为每个团队找到最佳的营销策略
+* 根据类似客户购买的产品为每个客户推荐产品
+* 检测哪些交易可能是欺诈行为
+* 预测下一年的收入
+* 更多应用
+
+无论什么原因，你决定开始学习机器学习，并在你的项目中实施，这是一个好主意！
+
+## 3、目标和方法
+
+本书假定你对机器学习几乎一无所知。它的目标是给你实际实现能够从数据中学习的程序所需的概念，直觉和工具。
+
+我们将介绍大量的技术，从最简单的和最常用的（如线性回归）到一些定期赢得比赛的深度学习技术。
+
+我们将使用现成的 Python 框架，而不是实现我们自己的每个算法的玩具版本：
+
+* Scikit-learn 非常易于使用，并且实现了许多有效的机器学习算法，因此它为学习机器学习提供了一个很好的切入点。
+
+* TensorFlow 是使用数据流图进行分布式数值计算的更复杂的库。它通过在潜在的数千个多 GPU 服务器上分布式计算，可以高效地训练和运行非常大的神经网络。TensorFlow 是被 Google 创造的，支持其大型机器学习应用程序。于 2015 年 11 月开源。
+
+本书倾向于实际操作的方法，通过具体的实例和一点理论来增加对机器学习的直观理解。虽然你可以在不拿笔记本电脑的情况下阅读此书，但是我们强烈建议你通过 https://github.com/ageron/handson-ml 在线实现 Jupyter 笔记本上的代码示例。
+
+## 4、准备条件
+
+本书假定您有一些 Python 编程经验，并且比较熟悉 Python 的主要科学库，特别是 NumPy，Pandas 和 Matplotlib 。
+
+另外，如果你关心的是底层实现/原理，你应该对大学水平的数学（微积分，线性代数，概率和统计学）有一些了解。
+
+如果你还不了解 Python，http://learnpython.org/ 是你学习使用 Python 的好地方。 python.org 官方教程也是相当不错的。
+
+如果你从未使用过 Jupyter ，第 2 章将指导你完成安装和基本操作：它是你工具箱中的一个很好的工具。
+
+如果你不熟悉 Python 的科学库，提供的一些 Jupyter 笔记本包括了一些教程。还有一个线性代数的快速数学教程。
+
+## 5、路线图
+
+这本书分为两个部分。
+
+第一部分，机器学习的基础知识，涵盖以下主题：
+
+* 什么是机器学习？它被试图用来解决什么问题？机器学习系统的主要类别和基本概念是什么？
+* 典型的机器学习项目中的主要步骤。
+* 通过拟合数据来学习模型。
+* 优化成本函数（cost function）。
+* 处理，清洗和准备数据。
+* 选择和设计特征。
+* 使用交叉验证选择一个模型并调整超参数。
+* 机器学习的主要挑战，特别是欠拟合和过拟合（偏差和方差权衡）。
+* 对训练数据进行降维以对抗 the curse of dimensionality（维度诅咒）
+* 最常见的学习算法：线性和多项式回归， Logistic 回归，k-最近邻，支持向量机，决策树，随机森林和集成方法。
+
+第二部分，神经网络和深度学习，包括以下主题：
+
+* 什么是神经网络？它们有啥优势？
+* 使用 TensorFlow 构建和训练神经网络。
+* 最重要的神经网络架构：前馈神经网络，卷积网络，递归网络，长期短期记忆网络（LSTM）和自动编码器。
+* 训练深度神经网络的技巧。
+* 对于大数据集缩放神经网络。
+* 强化学习。
+
+第一部分主要基于 scikit-learn ，而第二部分则使用 TensorFlow 。
+
+注意：不要太急于深入学习到核心知识：深度学习无疑是机器学习中最令人兴奋的领域之一，但是你应该首先掌握基础知识。而且，大多数问题可以用较简单的技术很好地解决（而不需要深度学习），比如随机森林和集成方法（我们会在第一部分进行讨论）。如果你拥有足够的数据，计算能力和耐心，深度学习是最适合复杂的问题的，如图像识别，语音识别或自然语言处理。
+
+## 6、其他资源
+
+有许多资源可用于了解机器学习。Andrew Ng 在 Coursera 上的 [ML 课程](https://www.coursera.org/learn/machine-learning/)和 Geoffrey Hinton 关于[神经网络和深度学习](https://www.coursera.org/learn/neural-networks)的课程都是非常棒的，尽管这些课程需要大量的时间投入（大概是几个月）。 
+
+还有许多关于机器学习的比较有趣的网站，当然还包括 scikit-learn 出色的[用户指南](http://sklearn.apachecn.org/cn/0.19.0/user_guide.html)。你可能会喜欢上 [Dataquest](https://www.dataquest.io/) ，它提供了一个非常好的交互式教程，还有 ML 博客，比如那些在 [Quora](http://goo.gl/GwtU3A) 上列出来的博客。最后，[Deep Learning 网站](http://deeplearning.net/)有一个很好的资源列表来学习更多。
+
+当然，还有很多关于机器学习的其他介绍性书籍，特别是：
+
+* Joel Grus, Data Science from Scratch (O'Reilly). 这本书介绍了机器学习的基础知识，并在纯 Python 中实现了一些主要算法（从名字上看就可以知道，从头开始）。
+
+* Stephen Marsland, Machine Learning: An Algorithmic Perspective (Chapman andHall). 这本书对机器学习有一个很好的介绍，涵盖了广泛的主题，Python 中的代码示例（也是从零开始，但是使用 NumPy）。
+
+* Sebastian Raschka, Python Machine Learning (Packt Publishing). 本书也对机器学习有一个很好的介绍，但是利用了 Python 的开源库（Pylearn 2 和 Theano）。
+
+* Yaser S. Abu-Mostafa, Malik Magdon-Ismail, and Hsuan-Tien Lin, Learning fromData (AMLBook). 对 ML 有一个相对理论化的介绍，这本书提供了比较深刻的见解，特别是 bias/variance tradeoff （偏差/方差 权衡）（见第 4 章）。
+
+* Stuart Russell and Peter Norvig, Artificial Intelligence: A Modern Approach, 3rd
+Edition (Pearson).  这是一本很好的（并且很大）的书，涵盖了包括机器学习在内的大量主题。这有助于更加深刻地理解 ML 。
+
+最后，一个很好的学习方法就是加入 ML 竞赛网站，例如 kaggle.com ，这样可以让你在现实世界的问题上锻炼自己的技能，并从一些最好的 ML 专业人士那里获得帮助和见解。
+
+## 7、本书中的一些约定
+
+本书使用以下印刷约定：
+
+* 斜体 —— 指示新术语，网址，电子邮件地址，文件名和文件扩展名。
+
+* 等宽 —— 用于程序清单，以及段落内用于引用程序元素，如变量或函数名称，数据库，数据类型，环境变量，语句和关键字。
+
+* 等宽粗体 —— 显示应由用户逐字输入的命令或其他文本。
+
+* 等宽斜体 —— 显示应由用户提供的值或由上下文确定的值替换的文本。
+
+* 小松鼠图标 —— 此元素表示一个小提示或建议。
+
+* 小乌鸦图标 —— 此元素表示一个普通的说明。
+
+* 小蝎子图标 —— 此元素表示一个警告和注意。
+
+## 8、使用代码示例
+
+补充材料（代码示例，练习题等）可以从 https://github.com/ageron/handson-ml 下载。
+
+这本书是为了帮助你完成工作。一般来说，如果本书提供了示例代码，则可以在程序和文档中使用它。除非你复制了大部分代码，否则你无需联系我们获得许可。例如，编写使用本书中几个代码块的程序不需要许可。销售或者分发 O'Reilly 书籍的 CD-ROM 例子需要获得许可。
+
+通过引用本书和使用示例代码来回答问题并不需要获得许可。将大量来自本书的示例代码整合到产品文档中并不需要获得许可。
+
+我们感谢，但是并不要求，贡献。贡献通常包括标题，作者，出版商和 ISBN 。例如：“Hands-On Machine Learning withScikit-Learn and TensorFlow by Aurélien Géron (O'Reilly). Copyright 2017 AurélienGéron, 978-1-491-96229-9.”
+
+如果您觉得您对代码示例的使用超出了合理使用范围或上述权限，请随时联系我们：permissions@oreilly.com 。
+
+## 9、O'Reilly Safari
+
+Safari （以前被称为 Safari Books Online）是一个针对企业，政府，教育工作者和个人的基于会员的培训和参考平台。
+
+会员可以访问 250 多家发布商的数千本图书，培训视频，学习路径，互动教程和策划播放列表，其中包括 O'Reilly Media，哈佛商业评论，Prentice Hall 专业人员，Addison-Wesley 专业人员，Microsoft Press， Sams， Que， Peachpit Press， Adobe， Focal Press， Cisco Press 等。想要了解更多信息，请访问 http://oreilly.com/safari 。
+
+## 10、如何联系我们
+
+请向出版商发表有关本书的评论和问题：
+
+O'Reilly Media, Inc.
+
+1005 Gravenstein Highway North
+
+Sebastopol, CA 95472
+
+800-998-9938 （在美国或者加拿大）
+
+707-829-0515 （国际或地区）
+
+707-829-0104 （传真）
+
+我们有一个这本书的网页，在这里我们列出了勘误表，例子和任何额外的信息。你可以访问这个网页 http://bit.ly/hands-on-machine-learning-with-scikit-learn-and-tensorflow
+
+要评论或者询问有关本书的技术问题，请发送电子邮件到 bookquestions@oreilly.com 。
+
+有关我们的书籍，课程，会议和新闻的更多信息，请访问我们的网站 http://www.oreilly.com 。
+
+在 facebook 上找到我们： http://facebook.com/oreilly
+
+在 Twitter 上关注我们：http://twitter.com/oreillymedia
+
+在 Youtube 上观看我们的视频： http://www.youtube.com/oreillymedia
+
+
+## 11、致谢
+
+我要感谢我的 Google 同事，特别是 Youtube 视频分类小组，教给我很多关于机器学习的知识。没有他们，我永远无法开始这个项目。特别感谢我的个人 ML 专家：Clément Courbet, Julien Dubois, Mathias Kende, Daniel Kitachewsky, James Pack, Alexander Pak, Anosh Raj, Vitor Sessak, Wiktor Tomczak, Ingrid von Glehn, Rich Washington, 以及 Youtube Paris 的所有人。
+
+我非常感谢所有那些从繁忙的生活中抽出时间来仔细阅读我的书的人。感谢 Pete Warden 回答了我所有的 TensorFlow 的问题，回顾第二部分，提供了许多有趣的见解，当然也成为了 TensorFlow 核心团队的一员。你一定想要看看他的[博客](https://petewarden.com/)！非常感谢 Lukas Biewald 对第二部分的非常全面的审查：他毫不留情地尝试了所有的代码（并且发现了一些错误），做出了许多伟大的建议，而且他的热情是具有感染力的。你应该看看他的博客，和他的超酷的机器人！感谢 Justin Francis ，他也非常全面地审查了第二部分，特别是在第 16 章提到了错误并提供了很好的见解。你可以在 TensorFlow 上看到他的帖子！
+
+也非常感谢 David Andrzejewski，他审查了第一部分，提供了非常有用的反馈意见，确定了不明确的部分并提出了改进建议。查看一下他的网页吧。感谢 Grégoire Mesnil，他审查了第二部分，并提供了非常有趣的关于神经网络的实用建议。感谢 Eddy Hung, Salim Sémaoune, Karim Matrah, Ingrid von Glehn,Iain Smears, 和 Vincent Guilbeau 对第一部分的审查和建议。我还要感谢我的岳父，前数学老师 Michel Tessier ，现在是 Anton Chekhov 的一名优秀翻译，帮助我在本书中提供了一些非常好的数学和符号，并且审查了线性代数 Jupyter 笔记本。
+
+当然，对我亲爱的弟弟说一个巨大的 “谢谢” ，他测试了每一行代码，几乎在每个部分都提供了反馈，并鼓励我从第一行到最后一行。爱你，我的兄弟。
+
+非常感谢 O'Reilly 出色的员工，特别是 Nicole Tache ，他给出了深刻的反馈，并且总是开朗，鼓舞和乐于助人的。还要感谢 Marie Beaugureau, Ben Lorica, Mike Loukides, 和 Laurel Ruma 相信这个项目并帮助我确定其范围。感谢 Matt Hacker 和所有的 Atlasteam 回答了关于格式化，asciidoc 和 LaTeX 的所有技术团队问题，也感谢 Rachel Monaghan, Nick Adams, 和所有的制作团队进行了最终的审查和数百次的修正。
+
+最后但也很重要的一点，我非常感谢我的爱妻 Emmanuelle 和三个非常棒的孩子，Alexandre, Rémi, 和 Gabrielle ，在这本书中写了很多，问了很多问题（谁说不能教 7 岁的孩子神经网络？），甚至帮我送饼干和咖啡。你还梦想得到什么呢？
+
+
+
+
+
+
+
+
+
+
+
+
+
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/1.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/1.md
new file mode 100644
index 00000000..c987bd5d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/1.md
@@ -0,0 +1,532 @@
+# 一、机器学习概览
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+> 
+> 校对者：[@Lisanaaa](https://github.com/Lisanaaa)、[@飞龙](https://github.com/wizardforcel)、[@yanmengk](https://github.com/yanmengk)、[@Liu Shangfeng](https://github.com/codershangfeng)
+
+大多数人听到“机器学习”，往往会在脑海中勾勒出一个机器人：一个可靠的管家，或是一个可怕的终结者，这取决于你问的是谁。但是机器学习并不是未来的幻想，它已经来到我们身边了。事实上，一些特定领域已经应用机器学习几十年了，比如光学字符识别 （Optical Character Recognition，OCR）。但是直到 1990 年代，第一个影响了数亿人的机器学习应用才真正成熟，它就是垃圾邮件过滤器（spam filter）。虽然并不是一个有自我意识的天网系统（Skynet），垃圾邮件过滤器从技术上是符合机器学习的（它可以很好地进行学习，用户几乎不用再标记某个邮件为垃圾邮件）。后来出现了更多的数以百计的机器学习产品，支撑了更多你经常使用的产品和功能，从推荐系统到语音识别。
+
+机器学习的起点和终点分别是什么呢？确切的讲，机器进行学习是什么意思？如果我下载了一份维基百科的拷贝，我的电脑就真的学会了什么吗？它马上就变聪明了吗？在本章中，我们首先会澄清机器学习到底是什么，以及为什么你要使用它。
+
+然后，在我们出发去探索机器学习新大陆之前，我们要观察下地图，以便知道这片大陆上的主要地区和最明显的地标：监督学习 vs 非监督学习，在线学习 vs 批量学习，基于实例 vs 基于模型学习。然后，我们会学习一个典型的机器学习项目的工作流程，讨论可能碰到的难点，以及如何评估和微调一个机器学习系统。
+
+这一章介绍了大量每个数据科学家需要牢记在心的基础概念（和习语）。第一章只是概览（唯一不含有代码的一章），相当简单，但你要确保每一点都搞明白了，再继续进行学习本书其余章节。端起一杯咖啡，开始学习吧！
+
+> 提示：如果你已经知道了机器学习的所有基础概念，可以直接翻到第 2 章。如果你不确认，可以尝试回答本章末尾列出的问题，然后再继续。
+
+# 什么是机器学习？
+
+机器学习是通过编程让计算机从数据中进行学习的科学（和艺术）。
+
+下面是一个更广义的概念：
+
+机器学习是让计算机具有学习的能力，无需进行明确编程。 —— 亚瑟·萨缪尔，1959
+
+和一个工程性的概念：
+
+计算机程序利用经验`E`学习任务`T`，性能是`P`，如果针对任务`T`的性能`P`随着经验`E`不断增长，则称为机器学习。 —— 汤姆·米切尔，1997
+
+例如，你的垃圾邮件过滤器就是一个机器学习程序，它可以根据垃圾邮件（比如，用户标记的垃圾邮件）和普通邮件（非垃圾邮件，也称作 ham）学习标记垃圾邮件。用来进行学习的样例称作训练集。每个训练样例称作训练实例（或样本）。在这个例子中，任务`T`就是标记新邮件是否是垃圾邮件，经验`E`是训练数据，性能`P`需要定义：例如，可以使用正确分类的比例。这个性能指标称为准确率，通常用在分类任务中。
+
+如果你下载了一份维基百科的拷贝，你的电脑虽然有了很多数据，但不会马上变得聪明起来。因此，这不是机器学习。
+
+# 为什么使用机器学习？
+
+思考一下，你会如何使用传统的编程技术写一个垃圾邮件过滤器（图 1-1）：
+
+1.  你先观察下垃圾邮件一般都是什么样子。你可能注意到一些词或短语（比如`4U`、`credit card`、`free`、`amazing`）在邮件主题中频繁出现，也许还注意到发件人名字、邮件正文的格式，等等。
+    
+2.  你为观察到的规律写了一个检测算法，如果检测到了这些规律，程序就会标记邮件为垃圾邮件。
+    
+3.  测试程序，重复第 1 步和第 2 步，直到满足要求。
+    
+
+![](img/1-1.png)
+
+图 1-1 传统方法
+
+这个问题并不简单，你的程序很可能会变成一长串复杂的规则—— 这样就会很难维护。
+
+相反的，基于机器学习技术的垃圾邮件过滤器会自动学习哪个词和短语是垃圾邮件的预测值，通过与普通邮件比较，检测垃圾邮件中反常频次的词语格式（图 1-2）。这个程序短得多，更易维护，也更精确。
+
+![](img/1-2.png)
+
+图 1-2 机器学习方法
+
+进而，如果发送垃圾邮件的人发现所有包含`4U`的邮件都被屏蔽了，可能会转而使用`For U`。使用传统方法的垃圾邮件过滤器需要更新以标记`For U`。如果发送垃圾邮件的人持续更改，你就需要被动地不停地写入新规则。
+
+相反的，基于机器学习的垃圾邮件过滤器会自动注意到`For U`在用户手动标记垃圾邮件中的反常频繁性，然后就能自动标记垃圾邮件而无需干预了（图 1-3）。
+
+![](img/1-3.png)
+
+图 1-3 自动适应改变
+
+机器学习的另一个优点是善于处理对于传统方法太复杂或是没有已知算法的问题。例如，对于语言识别：假如想写一个可以识别`one`和`two`的简单程序。你可能注意到`two`起始是一个高音（`T`），所以可以写一个可以测量高音强度的算法，用它区分`one`和`two`。很明显，这个方法不能推广到嘈杂环境下的数百万人的数千词汇、数十种语言。（现在）最佳的方法是根据大量单词的录音，写一个可以自我学习的算法。
+
+最后，机器学习可以帮助人类进行学习（图 1-4）：可以检查机器学习算法已经掌握了什么（尽管对于某些算法，这样做会有点麻烦）。例如，当垃圾邮件过滤器被训练了足够多的垃圾邮件，就可以用它列出垃圾邮件预测值的单词和单词组合列表。有时，可能会发现不引人关注的关联或新趋势，有助于对问题更好的理解。
+
+![](img/1-4.png)
+
+图 1-4 机器学习可以帮助人类学习
+
+使用机器学习方法挖掘大量数据，可以发现并不显著的规律。这称作数据挖掘。
+
+总结一下，机器学习善于：
+
+*   需要进行大量手工调整或需要拥有长串规则才能解决的问题：机器学习算法通常可以简化代码、提高性能。
+    
+*   问题复杂，传统方法难以解决：最好的机器学习方法可以找到解决方案。
+    
+*   环境有波动：机器学习算法可以适应新数据。
+    
+*   洞察复杂问题和大量数据。
+    
+
+# 机器学习系统的类型
+
+机器学习有多种类型，可以根据如下规则进行分类：
+
+*   是否在人类监督下进行训练（监督，非监督，半监督和强化学习）
+*   是否可以动态渐进学习（在线学习 vs 批量学习）
+*   它们是否只是通过简单地比较新的数据点和已知的数据点，还是在训练数据中进行模式识别，以建立一个预测模型，就像科学家所做的那样（基于实例学习 vs 基于模型学习）
+
+规则并不仅限于以上的，你可以将他们进行组合。例如，一个先进的垃圾邮件过滤器可以使用神经网络模型动态进行学习，用垃圾邮件和普通邮件进行训练。这就让它成了一个在线、基于模型、监督学习系统。
+
+下面更仔细地学习这些规则。
+
+## 监督/非监督学习
+
+机器学习可以根据训练时监督的量和类型进行分类。主要有四类：监督学习、非监督学习、半监督学习和强化学习。
+
+### 监督学习
+
+在监督学习中，用来训练算法的训练数据包含了答案，称为标签（图 1-5）。
+
+![](img/1-5.png)
+
+图 1-5 用于监督学习（比如垃圾邮件分类）的加了标签的训练集
+
+一个典型的监督学习任务是分类。垃圾邮件过滤器就是一个很好的例子：用许多带有归类（垃圾邮件或普通邮件）的邮件样本进行训练，过滤器必须还能对新邮件进行分类。
+
+另一个典型任务是预测目标数值，例如给出一些特征（里程数、车龄、品牌等等）称作预测值，来预测一辆汽车的价格。这类任务称作回归（图 1-6）。要训练这个系统，你需要给出大量汽车样本，包括它们的预测值和标签（即，它们的价格）。
+
+> 注解：在机器学习中，一个属性就是一个数据类型（例如，“里程数”），取决于具体问题一个特征会有多个含义，但通常是属性加上它的值（例如，“里程数`=15000`”）。许多人是不区分地使用属性和特征。
+
+![](img/1-6.png)
+
+图 1-6 回归
+
+注意，一些回归算法也可以用来进行分类，反之亦然。例如，逻辑回归通常用来进行分类，它可以生成一个归属某一类的可能性的值（例如，20% 几率为垃圾邮件）。
+
+下面是一些重要的监督学习算法（本书都有介绍）：
+
+*   K 近邻算法
+*   线性回归
+*   逻辑回归
+*   支持向量机（SVM）
+*   决策树和随机森林  
+*   神经网络
+
+## 非监督学习
+
+在非监督学习中，你可能猜到了，训练数据是没有加标签的（图 1-7）。系统在没有老师的条件下进行学习。
+
+![](img/1-7.png)
+
+图 1-7 非监督学习的一个不加标签的训练集
+
+下面是一些最重要的非监督学习算法（我们会在第 8 章介绍降维）：
+
+*   **聚类**  
+    K 均值  
+    层次聚类分析（Hierarchical Cluster Analysis，HCA）  
+    期望最大值
+*   **可视化和降维**  
+    主成分分析（Principal Component Analysis，PCA）  
+    核主成分分析  
+    局部线性嵌入（Locally-Linear Embedding，LLE）  
+    t-分布邻域嵌入算法（t-distributed Stochastic Neighbor Embedding，t-SNE）
+*   **关联性规则学习**  
+    Apriori 算法  
+    Eclat 算法
+
+例如，假设你有一份关于你的博客访客的大量数据。你想运行一个聚类算法，检测相似访客的分组（图 1-8）。你不会告诉算法某个访客属于哪一类：它会自己找出关系，无需帮助。例如，算法可能注意到 40% 的访客是喜欢漫画书的男性，通常是晚上访问，20% 是科幻爱好者，他们是在周末访问等等。如果你使用层次聚类分析，它可能还会细分每个分组为更小的组。这可以帮助你为每个分组定位博文。
+
+![](img/1-8.png)
+
+图 1-8 聚类
+
+可视化算法也是极佳的非监督学习案例：给算法大量复杂的且不加标签的数据，算法输出数据的 2D 或 3D 图像（图 1-9）。算法会试图保留数据的结构（即尝试保留输入的独立聚类，避免在图像中重叠），这样就可以明白数据是如何组织起来的，也许还能发现隐藏的规律。
+
+![](img/1-9.png)
+
+图 1-9 t-SNE 可视化案例，突出了聚类（注：注意动物是与汽车分开的，马和鹿很近、与鸟距离远，以此类推）
+
+与此有关联的任务是降维，降维的目的是简化数据、但是不能失去大部分信息。做法之一是合并若干相关的特征。例如，汽车的里程数与车龄高度相关，降维算法就会将它们合并成一个，表示汽车的磨损。这叫做特征提取。
+
+> 提示：在用训练集训练机器学习算法（比如监督学习算法）时，最好对训练集进行降维。这样可以运行的更快，占用的硬盘和内存空间更少，有些情况下性能也更好。
+
+另一个重要的非监督任务是异常检测（anomaly detection） —— 例如，检测异常的信用卡转账以防欺诈，检测制造缺陷，或者在训练之前自动从训练数据集去除异常值。异常检测的系统使用正常值训练的，当它碰到一个新实例，它可以判断这个新实例是像正常值还是异常值（图 1-10）。
+
+![](img/1-10.png)
+
+图 1-10 异常检测
+
+最后，另一个常见的非监督任务是关联规则学习，它的目标是挖掘大量数据以发现属性间有趣的关系。例如，假设你拥有一个超市。在销售日志上运行关联规则，可能发现买了烧烤酱和薯片的人也会买牛排。因此，你可以将这些商品放在一起。
+
+## 半监督学习
+
+一些算法可以处理部分带标签的训练数据，通常是大量不带标签数据加上小部分带标签数据。这称作半监督学习（图 1-11）。
+
+一些图片存储服务，比如 Google Photos，是半监督学习的好例子。一旦你上传了所有家庭相片，它就能自动识别到人物 A 出现在了相片 1、5、11 中，另一个人 B 出现在了相片 2、5、7 中。这是算法的非监督部分（聚类）。现在系统需要的就是你告诉它这两个人是谁。只要给每个人一个标签，算法就可以命名每张照片中的每个人，特别适合搜索照片。
+
+![](img/1-11.png)
+
+图 1-11 半监督学习
+
+多数半监督学习算法是非监督和监督算法的结合。例如，深度信念网络（deep belief networks）是基于被称为互相叠加的受限玻尔兹曼机（restricted Boltzmann machines，RBM）的非监督组件。RBM 是先用非监督方法进行训练，再用监督学习方法对整个系统进行微调。
+
+## 强化学习
+
+强化学习非常不同。学习系统在这里被称为智能体（agent），可以对环境进行观察、选择和执行动作，并获得奖励作为回报（负奖励是惩罚，见图 1-12）。然后它必须自己学习哪个是最佳方法（称为策略，policy），以得到长久的最大奖励。策略决定了智能体在给定情况下应该采取的行动。
+
+![](img/1-12.png)
+
+图 1-12 强化学习
+
+例如，许多机器人运行强化学习算法以学习如何行走。DeepMind 的 AlphaGo 也是强化学习的例子：它在 2016 年三月击败了世界围棋冠军李世石（译者注：2017 年五月，AlphaGo 又击败了世界排名第一的柯洁）。它是通过分析数百万盘棋局学习制胜策略，然后自己和自己下棋。要注意，在比赛中机器学习是关闭的；AlphaGo 只是使用它学会的策略。
+
+# 批量和在线学习
+
+另一个用来分类机器学习的准则是，它是否能从导入的数据流进行持续学习。
+
+## 批量学习
+
+在批量学习中，系统不能进行持续学习：必须用所有可用数据进行训练。这通常会占用大量时间和计算资源，所以一般是线下做的。首先是进行训练，然后部署在生产环境且停止学习，它只是使用已经学到的策略。这称为离线学习。
+
+如果你想让一个批量学习系统明白新数据（例如垃圾邮件的新类型），就需要从头训练一个系统的新版本，使用全部数据集（不仅有新数据也有老数据），然后停掉老系统，换上新系统。
+
+幸运的是，训练、评估、部署一套机器学习的系统的整个过程可以自动进行（见图 1-3），所以即便是批量学习也可以适应改变。只要有需要，就可以方便地更新数据、训练一个新版本。
+
+这个方法很简单，通常可以满足需求，但是用全部数据集进行训练会花费大量时间，所以一般是每 24 小时或每周训练一个新系统。如果系统需要快速适应变化的数据（比如，预测股价变化），就需要一个响应更及时的方案。
+
+另外，用全部数据训练需要大量计算资源（CPU、内存空间、磁盘空间、磁盘 I/O、网络 I/O 等等）。如果你有大量数据，并让系统每天自动从头开始训练，就会开销很大。如果数据量巨大，甚至无法使用批量学习算法。
+
+最后，如果你的系统需要自动学习，但是资源有限（比如，一台智能手机或火星车），携带大量训练数据、每天花费数小时的大量资源进行训练是不实际的。
+
+幸运的是，对于上面这些情况，还有一个更佳的方案可以进行持续学习。
+
+## 在线学习
+
+在在线学习中，是用数据实例持续地进行训练，可以一次一个或一次几个实例（称为小批量）。每个学习步骤都很快且廉价，所以系统可以动态地学习收到的最新数据（见图 1-13）。
+
+![](img/1-13.png)
+
+图 1-13 在线学习
+
+在线学习很适合系统接收连续流的数据（比如，股票价格），且需要自动对改变作出调整。如果计算资源有限，在线学习是一个不错的方案：一旦在线学习系统学习了新的数据实例，它就不再需要这些数据了，所以扔掉这些数据（除非你想滚回到之前的一个状态，再次使用数据）。这样可以节省大量的空间。
+
+在线学习算法也适用于在超大数据集（一台计算机不足以用于存储它）上训练系统（这称作核外学习，*out-of-core* learning）。算法每次只加载部分数据，用这些数据进行训练，然后重复这个过程，直到使用完所有数据（见图 1-14）。
+
+> 警告：这个整个过程通常是离线完成的（即，不在部署的系统上），所以在线学习这个名字会让人疑惑。可以把它想成持续学习。
+
+![](img/1-14.png)
+
+图 1-14 使用在线学习处理大量数据集
+
+在线学习系统的一个重要参数是，它们可以多快地适应数据的改变：这被称为学习速率。如果你设定一个高学习速率，系统就可以快速适应新数据，但是也会快速忘记老数据（你可不想让垃圾邮件过滤器只标记最新的垃圾邮件种类）。相反的，如果你设定的学习速率低，系统的惰性就会强：即，它学的更慢，但对新数据中的噪声或没有代表性的数据点结果不那么敏感。
+
+在线学习的挑战之一是，如果坏数据被用来进行训练，系统的性能就会逐渐下滑。如果这是一个部署的系统，用户就会注意到。例如，坏数据可能来自失灵的传感器或机器人，或某人向搜索引擎传入垃圾信息以提高搜索排名。要减小这种风险，你需要密集监测，如果检测到性能下降，要快速关闭（或是滚回到一个之前的状态）。你可能还要监测输入数据，对反常数据做出反应（比如，使用异常检测算法）。
+
+# 基于实例 vs 基于模型学习
+
+另一种分类机器学习的方法是判断它们是如何进行归纳推广的。大多机器学习任务是关于预测的。这意味着给定一定数量的训练样本，系统需要能推广到之前没见到过的样本。对训练数据集有很好的性能还不够，真正的目标是对新实例预测的性能。
+
+有两种主要的归纳方法：基于实例学习和基于模型学习。
+
+## 基于实例学习
+
+也许最简单的学习形式就是用记忆学习。如果用这种方法做一个垃圾邮件检测器，只需标记所有和用户标记的垃圾邮件相同的邮件 —— 这个方法不差，但肯定不是最好的。
+
+不仅能标记和已知的垃圾邮件相同的邮件，你的垃圾邮件过滤器也要能标记类似垃圾邮件的邮件。这就需要测量两封邮件的相似性。一个（简单的）相似度测量方法是统计两封邮件包含的相同单词的数量。如果一封邮件含有许多垃圾邮件中的词，就会被标记为垃圾邮件。
+
+这被称作基于实例学习：系统先用记忆学习案例，然后使用相似度测量推广到新的例子（图 1-15）。
+
+![](img/1-15.png)
+
+图 1-15 基于实例学习
+
+## 基于模型学习
+
+另一种从样本集进行归纳的方法是建立这些样本的模型，然后使用这个模型进行预测。这称作基于模型学习（图 1-16）。
+
+![](img/1-16.png)
+
+图 1-16 基于模型学习
+
+例如，你想知道钱是否能让人快乐，你从 [OECD 网站](http://stats.oecd.org/index.aspx?DataSetCode=BLI)下载了 Better Life Index 指数数据，还从 [IMF](http://www.imf.org/external/pubs/ft/weo/2016/01/weodata/weorept.aspx?pr.x=32&pr.y=8&sy=2015&ey=2015&scsm=1&ssd=1&sort=country&ds=.&br=1&c=512%2C668%2C914%2C672%2C612%2C946%2C614%2C137%2C311%2C962%2C213%2C674%2C911%2C676%2C193%2C548%2C122%2C556%2C912%2C678%2C313%2C181%2C419%2C867%2C513%2C682%2C316%2C684%2C913%2C273%2C124%2C868%2C339%2C921%2C638%2C948%2C514%2C943%2C218%2C686%2C963%2C688%2C616%2C518%2C223%2C728%2C516%2C558%2C918%2C138%2C748%2C196%2C618%2C278%2C624%2C692%2C522%2C694%2C622%2C142%2C156%2C449%2C626%2C564%2C628%2C565%2C228%2C283%2C924%2C853%2C233%2C288%2C632%2C293%2C636%2C566%2C634%2C964%2C238%2C182%2C662%2C453%2C960%2C968%2C423%2C922%2C935%2C714%2C128%2C862%2C611%2C135%2C321%2C716%2C243%2C456%2C248%2C722%2C469%2C942%2C253%2C718%2C642%2C724%2C643%2C576%2C939%2C936%2C644%2C961%2C819%2C813%2C172%2C199%2C132%2C733%2C646%2C184%2C648%2C524%2C915%2C361%2C134%2C362%2C652%2C364%2C174%2C732%2C328%2C366%2C258%2C734%2C656%2C144%2C654%2C146%2C336%2C463%2C263%2C528%2C268%2C923%2C532%2C738%2C944%2C578%2C176%2C537%2C534%2C742%2C536%2C866%2C429%2C369%2C433%2C744%2C178%2C186%2C436%2C925%2C136%2C869%2C343%2C746%2C158%2C926%2C439%2C466%2C916%2C112%2C664%2C111%2C826%2C298%2C542%2C927%2C967%2C846%2C443%2C299%2C917%2C582%2C544%2C474%2C941%2C754%2C446%2C698%2C666&s=NGDPDPC&grp=0&a=) 下载了人均 GDP 数据。表 1-1 展示了摘要。
+
+![](img/t-1-1.png)
+
+表 1-1 钱会使人幸福吗？
+
+用一些国家的数据画图（图 1-17）。
+
+![](img/1-17.png)
+
+图 1-17 你看到趋势了吗？
+
+确实能看到趋势！尽管数据有噪声（即，部分随机），看起来生活满意度是随着人均 GDP 的增长线性提高的。所以，你决定生活满意度建模为人均 GDP 的线性函数。这一步称作模型选择：你选一个生活满意度的线性模型，只有一个属性，人均 GDP（公式 1-1）。
+
+![](img/o-1-1.png)
+
+公式 1-1 一个简单的线性模型
+
+这个模型有两个参数`θ0`和`θ1`。通过调整这两个参数，你可以使你的模型表示任何线性函数，见图 1-18。
+
+![](img/1-18.png)
+
+图 1-18 几个可能的线性模型
+
+在使用模型之前，你需要确定`θ0`和`θ1`。如何能知道哪个值可以使模型的性能最佳呢？要回答这个问题，你需要指定性能的量度。你可以定义一个实用函数（或拟合函数）用来测量模型是否够好，或者你可以定义一个代价函数来测量模型有多差。对于线性回归问题，人们一般是用代价函数测量线性模型的预测值和训练样本之间的距离差，目标是使距离差最小。
+
+接下来就是线性回归算法，你用训练样本训练算法，算法找到使线性模型最拟合数据的参数。这称作模型训练。在我们的例子中，算法得到的参数值是`θ0=4.85`和`θ1=4.91×10–5`。
+
+现在模型已经最紧密地拟合到训练数据了，见图 1-19。
+
+![](img/1-19.png)
+
+图 1-19 最佳拟合训练数据的线性模型
+
+最后，可以准备运行模型进行预测了。例如，假如你想知道塞浦路斯人有多幸福，但 OECD 没有它的数据。幸运的是，你可以用模型进行预测：查询塞浦路斯的人均 GDP，为 22587 美元，然后应用模型得到生活满意度，后者的值在`4.85 + 22,587 × 4.91 × 10-5 = 5.96`左右。
+
+为了激起你的兴趣，案例 1-1 展示了加载数据、准备、创建散点图的 Python 代码，然后训练线性模型并进行预测。
+
+案例 1-1，使用 Scikit-Learn 训练并运行线性模型。
+
+```py
+import matplotlib
+import matplotlib.pyplot as plt
+import numpy as np
+import pandas as pd
+import sklearn
+
+# 加载数据
+oecd_bli = pd.read_csv("oecd_bli_2015.csv", thousands=',')
+gdp_per_capita = pd.read_csv("gdp_per_capita.csv",thousands=',',delimiter='\t',
+                             encoding='latin1', na_values="n/a")
+
+# 准备数据
+country_stats = prepare_country_stats(oecd_bli, gdp_per_capita)
+X = np.c_[country_stats["GDP per capita"]]
+y = np.c_[country_stats["Life satisfaction"]]
+
+# 可视化数据
+country_stats.plot(kind='scatter', x="GDP per capita", y='Life satisfaction')
+plt.show()
+
+# 选择线性模型
+lin_reg_model = sklearn.linear_model.LinearRegression()
+
+# 训练模型
+lin_reg_model.fit(X, y)
+
+# 对塞浦路斯进行预测
+X_new = [[22587]]  # 塞浦路斯的人均 GDP
+print(lin_reg_model.predict(X_new)) # outputs [[ 5.96242338]]
+
+```
+
+> 注解：如果你之前接触过基于实例学习算法，你会发现斯洛文尼亚的人均 GDP（20732 美元）和塞浦路斯差距很小，OECD 数据上斯洛文尼亚的生活满意度是 5.7，就可以预测塞浦路斯的生活满意度也是 5.7。如果放大一下范围，看一下接下来两个临近的国家，你会发现葡萄牙和西班牙的生活满意度分别是 5.1 和 6.5。对这三个值进行平均得到 5.77，就和基于模型的预测值很接近。这个简单的算法叫做 k 近邻回归（这个例子中，`k=3`）。
+> 
+> 在前面的代码中替换线性回归模型为 K 近邻模型，只需更换下面一行：
+> 
+> ```py
+> clf = sklearn.linear_model.LinearRegression()
+> 
+> ```
+> 
+> 为：
+> 
+> ```py
+> clf = sklearn.neighbors.KNeighborsRegressor(n_neighbors=3)
+> 
+> ```
+
+如果一切顺利，你的模型就可以作出好的预测。如果不能，你可能需要使用更多的属性（就业率、健康、空气污染等等），获取更多更好的训练数据，或选择一个更好的模型（比如，多项式回归模型）。
+
+总结一下：
+
+*   研究数据
+*   选择模型
+*   用训练数据进行训练（即，学习算法搜寻模型参数值，使代价函数最小）
+*   最后，使用模型对新案例进行预测（这称作推断），但愿这个模型推广效果不差
+
+这就是一个典型的机器学习项目。在第 2 章中，你会第一手地接触一个完整的项目。
+
+我们已经学习了许多关于基础的内容：你现在知道了机器学习是关于什么的、为什么它这么有用、最常见的机器学习的分类、典型的项目工作流程。现在，让我们看一看学习中会发生什么错误，导致不能做出准确的预测。
+
+# 机器学习的主要挑战
+
+简而言之，因为你的主要任务是选择一个学习算法并用一些数据进行训练，会导致错误的两件事就是“错误的算法”和“错误的数据”。我们从错误的数据开始。
+
+## 训练数据量不足
+
+要让一个蹒跚学步的孩子知道什么是苹果，需要做的就是指着一个苹果说“苹果”（可能需要重复这个过程几次）。现在这个孩子就能认识所有形状和颜色的苹果。真是个天才！
+
+机器学习还达不到这个程度；需要大量数据，才能让多数机器学习算法正常工作。即便对于非常简单的问题，一般也需要数千的样本，对于复杂的问题，比如图像或语音识别，你可能需要数百万的样本（除非你能重复使用部分存在的模型）。
+
+> 数据的不可思议的有效性
+> 
+> 在一篇 2001 年发表的[著名论文](http://ucrel.lancs.ac.uk/acl/P/P01/P01-1005.pdf)中，微软研究员 Michele Banko 和 Eric Brill 展示了不同的机器学习算法，包括非常简单的算法，一旦有了大量数据进行训练，在进行去除语言歧义的测试中几乎有相同的性能（见图 1-20）。
+> 
+> ![](img/1-20.png)
+> 
+> 图 1-20 数据和算法的重要性对比
+> 
+> 论文作者说：“结果说明，我们可能需要重新考虑在算法开发 vs 语料库发展上花费时间和金钱的取舍。”
+> 
+> 对于复杂问题，数据比算法更重要的主张在 2009 年由 Norvig 发表的论文[《数据的不合理有效性》](https://link.jianshu.com?t=http%3A%2F%2Fstatic.googleusercontent.com%2Fmedia%2Fresearch.google.com%2Ffr%2F%2Fpubs%2Farchive%2F35179.pdf)得到了进一步的推广。但是，应该注意到，小型和中型的数据集仍然是非常常见的，获得额外的训练数据并不总是轻易和廉价的，所以不要抛弃算法。
+
+## 没有代表性的训练数据
+
+为了更好地进行归纳推广，让训练数据对新数据具有代表性是非常重要的。无论你用的是基于实例学习或基于模型学习，这点都很重要。
+
+例如，我们之前用来训练线性模型的国家集合不够具有代表性：缺少了一些国家。图 1-21 展示了添加这些缺失国家之后的数据。
+
+![](img/1-21.png)
+
+图 1-21 一个更具代表性的训练样本
+
+如果你用这份数据训练线性模型，得到的是实线，旧模型用虚线表示。可以看到，添加几个国家不仅可以显著地改变模型，它还说明如此简单的线性模型可能永远不会达到很好的性能。貌似非常富裕的国家没有中等富裕的国家快乐（事实上，非常富裕的国家看起来更不快乐），相反的，一些贫穷的国家看上去比富裕的国家还幸福。
+
+使用了没有代表性的数据集，我们训练了一个不可能得到准确预测的模型，特别是对于非常贫穷和非常富裕的国家。
+
+使用具有代表性的训练集对于推广到新案例是非常重要的。但是做起来比说起来要难：如果样本太小，就会有样本噪声（即，会有一定概率包含没有代表性的数据），但是即使是非常大的样本也可能没有代表性，如果取样方法错误的话。这叫做样本偏差。
+
+> 一个样本偏差的著名案例
+> 
+> 也许关于样本偏差最有名的案例发生在 1936 年兰登和罗斯福的美国大选：《文学文摘》做了一个非常大的民调，给 1000 万人邮寄了调查信。得到了 240 万回信，非常有信心地预测兰登会以 57% 赢得大选。然而，罗斯福赢得了 62% 的选票。错误发生在《文学文摘》的取样方法：
+> 
+> *   首先，为了获取发信地址，《文学文摘》使用了电话黄页、杂志订阅用户、俱乐部会员等相似的列表。所有这些列表都偏向于富裕人群，他们都倾向于投票给共和党（即兰登）。
+> *   第二，只有 25% 的回答了调研。这就又一次引入了样本偏差，它排除了不关心政治的人、不喜欢《文学文摘》的人，和其它关键人群。这种特殊的样本偏差称作无应答偏差。
+> 
+> 下面是另一个例子：假如你想创建一个能识别放克音乐（Funk Music, 别名骚乐）视频的系统。建立训练集的方法之一是在 YouTube 上搜索“放克音乐”，使用搜索到的视频。但是这样就假定了 YouTube 的搜索引擎返回的视频集，是对 YouTube 上的所有放克音乐有代表性的。事实上，搜索结果可能更偏向于流行歌手（如果你居住在巴西，你会得到许多“funk carioca”视频，它们和 James Brown 的截然不同）。从另一方面来讲，你还能怎么得到一个大的训练集呢？
+
+## 低质量数据
+
+很明显，如果训练集中的错误、异常值和噪声（错误测量引入的）太多，系统检测出潜在规律的难度就会变大，性能就会降低。花费时间对训练数据进行清理是十分重要的。事实上，大多数据科学家的一大部分时间是做清洗工作的。例如：
+
+*   如果一些实例是明显的异常值，最好删掉它们或尝试手工修改错误；
+*   如果一些实例缺少特征（比如，你的 5% 的顾客没有说明年龄），你必须决定是否忽略这个属性、忽略这些实例、填入缺失值（比如，年龄中位数），或者训练一个含有这个特征的模型和一个不含有这个特征的模型，等等。
+
+## 不相关的特征
+
+俗语说：如果进来的是垃圾，那么出去的也是垃圾。你的系统只有在训练数据包含足够相关特征、非相关特征不多的情况下，才能进行学习。机器学习项目成功的关键之一是用好的特征进行训练。这个过程称作特征工程，包括：
+
+*   特征选择：在所有存在的特征中选取最有用的特征进行训练。
+*   特征提取：组合存在的特征，生成一个更有用的特征（如前面看到的，可以使用降维算法）。
+*   收集新数据创建新特征。
+
+现在，我们已经看过了许多坏数据的例子，接下来看几个坏算法的例子。
+
+## 过拟合训练数据
+
+如果你在外国游玩，当地的出租车司机多收了你的钱。你可能会说这个国家所有的出租车司机都是小偷。过度归纳是我们人类经常做的，如果我们不小心，机器也会犯同样的错误。在机器学习中，这称作过拟合：意思是说，模型在训练数据上表现很好，但是推广效果不好。
+
+图 1-22 展示了一个高阶多项式生活满意度模型，它大大过拟合了训练数据。即使它比简单线性模型在训练数据上表现更好，你会相信它的预测吗？
+
+![](img/1-22.png)
+
+图 1-22 过拟合训练数据
+
+复杂的模型，比如深度神经网络，可以检测数据中的细微规律，但是如果训练集有噪声，或者训练集太小（太小会引入样本噪声），模型就会去检测噪声本身的规律。很明显，这些规律不能推广到新实例。例如，假如你用更多的属性训练生活满意度模型，包括不包含信息的属性，比如国家的名字。如此一来，复杂的模型可能会检测出训练集中名字有`w`字母的国家的生活满意度大于 7：新西兰（7.3），挪威（7.4），瑞典（7.2）和瑞士（7.5）。你能相信这个 W-满意度法则推广到卢旺达和津巴布韦吗？很明显，这个规律只是训练集数据中偶然出现的，但是模型不能判断这个规律是真实的、还是噪声的结果。
+
+> 警告：过拟合发生在相对于训练数据的量和噪声，模型过于复杂的情况。可能的解决方案有：
+> 
+> *   简化模型，可以通过选择一个参数更少的模型（比如使用线性模型，而不是高阶多项式模型）、减少训练数据的属性数、或限制一下模型
+> *   收集更多的训练数据
+> *   减小训练数据的噪声（比如，修改数据错误和去除异常值）
+
+限定一个模型以让它更简单并且降低过拟合的风险被称作正则化（regularization）。例如，我们之前定义的线性模型有两个参数，`θ0`和`θ1`。它给了学习算法两个自由度以让模型适应训练数据：可以调整截距`θ0`和斜率`θ1`。如果强制`θ1=0`，算法就只剩一个自由度，拟合数据就会更为困难：它所能做的只是将拟合曲线上下移动去尽可能地靠近训练实例，结果会在平均值附近。这就是一个非常简单的模型！如果我们允许算法可以修改`θ1`，但是只能在一个很小的范围内修改，算法的自由度就会介于 1 和 2 之间。它要比两个自由度的模型简单，比 1 个自由度的模型要复杂。你的目标是在完美拟合数据和保持模型简单性上找到平衡，确保算法的推广效果。
+
+图 1-23 展示了三个模型：虚线表示用一些缺失国家的数据训练的原始模型，短划线是我们的第二个用所有国家训练的模型，实线模型的训练数据和第一个相同，但进行了正则化限制。你可以看到正则化强制模型有一个小的斜率，它对训练数据的拟合不是那么好，但是对新样本的推广效果好。
+
+![](img/1-23.png)
+
+图 1-23 正则化降低了过度拟合的风险
+
+正则化的度可以用一个超参数（hyperparameter）控制。超参数是一个学习算法的参数（而不是模型的）。这样，它是不会被学习算法本身影响的，它优于训练，在训练中是保持不变的。如果你设定的超参数非常大，就会得到一个几乎是平的模型（斜率接近于 0）；这种学习算法几乎肯定不会过拟合训练数据，但是也很难得到一个好的解。调节超参数是创建机器学习算法非常重要的一部分（下一章你会看到一个详细的例子）。
+
+## 欠拟合训练数据
+
+你可能猜到了，欠拟合是和过拟合相对的：当你的模型过于简单时就会发生。例如，生活满意度的线性模型倾向于欠拟合；现实要比这个模型复杂的多，所以预测很难准确，即使在训练样本上也很难准确。
+
+解决这个问题的选项包括：
+
+*   选择一个更强大的模型，带有更多参数
+*   用更好的特征训练学习算法（特征工程）
+*   减小对模型的限制（比如，减小正则化超参数）
+
+## 回顾
+
+现在，你已经知道了很多关于机器学习的知识。然而，学过了这么多概念，你可能会感到有些迷失，所以让我们退回去，回顾一下重要的：
+
+*   机器学习是让机器通过学习数据对某些任务做得更好，而不使用确定的代码规则。
+*   有许多不同类型的机器学习系统：监督或非监督，批量或在线，基于实例或基于模型，等等。
+*   在机器学习项目中，我们从训练集中收集数据，然后对学习算法进行训练。如果算法是基于模型的，就调节一些参数，让模型拟合到训练集（即，对训练集本身作出好的预测），然后希望它对新样本也能有好预测。如果算法是基于实例的，就是用记忆学习样本，然后用相似度推广到新实例。
+*   如果训练集太小、数据没有代表性、含有噪声、或掺有不相关的特征（垃圾进，垃圾出），系统的性能不会好。最后，模型不能太简单（会发生欠拟合）或太复杂（会发生过拟合）。
+
+还差最后一个主题要学习：训练完了一个模型，你不只希望将它推广到新样本。如果你想评估它，那么还需要作出必要的微调。一起来看一看。
+
+# 测试和确认
+
+要知道一个模型推广到新样本的效果，唯一的办法就是真正的进行试验。一种方法是将模型部署到生产环境，观察它的性能。这么做可以，但是如果模型的性能很差，就会引起用户抱怨 —— 这不是最好的方法。
+
+更好的选项是将你的数据分成两个集合：训练集和测试集。正如它们的名字，用训练集进行训练，用测试集进行测试。对新样本的错误率称作推广错误（或样本外错误），通过模型对测试集的评估，你可以预估这个错误。这个值可以告诉你，你的模型对新样本的性能。
+
+如果训练错误率低（即，你的模型在训练集上错误不多），但是推广错误率高，意味着模型对训练数据过拟合。
+
+> 提示：一般使用 80% 的数据进行训练，保留 20% 用于测试。
+
+因此，评估一个模型很简单：只要使用测试集。现在假设你在两个模型之间犹豫不决（比如一个线性模型和一个多项式模型）：如何做决定呢？一种方法是两个都训练，，然后比较在测试集上的效果。
+
+现在假设线性模型的效果更好，但是你想做一些正则化以避免过拟合。问题是：如何选择正则化超参数的值？一种选项是用 100 个不同的超参数训练 100 个不同的模型。假设你发现最佳的超参数的推广错误率最低，比如只有 5%。然后就选用这个模型作为生产环境，但是实际中性能不佳，误差率达到了 15%。发生了什么呢？
+
+答案在于，你在测试集上多次测量了推广误差率，调整了模型和超参数，以使模型最适合这个集合。这意味着模型对新数据的性能不会高。
+
+这个问题通常的解决方案是，再保留一个集合，称作验证集合。用训练集和多个超参数训练多个模型，选择在验证集上有最佳性能的模型和超参数。当你对模型满意时，用测试集再做最后一次测试，以得到推广误差率的预估。
+
+为了避免“浪费”过多训练数据在验证集上，通常的办法是使用交叉验证：训练集分成互补的子集，每个模型用不同的子集训练，再用剩下的子集验证。一旦确定模型类型和超参数，最终的模型使用这些超参数和全部的训练集进行训练，用测试集得到推广误差率。
+
+> 没有免费午餐公理
+> 
+> 模型是观察的简化版本。简化意味着舍弃无法进行推广的表面细节。但是，要确定舍弃什么数据、保留什么数据，必须要做假设。例如，线性模型的假设是数据基本上是线性的，实例和模型直线间的距离只是噪音，可以放心忽略。
+> 
+> 在一篇 1996 年的[著名论文](https://www.zabaras.com/Courses/BayesianComputing/Papers/lack_of_a_priori_distinctions_wolpert.pdf)中，David Wolpert 证明，如果完全不对数据做假设，就没有理由选择一个模型而不选另一个。这称作没有免费午餐（NFL）公理。对于一些数据集，最佳模型是线性模型，而对其它数据集是神经网络。没有一个模型可以保证效果更好（如这个公理的名字所示）。确信的唯一方法就是测试所有的模型。因为这是不可能的，实际中就必须要做一些对数据合理的假设，只评估几个合理的模型。例如，对于简单任务，你可能是用不同程度的正则化评估线性模型，对于复杂问题，你可能要评估几个神经网络模型。
+
+# 练习
+
+本章中，我们学习了一些机器学习中最为重要的概念。下一章，我们会更加深入，并写一些代码。开始下章之前，确保你能回答下面的问题：
+
+1.  如何定义机器学习？
+2.  机器学习可以解决的四类问题？
+3.  什么是带标签的训练集？
+4.  最常见的两个监督任务是什么？
+5.  指出四个常见的非监督任务？
+6.  要让一个机器人能在各种未知地形行走，你会采用什么机器学习算法？
+7.  要对你的顾客进行分组，你会采用哪类算法？
+8.  垃圾邮件检测是监督学习问题，还是非监督学习问题？
+9.  什么是在线学习系统？
+10.  什么是核外学习？
+11.  什么学习算法是用相似度做预测？
+12.  模型参数和学习算法的超参数的区别是什么？
+13.  基于模型学习的算法搜寻的是什么？最成功的策略是什么？基于模型学习如何做预测？
+14.  机器学习的四个主要挑战是什么？
+15.  如果模型在训练集上表现好，但推广到新实例表现差，问题是什么？给出三个可能的解决方案。
+16.  什么是测试集，为什么要使用它？
+17.  验证集的目的是什么？
+18.  如果用测试集调节超参数，会发生什么？
+19.  什么是交叉验证，为什么它比验证集好？
+
+练习答案见附录 A。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/10.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/10.md
new file mode 100644
index 00000000..44db8331
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/10.md
@@ -0,0 +1,1119 @@
+# 十、使用 Keras 搭建人工神经网络
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+
+鸟类启发人类飞翔，东洋参启发了魔术贴的发明，大自然启发人类实现了无数发明创造。通过研究大脑来制造智能机器，也符合这个逻辑。人工神经网络（ANN）就是沿着这条逻辑诞生的：人工神经网络是受大脑中的生物神经元启发而来的机器学习模型。但是，虽然飞机是受鸟儿启发而来的，飞机却不用挥动翅膀。相似的，人工神经网络和生物神经元网络也是具有不同点的。一些研究者甚至认为，应该彻底摒弃这种生物学类比：例如，用“单元”取代“神经元”，以免人们将创造力局限于生物学系统的合理性上。
+
+人工神经网络是深度学习的核心，它不仅样式多样、功能强大，还具有可伸缩性，这让人工神经网络适宜处理庞大且复杂的机器学习任务，例如对数十亿张图片分类（谷歌图片）、语音识别（苹果 Siri）、向数亿用户每天推荐视频（Youtube）、或者通过学习几百围棋世界冠军（DeepMind 的 AlphaGo）。
+
+本章的第一部分会介绍人工神经网络，从一个简单的 ANN 架构开始，然后过渡到多层感知机（MLP），后者的应用非常广泛（后面的章节会介绍其他的架构）。第二部分会介绍如何使用流行的 Keras API 搭建神经网络，Keras API 是一个设计优美、简单易用的高级 API，可以用来搭建、训练、评估、运行神经网络。Keras 的易用性，并不妨碍它具有强大的实现能力，Keras 足以帮你搭建多种多样的神经网络。事实上，Keras 足以完成大多数的任务啦！要是你需要实现更多的功能，你可以用 Keras 的低级 API（第 12 章介绍）自己写一些组件。
+
+# 从生物神经元到人工神经元
+
+颇让人惊讶的地方是，其实 ANN 已经诞生相当长时间了：神经生理学家 Warren McCulloch 和数学家 Walter Pitts 在 1943 年首次提出了 ANN。在他们里程碑的论文[《A Logical Calculus of Ideas Immanent in Nervous Activity》](https://links.jianshu.com/go?to=https%3A%2F%2Fscholar.google.com%2Fscholar%3Fq%3DA%2BLogical%2BCalculus%2Bof%2BIdeas%2BImmanent%2Bin%2BNervous%2BActivity%2Bauthor%253Amcculloch)中，McCulloch 和 Pitts 介绍一个简单的计算模型，关于生物大脑的神经元是如何通过命题逻辑协同工作的。这是第一个 ANN 架构，后来才出现更多的 ANN 架构。
+
+ANN 的早期成功让人们广泛相信，人类马上就能造出真正的智能机器了。1960 年代，当这个想法落空时，资助神经网络的钱锐减，ANN 进入了寒冬。1980 年代早期，诞生了新的神经网络架构和新的训练方法，连结主义（研究神经网络）复苏，但是进展很慢。到了 1990 年代，出现了一批强大的机器学习方法，比如支持向量机（见第 05 章）。这些新方法的结果更优，也比 ANN 具有更扎实的理论基础，神经网络研究又一次进入寒冬。我们正在经历的是第三次神经网络浪潮。这波浪潮会像前两次那样吗？这次与前两次有所不同，这一次会对我们的生活产生更大的影响，理由如下：
+
+*   我们现在有更多的数据，用于训练神经网络，在大而复杂的问题上，ANN 比其它 ML 技术表现更好；
+
+*   自从 1990 年代，计算能力突飞猛进，现在已经可以在理想的时间内训练出大规模的神经网络了。一部分原因是摩尔定律（在过去 50 年间，集成电路中的组件数每两年就翻了一倍），另外要归功于游戏产业，后者生产出了强大的 GPU 显卡。还有，云平台使得任何人都能使用这些计算能力；
+
+*   训练算法得到了提升。虽然相比 1990 年代，算法变化不大，但这一点改进却产生了非常大的影响；
+
+*   在实践中，人工神经网络的一些理论局限没有那么强。例如，许多人认为人工神经网络训练算法效果一般，因为它们很可能陷入局部最优，但事实证明，这在实践中是相当罕见的（或者如果它发生，它们也通常相当接近全局最优）；
+
+*   ANN 已经进入了资助和进步的良性循环。基于 ANN 的惊艳产品常常上头条，从而吸引了越来越多的关注和资金，促进越来越多的进步和更惊艳的产品。
+
+## 生物神经元
+
+在讨论人工神经元之前，先来看看生物神经元（见图 10-1）。这是动物大脑中一种不太常见的细胞，包括：细胞体（含有细胞核和大部分细胞组织），许多貌似树枝的树突，和一条非常长的轴突。轴突的长度可能是细胞体的几倍，也可能是一万倍。在轴突的末梢，轴突分叉成为终树突，终树突的末梢是突触，突触连接着其它神经元的树突或细胞体。
+
+生物神经元会产生被称为“动作电位”（或称为信号）的短促电脉冲，信号沿轴突传递，使突触释放出被称为神经递质的化学信号。当神经元在几毫秒内接收了足够量的神经递质，这个神经元也会发送电脉冲（事实上，要取决于神经递质，一些神经递质会禁止发送电脉冲）。
+
+![](img/5d81820b7143bc22226f0f2362d5e5be.png)
+
+图 10-1 生物神经元
+
+独立的生物神经元就是这样工作的，但因为神经元是处于数十亿神经元的网络中的，每个神经元都连着几千个神经元。简单神经元的网络可以完成高度复杂的计算，就好像蚂蚁齐心协力就能建成复杂的蚁冢一样。生物神经网络（BNN）如今仍是活跃的研究领域，人们通过绘制出了部分大脑的结构，发现神经元分布在连续的皮层上，尤其是在大脑皮质上（大脑外层），见图 10-2。
+
+![](img/61ea69fa31bf36a272c9c5b22170eee5.png)
+
+图 10-2 人类大脑皮质的多层神经元网络
+
+## 神经元的逻辑计算
+
+McCulloch 和 Pitts 提出了一个非常简单的生物神经元模型，它后来演化成了人工神经元：一个或多个二元（开或关）输入，一个二元输出。当达到一定的输入量时，神经元就会产生输出。在论文中，两位作者证明就算用如此简单的模型，就可以搭建一个可以完成任何逻辑命题计算的神经网络。为了展示网络是如何运行的，我们自己亲手搭建一些不同逻辑计算的 ANN（见图 10-3），假设有两个活跃的输入时，神经元就被激活。
+
+![](img/197d0d1d97e9b3c90f3d8a4b9add9ea4.png)
+
+图 10-3 不同逻辑计算的 ANN
+
+这些网络的逻辑计算如下：
+
+*   左边第一个网络是确认函数：如果神经元`A`被激活，那么神经元`C`也被激活（因为它接收来自神经元`A`的两个输入信号），但是如果神经元`A`关闭，那么神经元`C`也关闭。
+
+*   第二个网络执行逻辑 AND：神经元`C`只有在激活神经元`A`和`B`（单个输入信号不足以激活神经元`C`）时才被激活。
+
+*   第三个网络执行逻辑 OR：如果神经元`A`或神经元`B`被激活（或两者），神经元`C`被激活。
+
+*   最后，如果我们假设输入连接可以抑制神经元的活动（生物神经元是这样的情况），那么第四个网络计算一个稍微复杂的逻辑命题：如果神经元`B`关闭，只有当神经元`A`是激活的，神经元`C`才被激活。如果神经元`A`始终是激活的，那么你得到一个逻辑 NOT：神经元`C`在神经元`B`关闭时是激活的，反之亦然。
+
+你可以很容易地想到，如何将这些网络组合起来计算复杂的逻辑表达式（参见本章末尾的练习）。
+
+## 感知机
+
+感知器是最简单的人工神经网络结构之一，由 Frank Rosenblatt 发明于 1957 年。它基于一种稍微不同的人工神经元（见图 10-4），阈值逻辑单元（TLU），或称为线性阈值单元（LTU）：输入和输出是数字（而不是二元开/关值），并且每个输入连接都一个权重。TLU 计算其输入的加权和（`z = W[1]x[1] + W[2]x[2]+ ... + W[n]x[n] = x^T · W`），然后将阶跃函数应用于该和，并输出结果：`h[W](x) = step(z)`，其中`z = x^T · W`。
+
+![](img/8b2cbad5c6f932fabbea3c87de926f8c.png)
+
+图 10-4 阈值逻辑单元：人工神经元做权重求和，然后对和做阶跃函数
+
+感知机最常用的阶跃函数是单位阶跃函数（Heaviside step function），见公式 10-1。有时候也使用符号函数`sgn`。
+
+![](img/93692150431464017b2aa57680078626.png)
+
+公式 10-1 感知机常用的阶跃函数，阈值为 0
+
+单一 TLU 可用于简单的线性二元分类。它计算输入的线性组合，如果结果超过阈值，它输出正类或者输出负类（就像逻辑回归分类或线性 SVM 分类）。例如，你可以使用单一 TLU，基于花瓣长度和宽度分类鸢尾花（也可添加额外的偏置特征`x[0] = 1`，就像我们在前面章节所做的那样）。训练 TLU 意味着去寻找合适的`W[0], W[1]`和`W[2]`值（训练算法稍后提到）。
+
+感知器只由一层 TLU 组成，每个 TLU 连接到所有输入。当一层的神经元连接着前一层的每个神经元时，该层被称为全连接层，或紧密层。感知机的输入来自输入神经元，输入神经元只输出从输入层接收的任何输入。所有的输入神经元位于输入层。此外，通常再添加一个偏置特征（`X[0] = 1`）：这种偏置特性通常用一种称为偏置神经元的特殊类型的神经元来表示，它总是输出 1。图 10-5 展示了一个具有两个输入和三个输出的感知机，它可以将实例同时分成为三个不同的二元类，这使它成为一个多输出分类器。。
+
+![](img/0c4ef3e739a09224456bd8f4f31b38a6.png)
+
+图 10-5 一个具有两个输入神经元、一个偏置神经元和三个输出神经元的感知机架构
+
+借助线性代数，利用公式 10-2 可以方便地同时算出几个实例的一层神经网络的输出。
+
+![](img/b0c2332159c7667a25fa472ccf848991.png)
+
+公式 10-2 计算一个全连接层的输出
+
+在这个公式中，
+
+*   `X`表示输入特征矩阵，每行是一个实例，每列是一个特征；
+
+*   权重矩阵`W`包含所有的连接权重，除了偏置神经元。每有一个输入神经元权重矩阵就有一行，神经层每有一个神经元权重矩阵就有一列；
+
+*   偏置向量`b`含有所有偏置神经元和人工神经元的连接权重。每有一个人工神经元就对应一个偏置项；
+
+*   函数`φ`被称为激活函数，当人工神经网络是 TLU 时，激活函数是阶跃函数（后面会讨论更多的激活函数）。
+
+那么感知器是如何训练的呢？Frank Rosenblatt 提出的感知器训练算法在很大程度上受到 Hebb 规则的启发。在 1949 出版的《行为组织》一书中，Donald Hebb 提出，当一个生物神经元经常触发另一个神经元时，这两个神经元之间的联系就会变得更强。这个想法后来被 Siegrid Löwel 总结为一经典短语：“一起燃烧的细胞，汇合在一起。”这个规则后来被称为 Hebb 规则（或 Hebbian learning）。使用这个规则的变体来训练感知器，该规则考虑了网络所犯的误差。更具体地，感知器一次被馈送一个训练实例，对于每个实例，它进行预测。对于每一个产生错误预测的输出神经元，修正输入的连接权重，以获得正确的预测。公式 10-3 展示了 Hebb 规则。
+
+![](img/b233f77d24ba573df38c4a3b18fccc83.png)
+
+公式 10-3 感知机的学习规则（权重更新）
+
+在这个公式中：
+
+*   其中`w[i, j]`是第`i`个输入神经元与第`j`个输出神经元之间的连接权重；
+
+*   `x[i]`是当前训练实例的第`i`个输入值；
+
+*   `y_hat[j]`是当前训练实例的第`j`个输出神经元的输出；
+
+*   `y[j]`是当前训练实例的第`j`个输出神经元的目标输出；
+
+*   `η`是学习率。
+
+每个输出神经元的决策边界是线性的，因此感知器不能学习复杂的模式（比如 Logistic 回归分类器）。然而，如果训练实例是线性可分的，Rosenblatt 证明该算法将收敛到一个解。这被称为感知器收敛定理。
+
+Scikit-Learn 提供了一个`Perceptron`类，它实现了一个 单 TLU 网络。它可以实现大部分功能，例如用于鸢尾花数据集（第 4 章中介绍过）：
+
+```py
+import numpy as np
+from sklearn.datasets import load_iris
+from sklearn.linear_model import Perceptron
+
+iris = load_iris()
+X = iris.data[:, (2, 3)]  # petal length, petal width
+y = (iris.target == 0).astype(np.int)  # Iris setosa?
+
+per_clf = Perceptron()
+per_clf.fit(X, y)
+
+y_pred = per_clf.predict([[2, 0.5]]) 
+```
+
+你可能注意到，感知器学习算法和随机梯度下降很像。事实上，sklearn 的`Perceptron`类相当于使用具有以下超参数的 `SGDClassifier`：`loss="perceptron"`，`learning_rate="constant"`，`eta0=1`（学习率），`penalty=None`（无正则化）。
+
+与逻辑回归分类器相反，感知机不输出类概率，而是基于硬阈值进行预测。这是逻辑回归优于感知机的一点。
+
+在 1969 年题为“感知机”的专著中，Marvin Minsky 和 Seymour Papert 强调了感知器的许多严重缺陷，特别是它们不能解决一些琐碎的问题（例如，异或（XOR）分类问题）；参见图 10-6 的左侧）。当然，其他的线性分类模型（如 Logistic 回归分类器）也都实现不了，但研究人员期望从感知器中得到更多，他们的失望是很大的，导致许多人彻底放弃了神经网络，而是转向高层次的问题，如逻辑、问题解决和搜索。
+
+然而，事实证明，感知机的一些局限性可以通过堆叠多个感知机消除。由此产生的人工神经网络被称为多层感知机（MLP）。特别地，MLP 可以解决 XOR 问题，你可以通过计算图 10-6 右侧所示的 MLP 的输出来验证输入的每一个组合：输入`(0, 0)`或`(1, 1)`网络输出 0，输入`(0, 1)`或`(1, 0)`它输出 1。除了四个连接的权重不是 1，其它连接都是 1。
+
+![](img/6930b04814efddf8ea4561e2f337bbb7.png)
+
+图 10-6 XOR 分类问题和 MLP
+
+## 多层感知机与反向传播
+
+MLP 由一个输入层、一个或多个称为隐藏层的 TLU 组成，一个 TLU 层称为输出层（见图 10-7）。靠近输入层的层，通常被称为浅层，靠近输出层的层通常被称为上层。除了输出层，每一层都有一个偏置神经元，并且全连接到下一层。
+
+![](img/523379c16c7d187fad08480319499a81.png)
+
+图 10-7 多层感知器
+
+> 注意：信号是从输入到输出单向流动的，因此这种架构被称为前馈神经网络（FNN）。
+
+当人工神经网络有多个隐含层时，称为深度神经网络（DNN）。深度学习研究的是 DNN 和深层计算模型。但是大多数人用深度学习泛化代替神经网络，即便网络很浅时。
+
+多年来，研究人员努力寻找一种训练 MLP 的方法，但没有成功。但在 1986，David Rumelhart、Geoffrey Hinton、Ronald Williams 发表了[一篇突破性的论文](https://links.jianshu.com/go?to=https%3A%2F%2Fscholar.google.com%2Fscholar%3Fq%3DLearning%2BInternal%2BRepresentations%2Bby%2BError%2BPropagation%2Bauthor%253Arumelhart)，提出了至今仍在使用的反向传播训练算法。总而言之，反向传播算法是使用了高效梯度计算的梯度下降算法（见第 4 章）：只需要两次网络传播（一次向前，一次向后），就可以算出网络误差的、和每个独立模型参数相关的梯度。换句话说，反向传播算法为了减小误差，可以算出每个连接权重和每个偏置项的调整量。当得到梯度之后，就做一次常规的梯度下降，不断重复这个过程，直到网络得到收敛解。
+
+> 笔记：自动计算梯度被称为自动微分。有多种自动微分的方法，各有优缺点。反向传播使用的是反向模式自微分。这种方法快而准，当函数有多个变量（连接权重）和多个输出（损失函数）要微分时也能应对。附录 D 介绍了自微分。
+
+对 BP 做详细分解：
+
+*   每次处理一个微批次（假如每个批次包含 32 个实例），用训练集多次训练 BP，每次被称为一个周期（epoch）；
+
+*   每个微批次先进入输入层，输入层再将其发到第一个隐藏层。计算得到该层所有神经元的（微批次的每个实例的）输出。输出接着传到下一层，直到得到输出层的输出。这个过程就是前向传播：就像做预测一样，只是保存了每个中间结果，中间结果要用于反向传播；
+
+*   然后计算输出误差（使用损失函数比较目标值和实际输出值，然后返回误差）；
+
+*   接着，计算每个输出连接对误差的贡献量。这是通过链式法则（就是对多个变量做微分的方法）实现的；
+
+*   然后还是使用链式法则，计算最后一个隐藏层的每个连接对误差的贡献，这个过程不断向后传播，直到到达输入层。
+
+*   最后，BP 算法做一次梯度下降步骤，用刚刚计算的误差梯度调整所有连接权重。
+
+BP 算法十分重要，再归纳一下：对每个训练实例，BP 算法先做一次预测（前向传播），然后计算误差，然后反向通过每一层以测量误差贡献量（反向传播），最后调整所有连接权重以降低误差（梯度下降）。（译者注：我也总结下吧，每次训练都先是要设置周期数，每个周期其实做的就是三件事，向前传一次，向后传一次，然后调整参数，接着再进行下一周期。）
+
+> 警告：随机初始化隐藏层的连接权重是很重要的。假如所有的权重和偏置都初始化为 0，则在给定一层的所有神经元都是一样的，BP 算法对这些神经元的调整也会是一样的。换句话，就算每层有几百个神经元，模型的整体表现就像每层只有一个神经元一样，模型会显得笨笨的。如果权重是随机初始化的，就可以打破对称性，训练出不同的神经元。
+
+为了使 BP 算法正常工作，作者对 MLP 的架构做了一个关键调整：用 Logistic 函数（sigmoid）代替阶跃函数，`σ(z) = 1 / (1 + exp(–z))`。这是必要的，因为阶跃函数只包含平坦的段，因此没有梯度（梯度下降不能在平面上移动），而 Logistic 函数处处都有一个定义良好的非零导数，允许梯度下降在每步上取得一些进展。反向传播算法也可以与其他激活函数一起使用，下面就是两个流行的激活函数：
+
+*   双曲正切函数： `tanh (z) = 2σ(2z) – 1`
+
+类似 Logistic 函数，它是 S 形、连续可微的，但是它的输出值范围从-1 到 1（不是 Logistic 函数的 0 到 1），这往往使每层的输出在训练开始时或多或少都变得以 0 为中心，这常常有助于加快收敛速度。
+
+*   ReLU 函数：`ReLU(z) = max(0, z)`
+
+ReLU 函数是连续的，但是在`z=0`时不可微（斜率突然改变，导致梯度下降在 0 点左右跳跃），ReLU 的变体是当`z<0`时，`z=0`。但在实践中，ReLU 效果很好，并且具有计算快速的优点，于是成为了默认激活函数。最重要的是，它没有最大输出值，这有助于减少梯度下降期间的一些问题（第 11 章再介绍）。
+
+这些流行的激活函数及其变体如图 10-8 所示。但是，究竟为什么需要激活函数呢？如果将几个线性变化链式组合起来，得到的还是线性变换。比如，对于 `f(x) = 2x + 3` 和 `g(x) = 5x – 1` ，两者组合起来仍是线性变换：`f(g(x)) = 2(5x – 1) + 3 = 10x + 1`。如果层之间不具有非线性，则深层网络和单层网络其实是等同的，这样就不能解决复杂问题。相反的，足够深且有非线性激活函数的 DNN，在理论上可以近似于任意连续函数。
+
+![](img/35080cf52f5e9599c8ae129bb2b5d295.png)
+
+图 10-8 激活函数及其变体
+
+知道了神经网络的起源、架构、计算方法、BP 算法，接下来看应用。
+
+## 回归 MLP
+
+首先，MLP 可以用来回归任务。如果想要预测一个单值（例如根据许多特征预测房价），就只需要一个输出神经元，它的输出值就是预测值。对于多变量回归（即一次预测多个值），则每一维度都要有一个神经元。例如，想要定位一张图片的中心，就要预测 2D 坐标，因此需要两个输出神经元。如果再给对象加个边框，还需要两个值：对象的宽度和高度。
+
+通常，当用 MLP 做回归时，输出神经元不需要任何激活函数。如果要让输出是正值，则可在输出值使用 ReLU 激活函数。另外，还可以使用 softplus 激活函数，这是 ReLu 的一个平滑化变体：`softplus(z) = log(1 + exp(z))`。`z`是负值时，softplus 接近 0，`z`是正值时，softplus 接近`z`。最后，如果想让输出落入一定范围内，则可以使用调整过的 Logistic 或双曲正切函数：Logistic 函数用于 0 到 1，双曲正切函数用于 -1 到 1。
+
+训练中的损失函数一般是均方误差，但如果训练集有许多异常值，则可以使用平均绝对误差。另外，也可以使用 Huber 损失函数，它是前两者的组合。
+
+> 提示：当误差小于阈值`δ`时（一般为 1），Huber 损失函数是二次的；误差大于阈值时，Huber 损失函数是线性的。相比均方误差，线性部分可以让 Huber 对异常值不那么敏感，二次部分可以让收敛更快，也比均绝对误差更精确。
+
+表 10-1 总结了回归 MLP 的典型架构。
+
+![](img/86424dc7bed03e26a159be77a1f3fc8a.png)
+
+表 10-1 回归 MLP 的典型架构
+
+## 分类 MLP
+
+MLP 也可用于分类，对于二元分类问题，只需要一个使用 Logistic 激活的输出神经元：输出是一个 0 和 1 之间的值，作为正类的估计概率。
+
+MLP 也可以处理多标签二元分类（见第 3 章）。例如，邮件分类系统可以预测一封邮件是垃圾邮件，还是正常邮件，同时预测是紧急，还是非紧急邮件。这时，就需要两个输出神经元，两个都是用 Logistic 函数：第一个输出垃圾邮件的概率，第二个输出紧急的概率。更为一般的讲，需要为每个正类配一个输出神经元。多个输出概率的和不一定非要等于 1。这样模型就可以输出各种标签的组合：非紧急非垃圾邮件、紧急非垃圾邮件、非紧急垃圾邮件、紧急垃圾邮件。
+
+如果每个实例只能属于一个类，但可能是三个或多个类中的一个（比如对于数字图片分类，可以是类 0 到类 9），则每一类都要有一个输出神经元，整个输出层（见图 10-9）要使用 softmax 激活函数。softmax 函数可以保证，每个估计概率位于 0 和 1 之间，并且各个值相加等于 1。这被称为多类分类。
+
+![](img/28e6d457d56a02086f2ceff72ac9d1e2.png)
+
+图 10-9 一个用于分类的 MLP（包括 ReLU 和 softmax）
+
+根据损失函数，因为要预测概率分布，交叉商损失函数（也称为对数损失，见第 4 章）是不错的选择。
+
+表 10-2 概括了分类 MLP 的典型架构。
+
+![](img/a448b0d1e942484bff4a067c11441c2e.png)
+
+表 10-2 分类 MLP 的典型架构
+
+> 提示：看下面的内容前，建议看看本章末尾的习题 1。利用 TensorFlow Playground 可视化各样的神经网络架构，可以更深入的理解 MLP 和超参数（层数、神经元数、激活函数）的作用。
+
+# 用 Keras 实现 MLP
+
+Keras 是一个深度学习高级 API，可以用它轻松地搭建、训练、评估和运行各种神经网络。Keras 的文档见[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fkeras.io%2F)。[Keras 参考实现](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fkeras-team%2Fkeras)是 François Chollet 开发的，于 2015 年 3 月开源。得益于 Keras 简单易用灵活优美，迅速流行开来。为了进行神经网络计算，必须要有计算后端的支持。目前可选三个流行库：TensorFlow、CNTK 和 Theano。为避免误会，将 GitHub 上的 Keras 参考实现称为多后端 Keras。
+
+自从 2016 年底，出现了 Kera 的其它实现。现在已经可以在 Apache MXNet、苹果 Core ML、JavaScript 或 TypeScript（浏览器）、PlaidML（各种 GPU，不限于 Nvidia）上运行 Keras。另外，TensorFlow 也捆绑了自身的 Keras 实现 —— `tf.keras`，它只支持 TensorFlow 作为后端，但提供了更多使用的功能（见图 10-10）：例如，`tf.keras`支持 TensorFlow 的 Data API，加载数据更轻松，预处理数据更高效。因此，本书使用的是`tf.keras`。本章的代码不局限于 TensorFlow，只需要一些修改，比如修改引入，也可以在其他 Keras 实现上运行。
+
+![](img/d60bca82f536fee2404c573dc5d3bca4.png)
+
+图 10-10 Keras API 的两个实现：左边是多后端 Keras，右边是 tf.keras
+
+排在 Keras 和 TensorFlow 之后最流行的深度学习库，是 Facebook 的 PyTorch。PyTorch 的 API 与 Keras 很像，所以掌握了 Keras，切换到 PyTorch 也不难。得益于易用性和详实的文档（TensorFlow 1 的文档比较一般），PyTorch 在 2018 年广泛流行开来。但是，TensorFlow 2 和 PyTorch 一样简单易用，因为 TensorFlow 使用了 Keras 作为它的高级 API，并简化清理了 TensorFlow 的其它 API。TensorFlow 的文档也改观了，容易检索多了。相似的，PyTorch 的缺点（可移植性差，没有计算图分析）在 PyTorch 1.0 版本中也得到了优化。良性竞争可以使所有人获益。*（作者这段讲的真好！）*
+
+## 安装 TensorFlow 2
+
+假设已经在第 2 章中安装了 Jupyter 和 Scikit-Learn，使用 PIP 安装 TensorFlow。如果使用了 VirtualEnv，先要激活虚拟环境：
+
+```py
+$ cd $ML_PATH                 # Your ML working directory (e.g., $HOME/ml)
+$ source my_env/bin/activate  # on Linux or macOS
+$ .\my_env\Scripts\activate   # on Windows 
+```
+
+然后安装 TensorFlow 2（如果没有使用虚拟环境，需要管理员权限，或加上选项`--user`）:
+
+```py
+$ python3 -m pip install --upgrade tensorflow 
+```
+
+> 笔记：要使用 GPU 的话，在动笔写书的此刻，需要安装`tensorflow-gpu`，而不是`tensorflow`。但是 TensorFlow 团队正在开发一个既支持 CPU 也支持 GPU 的独立的库。要支持 GPU 的话，可能还要安装更多的库，参考[这里](https://links.jianshu.com/go?to=https%3A%2F%2Ftensorflow.org%2Finstall)。第 19 章会深入介绍 GPU。
+
+要测试安装是否成功，可以在 Python 终端或 Jupyter 笔记本中引入 TensorFlow 和`tf.keras`，然后打印其版本号：
+
+```py
+>>> import tensorflow as tf
+>>> from tensorflow import keras
+>>> tf.__version__
+'2.0.0'
+>>> keras.__version__
+'2.2.4-tf' 
+```
+
+第二个版本号的末尾带有`-tf`，表明是`tf.keras`实现的 Keras API，还有一些 TensorFlow 的专有功能。
+
+## 使用顺序 API 创建图片分类器
+
+首先加载数据集。这章用的数据集是 Fashion MNIST，它是 MNIST 一个替代品，格式与 MNIST 完全相同（70000 张灰度图，每张的像素是`28 × 28`，共有 10 类），图的内容是流行物品，而不是数字，每类中的图片更丰富，识图的挑战性比 MNIST 高得多。例如，线性模型可以在 MNIST 上达到 92% 的准确率，但在 Fashion MNIST 上只有 83% 的准确率。
+
+### 使用 Keras 加载数据集
+
+Keras 提供一些实用的函数用来获取和加载常见的数据集，包括 MNIST、Fashion MNIST 和第 2 章用过的加州房产数据集。加载 Fashion MNIST：
+
+```py
+fashion_mnist = keras.datasets.fashion_mnist
+(X_train_full, y_train_full), (X_test, y_test) = fashion_mnist.load_data() 
+```
+
+当使用 Keras 加载 MNIST 或 Fashion MNIST 时，和 Scikit-Learn 加载数据的一个重要区别是，每张图片是`28 × 28`的数组，而不是大小是 784 的 1D 数组。另外像素的强度是用整数（0 到 255）表示的，而不是浮点数（0.0 到 255.0）。看下训练集的形状和类型：
+
+```py
+>>> X_train_full.shape
+(60000, 28, 28)
+>>> X_train_full.dtype
+dtype('uint8') 
+```
+
+该数据集已经分成了训练集和测试集，但没有验证集。所以要建一个验证集，另外，因为要用梯度下降训练神经网络，必须要对输入特征进行缩放。简单起见，通过除以 255.0 将强度范围变为 0-1：
+
+```py
+X_valid, X_train = X_train_full[:5000] / 255.0, X_train_full[5000:] / 255.0
+y_valid, y_train = y_train_full[:5000], y_train_full[5000:] 
+```
+
+对于 MNIST，当标签等于 5 时，表明图片是手写的数字 5。但对于 Fashion MNIST，需要分类名的列表：
+
+```py
+class_names = ["T-shirt/top", "Trouser", "Pullover", "Dress", "Coat",
+               "Sandal", "Shirt", "Sneaker", "Bag", "Ankle boot"] 
+```
+
+例如，训练集的第一张图片表示外套：
+
+```py
+>>> class_names[y_train[0]]
+'Coat' 
+```
+
+图 10-11 展示了 Fashion MNIST 数据集的一些样本。
+
+![](img/933d62a2cdc32ff32119b5c6f49fe0aa.png)
+
+图 10-11 Fashion MNIST 数据集的一些样本
+
+### 用顺序 API 创建模型
+
+搭建一个拥有两个隐含层的分类 MLP：
+
+```py
+model = keras.models.Sequential()
+model.add(keras.layers.Flatten(input_shape=[28, 28]))
+model.add(keras.layers.Dense(300, activation="relu"))
+model.add(keras.layers.Dense(100, activation="relu"))
+model.add(keras.layers.Dense(10, activation="softmax")) 
+```
+
+逐行看下代码：
+
+*   第一行代码创建了一个顺序 模型，这是 Keras 最简单的模型，是由单层神经元顺序连起来的，被称为顺序 API；
+
+*   接下来创建了第一层，这是一个`Flatten`层，它的作用是将每个输入图片转变为 1D 数组：如果输入数据是`X`，该层则计算`X.reshape(-1, 1)`。该层没有任何参数，只是做一些简单预处理。因为是模型的第一层，必须要指明`input_shape`，`input_shape`不包括批次大小，只是实例的形状。另外，第一层也可以是`keras.layers.InputLayer`，设置`input_shape=[28,28]`;
+
+*   然后，添加了一个有 300 个神经元的紧密层，激活函数是 ReLU。每个紧密层只负责自身的权重矩阵，权重矩阵是神经元与输入的所有连接权重。紧密层还要负责偏置项（每个神经元都有一个偏置项）向量。当紧密层收到输入数据时，就利用公式 10-2 进行计算；
+
+*   接着再添加第二个紧密层，激活函数仍然是 ReLU；
+
+*   最后，加上一个拥有 10 个神经元的输出层（每有一个类就要有一个神经元），激活函数是 softmax（保证输出的概率和等于 1，因为就只有这是个类，具有排他性）。
+
+> 提示：设置`activation="relu"`，等同于`activation=keras.activations.relu`。`keras.activations`包中还有其它激活函数，完整列表见[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fkeras.io%2Factivations%2F)。
+
+除了一层一层加层，也可以传递一个层组成的列表：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.Dense(300, activation="relu"),
+    keras.layers.Dense(100, activation="relu"),
+    keras.layers.Dense(10, activation="softmax")
+]) 
+```
+
+> #### 使用 KERAS.IO 的代码实例
+> 
+> keras.io 上的代码也可以用于`tf.keras`，但是需要修改引入。例如，对于下面的代码：
+> 
+> ```py
+> from keras.layers import Dense
+> output_layer = Dense(10) 
+> ```
+> 
+> 需要改成：
+> 
+> ```py
+> from tensorflow.keras.layers import Dense
+> output_layer = Dense(10) 
+> ```
+> 
+> 或使用完整路径：
+> 
+> ```py
+> from tensorflow import keras
+> output_layer = keras.layers.Dense(10) 
+> ```
+> 
+> 这么写就是麻烦点，但是我在本书中是采用的这种方法，因为不仅可以容易看出使用的是哪个包，还可以避免搞混标准类和自定义类。在生产环境中，我倾向于使用前种方式。还有人喜欢这样引入，`tensorflow.keras import layers`，使用`layers.Dense(10)`。
+
+模型的`summary()`方法可以展示所有层，包括每个层的名字（名字是自动生成的，除非建层时指定名字），输出的形状（`None`代表批次大小可以是任意值），和参数的数量。最后会输出所有参数的数量，包括可训练和不可训练参数。这章只有可训练参数（第 11 章可以看到不可训练参数的例子）：
+
+```py
+>>> model.summary()
+Model: "sequential"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #
+=================================================================
+flatten (Flatten)            (None, 784)               0
+_________________________________________________________________
+dense (Dense)                (None, 300)               235500
+_________________________________________________________________
+dense_1 (Dense)              (None, 100)               30100
+_________________________________________________________________
+dense_2 (Dense)              (None, 10)                1010
+=================================================================
+Total params: 266,610
+Trainable params: 266,610
+Non-trainable params: 0
+_________________________________________________________________ 
+```
+
+紧密层通常有许多参数。比如，第一个隐含层有`784 × 300`个连接权重，再加上 300 个偏置项，总共有 235500 个参数。这么多参数可以让模型具有足够的灵活度以拟合训练数据，但也意味着可能有过拟合的风险，特别是当训练数据不足时。后面再讨论这个问题。
+
+使用属性，获取神经层很容易，可以通过索引或名称获取对应的层：
+
+```py
+>>> model.layers
+[<tensorflow.python.keras.layers.core.Flatten at 0x132414e48>,
+ <tensorflow.python.keras.layers.core.Dense at 0x1324149b0>,
+ <tensorflow.python.keras.layers.core.Dense at 0x1356ba8d0>,
+ <tensorflow.python.keras.layers.core.Dense at 0x13240d240>]
+>>> hidden1 = model.layers[1]
+>>> hidden1.name
+'dense'
+>>> model.get_layer('dense') is hidden1
+True 
+```
+
+可以用`get_weights()`和`set_weights()`方法，获取神经层的所有参数。对于紧密层，参数包括连接权重和偏置项：
+
+```py
+>>> weights, biases = hidden1.get_weights()
+>>> weights
+array([[ 0.02448617, -0.00877795, -0.02189048, ..., -0.02766046,
+         0.03859074, -0.06889391],
+       ...,
+       [-0.06022581,  0.01577859, -0.02585464, ..., -0.00527829,
+         0.00272203, -0.06793761]], dtype=float32)
+>>> weights.shape
+(784, 300)
+>>> biases
+array([0., 0., 0., 0., 0., 0., 0., 0., 0., ...,  0., 0., 0.], dtype=float32)
+>>> biases.shape
+(300,) 
+```
+
+紧密层是随机初始化连接权重的（为了避免对称性），偏置项则是 0。如果想使用不同的初始化方法，可以在创建层时设置`kernel_initializer`（核是连接矩阵的另一个名字）或`bias_initializer`。第 11 章会进一步讨论初始化器，初始化器的完整列表见[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fkeras.io%2Finitializers%2F)。
+
+> 笔记：权重矩阵的形状取决于输入的数量。这就是为什么要在创建`Sequential`模型的第一层时指定`input_shape`。但是，如果不指定形状也没关系：Keras 会在真正搭建模型前一直等待，直到弄清输入的形状（输入真实数据时，或调用`build()`方法时）。在搭建模型之前，神经层是没有权重的，也干不了什么事（比如打印模型概要或保存模型）。所以如果在创建模型时知道输入的形状，最好就设置好。
+
+### 编译模型
+
+创建好模型之后，必须调用`compile()`方法，设置损失函数和优化器。另外，还可以指定训练和评估过程中要计算的额外指标的列表：
+
+```py
+model.compile(loss="sparse_categorical_crossentropy",
+              optimizer="sgd",
+              metrics=["accuracy"]) 
+```
+
+> 笔记：使用`loss="sparse_categorical_crossentropy"`等同于`loss=keras.losses.sparse_categorical_crossentropy`。相思的，`optimizer="sgd"`等同于`optimizer=keras.optimizers.SGD()`，`metrics=["accuracy"]`等同于`metrics=[keras.metrics.sparse_categorical_accuracy]`。后面还会使用其他的损失函数、优化器和指标，它们的完整列表见[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fkeras.io%2Flosses)、 [这里](https://links.jianshu.com/go?to=https%3A%2F%2Fkeras.io%2Foptimizers)、和[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fkeras.io%2Fmetrics)。
+
+解释下这段代码。首先，因为使用的是稀疏标签（每个实例只有一个目标类的索引，在这个例子中，目标类索引是 0 到 9），且就是这十个类，没有其它的，所以使用的是`"sparse_categorical_crossentropy"`损失函数。如果每个实例的每个类都有一个目标概率（比如独热向量，`[0., 0., 0., 1., 0., 0., 0., 0., 0., 0.]`，来表示类 3），则就要使用`"categorical_crossentropy"`损失函数。如果是做二元分类（有一个或多个二元标签），输出层就得使用`"sigmoid"`激活函数，损失函数则变为`"binary_crossentropy"`。
+
+> 提示：如果要将稀疏标签转变为独热向量标签，可以使用函数`keras.utils.to_categorical()`。还以使用函数`np.argmax()`，`axis=1`。
+
+对于优化器，`"sgd"`表示使用随机梯度下降训练模型。换句话说，Keras 会进行反向传播算法。第 11 章会讨论更高效的优化器（可以提升梯度下降部分，改善不了自动微分部分）。
+
+> 笔记：使用`SGD`时，调整学习率很重要，必须要手动设置好，`optimizer=keras.optimizers.SGD(lr=???)`。`optimizer="sgd"`不同，它的学习率默认为`lr=0.01`。
+
+最后，因为是个分类器，最好在训练和评估时测量`"accuracy"`。
+
+### 训练和评估模型
+
+可以训练模型了。只需调用`fit()`方法：
+
+```py
+>>> history = model.fit(X_train, y_train, epochs=30,
+...                     validation_data=(X_valid, y_valid))
+...
+Train on 55000 samples, validate on 5000 samples
+Epoch 1/30
+55000/55000 [======] - 3s 49us/sample - loss: 0.7218     - accuracy: 0.7660
+                                      - val_loss: 0.4973 - val_accuracy: 0.8366
+Epoch 2/30
+55000/55000 [======] - 2s 45us/sample - loss: 0.4840     - accuracy: 0.8327
+                                      - val_loss: 0.4456 - val_accuracy: 0.8480
+[...]
+Epoch 30/30
+55000/55000 [======] - 3s 53us/sample - loss: 0.2252     - accuracy: 0.9192
+                                      - val_loss: 0.2999 - val_accuracy: 0.8926 
+```
+
+这里，向`fit()`方法传递了输入特征`(X_train)`和目标类`(y_train)`，还要要训练的周期数（不设置的话，默认的周期数是 1，肯定是不能收敛到一个好的解的）。另外还传递了验证集（它是可选的）。Keras 会在每个周期结束后，测量损失和指标，这样就可以监测模型的表现。如果模型在训练集上的表现优于在验证集上的表现，可能模型在训练集上就过拟合了（或者就是存在 bug，比如训练集和验证集的数据不匹配）。
+
+仅需如此，神经网络就训练好了。训练中的每个周期，Keras 会展示到目前为止一共处理了多少个实例（还带有进度条），每个样本的平均训练时间，以及在训练集和验证集上的损失和准确率（和其它指标）。可以看到，损失是一直下降的，这是一个好现象。经过 30 个周期，验证集的准确率达到了 89.26%，与在训练集上的准确率差不多，所以没有过拟合。
+
+> 提示：除了通过参数`validation_data`传递验证集，也可以通过参数`validation_split`从训练集分割出一部分作为验证集。比如，`validation_split=0.1`可以让 Keras 使用训练数据（打散前）的末尾 10% 作为验证集。
+
+如果训练集非常倾斜，一些类过渡表达，一些欠表达，在调用`fit()`时最好设置`class_weight`参数，可以加大欠表达类的权重，减小过渡表达类的权重。Keras 在计算损失时，会使用这些权重。如果每个实例都要加权重，可以设置`sample_weight`（这个参数优先于`class_weight`）。如果一些实例的标签是通过专家添加的，其它实例是通过众包平台添加的，最好加大前者的权重，此时给每个实例都加权重就很有必要。通过在`validation_data`元组中，给验证集加上样本权重作为第三项，还可以给验证集添加样本权重。
+
+`fit()`方法会返回`History`对象，包含：训练参数（`history.params`）、周期列表（`history.epoch`）、以及最重要的包含训练集和验证集的每个周期后的损失和指标的字典（`history.history`）。如果用这个字典创建一个 pandas 的`DataFrame`，然后使用方法`plot()`，就可以画出学习曲线，见图 10-12：
+
+```py
+import pandas as pd
+import matplotlib.pyplot as plt
+
+pd.DataFrame(history.history).plot(figsize=(8, 5))
+plt.grid(True)
+plt.gca().set_ylim(0, 1) # set the vertical range to [0-1]
+plt.show() 
+```
+
+![](img/55b6511bc922891b4ac2d7e8775cdbe7.png)
+
+图 10-12 学习曲线：每个周期的平均训练损失和准确率，验证损失和准确率
+
+可以看到，训练准确率和验证准确率稳步提高，训练损失和验证损失持续下降。另外，验证曲线和训练曲线靠的很近，意味着没有什么过拟合。在这个例子中，在训练一开始时，模型在验证集上的表现由于训练集。但实际情况是，验证误差是在每个周期结束后算出来的，而训练误差在每个周期期间，用流动平均误差算出来的。所以训练曲线（译者注，图中橙色的那条）实际应该向左移动半个周期。移动之后，就可以发现在训练开始时，训练和验证曲线几乎是完美重合起来的。
+
+> 提示：在绘制训练曲线时，应该向左移动半个周期。
+
+通常只要训练时间足够长，训练集的表现就能超越验证集。从图中可以看到，验证损失仍然在下降，模型收敛的还不好，所以训练应该持续下去。只需要再次调用方法`fit()`即可，因为 Keras 可以从断点处继续（验证准确率可以达到 89%。）
+
+如果仍然对模型的表现不满意，就需要调节超参数了。首先是学习率。如果调节学习率没有帮助，就尝试换一个优化器（记得再调节任何超参数之后都重新调节学习率）。如果效果仍然不好，就调节模型自身的超参数，比如层数、每层的神经元数，每个隐藏层的激活函数。还可以调节其它超参数，比如批次大小（通过`fit()`的参数`batch_size`，默认是 32）。本章末尾还会调节超参数。当对验证准确率达到满意之后，就可以用测试集评估泛化误差。只需使用`evaluate()`方法（`evaluate()`方法包含参数`batch_size`和`sample_weight`）：
+
+```py
+>>> model.evaluate(X_test, y_test)
+10000/10000 [==========] - 0s 29us/sample - loss: 0.3340 - accuracy: 0.8851
+[0.3339798209667206, 0.8851] 
+```
+
+正如第 2 章所见，测试集的表现通常比验证集上低一点，这是因为超参数根据验证集而不是测试集调节的（但是在这个例子中，我们没有调节过超参数，所以准确率下降纯粹是运气比较差而已）。一定不要在测试集上调节超参数，否则会影响泛化误差。
+
+### 使用模型进行预测
+
+接下来，就可以用模型的`predict()`方法对新实例做预测了。因为并没有新实例，所以就用测试集的前 3 个实例来演示：
+
+```py
+>>> X_new = X_test[:3]
+>>> y_proba = model.predict(X_new)
+>>> y_proba.round(2)
+array([[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0.03, 0\.  , 0.01, 0\.  , 0.96],
+       [0\.  , 0\.  , 0.98, 0\.  , 0.02, 0\.  , 0\.  , 0\.  , 0\.  , 0\.  ],
+       [0\.  , 1\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  ]],
+      dtype=float32) 
+```
+
+可以看到，模型会对每个实例的每个类（从 0 到 9）都给出一个概率。比如，对于第一张图，模型预测第 9 类（短靴）的概率是 96%，第 5 类（凉鞋）的概率是 3%，第 7 类（运动鞋）的概率是 1%，剩下的类的概率都是 0。换句话说，模型预测第一张图是鞋，最有可能是短靴，也有可能是凉鞋和运动鞋。如果只关心概率最高的类（即使概率不高），可以使用方法`predict_classes()`：
+
+```py
+>>> y_pred = model.predict_classes(X_new)
+>>> y_pred
+array([9, 2, 1])
+>>> np.array(class_names)[y_pred]
+array(['Ankle boot', 'Pullover', 'Trouser'], dtype='<U11') 
+```
+
+对于这 3 个实例，模型的判断都是对的（见图 10-13）：
+
+```py
+>>> y_new = y_test[:3]
+>>> y_new
+array([9, 2, 1]) 
+```
+
+![](img/0d1080f9485fe42c2bf86d1f9e0e2b66.png)
+
+图 10-13 正确分类的 Fashion MNIST 图片
+
+到此为止，我们学会了如何使用顺序 API 来搭建、训练、评估和使用分类 MLP？如何来做回归呢？
+
+## 使用顺序 API 搭建回归 MLP
+
+接下来使用回归神经网络来处理加州房价问题。简便起见，使用 Scikit-Learn 的`fetch_california_housing()`函数来加载数据。这个数据集比第 2 章所用的数据集简单，因为它只包括数值特征（没有`ocean_proximity`），也不包括缺失值。加载好数据之后，将数据集分割成训练集、验证集和测试集，并做特征缩放：
+
+```py
+from sklearn.datasets import fetch_california_housing
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import StandardScaler
+
+housing = fetch_california_housing()
+
+X_train_full, X_test, y_train_full, y_test = train_test_split(
+    housing.data, housing.target)
+X_train, X_valid, y_train, y_valid = train_test_split(
+    X_train_full, y_train_full)
+
+scaler = StandardScaler()
+X_train = scaler.fit_transform(X_train)
+X_valid = scaler.transform(X_valid)
+X_test = scaler.transform(X_test) 
+```
+
+使用顺序 API 搭建、训练、评估和使用回归 MLP 做预测，和前面的分类 MLP 很像。区别在于输出层只有一个神经元（因为只想预测一个值而已），也没有使用激活函数，损失函数是均方误差。因为数据集有噪音，我们就是用一个隐藏层，并且神经元也比之前少，以避免过拟合：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.Dense(30, activation="relu", input_shape=X_train.shape[1:]),
+    keras.layers.Dense(1)
+])
+model.compile(loss="mean_squared_error", optimizer="sgd")
+history = model.fit(X_train, y_train, epochs=20,
+                    validation_data=(X_valid, y_valid))
+mse_test = model.evaluate(X_test, y_test)
+X_new = X_test[:3] # pretend these are new instances
+y_pred = model.predict(X_new) 
+```
+
+可以看到，使用顺序 API 是很方便的。但是，尽管`Sequential`十分常见，但用它搭建复杂拓扑形态或多输入多输出的神经网络还是不多。所以，Keras 还提供了函数式 API。
+
+## 使用函数式 API 搭建复杂模型
+
+Wide & Deep 是一个非序列化的神经网络模型。这个架构是 Heng-Tze Cheng 在 2016 年在[论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1606.07792)中提出来的。这个模型可以将全部或部分输入与输出层连起来，见图 10-14。这样，就可以既学到深层模式（使用深度路径）和简单规则（使用短路径）。作为对比，常规 MLP 会强制所有数据流经所有层，因此数据中的简单模式在多次变换后会被扭曲。
+
+![](img/ae4176d0ecf0ecc5988b0df6135bbf41.png)
+
+图 10-14 Wide & Deep 神经网络
+
+我们来搭建一个这样的神经网络，来解决加州房价问题：
+
+```py
+input_ = keras.layers.Input(shape=X_train.shape[1:])
+hidden1 = keras.layers.Dense(30, activation="relu")(input_)
+hidden2 = keras.layers.Dense(30, activation="relu")(hidden1)
+concat = keras.layers.Concatenate()([input_, hidden2])
+output = keras.layers.Dense(1)(concat)
+model = keras.Model(inputs=[input_], outputs=[output]) 
+```
+
+每行代码的作用：
+
+*   首先创建一个`Input`对象。包括模型输入的形状`shape`和数据类型`dtype`。模型可能会有多种输入。
+
+*   然后，创建一个有 30 个神经元的紧密层，激活函数是 ReLU。创建好之后，将其作为函数，直接将输入传给它。这就是函数式 API 的得名原因。这里只是告诉 Keras 如何将层连起来，并没有导入实际数据。
+
+*   然后创建第二个隐藏层，还是将其作为函数使用，输入时第一个隐藏层的输出；
+
+*   接着，创建一个连接`Concatenate`层，也是作为函数使用，将输入和第二个隐藏层的输出连起来。可以使用`keras.layers.concatenate()`。
+
+*   然后创建输出层，只有一个神经元，没有激活函数，将连接层的输出作为输入。
+
+*   最后，创建一个 Keras 的`Model`，指明输入和输出。
+
+搭建好模型之后，重复之前的步骤：编译模型、训练、评估、做预测。
+
+但是如果你想将部分特征发送给 wide 路径，将部分特征（可以有重叠）发送给 deep 路径，该怎么做呢？答案是可以使用多输入。例如，假设向 wide 路径发送 5 个特征（特征 0 到 4），向 deep 路径发送 6 个特征（特征 2 到 7）：
+
+![](img/591beaf8e9895b8d896c927527c110d7.png)
+
+图 10-15 处理多输入
+
+```py
+input_A = keras.layers.Input(shape=[5], name="wide_input")
+input_B = keras.layers.Input(shape=[6], name="deep_input")
+hidden1 = keras.layers.Dense(30, activation="relu")(input_B)
+hidden2 = keras.layers.Dense(30, activation="relu")(hidden1)
+concat = keras.layers.concatenate([input_A, hidden2])
+output = keras.layers.Dense(1, name="output")(concat)
+model = keras.Model(inputs=[input_A, input_B], outputs=[output]) 
+```
+
+代码非常浅显易懂。值得注意的是，在创建模型时，我们指明了`inputs=[input_A, input_B]`。然后就可以像通常那样编译模型了，但当调用`fit()`时，不是传入矩阵`X_train`，而是传入一对矩阵`(X_train_A, X_train_B)`：每个输入一个矩阵。同理调用`evaluate()`或`predict()`时，`X_valid`、`X_test`、`X_new`也要变化：
+
+```py
+model.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=1e-3))
+
+X_train_A, X_train_B = X_train[:, :5], X_train[:, 2:]
+X_valid_A, X_valid_B = X_valid[:, :5], X_valid[:, 2:]
+X_test_A, X_test_B = X_test[:, :5], X_test[:, 2:]
+X_new_A, X_new_B = X_test_A[:3], X_test_B[:3]
+
+history = model.fit((X_train_A, X_train_B), y_train, epochs=20,
+                    validation_data=((X_valid_A, X_valid_B), y_valid))
+mse_test = model.evaluate((X_test_A, X_test_B), y_test)
+y_pred = model.predict((X_new_A, X_new_B)) 
+```
+
+有以下要使用多输入的场景：
+
+*   任务要求。例如，你想定位和分类图片中的主要物体。这既是一个回归任务（找到目标中心的坐标、宽度和高度）和分类任务。
+
+*   相似的，对于相同的数据，你可能有多个独立的任务。当然可以每个任务训练一个神经网络，但在多数情况下，同时对所有任务训练一个神经网络，每个任务一个输出，后者的效果更好。这是因为神经网络可以在不同任务间学习有用的数据特征。例如，在人脸的多任务分类时，你可以用一个输出做人物表情的分类（微笑惊讶等等），用另一个输出判断是否戴着眼镜。
+
+*   另一种情况是作为一种正则的方法（即，一种降低过拟合和提高泛化能力的训练约束）。例如，你想在神经网络中加入一些辅助输出（见图 10-16），好让神经网络的一部分依靠自身就能学到一些东西。
+
+![](img/b0edd14407d966c873df644d3df97d67.png)
+
+图 10-16 处理多输入，加入辅助输出作为正则
+
+添加额外的输出很容易：只需要将输出和相关的层连起来、将输出写入输出列表就行。例如，下面的代码搭建的就是图 10-16 的架构：
+
+```py
+[...] # output 层前面都一样
+output = keras.layers.Dense(1, name="main_output")(concat)
+aux_output = keras.layers.Dense(1, name="aux_output")(hidden2)
+model = keras.Model(inputs=[input_A, input_B], outputs=[output, aux_output]) 
+```
+
+每个输出都要有自己的损失函数。因此在编译模型时，需要传入损失列表（如果只传入一个损失，Keras 会认为所有输出是同一个损失函数）。Keras 默认计算所有损失，将其求和得到最终损失用于训练。主输出比辅助输出更值得关心，所以要提高它的权重，如下所示：
+
+```py
+model.compile(loss=["mse", "mse"], loss_weights=[0.9, 0.1], optimizer="sgd") 
+```
+
+此时若要训练模型，必须给每个输出贴上标签。在这个例子中，主输出和辅输出预测的是同一件事，因此标签相同。传入数据必须是`(y_train, y_train)`（`y_valid`和`y_test`也是如此）：
+
+```py
+history = model.fit(
+    [X_train_A, X_train_B], [y_train, y_train], epochs=20,
+    validation_data=([X_valid_A, X_valid_B], [y_valid, y_valid])) 
+```
+
+当评估模型时，Keras 会返回总损失和各个损失值：
+
+```py
+total_loss, main_loss, aux_loss = model.evaluate(
+    [X_test_A, X_test_B], [y_test, y_test]) 
+```
+
+相似的，方法`predict()`会返回每个输出的预测值：
+
+```py
+y_pred_main, y_pred_aux = model.predict([X_new_A, X_new_B]) 
+```
+
+可以看到，用函数式 API 可以轻易搭建任意架构。接下来再看最后一种搭建 Keras 模型的方法。
+
+## 使用子类化 API 搭建动态模型
+
+顺序 API 和函数式 API 都是声明式的：只有声明创建每个层以及层的连接方式，才能给模型加载数据以进行训练和推断。这种方式有其优点：模型可以方便的进行保存、克隆和分享；模型架构得以展示，便于分析；框架可以推断数据形状和类型，便于及时发现错误（加载数据之前就能发现错误）。调试也很容易，因为模型是层的静态图。但是缺点也很明显：模型是静态的。一些模型包含循环、可变数据形状、条件分支，和其它的动态特点。对于这些情况，或者你只是喜欢命令式编程，不妨使用子类化 API。
+
+对`Model`类划分子类，在构造器中创建需要的层，调用`call()`进行计算。例如，创建一个下面的`WideAndDeepModel`类的实例，就可以创建与前面函数式 API 例子的同样模型，同样可以进行编译、评估、预测：
+
+```py
+class WideAndDeepModel(keras.Model):
+    def __init__(self, units=30, activation="relu", **kwargs):
+        super().__init__(**kwargs) # handles standard args (e.g., name)
+        self.hidden1 = keras.layers.Dense(units, activation=activation)
+        self.hidden2 = keras.layers.Dense(units, activation=activation)
+        self.main_output = keras.layers.Dense(1)
+        self.aux_output = keras.layers.Dense(1)
+
+    def call(self, inputs):
+        input_A, input_B = inputs
+        hidden1 = self.hidden1(input_B)
+        hidden2 = self.hidden2(hidden1)
+        concat = keras.layers.concatenate([input_A, hidden2])
+        main_output = self.main_output(concat)
+        aux_output = self.aux_output(hidden2)
+        return main_output, aux_output
+
+model = WideAndDeepModel() 
+```
+
+这个例子和函数式 API 很像，除了不用创建输入；只需要在`call()`使用参数`input`，另外的不同是将层的创建和和使用分割了。最大的差别是，在`call()`方法中，你可以做任意想做的事：`for`循环、`if`语句、低级的 TensorFlow 操作，可以尽情发挥想象（见第 12 章）！子类化 API 可以让研究者试验各种新创意。
+
+然而代价也是有的：模型架构隐藏在`call()`方法中，所以 Keras 不能对其检查；不能保存或克隆；当调用`summary()`时，得到的只是层的列表，没有层的连接信息。另外，Keras 不能提前检查数据类型和形状，所以很容易犯错。所以除非真的需要灵活性，还是使用顺序 API 或函数式 API 吧。
+
+> 提示：可以像常规层一样使用 Keras 模型，组合模型搭建任意复杂的架构。
+
+学会了搭建和训练神经网络，接下来看看如何保存。
+
+## 保存和恢复模型
+
+使用顺序 API 或函数式 API 时，保存训练好的 Keras 模型和训练一样简单：
+
+```py
+model = keras.layers.Sequential([...]) # or keras.Model([...])
+model.compile([...])
+model.fit([...])
+model.save("my_keras_model.h5") 
+```
+
+Keras 使用 HDF5 格式保存模型架构（包括每层的超参数）和每层的所有参数值（连接权重和偏置项）。还保存了优化器（包括超参数和状态）。
+
+通常用脚本训练和保存模型，一个或更多的脚本（或 web 服务）来加载模型和做预测。加载模型很简单：
+
+```py
+model = keras.models.load_model("my_keras_model.h5") 
+```
+
+> 警告：这种加载模型的方法只对顺序 API 或函数式 API 有用，不适用于子类化 API。对于后者，可以用`save_weights()`和`load_weights()`保存参数，其它的就得手动保存恢复了。
+
+但如果训练要持续数个小时呢？在大数据集上训练，训练时间长很普遍。此时，不仅要在训练结束时保存模型检查点，在一定时间间隔内也要保存，以免电脑宕机造成损失。但是如何告诉`fit()`保存检查点呢？使用调回。
+
+### 使用调回
+
+`fit()`方法接受参数`callbacks`，可以让用户指明一个 Keras 列表，让 Keras 在训练开始和结束、每个周期开始和结束、甚至是每个批次的前后调用。例如，`ModelCheckpoint`可以在每个时间间隔保存检查点，默认是每个周期结束之后：
+
+```py
+[...] # 搭建编译模型
+checkpoint_cb = keras.callbacks.ModelCheckpoint("my_keras_model.h5")
+history = model.fit(X_train, y_train, epochs=10, callbacks=[checkpoint_cb]) 
+```
+
+另外，如果训练时使用了验证集，可以在创建检查点时设定`save_best_only=True`，只有当模型在验证集上取得最优值时才保存模型。这么做可以不必担心训练时间过长和训练集过拟合：只需加载训练好的模型，就能保证是在验证集上表现最好的模型。下面的代码演示了早停（见第 4 章）：
+
+```py
+checkpoint_cb = keras.callbacks.ModelCheckpoint("my_keras_model.h5",
+                                                save_best_only=True)
+history = model.fit(X_train, y_train, epochs=10,
+                    validation_data=(X_valid, y_valid),
+                    callbacks=[checkpoint_cb])
+model = keras.models.load_model("my_keras_model.h5") # roll back to best model 
+```
+
+另一种实现早停的方法是使用`EarlyStopping`调回。当检测到经过几个周期（周期数由参数`patience`确定），验证集表现没有提升时，就会中断训练，还能自动滚回到最优模型。可以将保存检查点（避免宕机）和早停（避免浪费时间和资源）结合起来：
+
+```py
+early_stopping_cb = keras.callbacks.EarlyStopping(patience=10,
+                                                  restore_best_weights=True)
+history = model.fit(X_train, y_train, epochs=100,
+                    validation_data=(X_valid, y_valid),
+                    callbacks=[checkpoint_cb, early_stopping_cb]) 
+```
+
+周期数可以设的很大，因为准确率没有提升时，训练就会自动停止。此时，就没有必要恢复最优模型，因为`EarlyStopping`调回一直在跟踪最优权重，训练结束时能自动恢复。
+
+> 提示：包[`keras.callbacks`](https://links.jianshu.com/go?to=https%3A%2F%2Fkeras.io%2Fcallbacks%2F)中还有其它可用的调回。
+
+如果还想有其它操控，还可以编写自定义的调回。下面的例子展示了一个可以展示验证集损失和训练集损失比例的自定义（检测过拟合）调回：
+
+```py
+class PrintValTrainRatioCallback(keras.callbacks.Callback):
+    def on_epoch_end(self, epoch, logs):
+        print("\nval/train: {:.2f}".format(logs["val_loss"] / logs["loss"])) 
+```
+
+类似的，还可以实现`on_train_begin()`、`on_train_end()`、`on_epoch_begin()`、`on_epoch_end()`、`on_batch_begin()`、和`on_batch_end()`。如果需要的话，在评估和预测时也可以使用调回（例如为了调试）。对于评估，可以实现`on_test_begin()`、`on_test_end()`、`on_test_batch_begin()`或`on_test_batch_end()`（通过`evaluate()`调用）；对于预测，可以实现`on_predict_begin()`、`on_predict_end()`、`on_predict_batch_begin()`或`on_predict_batch_end()`（通过`predict()`调用）。
+
+下面来看一个使用`tf.keras`的必备工具：TensorBoard。
+
+### 使用 TensorBoard 进行可视化
+
+TensorBoard 是一个强大的交互可视化工具，使用它可以查看训练过程中的学习曲线、比较每次运行的学习曲线、可视化计算图、分析训练数据、查看模型生成的图片、可视化投射到 3D 的多维数据，等等。TensorBoard 是 TensorFlow 自带的。
+
+要使用 TensorBoard，必须修改程序，将要可视化的数据输出为二进制的日志文件`event files`。每份二进制数据称为摘要`summary`，TensorBoard 服务器会监测日志文件目录，自动加载更新并可视化：这样就能看到实时数据（稍有延迟），比如训练时的学习曲线。通常，将 TensorBoard 服务器指向根日志目录，程序的日志写入到它的子目录，这样一个 TensorBoard 服务就能可视化并比较多次运行的数据，而不会将其搞混。
+
+我们先定义 TensorBoard 的根日志目录，还有一些根据当前日期生成子目录的小函数。你可能还想在目录名中加上其它信息，比如超参数的值，方便知道查询的内容：
+
+```py
+import os
+root_logdir = os.path.join(os.curdir, "my_logs")
+
+def get_run_logdir():
+    import time
+    run_id = time.strftime("run_%Y_%m_%d-%H_%M_%S")
+    return os.path.join(root_logdir, run_id)
+
+run_logdir = get_run_logdir() # e.g., './my_logs/run_2019_06_07-15_15_22' 
+```
+
+Keras 提供了一个`TensorBoard()`调回：
+
+```py
+[...] # 搭建编译模型
+tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
+history = model.fit(X_train, y_train, epochs=30,
+                    validation_data=(X_valid, y_valid),
+                    callbacks=[tensorboard_cb]) 
+```
+
+简直不能再简单了。如果运行这段代码，`TensorBoard()`调回会负责创建日志目录（包括父级目录），在训练过程中会创建事件文件并写入概要。再次运行程序（可能修改了一些超参数）之后，得到的目录结构可能如下：
+
+```py
+my_logs/
+├── run_2019_06_07-15_15_22
+│   ├── train
+│   │   ├── events.out.tfevents.1559891732.mycomputer.local.38511.694049.v2
+│   │   ├── events.out.tfevents.1559891732.mycomputer.local.profile-empty
+│   │   └── plugins/profile/2019-06-07_15-15-32
+│   │       └── local.trace
+│   └── validation
+│       └── events.out.tfevents.1559891733.mycomputer.local.38511.696430.v2
+└── run_2019_06_07-15_15_49
+    └── [...] 
+```
+
+每次运行都会创建一个目录，每个目录都有一个包含训练日志和验证日志的子目录。两者都包括事件文件，训练日志还包括分析追踪信息：它可以让 TensorBoard 展示所有设备上的模型的各个部分的训练时长，有助于定位性能瓶颈。
+
+然后就可以启动 TensorBoard 服务了。一种方式是通过运行命令行。如果是在虚拟环境中安装的 TensorFlow，需要激活虚拟环境。接着，在根目录（也可以是其它路径，但一定要指向日志目录）运行下面的命令：
+
+```py
+$ tensorboard --logdir=./my_logs --port=6006
+TensorBoard 2.0.0 at http://mycomputer.local:6006/ (Press CTRL+C to quit) 
+```
+
+如果终端没有找到`tensorboard`命令，必须更新环境变量`PATH`（或者，可以使用`python3 -m tensorboard.main`）。服务启动后，打开浏览器访问`http://localhost:6006`。
+
+或者，通过运行下面的命令，可以在 Jupyter 里面直接使用 TensorBoard。第一行代码加载了 TensorBoard 扩展，第二行在端口 6006 启动了一个 TensorBoard 服务，并连接：
+
+```py
+%load_ext tensorboard
+%tensorboard --logdir=./my_logs --port=6006 
+```
+
+无论是使用哪种方式，都得使用 TensorBoard 的浏览器界面。点击栏`SCALARS`可以查看学习曲线（见图 10-17）。左下角选择想要可视化的路径（比如第一次和第二次运行的训练日志），再点击`epoch_loss`。可以看到，在两次训练过程中，训练损失都是下降的，但第二次下降的更快。事实上，第二次的学习率是 0.05（`optimizer=keras.optimizers.SGD(lr=0.05)`）而不是 0.001。
+
+![](img/9b8b08eec5802fc9b8cd0ef0e9ef4749.png)
+
+图 10-17 使用 TensorBoard 可视化学习曲线
+
+还可以对全图、权重（投射到 3D）或其它信息做可视化。`TensorBoard()`调回还有选项可以记录其它数据的日志，比如嵌入（见第 13 章）。另外，TensorBoard 在`tf.summary`包中还提供了低级 API。下面的代码使用方法`create_file_writer()`创建了`SummaryWriter`，TensorBoard 使用`SummaryWriter`作为记录标量、柱状图、图片、音频和文本的上下文，所有这些都是可以可视化的！
+
+```py
+test_logdir = get_run_logdir()
+writer = tf.summary.create_file_writer(test_logdir)
+with writer.as_default():
+    for step in range(1, 1000 + 1):
+        tf.summary.scalar("my_scalar", np.sin(step / 10), step=step)
+        data = (np.random.randn(100) + 2) * step / 100 # some random data
+        tf.summary.histogram("my_hist", data, buckets=50, step=step)
+        images = np.random.rand(2, 32, 32, 3) # random 32×32 RGB images
+        tf.summary.image("my_images", images * step / 1000, step=step)
+        texts = ["The step is " + str(step), "Its square is " + str(step**2)]
+        tf.summary.text("my_text", texts, step=step)
+        sine_wave = tf.math.sin(tf.range(12000) / 48000 * 2 * np.pi * step)
+        audio = tf.reshape(tf.cast(sine_wave, tf.float32), [1, -1, 1])
+        tf.summary.audio("my_audio", audio, sample_rate=48000, step=step) 
+```
+
+总结一下目前所学：神经网络的起源、MLP 是什么、如何用 MLP 做分类和回归、如何使用顺序 API 搭建 MLP、如何使用函数式 API 或子类化 API 搭建更复杂的模型架构、保存和恢复模型、如何使用调回创建检查点、早停，等等。最后，学了使用 TensorBoard 做可视化。这些知识已经足够解决许多问题了。但是，你可能还有疑问，如何选择隐藏层的层数、神经元的数量，以及其他的超参数，下面就来讨论这些问题。
+
+### 微调神经网络的超参数
+
+神经网络的灵活性同时也是它的缺点：要微调的超参数太多了。不仅架构可能不同，就算对于一个简单的 MLP，就可以调节层数、每层的神经元数、每层使用什么激活函数、初始化的权重，等等。怎么才能知道哪个超参数的组合才是最佳的呢？
+
+一种方法是直接试验超参数的组合，看哪一个在验证集（或使用 K 折交叉验证）的表现最好。例如，可以使用`GridSearchCV`或`RandomizedSearchCV`探索超参数空间，就像第 2 章中那样。要这么做的话，必须将 Keras 模型包装进模仿 Scikit-Learn 回归器的对象中。第一步是给定一组超参数，创建一个搭建和编译 Keras 模型的函数：
+
+```py
+def build_model(n_hidden=1, n_neurons=30, learning_rate=3e-3, input_shape=[8]):
+    model = keras.models.Sequential()
+    model.add(keras.layers.InputLayer(input_shape=input_shape))
+    for layer in range(n_hidden):
+        model.add(keras.layers.Dense(n_neurons, activation="relu"))
+    model.add(keras.layers.Dense(1))
+    optimizer = keras.optimizers.SGD(lr=learning_rate)
+    model.compile(loss="mse", optimizer=optimizer)
+    return model 
+```
+
+这个函数创建了一个单回归（只有一个输出神经元）顺序模型，数据形状、隐藏层的层数和神经元数是给定的，使用指定学习率的`SGD`优化器编译。最好尽量给大多数超参数都设置合理的默认值，就像 Scikit-Learn 那样。
+
+然后使用函数`build_model()`创建一个`KerasRegressor`：
+
+```py
+keras_reg = keras.wrappers.scikit_learn.KerasRegressor(build_model) 
+```
+
+`KerasRegressor`是通过`build_model()`将 Keras 模型包装起来的。因为在创建时没有指定任何超参数，使用的是`build_model()`的默认参数。现在就可以像常规的 Scikit-Learn 回归器一样来使用它了：使用`fit()`方法训练，使用`score()`方法评估，使用`predict()`方法预测，见下面代码：
+
+```py
+keras_reg.fit(X_train, y_train, epochs=100,
+              validation_data=(X_valid, y_valid),
+              callbacks=[keras.callbacks.EarlyStopping(patience=10)])
+mse_test = keras_reg.score(X_test, y_test)
+y_pred = keras_reg.predict(X_new) 
+```
+
+任何传给`fit()`的参数都会传给底层的 Keras 模型。另外，分数的意义和 MSE 是相反的（即，分数越高越好）。因为超参数太多，最好使用随机搜索而不是网格搜索（见第 2 章的解释）。下面来探索下隐藏层的层数、神经元数和学习率：
+
+```py
+from scipy.stats import reciprocal
+from sklearn.model_selection import RandomizedSearchCV
+
+param_distribs = {
+    "n_hidden": [0, 1, 2, 3],
+    "n_neurons": np.arange(1, 100),
+    "learning_rate": reciprocal(3e-4, 3e-2),
+}
+
+rnd_search_cv = RandomizedSearchCV(keras_reg, param_distribs, n_iter=10, cv=3)
+rnd_search_cv.fit(X_train, y_train, epochs=100,
+                  validation_data=(X_valid, y_valid),
+                  callbacks=[keras.callbacks.EarlyStopping(patience=10)]) 
+```
+
+所做的和第 2 章差不多，除了这里试讲参数传给`fit()`，`fit()`再传给底层的 Keras。注意，`RandomizedSearchCV`使用的是 K 折交叉验证，没有用`X_valid`和`y_valid`（只有早停时才使用）。
+
+取决于硬件、数据集大小、模型复杂度、`n_iter`和`cv`，求解过程可能会持续几个小时。计算完毕后，就能得到最佳参数、最佳得分和训练好的 Keras 模型，如下所示：
+
+```py
+>>> rnd_search_cv.best_params_
+{'learning_rate': 0.0033625641252688094, 'n_hidden': 2, 'n_neurons': 42}
+>>> rnd_search_cv.best_score_
+-0.3189529188278931
+>>> model = rnd_search_cv.best_estimator_.model 
+```
+
+现在就可以保存模型、在测试集上评估，如果对效果满意，就可以部署了。使用随机搜索并不难，适用于许多相对简单的问题。但是当训练较慢时（大数据集的复杂问题），这个方法就只能探索超参数空间的一小部分而已。通过手动调节可以缓解一下：首先使用大范围的超参数值先做一次随机搜索，然后根据第一次的结果再做一次小范围的计算，以此类推。这样就能缩放到最优超参数的范围了。但是，这么做很耗时。
+
+幸好，有比随机搜索更好的探索超参数空间的方法。核心思想很简单：当某块空间的区域表现好时，就多探索这块区域。这些方法可以代替用户做“放大”工作，可以在更短的时间得到更好的结果。下面是一些可以用来优化超参数的 Python 库：
+
+[Hyperopt](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fhyperopt%2Fhyperopt)
+一个可以优化各种复杂搜索空间（包括真实值，比如学习率和离散值，比如层数）的库。
+
+[Hyperas](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fmaxpumperla%2Fhyperas)，[kopt](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FAvsecz%2Fkopt) 或 [Talos](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fautonomio%2Ftalos)
+用来优化 Keras 模型超参数的库（前两个是基于 Hyperopt 的）。
+
+[Keras Tuner](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fkerastuner)
+Google 开发的简单易用的 Keras 超参数优化库，还有可视化和分析功能。
+
+[Scikit-Optimize (`skopt`)](https://links.jianshu.com/go?to=https%3A%2F%2Fscikit-optimize.github.io%2F)
+一个通用的优化库。类`BayesSearchCV`使用类似于`GridSearchCV`的接口做贝叶斯优化。
+
+[Spearmint](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FJasperSnoek%2Fspearmint)
+一个贝叶斯优化库。
+
+[Hyperband](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fzygmuntz%2Fhyperband)
+一个快速超参数调节库，基于 Lisha Li 的论文[《Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization》](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1603.06560)。
+
+[Sklearn-Deap](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Frsteca%2Fsklearn-deap)
+一个基于进化算法的超参数优化库，接口类似`GridSearchCV`。
+
+另外，许多公司也提供超参数优化服务。第 19 章会讨论 Google Cloud AI 平台的[超参数调节服务](https://links.jianshu.com/go?to=https%3A%2F%2Fcloud.google.com%2Fml-engine%2Fdocs%2Ftensorflow%2Fusing-hyperparameter-tuning)。其它公司有 [Arimo](https://links.jianshu.com/go?to=https%3A%2F%2Farimo.com%2F) 、 [SigOpt](https://links.jianshu.com/go?to=https%3A%2F%2Fsigopt.com%2F)，和 CallDesk 的 [Oscar](https://links.jianshu.com/go?to=http%3A%2F%2Foscar.calldesk.ai%2F).
+
+超参数调节仍然是活跃的研究领域，其中进化算法表现很突出。例如，在 2017 年的论文[《Population Based Training of Neural Networks》](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1711.09846)中，Deepmind 的作者用统一优化了一组模型及其超参数。Google 也使用了一种进化算法，不仅用来搜索查参数，还可以搜索最佳的神经网络架构；[Google 的 AutoML 套间已经可以在云服务上使用了](https://links.jianshu.com/go?to=https%3A%2F%2Fcloud.google.com%2Fautoml%2F)。也许手动搭建神经网络的日子就要结束了？[看看 Google 的这篇文章](https://links.jianshu.com/go?to=https%3A%2F%2Fai.googleblog.com%2F2018%2F03%2Fusing-evolutionary-automl-to-discover.html)。事实上，用进化算法训练独立的神经网络很成功，已经取代梯度下降了。例如，Uber 在 2017 年介绍了名为 Deep Neuroevolution 的技术，见[这里](https://links.jianshu.com/go?to=https%3A%2F%2Feng.uber.com%2Fdeep-neuroevolution%2F)。
+
+尽管有这些工具和服务，知道每个超参数该取什么值仍然是帮助的，可以快速创建原型和收缩搜索范围。后面的文字介绍了选择 MLP 隐藏层数和神经元数的原则，以及如何选择主要的超参数值。
+
+### 隐藏层数
+
+对于许多问题，开始时只用一个隐藏层就能得到不错的结果。只要有足够多的神经元，只有一个隐藏层的 MLP 就可以对复杂函数建模。但是对于复杂问题，深层网络比浅层网络有更高的参数效率：深层网络可以用指数级别更少的神经元对复杂函数建模，因此对于同样的训练数据量性能更好。
+
+要明白为什么，假设别人让你用绘图软件画一片森林，但你不能复制和粘贴。这样的话，就得花很长时间，你需要手动来画每一棵树，一个树枝然后一个树枝，一片叶子然后一片叶子。如果可以鲜花一片叶子，然后将叶子复制粘贴到整个树枝上，再将树枝复制粘贴到整棵树上，然后再复制树，就可以画出一片森林了，所用的时间可以大大缩短。真实世界的数据通常都是有层次化结构的，深层神经网络正式利用了这一点：浅隐藏层对低级结构（比如各种形状的线段和方向），中隐藏层结合这些低级结构对中级结构（方，圆）建模，深隐藏层和输出层结合中级结构对高级结构（比如，脸）建模。
+
+层级化的结构不仅帮助深度神经网络收敛更快，，也提高了对新数据集的泛化能力。例如，如果已经训练好了一个图片人脸识别的模型，现在想训练一个识别发型的神经网络，你就可以复用第一个网络的浅层。不用随机初始化前几层的权重和偏置项，而是初始化为第一个网络浅层的权重和偏置项。这样，网络就不用从多数图片的低级结构开始学起；只要学高级结构（发型）就行了。这就称为迁移学习。
+
+概括来讲，对于许多问题，神经网络只有一或两层就够了。例如，只用一个隐藏层和几百个神经元，就能在 MNIST 上轻松达到 97% 的准确率；同样的神经元数，两个隐藏层，训练时间几乎相同，就能达到 98% 的准确率。对于更复杂的问题，可以增加隐藏层的数量，直到在训练集上过拟合为止。非常复杂的任务，比如大图片分类或语音识别，神经网络通常需要几十层（甚至上百，但不是全连接的，见第 14 章），需要的训练数据量很大。对于这样的网络，很少是从零训练的：常见的是使用预训练好的、表现出众的任务相近的网络，训练可以快得多，需要的数据也可以不那么多（见第 11 章的讨论）。
+
+### 每个隐藏层的神经元数
+
+输入层和输出层的神经元数是由任务确定的输入和输出类型决定的。例如，MNIST 任务需要`28 × 28 = 784`个输入神经元和 10 个输出神经元。
+
+对于隐藏层，惯用的方法是模拟金字塔的形状，神经元数逐层递减 —— 底层思想是，许多低级特征可以聚合成少得多的高级特征。MNIST 的典型神经网络可能需要 3 个隐藏层，第一层有 300 个神经元，第二层有 200 个神经元，第三层有 100 个神经元。然而，这种方法已经被抛弃了，因为所有隐藏层使用同样多的神经元不仅表现更好，要调节的超参数也只变成了一个，而不是每层都有一个。或者，取决于数据集的情况，有时可以让第一个隐藏层比其它层更大。
+
+和层数相同，可以逐步提高神经元的数量，知道发生过拟合为止。但在实际中，通常的简便而高效的方法是使用层数和神经元数都超量的模型，然后使用早停和其它正则技术防止过拟合。一位 Google 的科学家 Vincent Vanhoucke，称这种方法为“弹力裤”：不浪费时间选择尺寸完美匹配的裤子，而是选择一条大的弹力裤，它能自动收缩到合适的尺寸。通过这种方法，可以避免影响模型的瓶颈层。另一方面，如果某层的神经元太少，就没有足够强的表征能力，保存所有的输入信息（比如，只有两个神经元的的层只能输出 2D 数据，如果用它处理 3D 数据，就会丢失信息）。无论模型网络的其它部分如何强大，丢失的信息也找不回来了。
+
+> 提示：通常，增加层数比增加每层的神经元的收益更高。
+
+### 学习率，批次大小和其它超参数
+
+隐藏层的层数和神经元数不是 MLP 唯二要调节的参数。下面是一些其它的超参数和调节策略：
+
+学习率：
+学习率可能是最重要的超参数。通常，最佳学习率是最大学习率（最大学习率是超过一定值，训练算法发生分叉的学习率，见第 4 章）的大概一半。找到最佳学习率的方式之一是从一个极小值开始（比如`10^(-5)`）训练模型几百次，直到学习率达到一个比较大的值（比如 10）。这是通过在每次迭代，将学习率乘以一个常数实现的（例如`exp(log(10^6)/500`，通过 500 次迭代，从`10^(-5)`到 10 ）。如果将损失作为学习率的函数画出来（学习率使用 log），能看到损失一开始是下降的。过了一段时间，学习率会变得非常高，损失就会升高：最佳学习率要比损失开始升高的点低一点（通常比拐点低 10 倍）。然后就可以重新初始化模型，用这个学习率开始训练了。第 11 章会介绍更多的学习率优化方法。
+
+优化器：
+选择一个更好的优化器（并调节超参数）而不是传统的小批量梯度下降优化器同样重要。第 11 章会介绍更先进的优化器。
+
+批次大小：
+批次大小对模型的表现和训练时间非常重要。使用大批次的好处是硬件（比如 GPU）可以快速处理（见第 19 章），每秒可以处理更多实例。因此，许多人建议批次大小开到 GPU 内存的最大值。但也有缺点：在实际中，大批次，会导致训练不稳定，特别是在训练开始时，并且不如小批次模型的泛化能力好。2018 年四月，Yann LeCun 甚至发了一条推特：“朋友之间不会让对方的批次大小超过 32”，引用的是 Dominic Masters 和 Carlo Luschi 的论文[《Revisiting Small Batch Training for Deep Neural Networks》](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1804.07612)，在这篇论文中，作者的结论是小批次（2 到 32）更可取，因为小批次可以在更短的训练时间得到更好的模型。但是，有的论文的结论截然相反：2017 年，两篇论文[《Train longer, generalize better: closing the generalization gap in large batch training of neural networks》](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1705.08741)和[《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1706.02677)建议，通过多种方法，比如给学习率热身（即学习率一开始很小，然后逐渐提高，见第 11 章），就能使用大批次（最大 8192）。这样，训练时间就能非常短，也没有泛化鸿沟。因此，一种策略是通过学习率热身使用大批次，如果训练不稳定或效果不好，就换成小批次。
+
+激活函数：
+本章一开始讨论过如何选择激活函数：通常来讲，ReLU 适用于所有隐藏层。对于输出层，就要取决于任务。
+
+迭代次数：
+对于大多数情况，用不着调节训练的迭代次数：使用早停就成了。
+
+> 提示：最佳学习率还取决于其它超参数，特别是批次大小，所以如果调节了任意超参数，最好也更新学习率。
+
+想看更多关于调节超参数的实践，可以参考 Leslie Smith 的论文[《A disciplined approach to neural network hyper-parameters: Part 1 -- learning rate, batch size, momentum, and weight decay》](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1803.09820)。
+
+这章总结了对人工神经网络，以及 Kera 是实现。接下来的章节，我们会讨论训练深层网络的方法。还会使用 TensorFlow 的低级 API 实现自定义模型，和使用 Data API 高效加载和预处理数据。还会探讨其它流行的神经网络：用于图像处理的卷积神经网络，用于序列化数据的循环神经网络，用于表征学习的自编码器，用于建模和生成数据的对抗生成网络。
+
+# 练习
+
+1.  [TensorFlow Playground](https://links.jianshu.com/go?to=https%3A%2F%2Fplayground.tensorflow.org%2F) 是 TensorFlow 团队推出的一个便利的神经网络模拟器。只需点击几下，就能训练出二元分类器，通过调整架构和超参数，可以从直观上理解神经网络是如何工作的，以及超参数的作用。如下所示：
+
+a. 神经网络学到的模式。点击左上的运行按钮，训练默认的神经网络。注意是如何找到分类任务的最优解的。第一个隐藏层学到了简单模式，第二个隐藏层将简单模式结合为更复杂的模式。通常，层数越多，得到的模式越复杂。
+
+b. 激活函数。用 ReLU 激活函数代替 tanh，再训练一次网络。注意，找到解变得更快了，且是线性的，这归功于 ReLU 函数的形状。
+
+c. 局部最小值的风险。将网络只设定为只有一个隐藏层，且只有 3 个神经元。进行多次训练（重置网络权重，点击`Reset`按钮）。可以看到训练时间变化很大，甚至有时卡在了局部最小值。
+
+d. 神经网络太小的状况。去除一个神经元，只剩下两个。可以看到，即使尝试多次，神经网络现也不能找到最优解。模型的参数太少，对训练集数据欠拟合。
+
+e. 神经网络足够大的状况。将神经元数设为 8，再多次训练神经网络。可以看到过程很快且不会卡住。这是一个重要的发现：大神经网络几乎从不会卡在局部最小值，即使卡住了，局部最小值通常也是全局最小值。但是仍然可能在平台期卡住相当长时间。
+
+f. 梯度消失的风险。选择 spiral 数据集（右下角位于 DATA 下面的数据集），模型架构变为四个隐藏层，每层八个神经元。可以看到，训练耗时变长，且经常在平台期卡住很长时间。另外，最高层（右边）的神经元比最底层变得快。这个问题被称为“梯度消失”，可以通过更优的权重初始化、更好的优化器（比如 AdaGrad 或 Adam）、或批次正态化（见第 11 章）解决。
+
+g. 再尝试尝试其它参数。
+
+2.  用原始神经元（像图 10-3 中的神经元）画 ANN，可以计算`A ⊕ B` （`⊕`表示 XOR 操作）。提示：`A ⊕ B = (A ∧ ¬B ∨ (¬A ∧ B)`
+
+3.  为什么逻辑回归比经典感知机（即使用感知机训练算法训练的单层的阈值逻辑单元）更好？如何调节感知机，使其等同于逻辑回归分类器？
+
+4.  为什么逻辑激活函数对训练 MLP 的前几层很重要？
+
+5.  说出三种流行的激活函数，并画出来。
+
+6.  假设一个 MLP 的输入层有 10 个神经元，接下来是有 50 个人工神经元的的隐藏层，最后是一个有 3 个人工神经元的输出层。所有的神经元使用 ReLU 激活函数。回答以下问题：
+
+*   输入矩阵`X`的形状是什么？
+
+*   隐藏层的权重向量`W[h]`和偏置项`b[h]`的形状是什么?
+
+*   输出层的权重向量`W[o]`和偏置项`b[o]`的形状是什么?
+
+*   输出矩阵`Y`的形状是什么？
+
+*   写出用`X, W[h], b[h], W[o], b[o]`计算矩阵`Y`的等式。
+
+7.  如果要将邮件分为垃圾邮件和正常邮件，输出层需要几个神经元？输出层应该使用什么激活函数？如果任务换成 MNIST，输出层需要多少神经元，激活函数是什么？再换成第 2 章中的房价预测，输出层又该怎么变？
+
+8.  反向传播是什么及其原理？反向传播和逆向 autodiff 有什么不同？
+
+9.  列出所有简单 MLP 中需要调节的超参数？如果 MLP 过拟合训练数据，如何调节超参数？
+
+10.  在 MNIST 数据及上训练一个深度 MLP。
+
+使用`keras.datasets.mnist.load_data()`加载数据，看看能否使准确率超过 98%，利用本章介绍的方法（逐步指数级提高学习率，画误差曲线，找到误差升高的点）搜索最佳学习率。保存检查点，使用早停，用 TensorBoard 画学习曲线的图。
+
+参考答案见附录 A。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/11.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/11.md
new file mode 100644
index 00000000..6831539d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/11.md
@@ -0,0 +1,848 @@
+# 十一、训练深度神经网络
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+
+
+第 10 章介绍了人工神经网络，并训练了第一个深度神经网络。 但它非常浅，只有两个隐藏层。 如果你需要解决非常复杂的问题，例如检测高分辨率图像中的数百种类型的对象，该怎么办？ 你可能需要训练更深的 DNN，也许有 10 层或更多，每层包含数百个神经元，通过数十万个连接相连。 这可不像公园散步那么简单，可能碰到下面这些问题：
+
+*   你将面临棘手的梯度消失问题（或相关的梯度爆炸问题）：在反向传播过程中，梯度变得越来越小或越来越大。二者都会使较浅层难以训练；
+*   要训练一个庞大的神经网络，但是数据量不足，或者标注成本很高；
+*   训练可能非常慢；
+*   具有数百万参数的模型将会有严重的过拟合训练集的风险，特别是在训练实例不多或存在噪音时。
+
+在本章中，我们将依次讨论这些问题，并给出解决问题的方法。 我们将从梯度消失/爆炸问题开始，并探讨解决这个问题的一些最流行的解决方案。 接下来会介绍迁移学习和无监督预训练，这可以在即使标注数据不多的情况下，也能应对复杂问题。然后我们将看看各种优化器，可以加速大型模型的训练。 最后，我们将浏览一些流行的大型神经网络正则化方法。
+
+使用这些工具，你将能够训练非常深的网络：欢迎来到深度学习的世界！
+
+## 梯度消失/爆炸问题
+
+正如我们在第 10 章中所讨论的那样，反向传播算法的工作原理是从输出层到输入层，传播误差的梯度。 一旦该算法已经计算了网络中每个参数的损失函数的梯度，它就通过梯度下降使用这些梯度来更新每个参数。
+
+不幸的是，随着算法进展到较低层，梯度往往变得越来越小。 结果，梯度下降更新使得低层连接权重实际上保持不变，并且训练永远不会收敛到最优解。 这被称为梯度消失问题。 在某些情况下，可能会发生相反的情况：梯度可能变得越来越大，许多层得到了非常大的权重更新，算法发散。这是梯度爆炸的问题，在循环神经网络中最为常见（见第 145 章）。 更一般地说，深度神经网络面临梯度不稳定; 不同的层可能有非常不同的学习率。
+
+虽然很早就观察到这种现象了（这是造成深度神经网络在 2000 年早期被抛弃的原因之一），但直到 2010 年左右，人们才才略微清楚了导致梯度消失/爆炸的原因。 Xavier Glorot 和 Yoshua Bengio 发表的题为[《Understanding the Difficulty of Training Deep Feedforward Neural Networks》](https://links.jianshu.com/go?to=http%3A%2F%2Fproceedings.mlr.press%2Fv9%2Fglorot10a%2Fglorot10a.pdf)的论文发现了一些疑点，包括流行的 sigmoid 激活函数和当时最受欢迎的权重初始化方法的组合，即随机初始化时使用平均值为 0，标准差为 1 的正态分布。简而言之，他们表明，用这个激活函数和这个初始化方案，每层输出的方差远大于其输入的方差。随着网络前向传播，每层的方差持续增加，直到激活函数在顶层饱和。logistic 函数的平均值为 0.5 而不是 0（双曲正切函数的平均值为 0，表现略好于深层网络中的 logistic 函数），使得情况更坏。
+
+看一下 logistic 激活函数（参见图 11-1），可以看到当输入变大（负或正）时，函数饱和在 0 或 1，导数非常接近 0。因此，当反向传播开始时， 它几乎没有梯度通过网络传播回来，而且由于反向传播通过顶层向下传递，所以存在的小梯度不断地被稀释，因此较低层得到的改善很小。
+
+![](img/076bce42822b56f835ebdc0841cef999.png)
+
+图 11-1 逻辑激活函数饱和
+
+### Glorot 和 He 初始化
+
+Glorot 和 Bengio 在他们的论文中提出了一种显著缓解这个问题的方法。 我们需要信号在两个方向上正确地流动：在进行预测时是前向的，在反向传播梯度时是逆向的。 我们不希望信号消失，也不希望它爆炸并饱和。 为了使信号正确流动，作者认为，我们需要每层输出的方差等于其输入的方差，并且反向传播时，流经一层的前后，梯度的方差也要相同（如果对数学细节感兴趣的话，请查看论文）。实际上不可能保证两者都是一样的，除非这个层具有相同数量的输入和神经元（这两个数被称为该层的扇入`fan-in`和扇出`fan-out`），但是他们提出了一个很好的折衷办法，在实践中证明这个折中办法非常好：随机初始化连接权重必须如公式 11-1 这样，其中`fan[avg] = (fan[in] + fan[out]) / 2`。 这种初始化策略通常被称为 Xavier 初始化或 Glorot 初始化。
+
+![](img/846587ae7e6e134d83820799df97c11c.png)
+
+公式 11-1 Xavier 初始化（使用逻辑激活函数）
+
+如果将公式 11-1 中的`fan[avg]`替换为`fan[in]`，就得到了 Yann LeCun 在 1990 年代提出的初始化策略，他称其为 LeCun 初始化。Genevieve Orr 和 Klaus-Robert Müller 在 1998 年出版的书《Neural Networks: Tricks of the Trade (Springer)》中推荐了 LeCun 初始化。当`fan[in] = fan[out]`时，LeCun 初始化等同于 Glorot 初始化。研究者们经历了十多年才意识到初始化策略的重要性。使用 Glorot 初始化可以大大加快训练，这是促成深度学习成功的技术之一。
+
+一些论文针对不同的激活函数提供了类似的策略。这些策略的区别在于方差大小和使用`fan[avg]`或`fan[out]`，如表 11-1 所示。 ReLU 激活函数（及其变体，包括简称 ELU 激活）的初始化策略有时称为 He 初始化。本章后面会介绍 SELU 激活函数，它应该与 LeCun 初始化（最好是正态分布）一起使用。
+
+![](img/20e4e3010cf36366cfa6d1065b90a38c.png)
+
+表 11-1 每种激活函数的初始化参数
+
+默认情况下，Keras 使用均匀分布的 Glorot 初始化函数。创建层时，可以通过设置`kernel_initializer="he_uniform"`或`kernel_initializer="he_normal"`变更为 He 初始化，如下所示：
+
+```py
+keras.layers.Dense(10, activation="relu", kernel_initializer="he_normal") 
+```
+
+如果想让均匀分布的 He 初始化是基于`fan[avg]`而不是`fan[in]`，可以使用 VarianceScaling 初始化器：
+
+```py
+he_avg_init = keras.initializers.VarianceScaling(scale=2., mode='fan_avg',
+                                                 distribution='uniform')
+keras.layers.Dense(10, activation="sigmoid", kernel_initializer=he_avg_init) 
+```
+
+### 非饱和激活函数
+
+Glorot 和 Bengio 在 2010 年的论文中的一个见解是，消失/爆炸的梯度问题部分是由于激活函数的选择不好造成的。 在那之前，大多数人都认为，如果大自然选择在生物神经元中使用 sigmoid 激活函数，它们必定是一个很好的选择。 但事实证明，其他激活函数在深度神经网络中表现得更好，特别是 ReLU 激活函数，主要是因为它对正值不会饱和（也因为它的计算速度很快）。
+
+但是，ReLU 激活功能并不完美。 它有一个被称为 “ReLU 死区” 的问题：在训练过程中，一些神经元会“死亡”，即它们停止输出 0 以外的任何东西。在某些情况下，你可能会发现你网络的一半神经元已经死亡，特别是使用大学习率时。 在训练期间，如果神经元的权重得到更新，使得神经元输入的加权和为负，则它将开始输出 0 。当这种情况发生时，由于当输入为负时，ReLU 函数的梯度为 0，神经元就只能输出 0 了。
+
+为了解决这个问题，你可能需要使用 ReLU 函数的一个变体，比如 leaky ReLU。这个函数定义为`LeakyReLU[α](z)= max(αz, z)`（见图 11-2）。超参数`α`定义了函数“泄露”的程度：它是`z < 0`时函数的斜率，通常设置为 0.01。这个小斜率保证 leaky ReLU 永不死亡；他们可能会长期昏迷，但他们有机会最终醒来。[2015 年的一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1505.00853)比较了几种 ReLU 激活功能的变体，其中一个结论是 leaky Relu 总是优于严格的 ReLU 激活函数。事实上，设定`α= 0.2`（大的泄露）似乎比`α= 0.01`（小的泄露）有更好的性能。这篇论文还评估了随机化 leaky ReLU（RReLU），其中`α`在训练期间在给定范围内随机，并在测试期间固定为平均值。它表现相当好，似乎是一个正则项（减少训练集的过拟合风险）。最后，文章还评估了参数化的 leaky ReLU（PReLU），其中`α`被授权在训练期间参与学习（而不是作为超参数，`α`变成可以像任何其他参数一样被反向传播修改的参数）。据报道，PReLU 在大型图像数据集上的表现强于 ReLU，但是对于较小的数据集，其具有过度拟合训练集的风险。
+
+![](img/9679c67f28c8b2370252dc5cc7a45e61.png)
+
+图 11-2 Leaky ReLU：很像 ReLU，但在负区间有小斜率
+
+最后，Djork-Arné Clevert 等人在 [2015 年的一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1511.07289)中提出了一种称为指数线性单元（exponential linear unit，ELU）的新激活函数，在他们的实验中，ELU 的表现优于所有 ReLU 变体：训练时间减少，神经网络在测试集上表现的更好。 如图 11-3 所示，公式 11-2 给出了它的定义。
+
+![](img/e40be2d92991f7daafc0b96699a9208e.png)
+
+公式 11-2 ELU 激活函数
+
+![](img/a83b3a515cc64f90660ae88f90fa182c.png)
+
+图 11-3 ELU 激活函数
+
+ELU 看起来很像 ReLU 函数，但有一些区别，主要区别在于：
+
+*   它在`z < 0`时取负值，这使得该单元的平均输出接近于 0。这有助于减轻梯度消失问题。 超参数`α`定义为当`z`是一个大的负数时，ELU 函数接近的值。它通常设置为 1，但是如果你愿意，你可以像调整其他超参数一样调整它。
+*   它对`z < 0`有一个非零的梯度，避免了神经元死亡的问题。
+*   如果`α`等于 1，则函数在任何地方都是平滑的，包括`z = 0`附近，这有助于加速梯度下降，因为它不会在`z = 0`附近回弹。
+
+ELU 激活函数的主要缺点是计算速度慢于 ReLU 及其变体（由于使用指数函数），但是在训练过程中，这是通过更快的收敛速度来补偿的。 然而，在测试时间，ELU 网络将比 ReLU 网络慢。
+
+[2017 年的一篇文章](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1706.02515)中，Günter Klambauer 等人介绍了一种 Scaled ELU（SELU）激活函数：正如它的名字所示，它是 ELU 的伸缩变体。作者证明，只要神经网络中都是紧密层，并且所有隐藏层都是用的 SELU 激活函数，则这个网络是自归一的：训练过程中，每层输出的平均值是 0，标准差是 1，这样就解决了梯度消失爆炸问题。对于全紧密层的网络（尤其是很深的），SELU 的效果常常优于其他激活函数。但是自归一是需要条件的（数学论证见论文）：
+
+*   输入特征必须是标准的（平均值是 0，标准差是 1）；
+
+*   每个隐藏层的权重必须是 LeCun 正态初始化的。在 Keras 中，要设置`kernel_initializer="lecun_normal"`；
+
+*   网络架构必须是顺序的。但是，如果要在非顺序网络（比如 RNN）或有跳连接的网络（跳过层的连接，比如 Wide&Deep）中使用 SELU，就不能保证是自归一的，所以 SELU 就不会比其它激活函数更优；
+
+*   这篇论文只是说如果所有层都是紧密层才保证自归一，但有些研究者发现 SELU 激活函数也可以提高卷积神经网络的性能。
+
+> 提示：那么深层神经网络的隐藏层应该使用哪个激活函数呢？ 虽然可能会有所不同，一般来说 SELU > ELU > leaky ReLU（及其变体）> ReLU > tanh > sigmoid。 如果网络架构不能保证自归一，则 ELU 可能比 SELU 的性能更好（因为 SELU 在`z=0`时不是平滑的）。如果关心运行延迟，则 leaky ReLU 更好。 如果你不想多调整另一个超参数，你可以使用前面提到的默认的`α`值（leaky ReLU 为 0.3）。 如果有充足的时间和计算能力，可以使用交叉验证来评估其他激活函数，如果神经网络过拟合，则使用 RReLU; 如果您拥有庞大的训练数据集，则为 PReLU。但是，因为 ReLU 是目前应用最广的激活函数，许多库和硬件加速器都使用了针对 ReLU 的优化，如果速度是首要的，ReLU 可能仍然是首选。
+
+要使用 leaky ReLU，需要创建一个`LeakyReLU`层，并将它加到需要追加的层后面：
+
+```py
+model = keras.models.Sequential([
+    [...]
+    keras.layers.Dense(10, kernel_initializer="he_normal"),
+    keras.layers.LeakyReLU(alpha=0.2),
+    [...]
+]) 
+```
+
+对于 PReLU，用`PReLU()`替换`LeakyRelu(alpha=0.2)`。目前还没有 RReLU 的 Keras 官方实现，但很容易自己实现（方法见第 12 章的练习）。
+
+对于 SELU，当创建层时设置`activation="selu"`，`kernel_initializer="lecun_normal"`：
+
+```py
+layer = keras.layers.Dense(10, activation="selu",
+                           kernel_initializer="lecun_normal") 
+```
+
+### 批归一化（Batch Normalization）
+
+尽管使用 He 初始化和 ELU（或任何 ReLU 变体）可以显著减少训练开始阶段的梯度消失/爆炸问题，但不能保证在训练期间问题不会再次出现。
+
+[在 2015 年的一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1502.03167)中，Sergey Ioffe 和 Christian Szegedy 提出了一种称为批归一化（Batch Normalization，BN）的方法来解决梯度消失/爆炸问题。该方法包括在每层的激活函数之前或之后在模型中添加操作。操作就是将输入平均值变为 0，方差变为 1，然后用两个新参数，一个做缩放，一个做偏移。换句话说，这个操作可以让模型学习到每层输入值的最佳缩放值和平均值。大大多数情况下，如果模型的第一层使用了 BN 层，则不用标准化训练集（比如使用`StandardScaler`）；BN 层做了标准化工作（虽然是近似的，每次每次只处理一个批次，但能做缩放和平移）。
+
+为了对输入进行零居中（平均值是 0）和归一化，算法需要估计输入的均值和标准差。 它通过评估当前小批量输入的均值和标准差（因此命名为“批归一化”）来实现。 整个操作在公式 11-3 中。
+
+![](img/aa3b950c85c9c9474f98029f6a560299.png)
+
+公式 11-3 批归一化算法
+
+其中，
+
+*   `μ[B]`是整个小批量`B`的均值向量
+
+*   `σ[B]`是输入标准差向量，也是根据整个小批量估算的。
+
+*   `m[B]`是小批量中的实例数量。
+
+*   `X_hat^(j)`是以为零中心和标准化的实例`i`的输入向量。
+
+*   `γ`是层的缩放参数的向量（每个输入一个缩放参数）。
+
+*   `⊗`表示元素级别的相乘（每个输入乘以对应的缩放参数）
+
+*   `β`是层的偏移参数（偏移量）向量（每个输入一个偏移参数）
+
+*   `ϵ`是一个很小的数字，以避免被零除（通常为`10^-5`）。 这被称为平滑项（拉布拉斯平滑，Laplace Smoothing）。
+
+*   `z^(i)`是 BN 操作的输出：它是输入的缩放和移位版本。
+
+在训练时，BN 将输入标准化，然后做了缩放和平移。测试时又如何呢？因为需要对实例而不是批次实例做预测，所以就不能计算每个输入的平均和标准差。另外，即使有批量实例，批量也可能太小，或者实例并不是独立同分布的，所以在批量上计算是不可靠的。一种解决方法是等到训练结束，用模型再运行一次训练集，算出每个 BN 层的平均值和标准差。然后就可以用这些数据做预测，而不是批输入的平均值和标准差。但是，大部分批归一化实现是通过层输入的平均值和标准差的移动平均值来计算的。这也是 Keras 在`BatchNormalization`中使用的方法。总的来说，每个批归一化的层都通过指数移动平均学习了四个参数：`γ`（输出缩放向量），`β`（输出偏移向量），`μ`（最终输入平均值向量）和`σ`（最终输入标准差向量）。`μ`和`σ`都是在训练过程中计算的，但只在训练后使用（用于替换公式 11-3 中批输入平均和标准差）。
+
+Ioffe 和 Szegedy 证明，批归一化大大改善了他们试验的所有深度神经网络，极大提高了 ImageNet 分类的效果（ImageNet 是一个图片分类数据集，用于评估计算机视觉系统）。梯度消失问题大大减少了，他们可以使用饱和激活函数，如 tanh 甚至逻辑激活函数。网络对权重初始化也不那么敏感。他们能够使用更大的学习率，显著加快了学习过程。具体地，他们指出，“应用于最先进的图像分类模型，批标准减少了 14 倍的训练步骤实现了相同的精度，以显著的优势击败了原始模型。[...] 使用批量标准化的网络集合，我们改进了 ImageNet 分类上的最佳公布结果：达到 4.9% 的前 5 个验证错误（和 4.8% 的测试错误），超出了人类评估者的准确性。批量标准化也像一个正则化项一样，减少了对其他正则化技术的需求（如本章稍后描述的丢弃）.
+
+然而，批量标准化的确会增加模型的复杂性（尽管它不需要对输入数据进行标准化，因为第一个隐藏层会照顾到这一点，只要它是批量标准化的）。 此外，还存在运行时间的损失：由于每层所需的额外计算，神经网络的预测速度较慢。 但是，可以在训练之后，处理在 BN 层的前一层，就可以加快速度。方法是更新前一层的权重和偏置项，使其直接输出合适的缩放值和偏移值。例如，如果前一层计算的是`XW + b`，BN 层计算的是`γ⊗(XW + b – μ)/σ + β`（忽略了分母中的平滑项`ε`）。如果定义`W′ = γ⊗W/σ`和`b′ = γ⊗(b – μ)/σ + β`，公式就能简化为`XW′ + b′`。因此如果替换前一层的权重和偏置项（`W`和`b`）为`W'`和`b'`，就可以不用 BN 层了（TFLite 的优化器就干了这件事，见第 19 章）。
+
+> 注意：你可能会发现，训练相当缓慢，这是因为每个周期都因为使用 BN 而延长了时间。但是有了 BN，收敛的速度更快，需要的周期数更少。综合来看，需要的总时长变短了。
+
+### 使用 Keras 实现批归一化
+
+和 Keras 大部分功能一样，实现批归一化既简单又直观。只要每个隐藏层的激活函数前面或后面添加一个`BatchNormalization`层就行，也可以将 BN 层作为模型的第一层。例如，这个模型在每个隐藏层的后面使用了 BN，第一层也用了 BN（在打平输入之后）：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.BatchNormalization(),
+    keras.layers.Dense(300, activation="elu", kernel_initializer="he_normal"),
+    keras.layers.BatchNormalization(),
+    keras.layers.Dense(100, activation="elu", kernel_initializer="he_normal"),
+    keras.layers.BatchNormalization(),
+    keras.layers.Dense(10, activation="softmax")
+]) 
+```
+
+这样就成了！在这个只有两个隐藏层的例子中，BN 的作用不会那么大，但对于更深的网络，作用就特别大。
+
+打印一下模型的摘要：
+
+```py
+>>> model.summary()
+Model: "sequential_3"
+_________________________________________________________________
+Layer (type)                 Output Shape              Param #
+=================================================================
+flatten_3 (Flatten)          (None, 784)               0
+_________________________________________________________________
+batch_normalization_v2 (Batc (None, 784)               3136
+_________________________________________________________________
+dense_50 (Dense)             (None, 300)               235500
+_________________________________________________________________
+batch_normalization_v2_1 (Ba (None, 300)               1200
+_________________________________________________________________
+dense_51 (Dense)             (None, 100)               30100
+_________________________________________________________________
+batch_normalization_v2_2 (Ba (None, 100)               400
+_________________________________________________________________
+dense_52 (Dense)             (None, 10)                1010
+=================================================================
+Total params: 271,346
+Trainable params: 268,978
+Non-trainable params: 2,368 
+```
+
+可以看到每个 BN 层添加了四个参数：`γ`、 `β`、 `μ` 和 `σ`（例如，第一个 BN 层添加了 3136 个参数，即`4 × 784`）。后两个参数`μ` 和 `σ`是移动平均，不受反向传播影响，Keras 称其“不可训练”（如果将 BN 的总参数`3,136 + 1,200 + 400`除以 2，得到 2368，就是模型中总的不可训练的参数量）。
+
+看下第一个 BN 层的参数。两个参数是可训练的（通过反向传播），两个不可训练：
+
+```py
+>>> [(var.name, var.trainable) for var in model.layers[1].variables]
+[('batch_normalization_v2/gamma:0', True),
+ ('batch_normalization_v2/beta:0', True),
+ ('batch_normalization_v2/moving_mean:0', False),
+ ('batch_normalization_v2/moving_variance:0', False)] 
+```
+
+当在 Keras 中创建一个 BN 层时，训练过程中，还会创建两个 Keras 在迭代时的操作。该操作会更新移动平均值。因为后端使用的是 TensorFlow，这些操作就是 TensorFlow 操作（第 12 章会讨论 TF 操作）：
+
+```py
+>>> model.layers[1].updates
+[<tf.Operation 'cond_2/Identity' type=Identity>,
+ <tf.Operation 'cond_3/Identity' type=Identity>] 
+```
+
+BN 的论文作者建议在激活函数之前使用 BN 层，而不是像前面的例子添加到后面。到底是前面还是后面好存在争议，取决于具体的任务 —— 你最好在数据集上试验一下哪种选择好。要在激活函数前添加 BN 层，必须将激活函数从隐藏层拿出来，单独做成一层。另外，因为 BN 层对每个输入有一个偏移参数，可以将前一层的偏置项去掉（设置`use_bias=False`）：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.BatchNormalization(),
+    keras.layers.Dense(300, kernel_initializer="he_normal", use_bias=False),
+    keras.layers.BatchNormalization(),
+    keras.layers.Activation("elu"),
+    keras.layers.Dense(100, kernel_initializer="he_normal", use_bias=False),
+    keras.layers.BatchNormalization(),
+    keras.layers.Activation("elu"),
+    keras.layers.Dense(10, activation="softmax")
+]) 
+```
+
+`BatchNormalization`类可供调节的参数不多。默认值通常就可以，但有时需要调节`momentum`，这个超参数是`BatchNormalization`在更新指数移动平均时使用的。给定一个新值`v`（即，一个当前批次的输入平均或标准差新向量），BN 层使用下面的等式更新平均`V_hat`:
+
+![](img/c7482a9798005dd55876cc837c6919f9.png)
+
+`momentum`的最优值通常接近于 1：比如，0.9、0.99、0.999（大数据的 9 更多，小数据集的 9 少）。
+
+另一个重要的超参数是`axis`：它确定了在哪个轴上归一。默认是 -1，即归一化最后一个轴（使用其它轴的平均值和标准差）。当输入是 2D 时（即批的形状是[`batch size`,`features`]），也就是说每个输入特征都会根据批次全部实例的平均值和标准差做归一。例如，前面例子的第一个 BN 层会分别对 784 个输入特征的每个特征做归一化（还有缩放和偏移）；因此，BN 层会计算 28 个平均值和 28 个标准差（每列 1 个值，根据每行的所有实例计算），用同样的平均值和标准差归一化给定列的所有像素。还会有 28 个缩放值和 28 个偏移值。如果仍想对 784 个像素独立处理，要设置`axis=[1, 2]`。
+
+在训练和训练之后，BN 层不会做同样的计算：BN 会使用训练中的批次数据和训练后的最终数据（即移动平均值的最终值）。看看源码中是如何实现的：
+
+```py
+class BatchNormalization(keras.layers.Layer):
+    [...]
+    def call(self, inputs, training=None):
+        [...] 
+```
+
+`call()`方法具体实现了方法，它有一个参数`training`，默认是`None`，但`fit()`方法在训练中将其设为 1。如果你需要写一个自定义层，要求自定义层在训练和测试中的功能不同，就可以在`call()`方法中添加一个参数`training`，用这个参数决定该计算什么（第 12 张会讨论自定义层）。
+
+`BatchNormalization`已经成为了深度神经网络中最常使用的层，以至于计算图中经常省略，默认嘉定在每个层后面加一个 BN 层。但是 [Hongyi Zhang 的一篇文章](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1901.09321)可能改变了这种做法：通过使用一个新的`fixed-update`（fixup）权重初始化方法，作者没有使用 BN，训练了一个非常深的神经网络（多达 10000 层），在复杂图片分类任务上表现惊艳。但这个结论很新，最好还是再等一等，现在还是使用批归一化。
+
+### 梯度裁剪
+
+减少梯度爆炸问题的一种常用技术是在反向传播过程中剪切梯度，使它们不超过某个阈值，这种方法称为梯度裁剪。梯度裁剪在循环神经网络中用的很多，因为循环神经网络中用 BN 很麻烦，参见第 15 章。 对于其它类型的网络，BN 就足够了。在 Keras 中，梯度裁剪只需在创建优化器时设置`clipvalue`或`clipnorm`参数，如下：
+
+```py
+optimizer = keras.optimizers.SGD(clipvalue=1.0)
+model.compile(loss="mse", optimizer=optimizer) 
+```
+
+优化器会将梯度向量中的每个值裁剪到 -1.0 和 1.0 之间。这意味着损失（对每个可训练参数）的所有偏导数会被裁剪到 -1.0 和 1.0 之间。阈值是一个可以调节的超参数，可能影响到梯度向量的方向。例如，如果原始梯度向量是`[0.9, 100.0]`，它大体指向第二个轴；但在裁剪之后变为`[0.9, 1.0]`，方向就大体指向对角线了。在实际中，梯度裁剪的效果不错。如果想确保梯度裁剪不改变梯度向量的方向，就需要设置`clipnorm`靠范数裁剪，这样如果梯度的 l2 范数超过了阈值，就能对整个梯度裁剪。例如，如果设置`clipnorm = 1.0`，向量`[0.9, 100.0]`就会被裁剪为`[0.00899964, 0.9999595]`，方向没变，但第一个量几乎被抹去了。如果再训练过程中发现了梯度爆炸（可以用 TensorBoard 跟踪梯度），最好的方法是既用值也用范数裁剪，设置不同的阈值，看看哪个在验证集上表现最好。
+
+### 复用预训练层
+
+从零开始训练一个非常大的 DNN 通常不是一个好主意，相反，您应该总是尝试找到一个现有的神经网络来完成与您正在尝试解决的任务类似的任务（第 14 章会介绍如何找），然后复用这个网络的较低层：这就是所谓的迁移学习。这样不仅能大大加快训练速度，还将需要更少的训练数据。
+
+例如，假设你有一个经过训练的 DNN，能将图片分为 100 个不同的类别，包括动物，植物，车辆和日常物品。 现在想要训练一个 DNN 来对特定类型的车辆进行分类。 这些任务非常相似，甚至部分重叠，因此应该尝试重新使用第一个网络的一部分（请参见图 11-4）。
+
+![](img/7e1d1065962801dc9e1b58f720a95b95.png)
+
+图 11-4 复用预训练层
+
+> 笔记：如果新任务的输入图像与原始任务中使用的输入图像的大小不一致，则必须添加预处理步骤以将其大小调整为原始模型的预期大小。 更一般地说，如果输入具有类似的低级层次的特征，则迁移学习将很好地工作。
+
+原始模型的输出层通常要替换掉，因为对于新任务可能一点用也没有，输出的数量可能就不对。相似的，原始模型的上层也不如浅层管用，因为高阶特征可能相差很大。需要确定好到底用几层。
+
+> 提示：任务越相似，可复用的层越多。对于非常相似的任务，可以尝试保留所有的吟唱层，替换输出层。
+
+先将所有复用的层冻结（即，使其权重不可训练，梯度下降不能修改权重），然后训练模型，看其表现如何。然后将复用的最上一或两层解冻，让反向传播可以调节它们，再查看性能有无提升。训练数据越多，可以解冻的层越多。解冻时减小学习率也有帮助，可以避免破坏微调而得的权重。
+
+如果效果不好，或者训练数据不多，可以尝试去除顶层，将其余的层都解冻。不断尝试，直到找到合适的层，如果训练数据很多，可以尝试替换顶层，或者加入更多的隐藏层。
+
+### 用 Keras 进行迁移学习
+
+看一个例子。假设 Fashion MNIST 只有八个类，不包括拖鞋和 T 恤。一些人在这个数据集上搭建并训练了一个 Keras 模型，且效果不错（准确率大于 90%），将其称为模型 A。现在想处理另一个问题：有拖鞋和 T 恤的图片，要训练一个二分类器（`positive=shirt, negative=sandal`）。数据集不大，只有 200 张打了标签的图片。当训练架构与模型 A 相同的新模型时（称其为模型 B），表现非常好（准确率 97.2%）。但因为这是一个非常简单的任务（只有两类），所以准确率应该还可以更高。因为和任务 A 很像，所以可以尝试一下迁移学习。
+
+首先，加载模型 A，创建一个新模型，除了输出层不要，保留所有的层：
+
+```py
+model_A = keras.models.load_model("my_model_A.h5")
+model_B_on_A = keras.models.Sequential(model_A.layers[:-1])
+model_B_on_A.add(keras.layers.Dense(1, activation="sigmoid")) 
+```
+
+`model_A` 和 `model_B_on_A` 公用了一些层。当你训练`model_B_on_A`时，也会影响`model_A`。如果想避免，需要在复用前克隆`model_A`。要这么做，可以使用`clone.model()`，然后复制权重（`clone.model()`不能克隆权重）：
+
+```py
+model_A_clone = keras.models.clone_model(model_A)
+model_A_clone.set_weights(model_A.get_weights()) 
+```
+
+现在就可以训练`model_B_on_A`了，但是因为新输出层是随机初始化的，误差较大，较大的误差梯度可能会破坏复用的权重。为了避免，一种方法是在前几次周期中，冻结复用的层，让新层有时间学到合理的权重。要实现的话，将每层的`trainable`属性设为`False`，然后编译模型：
+
+```py
+for layer in model_B_on_A.layers[:-1]:
+    layer.trainable = False
+
+model_B_on_A.compile(loss="binary_crossentropy", optimizer="sgd",
+                     metrics=["accuracy"]) 
+```
+
+> 笔记：冻结或解冻模型之后，都需要编译。
+
+训练几个周期之后，就可以解冻复用层（需要再次编译模型），然后接着训练以微调模型。解冻之后，最好降低学习率，目的还是避免破坏复用层的权重：
+
+```py
+history = model_B_on_A.fit(X_train_B, y_train_B, epochs=4,
+                           validation_data=(X_valid_B, y_valid_B))
+
+for layer in model_B_on_A.layers[:-1]:
+    layer.trainable = True
+
+optimizer = keras.optimizers.SGD(lr=1e-4) # the default lr is 1e-2
+model_B_on_A.compile(loss="binary_crossentropy", optimizer=optimizer,
+                     metrics=["accuracy"])
+history = model_B_on_A.fit(X_train_B, y_train_B, epochs=16,
+                           validation_data=(X_valid_B, y_valid_B)) 
+```
+
+最终结果，新模型的测试准确率达到了 99.25%。迁移学习将误差率从 2.8% 降低到了 0.7%，减小了 4 倍！
+
+```py
+>>> model_B_on_A.evaluate(X_test_B, y_test_B)
+[0.06887910133600235, 0.9925] 
+```
+
+你相信这个结果吗？不要相信：因为作者作弊了！作者尝试了许多方案，才找到一组配置提升了效果。如果你尝试改变类或随机种子，就能发现效果下降。作者这里做的是“拷问数据，直到数据招供”。当某篇论文的结果太好了，你应该怀疑下：也许新方法实际没什么效果（甚至降低了表现），只是作者尝试了许多变量，只报告了最好的结果（可能只是运气），踩的坑都没说。大部分时候，这不是恶意，但确实是科学中许多结果无法复现的原因。作者为什么要作弊呢？因为迁移学习对小网络帮助不大，小型网络只能学到几个模式，紧密网络学到的具体模式，可能在其他任务中用处不大。迁移学习在深度卷积网络中表现最好，CNN 学到的特征更通用（特别是浅层）。第 14 章会用刚讨论的，回顾迁移学习（下次保证不作弊）。
+
+### 无监督预训练
+
+假设你想要解决一个复杂的任务，但没有多少的打了标签的训练数据，也找不到一个类似的任务训练模型。 不要失去希望！ 首先，应该尝试收集更多的有标签的训练数据，但是如果做不到，仍然可以进行无监督的训练（见图 11-5）。 通常，获得无标签的训练数据成本低，但打标签成本很高。如果收集了大量无标签数据，可以尝试训练一个无监督模型，比如自编码器或生成式对抗网络（见第 17 章）。然后可以复用自编码器或 GAN 的浅层，加上输出层，使用监督学习微调网络（使用标签数据）。
+
+![](img/6c6fc0a24ef67423bf220cf0bbf9756e.png)
+
+图 11-5 无监督的预训练
+
+这是 Geoffrey Hinton 和他的团队在 2006 年使用的技术，导致了神经网络的复兴和深度学习的成功。 直到 2010 年，无监督预训练（通常使用受限玻尔兹曼机 RBM）是深度网络的标准，只有在梯度消失问题得到缓解之后，监督训练 DNN 才更为普遍。 然而，当你有一个复杂的任务需要解决时，没有类似的模型可以重复使用，而且标记的训练数据很少，但是大量的未标记的训练数据时，无监督训练（现在通常使用自动编码器、GAN 而不是 RBM）仍然是一个很好的选择。在深度学习的早期，训练深度模型很困难，人们使用了一种逐层预训练的方法（见图 11-5）。先训练一个单层无监督模型，通常是 RBM，然后冻结该层，加另一个层，再训练模型（只训练新层），然后冻住新层，再加一层，再次训练模型。现在变得简单了，直接跳到图 11-5 中的步骤 3，训练完整的无监督模型，使用的是自编码器或 GAN。
+
+### 在辅助任务上预训练
+
+如果没有多少标签训练数据，最后的选择是在辅助任务上训练第一个神经网络，在辅助任务上可以轻松获取或生成标签的训练数据，然后重新使用该网络的较低层来完成实际任务。 第一个神经网络的较低层将学习可能被第二个神经网络重复使用的特征检测器。
+
+例如，如果你想建立一个识别面孔的系统，你可能只有几个人的照片 - 显然不足以训练一个好的分类器。 收集每个人的数百张照片将是不实际的。 但是，您可以在互联网上收集大量随机人员的照片，并训练第一个神经网络来检测两张不同的照片是否属于同一个人。 这样的网络将学习面部优秀的特征检测器，所以重复使用它的较低层将允许你使用很少的训练数据来训练一个好的面部分类器。
+
+对于自然语言处理（NLP），可以下载大量文本，然后自动生成标签数据。例如，可以随机遮挡一些词，然后训练一个模型预测缺失词。如果能在这个任务上训练一个表现不错的模型，则该模型已经在语言层面学到不少了，就可以复用它到实际任务中，再用标签数据微调（第 15 章会讨论更多预训练任务）。
+
+> 笔记：自监督学习是当你从数据自动生成标签，然后在标签数据上使用监督学习训练模型。因为这种方法无需人工标注，最好将其分类为无监督学习。
+
+## 更快的优化器
+
+训练一个非常大的深度神经网络可能会非常缓慢。 到目前为止，我们已经看到了四种加速训练的方法（并且达到更好性能的方法）：对连接权重应用良好的初始化策略，使用良好的激活函数，使用批归一化以及重用预训练网络的部分（使用辅助任务或无监督学习）。 另一个速度提升的方法是使用更快的优化器，而不是常规的梯度下降优化器。 在本节中，我们将介绍最流行的算法：动量优化，Nesterov 加速梯度，AdaGrad，RMSProp，最后是 Adam 和 Nadam 优化。
+
+> 剧透：本节的结论是，几乎总是应该使用`Adam_optimization`，所以如果不关心它是如何工作的，只需使用`AdamOptimizer`替换`GradientDescentOptimizer`，然后跳到下一节！ 只需要这么小的改动，训练通常会快几倍。 但是，Adam 优化确实有三个可以调整的超参数（加上学习率）。 默认值通常工作的不错，但如果您需要调整它们，知道他们怎么实现的可能会有帮助。 Adam 优化结合了来自其他优化算法的几个想法，所以先看看这些算法是有用的。
+
+## 动量优化
+
+想象一下，一个保龄球在一个光滑的表面上平缓的斜坡上滚动：它会缓慢地开始，但是它会很快地达到最终的速度（如果有一些摩擦或空气阻力的话）。 这是 Boris Polyak 在 1964 年提出的动量优化背后的一个非常简单的想法。相比之下，普通的梯度下降只需要沿着斜坡进行小的有规律的下降步骤，所以需要更多的时间才能到达底部。
+
+回想一下，梯度下降只是通过直接减去损失函数`J(θ)`相对于权重`θ`的梯度（`∇θJ(θ)`），乘以学习率`η`来更新权重`θ`。 等式是：`θ ← θ – η ∇[θ]J(θ)`。它不关心早期的梯度是什么。 如果局部梯度很小，则会非常缓慢。
+
+动量优化很关心以前的梯度：在每次迭代时，它将动量向量`m`（乘以学习率`η`）与局部梯度相加，并且通过简单地减去该动量向量来更新权重（参见公式 11-4）。 换句话说，梯度用作加速度，不用作速度。 为了模拟某种摩擦机制，避免动量过大，该算法引入了一个新的超参数`β`，简称为动量，它必须设置在 0（高摩擦）和 1（无摩擦）之间。 典型的动量值是 0.9。
+
+![](img/f8b8fdfbaf932d63888e504c03fef03b.png)
+
+公式 11-4 动量算法
+
+可以很容易验证，如果梯度保持不变，则最终速度（即，权重更新的最大大小）等于该梯度乘以学习率`η`乘以`1/(1-β)`。 例如，如果`β = 0.9`，则最终速度等于学习率的梯度乘以 10 倍，因此动量优化比梯度下降快 10 倍！ 这使动量优化比梯度下降快得多。 特别是，我们在第四章中看到，当输入量具有非常不同的尺度时，损失函数看起来像一个细长的碗（见图 4-7）。 梯度下降速度很快，但要花很长的时间才能到达底部。 相反，动量优化会越来越快地滚下山谷底部，直到达到底部（最佳）。在不使用批归一化的深度神经网络中，较高层往往会得到具有不同的尺度的输入，所以使用动量优化会有很大的帮助。 它也可以帮助滚过局部最优值。
+
+> 笔记：由于动量的原因，优化器可能会超调一些，然后再回来，再次超调，并在稳定在最小值之前多次振荡。 这就是为什么在系统中有一点摩擦的原因之一：它消除了这些振荡，从而加速了收敛。
+
+在 Keras 中实现动量优化很简单：只需使用`SGD`优化器，设置`momentum`超参数，然后就可以躺下赚钱了！
+
+```py
+optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9) 
+```
+
+动量优化的一个缺点是它增加了另一个超参数来调整。 然而，0.9 的动量值通常在实践中运行良好，几乎总是比梯度下降快。
+
+### Nesterov 加速梯度
+
+Yurii Nesterov 在 1983 年提出的动量优化的一个小变体几乎总是比普通的动量优化更快。 Nesterov 动量优化或 Nesterov 加速梯度（Nesterov Accelerated Gradient，NAG）的思想是测量损失函数的梯度不是在局部位置，而是在动量方向稍微靠前（见公式 11-5）。 与普通的动量优化的唯一区别在于梯度是在`θ+βm`而不是在`θ`处测量的。
+
+![](img/d94e1afbe24244563a6b170bfbba856f.png)
+
+公式 11-5 Nesterov 加速梯度算法
+
+这个小小的调整是可行的，因为一般来说，动量向量将指向正确的方向（即朝向最优方向），所以使用在该方向上测得的梯度稍微更精确，而不是使用 原始位置的梯度，如图 11-6 所示（其中`∇1`代表在起点`θ`处测量的损失函数的梯度，`∇2`代表位于`θ+βm`的点处的梯度）。
+
+![](img/8e74c04e2cf79da0bcb497fc4104165b.png)
+
+图 11-6 常规 vs Nesterov 动量优化
+
+可以看到，Nesterov 更新稍微靠近最佳值。 过了一段时间，这些小的改进加起来，NAG 最终比常规的动量优化快得多。 此外，当动量推动权重横跨山谷时，`∇1`继续推进越过山谷，而`∇2`推回山谷的底部。 这有助于减少振荡，从而更快地收敛。
+
+与常规的动量优化相比，NAG 几乎总能加速训练。 要使用它，只需在创建`SGD`时设置`nesterov=True`：
+
+```py
+optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9, nesterov=True) 
+```
+
+### AdaGrad
+
+再次考虑细长碗的问题：梯度下降从最陡峭的斜坡快速下降，然后缓慢地下到谷底。 如果算法能够早期检测到这个问题并且纠正它的方向来指向全局最优点，那将是非常好的。AdaGrad 算法通过沿着最陡的维度缩小梯度向量来实现这一点（见公式 11-6）：
+
+![](img/ecc26257570ef444e6a1ce1029e7f307.png)
+
+公式 11-6 AdaGrad 算法
+
+第一步将梯度的平方累加到向量`s`中（⊗符号表示元素级别相乘）。 这个向量化形式相当于向量`s`的每个元素`s[i]`计算`s[i] ← s[i] + (∂J(θ)/∂θ[i])^2`。换一种说法，每个`s[i]`累加损失函数对参数`θ[i]`的偏导数的平方。 如果损失函数沿着第`i`维陡峭，则在每次迭代时，`s[i]`将变得越来越大。
+
+第二步几乎与梯度下降相同，但有一个很大的不同：梯度向量按比例`(s+ε)^0.5`缩小 （`⊘`符号表示元素分割，`ε`是避免被零除的平滑项，通常设置为`10^(-10)`。 这个向量化的形式相当于所有`θ[i]`同时计算
+
+![](img/55a0ce7e186291d79dc0fda6550d308c.png)
+
+简而言之，这种算法会降低学习速度，但对于陡峭的维度，其速度要快于具有温和的斜率的维度。 这被称为自适应学习率。 它有助于将更新的结果更直接地指向全局最优（见图 11-7）。 另一个好处是它不需要那么多的去调整学习率超参数`η`。
+
+![](img/1d42dc52ad9a49a5ba54ef885454e778.png)
+
+图 11-7 AdaGard vs 梯度下降
+
+对于简单的二次问题，AdaGrad 经常表现良好，但不幸的是，在训练神经网络时，它经常停止得太早。 学习率被缩减得太多，以至于在达到全局最优之前，算法完全停止。 所以，即使 Keras 有一个`Adagrad` 优化器，你也不应该用它来训练深度神经网络（虽然对线性回归这样简单的任务可能是有效的）。但是，理解 AdaGrad 对掌握其它自适应学习率还是很有帮助的。
+
+### RMSProp
+
+前面看到，AdaGrad 的风险是降速太快，可能无法收敛到全局最优。RMSProp 算法通过仅累积最近迭代（而不是从训练开始以来的所有梯度）的梯度来修正这个问题。 它通过在第一步中使用指数衰减来实现（见公式 11-7）。
+
+![](img/731f1ffe649c5a195ed46439968d7a21.png)
+
+公式 11-7 RMSProp 算法
+
+它的衰变率`β`通常设定为 0.9。 是的，它又是一个新的超参数，但是这个默认值通常运行良好，所以你可能根本不需要调整它。
+
+正如所料，Keras 拥有一个`RMSProp`优化器：
+
+```py
+optimizer = keras.optimizers.RMSprop(lr=0.001, rho=0.9) 
+```
+
+除了非常简单的问题，这个优化器几乎总是比 AdaGrad 执行得更好。 它通常也比动量优化和 Nesterov 加速梯度表现更好。 事实上，这是许多研究人员首选的优化算法，直到 Adam 优化出现。
+
+## Adam 和 Nadam 优化
+
+Adam，代表自适应矩估计，结合了动量优化和 RMSProp 的思想：就像动量优化一样，它追踪过去梯度的指数衰减平均值，就像 RMSProp 一样，它跟踪过去平方梯度的指数衰减平均值 （见方程式 11-8）。
+
+![](img/9ad985f2b4bccf71e4a9c725ecf4ec15.png)
+
+公式 11-8 Adam 算法
+
+`T`代表迭代次数（从 1 开始）。
+
+如果你只看步骤 1, 2 和 5，你会注意到 Adam 与动量优化和 RMSProp 的相似性。 唯一的区别是第 1 步计算指数衰减的平均值，而不是指数衰减的和，但除了一个常数因子（衰减平均值只是衰减和的`1 - β1`倍）之外，它们实际上是等效的。 步骤 3 和步骤 4 是一个技术细节：由于`m`和`s`初始化为 0，所以在训练开始时它们会偏向 0，所以这两步将在训练开始时帮助提高`m`和`s`。
+
+动量衰减超参数`β1`通常初始化为 0.9，而缩放衰减超参数`β2`通常初始化为 0.999。 如前所述，平滑项`ε`通常被初始化为一个很小的数，例如`10^(-7)`。这些是 TensorFlow 的`Adam`类的默认值（更具体地，ε默认为 None，Keras 将使用`keras.backend.epsilon()`，默认为`10^(-7)`，可以通过`keras.backend.set_epsilon()`更改），所以你可以简单地使用：
+
+```py
+optimizer = keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999) 
+```
+
+实际上，由于 Adam 是一种自适应学习率算法（如 AdaGrad 和 RMSProp），所以对学习率超参数`η`的调整较少。 您经常可以使用默认值`η= 0.001`，使 Adam 相对于梯度下降更容易使用。
+
+> 提示：如果读者对这些不同的技术感到头晕脑胀，不用担心，本章末尾会提供一些指导。
+
+最后，Adam 还有两种变体值得一看：
+
+AdaMax
+
+公式 11-8 的第 2 步中，Adam 积累了`s`的梯度平方（越近，权重越高）。第 5 步中，如果忽略了`ε`、第 3 步和第 4 步（只是技术细节而已），Adam 是通过`s`的平方根更新参数。总之，Adam 通过时间损耗梯度的 l2 范数更新参数（l2 范数是平方和的平方根）。AdaMax（也是在 Adam 的同一篇论文中介绍的）用 ℓ∞ 范数（max 的另一种说法）代替了 ℓ2 范数。更具体的，是在第 2 步中做了替换，舍弃了第 4 步，第 5 步中用`s`（即时间损耗的最大值）更新梯度。在实践中，这样可以使 AdaMax 比 Adam 更稳定，但也要取决于数据集，总体上，Adam 表现更好。因此，AdaMax 只是 Adam 碰到问题时的另一种选择。
+
+Nadam
+
+Nadam 优化是 Adam 优化加上了 Nesterov 技巧，所以通常比 Adam 收敛的快一点。在[论文](https://links.jianshu.com/go?to=http%3A%2F%2Fcs229.stanford.edu%2Fproj2015%2F054_report.pdf)中，作者 Timothy Dozat 在不同任务上试验了不同的优化器，发现 Nadam 通常比 Adam 效果好，但有时不如 RMSProp。
+
+> 警告：自适应优化方法（包括 RMSProp，Adam，Nadam）总体不错，收敛更快。但是 Ashia C. Wilson 在 2017 年的一篇[论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1705.08292)中说，这些自适应优化方法在有些数据集上泛化很差。所以当你对模型失望时，可以尝试下普通的 Nesterov 加速梯度：你的数据集可能只是对自适应梯度敏感。另外要调研最新的研究进展，因为这个领域进展很快。
+
+目前所有讨论的优化方法都是基于一阶偏导（雅可比矩阵）的。文献中还介绍了基于二阶导数（黑森矩阵，黑森矩阵是雅可比矩阵的骗到）的算法。但是，后者很难应用于深度神经网络，因为每个输出有`n^2`个黑森矩阵（`n`是参数个数），每个输出只有`n`个雅可比矩阵。因为 DNN 通常有数万个参数，二阶优化器通常超出了内存，就算内存能装下，计算黑森矩阵也非常慢。
+
+> 训练稀疏模型
+> 所有刚刚提出的优化算法都会产生紧密模型，这意味着大多数参数都是非零的。 如果你在运行时需要一个非常快的模型，或者如果你需要它占用较少的内存，你可能更喜欢用一个稀疏模型来代替。
+> 实现这一点的一个微不足道的方法是像平常一样训练模型，然后丢掉微小的权重（将它们设置为 0）。但这通常不会生成一个稀疏的模型，而且可能使模型性能下降。
+> 更好的选择是在训练过程中应用强 ℓ1 正则化，因为它会推动优化器尽可能多地消除权重（如第 4 章关于 Lasso 回归的讨论）。
+> 如果这些技术可能仍然不成，就查看 [TensorFlow Model Optimization Toolkit (TF-MOT)](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Ftfmot)，它提供了一些剪枝 API，可以在训练中根据量级迭代去除权重。
+
+表 11-2 比较了讨论过的优化器（`*`是差，`**`是平均，`***`是好）。
+
+![](img/2d74b4c2999d3fa82e6b5aa85be19c1b.png)
+
+表 11-2 优化器比较
+
+### 学习率调整
+
+找到一个好的学习速率非常重要。 如果设置太高，训练时可能离散。如果设置得太低，训练最终会收敛到最佳状态，但会花费很长时间。 如果将其设置得稍高，开始的进度会非常快，但最终会在最优解周围跳动，永远不会停下来。如果计算资源有限，可能需要打断训练，在最优收敛之前拿到一个次优解（见图 11-8）。
+
+![](img/d5f9db0affd89ffcdff375f22b299eac.png)
+
+图 11-8 不同学习速率的学习曲线
+
+正如第 10 章讨论过的，可以通过几百次迭代找到一个好的学习率，学习率一开始设的很小，然后指数级提高，查看学习曲线，找到那条要要开始抬高的曲线，要找的学习率比这条曲线稍低。
+
+但除了固定学习率，还有更好的方法：如果你从一个高的学习率开始，然后一旦它停止快速的进步就减少它，你可以比最佳的恒定学习率更快地达到一个好的解决方案。 有许多不同的策略，以减少训练期间的学习率。 这些策略被称为学习率调整（我们在第 4 章中简要介绍了这个概念），其中最常见的是：
+
+幂调度:
+设学习率为迭代次数`t`的函数：`η(t) = η[0] (1 + t/s)^c`。初始学习率`η[0]`， 幂`c`（通常被设置为 1），步数`s`是超参数。学习率在每步都会下降，`s`步后，下降到`η[0]/ 2`。再经过`s`步，下降到`η[0] / 3`，然后是`η[0] / 4`、`η[0] / 5`，以此类推。可以看到，策略是一开始很快，然后越来越慢。幂调度需要调节`η[0]`和`s`（也可能有`c`）。
+
+指数调度:
+将学习率设置为迭代次数`t`的函数：`η(t) = η[0] 0.1^(t/s)`。 学习率每步都会下降 10 倍。幂调度的下降是越来越慢，指数调度保持 10 倍不变。
+
+预定的分段恒定学习率：
+先在几个周期内使用固定的学习率（比如 5 个周期内学习率设置为`η[0] = 0.1`），然后在另一个周期内设更小的学习率（比如 50 个周期`η[0] = 0.001`），以此类推。虽然这个解决方案可以很好地工作，但是通常需要弄清楚正确的学习速度顺序以及使用时长。
+
+性能调度：
+每`N`步测量验证误差（就像提前停止一样），当误差下降时，将学习率降低`λ`倍。
+
+1 循环调度：
+与其它方法相反，1 循环调度（Leslie Smith 在 2018 年提出）一开始在前半个周期将学习率`η[0]`线性增加到`η[1]`然后在后半个周期内再线性下降到`η[0]`，最后几个周期学习率下降几个数量级（仍然是线性的）。用前面的方法找到最优学习率的方法确定`η[1]`，`η[0]`是`η[1]`的十分之一。当使用动量时，先用一个高动量（比如 0.95），然后在训练上半段下降（比如线性下降到 0.85），然后在训练后半部分上升到最高值（0.95），最后几个周期也用最高值完成。Smith 做了许多试验，证明这个方法可以显著加速并能提高性能。例如，在 CIFAR10 图片数据集上，这个方法在 100 个周期就达到了 91.9% 的验证准确率，而标准方法经过 800 个周期才打到 90.3%（模型架构不变）。
+
+Andrew Senior 等人在 2013 年的论文比较了使用动量优化训练深度神经网络进行语音识别时一些最流行的学习率调整的性能。 作者得出结论：在这种情况下，性能调度和指数调度都表现良好，但他们更喜欢指数调度，因为它实现起来比较简单，容易调整，收敛速度略快于最佳解决方案。作者还之处，1 周期表现更好。
+
+使用 Keras 实现学习率幂调整非常简单，只要在优化器中设定`decay`超参数：
+
+```py
+ optimizer = keras.optimizers.SGD(lr=0.01, decay=1e-4) 
+```
+
+`decay`是`s`（更新学习率的步骤数），Keras 假定`c`等于 1。
+
+指数调度和分段恒定学习率也很简单。首先定义一个函数接受当前周期，然后返回学习率。例如，如下实现指数调度：
+
+```py
+def exponential_decay_fn(epoch):
+    return 0.01 * 0.1**(epoch / 20) 
+```
+
+如果不想硬实现`η[1]`和`s`，可以实现一个函数返回配置函数：
+
+```py
+def exponential_decay(lr0, s):
+    def exponential_decay_fn(epoch):
+        return lr0 * 0.1**(epoch / s)
+    return exponential_decay_fn
+
+exponential_decay_fn = exponential_decay(lr0=0.01, s=20) 
+```
+
+然后，创建一个`LearningRateScheduler`调回，给它一个调度函数，然后将调回传递给`fit()`：
+
+```py
+lr_scheduler = keras.callbacks.LearningRateScheduler(exponential_decay_fn)
+history = model.fit(X_train_scaled, y_train, [...], callbacks=[lr_scheduler]) 
+```
+
+`LearningRateScheduler`会在每个周期开始时更新优化器的`learning_rate`属性。每个周期更新一次学习率就够了，但如果想更新更频繁，例如每步都更新，可以通过写调回实现（看前面指数调回的例子）。如果每个周期有许多步，每步都更新学习率是非常合理的。或者，可以使用`keras.optimizers.schedules`方法。
+
+调度函数可以将当前学习率作为第二个参数。例如，下面的调度函数将之前的学习率乘以`0.1^(1/20)`，同样实现了指数下降：
+
+```py
+def exponential_decay_fn(epoch, lr):
+    return lr * 0.1**(1 / 20) 
+```
+
+该实现依靠优化器的初始学习率（与前面的实现相反），所以一定要设置对。
+
+当保存模型时，优化器和学习率也能保存。这意味着，只要有这个新的调度函数，就能加载模型接着训练。如果调度函数使用了周期，会稍微麻烦点：周期不会保存，每次调用`fit()`方法时，周期都会重置为 0。如果加载模型接着训练，可能会导致学习率很大，会破坏模型的权重。一种应对方法是手动设置`fit()`方法的参数`initial_epoch`，是周期从正确的值开始。
+
+对于分段恒定学习率调度，可以使用如下的调度函数，然后创建一个`LearningRateScheduler`调回，传递给`fit()`方法：
+
+```py
+def piecewise_constant_fn(epoch):
+    if epoch < 5:
+        return 0.01
+    elif epoch < 15:
+        return 0.005
+    else:
+        return 0.001 
+```
+
+对于性能调度，使用`ReduceLROnPlateau`调回。例如，如果将下面的调回去传递给`fit()`，只要验证损失在连续 5 个周期内没有改进，就会将学习率乘以 0.5：
+
+```py
+lr_scheduler = keras.callbacks.ReduceLROnPlateau(factor=0.5, patience=5) 
+```
+
+最后，`tf.keras`还提供了一种实现学习率调度的方法：使用`keras.optimizers.schedules`中一种可用的调度定义学习率。这样可以在每步更新学习率。例如，还可以如下实现前面的函数`exponential_decay_fn()`：
+
+```py
+s = 20 * len(X_train) // 32 # number of steps in 20 epochs (batch size = 32)
+learning_rate = keras.optimizers.schedules.ExponentialDecay(0.01, s, 0.1)
+optimizer = keras.optimizers.SGD(learning_rate) 
+```
+
+这样又好看又简单，另外当保存模型时，学习率和调度（包括状态）也能保存。但是这个方法不属于 Keras API，是`tf.keras`专有的。
+
+对于 1 循环调度，实现也不困难：只需创建一个在每个迭代修改学习率的自定义调回（通过更改`self.model.optimizer.lr`更新学习率）。代码见 Jupyter 笔记本的例子。
+
+总结一下，指数调度、性能调度和 1 循环调度可以极大加快收敛，不妨一试！
+
+## 通过正则化避免过拟合
+
+有四个参数，我可以拟合一个大象，五个我可以让他摆动他的象鼻。—— John von Neumann,cited by Enrico Fermi in Nature 427
+
+有数千个参数，甚至可以拟合整个动物园。深度神经网络通常具有数以万计的参数，有时甚至是数百万。 有了这么多的参数，网络拥有难以置信的自由度，可以适应各种复杂的数据集。 但是这个很大的灵活性也意味着它很容易过拟合训练集。所以需要正则。第 10 章用过了最好的正则方法之一：早停。另外，虽然批归一化是用来解决梯度不稳定的，但也可以作为正则器。这一节会介绍其它一些最流行的神经网络正则化技术：ℓ1 和 ℓ2 正则、丢弃和最大范数正则。
+
+### ℓ1 和 ℓ2 正则
+
+就像第 4 章中对简单线性模型所做的那样，可以使用 ℓ2 正则约束一个神经网络的连接权重，或 ℓ1 正则得到稀疏模型（许多权重为 0）。下面是对 Keras 的连接权重设置 ℓ2 正则，正则因子是 0.01：
+
+```py
+layer = keras.layers.Dense(100, activation="elu",
+                           kernel_initializer="he_normal",
+                           kernel_regularizer=keras.regularizers.l2(0.01)) 
+```
+
+`l2`函数返回的正则器会在训练中的每步被调用，以计算正则损失。正则损失随后被添加到最终损失。如果要使用 ℓ1 正则，可以使用`keras.regularizers.l1()`；如果想使用 ℓ1 和 ℓ2 正则，可以使用`keras.regularizers.l1_l2()`（要设置两个正则因子）。
+
+因为想对模型中的所有层使用相同的正则器，还要使用相同的激活函数和相同的初始化策略。参数重复使代码很难看。为了好看，可以用循环重构代码。另一种方法是使用 Python 的函数`functools.partial()`，它可以为任意可调回对象创建封装类，并有默认参数值：
+
+```py
+from functools import partial
+
+RegularizedDense = partial(keras.layers.Dense,
+                           activation="elu",
+                           kernel_initializer="he_normal",
+                           kernel_regularizer=keras.regularizers.l2(0.01))
+
+model = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    RegularizedDense(300),
+    RegularizedDense(100),
+    RegularizedDense(10, activation="softmax",
+                     kernel_initializer="glorot_uniform")
+]) 
+```
+
+### 丢弃
+
+丢弃是深度神经网络最流行的正则化方法之一。 它由 Geoffrey Hinton 于 2012 年提出，并在 Nitish Srivastava 等人的 2014 年论文中进一步详细描述，并且已被证明是非常成功的：即使是最先进的神经网络，仅仅通过增加丢弃就可以提高 1-2% 的准确度。 这听起来可能不是很多，但是当一个模型已经具有 95% 的准确率时，获得 2% 的准确度提升意味着将误差率降低近 40%（从 5% 误差降至大约 3%）。
+
+这是一个相当简单的算法：在每个训练步骤中，每个神经元（包括输入神经元，但不包括输出神经元）都有一个暂时“丢弃”的概率`p`，这意味着在这个训练步骤中它将被完全忽略， 在下一步可能会激活（见图 11-9）。 超参数`p`称为丢弃率，通常设为 10% 到 50% 之间；循环神经网络之间接近 20-30%，在卷积网络中接近 40-50%。 训练后，神经元不会再丢失。 这就是全部（除了我们将要讨论的技术细节）。
+
+![](img/cc9f24739534a97e494d6cb6522e0f75.png)
+
+图 11-9 丢弃正则化
+
+这个具有破坏性的方法竟然行得通，这是相当令人惊讶的。如果一个公司的员工每天早上被告知要掷硬币来决定是否上班，公司的表现会不会更好呢？那么，谁知道；也许会！公司显然将被迫适应这样的组织构架；它不能依靠任何一个人操作咖啡机或执行任何其他关键任务，所以这个专业知识将不得不分散在几个人身上。员工必须学会与其他的许多同事合作，而不仅仅是其中的一小部分。该公司将变得更有弹性。如果一个人离开了，并没有什么区别。目前还不清楚这个想法是否真的可以在公司实行，但它确实对于神经网络是可行的。神经元被丢弃训练不能与其相邻的神经元共适应；他们必须尽可能让自己变得有用。他们也不能过分依赖一些输入神经元;他们必须注意他们的每个输入神经元。他们最终对输入的微小变化会不太敏感。最后，你会得到一个更稳定的网络，泛化能力更强。
+
+了解丢弃的另一种方法是认识到每个训练步骤都会产生一个独特的神经网络。 由于每个神经元可以存在或不存在，总共有`2 ^ N`个可能的网络（其中 N 是可丢弃神经元的总数）。 这是一个巨大的数字，实际上不可能对同一个神经网络进行两次采样。 一旦你运行了 10,000 个训练步骤，你基本上已经训练了 10,000 个不同的神经网络（每个神经网络只有一个训练实例）。 这些神经网络显然不是独立的，因为它们共享许多权重，但是它们都是不同的。 由此产生的神经网络可以看作是所有这些较小的神经网络的平均集成。
+
+> 提示：在实际中，可以只将丢弃应用到最上面的一到三层（包括输出层）。
+
+有一个小而重要的技术细节。 假设`p = 50%`，在这种情况下，在测试期间，在训练期间神经元将被连接到两倍于（平均）的输入神经元。 为了弥补这个事实，我们需要在训练之后将每个神经元的输入连接权重乘以 0.5。 如果我们不这样做，每个神经元的总输入信号大概是网络训练的两倍，这不太可能表现良好。 更一般地说，我们需要将每个输入连接权重乘以训练后的保持概率（`1-p`）。 或者，我们可以在训练过程中将每个神经元的输出除以保持概率（这些替代方案并不完全等价，但它们工作得同样好）。
+
+要使用 Kera 实现丢弃，可以使用`keras.layers.Dropout`层。在训练过程中，它随机丢弃一些输入（将它们设置为 0），并用保留概率来划分剩余输入。 训练结束后，这个函数什么都不做，只是将输入传给下一层。下面的代码将丢弃正则化应用于每个紧密层之前，丢弃率为 0.2：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.Dropout(rate=0.2),
+    keras.layers.Dense(300, activation="elu", kernel_initializer="he_normal"),
+    keras.layers.Dropout(rate=0.2),
+    keras.layers.Dense(100, activation="elu", kernel_initializer="he_normal"),
+    keras.layers.Dropout(rate=0.2),
+    keras.layers.Dense(10, activation="softmax")
+]) 
+```
+
+> 警告：因为丢弃只在训练时有用，比较训练损失和验证损失会产生误导。特别地，一个模型可能过拟合训练集，但训练和验证损失相近。因此一定要不要带丢弃评估训练损失（比如训练后）。
+
+如果观察到模型过拟合，则可以增加丢弃率（即，减少`keep_prob`超参数）。 相反，如果模型欠拟合训练集，则应尝试降低丢弃率（即增加`keep_prob`）。 它也可以帮助增加大层的丢弃率，并减少小层的丢弃率。另外，许多优秀的架构只在最后一个隐藏层之后使用丢弃，如果全都加上丢弃太强了，可以这么试试。
+
+丢弃似乎减缓了收敛速度，但通常会在调参得当时使模型更好。 所以，这通常值得花费额外的时间和精力。
+
+> 提示：如果想对一个自归一化的基于 SELU 的网络使用正则，应该使用 alpha 丢弃：这是一个丢弃的变体，可以保留输入的平均值和标准差（它是在 SELU 的论文中提出的，因为常规的丢弃会破会自归一化）。
+
+### 蒙特卡洛（MC）丢弃
+
+Yarin Gal 和 Zoubin Ghahramani 在 [2016 的一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1506.02142)中，追加了几个使用丢弃的理由：
+
+*   首先，这篇论文对丢弃网络（每个权重层前都有一个丢弃层）和贝叶斯推断建立了理论联系，从数学角度给予了证明。
+
+*   第二，作者介绍了一种称为 MC 丢弃的方法，它可以提升任何训练过的丢弃模型的性能，并且无需重新训练或修改，对模型存在的不确定性提供了一种更好的方法，也很容易实现。
+
+如果这听起来像一个广告，看下面的代码。它是 MC 丢弃的完整实现，可以提升前面训练的模型，并且没有重新训练：
+
+```py
+y_probas = np.stack([model(X_test_scaled, training=True)
+                     for sample in range(100)])
+y_proba = y_probas.mean(axis=0) 
+```
+
+我们只是在训练集上做了 100 次预测，设置`training=True`保证丢弃是活跃的，然后放到一起。因为丢弃是开启的，所有的预测都会不同。`predict()`返回一个矩阵，每行包含一个实例，每列是一个类。因为测试集有 10000 个实例和 10 个类，这个矩阵的形状是`[10000,10]`。我们一共有 100 个这样的矩阵，因此`y_proba`是一个形状`[100,10000,10]`的数组。当对以一个维度维度（`axis=0`）做平均时，得到的是`y_proba`，形状是`[10000,10]`的数组，就像和一次独立预测的一样。对开启丢弃的多次预测做平均，就得到了一个蒙特卡洛估计，会比单独一次预测的可靠性更高。例如，看下模型对训练集第一个实例的预测，关闭丢弃：
+
+```py
+>>> np.round(model.predict(X_test_scaled[:1]), 2)
+array([[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0.01, 0\.  , 0.99]],
+      dtype=float32) 
+```
+
+这个模型大概率认定这张图属于类 9（靴子）。应该相信这个结果吗？有无质疑空间呢？
+
+再看看开启丢弃的预测：
+
+```py
+>>> np.round(y_probas[:, :1], 2)
+array([[[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0.14, 0\.  , 0.17, 0\.  , 0.68]],
+       [[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0.16, 0\.  , 0.2 , 0\.  , 0.64]],
+       [[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0.02, 0\.  , 0.01, 0\.  , 0.97]],
+       [...] 
+```
+
+当开启丢弃，模型就没那么确定了。虽然仍偏向类 9，但会在类 5（凉鞋）和类 7（运动鞋）犹豫。对第一维做平均，我们得到了下面的 MC 丢弃预测：
+
+```py
+>>> np.round(y_proba[:1], 2)
+array([[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0.22, 0\.  , 0.16, 0\.  , 0.62]],
+      dtype=float32) 
+```
+
+模型仍认为这张图属于类 9，但置信度只有 62%，这比 99% 可信读了。知道可能属于其它什么类，也有用。还可以再查看下概率估计的标准差：
+
+```py
+>>> y_std = y_probas.std(axis=0)
+>>> np.round(y_std[:1], 2)
+array([[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0.28, 0\.  , 0.21, 0.02, 0.32]],
+      dtype=float32) 
+```
+
+显然，概率估计的方差很大：如果搭建的是一个对风险敏感的系统（比如医疗或金融），就要对这样不确定的预测保持谨慎。另外，模型的准确率从 86.8 提升到了 86.9：
+
+```py
+>>> accuracy = np.sum(y_pred == y_test) / len(y_test)
+>>> accuracy
+0.8694 
+```
+
+> 笔记：蒙特卡洛样本的数量是一个可以调节的超参数。这个数越高，预测和不准确度的估计越高。但是，如果样本数翻倍，推断时间也要翻倍。另外，样本数超过一定数量，提升就不大了。因此要取决于任务本身，在延迟和准确性上做取舍。
+
+如果模型包含其它层行为特殊的层（比如批归一化层），则不能像刚才那样强行训练模型。相反，你需要将`Dropout`层替换为`MCDropout`类：
+
+```py
+class MCDropout(keras.layers.Dropout):
+    def call(self, inputs):
+        return super().call(inputs, training=True) 
+```
+
+这里，使用了`Dropout`的子类，并覆盖了方法`call()`，使`training`参数变为`True`（见第 12 章）。相似的，可以通过`AlphaDropout`的子类定义一个`MCAlphaDropout`。如果是从零搭建模型，只需使用`MCDropout`而不是`Dropout`，你需要创建一个与老模型架构相同的新模型，替换`Dropout`层为`MCDropout`层，然后复制权重到新模型上。
+
+总之，MC 丢弃是一个可以提升丢弃模型、提供更加不准确估计的神奇方法。当然，因为在训练中仍然是常规丢弃，它仍然是一个正则器。
+
+### 最大范数正则化
+
+另一种在神经网络中非常流行的正则化技术被称为最大范数正则化：对于每个神经元，它约束输入连接的权重`w`，使得`||w||₂ < r`，其中`r`是最大范数超参数，`||·||₂`是 l2 范数。
+
+最大范数正则没有添加正则损失项到总损失函数中。相反，只是计算
+我们通常通过在每个训练步骤之后计算`||w||₂`，并且如果需要的话可以如下剪切`W`。
+
+![](img/541b178f8d6be27613ebfc2dd505f79e.png)
+
+减少`r`增加了正则化的量，并有助于减少过拟合。 最大范数正则化还可以帮助减轻梯度消失/爆炸问题（如果不使用批归一化）。
+
+要在 Keras 中实现最大范数正则，需要设置每个隐藏层的`kernel_constraint`的`max_norm()`为一个合适的值，如下所示：
+
+```py
+keras.layers.Dense(100, activation="elu", kernel_initializer="he_normal",
+                   kernel_constraint=keras.constraints.max_norm(1.)) 
+```
+
+每次训练迭代之后，模型的`fit()`方法会调用`max_norm()`返回的对象，传给它层的权重，并返回缩放过的权重，再代替层的权重。第 12 章会看到，如果需要的话可以定义自己的约束函数。你还可以通过设置参数`bias_constraint`约束偏置项。
+
+`max_norm()`函数有一个参数`axis`，默认为 0。紧密层权重的形状通常是[输入数，神经元数]，因此设置`axis=0`，意味最大范数约束会独立作用在每个神经元的权重向量上。如果你想对卷积层使用最大范数，一定要合理设置`axis`（通常`axis=[0,1,2]`）。
+
+## 总结和实践原则
+
+本章介绍了许多方法，读者可能纳闷到底该用哪个呢。用哪种方法要取决于任务，并没有统一的结论，表 11-3 的总结可用于大多数情况，不需要调节太多超参数。但是，也不要死守这些默认值！
+
+![](img/f21d83b3ffce7b130d6c79c4966ee2b1.png)
+
+表 11-3 默认 DNN 配置
+
+如果网络只有紧密层，则可以是自归一化的，可以使用表 11-4 的配置。
+
+![](img/2592a250e00af098bcfdac9fc6a73288.png)
+
+![](img/acf2a9237ecb262a52ef4b6c9c5e8342.png)
+
+表 11-4 自归一化网络的 DNN 配置
+
+不要忘了归一化输入特征！还应该尝试复用部分预训练模型，如果它处理的是一个想死任务，或者如果有许多无便数据时使用无监督预训练，或者有许多相似任务的标签数据时使用辅助任务的语序年。
+
+虽然这些指导可以应对大部分情况，但有些例外：
+
+*   如果需要系数模型，你可以使用ℓ1 正则（可以在训练后，将部分小权重设为零）。如果需要一个再稀疏点的模型，可以使用 TensorFlow Model Optimization Toolkit，它会破坏自归一化，所以要使用默认配置。
+
+*   如果需要一个地延迟模型（预测快），层要尽量少，对前一层使用批归一化，使用更快的激活函数，比如 leaky ReLU 或 ReLU。稀疏模型也快。最后，将浮点精度从 32 位降到 16 位，甚至 8 位。还有，尝试 TF-MOT。
+
+*   如果搭建的是风险敏感的模型，或者推断延迟不是非常重要，可以使用 MC 丢弃提升性能，得到更可靠的概率估计和不确定估计。
+
+有了这些原则，就可以开始训练非常深的网络了。希望你现在对 Keras 有足够的自信。随着深入，可能需要写自定义的损失函数或调解训练算法。对于这样的情况，需要使用 TensorFlow 的低级 API，见下一章。
+
+## 练习
+
+1.  使用 He 初始化随机选择权重，是否可以将所有权重初始化为相同的值？
+
+2.  可以将偏置初始化为 0 吗？
+
+3.  说出 SELU 激活功能与 ReLU 相比的三个优点。
+
+4.  在哪些情况下，您想要使用以下每个激活函数：SELU，leaky ReLU（及其变体），ReLU，tanh，logistic 以及 softmax？
+
+5.  如果将`momentum`超参数设置得太接近 1（例如，0.99999），会发生什么情况？
+
+6.  请列举您可以生成稀疏模型的三种方法。
+
+7.  丢弃是否会减慢训练？ 它是否会减慢推断（即预测新的实例）？MC 丢弃呢？
+
+8.  在 CIFAR10 图片数据集上训练一个深度神经网络：
+
+    1.  建立一个 DNN，有 20 个隐藏层，每层 100 个神经元，使用 He 初始化和 ELU 激活函数。
+    2.  使用 Nadam 优化和早停，尝试在 CIFAR10 上进行训练，可以使用`keras.datasets.cifar10.load_​data()`加载数据。数据集包括 60000 张`32x32`的图片（50000 张训练，10000 张测试）有 10 个类，所以需要 10 个神经元的 softmax 输出层。记得每次调整架构或超参数之后，寻找合适的学习率。
+    3.  现在尝试添加批归一化并比较学习曲线：它是否比以前收敛得更快？ 它是否会产生更好的模型？对训练速度有何影响？
+    4.  尝试用 SELU 替换批归一化，做一些调整，确保网络是自归一化的（即，标准化输入特征，使用 LeCun 正态初始化，确保 DNN 只含有紧密层）。
+    5.  使用 alpha 丢弃正则化模型。然后，不训练模型，使用 MC 丢弃能否提高准确率。
+    6.  用 1 循环调度重新训练模型，是否能提高训练速度和准确率。
+
+参考答案见附录 A。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/12.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/12.md
new file mode 100644
index 00000000..c7a00049
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/12.md
@@ -0,0 +1,1003 @@
+# 十二、使用 TensorFlow 自定义模型并训练
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+
+
+目前为止，我们只是使用了 TensorFlow 的高级 API —— `tf.keras`，它的功能很强大：搭建了各种神经网络架构，包括回归、分类网络、Wide & Deep 网络、自归一化网络，使用了各种方法，包括批归一化、丢弃和学习率调度。事实上，你在实际案例中 95% 碰到的情况只需要`tf.keras`就足够了（和`tf.data`，见第 13 章）。现在来深入学习 TensorFlow 的低级 Python API。当你需要实现自定义损失函数、自定义标准、层、模型、初始化器、正则器、权重约束时，就需要低级 API 了。甚至有时需要全面控制训练过程，例如使用特殊变换或对约束梯度时。这一章就会讨论这些问题，还会学习如何使用 TensorFlow 的自动图生成特征提升自定义模型和训练算法。首先，先来快速学习下 TensorFlow。
+
+> 笔记：TensorFlow 2.0（beta）是 2019 年六月发布的，相比前代更易使用。本书第一版使用的是 TF 1，这一版使用的是 TF 2。
+
+## TensorFlow 速览
+
+TensorFlow 是一个强大的数值计算库，特别适合做和微调大规模机器学习（但也可以用来做其它的重型计算）。TensorFlow 是谷歌大脑团队开发的，支持了谷歌的许多大规模服务，包括谷歌云对话、谷歌图片和谷歌搜索。TensorFlow 是 2015 年 11 月开源的，（按文章引用、公司采用、GitHub 星数）是目前最流行的深度学习库。无数的项目是用 TensorFlow 来做各种机器学习任务，包括图片分类、自然语言处理、推荐系统和时间序列预测。TensorFlow 提供的功能如下：
+
+*   TensorFlow 的核心与 NumPy 很像，但 TensorFlow 支持 GPU；
+
+*   TensorFlow 支持（多设备和服务器）分布式计算；
+
+*   TensorFlow 使用了即时 JIT 编译器对计算速度和内存使用优化。编译器的工作是从 Python 函数提取出计算图，然后对计算图优化（比如剪切无用的节点），最后高效运行（比如自动并行运行独立任务）；
+
+*   计算图可以导出为迁移形式，因此可以在一个环境中训练一个 TensorFlow 模型（比如使用 Python 或 Linux），然后在另一个环境中运行（比如在安卓设备上用 Java 运行）；
+
+*   TensorFlow 实现了自动微分，并提供了一些高效的优化器，比如 RMSProp 和 NAdam，因此可以容易的最小化各种损失函数。
+
+基于上面这些特点，TensorFlow 还提供了许多其他功能：最重要的是`tf.keras`，还有数据加载和预处理操作（`tf.data`，`tf.io`等等），图片处理操作（`tf.image`），信号处理操作（`tf.signal`），等等（图 12-1 总结了 TensorFlow 的 Python API）
+
+![](img/3d01200878f6c6d7033359da8291d199.png)
+
+图 12-1 TensorFlow 的 Python API
+
+> 提示：这一章会介绍 TensorFlow API 的多个包和函数，但来不及介绍全部，所以读者最好自己花点时间好好看看 API。TensorFlow 的 API 十分丰富，且文档详实。
+
+TensorFlow 的低级操作都是用高效的 C++ 实现的。许多操作有多个实现，称为`核`：每个核对应一个具体的设备型号，比如 CPU、GPU，甚至 TPU（张量处理单元）。GPU 通过将任务分成小块，在多个 GPU 线程中并行运行，可以极大提高提高计算的速度。TPU 更快：TPU 是自定义的 ASIC 芯片，专门用来做深度学习运算的（第 19 章会讨论适合使用 GPU 和 TPU）。
+
+TensorFlow 的架构见图 12-2。大多数时候你的代码使用高级 API 就够了（特别是`tf.keras`和`tf.data`），但如果需要更大的灵活性，就需要使用低级 Python API，来直接处理张量。TensorFlow 也支持其它语言的 API。任何情况下，甚至是跨设备和机器的情况下，TensorFlow 的执行引擎都会负责高效运行。
+
+![](img/ed0c3d9af331e1630b0d6051a6899d01.png)
+
+图 12-2 TensorFlow 的架构
+
+TensorFlow 不仅可以运行在 Windows、Linux 和 macOS 上，也可以运行在移动设备上（使用 TensorFlow Lite），包括 iOS 和安卓（见第 19 章）。如果不想使用 Python API，还可以使用 C++、Java、Go 和 Swift 的 API。甚至还有 JavaScript 的实现 TensorFlow.js，它可以直接在浏览器中运行。
+
+TensorFlow 不只有这些库。TensorFlow 处于一套可扩展的生态系统库的核心位置。首先，TensorBoard 可以用来可视化。其次，TensorFlow Extended（TFX），是谷歌推出的用来生产化的库，包括：数据确认、预处理、模型分析和服务（使用 TF Serving，见第 19 章）。谷歌的 TensorFlow Hub 上可以方便下载和复用预训练好的神经网络。你还可以从 TensorFlow 的 [model garden](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Ftensorflow%2Fmodels%2F) 获取许多神经网络架构，其中一些是预训练好的。[TensorFlow Resources](https://links.jianshu.com/go?to=https%3A%2F%2Fwww.tensorflow.org%2Fresources) 和[这个页面](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fjtoy%2Fawesome-tensorflow)上有更多的资源。你可以在 GitHub 上找到数百个 TensorFlow 项目，无论干什么都可以方便地找到现成的代码。
+
+> 提示：越来越多的 ML 论文都附带了实现过程，一些甚至带有预训练模型。可以在[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fpaperswithcode.com%2F)找到。
+
+最后，TensorFlow 有一支热忱满满的开发者团队，也有庞大的社区。要是想问技术问题，可以去[这里](https://links.jianshu.com/go?to=http%3A%2F%2Fstackoverflow.com%2F)
+，问题上打上 tensorflow 和 python 标签。还可以在 [GitHub](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Ftensorflow%2Ftensorflow) 上提 bug 和新功能。一般的讨论可以去[谷歌群组](https://links.jianshu.com/go?to=https%3A%2F%2Fgroups.google.com%2Fa%2Ftensorflow.org%2Fforum%2F)。
+
+下面开始写代码！
+
+## 像 NumPy 一样使用 TensorFlow
+
+TensorFlow 的 API 是围绕张量（tensor）展开的，从一个操作流动（flow）到另一个操作，所以名字叫做 TensorFlow。张量通常是一个多维数组（就像 NumPy 的`ndarray`），但也可以是标量（即简单值，比如 42）。张量对于自定义的损失函数、标准、层等等非常重要，接下来学习如何创建和操作张量。
+
+### 张量和运算
+
+使用`tf.constant()`创建张量。例如，下面的张量表示的是两行三列的浮点数矩阵：
+
+```py
+>>> tf.constant([[1., 2., 3.], [4., 5., 6.]]) # matrix
+<tf.Tensor: id=0, shape=(2, 3), dtype=float32, numpy=
+array([[1., 2., 3.],
+       [4., 5., 6.]], dtype=float32)>
+>>> tf.constant(42) # 标量
+<tf.Tensor: id=1, shape=(), dtype=int32, numpy=42> 
+```
+
+就像`ndarray`一样，`tf.Tensor`也有形状和数据类型（`dtype`）：
+
+```py
+>>> t = tf.constant([[1., 2., 3.], [4., 5., 6.]])
+>>> t.shape
+TensorShape([2, 3])
+>>> t.dtype
+tf.float32 
+```
+
+索引和 NumPy 中很像：
+
+```py
+>>> t[:, 1:]
+<tf.Tensor: id=5, shape=(2, 2), dtype=float32, numpy=
+array([[2., 3.],
+       [5., 6.]], dtype=float32)>
+>>> t[..., 1, tf.newaxis]
+<tf.Tensor: id=15, shape=(2, 1), dtype=float32, numpy=
+array([[2.],
+       [5.]], dtype=float32)> 
+```
+
+最重要的，所有张量运算都可以执行：
+
+```py
+>>> t + 10
+<tf.Tensor: id=18, shape=(2, 3), dtype=float32, numpy=
+array([[11., 12., 13.],
+       [14., 15., 16.]], dtype=float32)>
+>>> tf.square(t)
+<tf.Tensor: id=20, shape=(2, 3), dtype=float32, numpy=
+array([[ 1.,  4.,  9.],
+       [16., 25., 36.]], dtype=float32)>
+>>> t @ tf.transpose(t)
+<tf.Tensor: id=24, shape=(2, 2), dtype=float32, numpy=
+array([[14., 32.],
+       [32., 77.]], dtype=float32)> 
+```
+
+可以看到，`t + 10`等同于调用`tf.add(t, 10)`，`-`和`*`也支持。`@`运算符是在 Python3.5 中出现的，用于矩阵乘法，等同于调用函数`tf.matmul()`。
+
+可以在 tf 中找到所有基本的数学运算（`tf.add()`、`tf.multiply()`、`tf.square()`、`tf.exp()`、`tf.sqrt()`），以及 NumPy 中的大部分运算（比如`tf.reshape()`、`tf.squeeze()`、`tf.tile()`）。一些 tf 中的函数与 NumPy 中不同，例如，`tf.reduce_mean()`、`tf.reduce_sum()`、`tf.reduce_max()`、`tf.math.log()`等同于`np.mean()`、`np.sum()`、`np.max()`和`np.log()`。当函数名不同时，通常都是有原因的。例如，TensorFlow 中必须使用`tf.transpose(t)`，不能像 NumPy 中那样使用`t.T`。原因是函数`tf.transpose(t)`所做的和 NumPy 的属性`T`并不完全相同：在 TensorFlow 中，是使用转置数据的复制来生成张量的，而在 NumPy 中，`t.T`是数据的转置视图。相似的，`tf.reduce_sum()`操作之所以这么命名，是因为它的 GPU 核（即 GPU 实现）所采用的归约算法不能保证元素相加的顺序，因为 32 位的浮点数精度有限，每次调用的结果可能会有细微的不同。`tf.reduce_mean()`也是这样（`tf.reduce_max()`结果是确定的）。
+
+> 笔记：许多函数和类都有假名。比如，`tf.add()`和`tf.math.add()`是相同的。这可以让 TensorFlow 对于最常用的操作有简洁的名字，同时包可以有序安置。
+
+> Keras 的低级 API
+> Keras API 有自己的低级 API，位于`keras.backend`，包括：函数`square()`、`exp()`、`sqrt()`。在`tf.keras`中，这些函数通常通常只是调用对应的 TensorFlow 操作。如果你想写一些可以迁移到其它 Keras 实现上，就应该使用这些 Keras 函数。但是这些函数不多，所以这本书里就直接使用 TensorFlow 的运算了。下面是一个简单的使用了`keras.backend`的例子，简记为`k`：
+> 
+> ```py
+> >>> from tensorflow import keras
+> >>> K = keras.backend
+> >>> K.square(K.transpose(t)) + 10
+> <tf.Tensor: id=39, shape=(3, 2), dtype=float32, numpy=
+> array([[11., 26.],
+>        [14., 35.],
+>        [19., 46.]], dtype=float32)> 
+> ```
+
+### 张量和 NumPy
+
+张量和 NumPy 融合地非常好：使用 NumPy 数组可以创建张量，张量也可以创建 NumPy 数组。可以在 NumPy 数组上运行 TensorFlow 运算，也可以在张量上运行 NumPy 运算：
+
+```py
+>>> a = np.array([2., 4., 5.])
+>>> tf.constant(a)
+<tf.Tensor: id=111, shape=(3,), dtype=float64, numpy=array([2., 4., 5.])>
+>>> t.numpy() # 或 np.array(t)
+array([[1., 2., 3.],
+       [4., 5., 6.]], dtype=float32)
+>>> tf.square(a)
+<tf.Tensor: id=116, shape=(3,), dtype=float64, numpy=array([4., 16., 25.])>
+>>> np.square(t)
+array([[ 1.,  4.,  9.],
+       [16., 25., 36.]], dtype=float32) 
+```
+
+> 警告：NumPy 默认使用 64 位精度，TensorFlow 默认用 32 位精度。这是因为 32 位精度通常对于神经网络就足够了，另外运行地更快，使用的内存更少。因此当你用 NumPy 数组创建张量时，一定要设置`dtype=tf.float32`。
+
+### 类型转换
+
+类型转换对性能的影响非常大，并且如果类型转换是自动完成的，不容易被注意到。为了避免这样，TensorFlow 不会自动做任何类型转换：只是如果用不兼容的类型执行了张量运算，TensorFlow 就会报异常。例如，不能用浮点型张量与整数型张量相加，也不能将 32 位张量与 64 位张量相加：
+
+```py
+>>> tf.constant(2.) + tf.constant(40)
+Traceback[...]InvalidArgumentError[...]expected to be a float[...]
+>>> tf.constant(2.) + tf.constant(40., dtype=tf.float64)
+Traceback[...]InvalidArgumentError[...]expected to be a double[...] 
+```
+
+这点可能一开始有点恼人，但是有其存在的理由。如果真的需要转换类型，可以使用`tf.cast()`：
+
+```py
+>>> t2 = tf.constant(40., dtype=tf.float64)
+>>> tf.constant(2.0) + tf.cast(t2, tf.float32)
+<tf.Tensor: id=136, shape=(), dtype=float32, numpy=42.0> 
+```
+
+### 变量
+
+到目前为止看到的`tf.Tensor`值都是不能修改的。意味着不能使用常规张量实现神经网络的权重，因为权重必须要能被反向传播调整。另外，其它的参数也需要随着时间调整（比如，动量优化器要跟踪过去的梯度）。此时需要的是`tf.Variable`：
+
+```py
+>>> v = tf.Variable([[1., 2., 3.], [4., 5., 6.]])
+>>> v
+<tf.Variable 'Variable:0' shape=(2, 3) dtype=float32, numpy=
+array([[1., 2., 3.],
+       [4., 5., 6.]], dtype=float32)> 
+```
+
+`tf.Variable`和`tf.Tensor`很像：可以运行同样的运算，可以配合 NumPy 使用，也要注意类型。可以使用`assign()`方法对其就地修改（或`assign_add()`、`assign_sub()`）。使用切片的`assign()`方法可以修改独立的切片（直接赋值行不通），或使用`scatter_update()`、`scatter_nd_update()`方法：
+
+```py
+v.assign(2 * v)           # => [[2., 4., 6.], [8., 10., 12.]]
+v[0, 1].assign(42)        # => [[2., 42., 6.], [8., 10., 12.]]
+v[:, 2].assign([0., 1.])  # => [[2., 42., 0.], [8., 10., 1.]]
+v.scatter_nd_update(indices=[[0, 0], [1, 2]], updates=[100., 200.])
+                          # => [[100., 42., 0.], [8., 10., 200.]] 
+```
+
+> 笔记：在实践中，很少需要手动创建变量，因为 Keras 有`add_weight()`方法可以自动来做。另外，模型参数通常会直接通过优化器更新，因此很少需要手动更新。
+
+### 其它数据结构
+
+TensorFlow 还支持其它几种数据结构，如下（可以参考笔记本的`Tensors and Operations`部分，或附录的 F）：
+
+稀疏张量（`tf.SparseTensor`）
+高效表示含有许多 0 的张量。`tf.sparse`包含有对稀疏张量的运算。
+
+张量数组（`tf.TensorArray`）
+是张量的列表。有默认固定大小，但也可以做成动态的。列表中的张量必须形状相同，数据类型也相同。
+
+嵌套张量（`tf.RaggedTensor`）
+张量列表的静态列表，张量的形状和数据结构相同。`tf.ragged`包里有嵌套张量的运算。
+
+字符串张量
+类型是`tf.string`的常规张量，是字节串而不是 Unicode 字符串，因此如果你用 Unicode 字符串（比如，Python3 字符串`café`）创建了一个字符串张量，就会自动被转换为 UTF-8（`b"caf\xc3\xa9"`）。另外，也可以用`tf.int32`类型的张量表示 Unicode 字符串，其中每项表示一个 Unicode 码（比如，`[99, 97, 102, 233]`）。`tf.strings`包里有字节串和 Unicode 字符串的运算，以及二者转换的运算。要注意`tf.string`是原子性的，也就是说它的长度不出现在张量的形状中，一旦将其转换成了 Unicode 张量（即，含有 Unicode 码的`tf.int32`张量），长度才出现在形状中。
+
+集合
+表示为常规张量（或稀疏张量）。例如`tf.constant([[1, 2], [3, 4]])`表示两个集合{1, 2}和{3, 4}。通常，用张量的最后一个轴的向量表示集合。集合运算可以用`tf.sets`包。
+
+队列
+用来在多个步骤之间保存张量。TensorFlow 提供了多种队列。先进先出（FIFO）队列`FIFOQueue`，优先级队列`PriorityQueue`，随机队列`RandomShuffleQueue`，通过填充的不同形状的批次项队列`PaddingFIFOQueue`。这些队列都在`tf.queue`包中。
+
+有了张量、运算、变量和各种数据结构，就可以开始自定义模型和训练算法啦！
+
+## 自定义模型和训练算法
+
+先从简单又常见的任务开始，创建一个自定义的损失函数。
+
+### 自定义损失函数
+
+假如你想训练一个回归模型，但训练集有噪音。你当然可以通过清除或修正异常值来清理数据集，但是这样还不够：数据集还是有噪音。此时，该用什么损失函数呢？均方差可能对大误差惩罚过重，导致模型不准确。均绝对值误差不会对异常值惩罚过重，但训练可能要比较长的时间才能收敛，训练模型也可能不准确。此时使用 Huber 损失（第 10 章介绍过）就比 MSE 好多了。目前官方 Keras API 中没有 Huber 损失，但`tf.keras`有（使用类`keras.losses.Huber`的实例）。就算`tf.keras`没有，实现也不难！只需创建一个函数，参数是标签和预测值，使用 TensorFlow 运算计算每个实例的损失：
+
+```py
+def huber_fn(y_true, y_pred):
+    error = y_true - y_pred
+    is_small_error = tf.abs(error) < 1
+    squared_loss = tf.square(error) / 2
+    linear_loss  = tf.abs(error) - 0.5
+    return tf.where(is_small_error, squared_loss, linear_loss) 
+```
+
+> 警告：要提高性能，应该像这个例子使用向量。另外，如果想利用 TensorFlow 的图特性，则只能使用 TensorFlow 运算。
+
+最好返回一个包含实例的张量，其中每个实例都有一个损失，而不是返回平均损失。这么做的话，Keras 可以在需要时，使用类权重或样本权重（见第 10 章）。
+
+现在，编译 Keras 模型时，就可以使用 Huber 损失来训练了：
+
+```py
+model.compile(loss=huber_fn, optimizer="nadam")
+model.fit(X_train, y_train, [...]) 
+```
+
+仅此而已！对于训练中的每个批次，Keras 会调用函数`huber_fn()`计算损失，用损失来做梯度下降。另外，Keras 会从一开始跟踪总损失，并展示平均损失。
+
+在保存这个模型时，这个自定义损失会发生什么呢？
+
+### 保存并加载包含自定义组件的模型
+
+因为 Keras 可以保存函数名，保存含有自定义损失函数的模型也不成问题。当加载模型时，你需要提供一个字典，这个字典可以将函数名和真正的函数映射起来。一般说来，当加载一个含有自定义对象的模型时，你需要将名字映射到对象上：
+
+```py
+model = keras.models.load_model("my_model_with_a_custom_loss.h5",
+                                custom_objects={"huber_fn": huber_fn}) 
+```
+
+对于刚刚的代码，在 -1 和 1 之间的误差被认为是“小”误差。如果要改变阈值呢？一个解决方法是创建一个函数，它可以产生一个可配置的损失函数：
+
+```py
+def create_huber(threshold=1.0):
+    def huber_fn(y_true, y_pred):
+        error = y_true - y_pred
+        is_small_error = tf.abs(error) < threshold
+        squared_loss = tf.square(error) / 2
+        linear_loss  = threshold * tf.abs(error) - threshold**2 / 2
+        return tf.where(is_small_error, squared_loss, linear_loss)
+    return huber_fn
+model.compile(loss=create_huber(2.0), optimizer="nadam") 
+```
+
+但在保存模型时，`threshold`不能被保存。这意味在加载模型时（注意，给 Keras 的函数名是`Huber_fn`，不是创造这个函数的函数名），必须要指定`threshold`的值：
+
+```py
+model = keras.models.load_model("my_model_with_a_custom_loss_threshold_2.h5",
+                                custom_objects={"huber_fn": create_huber(2.0)}) 
+```
+
+要解决这个问题，可以创建一个`keras.losses.Loss`类的子类，然后实现`get_config()`方法：
+
+```py
+class HuberLoss(keras.losses.Loss):
+    def __init__(self, threshold=1.0, **kwargs):
+        self.threshold = threshold
+        super().__init__(**kwargs)
+    def call(self, y_true, y_pred):
+        error = y_true - y_pred
+        is_small_error = tf.abs(error) < self.threshold
+        squared_loss = tf.square(error) / 2
+        linear_loss  = self.threshold * tf.abs(error) - self.threshold**2 / 2
+        return tf.where(is_small_error, squared_loss, linear_loss)
+    def get_config(self):
+        base_config = super().get_config()
+        return {**base_config, "threshold": self.threshold} 
+```
+
+> 警告：Keras API 目前只使用子类来定义层、模型、调回和正则器。如果使用子类创建其它组件（比如损失、指标、初始化器或约束），它们不能迁移到其它 Keras 实现上。可能 Keras API 经过更新，就会支持所有组件了。
+
+逐行看下这段代码：
+
+*   构造器接收`**kwargs`，并将其传递给父构造器，父构造器负责处理超参数：损失的`name`，要使用的、用于将单个实例的损失汇总的`reduction`算法。默认情况下是`"sum_over_batch_size"`，意思是损失是各个实例的损失之和，如果有样本权重，则做权重加权，再除以批次大小（不是除以权重之和，所以不是加权平均）。其它可能的值是`"sum"`和`None`。
+
+*   `call()`方法接受标签和预测值，计算所有实例的损失，并返回。
+
+*   `get_config()`方法返回一个字典，将每个超参数映射到值上。它首先调用父类的`get_config()`方法，然后将新的超参数加入字典（`{**x}`语法是 Python 3.5 引入的）。
+
+当编译模型时，可以使用这个类的实例：
+
+```py
+model.compile(loss=HuberLoss(2.), optimizer="nadam") 
+```
+
+保存模型时，阈值会一起保存；加载模型时，只需将类名映射到具体的类上：
+
+```py
+model = keras.models.load_model("my_model_with_a_custom_loss_class.h5",
+                                custom_objects={"HuberLoss": HuberLoss}) 
+```
+
+保存模型时，Keras 调用损失实例的`get_config()`方法，将配置以 JSON 的形式保存在 HDF5 中。当加载模型时，会调用`HuberLoss`类的`from_config()`方法：这个方法是父类`Loss`实现的，创建一个类`Loss`的实例，将`**config`传递给构造器。
+
+### 自定义激活函数、初始化器、正则器和约束
+
+Keras 的大多数功能，比如损失、正则器、约束、初始化器、指标、激活函数、层，甚至是完整的模型，都可以用相似的方法做自定义。大多数时候，需要写一个简单的函数，带有合适的输入和输出。下面的例子是自定义激活函数（等价于`keras.activations.softplus()`或`tf.nn.softplus()`），自定义 Glorot 初始化器（等价于`keras.initializers.glorot_normal()`），自定义`ℓ1`正则化器（等价于`keras.regularizers.l1(0.01)`），可以保证权重都是正值的自定义约束（等价于`equivalent to keras.constraints.nonneg()`或`tf.nn.relu()`）：
+
+```py
+def my_softplus(z): # return value is just tf.nn.softplus(z)
+    return tf.math.log(tf.exp(z) + 1.0)
+
+def my_glorot_initializer(shape, dtype=tf.float32):
+    stddev = tf.sqrt(2\. / (shape[0] + shape[1]))
+    return tf.random.normal(shape, stddev=stddev, dtype=dtype)
+
+def my_l1_regularizer(weights):
+    return tf.reduce_sum(tf.abs(0.01 * weights))
+
+def my_positive_weights(weights): # return value is just tf.nn.relu(weights)
+    return tf.where(weights < 0., tf.zeros_like(weights), weights) 
+```
+
+可以看到，参数取决于自定义函数的类型。这些自定义函数可以如常使用，例如：
+
+```py
+layer = keras.layers.Dense(30, activation=my_softplus,
+                           kernel_initializer=my_glorot_initializer,
+                           kernel_regularizer=my_l1_regularizer,
+                           kernel_constraint=my_positive_weights) 
+```
+
+激活函数会应用到这个`Dense`层的输出上，结果会传递到下一层。层的权重会使用初始化器的返回值。在每个训练步骤，权重会传递给正则化函数以计算正则损失，这个损失会与主损失相加，得到训练的最终损失。最后，会在每个训练步骤结束后调用约束函数，经过约束的权重会替换层的权重。
+
+如果函数有需要连同模型一起保存的超参数，需要对相应的类做子类，比如`keras.regularizers.Regularizer`，`keras.constraints.Constraint`，`keras.initializers.Initializer`，或 `keras.layers.Layer`（任意层，包括激活函数）。就像前面的自定义损失一样，下面是一个简单的`ℓ1`正则类，可以保存它的超参数`factor`（这次不必调用其父构造器或`get_config()`方法，因为它们不是父类定义的）：
+
+```py
+class MyL1Regularizer(keras.regularizers.Regularizer):
+    def __init__(self, factor):
+        self.factor = factor
+    def __call__(self, weights):
+        return tf.reduce_sum(tf.abs(self.factor * weights))
+    def get_config(self):
+        return {"factor": self.factor} 
+```
+
+注意，你必须要实现损失、层（包括激活函数）和模型的`call()`方法，或正则化器、初始化器和约束的`__call__()`方法。对于指标，处理方法有所不同。
+
+### 自定义指标
+
+损失和指标的概念是不一样的：梯度下降使用损失（比如交叉熵损失）来训练模型，因此损失必须是可微分的（至少是在评估点可微分），梯度不能在所有地方都是 0。另外，就算损失比较难解释也没有关系。相反的，指标（比如准确率）是用来评估模型的：指标的解释性一定要好，可以是不可微分的，或者可以在任何地方的梯度都是 0。
+
+但是，在多数情况下，定义一个自定义指标函数和定义一个自定义损失函数是完全一样的。事实上，刚才创建的 Huber 损失函数也可以用来当指标（持久化也是同样的，只需要保存函数名`Huber_fn`就成）：
+
+```py
+model.compile(loss="mse", optimizer="nadam", metrics=[create_huber(2.0)]) 
+```
+
+对于训练中的每个批次，Keras 能计算该指标，并跟踪自周期开始的指标平均值。大多数时候，这样没有问题。但会有例外！比如，考虑一个二元分类器的准确性。第 3 章介绍过，准确率是真正值除以正预测数（包括真正值和假正值）。假设模型在第一个批次做了 5 个正预测，其中 4 个是正确的，准确率就是 80%。再假设模型在第二个批次做了 3 次正预测，但没有一个预测对，则准确率是 0%。如果对这两个准确率做平均，则平均值是 40%。但它不是模型在两个批次上的准确率！事实上，真正值总共有 4 个，正预测有 8 个，整体的准确率是 50%。我们需要的是一个能跟踪真正值和正预测数的对象，用该对象计算准确率。这就是类`keras.metrics.Precision`所做的：
+
+```py
+>>> precision = keras.metrics.Precision()
+>>> precision([0, 1, 1, 1, 0, 1, 0, 1], [1, 1, 0, 1, 0, 1, 0, 1])
+<tf.Tensor: id=581729, shape=(), dtype=float32, numpy=0.8>
+>>> precision([0, 1, 0, 0, 1, 0, 1, 1], [1, 0, 1, 1, 0, 0, 0, 0])
+<tf.Tensor: id=581780, shape=(), dtype=float32, numpy=0.5> 
+```
+
+在这个例子中，我们创建了一个`Precision`对象，然后将其用作函数，将第一个批次的标签和预测传给它，然后传第二个批次的数据（这里也可以传样本权重）。数据和前面的真正值和正预测一样。第一个批次之后，正确率是 80%；第二个批次之后，正确率是 50%（这是完整过程的准确率，不是第二个批次的准确率）。这叫做流式指标（或者静态指标），因为他是一个批次接一个批次，逐次更新的。
+
+任何时候，可以调用`result()`方法获取指标的当前值。还可以通过`variables`属性，查看指标的变量（跟踪正预测和负预测的数量），还可以用`reset_states()`方法重置变量：
+
+```py
+>>> p.result()
+<tf.Tensor: id=581794, shape=(), dtype=float32, numpy=0.5>
+>>> p.variables
+[<tf.Variable 'true_positives:0' [...] numpy=array([4.], dtype=float32)>,
+ <tf.Variable 'false_positives:0' [...] numpy=array([4.], dtype=float32)>]
+>>> p.reset_states() # both variables get reset to 0.0 
+```
+
+如果想创建一个这样的流式指标，可以创建一个`keras.metrics.Metric`类的子类。下面的例子跟踪了完整的 Huber 损失，以及实例的数量。当查询结果时，就能返回比例值，该值就是平均 Huber 损失：
+
+```py
+class HuberMetric(keras.metrics.Metric):
+    def __init__(self, threshold=1.0, **kwargs):
+        super().__init__(**kwargs) # handles base args (e.g., dtype)
+        self.threshold = threshold
+        self.huber_fn = create_huber(threshold)
+        self.total = self.add_weight("total", initializer="zeros")
+        self.count = self.add_weight("count", initializer="zeros")
+    def update_state(self, y_true, y_pred, sample_weight=None):
+        metric = self.huber_fn(y_true, y_pred)
+        self.total.assign_add(tf.reduce_sum(metric))
+        self.count.assign_add(tf.cast(tf.size(y_true), tf.float32))
+    def result(self):
+        return self.total / self.count
+    def get_config(self):
+        base_config = super().get_config()
+        return {**base_config, "threshold": self.threshold} 
+```
+
+逐行看下代码：
+
+*   构造器使用`add_weight()`方法来创建用来跟踪多个批次的变量 —— 在这个例子中，就是 Huber 损失的和（`total`）和实例的数量（`count`）。如果愿意的话，可以手动创建变量。Keras 会跟中任何被设为属性的`tf.Variable`（更一般的讲，任何“可追踪对象”，比如层和模型）。
+
+*   当将这个类的实例当做函数使用时会调用`update_state()`方法（正如`Precision`对象）。它能用每个批次的标签和预测值（还有样本权重，但这个例子忽略了样本权重）来更新变量。
+
+*   `result()`方法计算并返回最终值，在这个例子中，是返回所有实例的平均 Huber 损失。当你将指标用作函数时，`update_state()`方法先被调用，然后调用`result()`方法，最后返回输出。
+
+*   还实现了`get_config()`方法，用以确保`threshold`和模型一起存储。
+
+*   `reset_states()`方法默认将所有值重置为 0.0（也可以改为其它值）。
+
+> 笔记：Keras 能无缝处理变量持久化。
+
+当用简单函数定义指标时，Keras 会在每个批次自动调用它，还能跟踪平均值，就和刚才的手工处理一模一样。因此，`HuberMetric`类的唯一好处是`threshold`可以进行保存。当然，一些指标，比如准确率，不能简单的平均化；对于这些例子，只能实现一个流式指标。
+
+创建好了流式指标，再创建自定义层就很简单了。
+
+### 自定义层
+
+有时候你可能想搭建一个架构，但 TensorFlow 没有提供默认实现。这种情况下，就需要创建自定义层。否则只能搭建出的架构会是简单重复的，包含相同且重复的层块，每个层块实际上就是一个层而已。比如，如果模型的层顺序是 A、B、C、A、B、C、A、B、C，则完全可以创建一个包含 A、B、C 的自定义层 D，模型就可以简化为 D、D、D。
+
+如何创建自定义层呢？首先，一些层没有权重，比如`keras.layers.Flatten`或`keras.layers.ReLU`。如果想创建一个没有任何权重的自定义层，最简单的方法是协议个函数，将其包装进`keras.layers.Lambda`层。比如，下面的层会对输入做指数运算：
+
+```py
+exponential_layer = keras.layers.Lambda(lambda x: tf.exp(x)) 
+```
+
+这个自定义层可以像任何其它层一样使用顺序 API、函数式 API 或子类化 API。你还可以将其用作激活函数（或者使用`activation=tf.exp`，`activation=keras.activations.exponential`，或者`activation="exponential"`）。当预测值的数量级不同时，指数层有时用在回归模型的输出层。
+
+你可能猜到了，要创建自定义状态层（即，有权重的层），需要创建`keras.layers.Layer`类的子类。例如，下面的类实现了一个紧密层的简化版本：
+
+```py
+class MyDense(keras.layers.Layer):
+    def __init__(self, units, activation=None, **kwargs):
+        super().__init__(**kwargs)
+        self.units = units
+        self.activation = keras.activations.get(activation)
+
+    def build(self, batch_input_shape):
+        self.kernel = self.add_weight(
+            name="kernel", shape=[batch_input_shape[-1], self.units],
+            initializer="glorot_normal")
+        self.bias = self.add_weight(
+            name="bias", shape=[self.units], initializer="zeros")
+        super().build(batch_input_shape) # must be at the end
+
+    def call(self, X):
+        return self.activation(X @ self.kernel + self.bias)
+
+    def compute_output_shape(self, batch_input_shape):
+        return tf.TensorShape(batch_input_shape.as_list()[:-1] + [self.units])
+
+    def get_config(self):
+        base_config = super().get_config()
+        return {**base_config, "units": self.units,
+                "activation": keras.activations.serialize(self.activation)} 
+```
+
+逐行看下代码：
+
+*   构造器将所有超参数作为参数（这个例子中，是`units`和`activation`），更重要的，它还接收一个`**kwargs`参数。接着初始化了父类，传给父类`kwargs`：它负责标准参数，比如`input_shape`、`trainable`和`name`。然后将超参数存为属性，使用`keras.activations.get()`函数（这个函数接收函数、标准字符串，比如`"relu"`、`"selu"`、或`"None"`），将`activation`参数转换为合适的激活函数。
+
+*   `build()`方法通过对每个权重调用`add_weight()`方法，创建层的变量。层第一次被使用时，调用`build()`方法。此时，Keras 能知道该层输入的形状，并传入`build()`方法，这对创建权重是必要的。例如，需要知道前一层的神经元数量，来创建连接权重矩阵（即，`"kernel"`）：对应的是输入的最后一维的大小。在`build()`方法最后（也只是在最后），必须调用父类的`build()`方法：这步告诉 Keras 这个层建好了（或者设定`self.built=True`）。
+
+*   `call()`方法执行预想操作。在这个例子中，计算了输入`X`和层的核的矩阵乘法，加上了偏置向量，对结果使用了激活函数，得到了该层的输出。
+
+*   `compute_output_shape()`方法只是返回了该层输出的形状。在这个例子中，输出和输入的形状相同，除了最后一维被替换成了层的神经元数。在`tf.keras`中，形状是`tf.TensorShape`类的实例，可以用`as_list()`转换为 Python 列表。
+
+*   `get_config()`方法和前面的自定义类很像。注意是通过调用`keras.activations.serialize()`，保存了激活函数的完整配置。
+
+现在，就可以像其它层一样，使用`MyDense`层了！
+
+> 笔记：一般情况下，可以忽略`compute_output_shape()`方法，因为`tf.keras`能自动推断输出的形状，除非层是动态的（后面会看到动态层）。在其它 Keras 实现中，要么需要`compute_output_shape()`方法，要么默认输出形状和输入形状相同。
+
+要创建一个有多个输入（比如`Concatenate`）的层，`call()`方法的参数应该是包含所有输入的元组。相似的，`compute_output_shape()`方法的参数应该是一个包含每个输入的批次形状的元组。要创建一个有多输出的层，`call()`方法要返回输出的列表，`compute_output_shape()`方法要返回批次输出形状的列表（每个输出一个形状）。例如，下面的层有两个输入和三个输出：
+
+```py
+class MyMultiLayer(keras.layers.Layer):
+    def call(self, X):
+        X1, X2 = X
+        return [X1 + X2, X1 * X2, X1 / X2]
+
+    def compute_output_shape(self, batch_input_shape):
+        b1, b2 = batch_input_shape
+        return [b1, b1, b1] # 可能需要处理广播规则 
+```
+
+这个层现在就可以像其它层一样使用了，但只能使用函数式和子类化 API，顺序 API 不成（只能使用单输入和单输出的层）。
+
+如果你的层需要在训练和测试时有不同的行为（比如，如果使用`Dropout` 或 `BatchNormalization`层），那么必须给`call()`方法加上`training`参数，用这个参数确定该做什么。比如，创建一个在训练中（为了正则）添加高斯造影的层，但不改动训练（Keras 有一个层做了同样的事，`keras.layers.GaussianNoise`）：
+
+```py
+class MyGaussianNoise(keras.layers.Layer):
+    def __init__(self, stddev, **kwargs):
+        super().__init__(**kwargs)
+        self.stddev = stddev
+
+    def call(self, X, training=None):
+        if training:
+            noise = tf.random.normal(tf.shape(X), stddev=self.stddev)
+            return X + noise
+        else:
+            return X
+
+    def compute_output_shape(self, batch_input_shape):
+        return batch_input_shape 
+```
+
+上面这些就能让你创建自定义层了！接下来看看如何创建自定义模型。
+
+### 自定义模型
+
+第 10 章在讨论子类化 API 时，接触过创建自定义模型的类。说白了：创建`keras.Model`类的子类，创建层和变量，用`call()`方法完成模型想做的任何事。假设你想搭建一个图 12-3 中的模型。
+
+![](img/17669b5f6b6e1a23b11d4207c365c15a.png)
+
+图 12-3 自定义模型案例：包含残差块层，残块层含有跳连接
+
+输入先进入一个紧密层，然后进入包含两个紧密层和一个添加操作的残差块（第 14 章会看见，残差块将输入和输出相加），经过 3 次同样的残差块，再通过第二个残差块，最终结果通过一个紧密输出层。这个模型没什么意义，只是一个搭建任意结构（包含循环和跳连接）模型的例子。要实现这个模型，最好先创建`ResidualBlock`层，因为这个层要用好几次：
+
+```py
+class ResidualBlock(keras.layers.Layer):
+    def __init__(self, n_layers, n_neurons, **kwargs):
+        super().__init__(**kwargs)
+        self.hidden = [keras.layers.Dense(n_neurons, activation="elu",
+                                          kernel_initializer="he_normal")
+                       for _ in range(n_layers)]
+
+    def call(self, inputs):
+        Z = inputs
+        for layer in self.hidden:
+            Z = layer(Z)
+        return inputs + Z 
+```
+
+这个层稍微有点特殊，因为它包含了其它层。用 Keras 来实现：自动检测`hidden`属性包含可追踪对象（即，层），内含层的变量可以自动添加到整层的变量列表中。类的其它部分很好懂。接下来，使用子类化 API 定义模型：
+
+```py
+class ResidualRegressor(keras.Model):
+    def __init__(self, output_dim, **kwargs):
+        super().__init__(**kwargs)
+        self.hidden1 = keras.layers.Dense(30, activation="elu",
+                                          kernel_initializer="he_normal")
+        self.block1 = ResidualBlock(2, 30)
+        self.block2 = ResidualBlock(2, 30)
+        self.out = keras.layers.Dense(output_dim)
+
+    def call(self, inputs):
+        Z = self.hidden1(inputs)
+        for _ in range(1 + 3):
+            Z = self.block1(Z)
+        Z = self.block2(Z)
+        return self.out(Z) 
+```
+
+在构造器中创建层，在`call()`方法中使用。这个模型可以像其它模型那样来使用（编译、拟合、评估、预测）。如果你还想使用`save()`方法保存模型，使用`keras.models.load_model()`方法加载模型，则必须在`ResidualBlock`类和`ResidualRegressor`类中实现`get_config()`方法。另外，可以使用`save_weights()`方法和`load_weights()`方法保存和加载权重。
+
+`Model`类是`Layer`类的子类，因此模型可以像层一样定义和使用。但是模型还有一些其它的功能，包括`compile()`、`fit()`、`evaluate()` 和`predict()`（还有一些变量），还有`get_layers()`方法（它能通过名字或序号返回模型的任意层）、`save()`方法（支持`keras.models.load_model()`和`keras.models.clone_model()`）。
+
+> 提示：如果模型提供的功能比层多，为什么不讲每一个层定义为模型呢？技术上当然可以这么做，但对内部组件和模型（即，层或可重复使用的层块）加以区别，可以更加清晰。前者应该是`Layer`类的子类，后者应该是`Model`类的子类。
+
+掌握了上面的方法，你就可以使用顺序 API、函数式 API、子类化 API 搭建几乎任何文章上的模型了。为什么是“几乎”？因为还有些内容需要掌握：首先，如何基于模型内部定义损失或指标，第二，如何搭建自定义训练循环。
+
+### 基于模型内部的损失和指标
+
+前面的自定义损失和指标都是基于标签和预测（或者还有样本权重）。有时，你可能想基于模型的其它部分定义损失，比如隐藏层的权重或激活函数。这么做，可以是处于正则的目的，或监督模型的内部。
+
+要基于模型内部自定义损失，需要先做基于这些组件的计算，然后将结果传递给`add_loss()`方法。例如，自定义一个包含五个隐藏层加一个输出层的回归 MLP 模型。这个自定义模型基于上层的隐藏层，还有一个辅助的输出。和辅助输出关联的损失，被称为重建损失（见第 17 章）：它是重建和输入的均方差。通过将重建误差添加到主损失上，可以鼓励模型通过隐藏层保留尽量多的信息，即便是那些对回归任务没有直接帮助的信息。在实际中，重建损失有助于提高泛化能力（它是一个正则损失）。下面是含有自定义重建损失的自定义模型：
+
+```py
+class ReconstructingRegressor(keras.Model):
+    def __init__(self, output_dim, **kwargs):
+        super().__init__(**kwargs)
+        self.hidden = [keras.layers.Dense(30, activation="selu",
+                                          kernel_initializer="lecun_normal")
+                       for _ in range(5)]
+        self.out = keras.layers.Dense(output_dim)
+
+    def build(self, batch_input_shape):
+        n_inputs = batch_input_shape[-1]
+        self.reconstruct = keras.layers.Dense(n_inputs)
+        super().build(batch_input_shape)
+
+    def call(self, inputs):
+        Z = inputs
+        for layer in self.hidden:
+            Z = layer(Z)
+        reconstruction = self.reconstruct(Z)
+        recon_loss = tf.reduce_mean(tf.square(reconstruction - inputs))
+        self.add_loss(0.05 * recon_loss)
+        return self.out(Z) 
+```
+
+逐行看下代码：
+
+*   构造器搭建了一个有五个紧密层和一个紧密输出层的 DNN。
+
+*   `build()`方法创建了另一个紧密层，可以重建模型的输入。必须要在这里创建`build()`方法的原因，是单元的数量必须等于输入数，而输入数在调用`build()`方法之前是不知道的。
+
+*   `call()`方法处理所有五个隐藏层的输入，然后将结果传给重建层，重建层产生重建。
+
+*   `call()`方法然后计算重建损失（重建和输入的均方差），然后使用`add_loss()`方法，将其加到模型的损失列表上。注意，这里对重建损失乘以了 0.05（这是个可调节的超参数），做了缩小，以确保重建损失不主导主损失。
+
+*   最后，`call()`方法将隐藏层的输出传递给输出层，然后返回输出。
+
+相似的，可以加上一个基于模型内部的自定义指标。例如，可以在构造器中创建一个`keras.metrics.Mean`对象，然后在`call()`方法中调用它，传递给它`recon_loss`，最后通过`add_metric()`方法，将其添加到模型上。使用这种方式，在训练模型时，Keras 能展示每个周期的平均损失（损失是主损失加上 0.05 乘以重建损失），和平均重建误差。两者都会在训练过程中下降：
+
+```py
+Epoch 1/5
+11610/11610 [=============] [...] loss: 4.3092 - reconstruction_error: 1.7360
+Epoch 2/5
+11610/11610 [=============] [...] loss: 1.1232 - reconstruction_error: 0.8964
+[...] 
+```
+
+在超过 99% 的情况中，前面所讨论的内容已经足够搭建你想要的模型了，就算是包含复杂架构、损失和指标也行。但是，在某些极端情况，你还需要自定义训练循环。介绍之前，先来看看 TensorFlow 如何自动计算梯度。
+
+### 使用自动微分计算梯度
+
+要搞懂如何使用自动微分自动计算梯度，来看一个例子：
+
+```py
+def f(w1, w2):
+    return 3 * w1 ** 2 + 2 * w1 * w2 
+```
+
+如果你会微积分，就能算出这个函数对`w1`的偏导是`6 * w1 + 2 * w2`，还能算出它对`w2`的偏导是`2 * w1`。例如，在点`(w1, w2) = (5, 3)`，这两个偏导数分别是 36 和 10，在这个点的梯度向量就是`(36, 10)`。但对于神经网络来说，函数会复杂得多，可能会有上完个参数，用手算偏导几乎是不可能的任务。一个解决方法是计算每个偏导的大概值，通过调节参数，查看输出的变化：
+
+```py
+>>> w1, w2 = 5, 3
+>>> eps = 1e-6
+>>> (f(w1 + eps, w2) - f(w1, w2)) / eps
+36.000003007075065
+>>> (f(w1, w2 + eps) - f(w1, w2)) / eps
+10.000000003174137 
+```
+
+这种方法很容易实现，但只是大概。重要的是，需要对每个参数至少要调用一次`f()`（不是至少两次，因为可以只计算一次`f(w1, w2)`）。这样，对于大神经网络，就不怎么可控。所以，应该使用自动微分。TensorFlow 的实现很简单：
+
+```py
+w1, w2 = tf.Variable(5.), tf.Variable(3.)
+with tf.GradientTape() as tape:
+    z = f(w1, w2)
+
+gradients = tape.gradient(z, [w1, w2]) 
+```
+
+先定义了两个变量`w1` 和 `w2`，然后创建了一个`tf.GradientTape`上下文，它能自动记录变脸的每个操作，最后使用它算出结果`z`关于两个变量`[w1, w2]`的梯度。TensorFlow 计算的梯度如下：
+
+```py
+>>> gradients
+[<tf.Tensor: id=828234, shape=(), dtype=float32, numpy=36.0>,
+ <tf.Tensor: id=828229, shape=(), dtype=float32, numpy=10.0>] 
+```
+
+很好！不仅结果是正确的（准确度只受浮点误差限制），`gradient()`方法只逆向算了一次，无论有多少个变量，效率很高。
+
+> 提示：为了节省内存，只将严格的最小值放在`tf.GradientTape()`中。另外，通过`在 tf.GradientTape()`中创建一个`tape.stop_recording()`来暂停记录。
+
+当调用记录器的`gradient()`方法时，记录器会自动清零，所以调用两次`gradient()`就会报错：
+
+```py
+with tf.GradientTape() as tape:
+    z = f(w1, w2)
+
+dz_dw1 = tape.gradient(z, w1) # => tensor 36.0
+dz_dw2 = tape.gradient(z, w2) # 运行时错误 
+```
+
+如果需要调用`gradient()`一次以上，比续将记录器持久化，并在每次用完之后删除，释放资源：
+
+```py
+with tf.GradientTape(persistent=True) as tape:
+    z = f(w1, w2)
+
+dz_dw1 = tape.gradient(z, w1) # => tensor 36.0
+dz_dw2 = tape.gradient(z, w2) # => tensor 10.0, works fine now!
+del tape 
+```
+
+默认情况下，记录器只会跟踪包含变量的操作，所以如果是计算`z`的梯度，`z`和变量没关系，结果就会是`None`：
+
+```py
+c1, c2 = tf.constant(5.), tf.constant(3.)
+with tf.GradientTape() as tape:
+    z = f(c1, c2)
+
+gradients = tape.gradient(z, [c1, c2]) # returns [None, None] 
+```
+
+但是，你也可以强制记录器监视任何你想监视的张量，将它们当做变量来计算梯度：
+
+```py
+with tf.GradientTape() as tape:
+    tape.watch(c1)
+    tape.watch(c2)
+    z = f(c1, c2)
+
+gradients = tape.gradient(z, [c1, c2]) # returns [tensor 36., tensor 10.] 
+```
+
+在某些情况下，这么做会有帮助，比如当输入的波动很小，而激活函数结果波动很大时，要实现一个正则损失，就可以这么做：损失会基于激活函数结果，激活函数结果会基于输入。因为输入不是变量，就需要记录器监视输入。
+
+大多数时候，梯度记录器被用来计算单一值（通常是损失）的梯度。这就是自动微分发挥长度的地方了。因为自动微分只需要一次向前传播一次向后传播，就能计算所有梯度。如果你想计算一个向量的梯度，比如一个包含多个损失的向量，TensorFlow 就会计算向量和的梯度。因此，如果你需要计算单个梯度的话（比如每个损失相对于模型参数的梯度），你必须调用记录器的`jabobian()`方法：它能做反向模式的自动微分，一次计算完向量中的所有损失（默认是并行的）。甚至还可以计算二级偏导，但在实际中用的不多（见笔记本中的“自动微分计算梯度部分”）。
+
+某些情况下，你可能想让梯度在部分神经网络停止传播。要这么做的话，必须使用`tf.stop_gradient()`函数。它能在前向传播中（比如`tf.identity()`）返回输入，并能阻止梯度反向传播（就像常量一样）：
+
+```py
+def f(w1, w2):
+    return 3 * w1 ** 2 + tf.stop_gradient(2 * w1 * w2)
+
+with tf.GradientTape() as tape:
+    z = f(w1, w2) # same result as without stop_gradient()
+
+gradients = tape.gradient(z, [w1, w2]) # => returns [tensor 30., None] 
+```
+
+最后，在计算梯度时可能还会碰到数值问题。例如，如果对于很大的输入，计算`my_softplus()`函数的梯度，结果会是`NaN`：
+
+```py
+>>> x = tf.Variable([100.])
+>>> with tf.GradientTape() as tape:
+...     z = my_softplus(x)
+...
+>>> tape.gradient(z, [x])
+<tf.Tensor: [...] numpy=array([nan], dtype=float32)> 
+```
+
+这是因为使用自动微分计算这个函数的梯度，会有些数值方面的难点：因为浮点数的精度误差，自动微分最后会变成无穷除以无穷（结果是`NaN`）。幸好，softplus 函数的导数是`1 / (1 + 1 / exp(x))`，它是数值稳定的。接着，让 TensorFlow 使用这个稳定的函数，通过装饰器`@tf.custom_gradient`计算`my_softplus()`的梯度，既返回正常输出，也返回计算导数的函数（注意：它会接收的输入是反向传播的梯度；根据链式规则，应该乘以函数的梯度）：
+
+```py
+@tf.custom_gradient
+def my_better_softplus(z):
+    exp = tf.exp(z)
+    def my_softplus_gradients(grad):
+        return grad / (1 + 1 / exp)
+    return tf.math.log(exp + 1), my_softplus_gradients 
+```
+
+计算好了`my_better_softplus()`的梯度，就算对于特别大的输入值，也能得到正确的结果（但是，因为指数运算，主输出还是会发生爆炸；绕过的方法是，当输出很大时，使用`tf.where()`返回输入）。
+
+祝贺你！现在你就可以计算任何函数的梯度（只要函数在计算点可微就行），甚至可以阻止反向传播，还能写自己的梯度函数！TensorFlow 的灵活性还能让你编写自定义的训练循环。
+
+### 自定义训练循环
+
+在某些特殊情况下，`fit()`方法可能不够灵活。例如，第 10 章讨论过的 Wide & Deep 论文使用了两个优化器：一个用于宽路线，一个用于深路线。因为`fit()`方法智能使用一个优化器（编译时设置的优化器），要实现这篇论文就需要写自定义循环。
+
+你可能还想写自定义的训练循环，只是想让训练过程更加可控（也许你对`fit()`方法的细节并不确定）。但是，自定义训练循环会让代码变长、更容易出错、也难以维护。
+
+> 提示：除非真的需要自定义，最好还是使用`fit()`方法，而不是自定义训练循环，特别是当你是在一个团队之中时。
+
+首先，搭建一个简单的模型。不用编译，因为是要手动处理训练循环：
+
+```py
+l2_reg = keras.regularizers.l2(0.05)
+model = keras.models.Sequential([
+    keras.layers.Dense(30, activation="elu", kernel_initializer="he_normal",
+                       kernel_regularizer=l2_reg),
+    keras.layers.Dense(1, kernel_regularizer=l2_reg)
+]) 
+```
+
+接着，创建一个小函数，它能从训练集随机采样一个批次的实例（第 13 章会讨论更便捷的 Data API）：
+
+```py
+def random_batch(X, y, batch_size=32):
+    idx = np.random.randint(len(X), size=batch_size)
+    return X[idx], y[idx] 
+```
+
+再定义一个可以展示训练状态的函数，包括步骤数、总步骤数、平均损失（用`Mean`指标计算），和其它指标：
+
+```py
+def print_status_bar(iteration, total, loss, metrics=None):
+    metrics = " - ".join(["{}: {:.4f}".format(m.name, m.result())
+                         for m in [loss] + (metrics or [])])
+    end = "" if iteration < total else "\n"
+    print("\r{}/{} - ".format(iteration, total) + metrics,
+          end=end) 
+```
+
+这段代码不难，除非你对 Python 字符串的`{:.4f}`不熟：它的作用是保留四位小数。使用`\r`（回车）和`end=""`连用，保证状态条总是打印在一条线上。笔记本中，`print_status_bar()`函数包括进度条，也可以使用`tqdm`库。
+
+有了这些准备，就可以开干了！首先，我们定义超参数、选择优化器、损失函数和指标（这个例子中是 MAE）：
+
+```py
+n_epochs = 5
+batch_size = 32
+n_steps = len(X_train) // batch_size
+optimizer = keras.optimizers.Nadam(lr=0.01)
+loss_fn = keras.losses.mean_squared_error
+mean_loss = keras.metrics.Mean()
+metrics = [keras.metrics.MeanAbsoluteError()] 
+```
+
+可以搭建自定义循环了：
+
+```py
+for epoch in range(1, n_epochs + 1):
+    print("Epoch {}/{}".format(epoch, n_epochs))
+    for step in range(1, n_steps + 1):
+        X_batch, y_batch = random_batch(X_train_scaled, y_train)
+        with tf.GradientTape() as tape:
+            y_pred = model(X_batch, training=True)
+            main_loss = tf.reduce_mean(loss_fn(y_batch, y_pred))
+            loss = tf.add_n([main_loss] + model.losses)
+        gradients = tape.gradient(loss, model.trainable_variables)
+        optimizer.apply_gradients(zip(gradients, model.trainable_variables))
+        mean_loss(loss)
+        for metric in metrics:
+            metric(y_batch, y_pred)
+        print_status_bar(step * batch_size, len(y_train), mean_loss, metrics)
+    print_status_bar(len(y_train), len(y_train), mean_loss, metrics)
+    for metric in [mean_loss] + metrics:
+        metric.reset_states() 
+```
+
+逐行看下代码：
+
+*   创建了两个嵌套循环：一个是给周期的，一个是给周期里面的批次的。
+
+*   然后从训练集随机批次采样。
+
+*   在`tf.GradientTape()`内部，对一个批次做了预测（将模型用作函数），计算其损失：损失等于主损失加上其它损失（在这个模型中，每层有一个正则损失）。因为`mean_squared_error()`函数给每个实例返回一个损失，使用`tf.reduce_mean()`计算平均值（如果愿意的话，每个实例可以用不同的权重）。正则损失已经转变为单个的标量，所以只需求和就成（使用`tf.add_n()`，它能将相同形状和数据类型的张量求和）。
+
+*   接着，让记录器计算损失相对于每个可训练变量的梯度（不是所有的变量！），然后用优化器对梯度做梯度下降。
+
+*   然后，更新（当前周期）平均损失和平均指标，显示状态条。
+
+*   在每个周期结束后，再次展示状态条，使其完整，然后换行，重置平均损失和平均指标。
+
+如果设定优化器的`clipnorm`或`clipvalue`超参数，就可以自动重置。如果你想对梯度做任何其它变换，在调用`apply_gradients()`方法之前，做变换就行。
+
+如果你对模型添加了权重约束（例如，添加层时设置`kernel_constraint`或`bias_constraint`），你需要在`apply_gradients()`之后，更新训练循环，以应用这些约束：
+
+```py
+for variable in model.variables:
+    if variable.constraint is not None:
+        variable.assign(variable.constraint(variable)) 
+```
+
+最重要的，这个训练循环没有处理训练和测试过程中，行为不一样的层（例如，`BatchNormalization`或`Dropout`）。要处理的话，需要调用模型，令`training=True`，并传播到需要这么设置的每一层。
+
+可以看到，有这么多步骤都要做对才成，很容易出错。但另一方面，训练的控制权完全在你手里。
+
+现在你知道如何自定义模型中的任何部分了，也知道如何训练算法了，接下来看看如何使用 TensorFlow 的自动图生成特征：它能显著提高自定义代码的速度，并且还是可迁移的（见第 19 章）。
+
+## TensorFlow 的函数和图
+
+在 TensorFlow 1 中，图是绕不过去的（同时图也很复杂），因为图是 TensorFlow 的 API 的核心。在 TensorFlow 2 中，图还在，但不是核心了，使用也简单多了。为了演示其易用性，从一个三次方函数开始：
+
+```py
+def cube(x):
+    return x ** 3 
+```
+
+可以用一个值调用这个函数，整数、浮点数都成，或者用张量来调用：
+
+```py
+>>> cube(2)
+8
+>>> cube(tf.constant(2.0))
+<tf.Tensor: id=18634148, shape=(), dtype=float32, numpy=8.0> 
+```
+
+现在，使用`tf.function()`将这个 Python 函数变为 TensorFlow 函数：
+
+```py
+>>> tf_cube = tf.function(cube)
+>>> tf_cube
+<tensorflow.python.eager.def_function.Function at 0x1546fc080> 
+```
+
+可以像原生 Python 函数一样使用这个 TF 函数，可以返回同样的结果（张量）：
+
+```py
+>>> tf_cube(2)
+<tf.Tensor: id=18634201, shape=(), dtype=int32, numpy=8>
+>>> tf_cube(tf.constant(2.0))
+<tf.Tensor: id=18634211, shape=(), dtype=float32, numpy=8.0> 
+```
+
+`tf.function()`在底层分析了`cube()`函数的计算，然后生成了一个等价的计算图！可以看到，过程十分简单（下面会讲解过程）。另外，也可以使用`tf.function`作为装饰器，更常见一些：
+
+```py
+@tf.function
+def tf_cube(x):
+    return x ** 3 
+```
+
+原生的 Python 函数通过 TF 函数的`python_function`属性仍然可用：
+
+```py
+>>> tf_cube.python_function(2)
+8 
+```
+
+TensorFlow 优化了计算图，删掉了没用的节点，简化了表达式（比如，`1 + 2`会替换为 3），等等。当优化好的计算图准备好之后，TF 函数可以在图中，按合适的顺序高效执行运算（该并行的时候就并行）。作为结果，TF 函数比普通的 Python 函数快的做，特别是在做复杂计算时。大多数时候，根本没必要知道底层到底发生了什么，如果需要对 Python 函数加速，将其转换为 TF 函数就行。
+
+另外，当你写的自定义损失函数、自定义指标、自定义层或任何其它自定义函数，并在 Keras 模型中使用的，Keras 都自动将其转换成了 TF 函数，不用使用`tf.function()`。
+
+> 提示：创建自定义层或模型时，设置`dynamic=True`，可以让 Keras 不转化你的 Python 函数。另外，当调用模型的`compile()`方法时，可以设置`run_eagerly=True`。
+
+默认时，TF 函数对每个独立输入的形状和数据类型的集合，生成了一个新的计算图，并缓存以备后续使用。例如，如果你调用`tf_cube(tf.constant(10))`，就会生成一个`int32`张量、形状是[]的计算图。如果你调用`tf_cube(tf.constant(20))`，会使用相同的计算图。但如果调用`tf_cube(tf.constant([10, 20]))`，就会生成一个`int32`、形状是`[2]`的新计算图。这就是 TF 如何处理多态的（即变化的参数类型和形状）。但是，这只适用于张量参数：如果你将 Python 数值传给 TF，就会为每个独立值创建一个计算图：比如，调用`tf_cube(10)`和`tf_cube(20)`会产生两个计算图。
+
+> 警告：如果用多个不同的 Python 数值调用 TF 函数，就会产生多个计算图，这样会减慢程勋，使用很多的内存（必须删掉 TF 函数才能释放）。Python 的值应该复赋值给尽量重复的参数，比如超参数，每层有多少个神经元。这可以让 TensorFlow 更好的优化模型中的变量。
+
+### 自动图和跟踪
+
+TensorFlow 是如何生成计算图的呢？它先分析了 Python 函数源码，得出所有的数据流控制语句，比如`for`循环，`while`循环，`if`条件，还有`break`、`continue`、`return`。这个第一步被称为自动图（AutoGraph）。TensorFlow 之所以要分析源码，试分析 Python 没有提供任何其它的方式来获取控制流语句：Python 提供了`__add__()`和`__mul__()`这样的魔术方法，但没有`__while__()`或`__if__()`这样的魔术方法。分析完源码之后，自动图中的所有控制流语句都被替换成相应的 TensorFlow 方法，比如`tf.while_loop()`（`while`循环）和`tf.cond()`（`if`判断）。例如，见图 12-4，自动图分析了 Python 函数`sum_squares()`的源码，然后变为函数`tf__sum_squares()`。在这个函数中，`for`循环被替换成了`loop_body()`（包括原生的`for`循环）。然后是函数`for_stmt()`，调用这个函数会形成运算`tf.while_loop()`。
+
+![](img/69bc4daad92e36575011ff9abc5c3148.png)
+
+图 12-4 TensorFlow 是如何使用自动图和跟踪生成计算图的？
+
+然后，TensorFlow 调用这个“升级”方法，但没有向其传递参数，而是传递一个符号张量（symbolic tensor）——一个没有任何真实值的张量，只有名字、数据类型和形状。例如，如果调用`sum_squares(tf.constant(10))`，然后会调用`tf__sum_squares()`，其符号张量的类型是`int32`，形状是`[]`。函数会以图模式运行，意味着每个 TensorFlow 运算会在图中添加一个表示自身的节点，然后输出`tensor(s)`（与常规模式相对，这被称为动态图执行，或动态模式）。在图模式中，TF 运算不做任何计算。如果你懂 TensorFlow 1，这应该很熟悉，因为图模式是默认模式。在图 12-4 中，可以看到`tf__sum_squares()`函数被调用，参数是符号张量，最后的图是跟踪中生成的。节点表示运算，箭头表示张量（生成的函数和图都简化了）。
+
+> 提示：想看生成出来的函数源码的话，可以调用`tf.autograph.to_code(sum_squares.python_function)`。源码不美观，但可以用来调试。
+
+### TF 函数规则
+
+大多数时候，将 Python 函数转换为 TF 函数是琐碎的：要用`@tf.function`装饰，或让 Keras 来负责。但是，也有一些规则：
+
+*   如果调用任何外部库，包括 NumPy，甚至是标准库，调用只会在跟踪中运行，不会是图的一部分。事实上，TensorFlow 图只能包括 TensorFlow 的构件（张量、运算、变量、数据集，等等）。因此，要确保使用的是`tf.reduce_sum()`而不是`np.sum()`，使用的是`tf.sort()`而不是内置的`sorted()`，等等。还要注意：
+
+1.  如果定义了一个 TF 函数`f(x)`，它只返回`np.random.rand()`，当函数被追踪时，生成的是个随机数，因此`f(tf.constant(2.))`和`f(tf.constant(3.))`会返回同样的随机数，但`f(tf.constant([2., 3.]))`会返回不同的数。如果将`np.random.rand()`替换为`tf.random.uniform([])`，每次调用都会返回新的随机数，因为运算是图的一部分。
+
+2.  如果你的非 TensorFlow 代码有副作用（比如日志，或更新 Python 计数器），则 TF 函数被调用时，副作用不一定发生，因为只有函数被追踪时才有效。
+
+3.  你可以在`tf.py_function()`运算中包装任意的 Python 代码，但这么做的话会使性能下降，因为 TensorFlow 不能做任何图优化。还会破坏移植性，因为图只能在有 Python 的平台上跑起来（且安装上正确的库）。
+
+*   你可以调用其它 Python 函数或 TF 函数，但是它们要遵守相同的规则，因为 TensorFlow 会在计算图中记录它们的运算。注意，其它函数不需要用`@tf.function`装饰。
+
+*   如果函数创建了一个 TensorFlow 变量（或任意其它静态 TensorFlow 对象，比如数据集或队列），它必须在第一次被调用时创建 TF 函数，否则会导致异常。通常，最好在 TF 函数的外部创建变量（比如在自定义层的`build()`方法中）。如果你想将一个新值赋值给变量，要确保调用它的`assign()`方法，而不是使用`=`。
+
+*   Python 的源码可以被 TensorFlow 使用。如果源码用不了（比如，如果是在 Python shell 中定义函数，源码就访问不了，或者部署的是编译文件`*.pyc`），图的生成就会失败或者缺失功能。
+
+*   TensorFlow 只能捕获迭代张量或数据集的`for`循环。因此要确保使用`for i in tf.range(x)`，而不是`for i in range(x)`，否则循环不能在图中捕获，而是在会在追踪中运行。（如果`for`循环使用创建计算图的，这可能是你想要的，比如创建神经网络中的每一层）。
+
+*   出于性能原因，最好使用向量化的实现方式，而不是使用循环。
+
+总结一下，这一章一开始介绍了 TensorFlow，然后是 TensorFlow 的低级 API，包括张量、运算、变量和特殊的数据结构。然后使用这些工具自定义了`tf.keras`中的几乎每个组件。最后，学习了 TF 函数如何提升性能，计算图是如何通过自动图和追踪生成的，在写 TF 函数时要遵守什么规则。（附录 G 介绍了生成图的内部黑箱）
+
+下一章会学习如何使用 TensorFlow 高效加载和预处理数据。
+
+# 练习
+
+1.  如何用一句话描述 TensorFlow？它的主要特点是什么？能列举出其它流行的深度学习库吗？
+
+2.  TensorFlow 是 NumPy 的简单替换吗？二者有什么区别？
+
+3.  `tf.range(10)`和`tf.constant(np.arange(10))`能拿到相同的结果吗？
+
+4.  列举出除了常规张量之外，TensorFlow 的其它六种数据结构？
+
+5.  可以通过函数或创建`keras.losses.Loss`的子类来自定义损失函数。两种方法各在什么时候使用？
+
+6.  相似的，自定义指标可以通过定义函数或创建`keras.metrics.Metric`的子类。两种方法各在什么时候使用？
+
+7.  什么时候应该创建自定义层，而不是自定义模型？
+
+8.  什么时候需要创建自定义的训练循环？
+
+9.  自定义 Keras 组件可以包含任意 Python 代码吗，或者 Python 代码需要转换为 TF 函数吗？
+
+10.  如果想让一个函数可以转换为 TF 函数，要遵守设么规则？
+
+11.  什么时候需要创建一个动态 Keras 模型？怎么做？为什么不让所有模型都是动态的？
+
+12.  实现一个具有层归一化的自定义层（第 15 章会用到）：
+
+a. `build()`方法要定义两个可训练权重`α`和`β`，形状都是`input_shape[-1:]`，数据类型是`tf.float32`。`α`用 1 初始化，`β`用 0 初始化。
+
+b. `call()`方法要计算每个实例的特征的平均值`μ`和标准差`σ`。你可以使用`tf.nn.moments(inputs, axes=-1, keepdims=True)`，它可以返回平均值`μ`和方差`σ^2`（计算其平方根得到标准差）。函数返回`α⊗(X - μ)/(σ + ε) + β`，其中`⊗`表示元素级别惩罚，`ε`是平滑项（避免发生除以 0，而是除以 0.001）。
+
+c. 确保自定义层的输出和`keras.layers.LayerNormalization`层的输出一致（或非常接近）。
+
+13.  训练一个自定义训练循环，来处理 Fashion MNIST 数据集。
+
+a. 展示周期、迭代，每个周期的平均训练损失、平均准确度（每次迭代会更新），还有每个周期结束后的验证集损失和准确度。
+
+b. 深层和浅层使用不同的优化器，不同的学习率。
+
+参考答案见附录 A。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/13.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/13.md
new file mode 100644
index 00000000..94f58a6f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/13.md
@@ -0,0 +1,833 @@
+# 十三、使用 TensorFlow 加载和预处理数据
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+
+
+目前为止，我们只是使用了存放在内存中的数据集，但深度学习系统经常需要在大数据集上训练，而内存放不下大数据集。其它的深度学习库通过对大数据集做预处理，绕过了内存限制，但 TensorFlow 通过 Data API，使一切都容易了：只需要创建一个数据集对象，告诉它去哪里拿数据，以及如何做转换就行。TensorFlow 负责所有的实现细节，比如多线程、队列、批次和预提取。另外，Data API 和`tf.keras`可以无缝配合！
+
+Data API 还可以从现成的文件（比如 CSV 文件）、固定大小的二进制文件、使用 TensorFlow 的 TFRecord 格式的文件（支持大小可变的记录）读取数据。TFRecord 是一个灵活高效的二进制格式，基于 Protocol Buffers（一个开源二进制格式）。Data API 还支持从 SQL 数据库读取数据。另外，许多开源插件也可以用来从各种数据源读取数据，包括谷歌的 BigQuery。
+
+高效读取大数据集不是唯一的难点：数据还需要进行预处理，通常是归一化。另外，数据集中并不是只有数值字段：可能还有文本特征、类型特征，等等。这些特征需要编码，比如使用独热编码或嵌入（后面会看到，嵌入嵌入是用来标识类型或标记的紧密向量）。预处理的一种方式是写自己的自定义预处理层，另一种是使用 Kera 的标准预处理层。
+
+本章中，我们会介绍 Data API，TFRecord 格式，以及如何创建自定义预处理层，和使用 Keras 的预处理层。还会快速学习 TensorFlow 生态的一些项目：
+
+*   TF Transform (`tf.Transform`)：可以用来编写单独的预处理函数，它可以在真正训练前，运行在完整训练集的批模式中，然后输出到 TF 函数，插入到训练好的模型中。只要模型在生产环境中部署好了，就能随时预处理新的实例。
+
+*   TF Datasets (TFDS)。提供了下载许多常见数据集的函数，包括 ImageNet，和数据集对象（可用 Data API 操作）。
+
+## Data API
+
+整个 Data API 都是围绕数据集`dataset`的概念展开的：可以猜得到，数据集表示一连串数据项。通常你是用的数据集是从硬盘里逐次读取数据的，简单起见，我们是用`tf.data.Dataset.from_tensor_slices()`创建一个存储于内存中的数据集：
+
+```py
+>>> X = tf.range(10)  # any data tensor
+>>> dataset = tf.data.Dataset.from_tensor_slices(X)
+>>> dataset
+<TensorSliceDataset shapes: (), types: tf.int32> 
+```
+
+函数`from_tensor_slices()`取出一个张量，创建了一个`tf.data.Dataset`，它的元素是`X`的全部切片，因此这个数据集包括 10 项：张量 0、1、2、...、9。在这个例子中，使用`tf.data.Dataset.range(10)`也能达到同样的效果。
+
+可以像下面这样对这个数据集迭代：
+
+```py
+>>> for item in dataset:
+...     print(item)
+...
+tf.Tensor(0, shape=(), dtype=int32)
+tf.Tensor(1, shape=(), dtype=int32)
+tf.Tensor(2, shape=(), dtype=int32)
+[...]
+tf.Tensor(9, shape=(), dtype=int32) 
+```
+
+### 链式转换
+
+有了数据集之后，通过调用转换方法，可以对数据集做各种转换。每个方法会返回一个新的数据集，因此可以将转换像下面这样链接起来（见图 13-1）：
+
+```py
+>>> dataset = dataset.repeat(3).batch(7)
+>>> for item in dataset:
+...     print(item)
+...
+tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int32)
+tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int32)
+tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int32)
+tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int32)
+tf.Tensor([8 9], shape=(2,), dtype=int32) 
+```
+
+![](img/252e2a32408349522b1f991945ebc47b.png)
+
+图 13-1 链接数据集转换
+
+在这个例子中，我们先在原始数据集上调用了`repeat()`方法，返回了一个重复了原始数据集 3 次的新数据集。当然，这步不会复制数据集中的数据三次（如果调用这个方法时没有加参数，新数据集会一直重复源数据集，必须让迭代代码决定何时退出）。然后我们在新数据集上调用了`batch()`方法，这步又产生了一个新数据集。这一步会将上一个数据集的分成 7 个一批次。最后，做一下迭代。可以看到，最后的批次只有两个元素，可以设置`drop_remainder=True`，丢弃最后的两项，将数据对齐。
+
+> 警告：数据集方法不修改数据集，只是生成新的数据集而已，所以要做新数据集的赋值（即使用`dataset = ...`）。
+
+还可以通过`map()`方法转换元素。比如，下面的代码创建了一个每个元素都翻倍的新数据集：
+
+```py
+>>> dataset = dataset.map(lambda x: x * 2) # Items: [0,2,4,6,8,10,12] 
+```
+
+这个函数可以用来对数据做预处理。有时可能会涉及复杂的计算，比如改变形状或旋转图片，所以通常需要多线程来加速：只需设置参数`num_parallel_calls`就行。注意，传递给`map()`方法的函数必须是可以转换为 TF 函数。
+
+`map()`方法是对每个元素做转换的，`apply()`方法是对数据整体做转换的。例如，下面的代码对数据集应用了`unbatch()`函数（这个函数目前是试验性的，但很有可能加入到以后的版本中）。新数据集中的每个元素都是一个单整数张量，而不是批次大小为 7 的整数。
+
+```py
+>>> dataset = dataset.apply(tf.data.experimental.unbatch()) # Items: 0,2,4,... 
+```
+
+还可以用`filter()`方法做过滤：
+
+```py
+>>> dataset = dataset.filter(lambda x: x < 10) # Items: 0 2 4 6 8 0 2 4 6... 
+```
+
+`take()`方法可以用来查看数据：
+
+```py
+>>> for item in dataset.take(3):
+...     print(item)
+...
+tf.Tensor(0, shape=(), dtype=int64)
+tf.Tensor(2, shape=(), dtype=int64)
+tf.Tensor(4, shape=(), dtype=int64) 
+```
+
+### 打散数据
+
+当训练集中的实例是独立同分布时，梯度下降的效果最好（见第 4 章）。实现独立同分布的一个简单方法是使用`shuffle()`方法。它能创建一个新数据集，新数据集的前面是一个缓存，缓存中是源数据集的开头元素。然后，无论什么时候取元素，就会从缓存中随便随机取出一个元素，从源数据集中取一个新元素替换。从缓冲器取元素，直到缓存为空。必须要指定缓存的大小，最好大一点，否则随机效果不明显。不要查出内存大小，即使内存够用，缓存超过数据集也是没有意义的。可以提供一个随机种子，如果希望随机的顺序是固定的。例如，下面的代码创建并显示了一个包括 0 到 9 的数据集，重复 3 次，用大小为 5 的缓存做随机，随机种子是 42，批次大小是 7：
+
+```py
+>>> dataset = tf.data.Dataset.range(10).repeat(3) # 0 to 9, three times
+>>> dataset = dataset.shuffle(buffer_size=5, seed=42).batch(7)
+>>> for item in dataset:
+...     print(item)
+...
+tf.Tensor([0 2 3 6 7 9 4], shape=(7,), dtype=int64)
+tf.Tensor([5 0 1 1 8 6 5], shape=(7,), dtype=int64)
+tf.Tensor([4 8 7 1 2 3 0], shape=(7,), dtype=int64)
+tf.Tensor([5 4 2 7 8 9 9], shape=(7,), dtype=int64)
+tf.Tensor([3 6], shape=(2,), dtype=int64) 
+```
+
+> 提示：如果在随机数据集上调用`repeat()`方法，默认下，每次迭代的顺序都是新的。通常这样没有问题，但如果你想让每次迭代的顺序一样（比如，测试或调试），可以设置`reshuffle_each_iteration=False`。
+
+对于内存放不下的大数据集，这个简单的随机缓存方法就不成了，因为缓存相比于数据集就小太多了。一个解决方法是将源数据本身打乱（例如，Linux 可以用`shuf`命令打散文本文件）。这样肯定能提高打散的效果！即使源数据打散了，你可能还想再打散一点，否则每个周期可能还会出现同样的顺序，模型最后可能是偏的（比如，源数据顺序偶然导致的假模式）。为了将实例进一步打散，一个常用的方法是将源数据分成多个文件，训练时随机顺序读取。但是，相同文件中的实例仍然靠的太近。为了避免这点，可以同时随机读取多个文件，做交叉。在最顶层，可以用`shuffle()`加一个随机缓存。如果这听起来很麻烦，不用担心：Data API 都为你实现了，几行代码就行。
+
+#### 多行数据交叉
+
+首先，假设加载了加州房价数据集，打散它（除非已经打散了），分成训练集、验证集、测试集。然后将每个数据集分成多个 csv 文件，每个如下所示（每行包含 8 个输入特征加上目标中位房价）：
+
+```py
+MedInc,HouseAge,AveRooms,AveBedrms,Popul,AveOccup,Lat,Long,MedianHouseValue
+3.5214,15.0,3.0499,1.1065,1447.0,1.6059,37.63,-122.43,1.442
+5.3275,5.0,6.4900,0.9910,3464.0,3.4433,33.69,-117.39,1.687
+3.1,29.0,7.5423,1.5915,1328.0,2.2508,38.44,-122.98,1.621
+[...] 
+```
+
+再假设`train_filepaths`包括了训练文件路径的列表（还要`valid_filepaths`和`test_filepaths`）：
+
+```py
+>>> train_filepaths
+['datasets/housing/my_train_00.csv', 'datasets/housing/my_train_01.csv',...] 
+```
+
+另外，可以使用文件模板，比如`train_filepaths = "datasets/housing/my_train_*.csv"`。现在，创建一个数据集，包括这些文件路径：
+
+```py
+filepath_dataset = tf.data.Dataset.list_files(train_filepaths, seed=42) 
+```
+
+默认，`list_files()`函数返回一个文件路径打散的数据集。也可以设置`shuffle=False`，文件路径就不打散了。
+
+然后，可以调用`leave()`方法，一次读取 5 个文件，做交叉操作（跳过第一行表头，使用`skip()`方法）：
+
+```py
+n_readers = 5
+dataset = filepath_dataset.interleave(
+    lambda filepath: tf.data.TextLineDataset(filepath).skip(1),
+    cycle_length=n_readers) 
+```
+
+`interleave()`方法会创建一个数据集，它从`filepath_dataset`读 5 条文件路径，对每条路径调用函数（例子中是用的匿名函数）来创建数据集（例子中是`TextLineDataset`）。为了更清楚点，这一步总欧诺个由七个数据集：文件路径数据集，交叉数据集，和五个`TextLineDatasets`数据集。当迭代交叉数据集时，会循环`TextLineDatasets`，每次读取一行，知道数据集为空。然后会从`filepath_dataset`再获取五个文件路径，做同样的交叉，直到文件路径为空。
+
+> 提示：为了交叉得更好，最好让文件有相同的长度，否则长文件的尾部不会交叉。
+
+默认情况下，`interleave()`不是并行的，只是顺序从每个文件读取一行。如果想变成并行读取文件，可以设定参数`num_parallel_calls`为想要的线程数（`map()`方法也有这个参数）。还可以将其设置为`tf.data.experimental.AUTOTUNE`，让 TensorFlow 根据 CPU 自己找到合适的线程数（目前这是个试验性的功能）。看看目前数据集包含什么：
+
+```py
+>>> for line in dataset.take(5):
+...     print(line.numpy())
+...
+b'4.2083,44.0,5.3232,0.9171,846.0,2.3370,37.47,-122.2,2.782'
+b'4.1812,52.0,5.7013,0.9965,692.0,2.4027,33.73,-118.31,3.215'
+b'3.6875,44.0,4.5244,0.9930,457.0,3.1958,34.04,-118.15,1.625'
+b'3.3456,37.0,4.5140,0.9084,458.0,3.2253,36.67,-121.7,2.526'
+b'3.5214,15.0,3.0499,1.1065,1447.0,1.6059,37.63,-122.43,1.442' 
+```
+
+忽略表头行，这是五个 csv 文件的第一行，随机选取的。看起来不错。但是也看到了，都是字节串，需要解析数据，缩放数据。
+
+### 预处理数据
+
+实现一个小函数来做预处理：
+
+```py
+X_mean, X_std = [...] # mean and scale of each feature in the training set
+n_inputs = 8
+
+def preprocess(line):
+  defs = [0.] * n_inputs + [tf.constant([], dtype=tf.float32)]
+  fields = tf.io.decode_csv(line, record_defaults=defs)
+  x = tf.stack(fields[:-1])
+  y = tf.stack(fields[-1:])
+  return (x - X_mean) / X_std, y 
+```
+
+逐行看下代码：
+
+*   首先，代码假定已经算好了训练集中每个特征的平均值和标准差。`X_mean`和`X_std`是 1D 张量（或 NumPy 数组），包含八个浮点数，每个都是特征。
+
+*   `preprocess()`函数从 csv 取一行，开始解析。使用`tf.io.decode_csv()`函数，接收两个参数，第一个是要解析的行，第二个是一个数组，包含 csv 文件每列的默认值。这个数组不仅告诉 TensorFlow 每列的默认值，还有总列数和数据类型。在这个例子中，是告诉 TensorFlow，所有特征列都是浮点数，缺失值默认为，但提供了一个类型是`tf.float32`的空数组，作为最后一列（目标）的默认值：数组告诉 TensorFlow 这一列包含浮点数，但没有默认值，所以碰到空值时会报异常。
+
+*   `decode_csv()`函数返回一个标量张量（每列一个）的列表，但应该返回 1D 张量数组。所以在所有张量上调用了`tf.stack()`，除了最后一个。然后对目标值做同样的操作（让其成为只包含一个值，而不是标量张量的 1D 张量数组）。
+
+*   最后，对特征做缩放，减去平均值，除以标准差，然后返回包含缩放特征和目标值的元组。
+
+测试这个预处理函数：
+
+```py
+>>> preprocess(b'4.2083,44.0,5.3232,0.9171,846.0,2.3370,37.47,-122.2,2.782')
+(<tf.Tensor: id=6227, shape=(8,), dtype=float32, numpy=
+ array([ 0.16579159,  1.216324  , -0.05204564, -0.39215982, -0.5277444 ,
+        -0.2633488 ,  0.8543046 , -1.3072058 ], dtype=float32)>,
+ <tf.Tensor: [...], numpy=array([2.782], dtype=float32)>) 
+```
+
+很好，接下来将函数应用到数据集上。
+
+### 整合
+
+为了让代码可复用，将前面所有讨论过的东西编程一个小函数：创建并返回一个数据集，可以高效从多个 csv 文件加载加州房价数据集，做预处理、打散、选择性重复，做批次（见图 3-2）：
+
+```py
+def csv_reader_dataset(filepaths, repeat=1, n_readers=5,
+                       n_read_threads=None, shuffle_buffer_size=10000,
+                       n_parse_threads=5, batch_size=32):
+    dataset = tf.data.Dataset.list_files(filepaths)
+    dataset = dataset.interleave(
+        lambda filepath: tf.data.TextLineDataset(filepath).skip(1),
+        cycle_length=n_readers, num_parallel_calls=n_read_threads)
+    dataset = dataset.map(preprocess, num_parallel_calls=n_parse_threads)
+    dataset = dataset.shuffle(shuffle_buffer_size).repeat(repeat)
+    return dataset.batch(batch_size).prefetch(1) 
+```
+
+代码条理很清晰，除了最后一行的`prefetch(1)`，对于提升性能很关键。
+
+### 预提取
+
+通过调用`prefetch(1)`，创建了一个高效的数据集，总能提前一个批次。换句话说，当训练算法在一个批次上工作时，数据集已经准备好下一个批次了（从硬盘读取数据并做预处理）。这样可以极大提升性能，解释见图 13-3。如果加载和预处理还要是多线程的（通过设置`interleave()`和`map()`的`num_parallel_calls`），可以利用多 CPU，准备批次数据可以比在 GPU 上训练还快：这样 GPU 就可以 100% 利用起来了（排除数据从 CPU 传输到 GPU 的时间），训练可以快很多。
+
+![](img/c3d15058321675d6e485d74efbdfb90f.png)
+
+图 13-3 通过预提取，让 CPU 和 GPU 并行工作：GPU 在一个批次上工作时，CPU 准备下一个批次
+
+> 提示：如果想买一块 GPU 显卡的话，它的处理能力和显存都是非常重要的。另一个同样重要的，是显存带宽，即每秒可以进入或流出内存的 GB 数。
+
+如果数据集不大，内存放得下，可以使用数据集的`cache()`方法将数据集存入内存。通常这步是在加载和预处理数据之后，在打散、重复、分批次之前。这样做的话，每个实例只需做一次读取和处理，下一个批次仍能提前准备。
+
+你现在知道如何搭建高效输入管道，从多个文件加载和预处理数据了。我们讨论了最常用的数据集方法，但还有一些你可能感兴趣：`concatenate()`、`zip()`、`window()`、`reduce()`、`shard()`、`flat_map()`、和`padded_batch()`。还有两个类方法：`from_generator()`和`from_tensors()`，它们能从 Python 生成器或张量列表创建数据集。更多细节请查看 API 文档。`tf.data.experimental`中还有试验性功能，其中许多功能可能会添加到未来版本中。
+
+### `tf.keras`使用数据集
+
+现在可以使用`csv_reader_dataset()`函数为训练集创建数据集了。注意，不需要将数据重复，`tf.keras`会做重复。还为验证集和测试集创建了数据集：
+
+```py
+train_set = csv_reader_dataset(train_filepaths)
+valid_set = csv_reader_dataset(valid_filepaths)
+test_set = csv_reader_dataset(test_filepaths) 
+```
+
+现在就可以利用这些数据集来搭建和训练 Keras 模型了。我们要做的就是将训练和验证集传递给`fit()`方法，而不是`X_train`、`y_train`、`X_valid`、`y_valid`：
+
+```py
+model = keras.models.Sequential([...])
+model.compile([...])
+model.fit(train_set, epochs=10, validation_data=valid_set) 
+```
+
+相似的，可以将数据集传递给`evaluate()`和`predict()`方法：
+
+```py
+model.evaluate(test_set)
+new_set = test_set.take(3).map(lambda X, y: X) # pretend we have 3 new instances
+model.predict(new_set) # a dataset containing new instances 
+```
+
+跟其它集合不同，`new_set`通常不包含标签（如果包含标签，也会被 Keras 忽略）。注意，在所有这些情况下，还可以使用 NumPy 数组（但仍需要加载和预处理）。
+
+如果你想创建自定义训练循环（就像 12 章那样），你可以在训练集上迭代：
+
+```py
+for X_batch, y_batch in train_set:
+    [...] # perform one Gradient Descent step 
+```
+
+事实上，还可以创建一个 TF 函数（见第 12 章）来完成整个训练循环：
+
+```py
+@tf.function
+def train(model, optimizer, loss_fn, n_epochs, [...]):
+    train_set = csv_reader_dataset(train_filepaths, repeat=n_epochs, [...])
+for X_batch, y_batch in train_set:
+        with tf.GradientTape() as tape:
+            y_pred = model(X_batch)
+            main_loss = tf.reduce_mean(loss_fn(y_batch, y_pred))
+            loss = tf.add_n([main_loss] + model.losses)
+        grads = tape.gradient(loss, model.trainable_variables)
+        optimizer.apply_gradients(zip(grads, model.trainable_variables)) 
+```
+
+祝贺，你现在知道如何使用 Data API 创建强大的输入管道了！但是，目前为止我们使用的 CSV 文件，虽然常见又简单方便，但不够高效，不支持大或复杂的数据结构（比如图片或音频）。这就是 TFRecord 要解决的。
+
+> 提示：如果你对 csv 文件感到满意（或其它任意格式），就不必使用 TFRecord。就像老话说的，只要没坏就别修！TFRecord 是为解决训练过程中加载和解析数据时碰到的瓶颈。
+
+## TFRecord 格式
+
+TFRecord 格式是 TensorFlow 偏爱的存储大量数据并高效读取的数据。它是非常简单的二进制格式，只包含不同大小的二进制记录的数据（每个记录包括一个长度、一个 CRC 校验和，校验和用于检查长度是否正确，真是的数据，和一个数据的 CRC 校验和，用于检查数据是否正确）。可以使用`tf.io.TFRecordWriter`类轻松创建 TFRecord 文件：
+
+```py
+with tf.io.TFRecordWriter("my_data.tfrecord") as f:
+    f.write(b"This is the first record")
+    f.write(b"And this is the second record") 
+```
+
+然后可以使用`tf.data.TFRecordDataset`来读取一个或多个 TFRecord 文件：
+
+```py
+filepaths = ["my_data.tfrecord"]
+dataset = tf.data.TFRecordDataset(filepaths)
+for item in dataset:
+    print(item) 
+```
+
+输出是：
+
+```py
+tf.Tensor(b'This is the first record', shape=(), dtype=string)
+tf.Tensor(b'And this is the second record', shape=(), dtype=string) 
+```
+
+> 提示：默认情况下，`TFRecordDataset`会逐一读取数据，但通过设定`num_parallel_reads`可以并行读取并交叉数据。另外，你可以使用`list_files()`和`interleave()`获得同样的结果。
+
+### 压缩 TFRecord 文件
+
+有的时候压缩 TFRecord 文件很有必要，特别是当需要网络传输的时候。你可以通过设定`options`参数，创建压缩的 TFRecord 文件：
+
+```py
+options = tf.io.TFRecordOptions(compression_type="GZIP")
+with tf.io.TFRecordWriter("my_compressed.tfrecord", options) as f:
+  [...] 
+```
+
+当读取压缩 TFRecord 文件时，需要指定压缩类型：
+
+```py
+dataset = tf.data.TFRecordDataset(["my_compressed.tfrecord"],
+                                  compression_type="GZIP") 
+```
+
+### 简要介绍协议缓存
+
+即便每条记录可以使用任何二进制格式，TFRecord 文件通常包括序列化的协议缓存（也称为 protobuf）。这是一种可移植、可扩展的高效二进制格式，是谷歌在 2001 年开发，并在 2008 年开源的；协议缓存现在使用广泛，特别是在 gRPC，谷歌的远程调用系统中。定义语言如下：
+
+```py
+syntax = "proto3";
+message Person {
+  string name = 1;
+  int32 id = 2;
+  repeated string email = 3;
+} 
+```
+
+定义写道，使用的是协议缓存的版本 3，指定每个`Person`对象可以有一个`name`，类型是字符串，类型是`int32`的`id`，0 个或多个`email`字段，每个都是字符串。数字 1、2、3 是字段标识符：用于每条数据的二进制表示。当你在`.proto`文件中有了一个定义，就可以编译了。这就需要`protoc`，协议缓存编译器，来生成 Python（或其它语言）的访问类。注意，要使用的缓存协议的定义已经编译好了，它们的 Python 类是 TensorFlow 的一部分，所以就不必使用`protoc`了。你需要知道的知识如何使用 Python 的缓存协议访问类。为了讲解，看一个简单的例子，使用访问类来生成`Person`缓存协议：
+
+```py
+>>> from person_pb2 import Person  # 引入生成的访问类
+>>> person = Person(name="Al", id=123, email=["a@b.com"])  # 创建一个 Person
+>>> print(person)  # 展示 Person
+name: "Al"
+id: 123
+email: "a@b.com"
+>>> person.name  # 读取一个字段
+"Al"
+>>> person.name = "Alice"  # 修改一个字段
+>>> person.email[0]  # 重复的字段可以像数组一样访问
+"a@b.com"
+>>> person.email.append("c@d.com")  # 添加 email 地址
+>>> s = person.SerializeToString()  # 将对象序列化为字节串
+>>> s
+b'\n\x05Alice\x10{\x1a\x07a@b.com\x1a\x07c@d.com'
+>>> person2 = Person()  # 创建一个新 Person
+>>> person2.ParseFromString(s)  #解析字节串（字节长度 27）
+27
+>>> person == person2  # 现在相等
+True 
+```
+
+简而言之，我们引入了`protoc`生成的类`Person`，创建了一个实例，展示、读取、并写入新字段，然后使用`SerializeToString()`将其序列化。序列化的数据就可以保存或通过网络传输了。当读取或接收二进制数据时，可以使用`ParseFromString()`方法来解析，就得到了序列化对象的复制。
+
+可以将序列化的`Person`对象存储为 TFRecord 文件，然后可以加载和解析。但是`SerializeToString()`和`ParseFromString()`不是 TensorFlow 运算（这段代码中的其它代码也不是 TensorFlow 运算），因此 TensorFlow 函数中不能含有这两个方法（除非将其包装进`tf.py_function()`运算，但会使代码速度变慢，移植性变差）。幸好，TensorFlow 还有提供了解析运算的特殊协议缓存。
+
+### TensorFlow 协议缓存
+
+TFRecord 文件主要使用的协议缓存是`Example`，它表示数据集中的一个实例，包括命名特征的列表，每个特征可以是字节串列表、或浮点列表、或整数列表。下面是一个协议缓存的定义：
+
+```py
+syntax = "proto3";
+message BytesList { repeated bytes value = 1; }
+message FloatList { repeated float value = 1 [packed = true]; }
+message Int64List { repeated int64 value = 1 [packed = true]; }
+message Feature {
+    oneof kind {
+        BytesList bytes_list = 1;
+        FloatList float_list = 2;
+        Int64List int64_list = 3;
+    }
+};
+message Features { map<string, Feature> feature = 1; };
+message Example { Features features = 1; }; 
+```
+
+`BytesList`、`FloatList`、`Int64List`的定义都很清楚。注意，重复的数值字段使用了`[packed = true]`，目的是高效编码。`Feature`包含的是`BytesList`、`FloatList`、`Int64List`三者之一。`Features`（带`s`）是包含特征名和对应特征值的字典。最后，一个`Example`值包含一个`Features`对象。下面是一个如何创建`tf.train.Example`的例子，表示的是之前同样的人，并存储为 TFRecord 文件：
+
+```py
+from tensorflow.train import BytesList, FloatList, Int64List
+from tensorflow.train import Feature, Features, Example
+
+person_example = Example(
+    features=Features(
+        feature={
+            "name": Feature(bytes_list=BytesList(value=[b"Alice"])),
+            "id": Feature(int64_list=Int64List(value=[123])),
+            "emails": Feature(bytes_list=BytesList(value=[b"a@b.com",
+                                                          b"c@d.com"]))
+        })) 
+```
+
+这段代码有点冗长和重复，但很清晰（可以很容易将其包装起来）。现在有了`Example`协议缓存，可以调用`SerializeToString()`方法将其序列化，然后将结果数据存入 TFRecord 文件：
+
+```py
+with tf.io.TFRecordWriter("my_contacts.tfrecord") as f:
+    f.write(person_example.SerializeToString()) 
+```
+
+通常需要写不止一个`Example`！一般来说，你需要写一个转换脚本，读取当前格式（例如 csv），为每个实例创建`Example`协议缓存，序列化并存储到若干 TFRecord 文件中，最好再打散。这些需要花费不少时间，如有必要再这么做（也许 CSV 文件就足够了）。
+
+有了序列化好的`Example`TFRecord 文件之后，就可以加载了。
+
+### 加载和解析 Example
+
+要加载序列化的`Example`协议缓存，需要再次使用`tf.data.TFRecordDataset`，使用`tf.io.parse_single_example()`解析每个`Example`。这是一个 TensorFlow 运算，所以可以包装进 TF 函数。它至少需要两个参数：一个包含序列化数据的字符串标量张量，和每个特征的描述。描述是一个字典，将每个特征名映射到`tf.io.FixedLenFeature`描述符，描述符指明特征的形状、类型和默认值，或（当特征列表长度可能变化时，比如`"email"特征`）映射到`tf.io.VarLenFeature`描述符，它只指向类型。
+
+下面的代码定义了描述字典，然后迭代`TFRecordDataset`，解析序列化的`Example`协议缓存：
+
+```py
+feature_description = {
+    "name": tf.io.FixedLenFeature([], tf.string, default_value=""),
+    "id": tf.io.FixedLenFeature([], tf.int64, default_value=0),
+    "emails": tf.io.VarLenFeature(tf.string),
+}
+
+for serialized_example in tf.data.TFRecordDataset(["my_contacts.tfrecord"]):
+    parsed_example = tf.io.parse_single_example(serialized_example,
+                                                feature_description) 
+```
+
+长度固定的特征会像常规张量那样解析，而长度可变的特征会作为稀疏张量解析。可以使用`tf.sparse.to_dense()`将稀疏张量转变为紧密张量，但只是简化了值的访问：
+
+```py
+>>> tf.sparse.to_dense(parsed_example["emails"], default_value=b"")
+<tf.Tensor: [...] dtype=string, numpy=array([b'a@b.com', b'c@d.com'], [...])>
+>>> parsed_example["emails"].values
+<tf.Tensor: [...] dtype=string, numpy=array([b'a@b.com', b'c@d.com'], [...])> 
+```
+
+`BytesList`可以包含任意二进制数据，序列化对象也成。例如，可以使用`tf.io.encode_jpeg()`将图片编码为 JPEG 格式，然后将二进制数据放入`BytesList`。然后，当代码读取`TFRecord`时，会从解析`Example`开始，再调用`tf.io.decode_jpeg()`解析数据，得到原始图片（或者可以使用`tf.io.decode_image()`，它能解析任意`BMP`、`GIF`、`JPEG`、`PNG`格式）。你还可以通过`tf.io.serialize_tensor()`序列化张量，将结果字节串放入`BytesList`特征，将任意张量存储在`BytesList`中。之后，当解析`TFRecord`时，可以使用`tf.io.parse_tensor()`解析数据。
+
+除了使用`tf.io.parse_single_example()`逐一解析`Example`，你还可以通过`tf.io.parse_example()`逐批次解析：
+
+```py
+dataset = tf.data.TFRecordDataset(["my_contacts.tfrecord"]).batch(10)
+for serialized_examples in dataset:
+    parsed_examples = tf.io.parse_example(serialized_examples,
+                                          feature_description) 
+```
+
+可以看到`Example`协议缓存对大多数情况就足够了。但是，如果处理的是嵌套列表，就会比较麻烦。比如，假设你想分类文本文档。每个文档可能都是句子的列表，而每个句子又是词的列表。每个文档可能还有评论列表，评论又是词的列表。可能还有上下文数据，比如文档的作者、标题和出版日期。TensorFlow 的`SequenceExample`协议缓存就是为了处理这种情况的。
+
+### 使用`SequenceExample`协议缓存处理嵌套列表
+
+下面是`SequenceExample`协议缓存的定义：
+
+```py
+message FeatureList { repeated Feature feature = 1; };
+message FeatureLists { map<string, FeatureList> feature_list = 1; };
+message SequenceExample {
+    Features context = 1;
+    FeatureLists feature_lists = 2;
+}; 
+```
+
+`SequenceExample`包括一个上下文数据的`Features`对象，和一个包括一个或多个命名`FeatureList`对象（比如，一个`FeatureList`命名为`"content"`，另一个命名为`"comments"`）的`FeatureLists`对象。每个`FeatureList`包含`Feature`对象的列表，每个`Feature`对象可能是字节串、64 位整数或浮点数的列表（这个例子中，每个`Feature`表示的是一个句子或一条评论，格式或许是词的列表）。创建`SequenceExample`，将其序列化、解析，和创建、序列化、解析`Example`很像，但必须要使用`tf.io.parse_single_sequence_example()`来解析单个的`SequenceExample`或用`tf.io.parse_sequence_example()`解析一个批次。两个函数都是返回一个包含上下文特征（字典）和特征列表（也是字典）的元组。如果特征列表包含大小可变的序列（就像前面的例子），可以将其转化为嵌套张量，使用`tf.RaggedTensor.from_sparse()`：
+
+```py
+parsed_context, parsed_feature_lists = tf.io.parse_single_sequence_example(
+    serialized_sequence_example, context_feature_descriptions,
+    sequence_feature_descriptions)
+parsed_content = tf.RaggedTensor.from_sparse(parsed_feature_lists["content"]) 
+```
+
+现在你就知道如何高效存储、加载和解析数据了，下一步是准备数据。
+
+## 预处理输入特征
+
+为神经网络准备数据需要将所有特征转变为数值特征，做一些归一化工作等等。特别的，如果数据包括类型特征或文本特征，也需要转变为数字。这些工作可以在准备数据文件的时候做，使用 NumPy、Pandas、Scikit-Learn 这样的工作。或者，可以在用 Data API 加载数据时，实时预处理数据（比如，使用数据集的`map()`方法，就像前面的例子），或者可以给模型加一个预处理层。接下来，来看最后一种方法。
+
+例如，这个例子是使用`Lambda`层实现标准化层。对于每个特征，减去其平均值，再除以标准差（再加上一个平滑项，避免 0 除）：
+
+```py
+means = np.mean(X_train, axis=0, keepdims=True)
+stds = np.std(X_train, axis=0, keepdims=True)
+eps = keras.backend.epsilon()
+model = keras.models.Sequential([
+    keras.layers.Lambda(lambda inputs: (inputs - means) / (stds + eps)),
+    [...] # 其它层
+]) 
+```
+
+并不难。但是，你也许更想要一个独立的自定义层（就像 Scikit-Learn 的`StandardScaler`），而不是像`means`和`stds`这样的全局变量：
+
+```py
+class Standardization(keras.layers.Layer):
+    def adapt(self, data_sample):
+        self.means_ = np.mean(data_sample, axis=0, keepdims=True)
+        self.stds_ = np.std(data_sample, axis=0, keepdims=True)
+    def call(self, inputs):
+        return (inputs - self.means_) / (self.stds_ + keras.backend.epsilon()) 
+```
+
+使用这个标准化层之前，你需要使用`adapt()`方法将其适配到数据集样本。这么做就能使用每个特征的平均值和标准差：
+
+```py
+std_layer = Standardization()
+std_layer.adapt(data_sample) 
+```
+
+这个样本必须足够大，可以代表数据集，但不必是完整的训练集：通常几百个随机实例就够了（但还是要取决于任务）。然后，就可以像普通层一样使用这个预处理层了：
+
+```py
+model = keras.Sequential()
+model.add(std_layer)
+[...] # create the rest of the model
+model.compile([...])
+model.fit([...]) 
+```
+
+可能以后还会有`keras.layers.Normalization`层，和这个自定义`Standardization`层差不多：先创建层，然后对数据集做适配（向`adapt()`方法传递样本），最后像普通层一样使用。
+
+接下来看看类型特征。先将其编码为独热向量。
+
+### 使用独热向量编码类型特征
+
+考虑下第 2 章中的加州房价数据集的`ocean_proximity`特征：这是一个类型特征，有五个值：`"<1H OCEAN"`、`"INLAND"`、`"NEAR OCEAN"`、`"NEAR BAY"`、`"ISLAND"`。输入给神经网络之前，需要对其进行编码。因为类型不多，可以使用独热编码。先将每个类型映射为索引（0 到 4），使用一张查询表：
+
+```py
+vocab = ["<1H OCEAN", "INLAND", "NEAR OCEAN", "NEAR BAY", "ISLAND"]
+indices = tf.range(len(vocab), dtype=tf.int64)
+table_init = tf.lookup.KeyValueTensorInitializer(vocab, indices)
+num_oov_buckets = 2
+table = tf.lookup.StaticVocabularyTable(table_init, num_oov_buckets) 
+```
+
+逐行看下代码：
+
+*   先定义词典：也就是所有类型的列表。
+
+*   然后创建张量，具有索引 0 到 4。
+
+*   接着，创建查找表的初始化器，传入类型列表和对应索引。在这个例子中，因为已经有了数据，所以直接用`KeyValueTensorInitializer`就成了；但如果类型是在文本中（一行一个类型），就要使用`TextFileInitializer`。
+
+*   最后两行创建了查找表，传入初始化器并指明未登录词（oov）桶的数量。如果查找的类型不在词典中，查找表会计算这个类型的哈希，使用哈希分配一个未知的类型给未登录词桶。索引序号接着现有序号，所以这个例子中的两个未登录词的索引是 5 和 6。
+
+为什么使用桶呢？如果类型数足够大（例如，邮编、城市、词、产品、或用户），数据集也足够大，或者数据集持续变化，这样的话，获取类型的完整列表就不容易了。一个解决方法是根据数据样本定义（而不是整个训练集），为其它不在样本中的类型加上一些未登录词桶。训练中碰到的未知类型越多，要使用的未登录词桶就要越多。事实上，如果未登录词桶的数量不够，就会发生碰撞：不同的类型会出现在同一个桶中，所以神经网络就无法区分了。
+
+现在用查找表将小批次的类型特征编码为独热向量：
+
+```py
+>>> categories = tf.constant(["NEAR BAY", "DESERT", "INLAND", "INLAND"])
+>>> cat_indices = table.lookup(categories)
+>>> cat_indices
+<tf.Tensor: id=514, shape=(4,), dtype=int64, numpy=array([3, 5, 1, 1])>
+>>> cat_one_hot = tf.one_hot(cat_indices, depth=len(vocab) + num_oov_buckets)
+>>> cat_one_hot
+<tf.Tensor: id=524, shape=(4, 7), dtype=float32, numpy=
+array([[0., 0., 0., 1., 0., 0., 0.],
+       [0., 0., 0., 0., 0., 1., 0.],
+       [0., 1., 0., 0., 0., 0., 0.],
+       [0., 1., 0., 0., 0., 0., 0.]], dtype=float32)> 
+```
+
+可以看到，`"NEAR BAY"`映射到了索引 3，未知类型`"DESERT"`映射到了两个未登录词桶之一（索引 5），`"INLAND"`映射到了索引 1 两次。然后使用`tf.one_hot()`来做独热编码。注意，需要告诉该函数索引的总数量，索引总数等于词典大小加上未登录词桶的数量。现在你就知道如何用 TensorFlow 将类型特征编码为独热向量了。
+
+和之前一样，将这些操作写成一个独立的类并不难。`adapt()`方法接收一个数据样本，提取其中的所有类型。创建一张查找表，将类型和索引映射起来。`call()`方法会使用查找表将输入类型和索引建立映射。目前，Keras 已经有了一个名为`keras.layers.TextVectorization`的层，它的功能就是上面这样：`adapt()`从样本中提取词表，`call()`将每个类型映射到词表的索引。如果要将索引变为独热向量的话，可以将这个层添加到模型开始的地方，后面根生一个可以用`tf.one_hot()`的`Lambda`层。
+
+这可能不是最佳解决方法。每个独热向量的大小是词表长度加上未登录词桶的大小。当类型不多时，这么做可以，但如果词表很大，最好使用“嵌入“来做。
+
+> 提示：一个重要的原则，如果类型数小于 10，可以使用独热编码。如果类型超过 50 个（使用哈希桶时通常如此），最好使用嵌入。类型数在 10 和 50 之间时，最好对两种方法做个试验，看哪个更合适。
+
+### 使用嵌入编码类型特征
+
+嵌入是一个可训练的表示类型的紧密向量。默认时，嵌入是随机初始化的，`"NEAR BAY"`可能初始化为`[0.131, 0.890]`，`"NEAR OCEAN"`可能初始化为`[0.631, 0.791]`。
+
+这个例子中，使用的是 2D 嵌入，维度是一个可调节的超参数。因为嵌入是可以训练的，它能在训练中提高性能；当嵌入表示相似的类时，梯度下降会使相似的嵌入靠的更近，而`"INLAND"`会偏的更远（见图 13-4）。事实上，表征的越好，越利于神经网络做出准确的预测，而训练会让嵌入更好的表征类型，这被称为表征学习（第 17 章会介绍其它类型的表征学习）。
+
+![](img/fe4033ba5308d2443fab436092a33e41.png)
+
+图 13-4 嵌入的表征会在训练中提高
+
+> 词嵌入
+> 
+> 嵌入不仅可以实现当前任务的表征，同样的嵌入也可以用于其它的任务。最常见的例子是词嵌入（即，单个词的嵌入）：对于自然语言处理任务，最好使用预训练的词嵌入，而不是使用自己训练的。
+> 
+> 使用向量表征词可以追溯到 1960 年代，许多复杂的技术用于生成向量，包括使用神经网络。进步发生在 2013 年，Tomáš Mikolov 和谷歌其它的研究院发表了一篇论文[《Distributed Representations of Words and Phrases and their Compositionality》](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1310.4546)，介绍了一种用神经网络学习词嵌入的技术，效果远超以前的技术。可以实现在大文本语料上学习嵌入：用神经网络预测给定词附近的词，得到了非常好的词嵌入。例如，同义词有非常相近的词嵌入，语义相近的词，比如法国、西班牙和意大利靠的也很近。
+> 
+> 不止是相近：词嵌入在嵌入空间的轴上的分布也是有意义的。下面是一个著名的例子：如果计算`King – Man + Woman`，结果与`Queen`非常相近（见图 13-5）。换句话，词嵌入编码了性别。相似的，可以计算`Madrid – Spain + France`，结果和`Paris`很近。
+> 
+> ![](img/ea880ddede4144bbb1306b3eb213c234.png)
+> 
+> 图 13-5 相似词的词嵌入也相近，一些轴编码了概念
+> 
+> 但是，词嵌入有时偏差很大。例如，尽管词嵌入学习到了男人是国王，女人是王后，词嵌入还学到了男人是医生、女人是护士。这是非常大的性别偏差。
+
+来看下如何手动实现嵌入。首先，需要创建一个包含每个类型嵌入（随机初始化）的嵌入矩阵。每个类型就有一行，每个未登录词桶就有一行，每个嵌入维度就有一列：
+
+```py
+embedding_dim = 2
+embed_init = tf.random.uniform([len(vocab) + num_oov_buckets, embedding_dim])
+embedding_matrix = tf.Variable(embed_init) 
+```
+
+这个例子用的是 2D 嵌入，通常的嵌入是 10 到 300 维，取决于任务和词表大小（需要调节词表大小超参数）。
+
+嵌入矩阵是一个随机的`6 × 2`矩阵，存入一个变量（因此可以在训练中被梯度下降调节）：
+
+```py
+>>> embedding_matrix
+<tf.Variable 'Variable:0' shape=(6, 2) dtype=float32, numpy=
+array([[0.6645621 , 0.44100678],
+       [0.3528825 , 0.46448255],
+       [0.03366041, 0.68467236],
+       [0.74011743, 0.8724445 ],
+       [0.22632635, 0.22319686],
+       [0.3103881 , 0.7223358 ]], dtype=float32)> 
+```
+
+使用嵌入编码之前的类型特征：
+
+```py
+>>> categories = tf.constant(["NEAR BAY", "DESERT", "INLAND", "INLAND"])
+>>> cat_indices = table.lookup(categories)
+>>> cat_indices
+<tf.Tensor: id=741, shape=(4,), dtype=int64, numpy=array([3, 5, 1, 1])>
+>>> tf.nn.embedding_lookup(embedding_matrix, cat_indices)
+<tf.Tensor: id=864, shape=(4, 2), dtype=float32, numpy=
+array([[0.74011743, 0.8724445 ],
+       [0.3103881 , 0.7223358 ],
+       [0.3528825 , 0.46448255],
+       [0.3528825 , 0.46448255]], dtype=float32)> 
+```
+
+`tf.nn.embedding_lookup()`函数根据给定的索引在嵌入矩阵中查找行。例如，查找表说`"INLAND"`类型位于索引 1，`tf.nn.embedding_lookup()`就返回嵌入矩阵的行 1：`[0.3528825, 0.46448255]`。
+
+Keras 提供了`keras.layers.Embedding`层来处理嵌入矩阵（默认可训练）；当这个层初始化时，会随机初始化嵌入矩阵，当被调用时，就返回索引所在的嵌入矩阵的那行：
+
+```py
+>>> embedding = keras.layers.Embedding(input_dim=len(vocab) + num_oov_buckets,
+...                                    output_dim=embedding_dim)
+...
+>>> embedding(cat_indices)
+<tf.Tensor: id=814, shape=(4, 2), dtype=float32, numpy=
+array([[ 0.02401174,  0.03724445],
+       [-0.01896119,  0.02223358],
+       [-0.01471175, -0.00355174],
+       [-0.01471175, -0.00355174]], dtype=float32)> 
+```
+
+将这些内容放到一起，创建一个 Keras 模型，可以处理类型特征（和数值特征），学习每个类型（和未登录词）的嵌入：
+
+```py
+regular_inputs = keras.layers.Input(shape=[8])
+categories = keras.layers.Input(shape=[], dtype=tf.string)
+cat_indices = keras.layers.Lambda(lambda cats: table.lookup(cats))(categories)
+cat_embed = keras.layers.Embedding(input_dim=6, output_dim=2)(cat_indices)
+encoded_inputs = keras.layers.concatenate([regular_inputs, cat_embed])
+outputs = keras.layers.Dense(1)(encoded_inputs)
+model = keras.models.Model(inputs=[regular_inputs, categories],
+                           outputs=[outputs]) 
+```
+
+这个模型有两个输入：一个常规输入，每个实例包括 8 个数值特征，机上一个类型特征。使用`Lambda`层查找每个类型的索引，然后用索引查找嵌入。接着，将嵌入和常规输入连起来，作为编码输入进神经网络。此时可以加入任意种类的神经网络，但只是添加了一个紧密输出层。
+
+当`keras.layers.TextVectorization`准备好之后，可以调用它的`adapt()`方法，从数据样本提取词表（会自动创建查找表）。然后加入到模型中，就可以执行索引查找了（替换前面代码的`Lambda`层）。
+
+> 笔记：独热编码加紧密层（没有激活函数和偏差项），等价于嵌入层。但是，嵌入层用的计算更少（嵌入矩阵越大，性能差距越明显）。紧密层的权重矩阵扮演的是嵌入矩阵的角色。例如，大小为 20 的独热向量和 10 个单元的紧密层加起来，等价于`input_dim=20`、`output_dim=10`的嵌入层。作为结果，嵌入的维度超过后面的层的神经元数是浪费的。
+
+再进一步看看 Keras 的预处理层。
+
+### Keras 预处理层
+
+Keras 团队打算提供一套标准的 Keras 预处理层，现在已经可用了，[链接](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fkeras-team%2Fgovernance%2Fblob%2Fmaster%2Frfcs%2F20190502-preprocessing-layers.md)。新的 API 可能会覆盖旧的 Feature Columns API。
+
+我们已经讨论了其中的两个：`keras.layers.Normalization`用来做特征标准化，`TextVectorization`层用于将文本中的词编码为词典的索引。对于这两个层，都是用数据样本调用它的`adapt()`方法，然后如常使用。其它的预处理层也是这么使用的。
+
+API 中还提供了`keras.layers.Discretization`层，它能将连续数据切成不同的组，将每个组斌吗为独热向量。例如，可以用它将价格分成是三类，低、中、高，编码为`[1, 0, 0]`、`[0, 1, 0]`、`[0, 0, 1]`。当然，这么做会损失很多信息，但有时，相对于连续数据，这么做可以发现不那么明显的规律。
+
+> 警告：`Discretization`层是不可微的，只能在模型一开始使用。事实上，模型的预处理层会在训练时冻结，因此预处理层的参数不会被梯度下降影响，所以可以是不可微的。这还意味着，如果想让预处理层可训练的话，不能在自定义预处理层上直接使用嵌入层，而是应该像前民的例子那样分开来做。
+
+还可以用类`PreprocessingStage`将多个预处理层链接起来。例如，下面的代码创建了一个预处理管道，先将输入归一化，然后离散（有点类似 Scikit-Learn 的管道）。当将这个管道应用到数据样本时，可以作为常规层使用（还得是在模型的前部，因为包含不可微分的预处理层）：
+
+```py
+normalization = keras.layers.Normalization()
+discretization = keras.layers.Discretization([...])
+pipeline = keras.layers.PreprocessingStage([normalization, discretization])
+pipeline.adapt(data_sample) 
+```
+
+`TextVectorization`层也有一个选项用于输出词频向量，而不是词索引。例如，如果词典包括三个词，比如`["and", "basketball", "more"]`，则`"more and more"`会映射为`[1, 0, 2]`：`"and"`出现了一次，`"basketball"`没有出现，`"more"`出现了两次。这种词表征称为词袋，因为它完全失去了词的顺序。常见词，比如`"and"`，会在文本中有更高的值，尽管没什么实际意义。因此，词频向量中应该降低常见词的影响。一个常见的方法是将词频除以出现该词的文档数的对数。这种方法称为词频-逆文档频率（TF-IDF）。例如，假设`"and"`、`"basketball"`、`"more"`分别出现在了 200、10、100 个文档中：最终的向量应该是`[1/log(200), 0/log(10), 2/log(100)]`，大约是`[0.19, 0., 0.43]`。`TextVectorization`层会有 TF-IDF 的选项。
+
+> 笔记：如果标准预处理层不能满足你的任务，你还可以选择创建自定义预处理层，就像前面的`Standardization`。创建一个`keras.layers.PreprocessingLayer`子类，`adapt()`方法用于接收一个`data_sample`参数，或者再有一个`reset_state`参数：如果是`True`，则`adapt()`方法在计算新状态之前重置现有的状态；如果是`False`，会更新现有的状态。
+
+可以看到，这些 Keras 预处理层可以使预处理更容易！现在，无论是自定义预处理层，还是使用 Keras 的，预处理都可以实时进行了。但在训练中，最好再提前进行预处理。下面来看看为什么，以及怎么做。
+
+## TF Transform
+
+预处理非常消耗算力，训练前做预处理相对于实时处理，可以极大的提高速度：数据在训练前，每个实例就处理一次，而不是在训练中每个实例在每个周期就处理一次。前面提到过，如果数据集小到可以存入内存，可以使用`cache()`方法。但如果太大，可以使用 Apache Beam 或 Spark。它们可以在大数据上做高效的数据预处理，还可以分布进行，使用它们就能在训练前处理所有训练数据了。
+
+虽然训练加速了，但带来一个问题：一旦模型训练好了，假如想部署到移动 app 上，还是需要写一些预处理数据的代码。假如想部署到 TensorFlow.js，还是需要预处理代码。这是一个维护难题：无论何时想改变预处理逻辑，都需要更新 Apache Beam 的代码、移动端代码、JavaScript 代码。不仅耗时，也容易出错：不同端的可能有细微的差别。训练/实际产品表现之间的偏差会导致 bug 或使效果大打折扣。
+
+一种解决办法是在部署到 app 或浏览器之前，给训练好的模型加上额外的预处理层，来做实时的预处理。这样好多了，只有两套代码 Apache Beam 或 Spark 代码，和预处理层代码。
+
+如果只需定义一次预处理操作呢？这就是 TF Transform 要做的。TF Transform 是 [TensorFlow Extended (TFX)](https://links.jianshu.com/go?to=https%3A%2F%2Ftensorflow.org%2Ftfx) 的一部分，这是一个端到端的 TensorFlow 模型生产化平台。首先，需要安装（TensorFlow 没有捆绑）。然后通过 TF Transform 函数来做缩放、分桶等操作，一次性定义预处理函数。你还可以使用任意需要的 TensorFlow 运算。如果只有两个特征，预处理函数可能如下：
+
+```py
+import tensorflow_transform as tft
+
+def preprocess(inputs):  # inputs = 输入特征批次
+    median_age = inputs["housing_median_age"]
+    ocean_proximity = inputs["ocean_proximity"]
+    standardized_age = tft.scale_to_z_score(median_age)
+    ocean_proximity_id = tft.compute_and_apply_vocabulary(ocean_proximity)
+    return {
+        "standardized_median_age": standardized_age,
+        "ocean_proximity_id": ocean_proximity_id
+    } 
+```
+
+然后，TF Transform 可以使用 Apache Beam（可以使用其`AnalyzeAndTransformDataset`类）在整个训练集上应用这个`preprocess()`函数。在使用过程中，还会计算整个训练集上的必要统计数据：这个例子中，是`housing_median_age`和`the ocean_proximity`的平均值和标准差。计算这些数据的组件称为分析器。
+
+更重要的，TF Transform 还会生成一个等价的 TensorFlow 函数，可以放入部署的模型中。这个 TF 函数包括一些常量，对应于 Apache Beam 的统计值（平均值、标准差和词典）。
+
+有了 Data API、TFRecord，Keras 预处理层和 TF Transform，可以为训练搭建高度伸缩的输入管道，可以是生产又快，迁移性又好。
+
+但是，如果只想使用标准数据集呢？只要使用 TFDS 就成了。
+
+## TensorFlow Datasets（TFDS）项目
+
+从 [TensorFlow Datasets](https://links.jianshu.com/go?to=https%3A%2F%2Ftensorflow.org%2Fdatasets) 项目，可以非常方便的下载一些常见的数据集，从小数据集，比如 MNIST 或 Fashion MNIST，到大数据集，比如 ImageNet（需要大硬盘）。包括了图片数据集、文本数据集（包括翻译数据集）、和音频视频数据集。可以访问[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fwww.tensorflow.org%2Fdatasets%2Fdatasets)，查看完整列表，每个数据集都有介绍。
+
+TensorFlow 没有捆绑 TFDS，所以需要使用 PIP 安装库`tensorflow-datasets`。然后调用函数`tfds.load()`，就能下载数据集了（除非之前下载过），返回的数据是数据集的字典（通常是一个是训练集，一个是测试集）。例如，下载 MNIST：
+
+```py
+import tensorflow_datasets as tfds
+
+dataset = tfds.load(name="mnist")
+mnist_train, mnist_test = dataset["train"], dataset["test"] 
+```
+
+然后可以对其应用任意转换（打散、批次、预提取），然后就可以训练模型了。下面是一个简单的例子：
+
+```py
+mnist_train = mnist_train.shuffle(10000).batch(32).prefetch(1)
+for item in mnist_train:
+    images = item["image"]
+    labels = item["label"]
+    [...] 
+```
+
+> 提示：`load()`函数打散了每个下载的数据分片（只是对于训练集）。但还不够，最好再自己做打散。
+
+注意，数据集中的每一项都是一个字典，包含特征和标签。但 Keras 期望每项都是一个包含两个元素（特征和标签）的元组。可以使用`map()`对数据集做转换，如下：
+
+```py
+mnist_train = mnist_train.shuffle(10000).batch(32)
+mnist_train = mnist_train.map(lambda items: (items["image"], items["label"]))
+mnist_train = mnist_train.prefetch(1) 
+```
+
+更简单的方式是让`load()`函数来做这个工作，只要设定`as_supervised=True`（显然这只适用于有标签的数据集）。你还可以将数据集直接传给`tf.keras`模型：
+
+```py
+dataset = tfds.load(name="mnist", batch_size=32, as_supervised=True)
+mnist_train = dataset["train"].prefetch(1)
+model = keras.models.Sequential([...])
+model.compile(loss="sparse_categorical_crossentropy", optimizer="sgd")
+model.fit(mnist_train, epochs=5) 
+```
+
+这一章很技术，你可能觉得没有神经网络的抽象美，但事实是深度学习经常要涉及大数据集，知道如果高效加载、解析和预处理，是一个非常重要的技能。下一章会学习卷积神经网络，它是一种用于图像处理和其它应用的、非常成功的神经网络。
+
+## 练习
+
+1.  为什么要使用 Data API ？
+
+2.  将大数据分成多个文件有什么好处？
+
+3.  训练中，如何断定输入管道是瓶颈？如何处理瓶颈？
+
+4.  可以将任何二进制数据存入 TFRecord 文件吗，还是只能存序列化的协议缓存？
+
+5.  为什么要将数据转换为示例协议缓存？为什么不使用自己的协议缓存？
+
+6.  使用 TFRecord 时，什么时候要压缩？为什么不系统化的做？
+
+7.  数据预处理可以在写入数据文件时，或在`tf.data`管道中，或在预处理层中，或使用 TF Transform。这几种方法各有什么优缺点？
+
+8.  说出几种常见的编码类型特征的方法。文本如何编码？
+
+9.加载 Fashion MNIST 数据集；将其分成训练集、验证集和测试集；打散训练集；将每个数据及村委多个 TFRecord 文件。每条记录应该是有两个特征的序列化的示例协议缓存：序列化的图片（使用`tf.io.serialize_tensor()`序列化每张图片），和标签。然后使用`tf.data`为每个集合创建一个高效数据集。最后，使用 Keras 模型训练这些数据集，用预处理层标准化每个特征。让输入管道越高效越好，使用 TensorBoard 可视化地分析数据。
+
+10.  在这道题中，你要下载一个数据集，分割它，创建一个`tf.data.Dataset`，用于高效加载和预处理，然后搭建一个包含嵌入层的二分类模型：
+
+a. 下载 [Large Movie Review Dataset](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fimdb)，它包含 50000 条 IMDB 的影评。数据分为两个目录，`train`和`test`，每个包含 12500 条正面评价和 12500 条负面评价。每条评价都存在独立的文本文件中。还有其他文件和文件夹（包括预处理的词袋），但这个练习中用不到。
+
+b. 将测试集分给成验证集（15000）和测试集（10000）。
+
+c. 使用`tf.data`，为每个集合创建高效数据集。
+
+d. 创建一个二分类模型，使用`TextVectorization`层来预处理每条影评。如果`TextVectorization`层用不了（或者你想挑战下），则创建自定义的预处理层：使用`tf.strings`包中的函数，比如`lower()`来做小写，`regex_replace()`来替换带有空格的标点，`split()`来分割词。用查找表输出词索引，`adapt()`方法中要准备好。
+
+e. 加入嵌入层，计算每条评论的平均嵌入，乘以词数的平方根。这个缩放过的平均嵌入可以传入剩余的模型中。
+
+f. 训练模型，看看准确率能达到多少。尝试优化管道，让训练越快越好。
+
+g. 使用 TFDS 加载同样的数据集：`tfds.load("imdb_reviews")`。
+
+参考答案见附录 A。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/14.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/14.md
new file mode 100644
index 00000000..22629502
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/14.md
@@ -0,0 +1,852 @@
+# 十四、使用卷积神经网络实现深度计算机视觉
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+
+
+尽管 IBM 的深蓝超级计算机在 1996 年击败了国际象棋世界冠军加里·卡斯帕罗夫，但直到最近计算机才能从图片中认出小狗，或是识别出说话时的单词。为什么这些任务对人类反而毫不费力呢？原因在于，感知过程不属于人的自我意识，而是属于专业的视觉、听觉和其它大脑感官模块。当感官信息抵达意识时，信息已经具有高级特征了：例如，当你看一张小狗的图片时，不能选择不可能，也不能回避的小狗的可爱。你解释不了你是如何识别出来的：小狗就是在图片中。因此，我们不能相信主观经验：感知并不简单，要明白其中的原理，必须探究感官模块。
+
+卷积神经网络（CNN）起源于人们对大脑视神经的研究，自从 1980 年代，CNN 就被用于图像识别了。最近几年，得益于算力提高、训练数据大增，以及第 11 章中介绍过的训练深度网络的技巧，CNN 在一些非常复杂的视觉任务上取得了超出人类表现的进步。CNN 支撑了图片搜索、无人驾驶汽车、自动视频分类，等等。另外，CNN 也不再限于视觉，比如：语音识别和自然语言处理，但这一章只介绍视觉应用。
+
+本章会介绍 CNN 的起源，CNN 的基本组件以及 TensorFlow 和 Keras 实现方法。然后会讨论一些优秀的 CNN 架构，和一些其它的视觉任务，比如目标识别（分类图片中的多个物体，然后画框）、语义分割（按照目标，对每个像素做分类）。
+
+## 视神经结构
+
+David H. Hubel 和 Torsten Wiesel 在 1958 年和 1959 年在猫的身上做了一系列研究，对视神经中枢做了研究（并在 1981 年荣获了诺贝尔生理学或医学奖）。特别的，他们指出视神经中的许多神经元都有一个局部感受野（local receptive field），也就是说，这些神经元只对有限视觉区域的刺激作反应（见图 14-1，五个神经元的局部感受野由虚线表示）。不同神经元的感受野或许是重合的，拼在一起就形成了完整的视觉区域。
+
+另外，David H. Hubel 和 Torsten Wiesel 指出，有些神经元只对横线有反应，而其它神经元可能对其它方向的线有反应（两个神经元可能有同样的感受野，但是只能对不同防线的线有反应）。他们还注意到，一些神经元有更大的感受野，可以处理更复杂的图案，复杂图案是由低级图案构成的。这些发现启发人们，高级神经元是基于周边附近低级神经元的输出（图 14-1 中，每个神经元只是连着前一层的几个神经元）。这样的架构可以监测出视觉区域中各种复杂的图案。
+
+![](img/0ca805e327443798ec2a8e2155ef9df7.png)
+
+图 14-1 视神经中生物神经元可以对感受野中的图案作反应；当视神经信号上升时，神经元可以反应出更大感受野中的更为复杂的图案
+
+对视神经的研究在 1980 年启发了[神经认知学](https://links.jianshu.com/go?to=https%3A%2F%2Fwww.cs.princeton.edu%2Fcourses%2Farchive%2Fspr08%2Fcos598B%2FReadings%2FFukushima1980.pdf)，后者逐渐演变成了今天的卷积神经网络。Yann LeCun 等人再 1998 年发表了一篇里程碑式的论文，提出了著名的 LeNet-5 架构，被银行广泛用来识别手写支票的数字。这个架构中的一些组件，我们已经学过了，比如全连接层、sigmod 激活函数，但 CNN 还引入了两个新组件：卷积层和池化层。
+
+> 笔记：为什么不使用全连接层的深度神经网络来做图像识别呢？这是因为，尽管这种方案在小图片（比如 MNIST）任务上表现不错，但由于参数过多，在大图片任务上表现不佳。举个例子，一张`100 × 100·像素的图片总共有 10000 个像素点，如果第一层有 1000 个神经元（如此少的神经元，已经限制信息的传输量了），那么就会有 1000 万个连接。这仅仅是第一层的情况。CNN 是通过部分连接层和权重共享解决这个问题的。
+
+## 卷积层
+
+卷积层是 CNN 最重要的组成部分：第一个卷积层的神经元，不是与图片中的每个像素点都连接，而是只连着局部感受野的像素（见图 14-2）。同理，第二个卷积层中的每个神经元也只是连着第一层中一个小方形内的神经元。这种架构可以让第一个隐藏层聚焦于小的低级特征，然后在下一层组成大而高级的特征，等等。这种层级式的结构在真实世界的图片很常见，这是 CNN 能在图片识别上取得如此成功的原因之一。
+
+![](img/742bbcc20165cd543798934f27e16a25.png)
+
+图 14-2 有方形局部感受野的 CNN 层
+
+> 笔记：我们目前所学过的所有多层神经网络的层，都是由一长串神经元组成的，所以在将图片输入给神经网络之前，必须将图片打平成 1D 的。在 CNN 中，每个层都是 2D 的，更容易将神经元和输入做匹配。
+
+位于给定层第`i`行、第`j`列的神经元，和前一层的第`i`行到第`i + fh – 1`行、第`j`列到第`j + fw – 1`列的输出相连，`f[h]`和`f[w]`是感受野的高度和宽度（见图 14-3）。为了让卷积层能和前一层有相同的高度和宽度，通常给输入加上 0，见图，这被称为零填充（zero padding）。
+
+![](img/82618679ef99649bba8f9407ce01dce0.png)
+
+图 14-3 卷积层和零填充的连接
+
+也可以通过间隔感受野，将大输入层和小卷积层连接起来，见图 14-4。这么做可以极大降低模型的计算复杂度。一个感受野到下一个感受野的便宜距离称为步长。在图中，`5 × 7`的输入层（加上零填充），连接着一个`3 × 4`的层，使用`3 × 3`的感受野，步长是 2（这个例子中，宽和高的步长都是 2，但也可以不同）。位于上层第`i`行、第`j`列的神经元，连接着前一层的第`i × sh`到`i × sh + fh – 1`行、第`j × sw`到`j × sw + fw – 1`列的神经元的输出，`s[h]`和`s[w]`分别是垂直和水平步长。
+
+![](img/058f0c3ad21d6f25e14dadfb26373faf.png)
+
+图 14-2 使用大小为 2 的步长降维
+
+### 过滤器
+
+神经元的权重可以表示为感受野大小的图片。例如，图 14-5 展示了两套可能的权重（称为权重，或卷积核）。第一个是黑色的方形，中央有垂直白线（`7 × 7`的矩阵，除了中间的竖线都是 1，其它地方是 0）；使用这个矩阵，神经元只能注意到中间的垂直线（因为其它地方都乘以 0 了）。第二个过滤器也是黑色的方形，但是中间是水平的白线。使用这个权重的神经元只会注意中间的白色水平线。
+
+如果卷积层的所有神经元使用同样的垂直过滤器（和同样的偏置项），给神经网络输入图 14-5 中最底下的图片，卷积层输出的是左上的图片。可以看到，图中垂直的白线得到了加强，其余部分变模糊了。相似的，右上的图是所有神经元都是用水平线过滤器的结果，水平的白线加强了，其余模糊了。因此，一层的全部神经元都用一个过滤器，就能输出一个特征映射（feature map），特征映射可以高亮图片中最为激活过滤器的区域。当然，不用手动定义过滤器：卷积层在训练中可以自动学习对任务最有用的过滤器，上面的层则可以将简单图案组合为复杂图案。
+
+![](img/9e4747d2c0ff968eaa1b365b686a336b.png)
+
+图 14-5 应用两个不同的过滤器，得到两张不同的特征映射
+
+### 堆叠多个特征映射
+
+简单起见，前面都是将每个卷积层的输出用 2D 层来表示的，但真实的卷积层可能有多个过滤器（过滤器数量由你确定），每个过滤器会输出一个特征映射，所以表示成 3D 更准确（见图 14-6）。每个特征映射的每个像素有一个神经元，同一特征映射中的所有神经元有同样的参数（即，同样的权重和偏置项）。不同特征映射的神经元的参数不同。神经元的感受野和之前描述的相同，但扩展到了前面所有的特征映射。总而言之，一个卷积层同时对输入数据应用多个可训练过滤器，使其可以检测出输入的任何地方的多个特征。
+
+> 笔记：同一特征映射中的所有神经元共享一套参数，极大地减少了模型的参数量。当 CNN 认识了一个位置的图案，就可以在任何其它位置识别出来。相反的，当常规 DNN 学会一个图案，只能在特定位置识别出来。
+
+输入图像也是有多个子层构成的：每个颜色通道，一个子层。通常是三个：红，绿，蓝（RGB）。灰度图只有一个通道，但有些图可能有多个通道 —— 例如，卫星图片可以捕捉到更多的光谱频率（比如红外线）。
+
+![](img/e3e8c55fa98dd5af8dbe24fcd08d7dca.png)
+
+图 14-6 有多个特征映射的卷积层，有三个颜色通道的图像
+
+特别的，位于卷积层`l`的特征映射`k`的第`i`行、第`j`列的神经元，它连接的是前一层`l-1`的`i × sh`到`i × sh + fh – 1`行、`j × sw`到`j × sw + fw – 1`列的所有特征映射。不同特征映射中，位于相同`i`行、`j`列的神经元，连接着前一层相同的神经元。
+
+等式 14-1 用一个大等式总结了前面的知识：如何计算卷积层中给定神经元的输出。因为索引过多，这个等式不太好看，它所做的其实就是计算所有输入的加权和，再加上偏置项。
+
+![](img/4563bad38f502e5afb7561da8c7917a5.png)
+
+公式 14-1 计算卷积层中给定神经元的输出
+
+在这个等式中：
+
+*   `z[i, j, k]`是卷积层`l`中第`i`行、第`j`列、特征映射`k`的输出。
+
+*   `s[h]`和`s[w]`是垂直和水平步长，`f[h]`和`f[w]`是感受野的高和宽，`f[n']`是前一层`l-1`的特征映射数。
+
+*   `x[i', j', k']`是卷积层`l-1`中第`i'`行、第`j'`列、特征映射`k'`的输出（如果前一层是输入层，则为通道`k'`）。
+
+*   `b[k]`是特征映射`k`的偏置项。可以将其想象成一个旋钮，可以调节特征映射 k 的明亮度。
+
+*   `w[u, v, k′ ,k]`是层`l`的特征映射`k`的任意神经元，和位于行`u`、列`v`（相对于神经元的感受野）、特征映射`k'`的输入，两者之间的连接权重。
+
+### TensorFlow 实现
+
+在 TensorFlow 中，每张输入图片通常都是用形状为`[高度，宽度，通道]`的 3D 张量表示的。一个小批次则为 4D 张量，形状是`[批次大小，高度，宽度，通道]`。卷积层的权重是 4D 张量，形状是`[f[h], f[w], f[n'], f[n]]`。卷积层的偏置项是 1D 张量，形状是`[f[n]]`。
+
+看一个简单的例子。下面的代码使用 Scikit-Learn 的`load_sample_image()`加载了两张图片，一张是中国的寺庙，另一张是花，创建了两个过滤器，应用到了两张图片上，最后展示了一张特征映射：
+
+```py
+from sklearn.datasets import load_sample_image
+
+# 加载样本图片
+china = load_sample_image("china.jpg") / 255
+flower = load_sample_image("flower.jpg") / 255
+images = np.array([china, flower])
+batch_size, height, width, channels = images.shape
+
+# 创建两个过滤器
+filters = np.zeros(shape=(7, 7, channels, 2), dtype=np.float32)
+filters[:, 3, :, 0] = 1  # 垂直线
+filters[3, :, :, 1] = 1  # 水平线
+
+outputs = tf.nn.conv2d(images, filters, strides=1, padding="same")
+
+plt.imshow(outputs[0, :, :, 1], cmap="gray") # 画出第 1 张图的第 2 个特征映射
+plt.show() 
+```
+
+逐行看下代码：
+
+*   每个颜色通道的像素强度是用 0 到 255 来表示的，所以直接除以 255，将其缩放到区间 0 到 1 内。
+
+*   然后创建了两个`7 × 7`的过滤器（一个有垂直正中白线，另一个有水平正中白线）。
+
+*   使用`tf.nn.conv2d()`函数，将过滤器应用到两张图片上。这个例子中使用了零填充（`padding="same"`），步长是 1。
+
+*   最后，画出一个特征映射（相似与图 14-5 中的右上图）。
+
+`tf.nn.conv2d()`函数这一行，再多说说：
+
+*   `images`是一个输入的小批次（4D 张量）。
+
+*   `filters`是过滤器的集合（也是 4D 张量）。
+
+*   `strides`等于 1，也可以是包含 4 个元素的 1D 数组，中间的两个元素是垂直和水平步长（`s[h]`和`s[w]`），第一个和最后一个元素现在必须是 1。以后可以用来指定批次步长（跳过实例）和通道步长（跳过前一层的特征映射或通道）。
+
+*   `padding`必须是`"same"`或`"valid"`：
+
+*   如果设为`"same"`，卷积层会使用零填充。输出的大小是输入神经元的数量除以步长，再取整。例如：如果输入大小是 13，步长是 5（见图 14-7），则输出大小是 3（`13 / 5 = 2.6`，再向上圆整为 3），零填充尽量在输入上平均添加。当`strides=1`时，层的输出会和输入有相同的空间维度（宽和高），这就是`same`的来历。
+
+*   如果设为`"valid"`，卷积层就不使用零填充，取决于步长，可能会忽略图片的输入图片的底部或右侧的行和列，见图 14-7（简单举例，只是显示了水平维度）。这意味着每个神经元的感受野位于严格确定的图片中的位置（不会越界），这就是`valid`的来历。
+
+![](img/176addd6633ed6e883b3c6dc1a8d1569.png)
+
+图 14-7 `Padding="same"`或`"valid"`（输入宽度 13，过滤器宽度 6，步长 5）
+
+这个例子中，我们手动定义了过滤器，但在真正的 CNN 中，一般将过滤器定义为可以训练的变量，好让神经网络学习哪个过滤器的效果最好。使用`keras.layers.Conv2D`层：
+
+```py
+conv = keras.layers.Conv2D(filters=32, kernel_size=3, strides=1,
+                           padding="same", activation="relu") 
+```
+
+这段代码创建了一个有 32 个过滤器的`Conv2D`层，每个过滤器的形状是`3 × 3`，步长为 1（水平垂直都是 1），和`"same"`填充，输出使用 ReLU 激活函数。可以看到，卷积层的超参数不多：选择过滤器的数量，过滤器的高和宽，步长和填充类型。和以前一样，可以使用交叉验证来找到合适的超参数值，但很耗时间。后面会讨论常见的 CNN 架构，可以告诉你如何挑选超参数的值。
+
+### 内存需求
+
+CNN 的另一个问题是卷积层需要很高的内存。特别是在训练时，因为反向传播需要所有前向传播的中间值。
+
+比如，一个有`5 × 5`个过滤器的卷积层，输出 200 个特征映射，大小为`150 × 100`，步长为 1，零填充。如果如数是`150 × 100`的 RGB 图片（三通道），则参数总数是`(5 × 5 × 3 + 1) × 200 = 15200`，加 1 是考虑偏置项。相对于全连接层，参数少很多了。但是 200 个特征映射，每个都包含`150 × 100`个神经元，每个神经元都需要计算`5 × 5 × 3 = 75`个输入的权重和：总共是 2.25 亿个浮点数乘法运算。虽然比全连接层少点，但也很耗费算力。另外，如果特征映射用的是 32 位浮点数，则卷积层输出要占用`200 × 150 × 100 × 32 = 96`百万比特（12MB）的内存。这仅仅是一个实例，如果训练批次有 100 个实例，则要使用 1.2 GB 的内存。
+
+在做推断时（即，对新实例做预测），下一层计算完，前一层占用的内存就可以释放掉内存，所以只需要两个连续层的内存就够了。但在训练时，前向传播期间的所有结果都要保存下来以为反向传播使用，所以消耗的内存是所有层的内存占用总和。
+
+> 提示：如果因为内存不够发生训练终端，可以降低批次大小。另外，可以使用步长降低纬度，或去掉几层。或者，你可以使用 16 位浮点数，而不是 32 位浮点数。或者，可以将 CNN 分布在多台设备上。
+
+接下来，看看 CNN 的第二个组成部分：池化层。
+
+## 池化层
+
+明白卷积层的原理了，池化层就容易多了。池化层的目的是对输入图片做降采样（即，收缩），以降低计算负载、内存消耗和参数的数量（降低过拟合）。
+
+和卷积层一样，池化层中的每个神经元也是之和前一层的感受野里的有限个神经元相连。和前面一样，必须定义感受野的大小、步长和填充类型。但是，池化神经元没有权重，它所要做的是使用聚合函数，比如最大或平均，对输入做聚合。图 14-8 展示了最为常用的最大池化层。在这个例子中，使用了一个`2 × 2`的池化核，步长为 2，没有填充。只有感受野中的最大值才能进入下一层，其它的就丢弃了。例如，在图 14-8 左下角的感受野中，输入值是 1、5、3、2，所以只有最大值 5 进入了下一层。因为步长是 2，输出图的高度和宽度是输入图的一半（因为没有用填充，向下圆整）。
+
+![](img/11350c8af71a04bfece796ad9c622220.png)
+
+图 14-8 最大池化层（`2 × 2`的池化核，步长为 2，没有填充）
+
+> 笔记：池化层通常独立工作在每个通道上，所以输出深度和输入深度相同。
+
+除了可以减少计算、内存消耗、参数数量，最大池化层还可以带来对小偏移的不变性，见图 14-9。假设亮像素比暗像素的值小，用`2 × 2`核、步长为 2 的最大池化层处理三张图（A、B、C）。图 B 和 C 的图案与 A 相同，只是分别向右移动了一个和两个像素。可以看到，A、B 经过池化层处理后的结果相同，这就是所谓的平移不变性。对于图片 C，输出有所不同：向右偏移了一个像素（但仍然有 50% 没变）。在 CNN 中每隔几层就插入一个最大池化层，可以带来更大程度的平移不变性。另外，最大池化层还能带来一定程度的旋转不变性和缩放不变性。当预测不需要考虑平移、旋转和缩放时，比如分类任务，不变性可以有一定益处。
+
+![](img/5979b04b6b1410e6023c452c38561cdb.png)
+
+图 14-9 小平移不变性
+
+但是，最大池化层也有缺点。首先，池化层破坏了信息：即使感受野的核是`2 × 2`，步长是 2，输出在两个方向上都损失了一半，总共损失了 75% 的信息。对于某些任务，不变性不可取。比如语义分割（将像素按照对象分类）：如果输入图片向右平移了一个像素，输出也应该向右平移一个降速。此时强调的就是等价：输入发生小变化，则输出也要有对应的小变化。
+
+### TensorFlow 实现
+
+用 TensorFlow 实现最大池化层很简单。下面的代码实现了最大池化层，核是`2 × 2`。步长默认等于核的大小，所以步长是 2（水平和垂直步长都是 2）。默认使用`"valid"`填充：
+
+```py
+max_pool = keras.layers.MaxPool2D(pool_size=2) 
+```
+
+要创建平均池化层，则使用`AvgPool2D`。平均池化层和最大池化层很相似，但计算的是感受野的平均值。平均池化层在过去很流行，但最近人们使用最大池化层更多，因为最大池化层的效果更好。初看很奇怪，因为计算平均值比最大值损失的信息要少。但是从反面看，最大值保留了最强特征，去除了无意义的特征，可以让下一层获得更清楚的信息。另外，最大池化层提供了更强的平移不变性，所需计算也更少。
+
+池化层还可以沿着深度方向做计算。这可以让 CNN 学习到不同特征的不变性。比如。CNN 可以学习多个过滤器，每个过滤器检测一个相同的图案的不同旋转（比如手写字，见图 14-10），深度池化层可以使输出相同。CNN 还能学习其它的不变性：厚度、明亮度、扭曲、颜色，等等。
+
+![](img/b36a6bb4d3a0783b1bc2bdcfe475e592.png)
+
+图 14-10 深度最大池化层可以让 CNN 学习到多种不变性
+
+Keras 没有深度方向最大池化层，但 TensorFlow 的低级 API 有：使用`tf.nn.max_pool()`，指定核的大小、步长（4 元素的元组）：元组的前三个值应该是 1，表明沿批次、高度、宽度的步长是 1；最后一个值，是深度方向的步长 —— 比如 3（深度步长必须可以整除输入深度；如果前一个层有 20 个特征映射，步长 3 就不成）：
+
+```py
+output = tf.nn.max_pool(images,
+                        ksize=(1, 1, 1, 3),
+                        strides=(1, 1, 1, 3),
+                        padding="valid") 
+```
+
+如果想将这个层添加到 Keras 模型中，可以将其包装进`Lambda`层（或创建一个自定义 Keras 层）：
+
+```py
+depth_pool = keras.layers.Lambda(
+    lambda X: tf.nn.max_pool(X, ksize=(1, 1, 1, 3), strides=(1, 1, 1, 3),
+                             padding="valid")) 
+```
+
+最后一中常见的池化层是全局平均池化层。它的原理非常不同：它计算整个特征映射的平均值（就像是平均池化层的核的大小和输入的空间维度一样）。这意味着，全局平均池化层对于每个实例的每个特征映射，只输出一个值。虽然这么做对信息的破坏性很大，却可以用来做输出层，后面会看到例子。创建全局平均池化层的方法如下：
+
+```py
+global_avg_pool = keras.layers.GlobalAvgPool2D() 
+```
+
+它等同于下面的`Lambda`层：
+
+```py
+global_avg_pool = keras.layers.Lambda(lambda X: tf.reduce_mean(X, axis=[1, 2])) 
+```
+
+介绍完 CNN 的组件之后，来看看如何将它们组合起来。
+
+## CNN 架构
+
+CNN 的典型架构是将几个卷积层叠起来（每个卷积层后面跟着一个 ReLU 层），然后再叠一个池化层，然后再叠几个卷积层（+ReLU），接着再一个池化层，以此类推。图片在流经神经网络的过程中，变得越来越小，但得益于卷积层，却变得越来越深（特征映射变多了），见图 14-11。在 CNN 的顶部，还有一个常规的前馈神经网络，由几个全连接层（+ReLU）组成，最终层输出预测（比如，一个输出类型概率的 softmax 层）。
+
+![](img/752d98a79871d001835f8948d8b75626.png)
+
+图 14-11 典型的 CNN 架构
+
+> 提示：常犯的错误之一，是使用过大的卷积核。例如，要使用一个卷积层的核是`5 × 5`，再加上两个核为`3 × 3`的层：这样参数不多，计算也不多，通常效果也更好。第一个卷积层是例外：可以有更大的卷积核（例如`5 × 5`），步长为 2 或更大：这样可以降低图片的空间维度，也没有损失很多信息。
+
+下面的例子用一个简单的 CNN 来处理 Fashion MNIST 数据集（第 10 章介绍过）：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.Conv2D(64, 7, activation="relu", padding="same",
+                        input_shape=[28, 28, 1]),
+    keras.layers.MaxPooling2D(2),
+    keras.layers.Conv2D(128, 3, activation="relu", padding="same"),
+    keras.layers.Conv2D(128, 3, activation="relu", padding="same"),
+    keras.layers.MaxPooling2D(2),
+    keras.layers.Conv2D(256, 3, activation="relu", padding="same"),
+    keras.layers.Conv2D(256, 3, activation="relu", padding="same"),
+    keras.layers.MaxPooling2D(2),
+    keras.layers.Flatten(),
+    keras.layers.Dense(128, activation="relu"),
+    keras.layers.Dropout(0.5),
+    keras.layers.Dense(64, activation="relu"),
+    keras.layers.Dropout(0.5),
+    keras.layers.Dense(10, activation="softmax")
+]) 
+```
+
+逐行看下代码：
+
+*   第一层使用了 64 个相当大的过滤器（`7 × 7`），但没有用步长，因为输入图片不大。还设置了`input_shape=[28, 28, 1]`，因为图片是`28 × 28`像素的，且是单通道（即，灰度）。
+
+*   接着，使用了一个最大池化层，核大小为 2.
+
+*   接着，重复做两次同样的结构：两个卷积层，跟着一个最大池化层。对于大图片，这个结构可以重复更多次（重复次数是超参数）。
+
+*   要注意，随着 CNN 向着输出层的靠近，过滤器的数量一直在提高（一开始是 64，然后是 128，然后是 256）：这是因为低级特征的数量通常不多（比如，小圆圈或水平线），但将其组合成为高级特征的方式很多。通常的做法是在每个池化层之后，将过滤器的数量翻倍：因为池化层对空间维度除以了 2，因此可以将特征映射的数量翻倍，且不用担心参数数量、内存消耗、算力的增长。
+
+*   然后是全连接网络，由两个隐藏紧密层和一个紧密输出层组成。要注意，必须要打平输入，因为紧密层的每个实例必须是 1D 数组。还加入了两个丢弃层，丢弃率为 50%，以降低过拟合。
+
+这个 CNN 可以在测试集上达到 92% 的准确率。虽然不是顶尖水平，但也相当好了，效果比第 10 章用的方法好得多。
+
+过去几年，这个基础架构的变体发展迅猛，取得了惊人的进步。衡量进步的一个指标是 ILSVRC [ImageNet challenge](https://links.jianshu.com/go?to=http%3A%2F%2Fimage-net.org%2F) 的误差率。在六年期间，这项赛事的前五误差率从 26% 降低到了 2.3%。前五误差率的意思是，预测结果的前 5 个最高概率的图片不包含正确结果的比例。测试图片相当大（256 个像素），有 1000 个类，一些图的差别很细微（比如区分 120 种狗的品种）。学习 ImageNet 冠军代码是学习 CNN 的好方法。
+
+我们先看看经典的 LeNet-5 架构（1998），然后看看三个 ILSVRC 竞赛的冠军：AlexNet（2012）、GoogLeNet（2014）、ResNet（2015）。
+
+### LeNet-5
+
+[LeNet-5](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Flenet5) 也许是最广为人知的 CNN 架构。前面提到过，它是由 Yann LeCun 在 1998 年创造出来的，被广泛用于手写字识别（MNIST）。它的结构如下：
+
+![](img/d042bd08d28fcf0eebb6b1d517815272.png)
+
+表 14-1 LeNet-5 架构
+
+有一些点需要注意：
+
+*   MNIST 图片是`28 × 28`像素的，但在输入给神经网络之前，做了零填充，成为`32 × 32`像素，并做了归一化。后面的层不用使用任何填充，这就是为什么当图片在网络中传播时，图片大小持续缩小。
+
+*   平均池化层比一般的稍微复杂点：每个神经元计算输入的平均值，然后将记过乘以一个可学习的系数（每个映射一个系数），在加上一个可学习的偏置项（也是每个映射一个），最后使用激活函数。
+
+*   C3 层映射中的大部分神经元，只与 S2 层映射三个或四个神经元全连接（而不是 6 个）。
+
+*   输出层有点特殊：不是计算输入和权重向量的矩阵积，而是每个神经元输出输入向量和权重向量的欧氏距离的平方。每个输出衡量图片属于每个数字类的概率程度。这里适用交叉熵损失函数，因为对错误预测惩罚更多，可以产生更大的梯度，收敛更快。
+
+Yann LeCun 的[网站](https://links.jianshu.com/go?to=http%3A%2F%2Fyann.lecun.com%2Fexdb%2Flenet%2Findex.html)展示了 LeNet-5 做数字分类的例子。
+
+### AlexNet
+
+[AlexNet CNN 架构](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F80)以极大优势，赢得了 2012 ImageNet ILSVRC 冠军：它的 Top-5 误差率达到了 17%，第二名只有 26%！它是由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 发明的。AlexNet 和 LeNet-5 很相似，只是更大更深，是首个将卷积层堆叠起来的网络，而不是在每个卷积层上再加一个池化层。表 14-2 展示了其架构：
+
+![](img/61021035567a4df1ec049f0fdf9bcc21.png)
+
+表 14-2 AlexNet 架构
+
+为了降低过拟合，作者使用了两种正则方法。首先，F8 和 F9 层使用了丢弃，丢弃率为 50%。其次，他们通过随机距离偏移训练图片、水平翻转、改变亮度，做了数据增强。
+
+> 数据增强
+> 
+> 数据增强是通过生成许多训练实例的真实变种，来人为增大训练集。因为可以降低过拟合，成为了一种正则化方法。生成出来的实例越真实越好：最理想的情况，人们无法区分增强图片是原生的还是增强过的。简单的添加白噪声没有用，增强修改要是可以学习的（白噪声不可学习）。
+> 
+> 例如，可以轻微偏移、旋转、缩放原生图，再添加到训练集中（见图 14-12）。这么做可以使模型对位置、方向和物体在图中的大小，有更高的容忍度。如果想让模型对不同光度有容忍度，可以生成对比度不同的照片。通常，还可以水平翻转图片（文字不成、不对称物体也不成）。通过这些变换，可以极大的增大训练集。
+> 
+> ![](img/65a8241e927a9846f05122543e0a380c.png)
+> 
+> 图 14-12 从原生图生成新的训练实例
+
+AlexNet 还在 C1 和 C3 层的 ReLU 之后，使用了强大的归一化方法，称为局部响应归一化（LRN）：激活最强的神经元抑制了相同位置的相邻特征映射的神经元（这样的竞争性激活也在生物神经元上观察到了）。这么做可以让不同的特征映射专业化，特征范围更广，提升泛化能力。等式 14-2 展示了如何使用 LRN。
+
+![](img/d7443d0746089d25be43288b9e6d508b.png)
+
+公式 14-2 局部响应归一化（LRN）
+
+这这个等式中：
+
+*   `b[I]`是特征映射`i`的行`u`列`v`的神经元的归一化输出（注意等始中没有出现行`u`列`v`）。
+
+*   `a[I]`是 ReLu 之后，归一化之前的激活函数。
+
+*   `k`、`α`、`β`和`r`是超参。`k`是偏置项，`r`是深度半径。
+
+*   `f[n]`是特征映射的数量。
+
+例如，如果`r=2`，且神经元有强激活，能抑制其他相邻上下特征映射的神经元的激活。
+
+在 AlexNet 中，超参数是这么设置的：`r = 2`，`α = 0.00002`，`β = 0.75`，`k = 1`。可以通过`tf.nn.local_response_normalization()`函数实现，要想用在 Keras 模型中，可以包装进`Lambda`层。
+
+AlexNet 的一个变体是 [*ZF Net*](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fzfnet)，是由 Matthew Zeiler 和 Rob Fergus 发明的，赢得了 2013 年的 ILSVRC。它本质上是对 AlexNet 做了一些超参数的调节（特征映射数、核大小，步长，等等）。
+
+### GoogLeNet
+
+[GoogLeNet 架构](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F81)是 Google Research 的 Christian Szegedy 及其同事发明的，赢得了 ILSVRC 2014 冠军，top-5 误差率降低到了 7% 以内。能取得这么大的进步，很大的原因是它的网络比之前的 CNN 更深（见图 14-14）。这归功于被称为创始模块（inception module）的子网络，它可以让 GoogLeNet 可以用更高的效率使用参数：实际上，GoogLeNet 的参数量比 AlexNet 小 10 倍（大约是 600 万，而不是 AlexNet 的 6000 万）。
+
+图 14-13 展示了一个创始模块的架构。`3 × 3 + 1(S)`的意思是层使用的核是`3 × 3`，步长是 1，`"same"`填充。先复制输入信号，然后输入给 4 个不同的层。所有卷积层使用 ReLU 激活函数。注意，第二套卷积层使用了不同的核大小（`1 × 1`、`3 × 3`、`5 × 5`），可以让其捕捉不同程度的图案。还有，每个单一层的步长都是 1，都是零填充（最大池化层也同样），因此它们的输出和输入有同样的高度和宽度。这可以让所有输出在最终深度连接层，可以沿着深度方向连起来（即，将四套卷积层的所有特征映射堆叠起来）。这个连接层可以使用用`tf.concat()`实现，其`axis=3`（深度方向的轴）。
+
+![](img/2262948e82010dbec63937ed0ca4b096.png)
+
+图 14-13 创始模块
+
+为什么创始模块有核为`1 × 1`的卷积层呢？这些层捕捉不到任何图案，因为只能观察一个像素？事实上，这些层有三个目的：
+
+*   尽管不能捕捉空间图案，但可以捕捉沿深度方向的图案。
+
+*   这些曾输出的特征映射比输入少，是作为瓶颈层来使用的，意味它们可以降低维度。这样可以减少计算和参数量、加快训练，提高泛化能力。
+
+*   每一对卷积层（[1 × 1, 3 × 3] 和 [1 × 1, 5 × 5]）就像一个强大的单一卷积层，可以捕捉到更复杂的图案。事实上，这对卷积层可以扫过两层神经网络。
+
+总而言之，可以将整个创始模块当做一个卷积层，可以输出捕捉到不同程度、更多复杂图案的特征映射。
+
+> 警告：每个卷积层的卷积核的数量是一个超参数。但是，这意味着每添加一个创始层，就多了 6 个超参数。
+
+来看下 GoogLeNet 的架构（见图 14-14）。每个卷积层、每个池化层输出的特征映射的数量，展示在核大小的前面。因为比较深，只好摆成三列。GoogLeNet 实际是一列，一共包括九个创始模块（带有陀螺标志）。创始模块中的六个数表示模块中的每个卷积层输出的特征映射数（和图 14-13 的顺序相同）。注意所有卷积层使用 ReLU 激活函数。
+
+![](img/99c49d49a8324a8705b352475bdebb99.png)
+
+图 14-14 GoogLeNet 的架构
+
+这个网络的结构如下：
+
+*   前两个层将图片的高和宽除以了 4（所以面积除以了 16），以减少计算。第一层使用的核很大，可以保留大部分信息。
+
+*   接下来，局部响应归一化层可以保证前面的层可以学到许多特征。
+
+*   后面跟着两个卷积层，前面一层作为瓶颈层。可以将这两层作为一个卷积层。
+
+*   然后，又是一个局部响应归一化层。
+
+*   接着，最大池化层将图片的高度和宽度除以 2，以加快计算。
+
+*   然后，是九个创始模块，中间插入了两个最大池化层，用来降维提速。
+
+*   接着，全局平均池化层输出每个特征映射的平均值：可以丢弃任何留下的空间信息，可以这么做是因为此时留下的空间信息也不多了。事实上 GoogLeNet 的输入图片一般是`224 × 224`像素的，经过 5 个最大池化层后，每个池化层将高和宽除以 2，特征映射降为`7 × 7`。另外，这是一个分类任务，不是定位任务，所以对象在哪无所谓。得益于该层降低了维度，就不用的网络的顶部（像 AlexNet 那样）加几个全连接层了，这么做可以极大减少参数数量，降低过拟合。
+
+*   最后几层很明白：丢弃层用来正则，全连接层（因为有 1000 个类，所以有 1000 个单元）和 softmax 激活函数用来产生估计类的概率。
+
+架构图经过轻微的简化：原始 GoogLeNet 架构还包括两个辅助的分类器，位于第三和第六创始模块的上方。它们都是由一个平均池化层、一个卷积层、两个全连接层和一个 softmax 激活层组成。在训练中，它们的损失（缩减 70%）被添加到总损失中。它们的目标是对抗梯度消失，对网络做正则。但是，后来的研究显示它们的作用很小。
+
+Google 的研究者后来又提出了几个 GoogLeNet 的变体，包括 Inception-v3 和 Inception-v4，使用的创始模块略微不同，性能更好。
+
+### VGGNet
+
+ILSVRC 2014 年的亚军是 [VGGNet](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F83)，作者是来自牛津大学 Visual Geometry Group（VGC）的 Karen Simonyan 和 Andrew Zisserman。VGGNet 的架构简单而经典，2 或 3 个卷积层和 1 个池化层，然后又是 2 或 3 个卷积层和 1 个池化层，以此类推（总共达到 16 或 19 个卷积层）。最终加上一个有两个隐藏层和输出层的紧密网络。VGGNet 只用`3 × 3`的过滤器，但数量很多。
+
+### ResNet
+
+何凯明使用[*残差网络*（或 *ResNet*）](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F82)赢得了 ILSVRC 2015 的冠军，top-5 误差率降低到了 3.6% 以下。ResNet 的使用了极深的卷积网络，共 152 层（其它的变体有 1450 或 152 层）。反映了一个总体趋势：模型变得越来越深，参数越来越少。训练这样的深度网络的方法是使用跳连接（也被称为快捷连接）：输入信号添加到更高层的输出上。
+
+当训练神经网络时，目标是使网络可以对目标函数`h(x)`建模。如果将输入`x`添加给网络的输出（即，添加一个跳连接），则网络就要对`f(x) = h(x) – x`建模，而不是`h(x)`。这被称为残差学习（见图 14-15）。
+
+![](img/546be8127641972a5bb9b137d8c0e98e.png)
+
+图 14-15 残差学习
+
+初始化一个常规神经网络时，它的权重接近于零，所以输出值也接近于零。如果添加跳连接，网络就会输出一个输入的复制；换句话说，网络一开始是对恒等函数建模。如果目标函数与恒等函数很接近（通常会如此），就能极大的加快训练。
+
+另外，如果添加多个跳连接，就算有的层还没学习，网络也能正常运作（见图 14-16）。多亏了跳连接，信号可以在整个网络中流动。深度残差网络，可以被当做残差单元（RU）的堆叠，其中每个残差单元是一个有跳连接的小神经网络。
+
+![](img/581f29cd2a0ec32c39da602728239ae6.png)
+
+图 14-16 常规神经网络（左）和深度残差网络（右）
+
+来看看 ResNet 的架构（见图 14-17）。特别简单。开头和结尾都很像 GoogLeNet（只是没有丢弃层），中间是非常深的残差单元的堆砌。每个残差单元由两个卷积层（没有池化层！）组成，有批归一化和 ReLU 激活，使用`3 × 3`的核，保留空间维度（步长等于 1，零填充）。
+
+![](img/50c635c122c979e434cd2ac2b7bd2fea.png)
+
+图 14-17 ResNet 架构
+
+注意到，每经过几个残差单元，特征映射的数量就会翻倍，同时高度和宽度都减半（）卷积层的步长为 2。发生这种情况时，因为形状不同（见图 14-17 中虚线的跳连接），输入不能直接添加到残差单元的输出上。要解决这个问题，输入要经过一个`1 × 1`的卷积层，步长为 2，特征映射数不变（见图 14-18）。
+
+![](img/985333efac30ef4820604c390d9eafe7.png)
+
+图 14-18 改变特征映射大小和深度时的跳连接
+
+ResNet-34 是有 34 个层（只是计数了卷积层和全连接层）的 ResNet，有 3 个输出 64 个特征映射的残差单元，4 个输出 128 个特征映射的残差单元，6 个输出 256 个特征映射的残差单元，3 个输出 512 个特征映射的残差单元。本章后面会实现这个网络。
+
+ResNet 通常比这个架构要深，比如 ResNet-152，使用了不同的残差单元。不是用`3 × 3`的输出 256 个特征映射的卷积层，而是用三个卷积层：第一是`1 × 1`的卷积层，只有 64 个特征映射（少 4 倍），作为瓶颈层使用；然后是`1 × 1`的卷积层，有 64 个特征映射；最后是另一个`1 × 1`的卷积层，有 256 个特征映射，恢复原始深度。ResNet-152 含有 3 个这样输出 256 个映射的残差单元，8 个输出 512 个映射的残差单元，36 个输出 1024 个映射的残差单元，最后是 3 个输出 2048 个映射的残差单元。
+
+> 笔记：Google 的 [Inception-v4](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F84) 融合了 GoogLeNet 和 ResNet，使 ImageNet 的 top-5 误差率降低到接近 3%。
+
+### Xception
+
+另一个 GoogLeNet 架构的变体是 [Xception](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fxception)（Xception 的意思是极限创始，Extreme Inception）。它是由 François Chollet（Keras 的作者）在 2016 年提出的，Xception 在大型视觉任务（3.5 亿张图、1.7 万个类）上超越了 Inception-v3。和 Inception-v4 很像，Xception 融合了 GoogLeNet 和 ResNet，但将创始模块替换成了一个特殊类型的层，称为深度可分卷积层（或简称为可分卷积层）。深度可分卷积层在以前的 CNN 中出现过，但不像 Xception 这样处于核心。常规卷积层使用过滤器同时获取空间图案（比如，椭圆）和交叉通道图案（比如，嘴+鼻子+眼睛=脸），可分卷积层的假设是空间图案和交叉通道图案可以分别建模（见图 14-19）。因此，可分卷积层包括两部分：第一个部分对于每个输入特征映射使用单空间过滤器，第二个部分只针对交叉通道图案 —— 就是一个过滤器为`1 × 1`的常规卷积层。
+
+![](img/ce4113dd8fcc00d438bf023e8d1a9342.png)
+
+图 14-19 深度可分卷积层
+
+因为可分卷积层对每个输入通道只有一个空间过滤器，要避免在通道不多的层之后使用可分卷积层，比如输入层（这就是图 14-19 要展示的）。出于这个原因，Xception 架构一开始有 2 个常规卷积层，但剩下的架构都使用可分卷积层（共 34 个），加上一些最大池化层和常规的末端层（全局平均池化层和紧密输出层）。
+
+为什么 Xception 是 GoogLeNet 的变体呢，因为它并没有创始模块？正像前面讨论的，创始模块含有过滤器为`1 × 1`的卷积层：只针对交叉通道图案。但是，它们上面的常规卷积层既针对空间、也针对交叉通道图案。所以可以将创始模块作为常规卷积层和可分卷积层的中间状态。在实际中，可分卷积层表现更好。
+
+> 提示：相比于常规卷积层，可分卷积层使用的参数、内存、算力更少，性能也更好，所以应默认使用后者（除了通道不多的层）。
+
+ILSVRC 2016 的冠军是香港中文大学的 CUImage 团队。他们结合使用了多种不同的技术，包括复杂的对象识别系统，称为 [GBD-Net](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1610.02579)，top-5 误差率达到 3% 以下。尽管结果很经验，但方案相对于 ResNet 过于复杂。另外，一年后，另一个简单得多的架构取得了更好的结果。
+
+### SENet
+
+ILSVRC 2017 年的冠军是挤压-激活网络（[Squeeze-and-Excitation Network (SENet)](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fsenet)）。这个架构拓展了之前的创始模块和 ResNet，提高了性能。SENet 的 top-5 误差率达到了惊人的 2.25%。经过拓展之后的版本分别称为 SE-创始模块和 SE-ResNet。性能提升来自于 SENet 在原始架构的每个单元（比如创始模块或残差单元）上添加了一个小的神经网络，称为 SE 块，见图 14-20。
+
+![](img/038edb16c2a61ea17210fa050758e92d.png)
+
+图 14-20 SE-创始模块（左）和 SE-ResNet（右）
+
+SE 分析了单元输出，只针对深度方向，它能学习到哪些特征总是一起活跃的。然后根据这个信息，重新调整特征映射，见图 14-21。例如，SE 可以学习到嘴、鼻子、眼睛经常同时出现在图片中：如果你看见了罪和鼻子，通常是期待看见眼睛。所以，如果 SE 块发向嘴和鼻子的特征映射有强激活，但眼睛的特征映射没有强激活，就会提升眼睛的特征映射（更准确的，会降低无关的特征映射）。如果眼睛和其它东西搞混了，特征映射重调可以解决模糊性。
+
+![](img/26762a6dc32da193d66d7946e22478ce.png)
+
+图 14-21 SE 快做特征重调
+
+SE 块由三层组成：一个全局平均池化层、一个使用 ReLU 的隐含紧密层、一个使用 sigmoid 的紧密输出层（见图 14-22）。
+
+![](img/29eb9398f4f64b699808ff8fba4e7d36.png)
+
+图 14-22 SE 块的结构
+
+和之前一样，全局平均池化层计算每个特征映射的平均激活：例如，如果它的输入包括 256 个特征映射，就会输出 256 个数，表示对每个过滤器的整体响应水平。下一个层是“挤压”步骤：这个层的神经元数远小于 256，通常是小于特征映射数的 16 倍（比如 16 个神经元）—— 因此 256 个数被压缩金小向量中（16 维）。这是特征响应的地位向量表征（即，嵌入）。这一步作为瓶颈，能让 SE 块强行学习特征组合的通用表征（第 17 章会再次接触这个原理）。最后，输出层使用这个嵌入，输出一个重调向量，每个特征映射（比如，256）包含一个数，都位于 0 和 1 之间。然后，特征映射乘以这个重调向量，所以无关特征（其重调分数小）就被弱化了，就剩下相关特征（重调分数接近于 1）了。
+
+## 用 Karas 实现 ResNet-34 CNN
+
+目前为止介绍的大多数 CNN 架构的实现并不难（但经常需要加载预训练网络）。接下来用 Keras 实现 ResNet-34。首先，创建`ResidualUnit`层：
+
+```py
+class ResidualUnit(keras.layers.Layer):
+    def __init__(self, filters, strides=1, activation="relu", **kwargs):
+        super().__init__(**kwargs)
+        self.activation = keras.activations.get(activation)
+        self.main_layers = [
+            keras.layers.Conv2D(filters, 3, strides=strides,
+                                padding="same", use_bias=False),
+            keras.layers.BatchNormalization(),
+            self.activation,
+            keras.layers.Conv2D(filters, 3, strides=1,
+                                padding="same", use_bias=False),
+            keras.layers.BatchNormalization()]
+        self.skip_layers = []
+        if strides > 1:
+            self.skip_layers = [
+                keras.layers.Conv2D(filters, 1, strides=strides,
+                                    padding="same", use_bias=False),
+                keras.layers.BatchNormalization()]
+
+    def call(self, inputs):
+        Z = inputs
+        for layer in self.main_layers:
+            Z = layer(Z)
+        skip_Z = inputs
+        for layer in self.skip_layers:
+            skip_Z = layer(skip_Z)
+        return self.activation(Z + skip_Z) 
+```
+
+可以看到，这段代码和图 14-18 很接近。在构造器中，创建了所有需要的层：主要的层位于图中右侧，跳跃层位于左侧（只有当步长大于 1 时需要）。在`call()`方法中，我们让输入经过主层和跳跃层，然后将输出相加，再应用激活函数。
+
+然后，使用`Sequential`模型搭建 ResNet-34，ResNet-34 就是一连串层的组合（将每个残差单元作为一个单一层）：
+
+```py
+model = keras.models.Sequential()
+model.add(keras.layers.Conv2D(64, 7, strides=2, input_shape=[224, 224, 3],
+                              padding="same", use_bias=False))
+model.add(keras.layers.BatchNormalization())
+model.add(keras.layers.Activation("relu"))
+model.add(keras.layers.MaxPool2D(pool_size=3, strides=2, padding="same"))
+prev_filters = 64
+for filters in [64] * 3 + [128] * 4 + [256] * 6 + [512] * 3:
+    strides = 1 if filters == prev_filters else 2
+    model.add(ResidualUnit(filters, strides=strides))
+    prev_filters = filters
+model.add(keras.layers.GlobalAvgPool2D())
+model.add(keras.layers.Flatten())
+model.add(keras.layers.Dense(10, activation="softmax")) 
+```
+
+这段代码中唯一麻烦的地方，就是添加`ResidualUnit`层的循环部分：前 3 个 RU 有 64 个过滤器，接下来的 4 个 RU 有 128 个过滤器，以此类推。如果过滤器数和前一 RU 层相同，则步长为 1，否则为 2。然后添加`ResidualUnit`，然后更新`prev_filters`。
+
+不到 40 行代码就能搭建出 ILSVRC 2015 年冠军模型，既体现出 ResNet 的优美，也展现了 Keras API 的表达力。实现其他 CNN 架构也不困难。但是 Keras 内置了其中一些架构，一起尝试下。
+
+## 使用 Keras 的预训练模型
+
+通常来讲，不用手动实现 GoogLeNet 或 ResNet 这样的标准模型，因为`keras.applications`中已经包含这些预训练模型了，只需一行代码就成。例如，要加载在 ImageNet 上预训练的 ResNet-50 模型，使用下面的代码就行：
+
+```py
+model = keras.applications.resnet50.ResNet50(weights="imagenet") 
+```
+
+仅此而已！这样就能穿件一个 ResNet-50 模型，并下载在 ImageNet 上预训练的权重。要使用它，首先要保证图片有正确的大小。ResNet-50 模型要用`224 × 224`像素的图片（其它模型可能是`299 × 299`），所以使用 TensorFlow 的`tf.image.resize()`函数来缩放图片：
+
+```py
+images_resized = tf.image.resize(images, [224, 224]) 
+```
+
+> 提示：`tf.image.resize()`不会保留宽高比。如果需要，可以裁剪图片为合适的宽高比之后，再进行缩放。两步可以通过`tf.image.crop_and_resize()`来实现。
+
+预训练模型的图片要经过特别的预处理。在某些情况下，要求输入是 0 到 1，有时是 -1 到 1，等等。每个模型提供了一个`preprocess_input()`函数，来对图片做预处理。这些函数假定像素值的范围是 0 到 255，因此需要乘以 255（因为之前将图片缩减到 0 和 1 之间）：
+
+```py
+inputs = keras.applications.resnet50.preprocess_input(images_resized * 255) 
+```
+
+现在就可以用预训练模型做预测了：
+
+```py
+Y_proba = model.predict(inputs) 
+```
+
+和通常一样，输出`Y_proba`是一个矩阵，每行是一张图片，每列是一个类（这个例子中有 1000 类）。如果想展示 top K 预测，要使用`decode_predictions()`函数，将每个预测出的类的名字和概率包括进来。对于每张图片，返回 top K 预测的数组，每个预测表示为包含类标识符、名字和置信度的数组：
+
+```py
+top_K = keras.applications.resnet50.decode_predictions(Y_proba, top=3)
+for image_index in range(len(images)):
+    print("Image #{}".format(image_index))
+    for class_id, name, y_proba in top_K[image_index]:
+        print("  {} - {:12s} {:.2f}%".format(class_id, name, y_proba * 100))
+    print() 
+```
+
+输出如下：
+
+```py
+Image #0
+  n03877845 - palace       42.87%
+  n02825657 - bell_cote    40.57%
+  n03781244 - monastery    14.56%
+
+Image #1
+  n04522168 - vase         46.83%
+  n07930864 - cup          7.78%
+  n11939491 - daisy        4.87% 
+```
+
+正确的类（`monastery`和`daisy`）出现在 top3 的结果中。考虑到，这是从 1000 个类中挑出来的，结果相当不错。
+
+可以看到，使用预训练模型，可以非常容易的创建出一个效果相当不错的图片分类器。`keras.applications`中其它视觉模型还有几种 ResNet 的变体，GoogLeNet 的变体（比如 Inception-v3 和 Xception），VGGNet 的变体，MobileNet 和 MobileNetV2（移动设备使用的轻量模型）。
+
+如果要使用的图片分类器不是给 ImageNet 图片做分类的呢？这时，还是可以使用预训练模型来做迁移学习。
+
+## 使用预训练模型做迁移学习
+
+如果想创建一个图片分类器，但没有足够的训练数据，使用预训练模型的低层通常是不错的主意，就像第 11 章讨论过的那样。例如，使用预训练的 Xception 模型训练一个分类花的图片的模型。首先，使用 TensorFlow Datasets 加载数据集（见 13 章）：
+
+```py
+import tensorflow_datasets as tfds
+
+dataset, info = tfds.load("tf_flowers", as_supervised=True, with_info=True)
+dataset_size = info.splits["train"].num_examples # 3670
+class_names = info.features["label"].names # ["dandelion", "daisy", ...]
+n_classes = info.features["label"].num_classes # 5 
+```
+
+可以通过设定`with_info=True`来获取数据集信息。这里，获取到了数据集的大小和类名。但是，这里只有`"train"`训练集，没有测试集和验证集，所以需要分割训练集。TF Datasets 提供了一个 API 来做这项工作。比如，使用数据集的前 10% 作为测试集，接着的 15% 来做验证集，剩下的 75% 来做训练集：
+
+```py
+test_split, valid_split, train_split = tfds.Split.TRAIN.subsplit([10, 15, 75])
+
+test_set = tfds.load("tf_flowers", split=test_split, as_supervised=True)
+valid_set = tfds.load("tf_flowers", split=valid_split, as_supervised=True)
+train_set = tfds.load("tf_flowers", split=train_split, as_supervised=True) 
+```
+
+然后，必须要预处理图片。CNN 的要求是`224 × 224`的图片，所以需要缩放。还要使用 Xception 的`preprocess_input()`函数来预处理图片：
+
+```py
+def preprocess(image, label):
+    resized_image = tf.image.resize(image, [224, 224])
+    final_image = keras.applications.xception.preprocess_input(resized_image)
+    return final_image, label 
+```
+
+对三个数据集使用这个预处理函数，打散训练集，给所有的数据集添加批次和预提取：
+
+```py
+batch_size = 32
+train_set = train_set.shuffle(1000)
+train_set = train_set.map(preprocess).batch(batch_size).prefetch(1)
+valid_set = valid_set.map(preprocess).batch(batch_size).prefetch(1)
+test_set = test_set.map(preprocess).batch(batch_size).prefetch(1) 
+```
+
+如果想做数据增强，可以修改训练集的预处理函数，给训练图片添加一些转换。例如，使用`tf.image.random_crop()`随机裁剪图片，使用`tf.image.random_flip_left_right()`做随机水平翻转，等等（参考笔记本的“使用预训练模型做迁移学习”部分）。
+
+> 提示：`keras.preprocessing.image.ImageDataGenerator`可以方便地从硬盘加载图片，并用多种方式来增强：偏移、旋转、缩放、翻转、裁剪，或使用任何你想做的转换。对于简单项目，这么做很方便。但是，使用`tf.data`管道的好处更多：从任何数据源高效读取图片（例如，并行）；操作数据集；如果基于`tf.image`运算编写预处理函数，既可以用在`tf.data`管道中，也可以用在生产部署的模型中（见第 19 章）。
+
+然后加载一个在 ImageNet 上预训练的 Xception 模型。通过设定`include_top=False`，排除模型的顶层：排除了全局平均池化层和紧密输出层。我们然后根据基本模型的输出，添加自己的全局平均池化层，然后添加紧密输出层（没有一个类就有一个单元，使用 softmax 激活函数）。最后，创建 Keras 模型：
+
+```py
+base_model = keras.applications.xception.Xception(weights="imagenet",
+                                                  include_top=False)
+avg = keras.layers.GlobalAveragePooling2D()(base_model.output)
+output = keras.layers.Dense(n_classes, activation="softmax")(avg)
+model = keras.Model(inputs=base_model.input, outputs=output) 
+```
+
+第 11 章介绍过，最好冻结预训练层的权重，至少在训练初期如此：
+
+```py
+for layer in base_model.layers:
+    layer.trainable = False 
+```
+
+> 笔记：因为我们的模型直接使用了基本模型的层，而不是`base_model`对象，设置`base_model.trainable=False`没有任何效果。
+
+最后，编译模型，开始训练：
+
+```py
+optimizer = keras.optimizers.SGD(lr=0.2, momentum=0.9, decay=0.01)
+model.compile(loss="sparse_categorical_crossentropy", optimizer=optimizer,
+              metrics=["accuracy"])
+history = model.fit(train_set, epochs=5, validation_data=valid_set) 
+```
+
+> 警告：训练过程非常慢，除非使用 GPU。如果没有 GPU，应该在 Colab 中运行本章的笔记本，使用 GPU 运行时（是免费的！）。见[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fageron%2Fhandson-ml2)。
+
+模型训练几个周期之后，它的验证准确率应该可以达到 75-80%，然后就没什么提升了。这意味着上层训练的差不多了，此时可以解冻所有层（或只是解冻上边的层），然后继续训练（别忘在冷冻和解冻层是编译模型）。此时使用小得多的学习率，以避免破坏预训练的权重：
+
+```py
+for layer in base_model.layers:
+    layer.trainable = True
+
+optimizer = keras.optimizers.SGD(lr=0.01, momentum=0.9, decay=0.001)
+model.compile(...)
+history = model.fit(...) 
+```
+
+训练要花不少时间，最终在测试集上的准确率可以达到 95%。有个模型，就可以训练出惊艳的图片分类器了！计算机视觉除了分类，还有其它任务，比如，想知道花在图片中的位置，该怎么做呢？
+
+## 分类和定位
+
+第 10 章讨论过，定位图片中的物体可以表达为一个回归任务：预测物体的范围框，一个常见的方法是预测物体中心的水平和垂直坐标，和其高度和宽度。不需要大改模型，只要再添加一个有四个单元的紧密输出层（通常是在全局平均池化层的上面），可以用 MSE 损失训练：
+
+```py
+base_model = keras.applications.xception.Xception(weights="imagenet",
+                                                  include_top=False)
+avg = keras.layers.GlobalAveragePooling2D()(base_model.output)
+class_output = keras.layers.Dense(n_classes, activation="softmax")(avg)
+loc_output = keras.layers.Dense(4)(avg)
+model = keras.Model(inputs=base_model.input,
+                    outputs=[class_output, loc_output])
+model.compile(loss=["sparse_categorical_crossentropy", "mse"],
+              loss_weights=[0.8, 0.2], # depends on what you care most about
+              optimizer=optimizer, metrics=["accuracy"]) 
+```
+
+但现在有一个问题：花数据集中没有围绕花的边框。因此，我们需要自己加上。这通常是机器学习任务中最难的部分：获取标签。一个好主意是花点时间来找合适的工具。给图片加边框，可供使用的开源图片打标签工具包括 VGG Image Annotator,、LabelImg,、OpenLabeler 或 ImgLab，或是商业工具，比如 LabelBox 或 Supervisely。还可以考虑众包平台，比如如果有很多图片要标注的话，可以使用 Amazon Mechanical Turk。但是，建立众包平台、准备数据格式、监督、保证质量，要做不少工作。如果只有几千张图片要打标签，又不是频繁来做，最好选择自己来做。Adriana Kovashka 等人写了一篇实用的计算机视觉方面的关于众包的[论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1611.02145)，建议读一读。
+
+假设你已经给每张图片的花都获得了边框。你需要创建一个数据集，它的项是预处理好的图片的批次，加上类标签和边框。每项应该是一个元组，格式是`(images, (class_labels, bounding_boxes))`。然后就可以准备训练模型了！
+
+> 提示：边框应该做归一化，让中心的横坐标、纵坐标、宽度和高度的范围变成 0 到 1 之间。另外，最好是预测高和宽的平方根，而不是直接预测高和宽：大边框的 10 像素的误差，相比于小边框的 10 像素的误差，不会惩罚那么大。
+
+MSE 作为损失函数来训练模型效果很好，但不是评估模型预测边框的好指标。最常见的指标是交并比（Intersection over Union (IoU)）：预测边框与目标边框的重叠部分，除以两者的并集（见图 14-23）。在`tf.keras`中，交并比是用`tf.keras.metrics.MeanIoU`类来实现的。
+
+![](img/2c99c4702d442f7252eab10d662a9521.png)
+
+图 14-23 交并比指标
+
+完成了分类并定位单一物体，但如果图片中有多个物体该怎么办呢（常见于花数据集）？
+
+## 目标检测
+
+分类并定位图片中的多个物体的任务被称为目标检测。几年之前，使用的方法还是用定位单一目标的 CNN，然后将其在图片上滑动，见图 14-24。在这个例子中，图片被分成了`6 × 8`的网格，CNN（粗黑实线矩形）的范围是`3 × 3`。 当 CNN 查看图片的左上部分时，检测到了最左边的玫瑰花，向右滑动一格，检测到的还是同样的花。又滑动一格，检测到了最上的花，再向右一格，检测到的还是最上面的花。你可以继续滑动 CNN，查看所有`6 × 8`的区域。另外，因为目标的大小不同，还需要用不同大小的 CNN 来观察。例如，检测完了所有`6 × 8`的区域，可以继续用`6 × 8`的区域来检测。
+
+![](img/960ad6cb8f62372ccc2e0c4ff21086c5.png)
+
+图 14-24 通过滑动 CNN 来检测多个目标
+
+这个方法非常简单易懂，但是也看到了，它会在不同位置、多次检测到同样的目标。需要后处理，去除没用的边框，常见的方法是非极大值抑制（non-max suppression）。步骤如下：
+
+1.  首先，给 CNN 添加另一个对象性输出，来估计花确实出现在图片中的概率（或者，可以添加一个“没有花”的类，但通常不好使）。必须要使用 sigmoid 激活函数，可以用二元交叉熵损失函数来训练。然后删掉对象性分数低于某阈值的所有边框：这样能删掉所有不包含花的边框。
+
+2.  找到对象性分数最高的边框，然后删掉所有其它与之大面积重叠的边框（例如，IoU 大于 60%）。例如，在图 14-24 中，最大对象性分数的边框出现在最上面花的粗宾匡（对象性分数用边框的粗细来表示）。另一个边框和这个边框重合很多，所以将其删除。
+
+3.  重复这两个步骤，直到没有可以删除的边框。
+
+用这个简单的方法来做目标检测的效果相当不错，但需要运行 CNN 好几次，所以很慢。幸好，有一个更快的方法来滑动 CNN：使用全卷积网络（fully convolutional network，FCN）。
+
+### 全卷积层
+
+FCN 是 Jonathan Long 在 2015 年的一篇[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Ffcn)汇总提出的，用于语义分割（根据所属目标，对图片中的每个像素点进行分类）。作者指出，可以用卷积层替换 CNN 顶部的紧密层。要搞明白，看一个例子：假设一个 200 个神经元的紧密层，位于卷积层的上边，卷积层输出 100 个特征映射，每个大小是`7 × 7`（这是特征映射的大小，不是核大小）。每个神经元会计算卷积层的`100 × 7 × 7`个激活结果的加权和（加上偏置项）。现在将紧密层替换为卷积层，有 200 个过滤器，每个大小为`7 × 7`，`"valid"`填充。这个层能输出 200 个特征映射，每个是`7 × 7`（因为核大小等于输入特征映射的大小，并且使用的是`"valid"`填充）。换句话说，会产生 200 个数，和紧密层一样；如果仔细观察卷积层的计算，会发现这些书和紧密层输出的数一模一样。唯一不同的地方，紧密层的输出的张量形状是`[批次大小, 200]`，而卷积层的输出的张量形状是`[批次大小, 1, 1, 200]`。
+
+> 提示：要将紧密层变成卷积层，卷积层中的过滤器的数量，必须等于紧密层的神经元数，过滤器大小必须等于输入特征映射的大小，必须使用`"valid"`填充。步长可以是 1 或以上。
+
+为什么这点这么重要？紧密层需要的是一个具体的输入大小（因为它的每个输入特征都有一个权重），卷积层却可以处理任意大小的图片（但是，它也希望输入有一个确定的通道数，因为每个核对每个输入通道包含一套不同的权重集合）。因为 FCN 只包含卷积层（和池化层，属性相同），所以可以在任何大小的图片上训练和运行。
+
+举个例子，假设已经训练好了一个用于分类和定位的 CNN。图片大小是`224 × 224`，输出 10 个数：输出 0 到 4 经过 softmax 激活函数，给出类的概率；输出 5 经过逻辑激活函数，给出对象性分数；输出 6 到 9 不经过任何激活函数，表示边框的中心坐标、高和宽。
+
+现在可以将紧密层转换为卷积层。事实上，不需要再次训练，只需将紧密层的权重复制到卷积层中。另外，可以在训练前，将 CNN 转换成 FCN。
+
+当输入图片为`224 × 224`时（见图 14-25 的左边），假设输出层前面的最后一个卷积层（也被称为瓶颈层）输出`224 × 224`的特征映射。如果 FCN 的输入图片是`448 × 448`（见图 14-25 的右边），瓶颈层会输出`224 × 224`的特征映射。因为紧密输出层被替换成了 10 个使用大小为`224 × 224`的过滤器的卷积层，`"valid"`填充，步长为 1，输出会有 10 个特征映射，每个大小为`448 × 448`（因为`14 – 7 + 1 = 8`）。换句话说，FCN 只会处理整张图片一次，会输出`224 × 224`的网格，每个格子有 10 个数（5 个类概率，1 个对象性分数，4 个边框参数）。就像之前滑动 CNN 那样，每行滑动 8 步，每列滑动 8 步。再形象的讲一下，将原始图片切分成`224 × 224`的网格，然后用`224 × 224`的窗口在上面滑动，窗口会有`8 × 8 = 64`个可能的位置，也就是 64 个预测。但是，FCN 方法又非常高效，因为只需观察图片一次。事实上，“只看一次”（You Only Look Once，YOLO）是一个非常流行的目标检测架构的名字，下面介绍。
+
+![](img/cb75024c9c32a08836602eea306e30f6.png)
+
+图 14-25 相同的 FCN 处理小图片（左）和大图片（右）
+
+### 只看一次（YOLO）
+
+YOLO 是一个非常快且准确的目标检测框架，是 Joseph Redmon 在 2015 年的一篇[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fyolo)中提出的，2016 年优化为 [YOLOv2](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fyolo2)，2018 年优化为 [YOLOv3](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fyolo3)。速度快到甚至可以在实时视频中运行，可以看 Redmon 的这个[例子（要翻墙）](https://links.jianshu.com/go?to=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DMPU2HistivI)。
+
+YOLOv3 的架构和之前讨论过的很像，只有一些重要的不同点：
+
+*   每个网格输出 5 个边框（不是 1 个），每个边框都有一个对象性得分。每个网格还输出 20 个类概率，是在 PASCAL VOC 数据集上训练的，这个数据集有 20 个类。每个网格一共有 45 个数：5 个边框，每个 4 个坐标参数，加上 5 个对象性分数，加上 20 个类概率。
+
+*   YOLOv3 不是预测边框的绝对坐标，而是预测相对于网格坐标的偏置量，`(0, 0)`是网格的左上角，`(1, 1)`是网格的右下角。对于每个网格，YOLOv3 是被训练为只能预测中心位于网格的边框（边框通常比网格大得多）。YOLOv3 对边框坐标使用逻辑激活函数，以保证其在 0 到 1 之间。
+
+*   开始训练神经网络之前，YOLOv3 找了 5 个代表性边框维度，称为锚定框（anchor box）（或称为前边框）。它们是通过 K-Means 算法（见第 9 章）对训练集边框的高和宽计算得到的。例如，如果训练图片包含许多行人，一个锚定框就会获取行人的基本维度。然后当神经网络对每个网格预测 5 个边框时，实际是预测如何缩放每个锚定框。比如，假设一个锚定框是 100 个像素高，50 个像素宽，神经网络可能的预测是垂直放大到 1.5 倍，水平缩小为 0.9 倍。结果是`150 × 45`的边框。更准确的，对于每个网格和每个锚定框，神经网络预测其垂直和水平缩放参数的对数。有了锚定框，可以更容易预测出边框，因为可以更快的学到边框的样子，速度也会更快。
+
+*   神经网络是用不同规模的图片来训练的：每隔几个批次，网络就随机调训新照片维度（从`330 × 330`到`330 × 330`像素）。这可以让网络学到不同的规模。另外，还可以在不同规模上使用 YOLOv3：小图比大图快但准确性差。
+
+还可能有些有意思的创新，比如使用跳连接来恢复一些在 CNN 中损失的空间分辨率，后面讨论语义分割时会讨论。在 2016 年的这篇论文中，作者介绍了使用层级分类的 YOLO9000 模型：模型预测视觉层级（称为词树，WordTree）中的每个节点的概率。这可以让网络用高置信度预测图片表示的是什么，比如狗，即便不知道狗的品种。建议阅读这三篇论文：不仅文笔不错，还给出不少精彩的例子，介绍深度学习系统是如何一点一滴进步的。
+
+> 平均精度均值（mean Average Precision，mAP）
+> 
+> 目标检测中非常常见的指标是平均精度均值。“平均均值”听起来啰嗦了。要弄明白这个指标，返回到第 3 章中的两个分类指标：精确率和召回率。取舍关系：召回率越高，精确率就越低。可以在精确率/召回率曲线上看到。将这条曲线归纳为一个数，可以计算曲线下面积（AUC）。但精确率/召回率曲线上有些部分，当精确率上升时，召回率也上升，特别是当召回率较低时（可以在图 3-5 的顶部看到）。这就是产生 mAP 的激励之一。
+> 
+> ![](img/07bf639cb1942a88dbac1722ea277c90.png)
+> 
+> 图 3-5 精确率 vs 召回率
+> 
+> 假设当召回率为 10% 时，分类器的精确率是 90%，召回率为 20% 时，精确率是 96%。这里就没有取舍关系：使用召回率为 20% 的分类器就好，因为此时精确率更高。所以当召回率至少有 10% 时，需要找到最高精确率，即 96%。因此，一个衡量模型性能的方法是计算召回率至少为 0% 时，计算最大精确率，再计算召回率至少为 10% 时的最大精确率，再计算召回率至少为 20% 时的最大精确率，以此类推。最后计算这些最大精确率的平均值，这个指标称为平均精确率（Average Precision，AP）。当有超过两个类时，可以计算每个类的 AP，然后计算平均 AP（即，mAP）。就是这样！
+> 
+> 在目标检测中，还有另外一个复杂度：如果系统检测到了正确的类，但是定位错了（即，边框不对）？当然不能将其作为正预测。一种方法是定义 IOU 阈值：例如，只有当 IOU 超过 0.5 时，预测才是正确的。相应的 mAP 表示为 mAP@0.5（或 mAP@50%，或 AP50）。在一些比赛中（比如 PASCAL VOC 竞赛），就是这么做的。在其它比赛中（比如，COCO），mAP 是用不同 IOU 阈值（0.50, 0.55, 0.60, …, 0.95）计算的。最终指标是所有这些 mAP 的均值（表示为 AP@[.50:.95] 或 AP@[.50:0.05:.95]），这是均值的均值。
+
+一些 YOLO 的 TensorFlow 实现可以在 GitHub 上找到。可以看看 [Zihao Zang 用 TensorFlow 2 实现的项目](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fyolotf2)。TensorFlow Models 项目中还有其它目标检测模型；一些还传到了 TF Hub，比如 [SSD](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fssd) 和 [Faster-RCNN](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Ffasterrcnn)，这两个都很流行。SSD 也是一个“一次”检测模型，类似于 YOLO。Faster R-CNN 复杂一些：图片先经过 CNN，然后输出经过区域提议网络（Region Proposal Network，RPN），RPN 对边框做处理，更容易圈住目标。根据 CNN 的裁剪输出，每个边框都运行这一个分类器。
+
+检测系统的选择取决于许多因素：速度、准确率、预训练模型是否可用、训练时间、复杂度，等等。论文中有许多指标表格，但测试环境的变数很多。技术进步也很快，很难比较出哪个更适合大多数人，并且有效期可以长过几个月。
+
+## 语义分割
+
+在语义分割中，每个像素根据其所属的目标来进行分类（例如，路、汽车、行人、建筑物，等等），见图 14-26。注意，相同类的不同目标是不做区分的。例如，分割图片的右侧的所有自行车被归类为一坨像素。这个任务的难点是当图片经过常规 CNN 时，会逐渐丢失空间分辨率（因为有的层的步长大于 1）；因此，常规的 CNN 可以检测出图片的左下有一个人，但不知道准确的位置。
+
+和目标检测一样，有多种方法来解决这个问题，其中一些比较复杂。但是，之前说过，Jonathan Long 等人在 2015 年的一篇论文中提出乐意简单的方法。作者先将预训练的 CNN 转变为 FCN，CNN 使用 32 的总步长（即，将所有大于 1 的步长相加）作用到输入图片上，最后一层的输出特征映射比输入图片小 32 倍。这样过于粗糙，所以添加了一个单独的上采样层，将分辨率乘以 32。
+
+![](img/c15e385180dd286f3ba25a73a9dc40cf.png)
+
+图 14-26 语义分割
+
+有几种上采样（增加图片大小）的方法，比如双线性插值，但只在`×4`或`×8`时好用。Jonathan Long 等人使用了转置卷积层：等价于，先在图片中插入空白的行和列（都是 0），然后做一次常规卷积（见图 14-27）。或者，有人将其考虑为常规卷积层，使用分数步长（比如，图 14-27 中是`1/2`）。转置卷积层一开始的表现和线性插值很像，但因为是可训练的，在训练中会变得更好。在`tf.keras`中，可以使用`Conv2DTranspose`层。
+
+![](img/f34c84521431cd5e8f8fef8b5bd31c64.png)
+
+图 14-27 使用转置卷积层做上采样
+
+> 笔记：在转置卷积层中，步长定义为输入图片被拉伸的倍数，而不是过滤器步长。所以步长越大，输出也就越大（和卷积层或池化层不同）。
+
+> TensorFlow 卷积运算
+> 
+> TensorFlow 还提供了一些其它类型的卷积层：
+> 
+> `keras.layers.Conv1D`：为 1D 输入创建卷积层，比如时间序列或文本，第 15 章会见到。
+> 
+> `keras.layers.Conv3D`：为 3D 输入创建卷积层，比如 3D PET 扫描。
+> 
+> `dilation_rate`：将任何卷积层的`dilation_rate`超参数设为 2 或更大，可以创建有孔卷积层。等价于常规卷积层，加上一个膨胀的、插入了空白行和列的过滤器。例如，一个`1 × 3`的过滤器`[[1,2,3]]`，膨胀 4 倍，就变成了`[[1, 0, 0, 0, 2, 0, 0, 0, 3]]`。这可以让卷积层有一个更大的感受野，却没有增加计算量和额外的参数。
+> 
+> `tf.nn.depthwise_conv2d()`：可以用来创建深度方向卷积层（但需要自己创建参数）。它将每个过滤器应用到每个独立的输入通道上。因此，因此，如果有`f[n]`个过滤器和`f[n']`个输入通道，就会输出`f[n] x f[n']`个特征映射。
+
+这个方法行得通，但还是不够准确。要做的更好，作者从低层开始就添加了跳连接：例如，他们使用因子 2（而不是 32）对输出图片做上采样，然后添加一个低层的输出。然后对结果做因子为 16 的上采样，总的上采样因子为 32（见图 14-28）。这样可以恢复一些在早期池化中丢失的空间分辨率。在他们的最优架构中，他们使用了两个相似的跳连接，以从更低层恢复更小的细节。
+
+总之，原始 CNN 的输出又经过了下面的步骤：上采样`×2`，加上一个低层的输出（形状相同），上采样`×2`，加上一个更低层的输出，最后上采样`×8`。甚至可以放大，超过原图大小：这个方法可以用来提高图片的分辨率，这个技术成为超-分辨率。
+
+![](img/25ec3bd7e556e6587112be22f8c17892.png)
+
+图 14-28 跳连接可以从低层恢复一些空间分辨率
+
+许多 GitHub 仓库提供了语义分割的 TensorFlow 实现，还可以在 TensorFlow Models 中找到预训练的实例分割模型。实例分割和语义分割类似，但不是将相同类的所有物体合并成一坨，而是将每个目标都分开（可以将每辆自行车都分开）。目前，TensorFlow Models 中可用的实例分割时基于 Mask R-CNN 架构的，是在 2017 年的一篇[论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fabs%2F1703.06870)中提出的：通过给每个边框做一个像素罩，拓展 Faster R-CNN 模型。所以不仅能得到边框，还能获得边框中像素的像素罩。
+
+可以发现，深度计算机视觉领域既宽广又发展迅速，每年都会产生新的架构，都是基于卷积神经网络的。最近几年进步惊人，研究者们现在正聚焦于越来越难的问题，比如对抗学习（可以让网络对具有欺骗性的图片更有抵抗力），可解释性（理解为什么网络做出这样的分类），实时图像生成（见第 17 章），一次学习（观察一次，就能认出目标呃系统）。一些人在探索全新的架构，比如 Geoffrey Hinton 的[胶囊网络](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fcapsnet)（见[视频](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fcapsnetvideos)，笔记本中有对应的代码）。下一章会介绍如何用循环神经网络和卷积神经网络来处理序列数据，比如时间序列。
+
+## 练习
+
+1.  对于图片分类，CNN 相对于全连接 DNN 的优势是什么？
+
+2.  考虑一个 CNN，有 3 个卷积层，每个都是`3 × 3`的核，步长为 2，零填充。最低的层输出 100 个特征映射，中间的输出 200 个特征映射，最上面的输出 400 个。输入图片是`3 × 3`像素的 RGB 图。这个 CNN 的总参数量是多少？如果使用 32 位浮点数，做与测试需要多少内存？批次是 50 张图片，训练时的内存消耗是多少？
+
+3.  如果训练 CNN 时 GPU 内存不够，解决该问题的 5 种方法是什么？
+
+4.  为什么使用最大池化层，而不是同样步长的卷积层？
+
+5.  为什么使用局部响应归一化层？
+
+6.  AlexNet 想对于 LeNet-5 的创新在哪里？GoogLeNet、ResNet、SENet、Xception 的创新又是什么？
+
+7.  什么是全卷积网络？如何将紧密层转变为卷积层？
+
+8.  语义分割的主要技术难点是什么？
+
+9.  从零搭建你的 CNN，并在 MNIST 上达到尽可能高的准确率。
+
+10.  使用迁移学习来做大图片分类，经过下面步骤：
+
+a. 创建每个类至少有 100 张图片的训练集。例如，你可以用自己的图片基于地点来分类（沙滩、山、城市，等等），或者使用现成的数据集（比如从 TensorFlow Datasets）。
+
+b. 将其分成训练集、验证集、训练集。
+
+c. 搭建输入管道，包括必要的预处理操作，最好加上数据增强。
+
+d. 在这个数据集上，微调预训练模型。
+
+11.  尝试下 TensorFlow 的[风格迁移教程](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fstyletuto)。用深度学习生成艺术作品很有趣。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/15.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/15.md
new file mode 100644
index 00000000..25f3793c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/15.md
@@ -0,0 +1,513 @@
+# 十五、使用 RNN 和 CNN 处理序列
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+
+
+击球手击出垒球，外场手会立即开始奔跑，并预测球的轨迹。外场手追踪球，不断调整移动步伐，最终在观众的掌声中抓到它。无论是在听完朋友的话还是早餐时预测咖啡的味道，你时刻在做的事就是在预测未来。在本章中，我们将讨论循环神经网络，一类可以预测未来的网络（当然，是到某一点为止）。它们可以分析时间序列数据，比如股票价格，并告诉你什么时候买入和卖出。在自动驾驶系统中，他们可以预测行车轨迹，避免发生事故。更一般地说，它们可在任意长度的序列上工作，而不是截止目前我们讨论的只能在固定长度的输入上工作的网络。举个例子，它们可以将语句，文件，以及语音范本作为输入，应用在在自动翻译，语音到文本的自然语言处理应用中。
+
+在本章中，我们将学习循环神经网络的基本概念，如何使用时间反向传播训练网络，然后用来预测时间序列。然后，会讨论 RNN 面对的两大难点：
+
+*   不稳定梯度（换句话说，在第 11 章中讨论的梯度消失/爆炸），可以使用多种方法缓解，包括循环丢弃和循环层归一化。
+
+*   有限的短期记忆，可以通过 LSTM 和 GRU 单元延长。
+
+RNN 不是唯一能处理序列数据的神经网络：对于小序列，常规紧密网络也可以；对于长序列，比如音频或文本，卷积神经网络也可以。我们会讨论这两种方法，本章最后会实现一个 WaveNet：这是一种 CNN 架构，可以处理上万个时间步的序列。在第 16 章，还会继续学习 RNN，如何使用 RNN 来做自然语言处理，和基于注意力机制的新架构。
+
+## 循环神经元和层
+
+到目前为止，我们主要关注的是前馈神经网络，激活仅从输入层到输出层的一个方向流动（附录 E 中的几个网络除外）。 循环神经网络看起来非常像一个前馈神经网络，除了它也有连接指向后方。 让我们看一下最简单的 RNN，由一个神经元接收输入，产生一个输出，并将输出发送回自己，如图 15-1（左）所示。 在每个时间步`t`（也称为一个帧），这个循环神经元接收输入`x[t]`以及它自己的前一时间步长`y[t - 1]`的输出。 因为第一个时间步骤没有上一次的输出，所以是 0。可以用时间轴来表示这个微小的网络，如图 15-1（右）所示。 这被称为随时间展开网络。
+
+![](img/0e364b0ec66b501a0e4b3ecc75fadeb5.png)
+
+图 15-1 循环神经网络（左），随时间展开网络（右）
+
+你可以轻松创建一个循环神经元层。 在每个时间步`t`，每个神经元都接收输入向量`x[t]`和前一个时间步`y[t - 1]`的输出向量，如图 15-2 所示。 注意，输入和输出都是向量（当只有一个神经元时，输出是一个标量）。
+
+![](img/ec64067740737eaef3b1e27ef0792569.png)
+
+图 15-2 一层循环神经元（左），及其随时间展开（右）
+
+每个循环神经元有两组权重：一组用于输入`x[t]`，另一组用于前一时间步长`y[t - 1]`的输出。 我们称这些权重向量为`w[x]`和`w[y]`。如果考虑的是整个循环神经元层，可以将所有权重向量放到两个权重矩阵中，`W[x]`和`W[y]`。整个循环神经元层的输出可以用公式 15-1 表示（`b`是偏差项，`φ(·)`是激活函数，例如 ReLU）。
+
+![](img/7d054b04b86f7184d742ce4fd79ae23e.png)
+
+公式 15-1 单个实例的循环神经元层的输出
+
+就像前馈神经网络一样，可以将所有输入和时间步`t`放到输入矩阵`X[t]`中，一次计算出整个小批次的输出：（见公式 15-2）。
+
+![](img/eb08159cc0b817249b84df1f4e75fad9.png)
+
+公式 15-2 小批次实例的循环层输出
+
+在这个公式中：
+
+*   `Y[t]`是`m × n_neurons`矩阵，包含在小批次中每个实例在时间步`t`的层输出（`m`是小批次中的实例数，`n_neurons`是神经元数）。
+*   `X[t]`是`m × n_inputs`矩阵，包含所有实例的输入 （`n_inputs`是输入特征的数量）。
+*   `W[x]`是`n_inputs × n_neurons`矩阵，包含当前时间步的输入的连接权重。
+*   `W[y]`是`n_neurons × n_neurons`矩阵，包含上一个时间步的输出的连接权重。
+*   `b`是大小为`n_neurons`的向量，包含每个神经元的偏置项。
+*   权重矩阵`W[x]`和`W[y]`通常纵向连接成一个权重矩阵`W`，形状为`(n_inputs + n_neurons) × n_neurons`（见公式 15-2 的第二行）
+
+注意，`Y[t]`是`X[t]`和`Y[t - 1]`的函数，`Y[t - 1]`是`X[t - 1]`和`Y[t - 2]`的函数，以此类推。这使得`Y[t]`是从时间`t = 0`开始的所有输入（即`X[0]`，`X[1]`，...，`X[t]`）的函数。 在第一个时间步，`t = 0`，没有以前的输出，所以它们通常被假定为全零。
+
+### 记忆单元
+
+由于时间`t`的循环神经元的输出，是由所有先前时间步骤计算出来的的函数，你可以说它有一种记忆形式。神经网络的一部分，保留一些跨越时间步长的状态，称为存储单元（或简称为单元）。单个循环神经元或循环神经元层是非常基本的单元，只能学习短期规律（取决于具体任务，通常是 10 个时间步）。本章后面我们将介绍一些更为复杂和强大的单元，可以学习更长时间步的规律（也取决于具体任务，大概是 100 个时间步）。
+
+一般情况下，时间步`t`的单元状态，记为`h[t]`（`h`代表“隐藏”），是该时间步的某些输入和前一时间步状态的函数：`h[t] = f(h[t - 1], x[t])`。 其在时间步`t`的输出，表示为`y[t]`，也和前一状态和当前输入的函数有关。 我们已经讨论过的基本单元，输出等于单元状态，但是在更复杂的单元中并不总是如此，如图 15-3 所示。
+
+![](img/7412ce440bf5c79fe186f415e7206c4b.png)
+
+图 15-3 单元的隐藏状态和输出可能不同
+
+## 输入和输出序列
+
+RNN 可以同时输入序列并输出序列（见图 15-4，左上角的网络）。这种序列到序列的网络可以有效预测时间序列（如股票价格）：输入过去`N`天价格，则输出向未来移动一天的价格（即，从`N - 1`天前到明天）。
+
+或者，你可以向网络输入一个序列，忽略除最后一项之外的所有输出（图 15-4 右上角的网络）。 换句话说，这是一个序列到向量的网络。 例如，你可以向网络输入与电影评论相对应的单词序列，网络输出情感评分（例如，从`-1 [讨厌]`到`+1 [喜欢]`）。
+
+相反，可以向网络一遍又一遍输入相同的向量（见图 15-4 的左下角），输出一个序列。这是一个向量到序列的网络。 例如，输入可以是图像（或是 CNN 的结果），输出是该图像的标题。
+
+最后，可以有一个序列到向量的网络，称为编码器，后面跟着一个称为解码器的向量到序列的网络（见图 15-4 右下角）。 例如，这可以用于将句子从一种语言翻译成另一种语言。 给网络输入一种语言的一句话，编码器会把这个句子转换成单一的向量表征，然后解码器将这个向量解码成另一种语言的句子。 这种称为编码器 - 解码器的两步模型，比用单个序列到序列的 RNN 实时地进行翻译要好得多，因为句子的最后一个单词可以影响翻译的第一句话，所以你需要等到听完整个句子才能翻译。第 16 章还会介绍如何实现编码器-解码器（会比图 15-4 中复杂）
+
+![](img/071528c1638f48307509ce23a53f8431.png)
+
+图 15-4 序列到序列（左上），序列到向量（右上），向量到序列（左下），延迟序列到序列（右下）
+
+## 训练 RNN
+
+训练 RNN 诀窍是在时间上展开（就像我们刚刚做的那样），然后只要使用常规反向传播（见图 15-5）。 这个策略被称为时间上的反向传播（BPTT）。
+
+![](img/2eb72b6016c50e7bab66a67a1530df86.png)
+
+图 15-5 随时间反向传播
+
+就像在正常的反向传播中一样，展开的网络（用虚线箭头表示）中先有一个正向传播（虚线）。然后使用损失函数`C(Y[0], Y[1], …Y[T]])`评估输出序列（其中`T`是最大时间步）。这个损失函数会忽略一些输出，见图 15-5（例如，在序列到向量的 RNN 中，除了最后一项，其它的都被忽略了）。损失函数的梯度通过展开的网络反向传播（实线箭头）。最后使用在 BPTT 期间计算的梯度来更新模型参数。注意，梯度在损失函数所使用的所有输出中反向流动，而不仅仅通过最终输出（例如，在图 15-5 中，损失函数使用网络的最后三个输出`Y[2]`，`Y[3]`和`Y[4]`，所以梯度流经这三个输出，但不通过`Y[0]`和`Y[1]`。而且，由于在每个时间步骤使用相同的参数`W`和`b`，所以反向传播将做正确的事情并对所有时间步求和。
+
+幸好，`tf.keras`处理了这些麻烦。
+
+## 预测时间序列
+
+假设你在研究网站每小时的活跃用户数，或是所在城市的每日气温，或公司的财务状况，用多种指标做季度衡量。在这些任务中，数据都是一个序列，每步有一个或多个值。这被称为时间序列。在前两个任务中，每个时间步只有一个值，它们是单变量时间序列。在财务状况的任务中，每个时间步有多个值（利润、欠账，等等），所以是多变量时间序列。典型的任务是预测未来值，称为“预测”。另一个任务是填空：预测（或“后测”）过去的缺失值，这被称为“填充”。例如，图 15-6 展示了 3 个单变量时间序列，每个都有 50 个时间步，目标是预测下一个时间步的值（用`X`表示）。
+
+![](img/cdee2dcc8d620310d86fa491e3ea8ffa.png)
+
+图 15-6 时间序列预测
+
+简单起见，使用函数`generate_time_series()`生成的时间序列，如下：
+
+```py
+def generate_time_series(batch_size, n_steps):
+    freq1, freq2, offsets1, offsets2 = np.random.rand(4, batch_size, 1)
+    time = np.linspace(0, 1, n_steps)
+    series = 0.5 * np.sin((time - offsets1) * (freq1 * 10 + 10))  #   wave 1
+    series += 0.2 * np.sin((time - offsets2) * (freq2 * 20 + 20)) # + wave 2
+    series += 0.1 * (np.random.rand(batch_size, n_steps) - 0.5)   # + noise
+    return series[..., np.newaxis].astype(np.float32) 
+```
+
+这个函数可以根据要求创建出时间序列（通过`batch_size`参数），长度为`n_steps`，每个时间步只有 1 个值。函数返回 NumPy 数组，形状是[批次大小, 时间步数, 1]，每个序列是两个正弦波之和（固定强度+随机频率和相位），加一点噪音。
+
+> 笔记：当处理时间序列时（和其它类型的时间序列），输入特征通常用 3D 数组来表示，其形状是`[批次大小, 时间步数, 维度]`，对于单变量时间序列，其维度是 1，多变量时间序列的维度是其维度数。
+
+用这个函数来创建训练集、验证集和测试集：
+
+```py
+n_steps = 50
+series = generate_time_series(10000, n_steps + 1)
+X_train, y_train = series[:7000, :n_steps], series[:7000, -1]
+X_valid, y_valid = series[7000:9000, :n_steps], series[7000:9000, -1]
+X_test, y_test = series[9000:, :n_steps], series[9000:, -1] 
+```
+
+`X_train`包含 7000 个时间序列（即，形状是 [7000, 50, 1]），`X_valid`有 2000 个，`X_test`有 1000 个。因为预测的是单一值，目标值是列向量（`y_train`的形状是`[7000, 1]`）。
+
+### 基线模型
+
+使用 RNN 之前，最好有基线指标，否则做出来的模型可能比基线模型还糟。例如，最简单的方法，是预测每个序列的最后一个值。这个方法被称为朴素预测，有时很难被超越。在这个例子中，它的均方误差为 0.020：
+
+```py
+>>> y_pred = X_valid[:, -1]
+>>> np.mean(keras.losses.mean_squared_error(y_valid, y_pred))
+0.020211367 
+```
+
+另一个简单的方法是使用全连接网络。因为结果要是打平的特征列表，需要加一个`Flatten`层。使用简单线性回归模型，使预测值是时间序列中每个值的线性组合：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[50, 1]),
+    keras.layers.Dense(1)
+]) 
+```
+
+使用 MSE 损失、Adam 优化器编译模型，在训练集上训练 20 个周期，用验证集评估，最终得到的 MSE 值为 0.004。比朴素预测强多了！
+
+### 实现一个简单 RNN
+
+搭建一个简单 RNN 模型：
+
+```py
+model = keras.models.Sequential([
+  keras.layers.SimpleRNN(1, input_shape=[None, 1])
+]) 
+```
+
+这是能实现的最简单的 RNN。只有 1 个层，1 个神经元，如图 15-1。不用指定输入序列的长度（和之前的模型不同），因为循环神经网络可以处理任意的时间步（这就是为什么将第一个输入维度设为`None`）。默认时，`SimpleRNN`使用双曲正切激活函数。和之前看到的一样：初始状态`h[init]`设为 0，和时间序列的第一个值`x[0]`一起传递给神经元。神经元计算这两个值的加权和，对结果使用双曲正切激活函数，得到第一个输出`y[0]`。在简单 RNN 中，这个输出也是新状态`h[0]`。这个新状态和下一个输入值`x[1]`，按照这个流程，直到输出最后一个值，`y[49]`。所有这些都是同时对每个时间序列进行的。
+
+> 笔记：默认时，Keras 的循环层只返回最后一个输出。要让其返回每个时间步的输出，必须设置`return_sequences=True`。
+
+用这个模型编译、训练、评估（和之前一样，用 Adam 训练 20 个周期），你会发现它的 MSE 只有 0.014。击败了朴素预测，但不如简单线性模型。对于每个神经元，线性简单模型中每个时间步骤每个输入就有一个参数（前面用过的简单线性模型一共有 51 个参数）。相反，对于简单 RNN 中每个循环神经元，每个输入每个隐藏状态只有一个参数（在简单 RNN 中，就是每层循环神经元的数量），加上一个偏置项。在这个简单 RNN 中，只有三个参数。
+
+> 趋势和季节性
+> 
+> 还有其它预测时间序列的模型，比如权重移动平均模型或自动回归集成移动平均（ARIMA）模型。某些模型需要先移出趋势和季节性。例如，如果要研究网站的活跃用户数，它每月会增长 10%，就需要去掉这个趋势。训练好模型之后，在做预测时，你可以将趋势加回来做最终的预测。相似的，如果要预测防晒霜的每月销量，会观察到明显的季节性：每年夏天卖的多。需要将季节性从时间序列去除，比如计算每个时间步和前一年的差值（这个方法被称为差分）。然后，当训练好模型，做预测时，可以将季节性加回来，来得到最终结果。
+> 
+> 使用 RNN 时，一般不需要做这些，但在有些任务中可以提高性能，因为模型不是非要学习这些趋势或季节性。
+
+很显然，这个简单 RNN 过于简单了，性能不成。下面就来添加更多的循环层！
+
+### 深度 RNN
+
+将多个神经元的层堆起来，见图 15-7。就形成了深度 RNN。
+
+![](img/c31153ab45ed5520564b4fc8d2c267a5.png)
+
+图 15-7 深度 RNN（左）和随时间展开的深度 RNN（右）
+
+用`tf.keras`实现深度 RNN 相当容易：将循环层堆起来就成。在这个例子中，我们使用三个`SimpleRNN`层（也可以添加其它类型的循环层，比如 LSTM 或 GRU）：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
+    keras.layers.SimpleRNN(20, return_sequences=True),
+    keras.layers.SimpleRNN(1)
+]) 
+```
+
+> 警告：所有循环层一定要设置`return_sequences=True`（除了最后一层，因为最后一层只关心输出）。如果没有设置，输出的是 2D 数组（只有最终时间步的输出），而不是 3D 数组（包含所有时间步的输出），下一个循环层就接收不到 3D 格式的序列数据。
+
+如果对这个模型做编译，训练和评估，其 MSE 值可以达到 0.003。总算打败了线性模型！
+
+最后一层不够理想：因为要预测单一值，每个时间步只能有一个输出值，最终层只能有一个神经元。但是一个神经元意味着隐藏态只有一个值。RNN 大部分使用其他循环层的隐藏态的所有信息，最后一层的隐藏态不怎么用到。另外，因为`SimpleRNN`层默认使用 tanh 激活函数，预测值位于 -1 和 1 之间。想使用另一个激活函数该怎么办呢？出于这些原因，最好使用紧密层：运行更快，准确率差不多，可以选择任何激活函数。如果做了替换，要将第二个循环层的`return_sequences=True`删掉：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
+    keras.layers.SimpleRNN(20),
+    keras.layers.Dense(1)
+]) 
+```
+
+如果训练这个模型，会发现它收敛更快，效果也不错。
+
+### 提前预测几个时间步
+
+目前为止我们只是预测下一个时间步的值，但也可以轻易地提前预测几步，只要改变目标就成（例如，要提前预测 10 步，只要将目标变为 10 步就成）。但如果想预测后面的 10 个值呢？
+
+第一种方法是使用训练好的模型，预测出下一个值，然后将这个值添加到输入中（假设这个预测值真实发生了），使用这个模型再次预测下一个值，依次类推，见如下代码：
+
+```py
+series = generate_time_series(1, n_steps + 10)
+X_new, Y_new = series[:, :n_steps], series[:, n_steps:]
+X = X_new
+for step_ahead in range(10):
+    y_pred_one = model.predict(X[:, step_ahead:])[:, np.newaxis, :]
+    X = np.concatenate([X, y_pred_one], axis=1)
+
+Y_pred = X[:, n_steps:] 
+```
+
+想象的到，第一个预测值比后面的更准，因为错误可能会累积（见图 15-8）。如果在验证集上评估这个方法，MSE 值为 0.029。MSE 比之前高多了，但因为任务本身难，这个对比意义不大。将其余朴素预测（预测时间序列可以恒定 10 个步骤）或简单线性模型对比的意义更大。朴素方法效果很差（MSE 值为 0.223），线性简单模型的 MSE 值为 0.0188：比 RNN 的预测效果好，并且还快。如果只想在复杂任务上提前预测几步的话，这个方法就够了。
+
+![](img/dcde16e26dd91d0552c1e119c1fcee1e.png)
+
+图 15-8 提前预测 10 步，每次 1 步
+
+第二种方法是训练一个 RNN，一次性预测出 10 个值。还可以使用序列到向量模型，但输出的是 10 个值。但是，我们先需要修改向量，时期含有 10 个值：
+
+```py
+series = generate_time_series(10000, n_steps + 10)
+X_train, Y_train = series[:7000, :n_steps], series[:7000, -10:, 0]
+X_valid, Y_valid = series[7000:9000, :n_steps], series[7000:9000, -10:, 0]
+X_test, Y_test = series[9000:, :n_steps], series[9000:, -10:, 0] 
+```
+
+然后使输出层有 10 个神经元：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
+    keras.layers.SimpleRNN(20),
+    keras.layers.Dense(10)
+]) 
+```
+
+训练好这个模型之后，就可以一次预测出后面的 10 个值了：
+
+```py
+Y_pred = model.predict(X_new) 
+```
+
+这个模型的效果不错：预测 10 个值的 MSE 值为 0.008。比线性模型强多了。但还有继续改善的空间，除了在最后的时间步用训练模型预测接下来的 10 个值，还可以在每个时间步预测接下来的 10 个值。换句话说，可以将这个序列到向量的 RNN 变成序列到序列的 RNN。这种方法的优势，是损失会包含 RNN 的每个时间步的输出项，不仅是最后时间步的输出。这意味着模型中会流动着更多的误差梯度，梯度不必只通过时间流动；还可以从输出流动。这样可以稳定和加速训练。
+
+更加清楚一点，在时间步 0，模型输出一个包含时间步 1 到 10 的预测向量，在时间步 1，模型输出一个包含时间步 2 到 11 的预测向量，以此类推。因此每个目标必须是一个序列，其长度和输入序列长度相同，每个时间步包含一个 10 维向量。先准备目标序列：
+
+```py
+Y = np.empty((10000, n_steps, 10)) # each target is a sequence of 10D vectors
+for step_ahead in range(1, 10 + 1):
+    Y[:, :, step_ahead - 1] = series[:, step_ahead:step_ahead + n_steps, 0]
+Y_train = Y[:7000]
+Y_valid = Y[7000:9000]
+Y_test = Y[9000:] 
+```
+
+> 笔记：目标要包含出现在输入中的值（`X_train` 和 `Y_train`有许多重复），听起来很奇怪。这不是作弊吗？其实不是：在每个时间步，模型只知道过去的时间步，不能向前看。这个模型被称为因果模型。
+
+要将模型变成序列到序列的模型，必须给所有循环层（包括最后一个）设置`return_sequences=True`，还必须在每个时间步添加紧密输出层。出于这个目的，Keras 提供了`TimeDistributed`层：它将任意层（比如，紧密层）包装起来，然后在输入序列的每个时间步上使用。通过变形输入，将每个时间步处理为独立实例（即，将输入从`[批次大小, 时间步数, 输入维度]`变形为`[批次大小 × 时间步数, 输入维度]`；在这个例子中，因为前一`SimpleRNN`有 20 个神经元，输入的维度数是 20），这个层的效率很高。然后运行紧密层，最后将输出变形为序列（即，将输出从`[批次大小 × 时间步数, 输出维度]`变形为`[批次大小, 时间步数, 输出维度]`；在这个例子中，输出维度数是 10，因为紧密层有 10 个神经元）。下面是更新后的模型：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
+    keras.layers.SimpleRNN(20, return_sequences=True),
+    keras.layers.TimeDistributed(keras.layers.Dense(10))
+]) 
+```
+
+紧密层实际上是支持序列（和更高维度的输入）作为输入的：如同`TimeDistributed(Dense(…))`一样处理序列，意味着只应用在最后的输入维度上（所有时间步独立）。因此，因此可以将最后一层替换为`Dense(10)`。但为了能够清晰，我们还是使用`TimeDistributed(Dense(10))`，因为清楚的展示了紧密层独立应用在了每个时间上，并且模型会输出一个序列，不仅仅是一个单向量。
+
+训练时需要所有输出，但预测和评估时，只需最后时间步的输出。因此尽管训练时依赖所有输出的 MSE，评估需要一个自定义指标，只计算最后一个时间步输出值的 MSE：
+
+```py
+def last_time_step_mse(Y_true, Y_pred):
+    return keras.metrics.mean_squared_error(Y_true[:, -1], Y_pred[:, -1])
+
+optimizer = keras.optimizers.Adam(lr=0.01)
+model.compile(loss="mse", optimizer=optimizer, metrics=[last_time_step_mse]) 
+```
+
+得到的 MSE 值为 0.006，比前面的模型提高了 25%。可以将这个方法和第一个结合起来：先用这个 RNN 预测接下来的 10 个值，然后将结果和输入序列连起来，再用模型预测接下来的 10 个值，以此类推。使用这个方法，可以预测任意长度的序列。对长期预测可能不那么准确，但用来生成音乐和文字是足够的，第 16 章有例子。
+
+> 提示：当预测时间序列时，最好给预测加上误差条。要这么做，一个高效的方法是用 MC 丢弃，第 11 章介绍过：给每个记忆单元添加一个 MC 丢弃层丢失部分输入和隐藏状态。训练之后，要预测新的时间序列，可以多次使用模型计算每一步预测值的平均值和标准差。
+
+简单 RNN 在预测时间序列或处理其它类型序列时表现很好，但在长序列上表现不佳。接下来就探究其原因和解决方法。
+
+## 处理长序列
+
+在训练长序列的 RNN 模型时，必须运行许多时间步，展开的 RNN 变成了一个很深的网络。正如任何深度神经网络一样，它面临不稳定梯度问题（第 11 章讨论过），使训练无法停止，或训练不稳定。另外，当 RNN 处理长序列时，RNN 会逐渐忘掉序列的第一个输入。下面就来看看这两个问题，先是第一个问题。
+
+### 应对不稳定梯度
+
+很多之前讨论过的缓解不稳定梯度的技巧都可以应用在 RNN 中：好的参数初始化方式，更快的优化器，丢弃，等等。但是非饱和激活函数（如 ReLU）的帮助不大；事实上，它会导致 RNN 更加不稳定。为什么呢？假设梯度下降更新了权重，可以令第一个时间步的输出提高。因为每个时间步使用的权重相同，第二个时间步的输出也会提高，这样就会导致输出爆炸 —— 不饱和激活函数不能阻止这个问题。要降低爆炸风险，可以使用更小的学习率，更简单的方法是使用一个饱和激活函数，比如双曲正切函数（这就解释了为什么 tanh 是默认选项）。同样的道理，梯度本身也可能爆炸。如果观察到训练不稳定，可以监督梯度的大小（例如，使用 TensorBoard），看情况使用梯度裁剪。
+
+另外，批归一化也没什么帮助。事实上，不能在时间步骤之间使用批归一化，只能在循环层之间使用。更加准确点，技术上可以将 BN 层添加到记忆单元上（后面会看到），这样就可以应用在每个时间步上了（既对输入使用，也对前一步的隐藏态使用）。但是，每个时间步用 BN 层相同，参数也相同，与输入和隐藏态的大小和偏移无关。在实践中，César Laurent 等人在 2015 年的[一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Frnnbn)展示，这么做的效果不好：作者发现 BN 层只对输入有用，而对隐藏态没用。换句话说，在循环层之间使用 BN 层时，效果只有一点（即在图 15-7 中垂直使用），在循环层之内使用，效果不大（即，水平使用）。在 Keras 中，可以在每个循环层之前添加`BatchNormalization`层，但不要期待太高。
+
+另一种归一化的形式效果好些：层归一化。它是由 Jimmy Lei Ba 等人在 2016 年的[一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Flayernorm)中提出的：它跟批归一化很像，但不是在批次维度上做归一化，而是在特征维度上归一化。这么做的一个优势是可以独立对每个实例，实时计算所需的统计量。这还意味着训练和测试中的行为是一致的（这点和 BN 相反），且不需要使用指数移动平均来估计训练集中所有实例的特征统计。和 BN 一样，层归一化会学习每个输入的比例和偏移参数。在 RNN 中，层归一化通常用在输入和隐藏态的线型组合之后。
+
+使用`tf.keras`在一个简单记忆单元中实现层归一化。要这么做，需要定义一个自定义记忆单元。就像一个常规层一样，`call()`接收两个参数：当前时间步的`inputs`和上一时间步的隐藏`states`。`states`是一个包含一个或多个张量的列表。在简单 RNN 单元中，`states`包含一个等于上一时间步输出的张量，但其它单元可能包含多个状态张量（比如`LSTMCell`有长期状态和短期状态）。单元还必须有一个`state_size`属性和一个`output_size`属性。在简单 RNN 中，这两个属性等于神经元的数量。下面的代码实现了一个自定义记忆单元，作用类似于`SimpleRNNCell`，但会在每个时间步做层归一化：
+
+```py
+class LNSimpleRNNCell(keras.layers.Layer):
+    def __init__(self, units, activation="tanh", **kwargs):
+        super().__init__(**kwargs)
+        self.state_size = units
+        self.output_size = units
+        self.simple_rnn_cell = keras.layers.SimpleRNNCell(units,
+                                                          activation=None)
+        self.layer_norm = keras.layers.LayerNormalization()
+        self.activation = keras.activations.get(activation)
+    def call(self, inputs, states):
+        outputs, new_states = self.simple_rnn_cell(inputs, states)
+        norm_outputs = self.activation(self.layer_norm(outputs))
+        return norm_outputs, [norm_outputs] 
+```
+
+代码不难。和其它自定义类一样，`LNSimpleRNNCell`继承自`keras.layers.Layer`。构造器接收单元的数量、激活函数、设置`state_size` 和`output_size`属性，创建一个没有激活函数的`SimpleRNNCell`（因为要在线性运算之后、激活函数之前运行层归一化）。然后构造器创建`LayerNormalization`层，最终拿到激活函数。`call()`方法先应用简单 RNN 单元，计算当前输入和上一隐藏态的线性组合，然后返回结果两次（事实上，在`SimpleRNNCell`中，输入等于隐藏状态：换句话说，`new_states[0]`等于`outputs`，因此可以放心地在剩下的`call()`中忽略`new_states`）。然后，`call()`应用层归一化，然后使用激活函数。最后，返回去输出两次（一次作为输出，一次作为新的隐藏态）。要使用这个自定义单元，需要做的是创建一个`keras.layers.RNN`层，传给其单元实例：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.RNN(LNSimpleRNNCell(20), return_sequences=True,
+                     input_shape=[None, 1]),
+    keras.layers.RNN(LNSimpleRNNCell(20), return_sequences=True),
+    keras.layers.TimeDistributed(keras.layers.Dense(10))
+]) 
+```
+
+相似地，可以创建一个自定义单元，在时间步之间应用丢弃。但有一个更简单的方法：Keras 提供的所有循环层（除了`keras.layers.RNN`）和单元都有一个`dropout`超参数和一个`recurrent_dropout`超参数：前者定义丢弃率，应用到所有输入上（每个时间步），后者定义丢弃率，应用到隐藏态上（也是每个时间步）。无需在 RNN 中创建自定义单元来应用丢弃。
+
+有了这些方法，就可以减轻不稳定梯度问题，高效训练 RNN 了。下面来看如何处理短期记忆问题。
+
+### 处理短期记忆问题
+
+由于数据在 RNN 中流动时会经历转换，每个时间步都损失了一定信息。一定时间后，第一个输入实际上会在 RNN 的状态中消失。就像一个搅局者。比如《寻找尼莫》中的多莉想翻译一个长句：当她读完这句话时，就把开头忘了。为了解决这个问题，涌现出了各种带有长期记忆的单元。首先了解一下最流行的一种：长短时记忆神经单元 LSTM。
+
+## LSTM 单元
+
+长短时记忆单元在 1997 年[由 Sepp Hochreiter 和 Jürgen Schmidhuber 首次提出](https://links.jianshu.com/go?to=https%3A%2F%2Fgoo.gl%2Fj39AGv)，并在接下来的几年内经过 [Alex Graves](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fgraves)、[Haşim Sak](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F94)、[Wojciech Zaremba](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F95) 等人的改进，逐渐完善。如果把 LSTM 单元看作一个黑盒，可以将其当做基本单元一样来使用，但 LSTM 单元比基本单元性能更好：收敛更快，能够感知数据的长时依赖。在 Keras 中，可以将`SimpleRNN`层，替换为`LSTM`层：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.LSTM(20, return_sequences=True, input_shape=[None, 1]),
+    keras.layers.LSTM(20, return_sequences=True),
+    keras.layers.TimeDistributed(keras.layers.Dense(10))
+]) 
+```
+
+或者，可以使用通用的`keras.layers.RNN layer`，设置`LSTMCell`参数：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.RNN(keras.layers.LSTMCell(20), return_sequences=True,
+                     input_shape=[None, 1]),
+    keras.layers.RNN(keras.layers.LSTMCell(20), return_sequences=True),
+    keras.layers.TimeDistributed(keras.layers.Dense(10))
+]) 
+```
+
+但是，当在 GPU 运行时，LSTM 层使用了优化的实现（见第 19 章），所以更应该使用 LSTM 层（`RNN`大多用来自定义层）。
+
+LSTM 单元的工作机制是什么呢？图 15-9 展示了 LSTM 单元的结构。
+
+![](img/70745cb802d7baf094598d9d5a61e02b.png)
+
+图 15-9 LSTM 单元
+
+如果不观察黑箱的内部，LSTM 单元跟常规单元看起来差不多，除了 LSTM 单元的状态分成了两个向量：`h[t]`和`c[t]`（`c`代表 cell）。可以认为`h[t]`是短期记忆状态，`c[t]`是长期记忆状态。
+
+现在打开黑箱。LSTM 单元的核心思想是它能从长期状态中学习该存储什么、丢掉什么、读取什么。当长期状态`c[t-1]`从左向右在网络中传播，它先经过遗忘门（forget gate），丢弃一些记忆，之后通过添加操作增加一些记忆（从输入门中选择一些记忆）。结果`c[t]`不经任何转换直接输出。因此，在每个时间步，都有一些记忆被抛弃，也有新的记忆添加进来。另外，添加操作之后，长时状态复制后经过 tanh 激活函数，然后结果被输出门过滤。得到短时状态`h[t]`（它等于这一时间步的单元输出，`y[t]`。接下来讨论新的记忆如何产生，门是如何工作的。
+
+首先，当前的输入向量`x[t]`和前一时刻的短时状态`h[t-1]`作为输入，传给四个不同的全连接层，这四个全连接层有不同的目的：
+
+*   输出`g[t]`的层是主要层。它的常规任务是分析当前的输入`x[t]`和前一时刻的短时状态`h[t-1]`。基本单元中与这种结构一样，直接输出了`h[t]`和`y[t]`。相反的，LSTM 单元中的该层的输出不会直接出去，儿是将最重要的部分保存在长期状态中（其余部分丢掉）。
+
+*   其它三个全连接层被是门控制器（gate controller）。其采用 Logistic 作为激活函数，输出范围在 0 到 1 之间。可以看到，这三个层的输出提供给了逐元素乘法操作，当输入为 0 时门关闭，输出为 1 时门打开。具体讲：
+
+    *   遗忘门（由`f[t]`控制）决定哪些长期记忆需要被删除；
+
+    *   输入门（由`i[t]`控制） 决定哪部分`g[t]`应该被添加到长时状态中。
+
+    *   输出门（由`o[t]`控制）决定长时状态的哪些部分要读取和输出为`h[t]`和`y[t]`。
+
+总而言之，LSTM 单元能够学习识别重要输入（输入门的作用），存储进长时状态，并保存必要的时间（遗忘门功能），并在需要时提取出来。这解释了为什么 LSTM 单元能够如此成功地获取时间序列、长文本、录音等数据中的长期模式。
+
+公式 15-3 总结了如何计算单元的长时状态，短时状态，和单个实例的在每个时间步的输出（小批次的公式和这个公式很像）。
+
+![](img/f40d22d847ea7561418001c057fb9ae7.png)
+
+公式 15-3 LSTM 计算
+
+在这个公式中，
+
+*   `W[xi]`，`W[xf]`，`W[xo]`，`W[xg]`是四个全连接层连接输入向量`X[t]`的权重。
+
+*   `W[hi]`，`W[hf]`，`W[ho]`，`W[hg]`是四个全连接层连接上一时刻的短时状态`h[t - 1]`的权重。
+
+*   `b[i]`，`b[f]`，`b[o]`，`b[g]`是全连接层的四个偏置项。需要注意的是 TensorFlow 将`b[f]`初始化为全 1 向量，而非全 0。这样可以保证在训练状态开始时，忘掉所有东西。
+
+### 窥孔连接
+
+在基本 LSTM 单元中，门控制器只能观察当前输入`x[t]`和前一时刻的短时状态`h[t - 1]`。不妨让各个门控制器窥视一下长时状态，获取一些上下文信息。[该想法](https://links.jianshu.com/go?to=ftp.idsia.ch%2Fpub%2Fjuergen%2FTimeCount-IJCNN2000.pdf)由 Felix Gers 和 Jürgen Schmidhuber 在 2000 年提出。他们提出了一个 LSTM 的变体，带有叫做窥孔连接的额外连接：把前一时刻的长时状态`c[t - 1]`输入给遗忘门和输入门，当前时刻的长时状态`c[t]`输入给输出门。这么做时常可以提高性能，但不一定每次都能有效，也没有清晰的规律显示哪种任务适合添加窥孔连接。
+
+Keras 中，`LSTM`层基于`keras.layers.LSTMCell`单元，后者目前还不支持窥孔。但是，试验性的`tf.keras.experimental.PeepholeLSTMCell`支持，所以可以创建一个`keras.layers.RNN`层，向构造器传入`PeepholeLSTMCell`。
+
+LSTM 有多种其它变体，其中特别流行的是 GRU 单元。
+
+### GRU 单元
+
+![](img/6056ca0fed15a10cfa75c2b47e731ce0.png)
+
+图 15-10 GRU 单元
+
+门控循环单元（图 15-10）在 2014 年的 [Kyunghyun Cho 的论文](https://links.jianshu.com/go?to=https%3A%2F%2Farxiv.org%2Fpdf%2F1406.1078v3.pdf)中提出，并且此文也引入了前文所述的编码器-解码器网络。
+
+GRU 单元是 LSTM 单元的简化版本，能实现同样的性能（这也说明了为什么它能越来越流行）。简化主要在一下几个方面：
+
+*   长时状态和短时状态合并为一个向量`h[t]`。
+
+*   用一个门控制器`z[t]`控制遗忘门和输入门。如果门控制器输出 1，则遗忘门打开（`= 1`），输入门关闭（`1 - 1 = 0`）。如果输出 0，则相反。换句话说，如果当有记忆要存储，那么就必须先在其存储位置删掉该处记忆。这构成了 LSTM 本身的常见变体。
+
+*   GRU 单元取消了输出门，每个时间步输出全态向量。但是，增加了一个控制门`r[t]`来控制前一状态的哪些部分呈现给主层`g[t]`。
+
+公式 15-4 总结了如何计算单元对单个实例在每个时间步的状态。
+
+![](img/4a588bbd07f62095da42f3e87339926b.png)
+
+公式 15-4 GRU 计算
+
+Keras 提供了`keras.layers.GRU`层（基于`keras.layers.GRUCell`记忆单元）；使用时，只需将`SimpleRNN`或`LSTM`替换为`GRU`。
+
+LSTM 和 GRU 是 RNN 取得成功的主要原因之一。尽管它们相比于简单 RNN 可以处理更长的序列了，还是有一定程度的短时记忆，序列超过 100 时，比如音频、长时间序列或长序列，学习长时模式就很困难。应对的方法之一，是使用缩短输入序列，例如使用 1D 卷积层。
+
+### 使用 1D 卷积层处理序列
+
+在第 14 章中，我们使用 2D 卷积层，通过在图片上滑动几个小核（或过滤器），来产生多个 2D 特征映射（每个核产生一个）。相似的，1D 军几层在序列上滑动几个核，每个核可以产生一个 1D 特征映射。每个核能学到一个非常短序列模式（不会超过核的大小）。如果你是用 10 个核，则输出会包括 10 个 1 维的序列（长度相同），或者可以将输出当做一个 10 维的序列。这意味着，可以搭建一个由循环层和 1D 卷积层（或 1 维池化层）混合组成的神经网络。如果 1D 卷积层的步长是 1，填充为零，则输出序列的长度和输入序列相同。但如果使用`"valid"`填充，或大于 1 的步长，则输出序列会比输入序列短，所以一定要按照目标作出调整。例如，下面的模型和之前的一样，除了开头是一个步长为 2 的 1D 卷积层，用因子 2 对输入序列降采样。核大小比步长大，所以所有输入会用来计算层的输出，所以模型可以学到保存有用的信息、丢弃不重要信息。通过缩短序列，卷积层可以帮助 GRU 检测长模式。注意，必须裁剪目标中的前三个时间步（因为核大小是 4，卷积层的第一个输出是基于输入时间步 0 到 3），并用因子 2 对目标做降采样：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.Conv1D(filters=20, kernel_size=4, strides=2, padding="valid",
+                        input_shape=[None, 1]),
+    keras.layers.GRU(20, return_sequences=True),
+    keras.layers.GRU(20, return_sequences=True),
+    keras.layers.TimeDistributed(keras.layers.Dense(10))
+])
+
+model.compile(loss="mse", optimizer="adam", metrics=[last_time_step_mse])
+history = model.fit(X_train, Y_train[:, 3::2], epochs=20,
+                    validation_data=(X_valid, Y_valid[:, 3::2])) 
+```
+
+如果训练并评估这个模型，你会发现它是目前最好的模型。卷积层确实发挥了作用。事实上，可以只使用 1D 卷积层，不用循环层！
+
+### WaveNet
+
+在一篇 2016 年的[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fwavenet)中，Aaron van den Oord 和其它 DeepMind 的研究者，提出了一个名为 WaveNet 的架构。他们将 1D 卷积层叠起来，每一层膨胀率（如何将每个神经元的输入分开）变为 2 倍：第一个卷积层一次只观察两个时间步，，接下来的一层观察四个时间步（感受野是 4 个时间步的长度），下一层观察八个时间步，以此类推（见图 15-11）。用这种方式，底下的层学习短时模式，上面的层学习长时模式。得益于翻倍的膨胀率，这个网络可以非常高效地处理极长的序列。
+
+![](img/36df0b6e0bffc722814f35bdd3bb5581.png)
+
+图 15-11 WaveNet 架构
+
+在 WaveNet 论文中，作者叠了 10 个卷积层，膨胀率为 1, 2, 4, 8, …, 256, 512，然后又叠了一组 10 个相同的层（膨胀率还是 1, 2, 4, 8, …, 256, 512），然后又是 10 个相同的层。作者解释到，一摞这样的 10 个卷积层，就像一个超高效的核大小为 1024 的卷积层（只是更快、更强、参数更少），所以同样的结构叠了三次。他们还给输入序列左填充了一些 0，以满足每层的膨胀率，使序列长度不变。下面的代码实现了简化的 WaveNet，来处理前面的序列：
+
+```py
+model = keras.models.Sequential()
+model.add(keras.layers.InputLayer(input_shape=[None, 1]))
+for rate in (1, 2, 4, 8) * 2:
+    model.add(keras.layers.Conv1D(filters=20, kernel_size=2, padding="causal",
+                                  activation="relu", dilation_rate=rate))
+model.add(keras.layers.Conv1D(filters=10, kernel_size=1))
+model.compile(loss="mse", optimizer="adam", metrics=[last_time_step_mse])
+history = model.fit(X_train, Y_train, epochs=20,
+                    validation_data=(X_valid, Y_valid)) 
+```
+
+`Sequential`模型开头是一个输入层（比只在第一个层上设定`input_shape`简单的多）；然后是一个 1D 卷积层，使用`"causal"`填充：这可以保证卷积层在做预测时，不会窥视到未来值（等价于在输入序列的左边用零填充填充合适数量的 0）。然后添加相似的成对的层，膨胀率为 1、2、4、8，接着又是 1、2、4、8。最后，添加输出层：一个有 10 个大小为 1 的过滤器的卷积层，没有激活函数。得益于填充层，每个卷积层输出的序列长度都和输入序列一样，所以训练时的目标可以是完整序列：无需裁剪或降采样。
+
+最后两个模型的序列预测结果最好！在 WaveNet 论文中，作者在多种音频任务（WaveNet 名字正是源于此）中，包括文本转语音任务（可以输出多种语言极为真实的语音），达到了顶尖的表现。他们还用这个模型生成音乐，每次生成一段音频。每段音频包含上万个时间步（LSTM 和 GRU 无法处理如此长的序列），这是相当了不起的。
+
+第 16 章，我们会继续探索 RNN，会看到如何用 RNN 处理各种 NLP 任务。
+
+## 练习
+
+1.  你能说出序列到序列 RNN 的几个应用吗？序列到向量的应用？向量到序列的应用？
+
+2.  RNN 层的输入要有多少维？每一维表示什么？输出呢？
+
+3.  如果搭建深度序列到序列 RNN，哪些 RNN 层要设置`return_sequences=True`？序列到向量 RNN 又如何？
+
+4.  假如有一个每日单变量时间序列，想预测接下来的七天。要使用什么 RNN 架构？
+
+5.  训练 RNN 的困难是什么？如何应对？
+
+6.  画出 LSTM 单元的架构图？
+
+7.  为什么在 RNN 中使用 1D 卷积层？
+
+8.  哪种神经网络架构可以用来分类视频？
+
+9.  为 SketchRNN 数据集（TensorFlow Datasets 中有），训练一个分类模型。
+
+10.  下载 [Bach chorales](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fbach) 数据集，并解压。它含有 382 首巴赫作曲的赞美歌。每首的长度是 100 到 640 时间步，每个时间步包含 4 个整数，每个整数对应一个钢琴音符索引（除了 0，表示没有音符）。训练一个可以预测下一个时间步（四个音符）的模型，循环、卷积、或混合架构。然后使用这个模型来生成类似巴赫的音乐，每个时间一个音符：可以给模型一首赞美歌的开头，然后让其预测接下来的时间步，然后将输出加到输入上，再让模型继续预测。或者查看 [Google 的 Coconet 模型](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fcoconet)，它是 Google 来做巴赫曲子的。
+
+参考答案见附录 A。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/16.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/16.md
new file mode 100644
index 00000000..00644da4
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/16.md
@@ -0,0 +1,793 @@
+{% raw %}
+
+# 十六、使用 RNN 和注意力机制进行自然语言处理
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+
+
+当阿兰·图灵在 1950 年设计[图灵机](https://links.jianshu.com/go?to=http%3A%2F%2Fcogprints.org%2F499%2F1%2Fturing.html)时，他的目标是用人的智商来衡量机器。他本可以用其它方法来测试，比如看图识猫、下棋、作曲或逃离迷宫，但图灵选择了一个语言任务。更具体的，他设计了一个聊天机器人，试图迷惑对话者将其当做真人。这个测试有明显的缺陷：一套硬编码的规则可以愚弄粗心人（比如，机器可以针对一些关键词，做出预先定义的模糊响应；机器人可以假装开玩笑或喝醉；或者可以通过反问侥幸过关），忽略了人类的多方面的智力（比如非语言交流，比如面部表情，或是学习动手任务）。但图灵测试强调了一个事实，语言能力是智人最重要的认知能力。我们能创建一台可以读写自然语言的机器吗？
+
+自然语言处理的常用方法是循环神经网络。所以接下来会从字符 RNN 开始（预测句子中出现的下一个字符），继续介绍 RNN，这可以让我们生成一些原生文本，在过程中，我们会学习如何在长序列上创建 TensorFlow Dataset。先使用的是无状态 RNN（每次迭代中学习文本中的随机部分），然后创建一个有状态 RNN（保留训练迭代之间的隐藏态，可以从断点继续，用这种方法学习长规律）。然后，我们会搭建一个 RNN，来做情感分析（例如，读取影评，提取评价者对电影的感情），这次是将句子当做词的序列来处理。然后会介绍用 RNN 如何搭建编码器-解码器架构，来做神经网络机器翻译（NMT）。我们会使用 TensorFlow Addons 项目中的 seq2seq API 。
+
+本章的第二部分，会介绍注意力机制。正如其名字，这是一种可以选择输入指定部分，模型在每个时间步都得聚焦的神经网络组件。首先，会介绍如何使用注意力机制提升基于 RNN 的编码器-解码器架构的性能，然后会完全摒弃 RNN，介绍只使用注意力的架构，被称为 Transformer（转换器）。最后，会介绍 2018、2019 两年 NLP 领域的进展，包括强大的语言模型，比如 GPT-2 和 Bert，两者都是基于 Transformer 的。
+
+先从一个简单有趣的模型开始，它能写出莎士比亚风格的文字。
+
+## 使用 Character RNN 生成莎士比亚风格的文本
+
+在 2015 年一篇著名的、名为《The Unreasonable Effectiveness of Recurrent Neural Networks》博客中，Andrej Karpathy 展示了如何训练 RNN，来预测句子中的下一个字符。这个 Char-RNN 可以用来生成小说，每次一个字符。下面是一段简短的、由 Char-RNN 模型（在莎士比亚全部著作上训练而成）生成的文本：
+
+```py
+PANDARUS:
+Alas, I think he shall be come approached and the day
+When little srain would be attain'd into being never fed,
+And who is but a chain and subjects of his death,
+I should not sleep. 
+```
+
+虽然文笔一般，但只是通过学习来预测一句话中的下一个字符，模型在单词、语法、断句等等方面做的很好。接下来一步一步搭建 Char-RNN，从创建数据集开始。
+
+### 创建训练数据集
+
+首先，使用 Keras 的`get_file()`函数，从 Andrej Karpathy 的 [Char-RNN 项目](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fkarpathy%2Fchar-rnn)，下载所有莎士比亚的作品：
+
+```py
+shakespeare_url = "https://homl.info/shakespeare" # shortcut URL
+filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)
+with open(filepath) as f:
+    shakespeare_text = f.read() 
+```
+
+然后，将每个字符编码为一个整数。方法之一是创建一个自定义预处理层，就像之前在第 13 章做的那样。但在这里，使用 Keras 的`Tokenizer`会更加简单。首先，将一个将分词器拟合到文本：分词器能从文本中发现所有的字符，并将所有字符映射到不同的字符 ID，映射从 1 开始（注意不是从 0 开始，0 是用来做遮挡的，后面会看到）：
+
+```py
+tokenizer = keras.preprocessing.text.Tokenizer(char_level=True)
+tokenizer.fit_on_texts([shakespeare_text]) 
+```
+
+设置`char_level=True`，以得到字符级别的编码，而不是默认的单词级别的编码。这个分词器默认将所有文本转换成了小写（如果不想这样，可以设置`lower=False`）。现在分词器可以将一整句（或句子列表）编码为字符 ID 列表，这可以告诉我们文本中有多少个独立的字符，以及总字符数：
+
+```py
+>>> tokenizer.texts_to_sequences(["First"])
+[[20, 6, 9, 8, 3]]
+>>> tokenizer.sequences_to_texts([[20, 6, 9, 8, 3]])
+['f i r s t']
+>>> max_id = len(tokenizer.word_index) # number of distinct characters
+>>> dataset_size = tokenizer.document_count # total number of characters 
+```
+
+现在对完整文本做编码，将每个字符都用 ID 来表示（减 1 使 ID 从 0 到 38，而不是 1 到 39）：
+
+```py
+[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1 
+```
+
+继续之前，需要将数据集分成训练集、验证集和测试集。不能大论字符，该怎么处理这种序列式的数据集呢？
+
+### 如何切分序列数据集
+
+避免训练集、验证集、测试集发生重合非常重要。例如，可以取 90% 的文本作为训练集，5% 作为验证集，5% 作为测试集。在这三个数据之间留出空隙，以避免段落重叠也是非常好的主意。
+
+当处理时间序列时，通常按照时间切分：例如，可以将从 2000 到 2012 的数据作为训练集，2013 年到 2015 年作为验证集，2016 年到 2018 年作为测试集。但是，在另一些任务中，可以按照其它维度来切分，可以得到更长的时间周期进行训练。例如，10000 家公司从 2000 年到 2018 年的金融健康数据，可以按照不同公司来切分。但是，很可能其中一些公司是高度关联的（比如，经济领域的公司涨落相同），如果训练集和测试集中有关联的公司，则测试集的意义就不大，泛化误差会存在偏移。
+
+因此，在时间维度上切分更加安全 —— 但这实际是默认 RNN 可以（在训练集）从过去学到的规律也适用于将来。换句话说，我们假设时间序列是静态的（至少是在一个较宽的区间内）。对于时间序列，这个假设是合理的（比如，化学反应就是这样，化学定理不会每天发生改变），但其它的就不是（例如，金融市场就不是静态的，一旦交易员发现规律并从中牟利，规律就会改变）。要保证时间序列确实是静态的，可以在验证集上画出模型随时间的误差：如果模型在验证集的前端表现优于后段，则时间序列可能就不够静态，最好是在一个更短的时间区间内训练。
+
+总而言之，将时间序列切分成训练集、验证集和测试集不是简单的工作，怎么做要取决于具体的任务。
+
+回到莎士比亚！这里将前 90% 的文本作为训练集（剩下的作为验证集和测试集），创建一个`tf.data.Dataset`，可以从这个集和一个个返回每个字符：
+
+```py
+train_size = dataset_size * 90 // 100
+dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size]) 
+```
+
+### 将序列数据集切分成多个窗口
+
+现在训练集包含一个单独的长序列，超过 100 万的任务，所以不能直接在这个训练集上训练神经网络：现在的 RNN 等同于一个有 100 万层的深度网络，只有一个超长的单实例来训练。所以，得使用数据集的`window()`方法，将这个长序列转化为许多小窗口文本。每个实例都是完整文本的相对短的子字符串，RNN 只在这些子字符串上展开。这被称为截断沿时间反向传播。调用`window()`方法创建一个短文本窗口的数据集：
+
+```py
+n_steps = 100
+window_length = n_steps + 1 # target = input 向前移动 1 个字符
+dataset = dataset.window(window_length, shift=1, drop_remainder=True) 
+```
+
+> 提示：可以调节`n_steps`：用短输入序列训练 RNN 更为简单，但肯定的是 RNN 学不到任何长度超过`n_steps`的规律，所以`n_steps`不要太短。
+
+默认情况下，`window()`方法创建的窗口是不重叠的，但为了获得可能的最大训练集，我们设定`shift=1`，好让第一个窗口包含字符 0 到 100，第二个窗口包含字符 1 到 101，等等。为了确保所有窗口是准确的 101 个字符长度（为了不做填充而创建批次），设置`drop_remainder=True`（否则，最后的 100 个窗口会包含 100 个字符、99 个字符，一直到 1 个字符）。
+
+`window()`方法创建了一个包含窗口的数据集，每个窗口也是数据集。这是一个嵌套的数据集，类似于列表的列表。当调用数据集方法处理（比如、打散或做批次）每个窗口时，这样会很方便。但是，不能直接使用嵌套数据集来训练，因为模型要的输入是张量，不是数据集。因此，必须调用`flat_map()`方法：它能将嵌套数据集转换成打平的数据集。例如，假设`{1, 2, 3}`表示包含张量 1、2、3 的序列。如果将嵌套数据集`{{1, 2}, {3, 4, 5, 6}}`打平，就会得到`{1, 2, 3, 4, 5, 6}`。另外，`flat_map()`方法可以接收函数作为参数，可以处理嵌套数据集的每个数据集。例如，如果将函数 `lambda ds: ds.batch(2)` 传递给 `flat_map()` ，它能将`{{1, 2}, {3, 4, 5, 6}}`转变为`{[1, 2], [3, 4], [5, 6]}`：这是一个张量大小为 2 的数据集。
+
+有了这些知识，就可以打平数据集了：
+
+```py
+dataset = dataset.flat_map(lambda window: window.batch(window_length)) 
+```
+
+我们在每个窗口上调用了`batch(window_length)`：因为所有窗口都是这个长度，对于每个窗口，都能得到一个独立的张量。现在的数据集包含连续的窗口，每个有 101 个字符。因为梯度下降在训练集中的实例独立同分布时的效果最好，需要打散这些窗口。然后我们可以对窗口做批次，分割输入（前 100 个字符）和目标（最后一个字符）：
+
+```py
+batch_size = 32
+dataset = dataset.shuffle(10000).batch(batch_size)
+dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:])) 
+```
+
+图 16-1 总结了数据集准备步骤（窗口长度是 11，不是 101，批次大小是 3，不是 32）。
+
+![](img/847ef99a515939c6266e9a184ac7e061.png)
+
+图 16-1 准备打散窗口的数据集
+
+第 13 章讨论过，类型输入特征通常都要编码，一般是独热编码或嵌入。这里，使用独热编码，因为独立字符不多（只有 39）：
+
+```py
+dataset = dataset.map(
+    lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch)) 
+```
+
+最后，加上预提取：
+
+```py
+dataset = dataset.prefetch(1) 
+```
+
+就是这样！准备数据集是最麻烦的部分。下面开始搭建模型。
+
+### 搭建并训练 Char-RNN 模型
+
+根据前面的 100 个字符预测下一个字符，可以使用一个 RNN，含有两个 GRU 层，每个 128 个单元，每个单元对输入（`dropout`）和隐藏态（`recurrent_dropout`）的丢弃率是 20%。如果需要的话，后面可以微调这些超参数。输出层是一个时间分布的紧密层，有 39 个单元（`max_id`），因为文本中有 39 个不同的字符，需要输出每个可能字符（在每个时间步）的概率。输出概率之后应为 1，所以使用 softmax 激活很熟。然后可以使用`"sparse_categorical_crossentropy"`损失和 Adam 优化器，编译模型。最后，就可以训练模型几个周期了（训练过程可能要几个小时，取决于硬件）：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.GRU(128, return_sequences=True, input_shape=[None, max_id],
+                     dropout=0.2, recurrent_dropout=0.2),
+    keras.layers.GRU(128, return_sequences=True,
+                     dropout=0.2, recurrent_dropout=0.2),
+    keras.layers.TimeDistributed(keras.layers.Dense(max_id,
+                                                    activation="softmax"))
+])
+model.compile(loss="sparse_categorical_crossentropy", optimizer="Adam")
+history = model.fit(dataset, epochs=20) 
+```
+
+### 使用 Char-RNN 模型
+
+现在就有了可以预测莎士比亚要写的下一个人物的模型了。输入数据之前，先要像之前那样做预处理，因此写个小函数来做预处理：
+
+```py
+def preprocess(texts):
+    X = np.array(tokenizer.texts_to_sequences(texts)) - 1
+    return tf.one_hot(X, max_id) 
+```
+
+现在，用这个模型预测文本中的下一个字母：
+
+```py
+>>> X_new = preprocess(["How are yo"])
+>>> Y_pred = model.predict_classes(X_new)
+>>> tokenizer.sequences_to_texts(Y_pred + 1)[0][-1] # 1st sentence, last char
+'u' 
+```
+
+预测成功！接下来用这个模型生成文本。
+
+### 生成假莎士比亚文本
+
+要使用 Char-RNN 生成新文本，我们可以给模型输入一些文本，让模型预测出下一个字母，将字母添加到文本的尾部，再将延长后的文本输入给模型，预测下一个字母，以此类推。但在实际中，这会导致相同的单词不断重复。相反的，可以使用`tf.random.categorical()`函数，随机挑选下一个字符，概率等同于估计概率。这样就能生成一些多样且有趣的文本。根据类的对数概率（logits），`categorical()`函数随机从类索引采样。为了对生成文本的多样性更可控，我们可以用一个称为“温度“的可调节的数来除以对数概率：温度接近 0，会利于高概率字符，而高温度会是所有字符概率相近。下面的`next_char()`函数使用这个方法，来挑选添加进文本中的字符：
+
+```py
+def next_char(text, temperature=1):
+    X_new = preprocess([text])
+    y_proba = model.predict(X_new)[0, -1:, :]
+    rescaled_logits = tf.math.log(y_proba) / temperature
+    char_id = tf.random.categorical(rescaled_logits, num_samples=1) + 1
+    return tokenizer.sequences_to_texts(char_id.numpy())[0] 
+```
+
+然后，可以写一个小函数，重复调用`next_char()`：
+
+```py
+def complete_text(text, n_chars=50, temperature=1):
+    for _ in range(n_chars):
+        text += next_char(text, temperature)
+    return text 
+```
+
+现在就可以生成一些文本了！先尝试下不同的温度数：
+
+```py
+>>> print(complete_text("t", temperature=0.2))
+the belly the great and who shall be the belly the
+>>> print(complete_text("w", temperature=1))
+thing? or why you gremio.
+who make which the first
+>>> print(complete_text("w", temperature=2))
+th no cce:
+yeolg-hormer firi. a play asks.
+fol rusb 
+```
+
+显然，当温度数接近 1 时，我们的莎士比亚模型效果最好。为了生成更有信服力的文字，可以尝试用更多`GRU`层、每层更多的神经元、更长的训练时间，添加正则（例如，可以在`GRU`层中设置`recurrent_dropout=0.3`）。另外，模型不能学习长度超过`n_steps`（只有 100 个字符）的规律。你可以使用更大的窗口，但也会让训练更为困难，甚至 LSTM 和 GRU 单元也不能处理长序列。另外，还可以使用有状态 RNN。
+
+### 有状态 RNN
+
+到目前为止，我们只使用了无状态 RNN：在每个训练迭代中，模型从全是 0 的隐藏状态开始训练，然后在每个时间步更新其状态，在最后一个时间步，隐藏态就被丢掉，以后再也不用了。如果让 RNN 保留这个状态，供下一个训练批次使用如何呢？这么做的话，尽管反向传播只在短序列传播，模型也可以学到长时规律。这被称为有状态 RNN。
+
+首先，有状态 RNN 只在前一批次的序列离开，后一批次中的对应输入序列开始的情况下才有意义。所以第一件要做的事情是使用序列且没有重叠的输入序列（而不是用来训练无状态 RNN 时的打散和重叠的序列）。当创建`Dataset`时，调用`window()`必须使用`shift=n_steps`（而不是`shift=1`）。另外，不能使用`shuffle()`方法。但是，准备有状态 RNN 数据集的批次会麻烦些。事实上，如果调用`batch(32)`，32 个连续的窗口会放到一个相同的批次中，后面的批次不会接着这些窗口。第一个批次含有窗口 1 到 32，第二个批次批次含有窗口 33 到 64，因此每个批次中的第一个窗口（窗口 1 和 33），它们是不连续的。最简单办法是使用只包含一个窗口的“批次”：
+
+```py
+dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])
+dataset = dataset.window(window_length, shift=n_steps, drop_remainder=True)
+dataset = dataset.flat_map(lambda window: window.batch(window_length))
+dataset = dataset.batch(1)
+dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))
+dataset = dataset.map(
+    lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))
+dataset = dataset.prefetch(1) 
+```
+
+图 16-2 展示了处理的第一步。
+
+![](img/39f5a4220e7ce1ee79b0a1b6c2745be0.png)
+
+图 16-2 为有状态 RNN 准备连续序列片段的数据集
+
+做批次虽然麻烦，但可以实现。例如，我们可以将莎士比亚作品切分成 32 段等长的文本，每个做成一个连续序列的数据集，最后使用`tf.train.Dataset.zip(datasets).map(lambda *windows: tf.stack(windows))`来创建合适的连续批次，批次中的`n`输入序列紧跟着`n`结束的地方（笔记本中有完整代码）。
+
+现在创建有状态 RNN。首先，创建每个循环层时需要设置`stateful=True`。第二，有状态 RNN 需要知道批次大小（因为要为批次中的输入序列保存状态），所以要在第一层中设置`batch_input_shape`参数。不用指定第二个维度，因为不限制序列的长度：
+
+```py
+model = keras.models.Sequential([
+    keras.layers.GRU(128, return_sequences=True, stateful=True,
+                     dropout=0.2, recurrent_dropout=0.2,
+                     batch_input_shape=[batch_size, None, max_id]),
+    keras.layers.GRU(128, return_sequences=True, stateful=True,
+                     dropout=0.2, recurrent_dropout=0.2),
+    keras.layers.TimeDistributed(keras.layers.Dense(max_id,
+                                                    activation="softmax"))
+]) 
+```
+
+在每个周期之后，回到文本开头之前，需要重设状态。要这么做，可以使用一个小调回：
+
+```py
+class ResetStatesCallback(keras.callbacks.Callback):
+    def on_epoch_begin(self, epoch, logs):
+        self.model.reset_states() 
+```
+
+现在可以编译、训练模型了（周期数更多，是因为每个周期比之前变短了，每个批次只有一个实例）：
+
+```py
+model.compile(loss="sparse_categorical_crossentropy", optimizer="Adam")
+model.fit(dataset, epochs=50, callbacks=[ResetStatesCallback()]) 
+```
+
+> 提示：训练好模型之后，只能预测训练时相同大小的批次。为了避免这个限制，可以创建一个相同的无状态模型，将有状态模型的参数复制到里面。
+
+创建了一个字符层面的模型，接下来看看词层面的模型，并做一个常见的自然语言处理任务：情感分析。我们会学习使用遮掩来处理变化长度的序列。
+
+## 情感分析
+
+如果说 MNIST 是计算机视觉的“hello world”，那么 IMDb 影评数据集就是自然语言处理的“hello world”：这个数据集包含 50000 条英文影评，25000 条用于训练，25000 条用于测试，是从 IMDb 网站提取的，并带有影评标签，负（0）或正（1）。和 MNIST 一样，IMDb 影评数据集的流行是有原因的：笔记本电脑上就可以跑起来，不会耗时太长，也具有一定挑战。Keras 提供了一个简单的函数加载数据集：
+
+```py
+>>> (X_train, y_train), (X_test, y_test) = keras.datasets.imdb.load_data()
+>>> X_train[0][:10]
+[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65] 
+```
+
+影评在哪里？可以看到，数据集已经经过预处理了：`X_train`包括列表形式的影评，每条都是整数 NumPy 数组，每个整数代表一个词。所有标点符号都被去掉了，单词转换为小写，用空格隔开，最后用频次建立索引（小整数对应常见词）。整数 0、1、2 是特殊的：它们表示填充标记、序列开始（SSS）标记、和未知单词。如果想看到影评，可以如下解码：
+
+```py
+>>> word_index = keras.datasets.imdb.get_word_index()
+>>> id_to_word = {id_ + 3: word for word, id_ in word_index.items()}
+>>> for id_, token in enumerate(("<pad>", "<sos>", "<unk>")):
+...     id_to_word[id_] = token
+...
+>>> " ".join([id_to_word[id_] for id_ in X_train[0][:10]])
+'<sos> this film was just brilliant casting location scenery story' 
+```
+
+在真实的项目中，必须要自己预处理文本。你可以使用前面用过的`Tokenizer`，但要设置`char_level=False`（其实是默认的）。当编码单词时，`Tokenizer`会过滤掉许多字符，包括多数标点符号、换行符、制表符（可以通过`filters`参数控制）。最重要的，`Tokenizer`使用空格确定单词的边界。这对于英语和其它用空格隔开单词的语言是行得通的，但并不是所有语言都有空格。中文不使用空格，越南语甚至在单词里也有空格，德语经常将几个单词不用空格连在一起。就算在英语中，空格也不总是标记文本的最好方法：比如 San Francisco 或#ILoveDeepLearning。
+
+幸好，有更好的方法。Taku Kudo 在 [2018 年的一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fsubword)中介绍了一种无监督学习方法，在亚词层面分词和取消分词文本，与所属语言独立，空格和其它字符等同处理。使用这种方法，就算模型碰到一个之前没见过的单词，模型还是能猜出它的意思。例如，模型在训练期间没见过单词`smartest`，但学过`est`词尾是最的意思，然后就可以推断`smartest`的意思。Google 的 [*SentencePiece*](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fgoogle%2Fsentencepiece) 项目提供了开源实现，见 Taku Kudo 和 John Richardson 的[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fsentencepiece)。
+
+另一种方法，是 Rico Sennrich 在更早的[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Frarewords)中提出的，探索了其它创建亚单词编码的方法（比如，使用字节对编码）。最后同样重要的，TensorFlow 团队在 2019 年提出了[`TF.Text`](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Ftftext)库，它实现了多种分词策略，包括 [WordPiece](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fwordpiece)（字节对编码的变种）。
+
+如果你想将模型部署到移动设备或网页中，又不想每次都写一个不同的预处理函数，最好只使用 TensorFlow 运算，它可以融进模型中。看看怎么做。首先，使用 TensorFlow Datasets 加载原始 IMDb 评论，为文本（字节串）：
+
+```py
+import tensorflow_datasets as tfds
+
+datasets, info = tfds.load("imdb_reviews", as_supervised=True, with_info=True)
+train_size = info.splits["train"].num_examples 
+```
+
+然后，写预处理函数：
+
+```py
+def preprocess(X_batch, y_batch):
+    X_batch = tf.strings.substr(X_batch, 0, 300)
+    X_batch = tf.strings.regex_replace(X_batch, b"<br\\s*/?>", b" ")
+    X_batch = tf.strings.regex_replace(X_batch, b"[^a-zA-Z']", b" ")
+    X_batch = tf.strings.split(X_batch)
+    return X_batch.to_tensor(default_value=b"<pad>"), y_batch 
+```
+
+预处理函数先裁剪影评，只保留前 300 个字符：这么做可以加速训练，并且不会过多影响性能，因为大多数时候只要看前一两句话，就能判断是正面或侧面的了。然后使用正则表达式替换`<br />`标签为空格，然后将所有非字母字符替换为空格。例如，文本`"Well, I can't<br />"`变成`"Well I can't"`。最后，`preprocess()`函数用空格分隔影评，返回一个嵌套张量，然后将嵌套张量转变为紧密张量，给所有影评填充上`"<pad>"`，使其长度相等。
+
+然后，构建词典。这需要使用`preprocess()`函数再次处理训练集，并使用`Counter`统计每个单词的出现次数：
+
+```py
+from collections import Counter
+vocabulary = Counter()
+for X_batch, y_batch in datasets["train"].batch(32).map(preprocess):
+    for review in X_batch:
+        vocabulary.update(list(review.numpy())) 
+```
+
+看看最常见的词有哪些：
+
+```py
+>>> vocabulary.most_common()[:3]
+[(b'<pad>', 215797), (b'the', 61137), (b'a', 38564)] 
+```
+
+但是，并不需要让模型知道词典中的所有词，所以裁剪词典，只保留 10000 个最常见的词：
+
+```py
+vocab_size = 10000
+truncated_vocabulary = [
+    word for word, count in vocabulary.most_common()[:vocab_size]] 
+```
+
+现在需要加上预处理步骤将每个单词替换为单词 ID（即它在词典中的索引）。就像第 13 章那样，创建一张查找表，使用 1000 个未登录词（oov）桶：
+
+```py
+words = tf.constant(truncated_vocabulary)
+word_ids = tf.range(len(truncated_vocabulary), dtype=tf.int64)
+vocab_init = tf.lookup.KeyValueTensorInitializer(words, word_ids)
+num_oov_buckets = 1000
+table = tf.lookup.StaticVocabularyTable(vocab_init, num_oov_buckets) 
+```
+
+用这个词表查找几个单词的 ID：
+
+```py
+>>> table.lookup(tf.constant([b"This movie was faaaaaantastic".split()]))
+<tf.Tensor: [...], dtype=int64, numpy=array([[   22,    12,    11, 10054]])> 
+```
+
+因为`this`、`movie`、`was`是在词表中的，所以它们的 ID 小于 10000，而`faaaaaantastic`不在词表中，所以将其映射到一个 oov 桶，其 ID 大于或等于 10000。
+
+> 提示：TF Transform 提供了一些实用的函数来处理词典。例如，`tft.compute_and_apply_vocabulary()`函数：它可以遍历数据集，找到所有不同的词，创建词典，还能生成 TF 运算，利用词典编码每个单词。
+
+现在，可以创建最终的训练集。对影评做批次，使用`preprocess()`将其转换为词的短序列，然后使用一个简单的`encode_words()`函数，利用创建的词表来编码这些词，最后预提取下一个批次：
+
+```py
+def encode_words(X_batch, y_batch):
+    return table.lookup(X_batch), y_batch
+
+train_set = datasets["train"].batch(32).map(preprocess)
+train_set = train_set.map(encode_words).prefetch(1) 
+```
+
+最后，创建模型并训练：
+
+```py
+embed_size = 128
+model = keras.models.Sequential([
+    keras.layers.Embedding(vocab_size + num_oov_buckets, embed_size,
+                           input_shape=[None]),
+    keras.layers.GRU(128, return_sequences=True),
+    keras.layers.GRU(128),
+    keras.layers.Dense(1, activation="sigmoid")
+])
+
+model.compile(loss="binary_crossentropy", optimizer="Adam",
+              metrics=["accuracy"])
+history = model.fit(train_set, epochs=5) 
+```
+
+第一个层是一个嵌入层，它将所有单词 ID 变为嵌入。每有一个单词 ID（`vocab_size + num_oov_buckets`），嵌入矩阵就有一行，每有一个嵌入维度，嵌入矩阵就有一列（这个例子使用了 128 个维度，这是一个可调的超参数）。模型输入是 2D 张量，形状为`[批次大小, 时间步]`，嵌入层的输出是一个 3D 张量，形状为`[批次大小, 时间步, 嵌入大小]`。
+
+模型剩下的部分就很简单了：有两个`GRU`层，第二个只返回最后时间步的输出。输出层只有一个神经元，使用 sigmoid 激活函数，输出评论是正或负的概率。然后编译模型，利用前面准备的数据集来训练几个周期。
+
+### 遮掩
+
+在训练过程中，模型会学习到填充标记要被忽略掉。但这其实是已知的。为什么不告诉模型直接忽略填充标记，将精力集中在真正重要的数据中呢？只需一步就好：创建嵌入层时加上`mask_zero=True`。这意味着填充标记（其 ID 为 0）可以被接下来的所有层忽略。
+
+其中的原理，是嵌入层创建了一个等于`K.not_equal(inputs, 0)`（其中`K = keras.backend`）遮掩张量：这是一个布尔张量，形状和输入相同，只要词 ID 有 0，它就等于`False`，否则为`True`。模型自动将这个遮掩张量向前传递给所有层，只要时间维度保留着。所以在例子中，尽管两个`GRU`都接收到了遮掩张量，但第二个`GRU`层不返回序列（只返回最后一个时间步），遮掩张量不会传递到紧密层。每个层处理遮掩的方式不同，但通常会忽略被遮掩的时间步（遮掩为`False`的时间步）。例如，当循环神经层碰到被遮掩的时间步时，就只是从前一时间步复制输出而已。如果遮掩张量一直传递到输出（输出为序列的模型），则遮掩也会作用到损失上，所以遮掩时间步不会贡献到损失上（它们的损失为 0）。
+
+> 警告：基于英伟达的 cuDNN 库，`LSTM`层和`GRU`层针对 GPU 有优化实现。但是，这个实现不支持遮挡。如果你的模型使用了遮挡，则这些曾会回滚到（更慢的）默认实现。注意优化实现还需要使用几个超参数的默认值：`activation`、`recurrent_activation`、`recurrent_dropout`、`unroll`、`use_bias`、`reset_after`。
+
+所有接收遮挡的层必须支持遮挡（否则会抛出异常）。包括所有的循环层、`TimeDistributed`层和其它层。所有支持遮挡的层必须有等于`True`的属性`supports_masking`。如果想实现自定义的支持遮挡的层，应该给`call()`方法添加`mask`参数。另外，要在构造器中设定`self.supports_masking = True`。如果第一个层不是嵌入层，可以使用`keras.layers.Masking`层：它设置遮挡为`K.any(K.not_equal(inputs, 0), axis=-1)`，意思是最后一维都是 0 的时间步，会被后续层遮挡。
+
+对于`Sequential`模型，使用遮挡层，并自动向前传递遮挡是最佳的。但复杂模型上不能这么做，比如将`Conv1D`层与循环层混合使用时。对这种情况，需要使用函数式 API 或子类化 API 显式计算遮挡张量，然后将其传给需要的层。例如，下面的模型等价于前一个模型，除了使用函数式 API 手动处理遮挡张量：
+
+```py
+K = keras.backend
+inputs = keras.layers.Input(shape=[None])
+mask = keras.layers.Lambda(lambda inputs: K.not_equal(inputs, 0))(inputs)
+z = keras.layers.Embedding(vocab_size + num_oov_buckets, embed_size)(inputs)
+z = keras.layers.GRU(128, return_sequences=True)(z, mask=mask)
+z = keras.layers.GRU(128)(z, mask=mask)
+outputs = keras.layers.Dense(1, activation="sigmoid")(z)
+model = keras.Model(inputs=[inputs], outputs=[outputs]) 
+```
+
+训练几个周期之后，这个模型的表现就相当不错了。如果使用`TensorBoard()`调回，可以可视化 TensorBoard 中的嵌入是怎么学习的：可以看到`awesome`和`amazing`这样的词渐渐聚集于嵌入空间的一边，而`awful`、`terrible`这样的词聚集到另一边。一些词可能不会像预期那样是正面的，比如`good`，可能所有负面评论含有`not good`。模型只基于 25000 个词就能学会词嵌入，让人印象深刻。如果训练集有几十亿的规模，效果就更好了。但可惜没有，但可以利用在其它大语料（比如，维基百科文章）上训练的嵌入，就算不是影评也可以？毕竟，`amazing`这个词在哪种语境的意思都差不多。另外，甚至嵌入是在其它任务上训练的，也可能有益于情感分析：因为`awesome`和`amazing`有相似的意思，即使对于其它任务（比如，预测句子中的下一个词），它们也倾向于在嵌入空间聚集，所以对情感分析也是有用的。所以看看能否重复利用预训练好的词嵌入。
+
+### 复用预训练的词嵌入
+
+在 TensorFlow Hub 上可以非常方便的找到可以复用的预训练模型组件。这些模型组件被称为模块。只需浏览 [TF Hub 仓库](https://links.jianshu.com/go?to=https%3A%2F%2Ftfhub.dev%2F)，找到需要的模型，复制代码到自己的项目中就行，模块可以总动下载下来，包含预训练权重，到自己的模型中。
+
+例如，在情感分析模型中使用`nnlm-en-dim50`句子嵌入模块，版本 1：
+
+```py
+import tensorflow_hub as hub
+
+model = keras.Sequential([
+    hub.KerasLayer("https://tfhub.dev/google/tf2-preview/nnlm-en-dim50/1",
+                   dtype=tf.string, input_shape=[], output_shape=[50]),
+    keras.layers.Dense(128, activation="relu"),
+    keras.layers.Dense(1, activation="sigmoid")
+])
+model.compile(loss="binary_crossentropy", optimizer="Adam",
+              metrics=["accuracy"]) 
+```
+
+`hub.KerasLayer`从给定的 URL 下载模块。这个特殊的模块是“句子编码器”：它接收字符串作为输入，将每句话编码为一个独立向量（这个例子中是 50 维度的向量）。在内部，它将字符串解析（空格分隔），然后使用预训练（训练语料是 Google News 7B，一共有 70 亿个词）的嵌入矩阵来嵌入每个词。然后计算所有词嵌入的平均值，结果是句子嵌入。我们接着可以添加两个简单的紧密层来创建一个出色的情感分析模型。默认，`hub.KerasLayer`是不可训练的，但创建时可以设定`trainable=True`，就可以针对自己的任务微调了。
+
+> 警告：不是所有的 TF Hub 模块都支持 TensorFlow 2。
+
+然后，就可以加载 IMDb 影评数据集了，不需要预处理（但要做批次和预提取），直接训练模型就成：
+
+```py
+datasets, info = tfds.load("imdb_reviews", as_supervised=True, with_info=True)
+train_size = info.splits["train"].num_examples
+batch_size = 32
+train_set = datasets["train"].batch(batch_size).prefetch(1)
+history = model.fit(train_set, epochs=5) 
+```
+
+注意到，TF Hub 模块的 URL 的末尾指定了是模型的版本 1。版本号可以保证当有新的模型版本发布时，不会破坏自己的模型。如果在浏览器中输入这个 URL，能看到这个模块的文档。TF Hub 会默认将下载文件缓存到系统的临时目录。你可能想将文件存储到固定目录，以免每次系统清洗后都要下载。要这么做的话，设置环境变量`TFHUB_CACHE_DIR`就成（比如，`os.environ["TFHUB_CACHE_DIR"] = "./my_tfhub_cache"`）。
+
+截至目前，我们学习了时间序列、用 Char-RNN 生成文本、用 RNN 做情感分析、训练自己的词嵌入或复用预训练词嵌入。接下来看看另一个重要的 NLP 任务：神经网络机器翻译（NMT），我们先使用纯粹的编码器-解码器模型，然后使用注意力机制，最后看看 Transformer 架构。
+
+## 用编码器-解码器做机器翻译
+
+看一个简单的[神经网络机器翻译模型](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F103)，它能将英语翻译为法语（见图 16-3）。
+
+简而言之，英语句子输入进编码器，解码器输出法语。注意，法语翻译也作为解码器的输入，但向后退一步。换句话说，解码器将前一步的输出再作为输入（不用管它输出什么）。对于第一个词，给它加上一个序列开始（SOS）标记，序列结尾加上序列结束（EOS）标记。
+
+英语句子在输入给编码器之前，先做了翻转。例如，`I drink milk`翻转为`milk drink I`。这样能保证英语句子的第一个词是最后一个输入给编码器的，通常也是解码器要翻译的第一个词。
+
+每个单词首先用它的 ID 来表示（例如，288 代表`milk`）。然后，嵌入层返回单词嵌入。单词嵌入才是输入给编码器和解码器的。
+
+![](img/aef8aa3fde805533d8461794f1548f17.png)
+
+图 16-3 一个简单的机器翻译模型
+
+在每一步，解码器输出一个输出词典中每个单词的分数，然后 softmax 层将分数变为概率。例如，在第一步，`Je`的概率可能为 20%，`Tu`的概率可能为 1%，等等。概率最高的词作为输出。这特别像一个常规分类任务，所以可以用`"sparse_categorical_crossentropy"`损失训练模型，跟前面的 Char-RNN 差不多。
+
+在做推断时，没有目标语句输入进解码器。相反的，只是输入解码器前一步的输出，见图 16-4（这需要一个嵌入查找表，图中没有展示）。
+
+![](img/1e702f782691c1e3f0d0a177fb02d497.png)
+
+图 16-4 在推断时，将前一步的输出作为输入
+
+好了，现在知道整体的大概了。但要实现模型的话，还有几个细节要处理：
+
+*   目前假定所有（编码器和解码器的）输入序列的长度固定。但很显然句子长度是变化的。因为常规张量的形状固定，它们只含有相同长度的句子。可以用遮挡来处理；但如果句子的长度非常不同，就不能像之前情感分析那样截断（因为想要的是完整句子的翻译）。可以将句子放进长度相近的桶里（一个桶放 1 个词到 6 个词的句子，一个桶放 7 个词到 12 个词的句子，等等），给短句子加填充，使同一个桶中的句子长度相同（见`tf.data.experimental.bucket_by_sequence_length()`函数）。例如，`I drink milk`变为`<pad> <pad> <pad> milk drink I`。
+
+*   要忽略所有在 EOS 标记后面的输出，这些输出不能影响损失（遮挡起来）。例如，如果模型输出`Je bois du lait <eos> oui`，忽略最后一个词对损失的影响。
+
+*   如果输出词典比较大（这个例子就是这样），输出每个词的概率会非常慢。如果目标词典有 50000 个发语词，则解码器要输出 50000 维的向量，在这个向量上计算 softmax 非常耗时。一个方法是只查看模型对正确词和非正确词采样的对数概率输出，然后根据这些对数概率计算一个大概的损失。这个采样 softmax 方法是 [Sébastien Jean 在 2015 年提出的](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F104)。在 TensorFlow 中，你可以在训练时使用`tf.nn.sampled_softmax_loss()`，在推断时使用常规 softmax 函数（推断时不能使用采样 softmax，因为需要知道目标）。
+
+TensorFlow Addons 项目涵盖了许多序列到序列的工具，可以创建准生产的编码器-解码器。例如，下面的代码创建了一个基本的编码器-解码器模型，相似于图 16-3：
+
+```py
+import tensorflow_addons as tfa
+
+encoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)
+decoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)
+sequence_lengths = keras.layers.Input(shape=[], dtype=np.int32)
+
+embeddings = keras.layers.Embedding(vocab_size, embed_size)
+encoder_embeddings = embeddings(encoder_inputs)
+decoder_embeddings = embeddings(decoder_inputs)
+
+encoder = keras.layers.LSTM(512, return_state=True)
+encoder_outputs, state_h, state_c = encoder(encoder_embeddings)
+encoder_state = [state_h, state_c]
+
+sampler = tfa.seq2seq.sampler.TrainingSampler()
+
+decoder_cell = keras.layers.LSTMCell(512)
+output_layer = keras.layers.Dense(vocab_size)
+decoder = tfa.seq2seq.basic_decoder.BasicDecoder(decoder_cell, sampler,
+                                                 output_layer=output_layer)
+final_outputs, final_state, final_sequence_lengths = decoder(
+    decoder_embeddings, initial_state=encoder_state,
+    sequence_length=sequence_lengths)
+Y_proba = tf.nn.softmax(final_outputs.rnn_output)
+
+model = keras.Model(inputs=[encoder_inputs, decoder_inputs, sequence_lengths],
+                    outputs=[Y_proba]) 
+```
+
+这个代码很简单，但有几点要注意。首先，创建`LSTM`层时，设置`return_state=True`，以便得到最终隐藏态，并将其传给解码器。因为使用的是 LSTM 单元，它实际返回两个隐藏态（短时和长时）。`TrainingSampler`是 TensorFlow Addons 中几个可用的采样器之一：它的作用是在每一步告诉解码器，前一步的输出是什么。在推断时，采样器是实际输出的标记嵌入。在训练时，是前一个目标标记的嵌入：这就是为什么使用`TrainingSampler`的原因。在实际中，一个好方法是，一开始用目标在前一时间步的嵌入训练，然后逐渐过渡到实际标记在前一步的输出。这个方法是 Samy Bengio 在 [2015 年的一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fscheduledsampling)中提出的。`ScheduledEmbeddingTrainingSampler`可以随机从目标或实际输出挑选，你可以在训练中逐渐调整概率。
+
+### 双向 RNN
+
+在每个时间步，常规循环层在产生输出前，只会查看过去和当下的输入。换句话说，循环层是遵循因果关系的，它不能查看未来。这样的 RNN 在预测时间序列时是合理的，但对于许多 NLP 任务，比如机器翻译，在编码给定词时，最好看看后面的词是什么。比如，对于这几个短语`the Queen of the United Kingdom`、`the queen of hearts`、`the queen bee`：要正确编码`queen`，需要向前看。要实现的话，可以对于相同的输入运行两个循环层，一个从左往右读，一个从右往左读。然后将每个时间步的输出结合，通常是连起来。这被称为双向循环层（见图 16-5）。
+
+要在 Keras 中实现双向循环层，可以在`keras.layers.Bidirectional`层中包一个循环层。例如，下面的代码创建了一个双向`GRU`层：
+
+```py
+keras.layers.Bidirectional(keras.layers.GRU(10, return_sequences=True)) 
+```
+
+> 笔记：`Bidirectional`层会创建一个`GRU`层的复制（但方向相反），会运行两个层，并将输出连起来。因此`GRU`层有 10 个神经元，`Bidirectional`层在每个时间步会输出 20 个值。
+
+![](img/498e45d619e08c8fc7acff449bfb27de.png)
+
+图 16-5 双向循环层
+
+### 集束搜索
+
+假设你用编码器-解码器模型将法语`Comment vas-tu?`翻译为英语。正确的翻译应该是`How are you?`，但得到的结果是`How will you?`。查看训练集，发现许多句子，比如`Comment vas-tu jouer?`翻译成了`How will you play?`。所以模型看到`Comment vas`之后，将其翻译为`How will`并不那么荒唐。但在这个例子中，这就是一个错误，并且模型还不能返回修改，模型只能尽全力完成句子。如果每步都是最大贪心地输出结果，只能得到次优解。如何能让模型返回到之前的错误并改错呢？最常用的方法之一，是使用集束搜索：它跟踪`k`个最大概率的句子列表，在每个解码器步骤延长一个词，然后再关注其中`k`个最大概率的句子。参数`k`被称为集束宽度。
+
+例如，假设使用宽度为 3 的集束搜索，用模型来翻译句子`Comment vas-tu?`。在第一个解码步骤，模型会输出每个可能词的估计概率。假设前 3 个词的估计概率是`How`（估计概率是 75%）、`What`（3%）、`You`（1%）。这是目前的句子列表。然后，创建三个模型的复制，预测每个句子的下一个词。第一个模型会预测`How`后面的词，假设结果是 36% 为`will`、32% 为`are`、16% 为`do`，等等。注意，这是条件概率。第二个模型会预测`What`后面的词：50% 为`are`，等等。假设词典有 10000 个词，每个模型会输出 10000 个概率。
+
+然后，计算 30000 个含有两个词的句子的概率。将条件概率相乘。例如，`How will`的概率是`75% × 36% = 27%`。计算完 30000 个概率之后，只保留概率最大的 3 个。假设是`How will`（27%）、`How are`（24%）、`How do`（12%）。现在`How will`的概率最大，但`How are`并没有被删掉。
+
+接着，重复同样的过程：用三个模型预测这三个句子的接下来的词，再计算 30000 个含有三个词的句子的概率。假设前三名是`How are you`（10%）、`How do you`（8%）、`How will you`（2%）。再下一步的前三名是`How do you do`（7%）、`How are you <eos>`（6%）、`How are you doing`（3%）。注意，`How will`被淘汰了。没有使用额外的训练，只是在使用层面做了改动，就提高了模型的性能。
+
+TensorFlow Addons 可以很容易实现集束搜索：
+
+```py
+beam_width = 10
+decoder = tfa.seq2seq.beam_search_decoder.BeamSearchDecoder(
+    cell=decoder_cell, beam_width=beam_width, output_layer=output_layer)
+decoder_initial_state = tfa.seq2seq.beam_search_decoder.tile_batch(
+    encoder_state, multiplier=beam_width)
+outputs, _, _ = decoder(
+    embedding_decoder, start_tokens=start_tokens, end_token=end_token,
+    initial_state=decoder_initial_state) 
+```
+
+首先创建`BeamSearchDecoder`，它包装所有的解码器的克隆（这个例子中有 10 个）。然后给每个解码器克隆创建一个编码器的最终状态的复制，然后将状态传给解码器，加上开始和结束标记。
+
+有了这些，就能得到不错的短句的翻译了（如果使用预训练词嵌入，效果更好）。但是这个模型翻译长句子的效果很糟。这又是 RNN 的短时记忆问题。注意力机制的出现，解决了这一问题。
+
+## 注意力机制
+
+图 16-3 中，从`milk`到`lait`的路径非常长。这意味着这个单词的表征（还包括其它词），在真正使用之前，要经过许多步骤。能让这个路径短点吗？
+
+这是 Dzmitry Bahdanau 在 2014 年的突破性[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fattention)中的核心想法。他们引入了一种方法，可以让解码器在每个时间步关注特别的（被编码器编码的）词。例如，在解码器需要输出单词`lait`的时间步，解码器会将注意力关注在单词`milk`上。这意味着从输入词到其翻译结果的路径变的短得多了，所以 RNN 的短时记忆的限制就减轻了很多。注意力机制革新了神经网络机器翻译（和 NLP 的常见任务），特别是对于长句子（超过 30 个词），带来了非凡的进步。
+
+图 16-6 展示了注意力机制的架构（稍微简化过，后面会说明）。左边是编码器和解码器。不是将编码器的最终隐藏态传给解码器（其实是传了，但图中没有展示），而是将所有的输出传给解码器。在每个时间步，解码器的记忆单元计算所有这些输出的加权和：这样可以确定这一步关注哪个词。权重`α[t,i]`是第`i`个编码器输出在第`t`解码器时间步的权重。例如，如果权重`α[3, 2]`比`α[3, 0]`和`α[3, 1]`大得多，则解码器会用更多注意力关注词 2（`milk`），至少是在这个时间步。剩下的解码器就和之前一样工作：在每个时间步，记忆单元接收输入，加上上一个时间步的隐藏态，最后（这一步图上没有画出）加上上一个时间步的目标词（或推断时，上一个时间步的输出）。
+
+![](img/62046736e5f72833e9d656b75320697b.png)
+
+图 16-6 使用了注意力模型的编码器-解码器结构
+
+权重`α[t,i]`是从哪里来的呢？其实很简单：是用一种小型的、被称为对齐模型（或注意力层）的神经网络生成的，注意力层与模型的其余部分联合训练。对齐模型展示在图的右边：一开始是一个时间分布紧密层，其中有一个神经元，它接收所有编码器的输出，加上解码器的上一个隐藏态（即`h[2]`）。这个层输出对每个编码器输出，输出一个分数（或能量）（例如，`e[3, 2]`）：这个分数衡量每个输出和解码器上一个隐藏态的对齐程度。最后，所有分数经过一个 softmax 层，得到每个编码器输出的最终权重（例如，`α[3, 2]`）。给定解码器时间步的所有权重相加等于 1（因为 softmax 层不是时间分布的）。这个注意力机制称为 Bahdanau 注意力。因为它将编码器输出和解码器的上一隐藏态连了起来，也被称为连接注意力（或相加注意力）。
+
+> 笔记：如果输入句子有`n`个单词，假设输出也是这么多单词，则要计算`n^2`个权重。幸好，平方计算的复杂度不高，因为即使是特别长的句子，也不会有数千个单词。
+
+另一个常见的注意力机制是不久之后，由 Minh-Thang Luong 在 2015 年的[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fluongattention)中提出的。因为注意力机制的目标是衡量编码器的输出，和解码器上一隐藏态的相似度，Minh-Thang Luong 提出，只要计算这两个向量的点积，因为点积是有效衡量相似度的手段，并且计算起来很快。要计算的话，两个向量的维度必须相同。这被称为 Luong 注意力，或相乘注意力。和 Bahdanau 注意力一样，点积的结果是一个分数，所有分数（在特定的解码器时间步）通过 softmax 层，得到最终权重。Luong 提出的另一个简化方法是使用解码器在当前时间步的隐藏态，而不是上一时间步，然后使用注意力机制的输出（标记为`h_hat[t]`），直接计算解码器的预测（而不是计算解码器的当前隐藏态）。他还提出了一个点击的变体，编码器的输出先做线性变换（即，时间分布紧密层不加偏置项），再做点积。这被称为“通用”点积方法。作者比较了点积方盒和连接注意力机制（加上一个缩放参数 v），观察到点积方法的变体表现的更好。因为这个原因，如今连接注意力很少使用了。公式 16-1 总结了这三种注意力机制。
+
+![](img/1d965bfcdda748da7778d2e92ef55448.png)
+
+公式 16-1 注意力机制
+
+使用 TensorFlow Addons 将 Luong 注意力添加到编码器-解码器模型的方法如下：
+
+```py
+attention_mechanism = tfa.seq2seq.attention_wrapper.LuongAttention(
+    units, encoder_state, memory_sequence_length=encoder_sequence_length)
+attention_decoder_cell = tfa.seq2seq.attention_wrapper.AttentionWrapper(
+    decoder_cell, attention_mechanism, attention_layer_size=n_units) 
+```
+
+只是将解码器单元包装进`AttentionWrapper`，然后使用了想用的注意力机制（这里用的是 Luong 注意力）。
+
+### 视觉注意力
+
+注意力机制如今应用的非常广泛。最先用途之一是利用视觉注意力生成图片标题：卷积神经网络首先处理图片，生成一些特征映射，然后用带有注意力机制的解码器 RNN 来生成标题，每次生成一个词。在每个解码器时间步（每个词），解码器使用注意力模型聚焦于图片的一部分。例如，对于图 16-7，模型生成的标题是“一个女人正在公园里扔飞盘”，可以看到解码器要输出单词“飞盘”时，注意力关注的图片的部分：显然，注意力大部分聚焦于飞盘。
+
+![](img/705ce126c849c9078d22c2ac2db0c816.png)
+
+图 16-7 视觉注意力：输入图片（左）和模型输出“飞盘”时模型的关注点（右）
+
+> 解释性
+> 
+> 注意力机制的的一个额外的优点，是它更容易使人明白是什么让模型产生输出。这被称为可解释性。当模型犯错时，可解释性非常有帮助：例如，如果一张狗在雪中行走的图，被打上了“狼在雪中行走”的标签，你就可以回去查看当模型输出“狼”时，模型聚焦于什么。你可能看到模型不仅关注于狗，还关注于雪地，暗示了一种可能的解释：可能模型判断是根据有没有很多雪，来判断是狗还是狼。然后可以通过用更多没有雪的狼的图片进行训练，来修复模型。这个例子来自于 Marco Tulio Ribeiro 在 2016 年的[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fexplainclass)，他们使用了不同的可解释性：局部围绕分类器的预测，来学习解释性模型。
+> 
+> 在一些应用中，可解释性不仅是调试模型的工具，而是正当的需求（比如一个判断是否进行放贷的需求）。
+
+注意力机制如此强大，以至于只需要注意力机制就能创建出色的模型。
+
+### Attention Is All You Need：Transformer 架构
+
+在 2017 年一篇突破性[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Ftransformer)中，谷歌的研究者提出了：Attention Is All You Need（只要注意力）。他们创建了一种被称为 Transformer（转换器）的架构，它极大的提升了 NMT 的性能，并且没有使用任何循环或卷积层，只用了注意力机制（加上嵌入层、紧密层、归一化层，和一些其它组件）。这个架构的另一个优点，是训练的更快，且更容易并行运行，花费的时间和精力比之前的模型少得多。
+
+Transformer 架构见图 16-8。
+
+![](img/740eb69bb6b3b4e1ca5891bd3ff61dcd.png)
+
+图 16-8 Transformer 架构
+
+一起看下这个架构：
+
+*   图的左边和以前一样是编码器，接收的输入是一个批次的句子，表征为序列化的单词 ID（输入的形状是`[批次大小, 最大输入句子长度]`），每个单词表征为 512 维（所以编码器的输出形状是`[批次大小, 最大输入句子长度, 512]`）。注意，编码器的头部叠加了`N`次（论文中，`N=6`）。
+
+*   架构的右边是解码器。在训练中，它接收目标句子作为输入（也是表征为序列化的单词 ID），向右偏移一个时间步（即，在起点插入一个 SOS 标记）。它还接收编码器的输出（即，来自左边的箭头）。注意，解码器的头部也重叠了`N`次，编码器的最终输出，传入给解码器重叠层中的每一个部分。和以前一样，在每个时间步，解码器输出每个下一个可能词的概率（输出形状是`[批次大小, 最大输出句子长度, 词典长度]`）。
+
+*   在推断时，解码器不能接收目标，所以输入的是前面的输出词（起点用 SOS 标记）。因此模型需要重复被调用，每一轮预测一个词（预测出来的词在下一轮输入给解码器，直到输出 EOS 标记）。
+
+*   仔细观察下，可以看到其实你已经熟悉其中大部分组件了：两个嵌入层，`5 × N`个跳连接，每个后面是一个归一化层，`2 × N`个“前馈”模块（由两个紧密层组成（第一个使用 ReLU 激活函数，第二个不使用激活函数），输出层是使用 softmax 激活函数的紧密层）。所有这些层都是时间分布的，因此每个词是独立处理的。但是一次只看一个词，该如何翻译句子呢？这时就要用到新组件了：
+
+    *   编码器的多头注意力层，编码每个词与句子中其它词的关系，对更相关的词付出更多注意力。例如，输出句子`They welcomed the Queen of the United Kingdom`中的词`Queen`的层的输出，会取决于句子中的所有词，但更多注意力会在`United`和`Kingdom`上。这个注意力机制被称为自注意力（句子对自身注意）。后面会讨论它的原理。解码器的遮挡多头注意力层做的事情一样，但每个词只关注它前面的词。最后，解码器的上层多头注意力层，是解码器用于在输入句子上付出注意力的。例如，当解码器要输出`Queen`的翻译时，解码器会对输入句子中的`Queen`这个词注意更多。
+
+    *   位置嵌入是紧密向量（类似词嵌入），表示词在句子中的位置。第`n`个位置嵌入，添加到每个句子中的第`n`个词上。这可以让模型知道每个词的位置，这是因为多头注意力层不考虑词的顺序或位置，它只看关系。因为所有其它层都是时间分布的，它们不知道每个词的（相对或绝对）位置。显然，相对或绝对的词的位置非常重要，因此需要将位置信息以某种方式告诉 Transformer，位置嵌入是行之有效的方法。
+
+下面逐一仔细介绍 Transformer 中的新组件，从位置嵌入开始。
+
+### 位置嵌入
+
+位置嵌入是一个紧密向量，它对词在句子中的位置进行编码：第`i`个位置嵌入添加到句子中的第`i`个词。模型可以学习这些位置嵌入，但在论文中，作者倾向使用固定位置嵌入，用不同频率的正弦和余弦函数来定义。公式 16-2 定义了位置嵌入矩阵`P`，见图 16-9 的底部（做过转置），其中`P[p, i]`是单词在句子的第`p`个位置的第`i`个嵌入的组件。
+
+![](img/c0fb5476c7b4de9a9dd45068826df697.png)
+
+公式 16-2 正弦/余弦位置嵌入
+
+![](img/1356bc32334bf1d9fd61e51342ce2946.png)
+
+图 16-9 正弦/余弦位置嵌入矩阵（经过转置，上），关注`i`的两个值（下）
+
+这个方法的效果和学习过的位置嵌入相同，但可以拓展到任意长度的句子上，这是它受欢迎的原因。给词嵌入加上位置嵌入之后，模型剩下的部分就可以访问每个词在句子中的绝对位置了，因为每个值都有一个独立的位置嵌入（比如，句子中第 22 个位置的词的位置嵌入，表示为图 16-9 中的左下方的垂直虚线，可以看到位置嵌入对这个位置是一对一的）。另外，振动函数（正弦和余弦）选择也可以让模型学到相对位置。例如，相隔 38 个位置的词（例如，在位置`p=22`和`p=60`）总是在嵌入维度`i=100`和`i=101`有相同的位置嵌入值，见图 16-9。这解释了对于每个频率，为什么需要正弦和余弦两个函数：如果只使用正弦（蓝线，`i=100`），模型不能区分位置`p=25`和`p=35`（叉子标记）。
+
+TensorFlow 中没有`PositionalEmbedding`层，但创建很容易。出于效率的考量，在构造器中先计算出位置嵌入（因此需要知道最大句子长度，`max_steps`，每个词表征的维度，`max_dims`）。然后调用`call()`方法裁剪嵌入矩阵，变成输入的大小，然后添加到输入上。因为创建位置嵌入矩阵时，添加了一个大小为 1 的维度，广播机制可以确保位置矩阵添加到输入中的每个句子上：
+
+```py
+class PositionalEncoding(keras.layers.Layer):
+    def __init__(self, max_steps, max_dims, dtype=tf.float32, **kwargs):
+        super().__init__(dtype=dtype, **kwargs)
+        if max_dims % 2 == 1: max_dims += 1 # max_dims must be even
+        p, i = np.meshgrid(np.arange(max_steps), np.arange(max_dims // 2))
+        pos_emb = np.empty((1, max_steps, max_dims))
+        pos_emb[0, :, ::2] = np.sin(p / 10000**(2 * i / max_dims)).T
+        pos_emb[0, :, 1::2] = np.cos(p / 10000**(2 * i / max_dims)).T
+        self.positional_embedding = tf.constant(pos_emb.astype(self.dtype))
+    def call(self, inputs):
+        shape = tf.shape(inputs)
+        return inputs + self.positional_embedding[:, :shape[-2], :shape[-1]] 
+```
+
+然后可以创建 Transformer 的前几层：
+
+```py
+embed_size = 512; max_steps = 500; vocab_size = 10000
+encoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)
+decoder_inputs = keras.layers.Input(shape=[None], dtype=np.int32)
+embeddings = keras.layers.Embedding(vocab_size, embed_size)
+encoder_embeddings = embeddings(encoder_inputs)
+decoder_embeddings = embeddings(decoder_inputs)
+positional_encoding = PositionalEncoding(max_steps, max_dims=embed_size)
+encoder_in = positional_encoding(encoder_embeddings)
+decoder_in = positional_encoding(decoder_embeddings) 
+```
+
+接下来看看 Transformer 的核心：多头注意力层。
+
+### 多头注意力
+
+要搞懂多头注意力层的原理，必须先搞懂收缩点积注意力层（Scaled Dot-Product Attention），多头注意力是基于它的。假设编码器分析输入句子`They played chess`，编码器分析出`They`是主语，`played`是动词，然后用词的表征编码这些信息。假设解码器已经翻译了主语，接下来要翻译动词。要这么做的话，它需要从输入句子取动词。这有点像查询字典：编码器创建了字典`{"subject": "They", "verb": "played", …}`，解码器想查找键`verb`对应的值是什么。但是，模型没有离散的标记来表示键（比如`subject`或`verb`）；它只有这些（训练中学到的）信息的向量化表征所以用来查询的键，不会完美对应前面字典中的键。解决的方法是计算查询词和键的相似度，然后用 softmax 函数计算概率权重。如果表示动词的键和查询词很相似，则键的权重会接近于 1。然后模型可以计算对应值的加权和，如果`verb`键的权重接近 1，则加权和会接近于词`played`的表征。总而言之，可以将整个过程当做字典查询。Transformer 使用点积做相似度计算，和 Luong 注意力一样。实际上，公式和 Luong 注意力一样，除了有缩放参数，见公式 16-3，是向量的形式。
+
+![](img/d644e896b4f43cb67ea5f6f6503e951e.png)
+
+公式 16-3 缩放点积注意力
+
+在这个公式中：
+
+*   `Q`矩阵每行是一个查询词。它的形状是`[n_queries, d_keys]`，`n_queries`是查询数，`d_keys`是每次查询和每个键的维度数。
+
+*   `K`矩阵每行是一个键。它的形状是`[n_keys, d_keys]`，`n_keys`是键和值的数量。
+
+*   `V`矩阵每行是一个值。它的形状是`[n_keys, d_values]`，`d_values`是每个值的数。
+
+*   `Q K^T`的形状是`[n_queries, n_keys]`：它包含这每个查询/键对的相似分数。softmax 函数的输出有相同的形状，且所有行的和是 1。最终的输出形状是`[n_queries, d_values]`，每行代表一个查询结果（值的加权和）。
+
+*   缩放因子缩小了相似度分数，防止 softmax 函数饱和（饱和会导致梯度变小）。
+
+*   在计算 softmax 之前，通过添加一些非常大的负值，到对应的相似度分上，可以遮挡一些键值对。这在遮挡多头机制层中很有用。
+
+在编码器中，这个公式应用到批次中的每个句子，`Q`、`K`、`V`等于输入句中的词列表（所以，句子中的每个词会和相同句中的每个词比较，包括自身）。相似的，在解码器的遮挡注意力层中，这个公式会应用到批次中每个目标句上，但要用遮挡，防止每个词和后面的词比较（因为在推断时，解码器只能访问已经输出的词，所以训练时要遮挡后面的输出标记）。在解码器的上边的注意力层，键`K`矩阵和值`V`矩阵是斌吗器生成的此列表，查询`Q`矩阵是解码器生成的词列表。
+
+`keras.layers.Attention`层实现了缩放点积注意力，它的输入是`Q`、`K`、`V`，除此之外，还有一个批次维度（第一个维度）。
+
+> 提示：在 TensorFlow 中，如果`A`和`B`是两个维度大于 2 的张量 —— 比如，分别是`[2, 3, 4, 5]`和`[2, 3, 5, 6]` —— 则`then tf.matmul(A, B)`会将这两个张量当做`2 × 3`的数组，每个单元都是一个矩阵，它会乘以对应的矩阵。`A`中第`i`行、第`j`列的矩阵，会乘以`B`的第`i`行、第`j`列的矩阵。因为`2 × 3`矩阵乘以`2 × 3`矩阵，结果是`2 × 3`矩阵，所以`tf.matmul(A, B)`的结果数组的形状是`[2, 3, 4, 6]`。
+
+如果忽略跳连接、归一化层、前馈块，且这是缩放点积注意力，不是多头注意力，则 Transformer 可以如下实现：
+
+```py
+Z = encoder_in
+for N in range(6):
+    Z = keras.layers.Attention(use_scale=True)([Z, Z])
+
+encoder_outputs = Z
+Z = decoder_in
+for N in range(6):
+    Z = keras.layers.Attention(use_scale=True, causal=True)([Z, Z])
+    Z = keras.layers.Attention(use_scale=True)([Z, encoder_outputs])
+
+outputs = keras.layers.TimeDistributed(
+    keras.layers.Dense(vocab_size, activation="softmax"))(Z) 
+```
+
+`use_scale=True`参数可以让层学会如何缩小相似度分数。这是和 Transformer 的一个区别，后者总是用相同的因子（）缩小相似度分数。`causal=True`参数，可以让注意力层的每个输出标记只注意前面的输出标记。
+
+下面来看看多头注意力层是什么？它的架构见图 16-10。
+
+![](img/9e3e02ea9caa5692e6a4ac2c14d5c68a.png)
+
+图 16-10 多头注意力层架构
+
+可以看到，它包括一组缩放点积注意力层，每个前面有一个值、键、查询的线性变换（即，时间分布紧密层，没有激活函数）。所有输出简单连接起来，再通过一个最终的线性变换。为什么这么做？这个架构的背后意图是什么？考虑前面讨论过的单词`played`。编码器可以将它是动词的信息做编码。同时，词表征还包含它在文本中的位置（得益于位置嵌入），除此之外，可能还包括了其它有用的信息，比如时态。总之，词表征编码了词的许多特性。如果只用一个缩放点积注意力层，则只有一次机会来查询所有这些特性。这就是为什么多头注意力层使用了多个不同的值、键、查询的线性变换：这可以让模型将词表征投影到不同的亚空间，每个关注于词特性的一个子集。也许一个线性层将词表征投影到一个亚空间，其中的信息是该词是个动词，另一个线性层会提取它是一个过去式，等等。然后缩放点积注意力做查询操作，最后将所有结果串起来，在投射到原始空间。
+
+在写作本书时，TensorFlow 2 还没有`Transformer`类或`MultiHeadAttention`类。但是，可以查看 TensorFlow 的这个教程：[创建语言理解的 Transformer 模型](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Ftransformertuto)。另外，TF Hub 团队正向 TensorFlow 2 移植基于 Transformer 的模块，很快就可以用了。同时，我希望我向你展示了自己实现 Transformer 并不难，这是一个很好的练习！
+
+## 语言模型的最新进展
+
+2018 年被称为“NLP 的 ImageNet 时刻”：成果惊人，产生了越来越大的基于 LSTM 和 Transformer、且在大数据集上训练过的架构。建议你看看下面的论文，都是 2018 年发表的：
+
+*   Matthew Peters 的 [ELMo 论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Felmo)，介绍了语言模型的嵌入（Embeddings from Language Models (ELMo)）：学习深度双向语言模型的内部状态，得到的上下文词嵌入。例如，词`Queen`在`Queen of the United Kingdom`和`queen bee`中的嵌入不同。
+
+*   Jeremy Howard 和 Sebastian Ruder 的 [ULMFiT 论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fulmfit)，介绍了无监督预训练对 NLP 的有效性：作者用海量语料，使用自监督学习（即，从数据自动生成标签）训练了一个 LSTM 语言模型，然后在各种任务上微调模型。他们的模型在六个文本分类任务上取得了优异的结果（将误差率降低了 18-24%）。另外，他们证明，通过在 100 个标签样本上微调预训练模型，可以达到在 10000 个样本上训练的效果。
+
+*   Alec Radford 和其他 OpenAI 人员的 [GPT 论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fgpt)，也展示了无监督训练的有效性，但他们使用的是类似 Transformer 的架构。作者预训练了一个庞大但简单的架构，由 12 个 Transformer 模块组成（只使用了遮挡多头注意力机制），也是用自监督训练的。然后在多个语言任务上微调，只对每个任务做了小调整。任务种类很杂：包括文本分类、衔接（句子 A 是否跟着句子 B），相似度（例如，`Nice weather today`和`It is sunny`很像），还有问答（通过阅读几段文字，让模型来回答多选题）。几个月之后，在 2019 年的二月，Alec Radford、Jeffrey Wu 和其它 OpenAI 的人员发表了 [GPT-2 论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fgpt2)，介绍了一个相似的架构，但是更大（超过 15 亿参数），他们展示了这个架构可以在多个任务上取得优异的表现，且不需要微调。这被称为零次学习（zero-shot learning (ZSL)）。[这个页面](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fopenai%2Fgpt-2)上是一个 GPT-2 模型的带有预训练权重的小型版本，“只有”1.17 亿个参数。
+
+*   Jacob Devlin 和其它 Google 人员的 [BERT 论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fbert)，也证明了在海量语料上做自监督预训练的有效性，使用的是类似 GPT 的架构，但用的是无遮挡多头注意力层（类似 Transformer 的编码器）。这意味着模型实际是双向的这就是 BERT（Bidirectional Encoder Representations from Transformers）中的 B 的含义。最重要的，作者提出了两个预训练任务，用以测试模型能力：
+
+    遮挡语言模型（MLM）
+    句子中的词有 15 的概率被遮挡。训练模型来预测被遮挡的词。例如，如果原句是`She had fun at the birthday party`，模型的输入是`She <mask> fun at the <mask> party`，让模型来预测`had`和`birthday`（忽略其它输出）。更加准确些，每个选出的单词有 80% 的概率被遮挡，10% 的概率被替换为随机词（降低预训练和微调的差异，因为模型在微调时看不到`<mask>`标记），10% 的概率不变（使模型偏向正确答案）。
+
+    预测下一句（NSP）
+    训练模型预测两句话是否是连续的。例如，模型可以预测`The dog sleeps`和`It snores loudly`是连续的，但是`The dog sleeps`和`The Earth orbits the Sun`是不连续的。这是一个有挑战的任务，可以在微调任务，比如问答和衔接上，极大提高模型的性能。
+
+可以看到，2018 年和 2019 年的创新是亚词层面的分词，从 LSTM 转向 Transformer，使用自监督学习预训练语言模型，做细微的架构变动（或不变动）来微调模型。因为进展非常快，每人说得清明年流行的是什么。如今，流行的是 Transformer，但明天可能是 CNN（Maha Elbayad 在 [2018 年的论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fpervasiveattention)，使用了遮挡的 2D 卷积层来做序列到序列任务）。如果卷土重来的话，也有可能是 RNN（例如，Shuai Li 在 [2018 年的论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Findrnn)展示了，通过让给定 RNN 层中的单元彼此独立，可以训练出更深的 RNN，能学习更长的序列）。
+
+下一章，我们会学习用自编码器，以无监督的方式学习深度表征，并用生成对抗网络生成图片及其它内容！
+
+## 练习
+
+1.  有状态 RNN 和无状态 RNN 相比，优点和缺点是什么？
+
+2.  为什么使用编码器-解码器 RNN，而不是普通的序列到序列 RNN，来做自动翻译？
+
+3.  如何处理长度可变的输入序列？长度可变的输出序列怎么处理？
+
+4.  什么是集束搜索，为什么要用集束搜索？可以用什么工具实现集束搜索？
+
+5.  什么是注意力机制？用处是什么？
+
+6.  Transformer 架构中最重要的层是什么？它的目的是什么？
+
+7.  什么时候需要使用采样 softmax？
+
+8.  Hochreiter 和 Schmidhuber 在关于 LSTM 的[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F93)中使用了嵌入 Reber 语法。这是一种人工的语法，用来生成字符串，比如`BPBTSXXVPSEPE`。查看 Jenny Orr 对它的[介绍](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F108)。选择一个嵌入 Reber 语法（比如 Jenny Orr 的论文中展示的），然后训练一个 RNN 来判断字符串是否符合语法。你需要先写一个函数来生成训练批次，其中 50% 符合语法，50% 不符合语法。
+
+9.  训练一个编码器-解码器模型，它可以将日期字符串从一个格式变为另一个格式（例如，从`April 22, 2019`变为`2019-04-22`）。
+
+10.  阅读 TensorFlow 的[《Neural Machine Translation with Attention tutorial》](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fnmttuto)。
+
+11.  使用一个最近的语言模型（比如，BERT），来生成一段更具信服力的莎士比亚文字。
+
+参考答案见附录 A。
+
+{% endraw %}
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/17.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/17.md
new file mode 100644
index 00000000..4b1d01ec
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/17.md
@@ -0,0 +1,818 @@
+# 十七、使用自编码器和 GAN 做表征学习和生成式学习
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+自编码器是能够在无监督（即，训练集是未标记）的情况下学习输入数据的紧密表征（叫做潜在表征或编码）的人工神经网络。这些编码通常具有比输入数据低得多的维度，使得自编码器对降维有用（参见第 8 章）。自编码器还可以作为强大的特征检测器，它们可以用于无监督的深度神经网络预训练（正如我们在第 11 章中讨论过的）。最后，一些自编码器是生成式模型：他们能够随机生成与训练数据非常相似的新数据。例如，您可以在脸图片上训练自编码器，然后可以生成新脸。但是生成出来的图片通常是模糊且不够真实。
+
+相反，用对抗生成网络（GAN）生成的人脸可以非常逼真，甚至让人认为他们是真实存在的人。你可以去[这个网址](https://links.jianshu.com/go?to=https%3A%2F%2Fthispersondoesnotexist.com%2F)，这是用 StyleGAN 生成的人脸，自己判断一下（还可以去[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fthisrentaldoesnotexist.com%2F)，看看 GAN 生成的卧室图片），GAN 现在广泛用于超清图片涂色，图片编辑，将草图变为照片，增强数据集，生成其它类型的数据（比如文本、音频、时间序列），找出其它模型的缺点并强化，等等。
+
+自编码器和 GAN 都是无监督的，都可以学习紧密表征，都可以用作生成模型，有许多相似的应用，但原理非常不同：
+
+*   自编码器是通过学习，将输入复制到输出。听起来很简单，但内部结构会使其相当困难。例如，你可以限制潜在表征的大小，或者可以给输入添加噪音，训练模型恢复原始输入。这些限制组织自编码器直接将输入复制到输出，可以强迫模型学习数据的高效表征。总而言之，编码是自编码器在一些限制下学习恒等函数的副产品。
+
+*   GAN 包括两个神经网络：一个生成器尝试生成和训练数据相似的数据，一个判别器来区分真实数据和假数据。特别之处在于，生成器和判别器在训练过程中彼此竞争：生成器就像一个制造伪钞的罪犯，而判别器就像警察一样，要把真钱挑出来。对抗训练（训练竞争神经网络），被认为是近几年的一大进展。在 2016 年，Yann LeCun 甚至说 GAN 是过去 10 年机器学习领域最有趣的发明。
+
+本章中，我们先探究自编码器的工作原理开始，如何做降维、特征提取、无监督预训练将、如何用作生成式模型。然后过渡到 GAN。先用 GAN 生成假图片，可以看到训练很困难。会讨论对抗训练的主要难点，以及一些解决方法。先从自编码器开始。
+
+## 有效的数据表征
+
+以下哪一个数字序列更容易记忆？
+
+*   40, 27, 25, 36, 81, 57, 10, 73, 19, 68
+*   50, 48, 46, 44, 42, 40, 38, 36, 34, 32, 30, 28, 26, 24, 22, 20, 18, 16, 14
+
+乍一看，第一个序列似乎应该更容易，因为它要短得多。 但是，如果仔细观察第二个序列，就会发现它是从 50 到 14 的偶数。一旦你注意到这个规律，第二个序列比第一个更容易记忆，因为你只需要记住规律就成，开始的数字和结尾的数字。请注意，如果您可以快速轻松地记住非常长的序列，则不会在意第二个序列中存在的规律。 只要记住每一个数字，就够了。 事实上，很难记住长序列，因此识别规律非常有用，并且希望能够澄清为什么在训练过程中限制自编码器会促使它发现并利用数据中的规律。
+
+记忆、感知和模式匹配之间的关系在 20 世纪 70 年代早期由 William Chase 和 Herbert Simon 研究。 他们观察到，专业棋手能够通过观看棋盘 5 秒钟就能记住所有棋子的位置，这是大多数人认为不可能完成的任务。 然而，只有当这些棋子被放置在现实位置（来自实际比赛）时才是这种情况，而不是随机放置棋子。 国际象棋专业棋手没有比你更好的记忆，他们只是更容易看到国际象棋的规律，这要归功于他们的比赛经验。 观察规律有助于他们有效地存储信息。
+
+就像这个记忆实验中的象棋棋手一样，一个自编码器会查看输入信息，将它们转换为高效的潜在表征，然后输出一些（希望）看起来非常接近输入的东西。 自编码器总是由两部分组成：将输入转换为潜在表征的编码器（或识别网络），然后是将潜在表征转换为输出的解码器（或生成网络）（见图 17-1）。
+
+![](img/133f15a30a9de1a24f0a24873dd09824.png)
+
+图 17-1 记忆象棋试验（左）和一个简单的自编码器（右）
+
+如你所见，自编码器通常具有与多层感知器（MLP，请参阅第 10 章）相同的体系结构，但输出层中的神经元数量必须等于输入数量。 在这个例子中，只有一个由两个神经元（编码器）组成的隐藏层和一个由三个神经元（解码器）组成的输出层。由于自编码器试图重构输入，所以输出通常被称为重建，并且损失函数包含重建损失，当重建与输入不同时，重建损失会对模型进行惩罚。
+
+由于内部表征具有比输入数据更低的维度（它是 2D 而不是 3D），所以自编码器被认为是不完整的。 不完整的自编码器不能简单地将其输入复制到编码，但它必须找到一种方法来输出其输入的副本。 它被迫学习输入数据中最重要的特征（并删除不重要的特征）。
+
+我们来看看如何实现一个非常简单的不完整的自编码器，以降低维度。
+
+## 用不完整的线性自编码器来做 PCA
+
+如果自编码器仅使用线性激活并且损失函数是均方误差（MSE），最终其实是做了主成分分析（参见第 8 章）。
+
+以下代码创建了一个简单的线性自编码器，以在 3D 数据集上执行 PCA，并将其投影到 2D：
+
+```py
+from tensorflow import keras
+
+encoder = keras.models.Sequential([keras.layers.Dense(2, input_shape=[3])])
+decoder = keras.models.Sequential([keras.layers.Dense(3, input_shape=[2])])
+autoencoder = keras.models.Sequential([encoder, decoder])
+
+autoencoder.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=0.1)) 
+```
+
+这段代码与我们在前面章节中创建的所有 MLP 没有什么大不同。只有以下几点要注意：
+
+*   自编码器由两部分组成：编码器和解码器。两者都是常规的`Sequential`模型，每个含有一个紧密层，自编码器是一个编码器和解码器连起来的`Sequential`模型（模型可以用作其它模型中的层）。
+
+*   自编码器的输出等于输入。
+
+*   简单 PCA 不需要激活函数（即，所有神经元是线性的），且损失函数是 MSE。后面会看到更复杂的自编码器。
+
+现在用生成出来的 3D 数据集训练模型，并用模型编码数据集（即将其投影到 2D）：
+
+```py
+history = autoencoder.fit(X_train, X_train, epochs=20)
+codings = encoder.predict(X_train) 
+```
+
+注意，`X_train`既用来做输入，也用来做目标。图 17-2 显示了原始 3D 数据集（左侧）和自编码器隐藏层的输出（即编码层，右侧）。 可以看到，自编码器找到了投影数据的最佳二维平面，保留了数据的尽可能多的差异（就像 PCA 一样）。
+
+![](img/e6301e8ec35adb6618df0c051f883dce.png)
+
+图 17-2 用不完整的线性自编码器实现 PCA
+
+> 笔记：可以将自编码器当做某种形式的自监督学习（带有自动生成标签功能的监督学习，这个例子中标签等于输入）
+
+## 栈式自编码器
+
+就像我们讨论过的其他神经网络一样，自编码器可以有多个隐藏层。 在这种情况下，它们被称为栈式自编码器（或深度自编码器）。 添加更多层有助于自编码器了解更复杂的编码。 但是，必须注意不要让自编码器功能太强大。 设想一个编码器非常强大，只需学习将每个输入映射到一个任意数字（并且解码器学习反向映射）即可。 很明显，这样的自编码器将完美地重构训练数据，但它不会在过程中学习到任何有用的数据表征（并且它不可能很好地泛化到新的实例）。
+
+栈式自编码器的架构以中央隐藏层（编码层）为中心通常是对称的。 简单来说，它看起来像一个三明治。 例如，一个用于 MNIST 的自编码器（在第 3 章中介绍）可能有 784 个输入，其次是一个隐藏层，有 100 个神经元，然后是一个中央隐藏层，有 30 个神经元，然后是另一个隐藏层，有 100 个神经元，输出层有 784 个神经元。 这个栈式自编码器如图 17-3 所示。
+
+![](img/2eb643c0821b45d0728233dbf25d1e46.png)
+
+图 17-3 栈式自编码器
+
+### 用 Keras 实现栈式自编码器
+
+你可以像常规深度 MLP 一样实现栈式自编码器。 特别是，我们在第 11 章中用于训练深度网络的技术也可以应用。例如，下面的代码使用 SELU 激活函数为 Fashion MNIST 创建了一个栈式自编码器：
+
+```py
+stacked_encoder = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.Dense(100, activation="selu"),
+    keras.layers.Dense(30, activation="selu"),
+])
+stacked_decoder = keras.models.Sequential([
+    keras.layers.Dense(100, activation="selu", input_shape=[30]),
+    keras.layers.Dense(28 * 28, activation="sigmoid"),
+    keras.layers.Reshape([28, 28])
+])
+stacked_ae = keras.models.Sequential([stacked_encoder, stacked_decoder])
+stacked_ae.compile(loss="binary_crossentropy",
+                   optimizer=keras.optimizers.SGD(lr=1.5))
+history = stacked_ae.fit(X_train, X_train, epochs=10,
+                         validation_data=[X_valid, X_valid]) 
+```
+
+逐行看下这个代码：
+
+*   和之前一样，自编码器包括两个子模块：编码器和解码器。
+
+*   编码器接收`28 × 28`像素的灰度图片，打平为大小等于 784 的向量，用两个紧密层来处理，两个紧密层都是用 SELU 激活函数（还可以加上 LeCun 归一初始化，但因为网络不深，效果不大）。对于每张输入图片，编码器输出的向量大小是 30。
+
+*   解码器接收大小等于 30 的编码（编码器的输出），用两个紧密层来处理，最后的向量转换为`28 × 28`的数组，使解码器的输出和编码器的输入形状相同。
+
+*   编译时，使用二元交叉熵损失，而不是 MSE。将重建任务当做多标签分类问题：每个像素强度表示像素应该为黑色的概率。这么界定问题（而不是当做回归问题），可以使模型收敛更快。
+
+*   最后，使用`X_train`既作为输入，也作为目标，来训练模型（相似的，使用`X_valid`既作为验证的输入也作为目标）。
+
+### 可视化重建
+
+确保自编码器训练得当的方式之一，是比较输入和输出：差异不应过大。画一些验证集的图片，及其重建：
+
+```py
+def plot_image(image):
+    plt.imshow(image, cmap="binary")
+    plt.axis("off")
+
+def show_reconstructions(model, n_images=5):
+    reconstructions = model.predict(X_valid[:n_images])
+    fig = plt.figure(figsize=(n_images * 1.5, 3))
+    for image_index in range(n_images):
+        plt.subplot(2, n_images, 1 + image_index)
+        plot_image(X_valid[image_index])
+        plt.subplot(2, n_images, 1 + n_images + image_index)
+        plot_image(reconstructions[image_index])
+
+show_reconstructions(stacked_ae) 
+```
+
+图 17-4 展示了比较结果。
+
+![](img/57ef0ccfc6045465417fbe4bfb671695.png)
+
+图 17-4 原始图片（上）及其重建（下）
+
+可以认出重建，但图片有些失真。需要再训练模型一段时间，或使编码器和解码器更深，或使编码更大。但如果使网络太强大，就学不到数据中的规律。
+
+### 可视化 Fashion MNIST 数据集
+
+训练好栈式自编码器之后，就可以用它给数据集降维了。可视化的话，结果不像（第 8 章其它介绍的）其它降维方法那么好，但自编码器的优势是可以处理带有多个实例多个特征的大数据集。所以一个策略是利用自编码器将数据集降维到一个合理的水平，然后使用另外一个降维算法做可视化。用这个策略来可视化 Fashion MNIST。首先，使用栈式自编码器的编码器将维度降到 30，然后使用 Scikit-Learn 的 t-SNE 算法实现，将维度降到 2 并做可视化：
+
+```py
+from sklearn.manifold import TSNE
+
+X_valid_compressed = stacked_encoder.predict(X_valid)
+tsne = TSNE()
+X_valid_2D = tsne.fit_transform(X_valid_compressed) 
+```
+
+对数据集作图：
+
+```py
+plt.scatter(X_valid_2D[:, 0], X_valid_2D[:, 1], c=y_valid, s=10, cmap="tab10") 
+```
+
+图 17-5 展示了结果的散点图（并展示了一些图片）。t-SNE 算法区分除了几类，比较符合图片的类别（每个类的颜色不一样）。
+
+![](img/fc72779301071ddc44cc9423b21732bc.png)
+
+图 17-5 使用自编码器和 t-SNE 对 Fashion MNIST 做可视化
+
+自编码器的另一个用途是无监督预训练。
+
+### 使用栈式自编码器做无监督预训练
+
+第 11 章讨论过，如果要处理一个复杂的监督任务，但又缺少标签数据，解决的方法之一，是找一个做相似任务的神经网络，复用它的底层。这么做就可以使用少量训练数据训练出高性能的模型，因为模型不必学习所有低层次特征；模型可以复用之前的特征探测器。
+
+相似的，如果有一个大数据集，但大部分实例是无标签的，可以用全部数据训练一个栈式自编码器，然后使用其底层创建一个神经网络，再用有标签数据来训练。例如，图 17-6 展示了如何使用栈式自编码器来做分类的无监督预训练。当训练分类器时，如果标签数据不足，可以冻住预训练层（底层）。
+
+![](img/6a262b3ada6d315c0ff9d176785f0e0d.png)
+
+图 17-6 使用自编码器做无监督预训练
+
+> 笔记：无标签数据很多，有标签数据数据很少，非常普遍。搭建一个大无便签数据集很便宜（比如，一段小脚本可以从网上下载许多图片），但是给这些图片打标签（比如，将其标签为可爱或不可爱）只有人做才靠谱。打标签又耗时又耗钱，所以人工标注实例有几千就不错了。
+
+代码实现没有特殊之处：用所有训练数据训练自编码器，然后用编码器层创建新的神经网络（本章有练习题例子）。
+
+接下来，看看关联权重的方法。
+
+### 关联权重
+
+当自编码器整齐地对称时，就像我们刚刚构建的那样，一种常用方法是将解码器层的权重与编码器层的权重相关联。 这样减半了模型中的权重数量，加快了训练速度，并限制了过度拟合的风险。具体来说，如果自编码器总共具有`N`个层（不算输入层），并且`W[L]`表示第`L`层的连接权重（例如，层 1 是第一隐藏层，则层`N / 2`是编码层，而层`N`是输出层），则解码器层权重可以简单地定义为：`W[N–L+1] = W[L]^T`（其中`L = 1, 2, ..., N/2`）。
+
+使用 Keras 将层的权重关联起来，先定义一个自定义层：
+
+```py
+class DenseTranspose(keras.layers.Layer):
+    def __init__(self, dense, activation=None, **kwargs):
+        self.dense = dense
+        self.activation = keras.activations.get(activation)
+        super().__init__(**kwargs)
+    def build(self, batch_input_shape):
+        self.biases = self.add_weight(name="bias", initializer="zeros",
+                                      shape=[self.dense.input_shape[-1]])
+        super().build(batch_input_shape)
+    def call(self, inputs):
+        z = tf.matmul(inputs, self.dense.weights[0], transpose_b=True)
+        return self.activation(z + self.biases) 
+```
+
+自定义层的作用就像一个常规紧密层，但使用了另一个紧密层的权重，并且做了转置（设置`transpose_b=True`等同于转置第二个参数，但在`matmul()`运算中实时做转置更为高效）。但是，要使用自己的偏置向量。然后，创建一个新的栈式自编码器，将解码器的紧密层和编码器的紧密层关联起来：
+
+```py
+dense_1 = keras.layers.Dense(100, activation="selu")
+dense_2 = keras.layers.Dense(30, activation="selu")
+
+tied_encoder = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    dense_1,
+    dense_2
+])
+
+tied_decoder = keras.models.Sequential([
+    DenseTranspose(dense_2, activation="selu"),
+    DenseTranspose(dense_1, activation="sigmoid"),
+    keras.layers.Reshape([28, 28])
+])
+
+tied_ae = keras.models.Sequential([tied_encoder, tied_decoder]) 
+```
+
+这个模型的重建误差小于前一个模型，且参数量只有一半。
+
+### 一次训练一个自编码器
+
+不是一次完成整个栈式自编码器的训练，而是一次训练一个浅自编码器，然后将所有这些自编码器堆叠到一个栈式自编码器（因此名称）中，通常要快得多，如图 17-7 所示。 这个方法如今用的不多了，但偶尔还会撞见谈到“贪婪层级训练”的论文，所以还是看一看。
+
+![](img/2e97115a3976ddb176e401dcfa95b53c.png)
+
+图 17-7 一次训练一个自编码器
+
+在训练的第一阶段，第一个自编码器学习重构输入。 然后，使用整个训练集训练第一个自编码器，得到一个新的（压缩过的）训练集。然后用这个数据集训练第二个自编码器。这是第二阶段的训练。最后，我们用所有这些自编码器创建一个三明治结构，见图 17-7（即，先把每个自编码器的隐藏层叠起来，再加上输出层）。这样就得到了最终的栈式自编码器（见笔记本）。我们可以用这种方式训练更多的自编码器，搭建非常深的栈式自编码器。
+
+正如前面讨论过的，现在的一大趋势是 Geoffrey Hinton 等人在 2006 年发现的，靠这种贪婪层级方法，可以用无监督方式训练神经网络。他们还使用了受限玻尔兹曼机（RBM，见附录 E）。但在 2007 年，Yoshua Bengio 发现只用自编码器也可以达到不错的效果。在这几年间，自编码器是唯一的有效训练深度网络的方法，知道出现第 11 章介绍过的方法。
+
+自编码器不限于紧密网络：还有卷积自编码器和循环自编码器。
+
+## 卷积自编码器
+
+如果处理的是图片，则前面介绍的自编码器的效果可能一般（除非图片非常小）。第 14 章介绍过，对于图片任务，卷积神经网络比紧密网络的效果更好。所以如果想用自编码器来处理图片的话（例如，无监督预训练或降维），你需要搭建一个卷积自编码器。编码器是一个包含卷积层和池化层的常规 CNN。通常降低输入的空间维度（即，高和宽），同时增加深度（即，特征映射的数量）。解码器的工作相反（放大图片，压缩深度），要这么做的话，可以转置卷积层（或者，可以将上采样层和卷积层合并）。下面是一个卷积自编码器处理 Fashion MNIST 的例子：
+
+```py
+conv_encoder = keras.models.Sequential([
+    keras.layers.Reshape([28, 28, 1], input_shape=[28, 28]),
+    keras.layers.Conv2D(16, kernel_size=3, padding="same", activation="selu"),
+    keras.layers.MaxPool2D(pool_size=2),
+    keras.layers.Conv2D(32, kernel_size=3, padding="same", activation="selu"),
+    keras.layers.MaxPool2D(pool_size=2),
+    keras.layers.Conv2D(64, kernel_size=3, padding="same", activation="selu"),
+    keras.layers.MaxPool2D(pool_size=2)
+])
+conv_decoder = keras.models.Sequential([
+    keras.layers.Conv2DTranspose(32, kernel_size=3, strides=2, padding="valid",
+                                 activation="selu",
+                                 input_shape=[3, 3, 64]),
+    keras.layers.Conv2DTranspose(16, kernel_size=3, strides=2, padding="same",
+                                 activation="selu"),
+    keras.layers.Conv2DTranspose(1, kernel_size=3, strides=2, padding="same",
+                                 activation="sigmoid"),
+    keras.layers.Reshape([28, 28])
+])
+conv_ae = keras.models.Sequential([conv_encoder, conv_decoder]) 
+```
+
+## 循环自编码器
+
+如果你想用自编码器处理序列，比如对时间序列或文本无监督学习和降维，则循环神经网络要优于紧密网络。搭建循环自编码器很简单：编码器是一个序列到向量的 RNN，而解码器是向量到序列的 RNN：
+
+```py
+recurrent_encoder = keras.models.Sequential([
+    keras.layers.LSTM(100, return_sequences=True, input_shape=[None, 28]),
+    keras.layers.LSTM(30)
+])
+recurrent_decoder = keras.models.Sequential([
+    keras.layers.RepeatVector(28, input_shape=[30]),
+    keras.layers.LSTM(100, return_sequences=True),
+    keras.layers.TimeDistributed(keras.layers.Dense(28, activation="sigmoid"))
+])
+recurrent_ae = keras.models.Sequential([recurrent_encoder, recurrent_decoder]) 
+```
+
+这个循环自编码器可以处理任意长度的序列，每个时间步有 28 个维度。这意味着，可以将 Fashion MNIST 的图片作为几行序列来处理。注意，解码器第一层用的是`RepeatVector`，以保证在每个时间步将输入向量传给解码器。
+
+我们现在已经看过了多种自编码器（基本的、栈式的、卷积的、循环的），学习了训练的方法（一次性训练或逐层训练）。还学习了两种应用：视觉可视化和无监督学习。
+
+为了让自编码学习特征，我们限制了编码层的大小（使它处于不完整的状态）。还可以使用许多其他的限制方法，可以让编码层和输入层一样大，甚至更大，得到一个过完成的自编码器。下面就是其中一些方法。
+
+## 降噪自编码
+
+另一种强制自编码器学习特征的方法是为其输入添加噪声，对其进行训练以恢复原始的无噪声输入。 自 20 世纪 80 年代以来，使用自编码器消除噪音的想法已经出现（例如，在 Yann LeCun 的 1987 年硕士论文中提到过）。 在 2008 年的一篇论文中，帕斯卡尔文森特等人。 表明自编码器也可用于特征提取。 在 2010 年的一篇炉温中， Vincent 等人引入了栈式降噪自编码器。
+
+噪声可以是添加到输入的纯高斯噪声，或者可以随机关闭输入，就像丢弃（在第 11 章介绍）。 图 17-8 显示了这两种方法。
+
+![](img/34a85484de696688796d6e35f8e7a0a3.png)
+
+图 17-8 高斯噪音（左）和丢弃（右）的降噪自编码器
+
+实现很简单：常规的栈式自编码器中有一个应用于输入的`Dropout`层（或使用`GaussianNoise`层）。`Dropout`层只在训练中起作用（`GaussianNoise`层也只在训练中起作用）：
+
+```py
+dropout_encoder = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.Dropout(0.5),
+    keras.layers.Dense(100, activation="selu"),
+    keras.layers.Dense(30, activation="selu")
+])
+dropout_decoder = keras.models.Sequential([
+    keras.layers.Dense(100, activation="selu", input_shape=[30]),
+    keras.layers.Dense(28 * 28, activation="sigmoid"),
+    keras.layers.Reshape([28, 28])
+])
+dropout_ae = keras.models.Sequential([dropout_encoder, dropout_decoder]) 
+```
+
+图 17-9 展示了一些带有造影的图片（有一半像素被丢弃），重建图片是用基于丢弃的自编码器实现的。注意自编码器是如何猜测图片中不存在的细节的，比如四张图片的领口。
+
+![](img/d726c67a612e5268f2123baf0d028222.png)
+
+图 17-9 噪音图片（上）和重建图片（下）
+
+## 稀疏自编码器
+
+通常良好特征提取的另一种约束是稀疏性：通过向损失函数添加适当的项，让自编码器减少编码层中活动神经元的数量。 例如，可以让编码层中平均只有 5% 的活跃神经元。 这迫使自编码器将每个输入表示为少量激活的组合。 因此，编码层中的每个神经元通常都会代表一个有用的特征（如果每个月只能说几个字，你会说的特别精炼）。
+
+使用 sigmoid 激活函数可以实现这个目的。添加一个编码层（比如，有 300 个神经元），给编码层的激活函数添加`ℓ1`正则（解码器就是一个常规解码器）：
+
+```py
+sparse_l1_encoder = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.Dense(100, activation="selu"),
+    keras.layers.Dense(300, activation="sigmoid"),
+    keras.layers.ActivityRegularization(l1=1e-3)
+])
+sparse_l1_decoder = keras.models.Sequential([
+    keras.layers.Dense(100, activation="selu", input_shape=[300]),
+    keras.layers.Dense(28 * 28, activation="sigmoid"),
+    keras.layers.Reshape([28, 28])
+])
+sparse_l1_ae = keras.models.Sequential([sparse_l1_encoder, sparse_l1_decoder]) 
+```
+
+`ActivityRegularization`只是返回输入，但副作用是新增了训练损失，大小等于输入的绝对值之和（这个层只在训练中起作用）。等价的，可以移出`ActivityRegularization`，并在前一层设置`activity_regularizer=keras.regularizers.l1(1e-3)`。这项惩罚可以让神经网络产生接近 0 的编码，如果没有正确重建输入，还是会有损失，仍然会产生一些非 0 值。不使用`ℓ2`，而使用`ℓ1`，可以让神经网络保存最重要的编码，同时消除输入图片不需要的编码（而不是压缩所有编码）。
+
+另一种结果更好的方法是在每次训练迭代中测量编码层的实际稀疏度，当偏移目标值，就惩罚模型。 我们通过计算整个训练批次中编码层中每个神经元的平均激活来实现。 批量大小不能太小，否则平均数不准确。
+
+一旦我们对每个神经元进行平均激活，我们希望通过向损失函数添加稀疏损失来惩罚太活跃的神经元，或不够活跃的神经元。 例如，如果我们测量一个神经元的平均激活值为 0.3，但目标稀疏度为 0.1，那么它必须受到惩罚才能激活更少。 一种方法可以简单地将平方误差`(0.3-0.1)^2`添加到损失函数中，但实际上更好的方法是使用 Kullback-Leibler 散度（在第 4 章中简要讨论），它具有比均方误差更强的梯度，如图 17-10 所示。
+
+![](img/3dfe7472d69611d43ccd638d7eb71169.png)
+
+图 17-10 稀疏损失
+
+给定两个离散的概率分布`P`和`Q`，这些分布之间的 KL 散度，记为`D[KL](P || Q)`，可以使用公式 17-1 计算。
+
+![](img/84f8b1f35d7af4b1e2321b25be6f00d9.png)
+
+公式 17-1 Kullback–Leibler 散度
+
+在我们的例子中，我们想要测量编码层中的神经元将激活的目标概率`p`与实际概率`q`（即，训练批次上的平均激活）之间的差异。 所以 KL 散度简化为公式 17-2。
+
+![](img/96a7a903ca020a64ae2a2e839ff98ac1.png)
+
+公式 17-2 目标稀疏度`p`和实际稀疏度`q`之间的 KL 散度
+
+一旦我们已经计算了编码层中每个神经元的稀疏损失，就相加这些损失，并将结果添加到损失函数中。 为了控制稀疏损失和重构损失的相对重要性，我们可以用稀疏权重超参数乘以稀疏损失。 如果这个权重太高，模型会紧贴目标稀疏度，但它可能无法正确重建输入，导致模型无用。 相反，如果它太低，模型将大多忽略稀疏目标，它不会学习任何有趣的功能。
+
+现在就可以实现基于 KL 散度的稀疏自编码器了。首先，创建一个自定义正则器来实现 KL 散度正则：
+
+```py
+K = keras.backend
+kl_divergence = keras.losses.kullback_leibler_divergence
+
+class KLDivergenceRegularizer(keras.regularizers.Regularizer):
+    def __init__(self, weight, target=0.1):
+        self.weight = weight
+        self.target = target
+    def __call__(self, inputs):
+        mean_activities = K.mean(inputs, axis=0)
+        return self.weight * (
+            kl_divergence(self.target, mean_activities) +
+            kl_divergence(1\. - self.target, 1\. - mean_activities)) 
+```
+
+使用`KLDivergenceRegularizer`作为编码层的激活函数，创建稀疏自编码器：
+
+```py
+kld_reg = KLDivergenceRegularizer(weight=0.05, target=0.1)
+sparse_kl_encoder = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.Dense(100, activation="selu"),
+    keras.layers.Dense(300, activation="sigmoid", activity_regularizer=kld_reg)
+])
+sparse_kl_decoder = keras.models.Sequential([
+    keras.layers.Dense(100, activation="selu", input_shape=[300]),
+    keras.layers.Dense(28 * 28, activation="sigmoid"),
+    keras.layers.Reshape([28, 28])
+])
+sparse_kl_ae = keras.models.Sequential([sparse_kl_encoder, sparse_kl_decoder]) 
+```
+
+在 Fashion MNIST 上训练好稀疏自编码器之后，编码层中的神经元的激活大部分接近 0（70% 的激活小于 0.1），所有神经元的平均值在 0.1 附近（90% 的平均激活在 0.1 和 0.2 之间）见图 17-11。
+
+![](img/2de4723c6249ec91b3cb15bc31d64b7f.png)
+
+图 17-11 编码层的所有激活的分布（左）和每个神经元平均激活的分布（右）
+
+## 变分自编码器（VAE）
+
+Diederik Kingma 和 Max Welling 于 2013 年推出了另一类重要的自编码器，并迅速成为最受欢迎的自编码器类型之一：变分自编码器。
+
+它与我们迄今为止讨论的所有自编码器非常不同，特别是：
+
+*   它们是概率自编码器，意味着即使在训练之后，它们的输出部分也是偶然确定的（相对于仅在训练过程中使用随机性的自编码器的去噪）。
+
+*   最重要的是，它们是生成自编码器，这意味着它们可以生成看起来像从训练集中采样的新实例。
+
+这两个属性使它们与 RBM 非常相似（见附录 E），但它们更容易训练，并且取样过程更快（在 RBM 之前，您需要等待网络稳定在“热平衡”之后才能进行取样一个新的实例）。正如其名字，变分自编码器要做变分贝叶斯推断（第 9 章介绍过），这是估计变微分推断的一种有效方式。
+
+我们来看看他们是如何工作的。 图 17-12（左）显示了一个变分自编码器。 当然，您可以认识到所有自编码器的基本结构，编码器后跟解码器（在本例中，它们都有两个隐藏层），但有一个转折点：不是直接为给定的输入生成编码 ，编码器产生平均编码`μ`和标准差`σ`。 然后从平均值`μ`和标准差`σ`的高斯分布随机采样实际编码。 之后，解码器正常解码采样的编码。 该图的右侧部分显示了一个训练实例通过此自编码器。 首先，编码器产生`μ`和`σ`，随后对编码进行随机采样（注意它不是完全位于`μ`处），最后对编码进行解码，最终的输出与训练实例类似。
+
+![](img/7c9060e3ee9cbc624bfadb3ac589452a.png)
+
+图 17-12 变分自编码器（左）和一个执行中的实例（右）
+
+从图中可以看出，尽管输入可能具有非常复杂的分布，但变分自编码器倾向于产生编码，看起来好像它们是从简单的高斯分布采样的：在训练期间，损失函数（将在下面讨论）推动 编码在编码空间（也称为潜在空间）内逐渐迁移以占据看起来像高斯点集成的云的大致（超）球形区域。 一个重要的结果是，在训练了一个变分自编码器之后，你可以很容易地生成一个新的实例：只需从高斯分布中抽取一个随机编码，对它进行解码就可以了！
+
+再来看看损失函数。 它由两部分组成。 首先是通常的重建损失，推动自编码器重现其输入（我们可以使用交叉熵来解决这个问题，如前所述）。 第二种是潜在的损失，推动自编码器使编码看起来像是从简单的高斯分布中采样，为此我们使用目标分布（高斯分布）与编码实际分布之间的 KL 散度。 数学比以前复杂一点，特别是因为高斯噪声，它限制了可以传输到编码层的信息量（从而推动自编码器学习有用的特征）。 幸好，这些方程经过简化，可以用公式 17-3 计算潜在损失：
+
+![](img/9273964ee58f08a1c76543fe9af21c40.png)
+
+公式 17-3 变分自编码器的潜在损失
+
+在这个公式中，`L`是潜在损失，`n`是编码维度，`μ[i]`和`σ[i]`是编码的第`i`个成分的平均值和标准差。向量`μ`和`σ`是编码器的输出，见图 17-12 的左边。
+
+一种常见的变体是训练编码器输出`γ= log(σ^2)`而不是`σ`。 可以用公式 17-4 计算潜在损失。这个方法的计算更稳定，且可以加速训练。
+
+![](img/8d10a31df92b1efadc78aa7882e885c0.png)
+
+公式 17-4 变分自编码器的潜在损失，使用`γ = log(σ^2)`
+
+给 Fashion MNIST 创建一个自编码器（见图 17-12，使用`γ`变体）。首先，需要一个自定义层从编码采样，给定`μ`和`γ`：
+
+```py
+class Sampling(keras.layers.Layer):
+    def call(self, inputs):
+        mean, log_var = inputs
+        return K.random_normal(tf.shape(log_var)) * K.exp(log_var / 2) + mean 
+```
+
+这个`Sampling`层接收两个输入：`mean (μ)` 和 `log_var (γ)`。使用函数`K.random_normal()`根据正态分布随机采样向量（形状为`γ`）平均值为 0 标准差为 1。然后乘以`exp(γ / 2)`（这个值等于`σ`），最后加上μ并返回结果。这样就能从平均值为 0 标准差为 1 的正态分布采样编码向量。
+
+然后，创建编码器，因为模型不是完全顺序的，所以要使用函数式 API：
+
+```py
+codings_size = 10
+
+inputs = keras.layers.Input(shape=[28, 28])
+z = keras.layers.Flatten()(inputs)
+z = keras.layers.Dense(150, activation="selu")(z)
+z = keras.layers.Dense(100, activation="selu")(z)
+codings_mean = keras.layers.Dense(codings_size)(z)  # μ
+codings_log_var = keras.layers.Dense(codings_size)(z)  # γ
+codings = Sampling()([codings_mean, codings_log_var])
+variational_encoder = keras.Model(
+    inputs=[inputs], outputs=[codings_mean, codings_log_var, codings]) 
+```
+
+注意，输出`codings_mean` (μ)和`codings_log_var` (γ)的`Dense`层，有同样的输入（即，第二个紧密层的输出）。然后将`codings_mean`和`codings_log_var`传给`Sampling`层。最后，`variational_encoder`模型有三个输出，可以用来检查`codings_mean`和`codings_log_var`的值。真正使用的是最后一个（`codings`）。下面创建解码器：
+
+```py
+decoder_inputs = keras.layers.Input(shape=[codings_size])
+x = keras.layers.Dense(100, activation="selu")(decoder_inputs)
+x = keras.layers.Dense(150, activation="selu")(x)
+x = keras.layers.Dense(28 * 28, activation="sigmoid")(x)
+outputs = keras.layers.Reshape([28, 28])(x)
+variational_decoder = keras.Model(inputs=[decoder_inputs], outputs=[outputs]) 
+```
+
+对于解码器，因为是简单栈式结构，可以不使用函数式 API，而使用顺序 API。最后，创建变分自编码器：
+
+```py
+_, _, codings = variational_encoder(inputs)
+reconstructions = variational_decoder(codings)
+variational_ae = keras.Model(inputs=[inputs], outputs=[reconstructions]) 
+```
+
+注意，我们忽略了编码器的前两个输出。最后，必须将潜在损失和重建损失加起来：
+
+```py
+latent_loss = -0.5 * K.sum(
+    1 + codings_log_var - K.exp(codings_log_var) - K.square(codings_mean),
+    axis=-1)
+variational_ae.add_loss(K.mean(latent_loss) / 784.)
+variational_ae.compile(loss="binary_crossentropy", optimizer="rmsprop") 
+```
+
+我们首先用公式 17-4 计算批次中每个实例的潜在损失。然后计算所有实例的平均损失，然后除以，使其量纲与重建损失一致。实际上，变分自编码器的重建损失是像素重建误差的和，但当 Keras 计算`"binary_crossentropy"`损失时，它计算的是 784 个像素的平均值，而不是和。因此，重建损失比真正要的值小 784 倍。我们可以定义一个自定义损失来计算误差和，但除以 784 更简单。
+
+注意，这里使用了`RMSprop`优化器。最后，我们可以训练自编码器。
+
+```py
+history = variational_ae.fit(X_train, X_train, epochs=50, batch_size=128,
+                             validation_data=[X_valid, X_valid]) 
+```
+
+### 生成 Fashion MNIST 图片
+
+接下来用上面的变分自编码器生成图片。我们要做的只是从高斯分布随机采样编码，然后做解码：
+
+```py
+codings = tf.random.normal(shape=[12, codings_size])
+images = variational_decoder(codings).numpy() 
+```
+
+图 17-13 展示了 12 张生成的图片。
+
+![](img/1c696a3cda652b27fb2296c17a087922.png)
+
+图 17-13 用变分自编码器生成的 Fashion MNIST 图片
+
+大多数生成的图片很逼真，就是有些模糊。其它的效果一般，这是因为自编码器只学习了几分钟。经过微调和更长时间的训练，效果就能编号。
+
+变分自编码器也可以做语义插值：不是对两张图片做像素级插值（结果就像是两张图重叠），而是在编码级插值。先用编码层运行两张图片，然后对两个编码层插值，然后解码插值编码，得到结果图片。结果就像一个常规的 Fashion MINIST 图片，但还是介于原始图之间。在接下来的代码中，将 12 个生成出来的编码，排列成`3 × 4`的网格，然后用 TensorFlow 的`tf.image.resize()`函数，将其缩放为`5 × 7`。默认条件下，`resize()`函数会做双线性插值，所以每两个行或列都会包含插值编码。然后用解码器生成所有图片：
+
+```py
+codings_grid = tf.reshape(codings, [1, 3, 4, codings_size])
+larger_grid = tf.image.resize(codings_grid, size=[5, 7])
+interpolated_codings = tf.reshape(larger_grid, [-1, codings_size])
+images = variational_decoder(interpolated_codings).numpy() 
+```
+
+图 17-14 展示了结果。画框的是原始图，其余是根据附近图片做出的语义插值图。注意，第 4 行第 5 列的鞋，是上下两张图的完美融合。
+
+![](img/f4ffcbb836de51fac9c67bb2c4970800.png)
+
+图 17-14 语义插值
+
+变分自编码器流行几年之后，就被 GAN 超越了，后者可以生成更为真实的图片。
+
+## 对抗生成网络（GAN）
+
+对抗生成网络是 Ian Goodfellow 在 2014 年的一篇[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fgan)中提出的，尽管一开始就引起了众人的兴趣，但用了几年时间才客服了训练 GAN 的一些难点。和其它伟大的想法一样，GAN 的本质很简单：让神经网络互相竞争，让其在竞争中进步。见图 17-15，GAN 包括两个神经网络：
+
+*   生成器
+    使用随机分布作为输入（通常为高斯分布），并输出一些数据，比如图片。可以将随机输入作为生成文件的潜在表征（即，编码）。生成器的作用和变分自编码器中的解码器差不多，可以用同样的方式生成图片（只要输入一些高斯噪音，就能输出全新的图片）。但是，生成器的训练过程很不一样。
+
+*   判别器
+    从训练集取出一张图片，判断图片是真是假。
+
+![](img/439b37e1638f28229762d9a05a371c77.png)
+
+图 17-15 一个对抗生成网络
+
+在训练中，生成器和判别器的目标正好相反：判别器判断图片的真假，生成器尽力生成看起来像真图的图片。因为 GAN 由这两个目的不同的网络组成，所以不能像常规网络那样训练。每次训练迭代分成两个阶段：
+
+*   第一个阶段，训练判别器。从训练集取样一批真实图片，数量与假图片相同。假图片的标签设为 0，真图片的标签设为 1，判别器用这个有标签的批次训练一步，使用二元交叉熵损失。反向传播在这一阶段只优化判别器的权重。
+
+*   第二个阶段，训练生成器。首先用生成器产生另一个批次的假图片，再用判别器来判断图片是真是假。这一次不添加真图片，但所有标签都设为 1（真）：换句话说，我们想让生成器产生可以让判别器信以为真的图片。判别器的权重在这一步是冷冻的，所以反向传播只影响生成器。
+
+> 笔记：生成器看不到真图，但却逐渐生成出逼真的不骗。它只是使用了经过判别器返回的梯度。幸好，随着判别器的优化，这些二手梯度中包含的关于真图的信息也越来越多，所以生成器才能进步。
+
+接下来为 Fashion MNIST 创建一个简单的 GAN 模型。
+
+首先，创建生成器和判别器。生成器很像自编码器的解码器，判别器就是一个常规的二元分类器（图片作为输入，输出是包含一个神经元的紧密层，使用 sigmoid 激活函数）。对于每次训练迭代中的第二阶段，需要完整的 GAN 模型：
+
+```py
+codings_size = 30
+
+generator = keras.models.Sequential([
+    keras.layers.Dense(100, activation="selu", input_shape=[codings_size]),
+    keras.layers.Dense(150, activation="selu"),
+    keras.layers.Dense(28 * 28, activation="sigmoid"),
+    keras.layers.Reshape([28, 28])
+])
+discriminator = keras.models.Sequential([
+    keras.layers.Flatten(input_shape=[28, 28]),
+    keras.layers.Dense(150, activation="selu"),
+    keras.layers.Dense(100, activation="selu"),
+    keras.layers.Dense(1, activation="sigmoid")
+])
+gan = keras.models.Sequential([generator, discriminator]) 
+```
+
+然后，我们需要编译这些模型。因为判别器是一个二元分类器，我们可以使用二元交叉熵损失。生成器只能通过 GAN 训练，所以不需要编译生成器。`gan`模型也是一个二元分类器，所以可以使用二元交叉熵损失。重要的，不能在第二个阶段训练判别器，所以编译模型之前，使其不可训练：
+
+```py
+discriminator.compile(loss="binary_crossentropy", optimizer="rmsprop")
+discriminator.trainable = False
+gan.compile(loss="binary_crossentropy", optimizer="rmsprop") 
+```
+
+> 笔记：Keras 只有在编译模型时才会考虑`trainable`属性，所以运行这段代码后，如果调用`fit()`方法或`train_on_batch()`方法，`discriminator`就是可训练的了。但在`gan`模型上调用这些方法，判别器是不可训练的。
+
+因为训练循环是非常规的，我们不能使用常规的`fit()`方法。但我们可以写一个自定义的训练循环。要这么做，需要先创建一个`Dataset`迭代这些图片：
+
+```py
+batch_size = 32
+dataset = tf.data.Dataset.from_tensor_slices(X_train).shuffle(1000)
+dataset = dataset.batch(batch_size, drop_remainder=True).prefetch(1) 
+```
+
+现在就可以来写训练循环了。用`train_gan()`函数来包装：
+
+```py
+def train_gan(gan, dataset, batch_size, codings_size, n_epochs=50):
+    generator, discriminator = gan.layers
+    for epoch in range(n_epochs):
+        for X_batch in dataset:
+            # phase 1 - training the discriminator
+            noise = tf.random.normal(shape=[batch_size, codings_size])
+            generated_images = generator(noise)
+            X_fake_and_real = tf.concat([generated_images, X_batch], axis=0)
+            y1 = tf.constant([[0.]] * batch_size + [[1.]] * batch_size)
+            discriminator.trainable = True
+            discriminator.train_on_batch(X_fake_and_real, y1)
+            # phase 2 - training the generator
+            noise = tf.random.normal(shape=[batch_size, codings_size])
+            y2 = tf.constant([[1.]] * batch_size)
+            discriminator.trainable = False
+            gan.train_on_batch(noise, y2)
+
+train_gan(gan, dataset, batch_size, codings_size) 
+```
+
+和前面讨论的一样，每次迭代都有两个阶段：
+
+*   在第一阶段，向生成器输入高斯噪音来生成假图片，然后再补充同等数量的真图片。假图片的目标`y1`设为 0，真图片的目标`y1`设为 1。然后用这个批次训练判别器。注意，将判别器的`trainable`属性设为`True`：这是为了避免 Keras 检查到现在是`False`而在训练时为`True`，显示警告。
+
+*   在第二阶段，向 GAN 输入一些高斯噪音。它的生成器会开始假图片，然后判别器会判断其真假。我们希望判别器判断图片是真的，所以`y2`设为 1。注意，为了避免警告，将`trainable`属性设为`False`。
+
+这样就好了！如果展示生成出来的图片（见图 17-16），可以看到在第一个周期的后期，图片看起来已经接近 Fashion MNIST 的图片了。
+
+![](img/49a9afbd5ba01e0eb2b98f7000c9f94e.png)
+
+图 17-16 GAN 训练一个周期后，生成的图片
+
+不过，再怎么训练，图片的质量并没有提升，还发现在有的周期 GAN 完全忘了学到了什么。为什么会这样？貌似训练 GAN 很有挑战。接下来看看原因。
+
+### 训练 GAN 的难点
+
+在训练中，生成器和判别器不断试图超越对方，这是一个零和博弈。随着训练的进行，可能会达成博弈学家称为纳什均衡的状态：每个选手都不改变策略，并认为对方也不会改变策略。例如，当所有司机都靠左行驶时，就达到了纳什均衡：没有司机会选择换边。当然，也有第二种可能：每个人都靠右行驶。不同的初始状态和动力学会导致不同的均衡。在这个例子中，达到均衡时，只有一种最优策略，但纳什均衡包括多种竞争策略（比如，捕食者追逐猎物，猎物试图逃跑，两者都要改变策略）。
+
+如何将博弈论应用到 GAN 上呢？论文作者证明，GAN 只能达到一种均衡状态：生成器产生完美的真实图片，同时让判别器来判断（50% 为真，50% 为假）。这是件好事：看起来只要训练 GAN 足够久，就会达到均衡，获得完美的生成器。不过，并没有这么简单：没有人能保证一定能达到均衡。
+
+最大的困难是模式坍塌：生成器的输出逐渐变得不那么丰富。为什么会这样？假设生成器产生的鞋子图片比其它类的图片更让人信服，假鞋子图片就会更多的欺骗判别器，就会导致生成更多的鞋子图片。逐渐的，生成器会忘掉如何生成其它类的图片。同时，判别器唯一能看到的就是鞋子图片，所以判别器也会忘掉如何判断其它类的图片。最终，当判别器想要区分假鞋和真鞋时，生成器会被迫生成其它类。生成器可能变成善于衬衫，而忘了鞋子，判别器也会发生同样的转变。GAN 会逐渐在一些类上循环，从而对哪一类都不擅长。
+
+另外，因为生成器和判别器不断试探对方，它们的参数可能不断摇摆。训练可能一开始正常，但因为不稳定性，会突然发散。又因为多种因素可能会影响动力学，GAN 会对超参数特别敏感：微调超参数会特别花费时间。
+
+这些问题自从 2014 年就一直困扰着人们：人们发表了许多论文，一些论文提出新的损失函数、或稳定化训练的手段、或避免模式坍塌。例如，经验接力：将生成器在每个迭代产生的图片存储在接力缓存中（逐次丢弃旧的生成图），使用真实图片和从缓存中取出的图片训练判别器。这样可以降低判别器对生成器的最后一个输出过拟合的几率。另外一个方法是小批次判别：测量批次中图片的相似度，然后将数据传给判别器，判别器就可以删掉缺乏散度的假图片。这可以鼓励生成器产生更多类的图片，避免模式坍塌。
+
+总而言之，这是一个非常活跃的研究领域，GAN 的动力学仍然没有彻底搞清。好消息是人们已经取得了一定成果，效果不俗。接下来看看一些成功的架构，从深度卷积 GAN 开始，这是几年前的前沿成果。然后再看两个新近的（更复杂的）架构。
+
+### 深度卷积 GAN
+
+2014 年的原始 GAN 论文是用卷积层实验的，但只用来生成小图片。不久之后，许多人使用深度卷积网络为大图片创建 GAN。过程艰难，因为训练不稳定，但最终 Alec Radford 等人试验了许多不同的架构和超参数，在 2015 年取得了成功。他们将最终架构称为深度卷积 GAN（DCGAN）。他们提出的搭建稳定卷积 GAN 的建议如下：
+
+*   （判别器中）用卷积步长（strided convolutions）、（生成器中）用转置卷积，替换池化层。
+
+*   生成器和判别器都使用批归一化，除了生成器的输出层和判别器的输入层。
+
+*   去除深层架构中的全连接隐藏层。
+
+*   生成器的输出层使用 tanh 激活，其它层使用 ReLU 激活。
+
+*   判别器的所有层使用 leaky ReLU 激活。
+
+这些建议在许多任务中有效，但存在例外，所以你还是需要尝试不同的超参数（事实上，改变随机种子，再训练模型，可能就成功了）。例如，下面是一个小型的 DCGAN，在 Fashion MNIST 上效果不错：
+
+```py
+codings_size = 100
+
+generator = keras.models.Sequential([
+    keras.layers.Dense(7 * 7 * 128, input_shape=[codings_size]),
+    keras.layers.Reshape([7, 7, 128]),
+    keras.layers.BatchNormalization(),
+    keras.layers.Conv2DTranspose(64, kernel_size=5, strides=2, padding="same",
+                                 activation="selu"),
+    keras.layers.BatchNormalization(),
+    keras.layers.Conv2DTranspose(1, kernel_size=5, strides=2, padding="same",
+                                 activation="tanh")
+])
+discriminator = keras.models.Sequential([
+    keras.layers.Conv2D(64, kernel_size=5, strides=2, padding="same",
+                        activation=keras.layers.LeakyReLU(0.2),
+                        input_shape=[28, 28, 1]),
+    keras.layers.Dropout(0.4),
+    keras.layers.Conv2D(128, kernel_size=5, strides=2, padding="same",
+                        activation=keras.layers.LeakyReLU(0.2)),
+    keras.layers.Dropout(0.4),
+    keras.layers.Flatten(),
+    keras.layers.Dense(1, activation="sigmoid")
+])
+gan = keras.models.Sequential([generator, discriminator]) 
+```
+
+生成器的编码大小为 100，将其投影到 6272 个维度上（`7 * 7 * 128`），将结果变形为`7 × 7 × 128`的张量。这个张量经过批归一化，然后输入给步长为 2 的转置卷积层，从`7 × 7`上采样为`14 × 14`，深度从 128 降到 64。结果再做一次批归一化，传给另一个步长为 2 的转置卷积层，从`7 × 7`上采样为`14 × 14`，深度从 64 降到 1。这个层使用 tanh 激活函数，输出范围是-1 到 1。因为这个原因，在训练 GAN 之前，需要收缩训练集到相同的范围。还需要变形，加上通道维度：
+
+```py
+X_train = X_train.reshape(-1, 28, 28, 1) * 2\. - 1\. # 变形和收缩 
+```
+
+判别器看起来很像英语二元分类的常规 CNN，除了使用的不是最大池化层降采样图片，而是使用卷积步长。另外，使用的激活函数是 leaky ReLU。
+
+总之，我们遵守了 DCGAN 的建议，除了将判别器中的`BatchNormalization`替换成了`Dropout`层（否则训练会变得不稳定），生成器的 ReLU 替换为 SELU。你可以随意调整这个架构：可以看到对超参数（特别是学习率）的敏感度。
+
+最后，要创建数据集，然后编译训练模型，使用和之前一样的代码。经过 50 个周期的训练，生成器的图片见图 17-17。还是不怎么完美，但一些图片已经很逼真了。
+
+![](img/e21ae4dd116512c19b7838f18c210a5f.png)
+
+图 17-17 DCGAN 经过 50 个周期的训练，生成的图片
+
+如果扩大这个架构，然后用更大的面部数据集训练，可以得到相当逼真的图片。事实上，DCGAN 可以学习到许多有意义的潜在表征，见图 17-18：从生成的诸多图片中手动选取了九张（左上），包括三张戴眼镜的男性，三张不戴眼镜的男性，和三张不戴眼镜的女性。对于每一类，对其编码做平均，用平均的结果再生成一张图片（放在下方）。总之，下方的图片是上方图片的平均。但不是简单的像素平均，而是潜在空间的平均，所以看起来仍是正常的人脸。如果用戴眼镜的男性，减去不戴眼镜的男性，加上不戴眼镜的女性，使用平均编码，就得到了右边`3 × 3`网格的正中的图片，一个戴眼镜的女性！其它八张是添加了一些噪声的结果，用于解释 DCGAN 的语义插值能力。可以用人脸做加减法就像科幻小说一样！
+
+![](img/cbb644cd149a74ccf3e2b47fe82e5946.png)
+
+图 17-18 面部的向量运算（来自 DCGAN 论文的图 7）
+
+> 提示：如果将图片的类作为另一个输入，输入给生成器和判别器，它们都能学到每个类的样子，你就可以控制生成器产生图片的类。这被称为条件 GAN（CGAN）。
+
+但是，DCGAN 并不完美。比如，当你使用 DCGAN 生成非常大的图片时，通常是局部逼真，但整体不协调（比如 T 恤的一个袖子比另一个长很多）。如何处理这种问题呢？
+
+### GAN 的渐进式变大
+
+Nvidia 研究员 Tero Karras 等人在 2018 年发表了一篇[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fprogan)，提出了一个重要方法：他们建议在训练时，先从生成小图片开始，然后逐步给生成器和判别器添加卷积层，生成越来越大的图片（`4 × 4, 8 × 8, 16 × 16, …, 512 × 512, 1,024 × 1,024`）。这个方法和栈式自编码器的贪婪层级训练很像。余下的层添加到生成器的末端和判别器的前端，之前训练好的层仍然可训练。
+
+例如，当生成器的输出从`4 × 4`变为`4 × 4`时（见图 17-19），在现有的卷积层上加上一个上采样层（使用近邻过滤），使其输出`4 × 4`的特征映射。再接着传给一个新的卷积层（使用`same`填充，步长为 1，输出为`8 × 8`）。接着是一个新的输出卷积层：这是一个常规卷积层，核大小为 1，将输出投影到定好的颜色通道上（比如 3）。为了避免破坏第一个训练好的卷积层的权重，最后的输出是原始输出层（现在的输出是`4 × 4`的特征映射）的权重之和。新输出的权重是α，原始输出的权重是`1-α`，`α`逐渐从 0 变为 1。换句话说，新的卷积层（图 17-19 中的虚线）是淡入的，而原始输出层淡出。向判别器（跟着平均池化层做降采样）添加新卷积层时，也是用相似的淡入淡出方法。
+
+![](img/da86f27b01eca3491106da5569f29e04.png)
+
+图 17-19 GAN 的渐进式变大：GAN 生成器输出`4 × 4`的彩色图片（左）；将其扩展为`4 × 4`的图片（右）
+
+这篇文章还提出了一些其它的方法，用于提高输出的散度（避免模式坍塌），使训练更稳定：
+
+*   小批次标准差层
+
+    添加在判别器的靠近末端的位置。对于输入的每个位置，计算批次（`S = tf.math.reduce_std(inputs, axis=[0, -1])`）中，所有通道所有实例的标准差。接着，这些标准差对所有点做平均，得到一个单值（`v = tf.reduce_​mean(S)`）。最后，给批次中的每个实例添加一个额外的特征映射，填入计算得到的单值（`tf.concat([inputs, tf.fill([batch_size, height, width, 1], v)], axis=-1)`）。这样又什么用呢？如果生成器产生的图片没有什么偏差，则判别器的特征映射的标准差会特别小。有了这个层，判别器就可以做出判断。可以让生成器产生高散度的输出，降低模式坍塌的风险。
+
+*   相等的学习率
+
+    使用一个简单的高斯分布（平均值为 0，标准差为 1）初始化权重，而不使用 He 初始化。但是，权重在运行时（即，每次执行层）会变小：会除以`√(2/n_inputs)`，`n_inputs`是层的输入数。这篇论文说，使用这个方法可以显著提升 GAN 使用 RMSProp、Adam 和其它适应梯度优化器时的性能。事实上，这些优化器用估计标准差（见第 11 章）归一化了梯度更新，所以有较大动态范围的参数需要更长时间训练，而较小动态范围的参数可能更新过快，会导致不稳定。通过缩放模型的部分参数，可以保证参数的动态范围在训练过程中一致，可以用相同的速度学习。这样既加速了训练，也做到了稳定。
+
+*   像素级归一化层
+
+    生成器的每个卷积层之后添加。它能归一化每个激活函数，基于相同图片相同位置的所有激活，而且跨通道（除以平均激活平方的平方根）。在 TensorFlow 的代码中，这是`inputs / tf.sqrt(tf.reduce_mean(tf.square(X), axis=-1, keepdims=True) + 1e-8)`（平滑项`1e-8`用于避免零除）。这种方法可以避免生成器和判别器的过分竞争导致的激活爆炸。
+
+使用所有这些方法，作者制作出了[非常逼真的人脸图片](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fprogandemo)。但如何给“逼真”下定义呢？GAN 的评估时一大挑战：尽管可以自动评估生成图片的散度，判断质量要棘手和主观的多。一种方法是让人来打分，但成本高且耗时。因此作者建议比较生成图和训练图的局部图片结构，在各个层次比较。这个想法使他们创造出了另一个突破性的成果：StyleGAN。
+
+### StyleGAN
+
+相同的 Nvidia 团队在 2018 年的一篇[论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fstylegan)中提出了高性能的高清图片生成架构，StyleGAN。作者在生成器中使用了风格迁移方法，使生成的图片和训练图片在每个层次，都有相同的局部结构，极大提升了图片的质量。判别器和损失函数没有变动，只修改了生成器。StyleGAN 包含两个网络（见图 17-20）：
+
+*   映射网络
+
+    一个八层的 MLP，将潜在表征`z`（即，编码）映射为向量`w`。向量然后传给仿射变换（即，没有激活函数的紧密层，用图 17-20 中的框 A 表示），输出许多向量。这些向量在不同级别控制着生成图片的风格，从细粒度纹理（比如，头发颜色）到高级特征（比如，成人或孩子）。总而言之，映射网络将编码变为许多风格向量。
+
+*   合成网络
+
+    负责生成图片。它有一个固定的学好的输入（这个输入在训练之后是不变的，但在训练中被反向传播更新）。和之前一样，合成网络使用多个卷积核上采样层处理输入，但有两处不同：首先，输入和所有卷积层的输出（在激活函数之前）都添加了噪音。第二，每个噪音层的后面是一个适应实例归一化（AdaIN）层：它独立标准化每个特征映射（减去平均值，除以标准差），然后使用风格向量确定每个特征映射的缩放和偏移（风格向量对每个特征映射包含一个缩放和一个偏置项）。
+
+![](img/16e64eb0ee762551f526e51a257df423.png)
+
+图 17-20 StyleGAN 的生成器架构（StyleGAN 论文的图 1 的一部分）
+
+在编码层独立添加噪音非常重要。图片的一些部分是很随机的，比如雀斑和头发的确切位置。在早期的 GAN 中，这个随机性要么来自编码，要么是生成器的一些伪噪音。如果来自编码，意味着生成器要用编码的很重要的一部分来存储噪音：这样会非常浪费。另外，噪音会在网络中流动，直到生成器的最后一层：这是一种没有必要的约束，会显著减慢训练。最后，因为噪音的存在，会出现一些视觉伪影。如果是生成器来制造伪噪音，噪音可能不够真实，造成更多的视觉伪影。另外，用生成器的一部分权重来生成伪噪音，这也是一种浪费。通过添加额外的噪音输入，可以避免所有这些问题；GAN 可以利用噪音，给图片的每个部分添加随机量。
+
+添加的噪音在每个级别都不同。每个噪音输入包含一个单独的包含高斯噪音的特征映射，广播到所有特征映射上（给定级别），然后在添加前用每个特征的缩放因子缩放（这是图 17-20 的框 B）。
+
+最后，StyleGAN 使用了一种称为混合正则（或风格混合）的方法，生成图的一定比例使用两个编码来生成。特别的，编码`c[1]`和`c[2]`发送给映射网络，得到两个风格向量`w[1]`和`w[2]`。然后合成网络使用风格`w[1]`生成第一级，用`w[2]`生成其余的。级的选取是随机的。这可以防止模型认为临近的级是有关联的，会导致 GAN 的局部性，每个风格向量只会影响生成图的有限数量的特性。
+
+GAN 的种类如此之多，用一本书才能介绍全。希望这里的内容可以告诉你 GAN 的主要观点，以及继续学习的动力。如果你对数学概念掌握不好，可以看看网上的博客。然后就可以创建自己的 GAN 了，如果一开始碰到问题，千万别气馁：有问题是正常的，通常要好好练习，才能掌握好。如果对实现细节不明白，可以看看别人的 Keras 和 TensorFlow 实现。事实上，如果你只是想快速获得一些经验的结果，可以使用预训练模型（例如，存在适用于 Keras 的 StyleGAN 预训练模型）。
+
+下一章会介绍深度学习的另一领域：深度强化学习。
+
+## 练习
+
+1.  自编码器主要用来做什么？
+
+2.  假设你想训练一个分类器，有许多未打标签的训练数据，只有一千多打了标签的数据。如何使用自编码器来解决这个问题？
+
+3.  如果自编码器完美重建了输入，它一定是个好的自编码器吗？如何评估自编码器的表现？
+
+4.  自编码器的欠完成和过完成是什么？超欠完成的风险是什么？过完成的风险是什么？
+
+5.  如何将栈式自编码器的权重连起来？这么做的意义是什么？
+
+6.  什么是生成式模型？可以举出生成式自编码器的例子吗？
+
+7.  GAN 是什么？可以用于什么任务？
+
+8.  训练 GAN 的难点是什么？
+
+9.  用去噪音自编码器预训练一个图片分类器。可以使用 MNIST，或是更复杂的图片数据集，比如 CIFAR10。不管用的是什么数据集，遵循下面的步骤：
+
+    *   将数据集分成训练集和测试集。在完整训练集上，训练一个深度去噪音自编码器。
+
+    *   检查图片正确重建了。可视化最激活编码层神经元的图片。
+
+    *   搭建一个分类 DNN，使用自编码器的浅层。用训练集中的 500 张图片来训练。然后判断预训练是否提升了性能？
+
+10.  用刚才选择的数据集，训练一个变分自编码器。用它来生成图片。或者，用一个没有标签的数据集，来生成新样本。
+
+11.  训练一个 DCGAN 来处理选择的数据集，生成新图片。添加经验接力，看看它是否有作用。再将其变为一个条件 GAN，可以控制生成的类。
+
+参考答案见附录 A。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/18.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/18.md
new file mode 100644
index 00000000..b848483a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/18.md
@@ -0,0 +1,1364 @@
+# 十八、强化学习
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+强化学习（RL）如今是机器学习的一大令人激动的领域，也是最老的领域之一。自从 1950 年被发明出来后，它被用于一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和机器控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了 Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，在多数游戏中，比人类玩的还好，它仅使用像素作为输入而没有使用游戏规则的任何先验知识。这是一系列令人惊叹的壮举中的第一个，并在 2016 年 3 月以他们的系统 AlphaGo 战胜了世界围棋冠军李世石而告终。从未有程序能勉强打败这个游戏的大师，更不用说世界冠军了。今天，RL 的整个领域正在沸腾着新的想法，其都具有广泛的应用范围。DeepMind 在 2014 被谷歌以超过 5 亿美元收购。
+
+DeepMind 是怎么做到的呢？事后看来，原理似乎相当简单：他们将深度学习运用到强化学习领域，结果却超越了他们最疯狂的设想。在本章中，我们将首先解释强化学习是什么，以及它擅长于什么，然后我们将介绍两个在深度强化学习领域最重要的技术：策略梯度和深度 Q 网络（DQN），包括讨论马尔可夫决策过程（MDP）。我们将使用这些技术来训练一个模型来平衡移动车上的杆子；然后，我会介绍 TF-Agents 库，这个库利用先进的算法，可以大大简化创建 RL 系统，然后我们会用这个系统来玩 Breakout，一个著名的 Atari 游戏。本章最后，会介绍强化学习领域的最新进展。
+
+## 学习优化奖励
+
+在强化学习中，智能体在环境（environment）中观察（observation）并且做出决策（action），随后它会得到奖励（reward）。它的目标是去学习如何行动能最大化**期望奖励**。如果你不在意拟人化的话，可以认为正奖励是愉快，负奖励是痛苦（这样的话奖励一词就有点误导了）。总之，智能体在环境中行动，并且在实验和错误中去学习最大化它的愉快，最小化它的痛苦。
+
+这是一个相当广泛的设置，可以适用于各种各样的任务。以下是几个例子（详见图 16-1）：
+
+1.  智能体可以是控制一个机器人的程序。在此例中，环境就是真实的世界，智能体通过许多的传感器例如摄像机或者触觉传感器来观察，它可以通过给电机发送信号来行动。它可以被编程设置为如果到达了目的地就得到正奖励，如果浪费时间，或者走错方向，或摔倒了就得到负奖励。
+
+2.  智能体可以是控制 Ms.Pac-Man 的程序。在此例中，环境是 Atari 游戏的模拟器，行为是 9 个操纵杆位（上下左右中间等等），观察是屏幕，回报就是游戏点数。
+
+3.  相似地，智能体也可以是棋盘游戏的程序，例如围棋。
+
+4.  智能体也可以不用去控制一个实体（或虚拟的）去移动。例如它可以是一个智能恒温器，当它调整到目标温度以节能时会得到正奖励，当人们需要自己去调节温度时它会得到负奖励，所以智能体必须学会预见人们的需要。
+
+5.  智能体也可以去观测股票市场价格以实时决定买卖。奖励的依据为挣钱或者赔钱。
+
+![](img/b7cf5f4b88423548bd4b1775676b71ad.png)
+
+图 18-1 强化学习案例：（a）行走机器人，（b）Ms.Pac-Man 游戏，（c）围棋玩家，（d）恒温器，（e）自动交易员
+
+其实没有正奖励也是可以的，例如智能体在迷宫内移动，它每分每秒都得到一个负奖励，所以它要尽可能快的找到出口！还有很多适合强化学习的领域，例如自动驾驶汽车，推荐系统，在网页上放广告，或者控制一个图像分类系统让它明白它应该关注于什么。
+
+## 策略搜索
+
+智能体用于改变行为的算法称为策略。例如，策略可以是一个把观测当输入，行为当做输出的神经网络（见图 16-2）。
+
+![](img/9c4064e756336368c95389ec2207d60e.png)
+
+图 18-2 用神经网络策略做加强学习
+
+这个策略可以是你能想到的任何算法，它甚至可以是非确定性的。事实上，在某些任务中，策略根本不必观察环境！举个例子，例如，考虑一个真空吸尘器，它的奖励是在 30 分钟内捡起的灰尘数量。它的策略可以是每秒以概率`p`向前移动，或者以概率`1-p`随机地向左或向右旋转。旋转角度将是`-r`和`+r`之间的随机角度，因为该策略涉及一些随机性，所以称为随机策略。机器人将有一个不确定的轨迹，它保证它最终会到达任何可以到达的地方，并捡起所有的灰尘。问题是：30 分钟后它会捡起多少灰尘？
+
+怎么训练这样的机器人？你能调整的策略参数只有两个：概率`p`和角度范围`r`。一个想法是这些参数尝试许多不同的值，并选择执行最佳的组合（见图 18-3）。这是一个策略搜索的例子，在这种情况下使用暴力方法。然而，当策略空间太大（通常情况下），以这样的方式找到一组好的参数就像是大海捞针。
+
+![](img/56fdb66950f4532d26d9463c29a32819.png)
+
+图 18-3 策略空间中的四个点以及机器人的对应行为
+
+另一种搜寻策略空间的方法是遗传算法。例如你可以随机创造一个包含 100 个策略的第一代基因，随后杀死 80 个糟糕的策略，随后让 20 个幸存策略繁衍 4 代。一个后代只是它父辈基因的复制品加上一些随机变异。幸存的策略加上他们的后代共同构成了第二代。你可以继续以这种方式迭代代，直到找到一个好的策略。
+
+另一种方法是使用优化技术，通过评估奖励关于策略参数的梯度，然后通过跟随梯度向更高的奖励（梯度上升）调整这些参数。这种方法被称为策略梯度（policy gradient, PG），我们将在本章后面详细讨论。例如，回到真空吸尘器机器人，你可以稍微增加概率 P 并评估这是否增加了机器人在 30 分钟内拾起的灰尘的量；如果确实增加了，就相对应增加`p`，否则减少`p`。我们将使用 Tensorflow 来实现 PG 算法，但是在这之前我们需要为智能体创造一个生存的环境，所以现在是介绍 OpenAI Gym 的时候了。
+
+## OpenAI Gym 介绍
+
+强化学习的一个挑战是，为了训练对象，首先需要有一个工作环境。如果你想设计一个可以学习 Atari 游戏的程序，你需要一个 Atari 游戏模拟器。如果你想设计一个步行机器人，那么环境就是真实的世界，你可以直接在这个环境中训练你的机器人，但是这有其局限性：如果机器人从悬崖上掉下来，你不能仅仅点击“撤消”。你也不能加快时间；增加更多的计算能力不会让机器人移动得更快。一般来说，同时训练 1000 个机器人是非常昂贵的。简而言之，训练在现实世界中是困难和缓慢的，所以你通常需要一个模拟环境，至少需要引导训练。例如，你可以使用 PyBullet 或 MuJoCo 来做 3D 物理模拟。
+
+OpenAI Gym 是一个工具包，它提供各种各样的模拟环境（Atari 游戏，棋盘游戏，2D 和 3D 物理模拟等等），所以你可以训练，比较，或开发新的 RL 算法。
+
+安装之前，如果你是用虚拟环境创建的独立的环境，需要先激活：
+
+```py
+$ cd $ML_PATH                # 工作目录 (e.g., $HOME/ml)
+$ source my_env/bin/activate # Linux or MacOS
+$ .\my_env\Scripts\activate  # Windows 
+```
+
+接下来安装 OpenAI gym。可通过`pip`安装：
+
+```py
+$ python3 -m pip install --upgrade gym 
+```
+
+取决于系统，你可能还要安装 Mesa OpenGL Utility（GLU）库（比如，在 Ubuntu 18.04 上，你需要运行`apt install libglu1-mesa`）。这个库用来渲染第一个环境。接着，打开一个 Python 终端或 Jupyter 笔记本，用`make()`创建一个环境：
+
+```py
+>>> import gym
+>>> env = gym.make("CartPole-v1")
+>>> obs = env.reset()
+>>> obs
+array([-0.01258566, -0.00156614,  0.04207708, -0.00180545]) 
+```
+
+这里创建了一个 CartPole 环境。这是一个 2D 模拟，其中推车可以被左右加速，以平衡放置在它上面的平衡杆（见图 18-4）。你可以用`gym.envs.registry.all()`获得所有可用的环境。在创建环境之后，需要使用`reset()`初始化。这会返回第一个观察结果。观察取决于环境的类型。对于 CartPole 环境，每个观测是包含四个浮点数的 1D Numpy 向量：这些浮点数代表推车的水平位置（0.0 为中心）、速度（正是右）、杆的角度（0.0 为垂直）及角速度（正为顺时针）。
+
+用`render()`方法展示环境（见图 18-4）。在 Windows 上，这需要安装 X Server，比如 VcXsrv 或 Xming：
+
+```py
+>>> env.render()
+True 
+```
+
+![](img/7b57b1ce0ad32e3981d5bdcdc2562cfb.png)
+
+图 18-4 CartPole 环境
+
+> 提示：如果你在使用无头服务器（即，没有显示器），比如云上的虚拟机，渲染就会失败。解决的唯一方法是使用假 X server，比如 Xvfb 或 Xdummy。例如，装好 Xvfb 之后（Ubuntu 或 Debian 上运行`apt install xvfb`），用这条命令启动 Python：`xvfb-run -s "-screen 0 1400x900x24" python3`。或者，安装 Xvfb 和[`pyvirtualdisplay` 库](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fpyvd)（这个库包装了 Xvfb），在程序启动处运行`pyvirtualdisplay.Display(visible=0, size=(1400, 900)).start()`。
+
+如果你想让`render()`让图像以一个 Numpy 数组格式返回，可以将`mode`参数设置为`rgb_array`（注意，这个环境会渲染环境到屏幕上）：
+
+```py
+>>> img = env.render(mode="rgb_array") 
+>>> img.shape  # height, width, channels (3=RGB) 
+(800, 1200, 3) 
+```
+
+询问环境，可以采取的可能行动：
+
+```py
+>>> env.action_space
+Discrete(2) 
+```
+
+`Discrete(2)`的意思是可能的行动是整数 0 和 1，表示向左（0）或向右（1）加速。其它的环境可能有其它离散的行动，或其它种类的行动（例如，连续性行动）。因为棍子是向右偏的（`obs[2] > 0`），让车子向右加速：
+
+```py
+>>> action = 1  # accelerate right
+>>> obs, reward, done, info = env.step(action)
+>>> obs
+array([-0.01261699,  0.19292789,  0.04204097, -0.28092127])
+>>> reward
+1.0
+>>> done
+False
+>>> info
+{} 
+```
+
+`step()`方法执行给定的动作并返回四个值：
+
+`obs`:
+
+这是新的观测，小车现在正在向右走（`obs[1]>0`，注：当前速度为正，向右为正）。平衡杆仍然向右倾斜（`obs[2]>0`），但是他的角速度现在为负（`obs[3]<0`），所以它在下一步后可能会向左倾斜。
+
+`reward`：
+
+在这个环境中，无论你做什么，每一步都会得到 1.0 奖励，所以游戏的目标就是尽可能长的运行。
+
+`done`：
+
+当游戏结束时这个值会为`True`。当平衡杆倾斜太多、或越过屏幕、或超过 200 步时会发生这种情况。之后，必须重新设置环境才能重新使用。
+
+`info`：
+
+该字典可以在其他环境中提供额外信息用于调试或训练。例如，在一些游戏中，可以指示智能体还剩多少条命。
+
+> 提示：使用完环境后，应当调用它的`close()`方法释放资源。
+
+让我们硬编码一个简单的策略，当杆向左倾斜时向左边加速，当杆向右倾斜时加速向右边加速。我们使用这个策略来获得超过 500 步的平均回报：
+
+```py
+def basic_policy(obs):
+    angle = obs[2]
+    return 0 if angle < 0 else 1
+
+totals = []
+for episode in range(500):
+    episode_rewards = 0
+    obs = env.reset()
+    for step in range(200):
+        action = basic_policy(obs)
+        obs, reward, done, info = env.step(action)
+        episode_rewards += reward
+        if done:
+            break
+    totals.append(episode_rewards) 
+```
+
+这段代码不难。让我们看看结果：
+
+```py
+>>> import numpy as np
+>>> np.mean(totals), np.std(totals), np.min(totals), np.max(totals)
+(41.718, 8.858356280936096, 24.0, 68.0) 
+```
+
+即使有 500 次尝试，这一策略从未使平衡杆在超过 68 个连续的步骤里保持直立。结果太好。如果你看一下 Juyter 笔记本中的模拟，你会发现，推车越来越强烈地左右摆动，直到平衡杆倾斜过度。让我们看看神经网络是否能提出更好的策略。
+
+## 神经网络策略
+
+让我们创建一个神经网络策略。就像之前我们编码的策略一样，这个神经网络将把观察作为输入，输出要执行的动作。更确切地说，它将估计每个动作的概率，然后我们将根据估计的概率随机地选择一个动作（见图 18-5）。在 CartPole 环境中，只有两种可能的动作（左或右），所以我们只需要一个输出神经元。它将输出动作 0（左）的概率`p`，动作 1（右）的概率显然将是`1 - p`。例如，如果它输出 0.7，那么我们将以 70% 的概率选择动作 0，以 30% 的概率选择动作 1。
+
+![](img/9e43937b9646d83d482aadfa7779800b.png)
+
+图 18-5 神经网络策略
+
+你可能奇怪为什么我们根据神经网络给出的概率来选择随机的动作，而不是选择最高分数的动作。这种方法使智能体在**探索新的行为**和**利用那些已知可行的行动**之间找到正确的平衡。举个类比：假设你第一次去餐馆，所有的菜看起来同样吸引人，所以你随机挑选一个。如果菜好吃，你可以增加下一次点它的概率，但是你不应该把这个概率提高到 100%，否则你将永远不会尝试其他菜肴，其中一些甚至比你尝试的更好。
+
+还要注意，在这个特定的环境中，过去的动作和观察可以被放心地忽略，因为每个观察都包含环境的完整状态。如果有一些隐藏状态，那么你也需要考虑过去的行为和观察。例如，如果环境仅仅揭示了推车的位置，而不是它的速度，那么你不仅要考虑当前的观测，还要考虑先前的观测，以便估计当前的速度。另一个例子是当观测是有噪声的的，在这种情况下，通常你想用过去的观察来估计最可能的当前状态。因此，CartPole 问题是简单的；观测是无噪声的，而且它们包含环境的全状态。
+
+下面是用`tf.keras`创建这个神经网络策略的代码：
+
+```py
+import tensorflow as tf
+from tensorflow import keras
+
+n_inputs = 4 # == env.observation_space.shape[0]
+
+model = keras.models.Sequential([
+    keras.layers.Dense(5, activation="elu", input_shape=[n_inputs]),
+    keras.layers.Dense(1, activation="sigmoid"),
+]) 
+```
+
+在导入之后，我们使用`Sequential`模型定义策略网络。输入的数量是观测空间的大小（在 CartPole 的情况下是 4 个），我们只有 5 个隐藏单元，并且我们只有 1 个输出概率（向左的概率），所以输出层只需一个使用 sigmoid 的神经元就成。如果超过两个动作，每个动作就要有一个神经元，然后使用 softmax 激活函数。
+
+好了，现在我们有一个可以观察和输出动作的神经网络了，那我们怎么训练它呢？
+
+## 评价行为：信用分配问题
+
+如果我们知道每一步的最佳动作，我们可以像通常一样训练神经网络，通过最小化估计概率和目标概率之间的交叉熵。这只是通常的监督学习。然而，在强化学习中，智能体获得的指导的唯一途径是通过奖励，奖励通常是稀疏的和延迟的。例如，如果智能体在 100 个步骤内设法平衡杆，它怎么知道它采取的 100 个行动中的哪一个是好的，哪些是坏的？它所知道的是，在最后一次行动之后，杆子坠落了，但最后一次行动肯定不是负全责的。这被称为信用分配问题：当智能体得到奖励时，很难知道哪些行为应该被信任（或责备）。如果一只狗在表现优秀几小时后才得到奖励，它会明白它做对了什么吗？
+
+为了解决这个问题，一个通常的策略是基于这个动作后得分的总和来评估这个个动作，通常在每个步骤中应用衰减因子`r`。例如（见图 18-6），如果一个智能体决定连续三次向右，在第一步之后得到 +10 奖励，第二步后得到 0，最后在第三步之后得到 -50，然后假设我们使用衰减率`r=0.8`，那么第一个动作将得到`10 +r×0 + r2×(-50)=-22`的分数。如果衰减率接近 0，那么与即时奖励相比，未来的奖励不会有多大意义。相反，如果衰减率接近 1，那么对未来的奖励几乎等于即时回报。典型的衰减率通常从 0.9 到 0.99 之间。如果衰减率为 0.95，那么未来 13 步的奖励大约是即时奖励的一半（`0.9513×0.5`），而当衰减率为 0.99，未来 69 步的奖励是即时奖励的一半。在 CartPole 环境下，行为具有相当短期的影响，因此选择 0.95 的折扣率是合理的。
+
+![](img/235694381a6487fb22b2a21afd90e57d.png)
+
+图 18-6 计算行动的回报：未来衰减求和
+
+当然，一个好的动作可能会紧跟着一串坏动作，这些动作会导致平衡杆迅速下降，从而导致一个好的动作得到一个低分数（类似的，一个好行动者有时会在一部烂片中扮演主角）。然而，如果我们花足够多的时间来训练游戏，平均下来好的行为会得到比坏的更好的分数。因此，为了获得相当可靠的动作分数，我们必须运行很多次并将所有动作分数归一化（通过减去平均值并除以标准偏差）。之后，我们可以合理地假设消极得分的行为是坏的，而积极得分的行为是好的。现在我们有一个方法来评估每一个动作，我们已经准备好使用策略梯度来训练我们的第一个智能体。让我们看看如何做。
+
+## 策略梯度
+
+正如前面所讨论的，PG 算法通过遵循更高回报的梯度来优化策略参数。一种流行的 PG 算法，称为增强算法，在 1929 由 Ronald Williams 提出。这是一个常见的变体：
+
+1.  首先，让神经网络策略玩几次游戏，并在每一步计算梯度，这使得智能体更可能选择行为，但不应用这些梯度。
+
+2.  运行几次后，计算每个动作的得分（使用前面段落中描述的方法）。
+
+3.  如果一个动作的分数是正的，这意味着动作是好的，可应用较早计算的梯度，以便将来有更大的的概率选择这个动作。但是，如果分数是负的，这意味着动作是坏的，要应用相反梯度来使得这个动作在将来采取的可能性更低。我们的方法就是简单地将每个梯度向量乘以相应的动作得分。
+
+4.  最后，计算所有得到的梯度向量的平均值，并使用它来执行梯度下降步骤。
+
+让我们使用`tf.keras`实现这个算法。我们将训练我们早先建立的神经网络策略，让它学会平衡车上的平衡杆。首先，需要一个能执行一步的函数。假定做出的动作都是对的，激素亲戚损失和梯度（梯度会保存一会，根据动作的结果再对其修改）：
+
+```py
+def play_one_step(env, obs, model, loss_fn):
+    with tf.GradientTape() as tape:
+        left_proba = model(obs[np.newaxis])
+        action = (tf.random.uniform([1, 1]) > left_proba)
+        y_target = tf.constant([[1.]]) - tf.cast(action, tf.float32)
+        loss = tf.reduce_mean(loss_fn(y_target, left_proba))
+    grads = tape.gradient(loss, model.trainable_variables)
+    obs, reward, done, info = env.step(int(action[0, 0].numpy()))
+    return obs, reward, done, grads 
+```
+
+逐行看代码：
+
+*   在`GradientTape`代码块内，先调用模型，传入一个观察（将观察变形为包含单个实例的批次）。输出是向左的概率。
+
+*   然后，选取一个 0 到 1 之间的浮点数，检查是否大于`left_proba`。概率为`left_proba`时，`action`是`False`；概率为`1-left_proba`时，`action`是`True`。当将这个布尔值转变为数字时，动作是 0（左）或 1（右）及对应的概率。
+
+*   接着，定义向左的目标概率：1 减去动作（浮点值）。如果动作是 0（左），则向左的目标概率等于 1。如果动作是 1（右），则目标概率等于 0。
+
+*   然后使用损失函数计算损失，使用记录器计算模型可训练变量的损失梯度。这些梯度会在后面应用前，根据动作的结果做微调。
+
+*   最后，执行选择的动作，无论是否结束，返回新的观察、奖励，和刚刚计算的梯度。
+
+现在，创建另一个函数基于`play_one_step()`的多次执行函数，返回所有奖励和每个周期和步骤的梯度：
+
+```py
+def play_multiple_episodes(env, n_episodes, n_max_steps, model, loss_fn):
+    all_rewards = []
+    all_grads = []
+    for episode in range(n_episodes):
+        current_rewards = []
+        current_grads = []
+        obs = env.reset()
+        for step in range(n_max_steps):
+            obs, reward, done, grads = play_one_step(env, obs, model, loss_fn)
+            current_rewards.append(reward)
+            current_grads.append(grads)
+            if done:
+                break
+        all_rewards.append(current_rewards)
+        all_grads.append(current_grads)
+    return all_rewards, all_grads 
+```
+
+这段代码返回了奖励列表（每个周期一个奖励列表，每个步骤一个奖励），还有一个梯度列表（每个周期一个梯度列表，每个步骤一个梯度元组，每个元组每个变脸有一个梯度张量）。
+
+算法会使用`play_multiple_episodes()`函数，多次执行游戏（比如，10 次），然后会检查所有奖励，做衰减，然后归一化。要这么做，需要多个函数：第一个计算每个步骤的未来衰减奖励的和，第二个归一化所有这些衰减奖励（减去平均值，除以标准差）：
+
+```py
+def discount_rewards(rewards, discount_factor):
+    discounted = np.array(rewards)
+    for step in range(len(rewards) - 2, -1, -1):
+        discounted[step] += discounted[step + 1] * discount_factor
+    return discounted
+
+def discount_and_normalize_rewards(all_rewards, discount_factor):
+    all_discounted_rewards = [discount_rewards(rewards, discount_factor)
+                              for rewards in all_rewards]
+    flat_rewards = np.concatenate(all_discounted_rewards)
+    reward_mean = flat_rewards.mean()
+    reward_std = flat_rewards.std()
+    return [(discounted_rewards - reward_mean) / reward_std
+            for discounted_rewards in all_discounted_rewards] 
+```
+
+检测其是否有效：
+
+```py
+>>> discount_rewards([10, 0, -50], discount_factor=0.8)
+array([-22, -40, -50])
+>>> discount_and_normalize_rewards([[10, 0, -50], [10, 20]],
+...                                discount_factor=0.8)
+...
+[array([-0.28435071, -0.86597718, -1.18910299]),
+ array([1.26665318, 1.0727777 ])] 
+```
+
+调用`discount_rewards()`，返回了我们想要的结果（见图 18-6）。可以确认函数`discount_and_normalize_rewards()`返回了每个周期每个步骤的归一化的行动的结果。可以看到，第一个周期的表现比第二个周期的表现糟糕，所以归一化的结果都是负的；第一个周期中的动作都是不好的，而第二个周期中的动作被认为是好的。
+
+可以准备运行算法了！现在定义超参数。运行 150 个训练迭代，每次迭代完成 10 次周期，每个周期最多 200 个步骤。衰减因子是 0.95：
+
+```py
+n_iterations = 150
+n_episodes_per_update = 10
+n_max_steps = 200
+discount_factor = 0.95 
+```
+
+还需要一个优化器和损失函数。优化器用普通的 Adam 就成，学习率用 0.01，因为是二元分类器，使用二元交叉熵损失函数：
+
+```py
+optimizer = keras.optimizers.Adam(lr=0.01)
+loss_fn = keras.losses.binary_crossentropy 
+```
+
+接下来创建和运行训练循环。
+
+```py
+for iteration in range(n_iterations):
+    all_rewards, all_grads = play_multiple_episodes(
+        env, n_episodes_per_update, n_max_steps, model, loss_fn)
+    all_final_rewards = discount_and_normalize_rewards(all_rewards,
+                                                       discount_factor)
+    all_mean_grads = []
+    for var_index in range(len(model.trainable_variables)):
+        mean_grads = tf.reduce_mean(
+            [final_reward * all_grads[episode_index][step][var_index]
+             for episode_index, final_rewards in enumerate(all_final_rewards)
+                 for step, final_reward in enumerate(final_rewards)], axis=0)
+        all_mean_grads.append(mean_grads)
+    optimizer.apply_gradients(zip(all_mean_grads, model.trainable_variables)) 
+```
+
+逐行看下代码：
+
+*   在每次训练迭代，循环调用`play_multiple_episodes()`，这个函数玩 10 次游戏，返回每个周期和步骤的奖励和梯度。
+
+*   然后调用`discount_and_normalize_rewards()`计算每个动作的归一化结果（代码中是`final_reward`）。这样可以测量每个动作的好坏结果。
+
+*   接着，循环每个可训练变量，计算每个变量的梯度加权平均，权重是`final_reward`。
+
+*   最后，将这些平均梯度应用于优化器：微调模型的变量。
+
+就是这样。这段代码可以训练神经网络策略，模型可以学习保持棍子的平衡（可以尝试笔记本中的“策略梯度”部分）。每个周期的平均奖励会非常接近 200（200 是环境默认的最大值）。成功！
+
+> 提示：研究人员试图找到一种即使当智能体最初对环境一无所知时也能很好工作的算法。然而，除非你正在写论文，否则你应该尽可能多地将先前的知识注入到智能体中，因为它会极大地加速训练。例如，因为知道棍子要尽量垂直，你可以添加与棍子角度成正比的负奖励。这可以让奖励不那么分散，是训练加速。此外，如果你已经有一个相当好的策略，你可以训练神经网络模仿它，然后使用策略梯度来改进它。
+
+尽管它相对简单，但是该算法是非常强大的。你可以用它来解决更难的问题，而不仅仅是平衡一辆手推车上的平衡杆。事实上，因为样本不足，必须多次玩游戏，才能取得更大进展。但这个算法是更强大算法的基础，比如演员评论家算法（后面会介绍）。
+
+现在我们来看看另一个流行的算法族。与 PG 算法直接尝试优化策略以增加奖励相反，我们现在看的算法不那么直接：智能体学习去估计每个状态的未来衰减奖励的期望总和，或者在每个状态中的每个行为未来衰减奖励的期望和。然后，使用这些知识来决定如何行动。为了理解这些算法，我们必须首先介绍马尔可夫决策过程（MDP）。
+
+## 马尔可夫决策过程
+
+在二十世纪初，数学家 Andrey Markov 研究了没有记忆的随机过程，称为马尔可夫链。这样的过程具有固定数量的状态，并且在每个步骤中随机地从一个状态演化到另一个状态。它从状态`S`演变为状态`S'`的概率是固定的，它只依赖于`(S, S')`对，而不是依赖于过去的状态（系统没有记忆）。
+
+图 18-7 展示了一个具有四个状态的马尔可夫链的例子。假设该过程从状态`S0`开始，并且在下一步骤中有 70% 的概率保持在该状态不变中。最终，它必然离开那个状态，并且永远不会回来，因为没有其他状态回到`S0`。如果它进入状态`S1`，那么它很可能会进入状态`S2`（90% 的概率），然后立即回到状态`S1`（以 100% 的概率）。它可以在这两个状态之间交替多次，但最终它会落入状态`S3`并永远留在那里（这是一个终端状态）。马尔可夫链可以有非常不同的动力学，它们在热力学、化学、统计学等方面有着广泛的应用。
+
+![](img/82cf639e39f8ba1675452c87a4915ee6.png)
+
+图 18-7 马尔科夫链案例
+
+马尔可夫决策过程最初是在 20 世纪 50 年代由 Richard Bellman [描述](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F133)的。它们类似于马尔可夫链，但有一个不同：在状态转移的每一步中，一个智能体可以选择几种可能的动作中的一个，并且过渡概率取决于所选择的动作。此外，一些状态过渡返回一些奖励（正或负），智能体的目标是找到一个策略，随着时间的推移将最大限度地提高奖励。
+
+例如，图 18-8 中所示的 MDP 在每个步骤中具有三个状态（用圆圈表示）和三个可能的离散动作（用菱形表示）。
+
+![](img/299e7dce80e30dae3ccc7f2a1faae8fe.png)
+
+图 18-8 马尔科夫决策过程案例
+
+如果从状态`S0`开始，可以在动作`A0`、`A1`或`A2`之间进行选择。如果它选择动作`A1`，它就保持在状态`S0`中，并且没有任何奖励。因此，如果愿意的话，它可以决定永远呆在那里。但是，如果它选择动作`A0`，它有 70% 的概率获得 +10 奖励，并保持在状态`S0`。然后，它可以一次又一次地尝试获得尽可能多的奖励。但它将在状态`S1`中结束这样的行为。在状态`S1`中，它只有两种可能的动作：`A0`或`A2`。它可以通过反复选择动作`A0`来选择停留，或者它可以选择动作`A2`移动到状态`S2`并得到 -50 奖励。在状态`S2`中，除了采取行动`A1`之外，别无选择，这将最有可能引导它回到状态`S0`，在途中获得 +40 的奖励。通过观察这个 MDP，你能猜出哪一个策略会随着时间的推移而获得最大的回报吗？在状态`S0`中，`A0`是最好的选择，在状态`S2`中，智能体别无选择，只能采取行动`A1`，但是在状态`S1`中，智能体否应该保持不动（`A0`）或通过火（`A2`），这是不明确的。
+
+贝尔曼找到了一种估计任何状态`S`的最佳状态值的方法，记作`V(s)`，它是智能体在其采取最佳行为达到状态`s`后所有衰减未来奖励的总和的平均期望。他证明，如果智能体的行为最佳，那么就适用于贝尔曼最优性公式（见公式 18-1）。这个递归公式表示，如果智能体最优地运行，那么当前状态的最优值等于在采取一个最优动作之后平均得到的奖励，加上该动作可能导致的所有可能的下一个状态的期望最优值。
+
+![](img/551148dd8fd709bc4686f611cd04b122.png)
+
+公式 18-1 贝尔曼最优性公式
+
+其中：
+
+*   `T(s, a, s′)`为智能体选择动作`a`时从状态`s`到状态`s'`的概率。例如，图 18-8 中，`T(s2, a1, s0) = 0.8`。
+
+*   `R(s, a, s′)`为智能体选择以动作`a`从状态`s`到状态`s'`的过程中得到的奖励。例如图 18-8 中，`R(s2, a1, s0) = +40`。
+
+*   `γ`为衰减率。
+
+这个等式直接引出了一种算法，该算法可以精确估计每个可能状态的最优状态值：首先将所有状态值估计初始化为零，然后用数值迭代算法迭代更新它们（见公式 18-2）。一个显著的结果是，给定足够的时间，这些估计保证收敛到最优状态值，对应于最优策略。
+
+![](img/9f09459a06afa5db90aaeb9f2e4f3082.png)
+
+公式 18-2 数值迭代算法
+
+在这个公式中，`V[k](s)`是在`k`次算法迭代对状态`s`的估计。
+
+> 笔记：该算法是动态规划的一个例子，它将了一个复杂的问题（在这种情况下，估计潜在的未来衰减奖励的总和）变为可处理的子问题，可以迭代地处理（在这种情况下，找到最大化平均报酬与下一个衰减状态值的和的动作）
+
+了解最佳状态值可能是有用的，特别是评估策略，但它没有明确地告诉智能体要做什么。幸运的是，贝尔曼发现了一种非常类似的算法来估计最优状态-动作值（*state-action values*），通常称为 Q 值。状态行动`(S, A)`对的最优 Q 值，记为`Q*(s, a)`，是智能体在到达状态`S`，然后选择动作`A`之后平均衰减未来奖励的期望的总和。但是在它看到这个动作的结果之前，假设它在该动作之后的动作是最优的。
+
+下面是它的工作原理：再次，通过初始化所有的 Q 值估计为零，然后使用 Q 值迭代算法更新它们（参见公式 18-3）。
+
+![](img/55ee59029d35271789fa454f6f96e1dd.png)
+
+公式 18-3 Q 值迭代算法
+
+一旦你有了最佳的 Q 值，定义最优的策略`π*(s)`，就没什么作用了：当智能体处于状态`S`时，它应该选择具有最高 Q 值的动作，用于该状态：
+
+![](img/ba4f57f77b996e8f6f4844c4f935ca12.png)
+
+让我们把这个算法应用到图 18-8 所示的 MDP 中。首先，我们需要定义 MDP：
+
+```py
+transition_probabilities = [ # shape=[s, a, s']
+        [[0.7, 0.3, 0.0], [1.0, 0.0, 0.0], [0.8, 0.2, 0.0]],
+        [[0.0, 1.0, 0.0], None, [0.0, 0.0, 1.0]],
+        [None, [0.8, 0.1, 0.1], None]]
+rewards = [ # shape=[s, a, s']
+        [[+10, 0, 0], [0, 0, 0], [0, 0, 0]],
+        [[0, 0, 0], [0, 0, 0], [0, 0, -50]],
+        [[0, 0, 0], [+40, 0, 0], [0, 0, 0]]]
+possible_actions = [[0, 1, 2], [0, 2], [1]] 
+```
+
+例如，要想知道经过动作`a1`，从`s2`到`s0`的过渡概率，我们需要查询`transition_probabilities[2][1][0]`（等于 0.8）。相似的，要得到奖励，需要查询`rewards[2][1][0]`（等于 +40）。要得到`s2`的可能的动作，需要查询`possible_actions[2]`（结果是`a1`）。然后，必须将 Q 值初始化为 0（对于不可能的动作，Q 值设为`–∞`）：
+
+```py
+Q_values = np.full((3, 3), -np.inf) # -np.inf for impossible actions
+for state, actions in enumerate(possible_actions):
+    Q_values[state, actions] = 0.0  # for all possible actions 
+```
+
+现在运行 Q 值迭代算法。它反复对 Q 值的每个状态和可能的动作应用公式 18-3：
+
+```py
+gamma = 0.90 # the discount factor
+
+for iteration in range(50):
+    Q_prev = Q_values.copy()
+    for s in range(3):
+        for a in possible_actions[s]:
+            Q_values[s, a] = np.sum([
+                    transition_probabilities[s][a][sp]
+                    * (rewards[s][a][sp] + gamma * np.max(Q_prev[sp]))
+                for sp in range(3)]) 
+```
+
+Q 值的结果如下：
+
+```py
+>>> Q_values
+array([[18.91891892, 17.02702702, 13.62162162],
+       [ 0\.        ,        -inf, -4.87971488],
+       [       -inf, 50.13365013,        -inf]]) 
+```
+
+例如，当智能体处于状态`s0`，选择动作`a1`，衰减未来奖励的期望和大约是 17.0。
+
+对于每个状态，查询拥有最高 Q 值的动作：
+
+```py
+>>> np.argmax(Q_values, axis=1) # optimal action for each state
+array([0, 0, 1]) 
+```
+
+这样就得到了衰减因子等于 0.9 时，这个 MDP 的最佳策略是什么：状态`s0`时选择动作`a0`；在状态`s1`时选择动作`a0`；在状态`s2`时选择动作`a1`。有趣的是，如果将衰减因子提高到 0.95，最佳策略发生了改变：在状态`s1`时，最佳动作变为`a2`（通过火！）。道理很明显，如果未来期望越高，忍受当前的痛苦是值得的。
+
+## 时间差分学习
+
+具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程，但是智能体最初不知道转移概率是什么（它不知道`T(s, a, s′)`），并且它不知道奖励会是什么（它不知道`R(s, a, s′)`）。它必须经历每一个状态和每一次转变并且至少知道一次奖励，并且如果要对转移概率进行合理的估计，就必须经历多次。
+
+时间差分学习（TD 学习）算法与数值迭代算法非常类似，但考虑到智能体仅具有 MDP 的部分知识。一般来说，我们假设智能体最初只知道可能的状态和动作，没有更多了。智能体使用探索策略，例如，纯粹的随机策略来探索 MDP，并且随着它的发展，TD 学习算法基于实际观察到的转换和奖励来更新状态值的估计（见公式 18-4）。
+
+![](img/1f0a5be72da1074aa2a14a67f268f2b7.png)
+
+公式 18-4 TD 学习算法
+
+在这个公式中：
+
+*   `α`是学习率（例如 0.01）。
+
+*   `r + γ · Vk(s′)`被称为 TD 目标。
+
+*   `δk(s, r, s′)`被称为 TD 误差。
+
+公式的第一种形式的更为准确的表达，是使用：
+
+![](img/c401d47f847b1f110a063fad4fbe91b4.png)
+
+它的意思是`ak+1 ← (1 – α) · ak + α ·bk`，公式 18-4 的第一行可以重写为：
+
+![](img/badf1fc4a72057ccfdc1b3ebb4116f54.png)
+
+> 提示：TD 学习和随机梯度下降有许多相似点，特别是 TD 学习每次只处理一个样本。另外，和随机梯度下降一样，如果逐渐降低学习率，是能做到收敛的（否则，会在最佳 Q 值附近反复跳跃）。
+
+对于每个状态`S`，该算法只跟踪智能体离开该状态时立即获得的奖励的平均值，再加上它期望稍后得到的奖励（假设它的行为最佳）。
+
+## Q 学习
+
+类似地，Q 学习算法是 Q 值迭代算法的改编版本，其适应转移概率和回报在初始未知的情况（见公式 18-5）。Q 学习通过观察智能体玩游戏，逐渐提高 Q 值的估计。一旦有了准确（或接近）的 Q 值估计，则选择具有最高 Q 值的动作（即，贪婪策略）。
+
+![](img/2139a0e805f28fd1cad6f8083ee42a69.png)
+
+公式 18-5 Q 学习算法
+
+对于每一个状态动作对`(s,a)`，该算法跟踪智能体在以动作`A`离开状态`S`时获得的即时奖励平均值`R`，加上它期望稍后得到的奖励。由于目标策略将最优地运行，所以我们取下一状态的 Q 值估计的最大值。
+
+以下是如何实现 Q 学习算法。首先，需要让一个智能体探索环境。要这么做的话，我们需要一个步骤函数，好让智能体执行一个动作，并返回结果状态和奖励：
+
+```py
+def step(state, action):
+    probas = transition_probabilities[state][action]
+    next_state = np.random.choice([0, 1, 2], p=probas)
+    reward = rewards[state][action][next_state]
+    return next_state, reward 
+```
+
+现在，实现智能体的探索策略。因为状态空间很小，使用简单随机策略就可以。如果长时间运行算法，智能体会多次访问每个状态，也会多次尝试每个可能的动作：
+
+```py
+def exploration_policy(state):
+    return np.random.choice(possible_actions[state]) 
+```
+
+然后，和之前一样初始化 Q 值，使用学习率递降的方式运行 Q 学习算法（使用第 11 章介绍过的指数调度算法）：
+
+```py
+alpha0 = 0.05 # initial learning rate
+decay = 0.005 # learning rate decay
+gamma = 0.90 # discount factor
+state = 0 # initial state
+
+for iteration in range(10000):
+    action = exploration_policy(state)
+    next_state, reward = step(state, action)
+    next_value = np.max(Q_values[next_state])
+    alpha = alpha0 / (1 + iteration * decay)
+    Q_values[state, action] *= 1 - alpha
+    Q_values[state, action] += alpha * (reward + gamma * next_value)
+    state = next_state 
+```
+
+算法会覆盖最优 Q 值，但会经历多次迭代，可能有许多超参数调节。见图 18-9，Q 值迭代算法（左）覆盖速度很快，只用了不到 20 次迭代，而 Q 学习算法（右）用了 8000 次迭代才覆盖完。很明显，不知道过渡概率或奖励，使得找到最佳策略显著变难！
+
+![](img/aab855f0497733e2538898f315c77ee0.png)
+
+图 18-9 Q 值迭代算法（左）对比 Q 学习算法（右）
+
+Q 学习被称为离线策略算法，因为正在训练的策略不是正在执行的策略：在前面的例子中，被执行的策略（探索策略）是完全随机的，而训练的算法总会选择具有最高 Q 值的动作。相反的，策略梯度下降算法是在线算法：使用训练的策略探索世界。令人惊讶的是，该算法能够通过观察智能体的随机行为（例如当你的老师是一个醉猴子时，学习打高尔夫球）学习最佳策略。我们能做得更好吗？
+
+### 探索策略
+
+当然，只有在探索策略充分探索 MDP 的情况下，Q 学习才能起作用。尽管一个纯粹的随机策略保证最终访问每一个状态和每个转换多次，但可能需要很长的时间这样做。因此，一个更好的选择是使用 ε 贪婪策略：在每个步骤中，它以概率`ε`随机地或以概率为`1-ε`贪婪地选择具有最高 Q 值的动作。ε 贪婪策略的优点（与完全随机策略相比）是，它将花费越来越多的时间来探索环境中有趣的部分，因为 Q 值估计越来越好，同时仍花费一些时间访问 MDP 的未知区域。以`ε`为很高的值（例如，1）开始，然后逐渐减小它（例如，下降到 0.05）是很常见的。
+
+或者，不依赖于探索的可能性，另一种方法是鼓励探索策略来尝试它以前没有尝试过的行动。这可以被实现为加到 Q 值估计的奖励，如公式 18-6 所示。
+
+![](img/fe7f4176b6c449159a825ec3aacfe79c.png)
+
+公式 18-6 使用探索函数的 Q 学习
+
+在这个公式中：
+
+*   `N(s′, a′)`计算了在状态`s`时选择动作`a`的次数
+
+*   `f(Q, N)`是一个探索函数，例如`f(Q, N) = Q + κ/(1 + N)`，其中`κ`是一个好奇超参数，它测量智能体被吸引到未知状态的程度。
+
+### 近似 Q 学习和深度 Q 学习
+
+Q 学习的主要问题是，它不能很好地扩展到具有许多状态和动作的大（甚至中等）的 MDP。例如，假如你想用 Q 学习来训练一个智能体去玩 Ms. Pac-Man（图 18-1）。Ms. Pac-Man 可以吃超过 150 粒粒子，每一粒都可以存在或不存在（即已经吃过）。因此，可能状态的数目大于`21^50 ≈ 10^45`。空间大小比地球的的总原子数要多得多，所以你绝对无法追踪每一个 Q 值的估计值。
+
+解决方案是找到一个函数`Q[θ](s,a)`，使用可管理数量的参数（根据向量θ）来近似 Q 值。这被称为近似 Q 学习。多年来，人们都是手工在状态中提取并线性组合特征（例如，最近的鬼的距离，它们的方向等）来估计 Q 值，但在 2013 年， DeepMind 表明使用深度神经网络可以工作得更好，特别是对于复杂的问题。它不需要任何特征工程。用于估计 Q 值的 DNN 被称为深度 Q 网络（DQN），并且使用近似 Q 学习的 DQN 被称为深度 Q 学习。
+
+如何训练 DQN 呢？这里用 DQN 在给定的状态动作对`(s,a)`，来估计 Q 值。感谢贝尔曼，我们知道这个近似 Q 值要接近在状态`s`执行动作`a`的奖励`r`，加上之前的衰减奖励。要估计未来衰减奖励的和，我们只需在下一个状态`s'`，对于所有可能的动作`a'`执行 DQN。针对每个可能的动作，获得了近似的 Q 值。然后挑选最高的，并做衰减，就得到了未来衰减奖励的和。通过将奖励`r`和未来衰减奖励估计相加，得到了状态动作对`(s, a)`的目标 Q 值`y(s, a)`，见公式 18-7。
+
+![](img/e1c5056018311d2d634662688689ce77.png)
+
+公式 18-7 目标 Q 值
+
+有了这个目标 Q 值，可以使用梯度下降运行一步训练算法。具体地，要最小化 Q 值`Q(s, a)`和目标 Q 值的平方根方差（或使用 Huber 损失降低算法对大误差的敏感度）。这就是基础的深度 Q 学习算法。下面用其处理平衡车问题。
+
+## 实现深度 Q 学习
+
+首先需要的是一个深度 Q 网络。理论上，需要一个输入是状态-动作对、输出是近似 Q 值的神经网络，但在实际中，使用输入是状态、输出是每个可能动作的近似 Q 值的神经网络，会更加高效。要处理 CartPole 环境，我们不需要非常复杂的神经网络；只要几个隐藏层就够了：
+
+```py
+env = gym.make("CartPole-v0")
+input_shape = [4] # == env.observation_space.shape
+n_outputs = 2 # == env.action_space.n
+
+model = keras.models.Sequential([
+    keras.layers.Dense(32, activation="elu", input_shape=input_shape),
+    keras.layers.Dense(32, activation="elu"),
+    keras.layers.Dense(n_outputs)
+]) 
+```
+
+使用这个 DQN 选择一个动作，选择 Q 值最大的动作。要保证智能体探索环境，使用的是ε 贪婪策略（即，选择概率为ε的随机动作）：
+
+```py
+def epsilon_greedy_policy(state, epsilon=0):
+    if np.random.rand() < epsilon:
+        return np.random.randint(2)
+    else:
+        Q_values = model.predict(state[np.newaxis])
+        return np.argmax(Q_values[0]) 
+```
+
+不仅只根据最新的经验训练 DQN，将所有经验存储在接力缓存（或接力记忆）中，每次训练迭代，从中随机采样一个批次。这样可以降低训练批次中的经验相关性，可以极大的提高训练效果。如下，使用双端列表实现：
+
+```py
+from collections import deque
+
+replay_buffer = deque(maxlen=2000) 
+```
+
+> 提示：双端列表是一个链表，每个元素指向后一个和前一个元素。插入和删除元素都非常快，但双端列表越长，随机访问越慢。如果需要一个非常大的接力缓存，可以使用环状缓存；见笔记本中的`Deque vs Rotating List`章节。
+
+每个经验包含五个元素：状态，智能体选择的动作，奖励，下一个状态，一个知识是否结束的布尔值（`done`）。需要一个小函数从接力缓存随机采样。返回的是五个 NumPy 数组，对应五个经验：
+
+```py
+def sample_experiences(batch_size):
+    indices = np.random.randint(len(replay_buffer), size=batch_size)
+    batch = [replay_buffer[index] for index in indices]
+    states, actions, rewards, next_states, dones = [
+        np.array([experience[field_index] for experience in batch])
+        for field_index in range(5)]
+    return states, actions, rewards, next_states, dones 
+```
+
+再创建一个使用ε 贪婪策略的单次玩游戏函数，然后将结果经验存储在接力缓存中：
+
+```py
+def play_one_step(env, state, epsilon):
+    action = epsilon_greedy_policy(state, epsilon)
+    next_state, reward, done, info = env.step(action)
+    replay_buffer.append((state, action, reward, next_state, done))
+    return next_state, reward, done, info 
+```
+
+最后，再创建最后一个批次采样函数，用单次梯度下降训练这个 DQN：
+
+```py
+batch_size = 32
+discount_factor = 0.95
+optimizer = keras.optimizers.Adam(lr=1e-3)
+loss_fn = keras.losses.mean_squared_error
+
+def training_step(batch_size):
+    experiences = sample_experiences(batch_size)
+    states, actions, rewards, next_states, dones = experiences
+    next_Q_values = model.predict(next_states)
+    max_next_Q_values = np.max(next_Q_values, axis=1)
+    target_Q_values = (rewards +
+                       (1 - dones) * discount_factor * max_next_Q_values)
+    mask = tf.one_hot(actions, n_outputs)
+    with tf.GradientTape() as tape:
+        all_Q_values = model(states)
+        Q_values = tf.reduce_sum(all_Q_values * mask, axis=1, keepdims=True)
+        loss = tf.reduce_mean(loss_fn(target_Q_values, Q_values))
+    grads = tape.gradient(loss, model.trainable_variables)
+    optimizer.apply_gradients(zip(grads, model.trainable_variables)) 
+```
+
+逐行看下代码：
+
+*   首先定义一些超参数，并创建优化器和损失函数。
+
+*   然后创建`training_step()`函数。先采样经验批次，然后使用 DQN 预测每个可能动作的每个经验的下一状态的 Q 值。因为假定智能体采取最佳行动，所以只保留下一状态的最大 Q 值。接着，我们使用公式 18-7 计算每个经验的状态-动作对的目标 Q 值。
+
+*   接着，使用 DQN 计算每个有经验的状态-动作对的 Q 值。但是，DQN 还会输出其它可能动作的 Q 值，不仅是智能体选择的动作。所以，必须遮掩不需要的 Q 值。`tf.one_hot()`函数可以方便地将动作下标的数组转别为掩码。例如，如果前三个经验分别包含动作 1，1，0，则掩码会以`[[0, 1], [0, 1], [1, 0],...]`开头。然后将 DQN 的输出乘以这个掩码，就可以排除所有不需要的 Q 值。然后，按列求和，去除所有的零，只保留有经验的状态-动作对的 Q 值。得到张量`Q_values`，包含批次中每个经验的预测的 Q 值。
+
+*   然后，计算损失：即有经验的状态-动作对的目标 Q 值和预测 Q 值的均方误差。
+
+*   最后，对可训练变量，用梯度下降步骤减小损失。
+
+这是最难的部分。现在，训练模型就简单了：
+
+```py
+for episode in range(600):
+    obs = env.reset()
+    for step in range(200):
+        epsilon = max(1 - episode / 500, 0.01)
+        obs, reward, done, info = play_one_step(env, obs, epsilon)
+        if done:
+            break
+    if episode > 50:
+        training_step(batch_size) 
+```
+
+跑 600 次游戏，每次最多 200 步。在每一步，先计算 ε 贪婪策略的`epsilon`值：这个值在 500 个周期内，从 1 线性降到 0.01。然后调用`play_one_step()`函数，用 ε 贪婪策略挑选动作，然后执行并在接力缓存中记录经验。如果周期结束，就退出循环。最后，如果超过了 50 个周期，就调用`training_step()`函数，用从接力缓存取出的批次样本训练模型。玩 50 个周期，而不训练的原因是给接力缓存一些时间来填充（如果等待的不够久，则接力缓存中的样本散度太小）。像上面这样，我们就实现了深度 Q 学习算法。
+
+图 18-10 展示了智能体在每个周期获得的总奖励。
+
+![](img/61396a5662776ce8c39d6b689a7458a2.png)
+
+图 18-10 深度 Q 学习算法的学习曲线
+
+可以看到，在前 300 个周期，算法的进步不大（部分是因为ε在一开始时非常高），然后表现突然提升到了 200（环境最高值）。这说明算法效果不错，并且比策略梯度算法快得多！但仅仅几个周期之后，性能就骤降到了 25。这被称为“灾难性遗忘”，这是所有 RL 算法都面临的大问题：随着智能体探索环境，不断更新策略，但是在环境的一部分学到的内容可能和之前学到的内容相悖。经验是关联的，学习环境不断改变 —— 这不利于梯度下降！如果增加接力缓存的大小，可以减轻这个问题。但真实的情况是，强化学习很难：训练通常不稳定，需要尝试许多超参数值和随机种子。例如，如果改变每层神经元的数量，从 32 到 30 或 34，模型表现不会超过 100（DQN 只有一个隐藏层时，可能更稳定）。
+
+> 笔记：强化学习非常困难，很大程度是因为训练的不稳定性，以及巨大的超参数和随机种子的不稳定性。就像 Andrej Karpathy 说的：“监督学习自己就能工作，强化学习被迫工作”。你需要时间、耐心、毅力，还有一点运气。这是为什么强化学习不是常用的深度学习算法的原因。除了 AlphaGo 和 Atari 游戏，还有一些其它应用：例如，Google 使用 RL 优化数据中心的费用，也用于一些机器人应用的超参数调节，和推荐系统。
+
+你可能想为什么我们不画出损失。事实证明损失不是模型表现的好指标。就算损失下降，智能体的表现也可能更糟（例如，智能体困在了环境中，则 DQN 开始对区域过拟合）。相反的，损失可能变大，但智能体表现不错（例如，如果 DQN 知道 Q 值，就能提高预测的质量，智能体就能表现得更好，得到更多奖励，但因为 DQN 还设置了更大的目标，所以误差增加了）。
+
+我们现在学的基本的深度 Q 学习算法，在玩 Atari 时太不稳定。DeepMind 是怎么做的呢？他们调节了算法。
+
+## 深度 Q 学习的变体
+
+下面看几个深度 Q 学习算法的变体，它们不仅训练稳定而且很快。
+
+### 固定 Q 值目标
+
+在基本的深度 Q 学习算法中，模型不仅做预测还自己设置目标。有点像一只狗追自己的尾巴。反馈循环使得网络不稳定：会发生分叉、摇摆、冻结，等等。要解决问题，DeepMind 在 2013 年的论文中使用了两个 DQN，而不是一个：第一个是在线模型，它在每一步进行学习，并移动智能体；另一个是目标模型只定义目标。目标模型只是在线模型的克隆：
+
+```py
+target = keras.models.clone_model(model)
+target.set_weights(model.get_weights()) 
+```
+
+然后，在`training_step()`函数中，只需要变动一行，使用目标模型计算接下来状态的 Q 值：
+
+```py
+next_Q_values = target.predict(next_states) 
+```
+
+最后，在训练循环中，必须每隔一段周期（比如，每 50 个周期），将在线模型的权重复制到目标模型中：
+
+```py
+if episode % 50 == 0:
+    target.set_weights(model.get_weights()) 
+```
+
+因为目标模型更新的没有在线模型频繁，Q 值目标更加稳定，前面讨论反馈循环减弱了。这个方法是 DeepMind 在 2013 年的论文中提出的方法之一，可以让智能体从零学习 Atari 游戏。要稳定训练，他们使用的学习率是 0.00025，很小，每隔 10000 步才更新目标模型，接力缓存的大小是 1 百万。并且`epsilon`降低的很慢，用 1 百万步从 1 降到 0.1，他们让算法运行了 5000 万步。
+
+本章后面会用这些超参数，使用 TF-Agents 库训练 DQN 智能体来玩 Breakout。在此之前，再看另一个性能更好的 DQN 变体。
+
+### 双 DQN
+
+在 [2015 年的论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fdoubledqn)中，DeepMind 调节了他们的 DQN 算法，提高了性能，也稳定化了训练。他们称这个变体为双 DQN。算法更新的原因，是观察到目标网络倾向于高估 Q 值。事实上，假设所有动作都一样好：目标模型预测的 Q 值应该一样，但因为是估计值，其中一些可能存在更大的几率。目标模型会选择最大的 Q 值，最大的 Q 值要比平均 Q 值稍大，就像高估真正的 Q 值（就像在测量池塘深度时，测量随机水波的最高峰）。要修正这个问题，他们提出使用在线模型，而不是目标模型，来选择下一状态的最佳动作，只用目标模型估计这些最佳动作的 Q 值。下面是改善后的`training_step()`函数：
+
+```py
+def training_step(batch_size):
+    experiences = sample_experiences(batch_size)
+    states, actions, rewards, next_states, dones = experiences
+    next_Q_values = model.predict(next_states)
+    best_next_actions = np.argmax(next_Q_values, axis=1)
+    next_mask = tf.one_hot(best_next_actions, n_outputs).numpy()
+    next_best_Q_values = (target.predict(next_states) * next_mask).sum(axis=1)
+    target_Q_values = (rewards +
+                       (1 - dones) * discount_factor * next_best_Q_values)
+    mask = tf.one_hot(actions, n_outputs)
+    [...] # the rest is the same as earlier 
+```
+
+几个月之后，人们又提出了另一个改进的 DQN 算法。
+
+### 优先经验接力
+
+除了均匀地从接力缓存采样经验，如果更频繁地采样重要经验如何呢？这个主意被称为重要性采样（importance sampling，IS）或优先经验接力（prioritized experience replay，PER），是在 [2015 年的论文中](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fprioreplay)由 DeepMind 发表的。
+
+更具体的，可以导致快速学习成果的经验被称为重要经验。但如何估计呢？一个可行的方法是测量 TD 误差的大小`δ = r + γ·V(s′) – V(s)`。大 TD 误差说明过`(s, r, s′)`很值得学习。当经验记录在接力缓存中，它的重要性被设为非常大的值，保证可以快速采样。但是，一旦被采样（以及每次采样时），就计算 RD 误差`δ`，这个经验的优先度设为`p = |δ|`（加上一个小常数，保证每个经验的采样概率不是零）。采样优先度为`p`的概率`P`正比于`p[ζ]`，`ζ`是调整采样贪婪度的超参数：当`ζ=0`时，就是均匀采样，`ζ=1`时，就是完全的重要性采样。在论文中，作者使用的是`ζ=0.6`，最优值取决于任务。
+
+但有一点要注意，因为样本偏向重要经验，必须要在训练时，根据重要性降低经验的重要性，否则模型会对重要经验过拟合。更加清楚的讲，重要经验采样更频繁，但训练时的权重要小。要这么做，将每个经验的训练权重定义为`w = (n P)^(–β)`，`n`是接力缓存的经验数，`β`是平衡重要性偏向的超参数（0 是不偏向，1 是完全偏向）。在论文中，作者一开始使用的是`β=0.4`，在训练结束，提高到了`β=1`。最佳值取决于任务，如果你提高了一个，也要提高其它的值。
+
+接下来是最后一个重要的 DQN 算法的变体。
+
+### 决斗 DQN
+
+决斗 DQN 算法（DDQN，不要与双 DQN 混淆）是 DeepMind 在另一篇 [2015 年的论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fddqn)中提出的。要明白原理，首先状态-动作对`(s, a)`的 Q 值，可以表示为`Q(s, a) = V(s) + A(s, a)`，其中`V(s)`是状态`s`的值，`A(s, a)`是状态`s`采取行动`a`的结果。另外，状态的值等于状态最佳动作`a*`的 Q 值（因为最优策略会选最佳动作），因此`V(s) = Q(s, a*)`，即`A(s, a*) = 0`。在决斗 DQN 中，模型估计状态值和每个动作的结果。因为最佳动作的结果是 0，模型减去最大预测结果。下面是一个简单的决斗 DQN，用函数式 API 实现：
+
+```py
+K = keras.backend
+input_states = keras.layers.Input(shape=[4])
+hidden1 = keras.layers.Dense(32, activation="elu")(input_states)
+hidden2 = keras.layers.Dense(32, activation="elu")(hidden1)
+state_values = keras.layers.Dense(1)(hidden2)
+raw_advantages = keras.layers.Dense(n_outputs)(hidden2)
+advantages = raw_advantages - K.max(raw_advantages, axis=1, keepdims=True)
+Q_values = state_values + advantages
+model = keras.Model(inputs=[input_states], outputs=[Q_values]) 
+```
+
+算法的其余部分和之前一样。事实上，你可以创建一个双决斗 DQN，并结合优先经验队列！更为一般地，许多 RL 方法都可以结合起来，就像 DeepMind 在 [2017 年的论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Frainbow)展示的。论文的作者将六个不同的方法结合起来，训练了一个智能体，称为“彩虹”，表现很好。
+
+不过，要实现所有这些方法，进行调试、微调，并且训练模型需要很多工作。因此，不要重新草轮子，最好的方法是复用可扩展的、使用效果好的库，比如 TF-Agents。
+
+## TF-Agents 库
+
+[TF-Agents 库](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Ftensorflow%2Fagents)是基于 TensorFlow 实现的强化学习库，Google 开发并在 2018 年开源。和 OpenAI Gym 一样，它提供了许多现成的环境（包括了 OpenAI Gym 环境的包装），还支持 PyBullet 库（用于 3D 物理模拟），DeepMind 的 DM 控制库（基于 MuJoCo 的物理引擎），Unity 的 ML-Agents 库（模拟了许多 3D 环境）。它还使用了许多 RL 算法，包括 REINFORCE、DQN、DDQN，和各种 RL 组件，比如高效接力缓存和指标。TF-Agents 速度快、可扩展、便于使用、可自定义：你可以创建自己的环境和神经网络，可以对任意组件自定义。在这一节，我们使用 TF-Agents 训练一个智能体玩 Breakout，一个有名的 Atari 游戏（见图 18-11），使用的是 DQN 算法（可以换成任何你想用的算法）。
+
+![](img/9d0264c50edd8889585061a046bd0d94.png)
+
+图 18-11 Breakout 游戏
+
+### 安装 TF-Agents
+
+先安装 TF-Agents 。可以使用 PIP 安装（如果使用的是虚拟环境，一定要先激活；如果不激活，要使用选项`--user`，或用管理员权限）：
+
+```py
+$ python3 -m pip install --upgrade tf-agents 
+```
+
+> 警告：写作本书时，TF-Agents 还很新，每天都有新进展，因此 API 可能会和现在有所不同 —— 但大体相同。如果代码不能运行，我会更新 Jupyter 笔记本。
+
+然后，创建一个 TF-Agents 包装了 OpenAI GGym 的 Breakout 的环境。要这么做，需要先安装 OpenAI Gym 的 Atari 依赖：
+
+```py
+$ python3 -m pip install --upgrade 'gym[atari]' 
+```
+
+这条命令安装了`atari-py`，这是 Arcade 学习环境的 Python 接口，这个学习环境是基于 Atari 2600 模拟器 Stella。
+
+### TF-Agents 环境
+
+如果一切正常，就能引入 TF-Agents，创建 Breakout 环境了：
+
+```py
+>>> from tf_agents.environments import suite_gym
+>>> env = suite_gym.load("Breakout-v4")
+>>> env
+<tf_agents.environments.wrappers.TimeLimit at 0x10c523c18> 
+```
+
+这是 OpenAI Gym 环境的包装，可以通过属性`gym`访问：
+
+```py
+>>> env.gym
+<gym.envs.atari.atari_env.AtariEnv at 0x24dcab940> 
+```
+
+TF-Agents 环境和 OpenAI Gym 环境非常相似，但有些差别。首先，`reset()`方法不返回观察；返回的是`TimeStep`对象，它包装了观察，和一些其它信息：
+
+```py
+>>> env.reset()
+TimeStep(step_type=array(0, dtype=int32),
+         reward=array(0., dtype=float32),
+         discount=array(1., dtype=float32),
+         observation=array([[[0., 0., 0.], [0., 0., 0.],...]]], dtype=float32)) 
+```
+
+`step()`方法返回的也是`TimeStep`对象：
+
+```py
+>>> env.step(1) # Fire
+TimeStep(step_type=array(1, dtype=int32),
+         reward=array(0., dtype=float32),
+         discount=array(1., dtype=float32),
+         observation=array([[[0., 0., 0.], [0., 0., 0.],...]]], dtype=float32)) 
+```
+
+属性`reward`和`observation`是奖励和观察，与 OpenAI Gym 相同（除了`reward`表示为 NumPy 数组）。对于周期的第一个时间步，属性`step_type`等于 0，1 是中间步，2 后最后一步。可以调用时间步的`is_last()`方法，检测是否是最后一步。最后，`discount`属性指明了在这个时间步的衰减率。在这个例子中的值等于 1，所以没有任何衰减。可以通过在加载环境时设置`discount`参数，定义衰减因子。
+
+> 笔记：在任何时候，你可以通过调用方法`current_time_step() method.`访问环境的当前时间步。
+
+### 环境配置
+
+TF-Agents 环境提供了配置，包括观察、动作、时间步，以及它们的形状、数据类型、名字，还有最小值和最大值：
+
+```py
+>>> env.observation_spec()
+BoundedArraySpec(shape=(210, 160, 3), dtype=dtype('float32'), name=None,
+                 minimum=[[[0\. 0\. 0.], [0\. 0\. 0.],...]],
+                 maximum=[[[255., 255., 255.], [255., 255., 255.], ...]])
+>>> env.action_spec()
+BoundedArraySpec(shape=(), dtype=dtype('int64'), name=None,
+                 minimum=0, maximum=3)
+>>> env.time_step_spec()
+TimeStep(step_type=ArraySpec(shape=(), dtype=dtype('int32'), name='step_type'),
+         reward=ArraySpec(shape=(), dtype=dtype('float32'), name='reward'),
+         discount=BoundedArraySpec(shape=(), ..., minimum=0.0, maximum=1.0),
+         observation=BoundedArraySpec(shape=(210, 160, 3), ...)) 
+```
+
+可以看到，观察就是 Atari 屏幕的截图，用形状是`[210, 160, 3]`的 NumPy 数组表示。要渲染环境，可以调用`env.render(mode="human")`，如果想用 NumPy 数组的形式返回图片，可以调用`env.render(mode="rgb_array")`（与 OpenAI Gym 不同，这是默认模式）。
+
+有四个可能的动作。Gym 的 Atari 环境有另一个方法，可以知道每个动作对应什么：
+
+```py
+>>> env.gym.get_action_meanings()
+['NOOP', 'FIRE', 'RIGHT', 'LEFT'] 
+```
+
+> 提示：配置是配置类的一个实例，可以是嵌套列表、字典。如果配置是嵌套的，则配置对象必须匹配配置的嵌套结构。例如，如果观察配置是 `{"sensors": ArraySpec(shape=[2]), "camera": ArraySpec(shape=[100, 100])}` ，有效观察应该是 `{"sensors": np.array([1.5, 3.5]), "camera": np.array(...)}`。`tf.nest`包提供了工具处理嵌套结构（即，`nests`）。
+
+观察结果很大，所以需要做降采样，并转换成灰度。这样可以加速训练，减少内存使用。要这么做，要使用环境包装器。
+
+### 环境包装器和 Atari 预处理
+
+TF-Agents 在`tf_agents.environments.wrappers`中，提供了一些环境包装器。正如名字，它们可以包装环境，转发每个调用，还可以添加其它功能。以下是一些常见的包装器：
+
+`ActionClipWrapper`
+
+*   根据动作配置裁剪动作。
+
+`ActionDiscretizeWrapper`
+
+*   将连续动作空间量化到离散的动作空间。例如，如果原始环境的动作空间是 -1.0 到 +1.0 的连续范围，但是如果想用算法支持离散的动作空间，比如 DQN，就可以用`discrete_env = ActionDiscretizeWrapper(env, num_actions=5)`包装环境，新的`discrete_env`有离散的可能动作空间：0、1、2、3、4。这些动作对应原始环境的动作 -1.0、-0.5、0.0、0.5、1.0。
+
+`ActionRepeat`
+
+*   将每个动作重复`n`次，并积累奖励。在许多环境中，这么做可以显著加速训练。
+
+`RunStats`
+
+*   记录环境数据，比如步骤数和周期数。
+
+`TimeLimit`
+
+*   超过最大的时间步数，则中断环境。
+
+`VideoWrapper`
+
+*   记录环境的视频。
+
+要创建包装环境，需要先创建一个包装器，将包装过的环境传递给构造器。例如，下面的代码将一个环境包装在`ActionRepeat`中，让每个动作重复四次：
+
+```py
+from tf_agents.environments.wrappers import ActionRepeat
+
+repeating_env = ActionRepeat(env, times=4) 
+```
+
+OpenAI Gym 在`gym.wrappers`中有一些环境包装器。但它们是用来包装 Gym 环境，不是 TF-Agents 环境，所以要使用的话，必须用 Gym 包装器包装 Gym 环境，再用 TF-Agents 包装器再包装起来。`suite_gym.wrap_env()`函数可以实现，只要传入 Gym 环境和 Gym 包装器列表，和/或 TF-Agents 包装器的列表。另外，`suite_gym.load()`函数既能创建 Gym 环境，如果传入包装器，也能做包装。每个包装器在包装时没有参数，所以如果想设置参数，必须传入`lambda`。例如，下面的代码创建了一个 Breakout 环境，每个周期最多运行 10000 步，每个动作重复四次：
+
+```py
+from gym.wrappers import TimeLimit
+
+limited_repeating_env = suite_gym.load(
+    "Breakout-v4",
+    gym_env_wrappers=[lambda env: TimeLimit(env, max_episode_steps=10000)],
+    env_wrappers=[lambda env: ActionRepeat(env, times=4)]) 
+```
+
+对于 Atari 环境，大多数论文使用了标准预处理步骤，TF-Agents 提供了便捷的`AtariPreprocessing`包装器做预处理。以下是支持的预处理：
+
+灰度和降采样
+
+*   将观察转换为灰度，并降采样（默认是`84 × 84`像素）
+
+最大池化
+
+*   游戏的最后两帧使用`1 × 1`过滤器做最大池化。是为了去除闪烁点。
+
+跳帧
+
+*   智能体每隔`n`个帧做一次观察（默认是 4），对于每一帧，动作都要重复几次，并收集所有的奖励。这么做可以有效加速游戏，因为奖励延迟降低，训练也加速了。
+
+丢命损失
+
+在某些游戏中，奖励是基于得分的，所以智能体死掉的话，不会立即受到惩罚。一种方法是当死掉时，立即结束游戏。这种做法有些争议，所以默认是关掉的。
+
+因为默认 Atari 环境已经应用了随机跳帧和最大池化，我们需要加载原生不跳帧的变体，`BreakoutNoFrameskip-v4`。另外，从 Breakout 游戏中的一帧并不能知道球的方向和速度，这会使得智能体很难玩好游戏（除非这是一个 RNN 智能体，它可以在步骤之间保存状态）。应对方法之一是使用一个环境包装器，沿着每个频道维度，将多个帧叠起来做输出。`FrameStack4`包装器实现了这个策略，返回四个帧的栈式结果。下面就创建一个包装过的 Atari 环境。
+
+```py
+from tf_agents.environments import suite_atari
+from tf_agents.environments.atari_preprocessing import AtariPreprocessing
+from tf_agents.environments.atari_wrappers import FrameStack4
+
+max_episode_steps = 27000 # <=> 108k ALE frames since 1 step = 4 frames
+environment_name = "BreakoutNoFrameskip-v4"
+
+env = suite_atari.load(
+    environment_name,
+    max_episode_steps=max_episode_steps,
+    gym_env_wrappers=[AtariPreprocessing, FrameStack4]) 
+```
+
+预处理的结果展示在图 18-12 中。可以看到解析度更低了，但足够玩游戏了。另外，帧沿着频道维度叠起来，所以红色表示的是三步之前到现在的帧，绿色是从两步之前，蓝色是前一帧，粉色是当前帧。根据这一帧的观察，智能体可以看到球是像左下角移动的，所以应该继续将板子向左移动（和前面一步相同）。
+
+![](img/9356aa31cd291c52120abee2144cfcae.png)
+
+图 18-12 预处理 Breakout 观察
+
+最后，可以将环境包装进`TFPyEnvironment`：
+
+```py
+from tf_agents.environments.tf_py_environment import TFPyEnvironment
+
+tf_env = TFPyEnvironment(env) 
+```
+
+这样就能在 TensorFlow 图中使用这个环境（在底层，这个类使用的是`tf.py_function()`，这可以让图调用任何 Python 代码）。有了`TFPyEnvironment`类，TF-Agents 支持纯 Python 环境和基于 TensorFlow 环境。更为一般的，TF-Agents 支持并提供了纯 Python 和基于 TensorFlow 的组件（智能体，接力缓存，指标，等等）。
+
+有了 Breakout 环境，预处理和 TensorFlow 支持，我们必须创建 DQN 智能体，和其它要训练的组件。下面看看系统架构。
+
+### 训练架构
+
+TF-Agents 训练程序通常分为两个并行运行的部分，见图 18-13：左边，driver 使用收集策略探索环境选择动作，并收集轨迹（即，经验），将轨迹发送给观测器，观测器将轨迹存储到接力缓存中；右边，智能体从接力缓存中取出轨迹批次，然后训练网络。总而言之，左边的部分探索环境、收集轨迹，右边的部分学习更新收集策略。
+
+![](img/0206020c7e2549b82019ce1da567f097.png)
+
+图 18-13 一个典型的 TF-Agents 训练架构
+
+这张图有些疑惑点，回答如下：
+
+*   为什么使用多个环境呢？这是为了让驱动并行探索多个环境的复制，发挥 CPU、GPU 的能力，给训练算法提供低关联的轨迹。
+
+*   什么是轨迹？这是从一个时间步向下一个时间步过渡的简洁表征，或是一连串连续的从时间步`n`到时间步`n+t`的过渡。驱动收集的轨迹传给观测器，再将其存入接力缓存，接着再被采样用来训练。
+
+*   为什么需要观测器？驱动不能直接保存轨迹吗？事实上，驱动可以直接保存轨迹，但这么做的话，会使得架构不够灵活。例如，如果不想使用接力缓存，该怎么做呢？如果想用轨迹做一些其它事情，比如计算指标，该怎么做呢？事实上，观测器是使用轨迹作为参数的任意函数。可以用观测器将轨迹存入接力缓存，或保存为 TFRecord 文件，或计算指标，或其它事情。另外，可以将多个观测器传给驱动，广播轨迹。
+
+> 提示：尽管这个架构是最常见的，但是可以尽情自定义，可以更换成自己的组件。事实上，除非是研究新的 RL 算法，更适合使用自定义的环境来做自己的任务。要这么做，需要创建一个自定义类，继承自`tf_agents.environments.py_environment`包的`PyEnvironment`类，并重写一些方法，比如`action_spec()`、`observation_spec()`、`_reset()`、`_step()`（见笔记本的章节 Creating a Custom TF_Agents Environment）。
+
+现在创建好了所有组件：先是深度 Q 网络，然后是 DQN 智能体（负责创建收集策略），然后是接力缓存和观测器，一些训练指标，驱动，最后是数据集。有了所有组件之后，先用一些轨迹填充接力缓存，然后运行主训练循环。因此，从创建深度 Q 网络开始。
+
+### 创建深度 Q 网络
+
+TF-Agents 库在`tf_agents.networks`包和子包中提供了许多网络。我们使用`tf_agents.networks.q_network.QNetwork`类：
+
+```py
+from tf_agents.networks.q_network import QNetwork
+
+preprocessing_layer = keras.layers.Lambda(
+                          lambda obs: tf.cast(obs, np.float32) / 255.)
+conv_layer_params=[(32, (8, 8), 4), (64, (4, 4), 2), (64, (3, 3), 1)]
+fc_layer_params=[512]
+
+q_net = QNetwork(
+    tf_env.observation_spec(),
+    tf_env.action_spec(),
+    preprocessing_layers=preprocessing_layer,
+    conv_layer_params=conv_layer_params,
+    fc_layer_params=fc_layer_params) 
+```
+
+这个`QNetwork`的输入是观察，每个动作输出一个 Q 值，所以必须给出观察和动作的配置。先是预处理层：一个`lambda`层将观察转换为 32 位浮点数，并做归一化（范围落到 0.0 和 1.0 之间）。观察包含无符号字节，占用空间是 32 位浮点数的四分之一，这就是为什么不在前面将观察转换为 32 位浮点数；我们要节省接力缓存的内存空间。接着，网络使用三个卷积层：第一个有 32 个`8 × 8`过滤器，步长是 4，第二个有 64 个`8 × 8`过滤器，步长是 2，第三个层有 64 个`8 × 8`的过滤器，步长为 1。最后，使用一个有 512 个神经元的紧密层，然后是一个有 4 个神经元的紧密输出层，输出是 Q 值（每个动作一个 Q 值）。所有卷积层和除了输出层的紧密层使用 ReLU 激活函数（可以通过设置参数`activation_fn`改变）。输出层不使用激活函数。
+
+`QNetwork`的底层包含两个部分：一个处理观察的编码网络，和一个输出 Q 值的输出层。TF-Agent 的`EncodingNetwork`类实现了多种智能体都使用了的神经网络架构（见图 18-14）。
+
+![](img/303667c209e2119f8b74990d8407a92a.png)
+
+图 18-14 编码网络架构
+
+可能有一个或多个输入。例如，如果每个观察包括传感器数据加上摄像头图片，就有两个输入。每个输入可能需要一些预处理步骤，你可以通过`preprocessing_layers`参数指定 Keras 层列表，每个输入有一个预处理层，网络会将层应用到每个对应的输入上（如果输入需要多个预处理层，可以传入一个完整模型，因为 Keras 模型也可以用作层）。如果有两个或更多输入，必须通过参数`preprocessing_combiner`传入其它层，将预处理层的输出合并成一个输出。
+
+然后，编码层会顺序应用一列卷积层，只要指定参数`conv_layer_params`。这是一个包含 3 个元组的列表（每个卷积层一个元组），指明过滤器的数量、核大小，步长。卷积层之后，如果设置参数`fc_layer_params`，编码网络可以应用一串紧密层：参数`fc_layer_params`是一个列表，包含每个紧密层的神经元数。另外，通过参数`dropout_layer_params`，还可以传入丢弃率列表（每个紧密层一个），给每个紧密成设置丢弃。`QNetwork`将编码网络的输出传入给紧密输出层（每个动作一个神经元）。
+
+> 笔记：`QNetwork`类非常灵活，可以创建许多不同的架构，如果需要更多的灵活性，还以通过创建自己的类：扩展类`tf_agents.networks.Network`，像常规自定义 Keras 层一样实现。`tf_agents.networks.Network`类是`keras.layers.Layer`类的子类，前者添加了一些智能体需要的功能，比如创建网络的浅复制（即，只复制架构，不复制权重）。例如，`DQNAgent`使用这个功能创建在线模型。
+
+有了 DQN，接下来创建 DQN 智能体。
+
+### 创建 DQN 智能体
+
+利用`tf_agents​.agents`包和它的子包，TF-Agents 库实现了多种类型的智能体。我们使用类`tf_agents.agents​.dqn.dqn_agent.DqnAgent`：
+
+```py
+from tf_agents.agents.dqn.dqn_agent import DqnAgent
+
+train_step = tf.Variable(0)
+update_period = 4 # train the model every 4 steps
+optimizer = keras.optimizers.RMSprop(lr=2.5e-4, rho=0.95, momentum=0.0,
+                                     epsilon=0.00001, centered=True)
+epsilon_fn = keras.optimizers.schedules.PolynomialDecay(
+    initial_learning_rate=1.0, # initial ε
+    decay_steps=250000 // update_period, # <=> 1,000,000 ALE frames
+    end_learning_rate=0.01) # final ε
+agent = DqnAgent(tf_env.time_step_spec(),
+                 tf_env.action_spec(),
+                 q_network=q_net,
+                 optimizer=optimizer,
+                 target_update_period=2000, # <=> 32,000 ALE frames
+                 td_errors_loss_fn=keras.losses.Huber(reduction="none"),
+                 gamma=0.99, # discount factor
+                 train_step_counter=train_step,
+                 epsilon_greedy=lambda: epsilon_fn(train_step))
+agent.initialize() 
+```
+
+逐行看下代码：
+
+*   首先创建计算训练步骤数的变量。
+
+*   然后创建优化器，使用 2015 DQN 论文相同的超参数。
+
+*   接着，创建对象`PolynomialDecay`，根据当前的训练步骤（用于降低学习率，也可以是其它值），用于计算 ε 贪婪收集策略的`ε`值。在 100 万 ALE 帧内（等于 250000 步骤，因为跳帧周期等于 4），将`ε`值从 1 降到 0.01（也是 2015 DQN 论文的用值）。另外，每隔 4 步（即，16 个 ALE 帧），所以`ε`值是在 62500 个训练步内下降的。
+
+*   然后创建`DQNAgent`，传入时间步和动作配置、`QNetwork`、优化器、目标模型更新间的训练步骤数、损失函数、衰减率、变量`train_step`、返回ε值的函数（不接受参数，这就是为什么使用匿名函数传入`train_step`的原因）。注意，损失函数对每个实例返回一个误差，不是平均误差，所以要设置`reduction="none"`。
+
+*   最后，启动智能体。
+
+然后，创建接力缓存和观测器。
+
+### 创建接力缓存和观测器
+
+TF-Agents 库在`tf_agents.replay_buffers`包实现了多种接力缓存。一些是用纯 Python 写的（模块名开头是`py_`），其它是基于 TensorFlow 的（开头是`tf_`）。我们使用`tf_agents.replay_buffers.tf_uniform_replay_buffer`包追踪的`TFUniformReplayBuffer`类。它实现了高效均匀采样的接力缓存：
+
+```py
+from tf_agents.replay_buffers import tf_uniform_replay_buffer
+
+replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
+    data_spec=agent.collect_data_spec,
+    batch_size=tf_env.batch_size,
+    max_length=1000000) 
+```
+
+看一下这些参数：
+
+`data_spec`
+
+*   数据的配置会存储在接力缓存中。DQN 智能体知道收集数据什么样，通过属性`collect_data_spec`做数据配置。
+
+`batch_size`
+
+*   轨迹数量添加到每个步骤。在这个例子中，轨迹数是 1，因为驱动每个步骤执行一个动作收集一个轨迹。如果环境是一个批次化的环境（环境在每个时间步接收批次动作，返回批次观察），则驱动必须在每个时间步保存批次的轨迹。因为使用的是 TensorFlow 接力缓存，需要知道批次大小（创建计算图）。批次化环境的一个例子是`ParallelPyEnvironment`（出自包`tf_agents.environments.parallel_py_environment`）：用独立进程并行运行多个环境（对于相同的动作和观察配置，进程可以不同），每个步骤接收批次化的动作，并在环境中执行（每个环境一个动作），然后返回所有观察结果。
+
+`max_length`
+
+*   接力缓存的最大大小。我们创建一个可以存储 100 万个轨迹的接力缓存（和 2015 DQN 论文一样）。这需要不少内存。
+
+> 提示：当存储两个连续的轨迹，它们包含两个连续的观察，每个观察有四个帧（因为包装器是`FrameStack4`），但是第二个观察中的三个帧是多余的（第一个观察中已经存在了）。换句话说，使用的内存大小是必须的四倍。要避免这个问题，可以使用包`tf_agents.replay_buffers.py_hashed_replay_buffer`的`PyHashedReplayBuffer`：它能沿着观察的最后一个轴对存储的轨迹去重。
+
+现在创建向接力缓存写入轨迹的观测器。观测器就是一个接收轨迹参数的函数（或是调用对象），所以可以直接使用方法`add_method()`（绑定`replay_buffer`对象）作为观测器：
+
+```py
+replay_buffer_observer = replay_buffer.add_batch 
+```
+
+如果想创建自己的观测器，可以一个包含参数`trajectory`的函数。如果必须有状态，可以写一个包含方法`__call__(self, trajectory)`的类。例如，下面是一个每次调用，计数器都会加 1 的观测器（除了轨迹表示周期间的边界，不算成一步），每隔 100 次累加，显示总数（`\r`和`end=""`保证展示的计数器处于一条线）。
+
+```py
+class ShowProgress:
+    def __init__(self, total):
+        self.counter = 0
+        self.total = total
+    def __call__(self, trajectory):
+        if not trajectory.is_boundary():
+            self.counter += 1
+        if self.counter % 100 == 0:
+            print("\r{}/{}".format(self.counter, self.total), end="") 
+```
+
+接下来创建一些训练指标。
+
+### 创建训练指标
+
+TF-Agents 库再`tf_agents.metrics`包中实现了几个 RL 指标，一些是基于纯 Python 的，一些是基于 TensorFlow 的。创建一些指标统计周期数、步骤数、周期的平均数、平均周期长度：
+
+```py
+from tf_agents.metrics import tf_metrics
+
+train_metrics = [
+    tf_metrics.NumberOfEpisodes(),
+    tf_metrics.EnvironmentSteps(),
+    tf_metrics.AverageReturnMetric(),
+    tf_metrics.AverageEpisodeLengthMetric(),
+] 
+```
+
+> 笔记：训练或实现策略时，对奖励做衰减是合理的，这是为了平衡当前奖励与未来奖励的平衡。但是，当周期结束时，可以通过对所有未衰减的奖励求和来做评估。出于这个原因，`AverageReturnMetric`计算了每个周期未衰减奖励的和，并追踪平均值。
+
+任何时候，可以调用`result()`方法获取指标（例如，`train_metrics[0].result()`）。或者，可以调用`log_metrics(train_metrics)`记录所有指标（这个函数位于`tf_agents.eval.metric_utils`包）：
+
+```py
+>>> from tf_agents.eval.metric_utils import log_metrics
+>>> import logging
+>>> logging.get_logger().set_level(logging.INFO)
+>>> log_metrics(train_metrics)
+[...]
+NumberOfEpisodes = 0
+EnvironmentSteps = 0
+AverageReturn = 0.0
+AverageEpisodeLength = 0.0 
+```
+
+接下来创建收集驱动。
+
+### 创建收集驱动
+
+正如图 18-13，驱动是使用给定策略探索环境的对象，收集经验，并广播给 observer。在每一步，发生的事情如下：
+
+*   驱动将当前时间步传给收集策略，收集策略使用时间步选择动作，并返回包含动作的动作步对象。
+
+*   驱动然后将动作传给环境，环境返回下一个时间步。
+
+*   最后，驱动创建一个轨迹对象表示过渡，并广播给所有观察。
+
+一些策略，比如 RNN 策略，是有状态的：策略根据给定的时间步和内部状态选择动作。有状态策略在动作步返回自己的状态，驱动会在下一个时间步将这个状态返回给策略。另外，驱动将策略状态保存到轨迹中（在字段`policy_info`中）：当智能体采样一条轨迹，它必须设置策略的状态设为采样时间步时的状态。
+
+另外，就像前面讨论的，环境可能是批次化的环境，这种情况下，驱动将批次化的时间步传给策略（即，时间步对象包含批次观察、批次步骤类型、批次奖励、批次衰减，这四个批次的大小相同）。驱动还传递前一批次的策略状态。然后，策略返回去批次动作步，包含着批次动作和批次策略状态。最后，驱动创建批次化轨迹（即，轨迹包含批次步骤类型、批次观察、批次动作、批次奖励，更一般地，每个轨迹属性一个批次，所有批次大小相同）。
+
+有两个主要的驱动类：`DynamicStepDriver`和`DynamicEpisodeDriver`。第一个收集给定数量步骤的经验，第二个收集给定数量周期数的经验。我们想收集每个训练迭代的四个步骤的经验（正如 2015 DQN 论文），所以创建一个`DynamicStepDriver`：
+
+```py
+from tf_agents.drivers.dynamic_step_driver import DynamicStepDriver
+
+collect_driver = DynamicStepDriver(
+    tf_env,
+    agent.collect_policy,
+    observers=[replay_buffer_observer] + training_metrics,
+    num_steps=update_period) # collect 4 steps for each training iteration 
+```
+
+传入环境、智能体的收集策略、观测器列表（包括接力缓存观测器和训练指标），最后是要运行的步骤数（这个例子中是 4）。现在可以调用方法`run()`来运行，但最好先用纯随机策略收集的经验先填充接力缓存。要这么做，可以使用类`RandomTFPolicy`创建第二个驱动，运行 20000 步这个策略（等于 80000 个模拟帧，正如 2015 DQN 论文）。可以用`ShowProgress`观测器展示进展：
+
+```py
+from tf_agents.policies.random_tf_policy import RandomTFPolicy
+
+initial_collect_policy = RandomTFPolicy(tf_env.time_step_spec(),
+                                        tf_env.action_spec())
+init_driver = DynamicStepDriver(
+    tf_env,
+    initial_collect_policy,
+    observers=[replay_buffer.add_batch, ShowProgress(20000)],
+    num_steps=20000) # <=> 80,000 ALE frames
+final_time_step, final_policy_state = init_driver.run() 
+```
+
+快要能运行训练循环了。只需要最后一个组件：数据集。
+
+### 创建数据集
+
+要从接力缓存采样批次的轨迹，可以调用`get_next()`方法。这返回了轨迹的批次，还返回了含有样本 id 和采样概率的`BufferInfo`对象（可能对有些算法有用，比如 PER）。例如，下面的代码采样了一个包含两条轨迹的批次（子周期），每个包含三个连续步。这些子周期见图 18-15（每行包含一个周期的三个连续步）：
+
+```py
+>>> trajectories, buffer_info = replay_buffer.get_next(
+...     sample_batch_size=2, num_steps=3)
+...
+>>> trajectories._fields
+('step_type', 'observation', 'action', 'policy_info',
+ 'next_step_type', 'reward', 'discount')
+>>> trajectories.observation.shape
+TensorShape([2, 3, 84, 84, 4])
+>>> trajectories.step_type.numpy()
+array([[1, 1, 1],
+       [1, 1, 1]], dtype=int32) 
+```
+
+`trajectories`对象是一个命名元组，有 7 个字段。每个字段包含一个张量，前两个维度是 2 和 3（因为有两条轨迹，每个三个时间步）。这解释了为什么`observation`字段的形状是`[2, 3, 84, 84, 4]`：这是两条轨迹，每条轨迹三个时间步，每步的观察是`84 × 84 × 4`。相似的，`step_type`张量的形状是`[2, 3]`：在这个例子中，两条轨迹包含三个连续步骤，步骤是在周期的中部，（类型是`1, 1, 1`）。在第二条轨迹中，看不到第一个观察中左下方的球，在接下来的两个观察中，球消失了，所以智能体会死，但周期不会马上结束，因为还剩几条命。
+
+![](img/17525ac1549e1cd8da63013e2620f286.png)
+
+图 18-15 包含三个连续步骤的两条轨迹
+
+每条轨迹是连续时间步和动作步的简洁表征，初衷是为了避免繁琐，怎么做呢？见图 18-16，过渡`n`由时间步`n`、动作步`n`、时间步`n+1`组成，而过渡`n+1`由时间步`n+1`、动作步`n+1`、时间步`n+2`。如果将这两个过渡直接存入接力缓存，时间步` `是重复的。为了避免重复，第`n`个轨迹步只包括时间步`n`的类型和观察（不是奖励和衰减），不包括时间步` `的观察（但是，不包括下一个时间步类型的复制）。
+
+![](img/5f3bdd191442c46391e9271a80356d0c.png)
+
+图 18-16 轨迹，过渡，时间步和动作步
+
+因此，如果有批次轨迹，每个轨迹有`t+1`步骤（从时间步`n`到时间步`n+t`），包含从时间步`n`到时间步`n+t`的所有数据，但没有奖励和时间步`n`的衰减（但包括时间步`n+t+1`的奖励和衰减）。这表示`t`过渡（`n`到`n + 1`, `n + 1`到`n + 2`，…，`n + t – 1`到`n + t`）
+
+模块`tf_agents.trajectories.trajectory`中的函数`to_transition()`将批次化的轨迹转变为包含批次`time_step`、`action_step`、`next_time_step`的列表。注意，第二个维度是 2，而不是 3，这是因为`t + 1`个时间步之间有`t`个过渡：
+
+```py
+>>> from tf_agents.trajectories.trajectory import to_transition
+>>> time_steps, action_steps, next_time_steps = to_transition(trajectories)
+>>> time_steps.observation.shape
+TensorShape([2, 2, 84, 84, 4]) # 3 time steps = 2 transitions 
+```
+
+> 笔记：采样的轨迹可能会将两个（或多个）周期重叠！这种情况下，会包含边界过渡，意味着过渡的`step_type`等于 2（结束），`next_step_type`等于 0（开始）。当然，TF-Agents 可以妥善处理这些轨迹（例如，通过在碰到边界时重新设置策略状态）。轨迹的方法`is_boundary()`返回只是每一步是否是边界的张量。
+
+对于主训练循环，不使用`get_next()`，而是用`tf.data.Dataset`。这样，就能借助 Data API 的高效（并行计算和预提取）。要这么做，可以调用接力缓存的`as_dataset()`方法：
+
+```py
+dataset = replay_buffer.as_dataset(
+    sample_batch_size=64,
+    num_steps=2,
+    num_parallel_calls=3).prefetch(3) 
+```
+
+在每个训练步骤，提取包含 64 条轨迹的批次（和 2015 DQN 论文一样），每条轨迹有两步（即，2 步为 1 个完整过渡，包括下一步的观察）。这个数据集能并行处理三条轨迹，预提取三条轨迹。
+
+> 笔记：对于策略算法，比如策略梯度，每个经验只需采样一次，训练完就可以丢掉。在这个例子中，你还可以使用一个接力缓存，但使用接力缓存的`gather_all()`方法，在每个训练迭代获取轨迹张量，训练完，再动过`clear()`方法清空接力缓存。
+
+有了所有组件之后，就可以训练模型了。
+
+### 创建训练循环
+
+要加速训练，将主函数转换为 TensorFlow 函数。可以使用函数`tf_agents.utils.common.function()`，它包装了`tf.function()`，还有一些其它选项：
+
+```py
+from tf_agents.utils.common import function
+
+collect_driver.run = function(collect_driver.run)
+agent.train = function(agent.train) 
+```
+
+写一个小函数，可以`n_iterations`次运行主训练循环：
+
+```py
+def train_agent(n_iterations):
+    time_step = None
+    policy_state = agent.collect_policy.get_initial_state(tf_env.batch_size)
+    iterator = iter(dataset)
+    for iteration in range(n_iterations):
+        time_step, policy_state = collect_driver.run(time_step, policy_state)
+        trajectories, buffer_info = next(iterator)
+        train_loss = agent.train(trajectories)
+        print("\r{} loss:{:.5f}".format(
+            iteration, train_loss.loss.numpy()), end="")
+        if iteration % 1000 == 0:
+            log_metrics(train_metrics) 
+```
+
+这个函数先向收集策略询问初始状态（给定环境批次大小，这个例子中是 1）。因为策略是无状态的，返回的是空元组（所以可以写成`policy_state = ()`）。然后，创建一个数据集的迭代器，并运行训练循环。在每个迭代，调用驱动的`run()`方法，传入当前的时间步（最初是`None`）和当前的策略状态。运行收集策略，收集四步的经验，将收集到的轨迹广播给接力缓存和指标。然后，从数据集采样一个批次轨迹，传给智能体的`train()`方法。返回对象`train_loss`，可能根据智能体的类型有变动。接着，展示迭代数和训练损失，每隔 1000 次迭代，输出所有指标的日志。现在可以调用`train_agent()`做一些迭代，智能体就能逐渐学会玩 Breakout 了。
+
+```py
+train_agent(10000000) 
+```
+
+训练需要大量算力和极大的耐心（根据硬件，可能需要几个小时甚至几天），可能还需要用不同的随机种子多次运行，以得到更好的结果，但是训练完成后，智能体在玩 Breakout 就比人厉害了。你还可以在其它 Atari 游戏上训练这个 DQN 智能体：智能体对于大多数动作游戏都可以超越人的表现，但是智能体对长故事线游戏不擅长。
+
+## 流行 RL 算法概览
+
+本章结束前，快速浏览一些流行的 RL 算法：
+
+演员评论家算法
+
+*   将策略梯度和深度 Q 网络结合而成 RL 算法族。演员评论家智能体包含两个神经网络：一个策略网络和一个 DQN。用智能体的经验正常训练 DQN。与常规 PG 相比，策略网络的学习有所不同：智能体（演员）依赖 DQN（评论家）估计的动作值。就像运动员（智能体）在教练（DQN）的帮助下学习。
+
+异步优势演员评论家算法（A3C）
+
+*   这是 DeepMind 在 2016 年推出的重要的演员评论家算法的变体，其中多个智能体并行学习，探索环境的不同复制。每隔一段间隔，每个智能体异步更新主网权重，然后从网络拉取最新权重。每个智能体都对网络产生共现，也从其它智能体学习。另外，DQN 不估计 Q 值，而是估计每个动作的优势，这样可以稳定训练。
+
+优势演员评论家算法（A2C）
+
+*   A3C 算法的变体，去除了异步。所有模型更新是同步的，所以梯度更新倾向于大批次，可以让模型更好地利用 GPU。
+
+软演员评论家算法（SAC）
+
+*   Tuomas Haarnoja 和其它 UC Berkeley 研究员在 2018 年提出的演员评论家变体。这个算法不仅学习奖励，还最大化其动作的熵。换句话说，在尽可能获取更多奖励的同时，尽量不可预测。这样可以鼓励智能体探索环境，可以加速训练。在 DQN 的估计不好时，可以避免重复执行相同的动作。这个算法采样非常高效（与前面的算法相反，前者采样慢）。TF-Agents 中有 SAC。
+
+近似策略优化（PPO）
+
+*   基于 A2C 的算法，它能裁剪函数的损失，避免过量权重更新（会导致训练不稳定）。PPO 是信任区域策略优化（TRPO）的简化版本，作者是 John Schulman 和其它 OpenAI 研究员。OpenAI 在 2019 年四月弄了个大新闻，他们用基于 PPO 的 OpenAI Five 打败了多人游戏 Dota2 的世界冠军。TF-Agents 中有 PPO。
+
+基于好奇探索
+
+*   RL 算法中反复出现的问题是奖励过于稀疏，这使得学习太慢且低效。Deepak Pathak 和其它 UC Berkeley 的研究员提出了解决方法：忽略奖励，让智能体极度好奇地探索环境？奖励变为了智能体的一部分，而不是来自环境。相似的，让孩子变得更好奇，比纯粹的奖励孩子，能取得更好的结果。怎么实现呢？智能体不断地预测动作的结果，并探索结果不匹配预测的环境。换句话说，智能体想得到惊喜。如果结果是可预测的（枯燥），智能体就去其它地方。但是，如果结果不可预测，智能体发现无法控制结果，也会变得无聊。只用好奇心，作者成功地训练智能体玩电子游戏：即使智能体失败不会受惩罚，游戏也会结束，智能体是玩腻了。
+
+这一章学习了许多主题：策略梯度、马尔科夫链、马尔科夫决策过程、Q 学习、近似 Q 学习、深度 Q 学习及其变体（固定 Q 值目标、双 DQN、决斗 DQN、优先经验接力）。还讨论了如何使用 TF-Agents 训练智能体，最后浏览了一些流行的算法。强化学习是一个庞大且令人兴奋的领域，每天都有新主意和新算法冒出来，希望这章能激发你的好奇心！
+
+## 练习
+
+1.  如何定义强化学习？它与传统的监督和非监督学习有什么不同？
+
+2.  你能想到什么本章没有提到过的强化学习的应用？环境是什么？智能体是什么？什么是可能的动作，什么是奖励？
+
+3.  什么是衰减率？如果你修改了衰减率那最优策略会变化吗？
+
+4.  如何测量强化学习智能体的表现？
+
+5.  什么是信用分配问题？它怎么出现的？怎么解决？
+
+6.  使用接力缓存的目的是什么？
+
+7.  什么是 off 策略 RL 算法？
+
+8.  使用策略梯度处理 OpenAI gym 的“LunarLander-v2” 环境。需要安装`Box2D`依赖（`python3 -m pip install gym[box2d]`）。
+
+9.  用任何可行的算法，使用 TF-Agents 训练可以达到人类水平的可以玩 SpaceInvaders-v4 的智能体。
+
+10.  如果你有大约 100 美元备用，你可以购买 Raspberry Pi 3 再加上一些便宜的机器人组件，在 Pi 上安装 TensorFlow，然后让我们嗨起来~！举个例子，看看 Lukas Biewald 的这个[有趣的帖子](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F2)，或者看看 GoPiGo 或 BrickPi。从简单目标开始，比如让机器人转向最亮的角度（如果有光传感器）或最近的物体（如果有声呐传感器），并移动。然后可以使用深度学习：比如，如果机器人有摄像头，可以实现目标检测算法，检测人并向人移动。还可以利用 RL 算法让智能体自己学习使用马达达到目的。
+
+参考答案见附录 A。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/19.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/19.md
new file mode 100644
index 00000000..4b111557
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/19.md
@@ -0,0 +1,1024 @@
+# 十九、规模化训练和部署 TensorFlow 模型
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+
+
+有了能做出惊人预测的模型之后，要做什么呢？当然是部署生产了。这只要用模型运行一批数据就成，可能需要写一个脚本让模型每夜都跑着。但是，现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据，这种情况需要将模型包装成网络服务：这样的话，任何组件都可以通过 REST API 询问模型。随着时间的推移，你需要用新数据重新训练模型，更新生产版本。必须处理好模型版本，平稳地过渡到新版本，碰到问题的话需要回滚，也许要并行运行多个版本做 AB 测试。如果产品很成功，你的服务可能每秒会有大量查询，系统必须提升负载能力。提升负载能力的方法之一，是使用 TF Serving，通过自己的硬件或通过云服务，比如 Google Cloud API 平台。TF Serving 能高效服务化模型，优雅处理模型过渡，等等。如果使用云平台，还能获得其它功能，比如强大的监督工具。
+
+另外，如果有很多训练数据和计算密集型模型，则训练时间可能很长。如果产品需要快速迭代，这么长的训练时间是不可接受的（例如，新闻推荐系统总是推荐上个星期的新闻）。更重要的，过长的训练时间会让你没有时间试验新想法。在机器学习中（其它领域也是），很难提前知道哪个想法有效，所以应该尽量多、尽量快尝试。加速训练的方法之一是使用 GPU 或 TPU。要进一步加快，可以在多个机器上训练，每台机器上都有硬件加速。TensorFlow 的 Distribution Strategies API 可以轻松实现多机训练。
+
+本章我们会介绍如何部署模型，先是 TF Serving，然后是 Google Cloud AI 平台。还会快速浏览如何将模型部署到移动 app、嵌入式设备和网页应用上。最后，会讨论如何用 GPU 加速训练、使用 Distribution Strategies API 做多机训练。
+
+## TensorFlow 模型服务化
+
+训练好 TensorFlow 模型之后，就可以在 Python 代码中使用了：如果是`tf.keras`模型，调用`predict()`模型就成。但随着基础架构扩张，最好是将模型包装在服务中，它的唯一目的是做预测，其它组件查询就成（比如使用 REST 或 gRPC API）。这样就将模型和其它组件解耦，可以方便地切换模型或扩展服务（独立于其它组件），做 AB 测试，确保所有组件都是依赖同一个模型版本。还可以简化测试和开发，等等。可以使用任何技术做微服务（例如，使用 Flask），但有了 TF Serving，为什么还要重复造轮子呢？
+
+### 使用 TensorFlow Serving
+
+TF Serving 是一个非常高效，经过实战检测的模型服务，是用 C++ 写成的。可以支持高负载，服务多个模型版本，并监督模型仓库，自动部署最新版本，等等（见 19-1）。
+
+![](img/2c62e7395f90f017c434eafc7153e6eb.png)
+
+图 19-1 TF Serving 可以服务多个多个模型，并自动部署每个模型的最新版本
+
+假设你已经用`tf.keras`训练了一个 MNIST 模型，要将模型部署到 TF Serving。第一件事是输出模型到 TensorFlow 的 SavedModel 格式。
+
+### 输出 SavedModel
+
+TensorFlow 提供了简便的函数`tf.saved_model.save()`，将模型输出为 SavedModel 格式。只需传入模型，配置名字、版本号，这个函数就能保存模型的计算图和权重：
+
+```py
+model = keras.models.Sequential([...])
+model.compile([...])
+history = model.fit([...])
+
+model_version = "0001"
+model_name = "my_mnist_model"
+model_path = os.path.join(model_name, model_version)
+tf.saved_model.save(model, model_path) 
+```
+
+通常将预处理层包含在最终模型里，这样部署在生产中，就能接收真实数据。这样可以避免在应用中单独做预处理。将预处理和模型绑定，还能防止两者不匹配。
+
+> 警告：因为 SavedModel 保存了计算图，所以只支持基于 TensorFlow 运算的模型，不支持`tf.py_function()`运算（它包装了任意 Python 代码）。也不支持动态`tf.keras`模型（见附录 G），因为这些模型不能转换成计算图。动态模型需要用其它工具（例如，Flask）服务化。
+
+SavedModel 表示了模型版本。它被保存为一个包含`saved_model.pb`文件的目录，它定义了计算图（表示为序列化协议缓存），变量子目录包含了变量值。对于含有大量权重的模型，这些变量值可能分割在多个文件中。SavedModel 还有一个`assets`子目录，包含着其余数据，比如词典文件、类名、一些模型的样本实例。目录结构如下（这个例子中，没有使用`assets`）：
+
+```py
+my_mnist_model
+└── 0001
+    ├── assets
+    ├── saved_model.pb
+    └── variables
+        ├── variables.data-00000-of-00001
+        └── variables.index 
+```
+
+可以使用函数`tf.saved_model.load()`加载 SavedModel。但是，返回的对象不是 Keras 模型：是 SavedModel，包括计算图和变量值。可以像函数一样做预测（输入是张量，还要设置参数`training`，通常设为`False`）：
+
+```py
+saved_model = tf.saved_model.load(model_path)
+y_pred = saved_model(X_new, training=False) 
+```
+
+另外，可以将 SavedModel 的预测函数包装进 Keras 模型：
+
+```py
+inputs = keras.layers.Input(shape=...)
+outputs = saved_model(inputs, training=False)
+model = keras.models.Model(inputs=[inputs], outputs=[outputs])
+y_pred = model.predict(X_new) 
+```
+
+TensorFlow 还有一个命令行工具`saved_model_cli`，用于检查 SavedModel：
+
+```py
+$ export ML_PATH="$HOME/ml" # point to this project, wherever it is
+$ cd $ML_PATH
+$ saved_model_cli show --dir my_mnist_model/0001 --all
+MetaGraphDef with tag-set: 'serve' contains the following SignatureDefs:
+signature_def['__saved_model_init_op']:
+  [...]
+
+signature_def['serving_default']:
+  The given SavedModel SignatureDef contains the following input(s):
+    inputs['flatten_input'] tensor_info:
+        dtype: DT_FLOAT
+        shape: (-1, 28, 28)
+        name: serving_default_flatten_input:0
+  The given SavedModel SignatureDef contains the following output(s):
+    outputs['dense_1'] tensor_info:
+        dtype: DT_FLOAT
+        shape: (-1, 10)
+        name: StatefulPartitionedCall:0
+  Method name is: tensorflow/serving/predict 
+```
+
+SavedModel 包含一个或多个元图。元图是计算图加上了函数签名定义（包括输入、输出名，类型和形状）。每个元图可以用一组标签做标识。例如，可以用一个元图包含所有的计算图，包括训练运算（例如，这个元图的标签是`"train"`）。但是，当你将`tf.keras`模型传给函数`tf.saved_model.save()`，默认存储的是一个简化的 SavedModel：保存一个元图，标签是`"serve"`，包含两个签名定义，一个初始化函数（`__saved_model_init_op`）和一个默认的服务函数（`serving_default`）。保存`tf.keras`模型时，默认服务函数对应模型的`call()`函数。
+
+`saved_model_cli`也可以用来做预测（用于测试，不是生产）。假设有一个 NumPy 数组（`X_new`），包含三张用于预测的手写数字图片。首先将其输出为 NumPy 的`npy`格式：
+
+```py
+np.save("my_mnist_tests.npy", X_new) 
+```
+
+然后，如下使用`saved_model_cli`命令：
+
+```py
+$ saved_model_cli run --dir my_mnist_model/0001 --tag_set serve \
+                      --signature_def serving_default \
+                      --inputs flatten_input=my_mnist_tests.npy
+[...] Result for output key dense_1:
+[[1.1739199e-04 1.1239604e-07 6.0210604e-04 [...] 3.9471846e-04]
+ [1.2294615e-03 2.9207937e-05 9.8599273e-01 [...] 1.1113169e-07]
+ [6.4066830e-05 9.6359509e-01 9.0598064e-03 [...] 4.2495009e-04]] 
+```
+
+输出包含 3 个实例的 10 个类的概率。现在有了可以工作的 SavedModel，下一步是安装 TF Serving。
+
+### 安装 TensorFlow Serving
+
+有多种方式安装 TF Serving：使用 Docker 镜像、使用系统的包管理器、从源代码安装，等等。我们使用 Docker 安装的方法，这是 TensorFlow 团队高度推荐的方法，不仅安装容易，不会扰乱系统，性能也很好。需要先安装 Docker。然后下载官方 TF Serving 的 Docker 镜像：
+
+```py
+$ docker pull tensorflow/serving 
+```
+
+创建一个 Docker 容器运行镜像：
+
+```py
+$ docker run -it --rm -p 8500:8500 -p 8501:8501 \
+             -v "$ML_PATH/my_mnist_model:/models/my_mnist_model" \
+             -e MODEL_NAME=my_mnist_model \
+             tensorflow/serving
+[...]
+2019-06-01 [...] loaded servable version {name: my_mnist_model version: 1}
+2019-06-01 [...] Running gRPC ModelServer at 0.0.0.0:8500 ...
+2019-06-01 [...] Exporting HTTP/REST API at:localhost:8501 ...
+[evhttp_server.cc : 237] RAW: Entering the event loop ... 
+```
+
+这样，TF Serving 就运行起来了。它加载了 MNIST 模型（版本 1），通过 gRPC（端口 8500）和 REST（端口 8501）运行。下面是命令行选项的含义：
+
+`-it`
+
+使容器可交互（`Ctrl-C`关闭），展示服务器的输出。
+
+`--rm`
+
+停止时删除容器。但不删除镜像。
+
+`-p 8500:8500`
+
+将 Docker 引擎将主机的 TCP 端口 8500 转发到容器的 TCP 端口 8500。默认时，TF Serving 使用这个端口服务 gRPC API。
+
+`-p 8501:8501`
+
+将 Docker 引擎将主机的 TCP 端口 8501 转发到容器的 TCP 端口 8501。默认时，TF Serving 使用这个端口服务 REST API。
+
+`-v "$ML_PATH/my_mnist_model:/models/my_mnist_model"`
+
+使主机的`$ML_PATH/my_mnist_model`路径对容器的路径`/models/mnist_model`开放。在 Windows 上，可能需要将`/`替换为`\`。
+
+`-e MODEL_NAME=my_mnist_model`
+
+将容器的`MODEL_NAME`环境变量，让 TF Serving 知道要服务哪个模型。默认时，它会在路径`/models`查询，并会自动服务最新版本。
+
+`tensorflow/serving`
+
+镜像名。
+
+现在回到 Python 查询服务，先使用 REST API，然后使用 gRPC API。
+
+### 用 REST API 查询 TF Serving
+
+先创建查询。必须包含想要调用的函数签名的名字，和输入数据：
+
+```py
+import json
+
+input_data_json = json.dumps({
+    "signature_name": "serving_default",
+    "instances": X_new.tolist(),
+}) 
+```
+
+注意，json 格式是 100% 基于文本的，因此`X_new`NumPy 数组要转换为 Python 列表，然后 json 格式化：
+
+```py
+>>> input_data_json
+'{"signature_name": "serving_default", "instances": [[[0.0, 0.0, 0.0, [...]
+0.3294117647058824, 0.725490196078431, [...very long], 0.0, 0.0, 0.0, 0.0]]]}' 
+```
+
+通过发送 HTTP POST 请求，将数据发送给 TF Serving。使用`requests`就成：
+
+```py
+import requests
+
+SERVER_URL = 'http://localhost:8501/v1/models/my_mnist_model:predict'
+response = requests.post(SERVER_URL, data=input_data_json)
+response.raise_for_status() # raise an exception in case of error
+response = response.json() 
+```
+
+响应是一个字典，唯一的键是`"predictions"`，它对应的值是预测列表。这是一个 Python 列表，将其转换为 NumPy 数组，小数点保留两位：
+
+```py
+>>> y_proba = np.array(response["predictions"])
+>>> y_proba.round(2)
+array([[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 1\.  , 0\.  , 0\.  ],
+       [0\.  , 0\.  , 0.99, 0.01, 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  ],
+       [0\.  , 0.96, 0.01, 0\.  , 0\.  , 0\.  , 0\.  , 0.01, 0.01, 0\.  ]]) 
+```
+
+现在就有预测了。模型 100% 肯定第一张图是类 7，99% 肯定第二张图是类 2，96% 肯定第三章图是类 1。
+
+REST API 既优雅又简单，当输入输出数据不大时，可以工作的很好。另外，客户端无需其它依赖就能做 REST 请求，其它协议不一定成。但是，REST 是基于 JSON 的，JSON 又是基于文本的，很冗长。例如，必须将 NumPy 数组转换为 Python 列表，每个浮点数都转换成了字符串。这样效率很低，序列化/反序列化很费时，负载大小也高：浮点数要表示为 15 个字符，32 位浮点数要超过 120 比特。这样在传输大 NumPy 数组时，会造成高延迟和高带宽消耗。所以转而使用 gRPC。
+
+> 提示：当传输大量数据时，（如果客户端支持）最好使用 gRPC API，因为它是基于压缩二进制格式和高效通信协议（基于 HTTP/2 框架）。
+
+### 用 gRPC API 查询 TF Serving
+
+gRPC API 的输入是序列化的`PredictRequest`协议缓存，输出是序列化的`PredictResponse`协议缓存。这些协议缓存是`tensorflow-serving-api`库的一部分（通过 PIP 安装）。首先，创建请求：
+
+```py
+from tensorflow_serving.apis.predict_pb2 import PredictRequest
+
+request = PredictRequest()
+request.model_spec.name = model_name
+request.model_spec.signature_name = "serving_default"
+input_name = model.input_names[0]
+request.inputs[input_name].CopyFrom(tf.make_tensor_proto(X_new)) 
+```
+
+这段代码创建了`PredictRequest`协议缓存，填充了需求字段，包括模型名（之前定义的），想要调用的函数签名，最后是输入数据，形式是`Tensor`协议缓存。`tf.make_tensor_proto()`函数创建了一个基于给定张量或 NumPy 数组（`X_new`）的`Tensor`协议缓存。接着，向服务器发送请求，得到响应（需要用 PIP 安装`grpcio`库）：
+
+```py
+import grpc
+from tensorflow_serving.apis import prediction_service_pb2_grpc
+
+channel = grpc.insecure_channel('localhost:8500')
+predict_service = prediction_service_pb2_grpc.PredictionServiceStub(channel)
+response = predict_service.Predict(request, timeout=10.0) 
+```
+
+这段代码很简单：引入包之后，创建一个 gRPC 通信通道，主机是`localhost`，端口是 8500，然后用这个通道创建 gRPC 服务，并发送请求，超时时间是 10 秒（因为是同步的，收到响应前是阻塞的）。在这个例子中，通道是不安全的（没有加密和认证），但 gRPC 和 TensorFlow Serving 也支持 SSL/TLS 安全通道。
+
+然后，将`PredictResponse`协议缓存转换为张量：
+
+```py
+output_name = model.output_names[0]
+outputs_proto = response.outputs[output_name]
+y_proba = tf.make_ndarray(outputs_proto) 
+```
+
+如果运行这段代码，打印`y_proba.numpy().round(2)`。会得到和之前完全相同的结果。
+
+### 部署新模型版本
+
+现在创建一个新版本模型，将 SavedModel 输出到路径`my_mnist_model/0002`：
+
+```py
+model = keras.models.Sequential([...])
+model.compile([...])
+history = model.fit([...])
+
+model_version = "0002"
+model_name = "my_mnist_model"
+model_path = os.path.join(model_name, model_version)
+tf.saved_model.save(model, model_path) 
+```
+
+每隔一段时间（可配置），TensorFlow Serving 会检查新的模型版本。如果找到新版本，会自动过渡：默认的，会用上一个模型回复挂起的请求，用新版本模型处理新请求。挂起请求都答复后，前一模型版本就不加载了。可以在 TensorFlow 日志中查看：
+
+```py
+[...]
+reserved resources to load servable {name: my_mnist_model version: 2}
+[...]
+Reading SavedModel from: /models/my_mnist_model/0002
+Reading meta graph with tags { serve }
+Successfully loaded servable version {name: my_mnist_model version: 2}
+Quiescing servable version {name: my_mnist_model version: 1}
+Done quiescing servable version {name: my_mnist_model version: 1}
+Unloading servable version {name: my_mnist_model version: 1} 
+```
+
+这个方法提供了平滑的过渡，但会使用很多内存（尤其是 GPU 内存，这是最大的限制）。在这个例子中，可以配置 TF Serving，用前一模型版本处理所有挂起的请求，再加载使用新模型版本。这样配置可以防止在同一时刻加载，但会中断服务一小段时间。
+
+可以看到，TF Serving 使部署新模型变得很简单。另外，如果发现版本 2 效果不如预期，只要删除路径`my_mnist_model/0002 directory`就能滚回到版本 1。
+
+> 提示：TF Serving 的另一个功能是自动批次化，要使用的话，可以在启动时使用选项`--enable_batching`。当 TF Serving 在短时间内收到多个请求时（延迟是可配置的），可以自动做批次化，然后再使用模型。这样能利用 GPU 提升性能。模型返回预测之后，TF Serving 会将每个预测返回给正确的客户端。通过提高批次延迟（见选项`--batching_parameters_file`），可以获得更高的吞吐量。
+
+如果每秒想做尽量多的查询，可以将 TF Serving 部署在多个服务器上，并对查询做负载均衡（见图 19-2）。这需要将 TF Serving 容器部署在多个服务器上。一种方法是使用 Kubernetes，这是一个开源工具，用于在多个服务器上做容器编排。如果你不想购买、维护、升级所有机器，可以使用云平台比如亚马逊 AWS、Microsoft Azure、Google Cloud Platform、IBM 云、阿里云、Oracle 云，或其它 Platform-as-a-Service (PaaS)。管理所有虚拟机、做容器编排（就算有 Kubernetes 的帮助），处理 TF Serving 配置、微调和监控，也是件很耗时的工作。幸好，一些服务提供商可以帮你完成所有工作。本章我们会使用 Google Cloud AI Platform，因为它是唯一带有 TPU 的平台，支持 TensorFlow 2，还有其它 AI 服务（比如，AutoML、Vision API、Natural Language API），也是我最熟悉的。也存在其它服务提供商，比如 Amazon AWS SageMaker 和 Microsoft AI Platform，它们也支持 TensorFlow 模型。
+
+![](img/fe737b76bf82eb5257edbe16a3d506f5.png)
+
+图 19-2 用负载均衡提升 TF Serving
+
+现在，在云上部署 MNIST 模型。
+
+### 在 GCP AI 上创建预测服务
+
+在部署模型之前，有一些设置要做：
+
+1.  登录 Google 账户，到 [Google Cloud Platform (GCP) 控制台](https://links.jianshu.com/go?to=https%3A%2F%2Fconsole.cloud.google.com%2F)（见图 19-3）。如果没有 Google 账户，需要创建一个。
+
+![](img/289ad9d96b86532ba1a64dcf12c28f33.png)
+
+图 19-3 Google Cloud Platform 控制台
+
+2.  如果是第一次使用 GCP，需要阅读、同意条款。写作本书时，新用户可以免费试用，包括价值 300 美元的 GCP 点数，可以使用 12 个月。本章只需一点点 GCP 点数就够。选择试用之后，需要创建支付信息，需要输入信用卡账号：这只是为了验证（避免人们薅羊毛），不必支付。根据需求，激活升级账户。
+
+3.  如果不能用试用账户，就得掏钱了 T_T。
+
+4.  GCP 中的每个资源都属于一个项目。包括所有的虚拟机，存储的文件，和运行的训练任务。创建账户时，GCP 会自动给你创建一个项目，名字是`My First Project`。可以在项目设置改名。在导航栏选择`IAM & admin → Settings`，改名，然后保存。项目有一个唯一 ID 和数字。创建项目时，可以选择项目 ID，选好 ID 后后面就不能修改了。项目数字是自动生成的，不能修改。如果你想创建一个新项目，点击`New Project`，输入项目 ID。
+
+> 警告：不用时一定注意关掉所有服务，否则跑几天或几个月，可能花费巨大。
+
+5.  有了 GCP 账户和支付信息之后，就可以使用服务了。首先需要的 Google Cloud Storage (GCS)：用来存储 SavedModels，训练数据，等等。在导航栏，选择`Storage → Browser`。所有的文件会存入一个或多个 bucket 中。点击`Create Bucket`，选择 bucket 名（可能需要先激活 Storage API）。GCS 对 bucket 使用了单一全局的命名空间，所以像`machine-learning`这样的名字，可能用不了。确保 bucket 名符合 DNS 命名规则，因为 bucket 名会用到 DNS 记录中。另外，bucket 名是公开的，不要放私人信息。通常用域名或公司名作为前缀，保证唯一性，或使用随机数字作为名字。选择存放 bucket 的地方，其它选项用默认就行。然后点击`Create`。
+
+6.  上传之前创建的`my_mnist_model`（包括一个或多个版本）到 bucket 中。要这么做，在 GCS Browser，点击 bucket，拖动`my_mnist_model`文件夹到 bucket 中（见图 19-4）。另外，可以点击`Upload folder`，选在要上传的`my_mnist_model`文件夹。默认时，SavedModel 最大是 250MB，可以请求更大的值。
+
+![](img/f6a5a9fd4fc924ba834057120eaa930b.png)
+
+图 19-4 上传 SavedModel 到 Google Cloud Storage
+
+7.  配置 AI Platform（以前的名字是 ML Engine），让 AI Platform 知道要使用哪个模型和版本。在导航栏，下滚到`Artificial Intelligence`，点击`AI Platform → Models`。点击`Activate API`（可能需要几分钟），然后点击`Create model`。填写模型细节说明（见图 19-5），点击创建。
+
+![](img/e0eb54c5b8f1e5d4478563c7ca16099b.png)
+
+图 19-5 在 Google Cloud AI Platform 创建新模型
+
+8.  AI Platform 有了模型，需要创建模型版本。在模型列表中，点击创建的模型，然后点击`Create version`，填入版本细节说明（见图 19-6）：设置名字，说明，Python 版本（3.5 或以上），框架（TensorFlow），框架版本（2.0，或 1.13），ML 运行时版本（2.0，或 1.13），机器类型（选择`Single core CPU`），模型的 GCS 路径（真实版本文件夹的完整路径，比如，`gs://my-mnist-model-bucket/my_mnist_model/0002/`），扩展（选择`automatic`），TF Serving 容器的最小运行数（留空就成）。然后点击`Save`。
+
+![](img/1145c6341af02f3b465328cb61cd5a0e.png)
+
+图 19-6 在 Google Cloud AI Platform 上创建一个新模型版本
+
+恭喜，这样就将第一个模型部署在云上了。因为选择的是自动扩展，当每秒查询数上升时，AI Platform 会启动更多 TF Serving 容器，并会对查询做负载均衡。如果 QPS 下降，就会关闭容器。所以花费直接和 QPS 关联（还和选择的机器类型和存储在 GCS 的数据量有关）。这个定价机制特别适合偶尔使用的用户，有使用波峰的服务，也适合初创企业。
+
+> 笔记：如果不使用预测服务，AI Platform 会停止所有容器。这意味着，只用支付存储费用就成（每月每 GB 几美分）。当查询服务时，AI Platform 会启动 TF Serving 容器，启动需要几秒钟。如果延迟太长，可以将最小容器数设为 1。当然，这样花费会高。
+
+现在查询预测服务。
+
+### 使用预测服务
+
+在底层，AI Platform 就是运行 TF Serving，所以原理上，如果知道要查询的 url，可以使用之前的代码。就是有一个问题：GCP 还负责加密和认证。加密是基于 SSL/TLS，认证是基于标记：每次请求必须向服务端发送秘密认证。所以在代码使用预测服务（或其它 GCP 服务）之前，必需要有标记。后面会讲如果获取标记，首先配置认证，使应用获得 GCP 的响应访问权限。有两种认证方法：
+
+*   应用（即，客户端）可以用 Google 登录和密码信息做认证。使用密码，可以让应用获得 GCP 的同等权限。另外，不能将密码部署在应用中，否则会被盗。总之，不要选择这种方法，它只使用极少场合（例如，当应用需要访问用户的 GCP 账户）。
+
+*   客户端代码可以用 service account 验证。这个账户代表一个应用，不是用户。权限十分有限。推荐这种方法。
+
+因此，给应用创建一个服务账户：在导航栏，逐次`IAM & admin → Service accounts`，点击`Create Service Account`，填表（服务账户名、ID、描述），点击创建（见图 19-7）。然后，给这个账户一些访问权限。选择`ML Engine Developer`角色：这可以让服务账户做预测，没其它另外权限。或者，可以给服务账户添加用户访问权限（当 GCP 用户属于组织时很常用，可以让组织内的其它用户部署基于服务账户的应用，或者管理服务账户）、接着，点击`Create Key`，输出私钥，选择 JSON，点击`Create`。这样就能下载 JSON 格式的私钥了。
+
+![](img/27332848891cb6442e06930ef97c2773.png)
+
+图 19-7 在 Google IAM 中创建一个新的服务账户
+
+现在写一个小脚本来查询预测服务。Google 提供了几个库，用于简化服务访问：
+
+Google API Client Library
+
+*   基于 [*OAuth 2.0*](https://links.jianshu.com/go?to=https%3A%2F%2Foauth.net%2F) 和 REST。可以使用所有 GCP 服务，包括 AI Platform。可以用 PIP 安装：库名叫做`google-api-python-client`。
+
+Google Cloud Client Libraries
+
+*   稍高级的库：每个负责一个特别的服务，比如 GCS、Google BigQuery、Google Cloud Natural Language、Google Cloud Vision。所有这些库都可以用 PIP 安装（比如，GCS 客户端库是`google-cloud-storage`）。如果有可用的客户端库，最好不用 Google API 客户端，因为前者性能更好。
+
+在写作本书的时候，AI Platform 还没有客户端库，所以我们使用 Google API 客户端库。这需要使用服务账户的私钥；设定`GOOGLE_APPLICATION_CREDENTIALS`环境参数就成，可以在启动脚本之前，或在如下的脚本中：
+
+```py
+import os
+
+os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "my_service_account_key.json" 
+```
+
+> 笔记：如果将应用部署到 Google Cloud Engine (GCE)的虚拟机上，或 Google Cloud Kubernetes Engine 的容器中，或 Google Cloud App Engine 的网页应用上，或者 Google Cloud Functions 的微服务，如果没有设置`GOOGLE_APPLICATION_CREDENTIALS`环境参数，会使用默认的服务账户（比如，如果在 GCE 上运行应用，就用默认 GCE 服务账户）。
+
+然后，必须创建一个包装了预测服务访问的资源对象：
+
+```py
+import googleapiclient.discovery
+
+project_id = "onyx-smoke-242003" # change this to your project ID
+model_id = "my_mnist_model"
+model_path = "projects/{}/models/{}".format(project_id, model_id)
+ml_resource = googleapiclient.discovery.build("ml", "v1").projects() 
+```
+
+可以将`/versions/0001`（或其它版本号），追加到`model_path`，指定想要查询的版本：这么做可以用来 A/B 测试，或在推广前在小范围用户做试验。然后，写一个小函数，使用资源对象调用预测服务，获取预测结果：
+
+```py
+def predict(X):
+    input_data_json = {"signature_name": "serving_default",
+                       "instances": X.tolist()}
+    request = ml_resource.predict(name=model_path, body=input_data_json)
+    response = request.execute()
+    if "error" in response:
+        raise RuntimeError(response["error"])
+    return np.array([pred[output_name] for pred in response["predictions"]]) 
+```
+
+这个函数接收包含图片的 NumPy 数组，然后准备成字典，客户端库再将其转换为 JSON 格式。然后准备预测请求，并执行；如果响应有错误，就抛出异常；没有错误的话，就提取出每个实例的预测结果，绑定成 NumPy 数组。如下：
+
+```py
+>>> Y_probas = predict(X_new)
+>>> np.round(Y_probas, 2)
+array([[0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 1\.  , 0\.  , 0\.  ],
+       [0\.  , 0\.  , 0.99, 0.01, 0\.  , 0\.  , 0\.  , 0\.  , 0\.  , 0\.  ],
+       [0\.  , 0.96, 0.01, 0\.  , 0\.  , 0\.  , 0\.  , 0.01, 0.01, 0\.  ]]) 
+```
+
+现在，就在云上部署好预测服务了，可以根据 QPS 自动扩展，可以从任何地方安全访问。另外，如果不使用的话，就基本不产生费用：只要每月对每个 GB 支付几美分。可以用 [Google Stackdriver](https://links.jianshu.com/go?to=https%3A%2F%2Fcloud.google.com%2Fstackdriver%2F) 获得详细日志。
+
+如果将模型部署到移动 app，或嵌入式设备，该怎么做呢？
+
+## 将模型嵌入到移动或嵌入式设备
+
+如果需要将模型部署到移动或嵌入式设备上，大模型的下载时间太长，占用内存和 CPU 太多，这会是 app 响应太慢，设备发热，消耗电量。要避免这种情况，要使用对移动设备友好、轻量、高效的模型，但又不牺牲太多准确度。[TFLite](https://links.jianshu.com/go?to=https%3A%2F%2Ftensorflow.org%2Flite) 库提供了一些部署到移动设备和嵌入式设备的 app 的工具，有三个主要目标：
+
+*   减小模型大小，缩短下载时间，降低占用内存。
+
+*   降低每次预测的计算量，减少延迟、电量消耗和发热。
+
+*   针对设备具体限制调整模型。
+
+要降低模型大小，TFLite 的模型转换器可以将 SavedModel 转换为基于 [FlatBuffers](https://links.jianshu.com/go?to=https%3A%2F%2Fgoogle.github.io%2Fflatbuffers%2F) 的轻量格式。这是一种高效的跨平台序列化库（有点类似协议缓存），最初是 Google 开发用于游戏的。FlatBuffers 可以直接加载进内存，无需预处理：这样可以减少加载时间和内存占用。一旦模型加载到了移动或嵌入设备上，TFLite 解释器会执行它并做预测。下面的代码将 SavedModel 转换成了 FlatBuffer，并存为了`.tflite`文件：
+
+```py
+converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_path)
+tflite_model = converter.convert()
+with open("converted_model.tflite", "wb") as f:
+    f.write(tflite_model) 
+```
+
+> 提示：还可以使用`from_keras_model()`将`tf.keras`模型直接转变为 FlatBuffer。
+
+转换器还优化了模型，做了压缩，降低了延迟。删减了所有预测用不到的运算（比如训练运算），并优化了可能的计算；例如，`3×a + 4×a + 5×a`被压缩为`(3 + 4 + 5)×a`。还将可能的运算融合。例如，批归一化作为加法和乘法融合到了前一层。要想知道 TFLite 能优化到什么程度，下载[一个预训练 TFLite 模型](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Flitemodels)，解压缩，然后打开 [Netron 图可视化工具](https://links.jianshu.com/go?to=https%3A%2F%2Flutzroeder.github.io%2Fnetron%2F)，然后上传`.pb`文件，查看原始模型。这是一个庞大复杂的图。接着，打开优化过的`.tflite`模型，并查看。
+
+另一种减小模型的（不是使用更小的神经网络架构）方法是使用更小的位宽（bit-width）：例如，如果使用半浮点（16 位），而不是常规浮点（32 位），模型大小就能减小到一半，准确率会下降一点。另外，训练会更快，GPU 内存使用只有一半。
+
+TFLite 的转换器可以做的更好，可以将模型的权重量化变为小数点固定的 8 位整数。相比为 32 位浮点数，可以将模型大小减为四分之一。最简单的方法是后训练量化：在训练之后做量化，使用对称量化方法。找到最大绝对权重值，m，然后将浮点范围`-m`到`+m`固定到固定浮点（整数）范围 -127 到 127。例如（见图 19-8），如果权重范围是 -1.5 到 +0.8，则字节-127、0.0、+127 对应的是 -1.5、0、+1.5。使用对称量化时，0.0 总是映射到 0（另外，字节值 +68 到 +127 不会使用，因为超过了最大对应的浮点数 +0.8）。
+
+![](img/b4d7204c8951f031bb07881b68cd5d69.png)
+
+图 19-8 从 32 位浮点数到 8 位整数，使用对称量化
+
+要使用后训练量化，只要在调用`convert()`前，将`OPTIMIZE_FOR_SIZE`添加到转换器优化的列表中：
+
+```py
+converter.optimizations = [tf.lite.Optimize.OPTIMIZE_FOR_SIZE] 
+```
+
+这种方法可以极大地减小模型，下载和存储更快。但是，运行时量化过的权重会转换为浮点数（复原的浮点数与原始的不同，但偏差不大）。为了避免总是重新计算，缓存复原的浮点数，所以并没有减少内存使用。计算速度没有降低。
+
+降低延迟和能量消耗的最高效的方法也是量化激活函数，让计算只用整数进行，没有浮点数运算。就算使用相同的位宽（例如，32 位整数，而不是 32 位浮点数），整数使用更少的 CPU 循环，耗能更少，热量更低。如果你还降低了位宽（例如，降到 8 位整数），速度提升会更多。另外，一些神经网络加速设备（比如边缘 TPU），只能处理整数，因此全量化权重和激活函数是必须的。后训练处理就成；需要校准步骤找到激活的最大绝对值，所以需要给 TFLite 提供一个训练样本，模型就能处理数据，并测量量化需要的激活数据（这一步很快）。
+
+量化最主要的问题是准确率的损失：等同于给权重和激活添加了噪音。如果准确率下降太多，则需要使用*伪量化*。这意味着，给模型添加假量化运算，使模型忽略训练中的量化噪音；最终的权重会对量化更鲁棒。另外，校准步骤可以在训练中自动进行，可以简化整个过程。
+
+解释过了 TFLite 的核心概念，但要真正给移动 app 或嵌入式程序写代码需要另外一本书。幸好，可以看这本书[《TinyML: Machine Learning with TensorFlow on Arduino and Ultra-Low Power Micro-Controllers》](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Ftinyml)，作者是 Pete Warden，他是 TFLite 团队 leader，另一位作者是 Daniel Situnayake。
+
+> 浏览器中的 TensorFlow
+> 如果想在网站中使用模型，让用户直接在浏览器中使用，该怎么做呢？使用场景很多，如下：
+> 
+> *   用户连接是间断或缓慢的，所以在客户端一侧直接运行模型，可以让网站更可靠。
+> *   如果想最快的获得响应（比如，在线游戏）。在客户端做查询肯定能降低延迟，使网站响应更快。
+> *   当网站服务是基于一些用户隐私数据时，在客户端做预测可以使用户数据不出用户机器，可以保护隐私。
+> 
+> 对于所有这些情况，可以将模型输出为特殊格式，用 [TensorFlow.js js 库](https://links.jianshu.com/go?to=https%3A%2F%2Ftensorflow.org%2Fjs)来加载。这个库可以用模型直接在用户的浏览器运行。TensorFlow.js 项目包括工具`tensorflowjs_converter`，它可以将 SavedModel 或 Keras 模型文件转换为 TensorFlow.js Layers 格式：这是一个路径包含了一组二进制格式的共享权重文件，和文件`model.json`，它描述了模型架构和稳重文件的链接。这个格式经过优化，可以快速在网页上下载。用户可以用 TensorFlow.js 库下载模型并做预测。下面的代码片段是个例子：
+> 
+> ```py
+> import * as tf from '@tensorflow/tfjs';
+> const model = await tf.loadLayersModel('https://example.com/tfjs/model.json');
+> const image = tf.fromPixels(webcamElement);
+> const prediction = model.predict(image); 
+> ```
+> 
+> TensorFlow.js 也是需要一本书来讲解。可以参考[《Practical Deep Learning for Cloud, Mobile, and Edge》](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Ftfjsbook)
+
+接下来，来学习使用 GPU 加速计算。
+
+## 使用 GPU 加速计算
+
+第 11 章，我们讨论了几种可以提高训练速度的方法：更好的权重初始化、批归一化、优化器，等等。但即使用了这些方法，在单机上用单 CPU 训练庞大的神经网络，仍需要几天甚至几周。
+
+本节，我们会使用 GPU 加速训练，还会学习如何将计算分布在多台设备上，包括 CPU 和多 GPU 设备（见图 19-9）。本章后面还会讨论在多台服务器做分布式计算。
+
+![](img/d266d195275e029dad1b4eac72a5c0a8.png)
+
+图 19-9 在多台设备上并行执行 TensorFlow 计算图
+
+有了 GPU，可以将几天几周的训练，减少到几分钟或几小时。这样不仅能节省大量时间，还可以试验更多模型，用新数据重新训练模型。
+
+> 提示：给电脑加上一块 GPU 显卡，通常可以提升性能。事实上，对于大多数情况，这样就足够了：根本不需要多台机器。例如，因为网络通信延迟，单台机器加 GPU 比多台机器加八块 GPU 同样快。相似的，使用一块强大的 GPU 通常比极快性能一般的 GPU 要强。
+
+首先，就是弄一块 GPU。有两种方法：要么自己买一块 GPU，或者使用装有 GPU 的云虚拟机。我们使用第一种方法。
+
+### 买 GPU
+
+如果想买一快 GPU 显卡，最好花点时间研究下。Tim Dettmers 写了一篇[博客](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F66)帮你选择，并且他经常更新：建议仔细读读。写作本书时，TensorFlow 只支持 [Nvidia 显卡，且 CUDA 3.5+](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fcudagpus)（也支持 Google TPU），后面可能会支持更多厂家。另外，尽管 TCP 现在只在 GCP 上可用，以后可能会开售 TPU 卡。总之，查阅 TensorFlow 文档查看支持什么设备。
+
+如果买了 Nvidia 显卡，需要安装驱动和库。包括 CUDA 库，可以让开发者使用支持 CUDA 的 GPU 做各种运算（不仅是图形加速），还有 CUDA 深度神经网络库（cuDNN），一个 GPU 加速库。cuDNN 提供了常见 DNN 计算的优化实现，比如激活层、归一化、前向和反向卷积、池化。它是 Nvidia 的深度学习 SDK 的一部分（要创建 Nvidia 开发者账户才能下载）。TensorFlow 使用 CUDA 和 cuDNN 控制 GPU 加速计算（见图 19-10）。
+
+![](img/513e35a4ee953fb3b03862206bce16fb.png)
+
+图 19-10 TensorFlow 使用 CUDA 和 cuDNN 控制 GPU，加速 DNN
+
+安装好 GPU 和需要的库之后，可以使用`nvidia-smi`命令检测 CUDA 是否正确安装好，和每块卡的运行：
+
+```py
+$ nvidia-smi
+Sun Jun  2 10:05:22 2019
++-----------------------------------------------------------------------------+
+| NVIDIA-SMI 418.67       Driver Version: 410.79       CUDA Version: 10.0     |
+|-------------------------------+----------------------+----------------------+
+| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
+| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
+|===============================+======================+======================|
+|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
+| N/A   61C    P8    17W /  70W |      0MiB / 15079MiB |      0%      Default |
++-------------------------------+----------------------+----------------------+
+
++-----------------------------------------------------------------------------+
+| Processes:                                                       GPU Memory |
+|  GPU       PID   Type   Process name                             Usage      |
+|=============================================================================|
+|  No running processes found                                                 |
++-----------------------------------------------------------------------------+ 
+```
+
+写作本书时，你还需要安装 GPU 版本的 TensorFlow（即，`tensorflow-gpu`库）；但是，趋势是将 CPU 版本和 GPU 版本合二为一，所以记得查看文档。因为安装每个库又长又容易出错，TensorFlow 还提供了一个 Docker 镜像，里面都装好了。但是为了让 Docker 容器能访问 GPU，还需要在主机上安装 Nvidia 驱动。
+
+要检测 TensorFlow 是否连接 GPU，如下检测：
+
+```py
+>>> import tensorflow as tf
+>>> tf.test.is_gpu_available()
+True
+>>> tf.test.gpu_device_name()
+'/device:GPU:0'
+>>> tf.config.experimental.list_physical_devices(device_type='GPU')
+[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')] 
+```
+
+`is_gpu_available()`检测是否有可用的 GPU。函数`gpu_device_name()`给了第一个 GPU 名字：默认时，运算就运行在这块 GPU 上。函数`list_physical_devices()`返回了可用 GPU 设备的列表（这个例子中只有一个）。
+
+现在，如果你不想花费时间和钱在 GPU 上，就使用云上的 GPU VM。
+
+### 使用带有 GPU 的虚拟机
+
+所有主流的云平台都提供 GPU 虚拟机，一些预先配置了驱动和库（包括 TensorFlow）。Google Cloud Platform 使用了各种 GPU 额度：没有 Google 认证，不能创建 GPU 虚拟机。默认时，GPU 额度是 0，所以使用不了 GPU 虚拟机。因此，第一件事是请求更高的额度。在 GCP 控制台，在导航栏`IAM & admin → Quotas`。点击`Metric`。点击`None`，解锁所有地点，然后搜索 GPU，选择 GPU（所有区域），查看对应的额度。如果额度是 0（或额度不足），则查看旁边的框，点击`Edit quotas`。填入需求的信息，点击`Submit request`。可能需要几个小时（活几天），额度请求才能被处理。默认时，每个区域每种 GPU 类型有 GPU 的额度。可以请求提高这些额度：点击`Metric`，选择`None`，解锁所有指标，搜索 GPU，选择想要的 GPU 类型（比如，NVIDIA P4 GPUs）。然后点击`Location`，点击`None`解锁所有指标，点击想要的地点；选择相邻的框，点击`Edit quotas`，发出请求。
+
+GPU 额度请求通过后，就可以使用 Google Cloud AI Platform 的深度学习虚拟机镜像创建带有 GPU 的虚拟机了：到[这里](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fdlvm)，点击`View Console`，然后点击`Launch on Compute Engine`，填写虚拟机配置表。注意一些地区没有全类型的 GPU，一些地区则没有 GPU（改变地区查看）。框架一定要选 TensorFlow 2.0，并要勾选`Install NVIDIA GPU driver automatically on first startup`。最好勾选`Enable access to JupyterLab via URL instead of SSH`：这可以在 GPU VM 上运行 Jupyter 笔记本。创建好 VM 之后，下滑导航栏到`Artificial Intelligence`，点击`AI Platform → Notebooks`。笔记本实例出现在列表中（可能需要几分钟，点击`Refresh`刷新），点击链接`Open JupyterLab`。这样就能再 VM 上打开 JupyterLab，并连接浏览器了。你可以在 VM 上创建笔记本，运行任意代码，并享受 GPU 加速。
+
+如果你想快速测试或与同事分享笔记本，最好使用 Colaboratory。
+
+### Colaboratory
+
+使用 GPU VM 最简单便宜的方法是使用 Colaboratory（或 Colab）。它是免费的，在[这个页面](https://links.jianshu.com/go?to=https%3A%2F%2Fcolab.research.google.com%2F)上创建 Python 3 笔记本就成：这会在 Google Drive 上创建一个 Jupyter 笔记本（或者打开 GitHub、Google Drive 上的笔记本，或上传自己的笔记本）。Colab 的用户界面和 Jupyter 笔记本很像，除了还能像普通 Google 文档一样分享，还有一些其它细微差别（比如，通过代码加特殊注释，你可以创建的方便小工具）。
+
+当你打开 Colab 笔记本，它是在一个免费的 Google VM 上运行，被称为 Colab Runtime。Runtime 默认是只有 CPU 的，但可以到`Runtime → Change runtime type`，在`Hardware accelerator`下拉栏选取 GPU，然后点击保存。事实上，你还可以选取 TPU（没错，可以免费试用 TPU）。
+
+如果用同一个 Runtime 类型运行多个 Colab 笔记本（见图 19-11），笔记本会使用相同的 Colab Runtime。如果一个笔记本写入了文件，其它笔记本就能读取这个文件。如果运行黑客的文件，可能读取隐私数据。密码也会泄露给黑客。另外，如果你在 Colab Runtime 安装一个库，其它笔记本也会有这个库。缺点是库的版本必须相同。
+
+![](img/2b5ab452bdad7e6ed23449188e203f9e.png)
+
+图 19-11 Colab Runtime 和笔记本
+
+Colab 也有一些限制：就像 FAQ 写到，Colaboratory 的目的是交互使用，长时间背景的计算，尤其是在 GPU 上的，会被停掉。不要用 Colab 做加密货币挖矿。如果一定时间没有用（~30 分钟），网页界面就会自动断开连接。当你重新连接 Colab Runtime，可能就重置了，所以一定记着下载重要数据。即使从来没有断开连接，Colab Runtime 会自动在 12 个小时后断开连接，因为它不是用来做长时间运行的。尽管有这些限制，它仍是一个绝好的测试工具，可以快速获取结果，和同事协作。
+
+### 管理 GPU 内存
+
+TensorFlow 默认会在第一次计算时，使用可用 GPU 的所有内存。这么做是为了限制 GPU 内存碎片化。如果启动第二个 TensorFlow 程序（或任意需要 GPU 的程序），就会很快消耗掉所有内存。这种情况很少见，因为大部分时候是只跑一个 TensorFlow 程序：训练脚本，TF Serving 节点，或 Jupyter 笔记本。如果因为某种原因（比如，用同一台机器训练两个不同的模型）要跑多个程序，需要根据进程平分 GPU 内存。
+
+如果机器上有多块 GPU，解决方法是分配给每个进程。要这么做，可以设定`CUDA_VISIBLE_DEVICES`环境变量，让每个进程只看到对应的 GPU。还要设置`CUDA_DEVICE_ORDER`环境变量为`PCI_BUS_ID`，保证每个 ID 对应到相同的 GPU 卡。你可以启动两个程序，给每个程序分配一个 GPU，在两个独立的终端执行下面的命令：
+
+```py
+$ CUDA_DEVICE_ORDER=PCI_BUS_ID CUDA_VISIBLE_DEVICES=0,1 python3 program_1.py
+# and in another terminal:
+$ CUDA_DEVICE_ORDER=PCI_BUS_ID CUDA_VISIBLE_DEVICES=3,2 python3 program_2.py 
+```
+
+程序 1 能看到 GPU 卡 0 和 1，`/gpu:0` 和 `/gpu:1`。程序 2 只能看到 GPU 卡 2 和 3，`/gpu:1` 和 `/gpu:0`（注意顺序）。一切工作正常（见图 19-12）。当然，还可以用 Python 定义这些环境变量，`os.environ["CUDA_DEVICE_ORDER"]`和`os.environ["CUDA_VISIBLE_DEVICES"]`，只要使用 TensorFlow 前这么做就成。
+
+![](img/2b2d0980ce5c33564b5eac1e8e631789.png)
+
+图 19-12 每个程序有两个 GPU
+
+另一个方法是告诉 TensorFlow 使用具体量的 GPU 内存。这必须在引入 TensorFlow 之后就这么做。例如，要让 TensorFlow 只使用每个 GPU 的 2G 内存，你必须创建虚拟 GPU 设备（也被称为逻辑 GPU 设备）每个物理 GPU 设备的内存限制为 2G（即，2048MB）:
+
+```py
+for gpu in tf.config.experimental.list_physical_devices("GPU"):
+    tf.config.experimental.set_virtual_device_configuration(
+        gpu,
+        [tf.config.experimental.VirtualDeviceConfiguration(memory_limit=2048)]) 
+```
+
+现在（假设有 4 个 GPU，每个最少 4GB）两个程序就可以并行运行了，每个都使用这四个 GPU（见图 19-13）。
+
+![](img/88b23fdb63cdd70654407af7710c0ff3.png)
+
+图 19-13 每个程序都可以使用 4 个 GPU，每个 GPU 使用 2GB
+
+如果两个程序都运行时使用`nvidia-smi`命令，可以看到每个进程用了 2GB 的 GPU 内存：
+
+```py
+$ nvidia-smi
+[...]
++-----------------------------------------------------------------------------+
+| Processes:                                                       GPU Memory |
+|  GPU       PID   Type   Process name                             Usage      |
+|=============================================================================|
+|    0      2373      C   /usr/bin/python3                            2241MiB |
+|    0      2533      C   /usr/bin/python3                            2241MiB |
+|    1      2373      C   /usr/bin/python3                            2241MiB |
+|    1      2533      C   /usr/bin/python3                            2241MiB |
+[...] 
+```
+
+另一种方法是让 TensorFlow 只在需要内存时再使用（必须在引入 TensorFlow 后就这么做）：
+
+```py
+for gpu in tf.config.experimental.list_physical_devices("GPU"):
+    tf.config.experimental.set_memory_growth(gpu, True) 
+```
+
+另一种这么做的方法是设置环境变量`TF_FORCE_GPU_ALLOW_GROWTH`为`true`。这么设置后，TensorFlow 不会释放获取的内存（避免内存碎片化），直到程序结束。这种方法无法保证确定的行为（比如，一个程序内存超标会导致另一个程序崩溃），所以在生产中，最好使用前面的方法。但是，有时这个方法是有用的：例如，当用机器运行多个 Jupyter 笔记本，其中一些使用 TensorFlow。这就是为什么在 Colab Runtime 中将环境变量`TF_FORCE_GPU_ALLOW_GROWTH`设为`true`。
+
+最后，在某些情况下，你可能想将 GPU 分为两个或多个虚拟 GPU —— 例如，如果你想测试一个分发算法。下面的代码将第一个 GPU 分成了两个虚拟 GPU，每个有 2GB（必须引入 TensorFlow 之后就这么做）：
+
+```py
+physical_gpus = tf.config.experimental.list_physical_devices("GPU")
+tf.config.experimental.set_virtual_device_configuration(
+    physical_gpus[0],
+    [tf.config.experimental.VirtualDeviceConfiguration(memory_limit=2048),
+     tf.config.experimental.VirtualDeviceConfiguration(memory_limit=2048)]) 
+```
+
+这两个虚拟 GPU 被称为`/gpu:0` 和 `/gpu:1`，可以像真正独立的 GPU 一样做运算和变量。下面来看 TensorFlow 如何确定安置变量和执行运算。
+
+### 在设备上安置运算和变量
+
+TensorFlow [白皮书](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F67)介绍了一种友好的动态安置器算法，可以自动在多个可用设备上部署运算，可以测量计算时间，输入输出张量的大小，每个设备的可用内存，传入传出设备的通信延迟，用户提示。但在实际中，这个算法不怎么高效，所以 TensorFlow 团队放弃了动态安置器。
+
+但是，`tf.keras`和`tf.data`通常可以很好地安置运算和变量（例如，在 GPU 上做计算，CPU 上做预处理）。如果想要更多的控制，还可以手动在每个设备上安置运算和变量：
+
+*   将预处理运算放到 CPU 上，将神经网络运算放到 GPU 上。
+
+*   GPU 的通信带宽通常不高，所以要避免 GPU 的不必要的数据传输。
+
+*   给机器添加更多 CPU 内存通常简单又便宜，但 GPU 内存通常是焊接上去的：是昂贵且有限的，所以如果变量在训练中用不到，一定要放到 CPU 上（例如，数据集通常属于 CPU）。
+
+默认下，所有变量和运算会安置在第一块 GPU 上（`/gpu:0`），除了没有 GPU 核的变量和运算：这些要放到 CPU 上（`/cpu:0`）。张量或变量的属性`device`告诉了它所在的设备：
+
+```py
+>>> a = tf.Variable(42.0)
+>>> a.device
+'/job:localhost/replica:0/task:0/device:GPU:0'
+>>> b = tf.Variable(42)
+>>> b.device
+'/job:localhost/replica:0/task:0/device:CPU:0' 
+```
+
+现在，可以放心地忽略前缀`/job:localhost/replica:0/task:0`（它可以让你在使用 TensorFlow 集群时，在其它机器上安置运算；本章后面会讨论工作、复制和任务）。可以看到，第一个变量放到 GPU 0 上，这是默认设备。但是，第二个变量放到 CPU 上：这是因为整数变量（或整数张量运算）没有 GPU 核。
+
+如果想把运算放到另一台非默认设备上，使用`tf.device()`上下文：
+
+```py
+>>> with tf.device("/cpu:0"):
+...     c = tf.Variable(42.0)
+...
+>>> c.device
+'/job:localhost/replica:0/task:0/device:CPU:0' 
+```
+
+> 笔记：CPU 总是被当做单独的设备（`/cpu:0`），即使你的电脑有多个 CPU 核。如果有多线程核，任意安置在 CPU 上的运算都可以并行运行。
+
+如果在不存在设备或没有核的设备安置运算和变量，就会抛出异常。但是，在某些情况下，你可能只想用 CPU；例如，如果程序可以在 CPU 和 GPU 上运行，可以让 TensorFlow 在只有 CPU 的机器上忽略`tf.device("/gpu:*")`。要这么做，在引入 TensorFlow 后，可以调用`tf.config.set_soft_device_placement(True)`：安置请求失败时，TensorFlow 会返回默认的安置规则（即，如果有 GPU 和，默认就是 GPU 0，否则就是 CPU 0）。
+
+TensorFlow 是如何在多台设备上执行这些运算的呢？
+
+### 在多台设备上并行执行
+
+第 12 章介绍过，使用 TF Functions 的好处之一是并行运算。当 TensorFlow 运行 TF 函数时，它先分析计算图，找到需要计算的运算，统计需要的依赖。TensorFlow 接着将每个零依赖的运算（即，每个源运算）添加到运行设备的计算队列（见图 19-14）。计算好一个运算后，每个运算的依赖计数器就被删掉。当运算的依赖计数器为零时，就被推进设备的计算队列。TensorFlow 评估完所有需要的节点后，就返回输出。
+
+![](img/72fdd58c55d8462c0c695b6df3439cd2.png)
+
+图 19-14 TensorFlow 计算图的并行执行
+
+CPU 评估队列的运算被发送给称为`inter-op`的线程池。如果 CPU 有多个核，这些运算能高效并行计算。一些运算有多线程 CPU 核：这些核被分成多个子运算，放到另一个计算队列中，发到第二个被称为`intra-op`的线程池（多核 CPU 核共享）。总之，多个运算和自运算可以用不同的 CPU 核并行计算。
+
+对于 GPU，事情简单一些。GPU 计算队列中的运算是顺序计算的。但是，大多数运算有多线程 GPU 核，使用 TensorFlow 依赖的库实现，比如 CUDA 和 cuDNN。这些实现有其自己的线程池，通常会用尽可能多的 GPU 线程（这就是为什么不需要`inter-op`线程池：每个运算已经使用 GPU 线程了）。
+
+例如，见图 19-14，运算`A`、`B`、`C`是源运算，所以可以立即执行。运算`A`和`B`在 CPU 上，所以发到 CPU 计算队列，然后发到`inter-op`线程池，然后立即并行执行。运算`A`有多线程核：计算分成三个部分，在`intra-op`线程池内并行执行。运算`C`进入 GPU 0 的计算队列，在这个例子中，它的 GPU 核使用 cuDNN，它管理自己的`intra-op`线程池，在多个 GPU 线程计算。假设`C`最先完成。`D`和`E`的依赖计数器下降为 0，两个运算都推到 GPU 0 的计算队列，顺序执行。`C`只计算一次，即使`D`和`E`依赖它。假设`B`第二个结束。`F`的依赖计数器从 4 降到 3，因为不是 0，所以霉运运行。当`A`、`D`、`E`都完成，`F`的依赖计数器降到 0，被推到 CPU 的计算队列并计算。最后，TensorFlow 返回输出。
+
+TensorFlow 的另一个奇妙的地方是当 TF 函数修改静态资源时，比如变量：它能确保执行顺序匹配代码顺序，即使不存在明确的依赖。例如，如果 TF 函数包含`v.assign_add(1)`，后面是`v.assign(v * 2)`，TensorFlow 会保证是按照这个顺序执行。
+
+> 提示：通过调用`tf.config.threading.set_inter_op_parallelism_threads()`，可以控制`inter-op`线程池的线程数。要设置`intra-op`的线程数，使用`tf.config.threading.set_intra_op_parallelism_threads()`。如果不想让 TensorFlow 占用所有的 CPU 核，或是只想单线程，就可以这么设置。
+
+有了上面这些知识，就可以利用 GPU 在任何设备上做任何运算了。下面是可以做的事：
+
+*   在独自的 GPU 上，并行训练几个模型：给每个模型写一个训练脚本，并行训练，设置`CUDA_DEVICE_ORDER`和`CUDA_VISIBLE_DEVICES`，让每个脚本只看到一个 GPU。这么做很适合超参数调节，因为可以用不同的超参数并行训练。如果一台电脑有两个 GPU，单 GPU 可以一小时训练一个模型，两个 GPU 就可以训练两个模型。
+
+*   在单 GPU 上训练模型，在 CPU 上并行做预处理，用数据集的`prefetch()`方法，给 GPU 提前准备批次数据。
+
+*   如果模型接收两张图片作为输入，用两个 CNN 做处理，将不同的 CNN 放到不同的 GPU 上会更快。
+
+*   创建高效的集成学习：将不同训练好的模型放到不同的 GPU 上，使预测更快，得到最后的预测结果。
+
+如果想用多个 GPU 训练一个模型该怎么做呢？
+
+## 在多台设备上训练模型
+
+有两种方法可以利用多台设备训练单一模型：模型并行，将模型分成多台设备上的子部分；和数据并行，模型复制在多台设备上，每个模型用数据的一部分训练。下面来看这两种方法。
+
+### 模型并行
+
+前面我们都是在单一设备上训练单一神经网络。如果想在多台设备上训练一个神经网络，该怎么做呢？这需要将模型分成独立的部分，在不同的设备上运行。但是，模型并行有点麻烦，且取决于神经网络的架构。对于全连接网络，这种方法就没有什么提升（见图 19-15）。直观上，一种容易的分割的方法是将模型的每一层放到不同的设备上，但是这样行不通，因为每层都要等待前一层的输出，才能计算。所以或许可以垂直分割 —— 例如，每层的左边放在一台设备上，右边放到另一台设备上。这样好了一点，两个部分能并行工作了，但是每层还需要另一半的输出，所以设备间的交叉通信量很大（见虚线）。这就抵消了并行计算的好处，因为通信太慢（尤其是 GPU 在不同机器上）。
+
+![](img/6c46b862ce9d1df0fbb63b7a2119d0da.png)
+
+图 19-15 分割全连接神经网络
+
+一些神经网络架构，比如卷积神经网络，包括浅层的部分连接层，更容易分割在不同设备上（见图 19-16）。
+
+![](img/2bcb91d1c87d875de17cc43e3f253d5e.png)
+
+图 19-16 分割部分连接神经网络
+
+深度循环神经网络更容易分割在多个 GPU 上。如果水平分割，将每层放到不同设备上，输入要处理的序列，在第一个时间步，只有一台设备是激活的（计算序列的第一个值），在第二步，两个设备激活（第二层处理第一层的输出，同时，第一层处理第二个值），随着信号传播到输出层，所有设备就同时激活了（图 19-17）。这么做，仍然有设备间通信，但因为每个神经元相对复杂，并行运行多个神经元的好处（原理上）超过了通信损失。但是，在实际中，将一摞 LSTM 运行在一个 GPU 上会更快。
+
+![](img/0de8c80a775dd2d2d9c874e3f2fb1b0d.png)
+
+图 19-17 分割深度循环网络
+
+总之，模型并行可以提高计算，训练一些类型的神经网络，但不是所有的，还需要特殊处理和调节，比如保证通信尽量在计算量大的机器内。下面来看更为简单高效的数据并行。
+
+### 数据并行
+
+另一种并行训练神经网络的方法，是将神经网络复制到每个设备上，同时训练每个复制，使用不同的训练批次。每个模型复制的计算的梯度被平均，结果用来更新模型参数。这种方法叫做数据并行。这种方法有许多变种，我们看看其中一些重要的。
+
+#### 使用镜像策略做数据并行
+
+可能最简单的方法是所有 GPU 上的模型参数完全镜像，参数更新也一样。这么做，所有模型复制是完全一样的。这被称为镜像策略，很高效，尤其是使用一台机器时（见图 19-18）。
+
+![](img/ecd96bc2ba1661dff5a3445d218df57c.png)
+
+图 19-18 用镜像策略做数据并行
+
+这种方法的麻烦之处是如何高效计算所有 GPU 的平均梯度，并将梯度分不到所有 GPU 上。这可以使用 AllReduce 算法，这是一种用多个节点齐心协力做 reduce 运算（比如，计算平均值，总和，最大值）的算法，还能让所有节点获得相同的最终结果。幸好，这个算法是现成的。
+
+#### 集中参数数据并行
+
+另一种方法是将模型参数存储在做计算的 GPU（称为工作器）的外部，例如放在 CPU 上（见图 19-19）。在分布式环境中，可以将所有参数放到一个或多个只有 CPU 的服务器上（称为参数服务器），它的唯一作用是存储和更新参数。
+
+![](img/8927089f0bc8298e27741f5af59dfc9a.png)
+
+图 19-19 集中参数数据并行
+
+镜像策略数据并行只能使用同步参数更新，而集中数据并行可以使用同步和异步更新两种方法。看看这两种方法的优点和缺点。
+
+##### *同步更新*
+
+同步更新中，累加器必须等待所有梯度都可用了，才计算平均梯度，再将其传给优化器，更新模型参数。当模型复制计算完梯度后，它必须等待参数更新，才能处理下一个批次。缺点是一些设备可能比一些设备慢，所以其它设备必须等待。另外，参数要同时复制到每台设备上（应用梯度之后），可能会饱和参数服务器的带宽。
+
+> 提示：要降低每步的等待时间，可以忽略速度慢的模型复制的梯度（大概~10%）。例如，可以运行 20 个模型复制，只累加最快的 18 个，最慢的 2 个忽略。参数更新好后，前 18 个复制就能立即工作，不用等待 2 个最慢的。这样的设置被描述为 18 个复制加 2 个闲置复制。
+
+##### *异步更新*
+
+异步更新中，每当复制计算完了梯度，它就立即用其更新模型参数。没有累加过程（去掉了图 19-19 中的平均步骤），没有同步。模型复制彼此独立工作。因为无需等待，这种方法每分钟可以运行更多训练步。另外，尽管参数仍然需要复制到每台设备上，都是每台设备在不同时间进行的，带宽饱和风险降低了。
+
+异步更新的数据并行是不错的方法，因为简单易行，没有同步延迟，对带宽的更佳利用。当模型复制根据一些参数值完成了梯度计算，这些参数会被其它复制更新几次（如果有`N`个复制，平均时`N-1`次），且不能保证计算好的梯度指向正确的方向（见图 19-20）。如果梯度过期，被称为陈旧梯度：它们会减慢收敛，引入噪音和抖动（学习曲线可能包含暂时的震动），或者会使训练算法发散。
+
+![](img/25367c92c4c8eaf06198b0fbe747b95c.png)
+
+图 19-20 使用异步更新时会导致陈旧梯度
+
+有几种方法可以减少陈旧梯度的坏处：
+
+*   降低学习率。
+
+*   丢弃陈旧梯度或使其变小。
+
+*   调整批次大小。
+
+*   只用一个复制进行前几个周期（被称为热身阶段）。陈旧梯度在训练初始阶段的破坏最大，当梯度很大且没有落入损失函数的山谷时，不同的复制会将参数推向不同方向。
+
+[Google Brain 团队在 2016 年发表了一篇论文](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2F68)，测量了几种方法，发现用闲置复制的同步更新比异步更新更加高效，收敛更快，模型效果更好。但是，这仍是一个活跃的研究领域，所以不要排除异步更新。
+
+#### 带宽饱和
+
+无论使用同步还是异步更新，集中式参数都需要模型复制和参数模型在每个训练步开始阶段的通信，以及在训练步的后期和梯度在其它方向的通信。相似的，在使用镜像策略时，每个 GPU 生成的梯度需要和其它 GPU 分享。想好，总是存在临界点，添加额外的 GPU 不能提高性能，因为 GPU 内存数据通信的坏处抵消了计算负载的降低。超过这点，添加更多 GPU 反而使带宽更糟，会减慢训练。
+
+> 提示：对于一些相对小、用大训练数据训练得到的模型，最好用单机大内存带宽单 GPU 训练。
+
+带宽饱和对于大紧密模型更加严重，因为有许多参数和梯度要传输。对于小模型和大的系数模型，不那么严重（但没怎么利用并行计算），大多数参数是 0，可以高效计算。Jeff Dean，Google Brain 的发起者和领导，指明用 50 个 GPU 分布计算紧密模型，可以加速 25-40 倍；用 500 个 GPU 训练系数模型，可以加速 300 倍。可以看到，稀疏模型扩展更好。下面是一些具体例子：
+
+*   神经机器翻译：8 个 GPU，加速 6 倍
+
+*   Inception/ImageNet：50 个 GPU，加速 32 倍
+
+*   RankBrain：500 个 GPU，加速 300 倍
+
+紧密模型使用几十块 GPU，稀疏模型使用几百块 GPU，就达到了带宽瓶颈。许多研究都在研究这个问题（使用对等架构，而不是集中式架构，做模型压缩，优化通信时间和内容，等等），接下来几年，神经网络并行计算会取得很多成果。
+
+同时，为了解决饱和问题，最好使用一些强大的 GPU，而不是大量一般的 GPU，最好将 GPU 集中在有内网的服务器中。还可以将浮点数精度从 32 位（`tf.float32`）降到 16 位（`tf.bfloat16`）。这可以减少一般的数据传输量，通常不会影响收敛和性能。最后，如果使用集中参数，可以将参数切片到多台参数服务器上：增加参数服务器可以降低网络负载，降低贷款饱和的风险。
+
+下面就用多个 GPU 训练模型。
+
+### 使用 Distribution Strategies API 做规模训练
+
+许多模型都可以用单一 GPU 或 CPU 来训练。但如果训练太慢，可以将其分布到同一台机器上的多个 GPU 上。如果还是太慢，可以换成更强大的 GPU，或添加更多的 GPU。如果模型要做重计算（比如大矩阵乘法），强大的 GPU 算的更快，你还可以尝试 Google Cloud AI Platform 的 TPU，它运行这种模型通常更快。如果加不了 GPU，也使不了 TPU（例如，TPU 没有提升，或你想使用自己的硬件架构），则你可以尝试在多台服务器上训练，每台都有多个 GPU（如果这还不成，最后一种方法是添加并行模型，但需要更多尝试）。本节，我们会学习如何规模化训练模型，从单机多 GPU 开始（或 TPU），然后是多机多 GPU。
+
+幸好，TensorFlow 有一个非常简单的 API 做这项工作：Distribution Strategies API。要用多个 GPU 训练 Keras 模型（先用单机），用镜像策略的数据并行，创建一个对象`MirroredStrategy`，调用它的`scope()`方法，获取分布上下文，在上下文中包装模型的创建和编译。然后正常调用模型的`fit()`方法：
+
+```py
+distribution = tf.distribute.MirroredStrategy()
+
+with distribution.scope():
+    mirrored_model = tf.keras.Sequential([...])
+    mirrored_model.compile([...])
+
+batch_size = 100 # must be divisible by the number of replicas
+history = mirrored_model.fit(X_train, y_train, epochs=10) 
+```
+
+在底层，`tf.keras`是分布式的，所以在这个`MirroredStrategy`上下文中，它知道要复制所有变量和运算到可用的 GPU 上。`fit()`方法，可以自动对所有模型复制分割训练批次，所以批次大小要可以被模型复制的数量整除。就是这样。比用一个 GPU，这么训练会快很多，而且代码变动很少。
+
+训练好模型后，就可以做预测了：调用`predict()`方法，就能自动在模型复制上分割批次，并行做预测（批次大小要能被模型复制的数量整除）。如果调用模型的`save()`方法，会像常规模型那样保存。所以加载时，在单设备上（默认是 GPU 0，如果没有 GPU，就是 CPU），就和常规模型一样。如果想加载模型，并在可用设备上运行，必须在分布上下文中调用`keras.models.load_model()`：
+
+```py
+with distribution.scope():
+    mirrored_model = keras.models.load_model("my_mnist_model.h5") 
+```
+
+如果只想使用 GPU 设备的一部分，可以将列表传给`MirroredStrategy`的构造器：
+
+```py
+distribution = tf.distribute.MirroredStrategy(["/gpu:0", "/gpu:1"]) 
+```
+
+默认时，`MirroredStrategy`类使用 NVIDIA Collective Communications 库（NCCL）做 AllReduce 平均值运算，但可以设置`tf.distribute.HierarchicalCopyAllReduce`类的实例，或`tf.distribute.ReductionToOneDevice`类的实例的`cross_device_ops`参数，换其它的库。默认的 NCCL 是基于类`tf.distribute.NcclAllReduce`，它通常很快，但一来 GPU 的数量和类型，所以也可以试试其它选项。
+
+如果想用集中参数的数据并行，将`MirroredStrategy`替换为`CentralStorageStrategy`：
+
+```py
+distribution = tf.distribute.experimental.CentralStorageStrategy() 
+```
+
+你还可以设置`compute_devices`，指定作为工作器的设备（默认会使用所有的 GPU），还可以通过设置`parameter_device`，指定存储参数的设备（默认使用 CPU，或 GPU，如果只有一个 GPU 的话）。
+
+下面看看如何用 TensorFlow 集群训练模型。
+
+### 用 TensorFlow 集群训练模型
+
+TensorFlow 集群是一组并行运行的 TensorFlow 进程，通常是在不同机器上，彼此通信完成工作 —— 例如，训练或执行神经网络。集群中的每个 TF 进程被称为任务（task），或 TF 服务器。它有 IP 地址，端口和类型（也被称为角色（role）或工作（job））。类型可以是`"worker"`、`"chief"`、`"ps"`（参数服务器（parameter server））、`"evaluator"`：
+
+*   每个工作器执行计算，通常是在有一个或多个 GPU 的机器上。
+
+*   `chief`也做计算，也做其它工作，比如写 TensorBoard 日志或存储检查点。集群中只有一个`chief`。如果没有指定`chief`，第一个工作器就是`chief`。
+
+*   参数服务器只保留变量值的轨迹，通常是在只有 CPU 的机器上。这个类型的任务只使用`ParameterServerStrategy`。
+
+*   评估器只做评估。
+
+要启动 TensorFlow 集群，必须先指定。要定义每个任务的 IP 地址，TCP 端口，类型。例如，下面的集群配置定义了集群有三种任务（两个工作器一个参数服务器，见图 19-21）。集群配置是一个字典，每个工作一个键，值是任务地址（`IP:port`）列表：
+
+```py
+cluster_spec = {
+    "worker": [
+        "machine-a.example.com:2222",  # /job:worker/task:0
+        "machine-b.example.com:2222"   # /job:worker/task:1
+    ],
+    "ps": ["machine-a.example.com:2221"] # /job:ps/task:0
+} 
+```
+
+![](img/9935a83795d8a9d10bd8a9a4e2bd38b4.png)
+
+图 19-21 TensorFlow 集群
+
+通常，每台机器只有一个任务，但这个例子说明，如果愿意，可以在一台机器上部署多个任务（如果有相同的 GPU，要确保 GPU 内存分配好）。
+
+> 警告：默认，集群中的每个任务都可能与其它任务通信，所以要配置好防火墙确保这些机器端口的通信（如果每台机器用相同的端口，就简单一些）。
+
+启动任务时，必须将集群配置给它，还要告诉它类型和索引（例如，工作器 0）。配置最简单的方法（集群配置和当前任务的类型和索引）是在启动 TensorFlow 前，设置环境变量`TF_CONFIG`。这是一个 JSON 编码的字典，包含集群配置（在键`"cluster"`下）、类型、任务索引（在键`"task"`下）。例如。下面的环境变量`TF_CONFIG`使用了刚才定义的集群，启动的任务是第一个工作器：
+
+```py
+import os
+import json
+
+os.environ["TF_CONFIG"] = json.dumps({
+    "cluster": cluster_spec,
+    "task": {"type": "worker", "index": 0}
+}) 
+```
+
+> 提示：通常要在 Python 外面定义环境变量`TF_CONFIG`，代码不用包含当前任务的类型和索引（这样可以让所有工作器使用相同的代码）。
+
+现在用集群训练一个模型。先用镜像策略。首先，给每个任务设定环境参数`TF_CONFIG`。因为没有参数服务器（去除集群配置中的`ps`键），所以通常每台机器只有一个工作器。还要保证每个任务的索引不同。最后，在每个工作器上运行下面的训练代码：
+
+```py
+distribution = tf.distribute.experimental.MultiWorkerMirroredStrategy()
+
+with distribution.scope():
+    mirrored_model = tf.keras.Sequential([...])
+    mirrored_model.compile([...])
+
+batch_size = 100 # must be divisible by the number of replicas
+history = mirrored_model.fit(X_train, y_train, epochs=10) 
+```
+
+这就是前面用的代码，只是这次我们使用的是`MultiWorkerMirroredStrategy`（未来版本中，`MirroredStrategy`可能既处理单机又处理多机）。当在第一个工作器上运行脚本时，它会阻塞所有 AllReduce 步骤，最后一个工作器启动后，训练就开始了。可以看到工作器以相同的速度前进（因为每步使用的同步）。
+
+你可以从两个 AllReduce 实现选择做分布策略：基于 gRPC 的 AllReduce 算法用于网络通信，和 NCCL 实现。最佳算法取决于工作器的数量、GPU 的数量和类型和网络。默认，TensorFlow 会选择最佳算法，但是如果想强制使用某种算法，将`CollectiveCommunication.RING`或`CollectiveCommunication.NCCL`（出自`tf.distribute.experimental`）传给策略构造器。
+
+如果想用带有参数服务器的异步数据并行，可以将策略变为`ParameterServerStrategy`，添加一个或多个参数服务器，给每个任务配置`TF_CONFIG`。尽管工作器是异步的，每个工作器的复制是同步工作的。
+
+最后，如果你能用 Google Cloud 的 TPU，可以如下创建`TPUStrategy`：
+
+```py
+resolver = tf.distribute.cluster_resolver.TPUClusterResolver()
+tf.tpu.experimental.initialize_tpu_system(resolver)
+tpu_strategy = tf.distribute.experimental.TPUStrategy(resolver) 
+```
+
+> 提示：如果是研究员，可以免费试用 TPU，见[这里](https://links.jianshu.com/go?to=https%3A%2F%2Ftensorflow.org%2Ftfrc)。
+
+现在就可以在多机多 GPU 训练模型了。如果想训练一个大模型，需要多个 GPU 多台服务器，要么买机器，要么买云虚拟机。云服务更便宜，
+
+### 在 Google Cloud AI Platform 上训练大任务
+
+如果你想用 Google AI Platform，可以用相同的代码部署训练任务，平台会管理 GPU VM。
+
+要启动任务，你需要命令行工具`gcloud`，它属于 [Google Cloud SDK](https://links.jianshu.com/go?to=https%3A%2F%2Fcloud.google.com%2Fsdk%2F)。可以在自己的机器上安装 SDK，或在 GCP 上使用 Google Cloud Shell。这是可以在浏览器中使用的终端；运行在免费的 Linux VM（Debian）上，SDK 已经安装配置好了。Cloud Shell 可以在 GCP 上任何地方使用：只要点击页面右上的图标 Activate Cloud Shell（见图 19-22）。
+
+![](img/35d9fcd8b373f316881a7a6c79e7c9a7.png)
+
+图 19-22 启动 Google Cloud Shell
+
+如果想在自己机器上安装 SDK，需要运行`gcloud init`启动：需要登录 GCP 准许权限，选择想要的 GCP 项目，还有想运行的地区。`gcloud`命令可以使用 GCP 所有功能。不用每次访问网页接口，可以写脚本开启或停止虚拟机、部署模型或做任意 GCP 动作。
+
+运行训练任务之前，你需要写训练代码，和之前的分布设置一样（例如，使用`ParameterServerStrategy`）。AI 平台会为每个 VM 设置`TF_CONFIG`。做好之后，就可以在 TF 集群部署运行了，命令行如下：
+
+```py
+$ gcloud ai-platform jobs submit training my_job_20190531_164700 \
+    --region asia-southeast1 \
+    --scale-tier PREMIUM_1 \
+    --runtime-version 2.0 \
+    --python-version 3.5 \
+    --package-path /my_project/src/trainer \
+    --module-name trainer.task \
+    --staging-bucket gs://my-staging-bucket \
+    --job-dir gs://my-mnist-model-bucket/trained_model \
+    --
+    --my-extra-argument1 foo --my-extra-argument2 bar 
+```
+
+浏览这些选项。命令行启动名为`my_job_20190531_164700`的训练任务，地区是`asia-southeast1`，级别是`PREMIUM_1`：对应 20 个工作器和 11 个参数服务器（查看[其它等级](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fscaletiers)
+）。所有 VM 基于 AI Platform 的 2.0 运行时（VM 配置包括 TensorFlow 2.0 和其它包）和 Python 3.5。训练代码位于字典`/my_project/src/trainer`，命令`gcloud`会自动绑定 PIP 包，并上传到 GCS 的`gs://my-staging-bucket`。然后，AI Platform 会启动几个 VM，部署这些包，运行`trainer.task`模块。最后，参数`--job-dir`和其它参数（即，分隔符`--`后面的参数）会传给训练程序：主任务会使用参数`--job-dir`在 GCS 上保存模型，在这个例子中，是在`gs://my-mnist-model-bucket/trained_model`。就是这样。在 GCP 控制台中，你可以打开导航栏，下滑到`Artificial Intelligence`，打开`AI Platform → Jobs`。可以看到在运行的任务，如果点击，可以看到图展示了每个任务的 CPU、GPU 和 RAM。点击`View Logs`，可以使用 Stackdriver 查看详细日志。
+
+> 笔记：如果将训练数据放到 GCS 上，可以创建`tf.data.TextLineDataset`或`tf.data.TFRecordDataset`来访问：用 GCS 路径作为文件名（例如，`gs://my-data-bucket/my_data_001.csv`）。这些数据集依赖包`tf.io.gfile`访问文件：支持本地文件和 GCS 文件（要保证服务账号可以使用 GCS）。
+
+如果想探索几个超参数的值，可以用参数指定超参数值，执行多个任务。但是，日过想探索许多超参数，最好使用 AI Platform 的超参数调节服务。
+
+### 在 AI Platform 上做黑盒超参数调节
+
+AI Platform 提供了强大的贝叶斯优化超参数调节服务，称为 [Google Vizier](https://links.jianshu.com/go?to=https%3A%2F%2Fhoml.info%2Fvizier)。要使用，创建任务时要传入 YAML 配置文件（`--config tuning.yaml`）。例如，可能如下：
+
+```py
+trainingInput:
+  hyperparameters:
+    goal: MAXIMIZE
+    hyperparameterMetricTag: accuracy
+    maxTrials: 10
+    maxParallelTrials: 2
+    params:
+      - parameterName: n_layers
+        type: INTEGER
+        minValue: 10
+        maxValue: 100
+        scaleType: UNIT_LINEAR_SCALE
+      - parameterName: momentum
+        type: DOUBLE
+        minValue: 0.1
+        maxValue: 1.0
+        scaleType: UNIT_LOG_SCALE 
+```
+
+它告诉 AI Platform，我们的目的是最大化指标`"accuracy"`，任务会做最多 10 次试验（每次试验都从零开始训练），最多并行运行 2 个试验。我们想调节两个超参数：`n_layers`（10 到 100 间的整数），和`momentum`（0.1 和 1.0 之间的浮点数）。参数`scaleType`指明了先验：`UNIT_LINEAR_SCALE`是扁平先验（即，没有先验偏好），`UNIT_LOG_SCALE`的先验是最优值靠近最大值（其它可能的先验是`UNIT_REVERSE_LOG_SCALE`，最佳值靠近最小值）。
+
+`n_layers`和`momentum`参数会作为命令行参数传给训练代码。问题是训练代码如何将指标传回给 AI Platform，以便决定下一个试验使用什么超参数？AI Platform 会监督输出目录（通过`--job-dir`指定）的每个包含指标`"accuracy"`概括的事件文件（或是其它`hyperparameterMetricTag`指定的名字），读取这些值。训练代码使用`TensorBoard()`调回，就可以开始了。
+
+任务完成后，每次试验中使用的超参数值和结果准确率会显示在任务的输出中（在`AI Platform → Jobs page`）。
+
+> 笔记：AI Platform 还可以用于在大量数据上执行模型：每个工作器从 GCS 读取部分数据，做预测，并保存在 GCS 上。
+
+现在就可以用各种分布策略规模化创建先进的神经网络架构了，可以用自己的机器，也可以用云 —— 还可以用高效贝叶斯优化微调超参数。
+
+## 练习
+
+1.  SavedModel 包含什么？如何检查内容？
+
+2.  什么时候使用 TF Serving？它有什么特点？可以用什么工具部署 TF Serving？
+
+3.  如何在多个 TF Serving 实例上部署模型？
+
+4.  为什么使用 gRPC API 而不是 REST API，查询 TF Serving 模型？
+
+5.  在移动和嵌入设备上运行，TFLite 减小模型的大小有什么方法？
+
+6.  什么是伪量化训练，有什么用？
+
+7.  什么是模型并行和数据并行？为什么推荐后者？
+
+8.  在多台服务器上训练模型时，可以使用什么分布策略？如何进行选择？
+
+9.  训练模型（或任意模型），部署到 TF Serving 或 Google Cloud AI Platform 上。写客户端代码，用 REST API 或 gRPC API 做查询。更新模型，部署新版本。客户端现在查询新版本。回滚到第一个版本。
+
+10.  用一台机器多个 GPU、`MirroredStrategy`策略，训练模型（如果没有 GPU，可以使用带有 GPU 的 Colaboratory，创建两个虚拟 GPU）。再用`CentralStorageStrategy`训练一次，比较训练时间。
+
+11.  在 Google Cloud AI Platform 训练一个小模型，使用黑盒超参数调节。
+
+参考答案见附录 A。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/2.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/2.md
new file mode 100644
index 00000000..cf15007b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/2.md
@@ -0,0 +1,1487 @@
+# 二、端到端的机器学习项目
+
+> 译者：[@SeanCheney](https://www.jianshu.com/u/130f76596b02)
+> 
+> 校对者：[@Lisanaaa](https://github.com/Lisanaaa)、[@飞龙](https://github.com/wizardforcel)、[@PeterHo](https://github.com/PeterHo)、[@ZhengqiJiang](https://github.com/AnEscapist)、[@tabeworks](https://github.com/tabeworks)
+
+本章中，你会假装作为被一家地产公司刚刚雇佣的数据科学家，完整地学习一个案例项目。下面是主要步骤：
+
+1.  项目概述。
+2.  获取数据。
+3.  发现并可视化数据，发现规律。
+4.  为机器学习算法准备数据。
+5.  选择模型，进行训练。
+6.  微调模型。
+7.  给出解决方案。
+8.  部署、监控、维护系统。
+
+## 使用真实数据
+
+学习机器学习时，最好使用真实数据，而不是人工数据集。幸运的是，有上千个开源数据集可以进行选择，涵盖多个领域。以下是一些可以查找的数据的地方：
+
+*   流行的开源数据仓库：
+    +   [UC Irvine Machine Learning Repository](https://link.jianshu.com?t=http%3A%2F%2Farchive.ics.uci.edu%2Fml%2F)  
+    +   [Kaggle datasets](https://link.jianshu.com?t=https%3A%2F%2Fwww.kaggle.com%2Fdatasets)  
+    +   [Amazon's AWS datasets](https://link.jianshu.com?t=http%3A%2F%2Faws.amazon.com%2Ffr%2Fdatasets%2F)
+*   准入口（提供开源数据列表）  
+    +   <http://dataportals.org/>
+    +   <http://opendatamonitor.eu/>
+    +   <http://quandl.com/>
+*   其它列出流行开源数据仓库的网页：  
+    +   [Wikipedia's list of Machine Learning datasets](https://link.jianshu.com?t=https%3A%2F%2Fgoo.gl%2FSJHN2k)  
+    +   [Quora.com question](https://link.jianshu.com?t=http%3A%2F%2Fgoo.gl%2FzDR78y)  
+    +   [Datasets subreddit](https://link.jianshu.com?t=https%3A%2F%2Fwww.reddit.com%2Fr%2Fdatasets)
+
+本章，我们选择的是 StatLib 的加州房产价格数据集（见图 2-1）。这个数据集是基于 1990 年加州普查的数据。数据已经有点老（1990 年还能买一个湾区不错的房子），但是它有许多优点，利于学习，所以假设这个数据为最近的。为了便于教学，我们添加了一个类别属性，并除去了一些。
+
+![](img/2-1.png)
+
+图 2-1 加州房产价格
+
+## 项目概览
+
+欢迎来到机器学习房地产公司！你的第一个任务是利用加州普查数据，建立一个加州房价模型。这个数据包含每个街区组的人口、收入中位数、房价中位数等指标。
+
+街区组是美国调查局发布样本数据的最小地理单位（一个街区通常有 600 到 3000 人）。我们将其简称为“街区”。
+
+你的模型要利用这个数据进行学习，然后根据其它指标，预测任何街区的的房价中位数。
+
+> 提示：你是一个有条理的数据科学家，你要做的第一件事是拿出你的机器学习项目清单。你可以使用附录 B 中的清单；这个清单适用于大多数的机器学习项目，但是你还是要确认它是否满足需求。在本章中，我们会检查许多清单上的项目，但是也会跳过一些简单的，有些会在后面的章节再讨论。
+
+### 划定问题
+
+问老板的第一个问题应该是商业目标是什么？建立模型可能不是最终目标。公司要如何使用、并从模型受益？这非常重要，因为它决定了如何划定问题，要选择什么算法，评估模型性能的指标是什么，要花多少精力进行微调。
+
+老板告诉你你的模型的输出（一个区的房价中位数）会传给另一个机器学习系统（见图 2-2），也有其它信号会传入后面的系统。这一整套系统可以确定某个区进行投资值不值。确定值不值得投资非常重要，它直接影响利润。
+
+![](img/2-2.png)
+
+图 2-2 房地产投资的机器学习流水线
+
+> 流水线  
+> 
+> 一系列的数据处理组件被称为数据流水线。流水线在机器学习系统中很常见，因为有许多数据要处理和转换。
+> 
+> 组件通常是异步运行的。每个组件吸纳进大量数据，进行处理，然后将数据传输到另一个数据容器中，而后流水线中的另一个组件收入这个数据，然后输出，这个过程依次进行下去。每个组件都是独立的：组件间的接口只是数据容器。这样可以让系统更便于理解（记住数据流的图），不同的项目组可以关注于不同的组件。进而，如果一个组件失效了，下游的组件使用失效组件最后生产的数据，通常可以正常运行（一段时间）。这样就使整个架构相当健壮。
+> 
+> 另一方面，如果没有监控，失效的组件会在不被注意的情况下运行一段时间。数据会受到污染，整个系统的性能就会下降。
+
+下一个要问的问题是，现在的解决方案效果如何。老板通常会给一个参考性能，以及如何解决问题。老板说，现在街区的房价是靠专家手工估计的，专家队伍收集最新的关于一个区的信息（不包括房价中位数），他们使用复杂的规则进行估计。这种方法费钱费时间，而且估计结果不理想，误差率大概有 15%。
+
+OK，有了这些信息，你就可以开始设计系统了。首先，你需要划定问题：监督或非监督，还是强化学习？这是个分类任务、回归任务，还是其它的？要使用批量学习还是线上学习？继续阅读之前，请暂停一下，尝试自己回答下这些问题。
+
+你能回答出来吗？一起看下答案：很明显，这是一个典型的监督学习任务，因为你要使用的是有标签的训练样本（每个实例都有预定的产出，即街区的房价中位数）。并且，这是一个典型的回归任务，因为你要预测一个值。讲的更细些，这是一个多变量回归问题，因为系统要使用多个变量进行预测（要使用街区的人口，收入中位数等等）。在第一章中，你只是根据人均 GDP 来预测生活满意度，因此这是一个单变量回归问题。最后，没有连续的数据流进入系统，没有特别需求需要对数据变动作出快速适应。数据量不大可以放到内存中，因此批量学习就够了。
+
+> 提示：如果数据量很大，你可以要么在多个服务器上对批量学习做拆分（使用 MapReduce 技术，后面会看到），或是使用线上学习。
+
+### 选择性能指标
+
+下一步是选择性能指标。回归问题的典型指标是均方根误差（RMSE）。均方根误差测量的是系统预测误差的标准差。例如，RMSE 等于 50000，意味着，68% 的系统预测值位于实际值的 50000 美元以内，95% 的预测值位于实际值的 100000 美元以内（一个特征通常都符合高斯分布，即满足 “68-95-99.7”规则：大约 68% 的值落在`1σ`内，95% 的值落在`2σ`内，99.7% 的值落在`3σ`内，这里的`σ`等于 50000）。公式 2-1 展示了计算 RMSE 的方法。
+
+![](img/e-2-1.png)
+
+公式 2-1 均方根误差（RMSE）
+
+> 符号的含义
+>
+> 这个方程引入了一些常见的贯穿本书的机器学习符号：
+>
+> * `m`是测量 RMSE 的数据集中的实例数量。  
+>     例如，如果用一个含有 2000 个街区的验证集求 RMSE，则`m = 2000`。
+>
+> * `x^(i)`是数据集第`i`个实例的所有特征值（不包含标签）的向量，`y^(i)`是它的标签（这个实例的输出值）。 
+>
+>     例如，如果数据集中的第一个街区位于经度 –118.29°，纬度 33.91°，有 1416 名居民，收入中位数是 38372 美元，房价中位数是 156400 美元（忽略掉其它的特征），则有：  
+>
+>     ![](img/o-2-1.png)
+>
+>     和，  
+>
+>     ![](img/o-2-2.png)
+>
+> * `X`是包含数据集中所有实例的所有特征值（不包含标签）的矩阵。每一行是一个实例，第`i`行是`x^(i)`的转置，记为`x^(i)^T`。
+>
+>   例如，仍然是前面提到的第一区，矩阵`X`就是：  
+>
+>     ![](img/o-2-3.png)
+>
+> * `h`是系统的预测函数，也称为假设（hypothesis）。当系统收到一个实例的特征向量`x^(i)`，就会输出这个实例的一个预测值`y_hat = h(x^(i))`（`y_hat`读作`y-hat`）。  
+>
+>     例如，如果系统预测第一区的房价中位数是 158400 美元，则`y_hat^(1) = h(x^(1)) = 158400`。预测误差是 `y_hat^(1) - y^(1) = 2000`。
+>
+> *   `RMSE(X,h)`是使用假设`h`在样本集上测量的损失函数。
+>
+> 我们使用小写斜体表示标量值（例如`m`或`y^(i)`）和函数名（例如`h`），小写粗体表示向量（例如`x^(i)`），大写粗体表示矩阵（例如`X`）。
+
+虽然大多数时候 RMSE 是回归任务可靠的性能指标，在有些情况下，你可能需要另外的函数。例如，假设存在许多异常的街区。此时，你可能需要使用平均绝对误差（Mean Absolute Error，也称作平均绝对偏差），见公式 2-2：
+
+
+
+![](img/e-2-2.png)
+
+公式 2-2 平均绝对误差
+
+
+
+RMSE 和 MAE 都是测量预测值和目标值两个向量距离的方法。有多种测量距离的方法，或范数：
+
+*   计算对应欧几里得范数的平方和的根（RMSE）：这个距离介绍过。它也称作`ℓ2`范数，标记为`||·||₂`（或只是`||·||`）。
+  
+*   计算对应于`ℓ1`（标记为`||·||₁`）范数的绝对值和（MAE）。有时，也称其为曼哈顿范数，因为它测量了城市中的两点，沿着矩形的边行走的距离。
+  
+*   更一般的，包含`n`个元素的向量`v`的`ℓk`范数（K 阶闵氏范数），定义成
+  
+    ![](img/o-2-4.png)
+    
+    `ℓ0`（汉明范数）只显示了这个向量的基数（即，非零元素的个数），`ℓ∞`（切比雪夫范数）是向量中最大的绝对值。
+    
+*   范数的指数越高，就越关注大的值而忽略小的值。这就是为什么 RMSE 比 MAE 对异常值更敏感。但是当异常值是指数分布的（类似正态曲线），RMSE 就会表现很好。
+  
+
+### 核实假设
+
+最后，最好列出并核对迄今（你或其他人）作出的假设，这样可以尽早发现严重的问题。例如，你的系统输出的街区房价，会传入到下游的机器学习系统，我们假设这些价格确实会被当做街区房价使用。但是如果下游系统实际上将价格转化成了分类（例如，便宜、中等、昂贵），然后使用这些分类，而不是使用价格。这样的话，获得准确的价格就不那么重要了，你只需要得到合适的分类。问题相应地就变成了一个分类问题，而不是回归任务。你可不想在一个回归系统上工作了数月，最后才发现真相。
+
+幸运的是，在与下游系统主管探讨之后，你很确信他们需要的就是实际的价格，而不是分类。很好！整装待发，可以开始写代码了。
+
+## 获取数据
+
+开始动手。最后用 Jupyter 笔记本完整地敲一遍示例代码。完整的代码位于 <https://github.com/ageron/handson-ml>。
+
+### 创建工作空间
+
+首先，你需要安装 Python。可能已经安装过了，没有的话，可以从官网下载 <https://www.python.org/>。
+
+接下来，需要为你的机器学习代码和数据集创建工作空间目录。打开一个终端，输入以下命令（在提示符`$`之后）：
+
+<pre><code>
+&#x24; export ML_PATH="&#x24;HOME/ml"      # 可以更改路径
+&#x24; mkdir -p &#x24;ML_PATH
+</code></pre>
+
+还需要一些 Python 模块：Jupyter、NumPy、Pandas、Matplotlib 和 Scikit-Learn。如果所有这些模块都已经在 Jupyter 中运行了，你可以直接跳到下一节“下载数据”。如果还没安装，有多种方法可以进行安装（包括它们的依赖）。你可以使用系统的包管理系统（比如 Ubuntu 上的`apt-get`，或 macOS 上的 MacPorts 或 HomeBrew），安装一个 Python 科学计算环境比如 Anaconda，使用 Anaconda 的包管理系统，或者使用 Python 自己的包管理器`pip`，它是 Python 安装包（自从 2.7.9 版本）自带的。可以用下面的命令检测是否安装`pip`：
+
+```
+$ pip3 --version
+pip 9.0.1 from [...]/lib/python3.5/site-packages (python 3.5)
+
+```
+
+你需要保证`pip`是近期的版本，至少高于 1.4，以保障二进制模块文件的安装（也称为 wheel）。要升级`pip`，可以使用下面的命令：
+
+```
+$ pip3 install --upgrade pip
+Collecting pip
+[...]
+Successfully installed pip-9.0.1
+
+```
+
+> 创建独立环境
+> 
+> 如果你希望在一个独立环境中工作（强烈推荐这么做，不同项目的库的版本不会冲突），用下面的`pip`命令安装`virtualenv`：
+> 
+> ```
+> $ pip3 install --user --upgrade virtualenv
+> Collecting virtualenv
+> [...]
+> Successfully installed virtualenv
+> 
+> ```
+> 
+> 现在可以通过下面命令创建一个独立的 Python 环境：
+> 
+> <pre><code>
+> &#x24; cd &#x24;ML_PATH
+> &#x24; virtualenv env
+> Using base prefix '[...]'
+> New python executable in [...]/ml/env/bin/python3.5
+> Also creating executable in [...]/ml/env/bin/python
+> Installing setuptools, pip, wheel...done.
+> </code></pre>
+> 
+> 以后每次想要激活这个环境,只需打开一个终端然后输入：
+> 
+> <pre><code>
+> &#x24; cd &#x24;ML_PATH
+> &#x24; source env/bin/activate
+> </code></pre>
+> 
+> 启动该环境时，使用`pip`安装的任何包都只安装于这个独立环境中，Python 指挥访问这些包（如果你希望 Python 能访问系统的包，创建环境时要使用包选项`--system-site`）。更多信息，请查看`virtualenv`文档。
+
+现在，你可以使用`pip`命令安装所有必需的模块和它们的依赖：
+
+```
+$ pip3 install --upgrade jupyter matplotlib numpy pandas scipy scikit-learn
+Collecting jupyter
+  Downloading jupyter-1.0.0-py2.py3-none-any.whl
+Collecting matplotlib
+  [...]
+
+```
+
+要检查安装，可以用下面的命令引入每个模块：
+
+```
+$ python3 -c "import jupyter, matplotlib, numpy, pandas, scipy, sklearn"
+
+```
+
+这个命令不应该有任何输出和错误。现在你可以用下面的命令打开 Jupyter：
+
+```
+$ jupyter notebook
+[I 15:24 NotebookApp] Serving notebooks from local directory: [...]/ml
+[I 15:24 NotebookApp] 0 active kernels
+[I 15:24 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/
+[I 15:24 NotebookApp] Use Control-C to stop this server and shut down all
+kernels (twice to skip confirmation).
+
+```
+
+Jupyter 服务器现在运行在终端上，监听 8888 端口。你可以用浏览器打开`http://localhost:8888/`，以访问这个服务器（服务器启动时，通常就自动打开了）。你可以看到一个空的工作空间目录（如果按照先前的`virtualenv`步骤，只包含`env`目录）。
+
+现在点击按钮`New`创建一个新的 Python 注本，选择合适的 Python 版本（见图 2-3）。
+
+![](img/2-3.png)
+
+图 2-3 Jupyter 的工作空间
+
+这一步做了三件事：首先，在工作空间中创建了一个新的笔记本文件`Untitled.ipynb`；第二，它启动了一个 Jupyter 的 Python 内核来运行这个笔记本；第三，在一个新栏中打开这个笔记本。接下来，点击`Untitled`，将这个笔记本重命名为`Housing`（这会将`ipynb`文件自动命名为`Housing.ipynb`）。
+
+笔记本包含一组代码框。每个代码框可以放入可执行代码或格式化文本。现在，笔记本只有一个空的代码框，标签是`In [1]:`。在框中输入`print("Hello world!")`，点击运行按钮（见图 2-4）或按`Shift+Enter`。这会将当前的代码框发送到 Python 内核，运行之后会返回输出。结果显示在代码框下方。由于抵达了笔记本的底部，一个新的代码框会被自动创建出来。从 Jupyter 的`Help`菜单中的`User Interface Tour`，可以学习 Jupyter 的基本操作。
+
+![](img/2-4.png)
+
+图 2-4 在笔记本中打印`Hello world!`
+
+### 下载数据
+
+一般情况下，数据是存储于关系型数据库（或其它常见数据库）中的多个表、文档、文件。要访问数据，你首先要有密码和登录权限，并要了解数据模式。但是在这个项目中，这一切要简单些：只要下载一个压缩文件，`housing.tgz`，它包含一个 CSV 文件`housing.csv`，含有所有数据。
+
+你可以使用浏览器下载，运行`tar xzf housing.tgz`解压出`csv`文件，但是更好的办法是写一个小函数来做这件事。如果数据变动频繁，这么做是非常好的，因为可以让你写一个小脚本随时获取最新的数据（或者创建一个定时任务来做）。如果你想在多台机器上安装数据集，获取数据自动化也是非常好的。
+
+下面是获取数据的函数：
+
+```py
+import os
+import tarfile
+from six.moves import urllib
+
+DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
+HOUSING_PATH = "datasets/housing"
+HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz"
+
+def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
+    if not os.path.isdir(housing_path):
+        os.makedirs(housing_path)
+    tgz_path = os.path.join(housing_path, "housing.tgz")
+    urllib.request.urlretrieve(housing_url, tgz_path)
+    housing_tgz = tarfile.open(tgz_path)
+    housing_tgz.extractall(path=housing_path)
+    housing_tgz.close()
+
+```
+
+现在，当你调用`fetch_housing_data()`，就会在工作空间创建一个`datasets/housing`目录，下载`housing.tgz`文件，解压出`housing.csv`。
+
+然后使用 Pandas 加载数据。还是用一个小函数来加载数据：
+
+```py
+import pandas as pd
+
+def load_housing_data(housing_path=HOUSING_PATH):
+    csv_path = os.path.join(housing_path, "housing.csv")
+    return pd.read_csv(csv_path)
+
+```
+
+这个函数会返回一个包含所有数据的 Pandas `DataFrame` 对象。
+
+### 快速查看数据结构
+
+使用`DataFrame`的`head()`方法查看该数据集的前 5 行（见图 2-5）。
+
+![](img/2-5.png)
+
+图 2-5 数据集的前五行
+
+每一行都表示一个街区。共有 10 个属性（截图中可以看到 6 个）：经度、维度、房屋年龄中位数、总房间数、总卧室数、人口数、家庭数、收入中位数、房屋价值中位数、离大海距离。
+
+`info()`方法可以快速查看数据的描述，特别是总行数、每个属性的类型和非空值的数量（见图 2-6）。
+
+![](img/2-6.png)
+
+图 2-6 房屋信息
+
+数据集中共有 20640 个实例，按照机器学习的标准这个数据量很小，但是非常适合入门。我们注意到总卧室数只有 20433 个非空值，这意味着有 207 个街区缺少这个值。我们将在后面对它进行处理。
+
+所有的属性都是数值的，除了离大海距离这项。它的类型是对象，因此可以包含任意 Python 对象，但是因为该项是从 CSV 文件加载的，所以必然是文本类型。在刚才查看数据前五项时，你可能注意到那一列的值是重复的，意味着它可能是一项表示类别的属性。可以使用`value_counts()`方法查看该项中都有哪些类别，每个类别中都包含有多少个街区：
+
+```py
+>>> housing["ocean_proximity"].value_counts()
+<1H OCEAN     9136
+INLAND        6551
+NEAR OCEAN    2658
+NEAR BAY      2290
+ISLAND           5
+Name: ocean_proximity, dtype: int64
+
+```
+
+再来看其它字段。`describe()`方法展示了数值属性的概括（见图 2-7）。
+
+![](img/2-7.png)
+
+图 2-7 每个数值属性的概括
+
+`count`、`mean`、`min`和`max`几行的意思很明显了。注意，空值被忽略了（所以，卧室总数是 20433 而不是 20640）。`std`是标准差（揭示数值的分散度）。25%、50%、75% 展示了对应的分位数：每个分位数指明小于这个值，且指定分组的百分比。例如，25% 的街区的房屋年龄中位数小于 18，而 50% 的小于 29，75% 的小于 37。这些值通常称为第 25 个百分位数（或第一个四分位数），中位数，第 75 个百分位数（第三个四分位数）。
+
+另一种快速了解数据类型的方法是画出每个数值属性的柱状图。柱状图（的纵轴）展示了特定范围的实例的个数。你还可以一次给一个属性画图，或对完整数据集调用`hist()`方法，后者会画出每个数值属性的柱状图（见图 2-8）。例如，你可以看到略微超过 800 个街区的`median_house_value`值差不多等于 500000 美元。
+
+```py
+%matplotlib inline   # only in a Jupyter notebook
+import matplotlib.pyplot as plt
+housing.hist(bins=50, figsize=(20,15))
+plt.show()
+
+```
+
+![](img/2-8.png)
+
+图 2-8 每个数值属性的柱状图
+
+> 注：`hist()`方法依赖于 Matplotlib，后者依赖于用户指定的图形后端以打印到屏幕上。因此在画图之前，你要指定 Matplotlib 要使用的后端。最简单的方法是使用 Jupyter 的魔术命令`%matplotlib inline`。它会告诉 Jupyter 设定好 Matplotlib，以使用 Jupyter 自己的后端。绘图就会在笔记本中渲染了。注意在 Jupyter 中调用`show()`不是必要的，因为代码框执行后 Jupyter 会自动展示图像。
+
+注意柱状图中的一些点：
+
+1.  首先，收入中位数貌似不是美元（USD）。与数据采集团队交流之后，你被告知数据是经过缩放调整的，过高收入中位数的会变为 15（实际为 15.0001），过低的会变为 5（实际为 0.4999）。在机器学习中对数据进行预处理很正常，这不一定是个问题，但你要明白数据是如何计算出来的。
+  
+2.  房屋年龄中位数和房屋价值中位数也被设了上限。后者可能是个严重的问题，因为它是你的目标属性（你的标签）。你的机器学习算法可能学习到价格不会超出这个界限。你需要与下游团队核实，这是否会成为问题。如果他们告诉你他们需要明确的预测值，即使超过 500000 美元，你则有两个选项： 
+  
+    1.  对于设了上限的标签，重新收集合适的标签；  
+    2.  将这些街区从训练集移除（也从测试集移除，因为若房价超出 500000 美元，你的系统就会被差评）。
+    
+3.  这些属性值有不同的量度。我们会在本章后面讨论特征缩放。
+  
+4.  最后，许多柱状图的尾巴很长：相较于左边，它们在中位数的右边延伸过远。对于某些机器学习算法，这会使检测规律变得更难些。我们会在后面尝试变换处理这些属性，使其变为正态分布。
+  
+
+希望你现在对要处理的数据有一定了解了。
+
+> 警告：稍等！在你进一步查看数据之前，你需要创建一个测试集，将它放在一旁，千万不要再看它。
+
+### 创建测试集
+
+在这个阶段就分割数据，听起来很奇怪。毕竟，你只是简单快速地查看了数据而已，你需要再仔细调查下数据以决定使用什么算法。这么想是对的，但是人类的大脑是一个神奇的发现规律的系统，这意味着大脑非常容易发生过拟合：如果你查看了测试集，就会不经意地按照测试集中的规律来选择某个特定的机器学习模型。再当你使用测试集来评估误差率时，就会导致评估过于乐观，而实际部署的系统表现就会差。这称为数据透视偏差。
+
+理论上，创建测试集很简单：只要随机挑选一些实例，一般是数据集的 20%，放到一边：
+
+```py
+import numpy as np
+
+def split_train_test(data, test_ratio):
+    shuffled_indices = np.random.permutation(len(data))
+    test_set_size = int(len(data) * test_ratio)
+    test_indices = shuffled_indices[:test_set_size]
+    train_indices = shuffled_indices[test_set_size:]
+    return data.iloc[train_indices], data.iloc[test_indices]
+
+```
+
+然后可以像下面这样使用这个函数：
+
+```py
+>>> train_set, test_set = split_train_test(housing, 0.2)
+>>> print(len(train_set), "train +", len(test_set), "test")
+16512 train + 4128 test
+
+```
+
+这个方法可行，但是并不完美：如果再次运行程序，就会产生一个不同的测试集！多次运行之后，你（或你的机器学习算法）就会得到整个数据集，这是需要避免的。
+
+解决的办法之一是保存第一次运行得到的测试集，并在随后的过程加载。另一种方法是在调用`np.random.permutation()`之前，设置随机数生成器的种子（比如`np.random.seed(42)`），以产生总是相同的洗牌指数（shuffled indices）。
+
+但是如果数据集更新，这两个方法都会失效。一个通常的解决办法是使用每个实例的 ID 来判定这个实例是否应该放入测试集（假设每个实例都有唯一并且不变的 ID）。例如，你可以计算出每个实例 ID 的哈希值，只保留其最后一个字节，如果该值小于等于 51（约为 256 的 20%），就将其放入测试集。这样可以保证在多次运行中，测试集保持不变，即使更新了数据集。新的测试集会包含新实例中的 20%，但不会有之前位于训练集的实例。下面是一种可用的方法：
+
+```py
+import hashlib
+
+def test_set_check(identifier, test_ratio, hash):
+    return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio
+
+def split_train_test_by_id(data, test_ratio, id_column, hash=hashlib.md5):
+    ids = data[id_column]
+    in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio, hash))
+    return data.loc[~in_test_set], data.loc[in_test_set]
+```
+
+不过，房产数据集没有 ID 这一列。最简单的方法是使用行索引作为 ID：
+
+```py
+housing_with_id = housing.reset_index()   # adds an `index` column
+train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index")
+```
+
+如果使用行索引作为唯一识别码，你需要保证新数据都放到现有数据的尾部，且没有行被删除。如果做不到，则可以用最稳定的特征来创建唯一识别码。例如，一个区的维度和经度在几百万年之内是不变的，所以可以将两者结合成一个 ID：
+
+```py
+housing_with_id["id"] = housing["longitude"] * 1000 + housing["latitude"]
+train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "id")
+```
+
+Scikit-Learn 提供了一些函数，可以用多种方式将数据集分割成多个子集。最简单的函数是`train_test_split`，它的作用和之前的函数`split_train_test`很像，并带有其它一些功能。首先，它有一个`random_state`参数，可以设定前面讲过的随机生成器种子；第二，你可以将种子传递给多个行数相同的数据集，可以在相同的索引上分割数据集（这个功能非常有用，比如你的标签值是放在另一个`DataFrame`里的）：
+
+```py
+from sklearn.model_selection import train_test_split
+
+train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)
+```
+
+目前为止，我们采用的都是纯随机的取样方法。当你的数据集很大时（尤其是和属性数相比），这通常可行；但如果数据集不大，就会有采样偏差的风险。当一个调查公司想要对 1000 个人进行调查，它们不是在电话亭里随机选 1000 个人出来。调查公司要保证这 1000 个人对人群整体有代表性。例如，美国人口的 51.3% 是女性，48.7% 是男性。所以在美国，严谨的调查需要保证样本也是这个比例：513 名女性，487 名男性。这称作分层采样（stratified sampling）：将人群分成均匀的子分组，称为分层，从每个分层去取合适数量的实例，以保证测试集对总人数有代表性。如果调查公司采用纯随机采样，会有 12% 的概率导致采样偏差：女性人数少于 49%，或多于 54%。不管发生那种情况，调查结果都会严重偏差。
+
+假设专家告诉你，收入中位数是预测房价中位数非常重要的属性。你可能想要保证测试集可以代表整体数据集中的多种收入分类。因为收入中位数是一个连续的数值属性，你首先需要创建一个收入类别属性。再仔细地看一下收入中位数的柱状图（图 2-9）（译注：该图是对收入中位数处理过后的图）：
+
+![](img/2-9.png)
+
+图 2-9 收入分类的柱状图
+
+大多数的收入中位数的值聚集在 2-5（万美元），但是一些收入中位数会超过 6。数据集中的每个分层都要有足够的实例位于你的数据中，这点很重要。否则，对分层重要性的评估就会有偏差。这意味着，你不能有过多的分层，且每个分层都要足够大。后面的代码通过将收入中位数除以 1.5（以限制收入分类的数量），创建了一个收入类别属性，用`ceil`对值舍入（以产生离散的分类），然后将所有大于 5 的分类归入到分类 5：
+
+```py
+housing["income_cat"] = np.ceil(housing["median_income"] / 1.5)
+housing["income_cat"].where(housing["income_cat"] < 5, 5.0, inplace=True)
+```
+
+现在，就可以根据收入分类，进行分层采样。你可以使用 Scikit-Learn 的`StratifiedShuffleSplit`类：
+
+```py
+from sklearn.model_selection import StratifiedShuffleSplit
+
+split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
+
+for train_index, test_index in split.split(housing, housing["income_cat"]):
+    strat_train_set = housing.loc[train_index]
+    strat_test_set = housing.loc[test_index]
+```
+
+检查下结果是否符合预期。你可以在完整的房产数据集中查看收入分类比例：
+
+```py
+>>> housing["income_cat"].value_counts() / len(housing)
+3.0    0.350581
+2.0    0.318847
+4.0    0.176308
+5.0    0.114438
+1.0    0.039826
+Name: income_cat, dtype: float64
+```
+
+使用相似的代码，还可以测量测试集中收入分类的比例。图 2-10 对比了总数据集、分层采样的测试集、纯随机采样测试集的收入分类比例。可以看到，分层采样测试集的收入分类比例与总数据集几乎相同，而随机采样数据集偏差严重。
+
+![](img/2-10.png)
+
+图 2-10 分层采样和纯随机采样的样本偏差比较
+
+现在，你需要删除`income_cat`属性，使数据回到初始状态：
+
+```py
+for set in (strat_train_set, strat_test_set):
+    set.drop(["income_cat"], axis=1, inplace=True)
+```
+
+我们用了大量时间来生成测试集的原因是：测试集通常被忽略，但实际是机器学习非常重要的一部分。还有，生成测试集过程中的许多思路对于后面的交叉验证讨论是非常有帮助的。接下来进入下一阶段：数据探索。
+
+## 数据探索和可视化、发现规律
+
+目前为止，你只是快速查看了数据，对要处理的数据有了整体了解。现在的目标是更深的探索数据。
+
+首先，保证你将测试集放在了一旁，只是研究训练集。另外，如果训练集非常大，你可能需要再采样一个探索集，保证操作方便快速。在我们的案例中，数据集很小，所以可以在全集上直接工作。创建一个副本，以免损伤训练集：
+
+```py
+housing = strat_train_set.copy()
+```
+
+### 地理数据可视化
+
+因为存在地理信息（纬度和经度），创建一个所有街区的散点图来数据可视化是一个不错的主意（图 2-11）：
+
+```py
+housing.plot(kind="scatter", x="longitude", y="latitude")
+```
+
+![](img/2-11.png)
+
+图 2-11 数据的地理信息散点图
+
+这张图看起来很像加州，但是看不出什么特别的规律。将`alpha`设为 0.1，可以更容易看出数据点的密度（图 2-12）：
+
+```py
+housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)
+```
+
+![](img/2-12.png)
+
+图 2-12 显示高密度区域的散点图
+
+现在看起来好多了：可以非常清楚地看到高密度区域，湾区、洛杉矶和圣迭戈，以及中央谷，特别是从萨克拉门托和弗雷斯诺。
+
+通常来讲，人类的大脑非常善于发现图片中的规律，但是需要调整可视化参数使规律显现出来。
+
+现在来看房价（图 2-13）。每个圈的半径表示街区的人口（选项`s`），颜色代表价格（选项`c`）。我们用预先定义的名为`jet`的颜色图（选项`cmap`），它的范围是从蓝色（低价）到红色（高价）：
+
+```py
+housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
+    s=housing["population"]/100, label="population",
+    c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
+)
+plt.legend()
+```
+
+![](img/2-13.png)
+
+图 2-13 加州房价
+
+这张图说明房价和位置（比如，靠海）和人口密度联系密切，这点你可能早就知道。可以使用聚类算法来检测主要的聚集，用一个新的特征值测量聚集中心的距离。尽管北加州海岸区域的房价不是非常高，但离大海距离属性也可能很有用，所以这不是用一个简单的规则就可以定义的问题。
+
+### 查找关联
+
+因为数据集并不是非常大，你可以很容易地使用`corr()`方法计算出每对属性间的标准相关系数（standard correlation coefficient，也称作皮尔逊相关系数）：
+
+```py
+corr_matrix = housing.corr()
+```
+
+现在来看下每个属性和房价中位数的关联度：
+
+```py
+>>> corr_matrix["median_house_value"].sort_values(ascending=False)
+median_house_value    1.000000
+median_income         0.687170
+total_rooms           0.135231
+housing_median_age    0.114220
+households            0.064702
+total_bedrooms        0.047865
+population           -0.026699
+longitude            -0.047279
+latitude             -0.142826
+Name: median_house_value, dtype: float64
+```
+
+相关系数的范围是 -1 到 1。当接近 1 时，意味强正相关；例如，当收入中位数增加时，房价中位数也会增加。当相关系数接近 -1 时，意味强负相关；你可以看到，纬度和房价中位数有轻微的负相关性（即，越往北，房价越可能降低）。最后，相关系数接近 0，意味没有线性相关性。图 2-14 展示了相关系数在横轴和纵轴之间的不同图形。
+
+![](img/2-14.png)
+
+图 2-14 不同数据集的标准相关系数（来源：Wikipedia；公共领域图片）
+
+> 警告：相关系数只测量线性关系（如果`x`上升，`y`则上升或下降）。相关系数可能会完全忽略非线性关系（例如，如果`x`接近 0，则`y`值会变高）。在上面图片的最后一行中，他们的相关系数都接近于 0，尽管它们的轴并不独立：这些就是非线性关系的例子。另外，第二行的相关系数等于 1 或 -1；这和斜率没有任何关系。例如，你的身高（单位是英寸）与身高（单位是英尺或纳米）的相关系数就是 1。
+
+另一种检测属性间相关系数的方法是使用 Pandas 的`scatter_matrix`函数，它能画出每个数值属性对每个其它数值属性的图。因为现在共有 11 个数值属性，你可以得到`11 ** 2 = 121`张图，在一页上画不下，所以只关注几个和房价中位数最有可能相关的属性（图 2-15）：
+
+```py
+from pandas.tools.plotting import scatter_matrix
+
+attributes = ["median_house_value", "median_income", "total_rooms",
+              "housing_median_age"]
+scatter_matrix(housing[attributes], figsize=(12, 8))
+```
+
+![](img/2-15.png)
+
+图 2-15 散点矩阵
+
+如果 pandas 将每个变量对自己作图，主对角线（左上到右下）都会是直线图。所以 Pandas 展示的是每个属性的柱状图（也可以是其它的，请参考 Pandas 文档）。
+
+最有希望用来预测房价中位数的属性是收入中位数，因此将这张图放大（图 2-16）：
+
+```py
+housing.plot(kind="scatter", x="median_income",y="median_house_value",
+             alpha=0.1)
+```
+
+![](img/2-16.png)
+
+图 2-16 收入中位数 vs 房价中位数
+
+这张图说明了几点。首先，相关性非常高；可以清晰地看到向上的趋势，并且数据点不是非常分散。第二，我们之前看到的最高价，清晰地呈现为一条位于 500000 美元的水平线。这张图也呈现了一些不是那么明显的直线：一条位于 450000 美元的直线，一条位于 350000 美元的直线，一条在 280000 美元的线，和一些更靠下的线。你可能希望去除对应的街区，以防止算法重复这些巧合。
+
+### 属性组合试验
+
+希望前面的一节能教给你一些探索数据、发现规律的方法。你发现了一些数据的巧合，需要在给算法提供数据之前，将其去除。你还发现了一些属性间有趣的关联，特别是目标属性。你还注意到一些属性具有长尾分布，因此你可能要将其进行转换（例如，计算其`log`对数）。当然，不同项目的处理方法各不相同，但大体思路是相似的。
+
+给算法准备数据之前，你需要做的最后一件事是尝试多种属性组合。例如，如果你不知道某个街区有多少户，该街区的总房间数就没什么用。你真正需要的是每户有几个房间。相似的，总卧室数也不重要：你可能需要将其与房间数进行比较。每户的人口数也是一个有趣的属性组合。让我们来创建这些新的属性：
+
+```py
+housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
+housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
+housing["population_per_household"]=housing["population"]/housing["households"]
+```
+
+现在，再来看相关矩阵：
+
+```py
+>>> corr_matrix = housing.corr()
+>>> corr_matrix["median_house_value"].sort_values(ascending=False)
+median_house_value          1.000000
+median_income               0.687170
+rooms_per_household         0.199343
+total_rooms                 0.135231
+housing_median_age          0.114220
+households                  0.064702
+total_bedrooms              0.047865
+population_per_household   -0.021984
+population                 -0.026699
+longitude                  -0.047279
+latitude                   -0.142826
+bedrooms_per_room          -0.260070
+Name: median_house_value, dtype: float64
+```
+
+看起来不错！与总房间数或卧室数相比，新的`bedrooms_per_room`属性与房价中位数的关联更强。显然，卧室数/总房间数的比例越低，房价就越高。每户的房间数也比街区的总房间数的更有信息，很明显，房屋越大，房价就越高。
+
+这一步的数据探索不必非常完备，此处的目的是有一个正确的开始，快速发现规律，以得到一个合理的原型。但是这是一个交互过程：一旦你得到了一个原型，并运行起来，你就可以分析它的输出，进而发现更多的规律，然后再回到数据探索这步。
+
+## 为机器学习算法准备数据
+
+现在来为机器学习算法准备数据。不要手工来做，你需要写一些函数，理由如下：
+
++   函数可以让你在任何数据集上（比如，你下一次获取的是一个新的数据集）方便地进行重复数据转换。
+
++   你能慢慢建立一个转换函数库，可以在未来的项目中复用。
+
++   在将数据传给算法之前，你可以在实时系统中使用这些函数。
+
++   这可以让你方便地尝试多种数据转换，查看哪些转换方法结合起来效果最好。
+
+但是，还是先回到干净的训练集（通过再次复制`strat_train_set`），将预测量和标签分开，因为我们不想对预测量和目标值应用相同的转换（注意`drop()`创建了一份数据的备份，而不影响`strat_train_set`）：
+
+```py
+housing = strat_train_set.drop("median_house_value", axis=1)
+housing_labels = strat_train_set["median_house_value"].copy()
+```
+
+### 数据清洗
+
+大多机器学习算法不能处理缺失的特征，因此先创建一些函数来处理特征缺失的问题。前面，你应该注意到了属性`total_bedrooms`有一些缺失值。有三个解决选项：
+
++   去掉对应的街区；
+
++   去掉整个属性；
+
++   进行赋值（0、平均值、中位数等等）。
+
+用`DataFrame`的`dropna()`，`drop()`，和`fillna()`方法，可以方便地实现：
+
+```py
+housing.dropna(subset=["total_bedrooms"])    # 选项 1
+housing.drop("total_bedrooms", axis=1)       # 选项 2
+median = housing["total_bedrooms"].median()
+housing["total_bedrooms"].fillna(median)     # 选项 3
+```
+
+如果选择选项 3，你需要计算训练集的中位数，用中位数填充训练集的缺失值，不要忘记保存该中位数。后面用测试集评估系统时，需要替换测试集中的缺失值，也可以用来实时替换新数据中的缺失值。
+
+Scikit-Learn 提供了一个方便的类来处理缺失值：`Imputer`。下面是其使用方法：首先，需要创建一个`Imputer`实例，指定用某属性的中位数来替换该属性所有的缺失值：
+
+```py
+from sklearn.preprocessing import Imputer
+
+imputer = Imputer(strategy="median")
+```
+
+因为只有数值属性才能算出中位数，我们需要创建一份不包括文本属性`ocean_proximity`的数据副本：
+
+```py
+housing_num = housing.drop("ocean_proximity", axis=1)
+```
+
+现在，就可以用`fit()`方法将`imputer`实例拟合到训练数据：
+
+```py
+imputer.fit(housing_num)
+```
+
+`imputer`计算出了每个属性的中位数，并将结果保存在了实例变量`statistics_`中。虽然此时只有属性`total_bedrooms`存在缺失值，但我们不能确定在以后的新的数据中会不会有其他属性也存在缺失值，所以安全的做法是将`imputer`应用到每个数值：
+
+```py
+>>> imputer.statistics_
+array([ -118.51 , 34.26 , 29. , 2119. , 433. , 1164. , 408. , 3.5414])
+>>> housing_num.median().values
+array([ -118.51 , 34.26 , 29. , 2119. , 433. , 1164. , 408. , 3.5414])
+```
+
+现在，你就可以使用这个“训练过的”`imputer`来对训练集进行转换，将缺失值替换为中位数：
+
+```py
+X = imputer.transform(housing_num)
+```
+
+结果是一个包含转换后特征的普通的 Numpy 数组。如果你想将其放回到 Pandas`DataFrame`中，也很简单：
+
+```py
+housing_tr = pd.DataFrame(X, columns=housing_num.columns)
+```
+
+> Scikit-Learn 设计
+>
+> Scikit-Learn 设计的 API 设计的非常好。它的主要设计原则是：
+>
+> +   一致性：所有对象的接口一致且简单：
+> 
+>     +   估计器（estimator）。任何可以基于数据集对一些参数进行估计的对象都被称为估计器（比如，`imputer`就是个估计器）。估计本身是通过`fit()`方法，只需要一个数据集作为参数（对于监督学习算法，需要两个数据集；第二个数据集包含标签）。任何其它用来指导估计过程的参数都被当做超参数（比如`imputer`的`strategy`），并且超参数要被设置成实例变量（通常通过构造器参数设置）。
+>     +   转换器（transformer）。一些估计器（比如`imputer`）也可以转换数据集，这些估计器被称为转换器。API 也是相当简单：转换是通过`transform()`方法，被转换的数据集作为参数。返回的是经过转换的数据集。转换过程依赖学习到的参数，比如`imputer`的例子。所有的转换都有一个便捷的方法`fit_transform()`，等同于调用`fit()`再`transform()`（但有时`fit_transform()`经过优化，运行的更快）。
+>     +   预测器（predictor）。最后，一些估计器可以根据给出的数据集做预测，这些估计器称为预测器。例如，上一章的`LinearRegression`模型就是一个预测器：它根据一个国家的人均 GDP 预测生活满意度。预测器有一个`predict()`方法，可以用新实例的数据集做出相应的预测。预测器还有一个`score()`方法，可用于评估测试集（如果是监督学习算法的话，还要给出相应的标签）的预测质量。
+> 
+> +   可检验。所有估计器的超参数都可以通过实例的公共变量直接访问（比如，`imputer.strategy`），并且所有估计器学习到的参数也可以通过在实例变量名后加下划线来访问（比如，`imputer.statistics_`）。
+> 
+> +   类不可扩散。数据集被表示成 NumPy 数组或 SciPy 稀疏矩阵，而不是自制的类。超参数只是普通的 Python 字符串或数字。
+> 
+> +   可组合。尽可能使用现存的模块。例如，用任意的转换器序列加上一个估计器，就可以做成一个流水线，后面会看到例子。
+> 
+> +   合理的默认值。Scikit-Learn 给大多数参数提供了合理的默认值，很容易就能创建一个系统。
+
+### 处理文本和类别属性
+
+前面，我们丢弃了类别属性`ocean_proximity`，因为它是一个文本属性，不能计算出中位数。大多数机器学习算法更喜欢和数字打交道，所以让我们把这些文本标签转换为数字。
+
+Scikit-Learn 为这个任务提供了一个转换器`LabelEncoder`：
+
+```py
+>>> from sklearn.preprocessing import LabelEncoder
+>>> encoder = LabelEncoder()
+>>> housing_cat = housing["ocean_proximity"]
+>>> housing_cat_encoded = encoder.fit_transform(housing_cat)
+>>> housing_cat_encoded
+array([1, 1, 4, ..., 1, 0, 3])
+```
+
+> 译注:
+>
+> 在原书中使用`LabelEncoder`转换器来转换文本特征列的方式是错误的，该转换器只能用来转换标签（正如其名）。在这里使用`LabelEncoder`没有出错的原因是该数据只有一列文本特征值，在有多个文本特征列的时候就会出错。应使用`factorize()`方法来进行操作：
+>
+> ```py
+> housing_cat_encoded, housing_categories = housing_cat.factorize()
+> housing_cat_encoded[:10]
+> ```
+
+好了一些，现在就可以在任何 ML 算法里用这个数值数据了。你可以查看映射表，编码器是通过属性`classes_`来学习的（`<1H OCEAN`被映射为 0，`INLAND`被映射为 1，等等）：
+
+```py
+>>> print(encoder.classes_)
+['<1H OCEAN' 'INLAND' 'ISLAND' 'NEAR BAY' 'NEAR OCEAN']
+```
+
+这种做法的问题是，ML 算法会认为两个临近的值比两个疏远的值要更相似。显然这样不对（比如，分类 0 和分类 4 就比分类 0 和分类 1 更相似）。要解决这个问题，一个常见的方法是给每个分类创建一个二元属性：当分类是`<1H OCEAN`，该属性为 1（否则为 0），当分类是`INLAND`，另一个属性等于 1（否则为 0），以此类推。这称作独热编码（One-Hot Encoding），因为只有一个属性会等于 1（热），其余会是 0（冷）。
+
+Scikit-Learn 提供了一个编码器`OneHotEncoder`，用于将整数分类值转变为独热向量。注意`fit_transform()`用于 2D 数组，而`housing_cat_encoded`是一个 1D 数组，所以需要将其变形：
+
+```py
+>>> from sklearn.preprocessing import OneHotEncoder
+>>> encoder = OneHotEncoder()
+>>> housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1,1))
+>>> housing_cat_1hot
+<16513x5 sparse matrix of type '<class 'numpy.float64'>'
+    with 16513 stored elements in Compressed Sparse Row format>
+```
+
+注意输出结果是一个 SciPy 稀疏矩阵，而不是 NumPy 数组。当类别属性有数千个分类时，这样非常有用。经过独热编码，我们得到了一个有数千列的矩阵，这个矩阵每行只有一个 1，其余都是 0。使用大量内存来存储这些 0 非常浪费，所以稀疏矩阵只存储非零元素的位置。你可以像一个 2D 数据那样进行使用，但是如果你真的想将其转变成一个（密集的）NumPy 数组，只需调用`toarray()`方法：
+
+```py
+>>> housing_cat_1hot.toarray()
+array([[ 0.,  1.,  0.,  0.,  0.],
+       [ 0.,  1.,  0.,  0.,  0.],
+       [ 0.,  0.,  0.,  0.,  1.],
+       ...,
+       [ 0.,  1.,  0.,  0.,  0.],
+       [ 1.,  0.,  0.,  0.,  0.],
+       [ 0.,  0.,  0.,  1.,  0.]])
+```
+
+使用类`LabelBinarizer`，我们可以用一步执行这两个转换（从文本分类到整数分类，再从整数分类到独热向量）：
+
+```py
+>>> from sklearn.preprocessing import LabelBinarizer
+>>> encoder = LabelBinarizer()
+>>> housing_cat_1hot = encoder.fit_transform(housing_cat)
+>>> housing_cat_1hot
+array([[0, 1, 0, 0, 0],
+       [0, 1, 0, 0, 0],
+       [0, 0, 0, 0, 1],
+       ...,
+       [0, 1, 0, 0, 0],
+       [1, 0, 0, 0, 0],
+       [0, 0, 0, 1, 0]])
+```
+
+注意默认返回的结果是一个密集 NumPy 数组。向构造器`LabelBinarizer`传递`sparse_output=True`，就可以得到一个稀疏矩阵。
+
+> 译注:
+>
+> 在原书中使用`LabelBinarizer`的方式也是错误的，该类也应用于标签列的转换。正确做法是使用 sklearn 即将提供的`CategoricalEncoder`类。如果在你阅读此文时 sklearn 中尚未提供此类，用如下方式代替：（来自 [Pull Request #9151](https://github.com/scikit-learn/scikit-learn/pull/9151)）
+>
+> ```py
+> # Definition of the CategoricalEncoder class, copied from PR #9151.
+> # Just run this cell, or copy it to your code, do not try to understand it (yet).
+> 
+> from sklearn.base import BaseEstimator, TransformerMixin
+> from sklearn.utils import check_array
+> from sklearn.preprocessing import LabelEncoder
+> from scipy import sparse
+> 
+> class CategoricalEncoder(BaseEstimator, TransformerMixin):
+>     """Encode categorical features as a numeric array.
+>     The input to this transformer should be a matrix of integers or strings,
+>     denoting the values taken on by categorical (discrete) features.
+>     The features can be encoded using a one-hot aka one-of-K scheme
+>     (``encoding='onehot'``, the default) or converted to ordinal integers
+>     (``encoding='ordinal'``).
+>     This encoding is needed for feeding categorical data to many scikit-learn
+>     estimators, notably linear models and SVMs with the standard kernels.
+>     Read more in the :ref:`User Guide <preprocessing_categorical_features>`.
+>     Parameters
+>     ----------
+>     encoding : str, 'onehot', 'onehot-dense' or 'ordinal'
+>         The type of encoding to use (default is 'onehot'):
+>         - 'onehot': encode the features using a one-hot aka one-of-K scheme
+>           (or also called 'dummy' encoding). This creates a binary column for
+>           each category and returns a sparse matrix.
+>         - 'onehot-dense': the same as 'onehot' but returns a dense array
+>           instead of a sparse matrix.
+>         - 'ordinal': encode the features as ordinal integers. This results in
+>           a single column of integers (0 to n_categories - 1) per feature.
+>     categories : 'auto' or a list of lists/arrays of values.
+>         Categories (unique values) per feature:
+>         - 'auto' : Determine categories automatically from the training data.
+>         - list : ``categories[i]`` holds the categories expected in the ith
+>           column. The passed categories are sorted before encoding the data
+>           (used categories can be found in the ``categories_`` attribute).
+>     dtype : number type, default np.float64
+>         Desired dtype of output.
+>     handle_unknown : 'error' (default) or 'ignore'
+>         Whether to raise an error or ignore if a unknown categorical feature is
+>         present during transform (default is to raise). When this is parameter
+>         is set to 'ignore' and an unknown category is encountered during
+>         transform, the resulting one-hot encoded columns for this feature
+>         will be all zeros.
+>         Ignoring unknown categories is not supported for
+>         ``encoding='ordinal'``.
+>     Attributes
+>     ----------
+>     categories_ : list of arrays
+>         The categories of each feature determined during fitting. When
+>         categories were specified manually, this holds the sorted categories
+>         (in order corresponding with output of `transform`).
+>     Examples
+>     --------
+>     Given a dataset with three features and two samples, we let the encoder
+>     find the maximum value per feature and transform the data to a binary
+>     one-hot encoding.
+>     >>> from sklearn.preprocessing import CategoricalEncoder
+>     >>> enc = CategoricalEncoder(handle_unknown='ignore')
+>     >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
+>     ... # doctest: +ELLIPSIS
+>     CategoricalEncoder(categories='auto', dtype=<... 'numpy.float64'>,
+>               encoding='onehot', handle_unknown='ignore')
+>     >>> enc.transform([[0, 1, 1], [1, 0, 4]]).toarray()
+>     array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.],
+>            [ 0.,  1.,  1.,  0.,  0.,  0.,  0.,  0.,  0.]])
+>     See also
+>     --------
+>     sklearn.preprocessing.OneHotEncoder : performs a one-hot encoding of
+>       integer ordinal features. The ``OneHotEncoder assumes`` that input
+>       features take on values in the range ``[0, max(feature)]`` instead of
+>       using the unique values.
+>     sklearn.feature_extraction.DictVectorizer : performs a one-hot encoding of
+>       dictionary items (also handles string-valued features).
+>     sklearn.feature_extraction.FeatureHasher : performs an approximate one-hot
+>       encoding of dictionary items or strings.
+>     """
+> 
+>     def __init__(self, encoding='onehot', categories='auto', dtype=np.float64,
+>                  handle_unknown='error'):
+>         self.encoding = encoding
+>         self.categories = categories
+>         self.dtype = dtype
+>         self.handle_unknown = handle_unknown
+> 
+>     def fit(self, X, y=None):
+>         """Fit the CategoricalEncoder to X.
+>         Parameters
+>         ----------
+>         X : array-like, shape [n_samples, n_feature]
+>             The data to determine the categories of each feature.
+>         Returns
+>         -------
+>         self
+>         """
+> 
+>         if self.encoding not in ['onehot', 'onehot-dense', 'ordinal']:
+>             template = ("encoding should be either 'onehot', 'onehot-dense' "
+>                         "or 'ordinal', got %s")
+>             raise ValueError(template % self.handle_unknown)
+> 
+>         if self.handle_unknown not in ['error', 'ignore']:
+>             template = ("handle_unknown should be either 'error' or "
+>                         "'ignore', got %s")
+>             raise ValueError(template % self.handle_unknown)
+> 
+>         if self.encoding == 'ordinal' and self.handle_unknown == 'ignore':
+>             raise ValueError("handle_unknown='ignore' is not supported for"
+>                              " encoding='ordinal'")
+> 
+>         X = check_array(X, dtype=np.object, accept_sparse='csc', copy=True)
+>         n_samples, n_features = X.shape
+> 
+>         self._label_encoders_ = [LabelEncoder() for _ in range(n_features)]
+> 
+>         for i in range(n_features):
+>             le = self._label_encoders_[i]
+>             Xi = X[:, i]
+>             if self.categories == 'auto':
+>                 le.fit(Xi)
+>             else:
+>                 valid_mask = np.in1d(Xi, self.categories[i])
+>                 if not np.all(valid_mask):
+>                     if self.handle_unknown == 'error':
+>                         diff = np.unique(Xi[~valid_mask])
+>                         msg = ("Found unknown categories {0} in column {1}"
+>                                " during fit".format(diff, i))
+>                         raise ValueError(msg)
+>                 le.classes_ = np.array(np.sort(self.categories[i]))
+> 
+>         self.categories_ = [le.classes_ for le in self._label_encoders_]
+> 
+>         return self
+> 
+>     def transform(self, X):
+>         """Transform X using one-hot encoding.
+>         Parameters
+>         ----------
+>         X : array-like, shape [n_samples, n_features]
+>             The data to encode.
+>         Returns
+>         -------
+>         X_out : sparse matrix or a 2-d array
+>             Transformed input.
+>         """
+>         X = check_array(X, accept_sparse='csc', dtype=np.object, copy=True)
+>         n_samples, n_features = X.shape
+>         X_int = np.zeros_like(X, dtype=np.int)
+>         X_mask = np.ones_like(X, dtype=np.bool)
+> 
+>         for i in range(n_features):
+>             valid_mask = np.in1d(X[:, i], self.categories_[i])
+> 
+>             if not np.all(valid_mask):
+>                 if self.handle_unknown == 'error':
+>                     diff = np.unique(X[~valid_mask, i])
+>                     msg = ("Found unknown categories {0} in column {1}"
+>                            " during transform".format(diff, i))
+>                     raise ValueError(msg)
+>                 else:
+>                     # Set the problematic rows to an acceptable value and
+>                     # continue `The rows are marked `X_mask` and will be
+>                     # removed later.
+>                     X_mask[:, i] = valid_mask
+>                     X[:, i][~valid_mask] = self.categories_[i][0]
+>             X_int[:, i] = self._label_encoders_[i].transform(X[:, i])
+> 
+>         if self.encoding == 'ordinal':
+>             return X_int.astype(self.dtype, copy=False)
+> 
+>         mask = X_mask.ravel()
+>         n_values = [cats.shape[0] for cats in self.categories_]
+>         n_values = np.array([0] + n_values)
+>         indices = np.cumsum(n_values)
+> 
+>         column_indices = (X_int + indices[:-1]).ravel()[mask]
+>         row_indices = np.repeat(np.arange(n_samples, dtype=np.int32),
+>                                 n_features)[mask]
+>         data = np.ones(n_samples * n_features)[mask]
+> 
+>         out = sparse.csc_matrix((data, (row_indices, column_indices)),
+>                                 shape=(n_samples, indices[-1]),
+>                                 dtype=self.dtype).tocsr()
+>         if self.encoding == 'onehot-dense':
+>             return out.toarray()
+>         else:
+>             return out
+> ```
+>
+> 转换方法：
+>
+> ```py
+> #from sklearn.preprocessing import CategoricalEncoder # in future versions of Scikit-Learn
+> 
+> cat_encoder = CategoricalEncoder()
+> housing_cat_reshaped = housing_cat.values.reshape(-1, 1)
+> housing_cat_1hot = cat_encoder.fit_transform(housing_cat_reshaped)
+> housing_cat_1hot
+> ```
+
+### 自定义转换器
+
+尽管 Scikit-Learn 提供了许多有用的转换器，你还是需要自己动手写转换器执行任务，比如自定义的清理操作，或属性组合。你需要让自制的转换器与 Scikit-Learn 组件（比如流水线）无缝衔接工作，因为 Scikit-Learn 是依赖鸭子类型的（而不是继承），你所需要做的是创建一个类并执行三个方法：`fit()`（返回`self`），`transform()`，和`fit_transform()`。通过添加`TransformerMixin`作为基类，可以很容易地得到最后一个。另外，如果你添加`BaseEstimator`作为基类（且构造器中避免使用`*args`和`**kargs`），你就能得到两个额外的方法（`get_params() `和`set_params()`），二者可以方便地进行超参数自动微调。例如，一个小转换器类添加了上面讨论的属性：
+
+```py
+from sklearn.base import BaseEstimator, TransformerMixin
+rooms_ix, bedrooms_ix, population_ix, household_ix = 3, 4, 5, 6
+
+class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
+    def __init__(self, add_bedrooms_per_room = True): # no *args or **kargs
+        self.add_bedrooms_per_room = add_bedrooms_per_room
+    def fit(self, X, y=None):
+        return self  # nothing else to do
+    def transform(self, X, y=None):
+        rooms_per_household = X[:, rooms_ix] / X[:, household_ix]
+        population_per_household = X[:, population_ix] / X[:, household_ix]
+        if self.add_bedrooms_per_room:
+            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
+            return np.c_[X, rooms_per_household, population_per_household,
+                         bedrooms_per_room]
+        else:
+            return np.c_[X, rooms_per_household, population_per_household]
+
+attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
+housing_extra_attribs = attr_adder.transform(housing.values)
+```
+
+在这个例子中，转换器有一个超参数`add_bedrooms_per_room`，默认设为`True`（提供一个合理的默认值很有帮助）。这个超参数可以让你方便地发现添加了这个属性是否对机器学习算法有帮助。更一般地，你可以为每个不能完全确保的数据准备步骤添加一个超参数。数据准备步骤越自动化，可以自动化的操作组合就越多，越容易发现更好用的组合（并能节省大量时间）。
+
+### 特征缩放
+
+数据要做的最重要的转换之一是特征缩放。除了个别情况，当输入的数值属性量度不同时，机器学习算法的性能都不会好。这个规律也适用于房产数据：总房间数分布范围是 6 到 39320，而收入中位数只分布在 0 到 15。注意通常情况下我们不需要对目标值进行缩放。
+
+有两种常见的方法可以让所有的属性有相同的量度：线性函数归一化（Min-Max scaling）和标准化（standardization）。
+
+线性函数归一化（许多人称其为归一化（normalization））很简单：值被转变、重新缩放，直到范围变成 0 到 1。我们通过减去最小值，然后再除以最大值与最小值的差值，来进行归一化。Scikit-Learn 提供了一个转换器`MinMaxScaler`来实现这个功能。它有一个超参数`feature_range`，可以让你改变范围，如果不希望范围是 0 到 1。
+
+标准化就很不同：首先减去平均值（所以标准化值的平均值总是 0），然后除以方差，使得到的分布具有单位方差。与归一化不同，标准化不会限定值到某个特定的范围，这对某些算法可能构成问题（比如，神经网络常需要输入值得范围是 0 到 1）。但是，标准化受到异常值的影响很小。例如，假设一个街区的收入中位数由于某种错误变成了 100，归一化会将其它范围是 0 到 15 的值变为 0-0.15，但是标准化不会受什么影响。Scikit-Learn 提供了一个转换器`StandardScaler`来进行标准化。
+
+> 警告：与所有的转换一样，缩放器只能向训练集拟合，而不是向完整的数据集（包括测试集）。只有这样，你才能用缩放器转换训练集和测试集（和新数据）。
+
+### 转换流水线
+
+你已经看到，存在许多数据转换步骤，需要按一定的顺序执行。幸运的是，Scikit-Learn 提供了类`Pipeline`，来进行这一系列的转换。下面是一个数值属性的小流水线：
+
+```py
+from sklearn.pipeline import Pipeline
+from sklearn.preprocessing import StandardScaler
+
+num_pipeline = Pipeline([
+        ('imputer', Imputer(strategy="median")),
+        ('attribs_adder', CombinedAttributesAdder()),
+        ('std_scaler', StandardScaler()),
+        ])
+
+housing_num_tr = num_pipeline.fit_transform(housing_num)
+```
+
+`Pipeline`构造器需要一个定义步骤顺序的名字/估计器对的列表。除了最后一个估计器，其余都要是转换器（即，它们都要有`fit_transform()`方法）。名字可以随意起。
+
+当你调用流水线的`fit()`方法，就会对所有转换器顺序调用`fit_transform()`方法，将每次调用的输出作为参数传递给下一个调用，一直到最后一个估计器，它只执行`fit()`方法。
+
+流水线暴露相同的方法作为最终的估计器。在这个例子中，最后的估计器是一个`StandardScaler`，它是一个转换器，因此这个流水线有一个`transform()`方法，可以顺序对数据做所有转换（它还有一个`fit_transform`方法可以使用，就不必先调用`fit()`再进行`transform()`）。
+
+
+如果不需要手动将 Pandas`DataFrame`中的数值列转成 Numpy 数组的格式，而可以直接将`DataFrame`输入 pipeline 中进行处理就好了。Scikit-Learn 没有工具来处理 Pandas`DataFrame`，因此我们需要写一个简单的自定义转换器来做这项工作：
+
+```py
+from sklearn.base import BaseEstimator, TransformerMixin
+
+class DataFrameSelector(BaseEstimator, TransformerMixin):
+    def __init__(self, attribute_names):
+        self.attribute_names = attribute_names
+    def fit(self, X, y=None):
+        return self
+    def transform(self, X):
+        return X[self.attribute_names].values
+```
+每个子流水线都以一个选择转换器开始：通过选择对应的属性（数值或分类）、丢弃其它的，来转换数据，并将输出`DataFrame`转变成一个 NumPy 数组。这样，你就可以很简单的写出一个以 Pandas `DataFrame`为输入并且可以处理数值的流水线： 该流水线从`DataFrameSelector`开始获取数值属性，前面讨论过的其他数据处理步骤紧随其后。 并且你也可以通过使用`DataFrameSelector`选择类别属性并为其写另一个流水线然后应用`LabelBinarizer`.
+
+你现在就有了一个对数值的流水线，你还需要对分类值应用`LabelBinarizer`：如何将这些转换写成一个流水线呢？Scikit-Learn 提供了一个类`FeatureUnion`实现这个功能。你给它一列转换器（可以是所有的转换器），当调用它的`transform()`方法，每个转换器的`transform()`会被并行执行，等待输出，然后将输出合并起来，并返回结果（当然，调用它的`fit()`方法就会调用每个转换器的`fit()`）。一个完整的处理数值和类别属性的流水线如下所示：
+
+```py
+from sklearn.pipeline import FeatureUnion
+
+num_attribs = list(housing_num)
+cat_attribs = ["ocean_proximity"]
+
+num_pipeline = Pipeline([
+        ('selector', DataFrameSelector(num_attribs)),
+        ('imputer', Imputer(strategy="median")),
+        ('attribs_adder', CombinedAttributesAdder()),
+        ('std_scaler', StandardScaler()),
+    ])
+
+cat_pipeline = Pipeline([
+        ('selector', DataFrameSelector(cat_attribs)),
+        ('label_binarizer', LabelBinarizer()),
+    ])
+
+full_pipeline = FeatureUnion(transformer_list=[
+        ("num_pipeline", num_pipeline),
+        ("cat_pipeline", cat_pipeline),
+    ])
+```
+
+> 译注:
+>
+> 如果你在上面代码中的`cat_pipeline`流水线使用`LabelBinarizer`转换器会导致执行错误，解决方案是用上文提到的`CategoricalEncoder`转换器来代替：
+>
+> ```py
+> cat_pipeline = Pipeline([
+>         ('selector', DataFrameSelector(cat_attribs)),
+>         ('cat_encoder', CategoricalEncoder(encoding="onehot-dense")),
+>     ])
+> ```
+
+你可以很简单地运行整个流水线：
+
+```py
+>>> housing_prepared = full_pipeline.fit_transform(housing)
+>>> housing_prepared
+array([[ 0.73225807, -0.67331551,  0.58426443, ...,  0.        ,
+         0.        ,  0.        ],
+       [-0.99102923,  1.63234656, -0.92655887, ...,  0.        ,
+         0.        ,  0.        ],
+       [...]
+>>> housing_prepared.shape
+(16513, 17)
+```
+
+
+## 选择并训练模型
+
+可到这一步了！你在前面限定了问题、获得了数据、探索了数据、采样了一个测试集、写了自动化的转换流水线来清理和为算法准备数据。现在，你已经准备好选择并训练一个机器学习模型了。
+
+### 在训练集上训练和评估
+
+好消息是基于前面的工作，接下来要做的比你想的要简单许多。像前一章那样，我们先来训练一个线性回归模型：
+
+```py
+from sklearn.linear_model import LinearRegression
+
+lin_reg = LinearRegression()
+lin_reg.fit(housing_prepared, housing_labels)
+```
+
+完毕！你现在就有了一个可用的线性回归模型。用一些训练集中的实例做下验证：
+
+```py
+>>> some_data = housing.iloc[:5]
+>>> some_labels = housing_labels.iloc[:5]
+>>> some_data_prepared = full_pipeline.transform(some_data)
+>>> print("Predictions:\t", lin_reg.predict(some_data_prepared))
+Predictions:     [ 303104.   44800.  308928.  294208.  368704.]
+>>> print("Labels:\t\t", list(some_labels))
+Labels:         [359400.0, 69700.0, 302100.0, 301300.0, 351900.0]
+```
+
+行的通，尽管预测并不怎么准确（比如，第二个预测偏离了 50%！）。让我们使用 Scikit-Learn 的`mean_squared_error`函数，用全部训练集来计算下这个回归模型的 RMSE：
+
+```py
+>>> from sklearn.metrics import mean_squared_error
+>>> housing_predictions = lin_reg.predict(housing_prepared)
+>>> lin_mse = mean_squared_error(housing_labels, housing_predictions)
+>>> lin_rmse = np.sqrt(lin_mse)
+>>> lin_rmse
+68628.413493824875
+```
+
+OK，有总比没有强，但显然结果并不好：大多数街区的`median_housing_values`位于 120000 到 265000 美元之间，因此预测误差 68628 美元不能让人满意。这是一个模型欠拟合训练数据的例子。当这种情况发生时，意味着特征没有提供足够多的信息来做出一个好的预测，或者模型并不强大。就像前一章看到的，修复欠拟合的主要方法是选择一个更强大的模型，给训练算法提供更好的特征，或去掉模型上的限制。这个模型还没有正则化，所以排除了最后一个选项。你可以尝试添加更多特征（比如，人口的对数值），但是首先让我们尝试一个更为复杂的模型，看看效果。
+
+来训练一个`DecisionTreeRegressor`。这是一个强大的模型，可以发现数据中复杂的非线性关系（决策树会在第 6 章详细讲解）。代码看起来很熟悉：
+
+```py
+from sklearn.tree import DecisionTreeRegressor
+
+tree_reg = DecisionTreeRegressor()
+tree_reg.fit(housing_prepared, housing_labels)
+```
+
+现在模型就训练好了，用训练集评估下：
+
+```py
+>>> housing_predictions = tree_reg.predict(housing_prepared)
+>>> tree_mse = mean_squared_error(housing_labels, housing_predictions)
+>>> tree_rmse = np.sqrt(tree_mse)
+>>> tree_rmse
+0.0
+```
+
+等一下，发生了什么？没有误差？这个模型可能是绝对完美的吗？当然，更大可能性是这个模型严重过拟合数据。如何确定呢？如前所述，直到你准备运行一个具备足够信心的模型，都不要碰测试集，因此你需要使用训练集的部分数据来做训练，用一部分来做模型验证。
+
+### 使用交叉验证做更佳的评估
+
+评估决策树模型的一种方法是用函数`train_test_split`来分割训练集，得到一个更小的训练集和一个验证集，然后用更小的训练集来训练模型，用验证集来评估。这需要一定工作量，并不难而且也可行。
+
+另一种更好的方法是使用 Scikit-Learn 的交叉验证功能。下面的代码采用了 K 折交叉验证（K-fold cross-validation）：它随机地将训练集分成十个不同的子集，成为“折”，然后训练评估决策树模型 10 次，每次选一个不用的折来做评估，用其它 9 个来做训练。结果是一个包含 10 个评分的数组：
+
+```py
+from sklearn.model_selection import cross_val_score
+scores = cross_val_score(tree_reg, housing_prepared, housing_labels,
+                         scoring="neg_mean_squared_error", cv=10)
+tree_rmse_scores = np.sqrt(-scores)
+```
+
+> 警告：Scikit-Learn 交叉验证功能期望的是效用函数（越大越好）而不是损失函数（越低越好），因此得分函数实际上与 MSE 相反（即负值），这就是为什么前面的代码在计算平方根之前先计算`-scores`。
+
+来看下结果：
+
+```py
+>>> def display_scores(scores):
+...     print("Scores:", scores)
+...     print("Mean:", scores.mean())
+...     print("Standard deviation:", scores.std())
+...
+>>> display_scores(tree_rmse_scores)
+Scores: [ 74678.4916885   64766.2398337   69632.86942005  69166.67693232
+          71486.76507766  73321.65695983  71860.04741226  71086.32691692
+          76934.2726093   69060.93319262]
+Mean: 71199.4280043
+Standard deviation: 3202.70522793
+```
+
+现在决策树就不像前面看起来那么好了。实际上，它看起来比线性回归模型还糟！注意到交叉验证不仅可以让你得到模型性能的评估，还能测量评估的准确性（即，它的标准差）。决策树的评分大约是 71200，通常波动有`±3200`。如果只有一个验证集，就得不到这些信息。但是交叉验证的代价是训练了模型多次，不可能总是这样。
+
+让我们计算下线性回归模型的的相同分数，以做确保：
+
+```py
+>>> lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels,
+...                              scoring="neg_mean_squared_error", cv=10)
+...
+>>> lin_rmse_scores = np.sqrt(-lin_scores)
+>>> display_scores(lin_rmse_scores)
+Scores: [ 70423.5893262   65804.84913139  66620.84314068  72510.11362141
+          66414.74423281  71958.89083606  67624.90198297  67825.36117664
+          72512.36533141  68028.11688067]
+Mean: 68972.377566
+Standard deviation: 2493.98819069
+```
+
+判断没错：决策树模型过拟合很严重，它的性能比线性回归模型还差。
+
+现在再尝试最后一个模型：`RandomForestRegressor`。第 7 章我们会看到，随机森林是通过用特征的随机子集训练许多决策树。在其它多个模型之上建立模型称为集成学习（Ensemble Learning），它是推进 ML 算法的一种好方法。我们会跳过大部分的代码，因为代码本质上和其它模型一样：
+
+```py
+>>> from sklearn.ensemble import RandomForestRegressor
+>>> forest_reg = RandomForestRegressor()
+>>> forest_reg.fit(housing_prepared, housing_labels)
+>>> [...]
+>>> forest_rmse
+22542.396440343684
+>>> display_scores(forest_rmse_scores)
+Scores: [ 53789.2879722   50256.19806622  52521.55342602  53237.44937943
+          52428.82176158  55854.61222549  52158.02291609  50093.66125649
+          53240.80406125  52761.50852822]
+Mean: 52634.1919593
+Standard deviation: 1576.20472269
+```
+
+现在好多了：随机森林看起来很有希望。但是，训练集的评分仍然比验证集的评分低很多。解决过拟合可以通过简化模型，给模型加限制（即，规整化），或用更多的训练数据。在深入随机森林之前，你应该尝试下机器学习算法的其它类型模型（不同核心的支持向量机，神经网络，等等），不要在调节超参数上花费太多时间。目标是列出一个可能模型的列表（两到五个）。
+
+> 提示：你要保存每个试验过的模型，以便后续可以再用。要确保有超参数和训练参数，以及交叉验证评分，和实际的预测值。这可以让你比较不同类型模型的评分，还可以比较误差种类。你可以用 Python 的模块`pickle`，非常方便地保存 Scikit-Learn 模型，或使用`sklearn.externals.joblib`，后者序列化大 NumPy 数组更有效率：
+
+> ```py
+> from sklearn.externals import joblib
+> 
+> joblib.dump(my_model, "my_model.pkl")
+> # 然后
+> my_model_loaded = joblib.load("my_model.pkl")
+> ```
+
+## 模型微调
+
+假设你现在有了一个列表，列表里有几个有希望的模型。你现在需要对它们进行微调。让我们来看几种微调的方法。
+
+### 网格搜索
+
+微调的一种方法是手工调整超参数，直到找到一个好的超参数组合。这么做的话会非常冗长，你也可能没有时间探索多种组合。
+
+你应该使用 Scikit-Learn 的`GridSearchCV`来做这项搜索工作。你所需要做的是告诉`GridSearchCV`要试验有哪些超参数，要试验什么值，`GridSearchCV`就能用交叉验证试验所有可能超参数值的组合。例如，下面的代码搜索了`RandomForestRegressor`超参数值的最佳组合：
+
+```py
+from sklearn.model_selection import GridSearchCV
+
+param_grid = [
+    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
+    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},
+  ]
+
+forest_reg = RandomForestRegressor()
+
+grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
+                           scoring='neg_mean_squared_error')
+
+grid_search.fit(housing_prepared, housing_labels)
+```
+
+> 当你不能确定超参数该有什么值，一个简单的方法是尝试连续的 10 的幂（如果想要一个粒度更小的搜寻，可以用更小的数，就像在这个例子中对超参数`n_estimators`做的）。
+
+`param_grid`告诉 Scikit-Learn 首先评估所有的列在第一个`dict`中的`n_estimators`和`max_features`的`3 × 4 = 12`种组合（不用担心这些超参数的含义，会在第 7 章中解释）。然后尝试第二个`dict`中超参数的`2 × 3 = 6`种组合，这次会将超参数`bootstrap`设为`False`而不是`True`（后者是该超参数的默认值）。
+
+总之，网格搜索会探索`12 + 6 = 18`种`RandomForestRegressor`的超参数组合，会训练每个模型五次（因为用的是五折交叉验证）。换句话说，训练总共有`18 × 5 = 90`轮！K 折将要花费大量时间，完成后，你就能获得参数的最佳组合，如下所示：
+
+```py
+>>> grid_search.best_params_
+{'max_features': 6, 'n_estimators': 30}
+```
+
+> 提示：因为 30 是`n_estimators`的最大值，你也应该估计更高的值，因为评估的分数可能会随`n_estimators`的增大而持续提升。
+
+你还能直接得到最佳的估计器：
+
+```py
+>>> grid_search.best_estimator_
+RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
+           max_features=6, max_leaf_nodes=None, min_samples_leaf=1,
+           min_samples_split=2, min_weight_fraction_leaf=0.0,
+           n_estimators=30, n_jobs=1, oob_score=False, random_state=None,
+           verbose=0, warm_start=False)
+```
+
+> 注意：如果`GridSearchCV`是以（默认值）`refit=True`开始运行的，则一旦用交叉验证找到了最佳的估计器，就会在整个训练集上重新训练。这是一个好方法，因为用更多数据训练会提高性能。
+
+当然，也可以得到评估得分：
+
+```py
+>>> cvres = grid_search.cv_results_
+... for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
+...     print(np.sqrt(-mean_score), params)
+...
+64912.0351358 {'max_features': 2, 'n_estimators': 3}
+55535.2786524 {'max_features': 2, 'n_estimators': 10}
+52940.2696165 {'max_features': 2, 'n_estimators': 30}
+60384.0908354 {'max_features': 4, 'n_estimators': 3}
+52709.9199934 {'max_features': 4, 'n_estimators': 10}
+50503.5985321 {'max_features': 4, 'n_estimators': 30}
+59058.1153485 {'max_features': 6, 'n_estimators': 3}
+52172.0292957 {'max_features': 6, 'n_estimators': 10}
+49958.9555932 {'max_features': 6, 'n_estimators': 30}
+59122.260006 {'max_features': 8, 'n_estimators': 3}
+52441.5896087 {'max_features': 8, 'n_estimators': 10}
+50041.4899416 {'max_features': 8, 'n_estimators': 30}
+62371.1221202 {'bootstrap': False, 'max_features': 2, 'n_estimators': 3}
+54572.2557534 {'bootstrap': False, 'max_features': 2, 'n_estimators': 10}
+59634.0533132 {'bootstrap': False, 'max_features': 3, 'n_estimators': 3}
+52456.0883904 {'bootstrap': False, 'max_features': 3, 'n_estimators': 10}
+58825.665239 {'bootstrap': False, 'max_features': 4, 'n_estimators': 3}
+52012.9945396 {'bootstrap': False, 'max_features': 4, 'n_estimators': 10}
+```
+
+在这个例子中，我们通过设定超参数`max_features`为 6，`n_estimators`为 30，得到了最佳方案。对这个组合，RMSE 的值是 49959，这比之前使用默认的超参数的值（52634）要稍微好一些。祝贺你，你成功地微调了最佳模型！
+
+> 提示：不要忘记，你可以像超参数一样处理数据准备的步骤。例如，网格搜索可以自动判断是否添加一个你不确定的特征（比如，使用转换器`CombinedAttributesAdder`的超参数`add_bedrooms_per_room`）。它还能用相似的方法来自动找到处理异常值、缺失特征、特征选择等任务的最佳方法。
+
+### 随机搜索
+
+当探索相对较少的组合时，就像前面的例子，网格搜索还可以。但是当超参数的搜索空间很大时，最好使用`RandomizedSearchCV`。这个类的使用方法和类`GridSearchCV`很相似，但它不是尝试所有可能的组合，而是通过选择每个超参数的一个随机值的特定数量的随机组合。这个方法有两个优点：
+
++   如果你让随机搜索运行，比如 1000 次，它会探索每个超参数的 1000 个不同的值（而不是像网格搜索那样，只搜索每个超参数的几个值）。
+
++   你可以方便地通过设定搜索次数，控制超参数搜索的计算量。
+
+### 集成方法
+
+另一种微调系统的方法是将表现最好的模型组合起来。组合（集成）之后的性能通常要比单独的模型要好（就像随机森林要比单独的决策树要好），特别是当单独模型的误差类型不同时。我们会在第 7 章更深入地讲解这点。
+
+### 分析最佳模型和它们的误差
+
+通过分析最佳模型，常常可以获得对问题更深的了解。比如，`RandomForestRegressor`可以指出每个属性对于做出准确预测的相对重要性：
+
+```py
+>>> feature_importances = grid_search.best_estimator_.feature_importances_
+>>> feature_importances
+array([  7.14156423e-02,   6.76139189e-02,   4.44260894e-02,
+         1.66308583e-02,   1.66076861e-02,   1.82402545e-02,
+         1.63458761e-02,   3.26497987e-01,   6.04365775e-02,
+         1.13055290e-01,   7.79324766e-02,   1.12166442e-02,
+         1.53344918e-01,   8.41308969e-05,   2.68483884e-03,
+         3.46681181e-03])
+```
+
+将重要性分数和属性名放到一起：
+
+```py
+>>> extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"]
+>>> cat_one_hot_attribs = list(encoder.classes_)
+>>> attributes = num_attribs + extra_attribs + cat_one_hot_attribs
+>>> sorted(zip(feature_importances,attributes), reverse=True)
+[(0.32649798665134971, 'median_income'),
+ (0.15334491760305854, 'INLAND'),
+ (0.11305529021187399, 'pop_per_hhold'),
+ (0.07793247662544775, 'bedrooms_per_room'),
+ (0.071415642259275158, 'longitude'),
+ (0.067613918945568688, 'latitude'),
+ (0.060436577499703222, 'rooms_per_hhold'),
+ (0.04442608939578685, 'housing_median_age'),
+ (0.018240254462909437, 'population'),
+ (0.01663085833886218, 'total_rooms'),
+ (0.016607686091288865, 'total_bedrooms'),
+ (0.016345876147580776, 'households'),
+ (0.011216644219017424, '<1H OCEAN'),
+ (0.0034668118081117387, 'NEAR OCEAN'),
+ (0.0026848388432755429, 'NEAR BAY'),
+ (8.4130896890070617e-05, 'ISLAND')]
+```
+
+有了这个信息，你就可以丢弃一些不那么重要的特征（比如，显然只要一个`ocean_proximity`的类型（`ISLAND`）就够了，所以可以丢弃掉其它的）。
+
+你还应该看一下系统犯的误差，搞清为什么会有些误差，以及如何改正问题（添加更多的特征，或相反，去掉没有什么信息的特征，清洗异常值等等）。
+
+### 用测试集评估系统
+
+调节完系统之后，你终于有了一个性能足够好的系统。现在就可以用测试集评估最后的模型了。这个过程没有什么特殊的：从测试集得到预测值和标签，运行`full_pipeline`转换数据（调用`transform()`，而不是`fit_transform()`！），再用测试集评估最终模型：
+
+```py
+final_model = grid_search.best_estimator_
+
+X_test = strat_test_set.drop("median_house_value", axis=1)
+y_test = strat_test_set["median_house_value"].copy()
+
+X_test_prepared = full_pipeline.transform(X_test)
+
+final_predictions = final_model.predict(X_test_prepared)
+
+final_mse = mean_squared_error(y_test, final_predictions)
+final_rmse = np.sqrt(final_mse)   # => evaluates to 48,209.6
+```
+
+评估结果通常要比交叉验证的效果差一点，如果你之前做过很多超参数微调（因为你的系统在验证集上微调，得到了不错的性能，通常不会在未知的数据集上有同样好的效果）。这个例子不属于这种情况，但是当发生这种情况时，你一定要忍住不要调节超参数，使测试集的效果变好；这样的提升不能推广到新数据上。
+
+然后就是项目的预上线阶段：你需要展示你的方案（重点说明学到了什么、做了什么、没做什么、做过什么假设、系统的限制是什么，等等），记录下所有事情，用漂亮的图表和容易记住的表达（比如，“收入中位数是房价最重要的预测量”）做一次精彩的展示。
+
+## 启动、监控、维护系统
+
+很好，你被允许启动系统了！你需要为实际生产做好准备，特别是接入输入数据源，并编写测试。
+
+你还需要编写监控代码，以固定间隔检测系统的实时表现，当发生下降时触发报警。这对于捕获突然的系统崩溃和性能下降十分重要。做监控很常见，是因为模型会随着数据的演化而性能下降，除非模型用新数据定期训练。
+
+评估系统的表现需要对预测值采样并进行评估。这通常需要人来分析。分析者可能是领域专家，或者是众包平台（比如 Amazon Mechanical Turk 或 CrowdFlower）的工人。不管采用哪种方法，你都需要将人工评估的流水线植入系统。
+
+你还要评估系统输入数据的质量。有时因为低质量的信号（比如失灵的传感器发送随机值，或另一个团队的输出停滞），系统的表现会逐渐变差，但可能需要一段时间，系统的表现才能下降到一定程度，触发警报。如果监测了系统的输入，你就可能尽量早的发现问题。对于线上学习系统，监测输入数据是非常重要的。
+
+最后，你可能想定期用新数据训练模型。你应该尽可能自动化这个过程。如果不这么做，非常有可能你需要每隔至少六个月更新模型，系统的表现就会产生严重波动。如果你的系统是一个线上学习系统，你需要定期保存系统状态快照，好能方便地回滚到之前的工作状态。
+
+## 实践！
+
+希望这一章能告诉你机器学习项目是什么样的，你能用学到的工具训练一个好系统。你已经看到，大部分的工作是数据准备步骤、搭建监测工具、建立人为评估的流水线和自动化定期模型训练，当然，最好能了解整个过程、熟悉三或四种算法，而不是在探索高级算法上浪费全部时间，导致在全局上的时间不够。
+
+因此，如果你还没这样做，现在最好拿起台电脑，选择一个感兴趣的数据集，将整个流程从头到尾完成一遍。一个不错的着手开始的地点是竞赛网站，比如 <http://kaggle.com/>：你会得到一个数据集，一个目标，以及分享经验的人。
+
+## 练习
+
+使用本章的房产数据集：
+
+1. 尝试一个支持向量机回归器（`sklearn.svm.SVR`），使用多个超参数，比如`kernel="linear"`（多个超参数`C`值）。现在不用担心这些超参数是什么含义。最佳的`SVR`预测表现如何？
+
+2. 尝试用`RandomizedSearchCV`替换`GridSearchCV`。
+
+3. 尝试在准备流水线中添加一个只选择最重要属性的转换器。
+
+4. 尝试创建一个单独的可以完成数据准备和最终预测的流水线。
+
+5. 使用`GridSearchCV`自动探索一些准备过程中的候选项。
+
+练习题答案可以在[线上的 Jupyter 笔记本](https://github.com/ageron/handson-ml)找到。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/3.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/3.md
new file mode 100644
index 00000000..6b05a517
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/3.md
@@ -0,0 +1,690 @@
+# 三、分类
+
+> 译者：[@时间魔术师](https://github.com/hewind1992)
+> 
+> 校对者：[@Lisanaaa](https://github.com/Lisanaaa)、[@飞龙](https://github.com/wizardforcel)、[@ZTFrom1994](https://github.com/ZTFrom1994)、[@XinQiu](https://github.com/xinqiu)、[@tabeworks](https://github.com/tabeworks)、[@JasonLee](https://github.com/lxlhappylife)、[@howie.hu](https://github.com/howie6879)
+
+在第一章我们提到过最常用的监督学习任务是回归（用于预测某个值）和分类（预测某个类别）。在第二章我们探索了一个回归任务：预测房价。我们使用了多种算法，诸如线性回归，决策树，和随机森林（这个将会在后面的章节更详细地讨论）。现在我们将我们的注意力转到分类任务上。
+
+## MNIST
+
+在本章当中，我们将会使用 MNIST 这个数据集，它有着 70000 张规格较小的手写数字图片，由美国的高中生和美国人口调查局的职员手写而成。这相当于机器学习当中的“Hello World”，人们无论什么时候提出一个新的分类算法，都想知道该算法在这个数据集上的表现如何。机器学习的初学者迟早也会处理 MNIST 这个数据集。
+
+Scikit-Learn 提供了许多辅助函数，以便于下载流行的数据集。MNIST 是其中一个。下面的代码获取 MNIST
+
+```py
+>>> from sklearn.datasets import fetch_mldata
+>>> mnist = fetch_mldata('MNIST original')
+>>> mnist
+{'COL_NAMES': ['label', 'data'],
+'DESCR': 'mldata.org dataset: mnist-original',
+'data': array([[0, 0, 0, ..., 0, 0, 0],
+                [0, 0, 0, ..., 0, 0, 0],
+                [0, 0, 0, ..., 0, 0, 0],
+                ...,
+                [0, 0, 0, ..., 0, 0, 0],
+                [0, 0, 0, ..., 0, 0, 0],
+                [0, 0, 0, ..., 0, 0, 0]], dtype=uint8),
+'target': array([ 0., 0., 0., ..., 9., 9., 9.])}
+```
+
+一般而言，由 sklearn 加载的数据集有着相似的字典结构，这包括：
+- `DESCR`键描述数据集
+- `data`键存放一个数组，数组的一行表示一个样例，一列表示一个特征
+- `target`键存放一个标签数组
+
+让我们看一下这些数组
+
+```py
+>>> X, y = mnist["data"], mnist["target"]
+>>> X.shape
+(70000, 784)
+>>> y.shape
+(70000,)
+```
+
+MNIST 有 70000 张图片，每张图片有 784 个特征。这是因为每个图片都是`28*28`像素的，并且每个像素的值介于 0~255 之间。让我们看一看数据集的某一个数字。你只需要将某个实例的特征向量，`reshape`为`28*28`的数组，然后使用 Matplotlib 的`imshow`函数展示出来。
+```
+
+%matplotlib inline
+import matplotlib
+import matplotlib.pyplot as plt
+some_digit = X[36000]
+some_digit_image = some_digit.reshape(28, 28)
+plt.imshow(some_digit_image, cmap = matplotlib.cm.binary, interpolation="nearest")
+plt.axis("off")
+plt.show()
+```
+
+
+![](img/chapter3.1.jpeg)
+
+这看起来像个 5，实际上它的标签告诉我们：
+
+```
+>>> y[36000]
+5.0
+```
+
+图 3-1 展示了一些来自 MNIST 数据集的图片。当你处理更加复杂的分类任务的时候，它会让你更有感觉。
+
+![](img/chapter3.2.jpeg)
+
+
+先等一下！你总是应该先创建测试集，并且在验证数据之前先把测试集晾到一边。MNIST 数据集已经事先被分成了一个训练集（前 60000 张图片）和一个测试集（最后 10000 张图片）
+
+```py
+X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
+```
+
+
+让我们打乱训练集。这可以保证交叉验证的每一折都是相似（你不会期待某一折缺少某类数字）。而且，一些学习算法对训练样例的顺序敏感，当它们在一行当中得到许多相似的样例，这些算法将会表现得非常差。打乱数据集将保证这种情况不会发生。
+
+```py
+import numpy as np
+
+shuffle_index = np.random.permutation(60000)
+X_train, y_train = X_train[shuffle_index], y_train[shuffle_index]
+```
+
+
+## 训练一个二分类器
+
+现在我们简化一下问题，只尝试去识别一个数字，比如说，数字 5。这个“数字 5 检测器”就是一个二分类器，能够识别两类别，“是 5”和“非 5”。让我们为这个分类任务创建目标向量：
+
+```py
+y_train_5 = (y_train == 5) # True for all 5s, False for all other digits.
+y_test_5 = (y_test == 5)
+```
+
+
+现在让我们挑选一个分类器去训练它。用随机梯度下降分类器 SGD，是一个不错的开始。使用 Scikit-Learn 的`SGDClassifier`类。这个分类器有一个好处是能够高效地处理非常大的数据集。这部分原因在于 SGD 一次只处理一条数据，这也使得 SGD 适合在线学习（online learning）。我们在稍后会看到它。让我们创建一个`SGDClassifier`和在整个数据集上训练它。
+
+```py
+from sklearn.linear_model import SGDClassifier
+sgd_clf = SGDClassifier(random_state=42)
+sgd_clf.fit(X_train, y_train_5)
+```
+
+
+> `SGDClassifier`依赖于训练集的随机程度（所以被命名为 stochastic，随机之义）。如果你想重现结果，你应该固定参数`random_state` 
+
+现在你可以用它来查出数字 5 的图片。
+
+```py
+>>> sgd_clf.predict([some_digit])
+array([ True], dtype=bool)
+```
+
+分类器猜测这个数字代表 5（`True`）。看起来在这个例子当中，它猜对了。现在让我们评估这个模型的性能。
+
+## 对性能的评估
+
+评估一个分类器，通常比评估一个回归器更加玄学。所以我们将会花大量的篇幅在这个话题上。有许多量度性能的方法，所以拿来一杯咖啡和准备学习许多新概念和首字母缩略词吧。
+
+### 使用交叉验证测量准确性
+
+评估一个模型的好方法是使用交叉验证，就像第二章所做的那样。
+
+### 实现交叉验证
+
+在交叉验证过程中，有时候你会需要更多的控制权，相较于函数`cross_val_score()`或者其他相似函数所提供的功能。这种情况下，你可以实现你自己版本的交叉验证。事实上它相当简单。以下代码粗略地做了和`cross_val_score()`相同的事情，并且输出相同的结果。
+
+```py
+from sklearn.model_selection import StratifiedKFold
+from sklearn.base import clone
+skfolds = StratifiedKFold(n_splits=3, random_state=42)
+for train_index, test_index in skfolds.split(X_train, y_train_5):
+    clone_clf = clone(sgd_clf)
+    X_train_folds = X_train[train_index]
+    y_train_folds = (y_train_5[train_index])
+    X_test_fold = X_train[test_index]
+    y_test_fold = (y_train_5[test_index])
+    clone_clf.fit(X_train_folds, y_train_folds)
+    y_pred = clone_clf.predict(X_test_fold)
+    n_correct = sum(y_pred == y_test_fold)
+    print(n_correct / len(y_pred)) # prints 0.9502, 0.96565 and 0.96495
+```
+
+> `StratifiedKFold`类实现了分层采样（详见第二章的解释），生成的折（fold）包含了各类相应比例的样例。在每一次迭代，上述代码生成分类器的一个克隆版本，在训练折（training folds）的克隆版本上进行训练，在测试折（test folds）上进行预测。然后它计算出被正确预测的数目和输出正确预测的比例。
+
+让我们使用`cross_val_score()`函数来评估`SGDClassifier`模型，同时使用 K 折交叉验证，此处让`k=3`。记住：K 折交叉验证意味着把训练集分成 K 折（此处 3 折），然后使用一个模型对其中一折进行预测，对其他折进行训练。
+
+```py
+>>> from sklearn.model_selection import cross_val_score
+>>> cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")
+array([ 0.9502 , 0.96565, 0.96495]
+```
+
+哇！在交叉验证上有大于 95% 的精度（accuracy）？这看起来很令人吃惊。先别高兴，让我们来看一个非常笨的分类器去分类，看看其在“非 5”这个类上的表现。
+
+```py
+from sklearn.base import BaseEstimator
+class Never5Classifier(BaseEstimator):
+    def fit(self, X, y=None):
+        pass
+    def predict(self, X):
+        return np.zeros((len(X), 1), dtype=bool)
+```
+
+你能猜到这个模型的精度吗？揭晓谜底：
+
+```py
+>>> never_5_clf = Never5Classifier()
+>>> cross_val_score(never_5_clf, X_train, y_train_5, cv=3, scoring="accuracy")
+array([ 0.909 , 0.90715, 0.9128 ])
+```
+
+没错，这个笨的分类器也有 90% 的精度。这是因为只有 10% 的图片是数字 5，所以你总是猜测某张图片不是 5，你也会有 90% 的可能性是对的。
+
+这证明了为什么精度通常来说不是一个好的性能度量指标，特别是当你处理有偏差的数据集，比方说其中一些类比其他类频繁得多。
+
+### 混淆矩阵
+
+对分类器来说，一个好得多的性能评估指标是混淆矩阵。大体思路是：输出类别 A 被分类成类别 B 的次数。举个例子，为了知道分类器将 5 误分为 3 的次数，你需要查看混淆矩阵的第五行第三列。
+
+为了计算混淆矩阵，首先你需要有一系列的预测值，这样才能将预测值与真实值做比较。你或许想在测试集上做预测。但是我们现在先不碰它。（记住，只有当你处于项目的尾声，当你准备上线一个分类器的时候，你才应该使用测试集）。相反，你应该使用`cross_val_predict()`函数
+
+```py
+from sklearn.model_selection import cross_val_predict
+y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
+```
+
+就像 `cross_val_score()`，`cross_val_predict()`也使用 K 折交叉验证。它不是返回一个评估分数，而是返回基于每一个测试折做出的一个预测值。这意味着，对于每一个训练集的样例，你得到一个干净的预测（“干净”是说一个模型在训练过程当中没有用到测试集的数据）。
+
+现在使用 `confusion_matrix()`函数，你将会得到一个混淆矩阵。传递目标类(`y_train_5`)和预测类（`y_train_pred`）给它。
+
+```py
+>>> from sklearn.metrics import confusion_matrix
+>>> confusion_matrix(y_train_5, y_train_pred)
+array([[53272, 1307],
+        [ 1077, 4344]])
+```
+
+
+混淆矩阵中的每一行表示一个实际的类, 而每一列表示一个预测的类。该矩阵的第一行认为“非 5”（反例）中的 53272 张被正确归类为 “非 5”（他们被称为真反例，true negatives）, 而其余 1307 被错误归类为"是 5" （假正例，false positives）。第二行认为“是 5” （正例）中的 1077 被错误地归类为“非 5”（假反例，false negatives），其余 4344 正确分类为 “是 5”类（真正例，true positives）。一个完美的分类器将只有真反例和真正例，所以混淆矩阵的非零值仅在其主对角线（左上至右下）。
+
+
+```py
+>>> confusion_matrix(y_train_5, y_train_perfect_predictions)
+array([[54579, 0],
+        [ 0, 5421]])
+```
+
+
+混淆矩阵可以提供很多信息。有时候你会想要更加简明的指标。一个有趣的指标是正例预测的精度，也叫做分类器的准确率（precision）。
+
+公式 3-1 准确率
+
+![](img/tex-96d2dbcd621a2da7cff58eaed68d87c2.gif)
+
+其中`TP`是真正例的数目，`FP`是假正例的数目。
+
+想要一个完美的准确率，一个平凡的方法是构造一个单一正例的预测和确保这个预测是正确的（`precision = 1/1 = 100%`）。但是这什么用，因为分类器会忽略所有样例，除了那一个正例。所以准确率一般会伴随另一个指标一起使用，这个指标叫做召回率（recall），也叫做敏感度（sensitivity）或者真正例率（true positive rate， TPR）。这是正例被分类器正确探测出的比率。
+
+公式 3-2 Recall
+
+![](img/tex-9fc030ab004eb3b12a815227ce62da52.gif)
+
+`FN`是假反例的数目。
+
+如果你对于混淆矩阵感到困惑，图 3-2 将对你有帮助
+
+![](img/chapter3.3.jpeg)
+
+### 准确率与召回率
+
+Scikit-Learn 提供了一些函数去计算分类器的指标，包括准确率和召回率。
+
+```py
+>>> from sklearn.metrics import precision_score, recall_score
+>>> precision_score(y_train_5, y_pred) # == 4344 / (4344 + 1307)
+0.76871350203503808
+>>> recall_score(y_train_5, y_train_pred) # == 4344 / (4344 + 1077)
+0.79136690647482011
+```
+
+当你去观察精度的时候，你的“数字 5 探测器”看起来还不够好。当它声明某张图片是 5 的时候，它只有 77% 的可能性是正确的。而且，它也只检测出“是 5”类图片当中的 79%。
+
+通常结合准确率和召回率会更加方便，这个指标叫做“F1 值”，特别是当你需要一个简单的方法去比较两个分类器的优劣的时候。F1 值是准确率和召回率的调和平均。普通的平均值平等地看待所有的值，而调和平均会给小的值更大的权重。所以，要想分类器得到一个高的 F1 值，需要召回率和准确率同时高。
+
+公式 3-3 F1 值
+
+![](img/tex-dba6270fb2a2c1da75f72bdd3137f6ec.gif)
+
+为了计算 F1 值，简单调用`f1_score()`
+
+```py
+>>> from sklearn.metrics import f1_score
+>>> f1_score(y_train_5, y_train_pred)
+0.78468208092485547
+```
+
+F1 支持那些有着相近准确率和召回率的分类器。这不会总是你想要的。有的场景你会绝大程度地关心准确率，而另外一些场景你会更关心召回率。举例子，如果你训练一个分类器去检测视频是否适合儿童观看，你会倾向选择那种即便拒绝了很多好视频、但保证所保留的视频都是好（高准确率）的分类器，而不是那种高召回率、但让坏视频混入的分类器（这种情况下你或许想增加人工去检测分类器选择出来的视频）。另一方面，加入你训练一个分类器去检测监控图像当中的窃贼，有着 30% 准确率、99% 召回率的分类器或许是合适的（当然，警卫会得到一些错误的报警，但是几乎所有的窃贼都会被抓到）。
+
+不幸的是，你不能同时拥有两者。增加准确率会降低召回率，反之亦然。这叫做准确率与召回率之间的折衷。
+
+### 准确率/召回率之间的折衷
+
+为了弄懂这个折衷，我们看一下`SGDClassifier`是如何做分类决策的。对于每个样例，它根据决策函数计算分数,如果这个分数大于一个阈值，它会将样例分配给正例，否则它将分配给反例。图 3-3 显示了几个数字从左边的最低分数排到右边的最高分。假设决策阈值位于中间的箭头（介于两个 5 之间）：您将发现 4 个真正例（数字 5）和一个假正例（数字 6）在该阈值的右侧。因此,使用该阈值,准确率为 80%（`4/5`）。但实际有 6 个数字 5，分类器只检测 4 个, 所以召回是 67%（`4/6`）。现在，如果你
+提高阈值（移动到右侧的箭头），假正例（数字 6）成为一个真反例，从而提高准确率（在这种情况下高达 100%），但一个真正例 变成假反例，召回率降低到 50%。相反，降低阈值可提高召回率、降低准确率。
+
+![](img/chapter3.3-3.jpeg)
+
+Scikit-Learn 不让你直接设置阈值，但是它给你提供了设置决策分数的方法，这个决策分数可以用来产生预测。它不是调用分类器的`predict()`方法，而是调用`decision_function()`方法。这个方法返回每一个样例的分数值，然后基于这个分数值，使用你想要的任何阈值做出预测。
+
+
+```py
+>>> y_scores = sgd_clf.decision_function([some_digit])
+>>> y_scores
+array([ 161855.74572176])
+>>> threshold = 0
+>>> y_some_digit_pred = (y_scores > threshold)
+array([ True], dtype=bool)
+```
+
+`SGDClassifier`用了一个等于 0 的阈值，所以前面的代码返回了跟`predict()`方法一样的结果（都返回了`true`）。让我们提高这个阈值：
+
+```py
+>>> threshold = 200000
+>>> y_some_digit_pred = (y_scores > threshold)
+>>> y_some_digit_pred
+array([False], dtype=bool)
+```
+
+这证明了提高阈值会降调召回率。这个图片实际就是数字 5，当阈值等于 0 的时候，分类器可以探测到这是一个 5，当阈值提高到 20000 的时候，分类器将不能探测到这是数字 5。
+
+那么，你应该如何使用哪个阈值呢？首先，你需要再次使用`cross_val_predict()`得到每一个样例的分数值，但是这一次指定返回一个决策分数，而不是预测值。
+
+```py
+y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, 
+                            method="decision_function")
+```
+
+现在有了这些分数值。对于任何可能的阈值，使用`precision_recall_curve()`,你都可以计算准确率和召回率:
+
+```py
+from sklearn.metrics import precision_recall_curve
+precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)
+```
+
+最后，你可以使用 Matplotlib 画出准确率和召回率（图 3-4），这里把准确率和召回率当作是阈值的一个函数。
+
+```py
+def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
+    plt.plot(thresholds, precisions[:-1], "b--", label="Precision")
+    plt.plot(thresholds, recalls[:-1], "g-", label="Recall")
+    plt.xlabel("Threshold")
+    plt.legend(loc="upper left")
+    plt.ylim([0, 1])
+plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
+plt.show()
+```
+
+
+![](img/chapter3.4.jpeg)
+
+> 你也许会好奇为什么准确率曲线比召回率曲线更加起伏不平。原因是准确率有时候会降低，尽管当你提高阈值的时候，通常来说准确率会随之提高。回头看图 3-3，留意当你从中间箭头开始然后向右移动一个数字会发生什么： 准确率会由`4/5`（80%）降到`3/4`（75%）。另一方面，当阈值提高时候，召回率只会降低。这也就说明了为什么召回率的曲线更加平滑。
+
+现在你可以选择适合你任务的最佳阈值。另一个选出好的准确率/召回率折衷的方法是直接画出准确率对召回率的曲线，如图 3-5 所示。
+
+![](img/chapter3.5.jpeg)
+
+可以看到，在召回率在 80% 左右的时候，准确率急剧下降。你可能会想选择在急剧下降之前选择出一个准确率/召回率折衷点。比如说，在召回率 60% 左右的点。当然，这取决于你的项目需求。
+
+我们假设你决定达到 90% 的准确率。你查阅第一幅图（放大一些），在 70000 附近找到一个阈值。为了作出预测（目前为止只在训练集上预测），你可以运行以下代码，而不是运行分类器的`predict()`方法。
+
+```py
+y_train_pred_90 = (y_scores > 70000)
+```
+
+让我们检查这些预测的准确率和召回率：
+
+```py
+>>> precision_score(y_train_5, y_train_pred_90)
+0.8998702983138781
+>>> recall_score(y_train_5, y_train_pred_90)
+0.63991883416343853
+```
+
+
+很棒！你拥有了一个（近似） 90% 准确率的分类器。它相当容易去创建一个任意准确率的分类器，只要将阈值设置得足够高。但是，一个高准确率的分类器不是非常有用，如果它的召回率太低！
+
+> 如果有人说“让我们达到 99% 的准确率”，你应该问“相应的召回率是多少？”
+
+### ROC 曲线
+
+受试者工作特征（ROC）曲线是另一个二分类器常用的工具。它非常类似与准确率/召回率曲线，但不是画出准确率对召回率的曲线，ROC 曲线是真正例率（true positive rate，另一个名字叫做召回率）对假正例率（false positive rate, FPR）的曲线。FPR 是反例被错误分成正例的比率。它等于 1 减去真反例率（true negative rate， TNR）。TNR 是反例被正确分类的比率。TNR 也叫做特异性。所以 ROC 曲线画出召回率对（1 减特异性）的曲线。
+
+为了画出 ROC 曲线，你首先需要计算各种不同阈值下的 TPR、FPR，使用`roc_curve()`函数：
+
+```py
+from sklearn.metrics import roc_curve
+fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)
+```
+
+然后你可以使用 matplotlib，画出 FPR 对 TPR 的曲线。下面的代码生成图 3-6.
+
+```py
+def plot_roc_curve(fpr, tpr, label=None):
+    plt.plot(fpr, tpr, linewidth=2, label=label)
+    plt.plot([0, 1], [0, 1], 'k--')
+    plt.axis([0, 1, 0, 1])
+    plt.xlabel('False Positive Rate')
+    plt.ylabel('True Positive Rate')
+plot_roc_curve(fpr, tpr)
+plt.show()
+```
+
+
+![](img/chapter3.6.jpeg)
+
+这里同样存在折衷的问题：召回率（TPR）越高，分类器就会产生越多的假正例（FPR）。图中的点线是一个完全随机的分类器生成的 ROC 曲线；一个好的分类器的 ROC 曲线应该尽可能远离这条线（即向左上角方向靠拢）。
+
+一个比较分类器之间优劣的方法是：测量 ROC 曲线下的面积（AUC）。一个完美的分类器的 ROC AUC 等于 1，而一个纯随机分类器的 ROC AUC 等于 0.5。Scikit-Learn 提供了一个函数来计算 ROC AUC：
+
+```py
+>>> from sklearn.metrics import roc_auc_score
+>>> roc_auc_score(y_train_5, y_scores)
+0.97061072797174941
+```
+
+
+因为 ROC 曲线跟准确率/召回率曲线（或者叫 PR）很类似，你或许会好奇如何决定使用哪一个曲线呢？一个笨拙的规则是，优先使用 PR 曲线当正例很少，或者当你关注假正例多于假反例的时候。其他情况使用 ROC 曲线。举例子，回顾前面的 ROC 曲线和 ROC AUC 数值，你或许认为这个分类器很棒。但是这几乎全是因为只有少数正例（“是 5”），而大部分是反例（“非 5”）。相反，PR 曲线清楚显示出这个分类器还有很大的改善空间（PR 曲线应该尽可能地靠近右上角）。
+
+
+让我们训练一个`RandomForestClassifier`，然后拿它的的 ROC 曲线和 ROC AUC 数值去跟`SGDClassifier`的比较。首先你需要得到训练集每个样例的数值。但是由于随机森林分类器的工作方式，`RandomForestClassifier`不提供`decision_function()`方法。相反，它提供了`predict_proba()`方法。Skikit-Learn 分类器通常二者中的一个。`predict_proba()`方法返回一个数组，数组的每一行代表一个样例，每一列代表一个类。数组当中的值的意思是：给定一个样例属于给定类的概率。比如，70% 的概率这幅图是数字 5。
+
+```py
+from sklearn.ensemble import RandomForestClassifier
+forest_clf = RandomForestClassifier(random_state=42)
+y_probas_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3,
+                                    method="predict_proba")
+```
+
+但是要画 ROC 曲线，你需要的是样例的分数，而不是概率。一个简单的解决方法是使用正例的概率当作样例的分数。
+
+```py
+y_scores_forest = y_probas_forest[:, 1] # score = proba of positive class
+fpr_forest, tpr_forest, thresholds_forest = roc_curve(y_train_5,y_scores_forest)
+```
+
+现在你即将得到 ROC 曲线。将前面一个分类器的 ROC 曲线一并画出来是很有用的，可以清楚地进行比较。见图 3-7。
+
+```py
+plt.plot(fpr, tpr, "b:", label="SGD")
+plot_roc_curve(fpr_forest, tpr_forest, "Random Forest")
+plt.legend(loc="bottom right")
+plt.show()
+```
+
+
+![](img/chapter3.7.jpeg)
+
+如你所见，`RandomForestClassifier`的 ROC 曲线比`SGDClassifier`的好得多：它更靠近左上角。所以，它的 ROC AUC 也会更大。
+
+```py
+>>> roc_auc_score(y_train_5, y_scores_forest)
+0.99312433660038291
+```
+
+计算一下准确率和召回率：98.5% 的准确率，82.8% 的召回率。还不错。
+
+现在你知道如何训练一个二分类器，选择合适的标准，使用交叉验证去评估你的分类器，选择满足你需要的准确率/召回率折衷方案，和比较不同模型的 ROC 曲线和 ROC AUC 数值。现在让我们检测更多的数字，而不仅仅是一个数字 5。
+
+## 多类分类
+
+二分类器只能区分两个类，而多类分类器（也被叫做多项式分类器）可以区分多于两个类。
+
+一些算法（比如随机森林分类器或者朴素贝叶斯分类器）可以直接处理多类分类问题。其他一些算法（比如 SVM 分类器或者线性分类器）则是严格的二分类器。然后，有许多策略可以让你用二分类器去执行多类分类。
+
+举例子，创建一个可以将图片分成 10 类（从 0 到 9）的系统的一个方法是：训练 10 个二分类器，每一个对应一个数字（探测器 0，探测器 1，探测器 2，以此类推）。然后当你想对某张图片进行分类的时候，让每一个分类器对这个图片进行分类，选出决策分数最高的那个分类器。这叫做“一对所有”（OvA）策略（也被叫做“一对其他”）。
+
+另一个策略是对每一对数字都训练一个二分类器：一个分类器用来处理数字 0 和数字 1，一个用来处理数字 0 和数字 2，一个用来处理数字 1 和 2，以此类推。这叫做“一对一”（OvO）策略。如果有 N 个类。你需要训练`N*(N-1)/2`个分类器。对于 MNIST 问题，需要训练 45 个二分类器！当你想对一张图片进行分类，你必须将这张图片跑在全部 45 个二分类器上。然后看哪个类胜出。OvO 策略的主要优点是：每个分类器只需要在训练集的部分数据上面进行训练。这部分数据是它所需要区分的那两个类对应的数据。
+
+一些算法（比如 SVM 分类器）在训练集的大小上很难扩展，所以对于这些算法，OvO 是比较好的，因为它可以在小的数据集上面可以更多地训练，较之于巨大的数据集而言。但是，对于大部分的二分类器来说，OvA 是更好的选择。
+
+Scikit-Learn 可以探测出你想使用一个二分类器去完成多分类的任务，它会自动地执行 OvA（除了 SVM 分类器，它使用 OvO）。让我们试一下`SGDClassifier`.
+
+```py
+>>> sgd_clf.fit(X_train, y_train) # y_train, not y_train_5
+>>> sgd_clf.predict([some_digit])
+array([ 5.])
+```
+
+很容易。上面的代码在训练集上训练了一个`SGDClassifier`。这个分类器处理原始的目标类，从 0 到 9（`y_train`），而不是仅仅探测是否为 5 （`y_train_5`）。然后它做出一个判断（在这个案例下只有一个正确的数字）。在幕后，Scikit-Learn 实际上训练了 10 个二分类器，每个分类器都产到一张图片的决策数值，选择数值最高的那个类。
+
+为了证明这是真实的，你可以调用`decision_function()`方法。不是返回每个样例的一个数值，而是返回 10 个数值，一个数值对应于一个类。
+
+```py
+>>> some_digit_scores = sgd_clf.decision_function([some_digit])
+>>> some_digit_scores
+array([[-311402.62954431, -363517.28355739, -446449.5306454 ,
+        -183226.61023518, -414337.15339485, 161855.74572176,
+        -452576.39616343, -471957.14962573, -518542.33997148,
+        -536774.63961222]])
+```
+
+最高数值是对应于类别 5 ：
+
+```py
+>>> np.argmax(some_digit_scores)
+5
+>>> sgd_clf.classes_
+array([ 0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])
+>>> sgd_clf.classes_[5]
+5.0
+```
+
+> 一个分类器被训练好了之后，它会保存目标类别列表到它的属性`classes_` 中去，按照值排序。在本例子当中，在`classes_` 数组当中的每个类的索引方便地匹配了类本身，比如，索引为 5 的类恰好是类别 5 本身。但通常不会这么幸运。
+
+如果你想强制 Scikit-Learn 使用 OvO 策略或者 OvA 策略，你可以使用`OneVsOneClassifier`类或者`OneVsRestClassifier`类。创建一个样例，传递一个二分类器给它的构造函数。举例子，下面的代码会创建一个多类分类器，使用 OvO 策略，基于`SGDClassifier`。
+
+```py
+>>> from sklearn.multiclass import OneVsOneClassifier
+>>> ovo_clf = OneVsOneClassifier(SGDClassifier(random_state=42))
+>>> ovo_clf.fit(X_train, y_train)
+>>> ovo_clf.predict([some_digit])
+array([ 5.])
+>>> len(ovo_clf.estimators_)
+45
+```
+
+训练一个`RandomForestClassifier`同样简单：
+
+```py
+>>> forest_clf.fit(X_train, y_train)
+>>> forest_clf.predict([some_digit])
+array([ 5.])
+```
+
+这次 Scikit-Learn 没有必要去运行 OvO 或者 OvA，因为随机森林分类器能够直接将一个样例分到多个类别。你可以调用`predict_proba()`，得到样例对应的类别的概率值的列表：
+
+```py
+>>> forest_clf.predict_proba([some_digit])
+array([[ 0.1, 0. , 0. , 0.1, 0. , 0.8, 0. , 0. , 0. , 0. ]])
+```
+
+你可以看到这个分类器相当确信它的预测：在数组的索引 5 上的 0.8，意味着这个模型以 80% 的概率估算这张图片代表数字 5。它也认为这个图片可能是数字 0 或者数字 3，分别都是 10% 的几率。
+
+现在当然你想评估这些分类器。像平常一样，你想使用交叉验证。让我们用`cross_val_score()`来评估`SGDClassifier`的精度。
+
+```py
+>>> cross_val_score(sgd_clf, X_train, y_train, cv=3, scoring="accuracy")
+array([ 0.84063187, 0.84899245, 0.86652998])
+```
+
+在所有测试折（test fold）上，它有 84% 的精度。如果你是用一个随机的分类器，你将会得到 10% 的正确率。所以这不是一个坏的分数，但是你可以做的更好。举例子，简单将输入正则化，将会提高精度到 90% 以上。
+
+```py
+>>> from sklearn.preprocessing import StandardScaler
+>>> scaler = StandardScaler()
+>>> X_train_scaled = scaler.fit_transform(X_train.astype(np.float64))
+>>> cross_val_score(sgd_clf, X_train_scaled, y_train, cv=3, scoring="accuracy")
+array([ 0.91011798, 0.90874544, 0.906636 ])
+```
+
+
+## 误差分析
+
+当然，如果这是一个实际的项目，你会在你的机器学习项目当中，跟随以下步骤（见附录 B）：探索准备数据的候选方案，尝试多种模型，把最好的几个模型列为入围名单，用`GridSearchCV`调试超参数，尽可能地自动化，像你前面的章节做的那样。在这里，我们假设你已经找到一个不错的模型，你试图找到方法去改善它。一个方式是分析模型产生的误差的类型。
+
+首先，你可以检查混淆矩阵。你需要使用`cross_val_predict()`做出预测，然后调用`confusion_matrix()`函数，像你早前做的那样。
+
+```py
+>>> y_train_pred = cross_val_predict(sgd_clf, X_train_scaled, y_train, cv=3)
+>>> conf_mx = confusion_matrix(y_train, y_train_pred)
+>>> conf_mx
+array([[5725, 3, 24, 9, 10, 49, 50, 10, 39, 4],
+        [ 2, 6493, 43, 25, 7, 40, 5, 10, 109, 8],
+        [ 51, 41, 5321, 104, 89, 26, 87, 60, 166, 13],
+        [ 47, 46, 141, 5342, 1, 231, 40, 50, 141, 92],
+        [ 19, 29, 41, 10, 5366, 9, 56, 37, 86, 189],
+        [ 73, 45, 36, 193, 64, 4582, 111, 30, 193, 94],
+        [ 29, 34, 44, 2, 42, 85, 5627, 10, 45, 0],
+        [ 25, 24, 74, 32, 54, 12, 6, 5787, 15, 236],
+        [ 52, 161, 73, 156, 10, 163, 61, 25, 5027, 123],
+        [ 43, 35, 26, 92, 178, 28, 2, 223, 82, 5240]])
+```
+
+这里是一对数字。使用 Matplotlib 的`matshow()`函数，将混淆矩阵以图像的方式呈现，将会更加方便。
+
+```py
+plt.matshow(conf_mx, cmap=plt.cm.gray)
+plt.show()
+```
+
+
+![](img/chapter3.8.jpeg)
+
+这个混淆矩阵看起来相当好，因为大多数的图片在主对角线上。在主对角线上意味着被分类正确。数字 5 对应的格子看起来比其他数字要暗淡许多。这可能是数据集当中数字 5 的图片比较少，又或者是分类器对于数字 5 的表现不如其他数字那么好。你可以验证两种情况。
+
+让我们关注仅包含误差数据的图像呈现。首先你需要将混淆矩阵的每一个值除以相应类别的图片的总数目。这样子，你可以比较错误率，而不是绝对的错误数（这对大的类别不公平）。
+
+```py
+row_sums = conf_mx.sum(axis=1, keepdims=True)
+norm_conf_mx = conf_mx / row_sums
+```
+
+现在让我们用 0 来填充对角线。这样子就只保留了被错误分类的数据。让我们画出这个结果。
+
+```py
+np.fill_diagonal(norm_conf_mx, 0)
+plt.matshow(norm_conf_mx, cmap=plt.cm.gray)
+plt.show()
+```
+
+
+![](img/chapter3.9.jpeg)
+
+现在你可以清楚看出分类器制造出来的各类误差。记住：行代表实际类别，列代表预测的类别。第 8、9 列相当亮，这告诉你许多图片被误分成数字 8 或者数字 9。相似的，第 8、9 行也相当亮，告诉你数字 8、数字 9 经常被误以为是其他数字。相反，一些行相当黑，比如第一行：这意味着大部分的数字 1 被正确分类（一些被误分类为数字 8 ）。留意到误差图不是严格对称的。举例子，比起将数字 8 误分类为数字 5 的数量，有更多的数字 5 被误分类为数字 8。
+
+分析混淆矩阵通常可以给你提供深刻的见解去改善你的分类器。回顾这幅图，看样子你应该努力改善分类器在数字 8 和数字 9 上的表现，和纠正`3/5`的混淆。举例子，你可以尝试去收集更多的数据，或者你可以构造新的、有助于分类器的特征。举例子，写一个算法去数闭合的环（比如，数字 8 有两个环，数字 6 有一个， 5 没有）。又或者你可以预处理图片（比如，使用 Scikit-Learn，Pillow， OpenCV）去构造一个模式，比如闭合的环。
+
+分析独特的误差，是获得关于你的分类器是如何工作及其为什么失败的洞见的一个好途径。但是这相对难和耗时。举例子，我们可以画出数字 3 和 5 的例子
+
+```py
+cl_a, cl_b = 3, 5
+X_aa = X_train[(y_train == cl_a) & (y_train_pred == cl_a)]
+X_ab = X_train[(y_train == cl_a) & (y_train_pred == cl_b)]
+X_ba = X_train[(y_train == cl_b) & (y_train_pred == cl_a)]
+X_bb = X_train[(y_train == cl_b) & (y_train_pred == cl_b)]
+plt.figure(figsize=(8,8))
+plt.subplot(221); plot_digits(X_aa[:25], ../images_per_row=5)
+plt.subplot(222); plot_digits(X_ab[:25], ../images_per_row=5)
+plt.subplot(223); plot_digits(X_ba[:25], ../images_per_row=5)
+plt.subplot(224); plot_digits(X_bb[:25], ../images_per_row=5)
+plt.show()
+```
+
+
+![](img/chapter3.10.jpeg)
+
+左边两个`5*5`的块将数字识别为 3，右边的将数字识别为 5。一些被分类器错误分类的数字（比如左下角和右上角的块）是书写地相当差，甚至让人类分类都会觉得很困难（比如第 8 行第 1 列的数字 5，看起来非常像数字 3 ）。但是，大部分被误分类的数字，在我们看来都是显而易见的错误。很难明白为什么分类器会分错。原因是我们使用的简单的`SGDClassifier`，这是一个线性模型。它所做的全部工作就是分配一个类权重给每一个像素，然后当它看到一张新的图片，它就将加权的像素强度相加，每个类得到一个新的值。所以，因为 3 和 5 只有一小部分的像素有差异，这个模型很容易混淆它们。
+
+3 和 5 之间的主要差异是连接顶部的线和底部的线的细线的位置。如果你画一个 3，连接处稍微向左偏移，分类器很可能将它分类成 5。反之亦然。换一个说法，这个分类器对于图片的位移和旋转相当敏感。所以，减轻`3/5`混淆的一个方法是对图片进行预处理，确保它们都很好地中心化和不过度旋转。这同样很可能帮助减轻其他类型的错误。
+
+## 多标签分类
+
+到目前为止，所有的样例都总是被分配到仅一个类。有些情况下，你也许想让你的分类器给一个样例输出多个类别。比如说，思考一个人脸识别器。如果对于同一张图片，它识别出几个人，它应该做什么？当然它应该给每一个它识别出的人贴上一个标签。比方说，这个分类器被训练成识别三个人脸，Alice，Bob，Charlie；然后当它被输入一张含有 Alice 和 Bob 的图片，它应该输出`[1, 0, 1]`（意思是：Alice 是，Bob 不是，Charlie 是）。这种输出多个二值标签的分类系统被叫做多标签分类系统。
+
+目前我们不打算深入脸部识别。我们可以先看一个简单点的例子，仅仅是为了阐明的目的。
+
+```py
+from sklearn.neighbors import KNeighborsClassifier
+y_train_large = (y_train >= 7)
+y_train_odd = (y_train % 2 == 1)
+y_multilabel = np.c_[y_train_large, y_train_odd]
+knn_clf = KNeighborsClassifier()
+knn_clf.fit(X_train, y_multilabel)
+```
+
+这段代码创造了一个`y_multilabel`数组，里面包含两个目标标签。第一个标签指出这个数字是否为大数字（7，8 或者 9），第二个标签指出这个数字是否是奇数。接下来几行代码会创建一个`KNeighborsClassifier`样例（它支持多标签分类，但不是所有分类器都可以），然后我们使用多目标数组来训练它。现在你可以生成一个预测，然后它输出两个标签：
+
+```py
+>>> knn_clf.predict([some_digit])
+array([[False, True]], dtype=bool)
+```
+
+它工作正确。数字 5 不是大数（`False`），同时是一个奇数（`True`）。
+
+有许多方法去评估一个多标签分类器，和选择正确的量度标准，这取决于你的项目。举个例子，一个方法是对每个个体标签去量度 F1 值（或者前面讨论过的其他任意的二分类器的量度标准），然后计算平均值。下面的代码计算全部标签的平均 F1 值：
+
+```py
+>>> y_train_knn_pred = cross_val_predict(knn_clf, X_train, y_train, cv=3)
+>>> f1_score(y_train, y_train_knn_pred, average="macro")
+0.96845540180280221
+```
+
+这里假设所有标签有着同等的重要性，但可能不是这样。特别是，如果你的 Alice 的照片比 Bob 或者 Charlie 更多的时候，也许你想让分类器在 Alice 的照片上具有更大的权重。一个简单的选项是：给每一个标签的权重等于它的支持度（比如，那个标签的样例的数目）。为了做到这点，简单地在上面代码中设置`average="weighted"`。
+
+## 多输出分类
+
+我们即将讨论的最后一种分类任务被叫做“多输出-多类分类”（或者简称为多输出分类）。它是多标签分类的简单泛化，在这里每一个标签可以是多类别的（比如说，它可以有多于两个可能值）。
+
+为了说明这点，我们建立一个系统，它可以去除图片当中的噪音。它将一张混有噪音的图片作为输入，期待它输出一张干净的数字图片，用一个像素强度的数组表示，就像 MNIST 图片那样。注意到这个分类器的输出是多标签的（一个像素一个标签）和每个标签可以有多个值（像素强度取值范围从 0 到 255）。所以它是一个多输出分类系统的例子。
+
+> 分类与回归之间的界限是模糊的，比如这个例子。按理说，预测一个像素的强度更类似于一个回归任务，而不是一个分类任务。而且，多输出系统不限于分类任务。你甚至可以让你一个系统给每一个样例都输出多个标签，包括类标签和值标签。
+
+让我们从 MNIST 的图片创建训练集和测试集开始，然后给图片的像素强度添加噪声，这里是用 NumPy 的`randint()`函数。目标图像是原始图像。
+
+```py
+noise = rnd.randint(0, 100, (len(X_train), 784))
+noise = rnd.randint(0, 100, (len(X_test), 784))
+X_train_mod = X_train + noise
+X_test_mod = X_test + noise
+y_train_mod = X_train
+y_test_mod = X_test
+```
+
+让我们看一下测试集当中的一张图片（是的，我们在窥探测试集，所以你应该马上邹眉）：
+
+![](img/chapter3.11.jpeg)
+
+左边的加噪声的输入图片。右边是干净的目标图片。现在我们训练分类器，让它清洁这张图片：
+
+
+```py
+knn_clf.fit(X_train_mod, y_train_mod)
+clean_digit = knn_clf.predict([X_test_mod[some_index]])
+plot_digit(clean_digit)
+```
+
+
+![](img/chapter3.12.jpeg)
+
+看起来足够接近目标图片。现在总结我们的分类之旅。希望你现在应该知道如何选择好的量度标准，挑选出合适的准确率/召回率的折衷方案，比较分类器，更概括地说，就是为不同的任务建立起好的分类系统。
+
+## 练习
+
+1. 尝试在 MNIST 数据集上建立一个分类器，使它在测试集上的精度超过 97%。提示：`KNeighborsClassifier`非常适合这个任务。你只需要找出一个好的超参数值（试一下对权重和超参数`n_neighbors`进行网格搜索）。
+2. 写一个函数可以是 MNIST 中的图像任意方向移动（上下左右）一个像素。然后，对训练集上的每张图片，复制四个移动后的副本（每个方向一个副本），把它们加到训练集当中去。最后在扩展后的训练集上训练你最好的模型，并且在测试集上测量它的精度。你应该会观察到你的模型会有更好的表现。这种人工扩大训练集的方法叫做数据增强，或者训练集扩张。
+3. 拿 Titanic 数据集去捣鼓一番。开始这个项目有一个很棒的平台：Kaggle！
+4. 建立一个垃圾邮件分类器（这是一个更有挑战性的练习）：
+  - 下载垃圾邮件和非垃圾邮件的样例数据。地址是 [Apache SpamAssassin 的公共数据集](https://spamassassin.apache.org/publiccorpus/)
+  - 解压这些数据集，并且熟悉它的数据格式。
+  - 将数据集分成训练集和测试集
+  - 写一个数据准备的流水线，将每一封邮件转换为特征向量。你的流水线应该将一封邮件转换为一个稀疏向量，对于所有可能的词，这个向量标志哪个词出现了，哪个词没有出现。举例子，如果所有邮件只包含了`"Hello","How","are", "you"`这四个词，那么一封邮件（内容是：`"Hello you Hello Hello you"`）将会被转换为向量`[1, 0, 0, 1]`(意思是：`"Hello"`出现，`"How"`不出现，`"are"`不出现，`"you"`出现)，或者`[3, 0, 0, 2]`，如果你想数出每个单词出现的次数。
+  - 你也许想给你的流水线增加超参数，控制是否剥过邮件头、将邮件转换为小写、去除标点符号、将所有 URL 替换成`"URL"`，将所有数字替换成`"NUMBER"`，或者甚至提取词干（比如，截断词尾。有现成的 Python 库可以做到这点）。
+  - 然后 尝试几个不同的分类器，看看你可否建立一个很棒的垃圾邮件分类器，同时有着高召回率和高准确率。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/4.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/4.md
new file mode 100644
index 00000000..a71a6647
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/4.md
@@ -0,0 +1,853 @@
+# 四、训练模型
+
+> 译者：[@C-PIG](https://github.com/C-PIG)
+> 
+> 校对者：[@PeterHo](https://github.com/PeterHo)、[@飞龙](https://github.com/wizardforcel)、[@YuWang](https://github.com/bigeyex)、[@AlecChen](https://github.com/alecchen)
+
+在之前的描述中，我们通常把机器学习模型和训练算法当作黑箱子来处理。如果你实践过前几章的一些示例，你惊奇的发现你可以优化回归系统，改进数字图像的分类器，你甚至可以零基础搭建一个垃圾邮件的分类器，但是你却对它们内部的工作流程一无所知。事实上，许多场合你都不需要知道这些黑箱子的内部有什么，干了什么。
+
+然而，如果你对其内部的工作流程有一定了解的话，当面对一个机器学习任务时候，这些理论可以帮助你快速的找到恰当的机器学习模型，合适的训练算法，以及一个好的假设集。同时，了解黑箱子内部的构成，有助于你更好地调试参数以及更有效的误差分析。本章讨论的大部分话题对于机器学习模型的理解，构建，以及神经网络（详细参考本书的第二部分）的训练都是非常重要的。
+
+首先我们将以一个简单的线性回归模型为例，讨论两种不同的训练方法来得到模型的最优解：
+
++ 直接使用封闭方程进行求根运算，得到模型在当前训练集上的最优参数（即在训练集上使损失函数达到最小值的模型参数）
+
++ 使用迭代优化方法：梯度下降（GD），在训练集上，它可以逐渐调整模型参数以获得最小的损失函数，最终，参数会收敛到和第一种方法相同的的值。同时，我们也会介绍一些梯度下降的变体形式：批量梯度下降（Batch GD）、小批量梯度下降（Mini-batch GD）、随机梯度下降（Stochastic GD），在第二部分的神经网络部分，我们会多次使用它们。
+
+接下来，我们将研究一个更复杂的模型：多项式回归，它可以拟合非线性数据集，由于它比线性模型拥有更多的参数，于是它更容易出现模型的过拟合。因此，我们将介绍如何通过学习曲线去判断模型是否出现了过拟合，并介绍几种正则化方法以减少模型出现过拟合的风险。
+
+最后，我们将介绍两个常用于分类的模型：Logistic 回归和 Softmax 回归
+
+> 提示
+>
+> 在本章中包含许多数学公式，以及一些线性代数和微积分基本概念。为了理解这些公式，你需要知道什么是向量，什么是矩阵，以及它们直接是如何转化的，以及什么是点积，什么是矩阵的逆，什么是偏导数。如果你对这些不是很熟悉的话，你可以阅读本书提供的 Jupyter 在线笔记，它包括了线性代数和微积分的入门指导。对于那些不喜欢数学的人，你也应该快速简单的浏览这些公式。希望它足以帮助你理解大多数的概念。
+
+## 线性回归
+
+在第一章，我们介绍了一个简单的生活满意度回归模型:
+
+![](img/tex-2b4fc5fcdceb2e12c666415e9ebb793a.gif)
+
+这个模型仅仅是输入量`GDP_per_capita`的线性函数，`θ[0]`和`θ[1]`是这个模型的参数，线性模型更一般化的描述指通过计算输入变量的加权和，并加上一个常数偏置项（截距项）来得到一个预测值。如公式 4-1：
+
+公式 4-1：线性回归预测模型
+
+![](img/tex-f99876b625a13a0aad9631f61d934a61.gif)
+
++ `y_hat`表示预测结果
++ `n`表示特征的个数
++ `x[i]`表示第`i`个特征的值
++ `θ[j]`表示第`j`个参数（包括偏置项`θ[0]`和特征权重值`θ[1], θ[2], ..., θ[nj]`）
+
+上述公式可以写成更为简洁的向量形式，如公式 4-2：
+
+公式 4-2：线性回归预测模型（向量形式）
+
+![](img/tex-5da22015388cdeacf9c75c3511592953.gif)
+
++ `θ`表示模型的参数向量包括偏置项`θ[0]`和特征权重值`θ[1]`到`θ[n]`
++ `θ^T`表示向量`θ`的转置（行向量变为了列向量）
++ `x`为每个样本中特征值的向量形式，包括`x[1]`到`x[n]`，而且`x[0]`恒为 1
++ `θ^T · x`表示`θ^T`和`x`的点积
++ `h[θ]`表示参数为`θ`的假设函数
+
+怎么样去训练一个线性回归模型呢？好吧，回想一下，训练一个模型指的是设置模型的参数使得这个模型在训练集的表现较好。为此，我们首先需要找到一个衡量模型好坏的评定方法。在第二章，我们介绍到在回归模型上，最常见的评定标准是均方根误差（RMSE，详见公式 2-1）。因此，为了训练一个线性回归模型，你需要找到一个`θ`值，它使得均方根误差（标准误差）达到最小值。实践过程中，最小化均方误差比最小化均方根误差更加的简单，这两个过程会得到相同的`θ`，因为函数在最小值时候的自变量，同样能使函数的方根运算得到最小值。
+
+在训练集`X`上使用公式 4-3 来计算线性回归假设`h[θ]`的均方差（MSE）。
+
+公式 4-3：线性回归模型的 MSE 损失函数
+
+![](img/tex-e42dee8953b9b2be4a3ed6f8c09e5314.gif)
+
+公式中符号的含义大多数都在第二章（详见“符号”）进行了说明，不同的是：为了突出模型的参数向量`θ`，使用`h[θ]`来代替`h`。以后的使用中为了公式的简洁，使用`MSE(θ)`来代替`MSE(X, h[θ])`。
+
+### 正规方程(The Normal Equation)
+
+为了找到最小化损失函数的`θ`值，可以采用公式解，换句话说，就是可以通过解正规方程直接得到最后的结果。
+
+公式 4-4：正规方程
+
+![](img/tex-43bfb04cdbbd85ad21489e8e2dc853ed.gif)
+
++ `θ_hat`指最小化损失`θ`的值
++ `y`是一个向量，其包含了`y^(1)`到`y^(m)`的值
+
+让我们生成一些近似线性的数据（如图 4-1）来测试一下这个方程。
+
+```py
+import numpy as np
+X = 2 * np.random.rand(100, 1)
+y = 4 + 3 * X + np.random.randn(100, 1)
+```
+
+![](img/图 4-1.PNG)
+
+图 4-1：随机线性数据集
+
+现在让我们使用正规方程来计算`θ_hat`，我们将使用 Numpy 的线性代数模块（`np.linalg`）中的`inv()`函数来计算矩阵的逆，以及`dot()`方法来计算矩阵的乘法。
+
+```py
+X_b = np.c_[np.ones((100, 1)), X]
+theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)
+```
+
+我们生产数据的函数实际上是`y = 4 + 3x[0] + 高斯噪声`。让我们看一下最后的计算结果。
+
+```py
+>>> theta_best
+array([[4.21509616],[2.77011339]])
+```
+
+我们希望最后得到的参数为`θ[0] = 4, θ[1] = 3`而不是`θ[0] = 3.865, θ[1] = 3.139`（译者注：我认为应该是`θ[0] = 4.2150, θ[1] = 2.7701`）。这已经足够了，由于存在噪声，参数不可能达到到原始函数的值。
+
+现在我们能够使用`θ_hat`来进行预测：
+
+```py
+>>> X_new = np.array([[0],[2]])
+>>> X_new_b = np.c_[np.ones((2, 1)), X_new]
+>>> y_predict = X_new_b.dot(theta_best)
+>>> y_predict
+array([[4.21509616],[9.75532293]])
+```
+
+画出这个模型的图像，如图 4-2
+
+```py
+plt.plot(X_new,y_predict,"r-")
+plt.plot(X,y,"b.")
+plt.axis([0,2,0,15])
+plt.show()
+```
+
+![](img/图 4-2.PNG)
+
+图 4-2：线性回归预测
+
+使用下面的 Scikit-Learn 代码可以达到相同的效果：
+
+```py
+>>> from sklearn.linear_model import LinearRegression
+>>> lin_reg = LinearRegression()
+>>> lin_reg.fit(X,y)
+>>> lin_reg.intercept_, lin_reg.coef_
+(array([4.21509616]),array([2.77011339]))
+>>> lin_reg.predict(X_new)
+array([[4.21509616],[9.75532293]])
+```
+
+### 计算复杂度
+
+正规方程需要计算矩阵`X^T · X`的逆，它是一个`n * n`的矩阵（`n`是特征的个数）。这样一个矩阵求逆的运算复杂度大约在`O(n^2.4)`到`O(n^3)`之间，具体值取决于计算方式。换句话说，如果你将你的特征个数翻倍的话，其计算时间大概会变为原来的 5.3（`2^2.4`）到 8（`2^3`）倍。
+
+> 提示
+>
+> 当特征的个数较大的时候（例如：特征数量为 100000），正规方程求解将会非常慢。
+
+有利的一面是，这个方程在训练集上对于每一个实例来说是线性的，其复杂度为`O(m)`，因此只要有能放得下它的内存空间，它就可以对大规模数据进行训练。同时，一旦你得到了线性回归模型（通过解正规方程或者其他的算法），进行预测是非常快的。因为模型中计算复杂度对于要进行预测的实例数量和特征个数都是线性的。 换句话说，当实例个数变为原来的两倍多的时候（或特征个数变为原来的两倍多），预测时间也仅仅是原来的两倍多。
+
+接下来，我们将介绍另一种方法去训练模型。这种方法适合在特征个数非常多，训练实例非常多，内存无法满足要求的时候使用。
+
+## 梯度下降
+
+梯度下降是一种非常通用的优化算法，它能够很好地解决一系列问题。梯度下降的整体思路是通过的迭代来逐渐调整参数使得损失函数达到最小值。
+
+假设浓雾下，你迷失在了大山中，你只能感受到自己脚下的坡度。为了最快到达山底，一个最好的方法就是沿着坡度最陡的地方下山。这其实就是梯度下降所做的：它计算误差函数关于参数向量`Θ`的局部梯度，同时它沿着梯度下降的方向进行下一次迭代。当梯度值为零的时候，就达到了误差函数最小值 。
+
+具体来说，开始时，需要选定一个随机的`Θ`（这个值称为随机初始值），然后逐渐去改进它，每一次变化一小步，每一步都试着降低损失函数（例如：均方差损失函数），直到算法收敛到一个最小值（如图：4-3）。
+
+![](img/图 4-3.PNG)
+
+图 4-3：梯度下降
+
+在梯度下降中一个重要的参数是步长，超参数学习率的值决定了步长的大小。如果学习率太小，必须经过多次迭代，算法才能收敛，这是非常耗时的（如图 4-4）。
+
+![](img/图 4-4.PNG)
+
+图 4-4:学习率过小
+
+另一方面，如果学习率太大，你将跳过最低点，到达山谷的另一面，可能下一次的值比上一次还要大。这可能使的算法是发散的，函数值变得越来越大，永远不可能找到一个好的答案（如图 4-5）。
+
+![](img/图 4-5.PNG)
+
+图 4-5：学习率过大
+
+最后，并不是所有的损失函数看起来都像一个规则的碗。它们可能是洞，山脊，高原和各种不规则的地形，使它们收敛到最小值非常的困难。 图 4-6 显示了梯度下降的两个主要挑战：如果随机初始值选在了图像的左侧，则它将收敛到局部最小值，这个值要比全局最小值要大。 如果它从右侧开始，那么跨越高原将需要很长时间，如果你早早地结束训练，你将永远到不了全局最小值。
+
+![](img/图 4-6.PNG)
+
+图 4-6：梯度下降的陷阱
+
+幸运的是线性回归模型的均方差损失函数是一个凸函数，这意味着如果你选择曲线上的任意两点，它们的连线段不会与曲线发生交叉（译者注：该线段不会与曲线有第三个交点）。这意味着这个损失函数没有局部最小值，仅仅只有一个全局最小值。同时它也是一个斜率不能突变的连续函数。这两个因素导致了一个好的结果：梯度下降可以无限接近全局最小值。（只要你训练时间足够长，同时学习率不是太大 ）。
+
+事实上，损失函数的图像呈现碗状，但是不同特征的取值范围相差较大的时，这个碗可能是细长的。图 4-7 展示了梯度下降在不同训练集上的表现。在左图中，特征 1 和特征 2 有着相同的数值尺度。在右图中，特征 1 比特征 2 的取值要小的多，由于特征 1 较小，因此损失函数改变时，`Θ[1]`会有较大的变化，于是这个图像会在`Θ[1]`轴方向变得细长。
+
+![](img/图 4-7.PNG)
+
+图 4-7：有无特征缩放的梯度下降
+
+正如你看到的，左面的梯度下降可以直接快速地到达最小值，然而在右面的梯度下降第一次前进的方向几乎和全局最小值的方向垂直，并且最后到达一个几乎平坦的山谷，在平坦的山谷走了很长时间。它最终会达到最小值，但它需要很长时间。
+
+> 提示
+>
+> 当我们使用梯度下降的时候，应该确保所有的特征有着相近的尺度范围（例如：使用 Scikit Learn 的 `StandardScaler`类），否则它将需要很长的时间才能够收敛。
+
+这幅图也表明了一个事实：训练模型意味着找到一组模型参数，这组参数可以在训练集上使得损失函数最小。这是对于模型参数空间的搜索，模型的参数越多，参数空间的维度越多，找到合适的参数越困难。例如在 300 维的空间找到一枚针要比在三维空间里找到一枚针复杂的多。幸运的是线性回归模型的损失函数是凸函数，这个最优参数一定在碗的底部。
+
+### 批量梯度下降
+
+使用梯度下降的过程中，你需要计算每一个`Θ[j]`下损失函数的梯度。换句话说，你需要计算当`Θ[j]`变化一点点时，损失函数改变了多少。这称为偏导数，它就像当你面对东方的时候问："我脚下的坡度是多少？"。然后面向北方的时候问同样的问题（如果你能想象一个超过三维的宇宙，可以对所有的方向都这样做）。公式 4-5 计算关于`Θ[j]`的损失函数的偏导数，记为：`∂MSE/∂θ[j]`。
+
+公式 4-5： 损失函数的偏导数
+
+![](img/tex-3a877201402d7cd2b9d3f5b726d22b24.gif)
+
+为了避免单独计算每一个梯度，你也可以使用公式 4-6 来一起计算它们。梯度向量记为`ᐁ[θ]MSE(θ)`，其包含了损失函数所有的偏导数（每个模型参数只出现一次）。
+
+公式 4-6：损失函数的梯度向量
+
+![](img/tex-a007d1162d9c4957e8336b4b10d5fda3.gif)
+
+> 提示
+>
+> 在这个方程中每一步计算时都包含了整个训练集`X`，这也是为什么这个算法称为批量梯度下降：每一次训练过程都使用所有的的训练数据。因此，在大数据集上，其会变得相当的慢（但是我们接下来将会介绍更快的梯度下降算法）。然而，梯度下降的运算规模和特征的数量成正比。训练一个数千数量特征的线性回归模型使用*梯度下降要比使用正规方程快的多。
+
+
+
+一旦求得了方向是上山的梯度向量，你就可以向着相反的方向去下山。这意味着从`θ`中减去`ᐁ[θ]MSE(θ)`。学习率`η`和梯度向量的积决定了下山时每一步的大小，如公式 4-7。
+
+公式 4-7：梯度下降步长
+
+![](img/tex-e25626090e2c767f539550e3c02fa6c8.gif)
+
+让我们看一下这个算法的应用：
+
+```py
+eta = 0.1 # 学习率
+n_iterations = 1000
+m = 100
+
+theta = np.random.randn(2,1) # 随机初始值
+
+for iteration in range(n_iterations):
+    gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
+    theta = theta - eta * gradients
+```
+
+这不是太难，让我们看一下最后的结果`θ`：
+
+```py
+>>> theta
+array([[4.21509616],[2.77011339]])
+```
+
+看！正规方程的表现非常好。完美地求出了梯度下降的参数。但是当你换一个学习率会发生什么？图 4-8 展示了使用了三个不同的学习率进行梯度下降的前 10 步运算（虚线代表起始位置）。
+
+![](img/图 4-8.PNG)
+
+图 4-8：不同学习率的梯度下降
+
+在左面的那副图中，学习率是最小的，算法几乎不能求出最后的结果，而且还会花费大量的时间。在中间的这幅图中，学习率的表现看起来不错，仅仅几次迭代后，它就收敛到了最后的结果。在右面的那副图中，学习率太大了，算法是发散的，跳过了所有的训练样本，同时每一步都离正确的结果越来越远。
+
+为了找到一个好的学习率，你可以使用网格搜索（详见第二章）。当然，你一般会限制迭代的次数，以便网格搜索可以消除模型需要很长时间才能收敛这一个问题。
+
+你可能想知道如何选取迭代的次数。如果它太小了，当算法停止的时候，你依然没有找到最优解。如果它太大了，算法会非常的耗时同时后来的迭代参数也不会发生改变。一个简单的解决方法是：设置一个非常大的迭代次数，但是当梯度向量变得非常小的时候，结束迭代。非常小指的是：梯度向量小于一个值`ε`（称为容差）。这时候可以认为梯度下降几乎已经达到了最小值。
+
+> 收敛速率：
+>
+> 当损失函数是凸函数，同时它的斜率不能突变（就像均方差损失函数那样），那么它的批量梯度下降算法固定学习率之后，它的收敛速率是`O(1/iterations)`。换句话说，如果你将容差`ε`缩小 10 倍后（这样可以得到一个更精确的结果），这个算法的迭代次数大约会变成原来的 10 倍。
+
+### 随机梯度下降
+
+批量梯度下降的最要问题是计算每一步的梯度时都需要使用整个训练集，这导致在规模较大的数据集上，其会变得非常的慢。与其完全相反的随机梯度下降，在每一步的梯度计算上只随机选取训练集中的一个样本。很明显，由于每一次的操作都使用了非常少的数据，这样使得算法变得非常快。由于每一次迭代，只需要在内存中有一个实例，这使随机梯度算法可以在大规模训练集上使用。
+
+另一方面，由于它的随机性，与批量梯度下降相比，其呈现出更多的不规律性：它到达最小值不是平缓的下降，损失函数会忽高忽低，只是在大体上呈下降趋势。随着时间的推移，它会非常的靠近最小值，但是它不会停止在一个值上，它会一直在这个值附近摆动（如图 4-9）。因此，当算法停止的时候，最后的参数还不错，但不是最优值。
+
+![](img/图 4-9.PNG)
+
+图 4-9：随机梯度下降
+
+当损失函数很不规则时（如图 4-6），随机梯度下降算法能够跳过局部最小值。因此，随机梯度下降在寻找全局最小值上比批量梯度下降表现要好。
+
+虽然随机性可以很好的跳过局部最优值，但同时它却不能达到最小值。解决这个难题的一个办法是逐渐降低学习率。 开始时，走的每一步较大（这有助于快速前进同时跳过局部最小值），然后变得越来越小，从而使算法到达全局最小值。 这个过程被称为模拟退火，因为它类似于熔融金属慢慢冷却的冶金学退火过程。 决定每次迭代的学习率的函数称为`learning schedule`。 如果学习速度降低得过快，你可能会陷入局部最小值，甚至在到达最小值的半路就停止了。 如果学习速度降低得太慢，你可能在最小值的附近长时间摆动，同时如果过早停止训练，最终只会出现次优解。
+
+下面的代码使用一个简单的`learning schedule`来实现随机梯度下降：
+
+```py
+n_epochs = 50
+t0, t1 = 5, 50  #learning_schedule 的超参数
+
+def learning_schedule(t):
+    return t0 / (t + t1)
+
+theta = np.random.randn(2,1)
+
+for epoch in range(n_epochs):
+    for i in range(m):
+        random_index = np.random.randint(m)
+        xi = X_b[random_index:random_index+1]
+        yi = y[random_index:random_index+1]
+        gradients = 2 * xi.T.dot(xi.dot(theta)-yi)
+        eta = learning_schedule(epoch * m + i)
+        theta = theta - eta * gradients
+```
+
+按习惯来讲，我们进行`m`轮的迭代，每一轮迭代被称为一代。在整个训练集上，随机梯度下降迭代了 1000 次时，一般在第 50 次的时候就可以达到一个比较好的结果。
+
+```py
+>>> theta
+array([[4.21076011],[2.748560791]])
+```
+
+图 4-10 展示了前 10 次的训练过程（注意每一步的不规则程度）。
+
+![](img/图 4-10.PNG)
+
+图 4-10：随机梯度下降的前 10 次迭代
+
+由于每个实例的选择是随机的，有的实例可能在每一代中都被选到，这样其他的实例也可能一直不被选到。如果你想保证每一代迭代过程，算法可以遍历所有实例，一种方法是将训练集打乱重排，然后选择一个实例，之后再继续打乱重排，以此类推一直进行下去。但是这样收敛速度会非常的慢。
+
+通过使用 Scikit-Learn 完成线性回归的随机梯度下降，你需要使用`SGDRegressor`类，这个类默认优化的是均方差损失函数。下面的代码迭代了 50 代，其学习率`η`为 0.1（`eta0=0.1`），使用默认的`learning schedule`（与前面的不一样），同时也没有添加任何正则项（`penalty = None`）：
+
+```py
+from sklearn.linear_model import SGDRegressor
+sgd_reg = SGDRegressor(n_iter=50, penalty=None, eta0=0.1)
+sgd_reg.fit(X,y.ravel())
+```
+
+你可以再一次发现，这个结果非常的接近正规方程的解：
+
+```
+>>> sgd_reg.intercept_, sgd_reg.coef_
+(array([4.18380366]),array([2.74205299]))
+```
+
+### 小批量梯度下降
+
+最后一个梯度下降算法，我们将介绍小批量梯度下降算法。一旦你理解了批量梯度下降和随机梯度下降，再去理解小批量梯度下降是非常简单的。在迭代的每一步，批量梯度使用整个训练集，随机梯度时候用仅仅一个实例，在小批量梯度下降中，它则使用一个随机的小型实例集。它比随机梯度的主要优点在于你可以通过矩阵运算的硬件优化得到一个较好的训练表现，尤其当你使用 GPU 进行运算的时候。
+
+小批量梯度下降在参数空间上的表现比随机梯度下降要好的多，尤其在有大量的小型实例集时。作为结果，小批量梯度下降会比随机梯度更靠近最小值。但是，另一方面，它有可能陷在局部最小值中（在遇到局部最小值问题的情况下，和我们之前看到的线性回归不一样）。 图 4-11 显示了训练期间三种梯度下降算法在参数空间中所采用的路径。 他们都接近最小值，但批量梯度的路径最后停在了最小值，而随机梯度和小批量梯度最后都在最小值附近摆动。 但是，不要忘记，批量梯度需要花费大量时间来完成每一步，但是，如果你使用了一个较好的`learning schedule`，随机梯度和小批量梯度也可以得到最小值。
+
+![](img/图 4-11.PNG)
+
+图 4-11：参数空间的梯度下降路径
+
+让我比较一下目前我们已经探讨过的对线性回归的梯度下降算法。如表 4-1 所示，其中`m`表示训练样本的个数，`n`表示特征的个数。
+
+表 4-1：比较线性回归的不同梯度下降算法
+
+![](img/表 4-1.PNG)
+
+> 提示
+>
+> 上述算法在完成训练后，得到的参数基本没什么不同，它们会得到非常相似的模型，最后会以一样的方式去进行预测。
+
+## 多项式回归
+
+如果你的数据实际上比简单的直线更复杂呢？ 令人惊讶的是，你依然可以使用线性模型来拟合非线性数据。 一个简单的方法是对每个特征进行加权后作为新的特征，然后训练一个线性模型在这个扩展的特征集。 这种方法称为多项式回归。
+
+让我们看一个例子。 首先，我们根据一个简单的二次方程（并加上一些噪声，如图 4-12）来生成一些非线性数据：
+
+```py
+m = 100
+X = 6 * np.random.rand(m, 1) - 3
+y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)
+```
+
+![](img/图 4-12.PNG)
+
+图 4-12：生产加入噪声的非线性数据
+
+很清楚的看出，直线不能恰当的拟合这些数据。于是，我们使用 Scikit-Learning 的`PolynomialFeatures`类进行训练数据集的转换，让训练集中每个特征的平方（2 次多项式）作为新特征（在这种情况下，仅存在一个特征）：
+
+```py
+>>> from sklearn.preprocessing import PolynomialFeatures
+>>> poly_features = PolynomialFeatures(degree=2,include_bias=False)
+>>> X_poly = poly_features.fit_transform(X)
+>>> X[0]
+array([-0.75275929])
+>>> X_poly[0]
+array([-0.75275929, 0.56664654])
+```
+
+`X_poly`现在包含原始特征`X`并加上了这个特征的平方`X^2`。现在你可以在这个扩展训练集上使用`LinearRegression`模型进行拟合，如图 4-13：
+
+```py
+>>> lin_reg = LinearRegression()
+>>> lin_reg.fit(X_poly, y)
+>>> lin_reg.intercept_, lin_reg.coef_
+(array([ 1.78134581]), array([[ 0.93366893, 0.56456263]]))
+```
+
+![](img/图 4-13.PNG)
+
+图 4-13：多项式回归模型预测
+
+还是不错的，模型预测函数`y_hat = 0.56 x[1]^2 + 0.93x[1] + 1.78`，事实上原始函数为`y = 0.5x[1]^2 + 1.0x[1] + 2.0`再加上一些高斯噪声。
+
+请注意，当存在多个特征时，多项式回归能够找出特征之间的关系（这是普通线性回归模型无法做到的）。 这是因为`LinearRegression`会自动添加当前阶数下特征的所有组合。例如，如果有两个特征`a,b`，使用 3 阶（`degree=3`）的`LinearRegression`时，不仅有`a^2,a^3,b^2`以及`b^3`，同时也会有它们的其他组合项`ab,a^2b,ab^2`。
+
+> 提示
+>
+> `PolynomialFeatures(degree=d)`把一个包含`n`个特征的数组转换为一个包含`(n+d)!/(d!n!)`特征的数组，`n!`表示`n`的阶乘，等于`1 * 2 * 3 ... * n`。小心大量特征的组合爆炸！
+
+## 学习曲线
+
+如果你使用一个高阶的多项式回归，你可能发现它的拟合程度要比普通的线性回归要好的多。例如，图 4-14 使用一个 300 阶的多项式模型去拟合之前的数据集，并同简单线性回归、2 阶的多项式回归进行比较。注意 300 阶的多项式模型如何摆动以尽可能接近训练实例。
+
+![](img/图 4-14.PNG)
+
+图 4-14：高阶多项式回归
+
+当然，这种高阶多项式回归模型在这个训练集上严重过拟合了，线性模型则欠拟合。在这个训练集上，二次模型有着较好的泛化能力。那是因为在生成数据时使用了二次模型，但是一般我们不知道这个数据生成函数是什么，那我们该如何决定我们模型的复杂度呢？你如何告诉我你的模型是过拟合还是欠拟合？
+
+在第二章，你可以使用交叉验证来估计一个模型的泛化能力。如果一个模型在训练集上表现良好，通过交叉验证指标却得出其泛化能力很差，那么你的模型就是过拟合了。如果在这两方面都表现不好，那么它就是欠拟合了。这种方法可以告诉我们，你的模型是太复杂还是太简单了。
+
+另一种方法是观察学习曲线：画出模型在训练集上的表现，同时画出以训练集规模为自变量的训练集函数。为了得到图像，需要在训练集的不同规模子集上进行多次训练。下面的代码定义了一个函数，用来画出给定训练集后的模型学习曲线：
+
+```py
+from sklearn.metrics import mean_squared_error
+from sklearn.model_selection import train_test_split
+
+def plot_learning_curves(model, X, y):
+    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
+    train_errors, val_errors = [], []
+    for m in range(1, len(X_train)):
+        model.fit(X_train[:m], y_train[:m])
+        y_train_predict = model.predict(X_train[:m])
+        y_val_predict = model.predict(X_val)
+        train_errors.append(mean_squared_error(y_train_predict, y_train[:m]))
+        val_errors.append(mean_squared_error(y_val_predict, y_val))
+    plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train")
+    plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="val")
+```
+
+我们一起看一下简单线性回归模型的学习曲线（图 4-15）：
+
+```py
+lin_reg = LinearRegression()
+plot_learning_curves(lin_reg, X, y)
+```
+
+![](img/图 4-15.PNG)
+
+图 4-15：学习曲线
+
+这幅图值得我们深究。首先，我们观察训练集的表现：当训练集只有一两个样本的时候，模型能够非常好的拟合它们，这也是为什么曲线是从零开始的原因。但是当加入了一些新的样本的时候，训练集上的拟合程度变得难以接受，出现这种情况有两个原因，一是因为数据中含有噪声，另一个是数据根本不是线性的。因此随着数据规模的增大，误差也会一直增大，直到达到高原地带并趋于稳定，在之后，继续加入新的样本，模型的平均误差不会变得更好或者更差。我们继续来看模型在验证集上的表现，当以非常少的样本去训练时，模型不能恰当的泛化，也就是为什么验证误差一开始是非常大的。当训练样本变多的到时候，模型学习的东西变多，验证误差开始缓慢的下降。但是一条直线不可能很好的拟合这些数据，因此最后误差会到达在一个高原地带并趋于稳定，最后和训练集的曲线非常接近。
+
+上面的曲线表现了一个典型的欠拟合模型，两条曲线都到达高原地带并趋于稳定，并且最后两条曲线非常接近，同时误差值非常大。
+
+> 提示
+>
+> 如果你的模型在训练集上是欠拟合的，添加更多的样本是没用的。你需要使用一个更复杂的模型或者找到更好的特征。
+
+现在让我们看一个在相同数据上 10 阶多项式模型拟合的学习曲线（图 4-16）：
+
+```py
+from sklearn.pipeline import Pipeline
+
+polynomial_regression = Pipeline((
+    ("poly_features", PolynomialFeatures(degree=10, include_bias=False)),
+    ("sgd_reg", LinearRegression()),
+))
+
+plot_learning_curves(polynomial_regression, X, y)
+```
+
+这幅图像和之前的有一点点像，但是其有两个非常重要的不同点：
+
++ 在训练集上，误差要比线性回归模型低的多。
++ 图中的两条曲线之间有间隔，这意味模型在训练集上的表现要比验证集上好的多，这也是模型过拟合的显著特点。当然，如果你使用了更大的训练数据，这两条曲线最后会非常的接近。
+
+![](img/图 4-16.PNG)
+
+图 4-16：多项式模型的学习曲线
+
+> 提示
+>
+> 改善模型过拟合的一种方法是提供更多的训练数据，直到训练误差和验证误差相等。
+
+> 偏差和方差的权衡
+>
+> 在统计和机器学习领域有个重要的理论：一个模型的泛化误差由三个不同误差的和决定：
+>
+> + 偏差：泛化误差的这部分误差是由于错误的假设决定的。例如实际是一个二次模型，你却假设了一个线性模型。一个高偏差的模型最容易出现欠拟合。
+> + 方差：这部分误差是由于模型对训练数据的微小变化较为敏感，一个多自由度的模型更容易有高的方差（例如一个高阶多项式模型），因此会导致模型过拟合。
+> + 不可约误差：这部分误差是由于数据本身的噪声决定的。降低这部分误差的唯一方法就是进行数据清洗（例如：修复数据源，修复坏的传感器，识别和剔除异常值）。
+
+
+## 线性模型的正则化
+
+正如我们在第一和第二章看到的那样，降低模型的过拟合的好方法是正则化这个模型（即限制它）：模型有越少的自由度，就越难以拟合数据。例如，正则化一个多项式模型，一个简单的方法就是减少多项式的阶数。
+
+对于一个线性模型，正则化的典型实现就是约束模型中参数的权重。 接下来我们将介绍三种不同约束权重的方法：Ridge 回归，Lasso 回归和 Elastic Net。
+
+### 岭（Ridge）回归
+
+岭回归（也称为 Tikhonov 正则化）是线性回归的正则化版：在损失函数上直接加上一个正则项`α Σ θ[i]^2, i = 1 -> n`。这使得学习算法不仅能够拟合数据，而且能够使模型的参数权重尽量的小。注意到这个正则项只有在训练过程中才会被加到损失函数。当得到完成训练的模型后，我们应该使用没有正则化的测量方法去评价模型的表现。
+
+> 提示
+>
+> 一般情况下，训练过程使用的损失函数和测试过程使用的评价函数是不一样的。除了正则化，还有一个不同：训练时的损失函数应该在优化过程中易于求导，而在测试过程中，评价函数更应该接近最后的客观表现。一个好的例子：在分类训练中我们使用对数损失（马上我们会讨论它）作为损失函数，但是我们却使用精确率/召回率来作为它的评价函数。
+
+超参数`α`决定了你想正则化这个模型的强度。如果`α = 0`那此时的岭回归便变为了线性回归。如果`α`非常的大，所有的权重最后都接近于零，最后结果将是一条穿过数据平均值的水平直线。公式 4-8 是岭回归的损失函数：
+
+公式 4-8：岭回归损失函数
+
+![](img/tex-de03ddd330336d12e33df21217bdab9d.gif)
+
+值得注意的是偏差`θ[0]`是没有被正则化的（累加运算的开始是`i=1`而不是`i=0`）。如我定义`w`作为特征的权重向量（`θ[1]`到`θ[n]`），那么正则项可以简写成`1/2 (||w||₂)^2`，其中`||·||₂`表示权重向量的`l2`范数。对于梯度下降来说仅仅在均方差梯度向量（公式 4-6）加上一项`αw`。
+
+> 提示
+>
+> 在使用岭回归前，对数据进行放缩（可以使用`StandardScaler`）是非常重要的，算法对于输入特征的数值尺度（scale）非常敏感。大多数的正则化模型都是这样的。
+
+图 4-17 展示了在相同线性数据上使用不同`α`值的岭回归模型最后的表现。左图中，使用简单的岭回归模型，最后得到了线性的预测。右图中的数据首先使用 10 阶的`PolynomialFearures`进行扩展，然后使用`StandardScaler`进行缩放，最后将岭模型应用在处理过后的特征上。这就是带有岭正则项的多项式回归。注意当`α`增大的时候，导致预测曲线变得扁平（即少了极端值，多了一般值），这样减少了模型的方差，却增加了模型的偏差。
+
+对线性回归来说，对于岭回归，我们可以使用封闭方程去计算，也可以使用梯度下降去处理。它们的缺点和优点是一样的。公式 4-9 表示封闭方程的解（矩阵`A`是一个除了左上角有一个`0`的`n * n`的单位矩，这个`0`代表偏差项。译者注：偏差`θ[0]`不被正则化）。
+
+![](img/图 4-17.PNG)
+
+图 4-17：岭回归
+
+公式 4-9：岭回归的封闭方程的解
+
+![](img/tex-2ef1c91a9cc8eeb7da8227d4016d702e.gif)
+
+下面是如何使用 Scikit-Learn 来进行封闭方程的求解（使用 Cholesky 法进行矩阵分解对公式 4-9 进行变形）:
+
+```py
+>>> from sklearn.linear_model import Ridge
+>>> ridge_reg = Ridge(alpha=1, solver="cholesky")
+>>> ridge_reg.fit(X, y)
+>>> ridge_reg.predict([[1.5]])
+array([[ 1.55071465]]
+```
+
+使用随机梯度法进行求解：
+
+```py
+>>> sgd_reg = SGDRegressor(penalty="l2")
+>>> sgd_reg.fit(X, y.ravel())
+>>> sgd_reg.predict([[1.5]])
+array([[ 1.13500145]])
+```
+
+`penalty`参数指的是正则项的惩罚类型。指定`l2`表明你要在损失函数上添加一项：权重向量`l2`范数平方的一半，这就是简单的岭回归。
+
+### Lasso 回归
+
+Lasso 回归（也称 Least Absolute Shrinkage，或者 Selection Operator Regression）是另一种正则化版的线性回归：就像岭回归那样，它也在损失函数上添加了一个正则化项，但是它使用权重向量的`l1`范数而不是权重向量`l2`范数平方的一半。（如公式 4-10）
+
+公式 4-10：Lasso 回归的损失函数
+
+![](img/tex-a78e85b9c0eb6446f86c17d6d2190b74.gif)
+
+图 4-18 展示了和图 4-17 相同的事情，仅仅是用 Lasso 模型代替了 Ridge 模型，同时调小了`α`的值。
+
+![](img/图 4-18.PNG)
+
+图 4-18：Lasso 回归
+
+Lasso 回归的一个重要特征是它倾向于完全消除最不重要的特征的权重（即将它们设置为零）。例如，右图中的虚线所示（`α = 10^(-7)`），曲线看起来像一条二次曲线，而且几乎是线性的，这是因为所有的高阶多项特征都被设置为零。换句话说，Lasso 回归自动的进行特征选择同时输出一个稀疏模型（即，具有很少的非零权重）。
+
+你可以从图 4-19 知道为什么会出现这种情况：在左上角图中，后背景的等高线（椭圆）表示了没有正则化的均方差损失函数（`α = 0`），白色的小圆圈表示在当前损失函数上批量梯度下降的路径。前背景的等高线（菱形）表示`l1`惩罚，黄色的三角形表示了仅在这个惩罚下批量梯度下降的路径（`α -> ∞`）。注意路径第一次是如何到达`θ[1] = 0`，然后向下滚动直到它到达`θ[2] = 0`。在右上角图中，等高线表示的是相同损失函数再加上一个`α = 0.5`的`l1`惩罚。这幅图中，它的全局最小值在`θ[2] = 0`这根轴上。批量梯度下降首先到达`θ[2] = 0`，然后向下滚动直到达到全局最小值。 两个底部图显示了相同的情况，只是使用了`l2`惩罚。 规则化的最小值比非规范化的最小值更接近于`θ = 0`，但权重不能完全消除。
+
+![](img/图 4-19.PNG)
+
+图 4-19：Ridge 回归和 Lasso 回归对比
+
+> 提示
+>
+> 在 Lasso 损失函数中，批量梯度下降的路径趋向与在低谷有一个反弹。这是因为在`θ[2] = 0`时斜率会有一个突变。为了最后真正收敛到全局最小值，你需要逐渐的降低学习率。
+
+Lasso 损失函数在`theta[i] = 0, i = 1, 2, ..., n`处无法进行微分运算，但是梯度下降如果你使用子梯度向量`g`后它可以在任何`θ[i] = 0`的情况下进行计算。公式 4-11 是在 Lasso 损失函数上进行梯度下降的子梯度向量公式。
+
+公式 4-11：Lasso 回归子梯度向量
+
+![](img/tex-93eea6b5c197bbc8d7be8b4c14e9f8f3.gif)
+
+
+下面是一个使用 Scikit-Learn 的`Lasso`类的小例子。你也可以使用`SGDRegressor(penalty="l1")`来代替它。
+
+```py
+>>> from sklearn.linear_model import Lasso
+>>> lasso_reg = Lasso(alpha=0.1)
+>>> lasso_reg.fit(X, y)
+>>> lasso_reg.predict([[1.5]])
+array([ 1.53788174]
+```
+
+### 弹性网络（ElasticNet）
+
+弹性网络介于 Ridge 回归和 Lasso 回归之间。它的正则项是 Ridge 回归和 Lasso 回归正则项的简单混合，同时你可以控制它们的混合率`r`，当`r = 0`时，弹性网络就是 Ridge 回归，当`r = 1`时，其就是 Lasso 回归。具体表示如公式 4-12。
+
+公式 4-12：弹性网络损失函数
+
+![](img/tex-e4da079f692fe35778bbdf1fdf120d99.gif)
+
+那么我们该如何选择线性回归，岭回归，Lasso 回归，弹性网络呢？一般来说有一点正则项的表现更好，因此通常你应该避免使用简单的线性回归。岭回归是一个很好的首选项，但是如果你的特征仅有少数是真正有用的，你应该选择 Lasso 和弹性网络。就像我们讨论的那样，它两能够将无用特征的权重降为零。一般来说，弹性网络的表现要比 Lasso 好，因为当特征数量比样本的数量大的时候，或者特征之间有很强的相关性时，Lasso 可能会表现的不规律。下面是一个使用 Scikit-Learn `ElasticNet`（`l1_ratio`指的就是混合率`r`）的简单样本：
+
+```py
+>>> from sklearn.linear_model import ElasticNet
+>>> elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5)
+>>> elastic_net.fit(X, y)
+>>> elastic_net.predict([[1.5]])
+array([ 1.54333232])
+```
+
+
+### 早期停止法（Early Stopping）
+
+对于迭代学习算法，有一种非常特殊的正则化方法，就像梯度下降在验证错误达到最小值时立即停止训练那样。我们称为早期停止法。图 4-20 表示使用批量梯度下降来训练一个非常复杂的模型（一个高阶多项式回归模型）。随着训练的进行，算法一直学习，它在训练集上的预测误差（RMSE）自然而然的下降。然而一段时间后，验证误差停止下降，并开始上升。这意味着模型在训练集上开始出现过拟合。一旦验证错误达到最小值，便提早停止训练。这种简单有效的正则化方法被 Geoffrey Hinton 称为“完美的免费午餐”
+
+![](img/图 4-20.PNG)
+
+图 4-20：早期停止法
+
+> 提示
+>
+> 随机梯度和小批量梯度下降不是平滑曲线，你可能很难知道它是否达到最小值。 一种解决方案是，只有在验证误差高于最小值一段时间后（你确信该模型不会变得更好了），才停止，之后将模型参数回滚到验证误差最小值。
+
+下面是一个早期停止法的基础应用：
+
+```py
+from sklearn.base import clone
+sgd_reg = SGDRegressor(n_iter=1, warm_start=True, penalty=None,learning_rate="constant", eta0=0.0005)
+
+minimum_val_error = float("inf")
+best_epoch = None
+best_model = None
+for epoch in range(1000):
+    sgd_reg.fit(X_train_poly_scaled, y_train)
+    y_val_predict = sgd_reg.predict(X_val_poly_scaled)
+    val_error = mean_squared_error(y_val_predict, y_val)
+    if val_error < minimum_val_error:
+        minimum_val_error = val_error
+        best_epoch = epoch
+        best_model = clone(sgd_reg)
+```
+
+注意：当`warm_start=True`时，调用`fit()`方法后，训练会从停下来的地方继续，而不是从头重新开始。
+
+## 逻辑回归
+
+正如我们在第 1 章中讨论的那样，一些回归算法也可以用于分类（反之亦然）。 Logistic 回归（也称为 Logit 回归）通常用于估计一个实例属于某个特定类别的概率（例如，这电子邮件是垃圾邮件的概率是多少？）。 如果估计的概率大于 50%，那么模型预测这个实例属于当前类（称为正类，标记为“1”），反之预测它不属于当前类（即它属于负类 ，标记为“0”）。 这样便成为了一个二元分类器。
+
+### 概率估计
+
+那么它是怎样工作的？ 就像线性回归模型一样，Logistic 回归模型计算输入特征的加权和（加上偏差项），但它不像线性回归模型那样直接输出结果，而是把结果输入`logistic()`函数进行二次加工后进行输出（详见公式 4-13）。
+
+公式 4-13：逻辑回归模型的概率估计（向量形式）
+
+![](img/tex-9d6a43d7b758ed2c9684fbbb81f9f1e8.gif)
+
+Logistic 函数（也称为 logit），用`σ()`表示，其是一个 sigmoid 函数（图像呈 S 型），它的输出是一个介于 0 和 1 之间的数字。其定义如公式 4-14 和图 4-21 所示。
+
+公式 4-14：逻辑函数
+
+![](img/tex-bec5b0923c70096e7336e2debb62ce82.gif)
+
+![](img/图 4-21.PNG)
+
+图 4-21：逻辑函数
+
+一旦 Logistic 回归模型估计得到了`x`属于正类的概率`p_hat = h[θ](x)`，那它很容易得到预测结果`y_hat`（见公式 4-15）。
+
+公式 4-15：逻辑回归预测模型
+
+![](img/tex-7b5aaccbd0d9d1237157caedb4e63579.gif)
+
+注意当`t < 0`时`σ(t) < 0.5`，当`t >= 0`时`σ(t) >= 0.5`，因此当`θ^T · x`是正数的话，逻辑回归模型输出 1，如果它是负数的话，则输出 0。
+
+### 训练和损失函数
+
+好，现在你知道了 Logistic 回归模型如何估计概率并进行预测。 但是它是如何训练的？ 训练的目的是设置参数向量`θ`，使得正例（`y = 1`）概率增大，负例（`y = 0`）的概率减小，其通过在单个训练实例`x`的损失函数来实现（公式 4-16）。
+
+公式 4-16：单个样本的损失函数
+
+![](img/tex-81c37589241489382297c799f1fc6b45.gif)
+
+
+这个损失函数是合理的，因为当`t`接近 0 时，`-log(t)`变得非常大，所以如果模型估计一个正例概率接近于 0，那么损失函数将会很大，同时如果模型估计一个负例的概率接近 1，那么损失函数同样会很大。 另一方面，当`t`接近于 1 时，`-log(t)`接近 0，所以如果模型估计一个正例概率接近于 0，那么损失函数接近于 0，同时如果模型估计一个负例的概率接近 0，那么损失函数同样会接近于 0， 这正是我们想的。
+
+整个训练集的损失函数只是所有训练实例的平均值。可以用一个表达式（你可以很容易证明）来统一表示，称为对数损失，如公式 4-17 所示。
+
+公式 4-17：逻辑回归的损失函数（对数损失）
+
+![](img/tex-b6a0de3f265cdeedc2ac1d0687fef2ea.gif)
+
+但是这个损失函数对于求解最小化损失函数的`θ`是没有公式解的（没有等价的正规方程）。 但好消息是，这个损失函数是凸的，所以梯度下降（或任何其他优化算法）一定能够找到全局最小值（如果学习速率不是太大，并且你等待足够长的时间）。公式 4-18 给出了损失函数关于第`j`个模型参数`θ[j]`的偏导数。
+
+公式 4-18：逻辑回归损失函数的偏导数
+
+![](img/tex-4e016baa468f852047bbbc1b171743ac.gif)
+
+这个公式看起来非常像公式 4-5：首先计算每个样本的预测误差，然后误差项乘以第`j`项特征值，最后求出所有训练样本的平均值。 一旦你有了包含所有的偏导数的梯度向量，你便可以在梯度向量上使用批量梯度下降算法。 也就是说：你已经知道如何训练 Logistic 回归模型。 对于随机梯度下降，你当然只需要每一次使用一个实例，对于小批量梯度下降，你将每一次使用一个小型实例集。
+
+### 决策边界
+
+我们使用鸢尾花数据集来分析 Logistic 回归。 这是一个著名的数据集，其中包含 150 朵三种不同的鸢尾花的萼片和花瓣的长度和宽度。这三种鸢尾花为：Setosa，Versicolor，Virginica（如图 4-22）。
+
+![](img/图 4-22.PNG)
+
+图 4-22：三种不同的鸢尾花
+
+让我们尝试建立一个分类器，仅仅使用花瓣的宽度特征来识别 Virginica，首先让我们加载数据：
+
+```py
+>>> from sklearn import datasets
+>>> iris = datasets.load_iris()
+>>> list(iris.keys())
+['data', 'target_names', 'feature_names', 'target', 'DESCR']
+>>> X = iris["data"][:, 3:] # petal width
+>>> y = (iris["target"] == 2).astype(np.int)
+```
+
+接下来，我们训练一个逻辑回归模型：
+
+```py
+from sklearn.linear_model import LogisticRegression
+
+log_reg = LogisticRegression()
+log_reg.fit(X, y)
+```
+
+我们来看看模型估计的花瓣宽度从 0 到 3 厘米的概率估计（如图 4-23）：
+
+```py
+X_new = np.linspace(0, 3, 1000).reshape(-1, 1)
+y_proba = log_reg.predict_proba(X_new)
+plt.plot(X_new, y_proba[:, 1], "g-", label="Iris-Virginica")
+plt.plot(X_new, y_proba[:, 0], "b--", label="Not Iris-Virginica")
+```
+
+![](img/图 4-23.PNG)
+
+图 4-23：概率估计和决策边界
+
+Virginica 花的花瓣宽度（用三角形表示）在 1.4 厘米到 2.5 厘米之间，而其他种类的花（由正方形表示）通常具有较小的花瓣宽度，范围从 0.1 厘米到 1.8 厘米。注意，它们之间会有一些重叠。在大约 2 厘米以上时，分类器非常肯定这朵花是 Virginica 花（分类器此时输出一个非常高的概率值），而在 1 厘米以下时，它非常肯定这朵花不是 Virginica 花（不是 Virginica 花有非常高的概率）。在这两个极端之间，分类器是不确定的。但是，如果你使用它进行预测（使用`predict()`方法而不是`predict_proba()`方法），它将返回一个最可能的结果。因此，在 1.6 厘米左右存在一个决策边界，这时两类情况出现的概率都等于 50%：如果花瓣宽度大于 1.6 厘米，则分类器将预测该花是 Virginica，否则预测它不是（即使它有可能错了）：
+
+```py
+>>> log_reg.predict([[1.7], [1.5]])
+array([1, 0])
+```
+
+图 4-24 表示相同的数据集，但是这次使用了两个特征进行判断：花瓣的宽度和长度。 一旦训练完毕，Logistic 回归分类器就可以根据这两个特征来估计一朵花是 Virginica 的可能性。 虚线表示这时两类情况出现的概率都等于 50%：这是模型的决策边界。 请注意，它是一个线性边界。每条平行线都代表一个分类标准下的两两个不同类的概率，从 15%（左下角）到 90%（右上角）。越过右上角分界线的点都有超过 90% 的概率是 Virginica 花。
+
+![](img/图 4-24.PNG)
+
+图 4-24：线性决策边界
+
+就像其他线性模型，逻辑回归模型也可以`l1`或者`l2`惩罚使用进行正则化。Scikit-Learn 默认添加了`l2`惩罚。
+
+> 注意
+>
+> 在 Scikit-Learn 的`LogisticRegression`模型中控制正则化强度的超参数不是`α`（与其他线性模型一样），而是它的逆：`C`。`C`的值越大，模型正则化强度越低。
+
+### Softmax 回归
+
+Logistic 回归模型可以直接推广到支持多类别分类，不必组合和训练多个二分类器（如第 3 章所述）， 其称为 Softmax 回归或多类别 Logistic 回归。
+
+这个想法很简单：当给定一个实例`x`时，Softmax 回归模型首先计算`k`类的分数`s[k](x)`，然后将分数应用在`Softmax`函数（也称为归一化指数）上，估计出每类的概率。 计算`s[k](x)`的公式看起来很熟悉，因为它就像线性回归预测的公式一样（见公式 4-19）。
+
+公式 4-19：`k`类的 Softmax 得分
+
+![](img/tex-ae05c183b5c444d17b885e8f7392e33c.gif)
+
+注意，每个类都有自己独一无二的参数向量`θ[k]`。 所有这些向量通常作为行放在参数矩阵`θ`中。
+
+一旦你计算了样本`x`的每一类的得分，你便可以通过`Softmax`函数（公式 4-20）估计出样本属于第`k`类的概率`p_hat[k]`：通过计算`e`的`s[k](x)`次方，然后对它们进行归一化（除以所有分子的总和）。
+
+公式 4-20：Softmax 函数
+
+![](img/tex-9fff59e9f5c122d355124bb1bf98c0ff.gif)
+
++ `K`表示有多少类
++ `s(x)`表示包含样本`x`每一类得分的向量
++ `σ(s(x)[k])`表示给定每一类分数之后，实例`x`属于第`k`类的概率
+
+
+和 Logistic 回归分类器一样，Softmax 回归分类器将估计概率最高（它只是得分最高的类）的那类作为预测结果，如公式 4-21 所示。
+
+公式 4-21：Softmax 回归模型分类器预测结果
+
+![](img/tex-a294eed0207348e7e8d2b0ca72aabf83.gif)
+
++ `argmax`运算返回一个函数取到最大值的变量值。 在这个等式，它返回使`σ(s(x)[k])`最大时的`k`的值
+
+> 注意
+>
+> Softmax 回归分类器一次只能预测一个类（即它是多类的，但不是多输出的），因此它只能用于判断互斥的类别，如不同类型的植物。 你不能用它来识别一张照片中的多个人。
+
+现在我们知道这个模型如何估计概率并进行预测，接下来将介绍如何训练。我们的目标是建立一个模型在目标类别上有着较高的概率（因此其他类别的概率较低），最小化公式 4-22 可以达到这个目标，其表示了当前模型的损失函数，称为交叉熵，当模型对目标类得出了一个较低的概率，其会惩罚这个模型。 交叉熵通常用于衡量待测类别与目标类别的匹配程度（我们将在后面的章节中多次使用它）
+
+公式 4-22：交叉熵
+
+![](img/tex-b20e626988e6c696012b02def76d5c6a.gif)
+
++ 如果对于第`i`个实例的目标类是`k`，那么`y[k]^(i) = 1`，反之`y[k]^(i) = 0`。
+
+可以看出，当只有两个类（`K = 2`）时，此损失函数等同于 Logistic 回归的损失函数（对数损失；请参阅公式 4-17）。
+
+> 交叉熵
+>
+> 交叉熵源于信息论。假设你想要高效地传输每天的天气信息。如果有八个选项（晴天，雨天等），则可以使用 3 位对每个选项进行编码，因为`2^3=8`。但是，如果你认为几乎每天都是晴天，更高效的编码“晴天”的方式是：只用一位（0）。剩下的七项使用四位（从 1 开始）。交叉熵度量每个选项实际发送的平均比特数。 如果你对天气的假设是完美的，交叉熵就等于天气本身的熵（即其内部的不确定性）。 但是，如果你的假设是错误的（例如，如果经常下雨）交叉熵将会更大，称为 Kullback-Leibler 散度（KL 散度）。
+>
+> 两个概率分布`p`和`q`之间的交叉熵定义为（分布至少是离散的）：
+
+![](img/tex-6bc68f603b52e51645b4bbd318f8cdfe.gif)
+
+这个损失函数关于`θ[k]`的梯度向量为公式 4-23：
+
+
+公式 4-23：`k`类交叉熵的梯度向量
+
+![](img/tex-5dfdb421c5936031346fc0e53a028caf.gif)
+
+现在你可以计算每一类的梯度向量，然后使用梯度下降（或者其他的优化算法）找到使得损失函数达到最小值的参数矩阵`θ`。
+
+让我们使用 Softmax 回归对三种鸢尾花进行分类。当你使用`LogisticRregression`对模型进行训练时，Scikit Learn 默认使用的是一对多模型，但是你可以设置`multi_class`参数为“multinomial”来把它改变为 Softmax 回归。你还必须指定一个支持 Softmax 回归的求解器，例如“lbfgs”求解器（有关更多详细信息，请参阅 Scikit-Learn 的文档）。其默认使用`l2`正则化，你可以使用超参数`C`控制它。
+
+```py
+X = iris["data"][:, (2, 3)] # petal length, petal width
+y = iris["target"]
+
+softmax_reg = LogisticRegression(multi_class="multinomial",solver="lbfgs", C=10)
+softmax_reg.fit(X, y)
+```
+
+所以下次你发现一个花瓣长为 5 厘米，宽为 2 厘米的鸢尾花时，你可以问你的模型你它是哪一类鸢尾花，它会回答 94.2% 是 Virginica 花（第二类），或者 5.8% 是其他鸢尾花。
+
+```py
+>>> softmax_reg.predict([[5, 2]])
+array([2])
+>>> softmax_reg.predict_proba([[5, 2]])
+array([[ 6.33134078e-07, 5.75276067e-02, 9.42471760e-01]])是
+```
+
+![](img/图 4-25.PNG)
+
+图 4-25：Softmax 回归的决策边界
+
+图 4-25 用不同背景色表示了结果的决策边界。注意，任何两个类之间的决策边界是线性的。 该图的曲线表示 Versicolor 类的概率（例如，用 0.450 标记的曲线表示 45% 的概率边界）。注意模型也可以预测一个概率低于 50% 的类。 例如，在所有决策边界相遇的地方，所有类的估计概率相等，分别为 33%。
+
+## 练习
+
+1. 如果你有一个数百万特征的训练集，你应该选择哪种线性回归训练算法？
+2. 假设你训练集中特征的数值尺度（scale）有着非常大的差异，哪种算法会受到影响？有多大的影响？对于这些影响你可以做什么？
+3. 训练 Logistic 回归模型时，梯度下降是否会陷入局部最低点？
+4. 在有足够的训练时间下，是否所有的梯度下降都会得到相同的模型参数？
+5. 假设你使用批量梯度下降法，画出每一代的验证误差。当你发现验证误差一直增大，接下来会发生什么？你怎么解决这个问题？
+6. 当验证误差升高时，立即停止小批量梯度下降是否是一个好主意？
+7. 哪个梯度下降算法（在我们讨论的那些算法中）可以最快到达解的附近？哪个的确实会收敛？怎么使其他算法也收敛？
+8. 假设你使用多项式回归，画出学习曲线，在图上发现学习误差和验证误差之间有着很大的间隙。这表示发生了什么？有哪三种方法可以解决这个问题？
+9. 假设你使用岭回归，并发现训练误差和验证误差都很高，并且几乎相等。你的模型表现是高偏差还是高方差？这时你应该增大正则化参数`α`，还是降低它？
+10. 你为什么要这样做：
+  + 使用岭回归代替线性回归？
+  + Lasso 回归代替岭回归？
+  + 弹性网络代替 Lasso 回归？
+11. 假设你想判断一副图片是室内还是室外，白天还是晚上。你应该选择二个逻辑回归分类器，还是一个 Softmax 分类器？
+12. 在 Softmax 回归上应用批量梯度下降的早期停止法（不使用 Scikit-Learn）。
+
+
+附录 A 提供了这些练习的答案。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/5.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/5.md
new file mode 100644
index 00000000..bbd50de5
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/5.md
@@ -0,0 +1,365 @@
+# 五、支持向量机
+
+> 译者：[@QiaoXie](https://github.com/QiaoXie)
+> 
+> 校对者：[@飞龙](https://github.com/wizardforcel)、[@PeterHo](https://github.com/PeterHo)、[@yanmengk](https://github.com/yanmengk)、[@YuWang](https://github.com/bigeyex)
+
+支持向量机（SVM）是个非常强大并且有多种功能的机器学习模型，能够做线性或者非线性的分类，回归，甚至异常值检测。机器学习领域中最为流行的模型之一，是任何学习机器学习的人必备的工具。SVM 特别适合应用于复杂但中小规模数据集的分类问题。
+
+本章节将阐述支持向量机的核心概念，怎么使用这个强大的模型，以及它是如何工作的。
+
+## 线性支持向量机分类
+
+SVM 的基本思想能够用一些图片来解释得很好，图 5-1 展示了我们在第 4 章结尾处介绍的鸢尾花数据集的一部分。这两个种类能够被非常清晰，非常容易的用一条直线分开（即线性可分的）。左边的图显示了三种可能的线性分类器的判定边界。其中用虚线表示的线性模型判定边界很差，甚至不能正确地划分类别。另外两个线性模型在这个数据集表现的很好，但是它们的判定边界很靠近样本点，在新的数据上可能不会表现的很好。相比之下，右边图中 SVM 分类器的判定边界实线，不仅分开了两种类别，而且还尽可能地远离了最靠近的训练数据点。你可以认为 SVM 分类器在两种类别之间保持了一条尽可能宽敞的街道（图中平行的虚线），其被称为最大间隔分类。
+
+![](img/5-1.jpg)
+
+我们注意到添加更多的样本点在“街道”外并不会影响到判定边界，因为判定边界是由位于“街道”边缘的样本点确定的，这些样本点被称为“支持向量”（图 5-1 中被圆圈圈起来的点）
+
+> 警告
+> 
+> SVM 对特征缩放比较敏感，可以看到图 5-2：左边的图中，垂直的比例要更大于水平的比例，所以最宽的“街道”接近水平。但对特征缩放后（例如使用 Scikit-Learn 的 StandardScaler），判定边界看起来要好得多，如右图。
+
+![](img/5-2.jpg)
+
+
+
+### 软间隔分类
+
+如果我们严格地规定所有的数据都不在“街道”上，都在正确地两边，称为硬间隔分类，硬间隔分类有两个问题，第一，只对线性可分的数据起作用，第二，对异常点敏感。图 5-3 显示了只有一个异常点的鸢尾花数据集：左边的图中很难找到硬间隔，右边的图中判定边界和我们之前在图 5-1 中没有异常点的判定边界非常不一样，它很难一般化。
+
+![](img/5-3.jpg)
+
+为了避免上述的问题，我们更倾向于使用更加软性的模型。目的在保持“街道”尽可能大和避免间隔违规（例如：数据点出现在“街道”中央或者甚至在错误的一边）之间找到一个良好的平衡。这就是软间隔分类。
+
+在 Scikit-Learn 库的 SVM 类，你可以用`C`超参数（惩罚系数）来控制这种平衡：较小的`C`会导致更宽的“街道”，但更多的间隔违规。图 5-4 显示了在非线性可分隔的数据集上，两个软间隔 SVM 分类器的判定边界。左边图中，使用了较大的`C`值，导致更少的间隔违规，但是间隔较小。右边的图，使用了较小的`C`值，间隔变大了，但是许多数据点出现在了“街道”上。然而，第二个分类器似乎泛化地更好：事实上，在这个训练数据集上减少了预测错误，因为实际上大部分的间隔违规点出现在了判定边界正确的一侧。
+
+![](img/5-4.jpg)
+
+> 提示
+> 
+> 如果你的 SVM 模型过拟合，你可以尝试通过减小超参数`C`去调整。 
+
+以下的 Scikit-Learn 代码加载了内置的鸢尾花（Iris）数据集，缩放特征，并训练一个线性 SVM 模型（使用`LinearSVC`类，超参数`C=1`，hinge 损失函数）来检测 Virginica 鸢尾花，生成的模型在图 5-4 的右图。
+
+```py
+import numpy as np
+from sklearn import datasets
+from sklearn.pipeline import Pipeline
+from sklearn.preprocessing import StandardScaler
+from sklearn.svm import LinearSVC
+
+iris = datasets.load_iris()
+X = iris["data"][:, (2, 3)] # petal length, petal width
+y = (iris["target"] == 2).astype(np.float64) # Iris-Virginica
+
+svm_clf = Pipeline((
+        ("scaler", StandardScaler()),
+        ("linear_svc", LinearSVC(C=1, loss="hinge")),
+    ))
+
+svm_clf.fit(X, y)
+
+Then, as usual, you can use the model to make predictions:
+
+>>> svm_clf.predict([[5.5, 1.7]])
+array([ 1.])
+```
+
+> 注
+> 
+> 不同于 Logistic 回归分类器，SVM 分类器不会输出每个类别的概率。
+
+作为一种选择，你可以在 SVC 类，使用`SVC(kernel="linear", C=1)`，但是它比较慢，尤其在较大的训练集上，所以一般不被推荐。另一个选择是使用`SGDClassifier`类，即`SGDClassifier(loss="hinge", alpha=1/(m*C))`。它应用了随机梯度下降（SGD 见第四章）来训练一个线性 SVM 分类器。尽管它不会和`LinearSVC`一样快速收敛，但是对于处理那些不适合放在内存的大数据集是非常有用的，或者处理在线分类任务同样有用。
+
+> 提示
+> 
+> `LinearSVC`要使偏置项规范化，首先你应该集中训练集减去它的平均数。如果你使用了`StandardScaler`，那么它会自动处理。此外，确保你设置`loss`参数为`hinge `，因为它不是默认值。最后，为了得到更好的效果，你需要将`dual`参数设置为`False`，除非特征数比样本量多（我们将在本章后面讨论二元性）
+
+
+## 非线性支持向量机分类
+
+尽管线性 SVM 分类器在许多案例上表现得出乎意料的好，但是很多数据集并不是线性可分的。一种处理非线性数据集方法是增加更多的特征，例如多项式特征（正如你在第 4 章所做的那样）；在某些情况下可以变成线性可分的数据。在图 5-5 的左图中，它只有一个特征`x1`的简单的数据集，正如你看到的，该数据集不是线性可分的。但是如果你增加了第二个特征 `x2=(x1)^2`，产生的 2D 数据集就能很好的线性可分。
+
+![](img/5-5.jpg)
+
+为了实施这个想法，通过 Scikit-Learn，你可以创建一个流水线（Pipeline）去包含多项式特征（PolynomialFeatures）变换（在 121 页的“Polynomial Regression”中讨论），然后一个`StandardScaler`和`LinearSVC`。让我们在卫星数据集（moons datasets）测试一下效果。
+
+```py
+from sklearn.datasets import make_moons
+from sklearn.pipeline import Pipeline
+from sklearn.preprocessing import PolynomialFeatures
+
+polynomial_svm_clf = Pipeline((
+        ("poly_features", PolynomialFeatures(degree=3)),
+        ("scaler", StandardScaler()),
+        ("svm_clf", LinearSVC(C=10, loss="hinge"))
+    ))
+
+polynomial_svm_clf.fit(X, y)
+```
+
+![](img/5-6.jpg)
+
+
+### 多项式核
+
+添加多项式特征很容易实现，不仅仅在 SVM，在各种机器学习算法都有不错的表现，但是低次数的多项式不能处理非常复杂的数据集，而高次数的多项式却产生了大量的特征，会使模型变得慢。
+
+幸运的是，当你使用 SVM 时，你可以运用一个被称为“核技巧”（kernel trick）的神奇数学技巧。它可以取得就像你添加了许多多项式，甚至有高次数的多项式，一样好的结果。所以不会大量特征导致的组合爆炸，因为你并没有增加任何特征。这个技巧可以用 SVC 类来实现。让我们在卫星数据集测试一下效果。
+
+```py
+from sklearn.svm import SVC
+poly_kernel_svm_clf = Pipeline((
+        ("scaler", StandardScaler()),
+        ("svm_clf", SVC(kernel="poly", degree=3, coef0=1, C=5))
+    ))
+poly_kernel_svm_clf.fit(X, y)
+```
+
+这段代码用 3 阶的多项式核训练了一个 SVM 分类器，即图 5-7 的左图。右图是使用了 10 阶的多项式核 SVM 分类器。很明显，如果你的模型过拟合，你可以减小多项式核的阶数。相反的，如果是欠拟合，你可以尝试增大它。超参数`coef0`控制了高阶多项式与低阶多项式对模型的影响。
+
+![](img/5-7.jpg)
+
+通用的方法是用网格搜索（grid search 见第 2 章）去找到最优超参数。首先进行非常粗略的网格搜索一般会很快，然后在找到的最佳值进行更细的网格搜索。对每个超参数的作用有一个很好的理解可以帮助你在正确的超参数空间找到合适的值。
+
+
+### 增加相似特征
+
+另一种解决非线性问题的方法是使用相似函数（similarity funtion）计算每个样本与特定地标（landmark）的相似度。例如，让我们来看看前面讨论过的一维数据集，并在`x1=-2`和`x1=1`之间增加两个地标（图 5-8 左图）。接下来，我们定义一个相似函数，即高斯径向基函数（Gaussian Radial Basis Function，RBF），设置`γ = 0.3`（见公式 5-1）
+
+公式 5-1 RBF
+
+![](img/tex-8b908429a5b5ee2e519f8caa16f82ee1.gif)
+
+
+它是个从 0 到 1 的钟型函数，值为 0 的离地标很远，值为 1 的在地标上。现在我们准备计算新特征。例如，我们看一下样本`x1=-1`：它距离第一个地标距离是 1，距离第二个地标是 2。因此它的新特征为`x2=exp(-0.3 × (1^2))≈0.74`和`x3=exp(-0.3 × (2^2))≈0.30`。图 5-8 右边的图显示了特征转换后的数据集（删除了原始特征），正如你看到的，它现在是线性可分了。
+
+![](img/5-8.jpg)
+
+你可能想知道如何选择地标。最简单的方法是在数据集中的每一个样本的位置创建地标。这将产生更多的维度从而增加了转换后数据集是线性可分的可能性。但缺点是，`m`个样本，`n`个特征的训练集被转换成了`m`个实例，`m`个特征的训练集（假设你删除了原始特征）。这样一来，如果你的训练集非常大，你最终会得到同样大的特征。
+
+
+### 高斯 RBF 核
+
+就像多项式特征法一样，相似特征法对各种机器学习算法同样也有不错的表现。但是在所有额外特征上的计算成本可能很高，特别是在大规模的训练集上。然而，“核” 技巧再一次显现了它在 SVM 上的神奇之处：高斯核让你可以获得同样好的结果成为可能，就像你在相似特征法添加了许多相似特征一样，但事实上，你并不需要在 RBF 添加它们。我们使用 SVC 类的高斯 RBF 核来检验一下。
+
+```py
+rbf_kernel_svm_clf = Pipeline((
+        ("scaler", StandardScaler()),
+        ("svm_clf", SVC(kernel="rbf", gamma=5, C=0.001))
+    ))
+rbf_kernel_svm_clf.fit(X, y)
+```
+
+这个模型在图 5-9 的左下角表示。其他的图显示了用不同的超参数`gamma (γ)`和`C`训练的模型。增大`γ`使钟型曲线更窄（图 5-8 左图），导致每个样本的影响范围变得更小：即判定边界最终变得更不规则，在单个样本周围环绕。相反的，较小的`γ`值使钟型曲线更宽，样本有更大的影响范围，判定边界最终则更加平滑。所以γ是可调整的超参数：如果你的模型过拟合，你应该减小`γ`值，若欠拟合，则增大`γ`（与超参数`C`相似）。
+
+![](img/5-9.jpg)
+
+还有其他的核函数，但很少使用。例如，一些核函数是专门用于特定的数据结构。在对文本文档或者 DNA 序列进行分类时，有时会使用字符串核（String kernels）（例如，使用 SSK 核（string subsequence kernel）或者基于编辑距离（Levenshtein distance）的核函数）。
+
+> 提示
+> 
+> 这么多可供选择的核函数，你如何决定使用哪一个？一般来说，你应该先尝试线性核函数（记住`LinearSVC`比`SVC(kernel="linear")`要快得多），尤其是当训练集很大或者有大量的特征的情况下。如果训练集不太大，你也可以尝试高斯径向基核（Gaussian RBF Kernel），它在大多数情况下都很有效。如果你有空闲的时间和计算能力，你还可以使用交叉验证和网格搜索来试验其他的核函数，特别是有专门用于你的训练集数据结构的核函数。
+
+
+### 计算复杂性
+
+`LinearSVC`类基于`liblinear`库，它实现了线性 SVM 的优化算法。它并不支持核技巧，但是它样本和特征的数量几乎是线性的：训练时间复杂度大约为`O(m × n)`。
+
+如果你要非常高的精度，这个算法需要花费更多时间。这是由容差值超参数`ϵ`（在 Scikit-learn 称为`tol`）控制的。大多数分类任务中，使用默认容差值的效果是已经可以满足一般要求。
+
+SVC 类基于`libsvm`库，它实现了支持核技巧的算法。训练时间复杂度通常介`于 O(m^2 × n)`和`O(m^3 × n)`之间。不幸的是，这意味着当训练样本变大时，它将变得极其慢（例如，成千上万个样本）。这个算法对于复杂但小型或中等数量的数据集表现是完美的。然而，它能对特征数量很好的缩放，尤其对稀疏特征来说（sparse features）（即每个样本都有一些非零特征）。在这个情况下，算法对每个样本的非零特征的平均数量进行大概的缩放。表 5-1 对 Scikit-learn 的 SVM 分类模型进行比较。
+
+![](img/tb-5-1.jpg)
+
+
+## SVM 回归
+
+正如我们之前提到的，SVM 算法应用广泛：不仅仅支持线性和非线性的分类任务，还支持线性和非线性的回归任务。技巧在于逆转我们的目标：限制间隔违规的情况下，不是试图在两个类别之间找到尽可能大的“街道”（即间隔）。SVM 回归任务是限制间隔违规情况下，尽量放置更多的样本在“街道”上。“街道”的宽度由超参数`ϵ`控制。图 5-10 显示了在一些随机生成的线性数据上，两个线性 SVM 回归模型的训练情况。一个有较大的间隔（`ϵ=1.5`），另一个间隔较小（`ϵ=0.5`）。
+
+![](img/5-10.jpg)
+
+添加更多的数据样本在间隔之内并不会影响模型的预测，因此，这个模型认为是不敏感的（ϵ-insensitive）。
+
+你可以使用 Scikit-Learn 的`LinearSVR`类去实现线性 SVM 回归。下面的代码产生的模型在图 5-10 左图（训练数据需要被中心化和标准化）
+
+```py
+from sklearn.svm import LinearSVR
+svm_reg = LinearSVR(epsilon=1.5)
+svm_reg.fit(X, y)
+```
+
+处理非线性回归任务，你可以使用核化的 SVM 模型。比如，图 5-11 显示了在随机二次方的训练集，使用二次方多项式核函数的 SVM 回归。左图是较小的正则化（即更大的`C`值），右图则是更大的正则化（即小的`C`值）
+
+![](img/5-11.jpg)
+
+下面的代码的模型在图 5-11，其使用了 Scikit-Learn 的`SVR`类（支持核技巧）。在回归任务上，`SVR`类和`SVC`类是一样的，并且`LinearSVR`是和`LinearSVC`等价。`LinearSVR`类和训练集的大小成线性（就像`LinearSVC`类），当训练集变大，`SVR`会变的很慢（就像`SVC`类）
+
+```py
+from sklearn.svm import SVR
+
+svm_poly_reg = SVR(kernel="poly", degree=2, C=100, epsilon=0.1)
+svm_poly_reg.fit(X, y)
+```
+
+> 注
+> 
+> SVM 也可以用来做异常值检测，详情见 Scikit-Learn 文档
+
+
+## 背后机制
+
+这个章节从线性 SVM 分类器开始，将解释 SVM 是如何做预测的并且算法是如何工作的。如果你是刚接触机器学习，你可以跳过这个章节，直接进入本章末尾的练习。等到你想深入了解 SVM，再回头研究这部分内容。
+
+首先，关于符号的约定：在第 4 章，我们将所有模型参数放在一个向量`θ`里，包括偏置项`θ0`，`θ1`到`θn`的输入特征权重，和增加一个偏差输入`x0 = 1`到所有样本。在本章中，我们将使用一个不同的符号约定，在处理 SVM 上，这更方便，也更常见：偏置项被命名为`b`，特征权重向量被称为`w`，在输入特征向量中不再添加偏置特征。
+
+
+### 决策函数和预测
+
+线性 SVM 分类器通过简单地计算决策函数`w · x + b = w[1] x[1] + ... + w[n] x[n] + b`来预测新样本的类别：如果结果是正的，预测类别`ŷ`是正类，为 1，否则他就是负类，为 0。见公式 5-2
+
+![](img/eq-5-2.gif)
+
+图 5-12 显示了和图 5-4 右边图模型相对应的决策函数：因为这个数据集有两个特征（花瓣的宽度和花瓣的长度），所以是个二维的平面。决策边界是决策函数等于 0 的点的集合，图中两个平面的交叉处，即一条直线（图中的实线）
+
+![](img/5-12.jpg)
+
+虚线表示的是那些决策函数等于 1 或 -1 的点：它们平行，且到决策边界的距离相等，形成一个间隔。训练线性 SVM 分类器意味着找到`w`值和`b`值使得这一个间隔尽可能大，同时避免间隔违规（硬间隔）或限制它们（软间隔）
+
+
+### 训练目标
+
+看下决策函数的斜率：它等于权重向量的范数`||w||`。如果我们把这个斜率除于 2，决策函数等于 ±1 的点将会离决策边界原来的两倍大。换句话，即斜率除于 2，那么间隔将增加两倍。在图 5-13 中，2D 形式比较容易可视化。权重向量`w`越小，间隔越大。
+
+![](img/5-13.jpg)
+
+所以我们的目标是最小化`||w||`，从而获得大的间隔。然而，如果我们想要避免间隔违规（硬间隔），对于正的训练样本，我们需要决策函数大于 1，对于负训练样本，小于 -1。若我们对负样本（即`y^(i) = 0`）定义`t^(i) = -1`，对正样本（即`y^(i) = 1`）定义`t^(i) = 1`，那么我们可以对所有的样本表示为`t^(i) (w^T x^(i) + b) > 1`。
+
+因此，我们可以将硬间隔线性 SVM 分类器表示为公式 5-3 中的约束优化问题
+
+![](img/eq-5-3.gif)
+
+> 注
+> 
+> `1/2 w^T w`等于`1/2 |w|^2`，我们最小化`1/2 w^T w`，而不是最小化`|w|`。这会给我们相同的结果（因为最小化`w`值和`b`值，也是最小化该值一半的平方），但是`1/2 |w|^2`有很好又简单的导数（只有`w`），`|w|`在`w=0`处是不可微的。优化算法在可微函数表现得更好。
+
+为了获得软间隔的目标，我们需要对每个样本应用一个松弛变量（slack variable）`ζ^(i) > 0`。`ζ^(i)`表示了第`i`个样本允许违规间隔的程度。我们现在有两个不一致的目标：一个是使松弛变量尽可能的小，从而减小间隔违规，另一个是使`1/2 w·w`尽量小，从而增大间隔。这时`C`超参数发挥作用：它允许我们在两个目标之间权衡。我们得到了公式 5-4 的约束优化问题。
+
+![](img/eq-5-4.gif)
+
+
+### 二次规划
+
+硬间隔和软间隔都是线性约束的凸二次规划优化问题。这些问题被称之为二次规划（QP）问题。现在有许多解决方案可以使用各种技术来处理 QP 问题，但这超出了本书的范围。一般问题的公式在公式 5-5 给出。
+
+![](img/eq-5-5.gif)
+
+注意到表达式`Ap ≤ b`实际上定义了`n[c]`约束：
+
+![](img/tex-660caa34698a6b22aaae14095ab6b077.gif)
+
+`a^(i)`是个包含了`A`的第`i`行元素的向量，`b^(i)`是`b`的第`i`个元素。 
+
+可以很容易地看到，如果你用以下的方式设置 QP 的参数，你将获得硬间隔线性 SVM 分类器的目标：
+
++   `n[p] = n + 1`，`n`表示特征的数量（+1 是偏置项）
++   `n[c] = m`，`m`表示训练样本数量
++   `H`是`n[p] * n[p]`单位矩阵，除了左上角为 0（忽略偏置项）
++   `f = 0`，一个全为 0 的`n[p]`维向量
++   `b = 1`，一个全为 1 的`n[c]`维向量
++   `a^(i) = -t^(i) x_dot^(i)`，`x_dot^(i)`等于`x^(i)`带一个额外的偏置特征`x_dot[0] = 1`
+
+所以训练硬间隔线性 SVM 分类器的一种方式是使用现有的 QP 解决方案，即上述的参数。由此产生的向量`p`将包含偏置项`b = p[0]`和特征权重`w[i] = p[i] (i=1,2,...m)`。同样的，你可以使用 QP 解决方案来解决软间隔问题（见本章最后的练习）
+
+然而，使用核技巧我们将会看到一个不同的约束优化问题。
+
+
+### 对偶问题
+
+给出一个约束优化问题，即原始问题（primal problem），它可能表示不同但是和另一个问题紧密相连，称为对偶问题（Dual Problem）。对偶问题的解通常是对原始问题的解给出一个下界约束，但在某些条件下，它们可以获得相同解。幸运的是，SVM 问题恰好满足这些条件，所以你可以选择解决原始问题或者对偶问题，两者将会有相同解。公式 5-6 表示了线性 SVM 的对偶形式（如果你对怎么从原始问题获得对偶问题感兴趣，可以看下附录 C）
+
+![](img/eq-5-6.gif)
+
+一旦你找到最小化公式的向量`α`（使用 QP 解决方案），你可以通过使用公式 5-7 的方法计算`w`和`b`，从而使原始问题最小化。
+
+![](img/eq-5-7.gif)
+
+当训练样本的数量比特征数量小的时候，对偶问题比原始问题要快得多。更重要的是，它让核技巧成为可能，而原始问题则不然。那么这个核技巧是怎么样的呢？
+
+
+### 核化支持向量机
+
+假设你想把一个 2 次多项式变换应用到二维空间的训练集（例如卫星数据集），然后在变换后的训练集上训练一个线性 SVM 分类器。公式 5-8 显示了你想应用的 2 次多项式映射函数`ϕ`。 
+
+![](img/eq-5-8.gif)
+
+注意到转换后的向量是 3 维的而不是 2 维。如果我们应用这个 2 次多项式映射，然后计算转换后向量的点积（见公式 5-9），让我们看下两个 2 维向量`a`和`b`会发生什么。
+
+![](img/eq-5-9.gif)
+
+转换后向量的点积等于原始向量点积的平方：`φ(a)^T φ(b) = (a^T b)^2`.
+
+关键点是：如果你应用转换`ϕ`到所有训练样本，那么对偶问题（见公式 5-6）将会包含点积`φ(x^(i))^T φ(x^(j))`。但如果`ϕ`像在公式 5-8 定义的 2 次多项式转换，那么你可以将这个转换后的向量点积替换成`(x^(i)^T x^(j))^2`。所以实际上你根本不需要对训练样本进行转换：仅仅需要在公式 5-6 中，将点积替换成它点积的平方。结果将会和你经过麻烦的训练集转换并拟合出线性 SVM 算法得出的结果一样，但是这个技巧使得整个过程在计算上面更有效率。这就是核技巧的精髓。
+
+函数`K(a, b) = (a^T b)^2`被称为二次多项式核（polynomial kernel）。在机器学习，核函数是一个能计算点积的函数，并只基于原始向量`a`和`b`，不需要计算（甚至知道）转换`ϕ`。公式 5-10 列举了一些最常用的核函数。
+
+![](img/eq-5-10.gif)
+
+> Mercer 定理
+> 
+> 根据 Mercer 定理，如果函数`K(a, b)`满足一些 Mercer 条件的数学条件(`K`函数在参数内必须是连续，对称，即`K(a, b) = K(b, a)`，等)，那么存在函数`ϕ`，将`a`和`b`映射到另一个空间（可能有更高的维度），有`K(a, b) = ϕ(a)^T ϕ(b)`。所以你可以用`K`作为核函数，即使你不知道`ϕ`是什么。使用高斯核（Gaussian RBF kernel）情况下，它实际是将每个训练样本映射到无限维空间，所以你不需要知道是怎么执行映射的也是一件好事。
+> 
+> 注意一些常用核函数（例如 Sigmoid 核函数）并不满足所有的 Mercer 条件，然而在实践中通常表现得很好。
+
+我们还有一个问题要解决。公式 5-7 展示了线性 SVM 分类器如何从对偶解到原始解，如果你应用了核技巧那么得到的公式会包含`φ(x^(i))`。事实上，`w`必须和`φ(x^(i))`有同样的维度，可能是巨大的维度或者无限的维度，所以你很难计算它。但怎么在不知道`w`的情况下做出预测？好消息是你可以将公式 5-7 的`w`代入到新的样本`x^(n)`的决策函数中，你会得到一个在输入向量之间只有点积的方程式。这时，核技巧将派上用场，见公式 5-11
+
+![](img/eq-5-11.gif)
+
+注意到支持向量才满足`α(i)≠0`，做出预测只涉及计算为支持向量部分的输入样本`x^(n)`的点积，而不是全部的训练样本。当然，你同样也需要使用同样的技巧来计算偏置项`b`，见公式 5-12
+
+![](img/eq-5-12.gif)
+
+如果你开始感到头痛，这很正常：因为这是核技巧一个不幸的副作用
+
+
+### 在线支持向量机
+
+在结束这一章之前，我们快速地了解一下在线 SVM 分类器（回想一下，在线学习意味着增量地学习，不断有新实例）。对于线性 SVM 分类器，一种方式是使用梯度下降（例如使用`SGDClassifire`）最小化代价函数，如从原始问题推导出的公式 5-13。不幸的是，它比基于 QP 方式收敛慢得多。
+
+![](img/eq-5-13.gif)
+
+代价函数第一个和会使模型有一个小的权重向量`w`，从而获得一个更大的间隔。第二个和计算所有间隔违规的总数。如果样本位于“街道”上和正确的一边，或它与“街道”正确一边的距离成比例，则间隔违规等于 0。最小化保证了模型的间隔违规尽可能小并且少。
+
+> Hinge 损失
+> 
+> 函数`max(0, 1–t)`被称为 Hinge 损失函数（如下）。当`t≥1`时，Hinge 值为 0。如果`t<1`,它的导数（斜率）为 -1，若`t>1`，则等于 0。在`t=1`处，它是不可微的，但就像套索回归（Lasso Regression）（参见 130 页套索回归）一样，你仍然可以在`t=0`时使用梯度下降法（即 -1 到 0 之间任何值）
+> 
+> ![](img/5-hinge.jpg)
+
+我们也可以实现在线核化的 SVM。例如使用“增量和递减 SVM 学习”或者“在线和主动的快速核分类器”。但是，这些都是用 Matlab 和 C++ 实现的。对于大规模的非线性问题，你可能需要考虑使用神经网络（见第二部分）
+
+
+## 练习
+
+1.  支持向量机背后的基本思想是什么
+
+2.  什么是支持向量
+
+3.  当使用 SVM 时，为什么标准化输入很重要？
+
+4.  分类一个样本时，SVM 分类器能够输出一个置信值吗？概率呢？
+
+5.  在一个有数百万训练样本和数百特征的训练集上，你是否应该使用 SVM 原始形式或对偶形式来训练一个模型？
+
+6.  假设你用 RBF 核来训练一个 SVM 分类器，如果对训练集欠拟合：你应该增大或者减小`γ`吗？调整参数`C`呢？
+
+7.  使用现有的 QP 解决方案，你应该怎么样设置 QP 参数（`H`，`f`，`A`，和`b`）去解决一个软间隔线性 SVM 分类器问题？
+
+8.  在一个线性可分的数据集训练一个`LinearSVC`，并在同一个数据集上训练一个`SVC`和`SGDClassifier`，看它们是否产生了大致相同效果的模型。
+
+9.  在 MNIST 数据集上训练一个 SVM 分类器。因为 SVM 分类器是二元的分类，你需要使用一对多（one-versus-all）来对 10 个数字进行分类。你可能需要使用小的验证集来调整超参数，以加快进程。最后你能达到多少准确度？
+
+0.  在加利福尼亚住宅（California housing）数据集上训练一个 SVM 回归模型
+
+这些练习的答案在附录 A。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/6.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/6.md
new file mode 100644
index 00000000..ccd3d3b7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/6.md
@@ -0,0 +1,276 @@
+{% raw %}
+
+# 六、决策树
+
+> 译者：[@Lisanaaa](https://github.com/Lisanaaa)、[@y3534365](https://github.com/y3534365)
+> 
+> 校对者：[@飞龙](https://github.com/wizardforcel)、[@YuWang](https://github.com/bigeyex)
+
+和支持向量机一样， 决策树是一种多功能机器学习算法， 即可以执行分类任务也可以执行回归任务， 甚至包括多输出（multioutput）任务.
+
+它是一种功能很强大的算法，可以对很复杂的数据集进行拟合。例如，在第二章中我们对加利福尼亚住房数据集使用决策树回归模型进行训练，就很好的拟合了数据集（实际上是过拟合）。
+
+决策树也是随机森林的基本组成部分（见第 7 章），而随机森林是当今最强大的机器学习算法之一。
+
+在本章中，我们将首先讨论如何使用决策树进行训练，可视化和预测。
+
+然后我们会学习在 Scikit-learn 上面使用 CART 算法，并且探讨如何调整决策树让它可以用于执行回归任务。
+
+最后，我们当然也需要讨论一下决策树目前存在的一些局限性。
+
+## 决策树的训练和可视化
+
+为了理解决策树，我们需要先构建一个决策树并亲身体验它到底如何进行预测。
+
+接下来的代码就是在我们熟知的鸢尾花数据集上进行一个决策树分类器的训练。
+
+```py
+from sklearn.datasets import load_iris
+from sklearn.tree import DecisionTreeClassifier
+iris = load_iris()
+X = iris.data[:, 2:] # petal length and width 
+y = iris.target
+tree_clf = DecisionTreeClassifier(max_depth=2)
+tree_clf.fit(X, y)
+```
+
+你可以通过使用`export_graphviz()`方法，通过生成一个叫做`iris_tree.dot`的图形定义文件将一个训练好的决策树模型可视化。
+
+```py
+from sklearn.tree import export_graphviz
+export_graphviz(
+            tree_clf,
+            out_file=image_path("iris_tree.dot"),
+            feature_names=iris.feature_names[2:],
+            class_names=iris.target_names,
+            rounded=True,
+            filled=True
+        )
+```
+
+> 译者注：原文中的`image_path`用于获得示例程序的相对路径。这里直接去掉改成`out_file="iris_tree.dot"`即可
+> 参见 https://github.com/ageron/handson-ml/blob/master/06_decision_trees.ipynb
+
+然后，我们可以利用`graphviz package` [1] 中的`dot`命令行，将`.dot`文件转换成 PDF 或 PNG 等多种数据格式。例如，使用命令行将`.dot`文件转换成`.png`文件的命令如下：
+
+> [1] Graphviz 是一款开源图形可视化软件包，<http://www.graphviz.org/>。
+
+```
+$ dot -Tpng iris_tree.dot -o iris_tree.png
+```
+
+我们的第一个决策树如图 6-1。
+
+![](img/102.png)
+
+## 开始预测
+
+现在让我们来看看在图 6-1 中的树是如何进行预测的。假设你找到了一朵鸢尾花并且想对它进行分类，你从根节点开始（深度为 0，顶部）：该节点询问花朵的花瓣长度是否小于 2.45 厘米。如果是，您将向下移动到根的左侧子节点（深度为 1，左侧）。 在这种情况下，它是一片叶子节点（即它没有任何子节点），所以它不会问任何问题：你可以方便地查看该节点的预测类别，决策树预测你的花是 Iris-Setosa（`class = setosa`）。
+
+现在假设你找到了另一朵花，但这次的花瓣长度是大于 2.45 厘米的。你必须向下移动到根的右侧子节点（深度为 1，右侧），而这个节点不是叶节点，所以它会问另一个问题：花瓣宽度是否小于 1.75 厘米？ 如果是，那么你的花很可能是一个 Iris-Versicolor（深度为 2，左）。 如果不是，那很可能一个 Iris-Virginica（深度为 2，右），真的是太简单了，对吧！
+
+> 决策树的众多特性之一就是， 它不需要太多的数据预处理， 尤其是不需要进行特征的缩放或者归一化。
+
+节点的`samples`属性统计出它应用于多少个训练样本实例。
+
+例如，我们有一百个训练实例是花瓣长度大于 2.45 里面的（深度为 1， 右侧），在这 100 个样例中又有 54 个花瓣宽度小于 1.75cm（深度为 2，左侧）。
+
+节点的`value`属性告诉你这个节点对于每一个类别的样例有多少个。
+
+例如：右下角的节点中包含 0 个 Iris-Setosa，1 个 Iris-Versicolor 和 45 个 Iris-Virginica。
+
+最后，节点的`Gini`属性用于测量它的纯度：如果一个节点包含的所有训练样例全都是同一类别的，我们就说这个节点是纯的（`Gini=0`）。
+
+例如，深度为 1 的左侧节点只包含 Iris-Setosa 训练实例，它就是一个纯节点，Gini 指数为 0。
+
+公式 6-1 显示了训练算法如何计算第`i`个节点的 gini 分数`G[i]`。例如， 深度为 2 的左侧节点基尼指数为：`1 - (0 / 54)^2 - (49 / 54)^2 - (5 / 54)^2 = 0.68`。另外一个纯度指数也将在后文很快提到。
+
+![](img/tex-c4b1ce4f0e917b52ea607137ff150914.gif)
+
+
+- `p[i,k]`是第`i`个节点中训练实例为的`k`类实例的比例
+
+> Scikit-Learn 用的是 CART 算法， CART 算法仅产生二叉树：每一个非叶节点总是只有两个子节点（只有是或否两个结果）。然而，像 ID3 这样的算法可以产生超过两个子节点的决策树模型。
+
+图 6-2 显示了决策树的决策边界。粗的垂直线代表根节点（深度为 0）的决定边界：花瓣长度为 2.45 厘米。由于左侧区域是纯的（只有 Iris-Setosa），所以不能再进一步分裂。然而，右边的区域是不纯的，所以深度为 1 的右边节点在花瓣宽度为 1.75 厘米处分裂（用虚线表示）。又由于`max_depth`设置为 2，决策树在那里停了下来。但是，如果将`max_depth`设置为 3，两个深度为 2 的节点，每个都将会添加另一个决策边界（用虚线表示）。
+
+![](img/103.png)
+
+> 模型小知识：白盒与黑盒
+>
+> 正如我们看到的一样，决策树非常直观，他们的决定很容易被解释。这种模型通常被称为白盒模型。相反，随机森林或神经网络通常被认为是黑盒模型。他们能做出很好的预测，并且您可以轻松检查它们做出这些预测过程中计算的执行过程。然而，人们通常很难用简单的术语来解释为什么模型会做出这样的预测。例如，如果一个神经网络说一个特定的人出现在图片上，我们很难知道究竟是什么导致了这一个预测的出现：
+> 
+> 模型是否认出了那个人的眼睛？ 她的嘴？ 她的鼻子？她的鞋？或者是否坐在沙发上？ 相反，决策树提供良好的、简单的分类规则，甚至可以根据需要手动操作（例如鸢尾花分类）。
+
+## 估计分类概率
+
+决策树还可以估计某个实例属于特定类`k`的概率：首先遍历树来查找此实例的叶节点，然后它返回此节点中类`k`的训练实例的比例。
+
+例如，假设你发现了一个花瓣长 5 厘米，宽 1.5 厘米的花朵。相应的叶节点是深度为 2 的左节点，因此决策树应该输出以下概率：Iris-Setosa 为 0%（`0/54`），Iris-Versicolor 为 90.7%（`49/5`4），Iris-Virginica 为 9.3%（`5/54`）。当然，如果你要求它预测具体的类，它应该输出 Iris-Versicolor（类别 1），因为它具有最高的概率。我们了测试一下：
+
+```py
+>>> tree_clf.predict_proba([[5, 1.5]])
+array([[ 0. , 0.90740741, 0.09259259]])
+>>> tree_clf.predict([[5, 1.5]])
+array([1])
+```
+
+完美！请注意，估计概率在任何地方都是相同的， 除了图 6-2 中右下角的矩形部分，例如花瓣长 6 厘米和宽 1.5 厘米（尽管在这种情况下它看起来很可能是 Iris-Virginica）。
+
+## CART 训练算法
+
+Scikit-Learn 用分裂回归树（Classification And Regression Tree，简称 CART）算法训练决策树（也叫“增长树”）。这种算法思想真的非常简单：
+
+首先使用单个特征`k`和阈值`t[k]`（例如，“花瓣长度`≤2.45cm`”）将训练集分成两个子集。它如何选择`k`和`t[k]`呢？它寻找到能够产生最纯粹的子集一对`(k, t[k])`，然后通过子集大小加权计算。
+
+算法会尝试最小化成本函数。方法如公式 6-2
+
+![](img/104.png)
+
+当它成功的将训练集分成两部分之后， 它将会继续使用相同的递归式逻辑继续的分割子集，然后是子集的子集。当达到预定的最大深度之后将会停止分裂（由`max_depth`超参数决定），或者是它找不到可以继续降低不纯度的分裂方法的时候。几个其他超参数（之后介绍）控制了其他的停止生长条件（`min_samples_split`，`min_samples_leaf`，`min_weight_fraction_leaf`，`max_leaf_nodes`）。
+
+> 正如您所看到的，CART 算法是一种贪婪算法：它贪婪地搜索最高级别的最佳分割方式，然后在每个深度重复该过程。 它不检查分割是否能够在几个级别中的全部分割可能中找到最佳方法。贪婪算法通常会产生一个相当好的解决方法，但它不保证这是全局中的最佳解决方案。
+
+不幸的是，找到最优树是一个 NP 完全问题（自行百度）：它需要`O(exp^m)`时间，即使对于相当小的训练集也会使问题变得棘手。 这就是为什么我们必须设置一个“合理的”（而不是最佳的）解决方案。
+
+## 计算复杂度
+
+在建立好决策树模型后， 做出预测需要遍历决策树， 从根节点一直到叶节点。决策树通常近似左右平衡，因此遍历决策树需要经历大致`O(log2(m))`[2] 个节点。由于每个节点只需要检查一个特征的值，因此总体预测复杂度仅为`O(log2(m))`，与特征的数量无关。 所以即使在处理大型训练集时，预测速度也非常快。
+
+> [2] `log2`是二进制对数，它等于`log2(m) = log(m) / log(2)`。
+
+然而，训练算法的时候（训练和预测不同）需要比较所有特征（如果设置了`max_features`会更少一些）
+
+在每个节点的所有样本上。就有了`O(n×m log(m))`的训练复杂度。对于小型训练集（少于几千例），Scikit-Learn 可以通过预先设置数据（`presort = True`）来加速训练，但是这对于较大训练集来说会显着减慢训练速度。
+
+## 基尼不纯度或是信息熵
+
+通常，算法使用 Gini 不纯度来进行检测， 但是你也可以通过将标准超参数设置为`"entropy"`来使用熵不纯度进行检测。这里熵的概念是源于热力学中分子混乱程度的概念，当分子井然有序的时候，熵值接近于 0。
+
+熵这个概念后来逐渐被扩展到了各个领域，其中包括香农的信息理论，这个理论被用于测算一段信息中的平均信息密度 [3]。当所有信息相同的时候熵被定义为零。
+
+在机器学习中，熵经常被用作不纯度的衡量方式，当一个集合内只包含一类实例时， 我们称为数据集的熵为 0。
+
+> [3] 熵的减少通常称为信息增益。
+
+公式 6-3 显示了第`i`个节点的熵的定义，例如，在图 6-1 中， 深度为 2 左节点的熵为`-49/54 log(49/54) - 5/54 log(5/54) = 0.31`。
+
+![](img/tex-72cd0053ff3e59c5178491715730df69.gif)
+
+那么我们到底应该使用 Gini 指数还是熵呢？ 事实上大部分情况都没有多大的差别：他们会生成类似的决策树。 
+
+基尼指数计算稍微快一点，所以这是一个很好的默认值。但是，也有的时候它们会产生不同的树，基尼指数会趋于在树的分支中将最多的类隔离出来，而熵指数趋向于产生略微平衡一些的决策树模型。
+
+## 正则化超参数
+
+决策树几乎不对训练数据做任何假设（于此相反的是线性回归等模型，这类模型通常会假设数据是符合线性关系的）。
+
+如果不添加约束，树结构模型通常将根据训练数据调整自己，使自身能够很好的拟合数据，而这种情况下大多数会导致模型过拟合。
+
+这一类的模型通常会被称为非参数模型，这不是因为它没有任何参数（通常也有很多），而是因为在训练之前没有确定参数的具体数量，所以模型结构可以根据数据的特性自由生长。
+
+于此相反的是，像线性回归这样的参数模型有事先设定好的参数数量，所以自由度是受限的，这就减少了过拟合的风险（但是增加了欠拟合的风险）。
+
+`DecisionTreeClassifier`类还有一些其他的参数用于限制树模型的形状:
+
+> `min_samples_split`（节点在被分裂之前必须具有的最小样本数），`min_samples_leaf`（叶节点必须具有的最小样本数），`min_weight_fraction_leaf`（和`min_samples_leaf`相同，但表示为加权总数的一小部分实例），`max_leaf_nodes`（叶节点的最大数量）`和 max_features`（在每个节点被评估是否分裂的时候，具有的最大特征数量）。增加`min_* hyperparameters`或者减少`max_* hyperparameters`会使模型正则化。
+> 
+> 一些其他算法的工作原理是在没有任何约束条件下训练决策树模型，让模型自由生长，然后再对不需要的节点进行剪枝。
+>
+> 当一个节点的全部子节点都是叶节点时，如果它对纯度的提升不具有统计学意义，我们就认为这个分支是不必要的。
+>
+> 标准的假设检验，例如卡方检测，通常会被用于评估一个概率值 -- 即改进是否纯粹是偶然性的结果（也叫原假设）
+>
+> 如果 p 值比给定的阈值更高（通常设定为 5%，也就是 95% 置信度，通过超参数设置），那么节点就被认为是非必要的，它的子节点会被删除。
+>
+> 这种剪枝方式将会一直进行，直到所有的非必要节点都被删光。
+
+图 6-3 显示了对`moons`数据集（在第 5 章介绍过）进行训练生成的两个决策树模型，左侧的图形对应的决策树使用默认超参数生成（没有限制生长条件），右边的决策树模型设置为`min_samples_leaf=4`。很明显，左边的模型过拟合了，而右边的模型泛用性更好。
+
+![](img/105.png)
+
+## 回归
+
+决策树也能够执行回归任务，让我们使用 Scikit-Learn 的`DecisionTreeRegressor`类构建一个回归树，让我们用`max_depth = 2`在具有噪声的二次项数据集上进行训练。
+
+```py
+from sklearn.tree import DecisionTreeRegressor
+tree_reg = DecisionTreeRegressor(max_depth=2)
+tree_reg.fit(X, y)
+```
+
+结果如图 6-4 所示
+
+![](img/106.png)
+
+这棵树看起来非常类似于你之前建立的分类树，它的主要区别在于，它不是预测每个节点中的样本所属的分类，而是预测一个具体的数值。例如，假设您想对`x[1] = 0.6`的新实例进行预测。从根开始遍历树，最终到达预测值等于 0.1106 的叶节点。该预测仅仅是与该叶节点相关的 110 个训练实例的平均目标值。而这个预测结果在对应的 110 个实例上的均方误差（MSE）等于 0.0151。
+
+在图 6-5 的左侧显示的是模型的预测结果，如果你将`max_depth=3`设置为 3，模型就会如 6-5 图右侧显示的那样.注意每个区域的预测值总是该区域中实例的平均目标值。算法以一种使大多数训练实例尽可能接近该预测值的方式分割每个区域。
+
+> 译者注：图里面的红线就是训练实例的平均目标值，对应上图中的`value`
+
+![](img/107.png)
+
+CART 算法的工作方式与之前处理分类模型基本一样，不同之处在于，现在不再以最小化不纯度的方式分割训练集，而是试图以最小化 MSE 的方式分割训练集。 
+
+公式 6-4 显示了成本函数，该算法试图最小化这个成本函数。
+
+![](img/108.png)
+
+和处理分类任务时一样，决策树在处理回归问题的时候也容易过拟合。如果不添加任何正则化（默认的超参数），你就会得到图 6-6 左侧的预测结果，显然，过度拟合的程度非常严重。而当我们设置了`min_samples_leaf = 10`，相对就会产生一个更加合适的模型了，就如图 6-6 所示的那样。
+
+![](img/109.png)
+
+## 不稳定性
+
+我希望你现在了解了决策树到底有哪些特点：
+
+它很容易理解和解释，易于使用且功能丰富而强大。然而，它也有一些限制，首先，你可能已经注意到了，决策树很喜欢设定正交化的决策边界，（所有边界都是和某一个轴相垂直的），这使得它对训练数据集的旋转很敏感，例如图 6-7 显示了一个简单的线性可分数据集。在左图中，决策树可以轻易的将数据分隔开，但是在右图中，当我们把数据旋转了 45° 之后，决策树的边界看起来变的格外复杂。尽管两个决策树都完美的拟合了训练数据，右边模型的泛化能力很可能非常差。
+
+解决这个难题的一种方式是使用 PCA 主成分分析（第八章），这样通常能使训练结果变得更好一些。
+
+![](img/110.png) 
+
+更加通俗的讲，决策时的主要问题是它对训练数据的微小变化非常敏感，举例来说，我们仅仅从鸢尾花训练数据中将最宽的 Iris-Versicolor 拿掉（花瓣长 4.8 厘米，宽 1.8 厘米），然后重新训练决策树模型，你可能就会得到图 6-8 中的模型。正如我们看到的那样，决策树有了非常大的变化（原来的如图 6-2），事实上，由于 Scikit-Learn 的训练算法是非常随机的，即使是相同的训练数据你也可能得到差别很大的模型（除非你设置了随机数种子）。
+
+![](img/111.png)
+
+我们下一章中将会看到，随机森林可以通过多棵树的平均预测值限制这种不稳定性。
+
+## 练习
+
+1.  在 100 万例训练集上训练（没有限制）的决策树的近似深度是多少？
+
+2.  节点的基尼指数比起它的父节点是更高还是更低？它是通常情况下更高/更低，还是永远更高/更低？
+
+3.  如果决策树过拟合了，减少最大深度是一个好的方法吗？
+
+4.  如果决策树对训练集欠拟合了，尝试缩放输入特征是否是一个好主意？
+
+5.  如果对包含 100 万个实例的数据集训练决策树模型需要一个小时，在包含 1000 万个实例的培训集上训练另一个决策树大概需要多少时间呢？
+
+6.  如果你的训练集包含 100,000 个实例，设置`presort=True`会加快训练的速度吗？
+
+7.  对`moons`数据集进行决策树训练并优化模型。
+
+    1.  通过语句`make_moons(n_samples=10000, noise=0.4)`生成`moons`数据集
+
+    2.  通过`train_test_split()`将数据集分割为训练集和测试集。
+
+    3.  进行交叉验证，并使用网格搜索法寻找最好的超参数值（使用`GridSearchCV`类的帮助文档）
+
+        提示: 尝试各种各样的`max_leaf_nodes`值
+
+    4.  使用这些超参数训练全部的训练集数据，并在测试集上测量模型的表现。你应该获得大约 85% 到 87% 的准确度。
+
+8.  生成森林
+
+    1.  接着前边的练习，现在，让我们生成 1,000 个训练集的子集，每个子集包含 100 个随机选择的实例。提示：你可以使用 Scikit-Learn 的`ShuffleSplit`类。
+
+    2.  使用上面找到的最佳超参数值，在每个子集上训练一个决策树。在测试集上测试这 1000 个决策树。由于它们是在较小的集合上进行了训练，因此这些决策树可能会比第一个决策树效果更差，只能达到约 80% 的准确度。
+
+    3.  见证奇迹的时刻到了！对于每个测试集实例，生成 1,000 个决策树的预测结果，然后只保留出现次数最多的预测结果（您可以使用 SciPy 的`mode()`函数）。这个函数使你可以对测试集进行多数投票预测。
+
+    4.  在测试集上评估这些预测结果，你应该获得了一个比第一个模型高一点的准确率，（大约 0.5% 到 1.5%），恭喜，你已经弄出了一个随机森林分类器模型!
+
+{% endraw %}
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/7.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/7.md
new file mode 100644
index 00000000..d50e13ed
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/7.md
@@ -0,0 +1,386 @@
+# 七、集成学习和随机森林
+
+> 译者：[@friedhelm739](https://github.com/friedhelm739) 
+> 
+> 校对者：[@飞龙](https://github.com/wizardforcel)、[@PeterHo](https://github.com/PeterHo)、[@yanmengk](https://github.com/yanmengk)、[@XinQiu](https://github.com/xinqiu)、[@YuWang](https://github.com/bigeyex)
+
+假设你去随机问很多人一个很复杂的问题，然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做*群体智慧*。同样的，如果你合并了一组分类器的预测（像分类或者回归），你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成；因此，这个技术就叫做集成学习，一个集成学习算法就叫做集成方法。
+
+例如，你可以训练一组决策树分类器，每一个都在一个随机的训练集上。为了去做预测，你必须得到所有单一树的预测值，然后通过投票（例如第六章的练习）来预测类别。例如一种决策树的集成就叫做随机森林，它除了简单之外也是现今存在的最强大的机器学习算法之一。
+
+向我们在第二章讨论的一样，我们会在一个项目快结束的时候使用集成算法，一旦你建立了一些好的分类器，就把他们合并为一个更好的分类器。事实上，在机器学习竞赛中获得胜利的算法经常会包含一些集成方法。
+
+在本章中我们会讨论一下特别著名的集成方法，包括 *bagging, boosting, stacking*，和其他一些算法。我们也会讨论随机森林。
+
+## 投票分类
+
+假设你已经训练了一些分类器，每一个都有 80% 的准确率。你可能有了一个逻辑斯蒂回归、或一个 SVM、或一个随机森林，或者一个 KNN，或许还有更多（详见图 7-1）
+
+![](img/7-1.png)
+
+一个非常简单去创建一个更好的分类器的方法就是去整合每一个分类器的预测然后经过投票去预测分类。这种分类器就叫做硬投票分类器（详见图 7-2）。
+
+![](img/7-2.png)
+
+令人惊奇的是这种投票分类器得出的结果经常会比集成中最好的一个分类器结果更好。事实上，即使每一个分类器都是一个弱学习器（意味着它们也就比瞎猜好点），集成后仍然是一个强学习器（高准确率），只要有足够数量的弱学习者，他们就足够多样化。
+
+这怎么可能？接下来的分析将帮助你解决这个疑问。假设你有一个有偏差的硬币，他有 51% 的几率为正面，49% 的几率为背面。如果你实验 1000 次，你会得到差不多 510 次正面，490 次背面，因此大多数都是正面。如果你用数学计算，你会发现在实验 1000 次后，正面概率为 51% 的人比例为 75%。你实验的次数越多，正面的比例越大（例如你试验了 10000 次，总体比例可能性就会达到 97%）。这是因为*大数定律* ：当你一直用硬币实验时，正面的比例会越来越接近 51%。图 7-3 展示了始终有偏差的硬币实验。你可以看到当实验次数上升时，正面的概率接近于 51%。最终所有 10 种实验都会收敛到 51%，它们都大于 50%。
+
+![](img/7-3.png)
+
+同样的，假设你创建了一个包含 1000 个分类器的集成模型，其中每个分类器的正确率只有 51%（仅比瞎猜好一点点）。如果你用投票去预测类别，你可能得到 75% 的准确率！然而，这仅仅在所有的分类器都独立运行的很好、不会发生有相关性的错误的情况下才会这样，然而每一个分类器都在同一个数据集上训练，导致其很可能会发生这样的错误。他们可能会犯同一种错误，所以也会有很多票投给了错误类别导致集成的准确率下降。
+
+如果使每一个分类器都独立自主的分类，那么集成模型会工作的很好。去得到多样的分类器的方法之一就是用完全不同的算法，这会使它们会做出不同种类的错误，这会提高集成的正确率
+
+接下来的代码创建和训练了在 sklearn 中的投票分类器。这个分类器由三个不同的分类器组成（训练集是第五章中的 moons 数据集）：
+
+```py
+>>> from sklearn.ensemble import RandomForestClassifier 
+>>> from sklearn.ensemble import VotingClassifier 
+>>> from sklearn.linear_model import LogisticRegression 
+>>> from sklearn.svm import SVC
+>>> log_clf = LogisticRegression() 
+>>> rnd_clf = RandomForestClassifier() 
+>>> svm_clf = SVC()
+>>> voting_clf = VotingClassifier(estimators=[('lr', log_clf), ('rf', rnd_clf), 
+>>>   ('svc', svm_clf)],voting='hard') 
+>>> voting_clf.fit(X_train, y_train)
+```
+
+让我们看一下在测试集上的准确率：
+
+```py
+>>> from sklearn.metrics import accuracy_score 
+>>> for clf in (log_clf, rnd_clf, svm_clf, voting_clf): 
+>>>     clf.fit(X_train, y_train) 
+>>>     y_pred = clf.predict(X_test) 
+>>>     print(clf.__class__.__name__, accuracy_score(y_test, y_pred)) 
+LogisticRegression 0.864 
+RandomForestClassifier 0.872 
+SVC 0.888 
+VotingClassifier 0.896 
+```
+你看！投票分类器比其他单独的分类器表现的都要好。
+
+如果所有的分类器都能够预测类别的概率（例如他们有一个`predict_proba()`方法），那么你就可以让 sklearn 以最高的类概率来预测这个类，平均在所有的分类器上。这种方式叫做软投票。他经常比硬投票表现的更好，因为它给予高自信的投票更大的权重。你可以通过把`voting="hard"`设置为`voting="soft"`来保证分类器可以预测类别概率。然而这不是 SVC 类的分类器默认的选项，所以你需要把它的`probability hyperparameter`设置为`True`（这会使 SVC 使用交叉验证去预测类别概率，其降低了训练速度，但会添加`predict_proba()`方法）。如果你修改了之前的代码去使用软投票，你会发现投票分类器正确率高达 91%
+
+## Bagging 和 Pasting 
+
+就像之前讲到的，可以通过使用不同的训练算法去得到一些不同的分类器。另一种方法就是对每一个分类器都使用相同的训练算法，但是在不同的训练集上去训练它们。有放回采样被称为装袋（*Bagging*，是 *bootstrap aggregating* 的缩写）。无放回采样称为粘贴（*pasting*）。
+
+换句话说，Bagging 和 Pasting 都允许在多个分类器上对训练集进行多次采样，但只有 Bagging 允许对同一种分类器上对训练集进行进行多次采样。采样和训练过程如图 7-4 所示。
+
+![](img/7-4.png)
+
+当所有的分类器被训练后，集成可以通过对所有分类器结果的简单聚合来对新的实例进行预测。聚合函数通常对分类是*统计模式*（例如硬投票分类器）或者对回归是平均。每一个单独的分类器在如果在原始训练集上都是高偏差，但是聚合降低了偏差和方差。通常情况下，集成的结果是有一个相似的偏差，但是对比与在原始训练集上的单一分类器来讲有更小的方差。
+
+正如你在图 7-4 上所看到的，分类器可以通过不同的 CPU 核或其他的服务器一起被训练。相似的，分类器也可以一起被制作。这就是为什么 Bagging 和 Pasting 是如此流行的原因之一：它们的可扩展性很好。
+
+### 在 sklearn 中的 Bagging 和 Pasting 
+
+sklearn 为 Bagging 和 Pasting 提供了一个简单的 API：`BaggingClassifier`类（或者对于回归可以是`BaggingRegressor`。接下来的代码训练了一个 500 个决策树分类器的集成，每一个都是在数据集上有放回采样 100 个训练实例下进行训练（这是 Bagging 的例子，如果你想尝试 Pasting，就设置`bootstrap=False`）。`n_jobs`参数告诉 sklearn 用于训练和预测所需要 CPU 核的数量。（-1 代表着 sklearn 会使用所有空闲核）：
+
+```py
+>>>from sklearn.ensemble import BaggingClassifier 
+>>>from sklearn.tree import DecisionTreeClassifier
+>>>bag_clf = BaggingClassifier(DecisionTreeClassifier(), n_estimators=500,        
+>>>  max_samples=100, bootstrap=True, n_jobs=-1) 
+>>>bag_clf.fit(X_train, y_train) 
+>>>y_pred = bag_clf.predict(X_test)
+```
+如果基分类器可以预测类别概率（例如它拥有`predict_proba()`方法），那么`BaggingClassifier`会自动的运行软投票，这是决策树分类器的情况。
+
+图 7-5 对比了单一决策树的决策边界和 Bagging 集成 500 个树的决策边界，两者都在 moons 数据集上训练。正如你所看到的，集成的分类比起单一决策树的分类产生情况更好：集成有一个可比较的偏差但是有一个较小的方差（它在训练集上的错误数目大致相同，但决策边界较不规则）。
+
+![](img/7-5.png)
+
+Bootstrap 在每个预测器被训练的子集中引入了更多的分集，所以 Bagging 结束时的偏差比 Pasting 更高，但这也意味着预测因子最终变得不相关，从而减少了集合的方差。总体而言，Bagging 通常会导致更好的模型，这就解释了为什么它通常是首选的。然而，如果你有空闲时间和 CPU 功率，可以使用交叉验证来评估 Bagging 和 Pasting 哪一个更好。
+
+### Out-of-Bag 评价 
+
+对于 Bagging 来说，一些实例可能被一些分类器重复采样，但其他的有可能不会被采样。`BaggingClassifier`默认采样。`BaggingClassifier`默认是有放回的采样`m`个实例 （`bootstrap=True`），其中`m`是训练集的大小，这意味着平均下来只有 63% 的训练实例被每个分类器采样，剩下的 37% 个没有被采样的训练实例就叫做 *Out-of-Bag* 实例。注意对于每一个的分类器它们的 37% 不是相同的。
+
+因为在训练中分类器从来没有看到过 oob 实例，所以它可以在这些实例上进行评估，而不需要单独的验证集或交叉验证。你可以拿出每一个分类器的 oob 来评估集成本身。
+
+在 sklearn 中，你可以在训练后需要创建一个`BaggingClassifier`来自动评估时设置`oob_score=True`来自动评估。接下来的代码展示了这个操作。评估结果通过变量`oob_score_`来显示：
+
+```py
+>>> bag_clf = BaggingClassifier(DecisionTreeClassifier(), n_estimators=500,bootstrap=True, n_jobs=-1, oob_score=True)
+>>> bag_clf.fit(X_train, y_train) 
+>>> bag_clf.oob_score_ 
+0.93066666666666664 
+```
+
+根据这个 obb 评估，`BaggingClassifier`可以再测试集上达到 93.1% 的准确率，让我们修改一下：
+
+```py
+>>> from sklearn.metrics import accuracy_score 
+>>> y_pred = bag_clf.predict(X_test) 
+>>> accuracy_score(y_test, y_pred) 
+0.93600000000000005 
+```
+
+我们在测试集上得到了 93.6% 的准确率，足够接近了！
+
+对于每个训练实例 oob 决策函数也可通过`oob_decision_function_`变量来展示。在这种情况下（当基决策器有`predict_proba()`时）决策函数会对每个训练实例返回类别概率。例如，oob 评估预测第二个训练实例有 60.6% 的概率属于正类（39.4% 属于负类）：
+
+```py
+>>> bag_clf.oob_decision_function_ 
+array([[ 0.,  1.], [ 0.60588235,  0.39411765],[ 1., 0. ], 
+...  [ 1. ,  0. ],[ 0.,  1.],[ 0.48958333,  0.51041667]]) 
+```
+
+## 随机贴片与随机子空间
+
+`BaggingClassifier`也支持采样特征。它被两个超参数`max_features`和`bootstrap_features`控制。他们的工作方式和`max_samples`和`bootstrap`一样，但这是对于特征采样而不是实例采样。因此，每一个分类器都会被在随机的输入特征内进行训练。
+
+当你在处理高维度输入下（例如图片）此方法尤其有效。对训练实例和特征的采样被叫做随机贴片。保留了所有的训练实例（例如`bootstrap=False`和`max_samples=1.0`），但是对特征采样（`bootstrap_features=True`并且/或者`max_features`小于 1.0）叫做随机子空间。
+
+采样特征导致更多的预测多样性，用高偏差换低方差。
+
+## 随机森林
+
+正如我们所讨论的，随机森林是决策树的一种集成，通常是通过 bagging 方法（有时是 pasting 方法）进行训练，通常用`max_samples`设置为训练集的大小。与建立一个`BaggingClassifier`然后把它放入`DecisionTreeClassifier`相反，你可以使用更方便的也是对决策树优化够的`RandomForestClassifier`（对于回归是`RandomForestRegressor`）。接下来的代码训练了带有 500 个树（每个被限制为 16 叶子结点）的决策森林，使用所有空闲的 CPU 核：
+
+```py
+>>>from sklearn.ensemble import RandomForestClassifier
+>>>rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1) 
+>>>rnd_clf.fit(X_train, y_train)
+>>>y_pred_rf = rnd_clf.predict(X_test)
+```
+
+除了一些例外，`RandomForestClassifier`使用`DecisionTreeClassifier`的所有超参数（决定数怎么生长），把`BaggingClassifier`的超参数加起来来控制集成本身。
+
+随机森林算法在树生长时引入了额外的随机；与在节点分裂时需要找到最好分裂特征相反（详见第六章），它在一个随机的特征集中找最好的特征。它导致了树的差异性，并且再一次用高偏差换低方差，总的来说是一个更好的模型。以下是`BaggingClassifier`大致相当于之前的`randomforestclassifier`：
+
+```py
+>>>bag_clf = BaggingClassifier(DecisionTreeClassifier(splitter="random", max_leaf_nodes=16),n_estimators=500, max_samples=1.0, bootstrap=True, n_jobs=-1)
+```
+
+### 极随机树
+
+当你在随机森林上生长树时，在每个结点分裂时只考虑随机特征集上的特征（正如之前讨论过的一样）。相比于找到更好的特征我们可以通过使用对特征使用随机阈值使树更加随机（像规则决策树一样）。
+
+这种极随机的树被简称为 *Extremely Randomized Trees*（极随机树），或者更简单的称为 *Extra-Tree*。再一次用高偏差换低方差。它还使得 *Extra-Tree* 比规则的随机森林更快地训练，因为在每个节点上找到每个特征的最佳阈值是生长树最耗时的任务之一。
+
+你可以使用 sklearn 的`ExtraTreesClassifier`来创建一个 *Extra-Tree* 分类器。他的 API 跟`RandomForestClassifier`是相同的，相似的，`ExtraTreesRegressor`跟`RandomForestRegressor`也是相同的 API。
+
+我们很难去分辨`ExtraTreesClassifier`和`RandomForestClassifier`到底哪个更好。通常情况下是通过交叉验证来比较它们（使用网格搜索调整超参数）。
+
+### 特征重要度
+
+最后，如果你观察一个单一决策树，重要的特征会出现在更靠近根部的位置，而不重要的特征会经常出现在靠近叶子的位置。因此我们可以通过计算一个特征在森林的全部树中出现的平均深度来预测特征的重要性。sklearn 在训练后会自动计算每个特征的重要度。你可以通过`feature_importances_`变量来查看结果。例如如下代码在鸢尾花数据集（第四章介绍）上训练了一个`RandomForestClassifier`模型，然后输出了每个特征的重要性。看来，最重要的特征是花瓣长度（44%）和宽度（42%），而萼片长度和宽度相对比较是不重要的（分别为 11% 和 2%）：
+
+```py
+>>> from sklearn.datasets import load_iris 
+>>> iris = load_iris() 
+>>> rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1) 
+>>> rnd_clf.fit(iris["data"], iris["target"]) 
+>>> for name, score in zip(iris["feature_names"], rnd_clf.feature_importances_): 
+>>>     print(name, score) 
+sepal length (cm) 0.112492250999
+sepal width (cm) 0.0231192882825 
+petal length (cm) 0.441030464364 
+petal width (cm) 0.423357996355 
+```
+
+相似的，如果你在 MNIST 数据及上训练随机森林分类器（在第三章上介绍），然后画出每个像素的重要性，你可以得到图 7-6 的图片。
+
+![](img/7-6.png)
+
+随机森林可以非常方便快速得了解哪些特征实际上是重要的，特别是你需要进行特征选择的时候。
+
+## 提升
+
+提升（Boosting，最初称为*假设增强*）指的是可以将几个弱学习者组合成强学习者的集成方法。对于大多数的提升方法的思想就是按顺序去训练分类器，每一个都要尝试修正前面的分类。现如今已经有很多的提升方法了，但最著名的就是 *Adaboost*（适应性提升，是 *Adaptive Boosting* 的简称） 和 *Gradient Boosting*（梯度提升）。让我们先从 *Adaboost* 说起。
+
+### Adaboost
+
+使一个新的分类器去修正之前分类结果的方法就是对之前分类结果不对的训练实例多加关注。这导致新的预测因子越来越多地聚焦于这种情况。这是 *Adaboost* 使用的技术。
+
+举个例子，去构建一个 Adaboost 分类器，第一个基分类器（例如一个决策树）被训练然后在训练集上做预测，在误分类训练实例上的权重就增加了。第二个分类机使用更新过的权重然后再一次训练，权重更新，以此类推（详见图 7-7）
+
+![](img/7-7.png)
+
+图 7-8 显示连续五次预测的 moons 数据集的决策边界（在本例中，每一个分类器都是高度正则化带有 RBF 核的 SVM）。第一个分类器误分类了很多实例，所以它们的权重被提升了。第二个分类器因此对这些误分类的实例分类效果更好，以此类推。右边的图代表了除了学习率减半外（误分类实例权重每次迭代上升一半）相同的预测序列。你可以看出，序列学习技术与梯度下降很相似，除了调整单个预测因子的参数以最小化代价函数之外，AdaBoost 增加了集合的预测器，逐渐使其更好。
+
+![](img/7-8.png)
+
+一旦所有的分类器都被训练后，除了分类器根据整个训练集上的准确率被赋予的权重外，集成预测就非常像 Bagging 和 Pasting 了。
+
+序列学习技术的一个重要的缺点就是：它不能被并行化（只能按步骤），因为每个分类器只能在之前的分类器已经被训练和评价后再进行训练。因此，它不像 Bagging 和 Pasting 一样。
+
+让我们详细看一下 Adaboost 算法。每一个实例的权重`wi`初始都被设为`1/m`第一个分类器被训练，然后他的权重误差率`r1`在训练集上算出，详见公式 7-1。
+
+公式 7-1：第`j`个分类器的权重误差率
+
+![](img/E7-1.png)
+
+其中`y_tilde[j]^(i)`是第`j`个分类器对于第`i`实例的预测。
+
+分类器的权重`α[j]`随后用公式 7-2 计算出来。其中`η`是超参数学习率（默认为 1）。分类器准确率越高，它的权重就越高。如果它只是瞎猜，那么它的权重会趋近于 0。然而，如果它总是出错（比瞎猜的几率都低），它的权重会使负数。
+
+公式 7-2：分类器权重
+
+![](img/E7-2.png)
+
+接下来实例的权重会按照公式 7-3 更新：误分类的实例权重会被提升。
+
+公式 7-3 权重更新规则
+
+对于`i=1, 2, ..., m`
+
+![](img/E7-3.png)
+
+随后所有实例的权重都被归一化（例如被`Σ w[i], i = 1 -> m`整除）
+
+最后，一个新的分类器通过更新过的权重训练，整个过程被重复（新的分类器权重被计算，实例的权重被更新，随后另一个分类器被训练，以此类推）。当规定的分类器数量达到或者最好的分类器被找到后算法就会停止。
+
+为了进行预测，Adaboost 通过分类器权重`α[j]`简单的计算了所有的分类器和权重。预测类别会是权重投票中主要的类别。（详见公式 7-4）
+
+公式 7-4： Adaboost 分类器
+
+![](img/E7-4.png)
+
+其中`N`是分类器的数量。
+
+sklearn 通常使用 Adaboost 的多分类版本 *SAMME*（这就代表了 *分段加建模使用多类指数损失函数*）。如果只有两类别，那么 *SAMME* 是与 Adaboost 相同的。如果分类器可以预测类别概率（例如如果它们有`predict_proba()`），如果 sklearn 可以使用 *SAMME* 叫做`SAMME.R`的变量（`R`代表“REAL”），这种依赖于类别概率的通常比依赖于分类器的更好。
+
+接下来的代码训练了使用 sklearn 的`AdaBoostClassifier`基于 200 个决策树桩 Adaboost 分类器（正如你说期待的，对于回归也有`AdaBoostRegressor`）。一个决策树桩是`max_depth=1`的决策树-换句话说，是一个单一的决策节点加上两个叶子结点。这就是`AdaBoostClassifier`的默认基分类器：
+
+```py
+>>>from sklearn.ensemble import AdaBoostClassifier
+>>>ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1), n_estimators=200,algorithm="SAMME.R", learning_rate=0.5) 
+>>>ada_clf.fit(X_train, y_train)
+```
+
+如果你的 Adaboost 集成过拟合了训练集，你可以尝试减少基分类器的数量或者对基分类器使用更强的正则化。
+
+### 梯度提升
+
+另一个非常著名的提升算法是梯度提升。与 Adaboost 一样，梯度提升也是通过向集成中逐步增加分类器运行的，每一个分类器都修正之前的分类结果。然而，它并不像 Adaboost 那样每一次迭代都更改实例的权重，这个方法是去使用新的分类器去拟合前面分类器预测的*残差* 。
+
+让我们通过一个使用决策树当做基分类器的简单的回归例子（回归当然也可以使用梯度提升）。这被叫做梯度提升回归树（GBRT，*Gradient Tree Boosting* 或者 *Gradient Boosted Regression Trees*）。首先我们用`DecisionTreeRegressor`去拟合训练集（例如一个有噪二次训练集）：
+
+```py
+>>>from sklearn.tree import DecisionTreeRegressor 
+>>>tree_reg1 = DecisionTreeRegressor(max_depth=2) 
+>>>tree_reg1.fit(X, y) 
+```
+
+现在在第一个分类器的残差上训练第二个分类器：
+
+```py
+>>>y2 = y - tree_reg1.predict(X) 
+>>>tree_reg2 = DecisionTreeRegressor(max_depth=2) 
+>>>tree_reg2.fit(X, y2) 
+```
+
+随后在第二个分类器的残差上训练第三个分类器：
+
+```py
+>>>y3 = y2 - tree_reg1.predict(X) 
+>>>tree_reg3 = DecisionTreeRegressor(max_depth=2) 
+>>>tree_reg3.fit(X, y3) 
+```
+
+现在我们有了一个包含三个回归器的集成。它可以通过集成所有树的预测来在一个新的实例上进行预测。
+
+```py
+>>>y_pred = sum(tree.predict(X_new) for tree in (tree_reg1, tree_reg2, tree_reg3)) 
+```
+
+图 7-9 在左栏展示了这三个树的预测，在右栏展示了集成的预测。在第一行，集成只有一个树，所以它与第一个树的预测相似。在第二行，一个新的树在第一个树的残差上进行训练。在右边栏可以看出集成的预测等于前两个树预测的和。相同的，在第三行另一个树在第二个数的残差上训练。你可以看到集成的预测会变的更好。
+
+我们可以使用 sklean 中的`GradientBoostingRegressor`来训练 GBRT 集成。与`RandomForestClassifier`相似，它也有超参数去控制决策树的生长（例如`max_depth`，`min_samples_leaf`等等），也有超参数去控制集成训练，例如基分类器的数量（`n_estimators`）。接下来的代码创建了与之前相同的集成：
+
+```py
+>>>from sklearn.ensemble import GradientBoostingRegressor
+>>>gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0) 
+>>>gbrt.fit(X, y)
+```
+
+![](img/7-9.png)
+
+超参数`learning_rate` 确立了每个树的贡献。如果你把它设置为一个很小的树，例如 0.1，在集成中就需要更多的树去拟合训练集，但预测通常会更好。这个正则化技术叫做 *shrinkage*。图 7-10 展示了两个在低学习率上训练的 GBRT 集成：其中左面是一个没有足够树去拟合训练集的树，右面是有过多的树过拟合训练集的树。
+
+![](img/7-10.png)
+
+为了找到树的最优数量，你可以使用早停技术（第四章讨论）。最简单使用这个技术的方法就是使用`staged_predict()`：它在训练的每个阶段（用一棵树，两棵树等）返回一个迭代器。接下来的代码用 120 个树训练了一个 GBRT 集成，然后在训练的每个阶段验证错误以找到树的最佳数量，最后使用 GBRT 树的最优数量训练另一个集成：
+
+```py
+>>>import numpy as np 
+>>>from sklearn.model_selection import train_test_split
+>>>from sklearn.metrics import mean_squared_error
+
+>>>X_train, X_val, y_train, y_val = train_test_split(X, y)
+>>>gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120) 
+>>>gbrt.fit(X_train, y_train)
+>>>errors = [mean_squared_error(y_val, y_pred)         
+     for y_pred in gbrt.staged_predict(X_val)] 
+>>>bst_n_estimators = np.argmin(errors)
+>>>gbrt_best = GradientBoostingRegressor(max_depth=2,n_estimators=bst_n_estimators) 
+>>>gbrt_best.fit(X_train, y_train) 
+```
+
+验证错误在图 7-11 的左面展示，最优模型预测被展示在右面。
+
+![](img/7-11.png)
+
+你也可以早早的停止训练来实现早停（与先在一大堆树中训练，然后再回头去找最优数目相反）。你可以通过设置`warm_start=True`来实现 ，这使得当`fit()`方法被调用时 sklearn 保留现有树，并允许增量训练。接下来的代码在当一行中的五次迭代验证错误没有改善时会停止训练：
+
+```py
+>>>gbrt = GradientBoostingRegressor(max_depth=2, warm_start=True)
+min_val_error = float("inf") 
+error_going_up = 0 
+for n_estimators in range(1, 120):    
+    gbrt.n_estimators = n_estimators    
+    gbrt.fit(X_train, y_train)    
+    y_pred = gbrt.predict(X_val)    
+    val_error = mean_squared_error(y_val, y_pred)    
+    if val_error < min_val_error:        
+        min_val_error = val_error        
+        error_going_up = 0    
+    else:        
+        error_going_up += 1        
+        if error_going_up == 5:            
+            break  # early stopping 
+```
+
+`GradientBoostingRegressor`也支持指定用于训练每棵树的训练实例比例的超参数`subsample`。例如如果`subsample=0.25`，那么每个树都会在 25% 随机选择的训练实例上训练。你现在也能猜出来，这也是个高偏差换低方差的作用。它同样也加速了训练。这个技术叫做*随机梯度提升*。
+
+也可能对其他损失函数使用梯度提升。这是由损失超参数控制（见 sklearn 文档）。
+
+## Stacking
+
+本章讨论的最后一个集成方法叫做 *Stacking*（*stacked generalization* 的缩写）。这个算法基于一个简单的想法：不使用琐碎的函数（如硬投票）来聚合集合中所有分类器的预测，我们为什么不训练一个模型来执行这个聚合？图 7-12 展示了这样一个在新的回归实例上预测的集成。底部三个分类器每一个都有不同的值（3.1，2.7 和 2.9），然后最后一个分类器（叫做 *blender* 或者*元学习器*）把这三个分类器的结果当做输入然后做出最终决策（3.0）。
+
+![](img/7-12.png)
+
+为了训练这个 *blender*，一个通用的方法是采用保持集。让我们看看它怎么工作。首先，训练集被分为两个子集，第一个子集被用作训练第一层（详见图 7-13）.
+
+![](img/7-13.png) 
+
+接下来，第一层的分类器被用来预测第二个子集（保持集）（详见 7-14）。这确保了预测结果很“干净”，因为这些分类器在训练的时候没有使用过这些实例。现在对在保持集中的每一个实例都有三个预测值。我们现在可以使用这些预测结果作为输入特征来创建一个新的训练集（这使得这个训练集是三维的），并且保持目标数值不变。随后 *blender* 在这个新的训练集上训练，因此，它学会了预测第一层预测的目标值。
+
+![](img/7-14.png)
+
+显然我们可以用这种方法训练不同的 *blender*（例如一个线性回归，另一个是随机森林等等）：我们得到了一层 *blender*。诀窍是将训练集分成三个子集：第一个子集用来训练第一层，第二个子集用来创建训练第二层的训练集（使用第一层分类器的预测值），第三个子集被用来创建训练第三层的训练集（使用第二层分类器的预测值）。以上步骤做完了，我们可以通过逐个遍历每个层来预测一个新的实例。详见图 7-15.
+
+![](img/7-15.png)
+
+然而不幸的是，sklearn 并不直接支持 stacking ，但是你自己组建是很容易的（看接下来的练习）。或者你也可以使用开源的项目例如 *brew*（网址为 <https://github.com/viisar/brew>）
+
+## 练习
+
+1.  如果你在相同训练集上训练 5 个不同的模型，它们都有 95% 的准确率，那么你是否可以通过组合这个模型来得到更好的结果？如果可以那怎么做呢？如果不可以请给出理由。
+2.  软投票和硬投票分类器之间有什么区别？
+3.  是否有可能通过分配多个服务器来加速 bagging 集成系统的训练？pasting 集成，boosting 集成，随机森林，或 stacking 集成怎么样？
+4.  out-of-bag 评价的好处是什么？
+5.  是什么使 Extra-Tree 比规则随机森林更随机呢？这个额外的随机有什么帮助呢？那这个 Extra-Tree 比规则随机森林谁更快呢？
+6.  如果你的 Adaboost 模型欠拟合，那么你需要怎么调整超参数？
+7.  如果你的梯度提升过拟合，那么你应该调高还是调低学习率呢？
+8.  导入 MNIST 数据（第三章中介绍），把它切分进一个训练集，一个验证集，和一个测试集（例如 40000 个实例进行训练，10000 个进行验证，10000 个进行测试）。然后训练多个分类器，例如一个随机森林分类器，一个 Extra-Tree 分类器和一个 SVM。接下来，尝试将它们组合成集成，使用软或硬投票分类器来胜过验证集上的所有集合。一旦找到了，就在测试集上实验。与单个分类器相比，它的性能有多好？
+9.  从练习 8 中运行个体分类器来对验证集进行预测，并创建一个新的训练集并生成预测：每个训练实例是一个向量，包含来自所有分类器的图像的预测集，目标是图像类别。祝贺你，你刚刚训练了一个 *blender*，和分类器一起组成了一个叠加组合！现在让我们来评估测试集上的集合。对于测试集中的每个图像，用所有分类器进行预测，然后将预测馈送到 *blender* 以获得集合的预测。它与你早期训练过的投票分类器相比如何？
+
+练习的答案都在附录 A 上。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/8.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/8.md
new file mode 100644
index 00000000..701f0742
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/8.md
@@ -0,0 +1,389 @@
+# 八、降维
+
+> 译者：[@loveSnowBest](https://github.com/zehuichen123)
+> 
+> 校对者：[@飞龙](https://github.com/wizardforcel)、[@PeterHo](https://github.com/PeterHo)、[@yanmengk](https://github.com/yanmengk)、[@XinQiu](https://github.com/xinqiu)、[@Lisanaaa](https://github.com/Lisanaaa)
+
+很多机器学习的问题都会涉及到有着几千甚至数百万维的特征的训练实例。这不仅让训练过程变得非常缓慢，同时还很难找到一个很好的解，我们接下来就会遇到这种情况。这种问题通常被称为维数灾难（curse of dimentionality）。  
+
+幸运的是，在现实生活中我们经常可以极大的降低特征维度，将一个十分棘手的问题转变成一个可以较为容易解决的问题。例如，对于 MNIST 图片集（第 3 章中提到）：图片四周边缘部分的像素几乎总是白的，因此你完全可以将这些像素从你的训练集中扔掉而不会丢失太多信息。图 7-6 向我们证实了这些像素的确对我们的分类任务是完全不重要的。同时，两个相邻的像素往往是高度相关的：如果你想要将他们合并成一个像素（比如取这两个像素点的平均值）你并不会丢失很多信息。  
+
+> 警告：降维肯定会丢失一些信息（这就好比将一个图片压缩成 JPEG 的格式会降低图像的质量），因此即使这种方法可以加快训练的速度，同时也会让你的系统表现的稍微差一点。降维会让你的工作流水线更复杂因而更难维护。所有你应该先尝试使用原始的数据来训练，如果训练速度太慢的话再考虑使用降维。在某些情况下，降低训练集数据的维度可能会筛选掉一些噪音和不必要的细节，这可能会让你的结果比降维之前更好（这种情况通常不会发生；它只会加快你训练的速度）。
+
+降维除了可以加快训练速度外，在数据可视化方面（或者 DataViz）也十分有用。降低特征维度到 2（或者 3）维从而可以在图中画出一个高维度的训练集，让我们可以通过视觉直观的发现一些非常重要的信息，比如聚类。  
+
+在这一章里，我们将会讨论维数灾难问题并且了解在高维空间的数据。然后，我们将会展示两种主要的降维方法：投影（projection）和流形学习（Manifold Learning），同时我们还会介绍三种流行的降维技术：主成分分析（PCA），核主成分分析（Kernel PCA）和局部线性嵌入（LLE）。  
+
+## 维数灾难
+
+我们已经习惯生活在一个三维的世界里，以至于当我们尝试想象更高维的空间时，我们的直觉不管用了。即使是一个基本的 4D 超正方体也很难在我们的脑中想象出来（见图 8-1），更不用说一个 200 维的椭球弯曲在一个 1000 维的空间里了。  
+
+![](img/8-1.gif)
+
+图 8-1 点，线，方形，立方体和超正方体（0D 到 4D 超正方体）  
+
+这表明很多物体在高维空间表现的十分不同。比如，如果你在一个正方形单元中随机取一个点（一个`1×1`的正方形），那么随机选的点离所有边界大于 0.001（靠近中间位置）的概率为 0.4%（`1 - 0.998^2`）（换句话说，一个随机产生的点不大可能严格落在某一个维度上。但是在一个 1,0000 维的单位超正方体（一个`1×1×...×1`的立方体，有 10,000 个 1），这种可能性超过了 99.999999%。在高维超正方体中，大多数点都分布在边界处。   
+
+还有一个更麻烦的区别：如果你在一个平方单位中随机选取两个点，那么这两个点之间的距离平均约为 0.52。如果您在单位 3D 立方体中选取两个随机点，平均距离将大致为 0.66。但是，在一个 1,000,000 维超立方体中随机抽取两点呢？那么，平均距离，信不信由你，大概为 408.25（大致`√(1,000,000/6)`！这非常违反直觉：当它们都位于同一单元超立方体内时，两点是怎么距离这么远的？这一事实意味着高维数据集有很大风险分布的非常稀疏：大多数训练实例可能彼此远离。当然，这也意味着一个新实例可能远离任何训练实例，这使得预测的可靠性远低于我们处理较低维度数据的预测，因为它们将基于更大的推测（extrapolations）。简而言之，训练集的维度越高，过拟合的风险就越大。  
+
+理论上来说，维数爆炸的一个解决方案是增加训练集的大小从而达到拥有足够密度的训练集。不幸的是，在实践中，达到给定密度所需的训练实例的数量随着维度的数量呈指数增长。如果只有 100 个特征（比 MNIST 问题要少得多）并且假设它们均匀分布在所有维度上，那么如果想要各个临近的训练实例之间的距离在 0.1 以内，您需要比宇宙中的原子还要多的训练实例。  
+
+## 降维的主要方法
+
+在我们深入研究具体的降维算法之前，我们来看看降低维度的两种主要方法：投影和流形学习。  
+
+### 投影（Projection）
+
+在大多数现实生活的问题中，训练实例并不是在所有维度上均匀分布的。许多特征几乎是常数，而其他特征则高度相关（如前面讨论的 MNIST）。结果，所有训练实例实际上位于（或接近）高维空间的低维子空间内。这听起来有些抽象，所以我们不妨来看一个例子。在图 8-2 中，您可以看到由圆圈表示的 3D 数据集。  
+
+![](img/8-2.jpeg)
+
+
+图 8-2 一个分布接近于 2D 子空间的 3D 数据集
+
+注意到所有训练实例的分布都贴近一个平面：这是高维（3D）空间的较低维（2D）子空间。现在，如果我们将每个训练实例垂直投影到这个子空间上（就像将短线连接到平面的点所表示的那样），我们就可以得到如图 8-3 所示的新 2D 数据集。铛铛铛！我们刚刚将数据集的维度从 3D 降低到了 2D。请注意，坐标轴对应于新的特征`z1`和`z2`（平面上投影的坐标）。  
+
+![](img/8-3.gif)
+
+
+图 8-3 一个经过投影后的新的 2D 数据集  
+
+但是，投影并不总是降维的最佳方法。在很多情况下，子空间可能会扭曲和转动，比如图 8-4 所示的着名瑞士滚动玩具数据集。  
+
+![](img/8-4.jpeg)
+
+
+图 8-4 瑞士滚动数玩具数据集  
+
+简单地将数据集投射到一个平面上（例如，直接丢弃`x3`）会将瑞士卷的不同层叠在一起，如图 8-5 左侧所示。但是，你真正想要的是展开瑞士卷所获取到的类似图 8-5 右侧的 2D 数据集。  
+
+![](img/8-5.jpeg)
+
+图 8-5 投射到平面的压缩（左）vs 展开瑞士卷（右）
+
+
+
+### 流形学习
+
+瑞士卷一个是二维流形的例子。简而言之，二维流形是一种二维形状，它可以在更高维空间中弯曲或扭曲。更一般地，一个`d`维流形是类似于`d`维超平面的`n`维空间（其中`d < n`）的一部分。在我们瑞士卷这个例子中，`d = 2`，`n = 3`：它有些像 2D 平面，但是它实际上是在第三维中卷曲。  
+
+许多降维算法通过对训练实例所在的流形进行建模从而达到降维目的；这叫做流形学习。它依赖于流形猜想（manifold assumption），也被称为流形假设（manifold hypothesis），它认为大多数现实世界的高维数据集大都靠近一个更低维的流形。这种假设经常在实践中被证实。  
+
+让我们再回到 MNIST 数据集：所有手写数字图像都有一些相似之处。它们由连线组成，边界是白色的，大多是在图片中中间的，等等。如果你随机生成图像，只有一小部分看起来像手写数字。换句话说，如果您尝试创建数字图像，那么您的自由度远低于您生成任何随便一个图像时的自由度。这些约束往往会将数据集压缩到较低维流形中。  
+
+流形假设通常包含着另一个隐含的假设：你现在的手上的工作（例如分类或回归）如果在流形的较低维空间中表示，那么它们会变得更简单。例如，在图 8-6 的第一行中，瑞士卷被分为两类：在三维空间中（图左上），分类边界会相当复杂，但在二维展开的流形空间中（图右上），分类边界是一条简单的直线。  
+
+但是，这个假设并不总是成立。例如，在图 8-6 的最下面一行，决策边界位于`x1 = 5`（图左下）。这个决策边界在原始三维空间（一个垂直平面）看起来非常简单，但在展开的流形中却变得更复杂了（四个独立线段的集合）（图右下）。  
+
+简而言之，如果在训练模型之前降低训练集的维数，那训练速度肯定会加快，但并不总是会得出更好的训练效果；这一切都取决于数据集。  
+
+希望你现在对于维数爆炸以及降维算法如何解决这个问题有了一定的理解，特别是对流形假设提出的内容。本章的其余部分将介绍一些最流行的降维算法。  
+
+![](img/8-6.jpeg)
+
+
+图 8-6 决策边界并不总是会在低维空间中变的简单  
+
+## 主成分分析（PCA）
+
+主成分分析（Principal Component Analysis）是目前为止最流行的降维算法。首先它找到接近数据集分布的超平面，然后将所有的数据都投影到这个超平面上。  
+
+### 保留（最大）方差
+
+在将训练集投影到较低维超平面之前，您首先需要选择正确的超平面。例如图 8-7 左侧是一个简单的二维数据集，以及三个不同的轴（即一维超平面）。图右边是将数据集投影到每个轴上的结果。正如你所看到的，投影到实线上保留了最大方差，而在点线上的投影只保留了非常小的方差，投影到虚线上保留的方差则处于上述两者之间。  
+
+![](img/8-7.jpeg)
+
+
+图 8-7 选择投射到哪一个子空间  
+
+选择保持最大方差的轴看起来是合理的，因为它很可能比其他投影损失更少的信息。证明这种选择的另一种方法是，选择这个轴使得将原始数据集投影到该轴上的均方距离最小。这是就 PCA 背后的思想，相当简单。  
+
+### 主成分（Principle Componets）
+
+PCA 寻找训练集中可获得最大方差的轴。在图 8-7 中，它是一条实线。它还发现了一个与第一个轴正交的第二个轴，选择它可以获得最大的残差。在这个 2D 例子中，没有选择：就只有这条点线。但如果在一个更高维的数据集中，PCA 也可以找到与前两个轴正交的第三个轴，以及与数据集中维数相同的第四个轴，第五个轴等。
+定义第`i`个轴的单位向量被称为第`i`个主成分（PC）。在图 8-7 中，第一个 PC 是`c1`，第二个 PC 是`c2`。在图 8-2 中，前两个 PC 用平面中的正交箭头表示，第三个 PC 与上述 PC 形成的平面正交（指向上或下）。  
+
+> 概述： 主成分的方向不稳定：如果您稍微打乱一下训练集并再次运行 PCA，则某些新 PC 可能会指向与原始 PC 方向相反。但是，它们通常仍位于同一轴线上。在某些情况下，一对 PC 甚至可能会旋转或交换，但它们定义的平面通常保持不变。  
+
+那么如何找到训练集的主成分呢？幸运的是，有一种称为奇异值分解（SVD）的标准矩阵分解技术，可以将训练集矩阵`X`分解为三个矩阵`U·Σ·V^T`的点积，其中`V^T`包含我们想要的所有主成分，如公式 8-1 所示。  
+
+公式 8-1 主成分矩阵
+
+![](img/e-8-1.gif)
+
+下面的 Python 代码使用了 Numpy 提供的`svd()`函数获得训练集的所有主成分，然后提取前两个 PC:  
+
+```py
+X_centered=X-X.mean(axis=0)
+U,s,V=np.linalg.svd(X_centered)
+c1=V.T[:,0]
+c2=V.T[:,1]
+```
+
+> 警告：PCA 假定数据集以原点为中心。正如我们将看到的，Scikit-Learn 的`PCA`类负责为您的数据集中心化处理。但是，如果您自己实现 PCA（如前面的示例所示），或者如果您使用其他库，不要忘记首先要先对数据做中心化处理。
+
+### 投影到`d`维空间
+
+一旦确定了所有的主成分，你就可以通过将数据集投影到由前`d`个主成分构成的超平面上，从而将数据集的维数降至`d`维。选择这个超平面可以确保投影将保留尽可能多的方差。例如，在图 8-2 中，3D 数据集被投影到由前两个主成分定义的 2D 平面，保留了大部分数据集的方差。因此，2D 投影看起来非常像原始 3D 数据集。  
+
+为了将训练集投影到超平面上，可以简单地通过计算训练集矩阵`X`和`Wd`的点积，`Wd`定义为包含前`d`个主成分的矩阵（即由`V^T`的前`d`列组成的矩阵），如公式 8-2 所示。
+
+公式 8-2 将训练集投影到`d`维空间
+
+![](img/tex-4d58b6f45f2e33f3ceb537b2b174c09b.gif)
+
+下面的 Python 代码将训练集投影到由前两个主成分定义的超平面上：  
+
+```py
+W2=V.T[:,:2]
+X2D=X_centered.dot(W2)
+```
+
+好了你已经知道这个东西了！你现在已经知道如何给任何一个数据集降维而又能尽可能的保留原数据集的方差了。  
+
+### 使用 Scikit-Learn
+
+Scikit-Learn 的 PCA 类使用 SVD 分解来实现，就像我们之前做的那样。以下代码应用 PCA 将数据集的维度降至两维（请注意，它会自动处理数据的中心化）：  
+
+```py
+from sklearn.decomposition import PCA
+
+pca=PCA(n_components=2)
+X2D=pca.fit_transform(X)
+```
+
+将 PCA 转化器应用于数据集后，可以使用`components_`访问每一个主成分（注意，它返回以 PC 作为水平向量的矩阵，因此，如果我们想要获得第一个主成分则可以写成`pca.components_.T[:,0]`）。
+
+### 方差解释率（Explained Variance Ratio）
+
+另一个非常有用的信息是每个主成分的方差解释率，可通过`explained_variance_ratio_`变量获得。它表示位于每个主成分轴上的数据集方差的比例。例如，让我们看一下图 8-2 中表示的三维数据集前两个分量的方差解释率：  
+
+```
+>>> print(pca.explained_variance_ratio_)
+array([0.84248607, 0.14631839])
+```
+
+这表明，84.2% 的数据集方差位于第一轴，14.6% 的方差位于第二轴。第三轴的这一比例不到 1.2%，因此可以认为它可能没有包含什么信息。  
+
+### 选择正确的维度
+
+通常我们倾向于选择加起来到方差解释率能够达到足够占比（例如 95%）的维度的数量，而不是任意选择要降低到的维度数量。当然，除非您正在为数据可视化而降低维度 -- 在这种情况下，您通常希望将维度降低到 2 或 3。  
+
+下面的代码在不降维的情况下进行 PCA，然后计算出保留训练集方差 95% 所需的最小维数：  
+
+```py
+pca=PCA()
+pac.fit(X)
+cumsum=np.cumsum(pca.explained_variance_ratio_)
+d=np.argmax(cumsum>=0.95)+1
+```
+
+你可以设置`n_components = d`并再次运行 PCA。但是，有一个更好的选择：不指定你想要保留的主成分个数，而是将`n_components`设置为 0.0 到 1.0 之间的浮点数，表明您希望保留的方差比率：  
+
+```py
+pca=PCA(n_components=0.95)
+X_reduced=pca.fit_transform(X)
+```
+
+另一种选择是画出方差解释率关于维数的函数（简单地绘制`cumsum`；参见图 8-8）。曲线中通常会有一个肘部，方差解释率停止快速增长。您可以将其视为数据集的真正的维度。在这种情况下，您可以看到将维度降低到大约 100 个维度不会失去太多的可解释方差。  
+
+![](img/8-8.jpeg)
+
+
+图 8-8 可解释方差关于维数的函数  
+
+### PCA 压缩
+
+显然，在降维之后，训练集占用的空间要少得多。例如，尝试将 PCA 应用于 MNIST 数据集，同时保留 95% 的方差。你应该发现每个实例只有 150 多个特征，而不是原来的 784 个特征。因此，尽管大部分方差都保留下来，但数据集现在还不到其原始大小的 20%！这是一个合理的压缩比率，您可以看到这可以如何极大地加快分类算法（如 SVM 分类器）的速度。  
+
+通过应用 PCA 投影的逆变换，也可以将缩小的数据集解压缩回 784 维。当然这并不会返回给你最原始的数据，因为投影丢失了一些信息（在 5% 的方差内），但它可能非常接近原始数据。原始数据和重构数据之间的均方距离（压缩然后解压缩）被称为重构误差（reconstruction error）。例如，下面的代码将 MNIST 数据集压缩到 154 维，然后使用`inverse_transform()`方法将其解压缩回 784 维。图 8-9 显示了原始训练集（左侧）的几位数字在压缩并解压缩后（右侧）的对应数字。您可以看到有轻微的图像质量降低，但数字仍然大部分完好无损。  
+
+```py
+pca=PCA(n_components=154)
+X_mnist_reduced=pca.fit_transform(X_mnist)
+X_mnist_recovered=pca.inverse_transform(X_mnist_reduced)
+```
+
+![](img/8-9.gif)
+
+
+图 8-9 MNIST 保留 95 方差的压缩  
+
+逆变换的公式如公式 8-3 所示  
+
+公式 8-3 PCA 逆变换，回退到原来的数据维度
+
+![](img/tex-9c33b504c86e9c53fd2dab1952e0db41.gif)
+
+### 增量 PCA（Incremental PCA）
+
+先前 PCA 实现的一个问题是它需要在内存中处理整个训练集以便 SVD 算法运行。幸运的是，我们已经开发了增量 PCA（IPCA）算法：您可以将训练集分批，并一次只对一个批量使用 IPCA 算法。这对大型训练集非常有用，并且可以在线应用 PCA（即在新实例到达时即时运行）。  
+
+下面的代码将 MNIST 数据集分成 100 个小批量（使用 NumPy 的`array_split()`函数），并将它们提供给 Scikit-Learn 的`IncrementalPCA`类，以将 MNIST 数据集的维度降低到 154 维（就像以前一样）。请注意，您必须对每个最小批次调用`partial_fit()`方法，而不是对整个训练集使用`fit()`方法： 
+
+```py
+from sklearn.decomposition import IncrementalPCA
+
+n_batches=100
+inc_pca=IncrementalPCA(n_components=154)
+for X_batch in np.array_spplit(X_mnist,n_batches):
+    inc_pca.partial_fit(X_batch)
+X_mnist_reduced=inc_pca.transform(X_mnist)
+```
+
+或者，您可以使用 NumPy 的`memmap`类，它允许您操作存储在磁盘上二进制文件中的大型数组，就好像它完全在内存中；该类仅在需要时加载内存中所需的数据。由于增量 PCA 类在任何时间内仅使用数组的一小部分，因此内存使用量仍受到控制。这可以调用通常的`fit()`方法，如下面的代码所示：  
+
+```py
+X_mm=np.memmap(filename,dtype='float32',mode='readonly',shape=(m,n))
+batch_size=m//n_batches
+inc_pca=IncrementalPCA(n_components=154,batch_size=batch_size)
+inc_pca.fit(X_mm)
+```
+
+### 随机 PCA（Randomized PCA）
+
+Scikit-Learn 提供了另一种执行 PCA 的选择，称为随机 PCA。这是一种随机算法，可以快速找到前`d`个主成分的近似值。它的计算复杂度是`O(m × d^2) + O(d^3)`，而不是`O(m × n^2) + O(n^3)`，所以当`d`远小于`n`时，它比之前的算法快得多。  
+
+```py
+rnd_pca=PCA(n_components=154,svd_solver='randomized')
+X_reduced=rnd_pca.fit_transform(X_mnist)
+```
+
+## 核 PCA（Kernel PCA）
+
+在第 5 章中，我们讨论了核技巧，一种将实例隐式映射到非常高维空间（称为特征空间）的数学技术，让支持向量机可以应用于非线性分类和回归。回想一下，高维特征空间中的线性决策边界对应于原始空间中的复杂非线性决策边界。  
+
+事实证明，同样的技巧可以应用于 PCA，从而可以执行复杂的非线性投影来降低维度。这就是所谓的核 PCA（kPCA）。它通常能够很好地保留投影后的簇，有时甚至可以展开分布近似于扭曲流形的数据集。  
+
+例如，下面的代码使用 Scikit-Learn 的`KernelPCA`类来执行带有 RBF 核的 kPCA（有关 RBF 核和其他核的更多详细信息，请参阅第 5 章）：
+
+```py
+from sklearn.decomposition import KernelPCA
+
+rbf_pca=KernelPCA(n_components=2,kernel='rbf',gamma=0.04)
+X_reduced=rbf_pca.fit_transform(X)
+```
+
+图 8-10 展示了使用线性核（等同于简单的使用 PCA 类），RBF 核，sigmoid 核（Logistic）将瑞士卷降到 2 维。
+
+![](img/8-10.jpeg)
+
+
+图 8-10 使用不同核的 kPCA 将瑞士卷降到 2 维
+
+### 选择一种核并调整超参数
+
+由于 kPCA 是无监督学习算法，因此没有明显的性能指标可以帮助您选择最佳的核方法和超参数值。但是，降维通常是监督学习任务（例如分类）的准备步骤，因此您可以简单地使用网格搜索来选择可以让该任务达到最佳表现的核方法和超参数。例如，下面的代码创建了一个两步的流水线，首先使用 kPCA 将维度降至两维，然后应用 Logistic 回归进行分类。然后它使用`Grid SearchCV`为 kPCA 找到最佳的核和`gamma`值，以便在最后获得最佳的分类准确性：  
+
+```py
+from sklearn.model_selection import GridSearchCV 
+from sklearn.linear_model import LogisticRegression 
+from sklearn.pipeline import Pipeline
+
+clf = Pipeline([
+        ("kpca", KernelPCA(n_components=2)),
+        ("log_reg", LogisticRegression())
+])
+param_grid = [{
+        "kpca__gamma": np.linspace(0.03, 0.05, 10),
+        "kpca__kernel": ["rbf", "sigmoid"]
+    }]
+grid_search = GridSearchCV(clf, param_grid, cv=3)
+grid_search.fit(X, y)
+```
+
+你可以通过调用`best_params_`变量来查看使模型效果最好的核和超参数：
+
+```py
+>>> print(grid_search.best_params_)
+{'kpca__gamma': 0.043333333333333335, 'kpca__kernel': 'rbf'}
+```
+
+另一种完全为非监督的方法，是选择产生最低重建误差的核和超参数。但是，重建并不像线性 PCA 那样容易。这里是原因：图 8-11 显示了原始瑞士卷 3D 数据集（左上角），并且使用 RBF 核应用 kPCA 后生成的二维数据集（右上角）。由于核技巧，这在数学上等同于使用特征映射`φ`将训练集映射到无限维特征空间（右下），然后使用线性 PCA 将变换的训练集投影到 2D。请注意，如果我们可以在缩减空间中对给定实例实现反向线性 PCA 步骤，则重构点将位于特征空间中，而不是位于原始空间中（例如，如图中由`x`表示的那样）。由于特征空间是无限维的，我们不能找出重建点，因此我们无法计算真实的重建误差。幸运的是，可以在原始空间中找到一个贴近重建点的点。这被称为重建前图像（reconstruction pre-image）。一旦你有这个前图像，你就可以测量其与原始实例的平方距离。然后，您可以选择最小化重建前图像错误的核和超参数。
+
+![](img/8-11.jpeg)
+
+
+图 8-11 核 PCA 和重建前图像误差  
+
+您可能想知道如何进行这种重建。一种解决方案是训练一个监督回归模型，将预计实例作为训练集，并将原始实例作为训练目标。如果您设置了`fit_inverse_transform = True`，Scikit-Learn 将自动执行此操作，代码如下所示：
+
+```py
+rbf_pca = KernelPCA(n_components = 2, kernel="rbf", gamma=0.0433,fit_inverse_transform=True)
+X_reduced = rbf_pca.fit_transform(X)
+X_preimage = rbf_pca.inverse_transform(X_reduced)
+```
+
+> 概述：默认条件下，`fit_inverse_transform = False`并且`KernelPCA`没有`inverse_tranfrom()`方法。这种方法仅仅当`fit_inverse_transform = True`的情况下才会创建。  
+
+你可以计算重建前图像误差：
+
+```py
+>>> from sklearn.metrics import mean_squared_error
+>>> mean_squared_error(X, X_preimage) 32.786308795766132
+```
+
+现在你可以使用交叉验证的方格搜索来寻找可以最小化重建前图像误差的核方法和超参数。  
+
+### LLE
+
+局部线性嵌入（Locally Linear Embedding）是另一种非常有效的非线性降维（NLDR）方法。这是一种流形学习技术，不依赖于像以前算法那样的投影。简而言之，LLE 首先测量每个训练实例与其最近邻（c.n.）之间的线性关系，然后寻找能最好地保留这些局部关系的训练集的低维表示（稍后会详细介绍） 。这使得它特别擅长展开扭曲的流形，尤其是在没有太多噪音的情况下。  
+
+例如，以下代码使用 Scikit-Learn 的`LocallyLinearEmbedding`类来展开瑞士卷。得到的二维数据集如图 8-12 所示。正如您所看到的，瑞士卷被完全展开，实例之间的距离保存得很好。但是，距离不能在较大范围内保留的很好：展开的瑞士卷的左侧被挤压，而右侧的部分被拉长。尽管如此，LLE 在对流形建模方面做得非常好。  
+
+```py
+from sklearn.manifold import LocallyLinearEmbedding
+
+lle=LocallyLinearEmbedding(n_components=2,n_neighbors=10)
+X_reduced=lle.fit_transform(X)
+```
+
+![](img/8-12.jpeg)
+
+
+图 8-12 使用 LLE 展开瑞士卷  
+
+
+这是 LLE 的工作原理：首先，对于每个训练实例`x^(i)`，该算法识别其最近的`k`个邻居（在前面的代码中`k = 10`中），然后尝试将`x^(i)`重构为这些邻居的线性函数。更具体地，找到权重`w[i, j]`从而使`x^(i)`和`Σ w[i, j] x^(j), j = 1 -> m`之间的平方距离尽可能的小，假设如果`x^(j)`不是`x^(i)`的`k`个最近邻时`w[i, j] = 0`。因此，LLE 的第一步是方程 8-4 中描述的约束优化问题，其中`W`是包含所有权重`w[i, j]`的权重矩阵。第二个约束简单地对每个训练实例`x^(i)`的权重进行归一化。  
+
+公式 8-2 LLE 第一步：对局部关系进行线性建模
+
+![](img/e-8-2.gif)
+
+在这步之后，权重矩阵`W_hat`（包含权重`w_hat[i,j]`对训练实例的线形关系进行编码。现在第二步是将训练实例投影到一个`d`维空间（`d < n`）中去，同时尽可能的保留这些局部关系。如果`z^(i)`是`x^(i)`在这个`d`维空间的图像，那么我们想要`z^(i)`和`Σ w_hat[i, j] z^(j), j = 1 -> m`之间的平方距离尽可能的小。这个想法让我们提出了公式 8-5 中的非限制性优化问题。它看起来与第一步非常相似，但我们要做的不是保持实例固定并找到最佳权重，而是恰相反：保持权重不变，并在低维空间中找到实例图像的最佳位置。请注意，`Z`是包含所有`z^(i)`的矩阵。  
+
+公式 8-3 LLE 第二步：保持关系的同时进行降维
+
+![](img/e-8-3.gif)  
+
+Scikit-Learn 的 LLE 实现具有如下的计算复杂度：查找`k`个最近邻为`O(m log(m) n log(k))`，优化权重为`O(m n k^3)`，建立低维表示为`O(d m^2)`。不幸的是，最后一项`m^2`使得这个算法在处理大数据集的时候表现较差。  
+
+## 其他降维方法
+
+还有很多其他的降维方法，Scikit-Learn 支持其中的好几种。这里是其中最流行的： 
+
+- 多维缩放（MDS）在尝试保持实例之间距离的同时降低了维度（参见图 8-13）
+- Isomap 通过将每个实例连接到最近的邻居来创建图形，然后在尝试保持实例之间的测地距离时降低维度。  
+- t-分布随机邻域嵌入（t-Distributed Stochastic Neighbor Embedding，t-SNE）可以用于降低维​​度，同时试图保持相似的实例临近并将不相似的实例分开。它主要用于可视化，尤其是用于可视化高维空间中的实例（例如，可以将 MNIST 图像降维到 2D 可视化）。  
+- 线性判别分析（Linear Discriminant Analysis，LDA）实际上是一种分类算法，但在训练过程中，它会学习类之间最有区别的轴，然后使用这些轴来定义用于投影数据的超平面。LDA 的好处是投影会尽可能地保持各个类之间距离，所以在运行另一种分类算法（如 SVM 分类器）之前，LDA 是很好的降维技术。  
+
+![](img/8-13.jpeg)
+
+
+图 8-13 使用不同的技术将瑞士卷降维至 2D
+
+## 练习
+
+1. 减少数据集维度的主要动机是什么？主要缺点是什么？
+2. 什么是维度爆炸？  
+3. 一旦对某数据集降维，我们可能恢复它吗？如果可以，怎样做才能恢复？如果不可以，为什么？  
+4. PCA 可以用于降低一个高度非线性对数据集吗？  
+5. 假设你对一个 1000 维的数据集应用 PCA，同时设置方差解释率为 95%，你的最终数据集将会有多少维？  
+6. 在什么情况下你会使用普通的 PCA，增量 PCA，随机 PCA 和核 PCA？  
+7. 你该如何评价你的降维算法在你数据集上的表现？  
+8. 将两个不同的降维算法串联使用有意义吗？  
+9. 加载 MNIST 数据集（在第 3 章中介绍），并将其分成一个训练集和一个测试集（将前 60,000 个实例用于训练，其余 10,000 个用于测试）。在数据集上训练一个随机森林分类器，并记录了花费多长时间，然后在测试集上评估模型。接下来，使用 PCA 降低数据集的维度，设置方差解释率为 95%。在降维后的数据集上训练一个新的随机森林分类器，并查看需要多长时间。训练速度更快？接下来评估测试集上的分类器：它与以前的分类器比较起来如何？  
+10. 使用 t-SNE 将 MNIST 数据集缩减到二维，并使用 Matplotlib 绘制结果图。您可以使用 10 种不同颜色的散点图来表示每个图像的目标类别。或者，您可以在每个实例的位置写入彩色数字，甚至可以绘制数字图像本身的降维版本（如果绘制所有数字，则可视化可能会过于混乱，因此您应该绘制随机样本或只在周围没有其他实例被绘制的情况下绘制）。你将会得到一个分隔良好的的可视化数字集群。尝试使用其他降维算法，如 PCA，LLE 或 MDS，并比较可视化结果。  
+
+练习答案请见附录 A。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/README.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/README.md
new file mode 100644
index 00000000..8731f518
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/README.md
@@ -0,0 +1,46 @@
+# Sklearn 与 TensorFlow 机器学习实用指南第二版
+
+![](cover.jpg)
+
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 懦夫才用磁带备份，真男人把重要的东西传到 FTP，然后世界会帮他备份。——林纳斯·托瓦兹
+
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+* [利用 Python 进行数据分析 第二版](https://github.com/apachecn/pyda-2e-zh)
+
+## 编译
+
+```
+npm install -g gitbook-cli          # 安装 gitbook
+gitbook fetch 3.2.3                 # 安装 gitbook 子版本
+gitbook install                     # 安装必要的插件
+gitbook <build|pdf|epub|mobi>       # 编译 HTML/PDF/EPUB/MOBI
+```
+
+
+## 下载
+
+### Docker
+
+```
+docker pull apachecn0/hands-on-ml-2e-zh
+docker run -tid -p <port>:80 apachecn0/hands-on-ml-2e-zh
+# 访问 http://localhost:{port} 查看文档
+```
+
+### PYPI
+
+```
+pip install hands-on-ml-2e-zh
+hands-on-ml-2e-zh <port>
+# 访问 http://localhost:{port} 查看文档
+```
+
+### NPM
+
+```
+npm install -g handson-ml-2e-zh
+handson-ml-2e-zh <port>
+# 访问 http://localhost:{port} 查看文档
+```
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/SUMMARY.md
new file mode 100644
index 00000000..c9ee0d87
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/SUMMARY.md
@@ -0,0 +1,20 @@
++   [Sklearn 与 TensorFlow 机器学习实用指南第二版](README.md)
++   [零、前言](0.md)
++   [一、机器学习概览](1.md)
++   [二、端到端的机器学习项目](2.md)
++   [三、分类](3.md)
++   [四、训练模型](4.md)
++   [五、支持向量机](5.md)
++   [六、决策树](6.md)
++   [七、集成学习和随机森林](7.md)
++   [八、降维](8.md)
++   [十、使用 Keras 搭建人工神经网络](10.md)
++   [十一、训练深度神经网络](11.md)
++   [十二、使用 TensorFlow 自定义模型并训练](12.md)
++   [十三、使用 TensorFlow 加载和预处理数据](13.md)
++   [十四、使用卷积神经网络实现深度计算机视觉](14.md)
++   [十五、使用 RNN 和 CNN 处理序列](15.md)
++   [十六、使用 RNN 和注意力机制进行自然语言处理](16.md)
++   [十七、使用自编码器和 GAN 做表征学习和生成式学习](17.md)
++   [十八、强化学习](18.md)
++   [十九、规模化训练和部署 TensorFlow 模型](19.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/cover.jpg
new file mode 100644
index 00000000..d6d53c01
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0206020c7e2549b82019ce1da567f097.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0206020c7e2549b82019ce1da567f097.png
new file mode 100644
index 00000000..51d79635
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0206020c7e2549b82019ce1da567f097.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/038edb16c2a61ea17210fa050758e92d.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/038edb16c2a61ea17210fa050758e92d.png
new file mode 100644
index 00000000..a00720d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/038edb16c2a61ea17210fa050758e92d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/058f0c3ad21d6f25e14dadfb26373faf.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/058f0c3ad21d6f25e14dadfb26373faf.png
new file mode 100644
index 00000000..f92d74f7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/058f0c3ad21d6f25e14dadfb26373faf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/071528c1638f48307509ce23a53f8431.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/071528c1638f48307509ce23a53f8431.png
new file mode 100644
index 00000000..b4f78703
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/071528c1638f48307509ce23a53f8431.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/076bce42822b56f835ebdc0841cef999.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/076bce42822b56f835ebdc0841cef999.png
new file mode 100644
index 00000000..da2e5966
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/076bce42822b56f835ebdc0841cef999.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/07bf639cb1942a88dbac1722ea277c90.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/07bf639cb1942a88dbac1722ea277c90.png
new file mode 100644
index 00000000..f5a3c70c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/07bf639cb1942a88dbac1722ea277c90.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0c4ef3e739a09224456bd8f4f31b38a6.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0c4ef3e739a09224456bd8f4f31b38a6.png
new file mode 100644
index 00000000..fb048ca6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0c4ef3e739a09224456bd8f4f31b38a6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0ca805e327443798ec2a8e2155ef9df7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0ca805e327443798ec2a8e2155ef9df7.png
new file mode 100644
index 00000000..675e7ddc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0ca805e327443798ec2a8e2155ef9df7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0d1080f9485fe42c2bf86d1f9e0e2b66.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0d1080f9485fe42c2bf86d1f9e0e2b66.png
new file mode 100644
index 00000000..55dc2837
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0d1080f9485fe42c2bf86d1f9e0e2b66.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0de8c80a775dd2d2d9c874e3f2fb1b0d.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0de8c80a775dd2d2d9c874e3f2fb1b0d.png
new file mode 100644
index 00000000..8a761636
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0de8c80a775dd2d2d9c874e3f2fb1b0d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0e364b0ec66b501a0e4b3ecc75fadeb5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0e364b0ec66b501a0e4b3ecc75fadeb5.png
new file mode 100644
index 00000000..ea029c37
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/0e364b0ec66b501a0e4b3ecc75fadeb5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-1.png
new file mode 100644
index 00000000..577d4359
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-10.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-10.png
new file mode 100644
index 00000000..8b884493
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-11.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-11.png
new file mode 100644
index 00000000..f4ff5a20
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-12.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-12.png
new file mode 100644
index 00000000..3403e38a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-13.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-13.png
new file mode 100644
index 00000000..39f0cdbd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-14.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-14.png
new file mode 100644
index 00000000..39f0cdbd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-15.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-15.png
new file mode 100644
index 00000000..979fc687
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-16.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-16.png
new file mode 100644
index 00000000..aca9495d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-17.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-17.png
new file mode 100644
index 00000000..b1841e0a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-18.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-18.png
new file mode 100644
index 00000000..823bd520
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-18.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-19.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-19.png
new file mode 100644
index 00000000..a10e9113
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-19.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-2.png
new file mode 100644
index 00000000..f6b7db04
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-20.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-20.png
new file mode 100644
index 00000000..c44085e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-20.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-21.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-21.png
new file mode 100644
index 00000000..ed78d0d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-21.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-22.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-22.png
new file mode 100644
index 00000000..39a3023a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-22.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-23.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-23.png
new file mode 100644
index 00000000..d4dd093f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-23.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-3.png
new file mode 100644
index 00000000..e322f16e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-4.png
new file mode 100644
index 00000000..1582c379
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-5.png
new file mode 100644
index 00000000..518b3401
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-6.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-6.png
new file mode 100644
index 00000000..ba35d125
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-7.png
new file mode 100644
index 00000000..0f5e1989
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-8.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-8.png
new file mode 100644
index 00000000..108421db
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-9.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-9.png
new file mode 100644
index 00000000..2dd8a481
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1-9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/102.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/102.jpg
new file mode 100644
index 00000000..53c6927a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/102.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/102.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/102.png
new file mode 100644
index 00000000..53c6927a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/102.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/103.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/103.png
new file mode 100644
index 00000000..065ad579
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/103.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/104.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/104.png
new file mode 100644
index 00000000..538efd37
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/104.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/105.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/105.png
new file mode 100644
index 00000000..a05bba87
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/105.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/106.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/106.png
new file mode 100644
index 00000000..dbea98cf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/106.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/107.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/107.png
new file mode 100644
index 00000000..81888897
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/107.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/108.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/108.png
new file mode 100644
index 00000000..bfae836d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/108.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/109.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/109.png
new file mode 100644
index 00000000..7acf84a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/109.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/110.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/110.png
new file mode 100644
index 00000000..85ea7bd6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/110.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/111.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/111.png
new file mode 100644
index 00000000..6ce9c885
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/111.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/11350c8af71a04bfece796ad9c622220.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/11350c8af71a04bfece796ad9c622220.png
new file mode 100644
index 00000000..f328ab70
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/11350c8af71a04bfece796ad9c622220.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1145c6341af02f3b465328cb61cd5a0e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1145c6341af02f3b465328cb61cd5a0e.png
new file mode 100644
index 00000000..66e47f07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1145c6341af02f3b465328cb61cd5a0e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/133f15a30a9de1a24f0a24873dd09824.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/133f15a30a9de1a24f0a24873dd09824.png
new file mode 100644
index 00000000..3b739311
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/133f15a30a9de1a24f0a24873dd09824.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1356bc32334bf1d9fd61e51342ce2946.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1356bc32334bf1d9fd61e51342ce2946.png
new file mode 100644
index 00000000..5be9de2b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1356bc32334bf1d9fd61e51342ce2946.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/16e64eb0ee762551f526e51a257df423.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/16e64eb0ee762551f526e51a257df423.png
new file mode 100644
index 00000000..c7a1673f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/16e64eb0ee762551f526e51a257df423.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/17525ac1549e1cd8da63013e2620f286.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/17525ac1549e1cd8da63013e2620f286.png
new file mode 100644
index 00000000..a528a0e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/17525ac1549e1cd8da63013e2620f286.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/17669b5f6b6e1a23b11d4207c365c15a.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/17669b5f6b6e1a23b11d4207c365c15a.png
new file mode 100644
index 00000000..0332c19e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/17669b5f6b6e1a23b11d4207c365c15a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/176addd6633ed6e883b3c6dc1a8d1569.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/176addd6633ed6e883b3c6dc1a8d1569.png
new file mode 100644
index 00000000..0d6d85ae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/176addd6633ed6e883b3c6dc1a8d1569.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/197d0d1d97e9b3c90f3d8a4b9add9ea4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/197d0d1d97e9b3c90f3d8a4b9add9ea4.png
new file mode 100644
index 00000000..dd876cf8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/197d0d1d97e9b3c90f3d8a4b9add9ea4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1c532176a1ecb1c2004cfa285d5517d8.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1c532176a1ecb1c2004cfa285d5517d8.png
new file mode 100644
index 00000000..2321ea6d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1c532176a1ecb1c2004cfa285d5517d8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1c696a3cda652b27fb2296c17a087922.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1c696a3cda652b27fb2296c17a087922.png
new file mode 100644
index 00000000..d846142b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1c696a3cda652b27fb2296c17a087922.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1d42dc52ad9a49a5ba54ef885454e778.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1d42dc52ad9a49a5ba54ef885454e778.png
new file mode 100644
index 00000000..f6b3e6ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1d42dc52ad9a49a5ba54ef885454e778.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1d965bfcdda748da7778d2e92ef55448.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1d965bfcdda748da7778d2e92ef55448.png
new file mode 100644
index 00000000..e1f451e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1d965bfcdda748da7778d2e92ef55448.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1e702f782691c1e3f0d0a177fb02d497.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1e702f782691c1e3f0d0a177fb02d497.png
new file mode 100644
index 00000000..4c9389eb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1e702f782691c1e3f0d0a177fb02d497.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1f0a5be72da1074aa2a14a67f268f2b7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1f0a5be72da1074aa2a14a67f268f2b7.png
new file mode 100644
index 00000000..4e4ad36b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/1f0a5be72da1074aa2a14a67f268f2b7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-1.png
new file mode 100644
index 00000000..3572800f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-10.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-10.png
new file mode 100644
index 00000000..3d9bfa3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-11.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-11.png
new file mode 100644
index 00000000..1a1823b0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-12.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-12.png
new file mode 100644
index 00000000..2b6ca808
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-13.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-13.png
new file mode 100644
index 00000000..a6fc8e45
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-14.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-14.png
new file mode 100644
index 00000000..fd0661df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-15.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-15.png
new file mode 100644
index 00000000..b7ebeb6c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-16.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-16.png
new file mode 100644
index 00000000..3a38eaf0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-2.png
new file mode 100644
index 00000000..6a63e7ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-3.png
new file mode 100644
index 00000000..3be36114
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-4.png
new file mode 100644
index 00000000..903b712f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-5.png
new file mode 100644
index 00000000..deaa207a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-6.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-6.png
new file mode 100644
index 00000000..1ec0a623
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-7.png
new file mode 100644
index 00000000..d17e9f65
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-8.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-8.png
new file mode 100644
index 00000000..40af78b6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-9.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-9.png
new file mode 100644
index 00000000..f4dbcf66
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2-9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/20e4e3010cf36366cfa6d1065b90a38c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/20e4e3010cf36366cfa6d1065b90a38c.png
new file mode 100644
index 00000000..6cc82050
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/20e4e3010cf36366cfa6d1065b90a38c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2139a0e805f28fd1cad6f8083ee42a69.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2139a0e805f28fd1cad6f8083ee42a69.png
new file mode 100644
index 00000000..5d735f21
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2139a0e805f28fd1cad6f8083ee42a69.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2262948e82010dbec63937ed0ca4b096.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2262948e82010dbec63937ed0ca4b096.png
new file mode 100644
index 00000000..4ae214b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2262948e82010dbec63937ed0ca4b096.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/235694381a6487fb22b2a21afd90e57d.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/235694381a6487fb22b2a21afd90e57d.png
new file mode 100644
index 00000000..a2a7fa99
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/235694381a6487fb22b2a21afd90e57d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/252e2a32408349522b1f991945ebc47b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/252e2a32408349522b1f991945ebc47b.png
new file mode 100644
index 00000000..f1e695fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/252e2a32408349522b1f991945ebc47b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/25367c92c4c8eaf06198b0fbe747b95c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/25367c92c4c8eaf06198b0fbe747b95c.png
new file mode 100644
index 00000000..3e5eab8a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/25367c92c4c8eaf06198b0fbe747b95c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2592a250e00af098bcfdac9fc6a73288.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2592a250e00af098bcfdac9fc6a73288.png
new file mode 100644
index 00000000..b1071041
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2592a250e00af098bcfdac9fc6a73288.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/25ec3bd7e556e6587112be22f8c17892.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/25ec3bd7e556e6587112be22f8c17892.png
new file mode 100644
index 00000000..35d49d4b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/25ec3bd7e556e6587112be22f8c17892.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/26762a6dc32da193d66d7946e22478ce.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/26762a6dc32da193d66d7946e22478ce.png
new file mode 100644
index 00000000..b6e939df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/26762a6dc32da193d66d7946e22478ce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/27332848891cb6442e06930ef97c2773.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/27332848891cb6442e06930ef97c2773.png
new file mode 100644
index 00000000..5c3d3f42
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/27332848891cb6442e06930ef97c2773.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/289ad9d96b86532ba1a64dcf12c28f33.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/289ad9d96b86532ba1a64dcf12c28f33.png
new file mode 100644
index 00000000..81b6b82d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/289ad9d96b86532ba1a64dcf12c28f33.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/28e6d457d56a02086f2ceff72ac9d1e2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/28e6d457d56a02086f2ceff72ac9d1e2.png
new file mode 100644
index 00000000..0d485df1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/28e6d457d56a02086f2ceff72ac9d1e2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/299e7dce80e30dae3ccc7f2a1faae8fe.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/299e7dce80e30dae3ccc7f2a1faae8fe.png
new file mode 100644
index 00000000..bb2aa894
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/299e7dce80e30dae3ccc7f2a1faae8fe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/29eb9398f4f64b699808ff8fba4e7d36.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/29eb9398f4f64b699808ff8fba4e7d36.png
new file mode 100644
index 00000000..8f44d5cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/29eb9398f4f64b699808ff8fba4e7d36.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2b2d0980ce5c33564b5eac1e8e631789.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2b2d0980ce5c33564b5eac1e8e631789.png
new file mode 100644
index 00000000..f256f6da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2b2d0980ce5c33564b5eac1e8e631789.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2b5ab452bdad7e6ed23449188e203f9e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2b5ab452bdad7e6ed23449188e203f9e.png
new file mode 100644
index 00000000..10d1a54c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2b5ab452bdad7e6ed23449188e203f9e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2bcb91d1c87d875de17cc43e3f253d5e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2bcb91d1c87d875de17cc43e3f253d5e.png
new file mode 100644
index 00000000..fb9edb0f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2bcb91d1c87d875de17cc43e3f253d5e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2c62e7395f90f017c434eafc7153e6eb.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2c62e7395f90f017c434eafc7153e6eb.png
new file mode 100644
index 00000000..839fbd85
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2c62e7395f90f017c434eafc7153e6eb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2c99c4702d442f7252eab10d662a9521.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2c99c4702d442f7252eab10d662a9521.png
new file mode 100644
index 00000000..a4ed2940
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2c99c4702d442f7252eab10d662a9521.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2d74b4c2999d3fa82e6b5aa85be19c1b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2d74b4c2999d3fa82e6b5aa85be19c1b.png
new file mode 100644
index 00000000..6317bb55
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2d74b4c2999d3fa82e6b5aa85be19c1b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2de4723c6249ec91b3cb15bc31d64b7f.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2de4723c6249ec91b3cb15bc31d64b7f.png
new file mode 100644
index 00000000..2bda4ca3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2de4723c6249ec91b3cb15bc31d64b7f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2e97115a3976ddb176e401dcfa95b53c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2e97115a3976ddb176e401dcfa95b53c.png
new file mode 100644
index 00000000..0d315173
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2e97115a3976ddb176e401dcfa95b53c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2eb643c0821b45d0728233dbf25d1e46.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2eb643c0821b45d0728233dbf25d1e46.png
new file mode 100644
index 00000000..affdcd5a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2eb643c0821b45d0728233dbf25d1e46.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2eb72b6016c50e7bab66a67a1530df86.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2eb72b6016c50e7bab66a67a1530df86.png
new file mode 100644
index 00000000..f7127ccb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/2eb72b6016c50e7bab66a67a1530df86.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/303667c209e2119f8b74990d8407a92a.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/303667c209e2119f8b74990d8407a92a.png
new file mode 100644
index 00000000..96a40632
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/303667c209e2119f8b74990d8407a92a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/34a85484de696688796d6e35f8e7a0a3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/34a85484de696688796d6e35f8e7a0a3.png
new file mode 100644
index 00000000..222e6e84
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/34a85484de696688796d6e35f8e7a0a3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/35080cf52f5e9599c8ae129bb2b5d295.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/35080cf52f5e9599c8ae129bb2b5d295.png
new file mode 100644
index 00000000..0c6bd7cd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/35080cf52f5e9599c8ae129bb2b5d295.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/35d9fcd8b373f316881a7a6c79e7c9a7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/35d9fcd8b373f316881a7a6c79e7c9a7.png
new file mode 100644
index 00000000..c7a6c44b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/35d9fcd8b373f316881a7a6c79e7c9a7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/36df0b6e0bffc722814f35bdd3bb5581.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/36df0b6e0bffc722814f35bdd3bb5581.png
new file mode 100644
index 00000000..d5e1db9d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/36df0b6e0bffc722814f35bdd3bb5581.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/39f5a4220e7ce1ee79b0a1b6c2745be0.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/39f5a4220e7ce1ee79b0a1b6c2745be0.png
new file mode 100644
index 00000000..0b89d8d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/39f5a4220e7ce1ee79b0a1b6c2745be0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/3d01200878f6c6d7033359da8291d199.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/3d01200878f6c6d7033359da8291d199.png
new file mode 100644
index 00000000..554944c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/3d01200878f6c6d7033359da8291d199.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/3dfe7472d69611d43ccd638d7eb71169.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/3dfe7472d69611d43ccd638d7eb71169.png
new file mode 100644
index 00000000..be1fd88c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/3dfe7472d69611d43ccd638d7eb71169.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/439b37e1638f28229762d9a05a371c77.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/439b37e1638f28229762d9a05a371c77.png
new file mode 100644
index 00000000..6defd287
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/439b37e1638f28229762d9a05a371c77.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/4563bad38f502e5afb7561da8c7917a5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/4563bad38f502e5afb7561da8c7917a5.png
new file mode 100644
index 00000000..38ba6305
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/4563bad38f502e5afb7561da8c7917a5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/498e45d619e08c8fc7acff449bfb27de.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/498e45d619e08c8fc7acff449bfb27de.png
new file mode 100644
index 00000000..302c653f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/498e45d619e08c8fc7acff449bfb27de.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/49a9afbd5ba01e0eb2b98f7000c9f94e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/49a9afbd5ba01e0eb2b98f7000c9f94e.png
new file mode 100644
index 00000000..112900ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/49a9afbd5ba01e0eb2b98f7000c9f94e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/4a588bbd07f62095da42f3e87339926b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/4a588bbd07f62095da42f3e87339926b.png
new file mode 100644
index 00000000..df747596
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/4a588bbd07f62095da42f3e87339926b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-1.jpg
new file mode 100644
index 00000000..2f90ee59
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-10.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-10.jpg
new file mode 100644
index 00000000..b5a77116
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-10.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-11.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-11.jpg
new file mode 100644
index 00000000..86718da4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-11.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-12.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-12.jpg
new file mode 100644
index 00000000..45ef9f3a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-12.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-13.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-13.jpg
new file mode 100644
index 00000000..723c7bf1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-13.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-2.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-2.jpg
new file mode 100644
index 00000000..620b4ef5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-2.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-3.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-3.jpg
new file mode 100644
index 00000000..08260214
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-3.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-4.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-4.jpg
new file mode 100644
index 00000000..bf841ec4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-4.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-5.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-5.jpg
new file mode 100644
index 00000000..b391ca3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-5.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-6.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-6.jpg
new file mode 100644
index 00000000..5f0cb0b5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-6.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-7.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-7.jpg
new file mode 100644
index 00000000..62fe0119
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-7.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-8.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-8.jpg
new file mode 100644
index 00000000..da6da758
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-8.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-9.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-9.jpg
new file mode 100644
index 00000000..bbe40422
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-9.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-hinge.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-hinge.jpg
new file mode 100644
index 00000000..4bef599c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5-hinge.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/50c635c122c979e434cd2ac2b7bd2fea.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/50c635c122c979e434cd2ac2b7bd2fea.png
new file mode 100644
index 00000000..82fbb7c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/50c635c122c979e434cd2ac2b7bd2fea.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/513e35a4ee953fb3b03862206bce16fb.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/513e35a4ee953fb3b03862206bce16fb.png
new file mode 100644
index 00000000..808903c2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/513e35a4ee953fb3b03862206bce16fb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/523379c16c7d187fad08480319499a81.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/523379c16c7d187fad08480319499a81.png
new file mode 100644
index 00000000..58b00651
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/523379c16c7d187fad08480319499a81.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/541b178f8d6be27613ebfc2dd505f79e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/541b178f8d6be27613ebfc2dd505f79e.png
new file mode 100644
index 00000000..70051b53
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/541b178f8d6be27613ebfc2dd505f79e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/546be8127641972a5bb9b137d8c0e98e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/546be8127641972a5bb9b137d8c0e98e.png
new file mode 100644
index 00000000..f2c92330
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/546be8127641972a5bb9b137d8c0e98e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/551148dd8fd709bc4686f611cd04b122.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/551148dd8fd709bc4686f611cd04b122.png
new file mode 100644
index 00000000..43ae1bb9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/551148dd8fd709bc4686f611cd04b122.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55a0ce7e186291d79dc0fda6550d308c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55a0ce7e186291d79dc0fda6550d308c.png
new file mode 100644
index 00000000..84ed36e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55a0ce7e186291d79dc0fda6550d308c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55b6511bc922891b4ac2d7e8775cdbe7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55b6511bc922891b4ac2d7e8775cdbe7.png
new file mode 100644
index 00000000..b5965015
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55b6511bc922891b4ac2d7e8775cdbe7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55ee59029d35271789fa454f6f96e1dd.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55ee59029d35271789fa454f6f96e1dd.png
new file mode 100644
index 00000000..d8abb40b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/55ee59029d35271789fa454f6f96e1dd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/56fdb66950f4532d26d9463c29a32819.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/56fdb66950f4532d26d9463c29a32819.png
new file mode 100644
index 00000000..4495480f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/56fdb66950f4532d26d9463c29a32819.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/57ef0ccfc6045465417fbe4bfb671695.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/57ef0ccfc6045465417fbe4bfb671695.png
new file mode 100644
index 00000000..d672f1a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/57ef0ccfc6045465417fbe4bfb671695.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/581f29cd2a0ec32c39da602728239ae6.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/581f29cd2a0ec32c39da602728239ae6.png
new file mode 100644
index 00000000..14c7cecf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/581f29cd2a0ec32c39da602728239ae6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/591beaf8e9895b8d896c927527c110d7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/591beaf8e9895b8d896c927527c110d7.png
new file mode 100644
index 00000000..1be53c5a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/591beaf8e9895b8d896c927527c110d7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5979b04b6b1410e6023c452c38561cdb.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5979b04b6b1410e6023c452c38561cdb.png
new file mode 100644
index 00000000..8028e3fe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5979b04b6b1410e6023c452c38561cdb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5d81820b7143bc22226f0f2362d5e5be.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5d81820b7143bc22226f0f2362d5e5be.png
new file mode 100644
index 00000000..4eb4f1a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5d81820b7143bc22226f0f2362d5e5be.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5f3bdd191442c46391e9271a80356d0c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5f3bdd191442c46391e9271a80356d0c.png
new file mode 100644
index 00000000..885ff4d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/5f3bdd191442c46391e9271a80356d0c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6056ca0fed15a10cfa75c2b47e731ce0.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6056ca0fed15a10cfa75c2b47e731ce0.png
new file mode 100644
index 00000000..7fb729a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6056ca0fed15a10cfa75c2b47e731ce0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61021035567a4df1ec049f0fdf9bcc21.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61021035567a4df1ec049f0fdf9bcc21.png
new file mode 100644
index 00000000..7204070a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61021035567a4df1ec049f0fdf9bcc21.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61396a5662776ce8c39d6b689a7458a2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61396a5662776ce8c39d6b689a7458a2.png
new file mode 100644
index 00000000..0a4a57ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61396a5662776ce8c39d6b689a7458a2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61ea69fa31bf36a272c9c5b22170eee5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61ea69fa31bf36a272c9c5b22170eee5.png
new file mode 100644
index 00000000..46d6643a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/61ea69fa31bf36a272c9c5b22170eee5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/62046736e5f72833e9d656b75320697b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/62046736e5f72833e9d656b75320697b.png
new file mode 100644
index 00000000..2f8d17cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/62046736e5f72833e9d656b75320697b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/65a8241e927a9846f05122543e0a380c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/65a8241e927a9846f05122543e0a380c.png
new file mode 100644
index 00000000..6f908fcc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/65a8241e927a9846f05122543e0a380c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6930b04814efddf8ea4561e2f337bbb7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6930b04814efddf8ea4561e2f337bbb7.png
new file mode 100644
index 00000000..5ab50795
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6930b04814efddf8ea4561e2f337bbb7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/69bc4daad92e36575011ff9abc5c3148.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/69bc4daad92e36575011ff9abc5c3148.png
new file mode 100644
index 00000000..fbd6dd74
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/69bc4daad92e36575011ff9abc5c3148.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6a262b3ada6d315c0ff9d176785f0e0d.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6a262b3ada6d315c0ff9d176785f0e0d.png
new file mode 100644
index 00000000..fbaec69e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6a262b3ada6d315c0ff9d176785f0e0d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6c46b862ce9d1df0fbb63b7a2119d0da.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6c46b862ce9d1df0fbb63b7a2119d0da.png
new file mode 100644
index 00000000..d646d35e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6c46b862ce9d1df0fbb63b7a2119d0da.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6c6fc0a24ef67423bf220cf0bbf9756e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6c6fc0a24ef67423bf220cf0bbf9756e.png
new file mode 100644
index 00000000..05e8593c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/6c6fc0a24ef67423bf220cf0bbf9756e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-1.png
new file mode 100644
index 00000000..484c8dda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-10.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-10.png
new file mode 100644
index 00000000..51ec930c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-11.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-11.png
new file mode 100644
index 00000000..e0fff629
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-12.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-12.png
new file mode 100644
index 00000000..3c69ec2b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-13.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-13.png
new file mode 100644
index 00000000..47bb9d65
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-14.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-14.png
new file mode 100644
index 00000000..ea07e1d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-15.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-15.png
new file mode 100644
index 00000000..83366c22
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-2.png
new file mode 100644
index 00000000..9cbe7ff9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-3.png
new file mode 100644
index 00000000..bea5dc71
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-4.png
new file mode 100644
index 00000000..c5953314
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-5.png
new file mode 100644
index 00000000..f2b18599
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-6.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-6.png
new file mode 100644
index 00000000..7f662932
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-7.png
new file mode 100644
index 00000000..0dad8597
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-8.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-8.png
new file mode 100644
index 00000000..c54280a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-9.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-9.png
new file mode 100644
index 00000000..b6308124
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7-9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/705ce126c849c9078d22c2ac2db0c816.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/705ce126c849c9078d22c2ac2db0c816.png
new file mode 100644
index 00000000..9c1c49a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/705ce126c849c9078d22c2ac2db0c816.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/70745cb802d7baf094598d9d5a61e02b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/70745cb802d7baf094598d9d5a61e02b.png
new file mode 100644
index 00000000..6cd9f869
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/70745cb802d7baf094598d9d5a61e02b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/72fdd58c55d8462c0c695b6df3439cd2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/72fdd58c55d8462c0c695b6df3439cd2.png
new file mode 100644
index 00000000..c49381f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/72fdd58c55d8462c0c695b6df3439cd2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/731f1ffe649c5a195ed46439968d7a21.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/731f1ffe649c5a195ed46439968d7a21.png
new file mode 100644
index 00000000..cee6f2e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/731f1ffe649c5a195ed46439968d7a21.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/740eb69bb6b3b4e1ca5891bd3ff61dcd.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/740eb69bb6b3b4e1ca5891bd3ff61dcd.png
new file mode 100644
index 00000000..460a896b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/740eb69bb6b3b4e1ca5891bd3ff61dcd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7412ce440bf5c79fe186f415e7206c4b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7412ce440bf5c79fe186f415e7206c4b.png
new file mode 100644
index 00000000..bf724d38
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7412ce440bf5c79fe186f415e7206c4b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/742bbcc20165cd543798934f27e16a25.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/742bbcc20165cd543798934f27e16a25.png
new file mode 100644
index 00000000..be80e207
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/742bbcc20165cd543798934f27e16a25.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/752d98a79871d001835f8948d8b75626.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/752d98a79871d001835f8948d8b75626.png
new file mode 100644
index 00000000..27eb7964
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/752d98a79871d001835f8948d8b75626.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/78466770b5545a60f095cf74e6fa499f.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/78466770b5545a60f095cf74e6fa499f.png
new file mode 100644
index 00000000..89b8cac3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/78466770b5545a60f095cf74e6fa499f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7b57b1ce0ad32e3981d5bdcdc2562cfb.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7b57b1ce0ad32e3981d5bdcdc2562cfb.png
new file mode 100644
index 00000000..7d315f3b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7b57b1ce0ad32e3981d5bdcdc2562cfb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7c9060e3ee9cbc624bfadb3ac589452a.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7c9060e3ee9cbc624bfadb3ac589452a.png
new file mode 100644
index 00000000..c733e747
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7c9060e3ee9cbc624bfadb3ac589452a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7d054b04b86f7184d742ce4fd79ae23e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7d054b04b86f7184d742ce4fd79ae23e.png
new file mode 100644
index 00000000..24c3aee3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7d054b04b86f7184d742ce4fd79ae23e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7e1d1065962801dc9e1b58f720a95b95.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7e1d1065962801dc9e1b58f720a95b95.png
new file mode 100644
index 00000000..58ed2724
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/7e1d1065962801dc9e1b58f720a95b95.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-1.gif
new file mode 100644
index 00000000..84708b0c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-10.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-10.jpeg
new file mode 100644
index 00000000..af3c0534
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-10.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-11.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-11.jpeg
new file mode 100644
index 00000000..736f79f5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-11.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-12.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-12.jpeg
new file mode 100644
index 00000000..f5968b4e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-12.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-13.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-13.jpeg
new file mode 100644
index 00000000..6dc54812
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-13.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-2.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-2.jpeg
new file mode 100644
index 00000000..97b9e165
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-2.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-3.gif
new file mode 100644
index 00000000..3e270a50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-4.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-4.jpeg
new file mode 100644
index 00000000..b485163a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-4.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-5.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-5.jpeg
new file mode 100644
index 00000000..75ee72f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-5.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-6.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-6.jpeg
new file mode 100644
index 00000000..9baed279
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-6.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-7.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-7.jpeg
new file mode 100644
index 00000000..c053bb66
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-7.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-8.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-8.jpeg
new file mode 100644
index 00000000..b2e579a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-8.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-9.gif
new file mode 100644
index 00000000..f0751d93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8-9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/82618679ef99649bba8f9407ce01dce0.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/82618679ef99649bba8f9407ce01dce0.png
new file mode 100644
index 00000000..8f97196e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/82618679ef99649bba8f9407ce01dce0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/82cf639e39f8ba1675452c87a4915ee6.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/82cf639e39f8ba1675452c87a4915ee6.png
new file mode 100644
index 00000000..e45f27b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/82cf639e39f8ba1675452c87a4915ee6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/846587ae7e6e134d83820799df97c11c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/846587ae7e6e134d83820799df97c11c.png
new file mode 100644
index 00000000..4f7e645b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/846587ae7e6e134d83820799df97c11c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/847ef99a515939c6266e9a184ac7e061.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/847ef99a515939c6266e9a184ac7e061.png
new file mode 100644
index 00000000..e0c1b5e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/847ef99a515939c6266e9a184ac7e061.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/84f8b1f35d7af4b1e2321b25be6f00d9.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/84f8b1f35d7af4b1e2321b25be6f00d9.png
new file mode 100644
index 00000000..28619738
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/84f8b1f35d7af4b1e2321b25be6f00d9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/86424dc7bed03e26a159be77a1f3fc8a.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/86424dc7bed03e26a159be77a1f3fc8a.png
new file mode 100644
index 00000000..3d0b1253
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/86424dc7bed03e26a159be77a1f3fc8a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/88b23fdb63cdd70654407af7710c0ff3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/88b23fdb63cdd70654407af7710c0ff3.png
new file mode 100644
index 00000000..bb1f8c88
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/88b23fdb63cdd70654407af7710c0ff3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8927089f0bc8298e27741f5af59dfc9a.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8927089f0bc8298e27741f5af59dfc9a.png
new file mode 100644
index 00000000..23fd6d94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8927089f0bc8298e27741f5af59dfc9a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8b2cbad5c6f932fabbea3c87de926f8c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8b2cbad5c6f932fabbea3c87de926f8c.png
new file mode 100644
index 00000000..60d2ef75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8b2cbad5c6f932fabbea3c87de926f8c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8d10a31df92b1efadc78aa7882e885c0.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8d10a31df92b1efadc78aa7882e885c0.png
new file mode 100644
index 00000000..1fccca06
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8d10a31df92b1efadc78aa7882e885c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8e74c04e2cf79da0bcb497fc4104165b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8e74c04e2cf79da0bcb497fc4104165b.png
new file mode 100644
index 00000000..b117915b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/8e74c04e2cf79da0bcb497fc4104165b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9273964ee58f08a1c76543fe9af21c40.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9273964ee58f08a1c76543fe9af21c40.png
new file mode 100644
index 00000000..07ec4f02
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9273964ee58f08a1c76543fe9af21c40.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/933d62a2cdc32ff32119b5c6f49fe0aa.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/933d62a2cdc32ff32119b5c6f49fe0aa.png
new file mode 100644
index 00000000..2e7749bb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/933d62a2cdc32ff32119b5c6f49fe0aa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9356aa31cd291c52120abee2144cfcae.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9356aa31cd291c52120abee2144cfcae.png
new file mode 100644
index 00000000..f23f8f58
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9356aa31cd291c52120abee2144cfcae.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/93692150431464017b2aa57680078626.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/93692150431464017b2aa57680078626.png
new file mode 100644
index 00000000..193e0c30
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/93692150431464017b2aa57680078626.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/960ad6cb8f62372ccc2e0c4ff21086c5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/960ad6cb8f62372ccc2e0c4ff21086c5.png
new file mode 100644
index 00000000..22b337c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/960ad6cb8f62372ccc2e0c4ff21086c5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9679c67f28c8b2370252dc5cc7a45e61.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9679c67f28c8b2370252dc5cc7a45e61.png
new file mode 100644
index 00000000..d5c2815a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9679c67f28c8b2370252dc5cc7a45e61.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/96a7a903ca020a64ae2a2e839ff98ac1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/96a7a903ca020a64ae2a2e839ff98ac1.png
new file mode 100644
index 00000000..a6942ce4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/96a7a903ca020a64ae2a2e839ff98ac1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/985333efac30ef4820604c390d9eafe7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/985333efac30ef4820604c390d9eafe7.png
new file mode 100644
index 00000000..1c18e5c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/985333efac30ef4820604c390d9eafe7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9935a83795d8a9d10bd8a9a4e2bd38b4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9935a83795d8a9d10bd8a9a4e2bd38b4.png
new file mode 100644
index 00000000..355984df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9935a83795d8a9d10bd8a9a4e2bd38b4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/99c49d49a8324a8705b352475bdebb99.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/99c49d49a8324a8705b352475bdebb99.png
new file mode 100644
index 00000000..59678b17
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/99c49d49a8324a8705b352475bdebb99.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9ad985f2b4bccf71e4a9c725ecf4ec15.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9ad985f2b4bccf71e4a9c725ecf4ec15.png
new file mode 100644
index 00000000..f63a8c13
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9ad985f2b4bccf71e4a9c725ecf4ec15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9b8b08eec5802fc9b8cd0ef0e9ef4749.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9b8b08eec5802fc9b8cd0ef0e9ef4749.png
new file mode 100644
index 00000000..a8857dc7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9b8b08eec5802fc9b8cd0ef0e9ef4749.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9c4064e756336368c95389ec2207d60e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9c4064e756336368c95389ec2207d60e.png
new file mode 100644
index 00000000..b898cc19
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9c4064e756336368c95389ec2207d60e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9d0264c50edd8889585061a046bd0d94.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9d0264c50edd8889585061a046bd0d94.png
new file mode 100644
index 00000000..fe24add2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9d0264c50edd8889585061a046bd0d94.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e3e02ea9caa5692e6a4ac2c14d5c68a.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e3e02ea9caa5692e6a4ac2c14d5c68a.png
new file mode 100644
index 00000000..d9e0516e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e3e02ea9caa5692e6a4ac2c14d5c68a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e43937b9646d83d482aadfa7779800b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e43937b9646d83d482aadfa7779800b.png
new file mode 100644
index 00000000..68a03bbe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e43937b9646d83d482aadfa7779800b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e4747d2c0ff968eaa1b365b686a336b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e4747d2c0ff968eaa1b365b686a336b.png
new file mode 100644
index 00000000..25426778
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9e4747d2c0ff968eaa1b365b686a336b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9f09459a06afa5db90aaeb9f2e4f3082.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9f09459a06afa5db90aaeb9f2e4f3082.png
new file mode 100644
index 00000000..beafbf9d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/9f09459a06afa5db90aaeb9f2e4f3082.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-1.png
new file mode 100644
index 00000000..1fa187d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-2.png
new file mode 100644
index 00000000..2d4f2baa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-3.png
new file mode 100644
index 00000000..51793787
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/D-3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-1.png
new file mode 100644
index 00000000..5ea1d49d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-2.png
new file mode 100644
index 00000000..00353567
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-3.png
new file mode 100644
index 00000000..50431acd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-4.png
new file mode 100644
index 00000000..bf544149
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E7-4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-1.png
new file mode 100644
index 00000000..0c71408c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-2.png
new file mode 100644
index 00000000..eaaf0b34
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-3.png
new file mode 100644
index 00000000..cce58624
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-4.png
new file mode 100644
index 00000000..aa54c034
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-5.png
new file mode 100644
index 00000000..6b33c1d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_C-5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-1.png
new file mode 100644
index 00000000..e77ca456
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-2.png
new file mode 100644
index 00000000..765ec9f7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-3.png
new file mode 100644
index 00000000..35514280
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-4.png
new file mode 100644
index 00000000..ac50a248
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/E_D-4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/Figure6-1.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/Figure6-1.jpeg
new file mode 100644
index 00000000..219ff2ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/Figure6-1.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/Figure6-2.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/Figure6-2.jpeg
new file mode 100644
index 00000000..87fd7531
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/Figure6-2.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/a448b0d1e942484bff4a067c11441c2e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/a448b0d1e942484bff4a067c11441c2e.png
new file mode 100644
index 00000000..c0c768f6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/a448b0d1e942484bff4a067c11441c2e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/a83b3a515cc64f90660ae88f90fa182c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/a83b3a515cc64f90660ae88f90fa182c.png
new file mode 100644
index 00000000..4afeb399
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/a83b3a515cc64f90660ae88f90fa182c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aa3b950c85c9c9474f98029f6a560299.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aa3b950c85c9c9474f98029f6a560299.png
new file mode 100644
index 00000000..71e42314
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aa3b950c85c9c9474f98029f6a560299.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aab855f0497733e2538898f315c77ee0.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aab855f0497733e2538898f315c77ee0.png
new file mode 100644
index 00000000..cc879b80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aab855f0497733e2538898f315c77ee0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/acf2a9237ecb262a52ef4b6c9c5e8342.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/acf2a9237ecb262a52ef4b6c9c5e8342.png
new file mode 100644
index 00000000..188a33dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/acf2a9237ecb262a52ef4b6c9c5e8342.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ae4176d0ecf0ecc5988b0df6135bbf41.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ae4176d0ecf0ecc5988b0df6135bbf41.png
new file mode 100644
index 00000000..ce1fa250
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ae4176d0ecf0ecc5988b0df6135bbf41.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aef8aa3fde805533d8461794f1548f17.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aef8aa3fde805533d8461794f1548f17.png
new file mode 100644
index 00000000..03d02e2f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/aef8aa3fde805533d8461794f1548f17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/af4e9189c90e23bbc1c7cf3c2cfce916.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/af4e9189c90e23bbc1c7cf3c2cfce916.png
new file mode 100644
index 00000000..19991cd7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/af4e9189c90e23bbc1c7cf3c2cfce916.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b0c2332159c7667a25fa472ccf848991.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b0c2332159c7667a25fa472ccf848991.png
new file mode 100644
index 00000000..754b254b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b0c2332159c7667a25fa472ccf848991.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b0edd14407d966c873df644d3df97d67.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b0edd14407d966c873df644d3df97d67.png
new file mode 100644
index 00000000..ab641bce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b0edd14407d966c873df644d3df97d67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b233f77d24ba573df38c4a3b18fccc83.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b233f77d24ba573df38c4a3b18fccc83.png
new file mode 100644
index 00000000..bbbf8f27
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b233f77d24ba573df38c4a3b18fccc83.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b36a6bb4d3a0783b1bc2bdcfe475e592.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b36a6bb4d3a0783b1bc2bdcfe475e592.png
new file mode 100644
index 00000000..a26af041
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b36a6bb4d3a0783b1bc2bdcfe475e592.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b4d7204c8951f031bb07881b68cd5d69.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b4d7204c8951f031bb07881b68cd5d69.png
new file mode 100644
index 00000000..8f6ade59
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b4d7204c8951f031bb07881b68cd5d69.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b7cf5f4b88423548bd4b1775676b71ad.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b7cf5f4b88423548bd4b1775676b71ad.png
new file mode 100644
index 00000000..85782be8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/b7cf5f4b88423548bd4b1775676b71ad.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ba4f57f77b996e8f6f4844c4f935ca12.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ba4f57f77b996e8f6f4844c4f935ca12.png
new file mode 100644
index 00000000..35d9b167
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ba4f57f77b996e8f6f4844c4f935ca12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/badf1fc4a72057ccfdc1b3ebb4116f54.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/badf1fc4a72057ccfdc1b3ebb4116f54.png
new file mode 100644
index 00000000..b5b01766
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/badf1fc4a72057ccfdc1b3ebb4116f54.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/bdcf357db1e204335bf4f557b3cb1d59.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/bdcf357db1e204335bf4f557b3cb1d59.png
new file mode 100644
index 00000000..666f8002
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/bdcf357db1e204335bf4f557b3cb1d59.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/bf0da633070d38a3ca9e531ee8591325.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/bf0da633070d38a3ca9e531ee8591325.png
new file mode 100644
index 00000000..1fe751c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/bf0da633070d38a3ca9e531ee8591325.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c0fb5476c7b4de9a9dd45068826df697.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c0fb5476c7b4de9a9dd45068826df697.png
new file mode 100644
index 00000000..123d4a06
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c0fb5476c7b4de9a9dd45068826df697.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c15e385180dd286f3ba25a73a9dc40cf.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c15e385180dd286f3ba25a73a9dc40cf.png
new file mode 100644
index 00000000..ce73b56b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c15e385180dd286f3ba25a73a9dc40cf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c31153ab45ed5520564b4fc8d2c267a5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c31153ab45ed5520564b4fc8d2c267a5.png
new file mode 100644
index 00000000..bbe9bc98
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c31153ab45ed5520564b4fc8d2c267a5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c3d15058321675d6e485d74efbdfb90f.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c3d15058321675d6e485d74efbdfb90f.png
new file mode 100644
index 00000000..246f98ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c3d15058321675d6e485d74efbdfb90f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c401d47f847b1f110a063fad4fbe91b4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c401d47f847b1f110a063fad4fbe91b4.png
new file mode 100644
index 00000000..07f34bb7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c401d47f847b1f110a063fad4fbe91b4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c7482a9798005dd55876cc837c6919f9.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c7482a9798005dd55876cc837c6919f9.png
new file mode 100644
index 00000000..614715c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/c7482a9798005dd55876cc837c6919f9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cb75024c9c32a08836602eea306e30f6.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cb75024c9c32a08836602eea306e30f6.png
new file mode 100644
index 00000000..b1194d9e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cb75024c9c32a08836602eea306e30f6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cbb644cd149a74ccf3e2b47fe82e5946.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cbb644cd149a74ccf3e2b47fe82e5946.png
new file mode 100644
index 00000000..04153659
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cbb644cd149a74ccf3e2b47fe82e5946.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cc9f24739534a97e494d6cb6522e0f75.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cc9f24739534a97e494d6cb6522e0f75.png
new file mode 100644
index 00000000..8b8b3325
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cc9f24739534a97e494d6cb6522e0f75.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cdee2dcc8d620310d86fa491e3ea8ffa.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cdee2dcc8d620310d86fa491e3ea8ffa.png
new file mode 100644
index 00000000..e4e7ca45
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/cdee2dcc8d620310d86fa491e3ea8ffa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ce4113dd8fcc00d438bf023e8d1a9342.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ce4113dd8fcc00d438bf023e8d1a9342.png
new file mode 100644
index 00000000..9900a689
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ce4113dd8fcc00d438bf023e8d1a9342.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.1.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.1.jpeg
new file mode 100644
index 00000000..cb5f5307
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.1.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.10.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.10.jpeg
new file mode 100644
index 00000000..069da615
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.10.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.11.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.11.jpeg
new file mode 100644
index 00000000..3223e830
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.11.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.12.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.12.jpeg
new file mode 100644
index 00000000..8300ec00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.12.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.2.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.2.jpeg
new file mode 100644
index 00000000..fbeb4f07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.2.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.3-3.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.3-3.jpeg
new file mode 100644
index 00000000..9dbf70d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.3-3.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.3.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.3.jpeg
new file mode 100644
index 00000000..c54457de
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.3.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.4.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.4.jpeg
new file mode 100644
index 00000000..cfee64cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.4.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.5.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.5.jpeg
new file mode 100644
index 00000000..dae007a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.5.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.6.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.6.jpeg
new file mode 100644
index 00000000..50b814da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.6.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.7.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.7.jpeg
new file mode 100644
index 00000000..f3465ae1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.7.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.8.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.8.jpeg
new file mode 100644
index 00000000..1a5606ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.8.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.9.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.9.jpeg
new file mode 100644
index 00000000..da269206
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/chapter3.9.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d042bd08d28fcf0eebb6b1d517815272.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d042bd08d28fcf0eebb6b1d517815272.png
new file mode 100644
index 00000000..96908f4c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d042bd08d28fcf0eebb6b1d517815272.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d266d195275e029dad1b4eac72a5c0a8.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d266d195275e029dad1b4eac72a5c0a8.png
new file mode 100644
index 00000000..7740ae79
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d266d195275e029dad1b4eac72a5c0a8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d5f9db0affd89ffcdff375f22b299eac.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d5f9db0affd89ffcdff375f22b299eac.png
new file mode 100644
index 00000000..ffbea925
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d5f9db0affd89ffcdff375f22b299eac.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d60bca82f536fee2404c573dc5d3bca4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d60bca82f536fee2404c573dc5d3bca4.png
new file mode 100644
index 00000000..41b1bc34
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d60bca82f536fee2404c573dc5d3bca4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d644e896b4f43cb67ea5f6f6503e951e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d644e896b4f43cb67ea5f6f6503e951e.png
new file mode 100644
index 00000000..d31ed1a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d644e896b4f43cb67ea5f6f6503e951e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d726c67a612e5268f2123baf0d028222.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d726c67a612e5268f2123baf0d028222.png
new file mode 100644
index 00000000..ae4d5e8a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d726c67a612e5268f2123baf0d028222.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d7443d0746089d25be43288b9e6d508b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d7443d0746089d25be43288b9e6d508b.png
new file mode 100644
index 00000000..da76c716
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d7443d0746089d25be43288b9e6d508b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d94e1afbe24244563a6b170bfbba856f.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d94e1afbe24244563a6b170bfbba856f.png
new file mode 100644
index 00000000..f3ac7119
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/d94e1afbe24244563a6b170bfbba856f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/da86f27b01eca3491106da5569f29e04.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/da86f27b01eca3491106da5569f29e04.png
new file mode 100644
index 00000000..0e839fb6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/da86f27b01eca3491106da5569f29e04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/dcde16e26dd91d0552c1e119c1fcee1e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/dcde16e26dd91d0552c1e119c1fcee1e.png
new file mode 100644
index 00000000..4fa40a38
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/dcde16e26dd91d0552c1e119c1fcee1e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-2-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-2-1.png
new file mode 100644
index 00000000..41c78348
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-2-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-2-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-2-2.png
new file mode 100644
index 00000000..e6d01d42
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-2-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-1.gif
new file mode 100644
index 00000000..69172216
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-2.gif
new file mode 100644
index 00000000..7d2e09a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-3.gif
new file mode 100644
index 00000000..7e0957ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e-8-3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e0eb54c5b8f1e5d4478563c7ca16099b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e0eb54c5b8f1e5d4478563c7ca16099b.png
new file mode 100644
index 00000000..fbb866e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e0eb54c5b8f1e5d4478563c7ca16099b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e1164025bf4d1574c990179521e33998.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e1164025bf4d1574c990179521e33998.png
new file mode 100644
index 00000000..1fc0a159
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e1164025bf4d1574c990179521e33998.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e1c5056018311d2d634662688689ce77.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e1c5056018311d2d634662688689ce77.png
new file mode 100644
index 00000000..9fed6b2c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e1c5056018311d2d634662688689ce77.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e21ae4dd116512c19b7838f18c210a5f.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e21ae4dd116512c19b7838f18c210a5f.png
new file mode 100644
index 00000000..2e0cd269
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e21ae4dd116512c19b7838f18c210a5f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e3e8c55fa98dd5af8dbe24fcd08d7dca.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e3e8c55fa98dd5af8dbe24fcd08d7dca.png
new file mode 100644
index 00000000..b6fb0309
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e3e8c55fa98dd5af8dbe24fcd08d7dca.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e40be2d92991f7daafc0b96699a9208e.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e40be2d92991f7daafc0b96699a9208e.png
new file mode 100644
index 00000000..e7a05577
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e40be2d92991f7daafc0b96699a9208e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e6301e8ec35adb6618df0c051f883dce.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e6301e8ec35adb6618df0c051f883dce.png
new file mode 100644
index 00000000..670f52a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/e6301e8ec35adb6618df0c051f883dce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ea880ddede4144bbb1306b3eb213c234.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ea880ddede4144bbb1306b3eb213c234.png
new file mode 100644
index 00000000..cdafc821
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ea880ddede4144bbb1306b3eb213c234.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eb08159cc0b817249b84df1f4e75fad9.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eb08159cc0b817249b84df1f4e75fad9.png
new file mode 100644
index 00000000..4516c05b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eb08159cc0b817249b84df1f4e75fad9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ec64067740737eaef3b1e27ef0792569.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ec64067740737eaef3b1e27ef0792569.png
new file mode 100644
index 00000000..fae5c2b5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ec64067740737eaef3b1e27ef0792569.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ecc26257570ef444e6a1ce1029e7f307.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ecc26257570ef444e6a1ce1029e7f307.png
new file mode 100644
index 00000000..add5a0a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ecc26257570ef444e6a1ce1029e7f307.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ecd96bc2ba1661dff5a3445d218df57c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ecd96bc2ba1661dff5a3445d218df57c.png
new file mode 100644
index 00000000..194bfc43
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ecd96bc2ba1661dff5a3445d218df57c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ed0c3d9af331e1630b0d6051a6899d01.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ed0c3d9af331e1630b0d6051a6899d01.png
new file mode 100644
index 00000000..74e994df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/ed0c3d9af331e1630b0d6051a6899d01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-10.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-10.gif
new file mode 100644
index 00000000..044c014b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-10.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-11.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-11.gif
new file mode 100644
index 00000000..11ffb3a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-11.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-12.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-12.gif
new file mode 100644
index 00000000..8626a797
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-12.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-13.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-13.gif
new file mode 100644
index 00000000..44b6c650
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-13.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-2.gif
new file mode 100644
index 00000000..30cea2d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-3.gif
new file mode 100644
index 00000000..18b4807a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-4.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-4.gif
new file mode 100644
index 00000000..7e7391e9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-5.gif
new file mode 100644
index 00000000..e8ffa686
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-6.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-6.gif
new file mode 100644
index 00000000..5dd9f0a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-7.gif
new file mode 100644
index 00000000..505244cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-8.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-8.gif
new file mode 100644
index 00000000..223b1b54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-9.gif
new file mode 100644
index 00000000..1d4198a0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/eq-5-9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f21d83b3ffce7b130d6c79c4966ee2b1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f21d83b3ffce7b130d6c79c4966ee2b1.png
new file mode 100644
index 00000000..360284b1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f21d83b3ffce7b130d6c79c4966ee2b1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f34c84521431cd5e8f8fef8b5bd31c64.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f34c84521431cd5e8f8fef8b5bd31c64.png
new file mode 100644
index 00000000..62cc0edc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f34c84521431cd5e8f8fef8b5bd31c64.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f40d22d847ea7561418001c057fb9ae7.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f40d22d847ea7561418001c057fb9ae7.png
new file mode 100644
index 00000000..0405e288
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f40d22d847ea7561418001c057fb9ae7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f4ffcbb836de51fac9c67bb2c4970800.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f4ffcbb836de51fac9c67bb2c4970800.png
new file mode 100644
index 00000000..bc132588
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f4ffcbb836de51fac9c67bb2c4970800.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f6a5a9fd4fc924ba834057120eaa930b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f6a5a9fd4fc924ba834057120eaa930b.png
new file mode 100644
index 00000000..c2e7c61e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f6a5a9fd4fc924ba834057120eaa930b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f8b8fdfbaf932d63888e504c03fef03b.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f8b8fdfbaf932d63888e504c03fef03b.png
new file mode 100644
index 00000000..a3e65bc5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/f8b8fdfbaf932d63888e504c03fef03b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fc72779301071ddc44cc9423b21732bc.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fc72779301071ddc44cc9423b21732bc.png
new file mode 100644
index 00000000..23cc1f2d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fc72779301071ddc44cc9423b21732bc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe4033ba5308d2443fab436092a33e41.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe4033ba5308d2443fab436092a33e41.png
new file mode 100644
index 00000000..6e4405a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe4033ba5308d2443fab436092a33e41.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe737b76bf82eb5257edbe16a3d506f5.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe737b76bf82eb5257edbe16a3d506f5.png
new file mode 100644
index 00000000..8eac0b12
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe737b76bf82eb5257edbe16a3d506f5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe7f4176b6c449159a825ec3aacfe79c.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe7f4176b6c449159a825ec3aacfe79c.png
new file mode 100644
index 00000000..aad3a7de
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/fe7f4176b6c449159a825ec3aacfe79c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-1-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-1-1.png
new file mode 100644
index 00000000..793835ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-1-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-1.png
new file mode 100644
index 00000000..048fcb84
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-2.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-2.png
new file mode 100644
index 00000000..912e5718
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-3.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-3.png
new file mode 100644
index 00000000..f898bd28
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-4.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-4.png
new file mode 100644
index 00000000..09bbc91e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/o-2-4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/t-1-1.png b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/t-1-1.png
new file mode 100644
index 00000000..5ce53d03
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/t-1-1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tb-5-1.jpg b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tb-5-1.jpg
new file mode 100644
index 00000000..af55f8ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tb-5-1.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-003d289de50330b0e7b49f10b89376a1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-003d289de50330b0e7b49f10b89376a1.gif
new file mode 100644
index 00000000..b4acca3d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-003d289de50330b0e7b49f10b89376a1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-01f3c699a2735a0d9a7311d672fd676c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-01f3c699a2735a0d9a7311d672fd676c.gif
new file mode 100644
index 00000000..45d7238a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-01f3c699a2735a0d9a7311d672fd676c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-02129bb861061d1a052c592e2dc6b383.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-02129bb861061d1a052c592e2dc6b383.gif
new file mode 100644
index 00000000..55cbb7f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-02129bb861061d1a052c592e2dc6b383.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-03549015bd48d379883d926e6857b448.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-03549015bd48d379883d926e6857b448.gif
new file mode 100644
index 00000000..13a55981
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-03549015bd48d379883d926e6857b448.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-046a5ffa6a06b4da61d932c172876785.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-046a5ffa6a06b4da61d932c172876785.gif
new file mode 100644
index 00000000..7db6dfa9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-046a5ffa6a06b4da61d932c172876785.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-05e42209d67fe1eb15a055e9d3b3770e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-05e42209d67fe1eb15a055e9d3b3770e.gif
new file mode 100644
index 00000000..d05d5ce4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-05e42209d67fe1eb15a055e9d3b3770e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0678caa04da34220a4e8dc041488b618.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0678caa04da34220a4e8dc041488b618.gif
new file mode 100644
index 00000000..a8e8a781
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0678caa04da34220a4e8dc041488b618.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-06cb4d354d727ce57e41e605967958a6.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-06cb4d354d727ce57e41e605967958a6.gif
new file mode 100644
index 00000000..3cc4d476
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-06cb4d354d727ce57e41e605967958a6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-07be34d7c17f39052675948cb5b75838.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-07be34d7c17f39052675948cb5b75838.gif
new file mode 100644
index 00000000..cea4db7a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-07be34d7c17f39052675948cb5b75838.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-07d3e0eb59fb1b95dc15ecc6cb36a65c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-07d3e0eb59fb1b95dc15ecc6cb36a65c.gif
new file mode 100644
index 00000000..d0463469
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-07d3e0eb59fb1b95dc15ecc6cb36a65c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0813d4c773da5a66df9cb7b0bfbd1b83.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0813d4c773da5a66df9cb7b0bfbd1b83.gif
new file mode 100644
index 00000000..039544ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0813d4c773da5a66df9cb7b0bfbd1b83.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-08954b8bb8bd0acc7ef086b12af7c051.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-08954b8bb8bd0acc7ef086b12af7c051.gif
new file mode 100644
index 00000000..1568b7fe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-08954b8bb8bd0acc7ef086b12af7c051.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-08bc7e7224cfe0e39e04b69d4ed96298.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-08bc7e7224cfe0e39e04b69d4ed96298.gif
new file mode 100644
index 00000000..b12b1968
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-08bc7e7224cfe0e39e04b69d4ed96298.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-091a36c336b9f86ac488b9e8ac0e0ffa.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-091a36c336b9f86ac488b9e8ac0e0ffa.gif
new file mode 100644
index 00000000..a8d96193
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-091a36c336b9f86ac488b9e8ac0e0ffa.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-095a09304bbece2585736594cca6bdbf.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-095a09304bbece2585736594cca6bdbf.gif
new file mode 100644
index 00000000..5722f698
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-095a09304bbece2585736594cca6bdbf.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0a6ec28a2cbecd4689769c2944b222e8.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0a6ec28a2cbecd4689769c2944b222e8.gif
new file mode 100644
index 00000000..264fa3d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0a6ec28a2cbecd4689769c2944b222e8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0b092886509724e44645878e1391a65d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0b092886509724e44645878e1391a65d.gif
new file mode 100644
index 00000000..1b1f29fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0b092886509724e44645878e1391a65d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0d61f8370cad1d412f80b84d143e1257.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0d61f8370cad1d412f80b84d143e1257.gif
new file mode 100644
index 00000000..a66aaf9c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0d61f8370cad1d412f80b84d143e1257.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0e2ae329177722b1818828e92b441032.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0e2ae329177722b1818828e92b441032.gif
new file mode 100644
index 00000000..7779a6e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0e2ae329177722b1818828e92b441032.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0fe16f5f8178c40813008f32155da044.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0fe16f5f8178c40813008f32155da044.gif
new file mode 100644
index 00000000..1e71bfd8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-0fe16f5f8178c40813008f32155da044.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-11096ba55e57b0ba1b35efb241f87569.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-11096ba55e57b0ba1b35efb241f87569.gif
new file mode 100644
index 00000000..cdd50a0a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-11096ba55e57b0ba1b35efb241f87569.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-11b3b872c168f182e8efc0bec2e6a0c5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-11b3b872c168f182e8efc0bec2e6a0c5.gif
new file mode 100644
index 00000000..ba6aac08
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-11b3b872c168f182e8efc0bec2e6a0c5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-12561b9e1cad1ffa385140c6c5cf9c12.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-12561b9e1cad1ffa385140c6c5cf9c12.gif
new file mode 100644
index 00000000..36ea5653
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-12561b9e1cad1ffa385140c6c5cf9c12.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-13a76ab7828e251bd489e22172ce700a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-13a76ab7828e251bd489e22172ce700a.gif
new file mode 100644
index 00000000..6e925b52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-13a76ab7828e251bd489e22172ce700a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-13ada0b94f610ad731b13dd5262af022.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-13ada0b94f610ad731b13dd5262af022.gif
new file mode 100644
index 00000000..c6b7e2ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-13ada0b94f610ad731b13dd5262af022.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1599eafa9c8919b48a73745c7b9a5fc5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1599eafa9c8919b48a73745c7b9a5fc5.gif
new file mode 100644
index 00000000..89a996c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1599eafa9c8919b48a73745c7b9a5fc5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-162751afe7e0aa904426973dbac3654e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-162751afe7e0aa904426973dbac3654e.gif
new file mode 100644
index 00000000..d01303fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-162751afe7e0aa904426973dbac3654e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1721011d2159c98b89cc63e73846d511.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1721011d2159c98b89cc63e73846d511.gif
new file mode 100644
index 00000000..3fe05215
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1721011d2159c98b89cc63e73846d511.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-17227d892ae518eab12eb3f0e596f1a0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-17227d892ae518eab12eb3f0e596f1a0.gif
new file mode 100644
index 00000000..71e5432c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-17227d892ae518eab12eb3f0e596f1a0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-17241d7ea090e8a7be55cacfcd5b2768.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-17241d7ea090e8a7be55cacfcd5b2768.gif
new file mode 100644
index 00000000..8f2bc4b0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-17241d7ea090e8a7be55cacfcd5b2768.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1a3f1413f9e9a5f7fec99ac5f57eed2d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1a3f1413f9e9a5f7fec99ac5f57eed2d.gif
new file mode 100644
index 00000000..91587d86
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1a3f1413f9e9a5f7fec99ac5f57eed2d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1b105b1e9533074584d7bc91d314181d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1b105b1e9533074584d7bc91d314181d.gif
new file mode 100644
index 00000000..53d16287
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1b105b1e9533074584d7bc91d314181d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1bb7df78b5126fbb166bb08b7c137863.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1bb7df78b5126fbb166bb08b7c137863.gif
new file mode 100644
index 00000000..c336aa5a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1bb7df78b5126fbb166bb08b7c137863.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1c5fbe6b94a96589df8cc11e20542e17.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1c5fbe6b94a96589df8cc11e20542e17.gif
new file mode 100644
index 00000000..fd2484af
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1c5fbe6b94a96589df8cc11e20542e17.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1cf5205e2548cc4e0ce9e5343ab1a377.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1cf5205e2548cc4e0ce9e5343ab1a377.gif
new file mode 100644
index 00000000..da46732c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1cf5205e2548cc4e0ce9e5343ab1a377.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1fda7e8979ad0fdf4a2022ee529661d0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1fda7e8979ad0fdf4a2022ee529661d0.gif
new file mode 100644
index 00000000..789bad59
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-1fda7e8979ad0fdf4a2022ee529661d0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2046197f9491e759ad46d9ee09227c01.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2046197f9491e759ad46d9ee09227c01.gif
new file mode 100644
index 00000000..a86ddd33
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2046197f9491e759ad46d9ee09227c01.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-222e2caf9c7b49d3432466e360eceba6.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-222e2caf9c7b49d3432466e360eceba6.gif
new file mode 100644
index 00000000..e96bd7ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-222e2caf9c7b49d3432466e360eceba6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-224150d7a099d199fc7bbb324fee9d18.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-224150d7a099d199fc7bbb324fee9d18.gif
new file mode 100644
index 00000000..b0e51916
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-224150d7a099d199fc7bbb324fee9d18.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-224ba64bbd16cef44085c714ff69b794.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-224ba64bbd16cef44085c714ff69b794.gif
new file mode 100644
index 00000000..73eff24a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-224ba64bbd16cef44085c714ff69b794.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2269a88821d5d3de138b9db0abc1e977.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2269a88821d5d3de138b9db0abc1e977.gif
new file mode 100644
index 00000000..e96c3ff6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2269a88821d5d3de138b9db0abc1e977.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2317793a8de61ab32c0f17adff9ea8d4.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2317793a8de61ab32c0f17adff9ea8d4.gif
new file mode 100644
index 00000000..847115e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2317793a8de61ab32c0f17adff9ea8d4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2381690b73b9410210542c6128e83b96.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2381690b73b9410210542c6128e83b96.gif
new file mode 100644
index 00000000..5a729793
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2381690b73b9410210542c6128e83b96.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-24ff843f62db9062b4bb1fba4040c10f.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-24ff843f62db9062b4bb1fba4040c10f.gif
new file mode 100644
index 00000000..14c1ab38
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-24ff843f62db9062b4bb1fba4040c10f.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2510c39011c5be704182423e3a695e91.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2510c39011c5be704182423e3a695e91.gif
new file mode 100644
index 00000000..bb0058e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2510c39011c5be704182423e3a695e91.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2554a2bb846cffd697389e5dc8912759.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2554a2bb846cffd697389e5dc8912759.gif
new file mode 100644
index 00000000..5509207d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2554a2bb846cffd697389e5dc8912759.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-25d23c777ed15931c5e6af6f459eadd1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-25d23c777ed15931c5e6af6f459eadd1.gif
new file mode 100644
index 00000000..837e47e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-25d23c777ed15931c5e6af6f459eadd1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-278b53f78b9dfab8af68fcc67e05352a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-278b53f78b9dfab8af68fcc67e05352a.gif
new file mode 100644
index 00000000..75bfc346
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-278b53f78b9dfab8af68fcc67e05352a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-27afe5e7581cb89a36bafc735b501d7a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-27afe5e7581cb89a36bafc735b501d7a.gif
new file mode 100644
index 00000000..0f605c14
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-27afe5e7581cb89a36bafc735b501d7a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-28175dc40d9c53d6d2c186a7817cf866.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-28175dc40d9c53d6d2c186a7817cf866.gif
new file mode 100644
index 00000000..0764a6d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-28175dc40d9c53d6d2c186a7817cf866.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2aa447f3144cccc2865e6268c583f0f3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2aa447f3144cccc2865e6268c583f0f3.gif
new file mode 100644
index 00000000..bceab85b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2aa447f3144cccc2865e6268c583f0f3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2af21bba0125e128c29545114eff5254.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2af21bba0125e128c29545114eff5254.gif
new file mode 100644
index 00000000..a2b0f69b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2af21bba0125e128c29545114eff5254.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2b4fc5fcdceb2e12c666415e9ebb793a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2b4fc5fcdceb2e12c666415e9ebb793a.gif
new file mode 100644
index 00000000..6c3f5778
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2b4fc5fcdceb2e12c666415e9ebb793a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2c3db681686c1b080e21688bf57b256a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2c3db681686c1b080e21688bf57b256a.gif
new file mode 100644
index 00000000..7a6b4baf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2c3db681686c1b080e21688bf57b256a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2d275b176c3436e8981c70371f474c9c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2d275b176c3436e8981c70371f474c9c.gif
new file mode 100644
index 00000000..fdbfa080
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2d275b176c3436e8981c70371f474c9c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2ef1c91a9cc8eeb7da8227d4016d702e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2ef1c91a9cc8eeb7da8227d4016d702e.gif
new file mode 100644
index 00000000..6a159fb2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-2ef1c91a9cc8eeb7da8227d4016d702e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-300421691992dc61be5e7d43d5055f48.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-300421691992dc61be5e7d43d5055f48.gif
new file mode 100644
index 00000000..600fd26d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-300421691992dc61be5e7d43d5055f48.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3071526a1b0f8639644eaba81ce73a74.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3071526a1b0f8639644eaba81ce73a74.gif
new file mode 100644
index 00000000..55cbb7f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3071526a1b0f8639644eaba81ce73a74.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-31ba2ac7dbc438cef695358d6e49deb3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-31ba2ac7dbc438cef695358d6e49deb3.gif
new file mode 100644
index 00000000..9e3aa6bf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-31ba2ac7dbc438cef695358d6e49deb3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-31f8dedd0a66fb646ef261c638243923.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-31f8dedd0a66fb646ef261c638243923.gif
new file mode 100644
index 00000000..f34e3d8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-31f8dedd0a66fb646ef261c638243923.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-328b39f0c7d087f501c1f45ed2b361e5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-328b39f0c7d087f501c1f45ed2b361e5.gif
new file mode 100644
index 00000000..ca172386
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-328b39f0c7d087f501c1f45ed2b361e5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-32cb6265eb19ce4be37ecf6650ff766a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-32cb6265eb19ce4be37ecf6650ff766a.gif
new file mode 100644
index 00000000..7366f64a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-32cb6265eb19ce4be37ecf6650ff766a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-33cd333cb7829514ab8458aceea1822f.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-33cd333cb7829514ab8458aceea1822f.gif
new file mode 100644
index 00000000..5b0bc626
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-33cd333cb7829514ab8458aceea1822f.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-34467e055b13f0b121c681019d962b9b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-34467e055b13f0b121c681019d962b9b.gif
new file mode 100644
index 00000000..5995313b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-34467e055b13f0b121c681019d962b9b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-347b979a3eaaf423a7c376ba475f1313.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-347b979a3eaaf423a7c376ba475f1313.gif
new file mode 100644
index 00000000..cb898809
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-347b979a3eaaf423a7c376ba475f1313.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3550fe5e2cae185a9af7235e7f7fb05d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3550fe5e2cae185a9af7235e7f7fb05d.gif
new file mode 100644
index 00000000..523ab32d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3550fe5e2cae185a9af7235e7f7fb05d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-363b122c528f54df4a0446b6bab05515.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-363b122c528f54df4a0446b6bab05515.gif
new file mode 100644
index 00000000..b86d1a7f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-363b122c528f54df4a0446b6bab05515.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-36b0a218756e1ba51470a7bb00b5e592.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-36b0a218756e1ba51470a7bb00b5e592.gif
new file mode 100644
index 00000000..5d4160fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-36b0a218756e1ba51470a7bb00b5e592.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-378b3eaa9c01f52bc8987807984a5a88.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-378b3eaa9c01f52bc8987807984a5a88.gif
new file mode 100644
index 00000000..afd54909
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-378b3eaa9c01f52bc8987807984a5a88.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-388f554901ba5d77339eec8b26beebea.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-388f554901ba5d77339eec8b26beebea.gif
new file mode 100644
index 00000000..87ef8010
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-388f554901ba5d77339eec8b26beebea.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-399b8bab86aa930cdbf5c93b2e3fa818.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-399b8bab86aa930cdbf5c93b2e3fa818.gif
new file mode 100644
index 00000000..7d96e86a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-399b8bab86aa930cdbf5c93b2e3fa818.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3a4d978e6657d768ca9a800d0e1a8130.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3a4d978e6657d768ca9a800d0e1a8130.gif
new file mode 100644
index 00000000..58551fef
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3a4d978e6657d768ca9a800d0e1a8130.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3a877201402d7cd2b9d3f5b726d22b24.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3a877201402d7cd2b9d3f5b726d22b24.gif
new file mode 100644
index 00000000..7a21c332
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3a877201402d7cd2b9d3f5b726d22b24.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3b5f49ee9fe10430f81eeef7000f1b30.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3b5f49ee9fe10430f81eeef7000f1b30.gif
new file mode 100644
index 00000000..b321eb32
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3b5f49ee9fe10430f81eeef7000f1b30.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3b6ed467ca1ae09aeafe40f4b40251c7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3b6ed467ca1ae09aeafe40f4b40251c7.gif
new file mode 100644
index 00000000..90e48825
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3b6ed467ca1ae09aeafe40f4b40251c7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3baf1600ae50930a155f58ae172b51bd.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3baf1600ae50930a155f58ae172b51bd.gif
new file mode 100644
index 00000000..07a42c23
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3baf1600ae50930a155f58ae172b51bd.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3d189a2e226493acc6538bcd3e9cb366.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3d189a2e226493acc6538bcd3e9cb366.gif
new file mode 100644
index 00000000..1a69eaf0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3d189a2e226493acc6538bcd3e9cb366.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3d7e996adfe310516ca31c796df1ce8c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3d7e996adfe310516ca31c796df1ce8c.gif
new file mode 100644
index 00000000..f2cbb838
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3d7e996adfe310516ca31c796df1ce8c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3e0d691f3a530e6c7e079636f20c111b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3e0d691f3a530e6c7e079636f20c111b.gif
new file mode 100644
index 00000000..6be7dab0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3e0d691f3a530e6c7e079636f20c111b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3fd16a45c4fce610740da450e9f5a283.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3fd16a45c4fce610740da450e9f5a283.gif
new file mode 100644
index 00000000..54eccce4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-3fd16a45c4fce610740da450e9f5a283.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-408378e8bc55170258126d10000c53d9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-408378e8bc55170258126d10000c53d9.gif
new file mode 100644
index 00000000..44e71ab1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-408378e8bc55170258126d10000c53d9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-414889b175f816852566907db5edd6a5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-414889b175f816852566907db5edd6a5.gif
new file mode 100644
index 00000000..bbc0a618
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-414889b175f816852566907db5edd6a5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-415290769594460e2e485922904f345d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-415290769594460e2e485922904f345d.gif
new file mode 100644
index 00000000..85626e3a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-415290769594460e2e485922904f345d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-41597a9c5a695c5c787dd1662a8209f8.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-41597a9c5a695c5c787dd1662a8209f8.gif
new file mode 100644
index 00000000..440378fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-41597a9c5a695c5c787dd1662a8209f8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-421556b6c8203ded772656e90a1a570c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-421556b6c8203ded772656e90a1a570c.gif
new file mode 100644
index 00000000..d0fb5e50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-421556b6c8203ded772656e90a1a570c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-421570724060381e95985593de9d77c9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-421570724060381e95985593de9d77c9.gif
new file mode 100644
index 00000000..413bcbd7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-421570724060381e95985593de9d77c9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-43bfb04cdbbd85ad21489e8e2dc853ed.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-43bfb04cdbbd85ad21489e8e2dc853ed.gif
new file mode 100644
index 00000000..a8f552e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-43bfb04cdbbd85ad21489e8e2dc853ed.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-43c5783d36b015e36edeecd60da73206.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-43c5783d36b015e36edeecd60da73206.gif
new file mode 100644
index 00000000..5ae4c448
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-43c5783d36b015e36edeecd60da73206.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4443b7e9e72b482475432b88c0e4fdd8.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4443b7e9e72b482475432b88c0e4fdd8.gif
new file mode 100644
index 00000000..ed59fdab
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4443b7e9e72b482475432b88c0e4fdd8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-44e3acde9f1b11682289b6069b6f2a1f.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-44e3acde9f1b11682289b6069b6f2a1f.gif
new file mode 100644
index 00000000..f6da8faf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-44e3acde9f1b11682289b6069b6f2a1f.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-473ca654ad0c07c3dbc07a22718b1aa3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-473ca654ad0c07c3dbc07a22718b1aa3.gif
new file mode 100644
index 00000000..a2260b8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-473ca654ad0c07c3dbc07a22718b1aa3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-477cbb96bb2678c1997aa41503661c04.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-477cbb96bb2678c1997aa41503661c04.gif
new file mode 100644
index 00000000..d0a5400a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-477cbb96bb2678c1997aa41503661c04.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-47a1cfce155783c735e46b38d6513419.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-47a1cfce155783c735e46b38d6513419.gif
new file mode 100644
index 00000000..519a03d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-47a1cfce155783c735e46b38d6513419.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-49432ed302ad60b5818085cb01e642f1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-49432ed302ad60b5818085cb01e642f1.gif
new file mode 100644
index 00000000..d2e82c36
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-49432ed302ad60b5818085cb01e642f1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4a5d1969fe1ef947082a32d547c247d7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4a5d1969fe1ef947082a32d547c247d7.gif
new file mode 100644
index 00000000..b859596c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4a5d1969fe1ef947082a32d547c247d7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4a7d22b39e93fbbcbe107e7a19e8bd34.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4a7d22b39e93fbbcbe107e7a19e8bd34.gif
new file mode 100644
index 00000000..e73e4023
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4a7d22b39e93fbbcbe107e7a19e8bd34.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b43b0aee35624cd95b910189b3dc231.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b43b0aee35624cd95b910189b3dc231.gif
new file mode 100644
index 00000000..8b45d7d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b43b0aee35624cd95b910189b3dc231.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b7a4c54b57c9297141ab648398f6dfc.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b7a4c54b57c9297141ab648398f6dfc.gif
new file mode 100644
index 00000000..e7939333
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b7a4c54b57c9297141ab648398f6dfc.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b9ba7fdd541374f7e1e0572e6a0be1e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b9ba7fdd541374f7e1e0572e6a0be1e.gif
new file mode 100644
index 00000000..67db2de8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4b9ba7fdd541374f7e1e0572e6a0be1e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4bd72e5d0ad65c82e878dfcf2d29815b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4bd72e5d0ad65c82e878dfcf2d29815b.gif
new file mode 100644
index 00000000..a9b25d94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4bd72e5d0ad65c82e878dfcf2d29815b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4be66ad2cf5c98540db20bd7df0c0413.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4be66ad2cf5c98540db20bd7df0c0413.gif
new file mode 100644
index 00000000..bb7063a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4be66ad2cf5c98540db20bd7df0c0413.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4c5645510c6b63f6bd0c770fceea4ac1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4c5645510c6b63f6bd0c770fceea4ac1.gif
new file mode 100644
index 00000000..74833f44
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4c5645510c6b63f6bd0c770fceea4ac1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4d58b6f45f2e33f3ceb537b2b174c09b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4d58b6f45f2e33f3ceb537b2b174c09b.gif
new file mode 100644
index 00000000..2be8e12d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4d58b6f45f2e33f3ceb537b2b174c09b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4e016baa468f852047bbbc1b171743ac.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4e016baa468f852047bbbc1b171743ac.gif
new file mode 100644
index 00000000..365cdc7b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4e016baa468f852047bbbc1b171743ac.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4ea0442e4bfe65a2c6cc6c5be89101ae.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4ea0442e4bfe65a2c6cc6c5be89101ae.gif
new file mode 100644
index 00000000..38998308
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4ea0442e4bfe65a2c6cc6c5be89101ae.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4f717d5e747701b3301e39c21191ae17.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4f717d5e747701b3301e39c21191ae17.gif
new file mode 100644
index 00000000..e4f173e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-4f717d5e747701b3301e39c21191ae17.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5034ed18fa4c81ee7bc176f0a4cbab80.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5034ed18fa4c81ee7bc176f0a4cbab80.gif
new file mode 100644
index 00000000..d2f173a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5034ed18fa4c81ee7bc176f0a4cbab80.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-50eeccb6ef846e2d0af5daef5cab1fa0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-50eeccb6ef846e2d0af5daef5cab1fa0.gif
new file mode 100644
index 00000000..32442cbd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-50eeccb6ef846e2d0af5daef5cab1fa0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-50f17e5c11d610b19c0471830dc4dda1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-50f17e5c11d610b19c0471830dc4dda1.gif
new file mode 100644
index 00000000..1ec6e06e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-50f17e5c11d610b19c0471830dc4dda1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-53e90522ca559971bb2d9d6009b82a44.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-53e90522ca559971bb2d9d6009b82a44.gif
new file mode 100644
index 00000000..2c03dc0b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-53e90522ca559971bb2d9d6009b82a44.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-53eba210fc14ef60860265ec70fb718d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-53eba210fc14ef60860265ec70fb718d.gif
new file mode 100644
index 00000000..bc713baf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-53eba210fc14ef60860265ec70fb718d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-54552e28fe2d86eb74de3db6abb5aab8.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-54552e28fe2d86eb74de3db6abb5aab8.gif
new file mode 100644
index 00000000..5b9b1924
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-54552e28fe2d86eb74de3db6abb5aab8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5471cac883ad5dad10d1cc1d7348aafb.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5471cac883ad5dad10d1cc1d7348aafb.gif
new file mode 100644
index 00000000..8eeb364a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5471cac883ad5dad10d1cc1d7348aafb.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-56662b2579440b8c9f02e9c09b8b021d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-56662b2579440b8c9f02e9c09b8b021d.gif
new file mode 100644
index 00000000..dcc95b87
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-56662b2579440b8c9f02e9c09b8b021d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-56ac14615d54896bf04d40cde6bc37f7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-56ac14615d54896bf04d40cde6bc37f7.gif
new file mode 100644
index 00000000..d90115c3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-56ac14615d54896bf04d40cde6bc37f7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5869b95a3404e737433d626520200848.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5869b95a3404e737433d626520200848.gif
new file mode 100644
index 00000000..b23ad40f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5869b95a3404e737433d626520200848.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-588e5b81fdcbbd6dd55e2195663fab41.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-588e5b81fdcbbd6dd55e2195663fab41.gif
new file mode 100644
index 00000000..ccbb0bcf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-588e5b81fdcbbd6dd55e2195663fab41.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-589d5ea135d64a89f9293ab5186fc53a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-589d5ea135d64a89f9293ab5186fc53a.gif
new file mode 100644
index 00000000..709c5e24
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-589d5ea135d64a89f9293ab5186fc53a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-595a140c599de3ceab7b72d4aaab8a41.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-595a140c599de3ceab7b72d4aaab8a41.gif
new file mode 100644
index 00000000..dde937d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-595a140c599de3ceab7b72d4aaab8a41.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-595b3d916d7b666f7cec8f222f665759.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-595b3d916d7b666f7cec8f222f665759.gif
new file mode 100644
index 00000000..92d119e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-595b3d916d7b666f7cec8f222f665759.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5b9a77af89d04a685b4f649da485aed3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5b9a77af89d04a685b4f649da485aed3.gif
new file mode 100644
index 00000000..8008328a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5b9a77af89d04a685b4f649da485aed3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c180c9b9130b5dacda464ca73ee8f1e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c180c9b9130b5dacda464ca73ee8f1e.gif
new file mode 100644
index 00000000..a0b4d408
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c180c9b9130b5dacda464ca73ee8f1e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c3b6b00cffc9732138715003b0e557a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c3b6b00cffc9732138715003b0e557a.gif
new file mode 100644
index 00000000..a94dbbaa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c3b6b00cffc9732138715003b0e557a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c71c1287e7a6b8fef19874c553b0cd4.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c71c1287e7a6b8fef19874c553b0cd4.gif
new file mode 100644
index 00000000..d358d7d1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5c71c1287e7a6b8fef19874c553b0cd4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5d022250e1ef8945ce55d4aad010e47e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5d022250e1ef8945ce55d4aad010e47e.gif
new file mode 100644
index 00000000..cfe6735e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5d022250e1ef8945ce55d4aad010e47e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5d28a7ba1a44a73b8c2ed21321697c59.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5d28a7ba1a44a73b8c2ed21321697c59.gif
new file mode 100644
index 00000000..c6b7e2ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5d28a7ba1a44a73b8c2ed21321697c59.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5da22015388cdeacf9c75c3511592953.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5da22015388cdeacf9c75c3511592953.gif
new file mode 100644
index 00000000..cf6e9606
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5da22015388cdeacf9c75c3511592953.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5da5d4cf0bebe9ea96d3fbb2c2fd93ca.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5da5d4cf0bebe9ea96d3fbb2c2fd93ca.gif
new file mode 100644
index 00000000..acb9f8a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5da5d4cf0bebe9ea96d3fbb2c2fd93ca.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5dcd5b36cf658a9fbb13000a4cac6989.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5dcd5b36cf658a9fbb13000a4cac6989.gif
new file mode 100644
index 00000000..1b26b3d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5dcd5b36cf658a9fbb13000a4cac6989.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5dfdb421c5936031346fc0e53a028caf.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5dfdb421c5936031346fc0e53a028caf.gif
new file mode 100644
index 00000000..6d22f7c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5dfdb421c5936031346fc0e53a028caf.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5f344a952e29992de54b8cfe645b2d5b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5f344a952e29992de54b8cfe645b2d5b.gif
new file mode 100644
index 00000000..77842523
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5f344a952e29992de54b8cfe645b2d5b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5f35ce35c210c83604c8edc2fddd1660.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5f35ce35c210c83604c8edc2fddd1660.gif
new file mode 100644
index 00000000..84c6eca0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-5f35ce35c210c83604c8edc2fddd1660.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-616944242afb697770bd2354c57e4773.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-616944242afb697770bd2354c57e4773.gif
new file mode 100644
index 00000000..84727691
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-616944242afb697770bd2354c57e4773.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-61b00d67f0968d7be5bf4b7a3260b1f4.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-61b00d67f0968d7be5bf4b7a3260b1f4.gif
new file mode 100644
index 00000000..6c8d577a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-61b00d67f0968d7be5bf4b7a3260b1f4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-61f8abcb13be8d0a51b2868de491d3a8.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-61f8abcb13be8d0a51b2868de491d3a8.gif
new file mode 100644
index 00000000..963d7276
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-61f8abcb13be8d0a51b2868de491d3a8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-626343cb96bdf9ee8429b7d5d8f4607a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-626343cb96bdf9ee8429b7d5d8f4607a.gif
new file mode 100644
index 00000000..5995313b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-626343cb96bdf9ee8429b7d5d8f4607a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-62b4db05802cc87cf8ed00845ce751af.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-62b4db05802cc87cf8ed00845ce751af.gif
new file mode 100644
index 00000000..7b894eb1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-62b4db05802cc87cf8ed00845ce751af.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-62f824d21d48162194f6ab54c819b0cc.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-62f824d21d48162194f6ab54c819b0cc.gif
new file mode 100644
index 00000000..4f960de0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-62f824d21d48162194f6ab54c819b0cc.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-63b17a82b832b929bd916f01c8a4dadd.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-63b17a82b832b929bd916f01c8a4dadd.gif
new file mode 100644
index 00000000..0a7b4fa4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-63b17a82b832b929bd916f01c8a4dadd.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6499b5277397390a9878a93fa4205525.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6499b5277397390a9878a93fa4205525.gif
new file mode 100644
index 00000000..30a6f2c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6499b5277397390a9878a93fa4205525.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-660caa34698a6b22aaae14095ab6b077.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-660caa34698a6b22aaae14095ab6b077.gif
new file mode 100644
index 00000000..f2193c2c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-660caa34698a6b22aaae14095ab6b077.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-66696a3ef544ca4201af088feb0b911b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-66696a3ef544ca4201af088feb0b911b.gif
new file mode 100644
index 00000000..a1205fc3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-66696a3ef544ca4201af088feb0b911b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6679fc33e499a90a99b97201f4d00ed5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6679fc33e499a90a99b97201f4d00ed5.gif
new file mode 100644
index 00000000..59a3a227
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6679fc33e499a90a99b97201f4d00ed5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-67b68721103b5a16194f4b3e3ec222db.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-67b68721103b5a16194f4b3e3ec222db.gif
new file mode 100644
index 00000000..1a4810c1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-67b68721103b5a16194f4b3e3ec222db.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-68c09d43aa56238535663931cc8887b9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-68c09d43aa56238535663931cc8887b9.gif
new file mode 100644
index 00000000..cbc1ce25
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-68c09d43aa56238535663931cc8887b9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-68f34602f87a1f0669551323e59a17ea.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-68f34602f87a1f0669551323e59a17ea.gif
new file mode 100644
index 00000000..349cacf1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-68f34602f87a1f0669551323e59a17ea.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6984549d7be7b4c4021c370c9411cef3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6984549d7be7b4c4021c370c9411cef3.gif
new file mode 100644
index 00000000..fa1d644e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6984549d7be7b4c4021c370c9411cef3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6a267007228f9f654a0d28dec6932c31.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6a267007228f9f654a0d28dec6932c31.gif
new file mode 100644
index 00000000..eb91cab6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6a267007228f9f654a0d28dec6932c31.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6bc68f603b52e51645b4bbd318f8cdfe.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6bc68f603b52e51645b4bbd318f8cdfe.gif
new file mode 100644
index 00000000..25a46508
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6bc68f603b52e51645b4bbd318f8cdfe.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6bc90165e5416ca4009cf453a3ff62d6.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6bc90165e5416ca4009cf453a3ff62d6.gif
new file mode 100644
index 00000000..8d921985
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6bc90165e5416ca4009cf453a3ff62d6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c620d50445244971a9718316db37470.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c620d50445244971a9718316db37470.gif
new file mode 100644
index 00000000..75cbb801
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c620d50445244971a9718316db37470.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c6404adc033dfed51422fdaf7fa0494.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c6404adc033dfed51422fdaf7fa0494.gif
new file mode 100644
index 00000000..ca39a943
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c6404adc033dfed51422fdaf7fa0494.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c773b2b7798e5713845e475d0c4b4c7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c773b2b7798e5713845e475d0c4b4c7.gif
new file mode 100644
index 00000000..a246a1cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6c773b2b7798e5713845e475d0c4b4c7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6d3e49353ea5640912d4b8ae768bdb32.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6d3e49353ea5640912d4b8ae768bdb32.gif
new file mode 100644
index 00000000..014d1bee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6d3e49353ea5640912d4b8ae768bdb32.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6f58e3449c2d62d9634b79c0484c14ac.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6f58e3449c2d62d9634b79c0484c14ac.gif
new file mode 100644
index 00000000..c4e2b71c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6f58e3449c2d62d9634b79c0484c14ac.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6f8f57715090da2632453988d9a1501b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6f8f57715090da2632453988d9a1501b.gif
new file mode 100644
index 00000000..3dba312a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6f8f57715090da2632453988d9a1501b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6ffd6603299e89df0513e4d1b9d67637.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6ffd6603299e89df0513e4d1b9d67637.gif
new file mode 100644
index 00000000..9ea9829f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-6ffd6603299e89df0513e4d1b9d67637.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7049aba70c46d7b934955ebdd0424749.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7049aba70c46d7b934955ebdd0424749.gif
new file mode 100644
index 00000000..87ddb2d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7049aba70c46d7b934955ebdd0424749.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-70e59a996bd69a0c21878b4093375e92.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-70e59a996bd69a0c21878b4093375e92.gif
new file mode 100644
index 00000000..21b97d1e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-70e59a996bd69a0c21878b4093375e92.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7186298c04fa42047e7992afaf52dfe0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7186298c04fa42047e7992afaf52dfe0.gif
new file mode 100644
index 00000000..21b97d1e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7186298c04fa42047e7992afaf52dfe0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-72cd0053ff3e59c5178491715730df69.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-72cd0053ff3e59c5178491715730df69.gif
new file mode 100644
index 00000000..4135b1ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-72cd0053ff3e59c5178491715730df69.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74200f0b55643ef52b329871554cd45d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74200f0b55643ef52b329871554cd45d.gif
new file mode 100644
index 00000000..a4282270
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74200f0b55643ef52b329871554cd45d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-744a84046c00c267c037276ee9483cff.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-744a84046c00c267c037276ee9483cff.gif
new file mode 100644
index 00000000..16a128d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-744a84046c00c267c037276ee9483cff.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74747d7f311ae50d3c361e82606617d1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74747d7f311ae50d3c361e82606617d1.gif
new file mode 100644
index 00000000..5fcd1cc4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74747d7f311ae50d3c361e82606617d1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74bde878aa116856d62aba260e55c67a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74bde878aa116856d62aba260e55c67a.gif
new file mode 100644
index 00000000..d6e04faa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-74bde878aa116856d62aba260e55c67a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-75080a1229e54394d1c6d95b9e542eaa.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-75080a1229e54394d1c6d95b9e542eaa.gif
new file mode 100644
index 00000000..a413dc4e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-75080a1229e54394d1c6d95b9e542eaa.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-751d6173162c5bb7b6294ca57e03d5b1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-751d6173162c5bb7b6294ca57e03d5b1.gif
new file mode 100644
index 00000000..28075d75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-751d6173162c5bb7b6294ca57e03d5b1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-75299c2520ca389119694b3da7cc7a84.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-75299c2520ca389119694b3da7cc7a84.gif
new file mode 100644
index 00000000..b01d810d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-75299c2520ca389119694b3da7cc7a84.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-758714f96d598b4cbb8a7642bc3fb017.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-758714f96d598b4cbb8a7642bc3fb017.gif
new file mode 100644
index 00000000..e484100f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-758714f96d598b4cbb8a7642bc3fb017.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7672d625e9a2492987c50d3b87c04349.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7672d625e9a2492987c50d3b87c04349.gif
new file mode 100644
index 00000000..d411d699
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7672d625e9a2492987c50d3b87c04349.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7694f4a66316e53c8cdd9d9954bd611d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7694f4a66316e53c8cdd9d9954bd611d.gif
new file mode 100644
index 00000000..a6803f79
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7694f4a66316e53c8cdd9d9954bd611d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7781983bd977537b3c5d060e217ea82a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7781983bd977537b3c5d060e217ea82a.gif
new file mode 100644
index 00000000..1503999d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7781983bd977537b3c5d060e217ea82a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-77c337a8416826e165d9a72bdaf83a45.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-77c337a8416826e165d9a72bdaf83a45.gif
new file mode 100644
index 00000000..86b4bcae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-77c337a8416826e165d9a72bdaf83a45.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b5aaccbd0d9d1237157caedb4e63579.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b5aaccbd0d9d1237157caedb4e63579.gif
new file mode 100644
index 00000000..c1c70869
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b5aaccbd0d9d1237157caedb4e63579.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b7f9dbfea05c83784f8b85149852f08.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b7f9dbfea05c83784f8b85149852f08.gif
new file mode 100644
index 00000000..6a11b5dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b7f9dbfea05c83784f8b85149852f08.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b8b965ad4bca0e41ab51de7b31363a1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b8b965ad4bca0e41ab51de7b31363a1.gif
new file mode 100644
index 00000000..00b1444c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7b8b965ad4bca0e41ab51de7b31363a1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7bfddb21b43536d1e561bf32044833c0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7bfddb21b43536d1e561bf32044833c0.gif
new file mode 100644
index 00000000..e9698057
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7bfddb21b43536d1e561bf32044833c0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7c44c4fd9ee64f79d37dc97e3ceb3c17.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7c44c4fd9ee64f79d37dc97e3ceb3c17.gif
new file mode 100644
index 00000000..8fa81f89
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7c44c4fd9ee64f79d37dc97e3ceb3c17.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7c6270537cb2cf1c86fd46bbc6975dd3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7c6270537cb2cf1c86fd46bbc6975dd3.gif
new file mode 100644
index 00000000..11b37980
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7c6270537cb2cf1c86fd46bbc6975dd3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7ccc7a43b364826d3d3caf874433ba74.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7ccc7a43b364826d3d3caf874433ba74.gif
new file mode 100644
index 00000000..23454b06
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7ccc7a43b364826d3d3caf874433ba74.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7d4bb14b3b5f5073d69bb75df6665017.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7d4bb14b3b5f5073d69bb75df6665017.gif
new file mode 100644
index 00000000..5ef15ccf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7d4bb14b3b5f5073d69bb75df6665017.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7ddb4d2d45df22e2e98e6cc504f84787.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7ddb4d2d45df22e2e98e6cc504f84787.gif
new file mode 100644
index 00000000..d954ce19
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7ddb4d2d45df22e2e98e6cc504f84787.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7e03e8e758791a8db7937cbbcc78f2b9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7e03e8e758791a8db7937cbbcc78f2b9.gif
new file mode 100644
index 00000000..c5ca37f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-7e03e8e758791a8db7937cbbcc78f2b9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-81c37589241489382297c799f1fc6b45.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-81c37589241489382297c799f1fc6b45.gif
new file mode 100644
index 00000000..20e87e9c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-81c37589241489382297c799f1fc6b45.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-825a000824ab58528de14389acafd231.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-825a000824ab58528de14389acafd231.gif
new file mode 100644
index 00000000..0e3b968c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-825a000824ab58528de14389acafd231.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-83878c91171338902e0fe0fb97a8c47a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-83878c91171338902e0fe0fb97a8c47a.gif
new file mode 100644
index 00000000..1ffb6470
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-83878c91171338902e0fe0fb97a8c47a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-84210ce87d4f53cbece29bfc7691aceb.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-84210ce87d4f53cbece29bfc7691aceb.gif
new file mode 100644
index 00000000..0abefff0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-84210ce87d4f53cbece29bfc7691aceb.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8524eb1789cf2093cfccc4c297138c7f.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8524eb1789cf2093cfccc4c297138c7f.gif
new file mode 100644
index 00000000..b68b0d4b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8524eb1789cf2093cfccc4c297138c7f.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-865c0c0b4ab0e063e5caa3387c1a8741.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-865c0c0b4ab0e063e5caa3387c1a8741.gif
new file mode 100644
index 00000000..c4fcb240
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-865c0c0b4ab0e063e5caa3387c1a8741.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8691f6b1f536233c7a2929e62280ffa0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8691f6b1f536233c7a2929e62280ffa0.gif
new file mode 100644
index 00000000..e9dfbb28
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8691f6b1f536233c7a2929e62280ffa0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8697a40b91a9a08aa05beb034db77d85.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8697a40b91a9a08aa05beb034db77d85.gif
new file mode 100644
index 00000000..5c3115ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8697a40b91a9a08aa05beb034db77d85.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-875757e99c779a8aaac585041fe96bb7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-875757e99c779a8aaac585041fe96bb7.gif
new file mode 100644
index 00000000..31b6e514
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-875757e99c779a8aaac585041fe96bb7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8a5c57afba70b57b7079f9a60efd5370.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8a5c57afba70b57b7079f9a60efd5370.gif
new file mode 100644
index 00000000..27360c6c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8a5c57afba70b57b7079f9a60efd5370.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8a8f1e8e0a73d8e44a17653f830f7947.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8a8f1e8e0a73d8e44a17653f830f7947.gif
new file mode 100644
index 00000000..5140ed52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8a8f1e8e0a73d8e44a17653f830f7947.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b0fd6769659759917bb45dd06f63083.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b0fd6769659759917bb45dd06f63083.gif
new file mode 100644
index 00000000..231b96ef
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b0fd6769659759917bb45dd06f63083.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b908429a5b5ee2e519f8caa16f82ee1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b908429a5b5ee2e519f8caa16f82ee1.gif
new file mode 100644
index 00000000..78c1d82a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b908429a5b5ee2e519f8caa16f82ee1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b9664471b48978a8d67e67efdbf131d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b9664471b48978a8d67e67efdbf131d.gif
new file mode 100644
index 00000000..189a3b7b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8b9664471b48978a8d67e67efdbf131d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8c4d6f1775020db40e7f11387a98b5ab.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8c4d6f1775020db40e7f11387a98b5ab.gif
new file mode 100644
index 00000000..58c9b3de
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8c4d6f1775020db40e7f11387a98b5ab.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8c4e86c0589861da28f13331294e04ef.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8c4e86c0589861da28f13331294e04ef.gif
new file mode 100644
index 00000000..cc7aad4c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8c4e86c0589861da28f13331294e04ef.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8ce4b16b22b58894aa86c421e8759df3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8ce4b16b22b58894aa86c421e8759df3.gif
new file mode 100644
index 00000000..7419a4a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8ce4b16b22b58894aa86c421e8759df3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8d9370145286bec564a001265dd85ff9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8d9370145286bec564a001265dd85ff9.gif
new file mode 100644
index 00000000..f98766e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8d9370145286bec564a001265dd85ff9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8f515dd3c20d16c5ed6223da611b9a2f.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8f515dd3c20d16c5ed6223da611b9a2f.gif
new file mode 100644
index 00000000..c66eea97
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8f515dd3c20d16c5ed6223da611b9a2f.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8f5a6ca2a8a53b5fcb66c5e06650718e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8f5a6ca2a8a53b5fcb66c5e06650718e.gif
new file mode 100644
index 00000000..ca430700
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8f5a6ca2a8a53b5fcb66c5e06650718e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8fa14cdd754f91cc6554c9e71929cce7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8fa14cdd754f91cc6554c9e71929cce7.gif
new file mode 100644
index 00000000..86498d12
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8fa14cdd754f91cc6554c9e71929cce7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8fdec996997ab7fb44bf97399fda93c7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8fdec996997ab7fb44bf97399fda93c7.gif
new file mode 100644
index 00000000..adb78c73
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-8fdec996997ab7fb44bf97399fda93c7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-90df7f0e34b9b6efed412669d8ab1581.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-90df7f0e34b9b6efed412669d8ab1581.gif
new file mode 100644
index 00000000..2546fa37
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-90df7f0e34b9b6efed412669d8ab1581.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9233369b2eac1c4808ae768a0534fa78.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9233369b2eac1c4808ae768a0534fa78.gif
new file mode 100644
index 00000000..6aa9f96f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9233369b2eac1c4808ae768a0534fa78.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92c270042098f9151bcc3e90407cf028.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92c270042098f9151bcc3e90407cf028.gif
new file mode 100644
index 00000000..0707b049
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92c270042098f9151bcc3e90407cf028.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92c9134527161fd7453fe848b821d8c7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92c9134527161fd7453fe848b821d8c7.gif
new file mode 100644
index 00000000..d411d699
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92c9134527161fd7453fe848b821d8c7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92e4da341fe8f4cd46192f21b6ff3aa7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92e4da341fe8f4cd46192f21b6ff3aa7.gif
new file mode 100644
index 00000000..b2eee96e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-92e4da341fe8f4cd46192f21b6ff3aa7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-93434352c9b7cbffc19bd41549fd21ba.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-93434352c9b7cbffc19bd41549fd21ba.gif
new file mode 100644
index 00000000..07162050
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-93434352c9b7cbffc19bd41549fd21ba.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-93eea6b5c197bbc8d7be8b4c14e9f8f3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-93eea6b5c197bbc8d7be8b4c14e9f8f3.gif
new file mode 100644
index 00000000..651aac5b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-93eea6b5c197bbc8d7be8b4c14e9f8f3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9439cb7cb2e1c01f22745401287a0638.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9439cb7cb2e1c01f22745401287a0638.gif
new file mode 100644
index 00000000..27f170a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9439cb7cb2e1c01f22745401287a0638.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-94a7ae8354c1c0f600e7562216c415ca.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-94a7ae8354c1c0f600e7562216c415ca.gif
new file mode 100644
index 00000000..dba3343a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-94a7ae8354c1c0f600e7562216c415ca.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-94eb8618287f30c0e8acb55826546dd1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-94eb8618287f30c0e8acb55826546dd1.gif
new file mode 100644
index 00000000..b3385d11
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-94eb8618287f30c0e8acb55826546dd1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-966fcc27b1359fe6160829661f0657cc.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-966fcc27b1359fe6160829661f0657cc.gif
new file mode 100644
index 00000000..1c58fb4a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-966fcc27b1359fe6160829661f0657cc.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9694b9470a2a80b31bcc6584edf2bf07.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9694b9470a2a80b31bcc6584edf2bf07.gif
new file mode 100644
index 00000000..6b279568
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9694b9470a2a80b31bcc6584edf2bf07.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-96d2dbcd621a2da7cff58eaed68d87c2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-96d2dbcd621a2da7cff58eaed68d87c2.gif
new file mode 100644
index 00000000..76d13a11
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-96d2dbcd621a2da7cff58eaed68d87c2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-96d88ee52e2a53c2350376ac3b1f3c30.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-96d88ee52e2a53c2350376ac3b1f3c30.gif
new file mode 100644
index 00000000..293b7bad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-96d88ee52e2a53c2350376ac3b1f3c30.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-971f2023c1f5f54b8bd389bb06fa6d86.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-971f2023c1f5f54b8bd389bb06fa6d86.gif
new file mode 100644
index 00000000..7e05a7c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-971f2023c1f5f54b8bd389bb06fa6d86.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-97d045dcd64af5ae4cc4add328629288.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-97d045dcd64af5ae4cc4add328629288.gif
new file mode 100644
index 00000000..e3132651
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-97d045dcd64af5ae4cc4add328629288.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-98c822c91ab5af02c383eb03fa5b5446.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-98c822c91ab5af02c383eb03fa5b5446.gif
new file mode 100644
index 00000000..b6047cec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-98c822c91ab5af02c383eb03fa5b5446.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9907535e0085e9baa59eba3a390ac093.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9907535e0085e9baa59eba3a390ac093.gif
new file mode 100644
index 00000000..1f05354b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9907535e0085e9baa59eba3a390ac093.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-992fd41f053d328db0ca0287eed0e2e9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-992fd41f053d328db0ca0287eed0e2e9.gif
new file mode 100644
index 00000000..6a814a58
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-992fd41f053d328db0ca0287eed0e2e9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-99e7bebb7eb398dc777eea8fa1bfe3ba.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-99e7bebb7eb398dc777eea8fa1bfe3ba.gif
new file mode 100644
index 00000000..e7eeda90
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-99e7bebb7eb398dc777eea8fa1bfe3ba.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-99f0c7b568236eb0a52bf15cbbfa342e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-99f0c7b568236eb0a52bf15cbbfa342e.gif
new file mode 100644
index 00000000..528bddda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-99f0c7b568236eb0a52bf15cbbfa342e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9a041ce63f6c28100344427c6d71837b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9a041ce63f6c28100344427c6d71837b.gif
new file mode 100644
index 00000000..4e0e8d92
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9a041ce63f6c28100344427c6d71837b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9a84ebda628c391e3046dfc2307e3c85.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9a84ebda628c391e3046dfc2307e3c85.gif
new file mode 100644
index 00000000..1e2e2d7d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9a84ebda628c391e3046dfc2307e3c85.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9c12579dc7b76bc07da1d03623b2a5c7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9c12579dc7b76bc07da1d03623b2a5c7.gif
new file mode 100644
index 00000000..e3f672dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9c12579dc7b76bc07da1d03623b2a5c7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9c33b504c86e9c53fd2dab1952e0db41.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9c33b504c86e9c53fd2dab1952e0db41.gif
new file mode 100644
index 00000000..165cedc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9c33b504c86e9c53fd2dab1952e0db41.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9d51d9238bb54c1c9448b87d61b7503e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9d51d9238bb54c1c9448b87d61b7503e.gif
new file mode 100644
index 00000000..7adcd656
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9d51d9238bb54c1c9448b87d61b7503e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9d6a43d7b758ed2c9684fbbb81f9f1e8.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9d6a43d7b758ed2c9684fbbb81f9f1e8.gif
new file mode 100644
index 00000000..6322f1a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9d6a43d7b758ed2c9684fbbb81f9f1e8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9dd4e461268c8034f5c8564e155c67a6.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9dd4e461268c8034f5c8564e155c67a6.gif
new file mode 100644
index 00000000..89d82b20
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9dd4e461268c8034f5c8564e155c67a6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9e957014b85eb320bc79506f6fc8c80b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9e957014b85eb320bc79506f6fc8c80b.gif
new file mode 100644
index 00000000..84efde23
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9e957014b85eb320bc79506f6fc8c80b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9e9fa7bbdcb31a3b04a549685db18042.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9e9fa7bbdcb31a3b04a549685db18042.gif
new file mode 100644
index 00000000..4374b057
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9e9fa7bbdcb31a3b04a549685db18042.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9eaf40b81df456c80b338612aa1e6fb7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9eaf40b81df456c80b338612aa1e6fb7.gif
new file mode 100644
index 00000000..fd2becb2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9eaf40b81df456c80b338612aa1e6fb7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9ec72967f11b037e1e8ad34f647b04c1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9ec72967f11b037e1e8ad34f647b04c1.gif
new file mode 100644
index 00000000..1853395d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9ec72967f11b037e1e8ad34f647b04c1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9f888eddb683fe5f80f87f44bd727b08.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9f888eddb683fe5f80f87f44bd727b08.gif
new file mode 100644
index 00000000..ee46355f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9f888eddb683fe5f80f87f44bd727b08.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fc030ab004eb3b12a815227ce62da52.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fc030ab004eb3b12a815227ce62da52.gif
new file mode 100644
index 00000000..472b2497
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fc030ab004eb3b12a815227ce62da52.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fe4f6a929e86b5c5a7d19d4a18fc304.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fe4f6a929e86b5c5a7d19d4a18fc304.gif
new file mode 100644
index 00000000..31234585
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fe4f6a929e86b5c5a7d19d4a18fc304.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fff59e9f5c122d355124bb1bf98c0ff.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fff59e9f5c122d355124bb1bf98c0ff.gif
new file mode 100644
index 00000000..e1402522
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-9fff59e9f5c122d355124bb1bf98c0ff.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a007d1162d9c4957e8336b4b10d5fda3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a007d1162d9c4957e8336b4b10d5fda3.gif
new file mode 100644
index 00000000..025e217c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a007d1162d9c4957e8336b4b10d5fda3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a02df115b5738b62c1a168243f40448d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a02df115b5738b62c1a168243f40448d.gif
new file mode 100644
index 00000000..c6867358
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a02df115b5738b62c1a168243f40448d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a0b673959034f5d7721eda22ec8f8a59.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a0b673959034f5d7721eda22ec8f8a59.gif
new file mode 100644
index 00000000..671b3b7f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a0b673959034f5d7721eda22ec8f8a59.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a1c5ef84a61f97159520c00e49a728a0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a1c5ef84a61f97159520c00e49a728a0.gif
new file mode 100644
index 00000000..4809bd99
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a1c5ef84a61f97159520c00e49a728a0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a21c05b05e3a61cef53414437bae86cf.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a21c05b05e3a61cef53414437bae86cf.gif
new file mode 100644
index 00000000..dff93078
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a21c05b05e3a61cef53414437bae86cf.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a294eed0207348e7e8d2b0ca72aabf83.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a294eed0207348e7e8d2b0ca72aabf83.gif
new file mode 100644
index 00000000..f1d7931b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a294eed0207348e7e8d2b0ca72aabf83.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a2c0f1b552d410257a2cc027b24757a9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a2c0f1b552d410257a2cc027b24757a9.gif
new file mode 100644
index 00000000..3b9d4f2c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a2c0f1b552d410257a2cc027b24757a9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a3026e320c132de94f7c8ebb952bda60.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a3026e320c132de94f7c8ebb952bda60.gif
new file mode 100644
index 00000000..db1ac4d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a3026e320c132de94f7c8ebb952bda60.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a4bd3c895fe9f194e30d5ce53dbb5fee.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a4bd3c895fe9f194e30d5ce53dbb5fee.gif
new file mode 100644
index 00000000..34a15051
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a4bd3c895fe9f194e30d5ce53dbb5fee.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a5f3c6a11b03839d46af9fb43c97c188.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a5f3c6a11b03839d46af9fb43c97c188.gif
new file mode 100644
index 00000000..42e07642
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a5f3c6a11b03839d46af9fb43c97c188.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a61d3a5d3cda282b36fe4a3fe7e657c1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a61d3a5d3cda282b36fe4a3fe7e657c1.gif
new file mode 100644
index 00000000..d184bc31
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a61d3a5d3cda282b36fe4a3fe7e657c1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a64a4a0de329e98ac7b25d532cd74a4d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a64a4a0de329e98ac7b25d532cd74a4d.gif
new file mode 100644
index 00000000..ac28dc54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a64a4a0de329e98ac7b25d532cd74a4d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a6ef39467ae1ecfdf09a7e93357c3154.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a6ef39467ae1ecfdf09a7e93357c3154.gif
new file mode 100644
index 00000000..371eabd2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a6ef39467ae1ecfdf09a7e93357c3154.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a6f367725930ab547e010046a9c80bb4.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a6f367725930ab547e010046a9c80bb4.gif
new file mode 100644
index 00000000..beab9897
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a6f367725930ab547e010046a9c80bb4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a78e85b9c0eb6446f86c17d6d2190b74.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a78e85b9c0eb6446f86c17d6d2190b74.gif
new file mode 100644
index 00000000..5547a04d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a78e85b9c0eb6446f86c17d6d2190b74.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a840076f36cc4bef1947d97a65426bb3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a840076f36cc4bef1947d97a65426bb3.gif
new file mode 100644
index 00000000..851388a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a840076f36cc4bef1947d97a65426bb3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9a5a2bca55c71f2968500d1961e8b9b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9a5a2bca55c71f2968500d1961e8b9b.gif
new file mode 100644
index 00000000..341ca3a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9a5a2bca55c71f2968500d1961e8b9b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9fc1a03386ae38b64e06c8172994963.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9fc1a03386ae38b64e06c8172994963.gif
new file mode 100644
index 00000000..b5e7f129
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9fc1a03386ae38b64e06c8172994963.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9fd2d0f4eafa552b514c6a68092a08c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9fd2d0f4eafa552b514c6a68092a08c.gif
new file mode 100644
index 00000000..a581694f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-a9fd2d0f4eafa552b514c6a68092a08c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-abfd626c49507d0f37b502fdfe6b73df.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-abfd626c49507d0f37b502fdfe6b73df.gif
new file mode 100644
index 00000000..2361bd75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-abfd626c49507d0f37b502fdfe6b73df.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ac2d6cc9cbad11acc20ba9f6dd0ef830.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ac2d6cc9cbad11acc20ba9f6dd0ef830.gif
new file mode 100644
index 00000000..6f985646
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ac2d6cc9cbad11acc20ba9f6dd0ef830.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-acd7569716837ec3ce2aa6e0a5ddd513.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-acd7569716837ec3ce2aa6e0a5ddd513.gif
new file mode 100644
index 00000000..c69a1c11
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-acd7569716837ec3ce2aa6e0a5ddd513.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-acfb59b31a57f80ecfd2636d12e08a81.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-acfb59b31a57f80ecfd2636d12e08a81.gif
new file mode 100644
index 00000000..e2b78f55
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-acfb59b31a57f80ecfd2636d12e08a81.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ad2c883a17ec87bc3c34797652592af5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ad2c883a17ec87bc3c34797652592af5.gif
new file mode 100644
index 00000000..45c653dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ad2c883a17ec87bc3c34797652592af5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ae05c183b5c444d17b885e8f7392e33c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ae05c183b5c444d17b885e8f7392e33c.gif
new file mode 100644
index 00000000..125c3724
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ae05c183b5c444d17b885e8f7392e33c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ae539dfcc999c28e25a0f3ae65c1de79.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ae539dfcc999c28e25a0f3ae65c1de79.gif
new file mode 100644
index 00000000..35edd715
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ae539dfcc999c28e25a0f3ae65c1de79.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-af5e712113f834592672c1a7e4f1bee2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-af5e712113f834592672c1a7e4f1bee2.gif
new file mode 100644
index 00000000..3aa66699
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-af5e712113f834592672c1a7e4f1bee2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-afdc190074a7e451cec25ee2fde23fa2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-afdc190074a7e451cec25ee2fde23fa2.gif
new file mode 100644
index 00000000..7946fb77
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-afdc190074a7e451cec25ee2fde23fa2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b0603860fcffe94e5b8eec59ed813421.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b0603860fcffe94e5b8eec59ed813421.gif
new file mode 100644
index 00000000..d07cc933
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b0603860fcffe94e5b8eec59ed813421.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b0bb6cfa6e49912f2da3f807dd931480.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b0bb6cfa6e49912f2da3f807dd931480.gif
new file mode 100644
index 00000000..5c67ffda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b0bb6cfa6e49912f2da3f807dd931480.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b20e626988e6c696012b02def76d5c6a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b20e626988e6c696012b02def76d5c6a.gif
new file mode 100644
index 00000000..3dc7bd07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b20e626988e6c696012b02def76d5c6a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b345e1dc09f20fdefdea469f09167892.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b345e1dc09f20fdefdea469f09167892.gif
new file mode 100644
index 00000000..d7f99cb6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b345e1dc09f20fdefdea469f09167892.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b43943c21cee89e2a9628e2970bf83e5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b43943c21cee89e2a9628e2970bf83e5.gif
new file mode 100644
index 00000000..34f4302e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b43943c21cee89e2a9628e2970bf83e5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b5b7330fa0b89885f3c56d10a5786312.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b5b7330fa0b89885f3c56d10a5786312.gif
new file mode 100644
index 00000000..f8c32043
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b5b7330fa0b89885f3c56d10a5786312.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b60c884daed2610a13fbb7c142944314.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b60c884daed2610a13fbb7c142944314.gif
new file mode 100644
index 00000000..5d9469d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b60c884daed2610a13fbb7c142944314.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b696d3a200c2cdc2fb9b2c143925beb4.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b696d3a200c2cdc2fb9b2c143925beb4.gif
new file mode 100644
index 00000000..ebdd0f04
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b696d3a200c2cdc2fb9b2c143925beb4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b6a0de3f265cdeedc2ac1d0687fef2ea.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b6a0de3f265cdeedc2ac1d0687fef2ea.gif
new file mode 100644
index 00000000..3e5d9cdc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b6a0de3f265cdeedc2ac1d0687fef2ea.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b6f161941bfaa3be7efd88f2aedb5f20.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b6f161941bfaa3be7efd88f2aedb5f20.gif
new file mode 100644
index 00000000..7db99cda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b6f161941bfaa3be7efd88f2aedb5f20.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b7762ca6ebcdab26862a6cd2ff27ac16.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b7762ca6ebcdab26862a6cd2ff27ac16.gif
new file mode 100644
index 00000000..e84f66fe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b7762ca6ebcdab26862a6cd2ff27ac16.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b7ae93cd51ba1d38fe4ebac15eab3aa1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b7ae93cd51ba1d38fe4ebac15eab3aa1.gif
new file mode 100644
index 00000000..447126b1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b7ae93cd51ba1d38fe4ebac15eab3aa1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b89f86c5c040230d73fda0d18bb54f38.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b89f86c5c040230d73fda0d18bb54f38.gif
new file mode 100644
index 00000000..ebe23c63
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b89f86c5c040230d73fda0d18bb54f38.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b9dce96eb3d5a71b28f9f198c28d2d1b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b9dce96eb3d5a71b28f9f198c28d2d1b.gif
new file mode 100644
index 00000000..990de187
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-b9dce96eb3d5a71b28f9f198c28d2d1b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bac2029f70ce6a6b273b169d1692b55d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bac2029f70ce6a6b273b169d1692b55d.gif
new file mode 100644
index 00000000..e7797726
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bac2029f70ce6a6b273b169d1692b55d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bb2f909b7877794fb5749f89da2293c0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bb2f909b7877794fb5749f89da2293c0.gif
new file mode 100644
index 00000000..dde5b631
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bb2f909b7877794fb5749f89da2293c0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bbbca49c7d6afb0938a5c37bb5b5fbcf.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bbbca49c7d6afb0938a5c37bb5b5fbcf.gif
new file mode 100644
index 00000000..965620a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bbbca49c7d6afb0938a5c37bb5b5fbcf.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bec5b0923c70096e7336e2debb62ce82.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bec5b0923c70096e7336e2debb62ce82.gif
new file mode 100644
index 00000000..ff76d6bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bec5b0923c70096e7336e2debb62ce82.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf018abe4e43c0b3132cba23cb971907.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf018abe4e43c0b3132cba23cb971907.gif
new file mode 100644
index 00000000..d54267b6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf018abe4e43c0b3132cba23cb971907.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf438a4f798fcd6149953059d388cda0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf438a4f798fcd6149953059d388cda0.gif
new file mode 100644
index 00000000..e2233efb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf438a4f798fcd6149953059d388cda0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf7d4f41a093293adbb04e43c7d12839.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf7d4f41a093293adbb04e43c7d12839.gif
new file mode 100644
index 00000000..d01303fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-bf7d4f41a093293adbb04e43c7d12839.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c052878d41402368d536c53f4937b012.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c052878d41402368d536c53f4937b012.gif
new file mode 100644
index 00000000..4c6fc0f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c052878d41402368d536c53f4937b012.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c0b288b67c4f03e4fa7d866233a1c91c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c0b288b67c4f03e4fa7d866233a1c91c.gif
new file mode 100644
index 00000000..fa9b2de1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c0b288b67c4f03e4fa7d866233a1c91c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c14ee05b4e493bf1f64427a8a2fc0ca0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c14ee05b4e493bf1f64427a8a2fc0ca0.gif
new file mode 100644
index 00000000..366d36ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c14ee05b4e493bf1f64427a8a2fc0ca0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c1505d74d64c3d2bd20ccaa668c131d1.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c1505d74d64c3d2bd20ccaa668c131d1.gif
new file mode 100644
index 00000000..c6ba79e2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c1505d74d64c3d2bd20ccaa668c131d1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c19c0fd70a5476c3ffd036cdc186cd3d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c19c0fd70a5476c3ffd036cdc186cd3d.gif
new file mode 100644
index 00000000..c3821507
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c19c0fd70a5476c3ffd036cdc186cd3d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4664533339cdf3ddbe912caf82c5bdc.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4664533339cdf3ddbe912caf82c5bdc.gif
new file mode 100644
index 00000000..783f3582
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4664533339cdf3ddbe912caf82c5bdc.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4b1ce4f0e917b52ea607137ff150914.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4b1ce4f0e917b52ea607137ff150914.gif
new file mode 100644
index 00000000..087a3c34
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4b1ce4f0e917b52ea607137ff150914.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4f2bbec4ec0a31260b87fef04ffb9fc.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4f2bbec4ec0a31260b87fef04ffb9fc.gif
new file mode 100644
index 00000000..ec995ba8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c4f2bbec4ec0a31260b87fef04ffb9fc.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c5fe20a89f48ca41a8f2d4616c292d50.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c5fe20a89f48ca41a8f2d4616c292d50.gif
new file mode 100644
index 00000000..ad4fdeca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c5fe20a89f48ca41a8f2d4616c292d50.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c663f5d534674fc3f1b13074c6ae467b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c663f5d534674fc3f1b13074c6ae467b.gif
new file mode 100644
index 00000000..b4c81ed8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c663f5d534674fc3f1b13074c6ae467b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c6a6eb61fd9c6c913da73b3642ca147d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c6a6eb61fd9c6c913da73b3642ca147d.gif
new file mode 100644
index 00000000..cd03440d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c6a6eb61fd9c6c913da73b3642ca147d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c7b8cd5182d4ad792dec80ff4ef5b3a7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c7b8cd5182d4ad792dec80ff4ef5b3a7.gif
new file mode 100644
index 00000000..45153550
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c7b8cd5182d4ad792dec80ff4ef5b3a7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c8dda7e9c58592db5a22add487f77cf9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c8dda7e9c58592db5a22add487f77cf9.gif
new file mode 100644
index 00000000..572bf495
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c8dda7e9c58592db5a22add487f77cf9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c94af4bec72c7e4e9e8f713c23232809.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c94af4bec72c7e4e9e8f713c23232809.gif
new file mode 100644
index 00000000..022758da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c94af4bec72c7e4e9e8f713c23232809.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c982adc41e9ee58af9aed4995717fa82.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c982adc41e9ee58af9aed4995717fa82.gif
new file mode 100644
index 00000000..097aa953
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-c982adc41e9ee58af9aed4995717fa82.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ca340abf4b48dc6d816137fbadf58b53.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ca340abf4b48dc6d816137fbadf58b53.gif
new file mode 100644
index 00000000..1a24b5f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ca340abf4b48dc6d816137fbadf58b53.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cb0e17d96e58d55d1eb06dc1b14b7a7b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cb0e17d96e58d55d1eb06dc1b14b7a7b.gif
new file mode 100644
index 00000000..74833f44
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cb0e17d96e58d55d1eb06dc1b14b7a7b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cbc3c4cd0071f0ac61b8ce488ff05234.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cbc3c4cd0071f0ac61b8ce488ff05234.gif
new file mode 100644
index 00000000..40825b59
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cbc3c4cd0071f0ac61b8ce488ff05234.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cc685401bcf131ce4e9f980be319daac.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cc685401bcf131ce4e9f980be319daac.gif
new file mode 100644
index 00000000..181239d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cc685401bcf131ce4e9f980be319daac.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cd4594a46e6db954e9d50e10e8ed1ac9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cd4594a46e6db954e9d50e10e8ed1ac9.gif
new file mode 100644
index 00000000..fa01c321
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cd4594a46e6db954e9d50e10e8ed1ac9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cd5404d7725e8dc13bb35de8c3a6fdf2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cd5404d7725e8dc13bb35de8c3a6fdf2.gif
new file mode 100644
index 00000000..36c73b43
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cd5404d7725e8dc13bb35de8c3a6fdf2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cf2f9c5526a15ecae99fcc650002a3c2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cf2f9c5526a15ecae99fcc650002a3c2.gif
new file mode 100644
index 00000000..46f818a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cf2f9c5526a15ecae99fcc650002a3c2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cfcd208495d565ef66e7dff9f98764da.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cfcd208495d565ef66e7dff9f98764da.gif
new file mode 100644
index 00000000..7022acff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-cfcd208495d565ef66e7dff9f98764da.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d038d062c32d4dc01937728b95d25e0e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d038d062c32d4dc01937728b95d25e0e.gif
new file mode 100644
index 00000000..5fa089f5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d038d062c32d4dc01937728b95d25e0e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d08b62e799e1ff8f24464dc26a2daebe.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d08b62e799e1ff8f24464dc26a2daebe.gif
new file mode 100644
index 00000000..b51ac795
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d08b62e799e1ff8f24464dc26a2daebe.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d0a7f1641b3fe72530efcea74fd7a4d2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d0a7f1641b3fe72530efcea74fd7a4d2.gif
new file mode 100644
index 00000000..fa6a400b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d0a7f1641b3fe72530efcea74fd7a4d2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d26940d88870bfe622e50be50381fdb9.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d26940d88870bfe622e50be50381fdb9.gif
new file mode 100644
index 00000000..7618f79b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d26940d88870bfe622e50be50381fdb9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d2df5469808d03891005c3789af8ac57.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d2df5469808d03891005c3789af8ac57.gif
new file mode 100644
index 00000000..92700558
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d2df5469808d03891005c3789af8ac57.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d324bced968eda52e62e58cb90c82c2d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d324bced968eda52e62e58cb90c82c2d.gif
new file mode 100644
index 00000000..eb468f75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d324bced968eda52e62e58cb90c82c2d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d4ddd95634646402f00cf1ba3d30b53a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d4ddd95634646402f00cf1ba3d30b53a.gif
new file mode 100644
index 00000000..afb95036
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d4ddd95634646402f00cf1ba3d30b53a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d5f696a5a6696de34b0622a8f14b4516.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d5f696a5a6696de34b0622a8f14b4516.gif
new file mode 100644
index 00000000..f82ae4a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d5f696a5a6696de34b0622a8f14b4516.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d7e489c9bd21eb7274ea7acd2b4f6b5b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d7e489c9bd21eb7274ea7acd2b4f6b5b.gif
new file mode 100644
index 00000000..aef57ea7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d7e489c9bd21eb7274ea7acd2b4f6b5b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d7f173edb628ad4b637db34ab90f0dae.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d7f173edb628ad4b637db34ab90f0dae.gif
new file mode 100644
index 00000000..7125e8e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d7f173edb628ad4b637db34ab90f0dae.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d8a35c47c0f29d1f868a2769cd3003c5.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d8a35c47c0f29d1f868a2769cd3003c5.gif
new file mode 100644
index 00000000..8b719aa7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d8a35c47c0f29d1f868a2769cd3003c5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d995862557c7577156d8598bbd676ff7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d995862557c7577156d8598bbd676ff7.gif
new file mode 100644
index 00000000..ce5899f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d995862557c7577156d8598bbd676ff7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d9c29791dd3b792c7702ed2b7cf5ac40.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d9c29791dd3b792c7702ed2b7cf5ac40.gif
new file mode 100644
index 00000000..9406cd2f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-d9c29791dd3b792c7702ed2b7cf5ac40.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-da5577f9751e71377558278256ff1115.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-da5577f9751e71377558278256ff1115.gif
new file mode 100644
index 00000000..a06e96f7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-da5577f9751e71377558278256ff1115.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-db0654cb860481923a03a3c19530b99a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-db0654cb860481923a03a3c19530b99a.gif
new file mode 100644
index 00000000..9ec42941
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-db0654cb860481923a03a3c19530b99a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dba6270fb2a2c1da75f72bdd3137f6ec.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dba6270fb2a2c1da75f72bdd3137f6ec.gif
new file mode 100644
index 00000000..6921a6f5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dba6270fb2a2c1da75f72bdd3137f6ec.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dbc9011a370bca098d4752346ba71d5c.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dbc9011a370bca098d4752346ba71d5c.gif
new file mode 100644
index 00000000..f2cbb838
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dbc9011a370bca098d4752346ba71d5c.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dc285d84f74bea2336104ee5eafff150.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dc285d84f74bea2336104ee5eafff150.gif
new file mode 100644
index 00000000..6a24b9ae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-dc285d84f74bea2336104ee5eafff150.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ddfd45b07cca3862ad001dc6551d826a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ddfd45b07cca3862ad001dc6551d826a.gif
new file mode 100644
index 00000000..b4f8da97
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ddfd45b07cca3862ad001dc6551d826a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-de03ddd330336d12e33df21217bdab9d.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-de03ddd330336d12e33df21217bdab9d.gif
new file mode 100644
index 00000000..be245b56
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-de03ddd330336d12e33df21217bdab9d.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-df9ed87e836e463cd086106035aef441.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-df9ed87e836e463cd086106035aef441.gif
new file mode 100644
index 00000000..895637a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-df9ed87e836e463cd086106035aef441.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e0569dbaecb2e5955e7ff0bad0749154.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e0569dbaecb2e5955e7ff0bad0749154.gif
new file mode 100644
index 00000000..b44d6a1e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e0569dbaecb2e5955e7ff0bad0749154.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e12f172d616cf52e645466237de2557f.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e12f172d616cf52e645466237de2557f.gif
new file mode 100644
index 00000000..469f3502
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e12f172d616cf52e645466237de2557f.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e1671797c52e15f763380b45e841ec32.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e1671797c52e15f763380b45e841ec32.gif
new file mode 100644
index 00000000..95fd5c40
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e1671797c52e15f763380b45e841ec32.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e221a5a9ee284dda566835a7aadd0563.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e221a5a9ee284dda566835a7aadd0563.gif
new file mode 100644
index 00000000..9751be73
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e221a5a9ee284dda566835a7aadd0563.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e2319eb828681ba30bf7e05e07d7f5fa.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e2319eb828681ba30bf7e05e07d7f5fa.gif
new file mode 100644
index 00000000..9deab0f0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e2319eb828681ba30bf7e05e07d7f5fa.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e236013a1d5cfb056aa71c770d62e4ed.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e236013a1d5cfb056aa71c770d62e4ed.gif
new file mode 100644
index 00000000..e2678738
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e236013a1d5cfb056aa71c770d62e4ed.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e25626090e2c767f539550e3c02fa6c8.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e25626090e2c767f539550e3c02fa6c8.gif
new file mode 100644
index 00000000..95e374e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e25626090e2c767f539550e3c02fa6c8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e32c5b6b54ce1398ae1134e7688631ad.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e32c5b6b54ce1398ae1134e7688631ad.gif
new file mode 100644
index 00000000..69cc2296
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e32c5b6b54ce1398ae1134e7688631ad.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e358efa489f58062f10dd7316b65649e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e358efa489f58062f10dd7316b65649e.gif
new file mode 100644
index 00000000..93632c93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e358efa489f58062f10dd7316b65649e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e373951eded9d8d1fddb4db810c5069f.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e373951eded9d8d1fddb4db810c5069f.gif
new file mode 100644
index 00000000..377701e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e373951eded9d8d1fddb4db810c5069f.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e39fd6874bfece3703cdd1eb53e170b0.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e39fd6874bfece3703cdd1eb53e170b0.gif
new file mode 100644
index 00000000..83d3d7d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e39fd6874bfece3703cdd1eb53e170b0.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e3babac8181f31133f4538b8e86e643e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e3babac8181f31133f4538b8e86e643e.gif
new file mode 100644
index 00000000..00d58a92
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e3babac8181f31133f4538b8e86e643e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e406ac4d7c470823a8619c13dd7101be.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e406ac4d7c470823a8619c13dd7101be.gif
new file mode 100644
index 00000000..6a6bbd49
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e406ac4d7c470823a8619c13dd7101be.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e42dee8953b9b2be4a3ed6f8c09e5314.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e42dee8953b9b2be4a3ed6f8c09e5314.gif
new file mode 100644
index 00000000..ed4fe3ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e42dee8953b9b2be4a3ed6f8c09e5314.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e4da079f692fe35778bbdf1fdf120d99.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e4da079f692fe35778bbdf1fdf120d99.gif
new file mode 100644
index 00000000..a4f317b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e4da079f692fe35778bbdf1fdf120d99.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e4df33b5fe9a1d3789867afe58c9564a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e4df33b5fe9a1d3789867afe58c9564a.gif
new file mode 100644
index 00000000..5f5a8305
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e4df33b5fe9a1d3789867afe58c9564a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e56717342e6431bdaa1f37c90f7ba7b3.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e56717342e6431bdaa1f37c90f7ba7b3.gif
new file mode 100644
index 00000000..233a3a7f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e56717342e6431bdaa1f37c90f7ba7b3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e57673e94f4eeddd53be04f2167db8d2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e57673e94f4eeddd53be04f2167db8d2.gif
new file mode 100644
index 00000000..fa157ef7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e57673e94f4eeddd53be04f2167db8d2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e5949d4f83eb4e13761f2b76ab62386e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e5949d4f83eb4e13761f2b76ab62386e.gif
new file mode 100644
index 00000000..34a87f8c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e5949d4f83eb4e13761f2b76ab62386e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e62a4db03666029d1dc53713c5632ac6.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e62a4db03666029d1dc53713c5632ac6.gif
new file mode 100644
index 00000000..a64a494b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e62a4db03666029d1dc53713c5632ac6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e6e3116680e8cef8739f29e51e9ae4dc.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e6e3116680e8cef8739f29e51e9ae4dc.gif
new file mode 100644
index 00000000..e8e88ad5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e6e3116680e8cef8739f29e51e9ae4dc.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e703e1ba18d3838a4834b8529afbddff.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e703e1ba18d3838a4834b8529afbddff.gif
new file mode 100644
index 00000000..ccfbe731
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e703e1ba18d3838a4834b8529afbddff.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e78acaa101dc94594e813eab3f01f428.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e78acaa101dc94594e813eab3f01f428.gif
new file mode 100644
index 00000000..371b95b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e78acaa101dc94594e813eab3f01f428.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e8153e65e22df0b3d23d1614471fd606.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e8153e65e22df0b3d23d1614471fd606.gif
new file mode 100644
index 00000000..b8b7b969
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e8153e65e22df0b3d23d1614471fd606.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e8fa5b806940d1b4d0059fba40646506.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e8fa5b806940d1b4d0059fba40646506.gif
new file mode 100644
index 00000000..5d9469d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e8fa5b806940d1b4d0059fba40646506.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e939f0323d8d49a8482b30a5284c8374.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e939f0323d8d49a8482b30a5284c8374.gif
new file mode 100644
index 00000000..0c960326
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e939f0323d8d49a8482b30a5284c8374.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e97a66a423ac77c7ae0e103af1f41932.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e97a66a423ac77c7ae0e103af1f41932.gif
new file mode 100644
index 00000000..08958b87
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e97a66a423ac77c7ae0e103af1f41932.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e9e1ea47451dc98fefd42615328d631b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e9e1ea47451dc98fefd42615328d631b.gif
new file mode 100644
index 00000000..50edb7ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-e9e1ea47451dc98fefd42615328d631b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ea6d21230d9c335a071d341ceb54d780.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ea6d21230d9c335a071d341ceb54d780.gif
new file mode 100644
index 00000000..34f710f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ea6d21230d9c335a071d341ceb54d780.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ebce0f627b43a4894b355cc1d6811dab.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ebce0f627b43a4894b355cc1d6811dab.gif
new file mode 100644
index 00000000..70e41150
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ebce0f627b43a4894b355cc1d6811dab.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ec2b11c28f337d90d1a55c83bd738475.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ec2b11c28f337d90d1a55c83bd738475.gif
new file mode 100644
index 00000000..44932c02
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ec2b11c28f337d90d1a55c83bd738475.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ededcb90b8071069a783dea14b4aad14.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ededcb90b8071069a783dea14b4aad14.gif
new file mode 100644
index 00000000..f072da67
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ededcb90b8071069a783dea14b4aad14.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ee055288b8f1ec24d0f6aadc2633f1ca.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ee055288b8f1ec24d0f6aadc2633f1ca.gif
new file mode 100644
index 00000000..5f4b05cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ee055288b8f1ec24d0f6aadc2633f1ca.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ef33861da9c3ac0329d8c6963e856c71.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ef33861da9c3ac0329d8c6963e856c71.gif
new file mode 100644
index 00000000..797c8543
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ef33861da9c3ac0329d8c6963e856c71.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f1dd81ad21180e074e52e8cccdcbb172.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f1dd81ad21180e074e52e8cccdcbb172.gif
new file mode 100644
index 00000000..ad18d118
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f1dd81ad21180e074e52e8cccdcbb172.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f2d02eaf32cb7a351989198531c0d12a.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f2d02eaf32cb7a351989198531c0d12a.gif
new file mode 100644
index 00000000..a36790c9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f2d02eaf32cb7a351989198531c0d12a.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f4598866fdb3a068559431d9825a5237.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f4598866fdb3a068559431d9825a5237.gif
new file mode 100644
index 00000000..15f28c46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f4598866fdb3a068559431d9825a5237.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f4b0f344c78d88d30aa16d9cf5ff4f3b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f4b0f344c78d88d30aa16d9cf5ff4f3b.gif
new file mode 100644
index 00000000..e794e492
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f4b0f344c78d88d30aa16d9cf5ff4f3b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f5c4858c5101df83fa23d1f57981c12b.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f5c4858c5101df83fa23d1f57981c12b.gif
new file mode 100644
index 00000000..db1ac4d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f5c4858c5101df83fa23d1f57981c12b.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f60ef6008ce0d9eac12ac8a81cb64981.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f60ef6008ce0d9eac12ac8a81cb64981.gif
new file mode 100644
index 00000000..aa3804a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f60ef6008ce0d9eac12ac8a81cb64981.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f6e0346d1d3410b0fbe32b41b85999aa.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f6e0346d1d3410b0fbe32b41b85999aa.gif
new file mode 100644
index 00000000..2d6e3b39
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f6e0346d1d3410b0fbe32b41b85999aa.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f74dbceea979dd6f7f807de601aaa240.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f74dbceea979dd6f7f807de601aaa240.gif
new file mode 100644
index 00000000..9cf1e492
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f74dbceea979dd6f7f807de601aaa240.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f8b1c5a729a09649c275fca88976d8dd.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f8b1c5a729a09649c275fca88976d8dd.gif
new file mode 100644
index 00000000..13e3d37e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f8b1c5a729a09649c275fca88976d8dd.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f99876b625a13a0aad9631f61d934a61.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f99876b625a13a0aad9631f61d934a61.gif
new file mode 100644
index 00000000..dbcef246
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f99876b625a13a0aad9631f61d934a61.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f9a82354ca58947238d9ae8ae8cf1ec6.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f9a82354ca58947238d9ae8ae8cf1ec6.gif
new file mode 100644
index 00000000..287cbbd4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-f9a82354ca58947238d9ae8ae8cf1ec6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fa862454300a16183669e45840e8ac40.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fa862454300a16183669e45840e8ac40.gif
new file mode 100644
index 00000000..e2e21010
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fa862454300a16183669e45840e8ac40.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fa93ecd1a735fe81cf235ec88018aec2.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fa93ecd1a735fe81cf235ec88018aec2.gif
new file mode 100644
index 00000000..2bf10f71
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fa93ecd1a735fe81cf235ec88018aec2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fab37d6c4a697fe660387d3ff8e889a4.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fab37d6c4a697fe660387d3ff8e889a4.gif
new file mode 100644
index 00000000..46ef9fe0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fab37d6c4a697fe660387d3ff8e889a4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-faf4895169e5f2dd47098981399efe8e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-faf4895169e5f2dd47098981399efe8e.gif
new file mode 100644
index 00000000..ef169992
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-faf4895169e5f2dd47098981399efe8e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fb0f62e49ab81bcdf5d79d2bf9542446.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fb0f62e49ab81bcdf5d79d2bf9542446.gif
new file mode 100644
index 00000000..8eecadf2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fb0f62e49ab81bcdf5d79d2bf9542446.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fc25e36aa4f56e211ba7c17003d30cdd.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fc25e36aa4f56e211ba7c17003d30cdd.gif
new file mode 100644
index 00000000..84bc0991
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fc25e36aa4f56e211ba7c17003d30cdd.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fc3ffc226f182559eb73483ccbe7ee65.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fc3ffc226f182559eb73483ccbe7ee65.gif
new file mode 100644
index 00000000..6a11b5dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fc3ffc226f182559eb73483ccbe7ee65.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fcaa6f9572165f196fb7fb6e22931557.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fcaa6f9572165f196fb7fb6e22931557.gif
new file mode 100644
index 00000000..a15c7608
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fcaa6f9572165f196fb7fb6e22931557.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fd4cd5a78b3b4c8a13ed0184d6ca84b7.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fd4cd5a78b3b4c8a13ed0184d6ca84b7.gif
new file mode 100644
index 00000000..c2be4ced
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fd4cd5a78b3b4c8a13ed0184d6ca84b7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe3e01a305f27284ff5115f4c5ea0fa4.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe3e01a305f27284ff5115f4c5ea0fa4.gif
new file mode 100644
index 00000000..07c9b590
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe3e01a305f27284ff5115f4c5ea0fa4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe658058e9257029aa88bc89b34348de.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe658058e9257029aa88bc89b34348de.gif
new file mode 100644
index 00000000..aae11c70
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe658058e9257029aa88bc89b34348de.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe85b05b6cd2641c29612bc75a270208.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe85b05b6cd2641c29612bc75a270208.gif
new file mode 100644
index 00000000..2038d0db
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-fe85b05b6cd2641c29612bc75a270208.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ff7fa304ecf57b573120bafee2b1cb58.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ff7fa304ecf57b573120bafee2b1cb58.gif
new file mode 100644
index 00000000..0537c1d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ff7fa304ecf57b573120bafee2b1cb58.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ffe9f913124f345732e9f00fa258552e.gif b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ffe9f913124f345732e9f00fa258552e.gif
new file mode 100644
index 00000000..1a84bec4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/tex-ffe9f913124f345732e9f00fa258552e.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-1.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-1.PNG
new file mode 100644
index 00000000..23957a63
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-1.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-10.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-10.PNG
new file mode 100644
index 00000000..0408a0cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-10.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-11.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-11.PNG
new file mode 100644
index 00000000..a4e5a3a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-11.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-12.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-12.PNG
new file mode 100644
index 00000000..a0d0dc11
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-12.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-13.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-13.PNG
new file mode 100644
index 00000000..d117d9c3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-13.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-14.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-14.PNG
new file mode 100644
index 00000000..43fe727c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-14.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-15.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-15.PNG
new file mode 100644
index 00000000..ead7d8a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-15.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-16.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-16.PNG
new file mode 100644
index 00000000..2c9c0ba3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-16.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-17.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-17.PNG
new file mode 100644
index 00000000..594735a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-17.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-18.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-18.PNG
new file mode 100644
index 00000000..63b4a68d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-18.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-19.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-19.PNG
new file mode 100644
index 00000000..3ec2b669
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-19.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-2.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-2.PNG
new file mode 100644
index 00000000..1b8df71a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-2.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-20.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-20.PNG
new file mode 100644
index 00000000..79d249fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-20.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-21.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-21.PNG
new file mode 100644
index 00000000..618bfe7f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-21.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-22.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-22.PNG
new file mode 100644
index 00000000..e5e20cfc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-22.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-23.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-23.PNG
new file mode 100644
index 00000000..9b1cd291
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-23.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-24.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-24.PNG
new file mode 100644
index 00000000..cf0ab0aa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-24.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-25.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-25.PNG
new file mode 100644
index 00000000..ae6ac448
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-25.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-3.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-3.PNG
new file mode 100644
index 00000000..98aa33cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-3.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-4.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-4.PNG
new file mode 100644
index 00000000..aff39e58
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-4.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-5.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-5.PNG
new file mode 100644
index 00000000..db352ca0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-5.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-6.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-6.PNG
new file mode 100644
index 00000000..7e7edcc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-6.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-7.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-7.PNG
new file mode 100644
index 00000000..361b75a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-7.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-8.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-8.PNG
new file mode 100644
index 00000000..12725899
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-8.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-9.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-9.PNG
new file mode 100644
index 00000000..27c0622c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/图4-9.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/表4-1.PNG b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/表4-1.PNG
new file mode 100644
index 00000000..119beb6a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/hands-on-ml-2e-zh/img/表4-1.PNG differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/00.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/00.md
new file mode 100644
index 00000000..30ba27b9
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/00.md
@@ -0,0 +1,57 @@
+# 零、前言
+
+《Python 元学习实用指南》解释了元学习的基础知识，并帮助您了解元学习的概念。 您将经历各种一次学习算法，例如连体，原型，关系和记忆增强网络，并在 TensorFlow 和 Keras 中实现它们。 您还将了解最新的元学习算法，例如与模型无关的元学习（MAML），Reptile 和通过元学习进行快速上下文适应（CAML）。 然后，您将探索如何使用元 SGD 快速学习，并发现如何使用元学习进行无监督学习。
+
+# 这本书是给谁的
+
+本书将帮助希望学习元学习作为训练机器学习模型的高级方法的机器学习爱好者，人工智能研究人员和数据科学家。 本书假定您具备有关机器学习概念的实用知识和对 Python 编程的全面了解。
+
+# 充分利用这本书
+
+本书需要以下软件：
+
+*   Python
+*   Anaconda
+*   TensorFlow
+*   Keras
+
+# 下载示例代码文件
+
+您可以从 [www.packt.com](http://www.packt.com) 的帐户中下载本书的示例代码文件。 如果您在其他地方购买了此书，则可以访问 [www.packt.com/support](http://www.packt.com/support) 并注册以将文件直接通过电子邮件发送给您。
+
+您可以按照以下步骤下载代码文件：
+
+1.  登录或注册 [www.packt.com](http://www.packt.com) 。
+2.  选择支持选项卡。
+3.  单击代码下载和勘误。
+4.  在搜索框中输入书籍的名称，然后按照屏幕上的说明进行操作。
+
+下载文件后，请确保使用以下最新版本解压缩或解压缩文件夹：
+
+*   Windows 的 WinRAR/7-Zip
+*   Mac 版 Zipeg/iZip/UnRarX
+*   适用于 Linux 的 7-Zip/PeaZip
+
+本书的代码包也[托管在 GitHub 上](https://github.com/PacktPublishing/Hands-On-Meta-Learning-with-Python)。 如果代码有更新，它将在现有的 GitHub 存储库中进行更新。
+
+我们还有丰富的书籍和视频目录中的其他代码包，可通过[这里](https://github.com/PacktPublishing/)获得。 去看一下！
+
+# 使用约定
+
+本书中使用了许多文本约定。
+
+`CodeInText`：指示文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字。 这是一个示例：“`read_image`函数将图像作为输入并返回一个 NumPy 数组。”
+
+代码块设置如下：
+
+```py
+import re
+import numpy as np
+from PIL import Image
+```
+
+**粗体**：表示新术语，重要单词或您在屏幕上看到的单词。
+
+警告或重要提示如下所示。
+
+提示和技巧如下所示。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/01.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/01.md
new file mode 100644
index 00000000..a6459527
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/01.md
@@ -0,0 +1,163 @@
+# 一、元学习导论
+
+元学习是当前人工智能领域最有前途和趋势的研究领域之一。 它被认为是获得**广义人工智能**（**AGI**）的垫脚石。 在本章中，我们将了解什么是元学习以及为什么元学习是当前人工智能中最令人振奋的研究。 我们将了解什么是少拍，单拍和零拍学习，以及如何在元学习中使用它。 我们还将学习不同类型的元学习技术。 然后，我们将探索学习通过梯度下降学习梯度下降的概念，其中我们了解如何使用元学习器来学习梯度下降优化。 继续进行，我们还将学习优化作为几次学习的模型，我们将了解如何在几次学习设置中将元学习器用作优化算法。
+
+在本章中，您将了解以下内容：
+
+*   元学习
+*   元学习和几次学习
+*   元学习的类型
+*   通过梯度下降来元学习梯度下降
+*   为几次学习优化模型
+
+# 元学习
+
+目前，元学习是 AI 领域中令人振奋的研究领域。 凭借大量的研究论文和进步，元学习显然在 AI 领域取得了重大突破。 在进行元学习之前，让我们看看我们当前的 AI 模型是如何工作的。
+
+近年来，借助强大的算法（如生成对抗网络和胶囊网络），深度学习取得了飞速的发展。 但是深度神经网络的问题在于，我们需要拥有大量的训练集来训练我们的模型，而当我们只有很少的数据点时，它将突然失败。 假设我们训练了一个深度学习模型来执行任务`A`。 现在，当我们有一个新任务`B`，与`A`密切相关时，我们不能使用相同的模型。 我们需要从头开始为任务`B`训练模型。 因此，对于每项任务，我们都需要从头开始训练模型，尽管它们可能是相关的。
+
+深度学习真的是真正的 AI 吗？ 好吧，不是。 人类如何学习？ 我们将学习概括为多个概念并从中学习。 但是当前的学习算法仅能完成一项任务。 这就是元学习的用武之地。元学习产生了一个通用的 AI 模型，该模型可以学习执行各种任务，而无需从头开始进行训练。 我们使用很少的数据点在各种相关任务上训练我们的元学习模型，因此对于新的相关任务，它可以利用从先前任务中获得的学习知识，而不必从头开始进行训练。 许多研究人员和科学家认为，元学习可以使我们更接近实现 AGI。 在接下来的部分中，我们将确切学习元学习模型如何元学习过程。
+
+# 元学习和少样本
+
+从较少的数据点中学习称为**少样本学习**或 **K 次学习**，其中`k`表示数据集中每个类的数据点的数量。 假设我们正在对猫和狗进行图像分类。 如果我们正好有一只狗和一只猫的图像，那么它被称为**单次学习**，也就是说，我们每个类仅从一个数据点开始学习。 如果我们有 10 张狗的图像和 10 张猫的图像，则称为 10 次学习。 因此， K 次学习中的`k`意味着每个类都有许多数据点。 还有**零次学习**，每个类没有任何数据点。 等待。 什么？ 根本没有数据点时，我们如何学习？ 在这种情况下，我们将没有数据点，但是将获得有关每个类的元信息，并且将从元信息中学习。 由于我们的数据集中有两个类别，即狗和猫，因此可以将其称为双向学习`k`次学习； 因此`n`路表示我们在数据集中拥有的类的数量。
+
+为了使我们的模型从一些数据点中学习，我们将以相同的方式对其进行训练。 因此，当我们有一个数据集`D`时，我们从数据集中存在的每个类中采样一些数据点，并将其称为**支持集**。 同样，我们从每个类中采样一些不同的数据点，并将其称为**查询集**。 因此，我们使用支持集训练模型，并使用查询集进行测试。 我们以**剧集形式**训练模型-也就是说，在每个剧集中，我们从数据集中`D`中采样一些数据点，准备支持集和查询集，然后在支持集上训练，并在查询集上进行测试。 因此，在一系列剧集中，我们的模型将学习如何从较小的数据集中学习。 我们将在接下来的章节中对此进行更详细的探讨。
+
+# 元学习的类型
+
+从找到最佳权重集到学习优化器，可以通过多种方式对元学习进行分类。 我们将元学习分为以下三类：
+
+*   学习度量空间
+*   学习初始化
+*   学习优化器
+
+# 学习度量空间
+
+在基于度量的元学习设置中，我们将学习适当的度量空间。 假设我们要学习两个图像之间的相似性。 在基于度量的设置中，我们使用一个简单的神经网络从两个图像中提取特征，并通过计算这两个图像的特征之间的距离来找到相似性。 这种方法广泛用于我们没有很多数据点的几次学习设置中。 在接下来的章节中，我们将学习基于度量的学习算法，例如连体网络，原型网络和关系网络。
+
+# 学习初始化
+
+在这种方法中，我们尝试学习最佳的初始参数值。 那是什么意思？ 假设我们正在建立一个神经网络来对图像进行分类。 首先，我们初始化随机权重，计算损失，并通过梯度下降使损失最小化。 因此，我们将通过梯度下降找到最佳权重，并将损失降到最低。 代替随机初始化权重，如果我们可以使用最佳值或接近最佳值来初始化权重，那么我们可以更快地达到收敛，并且可以很快学习。 在接下来的章节中，我们将看到如何使用 MAML，Reptile 和元 SGD 等算法精确找到这些最佳初始权重。
+
+# 学习优化器
+
+在这种方法中，我们尝试学习优化器。 我们通常如何优化神经网络？ 我们通过在大型数据集上进行训练来优化神经网络，并使用梯度下降来最大程度地减少损失。 但是在少数学习设置中，梯度下降失败了，因为我们将拥有较小的数据集。 因此，在这种情况下，我们将学习优化器本身。 我们将有两个网络：一个实际尝试学习的基础网络和一个优化该基础网络的元网络。 在接下来的部分中，我们将探讨其工作原理。
+
+# 通过梯度下降来元学习梯度下降
+
+现在，我们将看到一种有趣的元学习算法，称为“通过梯度下降来元学习梯度下降”。 这个名字不是很令人生畏吗？ 好吧，事实上，它是最简单的元学习算法之一。 我们知道，在元学习中，我们的目标是元学习过程。 通常，我们如何训练神经网络？ 我们通过计算损失并通过梯度下降使损失最小化来训练我们的网络。 因此，我们使用梯度下降来优化模型。 除了使用梯度下降，我们还能自动学习此优化过程吗？
+
+但是我们如何学习呢？ 我们用**循环神经网络**（**RNN**）取代了传统的优化器（梯度下降）。 但这如何工作？ 如何用 RNN 代替梯度下降？ 如果您仔细研究，我们在梯度下降中到底在做什么？ 这基本上是从输出层到输入层的一系列更新，我们将这些更新存储在一个状态中。 因此，我们可以使用 RNN 并将更新存储在 RNN 单元中。
+
+因此，该算法的主要思想是用 RNN 代替梯度下降。 但是问题是 RNN 如何学习？ 我们如何优化 RNN？ 为了优化 RNN，我们使用梯度下降。 **因此，简而言之，我们正在学习通过 RNN 执行梯度下降，并且 RNN 通过梯度下降进行了优化，这就是所谓的通过梯度下降学习梯度下降的名称。**
+
+我们称我们的 RNN 为优化器，而将我们的基础网络称为优化器。 假设我们有一个由某些参数`θ`参数化的模型`f`。 我们需要找到最佳参数`θ`，以使损失最小化。 通常，我们通过梯度下降找到最佳参数，但是现在我们使用 RNN 来找到最佳参数。 因此，RNN（优化器）找到最佳参数，并将其发送到最优化（基础网络）； 优化器使用此参数，计算损失，然后将损失发送到 RNN。 基于损失，RNN 通过梯度下降进行优化，并更新模型参数`θ`。
+
+令人困惑？ 查看下图：通过优化器（RNN）优化了我们的 Optimize（基础网络）。 优化器将更新后的参数（即权重）发送给优化器，优化器使用这些权重，计算损失，然后将损失发送给优化器。 基于损失，优化器通过梯度下降改进自身：
+
+![](img/9f81568a-aa91-42da-9445-355a7279ccbe.png)
+
+假设我们的基础网络（优化器）由`θ`参数化，而我们的 RNN（优化器）由`φ`参数化。 优化器的损失函数是什么？ 我们知道优化器的作用（RNN）是减少优化器（基础网络）的损失。 因此，优化器的损失是优化器的平均损失，可以表示为：
+
+![](img/25b67e65-f3f2-410c-b94a-b636df9c41d3.png)
+
+我们如何最小化这种损失？ 通过找到正确的`φ`，我们可以通过梯度下降使这种损失最小化。 好的，RNN 作为输入是什么，它将返回什么输出？ 我们的优化器，即我们的 RNN，将优化器`ᐁ[t]`的梯度及其先前状态`h[t]`作为输入，并返回输出，即更新`g[t]`，该更新可将优化器的损失降到最低。 让我们用函数`m`表示我们的 RNN：
+
+![](img/7a5aea0c-8589-449e-aff9-3de1ef89f109.png)
+
+在前面的公式中，适用以下条件：
+
+*   `ᐁ[t]`是我们模型（优化程序）`f`的梯度，即`ᐁ[t] = ᐁ[t](f(θ[t]))`
+*   `h[t]`是 RNN 的隐藏状态
+*   `φ`是 RNN 的参数
+*   输出`g[t]`和`h[t + 1]`分别是 RNN 的更新和下一个状态
+
+因此，我们使用`θ[t + 1] = θ[t] + g[t]`更新了模型参数值。
+
+如下图所示，我们的优化器`m`，将隐藏状态`h[t]`和`θ[t]`的梯度`ᐁ[t]`作为输入，计算`g[t]`并将其发送到我们的优化器，然后在其中添加`θ[t]`，并在接下来的时间步骤中成为`θ[t + 1]`进行更新：
+
+![](img/b450d276-d3ef-408a-9a7d-aa3177d40e9c.png)
+
+因此，通过这种方式，我们通过梯度下降学习梯度下降优化。
+
+# 为几次学习优化模型
+
+我们知道，在几次学习中，我们从较少的数据点中学习，但是如何在几次学习环境中应用梯度下降呢？ 在几次学习设置中，由于数据点很少，梯度下降突然失败。 梯度下降优化需要更多的数据点才能达到收敛并最大程度地减少损失。 因此，我们需要在少数情况下获得更好的优化技术。 假设我们有一个由某些参数`θ`参数化的`f`模型。 我们使用一些随机值初始化此参数`θ`，并尝试使用梯度下降法找到最佳值。 让我们回想一下梯度下降的更新方程：
+
+![](img/deada297-d555-46fb-b0c7-97c407cb09cb.png)
+
+在前面的公式中，适用以下条件：
+
+*   `θ[t]`是更新的参数
+*   `θ[t - 1]`是上一个时间步的参数值
+*   `α[t]`是学习率
+*   `ᐁ[θ[t - 1]]L[t]`是损失函数相对于`θ[t - 1]`的梯度
+
+梯度下降的更新方程看起来不熟悉吗？ 是的，您猜对了：它类似于 LSTM 的单元状态更新方程式，可以这样写：
+
+![](img/0505be09-05c7-41b6-8169-7e5bd4adc106.png)
+
+我们可以将 LSTM 单元更新方程与梯度下降完全相关，例如`f[t] = 1`，则适用以下条件：
+
+![](img/84ce23d1-91dd-4b99-ade2-f6702fb55e1c.png)
+
+![](img/d29f498d-094a-4516-939f-09af6c9e9287.png)
+
+![](img/24750401-81a6-4f3f-9b3e-60ef2017b393.png)
+
+因此，我们可以使用 LSTM 作为优化器，而不是在少数学习机制中使用梯度下降作为优化器。 我们的元学习器是 LSTM，它学习用于训练模型的更新规则。 因此，我们使用两个网络：一个是我们的基础学习器，它学习执行任务，另一个是元学习器，它试图找到最佳参数。 但这如何工作？
+
+我们知道，在 LSTM 中，我们使用了一个“遗忘门”来丢弃内存中不需要的信息，它可以表示为：
+
+![](img/884773a0-e60d-4404-9177-6fe069a63c92.png)
+
+这个遗忘门在我们的优化设置中如何发挥作用？ 假设我们处于损失高的位置，并且梯度接近零。 我们如何摆脱这个位置？ 在这种情况下，我们可以缩小模型的参数，而忽略其先前值的某些部分。 因此，我们可以使用我们的遗忘门做到这一点，它将当前参数值`θ[t - 1]`，当前损失`L[t]`，当前梯度`ᐁ[θ[t - 1]]`和先前的遗忘门作为输入; 它可以表示如下：
+
+![](img/38abac4c-e8fb-4232-95c4-7ae6be154f71.png)
+
+现在让我们进入输入门。 我们知道，LSTM 中的输入门用于确定要更新的值，它可以表示为：
+
+![](img/f0af6369-c82e-453e-9c76-c72c259525d3.png)
+
+在几次学习设置中，我们可以使用此输入门来调整学习速度，以快速学习，同时防止出现差异：
+
+![](img/60110071-3fb1-471e-9b9c-8fc73797e836.png)
+
+因此，我们的元学习器经过几次更新后即可学习`i[t]`和`f[t]`的最佳值。
+
+但是，这如何工作？
+
+假设我们有一个由`Θ`参数化的基础网络，和`M`参数化的 LSTM 元学习器`R`。 假设我们有一个数据集`D`。 我们将数据集分为`D_train`和`D_test`分别进行训练和测试。 首先，我们随机初始化元学习器参数`φ`。
+
+对于某些`T`迭代次数，我们从`D_train`中随机采样数据点，计算损失，然后相对于模型参数`Θ`计算损失的梯度。 现在，我们将此梯度，损失和元学习器参数`φ`输入到我们的元学习器。 我们的元学习器`R`将返回单元状态`c[t]`，然后我们将时间`t`的基础网络`M`的参数`Θ[t]`更新为`c[t]`。 我们重复`N`次，如下图所示：
+
+![](img/c85a3a23-876b-46aa-a6c1-6a2b664e0c2a.png)
+
+因此，在`T`次迭代之后，我们将获得一个最佳参数`θ[T]`。 但是，我们如何检查`θ[T]`的表现以及如何更新元学习器参数？ 我们采用测试集，并使用参数`θ[T]`计算测试集的损失。 然后，我们根据元学习器参数`φ`计算损失的梯度，然后更新`φ`，如下所示：
+
+![](img/7e4c2e2a-1fe8-47fe-ba23-096cf093cdc4.png)
+
+我们对`n`个迭代进行此操作，并更新了元学习器。 总体算法如下所示：
+
+![](img/d1c6ebed-3fa7-4963-b40f-d5c562899c7c.png)
+
+# 总结
+
+我们首先了解了元学习是什么，以及元学习中如何使用单发，少发和零发学习。 我们了解到，支持集和查询集更像是训练集和测试集，但每个类中都有`k`个数据点。 我们还看到了`n`-方式 k 次的含义。 后来，我们了解了不同类型的元学习技术。 然后，我们探索了通过梯度下降学习梯度下降的学习方法，其中我们看到了 RNN 如何用作优化器来优化基础网络。 后来，我们将优化视为快速学习的模型，其中我们使用 LSTM 作为元学习器，以在快速学习环境中进行优化。
+
+在下一章中，我们将学习称为连体网络的基于度量的元学习算法，并且将了解如何使用连体网络执行人脸和音频识别。
+
+# 问题
+
+1.  什么是元学习？
+2.  什么是几次学习？
+3.  什么是支持集？
+4.  什么是查询集？
+5.  基于度量的学习称为什么？
+6.  我们如何进行元学习训练？
+
+# 进一步阅读
+
+*   [学习通过梯度下降学习梯度下降](https://arxiv.org/pdf/1606.04474.pdf)
+*   [优化作为少量学习设置的模型](https://openreview.net/pdf?id=rJY0-Kcll)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/02.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/02.md
new file mode 100644
index 00000000..9bb46487
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/02.md
@@ -0,0 +1,624 @@
+# 二、使用连体网络的人脸和音频识别
+
+在上一章中，我们了解了什么是元学习和不同类型的元学习技术。 我们还看到了如何通过梯度下降和优化来学习梯度下降，这是一次快速学习的模型。 在本章中，我们将学习一种称为**连体网络**的最常用的基于度量的单次学习算法。 我们将看到连体网络如何从很少的数据点学习以及如何将它们用于解决低数据问题。 之后，我们将详细探讨连体网络的架构，并看到连体网络的一些应用。 在本章的最后，我们将学习如何使用连体网络构建人脸和音频识别模型。
+
+在本章中，您将学习以下内容：
+
+*   什么是连体网络？
+*   连体网络的架构
+*   连体网络的应用
+*   将连体网络用于人脸识别
+*   使用连体网络构建音频识别模型
+
+# 什么是连体网络？
+
+连体网络是神经网络的一种特殊类型，它是最简单且使用最广泛的单发学习算法之一。 正如我们在上一章中学到的，单次学习是一种技术，其中我们每个类仅从一个训练示例中学习。 因此，在每个类别中没有很多数据点的应用中主要使用连体网络。 例如，假设我们要为我们的组织建立一个人脸识别模型，并且在组织中有大约 500 个人在工作。 如果我们想从头开始使用**卷积神经网络**（**CNN**）建立人脸识别模型，那么我们需要这 500 人中的许多人来训练网络并获得准确率良好的图像。 但是显然，我们不会为这 500 个人提供很多图像，因此除非有足够的数据点，否则使用 CNN 或任何深度学习算法构建模型都是不可行的。 因此，在这种情况下，我们可以求助于复杂的单次学习算法，例如连体网络，该算法可以从更少的数据点进行学习。
+
+但是，连体网络如何工作？ 连体网络基本上由两个对称的神经网络组成，它们共享相同的权重和结构，并且都使用能量函数`E`最终结合在一起。 我们的连体网络的目标是了解两个输入值是相似还是相异。 假设我们有两个图像`X[1]`和`X2`，我们想了解两个图像是相似还是相异。
+
+如下图所示，我们将图像`X[1]`馈送到网络`A`和图像`X[2]`到另一个网络`B`。 这两个网络的作用是为输入图像生成嵌入（特征向量）。 因此，我们可以使用任何可以嵌入我们的网络。 由于我们的输入是图像，因此我们可以使用卷积网络来生成嵌入，即用于提取特征。 请记住，CNN 在这里的作用仅仅是提取特征而不是进行分类。 我们知道这些网络应该具有相同的权重和架构，如果我们的网络`A`是三层 CNN，那么我们的网络`B`也应该是三层 CNN，我们这两个网络必须使用相同的权重集。 因此，网络`A`和网络`B`将为我们提供输入图像`X[1]`和`X[2]`的嵌入。 然后，我们会将这些嵌入信息提供给能量函数，从而告诉我们两个输入的相似程度。 能量函数基本上是任何相似性度量，例如欧几里得距离和余弦相似性。
+
+![](img/a7f1a41e-4291-4bec-87dd-fa6bc1d0c00b.png)
+
+连体网络不仅用于人脸识别，而且还广泛用于我们没有很多数据点和任务需要学习两个输入之间相似性的应用中。 连体网络的应用包括签名验证，相似问题检索，对象跟踪等。 我们将在下一部分中详细研究连体网络。
+
+# 连体网络的架构
+
+现在，我们对连体网络有了基本的了解，我们将详细探讨它们。 下图显示了连体网络的架构：
+
+![](img/5b9384ce-2640-4df1-8d41-f668a5da1b79.png)
+
+如上图所示，连体网络由两个相同的网络组成，它们共享相同的权重和架构。 假设我们有两个输入，`X[1]`和`X[2]`。 我们将输入`X[1]`馈送到网络`A`，即`f[w](X[1])`，然后将输入的`X[2]`馈送到网络`B`，即`f[w](X[2])`。 您会注意到，这两个网络的权重相同`w`，它们将为我们的输入`X[1]`和`X[2]`生成嵌入。 然后，我们将这些嵌入提供给能量函数`E`，这将使我们在两个输入之间具有相似性。
+
+可以表示为：
+
+![](img/bec7e4fe-5f04-4f09-8d62-0c2aac4e48fb.png)
+
+假设我们使用欧几里得距离作为能量函数，那么如果`X[1]`和`X[2]`相似。 如果输入值不相同，则`E`的值将很大。
+
+假设您有两个句子，句子 1 和句子 2。我们将句子 1 馈送到网络`A`，将句子 2 馈送到网络`B`。 假设我们的网络`A`和网络`B`都是 LSTM 网络，它们共享相同的权重。 因此，网络`A`和网络`B`将分别为句子 1 和句子 2 生成单词嵌入。 然后，我们将这些嵌入提供给能量函数，从而为我们提供两个句子之间的相似度得分。 但是我们如何训练我们的连体网络呢？ 数据应该如何？ 有哪些特征和标签？ 我们的目标函数是什么？
+
+连体网络的输入应该成对出现`(X[1], X[2])`以及它们的二进制标签`Y ∈ (0, 1)`，指出输入对是真对（相同）还是非对（不同）。 正如您在下表中所看到的，我们将句子成对存在，并且标签暗示句子对是真实的（1）还是假的（0）：
+
+![](img/be1f76a8-acc1-4eb3-8ff8-3111ce40625d.png)
+
+那么，我们的连体网络的损失函数是什么？ 由于连体网络的目标不是执行分类任务而是为了了解两个输入值之间的相似性，因此我们使用对比损失函数。
+
+可以表示为：
+
+![](img/7aff44fc-ed83-4b1e-ba16-fc5457ef9b7d.png)
+
+在前面的公式中，`Y`的值是真实的标签，如果两个输入值相似，则为`1`；如果两个输入值为`0`是不同的，`E`是我们的能量函数，可以是任何距离度量。 术语**边距**用于保持约束，也就是说，当两个输入值互不相同时，并且如果它们的距离大于边距，则不会造成损失。
+
+# 连体网络的应用
+
+如我们所知，连体网络通过使用相同的架构找到两个输入值之间的相似性来学习。 它是涉及两个实体之间的计算相似性的任务中最常用的一次学习算法之一。 它功能强大，可作为低数据问题的解决方案。
+
+在发表连体网络的[第一篇论文](https://papers.nips.cc/paper/769-signature-verification-using-a-siamese-time-delay-neural-network.pdf)中，作者描述了网络对于签名验证任务的重要性。 签名验证任务的目的是识别签名的真实性。 因此，作者用真正的和不正确的签名对训练了连体网络，并使用了卷积网络从签名中提取特征。 提取特征后，他们测量了两个特征向量之间的距离以识别相似性。 因此，当出现新的签名时，我们提取特征并将其与签名者存储的特征向量进行比较。 如果距离小于某个阈值，则我们接受签名为真实签名，否则我们拒绝签名。
+
+连体网络也广泛用于 NLP 任务。 [有一篇有趣的论文](http://www.aclweb.org/anthology/W16-1617)，作者使用连体网络来计算文本相似度。 他们使用连体网络作为双向单元，并使用余弦相似度作为能量函数来计算文本之间的相似度。
+
+连体网络的应用是无止境的。 它们已经堆叠了用于执行各种任务的各种架构，例如人类动作识别，场景更改检测和机器翻译。
+
+# 将连体网络用于人脸识别
+
+我们将通过建立人脸识别模型来了解连体网络。 我们网络的目标是了解两个面孔是相似还是相异。 我们使用 AT&T 人脸数据库，[可以从此处下载](https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html)。
+
+下载并解压缩存档后，可以看到文件夹`s1`，`s2`，最高到`s40`，如下所示：
+
+![](img/cd4a7f0a-1143-4654-b2f3-6cbd3bccfad2.png)
+
+这些文件夹中的每一个都有从不同角度拍摄的 10 个人的不同图像。 例如，打开文件夹`s1`。 如您所见，一个人有 10 张不同的图像：
+
+![](img/94499413-45f0-44d2-b0cc-33930ec3a749.png)
+
+我们打开并检查文件夹`s13`：
+
+![](img/3ebe64c4-215f-42a9-a6fd-dc5a61a10d7b.png)
+
+我们知道，连体网络需要输入值和标签一起作为一对，因此我们必须以这种方式创建数据。 因此，我们将从同一文件夹中随机获取两张图像，并将它们标记为真正的一对，而我们将从两个不同文件夹中获取单幅图像，并将它们标记为不正确的一对。 以下屏幕快照显示了一个示例； 如您所见，一对真实的人具有相同的人的形象，而一对不真实的人具有不同的人的形象：
+
+![](img/adbe22c0-decf-4c78-803e-dbd84d4ef58b.png)
+
+一旦我们将数据与它们的标签配对在一起，就可以训练我们的连体网络。 从图像对中，我们将一个图像馈入网络`A`，将另一个图像馈入网络`B`。这两个网络的作用仅仅是提取特征向量。 因此，我们使用具有**整流线性单元**（**ReLU**）激活的两个卷积层来提取特征。 一旦了解了特征，就将来自两个网络的合成特征向量馈入能量函数，以测量相似度。 我们使用欧几里得距离作为我们的能量函数。 因此，我们通过提供图像对来训练我们的网络，以了解它们之间的语义相似性。 现在，我们将逐步看到这一点。
+
+为了更好地理解，您可以检查完整的代码，该代码可以在 Jupyter 笔记本中找到，[并在此处进行解释](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/02.%20Face%20and%20Audio%20Recognition%20using%20Siamese%20Networks/2.4%20Face%20Recognition%20Using%20Siamese%20Network.ipynb)。
+
+首先，我们将导入所需的库：
+
+```py
+import re
+import numpy as np
+from PIL import Image
+
+from sklearn.model_selection import train_test_split
+from keras import backend as K
+from keras.layers import Activation
+from keras.layers import Input, Lambda, Dense, Dropout, Convolution2D, MaxPooling2D, Flatten
+from keras.models import Sequential, Model
+from keras.optimizers import RMSprop
+
+```
+
+现在，我们定义了一个用于读取输入图像的函数。 `read_image`函数将图像作为输入并返回一个 NumPy 数组：
+
+```py
+def read_image(filename, byteorder='>'):
+
+    #first we read the image, as a raw file to the buffer
+    with open(filename, 'rb') as f:
+        buffer = f.read()
+
+    #using regex, we extract the header, width, height and maxval of the image
+    header, width, height, maxval = re.search(
+        b"(^P5\s(?:\s*#.*[\r\n])*"
+        b"(\d+)\s(?:\s*#.*[\r\n])*"
+        b"(\d+)\s(?:\s*#.*[\r\n])*"
+        b"(\d+)\s(?:\s*#.*[\r\n]\s)*)", buffer).groups()
+
+    #then we convert the image to numpy array using np.frombuffer which interprets buffer as one dimensional array
+    return np.frombuffer(buffer,
+                            dtype='u1' if int(maxval) < 256 else byteorder+'u2',
+                            count=int(width)*int(height),
+                            offset=len(header)
+                            ).reshape((int(height), int(width)))
+
+```
+
+例如，我们打开一个图像：
+
+```py
+Image.open("data/orl_faces/s1/1.pgm")
+```
+
+![](img/c6a2611a-2ba3-4c55-85a7-ba47d62ffc40.png)
+
+当我们将此图像提供给`read_image`函数时，它将作为 NumPy 数组返回：
+
+```py
+img = read_image('data/orl_faces/s1/1.pgm')
+img.shape
+(112, 92)
+```
+
+现在，我们定义另一个函数`get_data`，用于生成我们的数据。 众所周知，对于连体网络，数据应采用带有二进制标签的成对形式（正版和非正版）。
+
+首先，我们从同一目录中读取（`img1`和`img2`）图像，并将它们存储在`x_genuine_pair`数组中，然后将`y_genuine`分配给`1`。 接下来，我们从不同目录中读取（`img1`，`img2`）图像，并将它们存储在`x_imposite`对中，并将`y_imposite`分配给`0`。
+
+最后，我们将`x_genuine_pair`和`x_imposite`都连接到`X`以及`y_genuine`和`y_imposite`都连接到`Y`：
+
+```py
+size = 2
+total_sample_size = 10000
+
+def get_data(size, total_sample_size):
+    #read the image
+    image = read_image('data/orl_faces/s' + str(1) + '/' + str(1) + '.pgm', 'rw+')
+    #reduce the size
+    image = image[::size, ::size]
+    #get the new size
+    dim1 = image.shape[0]
+    dim2 = image.shape[1]
+
+    count = 0
+
+    #initialize the numpy array with the shape of [total_sample, no_of_pairs, dim1, dim2]
+    x_geuine_pair = np.zeros([total_sample_size, 2, 1, dim1, dim2]) # 2 is for pairs
+    y_genuine = np.zeros([total_sample_size, 1])
+
+    for i in range(40):
+        for j in range(int(total_sample_size/40)):
+            ind1 = 0
+            ind2 = 0
+
+            #read images from same directory (genuine pair)
+            while ind1 == ind2:
+                ind1 = np.random.randint(10)
+                ind2 = np.random.randint(10)
+
+            # read the two images
+            img1 = read_image('data/orl_faces/s' + str(i+1) + '/' + str(ind1 + 1) + '.pgm', 'rw+')
+            img2 = read_image('data/orl_faces/s' + str(i+1) + '/' + str(ind2 + 1) + '.pgm', 'rw+')
+
+            #reduce the size
+            img1 = img1[::size, ::size]
+            img2 = img2[::size, ::size]
+
+            #store the images to the initialized numpy array
+            x_geuine_pair[count, 0, 0, :, :] = img1
+            x_geuine_pair[count, 1, 0, :, :] = img2
+
+            #as we are drawing images from the same directory we assign label as 1\. (genuine pair)
+            y_genuine[count] = 1
+            count += 1
+
+    count = 0
+    x_imposite_pair = np.zeros([total_sample_size, 2, 1, dim1, dim2])
+    y_imposite = np.zeros([total_sample_size, 1])
+
+    for i in range(int(total_sample_size/10)):
+        for j in range(10):
+
+            #read images from different directory (imposite pair)
+            while True:
+                ind1 = np.random.randint(40)
+                ind2 = np.random.randint(40)
+                if ind1 != ind2:
+                    break
+
+            img1 = read_image('data/orl_faces/s' + str(ind1+1) + '/' + str(j + 1) + '.pgm', 'rw+')
+            img2 = read_image('data/orl_faces/s' + str(ind2+1) + '/' + str(j + 1) + '.pgm', 'rw+')
+
+            img1 = img1[::size, ::size]
+            img2 = img2[::size, ::size]
+
+            x_imposite_pair[count, 0, 0, :, :] = img1
+            x_imposite_pair[count, 1, 0, :, :] = img2
+            #as we are drawing images from the different directory we assign label as 0\. (imposite pair)
+            y_imposite[count] = 0
+            count += 1
+
+    #now, concatenate, genuine pairs and imposite pair to get the whole data
+    X = np.concatenate([x_geuine_pair, x_imposite_pair], axis=0)/255
+    Y = np.concatenate([y_genuine, y_imposite], axis=0)
+
+    return X, Y
+```
+
+现在，我们生成数据并检查数据大小。 如您所见，我们有 20,000 个数据点，其中 10,000 个是真实对，而 10,000 个是非对：
+
+```py
+X, Y = get_data(size, total_sample_size)
+
+X.shape
+(20000, 2, 1, 56, 46)
+
+Y.shape
+(20000, 1)
+```
+
+接下来，我们将训练和测试的数据划分为 75% 的训练和 25% 的测试比例：
+
+```py
+x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=.25)
+```
+
+现在我们已经成功地生成了数据，我们就建立了连体网络。 首先，我们定义基础网络，该网络基本上是用于特征提取的卷积网络。 我们使用 ReLU 激活和最大池化以及一个平坦层来构建两个卷积层：
+
+```py
+def build_base_network(input_shape):
+
+    seq = Sequential()
+
+    nb_filter = [6, 12]
+    kernel_size = 3
+
+    #convolutional layer 1
+    seq.add(Convolution2D(nb_filter[0], kernel_size, kernel_size, input_shape=input_shape,
+                          border_mode='valid', dim_ordering='th'))
+    seq.add(Activation('relu'))
+    seq.add(MaxPooling2D(pool_size=(2, 2))) 
+    seq.add(Dropout(.25))
+
+    #convolutional layer 2
+    seq.add(Convolution2D(nb_filter[1], kernel_size, kernel_size, border_mode='valid', dim_ordering='th'))
+    seq.add(Activation('relu'))
+    seq.add(MaxPooling2D(pool_size=(2, 2), dim_ordering='th')) 
+    seq.add(Dropout(.25))
+
+    #flatten 
+    seq.add(Flatten())
+    seq.add(Dense(128, activation='relu'))
+    seq.add(Dropout(0.1))
+    seq.add(Dense(50, activation='relu'))
+    return seq
+```
+
+接下来，我们将图像对馈送到基础网络，该基础网络将返回嵌入，即特征向量：
+
+```py
+input_dim = x_train.shape[2:]
+img_a = Input(shape=input_dim)
+img_b = Input(shape=input_dim)
+
+base_network = build_base_network(input_dim)
+feat_vecs_a = base_network(img_a)
+feat_vecs_b = base_network(img_b)
+```
+
+`feat_vecs_a`和`feat_vecs_b`是我们图像对的特征向量。 接下来，我们将这些特征向量馈入能量函数以计算它们之间的距离，然后使用欧几里得距离作为能量函数：
+
+```py
+def euclidean_distance(vects):
+    x, y = vects
+    return K.sqrt(K.sum(K.square(x - y), axis=1, keepdims=True))
+
+def eucl_dist_output_shape(shapes):
+    shape1, shape2 = shapes
+    return (shape1[0], 1)
+
+distance = Lambda(euclidean_distance, output_shape=eucl_dist_output_shape)([feat_vecs_a, feat_vecs_b]) 
+```
+
+现在，我们将周期长度设置为`13`，并使用 RMS 属性进行优化并定义我们的模型：
+
+```py
+epochs = 13
+rms = RMSprop()
+
+model = Model(input=[input_a, input_b], output=distance)
+```
+
+接下来，我们将损失函数定义为`contrastive_loss`函数并编译模型：
+
+```py
+def contrastive_loss(y_true, y_pred):
+    margin = 1
+    return K.mean(y_true * K.square(y_pred) + (1 - y_true) * K.square(K.maximum(margin - y_pred, 0)))
+
+model.compile(loss=contrastive_loss, optimizer=rms)
+```
+
+现在，我们训练模型：
+
+```py
+img_1 = x_train[:, 0]
+img_2 = x_train[:, 1] 
+
+model.fit([img_1, img_2], y_train, validation_split=.25, batch_size=128, verbose=2, nb_epoch=epochs)
+```
+
+您会看到损失随着时间的推移而减少：
+
+```py
+Train on 11250 samples, validate on 3750 samples
+Epoch 1/13
+ - 60s - loss: 0.2179 - val_loss: 0.2156
+Epoch 2/13
+ - 53s - loss: 0.1520 - val_loss: 0.2102
+Epoch 3/13
+ - 53s - loss: 0.1190 - val_loss: 0.1545
+Epoch 4/13
+ - 55s - loss: 0.0959 - val_loss: 0.1705
+Epoch 5/13
+ - 52s - loss: 0.0801 - val_loss: 0.1181
+Epoch 6/13
+ - 52s - loss: 0.0684 - val_loss: 0.0821
+Epoch 7/13
+ - 52s - loss: 0.0591 - val_loss: 0.0762
+Epoch 8/13
+ - 52s - loss: 0.0526 - val_loss: 0.0655
+Epoch 9/13
+ - 52s - loss: 0.0475 - val_loss: 0.0662
+Epoch 10/13
+ - 52s - loss: 0.0444 - val_loss: 0.0469
+Epoch 11/13
+ - 52s - loss: 0.0408 - val_loss: 0.0478
+Epoch 12/13
+ - 52s - loss: 0.0381 - val_loss: 0.0498
+Epoch 13/13
+ - 54s - loss: 0.0356 - val_loss: 0.0363
+```
+
+现在，我们使用测试数据进行预测：
+
+```py
+pred = model.predict([x_test[:, 0], x_test[:, 1]])
+```
+
+接下来，我们定义一个用于计算精度的函数：
+
+```py
+def compute_accuracy(predictions, labels):
+    return labels[predictions.ravel() < 0.5].mean()
+```
+
+现在，我们对模型的准确率：
+
+```py
+compute_accuracy(pred, y_test)
+
+0.9779092702169625
+```
+
+# 使用连体网络构建音频识别模型
+
+在上一教程中，我们了解了如何使用连体网络识别人脸。 现在，我们将看到如何使用连体网络来识别音频。 我们将训练我们的网络，以区分狗的声音和猫的声音。 可以从此处下载[猫和狗音频的数据集](https://www.kaggle.com/mmoreaux/audio-cats-and-dogs#cats_dogs.zip)。
+
+下载数据后，我们将数据分成三个文件夹：`Dogs`，`Sub_dogs`和`Cats`。 在`Dogs`和`Sub_dogs`中，放置狗的吠叫音频，在`Cats`文件夹中，放置猫的音频。 我们网络的目标是识别音频是狗的吠叫还是其他声音。 众所周知，对于连体网络，我们需要成对输入输入。 我们从`Dogs`和`Sub_dogs`文件夹中选择一个音频并将其标记为真正对，并从`Dogs`和`Cats`文件夹中选择一个音频并将它们标记为非对。 即，`(Dogs, Sub_dogs)`是真正的对，`(Dogs, Cats)`是非配对的。
+
+现在，我们将逐步展示如何训练连体网络以识别音频是狗的吠叫声还是其他声音。
+
+为了更好地理解，您可以检查完整的代码，该代码可以在 Jupyter 笔记本中找到，[并在此处进行解释](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/02.%20Face%20and%20Audio%20Recognition%20using%20Siamese%20Networks/2.5%20Audio%20Recognition%20using%20Siamese%20Network.ipynb)。
+
+首先，我们将加载所有必需的库：
+
+```py
+#basic imports
+import glob
+import IPython
+from random import randint
+
+#data processing
+import librosa
+import numpy as np
+
+#modelling
+from sklearn.model_selection import train_test_split
+
+from keras import backend as K
+from keras.layers import Activation
+from keras.layers import Input, Lambda, Dense, Dropout, Flatten
+from keras.models import Model
+from keras.optimizers import RMSprop
+```
+
+在继续之前，我们加载并收听音频片段：
+
+```py
+IPython.display.Audio("data/audio/Dogs/dog_barking_0.wav")
+
+IPython.display.Audio("data/audio/Cats/cat_13.wav")
+```
+
+那么，如何将这些原始音频馈送到我们的网络？ 我们如何从原始音频中提取有意义的特征？ 众所周知，神经网络仅接受向量化输入，因此我们需要将音频转换为特征向量。 我们该怎么做？ 嗯，我们可以通过几种机制生成音频的嵌入。 这样的流行机制之一是**梅尔频率倒谱系数**（**MFCC**）。 MFCC 使用对数功率谱在频率的非线性梅尔尺度上的线性余弦变换来转换音频的短期功率谱。 要了解有关 MFCC 的更多信息，[请查看此不错的教程](http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/)。
+
+我们将使用`librosa`库中的 MFCC 函数来生成音频嵌入。 因此，我们定义了一个名为`audio2vector`的函数，该函数在给定音频文件的情况下返回音频嵌入：
+
+```py
+def audio2vector(file_path, max_pad_len=400):
+
+    #read the audio file
+    audio, sr = librosa.load(file_path, mono=True)
+
+    #reduce the shape
+    audio = audio[::3]
+
+    #extract the audio embeddings using MFCC
+    mfcc = librosa.feature.mfcc(audio, sr=sr) 
+
+    #as the audio embeddings length varies for different audio, we keep the maximum length as 400
+    #pad them with zeros
+
+    pad_width = max_pad_len - mfcc.shape[1]
+    mfcc = np.pad(mfcc, pad_width=((0, 0), (0, pad_width)), mode='constant')
+
+    return mfcc
+```
+
+我们将加载一个音频文件并查看嵌入内容：
+
+```py
+audio_file = 'data/audio/Dogs/dog_barking_0.wav'
+audio2vector(audio_file)
+array([[-297.54905127, -288.37618855, -314.92037769, ...,    0\.        ,
+           0\.        ,    0\.        ],
+       [  23.05969394,    9.55913148,   37.2173831 , ...,    0\.        ,
+           0\.        ,    0\.        ],
+       [-122.06299523, -115.02627567, -108.18703056, ...,    0\.        ,
+           0\.        ,    0\.        ],
+       ...,
+       [  -6.40930836,   -2.8602708 ,   -2.12551478, ...,    0\.        ,
+           0\.        ,    0\.        ],
+       [   0.70572914,    4.21777791,    4.62429301, ...,    0\.        ,
+           0\.        ,    0\.        ],
+       [  -6.08997702,  -11.40687886,  -18.2415214 , ...,    0\.        ,
+           0\.        ,    0\.        ]])
+```
+
+现在我们已经了解了如何生成音频嵌入，我们需要为我们的连体网络创建数据。 众所周知，连体网络可以成对接受数据，因此我们定义了获取数据的函数。 我们将创建一个真正的对（`Dogs`，`Sub_dogs`），并将标签指定为`1`，将非正当对创建为（`Dogs`，`Cats`），并将标签指定为`0`：
+
+```py
+def get_data():
+
+    pairs = []
+    labels = []
+
+    Dogs = glob.glob('data/audio/Dogs/*.wav')
+    Sub_dogs = glob.glob('data/audio/Sub_dogs/*.wav')
+    Cats = glob.glob('data/audio/Cats/*.wav')
+
+    np.random.shuffle(Sub_dogs)
+    np.random.shuffle(Cats)
+
+    for i in range(min(len(Cats),len(Sub_dogs))):
+        #imposite pair
+        if (i % 2) == 0:
+            pairs.append([audio2vector(Dogs[randint(0,3)]),audio2vector(Cats[i])])
+            labels.append(0)
+
+        #genuine pair
+        else:
+            pairs.append([audio2vector(Dogs[randint(0,3)]),audio2vector(Sub_dogs[i])])
+            labels.append(1)
+
+    return np.array(pairs), np.array(labels)
+
+X, Y = get_data("/home/sudarshan/sudarshan/Experiments/oneshot-audio/data/")
+```
+
+接下来，我们将训练和测试的数据划分为 75% 的训练和 25% 的测试比例：
+
+```py
+X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)
+```
+
+现在我们已经成功地生成了数据，我们就建立了连体网络。 我们定义了用于特征提取的基本网络，我们使用了三个密集层，中间有一个丢弃层：
+
+```py
+def build_base_network(input_shape):
+    input = Input(shape=input_shape)
+    x = Flatten()(input)
+    x = Dense(128, activation='relu')(x)
+    x = Dropout(0.1)(x)
+    x = Dense(128, activation='relu')(x)
+    x = Dropout(0.1)(x)
+    x = Dense(128, activation='relu')(x)
+    return Model(input, x)
+```
+
+接下来，我们将音频对馈送到基础网络，基础网络将返回特征：
+
+```py
+input_dim = X_train.shape[2:]
+audio_a = Input(shape=input_dim)
+audio_b = Input(shape=input_dim)
+
+base_network = build_base_network(input_dim)
+feat_vecs_a = base_network(audio_a)
+feat_vecs_b = base_network(audio_b)
+```
+
+`feat_vecs_a`和`feat_vecs_b`是我们音频对的特征向量。 接下来，我们将这些特征向量馈入能量函数以计算它们之间的距离，然后使用欧几里得距离作为能量函数：
+
+```py
+def euclidean_distance(vects):
+    x, y = vects
+    return K.sqrt(K.sum(K.square(x - y), axis=1, keepdims=True))
+
+def eucl_dist_output_shape(shapes):
+    shape1, shape2 = shapes
+    return (shape1[0], 1)
+
+distance = Lambda(euclidean_distance, output_shape=eucl_dist_output_shape)([feat_vecs_a, feat_vecs_b])
+```
+
+接下来，我们将周期长度设置为`13`，并使用 RMS 属性进行优化：
+
+```py
+epochs = 13
+rms = RMSprop()
+
+model = Model(input=[audio_a, audio_b], output=distance)
+```
+
+最后，我们将损失函数定义为`contrastive_loss`并编译模型：
+
+```py
+def contrastive_loss(y_true, y_pred):
+    margin = 1
+    return K.mean(y_true * K.square(y_pred) + (1 - y_true) * K.square(K.maximum(margin - y_pred, 0)))
+
+model.compile(loss=contrastive_loss, optimizer=rms)
+```
+
+现在，我们训练模型：
+
+```py
+audio1 = X_train[:, 0]
+audio2 = X_train[:, 1]
+
+model.fit([audio_1, audio_2], y_train, validation_split=.25,
+          batch_size=128, verbose=2, nb_epoch=epochs)
+```
+
+您可以了解历代的损失：
+
+```py
+Train on 8 samples, validate on 3 samples
+Epoch 1/13
+ - 0s - loss: 23594.8965 - val_loss: 1598.8439
+Epoch 2/13
+ - 0s - loss: 62360.9570 - val_loss: 816.7302
+Epoch 3/13
+ - 0s - loss: 17967.6230 - val_loss: 970.0378
+Epoch 4/13
+ - 0s - loss: 20030.3711 - val_loss: 358.9078
+Epoch 5/13
+ - 0s - loss: 11196.0547 - val_loss: 339.9991
+Epoch 6/13
+ - 0s - loss: 3837.2898 - val_loss: 381.9774
+Epoch 7/13
+ - 0s - loss: 2037.2965 - val_loss: 303.6652
+Epoch 8/13
+ - 0s - loss: 1434.4321 - val_loss: 229.1388
+Epoch 9/13
+ - 0s - loss: 2553.0562 - val_loss: 215.1207
+Epoch 10/13
+ - 0s - loss: 1046.6870 - val_loss: 197.1127
+Epoch 11/13
+ - 0s - loss: 569.4632 - val_loss: 183.8586
+Epoch 12/13
+ - 0s - loss: 759.0131 - val_loss: 162.3362
+Epoch 13/13
+ - 0s - loss: 819.8594 - val_loss: 120.3017
+```
+
+# 总结
+
+在本章中，我们学习了什么是连体网络，以及如何使用连体网络构建人脸和音频识别模型。 我们探索了连体网络的架构，该网络基本上由两个相同的神经网络组成，它们具有相同的权重和架构，并且将这些网络的输出插入到一些能量函数中以了解相似性。
+
+在下一章中，我们将学习原型网络及其变种，例如高斯原型网络和半原型网络。 我们还将看到如何使用原型网络进行全方位字符集分类。
+
+# 问题
+
+1.  什么是连体网络？
+2.  什么是对比损失函数？
+3.  能量函数是什么？
+4.  连体网络所需的数据格式是什么？
+5.  连体网络有哪些应用？
+
+# 进一步阅读
+
+*   [用于对象跟踪的连体网络](https://arxiv.org/pdf/1606.09549.pdf)
+*   [用于图像识别的连体网络](https://www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/03.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/03.md
new file mode 100644
index 00000000..be33dc3f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/03.md
@@ -0,0 +1,563 @@
+# 三、原型网络及其变体
+
+在上一章中，我们了解了什么是连体网络以及如何将它们用于执行少量学习任务。 我们还探讨了如何使用连体网络进行人脸和音频识别。 在本章中，我们将介绍另一种有趣的几次学习算法，称为原型网络，该算法能够将其推广到训练集中没有的类。 我们将从了解什么是原型网络开始，然后我们将了解如何使用原型网络在 omniglot 数据集中执行分类任务。 然后，我们将看到原型网络的不同变体，例如高斯原型网络和半原型网络。
+
+在本章中，您将了解以下内容：
+
+*   原型网络
+*   原型网络算法
+*   将原型网络用于分类
+*   高斯原型网络
+*   高斯原型网络算法
+*   半原型网络
+
+# 原型网络
+
+原型网络是另一种简单，高效，很少的镜头学习算法。 像连体网络一样，原型网络尝试学习度量空间以执行分类。 原型网络的基本思想是创建每个类的原型表示形式，并根据类原型与查询点之间的距离对查询点（即新点）进行分类。
+
+假设我们有一个包含狮子，大象和狗的图像的支持集，如下图所示：
+
+![](img/62f3894f-d397-4119-8a9c-5caa9f73651c.png)
+
+因此，我们分为三类： `{Lion, Eleph, Dog}`。 现在，我们需要为这三个类中的每一个创建一个原型表示。 我们如何构建这三个类的原型？ 首先，我们将使用嵌入函数来学习每个数据点的嵌入。 嵌入函数`f[φ]()`可以是可用于提取特征的任何函数。 由于我们的输入是图像，因此我们可以使用卷积网络作为嵌入函数，该函数将从输入图像中提取特征：
+
+![](img/68661c3a-0389-4e09-85bb-27da96071e60.png)
+
+一旦了解了每个数据点的嵌入，就可以将每个类中数据点的均值嵌入并形成类原型，如下图所示。 因此，类原型基本上就是在类中数据点的平均嵌入：
+
+![](img/6affbc3d-d84c-4970-9f6b-9683d7416460.png)
+
+同样，当有新的数据点（即我们要为其预测标签的查询点）进入时，我们将使用与创建类原型相同的嵌入函数为该新数据点生成嵌入。 是，我们使用卷积网络为查询点生成嵌入：
+
+![](img/2a239348-67da-4931-9870-2c8281910157.png)
+
+对查询点进行嵌入后，我们将比较类原型和查询点嵌入之间的距离，以查找查询点所属的类。 我们可以使用欧几里得距离作为查找类原型与查询点嵌入之间距离的度量，如下所示：
+
+![](img/22b60518-4ba8-4fa6-8316-ff88e5f65bbd.png)
+
+在找到类原型与查询点嵌入之间的距离后，我们将 softmax 应用于该距离并获得概率。 由于我们有狮子，大象和狗这三个类，因此我们将获得三个概率。 因此，概率最高的类别将是我们查询点的类别。
+
+由于我们希望网络从几个数据点中学习，也就是说，我们希望执行几次快照学习，因此我们以相同的方式训练网络。 因此，我们使用了间歇式训练-对于每个剧集，我们从数据集中的每个类随机采样一些数据点，我们称其为支持集，仅使用支持集而不是整个数据集来训练网络。 同样，我们从数据集中随机抽取一个点作为查询点，并尝试预测其类别。 因此，通过这种方式，我们的网络受到了如何从较小的数据点集中学习的训练。
+
+下图显示了我们原型网络的整体流程。 如您所见，首先，我们将为支持集中的所有数据点生成嵌入，并通过在类中获取数据点的平均嵌入来构建类原型。 我们还为查询点生成嵌入。 然后，我们计算类原型与查询点嵌入之间的距离。 我们使用欧几里得距离作为距离度量。 然后，我们将 softmax 应用于此距离并获得概率。 如下图所示，由于我们的查询点是狮子，因此狮子的概率很高，为 0.9：
+
+![](img/a325ba73-ced0-470a-8615-5219bb5bbe1f.png)
+
+原型网络不仅用于单次/几次学习，而且还用于零次学习。 考虑以下情况：每个类没有数据点，但是您具有包含每个类的高级描述的元信息。 因此，在这些情况下，我们从每个类的元信息中学习嵌入，以形成类原型，然后使用该类原型进行分类。
+
+# 算法
+
+原型网络的算法如下所示：
+
+1.  假设我们有数据集`D`，其中包含`{(x1, y1), (x2, y2), ..., (xn, yn)}`其中`x`是特征，`y`是类别标签。
+2.  由于我们进行了间歇式训练，因此我们从数据集中`D`中随机抽取每个类别的`n`个数据点数，并准备了支持集`S`。
+3.  同样，我们选择`n`个数据点，并准备我们的查询集`Q`。
+4.  我们使用嵌入函数`f[∅]`来学习数据点在支持集中的嵌入。 嵌入函数可以是任何特征提取器，例如，用于图像的卷积网络和用于文本的 LSTM 网络。
+5.  一旦获得每个数据点的嵌入，就可以通过获取每个类下数据点的平均嵌入来计算每个类的原型：
+
+![](img/4fc41dda-0243-4e99-9b90-d2f7e6f321a8.png)
+
+6.  同样，我们学习查询集嵌入。
+7.  我们计算查询集嵌入和类原型之间的欧几里德距离`d`。
+8.  我们通过在距离`d`上应用 softmax 来预测查询集类别的概率`p [∅](y = k | x)`：
+
+![](img/b3e00903-8a06-4a64-a492-1cd538d442db.png)
+
+9.  我们将损失函数`J(∅)`计算为负对数概率`J(∅) = -logp[∅](y = k | x)`，我们尝试使用随机梯度下降法将损失降到最低。
+
+# 使用原型网络执行分类
+
+现在，我们将看到如何使用原型网络执行分类任务。 我们使用 omniglot 数据集进行分类。 该数据集包含来自 50 个不同字母的 1,623 个手写字符，每个字符都有 20 个不同的示例，这些示例是由不同的人编写的。 由于我们希望我们的网络从数据中学习，因此我们以相同的方式对其进行训练。 我们从每个类中采样五个示例，并将其用作我们的支持集。 我们使用四个卷积块作为编码器来学习支持集的嵌入，并构建类原型。 同样，我们从每个类中为我们的查询集采样五个示例，学习查询集嵌入，并通过比较查询集嵌入和类原型之间的欧式距离来预测查询集类。 让我们逐步了解它会更好地理解这一点。
+
+[您还可以在此处查看 Jupyter 笔记本中可用的代码并进行解释](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/03.%20Prototypical%20Networks%20and%20its%20Variants/3.3%20Omniglot%20Character%20set%20classification%20using%20Prototypical%20Network.ipynb)。
+
+首先，我们导入所有必需的库：
+
+```py
+import os
+import glob
+from PIL import Image
+import numpy as np
+import tensorflow as tf
+```
+
+现在，我们将探索并查看我们从数据中得到的结果。 众所周知，我们有不同字母的不同字符，每个字符有二十种不同的字母，由不同的人书写。 让我们绘制并检查其中的一些。
+
+让我们从日语字母中绘制一个字符：
+
+```py
+Image.open('daimg/Japanese_(katakana)/character13/0608_01.png')
+```
+
+![](img/a60c652c-ff74-48bc-9e45-ce2ea8f42a7e.png)
+
+相同字母的不同变化：
+
+```py
+Image.open('daimg/Japanese_(katakana)/character13/0608_13.png')
+```
+
+![](img/528145f7-c9fd-46e5-a9e6-f880c0a12109.png)
+
+让我们看一下梵文字母中的一个字符：
+
+```py
+Image.open('daimg/Sanskrit/character13/0863_09.png')
+```
+
+![](img/f2fab879-748c-4ba4-81cf-b726b3459e34.png)
+
+```py
+Image.open('daimg/Sanskrit/character13/0863_13.png')
+```
+
+![](img/4cdeb6a9-3ec0-4f01-acf4-a128eed146e6.png)
+
+我们如何将图像转换为数组？ 我们可以使用`np.array`将这些图像转换为数组并将其重塑为 28 x 28：
+
+```py
+image_name = 'daimg/Sanskrit/character13/0863_13.png'
+alphabet, character, rotation = 'Sanskrit/character13/rot000'.split('/')
+rotation = float(rotation[3:])
+```
+
+您可以看到如下输出：
+
+```py
+array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 0., 1.], [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]],dtype=float32)
+```
+
+现在我们已经了解了数据集中的内容，我们将加载数据集：
+
+```py
+root_dir = 'data/'
+```
+
+我们在`/data/omniglot/splits/train.txt`文件中有拆分的详细信息，该文件中的语言名称，字符号，旋转信息和`/data/omniglot/data/`中的图像是：
+
+```py
+train_split_path = os.path.join(root_dir, 'splits', 'train.txt')
+
+with open(train_split_path, 'r') as train_split:
+    train_classes = [line.rstrip() for line in train_split.readlines()]
+```
+
+我们发现类的数量如下：
+
+```py
+#number of classes
+no_of_classes = len(train_classes)
+```
+
+现在，我们将示例数量设置为 20，因为我们的数据集中每个类有 20 个示例，并将图像的宽度和高度设置为`28 x 28`：
+
+```py
+#number of examples
+num_examples = 20
+
+#image width
+img_width = 28
+
+#image height
+img_height = 28
+channels = 1
+```
+
+接下来，我们将训练数据集的形状初始化为多个类，示例数以及图像的高度和宽度：
+
+```py
+train_dataset = np.zeros([no_of_classes, num_examples, img_height, img_width], dtype=np.float32)
+```
+
+现在，我们读取所有图像，将它们转换为 NumPy 数组，并将它们的标签和值（即`train_dataset = [label, values]`）存储在`train_dataset`数组中：
+
+```py
+for label, name in enumerate(train_classes):
+    alphabet, character, rotation = name.split('/')
+    rotation = float(rotation[3:])
+    img_dir = os.path.join(root_dir, 'data', alphabet, character)
+    img_files = sorted(glob.glob(os.path.join(img_dir, '*.png')))
+
+    for index, img_file in enumerate(img_files):
+        values = 1\. - np.array(Image.open(img_file).rotate(rotation).resize((img_width, img_height)), np.float32, copy=False)
+        train_dataset[label, index] = values
+```
+
+训练数据的形状如下：
+
+```py
+train_dataset.shape
+
+(4112, 20, 28, 28)
+```
+
+现在我们已经加载了训练数据，我们需要为它们创建嵌入。 我们使用卷积运算生成嵌入，因为我们的输入值是图像。 因此，我们定义了一个具有 64 个过滤器的卷积块，其中批量标准化和 ReLU 作为激活函数。 接下来，我们执行最大池化操作：
+
+```py
+def convolution_block(inputs, out_channels, name='conv'):
+
+    conv = tf.layers.conv2d(inputs, out_channels, kernel_size=3, padding='SAME')
+    conv = tf.contrib.layers.batch_norm(conv, updates_collections=None, decay=0.99, scale=True, center=True)
+    conv = tf.nn.relu(conv)
+    conv = tf.contrib.layers.max_pool2d(conv, 2)
+
+    return conv
+```
+
+现在，我们定义嵌入函数，该函数为我们提供了包含四个卷积块的嵌入：
+
+```py
+def get_embeddings(support_set, h_dim, z_dim, reuse=False):
+
+        net = convolution_block(support_set, h_dim)
+        net = convolution_block(net, h_dim)
+        net = convolution_block(net, h_dim) 
+        net = convolution_block(net, z_dim) 
+        net = tf.contrib.layers.flatten(net)
+
+        return net
+```
+
+请记住，我们不会使用整个数据集进行训练； 由于我们使用的是一次学习，因此我们从每个类中抽取一些数据点作为支持集，并以情景方式使用支持集训练网络。
+
+现在，我们定义一些重要的变量-我们考虑 50 次五次学习场景：
+
+```py
+#number of classes
+num_way = 50 
+
+#number of examples per class in a support set
+num_shot = 5 
+
+#number of query points for query set
+num_query = 5 
+
+#number of examples
+num_examples = 20
+
+h_dim = 64
+z_dim = 64
+```
+
+接下来，我们为支持和查询集初始化占位符：
+
+```py
+support_set = tf.placeholder(tf.float32, [None, None, img_height, img_width, channels])
+query_set = tf.placeholder(tf.float32, [None, None, img_height, img_width, channels])
+```
+
+并且我们分别在`support_set_shape`和`query_set_shape`中存储支持和查询集的形状：
+
+```py
+support_set_shape = tf.shape(support_set)
+query_set_shape = tf.shape(query_set)
+```
+
+我们获得了用于初始化我们的支持和查询集的类数，支持集中的数据点数以及查询集中的数据点数：
+
+```py
+num_classes, num_support_points = support_set_shape[0], support_set_shape[1]
+num_query_points = query_set_shape[1]
+```
+
+接下来，我们为标签定义占位符：
+
+```py
+y = tf.placeholder(tf.int64, [None, None])
+
+#convert the label to one hot
+y_one_hot = tf.one_hot(y, depth=num_classes)
+```
+
+现在，我们使用嵌入函数为支持集生成嵌入：
+
+```py
+support_set_embeddings = get_embeddings(tf.reshape(support_set, [num_classes * num_support_points, img_height, img_width, channels]), h_dim, z_dim)
+```
+
+我们计算每个类的原型，这是该类支持集嵌入的均值向量：
+
+```py
+embedding_dimension = tf.shape(support_set_embeddings)[-1]
+
+class_prototype = tf.reduce_mean(tf.reshape(support_set_embeddings, [num_classes, num_support_points, embedding_dimension]), axis=1)
+```
+
+接下来，我们使用相同的嵌入函数来获取查询集的嵌入：
+
+```py
+query_set_embeddings = get_embeddings(tf.reshape(query_set, [num_classes * num_query_points, img_height, img_width, channels]), h_dim, z_dim, reuse=True)
+```
+
+现在我们有了类原型和查询集嵌入，我们定义了一个距离函数，该距离函数为我们提供了类原型和查询集嵌入之间的距离：
+
+```py
+def euclidean_distance(a, b):
+
+    N, D = tf.shape(a)[0], tf.shape(a)[1]
+    M = tf.shape(b)[0]
+    a = tf.tile(tf.expand_dims(a, axis=1), (1, M, 1))
+    b = tf.tile(tf.expand_dims(b, axis=0), (N, 1, 1))
+    return tf.reduce_mean(tf.square(a - b), axis=2)
+```
+
+我们计算类原型与查询集嵌入之间的距离：
+
+```py
+distance = euclidean_distance(class_prototype,query_set_embeddings)
+```
+
+接下来，我们将每个类别的概率作为距离的 softmax：
+
+```py
+predicted_probability = tf.reshape(tf.nn.log_softmax(-distance), [num_classes, num_query_points, -1])
+```
+
+然后，我们计算损失：
+
+```py
+loss = -tf.reduce_mean(tf.reshape(tf.reduce_sum(tf.multiply(y_one_hot, predicted_probability), axis=-1), [-1]))
+```
+
+我们计算精度如下：
+
+```py
+accuracy = tf.reduce_mean(tf.to_float(tf.equal(tf.argmax(predicted_probability, axis=-1), y)))
+```
+
+然后，我们使用 Adam 优化器将损失降到最低：
+
+```py
+train = tf.train.AdamOptimizer().minimize(loss)
+```
+
+现在，我们开始 TensorFlow 会话并训练模型：
+
+```py
+sess = tf.InteractiveSession()
+init = tf.global_variables_initializer()
+sess.run(init)
+```
+
+我们定义周期数和剧集数：
+
+```py
+num_epochs = 20
+num_episodes = 100
+```
+
+接下来，我们开始进行情景式训练-也就是说，对于每个剧集，我们都对数据点进行采样，构建支持和查询集，并训练模型：
+
+```py
+for epoch in range(num_epochs):
+
+    for episode in range(num_episodes):
+
+        # select 60 classes
+        episodic_classes = np.random.permutation(no_of_classes)[:num_way]
+
+        support = np.zeros([num_way, num_shot, img_height, img_width], dtype=np.float32)
+
+        query = np.zeros([num_way, num_query, img_height, img_width], dtype=np.float32)
+
+        for index, class_ in enumerate(episodic_classes):
+            selected = np.random.permutation(num_examples)[:num_shot + num_query]
+            support[index] = train_dataset[class_, selected[:num_shot]]
+
+            # 5 querypoints per classs
+            query[index] = train_dataset[class_, selected[num_shot:]]
+
+        support = np.expand_dims(support, axis=-1)
+        query = np.expand_dims(query, axis=-1)
+        labels = np.tile(np.arange(num_way)[:, np.newaxis], (1, num_query)).astype(np.uint8)
+        _, loss_, accuracy_ = sess.run([train, loss, accuracy], feed_dict={support_set: support, query_set: query, y:labels})
+
+        if (episode+1) % 20 == 0:
+            print('Epoch {} : Episode {} : Loss: {}, Accuracy: {}'.format(epoch+1, episode+1, loss_, accuracy_))
+```
+
+# 高斯原型网络
+
+现在，我们将研究一种原型网络的变体，称为高斯原型网络。 我们刚刚学习了原型网络如何学习数据点的嵌入以及如何通过获取每个类的均值嵌入并使用类原型进行分类来构建类原型的。
+
+在高斯原型网络中，连同为数据点生成嵌入，我们在它们周围添加一个以高斯协方差矩阵为特征的置信区域。 拥有置信度区域有助于表征单个数据点的质量，并且在嘈杂且不太均匀的数据中很有用。
+
+因此，在高斯原型网络中，编码器的输出将是嵌入以及协方差矩阵。 除了使用完整的协方差矩阵之外，我们还包括来自协方差矩阵的半径或对角线分量以及嵌入：
+
+*   **半径分量**：如果我们使用协方差矩阵的半径分量，则我们的协方差矩阵的维数将为 1，因为半径只是一个整数。
+*   **对角分量**：如果我们使用协方差矩阵的对角分量，则我们的协方差矩阵的维数将与嵌入矩阵的维数相同。
+
+此外，我们使用协方差矩阵的逆矩阵来代替直接使用协方差矩阵。 我们可以使用以下任何一种方法将原始协方差矩阵转换为逆协方差矩阵。 令`S_ori`为协方差矩阵，`S`为逆协方差矩阵：
+
+*   `S = 1 + Softplus(S_ori)`
+*   `S = 1 + Sigmoid(S_ori)`
+*   `S = 1 + 4 * Sigmoid(S_ori)`
+*   `S = Bias + Scale * softplus(S_ori)`，其中`Bias`和`Scale`是可训练的参数
+
+因此，编码器，以及为输入生成嵌入，还返回协方差矩阵。 我们使用协方差矩阵的对角线或半径分量。 同样，我们使用逆协方差矩阵代替直接使用协方差矩阵。
+
+但是将协方差矩阵与嵌入一起使用有什么用？ 如前所述，它在数据点周围添加了置信区域，在嘈杂的数据中非常有用。 看下图。 假设我们有两个类，`A`和`B`。 黑点表示数据点的嵌入，黑点周围的圆圈表示协方差矩阵。 大的虚线圆表示一个类的整体协方差矩阵。 中间的星星表示类的原型。 如您所见，在嵌入周围有这个协方差矩阵，这给了我们围绕数据点和类原型的置信度区域：
+
+![](img/298373d7-0231-43e2-b6bc-62d7b850e5c0.png)
+
+让我们通过查看代码更好地理解这一点。 假设我们有一个图像`X`，我们想为该图像生成嵌入。 让我们用 sigma 表示协方差矩阵。 首先，我们选择要使用协方差矩阵的哪个分量，即我们要使用对角分量还是半径分量。 如果我们使用半径分量，那么我们的协方差矩阵维将仅为 1。 如果我们选择对角线分量，则协方差矩阵的大小将与嵌入维数相同：
+
+```py
+if component =='radius':
+    covariance_matrix_dim = 1
+else:
+    covariance_matrix_dim = embedding_dim
+```
+
+现在，我们定义编码器。 由于我们的输入是图像，因此我们使用卷积块作为编码器。 因此，我们定义了过滤器的大小，过滤器的数量以及池化层的大小：
+
+```py
+filters = [3,3,3,3] 
+num_filters = [64,64,64,embedding_dim +covariance_matrix_dim] 
+pools = [2,2,2,2]
+```
+
+我们将嵌入初始化为我们的图片`X`：
+
+```py
+previous_channels = 1 
+embeddings = X 
+weight = []
+bias = []
+conv_relu = []
+conv = []
+conv_pooled = []
+```
+
+然后，我们执行卷积运算并获得嵌入：
+
+```py
+for i in range(len(filters)):
+
+    filter_size = filters[i]
+    num_filter = num_filters[i]
+    pool = pools[i]
+    weight.append(tf.get_variable("weights_"+str(i), shape=[filter_size, filter_size, previous_channels, num_filter])
+    bias.append(tf.get_variable("bias_"+str(i), shape=[num_filter]))
+    conv.append(tf.nn.conv2d(embeddings, weight[i], strides=[1,1,1,1], padding='SAME') + bias[i])
+    conv_relu.append(tf.nn.relu(conv[i]))
+    conv_pooled.append(tf.nn.max_pool(conv_relu[i], ksize = [1,pool,pool,1], strides=[1,pool,pool,1], padding = "VALID"))
+
+    previous_channels = num_filter
+    embeddings = conv_pooled [i]
+```
+
+我们将最后一个卷积层的输出作为我们的嵌入，并对结果进行整形以具有嵌入以及协方差矩阵：
+
+```py
+X_encoded = tf.reshape(embeddings,[-1,embedding_dim + covariance_matrix_dim ])
+```
+
+现在，我们将嵌入和原始协方差矩阵拆分，因为我们需要将原始协方差矩阵转换为逆协方差矩阵：
+
+```py
+embeddings, raw_covariance_matrix = tf.split(X_encoded, [embedding_dim, covariance_matrix_dim], 1)
+```
+
+接下来，我们使用任何讨论的方法来计算协方差矩阵的逆：
+
+```py
+if inverse_transform_type == "softplus":
+    offset = 1.0
+    scale = 1.0
+    inv_covariance_matrix = offset + scale * tf.nn.softplus(raw_covariance_matrix)
+
+elif inverse_transform_type == "sigmoid":
+    offset = 1.0
+    scale = 1.0
+    inv_covariance_matrix = offset + scale * tf.sigmoid(raw_covariance_matrix)
+
+elif inverse_transform_type == "sigmoid_2":
+    offset = 1.0
+    scale = 4.0
+    inv_covariance_matrix = offset + scale * tf.sigmoid(raw_covariance_matrix)
+
+elif inverse_transform_type == "other":
+
+    init = tf.constant(1.0)
+    scale = tf.get_variable("scale", initializer=init)
+    div = tf.get_variable("div", initializer=init)
+    offset = tf.get_variable("offset", initializer=init)
+
+    inv_covariance_matrix = offset + scale * tf.nn.softplus(raw_covariance_matrix/div)
+
+```
+
+到目前为止，我们已经看到我们可以计算协方差矩阵以及输入的嵌入。 下一步是什么？ 我们如何计算类原型？ 类原型`p[c]`可以如下计算：
+
+![](img/adf16b20-81b8-4cf0-a203-699da2707fd4.png)
+
+在该方程式中，`s[i]^c`是逆协方差矩阵的对角线，`x[i]^c`表示嵌入，上标`c`表示类别。
+
+在为每个类计算原型之后，我们学习了查询点的嵌入。 令`x'`为查询点的嵌入。 然后，我们计算查询点嵌入和类原型之间的距离，如下所示：
+
+![](img/d4cee939-9955-4ee3-bcaf-ce9ef23c0fb5.png)
+
+最后，我们预测查询集的类别（`y_hat`），该类别与类别原型的距离最小：
+
+![](img/4768a510-e42b-4c87-beef-08ed98ee76ee.png)
+
+# 算法
+
+现在，我们将通过逐步了解它来更好地理解高斯原型网络：
+
+1.  假设我们有一个数据集， `D = {(x1, y1), (x2, y2), ..., (xi, yi)}`，其中`x`是特征，`y`是标签。 假设我们有一个二进制标签，这意味着我们只有两个类，`0`和`1`。 我们将对数据点`D`中的每个类进行随机抽样，而不用替换它们，并创建我们的支持集`S`。
+2.  同样，我们按类随机抽取数据点，然后创建查询集`Q`。
+3.  我们会将支持集传递给我们的嵌入函数`f()`。 嵌入函数将为我们的支持集以及协方差矩阵生成嵌入。
+4.  我们计算协方差矩阵的逆。
+5.  我们如下计算支持集中每个类的原型：
+
+![](img/242c7e0b-a5d4-4bb0-849b-135dc2ce6e66.png)
+
+在该等式中，`s[i]^c`是逆协方差矩阵的对角线，`x[i]^c`表示支持集的嵌入，上标`c`表示类别。
+
+6.  在计算支持集中每个类的原型之后，我们学习了查询集`Q`的嵌入。 假设`x'`是查询点的嵌入。
+7.  我们计算查询点嵌入与类原型的距离，如下所示：
+
+![](img/53bbc979-6829-4074-a1c2-f8f227bbcda5.png)
+
+8.  在计算出类原型与查询集嵌入之间的距离之后，我们将查询集的类预测为具有最小距离的类，如下所示：
+
+![](img/c9423651-8ab6-46c9-a4f1-3a03d2bd0307.png)
+
+# 半原型网络
+
+现在，我们将看到原型网络的另一个有趣的变体，即半原型网络。 它处理未标记的示例。 众所周知，在原型网络中，我们通过获取每个类的均值嵌入来计算每个类的原型，然后通过查找查询点与类原型之间的距离来预测查询集的类。
+
+考虑一下我们的数据集包含一些未标记数据点的情况：我们如何计算这些未标记数据点的类原型？
+
+假设我们有一个支持集`S = (x1, y1), (x2, y2), ..., (xk, yk)`，其中`x`是特征，`y`是标签，还有一个查询集`Q = (x1', y1'), (x2', y2'), ..., (xk', yk')`。 伴随着这些，我们还有另外一个称为未标记集`R`的集合，在这里，我们只有未标记的例子`R = (x_tilde1, y_tilde1), (x_tilde2, y_tilde2), ..., (x_tildek, y_tildek)`。
+
+那么，我们该如何处理这个未标记的集呢？
+
+首先，我们将使用支持集中给出的所有示例来计算类原型。 接下来，我们使用软 k 均值并为`R`中的未标记示例分配类别-也就是说，我们通过计算类原型之间的欧式距离来为`R`中的未标记示例分配类别。
+
+但是，这种方法的问题在于，由于我们使用的是软 k 均值，因此所有未标记的示例将属于任何类原型。 让我们说，我们的支持集中有三个类别，`{Lion, Eleph, Dog}`； 如果我们的未标记示例具有代表猫的数据点，则将猫放置在支持集中的任何类别中是没有意义的。 因此，我们没有将数据点添加到现有的类中，而是为未标记的示例分配了一个新类，称为`Distractor`类。
+
+但是即使采用这种方法，我们也会遇到另一个问题，因为干扰项类别本身将具有很大的差异。 例如，考虑我们的未标记集合`R`包含完全不相关的数据点，例如`{cats, helicopter, bus, others}`； 在这种情况下，建议不要将所有未标记的示例都放在一个称为“干扰项”的类中，因为它们已经不纯且彼此无关。
+
+因此，我们将分心器类重塑为示例，这些示例不在所有类原型的某个阈值距离之内。 我们如何计算该阈值？ 首先，我们计算所有类原型的未标记集合`R`中未标记示例之间的标准化距离。 接下来，我们通过将归一化距离的各种统计数据（例如最小，最大，偏度和峰度）输入神经网络来计算每个类原型的阈值。 基于此阈值，我们向类原型添加或忽略未标记的示例。
+
+# 总结
+
+在本章中，我们从原型网络开始，我们了解了原型网络如何使用嵌入函数计算类原型，并通过比较类原型和查询集嵌入之间的欧几里得距离来预测查询集的类标签。 之后，我们通过对 omniglot 数据集进行分类，对原型网络进行了实验。 然后，我们了解了高斯原型网络，该网络与嵌入一起还使用协方差矩阵来计算类原型。 之后，我们探索了半原型网络，该网络用于处理半监督类。 在下一章中，我们将学习关系和匹配网络。
+
+# 问题
+
+1.  什么是原型网络？
+2.  计算嵌入有什么用？
+3.  我们如何计算类原型？
+4.  什么是高斯原型网络？
+5.  高斯原型网络与普通网络有何不同？
+6.  高斯原型网络中使用的协方差矩阵的不同成分是什么？
+
+# 进一步阅读
+
+*   [原型网络](https://arxiv.org/pdf/1703.05175.pdf)
+*   [高斯原型网络](https://arxiv.org/pdf/1708.02735.pdf)
+*   [半原型网络](https://arxiv.org/pdf/1803.00676.pdf)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/04.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/04.md
new file mode 100644
index 00000000..a6b23c76
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/04.md
@@ -0,0 +1,689 @@
+# 四、使用 TensorFlow 的关系和匹配网络
+
+在上一章中，我们了解了原型网络，以及如何将原型网络的变体（例如高斯原型网络和半原型网络）用于一次学习。 我们已经看到原型网络如何利用嵌入来执行分类任务。
+
+在本章中，我们将学习关系网络和匹配网络。 首先，我们将了解什么是关系网络以及如何在单次，几次和零次学习设置中使用它，然后，我们将学习如何使用 TensorFlow 建立关系网络。 在本章的后面，我们将学习匹配网络以及如何在几次学习中使用它们。 我们还将看到在匹配网络中使用的不同类型的嵌入函数。 在本章的最后，我们将看到如何在 Tensorflow 中构建匹配的网络。
+
+在本章中，我们将学习以下内容：
+
+*   关系网络
+*   单次，几次和零次设置的关系网络
+*   使用 TensorFlow 建立关系网络
+*   匹配网络
+*   匹配网络的嵌入函数
+*   匹配网络的架构
+*   TensorFlow 中的匹配网络
+
+# 关系网络
+
+现在，我们将看到另一种有趣的单次学习算法，称为关系网络。 它是最简单，最有效的单发学习算法之一。 我们将探讨在单发，少发和零发学习设置中如何使用关系网络。
+
+# 一次学习中的关系网络
+
+关系网络由两个重要函数组成：以`f[φ]`表示的嵌入函数和以`g[φ]`表示的关系函数。 嵌入函数用于从输入中提取特征。 如果输入是图像，则可以使用卷积网络作为嵌入函数，这将为我们提供图像的特征向量/嵌入。 如果我们的输入是文本，那么我们可以使用 LSTM 网络获取文本的嵌入。
+
+众所周知，在一次学习中，每个类只有一个示例。 例如，假设我们的支持集包含三个类，每个类一个示例。 如下图所示，我们有一个包含三个类别的支持集，`{Lion, Eleph, Dog}`：
+
+![](img/030c5e04-cf05-4394-baad-3c43bc5f77fa.png)
+
+假设我们有一个查询图像`x[j]`，如下图所示，我们希望预测该查询图像的类：
+
+![](img/87783c42-eb05-4a41-aecf-ab7bdfa56cb5.png)
+
+首先，我们从支持集中获取每个图像`x[i]`，并将其传递给嵌入函数`f[φ](x[i])`，以提取特征。 由于我们的支持集包含图像，因此我们可以使用卷积网络作为我们的嵌入函数来学习嵌入。 嵌入函数将为我们提供支持集中每个数据点的特征向量。 类似地，我们将把查询图像`x[j]`传递给嵌入函数`f[φ](x[j])`来学习其嵌入。
+
+因此，一旦有了支持集`f[φ](x[i])`和查询集`f[φ](x[j])`的特征向量，就可以使用运算符`Z`组合它们。 `Z`可以是任何组合运算符； 我们使用连接作为运算符，以合并支持和查询集的特征向量，即`Z(f[φ](x[i]), f[φ](x[j]))`。
+
+如下图所示，我们将合并支持集`f[φ](x[i])`和查询集`f[φ](x[j])`的特征向量。 但是这样的组合有什么用呢？ 这将帮助我们理解支持集中图像的特征向量与查询图像的特征向量之间的关系。 在我们的示例中，它将帮助我们理解狮子，大象和狗的图像的特征向量与查询图像的特征向量之间的关系：
+
+![](img/3cee7837-9e4c-469d-931b-c64c706de99b.png)
+
+但是我们如何衡量这种关联性呢？ 这就是为什么我们使用关系函数`g[φ]`的原因。 我们将这些组合的特征向量传递给关系函数，该函数将生成从 0 到 1 的关系得分，代表支持集`x[i]`中的样本与查询集`x[j]`中的样本之间的相似性。
+
+以下等式说明了我们如何计算关系网络中的关系得分：
+
+![](img/4d723f33-f865-4a5b-b387-b29268e8a070.png)
+
+在该等式中，`r[ij]`表示表示在支持集中的每个类别和查询图像之间的相似性的关系分数。 由于我们在支持集中有 3 个类别，在查询集中有 1 个图像，因此我们将获得 3 个分数，表明支持集中的所有 3 个类别与查询图像的相似程度。
+
+下图显示了在一次学习设置中关系网络的整体表示：
+
+![](img/5f7d57ed-3814-4506-a8d2-da060f75ef00.png)
+
+# 几次学习中的关系网络
+
+我们已经看到了如何拍摄属于支持集中每个类别的单个图像，并在关系网络的单次学习设置中将它们与查询集中图像的关系进行比较。 但是，在几次学习设置中，每个类将有多个数据点。 我们如何使用嵌入函数在此处学习特征表示？
+
+假设我们有一个支持集，每个类包含一个以上的图像，如下图所示：
+
+![](img/6b08140c-a4cc-4172-9a4e-b59d58ba4fd9.png)
+
+在这种情况下，我们将学习支持集中每个点的嵌入，并对属于每个类的所有数据点进行元素逐级添加。 因此，我们将为每个类都有嵌入，这是该类中所有数据点的逐元素求和的嵌入：
+
+![](img/fdf9f217-9695-462c-be8b-e6efdf3832f2.png)
+
+我们可以像往常一样使用嵌入函数来提取查询图像的特征向量。 接下来，我们使用连接运算符`Z`组合支持和查询集的特征向量。 我们执行级联，然后将级联的特征向量输入到关系函数并获得关系得分，该关系得分表示支持集和查询集中每个类之间的相似性。
+
+下图显示了关系网络在几次学习设置中的整体表示：
+
+![](img/61827802-face-4bba-9b33-1a79c5d2deaf.png)
+
+# 零次学习中的关系网络
+
+既然我们已经了解了如何在单发和少发学习任务中使用关系网络，我们将看到如何在零发学习设置中使用关系网络，在这种情况下，每个类别下都没有任何数据点。 但是，在零射击学习中，我们将具有元信息，该元信息是有关每个类的属性的信息，并将被编码到语义向量`v[c]`中，其中下标`c`表示类。
+
+我们没有使用单个嵌入函数来学习支持和查询集的嵌入，而是分别使用了两个不同的嵌入函数`f[φ1]`和`f[φ2]`。 首先，我们将使用`f[φ1]`学习语义向量`v[c]`的嵌入，并使用`f[φ2]`学习查询集`x[j]`的嵌入。 现在，我们将使用连接操作`Z`来连接这些嵌入：
+
+![](img/d30a1e84-e7f0-486f-ba63-07bd509357ca.png)
+
+然后，我们将此结果馈入关联函数并计算关联分数，如下所示：
+
+![](img/79ed7a01-bf4f-447a-b3a6-adc736e08ec7.png)
+
+# 损失函数
+
+关系网络的损失函数是什么？ 我们将使用**均方误差**（**MSE**）作为损失函数。 尽管这是一个分类问题，而 MSE 并不是分类问题的标准度量，但关系网络的作者表示，由于我们正在预测关系得分，因此可以将其视为回归问题。 尽管如此，对于基本事实，我们只能自动生成`{0, 1}`目标。
+
+因此，我们的损失函数可以表示为：
+
+![](img/aa46d3e5-b4a1-4780-8b9f-f095b87b18f5.png)
+
+其中`φ, φ`分别是我们嵌入函数`f`和关联函数`g`的参数。
+
+# 使用 TensorFlow 建立关系网络
+
+关系函数非常简单，对吧？ 通过在 TensorFlow 中实现一个关系网络，我们将更好地理解关系网络。
+
+[您还可以在此处查看 Jupyter 笔记本中可用的代码并进行解释](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/04.%20Relation%20and%20Matching%20Networks%20Using%20Tensorflow/4.5%20Building%20Relation%20Network%20Using%20Tensorflow.ipynb)。
+
+首先，我们导入所有必需的库：
+
+```py
+import tensorflow as tf
+import numpy as np
+```
+
+我们将随机生成数据点。 假设我们的数据集中有两个类； 我们将为这些类别中的每一个随机生成约 1,000 个数据点：
+
+```py
+classA = np.random.rand(1000,18)
+ClassB = np.random.rand(1000,18)
+```
+
+我们通过结合以下两个类来创建数据集：
+
+```py
+data = np.vstack([classA, ClassB])
+```
+
+现在，我们设置标签； 我们为`classA`分配`1`标签，为`classB`分配`0`标签：
+
+```py
+label = np.vstack([np.ones((len(classA),1)),np.zeros((len(ClassB),1))])
+```
+
+因此，我们的数据集将有 2,000 条记录：
+
+```py
+data.shape
+(2000, 18)
+```
+
+现在，我们将为支持和查询集定义占位符：
+
+```py
+xi = tf.placeholder(tf.float32, [None, 9])
+xj = tf.placeholder(tf.float32, [None, 9])
+```
+
+定义`y`标签的占位符，如下所示：
+
+```py
+y = tf.placeholder(tf.float32, [None, 1]) 
+```
+
+现在，我们将定义我们的嵌入函数，该函数将学习支持和查询集的嵌入。 我们将使用普通的前馈网络作为嵌入函数：
+
+```py
+def embedding_function(x):
+
+    weights = tf.Variable(tf.truncated_normal([9,1]))
+    bias = tf.Variable(tf.truncated_normal([1]))
+
+    a = (tf.nn.xw_plus_b(x,weights,bias))
+    embeddings = tf.nn.relu(a)
+
+    return embeddings
+```
+
+我们计算支持集的嵌入量：
+
+```py
+f_xi = embedding_function(xi)
+```
+
+我们计算查询集的嵌入量：
+
+```py
+f_xj = embedding_function(xj)
+```
+
+现在我们已经计算了嵌入并有了特征向量，我们将支持集和查询集特征向量结合起来：
+
+```py
+Z = tf.concat([f_xi,f_xj],axis=1)
+```
+
+我们将关系函数定义为具有 ReLU 激活的三层神经网络：
+
+```py
+def relation_function(x):
+    w1 = tf.Variable(tf.truncated_normal([2,3]))
+    b1 = tf.Variable(tf.truncated_normal([3]))
+
+    w2 = tf.Variable(tf.truncated_normal([3,5]))
+    b2 = tf.Variable(tf.truncated_normal([5]))
+
+    w3 = tf.Variable(tf.truncated_normal([5,1]))
+    b3 = tf.Variable(tf.truncated_normal([1]))
+
+    #layer1
+    z1 = (tf.nn.xw_plus_b(x,w1,b1))
+    a1 = tf.nn.relu(z1)
+
+    #layer2
+    z2 = tf.nn.xw_plus_b(a1,w2,b2)
+    a2 = tf.nn.relu(z2)
+
+    #layer3
+    z3 = tf.nn.xw_plus_b(z2,w3,b3)
+
+    #output
+    y = tf.nn.sigmoid(z3)
+
+    return y
+```
+
+现在，我们将支持集和查询集的连接特征向量传递给关系函数，并获得关系得分：
+
+```py
+relation_scores = relation_function(Z)
+```
+
+我们将`loss_function`计算为 MSE，即`relation_scores`与实际`y`值之间的`squared_difference`：
+
+```py
+loss_function = tf.reduce_mean(tf.squared_difference(relation_scores,y))
+```
+
+我们可以使用`AdamOptimizer`将损失降到最低：
+
+```py
+optimizer = tf.train.AdamOptimizer(0.1)
+train = optimizer.minimize(loss_function)
+```
+
+现在，让我们开始 TensorFlow 会话：
+
+```py
+sess = tf.InteractiveSession()
+sess.run(tf.global_variables_initializer())
+```
+
+现在，我们随机抽取支持集`xi`和查询集`xj`的数据点，并训练网络：
+
+```py
+for episode in range(1000):
+    _, loss_value = sess.run([train, loss_function], 
+                             feed_dict={xi:data[:,0:9]+np.random.randn(*np.shape(data[:,0:9]))*0.05,
+                                        xj:data[:,9:]+np.random.randn(*np.shape(data[:,9:]))*0.05,
+                                        y:label})
+    if episode % 100 == 0:
+        print("Episode {}: loss {:.3f} ".format(episode, loss_value))
+```
+
+我们可以看到如下输出：
+
+```py
+Episode 0: loss 0.495 
+Episode 100: loss 0.250 
+Episode 200: loss 0.250 
+Episode 300: loss 0.250 
+Episode 400: loss 0.250 
+Episode 500: loss 0.250 
+Episode 600: loss 0.250 
+Episode 700: loss 0.250 
+Episode 800: loss 0.250 
+Episode 900: loss 0.250 
+```
+
+# 匹配网络
+
+匹配网络是 Google 的 DeepMind 团队发布的另一种简单高效的一次学习算法。 它甚至可以为数据集中未观察到的类生成标签。
+
+假设我们有一个支持集`S`，其中包含`K`示例作为`(x1, y1), (x2, y2), ..., (xk, yk)`。 给定查询点（一个新的看不见的示例）`x_hat`时，匹配网络通过将其与支持集进行比较来预测`x_hat`的类别。
+
+我们可以将其定义为`P(y_hat | x_hat, S)`，其中`P`是参数化神经网络，`y_hat`是查询点的预测类，`x_hat`和`S`是支持集。 `P(y_hat | x_hat, S)`将返回`x_hat`属于数据集中每个类别的概率。 然后，我们选择`x_hat`的类别作为可能性最高的类别。 但是，这到底如何工作？ 如何计算此概率？ 让我们现在看看。
+
+查询点`x_hat`的输出`y_hat`可以预测如下：
+
+![](img/dae716c0-28ab-4ad4-b488-6e5b4915aead.png)
+
+让我们破译这个方程式。 `x[i]`和`y[i]`是支持集的输入和标签。 `x_hat`是查询输入，即我们要预测标签的输入。 `a`是`x_hat`和`x[i]`之间的注意力机制。 但是，我们该如何进行关注呢？ 在这里，我们使用一种简单的注意机制，即`x_hat`和`x[i]`之间的余弦距离上的 softmax 函数（即`a(·, ·) = softmax(cosine(·, ·))`）。
+
+我们无法直接计算原始输入`x_hat`和`x[i]`之间的余弦距离。 因此，首先，我们将学习它们的嵌入并计算嵌入之间的余弦距离。 我们使用两种不同的嵌入`f`和`g`来分别学习查询输入`x_hat`和支持集输入`x[i]`的嵌入。 我们将在接下来的部分中详细了解`f`和`g`这两个嵌入函数。
+
+因此，我们可以如下重写注意力方程：
+
+![](img/a4a417ee-95be-4bff-99ac-da7c59223a30.png)
+
+我们可以将前面的等式重写如下：
+
+![](img/fd6aef37-dfe5-45f4-87a3-799cfd6e7c43.png)
+
+因此，在计算注意力矩阵`a(x_hat, x[i])`之后，我们将注意力矩阵与支持集标签`y[i]`相乘。 但是，如何将支持集标签与注意力矩阵相乘呢？ 首先，我们将支持集标签转换为单热编码值，然后将它们与我们的注意力矩阵相乘，结果，我们获得了`y_hat`属于支持集中每个类的概率。 然后，我们应用 argmax 并选择`y_hat`作为具有最大概率值的那个。
+
+您是否还不清楚匹配网络？ 看下图； 如您所见，我们的支持集中有 3 个类，即`{Lion, Eleph, Dog}`，还有一个新的查询图像`x_hat`。 首先，将支持集提供给嵌入函数`g`，将查询图像提供给嵌入函数`f`，然后学习它们的嵌入并计算它们之间的余弦距离； 然后，我们在这个余弦距离上施加 softmax 注意。 然后，将注意力矩阵与一键编码支持集标签相乘，得到概率，然后选择`y_hat`作为概率最高的那个。 如下图所示，查询集图像是一头大象，我们在索引 1 处的概率很高，因此我们将`y_hat`的类别预测为 1（大象）：
+
+![](img/92322e5f-a6ae-42d2-b3e4-6d4820b5dde8.png)
+
+# 嵌入函数
+
+我们了解到，我们使用两个嵌入函数`f`和`g`分别学习`x_hat`和`y_hat`的嵌入。 现在，我们将确切地看到这两个函数如何学习嵌入。
+
+# 支持集嵌入函数（`g`）
+
+我们使用嵌入函数`g`来学习支持集的嵌入。 我们使用双向 LSTM 作为我们的嵌入函数`g`。
+
+我们可以如下定义嵌入函数`g`：
+
+```py
+def g(X):
+
+    #forward cell
+    forward_cell = rnn.BasicLSTMCell(32)
+
+    #backward cell
+    backward_cell = rnn.BasicLSTMCell(32)
+
+    #bidirectional LSTM
+    outputs, state_forward, state_backward = rnn.static_bidirectional_rnn(forward_cell, backward_cell, X, dtype=tf.float32)
+
+    return tf.add(tf.stack(X), tf.stack(outputs))
+```
+
+# 查询集嵌入函数（`f`）
+
+我们使用嵌入函数`f`来学习查询点`x_hat`的嵌入。 我们使用 LSTM 作为编码函数。 与`x_hat`作为输入一起，我们还将传递支持集嵌入的嵌入`g(x)`，还将传递另一个名为`K`的参数，该参数定义了处理步骤的数量。 让我们逐步了解如何计算查询集嵌入。
+
+首先，我们将初始化 LSTM 单元：
+
+```py
+cell = rnn.BasicLSTMCell(64)
+previous_state = cell.zero_state(batch_size, tf.float32) 
+```
+
+然后，对于处理步骤数，我们执行以下操作：
+
+```py
+for step in xrange(K):
+```
+
+我们通过将查询集`x_hat`馈送到 LSTM 单元来计算其嵌入：
+
+```py
+     output, state = cell(XHat, previous_state) 
+     h_k = tf.add(output, XHat)
+```
+
+现在，我们对支持集嵌入（即`g_embedings`）执行 softmax 注意。 它可以帮助我们避免不必要的元素：
+
+```py
+     content_based_attention = tf.nn.softmax(tf.multiply(previous_state[1], g_embedding)) 
+     r_k = tf.reduce_sum(tf.multiply(content_based_attention, g_embedding), axis=0) 
+```
+
+我们更新`previous_state`，并在许多处理步骤`K`中重复这些步骤：
+
+```py
+    previous_state = rnn.LSTMStateTuple(state[0], tf.add(h_k, r_k))
+```
+
+计算`f_embeddings`的完整代码如下：
+
+```py
+def f(XHat, g_embedding, K):
+
+    cell = rnn.BasicLSTMCell(64)
+    previous_state = cell.zero_state(batch_size, tf.float32) 
+
+    for step in xrange(K):
+        output, state = cell(XHat, previous_state) 
+
+        h_k = tf.add(output, XHat) 
+
+        #Soft max attention
+        content_based_attention = tf.nn.softmax(tf.multiply(previous_state[1], g_embedding)) 
+        r_k = tf.reduce_sum(tf.multiply(content_based_attention, g_embedding), axis=0) 
+
+        previous_state = rnn.LSTMStateTuple(state[0], tf.add(h_k, r_k))
+
+    return output
+```
+
+# 匹配网络的架构
+
+下图显示了匹配网络的整体流程，它与我们已经看到的图像不同。 您会注意到如何分别通过嵌入函数`g`和`f`计算支持集`x[i]`和查询集`y[i]`。 如您所见，嵌入函数`f`将查询集以及支持集嵌入作为输入：
+
+![](img/5b6120e4-bb45-4acf-91ca-45fe924ae318.png)
+
+# TensorFlow 中的匹配网络
+
+现在，我们将逐步了解如何在 TensorFlow 中构建匹配的网络。 我们将在最后看到最终代码。
+
+首先，我们导入库：
+
+```py
+import tensorflow as tf
+slim = tf.contrib.slim
+rnn = tf.contrib.rnn
+```
+
+现在，我们定义一个名为`Matching_network`的类，在其中定义我们的网络：
+
+```py
+class Matching_network():
+```
+
+我们定义`__init__`方法，在其中初始化所有变量：
+
+```py
+
+    def __init__(self, lr, n_way, k_shot, batch_size=32):
+
+        #placeholder for support set
+        self.support_set_image = tf.placeholder(tf.float32, [None, n_way * k_shot, 28, 28, 1])
+        self.support_set_label = tf.placeholder(tf.int32, [None, n_way * k_shot, ])
+
+        #placeholder for query set
+        self.query_image = tf.placeholder(tf.float32, [None, 28, 28, 1])
+        self.query_label = tf.placeholder(tf.int32, [None, ])
+```
+
+假设我们的支持集和查询集包含图片。 在将此原始图像提供给嵌入函数之前，首先，我们将使用卷积网络从图像中提取特征，然后将支持集和查询集的提取特征提供给嵌入函数`g`和`f`。
+
+因此，我们将定义一个名为`image_encoder`的函数，该函数用于对图像中的特征进行编码。 我们使用具有最大池化操作的四层卷积网络作为图像编码器：
+
+```py
+
+   def image_encoder(self, image):
+
+        with slim.arg_scope([slim.conv2d], num_outputs=64, kernel_size=3, normalizer_fn=slim.batch_norm):
+            #conv1
+            net = slim.conv2d(image)
+            net = slim.max_pool2d(net, [2, 2])
+
+            #conv2
+            net = slim.conv2d(net)
+            net = slim.max_pool2d(net, [2, 2])
+
+            #conv3
+            net = slim.conv2d(net)
+            net = slim.max_pool2d(net, [2, 2])
+
+            #conv4
+            net = slim.conv2d(net)
+            net = slim.max_pool2d(net, [2, 2])
+
+        return tf.reshape(net, [-1, 1 * 1 * 64])
+```
+
+现在，我们定义嵌入函数； 我们已经看到在“嵌入函数”部分中如何定义嵌入函数`f`和`g`。 因此，我们可以直接定义它们如下：
+
+```py
+#embedding function for extracting support set embeddings
+    def g(self, x_i):
+
+        forward_cell = rnn.BasicLSTMCell(32)
+        backward_cell = rnn.BasicLSTMCell(32)
+        outputs, state_forward, state_backward = rnn.static_bidirectional_rnn(forward_cell, backward_cell, x_i, dtype=tf.float32)
+
+        return tf.add(tf.stack(x_i), tf.stack(outputs))
+
+    #embedding function for extracting query set embeddings
+    def f(self, XHat, g_embedding):
+        cell = rnn.BasicLSTMCell(64)
+        prev_state = cell.zero_state(self.batch_size, tf.float32) 
+
+        for step in xrange(self.processing_steps):
+            output, state = cell(XHat, prev_state)
+
+            h_k = tf.add(output, XHat) 
+
+            content_based_attention = tf.nn.softmax(tf.multiply(prev_state[1], g_embedding)) 
+
+            r_k = tf.reduce_sum(tf.multiply(content_based_attention, g_embedding), axis=0) 
+
+            prev_state = rnn.LSTMStateTuple(state[0], tf.add(h_k, r_k))
+
+        return output
+```
+
+现在，我们定义一个名为`cosine_similarity`的函数，用于学习支持集和查询集嵌入之间的余弦相似度：
+
+```py
+    def cosine_similarity(self, target, support_set):
+        target_normed = target
+        sup_similarity = []
+        for i in tf.unstack(support_set):
+            i_normed = tf.nn.l2_normalize(i, 1) 
+            similarity = tf.matmul(tf.expand_dims(target_normed, 1), tf.expand_dims(i_normed, 2)) 
+            sup_similarity.append(similarity)
+
+        return tf.squeeze(tf.stack(sup_similarity, axis=1))
+```
+
+最后，我们使用一个名为`train`的函数来执行我们的训练操作-让我们逐步看一下：
+
+```py
+ def train(self, support_set_image, support_set_label, query_image):  
+```
+
+首先，我们使用图像编码器对支持集图像的特征进行编码：
+
+```py
+    support_set_image_encoded = [self.image_encoder(i) for i in tf.unstack(support_set_image, axis=1)]
+```
+
+然后，我们还将使用图像编码器对查询集图像的特征进行编码：
+
+```py
+    query_image_encoded = self.image_encoder(query_image)
+```
+
+接下来，我们将使用嵌入函数`g`了解支持集的嵌入：
+
+```py
+     g_embedding = self.g(support_set_image_encoded) 
+```
+
+同样，我们还将使用嵌入函数`f`了解查询集的嵌入内容：
+
+```py
+    f_embedding = self.f(query_image_encoded, g_embedding) 
+```
+
+现在，我们在这两个嵌入之间计算`cosine_similarity`：
+
+```py
+    embeddings_similarity = self.cosine_similarity(f_embedding, g_embedding) 
+```
+
+然后，我们对这种相似性进行 softmax 注意：
+
+```py
+    attention = tf.nn.softmax(embeddings_similarity)
+```
+
+我们通过将注意力矩阵乘以一热编码的支持集标签来预测查询集标签：
+
+```py
+    y_hat = tf.matmul(tf.expand_dims(attention, 1), tf.one_hot(support_set_label, self.n_way))
+```
+
+接下来，我们得到`probabilities`：
+
+```py
+    probabilities = tf.squeeze(y_hat)  
+```
+
+我们选择概率最高的索引作为查询图像的类别：
+
+```py
+    predictions = tf.argmax(self.logits, 1)
+```
+
+最后，我们定义损失函数； 我们使用 softmax 交叉熵作为我们的损失函数：
+
+```py
+    loss_function = tf.losses.sparse_softmax_cross_entropy(label, self.probabilities)
+```
+
+我们使用`AdamOptimizer`最小化损失函数：
+
+```py
+    tf.train.AdamOptimizer(self.lr).minimize(self.loss_op)
+```
+
+现在，我们将看到整个匹配网络的最终代码：
+
+```py
+
+class Matching_network():
+
+    #initialize all the variables
+    def __init__(self, lr, n_way, k_shot, batch_size=32):
+
+        #placeholder for support set
+        self.support_set_image = tf.placeholder(tf.float32, [None, n_way * k_shot, 28, 28, 1])
+        self.support_set_label = tf.placeholder(tf.int32, [None, n_way * k_shot, ])
+
+        #placeholder for query set
+        self.query_image = tf.placeholder(tf.float32, [None, 28, 28, 1])
+        self.query_label = tf.placeholder(tf.int32, [None, ])           
+
+    #encoder function for extracting features from the image
+    def image_encoder(self, image):
+
+        with slim.arg_scope([slim.conv2d], num_outputs=64, kernel_size=3, normalizer_fn=slim.batch_norm):
+            #conv1
+            net = slim.conv2d(image)
+            net = slim.max_pool2d(net, [2, 2])
+
+            #conv2
+            net = slim.conv2d(net)
+            net = slim.max_pool2d(net, [2, 2])
+
+            #conv3
+            net = slim.conv2d(net)
+            net = slim.max_pool2d(net, [2, 2])
+
+            #conv4
+            net = slim.conv2d(net)
+            net = slim.max_pool2d(net, [2, 2])
+
+        return tf.reshape(net, [-1, 1 * 1 * 64])
+
+    #embedding function for extracting support set embeddings
+    def g(self, x_i):
+
+        forward_cell = rnn.BasicLSTMCell(32)
+        backward_cell = rnn.BasicLSTMCell(32)
+        outputs, state_forward, state_backward = rnn.static_bidirectional_rnn(forward_cell, backward_cell, x_i, dtype=tf.float32)
+
+        return tf.add(tf.stack(x_i), tf.stack(outputs))
+
+    #embedding function for extracting query set embeddings
+    def f(self, XHat, g_embedding):
+        cell = rnn.BasicLSTMCell(64)
+        prev_state = cell.zero_state(self.batch_size, tf.float32) 
+
+        for step in xrange(self.processing_steps):
+            output, state = cell(XHat, prev_state)
+
+            h_k = tf.add(output, XHat) 
+
+            content_based_attention = tf.nn.softmax(tf.multiply(prev_state[1], g_embedding)) 
+
+            r_k = tf.reduce_sum(tf.multiply(content_based_attention, g_embedding), axis=0) 
+
+            prev_state = rnn.LSTMStateTuple(state[0], tf.add(h_k, r_k))
+
+        return output
+
+    #cosine similarity function for calculating cosine similarity between support set and query set embeddings
+    def cosine_similarity(self, target, support_set):
+        target_normed = target
+        sup_similarity = []
+        for i in tf.unstack(support_set):
+            i_normed = tf.nn.l2_normalize(i, 1) 
+            similarity = tf.matmul(tf.expand_dims(target_normed, 1), tf.expand_dims(i_normed, 2)) 
+            sup_similarity.append(similarity)
+
+        return tf.squeeze(tf.stack(sup_similarity, axis=1)) 
+
+    def train(self, support_set_image, support_set_label, query_image): 
+
+        #encode the features of query set images using our image encoder
+        query_image_encoded = self.image_encoder(query_image) 
+
+        #encode the features of support set images using our image encoder
+        support_set_image_encoded = [self.image_encoder(i) for i in tf.unstack(support_set_image, axis=1)]
+
+        #generate support set embeddings using our embedding function g
+        g_embedding = self.g(support_set_image_encoded) 
+
+        #generate query set embeddings using our embedding function f
+        f_embedding = self.f(query_image_encoded, g_embedding) 
+
+        #calculate the cosine similarity between both of these embeddings
+        embeddings_similarity = self.cosine_similarity(f_embedding, g_embedding) 
+
+        #perform attention over the embedding similarity
+        attention = tf.nn.softmax(embeddings_similarity)
+
+        #now predict query set label by multiplying attention matrix with one hot encoded support set labels
+        y_hat = tf.matmul(tf.expand_dims(attention, 1), tf.one_hot(support_set_label, self.n_way))
+
+        #get the probabilities 
+        probabilities = tf.squeeze(y_hat) 
+
+        #select the index which has the highest probability as a class of query image
+        predictions = tf.argmax(self.probabilities, 1)
+
+        #we use softmax cross entropy loss as our loss function
+        loss_function = tf.losses.sparse_softmax_cross_entropy(label, self.probabilities)
+
+        #we minimize the loss using adam optimizer
+        tf.train.AdamOptimizer(self.lr).minimize(self.loss_op)
+```
+
+# 总结
+
+在本章中，我们学习了在几次学习中如何使用匹配网络和关系网络。 我们看到了一个关系网络如何学习支持和查询集的嵌入，并将这些嵌入进行组合并将其馈送到关系函数以计算关系得分。 我们还看到了匹配的网络如何使用两种不同的嵌入函数来学习我们的支持集和查询集的嵌入，以及它如何预测查询集的类。
+
+在下一章中，我们将通过存储和检索内存中的信息来学习神经图灵机和记忆增强型神经网络的工作方式。
+
+# 问题
+
+1.  关系网络中使用的特征有哪些不同类型？
+2.  关系网络中的运算符`Z`是什么？
+3.  关系函数是什么？
+4.  关系网络的损失函数是什么？
+5.  匹配网络中使用哪些不同类型的嵌入函数？
+6.  如何在匹配网络中预测查询点的类别？
+
+# 进一步阅读
+
+*   [匹配网络](https://arxiv.org/pdf/1606.04080.pdf)
+*   [关系网络](https://arxiv.org/pdf/1711.06025.pdf)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/05.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/05.md
new file mode 100644
index 00000000..fddbd99c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/05.md
@@ -0,0 +1,801 @@
+# 五、记忆增强神经网络
+
+到目前为止，在前面的章节中，我们已经学习了几种基于距离的度量学习算法。 我们从连体网络开始，了解了连体网络如何学会区分两个输入，然后我们研究了原型网络以及原型网络的变体，例如高斯原型网络和半原型网络。 展望未来，我们探索了有趣的匹配网络和关系网络。
+
+在本章中，我们将学习用于一次学习的**记忆增强神经网络**（**MANN**）。 在进入 MANN 之前，我们将了解他们的前身**神经图灵机**（**NTM**）。 我们将学习 NTM 如何使用外部存储器来存储和检索信息，并且还将看到如何使用 NTM 执行复制任务。
+
+在本章中，我们将学习以下内容：
+
+*   NTM
+*   NTM 中的读写
+*   寻址机制
+*   使用 NTM 复制任务
+*   MANN
+*   MANN 中的读写
+
+# NTM
+
+NTM 是一种有趣的算法，能够存储和检索内存中的信息。 NTM 的想法是用外部存储器来增强神经网络-也就是说，它不是使用隐藏状态作为存储器，而是使用外部存储器来存储和检索信息。 NTM 的架构如下图所示：
+
+![](img/94347b9c-5fca-4272-9de0-c6c802eb7525.png)
+
+NTM 的重要组成部分如下：
+
+*   **控制器**：这基本上是前馈神经网络或循环神经网络。 它从内存中读取和写入。
+*   **内存**：我们将在其中存储信息的存储矩阵或存储库，或简称为存储。 内存基本上是由内存单元组成的二维矩阵。 存储器矩阵包含`N`行和`M`列。 使用控制器，我们可以从内存中访问内容。 因此，控制器从外部环境接收输入，并通过与存储矩阵进行交互来发出响应。
+*   **读写头**：读写头是包含必须从其读取和写入的存储器地址的指针。
+
+好的，但是我们如何从内存中访问信息？ 我们是否可以通过指定行索引和列索引来访问内存中的信息？ 我们可以。 但是问题在于，如果我们按索引访问信息，则无法使用梯度下降来训练 NTM，因为我们无法计算索引的梯度。 因此，NTM 的作者定义了使用控制器进行读写的模糊操作。 模糊操作将在某种程度上与内存中的所有元素进行交互。 基本上，它是一种关注机制，主要关注内存中对读/写很重要的特定位置，而忽略了对其他位置的关注。 因此，我们使用特殊的读取和写入操作来确定要聚焦在存储器上的哪个位置。 我们将在接下来的部分中探索更多有关读写操作的信息。
+
+# 在 NTM 中读写
+
+现在，我们将看到如何读取和写入内存矩阵。
+
+# 读取操作
+
+读取操作从内存中读取一个值。 但是，由于我们的存储矩阵中有许多存储块，我们需要选择从存储器中读取哪一个？ 这由权重向量确定。 权重向量指定内存中哪个区域比其他区域更重要。 我们使用一种注意力机制来获得该权重向量。 我们将在接下来的部分中进一步探讨如何精确计算此权重向量。 权重向量已归一化，这意味着其值的范围从零到一，并且值的总和等于一。 下图显示了长度的权重向量`N`：
+
+![](img/53982af6-a5b7-4b34-bf95-f2fdb6fb121e.png)
+
+让我们用`w[t]`表示归一化权重向量，其中下标`t`表示时间，`w[t](i)`表示权重向量中的元素，其索引为`i`，和时间`t`：
+
+![](img/3785fb36-a7c4-401d-a42f-9b505f26a800.png)
+
+我们的存储矩阵由`N`行和`M`列组成，如下图所示。 让我们将`t`时的存储矩阵表示`M[t]`：
+
+![](img/3f50d7d5-cd0c-4e69-b381-d1f21dbb1683.png)
+
+现在我们有了权重向量和存储矩阵，我们执行了存储矩阵`M[t]`和权重向量`w[t]`，以获取读取向量`r[t]`，如下图所示：
+
+![](img/8352e643-7590-42e7-a342-dd8556ff8ca6.png)
+
+可以表示为以下形式：
+
+![](img/a274afdc-2759-43bc-8fe0-c3516401b0ab.png)
+
+如上图所示，我们具有`N`行和`M`列的存储矩阵，大小为`N`的权重向量包含所有`N`个位置。 执行这两个的线性组合，我们得到长度为`M`的读取向量。
+
+# 写入操作
+
+与读取操作不同，写入操作由两个称为擦除和添加操作的子操作组成，这两个子操作分别擦除旧信息并将新信息添加到存储器。
+
+# 擦除操作
+
+我们使用擦除操作来删除内存中不需要的信息。 执行擦除操作后，我们将拥有一个新的更新的存储矩阵，其中的存储器中的某些元素将被擦除。 我们如何擦除存储矩阵中特定单元的值？ 在这里，我们引入了另一种称为擦除向量`e[t]`的向量，其长度与权重向量`w[t]`相同。 擦除向量由 0s 和 1s 组成。
+
+好的。 我们有一个擦除向量。 但是，我们如何擦除值并获取更新的存储矩阵？ 在上一步`M[t - 1]`中，我们将`(1 - w[t]e[t])`与我们的存储矩阵相乘，得到更新后的存储矩阵`M[t]*`。
+
+![](img/f7d6e7e3-a785-47aa-ad6b-4f4a05fed752.png)
+
+但这如何工作？ 仅当索引为`i`的权重元素和擦除元素都为 1 时，存储器中的特定元素才会被设置为 0，换言之，被擦除； 否则，它将保留自己的值。 例如，查看下图。 首先，我们将权重向量`w[t]`和擦除向量`w[t]`相乘：
+
+![](img/367864fc-07bb-46fa-9d44-9331803a5ab7.png)
+
+然后，我们从中减去 1，即`(1 - w[t](i)e[t])`，然后得到一个新的向量，如下所示：
+
+![](img/1584c3bc-b5d9-4d86-8a49-789514b6fd58.png)
+
+接下来，我们将`(1 - w[t]e[t])`与上一个时间步`M[t - 1]`的存储矩阵相乘，得到更新后的存储矩阵`M[t]*`：
+
+![](img/1e27ee5e-77f2-4515-b584-491c4bf2c6a7.png)
+
+# 添加操作
+
+完成擦除操作后，我们获得了更新的存储矩阵`M[t]*`，其中存储器中的某些元素将被擦除。 现在，我们要向存储矩阵中添加新信息。 我们该怎么做？ 我们引入了另一个向量，称为加法向量`a[t]`，该向量具有要添加到存储器中的值。 我们将权重向量`w[t]`的元素相乘，然后将向量`a[t]`相加，然后将它们添加到内存中，即：
+
+![](img/a65aa92d-ae65-4f76-a905-703888481d47.png)
+
+![](img/e9792850-28d9-487d-832c-f0a4bfb2893d.png)
+
+# 寻址机制
+
+到目前为止，我们已经了解了如何执行读写操作，还了解了如何使用权重向量执行这些操作。 但是我们如何计算这个权重向量呢？ 我们使用注意力机制和不同的寻址方案来计算它。 我们使用两种寻址机制来访问内存中的信息：
+
+*   基于内容的寻址
+*   基于位置的寻址
+
+# 基于内容的寻址
+
+在基于内容的寻址中，我们基于相似性从内存中选择值。 控制器返回一个称为`k[t]`的键向量。 我们将这个关键向量`k[t]`与存储矩阵`M[t]`中的每一行进行比较，以了解相似性。 我们使用余弦相似度作为检查相似度的相似度度量，可以表示为：
+
+![](img/8f047120-7950-4ed1-955b-038fca78e39d.png)
+
+我们引入了一个称为`β`的新参数，称为键强度。 它决定了我们的权重向量应有多集中。 基于`β`的值，我们可以增加或减小焦点-也就是说，我们可以基于按键强度`β`的值将注意力转移到特定位置。 当`β`的值较低时，我们将同等地关注所有位置； 当`β`的值较高时，我们将重点放在特定位置。
+
+因此，我们的权重向量变为：
+
+![](img/05e054c0-4540-4830-9db1-359c3e2f2ba1.png)
+
+也就是说，键向量`k[t]`和存储矩阵`M[t]`之间的余弦相似度乘以键强度`β`。 `w[t]^c`中的上标`c`表示它们是基于内容的权重。 代替直接使用它，我们对权重应用 softmax。 因此，我们的最终权重如下：
+
+![](img/a2609108-50cd-476d-b757-fe14244827f8.png)
+
+# 基于位置的寻址
+
+与基于内容的寻址不同，在基于位置的寻址中，我们专注于位置而不是内容相似性。 它包括三个步骤：
+
+1.  插值
+2.  卷积移位
+3.  锐化
+
+# 插值
+
+基于位置的寻址的第一步称为插值。 它用于决定我们应该使用在上一个时间步获得的权重`w[t - 1]`，还是使用通过基于内容的寻址获得的权重`w[t]^c`。 但是我们如何决定呢？ 我们使用一个新的标量参数`g[t]`，该参数用于确定应使用的权重。 `g[t]`的值可以为 0 或 1。
+
+我们可以表示权重向量的计算如下：
+
+![](img/b7e0ca28-2e27-4adf-a9a0-a393e859a82e.png)
+
+*   当`g[t]`的值为 0 时，我们的方程变为`w[t]^g < - w[t - 1]`，这意味着我们的权重向量是我们在上一个时间步获得的权重向量。
+*   当`g[t]`的值为 1 时，我们的方程变为`w[t]^g < -w[t]^c`，这意味着我们的权重向量是我们通过基于内容的寻址获得的权重向量。
+
+因此，`g[t]`的值用作在我们必须使用的权重之间进行切换的门。
+
+# 卷积移位
+
+下一步称为卷积移位。 用于移动头部位置。 即，它用于将焦点从一个位置转移到另一位置。 每个磁头发出一个称为移位权重`s[t]`的参数，该参数为我们提供了一个分布，在该分布上可以执行允许的整数移位。 例如，假设我们在 -1 和 1 之间进行了转换，那么`s[t]`的长度将变为 3，包括`{-1, 0, 1}`。
+
+那么，这些转变究竟意味着什么？ 假设权重向量`w[t]^g`中有三个元素 -- 即`w[i - 1]^g, w[i - 2]^g, w[i - 3]^g`，而移位权重向量中有三个元素`s[t] = [-1, 0, 1]`。
+
+移位 -1 表示我们将`w[t]^g`中的元素从左向右移动。 移位 0 将元素保持在相同位置，而移位+1 意味着我们将元素从右移到左。 在下图中可以看到：
+
+![](img/dbfdaf4d-bc48-423d-9611-7e4cd02fb76d.png)
+
+现在，看下面的图，其中我们有移位权重`s[t] = [1, 0, 0]`，这意味着我们执行了左移位，因为在其他位置移位值为 0：
+
+![](img/d8ce60f2-2f5a-4702-a999-b4da1b249d01.png)
+
+同样，当`s[t] = [0, 0, 1]`时，我们执行右移，因为在其他位置上的移位值为 0，如下图所示：
+
+![](img/51f8b11f-7921-424a-a41f-1fcc6c03314f.png)
+
+因此，以这种方式，我们对权重矩阵中的元素执行卷积移位。 如果我们将 0 到`N-1`个存储位置，则可以表示卷积移位如下：
+
+![](img/1bb69aaa-0933-48bc-9f40-90bf6c2819a3.png)
+
+# 锐化
+
+最后一步称为锐化。 卷积移位的结果是，权重`w[t]*`不会很尖锐，换句话说，由于移位，聚焦在单个位置的权重将分散到其他位置。 为了减轻这种影响，我们执行锐化。 我们使用一个称为`γ[t]`的新参数，该参数应大于或等于 1 以进行锐化，并且可以表示为：
+
+![](img/99d7e67e-ddd1-4966-b2e5-3196b2bc88c0.png)
+
+# 使用 NTM 执行复制任务
+
+现在，我们将看到如何使用 NTM 执行复制任务。 复制任务的目的是了解 NTM 如何存储和调用任意长度的序列。 我们将为网络提供一个随机序列，以及一个指示序列结束的标记。 它必须学习输出给定的输入序列。 因此，网络会将输入序列存储在内存中，然后从内存中回读。 现在，我们将逐步了解如何执行复制任务，然后在最后看到整个最终代码。
+
+[您还可以在此处查看 Jupyter 笔记本中提供的代码，并附带说明](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/05.%20Memory%20Augmented%20Networks/5.4%20Copy%20Task%20Using%20NTM.ipynb)。
+
+首先，我们将了解如何实现 NTM 单元。 而不是查看整个代码，我们将逐行查看它。
+
+我们定义`NTMCell`类，在其中实现整个 NTM 单元：
+
+```py
+class NTMCell():
+```
+
+首先，我们定义`init`函数，在其中初始化所有变量：
+
+```py
+    def __init__(self, rnn_size, memory_size, memory_vector_dim, read_head_num, write_head_num,
+                 addressing_mode='content_and_location', shift_range=1, reuse=False, output_dim=None):
+
+        #initialize all the variables
+        self.rnn_size = rnn_size
+        self.memory_size = memory_size
+        self.memory_vector_dim = memory_vector_dim
+        self.read_head_num = read_head_num
+        self.write_head_num = write_head_num
+        self.addressing_mode = addressing_mode
+        self.reuse = reuse
+        self.step = 0
+        self.output_dim = output_dim
+        self.shift_range = shift_range
+
+        #initialize controller as the basic rnn cell
+        self.controller = tf.nn.rnn_cell.BasicRNNCell(self.rnn_size)
+```
+
+接下来，我们定义`__call__`方法，在其中实现 NTM 操作：
+
+```py
+def __call__(self, x, prev_state):
+```
+
+我们通过将`x`输入与先前读取的向量列表组合来获得控制器输入：
+
+```py
+prev_read_vector_list = prev_state['read_vector_list'] 
+prev_controller_state = prev_state['controller_state'] 
+
+controller_input = tf.concat([x] + prev_read_vector_list, axis=1)
+```
+
+我们通过输入`controller_input`和`prev_controller_state`作为输入来构建控制器，即 RNN 单元：
+
+```py
+with tf.variable_scope('controller', reuse=self.reuse):
+    controller_output, controller_state = self.controller(controller_input, prev_controller_state)
+```
+
+现在，我们初始化读写头：
+
+```py
+num_parameters_per_head = self.memory_vector_dim + 1 + 1 + (self.shift_range * 2 + 1) + 1
+num_heads = self.read_head_num + self.write_head_num
+total_parameter_num = num_parameters_per_head * num_heads + self.memory_vector_dim * 2 * self.write_head_num
+```
+
+接下来，我们初始化权重矩阵并进行偏置并使用前馈操作计算参数：
+
+```py
+
+with tf.variable_scope("o2p", reuse=(self.step > 0) or self.reuse):
+    o2p_w = tf.get_variable('o2p_w', [controller_output.get_shape()[1], total_parameter_num],
+                            initializer=tf.random_normal_initializer(mean=0.0, stddev=0.5))
+    o2p_b = tf.get_variable('o2p_b', [total_parameter_num],
+                            initializer=tf.random_normal_initializer(mean=0.0, stddev=0.5))
+    parameters = tf.nn.xw_plus_b(controller_output, o2p_w, o2p_b)
+```
+
+```py
+
+head_parameter_list = tf.split(parameters[:, :num_parameters_per_head * num_heads], num_heads, axis=1)
+erase_add_list = tf.split(parameters[:, num_parameters_per_head * num_heads:], 2 * self.write_head_num, axis=1)
+```
+
+接下来，我们获得先前的权重向量和先前的内存：
+
+```py
+#previous weight vector
+prev_w_list = prev_state['w_list'] 
+
+#previous memory
+prev_M = prev_state['M']
+
+w_list = []
+p_list = []
+```
+
+现在，我们将初始化一些用于寻址的重要参数：
+
+```py
+for i, head_parameter in enumerate(head_parameter_list):
+
+    #key vector
+    k = tf.tanh(head_parameter[:, 0:self.memory_vector_dim])
+
+    #key strength(beta)
+    beta = tf.sigmoid(head_parameter[:, self.memory_vector_dim]) * 10 
+
+    #interpolation gate
+    g = tf.sigmoid(head_parameter[:, self.memory_vector_dim + 1])
+
+    #shift matrix
+    s = tf.nn.softmax(
+        head_parameter[:, self.memory_vector_dim + 2:self.memory_vector_dim + 2 + (self.shift_range * 2 + 1)]
+    )
+
+    #sharpening factor
+    gamma = tf.log(tf.exp(head_parameter[:, -1]) + 1) + 1
+
+    with tf.variable_scope('addressing_head_%d' % i):
+        w = self.addressing(k, beta, g, s, gamma, prev_M, prev_w_list[i]) 
+
+    w_list.append(w)
+    p_list.append({'k': k, 'beta': beta, 'g': g, 's': s, 'gamma': gamma})
+```
+
+**读取操作**：
+
+选择读取头，如下所示：
+
+```py
+read_w_list = w_list[:self.read_head_num]
+```
+
+我们知道`read`操作是权重和内存的线性组合：
+
+```py
+read_vector_list = []
+for i in range(self.read_head_num): 
+
+    #linear combination of the weights and memory
+    read_vector = tf.reduce_sum(tf.expand_dims(read_w_list[i], dim=2) * prev_M, axis=1)
+    read_vector_list.append(read_vector)
+```
+
+**写入操作**：
+
+与读取操作不同，写入操作涉及擦除和添加两个步骤。
+
+选择要写入的头，如下所示：
+
+```py
+write_w_list = w_list[self.read_head_num:]
+
+#update the memory
+M = prev_M
+```
+
+执行擦除和添加操作：
+
+```py
+for i in range(self.write_head_num):
+
+    #the erase vector will be multipled with weight vector to denote which location to erase or keep unchanged
+    w = tf.expand_dims(write_w_list[i], axis=2)
+    erase_vector = tf.expand_dims(tf.sigmoid(erase_add_list[i * 2]), axis=1)
+
+    #next we perform the add operation
+    add_vector = tf.expand_dims(tf.tanh(erase_add_list[i * 2 + 1]), axis=1)
+    M = M * (tf.ones(M.get_shape()) - tf.matmul(w, erase_vector)) + tf.matmul(w, add_vector)
+```
+
+获取控制器输出：
+
+```py
+if not self.output_dim:
+    output_dim = x.get_shape()[1]
+else:
+    output_dim = self.output_dim
+
+with tf.variable_scope("o2o", reuse=(self.step > 0) or self.reuse):
+    o2o_w = tf.get_variable('o2o_w', [controller_output.get_shape()[1], output_dim],
+                            initializer=tf.random_normal_initializer(mean=0.0, stddev=0.5))
+    o2o_b = tf.get_variable('o2o_b', [output_dim],
+                            initializer=tf.random_normal_initializer(mean=0.0, stddev=0.5))
+    NTM_output = tf.nn.xw_plus_b(controller_output, o2o_w, o2o_b)
+
+state = {
+    'controller_state': controller_state,
+    'read_vector_list': read_vector_list,
+    'w_list': w_list,
+    'p_list': p_list,
+    'M': M
+}
+
+self.step += 1
+```
+
+**寻址机制**：
+
+众所周知，我们使用两种寻址方式：基于内容的寻址和基于位置的寻址。
+
+**基于内容的寻址**：
+
+计算关键向量和存储矩阵之间的余弦相似度：
+
+```py
+k = tf.expand_dims(k, axis=2)
+inner_product = tf.matmul(prev_M, k)
+
+k_norm = tf.sqrt(tf.reduce_sum(tf.square(k), axis=1, keepdims=True))
+M_norm = tf.sqrt(tf.reduce_sum(tf.square(prev_M), axis=2, keepdims=True))
+norm_product = M_norm * k_norm
+
+K = tf.squeeze(inner_product / (norm_product + 1e-8))   
+```
+
+现在，我们根据相似度和关键强度（`beta`）生成归一化的权重向量。 `beta`用于调整头部聚焦的精度：
+
+```py
+K_amplified = tf.exp(tf.expand_dims(beta, axis=1) * K)
+w_c = K_amplified / tf.reduce_sum(K_amplified, axis=1, keepdims=True) # eq (5)
+```
+
+**基于位置的寻址**：
+
+基于位置的寻址涉及其他三个步骤：
+
+1.  插值
+2.  卷积移位
+3.  锐化
+
+**插值**：
+
+这用于决定我们应该使用在上一个时间步获得的权重`prev_w`还是使用通过基于内容的寻址获得的权重`w_c`。 但是我们如何决定呢？ 我们使用一个新的标量参数`g`，该参数用于确定应使用的权重：
+
+```py
+g = tf.expand_dims(g, axis=1)
+w_g = g * w_c + (1 - g) * prev_w 
+```
+
+**卷积移位**：
+
+插值后，我们执行卷积移位，以便控制器可以专注于其他行：
+
+```py
+s = tf.concat([s[:, :self.shift_range + 1],
+               tf.zeros([s.get_shape()[0], self.memory_size - (self.shift_range * 2 + 1)]),
+               s[:, -self.shift_range:]], axis=1)
+
+t = tf.concat([tf.reverse(s, axis=[1]), tf.reverse(s, axis=[1])], axis=1)
+
+s_matrix = tf.stack(
+    [t[:, self.memory_size - i - 1:self.memory_size * 2 - i - 1] for i in range(self.memory_size)],
+    axis=1
+)
+
+w_ = tf.reduce_sum(tf.expand_dims(w_g, axis=1) * s_matrix, axis=2) # eq (8)
+
+```
+
+**锐化**：
+
+最后，我们执行锐化操作以防止偏移的权重向量模糊：
+
+```py
+w_sharpen = tf.pow(w_, tf.expand_dims(gamma, axis=1))
+w = w_sharpen / tf.reduce_sum(w_sharpen, axis=1, keepdims=True)
+```
+
+接下来，我们定义一个名为`zero_state`的函数，用于初始化控制器的所有状态，读取向量，权重和内存：
+
+```py
+
+    def zero_state(self, batch_size, dtype):
+        def expand(x, dim, N):
+            return tf.concat([tf.expand_dims(x, dim) for _ in range(N)], axis=dim)
+
+        with tf.variable_scope('init', reuse=self.reuse):
+            state = {
+                'controller_state': expand(tf.tanh(tf.get_variable('init_state', self.rnn_size,
+                                            initializer=tf.random_normal_initializer(mean=0.0, stddev=0.5))),
+                                  dim=0, N=batch_size),
+
+                'read_vector_list': [expand(tf.nn.softmax(tf.get_variable('init_r_%d' % i, [self.memory_vector_dim],
+                                            initializer=tf.random_normal_initializer(mean=0.0, stddev=0.5))),
+                                  dim=0, N=batch_size)
+                           for i in range(self.read_head_num)],
+
+                'w_list': [expand(tf.nn.softmax(tf.get_variable('init_w_%d' % i, [self.memory_size],
+                                            initializer=tf.random_normal_initializer(mean=0.0, stddev=0.5))),
+                                  dim=0, N=batch_size) if self.addressing_mode == 'content_and_loaction'
+                           else tf.zeros([batch_size, self.memory_size])
+                           for i in range(self.read_head_num + self.write_head_num)],
+
+                'M': expand(tf.tanh(tf.get_variable('init_M', [self.memory_size, self.memory_vector_dim],
+                                            initializer=tf.random_normal_initializer(mean=0.0, stddev=0.5))),
+                                  dim=0, N=batch_size)
+            }
+            return state
+```
+
+接下来，我们定义一个名为`generate_random_strings`的函数，该函数会生成一个长度为`seq_length`的随机序列，并将这些序列馈送到复制任务的 NTM 输入：
+
+```py
+def generate_random_strings(batch_size, seq_length, vector_dim):
+    return np.random.randint(0, 2, size=[batch_size, seq_length, vector_dim]).astype(np.float32)
+```
+
+现在，我们创建`NTMCopyModel`以执行整个复制任务：
+
+```py
+class NTMCopyModel():
+
+    def __init__(self, args, seq_length, reuse=False):
+
+        #input sequence
+        self.x = tf.placeholder(name='x', dtype=tf.float32, shape=[args.batch_size, seq_length, args.vector_dim])
+
+        #output sequence
+        self.y = self.x
+
+        #end of the sequence
+        eof = np.zeros([args.batch_size, args.vector_dim + 1])
+        eof[:, args.vector_dim] = np.ones([args.batch_size])
+        eof = tf.constant(eof, dtype=tf.float32)
+        zero = tf.constant(np.zeros([args.batch_size, args.vector_dim + 1]), dtype=tf.float32)
+
+        if args.model == 'LSTM':
+            def rnn_cell(rnn_size):
+                return tf.nn.rnn_cell.BasicLSTMCell(rnn_size, reuse=reuse)
+            cell = tf.nn.rnn_cell.MultiRNNCell([rnn_cell(args.rnn_size) for _ in range(args.rnn_num_layers)])
+
+        elif args.model == 'NTM':
+            cell = NTMCell(args.rnn_size, args.memory_size, args.memory_vector_dim, 1, 1,
+                                    addressing_mode='content_and_location',
+                                    reuse=reuse,
+                                    output_dim=args.vector_dim)
+
+        #initialize all the states
+        state = cell.zero_state(args.batch_size, tf.float32)
+
+        self.state_list = [state]
+
+        for t in range(seq_length):
+            output, state = cell(tf.concat([self.x[:, t, :], np.zeros([args.batch_size, 1])], axis=1), state)
+            self.state_list.append(state)
+
+        #get the output and states
+        output, state = cell(eof, state)
+        self.state_list.append(state)
+
+        self.o = []
+
+        for t in range(seq_length):
+            output, state = cell(zero, state)
+            self.o.append(output[:, 0:args.vector_dim])
+            self.state_list.append(state)
+
+        self.o = tf.sigmoid(tf.transpose(self.o, perm=[1, 0, 2]))
+
+        eps = 1e-8
+
+        #calculate loss as cross entropy loss
+        self.copy_loss = -tf.reduce_mean(self.y * tf.log(self.o + eps) + (1 - self.y) * tf.log(1 - self.o + eps))
+
+        #optimize using RMS prop optimizer
+        with tf.variable_scope('optimizer', reuse=reuse):
+            self.optimizer = tf.train.RMSPropOptimizer(learning_rate=args.learning_rate, momentum=0.9, decay=0.95)
+            gvs = self.optimizer.compute_gradients(self.copy_loss)
+            capped_gvs = [(tf.clip_by_value(grad, -10., 10.), var) for grad, var in gvs]
+            self.train_op = self.optimizer.apply_gradients(capped_gvs)
+
+        self.copy_loss_summary = tf.summary.scalar('copy_loss_%d' % seq_length, self.copy_loss)
+```
+
+我们使用以下命令重置 TensorFlow 图：
+
+```py
+tf.reset_default_graph()
+```
+
+然后，我们将所有参数定义如下：
+
+```py
+parser = argparse.ArgumentParser()
+parser.add_argument('--mode', default="train")
+parser.add_argument('--restore_training', default=False)
+parser.add_argument('--test_seq_length', type=int, default=5)
+parser.add_argument('--model', default="NTM")
+parser.add_argument('--rnn_size', default=16)
+parser.add_argument('--rnn_num_layers', default=3)
+parser.add_argument('--max_seq_length', default=5)
+parser.add_argument('--memory_size', default=16)
+parser.add_argument('--memory_vector_dim', default=5)
+parser.add_argument('--batch_size', default=5)
+parser.add_argument('--vector_dim', default=8)
+parser.add_argument('--shift_range', default=1)
+parser.add_argument('--num_epoches', default=100)
+parser.add_argument('--learning_rate', default=1e-4)
+parser.add_argument('--save_dir', default= os.getcwd())
+parser.add_argument('--tensorboard_dir', default=os.getcwd())
+args = parser.parse_args(args = [])
+```
+
+最后，我们定义`training`函数：
+
+```py
+def train(args):
+    model_list = [NTMCopyModel(args, 1)]
+    for seq_length in range(2, args.max_seq_length + 1):
+        model_list.append(NTMCopyModel(args, seq_length, reuse=True))
+
+    with tf.Session() as sess:
+        if args.restore_training:
+            saver = tf.train.Saver()
+            ckpt = tf.train.get_checkpoint_state(args.save_dir + '/' + args.model)
+            saver.restore(sess, ckpt.model_checkpoint_path)
+        else:
+            saver = tf.train.Saver(tf.global_variables())
+            tf.global_variables_initializer().run()
+
+        #initialize summary writer for visualizing in tensorboard
+        train_writer = tf.summary.FileWriter(args.tensorboard_dir, sess.graph)
+        plt.ion()
+        plt.show()
+
+        for b in range(args.num_epoches):
+
+            #initialize the sequence length
+            seq_length = np.random.randint(1, args.max_seq_length + 1)
+            model = model_list[seq_length - 1]
+
+            #generate our random input sequence as an input
+            x = generate_random_strings(args.batch_size, seq_length, args.vector_dim)
+
+            #feed our input to the model
+            feed_dict = {model.x: x}
+
+            if b % 100 == 0: 
+                p = 0 
+                print("First training batch sample",x[p, :, :])
+
+                #compute model output
+                print("Model output",sess.run(model.o, feed_dict=feed_dict)[p, :, :])
+                state_list = sess.run(model.state_list, feed_dict=feed_dict)
+
+                if args.model == 'NTM':
+                    w_plot = []
+                    M_plot = np.concatenate([state['M'][p, :, :] for state in state_list])
+                    for state in state_list:
+                        w_plot.append(np.concatenate([state['w_list'][0][p, :], state['w_list'][1][p, :]]))
+
+                    #plot the weight matrix to see the attention
+                    plt.imshow(w_plot, interpolation='nearest', cmap='gray')
+                    plt.draw()
+                    plt.pause(0.001)
+
+                #compute loss
+                copy_loss = sess.run(model.copy_loss, feed_dict=feed_dict)
+
+                #write to summary
+                merged_summary = sess.run(model.copy_loss_summary, feed_dict=feed_dict)
+                train_writer.add_summary(merged_summary, b)
+
+                print('batches %d, loss %g' % (b, copy_loss))
+            else: 
+                sess.run(model.train_op, feed_dict=feed_dict)
+
+            #save the model
+            if b % 5000 == 0 and b > 0:
+                saver.save(sess, args.save_dir + '/' + args.model + '/model.tfmodel', global_step=b)
+```
+
+然后，我们开始使用以下命令训练 NTM：
+
+```py
+train(args)
+```
+
+我们可以看到输出如下，其中可以看到注意力集中在权重矩阵上：
+
+![](img/a7da2ffa-7dad-4de4-b5ea-8923d5b6951c.png)
+
+# 记忆增强神经网络（MANN）
+
+现在，我们将看到一个有趣的 NTM 变体，称为 MANN。 它广泛用于一键式学习任务。 MANN 旨在使 NTM 在一次学习任务中表现更好。 我们知道 NTM 可以使用基于内容的寻址或基于位置的寻址。 但是在 MANN 中，我们仅使用基于内容的寻址。
+
+MANN 使用一种称为最少最近访问的新寻址方案。 顾名思义，它写入最近最少使用的内存位置。 等待。 什么？ 我们刚刚了解到 MANN 不是基于位置的，那么为什么我们要写入最近最少使用的位置？ 这是因为最近最少使用的存储位置由读取操作确定，而读取操作由基于内容的寻址执行。 因此，我们基本上执行基于内容的寻址，以读取和写入最近最少使用的位置。
+
+# 读写操作
+
+现在，我们将看到如何在 MANN 中执行读写操作以及它们与 NTM 的区别。
+
+# 读取操作
+
+与 NTM 不同，在 MANN 中，我们使用两个不同的权重向量执行读取和写入操作。 MANN 中的读取操作与 NTM 相同。 因为我们知道，在 MANN 中，我们使用基于内容的相似度执行读取操作，所以我们将控制器发出的键向量`k[t]`与存储矩阵`M[t]`中的每一行进行比较，以了解相似度 。 我们使用余弦相似度作为检查相似度的相似度度量，可以表示为：
+
+![](img/dc111894-ccf1-40ad-9b69-b12463c44ab6.png)
+
+因此，我们的权重向量变为：
+
+![](img/c820a84a-3694-4a00-af7b-8442b29b3142.png)
+
+但是，与 NTM 不同，我们在这里不使用键强度`β`。 `w[t]^r`中的上标`r`表示它是读取的权重向量。 我们最终的权重向量是权重上的 softmax，即：
+
+![](img/72b85ed0-fa1d-43a9-a6e8-e275cf545633.png)
+
+我们的读取向量是权重`w[t]^r`和存储矩阵`M[t]`的线性组合，如下所示：
+
+![](img/cb1325d6-db2e-4bef-b2e6-7d4baf7e1cae.png)
+
+让我们看看如何在 TensorFlow 中构建它。
+
+首先，我们使用基于内容的相似度计算读取权重向量：
+
+```py
+    def read_head_addressing(k, prev_M):
+
+        k = tf.expand_dims(k, axis=2)
+        inner_product = tf.matmul(prev_M, k)
+        k_norm = tf.sqrt(tf.reduce_sum(tf.square(k), axis=1, keep_dims=True))
+        M_norm = tf.sqrt(tf.reduce_sum(tf.square(prev_M), axis=2, keep_dims=True))
+        norm_product = M_norm * k_norm
+        K = tf.squeeze(inner_product / (norm_product + 1e-8)) 
+
+        K_exp = tf.exp(K)
+        w = K_exp / tf.reduce_sum(K_exp, axis=1, keep_dims=True) 
+
+        return w
+```
+
+然后，我们获得读取的权重向量：
+
+```py
+ w_r = read_head_addressing(k, prev_M)
+```
+
+我们执行读取操作，这是读取的权重向量和内存的线性组合：
+
+```py
+  read_vector_list = []
+        with tf.variable_scope('reading'):
+            for i in range(self.head_num):
+                read_vector = tf.reduce_sum(tf.expand_dims(w_r_list[i], dim=2) * M, axis=1)
+                read_vector_list.append(read_vector)
+```
+
+# 写入操作
+
+在执行写操作之前，我们要找到最近最少使用的内存位置，因为这是我们必须写的位置。 我们如何找到最近最少使用的内存位置？ 为了找到这一点，我们计算了一个新的向量，称为使用权重向量。 它由`w[t]^u`表示，并将在每个读取和写入步骤之后进行更新。 它只是读取权重向量和写入权重向量的总和，即`w[t]^u < -w[t]^r + w[t]^w`。
+
+除了添加读取和权重向量外，我们还通过添加衰减的先前使用权重向量`w[t - 1]^u`来更新使用权重向量。 我们使用称为`γ`的衰减参数，该参数用于确定以前的使用权重必须如何衰减。 因此，我们最终的使用权重向量是衰减的先前使用权重向量，读取权重向量和写入权重向量的总和：
+
+![](img/5652885b-2476-4d25-a5c8-db704d656211.png)
+
+现在我们已经计算了使用权重向量，如何计算最近最少使用的位置？ 为此，我们引入了另一个权重向量，称为最不常用的权重向量`w[t]^(lu)`。
+
+从使用权重向量`w[t]^u`计算最少使用的权重向量`w[t]^(lu)`非常简单。 我们只需将使用权重向量中的最低值的索引设置为 1，将其余值设置为 0，因为使用权重向量中的最低值意味着它最近最少使用：
+
+![](img/0a6d7a21-f2e4-41f6-b506-4487a851b36e.png)
+
+好的，接下来是什么？ 我们已经计算出最少使用的权重向量。 现在，我们如何计算写权重向量`w[t]^w`？ 我们使用 Sigmoid 门计算写入权重向量，它用于计算先前读取的权重向量`w[t - 1]^r`和先前最少使用的权重向量`w[t - 1]^(lu)`的凸组合：
+
+![](img/453b7cfc-2e44-4d2a-aa5f-cc8167952005.png)
+
+在计算写权重向量之后，我们最终更新我们的存储矩阵：
+
+![](img/81e47382-03c1-43c5-b0c8-04f333c3a518.png)
+
+我们将看到如何在 TensorFlow 中构建它。
+
+我们计算使用权重向量：
+
+```py
+ w_u = self.gamma * prev_w_u + tf.add_n(w_r_list) + tf.add_n(w_w_list)
+```
+
+然后，我们计算最少使用的权重向量：
+
+```py
+    def least_used(w_u):
+        _, indices = tf.nn.top_k(w_u, k=self.memory_size)
+        w_lu = tf.reduce_sum(tf.one_hot(indices[:, -self.head_num:], depth=self.memory_size), axis=1)
+        return indices, w_lu
+```
+
+我们存储先前的索引和先前最少使用的权重向量：
+
+```py
+prev_indices, prev_w_lu =  least_used(prev_w_u)
+```
+
+我们计算写权重向量：
+
+```py
+    def write_head_addressing(sig_alpha, prev_w_r, prev_w_lu):
+
+        return sig_alpha * prev_w_r + (1\. - sig_alpha) * prev_w_lu 
+```
+
+然后，我们更新内存：
+
+```py
+M_ = prev_M * tf.expand_dims(1\. - tf.one_hot(prev_indices[:, -1], self.memory_size), dim=2)
+```
+
+我们执行写操作：
+
+```py
+
+        M = M_
+        with tf.variable_scope('writing'):
+            for i in range(self.head_num):
+
+                w = tf.expand_dims(w_w_list[i], axis=2)
+                k = tf.expand_dims(k_list[i], axis=1)
+                M = M + tf.matmul(w, k)
+```
+
+# 总结
+
+我们看到了神经图灵机如何从内存中存储和检索信息，以及它如何使用不同的寻址机制（例如基于位置和基于内容的寻址）来读写信息。 我们还学习了如何使用 TensorFlow 实现 NTM 以执行复制任务。 然后，我们了解了 MANN 以及 MANN 与 NTM 的不同之处。 我们还了解了 MANN 如何使用最近最少使用的访问方法来克服 NTM 的缺点。
+
+在下一章中，我们将学习**模型不可知元学习**（**MAML**）以及如何在监督和强化学习环境中使用它。
+
+# 问题
+
+1.  什么是 NTM？
+2.  NTM 中的控制器是什么？
+3.  为什么我们使用读写头？
+4.  什么叫记忆？
+5.  NTM 中使用哪些不同类型的寻址机制？
+6.  什么叫插值门？
+7.  如何从使用权重向量中计算出最少使用的权重向量？
+
+# 进一步阅读
+
+*   [NTM 论文](https://arxiv.org/pdf/1410.5401.pdf)
+*   [使用记忆增强神经网络的一次学习](https://arxiv.org/pdf/1605.06065.pdf)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/06.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/06.md
new file mode 100644
index 00000000..2d0c4a89
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/06.md
@@ -0,0 +1,1085 @@
+# 六、MAML 及其变体
+
+在上一章中，我们了解了**神经图灵机**（**NTM**）以及它如何存储和从内存中检索信息。 我们还了解了称为记忆增强神经网络的 NTM 变体，该变体广泛用于单次学习中。 在本章中，我们将学习一种有趣的，最流行的元学习算法，称为**模型不可知元学习**（**MAML**）。 我们将了解什么是不可知论元学习模型，以及如何在监督和强化学习设置中使用它。 我们还将学习如何从头开始构建 MAML，然后我们将学习**对抗性元学习**（**ADML**）。 我们将看到如何使用 ADML 查找健壮的模型参数。 接下来，我们将学习如何为分类任务实现 ADML。 最后，我们将学习用于元学习的**上下文适应元学习**（**CAML**）。
+
+在本章中，您将了解以下内容：
+
+*   MAML
+*   MAML 算法
+*   监督学习和强化学习设置中的 MAML
+*   从头开始构建 MAML
+*   ADML
+*   从头开始构建 ADML
+*   CAML
+
+# MAML
+
+MAML 是最近推出且使用最广泛的元学习算法之一，它在元学习研究中创造了重大突破。 元学习是元学习的重点，我们知道，在元学习中，我们从仅包含少量数据点的各种相关任务中学习，并且元学习器会产生一个可以很好地概括新的相关任务的快速学习器，即使训练样本数量较少。
+
+MAML 的基本思想是找到一个更好的初始参数，以便具有良好的初始参数，该模型可以以较少的梯度步骤快速学习新任务。
+
+那么，那是什么意思呢？ 假设我们正在使用神经网络执行分类任务。 我们如何训练网络？ 我们将从初始化随机权重开始，并通过最小化损失来训练网络。 如何使损失最小化？ 我们使用梯度下降。 好的，但是我们如何使用梯度下降来使损失最小化呢？ 我们使用梯度下降法来找到最佳的权重，这将使我们损失最小。 我们采取多个梯度步骤来找到最佳权重，以便可以达到收敛。
+
+在 MAML 中，我们尝试通过学习类似任务的分布来找到这些最佳权重。 因此，对于新任务，我们不必从随机初始化的权重开始，而是可以从最佳权重开始，这将花费较少的梯度步骤来达到收敛，并且不需要更多的数据点来进行训练。
+
+让我们简单地了解一下 MAML； 假设我们有三个相关任务： `T1, T2, T3`。 首先，我们随机初始化模型参数`θ`。 我们针对任务`T1`训练我们的网络。 然后，我们尝试通过梯度下降使损失`L`最小化。 通过找到最佳参数`θ'[1]`，我们将损失降至最低。 同样，对于任务`T2`和`T3`，我们将以随机初始化的模型参数`θ`开始，并通过梯度下降找到正确的参数集来最小化损失。 假设`θ'[2]`和`θ'[3]`是任务的最佳参数，分别是`T2`和`T3`。
+
+如下图所示，我们以随机初始化的参数`θ`开始每个任务，并通过为每个任务`T`查找最佳参数`θ'[1]`，`θ'[2]`和`θ'[3]`来使损失最小化。 `T1, T2, T3`分别为：
+
+![](img/41376375-faa4-44d0-8c66-b8f75915495b.png)
+
+但是，如果不将`θ`初始化为随机位置（即使用随机值），则如果将`θ`初始化为所有三个任务都通用的位置，则无需采取更多的梯度步骤，也将花费更少的时间。 为了训练。 MAML 试图做到这一点。 MAML 试图找到许多相关任务共有的最佳参数`θ`，因此我们可以用较少的数据点相对较快地训练新任务，而不必执行许多梯度步骤。
+
+如下图所示，我们将`θ`移至所有不同的最佳`θ'`值共有的位置：
+
+![](img/f3493a43-0436-4eac-8048-4e456dbf25d0.png)
+
+因此，对于一个新的相关任务，例如`T4`，我们不必从随机初始化的参数θ开始。 相反，我们可以从最佳θ值开始，这样它将花费更少的梯度步骤来达到收敛。
+
+因此，在 MAML 中，我们尝试找到相关任务共有的最佳θ值，以帮助我们从更少的数据点中学习并最大程度地减少训练时间。 MAML 与模型无关，这意味着我们可以将 MAML 应用于可通过梯度下降训练的任何模型。 但是 MAML 到底如何工作？ 我们如何将模型参数移至最佳位置？ 我们将在下一节中详细探讨。
+
+# MAML 算法
+
+现在，我们对 MAML 有了基本的了解，我们将详细探讨它。 假设我们有一个由`θ`参数化的模型`f`，即`f[θ]()`，我们在任务上有一个分布`p(T)`。 首先，我们用一些随机值初始化参数`θ`。 接下来，我们从任务分布中抽样一些任务`Ti`，即`Ti ~ p(T)`。 假设我们采样了五个任务， `T = {T1, T2, ..., T5}`，然后，对于每个任务`Ti`，我们对`k`数据点进行采样并训练模型。 我们通过计算损失`L[T[i]](f[θ])`来做到这一点，并使用梯度下降来使损失最小化，并找到使损失最小的最佳参数集：
+
+![](img/a353f3ca-1b7a-42e4-ade6-149f8bcef645.png)
+
+在前面的公式中，适用以下条件：
+
+*   `θ'[i]`是任务`Ti`的最佳参数
+*   `θ`是初始参数
+*   `α`是超参数
+*   `ᐁ[θ]L[T[i]]f(θ)`是任务`Ti`的梯度
+
+因此，在前面的梯度更新之后，我们将为采样的所有五个任务提供最佳参数：
+
+![](img/74cd014c-db87-4c48-a462-2b94e7b93a5c.png)
+
+现在，在采样下一批任务之前，我们执行元更新或元优化。 也就是说，在上一步中，我们通过训练每个任务`Ti`找到了最佳参数`θ'[i]`。 现在，我们针对这些最佳参数`θ'[i]`计算梯度，并通过训练一组新任务`Ti`来更新随机初始化的参数`θ`。 这使我们随机初始化的参数θ移至最佳位置，在训练下一批任务时，我们无需采取许多梯度步骤。 此步骤称为元步骤，元更新，元优化或元训练。 可以表示为：
+
+![](img/d50d191f-580f-47e9-ae34-fec341ebdcd8.png)
+
+在前面的公式中，适用以下条件：
+
+*   `θ`是我们的初始参数
+*   `β`是超参数
+*   ![](img/a6785872-8a97-405f-a0e2-5a9bffd68764.png)
+
+    是每个新任务`Ti`相对于参数`θ'[i]`的梯度
+
+如果您仔细看一下以前的元更新方程，我们会注意到我们正在更新模型参数`θ`，方法是仅取每个新任务`Ti`的参数`θ'[i]`最佳梯度平均值。
+
+下图显示了 MAML 的总体算法； 我们的算法由两个循环组成：一个内部循环，我们在其中找到每个任务`Ti`的最佳参数`θ'[i]`，一个外部循环，在其中我们通过计算相对于一组新任务`Ti`中最佳参数`θ'[i]`的梯度来确定`θ`，并更新随机初始化的模型参数：
+
+![](img/a8f748a6-3636-47c9-8118-a26d27fd687f.png)
+
+我们应始终牢记，在更新外循环中的模型参数`θ`时，不应使用找到最佳参数`θ'[i]`的同一组任务`Ti`。
+
+因此，简而言之，在 MAML 中，我们对一批任务进行了采样，对于批量中的每个任务`Ti`，我们使用梯度下降使损失最小化并获得最佳参数`θ'[i]`。 然后，在采样另一批任务之前，我们通过计算一组新任务`Ti`中最佳参数`θ'[i]`的梯度来更新随机初始化的模型参数θ。
+
+# 监督学习中的 MAML
+
+MAML 非常擅长寻找最佳初始参数，对吗？ 现在，我们将看到如何在监督学习设置中使用 MAML。 在继续之前，让我们快速定义损失函数。 损失函数可以是根据我们正在执行的任务的任何函数。
+
+如果执行回归，则可以将损失函数用作均方误差：
+
+![](img/796befd5-1cda-45c9-a379-ec4f6cba6e68.png)
+
+如果这是分类任务，那么我们可以使用损失函数，例如交叉熵损失：
+
+![](img/976761a6-74d4-41d0-b705-4c21d37fdccd.png)
+
+现在，让我们一步一步地了解 MAML 如何在监督学习中使用：
+
+1.  假设我们有一个由参数θ参数化的模型`f`，并且在任务`p(T)`上有分布。 首先，我们随机初始化模型参数θ。
+2.  我们从任务分布中抽取一些任务`Ti`，即`Ti ~ p(T)`。 假设我们采样了三个任务，然后`T = {T1, T2, T3}`。
+
+3.  **内循环**：对于任务（`T`）中的每个任务（`Ti`），我们对`k`个数据点进行采样，并准备我们的训练和测试数据集：
+
+![](img/037ef61e-e595-4eb7-8fd1-00f6fce23823.png) ![](img/259b87df-9fd2-430a-9a11-1718a717f16f.png)
+
+等待！ 什么是训练集和测试集？ 我们使用内循环中的训练集来找到最佳参数`θ'[i]`，并使用外循环中的测试集来寻找最佳参数`θ`。 **测试集并不意味着我们正在检查模型的表现。 它基本上充当外循环中的训练。 我们也可以将测试集称为元训练集。**
+
+现在，我们在`D_train[i]`上应用任何监督学习算法，使用梯度下降法计算损失并最小化损失，并获得最佳参数`θ'[i]`，因此：
+
+![](img/d0b3cebd-6140-481a-bb50-b2eff476cd95.png)
+
+因此，对于每个任务，我们对`k`个数据点进行采样，并最小化训练集`D_train[i]`上的损失，并获得最佳参数`θ'[i]`。 当我们采样三个任务时，我们将拥有三个最佳参数`θ'[i]`。
+
+4.  **外循环**：我们在测试集（元训练集）中执行元优化-也就是说，在这里，我们尝试使测试集`D_test[i]`中的损失最小化。 我们通过计算相对于上一步中计算出的最佳参数`θ'[i]`的梯度来最小化损失，并使用我们的测试集（元训练集）更新随机初始化的参数`θ`：
+
+![](img/a3ffe590-934d-4652-9c3a-c1159b5bd84e.png)
+
+5.  对于`n`次迭代，我们重复步骤 2 到步骤 5。 下图为您提供了监督学习中的 MAML 概述：
+
+![](img/3c683de1-98dc-46b2-903a-0c23d98a278d.png)
+
+# 从头开始构建 MAML
+
+在上一节中，我们了解了 MAML 的工作原理。 我们看到了 MAML 如何获得更好，更健壮的模型参数θ，该参数可以在各个任务之间推广。 现在，我们将通过从头开始编码来更好地了解 MAML。 为了更好地理解，我们将考虑一个简单的二分类任务。 我们随机生成输入数据，并使用简单的单层神经网络对其进行训练，然后尝试找到最佳参数`θ`。 现在，我们将逐步逐步了解如何执行此操作：
+
+[您还可以在此处查看 Jupyter 笔记本中提供的代码，并附带说明](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/06.%20MAML%20and%20it's%20Variants/6.5%20Building%20MAML%20From%20Scratch.ipynb)。
+
+首先，我们导入`numpy`库：
+
+```py
+import numpy as np
+```
+
+# 生成数据点
+
+现在，我们定义了一个称为`sample_points`的函数，用于生成我们的输入（`x`，`y`）对。 它以`k`参数作为输入，这意味着我们要采样的（`x`，`y`）对的数量：
+
+```py
+def sample_points(k):
+    x = np.random.rand(k,50)
+    y = np.random.choice([0, 1], size=k, p=[.5, .5]).reshape([-1,1])
+    return x,y
+```
+
+前面的函数返回以下输出：
+
+```py
+x, y = sample_points(10)
+print x[0]
+print y[0]
+
+[0.537339   0.113621   0.62983308 0.3016117  0.91174146 0.95787598
+ 0.20520229 0.123301   0.64143809 0.68485511 0.29509309 0.65719205
+ 0.60906626 0.56890899 0.82614517 0.4408421  0.48018921 0.82674918
+ 0.37076319 0.56239926 0.47655734 0.16489053 0.79742579 0.57731408
+ 0.62065454 0.70110719 0.61330581 0.84084355 0.7967645  0.84148374
+ 0.04915798 0.31650656 0.64326928 0.20878387 0.29682973 0.34488916
+ 0.54626642 0.35608015 0.37950982 0.42281464 0.62984657 0.46538511
+ 0.84092615 0.38056331 0.21669412 0.44118415 0.65537459 0.2136067
+ 0.72679706 0.22969462]
+[1]
+```
+
+# 单层神经网络
+
+为了简单起见和更好地理解，我们使用只有一层的神经网络来预测输出：
+
+```py
+a = np.matmul(X, theta)
+YHat = sigmoid(a)
+```
+
+因此，我们使用 MAML 来找到可在各个任务之间推广的最佳参数值`θ`。 因此，对于一项新任务，我们可以通过采取较少的梯度步骤，在较短的时间内从几个数据点中学习。
+
+# 将 MAML 用于训练
+
+现在，我们定义一个名为`MAML`的类，在其中实现 MAML 算法。 在`__init__`方法中，我们将初始化所有必需的变量。 然后，我们定义我们的`sigmoid`激活函数。 在此之后，我们定义了`train`函数。
+
+我们定义用于实现 MAML 的类：
+
+```py
+class MAML(object):
+```
+
+我们定义`__init__`方法并初始化所有必需的变量：
+
+```py
+def __init__(self):
+```
+
+我们初始化许多任务，即每批任务中需要的任务数：
+
+```py
+        self.num_tasks = 10
+```
+
+以下是每个任务中需要的样本数量（即镜头数量）和数据点数量[`k`）：
+
+```py
+        self.num_samples = 10
+```
+
+以下是周期数，即训练迭代：
+
+```py
+        self.epochs = 1000
+```
+
+以下是内部循环（内部梯度更新）的超参数：
+
+```py
+        self.alpha = 0.0001
+```
+
+以下是外部循环（外部梯度更新）的超参数，即元优化：
+
+```py
+        self.beta = 0.0001
+```
+
+然后，我们随机初始化模型参数θ：
+
+```py
+        self.theta = np.random.normal(size=50).reshape(50, 1)
+```
+
+我们定义了`sigmoid`激活函数：
+
+```py
+    def sigmoid(self,a):
+        return 1.0 / (1 + np.exp(-a))
+```
+
+现在，让我们开始训练：
+
+```py
+    def train(self):
+```
+
+对于周期数：
+
+```py
+        for e in range(self.epochs):  
+
+            self.theta_ = []
+```
+
+对于批量任务中的任务`i`：
+
+```py
+            for i in range(self.num_tasks):
+```
+
+对`num_samples`个数据点进行采样，并准备我们的训练集`D_train[i]`：
+
+```py
+                XTrain, YTrain = sample_points(self.num_samples)
+```
+
+我们通过单层神经网络预测`YHat`的值：
+
+```py
+                a = np.matmul(XTrain, self.theta)
+
+                YHat = self.sigmoid(a)
+```
+
+由于我们正在执行分类，因此我们将交叉熵损失用作损失函数：
+
+```py
+                loss = ((np.matmul(-YTrain.T, np.log(YHat)) - np.matmul((1 -YTrain.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+```
+
+我们通过计算梯度将损失降至最低：
+
+```py
+                gradient = np.matmul(XTrain.T, (YHat - YTrain)) / self.num_samples
+```
+
+我们更新梯度并找到每个任务`Ti`的最佳参数`θ'`，其中：
+
+![](img/1eb74405-5545-45aa-be1a-7eb8d73de4c4.png)
+
+```py
+                self.theta_.append(self.theta - self.alpha*gradient)
+```
+
+我们初始化元梯度：
+
+```py
+            meta_gradient = np.zeros(self.theta.shape)
+```
+
+然后，我们对`k`个数据点进行采样，并准备用于元训练的测试集（元训练集），即`D_test[i]`：
+
+```py
+            for i in range(self.num_tasks):
+
+                XTest, YTest = sample_points(10)
+```
+
+我们通过单层神经网络预测`YPred`的值：
+
+```py
+                a = np.matmul(XTest, self.theta_[i])
+
+                YPred = self.sigmoid(a)
+```
+
+我们计算元梯度：
+
+```py
+                meta_gradient += np.matmul(XTest.T, (YPred - YTest)) / self.num_samples
+```
+
+我们使用元梯度更新随机初始化的模型参数θ：
+
+![](img/246959bb-2867-4fda-bb30-01b1ecba3bc2.png)
+
+```py
+self.theta = self.theta-self.beta*meta_gradient/self.num_tasks
+```
+
+我们每隔 1000 个周期打印一次损失：
+
+```py
+            if e%1000==0:
+                print "Epoch {}: Loss {}\n".format(e,loss) 
+                print 'Updated Model Parameter Theta\n'
+                print 'Sampling Next Batch of Tasks \n'
+                print '---------------------------------\n'
+```
+
+`MAML`类的完整代码如下：
+
+```py
+class MAML(object):
+    def __init__(self):
+
+        #initialize number of tasks i.e number of tasks we need in each batch of tasks
+        self.num_tasks = 10
+
+        #number of samples i.e number of shots -number of data points (k) we need to have in each task
+        self.num_samples = 10
+
+        #number of epochs i.e training iterations
+        self.epochs = 10000
+
+        #hyperparameter for the inner loop (inner gradient update)
+        self.alpha = 0.0001
+
+        #hyperparameter for the outer loop (outer gradient update) i.e meta optimization
+        self.beta = 0.0001
+
+        #randomly initialize our model parameter theta
+        self.theta = np.random.normal(size=50).reshape(50, 1)
+
+    #define our sigmoid activation function 
+    def sigmoid(self,a):
+        return 1.0 / (1 + np.exp(-a))
+
+    #now let's get to the interesting part i.e training 
+    def train(self):
+
+        #for the number of epochs,
+        for e in range(self.epochs): 
+
+            self.theta_ = []
+
+            #for task i in batch of tasks
+            for i in range(self.num_tasks):
+
+                #sample k data points and prepare our train set
+                XTrain, YTrain = sample_points(self.num_samples)
+
+                a = np.matmul(XTrain, self.theta)
+
+                YHat = self.sigmoid(a)
+
+                #since we are performing classification, we use cross entropy loss as our loss function
+                loss = ((np.matmul(-YTrain.T, np.log(YHat)) - np.matmul((1 -YTrain.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+
+                #minimize the loss by calculating gradients
+                gradient = np.matmul(XTrain.T, (YHat - YTrain)) / self.num_samples
+
+                #update the gradients and find the optimal parameter theta' for each of tasks
+                self.theta_.append(self.theta - self.alpha*gradient)
+
+            #initialize meta gradients
+            meta_gradient = np.zeros(self.theta.shape)
+
+            for i in range(self.num_tasks):
+
+                #sample k data points and prepare our test set for meta training
+                XTest, YTest = sample_points(10)
+
+                #predict the value of y
+                a = np.matmul(XTest, self.theta_[i])
+
+                YPred = self.sigmoid(a)
+
+                #compute meta gradients
+                meta_gradient += np.matmul(XTest.T, (YPred - YTest)) / self.num_samples
+
+            #update our randomly initialized model parameter theta with the meta gradients
+            self.theta = self.theta-self.beta*meta_gradient/self.num_tasks
+
+            if e%1000==0:
+                print "Epoch {}: Loss {}\n".format(e,loss) 
+                print 'Updated Model Parameter Theta\n'
+                print 'Sampling Next Batch of Tasks \n'
+                print '---------------------------------\n'
+```
+
+现在，让我们为`MAML`类创建一个实例：
+
+```py
+model = MAML()
+```
+
+我们开始训练模型：
+
+```py
+model.train()
+```
+
+我们可以看到如下输出： 我们可以注意到，损失从周期 0 的 2.71 急剧减少到周期 3,000 的 0.5：
+
+```py
+Epoch 0: Loss 2.71883405043
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 1000: Loss 1.7829716017
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 2000: Loss 1.29532754055
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 3000: Loss 0.599713728648
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+```
+
+# MAML 强化学习
+
+如何在**强化学习**（**RL**）设置中应用 MAML？ 在 RL 中，我们的目标是找到正确的策略函数，该函数将告诉我们在每种状态下要执行哪些操作。 但是我们如何在 RL 中应用元学习呢？ 假设我们训练了智能体以解决两臂老虎机问题。 但是，我们不能使用相同的智能体来解决四臂老虎机问题。 我们必须再次从头开始训练智能体，以解决这个新的四臂老虎机问题。 当另一名`n`臂老虎机进来时，情况也是如此。我们一直在从头训练智能体以解决新问题，即使它与智能体已经学会解决的问题密切相关。 因此，代替执行此操作，我们可以应用元学习并在一组相关任务上对智能体进行训练，以便智能体可以利用其先前的知识在最短的时间内学习新的相关任务，而无需从头开始进行训练。
+
+在 RL 中，我们可以将轨迹称为包含一系列观察和动作的元组。 因此，我们在这些轨迹上训练模型以学习最佳策略。 但是，同样，我们应该使用哪种算法来训练我们的模型？ 对于 MAML，我们可以使用可以通过梯度下降训练的任何 RL 算法。 我们使用策略梯度来训练我们的模型。 策略梯度通过直接将带有某些参数`θ`的策略`π`参数化为`π[θ]`来找到最佳策略。 因此，使用 MAML，我们尝试找到可在各个任务之间推广的最佳参数`θ`。
+
+但是我们的损失函数应该是什么？ 在 RL 中，我们的目标是通过最大化正向奖励和最小化负向奖励来找到最优策略，因此我们的损失函数变为最小化负向奖励，它可以表示为：
+
+![](img/75cd4f0f-ba3e-4a2d-b1f9-6e819e8b8336.png)
+
+但是上一个方程式中发生了什么？ `R(x[y, t])`表示时间`t`的状态`x`和动作`a`的奖励，`t = 1`至`H`表示我们的时间步长，其中`H`是地平线-我们的最终时间步长。
+
+假设我们有一个由`θ`参数化的模型`f`，也就是`f[θ]()`和任务的分布`p(T)`。 首先，我们用一些随机值初始化参数`θ`。 接下来，我们从任务分布中抽样一些任务`Ti`： `Ti ~ p(T)`。
+
+然后，对于每个任务，我们对`k`轨迹进行采样，并构建训练和测试集：`D_train[i], D_test[i] ~ T[i]`。 我们的数据集基本上包含诸如观察和动作之类的轨迹信息。 通过执行梯度下降，我们将训练集`D_train[i]`上的损失降至最低，并找到最佳参数`θ'`：
+
+![](img/8232779e-e0ae-4bc6-bf06-a8c6b7cae174.png)
+
+现在，在采样下一批任务之前，我们执行元更新-也就是说，我们尝试通过计算相对于最佳参数`θ'[i]`的损失梯度来最大程度地减少测试集`D_test[i]`上的损失，并更新随机初始化的参数`θ`：
+
+![](img/b400ce06-0bac-4d66-9252-198f43bc3624.png)
+
+# 对抗式元学习
+
+我们已经看到了如何使用 MAML 查找可跨任务通用的最佳参数θ。 现在，我们将看到一个称为 ADML 的 MAML 变体，该变体同时使用干净样本和对抗样本来查找更好且更健壮的初始模型参数`θ`。 在继续之前，让我们了解什么是对抗性样本。 通过对抗攻击获得对抗样本。 假设我们有一张图片； 对抗性攻击包括以无法被我们的眼睛察觉的方式稍微修改此图像，并将此修改后的图像称为对抗图像。 当我们将该对抗图像提供给模型时，它无法正确分类。 有几种不同的对抗攻击可用于获取对抗样本。 我们将看到一种常用的方法，称为**快速梯度符号方法**（**FGSM**）。
+
+# FGSM
+
+假设我们正在执行图像分类； 通常，我们通过计算损失并通过相对于模型参数（例如权重）计算损失的梯度并更新模型参数来尝试使损失最小化来训练模型。 为了获得图像的对抗样本，我们计算损失相对于图像输入像素的梯度，而不是模型参数。 因此，图像的对抗样本基本上是相对于图像的损失梯度。 我们只采取一个梯度步骤，因此它在计算上是有效的。 计算完梯度后，我们取其符号。
+
+对抗图像可以如下计算：
+
+![](img/c41880a2-005a-45e8-b9c1-c7320bda7b14.png)
+
+在前面的公式中，适用以下条件：
+
+*   ![](img/a620485a-362a-4a0a-b416-77d3c4b3604f.png)是对抗图片
+*   ![](img/e10a87b0-5a1d-4ee6-8de6-7fc97eb299bd.png)是输入图像
+*   ![](img/474889d5-2f98-4cfb-a696-b748d045b14f.png)是相对于我们输入图像的损失梯度
+
+如您在下图中所看到的，我们有一个输入图像`x`，并且通过将损失相对于我们的图像的梯度符号添加到实际图像中，我们得到了对抗图像。
+
+![](img/b7ca263c-ad08-4ec5-beda-3687f8209093.png)
+
+# ADML
+
+现在，我们已经了解了什么是对抗性样本以及如何生成对抗性样本，我们将看到如何在元学习中使用这些对抗性样本。 我们使用干净样本和对抗样本训练元学习模型。 但是，需要使用对抗样本训练模型吗？ 它有助于我们找到鲁棒的模型参数`θ`。 干净样本和对抗样本均在算法的内部和外部循环中使用，并且同样有助于更新模型参数。 ADML 使用干净样本和对抗样本之间的这种变化的相关性来获得更好，更健壮的模型参数初始化，从而使我们的参数对对抗样本变得健壮，并且可以很好地推广到新任务。
+
+因此，当我们有任务分布`p(T)`，时，我们从任务分布中采样了一批任务`Ti`，对于每个任务，我们采样`k`个数据点，并准备我们的训练和测试集。
+
+在 ADML 中，我们将训练集和测试集的干净样本和对抗样本采样为`D_train[clean_i]`，`D_train[adv_i]`，`D_test[clean_i]`，`D_test[adv_i]`。
+
+现在，我们在训练上计算损失，通过梯度下降使损失最小，并找到最佳参数θ'。 由于我们拥有干净的和对抗的训练集，因此我们对这两个集合都执行梯度下降，并分别为干净的和对抗集找到最佳参数`θ'[i]`和`θ'[adv_i]`：
+
+![](img/8d7f05b0-cdb2-4df3-9fe9-8e54a1089fbb.png)
+
+![](img/6f66517a-2c97-48ea-a92a-fb1ae94a5f1e.png)
+
+现在，我们进入元训练阶段，通过计算损失相对于上一步获得的最佳参数θ'的梯度，通过使测试集上的损失最小来找到最佳参数`θ`。
+
+因此，我们通过计算相对于最佳参数`θ'[i]`和`θ'[adv_i]`的损失梯度，通过最小化纯净`D_test[clean_i]`和对抗性`D_test[adv_i]`测试集的损失来更新模型参数`θ`：
+
+![](img/b60bdd41-7a29-4263-aee4-4ea823293598.png)
+
+![](img/65b0d4bd-e4e0-4ca1-8e54-7cf287b85970.png)
+
+# 从头开始构建 ADML
+
+在上一节中，我们了解了 ADML 的工作原理。 我们看到了如何使用干净样本和对抗样本训练我们的模型，以获得更好，更健壮的模型参数`θ`，该参数可在各个任务之间推广。 现在，我们将通过从头开始编码来更好地理解 ADML。 为了更好地理解，我们将考虑一个简单的二分类任务。 我们随机生成输入数据，并使用单层神经网络对其进行训练，然后尝试找到最佳参数`theta`。 现在，我们将逐步了解 ADML 的工作原理。
+
+[您还可以在此处查看 Jupyter 笔记本中提供的代码，并附带说明](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/06.%20MAML%20and%20it's%20Variants/6.7%20Building%20ADML%20From%20Scratch.ipynb)。
+
+首先，我们导入所有必需的库：
+
+```py
+import tensorflow as tf
+import numpy as np
+```
+
+# 生成数据点
+
+现在，我们定义了一个称为`sample_points`的函数，用于生成纯净输入（`x`和`y`）对。 它以`k`参数作为输入，这意味着我们要采样许多（`x`，`y`）对：
+
+```py
+def sample_points(k):
+    x = np.random.rand(k,50)
+    y = np.random.choice([0, 1], size=k, p=[.5, .5]).reshape([-1,1])
+    return x,y
+```
+
+前面的函数返回以下输出：
+
+```py
+x, y = sample_points(10)
+print x[0]
+print y[0]
+
+[0.69922136 0.77305793 0.72227583 0.45291578 0.52828294 0.65308614
+ 0.77281836 0.59878078 0.71554901 0.51660327 0.65538137 0.25267594
+ 0.13763862 0.12522582 0.16336571 0.87987815 0.64465771 0.86281232
+ 0.24503599 0.85324859 0.62247917 0.58166159 0.47871545 0.75025566
+ 0.87919612 0.49545388 0.31058753 0.66306459 0.34621453 0.56970739
+ 0.84310111 0.08747573 0.48944231 0.50061581 0.86215915 0.3248433
+ 0.01350084 0.23846395 0.91015074 0.04968178 0.59098773 0.74692099
+ 0.92763503 0.16319537 0.69655162 0.20419323 0.58241944 0.15703596
+ 0.76047838 0.93452557]
+[0]
+```
+
+# FGSM
+
+现在，我们定义了另一个称为`FGSM`的函数，用于生成对抗性输入。 我们使用 FGSM 生成对抗性样本。 我们已经看到了 FGSM 如何通过计算相对于输入而不是模型参数的梯度来生成对抗对。 因此，我们将干净（`x`，`y`）对作为输入，并生成对抗（`x_adv`，`y`）对：
+
+```py
+def FGSM(x,y):
+
+    #placeholder for the inputs x and y
+    X = tf.placeholder(tf.float32)
+    Y = tf.placeholder(tf.float32)
+
+    #initialize theta with random values
+    theta = tf.Variable(tf.zeros([50,1]))
+
+    #predict the value of y
+    YHat = tf.nn.softmax(tf.matmul(X, theta)) 
+
+    #calculate the loss
+    loss = tf.reduce_mean(-tf.reduce_sum(Y*tf.log(YHat), reduction_indices=1))
+
+    #now calculate gradient of our loss function with respect to our input X instead of model parameter theta
+    gradient = ((tf.gradients(loss,X)[0]))
+
+    #calculate the adversarial input
+    #i.e x_adv = x + epsilon * sign ( nabla_x J(X, Y))
+    X_adv = X + 0.2*tf.sign(gradient)
+    X_adv = tf.clip_by_value(X_adv,-1.0,1.0)
+
+    #start the tensoflow session
+    with tf.Session() as sess:
+
+        sess.run(tf.global_variables_initializer()) 
+        X_adv = sess.run(X_adv, feed_dict={X: x, Y: y})
+
+    return X_adv, y
+```
+
+# 单层神经网络
+
+我们使用具有单层的神经网络来预测输出：
+
+```py
+a = np.matmul(X, theta)
+ YHat = sigmoid(a)
+```
+
+因此，我们使用 ADML 查找可在各个任务之间推广的最佳参数值θ。 因此，对于一项新任务，我们可以通过采取较少的梯度步骤，在较短的时间内从几个数据点中学习。
+
+# 对抗式元学习
+
+现在，我们定义一个名为`ADML`的类，在其中实现 ADML 算法。 在`__init__`方法中，我们将初始化所有必需的变量。 然后，我们定义`sigmoid`函数，并定义`train`函数。
+
+我们将逐步介绍此步骤，稍后再看完整的最终代码：
+
+```py
+class ADML(object):
+```
+
+我们定义`__init__`方法并初始化必要的变量：
+
+```py
+    def __init__(self):
+```
+
+我们初始化许多任务，即每批任务中需要的任务数：
+
+```py
+        self.num_tasks = 2
+```
+
+我们初始化每个任务中需要的多个样本（即多个镜头）和多个数据点（`k`）：
+
+```py
+        self.num_samples = 10
+```
+
+我们初始化多个周期，即训练迭代：
+
+```py
+        self.epochs = 100
+```
+
+内循环（内部梯度更新）的超参数如下：
+
+```py
+        #for clean sample
+
+        self.alpha1 = 0.0001
+
+        #for adversarial sample
+
+        self.alpha2 = 0.0001
+```
+
+外循环（外梯度更新）的超参数（是元优化）如下：
+
+```py
+        #for clean sample
+        self.beta1 = 0.0001
+
+        #for adversarial sample
+        self.beta2 = 0.0001
+```
+
+我们随机初始化模型参数`theta`：
+
+```py
+        self.theta = np.random.normal(size=50).reshape(50, 1)
+```
+
+我们定义了`sigmoid`激活函数：
+
+```py
+    def sigmoid(self,a):
+        return 1.0 / (1 + np.exp(-a))
+```
+
+现在，让我们看看如何训练网络：
+
+```py
+    def train(self):
+```
+
+对于周期数：
+
+```py
+        for e in range(self.epochs): 
+
+            #theta' of clean samples
+            self.theta_clean = []
+
+            #theta' of adversarial samples
+            self.theta_adv = []
+```
+
+对于批量任务中的任务`i`：
+
+```py
+            for i in range(self.num_tasks):
+```
+
+我们对`k`个数据点进行采样，并准备我们的训练数据。 首先，我们采样干净的数据点，即``D_train[clean_i]``：
+
+```py
+                XTrain_clean, YTrain_clean = sample_points(self.num_samples)
+```
+
+将干净的样本送入 FGSM 并获得对抗性样本`D_train[adv_i]`：
+
+```py
+                XTrain_adv, YTrain_adv = FGSM(XTrain_clean,YTrain_clean)
+```
+
+现在，我们计算`θ'[clean_i]`并将其存储在`theta_clean`中。 使用单层网络预测输出：
+
+```py
+                a = np.matmul(XTrain_clean, self.theta)
+
+                YHat = self.sigmoid(a)
+```
+
+由于我们正在执行分类，因此我们将交叉熵损失用作损失函数：
+
+```py
+                loss = ((np.matmul(-YTrain_clean.T, np.log(YHat)) - np.matmul((1 -YTrain_clean.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+```
+
+我们通过计算梯度将损失降至最低：
+
+```py
+                gradient = np.matmul(XTrain_clean.T, (YHat - YTrain_clean)) / self.num_samples
+```
+
+我们更新梯度并找到干净样本的最佳参数`θ'[i]`：
+
+![](img/c4fc8ead-86bd-4535-8ffd-fa0d43baf33d.png)
+
+```py
+                self.theta_clean.append(self.theta - self.alpha1*gradient)
+```
+
+现在，我们计算对抗样本的``θ'[adv_i]``并将其存储在`theta_adv`中：
+
+```py
+
+                #predict the output y 
+                a = (np.matmul(XTrain_adv, self.theta))
+
+                YHat = self.sigmoid(a)
+
+                #calculate cross entropy loss
+                loss = ((np.matmul(-YTrain_adv.T, np.log(YHat)) - np.matmul((1 -YTrain_adv.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+
+                #minimize the loss by calculating gradients
+                gradient = np.matmul(XTrain_adv.T, (YHat - YTrain_adv)) / self.num_samples
+```
+
+我们更新梯度并找到对抗样本的最佳参数`θ'[i]`，
+
+![](img/5d53f887-644f-44ff-b319-775d50d35f70.png)：
+
+```py
+                self.theta_adv.append(self.theta - self.alpha2*gradient)
+```
+
+我们为干净样本和对抗样本初始化元梯度：
+
+```py
+            meta_gradient_clean = np.zeros(self.theta.shape)
+
+            #initialize meta gradients for adversarial samples
+            meta_gradient_adv = np.zeros(self.theta.shape)
+```
+
+对于`i`个任务：
+
+```py
+            for i in range(self.num_tasks):
+```
+
+我们对`k`个数据点进行了采样，并准备了干净的和对抗的测试集（元训练集）进行元训练-即`D_test[clean_i]`和`D_test[adv_i]`：
+
+```py
+
+                #first, we sample clean data points
+                XTest_clean, YTest_clean = sample_points(self.num_samples)
+
+                #feed the clean samples to FGSM and get adversarial samples
+                XTest_adv, YTest_adv = sample_points(self.num_samples)
+
+```
+
+首先，我们计算干净样本的元梯度：
+
+```py
+               #predict the value of y
+                a = np.matmul(XTest_clean, self.theta_clean[i])
+
+                YPred = self.sigmoid(a)
+
+                #compute meta gradients
+                meta_gradient_clean += np.matmul(XTest_clean.T, (YPred - YTest_clean)) / self.num_samples
+```
+
+现在，我们计算对抗样本的元梯度：
+
+```py
+                #predict the value of y
+                a = (np.matmul(XTest_adv, self.theta_adv[i]))
+
+                YPred = self.sigmoid(a)
+
+                #compute meta gradients
+                meta_gradient_adv += np.matmul(XTest_adv.T, (YPred - YTest_adv)) / self.num_samples
+```
+
+我们使用干净样本和对抗样本的元梯度更新随机初始化的模型参数θ：
+
+![](img/64891702-9268-4488-bd6e-15b18d2268fe.png)
+
+![](img/68f1b8d3-649a-4a94-aa2c-8539476a38eb.png)
+
+```py
+            self.theta = self.theta-self.beta1*meta_gradient_clean/self.num_tasks
+
+            self.theta = self.theta-self.beta2*meta_gradient_adv/self.num_tasks
+```
+
+我们每 10 个周期打印一次损失：
+
+```py
+            if e%10==0:
+                print "Epoch {}: Loss {}\n".format(e,loss) 
+                print 'Updated Model Parameter Theta\n'
+                print 'Sampling Next Batch of Tasks \n'
+                print '---------------------------------\n'
+```
+
+`ADML`类的完整代码如下：
+
+```py
+class ADML(object):
+    def __init__(self):
+
+        #initialize number of tasks i.e number of tasks we need in each batch of tasks
+        self.num_tasks = 2
+
+        #number of samples i.e number of shots -number of data points (k) we need to have in each task
+        self.num_samples = 10
+
+        #number of epochs i.e training iterations
+        self.epochs = 100
+
+        #hyperparameter for the inner loop (inner gradient update)
+
+        #for clean sample
+        self.alpha1 = 0.0001
+
+        #for adversarial sample
+        self.alpha2 = 0.0001
+
+        #hyperparameter for the outer loop (outer gradient update) i.e meta optimization
+
+        #for clean sample
+        self.beta1 = 0.0001
+
+        #for adversarial sample
+        self.beta2 = 0.0001
+
+        #randomly initialize our model parameter theta
+        self.theta = np.random.normal(size=50).reshape(50, 1)
+
+    #define our sigmoid activation function 
+    def sigmoid(self,a):
+        return 1.0 / (1 + np.exp(-a))
+
+    #now let's get to the interesting part i.e training 
+    def train(self):
+
+        #for the number of epochs,
+        for e in range(self.epochs): 
+
+            #theta' of clean samples
+            self.theta_clean = []
+
+            #theta' of adversarial samples
+            self.theta_adv = []
+
+            #for task i in batch of tasks
+            for i in range(self.num_tasks):
+
+                #sample k data points and prepare our training data
+
+                #first, we sample clean data points
+                XTrain_clean, YTrain_clean = sample_points(self.num_samples)
+
+                #feed the clean samples to FGSM and get adversarial samples
+                XTrain_adv, YTrain_adv = FGSM(XTrain_clean,YTrain_clean)
+
+                #1\. First, we computer theta' for clean samples and store it in theta_clean
+
+                #predict the output y 
+                a = np.matmul(XTrain_clean, self.theta)
+
+                YHat = self.sigmoid(a)
+
+                #since we are performing classification, we use cross entropy loss as our loss function
+                loss = ((np.matmul(-YTrain_clean.T, np.log(YHat)) - np.matmul((1 -YTrain_clean.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+
+                #minimize the loss by calculating gradients
+                gradient = np.matmul(XTrain_clean.T, (YHat - YTrain_clean)) / self.num_samples
+
+                #update the gradients and find the optimal parameter theta' for clean samples
+                self.theta_clean.append(self.theta - self.alpha1*gradient)
+
+                #2\. Now, we compute theta' for adversarial samples and store it in theta_clean
+
+                #predict the output y 
+                a = (np.matmul(XTrain_adv, self.theta))
+
+                YHat = self.sigmoid(a)
+
+                #calculate cross entropy loss
+                loss = ((np.matmul(-YTrain_adv.T, np.log(YHat)) - np.matmul((1 -YTrain_adv.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+
+                #minimize the loss by calculating gradients
+                gradient = np.matmul(XTrain_adv.T, (YHat - YTrain_adv)) / self.num_samples
+
+                #update the gradients and find the optimal parameter theta' for adversarial samples
+                self.theta_adv.append(self.theta - self.alpha2*gradient)
+
+            #initialize meta gradients for clean samples
+            meta_gradient_clean = np.zeros(self.theta.shape)
+
+            #initialize meta gradients for adversarial samples
+            meta_gradient_adv = np.zeros(self.theta.shape)
+
+            for i in range(self.num_tasks):
+
+                #sample k data points and prepare our test set for meta training
+
+                #first, we sample clean data points
+                XTest_clean, YTest_clean = sample_points(self.num_samples)
+
+                #feed the clean samples to FGSM and get adversarial samples
+                XTest_adv, YTest_adv = sample_points(self.num_samples)
+
+                #1\. First, we computer meta gradients for clean samples 
+
+                #predict the value of y
+                a = np.matmul(XTest_clean, self.theta_clean[i])
+
+                YPred = self.sigmoid(a)
+
+                #compute meta gradients
+                meta_gradient_clean += np.matmul(XTest_clean.T, (YPred - YTest_clean)) / self.num_samples
+
+                #2\. Now, we compute meta gradients for adversarial samples
+
+                #predict the value of y
+                a = (np.matmul(XTest_adv, self.theta_adv[i]))
+
+                YPred = self.sigmoid(a)
+
+                #compute meta gradients
+                meta_gradient_adv += np.matmul(XTest_adv.T, (YPred - YTest_adv)) / self.num_samples
+
+            #update our randomly initialized model parameter theta
+            #with the meta gradients of both clean and adversarial samples
+
+            self.theta = self.theta-self.beta1*meta_gradient_clean/self.num_tasks
+
+            self.theta = self.theta-self.beta2*meta_gradient_adv/self.num_tasks
+
+            if e%10==0:
+                print "Epoch {}: Loss {}\n".format(e,loss) 
+                print 'Updated Model Parameter Theta\n'
+                print 'Sampling Next Batch of Tasks \n'
+                print '---------------------------------\n'
+```
+
+我们为`ADML`类创建一个实例：
+
+```py
+model = ADML()
+```
+
+然后，我们开始训练模型：
+
+```py
+model.train()
+```
+
+您会注意到损失如何随着时间的推移而减少：
+
+```py
+Epoch 0: Loss 100.25943711532
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 10: Loss 2.13533264312
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 20: Loss 0.426824910313
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+```
+
+# CAML
+
+我们已经看到了 MAML 如何找到模型的最佳初始参数，从而可以轻松地以较少的梯度步骤将其适应于新任务。 现在，我们将看到一个有趣的 MAML 变体，称为 CAML。 CAML 的概念非常简单，与 MAML 相同。 它还尝试找到更好的初始参数。 我们了解了 MAML 如何使用两个循环。 在内部循环中，MAML 学习特定于任务的参数，并尝试使用梯度下降来最大程度地减少损失，在外部循环中，它更新模型参数以减少跨多个任务的预期损失，以便我们可以使用更新的模型参数作为相关任务的更好的初始化。
+
+在 CAML 中，我们对 MAML 算法进行了非常小的调整。 在这里，我们不使用单个模型参数，而是将模型参数分成两个部分：
+
+*   **上下文参数**：它是在内部循环上更新的特定于任务的参数。 用 denoted 表示，它特定于每个任务，代表单个任务的嵌入。
+*   **共享参数**：跨任务共享，并在外循环中更新以找到最佳模型参数。 用`θ`表示。
+
+因此，上下文参数在内部循环中针对每个任务进行调整，并且共享参数在各个任务之间共享，并用于外部循环中的元训练。 在每个适应步骤之前，我们将上下文参数初始化为零。
+
+好的; 但是在将我们的参数分为两个不同的参数时真正有用的是什么？ 它用于避免针对特定任务的过拟合，促进更快的学习，并且具有高效的内存。
+
+# CAML 算法
+
+现在，让我们逐步了解 CAML 的工作原理：
+
+1.  假设我们有一个由参数θ参数化的模型`f`，并且在任务`p(T)`上有分布。 首先，我们随机初始化模型参数θ。 我们还初始化了上下文参数`∅[0] = 0`。
+2.  现在，我们从任务分布中抽样一些任务`Ti`，即`Ti ~ p(T)`。
+
+3.  **内循环**：对于任务（`T`）中的每个任务（`Ti`），我们采样`k`个数据点并准备我们的训练和测试数据集：
+
+![](img/4e2552d7-1491-4538-abef-5499fce82cf0.png)
+
+![](img/d8c2040c-3280-4bc7-ab30-e71b3122a7c5.png)
+
+现在，我们将上下文参数设置为`0`：
+
+![](img/4a3e6241-1225-4448-a074-cda1923b5af7.png)
+
+然后，我们计算`D_train[i]`的损失，使用梯度下降法将损失最小化，并学习任务特定参数`∅[i]`：
+
+![](img/4f25defe-b724-47f7-b0be-f520649caa93.png)
+
+4.  **外循环**：现在，我们在测试集中执行元优化-也就是说，在这里，我们尝试使测试集中`D_test[i]`中的损失最小化并找到最佳参数：
+
+![](img/8678f5bc-f53e-4588-955b-c1f3ba3d1763.png)
+
+5.  对`n`次迭代重复步骤 2 到步骤 4。
+
+# 总结
+
+在本章中，我们学习了如何找到可在各个任务之间推广的最佳模型参数`θ`，以便我们可以减少梯度步骤，并快速学习新的相关任务。 我们从 MAML 开始，我们看到了 MAML 如何执行元优化来计算最佳模型参数。 接下来，我们看到了对抗性元学习，其中我们使用了干净样本和对抗性样本来查找可靠的初始模型参数。 后来，我们了解了 CAML，并看到了 CAML 如何使用两个不同的参数，一个用于在任务中学习，另一个用于更新模型参数。
+
+在下一章中，我们将学习元 SGD 和 Reptile 算法，该算法再次用于查找模型的更好的初始参数。
+
+# 问题
+
+1.  什么是 MAML？
+2.  为什么 MAML 模型不可知？
+3.  什么是对抗性元学习？
+4.  什么是 FGSM？
+5.  什么是上下文参数？
+6.  什么是共享参数？
+
+# 进一步阅读
+
+*   [MAML 论文](https://arxiv.org/pdf/1703.03400.pdf)
+*   [对抗性元学习论文](https://arxiv.org/pdf/1806.03316.pdf)
+*   [CAML 论文](https://arxiv.org/pdf/1810.03642.pdf)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/07.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/07.md
new file mode 100644
index 00000000..00b7664a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/07.md
@@ -0,0 +1,783 @@
+# 七、元 SGD 和 Reptile
+
+在上一章中，我们学习了如何使用 MAML 查找可在多个任务中推广的最佳参数。 我们看到了 MAML 如何通过计算元梯度和执行元优化来计算此最佳参数。 我们还看到了对抗性元学习，它通过添加对抗性样本并使 MAML 在干净样本和对抗性样本之间进行搏斗以找到最佳参数，从而增强了 MAML。 我们还看到了 CAML，或者说是元学习的上下文适应。 在本章中，我们将学习元 SGD，这是另一种用于快速执行学习的元学习算法。 与 MAML 不同，元 SGD 不仅会找到最佳参数，还将找到最佳学习率和更新方向。 我们将看到如何在监督学习和强化学习设置中使用元 SGD。 我们还将看到如何从头开始构建元 SGD。 继续，我们将学习 Reptile 算法，该算法对 MAML 进行了改进。 我们将看到 Reptile 与 MAML 有何不同，然后将介绍如何在正弦波回归任务中使用 Reptile。
+
+在本章中，您将了解以下内容：
+
+*   元 SGD
+*   监督学习中的元 SGD
+*   强化学习中的元 SGD
+*   从头开始构建元 SGD
+*   Reptile
+*   将 Reptile 用于正弦波回归
+
+# 元 SGD
+
+假设我们有一些任务`T`。 我们使用通过某些参数`θ`参数化的模型`f`，并训练模型以最大程度地减少损失。 我们使用梯度下降使损失最小化，并找到模型的最佳参数`θ'[i]`。
+
+让我们回想一下梯度下降的更新规则：
+
+![](img/1afa73d3-1768-4c27-87b2-4d081d00f045.png)
+
+那么，构成梯度下降的关键因素是什么？ 让我们来看看：
+
+*   参数`θ`
+*   学习率`α`
+*   更新方向
+
+我们通常将参数`θ`设置为某个随机值，并在训练过程中尝试找到最佳值，然后将学习率`α`的值设置为一个小数值，或者将其随时间衰减，以及跟随梯度的更新方向。 我们是否可以通过元学习来学习梯度下降的所有这些关键特征，以便可以从几个数据点快速学习？ 在上一章中，我们已经看到 MAML 如何找到可在各个任务之间推广的最佳初始参数`θ`。 有了最佳的初始参数，我们就可以减少梯度步骤，并快速学习新任务。
+
+因此，现在我们是否可以学习最佳的学习率和更新方向，从而可以跨任务进行概括，从而实现更快的收敛和训练？ 让我们看看如何通过将其与 MAML 进行比较在元 SGD 中学习。 如果您还记得，请在 MAML 内循环中，通过最小化梯度下降带来的损失，找到每个任务`T[i]`的最佳参数`θ'[i]`：
+
+![](img/fbd9f509-c789-4ef5-bfa1-c7eee18e09a3.png)
+
+对于元 SGD，我们可以按如下方式重写前面的公式：
+
+![](img/9d597f2d-4624-40a2-ae28-031223f68120.png)
+
+但是有什么区别呢？ 此处`α`不仅是一个标量小值，而且是一个向量。 我们以与`θ`相同的形状随机初始化`α`。我们将`θ`称为初始参数，将`αᐁ[θ]L[T[i]](f[θ])`称为自适应项。 因此，自适应项表示更新方向，其长度成为学习率。 我们在自适应项的方向而不是在梯度方向`ᐁ[θ]L[T[i]](f[θ])`上更新我们的值，并且在自适应项中隐式地实现了我们的学习率。
+
+因此，在元 SGD 中，我们不会使用较小的标量值来初始化学习率`α`。 相反，我们使用与`θ`相同形状的随机值来初始化学习率，并与`θ`一起学习它们。 我们采样了一些任务，并且对于每个任务，我们采样了一些`k`数据点，并使用梯度下降使损失最小化，但是我们的更新方程式变为：
+
+![](img/9d597f2d-4624-40a2-ae28-031223f68120.png)
+
+也就是说，我们的更新方向是自适应项方向，而不是梯度方向，并且我们将`α`与`θ`一起学习。
+
+现在，在外循环中，我们执行元优化-也就是说，我们计算相对于最佳参数`θ'[i]`的损失梯度，并更新我们随机初始化的模型参数`θ`。 在元 SGD 中，我们还更新了随机初始化的`α`，而不是单独更新`θ`，如下所示：
+
+![](img/6f85d711-9900-47ad-a8b7-312381b5d153.png)
+
+![](img/0c7acdb6-ec47-439a-bf52-852b0d82256a.png)
+
+如您所见，元 SGD 只是对 MAML 的一小部分调整。 在 MAML 中，我们随机初始化模型参数`θ`，并尝试找到可跨任务通用的最佳参数。 在元 SGD 中，我们不仅学习模型参数`θ`，还学习了学习率和更新方向，这在适应性项中隐含地实现。
+
+# 用于监督学习的元 SGD 
+
+现在，我们将看到如何在有监督的学习环境中使用元 SGD。 与 MAML 一样，我们可以将元 SGD 应用于可以通过梯度下降训练的任何监督学习问题，无论是回归学习还是分类学习。 首先，我们需要定义我们要使用的损失函数。 例如，如果要执行分类，则可以使用交叉熵作为损失函数，如果要进行回归，则可以使用均方误差作为损失函数。 我们可以使用适合我们任务的任何损失函数。 让我们逐步进行以下操作：
+
+1.  假设我们有一个由参数`θ`参数化的模型`f`，并且在任务!`p(T)`上有一个分布。 首先，我们随机初始化模型参数θ，并随机初始化`α`形状与`θ`相同的形状。
+
+2.  我们从任务分布中抽样一些任务`T[i]`：`T[i] ~ p(T)`。 假设我们已经采样了三个任务，然后是`T = {T[1]m T[2], T[3]}`。
+3.  **内循环**：对于任务（`T`）中的每个任务（`T[i]`），我们对`k`数据点进行采样，并准备训练和测试数据集：
+
+![](img/43092ce7-fca2-4bc4-9d78-bc9c03d11d46.png)
+
+![](img/535205fe-20d7-4139-a4a5-426b1b678fd5.png)
+
+现在，我们在`D_train[i]`上应用了一种监督学习算法，使用梯度下降法计算并最小化了损失，并获得了最佳参数`θ'[i]`：
+
+![](img/bd5ccd0b-c4a6-42c9-b238-a9360a2e008e.png)
+
+因此，对于每个任务，我们对`k`个数据点进行采样，并最大程度地减少训练集`D_train[i]`上的损失，并获得最佳参数`θ'[i]`。 当我们采样三个任务时，我们将拥有三个最佳参数`θ'[i]`。
+
+4.  **外循环**：现在，我们在测试集（元训练集）中执行元优化-也就是说，在这里，我们尝试使测试集`D_test[i]`中的损失最小化。 通过计算相对于上一步中计算出的最佳参数`θ'[i]`的梯度，我们将损失降至最低，并使用测试集更新随机初始化的参数`θ`。 我们不仅更新`θ`，还更新我们的随机初始化参数`α`，它可以表示为：
+
+![](img/a47cf1ed-4e4c-4f4b-be13-640639749882.png)
+
+![](img/dfaf2f2a-37a7-40d5-aa03-98dd38e140d8.png)
+
+5.  对于`n`次迭代，我们重复步骤 2 到步骤 4。
+
+# 从头开始构建元 SGD
+
+在上一节中，我们了解了元 SGD 的工作原理。 我们看到了元 SGD 如何获得更好，更健壮的模型参数`θ`，该参数可跨任务进行通用化，并具有最佳的学习率和更新方向。 现在，我们将从头开始对元 SGD 进行编码，以更好地了解它们。 就像我们在 MAML 中所做的一样，为了更好地理解，我们将考虑一个简单的二分类任务。 我们随机生成输入数据，并使用简单的单层神经网络对其进行训练，并尝试找到最佳参数`θ'[i]`。 我们将逐步详细介绍如何执行此操作。
+
+[您还可以在此处查看 Jupyter 笔记本中提供的代码，并提供说明](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/07.%20Meta-SGD%20and%20Reptile%20Algorithms/7.4%20Building%20Meta-SGD%20from%20Scratch.ipynb)。
+
+首先，我们导入`numpy`库：
+
+```py
+import numpy as np
+```
+
+# 生成数据点
+
+现在，我们定义了一个名为`sample_points`的函数，用于生成输入`(x, y)`对。 它以参数`k`作为输入，这意味着我们要采样的`(x, y)`对的数量：
+
+```py
+def sample_points(k):
+    x = np.random.rand(k,50)
+    y = np.random.choice([0, 1], size=k, p=[.5, .5]).reshape([-1,1])
+    return x,y
+```
+
+前面的函数返回的输出如下：
+
+```py
+x, y = sample_points(10)
+print x[0]
+print y[0]
+
+[5.01913307e-01 1.01874941e-01 7.16678998e-01 3.90294047e-01
+ 2.95330904e-01 8.66751993e-01 5.09988127e-01 8.59389493e-01
+ 5.16202142e-01 7.92016358e-01 8.24237307e-01 7.76739141e-01
+ 8.57034917e-01 2.75862141e-01 6.44874856e-01 2.75248940e-01
+ 5.67665047e-01 9.61564994e-01 7.58931873e-01 1.08989614e-02
+ 7.69325529e-01 4.05955016e-01 1.98799935e-01 9.94134622e-01
+ 3.07179216e-01 1.34756367e-01 2.92326855e-01 5.00026528e-01
+ 7.23673231e-01 5.28698231e-01 1.52495715e-01 9.20139339e-01
+ 1.76127500e-02 2.42244262e-01 7.09515862e-01 7.10358091e-01
+ 6.47656449e-01 5.15623266e-01 8.77002211e-01 4.18744855e-01
+ 9.67902538e-01 8.79261670e-01 5.88524781e-01 5.11397703e-02
+ 7.07513737e-01 4.61998029e-01 8.77306226e-01 5.32049083e-01
+ 8.07178697e-01 5.01521846e-04]
+[1]
+```
+
+# 单层神经网络
+
+我们使用只有一层的神经网络来预测输出：
+
+```py
+a = np.matmul(X, theta)
+YHat = sigmoid(a)
+```
+
+因此，我们使用元 SGD 查找最佳参数值`theta`，学习率和梯度更新方向，这些方向可在各个任务之间推广。 因此，对于一项新任务，我们可以通过采取较少的梯度步骤，在较短的时间内从几个数据点中学习。
+
+# 元 SGD
+
+现在，我们定义一个名为`MetaSGD`的类，在其中实现元 SGD 算法。 在`__init__`方法中，我们将初始化所有必需的变量。 然后，我们定义 Sigmoid 激活函数。 之后，我们定义训练函数：
+
+```py
+class MetaSGD(object):
+```
+
+我们定义`__init__`方法并初始化所有必需的变量：
+
+```py
+    def __init__(self):
+
+        #initialize number of tasks i.e number of tasks we need in each batch of tasks
+        self.num_tasks = 2
+
+        #number of samples i.e number of shots -number of data points (k) we need to have in each task
+        self.num_samples = 10
+
+        #number of epochs i.e training iterations
+        self.epochs = 10000
+
+        #hyperparameter for the outer loop (outer gradient update) i.e meta optimization
+        self.beta = 0.0001
+
+        #randomly initialize our model parameter theta
+        self.theta = np.random.normal(size=50).reshape(50, 1)
+
+        #randomly initialize alpha with same shape as theta
+        self.alpha = np.random.normal(size=50).reshape(50, 1)
+```
+
+我们定义了`sigmoid`激活函数：
+
+```py
+    def sigmoid(self,a):
+        return 1.0 / (1 + np.exp(-a))
+```
+
+现在，让我们开始训练：
+
+```py
+    def train(self):
+```
+
+对于周期数：
+
+```py
+        for e in range(self.epochs): 
+
+            self.theta_ = []
+```
+
+对于一批任务中的`i`任务：
+
+```py
+           for i in range(self.num_tasks):
+```
+
+我们对`k`个数据点进行采样，并准备训练集：
+
+```py
+                XTrain, YTrain = sample_points(self.num_samples)
+```
+
+然后，我们使用单层网络预测`y`的值：
+
+```py
+                a = np.matmul(XTrain, self.theta)
+
+                YHat = self.sigmoid(a)
+```
+
+我们计算损失并计算梯度：
+
+```py
+                #since we're performing classification, we use cross entropy loss as our loss function
+                loss = ((np.matmul(-YTrain.T, np.log(YHat)) - np.matmul((1 -YTrain.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+
+                #minimize the loss by calculating gradients
+                gradient = np.matmul(XTrain.T, (YHat - YTrain)) / self.num_samples
+```
+
+之后，我们更新梯度并为每个任务找到最佳参数`θ'[i]`：
+
+```py
+                self.theta_.append(self.theta - (np.multiply(self.alpha,gradient)))
+```
+
+我们初始化元梯度：
+
+```py
+            meta_gradient = np.zeros(self.theta.shape)
+
+            for i in range(self.num_tasks):
+```
+
+我们对`k`个数据点进行采样，并准备用于元训练`D_test[i]`的测试集：
+
+```py
+                XTest, YTest = sample_points(10)
+```
+
+然后，我们预测`y`的值：
+
+```py
+                a = np.matmul(XTest, self.theta_[i])
+
+                YPred = self.sigmoid(a)
+```
+
+我们计算元梯度：
+
+```py
+                meta_gradient += np.matmul(XTest.T, (YPred - YTest)) / self.num_samples
+```
+
+现在，我们更新模型参数`theta`和`alpha`：
+
+![](img/6ea7c95b-04d4-4982-b9a8-6c585c9ef2af.png)
+
+![](img/e3c04938-68b3-41c9-a4b6-1101100d3ff7.png)
+
+```py
+            self.theta = self.theta-self.beta*meta_gradient/self.num_tasks
+
+            self.alpha = self.alpha-self.beta*meta_gradient/self.num_tasks 
+```
+
+我们每 1000 个周期打印一次损失：
+
+```py
+            if e%1000==0:
+                print "Epoch {}: Loss {}\n".format(e,loss) 
+                print 'Updated Model Parameter Theta\n'
+                print 'Sampling Next Batch of Tasks \n'
+                print '---------------------------------\n'
+```
+
+`MetaSGD`的完整代码如下：
+
+```py
+class MetaSGD(object):
+    def __init__(self):
+
+        #initialize number of tasks i.e number of tasks we need in each batch of tasks
+        self.num_tasks = 2
+
+        #number of samples i.e number of shots -number of data points (k) we need to have in each task
+        self.num_samples = 10
+
+        #number of epochs i.e training iterations
+        self.epochs = 10000
+
+        #hyperparameter for the inner loop (inner gradient update)
+        self.alpha = 0.0001
+
+        #hyperparameter for the outer loop (outer gradient update) i.e meta optimization
+        self.beta = 0.0001
+
+        #randomly initialize our model parameter theta
+        self.theta = np.random.normal(size=50).reshape(50, 1)
+
+        #randomly initialize alpha with same shape as theta
+        self.alpha = np.random.normal(size=50).reshape(50, 1)
+
+    #define our sigmoid activation function 
+    def sigmoid(self,a):
+        return 1.0 / (1 + np.exp(-a))
+
+    #now let's get to the interesting part i.e training :P
+    def train(self):
+
+        #for the number of epochs,
+        for e in range(self.epochs): 
+
+            self.theta_ = []
+
+            #for task i in batch of tasks
+            for i in range(self.num_tasks):
+
+                #sample k data points and prepare our train set
+                XTrain, YTrain = sample_points(self.num_samples)
+
+                a = np.matmul(XTrain, self.theta)
+
+                YHat = self.sigmoid(a)
+
+                #since we're performing classification, we use cross entropy loss as our loss function
+                loss = ((np.matmul(-YTrain.T, np.log(YHat)) - np.matmul((1 -YTrain.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+
+                #minimize the loss by calculating gradients
+                gradient = np.matmul(XTrain.T, (YHat - YTrain)) / self.num_samples
+
+                #update the gradients and find the optimal parameter theta' for each of tasks
+                self.theta_.append(self.theta - (np.multiply(self.alpha,gradient)))
+
+            #initialize meta gradients
+            meta_gradient = np.zeros(self.theta.shape)
+
+            for i in range(self.num_tasks):
+
+                #sample k data points and prepare our test set for meta training
+                XTest, YTest = sample_points(10)
+
+                #predict the value of y
+                a = np.matmul(XTest, self.theta_[i])
+
+                YPred = self.sigmoid(a)
+
+                #compute meta gradients
+                meta_gradient += np.matmul(XTest.T, (YPred - YTest)) / self.num_samples
+
+            #update our randomly initialized model parameter theta with the meta gradients
+            self.theta = self.theta-self.beta*meta_gradient/self.num_tasks
+
+            #update our randomly initialized hyperparameter alpha with the meta gradients
+            self.alpha = self.alpha-self.beta*meta_gradient/self.num_tasks
+
+            if e%1000==0:
+                print "Epoch {}: Loss {}\n".format(e,loss) 
+                print 'Updated Model Parameter Theta\n'
+                print 'Sampling Next Batch of Tasks \n'
+                print '---------------------------------\n'
+```
+
+我们创建`MetaSGD`类的实例：
+
+```py
+model = MetaSGD()
+```
+
+让我们开始训练模型：
+
+```py
+model.train()
+```
+
+您可以通过各种周期看到损失如何最小化：
+
+```py
+Epoch 0: Loss 2.22523195333
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 1000: Loss 1.951785305709
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 2000: Loss 1.47382270343
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 3000: Loss 1.07296354822
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+```
+
+#元 SGD 用于强化学习
+
+现在，我们将了解如何在强化学习中使用元 SGD。元 SGD 与可以通过梯度下降训练的任何 RL 算法兼容。
+
+1.  假设我们有一个由参数`θ`参数化的模型`f`，并且在任务`p(T)`上有一个分布。 首先，我们随机初始化模型参数`θ`，并随机初始化形状与`θ`相同的`α`。
+2.  从任务分布中采样一些任务`T[i]`：`T[i] ~ p(T)`。 假设我们已经采样了三个任务`T = {T[1], T[2], T[3]}`。
+3.  **内循环**：对于任务（`T`）中的每个任务（`T[i]`），我们对`D_train[i]`轨迹进行采样，使用梯度下降计算损失并将损失最小化，并获得最佳参数`θ'[i]`。因此，对于每个任务，我们都对轨迹进行采样，最大程度地减少损失并获得最佳参数`θ'[i]`。 当我们采样三个任务时，对于所有三个任务，我们将拥有三个最佳参数`θ'[i]`。 接下来，我们将对另一组称为`D_test[i]`的轨迹进行元更新。
+4.  **外循环**：现在，我们在`D_test[i]`轨迹中执行元优化。 我们通过计算相对于上一步获得的最佳参数`θ'[i]`的梯度，更新我们随机初始化的参数`θ`和`α`来使损失最小化：
+
+![](img/56b9e789-0557-4c8a-ac95-fe9a13c87738.png)
+
+![](img/b3f712f9-4eb4-4484-94d3-2143b9f88b95.png)
+
+5.  对于`n`次迭代，我们重复步骤 2 到步骤 4。
+
+# Reptile
+
+Reptile 算法已被 OpenAI 提出作为对 MAML 的改进。 它很容易实现。 我们知道，在 MAML 中，我们可以计算二阶导数，即梯度的梯度。 但是从计算上来说，这不是一个有效的任务。 因此，OpenAI 提出了对 MAML 的改进，称为 Reptile。 Reptile 的算法非常简单。 对一些`n`个任务进行采样，然后运行**随机梯度下降**（**SGD**），以减少每个采样任务的迭代次数，然后沿某个方向更新模型参数，这是所有任务的共同点。 由于我们对每个任务执行的 SGD 迭代次数较少，因此间接暗示我们正在计算损失的二阶导数。 与 MAML 不同，它在计算上很有效，因为我们不直接计算二阶导数也不展开计算图，因此易于实现。
+
+假设我们从任务分布中采样了两个任务`T[1]`和`T[2]`，并随机初始化了模型参数`θ`。 首先，我们接受任务`T[1]`并对某些`n`次迭代执行 SGD，并获得最佳参数`θ'[i]`。 然后我们执行下一个任务`T[2]`，迭代执行 SGD `n`次，并获得最佳参数`θ'[i]`。 因此，我们有两个最佳参数集：`θ' = {θ'[1], θ'[2]}`。 现在，我们需要沿更靠近这两个最佳参数的方向移动参数`θ`，如下图所示：
+
+![](img/9ffe5aca-b37c-41cc-90d1-3fb1b6bf018c.png)
+
+但是，如何在更接近最佳参数`θ'[i]`的方向上移动随机初始化的模型参数`θ`呢？ 首先，我们需要找到随机初始化的模型参数`θ`与最佳参数集`θ'`之间的距离。 因此，我们使用欧几里得距离`D`作为找到该距离的距离度量。 找到`θ`和`θ'`之间的距离后，我们需要将它们最小化：
+
+![](img/4e86b296-f4f5-4ccb-9014-60021b0e4a69.png)
+
+最小化`θ`和`θ'`之间的距离实际上会将我们随机初始化的模型参数`θ`移向更接近最佳参数`θ'[i]`的方向。 但是我们如何才能最小化这个距离呢？ 我们基本上计算距离`ᐁ[θ]E[1/2 D(θ, θ')^2]`的梯度以将其最小化，它可以编写如下：
+
+![](img/46afec38-634c-4ac0-98e8-d2b8a113b66f.png)
+
+因此，在计算了梯度之后，我们的最终更新方程变为：
+
+![](img/1fe58d6b-b7b2-4a64-a538-57ab605ee1c5.png)
+
+通过使用先前的方程式更新模型参数`θ`，我们实质上使初始参数`θ`与最佳参数值`θ'`之间的距离最小。 因此，我们通过执行`n`次迭代的 SGD，找到每个任务的最佳参数。 一旦获得了最佳参数集，就可以使用先前的公式更新模型参数`θ`。
+
+# Reptile 算法
+
+Reptile 是一种简单而有效的算法。 Reptile 可以实现串行和批量版本。 在串行版本中，我们仅从任务分发中抽样一个任务，而在批量版本中，我们对一批任务进行抽样并尝试找到最佳参数。 我们将看到 Reptile 的串行版本如何工作。 Reptile 所涉及的步骤顺序如下：
+
+1.  假设我们有任务的分布`p(T)`，并且我们随机初始化模型参数`θ`。
+2.  现在我们从任务分布`T ~ p(T)`中抽取任务`T`。
+3.  对于采样的任务`T`，我们对`k`个数据点进行采样，并准备我们的数据集`D`：`D = {(x1, y1), (x2, y2), 。.., (xk, yk)}`。 我们的数据集基本上包含`x`特征和`y`标签。 现在，我们通过对某些`n`迭代次数执行随机梯度下降来最大程度地减少数据集中的损失。 在对采样任务`T`，执行`n`次迭代的 SGD 之后，我们将获得最佳参数`θ'[i]`。
+4.  我们在更接近先前步骤中获得的最佳参数`θ'[i]`的方向上更新了随机初始化的参数`θ`如下：`θ = θ + ε(θ - θ')`。
+5.  对于`n`迭代次数，我们重复步骤 2 到步骤 4。
+
+# 将 Reptile 用于正弦波回归
+
+在上一节中，我们了解了 Reptile 的工作原理。 现在，我们将从头开始对 Reptile 进行编码，从而更好地理解它。 假设我们有一个任务集合，每个任务的目标是在给定一些输入的情况下使正弦波的输出回归。 那是什么意思呢？
+
+假设`y = amplitude * sin(x + phase)`。 我们算法的目标是学习在给定`x`的情况下对`y`的值进行回归。 幅度的值在 0.1 到 5.0 之间随机选择，相位的值在 0 到`π`之间随机选择。 因此，对于每个任务，我们仅采样 10 个数据点并训练网络-也就是说，对于每个任务，我们仅采样 10 个`(x, y)`对。 让我们看一下代码并详细查看它。
+
+[您还可以在此处查看 Jupyter 笔记本中提供的代码，并提供说明](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/07.%20Meta-SGD%20and%20Reptile%20Algorithms/7.7%20Sine%20wave%20Regression%20Using%20Reptile.ipynb)。
+
+首先，我们导入所有必需的库：
+
+```py
+import tensorflow as tf
+import numpy as np
+```
+
+# 生成数据点
+
+现在，我们定义了一个称为`sample_points`的函数，用于生成`(x, y)`对。 它以参数`k`作为输入，这意味着我们要采样的`(x, y)`对的数量：
+
+```py
+def sample_points(k):
+
+    num_points = 100
+
+    #amplitude
+    amplitude = np.random.uniform(low=0.1, high=5.0)
+
+    #phase
+    phase = np.random.uniform(low=0, high=np.pi)
+
+    x = np.linspace(-5, 5, num_points)
+
+    #y = a*sin(x+b)
+    y = amplitude * np.sin(x + phase)
+
+    #sample k data points
+    sample = np.random.choice(np.arange(num_points), size=k)
+
+    return (x[sample], y[sample])
+```
+
+# 两层神经网络
+
+像 MAML 一样，Reptile 也与可以通过梯度下降训练的任何算法兼容。 因此，我们使用具有 64 个隐藏单元的简单两层神经网络。
+
+首先，让我们重置 TensorFlow 图：
+
+```py
+tf.reset_default_graph()
+```
+
+我们初始化网络参数：
+
+```py
+num_hidden = 64
+num_classes = 1
+num_feature = 1
+```
+
+接下来，我们为输入和输出定义占位符：
+
+```py
+X = tf.placeholder(tf.float32, shape=[None, num_feature])
+Y = tf.placeholder(tf.float32, shape=[None, num_classes])
+```
+
+我们随机初始化模型参数：
+
+```py
+w1 = tf.Variable(tf.random_uniform([num_feature, num_hidden]))
+b1 = tf.Variable(tf.random_uniform([num_hidden]))
+
+w2 = tf.Variable(tf.random_uniform([num_hidden, num_classes]))
+b2 = tf.Variable(tf.random_uniform([num_classes]))
+```
+
+然后，我们执行前馈操作以预测输出`Yhat`：
+
+```py
+#layer 1
+z1 = tf.matmul(X, w1) + b1
+a1 = tf.nn.tanh(z1)
+
+#output layer
+z2 = tf.matmul(a1, w2) + b2
+Yhat = tf.nn.tanh(z2)
+```
+
+我们使用均方误差作为损失函数：
+
+```py
+loss_function = tf.reduce_mean(tf.square(Yhat - Y))
+```
+
+然后，我们使用 Adam 优化器将损失降至最低：
+
+```py
+optimizer = tf.train.AdamOptimizer(1e-2).minimize(loss_function)
+```
+
+我们初始化 TensorFlow 变量：
+
+```py
+init = tf.global_variables_initializer()
+```
+
+# Reptile
+
+现在，我们将看到如何使用 Reptile 找到神经网络的最佳参数。
+
+首先，我们初始化必要的变量：
+
+```py
+#number of epochs i.e training iterations
+num_epochs = 100
+
+#number of samples i.e number of shots
+num_samples = 50 
+
+#number of tasks
+num_tasks = 2
+
+#number of times we want to perform optimization
+num_iterations = 10
+
+#mini btach size
+mini_batch = 10 
+```
+
+然后，我们开始 TensorFlow 会话：
+
+```py
+with tf.Session() as sess:
+
+    sess.run(init)
+
+```
+
+对于周期数：
+
+```py
+    for e in range(num_epochs):
+
+        #for each task in batch of tasks
+        for task in range(num_tasks):
+```
+
+我们得到模型的初始参数：
+
+```py
+            old_w1, old_b1, old_w2, old_b2 = sess.run([w1, b1, w2, b2,])
+```
+
+然后，我们对`x`和`y`进行采样：
+
+```py
+            x_sample, y_sample = sample_points(num_samples)
+```
+
+对于某些`k`迭代，我们对任务执行优化：
+
+```py
+            for k in range(num_iterations):
+
+                #get the minibatch x and y
+                for i in range(0, num_samples, mini_batch):
+
+                    #sample mini batch of examples 
+                    x_minibatch = x_sample[i:i+mini_batch]
+                    y_minibatch = y_sample[i:i+mini_batch]
+
+                    train = sess.run(optimizer, feed_dict={X: x_minibatch.reshape(mini_batch,1), 
+                                                           Y: y_minibatch.reshape(mini_batch,1)})
+```
+
+经过几次优化迭代后，我们获得了更新的模型参数：
+
+```py
+            new_w1, new_b1, new_w2, new_b2 = sess.run([w1, b1, w2, b2])
+```
+
+现在，我们执行元更新：
+
+```py
+            epsilon = 0.1
+
+            updated_w1 = old_w1 + epsilon * (new_w1 - old_w1) 
+            updated_b1 = old_b1 + epsilon * (new_b1 - old_b1) 
+
+            updated_w2 = old_w2 + epsilon * (new_w2 - old_w2) 
+            updated_b2 = old_b2 + epsilon * (new_b2 - old_b2) 
+```
+
+我们使用新参数更新模型参数：
+
+```py
+            w1.load(updated_w1, sess)
+            b1.load(updated_b1, sess)
+
+            w2.load(updated_w2, sess)
+            b2.load(updated_b2, sess)
+```
+
+然后，我们每 10 个周期打印一次损失：
+
+```py
+
+        if e%10 == 0:
+            loss = sess.run(loss_function, feed_dict={X: x_sample.reshape(num_samples,1), Y: y_sample.reshape(num_samples,1)})
+
+            print "Epoch {}: Loss {}\n".format(e,loss) 
+            print 'Updated Model Parameter Theta\n'
+            print 'Sampling Next Batch of Tasks \n'
+            print '---------------------------------\n'
+```
+
+完整的代码如下：
+
+```py
+#start the tensorflow session
+with tf.Session() as sess:
+
+    sess.run(init)
+
+    for e in range(num_epochs):
+
+        #for each task in batch of tasks
+        for task in range(num_tasks):
+
+            #get the initial parameters of the model
+            old_w1, old_b1, old_w2, old_b2 = sess.run([w1, b1, w2, b2,])
+
+            #sample x and y
+            x_sample, y_sample = sample_points(num_samples)
+
+            #for some k number of iterations perform optimization on the task
+            for k in range(num_iterations):
+
+                #get the minibatch x and y
+                for i in range(0, num_samples, mini_batch):
+
+                    #sample mini batch of examples 
+                    x_minibatch = x_sample[i:i+mini_batch]
+                    y_minibatch = y_sample[i:i+mini_batch]
+
+                    train = sess.run(optimizer, feed_dict={X: x_minibatch.reshape(mini_batch,1), 
+                                                           Y: y_minibatch.reshape(mini_batch,1)})
+
+            #get the updated model parameters after several iterations of optimization
+            new_w1, new_b1, new_w2, new_b2 = sess.run([w1, b1, w2, b2])
+
+            #Now we perform meta update
+
+            #i.e theta = theta + epsilon * (theta_star - theta)
+
+            epsilon = 0.1
+
+            updated_w1 = old_w1 + epsilon * (new_w1 - old_w1) 
+            updated_b1 = old_b1 + epsilon * (new_b1 - old_b1) 
+
+            updated_w2 = old_w2 + epsilon * (new_w2 - old_w2) 
+            updated_b2 = old_b2 + epsilon * (new_b2 - old_b2) 
+
+            #update the model parameter with new parameters
+            w1.load(updated_w1, sess)
+            b1.load(updated_b1, sess)
+
+            w2.load(updated_w2, sess)
+            b2.load(updated_b2, sess)
+
+        if e%10 == 0:
+            loss = sess.run(loss_function, feed_dict={X: x_sample.reshape(num_samples,1), Y: y_sample.reshape(num_samples,1)})
+
+            print "Epoch {}: Loss {}\n".format(e,loss) 
+            print 'Updated Model Parameter Theta\n'
+            print 'Sampling Next Batch of Tasks \n'
+            print '---------------------------------\n'
+```
+
+您可以看到如下输出：
+
+```py
+Epoch 0: Loss 13.0675544739
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 10: Loss 7.3604927063
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 20: Loss 4.35141277313
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+```
+
+# 总结
+
+在本章中，我们学习了元 SGD 和 Reptile 算法。 我们看到了元 SGD 与 MAML 有何不同，以及如何在监督学习和强化学习设置中使用元 SGD。 我们看到了元 SGD 如何学习模型参数以及学习率和更新方向。 我们还了解了如何从头开始构建元 SGD。 然后，我们了解了 Reptile 算法。 我们看到了 Reptile 与 MAML 的不同之处，以及 Reptile 对 MAML 算法的改进。 我们还学习了如何在正弦波回归任务中使用 Reptile。
+
+在下一章中，我们将学习如何将梯度一致性用作元学习中的优化目标。
+
+# 问题
+
+1. 元 SGD 与 MAML 有何不同？
+2. 元 SGD 如何找到最佳学习率？
+3. 元 SGD 中学习率的更新方程是什么？
+4.  Reptile 算法如何工作？
+5.  Reptile 算法的更新方程是什么？
+
+# 进一步阅读
+
+*   [元 SGD](https://arxiv.org/pdf/1707.09835.pdf)
+*   [Reptile](https://arxiv.org/pdf/1803.02999.pdf)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/08.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/08.md
new file mode 100644
index 00000000..547d7c2e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/08.md
@@ -0,0 +1,496 @@
+# 八、作为优化目标的梯度一致性
+
+在上一章中，我们了解了元 SGD 和 Reptile 算法。 我们看到了如何使用元 SGD 查找最佳参数，最佳学习率和梯度更新方向。 我们还看到了 Reptile 算法的工作原理以及比 MAML 更有效的方法。 在本章中，我们将学习如何将梯度一致性用作元学习的优化目标。 正如您在 MAML 中所看到的，我们基本上是对各个任务的梯度进行平均，并更新模型参数。 在梯度一致性算法中，我们将对梯度进行加权平均以更新模型参数，并且我们将了解如何为梯度添加权重如何帮助我们找到更好的模型参数。 在本章中，我们将确切探讨梯度一致性算法的工作原理。 我们的梯度一致性算法可以同时插入 MAML 和 Reptile 算法。 我们还将从头开始了解如何在 MAML 中实现梯度一致性。
+
+在本章中，我们将学习以下内容：
+
+*   梯度一致性
+*   权重计算
+*   梯度一致性算法
+*   使用 MAML 构建梯度一致性算法
+
+# 作为优化的梯度一致性
+
+梯度一致性算法是一种有趣且最近引入的算法，可作为元学习算法的增强功​​能。 在 MAML 和 Reptile 中，我们尝试找到一个更好的模型参数，该参数可在多个相关任务中推广，以便我们可以使用更少的数据点快速学习。 如果我们回顾前面几章中学到的知识，就会发现我们随机初始化了模型参数，然后从任务分布`p(T)`中抽取了一批随机任务`T[i]`进行了采样。 对于每个采样任务`T[i]`，我们通过计算梯度将损失降到最低，并获得更新的参数`θ'[i]`，这形成了我们的内部循环：
+
+![](img/93324229-a8df-4cb6-aead-090e6ebb7a0a.png)
+
+在为每个采样任务计算出最佳参数之后，我们执行元优化-也就是说，我们通过计算一组新任务中的损失来执行元优化，并通过针对最佳参数`θ'[i]`计算梯度来最大程度地减少损失， 我们在内部循环中获得的，并更新了初始模型参数`θ`：
+
+![](img/a32ed07f-28bb-476b-847f-5093fde1a90a.png)
+
+前面的方程式实际上是什么？ 如果仔细研究这个方程，您会注意到我们只是对各个任务的梯度求平均值，并更新我们的模型参数`θ`，这意味着所有任务在更新我们的模型参数方面均做出同等贡献。
+
+但是，这怎么了？ 假设我们已经采样了四个任务，并且三个任务在一个方向上具有梯度更新，但是一个任务在一个方向上与其他任务完全不同的梯度更新。 由于所有任务的坡度对更新模型参数的贡献均相等，因此这种分歧可能会对更新模型的初始参数产生严重影响。 如下图所示，与其他任务相比，从`T[1]`到`T[3]`的所有任务在一个方向上具有梯度，但是任务`T[4]`在完全不同的方向上具有梯度：
+
+![](img/54e133c3-30ae-49e2-bd8a-74eba5711ce0.png)
+
+那么，我们现在该怎么办？ 我们如何才能了解哪个任务具有很强的梯度一致性，哪些任务具有很强的分歧性？ 如果将权重与梯度相关联，是否可以理解其重要性？ 因此，我们通过将权重乘以每个梯度来重写外部梯度更新方程，如下所示：
+
+![](img/335e8098-9864-42fb-a2a8-475399fbf25e.png)
+
+好的，我们如何计算这些权重？ 这些权重与任务梯度的内积和采样批量任务中所有任务的梯度平均值的乘积成正比。 但这意味着什么？
+
+它暗示，如果任务的梯度与采样的一批任务中所有任务的平均梯度在同一方向上，则我们可以增加其权重，以便为更新模型参数做出更大的贡献。 同样，如果任务的梯度方向与采样的任务批量中所有任务的平均梯度方向大不相同，则我们可以降低其权重，以便在更新模型参数时贡献较小 。 我们将在下一节中看到如何精确计算这些权重。
+
+我们不仅可以将梯度一致性算法应用于 MAML，还可以应用于 Reptile 算法。 因此，我们的 Reptile 更新方程如下：
+
+![](img/bebd9e1c-97f8-40ca-9cd6-d5dbec4a7089.png)
+
+# 权重计算
+
+我们已经看到，通过将权重与梯度相关联，我们可以了解哪些任务具有强梯度一致性，哪些任务具有强梯度不一致。
+
+我们知道，这些权重与任务梯度和采样任务批量中所有任务的梯度平均值的内积成正比。 我们如何计算这些权重？
+
+权重计算如下：
+
+![](img/bf3a2201-8469-4802-8e8b-1a77b6c35ad8.png)
+
+假设我们抽样了一批任务。 然后，对于批量中的每个任务，我们对`k`个数据点进行采样，计算损失，更新梯度，并找到每个任务的最佳参数`θ'[i]`。 与此同时，我们还将每个任务的梯度更新向量存储在`g[i]`中。 可以计算为`g[i] = θ - θ'[i]`。
+
+因此，第`i`个任务的权重是`g[i]`和`g[j]`的内积之和除以归一化因子。 归一化因子与`g[i]`和`g_avg`的内积成正比。
+
+通过查看以下代码，让我们更好地理解如何精确计算这些权重：
+
+```py
+for i in range(num_tasks):
+    g = theta - theta_[i]
+
+#calculate normalization factor
+normalization_factor = 0
+
+for i in range(num_tasks):
+     for j in range(num_tasks):
+         normalization_factor += np.abs(np.dot(g[i].T, g[j]))
+
+#calcualte weights 
+w = np.zeros(num_tasks)
+
+for i in range(num_tasks):
+     for j in range(num_tasks):
+         w[i] += np.dot(g[i].T, g[j])
+
+     w[i] = w[i] / normalization_factor
+```
+
+# 算法
+
+现在，让我们看一下梯度一致性的工作原理：
+
+1.  假设我们有一个由参数`θ`参数化的模型`f`和任务上的分布`p(T)`。 首先，我们随机初始化模型参数`θ`。
+2.  我们从任务分布`T ~ p(T)`中采样了一些任务`T[i]`。 假设我们采样了两个任务，然后是`T`。
+3.  **内循环**：对于任务（`T`）中的每个任务（`T[i]`），我们对`k`个数据点进行采样，并准备训练和测试数据集：
+
+![](img/b66a819c-dc38-44e0-a336-69e7b76ed4f0.png)
+
+![](img/ea7d1848-6a67-49fa-be6d-75bb9373c18b.png)
+
+我们使用梯度下降来计算损失并使`D_train[i]`上的损失最小，并获得最佳参数`θ'[i]`：
+
+![](img/7abdf4a0-5254-4785-9a28-55793af3f6e0.png)。
+
+与此同时，我们还将梯度更新向量存储为：`g[i] = θ - θ'[i]`。
+
+因此，对于每个任务，我们对`k`个数据点进行采样，并最大程度地减少训练集`D_train[i]`上的损失，并获得最佳参数`θ'[i]`。 当我们采样两个任务时，我们将有两个最佳参数`θ'[i]`，并且我们将为这两个任务中的每一个都有一个梯度更新向量`g = {(θ - θ'[1]), (θ - θ'[2])}`。
+
+4.  **外循环**：现在，在执行元优化之前，我们将按以下方式计算权重：
+
+![](img/a735063f-a419-46f8-bd00-d06a0e7df3d0.png)
+
+在计算权重之后，我们现在通过将权重与梯度相关联来执行元优化。 通过计算相对于上一步中获得的参数的梯度，并将梯度与权重相乘，我们将`D_test[i]`中的损失最小化。
+
+如果我们的元学习算法是 MAML，则更新公式如下：
+
+![](img/08fceae6-5556-4b67-9608-d9d7917f7728.png)
+
+如果我们的元学习算法是 Reptile，则更新方程如下：
+
+![](img/9460948f-613a-4058-b2b7-674db9b719bc.png)
+
+5.  对于`n`次迭代，我们重复步骤 2 至 5。
+
+# 使用 MAML 构建梯度一致性算法
+
+在上一节中，我们看到了梯度一致性算法的工作原理。 我们看到了梯度一致性如何为梯度增加权重，从而说明其重要性。 现在，我们将看到如何通过使用 NumPy 从头开始对它们进行编码，从而将梯度一致性算法与 MAML 结合使用。 为了更好地理解，我们将考虑一个简单的二分类任务。 我们将随机生成输入数据，使用简单的单层神经网络对其进行训练，然后尝试找到最佳参数θ。
+
+现在，我们将逐步详细地了解如何执行此操作。
+
+[您也可以在此处以 Jupyter 笔记本的形式查看完整代码](https://github.com/sudharsan13296/Hands-On-Meta-Learning-With-Python/blob/master/08.%20Gradient%20Agreement%20As%20An%20Optimization%20Objective/8.4%20Building%20Gradient%20Agreement%20Algorithm%20with%20MAML.ipynb)。
+
+我们导入所有必要的库：
+
+```py
+import numpy as np
+```
+
+# 生成数据点
+
+现在，我们定义了一个名为`sample_points`的函数，用于生成输入`(x, y)`对。 它以参数`k`作为输入，这意味着我们要采样的`(x, y)`对的数量：
+
+```py
+def sample_points(k):
+    x = np.random.rand(k,50)
+    y = np.random.choice([0, 1], size=k, p=[.5, .5]).reshape([-1,1])
+    return x,y
+```
+
+# 单层神经网络
+
+为了简单起见和更好地理解，我们使用只有一层的神经网络来预测输出：
+
+```py
+a = np.matmul(X, theta)
+YHat = sigmoid(a)
+```
+
+因此，我们将梯度一致性与 MAML 结合使用，以找到可在各个任务之间通用的最佳参数值`theta`。 这样一来，对于一项新任务，我们可以通过采取较少的梯度步骤，在较短的时间内从几个数据点中学习。
+
+# MAML 中的梯度一致性
+
+现在，我们将定义一个名为`GradientAgreement_MAML`的类，在其中将实现梯度一致性 MAML 算法。 在`__init__`方法中，我们将初始化所有必需的变量。 然后，我们将定义 Sigmoid 激活函数。 接下来，我们将定义`train`函数。
+
+让我们一步一步看一下，然后看一下整体代码：
+
+```py
+class GradientAgreement_MAML(object):
+```
+
+我们定义`__init__`方法并初始化所有变量：
+
+```py
+    def __init__(self):
+
+        #initialize number of tasks i.e number of tasks we need in each batch of tasks
+        self.num_tasks = 2
+
+        #number of samples i.e number of shots -number of data points (k) we need to have in each task
+        self.num_samples = 10
+
+        #number of epochs i.e training iterations
+        self.epochs = 100
+
+        #hyperparameter for the inner loop (inner gradient update)
+        self.alpha = 0.0001
+
+        #hyperparameter for the outer loop (outer gradient update) i.e meta optimization
+        self.beta = 0.0001
+
+        #randomly initialize our model parameter theta
+        self.theta = np.random.normal(size=self.pol_ord).reshape(self.pol_ord, 1)
+```
+
+现在，我们定义一个名为`sigmoid`的函数，用于将`x`转换为多项式形式：
+
+```py
+    def sigmoid(self,a):
+        return 1.0 / (1 + np.exp(-a))
+```
+
+现在，让我们定义一个称为`train`的函数进行训练：
+
+```py
+    def train(self):
+```
+
+对于周期数，我们执行以下操作：
+
+```py
+        for e in range(self.epochs): 
+
+            self.theta_ = []
+
+            #for storing gradient updates
+            self.g = []
+
+```
+
+对于一批任务中的任务`i`，我们执行以下操作：
+
+```py
+            for i in range(self.num_tasks):
+```
+
+我们对`k`个数据点进行采样，并准备我们的训练集`D_train[i]`：
+
+```py
+                XTrain, YTrain = sample_points(self.num_samples)
+```
+
+我们预测`YHat`的值：
+
+```py
+                a = np.matmul(XTrain, self.theta)
+
+                YHat = self.sigmoid(a)
+```
+
+我们使用梯度下降计算损失并使损失最小化：
+
+![](img/d0b3cebd-6140-481a-bb50-b2eff476cd95.png)
+
+
+```py
+                #since we're performing classification, we use cross entropy loss as our loss function
+                loss = ((np.matmul(-YTrain.T, np.log(YHat)) - np.matmul((1 -YTrain.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+
+                #minimize the loss by calculating gradients
+                gradient = np.matmul(XTrain.T, (YHat - YTrain)) / self.num_samples
+
+                #update the gradients and find the optimal parameter theta' for each of tasks
+                self.theta_.append(self.theta - self.alpha*gradient)
+
+```
+
+我们将梯度更新存储在`g`和`g[i] = θ - θ'`中：
+
+```py
+                self.g.append(self.theta-self.theta_[i])
+```
+
+现在，我们计算权重：
+
+![](img/64a42b94-e7e4-4fe5-9e7d-ac423eeb8963.png)
+
+```py
+            normalization_factor = 0
+
+            for i in range(self.num_tasks):
+                for j in range(self.num_tasks): 
+                    normalization_factor += np.abs(np.dot(self.g[i].T, self.g[j]))
+
+            w = np.zeros(self.num_tasks)
+
+            for i in range(self.num_tasks):
+
+                for j in range(self.num_tasks):
+                    w[i] += np.dot(self.g[i].T, self.g[j])
+
+                w[i] = w[i] / normalization_factor
+
+```
+
+我们初始化加权元梯度：
+
+```py
+            weighted_gradient = np.zeros(self.theta.shape)
+```
+
+对于任务数量，我们对`k`个数据点进行采样，并准备测试集`D_test[i]`：
+
+```py
+            for i in range(self.num_tasks):
+
+               #sample k data points and prepare our test set for meta training
+                XTest, YTest = sample_points(10)
+```
+
+我们预测`y`的值：
+
+```py
+                a = np.matmul(XTest, self.theta_[i])
+
+                YPred = self.sigmoid(a)
+```
+
+我们计算元梯度：
+
+```py
+                meta_gradient = np.matmul(XTest.T, (YPred - YTest)) / self.num_samples
+```
+
+将权重乘以计算出的元梯度，并使用这个更新`θ`的值：
+
+![](img/60dee51c-592a-4c55-822a-ff7c5711ff9d.png)
+
+```py
+                weighted_gradient += np.sum(w[i]*meta_gradient)
+```
+
+```py
+            self.theta = self.theta-self.beta*weighted_gradient/self.num_tasks
+```
+
+我们每 10 个周期打印一次损失：
+
+```py
+            if e%10==0:
+                print "Epoch {}: Loss {}\n".format(e,loss) 
+                print 'Updated Model Parameter Theta\n'
+                print 'Sampling Next Batch of Tasks \n'
+                print '---------------------------------\n' 
+```
+
+以下是`GradientAgreement_MAML`的整个类：
+
+```py
+class GradientAgreement_MAML(object):
+    def __init__(self):
+
+        #initialize number of tasks i.e number of tasks we need in each batch of tasks
+        self.num_tasks = 2
+
+        #number of samples i.e number of shots -number of data points (k) we need to have in each task
+        self.num_samples = 10
+
+        #number of epochs i.e training iterations
+        self.epochs = 100
+
+        #hyperparameter for the inner loop (inner gradient update)
+        self.alpha = 0.0001
+
+        #hyperparameter for the outer loop (outer gradient update) i.e meta optimization
+        self.beta = 0.0001
+
+        #randomly initialize our model parameter theta
+        self.theta = np.random.normal(size=50).reshape(50, 1)
+
+    #define our sigmoid activation function 
+    def sigmoid(self,a):
+        return 1.0 / (1 + np.exp(-a))
+
+    #now Let's get to the interesting part i.e training :P
+    def train(self):
+
+        #for the number of epochs,
+        for e in range(self.epochs): 
+
+            self.theta_ = []
+
+            #for storing gradient updates
+            self.g = []
+
+            #for task i in batch of tasks
+            for i in range(self.num_tasks):
+
+                #sample k data points and prepare our train set
+                XTrain, YTrain = sample_points(self.num_samples)
+
+                a = np.matmul(XTrain, self.theta)
+
+                YHat = self.sigmoid(a)
+
+                #since we're performing classification, we use cross entropy loss as our loss function
+                loss = ((np.matmul(-YTrain.T, np.log(YHat)) - np.matmul((1 -YTrain.T), np.log(1 - YHat)))/self.num_samples)[0][0]
+
+                #minimize the loss by calculating gradients
+                gradient = np.matmul(XTrain.T, (YHat - YTrain)) / self.num_samples
+
+                #update the gradients and find the optimal parameter theta' for each of tasks
+                self.theta_.append(self.theta - self.alpha*gradient)
+
+                #compute the gradient update
+                self.g.append(self.theta-self.theta_[i])
+
+           #now we calculate the weights
+           #we know that weight is the sum of dot product of g_i and g_j divided by a normalization factor. 
+
+            normalization_factor = 0
+
+            for i in range(self.num_tasks):
+                for j in range(self.num_tasks): 
+                    normalization_factor += np.abs(np.dot(self.g[i].T, self.g[j]))
+
+            w = np.zeros(self.num_tasks)
+
+            for i in range(self.num_tasks):
+
+                for j in range(self.num_tasks):
+                    w[i] += np.dot(self.g[i].T, self.g[j])
+
+                w[i] = w[i] / normalization_factor
+
+            #initialize meta gradients
+            weighted_gradient = np.zeros(self.theta.shape)
+
+            for i in range(self.num_tasks):
+
+                #sample k data points and prepare our test set for meta training
+                XTest, YTest = sample_points(10)
+
+                #predict the value of y
+                a = np.matmul(XTest, self.theta_[i])
+
+                YPred = self.sigmoid(a)
+
+                #compute meta gradients
+                meta_gradient = np.matmul(XTest.T, (YPred - YTest)) / self.num_samples
+
+                weighted_gradient += np.sum(w[i]*meta_gradient)
+
+            #update our randomly initialized model parameter theta with the meta gradients
+            self.theta = self.theta-self.beta*weighted_gradient/self.num_tasks
+
+            if e%10==0:
+                print "Epoch {}: Loss {}\n".format(e,loss) 
+                print 'Updated Model Parameter Theta\n'
+                print 'Sampling Next Batch of Tasks \n'
+                print '---------------------------------\n'
+```
+
+我们为`GradientAgreement_MAML`类创建一个实例：
+
+```py
+model = GradientAgreement_MAML()
+```
+
+然后，我们训练模型：
+
+```py
+model.train()
+```
+
+您会看到损失随着时间的推移而减少：
+
+```py
+Epoch 0: Loss 5.9436043239
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 10: Loss 3.905350606769
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 20: Loss 2.0736155578
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+
+Epoch 30: Loss 1.48478751777
+
+Updated Model Parameter Theta
+
+Sampling Next Batch of Tasks 
+
+---------------------------------
+```
+
+# 总结
+
+在本章中，我们学习了梯度一致性算法。 我们已经看到了梯度一致性算法如何使用加权梯度来找到更好的初始模型参数`θ`。 我们还看到了这些权重如何与任务梯度的内积和采样批量任务中所有任务的梯度平均值的乘积成正比。 我们还探讨了如何将梯度一致性算法与 MAML 和 Reptile 算法结合使用。 之后，我们看到了如何使用梯度一致性算法在分类任务中找到最佳参数`θ'[i]`。
+
+在下一章中，我们将了解元学习的最新进展，例如与任务无关的元学习，在概念空间中学习以及元模仿学习。
+
+# 问题
+
+1.  什么是梯度一致性和分歧？
+2.  梯度一致性中 MAML 的更新方程是什么？
+3.  梯度一致性中的权重是多少？
+4.  权重如何计算？
+5.  什么是归一化因子？
+6.  我们什么时候增加和减少权重？
+
+# 进一步阅读
+
+*   [梯度一致性算法论文](https://arxiv.org/pdf/1810.08178.pdf)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/09.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/09.md
new file mode 100644
index 00000000..7fc91cfc
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/09.md
@@ -0,0 +1,297 @@
+# 九、最新进展和后续步骤
+
+恭喜你！ 我们已经到了最后一章。 我们已经走了很长一段路。 我们从元学习基础开始，然后看到了几种一次学习算法，例如连体，原型，匹配和关系网络。 后来，我们还看到了 NTM 如何存储和检索信息。 展望未来，我们看到了有趣的元学习算法，例如 MAML，Reptile 和元 SGD。 我们看到了这些算法如何找到最佳的初始参数。 现在，我们将看到元学习的一些最新进展。 我们将学习如何使用与任务无关的元学习来减少元学习中的任务偏差，以及如何在模仿学习系统中使用元学习。 然后，我们将看到如何使用 CACTUs 算法在无监督的学习环境中应用 MAML。 稍后，我们将学习一种称为学习在概念空间中学习的深度元学习算法。
+
+在本章中，您将了解以下内容：
+
+*   任务无关的元学习（TAML）
+*   元模仿学习
+*   CACTUS
+*   概念空间的学习
+
+# 任务不可知元学习（TAML）
+
+我们知道，在元学习中，我们在相关任务的分布上训练模型，以便只需几个样本就可以轻松地将其适应于新任务。 在前面的章节中，我们已经了解了 MAML 如何通过计算元梯度和执行元优化来找到模型的最佳初始参数。 但是我们可能面临的问题之一是，我们的模型可能会偏向某些任务，尤其是在元训练阶段中采样的任务。 因此，我们的模型在这些任务上将表现不佳。 如果模型这样做，那么还将导致我们发现更好的更新规则的问题。 由于在某些任务上存在偏见模型，我们也将无法对与元训练任务有很大差异的未见任务进行更好的概括。
+
+为了减轻这种情况，我们需要使我们的模型在某些任务上不会偏见或表现不佳。 也就是说，我们需要使我们的模型与任务无关，以便可以防止任务偏差并获得更好的概括性。 现在，我们将看到两种执行 TAML 的算法：
+
+*   熵最大化/减少
+*   不平等最小化
+
+# 熵最大化/减少
+
+在本节中，我们将看到如何通过最大化和最小化熵来防止任务偏差。 我们知道熵是对随机性的一种度量。 因此，我们通过允许模型以相等的概率对预测的标签进行随机猜测来最大化熵。 通过对预测标签进行随机猜测，我们可以防止任务偏差。
+
+我们如何计算熵？ 让我们用`H`表示熵。 通过从`p[T[i]](x[i])`中，在其`N`个预测标签的输出概率`y[i, n]`上，抽取`x[i]`来计算`T[i]`的熵：
+
+![](img/d06a8a87-15d6-4f3b-9f55-727575091bb1.png)
+
+在先前的等式中，`y_hat[i]`是模型的预测标签。
+
+因此，我们在更新模型参数之前将熵最大化。 接下来，我们在更新模型参数后最小化熵。 那么，最小化熵意味着什么呢？ 使熵最小化意味着我们不对预测标签添加任何随机性，并且允许模型以高置信度预测标签。
+
+因此，我们的目标是最大程度地减少每个任务的熵减少量，其表示如下：
+
+![](img/9c594aa5-17da-4a5a-b6fb-a92ab6a67f26.png)
+
+我们将熵项与元目标合并，并尝试找到最佳参数`θ'[i]`，因此我们的元目标变为：
+
+![](img/529f2456-1a7b-4e24-8962-d57281389f06.png)
+
+并且`λ`是这两项之间的平衡系数。
+
+# 算法
+
+现在，我们将逐步了解熵 TAML 的工作原理：
+
+1.  假设我们有一个由参数`θ`参数化的模型`f`，并且有一个任务分布`p(T)`。 首先，我们随机初始化模型参数`θ`。
+2.  从任务分布（即`T[i] ~ p(T)`）中抽样一批任务。 假设我们然后采样了三个任务：`T = {T[1], T[2], T[3]}`。
+3.  **内循环**：对于任务`T`中的每个任务`T[i]`，我们对`k`个数据点进行采样，并准备训练和测试数据集：
+
+![](img/80b962fa-2b54-4df4-bc58-0183d150ca2f.png)
+
+![](img/be3f03df-14ab-4879-b5bd-23c96f8e0e4a.png)
+
+然后，我们在训练集`D_train`上计算损失，使用梯度下降将损失最小化，并获得最佳参数：
+
+![](img/4837d9cf-809d-4be2-8c73-c12293eb7b75.png)
+
+因此，对于每个任务，我们对`k`个数据点进行采样，准备训练数据集，最大程度地减少损失，并获得最佳参数。 由于我们采样了三个任务，因此我们将拥有三个最佳参数：`θ' = {θ'[1], θ'[2], θ'[3]}`。
+
+4.  **外循环**：我们执行元优化。 在这里，我们尝试将元训练集`D_test[i]`的损失降到最低。 我们通过计算相对于最佳参数`θ'[i]`的梯度来最小化损失，并更新随机初始化的参数`θ`； 与此同时，我们将添加熵项。 因此，我们最终的元目标变为：
+
+![](img/a72d7d87-f941-421f-91ca-4f53cabe1474.png)
+
+5.  对于`n`次迭代，我们重复步骤 2 至 4。
+
+# 不平等最小化
+
+熵方法的问题在于它仅适用于分类任务。 因此，我们无法将算法应用于回归或强化学习任务。 为了克服这个问题，我们将看到另一种算法，称为不平等最小化 TAML。 就像熵方法一样简单。 在这种方法中，我们试图使不平等最小化。 经济学中使用了几种不平等措施来衡量收入分配，财富分配等。 在元学习环境中，我们可以使用这些经济不平等措施来最小化我们的任务偏差。 因此，可以通过最小化批量中所有采样任务损失的不平等性来最小化模型对任务的偏见。
+
+# 不平等度量
+
+我们将看到一些常用的不平等测度。 我们可以将任务`T[i]`中的损失定义为`l[i]`，将采样任务的平均损失定义为`l_bar`，将单个批量中的任务数定义为`M`。
+
+# 基尼系数
+
+这是最广泛使用的不平等衡量标准之一。 它使用洛伦兹曲线测量分布的不等式。 洛伦兹曲线是一条累积频率曲线，它将特定变量的分布与表示等式的均匀分布进行比较。 基尼系数的值介于 0 到 1 之间，其中 0 表示完全相等，而 1 的值表示不完全。 它基本上是相对绝对均值差的一半。
+
+因此，在我们的元学习设置中，我们可以如下计算基尼系数：
+
+![](img/ddffc0bb-9825-4657-bd19-8b642cd93b0e.png)
+
+# 泰尔指数
+
+泰尔指数是另一种常用的不平等度量。 它以荷兰计量经济学家 Henri Theil 的名字命名，是不平等度量族的一个特例，称为**广义熵度量**。 可以将其定义为最大熵与观察到的熵之差。
+
+我们为元学习设置计算泰尔指数，如下所示：
+
+![](img/7f22913b-2db2-4bf3-9f58-65d6415f32ef.png)
+
+# 算法的方差
+
+算法的方差可以定义如下：
+
+![](img/a745e41b-3e5d-45cb-a7b6-0ea1465bc424.png)
+
+在先前的等式中，`g(l)`表示`l`的几何平均值。
+
+我们可以使用任何这些不平等度量来计算任务偏差。 因此，一旦我们使用此不平等度量来计算任务偏差，就可以通过将不平等度量插入元目标中来最小化偏差。 因此，我们可以如下重写元目标：
+
+![](img/6e526c5a-8aa7-4e80-b683-14edd18dc39b.png)
+
+在前面的等式中，`I(L[T[i]](f[θ'[i]]))`代表我们的不平等测度，`λ`是平衡系数。
+
+# 算法
+
+现在，我们将逐步了解不平等最小化 TAML 的工作原理：
+
+1.  假设我们有一个由参数`θ`参数化的模型!`f`，并且在任务分布`p(T)`上。 首先，我们随机初始化模型参数`θ`。
+2.  我们从任务分布（即`T[i] ~ p(T)`）中抽样一批任务。 说，我们已经采样了三个任务，然后是`T = {T[1], T[2], T[3]}`。
+3.  **内循环**：对于任务`T`中的每个任务`T[i]`，我们对`k`个数据点进行采样，并准备训练和测试数据集：
+
+![](img/d0798dcf-d7e3-421a-b9f1-9cbb126ce62d.png)
+
+![](img/bb5e5458-c589-4d02-9aeb-f369d07c14d9.png)
+
+然后，我们在训练集`D_train`上计算损失，使用梯度下降使损失最小化，并获得最佳参数：
+
+![](img/ff9be565-f478-4bfc-b3ec-38271235a9c2.png)
+
+因此，对于每个任务，我们对`k`个数据点进行采样，准备训练数据集，最大程度地减少损失，并获得最佳参数。 由于我们采样了三个任务，因此我们将拥有三个最佳参数`θ' = {θ'[1], θ'[2], θ'[3]}`。
+
+4.  **外循环**：现在，我们执行元优化。 在这里，我们尝试使训练集`D_test[i]`的损失最小化。 我们通过计算相对于最佳参数`θ'[i]`的梯度来最小化损失，并更新随机初始化的参数θ； 与此同时，我们将添加熵项。 因此，我们最终的元目标变为：
+
+![](img/40971ffd-4f20-4f81-875b-0210f012fa71.png)
+
+5.  对于`n`次迭代，我们重复步骤 2 至 4。
+
+# 元模仿学习
+
+如果我们希望我们的机器人更具通用性并执行各种任务，那么我们的机器人应该快速学习。 但是，如何使我们的机器人快速学习呢？ 好吧，我们人类如何快速学习？ 我们不是仅通过看着其他人就轻松地学习新技能吗？ 同样，如果我们仅通过观察动作就能使机器人学习，那么我们就可以轻松地使机器人有效地学习复杂的目标，而不必设计复杂的目标和奖励函数。 这种类型的学习（即从人类行为中学习）称为模仿学习，在这种情况下，机器人会尝试模仿人类行为。 机器人并不需要真正从人类的动作中学到东西。 它还可以从执行任务的其他机器人或执行任务的人/机器人的视频中学习。
+
+但是模仿学习并不像听起来那样简单。 机器人将花费大量时间和演示来学习目标并确定正确的策略。 因此，我们将以演示（训练数据）的先验经验丰富机器人，从而不必完全从头学习每种技能。 增强机器人的先验经验有助于其快速学习。 因此，要学习多种技能，我们需要为每种技能收集演示-也就是说，我们需要为机器人添加特定于任务的演示数据。
+
+但是，如何使我们的机器人从单个演示中快速学习一项任务呢？ 我们可以在这里使用元学习吗？ 我们可以重用演示数据并从几个相关任务中学习以快速学习新任务吗？ 因此，我们将元学习和模仿学习相结合，形成**元模仿学习**（**MIL**）。 借助 MIL，我们可以利用其他各种任务的演示数据，仅需一个演示就可以快速学习新任务。 因此，我们仅需演示一个新任务就可以找到正确的策略。
+
+对于 MIL，我们可以使用我们已经看到的任何元学习算法。 我们将使用 MAML 作为元学习算法，该算法与可以通过梯度下降训练的任何算法兼容，并且将使用策略梯度作为找到正确策略的算法。 在策略梯度中，我们使用某些参数`θ`直接优化参数化策略`π[θ]`。
+
+我们的目标是从单个任务的演示中学习可以快速适应新任务的策略。 这样，我们可以消除对每个任务的大量演示数据的依赖。 实际上，我们在这里的任务是什么？ 我们的任务将包含轨迹。 轨迹`tr`包含来自专家策略的一系列观察和动作，这些经验和活动均是演示。 等待。 什么是专家策略？ 由于我们正在执行模仿学习，因此我们正在向专家（人类行为）学习，因此我们将该策略称为专家策略，并以`π*`表示：
+
+![](img/c52425ff-73cd-45b2-9e14-73416ae57c7d.png)
+
+好吧，我们的损失函数应该是什么？ 损失函数表示我们的机器人动作与专家动作有何不同。 对于连续动作，我们可以使用均方误差损失作为我们的损失函数，对于离散动作，我们可以使用交叉熵作为损失函数。 假设我们有连续的行动； 那么我们可以如下表示均方误差损失：
+
+![](img/bf5f36c7-cf49-4237-bee8-412a515eecb0.png)
+
+假设我们有任务分布`p(T)`。 我们对一批任务进行采样，对于每个任务`T[i]`，我们对一些演示数据进行采样，通过最小化损失来训练网络，并找到最佳参数`θ'[i]`。 接下来，我们通过计算元梯度执行元优化，并找到最佳初始参数`θ`。 我们将在下一部分中确切地了解它的工作方式。
+
+# MIL 算法
+
+MIL 中涉及的步骤如下：
+
+1.  假设我们有一个由参数`θ`参数化的模型`f`，并且有一个任务分布`p(T)`。 首先，我们随机初始化模型参数`θ`。
+2.  从任务分布（即`T ~ p(T)`）中抽样一些任务`T[i]`。
+3.  **内循环**：对于采样任务中的每个任务，我们都采样了一个演示数据-即`trajectory = {o1, a1, ..., o[t], a[t]}`。 现在，我们通过执行梯度下降来计算损失并将损失降至最低，从而获得了最佳参数`θ'[i]`：
+
+    ![](img/d0b3cebd-6140-481a-bb50-b2eff476cd95.png)
+    
+    然后，我们还为元训练采样了另一个演示数据：`trajectory' = {o'1, a'1, ..., o'[t], a'[t]}`。
+4.  **外循环**：现在，我们通过元优化使用`trajectory'`更新我们的初始参数，如下所示：
+
+![](img/23c259ec-0245-4c0b-846f-d9d902a53025.png)
+
+5.  对`n`次迭代重复步骤 2 到 4。
+
+# CACTUS
+
+我们已经了解了 MAML 如何帮助我们找到最佳的初始模型参数，以便可以将其推广到许多其他相关任务。 我们还了解了 MAML 如何在监督学习和强化学习设置中使用。 但是，我们如何在没有数据点标签的无监督学习环境中应用 MAML？ 因此，我们引入了一种称为 **CACTUS** 的新算法，该算法是`Clustering to Automatically Generate Tasks for Unsupervised Model Agnostic Meta Learning`的缩写。
+
+假设我们有一个数据集`D`，其中包含未标记的示例：`D = {x[1], ..., x[n]}`。 现在，我们可以使用该数据集做什么？ 我们如何在该数据集上应用 MAML？ 首先，使用 MAML 进行训练需要什么？ 我们需要按任务分布，并通过对一批任务进行采样并找到最佳模型参数来训练模型。 任务应包含特征及其标签。 但是，如何从未标记的数据集中生成任务？
+
+在下一部分中，让我们看看如何使用 CACTUS 生成任务。 生成任务后，我们可以轻松地将其插入 MAML 算法并找到最佳模型参数。
+
+# 使用 CACTU 生成任务
+
+假设我们有一个数据集`D`，其中包含没有标签的样本：`D = {x[1], ..., x[n]}`。 现在我们需要为数据集创建标签。 我们该怎么做？ 首先，我们使用一些嵌入函数来学习数据集中每个数据点的嵌入。 嵌入函数可以是任何特征提取器。 假设我们的输入是一幅图像，那么我们可以使用 CNN 作为嵌入函数来提取图像特征向量。
+
+为每个数据点生成嵌入后，我们如何找到它们的标签？ 朴素的和简单的方法是将我们的数据集`D`划分为具有某些随机超平面的`p`个分区，然后我们可以将数据集的每个这些分区子集视为一个单独的类。
+
+但是这种方法的问题在于，由于我们使用的是随机超平面，因此我们的类可能包含完全不同的嵌入，并且还将相关的嵌入保留在不同的类中。 因此，我们可以使用聚类算法来代替使用随机超平面对数据集进行分区。 我们使用 k 均值聚类作为我们的聚类算法来划分数据集。 我们对多个迭代运行 k-means 聚类，并获得`k`聚类（分区）。
+
+我们可以将每个群集视为一个单独的类。 下一个是什么？ 我们如何生成任务？ 假设由于集群，我们有五个集群。 我们从这五个群集中采样`n`个群集。 然后，我们从`n`个群集的每个中抽取`r`数据点，而无需替换； 这可以表示为`{x[r]}_n`。 之后，我们对`n`个单任务特定标签`l[n]`进行了排列，以为`n`个采样聚类的每一个分配标签。 因此，现在我们有一个数据点`{x[r]}_n`和一个标签`l[n]`。
+
+最后，我们可以将任务`T`定义为：
+
+![](img/63421732-5fd9-40a0-ac04-cd0eb01560d7.png)
+
+# 概念空间中的元学习
+
+现在，我们将看到如何使用深度元学习在概念空间中元学习。 首先，我们如何进行元学习？ 我们在每个任务中抽样一批相关任务和一些`k`数据点，并训练我们的元学习器。 我们可以将深度学习的力量与元学习结合起来，而不仅仅是使用我们的原始元学习技术进行训练。 因此，当我们对一批任务以及每个任务中的一些`k`数据点进行采样时，我们将使用深度神经网络学习每个`k`数据点的表示形式，然后对这些表示进行元学习。
+
+我们的框架包含三个组件：
+
+*   概念生成器
+*   概念判别器
+*   元学习器
+
+概念生成器的作用是提取数据集中每个数据点的特征表示，捕获其高级概念，概念判别器的作用是识别和分类由概念生成器生成的概念，而元学习器学习由概念生成器生成的概念。 先前的所有组件（即概念生成器，概念判别器和元学习器）都可以一起学习。 因此，我们通过将元学习与深度学习相集成来改善原始元学习。 我们的概念生成器随着新的传入数据而发展，因此我们可以将我们的框架视为终身学习系统。
+
+但是这里到底发生了什么？ 看下图； 如您所见，我们对一组任务进行采样，并将其提供给概念生成器，该概念生成器将学习概念（即嵌入），然后将这些概念提供给元学习器，后者将学习这些概念并将损失回馈给概念生成器。 同时，我们还将一些外部数据集提供给概念生成器，概念生成器学习这些输入的概念并将这些概念发送给概念识别器。 概念识别器预测这些概念的标签，计算损失，然后将损失发送回概念生成器。 通过这样做，我们增强了概念生成器概括概念的能力：
+
+![](img/ab57f770-1198-4573-a9ab-a4e9ba34bb85.png)
+
+但是，为什么我们要这样做呢？ 代替在原始数据集上执行元学习，我们在概念空间中执行元学习。 我们如何学习这些概念？ 这些概念由概念生成器通过学习输入的嵌入来生成。 因此，我们在各种相关任务上训练概念生成器和元学习器； 与此相伴的是，我们通过向概念生成器提供外部数据集，从而通过概念判别器改进了概念生成器，以便可以更好地学习概念。 通过联合训练过程，我们的概念生成器可以学习各种概念并在相关任务上表现更好； 我们输入外部数据集只是为了增强概念生成器的表现，当我们输入一组新的输入时，它会不断学习。 因此，这是一个终身学习系统。
+
+# 关键组件
+
+现在，让我们详细了解每个组件。
+
+# 概念生成器
+
+众所周知，概念生成器用于提取特征。 我们可以使用由某些参数`θ[G]`参数化的深度神经网络来生成概念。 例如，如果我们的输入是图像，则概念生成器可以是 CNN。
+
+# 概念判别器
+
+它基本上是一个分类器，用于预测概念生成器生成的概念的标签。 因此它可以是由`θ[D]`参数化的任何监督学习算法，例如 SVM 和决策树。
+
+# 元学习器
+
+我们的元学习器可以是`θ[M]`参数化的任何元学习算法，例如 MAML，元 SGD 或 Reptile。
+
+# 损失函数
+
+我们在这里使用两组损失函数：
+
+*   概念判别损失
+*   元学习损失
+
+# 概念判别损失
+
+我们从数据集`D`中采样一些数据点`(x, y)`，将它们馈送到概念生成器，该概念生成器学习概念并将其发送给概念判别器，后者试图预测这些概念的类。 因此，概念判别器的损失意味着我们的概念判别器在预测类别方面有多出色，可以表示为：
+
+![](img/8a16d682-8033-4b27-afc0-e43e06f9a95b.png)
+
+根据我们的任务，损失函数可以是任何损失函数。 例如，如果我们执行分类任务，则可能是交叉熵损失。
+
+# 元学习损失
+
+我们从任务分布中抽样一些任务，通过概念生成器学习它们的概念，对这些概念执行元学习，然后计算元学习损失：
+
+![](img/937b896f-15eb-4ed4-980a-6e9baf07dfd0.png)
+
+我们的元学习损失取决于我们使用的元学习器，例如 MAML 或 Reptile。
+
+我们的最终损失函数是概念歧视和元学习损失这两者的组合：
+
+![](img/9016ebe6-af79-4075-8796-968e4f4b532f.png)
+
+在前面的等式中，`lambda`是元学习和概念歧视损失之间的超参数平衡。 因此，我们的目标是找到使此损失最小的最佳参数：
+
+![](img/f439db1c-312c-4769-b957-b10101c71974.png)
+
+我们通过计算梯度来最小化损失并更新模型参数：
+
+![](img/5b2a244a-18ef-4792-b8e9-e4cfbff4fffd.png)
+
+# 算法
+
+现在，我们将逐步了解我们的算法：
+
+1.  假设我们有一个任务分布`p(T)`。 首先，我们随机初始化模型参数，例如概念生成器`θ[G]`，元学习器`θ[M]`和概念判别器`θ[D]`的参数。
+2.  我们从任务分布中抽样一批任务，并通过概念生成器学习它们的概念，对这些概念执行元学习，然后计算元学习损失：
+
+![](img/5e6632de-b358-46b0-9154-bc2912394c1b.png)
+
+3.  我们从外部数据集`D`中采样一些数据点`(x, y)`，将它们馈送到概念生成器以学习其概念，将这些概念馈送到概念判别器中，对它们进行分类，然后计算概念辨别损失：
+
+![](img/76b2ce9c-02ba-48f5-ab5a-1368c500918c.png)
+
+4.  我们将这两种损失合并在一起，并尝试使用 SGD 来使损失最小化，并获取更新的模型参数：
+
+![](img/ea15185a-9d9c-4728-9ceb-eda6dfd75b43.png)
+
+5.  对`n`次迭代重复步骤 2 到 4。
+
+再次恭喜您学习了所有重要且流行的元学习算法。 元学习是 AI 的一个有趣且最有前途的领域，它将使我们更接近**广义人工智能**（**AGI**）。 现在，您已经阅读完本书，可以开始探索元学习的各种进步，并开始尝试各种项目。 学习和元学习！
+
+# 总结
+
+在本章中，我们学习了 TAML 来减少任务偏差。 我们看到了两种类型的方法：基于熵的 TAML 和基于不等式的 TAML。 然后，我们探索了元模仿学习，它将元学习与模仿学习相结合。 我们看到了元学习如何帮助模仿学习从更少的模仿中学习。 我们还看到了如何在使用 CACTUS 的无监督学习环境中应用模型不可知元学习。 然后，我们探索了一种称为学习在概念空间中学习的深度元学习算法。 我们看到了深度学习的力量如何促进元学习。
+
+元学习是 AI 领域中最有趣的分支之一。 既然您已经了解了各种元学习算法，那么您就可以开始构建可在各种任务中推广的元学习模型，并为元学习研究做出贡献。
+
+# 问题
+
+1.  什么是不平等度量的所有不同类型？
+2.  什么叫泰尔指数？
+3.  什么是模仿学习？
+4.  什么是概念生成器？
+5.  什么是元学习损失？
+
+# 进一步阅读
+
+*   [与任务无关的元学习](https://arxiv.org/pdf/1805.07722.pdf)
+*   [元模仿学习](http://proceedings.mlr.press/v78/finn17a/finn17a.pdf)
+*   [CACTUS](https://arxiv.org/pdf/1810.02334.pdf)
+*   [概念空间中的元学习](https://arxiv.org/pdf/1802.03596.pdf)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/10.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/10.md
new file mode 100644
index 00000000..d6f17743
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/10.md
@@ -0,0 +1,108 @@
+# 十、答案
+
+# 第 1 章：元学习简介
+
+1.  元学习产生了一种通用的 AI 模型，该模型可以学习执行各种任务，而无需从头开始进行训练。 我们使用几个数据点在各种相关任务上训练我们的元学习模型，因此对于新的但相关的任务，该模型可以利用从先前任务中学到的知识而不必从头开始进行训练。
+2.  从更少的数据点学习称为**少样本学习**或 **K 次学习**，其中`k`表示在数据集的每个类别中的数据点的数量。
+3.  为了使我们的模型从一些数据点中学习，我们将以相同的方式对其进行训练。 因此，当我们有一个数据集`D`时，我们从数据集中存在的每个类中采样一些数据点，并将其称为支持集。
+4.  我们从与支持集不同的每个类中采样不同的数据点，并将其称为查询集。
+5.  在基于度量的元学习设置中，我们将学习适当的度量空间。 假设我们要找出两个图像之间的相似性。 在基于度量的设置中，我们使用一个简单的神经网络，该网络从两个图像中提取特征并通过计算这两个图像的特征之间的距离来查找相似性。
+6.  我们以**剧情方式**训练模型； 也就是说，在每个剧情中，我们从数据集`D`中采样一些数据点，并准备我们的支持集并在支持集上学习。 因此，在一系列事件中，我们的模型将学习如何从较小的数据集中学习。
+
+# 第 2 章：使用连体网络的人脸和音频识别
+
+1.  连体网络是神经网络的一种特殊类型，它是最简单，最常用的单次学习算法之一。 连体网络基本上由两个对称的神经网络组成，它们具有相同的权重和架构，并最终通过能量函数`E`结合在一起。
+
+2.  对比损失函数可以表示为：
+
+    ![](img/eb7b45ed-a6b9-4a3d-aff4-1cea02fba160.png)
+
+    在前面的公式中，`Y`的值是真实的标签，当两个输入值相似时为 1，如果两个输入值不相似则为 0，而`E`为我们的能量函数，可以是任何距离度量。 术语**边距**用于保持约束； 也就是说，当两个输入值不相同且它们之间的距离大于边距时，则不会造成损失。
+
+3.  能量函数告诉我们两个输入的相似程度。 它基本上是任何相似性度量，例如欧几里得距离和余弦相似性。
+
+4.  连体网络的输入应该成对`(X1, X2)`及其二进制标记`Y ∈ (0, 1)`，指出输入对是真实对（相同）还是非真实对（不同）。
+
+5.  连体网络的应用是无止境的。 它们已经堆叠了用于执行各种任务的各种架构，例如人类动作识别，场景更改检测和机器翻译。
+
+# 第 3 章：原型网络及其变体
+
+1.  原型网络简单，高效，是最常用的少量学习算法之一。 原型网络的基本思想是创建每个类的原型表示形式，并根据类原型和查询点之间的距离对查询点（新点）进行分类。
+2.  我们为每个数据点计算嵌入来学习特征。
+3.  一旦我们了解了每个数据点的嵌入，就可以将每个类中数据点的均值嵌入并形成类原型。 因此，类原型基本上就是在类中数据点的平均嵌入。
+4.  在高斯原型网络中，连同为数据点生成嵌入，我们在它们周围添加一个置信区域，该区域由高斯协方差矩阵表征。 拥有置信区域有助于表征单个数据点的质量，并且对于嘈杂且不太均匀的数据很有用。
+5.  高斯原型网络与原始原型网络的不同之处在于，在原始原型网络中，我们仅学习数据点的嵌入，但在高斯原型网络中，除了学习嵌入之外，我们还为其添加了置信区域。
+6.  半径和对角线是高斯原型网络中使用的协方差矩阵的不同组成部分。
+
+# 第 4 章：使用 TensorFlow 的关系和匹配网络
+
+1.  关系网络由两个重要函数组成：嵌入函数（由`f[φ]`表示）和关系函数由`g[φ]`表示。
+2.  有了支持集`f[φ](x[i])`和查询集`f[φ](x[j])`的特征向量后，就可以使用运算符`Z`组合它们。 在这里，`Z`可以是任何组合运算符; 我们使用连接作为运算符来组合支持集和查询集的特征向量：
+
+    ![](img/5c9ca5d1-2ec0-451c-a1d9-3fbd7dacd2a6.png)。
+
+3.  关系函数`g[φ]`将生成一个介于 0 到 1 之间的关系评分，代表支持集`x[i]`中的样本与查询集中`x[j]`中的样本之间的相似性。
+4.  我们的损失函数可以表示为：
+
+    ![](img/4cbb2cc6-469c-45d2-9788-6e16bcfa7e31.png)
+
+5.  在匹配网络中，我们使用两个嵌入函数`f`和`g`分别学习查询集`x_hat`和支持集`y_hat`的嵌入。
+6.  查询点`x_hat`的输出`y_hat`可以预测如下：
+
+    ![](img/7f39510e-d498-4eeb-9df9-dd337b943381.png)
+
+# 第 5 章：记忆增强神经网络
+
+1.  NTM 是一种有趣的算法，能够存储和检索内存中的信息。 NTM 的想法是通过外部存储器来增强神经网络-也就是说，它不是使用隐藏状态作为存储器，而是使用外部存储器来存储和检索信息。
+2.  控制器基本上是前馈神经网络或循环神经网络。 它从内存读取和写入。
+3.  读头和写头是包含其必须读取和写入的内存地址的指针。
+4.  内存矩阵或内存库，或者简称为内存，是我们存储信息的地方。 内存基本上是由内存单元组成的二维矩阵。 内存矩阵包含`N`行和`M`列。 使用控制器，我们可以从内存中访问内容。 因此，控制器从外部环境接收输入，并通过与存储矩阵进行交互来发出响应。
+5.  基于位置的寻址和基于内容的寻址是 NTM 中使用的不同类型的寻址机制。
+
+6.  插值门用于决定是否应使用上一时间步获得的权重`w[t - 1]`或使用通过基于内容的寻址获得的权重`w[t]^c`。
+
+7.  从使用权重向量`w[t]^u`计算最少使用的权重向量`w[t]^(lu)`非常简单。 我们仅将最低值使用权重向量的索引设置为 1，将其余值设置为 0，因为使用权重向量中的最小值表示最近使用最少。
+
+# 第 6 章：MAML 及其变体
+
+1.  MAML 是最近引入且最常用的元学习算法之一，它已导致元学习研究取得重大突破。 MAML 的基本思想是找到更好的初始参数，以便具有良好的初始参数，模型可以以更少的梯度步骤快速学习新任务。
+2.  MAML 与模型无关，这意味着我们可以将 MAML 应用于可通过梯度下降训练的任何模型。
+3.  ADML 是 MAML 的一种变体，它同时利用干净样本和对抗样本来查找更好且更可靠的初始模型参数θ。
+4.  在 FGSM 中，我们获得了图像的对抗样本，并计算了相对于图像的损失梯度，更清楚地输入了图像的像素而不是模型参数。
+5.  上下文参数是特定于任务的参数，该参数在内部循环中更新。 用 denoted 表示，它特定于每个任务，代表单个任务的嵌入。
+6.  共享参数在任务之间共享，并在外循环中更新以找到最佳模型参数。 用θ表示。
+
+# 第 7 章：元 SGD 和 Reptile 算法
+
+1.  与 MAML 不同，在元 SGD 中，除了找到最佳参数值`θ`之外，我们还找到最佳学习率`α`并更新方向。
+2.  学习率在适应项中隐式实现。 因此，在元 SGD 中，我们不会以较小的标量值初始化学习率。 相反，我们使用与`θ`相同形状的随机值初始化它们，然后与`θ`一起学习它们。
+
+3.  学习率的更新公式可以表示为：
+
+    ![](img/b41f82a1-d32d-4c12-ac8d-a07e86ef0f59.png)
+4.  对`n`个任务进行采样，并在每个采样任务上以较少的迭代次数运行 SGD，然后按照所有任务共有的方向更新模型参数。
+5.  Reptile 更新方程可表示为`θ = θ + ε(θ' - θ)`。
+
+# 第 8 章：作为优化目标的梯度一致性
+
+1.  当所有任务的梯度都在同一方向上时，则称为梯度一致性；当某些任务的梯度与其他任务之间存在较大差异时，则称为梯度不一致。
+2.  梯度一致性中的更新方程可表示为：
+
+    ![](img/74d5d212-9b8c-4585-a314-454972d10601.png)。
+3.  权重与任务梯度的内积和采样任务批量中所有任务的梯度平均值成正比。
+4.  权重计算如下：
+
+    ![](img/e0216ec9-6de3-4ca8-9354-e3a72f2b6679.png)
+
+5.  归一化因子与`g[i]`和`g_avg`的内积成比例。
+6.  如果任务的梯度与采样的任务批量中所有任务的平均梯度方向相同，则我们可以增加其权重，以便在更新模型参数时做出更大的贡献。 同样，如果任务的梯度方向与采样的任务批量中所有任务的平均梯度方向大不相同，那么我们可以减小其权重，以便在更新模型参数时其贡献较小。
+
+# 第 9 章：最新进展和后续步骤
+
+1.  不平等度量的不同类型是基尼系数，泰尔指数和算法的方差。
+2.  泰尔指数是最常用的不平等度量。 它是以荷兰计量经济学家 Henri Theil 的名字命名的，是不平等度量族的一种特例，称为**广义熵度量**。 可以将其定义为最大熵与观察到的熵之差。
+3.  如果我们仅通过观察动作就能使机器人学习，那么我们就可以轻松地使机器人有效地学习复杂的目标，而不必设计复杂的目标和奖励函数。 这种类型的学习（即从人类行为中学习）称为模仿学习，在这种情况下，机器人会尝试模仿人类行为。
+4.  概念生成器用于提取特征。 我们可以使用由某些参数`θ[G]`参数化的深度神经网络来生成概念。 例如，如果我们的输入是图像，则概念生成器可以是 CNN。
+5.  我们从任务分布中抽样一批任务，通过概念生成器学习它们的概念，对这些概念执行元学习，然后计算元学习损失：
+
+    ![](img/a5b2e2a9-c381-46e8-b5a6-2e124ccca9dc.png)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/README.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/README.md
new file mode 100644
index 00000000..4155efdc
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/README.md
@@ -0,0 +1,35 @@
+# Python 元学习实用指南
+
+> 原文：[Hands-On Meta Learning with Python](https://b-ok.global/book/5211378/0e7b9c)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/SUMMARY.md
new file mode 100644
index 00000000..8c06cc9a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/SUMMARY.md
@@ -0,0 +1,12 @@
++   [Python 元学习实用指南](README.md)
++   [零、前言](00.md)
++   [一、元学习导论](01.md)
++   [二、使用连体网络的人脸和音频识别](02.md)
++   [三、原型网络及其变体](03.md)
++   [四、使用 TensorFlow 的关系和匹配网络](04.md)
++   [五、记忆增强神经网络](05.md)
++   [六、MAML 及其变体](06.md)
++   [七、元 SGD 和 Reptile](07.md)
++   [八、作为优化目标的梯度一致性](08.md)
++   [九、最新进展和后续步骤](09.md)
++   [十、答案](10.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/00168235-d01e-4cbe-8fee-3546881db321.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/00168235-d01e-4cbe-8fee-3546881db321.png
new file mode 100644
index 00000000..b29771d1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/00168235-d01e-4cbe-8fee-3546881db321.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/008bf45e-c551-41f5-8c44-79ff27ce1989.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/008bf45e-c551-41f5-8c44-79ff27ce1989.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/008bf45e-c551-41f5-8c44-79ff27ce1989.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/00d00799-95bf-4a1f-9eeb-2a2036114945.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/00d00799-95bf-4a1f-9eeb-2a2036114945.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/00d00799-95bf-4a1f-9eeb-2a2036114945.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/01bd32d9-bc52-4499-960a-27c4002365cf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/01bd32d9-bc52-4499-960a-27c4002365cf.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/01bd32d9-bc52-4499-960a-27c4002365cf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/01f9bd08-13b2-4ea7-958a-09214bf4b7c2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/01f9bd08-13b2-4ea7-958a-09214bf4b7c2.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/01f9bd08-13b2-4ea7-958a-09214bf4b7c2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0276d4b2-28dd-41e1-ae99-94d43f7859b3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0276d4b2-28dd-41e1-ae99-94d43f7859b3.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0276d4b2-28dd-41e1-ae99-94d43f7859b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/02af8bcf-db2f-4e62-9447-2e072986d3b3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/02af8bcf-db2f-4e62-9447-2e072986d3b3.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/02af8bcf-db2f-4e62-9447-2e072986d3b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/030c5e04-cf05-4394-baad-3c43bc5f77fa.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/030c5e04-cf05-4394-baad-3c43bc5f77fa.png
new file mode 100644
index 00000000..9d2a7be0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/030c5e04-cf05-4394-baad-3c43bc5f77fa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/03732dc6-f836-4130-a79a-4e30c944bda9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/03732dc6-f836-4130-a79a-4e30c944bda9.png
new file mode 100644
index 00000000..e19942c1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/03732dc6-f836-4130-a79a-4e30c944bda9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/037ef61e-e595-4eb7-8fd1-00f6fce23823.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/037ef61e-e595-4eb7-8fd1-00f6fce23823.png
new file mode 100644
index 00000000..6bd117c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/037ef61e-e595-4eb7-8fd1-00f6fce23823.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/03b25ae6-ed75-49ff-9ed3-b03f6c6111ce.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/03b25ae6-ed75-49ff-9ed3-b03f6c6111ce.png
new file mode 100644
index 00000000..41e85038
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/03b25ae6-ed75-49ff-9ed3-b03f6c6111ce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/04636868-15b2-451d-9fbb-028f28964066.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/04636868-15b2-451d-9fbb-028f28964066.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/04636868-15b2-451d-9fbb-028f28964066.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05042986-9743-46c4-8ca1-959c4a60bae7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05042986-9743-46c4-8ca1-959c4a60bae7.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05042986-9743-46c4-8ca1-959c4a60bae7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0505be09-05c7-41b6-8169-7e5bd4adc106.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0505be09-05c7-41b6-8169-7e5bd4adc106.png
new file mode 100644
index 00000000..19e890fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0505be09-05c7-41b6-8169-7e5bd4adc106.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/053891aa-7ee7-4eea-b202-6e099579beb1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/053891aa-7ee7-4eea-b202-6e099579beb1.png
new file mode 100644
index 00000000..cc438e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/053891aa-7ee7-4eea-b202-6e099579beb1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05610d67-b12e-4cd1-868e-5c3cc338b48d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05610d67-b12e-4cd1-868e-5c3cc338b48d.png
new file mode 100644
index 00000000..ec6fd73e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05610d67-b12e-4cd1-868e-5c3cc338b48d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05e054c0-4540-4830-9db1-359c3e2f2ba1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05e054c0-4540-4830-9db1-359c3e2f2ba1.png
new file mode 100644
index 00000000..fcfddc01
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/05e054c0-4540-4830-9db1-359c3e2f2ba1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/065680be-ffc9-48b6-a31a-ea1398e39aa4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/065680be-ffc9-48b6-a31a-ea1398e39aa4.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/065680be-ffc9-48b6-a31a-ea1398e39aa4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0760630d-8894-43e4-bc70-89dd8c449426.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0760630d-8894-43e4-bc70-89dd8c449426.png
new file mode 100644
index 00000000..36605934
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0760630d-8894-43e4-bc70-89dd8c449426.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0782ada6-0c39-4a11-ad47-eacf63563661.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0782ada6-0c39-4a11-ad47-eacf63563661.png
new file mode 100644
index 00000000..6922e4a0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0782ada6-0c39-4a11-ad47-eacf63563661.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0797f4ac-6973-43f0-8f00-e1d1fad9966a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0797f4ac-6973-43f0-8f00-e1d1fad9966a.png
new file mode 100644
index 00000000..53dd3453
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0797f4ac-6973-43f0-8f00-e1d1fad9966a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/08ecbe90-9f6f-43f3-93a6-fdcec639d3fe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/08ecbe90-9f6f-43f3-93a6-fdcec639d3fe.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/08ecbe90-9f6f-43f3-93a6-fdcec639d3fe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/08fceae6-5556-4b67-9608-d9d7917f7728.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/08fceae6-5556-4b67-9608-d9d7917f7728.png
new file mode 100644
index 00000000..2a55647f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/08fceae6-5556-4b67-9608-d9d7917f7728.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0a34b405-e938-4812-8bbe-50e366a12869.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0a34b405-e938-4812-8bbe-50e366a12869.png
new file mode 100644
index 00000000..d7e20217
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0a34b405-e938-4812-8bbe-50e366a12869.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0a6d7a21-f2e4-41f6-b506-4487a851b36e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0a6d7a21-f2e4-41f6-b506-4487a851b36e.png
new file mode 100644
index 00000000..c1b6b405
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0a6d7a21-f2e4-41f6-b506-4487a851b36e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b2f0e5a-6aa9-46d2-ae78-b44a02f9b340.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b2f0e5a-6aa9-46d2-ae78-b44a02f9b340.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b2f0e5a-6aa9-46d2-ae78-b44a02f9b340.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b3e573a-2127-4512-94fc-8a4b82ac62c6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b3e573a-2127-4512-94fc-8a4b82ac62c6.png
new file mode 100644
index 00000000..53dd3453
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b3e573a-2127-4512-94fc-8a4b82ac62c6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b771654-d8fb-4b8f-8363-29c51d27d162.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b771654-d8fb-4b8f-8363-29c51d27d162.png
new file mode 100644
index 00000000..78b0450c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b771654-d8fb-4b8f-8363-29c51d27d162.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b93f4c6-89b2-4aba-a2dd-dab3b0c11f80.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b93f4c6-89b2-4aba-a2dd-dab3b0c11f80.png
new file mode 100644
index 00000000..adc54184
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0b93f4c6-89b2-4aba-a2dd-dab3b0c11f80.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0be605e3-6244-4a9f-9417-3c140ba08c6b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0be605e3-6244-4a9f-9417-3c140ba08c6b.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0be605e3-6244-4a9f-9417-3c140ba08c6b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c4470b7-0b16-4c51-b0a6-a79d88d951e7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c4470b7-0b16-4c51-b0a6-a79d88d951e7.png
new file mode 100644
index 00000000..b398c107
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c4470b7-0b16-4c51-b0a6-a79d88d951e7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c517098-647d-4ca0-ac3d-7fa4d8a24960.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c517098-647d-4ca0-ac3d-7fa4d8a24960.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c517098-647d-4ca0-ac3d-7fa4d8a24960.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c52e07c-051e-497e-85ef-db57678bb2b2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c52e07c-051e-497e-85ef-db57678bb2b2.png
new file mode 100644
index 00000000..953518d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c52e07c-051e-497e-85ef-db57678bb2b2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c7acdb6-ec47-439a-bf52-852b0d82256a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c7acdb6-ec47-439a-bf52-852b0d82256a.png
new file mode 100644
index 00000000..2e12f7a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c7acdb6-ec47-439a-bf52-852b0d82256a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c9c227e-7c5b-4467-bb45-3c16d494b0dd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c9c227e-7c5b-4467-bb45-3c16d494b0dd.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0c9c227e-7c5b-4467-bb45-3c16d494b0dd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0cdf1434-1ce7-4a95-9b2b-fba9f7385576.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0cdf1434-1ce7-4a95-9b2b-fba9f7385576.png
new file mode 100644
index 00000000..3f3c18f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0cdf1434-1ce7-4a95-9b2b-fba9f7385576.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0cf1683e-10a9-4409-a114-4a9aec56b0db.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0cf1683e-10a9-4409-a114-4a9aec56b0db.png
new file mode 100644
index 00000000..9fa3bbbe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0cf1683e-10a9-4409-a114-4a9aec56b0db.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0d2d5f82-a3f2-4f2e-a7e0-6d458a3a6600.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0d2d5f82-a3f2-4f2e-a7e0-6d458a3a6600.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0d2d5f82-a3f2-4f2e-a7e0-6d458a3a6600.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0d4938f7-97d6-479e-8158-a3b469a73000.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0d4938f7-97d6-479e-8158-a3b469a73000.png
new file mode 100644
index 00000000..064eb9ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0d4938f7-97d6-479e-8158-a3b469a73000.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0e057c74-bf55-427f-80f8-ad8f9c980161.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0e057c74-bf55-427f-80f8-ad8f9c980161.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0e057c74-bf55-427f-80f8-ad8f9c980161.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0e17b1e3-e48a-4b01-b1d2-d6992a0c521b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0e17b1e3-e48a-4b01-b1d2-d6992a0c521b.png
new file mode 100644
index 00000000..8575cfd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0e17b1e3-e48a-4b01-b1d2-d6992a0c521b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0f7fc5aa-b473-4bb9-8681-88df1b6355c6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0f7fc5aa-b473-4bb9-8681-88df1b6355c6.png
new file mode 100644
index 00000000..c2ddb0b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/0f7fc5aa-b473-4bb9-8681-88df1b6355c6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1024a056-8186-4c04-96dd-c60de2fd985b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1024a056-8186-4c04-96dd-c60de2fd985b.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1024a056-8186-4c04-96dd-c60de2fd985b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/103e77ef-0c41-46c9-a018-e832129d5982.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/103e77ef-0c41-46c9-a018-e832129d5982.png
new file mode 100644
index 00000000..f56d47ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/103e77ef-0c41-46c9-a018-e832129d5982.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1078376b-32e4-4899-9606-74eeb970e0f3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1078376b-32e4-4899-9606-74eeb970e0f3.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1078376b-32e4-4899-9606-74eeb970e0f3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/11b42fa8-3a92-4824-ac83-286a7a62a445.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/11b42fa8-3a92-4824-ac83-286a7a62a445.png
new file mode 100644
index 00000000..d6a1fe52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/11b42fa8-3a92-4824-ac83-286a7a62a445.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/121a724c-b3b7-41d3-8058-0de9a96e540c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/121a724c-b3b7-41d3-8058-0de9a96e540c.png
new file mode 100644
index 00000000..fac045d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/121a724c-b3b7-41d3-8058-0de9a96e540c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/129833a7-c655-48f0-879b-7901c77d620a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/129833a7-c655-48f0-879b-7901c77d620a.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/129833a7-c655-48f0-879b-7901c77d620a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/134ab548-9ed2-4606-a513-50d66b2a6c4c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/134ab548-9ed2-4606-a513-50d66b2a6c4c.png
new file mode 100644
index 00000000..b9bccad7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/134ab548-9ed2-4606-a513-50d66b2a6c4c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/13ead245-2815-4417-b18c-15718a4312ff.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/13ead245-2815-4417-b18c-15718a4312ff.png
new file mode 100644
index 00000000..b26befb3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/13ead245-2815-4417-b18c-15718a4312ff.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/141894b2-a04b-437c-9c95-5d5383e843db.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/141894b2-a04b-437c-9c95-5d5383e843db.png
new file mode 100644
index 00000000..3f3c18f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/141894b2-a04b-437c-9c95-5d5383e843db.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14ab5c68-d1fc-4e0b-83e9-22ac42196cde.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14ab5c68-d1fc-4e0b-83e9-22ac42196cde.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14ab5c68-d1fc-4e0b-83e9-22ac42196cde.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14c754a4-f3d5-4a53-a06a-af325718e358.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14c754a4-f3d5-4a53-a06a-af325718e358.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14c754a4-f3d5-4a53-a06a-af325718e358.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14d87ee3-d5a0-4e04-823a-595527d06088.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14d87ee3-d5a0-4e04-823a-595527d06088.png
new file mode 100644
index 00000000..c624d37c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/14d87ee3-d5a0-4e04-823a-595527d06088.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1584c3bc-b5d9-4d86-8a49-789514b6fd58.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1584c3bc-b5d9-4d86-8a49-789514b6fd58.png
new file mode 100644
index 00000000..3816cff8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1584c3bc-b5d9-4d86-8a49-789514b6fd58.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1593106b-61ec-476e-979e-105bdb56dcdd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1593106b-61ec-476e-979e-105bdb56dcdd.png
new file mode 100644
index 00000000..1ece3f92
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1593106b-61ec-476e-979e-105bdb56dcdd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/161dd888-c43d-481c-ac1d-9c9064e97e35.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/161dd888-c43d-481c-ac1d-9c9064e97e35.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/161dd888-c43d-481c-ac1d-9c9064e97e35.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/168ddcc9-5107-441d-a50b-d6b62f103f1e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/168ddcc9-5107-441d-a50b-d6b62f103f1e.png
new file mode 100644
index 00000000..558dc9f7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/168ddcc9-5107-441d-a50b-d6b62f103f1e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/18040eae-c41c-44e2-869d-047472d48d28.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/18040eae-c41c-44e2-869d-047472d48d28.png
new file mode 100644
index 00000000..23e4087e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/18040eae-c41c-44e2-869d-047472d48d28.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/181155d0-1308-4107-8643-3b9e9c08be85.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/181155d0-1308-4107-8643-3b9e9c08be85.png
new file mode 100644
index 00000000..adc54184
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/181155d0-1308-4107-8643-3b9e9c08be85.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1885f025-972d-43be-8fff-6b383df8273b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1885f025-972d-43be-8fff-6b383df8273b.png
new file mode 100644
index 00000000..720aa7c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1885f025-972d-43be-8fff-6b383df8273b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1a11049a-bb4a-46d9-a4e6-9a9040ae2ff5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1a11049a-bb4a-46d9-a4e6-9a9040ae2ff5.png
new file mode 100644
index 00000000..635ee0b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1a11049a-bb4a-46d9-a4e6-9a9040ae2ff5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1afa73d3-1768-4c27-87b2-4d081d00f045.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1afa73d3-1768-4c27-87b2-4d081d00f045.png
new file mode 100644
index 00000000..8ee228e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1afa73d3-1768-4c27-87b2-4d081d00f045.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1b7b8f56-f4ca-4c6e-bf34-a1063b93351e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1b7b8f56-f4ca-4c6e-bf34-a1063b93351e.png
new file mode 100644
index 00000000..62fa8a10
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1b7b8f56-f4ca-4c6e-bf34-a1063b93351e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1bb69aaa-0933-48bc-9f40-90bf6c2819a3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1bb69aaa-0933-48bc-9f40-90bf6c2819a3.png
new file mode 100644
index 00000000..e7a279da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1bb69aaa-0933-48bc-9f40-90bf6c2819a3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1c9b8667-e8ea-4ee5-aa0a-ccaaea4be325.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1c9b8667-e8ea-4ee5-aa0a-ccaaea4be325.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1c9b8667-e8ea-4ee5-aa0a-ccaaea4be325.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1d306d76-9f72-42f2-ac26-c7fff1febc33.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1d306d76-9f72-42f2-ac26-c7fff1febc33.png
new file mode 100644
index 00000000..cd600eca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1d306d76-9f72-42f2-ac26-c7fff1febc33.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e27ee5e-77f2-4515-b584-491c4bf2c6a7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e27ee5e-77f2-4515-b584-491c4bf2c6a7.png
new file mode 100644
index 00000000..2282bab3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e27ee5e-77f2-4515-b584-491c4bf2c6a7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e6b17c3-d908-46c6-93bc-c0bb7f15fed2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e6b17c3-d908-46c6-93bc-c0bb7f15fed2.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e6b17c3-d908-46c6-93bc-c0bb7f15fed2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e7893f9-7981-46e3-aac3-625c5d712452.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e7893f9-7981-46e3-aac3-625c5d712452.png
new file mode 100644
index 00000000..78b0450c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1e7893f9-7981-46e3-aac3-625c5d712452.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1eb74405-5545-45aa-be1a-7eb8d73de4c4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1eb74405-5545-45aa-be1a-7eb8d73de4c4.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1eb74405-5545-45aa-be1a-7eb8d73de4c4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1f30551c-5205-4333-a337-6f6f05684377.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1f30551c-5205-4333-a337-6f6f05684377.png
new file mode 100644
index 00000000..bbcc3615
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1f30551c-5205-4333-a337-6f6f05684377.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1fe58d6b-b7b2-4a64-a538-57ab605ee1c5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1fe58d6b-b7b2-4a64-a538-57ab605ee1c5.png
new file mode 100644
index 00000000..660556fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/1fe58d6b-b7b2-4a64-a538-57ab605ee1c5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/21218cec-890b-4d1e-bca2-5f739aa42d55.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/21218cec-890b-4d1e-bca2-5f739aa42d55.png
new file mode 100644
index 00000000..3c26c12a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/21218cec-890b-4d1e-bca2-5f739aa42d55.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/222a8a7f-fba4-4725-be33-385a056f6bb0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/222a8a7f-fba4-4725-be33-385a056f6bb0.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/222a8a7f-fba4-4725-be33-385a056f6bb0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/226a362b-771e-4092-82c0-46e2afd1b203.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/226a362b-771e-4092-82c0-46e2afd1b203.png
new file mode 100644
index 00000000..4596ee0f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/226a362b-771e-4092-82c0-46e2afd1b203.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/22b60518-4ba8-4fa6-8316-ff88e5f65bbd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/22b60518-4ba8-4fa6-8316-ff88e5f65bbd.png
new file mode 100644
index 00000000..2337007b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/22b60518-4ba8-4fa6-8316-ff88e5f65bbd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/22d17ee2-01a8-4a3c-8c3d-44fca0945a4c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/22d17ee2-01a8-4a3c-8c3d-44fca0945a4c.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/22d17ee2-01a8-4a3c-8c3d-44fca0945a4c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2387b169-8801-46a6-ac83-0cb1bcc89478.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2387b169-8801-46a6-ac83-0cb1bcc89478.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2387b169-8801-46a6-ac83-0cb1bcc89478.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/23c259ec-0245-4c0b-846f-d9d902a53025.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/23c259ec-0245-4c0b-846f-d9d902a53025.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/23c259ec-0245-4c0b-846f-d9d902a53025.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/242c7e0b-a5d4-4bb0-849b-135dc2ce6e66.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/242c7e0b-a5d4-4bb0-849b-135dc2ce6e66.png
new file mode 100644
index 00000000..271725ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/242c7e0b-a5d4-4bb0-849b-135dc2ce6e66.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/246959bb-2867-4fda-bb30-01b1ecba3bc2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/246959bb-2867-4fda-bb30-01b1ecba3bc2.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/246959bb-2867-4fda-bb30-01b1ecba3bc2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/24750401-81a6-4f3f-9b3e-60ef2017b393.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/24750401-81a6-4f3f-9b3e-60ef2017b393.png
new file mode 100644
index 00000000..a411619f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/24750401-81a6-4f3f-9b3e-60ef2017b393.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2512d04a-c678-4f01-acdf-0a1273b11fff.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2512d04a-c678-4f01-acdf-0a1273b11fff.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2512d04a-c678-4f01-acdf-0a1273b11fff.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/254d5fa6-57c7-467d-bd1c-bb332d597f45.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/254d5fa6-57c7-467d-bd1c-bb332d597f45.png
new file mode 100644
index 00000000..c71689b7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/254d5fa6-57c7-467d-bd1c-bb332d597f45.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/259b87df-9fd2-430a-9a11-1718a717f16f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/259b87df-9fd2-430a-9a11-1718a717f16f.png
new file mode 100644
index 00000000..bb2340e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/259b87df-9fd2-430a-9a11-1718a717f16f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/25a32f0b-a832-48e5-a18e-b19f93db0d78.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/25a32f0b-a832-48e5-a18e-b19f93db0d78.png
new file mode 100644
index 00000000..7121cca6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/25a32f0b-a832-48e5-a18e-b19f93db0d78.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/25b67e65-f3f2-410c-b94a-b636df9c41d3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/25b67e65-f3f2-410c-b94a-b636df9c41d3.png
new file mode 100644
index 00000000..46ff1209
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/25b67e65-f3f2-410c-b94a-b636df9c41d3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/26b6f417-3034-4261-bfd9-932a29181534.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/26b6f417-3034-4261-bfd9-932a29181534.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/26b6f417-3034-4261-bfd9-932a29181534.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/26fb2314-a28a-4664-ba84-b4cadc28d5f4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/26fb2314-a28a-4664-ba84-b4cadc28d5f4.png
new file mode 100644
index 00000000..1febca33
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/26fb2314-a28a-4664-ba84-b4cadc28d5f4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/284d068b-ee06-4e80-814a-8bdd6b082ffe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/284d068b-ee06-4e80-814a-8bdd6b082ffe.png
new file mode 100644
index 00000000..10d85265
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/284d068b-ee06-4e80-814a-8bdd6b082ffe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/288cfb3c-fe6b-4d38-ae3b-c3458b6b3315.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/288cfb3c-fe6b-4d38-ae3b-c3458b6b3315.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/288cfb3c-fe6b-4d38-ae3b-c3458b6b3315.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/28a759a2-3729-4b33-871c-d3be31207596.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/28a759a2-3729-4b33-871c-d3be31207596.png
new file mode 100644
index 00000000..0efb97e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/28a759a2-3729-4b33-871c-d3be31207596.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/298373d7-0231-43e2-b6bc-62d7b850e5c0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/298373d7-0231-43e2-b6bc-62d7b850e5c0.png
new file mode 100644
index 00000000..5a928a89
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/298373d7-0231-43e2-b6bc-62d7b850e5c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/29cb497c-f7e5-47a6-99a2-2dbc4cf34aa4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/29cb497c-f7e5-47a6-99a2-2dbc4cf34aa4.png
new file mode 100644
index 00000000..94677828
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/29cb497c-f7e5-47a6-99a2-2dbc4cf34aa4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2a1edc09-a4d0-4fe1-8ec8-ecc85fc2356a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2a1edc09-a4d0-4fe1-8ec8-ecc85fc2356a.png
new file mode 100644
index 00000000..0e050178
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2a1edc09-a4d0-4fe1-8ec8-ecc85fc2356a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2a239348-67da-4931-9870-2c8281910157.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2a239348-67da-4931-9870-2c8281910157.png
new file mode 100644
index 00000000..80b364f6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2a239348-67da-4931-9870-2c8281910157.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2aed6c8f-51d5-4db7-acb5-071f3983a7af.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2aed6c8f-51d5-4db7-acb5-071f3983a7af.png
new file mode 100644
index 00000000..e96a5c13
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2aed6c8f-51d5-4db7-acb5-071f3983a7af.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2af6be12-a8d4-4452-8df2-a5fec999a883.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2af6be12-a8d4-4452-8df2-a5fec999a883.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2af6be12-a8d4-4452-8df2-a5fec999a883.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b20fb20-d4ea-4a02-be86-be16c4afa37b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b20fb20-d4ea-4a02-be86-be16c4afa37b.png
new file mode 100644
index 00000000..7b014d30
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b20fb20-d4ea-4a02-be86-be16c4afa37b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b82f087-237b-4c95-8083-de38d0232742.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b82f087-237b-4c95-8083-de38d0232742.png
new file mode 100644
index 00000000..504ba792
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b82f087-237b-4c95-8083-de38d0232742.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b8e090c-d4e8-4fa2-8944-112842f649a5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b8e090c-d4e8-4fa2-8944-112842f649a5.png
new file mode 100644
index 00000000..660556fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2b8e090c-d4e8-4fa2-8944-112842f649a5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2c1b7399-fe99-4705-86e9-4c00965e3a71.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2c1b7399-fe99-4705-86e9-4c00965e3a71.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2c1b7399-fe99-4705-86e9-4c00965e3a71.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2c991be1-e636-4771-b7cf-f30f1a61f7f2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2c991be1-e636-4771-b7cf-f30f1a61f7f2.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2c991be1-e636-4771-b7cf-f30f1a61f7f2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2cacbc1d-22e1-4224-8bf5-9e4ff2408d9e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2cacbc1d-22e1-4224-8bf5-9e4ff2408d9e.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2cacbc1d-22e1-4224-8bf5-9e4ff2408d9e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2cdd113e-7439-432d-8469-6d5014933ed9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2cdd113e-7439-432d-8469-6d5014933ed9.png
new file mode 100644
index 00000000..3f0d6405
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2cdd113e-7439-432d-8469-6d5014933ed9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2e11ca1e-7bf4-41db-84eb-73ebcf3636cc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2e11ca1e-7bf4-41db-84eb-73ebcf3636cc.png
new file mode 100644
index 00000000..36605934
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2e11ca1e-7bf4-41db-84eb-73ebcf3636cc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2e2245e2-5a20-4624-9c2a-0e581a88ab5d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2e2245e2-5a20-4624-9c2a-0e581a88ab5d.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2e2245e2-5a20-4624-9c2a-0e581a88ab5d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2ef03adb-44aa-47b0-a212-270cef406cef.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2ef03adb-44aa-47b0-a212-270cef406cef.png
new file mode 100644
index 00000000..504ba792
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2ef03adb-44aa-47b0-a212-270cef406cef.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2f4b00f9-eb54-4e0e-97be-b475e472bc0e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2f4b00f9-eb54-4e0e-97be-b475e472bc0e.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/2f4b00f9-eb54-4e0e-97be-b475e472bc0e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/30fb6037-d542-4092-9f74-8a1f4e026b43.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/30fb6037-d542-4092-9f74-8a1f4e026b43.png
new file mode 100644
index 00000000..adc54184
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/30fb6037-d542-4092-9f74-8a1f4e026b43.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/31010f52-4532-4c8e-86a6-2de060ff051d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/31010f52-4532-4c8e-86a6-2de060ff051d.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/31010f52-4532-4c8e-86a6-2de060ff051d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/315ed469-61bc-469e-ae54-bfed79f83778.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/315ed469-61bc-469e-ae54-bfed79f83778.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/315ed469-61bc-469e-ae54-bfed79f83778.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/318eca5d-7d4f-4d93-828d-f0444520e952.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/318eca5d-7d4f-4d93-828d-f0444520e952.png
new file mode 100644
index 00000000..f4b1004e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/318eca5d-7d4f-4d93-828d-f0444520e952.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/319f1a9e-e84a-47cd-bc93-c18f9867309b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/319f1a9e-e84a-47cd-bc93-c18f9867309b.png
new file mode 100644
index 00000000..de5597fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/319f1a9e-e84a-47cd-bc93-c18f9867309b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/335e8098-9864-42fb-a2a8-475399fbf25e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/335e8098-9864-42fb-a2a8-475399fbf25e.png
new file mode 100644
index 00000000..2a55647f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/335e8098-9864-42fb-a2a8-475399fbf25e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/34015b39-fbe2-4901-9e42-63bd1c13f7af.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/34015b39-fbe2-4901-9e42-63bd1c13f7af.png
new file mode 100644
index 00000000..b398c107
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/34015b39-fbe2-4901-9e42-63bd1c13f7af.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3440c36e-b520-42e4-8cb3-7f2eb4f4bb32.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3440c36e-b520-42e4-8cb3-7f2eb4f4bb32.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3440c36e-b520-42e4-8cb3-7f2eb4f4bb32.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/350feb5d-35bf-4594-9311-362e684a6350.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/350feb5d-35bf-4594-9311-362e684a6350.png
new file mode 100644
index 00000000..86290bd1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/350feb5d-35bf-4594-9311-362e684a6350.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/352adb75-2cbf-4cd9-82be-53687d3668fb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/352adb75-2cbf-4cd9-82be-53687d3668fb.png
new file mode 100644
index 00000000..62f8c936
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/352adb75-2cbf-4cd9-82be-53687d3668fb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/35435358-d2ca-4d7d-99ef-293f510e3610.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/35435358-d2ca-4d7d-99ef-293f510e3610.png
new file mode 100644
index 00000000..504ba792
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/35435358-d2ca-4d7d-99ef-293f510e3610.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/355e3caa-20f9-4743-b7a4-e7577a7c3392.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/355e3caa-20f9-4743-b7a4-e7577a7c3392.png
new file mode 100644
index 00000000..33c5aa6f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/355e3caa-20f9-4743-b7a4-e7577a7c3392.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3581a639-ffaa-4682-bf53-55d8c30f6648.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3581a639-ffaa-4682-bf53-55d8c30f6648.png
new file mode 100644
index 00000000..5f53dd8a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3581a639-ffaa-4682-bf53-55d8c30f6648.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/358a6ae6-ee7e-4822-a6e0-57ca4696b639.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/358a6ae6-ee7e-4822-a6e0-57ca4696b639.png
new file mode 100644
index 00000000..e0acd060
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/358a6ae6-ee7e-4822-a6e0-57ca4696b639.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/364e3568-1fbb-41f8-8d8c-999265c2f89e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/364e3568-1fbb-41f8-8d8c-999265c2f89e.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/364e3568-1fbb-41f8-8d8c-999265c2f89e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/367864fc-07bb-46fa-9d44-9331803a5ab7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/367864fc-07bb-46fa-9d44-9331803a5ab7.png
new file mode 100644
index 00000000..fe4a1e1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/367864fc-07bb-46fa-9d44-9331803a5ab7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3755650d-21aa-4377-b997-5d69dbfa2ec9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3755650d-21aa-4377-b997-5d69dbfa2ec9.png
new file mode 100644
index 00000000..0c07a6f0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3755650d-21aa-4377-b997-5d69dbfa2ec9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3785fb36-a7c4-401d-a42f-9b505f26a800.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3785fb36-a7c4-401d-a42f-9b505f26a800.png
new file mode 100644
index 00000000..59053f0f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3785fb36-a7c4-401d-a42f-9b505f26a800.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/378cfd1c-d7d4-4069-b25b-2e7503226f6e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/378cfd1c-d7d4-4069-b25b-2e7503226f6e.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/378cfd1c-d7d4-4069-b25b-2e7503226f6e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/38abac4c-e8fb-4232-95c4-7ae6be154f71.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/38abac4c-e8fb-4232-95c4-7ae6be154f71.png
new file mode 100644
index 00000000..1241ea5d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/38abac4c-e8fb-4232-95c4-7ae6be154f71.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/39e22ad0-f1ab-46de-a18c-f1ee872ff30a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/39e22ad0-f1ab-46de-a18c-f1ee872ff30a.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/39e22ad0-f1ab-46de-a18c-f1ee872ff30a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3a58da80-ed93-42e5-a4fb-801f4aad8136.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3a58da80-ed93-42e5-a4fb-801f4aad8136.png
new file mode 100644
index 00000000..3f3c18f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3a58da80-ed93-42e5-a4fb-801f4aad8136.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3a868eff-e1e0-4800-b315-c3d89407a051.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3a868eff-e1e0-4800-b315-c3d89407a051.png
new file mode 100644
index 00000000..232b1410
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3a868eff-e1e0-4800-b315-c3d89407a051.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3bbfa27c-00fd-429b-a740-87abdd4860b4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3bbfa27c-00fd-429b-a740-87abdd4860b4.png
new file mode 100644
index 00000000..ec6fd73e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3bbfa27c-00fd-429b-a740-87abdd4860b4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3c683de1-98dc-46b2-903a-0c23d98a278d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3c683de1-98dc-46b2-903a-0c23d98a278d.png
new file mode 100644
index 00000000..a1c94789
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3c683de1-98dc-46b2-903a-0c23d98a278d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ca0ce74-1ec2-4adc-8763-e4764a603c8c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ca0ce74-1ec2-4adc-8763-e4764a603c8c.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ca0ce74-1ec2-4adc-8763-e4764a603c8c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3cee7837-9e4c-469d-931b-c64c706de99b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3cee7837-9e4c-469d-931b-c64c706de99b.png
new file mode 100644
index 00000000..8911bee4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3cee7837-9e4c-469d-931b-c64c706de99b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d0a0882-e180-4425-9ae8-1285c69f2c1a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d0a0882-e180-4425-9ae8-1285c69f2c1a.png
new file mode 100644
index 00000000..fac045d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d0a0882-e180-4425-9ae8-1285c69f2c1a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d239ea2-586f-48aa-bb1f-d180b2231f60.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d239ea2-586f-48aa-bb1f-d180b2231f60.png
new file mode 100644
index 00000000..064eb9ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d239ea2-586f-48aa-bb1f-d180b2231f60.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d2735a2-46f8-4271-9ac1-b3b77cfa124f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d2735a2-46f8-4271-9ac1-b3b77cfa124f.png
new file mode 100644
index 00000000..1442042e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d2735a2-46f8-4271-9ac1-b3b77cfa124f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d88d9b8-922d-4c47-be41-9aa01c0890d1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d88d9b8-922d-4c47-be41-9aa01c0890d1.png
new file mode 100644
index 00000000..a10434df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3d88d9b8-922d-4c47-be41-9aa01c0890d1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ea5c40e-8738-49b8-9423-af9382c72464.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ea5c40e-8738-49b8-9423-af9382c72464.png
new file mode 100644
index 00000000..2e39fc34
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ea5c40e-8738-49b8-9423-af9382c72464.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ebe64c4-215f-42a9-a6fd-dc5a61a10d7b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ebe64c4-215f-42a9-a6fd-dc5a61a10d7b.png
new file mode 100644
index 00000000..eb2a7863
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3ebe64c4-215f-42a9-a6fd-dc5a61a10d7b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3f34c96e-f941-44e3-9c16-d799676bf738.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3f34c96e-f941-44e3-9c16-d799676bf738.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3f34c96e-f941-44e3-9c16-d799676bf738.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3f50d7d5-cd0c-4e69-b381-d1f21dbb1683.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3f50d7d5-cd0c-4e69-b381-d1f21dbb1683.png
new file mode 100644
index 00000000..6bad3019
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3f50d7d5-cd0c-4e69-b381-d1f21dbb1683.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3fad2400-4c8f-46c6-aca8-d4dab0f04aa6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3fad2400-4c8f-46c6-aca8-d4dab0f04aa6.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/3fad2400-4c8f-46c6-aca8-d4dab0f04aa6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4024d207-073d-4cc7-a80d-34668228b850.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4024d207-073d-4cc7-a80d-34668228b850.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4024d207-073d-4cc7-a80d-34668228b850.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40971ffd-4f20-4f81-875b-0210f012fa71.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40971ffd-4f20-4f81-875b-0210f012fa71.png
new file mode 100644
index 00000000..cc61420f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40971ffd-4f20-4f81-875b-0210f012fa71.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40a964d2-4371-47ca-8d09-d5153bbd1460.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40a964d2-4371-47ca-8d09-d5153bbd1460.png
new file mode 100644
index 00000000..adc54184
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40a964d2-4371-47ca-8d09-d5153bbd1460.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40c2a80c-fccb-4967-92da-cfb4414bafb0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40c2a80c-fccb-4967-92da-cfb4414bafb0.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40c2a80c-fccb-4967-92da-cfb4414bafb0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40e3ad0e-9d2c-42ab-9051-3daf8851ddce.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40e3ad0e-9d2c-42ab-9051-3daf8851ddce.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/40e3ad0e-9d2c-42ab-9051-3daf8851ddce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/41376375-faa4-44d0-8c66-b8f75915495b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/41376375-faa4-44d0-8c66-b8f75915495b.png
new file mode 100644
index 00000000..95a902b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/41376375-faa4-44d0-8c66-b8f75915495b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43092ce7-fca2-4bc4-9d78-bc9c03d11d46.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43092ce7-fca2-4bc4-9d78-bc9c03d11d46.png
new file mode 100644
index 00000000..6bd117c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43092ce7-fca2-4bc4-9d78-bc9c03d11d46.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43e72daa-a973-4a68-9b65-6e6d748adcc8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43e72daa-a973-4a68-9b65-6e6d748adcc8.png
new file mode 100644
index 00000000..6e9b5dd0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43e72daa-a973-4a68-9b65-6e6d748adcc8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43ea5798-8854-4051-854b-e48591f816fa.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43ea5798-8854-4051-854b-e48591f816fa.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/43ea5798-8854-4051-854b-e48591f816fa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/440b510e-5fed-4ccb-892c-cb5c8103d030.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/440b510e-5fed-4ccb-892c-cb5c8103d030.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/440b510e-5fed-4ccb-892c-cb5c8103d030.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/451f86c5-2616-486f-95ee-bd434c6db4b3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/451f86c5-2616-486f-95ee-bd434c6db4b3.png
new file mode 100644
index 00000000..02b1b055
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/451f86c5-2616-486f-95ee-bd434c6db4b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/453b7cfc-2e44-4d2a-aa5f-cc8167952005.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/453b7cfc-2e44-4d2a-aa5f-cc8167952005.png
new file mode 100644
index 00000000..c52b241f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/453b7cfc-2e44-4d2a-aa5f-cc8167952005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/454789fc-30c8-40d0-93db-eafdedb42ee3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/454789fc-30c8-40d0-93db-eafdedb42ee3.png
new file mode 100644
index 00000000..2e558601
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/454789fc-30c8-40d0-93db-eafdedb42ee3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/455b90b1-5a66-4143-a4bc-30031eba9969.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/455b90b1-5a66-4143-a4bc-30031eba9969.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/455b90b1-5a66-4143-a4bc-30031eba9969.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4593a096-0a79-40bf-9e2a-2116c6d24062.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4593a096-0a79-40bf-9e2a-2116c6d24062.png
new file mode 100644
index 00000000..10d85265
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4593a096-0a79-40bf-9e2a-2116c6d24062.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/45f89c30-c000-483b-b366-bed50713d8af.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/45f89c30-c000-483b-b366-bed50713d8af.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/45f89c30-c000-483b-b366-bed50713d8af.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46370dcd-e39e-4828-9304-9552d23ecaf6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46370dcd-e39e-4828-9304-9552d23ecaf6.png
new file mode 100644
index 00000000..87392685
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46370dcd-e39e-4828-9304-9552d23ecaf6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46afec38-634c-4ac0-98e8-d2b8a113b66f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46afec38-634c-4ac0-98e8-d2b8a113b66f.png
new file mode 100644
index 00000000..04ef5799
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46afec38-634c-4ac0-98e8-d2b8a113b66f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46e98f00-cd89-4b44-8c8e-316c13664833.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46e98f00-cd89-4b44-8c8e-316c13664833.png
new file mode 100644
index 00000000..d7c30094
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46e98f00-cd89-4b44-8c8e-316c13664833.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46fb0ba6-818f-4315-926b-6c5502f897fa.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46fb0ba6-818f-4315-926b-6c5502f897fa.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/46fb0ba6-818f-4315-926b-6c5502f897fa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/47390d06-630c-4f20-8056-53d429f0a481.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/47390d06-630c-4f20-8056-53d429f0a481.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/47390d06-630c-4f20-8056-53d429f0a481.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/474889d5-2f98-4cfb-a696-b748d045b14f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/474889d5-2f98-4cfb-a696-b748d045b14f.png
new file mode 100644
index 00000000..c820e8f8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/474889d5-2f98-4cfb-a696-b748d045b14f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/47591f1c-ae9c-4da5-ad57-d2c65619eb28.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/47591f1c-ae9c-4da5-ad57-d2c65619eb28.png
new file mode 100644
index 00000000..78e403dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/47591f1c-ae9c-4da5-ad57-d2c65619eb28.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4768a510-e42b-4c87-beef-08ed98ee76ee.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4768a510-e42b-4c87-beef-08ed98ee76ee.png
new file mode 100644
index 00000000..75c77398
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4768a510-e42b-4c87-beef-08ed98ee76ee.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4788b3b9-2b77-4fd5-8afa-ed96fd04b0fe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4788b3b9-2b77-4fd5-8afa-ed96fd04b0fe.png
new file mode 100644
index 00000000..e12bf817
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4788b3b9-2b77-4fd5-8afa-ed96fd04b0fe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/482205b9-592e-4efa-9bf8-025e8373b7d1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/482205b9-592e-4efa-9bf8-025e8373b7d1.png
new file mode 100644
index 00000000..bc7267af
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/482205b9-592e-4efa-9bf8-025e8373b7d1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4837d9cf-809d-4be2-8c73-c12293eb7b75.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4837d9cf-809d-4be2-8c73-c12293eb7b75.png
new file mode 100644
index 00000000..167a0106
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4837d9cf-809d-4be2-8c73-c12293eb7b75.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/48af46b5-42f6-4af5-b115-3182de1bb664.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/48af46b5-42f6-4af5-b115-3182de1bb664.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/48af46b5-42f6-4af5-b115-3182de1bb664.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/48be7952-a3e9-415e-956f-04dc9ab3457b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/48be7952-a3e9-415e-956f-04dc9ab3457b.png
new file mode 100644
index 00000000..232b1410
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/48be7952-a3e9-415e-956f-04dc9ab3457b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4a3e6241-1225-4448-a074-cda1923b5af7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4a3e6241-1225-4448-a074-cda1923b5af7.png
new file mode 100644
index 00000000..ac46ac57
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4a3e6241-1225-4448-a074-cda1923b5af7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4ad95f85-44b6-4852-92c9-9f18e95b7505.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4ad95f85-44b6-4852-92c9-9f18e95b7505.png
new file mode 100644
index 00000000..80e1d0d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4ad95f85-44b6-4852-92c9-9f18e95b7505.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4ad97e1f-c0a1-4f40-b2a6-9ac9968a5e03.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4ad97e1f-c0a1-4f40-b2a6-9ac9968a5e03.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4ad97e1f-c0a1-4f40-b2a6-9ac9968a5e03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4c09345a-d68c-473f-aeaf-d7cf2fc0ba08.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4c09345a-d68c-473f-aeaf-d7cf2fc0ba08.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4c09345a-d68c-473f-aeaf-d7cf2fc0ba08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4cbb2cc6-469c-45d2-9788-6e16bcfa7e31.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4cbb2cc6-469c-45d2-9788-6e16bcfa7e31.png
new file mode 100644
index 00000000..9f639407
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4cbb2cc6-469c-45d2-9788-6e16bcfa7e31.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4cdeb6a9-3ec0-4f01-acf4-a128eed146e6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4cdeb6a9-3ec0-4f01-acf4-a128eed146e6.png
new file mode 100644
index 00000000..deed9f90
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4cdeb6a9-3ec0-4f01-acf4-a128eed146e6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d019a10-dd88-4397-9657-bfda92442c2e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d019a10-dd88-4397-9657-bfda92442c2e.png
new file mode 100644
index 00000000..3101255b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d019a10-dd88-4397-9657-bfda92442c2e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d044115-061e-42d0-86a0-3e4d30878cda.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d044115-061e-42d0-86a0-3e4d30878cda.png
new file mode 100644
index 00000000..ab4b7d50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d044115-061e-42d0-86a0-3e4d30878cda.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d723f33-f865-4a5b-b387-b29268e8a070.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d723f33-f865-4a5b-b387-b29268e8a070.png
new file mode 100644
index 00000000..d95bb258
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4d723f33-f865-4a5b-b387-b29268e8a070.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4da7bc33-ef0d-42b8-8f89-2051bc02a3ce.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4da7bc33-ef0d-42b8-8f89-2051bc02a3ce.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4da7bc33-ef0d-42b8-8f89-2051bc02a3ce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4e2552d7-1491-4538-abef-5499fce82cf0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4e2552d7-1491-4538-abef-5499fce82cf0.png
new file mode 100644
index 00000000..6bd117c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4e2552d7-1491-4538-abef-5499fce82cf0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4e86b296-f4f5-4ccb-9014-60021b0e4a69.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4e86b296-f4f5-4ccb-9014-60021b0e4a69.png
new file mode 100644
index 00000000..4978a2fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4e86b296-f4f5-4ccb-9014-60021b0e4a69.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4eb03151-9951-4817-ae00-14c1d60f7229.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4eb03151-9951-4817-ae00-14c1d60f7229.png
new file mode 100644
index 00000000..9df684c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4eb03151-9951-4817-ae00-14c1d60f7229.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4f25defe-b724-47f7-b0be-f520649caa93.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4f25defe-b724-47f7-b0be-f520649caa93.png
new file mode 100644
index 00000000..ccb29423
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4f25defe-b724-47f7-b0be-f520649caa93.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4f8608fc-f668-47f7-9e97-2117abf2ea0b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4f8608fc-f668-47f7-9e97-2117abf2ea0b.png
new file mode 100644
index 00000000..e238ba88
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4f8608fc-f668-47f7-9e97-2117abf2ea0b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4fc41dda-0243-4e99-9b90-d2f7e6f321a8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4fc41dda-0243-4e99-9b90-d2f7e6f321a8.png
new file mode 100644
index 00000000..d27537d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/4fc41dda-0243-4e99-9b90-d2f7e6f321a8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/51e430e3-f3ad-41bf-9337-421b7aed2d90.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/51e430e3-f3ad-41bf-9337-421b7aed2d90.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/51e430e3-f3ad-41bf-9337-421b7aed2d90.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/51f8b11f-7921-424a-a41f-1fcc6c03314f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/51f8b11f-7921-424a-a41f-1fcc6c03314f.png
new file mode 100644
index 00000000..cf62477a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/51f8b11f-7921-424a-a41f-1fcc6c03314f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/528145f7-c9fd-46e5-a9e6-f880c0a12109.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/528145f7-c9fd-46e5-a9e6-f880c0a12109.png
new file mode 100644
index 00000000..b9d45fbb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/528145f7-c9fd-46e5-a9e6-f880c0a12109.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/529f2456-1a7b-4e24-8962-d57281389f06.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/529f2456-1a7b-4e24-8962-d57281389f06.png
new file mode 100644
index 00000000..eb05120e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/529f2456-1a7b-4e24-8962-d57281389f06.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/52f9c1bd-016c-4d11-a1f1-bc87b2d7db2e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/52f9c1bd-016c-4d11-a1f1-bc87b2d7db2e.png
new file mode 100644
index 00000000..6d92ae75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/52f9c1bd-016c-4d11-a1f1-bc87b2d7db2e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/535205fe-20d7-4139-a4a5-426b1b678fd5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/535205fe-20d7-4139-a4a5-426b1b678fd5.png
new file mode 100644
index 00000000..bb2340e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/535205fe-20d7-4139-a4a5-426b1b678fd5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53982af6-a5b7-4b34-bf95-f2fdb6fb121e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53982af6-a5b7-4b34-bf95-f2fdb6fb121e.png
new file mode 100644
index 00000000..79f1d10f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53982af6-a5b7-4b34-bf95-f2fdb6fb121e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53bbc979-6829-4074-a1c2-f8f227bbcda5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53bbc979-6829-4074-a1c2-f8f227bbcda5.png
new file mode 100644
index 00000000..5283257a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53bbc979-6829-4074-a1c2-f8f227bbcda5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53d3dc76-12a8-491b-ab66-d6b3ebde9efd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53d3dc76-12a8-491b-ab66-d6b3ebde9efd.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53d3dc76-12a8-491b-ab66-d6b3ebde9efd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53f63aef-c6c4-45ed-8e0d-744bd090430f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53f63aef-c6c4-45ed-8e0d-744bd090430f.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/53f63aef-c6c4-45ed-8e0d-744bd090430f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/540af493-facf-4dd2-ac10-fe1ff5fbe181.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/540af493-facf-4dd2-ac10-fe1ff5fbe181.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/540af493-facf-4dd2-ac10-fe1ff5fbe181.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/545e64d1-51b5-4ff1-9efe-a86084248cf4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/545e64d1-51b5-4ff1-9efe-a86084248cf4.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/545e64d1-51b5-4ff1-9efe-a86084248cf4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/54e133c3-30ae-49e2-bd8a-74eba5711ce0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/54e133c3-30ae-49e2-bd8a-74eba5711ce0.png
new file mode 100644
index 00000000..48356e90
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/54e133c3-30ae-49e2-bd8a-74eba5711ce0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/55357743-14b7-478c-962b-ff8d1cec3e78.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/55357743-14b7-478c-962b-ff8d1cec3e78.png
new file mode 100644
index 00000000..e238ba88
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/55357743-14b7-478c-962b-ff8d1cec3e78.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/55b42a60-c235-432c-b1a2-40da0ccfdba3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/55b42a60-c235-432c-b1a2-40da0ccfdba3.png
new file mode 100644
index 00000000..a3c36a85
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/55b42a60-c235-432c-b1a2-40da0ccfdba3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/564e60d8-1814-4165-9753-e98e5e9d7a41.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/564e60d8-1814-4165-9753-e98e5e9d7a41.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/564e60d8-1814-4165-9753-e98e5e9d7a41.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5652885b-2476-4d25-a5c8-db704d656211.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5652885b-2476-4d25-a5c8-db704d656211.png
new file mode 100644
index 00000000..19671722
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5652885b-2476-4d25-a5c8-db704d656211.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/56b9e789-0557-4c8a-ac95-fe9a13c87738.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/56b9e789-0557-4c8a-ac95-fe9a13c87738.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/56b9e789-0557-4c8a-ac95-fe9a13c87738.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/570fb2aa-e4de-41d6-b15e-ee8a182736d4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/570fb2aa-e4de-41d6-b15e-ee8a182736d4.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/570fb2aa-e4de-41d6-b15e-ee8a182736d4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5728619b-c311-45dd-9430-4ca942269330.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5728619b-c311-45dd-9430-4ca942269330.png
new file mode 100644
index 00000000..3f3c18f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5728619b-c311-45dd-9430-4ca942269330.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5796b8f9-62ac-4e63-901b-58792aef76a2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5796b8f9-62ac-4e63-901b-58792aef76a2.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5796b8f9-62ac-4e63-901b-58792aef76a2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/583e2b77-74e9-44aa-be8e-fa6b435d77c9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/583e2b77-74e9-44aa-be8e-fa6b435d77c9.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/583e2b77-74e9-44aa-be8e-fa6b435d77c9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/585ece52-6048-4e1c-ba3c-4eb1911e6957.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/585ece52-6048-4e1c-ba3c-4eb1911e6957.png
new file mode 100644
index 00000000..c624d37c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/585ece52-6048-4e1c-ba3c-4eb1911e6957.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/588d745f-a8f6-4cb3-961a-74339bd63c85.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/588d745f-a8f6-4cb3-961a-74339bd63c85.png
new file mode 100644
index 00000000..361ab257
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/588d745f-a8f6-4cb3-961a-74339bd63c85.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/589dba56-8e10-4494-a2b2-601700da5656.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/589dba56-8e10-4494-a2b2-601700da5656.png
new file mode 100644
index 00000000..9a60ef54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/589dba56-8e10-4494-a2b2-601700da5656.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/592ff992-bf67-45d4-a87e-652d35f4a98a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/592ff992-bf67-45d4-a87e-652d35f4a98a.png
new file mode 100644
index 00000000..62fa8a10
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/592ff992-bf67-45d4-a87e-652d35f4a98a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/594ea09a-7bac-45ee-a809-9421fd932510.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/594ea09a-7bac-45ee-a809-9421fd932510.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/594ea09a-7bac-45ee-a809-9421fd932510.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5966dcc0-2ffb-4884-9117-3e09f3119dad.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5966dcc0-2ffb-4884-9117-3e09f3119dad.png
new file mode 100644
index 00000000..a139d522
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5966dcc0-2ffb-4884-9117-3e09f3119dad.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b2a244a-18ef-4792-b8e9-e4cfbff4fffd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b2a244a-18ef-4792-b8e9-e4cfbff4fffd.png
new file mode 100644
index 00000000..ccf5826c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b2a244a-18ef-4792-b8e9-e4cfbff4fffd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b6120e4-bb45-4acf-91ca-45fe924ae318.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b6120e4-bb45-4acf-91ca-45fe924ae318.png
new file mode 100644
index 00000000..460d4b80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b6120e4-bb45-4acf-91ca-45fe924ae318.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b824854-7f71-4b96-baa7-2159bf27ce59.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b824854-7f71-4b96-baa7-2159bf27ce59.png
new file mode 100644
index 00000000..953518d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b824854-7f71-4b96-baa7-2159bf27ce59.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b9384ce-2640-4df1-8d41-f668a5da1b79.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b9384ce-2640-4df1-8d41-f668a5da1b79.png
new file mode 100644
index 00000000..9bda4d42
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5b9384ce-2640-4df1-8d41-f668a5da1b79.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5bcd00ad-c9b8-4966-adf7-aa781b0b7518.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5bcd00ad-c9b8-4966-adf7-aa781b0b7518.png
new file mode 100644
index 00000000..7121cca6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5bcd00ad-c9b8-4966-adf7-aa781b0b7518.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5be43069-8bde-464f-8338-1f5d61e8f10c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5be43069-8bde-464f-8338-1f5d61e8f10c.png
new file mode 100644
index 00000000..87392685
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5be43069-8bde-464f-8338-1f5d61e8f10c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5c20a779-c9f4-4e11-9a82-68fe83c02e3e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5c20a779-c9f4-4e11-9a82-68fe83c02e3e.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5c20a779-c9f4-4e11-9a82-68fe83c02e3e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5c9ca5d1-2ec0-451c-a1d9-3fbd7dacd2a6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5c9ca5d1-2ec0-451c-a1d9-3fbd7dacd2a6.png
new file mode 100644
index 00000000..0abb56be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5c9ca5d1-2ec0-451c-a1d9-3fbd7dacd2a6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5d53f887-644f-44ff-b319-775d50d35f70.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5d53f887-644f-44ff-b319-775d50d35f70.png
new file mode 100644
index 00000000..c6e0294a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5d53f887-644f-44ff-b319-775d50d35f70.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5d76bf68-0779-4160-8162-35ee38491efe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5d76bf68-0779-4160-8162-35ee38491efe.png
new file mode 100644
index 00000000..953518d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5d76bf68-0779-4160-8162-35ee38491efe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5de96cd5-ee46-4140-9dc7-cfe42401d367.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5de96cd5-ee46-4140-9dc7-cfe42401d367.png
new file mode 100644
index 00000000..cc438e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5de96cd5-ee46-4140-9dc7-cfe42401d367.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5e6632de-b358-46b0-9154-bc2912394c1b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5e6632de-b358-46b0-9154-bc2912394c1b.png
new file mode 100644
index 00000000..d5e20ece
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5e6632de-b358-46b0-9154-bc2912394c1b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5eccd874-c6b5-4469-b596-61888e74a561.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5eccd874-c6b5-4469-b596-61888e74a561.png
new file mode 100644
index 00000000..427eaa73
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5eccd874-c6b5-4469-b596-61888e74a561.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5f7d57ed-3814-4506-a8d2-da060f75ef00.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5f7d57ed-3814-4506-a8d2-da060f75ef00.png
new file mode 100644
index 00000000..0f5b8b47
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/5f7d57ed-3814-4506-a8d2-da060f75ef00.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60110071-3fb1-471e-9b9c-8fc73797e836.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60110071-3fb1-471e-9b9c-8fc73797e836.png
new file mode 100644
index 00000000..61b9d078
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60110071-3fb1-471e-9b9c-8fc73797e836.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6044b902-6522-45b3-8a12-592d2a42f915.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6044b902-6522-45b3-8a12-592d2a42f915.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6044b902-6522-45b3-8a12-592d2a42f915.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60564a32-a8fc-477b-ab73-2f4cd0406154.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60564a32-a8fc-477b-ab73-2f4cd0406154.png
new file mode 100644
index 00000000..80565c1b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60564a32-a8fc-477b-ab73-2f4cd0406154.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6087a256-9774-45b7-8340-6e52d998bfd3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6087a256-9774-45b7-8340-6e52d998bfd3.png
new file mode 100644
index 00000000..fad6de63
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6087a256-9774-45b7-8340-6e52d998bfd3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60dee51c-592a-4c55-822a-ff7c5711ff9d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60dee51c-592a-4c55-822a-ff7c5711ff9d.png
new file mode 100644
index 00000000..2a55647f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/60dee51c-592a-4c55-822a-ff7c5711ff9d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61752837-2d9c-4f9a-a604-d86fd605e9bd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61752837-2d9c-4f9a-a604-d86fd605e9bd.png
new file mode 100644
index 00000000..652fd026
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61752837-2d9c-4f9a-a604-d86fd605e9bd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61827802-face-4bba-9b33-1a79c5d2deaf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61827802-face-4bba-9b33-1a79c5d2deaf.png
new file mode 100644
index 00000000..3362e4a0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61827802-face-4bba-9b33-1a79c5d2deaf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/619a6f8b-c314-49a6-8846-9625d234030e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/619a6f8b-c314-49a6-8846-9625d234030e.png
new file mode 100644
index 00000000..de5597fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/619a6f8b-c314-49a6-8846-9625d234030e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61e4fff1-a1e8-437e-a44b-3215f2b7b8c5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61e4fff1-a1e8-437e-a44b-3215f2b7b8c5.png
new file mode 100644
index 00000000..0ebeb8a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/61e4fff1-a1e8-437e-a44b-3215f2b7b8c5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/62270ca8-fe3d-4230-a982-7dfa87d3faa5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/62270ca8-fe3d-4230-a982-7dfa87d3faa5.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/62270ca8-fe3d-4230-a982-7dfa87d3faa5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6239621b-d5be-4ea4-b7ad-d4f027cf412c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6239621b-d5be-4ea4-b7ad-d4f027cf412c.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6239621b-d5be-4ea4-b7ad-d4f027cf412c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/62f3894f-d397-4119-8a9c-5caa9f73651c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/62f3894f-d397-4119-8a9c-5caa9f73651c.png
new file mode 100644
index 00000000..150a3571
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/62f3894f-d397-4119-8a9c-5caa9f73651c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/631b8015-e0d6-47ac-9528-05fdf6474e2a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/631b8015-e0d6-47ac-9528-05fdf6474e2a.png
new file mode 100644
index 00000000..7ef723eb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/631b8015-e0d6-47ac-9528-05fdf6474e2a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/63421732-5fd9-40a0-ac04-cd0eb01560d7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/63421732-5fd9-40a0-ac04-cd0eb01560d7.png
new file mode 100644
index 00000000..fec4e622
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/63421732-5fd9-40a0-ac04-cd0eb01560d7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/63c54228-3b78-4be1-9900-dcaea5aa67d8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/63c54228-3b78-4be1-9900-dcaea5aa67d8.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/63c54228-3b78-4be1-9900-dcaea5aa67d8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/64891702-9268-4488-bd6e-15b18d2268fe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/64891702-9268-4488-bd6e-15b18d2268fe.png
new file mode 100644
index 00000000..e0de1ff9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/64891702-9268-4488-bd6e-15b18d2268fe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/64a42b94-e7e4-4fe5-9e7d-ac423eeb8963.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/64a42b94-e7e4-4fe5-9e7d-ac423eeb8963.png
new file mode 100644
index 00000000..786af6e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/64a42b94-e7e4-4fe5-9e7d-ac423eeb8963.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/65859715-81b5-44c1-ab58-59f1e43f0e89.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/65859715-81b5-44c1-ab58-59f1e43f0e89.png
new file mode 100644
index 00000000..2f5bcd26
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/65859715-81b5-44c1-ab58-59f1e43f0e89.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/65b0d4bd-e4e0-4ca1-8e54-7cf287b85970.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/65b0d4bd-e4e0-4ca1-8e54-7cf287b85970.png
new file mode 100644
index 00000000..1880461f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/65b0d4bd-e4e0-4ca1-8e54-7cf287b85970.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/668bc816-145e-484e-8fce-52ffa0a46513.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/668bc816-145e-484e-8fce-52ffa0a46513.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/668bc816-145e-484e-8fce-52ffa0a46513.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/67537c53-9287-4705-a310-a3cfb3c01a98.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/67537c53-9287-4705-a310-a3cfb3c01a98.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/67537c53-9287-4705-a310-a3cfb3c01a98.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/676c22cc-974b-45a0-ab9f-8cf542071228.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/676c22cc-974b-45a0-ab9f-8cf542071228.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/676c22cc-974b-45a0-ab9f-8cf542071228.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/676fd37d-bccd-442f-83ec-94bec90c816a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/676fd37d-bccd-442f-83ec-94bec90c816a.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/676fd37d-bccd-442f-83ec-94bec90c816a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/685d4fc8-b1ca-41aa-a68c-60b5378803bf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/685d4fc8-b1ca-41aa-a68c-60b5378803bf.png
new file mode 100644
index 00000000..953518d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/685d4fc8-b1ca-41aa-a68c-60b5378803bf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/68661c3a-0389-4e09-85bb-27da96071e60.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/68661c3a-0389-4e09-85bb-27da96071e60.png
new file mode 100644
index 00000000..99d24d27
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/68661c3a-0389-4e09-85bb-27da96071e60.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/68f1b8d3-649a-4a94-aa2c-8539476a38eb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/68f1b8d3-649a-4a94-aa2c-8539476a38eb.png
new file mode 100644
index 00000000..1880461f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/68f1b8d3-649a-4a94-aa2c-8539476a38eb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6927ea0a-bb10-4b95-a08b-467c6eb178c0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6927ea0a-bb10-4b95-a08b-467c6eb178c0.png
new file mode 100644
index 00000000..b398c107
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6927ea0a-bb10-4b95-a08b-467c6eb178c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/693e98ca-0f94-4800-85a2-fa3e087c15f5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/693e98ca-0f94-4800-85a2-fa3e087c15f5.png
new file mode 100644
index 00000000..cc438e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/693e98ca-0f94-4800-85a2-fa3e087c15f5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/69b17ca9-c723-466c-8d0b-cf7e9a9fb1bd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/69b17ca9-c723-466c-8d0b-cf7e9a9fb1bd.png
new file mode 100644
index 00000000..302fc654
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/69b17ca9-c723-466c-8d0b-cf7e9a9fb1bd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/69f916a6-cf0f-4282-9e58-3aa2b23a2f0c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/69f916a6-cf0f-4282-9e58-3aa2b23a2f0c.png
new file mode 100644
index 00000000..6e9b5dd0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/69f916a6-cf0f-4282-9e58-3aa2b23a2f0c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a76c328-6ece-4221-b362-dfb12c664952.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a76c328-6ece-4221-b362-dfb12c664952.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a76c328-6ece-4221-b362-dfb12c664952.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a904b6e-8b8d-4991-8097-5d179786d4ed.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a904b6e-8b8d-4991-8097-5d179786d4ed.png
new file mode 100644
index 00000000..0493d802
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a904b6e-8b8d-4991-8097-5d179786d4ed.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a9e5f14-0445-4602-ac00-d0df3e5e36e4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a9e5f14-0445-4602-ac00-d0df3e5e36e4.png
new file mode 100644
index 00000000..77d7d80a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6a9e5f14-0445-4602-ac00-d0df3e5e36e4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6affbc3d-d84c-4970-9f6b-9683d7416460.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6affbc3d-d84c-4970-9f6b-9683d7416460.png
new file mode 100644
index 00000000..9de6275b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6affbc3d-d84c-4970-9f6b-9683d7416460.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b08140c-a4cc-4172-9a4e-b59d58ba4fd9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b08140c-a4cc-4172-9a4e-b59d58ba4fd9.png
new file mode 100644
index 00000000..89ed98b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b08140c-a4cc-4172-9a4e-b59d58ba4fd9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b225181-9edb-4e4a-8e4d-1f0adfd2088c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b225181-9edb-4e4a-8e4d-1f0adfd2088c.png
new file mode 100644
index 00000000..b398c107
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b225181-9edb-4e4a-8e4d-1f0adfd2088c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b477c6b-dca3-4a40-8c43-bf844d4acf51.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b477c6b-dca3-4a40-8c43-bf844d4acf51.png
new file mode 100644
index 00000000..10d85265
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6b477c6b-dca3-4a40-8c43-bf844d4acf51.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6bdc020a-39a6-4c37-906f-23dde9efaecd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6bdc020a-39a6-4c37-906f-23dde9efaecd.png
new file mode 100644
index 00000000..47a9491b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6bdc020a-39a6-4c37-906f-23dde9efaecd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6c387c39-bc77-4e18-88f0-48060009e4d3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6c387c39-bc77-4e18-88f0-48060009e4d3.png
new file mode 100644
index 00000000..23094d9d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6c387c39-bc77-4e18-88f0-48060009e4d3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ceb5cff-7e6a-4cdb-aa6a-a1ba6ba88da4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ceb5cff-7e6a-4cdb-aa6a-a1ba6ba88da4.png
new file mode 100644
index 00000000..2f5bcd26
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ceb5cff-7e6a-4cdb-aa6a-a1ba6ba88da4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6d324076-556e-4aa0-8148-244f098007ab.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6d324076-556e-4aa0-8148-244f098007ab.png
new file mode 100644
index 00000000..a02f71c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6d324076-556e-4aa0-8148-244f098007ab.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6d55955b-5e84-41f6-babe-707bb2368af4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6d55955b-5e84-41f6-babe-707bb2368af4.png
new file mode 100644
index 00000000..9df684c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6d55955b-5e84-41f6-babe-707bb2368af4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e526c5a-8aa7-4e80-b683-14edd18dc39b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e526c5a-8aa7-4e80-b683-14edd18dc39b.png
new file mode 100644
index 00000000..1528e223
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e526c5a-8aa7-4e80-b683-14edd18dc39b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e5b33d3-a4ef-4260-a63f-ba22cfb11ced.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e5b33d3-a4ef-4260-a63f-ba22cfb11ced.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e5b33d3-a4ef-4260-a63f-ba22cfb11ced.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e6803c0-fc44-4fe0-ba29-bb7be3d92971.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e6803c0-fc44-4fe0-ba29-bb7be3d92971.png
new file mode 100644
index 00000000..e8b156d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e6803c0-fc44-4fe0-ba29-bb7be3d92971.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e84bc5e-d86c-4b7b-9b3b-dca3232ae883.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e84bc5e-d86c-4b7b-9b3b-dca3232ae883.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6e84bc5e-d86c-4b7b-9b3b-dca3232ae883.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ea7c95b-04d4-4982-b9a8-6c585c9ef2af.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ea7c95b-04d4-4982-b9a8-6c585c9ef2af.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ea7c95b-04d4-4982-b9a8-6c585c9ef2af.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ed1cd67-f5a3-4556-a51f-293703675687.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ed1cd67-f5a3-4556-a51f-293703675687.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ed1cd67-f5a3-4556-a51f-293703675687.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ede3380-b579-4038-b812-1adb08174574.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ede3380-b579-4038-b812-1adb08174574.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6ede3380-b579-4038-b812-1adb08174574.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6eea2d49-e2db-4b57-9f63-6b34580768bc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6eea2d49-e2db-4b57-9f63-6b34580768bc.png
new file mode 100644
index 00000000..8f514315
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6eea2d49-e2db-4b57-9f63-6b34580768bc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f074b7c-44b9-420d-b5df-f6f54b8abb93.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f074b7c-44b9-420d-b5df-f6f54b8abb93.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f074b7c-44b9-420d-b5df-f6f54b8abb93.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f1e25f0-feea-4ea0-b690-69f4dfd45171.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f1e25f0-feea-4ea0-b690-69f4dfd45171.png
new file mode 100644
index 00000000..78f2475b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f1e25f0-feea-4ea0-b690-69f4dfd45171.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f66517a-2c97-48ea-a92a-fb1ae94a5f1e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f66517a-2c97-48ea-a92a-fb1ae94a5f1e.png
new file mode 100644
index 00000000..c6e0294a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f66517a-2c97-48ea-a92a-fb1ae94a5f1e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f85d711-9900-47ad-a8b7-312381b5d153.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f85d711-9900-47ad-a8b7-312381b5d153.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/6f85d711-9900-47ad-a8b7-312381b5d153.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/71b0b590-c21a-4b97-9a91-3884d1a9ce57.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/71b0b590-c21a-4b97-9a91-3884d1a9ce57.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/71b0b590-c21a-4b97-9a91-3884d1a9ce57.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/722c4cab-8c9b-45aa-87b4-d2d171e23c57.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/722c4cab-8c9b-45aa-87b4-d2d171e23c57.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/722c4cab-8c9b-45aa-87b4-d2d171e23c57.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/72b85ed0-fa1d-43a9-a6e8-e275cf545633.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/72b85ed0-fa1d-43a9-a6e8-e275cf545633.png
new file mode 100644
index 00000000..d898c710
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/72b85ed0-fa1d-43a9-a6e8-e275cf545633.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/739b606b-d441-4cca-b3db-0f51978d1a62.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/739b606b-d441-4cca-b3db-0f51978d1a62.png
new file mode 100644
index 00000000..302fc654
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/739b606b-d441-4cca-b3db-0f51978d1a62.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/73fb4317-5188-4ad7-bd53-4c981974788e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/73fb4317-5188-4ad7-bd53-4c981974788e.png
new file mode 100644
index 00000000..cae5bd80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/73fb4317-5188-4ad7-bd53-4c981974788e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7421eba6-f3ad-4e05-8151-647951036419.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7421eba6-f3ad-4e05-8151-647951036419.png
new file mode 100644
index 00000000..29fc1c67
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7421eba6-f3ad-4e05-8151-647951036419.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74294e6f-18cf-4fe3-9c4b-befd244b225b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74294e6f-18cf-4fe3-9c4b-befd244b225b.png
new file mode 100644
index 00000000..f0a6e979
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74294e6f-18cf-4fe3-9c4b-befd244b225b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/748f92be-aee2-447d-99f6-90bd57bc6cfb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/748f92be-aee2-447d-99f6-90bd57bc6cfb.png
new file mode 100644
index 00000000..44063270
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/748f92be-aee2-447d-99f6-90bd57bc6cfb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74cd014c-db87-4c48-a462-2b94e7b93a5c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74cd014c-db87-4c48-a462-2b94e7b93a5c.png
new file mode 100644
index 00000000..f28fde5d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74cd014c-db87-4c48-a462-2b94e7b93a5c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74d5d212-9b8c-4585-a314-454972d10601.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74d5d212-9b8c-4585-a314-454972d10601.png
new file mode 100644
index 00000000..2a55647f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/74d5d212-9b8c-4585-a314-454972d10601.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7519efe9-9038-4cb5-8b3f-a44b2dba9c9b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7519efe9-9038-4cb5-8b3f-a44b2dba9c9b.png
new file mode 100644
index 00000000..6e9b5dd0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7519efe9-9038-4cb5-8b3f-a44b2dba9c9b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7526f902-17e6-4a57-97ac-5220ec3e548d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7526f902-17e6-4a57-97ac-5220ec3e548d.png
new file mode 100644
index 00000000..f0a6e979
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7526f902-17e6-4a57-97ac-5220ec3e548d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75992912-0adb-4bc8-8e48-63a96e6dec14.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75992912-0adb-4bc8-8e48-63a96e6dec14.png
new file mode 100644
index 00000000..3bd80bda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75992912-0adb-4bc8-8e48-63a96e6dec14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75b7f6c8-70f4-42dd-858d-70dde8dfe491.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75b7f6c8-70f4-42dd-858d-70dde8dfe491.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75b7f6c8-70f4-42dd-858d-70dde8dfe491.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75c36c61-a437-4dd5-9d3b-42d5a70ee93b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75c36c61-a437-4dd5-9d3b-42d5a70ee93b.png
new file mode 100644
index 00000000..f5cc04bf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75c36c61-a437-4dd5-9d3b-42d5a70ee93b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75cd4f0f-ba3e-4a2d-b1f9-6e819e8b8336.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75cd4f0f-ba3e-4a2d-b1f9-6e819e8b8336.png
new file mode 100644
index 00000000..d3a79c72
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/75cd4f0f-ba3e-4a2d-b1f9-6e819e8b8336.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/765c42de-ae58-49ad-a369-41bbc31dd759.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/765c42de-ae58-49ad-a369-41bbc31dd759.png
new file mode 100644
index 00000000..e81b1197
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/765c42de-ae58-49ad-a369-41bbc31dd759.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/766a1f45-c58c-455f-9f73-80d44ade283f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/766a1f45-c58c-455f-9f73-80d44ade283f.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/766a1f45-c58c-455f-9f73-80d44ade283f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/76b2ce9c-02ba-48f5-ab5a-1368c500918c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/76b2ce9c-02ba-48f5-ab5a-1368c500918c.png
new file mode 100644
index 00000000..f6e6c0dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/76b2ce9c-02ba-48f5-ab5a-1368c500918c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/771b7204-1635-4c70-b8d9-ea3d2e097fb6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/771b7204-1635-4c70-b8d9-ea3d2e097fb6.png
new file mode 100644
index 00000000..775382f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/771b7204-1635-4c70-b8d9-ea3d2e097fb6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/77e9b020-7613-418c-8b05-88c279662e17.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/77e9b020-7613-418c-8b05-88c279662e17.png
new file mode 100644
index 00000000..8575cfd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/77e9b020-7613-418c-8b05-88c279662e17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/781fbd22-771e-4aab-ae43-36cb517b8b74.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/781fbd22-771e-4aab-ae43-36cb517b8b74.png
new file mode 100644
index 00000000..1d0d7b99
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/781fbd22-771e-4aab-ae43-36cb517b8b74.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/78734e39-e45f-4627-86d6-c522e000c1ae.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/78734e39-e45f-4627-86d6-c522e000c1ae.png
new file mode 100644
index 00000000..3844c3fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/78734e39-e45f-4627-86d6-c522e000c1ae.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/796befd5-1cda-45c9-a379-ec4f6cba6e68.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/796befd5-1cda-45c9-a379-ec4f6cba6e68.png
new file mode 100644
index 00000000..62c9a0c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/796befd5-1cda-45c9-a379-ec4f6cba6e68.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/799afc48-e234-444c-9fd3-d0fddf7cef2d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/799afc48-e234-444c-9fd3-d0fddf7cef2d.png
new file mode 100644
index 00000000..80d470ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/799afc48-e234-444c-9fd3-d0fddf7cef2d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/79d3bc23-0685-487a-bf6b-958b479d6c8c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/79d3bc23-0685-487a-bf6b-958b479d6c8c.png
new file mode 100644
index 00000000..88099d18
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/79d3bc23-0685-487a-bf6b-958b479d6c8c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/79ed7a01-bf4f-447a-b3a6-adc736e08ec7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/79ed7a01-bf4f-447a-b3a6-adc736e08ec7.png
new file mode 100644
index 00000000..8fcf4c58
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/79ed7a01-bf4f-447a-b3a6-adc736e08ec7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7a42e349-bf47-41c9-a4e6-7295534d7473.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7a42e349-bf47-41c9-a4e6-7295534d7473.png
new file mode 100644
index 00000000..0d7c2078
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7a42e349-bf47-41c9-a4e6-7295534d7473.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7a5aea0c-8589-449e-aff9-3de1ef89f109.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7a5aea0c-8589-449e-aff9-3de1ef89f109.png
new file mode 100644
index 00000000..fe4648a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7a5aea0c-8589-449e-aff9-3de1ef89f109.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7abdf4a0-5254-4785-9a28-55793af3f6e0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7abdf4a0-5254-4785-9a28-55793af3f6e0.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7abdf4a0-5254-4785-9a28-55793af3f6e0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ad200a5-9543-47ee-bb7a-8571aee7b506.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ad200a5-9543-47ee-bb7a-8571aee7b506.png
new file mode 100644
index 00000000..b398c107
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ad200a5-9543-47ee-bb7a-8571aee7b506.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7aff44fc-ed83-4b1e-ba16-fc5457ef9b7d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7aff44fc-ed83-4b1e-ba16-fc5457ef9b7d.png
new file mode 100644
index 00000000..790557d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7aff44fc-ed83-4b1e-ba16-fc5457ef9b7d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ba5e7cb-5efd-46fd-8c67-29b6b1be106a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ba5e7cb-5efd-46fd-8c67-29b6b1be106a.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ba5e7cb-5efd-46fd-8c67-29b6b1be106a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7de9a941-8801-4363-ac4e-f9ae0c13a716.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7de9a941-8801-4363-ac4e-f9ae0c13a716.png
new file mode 100644
index 00000000..c3b22d07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7de9a941-8801-4363-ac4e-f9ae0c13a716.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e11a466-e9a2-4233-868f-36393c249afe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e11a466-e9a2-4233-868f-36393c249afe.png
new file mode 100644
index 00000000..8247e938
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e11a466-e9a2-4233-868f-36393c249afe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e4c2e2a-1fe8-47fe-ba23-096cf093cdc4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e4c2e2a-1fe8-47fe-ba23-096cf093cdc4.png
new file mode 100644
index 00000000..44eba889
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e4c2e2a-1fe8-47fe-ba23-096cf093cdc4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e7c4e03-a427-4d11-a400-68543655d15e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e7c4e03-a427-4d11-a400-68543655d15e.png
new file mode 100644
index 00000000..cb929716
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7e7c4e03-a427-4d11-a400-68543655d15e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ed63f5f-fabf-417c-b75d-966cfe502087.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ed63f5f-fabf-417c-b75d-966cfe502087.png
new file mode 100644
index 00000000..41e85038
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7ed63f5f-fabf-417c-b75d-966cfe502087.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f22913b-2db2-4bf3-9f58-65d6415f32ef.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f22913b-2db2-4bf3-9f58-65d6415f32ef.png
new file mode 100644
index 00000000..6ac4bb95
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f22913b-2db2-4bf3-9f58-65d6415f32ef.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f39510e-d498-4eeb-9df9-dd337b943381.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f39510e-d498-4eeb-9df9-dd337b943381.png
new file mode 100644
index 00000000..02acb5ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f39510e-d498-4eeb-9df9-dd337b943381.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f4f3094-62fc-4b94-878a-3627b1f6e078.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f4f3094-62fc-4b94-878a-3627b1f6e078.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f4f3094-62fc-4b94-878a-3627b1f6e078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f57c532-4859-4c27-be61-2e5f592489e9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f57c532-4859-4c27-be61-2e5f592489e9.png
new file mode 100644
index 00000000..f5300e9f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f57c532-4859-4c27-be61-2e5f592489e9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f6407d1-42b8-4442-80e9-f09b2e884040.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f6407d1-42b8-4442-80e9-f09b2e884040.png
new file mode 100644
index 00000000..10d85265
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7f6407d1-42b8-4442-80e9-f09b2e884040.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7fe07d7c-0ce0-4e6a-b591-38154d096708.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7fe07d7c-0ce0-4e6a-b591-38154d096708.png
new file mode 100644
index 00000000..366550de
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/7fe07d7c-0ce0-4e6a-b591-38154d096708.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/804ae1b1-b239-4c98-81c4-ad87aac36c23.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/804ae1b1-b239-4c98-81c4-ad87aac36c23.png
new file mode 100644
index 00000000..3f0d6405
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/804ae1b1-b239-4c98-81c4-ad87aac36c23.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/80a2e944-a5c1-41ff-9496-8f480a4c56fd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/80a2e944-a5c1-41ff-9496-8f480a4c56fd.png
new file mode 100644
index 00000000..10d85265
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/80a2e944-a5c1-41ff-9496-8f480a4c56fd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/80b962fa-2b54-4df4-bc58-0183d150ca2f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/80b962fa-2b54-4df4-bc58-0183d150ca2f.png
new file mode 100644
index 00000000..a70a28cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/80b962fa-2b54-4df4-bc58-0183d150ca2f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/81894e55-9002-43ab-a57b-8068d1a6953f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/81894e55-9002-43ab-a57b-8068d1a6953f.png
new file mode 100644
index 00000000..adc54184
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/81894e55-9002-43ab-a57b-8068d1a6953f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/818fb5dd-6d77-4129-a7e1-455e20dfbbbc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/818fb5dd-6d77-4129-a7e1-455e20dfbbbc.png
new file mode 100644
index 00000000..cd600eca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/818fb5dd-6d77-4129-a7e1-455e20dfbbbc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/81e47382-03c1-43c5-b0c8-04f333c3a518.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/81e47382-03c1-43c5-b0c8-04f333c3a518.png
new file mode 100644
index 00000000..92fe1c50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/81e47382-03c1-43c5-b0c8-04f333c3a518.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8214eee0-6a22-4d28-9090-f3a4e9cc71f9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8214eee0-6a22-4d28-9090-f3a4e9cc71f9.png
new file mode 100644
index 00000000..21bb6e06
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8214eee0-6a22-4d28-9090-f3a4e9cc71f9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8232779e-e0ae-4bc6-bf06-a8c6b7cae174.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8232779e-e0ae-4bc6-bf06-a8c6b7cae174.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8232779e-e0ae-4bc6-bf06-a8c6b7cae174.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8298038a-6f99-42d3-af60-9278249d5b15.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8298038a-6f99-42d3-af60-9278249d5b15.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8298038a-6f99-42d3-af60-9278249d5b15.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/82e73ea2-0447-4e96-8413-8f0e4e28c603.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/82e73ea2-0447-4e96-8413-8f0e4e28c603.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/82e73ea2-0447-4e96-8413-8f0e4e28c603.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8352e643-7590-42e7-a342-dd8556ff8ca6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8352e643-7590-42e7-a342-dd8556ff8ca6.png
new file mode 100644
index 00000000..dd3f84d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8352e643-7590-42e7-a342-dd8556ff8ca6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/838da61f-2b69-45c6-a18c-f405970a8071.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/838da61f-2b69-45c6-a18c-f405970a8071.png
new file mode 100644
index 00000000..a3c36a85
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/838da61f-2b69-45c6-a18c-f405970a8071.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/84ce23d1-91dd-4b99-ade2-f6702fb55e1c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/84ce23d1-91dd-4b99-ade2-f6702fb55e1c.png
new file mode 100644
index 00000000..4b24bd38
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/84ce23d1-91dd-4b99-ade2-f6702fb55e1c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8558460d-fdb9-4899-b674-dced43c22791.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8558460d-fdb9-4899-b674-dced43c22791.png
new file mode 100644
index 00000000..9a60ef54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8558460d-fdb9-4899-b674-dced43c22791.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/85eb5935-3a73-46b5-8640-2cfd910dc860.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/85eb5935-3a73-46b5-8640-2cfd910dc860.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/85eb5935-3a73-46b5-8640-2cfd910dc860.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8678f5bc-f53e-4588-955b-c1f3ba3d1763.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8678f5bc-f53e-4588-955b-c1f3ba3d1763.png
new file mode 100644
index 00000000..b6156186
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8678f5bc-f53e-4588-955b-c1f3ba3d1763.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86a2f626-a0c6-4686-b066-44e96bdb0c88.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86a2f626-a0c6-4686-b066-44e96bdb0c88.png
new file mode 100644
index 00000000..239074b6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86a2f626-a0c6-4686-b066-44e96bdb0c88.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86aecac3-d041-4699-8b22-138ea9800f42.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86aecac3-d041-4699-8b22-138ea9800f42.png
new file mode 100644
index 00000000..727344f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86aecac3-d041-4699-8b22-138ea9800f42.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86b248b3-11b2-4793-8b28-8b963592ce77.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86b248b3-11b2-4793-8b28-8b963592ce77.png
new file mode 100644
index 00000000..f56d47ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86b248b3-11b2-4793-8b28-8b963592ce77.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86c57502-6afc-49c1-9c87-a2600c9e32bd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86c57502-6afc-49c1-9c87-a2600c9e32bd.png
new file mode 100644
index 00000000..f4b1004e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86c57502-6afc-49c1-9c87-a2600c9e32bd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86f0f5f7-3fb9-421f-b148-786d107e2989.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86f0f5f7-3fb9-421f-b148-786d107e2989.png
new file mode 100644
index 00000000..373cb338
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/86f0f5f7-3fb9-421f-b148-786d107e2989.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/870d2425-20f7-489c-83d2-51043b4b3253.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/870d2425-20f7-489c-83d2-51043b4b3253.png
new file mode 100644
index 00000000..cae5bd80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/870d2425-20f7-489c-83d2-51043b4b3253.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87369a1d-a068-4786-a32f-554506aee758.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87369a1d-a068-4786-a32f-554506aee758.png
new file mode 100644
index 00000000..597176fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87369a1d-a068-4786-a32f-554506aee758.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87783c42-eb05-4a41-aecf-ab7bdfa56cb5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87783c42-eb05-4a41-aecf-ab7bdfa56cb5.png
new file mode 100644
index 00000000..e58824ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87783c42-eb05-4a41-aecf-ab7bdfa56cb5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87eef6f8-65e0-47ea-ae13-ab5c09919322.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87eef6f8-65e0-47ea-ae13-ab5c09919322.png
new file mode 100644
index 00000000..248ed087
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/87eef6f8-65e0-47ea-ae13-ab5c09919322.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/884773a0-e60d-4404-9177-6fe069a63c92.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/884773a0-e60d-4404-9177-6fe069a63c92.png
new file mode 100644
index 00000000..71afd20d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/884773a0-e60d-4404-9177-6fe069a63c92.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/885389fb-9c2a-4a41-9600-270f46c23850.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/885389fb-9c2a-4a41-9600-270f46c23850.png
new file mode 100644
index 00000000..f77e6d82
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/885389fb-9c2a-4a41-9600-270f46c23850.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/885a1299-c4f7-4f28-8b13-22b3d7961f2e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/885a1299-c4f7-4f28-8b13-22b3d7961f2e.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/885a1299-c4f7-4f28-8b13-22b3d7961f2e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/88d015f5-ece1-4191-be49-fbb79804a09e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/88d015f5-ece1-4191-be49-fbb79804a09e.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/88d015f5-ece1-4191-be49-fbb79804a09e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a16d682-8033-4b27-afc0-e43e06f9a95b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a16d682-8033-4b27-afc0-e43e06f9a95b.png
new file mode 100644
index 00000000..cf9ee43f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a16d682-8033-4b27-afc0-e43e06f9a95b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a4726c7-f212-4379-bce9-584c645b7da6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a4726c7-f212-4379-bce9-584c645b7da6.png
new file mode 100644
index 00000000..54618d21
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a4726c7-f212-4379-bce9-584c645b7da6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a76ce9f-e0dc-4ea8-908e-0e1f0b4fe08f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a76ce9f-e0dc-4ea8-908e-0e1f0b4fe08f.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8a76ce9f-e0dc-4ea8-908e-0e1f0b4fe08f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bb0d75d-b140-4443-a8e8-e20254ac0fde.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bb0d75d-b140-4443-a8e8-e20254ac0fde.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bb0d75d-b140-4443-a8e8-e20254ac0fde.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bb4ef33-679c-4959-8c0c-fd81684142d2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bb4ef33-679c-4959-8c0c-fd81684142d2.png
new file mode 100644
index 00000000..81c3fd5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bb4ef33-679c-4959-8c0c-fd81684142d2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bc8c170-5374-4326-b71f-8883e9b48765.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bc8c170-5374-4326-b71f-8883e9b48765.png
new file mode 100644
index 00000000..9a60ef54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bc8c170-5374-4326-b71f-8883e9b48765.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bd6976c-1694-407c-be6f-fb374967fd10.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bd6976c-1694-407c-be6f-fb374967fd10.png
new file mode 100644
index 00000000..635ee0b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8bd6976c-1694-407c-be6f-fb374967fd10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8c1fa8e3-0378-4854-b59b-7be2a045d885.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8c1fa8e3-0378-4854-b59b-7be2a045d885.png
new file mode 100644
index 00000000..b398c107
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8c1fa8e3-0378-4854-b59b-7be2a045d885.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8c4472bf-e13e-4bd0-993f-f61692d3fc5a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8c4472bf-e13e-4bd0-993f-f61692d3fc5a.png
new file mode 100644
index 00000000..aae2b71b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8c4472bf-e13e-4bd0-993f-f61692d3fc5a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8cd0cc05-b03f-444a-8fff-faf4386945d7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8cd0cc05-b03f-444a-8fff-faf4386945d7.png
new file mode 100644
index 00000000..02b1b055
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8cd0cc05-b03f-444a-8fff-faf4386945d7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8cd84028-bd5a-49ba-a7b1-25e560c54242.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8cd84028-bd5a-49ba-a7b1-25e560c54242.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8cd84028-bd5a-49ba-a7b1-25e560c54242.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d1ed5f6-6ca7-4214-bf66-4e22db2c1c87.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d1ed5f6-6ca7-4214-bf66-4e22db2c1c87.png
new file mode 100644
index 00000000..09ebd857
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d1ed5f6-6ca7-4214-bf66-4e22db2c1c87.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d358d29-40fc-4658-99ec-8dce07ffed4e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d358d29-40fc-4658-99ec-8dce07ffed4e.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d358d29-40fc-4658-99ec-8dce07ffed4e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d7f05b0-cdb2-4df3-9fe9-8e54a1089fbb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d7f05b0-cdb2-4df3-9fe9-8e54a1089fbb.png
new file mode 100644
index 00000000..89a61d4e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8d7f05b0-cdb2-4df3-9fe9-8e54a1089fbb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8ea53b48-98b0-4abc-ab06-ee1020fbbb7c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8ea53b48-98b0-4abc-ab06-ee1020fbbb7c.png
new file mode 100644
index 00000000..b074dd8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8ea53b48-98b0-4abc-ab06-ee1020fbbb7c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8eac4a91-cf13-4f86-96b0-a71e7c450fa5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8eac4a91-cf13-4f86-96b0-a71e7c450fa5.png
new file mode 100644
index 00000000..816b822d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8eac4a91-cf13-4f86-96b0-a71e7c450fa5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8f047120-7950-4ed1-955b-038fca78e39d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8f047120-7950-4ed1-955b-038fca78e39d.png
new file mode 100644
index 00000000..f82dd416
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8f047120-7950-4ed1-955b-038fca78e39d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8f90888c-ac0a-43e6-9142-e8c6d23f1f3e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8f90888c-ac0a-43e6-9142-e8c6d23f1f3e.png
new file mode 100644
index 00000000..9fe1e18e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/8f90888c-ac0a-43e6-9142-e8c6d23f1f3e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9004a396-a086-42e6-8cca-5a2212f0fbef.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9004a396-a086-42e6-8cca-5a2212f0fbef.png
new file mode 100644
index 00000000..f0a6e979
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9004a396-a086-42e6-8cca-5a2212f0fbef.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9016ebe6-af79-4075-8796-968e4f4b532f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9016ebe6-af79-4075-8796-968e4f4b532f.png
new file mode 100644
index 00000000..7b575d0c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9016ebe6-af79-4075-8796-968e4f4b532f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/903a7361-1e91-4fe0-bb13-768777903a48.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/903a7361-1e91-4fe0-bb13-768777903a48.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/903a7361-1e91-4fe0-bb13-768777903a48.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/90700324-178a-4cbd-b9e9-f900eb70d5b8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/90700324-178a-4cbd-b9e9-f900eb70d5b8.png
new file mode 100644
index 00000000..cd600eca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/90700324-178a-4cbd-b9e9-f900eb70d5b8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/91015c2c-0142-4171-a1a8-512bf53077cd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/91015c2c-0142-4171-a1a8-512bf53077cd.png
new file mode 100644
index 00000000..1d173a94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/91015c2c-0142-4171-a1a8-512bf53077cd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/91b92f8b-de9b-42fc-866c-4aef6f620f33.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/91b92f8b-de9b-42fc-866c-4aef6f620f33.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/91b92f8b-de9b-42fc-866c-4aef6f620f33.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/92322e5f-a6ae-42d2-b3e4-6d4820b5dde8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/92322e5f-a6ae-42d2-b3e4-6d4820b5dde8.png
new file mode 100644
index 00000000..dffb2fd6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/92322e5f-a6ae-42d2-b3e4-6d4820b5dde8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/931d62e5-10ae-41ee-bac0-841f7c7237e0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/931d62e5-10ae-41ee-bac0-841f7c7237e0.png
new file mode 100644
index 00000000..f77e6d82
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/931d62e5-10ae-41ee-bac0-841f7c7237e0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/93324229-a8df-4cb6-aead-090e6ebb7a0a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/93324229-a8df-4cb6-aead-090e6ebb7a0a.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/93324229-a8df-4cb6-aead-090e6ebb7a0a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/937b896f-15eb-4ed4-980a-6e9baf07dfd0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/937b896f-15eb-4ed4-980a-6e9baf07dfd0.png
new file mode 100644
index 00000000..d5e20ece
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/937b896f-15eb-4ed4-980a-6e9baf07dfd0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9385cadf-442c-46da-b498-a613372648fc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9385cadf-442c-46da-b498-a613372648fc.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9385cadf-442c-46da-b498-a613372648fc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/94347b9c-5fca-4272-9de0-c6c802eb7525.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/94347b9c-5fca-4272-9de0-c6c802eb7525.png
new file mode 100644
index 00000000..0aa3f6a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/94347b9c-5fca-4272-9de0-c6c802eb7525.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/94499413-45f0-44d2-b0cc-33930ec3a749.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/94499413-45f0-44d2-b0cc-33930ec3a749.png
new file mode 100644
index 00000000..85782dbb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/94499413-45f0-44d2-b0cc-33930ec3a749.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9460948f-613a-4058-b2b7-674db9b719bc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9460948f-613a-4058-b2b7-674db9b719bc.png
new file mode 100644
index 00000000..55d4d493
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9460948f-613a-4058-b2b7-674db9b719bc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/95026996-9724-475a-aa20-33d2cee09967.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/95026996-9724-475a-aa20-33d2cee09967.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/95026996-9724-475a-aa20-33d2cee09967.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/954fc01c-6c18-4ded-b14d-e1f8ccf54f3d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/954fc01c-6c18-4ded-b14d-e1f8ccf54f3d.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/954fc01c-6c18-4ded-b14d-e1f8ccf54f3d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/95f79f8e-f6c3-43d5-8d5a-74076154dd03.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/95f79f8e-f6c3-43d5-8d5a-74076154dd03.png
new file mode 100644
index 00000000..78f2475b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/95f79f8e-f6c3-43d5-8d5a-74076154dd03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9670d018-0d08-4017-a549-49379d263198.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9670d018-0d08-4017-a549-49379d263198.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9670d018-0d08-4017-a549-49379d263198.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/96e5a664-2281-469b-bc8c-3a93da8a4d8a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/96e5a664-2281-469b-bc8c-3a93da8a4d8a.png
new file mode 100644
index 00000000..09ebd857
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/96e5a664-2281-469b-bc8c-3a93da8a4d8a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/976761a6-74d4-41d0-b705-4c21d37fdccd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/976761a6-74d4-41d0-b705-4c21d37fdccd.png
new file mode 100644
index 00000000..c7f34249
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/976761a6-74d4-41d0-b705-4c21d37fdccd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/984d186b-b6d4-46c5-9a55-87f19defde08.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/984d186b-b6d4-46c5-9a55-87f19defde08.png
new file mode 100644
index 00000000..cc438e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/984d186b-b6d4-46c5-9a55-87f19defde08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/98a33218-adb9-4ac6-8f52-388c828f6230.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/98a33218-adb9-4ac6-8f52-388c828f6230.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/98a33218-adb9-4ac6-8f52-388c828f6230.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/99137e58-3e34-4154-98fc-82accae4a3b3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/99137e58-3e34-4154-98fc-82accae4a3b3.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/99137e58-3e34-4154-98fc-82accae4a3b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/998590ab-cea5-4355-81f0-d903fca5688b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/998590ab-cea5-4355-81f0-d903fca5688b.png
new file mode 100644
index 00000000..d7c30094
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/998590ab-cea5-4355-81f0-d903fca5688b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9996d31b-a601-4a11-864a-3e1b2a258d92.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9996d31b-a601-4a11-864a-3e1b2a258d92.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9996d31b-a601-4a11-864a-3e1b2a258d92.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/99d7e67e-ddd1-4966-b2e5-3196b2bc88c0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/99d7e67e-ddd1-4966-b2e5-3196b2bc88c0.png
new file mode 100644
index 00000000..579f8d70
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/99d7e67e-ddd1-4966-b2e5-3196b2bc88c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a13cd53-4697-4c04-a7a0-bcb22352c8a3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a13cd53-4697-4c04-a7a0-bcb22352c8a3.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a13cd53-4697-4c04-a7a0-bcb22352c8a3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a665997-81e6-4ef5-8350-1f65d5f05d82.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a665997-81e6-4ef5-8350-1f65d5f05d82.png
new file mode 100644
index 00000000..aac5f4b7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a665997-81e6-4ef5-8350-1f65d5f05d82.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a6aa57a-7f18-47ab-aa8e-282e95c99006.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a6aa57a-7f18-47ab-aa8e-282e95c99006.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9a6aa57a-7f18-47ab-aa8e-282e95c99006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9b62f32c-e348-45ba-80e5-445d1dbff951.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9b62f32c-e348-45ba-80e5-445d1dbff951.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9b62f32c-e348-45ba-80e5-445d1dbff951.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9c3e7306-ddd7-46e6-884e-fc2f610ae3d2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9c3e7306-ddd7-46e6-884e-fc2f610ae3d2.png
new file mode 100644
index 00000000..743576fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9c3e7306-ddd7-46e6-884e-fc2f610ae3d2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9c594aa5-17da-4a5a-b6fb-a92ab6a67f26.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9c594aa5-17da-4a5a-b6fb-a92ab6a67f26.png
new file mode 100644
index 00000000..8fe7579c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9c594aa5-17da-4a5a-b6fb-a92ab6a67f26.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9cf0ec88-a60c-4bf2-af61-49661212585c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9cf0ec88-a60c-4bf2-af61-49661212585c.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9cf0ec88-a60c-4bf2-af61-49661212585c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d2ce4ee-18d2-4f64-8eba-953545074d22.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d2ce4ee-18d2-4f64-8eba-953545074d22.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d2ce4ee-18d2-4f64-8eba-953545074d22.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d597f2d-4624-40a2-ae28-031223f68120.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d597f2d-4624-40a2-ae28-031223f68120.png
new file mode 100644
index 00000000..ab4b7d50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d597f2d-4624-40a2-ae28-031223f68120.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d654b6b-3a0c-4b16-9937-2e743d5f069c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d654b6b-3a0c-4b16-9937-2e743d5f069c.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9d654b6b-3a0c-4b16-9937-2e743d5f069c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9dde3f06-abe2-4303-a505-a94eb4017a07.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9dde3f06-abe2-4303-a505-a94eb4017a07.png
new file mode 100644
index 00000000..543e98c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9dde3f06-abe2-4303-a505-a94eb4017a07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9e1cd03c-9808-4d5d-a46b-660b2558504c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9e1cd03c-9808-4d5d-a46b-660b2558504c.png
new file mode 100644
index 00000000..d7c30094
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9e1cd03c-9808-4d5d-a46b-660b2558504c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9e8015d1-9f31-497c-8693-c1c31c86a99f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9e8015d1-9f31-497c-8693-c1c31c86a99f.png
new file mode 100644
index 00000000..8575cfd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9e8015d1-9f31-497c-8693-c1c31c86a99f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9eddfb58-cbd7-4956-9c7f-ab8cee401f2f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9eddfb58-cbd7-4956-9c7f-ab8cee401f2f.png
new file mode 100644
index 00000000..47814847
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9eddfb58-cbd7-4956-9c7f-ab8cee401f2f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9f561532-510a-4ed1-a29a-897214fef478.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9f561532-510a-4ed1-a29a-897214fef478.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9f561532-510a-4ed1-a29a-897214fef478.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9f81568a-aa91-42da-9445-355a7279ccbe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9f81568a-aa91-42da-9445-355a7279ccbe.png
new file mode 100644
index 00000000..46302820
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9f81568a-aa91-42da-9445-355a7279ccbe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9fadf51c-0b77-4e48-908e-5fcc1eb85df1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9fadf51c-0b77-4e48-908e-5fcc1eb85df1.png
new file mode 100644
index 00000000..47814847
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9fadf51c-0b77-4e48-908e-5fcc1eb85df1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9fdc6124-c3ae-49ba-bcdc-20e603d86f61.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9fdc6124-c3ae-49ba-bcdc-20e603d86f61.png
new file mode 100644
index 00000000..d1325c70
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9fdc6124-c3ae-49ba-bcdc-20e603d86f61.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9ffe5aca-b37c-41cc-90d1-3fb1b6bf018c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9ffe5aca-b37c-41cc-90d1-3fb1b6bf018c.png
new file mode 100644
index 00000000..34fb45ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/9ffe5aca-b37c-41cc-90d1-3fb1b6bf018c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a0c23bd8-6c63-4d2f-82f1-955b158a6bd1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a0c23bd8-6c63-4d2f-82f1-955b158a6bd1.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a0c23bd8-6c63-4d2f-82f1-955b158a6bd1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a0e173fc-1a06-4682-9227-c946fcee34eb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a0e173fc-1a06-4682-9227-c946fcee34eb.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a0e173fc-1a06-4682-9227-c946fcee34eb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a132daf5-6eeb-42e1-b72d-ec98df43e1ad.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a132daf5-6eeb-42e1-b72d-ec98df43e1ad.png
new file mode 100644
index 00000000..f5300e9f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a132daf5-6eeb-42e1-b72d-ec98df43e1ad.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a2609108-50cd-476d-b757-fe14244827f8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a2609108-50cd-476d-b757-fe14244827f8.png
new file mode 100644
index 00000000..02c7243c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a2609108-50cd-476d-b757-fe14244827f8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a274afdc-2759-43bc-8fe0-c3516401b0ab.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a274afdc-2759-43bc-8fe0-c3516401b0ab.png
new file mode 100644
index 00000000..75d4db33
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a274afdc-2759-43bc-8fe0-c3516401b0ab.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a325ba73-ced0-470a-8615-5219bb5bbe1f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a325ba73-ced0-470a-8615-5219bb5bbe1f.png
new file mode 100644
index 00000000..1da934b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a325ba73-ced0-470a-8615-5219bb5bbe1f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a32ed07f-28bb-476b-847f-5093fde1a90a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a32ed07f-28bb-476b-847f-5093fde1a90a.png
new file mode 100644
index 00000000..f781ec7e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a32ed07f-28bb-476b-847f-5093fde1a90a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a353f3ca-1b7a-42e4-ade6-149f8bcef645.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a353f3ca-1b7a-42e4-ade6-149f8bcef645.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a353f3ca-1b7a-42e4-ade6-149f8bcef645.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3a92659-0f83-4f2d-9541-216b0c3a832f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3a92659-0f83-4f2d-9541-216b0c3a832f.png
new file mode 100644
index 00000000..2f5bcd26
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3a92659-0f83-4f2d-9541-216b0c3a832f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3cb353d-cb0d-417f-a91b-2c2cd50269cb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3cb353d-cb0d-417f-a91b-2c2cd50269cb.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3cb353d-cb0d-417f-a91b-2c2cd50269cb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3ffe590-934d-4652-9c3a-c1159b5bd84e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3ffe590-934d-4652-9c3a-c1159b5bd84e.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a3ffe590-934d-4652-9c3a-c1159b5bd84e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a47cf1ed-4e4c-4f4b-be13-640639749882.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a47cf1ed-4e4c-4f4b-be13-640639749882.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a47cf1ed-4e4c-4f4b-be13-640639749882.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4a417ee-95be-4bff-99ac-da7c59223a30.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4a417ee-95be-4bff-99ac-da7c59223a30.png
new file mode 100644
index 00000000..dee3745a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4a417ee-95be-4bff-99ac-da7c59223a30.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4d86187-9c2d-4292-bda6-f3945a84fb8a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4d86187-9c2d-4292-bda6-f3945a84fb8a.png
new file mode 100644
index 00000000..10d85265
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4d86187-9c2d-4292-bda6-f3945a84fb8a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4dd0e5f-d85f-478b-9faf-830f942b9204.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4dd0e5f-d85f-478b-9faf-830f942b9204.png
new file mode 100644
index 00000000..c71689b7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a4dd0e5f-d85f-478b-9faf-830f942b9204.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a5023b00-9574-48fc-ab63-1b47736c2954.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a5023b00-9574-48fc-ab63-1b47736c2954.png
new file mode 100644
index 00000000..d4c7e5ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a5023b00-9574-48fc-ab63-1b47736c2954.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a5b2e2a9-c381-46e8-b5a6-2e124ccca9dc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a5b2e2a9-c381-46e8-b5a6-2e124ccca9dc.png
new file mode 100644
index 00000000..d5e20ece
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a5b2e2a9-c381-46e8-b5a6-2e124ccca9dc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a60c652c-ff74-48bc-9e45-ce2ea8f42a7e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a60c652c-ff74-48bc-9e45-ce2ea8f42a7e.png
new file mode 100644
index 00000000..10f65df8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a60c652c-ff74-48bc-9e45-ce2ea8f42a7e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a620485a-362a-4a0a-b416-77d3c4b3604f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a620485a-362a-4a0a-b416-77d3c4b3604f.png
new file mode 100644
index 00000000..4deef374
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a620485a-362a-4a0a-b416-77d3c4b3604f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a65aa92d-ae65-4f76-a905-703888481d47.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a65aa92d-ae65-4f76-a905-703888481d47.png
new file mode 100644
index 00000000..4add8ed8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a65aa92d-ae65-4f76-a905-703888481d47.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a65ea6f1-8004-4f5d-9a15-8f1e261747ca.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a65ea6f1-8004-4f5d-9a15-8f1e261747ca.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a65ea6f1-8004-4f5d-9a15-8f1e261747ca.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a6785872-8a97-405f-a0e2-5a9bffd68764.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a6785872-8a97-405f-a0e2-5a9bffd68764.png
new file mode 100644
index 00000000..d7cf26d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a6785872-8a97-405f-a0e2-5a9bffd68764.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a69c2a9f-d4fb-413c-8047-bc6fc139a536.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a69c2a9f-d4fb-413c-8047-bc6fc139a536.png
new file mode 100644
index 00000000..504ba792
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a69c2a9f-d4fb-413c-8047-bc6fc139a536.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a72d7d87-f941-421f-91ca-4f53cabe1474.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a72d7d87-f941-421f-91ca-4f53cabe1474.png
new file mode 100644
index 00000000..eb05120e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a72d7d87-f941-421f-91ca-4f53cabe1474.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a735063f-a419-46f8-bd00-d06a0e7df3d0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a735063f-a419-46f8-bd00-d06a0e7df3d0.png
new file mode 100644
index 00000000..786af6e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a735063f-a419-46f8-bd00-d06a0e7df3d0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a745e41b-3e5d-45cb-a7b6-0ea1465bc424.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a745e41b-3e5d-45cb-a7b6-0ea1465bc424.png
new file mode 100644
index 00000000..deb28a69
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a745e41b-3e5d-45cb-a7b6-0ea1465bc424.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7a4e492-c505-4001-bd7c-48007efbf0f1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7a4e492-c505-4001-bd7c-48007efbf0f1.png
new file mode 100644
index 00000000..3aba291d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7a4e492-c505-4001-bd7c-48007efbf0f1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7da2ffa-7dad-4de4-b5ea-8923d5b6951c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7da2ffa-7dad-4de4-b5ea-8923d5b6951c.png
new file mode 100644
index 00000000..991d36e9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7da2ffa-7dad-4de4-b5ea-8923d5b6951c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7f1a41e-4291-4bec-87dd-fa6bc1d0c00b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7f1a41e-4291-4bec-87dd-fa6bc1d0c00b.png
new file mode 100644
index 00000000..3a88d956
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7f1a41e-4291-4bec-87dd-fa6bc1d0c00b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7fa1fc1-556f-40dd-af23-15f759a7dca7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7fa1fc1-556f-40dd-af23-15f759a7dca7.png
new file mode 100644
index 00000000..e96a5c13
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a7fa1fc1-556f-40dd-af23-15f759a7dca7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a825dccd-bd1e-4db2-b9da-a5319bfd992c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a825dccd-bd1e-4db2-b9da-a5319bfd992c.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a825dccd-bd1e-4db2-b9da-a5319bfd992c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a864b10a-01ce-4acf-aa4a-2fbc72a0441e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a864b10a-01ce-4acf-aa4a-2fbc72a0441e.png
new file mode 100644
index 00000000..78b0450c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a864b10a-01ce-4acf-aa4a-2fbc72a0441e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a8afb953-fc65-4a5c-b264-9eb11dd52860.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a8afb953-fc65-4a5c-b264-9eb11dd52860.png
new file mode 100644
index 00000000..cc438e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a8afb953-fc65-4a5c-b264-9eb11dd52860.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a8f748a6-3636-47c9-8118-a26d27fd687f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a8f748a6-3636-47c9-8118-a26d27fd687f.png
new file mode 100644
index 00000000..acab73a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a8f748a6-3636-47c9-8118-a26d27fd687f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a9ad52e5-2c92-4cbd-a981-b37f9382fadc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a9ad52e5-2c92-4cbd-a981-b37f9382fadc.png
new file mode 100644
index 00000000..9fa3bbbe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/a9ad52e5-2c92-4cbd-a981-b37f9382fadc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aa3bf363-a0c0-412e-b71d-735cb8b7e48c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aa3bf363-a0c0-412e-b71d-735cb8b7e48c.png
new file mode 100644
index 00000000..ec6fd73e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aa3bf363-a0c0-412e-b71d-735cb8b7e48c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aa46d3e5-b4a1-4780-8b9f-f095b87b18f5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aa46d3e5-b4a1-4780-8b9f-f095b87b18f5.png
new file mode 100644
index 00000000..9f639407
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aa46d3e5-b4a1-4780-8b9f-f095b87b18f5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aaf53641-2bb7-4441-a93c-e4599f57b944.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aaf53641-2bb7-4441-a93c-e4599f57b944.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/aaf53641-2bb7-4441-a93c-e4599f57b944.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ab57f770-1198-4573-a9ab-a4e9ba34bb85.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ab57f770-1198-4573-a9ab-a4e9ba34bb85.png
new file mode 100644
index 00000000..610818ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ab57f770-1198-4573-a9ab-a4e9ba34bb85.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ac05761a-910b-41a0-941d-192038b0ed57.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ac05761a-910b-41a0-941d-192038b0ed57.png
new file mode 100644
index 00000000..597176fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ac05761a-910b-41a0-941d-192038b0ed57.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ac5f4c12-536b-4664-933d-3722833fe8a3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ac5f4c12-536b-4664-933d-3722833fe8a3.png
new file mode 100644
index 00000000..743576fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ac5f4c12-536b-4664-933d-3722833fe8a3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ad5ca2f5-3b9b-4896-9752-5da6e27b1681.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ad5ca2f5-3b9b-4896-9752-5da6e27b1681.png
new file mode 100644
index 00000000..11825099
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ad5ca2f5-3b9b-4896-9752-5da6e27b1681.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ad6baf80-8d13-4f1d-9ba2-9a90a9cb8b4d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ad6baf80-8d13-4f1d-9ba2-9a90a9cb8b4d.png
new file mode 100644
index 00000000..775382f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ad6baf80-8d13-4f1d-9ba2-9a90a9cb8b4d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/adbe22c0-decf-4c78-803e-dbd84d4ef58b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/adbe22c0-decf-4c78-803e-dbd84d4ef58b.png
new file mode 100644
index 00000000..7bf8f0fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/adbe22c0-decf-4c78-803e-dbd84d4ef58b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ade55668-74fb-4aaa-b834-8f66ee022488.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ade55668-74fb-4aaa-b834-8f66ee022488.png
new file mode 100644
index 00000000..0efb97e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ade55668-74fb-4aaa-b834-8f66ee022488.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/adf16b20-81b8-4cf0-a203-699da2707fd4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/adf16b20-81b8-4cf0-a203-699da2707fd4.png
new file mode 100644
index 00000000..2476a858
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/adf16b20-81b8-4cf0-a203-699da2707fd4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae0a1864-b5e4-4f9b-809c-a13f3479b160.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae0a1864-b5e4-4f9b-809c-a13f3479b160.png
new file mode 100644
index 00000000..3f3c18f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae0a1864-b5e4-4f9b-809c-a13f3479b160.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae40a0d2-2055-47a7-a692-1646b9fcb70b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae40a0d2-2055-47a7-a692-1646b9fcb70b.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae40a0d2-2055-47a7-a692-1646b9fcb70b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae581489-e5b3-4cc6-920a-9b0532244e89.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae581489-e5b3-4cc6-920a-9b0532244e89.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ae581489-e5b3-4cc6-920a-9b0532244e89.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/af4e2919-4e2b-47f7-9060-12e4f5b1b242.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/af4e2919-4e2b-47f7-9060-12e4f5b1b242.png
new file mode 100644
index 00000000..298c00d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/af4e2919-4e2b-47f7-9060-12e4f5b1b242.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b0dd8d2d-ae04-40ba-9ded-b799bc692200.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b0dd8d2d-ae04-40ba-9ded-b799bc692200.png
new file mode 100644
index 00000000..f5300e9f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b0dd8d2d-ae04-40ba-9ded-b799bc692200.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b10b1009-342f-471c-b58c-0cb416808e2d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b10b1009-342f-471c-b58c-0cb416808e2d.png
new file mode 100644
index 00000000..f77e6d82
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b10b1009-342f-471c-b58c-0cb416808e2d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b136ebce-8a63-4852-8159-2f7b31fd042a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b136ebce-8a63-4852-8159-2f7b31fd042a.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b136ebce-8a63-4852-8159-2f7b31fd042a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b1ac6973-a8bf-4f9c-8feb-7facf876d0a8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b1ac6973-a8bf-4f9c-8feb-7facf876d0a8.png
new file mode 100644
index 00000000..232b1410
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b1ac6973-a8bf-4f9c-8feb-7facf876d0a8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b27c91a5-1554-4f38-b1eb-9e2031070cd6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b27c91a5-1554-4f38-b1eb-9e2031070cd6.png
new file mode 100644
index 00000000..3f3c18f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b27c91a5-1554-4f38-b1eb-9e2031070cd6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2a8d466-40bf-4d73-81cc-960e38a29ec9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2a8d466-40bf-4d73-81cc-960e38a29ec9.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2a8d466-40bf-4d73-81cc-960e38a29ec9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2e015e7-da70-4cb6-8e03-34c28cbc61ca.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2e015e7-da70-4cb6-8e03-34c28cbc61ca.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2e015e7-da70-4cb6-8e03-34c28cbc61ca.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2ee78f7-c579-42b4-ae9d-efa16a24c666.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2ee78f7-c579-42b4-ae9d-efa16a24c666.png
new file mode 100644
index 00000000..cc438e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b2ee78f7-c579-42b4-ae9d-efa16a24c666.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b349dd74-b13d-4982-9bde-3afb2ed36c8a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b349dd74-b13d-4982-9bde-3afb2ed36c8a.png
new file mode 100644
index 00000000..635ee0b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b349dd74-b13d-4982-9bde-3afb2ed36c8a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b38976ce-d78e-46c3-a7e4-c7959e74b19e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b38976ce-d78e-46c3-a7e4-c7959e74b19e.png
new file mode 100644
index 00000000..a719bed4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b38976ce-d78e-46c3-a7e4-c7959e74b19e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b3e00903-8a06-4a64-a492-1cd538d442db.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b3e00903-8a06-4a64-a492-1cd538d442db.png
new file mode 100644
index 00000000..ff98c68a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b3e00903-8a06-4a64-a492-1cd538d442db.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b3f712f9-4eb4-4484-94d3-2143b9f88b95.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b3f712f9-4eb4-4484-94d3-2143b9f88b95.png
new file mode 100644
index 00000000..25c2f0d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b3f712f9-4eb4-4484-94d3-2143b9f88b95.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b400ce06-0bac-4d66-9252-198f43bc3624.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b400ce06-0bac-4d66-9252-198f43bc3624.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b400ce06-0bac-4d66-9252-198f43bc3624.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b41f82a1-d32d-4c12-ac8d-a07e86ef0f59.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b41f82a1-d32d-4c12-ac8d-a07e86ef0f59.png
new file mode 100644
index 00000000..35563448
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b41f82a1-d32d-4c12-ac8d-a07e86ef0f59.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b4401cb9-039f-41b0-8fc8-1e763d8a62ea.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b4401cb9-039f-41b0-8fc8-1e763d8a62ea.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b4401cb9-039f-41b0-8fc8-1e763d8a62ea.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b450d276-d3ef-408a-9a7d-aa3177d40e9c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b450d276-d3ef-408a-9a7d-aa3177d40e9c.png
new file mode 100644
index 00000000..cde57957
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b450d276-d3ef-408a-9a7d-aa3177d40e9c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b5e0037f-31d2-4c00-8393-6d2d52aa0789.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b5e0037f-31d2-4c00-8393-6d2d52aa0789.png
new file mode 100644
index 00000000..4ad40fd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b5e0037f-31d2-4c00-8393-6d2d52aa0789.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b6092aa7-ca75-4147-946e-c613c0a64be1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b6092aa7-ca75-4147-946e-c613c0a64be1.png
new file mode 100644
index 00000000..283d059a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b6092aa7-ca75-4147-946e-c613c0a64be1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b60bdd41-7a29-4263-aee4-4ea823293598.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b60bdd41-7a29-4263-aee4-4ea823293598.png
new file mode 100644
index 00000000..e0de1ff9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b60bdd41-7a29-4263-aee4-4ea823293598.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b61b56ff-e745-4c19-9920-8ad592f932a8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b61b56ff-e745-4c19-9920-8ad592f932a8.png
new file mode 100644
index 00000000..81c3fd5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b61b56ff-e745-4c19-9920-8ad592f932a8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b65b55d1-8a36-4c42-bdb5-aaccca4b888c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b65b55d1-8a36-4c42-bdb5-aaccca4b888c.png
new file mode 100644
index 00000000..3101255b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b65b55d1-8a36-4c42-bdb5-aaccca4b888c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b66a819c-dc38-44e0-a336-69e7b76ed4f0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b66a819c-dc38-44e0-a336-69e7b76ed4f0.png
new file mode 100644
index 00000000..6bd117c5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b66a819c-dc38-44e0-a336-69e7b76ed4f0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b66aaca9-0610-4d99-9051-e5cae694f41f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b66aaca9-0610-4d99-9051-e5cae694f41f.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b66aaca9-0610-4d99-9051-e5cae694f41f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b6b80ad2-1186-4cca-8391-cf256c231a44.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b6b80ad2-1186-4cca-8391-cf256c231a44.png
new file mode 100644
index 00000000..9039bf1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b6b80ad2-1186-4cca-8391-cf256c231a44.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b7ca263c-ad08-4ec5-beda-3687f8209093.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b7ca263c-ad08-4ec5-beda-3687f8209093.png
new file mode 100644
index 00000000..a93247a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b7ca263c-ad08-4ec5-beda-3687f8209093.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b7e0ca28-2e27-4adf-a9a0-a393e859a82e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b7e0ca28-2e27-4adf-a9a0-a393e859a82e.png
new file mode 100644
index 00000000..e9f999d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b7e0ca28-2e27-4adf-a9a0-a393e859a82e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b838f304-5607-4be2-b374-90474eb18833.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b838f304-5607-4be2-b374-90474eb18833.png
new file mode 100644
index 00000000..504ba792
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b838f304-5607-4be2-b374-90474eb18833.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b83f722d-0a81-46ed-ad74-81f2f7ffeddc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b83f722d-0a81-46ed-ad74-81f2f7ffeddc.png
new file mode 100644
index 00000000..720aa7c8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b83f722d-0a81-46ed-ad74-81f2f7ffeddc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b8806191-251d-459c-8f49-48631a660468.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b8806191-251d-459c-8f49-48631a660468.png
new file mode 100644
index 00000000..cae5bd80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b8806191-251d-459c-8f49-48631a660468.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b9534b37-d67c-4462-ac1e-ea5770cfe006.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b9534b37-d67c-4462-ac1e-ea5770cfe006.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b9534b37-d67c-4462-ac1e-ea5770cfe006.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b9a8f80e-6f5f-4aee-a138-7b0d7af50c5c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b9a8f80e-6f5f-4aee-a138-7b0d7af50c5c.png
new file mode 100644
index 00000000..953518d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/b9a8f80e-6f5f-4aee-a138-7b0d7af50c5c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ba73a6a4-1909-4e48-b193-83df22947bb3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ba73a6a4-1909-4e48-b193-83df22947bb3.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ba73a6a4-1909-4e48-b193-83df22947bb3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/baceddf4-d3f2-476d-a311-7c2c26b6abf9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/baceddf4-d3f2-476d-a311-7c2c26b6abf9.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/baceddf4-d3f2-476d-a311-7c2c26b6abf9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb0b7186-0661-4cc5-b988-431b4b63a3e4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb0b7186-0661-4cc5-b988-431b4b63a3e4.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb0b7186-0661-4cc5-b988-431b4b63a3e4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb49d618-c397-4d52-a896-0dd6bc9e9f4d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb49d618-c397-4d52-a896-0dd6bc9e9f4d.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb49d618-c397-4d52-a896-0dd6bc9e9f4d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb5e5458-c589-4d02-9aeb-f369d07c14d9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb5e5458-c589-4d02-9aeb-f369d07c14d9.png
new file mode 100644
index 00000000..979e15f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bb5e5458-c589-4d02-9aeb-f369d07c14d9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bc1b0bb6-337d-46d9-b689-b11fe835eeaa.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bc1b0bb6-337d-46d9-b689-b11fe835eeaa.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bc1b0bb6-337d-46d9-b689-b11fe835eeaa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bc332532-036a-41fa-8960-6617759f1a29.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bc332532-036a-41fa-8960-6617759f1a29.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bc332532-036a-41fa-8960-6617759f1a29.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bcee2db5-ea44-4a13-8061-4961c76f0eaa.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bcee2db5-ea44-4a13-8061-4961c76f0eaa.png
new file mode 100644
index 00000000..43e091c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bcee2db5-ea44-4a13-8061-4961c76f0eaa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bcf5dedb-c2a9-4a46-bd8e-f53ec19a38b1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bcf5dedb-c2a9-4a46-bd8e-f53ec19a38b1.png
new file mode 100644
index 00000000..02b1b055
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bcf5dedb-c2a9-4a46-bd8e-f53ec19a38b1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bd5ccd0b-c4a6-42c9-b238-a9360a2e008e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bd5ccd0b-c4a6-42c9-b238-a9360a2e008e.png
new file mode 100644
index 00000000..ab4b7d50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bd5ccd0b-c4a6-42c9-b238-a9360a2e008e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bdfa92a5-66fe-418e-9613-7d2284fe9d1b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bdfa92a5-66fe-418e-9613-7d2284fe9d1b.png
new file mode 100644
index 00000000..635ee0b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bdfa92a5-66fe-418e-9613-7d2284fe9d1b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be1f76a8-acc1-4eb3-8ff8-3111ce40625d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be1f76a8-acc1-4eb3-8ff8-3111ce40625d.png
new file mode 100644
index 00000000..42ff6795
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be1f76a8-acc1-4eb3-8ff8-3111ce40625d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be3f03df-14ab-4879-b5bd-23c96f8e0e4a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be3f03df-14ab-4879-b5bd-23c96f8e0e4a.png
new file mode 100644
index 00000000..979e15f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be3f03df-14ab-4879-b5bd-23c96f8e0e4a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be540eca-a2f6-40f1-ae07-28c2fbfb136c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be540eca-a2f6-40f1-ae07-28c2fbfb136c.png
new file mode 100644
index 00000000..f5300e9f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/be540eca-a2f6-40f1-ae07-28c2fbfb136c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bebd9e1c-97f8-40ca-9cd6-d5dbec4a7089.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bebd9e1c-97f8-40ca-9cd6-d5dbec4a7089.png
new file mode 100644
index 00000000..6383a86d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bebd9e1c-97f8-40ca-9cd6-d5dbec4a7089.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bec7e4fe-5f04-4f09-8d62-0c2aac4e48fb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bec7e4fe-5f04-4f09-8d62-0c2aac4e48fb.png
new file mode 100644
index 00000000..24549bac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bec7e4fe-5f04-4f09-8d62-0c2aac4e48fb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bf3a2201-8469-4802-8e8b-1a77b6c35ad8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bf3a2201-8469-4802-8e8b-1a77b6c35ad8.png
new file mode 100644
index 00000000..786af6e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bf3a2201-8469-4802-8e8b-1a77b6c35ad8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bf5f36c7-cf49-4237-bee8-412a515eecb0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bf5f36c7-cf49-4237-bee8-412a515eecb0.png
new file mode 100644
index 00000000..e5632b93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bf5f36c7-cf49-4237-bee8-412a515eecb0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bfa32973-1882-4390-a0c1-0b489d6ded64.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bfa32973-1882-4390-a0c1-0b489d6ded64.png
new file mode 100644
index 00000000..f2db6ba7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bfa32973-1882-4390-a0c1-0b489d6ded64.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bfb72f9a-40a2-4714-af50-7413e94d75c5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bfb72f9a-40a2-4714-af50-7413e94d75c5.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/bfb72f9a-40a2-4714-af50-7413e94d75c5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c0925db8-6bea-4164-bcb1-0c9bc53c7fca.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c0925db8-6bea-4164-bcb1-0c9bc53c7fca.png
new file mode 100644
index 00000000..cc438e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c0925db8-6bea-4164-bcb1-0c9bc53c7fca.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c1e0144f-78d5-48cb-8e02-0adea07d991e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c1e0144f-78d5-48cb-8e02-0adea07d991e.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c1e0144f-78d5-48cb-8e02-0adea07d991e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c3188ea2-a560-4a2f-b1d6-2e284f34f371.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c3188ea2-a560-4a2f-b1d6-2e284f34f371.png
new file mode 100644
index 00000000..81c3fd5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c3188ea2-a560-4a2f-b1d6-2e284f34f371.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c3eb60fd-af00-4e27-a9e6-099a893e3da2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c3eb60fd-af00-4e27-a9e6-099a893e3da2.png
new file mode 100644
index 00000000..80565c1b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c3eb60fd-af00-4e27-a9e6-099a893e3da2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4130722-4028-4ab3-819d-53b515d033d4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4130722-4028-4ab3-819d-53b515d033d4.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4130722-4028-4ab3-819d-53b515d033d4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c41880a2-005a-45e8-b9c1-c7320bda7b14.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c41880a2-005a-45e8-b9c1-c7320bda7b14.png
new file mode 100644
index 00000000..dae9353a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c41880a2-005a-45e8-b9c1-c7320bda7b14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4a103f2-f17b-4a6d-9a50-81514b88ac52.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4a103f2-f17b-4a6d-9a50-81514b88ac52.png
new file mode 100644
index 00000000..b9bccad7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4a103f2-f17b-4a6d-9a50-81514b88ac52.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4bfe2b5-6305-4a31-910d-9622680d4991.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4bfe2b5-6305-4a31-910d-9622680d4991.png
new file mode 100644
index 00000000..a139d522
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4bfe2b5-6305-4a31-910d-9622680d4991.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4c19dae-7f53-476e-b898-63f12bf58e8b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4c19dae-7f53-476e-b898-63f12bf58e8b.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4c19dae-7f53-476e-b898-63f12bf58e8b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4fc8ead-86bd-4535-8ffd-fa0d43baf33d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4fc8ead-86bd-4535-8ffd-fa0d43baf33d.png
new file mode 100644
index 00000000..89a61d4e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c4fc8ead-86bd-4535-8ffd-fa0d43baf33d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c520bed1-592c-4703-9463-23aded0b6320.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c520bed1-592c-4703-9463-23aded0b6320.png
new file mode 100644
index 00000000..62f8c936
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c520bed1-592c-4703-9463-23aded0b6320.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c52425ff-73cd-45b2-9e14-73416ae57c7d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c52425ff-73cd-45b2-9e14-73416ae57c7d.png
new file mode 100644
index 00000000..1bc2dfad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c52425ff-73cd-45b2-9e14-73416ae57c7d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c5ea074d-c6d3-4b6e-aa5b-0f7c2f52e9c6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c5ea074d-c6d3-4b6e-aa5b-0f7c2f52e9c6.png
new file mode 100644
index 00000000..36605934
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c5ea074d-c6d3-4b6e-aa5b-0f7c2f52e9c6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c609d3b2-c115-405c-a070-2bc04f5a377b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c609d3b2-c115-405c-a070-2bc04f5a377b.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c609d3b2-c115-405c-a070-2bc04f5a377b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c6a2611a-2ba3-4c55-85a7-ba47d62ffc40.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c6a2611a-2ba3-4c55-85a7-ba47d62ffc40.png
new file mode 100644
index 00000000..cb903337
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c6a2611a-2ba3-4c55-85a7-ba47d62ffc40.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c731d66d-28b9-4c2a-9267-74fc3dd9bcea.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c731d66d-28b9-4c2a-9267-74fc3dd9bcea.png
new file mode 100644
index 00000000..3f3c18f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c731d66d-28b9-4c2a-9267-74fc3dd9bcea.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c794b2cc-cc8d-4917-ab1b-73f3134fc859.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c794b2cc-cc8d-4917-ab1b-73f3134fc859.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c794b2cc-cc8d-4917-ab1b-73f3134fc859.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c7f2ec55-cb79-45f5-b62c-70f8e77e3cf4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c7f2ec55-cb79-45f5-b62c-70f8e77e3cf4.png
new file mode 100644
index 00000000..0abb56be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c7f2ec55-cb79-45f5-b62c-70f8e77e3cf4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c820a84a-3694-4a00-af7b-8442b29b3142.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c820a84a-3694-4a00-af7b-8442b29b3142.png
new file mode 100644
index 00000000..2ce37006
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c820a84a-3694-4a00-af7b-8442b29b3142.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c8516922-7cdd-40e2-b27f-b9f4de9c4878.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c8516922-7cdd-40e2-b27f-b9f4de9c4878.png
new file mode 100644
index 00000000..07cd3b4e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c8516922-7cdd-40e2-b27f-b9f4de9c4878.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c85a3a23-876b-46aa-a6c1-6a2b664e0c2a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c85a3a23-876b-46aa-a6c1-6a2b664e0c2a.png
new file mode 100644
index 00000000..a80334d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c85a3a23-876b-46aa-a6c1-6a2b664e0c2a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c870b0b2-dbf7-46f8-b8f1-22a19f18c7a5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c870b0b2-dbf7-46f8-b8f1-22a19f18c7a5.png
new file mode 100644
index 00000000..635ee0b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c870b0b2-dbf7-46f8-b8f1-22a19f18c7a5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c8f41325-96e6-4a62-9375-17b9ee4e2ffc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c8f41325-96e6-4a62-9375-17b9ee4e2ffc.png
new file mode 100644
index 00000000..fac045d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c8f41325-96e6-4a62-9375-17b9ee4e2ffc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c9423651-8ab6-46c9-a4f1-3a03d2bd0307.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c9423651-8ab6-46c9-a4f1-3a03d2bd0307.png
new file mode 100644
index 00000000..75c77398
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c9423651-8ab6-46c9-a4f1-3a03d2bd0307.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c99092bd-ca8f-4410-8c98-f3763277f841.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c99092bd-ca8f-4410-8c98-f3763277f841.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/c99092bd-ca8f-4410-8c98-f3763277f841.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ca55535c-9882-4e53-9c2c-784ecb577915.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ca55535c-9882-4e53-9c2c-784ecb577915.png
new file mode 100644
index 00000000..07cd3b4e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ca55535c-9882-4e53-9c2c-784ecb577915.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ca737a0e-ee85-48f8-a6f6-22bf740544cc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ca737a0e-ee85-48f8-a6f6-22bf740544cc.png
new file mode 100644
index 00000000..8f514315
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ca737a0e-ee85-48f8-a6f6-22bf740544cc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cad32116-c1e4-47ee-9404-2985497832a0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cad32116-c1e4-47ee-9404-2985497832a0.png
new file mode 100644
index 00000000..e0acd060
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cad32116-c1e4-47ee-9404-2985497832a0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb025cd6-4607-4512-be51-e5a9bb7372f8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb025cd6-4607-4512-be51-e5a9bb7372f8.png
new file mode 100644
index 00000000..9a60ef54
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb025cd6-4607-4512-be51-e5a9bb7372f8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb1325d6-db2e-4bef-b2e6-7d4baf7e1cae.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb1325d6-db2e-4bef-b2e6-7d4baf7e1cae.png
new file mode 100644
index 00000000..931d48d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb1325d6-db2e-4bef-b2e6-7d4baf7e1cae.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb1699b7-f563-4fd5-aaea-3a799f2e5996.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb1699b7-f563-4fd5-aaea-3a799f2e5996.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cb1699b7-f563-4fd5-aaea-3a799f2e5996.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cc8e4200-b6cf-48af-84c3-1b6037fe5fdc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cc8e4200-b6cf-48af-84c3-1b6037fe5fdc.png
new file mode 100644
index 00000000..e3ead146
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cc8e4200-b6cf-48af-84c3-1b6037fe5fdc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ccaa8c2b-480b-4fcf-a962-f82fd363bbba.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ccaa8c2b-480b-4fcf-a962-f82fd363bbba.png
new file mode 100644
index 00000000..543e98c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ccaa8c2b-480b-4fcf-a962-f82fd363bbba.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd134edf-738b-4ee1-b907-7a1eaff6a4cf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd134edf-738b-4ee1-b907-7a1eaff6a4cf.png
new file mode 100644
index 00000000..ae67ff8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd134edf-738b-4ee1-b907-7a1eaff6a4cf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd367c2f-ed8e-4f3e-9d68-42d6acf39da1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd367c2f-ed8e-4f3e-9d68-42d6acf39da1.png
new file mode 100644
index 00000000..e12bf817
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd367c2f-ed8e-4f3e-9d68-42d6acf39da1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd4a7f0a-1143-4654-b2f3-6cbd3bccfad2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd4a7f0a-1143-4654-b2f3-6cbd3bccfad2.png
new file mode 100644
index 00000000..669ff268
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cd4a7f0a-1143-4654-b2f3-6cbd3bccfad2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ce50f7c9-71d5-4379-a9a8-886386051514.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ce50f7c9-71d5-4379-a9a8-886386051514.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ce50f7c9-71d5-4379-a9a8-886386051514.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ce7470af-d88a-44fd-ace8-73d294dcea1f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ce7470af-d88a-44fd-ace8-73d294dcea1f.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ce7470af-d88a-44fd-ace8-73d294dcea1f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cea75dd3-1019-4c21-825e-a86df721232e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cea75dd3-1019-4c21-825e-a86df721232e.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cea75dd3-1019-4c21-825e-a86df721232e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cee73716-a0c5-4331-8c95-8008acc3de5d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cee73716-a0c5-4331-8c95-8008acc3de5d.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cee73716-a0c5-4331-8c95-8008acc3de5d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf2bb81f-0cd2-41d9-928b-a5f04b45407c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf2bb81f-0cd2-41d9-928b-a5f04b45407c.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf2bb81f-0cd2-41d9-928b-a5f04b45407c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf4419e2-a8d6-4dac-8d7d-2ad60a97e533.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf4419e2-a8d6-4dac-8d7d-2ad60a97e533.png
new file mode 100644
index 00000000..cc438e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf4419e2-a8d6-4dac-8d7d-2ad60a97e533.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf742a8f-9fc2-48f8-8ea7-e4920ad5fa54.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf742a8f-9fc2-48f8-8ea7-e4920ad5fa54.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/cf742a8f-9fc2-48f8-8ea7-e4920ad5fa54.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d06a8a87-15d6-4f3b-9f55-727575091bb1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d06a8a87-15d6-4f3b-9f55-727575091bb1.png
new file mode 100644
index 00000000..67fda98a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d06a8a87-15d6-4f3b-9f55-727575091bb1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d0798dcf-d7e3-421a-b9f1-9cbb126ce62d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d0798dcf-d7e3-421a-b9f1-9cbb126ce62d.png
new file mode 100644
index 00000000..a70a28cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d0798dcf-d7e3-421a-b9f1-9cbb126ce62d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d0b3cebd-6140-481a-bb50-b2eff476cd95.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d0b3cebd-6140-481a-bb50-b2eff476cd95.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d0b3cebd-6140-481a-bb50-b2eff476cd95.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d1371973-a42c-4bdc-8efb-770a6e213fef.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d1371973-a42c-4bdc-8efb-770a6e213fef.png
new file mode 100644
index 00000000..bc7267af
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d1371973-a42c-4bdc-8efb-770a6e213fef.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d1c6ebed-3fa7-4963-b40f-d5c562899c7c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d1c6ebed-3fa7-4963-b40f-d5c562899c7c.png
new file mode 100644
index 00000000..8e5a7a8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d1c6ebed-3fa7-4963-b40f-d5c562899c7c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d2497d95-29c0-40d4-8073-ccda9852f5d2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d2497d95-29c0-40d4-8073-ccda9852f5d2.png
new file mode 100644
index 00000000..298c00d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d2497d95-29c0-40d4-8073-ccda9852f5d2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d29f498d-094a-4516-939f-09af6c9e9287.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d29f498d-094a-4516-939f-09af6c9e9287.png
new file mode 100644
index 00000000..ba3755e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d29f498d-094a-4516-939f-09af6c9e9287.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d30a1e84-e7f0-486f-ba63-07bd509357ca.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d30a1e84-e7f0-486f-ba63-07bd509357ca.png
new file mode 100644
index 00000000..e288b749
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d30a1e84-e7f0-486f-ba63-07bd509357ca.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d31b51a8-0ee8-494b-b91f-81873448c0c4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d31b51a8-0ee8-494b-b91f-81873448c0c4.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d31b51a8-0ee8-494b-b91f-81873448c0c4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d3270793-e1ed-4c1b-9cf5-0749201fb690.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d3270793-e1ed-4c1b-9cf5-0749201fb690.png
new file mode 100644
index 00000000..298c00d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d3270793-e1ed-4c1b-9cf5-0749201fb690.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d3aaea41-a25b-424c-a540-b245800d4613.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d3aaea41-a25b-424c-a540-b245800d4613.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d3aaea41-a25b-424c-a540-b245800d4613.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d44d0232-53c9-470f-b7c8-6b1d8e8ddca6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d44d0232-53c9-470f-b7c8-6b1d8e8ddca6.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d44d0232-53c9-470f-b7c8-6b1d8e8ddca6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d4cee939-9955-4ee3-bcaf-ce9ef23c0fb5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d4cee939-9955-4ee3-bcaf-ce9ef23c0fb5.png
new file mode 100644
index 00000000..5283257a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d4cee939-9955-4ee3-bcaf-ce9ef23c0fb5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d50d191f-580f-47e9-ae34-fec341ebdcd8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d50d191f-580f-47e9-ae34-fec341ebdcd8.png
new file mode 100644
index 00000000..e556c2c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d50d191f-580f-47e9-ae34-fec341ebdcd8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d571ea7e-dc95-415b-ab66-0db578f54a2d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d571ea7e-dc95-415b-ab66-0db578f54a2d.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d571ea7e-dc95-415b-ab66-0db578f54a2d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d62670b4-cda4-46ba-8912-d79e621a9d17.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d62670b4-cda4-46ba-8912-d79e621a9d17.png
new file mode 100644
index 00000000..9e578257
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d62670b4-cda4-46ba-8912-d79e621a9d17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d766f53c-e3b3-42ac-9852-4174a782fd96.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d766f53c-e3b3-42ac-9852-4174a782fd96.png
new file mode 100644
index 00000000..78e403dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d766f53c-e3b3-42ac-9852-4174a782fd96.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d7e6b453-e735-4695-886a-51734e168702.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d7e6b453-e735-4695-886a-51734e168702.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d7e6b453-e735-4695-886a-51734e168702.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d88a7881-32a2-43bf-8ec1-d17cfea1110c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d88a7881-32a2-43bf-8ec1-d17cfea1110c.png
new file mode 100644
index 00000000..f5300e9f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d88a7881-32a2-43bf-8ec1-d17cfea1110c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d894a959-d27f-4a05-a29c-2cae9c9dbfb9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d894a959-d27f-4a05-a29c-2cae9c9dbfb9.png
new file mode 100644
index 00000000..f378d6b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d894a959-d27f-4a05-a29c-2cae9c9dbfb9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8c2040c-3280-4bc7-ab30-e71b3122a7c5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8c2040c-3280-4bc7-ab30-e71b3122a7c5.png
new file mode 100644
index 00000000..bb2340e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8c2040c-3280-4bc7-ab30-e71b3122a7c5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8ce60f2-2f5a-4702-a999-b4da1b249d01.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8ce60f2-2f5a-4702-a999-b4da1b249d01.png
new file mode 100644
index 00000000..ee6d4fe0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8ce60f2-2f5a-4702-a999-b4da1b249d01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8f9410d-db42-4df6-be3a-7614ba05b9df.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8f9410d-db42-4df6-be3a-7614ba05b9df.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d8f9410d-db42-4df6-be3a-7614ba05b9df.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d900b396-6b19-4a73-9485-5ba9ddd04076.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d900b396-6b19-4a73-9485-5ba9ddd04076.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d900b396-6b19-4a73-9485-5ba9ddd04076.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d90a16bc-6f59-45c1-897c-b17ffbea602c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d90a16bc-6f59-45c1-897c-b17ffbea602c.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d90a16bc-6f59-45c1-897c-b17ffbea602c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d93f071a-baca-4701-a998-b518ee5f39d1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d93f071a-baca-4701-a998-b518ee5f39d1.png
new file mode 100644
index 00000000..b320f810
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d93f071a-baca-4701-a998-b518ee5f39d1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d977197b-bc6b-4c10-89f4-54c623c725a1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d977197b-bc6b-4c10-89f4-54c623c725a1.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d977197b-bc6b-4c10-89f4-54c623c725a1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d9b6aae8-0813-4ee5-9c07-aac1e3e1ba7d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d9b6aae8-0813-4ee5-9c07-aac1e3e1ba7d.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d9b6aae8-0813-4ee5-9c07-aac1e3e1ba7d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d9ccc420-177f-4115-a8e1-7d65897c692a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d9ccc420-177f-4115-a8e1-7d65897c692a.png
new file mode 100644
index 00000000..55206f55
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/d9ccc420-177f-4115-a8e1-7d65897c692a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dae716c0-28ab-4ad4-b488-6e5b4915aead.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dae716c0-28ab-4ad4-b488-6e5b4915aead.png
new file mode 100644
index 00000000..02acb5ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dae716c0-28ab-4ad4-b488-6e5b4915aead.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/db0ebace-acdf-4ee8-aa89-939497f36206.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/db0ebace-acdf-4ee8-aa89-939497f36206.png
new file mode 100644
index 00000000..ab3dfc2c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/db0ebace-acdf-4ee8-aa89-939497f36206.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/db1dd637-56c6-490d-85ef-047f78be9815.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/db1dd637-56c6-490d-85ef-047f78be9815.png
new file mode 100644
index 00000000..4594f0f4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/db1dd637-56c6-490d-85ef-047f78be9815.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbbeb354-27f5-4ed1-af8f-8e629d320701.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbbeb354-27f5-4ed1-af8f-8e629d320701.png
new file mode 100644
index 00000000..635ee0b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbbeb354-27f5-4ed1-af8f-8e629d320701.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbd64ebc-d0a5-479d-aa27-697de19d518a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbd64ebc-d0a5-479d-aa27-697de19d518a.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbd64ebc-d0a5-479d-aa27-697de19d518a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbfdaf4d-bc48-423d-9611-7e4cd02fb76d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbfdaf4d-bc48-423d-9611-7e4cd02fb76d.png
new file mode 100644
index 00000000..8f6d6537
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dbfdaf4d-bc48-423d-9611-7e4cd02fb76d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dc111894-ccf1-40ad-9b69-b12463c44ab6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dc111894-ccf1-40ad-9b69-b12463c44ab6.png
new file mode 100644
index 00000000..f82dd416
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dc111894-ccf1-40ad-9b69-b12463c44ab6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dc64c417-5f65-4d0c-99a2-c77ce2c03695.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dc64c417-5f65-4d0c-99a2-c77ce2c03695.png
new file mode 100644
index 00000000..3844c3fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dc64c417-5f65-4d0c-99a2-c77ce2c03695.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dcd39ef8-0799-42f6-8633-9060b071cd55.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dcd39ef8-0799-42f6-8633-9060b071cd55.png
new file mode 100644
index 00000000..e646304d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dcd39ef8-0799-42f6-8633-9060b071cd55.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dcea2592-4b11-4925-8aba-ed10cba99c76.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dcea2592-4b11-4925-8aba-ed10cba99c76.png
new file mode 100644
index 00000000..a139d522
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dcea2592-4b11-4925-8aba-ed10cba99c76.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dd9ec7a2-16b0-4c48-a13e-9ce398fdff63.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dd9ec7a2-16b0-4c48-a13e-9ce398fdff63.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dd9ec7a2-16b0-4c48-a13e-9ce398fdff63.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ddffc0bb-9825-4657-bd19-8b642cd93b0e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ddffc0bb-9825-4657-bd19-8b642cd93b0e.png
new file mode 100644
index 00000000..1580855a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ddffc0bb-9825-4657-bd19-8b642cd93b0e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/de966d2a-a176-4b36-a6c9-4c928e2a3a35.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/de966d2a-a176-4b36-a6c9-4c928e2a3a35.png
new file mode 100644
index 00000000..11825099
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/de966d2a-a176-4b36-a6c9-4c928e2a3a35.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/deada297-d555-46fb-b0c7-97c407cb09cb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/deada297-d555-46fb-b0c7-97c407cb09cb.png
new file mode 100644
index 00000000..e4f0f866
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/deada297-d555-46fb-b0c7-97c407cb09cb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/df211ea4-2f51-4268-b158-a2d3d6a4994d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/df211ea4-2f51-4268-b158-a2d3d6a4994d.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/df211ea4-2f51-4268-b158-a2d3d6a4994d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/df9e8911-4333-4fa6-b9aa-0e6a8f4a392a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/df9e8911-4333-4fa6-b9aa-0e6a8f4a392a.png
new file mode 100644
index 00000000..6922e4a0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/df9e8911-4333-4fa6-b9aa-0e6a8f4a392a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dfaf2f2a-37a7-40d5-aa03-98dd38e140d8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dfaf2f2a-37a7-40d5-aa03-98dd38e140d8.png
new file mode 100644
index 00000000..25c2f0d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dfaf2f2a-37a7-40d5-aa03-98dd38e140d8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dfe499c9-9ce1-4919-a6ef-49e6219f0a39.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dfe499c9-9ce1-4919-a6ef-49e6219f0a39.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/dfe499c9-9ce1-4919-a6ef-49e6219f0a39.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e0216ec9-6de3-4ca8-9354-e3a72f2b6679.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e0216ec9-6de3-4ca8-9354-e3a72f2b6679.png
new file mode 100644
index 00000000..786af6e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e0216ec9-6de3-4ca8-9354-e3a72f2b6679.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e10a87b0-5a1d-4ee6-8de6-7fc97eb299bd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e10a87b0-5a1d-4ee6-8de6-7fc97eb299bd.png
new file mode 100644
index 00000000..f286c4c3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e10a87b0-5a1d-4ee6-8de6-7fc97eb299bd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e16783f5-e10a-419a-b478-7a8ac4f2d225.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e16783f5-e10a-419a-b478-7a8ac4f2d225.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e16783f5-e10a-419a-b478-7a8ac4f2d225.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e2fa1e6d-dbee-46ac-af21-4d1881c86394.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e2fa1e6d-dbee-46ac-af21-4d1881c86394.png
new file mode 100644
index 00000000..adc54184
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e2fa1e6d-dbee-46ac-af21-4d1881c86394.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e37837d6-a056-47d1-bab5-06bfbb79618e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e37837d6-a056-47d1-bab5-06bfbb79618e.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e37837d6-a056-47d1-bab5-06bfbb79618e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3c04938-68b3-41c9-a4b6-1101100d3ff7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3c04938-68b3-41c9-a4b6-1101100d3ff7.png
new file mode 100644
index 00000000..25c2f0d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3c04938-68b3-41c9-a4b6-1101100d3ff7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3d076ba-9621-4303-a086-8ce8dfbebbde.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3d076ba-9621-4303-a086-8ce8dfbebbde.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3d076ba-9621-4303-a086-8ce8dfbebbde.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3edc475-656e-4d41-bf0b-1a51a6078d03.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3edc475-656e-4d41-bf0b-1a51a6078d03.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e3edc475-656e-4d41-bf0b-1a51a6078d03.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e46b6a16-fa8d-410e-be3f-4611970f74c2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e46b6a16-fa8d-410e-be3f-4611970f74c2.png
new file mode 100644
index 00000000..b398c107
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e46b6a16-fa8d-410e-be3f-4611970f74c2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e4892101-3bd1-4b09-9a51-d223240a925f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e4892101-3bd1-4b09-9a51-d223240a925f.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e4892101-3bd1-4b09-9a51-d223240a925f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e4afbcbb-5a53-43a7-bece-4fdb2c656649.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e4afbcbb-5a53-43a7-bece-4fdb2c656649.png
new file mode 100644
index 00000000..652fd026
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e4afbcbb-5a53-43a7-bece-4fdb2c656649.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e53a6f8b-0846-43ff-b600-67b405404468.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e53a6f8b-0846-43ff-b600-67b405404468.png
new file mode 100644
index 00000000..de5597fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e53a6f8b-0846-43ff-b600-67b405404468.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e58f947b-d9ce-46b7-8704-0923b21e27f7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e58f947b-d9ce-46b7-8704-0923b21e27f7.png
new file mode 100644
index 00000000..7169e4f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e58f947b-d9ce-46b7-8704-0923b21e27f7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e590c719-123b-47d3-ade9-8b029a120a29.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e590c719-123b-47d3-ade9-8b029a120a29.png
new file mode 100644
index 00000000..82f2725b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e590c719-123b-47d3-ade9-8b029a120a29.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e6979f22-2982-4833-a17e-e1a7829b0de8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e6979f22-2982-4833-a17e-e1a7829b0de8.png
new file mode 100644
index 00000000..f004365f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e6979f22-2982-4833-a17e-e1a7829b0de8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e743563c-2e2a-4b14-acfe-23b6f3b969ab.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e743563c-2e2a-4b14-acfe-23b6f3b969ab.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e743563c-2e2a-4b14-acfe-23b6f3b969ab.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8c3e3a7-ff30-430b-985c-fc2c9ba93d86.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8c3e3a7-ff30-430b-985c-fc2c9ba93d86.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8c3e3a7-ff30-430b-985c-fc2c9ba93d86.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8d1ea2e-18f9-4f94-8b14-23a1d1dc7cc7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8d1ea2e-18f9-4f94-8b14-23a1d1dc7cc7.png
new file mode 100644
index 00000000..4fe609d9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8d1ea2e-18f9-4f94-8b14-23a1d1dc7cc7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8ef57ea-90b2-4b5f-822c-b3509623e500.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8ef57ea-90b2-4b5f-822c-b3509623e500.png
new file mode 100644
index 00000000..bc7267af
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e8ef57ea-90b2-4b5f-822c-b3509623e500.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e93c91a8-63c0-43d0-bff0-35185cf50ce0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e93c91a8-63c0-43d0-bff0-35185cf50ce0.png
new file mode 100644
index 00000000..1de30b6c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e93c91a8-63c0-43d0-bff0-35185cf50ce0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e9582f48-efa9-4932-96a4-7b63cea89955.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e9582f48-efa9-4932-96a4-7b63cea89955.png
new file mode 100644
index 00000000..f0a6e979
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e9582f48-efa9-4932-96a4-7b63cea89955.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e9792850-28d9-487d-832c-f0a4bfb2893d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e9792850-28d9-487d-832c-f0a4bfb2893d.png
new file mode 100644
index 00000000..453abc44
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/e9792850-28d9-487d-832c-f0a4bfb2893d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea0c80de-3df9-49a0-8e3d-1ef56cf33ddd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea0c80de-3df9-49a0-8e3d-1ef56cf33ddd.png
new file mode 100644
index 00000000..4321d9ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea0c80de-3df9-49a0-8e3d-1ef56cf33ddd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea15185a-9d9c-4728-9ceb-eda6dfd75b43.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea15185a-9d9c-4728-9ceb-eda6dfd75b43.png
new file mode 100644
index 00000000..ccf5826c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea15185a-9d9c-4728-9ceb-eda6dfd75b43.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea7d1848-6a67-49fa-be6d-75bb9373c18b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea7d1848-6a67-49fa-be6d-75bb9373c18b.png
new file mode 100644
index 00000000..bb2340e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ea7d1848-6a67-49fa-be6d-75bb9373c18b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eabd6fad-5e1b-4065-99ed-9c576f343426.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eabd6fad-5e1b-4065-99ed-9c576f343426.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eabd6fad-5e1b-4065-99ed-9c576f343426.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eb3cbd93-3f75-47a3-9e72-8a55d188b9dc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eb3cbd93-3f75-47a3-9e72-8a55d188b9dc.png
new file mode 100644
index 00000000..7ef723eb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eb3cbd93-3f75-47a3-9e72-8a55d188b9dc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eb7b45ed-a6b9-4a3d-aff4-1cea02fba160.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eb7b45ed-a6b9-4a3d-aff4-1cea02fba160.png
new file mode 100644
index 00000000..790557d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eb7b45ed-a6b9-4a3d-aff4-1cea02fba160.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ec484259-3736-4c6f-a6f7-20fb53fe5075.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ec484259-3736-4c6f-a6f7-20fb53fe5075.png
new file mode 100644
index 00000000..673e92bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ec484259-3736-4c6f-a6f7-20fb53fe5075.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ec769f15-277c-41ad-98f3-673c370b9c8a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ec769f15-277c-41ad-98f3-673c370b9c8a.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ec769f15-277c-41ad-98f3-673c370b9c8a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ecdf7adc-d6ac-4ae0-ae47-b1117c642370.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ecdf7adc-d6ac-4ae0-ae47-b1117c642370.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ecdf7adc-d6ac-4ae0-ae47-b1117c642370.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed115e20-4a1d-4167-bab0-8eb27a449684.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed115e20-4a1d-4167-bab0-8eb27a449684.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed115e20-4a1d-4167-bab0-8eb27a449684.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed201434-5cfd-4a61-bdb5-ec02a9901af6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed201434-5cfd-4a61-bdb5-ec02a9901af6.png
new file mode 100644
index 00000000..953518d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed201434-5cfd-4a61-bdb5-ec02a9901af6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed2b81c9-3cb5-4e32-9649-63bbac61f5ca.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed2b81c9-3cb5-4e32-9649-63bbac61f5ca.png
new file mode 100644
index 00000000..953518d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed2b81c9-3cb5-4e32-9649-63bbac61f5ca.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed87a636-6084-4199-ab81-dfe0028c0337.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed87a636-6084-4199-ab81-dfe0028c0337.png
new file mode 100644
index 00000000..02209ab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ed87a636-6084-4199-ab81-dfe0028c0337.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ee41bbf6-c590-46e1-bdc4-df4c57f9de70.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ee41bbf6-c590-46e1-bdc4-df4c57f9de70.png
new file mode 100644
index 00000000..d7c30094
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ee41bbf6-c590-46e1-bdc4-df4c57f9de70.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ee550292-f8a9-4069-9207-0474131d4115.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ee550292-f8a9-4069-9207-0474131d4115.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ee550292-f8a9-4069-9207-0474131d4115.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eed66168-61e9-492e-a349-3a1a9c3a9f2b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eed66168-61e9-492e-a349-3a1a9c3a9f2b.png
new file mode 100644
index 00000000..f7995a5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/eed66168-61e9-492e-a349-3a1a9c3a9f2b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ef37ed36-19f5-48e0-982d-dc714c70372e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ef37ed36-19f5-48e0-982d-dc714c70372e.png
new file mode 100644
index 00000000..f2db6ba7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ef37ed36-19f5-48e0-982d-dc714c70372e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/efb551d7-c112-4992-b003-1dd78cc551e8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/efb551d7-c112-4992-b003-1dd78cc551e8.png
new file mode 100644
index 00000000..232b1410
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/efb551d7-c112-4992-b003-1dd78cc551e8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f0af6369-c82e-453e-9c76-c72c259525d3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f0af6369-c82e-453e-9c76-c72c259525d3.png
new file mode 100644
index 00000000..2e56186c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f0af6369-c82e-453e-9c76-c72c259525d3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f10d9828-d108-4808-bd3c-e68186827601.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f10d9828-d108-4808-bd3c-e68186827601.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f10d9828-d108-4808-bd3c-e68186827601.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f1565868-0d7c-488c-8836-654258fbc4c8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f1565868-0d7c-488c-8836-654258fbc4c8.png
new file mode 100644
index 00000000..9be63856
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f1565868-0d7c-488c-8836-654258fbc4c8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f17b6173-5f5b-467f-b3ed-5255f61ba7d4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f17b6173-5f5b-467f-b3ed-5255f61ba7d4.png
new file mode 100644
index 00000000..02b1b055
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f17b6173-5f5b-467f-b3ed-5255f61ba7d4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f205d935-ebd0-423f-8a0e-682345276e3d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f205d935-ebd0-423f-8a0e-682345276e3d.png
new file mode 100644
index 00000000..88099d18
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f205d935-ebd0-423f-8a0e-682345276e3d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f2fab879-748c-4ba4-81cf-b726b3459e34.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f2fab879-748c-4ba4-81cf-b726b3459e34.png
new file mode 100644
index 00000000..ee94d81f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f2fab879-748c-4ba4-81cf-b726b3459e34.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f31ea39c-34ba-4674-8cdc-c84a89c8bd4d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f31ea39c-34ba-4674-8cdc-c84a89c8bd4d.png
new file mode 100644
index 00000000..41d03729
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f31ea39c-34ba-4674-8cdc-c84a89c8bd4d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3493a43-0436-4eac-8048-4e456dbf25d0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3493a43-0436-4eac-8048-4e456dbf25d0.png
new file mode 100644
index 00000000..fcbb9f0e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3493a43-0436-4eac-8048-4e456dbf25d0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f395204d-209f-4cae-aef7-68e28e316c5a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f395204d-209f-4cae-aef7-68e28e316c5a.png
new file mode 100644
index 00000000..953518d5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f395204d-209f-4cae-aef7-68e28e316c5a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3ad4b73-bfa4-4b97-99ac-00fae808ac44.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3ad4b73-bfa4-4b97-99ac-00fae808ac44.png
new file mode 100644
index 00000000..298c00d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3ad4b73-bfa4-4b97-99ac-00fae808ac44.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3d60daa-f8f6-4be2-b246-984bea7eb4e2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3d60daa-f8f6-4be2-b246-984bea7eb4e2.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3d60daa-f8f6-4be2-b246-984bea7eb4e2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3df92cc-3b9f-4296-97ac-a4caecbebf5d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3df92cc-3b9f-4296-97ac-a4caecbebf5d.png
new file mode 100644
index 00000000..56cdb917
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3df92cc-3b9f-4296-97ac-a4caecbebf5d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3f565ae-e636-4c48-b734-98717227b7b8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3f565ae-e636-4c48-b734-98717227b7b8.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f3f565ae-e636-4c48-b734-98717227b7b8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f439db1c-312c-4769-b957-b10101c71974.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f439db1c-312c-4769-b957-b10101c71974.png
new file mode 100644
index 00000000..77938791
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f439db1c-312c-4769-b957-b10101c71974.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f484cff6-9f8e-4edb-8bd9-343585749bcf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f484cff6-9f8e-4edb-8bd9-343585749bcf.png
new file mode 100644
index 00000000..de5597fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f484cff6-9f8e-4edb-8bd9-343585749bcf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f4d705b6-6a27-43af-9987-650463402393.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f4d705b6-6a27-43af-9987-650463402393.png
new file mode 100644
index 00000000..704e1d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f4d705b6-6a27-43af-9987-650463402393.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f4f1eb4c-7885-443c-bf79-afbf5e5a44d2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f4f1eb4c-7885-443c-bf79-afbf5e5a44d2.png
new file mode 100644
index 00000000..be629443
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f4f1eb4c-7885-443c-bf79-afbf5e5a44d2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f76662f9-e4c4-4f0c-be32-a0a204d1e754.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f76662f9-e4c4-4f0c-be32-a0a204d1e754.png
new file mode 100644
index 00000000..271abb50
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f76662f9-e4c4-4f0c-be32-a0a204d1e754.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f7d6e7e3-a785-47aa-ad6b-4f4a05fed752.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f7d6e7e3-a785-47aa-ad6b-4f4a05fed752.png
new file mode 100644
index 00000000..09b9a04d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f7d6e7e3-a785-47aa-ad6b-4f4a05fed752.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f84bc6ff-fc89-4e29-9c66-75170c39673e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f84bc6ff-fc89-4e29-9c66-75170c39673e.png
new file mode 100644
index 00000000..8575cfd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f84bc6ff-fc89-4e29-9c66-75170c39673e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f87c1526-0dbc-43df-98ee-4087f4e1aa41.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f87c1526-0dbc-43df-98ee-4087f4e1aa41.png
new file mode 100644
index 00000000..1febca33
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f87c1526-0dbc-43df-98ee-4087f4e1aa41.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f9704c53-02aa-4996-8ec8-bb5e3510e5df.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f9704c53-02aa-4996-8ec8-bb5e3510e5df.png
new file mode 100644
index 00000000..44063270
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f9704c53-02aa-4996-8ec8-bb5e3510e5df.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f9b05f11-59f7-47d2-bd5f-a9d9f7408f69.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f9b05f11-59f7-47d2-bd5f-a9d9f7408f69.png
new file mode 100644
index 00000000..37ac3a9e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/f9b05f11-59f7-47d2-bd5f-a9d9f7408f69.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fb5e2602-db76-4fd0-b39e-682524575e19.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fb5e2602-db76-4fd0-b39e-682524575e19.png
new file mode 100644
index 00000000..cc41cbc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fb5e2602-db76-4fd0-b39e-682524575e19.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fbd9f509-c789-4ef5-bfa1-c7eee18e09a3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fbd9f509-c789-4ef5-bfa1-c7eee18e09a3.png
new file mode 100644
index 00000000..67a76fc9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fbd9f509-c789-4ef5-bfa1-c7eee18e09a3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fc4e3de9-a4be-4fdc-bacc-8753f9ab8b5a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fc4e3de9-a4be-4fdc-bacc-8753f9ab8b5a.png
new file mode 100644
index 00000000..e36a1602
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fc4e3de9-a4be-4fdc-bacc-8753f9ab8b5a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fcd508aa-be72-4b3b-8679-f334163f75d2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fcd508aa-be72-4b3b-8679-f334163f75d2.png
new file mode 100644
index 00000000..5591fa6d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fcd508aa-be72-4b3b-8679-f334163f75d2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fd6aef37-dfe5-45f4-87a3-799cfd6e7c43.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fd6aef37-dfe5-45f4-87a3-799cfd6e7c43.png
new file mode 100644
index 00000000..1b92d494
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fd6aef37-dfe5-45f4-87a3-799cfd6e7c43.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fdf5cddd-d8de-4c1c-bc4a-06305163cedd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fdf5cddd-d8de-4c1c-bc4a-06305163cedd.png
new file mode 100644
index 00000000..e26f1ba9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fdf5cddd-d8de-4c1c-bc4a-06305163cedd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fdf9f217-9695-462c-be8b-e6efdf3832f2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fdf9f217-9695-462c-be8b-e6efdf3832f2.png
new file mode 100644
index 00000000..7c653307
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fdf9f217-9695-462c-be8b-e6efdf3832f2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fef2781d-a19b-4486-b653-a95050a4944b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fef2781d-a19b-4486-b653-a95050a4944b.png
new file mode 100644
index 00000000..9fa3bbbe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/fef2781d-a19b-4486-b653-a95050a4944b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ff9be565-f478-4bfc-b3ec-38271235a9c2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ff9be565-f478-4bfc-b3ec-38271235a9c2.png
new file mode 100644
index 00000000..167a0106
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ff9be565-f478-4bfc-b3ec-38271235a9c2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ffe5c694-5f7b-4185-a215-c148fc7d84b7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ffe5c694-5f7b-4185-a215-c148fc7d84b7.png
new file mode 100644
index 00000000..b6380198
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-meta-learn-py/img/ffe5c694-5f7b-4185-a215-c148fc7d84b7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/00.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/00.md
new file mode 100644
index 00000000..6a5dbf1e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/00.md
@@ -0,0 +1,108 @@
+# 零、前言
+
+深度学习技术可用于开发智能 Web 应用。 在过去的几年中，已经发现在其产品和业务中采用深度学习技术的公司数量急剧增长。 提供人工智能和基于深度学习的解决方案的新兴企业数量激增。 本书介绍了用于使用 Python 在 Web 开发中实现深度学习的众多工具和技术实践。
+
+首先，您将学习机器学习的基础知识，重点是深度学习和神经网络的基础，以及它们的常见变体，例如卷积神经网络，以及如何将它们集成到网站中，其前端使用不同标准 Web 技术栈构建。 您将通过为自定义模型创建 REST API，使用 Django 和 Flask 等 Python 库来创建支持深度学习的 Web 应用。 您将为 Google Cloud 和 AWS 上基于深度学习的 Web 部署设置云环境，并获得有关如何使用经过实践检验的深度学习 API 的指导。 此外，您将使用 Microsoft 的 Intelligent Emotion API，该 API 可以从一张脸部图片中检测出人类的情感。 您还将掌握部署真实世界的网站的知识，并获得丰富的见解，可以使用 reCaptcha 和 Cloudflare 保护这些网站，从而获得可靠的体验。 最后，您将使用自然语言处理从用户评论中推荐餐馆，并通过 Dialogflow 将语音 UX 集成到您的网页上。
+
+到本书结尾，您将能够借助最佳工具和实践来部署智能 Web 应用和网站。
+
+# 这本书是给谁的
+
+本书面向希望在网络上执行深度学习技术和方法的数据科学家，机器学习从业人员和深度学习工程师。 对于希望在浏览器中使用智能技术以使其更具交互性的 Web 开发人员，这本书也是理想的选择。 使用本指南，您将获得对浏览器数据的深入了解。
+
+具有 Python 编程语言和基础机器学习技术的工作知识（如 Google 的“机器学习速成课程”所述，请访问[这里](https://developers.google.com/machine-learning/crash-course)对阅读本书会有所帮助。
+
+# 本书涵盖的内容
+
+“第 1 章”，“揭秘人工智能和机器学习基础”，简要介绍了机器学习，深度学习以及与 Web 开发相关的其他形式的人工智能方法。 本章将快速介绍机器学习管道的基本主题，例如探索性数据分析，数据预处理，特征工程，训练和测试，评估模型等等。 最后，提出了在 AI 流行之前网站所提供的交互性和用户体验之间的比较以及它们在现代中的状态。 我们还研究了一些最大的公司在网络上使用 AI 的情况，以及 AI 如何革新了他们的产品。
+
+“第 2 章”，“使用 Python 进行深度学习入门”，介绍了与深度学习相关的基本概念和术语，以及如何使用深度学习来构建具有不同深度学习库的简单 Python Web 应用。
+
+“第 3 章”，“创建您的第一个深度学习 Web 应用”讨论了一些专门用于利用深度学习的有关 Web 应用结构的重要概念。 然后继续讨论理解数据集的方法。 本章还显示了如何实现和改进简单的神经网络，以及如何将其包装到用于开发简单 Web 应用的 API 中。 然后，我们继续展示如何使用不同的标准 Web 技术栈来实现 API。
+
+“第 4 章”，“TensorFlow.js 入门”介绍了最受欢迎的深度学习 JavaScript 库-TensorFlow.js（Tf.js）。 它简要概述了 TensorFlow.js 是什么以及它在浏览器中能够执行的操作。 此外，本章还介绍了如何使用 TensorFlow.js 使用预训练的模型，并使用它构建一个简单的 Web 应用。
+
+“第 5 章”，“通过 API 进行深度学习”介绍 API 的概念及其在软件开发中的重要性。 此外，本章将继续展示不同深度学习 API 的示例。 最后，本章介绍了一种选择深度学习 API 供应商以适合特定用例的方法。 涵盖的深度学习 API 是 Vision API，Text API 等。
+
+“第 6 章”，“使用 Python 在 Google Cloud Platform 上进行深度学习”，介绍了 Google Cloud Platform 为 Web 开发人员提供的集成到他们的网站中的产品。 重点是 Dialogflow，它可用于制作聊天机器人和对话式 AI。 Cloud Inference API，可用于构建良好的推荐系统； 以及 Translation API，该 API 用于为不同地区的用户提供其语言的网站内容。 本章详细讨论了它们的应用，还演示了将其与 Python 一起使用的基本方法。
+
+“第 7 章”，“在 AWS 上使用 Python 的 DL：对象检测和家庭自动化”介绍了 Amazon Web Services，并简要介绍了各种产品，包括 Alexa API 和 Rekognition API。 Alexa API 可用于构建家庭自动化 Web 应用和其他交互式界面，而 Rekognition API 可用于检测照片和视频中的人和物体。
+
+“第 8 章”，“使用 Python 在 Microsoft Azure 上进行深度学习”，介绍了 Microsoft Azure 云服务，重点介绍了认知工具包，该工具包是 Microsoft 替代 TensorFlow 的 Emotion API 的工具，可用于确定一个人的面部照片所产生的情感以及 TTS API（可用于从文本中产生听起来自然的声音）。
+
+“第 9 章”，“启用深度学习的网站的通用生产框架”介绍了要建立的通用框架，以在生产环境中在网络上有效部署深度学习。 涵盖了减少计算资源，将原始数据集转换为用于训练深度学习模型的数据集以及如何以最小的资源密集型方式使模型可用于网络上使用的策略。
+
+“第 10 章”，“通过深度学习保护 Web 应用安全”讨论了几种使用 Python 进行深度学习保护网站安全的技巧和技术。 我们介绍 reCaptcha 和 Cloudflare，并讨论如何使用它们来增强网站的安全性。 我们还将展示如何使用 Python 后端上的深度学习来实现安全机制，以检测网站上的恶意用户。
+
+“第 11 章”，“DIY – Web DL 生产环境”讨论了在生产中更新模型的方法以及如何根据需求选择正确的方法。 我们从简要概述开始，然后演示一些用于创建深度学习数据流的著名工具。 最后，我们实现在线学习或增量学习的演示，以建立生产中模型更新的方法。
+
+“第 12 章”，“使用 DL API 和客户支持聊天机器人创建 E2E Web 应用”介绍自然语言处理，并讨论如何创建聊天机器人以使用 Dialogflow 解决一般客户支持查询并将其集成到 Django 和 Flask 网站。 我们探索实现机器人个性的方法以及如何使这种系统资源有效。 我们还介绍了一种使用 Python 实现基于文本到语音和基于语音到文本的用户界面的方法。
+
+附录，“网络上深度学习的成功案例和新兴领域”举例说明了一些最著名的网站，这些网站的产品很大程度上依赖于利用深度学习的力量。 本章还讨论了可以通过深度学习得到增强的 Web 开发中的一些关键研究领域。 这将帮助您更深入地研究 Web 技术和深度学习的融合，并激发您提出自己的智能 Web 应用。
+
+# 充分利用这本书
+
+本书假定您了解 Python 语言，尤其是 Python 3.6 及更高版本。 强烈建议您在本地系统上安装 Python 的 Anaconda 发行版。 任何支持 Python 3.6 及更高版本的 Anaconda 发行版都适合运行本书中的示例。
+
+在硬件方面，本书假设计算机上有麦克风，扬声器和网络摄像头。
+
+| 书中介绍的软件/硬件 | **操作系统要求** |
+| --- | --- |
+| Anaconda 发布的 Python 和其他 Python 包 | 最低 1 GB RAM，建议 8 GB15 GB 磁盘空间 |
+| 您选择的代码编辑器（建议使用 Sublime Text 3） | 2 GB 内存 |
+
+**如果您使用的是本书的数字版本，建议您自己键入代码或通过 GitHub 存储库访问代码（下一节提供链接）。 这样做将帮助您避免任何与代码复制和粘贴有关的潜在错误。**
+
+预计您将尝试自己实现本书中的示例。 如果您遇到问题，可以通过给作者发电子邮件– Sayak Paul（`spsayakpaul@gmail.com`）和 Anubhav Singh（`xprilion@gmail.com`）与我们联系。 万一您无法运行本书代码存储库中提供的示例，可以在存储库中提出问题，我们会尽快与您联系！
+
+# 下载示例代码文件
+
+您可以从 [www.packt.com](http://www.packt.com) 的帐户中下载本书的示例代码文件。 如果您在其他地方购买了此书，则可以访问 [www.packtpub.com/support](https://www.packtpub.com/support) 并注册以将文件直接通过电子邮件发送给您。
+
+您可以按照以下步骤下载代码文件：
+
+1.  登录或注册 [www.packt.com](http://www.packt.com) 。
+2.  选择“支持”选项卡。
+3.  单击“代码下载”。
+4.  在搜索框中输入书籍的名称，然后按照屏幕上的说明进行操作。
+
+下载文件后，请确保使用以下最新版本解压缩或解压缩文件夹：
+
+*   Windows 的 WinRAR/7-Zip
+*   Mac 版 Zipeg/iZip/UnRarX
+*   适用于 Linux 的 7-Zip/PeaZip
+
+本书的代码包也托管在 [GitHub](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web) 上。 如果代码有更新，它将在现有的 GitHub 存储库中进行更新。
+
+我们还从[这里](https://github.com/PacktPublishing/)提供了丰富的书籍和视频目录中的其他代码包。 去看一下！
+
+# 下载彩色图像
+
+我们还提供了 PDF 文件，其中包含本书中使用的屏幕截图/图表的彩色图像。 [您可以在此处下载](http://www.packtpub.com/sites/default/files/downloads/9781789956085_ColorImages.pdf)。
+
+# 使用约定
+
+本书中使用了许多文本约定。
+
+`CodeInText`：指示文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字。 这是一个示例：“现在，我们需要从模型训练步骤中导入保存的模型和权重。一旦完成，就需要重新编译模型，并使用`make_predict_fuction()`方法使其具有`predict`函数。”
+
+代码块设置如下：
+
+```py
+def remove_digits(s: str) -> str:
+    remove_digits = str.maketrans('', '', digits)
+    res = s.translate(remove_digits)
+    return res
+```
+
+任何命令行输入或输出的编写方式如下：
+
+```py
+python main.py
+```
+
+**粗体**：表示新术语，重要单词或您在屏幕上看到的单词。 例如，菜单或对话框中的单词会出现在这样的文本中。 这是一个示例：“填写条目，然后单击‘继续’。”
+
+警告或重要提示如下所示。
+
+提示和技巧如下所示。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/01.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/01.md
new file mode 100644
index 00000000..ed168084
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/01.md
@@ -0,0 +1,560 @@
+# 一、揭秘人工智能和机器学习基础
+
+“就像电力在 100 年前改变了几乎所有事物一样，今天我实际上很难想到一个行业，我认为 AI 在未来几年内不会改变。”
+
+——Andrew Ng
+
+这句话可能看起来非常熟悉，不用说，它确实是对当前技术中断的强烈共鸣。 在最近的一段时间里，**人工智能**（**AI**）成为几乎每个行业都感兴趣的领域。 无论是教育公司，电信公司，还是从事医疗保健的组织，他们都已采用 AI 来增强业务。 AI 与其他多个行业的这种不可思议的整合只能保证随着时间的推移变得更好，并以智能方式解决关键的实际问题。 今天，我们的电话可以根据我们的指示为您进行临床约会，我们的电话摄像头可以告诉我们所捕获图像的一些人类感知属性，我们的汽车警报系统可以检测到我们的驾驶手势，并可以避免发生意外事故。 随着研究，技术和计算能力普及的发展，这些示例将变得越来越好，并且将变得越来越智能。
+
+随着我们步入软件 2.0 时代，了解为什么自 1950 年代以来就存在的一项技术成为当今大多数新闻的头等重要。 是! 人工智能诞生于 1950 年代，当时诸如 **Alan Turing** 之类的少数计算机科学家和数学家开始思考机器是否可以思考以及是否可以通过智能获得支持，以便他们可以自己回答问题，而无需明确编程。
+
+自成立以来不久，**人工智能**一词由 **John McCarthy** 在 1956 年的一次学术会议上首次提出。 从问题“**机器可以思考吗？**”（由图灵在他的论文中提出，题目为《计算机械和智能》）。从 1950 年到今天，在二十一世纪中，人工智能世界已经展现了一些我们从未想过的前所未有的成果。
+
+今天，如果不使用**网络**，几乎不可能想到一天。 它已轻松成为我们的基本必需品之一。 我们最喜欢的搜索引擎可以直接回答我们的问题，而不是向我们提供相关链接的列表。 他们可以分析在线文本并检测其意图并总结其内容。 由于 AI，所有这些都是可能的。
+
+本书旨在为读者提供动手操作指南，指导他们如何利用**深度学习**等 AI 技术，使基于**计算机视觉**，**自然语言处理**的智能 Web 应用变得**安全**等。 本章为读者提供了有关 AI 及其不同类型和 ML 基本概念的快速复习，并介绍了一些业内知名人士及其通过将 AI 和 Web 技术融合在一起所做的工作。 我们将涵盖以下方面：
+
+*   人工智能及其不同类型的介绍
+*   **机器学习**（**ML**）：最受欢迎的 AI
+*   **深度学习**（**DL**）简介
+*   AI，ML 和 DL 之间的关系
+*   机器学习基础
+*   AI 前后的 Web
+*   最大的 Web AI 参与者及其所作所为
+
+# 人工智能及其类型简介
+
+从更简单的意义上讲，人工智能就是赋予机器智能执行能力的全部。 例如，我们许多人都可以下棋。 本质上，我们首先通过*学习*进行游戏的基础知识，然后再与其他人一起实际进行游戏。 但是机器可以做到吗？ 机器可以自己学习并与我们下棋吗？
+
+AI 试图通过赋予我们一些规则来综合我们所谓的*智能*并将其灌输到机器中的能力，来实现这一目标。 这里提到的**机器**可以是任何可以计算的东西。 例如，它可以是软件或机器人。
+
+实际上，有几种类型的 AI。 最受欢迎的是以下几种：
+
+*   模糊系统
+*   专家系统
+*   机器学习系统
+
+最终类型听起来最熟悉。 我们将在下一节中介绍它。 但是，在继续进行之前，是时候看看一些使我们今天目睹的 AI 进步成为现实的要点。
+
+# 驱动 AI 的因素
+
+驱动 AI 力量的主要因素如下：
+
+*   数据
+*   算法上的进步
+*   计算机硬件进步
+*   高性能计算的普及
+
+# 数据
+
+我们今天拥有的数据量是巨大的-正如 Google 首席经济学家 **Hal Varian** 在 2016 年所说：
+
+“在文明曙光到 2003 年之间，我们只创建了 5 EB，现在每两天创建一个 EB。到 2020 年，这个数字预计将达到 53 ZB（53 万亿 GB），增长 50 倍。 ”
+
+大量的数据。 随着数字设备数量的增长，此数据量将仅继续呈指数增长。 行驶的汽车仅在速度计上显示速度的时代已经一去不复返了。 我们处于这样一个时代，可以使汽车的每一部分都能在每一瞬间产生原木，从而使我们能够完全重建汽车生命中的任何时刻。
+
+一个人从生活中学到的越多，他就变得越聪明，就越能预测未来事件的结果。 与机器类似，一个软件要训练的（质量）数据量越大，则预测未来看不见的数据就越好。
+
+在过去的几年中，由于各种因素，数据的可用性得到了飞速增长：
+
+*   便宜的存储
+*   更高的数据传输速率
+*   基于云的存储解决方案的可用性
+*   先进的传感器
+*   物联网
+*   各种形式的数字电子设备的增加
+*   网站和本机应用的使用增加
+
+现在有比以往更多的数字设备。 它们都配备了可以随时生成日志并将其通过互联网传输到制造日志的公司或购买该数据的任何其他供应商的系统。 同样，很多日志是由人们使用的网站或应用创建的。 所有这些都可以轻松地存储在基于云的存储解决方案或高存储容量的物理存储中，这些存储现在比以前便宜。
+
+如果环顾四周，您可能会看到一台笔记本电脑，在该笔记本电脑上您经常使用一些软件和网站-所有这些都可能在收集有关您对它们执行的每个操作的数据。 同样，您的电话将充当此类数据生成设备。 对于电视服务提供商提供的带有多个频道的电视，服务提供商和频道提供商都在收集有关您的数据，以更好地为您服务并改善他们的产品。 您只能想象一个人每天产生的海量数据，这个星球上有数十亿人！
+
+# 算法的进步
+
+算法是明确的步骤序列，可以解决给定的问题。 随着时间的流逝，随着科学的发展和人类借助数学对自然法则的理解，算法得到了改善。 大自然往往会启发人们解决复杂问题的方法。 神经网络可能是当今最受关注，自然启发的算法。
+
+当计算机逻辑以多个`if-else`阶梯开始时，没有人会想到有一天我们会拥有一种计算机程序，该程序可以学会产生类似于`if-else`阶梯的结果，而无需手动编写条件。 此外，我们今天拥有的计算机程序可以生成其他可以模拟 AI 的程序！
+
+当然，随着时间的流逝，由人类以及现在由机器开发的算法在执行任务时变得越来越聪明，功能越来越强大。 这直接影响了神经网络的兴起，而神经网络的基本形式似乎是解决矩阵和向量算术问题的循环的耗时超级嵌套。
+
+# 硬件进步
+
+英特尔在 1970 年推出其首个动态 RAM 模块时，它能够保存 1 KB 数据。 大约 50 年后，我们在市场上提供了 128 GB RAM 模块。 这几乎是内存空间的`1.28 x 10^8`倍。
+
+硬盘也表现出类似的趋势。 随着首款个人计算机硬盘能够存储宝贵的 5 兆字节，希捷在 2016 年宣布将 60 TB 的存储空间存储在固态驱动器上。 这是`1.2 x 10^7`的增加倍数。
+
+但是，我们只讨论了直接的个人计算比较，而没有考虑自第一台计算机问世以来技术发展的影响。 如今，随着云计算的到来，听到有人谈论**无限云存储**变得很普遍。
+
+人工智能极大地受益于计算速度和数据存储的指数级增长。
+
+# 高性能计算的普及
+
+随着商品硬件成本的降低及其表现能力的提高，如今，高性能计算已不再是科技巨头独有的东西。 如今，如果每个人都不满意可以通过单个设备提供的出色表现，那么很容易就可以为自己的个人使用建立一个计算设备网络，以促进高性能计算。 但是，投资硬件并不是获得高性能计算的唯一方法。 基于云的计算解决方案的出现导致单击部署方法可以使用非常高速的计算基础结构。 用户可以随时通过网络启动基于云的实例，并在其上运行表现密集型软件，而费用却很少。
+
+随着高性能计算变得易于个人开发者使用，人工智能解决方案的开发已进入广大开发者社区。 这导致 AI 的创新和基于研究的应用数量激增。
+
+现在，让我们来探讨截至撰写本文时最流行的 AI 形式，并讨论有关它的一些重要概念。
+
+# ML - 最受欢迎的 AI 形式
+
+在不采用任何数学符号或太多理论细节的情况下，让我们尝试从直观的角度使用术语**机器学习**（**ML**）。 为此，我们将不得不看看我们如何实际学习。 当在学校被教导要识别句子中的词性时，您是否还记得学校？ 我们得到了一套识别句子中演讲部分的规则。 我们给了很多例子，我们的老师首先为我们识别了句子中的语音部分来有效地*训练*我们，以便我们可以利用这种学习经验来识别句子中的语音部分， 没有被教给我们。 而且，该学习过程从根本上适用于我们学习的任何内容。
+
+如果我们可以类似地训练机器怎么办？ 如果我们可以对他们进行编程，使他们可以从经验中学习并可以根据这些知识开始回答问题，该怎么办？ 嗯，这已经完成了，并且，无论是有意还是无意，我们所有人都在从中受益。 而这正是直觉上讨论 ML 的意义。 为了更正式，更标准的理解，让我们看一下汤姆·米切尔（Tom Mitchell）在他的书《机器学习》中的以下定义：
+
+“如果某个计算机程序在`T`上的表现（由`P`衡量）随着经验`E`的提高而改善，那么据说它可以从经验`E`中学习一些任务`T`和一些表现度量`P`。”
+
+前面的定义是我们从直观的角度讨论 ML 的更为精确的版本。 在此必须注意，由于这种形式的 AI，我们今天看到的大多数 AI 向导都是可能的。
+
+现在，我们对 ML 是个好主意了。 现在，我们将进入下一部分，该部分讨论 ML 的最强大子字段。 我们不会深入探讨数学细节。 相反，如本节所述，我们将对其进行直观地分解。
+
+# 什么是 DL？
+
+现在是本世纪最令人兴奋的部分，并且可能是本世纪最热门的技术术语。 分开现实，我们现在在某种程度上理解了**学习**，因此让我们进入术语*深度学习* -- **深度**的第一部分。
+
+DL 是一种机器学习，但它完全基于**神经网络**。 我们还将在下一章中介绍神经网络。 任何机器学习系统的基本目标都是*学习提供给它的数据的有用表示*。 但是，什么使 DL 与众不同？ 事实证明，DL 系统将数据视为层的表示。 例如，可以将图像视为具有不同属性（例如边缘，轮廓，方向，纹理和梯度）的层的表示。 下图来自的《Python 深度学习》书，FrançoisChollet 很好地抓住了这个想法：
+
+![](img/8b22fd60-5661-44c7-b485-a00f74f9fb83.jpg)
+
+在上图中，采用 DL 系统对手写数字图像进行分类。 系统将手写数字的图像作为输入，并尝试学习其基础表示。 在第一层中，系统学习通用特征，例如笔触和线条。 随着层数的增加，它将了解特定于给定图像的特征。 层数越多，系统越深。 让我们看一下下面的定义，它是由 FrançoisChollet 在他的书《Python 深度学习》中给出的：
+
+“深度学习中的**深度**并不是指通过这种方法实现的任何形式的更深层次的理解；它代表的是连续表示层的思想。有多少层对数据的模型有所贡献，称为模型的深度。在深度学习中，这些分层表示（几乎总是）是通过称为神经网络的模型来学习的，这些模型构造为彼此堆叠的文字层。
+
+该定义非常恰当地捕获了 DL 的所有必要成分，并精美地引入了将数据视为分层表示的概念。 因此，从广义上讲，DL 系统以分层的方式将数据分解为简单的表示形式，并且为了学习这些表示形式，它经常利用许多层（称为*深*） 。 现在我们来看看大图，它告诉我们 AI，ML 和 DL 是如何相互关联的。
+
+# AI，ML 和 DL 之间的关系
+
+为了确保我们清楚了解 AI，ML 和 DL 之间的区别，让我们参考下图，该图优雅地捕获了这三个大名之间的关系：
+
+![](img/f7e17554-5438-49ea-964b-365d2bada273.jpg)
+
+该图是不言自明的，并且在 DL 领域的许多书籍中都已提及。 让我们尝试从该图中得出一个有趣的结论。
+
+所有 DL 系统都是 ML 系统，因此所有 DL 系统也都是 AI 系统。 但是事实并非如此-并非所有的 AI 系统都是 DL 系统。
+
+乍一看，该声明可能看起来有些混乱，但是，如果我们掌握了正确的基础知识，那么就可以很好地捕捉到 AI，ML 和 DL 之间的区别。 我们将着手重新审视本书后半部分所必需的一些 ML 术语和概念。
+
+# 回顾机器学习的基础
+
+我们已经了解了 ML 的含义。 在本节中，我们将重点介绍几种术语，例如监督学习和非监督学习，并且我们将研究标准 ML 工作流程中涉及的步骤。 但是您可能会问：为什么选择 ML？ 我们应该在本书中学习 *DL* 的应用。 我们刚刚了解到 DL 仅是 ML 的一种。 因此，快速概述与 ML 相关的基本概念肯定会有所帮助。 让我们从几种类型的 ML 以及它们之间的区别开始。
+
+# ML 的类型
+
+ML 包含许多算法和主题。 虽然构成 ML 模型的所有此类算法都不过是对给定数据的数学计算，但是所提供的数据形式和要在其上执行的任务的方式可能会有很大的不同。 有时，您可能希望您的 ML 模型根据先前房价的数据（相对于房屋的详细信息，例如房间数和拥有的楼层数）来预测未来的房价，而在其他时候，您可能希望 ML 模型，学习如何与您对战计算机游戏。 您可以很容易地期望第一个任务的输入数据采用表格格式，但是对于第二个示例，您可能无法提供相同的格式。 因此，ML 算法根据接收到的输入数据和应该产生的输出类型，分为三大类，以及从中得出的另一种形式：
+
+*   监督学习
+*   无监督学习
+*   强化学习
+*   半监督学习
+
+下图捕获了 ML 的三种主要类型，以及第四种类型的混合形式，以及每种类型的非常简短的摘要：
+
+![](img/bc83753f-d373-4b82-a266-72673135f8d1.png)
+
+您可能已经听说过 ML 的第四种形式，即半监督学习，它融合了监督学习和非监督学习的世界。
+
+现在，根据它们的功能以及可以用来解决的问题类型，更深入地了解这些类型的 ML。
+
+# 监督学习
+
+在这种 ML 形式中，该算法具有大量训练样本，其中包含有关将用于确定输出特征的所有参数或*特征*的信息。 此输出特征可以是连续的值范围或离散的标签集合。 基于此，监督式机器学习算法分为两部分：
+
+*   **分类**：在输出特征中产生离散标签的算法，例如*正常*和*异常*或一组新闻类别
+*   **回归**：例如，当输出特征具有真实值时，政党在选举中可能获得的选票数，或预测达到其熔点的材料的温度
+
+大多数 ML 爱好者在开始学习机器学习时，由于其直观的简单性，往往倾向于首先熟悉监督学习。 它具有一些最简单的算法，无需深入的数学知识即可轻松理解，甚至可以从学生在学校最后几年学到的数学知识中得出。 一些最著名的监督学习算法是线性回归，逻辑回归，支持向量机和 K 最近邻。
+
+# 无监督学习
+
+在训练样本不带有输出特征的情况下，无监督学习就会出现。 那么，您可能想知道，在这种情况下我们应该学习或预测什么？ 答案是相似。 用更详尽的术语讲，当我们有一个用于无监督学习的数据集时，我们通常试图学习训练样本之间的相似性，然后为它们分配类别或*标签*。
+
+考虑一群人站在一个广阔的领域。 它们都具有年龄，性别，婚姻状况，薪资范围和受教育程度等特征。 现在，我们希望根据它们的相似性将它们分组。 我们决定组成三个小组，并看到他们以性别的方式安排自己：一组女性，一组男性以及一组认同其他性别的人。 我们再次要求他们在这些组中分组，看看人们根据年龄范围（儿童，青少年，成人和老年人）来分组。 这使我们总共有 12 个这样的子组。 我们可以根据任何两个个体表现出的相似性来进一步划分较小的子组。 同样，在前面的示例中讨论的分组方式只是形成组的几种方式中的一种。 现在，说我们有 10 个新成员加入人群。 由于我们已经定义了组，因此我们可以轻松地将这些新成员分类到这些组中。 因此，我们可以成功地将组标签应用到它们。
+
+前面的示例仅演示了一种无监督学习形式，可以分为两种类型：
+
+*   **聚类**：这是根据训练样本的特征相似性来形成训练样本组。
+*   **关联**：这是查找特征或训练样本之间展示的抽象关联或规则。 例如，在分析商店的销售记录时，发现顾客大多在晚上 7 点以后购买啤酒。
+
+K-均值聚类，DBSCAN 和 Apriori 算法是用于无监督学习的一些最著名算法。
+
+# 强化学习
+
+**强化学习**（**RL**）是 ML 的一种形式，其中虚拟智能体试图学习如何与周围的环境互动，从而可以从中获得最大的回报。 一组特定的动作。
+
+让我们尝试通过一个小示例来理解这一点-例如，您构建了一个玩飞镖的机器人。 现在，仅当机器人击中飞镖板的中心时，它才会获得最大奖励。 它从掷飞镖开始，然后降落在最外圈。 它得到一定数量的点，例如`x1`。 现在它知道在该区域附近投掷将产生预期值`x1`。 因此，在下一次掷球时，它会稍微改变角度，并幸运地降落在第二最右端，并获得`x2`点。 由于`x2`大于`x1`，因此机器人取得了更好的效果，并且将来会学会将其扔到该区域附近。 如果飞镖降落的距离比最外圈的还要远，则机器人会继续将飞镖扔到它所进行的第一次投掷附近，直到获得更好的结果。
+
+在几次这样的试验中，机器人一直在学习更好的投掷位置，并从这些位置绕行一些弯路，直到获得下一个更好的投掷位置为止。 最终，它找到了靶心，并且每次都达到最高点。
+
+在前面的示例中，您的机器人是试图在环境中的飞镖板上投掷飞镖的智能体。 投掷飞镖是智能体对环境执行的动作。 智能体获得的积分将作为奖励。 智能体在多次尝试中尝试通过执行操作来最大化其所获得的回报。
+
+一些著名的 RL 算法是 Monte Carlo，Q 学习和 SARSA。
+
+# 半监督学习
+
+虽然我们讨论了 ML 的三种主要类型，但还有另一种类型是半监督学习。 用这个术语的名字，您可能会猜测它必须对标记和未标记的训练样本进行混合处理。 在大多数情况下，未标记训练样本的数量超过了标记样本的数量。
+
+当一些标记样本添加到完全属于无监督学习的问题中时，半监督学习已成功用于产生更有效的结果。 而且，由于仅标记了几个样本，因此避免了监督学习的复杂性。 通过这种方法，我们可以获得比纯无监督学习系统更好的结果，并且比纯监督学习系统产生的计算成本更低。
+
+# 必要的术语
+
+我们已经使自己熟悉不同类型的 ML 系统。 现在，我们将学习一些与 ML 相关的极其重要的术语，这些术语将在本书的后续章节中为我们提供帮助。
+
+# 训练，测试和验证集
+
+任何 ML 系统都将获得**数据**。 没有数据，实际上不可能设计 ML 系统。 到目前为止，我们并不担心数据的数量，但请务必记住，我们需要数据来设计 ML 系统。 有了这些数据后，我们将其用于*训练*我们的机器学习系统，以便它们可以用于在新数据上*预测*某些东西（*某些东西*是更广的项目，因问题而异）。 因此，用于训练目的的数据称为**训练集**，对其进行测试的数据称为**测试集**。 同样，在将模型实际应用于测试数据之前，我们倾向于在另一组数据上验证其表现，这称为**验证集**。 有时，我们不会在这些漂亮的分区中获得数据； 我们只是以原始的无法理解的格式获取数据，我们将对其进行进一步处理并进行相应的分区。*
+
+从技术上讲，这三个不同集合中的所有实例都应该彼此不同，而数据中的分布应该是相同的。 如今，许多研究人员发现了关于这些假设的关键问题，并提出了**对抗训练**之类的东西，这超出了本书的范围。
+
+# 偏差和方差
+
+偏差和方差对于任何 ML 模型都是非常固有的。 很好地了解它们确实有助于进一步评估模型。 从业人员实际上使用了两者之间的*权衡*来评估机器学习系统的表现。
+
+鼓励您观看吴安德（Andrew Ng）的讲座，[以了解有关此权衡的更多信息](https://www.youtube.com/watch?v=fDQkUN9yw44&t=293s)。
+
+偏差是 ML 算法为学习给定数据基础的表示而做出的一组假设。 当偏差高时，这意味着相应的算法将对数据进行更多的假设，而在偏差低的情况下，算法将进行尽可能少的假设。 据说 ML 模型在训练上表现良好时具有较低的偏差。 低偏差 ML 算法的一些示例是 K 近邻算法和支持向量机，而逻辑回归和朴素贝叶斯等算法通常是高偏差算法。
+
+ML 上下文中的差异涉及数据中存在的信息。 因此，高方差是指 ML 模型能够很好地捕获提供给它的数据中存在的全部信息的质量。 低方差正好相反。 诸如支持向量机之类的算法通常方差高，而诸如朴素贝叶斯之类的算法方差低。
+
+# 过拟合和欠拟合
+
+当 ML 模型在训练数据上表现很好但在测试集或验证集的数据上表现不佳时，该现象称为**过拟合**。 可能有几个原因。 以下是最常见的：
+
+*   该模型在数据方面非常复杂。 在这种情况下，具有很高级别的决策树和具有许多层的神经网络是很好的模型复杂性示例。
+*   数据具有很多特征，但总体实例很少。
+
+在 ML 文献中，过拟合问题也被视为*高方差*的问题。 **正则化**是防止过拟合的最广泛使用的方法。
+
+我们已经讨论了偏差的概念。 如果模型在训练数据上表现良好，则偏差较小，也就是说，模型对数据的假设不太多，无法推断其表示形式。 如果该模型在训练数据上惨败，则认为该模型具有较高的偏差，并且该模型**欠拟合**。 欠拟合也可能有很多原因。 在这种情况下，以下是最常见的情况：
+
+*   该模型太简单了，无法学习提供给它的数据的基本表示形式。
+*   在将数据馈送到 ML 模型之前，尚未对其数据进行精心设计。 工程部分非常流行，称为特征工程。
+
+基于此讨论，我们可以得出一个非常有用的结论：过拟合的 ML 模型可能会遭受高方差问题，而欠拟合的模型可能会遭受高偏差问题。
+
+如果没有以下图表，关于过拟合和不足拟合的讨论仍然是不完整的（Andrew Ng 在其旗舰课程《机器学习》中显示）：
+
+![](img/786819b2-885e-4fa8-80bf-de2842258087.png)
+
+上图很好地说明了通过数据点的曲线拟合方面的欠拟合和过拟合。 它还给我们提供了一个模型的想法，它**泛化得很好**，即在训练集和测试集上均表现良好。 蓝色的模型预测线偏离样本，导致欠拟合，而在过拟合的情况下，模型会捕获训练数据中的所有点，但不会产生对训练数据以外的数据表现良好的模型。
+
+通常，学习数据表示形式的想法被视为逼近最能描述数据的函数的问题。 而且，可以像上一个一样轻松地以图形方式绘制函数，因此有了**曲线拟合**的想法。 模型能够很好地概括模型在欠拟合和过拟合之间的最佳点，称为良好拟合。
+
+# 训练误差和泛化误差
+
+模型在训练阶段进行预测时所犯的误差统称为**训练误差**。 模型在验证集或测试集上进行测试时所犯的误差称为**泛化误差**。
+
+如果我们要在这两种类型的误差与偏差和方差之间建立关系（最终导致过拟合和欠拟合），则外观将类似于以下内容（尽管关系每次都可能不是线性的，如图所示）：
+
+![](img/46c1d591-c385-4491-baca-a52af92648cb.png)
+
+如果 ML 模型不适合（高偏差），则其训练误差必须很高。 另一方面，如果模型过拟合（高方差），则其泛化误差很高。
+
+我们将在下一节中介绍标准的 ML 工作流程。
+
+# 标准的 ML 工作流程
+
+任何项目都首先考虑到问题，而 ML 项目也不例外。 在开始 ML 项目之前，对要使用 ML 解决的问题有清楚的了解是非常重要的。 因此，关于标准 ML 工作流程的问题表述和映射是 ML 项目中的良好起点。 但是 **ML 工作流程**是什么意思？ 本节就是关于这一点的。
+
+设计 ML 系统并使用它们来解决复杂的问题不仅需要 ML，还需要一系列技能。 很高兴知道 ML 需要不同比例的知识，例如统计，领域知识，软件工程，特征工程和基础高中数学。 为了能够设计这样的系统，某些步骤对于几乎所有 ML 工作流程都是必不可少的，并且每个步骤都需要一定的技能。 在本节中，我们将看一下这些步骤并简要讨论它们。
+
+该工作流程的灵感来自 **CRISP-DM**，它代表**跨行业数据挖掘标准流程**，在与数据挖掘和分析有关的许多行业中得到了广泛的应用。
+
+# 数据获取
+
+如本章前面所述，机器学习系统需要数据才能运行。 它并非始终可用，实际上，在大多数情况下，数据本身并不是以我们可以实际开始训练 ML 模型的格式提供的。 但是，如果没有针对我们要使用 ML 解决的特定问题的标准数据集，该怎么办？ 欢迎来到现实！ 大多数现实生活中的 ML 项目都会发生这种情况。 例如，假设我们正在尝试分析有关 2018 年新年决议的推文情感，并尝试估计最有意义的推文。 这实际上是没有标准数据集可用的问题。 我们将不得不使用其 API 从 Twitter 抓取它。 另一个很好的例子是业务日志。 商业日志是知识的宝库。 如果有效地进行挖掘和建模，它们可以在许多决策过程中提供帮助。 但是通常，日志不能直接提供给 ML 工程师。 因此，ML 工程师需要花费大量时间来确定日志的结构，他们可能会编写脚本，以便根据需要捕获日志。 所有这些过程统称为**数据检索**或**数据收集**。
+
+# 数据准备
+
+在数据收集阶段之后，我们倾向于准备数据以将其馈送到 ML 系统，这称为**数据准备**。 值得一提的是，这是 ML 工作流程/管道中最耗时的部分。 数据准备包括以下步骤：
+
+*   探索性数据分析
+*   数据处理与整理
+*   特征工程和提取
+*   特征缩放和选择
+
+这是 ML 项目中最耗时的部分之一。 当我们更广泛地看待该过程时，我们发现数据标识和收集有时也确实是重要的方面，因为如前所述，正确的格式可能并不总是可用。
+
+# 探索性数据分析（EDA）
+
+收集数据之后，数据准备阶段的第一步是**探索性数据分析**，这是众所周知的 **EDA**。 EDA 技术使我们能够详细了解数据以更好地理解。 这是整个 ML 流程中极为重要的一步，因为如果没有对数据本身的充分了解，如果我们盲目地将 ML 模型拟合到数据，则很可能不会产生良好的结果。 EDA 为我们提供了前进的方向，并帮助我们确定了进一步的步骤。 EDA 涉及很多事情，例如计算有关数据的有用统计信息以及确定数据是否遭受任何异常值的影响。 它还包括有效的数据可视化，这有助于我们以图形方式解释数据，从而帮助我们以有意义的方式传达有关数据的重要事实。
+
+简而言之，EDA 就是要更好地了解数据。
+
+# 数据处理与整理
+
+我们已经对数据进行了一些统计分析。 怎么办？ 大多数情况下，从多个数据源收集的数据以其原始形式存在，无法馈入 ML 模型，因此需要进一步的数据处理。
+
+但是您可能会问，为什么不以某种方式收集数据，以便在完成所有必要的处理后就可以对其进行检索？ 这通常不是一个好习惯，因为它破坏了工作流程的模块化。
+
+这就是为什么要在工作流的后续步骤中使数据可消耗，我们需要清理，转换和持久化数据。 其中包括几项内容，例如数据标准化，数据标准化，缺失值插补，从一个值到另一个值的编码以及离群值处理。 所有这些统称为数据处理。
+
+# 特征工程和提取/选择
+
+考虑一种情况，在这种情况下，会向分析公司的员工提供公司的账单数据，并要求其经理使用该数据构建机器学习系统，从而可以优化公司的整体财务预算。 现在，此数据的格式不能直接提供给 ML 模型，因为 ML 模型期望数据以数字向量的形式出现。
+
+尽管数据可能状况良好，但是员工仍必须执行*某些操作*才能将数据转换为有利的形式。 考虑到数据已经被弄乱了，他们仍然需要确定他将要包含在最终数据集中的哪些特征。 实际上，任何可测量的都可以成为此处的特征。 这就是优秀的领域知识来的地方。 这些知识可以帮助员工选择具有*高预测能力*的特征。 听起来似乎很轻巧，但它需要很多技巧，而且绝对是一项艰巨的任务。 这是**特征工程**的经典示例。
+
+有时，我们采用多种技术来帮助我们从给定的数据集中自动提取最有意义的特征。 当数据的维数很高且特征难以解释时，此功能特别有用。 这被称为**特征选择**。 特征选择不仅有助于开发具有最相关特征的数据的 ML 模型，而且还有助于增强模型的预测表现并减少其计算时间。
+
+除了特征选择外，我们可能还想减少数据的维数以更好地可视化它。 此外，**降维**也用于从完整的数据特征集中捕获一组代表性特征。 **主成分分析**（**PCA**）是一种非常流行的降维技术。
+
+重要的是要记住，特征选择和降维是不同的。
+
+# 建模
+
+我们终于走到了最激动人心的一步，即 **ML 建模**部分。 但是在这里值得注意的是，一个好的机器学习项目不仅仅涉及这部分。 前面提到的所有部分均对项目标准做出了同样的贡献。 实际上，如何为项目收集数据非常重要，为此，我们得到了功能强大的数据工程师的帮助。 现在，让我们将这一部分放在一边。
+
+到目前为止，我们已经拥有了相当不错的数据。 在数据建模过程中，我们将训练数据输入到 ML 模型中进行训练，我们监视其训练进度并调整不同的超参数，从而优化其表现，并在测试集上对模型进行评估。 *模型比较*也是此阶段的一部分。 这确实是一个*迭代*过程，并且在某种程度上涉及*反复试验*。
+
+这里的主要目的是提出一个最能代表数据的 ML 模型，即*很好地泛化*。 计算时间是我们在这里必须考虑的另一个因素，因为我们需要一个表现良好但在可行的时间范围内能够优化特定业务成果的模型。
+
+以下是构成建模核心的部分：
+
+*   模型训练
+*   模型评估
+*   模型调整
+
+# 模型训练
+
+这是建模的基础部分，因为我们将数据介绍给不同的 ML 模型，然后**训练**模型，以便它可以全面了解数据的表示形式。 我们可以看到模型在使用*训练误差*进行训练期间的进展。 我们也经常将*验证误差*（这意味着我们同时验证模型训练）引入此图片中，这是一种标准做法。 当今大多数现代库都允许我们这样做，我们将在本书的后续章节中看到它。 现在，我们将讨论一些最常用的误差指标。
+
+# 模型评估
+
+我们已经训练了一个 ML 模型，但是该模型对从未见过的数据的表现如何？ 我们使用**模型评估**回答这个问题。
+
+不同的机器学习算法需要不同的评估指标。
+
+对于监督学习方法，我们通常使用以下方法：
+
+*   混淆矩阵，它是由四个值组成的矩阵：真正，假正，真负和假负
+*   准确率，精确度，召回率和 F1 分数（这些都是混淆矩阵的副产品）
+*   **受试者工作特征**（**ROC**）的**曲线下面积**（**AUC**）度量
+*   R 平方（确定系数），**均方根误差**（**RMSE**），F 统计量，**赤池信息准则**（**AIC**）和 p 值（专门用于回归模型）
+
+在本书中，我们将结合这些指标来评估我们的模型。 尽管这些是最常见的评估指标（无论是针对 ML 还是 DL），但还有更具体的评估指标对应于不同的域。 我们将做到这一点以及我们前进的方向。
+
+这里值得一提的是，在*分类*问题中，*数据不平衡*的情况下，我们经常倾向于陷入*准确率悖论*的陷阱。 在这些情况下，分类准确率只能说出故事的一部分，也就是说，它给出的是正确预测所占预测总数的百分比。 在数据集不平衡的情况下，该系统严重失败，因为准确率无法捕获模型在预测数据集的否定实例时的表现（这最初是问题，即预测不常见的类）。
+
+以下是评估无监督方法（例如聚类）的最常​​用指标：
+
+*   轮廓系数
+*   误差平方和
+*   同质性，完整性和 V 度量
+*   Calinski-Harabasz 指数
+
+对于训练集，测试集或验证集，评估指标/误差指标保持不变。 我们不能仅仅通过查看训练模型的表现来得出结论。
+
+# 模型调优
+
+在这个阶段，我们应该有一个基准模型，通过它我们可以进一步**调整模型**，使其表现更好。 模型调整对应于**超参数调整/优化**。
+
+ML 模型带有不同的*超参数*，这些超参数无法从模型训练中学习。 他们的值是由从业者设定的。 您可以将超参数值与音频均衡器的旋钮进行比较，在此处我们可以手动调节旋钮以获得完美的听觉体验。 在后面的章节中，我们将看到超参数调优如何极大地提高模型的表现。
+
+有几种用于调整超参数的技术，以下是最常用的技术：
+
+*   网格搜索
+*   随机搜索
+*   贝叶斯优化
+*   基于梯度的优化
+*   进化优化
+
+# 模型比较与选择
+
+在完成模型调整部分之后，我们肯定希望对除当前模型之外的其他模型重复整个*建模*部分，以期获得更好的结果。 作为 ML 的从业者，我们的工作是确保最终提出的模型比其他模型更好（显然在各个方面）。 自然地，比较不同的机器学习模型是一项耗时的任务，当我们需要满足较短的期限时，我们可能无法总是负担得起。 在这种情况下，我们合并了 ML 模型的以下方面：
+
+*   可解释性，可回答给定的问题（模型的可解释性如何以及模型的解释和传达的容易程度？）
+*   内存内与内存外建模
+*   数据集中的特征和实例数
+*   类别与数值特征
+*   数据的非线性
+*   训练速度
+*   预测速度
+
+这些指标是最受欢迎的指标，但在很大程度上取决于当前的问题。 当这些指标不适用时，一个很好的经验法则是查看模型如何在验证集中执行。
+
+# 部署和监控
+
+构建机器学习模型后，它将与应用的其他组件合并并投入生产。 该阶段称为**模型部署**。 在将开发的 ML 模型部署到实际系统中之后，将评估其真实表现。 此阶段还涉及对模型的全面监视，以找出模型表现不佳的领域以及可以进一步改进模型的哪些方面。 监视非常关键，因为它提供了增强模型表现的手段，从而增强了整个应用的表现。
+
+因此，这是 ML 项目所需的最重要的术语/概念的入门。
+
+要更深入地学习 ML 的基础知识，建议您阅读以下资源：[《Google 的机器学习速成课程》](https://developers.google.com/machine-learning/crash-course/)和[《Python 机器学习》](https://india.packtpub.com/in/big-data-and-business-intelligence/python-machine-learning)。
+
+为了便于参考，您可以参考本书和《Python 深度学习实践指南》（Dipanjan 等人）中给出的下图，该图以图形方式描述了所有上述步骤：
+
+![](img/1adb3e40-cbd7-469f-8234-3002ac0d91c2.png)
+
+实际上，ML 在许多领域都带来了许多增强，并且几乎没有任何影响。 本书着重于构建*智能 Web 应用*。 因此，我们将从下一个章节开始，从总体上讨论 Web 以及从 AI 的前后角度来看自 AI 问世以来 Web 的变化。 最终，我们将研究一些知名企业，以及它们如何促进 AI 构建世界一流的 Web 应用，这些应用不仅智能而且可以解决一些实际问题。
+
+# AI 前后的互联网
+
+如果您自 2014 年以来一直是万维网的普通用户，那么您会同意网站上迅速出现的快速变化。 从解决 *ReCaptcha* 挑战变得越来越难以辨认到在背景中自动将其标记为*人类*以来，Web 开发一直是显示大量人工智能的先驱之一。 在过去的二十年中创建。
+
+互联网的发明者蒂姆·伯纳斯·李爵士在语义网上提出了自己的观点：
+
+“我梦想着使 Web（计算机）能够分析 Web 上的所有数据，包括人与计算机之间的内容，链接和事务。Web 的梦想还没有实现。 出现了，但是当它出现时，日常的贸易，官僚主义和我们的日常生活机制将通过与机器交谈的机器来处理。被人们吹捧多年的“智能体”将最终实现。”
+
+通过提供静态页面，其中包含大量可见信息以及可将您永久带到相关资源的链接，网络现在是不断变化的动态生成信息门户。 如果刷新网页，则可能永远不会再看到相同的网页视图。
+
+让我们了解由于 AI 的兴起而引起的 Web 开发中一些最重要的转变。
+
+# 聊天机器人
+
+如果您想知道某些网页如何通过其网站上的聊天提供 24/7 全天候帮助，答案几乎总是聊天机器人正在从另一端回答您的查询。 1966 年，约瑟夫·魏岑鲍姆（Joseph Weizenbaum）的 ELIZA 聊天机器人击败图灵测试在全世界掀起了一波热潮时，我们从来没有想到过聊天机器人会在万维网上产生的影响（不过，其原因可能是 ARPANET 本身仅是由 ARPANET 创造的） 在 1969 年）。
+
+如今，聊天机器人无处不在。 许多《财富》 500 强公司都在该领域进行研究，并提出了针对其产品和服务的聊天机器人的实现方案。 在甲骨文最近进行的一项调查中，来自几家公司和初创公司的 800 位高管的回应表明，其中近 80% 的人表示，他们已经使用或计划在 2020 年之前在面向客户的产品中使用聊天机器人。
+
+在 AI 开始为聊天机器人提供动力之前，就像 ELIZA（及其后继产品 ALICE）一样，聊天机器人主要是关于一组固定响应的映射到几种输入模式的。 在用户输入的句子中碰到单词*母亲*或*父亲*时，几乎可以肯定会产生一个关于用户家庭或他们的幸福的回答。 如果用户写了“我不想谈论 XYZ 的家庭”之类的东西，显然这不是所需的响应。
+
+然后，这种基于规则的聊天机器人产生了著名的“对不起，我没有得到”答复，这使它们有时显得很愚蠢。 基于神经网络的算法的出现使聊天机器人能够根据用户的情感和用户输入的上下文来理解和自定义响应。 此外，一些聊天机器人会在遇到任何新查询的情况下抓取在线数据，并实时建立有关新的未知查询中提到的主题的答案。 除此之外，聊天机器人已用于为企业门户提供替代接口。 现在可以通过 WhatsApp 提供的聊天机器人平台预订酒店或航班。
+
+Facebook Messenger 的漫游器平台在向公众开放的前 17 个月内创建了超过 100,000 个漫游器。 如今，这家社交网络巨头的数百个页面对向其页面发送消息的用户具有自动响应。 Twitter 上运行着多个机器人，这些机器人可以创建内容，紧密模仿人类用户，并且可以回复其帖子中的消息或评论。
+
+您可以在 [eliza.botlibre.com](http://eliza.botlibre.com) 与在线版本的 ELIZA 聊天。
+
+# 网络分析
+
+在互联网的早期，许多网站都在其中嵌入了里程表式计数器。 这些是对网站或特定页面获得的点击次数的简单计数。 然后，它们以可用的格式增长-普通计数器，每天/每周/每月的计数器，甚至是基于地理位置的计数器。
+
+数据收集，本质上是用户交互以及他们如何与基于 Web 的应用交互的日志，处理这些数据以生成表现指标，然后最终确定公司可以采取的措施来改善他们的 Web 应用统称为 Web 分析。
+
+自从互联网发明以来，当今的 Web 应用每时每刻都会生成大量日志。 即使将鼠标指针闲置在网页上，也可能会报告给 Google Analytics（分析）仪表板，从该站点上，网站管理员可以查看用户正在查看哪些页面以及他们在页面上花费了多少时间。 同样，用户在页面之间采取的流量将是一个非常有趣的指标。
+
+最早的网络分析工具仅能衡量网页点击量，能够创建一个映射来访问给定页面的次数以及该页面是一个唯一用户的次数，但除非提供有关用户访问模式的信息，否则它们几乎无法提供任何信息。它们经过了专门的硬编码，将以非常笼统的方式呈现，并且从来都不是特定于网站的。 正在向进行电子商务的公司提供与向个人网站提供的分析相同的形式。
+
+随着 AI 在网络分析领域带来的革命，如今部署人工智能功能的工具可以对网站的表现做出未来的预测，甚至建议删除或添加网页上的特定内容以提高用户对该页面的参与度 。
+
+# 垃圾邮件过滤
+
+当全世界发送的一半电子邮件被标记为垃圾邮件时，这是一个问题。 乍一想，我们将欺诈性电子邮件和不必要的电子邮件联系在一起，以宣传企业和产品为垃圾邮件，这只是定义的一部分。 重要的是要认识到，即使多次在同一文档上发布高质量的内容也是垃圾邮件。 此外，自术语*垃圾邮件*首先在 Usenet 组中使用以来，网络已经发展起来。 最初是为了使人烦恼而进行的活动，或者是强迫向某些目标用户发送消息的活动，但如今，垃圾邮件的发展更为广泛，并且可能更加危险—从能够跟踪浏览器活动到身份盗用， 如今，互联网上存在大量恶意垃圾邮件，这些垃圾邮件危及用户的安全性和隐私性。
+
+如今，我们有各种垃圾邮件-即时通讯垃圾邮件，网站垃圾邮件，广告垃圾邮件，SMS 垃圾邮件，社交媒体垃圾邮件以及许多其他形式。
+
+除了少数几种，大多数垃圾邮件都在互联网上展出。 因此，至关重要的是能够过滤垃圾邮件并采取针对性措施。 虽然最早的反垃圾邮件斗争始于 1990 年代，当时它确定发送垃圾邮件的 IP 地址，但是随着黑名单的规模越来越大，黑名单的分发和维护成为一种黑名单，很快人们意识到这是一种效率很低的方法。 疼痛。
+
+在 2000 年代初期，保罗·格雷厄姆（Paul Graham）首次发表了题为《垃圾邮件计划》的论文时，部署了一种 ML 模型（贝叶斯过滤）来对抗垃圾邮件。 不久，从纸上纺出了几种反垃圾邮件工具，并证明是有效的。
+
+贝叶斯过滤方法对垃圾邮件的影响就是这种影响。在 2004 年的*世界经济论坛*上，微软的创始人比尔·盖茨向前说：
+
+“从现在开始的两年内，垃圾邮件将得到解决。”
+
+然而，正如我们今天所知，比尔·盖茨在这一预测中再没有错。 垃圾邮件不断发展，垃圾邮件发送者研究贝叶斯过滤并找出避免在检测阶段被标记为垃圾邮件的方法。 如今，神经网络已大规模部署，不断扫描新电子邮件并做出确定垃圾邮件或非垃圾邮件内容的决定，而人类仅仅通过研究电子邮件垃圾邮件日志就无法达到逻辑上的目的。
+
+# 搜索
+
+网络搜索是 AI 崛起影响最大的领域之一。 从必须知道您希望访问的特定网页标题的确切措辞的卑微开始，到能够识别您环境中可听的歌曲的搜索引擎，由于 AI，该域已完全转型。
+
+1991 年，蒂姆·伯纳斯·李（Tim Berners-Lee）建立了万维网虚拟图书馆，它看起来像这样：
+
+![](img/120bb432-ece2-40bf-9b64-19142d707316.png)
+
+它是手动列出的网页的集合，可通过搜索框过滤，该搜索框显示在右上角。 显然，用户本人必须决定自己的搜索项所属的类别，而不是尝试预测用户打算查找的内容。
+
+网络搜索引擎的当前面貌是由 Johnathan Fletcher 于 1993 年 12 月提出的，当时他创建了 JumpStation，这是第一个使用现代的爬网，索引和搜索概念的搜索引擎。 JumpStation 使用的外观是我们今天如何看到领先的搜索提供商（例如 Google 和 Bing），并使 Johnathan 成为“搜索引擎之父”。
+
+两年后的 1995 年 12 月，当 AltaVista 推出时，它带来了搜索技术的巨大转变-无限的带宽，搜索提示，甚至允许自然语言查询-1997 年 Ask Jeeves 更加强烈地引入了这一功能。
+
+Google 于 1998 年问世。它带来了 PageRank 技术。 但是，市场上有几个竞争者，而 Google 当时并没有主导搜索引擎游戏。 五年后，当 Google 申请使用神经网络根据用户以前的搜索历史和访问过的网站的记录来定制搜索结果的专利时，该游戏迅速转向 Google，成为搜索领域最强大的提供商。
+
+如今，庞大的代码库部署了多个深度一致的神经网络，为 Google 搜索提供了强大的动力。 由于主要使用神经网络进行的自然语言处理，使得 Google 能够确定网页的内容相关性，并且借助**卷积神经网络**（**CNN**）可以实现机器视觉 Google 图片搜索中对我们可见的准确结果。 John Ginnandrea 领导 Google 搜索并推出了知识图谱（Google 有时会针对某些问题（例如查询）提出的答案）并不令人感到惊讶； 他是人工智能领域最受追捧的专家之一，现在已经被 Apple 聘用，以改善 Siri，这又是一种神经网络产品。
+
+# 最大的网络 AI 玩家以及他们如何使用 AI
+
+AI 的突飞猛进使许多竞争者得以充分利用。 在过去的二十年中，数位个人，初创企业甚至大型工业家都在寻求从 AI 应用中获得的收益。 市场上有一些产品将人工智能作为其业务的核心。
+
+> “战争是 90% 的信息。”
+> 
+> ————拿破仑·波拿巴，公元 18 世纪。
+
+在第二次世界大战中，盟军部署了轰炸机。 这些是盟军采用的策略的关键。 但是不知何故，这些轰炸机未能交付，原因是它们在敌国领土上被大量击落。 很明显，轰炸机需要更多的装甲。 但是由于装甲的重量，不可能完全覆盖飞机。 因此，决定飞机的最关键区域应加装额外的装甲。 犹太数学家亚伯拉罕·瓦尔德（Abraham Wald）被要求提出一种方法，以确定飞机的哪些区域必须进行装甲。 他研究了从战斗中回来的飞机，并记下了哪些区域带有最多的子弹痕迹。
+
+结果发现，机翼，机鼻和机尾是带有最多子弹痕的零件，并且得出的结论是这些是需要更多装甲的零件，而驾驶舱和发动机的子弹孔最少：
+
+![](img/a6c5d938-0eea-4819-8a4c-6e5561ccbd12.png)
+
+但是令人惊讶的是，与常规的思维方式背道而驰，沃尔德提出，需要驾驶室的是机舱和发动机，因为这些轰炸机没有返回。 机尾，机翼和机鼻中的子弹无法对飞机造成致命伤害，因此他们成功返回。
+
+这样，通过处理数据并确定正确的模式，第二次世界大战的整个过程就被数学家改变了。 数据被称为新油。 更有意思的是，当您拥有石油时，会燃烧石油以产生电力和能源，以驱动车辆。 但是，有了数据，您就可以使用它来改善业务并制定决策，从而在将来产生更多数据。 意识到这一点并从现有数据中获得最大收益的公司在最近几年取得了巨大的增长。 让我们探索一下使用 AI 使用所有可用数据进行此类公司处理的公司。
+
+# 谷歌
+
+提到“人工智能”一词后，几乎每个人都想到了这个名字。
+
+“我们现在目睹了计算领域的新变化：从移动优先到人工智能优先的转变。”——Google 首席执行官 Sundar Pichai
+
+Google 一直在其多种产品中使用 AI； 让我们在这里进行一些探讨。
+
+# 谷歌搜索
+
+在 2018 年 12 月 14 日搜索`who is the google ceo`时，显示了类似于以下屏幕截图的结果页面：
+
+![](img/11e3506d-ee55-42ad-a013-ee0a1016a75b.png)
+
+前面的功能会生成常见问题的答案，称为 *Google 知识图*，我们在前面的部分中提到过。 除了这一功能，由于自然语言处理和信息提取等人工智能技术，Google 搜索的功能也成倍增长。
+
+借助 AI，可以在视频中提出与用户查询有关的准确时间安排，这一切都要归功于 AI：
+
+![](img/b6b48628-65c7-4267-a4d4-523f18176d6c.png)
+
+接下来，我们将看一下 Google Translate。
+
+# 谷歌翻译
+
+Google 翻译支持 100 多种语言，可能是互联网上公开提供的最好的翻译工具。 从能够检测输入的语言到将其转换为用户设置的所需语言，在后台运行着深层的神经网络以产生最佳结果。 Google 于 2016 年 11 月将其转换为 *Google 神经机器翻译*算法。 对于希望实时翻译其网站内容以迎合不同地区用户的 Web 开发人员，它可以作为 API 在 Web 上使用。 此外，该服务还与 Google 的浏览器 Google Chrome 集成在一起，并在用户使用浏览器访问网页后立即提供网页的实时翻译。
+
+# 谷歌助手
+
+谷歌助手是谷歌的最新业务之一，是苹果 Siri 和微软 Cortana 的竞争对手，也是谷歌即时的继任者。 它是一款基于 AI 的虚拟助手，可在移动和智能家居设备（商标为 *Google Home*）上使用。 目前，它可以在用户的​​Google 云端硬盘数据上进行搜索，根据用户的偏好产生结果，提醒用户提供的标注，拨号，发送短信，以及按照用户的指示（通过常规点击- 在触摸屏上输入或通过语音输入：
+
+![](img/02c4611b-f44d-47af-8ba3-932197617f70.jpeg)
+
+接下来，我们将介绍其他产品。
+
+# 其他产品
+
+人工智能是支持 G​​oogle Ads 的主要技术之一。 使用神经网络解决了点击诱饵或假点击的问题。 此外，使用 AI 可以有效地帮助您确定哪种类型的广告效果最好，直到每个网页的水平。 Google 广告服务的这些技术进步使其迅速从先前存在的广告平台中抢占了互联网广告空间。
+
+Google 项目（例如 Google Lens，自动驾驶汽车和许多其他项目）主要是基于 AI 的项目。
+
+# 脸书
+
+作为具有多个配置文件的互联网上最大的社交网络平台，Facebook 每天都会生成大量数据。 其发布内容的用户数据，用户做出的报告，Facebook 提供的各种 API 的日志等等，所有这些每天总计产生近 4 PB 的数据。 不用说，这家科技巨头已经利用了这一数据黄金，并提出了使平台对用户更安全并提高用户参与度的方法。
+
+# 伪造的个人资料
+
+Facebook 面临的主要问题是大量存在*虚假个人资料*。 为了应对这些问题，Facebook 部署了基于 AI 的解决方案来自动标记和挑战此类配置文件以确认其身份。 仅在 2018 年第一季度，Facebook 就禁用了近 5.83 亿个伪造或克隆账户。
+
+# 假新闻和令人不安的内容
+
+Facebook 及其收购的消息服务 WhatsApp 面临的另一个问题是假新闻或误导性新闻问题。 而且，在平台上存在视觉和/或情感上令人不安的内容，这加剧了用户体验的下降。 最后，几乎所有的在线平台都必须对抗：垃圾邮件。 多年来，Facebook 的 AI 算法已经非常擅长识别和清除垃圾邮件。 通过使用 CNN 促进的计算机视觉解决方案的应用，Facebook 能够提供一种功能，该功能可以覆盖/模糊视觉干扰的图像和视频，并在允许用户查看之前征求用户的同意。
+
+识别和删除虚假新闻的工作目前正在进行中，并且几乎完全由 AI 的应用完成。
+
+# 其他用途
+
+Facebook 提供了自己的 Messenger bot 平台，Facebook 页面和开发人员广泛使用该平台，以将丰富的交互功能添加到公司提供的即时消息服务中。
+
+# 亚马逊
+
+亚马逊是互联网上领先的电子商务平台，几乎已将 AI 集成到其所有产品和服务中。 尽管 Google，Facebook，Microsoft 和 IBM 都参加了 AI 派对的晚会，但亚马逊迅速发展并吸引了人们对其 AI 的各种用途的关注。 让我们看一下 Amazon 附带的一些主要应用。
+
+# Alexa
+
+为公司所有 Alexa 和 Echo 设备提供支持的 AI，Alexa 是与 Google Home（由 Google Assistant（以前称为 Google Now）提供支持）直接竞争开发的虚拟助手 AI 的名称。 不用争论哪个更好，Alexa 是一种相当先进的 AI，能够为许多用户发现的有趣和机智的问题提供答案。 最近，随着亚马逊采取行动将 Alexa Skills Studio 公开提供给开发人员，Alexa 产品的采用率有所上升，这大大增加了 Alexa 可以执行的操作。
+
+# 亚马逊机器人
+
+用户从网站上购买产品后，就会坐在位于华盛顿肯特郡庞大的 855,000 平方英尺庞大的配送中心（显然，仅适用于那里可用的产品）上的机器人激怒，抬起一大箱产品， 运送到现场，运送在平台上出售的商品，然后由工作器从板条箱中取出以进行进一步处理。 在此前非常成功的运行之后，亚马逊最近为其密尔沃基配送中心配备了相同的技术，并计划将其扩展到其他 10 个大型中心。
+
+# DeepLens
+
+启用了人工智能的摄像机在 2000 年代初将是极客的幻想。 正是由于 Amazon DeepLens 的到来，打开了无限的可能性。 想象一下这样的情况：您是聚会的主持人，而您会直接在手机上收到所有来宾的通知。 令人惊讶的是，已经实现了这一点，甚至在为公共场所配备闭路电视摄像机上进行了实验，这些摄像机可以识别罪犯并自动触发警报。
+
+# 总结
+
+在本章中，我们简要介绍了许多重要的概念和术语，这些概念和术语通常对执行 ML 项目至关重要。 这些将在整本书中有所帮助。
+
+我们从什么是人工智能及其三种主要类型开始。 我们了解了导致我们周围发生的 AI 爆炸的因素。 然后，我们快速浏览了 ML 的几个组成部分以及它们如何为 ML 项目做出贡献。 我们看到了什么是 DL，以及 AI，ML 和 DL 是如何连接的。
+
+在本章的最后，我们看到了一些示例，其中 AI 与 Web 技术融合在一起，以创建有望解决复杂问题的智能应用。 几乎所有启用了 AI 的应用的背后都是 DL。
+
+在下一章中，我们将利用 DL 来制作智能 Web 应用。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/02.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/02.md
new file mode 100644
index 00000000..33990be8
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/02.md
@@ -0,0 +1,839 @@
+# 二、使用 Python 入门深度学习
+
+在第一章中，我们非常仔细地研究了深度学习及其与机器学习和人工智能的关系。 在本章中，我们将深入探讨该主题。 我们将从了解深度学习核心的内容开始，即神经网络及其基本组件，例如神经元，激活单元，反向传播等。
+
+请注意，本章在数学上不会太繁琐，但是与此同时，我们也不会缩短对神经网络世界至关重要的最重要的公式。 如果您想对数学进行更深入的研究，建议读者阅读 Goodfellow 等人的书籍[《深度学习》](http://deeplearningbook.org)。
+
+以下是对本章内容的概述：
+
+*   神经网络及其相关概念揭秘
+*   深度学习与浅层学习
+*   不同类型的神经网络
+*   设置基于深度学习的云环境
+*   探索 Jupyter 笔记本
+
+# 揭秘神经网络
+
+让我们从找到以下问题的答案开始本节：“为什么神经网络被称为“神经”？”。 这个词背后的意义是什么？
+
+我们的直觉说，这与我们的大脑有关，这是正确的，但只是部分原因。 在我们弄清它为什么只能部分正确的原因之前，我们需要对大脑的结构有所了解。 为此，让我们看一下我们自己大脑的解剖结构。
+
+人脑由大约 100 亿个*神经元*组成，每个神经元都与大约 10,000 个其他神经元相连，从而使其具有类似网络的结构。 神经元的输入称为*树突*，输出称为*轴突*。 神经元的身体称为*躯体*。 因此，在较高的级别上，特定的躯体与另一个躯体相连。 “神经”一词来自“神经元”，实际上，神经是“神经元”一词的形容词形式。 在我们的大脑中，神经元是形成我们刚才讨论的密集网络的最细粒度的单元。 我们正在慢慢地了解人工神经网络与大脑的相似性，为了继续我们对这种相似性的理解，我们将简要了解神经元的功能。
+
+网络不过是一个类似图的结构，它包含一组相互连接的节点和边。 就我们的大脑或一般任何大脑而言，神经元被称为节点，树突被称为顶点。
+
+神经元通过其树突接收其他神经元的输入。 这些输入本质上是电化学的。 并非所有输入都同样强大。 如果输入足够强大，则连接的神经元将被激活，并继续将输入传递给其他神经元的过程。 它们的能力由预定义的阈值确定，该阈值允许激活过程具有选择性，因此它不会同时激活网络中存在的所有神经元。
+
+总而言之，神经元从其他神经元接收输入的总和，将该总和与阈值进行比较，并相应地激活神经元。 **人工神经网络**（**ANN**），或简称为**神经网络**（**NN**），因此， 相似。
+
+那么，是什么使网络成为*神经网络*呢？ 形成 NN 需要什么？
+
+以下来自 Adrian Rosebrock 的书《Python 计算机视觉和深度学习》中的引言以一种非常值得称赞的方式回答了这个问题：
+
+每个节点执行一个简单的计算。 然后，每个连接都承载从一个节点到另一节点的信号（即计算的输出），并用权重标记，该权重指示信号放大或减小的程度。 一些连接具有较大的正权重，可以放大信号，表明进行分类时信号非常重要。 其他的则具有负权重，从而降低了信号的强度，因此指定了节点的输出在最终分类中的重要性较低。 如果这种系统由具有可通过学习算法修改的连接权重的图结构组成，则我们将其称为人工神经网络。
+
+我们已经了解了神经网络与大脑的相似之处。 现在，我们将获取这些信息，并详细了解 ANN 的粒度单位。 让我们从学习简单的神经元在人工神经网络中必须要做的事情开始。
+
+# 人工神经元
+
+我们将其称为 ANN 人工神经元中使用的神经元。 广义上讲，人工神经元可以分为两种类型：
+
+*   线性神经元
+*   非线性神经元
+
+# 线性神经元的剖析
+
+神经元是神经网络中最细粒度的单元。 让我们看一下“神经网络”的第二个词。 网络不过是一组边缘相互连接的顶点（也称为节点）。 在神经网络的情况下，神经元充当节点。 让我们考虑以下神经网络架构，并尝试对其进行逐段分析：
+
+![](img/c5502868-fd41-47b9-859a-f36bcfd8020e.png)
+
+在上图中，我们可以看到一个具有两个隐藏层（在一个神经网络中，一层是一组神经元）且具有单个输出的神经网络。 实际上，这称为两层神经网络。 神经网络包含以下内容：
+
+*   一个输入
+*   两个隐藏层，其中第一个隐藏层包含三个神经元，第二个隐藏层包含两个神经元
+*   一个单输出
+
+将这些层称为隐藏层并没有更深层次的心理意义，仅因为涉及这些层的神经元既不是输入也不是输出的一部分，所以将它们称为隐藏层。 这里很明显的一件事是，第一个隐藏层之前有一层。 为什么我们不计算该层？ 在神经网络的世界中，初始层和输出不在层堆叠中。 简而言之，如果存在`n`个隐藏层，则它是`n`层神经网络。
+
+初始层（也称为输入层）用于接收神经网络的主要输入。 接收到主要输入后，输入层中存在的神经元会将它们传递给后续隐藏层中存在的下一组神经元。 在这种传播发生之前，神经元将权重添加到输入，并将偏项添加到输入。 这些输入可以来自各个域，例如，输入可以是图像的原始像素，音频信号的频率，单词集合等。 通常，这些输入作为特征向量提供给神经网络。 在这种情况下，输入数据仅具有一个特征。
+
+现在，接下来两层的神经元在做什么？ 这是一个重要的问题。 我们可以考虑将权重和偏差添加到输入中，作为学习的第一层/第一层（也称为决策层）。 初始隐藏层中的神经元重复此过程，但是在将计算的输出发送到下一个隐藏层中存在的神经元之前，它们会将此值与阈值进行比较。 如果满足阈值标准，则仅将输出传播到下一个级别。 整个神经网络学习过程的这一部分与我们之前讨论的生物学过程有很大的相似之处。 这也支持以分层方式学习复杂事物的哲学。
+
+这里提出的一个问题是：“如果不使用任何隐藏层，会发生什么？”。 事实证明，与仅包含输入层和输出的网络相比，在神经网络中添加更多级别的复杂性（通过添加更多层）可以使神经网络以更简洁的方式学习输入数据的基本表示形式。 但是我们需要几层呢？ 我们稍后再讲。
+
+让我们在这里介绍一些数学公式以形式化我们刚刚研究的内容。
+
+我们将输入特征表示为`x`，权重表示为`w`，偏差项表示为`b`。 我们当前尝试剖析的神经网络模型基于以下规则：
+
+![](img/73d8417a-6a5d-48b3-9d3c-2df95ad05b55.png)
+
+该规则表示，在计算加权输入和偏差的总和之后，如果结果大于 0，则神经元将产生 1；如果结果小于或等于 0，则神经元将简单地产生 0，换句话说，神经元就不会触发。 在具有多个输入功能的情况下，规则保持完全相同，并且规则的多元版本如下所示：
+
+![](img/fd99fc73-d225-45bc-9dcb-8ae25e9d5647.png)
+
+在这里，`i`意味着我们总共具有`i`个输入特征。 可以将以下规则分解为：
+
+*   我们分别处理特征，然后将其乘以权重
+*   针对所有单个输入特征完成此过程后，我们将所有加权输入进行求和并求和，最后加上偏差项。
+
+对于网络中的层数，将继续执行前面的过程。 在这种情况下，我们有两个隐藏层，因此一层的输出将被馈送到下一层。
+
+我们刚刚研究的元素是 Frank Rosenblatt 在 1960 年代提出的。 基于某个阈值为输入的加权总和分配 0 或 1 的想法也称为**阶跃函数**。 文献中有许多这样的规则，这些规则称为更新规则。
+
+我们研究的神经元是能够学习线性函数的**线性神经元**。 它们不适合学习本质上是非线性的表示。 实际上，馈送神经网络的几乎所有输入实际上都是非线性的。 在下一部分中，我们将介绍另一种能够捕获数据中可能存在的非线性的神经元。
+
+某些人可能想知道这种 NN 模型是否称为 **MLP**（**多层感知器**）。 好吧，是的。 实际上，罗森布拉特（Rosenblatt）早在 1960 年代就曾提出过这种建议。 那么什么是神经网络？ 我们将在短期内了解答案。
+
+# 非线性神经元的剖析
+
+非线性神经元意味着它能够响应数据中可能存在的非线性。 在这种情况下，非线性本质上意味着对于给定的输入，输出不会以线性方式变化。 看下图：
+
+![](img/43498898-28e2-44bf-a26c-a071493c6de0.png)
+
+前面的两个图都描述了提供给神经网络的输入与该网络产生的输出之间的关系。 从第一个图很明显，输入数据是线性可分离的，而第二个图告诉我们输入不能线性分离。 在这种情况下，线性神经元将严重失败，因此需要非线性神经元。
+
+在神经网络的训练过程中，可能会出现这样的情况，即偏差和权重值的微小变化可能会以剧烈的方式影响神经网络的输出。 理想情况下，这不应发生。 偏差或权重值的微小变化都应该仅导致输出的微小变化。 使用阶跃函数时，权重和偏差项的变化会在很大程度上影响输出，因此需要阶跃函数以外的其他东西。
+
+神经元的运作背后是一种函数。 在线性神经元的情况下，我们看到其操作是基于阶跃函数的。 我们有一堆能够捕获非线性的函数。 Sigmoid 函数就是这样的函数，使用该函数的神经元通常被称为 Sigmoid 神经元。 与阶跃函数不同，对于 Sigmoid 神经元，将使用以下规则生成输出：
+
+![](img/c07baaa1-6d33-4e1b-b759-e81faa535390.png)
+
+因此，我们最终的更新规则如下：
+
+![](img/f641c5d4-03a7-4cf6-8f46-eacadf6206f4.png)
+
+但是，为什么在捕获非线性方面，Sigmoid 函数比阶跃函数好呢？ 让我们在图形中比较它们的表现来了解这一点：
+
+![](img/c67899b6-21c7-48ed-adf3-4fd1efd01d29.png)
+
+前两个图使我们清楚地了解了两个函数的内在本质。 绝对清楚的是，Sigmoid 函数比阶跃函数对非线性更为敏感。
+
+除 Sigmoid 函数外，以下是一些众所周知的常用函数，这些函数使神经元具有非线性特征：
+
+*   Tanh
+*   ReLU
+*   泄漏的 ReLU
+
+在文献中，这些函数以及我们刚刚研究的两个函数都称为激活函数。 目前，ReLU 及其变体是迄今为止最成功的激活函数。
+
+我们仍然剩下一些与人工神经网络有关的基本知识。 让我们总结一下到目前为止所学到的内容：
+
+*   神经元及其两种主要类型
+*   层数
+*   激活函数
+
+我们现在可以在 MLP 和神经网络之间划清界限。 迈克尔·尼尔森（Michael Nielson）在其在线书《神经网络和深度学习》中对此进行了很好的描述：
+
+由于历史原因，这种多层网络有时令人困惑，尽管它们由 Sigmoid 神经元而非感知器组成，但有时也称为*多层感知器*或 *MLP* 。
+
+在本书中，我们将使用神经网络和深度神经网络术语。 现在，我们将继续前进，并进一步了解神经网络的输入和输出层。
+
+# 关于神经网络的输入和输出层的说明
+
+重要的是要了解可以作为神经网络输入的内容。 我们是否将原始图像或原始文本数据馈送到神经网络？ 还是有其他方法可以向神经网络提供输入？ 在本节中，我们将学习计算机是如何真正解释图像的，以显示在处理图像时可以准确地输入神经网络（是的，神经网络在图像处理方面非常出色）。 我们还将学习显示如何向原始数据提供神经网络的方法。 但在此之前，我们需要清楚地了解如何将常规表格数据集作为神经网络的输入。 因为表格数据集无处不在，所以采用 SQL 表，服务器日志等形式。
+
+为此，我们将采用以下玩具数据集：
+
+![](img/92ffcb3f-b5eb-4b0c-8ec6-a364fa7a3775.png)
+
+请注意有关此玩具数据集的以下几点：
+
+*   它具有两个预测变量，`x1`和`x2`，这些预测变量通常称为输入特征向量。
+*   通常将`x1`和`x2`分配给向量`X`（稍后会详细介绍）。
+*   响应变量为`y`。
+
+*   我们有 10 个实例（包含`x1`，`x2`和`y`属性）被分为两个类别，0 和 1。
+*   给定`x1`和`x2`，我们的（神经网络）任务是预测`y`，这实际上使这成为分类任务。
+
+当我们说神经网络预测某事时，是指应该学习最能近似某个函数的输入数据的底层表示（我们看到了一段时间前的特征映射看起来像）。
+
+现在，让我们看看如何将这些数据作为神经网络的输入。 由于我们的数据具有两个预测变量（或两个输入向量），因此神经网络的输入层必须包含两个神经元。 我们将使用以下神经网络架构来完成此分类任务：
+
+![](img/bdab7ceb-ab2d-45c2-8c77-c896a0bfb2c5.png)
+
+该架构与我们之前看到的架构完全相同，但是在这种情况下，我们添加了一个输入特征向量。 其余的完全一样。
+
+为简单起见，我们没有考虑将数据馈送到网络之前可能需要的数据预处理。 现在，让我们看看如何将数据与权重和偏差项组合，以及如何将激活函数应用于权重和偏差项。
+
+在这种情况下，特征向量和响应变量（即`y`）由神经网络分别解释，响应变量将在网络的训练过程的后期使用。 最重要的是，它用于评估神经网络的表现。 输入数据以矩阵形式组织，如下所示：
+
+![](img/75262c2f-fdbc-41c3-b461-9a04b2d24de7.png)
+
+我们现在使用的 NN 架构是全连接架构，这意味着特定层中的所有神经元都与下一层中的所有其他神经元相连。
+
+权重矩阵定义如下：
+
+![](img/6c7cc6d2-b697-492b-b277-1a3217a04fe2.png)
+
+现在，让我们不用担心权重值。 权重矩阵的尺寸解释如下：
+
+*   行数等于特征向量的数量（在我们的示例中为`x1`和`x2`）。
+*   列数等于第一个隐藏层中的神经元数。
+
+矩阵中的每个权重值都有一些后缀和上标。 如果我们将权重的一般形式表示为`W[jk]^l`，则应将其解释如下：
+
+*   `l`表示要从其到达权重的层。 在这种情况下，我们刚刚看到的权重矩阵将与输入层相关联。
+*   `j`表示神经元在`l`中的位置，而`k`表示神经元在该值传播到的下一层中的位置。
+
+权重通常是随机初始化的，这会向神经网络添加*随机*字符。 让我们为输入层随机初始化一个权重矩阵：
+
+![](img/28fe1ff8-96fa-4c85-ac98-fa1c4d0ec5db.png)
+
+现在，我们计算要提供给 NN 的第一个隐藏层的值。 计算方法如下：
+
+![](img/4716dd77-2dfc-490d-b796-aa1215cab251.png)
+
+第一个矩阵包含训练集中的所有实例（没有响应变量`y`），第二个矩阵是我们刚刚定义的权重矩阵。 乘法的结果存储在变量`Z^(1)`中（此变量可以命名为任何名称，上标表示它与网络的第一个隐藏层有关）。
+
+在将这些结果发送到下一层将应用激活函数的神经元之前，我们还有一步。 Sigmoid 激活函数和输入层的最终输出如下所示：
+
+![](img/20a23d3e-6c8c-44ac-874b-3e088653fec9.png)
+
+在这里，`Z^(1)`是我们对下一层神经元的最终输出。 注意，将 Sigmoid 函数应用于`Z^(1)`矩阵的每个元素。 最终矩阵的尺寸为`10 X 3`，其中每一行用于训练集中的每个实例，每一列用于第一隐藏层的每个神经元。
+
+我们看到的整个计算没有我们最初谈到的偏差项`b`。 好吧，这只是在图片中添加另一个维度的问题。 在那种情况下，在我们将 sigmoid 函数应用于`Z^(1)`矩阵的每个元素之前，矩阵本身将被更改为以下形式：
+
+![](img/541cba3d-b30e-416a-8eac-8a9b0ec6f6f1.png)
+
+经过这个矩阵乘法处理后，应用了 Sigmoid 函数并将输出发送到下一层的神经元，整个过程对 NN 中的每个隐藏层和输出层重复。 在继续过程中，我们应该从输出层获取`a^(3)`。
+
+Sigmoid 激活函数输出的值范围为 0-1，但是我们正在处理二分类问题，我们只希望 0 或 1 作为 NN 的最终输出。 我们可以稍作调整。 我们可以在 NN 的输出层定义一个阈值-对于小于 0.5 的值，应将其标识为 0 类，而对于大于或等于 0.5 的值应将其标识为 1 类。请注意，这称为前向通过或前向传播。
+
+我们刚刚看到的 NN 被称为前馈网络，在学习过程中没有进一步优化。 可是等等！ 网络甚至学到什么？ 嗯，NN 通常会学习权重和偏差项，以便最终输出尽可能准确。 梯度下降和反向传播会发生这种情况。
+
+# 梯度下降和反向传播
+
+在开始学习在神经网络的背景下梯度下降和反向传播必须做什么之前，让我们学习一个优化问题的含义。
+
+简短地说，优化问题对应于以下内容：
+
+*   最小化成本
+*   最大化利润
+
+现在让我们尝试将其映射到神经网络。 如果从前馈神经网络获得输出后，如果发现其表现达不到标准（几乎所有时间都是这种情况），会发生什么情况？ 我们将如何增强 NN 的表现？ 答案是梯度下降和反向传播。
+
+我们将使用这两种技术来优化神经网络的学习过程。 但是，我们要优化什么呢？ 我们将如何最小化或最大化？ 我们需要一种特定类型的成本，我们将尝试将其最小化。
+
+我们将根据函数定义成本。 在为 NN 模型定义成本函数之前，我们必须确定成本函数的参数。 在我们的案例中，权重和偏差是 NN 试图学习以提供给我们准确结果的函数的参数（请参阅本节之前的信息框）。 此外，我们将必须计算网络在训练过程的每个步骤中所造成的损失量。
+
+对于二元分类问题，称为**交叉熵**损失函数的损失函数（对于二元分类问题，称为二元交叉交叉熵损失函数）被广泛使用，我们将使用它。 那么，此函数是什么样的呢？
+
+![](img/6d3375fb-d8cf-49aa-ba7e-26efe4d6b342.png)
+
+在此，`y`表示给定实例的地面真值或真实标签（记住训练集中的响应变量`y`），`y_hat`表示由 NN 模型。 该函数本质上是凸的，对于凸优化器（例如梯度下降）而言非常理想。
+
+这是我们没有选择一个更简单且不凸的损失函数的原因之一。 （如果您不熟悉凸和非凸等术语，请不要担心。）
+
+我们现在有损失函数。 请记住，这仅是整个数据集的一个实例，而不是我们将要应用梯度下降的函数。 前面的函数将帮助我们定义最终将使用梯度下降进行优化的成本函数。 让我们看看成本函数的样子。
+
+![](img/2fe2f681-2cd6-4422-b942-fba491e140e1.png)
+
+这里，`w`和`b`是网络试图学习的权重和偏差。 字母`m`表示训练实例的数量，在这种情况下为 10。 其余的似乎很熟悉。 让我们把函数的原始形式`L()`放进去，看看`J()`是什么样子：
+
+![](img/bc0b7b74-497f-4bae-8f14-a5661a0c48af.png)
+
+该函数可能看起来有些混乱，因此请放慢速度并确保您了解它。
+
+我们最终可以朝优化过程迈进。 大致而言，梯度下降正在尝试执行以下操作：
+
+*   给我们一个成本函数尽可能最小的点（此点称为最小值）。
+*   给我们正确的权重和偏差值，以便成本函数达到该点。
+
+为了可视化，让我们采用一个简单的凸函数：
+
+![](img/b648cee7-9c85-4912-a310-764c72904530.png)
+
+现在，假设我们从一个随机点开始旅程，如下所示：
+
+![](img/b7d2ca94-6643-41d4-ac7d-aa8bdb593cff.png)
+
+因此，右上角的点就是我们开始的点。 该点（由虚线箭头指示）是我们希望到达的点。 那么，如何通过简单的计算做到这一点呢？
+
+为了达到这一点，使用了以下更新规则：
+
+![](img/932dc7a9-29ef-438c-ae22-d0397b9fab67.png)
+
+Here, we are taking the partial derivative of *J(w,b)* with respect to the weights. We are taking a partial derivative because *J(w,b)* contains`b`as one of the parameters. 𝝰 is the learning rate that speeds up this process. This update rule is applied multiple times to find the right values of the weights. But what about the bias values? The rule remains exactly the same only the equation is changed:
+
+![](img/0505bb51-e6be-440d-86e5-3774b8532cbe.png)
+
+这些权重和偏差的新分配基本上称为*反向传播*，并且它是与*梯度下降*结合完成的。 在计算了权重和偏差的新值之后，重复整个前向传播过程，直到 NN 模型得到很好的概括。 请注意，这些规则仅适用于一个实例，前提是该实例仅具有一项特征。 在包含多个特征的多个实例上执行此操作可能很困难，因此，我们将跳过该部分，但是，有兴趣看到此功能的完整版本的人员可以参考 Andrew Ng 的在线讲座。
+
+我们已经介绍了标准神经网络的必要基本单元，这并不容易。 我们先定义神经元，然后以反向传播（反向传播的讨厌术语）结束。 我们已经奠定了深度神经网络的基础。 读者可能想知道这是否是我们刚刚研究的深度神经网络。 正如 **Andriy Burkov** 所说（摘自他的书《百页机器学习书》）：
+
+深度学习是指训练具有两个以上非输出层的神经网络。 ……术语“深度学习”是指使用现代算法和数学工具包独立于神经网络的深度来训练神经网络。 实际上，使用在输入和输出层之间具有 2-3 层的神经网络可以解决许多业务问题。
+
+在下一部分中，我们将学习深度学习和浅层学习之间的区别。 我们还将研究两种不同类型的神经网络，即卷积神经网络和循环神经网络。
+
+# 不同类型的神经网络
+
+到目前为止，我们已经了解了前馈神经网络的外观，以及如何将反向传播和梯度下降等技术应用于其以优化其训练过程。 我们之前研究的二分类问题似乎过于幼稚且不切实际，不是吗？
+
+嗯，简单的 NN 模型可以解决很多问题。 但是随着问题复杂性的增加，有必要对基本的 NN 模型进行改进。 这些复杂的问题包括对象检测，对象分类，图像标题生成，情感分析，假新闻分类，序列生成，语音翻译等。 对于此类问题，基本的 NN 模型是不够的。 它需要对架构进行一些改进，才能解决这些问题。 在本节中，我们将研究两个最强大且使用最广泛的 NN 模型：卷积神经网络和循环神经网络。 这些当今的神经网络模型是深度学习惊人应用的核心。
+
+# 卷积神经网络
+
+您是否曾经将朋友群组的照片上传到 Facebook？ 如果是，您是否想知道 Facebook 如何在上传完成后自动检测照片中的所有面孔？ 简而言之，答案是**卷积神经网络**（**CNN**）。
+
+前馈网络通常由几个全连接层组成，而 CNN 由几个卷积层以及其他类型的复杂层（包括全连接层）组成。 这些全连接层通常位于最末端，通常用于进行预测。 但是什么样的预测呢？ 在图像处理和计算机视觉环境中，预测任务可以包含许多用例，例如标识提供给网络的图像中存在的对象类型。 但是 CNN 仅适合与图像相关的任务吗？ CNN 是为图像处理任务（例如对象检测，对象分类等）而设计和提出的，但它也已在许多文本处理任务中使用。 我们将在图像处理环境中学习 CNN，因为 CNN 可以在图像处理和计算机视觉领域中发挥作用，因此它是最流行的奇迹。 但是，在继续讨论该主题之前，了解如何用数字表示图像将很有用。
+
+图像包含许多像素和尺寸-`高 x 宽 x 深`。 对于彩色图像，深度尺寸通常为 3，对于灰度图像，深度尺寸通常为 1。让我们对其进行更深入的研究。 考虑下图：
+
+![](img/79d278c8-9d3b-409e-ae79-de957bb6251c.png)
+
+前一幅图像的尺寸为`626 x 675 x 3`，从数值上讲，它不过是一个矩阵。 每个像素代表红色，绿色和蓝色的特定强度（根据 RGB 颜色系统）。 该图像总共包含 422,550 像素（`675 x 626`）。
+
+像素由红色，绿色和蓝色三个值的列表表示。 现在，让我们来看一下像素（对应于 422,550 像素矩阵中的第二十行和第 100 列）的编码形式：
+
+```py
+12, 24, 10
+```
+
+每个值对应于红色，绿色和蓝色的特定强度。 为了理解 CNN，我们将以较小的灰度图像进行查看。 请记住，灰度图像中的每个像素在 0 到 255 之间，其中 0 对应于黑色，255 对应于白色。
+
+以下是代表灰度图像的像素虚拟矩阵（我们将其称为图像矩阵）：
+
+![](img/a24eda9c-4190-41e1-bc67-d4d3a775f1d9.png)
+
+在继续之前，让我们直观地考虑如何训练 CNN 来学习图像的底层表示并使其执行某些任务。 图像具有其固有的特殊属性：图像中包含相似类型信息的像素通常保持彼此靠近。 考虑一张标准人脸的图像：表示头发的像素更暗，并且紧靠图像放置，而表示面部其他部分的像素通常更亮，并且彼此保持非常接近。 强度可能因人而异，但是您明白了。 我们可以使用图像中像素的这种空间关系，并训练 CNN 来检测相似像素以及它们在像素之间创建的边缘，以区分图像中存在的几个区域（在人脸图像中， 头发，眉毛等之间的任意边缘）。 让我们看看如何做到这一点。
+
+CNN 通常包含以下组件：
+
+*   卷积层
+*   激活层
+*   池化层
+*   全连接层
+
+CNN 的核心是一个称为卷积的操作（在计算机视觉和图像处理的文献中也称为交叉关系）。 PyImageSearch 的 Adrian Rosebrock 描述了以下操作：
+
+在深度学习方面，（图像）卷积是两个矩阵的元素乘积，后跟一个和。
+
+这句话告诉我们（图像）卷积运算符是如何工作的。 引用中提到的矩阵是图像矩阵本身和另一个称为核的矩阵。 原始图像矩阵可以高于核矩阵，并且在图像矩阵的左右方向上执行卷积运算。 这是卷积运算的示例，其中涉及前面的伪矩阵和大小为`2 x 2`的核：
+
+![](img/81b66b3b-aaa5-45a5-82d4-e14bfc38ecc0.png)
+
+核矩阵实际上是网络的权重矩阵，为简单起见，我们暂时忽略偏差项。 还值得注意的是，我们最喜欢的图像过滤器（锐化，模糊等）仅是应用于原始图像的某些卷积输出。 CNN 实际上会学习这些过滤器（核）值，以便它可以最好地捕获图像的空间表示。 这些值可以使用梯度下降和反向传播进一步优化。 下图描述了应用于图像的四个卷积操作：
+
+![](img/3f1deaa5-9ebe-413d-8869-8a3b87ddc294.png)
+
+注意核如何滑动以及如何计算卷积像素。 但是，如果我们这样进行，则会丢失图像的原始尺寸。 这可能会导致信息丢失。 为防止这种情况，我们应用了一种称为填充的技术，并保留了原始图像的尺寸。 有许多填充技术，例如复制填充，零填充，环绕等。 零填充在深度学习中非常流行。 现在，我们将看到如何将零填充应用于原始图像矩阵，从而保留图像的原始尺寸：
+
+![](img/c102f556-b78a-45cb-b402-302b91561d97.png)
+
+零填充意味着像素值矩阵的所有面将被零填充，如上图所示。
+
+指导网络如何滑动图像矩阵很重要。 这是通过称为跨步的参数来控制的。 跨步的选择取决于数据集，而跨步 2 的正确使用是深度学习的标准做法。 让我们看一下第 1 步与第 2 步的区别：
+
+![](img/fee0eddc-8450-4997-ab80-615b4b4155c1.png)
+
+卷积的图像通常如下所示：
+
+![](img/6e10b613-f9a8-49eb-b1d6-d6e2072fcff4.png)
+
+卷积的映像在很大程度上取决于所使用的核。 最终的输出矩阵将传递给激活函数，并且该函数将应用于矩阵的元素。 CNN 中的另一个重要操作是池化，但我们暂时将其跳过。 到目前为止，您应该对 CNN 的工作原理有一个很好的了解，这足以使您继续阅读本书。 如果您想更深入地了解 CNN 的工作原理，请参阅[这个页面](https://www.pyimagesearch.com/2018/04/16/keras-and-convolutional-neural-networks-cnns/)上的博客文章。
+
+# 循环神经网络
+
+**循环神经网络（RNN）**是另一种神经网络，非常擅长 NLP 任务，例如情感分析，序列预测，语音到文本翻译，语言到语言翻译， 等等。 考虑一个例子：打开 Goog​​le，然后开始搜索循环神经网络。 从您开始输入单词的那一刻起，Google 就会开始为您提供建议列表，其中最有可能是完整单词或以您当时键入的字母开头的最常用的短语。 这是序列预测的示例，其中任务是预测给定短语的下一个序列。
+
+让我们再举一个例子：给您一堆英语句子，每个句子包含一个空白。 您的任务是用正确的单词适当地填补空白。 现在，为了做到这一点，您将需要大体上使用先前对英语的了解，并尽可能地利用上下文。 要使用这样的先前遇到的信息，请使用您的内存。 但是神经网络呢？ 传统的神经网络无法执行此操作，因为它们没有任何内存。 这正是 RNN 出现的地方。
+
+我们需要回答的问题是如何赋予神经网络记忆能力？ 一个绝对幼稚的想法是执行以下操作：
+
+*   将特定的序列输入神经元。
+*   取得神经元的输出，并将其再次馈送到神经元。
+
+事实证明，这个想法不是那么幼稚，实际上构成了 RNN 的基础。 RNN 的单个层实际上如下所示：
+
+![](img/598b05d6-11ee-4c08-9c52-9bebfd97f229.png)
+
+这个循环似乎有点神秘。 您可能已经在考虑循环的每次迭代中发生的情况：
+
+![](img/4865606d-533c-4d58-a488-c425003e96e4.png)
+
+在上图中，展开了 RNN（左图）以显示三个简单的前馈网络。 但是这些展开的网络有什么作用？ 现在让我们找出答案。
+
+让我们考虑序列预测的任务。 为简单起见，我们将研究 RNN 如何学习预测下一个字母来完成一个单词。 例如，如果我们用一组字母`{w, h, a, t}`训练网络，并将顺序提供字母`w, h`和`a`，网络应该能够预测字母应该是`t`，以便产生有意义的单词`what`。 就像我们之前看到的前馈网络一样，`X`在 RNN 项中充当网络的输入向量，该向量也称为网络的词汇表。 在这种情况下，网络词汇为`{w, h, a, t}`。
+
+向网络依次提供字母`w, h`和`a`。 让我们尝试给这些字母指定索引：
+
+*   `w -> (t - 1)`
+*   `h -> (t)`
+*   `a -> (t + 1)`
+
+这些索引称为时间步长（图中的上标表示 RNN 的展开）。 循环层利用在先前时间步长给出的输入以及在当前时间步长上操作时的特征。 让我们一步一步地了解此循环层如何产生输出。
+
+# 将字母输入网络
+
+在我们看到循环层如何产生输出之前，重要的是要学习如何将字母集提供给网络。 单热编码使我们能够以非常有效的方式执行此操作：
+
+![](img/82595ac0-af4d-4777-8394-1939beb4c4b7.png)
+
+因此，在单热编码中，我们的字母输入向量/词汇量不过是四个`4 x 1`矩阵，每个矩阵表示一个特定的字母。 单热编码是这些任务的标准做法。 该步骤实际上是数据预处理步骤。
+
+# 初始化权重矩阵
+
+当有神经网络时，就有权重。 这是真的吧？ 但是在开始处理 RNN 的权重之前，让我们确切地了解它们的需要位置。
+
+对于 RNN，存在两种不同的权重矩阵-一种用于输入神经元（请记住，我们仅通过神经元提供特征向量），另一种用于循环神经元。 RNN 中的特定状态使用以下两个公式生成：
+
+![](img/0a36036b-7a4b-4307-b60b-5031283c9060.png)
+
+要了解每个项在第一个方程式中的含义，请参考下图（不用担心，我们将转到第二个方程式）：
+
+![](img/8bbaa47e-7702-433d-aac9-870000b96aa9.png)
+
+RNN `x[1]`的第一遍是字母`w`。 我们将根据等式`(1)`随机初始化两个权重矩阵。 假设初始化后的矩阵`W[xh]`如下所示：
+
+![](img/94ec44a4-d673-4c34-854b-e1d35c371270.png)
+
+![](img/6ccce969-b83d-44cd-87d9-647322b6f44a.png)矩阵为`3 x 4`：
+
+*   `x = 3`，因为我们在循环层中有三个循环神经元
+*   `h = 4`，因为我们的词汇量是 4
+
+矩阵`W[hh]`是`1×1`矩阵。 让我们将其值为 0.35028053。 我们还在这里介绍偏置项`b`，它也是`1 x 1`矩阵 0.6161462。 在下一步中，我们将把这些值放在一起并确定`h[t]`的值。 （稍后我们将处理第二个方程。）
+
+# 将权重矩阵放在一起
+
+首先确定`W[xh]x[1]`。 `x[1]`是一个`4 x 1`的矩阵，表示我们先前定义的字母`w`。 矩阵乘法的标准规则在这里适用：
+
+![](img/234a5eeb-d4fd-4fb8-ad16-468a49bb1010.png)
+
+现在我们将计算`W[hh]h[0] + b`项。 我们很快就会看到偏差项的重要性。 由于`w`是我们要馈送到网络的第一个字母，因此它没有任何先前的状态，因此，我们将`h[0]`看作是一个由零组成的`3 x 1`矩阵：
+
+![](img/7dcad348-20fc-4827-96c5-f4e62ffd10bb.png)
+
+请注意，如果不采用偏差项，我们将得到仅由零组成的矩阵。 现在，我们将根据公式`(1)`将这两个矩阵相加。 加法的结果是一个`3 x 1`的矩阵，并存储在`h[t]`（在这种情况下为`h[1]`）中：
+
+![](img/8d9339a0-4050-4c6f-8756-c05e881ccb3c.png)
+
+按照公式`(1)`，我们要做的就是将激活函数应用于该矩阵。
+
+# 应用激活函数和最终输出
+
+对于 RNN，`tanh`是激活函数的不错选择。 因此，在应用`tanh`之后，矩阵如下所示：
+
+![](img/fefb7cb2-a21e-4ac2-8aaa-84401ab2bf71.png)
+
+我们得到了`h[t]`的结果。 `ht`充当下一个时间步的`h[t-1]`。 现在，我们将使用公式`(2)`计算`y[t]`的值。 我们将需要另一个随机初始化的权重矩阵`W[hy]`（形状为`4 x 3`）：
+
+![](img/281bbcd0-d1ba-46a1-9998-7609b6319c5f.png)
+
+应用第二个方程式后，`y[t]`的值变为`4 x 1`矩阵：
+
+![](img/0a969531-c833-44fd-8c6f-f034c65b267d.png)
+
+现在，为了预测`w`之后的下一个字母是什么（请记住，我们所有的计算都以字母`w`开始，但我们仍然保留了 RNN）以从给定的词汇表中得出合适的词，我们将 softmax 函数应用于`y[t]`。 这将为词汇表中的每个字母输出一组概率：
+
+![](img/20663bb4-96fe-4e90-bf5e-5ced2e6e9e10.png)
+
+如果有人对学习 softmax 函数的外观感到好奇，可以在[这个页面](http://bit.ly/softmaxfunc)上找到一篇非常有用的文章。
+
+因此，RNN 告诉我们`w`之后的下一个字母更有可能是`a`。 至此，我们完成了 RNN 的初始遍历。 作为练习，您可以使用从此传递中获得的`ht`值，然后将其（以及下一个字母`h`）应用于 RNN 的下一传递，以了解发生了什么。
+
+现在，让我们解决最重要的问题-什么是网络学习？ 同样，权重和偏置！ 您可能已经猜到了下一个句子。 使用反向传播进一步优化了这些权重。 现在，这种反向传播与我们之前看到的有些不同。 此版本的反向传播称为**时间上**的反向传播。 我们不会对此进行学习。 在结束本节之前，让我们总结一下在 RNN 前向传递过程中执行的步骤（在词汇表进行一次热编码之后）：
+
+*   随机初始化权重矩阵。
+*   使用公式`(1)`计算`h[t]`。
+
+*   使用公式`(2)`计算`y[t]`。
+*   将 softmax 函数应用于`y[t]`，以获取词汇表中每个字母的概率。
+
+很高兴知道，除了 CNN 和 RNN 之外，还有其他类型的神经网络，例如自编码器，生成对抗网络，胶囊网络等。 在前两节中，我们详细了解了两种最强大的神经网络类型。 但是，当我们谈论前沿的深度学习应用时，这些网络是否足以被使用？ 还是我们需要在这些基础上进行更多增强？ 事实证明，尽管这些架构表现良好，但是它们无法扩展，因此需要更复杂的架构。 在下一章中，我们将介绍其中一些专门的架构。
+
+自“第 1 章”，“人工智能和机器学习基础知识揭秘”以来，我们已经涵盖了很多理论。 在接下来的几节中，我们将深入研究一些实际的例子。
+
+# 探索 Jupyter 笔记本
+
+在从事与深度学习相关的项目时，您必须处理大量的各种类型的变量和各种维度的数组。 另外，由于其中包含的数据非常庞大，并且几乎在每个步骤之后都会不断变化，因此我们需要一个工具来帮助我们观察每个步骤所产生的输出，以便我们可以继续进行操作。 Jupyter 笔记本就是这样一种工具。 Jupyter 笔记本以其简单性而闻名，它们对功能和平台的广泛支持目前是开发深度学习解决方案的标准工具。 考虑到一些顶级技术巨头提供了自己版本的工具，例如 Google Colaboratory 和 Microsoft Azure Notebooks，就可以理解其流行的原因。 此外，自 2016 年以来，流行的代码托管网站 GitHub 一直在提供 Jupyter 笔记本的本地渲染。
+
+# 安装 Jupyter 笔记本
+
+让我们从安装 Jupyter 笔记本开始。
+
+# 使用`pip`安装
+
+如果您的系统上已经安装了 Python，则可以从`pip`存储库安装 Jupyter 包，以快速开始使用 Jupyter 笔记本。
+
+对于 Python 3，请使用以下命令：
+
+```py
+python3 -m pip install --upgrade pip
+python3 -m pip install jupyter
+```
+
+对于 Python 2，请使用以下命令：
+
+```py
+python -m pip install --upgrade pip
+python -m pip install jupyter
+```
+
+对于 Mac 用户，如果找不到`pip`安装，则可以下载最新的 Python 版本，该版本随附捆绑了`pip`。
+
+# 使用 Anaconda 安装
+
+虽然可以从`pip`作为单个包安装 Jupyter，但强烈建议您安装 Python 的 Anaconda 发行版，该发行版会自动安装 Python，Jupyter 以及机器学习和数据科学所需的其他几个包。 Anaconda 使处理各种包版本和更新依赖包或依赖包变得非常容易。
+
+首先，从[这里](https://www.anaconda.com/downloads)下载适合您系统和要求的正确 Anaconda 发行版，然后按照网站上给出的相应安装步骤进行操作。
+
+# 验证安装
+
+要检查 Jupyter 是否已正确安装，请在命令提示符（Windows）或终端（Linux/Mac）中运行以下命令：
+
+```py
+jupyter notebook
+```
+
+您将能够在终端上看到一些日志输出（此后，这是 Windows 上命令提示符和 Linux 或 Mac 上终端的默认项）。 之后，您的默认浏览器将打开，您将被带到浏览器上的链接，该链接类似于下图：
+
+![](img/580396c4-cea4-4e26-9fa3-b206c340510a.png)
+
+在“文件”选项卡下，提供了一个基本文件管理器，用户可以使用该文件管理器来创建，上载，重命名，删除和移动文件。
+
+“运行”选项卡列出了所有当前正在运行的 Jupyter 笔记本，可以从显示的列表中将其关闭。
+
+“群集”选项卡提供了所有可用的 IPython 群集的概述。 为了使用此功能，您需要为您的 Python 环境安装 IPython Parallel 扩展。
+
+# Jupyter 笔记本
+
+默认情况下，Jupyter 笔记本由`.ipynb`扩展名标识。 在 Jupyter 提供的文件管理器中单击一次此类笔记本的名称后，将显示类似以下的屏幕：
+
+![](img/9585b379-18ef-43e1-9a0a-60b00b5e6efb.png)
+
+最顶部的部分称为**标头**，您可以在其中看到菜单栏，工具栏和笔记本的标题。 在标题的右侧，您可以看到笔记本在其中执行的环境，并且在运行任何任务时，环境语言名称旁边的白色圆圈变为灰色。
+
+标题下方是笔记本的主体，它由垂直堆叠的单元组成。 笔记本电脑主体中的每个单元格都是代码块，降价单元格或原始单元格。 代码单元可以在其下方附加一个输出单元，用户无法手动对其进行编辑。 这将保留与之关联的代码单元产生的输出。
+
+在 Jupyter 笔记本电脑中，键盘对于单元格的不同**模式**的行为有所不同。因此，这些笔记本电脑称为**模式**。 笔记本电脑电池可以在两种模式下运行：**命令**模式和 **editx** 模式。
+
+当单元处于命令模式时，它具有灰色边框。 在这种模式下，单元格内容无法更改。 在此模式下，键盘的键被映射到多个快捷方式，这些快捷方式可用于修改单元格或整个笔记本。
+
+在命令模式下，如果按键盘上的`Enter`键，则单元格模式将变为编辑模式。 在此模式下，可以更改单元格的内容，并可以调用浏览器中常规文本框中可用的基本键盘快捷方式。
+
+要退出编辑模式，用户可以使用`Esc`键。 要运行特定的单元格，用户必须输入`Shift + Enter`，每种情况下将执行以下操作之一：
+
+*   对于输出单元，应显示渲染的输出。
+*   对于原始单元格，输入的原始文本应可见。
+*   对于代码单元，将执行该代码，并且如果它产生一些输出，则将创建连接到该代码单元的输出单元，并在此处显示输出。 如果单元格中的代码要求输入，则将出现一个输入字段，并且该单元格的代码执行将暂停，直到提供输入为止。
+
+Jupyter 还允许使用其内置的文本编辑器来操作文本文件和 Python 脚本文件。 也可以从 Jupyter 环境中调用系统终端。
+
+# 设置基于深度学习的云环境
+
+在开始建立基于云的深度学习环境之前，我们可能想知道为什么会需要它，或者基于云的深度学习环境将如何使我们受益。 深度学习需要大量的数学计算。 在神经网络的每一层，都有一个数学矩阵与另一个或几个其他这样的矩阵相乘。 此外，每个数据点本身可以​​是向量，而不是单个实体。 现在，要训练几个重复，仅由于涉及的数学运算数量众多，这种深度学习模型将需要大量时间。
+
+支持 GPU 的机器执行这些操作的效率会更高，因为 GPU 是专门为高速数学计算而制作的，但是支持 GPU 的机器价格昂贵，而且可能并非所有人都能负担得起。 此外，考虑到多个开发人员在工作环境中使用同一个软件，为团队中的所有开发人员购买支持 GPU 的计算机可能是一个非常昂贵的选择。 由于这些原因，具有 GPU 功能的云计算环境的想法具有很强的吸引力。
+
+如今，公司越来越倾向于在其开发团队中使用支持 GPU 的云环境，这可以导致为所有开发人员创建一个通用环境，并促进高速计算。
+
+# 设置 AWS EC2 GPU 深度学习环境
+
+在本部分中，我们将学习如何在 AWS 上设置深度学习特定实例。 在开始使用 AWS 之前，您需要在 AWS 控制台上创建一个帐户。 为此，请执行以下步骤：
+
+1.  访问[这里](https://console.aws.amazon.com)，您将看到一个登录/注册屏幕。
+2.  如果您还没有 AWS 账户，请单击`Create a new AWS account`，然后按照以下步骤创建一个 AWS 账户，这可能需要您输入借记卡/信用卡详细信息才能为您的账户计费。
+3.  登录到您的帐户后，在仪表板上，单击“所有服务”部分中的 EC2，如以下屏幕截图所示：
+
+![](img/a1e52502-90c0-477b-82fa-70b9ee8e3450.png)
+
+进入 AWS 控制台内的 EC2 管理页面后，您将需要完成以下各节中的步骤，以创建满足您的深度学习需求的实例。
+
+# 步骤 1：创建启用了 EC2 GPU 的实例
+
+首先，选择 Ubuntu 16.04 或 18.04 LTS AMI：
+
+![](img/41e6aa63-bb63-4a50-bbc7-3ae7249e74f9.png)
+
+然后，选择启用 GPU 的实例配置。 `g2.2xlarge`是入门深度学习环境的不错选择：
+
+![](img/9b74f7f3-e953-46a0-a975-3d9b78497042.png)
+
+接下来，配置所需的实例设置或将其保留为默认设置，然后继续存储步骤。 在此，建议的卷大小为 30 GB。 然后，您可以继续使用默认选项启动实例。
+
+为您的实例分配一个 EC2 密钥对，以便您可以从系统通过 SSH 访问实例的终端。 如果将密钥对命名为`abc`，则名为`abc.pem`的文件将自动下载到浏览器的默认下载位置。
+
+# 步骤 2：使用 SSH 进入您的 EC2 实例
+
+打开系统上的终端，然后使用`cd`导航到`abc.pem`文件存储的目录。
+
+如果您不熟悉`cd`命令，请考虑一种情况，其中您位于名为`Folder1`的文件夹中，该文件夹包含以下内容：
+
+```py
+Folder1 /
+ - Folder2
+ - Folder3
+ - File1.jpg
+ - File2.jpg
+```
+
+要访问名为`Folder2`的文件夹内的任何文件，您必须将工作目录更改为该文件夹。 为此，可以使用`cd`命令的以下示例：
+
+```py
+cd Folder2
+```
+
+请注意，仅当您已经在`Folder1`中时，此命令才起作用。可以通过在系统上的任何位置使用`cd`命令类似的方式来访问此命令。
+
+您可以使用以下命令来了解有关 Linux 系统上任何命令用法的更多信息：
+
+```py
+man <command>
+```
+
+例如，您可以使用以下命令：
+
+```py
+man cd
+```
+
+现在，通过输入以下命令，使用密钥文件设置 SSH 所需的权限：
+
+```py
+$ chmod 400 abc.pem
+```
+
+现在，要通过 SSH 连接到您的实例，您将需要其公共 IP 或实例公共 DNS。 例如，如果公用 IP 为`1.2.3.4`，则使用以下命令：
+
+```py
+$ ssh -i abc.pem ubuntu@1.2.3.4
+```
+
+可以在 EC2 管理页面中 AWS 控制台上正在运行的实例列表下方的详细信息面板上找到 AWS 实例的公共 IP。
+
+# 步骤 3：在 GPU 实例上安装 CUDA 驱动
+
+首先，更新/安装 NVIDIA 图形驱动：
+
+```py
+$ sudo add-apt-repository ppa:graphics-drivers/ppa -y
+$ sudo apt-get update
+$ sudo apt-get install -y nvidia-xxx nvidia-settings
+```
+
+在这里，`xxx`可以替换为实例上安装的图形硬件版本，该版本可以在实例详细信息中找到。
+
+接下来，下载 CUDA deb 文件（此代码为撰写本文时的最新版本，自 2019 年 1 月起）：
+
+```py
+$ wget https://developer.download.nvidia.com/compute/cuda/10.0/secure/Prod/local_installers/cuda-repo-ubuntu1804-10-0-local-10.0.130-410.48_1.0-1_amd64.deb
+```
+
+然后，继续执行以下命令：
+
+```py
+$ sudo dpkg -i cuda-repo-ubuntu1804-10-0-local-10.0.130-410.48_1.0-1_amd64.deb
+$ sudo apt-key add /var/cuda-repo-<version>/7fa2af80.pub
+$ sudo apt-get update
+$ sudo apt-get install -y cuda nvidia-cuda-toolkit
+```
+
+要验证是否已成功安装所有内容，请运行以下命令：
+
+```py
+$ nvidia-smi
+$ nvcc -version
+```
+
+如果两个命令的输出都没有任何警告或错误，则说明安装成功。
+
+# 步骤 4：安装 Python 的 Anaconda 发行版
+
+首先，下载 Anaconda 安装程序脚本：
+
+```py
+$ wget https://repo.continuum.io/archive/Anaconda3-2018.12-Linux-x86_64.sh
+```
+
+接下来，将脚本设置为可执行文件：
+
+```py
+$ chmod +x Anaconda*.sh
+```
+
+然后，运行安装脚本：
+
+```py
+$ ./Anaconda3-2018.12-Linux-x86_64.sh
+```
+
+安装程序将询问几个选项。 要验证安装是否成功，请使用以下命令：
+
+```py
+$ python3
+```
+
+Python3 REPL 带有一个标语，反映了您实例上安装的 Anaconda 发行版，并加载到终端中。
+
+# 步骤 5：运行 Jupyter
+
+使用以下命令在实例上启动 Jupyter 笔记本服务器：
+
+```py
+$ jupyter notebook
+```
+
+终端上的输出将在打开时包含一个 URL，您可以使用该 URL 访问在 EC2 GPU 实例上运行的 Jupyter 笔记本。
+
+# 在 Crestle 上进行深度学习
+
+当您需要对系统进行更好的控制时（例如，当您希望第三方应用与您的深度学习模型一起使用时），可以使用自定义的深度学习环境，而在其他时候，您可能没有这种需求，并且您只会对以快速且协作的方式在云上执行深度学习感兴趣。 在这种情况下，支付 AWS `g2.2xlarge`实例的成本将比仅为计算时间或所用 GPU 时间支付的费用高得多。
+
+Crestle 是一项服务，以非常实惠的价格在线提供支持 GPU 的 Jupyter 笔记本电脑。 要开始使用 Crestle，请执行以下步骤：
+
+1.  登录到 [www.crestle.com](http://www.crestle.com) 。
+2.  单击“注册”，并填写显示的注册表单。
+3.  检查您的电子邮件以获取帐户确认链接。 激活您的帐户并登录。
+4.  您将被带到仪表板，在该仪表板中将找到一个读取“启动 Jupyter”的按钮。 您可以选择使用 GPU 或使其保持禁用状态。 单击“启动 Jupyter”按钮，启用 GPU 选项。
+
+您将看到在云上运行并具有 GPU 支持的 Jupyter 环境。 虽然价格会随着时间的流逝而变化，但它是截至 2020 年 1 月互联网上最实惠的解决方案之一。
+
+# 其他深度学习环境
+
+除了上述在云上执行启用 GPU 的深度学习的方式之外，您还可以在某些情况下选择使用其他平台。
+
+Google 合作实验室是一项免费的 Jupyter 笔记本服务，可通过[这里](https://colab.research.google.com)访问。 协作型笔记本存储在用户的 Google 云端硬盘上，因此存储限制为 15 GB。 可以在 Google 云端硬盘上存储大型数据集，并借助 Google 云端硬盘 Python API 将其包含在项目中。 默认情况下，GPU 在 Colaboratory 上处于禁用状态，必须手动打开。
+
+Kaggle 是又一个专门用于进行数据科学竞赛的平台。 它提供了一个类似于 Jupyter 笔记本的环境，称为**内核**。 每个内核都提供了大量的 RAM 和免费的 GPU 功能，但是，Kaggle 的存储限制比 Google Colaboratory 上的存储限制更为严格，因此，当计算密集但要使用的数据量较大时，这是一个有效的选择。 输出不是很大。
+
+# 探索 NumPy 和 Pandas
+
+NumPy 和 pandas 是几乎所有可用 Python 语言提供的与数据科学相关的库的骨干。 虽然 Pandas 构建在 NumPy 之上，但 NumPy 本身就是 Python 围绕高性能 C 代码的包装，以促进 Python 中纯数学形式所能提供的卓越数学计算。
+
+几乎所有以某种方式用 Python 开发的深度学习软件都依赖 NumPy 和 pandas。 因此，重要的是要充分了解两个库及其可以提供的功能。
+
+# NumPy
+
+NumPy 是**数值 Python** 的首字母缩写。 原始 Python 缺少数组的实现，数组是用于开发机器学习模型的数学矩阵的紧密相似形式。 NumPy 为 Python 提供了对多维数组和高性能计算功能的支持。 可以使用以下`import`语句将其包含在任何 Python 代码中：
+
+```py
+import numpy as np
+```
+
+`np`是导入 NumPy 的常用约定。
+
+# NumPy 数组
+
+在 NumPy 中有几种创建数组的方法。 以下是一些值得注意的：
+
+*   `np.array`：要将 Python 列表转换为 NumPy 数组：
+
+![](img/bea02ad3-cb06-4762-8ddd-1ecd8acd8a7a.png)
+
+*   `np.ones`或`np.zeros`：要创建全 1 或全 0 的 NumPy 数组，请执行以下操作：
+
+![](img/be91b2e2-dce0-40eb-ae79-746dd9ddb97c.png)
+
+*   `np.random.rand`：要生成一个随机数数组：
+
+![](img/e5956406-688a-4c1b-986c-d73d3ef30bff.png)
+
+*   `np.eye`：要生成给定方阵尺寸的单位矩阵：
+
+![](img/3468a284-89f9-41d5-ba9e-8cadbfd6ca35.png)
+
+现在让我们看一下基本的 NumPy 数组操作。
+
+# NumPy 数组的基本操作
+
+NumPy 数组是数学矩阵的 Python 类似物，因此它们支持所有基本类型的算术运算，例如加法，减法，除法和乘法。
+
+让我们声明两个 NumPy 数组，并将它们存储为`array1`和`array2`：
+
+```py
+array1 = np.array([[10,20,30], [40, 50, 60], [70, 80, 90]])
+array2 = np.array([[90, 80, 70], [60, 50, 40], [30, 20, 10]])
+```
+
+现在让我们看一下这些数组上每个算术运算的一些示例：
+
+*   **加法**：
+
+![](img/170428ce-55de-4a81-bf59-4ea0b5e9af4a.png)
+
+*   **减法**：
+
+![](img/ad215dbc-939b-4eff-a0be-e217c9cc2bf5.png)
+
+*   **乘法**：
+
+![](img/780c5000-1e48-466d-8e60-de7561b8d815.png)
+
+*   **除法**：
+
+![](img/d1097939-d2ab-4455-a459-056d54e7e468.png)
+
+现在让我们将 NumPy 数组与 Python 列表进行比较。
+
+# NumPy 数组与 Python 列表
+
+现在让我们看看 NumPy 数组如何提供优于 Python 列表的优势。
+
+# 多个行和列上的数组切片
+
+虽然无法在 Python 中对列表列表进行切片，从而无法在列表列表中选择特定数量的行和列，但是 NumPy 数组切片根据以下语法工作：
+
+`Array [ rowStartIndex : rowEndIndex, columnStartIndex : columnEndIndex ]`
+
+这是一个例子：
+
+![](img/3f6ed47b-cf3a-42f9-9413-9e6a146e5577.png)
+
+在前面的示例中，我们能够在 NumPy 数组`a`中选择两行以及这些行的所有元素。
+
+# 切片赋值
+
+虽然无法将值分配给 Python 列表切片，但 NumPy 允许将值分配给 NumPy 数组。 例如，要将 4 分配给 NumPy 一维数组的第三到第五个元素，我们可以使用以下代码：
+
+```py
+arr[2:5] = 4
+```
+
+接下来，我们将看 Pandas。
+
+# Pandas
+
+pandas 建立在 NumPy 之上，是使用 Python 进行数据科学使用最广泛的库之一。 它有助于实现高性能的数据结构和数据分析方法。 Pandas 提供了一个称为`DataFrame`的内存中二维表对象，该对象又由称为数组的一维，类似数组的结构组成。
+
+Pandas 中的每个`DataFrame`都采用类似电子表格的表格的形式，带有行标签和列标题。 可以执行基于行或基于列的操作，或同时执行这两个操作。 Pandas 与 matplotlib 紧密集成，可提供几种直观的数据可视化效果，在进行演示或探索性数据分析过程中通常非常有用。
+
+要将 Pandas 导入到 Python 项目中，请使用以下代码行：
+
+```py
+import pandas as pd
+```
+
+在这里，`pd`是导入 Pandas 的通用名称。
+
+Pandas 提供以下数据结构：
+
+*   `Series`：一维数组或向量，类似于表中的列
+*   `DataFrames`：二维表，带有表标题和行标签
+*   `Panel`：`DataFrames`的字典，很像一个 MySQL 数据库，其中包含多个表
+
+可以使用`pd.Series( )`方法创建一个 Pandas 序列，而可以使用`pd.DataFrame( )`方法创建一个`DataFrame`-例如，在下面的代码中，我们使用多个序列对象创建一个 Pandas`DataFrame`对象：
+
+```py
+import pandas as pd
+
+employees = pd.DataFrame({ "weight": pd.Series([60, 80, 100],index=["Ram", "Sam", "Max"]),"dob": pd.Series([1990, 1970, 1991], index=["Ram", "Max", "Sam"], name="year"),"hobby": pd.Series(["Reading", "Singing"], index=["Ram", "Max"])})
+
+employees
+```
+
+前面代码的输出如下：
+
+![](img/0eac47bd-7093-4c7e-a082-545d3e511900.png)
+
+Pandas`DataFrame`可用的一些最重要的方法如下：
+
+*   `head(n)`或`tail(n)`：要在数据帧的`n`行中显示顶部或底部。
+*   `info( )`：显示有关`DataFrame`的所有列，维度和数据类型的信息。
+*   `describe( )`：显示有关`DataFrame`中每个列的便捷汇总和统计信息。 非数字的列将被省略。
+
+# 总结
+
+在本章中，我们介绍了许多不同的内容。 我们从学习神经网络的基础开始，然后逐步进行。 我们了解了当今使用的两种最强大的神经网络类型-CNN 和 RNN-并且还从较高的层次上了解了它们，但没有跳过它们的基本单元。 我们了解到，随着神经网络复杂性的增加，它需要大量的计算能力，而哪些标准计算机可能无法满足我们的需求，我们看到了如何通过使用两个不同的供应商（AWS 和 。 我们探索了 Jupyter 笔记本，这是用于执行深度学习任务的强大工具。 我们了解了两个非常流行的 Python 库（NumPy 和 pandas）的用法。 当执行深度学习任务时，这两个库都被广泛使用。
+
+在下一章中，我们将构建应用并集成深度学习以使其智能执行。 但是在执行此操作之前，对我们来说重要的是要了解本章介绍的基础知识。 我们现在可以进入下一章了。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/03.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/03.md
new file mode 100644
index 00000000..fb6484cf
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/03.md
@@ -0,0 +1,777 @@
+# 三、创建您的第一个深度学习 Web 应用
+
+在对神经网络及其在实际项目中使用的设置有了了解之后，自然而然的下一步就是开发基于 Web 的深度学习应用。 本章致力于创建一个完整的 Web 应用，尽管它是一个非常简单的应用，但它以一种非常简单的方式演示了如何完成应用中深度学习的集成。
+
+本章将介绍将在本书中使用的几个术语，因此，即使对于已经对深度学习 Web 应用有基本了解的您也可以阅读，这是一个推荐读物，以便您能够理解以后各章中使用的术语。 。 我们将从构建深度学习 Web 应用开始，并学习如何理解数据集。 然后，我们将使用 Python 实现一个简单的神经网络，并创建一个 Flask API 以与服务器端 Python 一起使用。
+
+本章将讨论以下主题：
+
+*   构建深度学习 Web 应用
+*   了解数据集
+*   使用 Python 实现简单的神经网络
+*   创建与服务器端 Python 一起使用的 Flask API
+*   在 Flask 中使用 cURL 和 Web 客户端
+*   改善深度学习后端
+
+# 技术要求
+
+您可以通过[这里](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter3)访问本章中使用的代码。
+
+对于本章，您将需要以下内容：
+
+*   Python 3.6+
+*   Flask 1.1.0+
+*   TensorFlow 2.0+
+
+# 构建深度学习 Web 应用
+
+解决拼图游戏时，重要的是要使零件合适，而不是将它们强迫在一起。 同样，在开发软件解决方案时，解决方案的各个部分必须无缝地协同工作，并且它们之间的交互必须易于理解。 好的软件需要适当的软件计划。 因此，为软件的长期使用和将来的维护提供坚实的软件结构至关重要。
+
+在开始创建第一个可在 Web 上使用的深度学习应用之前，我们必须画出解决方案的蓝图，同时牢记我们希望解决的问题以及针对这些问题的解决方案。 这很像我们在网站开发过程中计划认证系统或将表单值从一页传递到另一页的方式。
+
+通用的深度学习 Web 解决方案将需要以下组件：
+
+*   可以存储数据并响应查询的服务器
+*   一个可以使用存储的数据并对其进行处理以生成基于深度学习的查询响应的系统
+*   客户端可以将数据发送到服务器进行存储，使用新数据发送查询，最后在查询深度学习系统后接受并使用服务器发送的响应
+
+让我们尝试使用图表来可视化此结构。
+
+# 通用深度学习 Web 应用的结构图
+
+下图描述了 Web 客户端，Web 服务器和深度学习模型之间的交互：
+
+![](img/f8763b49-1e75-456b-85d4-6b65ae1d8286.png)
+
+我们将创建三个软件部分-客户端，服务器和深度学习模型-它们将一起工作。 为此，客户端将向服务器发出 HTTP 请求，作为回报，服务器将产生从经过单独训练的深度学习模型中获取的输出。 该模型可能会或可能不会在服务器上响应客户端发出的 HTTP 请求的文件中执行。 在大多数情况下，深度学习模型与处理 HTTP 请求的文件分开。
+
+在本章介绍的示例中，我们将在单独的文件中提供服务器，客户端和深度学习模型。 我们的客户端将向服务器发送简单的 HTTP 请求，例如页面加载请求或 URL 的`GET`请求，这些请求将基于传递的查询从深度学习模型中产生输出。 但是，客户端通过 REST API 与服务器通信是非常常见的做法。
+
+现在，让我们继续了解应用将要处理的数据集。
+
+# 了解数据集
+
+至关重要的是，我们必须正确理解我们正在处理的数据集，以便以最有效的代码在执行时间和空间方面获得最佳结果。 当使用带有图像的神经网络时，我们将在此处使用的数据集可能是最受欢迎的数据集-手写数字的 MNIST 数据库。
+
+# MNIST 手写数字数据集
+
+该数据集由 Yann LeCun，Corinna Cortes 和 Christopher J.C. Burges 组成的团队创建。 它是手写数字图像的大集合，其中包含 60,000 个训练样本和 10,000 个测试样本。 该数据集可从[这里](http://yann.lecun.com/exdb/mnist/)公开下载，其中以四个`.gz`压缩文件的形式存在。
+
+四个文件如下：
+
+*   `train-images-idx3-ubyte.gz`：训练集图像。 这些图像将用于训练神经网络分类器。
+*   `train-labels-idx1-ubyte.gz`：训练集标签。 训练集中的每个图像都将具有与其关联的标签，该标签是该图像中可见的相应数字。
+*   `t10k-images-idx3-ubyte.gz`：测试仪图像。 我们将使用这些图像来测试我们的神经网络预测准确率。
+*   `t10k-labels-idx1-ubyte.gz`：测试集中图像的标签。 当我们的神经网络对测试集进行预测时，我们会将其与这些值进行比较以检查结果。
+
+此数据集中存储的图像由于其自定义格式而无法直接用于查看。 期望数据集上的开发人员为图像创建自己的简单查看器。 完成此操作后，您将能够看到图像，如下所示：
+
+![](img/b1fb5c7a-789d-4a36-88df-0aab844dd80a.png)
+
+让我们更深入地讨论图像。 如您所见，它们在两个轴上都超过 25 个像素标记。 确切地说，图像都是`28 x 28`像素的形式。 现在，由于图像是灰度图像，因此可以将它们存储在`28 x 28`的单层矩阵中。 因此，我们共有 784 个值，范围从 0 到 1，其中 0 表示一个完全暗的像素，而 1 表示一个白色像素。 该范围内的任何东西都是黑色阴影。 在 MNIST 数据集中，这些图像以 784 个浮点数的展平数组形式出现。 为了查看这些图像，您需要将一维数组转换为`28 x 28`形状的二维数组，然后使用任何自行开发或公共可用的工具（例如 Matplotlib 或 Pillow 库）绘制图像。
+
+让我们在接下来的部分中讨论这种方法。
+
+# 探索数据集
+
+让我们从 MNIST 数据集网页上下载所有四个文件开始，这些文件可从[这里](http://yann.lecun.com/exdb/mnist)获得。 下载后，解压缩所有文件，您应该拥有与以下列表中的名称相似的文件夹：
+
+*   `train-images.idx3-ubyte`
+*   `train-labels.idx1-ubyte`
+*   `t10k-images.idx3-ubyte`
+*   `t10k-labels.idx1-ubyte`
+
+将这些文件保存在您的工作目录中。 现在，我们将创建一个 Jupyter 笔记本，对提取的数据集文件执行**探索性数据分析**（**EDA**）。
+
+在浏览器中打开 Jupyter 笔记本环境，然后创建一个新的 Python 笔记本。 让我们从导入必要的模块开始：
+
+```py
+import numpy as np
+import matplotlib.pyplot as plt
+```
+
+前几行将`numpy`模块和`matplotlib.pyplot`导入到项目中。 `numpy`模块提供了 Python 中的高性能数学函数，而`matplotlib.pyplot`模块提供了用于绘制和可视化图形和图像的简单界面。 为了在 Jupyter 笔记本中查看此库的所有输出，请添加以下代码行：
+
+```py
+%matplotlib inline
+```
+
+如果您使用的是 Windows，则要提取`.gz`文件，可以使用 7-zip 软件，它是一款出色的压缩/解压缩工具，可以从[这里](https://www.7-zip.org)免费下载。
+
+# 创建读取图像文件的函数
+
+如前所述，无法直接查看下载的图像文件中的图像。 因此，我们现在将在 Python 中创建一个函数，`matplotlib`模块将可以使用该函数来显示文件中的图像：
+
+```py
+def loadImageFile(fileimage):
+  f = open(fileimage, "rb")
+
+  f.read(16)
+  pixels = 28*28
+  images_arr = []
+
+  while True:
+    try:
+      img = []
+      for j in range(pixels):
+        pix = ord(f.read(1))
+        img.append(pix / 255)
+      images_arr.append(img)
+    except:
+      break
+
+  f.close()
+  image_sets = np.array(images_arr)
+  return image_sets
+
+```
+
+前面的`loadImageFile`函数采用单个参数，该参数是包含图像的文件的名称。 在下载的文件文件夹中，我们有两个可用的此类文件：`train-images-idx3-ubyte`和`t10k-images-idx3-ubyte`。 先前函数的输出是`numpy`图像数组。 我们可以将结果存储在 Python 变量中，如下所示：
+
+```py
+test_images = loadImageFile("t10k-images-idx3-ubyte")
+```
+
+现在，要查看包含`numpy`图像数组的变量中的图像，我们可以定义另一个函数，该函数采用单个图像的 784 个浮点数的像素数组并将其绘制为单个图像。 该函数可以如下所示定义：
+
+```py
+def gen_image(arr):
+ two_d = (np.reshape(arr, (28, 28)) * 255).astype(np.uint8)
+ plt.imshow(two_d, interpolation='nearest', cmap='gray')
+ plt.show()
+ return
+```
+
+现在，假设我们要显示第一个测试图像； 因为我们已经将`numpy`图像数组存储在`test_images`变量中，所以我们可以运行以下代码：
+
+```py
+gen_image(test_images[0])
+```
+
+我们可以看到以下输出：
+
+![](img/67d8fcf8-1084-4a0e-aa5e-39b2ee798280.png)
+
+现在我们已经可以查看图像了，我们可以继续构建一个函数，该函数将允许我们从标签中提取相应的数字。
+
+# 创建读取标签文件的函数
+
+MNIST 数据集中有两个可用的标签文件：`train-labels-idx1-ubyte`和`t10k-labels-idx1-ubyte`。 要查看这些文件，我们可以使用以下函数，该函数将文件名的输入作为参数并生成一个由单热编码的标签组成的数组：
+
+```py
+def loadLabelFile(filelabel):
+  f = open(filelabel, "rb")
+
+  f.read(8)
+
+  labels_arr = []
+
+  while True:
+    row = [0 for x in range(10)]
+    try:
+      label = ord(f.read(1))
+      row[label] = 1
+      labels_arr.append(row)
+    except:
+      break
+
+  f.close()
+  label_sets = np.array(labels_arr)
+  return label_sets
+```
+
+此函数以单热点编码返回`numpy`标签数组，数据集中样本数量的维数乘以 10。为了观察一热点编码的本质，我们观察一个条目。 运行以下代码，该代码实际上从测试集中的第一个样本打印出单热编码的标签集：
+
+```py
+test_labels = loadLabelFile("t10k-labels-idx1-ubyte")
+print(test_labels[0])
+```
+
+我们得到以下输出：
+
+```py
+[0 0 0 0 0 0 0 1 0 0]
+```
+
+我们可以注意到这一点，因为在第七个索引处的数字是`1`，所以测试数据集中第一张图像的标签是`7`。
+
+# 数据集摘要
+
+在对可用数据集进行了非常简洁的探索之后，我们可以得出以下结果。
+
+训练数据集包含 60,000 张图像，尺寸为`60,000 x 784`，其中每张图像为`28 x 28`像素。 样本在数字之间的分布如下：
+
+| **序号** | **样本数** | **序号** | **样本数** |
+| --- | --- | --- | --- |
+| 0 | 5,923 | 5 | 5,421 |
+| 1 | 6,742 | 6 | 5,918 |
+| 2 | 5,958 | 7 | 6,265 |
+| 3 | 6,131 | 8 | 5,851 |
+| 4 | 5,842 | 9 | 5,949 |
+
+观察到`5`位数比`1`位数少。 因此，未经良好训练的模型很可能在识别数字`5`时出错。
+
+标签数量的摘要告诉我们，所有 60,000 个样本都具有其相应的标签，并且没有一个标签缺失。
+
+同样，在测试数据集上，我们有 10,000 个图像和标签，样本数量的分布如下：
+
+| **序号** | **样本数** | **序号** | **样本数** |
+| --- | --- | --- | --- |
+| 0 | 980 | 5 | 892 |
+| 1 | 1,135 | 6 | 958 |
+| 2 | 1,032 | 7 | 1,028 |
+| 3 | 1,010 | 8 | 974 |
+| 4 | 982 | 9 | 1,009 |
+
+测试数据集中的样本数量分布相当均匀。
+
+# 使用 Python 实现简单的神经网络
+
+在进行了非常基本的数据分析之后，我们可以继续使用 Python 编写我们的第一个神经网络。 在继续之前，您可以在“第 2 章”中复习神经网络的概念。 现在，我们将创建一个**卷积神经网络**（**CNN**），该网络将预测手写数字标签。
+
+我们首先创建一个新的 Jupyter 笔记本。 您可以将其命名为`Model.ipynb`以作为约定。 该笔记本将用于开发深度学习模型的**转储**版本，随后将其放入将生成预测的脚本中。
+
+# 导入必要的模块
+
+`Model.ipynb`所需的模块如下导入：
+
+```py
+import numpy as np
+import keras
+from keras.models import Sequential
+from keras.layers import Dense, Dropout, Flatten, Activation
+from keras.layers import Conv2D, MaxPooling2D
+from keras import backend as K
+from keras.layers.normalization import BatchNormalization
+```
+
+需要`keras`模块才能通过 TensorFlow 后端快速实现高性能神经网络。 我们已经在前面的章节中讨论过 Keras。 要安装 Keras，可以使用以下命令：
+
+```py
+pip3 install keras 
+```
+
+上面的命令将安装 Keras。
+
+# 复用我们的函数来加载图像和标签文件
+
+还记得我们在探索数据集期间创建的`loadImageFile`和`loadLabelFile`函数吗？ 我们将再次需要它们，因此将这些相同的函数复制到此笔记本中。
+
+它们一起为每个函数生成两个代码单元：
+
+*   `loadImageFile()`方法
+*   `loadLabelFile()`方法
+
+在新的代码单元中，我们创建`loadImageFile()`函数：
+
+```py
+def loadImageFile(fileimage):
+  f = open(fileimage, "rb")
+
+  f.read(16)
+  pixels = 28*28
+  images_arr = []
+
+  while True:
+    try:
+      img = []
+      for j in range(pixels):
+        pix = ord(f.read(1))
+        img.append(pix / 255)
+      images_arr.append(img)
+    except:
+      break
+
+  f.close()
+  image_sets = np.array(images_arr)
+  return image_sets
+```
+
+在另一个新的代码单元中，创建了`loadLabelFile()`函数：
+
+```py
+def loadLabelFile(filelabel):
+  f = open(filelabel, "rb")
+  f.read(8)
+
+  labels_arr = []
+
+  while True:
+    row = [0 for x in range(10)]
+    try:
+      label = ord(f.read(1))
+      row[label] = 1
+      labels_arr.append(row)
+    except:
+      break
+
+  f.close()
+  label_sets = np.array(labels_arr)
+  return label_sets
+```
+
+然后，我们可以使用以下代码行以`numpy`数组的形式导入图像和标签文件：
+
+```py
+train_images = loadImageFile("train-images-idx3-ubyte")
+train_labels = loadLabelFile("train-labels-idx1-ubyte")
+
+test_images = loadImageFile("t10k-images-dx3-ubyte")
+test_labels = loadLabelFile("t10k-labels-idx1-ubyte")
+```
+
+这将创建`train_images`，`train_labels`，`test_images`和`test_labels` NumPy 数组。 我们可以观察它们的形状，并获得`train_images`的以下输出：
+
+```py
+(60000, 784)
+```
+
+接下来，我们将学习如何重塑数组以进行 Keras 处理。
+
+# 为使用 Keras 而重塑数组
+
+图像数组的当前形状不适合 Keras。 我们必须将图像数组分别转换为`(60000, 28, 28, 1)`和`(10000, 28, 28, 1)`的形状。
+
+为此，我们使用以下代码行：
+
+```py
+x_train = train_images.reshape(train_images.shape[0], 28, 28, 1)
+x_test = test_images.reshape(test_images.shape[0], 28, 28, 1)
+```
+
+现在，如果我们观察`x_train`的形状，则会得到如下输出：
+
+```py
+(60000, 28, 28, 1)
+```
+
+我们对标签数组没有任何更改，因此我们将它们直接分配给`y_train`和`y_test`：
+
+```py
+y_train = train_labels
+y_test = test_labels
+```
+
+接下来，我们将使用 Keras 创建一个神经网络。
+
+# 使用 Keras 创建神经网络
+
+现在，我们准备继续创建神经网络：
+
+1.  我们将首先在 Keras 中创建`Sequential`神经网络模型：
+
+```py
+model = Sequential()
+```
+
+2.  要将神经元层添加到网络，我们使用以下代码：
+
+```py
+model.add(Conv2D(32, (3, 3), input_shape=(28,28,1)))
+```
+
+这会将二维卷积神经元层添加到网络，其输入形状与图像的形状相同。
+
+3.  现在，让我们添加带有`relu`作为激活函数的激活层：
+
+```py
+model.add(Activation('relu'))
+```
+
+4.  添加激活层后，我们可以执行批量归一化。 在训练期间，数据会经过几个计算层，并且可能变得太大或太小。 这被称为**协变量移位**，批量归一化有助于将数据带回到中心区域。 这有助于神经网络更快地训练：
+
+```py
+BatchNormalization(axis=-1)
+```
+
+5.  现在让我们向模型添加更多隐藏层：
+
+```py
+model.add(Conv2D(32, (3, 3)))
+model.add(Activation('relu'))
+model.add(MaxPooling2D(pool_size=(2,2)))
+
+BatchNormalization(axis=-1)
+model.add(Conv2D(64,(3, 3)))
+model.add(Activation('relu'))
+BatchNormalization(axis=-1)
+model.add(Conv2D(64, (3, 3)))
+model.add(Activation('relu'))
+model.add(MaxPooling2D(pool_size=(2,2)))
+
+model.add(Flatten())
+
+BatchNormalization()
+model.add(Dense(512))
+model.add(Activation('relu'))
+BatchNormalization()
+model.add(Dropout(0.2))
+```
+
+6.  在神经网络的最后一层，我们需要以热编码的形式输出 10 个值，以表示已预测的数字。 为此，我们添加了`10`神经元的最后一层。 这将在`0`到`1`的连续范围内保存 10 个值：
+
+```py
+model.add(Dense(10))
+```
+
+7.  最后，要将这 10 个浮点值转换为单点编码，我们使用`softmax`激活：
+
+```py
+model.add(Activation('softmax'))
+```
+
+现在让我们编译和训练 Keras 神经网络。
+
+# 编译和训练 Keras 神经网络
+
+现在，我们准备编译和训练神经网络。 要编译神经网络，我们使用以下代码：
+
+```py
+model.compile(loss=keras.losses.categorical_crossentropy,
+              optimizer=keras.optimizers.Adam(),
+              metrics=['accuracy'])
+```
+
+在我们的模型中（我们在前面的代码块中进行了编译），我们将分类交叉熵设置为`loss`函数； 所使用的优化程序函数是`Adam`优化程序，评估指标是`accuracy`。
+
+然后，我们使用 Keras 模型对象的`fit()`方法训练神经网络：
+
+```py
+model.fit(x_train, y_train,
+          batch_size=100,
+          epochs=10,
+          verbose=2,
+          validation_split=0.2)
+```
+
+建议您将训练数据分解为进一步的验证和训练数据，同时保持测试集不变，但是对于此数据集而言，这是很好的。
+
+训练完成了 10 个批量，批量大小为 100 个样本。
+
+# 评估和存储模型
+
+训练模型后，我们现在准备评估其准确率。 为此，我们将使用以下代码：
+
+```py
+score = model.evaluate(x_test, y_test, verbose=1)
+
+print('Test loss:', score[0])
+print('Test accuracy:', score[1])
+```
+
+对于前面的代码，我们将获得以下输出：
+
+![](img/523c24c1-f2c0-4d35-88e5-10b86c746140.png)
+
+我们获得了 99% 的准确率，这是一个非常不错的准确率得分。 现在，我们可以保存模型，该模型将在将来用于通过 Web 门户对用户输入进行预测。 我们将模型分为两部分-模型结构和模型权重。 为了保存结构，我们将使用 JSON 格式，如下所示：
+
+```py
+model_json = model.to_json()
+with open("model.json", "w") as json_file:
+    json_file.write(model_json)
+```
+
+现在，为了保存 Keras 模型的权重，我们对对象使用`save_weights()`方法：
+
+```py
+model.save_weights('weights.h5')
+```
+
+接下来，我们将创建一个 Flask API 来与服务器端 Python 一起使用。
+
+# 创建 Flask API 来与服务器端 Python 协作
+
+我们已经完成了深度学习模型，并将其结构存储在`model.json`文件中，并将模型的权重存储在`weights.h5`文件中。 现在，我们准备将模型数据包装在 API 中，以便可以通过`GET`或`POST`方法将模型公开给基于 Web 的调用。 在这里，我们将讨论`POST`方法。 让我们从服务器上所需的设置开始。
+
+# 搭建环境
+
+在服务器中，我们将需要 Flask 模块（将成为服务请求），而后者又将运行需要 Keras（因此需要 TensorFlow），NumPy 和许多其他模块的代码。 为了快速为我们的项目设置环境，我们遵循以下步骤：
+
+1.  安装 Anaconda。
+2.  安装 TensorFlow 和 Keras。
+3.  安装 Pillow。
+4.  安装 Flask。
+
+您可以参考以下命令块来安装 TensorFlow，Keras，Pillow 和 Flask：
+
+```py
+pip3 install tensorflow keras pillow flask
+```
+
+现在，我们准备开始开发我们的 API。
+
+# 上传模型结构和权重
+
+模型目录文件`model.json`和权重文件`weights.h5`必须存在于工作目录中。 您可以将文件复制到新文件夹（例如`flask_api`），如果使用远程服务器，则可以将它们上传到正确的路径。
+
+# 创建我们的第一个 Flask 服务器
+
+在工作目录中创建一个新文件，并将其命名为`flask_app.py`。 该文件将处理所有对服务器的请求。 将以下代码放入文件中：
+
+```py
+from flask import Flask
+app = Flask(__name__)
+@app.route("/")
+def index():
+    return "Hello World!"
+if __name__ == "__main__":
+    app.run(host='0.0.0.0', port=80)
+```
+
+前面的代码首先将必要的模块导入脚本。 然后，它将应用设置为 Flask 服务器对象，并定义了`index`函数，该指令具有处理对`"/"`地址发出的所有请求的指令，而与请求的类型无关。 在脚本末尾，使用 Flask 对象应用的`run()`方法将脚本绑定到系统上的指定端口。
+
+现在，我们可以部署此简单的 *HelloWorld* Flask 服务器。 我们在终端中运行以下命令：
+
+```py
+python flask_app.py
+```
+
+现在，当我们在浏览器中打开`http://localhost/` URL 时，将看到一个页面，其中显示`Hello World`。 `index`函数处理在服务器根目录处发出的请求，因为其路由设置为`"/"`。 现在让我们将此示例扩展为创建一个可以处理专门用于预测的请求的 API。
+
+# 导入必要的模块
+
+在前面的示例中，我们将扩展`flask import`语句以导入其他方法`request`，这将使我们能够处理对服务器的`POST`请求。 该行如下所示：
+
+```py
+from flask import Flask, request
+```
+
+然后，我们导入读取和存储图像所需的模块。 同样，`numpy`模块也按以下代码片段所示导入：
+
+```py
+from scipy.misc import imread, imresize
+import numpy as np
+```
+
+最后，我们导入 Keras 模块的`model_from_json()`方法以加载保存的模型文件。 然后，我们导入`tensorflow`，因为 Keras 依赖于它执行：
+
+```py
+from keras.models import model_from_json
+import tensorflow as tf
+```
+
+接下来，我们将数据加载到脚本运行时中。
+
+# 将数据加载到脚本运行时并设置模型
+
+导入必要的模块后，我们将加载保存的模型 JSON 和权重，如以下代码片段所示：
+
+```py
+json_file = open('model.json','r')
+model_json = json_file.read()
+json_file.close()
+model = model_from_json(model_json)
+
+model.load_weights("weights.h5")
+model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])
+graph = tf.get_default_graph()
+```
+
+请注意，我们还为前面的会话创建了默认的`graph`项目。 它是在模型训练期间隐式创建的，但未保存在保存的`model`和`weights`文件中，因此我们必须在此处显式创建它。
+
+# 设置应用和主页函数
+
+现在，我们将`app`变量设置为 Flask 对象，并将`index`路由设置为`index`函数处理，该函数实际上不会产生任何有意义的输出。 这是因为我们将使用`/predict`路由来提供我们的预测 API，如下所示：
+
+```py
+app = Flask(__name__)
+
+@app.route('/')
+def index():
+    return "Oops, nothing here!"
+```
+
+我们将在下一节介绍转换图像函数。
+
+# 转换图像的函数
+
+如果用户使用适当的设置发出图像`POST`请求，有时我们可能会以`base64`编码字符串的形式获取图像。 我们可以创建一个函数来处理：
+
+```py
+import re
+import base64
+
+def stringToImage(img):
+    imgstr = re.search(r'base64,(.*)', str(img)).group(1)
+    with open('image.png', 'wb') as output:
+        output.write(base64.b64decode(imgstr))
+```
+
+我们将`re`模块用于正则表达式，以确定传递的数据是否为`base64`字符串形式。 需要`base64`模块来解码字符串，然后将文件另存为`image.png`。
+
+# 预测 API
+
+现在，让我们定义`/predict`路由，这将是我们的 API 通过以下方式响应预测的数字：
+
+```py
+@app.route('/predict/', methods=['POST'])
+def predict():
+    global model, graph
+
+    imgData = request.get_data()
+    try:
+        stringToImage(imgData)
+    except:
+        f = request.files['img']
+        f.save('image.png')
+
+    x = imread('image.png', mode='L')
+    x = imresize(x, (28, 28))
+    x = x.reshape(1, 28, 28, 1)
+
+    with graph.as_default():
+        prediction = model.predict(x)
+        response = np.argmax(prediction, axis=1)
+        return str(response[0])
+```
+
+在这里，`predict()`函数接受`POST`方法输入，检查文件的传入格式，然后将其保存为名称为`image.png`的磁盘。 然后，将图像读入程序并调整为`28 x 28`尺寸。 接下来，对图像数组进行整形，以便可以将其放入 Keras 模型中进行预测。 然后，我们使用 Keras 模型的`predict()`方法，并获得单热编码的输出，其预测数字的索引设置为`1`，其余的保持为`0`。 我们确定数字并将其发送到 API 的输出。
+
+现在，我们必须在文件末尾添加代码，以将服务器绑定到端口并设置所需的配置：
+
+```py
+if __name__ == "__main__":
+    app.run(host='0.0.0.0', port=80)
+    app.run(debug=True)
+```
+
+我们已经设置了`debug=True`参数，以便能够在服务器的控制台中查看服务器上是否发生任何错误。 在开发过程中，这始终是一个好主意，但在生产中，可以跳过此行代码。
+
+运行应用之前的最后一步是更新`'/'`路由的代码。 每当有人调用此路由时，我们都会加载我们创建的`index.html`项目，如下所示：
+
+```py
+@app.route('/')
+def index():
+    return render_template("index.html")
+```
+
+现在，我们都准备启动服务器并检查它是否正常运行。 我们使用与之前用于启动服务器相同的命令：
+
+```py
+python flask_app.py
+```
+
+前面的命令将启动服务器。
+
+# 通过 cURL 使用 API ​​并使用 Flask 创建 Web 客户端
+
+在服务器运行的情况下，我们可以向其发送`POST`请求以及图像内容，并期望输出中有预测的数字。 无需任何第三方工具即可测试两种 API 的两种方法如下：
+
+*   使用 cURL。
+*   开发客户端来调用 API。
+
+我们将介绍这两种方法。
+
+# 通过 cURL 使用 API
+
+在开发客户端以将`POST`请求发送到 API 服务器之前，让我们通过 cURL 测试 API，cURL 是用于模拟对 URL 的`GET`和`POST`请求的命令行工具。
+
+在终端或命令提示符中使用以下命令向您的预测 API 发出`curl`请求：
+
+```py
+curl -X POST -F img=@"path_to_file" http://localhost/predict/
+```
+
+此处，`-F`标志用于指示`POST`请求将包含文件。 用于保存文件的`POST`变量的名称为`img`，应将`path_to_file`替换为您要发送到服务器的文件的完整路径，以获取要进行预测的图像 。
+
+让我们来看一个示例的 API。
+
+假设我们有以下图片，文件名为`self2.png`，尺寸为`275 x 275`：
+
+![](img/c1178ecc-74c4-4240-9fa9-5fa0ff8e6c67.png)
+
+显然，必须在服务器端调整图像尺寸。 要发出请求，我们使用以下命令：
+
+![](img/a9e4c932-14ec-410e-81ec-255822daa48e.png)
+
+API 的输出是单个整数-`2`。 因此，API 成功运行。
+
+# 为 API 创建一个简单的 Web 客户端
+
+现在，我们将创建一个准系统的 Web 客户端来调用 API。 为此，我们必须修改当前代码。 在`flask_app.py`中，首先将 Flask 的`import`语句更改为将其扩展到另一个模块`render_template`，如下所示：
+
+```py
+from flask import Flask, request, render_template
+```
+
+现在，我们在工作目录中创建一个文件夹`templates`，并使用以下代码向其中添加一个文件`index.html`：
+
+```py
+<!DOCTYPE html>
+<html lang="en">
+  <head>
+    <title>MNIST CNN</title>
+  </head>
+
+  <body>
+    <h1>MNIST Handwritten Digits Prediction</h1>
+
+    <form>
+      <input type="file" name="img"></input>
+      <input type="submit"></input>
+    </form>
+    <hr>
+    <h3>Prediction: <span id="result"></span></h3>
+
+    <script src='http://cdnjs.cloudflare.com/ajax/libs/jquery/2.1.3/jquery.min.js'></script>
+
+    <script src="{{ url_for('static',filename='index.js') }}"></script>
+
+</body>
+</html>
+```
+
+本质上，我们在这里所做的就是创建一个表单，该表单具有单个文件类型的输入元素，称为`img`。 然后，我们将 jQuery 添加到页面，并创建指向静态文件`index.js`的链接，该文件在服务器的`static`文件夹中提供。
+
+让我们创建`index.js`文件。 首先，在根目录中创建一个文件夹`static`，然后使用以下代码创建一个新文件`index.js`：
+
+```py
+$("form").submit(function(evt){ 
+    evt.preventDefault();
+    var formData = new FormData($(this)[0]);
+    $.ajax({
+        url: '/predict/',
+        type: 'POST',
+        data: formData,
+        async: false,
+        cache: false,
+        contentType: false,
+        enctype: 'multipart/form-data',
+        processData: false,
+        success: function (response) {
+            $('#result').empty().append(response);
+        }
+    });
+    return false;
+});
+```
+
+前面的 jQuery 代码向`/predict/`路由发出`POST`请求，然后使用服务器返回的值更新页面上的`result`除法。
+
+让我们在此 Web 客户端上运行一个示例。 首先，我们需要重启 Flask 服务器。 然后，我们在浏览器中打开`http://localhost/`以获取一个如下所示的网页：
+
+![](img/216dfe04-0135-4771-979f-4cd732b1d1e5.png)
+
+假设我们选择一个名为`mnist7.png`的文件，该文件实质上是测试数据集的第一张图像，如下所示：
+
+![](img/3ea2f8b5-6d27-47cc-9670-0bb3f2e5e4f9.png)
+
+预期输出为`7`。 单击“提交”后，我们在页面上获得以下输出：
+
+![](img/0ac49e88-f2b8-4b42-b530-eaffc91dcb4a.png)
+
+我们可以观察到这是正确的输出，并得出 Web 客户端正常工作的结论。
+
+# 改善深度学习后端
+
+我们在这里训练的简单模型很难说是接近完美模型的模型。 我们可以使用几种方法来扩展此模型以使其更完善。 例如，我们可以采取的一些最基本的步骤来改善深度学习模型，如下所示：
+
+*   **增加训练周期**：我们只训练了 10 个周期的模型，对于任何深度学习模型来说，这通常都是很小的值。 训练次数的增加可以提高模型的准确率。 但是，它也可能导致过拟合，因此必须尝试新的周期。
+*   **更多训练样本**：我们的网络客户端目前所做的仅是显示预测值。 但是，我们可以扩展它以从用户那里获得关于我们所做的预测是否正确的反馈。 然后，我们可以将用户的输入图像添加到训练样本中，并使用用户提供的图像标签进行训练。 但是，我们必须谨慎对待垃圾邮件用户输入的图像和标签，并且仅向 Web 应用的受信任用户或 Beta 测试人员提供此功能。
+*   **创建更深的网络**：我们可以增加网络中的隐藏层数，以使预测更加准确。 同样，此方法容易过拟合，必须仔细试验。
+
+# 总结
+
+本章详细介绍了如何创建深度学习模型，然后通过 Web 客户端或使用 cURL 通过 API 促进其使用。 本章首先讨论深度学习 Web 应用的结构，此类应用的各个组件以及它们之间的交互方式。 然后，对 MNIST 手写数字数据集进行了简短的讨论和探索。 这导致我们进入下一部分，在该部分我们建立了深度学习模型并将其存储在文件中以备将来使用。 然后将这些文件导入服务器 API 脚本，并在调用 API 时在其中执行。 最后，本章介绍了 API 的非常基本的客户端，还指导您如何通过命令行界面在 cURL 上使用 API​​。
+
+在下一章中，我们将讨论如何使用 TensorFlow.js 在浏览器窗口中执行深度学习。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/04.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/04.md
new file mode 100644
index 00000000..d837ebd3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/04.md
@@ -0,0 +1,607 @@
+# 四、TensorFlow.js 入门
+
+到目前为止，我们已经向深度学习的美好世界轻轻地介绍了自己，并且对于使当今的 Web 应用变得更加智能化，我们对深度学习所能提供的东西有相当的了解。 在“第 1 章”，“揭秘人工智能和机器学习基础”中，我们详细介绍了 AI 突破前后的 Web 应用。 在“第 3 章”，“创建您的第一个深度学习 Web 应用”中，我们使用简单的神经网络构建了自己的基于图像分类器的简单 Web 应用。
+
+Web 应用无处不在，它们已成为我们日常生活不可分割的一部分。 在构建 Web 应用时，很难忽略 JavaScript 的使用。 那么，如果我们不使用 JavaScript 而不使用其他脚本语言来构建智能 Web 应用呢？ 在本章中，我们将了解如何使用名为 **TensorFlow.js**（**TF.js**）的 JavaScript 库来构建支持深度学习的 Web 应用- 将在网络浏览器中完成所有这些操作。
+
+在本章中，我们将介绍以下主题：
+
+*   TF.js 及其产品的基础
+*   使用 TF.js 开发深度学习模型并进行推理
+*   直接在浏览器中使用预训练的模型
+*   构建一个 Web 应用来识别花的种类
+*   TF.js 的优缺点
+
+# 技术要求
+
+您可以通过[这里](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter4)访问本章中使用的代码。
+
+要学习本章，您需要以下软件：
+
+*   TF.js 0.15.1+
+*   NPM 存储库中的`@tensorflow/tfjs-node` 0.3.0+ 包
+
+# TF.js 的基础
+
+在本节中，我们将简要回顾 TF.js 的一些基本概念。 我们将从介绍 TensorFlow 开始，然后我们将继续研究 TF.js 的不同组件。
+
+# 什么是 TensorFlow？
+
+在开始讨论 TF.js 之前，我们必须了解 TensorFlow 是什么。 TensorFlow 是由 Google 开发和维护的开源库。 它建立在称为张量的数据结构上。 张量是标量和向量的广义形式。 TensorFlow 为广泛的科学领域中的高性能数值计算提供了许多有效的工具。 TensorFlow 还提供了一套非常灵活的工具套件，用于执行机器学习以及深度学习开发和研究。 鼓励您访问 [TensorFlow 的官方网站](https://www.tensorflow.org/)，以获取更多信息。
+
+# 什么是 TF.js？
+
+TF.js 是一个 JavaScript 库，它提供了构建和部署机器学习模型的生态系统。 它提供以下功能：
+
+*   使用 JavaScript 开发机器学习模型
+*   使用预训练的机器学习模型
+*   部署机器学习模型
+
+TF.js 为您提供了机器学习项目所需的所有元素。 它具有用于数据预处理，张量处理，模型构建，模型评估等的专用模块，而所有模块均使用 JavaScript。 在继续深入研究之前，让我们快速了解对 TF.js 的需求。
+
+# 为什么是 TF.js？
+
+正如我们在上一章中所看到的，简单地在线训练和托管模型，将其包装在 REST API 中，然后在任何前端上使用该 API 来显示我们的结果是非常容易和直观的。 那么，为什么会出现使用 TF.js 的需求？
+
+一个简单的答案就是浏览器中是否有 AI！ 考虑一个需要使用 AI 智能体的游戏，该 AI 智能体会从人类玩家的玩法中学到东西，从而随着游戏的发展变得越来越困难。 现在，如果游戏每隔一秒钟就不断向服务器发送请求，以将数据往返于游戏和服务器之间传输，那将是多余的。 此外，它很容易导致**拒绝服务**（**DoS**）攻击。
+
+因此，当智能体必须保持实时学习时，拥有可以在浏览器中生存和学习的 AI 才有意义。 它也可以通过两种方式进行混合：
+
+*   如果在呈现智能体期间加载了预训练的模型，并且从那里开始，它会间隔一段时间在服务器上开始学习和更新模型。
+*   如果 AI 智能体的多个版本同时在多个系统上运行，并且它们从运行它们的系统上的交互中学习。 同样，如果他们的集体学习在服务器上被吸收，并且智能体每隔一段时间从服务器获取更新。
+
+因此，使用 TF.js 可以大大减少对人类用户在每一步与服务器进行交互以与服务器进行交互的页面的依赖性。
+
+我们现在可以构建一个显示 TF.js 功能的迷你项目。 暂时不必担心 TF.js 生态系统-我们将继续介绍项目的所有元素。
+
+# TF.js 的基本概念
+
+以下是我们将在项目中使用的 TF.js 组件：
+
+*   张量
+*   变量
+*   操作符
+*   模型
+*   层
+
+让我们详细研究它们中的每一个。
+
+# 张量
+
+像 TensorFlow 一样，TF.js 中的中央数据处理单元是张量。 Goodfellow 等。 （在他们关于深度学习的书中）进行以下观察：
+
+在一般情况下，排列在具有可变数量轴的规则网格上的数字数组称为张量。
+
+简单描述，张量是一维或多维数组的容器。 以下是您可能已经知道的一些张量示例：
+
+*   标量（零维张量）
+*   向量（一维或一级张量）
+*   矩阵（二维或二级张量）
+
+我们可以在 TF.js 中针对给定形状创建张量，如下所示：
+
+```py
+const shape = [2, 3]; // 2 rows, 3 columns
+const a = tf.tensor([4.0, 2.0, 5.0, 15.0, 19.0, 27.0], shape);
+```
+
+`a`是已创建的张量，可以使用以下命令来打印其内容：
+
+```py
+a.print()
+```
+
+打印以下输出：
+
+```py
+Output: [[4 , 2 , 5 ],
+ [15, 19, 27]]
+```
+
+`a`是矩阵（第二张量）。 TF.js 还提供了专用功能，例如`tf.scalar`，`tf.tensor1d`，`tf.tensor2d`，`tf.tensor3d`和`tf.tensor4d`，可以创建特定形状的张量，而不必显式指定`shape`参数。 它还提供了更好的可读性。 张量在 TF.js 中是不可变的。
+
+# 变量
+
+与张量不同，变量在 TF.js 中是可变的。 变量在训练神经网络时特别有用，因为它们包含大量中间数据存储和更新。 以下是如何在 TF.js 中使用变量的示例：
+
+```py
+const initialValues = tf.ones([5]);
+const weights = tf.variable(initialValues); // initialize weights
+weights.print(); // output: [1, 1, 1, 1, 1]
+const updatedValues = tf.tensor1d([0, 1, 0, 1, 0]);
+weights.assign(updatedValues); // update values of weights
+weights.print(); // output: [0, 1, 0, 1, 0]
+```
+
+现在让我们来看一下运算符。
+
+# 运算符
+
+运算符使您可以对数据执行数学运算。 TF.js 提供了各种操作来操纵张量。 由于张量本质上是不可变的，因此运算符不会更改张量中包含的数据，而是返回新的张量作为结果。 您可以对张量执行二进制运算，例如加法，乘法和减法。 您甚至可以链接多个操作。 以下示例显示了使用链接在 TF.js 中使用两个不同的运算符的方法：
+
+```py
+const e = tf.tensor2d([[1.0, 2.0], [3.0, 4.0]]); 
+const f = tf.tensor2d([[3.0, 4.0], [5.0, 6.0]]); 
+const sq_sum = tf.square(tf.add(e, f));
+sq_sum.print();
+```
+
+我们首先创建了两个二维张量，并将它们分配给`e`和`f`。 然后，我们添加了他们并取得了他们的方块。
+
+这将产生以下输出：
+
+```py
+// Output: [[16 , 36],
+// [64, 100]]
+```
+
+接下来，我们将介绍模型和层。
+
+# 模型和层
+
+在深度学习文献中，模型是指神经网络本身，特别是神经网络架构。 正如“第 2 章”，“使用 Python 进行深度学习的入门”中所讨论的那样，神经网络由基本组件组成，例如层之间的层，神经元和连接。 TF.js 提供了两个用于创建这些模型的函数-`tf.model`和`tf.sequential`。 `tf.model`帮助您获得更复杂的架构，例如跳过某些层，而`tf.sequential`提供了一种创建线性层堆叠而无需跳过，分支等的方法。
+
+TF.js 为不同类型的任务提供了不同类型的专用层-`tf.layers.dense`，`tf.layers.dropout`，`tf.layers.conv1d`，`tf.layers.simpleRNN`，`tf.layers.gru`和`tf.layers.lstm`。 以下示例在`tf.sequential`和`tf.layers.dense`的帮助下演示了一个简单的神经网络模型：
+
+```py
+const model = tf.sequential();
+model.add(tf.layers.dense({units: 4, inputShape: [4], activation: 'relu'}));
+model.add(tf.layers.dense({units: 1, activation: sigmoid}));
+```
+
+前面的示例创建了一个具有以下内容的简单神经网络：
+
+*   两层（请记住，在计算总层数时我们不考虑输入层）。 网络采用具有四个特征的输入（`inputShape`参数有助于指定该特征）。
+*   第一层包含四个神经元（因此`units: 4`）。 第二层（输出层）只有一个神经元。
+*   `relu`激活函数用于第一层，`sigmoid`激活函数用于输出层。
+
+建议您转到[这里](https://js.tensorflow.org/api/latest/index.html)了解有关 TF.js 前述组件的更多信息。
+
+# 使用 TF.js 的案例研究
+
+我们将遵循机器学习项目中通常涉及的所有步骤（我们在“第 1 章”，“人工智能和机器学习基础知识揭秘”中的讨论）。 一个好的项目始于定义明确的问题陈述。 因此，让我们快速查看一下并相应地决定后续步骤。
+
+# 我们的 TF.js 小型项目的问题陈述
+
+我们将在这里讨论的问题可能是您开始机器学习之旅时遇到的最著名的挑战之一-通过从鸢尾花数据集中学习其特征来分类和预测鸢尾花的类型。 训练以及预测将在浏览器本身中执行。
+
+我们已经为项目定义了问题陈述。 接下来是数据准备步骤。 数据已经可供我们使用，因此我们不需要自己收集数据。 但是，在准备数据之前，最好对数据本身有更多了解。
+
+# 鸢尾花数据集
+
+由统计学家和生物学家罗纳德·费舍尔（Ronald Fisher）于 1936 年引入，鸢尾花数据集包含 150 行数据和大约 3 种不同的鸢尾花品种。 列如下：
+
+*   萼片长度（厘米）
+*   萼片宽度（厘米）
+*   花瓣长度（厘米）
+*   花瓣宽度（厘米）
+*   品种：
+    *   山
+    *   杂色
+    *   弗吉尼亚
+
+您可以在[这个页面](http://archive.ics.uci.edu/ml/datasets/Iris)中获取原始数据集并了解更多信息。
+
+# 您的第一个使用 TF.js 的深度学习 Web 应用
+
+在本节中，我们将借助 TF.js 开发一个 Web 应用。 该应用将包括一个标准的，全栈，支持深度学习的 Web 项目的步骤。 我们将从准备数据开始，然后将简短地研究项目架构，然后，我们将逐步构建所需的组件。
+
+# 准备数据集
+
+鸢尾花数据集的原始形式是一个 CSV 文件，其中包含 150 行数据，以逗号分隔的格式分成 5 列，每个条目用新行分隔。
+
+但是，我们将使用数据的 JSON 格式，以简化 JavaScript 的可操作性。 可以从[这里](https://gist.github.com/xprilion/33cc85952d317644c944274ee6071547)下载 JSON 格式的数据集。
+
+您可以使用任何语言的简单函数将 CSV 文件转换为 JSON 文件，并按照以下约定更改列名：
+
+*   萼片长度：`sepal_length`
+*   萼片宽度：`sepal_width`
+*   花瓣长度：`petal_length`
+*   花瓣宽度：`petal_width`
+*   品种：`species`
+
+在开发用于模型构建的张量时，我们将在 JSON 中使用这些属性名称。
+
+# 项目架构
+
+我们将在该项目中使用 Node.js 创建服务器。 这样做是为了在通过 Node.js 后端使用时获得 TF.js 更快的计算性能的好处。 我们将创建一个非常基本的前端，该前端将能够发出命令以执行使用 TF.js 构建的神经网络的训练，而另一个按钮可以发出命令以基于以下内容预测鸢尾花的假设特征向量的类别，基于用户提供的输入。
+
+下图显示了项目的组件及其交互：
+
+![](img/8e47dac3-cf66-406f-8222-dbf2905cd686.png)
+
+现在我们已经了解了架构，让我们从项目开始。
+
+# 启动项目
+
+要开始从事该项目，首先需要安装最新版本的 Node.js 和 **Node 包管理器**（**NPM**）。 虽然执行此操作的标准方法是阅读 Node.js 网站上提供的文档，但我们建议您使用 **Node 版本管理器**（**NVM**）安装 Node.js 和 NPM。
+
+可以在[这里](https://github.com/creationix/nvm) [b.com/creationix/nvm](https://github.com/creationix/nvm)找到设置说明和文件。
+
+一旦安装了 Node.js 和 NPM，我们就可以开始进行项目本身的工作了：
+
+1.  创建一个名为`tfjs-iris`的文件夹。
+2.  打开一个终端，并使用以下命令启动该项目的包管理器：
+
+```py
+npm init -y
+```
+
+这将在项目目录中创建一个文件`package.json`。 上一条命令的输出如下：
+
+![](img/d566a0e8-10d6-4418-9e82-a59447d8f27a.png)
+
+请注意，输出为 JSON 格式。 `main`键定义了作为模块导入的文件，该文件将成为程序的入口点。 默认情况下，此项目中`main`的值设置为`index.js`。 但是，该文件尚未创建。 让我们来研究`index.js`文件。
+
+我们将使用 Node.js 的`express`模块创建服务器。 您可以在[这个页面](https://expressjs.com/)上阅读有关`express`的更多信息。
+
+3.  要使用`express`，我们需要将模块添加到我们的项目中。 为此，请使用以下代码：
+
+```py
+npm install express --save
+```
+
+这会将`express`模块依赖项添加到`package.json`文件，并将其安装在项目工作目录内的`node_modules`目录中。
+
+4.  在项目存储库的根目录中创建一个名为`index.js`的文件，并添加以下代码：
+
+```py
+var express = require('express');
+var app = express(); 
+```
+
+这将创建一个`express`应用对象。 现在，我们将 TF.js 添加到项目中。 最简单的方法是通过 NPM 安装它。 完整的设置说明可在[这个页面](https://js.tensorflow.org/setup/)中找到。
+
+5.  使用以下命令在终端中安装`TF.js`模块：
+
+```py
+npm install @tensorflow/tfjs --save
+```
+
+6.  现在，我们可以将模块添加到`index.js`文件中：
+
+```py
+const tf = require('@tensorflow/tfjs');
+```
+
+7.  我们还将需要 Express.js 中的`body-parser`模块来处理来自客户端的传入查询数据，这些数据将通过 AJAX `POST`请求发送。 为此，我们使用以下命令：
+
+```py
+npm install body-parser --save
+```
+
+8.  现在，我们创建一个`body-parser`对象，并使用以下代码将其绑定到应用：
+
+```py
+var bodyParser = require('body-parser');
+app.use(bodyParser.urlencoded({ extended: false }));
+```
+
+在此阶段，`package.json`应该包含以下片段，列出您项目的依赖项：
+
+![](img/64f57e1d-2a8d-481d-b2bc-27ed8c7d89fd.png)
+
+请注意，先前的版本可能会更改。 现在，我们可以导入`iris.json`文件，我们将在以下文件上训练我们的模型：
+
+```py
+const iris = require('./iris.json');
+```
+
+完成初始设置后，我们现在可以继续编写 TF.js 代码以对可用数据集进行训练。
+
+# 创建一个 TF.js 模型
+
+让我们开始将存储在`iris`变量中的数据读取到`tensor2d`对象中：
+
+1.  在您的`index.js`文件中，添加以下代码：
+
+```py
+const trainingData = tf.tensor2d(iris.map(item=> [
+    item.sepal_length, item.sepal_width, item.petal_length, item.petal_width
+]),[144,4])
+```
+
+我们还没有任何测试数据； 这将由用户提供。
+
+2.  接下来，我们为可能的三种花创建一个一次性编码：
+
+```py
+const outputData = tf.tensor2d(iris.map(item => [
+    item.species === 'setosa' ? 1 : 0,
+    item.species === 'virginica' ? 1 : 0,
+    item.species === 'versicolor' ? 1 : 0
+]), [144,3])
+```
+
+现在，我们准备创建训练模型。 以下代码可能使您想起上一章为 MNIST 手写数字数据集创建模型时使用的代码。 这仅仅是因为我们仍然仅使用另一种语言使用 TensorFlow 的概念！
+
+3.  我们首先声明一个顺序的 TensorFlow 模型：
+
+```py
+const model = tf.sequential();
+```
+
+4.  接下来，让我们在模型中添加一层神经元：
+
+```py
+model.add(tf.layers.dense({
+    inputShape: 4, 
+    activation: 'sigmoid', 
+    units: 10
+ }));
+```
+
+`inputShape`参数指示将添加到此层的输入的形状。 `units`参数设置该层要使用的神经元数量。 我们正在使用的`activation`函数是`sigmoid`函数。
+
+5.  现在添加输出层：
+
+```py
+model.add(tf.layers.dense({
+    inputShape: 10, 
+    units: 3, 
+    activation: 'softmax'
+}));
+```
+
+在这里，我们在输出层中将有 3 个神经元，并且在这一层上期望的输入是 10，这与上一层中的神经元数量匹配。
+
+除了输入层，我们只有一个隐藏层和输出层。 在该应用中这是可以接受的，因为数据集很小并且预测很简单。 请注意，我们在此处使用了`softmax`激活函数，该函数产生类概率作为输出。
+
+这在我们的案例中特别有用，因为该问题是多类分类问题。
+
+6.  完成此操作后，我们现在可以编译我们的模型了。 为此，我们使用以下代码：
+
+```py
+model.compile({
+    loss: "categoricalCrossentropy",
+    optimizer: tf.train.adam()
+});
+```
+
+由于我们手头有一个可能存在多个标签的分类问题，因此我们将`categoricalCrossentropy`用作`loss`函数。 为了进行优化，使用了`adam`优化器。 建议您尝试其他超参数值。
+
+7.  我们可以使用以下代码生成模型的摘要：
+
+```py
+model.summary();
+```
+
+接下来，我们将训练我们的 TF.js 模型。
+
+# 训练 TF.js 模型
+
+现在，我们将编写一个`async`函数。 这样做的原因是，不会使调用我们函数的客户端 JavaScript 陷入等待结果的状态。 在我们的程序中，需要花费一些时间才能完成的函数是`train_data()`函数。 此函数执行模型的训练：
+
+```py
+async function train_data(){
+    console.log("Training Started");
+    for(let i=0;i<50;i++){
+        let res = await model.fit(trainingData, outputData, {epochs: 50});
+        console.log(`Iteration ${i}: ${res.history.loss[0]}`);
+    }
+    console.log("Training Complete");
+}
+```
+
+`train_data()`函数可以异步运行。 它还将训练的每个阶段的损失打印到我们将要从中运行服务器的控制台。 现在，让我们创建一个将调用`train_data()`函数的 API。
+
+首先，我们创建一个名为`doTrain`的*中间件*，该中间件将在用于训练的 API 之前运行，并将返回任何数据。
+
+您可以在[这个页面](https://expressjs.com/en/guide/using-middleware.html)上了解有关中间件的更多信息。
+
+`doTrain()`中间件在其参数中接受对 Node.js 服务器的请求，用于做出响应的变量以及将在执行完以下代码后转发程序执行的函数的名称。 中间件中定义的代码：
+
+```py
+var doTrain = async function (req, res, next) {
+    await train_data();
+    next();
+}
+```
+
+`doTrain`中间件调用`train_data()`函数并等待其结果。 `train_data()`函数返回`Promise`，以便继续执行而不会冻结。 `next()`函数在`train_data()`函数完成后立即运行，并且仅将程序的执行传递给中间件旁边*链接*的函数，如下所示：
+
+```py
+app.use(doTrain).post('/train', function(req, res) {
+    res.send("1");
+});
+```
+
+现在，我们将`'/train'`路由绑定到`express`应用，然后将`doTrain`中间件链接到该应用。 现在，对于`'/train'` API 的每次调用，中间件都首先运行，然后执行传递到该 API 的主要代码块。 此代码块仅返回任意值以表示训练已完成。
+
+# 将 TF.js 模型用于预测
+
+训练完成后，我们还需要创建一个 API 来调用预测函数并返回预测结果。 我们使用`POST`方法将 API 绑定到`'/predict'`路由，以对此 API 进行请求，如下所示：
+
+```py
+app.post('/predict', function(req, res) {
+    var test = tf.tensor2d([parseFloat(req.body.sepLen), parseFloat(req.body.sepWid),                                 parseFloat(req.body.petLen), parseFloat(req.body.petWid)], [1,4]);
+    var out = model.predict(test);
+    var maxIndex = 0;
+    for (let i=1;i<out.size; i++){
+        if (out.buffer().get(0, i) > out.buffer().get(0, maxIndex)){
+            maxIndex = i;
+        }
+    }
+
+    ans = "Undetermined";
+    switch(maxIndex) {
+        case 0:
+            ans = "Setosa"; 
+        break;
+        case 1:
+            ans = "Virginica"; 
+        break;
+        case 2:
+            ans = "Versicolor"; 
+        break; 
+    }
+    console.log(ans);
+    res.send(ans);
+});
+```
+
+了解预测 API 的代码非常简单。 让我们分部分讨论它：
+
+```py
+app.post('/predict', function(req, res) {
+```
+
+这行代码将`'/predict'`路由绑定到`POST`请求方法，并打开将处理该路由请求的语句的代码块：
+
+```py
+    var test = tf.tensor2d([parseFloat(req.body.sepLen), parseFloat(req.body.sepWid),                                     parseFloat(req.body.petLen), parseFloat(req.body.petWid)], [1,4]);
+    var output = model.predict(test);
+```
+
+这些行从数据中创建一个 TF.js `tensor2d`对象，该对象是从客户端接收的。 然后，在模型上运行`predict`方法，并将结果存储在输出变量中：
+
+```py
+    var maxIndex = 0;
+    for (let i=1;i<out.size; i++){
+        if (out.buffer().get(0, i) > out.buffer().get(0, maxIndex)){
+            maxIndex = i;
+        }
+    }
+```
+
+该代码块仅找到与`tensor2d`变量输出中最高元素对应的索引。 请记住，在`softmax`激活输出中，最大值对应于预测的索引。
+
+在确定了输出的最大索引之后，我们使用一个简单的`switch-case`语句来确定要从 API 发送到客户端的输出。 请求数据还将记录到服务器上可见的控制台中。 最后，我们使用以下代码将 Node.js 应用绑定为监听端口`3000`：
+
+```py
+app.listen(3000);
+```
+
+现在，我们将在以下部分中创建一个简单的客户端。
+
+# 创建一个简单的客户端
+
+为了在我们的应用中处理`'/'`路由，我们将以下代码行添加到`index.js`中，该代码仅呈现静态文件`index.html`，该文件位于公共文件夹中：
+
+```py
+app.use(express.static('./public')).get('/', function (req, res) {
+    res.sendFile('./index.html');
+});
+```
+
+现在，让我们按照以下步骤创建静态`index.html`文件：
+
+1.  首先，创建一个文件夹`public`，并在其中创建`index.html.`将以下代码添加到`index.html`文件中：
+
+```py
+<html>
+  <head>
+    <title>TF.js Example - Iris Flower Classficiation</title>
+  </head>
+  <body>
+    <h1> TF.js Example - Iris Flower Classification </h1>
+    <hr>
+    <p>
+      First, train the model. Then, use the text boxes to try any dummy data.
+    </p>
+
+    <button id="train-btn">Train</button>
+
+    <hr><br>
+    <label for="sepLen">Sepal Length: </label>
+    <input type="number" id="sepLen" value="1" /><br>
+    <label for="sepWid">Sepal Width:&nbsp;&nbsp;</label>
+    <input type="number" id="sepWid" value="1" /><br>
+    <label for="petLen">Petal Length: </label>
+    <input type="number" id="petLen" value="1" /><br>
+    <label for="petWid">Petal Width:&nbsp;&nbsp;</label>
+    <input type="number" id="petWid" value="1" /><br>
+    <br>
+    <button id="send-btn" disabled="="true">Predict!</button>
+    <hr>
+    <h3> Result </h3>
+    <h4 id="res"></h4>
+
+    <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
+```
+
+2.  在为开发用于调用我们使用 TF.js 创建的 API 的客户端设置一个简单的 UI 之后，我们准备定义从客户端部署它们的函数。 请注意，`"/train"`和`"/predict"` API 都将由`POST`请求调用：
+
+```py
+    <script>
+
+      $('#train-btn').click(function(){
+        $('#train-btn').prop('disabled', true);
+        $('#train-btn').empty().append("Training...");
+        $.ajax({
+          type: 'POST',
+          url: "/train",
+          success: function(result) {
+            console.log(result);
+            $('#send-btn').prop('disabled', false);
+            $('#train-btn').empty().append("Trained!");
+          }
+        });
+      });
+
+      $('#send-btn').click(function(){
+        var sepLen = $('#sepLen').val();
+        var sepWid = $('#sepWid').val();
+        var petLen = $('#petLen').val();
+        var petWid = $('#petWid').val();
+        $.ajax({
+          type: 'POST',
+          url: "/predict",
+          data: {sepLen: sepLen, sepWid: sepWid, petLen: petLen, petWid: petWid},
+          success: function(result) {
+            console.log(result);
+            $('#res').empty().append(result);
+          }
+        });
+      });
+    </script>
+  </body>
+</html>
+```
+
+现在让我们运行 TF.js Web 应用。
+
+# 运行 TF.js Web 应用
+
+使用所有应用编码后，我们现在可以运行我们的应用。 首先，打开一个终端，并在其中包含`package.json`文件的`tfjs-iris`文件夹作为您的工作目录。
+
+运行以下代码行以启动 Node.js 服务器：
+
+```py
+node index.js
+```
+
+该命令产生的输出类似于以下屏幕截图：
+
+![](img/36c2cc46-bbf1-471e-beb4-5bde0c30efe1.png)
+
+现在，连同此输出，服务器从端口`3000`启动，我们可以在浏览器中查看该端口。 打开浏览器，在地址栏中键入`http://localhost:3000/`，以显示以下输出：
+
+![](img/d9ca1b9a-3a54-4848-be67-d133f21e5e88.png)
+
+首先，您必须单击“训练”按钮以调用`'/train'` API，该 API 开始训练，并且该按钮将变为禁用状态。 一旦预测！ 按钮被启用，训练完成，用户可以将虚拟数据发送到服务器进行预测。 假设我们从数据集中选择了第 50 行数据，并将其发送到服务器，其预期输出为`Setosa`。
+
+以下屏幕截图显示了项目最终版本的一小部分：
+
+![](img/89c50dc0-72c8-4ccf-83db-1e588b47c268.png)
+
+我们看到为提供的输入生成了正确的输出。
+
+# TF.js 的优缺点
+
+现在，让我们总结一下 TF.js 在 TensorFlow 上带来的一些优势，以及我们在本章中已经谈到的那些优势：
+
+*   **自动 GPU 支持**：您无需与 TF.js 分别安装 CUDA 或 GPU 驱动，即可从系统上存在的 GPU 中受益。 这是因为浏览器本身实现了 GPU 支持。
+*   **集成**：使用 Node.js 将 TF.js 集成到 Web 开发项目中，然后将预训练的模型导入该项目并在浏览器中运行，这相当简单。
+
+但是，它也有几个缺点，在开发生产时必须牢记。 其中一些如下：
+
+*   **速度**：TF.js 适用于小型数据集。 在大规模数据集上，计算速度受到严重影响，并且速度慢了近 10 倍。
+*   **缺少 TensorBoard**：框架的 JavaScript 端口中缺少此强大的工具，它可以使 TensorFlow 模型可视化，因为 TF.js 只是一个 API。
+*   **对 API 的不完全支持**：并非所有 TensorFlow API 在 TF.js 上都可用，因此在使用 TF.js 开发时，您可能必须重新考虑代码逻辑或创建自己的函数以使用某些功能。
+
+# 总结
+
+在本章中，我们了解了使用 TF.js 创建模型有多么容易。 您不仅可以使用整个 JavaScript 生态系统，还可以在 TF.js 中获得所有经过预训练的 TensorFlow 模型。 我们使用鸢尾花数据集开发了一个简单的 Web 应用，并且在此过程中，我们了解了 TF.js 必须提供的几个组件。 到目前为止，我们已经构建了两个简单的基于端到端深度学习的 Web 应用。
+
+我们的进步确实是显而易见的。 在接下来的章节中，我们将构建自己的深度学习 API，并使用它们来创建智能 Web 应用。 但是在此之前，让我们在下一章中熟悉 API 的整个概念。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/05.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/05.md
new file mode 100644
index 00000000..9d2ef04b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/05.md
@@ -0,0 +1,160 @@
+# 五、通过 API 进行深度学习
+
+到目前为止，我们已经熟悉了深度学习项目中遵循的基本流程。 在上一章中，我们已经使用 Keras 和 TensorFlow.js 库完成了两个基本的端到端项目。 我们已经熟悉 NumPy，pandas 和 Keras 等 Python 库，并且还了解了如何使用 JavaScript 开发深度学习模型。 我们还使用了 Flask 框架从深度学习模型中创建 API。 在“第 4 章”，“TensorFlow.js 入门”中，我们使用了第三方**应用编程接口**（**API**）创建了一个网站应用。
+
+在本章中，我们将详细研究 API 的整个概念。 从更为非正式的 API 定义开始，我们将研究与深度学习相关的所有 API。 我们将首先看一些最广为人知的深度学习 API，然后再看一些鲜为人知的深度学习 API。 我们还将学习如何选择深度学习 API 供应商。
+
+在本章中，我们将讨论以下主题：
+
+*   什么是 API？
+*   API 与库有何不同？
+*   一些广为人知的深度学习 API
+*   一些鲜为人知的深度学习 API
+*   选择深度学习 API 提供商
+
+# 什么是 API？
+
+让我们首先考虑一个问题场景。
+
+假设您正在使用需要将图像识别模块集成到其中的 Web 应用。 但是您不喜欢计算机视觉和深度学习。 您有一个非常严格的截止日期才能参加该项目。 您无力致力于学习深度学习，然后完成项目的图像识别模块。 您现在应该怎么办？ 您的项目会在指定的期限内完成吗？
+
+绝对不会！ 但是，借助 API 的强大功能，您将能够轻松地将图像识别模块集成到 Web 应用中。 现在让我们更详细地讨论 API 的概念。
+
+API 是可以集成到应用中以执行某些任务的一组函数（尽管从技术上讲，API 可以仅包含一个函数）。 通常，作为开发人员，我们希望将喜欢的网站中的特定工具集成到自己的应用中。 例如，Twitter 提供了一个 API，用于检索与某个关键字匹配的推文。 我们可以使用此 API 来收集数据，对其进行分析，并最终得出有关数据的有趣见解。
+
+Facebook，Google，Stack Overflow 和 LinkedIn 等公司提供用于某些任务的 API，作为开发人员，值得一试。 API 实际上类似于网站。 当我们单击网站上的某些内容时，我们将被重定向到另一个页面/部分。 在大多数情况下，我们将网页作为输出。 但是，API 通常不会产生美观的网页作为其输出。 应该从代码内部使用 API​​，并且 API 的输出通常采用某些流行的数据交换格式，例如 JSON 或 XML。 然后，针对使用 API​​的应用相应地处理输出。 API 使您可以通过提供一套工具或生态系统来完成想要执行的任务，而不必担心细节。
+
+您现在可以测试 API，而无需编写任何代码。 例如，您可以使用诸如 Postman 之类的 API 客户端并测试您真正喜欢的开放 API，并且不需要编写任何代码即可执行此操作。
+
+关于 API 的更神奇之处在于，您可以例如使用 Java 编写代码并使用以 Python 开发的 API。 当您在团队中工作时，人们对他们使用的不同编程语言非常关注时，这特别有用。 您的一个团队成员可能非常喜欢使用 Java，而另一个团队成员可能是 Python 专家。 因此，在这些情况下，API 的整个概念确实派上了用场。
+
+我们将讨论由 Google AI，Facebook AI Research 等提供的一些深度学习 API。 在接下来的章节中，我们将看到如何使用这些 API 来开发智能 Web 应用。
+
+# 使用 API​​ 的重要性
+
+API 除了在需要快速生产或最小工作量的产品演示时为您节省创建和部署自己的深度学习模型的大量工作之外，API 还可以提供一些好处，例如：
+
+*   **一个标准的稳定模型**：
+    *   深度学习的 API 通常是由一群开发人员共同创建的，这些开发人员共同使用行业标准技术和研究工具，但可能并非所有开发人员都可以使用。 而且，通过商业 API 部署的模型通常非常稳定地使用，并提供最新的功能，包括可伸缩性，自定义和准确率。 因此，如果您遇到精度问题（这是深度学习模型生产中的常见情况），那么选择 API 是一个不错的选择。
+
+*   **高性能模型**：
+    *   商业深度学习 API 通常在非常强大的服务器上运行，并且在很大程度上进行了优化，因此它们可以非常快速地执行任务。 因此，如果您希望加快深度学习生态系统的学习速度，则此类 API 非常方便。
+
+*   **开发人员常用的平台**：
+    *   从头开始编写任何东西都很简单，但是当最初编写该文件的人离开时却没有出示适当的文档，而一个新的人不得不从他们停下来的地方开始工作，这将变得非常困难。 商业 API 定义了一套操作标准，并且集成有此类 API 的应用易于维护，因为 API 供应商也始终包含大量文档，这意味着开发人员可以事先了解 API。
+*   **定期和无缝更新**：
+    *   对于刚起步的公司来说，一旦他们运行了第一个版本，就花大量的开发时间来改善深度学习模型通常是很昂贵的，特别是如果它们的整个商业模型不是特别以人工智能为中心的话。 任何此类用例都将从 API 使用中受益匪浅，因为 API 由推送常规更新和新功能的人员维护。
+
+考虑到所有这些，然后使用 API​​ 提供了最新的技术，高性能和不断发展的模型，这些模型可以一次插入到应用中，然后使用多年，而无需再次考虑 API。
+
+现在，您可能会问 API 和库之间有什么区别。 让我们在下一部分中查找。
+
+# API 与库有何不同？
+
+如今，术语*库*和 *API* 可互换使用。 两者之间有很多相似之处，但是在很多方面都不同。 与 API 一样，库也提供了可以根据需要使用的函数和类的集合。 以下是一些指针，可以帮助您区分库和 API：
+
+*   库通常特定于编程语言。 例如，如果使用的是 PHP 编程环境，则不能使用 SciPy Python 库。 但是，您可以开发一个使用 SciPy 的 API，然后使用您的 PHP 代码使用该 API。
+*   开发人员无法直接访问 API。 API 的使用方式与库的使用方式不同。 在开发人员实际使用它们之前，许多 API 会强制执行某种认证。 在使用库时，我们很少看到这种情况。 您可以轻松地覆盖和重载库函数或类，然后按需使用它。
+
+*   库和 API 可以相互结合使用。 许多库在内部使用不同的 API，反之亦然。
+
+这些应该使您对库和 API 之间的基本区别有所了解。 但是，如果您仍然难以划清界限，请不必担心：我们将研究许多示例，并且当您完成这些示例时，您肯定可以区分 API 和库。
+
+现在，我们将介绍一些 API，这些 API 广泛用于开发支持深度学习的应用，其中一些众所周知，而有些则不那么受欢迎。
+
+# 一些广为人知的深度学习 API
+
+在本节中，我们将介绍一些使用最广泛的 API，这些 API 已部署用于各种深度学习任务，例如图像识别，图像中的情感检测，情感分类，语音到文本转换等。 为了限制本节中的讨论，我们将深度学习任务分为两大类：
+
+*   计算机视觉和图像处理
+*   自然语言处理
+
+然后，我们将列出与每个组相关的一些常见任务，并讨论可用于完成这些任务的 API。
+
+现在，让我们快速列出一些常见的深度学习任务，并将其分配给它们的类别：
+
+*   **计算机视觉和图像处理**：
+    *   **图像搜索**：就像 Google 搜索一样，图像搜索引擎允许我们搜索与特定图像相似的图像。
+    *   **图像检测**：这是在检测图像的内容。 这也称为标签检测。
+    *   **对象定位**：给定包含一组不同对象的图像，这涉及检测图像中的特定对象。
+    *   **内容审核**：给定图像，这涉及检测不适当的内容。
+    *   **图像归因**：给定图像，这涉及到图像的不同特征的提取。
+
+*   **自然语言处理**：
+    *   **词性标记**：给定一段文本，这涉及提取文本包含的词性。
+    *   **主题摘要**：给定一段文本，这涉及确定文本所涉及的主题。
+    *   **情感分类**：给定一些文本，这涉及预测文本所传达的情感。
+    *   **命名实体识别**：这涉及自动识别给定句子中存在的不同实体。
+    *   **语音到文本的转换**：这涉及到一段语音中包含的文本的提取。
+
+此处列出的所有任务在我们的日常生活中都非常有用，很高兴得知我们可以使用现在将要讨论的 API 制作能够为我们完成这些任务的应用。
+
+还有其他深度学习 API 可以大规模进行临时推理，但是暂时，我们可以忽略它们，而将注意力集中在受深度学习影响最大的两个领域。
+
+下表汇总了一些业内使用最广泛的深度学习 API：
+
+| **提供者** | **API** | **分组** |
+| --- | --- | --- |
+| 谷歌 | 视觉 API | 计算机视觉和图像处理 |
+| | 视频智能 API |
+| | 自然语言 API | 自然语言处理 |
+| | 语音转文字 API |
+| | 文字转语音 API |
+| | 翻译 API |
+| | Dialogflow API |
+| 脸书 | DensePose | 计算机视觉和图像处理 |
+| | Detectron |
+| 亚马逊 | 亚马逊 Rekognition | 计算机视觉和图像处理 |
+| | 亚马逊 Comprehend | 自然语言处理 |
+| | 亚马逊 Textract |
+| | 亚马逊 Polly |
+| | 亚马逊翻译 |
+| | 亚马逊转写 |
+| 微软 | 计算机视觉 | 计算机视觉和图像处理 |
+| | 视频索引器 |
+| | 人脸 |
+| | 内容主持人 |
+| | 文字分析 | 自然语言处理 |
+| | 必应拼写检查 |
+| | 翻译文字 |
+| | 语言理解 |
+
+上表中显示的 API 是使用经过良好测试和可扩展的深度学习 API 时最受欢迎的 API。 但是，还有一些其他名称尚未像这些名称一样流行。 在下一节中，我们将研究它们。
+
+# 一些鲜为人知的深度学习 API
+
+下表提供了一些鲜为人知的 API 的一些详细信息：
+
+| **提供者** | **API** | **组** |
+| --- | --- | --- |
+| 沃森 | 沃森虚拟识别 | 计算机视觉和图像处理 |
+| | 沃森文字转语音 | 自然语言处理 |
+| | 沃森自然语言分类器 |
+| | 沃森对话 |
+| | 沃森自然语言理解 |
+| AT&T | AT&T 演讲 | 自然语言处理 |
+| Wit.ai | 演讲 | 自然语言处理 |
+| | 信息 |
+| | 实体 |
+
+现在，在这片（几乎是全部）API 中，您如何选择用于特定任务的特定提供者？ 这可能很棘手，需要进行讨论。 在本节中，我们将讨论可以有效帮助我们做出这些决策的一些策略。
+
+# 选择深度学习 API 提供商
+
+拥有可编译的一整套用于深度学习的 API 供应商，决定所需的 API 可能是一项艰巨的任务。 但是，您可以遵循一些简单的规则来提出最适合您的需求的 API，我们将在这里详细讨论其中的一些：
+
+*   **平台**：
+    *   听起来很简单，这可能是您选择 API 供应商时最重要的因素。 例如，在大多数情况下，如果您要开发基于 Google 技术运行的产品，则可能要使用 Google 提供的深度学习 API，因为它们会与您使用的应用开发接口无缝集成。
+    *   通常，开发环境还提供模板化的解决方案，以使用其设置非常简单的深度学习 API。 有时，提供商可能还会提供额外的激励措施，以使用其 API 开发新产品。
+*   **效果**：
+    *   通过访问多个提供商的 API 来执行一项任务，您可以比较它们的表现，然后选择。 在这种情况下，比较和判断不同 API 时所使用的度量标准取决于您。
+*   **费用**：
+    *   不同的提供商使用不同的成本核算方法，这在决定使用哪个提供商方面可以发挥巨大作用。 某个提供商可能会对免费 API 调用进行实验的数量有适当的限制，因此对于您来说可能是一个有利可图的选择。 通常，有经验的开发人员和学生会选择与成本方面最优惠的提供商合作。
+
+除了这三个因素之外，还有其他一些不可否认的因素，例如一家公司要求使用某个 API 或您自己对某个 API 供应商的倾向。 但是，除非大规模使用，否则使用哪个供应商几乎没有多大关系，因为它们都为中小型使用提供相似的表现。
+
+# 总结
+
+在本章中，我们详细介绍了术语 API。 在“第 3 章”和“创建第一个深度学习 Web 应用”中，我们看到了如何使用 Python 编写 Flask API，我们看到了如何在 Web 应用中使用该 API。 现在，我们知道 API 与语言库的区别以及使用 API​​的重要性。 我们熟悉一些顶尖组织提供的各种深度学习 API。
+
+在接下来的章节中，我们将了解如何使用这些 API 来构建功能强大且智能的 Web 应用。 在下一章中，我们将从 Google Cloud Platform 提供的深度学习 API 开始。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/06.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/06.md
new file mode 100644
index 00000000..0b8794f7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/06.md
@@ -0,0 +1,519 @@
+# 六、Google Cloud Platform 上的 Python 深度学习
+
+在上一章中，我们看到了各种组织提供的各种深度学习 API。 我们还看到它们的适用性大致分为两类：第一类是计算机视觉和图像处理，第二类是自然语言处理。 我们还将在本章中继续探索深度学习 API。 本章向您介绍 **Google Cloud Platform**（**GCP**）以及它在深度学习领域提供的三个 API。
+
+在本章中，我们将介绍以下主题：
+
+*   设置您的 GCP 帐户
+*   在 GCP 上创建您的第一个项目
+*   在 Python 中使用 Dialogflow API
+*   在 Python 中使用 Cloud Vision API
+*   在 Python 中使用 Cloud Translation API
+
+# 技术要求
+
+您可以从[这里](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter6)访问本章的代码。
+
+要运行本章中的代码，您的系统上需要安装 Python 3.6+。
+
+本章将介绍其他必要的安装。
+
+# 设置您的 GCP 帐户
+
+在继续使用 GCP 提供的 API 之前，您必须设置您的 GCP 帐户。 假设您已经拥有 Google 帐户-首先，转到[这里](https://cloud.google.com/)。 如果您是第一次注册，GCP 会给您 300 美元的信用额度（您可以使用 12 个月）； 这种信誉足以容纳许多优秀项目，并使您能够试用 GCP 的产品。 完成此操作后，我们可以按照以下步骤操作：
+
+1.  在 GCP 主页的右上角，您应该能够找到“免费试用”按钮。 只需单击它：
+
+![](img/8d0065fb-e97a-457a-bca4-8a70e70fa661.png)
+
+2.  如果您尚未登录 Google 帐户，则会要求您登录。相应地选择您所在的国家/地区，并确保选中服务条款框。 之后，单击“同意并继续”。 您将在以下屏幕截图中看到一个页面：
+
+![](img/c2b7f7a6-bbb5-4daf-8a80-e52ef7edd315.png)
+
+3.  然后，系统会要求您输入所选付款方式的详细信息。 即使您有免费的积分，也要使用 GCP 的工具，也需要设置一个有效的结算帐户。 但请放心，除非您允许 GCP 这样做，否则不会从您的结算帐户中向您收费。 免费试用期间，将仅从您的免费信用额中扣除您将在 GCP 上使用的所有计费工具。 一旦您的免费信用额度限额终止，GCP 就会向您发送提醒。
+
+完成结算手续后，您应该进入 GCP 的控制台页面，该页面如下所示：
+
+![](img/469c0188-c363-4a28-a15f-d060ca342a01.png)
+
+这实际上是您的 GCP 信息中心，可为您提供 GCP 使用情况的总体摘要。 GCP 还允许您自定义出现在 GCP 控制台上的标签。
+
+现在，您应该完成 GCP 帐户设置。 为了能够使用 GCP 中的工具，您需要创建一个带有有效账单帐户的 GCP 项目。 在下一节中，您将看到如何执行此操作。
+
+# 在 GCP 上创建您的第一个项目
+
+一个项目可帮助您系统地组织所有 GCP 资源。 只需单击几下即可在 GCP 上创建项目：
+
+1.  登录到您的 Google 帐户后，使用[这里](https://console.cloud.google.com)打开 GCP 控制台。 在左上角，您应该看到 Google Cloud Platform，在其旁边，您可以看到一个下拉列表，如下所示：
+
+![](img/97baa6ef-0c5a-4258-b4d2-f1910f97cc82.png)
+
+2.  如果您在注册 GCP 或之前注册时确实创建了任何项目，则其中一个项目将显示在标记的区域中（fast-ai-exploration 和 gcp-api 是我在 GCP 上创建的两个项目）。 现在，单击向下箭头，将出现一个弹出窗口：
+
+![](img/d3f3ccc7-fc1e-4338-9fb3-f5704b19b0f7.png)
+
+3.  单击“新项目”继续。 您应该最终显示在以下屏幕快照中的页面上，该页面将要求您指定项目的名称。 GCP 会为您正在创建的项目自动生成一个 ID，但也可以根据您的选择编辑该 ID：
+
+![](img/d1652d62-c16c-4b05-b638-cbbaaebcb4b0.png)
+
+4.  在指定完项目的初始详细信息之后，只需单击`CREATE`即可创建该项目。 创建项目后，它应出现在项目列表中。 您始终可以使用 GCP 在其控制台页面上提供的便捷下拉菜单导航至此列表。 您可以在以下屏幕截图中看到它：
+
+![](img/eec5591a-a3f9-4e1a-b6aa-bbe3b0be234a.png)
+
+如果您想了解有关 GCP 项目的更多信息，可以在[这个页面](https://cloud.google.com/storage/docs/projects)上查看官方文档。 GCP 配备了各种工具，可在[这里](https://cloud.google.com/products/)中找到。 鼓励您看一下，并就自己的兴趣进行探索。
+
+GCP 为我们提供了广泛的 API，可用于各种任务，包括深度学习。 在接下来的两节中，我们将了解如何使用 Python 代码来使用一些使用最广泛的深度学习 API。 我们将从 Dialogflow 开始。
+
+# 在 Python 中使用 Dialogflow API
+
+在开始学习如何在 Python 中使用 Dialogflow API 之前，让我们了解 Dialogflow 的全部含义。
+
+Dialogflow（以前称为 **api.ai**）提供了一套工具，用于构建自然而丰富的对话界面，例如语音助手和聊天机器人。 它由深度学习和自然语言处理提供支持，并被许多公司使用。 它与网站，移动应用以及许多流行的平台（例如 Facebook Messenger，Amazon Alexa 等）无缝集成。 Dialogflow 为我们提供了构建对话用户界面的三个主要组件：
+
+*   可以轻松应用于任何对话用户界面的最佳做法和流程
+*   添加构建会话用户界面可能需要的任何自定义逻辑的功能
+*   训练智能体的设施，以便微调界面的整体体验
+
+现在，我们将看到如何使用 Dialogflow 在 Python 中创建一个简单的应用。 您可以参考[这里](https://dialogflow.com)了解有关 Dialogflow 的更多信息。
+
+我们将从创建 Dialogflow 帐户开始。
+
+# 创建一个 Dialogflow 帐户
+
+创建 Dialogflow 帐户非常简单。 该过程涉及以下步骤：
+
+1.  访问[这里](https://console.dialogflow.com/api-client/#/login)，您将看到以下屏幕：
+
+![](img/397707d9-086c-4cdf-902b-4ec2d5944ec1.png)
+
+2.  单击“使用 Google 登录”按钮后，将要求您选择要用于 Dialogflow 的 Google 帐户。
+3.  选择帐户时，可能会要求您允许 Diagflow 的帐户权限，并接受 Dialogflow 条款和条件。
+
+# 创建一个新智能体
+
+创建帐户后，将为您提供一个仪表板，该仪表板将显示您活动的 Dialogflow 项目或要求您创建要显示的新智能体，但是**智能体**是什么？
+
+用 Dialogflow 术语来说，智能体是一种软件，执行从用户接收输入的任务，该输入可能采用文本，音频，图像或视频的格式。 然后，它尝试确定*意图*或与输入对应的先前定义的适当操作。 匹配的意图可能会执行*动作*，或者可能只是对用户输入的查询产生超文本响应。 最后，智能体将结果返回给用户。
+
+要创建新智能体，请在 Dialogflow 控制台的左侧导航菜单中，单击“创建智能体”。
+
+屏幕上将显示以下屏幕：
+
+![](img/9023d9b6-88bb-447f-aeb6-17b44aae03b8.png)
+
+我们已将智能体 DemoBot 命名为默认语言，并将其设置为英语。 此外，我们必须为智能体选择一个 Google 项目。
+
+Google 项目，或者简称为**项目**，是您在 GCP 研究中遇到的一个术语。 一个项目包含分配给使用这些资源并由 GCP 上的一个计费帐户提供资金的任何软件项目的全部资源。 如果没有为资源定义项目，则无法分配资源。 此外，如果不向其添加有效的计费选项，则无法创建任何项目。
+
+现在，您将能够看到一个屏幕，如以下屏幕截图所示，其中为您的智能体提供了某些默认意图：
+
+![](img/768479fc-f213-41d9-898d-927c60d1869b.png)
+
+在左侧，您可以看到导航菜单，该菜单提供了可以在您的智能体中组合在一起的所有各种模块，以实现软件提供的更好的类似于人的交互。 在右侧面板中，您可以选择随时使用您提供的任何输入来测试智能体。 这将在开发响应时以及在测试意图与提供的输入的匹配时派上用场。
+
+# 创建一个新的意图
+
+要为我们的智能体创建新的意图，请按照下列步骤操作：
+
+1.  单击中间部分右上角的“创建意图”按钮。
+2.  您需要为此目的提供一个名称-假设`Dummy Intent`。
+3.  然后，我们将需要提供一些触发此意图的训练短语。 假设我们提供了三个训练短语，如下所示：
+
+![](img/a4a2458f-1671-4689-b374-e77d590feef0.png)
+
+现在，我们可以期望只要系统遇到训练中提到的短语（或类似短语），就会调用此意图。
+
+4.  现在，我们可以添加一些调用该意图时智能体将做出的响应，如下所示：
+
+![](img/384b2f86-2a4f-40e0-8d34-b77951aa764d.png)
+
+5.  在中间部分的右上角，单击“保存”按钮以保存新的意图，然后将通知您座席训练已开始。
+
+对于小型智能体，训练将在几秒钟内完成，并且将为您提供智能体训练已完成的通知。
+
+现在，我们准备测试我们的智能体是否能够执行此意图。
+
+# 测试您的智能体
+
+在 Dialogflow 控制台的右侧部分，您将能够测试您的智能体。 在顶部文本字段中，输入查询。 在我们的智能体中，要调用`Dummy Intent`，我们将编写为`Talk to the dummy`。
+
+如果意图正确匹配，您将能够看到`Dummy Intent`的响应，如下所示：
+
+![](img/9846d629-256f-4200-a012-02f6dba24730.png)
+
+在上一个屏幕截图中，您将看到用户的输入为`Talk to the dummy`，生成的响应是我们在`Dummy Intent`响应中定义的两个响应之一。 您可以观察到与输入匹配的意图是`Dummy Intent`。
+
+现在，我们将研究如何使用 Python 调用智能体。
+
+# 安装 Dialogflow Python SDK
+
+在本节中，我们将演示如何将 Dialogflow Python API V2 与 Dialogflow 智能体一起使用，以使使用 Python 构建的应用具有交互性。 首先，让我们了解 DialogFlow 生态系统的几个组件如何与下图交互：
+
+![](img/48741d83-0b89-4933-a7f4-df36291f5f9a.png)
+
+用户创建输入，然后通过集成 API，网站或应用将其发送到智能体。 智能体将用户输入与可用意图进行匹配，并产生对**查询**的满足。 响应通过 Webhook 发送回用户界面，并将响应呈现给用户。
+
+集成 API 很有可能包含 Dialogflow 以外的服务。 您可以创建一个应用，该应用可以将同一用户查询传播到多个智能体并合并他们的响应。
+
+另外，开发人员可以引入中间件处理器或集成，它们将对用户查询和智能体响应进行预处理或后处理：
+
+1.  要安装 Dialogflow Python SDK，我们在终端中使用以下命令：
+
+```py
+pip install dialogflow
+```
+
+强烈建议您先使用`virtualenv`创建一个虚拟环境，然后再使用上一个命令来创建干净无间断的依赖关系。 要了解有关`virtualenv`的更多信息，请参阅[这里](https://virtualenv.pypa.io/en/latest/)。
+
+2.  安装完成后，您将可以使用以下导入代码将 Dialogflow API 导入到项目中：
+
+```py
+import dialogflow
+```
+
+现在，我们将创建一个 GCP 服务帐户来验证我们的 Python 脚本，以便使用我们创建的 Dialogflow 智能体。
+
+# 创建 GCP 服务帐户
+
+GCP 服务帐户管理提供的访问 GCP 资源的权限。 我们创建的 Dialogflow 智能体是 GCP 资源，因此要从 Python API 使用它，我们需要一个服务帐户：
+
+1.  在 GCP 控制台的左侧导航菜单中，转到“API | 服务 | 证书”。
+2.  单击“创建凭据”按钮以获取以下选项：
+
+![](img/6bbe0df1-e132-459f-bc1b-f48cfb9be413.png)
+
+3.  单击“服务帐户密钥”。 在接下来出现的页面中，选择`Dialogflow Integrations`作为服务帐户，选择 JSON 作为密钥类型。 单击“创建”后，将 JSON 文件下载到您的计算机。
+4.  记下此 JSON 文件的地址，例如`/home/user/Downloads/service-account-file.json`。 文件名可能会有所不同，因为将文件下载到计算机时由 GCP 控制台提供。
+5.  打开此文件以获取项目 ID。
+6.  现在，在终端中使用以下命令（系统中将使用适当的替代命令）将凭据导出到环境变量：
+
+```py
+export GOOGLE_APPLICATION_CREDENTIALS="<your_service_account_file_location>"
+export DIALOGFLOW_PROJECT_ID="<your_project_id>"
+
+```
+
+```py
+set GOOGLE_APPLICATION_CREDENTIALS=<your_service_account_file_location>
+set DIALOGFLOW_PROJECT_ID=<your_project_id>
+
+```
+
+完成此操作后，我们现在就可以编写将调用 Dialogflow 智能体的 Python 脚本了。
+
+请注意，前面的命令仅设置当前会话的变量。 每次重新启动会话时，都需要运行命令。
+
+# 使用 Python API 调用 Dialogflow 智能体
+
+在此示例中，我们将创建一个简单的基于 Python 的 API，该 API 调用在 Dialogflow 控制台中创建的智能体以调用`Dummy Intent`，如下所示：
+
+1.  首先，我们必须将 Dialogflow 模块导入到项目中。 为此，请使用以下代码：
+
+```py
+import dialogflow
+```
+
+2.  为了将项目 ID 放入脚本中，我们可以从运行时环境变量中获取它。 为此，请使用以下代码：
+
+```py
+import os
+project_id = os.getenv("DIALOGFLOW_PROJECT_ID")
+```
+
+3.  我们还将声明一个唯一的会话 ID，以存储在与用户进行的任何单个会话中进行的会话的记录：
+
+```py
+session_id="any_random_unique_string"
+```
+
+4.  现在，我们将创建一个方便的函数，该函数将允许我们重复执行调用 Dialogflow 智能体所需的一组预处理语句：
+
+```py
+def detect_intent(project_id, session_id, text, language_code):
+
+    session_client = dialogflow.SessionsClient()
+    session = session_client.session_path(project_id, session_id)
+
+    text_input = dialogflow.types.TextInput(text=text, language_code=language_code)
+    query_input = dialogflow.types.QueryInput(text=text_input)
+    response = session_client.detect_intent(session=session, query_input=query_input)
+
+    return response.query_result.fulfillment_text
+```
+
+在前面的代码中，我们将首先初始化`SessionsClient`对象。 一个会话记录了一次不间断会话期间用户与 Dialogflow 智能体之间的完整交互。 接下来，我们必须设置会话的路径，这是项目到唯一会话 ID 的映射。
+
+前面的函数定义的后两行用于创建包含 Dialogflow `TextInput`对象的 Dialogflow `QueryInput`对象。 `query_input`变量保存用户为 Dialogflow 智能体输入的消息。
+
+下一行调用`SessionsClient`对象的`detect_intent()`方法。 `session ID-project ID`映射与输入一起作为参数传递给方法。 Dialogflow 智能体的响应存储在响应变量中。 该函数返回实现文本响应。
+
+5.  现在让我们使用此方法。 首先，声明一条消息以传递给 Dialogflow 智能体。 回忆我们为`Dummy Intent`提供给 Dialogflow 智能体的训练短语。 我们将传递与训练短语相似的消息：
+
+```py
+message = "Can I talk to the dummy?"
+
+fulfillment_text = detect_intent(project_id, session_id, message, 'en')
+
+print(fulfillment_text)
+```
+
+我们将获得一个输出，该输出是我们为`Dummy Intent`定义的两个响应之一。
+
+6.  在`detect_intent()`方法中生成响应变量，可以通过在`detect_intent()`函数中添加以下代码行来完成：
+
+```py
+def detect_intent(project_id, session_id, text, language_code):
+    ...
+    response = session_client.detect_intent(session=session, query_input=query_input)
+    print(response) ### <--- ADD THIS LINE
+
+    return response.query_result.fulfillment_text
+```
+
+您将获得以下 JSON：
+
+```py
+response_id: "d1a7b2bf-0000-0000-0000-81161394cc24"
+query_result {
+  query_text: "talk to the dummy?"
+  parameters {
+  }
+  all_required_params_present: true
+  fulfillment_text: "Congratulations, dummy intent user!"
+  fulfillment_messages {
+    text {
+      text: "Congratulations, dummy intent user!"
+    }
+  }
+  intent {
+    name: "projects/gcp-api-232806/agent/intents/35e15aa5-0000-0000-0000-672d46bcefa7"
+    display_name: "Dummy Intent"
+  }
+  intent_detection_confidence: 0.8199999928474426
+  language_code: "en"
+}
+```
+
+您将观察到匹配的意图的名称为`Dummy Intent`，而在此智能体调用中我们得到的输出为`Congratulations, dummy intent user!`。
+
+还有其他几种使用 Python 使用 Dialogflow API 的方法，包括但不限于视听输入和基于传感器的输入。 Dialogflow 智能体可以与主要平台集成，例如 Google Assistant，Facebook Messenger，Slack，Telegram，WhatsApp 和其他几个平台，如下所示：
+
+![](img/1d530c5f-6145-41e3-8de2-e80c9a4b511e.png)
+
+Dialogflow 生态系统正在迅速引入新功能，并且正朝着提供可以同时执行多个任务的完整的基于 AI 的聊天机器人的方向发展。
+
+在下一节中，我们将探索另一个 GCP API，该 API 可用于预测图像和视频的内容。
+
+# 在 Python 中使用 Cloud Vision API
+
+计算机视觉是使计算机理解图像并理解图像的领域。 常见的计算机视觉任务包括图像分类，图像检测，图像分割等。 如前几章所述，深度学习在实现人类水平（有时甚至更好）的表现方面的有效性已严重影响了计算机视觉领域。
+
+Cloud Vision API 为我们提供了许多用于执行计算机视觉任务的工具。 Cloud Vision 允许我们使用预先训练的模型，以及建立自己的定制生产模型来满足我们的需求（例如 AutoML Vision Beta）。 现在让我们简要地看一下 Cloud Vision API 提供的功能：
+
+*   标签检测
+*   光学字符识别
+*   手写识别
+*   地标检测
+*   对象定位
+*   图片搜索
+*   产品搜索
+
+除了前面提到的功能之外，Cloud Vision 还允许我们提取给定图像的不同属性。 以下屏幕截图显示了此工具：
+
+![](img/278c72a8-1139-4273-a4e3-2d4f2274343d.png)
+
+如我们所见，当提供图像时，Cloud Vision API 会自动提取其属性。 您也可以通过转到[这里](https://cloud.google.com/vision/)来尝试此操作。
+
+从较早的章节开始，我们一直在使用术语**预训练模型**。 我们还看到了 Cloud Vision API 如何使我们整合预训练的模型。 为了理解使用它们的重要性，有必要对术语“预训练的模型”进行更深入的研究。
+
+# 使用预训练模型的重要性
+
+预训练模型的使用通常称为**迁移学习**。 迁移学习并不是深度学习的基础，它只是一种方法。 它并不表示特定的深度学习模型，但其对迁移学习的含义非常有效，尤其是在深度学习环境中。
+
+我们人类不会从头开始学习每一项任务。 我们尝试利用过去的经验来完成性质相似的任务。 这是迁移学习。 我们倾向于将过去的经验知识迁移到我们遇到的类似任务上。
+
+但这如何适用于深度学习？ 让我们找出答案。
+
+当针对特定任务训练神经网络时，它会尝试估计可能的最佳权重矩阵的值。 现在，当您尝试在类似任务上训练另一个网络时，事实证明您可以使用上一个任务的权重。 这里的“相似性”定义很宽泛，暂时可以避免。 但是您可能想知道这里的优势是什么。 好吧，优点是多方面的，但是这里有两个示例：
+
+*   您无需从头开始训练您的神经网络，这可以节省大量时间。
+*   它利用了机会来使用与您的问题域类似的最新结果。
+
+在文献中，使用网络权重的任务称为源任务，将权重应用于的任务称为目标任务。 您使用权重所依据的网络模型称为预训练模型。 Goodfellow 等。 在他们的书*深度学习*中给出了迁移学习的非常微妙的定义：
+
+“在一种情况下所学到的东西被用来改善另一种情况下的泛化性的情况。”
+
+在**自然语言处理**（**NLP**），计算机视觉等领域的广泛深度学习应用中，迁移学习的使用已显示出非凡的成果。 但是，迁移学习也有其局限性：
+
+*   当源任务与使用迁移学习的任务不充分相关时，迁移学习会导致表现下降。
+*   有时很难确定从源任务到目标任务需要多少迁移。
+
+对于迁移学习的深入研究，建议您阅读 Dipanjan 等人的书籍 《Python 迁移学习实践指南》。 现在，我们将借助示例学习如何使用 Python 使用 Cloud Vision API。
+
+# 设置视觉客户端库
+
+Cloud Vision API 可通过一组适用于不同语言的库（称为 Vision Client 库）获得。
+
+此集中提供的一个此类库是 Python Cloud Vision 客户端库，我们将在示例中使用该库：
+
+1.  要安装 Python Cloud Vision 客户端库，我们在终端中使用以下命令：
+
+```py
+pip install --upgrade google-cloud-vision
+```
+
+强烈建议您使用 Python 虚拟环境安装 Vision Client 库。
+
+2.  安装完成后，我们将需要设置一个服务帐户以使用 API​​。
+
+3.  如前所述，设置服务帐户应遵循的步骤如下：
+    1.  打开 Goog​​le Cloud 控制台。
+    2.  转到“API | 服务 | 证书”。
+    3.  单击“创建凭据”。
+    4.  在下拉菜单中选择“新服务帐户”以选择服务帐户。
+    5.  填写服务帐户的任何名称。
+    6.  取消选中角色。 使用 Cloud Vision API 时不需要这样做。
+    7.  单击“创建”。 确认出现的所有警告框。
+    8.  `service account credentials` JSON 文件已下载到您的计算机。
+
+4.  现在，像我们之前所做的那样，将下载的文件导出到系统环境。 为此，请使用以下命令：
+
+```py
+export GOOGLE_APPLICATION_CREDENTIALS="/home/user/Downloads/service-account-file.json"
+
+```
+
+```py
+set GOOGLE_APPLICATION_CREDENTIALS=/home/user/Downloads/service-account-file.json
+```
+
+5.  作为使用 Cloud Vision API 的最后一步，我们需要在我们为其创建服务帐户的项目中启用该 API。 为此，请执行以下操作：
+    1.  在 Google Cloud 控制台的左侧导航面板中，单击“API 和服务”。
+    2.  单击“启用 API 和服务”。
+    3.  在出现的列表中找到 Cloud Vision API。
+    4.  单击“启用”。
+
+之后，我们准备在脚本中使用 Python 使用 Cloud Vision API。
+
+# 使用 Python 调用 Cloud Vision API
+
+让我们创建一个新的 Python 脚本（或 Jupyter 笔记本）。 为了使用 Cloud Vision API，我们首先需要导入 Cloud Vision 客户端库。
+
+1.  为此，我们使用以下代码：
+
+```py
+from google.cloud import vision
+```
+
+2.  这样，我们就可以继续使用客户端库了。 在我们的示例中，我们将对图像进行标注。 图像标注服务由视觉库中的`imageAnnotatorClient()`函数提供。 我们将创建该方法的对象：
+
+```py
+client = vision.ImageAnnotatorClient()
+```
+
+3.  现在，让我们将要测试的文件加载到程序中：
+
+```py
+with open("test.jpg", 'rb') as image_file:
+    content = image_file.read()
+```
+
+请注意，您必须在同一工作目录中包含`test.jpg`文件，此文件才能工作。
+
+4.  该文件当前是程序的原始二进制数据文件。 为了使 Cloud Vision API 正常工作，我们需要将其转换为 Vision 客户端将接受的图像类型：
+
+```py
+image = vision.types.Image(content=content)
+```
+
+5.  最后，我们呼吁 GCP 通过 Cloud Vision API 标注图像：
+
+```py
+response = client.label_detection(image=image)
+labels = response.label_annotations
+```
+
+在打印了视觉 API 设置的标签后，我们将能够在提供的图片中查看 Cloud Vision API 能够检测到的所有可能的对象和功能，如下所示：
+
+![](img/20979113-d6cc-4b94-be0e-1fc2f49ba1c0.png)
+
+如果打印`labels`，结果应如下所示：
+
+![](img/fccb87ea-584c-4f34-8559-40f1e95c5206.png)
+
+预测的标记是`Sky`，`Horizon`，`Atmosphere`，`Sunrise`，`Sunset`，`Morning`，`Ocean`，`Calm`，`Wing`和`Evening`。
+
+先前的预测非常接近先前照片中捕获的真实场景。 那是日出，是从飞机窗上取下来的。
+
+# 在 Python 中使用 Cloud Translation API
+
+Cloud Translation API 可帮助开发人员轻松地将语言翻译功能集成到他们的应用中。 它由最新的神经机器翻译提供支持，可以将其视为深度学习和机器翻译的结合。 Cloud Translation API 提供了用于使用预训练模型和构建可用于生产环境的自定义模型的编程接口。
+
+许多开发人员使用 Cloud Translation API 的预训练模型将给定的一组文本动态翻译为目标语言。 Cloud Translate API 支持 100 多种语言。 但是，该语言库正在不断发展，以增强开发人员社区的能力。 以下屏幕截图显示了一些英语翻译成孟加拉语的译文：
+
+![](img/eb0bdcce-a7ea-47a3-bd8f-4f49cb6251a6.png)
+
+您随时可以在[这个页面](https://cloud.google.com/translate/)上尝试此操作。 但是有时，给定文本的语言本身可能是未知的。 Cloud Translation API 提供了称为**标签检测**的服务来处理此类情况。
+
+Cloud Translation API 的 AutoML 变体使我们可以根据需要针对语言对（源语言和目标语言）构建自定义模型。
+
+# 设置适用于 Python 的 Cloud Translate API
+
+要将 Cloud Translation API 与 Python 一起使用，我们必须首先安装 Google Cloud Translate Python 库。
+
+1.  为此，请在终端中使用以下`pip`命令：
+
+```py
+pip install google-cloud-translate
+```
+
+2.  现在，像以前一样，创建一个服务帐户并下载凭据文件。 将此文件导出到`GOOGLE_APPLICATION_CREDENTIALS`环境变量的路径。
+3.  接下来，在要启用的 API 列表中找到`Cloud Translate API`。 完成后，我们准备使用 GCP 直接从 Python 进行翻译。
+
+# 使用 Google Cloud Translation Python 库
+
+创建一个新的 Jupyter 笔记本或新的 Python 脚本。 现在，我们将 Google Cloud Translate API 导入我们的项目。
+
+1.  为此，请使用以下代码：
+
+```py
+from google.cloud import translate_v2 as translate
+```
+
+2.  我们将需要创建一个 Cloud Translate API 对象来进行服务调用。 我们可以这样做，如下所示：
+
+```py
+translate_client = translate.Client()
+```
+
+3.  现在让我们开始翻译过程。 首先，我们需要一条消息来翻译：
+
+```py
+original = u'नमस्ते'
+```
+
+这样会在印地语中创建一个包含单词`Namaste`的 Unicode 字符串。 让我们看看它会转换成英文！
+
+我们调用 API 使用以下代码将文本翻译成英文：
+
+```py
+translation = translate_client.translate(original, target_language="en")
+```
+
+如果观察`translation`变量，则会发现它包含以下详细信息：
+
+```py
+{
+    'translatedText': 'Hello', 
+    'detectedSourceLanguage': 'hi', 
+    'input': 'नमस्ते'
+}
+```
+
+从该词典中可以轻松推断出检测到的语言是印地语（由`hi`表示）。 输入以输入的格式显示。`translatedText`保留`Hello`，这是`Namaste`的确切翻译。
+
+# 总结
+
+在本章中，我们探讨了 GCP 提供的一些著名的突破性的基于深度学习的服务。 我们学习了如何使用 Python 使用 Dialogflow 来构建可以随时间学习的对话式聊天机器人。 我们使用 Cloud Vision API 来预测任何图像中识别出的对象。 我们可以轻松地将其推断为视频并获得类似的结果。 最后，我们介绍了 Cloud Translate API，用于使用该服务执行基于 NLP 的深度转换。 GCP 提供的所有主要服务都可以通过 API 进行访问，这使得它们可以在任何项目中轻松替换。 由训练有素的专业人员创建的模型的准确率值得称赞，并且在尝试构建基于 AI 的 Web 解决方案时，使 Web 开发人员的工作更加轻松。
+
+在下一章中，我们将介绍 **Amazon Web Services**（**AWS**）提供的功能，以使用 Python 将 AI 与 Web 应用集成。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/07.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/07.md
new file mode 100644
index 00000000..6c279c7b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/07.md
@@ -0,0 +1,849 @@
+# 七、AWS 上的 Python DL：对象检测和家庭自动化
+
+我们熟悉了 Google Cloud Platform 的一些基于深度学习的产品，并在“第 6 章”，“在 Google Cloud Platform 上使用 Python 进行深度学习”中学习了如何使用它们。 现在，我们对云计算有了一个很好的概述，在本章中，我们将介绍另一个云计算平台 **Amazon Web Services**（**AWS**），该平台还提供了一些高性能的，以及高度可靠的基于深度学习的解决方案，使生活更加轻松。 在本章中，我们将以 API 的形式介绍它们中的两个，并学习如何从 Python 程序中使用它们。
+
+我们将首先设置我们的 AWS 账户并在 Python 中配置 boto3。 然后，我们将学习如何在 Python 中使用 Rekognition API 和 Alexa API。
+
+在本章中，我们将介绍以下主题：
+
+*   设置您的 AWS 账户
+*   AWS 产品简介
+*   在 Python 中配置 boto3
+*   在 Python 中使用 Rekognition API
+*   在 Python 中使用 Alexa API
+
+# 技术要求
+
+您可以在[这个页面](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter7)上访问本章的代码。
+
+要运行本章中的代码，您将需要以下软件：
+
+*   Python 3.6+
+*   Python PIL 库
+
+本章将介绍所有其他安装。
+
+# AWS 入门
+
+在使用任何 AWS 服务或 API 之前，您必须创建您的 AWS 账户。 在本部分中，我们将快速完成在 AWS 中创建帐户的步骤：
+
+1.  第一步是转到[这里](https://aws.amazon.com/)。 您应该进入类似于以下内容的页面：
+
+![](img/6c5749db-c62e-4e24-b514-9ca21e1afe34.png)
+
+2.  然后单击“创建 AWS 账户”按钮，这将带您到以下页面：
+
+![](img/69673107-63a9-4cbd-99da-9d9d8fc6876b.png)
+
+3.  填写字段，然后单击“继续”。
+4.  门户将要求您提供一些更强制性的信息。 它还将要求您注册一种付款方式以验证您的详细信息。
+
+如果您不提供此服务，则您无权使用 AWS 工具的免费层。
+
+5.  在注册的最后一步，将要求您在三个计划中选择：免费，开发人员和商业。 选择与您的需求相关的任何一个，然后继续。
+
+与 Google Cloud Platform 一样，AWS 还提供免费的层访问。 首次注册 AWS 时，您可以免费使用多种 AWS 服务和产品，但只能使用一定数量的配额。 您可以转到[这里](https://aws.amazon.com/free/)了解更多信息。
+
+完成上述步骤后，您将获得如下页面：
+
+![](img/5ff22c05-d2b5-4d25-9f60-b37da3ec231c.png)
+
+AWS 具有为用户推荐解决方案和服务的美丽功能。 为了充分利用此功能，您需要输入两件事-您的角色和您感兴趣的主题。 您可以在前面的屏幕截图中看到它。 输入这两个详细信息，然后单击“提交”以获取一些有针对性的产品建议。
+
+6.  下一步是单击“登录到控制台”按钮。
+
+成功登录到 AWS 控制台后，应该会看到以下窗口：
+
+![](img/fe00e39b-59ba-4a1f-a61c-0f67d4cca381.png)
+
+在 AWS 控制台中，您可以找到 AWS 必须提供的所有服务和解决方案。 单击“服务”选项卡，以随意探索整套服务。 您也可以从搜索栏中搜索特定的服务。
+
+到现在为止，我们的 AWS 账户应该已经准备好让我们动手了。 在下一节中，我们将简要回顾 AWS 的产品，以更好地了解该平台。
+
+# AWS 产品简介
+
+AWS 在各种领域中提供其服务和解决方案。 以下是 AWS 提供的不同类型的模块（括号中的是 AWS 提供的不同服务的名称）：
+
+*   计算（EC2，Lambda 等）
+*   存储（S3，Storage Gateway 等）
+*   机器学习（Amazon SageMaker，AWS DeepLens 等）
+*   数据库（RDS，DynamoDB 等）
+
+*   迁移和传输（Snowball，DataSync 等）
+*   网络和内容交付（CloudFront，VPC 等）
+*   开发人员工具（CodeStar，CodeCommit 等）
+*   机器人技术（AWS RoboMaker）
+*   区块链（Amazon Managed Blockchain）
+*   分析（Athena，CloudSearch 等）
+
+还有许多其他内容，如以下屏幕截图所示：
+
+![](img/e773d1e1-5b71-45f0-b465-66fc5d2902dd.png)
+
+该列表实际上是相当广泛的，但是暂时让我们将重点局限于机器学习（也称为深度学习）服务。
+
+AWS 控制台中的搜索栏还使您可以搜索可能已经听说过的 AWS API。 让我们在其中键入`Rekognition`并点击`Enter`。 应该为您提供 Rekognition 的主页，如以下屏幕截图所示：
+
+![](img/4df1029c-865e-4d73-8f88-fcb487bf9849.png)
+
+我们将在本章后面详细介绍 Rekognition API。 在下一部分中，我们将学习如何使用 boto3（一个提供 Python 编程接口的 AWS 开发工具包）与不同的 AWS 资源进行交互。
+
+# Boto3 入门
+
+boto3 是由 AWS 团队提供的用于与 AWS API 通信的官方库。 您可以在[这个页面](https://aws.amazon.com/sdk-for-python/)中找到该库，可以使用以下命令进行安装：
+
+```py
+pip install boto3
+```
+
+安装后，您需要配置 boto3 以用于您的项目。 要配置 [boto3](https://bit.ly/2OvXAvb)，第一步是从**身份和访问管理**（**IAM**）控制台。 请执行以下步骤来执行配置：
+
+1.  转到[这里](https://console.aws.amazon.com/iam)的 AWS IAM 控制台。 它将如下所示：
+
+![](img/53fc5106-5219-4269-9ace-5c45edc32c8b.png)
+
+在前面的仪表板上，您将能够看到访问键。
+
+2.  单击**删除您的根访问密钥**，然后单击**管理安全证书**。 您将看到以下窗口：
+
+![](img/3bb72eab-b62e-42b6-9dee-6cd77653770d.png)
+
+3.  展开**访问密钥（访问密钥 ID 和秘密访问密钥）**选项卡，然后从那里获取访​​问密钥。 密钥成功生成后，您应该获得以下消息：
+
+![](img/2426808b-f6a7-462d-9692-8162fc50efbd.png)
+
+4.  下载密钥文件并将其保存在安全的地方，因为配置 boto3 时需要此文件。
+
+# 配置环境变量并安装 boto3
+
+获得访问密钥后，创建两个环境变量`aws_access_key_id`和`aws_secret_access_key`。 现在，在您拥有的键的帮助下相应地分配它们的值。 密钥将包含有助于您区分密钥 ID 和秘密访问密钥的信息。 现在，您已经配置了必要的环境变量，我们可以从在 Python 中加载环境变量开始。
+
+# 在 Python 中加载环境变量
+
+成功安装该库之后，可以使用以下代码行加载刚刚创建的环境变量：
+
+```py
+import os
+aws_access_key_id= os.environ['aws_access_key_id']
+aws_secret_access_key = os.environ['aws_secret_access_key']
+```
+
+一旦正确加载了环境变量，我们就可以调用 boto3 与 AWS 资源进行交互。 假设您想加入您的 AWS 账户中拥有的 S3 存储桶，并希望将图像上传到特定存储桶。 S3 是您要访问的 AWS 资源。 如果您的 AWS 账户中没有任何 S3 存储桶，则无需担心； 您可以快速创建一个。
+
+# 创建一个 S3 存储桶
+
+您可以通过执行以下步骤快速创建 S3 存储桶：
+
+1.  转到 [S3 控制台的主页](https://s3.console.aws.amazon.com/s3)。 它应如下所示：
+
+![](img/2f02b3a1-2449-470f-a1ab-2ee93093e353.png)
+
+2.  点击**创建存储区**。 系统将要求您输入以下详细信息：
+
+![](img/e9399ac7-840c-447c-93be-18677c3b69ea.png)
+
+3.  为您的存储桶命名，保留所有内容，然后单击**创建**。 成功创建存储桶后，您将能够从 S3 控制台中看到它：
+
+![](img/86871ff5-e121-4939-b639-80c9587e7c56.png)
+
+接下来，我们将学习如何使用 boto3 从 Python 代码访问 S3。
+
+# 使用 boto3 从 Python 代码访问 S3
+
+现在，您可以从 Python 代码访问 S3 存储桶。 以下代码行将向您显示可用的存储桶：
+
+```py
+import boto3
+s3 = boto3.resource(
+    's3',
+    aws_access_key_id=aws_access_key_id,
+    aws_secret_access_key=aws_secret_access_key
+)
+```
+
+您在`resource()`的第一个参数中指定了对访问 S3 感兴趣。 您可以在[这里](https://bit.ly/2VHsvnP)阅读文档。 现在，您可以通过以下几行代码找到可用的存储桶：
+
+```py
+for bucket in s3.buckets.all():
+ print(bucket.name)
+```
+
+您应该获得列表作为输出。 现在，假设您要将图像上传到存储桶之一。 假设您要上传的图像位于当前工作目录中，则以下代码行应将图像上传到特定的 S3 存储桶：
+
+```py
+data = open('my_image.jpeg', 'rb')
+s3.Bucket('demo-bucket-sayak').put_object(Key='my_image.jpeg', Body=data)
+```
+
+前面的代码行包含以下功能：
+
+*   `my_image.jpeg`是您要上传图像的路径。
+*   `Bucket()`方法中是将图像上传到的 S3 存储桶的名称。
+
+如果代码成功执行，您应该收到以下输出：
+
+```py
+s3.Object(bucket_name='demo-bucket-sayak', key='my_image.jpeg')
+```
+
+您可以转到 AWS S3 控制台，然后输入将映像上传到的存储桶，以验证是否已上传映像。 您应该在那里看到以下内容：
+
+![](img/ea5a0e67-5997-4205-836e-532a4560ee54.png)
+
+现在您已经在 Python 中成功配置了 boto3，我们现在可以继续学习如何使用 boto3 在 Python 中使用 Rekognition 和 Alexa API。
+
+# 在 Python 中使用 Rekognition API
+
+Amazon Rekognition 是启用了深度学习的视觉分析服务，可以帮助您无缝搜索，验证和分析数十亿张图像。 让我们首先简要回顾一下 Recognition API，然后我们将直接在 Python 中使用它。 首先让我们进入 [Rekognition API 的主页](https://console.aws.amazon.com/rekognition/home)。 我们已经在本章前面的部分之一中看到了 Rekognition 的主页。
+
+您可能已经从导航栏中注意到了，Rekognition API 提供了几项功能：
+
+*   **对象和场景检测**：这使您可以自动标记给定图像中的对象，标签和场景（以及置信度得分）。
+*   **图像审核**：这使您可以检测图像中明显或暗示的成人内容以及置信度得分。
+
+*   **名人识别**：使用此功能，您可以自动识别图像中的名人（以及置信度得分）。
+*   **人脸比较**：可用于基于相似度百分比查看脸部匹配的紧密程度。
+
+除了这些功能之外，它还有更多功能。
+
+Rekognition API 提供的解决方案已被证明对各种各样的组织非常有用，因为它们可以真正解决一些现实世界和具有挑战性的问题。 您可以通过单击 API 主页上的相应解决方案来尝试快速演示上述列表中提到的任何解决方案。 让我们尝试一下名人识别解决方案。
+
+首先，转到[这里](https://console.aws.amazon.com/rekognition/home?region=us-east-1#/celebrity-detection)（请注意，该区域可能会有所不同）。 它应如下图所示：
+
+![](img/5d0a60f8-7ee3-4e21-84ec-0679a3475f7f.png)
+
+该门户将允许您上传自己的图像并进行测试。 让我们测试一下我的图像（我们可以拍摄媒体名人的图像，但是这些图像受版权保护）。 您可以看到预期的结果：
+
+![](img/48570a56-c2cb-48b9-8d36-309bf77bcf96.png)
+
+也可以尝试其他解决方案。 现在让我们看看如何从 Python 代码中使用 Rekognition API：
+
+1.  创建一个新的 Jupyter 笔记本。 首先，您将要创建一个新的 Jupyter 笔记本，名称为`Sample.ipynb`。 您将必须提供要使用 AWS Rekognition API 进行名人识别测试的图像，如 Jupyter 的以下目录结构屏幕快照所示：
+
+![](img/036c3c11-7381-44b9-83a5-f2c6f4f0b71f.png)
+
+2.  将环境变量导入您的 AWS 账户中的凭证。 您将需要像之前在 boto3 配置部分中所做的那样，将帐户凭据导入到脚本中。 为此，请使用以下代码：
+
+```py
+import os
+aws_access_key_id= os.environ['aws_access_key_id']
+aws_secret_access_key = os.environ['aws_secret_access_key']
+```
+
+3.  使用 boto3 创建一个 AWS Rekognition API 客户端。 现在，我们可以实例化 boto3 Rekognition API 客户端对象。 为此，我们需要将希望使用的 API 以及希望使用该 API 的 AWS 区域名称传递给`boto3`对象。 您还必须传递在上一步中检索到的凭据，如以下代码所示：
+
+```py
+import boto3
+client=boto3.client('rekognition', region_name='us-east-1', aws_access_key_id=aws_access_key_id, aws_secret_access_key=aws_secret_access_key) 
+```
+
+4.  从磁盘读取映像，并将其传递给 API。 从 boto3 SDK 将文件发布到 AWS API 的方法有两种。 首先，您可以直接从您具有权限的 S3 存储桶中发送它们，也可以从本地磁盘将图像作为`Bytes`数组发送。 在上一节中，我们已经了解了如何从 S3 存储桶中查找图像。
+
+现在，我们将向您展示一个示例，其中我们从本地磁盘中获取大量图像并将其通过 API 调用传递：
+
+1.  首先，使用 Python 的本机方法将图像读取到变量中以打开文件，如以下代码所示：
+
+```py
+image = open("image.jpg", "rb")
+```
+
+2.  现在，要通过前面实例化的客户端将其传递给 API，请使用以下代码行：
+
+```py
+response = client.recognize_celebrities(Image={'Bytes':image.read()})
+```
+
+3.  观察响应。 一旦 API 调用成功，您的`response`变量将保存 API 返回的信息。 要查看它，请打印变量：
+
+```py
+{'CelebrityFaces': [{'Urls': ['www.imdb.com/name/nm1682433'],
+ 'Name': 'Barack Obama',
+ 'Id': '3R3sg9u',
+ 'Face': {'BoundingBox': {'Width': 0.3392857015132904,
+ 'Height': 0.27056020498275757,
+ 'Left': 0.324404776096344,
+ 'Top': 0.06436233967542648},
+ 'Confidence': 99.97088623046875,
+ 'Landmarks': [{'Type': 'eyeLeft',
+ 'X': 0.44199424982070923,
+ 'Y': 0.17130307853221893},
+ {'Type': 'eyeRight', 'X': 0.5501364469528198, 'Y': 0.1697501391172409},
+ {'Type': 'nose', 'X': 0.4932120144367218, 'Y': 0.2165488302707672},
+ {'Type': 'mouthLeft', 'X': 0.43547138571739197, 'Y': 0.25405779480934143},
+ {'Type': 'mouthRight', 'X': 0.552975058555603, 'Y': 0.2527817189693451}],
+ 'Pose': {'Roll': -1.301725149154663,
+ 'Yaw': -1.5216708183288574,
+ 'Pitch': 1.9823487997055054},
+ 'Quality': {'Brightness': 82.28946685791016,
+ 'Sharpness': 96.63640594482422}},
+ 'MatchConfidence': 96.0}],
+ 'UnrecognizedFaces': [],
+ 'ResponseMetadata': {'RequestId': 'ba909ea2-67f1-11e9-8ac8-39b792b4a620',
+ 'HTTPStatusCode': 200,
+ 'HTTPHeaders': {'content-type': 'application/x-amz-json-1.1',
+ 'date': 'Fri, 26 Apr 2019 07:05:55 GMT',
+ 'x-amzn-requestid': 'ba909ea2-67f1-11e9-8ac8-39b792b4a620',
+ 'content-length': '813',
+ 'connection': 'keep-alive'},
+ 'RetryAttempts': 0}}
+```
+
+API 将我们的形象识别为巴拉克·奥巴马（Barack Obama）。 它为我们提供了许多其他有用的信息，例如面部匹配的`BoundingBox`，预测的`Confidence`，眼睛，嘴巴和鼻子的位置等。 我们可以使用此信息对图像进行进一步的操作，例如，简单地裁剪出匹配的部分。
+
+4.  获取图像的匹配部分。 要在可识别的位置准备图像的裁剪版本，我们可以使用以下代码：
+
+```py
+from PIL import Image
+from IPython.display import display
+
+im=Image.open('image.jpg')
+w, h = im.size
+
+celeb = response['CelebrityFaces'][0]['Face']['BoundingBox']
+
+x1 = (celeb["Left"])*w
+y1 = (celeb["Top"])*h
+x2 = (celeb["Left"] + celeb["Width"])*w
+y2 = (celeb["Top"] + celeb["Height"])*h
+
+box=(x1,y1,x2,y2)
+im1=im.crop(box)
+
+display(im1)
+```
+
+您应该看到以下图像是最终结果，它是 API 生成的用于执行名人识别的边界框：
+
+![](img/175087bb-bb71-47a3-80ae-81095e96551f.png)
+
+在进一步探索适用于 AWS 的 boto3 API 时，您将认识到它能够处理所有 AWS 服务，而不仅限于 Rekognition API。 这意味着，根据 API 规范要求，只需稍作修改，即可将几乎所有可用的 API 用于前面的示例代码。
+
+在接下来的部分中，我们将看一下 Alexa，这是亚马逊的旗舰产品，用于构建语音接口，这些接口的功能可以从聊天机器人到虚拟个人助理。 我们将学习如何使用 Alexa 构建简单的家庭自动化解决方案。
+
+# 在 Python 中使用 Alexa API
+
+亚马逊 Alexa 是由亚马逊开发的基于语音的个人助理。 该产品首先以 Amazon Echo 设备的界面为特色，随后又激发了使用 Google Assistant 的 Google 的 Google Home 设备。 Alexa 的其他竞争对手是微软的 Cortana 和苹果的 Siri。 作为虚拟助手，Alexa 可以轻松设置呼叫，安排会议或播放歌曲。 Alexa 可以执行的各种任务在 Alexa 术语中称为*技能*，我们将在本节中介绍这些技能。
+
+Alexa 的技能是我们如何将功能引入平台的主要核心。 需要从 Alexa 的主界面调用每个技能，然后该技能将接管整个功能，除非程序逻辑完成或用户明确要求该技能结束。 技能将逻辑应用于要执行的任务，因此该逻辑需要存储在某个地方，也许还连同数据库和执行运行时一起存储。 尽管许多技能都托管在 Heroku，PythonAnywhere，GCP 等多种服务上，但是托管技能和逻辑代码作为 AWS Lambda 函数是很常见的。
+
+在本节中，我们将使用适用于 Alexa 的 Python SDK 创建示例家庭自动化 Alexa 技能，并将其托管在 AWS Lambda 上。
+
+# 项目的前提条件和框图
+
+在开始构建 Alexa 技能之前，您将分别需要在 AWS 和 Amazon Developer 上使用以下两种类型的帐户：
+
+*   一个 AWS 账户（免费套餐有效）— [aws.amazon.com](https://aws.amazon.com/)
+*   亚马逊开发者帐户（免费）— [developer.amazon.com](https://developer.amazon.com/)
+
+一旦创建了这些帐户（其过程超出了本书的范围），您就可以继续创建我们的家庭自动化技能。 以下框图显示了我们将要创建的家庭自动化技能的架构：
+
+![](img/dc3b9bf7-c327-4b8b-ab37-7039b36c77f6.png)
+
+在构建此技能时，我们将使用以下服务，您可以通过以下列表中的链接来了解更多信息：
+
+*   [**Amazon Alexa 技能套件**](https://developer.amazon.com/alexa-skills-kit)
+*   [**使用 Amazon 登录**](https://developer.amazon.com/docs/login-with-amazon/minitoc-lwa-overview.html)
+*   [**AWS CloudWatch**](https://aws.amazon.com/cloudwatch/)
+*   [**Amazon DynamoDB**](https://aws.amazon.com/dynamodb/)
+*   [**AWS Lambda**](https://aws.amazon.com/lambda/)
+
+# 为技能创建配置
+
+技能要求服务之间有一定程度的联系才能正常工作。 此外，需要将部署在 AWS Lambda 上的技能逻辑配置为供 Alexa 上的技能使用。 在工作文件夹的根目录中创建一个`setup.txt`文件，内容如下。 随着本节中各步骤的进行，我们将逐步添加该内容：
+
+```py
+[LWA Client ID]
+amzn1.application-oa2-client.XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
+
+[LWA Client Secret]
+XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
+
+[Alexa Skill ID]
+amzn1.ask.skill.XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX
+
+[AWS Lambda ARN]
+arn:aws:lambda:us-east-1:XXXXXXXXXXXX:function:skill-sample-language-smarthome-switch
+
+[APIs]
+https://pitangui.amazon.com/api/skill/link/XXXXXXXXXXXXXX
+https://layla.amazon.com/api/skill/link/XXXXXXXXXXXXXX
+https://alexa.amazon.co.jp/api/skill/link/XXXXXXXXXXXXXX
+```
+
+在以下各节中，我们将将此文件称为`setup.txt`。 这实际上仅包含有关您的技能的信息。 也可以在其他任何文本编辑器（例如 Google Docs）中随意实现此功能。
+
+# Amazon 登录
+
+对于家庭自动化技能，您将需要启用“使用亚马逊登录”服务。 为此，请执行以下步骤：
+
+1.  转到[这里](https://developer.amazon.com/lwa/sp/overview.html)。 您将看到以下屏幕快照中显示的页面：
+
+![](img/4afa1398-744c-4718-bb55-0a9209e8ed04.png)
+
+2.  在随后加载的页面上，单击“创建新的安全配置文件”按钮。
+3.  将安全配置文件名称设置为`Smart Home Automation Profile`。
+4.  提供配置文件的描述。
+5.  对于内容隐私声明 URL，您将需要一个有效的隐私策略网页来将技能推广到生产中。 创建并托管隐私策略，并在此字段中提供指向它的链接。 可以在[这个页面](https://app-privacy-policy-generator.firebaseapp.com/)中找到用于创建隐私策略的非常方便的工具。
+6.  点击“保存”。
+7.  在下一页显示的齿轮菜单中，单击“安全配置文件”选项。 您将进入“安全配置文件管理”页面，如下图所示：
+
+![](img/6baa4f01-2672-49cb-9e03-6dd1f0902cac.png)
+
+8.  在安全配置文件列表中，单击“Web 设置”选项卡，以显示“家庭自动化配置文件”的“显示客户端 ID 和客户端密钥”链接。
+9.  复制显示的客户端 ID 和客户端密钥值，并将它们保存到工作目录中的`setup.txt`文件中，分别替换`[LWA Client ID]`和`[LWA Client Secret]`的格式示例条目。
+
+保持此选项卡处于打开状态，以备将来使用。 在新的浏览器标签中，完成下一部分的步骤。
+
+# 创建技能
+
+现在，我们可以继续创建技能：
+
+1.  登录[这里](https://developer.amazon.com/alexa/console/ask)开始该过程。 您将能够看到类似于以下内容的屏幕：
+
+![](img/e055cf24-cc4d-4caf-87a6-b5187a26a92a.png)
+
+2.  单击“创建技能”。
+3.  将名称设置为`Home Automation Skill`或您选择的名称。
+4.  在“选择要添加到您的技能的模型”部分下，单击“智能家居”模型。 您的选择现在应类似于以下内容：
+
+![](img/15bd4a33-02ec-4ab9-b0fc-7cd83f015eec.png)
+
+5.  单击“创建技能”以完成技能创建的初始阶段。
+6.  在出现的下一页上，您将能够看到技能 ID。 将此技能 ID 复制到本地工作目录中的`setup.txt`文件。
+
+不要关闭此标签，因为您仍然需要在此处填写字段。 打开一个新的浏览器选项卡以在下一部分中使用。
+
+# 配置 AWS Lambda 函数
+
+在将 Lambda 函数的 ARN 添加到技能端点配置之前，我们必须为 Lambda 函数创建一个配置。 您可以按照以下步骤进行操作：
+
+1.  转到[这里](https://console.aws.amazon.com/iam/home#/policies)。 屏幕上将显示以下屏幕截图所示的屏幕：
+
+![](img/0fdc474a-3051-4bab-9698-8a9d883cb2f6.png)
+
+2.  单击“创建策略”。
+3.  在“创建”策略编辑器的“JSON”选项卡中输入以下 JSON：
+
+```py
+{
+ "Version": "2012-10-17",
+ "Statement": [
+ {
+ "Effect": "Allow",
+ "Action": [
+ "logs:CreateLogStream",
+ "dynamodb:UpdateItem",
+ "logs:CreateLogGroup",
+ "logs:PutLogEvents"
+ ],
+ "Resource": "*"
+ }
+ ]
+ }
+```
+
+4.  单击“查看策略”，并将策略名称设置为`HomeAutomationPolicy`。
+5.  单击“创建策略”。
+6.  接下来，在页面的左侧导航菜单上，单击“角色”。
+7.  单击“创建角色”。
+8.  选择 AWS 服务和 Lambda，然后单击“下一步：权限”。
+9.  在过滤字段中搜索`HomeAutomationPolicy`。 检查策略。 您的屏幕应类似于以下内容：
+
+![](img/38f026ca-5a81-427f-ad3c-dc5efa7357de.png)
+
+10.  单击“下一步：标签”。
+11.  单击“下一步：审阅”。
+12.  将角色名称设置为`lambda_home_automation`。
+13.  单击“创建角色”。
+
+现在让我们创建 Lambda 函数。
+
+# 创建 Lambda 函数
+
+有了适合 Lambda 函数的配置，我们现在可以创建 Lambda 函数本身。 为此，在 AWS 控制台中，导航至[这里](https://console.aws.amazon.com/lambda/home?region=us-east-1)并执行以下步骤：
+
+1.  单击“创建函数”。
+2.  将函数名称设置为`homeAutomation`。
+3.  选择`Python 3.6`运行系统。
+4.  从执行角色中现有角色的下拉列表中选择`lambda_home_automation`角色。
+5.  点击`Create function`。
+6.  从出现的下一页复制 Lambda ARN，其中包含祝贺您创建 Lambda 函数的消息。 将此 ARN 放入我们本地工作目录的`setup.txt`的`[AWS Lambda ARN]`字段中。
+    此时，屏幕应类似于以下屏幕截图：
+
+![](img/c27dff75-763d-479c-aea9-4846c6cd2e08.png)
+
+请注意，屏幕上显示的触发器和目的地可能与前面的屏幕截图不同。
+
+7.  在左侧导航上，单击“添加触发器”以调出您的 Lambda 函数的可用触发器的下拉列表，如以下屏幕截图所示：
+
+![](img/4c5d75a8-1315-43f1-87d7-961a97ea98c4.png)
+
+8.  单击`Alexa Skills Kit`来打开此触发器的配置对话框。
+9.  将 Alexa 技能 ID 粘贴到技能 ID 字段中。 我们先前已将此值存储在`setup.txt`中，它看起来像`amzn1.ask.skill.xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx`。
+10.  单击“添加”以添加触发器并返回到 Lambda 函数管理屏幕。
+11.  单击页面右上方的“保存”。
+
+完成最后一步后，触发器部分将显示已连接的 Alexa 技能的详细信息。 如果不是，则应检查是否已正确执行上述步骤。
+
+# 配置 Alexa 技能
+
+现在，我们需要配置在浏览器的另一个选项卡中保持打开状态的技能。 我们将通过以下步骤进行操作：
+
+1.  返回该选项卡，并在“默认端点”字段中填写 Lambda 函数的 ARN。
+2.  点击“保存”。
+3.  单击页面底部的“设置帐户链接”。
+4.  对于授权 URL，输入`https://www.amazon.com/ap/oa`。
+5.  对于访问令牌 URL，输入`https://api.amazon.com/auth/o2/token`。
+6.  对于客户端 ID 字段，从`setup.txt`文件中复制`[LWA Client ID]`。
+7.  对于“客户端密钥”字段，从`setup.txt`文件中复制`[LWA Client Secret]`。
+8.  单击“添加范围”，然后输入`profile:user_id`。
+9.  从页面底部复制重定向 URL，然后将其粘贴到[API]部分下的`setup.txt`文件中。 URL 类似于以下内容：
+
+![](img/81841ec1-c702-47ac-84d3-11fc81c679bd.png)
+
+10.  点击“保存”。
+11.  在“安全配置文件管理”浏览器选项卡中，单击“Web 设置”选项卡。
+12.  单击“编辑”，然后将三个重定向 URL 添加到“允许的返回 URL”字段中。 您将必须单击“添加另一个”以输入多个 URL。
+13.  点击“保存”。
+
+现在，让我们为该技能设置 Amazon DynamoDB。
+
+# 设置 Amazon DynamoDB 以获得该技能
+
+为了能够从用户保存数据，此功能需要数据库。 我们将为此使用 Amazon DynamoDB 服务。 设置服务的步骤如下：
+
+1.  转到[这里](https://console.aws.amazon.com/dynamodb/home?region=us-east-1)。
+2.  单击“创建表”按钮。
+3.  输入表名称为`SmartHome`。
+4.  对于主键，输入`ItemId`。
+5.  保留所有默认设置，然后单击“创建”。 在此步骤中，您的屏幕应类似于以下屏幕截图：
+
+![](img/c1615057-9eee-451a-aa6e-49226c642255.png)
+
+然后，您可以转到 DynamoDB 仪表板以查看刚刚创建的表。 但是，这可能需要一些时间。
+
+# 部署 AWS Lambda 函数的代码
+
+我们剩下的最后一部分设置是为 AWS Lambda 函数提供逻辑的代码。 转到 Lambda 函数配置页面，然后向下滚动到编辑器。
+
+您将注意到编辑器具有两列界面：左列显示 Lambda 函数存储中的文件，而右列则可以编辑这些文件，如以下屏幕截图所示：
+
+![](img/83315a84-c753-4f37-980c-a9b5dd4e5ed8.png)
+
+单击`lambda_function.py`开始编辑文件并执行以下步骤：
+
+1.  导入必要的模块。 为了使该函数正常工作，我们需要一些通用库的支持，如以下代码所示：
+
+```py
+import boto3
+import json
+import random
+import uuid
+import time
+```
+
+boto3 API 用于连接到我们设置的 Amazon DynamoDB 实例。 JSON 模块有助于生成 Alexa 技能的响应。 其余模块有助于生成响应。
+
+2.  创建`AlexaResponse`类。 为了能够完全复制 Alexa 技能的预期响应格式，我们可以快速设置一个帮助程序类，该类可以为 Lambda 函数调用生成响应。 我们命名为`AlexaReponse`； 以下代码段显示了该类的初始化：
+
+```py
+class AlexaResponse:
+
+    def __init__(self, **kwargs):
+
+        self.context_properties = []
+        self.payload_endpoints = []
+
+        # Set up the response structure
+        self.context = {}
+        self.event = {
+            'header': {
+                'namespace': kwargs.get('namespace', 'Alexa'),
+                'name': kwargs.get('name', 'Response'),
+                'messageId': str(uuid.uuid4()),
+                'payloadVersion': kwargs.get('payload_version', '3')
+            },
+            'endpoint': {
+                "scope": {
+                    "type": "BearerToken",
+                    "token": kwargs.get('token', 'INVALID')
+                },
+                "endpointId": kwargs.get('endpoint_id', 'INVALID')
+            },
+            'payload': kwargs.get('payload', {})
+        }
+
+        if 'correlation_token' in kwargs:
+            self.event['header']['correlation_token'] = kwargs.get('correlation_token', 'INVALID')
+
+        if 'cookie' in kwargs:
+            self.event['endpoint']['cookie'] = kwargs.get('cookie', '{}')
+
+        if self.event['header']['name'] == 'AcceptGrant.Response' or self.event['header']['name'] == 'Discover.Response':
+            self.event.pop('endpoint')
+```
+
+前面用于`AlexaResponse`类的初始化方法设置了预期的输出格式和各种常量设置，例如有效负载的版本号以及对输出对象的一些基本验证。 接下来，我们创建用于添加内容属性的方法和用于在响应中设置 Cookie 的另一种方法。 最后，添加了另一种方法来设置有效负载端点：
+
+```py
+def add_context_property(self, **kwargs):
+    self.context_properties.append(self.create_context_property(**kwargs))
+
+def add_cookie(self, key, value):
+
+    if "cookies" in self is None:
+        self.cookies = {}
+
+    self.cookies[key] = value
+
+def add_payload_endpoint(self, **kwargs):
+    self.payload_endpoints.append(self.create_payload_endpoint(**kwargs))
+```
+
+3.  现在定义上一步中创建的三个处理器方法。 上一步中声明的方法取决于它们自己的内部方法。 这些主要是辅助函数，与本章的重点无关，因此我们将把这些留给您实现该函数，您可以通过研究 AWS Lambda 函数的响应主体文档和 Alexa 技能来创建这些函数。 可以[在本章的代码存储库中](http://tiny.cc/HOPDLW_CH7_lfpy)的`lambda_function.py`文件的 65 和 102 行之间找到示例实现。
+4.  接下来，我们将设置方法以从`AlexaResponse`类生成最终响应。 最终，我们创建了将所有不同部分（上下文，事件，有效负载，端点和 cookie）同化为单个对象的方法，可以与 Alexa 技能进行交互：
+
+```py
+    def get(self, remove_empty=True):
+
+        response = {
+            'context': self.context,
+            'event': self.event
+        }
+
+        if len(self.context_properties) > 0:
+            response['context']['properties'] = self.context_properties
+
+        if len(self.payload_endpoints) > 0:
+            response['event']['payload']['endpoints'] = self.payload_endpoints
+
+        if remove_empty:
+            if len(response['context']) < 1:
+                response.pop('context')
+
+        return response
+
+    def set_payload(self, payload):
+        self.event['payload'] = payload
+
+    def set_payload_endpoint(self, payload_endpoints):
+        self.payload_endpoints = payload_endpoints
+
+    def set_payload_endpoints(self, payload_endpoints):
+        if 'endpoints' not in self.event['payload']:
+            self.event['payload']['endpoints'] = []
+
+        self.event['payload']['endpoints'] = payload_endpoints
+```
+
+5.  `AlexaResponse`类现已完成。 现在，我们将继续使用以下行来连接 DynamoDB 服务：
+
+```py
+aws_dynamodb = boto3.client('dynamodb')
+```
+
+6.  接下来，我们定义文件的主要方法和入口点-`lambda_handler`方法：
+
+```py
+def lambda_handler(request, context):
+
+    # JSON dump for the request
+    print('Request: ')
+    print(json.dumps(request))
+
+    if context is not None:
+        print('Context: ')
+        print(context)
+```
+
+在本步骤的其余部分中，我们将继续添加上述方法。 在前面的几行中，我们声明了`lambda_handler`方法，该方法接受 Alexa 技能的`request`和`context`对象。 然后，它对请求进行 JSON 转储，以便我们以后可以从 Amazon CloudWatch 仪表板进行观察。 接下来，它对上下文进行了转储（如果有附加到请求中的内容）：
+
+```py
+    # Validate we have an Alexa directive
+    if 'directive' not in request:
+        aer = AlexaResponse(
+            name='ErrorResponse',
+            payload={'type': 'INVALID_DIRECTIVE',
+                     'message': 'Missing key: directive, Is the request a valid Alexa Directive?'})
+        return send_response(aer.get())
+```
+
+然后，我们验证请求中是否有有效的 Alexa 指令，如果找不到有效的 Alexa 指令，则会生成错误消息并作为响应发送回去。 注意此处`AlexaResponse`类对象的用法。 将来我们将使用它来从以下脚本生成响应：
+
+```py
+    # Check the payload version
+    payload_version = request['directive']['header']['payloadVersion']
+    if payload_version != '3':
+        aer = AlexaResponse(
+            name='ErrorResponse',
+            payload={'type': 'INTERNAL_ERROR',
+                     'message': 'This skill only supports Smart Home API version 3'})
+        return send_response(aer.get())
+```
+
+同样，进行另一项检查以确保请求的有效负载版本为 3。这是因为我们仅针对 Alexa 的 Smart Home API 版本 3 开发了它：
+
+1.  首先，我们打开请求并查看请求的内容：
+
+```py
+    name = request['directive']['header']['name']
+    namespace = request['directive']['header']['namespace']
+```
+
+2.  然后，我们根据`namespace`处理来自 Alexa 的传入请求。 请注意，此示例接受任何`grant`请求，但是在您的实现中，您将使用代码和令牌来获取和存储访问令牌：
+
+```py
+    if namespace == 'Alexa.Authorization':
+        if name == 'AcceptGrant':
+            grant_code = request['directive']['payload']['grant']['code']
+            grantee_token = request['directive']['payload']['grantee']['token']
+            aar = AlexaResponse(namespace='Alexa.Authorization', name='AcceptGrant.Response')
+            return send_response(aar.get())
+```
+
+前述条件适用于 Alexa 授权请求。
+
+3.  对于发现和关闭开关的操作，我们使用以下代码：
+
+```py
+    if namespace == 'Alexa.Discovery':
+        if name == 'Discover':
+            adr = AlexaResponse(namespace='Alexa.Discovery', name='Discover.Response')
+            capability_alexa = adr.create_payload_endpoint_capability()
+            capability_alexa_powercontroller = adr.create_payload_endpoint_capability(
+                interface='Alexa.PowerController',
+                supported=[{'name': 'powerState'}])
+            adr.add_payload_endpoint(
+                friendly_name='Sample Switch',
+                endpoint_id='sample-switch-01',
+                capabilities=[capability_alexa, capability_alexa_powercontroller])
+            return send_response(adr.get())
+
+        if namespace == 'Alexa.PowerController':
+            endpoint_id = request['directive']['endpoint']['endpointId']
+            power_state_value = 'OFF' if name == 'TurnOff' else 'ON'
+            correlation_token = request['directive']['header']['correlationToken']
+```
+
+对于对`TurnOff`或`TurnOn.`的请求，此示例始终返回`success`响应。
+
+4.  现在，我们在设置状态时检查错误：
+
+```py
+        state_set = set_device_state(endpoint_id=endpoint_id, state='powerState', value=power_state_value)
+        if not state_set:
+            return AlexaResponse(
+                name='ErrorResponse',
+                payload={'type': 'ENDPOINT_UNREACHABLE', 'message': 'Unable to reach endpoint database.'}).get()
+
+        apcr = AlexaResponse(correlation_token=correlation_token)
+        apcr.add_context_property(namespace='Alexa.PowerController', name='powerState', value=power_state_value)
+        return send_response(apcr.get())
+```
+
+5.  最后，我们提取指令名称和指令的名称空间，以确定要发送回的响应的类型。 根据要发送的指令，将生成不同的响应，并最终使用`AlexaResponse`类对象发送该响应。
+6.  注意上一步代码中`send_response`方法的用法。 我们需要定义该方法。 它的任务是以 JSON 格式发送`AlexaResponse`对象，并将其记录下来以便在 Amazon CloudWatch 中进行观察：
+
+```py
+def send_response(response):
+    print('Response: ')
+    print(json.dumps(response))
+    return response
+```
+
+7.  更新`device state`方法。 由于我们正在使用 Alexa 为简单的交换机设备构建自动化，因此我们需要维护交换机的状态信息。 为此，我们将其状态存储在 DynamoDB 中。 我们将为此添加一个更新方法，如以下代码所示：
+
+```py
+def set_device_state(endpoint_id, state, value):
+    attribute_key = state + 'Value'
+    response = aws_dynamodb.update_item(
+        TableName='SmartHome',
+        Key={'ItemId': {'S': endpoint_id}},
+        AttributeUpdates={attribute_key: {'Action': 'PUT', 'Value': {'S': value}}})
+    print(response)
+    if response['ResponseMetadata']['HTTPStatusCode'] == 200:
+        return True
+    else:
+        return False
+```
+
+接下来，我们将测试 Lambda 函数。
+
+# 测试 Lambda 函数
+
+现在，我们可以检查函数是否正确响应。 为此，我们必须通过以下步骤在 Lambda 函数的仪表板上创建一个测试：
+
+1.  在上一节中创建的函数的 Lambda 函数页面的右上角，单击“测试”。
+2.  将出现一个对话框，其中包含用于编写新测试或使用现有测试的选项。 选择创建新测试事件的选项。
+3.  在“事件”模板中，确保已选择“Hello World”。
+4.  接下来，提供事件名称`directiveDiscovery`。
+5.  在编辑器中输入以下 JSON：
+
+```py
+{
+  "directive": {
+    "header": {
+      "namespace": "Alexa.Discovery",
+      "name": "Discover",
+      "payloadVersion": "3",
+      "messageId": "1bd5d003-31b9-476f-ad03-71d471922820"
+    },
+    "payload": {
+      "scope": {
+        "type": "BearerToken",
+        "token": "access-token-from-skill"
+      }
+    }
+  }
+}
+```
+
+此时，您的屏幕应类似于以下内容：
+
+![](img/72352241-b56d-4536-b083-daebba4c21cf.png)
+
+6.  向下滚动并单击“创建”。
+7.  返回 Lambda 函数仪表板后，在右上方，从下拉列表中选择`directoryDiscover`测试。
+8.  单击“测试”。
+
+完成后，测试将显示响应状态和 Lambda 函数的响应。 您可以在 Lambda 函数仪表板顶部的页面上看到结果，该结果类似于以下屏幕截图：
+
+![](img/ff23d8a3-8380-4e37-949f-efd3614544ca.png)
+
+如果测试失败，请确保已仔细执行上述步骤，并确保存在不同服务的区域相同。
+
+# 测试 AWS 家庭自动化技能
+
+作为该项目的最后阶段，我们将在 Alexa 测试模拟器中测试我们的技能。 为此，请执行以下步骤：
+
+1.  转到[这里](https://alexa.amazon.com/)并登录。
+2.  单击左侧菜单中的“技能”。
+3.  单击页面右上方的您的技能。
+
+4.  选择“DEV SKILL”选项卡。
+5.  单击`HomeAutomationSkill`。 您应该看到以下屏幕：
+
+![](img/246d6e58-cde0-45cd-9ad1-0f7dd1f02154.png)
+
+6.  单击“启用”按钮。 系统将要求您允许访问开发者帐户的权限。
+7.  返回到 Alexa Developer 控制台，然后单击“发现设备”。 名为 Sample Switch 的新设备将显示为可用，如以下屏幕快照所示：
+
+![](img/77383ecb-ff77-43fa-99ae-c06f245dd01e.png)
+
+8.  现在，转到 Alexa Skills Kit 开发页面上的“测试”选项卡，以获取 HomeAutomation 技能。
+
+9.  在模拟器中，键入`alexa, turn on the sample switch`。 如果请求被接受，那么您将收到来自 Alexa 的`OK`，如以下屏幕截图所示：
+
+![](img/40856d4c-4de8-458c-b4e7-83073a821f59.png)
+
+要检查该技能是否真正起作用，可以转到 DynamoDB 表 SmartHome 并切换到表的“项目”选项卡。 您应该能够看到以下记录：
+
+![](img/f0949a1c-45e6-49d6-af20-309f9b4dd0a3.png)
+
+恭喜您成功在 Alexa 中建立了简单的家庭自动化技能！ 您可以玩耍此技能，并为 Alexa 建立自己的家庭自动化技能。 准备好将其发布给更广泛的受众后，您可以按照[这个页面](https://developer.amazon.com/docs/alexa-for-business/create-and-publish-private-skills.html)上提供的文档中的建议进行操作。
+
+# 总结
+
+在本章中，我们介绍了如何通过其 Python API boto3 使用 AWS。 我们探索了使用 API​​的各种选项和配置要求，并查看了如何与 Rekognition API 一起使用以识别名人的示例。 然后，我们深入研究了如何创建家庭自动化的 Alexa 技能，设置了打开/关闭开关的简单任务。 这可以很容易地推断到其他智能家居设备。 我们研究了如何在 AWS Lambda 上托管 Alexa 技能逻辑以及如何从 AWS CloudWatch 进行观察。 我们还探索了 Amazon DynamoDB 中动态设备数据的存储。
+
+在接下来的章节中，我们将了解如何使用 Python 在 Microsoft Azure 平台上使用深度学习。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/08.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/08.md
new file mode 100644
index 00000000..8cfd083e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/08.md
@@ -0,0 +1,1044 @@
+# 八、Microsoft Azure 上的 Python 深度学习
+
+我们将在本章结束我们的云 API 探索之旅。 到目前为止，我们已经将自己轻轻地介绍给了 API 的美好世界，特别是让我们轻松进行深度学习的 API。 我们已经看到了如何使用 REST API 并以编程方式使用它们。 与 **Google Cloud Platform**（**GCP**）和 **Amazon Web Services**（**AWS**）一样，Microsoft 也提供了自己的云服务平台，该平台称为 Azure。 与前几章一样，我们将只专注于 Azure 必须提供的基于深度学习的解决方案。 我们将稍作调整，还将介绍 Microsoft 的**认知工具包**（**CNTK**），它是像 Keras 这样的深度学习框架。
+
+在本章中，我们将介绍以下主题：
+
+*   在 Azure 中设置您的帐户
+*   快速浏览 Azure 提供的深度学习解决方案
+*   在 Python 中使用 Face API
+*   在 Python 中使用 Text Analytics API
+*   CNTK 简介
+
+# 技术要求
+
+您可以从[这里](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter8)访问本章的代码。
+
+要运行本章中使用的代码，您将需要以下软件：
+
+*   Python 3.6+
+*   Python PIL 库
+*   Matplotlib 库
+
+本章将介绍所有其他安装，例如 CNTK 和 Django。
+
+# 在 Azure 中设置您的帐户
+
+根据您以前使用云平台的经验，您可能已经意识到，这一切都始于在云提供商中设置帐户和计费。 这是一个非常标准的工作流程，Azure 也不例外。 因此，让我们转到[这里](https://azure.microsoft.com/)并执行以下步骤：
+
+1.  单击“免费启动”按钮，如下所示：
+
+![](img/01908bbd-6abc-4f1b-8b26-2d05cab0472d.png)
+
+请注意，您将需要一个 Microsoft 帐户才能继续以下步骤。 因此，如果您没有，请在[这个页面](https://account.microsoft.com/account)中创建一个。
+
+2.  您将被重定向到另一个页面，在该页面上您将再次看到另一个“免费启动”按钮。 点击它。
+
+![](img/e67d8ec9-75a8-48a3-aa96-a76668954eb7.png)
+
+3.  系统将要求您登录到您的 Microsoft 帐户以继续。 相应地提供凭据，您应该进入页面，如以下屏幕截图所示：
+
+![](img/89e7d103-9c26-4a97-aaa8-78989fd0b407.png)
+
+如果您是首次使用该产品，您将在 30 天内免费获得 200 美元的信用额（取决于您的货币），以浏览 Azure 提供的其他服务。
+
+4.  填写您的详细信息，其中还包括通过卡验证您的身份。
+
+您可能需要为此支付象征性的费用。 请确保查看 Azure 免费套餐的条款和条件，您可以在[这个页面](https://azure.microsoft.com/en-in/offers/ms-azr-0003p/)中找到这些条款和条件。
+
+完成此过程后，您将全部准备就绪并可以移至 [Azure 门户](https://portal.azure.com/#home)，该门户的作用方式与 GCP 和 AWS 控制台相同您已经在前面的章节中看到过。
+
+Azure 门户如下所示：
+
+![](img/be9a0fa6-08a0-474a-8d62-b28113ea7fcf.png)
+
+现在，您已经设置了 Azure 帐户，让我们在下一部分中探索基于深度学习的 Azure 产品。
+
+# Azure 提供的深度学习服务一览
+
+Azure 的基于深度学习（和通用机器学习）的产品大致分为三个部分：
+
+*   [**Azure 机器学习服务**](https://azure.microsoft.com/en-in/services/machine-learning-service/)，它提供端到端的机器学习生命周期，包括模型构建，训练和部署：
+
+![](img/5e49fe53-bc9e-41e1-b544-97bdfb6d9e0a.png)
+
+*   [**机器学习 API**](https://gallery.azure.ai/machineLearningAPIs)，它们为各种学习任务提供 API，例如内容审核，翻译，异常检测， 等等：
+
+![](img/3172ed87-5c07-4de6-bcb3-8a1c49c9ac02.png)
+
+*   [**Azure AI**](https://azure.microsoft.com/en-in/overview/ai-platform/)，其重点是诸如**知识挖掘**之类的主题，**决策挖掘**以及计算机视觉和语言建模领域中的许多其他类似的机器学习功能：
+
+![](img/a33df20e-bf48-44a2-b065-44b02e2bf715.png)
+
+现在，我们将研究分别用于计算机视觉任务和自然语言理解任务的两个 API。 我们还将研究如何从 Python 使用这些 API。 让我们潜入。
+
+# 使用 Face API 和 Python 的对象检测
+
+对象检测是计算机视觉的经典用例，已广泛应用于许多实际问题，例如视频监视系统。 在本节中，我们将使用 Face API 从给定图像中检测面部。 在设计视频监视系统时，可以直接使用。 您可以从[其官方页面](https://azure.microsoft.com/en-us/services/cognitive-services/face/)了解有关 Face API 的更多信息。
+
+# 初始设置
+
+Azure 还可以让您免费试用此 API 7 天。 但是，由于您已经拥有一个 Azure 帐户（我想拥有免费信用），因此我们可以采用另一种方式，如下所示：
+
+1.  登录到您的 Azure 帐户。
+2.  转到[这里](https://azure.microsoft.com/en-us/services/cognitive-services/face/)。
+3.  单击“已经使用 Azure？ 立即免费试用此服务”。
+
+现在，您应该有一个窗口，如以下屏幕截图所示：
+
+![](img/f1b88b0e-e960-4830-9440-3e4ffa4ab083.png)
+
+4.  相应地填写详细信息，完成后单击“创建”。 您将看到一个弹出窗口，显示“正在提交部署”。
+
+部署完成后，您应该进入页面，如以下屏幕截图所示：
+
+![](img/8d44a941-a39a-4c25-8b07-1457bef65c63.png)
+
+5.  单击“转到资源”，您将被重定向到资源页面，其中包含许多详细信息：
+
+![](img/08af55b4-5b80-44b4-9943-282a9618ff8d.png)
+
+只需向下滚动一点，您将能够看到 Face API 的端点。 请注意，它会根据您在创建部署时输入的配置详细信息而有所不同。 端点看起来像[这里](https://eastus.api.cognitive.microsoft.com/face/v1.0)。 注意这一点。
+
+现在，要能够以编程方式使用 Face API，您需要创建相应的 API 密钥。 在同一页面的顶部，有一个部分显示**抓取密钥**：
+
+![](img/15e48360-dd9c-48f2-b123-c6e1680e2514.png)
+
+6.  在该部分下，单击“密钥”，您将看到以下屏幕截图中的内容：
+
+![](img/6166e10e-a211-4053-9236-f678e04822cc.png)
+
+既然您已经有了 Face API 的 API 密钥，就可以使用它了。
+
+# 从 Python 代码使用 Face API
+
+当您的包含诸如 API 密钥之类的安全凭证时，通常最好将这些密钥定义为环境变量，然后在程序中调用它们。 因此，继续创建一个环境变量以存储 Face API 的 API 密钥之一。
+
+要将环境变量添加到计算机，可以在[这个页面](https://www.twilio.com/blog/2017/01/how-to-set-environment-variables.html)上关注此文章。
+
+就我而言，我已将环境变量命名为`face_api_key`。 您可以放置​​任何包含面部的图像。 对于此示例，我将使用以下图像：
+
+![](img/5429ceba-947a-43c2-abbe-7e92043a3fdf.jpg)
+
+创建一个新的 Jupyter 笔记本，然后按照以下步骤操作：
+
+1.  现在，让我们使用 Python 加载环境变量，如下所示：
+
+```py
+import os
+face_api_key = os.environ['face_api_key']
+```
+
+2.  现在，将 Face API 端点（用于对象检测）分配给变量。
+3.  此外，将要测试的图像上载到在线文件服务器（例如 Imgur），然后检索允许从 Imgur 提取原始图像的 URL。
+
+就我而言，我已将图像上传到 GitHub 存储库并使用了相应的 URL：
+
+```py
+face_api_url = 'https://eastus.api.cognitive.microsoft.com/face/v1.0/detect'
+
+image_url= 'https://raw.githubusercontent.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/master/Chapter8/sample_image.jpg'
+```
+
+请注意，在前面的 API 中，仅 URL 末尾的终结点名称发生更改。 在大多数情况下，除非使用 Azure 平台本身要求进行更改，否则在使用认知服务期间，终结点名称之前的部分将保持不变。
+
+4.  现在，导入`requests`模块并设置 API 有效负载，如下所示：
+
+```py
+import requests
+params = {
+'returnFaceId': 'true',
+'returnFaceLandmarks': 'false',
+'returnFaceAttributes': 'age,gender',
+}
+```
+
+5.  现在，我们可以向 Face API 发出请求了。
+
+以下代码行可为您完成此操作：
+
+```py
+# Define the header param
+headers = { 'Ocp-Apim-Subscription-Key': face_api_key }
+# Define the body params
+params = {
+'returnFaceId': 'true',
+'returnFaceLandmarks': 'false',
+'returnFaceAttributes': 'age,gender',
+}
+```
+
+6.  现在，我们可以显示从 API 收到的响应：
+
+```py
+# Make the call to the API
+response = requests.post(face_api_url, params=params, headers=headers, json={"url": image_url})
+# Get the response and log
+faces = response.json()
+print('There are {} faces im the given image'.format(str(len(faces))))
+```
+
+在这种情况下，返回的代码如下：
+
+```py
+There are 2 faces in the given image
+```
+
+请注意`returnFaceAttributes`主体参数，该参数可让您指定面孔的多个属性，并且 Face API 将针对这些属性分析给定的面孔。 要查找有关这些属性的更多信息，请查看[这个页面](http://bit.ly/2J3j6nM)上的文档。
+
+让我们以一种合理的方式将从 API 获得的响应嵌入到图像中。 我们将在图像中显示检测到的面部的可能的性别和可能的年龄。 我们将使用`matplotlib`，`PIL`和`io`库进行此操作，并且我们将使用 Jupyter 笔记本来处理本节中的以下代码段。 我们将从导入库开始：
+
+```py
+%matplotlib inline #Only for Jupyter Notebook
+import matplotlib.pyplot as plt
+from PIL import Image
+from matplotlib import patches
+from io import BytesIO
+```
+
+要使用从 API 收到的响应在图像上显示叠加层，我们使用以下方法：
+
+1.  存储 API 响应：
+
+```py
+response = requests.get(image_url)
+```
+
+2.  根据响应内容创建图像：
+
+```py
+image = Image.open(BytesIO(response.content))
+```
+
+3.  创建一个空图形：
+
+```py
+plt.figure(figsize=(8,8))
+```
+
+4.  显示使用响应创建的图像：
+
+```py
+ax = plt.imshow(image, alpha=0.6)
+```
+
+5.  遍历前面部分中指定的面部并提取必要的信息：
+
+```py
+for face in faces:
+ # Extract the information
+ fr = face["faceRectangle"]
+
+ fa = face["faceAttributes"]
+ origin = (fr["left"], fr["top"])
+ p = patches.Rectangle(origin, fr["width"], fr["height"], fill=False, 
+ linewidth=2, color='b')
+ ax.axes.add_patch(p)
+ plt.text(origin[0], origin[1], "%s, %d"%(fa["gender"].capitalize(), fa["age"]), 
+ fontsize=20, weight="bold", va="bottom")
+# Turn off the axis
+_ = plt.axis("off") 
+plt.show()
+```
+
+您应该具有这样的图像：
+
+![](img/6602861e-76f7-4378-afcc-db74b1161cf8.png)
+
+鼓励您尝试使用 API​​提供的不同参数。 现在，我们将研究**自然语言理解**（**NLU**）API。
+
+# 使用 Text Analytics API 和 Python 提取文本信息
+
+无论是有意还是无意，我们都必须遇到自然语言处理的一些惊人用例。 无论是自动更正，下一个单词建议还是语言翻译，这些用例都非常重要而不能忽略。 在本节中，我们将使用[文本分析 API](https://azure.microsoft.com/en-us/services/cognitive-services/text-analytics/) 从给定的一段文字中提取有意义的信息。
+
+您可以使用前面提到的链接免费试用 API，并查看其功能。 在以下示例中，我输入了短语`I want to attend NeurIPS someday and present a paper there`，Text Analytics API 从中提取了四个有意义的信息：
+
+![](img/e67aa8f4-cd9d-4d88-922a-4c94bd55d0b0.png)
+
+观察 API 如何从短语中提取所有关键信息。
+
+现在，我们将看到如何使用 Python 以编程方式执行此操作。 设置步骤将与前面的步骤完全相同。 只需转到[这里](https://portal.azure.com/#create/Microsoft.CognitiveServicesTextAnalytics)并按照那里的步骤进行。 一旦拥有使用 API​​的相应 API 密钥，请继续进行以下小节。 别忘了记下各自的端点。 端点应以[这个页面](https://eastus.api.cognitive.microsoft.com/text/analytics/v2.0)开头。 该 URL 不能单独使用； 它需要有一个后缀，指向要调用的正确方法。
+
+# 在 Python 代码中使用 Text Analytics API
+
+本节将向您展示如何在自己的 Python 代码中使用 Text Analytics API。 以下是使用它的步骤：
+
+1.  我们将从导入所需的库开始本节：
+
+```py
+import requests
+import os
+from pprint import pprint
+```
+
+2.  然后，我们将从环境变量中加载 Text Analytics API 的 API 密钥：
+
+```py
+api_key = os.environ['text_api_key']
+```
+
+3.  现在让我们指定一些 URL 来存储 API 端点：
+
+```py
+text_analytics_base_url = \
+'https://eastus.api.cognitive.microsoft.com/text/analytics/v2.0'
+language_api_url = text_analytics_base_url + "/languages"
+sentiment_api_url = text_analytics_base_url + "/sentiment"
+key_phrase_api_url = text_analytics_base_url + "/keyPhrases"
+```
+
+4.  现在，通过提供 API 密钥来定义`headers`参数：
+
+```py
+headers = {"Ocp-Apim-Subscription-Key": api_key}
+```
+
+5.  我们还要定义 body 参数。 就我而言，我将保留之前在基于 GUI 的演示中显示的相同短语：
+
+```py
+documents = { 'documents': [
+{ 'id': '1', 'text': 'I want to attend NeurIPS someday and present a paper there.' }
+]}
+```
+
+6.  现在，我们可以调用 Text Analytics 的各个 API。 让我们从检测语言开始：
+
+```py
+response = requests.post(language_api_url, headers=headers, json=documents)
+language = response.json()
+pprint(language)
+```
+
+我们得到相应的响应，如下所示：
+
+![](img/16b55881-1edf-4f83-9814-5cd3c785a8da.png)
+
+请注意，我已突出显示该语言。 现在，让我们继续进行情感分析部分：
+
+```py
+response = requests.post(sentiment_api_url, headers=headers, json=documents)
+sentiment = response.json()
+pprint(sentiment)
+```
+
+显示的情感如下所示：
+
+![](img/37049f4f-493f-4703-a41c-52f3a69aeb73.png)
+
+注意，此处使用的短语既不包含正面情感也不包含负面情感，因此不包含得分。 现在，我们将从给定的文本中提取关键短语：
+
+```py
+response = requests.post(key_phrase_api_url, headers=headers, json=documents)
+phrases = response.json()
+print(phrases)
+```
+
+关键短语如下所示：
+
+![](img/6e957a31-82f6-4670-8ad7-eaded45163f1.png)
+
+注意端点相对于任务的变化。 您可以在[这个页面](http://bit.ly/2JjLRfi)上探索有关上一示例中使用的端点的不同参数的更多信息。
+
+# CNTK 简介
+
+CNTK 是 Microsoft 提供的产品。 该框架是 ONNX 格式计划的一部分，该计划允许在不同的神经工具套件框架之间轻松转换模型。 该框架负责 Microsoft 软件和平台上的深度学习生产工作量的很大一部分。 该框架于 2016 年推出，一直是 TensorFlow，PyTorch 等流行框架的竞争者。 该框架是完全开源的，可以在[这个页面](http://github.com/microsoft/CNTK)中找到。
+
+CNTK 为企业服务（例如 Cortana 和 Bing）以及广告（例如 Skype Translate，Microsoft Cognitive Services 等）提供动力。 事实证明，它在某些应用上比 TensorFlow 和 PyTorch 等竞争对手更快地工作。
+
+在本节中，我们将研究 CNTK 的一些基础知识，然后继续创建 Django 应用以将基于 CNTK 的模型传递到网络上。
+
+# CNTK 入门
+
+CNTK 是最容易上手的框架之一，这得益于其简单的语法和无需会话概念即可工作的能力，就像 TensorFlow 一样，这使大多数学习器感到困惑。 让我们看看如何在本地计算机或 Google Colaboratory 上设置 CNTK。
+
+# 在本地计算机上安装
+
+CNTK 框架支持 64 位和 32 位架构的计算机。 但是，在编写本书时，它仅支持 3.6 版以下的 Python 版本。 您可以在[这个页面](https://pypi.org/project/cntk/)上验证最新支持的版本。 此外，目前，CNTK 无法作为 macOS 上的内置二进制文件使用。
+
+要安装框架，可以使用`pip`包管理器，也可以使用 Anaconda 上已编译的二进制文件进行安装。 假设已设置 Python 环境，则可以使用以下命令在 Windows 和 Linux 上安装 CNTK：
+
+*   如果没有 Anaconda，则将以下内容用于 CPU 版本：
+
+```py
+# For CPU version
+pip install cntk
+```
+
+*   将以下内容用于启用 GPU 版本：
+
+```py
+# For the GPU enabled version
+pip install cntk-gpu
+```
+
+*   在支持 Anaconda 的计算机上，可以使用`pip`通过以下命令安装 CNTK 框架：
+
+```py
+pip install <url>
+```
+
+可以从 [CNTK 网站](http://tiny.cc/cntk)获得`<url>`。
+
+该命令将类似于以下内容：
+
+```py
+pip install https://cntk.ai/PythonWheel/CPU-Only/cntk-2.6-cp35-cp35m-win_amd64.whl
+```
+
+现在，我们开始在 Google Colaboratory 中安装它。
+
+# 在 Google Colab 上安装
+
+默认情况下，CNTK 框架在 Google Colaboratory 平台上不可用，因此必须与其他必要模块一起安装。 要在 Google Colaboratory 运行时上安装 CNTK，请在脚本顶部使用以下命令：
+
+```py
+!apt-get install --no-install-recommends openmpi-bin libopenmpi-dev libopencv-dev python3-opencv python-opencv && ln -sf /usr/lib/x86_64-linux-gnu/libmpi_cxx.so /usr/lib/x86_64-linux-gnu/libmpi_cxx.so.1 && ln -sf /usr/lib/x86_64-linux-gnu/openmpi/lib/libmpi.so /usr/lib/x86_64-linux-gnu/openmpi/lib/libmpi.so.12 && ln -sf /usr/lib/x86_64-linux-gnu/libmpi.so /usr/lib/x86_64-linux-gnu/libmpi.so.12 && pip install cntk
+```
+
+请注意，前面的命令是单行命令。 如果将其分成多行，则应确保将所需的更改添加到命令中。
+
+一旦上一步成功运行，您将无需在该运行时再次使用此命令。 因此，该命令可以在程序的将来运行中被注释掉。
+
+通常，通过`C`别名将 CNTK 导入 Python 项目。 我们使用以下代码将库导入项目：
+
+```py
+import cntk as C
+```
+
+我们可以使用以下行来检查已安装的 CNTK 的版本：
+
+```py
+print(C.__version__)
+```
+
+将 CNTK 导入到项目中后，我们准备着手创建深度学习模型的先决条件。
+
+# 创建 CNTK 神经网络模型
+
+在本节中，我们将完成创建预测神经网络之前所需的步骤，然后将创建神经网络本身：
+
+1.  首先，将必要的模块导入项目：
+
+```py
+import matplotlib.pyplot as plt
+%matplotlib inline
+
+import numpy as np
+from sklearn.datasets import fetch_openml
+import random
+
+import cntk.tests.test_utils
+from sklearn.preprocessing import OneHotEncoder
+
+import cntk as C # if you have not done this before in the project
+```
+
+`sklearn`模块的`fetch_openml()`方法可帮助我们将本示例中使用的数据集直接下载到项目中，即 MNIST 手写数字数据集。 `OneHotEncoder`方法用于标签的单热编码。
+
+2.  接下来，设置程序执行过程中所需的几个常量：
+
+```py
+num_samples = 60000
+batch_size = 64
+learning_rate = 0.1
+```
+
+我们将对 60,000 个样本进行训练，初始学习率为`0.1`。 该速率可以在训练期间动态更新。
+
+3.  然后，我们需要创建一种用于生成随机迷你批的训练方法：
+
+```py
+class Batch_Reader(object):
+    def __init__(self, data , label):
+        self.data = data
+        self.label = label
+        self.num_sample = data.shape[0]
+
+    def next_batch(self, batch_size):
+        index = random.sample(range(self.num_sample), batch_size)
+        return self.data[index,:].astype(float),self.label[index,:].astype(float)
+```
+
+每次调用时，前面的方法将生成等于上一步中设置的大小的批量，例如，每个批量中有 64 个样本。 这些样本是从数据集中随机抽取的。
+
+4.  现在需要获取数据集； 为此，我们使用以下代码行：
+
+```py
+mnist = fetch_openml('mnist_784')
+```
+
+提取数据后，可以将其分为训练和测试数据集，如下所示：
+
+```py
+train_data = mnist.data[:num_samples,:]
+train_label = mnist.target[:num_samples]
+test_data = mnist.data[num_samples:,:]
+test_label = mnist.target[num_samples:]
+```
+
+5.  数据集中的标签在输入训练模型之前需要进行一次热编码。 为此，我们使用以下代码：
+
+```py
+enc = OneHotEncoder()
+enc.fit(train_label[:,None])
+train_encoded = enc.transform(train_label[:,None]).toarray()
+```
+
+6.  现在，我们可以为训练批量生成器创建一个生成器对象，如下所示：
+
+```py
+train_reader = Batch_Reader(train_data, train_encoded)
+```
+
+7.  我们也快速对`test`数据集执行前面的步骤：
+
+```py
+enc = OneHotEncoder()
+enc.fit(test_label[:,None])
+test_encoded = enc.transform(test_label[:,None]).toarray()
+
+test_reader = Batch_Reader(test_data, test_encoded)
+```
+
+8.  现在，让我们创建一个 CNTK 神经网络模型。 我们首先从定义一些常量开始：
+
+```py
+dimensions = 784
+classes = 10
+hidden_layers = 3
+hidden_layers_neurons = 400
+```
+
+我们将输入数据的维度定义为`784`。 回顾“第 3 章”，“创建第一个深度学习 Web 应用”的示例，在此我们使用了 MNIST 数据集。 MNIST 数据集中的图像以单维数组的格式存储，其中包含`0`至`255`范围内的`28 x 28`值。 图像属于 10 个不同的类别，分别对应于阿拉伯数字系统中的每个数字。 我们提供 3 个隐藏层，每个包含 400 个神经元。
+
+9.  然后，我们创建两个 CNTK `input`变量，以在创建模型时使用。 这是 CNTK 最重要的概念之一。
+
+```py
+input = C.input_variable(dimensions)
+label = C.input_variable(classes)
+```
+
+CNTK 中的`input`变量本质上是一个占位符，我们在模型训练，评估或测试期间使用它来填充样本。 在此步骤中，数据集输入的形状必须与`input`变量声明中声明的尺寸完全匹配。 在这里重要的是要提到，很多人将输入的维数与数据集具有的特征数量混为一谈。 具有`N`个特征数量和`M`个样本数量的数据集具有（`M`，`N`）形状，因此这个数据集的维度为`2`：
+
+```py
+def create_model(features):
+    with C.layers.default_options(init = C.layers.glorot_uniform(), activation = C.ops.relu):
+​
+            hidden_out = features
+​
+            for _ in range(hidden_layers):
+                hidden_out = C.layers.Dense(hidden_layers_neurons)(hidden_out)
+​
+            network_output = C.layers.Dense(classes, activation = None)(hidden_out)
+            return network_output
+```
+
+10.  我们创建`create_model()`方法，该方法将特征的输入作为参数。
+
+首先，为模型设置默认值，以使用权重初始化和其他值的均匀分布。 默认激活函数设置为`ReLU`。
+
+第一层包含特征本身，最后一层包含向量，其维数等于类的数量。 中间的所有层都包含一个由 3 个隐藏层组成的全连接网络，每个隐藏层都有 400 个神经元，并具有 ReLU 激活函数：
+
+```py
+model = create_model(input/255.0)
+```
+
+最后，我们使用先前的函数创建模型。 除以`255`可对数据集进行归一化，从而在`0`和`1`之间的图像数组中呈现值。
+
+# 训练 CNTK 模型
+
+创建模型后，我们现在可以继续训练模型并使其学习预测。 为此，我们需要使用 CNTK 模型对象，并将数据集中的样本拟合到该对象。 我们可以同时记录`loss`和其他评估指标。 我们需要执行以下步骤来训练我们的模型：
+
+1.  为`loss`和分类误差创建占位符：
+
+```py
+loss = C.cross_entropy_with_softmax(model, label)
+label_error = C.classification_error(model, label)
+```
+
+2.  现在，我们可以为 CNTK 框架设置一个`trainer`对象，该对象用于执行实际的训练：
+
+```py
+lrs = C.learning_rate_schedule(learning_rate, C.UnitType.minibatch)
+learner = C.sgd(model.parameters, lrs)
+trainer = C.Trainer(model, (loss, label_error), [learner])
+```
+
+3.  现在开始进行训练：
+
+```py
+epochs = 10
+num_iters = (num_samples * epochs) / batch_size
+
+for i in range(int(num_iters)):
+
+    batch_data, batch_label = train_reader.next_batch(batch_size=batch_size)
+
+    arguments = {input: batch_data, label: batch_label}
+    trainer.train_minibatch(arguments=arguments)
+
+    if i % 1000 == 0:
+        training_loss = False
+        evalaluation_error = False
+        training_loss = trainer.previous_minibatch_loss_average
+        evalaluation_error = trainer.previous_minibatch_evaluation_average
+        print("{0}: , Loss: {1:.3f}, Error: {2:.2f}%".format(i, training_loss, evalaluation_error * 100))
+```
+
+我们将训练的周期数设置为`10`，以便进行快速训练和评估。 您可以将其设置为较高的值，以提高训练的准确率； 但是，在某些情况下，这可能不会导致更好的训练或过拟合。 在第 1,000 次迭代中，我们显示直到那时为止的损失和评估误差。 这些的总体趋势应该是下降。
+
+# 测试并保存 CNTK 模型
+
+在继续使用 Django 框架将该项目转换为 Web 应用之前，让我们快速测试在模型训练中获得的准确率。 我们将执行以下操作以从模型进行预测：
+
+```py
+predicted_label_probs = model.eval({input: test_data})
+```
+
+这将为数据集中的每个标签创建一个 NumPy 概率数组。 必须将其转换为索引，并与测试数据的标签进行比较。 我们这样做如下所示：
+
+```py
+predictions = np.argmax(predicted_label_probs, axis=1)
+actual = np.argmax(test_encoded, axis=1)
+correct = np.sum(predictions == actual)
+print(correct / len(actual))
+```
+
+我们发现预测的准确率约为 98%。 这是一个非常好的值，我们将继续保存模型并通过 Django 使用它。 为了保存 CNTK 模型，我们执行以下操作：
+
+```py
+model.save("cntk.model")
+```
+
+成功保存模型后，如果您已使用 Colaboratory 构建模型，则必须将`model`文件下载到本地系统。 接下来，我们可以继续在基于 Django 的服务器上部署模型。
+
+# Django Web 开发简介
+
+Django 是使用 Python 进行 Web 开发的最受欢迎的框架之一。 该框架轻巧，健壮，并由社区积极维护，可快速修补安全漏洞并添加新功能。 在本书中，我们介绍了 Flask 框架，该框架本质上是 Python Web 开发的基本框架。 但是，Django 随附了许多内置功能，这些功能可实现最新的方法和实践。
+
+Django 项目的初始结构如下：
+
+![](img/220c2b95-9ed4-4521-9ee1-9937f6e28fec.png)
+
+使用`django-admin`工具创建新的 Django 项目时，这些文件会自动生成。 顶级目录`mysite`表示 Django 项目的名称。 每个 Django 项目均包含应用。 应用类似于软件开发中模块的概念。 它们通常是整个项目的独立部分，并由`mysite`主应用放在项目目录中。 每个项目中可以包含多个应用。
+
+让我们学习如何开始使用 Django 并创建一个新项目！
+
+# Django 入门
+
+使用 Django 之前，最重要的步骤是安装它。 幸运的是，该框架很容易从 Python PIP 存储库中作为模块安装。 它也可以在 Conda 存储库中找到。 要安装 Django，请打开一个新的终端窗口，然后使用以下命令：
+
+```py
+conda install django
+```
+
+或者，如果您更喜欢 PIP，请使用以下命令：
+
+```py
+pip install django
+```
+
+这会将 Django 模块安装到您的 Python 环境中。
+
+要检查是否已成功安装，请在终端中使用以下命令：
+
+```py
+python -m django --version
+```
+
+这将产生版本号的输出，例如`- 2.0.8`。 如果没有，请检查您的 Django 安装。
+
+# 创建一个新的 Django 项目
+
+Django 提供了一个方便的工具`django-admin`工具，该工具可用于生成 Django 项目所需的样板代码。 要创建一个名为`cntkdemo`的新项目，请使用以下代码：
+
+```py
+django-admin startproject cntkdemo
+```
+
+这将创建所有样板文件夹和文件。 但是，我们必须在项目中创建至少一个应用。 使用终端将活动的工作目录更改为`cntkdemo`文件夹。 使用以下命令在此项目中创建一个应用：
+
+```py
+python manage.py startapp api
+```
+
+因此，我们创建了一个名为`api`的文件夹，其中包含以下文件夹； 所有文件都是使用占位符代码和文档自动生成的：
+
+![](img/3d297b46-da99-422e-aab5-4dfb5cbc90e6.png)
+
+现在，我们可以进行初始 UI 的编码。
+
+# 设置主页模板
+
+现在让我们创建一个网页，该网页在访问`/`路由时加载。 还记得我们在项目中创建的`api`应用吗？ 为了简单起见，使索引页面成为该应用的一部分。 虽然可以在`mysite`应用的`urls.py`文件中创建此路由，但我们将为`api`应用提供其自己的路由处理文件。
+
+让我们从设置主页模板的步骤开始：
+
+1.  在`api`文件夹中创建一个文件`urls.py`。 该文件相对于项目目录的完整路径为`mysite/api/urls.py`。 在此文件中，让我们使用以下代码添加`/`路由：
+
+```py
+from django.urls import path
+
+from . import views
+
+urlpatterns = [
+ path('', views.indexView), # This line handles the '/' route.
+]
+```
+
+2.  保存此文件。 前面的代码从本质上为`api`应用添加了新路径`/`（注意，不是项目！）。 它将导入`api`应用的`views.py`文件中的所有可用视图。 请注意，`indexView`仍然不存在。 下一步之后，我们将创建此视图。
+3.  `api`应用未链接到主项目应用。 我们需要在`mysite/mysite/urls.py`文件中添加以下几行，以通过`api`应用的路由处理器启用路由处理：
+
+```py
+from django.contrib import admin
+from django.urls import path
+from django.urls import include # -- Add this line!
+
+urlpatterns = [
+ path('', include('api.urls')), # -- Add this line!
+ path('admin/', admin.site.urls),
+]
+```
+
+第一行导入了一个工具，用于将特定于应用的路由设置包括到项目应用中。 我们使用它使用`api.urls`字符串将`urls.py`文件包含在`api`应用内。 这会自动将字符串转换为试图查找并包含正确文件的代码行。
+
+4.  在`api`应用目录内的`views.py`文件中，添加以下行：
+
+```py
+from django.http import HttpResponse
+from django.template import loader
+```
+
+`HttpResponse`方法允许`view`方法返回 HTML 响应。 `loader`类为我们提供了从磁盘加载 HTML 模板的方法。
+
+5.  现在让我们创建`indexView`方法：
+
+```py
+def indexView(request):
+ template = loader.get_template('api/index.html')
+ context = {}
+ return HttpResponse(template.render(context, request))
+```
+
+`indexView`方法加载`api/index.html`模板文件，并使用`context`词典中提供的变量以及模板可用的`request`参数对其进行呈现。 当前，我们传递空白上下文，因为我们没有任何值可发送到模板。 但是同样，先前定义的`api/index.html`文件不存在。
+
+6.  让我们创建一个用于保存模板的文件夹，并将其链接到项目设置。 为此，请转到项目的根目录并创建一个名为`templates`的文件夹。 我们需要项目能够将该文件夹识别为模板的目录。 为此，我们需要修改`mysite/mysite/settings.py`文件中的`TEMPLATES`设置：
+
+```py
+TEMPLATES = [
+ {
+ 'BACKEND': 'django.template.backends.django.DjangoTemplates',
+ 'DIRS': [os.path.join(BASE_DIR, 'templates')], # -- Add this line!
+ 'APP_DIRS': True,
+ 'OPTIONS': {
+ 'context_processors': [
+```
+
+添加上一行后，项目将在`mysite/templates/`文件夹中查找模板。
+
+7.  创建`index.html`模板文件。
+
+    请注意，步骤 4 中的模板文件路由存在于`api`目录中。 在`templates`目录中创建一个名为`api`的文件夹。 在其中，使用以下代码创建`index.html`文件：
+
+```py
+{% load static %}
+...
+        <div class="jumbotron">
+            <h3 class="jumbotronHeading">Draw here!</h3>
+            ...
+        </div>
+        <div class="jumbotron">
+            <h3>Prediction Results</h3> 
+            <p id="result"></p>
+        </div>
+        <div id="csrf">{% csrf_token %}</div>
+    </div>
+    <script src='https://cdnjs.cloudflare.com/ajax/libs/jquery/2.1.3/jquery.min.js'></script>
+    <script src="{% static "/index.js" %}"></script>
+...
+```
+
+我们在前面的代码块的末尾包含了一些必需的脚本，其中包括一个从后端获取 CSRF 令牌的脚本。
+
+8.  现在，让我们在上一个代码块中通过`jumbotron`类将`canvas`元素添加到`div`中，在这里我们将绘制数字。 我们还将添加一个用于选择绘图笔宽度的滑块，如下所示：
+
+```py
+        <div class="jumbotron">
+            <h3 class="jumbotronHeading">Draw here!</h3>        
+            <div class="slidecontainer">
+                <input type="range" min="10" max="50" value="15" id="myRange">
+                <p>Value: <span id="sliderValue"></span></p>
+            </div>
+            <div class="canvasDiv">
+                <canvas id="canvas" width="350" height="350"></canvas>
+                <p>
+                    <button class="btn btn-success" id="predict-btn" role="button">Predict</button>
+                    <button class="btn btn-primary" id="clearButton" role="button">Clear</button>
+                </p>
+            </div>
+        </div>
+```
+
+`template`文件还包括两个静态文件-`style.css`和`script.js`。 我们将在接下来的部分中创建这些文件。 我们尚未创建用于将数据发送到服务器并呈现收到的响应的脚本。
+
+9.  现在，我们将开始添加与后端 API 通信所需的 JavaScript 代码。 首先，我们创建一种方法来检查是否需要 CSRF 令牌才能与后端进行通信。 这只是一个工具函数，与调用后端 API 无关，后者可能有时被设计为接受没有 CSRF 令牌的请求。 我们创建此函数，如下所示：
+
+```py
+<script type="text/javascript">
+    function csrfSafeMethod(method) {
+        return (/^(GET|HEAD|OPTIONS|TRACE)$/.test(method));
+    }
+```
+
+10.  然后，我们为`Predict`按钮创建`click`处理器。 此处理函数首先设置适当的标头，以调用后端 API，然后将画布上显示的图形转换为数据 URL 字符串：
+
+```py
+    $("#predict-btn").click(function() {
+
+        var csrftoken = $('input[name=csrfmiddlewaretoken]').val();
+
+        $.ajaxSetup({
+            beforeSend: function(xhr, settings) {
+                if (!csrfSafeMethod(settings.type) && !this.crossDomain) {
+                    xhr.setRequestHeader("X-CSRFToken", csrftoken);
+                }
+            }
+        });
+
+        $('#predict-btn').prop('disabled', true);
+
+        var canvasObj = document.getElementById("canvas");
+        var img = canvasObj.toDataURL();
+
+        // MORE CODE TO BE ADDED BELOW THIS LINE
+
+        // MORE CODE TO BE ADDED ABOVE THIS LINE
+    });
+    </script>
+```
+
+11.  最后，我们将代码添加到`Predict`按钮的`click`处理函数中，以使用画布中的数据对后端进行 Ajax 调用，如下所示：
+
+```py
+$("#predict-btn").click(function() {
+...
+        // MORE CODE TO BE ADDED BELOW THIS LINE
+        $.ajax({
+            type: "POST",
+            url: "/predict",
+            data: img,
+            success: function(data) {
+                console.log(data);
+                var tb = "<table class='table table-hover'><thead><tr><th>Item</th><th>Confidence</th></thead><tbody>";
+                var res = JSON.parse(data);
+                console.log(res);
+
+                $('#result').empty.append(res.data);
+                $('#predict-btn').prop('disabled', false);
+            }
+        });
+        // MORE CODE TO BE ADDED ABOVE THIS LINE
+...
+});
+    </script>
+```
+
+12.  在创建静态文件之前，我们需要为它们创建一个文件夹并将其链接到项目。 这类似于我们创建`templates`文件夹的方式。 首先，在项目目录中使用`mysite/static/`路径创建一个文件夹`static`。 然后，在`mysite/mysite/settings.py`文件中修改`STATIC`配置，如下所示：
+
+```py
+STATIC_URL = '/static/'
+
+STATICFILES_DIRS = [
+ os.path.join(BASE_DIR, "static"), # -- Add this line!
+]
+```
+
+现在，我们可以使用模板文件顶部的`{% load static %}`指令创建静态文件并将其加载到项目模板中，就像在`index.html`文件中一样。
+
+13.  创建`style.css`和`script.js`-由于这些文件与本书的上下文没有明显关系，因此可以直接从[这里](http://tiny.cc/cntk-demo)下载它们。
+
+请注意，没有`script.js`文件，该项目将无法运行。
+
+我们已经创建了用于预测`index.html`模板文件中存在的画布上绘制的图像的设置。 但是，`/predict`路由尚未创建。 在下一部分中，让我们看看如何在 Django 中加载和使用 CNTK 模型。
+
+# 在 Django 项目中将 CNTK 用于预测
+
+在本节中，我们将首先设置 CNTK 模型与 Django 一起使用所需的路由，视图和导入。 然后，我们将从保存的文件中加载 CNTK 模型，并使用它进行预测。
+
+# 设置预测路由和视图
+
+回想一下我们如何在`api`应用中创建`/`路由及其对应的视图：
+
+1.  首先，将以下行添加到`mysite/api/urls.py`：
+
+```py
+urlpatterns = [
+ path('', views.indexView),
+ path('predict', views.predictView), # -- Add this line!
+]
+```
+
+这将创建`/predict`路由。 但是，视图`predictView`尚未创建。
+
+2.  将以下行添加到`api`应用中的`views.py`文件中：
+
+```py
+from django.http import JsonResponse
+
+def predictView(request):
+ # We will add more code below this line
+
+ # We will add more code above this line
+ return JsonResponse({"data": -1})
+```
+
+请注意前几行中的占位符。 在接下来的步骤中，我们将在此处添加更多内容。
+
+# 进行必要的模块导入
+
+现在，让我们加载使用 CNTK 模型进行预测所需的所有模块，如以下步骤所示：
+
+1.  将以下几行导入添加到`api`应用的`views.py`文件中：
+
+```py
+import os
+from django.conf import settings
+```
+
+2.  我们需要前面的导入才能从磁盘加载模型：
+
+```py
+import cntk as C
+from cntk.ops.functions import load_model
+```
+
+前几行将 CNTK 模块导入到 Django 项目。 `load_model`方法将帮助我们加载保存的 CNTK 模型文件。
+
+以下模块用于处理将在其上进行预测的图像：
+
+```py
+from PIL import Image
+import numpy as np
+```
+
+以下模块提供了用于处理 Base64 编码的字符串的工具，该格式是`index.html`页在请求中发送画布数据的格式：
+
+```py
+import re
+import base64
+import random 
+import string
+```
+
+在接下来的部分中将对其他库进行说明。
+
+# 加载 CNTK 模型来做出预测
+
+现在，我们将按照以下步骤进一步编辑`predictView`视图：
+
+1.  首先，使用以下代码将 Base64 编码的图像字符串数据读取为变量：
+
+```py
+def predictView(request):
+ # We will add more code below this line
+
+ post_data = request.POST.items()
+ pd = [p for p in post_data]
+ imgData = pd[1][0].replace(" ", "+")
+ imgData += "=" * ((4 - len(imgData) % 4) % 4)
+```
+
+Base64 解码的字符串没有适当的填充，并且包含需要转换为`+`的空格。 上一个代码块中的最后两行对字符串执行相同的操作。
+
+2.  接下来，我们将将此 Base64 编码的字符串转换为 PNG 图像，并通过以下几行将其保存到磁盘：
+
+```py
+filename = ''.join([random.choice(string.ascii_letters + string.digits) for n in range(32)])
+
+convertImage(imgData, filename)
+```
+
+第一行为文件名创建一个 32 个字符长的随机字符串。 下一行调用`convertImage`方法，该方法将`base64`字符串存储为提供的文件名。
+
+3.  但是，`convertImage`方法尚未定义。 在`predictView`方法之外，添加函数的定义，如下所示：
+
+```py
+def convertImage(imgData, filename):
+ imgstr = re.search(r'base64,(.*)', str(imgData)).group(1)
+ img = base64.b64decode(imgstr)
+ with open(filename+'.png', 'wb') as output:
+ output.write(img)
+```
+
+该方法从字符串中去除多余的元数据。 然后，它解码该字符串并将其另存为 PNG 文件。
+
+4.  让我们回到`predictView`方法。 我们将首先加载保存的`image`文件：
+
+```py
+image = Image.open(filename+'.png').convert('1')
+```
+
+我们还将图像仅转换为黑白通道。 这样会将图像中的通道数从 3 减少到 1。
+
+5.  回想一下，MNIST 数据集中的所有图像的尺寸均为`28 x 28`。我们必须将当前图像调整为相同的尺寸。 我们使用以下代码行：
+
+```py
+image.thumbnail((28,28), Image.ANTIALIAS)
+```
+
+6.  现在，我们使用以下几行将图像转换为 NumPy 数组：
+
+```py
+image_np = np.array(image.getdata()).astype(int)
+image_np_expanded = np.expand_dims(image_np, axis = 0)
+```
+
+`np.expanded_dims`是 NumPy 中的一个简单工具，用于为数组添加额外的维度，以与大多数机器学习库保持适当的兼容性。
+
+7.  加载 CNTK 模型。 首先，在项目的根目录中创建一个名为`data`的文件夹，然后将已保存的`model`文件复制到`mysite/data/cntk.model`中。
+
+    现在，我们以`predictView`方法加载 CNTK 模型，如下所示：
+
+```py
+model = load_model(os.path.join(settings.BASE_DIR, "data/cntk.model"))
+```
+
+8.  最后，我们可以预测图像的标签，如下所示：
+
+```py
+predicted_label_probs = model.eval({model.arguments[0]: image_np_expanded})
+data = np.argmax(predicted_label_probs, axis=1)
+```
+
+`eval`方法在其第一个参数中，期望图像的 NumPy 数组，并返回每个输出类的概率列表。 `np.argmax`方法用于找到概率最高的类别的索引。
+
+9.  要返回输出，请修改`predictView`方法的`return`部分，如下所示：
+
+```py
+ # We will add more code above this line
+ return JsonResponse({"data": str(data[0])})
+```
+
+图像的预测标签将作为 JSON 响应的`data`变量中包含的数字发送，该变量显示在页面上。
+
+# 测试网络应用
+
+最后，我们可以测试我们开发的 CNTK + Django 应用。 为此，打开终端并将其定向到项目的根目录。
+
+使用以下命令启动 Django 服务器：
+
+```py
+python manage.py runserver
+```
+
+如果端口可用，则服务器从`http://localhost:8000`启动。 在网络浏览器中打开页面。 在提供的画布上绘制数字，然后单击“预测”按钮。 您将能够在页面底部看到来自模型的结果，如下所示：
+
+![](img/b717132a-d629-41e8-b622-7424137ccf76.png)
+
+请注意，该模型在前面的屏幕快照 2 中返回了正确的输出。因此，我们得出了使用 Django 部署 CNTK 模型的结论。
+
+# 总结
+
+在本章中，我们介绍了 Microsoft AI 和 Azure 云提供的用于在网站上执行深度学习的产品。 我们了解了如何使用 Face API 来预测图像中人物的性别和年龄，以及如何使用 Text Analytics API 来预测给定文本的语言的任何句子以及所提供文本或情感中的关键短语。 最后，我们在 MNIST 数据集上使用 CNTK 创建了深度学习模型。 我们了解了如何保存模型，然后通过基于 Django 的 Web 应用以 API 的形式部署模型。 通过 Django 保存的模型的这种部署可以轻松地适应其他深度学习框架，例如 TensorFlow 或 PyTorch。
+
+在下一章中，我们将讨论使用 Python 构建生产级深度学习应用的通用框架。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/09.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/09.md
new file mode 100644
index 00000000..bfdcfe4c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/09.md
@@ -0,0 +1,521 @@
+# 九、启用深度学习的网站的通用生产框架
+
+在前面的章节中，我们已经在使用行业级云**深度学习**（**DL**）API 的方面打下了基础，并且已通过实际示例了解了它们的使用。 在本章中，我们将介绍开发支持 DL 的网站的一般概述。 这将要求我们将到目前为止所学到的所有知识汇总在一起，以便我们可以将其用于实际的用例中。 在本章中，我们将学习如何通过首先准备数据集来构建用于生产的 DL Web 应用。 然后，我们将使用 Python 训练 DL 模型，然后使用 Flask 将 DL 模型包装在 API 中。
+
+以下是本章的简要概述：
+
+*   定义我们的问题陈述
+*   将问题分为几个部分
+*   建立思维模型来绑定项目组件
+*   我们应该如何收集数据
+*   遵循我们项目的目录结构
+*   从头开始构建项目
+
+# 技术要求
+
+您可以通过[这里](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter9)访问本章中使用的代码。
+
+要运行本章中使用的代码，您将需要以下软件：
+
+*   Python 3.6+
+*   Python PIL 库
+*   NumPy
+*   Pandas
+*   **自然语言工具包**（**NLTK**）
+*   Flask 1.1.0+ 和以下版本的兼容版本：
+    *   FlaskForm
+    *   wtforms
+    *   flask_restful
+    *   flask_jsonpify
+
+本章将介绍所有其他安装。
+
+# 定义问题陈述
+
+任何项目都应该以定义明确的问题陈述开始，否则项目开发必定会遭受损失。 从项目计划到项目成本，问题说明控制着整个项目开发流程中涉及的所有主要步骤。
+
+例如，在基于 DL 的 Web 项目中，问题说明将使我们了解以下内容：
+
+*   确定我们需要哪种数据。
+*   就代码，计划和其他资源而言，将有多少复杂性。
+*   我们将开发什么样的用户界面。
+*   会有多少人参与，以便可以估计项目的人力等。
+
+因此，为了使我们能够开始进一步的项目开发，确实需要定义明确的问题陈述。
+
+想象一下，正在一家公司的 DL 工程师，该公司正计划建立一个推荐系统，以根据用户提供的标准从产品列表中推荐产品。 您的老板要求您基于此开发**概念证明**（**PoC**）。 那么，我们应该怎么做呢？ 如前所述，让我们首先定义问题陈述。
+
+向最终推荐系统提供输入的主要实体是用户。 根据用户的首选项（现在称为输入特征首选项），系统将提供最符合其首选项的产品列表。 因此，长话短说，问题陈述可以写为：
+
+“给定一组输入特征（用户偏好），我们的任务是建议产品列表。”
+
+现在我们有一个定义明确的问题说明，接下来继续进行，并在下一节中建立后续步骤。
+
+# 建立项目的心理模型
+
+查看问题陈述，您可能会想打开浏览器并开始搜索一些数据集。 但是，要正确地开发项目，就需要进行明确的规划以逐步构建项目。 没有结构的项目无非是无舵船。 因此，我们将从一开始就对此保持谨慎。 我们将讨论将在我们的项目中扮演非常重要角色的模块。 这也包括一些精神上的考虑。 我喜欢将此阶段称为建立项目的心理模型。
+
+让我们花一些时间进一步讨论问题陈述，以便弄清楚我们需要开发的基本模块。
+
+我们的项目涉及根据用户的偏好向用户推荐产品。 因此，为了执行此建议，我们需要一个知道如何理解用户为其提供的偏好集的系统。 为了能够理解这些偏好，系统将需要某种我们将要实现 DL 的训练。 但是偏好呢？ 他们看起来如何？ 在需要人员参与的现实世界项目情况中，您经常会遇到这些问题。
+
+现在，请三思而后行，并尝试思考在选择要购买的产品时通常要寻找的方面。 让我们在这里列出它们：
+
+*   产品的规格是什么？ 如果我想穿大尺寸的 T 恤，不建议我穿小尺寸的 T 恤。
+*   产品的价格是多少？ 用户资金有限，此推荐对他们的钱包有利吗？
+*   这个产品是什么牌子的？ 用户经常对多家公司生产的类似产品有品牌偏好。
+
+请注意，前面的指针没有任何特定的顺序。
+
+因此，从上一节开始，我们开始了解我们所需要的东西，这是一个界面（在我们的情况下，本质上是一个网页），供用户提供其首选项。 考虑到这些首选项，我们的系统将预测一组最合适的产品。 这是 DL 部分发挥作用的地方。 正如我们将在前面的章节中回顾的那样，要使 DL 模型能够处理给定的问题，就需要对一些表示问题的数据进行尽可能严密的训练。 现在让我们讨论系统的数据部分。
+
+我们有一个易于使用的数据集，该数据集是由 Amazon 提供并由 Stanford Network Analysis Project 团队创建的 Amazon Fine Food Reviews 数据集。 尽管数据集很大，但在本章中创建演示时，我们不会使用完整的数据集。 此处可能触发的一个直接问题是数据集的外观如何？ 我们需要制定一个粗略的计划来决定以下内容：
+
+*   我们将选择哪些特征来构建数据集
+*   我们将在哪里收集数据
+
+让我们对原始问题陈述进行一些增强，然后再继续进行。 这是原始的问题陈述：
+
+“给定一组输入特征（用户偏好），我们的任务是建议产品列表。”
+
+如果推荐不合格产品，用户将不会喜欢我们的系统。 因此，我们将对问题陈述进行一些修改，如下所示：
+
+“给定一组输入特征（用户首选项），我们的任务是建议可能要购买的最佳产品清单。”
+
+为了让我们的系统针对给定的标准推荐最佳产品列表，首先需要知道产品的平均等级。 除了平均评分之外，获取有关特定产品的以下信息（名称除外）将非常有用：
+
+*   技术指标
+*   产品种类
+*   卖方名称
+*   平均价格
+*   预计交货时间
+
+在准备数据时，我们将寻找有关特定产品的先前指示。 现在是我们将从何处收集数据的问题。 答案是亚马逊！ 亚马逊以其在电子商务行业中的服务而闻名，向我们提供各种产品和有关它们的信息，例如它们的等级，产品规格，商品价格等。 但是请说亚马逊不允许您直接将这些数据作为压缩文件下载。 为了以所需的形式从亚马逊获取数据，我们将不得不依靠网络抓取。
+
+在讨论的这一点上，我们可以确定该项目的两个主要领域：
+
+*   接收用户偏好的界面
+*   代表我们正在处理的问题陈述的数据
+
+对于 DL 建模，我们将从简单的，全连接，基于神经网络的架构开始。 从简单的模型开始逐步增加复杂性通常是有用的，因为它使代码库更易于调试。
+
+因此，可以肯定地说，以下三个模块将在该项目中扮演重要角色：
+
+*   接口
+*   数据
+*   DL 模型
+
+希望您现在对开始进行项目开发有了一个不错的想法。 您现在可以从所涉及的框架中解决在此阶段您应该问什么问题以及可能需要考虑的问题。
+
+我们不希望我们的推荐系统偏向于任何事物。 数据中可能隐藏了许多类型的偏差，并且自然而然地，它可能导致使用它的 DL 系统继承该偏差。
+
+要了解有关机器学习系统中不同类型偏见的更多信息，建议您参考[偏差类型](https://developers.google.com/machine-learning/crash-course/fairness/types-of-bias)。 在我们的案例中，一个令人吃惊的偏见例子是男性访问者获得平均推荐的产品推荐的情况。 这些建议可能仅基于其性别，而不基于任何其他访客浏览模式。 这可能是错误的，并且可能做错了。 但是像这样的实例会使我们的模型非常不合适。 在下一节中，我们将讨论一些要点，以了解如何避免数据出现偏差。
+
+# 避免首先获得错误数据的机会
+
+什么是错误数据？ 我们只是在谈论错误值的数据吗？ 答案是不。 除了具有错误或缺失值的数据外，错误数据还可能具有细微但严重的错误，这可能导致模型训练不充分甚至偏差。 因此，在训练模型之前，识别出此类错误数据并将其删除非常重要。 识别这些错误的主要方法有五种：
+
+*   寻找缺失的值。
+*   寻找似乎超出规模或可能性的值，即异常值。
+*   请勿在数据集中包含任何可能导致数据泄漏的功能。
+*   确保所有评估类别在数据集中都有相似数量的样本。
+*   确保您设计的问题解决方案本身不会带来偏差。
+
+一旦明确了这些要点，我们就可以继续进行更具体的领域，在数据收集过程中我们需要注意这些领域。 重要的是，在数据收集期间要制定适当的计划，以牢记数据源的所有属性和问题陈述的要求。
+
+假设您正在从亚马逊在美国的销售网点抓取产品数据，而最终在印度版本的亚马逊上搜索产品。 刮板可能会为您提供来自印度网点的数据，可能不适合推荐给美国居民。
+
+此外，由于亚马逊以及类似的服务（例如 Flipkart）利用推荐系统为他们的客户定位最适合的*产品*，因此在数据收集期间，抓取工具不应成为此类建议的牺牲品。 重要的是，抓取工具应时不时地清除其上下文，并避免由于亚马逊实现的 AI 而产生偏见。
+
+让我们以 Amazon Fine Food Reviews 数据集为例。 尽管乍看之下数据集看起来很平衡，但我们可以发现数据集中存在很多偏差。 考虑客户为评论产品而撰写的文字长度。 让我们根据它们的得分在图表中绘制它们。 下图显示了等级为 1 和 2 星的产品的图：
+
+![](img/29b500df-2cd7-4404-b9da-a9cbc49b7fe0.png)
+
+下图显示了评级为 3 星和 4 星的产品的图：
+
+![](img/8325444b-269a-4dca-9f6d-b1cb9cb77b8a.png)
+
+下图显示了评级为 5 星的产品的图：
+
+![](img/4b4555fa-698d-4e04-bf56-b8a2ba2c4cb1.png)
+
+请注意，越来越多的正面评论中有更多书面文字。 这将直接转换为数据集中的大多数单词，从而使用户获得更高的评分。 现在，考虑一种情况，用户撰写一篇冗长的评论，评分较低，并且对该产品普遍持消极看法。 由于我们的模型经过训练，可以将较长的评论与正面评价相关联，因此会将负面评论标记为正面。
+
+最重要的是，如图所示，现实世界的数据可能包含许多边缘情况，如果未正确处理它们，您很可能会得到错误的模型。
+
+# 如何不建立 AI 后端
+
+考虑到 Web 应用可以发展的广泛性以及几乎所有其他平台对作为基于 Web 的服务运行的后端的强烈依赖，因此，对后端进行周密的考虑和正确执行非常重要。 即使在 PoC 阶段，基于 AI 的应用通常也不会很快响应或花费大量时间来训练新样本。
+
+虽然我们将讨论使后端不因瓶颈而受阻的提示和技巧，但在为网站开发 AI 集成后端时，我们需要提出一些最好避免的指针 。
+
+# 期望网站的 AI 部分是实时的
+
+人工智能在计算上是昂贵的，不用说，这对于旨在以最快的时间为其客户提供服务的网站而言是不可取的。 虽然较小的模型或使用浏览器 AI（例如 TensorFlow.js 或其他库）可以提供实时 AI 响应的体验，但即使它们遇到客户端在慢速网络区域或使用低端设备的问题。 因此，浏览器内 AI 模型或轻量级 AI 模型几乎立即回复的两种方法都受设备配置和网络带宽的影响。 因此，理想情况下，应该对客户端做出快速响应的网站后端应该与处理 AI 模型响应的部分分开。 两者并行工作，应保持共同的数据存储和两者之间正确的交互方法，以使负责响应客户端的后端代码对 AI 模型部分的依赖性降低。
+
+# 假设从网站传入的数据是理想的
+
+即使与该项目相对应的网站或应用可能类似于理想的数据收集方法，但也不应假定来自该网站或应用的数据没有错误。 错误的网络请求，恶意连接或仅由用户提供的垃圾输入都可能导致数据不适合进行训练。 非恶意用户可能会遇到网络问题，并在短时间内刷新同一页面 10 到 20 次，这不应增加该页面基于查看的重要性。 从网站收集的所有数据必须根据模型的要求进行清理和过滤。 必须牢记，网站所面临的挑战几乎肯定会影响所收集数据的质量。
+
+# 集成端到端 AI 的 Web 应用示例
+
+现在，我们已经讨论了概述，以及在创建基于 AI 的网站后端时应避免的陷阱，让我们继续创建一个（尽管相当简单）来演示该解决方案的总体概述。
+
+如上所述，我们将介绍以下步骤：
+
+*   根据问题陈述收集数据
+*   清理和预处理数据
+*   建立 AI 模型
+*   创建一个界面
+*   在界面上使用 AI 模型
+
+虽然我们之前讨论了收集数据的陷阱，但在这里我们将简要讨论可用于完成任务的工具和方法。
+
+# 数据收集与清理
+
+从总体角度来看，出于收集数据的目的，可能有多个数据源。 您可以从网站上抓取数据，也可以下载一些准备好的数据集。 也可以采用其他方法，例如：
+
+*   在应用/网站运行时动态生成数据
+*   从应用或智能设备登录
+*   通过系统形式（例如测验或调查）直接从用户收集数据
+*   从调查机构收集数据
+*   通过特定方法（科学数据）和其他方法测得的观测数据
+
+`beautifulsoup`是通常用于执行 Web 抓取的库。 `Scrapy`是另一种流行的工具，可以非常快速地使用。
+
+数据清除将完全取决于您收集的数据形式，并且在本书的前几章中已进行了讨论。 我们将假定您能够将数据转换为适合您希望进行模型构建部分的格式。 对于本节中的其他主题，我们将使用一个名为 Amazon Fine Food Reviews 的准备好的数据集，可以从[这里](https://www.kaggle.com/snap/amazon-fine-food-reviews)下载。提取下载的 ZIP 文件后，您将获得名为`Reviews.csv`的数据集。
+
+[这里](https://github.com/Nilabhra/kolkata_nlp_workshop_2019)是观察如何执行 Web 抓取和准备干净数据集的一个很好的起点。
+
+# 建立 AI 模型
+
+现在，我们将准备 AI 模型，该模型将根据用户的查询推荐产品。 为此，我们创建一个新的 Jupyter 笔记本。
+
+# 进行必要的导入
+
+首先，将所需的 Python 模块导入项目：
+
+```py
+import numpy as np
+import pandas as pd
+import nltk
+from nltk.corpus import stopwords 
+from nltk.tokenize import WordPunctTokenizer
+from sklearn.model_selection import train_test_split
+from sklearn.feature_extraction.text import TfidfVectorizer
+
+# Comment below line if you already have stopwords installed
+nltk.download('stopwords')
+```
+
+我们导入`TfidfVectorizer`以帮助我们创建用于执行自然语言处理的**词频逆文档频率**（**TF-IDF**）向量。 TF-IDF 是在给定多个文档可能包含或不包含单词的情况下，单个文档中单词的重要性的数字量度。 在数字上，当单个单词在单个文档中频繁出现但在其他文档中不频繁出现时，它将增加重要性值。 TF-IDF 如此流行，以至于目前全球超过 80% 的基于自然语言的推荐系统都在使用它。
+
+我们也正在导入`WordPunctTokenizer`。 标记器执行将文本分解为基本标记的功能。 例如，一个大的段落可能被分解为句子，然后进一步分解为单词。
+
+# 读取数据集并准备清理函数
+
+我们将读取具有`ISO-8859-1`编码的 Amazon Fine Food Reviews 数据集。 这仅是为了确保我们不会丢失评论文本中使用的任何特殊符号：
+
+```py
+df = pd.read_csv('Reviews.csv', encoding = "ISO-8859-1")
+df = df.head(10000)
+```
+
+由于数据集非常大，因此我们将本章的工作限制为数据集中的前 10,000 行。
+
+我们将需要从文本中删除停用词，并过滤掉括号中的符号和其他文字不自然的符号。 我们将创建一个名为`cleanText()`的函数，该函数将执行停用词的过滤和删除：
+
+```py
+import string
+import re
+
+stopwordSet = set(stopwords.words("english"))
+
+def cleanText(line):
+    global stopwordSet
+
+    line = line.translate(string.punctuation)
+    line = line.lower().split()
+
+    line = [word for word in line if not word in stopwordSet and len(word) >= 3]
+    line = " ".join(line)
+
+    return re.sub(r"[^A-Za-z0-9^,!.\/'+-=]", " ", line) 
+```
+
+使用前面的函数，我们从文本中删除了停用词和所有少于三个字符的词。 我们已过滤掉标点符号，仅保留了文本中的相关字符。
+
+# 提取所需的数据
+
+数据集包含的数据超出了我们手头演示所需的数据。 我们将提取`ProductId`，`UserId`，`Score`和`Text`列以准备我们的演示。 产品名称出于保密原因而被加密，就像用户名称被加密一样：
+
+```py
+data = df[['ProductId', 'UserId', 'Score', 'Text']]
+```
+
+在数据科学中，保持数据加密和不包含个人信息是一项挑战。 从数据集中删除部分很重要，这样可以识别出数据集中的私有实体。 例如，您将需要从评论文本中删除人员和组织名称，以阻止识别产品和用户，尽管他们具有加密的产品和用户 ID。
+
+# 应用文字清理
+
+现在，我们将应用文本过滤和停用词删除函数来清理数据集中的文本：
+
+```py
+%%time
+data['Text'] = data['Text'].apply(cleanText)
+```
+
+显示执行任务所需的时间。
+
+请注意，前面的代码块仅在 Jupyter 笔记本中有效，而在常规 Python 脚本中无效。 要在普通的 Python 脚本上运行它，请删除`%%time`命令。
+
+# 将数据集分为训练和测试部分
+
+由于我们只有一个数据集，因此我们将其分为两部分，特征和标签部分分开：
+
+```py
+X_train, X_valid, y_train, y_valid = train_test_split(data['Text'], df['ProductId'], test_size = 0.2) 
+```
+
+我们将使用`sklearn`模块中的`train_test_split()`方法将数据集分为 80% 用于训练和 20% 用于测试。
+
+# 汇总有关产品和用户的文本
+
+现在，我们将按用户和产品 ID 汇总数据集的评论。 我们需要对每种产品进行审查，以确定哪种产品将是以下方面的理想选择：
+
+```py
+user_df = data[['UserId','Text']]
+product_df = data[['ProductId', 'Text']]
+user_df = user_df.groupby('UserId').agg({'Text': ' '.join})
+product_df = product_df.groupby('ProductId').agg({'Text': ' '.join})
+```
+
+同样，用户汇总的评论将帮助我们确定用户的喜好。
+
+# 创建用户和产品的 TF-IDF 向量化器
+
+现在，我们将创建两个不同的向量化程序，一个用于用户，另一个用于产品。 我们将需要这些向量化工具来确定用户需求与评论对任何给定产品的了解之间的相似性。 首先，我们将为用户创建向量化器并显示其形状：
+
+```py
+user_vectorizer = TfidfVectorizer(tokenizer = WordPunctTokenizer().tokenize, max_features=1000)
+user_vectors = user_vectorizer.fit_transform(user_df['Text'])
+user_vectors.shape
+```
+
+然后，我们将为产品创建向量化器：
+
+```py
+product_vectorizer = TfidfVectorizer(tokenizer = WordPunctTokenizer().tokenize, max_features=1000)
+product_vectors = product_vectorizer.fit_transform(product_df['Text'])
+product_vectors.shape
+```
+
+我们使用`WordPunctTokenizer`分解文本，并使用`TfidfVectorizer`对象的`fit_transform`方法准备向量，这些向量将单词词典映射到它们在文档中的重要性。
+
+# 通过提供的评级创建用户和产品的索引
+
+我们使用`pandas`模块的`pivot_table`方法来创建针对产品的用户评分矩阵。 我们将使用此矩阵执行矩阵分解以确定用户喜欢的产品：
+
+```py
+userRatings = pd.pivot_table(data, values='Score', index=['UserId'], columns=['ProductId'])
+userRatings.shape
+```
+
+我们还将将用户和产品的`TfidfVectorizer`向量转换为适合矩阵分解的矩阵：
+
+```py
+P = pd.DataFrame(user_vectors.toarray(), index=user_df.index, columns=user_vectorizer.get_feature_names())
+Q = pd.DataFrame(product_vectors.toarray(), index=product_df.index, columns=product_vectorizer.get_feature_names())
+```
+
+现在，我们可以创建矩阵分解函数。
+
+# 创建矩阵分解函数
+
+现在，我们将创建一个函数来执行矩阵分解。 矩阵分解已成为 2006 年 Netflix 奖挑战赛中用于推荐系统的流行算法系列。它是将用户项矩阵分解为两个低维矩形矩阵的集合的一系列算法，可以将这些矩阵相乘以恢复原始矩阵。 原始高阶矩阵：
+
+```py
+def matrix_factorization(R, P, Q, steps=1, gamma=0.001,lamda=0.02):
+    for step in range(steps):
+        for i in R.index:
+            for j in R.columns:
+                if R.loc[i,j]>0:
+                    eij=R.loc[i,j]-np.dot(P.loc[i],Q.loc[j])
+                    P.loc[i]=P.loc[i]+gamma*(eij*Q.loc[j]-lamda*P.loc[i])
+                    Q.loc[j]=Q.loc[j]+gamma*(eij*P.loc[i]-lamda*Q.loc[j])
+        e=0
+        for i in R.index:
+            for j in R.columns:
+                if R.loc[i,j]>0:
+                    e= e + pow(R.loc[i,j]-np.dot(P.loc[i],Q.loc[j]),2)+lamda*(pow(np.linalg.norm(P.loc[i]),2)+pow(np.linalg.norm(Q.loc[j]),2))
+        if e<0.001:
+            break
+
+    return P,Q
+```
+
+然后，我们执行矩阵分解并记录所花费的时间：
+
+```py
+%%time
+P, Q = matrix_factorization(userRatings, P, Q, steps=1, gamma=0.001,lamda=0.02)
+```
+
+之后，我们需要保存模型。
+
+# 将模型另存为 Pickle
+
+现在，在项目的`root`目录中创建一个名为`api`的文件夹。 然后，保存训练后的模型，该模型是用户产品评级矩阵分解后获得的低阶矩阵：
+
+```py
+import pickle
+output = open('api/model.pkl', 'wb')
+pickle.dump(P,output)
+pickle.dump(Q,output)
+pickle.dump(user_vectorizer,output)
+output.close()
+```
+
+将模型另存为二进制 Pickle 文件，使我们可以在将模型部署到网站的后端时将它们快速加载回内存中。
+
+既然我们已经完成了预测模型的开发，那么我们将继续为应用构建接口。
+
+# 建立界面
+
+要为 Web 应用构建界面，我们需要考虑如何让用户与系统交互。 在我们的案例中，我们希望在用户提交搜索查询时根据其在搜索栏中搜索的内容为他们提供建议。 这意味着我们需要系统实时响应并即时生成建议。 为了构建该系统，我们将创建一个 API，该 API 会响应搜索查询。
+
+# 创建一个 API 来回答搜索查询
+
+我们将创建一个 API，该 API 接受 HTTP 请求形式的查询，并根据用户输入的搜索查询回复产品建议。 这样做，请按照下列步骤操作：
+
+1.  我们将从导入 API 所需的模块开始。 我们在上一节中讨论了这些导入的模块：
+
+```py
+import numpy as np
+import pandas as pd
+from nltk.corpus import stopwords
+from nltk.tokenize import WordPunctTokenizer
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.feature_extraction.text import CountVectorizer
+from flask import Flask, request, render_template, make_response
+from flask_wtf import FlaskForm
+from wtforms import StringField, validators
+import io
+from flask_restful import Resource, Api
+import string
+import re
+import pickle
+from flask_jsonpify import jsonpify
+```
+
+2.  我们还将导入`Flask`模块以创建一个快速 HTTP 服务器，该服务器可以以 API 的形式在已定义的路由上使用。 我们将实例化`Flask`应用对象，如下所示：
+
+```py
+DEBUG = True
+app = Flask(__name__)
+app.config['SECRET_KEY'] = 'abcdefgh'
+api = Api(app)
+```
+
+应用配置中的`SECRET_KEY`的值由您决定。
+
+3.  然后，我们将创建一个`class`函数来处理从用户以搜索查询形式收到的文本输入：
+
+```py
+class TextFieldForm(FlaskForm):
+    text = StringField('Document Content', validators=[validators.data_required()])
+```
+
+4.  为了封装 API 方法，我们将它们包装在`Flask_Work`类中：
+
+```py
+class Flask_Work(Resource):
+    def __init__(self):
+        self.stopwordSet = set(stopwords.words("english"))
+        pass
+```
+
+5.  再次需要我们在模型创建期间使用的`cleanText()`方法。 它将用于清除和过滤用户输入的搜索查询：
+
+```py
+    def cleanText(self, line): 
+        line = line.translate(string.punctuation)
+        line = line.lower().split()
+
+        line = [word for word in line if not word in self.stopwordSet and len(word) >= 3]
+        line = " ".join(line)
+
+        return re.sub(r"[^A-Za-z0-9^,!.\/'+-=]", " ", line) 
+```
+
+6.  我们为应用定义一个主页，该主页将从稍后在模板中创建的`index.html`文件加载：
+
+```py
+    def get(self):
+        headers = {'Content-Type': 'text/html'}
+        return make_response(render_template('index.html'), 200, headers)
+```
+
+7.  我们创建基于`post`方法的预测路由，该路由将在收到用户的搜索查询后以产品建议进行响应：
+
+```py
+    def post(self):
+        f = open('model.pkl', 'rb')
+        P, Q, userid_vectorizer = pickle.load(f), pickle.load(f), pickle.load(f)
+        sentence = request.form['search']
+        test_data = pd.DataFrame([sentence], columns=['Text'])
+        test_data['Text'] = test_data['Text'].apply(self.cleanText)
+        test_vectors = userid_vectorizer.transform(test_data['Text'])
+        test_v_df = pd.DataFrame(test_vectors.toarray(), index=test_data.index,
+                                 columns=userid_vectorizer.get_feature_names())
+
+        predicted_ratings = pd.DataFrame(np.dot(test_v_df.loc[0], Q.T), index=Q.index, columns=['Rating'])
+        predictions = pd.DataFrame.sort_values(predicted_ratings, ['Rating'], ascending=[0])[:10]
+
+        JSONP_data = jsonpify(predictions.to_json())
+        return JSONP_data
+```
+
+8.  我们将`Flask_Work`类附加到`Flask`服务器。 这样就可以在运行时完成脚本。 我们放置了一个 API，该 API 根据用户的搜索查询来建议产品：
+
+```py
+api.add_resource(Flask_Work, '/')
+
+if __name__ == '__main__':
+    app.run(host='127.0.0.1', port=4000, debug=True)
+```
+
+将此文件另存为`main.py`。 创建 API 脚本后，我们需要托管服务器。
+
+9.  为此，请在终端上运行以下命令：
+
+```py
+python main.py
+```
+
+这将在端口`4000`上的计算机上启动服务器，如下所示：
+
+![](img/5f7e2b07-8b1d-4ba9-a2ac-c4002fc9a22a.png)
+
+但是，我们仍然需要准备一个用户界面来使用此 API。 我们将在以下部分中这样做。
+
+# 创建一个使用 API​​ 的接口
+
+现在，我们将创建一个简单，最少的 UI 来使用我们创建的 API。 本质上，我们将创建一个搜索栏，用户可以在其中输入所需的产品或产品规格，API 会根据用户的查询返回建议。 我们将不讨论构建 UI 的代码，但已将其包含在 GitHub 存储库中，该存储库可在[这个页面](http://tiny.cc/DL4WebCh9)中找到。
+
+启动服务器后，该 UI 将在`http://127.0.0.1:4000`处可见，如“创建 API 回答搜索查询”部分的步骤 9 所示。
+
+我们创建的界面如下所示：
+
+![](img/65ce8f08-b037-4d00-a8b5-a94172b2d2bd.png)
+
+用户输入搜索查询并获得建议，如下所示：
+
+![](img/e161cee5-2998-42d1-a4ef-4ed108ad54ad.png)
+
+我们的应用没有保存用户会话的好处。 而且，它没有用于用户预期预算的参数，这通常是决定产品是否适合用户的决定因素。 将这些功能添加到 Web 应用并利用它们的好处很容易。
+
+# 总结
+
+总体而言，磨练 DL 功能的 Web 应用有几种设置方法，可通过 API，浏览器内 JavaScript 或通过将 DL 模型默默地嵌入到应用的后端来实现。 在本章中，我们了解了如何使用这些方法中最常见的方法（基于 API 的 DL Web 应用），同时，我们对如何设计类似的解决方案进行了粗略的概述。 我们介绍了确定问题陈述和后续解决方案所涉及的思考过程，以及在设计集成 DL 模型的 Web 应用时应避免的陷阱和痛点。
+
+在下一章中，我们将讨论一个端到端项目，该项目出于安全目的将 DL 集成在 Web 应用上。 我们将了解 DL 如何帮助我们识别可疑活动并阻止垃圾邮件用户。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/10.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/10.md
new file mode 100644
index 00000000..59775553
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/10.md
@@ -0,0 +1,822 @@
+# 十、通过深度学习保护 Web 应用安全
+
+一般而言，安全性对于任何网站以及所有软件而言都是至关重要的。 如今，安全威胁随着可用计算能力的提高和技术领域的发展而不断发展。 因此，重要的是网站必须采取最佳的安全措施以确保其数据和用户信息的安全。 从事在线商业活动的网站始终处于高风险之中，它们面对从未见过的安全攻击非常普遍。 对于基于规则的安全系统而言，新的攻击尤其难以识别和阻止。 因此，您可以查看由深度学习驱动的安全系统提供的选项，这些选项可以有效替代基于规则的系统，并且还能够正确识别和阻止新威胁。
+
+本章讨论了一些技巧和技术，您可以使用这些技巧和技术通过使用 Python 进行深度学习来保护网站的安全。 我们将介绍 reCAPTCHA 和 Cloudflare，并讨论如何使用它们来增强网站的安全性。 我们还将向您展示如何使用基于深度学习的技术和 Python 后端，实现安全机制来检测网站上的恶意用户。 本章将涵盖以下主题：
+
+*   reCAPTCHA 的故事
+*   DIY – 在 Django 上进行恶意用户检测
+*   使用 Python 在 Web 应用中使用 reCAPTCHA
+*   Cloudflare 和网站安全
+
+我们将从 reCAPTCHA 的故事开始本章的讨论，reCAPTCHA 是 Google 创造的一种巧妙的工具，它改变了互联网。
+
+# 技术要求
+
+您可以在[这个页面](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter10)上访问本章的代码。
+
+您需要以下软件来运行本章中的代码：
+
+*   Python 3.6+
+*   TensorFlow 1.14
+*   Keras 与 TensorFlow 1.14 兼容
+*   Django 2.x
+
+# reCAPTCHA 的故事
+
+“对人类易如反掌” – 这是 reCAPTCHA 的口号，它陈述了一个简单的想法，即 reCAPTCHA 是一个系统，该系统确定应用或网站上的用户是真正的人类用户还是自动脚本 。 reCAPTCHA 是 CAPTCHA 技术的特定实现，CAPTCHA 技术是一种使用带有扭曲，弯曲的字母和数字的视觉效果，并要求用户解密视觉图像的内容并将其以纯格式写出的方法。
+
+如果您在 2000 年代初期是普通的互联网用户，那么您可能会在许多网站上看到类似于以下验证码的图片：
+
+![](img/bdf82cb8-25df-4316-ab30-7c488e38f119.png)
+
+**CAPTCHA** 是**用于区分计算机和人类得完全自动化的公共图灵测试**的首字母缩写。
+
+在 Yahoo 的推广下，CAPTCHA 系统迅速在数百万个网站上使用。 但是，尽管此系统提供给网站的安全性得到了提高，但它很耗时，并且经常遭到流氓程序员的殴打。 人们常常每隔一段时间就会创建具有不同设计和视觉元素组合的新 CAPTCHA 系统。
+
+同时，开发人员正在解决一个非常不同的问题-将印刷书籍和其他文本数字化。 一种快速的解决方案是扫描书籍。 也就是说，使用**光学字符识别**（**OCR**）将书籍转换为初步的数字文本形式。 对于使用标准字体制成的打印内容，其扫描质量很好，转换效果很好。 但是，打印格式和手稿格式错误会影响转换精度。 人们越来越多地将图像上传到在线平台，以寻求从这些图像中提取文本并将其用于多种目的，例如确定图像中的内容，位置或提及的品牌。
+
+CAPTCHA 的起源与多个组织的发明主张存在争议，但是 Luis von Ahn 在 2003 年创造了 CAPTCHA 这个词，后来他成为 reCAPTCHA 的创始人，该公司被 Google 收购。
+
+众包服务的先驱 Luis von Ahn 使用 reCAPTCHA 程序来显示从印刷书籍扫描中裁切出来的非常小的文本块。 只有人类才能轻松解决这些挑战，自动化程序将失败。 同时，通过未知的众包活动，大量人类用户的贡献将这些书缓慢地数字化。 reCAPTCHA 仍然对用户构成困扰，但图书数字化的问题已解决。
+
+随着时间的流逝，reCAPTCHA 演变为使用基于 AI 的系统来识别真实和虚假用户。 在撰写本书时，reCAPTCHA 由 Google 积极开发，目前处于其第三版本，该版本允许在网页背景中对用户进行无形验证，并且仅在无法成功验证用户时显示挑战 。 这为真正的用户节省了大量时间，并给机器带来了挑战。
+
+我们现在将建立一个网站，以使用基于深度学习的模型和 reCAPTCHA 为网站提供安全元素。
+
+# 恶意用户检测
+
+网站上的恶意用户是任何试图执行未经授权执行任务的用户。 在当今世界，恶意用户所构成的威胁正呈指数级增长，黑客向公众暴露了来自几家全球高科技巨头，政府机构和其他私人公司的巨大个人信息数据库。 拥有可以自动缓解这些恶意攻击的系统非常重要。
+
+为了识别示例 Web 应用中的恶意用户，我们创建了一个模型，该模型能够了解用户的常规行为，并且在任何情况下用户的行为与过去的使用情况发生显着变化时，都会发出警报。
+
+异常检测是机器学习的流行分支。 它是一组算法，用于检测给定数据集中的数据样本，这些数据样本不会随大多数数据样本属性一起下降。 在狗窝里检测猫是异常检测。 异常检测以几种方式执行：
+
+*   通过列的最小最大范围
+*   通过找出数据图中的突然尖峰
+*   当数据绘制在高斯曲线下时，通过将位于端点的点标记为离群值（异常）
+
+支持向量机，K 最近邻和贝叶斯网络是用于异常检测的一些最流行的算法。
+
+我们如何定义网站用户的常规行为？
+
+假设您使用的网站通常是使用笔记本电脑登录的。 通常，最多需要两次尝试才能成功登录该网站。 如果有一天您突然开始使用一台新笔记本电脑，则该登录名可能会是可疑的，并且可能是一种恶意尝试来入侵您的帐户。 如果新设备的位置是您最近或从未去过的地方，那就更是如此。 如果您尝试 10 次登录帐户，也将非常可疑。 处于任何可疑使用状态的状态是用户在网站上的通常行为。
+
+有时，异常可能不是由于任何特定用户的不正常行为引起的。 由于服务器的更改，用户的正常流量以及他们的行为可能会更改。 在这种情况下，我们必须注意不要将所有用户标记为恶意用户。 另外，用户的不正常行为可能是由于黑客尝试以外的其他原因引起的。 如果真正的用户突然开始访问他们不应该访问的网站部分，则这是异常现象，需要防止。
+
+在我们的示例网站中，我们将集成这样的系统。 为此，我们将检查网站的登录页面，在该页面上我们将尝试确定用户的登录是正常还是异常。 我们将考虑用户登录的页面，因为一个网站可能有多个登录页面，并尝试确定它是否是用户登录的常用页面。 如果用户尝试从通常不登录的页面登录，我们会将其标记为异常。 这只是检查异常用户的一个简单标准，范围为数百个其他参数。
+
+# 基于 LSTM 的用于认证用户的模型
+
+我们将本节分为两个主要子节：
+
+1.  建立安全检查模型
+2.  将模型作为 API 托管
+
+让我们从第一部分开始。
+
+# 构建用于认证有效性检查的模型
+
+为了根据用户的登录活动对用户进行认证，我们将需要一个用于检查请求的 API。 我们可以使用以下步骤构建此模型：
+
+1.  让我们从开发认证模型开始，该模型确定用户是否未按常规方式进行操作。 我们首先在运行 Python 3.6+ 的 Jupyter 笔记本中导入必要的模块，如下所示：
+
+```py
+import sys
+import os
+import json
+import pandas
+import numpy
+from keras.models import Sequential
+from keras.layers import LSTM, Dense, Dropout
+from keras.layers.embeddings import Embedding
+from keras.preprocessing import sequence
+from keras.preprocessing.text import Tokenizer
+from collections import OrderedDict
+```
+
+2.  现在，我们可以将数据导入到项目中。 我们将在[使用数据集](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/blob/master/Chapter10/model/data/data-full.csv)。 我们将数据集加载到项目中，如下所示：
+
+```py
+file = 'data-full.csv'
+
+df = pandas.read_csv(file, quotechar='|', header=None)
+df_count = df.groupby([1]).count()
+total_req = df_count[0][0] + df_count[0][1]
+num_malicious = df_count[0][1]
+
+print("Malicious request logs in dataset: {:0.2f}%".format(float(num_malicious) / total_req * 100))
+```
+
+您将看到一些有关数据的常规统计信息，如下所示：
+
+![](img/db398383-b1d7-407a-9f2a-ed4f4223c548.png)
+
+您将看到数据包含文本，如下所示：
+
+![](img/8d84d0b7-32b3-4ac3-a3d1-d1ba262ee005.png)
+
+此观察很重要，我们将在以后的步骤中参考此屏幕快照。
+
+3.  但是，所有数据都是字符串格式。 我们需要将其转换为适当的值类型。 此外，数据集目前仅包含一个`DataFrame`； 我们将使用以下代码将其分为两部分：训练列和标签列：
+
+```py
+df_values = df.sample(frac=1).values
+
+X = df_values[:,0]
+Y = df_values[:,1]
+```
+
+4.  另外，由于只想使用数据集中与任务相关的特征，因此我们需要丢失一些列：
+
+```py
+for index, item in enumerate(X):
+    req = json.loads(item, object_pairs_hook=OrderedDict)
+    del req['timestamp']
+    del req['headers']
+    del req['source']
+    del req['route']
+    del req['responsePayload']
+    X[index] = json.dumps(req, separators=(',', ':'))
+```
+
+5.  完成此操作后，我们现在可以继续对请求正文进行分词了。 分词是一种方法，其中我们将大段分解为句子，将句子分解为单词。 我们可以使用以下代码执行令牌化：
+
+```py
+tokenizer = Tokenizer(filters='\t\n', char_level=True)
+tokenizer.fit_on_texts(X)
+```
+
+6.  完成分词后，我们将每个请求正文条目转换为向量。 这样做是因为我们需要数据的数字表示形式，以便计算机能够对其进行计算。 之后，我们进一步将数据集分为两部分-数据集的 75% 用于训练，其余部分用于测试。 同样，使用以下代码拆分标签列：
+
+```py
+num_words = len(tokenizer.word_index)+1
+X = tokenizer.texts_to_sequences(X)
+
+max_log_length = 1024
+split = int(len(df_values) * .75)
+
+X_processed = sequence.pad_sequences(X, maxlen=max_log_length)
+X_train, X_test = X_processed[0:split], X_processed[split:len(X_processed)]
+Y_train, Y_test = Y[0:split], Y[split:len(Y)]
+```
+
+请记住，从步骤 2 开始，该数据主要包含文本。 当涉及文本数据时，很可能存在上下文和与之关联的特定顺序。
+
+例如，考虑以下句子中的单词 - “Sachin Tendulkar 是伟大的板球运动员”。 为了传达预期的含义，不得更改单词的顺序。 在机器学习中处理文本数据时，这就是维护顺序和上下文的重要性所在的地方。
+
+在我们的案例中，我们将使用一种特殊类型的循环神经网络-**长短期记忆**（**LSTM**），它将学习识别常规的用户行为。
+
+关于 LSTM 的详细讨论超出了本书的范围，但是如果您有兴趣，可以参考[这里](http://bit.ly/2m0RWnx)来详细了解它。
+
+7.  现在，我们使用以下代码添加层以及单词嵌入，这有助于维护数字编码文本和实际单词之间的关系：
+
+```py
+clf = Sequential()
+clf.add(Embedding(num_words, 32, input_length=max_log_length))
+clf.add(Dropout(0.5))
+clf.add(LSTM(64, recurrent_dropout=0.5))
+clf.add(Dropout(0.5))
+clf.add(Dense(1, activation='sigmoid'))
+```
+
+我们的输出是单个神经元，在非异常登录尝试或异常登录尝试的情况下，它们分别持有`0`或`1`。
+
+8.  然后，我们使用以下代码编译模型并打印摘要：
+
+```py
+clf.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
+print(clf.summary())
+```
+
+产生了模型摘要，如下所示：
+
+![](img/0a057f86-a447-49f8-a185-d82dc84ada58.png)
+
+现在，我们准备继续训练模型：
+
+1.  我们使用模型的`fit()`方法，如下所示：
+
+```py
+clf.fit(X_train, Y_train, validation_split=0.25, epochs=3, batch_size=128)
+```
+
+2.  我们将快速检查模型所达到的准确率。 我们可以看到该模型在验证数据上的准确率超过 96%。 鉴于这是我们的第一个模型，这个分数非常可观。 我们可以使用以下代码检查模型的准确率：
+
+```py
+score, acc = clf.evaluate(X_test, Y_test, verbose=1, batch_size=128)
+print("Model Accuracy: {:0.2f}%".format(acc * 100))
+```
+
+您应该看到如下屏幕截图所示的输出：
+
+![](img/15fc01ad-104b-40c0-a6f4-5490fed2bbf6.png)
+
+3.  让我们节省这些工作量。 我们将使用它们来创建用于验证用户身份的 API。 我们可以使用以下代码保存模型：
+
+```py
+clf.save_weights('weights.h5')
+clf.save('model.h5')
+```
+
+准备好模型后，我们现在可以将其作为 Flask API 进行托管。
+
+# 托管自定义认证模型
+
+现在，让我们创建 API，该 API 将接受用户的登录尝试并返回其对登录有效性的信心：
+
+1.  我们首先导入创建 Flask 服务器所需的模块，如下所示：
+
+```py
+from sklearn.externals import joblib
+from flask import Flask, request, jsonify
+from string import digits
+
+import sys
+import os
+import json
+import pandas
+import numpy
+import optparse
+from keras.models import Sequential, load_model
+from keras.preprocessing import sequence
+from keras.preprocessing.text import Tokenizer
+from collections import OrderedDict
+```
+
+2.  现在，我们需要从`model`训练步骤中导入保存的模型和权重。 一旦这样做，我们需要重新编译模型，并使用`make_predict_function()`方法使其模型成为`predict`函数：
+
+```py
+app = Flask(__name__)
+
+model = load_model('lstm-model.h5')
+model.load_weights('lstm-weights.h5')
+model.compile(loss = 'binary_crossentropy', optimizer = 'adam', metrics = ['accuracy'])
+model._make_predict_function()
+```
+
+3.  我们将使用数据清理函数在客户端应用的传入查询中去除数字和其他无用的文本：
+
+```py
+def remove_digits(s: str) -> str:
+    remove_digits = str.maketrans('', '', digits)
+    res = s.translate(remove_digits)
+    return res
+```
+
+4.  接下来，我们在应用中创建`/login`路由，当用户尝试登录时，该路由将接受来自客户端应用的登录凭据和其他请求标头详细信息。请注意，我们仍然像在此过程中一样丢弃了一些额外的请求标头。 训练。
+5.  清理数据后，我们将其分词和向量化。 这些步骤与我们在训练期间进行的预处理相同。 这是为了确保对传入请求的处理与训练阶段完全相同：
+
+```py
+@app.route('/login', methods=['GET, POST'])
+def login():
+    req = dict(request.headers)
+    item = {}
+    item["method"] = str(request.method)
+    item["query"] = str(request.query_string)
+    item["path"] = str(request.path)
+    item["statusCode"] = 200
+    item["requestPayload"] = []
+
+    X = numpy.array([json.dumps(item)])
+    log_entry = "store"
+
+    tokenizer = Tokenizer(filters='\t\n', char_level=True)
+    tokenizer.fit_on_texts(X)
+    seq = tokenizer.texts_to_sequences([log_entry])
+    max_log_length = 1024
+    log_entry_processed = sequence.pad_sequences(seq, maxlen=max_log_length)
+
+    prediction = model.predict(log_entry_processed)
+    print(prediction)
+    response = {'result': float(prediction[0][0])}
+    return jsonify(response)
+```
+
+最后，应用以 JSON 形式返回对用户进行认证的信心。
+
+6.  要在所需端口上运行服务器，我们需要在脚本末尾添加以下行：
+
+```py
+if __name__ == '__main__':
+    app.run(port=9000, debug=True)
+```
+
+7.  最后，我们将服务器脚本文件另存为`main.py`。 我们将通过在系统上使用以下命令来使服务器运行：
+
+```py
+python main.py
+```
+
+这将启动 Flask 服务器，该服务器监听回送 IP `127.0.0.1`和端口`9000`。 您可以轻松地将此脚本托管在云中的虚拟机上，并作为通用的安全检查点 API 将其提供给所有应用和网站。
+
+现在，我们可以继续创建在 Django 框架上运行的 Web 应用。
+
+# 一个使用 API​​ 的基于 Django 的应用
+
+我们创建的使用用户认证检查 API 的网站将是一个简单的广告牌演示。 该网站将规定用户登录然后将帐单发布到广告牌。 尽管该应用很简单，但它包含基于深度学习的安全集成的两个主要功能-用户认证期间的异常检测以及账单发布期间 reCAPTCHA 的实现-避免垃圾邮件。
+
+以下各节将讨论创建应用的步骤。
+
+# Django 项目设置
+
+在本节中，我们将使用 Django。 在继续本节之前，请确保在系统上安装了有效的 Django。 您可以在“第 8 章”，“使用 python 在 Microsoft Azure 上进行深度学习”的“Django Web 开发简介”部分中找到 Django 的安装说明。
+
+现在，我们将创建一个 Django 项目。 为此，我们使用以下命令：
+
+```py
+django-admin startproject webapp
+```
+
+这将在当前文件夹中创建`webapp`目录。 我们将在此目录中添加所有将来的代码。 当前目录结构如下：
+
+```py
+webapp/
+    manage.py
+    webapp/
+        __init__.py
+        settings.py
+        urls.py
+        wsgi.py
+    db.sqlite3
+
+```
+
+完成此操作后，我们现在准备在项目内部创建一个应用，这将在下一部分中显示。
+
+# 在项目中创建一个应用
+
+如“第 8 章”，“在 Microsoft Azure 上使用 Python 进行深度学习”中所述，我们现在必须将应用添加到网站项目中。 为此，我们使用以下命令：
+
+```py
+cd webapp
+python manage.py startapp billboard
+```
+
+前面的命令将在项目中创建一个名为`billboard`的应用。 但是，我们仍然必须将此应用链接到项目。
+
+# 将应用链接到项目
+
+要将应用添加到项目中，我们需要将应用名称添加到项目设置文件中`settings.py`中的应用列表中，如以下代码所示。 在`settings.py`中，添加以下更改：
+
+```py
+# Application definition
+
+INSTALLED_APPS = [
+    'billboard',  # <---- ADD THIS LINE
+    'django.contrib.admin',
+    'django.contrib.auth',
+    'django.contrib.contenttypes',
+    'django.contrib.sessions',
+    'django.contrib.messages',
+    'django.contrib.staticfiles',
+]
+```
+
+这样，我们准备在网站上创建路由。
+
+# 向网站添加路由
+
+要向项目添加路由，我们编辑`webapp`的`urls.py`文件：
+
+```py
+from django.contrib import admin
+from django.urls import path, include # <--- ADD 'include' module
+
+urlpatterns = [
+    path('', include('billboard.urls')), # <--- ADD billboard.urls path
+    path('admin/', admin.site.urls),
+]
+```
+
+但是，`billboard.urls`路径不存在。 我们将创建前进的道路。
+
+# 在布告栏应用中创建路由处理文件
+
+在`billboard`文件夹中创建一个名为`urls.py`的新文件，如下所示：
+
+```py
+from django.urls import path
+from django.contrib.auth.decorators import login_required
+
+from . import views
+
+urlpatterns = [
+    path('', login_required(views.board), name='View Board'),
+    path('add', login_required(views.addbill), name='Add Bill'),
+    path('login', views.loginView, name='Login'),
+    path('logout', views.logoutView, name='Logout'),
+]
+```
+
+将其另存为`webapp/billboard/urls.py`。 请注意，我们已将一些`views`项目导入此路由处理文件。 另外，我们使用了`login_required`方法。 这表明我们可以开始对网站进行认证。
+
+# 添加和配置认证路由
+
+要添加用于验证的路由，请在`webapp/settings.py`文件的末尾添加以下内容：
+
+```py
+LOGIN_URL = "/login"
+LOGIN_REDIRECT_URL = '/'
+LOGOUT_REDIRECT_URL = '/logout'
+```
+
+这些行表明我们将需要`/login`和`/logout`路由。
+
+# 创建登录页面
+
+要创建登录页面，我们需要在广告牌应用中将`/login`路由添加到`urls.py`。 但是，我们已经做到了。 接下来，我们需要将`loginView`视图添加到布告栏应用的`views.py`文件中：
+
+```py
+def loginView(request):
+    if request.user.is_authenticated:
+        return redirect('/')
+    else:
+        if request.POST:
+            username = request.POST['username']
+            password = request.POST['password']
+            user = authenticate(request, username=username, password=password)
+            ## MORE CODE BELOW THIS LINE
+
+            ## MORE CODE ABOVE THIS LINE
+            else:
+                return redirect('/logout')
+        else:
+            template = loader.get_template('login.html')
+            context = {}
+            return HttpResponse(template.render(context, request))
+```
+
+前面的函数首先检查用户数据库中是否存在传递给用户名和密码的用户名和密码。 因此，将来，我们将需要一个用户模型来将用户存储在数据库文件`db.sqlite3`中，该文件是在项目创建步骤中创建的。
+
+然后，该函数将调用认证检查模型 API，以验证用户登录是否正常。 验证按以下代码进行：
+
+```py
+def loginView(request):
+    ...
+            ## MORE CODE BELOW THIS LINE            
+            if user is not None:
+                url = 'http://127.0.0.1:9000/login'
+                values = { 'username': username, 'password': password }
+                data = urllib.parse.urlencode(values).encode()
+                req = urllib.request.Request(url, data=data)
+                response = urllib.request.urlopen(req)
+                result = json.loads(response.read().decode())
+                if result['result'] > 0.20:
+                    login(request, user)
+                    return redirect('/')
+                else:
+                    return redirect('/logout')
+            ## MORE CODE ABOVE THIS LINE
+    ...
+```
+
+前面的代码块验证用户登录，如果发现用户登录无效，则执行注销操作，并将用户重定向回再次登录。
+
+为此，我们需要向`view.py`文件添加一些必要的导入，如下所示：
+
+```py
+from django.shortcuts import redirect
+from django.contrib.auth import authenticate, login, logout
+
+from django.http import HttpResponse
+from django.template import loader
+
+from django.conf import settings
+from django.urls import reverse_lazy
+from django.views import generic
+
+from django.contrib.auth.models import User
+
+import urllib
+import ssl
+import json
+```
+
+注意，我们还从`django.contrib.auth`导入了`logout`方法。 这将用于创建`logout`视图。
+
+# 创建注销视图
+
+现在，让我们创建`logout`视图。 这样做非常简单，如下所示：
+
+```py
+def logoutView(request):
+    logout(request)
+    return redirect('/')
+```
+
+现在，让我们创建登录页面的模板。
+
+# 创建登录页面模板
+
+要创建模板，我们首先需要创建所需的文件夹。
+
+在`billboard`目录中创建一个名为`templates`的文件夹。 现在，目录结构将类似于以下代码：
+
+```py
+webapp/
+    manage.py
+    webapp/
+        __init__.py
+        settings.py
+        urls.py
+        wsgi.py
+    billboard/
+        templates/
+        ___init_.py
+        admin.py
+        apps.py
+        models.py
+        tests.py
+        urls.py
+        views.py
+```
+
+在`templates`文件夹内，我们将放置模板文件。 首先创建`base.html`，我们将在所有其他模板中进行扩展。 这将包含`CSS`和`JS`包含，以及页面的常规块结构。
+
+我们已在[这里](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/blob/master/Chapter10/webapp/billboard/templates/base.html)提供了此文件的示例。
+
+完成此操作后，我们准备创建`login.html`文件，该文件将执行将登录值发送到服务器的过程：
+
+```py
+{% extends 'base.html' %}
+{% block content %}
+<div class="container">
+    <div class="row">
+        <div class="form_bg">
+            <form method="post">
+                {% csrf_token %}
+                <h2 class="text-center">Login Page</h2>
+                # WE'LL ADD MORE CODE BELOW THIS LINE
+                ...
+                # WE'LL ADD MORE CODE ABOVE THIS LINE
+            </form>
+        </div>
+    </div>
+</div>
+{% endblock %}
+```
+
+注意，我们已经在前面的视图模板中扩展了`base.html`模板。
+
+您可以在[这个页面](https://tutorial.djangogirls.org/en/template_extending/)上阅读有关扩展 Django 模板的更多信息。
+
+此登录页面中的表单发出`POST`请求，因此需要传递 CSRF 令牌。 现在，我们可以创建登录完成后呈现的页面。
+
+# 广告牌页面模板
+
+由于我们已经设置了`base.html`文件，因此我们可以简单地在`board.html`模板文件中对其进行扩展以创建广告牌显示页面：
+
+```py
+{% extends 'base.html' %}
+{% block content %}
+<div class="container">
+    <div class="row">
+        {% for bill in bills %}
+        <div class="col-sm-4 py-2">
+            <div class="card card-body h-100">
+                <h2>{{ bill.billName }}</h2>
+                <hr>
+                <p>
+                    {{ bill.billDesc }}
+                </p>
+                <a href="#" class="btn btn-outline-secondary">{{ bill.user.username }}</a>
+            </div>
+        </div>
+        {% endfor %}
+    </div>
+</div>
+{% endblock %}
+```
+
+在前面的代码块中，我们遍历了广告牌数据库中所有可用的`bills`项目，并使用模板中的`for`循环显示了它们。 `base.html`模板的使用允许我们减少视图模板中的重复代码量。
+
+此后，我们将创建一个页面，该页面具有将新账单添加到广告牌的代码。
+
+# 添加到广告牌页面模板
+
+要创建将帐单添加到广告牌的页面模板，我们使用以下代码创建`add.html`模板文件：
+
+```py
+{% extends 'base.html' %}
+{% block content %}
+<div class="container">
+    <div class="row">
+        <div class="form_bg">
+            <form method="post" id="form">
+                {% csrf_token %}
+                <h2 class="text-center">Add Bill</h2>
+                <br />
+                <div class="form-group">
+                    <input type="text" class="form-control" id="billname" name="billname" placeholder="Bill Name">
+                </div>
+                <div class="form-group">
+                    <input type="text" class="form-control" id="billdesc" name="billdesc" placeholder="Description">
+                </div>
+                <br />
+                <div class="align-center">
+                    <button type="submit" class="btn btn-success" id="save">Submit</button>
+                </div>
+            </form>
+        </div>
+    </div>
+</div>
+{% endblock %}
+```
+
+在前面的代码块中，我们扩展了`base.html`模板以添加允许我们添加帐单的表格。 注意`form`元素中 CSRF 令牌的使用。 在 Django 中，我们始终需要在发出 POST 请求时传递有效的 CSRF 令牌。
+
+您可以在[这个页面](https://docs.djangoproject.com/en/3.0/ref/csrf/)上了解有关 Django 中 CSRF 令牌的更多信息。
+
+但是，等等，我们还没有添加视图来处理广告牌页面和添加账单页面。 让我们现在添加它们！
+
+# 广告牌模型
+
+我们需要添加视图以在广告牌页面上查看所有账单。 但是，为此，我们首先需要创建一个模型来保存所有账单。
+
+在`models.py`文件中，添加以下代码：
+
+```py
+from django.utils.timezone import now
+from django.contrib.auth.models import User
+
+class Bills(models.Model):
+    billName = models.CharField("Bill Name", blank=False, max_length=100, default="New Bill")
+    user = models.ForeignKey(User, on_delete=models.CASCADE)
+    billDesc = models.TextField("Bill Description")
+    billTime = models.DateTimeField(default=now, editable=False)
+
+    class Meta:
+        db_table = "bills"
+```
+
+在前面的代码中，我们创建了一个名为`Bills`的新模型。 这将存储用户在广告牌上添加的所有账单的详细信息。 `user`模型与此模型链接为外键。 将此文件另存为`webapp/billboard/models.py`。
+
+您可以在[这个页面](https://www.sqlite.org/foreignkeys.html)上了解有关外键和其他键的更多信息。
+
+完成此操作后，我们现在可以在视图中使用`Bills`模型。
+
+# 创建广告牌视图
+
+要开始在应用中使用`Bills`模型，我们首先需要将其导入`views.py`文件。
+
+在`view.py`文件的顶部添加以下行：
+
+```py
+from .models import Bills
+```
+
+然后，我们可以为广告牌添加视图，如下所示：
+
+```py
+def board(request):
+    template = loader.get_template('board.html')
+    context = {}
+    context["isLogged"] = 1
+
+    Bill = Bills.objects.all()
+
+    context["bills"] = Bill
+
+    return HttpResponse(template.render(context, request))
+```
+
+接下来，我们需要创建用于添加账单的视图。
+
+# 创建账单并添加视图
+
+在此视图中，我们将创建账单。 如果对由`addbill`方法提供服务的路由提出了有效的`POST`请求，我们将创建一个新的`Bill`对象并将其保存到数据库中。 否则，我们显示用于向用户添加账单的表格。 让我们看看如何在以下代码中执行此操作：
+
+```py
+def addbill(request):
+    if request.POST:
+            billName = request.POST['billname']
+            billDesc = request.POST['billdesc']
+            Bill = Bills.objects.create(billName=billName, user=request.user, billDesc=billDesc)
+            Bill.save()
+            return redirect('/')
+    else:
+        template = loader.get_template('add.html')
+        context = {}
+        context["isLogged"] = 1
+
+        return HttpResponse(template.render(context, request))
+```
+
+但是，在使用该应用之前，我们仍然需要创建管理员用户。
+
+# 创建管理员用户并对其进行测试
+
+要创建管理员用户，我们使用以下命令：
+
+```py
+ python manage.py createsuperuser
+```
+
+现在，我们可以使用以下命令来迁移数据库更改：
+
+```py
+python manage.py makemigrations
+python manage.py migrate
+```
+
+产生类似于以下内容的输出：
+
+![](img/e0506807-c8f7-4fa1-b8c1-2b79d7600dd8.png)
+
+现在，让我们使用 reCAPTCHA 工具保护广告牌发布。
+
+# 在 Python Web 应用中使用 reCAPTCHA
+
+要将 reCAPTCHA 添加到网站，我们首先需要从 Google reCAPTCHA 控制台获取 API 密钥：
+
+1.  首先，登录到您的 Google 帐户，然后转到[这里](https://www.google.com/recaptcha)。
+2.  接下来，点击右上角的“管理控制台”。
+3.  按照屏幕上显示的步骤将站点添加到控制台。 如果要在本地系统上进行测试，则必须指定`127.0.0.1`作为 URL 之一。
+4.  获取您的域的 API 密钥。
+
+    您打开域的 API 密钥的屏幕应类似于以下屏幕截图：
+
+![](img/fee62e08-e223-469d-a77e-82bac332aa67.png)
+
+5.  现在，将密钥添加到 Web 应用的`settings.py`文件中，如下所示：
+
+```py
+GOOGLE_RECAPTCHA_SECRET_KEY = '6Lfi6ncUAAAAANJYkMC66skocDgA1REblmx0-3B2'
+```
+
+6.  接下来，我们需要将要加载的脚本添加到`add.html`模板中。 我们将其添加到广告牌应用页面模板中，如下所示：
+
+```py
+<script src="https://www.google.com/recaptcha/api.js?render=6Lfi6ncUAAAAAIaJgQCDaR3s-FGGczzo7Mefp0TQ"></script>
+<script>
+    grecaptcha.ready(function() {
+        grecaptcha.execute('6Lfi6ncUAAAAAIaJgQCDaR3s-FGGczzo7Mefp0TQ')
+        .then(function(token) {
+            $("#form").append('<input type="hidden" name="g-recaptcha-response" value="'+token+'" >');
+        });
+    });
+</script>
+
+{% endblock %}
+```
+
+请注意，此步骤中使用的密钥是客户端/站点密钥。
+
+7.  最后，我们需要在添加广告牌视图中验证 reCAPTCHA，如下所示：
+
+```py
+def addbill(request):
+    if request.POST:
+        recaptcha_response = request.POST.get('g-recaptcha-response')
+        url = 'https://www.google.com/recaptcha/api/siteverify'
+        values = {  'secret': settings.GOOGLE_RECAPTCHA_SECRET_KEY,
+                    'response': recaptcha_response}
+        context = ssl._create_unverified_context()
+        data = urllib.parse.urlencode(values).encode()
+        req = urllib.request.Request(url, data=data)
+        response = urllib.request.urlopen(req, context=context)
+        result = json.loads(response.read().decode())
+        if result['success']:
+            # Do stuff if valid
+    else:
+        # Do actions when no request is made
+```
+
+您可以从[这个页面](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/blob/master/Chapter10/webapp/billboard/views.py)中的上一个代码块中获取`addbill`方法的完整工作版本。
+
+经过先前的更改，我们终于可以使用所有安全措施来测试运行该网站了。 运行以下命令以启动网站服务器：
+
+```py
+python manage.py runserver
+```
+
+您应该能够看到网站的登录页面，如下所示：
+
+![](img/6be54474-9af3-4242-a2ac-c55719a38b51.png)
+
+请注意，此时，您将需要同时运行执行登录验证的 Flask 服务器。
+
+登录后，您将看到在广告牌页面上贴有账单的页面。 转到“添加帐单”按钮以添加新帐单，如下所示：
+
+![](img/d28fc58c-b859-4882-869e-c5c3d783772d.png)
+
+请注意屏幕右下角的 reCAPTCHA 徽标。 这表明使用 reCAPTCHA 保护了页面免受垃圾邮件的侵扰。 如果您能够成功过帐，则显示已提交的帐单的广告牌。 否则，您将面临 reCAPTCHA 验证挑战。
+
+# Cloudflare 的网站安全
+
+Cloudflare 是业界领先的 Web 基础架构和网站安全提供商。 它在网站及其用户之间创建了一层安全性和快速的内容交付，从而通过其服务器路由所有流量，从而实现了网站的安全性和其他功能。 2017 年，Cloudflare 为超过 1200 万个网站提供了 DNS 服务。 这些服务包括内容交付网络，**分布式拒绝服务**（**DDoS**）攻击保护，黑客尝试保护以及其他互联网安全服务，例如水浸保护。
+
+2014 年，Cloudflare 报告减轻了对客户的 400 Gib/s DDoS 攻击，随后不久又于次年进行了 500 Gib/s 的攻击。 在记录的任何网站上，最大的攻击是在 GitHub 上，该站点面临 1.4Tb/s 的 DDoS 泛洪。 GitHub 使用的是 Akamai Prolexic（Cloudflare 的替代产品），并且能够承受攻击，仅下降了 10 分钟，然后完全恢复正常。 Cloudflare 免费为其所有用户提供 DDoS 防护。
+
+要开始在您的网站上部署 Cloudflare 服务，您需要将 Cloudflare 设置为用户和托管服务器之间的中间层。 下图描述了 Cloudflare 如何位于网络上：
+
+![](img/ada2acb7-d8a7-4b38-8329-e7e64ba13a85.png)
+
+因此，Cloudflare 会自动在基本范围内（通过 Google 的 reCAPTCHA 帮助我们检测以前创建了自定义解决方案的垃圾邮件和恶意用户）（在免费层中，在更高层中具有更强大的解决方案） 升级时）。 因此，对于一小群开发人员而言，将他们的安全需求推向 Cloudflare 的系统并确保他们免受许多安全漏洞的侵害是非常直观和简单的。
+
+# 总结
+
+在本章中，我们了解了如何使用 Cloudflare 的服务为网站提供安全性。 我们还看到了如何创建可与 Web 应用和其他安全服务（例如 reCAPTCHA）集成使用的安全 API。 任何规模的网站都必须采取这些安全措施，以使其网站服务正常运行，这一点至关重要。 近年来发生了重大漏洞，而 AI 驱动系统尝试了无数漏洞，这些漏洞由于不是问题而没有成为新闻。 使用深度学习进行安全性研究是一个紧迫的话题，并且相信在不久的将来，安全系统都将完全依靠深度学习来识别和消除威胁。
+
+在下一章中，我们将讨论如何建立生产级深度学习环境。 我们将讨论您可以遵循的架构设计，具体取决于它们的大小要求以及最新的服务提供商和工具。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/11.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/11.md
new file mode 100644
index 00000000..41e26caf
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/11.md
@@ -0,0 +1,747 @@
+# 十一、DIY - Web DL 生产环境
+
+在先前的章节中，我们了解了如何使用一些著名的**深度学习**（**DL**）平台，例如 **Amazon Web Services**（**AWS**） ， **Google Cloud Platform**（**GCP**）和 Microsoft Azure，以在我们的 Web 应用中启用 DL。 然后，我们看到了如何使用 DL 使网站安全。 但是，在生产中，挑战通常不仅是建立预测模型，当您要更新已经向用户发送响应的模型时，就会出现真正的问题。 在替换模型文件的 30 秒或 1 分钟内，您可能损失多少时间和业务？ 如果有为每个用户定制的模型怎么办？ 这甚至可能意味着数十亿美元的模型用于 Facebook 之类的平台。
+
+您需要确定的解决方案来更新生产中的模型。 另外，由于摄取的数据可能不是采用训练的格式，因此您需要定义数据流，以便以无缝方式将其变形以供使用。
+
+在本章中，我们将讨论更新生产模型的方法以及选择每种方法的思路。 我们将从简要概述开始，然后演示一些用于创建 DL 数据流的著名工具。 最后，我们将实现自己的在线学习或增量学习演示，以建立更新生产模型的方法。
+
+我们将在本章介绍以下主题：
+
+*   生产方法中的 DL 概述
+*   在生产中部署 ML 的流行工具
+*   实现 DL Web 生产环境演示
+*   将项目部署到 Heroku
+*   安全性，监视和表现优化
+
+# 技术要求
+
+您可以在[这个页面](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter11)上访问本章的代码。
+
+您需要以下软件来运行本章中使用的代码：
+
+*   Python 3.6+
+*   Flask 1.1.12+
+
+所有其他安装将在本章中进行。
+
+# 生产方法中的 DL 概述
+
+无论是 DL 还是经典的**机器学习**（**ML**），在生产中使用模型时，都会遇到挑战。 主要原因是数据助长了机器学习，并且数据会随着时间而变化。 在生产中部署 ML 模型时，由于数据会随着时间不断变化，因此会每隔一定间隔对其进行重新训练。 因此，当您考虑基于生产的目的时，对 ML 进行再训练不是奢侈的事情，而是必需品。 DL 只是 ML 的一个子字段，它也不例外。 机器学习模型有两种流行的训练方法：批量学习和在线学习，尤其是在生产中。
+
+我们将在下一部分中讨论在线学习。 在本节中，让我们自我介绍批量学习的概念。 在批量学习中，我们首先在特定数据块上训练 ML 模型，然后在对该数据块进行训练后，再为模型提供下一个数据块，此过程将继续进行，直到所有数据块都用完为止。 这些块称为批量。
+
+在现实生活中的项目中，您将一直在处理大量数据。 一次将这些数据集放入内存中并不理想。 在这种情况下，批量学习对我们有帮助。 使用批量学习有一些缺点，我们将在下一节中介绍它们。 您可能想知道（也可能不是），但是是的，只要在本书中训练神经网络，我们就会执行批量学习。
+
+就像训练一样，批量的概念也可以应用于服务 ML 模型。 在这里服务 ML 模型意味着使用机器模型对看不见的数据点进行预测。 这也称为推理。 现在，模型服务可以分为两种类型：在线服务和在线服务，其中在线服务需要在模型与数据点相遇时做出预测（在这里我们无法承受延迟），离线服务则首先需要收集一批数据点，然后通过模型运行批量以获得预测。 请注意，在第二种情况下，我们可以选择一些延迟。
+
+请注意，还有一些工程方面直接与生产 ML 系统相关。 讨论这些内容不在本书的讨论范围之内，但是 GCP 小组鼓励您在线查看课程。
+
+让我们尝试使用下图总结并进一步理解前面的讨论：
+
+![](img/95a14b78-836f-49f9-9709-4c20f0a2152e.png)
+
+此图描述了 AI 后端的要求以及可能影响您选择的解决方案选择的各种参数。 我们将在下一节中讨论该图中所有可用的方面和选择。
+
+因此，我们在生产中的 DL 实现中通常可以找到四种主要类型的解决方案：
+
+*   Web API 服务
+*   在线学习
+*   批量预测
+*   AutoML
+
+让我们详细研究它们中的每一个。
+
+# Web API 服务
+
+我们有一个模型，该模型由后端上的单独脚本训练，然后存储为模型，然后部署为基于 API 的服务。 在这里，我们正在寻找一种按需产生结果，但训练是离线进行的解决方案（不在负责响应客户端查询的那部分代码的执行范围内）。 Web API 一次响应单个查询并产生单个结果。
+
+迄今为止，这是在生产中部署 DL 的最常用方法，因为它允许数据科学家离线进行准确的训练，并使用简短的部署脚本来创建 API。 在本书中，我们主要进行了这种部署。
+
+# 在线学习
+
+通过后端进行的按需预测的另一种形式是在线学习。 但是，在这种方法中，学习是在服务器脚本执行期间进行的，因此该模型随每个相关查询而不断变化。 尽管这种方法是动态的并且不太可能过时，但它通常不如静态的 Web API 准确。 在线学习也一次产生一个结果。
+
+在本章中，我们演示了在线学习的示例。 在接下来的部分中，我们将讨论有助于在线学习的工具。
+
+# 批量预测
+
+在这种方法中，许多预测一次完成并存储在服务器上，随时可以在用户需要时提取和使用。 但是，作为静态训练方法，此方法允许离线训练模型，因此类似于 Web API，为训练提供了更高的准确率。
+
+换句话说，批量预测可以理解为 Web API 的批量版本。 但是，API 不提供这些预测。 相反，预测是从数据库中存储和获取的。
+
+# AutoML
+
+进行预测只是将 DL 投入生产的整个过程的一部分。 数据科学家还负责清理和组织数据，创建管道以及进行优化。 Auto ML 是一种无需执行此类重复任务的方法。
+
+Auto ML 是一种批量预测方法，无需人工干预。 因此，数据通过管道传递，并且定期更新预测。 因此，此方法比批量预测方法提供了更多最新的预测。
+
+现在让我们讨论一些工具，这些工具可以快速实现我们介绍的某些方法。
+
+# 在生产中部署 ML 的流行工具
+
+在本节中，我们将讨论一些用于将 ML 放入生产系统中的流行工具。 这些工具提供的核心工具是使学习-预测-反馈流程自动化，并有助于监视模型的质量和表现。 尽管很有可能为此创建自己的工具，但强烈建议您根据软件要求使用以下任何工具。
+
+让我们开始讨论`creme`。
+
+# `creme`
+
+`creme`是一个 Python 库，可让我们有效地执行在线学习。 在实际研究`creme`之前，让我们简要讨论一下在线学习本身：
+
+![](img/adfb193f-163c-4f21-9dae-af3df778d861.png)
+
+在在线学习中，机器学习模型一次只针对一个实例进行训练，而不是针对一批数据进行训练（这也称为批量学习）。 为了能够欣赏在线学习的使用，了解批量学习的弊端很重要：
+
+*   在生产中，我们需要随着时间的推移在新数据上对 ML 模型进行重新训练。 批量学习迫使我们这样做，但这是有代价的。 代价不仅在于计算资源，还在于从头开始重新训练模型的事实。 从头开始训练模型在生产环境中并不总是有用的。
+*   数据的特征和标签会随时间变化。 批量学习不允许我们训练可以支持动态特征和标签的 ML 模型。
+
+这正是我们需要使用在线学习的地方，这使我们能够执行以下操作：
+
+*   一次仅使用一个实例训练 ML 模型。 因此，我们将不需要大量数据来训练 ML 模型。 可以使用可用的数据立即对其进行训练。
+*   使用动态特征和标签训练 ML 模型。
+
+在线学习还有其他几个名称，但是它们都具有相同的作用：
+
+*   增量学习
+*   顺序学习
+*   迭代学习
+*   核心学习
+
+如前所述，`creme`是用于执行在线学习的 Python 库。 保留在 ML 工具箱中是一件非常有用的事情，尤其是在处理生产环境时。 `creme`受 scikit-learn（这是 Python 中非常流行的 ML 库）的启发，它非常易于使用。 要全面了解`creme`，建议您在[这个页面](https://github.com/creme-ml/creme)上查看`creme`的官方 GitHub 存储库。
+
+够说话了！ 让我们继续，首先安装`creme`。 可以通过使用以下命令来完成：
+
+```py
+pip install creme
+```
+
+要获取`creme`的最新版本，可以使用以下命令：
+
+```py
+pip install git+https://github.com/creme-ml/creme
+# Or through SSH:
+pip install git+ssh://git@github.com/creme-ml/creme.git
+```
+
+通过执行以下步骤，让我们看一个简单的示例：
+
+1.  我们首先从`creme`模块进行一些必要的导入：
+
+```py
+from creme import compose
+from creme import datasets
+from creme import feature_extraction
+from creme import metrics
+from creme import model_selection
+from creme import preprocessing
+from creme import stats
+from creme import neighbors
+
+import datetime as dt
+```
+
+请注意，`creme`的命名约定与`sklearn`库的命名约定相似，以提供更轻松的迁移体验。
+
+2.  然后，我们将`creme`模块本身提供的数据集提取到数据变量中：
+
+```py
+data = datasets.Bikes()
+```
+
+我们将处理此数据集，其中包含有关骑车共享的信息。
+
+尽管数据集包含在`creme`库中，但您可以在[这个页面](https://archive.ics.uci.edu/ml/datasets/bike+sharing+dataset)上了解有关此数据集的更多信息。
+
+3.  接下来，我们使用`creme`构建管道，如下所示：
+
+```py
+model = compose.Select("humidity", "pressure", "temperature")
+model += feature_extraction.TargetAgg(by="station", how=stats.Mean())
+model |= preprocessing.StandardScaler()
+model |= neighbors.KNeighborsRegressor()
+```
+
+注意使用`|=`和`+=`运算符。 `creme`使使用这些运算符成为可能，这使得对数据管道的理解非常直观。 通过使用以下命令，我们可以获得在前面的代码块中构建的管道的详细表示：
+
+```py
+model
+```
+
+上一条命令的输出如下所示：
+
+```py
+Pipeline([('TransformerUnion', TransformerUnion (
+ Select (
+ humidity
+ pressure
+ temperature
+ ),
+ TargetAgg (
+ by=['station']
+ how=Mean ()
+ target_name="target"
+ )
+ )), ('StandardScaler', StandardScaler (
+ with_mean=True
+ with_std=True
+ )), ('KNeighborsRegressor', KNeighborsRegressor([]))])
+```
+
+我们还可以使用以下命令来直观地看到该管道：
+
+```py
+model.draw()
+```
+
+这将产生以下图形：
+
+![](img/385f0fc6-4b0a-46d6-8414-c73c8c3a4c38.png)
+
+4.  最后，我们运行训练并以数据集的每 30,000 行间隔获取得分指标。 在生产服务器上，此代码将导致每 1 分钟进行批量预测：
+
+```py
+model_selection.progressive_val_score(
+ X_y=data,
+ model=model,
+ metric=metrics.RMSE(),
+ moment='moment',
+ delay=dt.timedelta(minutes=1),
+ print_every=30_000
+)
+```
+
+因此，`creme`凭借清晰的语法和调试功能，可以非常轻松地在生产中创建批量预测和在线学习部署。
+
+现在，我们将讨论另一个流行的工具 -- Airflow。
+
+# Airflow
+
+作为一名有效的 ML 练习者，您将需要以编程方式处理诸如上一个工作流之类的工作流，并且还必须能够使其自动化。 Airflow 为您提供了一个有效执行此操作的平台。 [此链接](https://airflow.apache.org)是摘自 Airflow 的官方网站。 Airflow 是一个用于以编程方式编写，安排和监视工作流的平台。
+
+这样做的主要优点是，**有向无环图**（**DAG**）上表示的任务可以轻松地分布在可用资源（通常称为工作器）上。 这也使可视化整个工作流变得更加容易，这非常有帮助，尤其是当工作流非常复杂时。 如果您需要复习 DAG，请访问[这个页面](https://cran.r-project.org/web/packages/ggdag/vignettes/intro-to-dags.html)中的文章。 当您很快看到此实现时，这将变得更加清晰。
+
+在设计 ML 工作流程时，您需要考虑许多不同的事物，例如：
+
+*   数据收集管道
+*   数据预处理管道
+*   使数据可用于 ML 模型
+*   ML 模型的训练和评估管道
+*   模型的部署
+*   监控模型以及其他内容
+
+现在，让我们继续执行以下行来安装 Airflow：
+
+```py
+pip install apache-airflow
+```
+
+尽管 Airflow 是基于 Python 的，但是绝对可以使用 Airflow 来定义为不同任务包含不同语言的工作流。
+
+安装完成后，您可以调用 Airflow 的管理面板并查看其上的 DAG 列表，以及对其进行管理并触发许多其他有用的功能，如下所示：
+
+1.  为此，您必须首先初始化数据库：
+
+```py
+airflow initdb
+```
+
+2.  您应该看到在`SQLite3`数据库上创建了许多表。 如果成功，您将能够使用以下命令启动 Web 服务器：
+
+```py
+airflow webserver
+```
+
+在浏览器中打开`http://localhost:8080`。 您将看到一个屏幕，如以下屏幕截图所示：
+
+![](img/5f932f02-915b-4c68-84fc-1b54864cb4fe.png)
+
+提出了许多示例 DAG。 您可以尝试运行它们以进行简短播放！
+
+现在让我们讨论一个非常流行的工具，称为 AutoML。
+
+# AutoML
+
+DL 或 AI 解决方案不仅限于在 Jupyter 笔记本中构建工业应用中的尖端精确模型。 形成 AI 解决方案需要几个步骤，首先是收集原始数据，将数据转换为可用于预测模型的格式，创建预测，围绕模型构建应用以及在生产中监视和更新模型。 AutoML 旨在通过自动化预部署任务来自动化此过程。 通常，AutoML 主要是关于数据编排和贝叶斯超参数优化。 AutoML 有时仅表示完全自动化的学习渠道。
+
+`H2O.ai`提供了一个可用于 AutoML 的著名库，称为`H2O.AutoML`。 要使用它，我们可以使用以下命令进行安装：
+
+```py
+# Using Conda installer
+conda install -c h2oai h2o
+
+# Using PIP installer
+pip install -f http://h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o
+```
+
+`H2O.AutoML`的语法与其他流行的 ML 库相似，因此非常易于理解。
+
+# 实现 DL Web 演示环境
+
+现在，我们将深入研究构建示例生产应用，该应用在后端使用在线学习。 我们将基于 Cleveland 数据集创建一个可以预测心脏病的应用。 然后，我们将将此模型部署到基于云容器的服务 Heroku。 最后，我们将演示该应用的在线学习功能。
+
+您可以通过[这里](https://heroku.com)来找到有关 Heroku 的更多信息。
+
+让我们列出我们将涉及的步骤：
+
+1.  在 Jupyter 笔记本上建立预测模型。
+2.  为 Web 应用构建一个可以预测保存的模型的后端。
+3.  为 Web 应用构建一个前端，该前端在模型上调用增量学习。
+4.  在服务器端逐步更新模型。
+5.  将应用部署到 Heroku。
+
+我们将从第零步开始； 也就是说，观察数据集。
+
+UCI 心脏病数据集包含 303 个样本，每个样本具有 76 个属性。 但是，有关数据集的大多数研究工作都集中在具有 13 个属性的克利夫兰数据集的简化版本上，如下所示：
+
+*   年龄
+*   性别
+*   胸痛类型：
+    *   典型的心绞痛
+    *   非典型心绞痛
+    *   非心绞痛
+    *   无症状
+*   静息血压
+*   血清胆固醇，mg/dl
+*   空腹血糖 >120 mg/dl
+*   静息心电图结果：
+    *   正常
+    *   患有 ST-T 波异常（T 波倒置和/或 ST 升高或降低 >0.05 mV）
+    *   根据 Estes 的标准显示的可能或确定的左心室肥大
+*   达到最大心率
+*   运动诱发的心绞痛
+*   Oldpeak：运动引起的相对于休息的 ST 抑制
+*   运动高峰的 ST 段的斜率
+*   荧光检查着色的主要血管数目（0-3）
+*   Thal：3：正常；6：固定缺陷；7：可逆缺陷
+
+最后会有一列，这是我们将要预测的目标。 这将使当前问题在正常患者和受影响患者之间进行分类。
+
+您可以在[这个页面](https://archive.ics.uci.edu/ml/datasets/Heart+Disease)上了解有关克利夫兰数据集的更多信息。
+
+现在让我们开始构建心脏病检测模型。
+
+# 建立预测模型
+
+在本小节中，我们将从使用 Keras 构建简单的神经网络开始，该网络将从给定的输入中分类患者患心脏病的可能性。
+
+# 步骤 1 – 导入必要的模块
+
+我们首先导入所需的库：
+
+```py
+import pandas as pd
+import numpy as np
+from sklearn.model_selection import train_test_split
+np.random.seed(5)
+```
+
+我们已经导入了`pandas`和`numpy`模块。 伴随着这些，我们从 scikit-learn 库中导入了`train_test_split`方法，以帮助我们将数据集快速分为训练和测试部分。
+
+# 步骤 2 – 加载数据集并观察
+
+让我们加载数据集，假设它存储在名为`data`的文件夹中，该文件夹与包含 Jupyter 笔记本的目录位于同一目录级别：
+
+```py
+df = pd.read_csv("data/heart.csv")
+```
+
+我们将快速观察`DataFrame`以查看是否所有列均已正确导入：
+
+```py
+df.head(5)
+```
+
+这将在 Jupyter 笔记本中产生以下输出：
+
+![](img/1f9f805b-e515-4714-9e23-d04c4b7fd49c.png)
+
+我们可以观察到这 14 列，并查看它们是否已正确导入。 基本的**探索性数据分析**（**EDA**）将显示该数据集不包含任何缺失值。 但是，原始的 UCI 克利夫兰数据集确实包含与我们使用的版本相反的缺失值，该版本已经过预处理，可以在互联网上以这种形式轻松获得。 [您可以在 GitHub 上本章的存储库中找到它的副本](http://tiny.cc/HoPforDL-Ch-11)。
+
+# 步骤 3 – 分离目标变量
+
+现在，我们将从数据集中拼接出目标变量，如下所示：
+
+```py
+X = df.drop("target",axis=1)
+y = df["target"]
+
+```
+
+接下来，我们将对特征进行缩放。
+
+# 步骤 4 – 对特征执行缩放
+
+正如您可能在上一步的数据集样本中观察到的，训练列中的值不在相同或可比较的范围内。 我们将在列上执行缩放以使它们达到统一的范围分布，如下所示：
+
+```py
+from sklearn.preprocessing import StandardScaler
+
+X = StandardScaler().fit_transform(X)
+```
+
+目标在`0`至`1`的范围内，因此不需要缩放。
+
+# 步骤 5 – 将数据集分为测试和训练数据集
+
+然后，使用下面的代码行将数据集分为训练和测试部分：
+
+```py
+X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.20,random_state=0)
+```
+
+我们已将 20% 的数据集分配给测试目的。
+
+# 步骤 6 – 在 sklearn 中创建神经网络对象
+
+接下来，我们通过实例化`MLPClassifier`对象的新对象来创建分类器模型的实例：
+
+```py
+from sklearn.neural_network import MLPClassifier
+
+clf = MLPClassifier(max_iter=200)
+```
+
+我们已将最大迭代次数设置为`200`。 如果收敛较早发生，则可能无法实现。
+
+# 步骤 7 – 执行训练
+
+最后，我们进行训练并注意观察到的方法的准确率：
+
+```py
+for i in range(len(X_train)):
+    xt = X_train[i].reshape(1, -1)
+    yt = y_train.values[[i]]
+    clf = clf.partial_fit(xt, yt, classes=[0,1])
+    if i > 0 and i % 25 == 0 or i == len(X_train) - 1:
+        score = clf.score(X_test, y_test)
+        print("Iters ", i, ": ", score)
+```
+
+Jupyter 笔记本中前面代码块的输出如下：
+
+![](img/83f2a674-113d-4694-ba19-9ba8dc7cc57c.png)
+
+我们可以看到，在对处理后的数据集中的所有 241 个样本进行训练之后，预期准确率将达到 83.60%。 注意前面代码块中的`partial_fit`方法。 这是模型的一种方法，可以将简单的样本拟合到模型中。 实际上，更常用的`fit`方法是`partial_fit`方法的包装器，迭代整个数据集并在每次迭代中训练一个样本。 它是我们使用 scikit-learn 库进行的增量学习演示的最有用的部分之一。
+
+为了快速查看模型提供输出的格式，我们运行以下代码块：
+
+```py
+# Positive Sample
+clf.predict(X_test[30].reshape(-1, 1).T)
+
+# Negative Sample
+clf.predict(X_test[0].reshape(-1, 1).T)
+```
+
+获得以下输出：
+
+![](img/7af1eb56-d3b4-4e26-a4fc-804077759dcd.png)
+
+注意，预测输出为`0`的样本表示该人没有心脏病，而输出为`1`的样本表示该人患有心脏病。
+
+现在，我们将开始将此 Jupyter 笔记本转换为可以按需执行增量学习的脚本。 但是，我们将首先构建该项目的前端，以便我们可以从后端了解需求。
+
+# 实现前端
+
+我们将在这里采用一种自下而上的方法，并首先设计示例应用的前端。 这样做只是为了理解为什么我们在后端脚本中编写一些方法与前面几章中的方法有所不同。 很明显，在开发实际应用时，首先要创建后端脚本。
+
+我们将有一个非常简化的前端，仅包括一个调用应用增量训练的按钮和一个占位符，用于显示在给定数量的样本下训练的模型的准确率得分。
+
+让我们快速浏览一下我们正在构建的内容：
+
+![](img/7e081a94-5c7d-4e85-a20a-e1576ec3cea9.png)
+
+您可能会从我们将要构建的应用的上述屏幕截图中解释，我们将有两个按钮-一个将训练数据集中的训练样本中的 25 个样本添加到部分训练的模型中，另一个将训练重置为 0 个样本（即， 实际上，在实现中使用 1 个样本，以避免由 0 引起的常见错误；但这对演示的影响很小。
+
+让我们创建一个名为`app`的 Flask 项目文件夹。 然后，我们创建`templates`文件夹并在其中创建`index.html`。 在`app`文件夹中创建另一个名为`app.py`的文件。 我们将在此文件夹中创建更多文件，以在 Heroku 上进行部署。
+
+我们不会编写`index.html`文件的完整代码，但是我们将看看通过 Ajax 触发器调用后端 API 的两个函数。
+
+您可以在[这个页面](http://tiny.cc/HoPforDL-Ch-11-index)中找到完整的代码。
+
+观察`index.html`中的`109`至`116`行：
+
+```py
+.... 
+$("#train-btn").click(function() {
+     $.ajax({
+         type: "POST",
+         url: "/train_batch",
+         dataType: "json",
+         success: function(data) {
+             console.log(data);
+....
+```
+
+前面的 JavaScript（jQuery）代码片段在具有`train-btn` ID 的按钮上创建了`click`处理器。 它在后端调用`/train_batch` API。 我们将在开发后端时创建此 API。
+
+此文件中另一个有趣的代码块是`138`至`145`行：
+
+```py
+....
+$("#reset-btn").click(function() {
+     $.ajax({
+         type: "POST",
+         url: "/reset",
+         dataType: "json",
+         success: function(data) {
+             console.log(data);
+....
+```
+
+在这里，我们在具有`reset-btn` ID 的按钮上设置了`click`处理器，以向`/reset` API 发出请求。 这是增量学习的一个容易被遗忘的方面，它要求减少训练。 也就是说，它将训练后的模型重置为未训练状态。
+
+现在，我们知道了需要在后端构建的 API。 让我们在下一部分中构建它们！
+
+# 实现后端
+
+在本节中，我们将创建所需的 API 以及用于演示的服务器脚本。 编辑项目根文件夹中的`app.py`文件：
+
+1.  首先，我们将对脚本进行一些必要的导入：
+
+```py
+from flask import Flask, request, jsonify, render_template
+
+import pandas as pd
+import numpy as np
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import StandardScaler
+from sklearn.neural_network import MLPClassifier
+
+np.random.seed(5)
+```
+
+请注意，此处的导入与我们在 Jupyter 笔记本中创建模型时进行的导入非常相似。 这是由于我们仅将 Jupyter 笔记本代码转换为用于后端演示的服务器脚本这一事实而解释的。
+
+2.  然后，我们将数据集加载到 pandas `DataFrame`上：
+
+```py
+df = pd.read_csv("data/heart.csv")
+```
+
+3.  我们将快速遍历其余代码，在其中拆分数据集，缩放列并在一定数量的样本上训练模型：
+
+```py
+X = df.drop("target",axis=1)
+y = df["target"]
+
+X = StandardScaler().fit_transform(X)
+X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.20,random_state=0)
+
+clf = MLPClassifier(max_iter=200)
+
+for i in range(100):
+    xt = X_train[i].reshape(1, -1)
+    yt = y_train.values[[i]]
+    clf = clf.partial_fit(xt, yt, classes=[0,1])
+    if i > 0 and i % 25 == 0 or i == len(X_train) - 1:
+        score = clf.score(X_test, y_test)
+        print("Iters ", i, ": ", score)
+```
+
+注意，在前面的代码中，我们在数据集中的`100`样本上训练模型。 这将使模型相当准确，但显然还有改进的余地，我们将使用`/train_batch` API 触发该改进，该 API 将为模型训练增加 25 个样本。
+
+4.  让我们设置一些变量来使用脚本，以及实例化`Flask`服务器对象：
+
+```py
+score = clf.score(X_test, y_test)
+
+app = Flask(__name__)
+
+start_at = 100
+```
+
+5.  现在，我们将创建`/train_batch` API，如下所示：
+
+```py
+@app.route('/train_batch', methods=['GET', 'POST'])
+def train_batch():
+    global start_at, clf, X_train, y_train, X_test, y_test, score
+    for i in range(start_at, min(start_at+25, len(X_train))):
+        xt = X_train[i].reshape(1, -1)
+        yt = y_train.values[[i]]
+        clf = clf.partial_fit(xt, yt, classes=[0,1])
+
+    score = clf.score(X_test, y_test)
+
+    start_at += 25
+
+    response = {'result': float(round(score, 5)), 'remaining': len(X_train) - start_at}
+
+    return jsonify(response)
+```
+
+`train_batch()`函数通过`25`样本或数据集的其余样本来增加对模型的学习。 它返回数据集 20% 测试分割上模型的当前分数。 再次注意用于 25 次迭代的`partial_fit`方法的用法。
+
+6.  接下来，我们将创建`/reset` API，它将模型重置为未训练状态：
+
+```py
+@app.route('/reset', methods=['GET', 'POST'])
+def reset():
+    global start_at, clf, X_train, y_train, X_test, y_test, score
+    start_at = 0
+    del clf
+    clf = MLPClassifier(max_iter=200)
+    for i in range(start_at, start_at+1):
+        xt = X_train[i].reshape(1, -1)
+        yt = y_train.values[[i]]
+        clf = clf.partial_fit(xt, yt, classes=[0,1])
+
+    score = clf.score(X_test, y_test)
+
+    start_at += 1
+
+    response = {'result': float(round(score, 5)), 'remaining': len(X_train) - start_at}
+
+    return jsonify(response)
+```
+
+该 API 再次返回重置后的模型得分。 假设数据集在其类别中是平衡的，这应该是预期的（非常差）。
+
+7.  现在让我们编写代码来启动此应用的 Flask 服务器：
+
+```py
+@app.route('/')
+def index():
+    global score, X_train
+    rem = (len(X_train) - start_at) > 0
+
+    return render_template("index.html", score=round(score, 5), remain = rem)
+
+if __name__ == '__main__':
+    app.run()
+```
+
+8.  完成此操作后，我们准备通过从控制台运行该应用来测试该应用是否正常运行。 为此，请打开一个新的终端窗口，然后在`app`目录中输入以下命令：
+
+```py
+python app.py
+```
+
+服务器运行后，您可以在`http://localhost:5000`上查看应用。
+
+最后，我们将项目部署到 Heroku。
+
+# 将项目部署到 Heroku
+
+在本节中，我们将研究如何将演示应用部署到 Heroku。 在以下步骤中，我们将在 Heroku 上创建一个帐户，并将所需的修改添加到代码中，从而使其有资格在平台上托管：
+
+1.  首先，访问[这里](https://id.heroku.com/login)以获取 Heroku 的登录屏幕。 如果您还没有用户帐户，则可以完成注册过程以免费创建一个：
+
+![](img/ec63d54a-25e8-40aa-bd4c-c8b071847486.png)
+
+2.  现在，我们将创建一个`Procfile`文件。 在此步骤中，我们在`app`目录中创建一个名为`Procfile`的空白文件。 创建完成后，我们向其添加以下行：
+
+```py
+web: gunicorn app:app
+```
+
+该文件在将项目部署到 Heroku 的过程中使用。 上一行指示 Heroku 系统使用`gunicorn`服务器并运行名为`app.py`的文件。
+
+3.  然后，我们冻结项目的需求。 Heroku 寻找`requirements.txt`文件来自动下载并安装项目所需的包。 要创建需求列表，请在终端中使用以下命令：
+
+```py
+pip freeze > requirements.txt
+```
+
+这将在项目的根文件夹中名为`requirements.txt`的文件中创建包列表。
+
+您可能要保留一些包，使其不包含在`requirements.txt`文件中。 处理此类项目的一个好方法是使用虚拟环境，以便环境中仅提供所需的包，因此`requirements.txt`仅包含它们。 但是，此解决方案可能并不总是可行的。 在这种情况下，请随时手动编辑`requirements.txt`并删除包含与项目无关的包的行。
+
+该项目的目录结构当前应如下所示：
+
+```py
+app/
+---- templates/
+-------- index.html
+---- Procfile
+---- requirements.txt
+---- app.py
+```
+
+4.  现在，我们需要在本地系统上安装 Heroku CLI。 按照[这里](https://devcenter.heroku.com/articles/heroku-cli)提供的说明在系统上安装 Heroku。
+5.  接下来，我们将在目录上初始化`git`。 为此，请在项目的根目录中使用以下命令：
+
+```py
+git init
+```
+
+6.  然后，我们在项目上初始化 Heroku 版本管理。 我们打开一个终端窗口，然后导航到项目目录。 使用以下命令初始化 Heroku 为该项目提供的版本管理器，并将其注册到您当前登录的用户中：
+
+```py
+heroku create
+```
+
+该命令将通过显示将承载您的项目的 URL 结束。 随之显示`.git` URL，该 URL 用于跟踪项目的版本。 您可以从此`.git` URL 推/拉，以更改项目并触发重新部署。 输出将类似于以下内容：
+
+```py
+https://yyyyyy-xxxxxx-ddddd.herokuapp.com/ | https://git.heroku.com/yyyyyy-xxxxxx-ddddd.git
+```
+
+7.  接下来，我们将文件添加到`git`并推送到 Heroku。 现在您可以将文件推送到 Heroku `git`项目进行部署。 我们使用以下命令：
+
+```py
+git add .
+git commit -m "some commit message"
+git push heroku master
+```
+
+这将创建部署，您将看到很长的输出流。 流是项目部署期间发生的事件的日志，包括安装包，确定运行时以及启动监听脚本。 获得成功的部署消息后​​，您将能够在上一步中的 Heroku 提供的 URL 上查看您的应用。 如果您不记得它，可以使用以下命令来触发它从终端在浏览器中打开：
+
+```py
+heroku open
+```
+
+现在，您应该在默认浏览器中看到带有已部署代码的新窗口或选项卡打开。 如果发生任何问题，您将能够在 Heroku 仪表板中看到部署日志，如下所示：
+
+![](img/11361907-2e81-41e5-ab97-90f7bd2cf2cf.png)
+
+这是在部署本章中介绍的代码时来自失败构建的实际屏幕截图。 您应该能够在日志末尾找出错误。
+
+如果构建成功部署，您将在日志末尾看到成功部署消息。
+
+# 安全措施，监控技术和表现优化
+
+在本节中，我们将讨论可以集成到生产中的 DL 解决方案中的安全措施，监视技术和表现优化。 这些功能对于维护依赖于 AI 后端的解决方案至关重要。 虽然我们在前面的章节中讨论了 DL 所促进的安全方法，但我们将讨论可能对 AI 后端造成的安全威胁。
+
+对 AI 后端的最大安全威胁之一是来自嘈杂的数据。 在生产中使用 AI 的大多数方法中，定期检查训练数据集中是否有新类型的噪声非常重要。
+
+对于所有喜欢 Python `pickle`库的开发人员来说，这是一条非常重要的信息：
+
+![](img/c8e91eed-3467-461c-8b35-17eaee574e35.png)
+
+上面的屏幕截图来自[官方 Python 文档](https://docs.python.org/3/library/pickle.html) 。
+
+为了演示一个简单的示例，说明为什么在生产中进行酸洗可能会很危险，请考虑以下 Python 代码：
+
+```py
+data = """cos
+    system
+    (S'rm -ri ~'
+    tR.
+"""
+
+pickle.loads(data)
+```
+
+前面的代码所做的很简单-它试图清除您的主目录。
+
+警告：任何运行上述代码的人应对其操作结果承担全部责任。
+
+前面的示例和相关警告暗示了 AI 后端和几乎每个自动化系统中的一般安全威胁-不可信输入的危害。 因此，重要的是要正确验证可能在模型中输入的任何数据（无论是在训练还是测试中），以确保不会对系统造成任何严重问题。
+
+对生产中的模型进行连续监视也很重要。 模型通常会过时和过时，并且冒着过一会儿做出过时的预测的风险。 重要的是要检查 AI 模型所做的预测的相关性。 考虑一个只了解 CD-ROM 和软盘的人。 随着时间的流逝，我们想到了 USB 驱动器和固态磁盘。 此人将无法对最近的设备做出任何明智的决定。 同样，从 2000 年代初开始针对​​文本转储训练的**自然语言处理**（**NLP**）模型将无法理解有人问`Can you please WhatsApp me the wiki link for Avengers: Endgame?`的对话。
+
+最后，您如何才能对 AI 后端的表现进行优化？
+
+Web 开发人员最关心这个问题。 生产中的所有东西都必须快如闪电。 加快生产中 AI 模型速度的一些技巧如下：
+
+*   将数据集分解为可以进行准确预测的最少数量的特征。 这是由几种算法（例如主成分分析和其他启发式方法）执行的特征选择的核心思想。 通常，并非所有输入到系统中的数据都是相关的，或者仅是稍微相关的，才能基于该数据进行预测。
+*   考虑将模型托管在启用了自动缩放功能的单独的功能强大的云服务器上。 这将确保您的模型不会在为网站的页面提供服务时浪费资源，而只会处理基于 AI 的查询。 自动缩放将解决后端工作负载突然增加或急剧减少的问题。
+*   在线学习和自动 ML 方法受数据集大小的影响而变得缓慢。 确保您有适当的约束条件，不允许动态学习系统搅动的数据量爆炸。
+
+# 总结
+
+在本章中，我们介绍了可用于在生产中部署 DL 模型的方法。 我们详细研究了不同的方法以及一些著名的工具，这些工具有助于简化在此处的生产部署和模型管理。 我们介绍了使用 Flask 和`sklearn`库进行在线学习的示例。 我们还讨论了部署后的条件以及一些最常见任务的示例。
+
+在下一章中，我们将使用集成到网站中的 Dialogflow 演示端到端示例应用（客户支持聊天机器人）。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/12.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/12.md
new file mode 100644
index 00000000..6b5bf519
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/12.md
@@ -0,0 +1,744 @@
+# 十二、使用 DL API 和客户支持聊天机器人创建 E2E Web 应用
+
+在本章中，我们将汇总在本书前几章中已学会使用的几种工具和方法，并介绍一些出色的新工具和技术。 本章涵盖企业的一个非常重要的方面-客户支持。 对于一家新兴企业，客户支持会不断精疲力竭，难以跟上。 通常，通过参考文档或公司在其网站上提供的一组常见问题解答，可以轻松回答客户提出的问题，但是客户通常不会仔细阅读它们。 因此，最好有一个自动化层，其中最常见的查询将由一个聊天机器人来回答，该聊天机器人在一天中始终可用并且响应迅速。
+
+本章讨论如何使用 Dialogflow 创建聊天机器人来解决一般的客户支持查询，以及如何将其集成到基于 Django 的网站中。 此外，聊天机器人还将从将单独托管的 Django API 中获得答案。 我们将探索实现机器人个性的方法，并介绍一种实现**文本到语音**（**TTS**）和**语音到文本**（STT）的用户界面。通过 Web 语音 API，该接口将神经网络直接部署到用户的浏览器。
+
+我们将在本章介绍以下主题：
+
+*   NLP 简介
+*   聊天机器人简介
+
+*   创建具有客户支持代表个性的 Dialogflow 机器人
+*   使用 ngrok 促进本地主机上的 HTTPS API
+*   使用 Django 创建测试 UI 来管理公司内的订单
+*   使用 Web Speech API 在网页上进行语音识别和语音合成
+
+我们将从先前各章中学到的知识中汲取见识，并在此基础上加以借鉴，同时修改一些概念并在此过程中引入新的概念。 让我们从理解**自然语言处理**（**NLP**）开始。
+
+# 技术要求
+
+您可以在[这个页面](https://github.com/PacktPublishing/Hands-On-Python-Deep-Learning-for-Web/tree/master/Chapter12)上访问本章的代码。
+
+您需要以下软件来运行本章中使用的代码：
+
+*   Python 3.6+
+*   Django 2.x
+
+本章将介绍所有其他安装。
+
+# NLP 简介
+
+NLP 是机器学习和深度学习应用中最受欢迎的也是最令人兴奋的领域之一，它是指为理解和生成人类语言而开发的一系列技术和方法。 NLP 的目标始于理解人类语言文本的含义，并扩展到生成人类语言，从而使生成的句子有意义并且对阅读该文本的人类有意义。 NLP 已在构建系统中找到了主要用途，该系统能够以自然语言的形式直接从人类接收指令和请求，例如聊天机器人。 但是，聊天机器人还需要以自然语言进行响应，这是 NLP 的另一个方面。
+
+让我们研究一些与 NLP 相关的常用术语。
+
+# 语料库
+
+在学习 NLP 时，您经常会遇到**语料库**。 用外行的术语来说，语料库是任何一位作者或文学体裁的著作的集合。 在 NLP 的研究中，对语料库的词典定义进行了一些修改，可以表示为书面文本文档的集合，以便可以通过任何选择的度量将它们全部归类。 这些指标可能是作者，出版者，类型，写作类型，时间范围以及与书面文本相关的其他特征。
+
+例如，莎士比亚作品集或任何论坛上针对任何给定主题的话题都可以被视为语料库。
+
+# 词性
+
+当我们将一个句子分解成其组成词，并对该句子中每个词对句子整体含义的贡献进行定性分析时，我们执行确定词性的动作。 因此，词性是基于句子中单词对句子含义的贡献而提供给它们的符号。
+
+在英语中，我们通常有八种类型的词性-动词，名词，代词，形容词，副词，介词，连接词和感叹词。
+
+例如，在句子`Ram is reading a book.`中，`Ram`是名词和主语，`reading`是单词和动作，而`book`是名词和宾语。
+
+您可以在[这个页面](http://partofspeech.org/)上阅读有关词性的更多信息。 您可以尝试在[这个页面](https://linguakit.com/en/part-of-speech-tagging)上找出自己句子的词性。
+
+# 分词
+
+分词是将文档分解为句子并将句子分解为单词的过程。 这很重要，因为如果任何计算机程序都试图将整个文档作为单个字符串处理，这将是计算上的噩梦，因为与处理字符串相关的资源密集型。
+
+此外，非常罕见的是，需要一次阅读所有句子才能理解整个文档的含义。 通常，每个句子都有自己独立的含义，可以通过统计方法将其与文档中的其他句子同化，以确定任何文档的整体含义和内容。
+
+同样，我们经常需要将句子分解为单词，以便更好地处理句子，以便可以概括句子的含义并从其中每个单词单独列出的字典中导出。
+
+# 词干提取和词形还原
+
+在 NLP 中，词干提取和词形还原是紧密相关的术语，但有细微但显着的差异。 两种方法的目的都是确定任何给定单词所源自的词根，以便该词根的任何派生词都可以与字典中的词根匹配。
+
+词干提取是一个基于规则的过程，在该过程中，单词会被修剪，有时还会附加指示其词根的修饰符。 但是，词干提取有时可能会产生人类词典中不存在的词根，因此对人类读者毫无意义。
+
+词形还原是将单词转换为词典中给出的词形或词根的过程。 因此，单词的最初含义可以从人类词典中获得，使词形还原的文本比词干提取的文本更易于使用。 此外，词形还原在确定其正确的词性之前考虑了词在任何给定句子中的词性，词干提取算法会忽略该词性。 使得词形还原比词干提取更具有上下文感知能力。
+
+# 词袋
+
+计算机不可能直接处理和使用文本。 因此，在将所有文本输入机器学习模型之前，必须将其转换为数字。 将文本更改为数字数组的过程，以便可以在任何时间点从转换后的文本中检索最重要的原始文本，这称为特征提取或编码。 **词袋**（**BoW**）是一种流行的简单技术，用于对文本执行特征提取。
+
+与 BoW 实现相关的步骤如下：
+
+1.  从文档中提取所有唯一的单词。
+2.  用文档中所有唯一的单词创建一个向量。
+3.  根据单词向量中是否存在任何单词，将每个文档转换为布尔数组。
+
+例如，考虑以下三个文档：
+
+1.  `Ram is a boy.`
+2.  `Ram is a good boy.`
+3.  `Ram is not a girl.`
+
+这些文档中存在的唯一词可以在向量中列出为`["Ram"，"is"，"a"，"boy"，"good"，"not"，"girl"]`。
+
+因此，每个句子可以按如下方式转换：
+
+1.  `[1, 1, 1, 1, 0, 0, 0]`
+2.  `[1, 1, 1, 1, 1, 0, 0]`
+3.  `[1, 1, 1, 0, 0, 1, 1]`
+
+您将观察到 BoW 往往会丢失有关每个单词出现在句子中的位置或其对句子有什么意义的信息。 因此，BoW 是一种非常基本的特征提取方法，可能不适用于需要上下文感知的多个应用。
+
+# 相似度
+
+相似度是任何两个给定句子的相似度的量度。 它在计算机科学领域以及维护记录的任何地方都是非常流行的操作，用于搜索正确的文档，在任何文档中搜索单词，认证和其他应用。
+
+有两种方法可以计算两个给定文档之间的相似度。 Jaccard 索引是最基本的形式之一，它根据两个文档中相同令牌总数占文档中唯一令牌总数的百分比来计算两个文档的相似性。
+
+余弦相似度是另一个非常流行的相似度指数，通过使用 BoW 或任何其他特征提取技术将两个文档的向量转换为向量后形成的余弦来计算。
+
+考虑到这些概念，让我们继续研究聊天机器人，这是 NLP 最受欢迎的应用形式之一。
+
+# 聊天机器人简介
+
+聊天机器人是 NLP 应用的一部分，专门处理会话接口。 这些界面还可以扩展其工作以处理基本的命令和动作，在这些情况下，它们被称为基于语音的虚拟助手。 最近，随着专用设备（如 Google 的 Google Home 和 Alexa）的推出，基于语音的虚拟助手正在兴起。
+
+聊天机器人可以以多种形式存在。 他们并不需要仅以虚拟助手的身份出现。 您可以在游戏中与聊天机器人对话，尝试在特定方向绘制故事剧情，也可以与一些公司用来在社交媒体平台（例如 Twitter 或 Facebook）上回复其客户的社交聊天机器人进行交互。 聊天机器人可以看作是在**交互式语音响应**（**IVR**）系统上移动的系统，它们具有增强的智能和对未知输入的响应能力，有时仅使用回退响应，有时甚至利用提供的输入进行响应。
+
+虚拟助手也可以存在于网站上，为访问者提供指导和帮助。 诸如此类的助手经常在网站上找到，主要是为消费者查询提供即时支持。 您一定已经注意到几个销售产品或服务的网站上的“问问题”或“可以帮助您”聊天框，通常在屏幕的右下角。 他们经常使用自动聊天机器人代替真实的人来回答查询。 仅在查询过于复杂而无法由自动客户支持聊天机器人回答的情况下，查询才会转移到真实的人。
+
+创建对话式 UI 本身就是一门艺术。 您需要能够使用清晰但对口语很自然的单词。 您可以通过[这里](https://designguidelines.withgoogle.com/conversation/)了解有关创建对话式用户界面的更多信息。
+
+在下一部分中，我们将创建一个充当客户支持智能体的聊天机器人。
+
+# 创建具有客户支持代表个性的 Dialogflow 机器人
+
+Dialogflow 是用于创建聊天机器人的非常流行的工具。 类似于 Wit.ai，Botpress，Microsoft Bot Framework 和其他一些可用于创建聊天机器人的即时部署服务，Dialogflow 还具有与 **Google Cloud Platform**（**GCP**），并可以将 Dialogflow 智能体用作 Google 助手的操作，该助手可在数十亿个 Android 设备上本地运行。
+
+Dialogflow 以前称为 Api.ai。 在被 Google 收购之后，它被重命名，并且自那时以来，它的受欢迎程度和可扩展性都在增长。 该平台可以非常轻松地与多个平台集成，例如 Facebook Messenger，Telegram，Slack，Line，Viber 和其他几个主要的通信平台。
+
+我们将在本章中开发的项目将遵循以下架构图：
+
+![](img/a41d094b-e97b-407c-917d-75e3604a9f83.png)
+
+我们将使用上图中未提及的几个库和服务。 我们将在项目过程中介绍它们，并讨论为什么对我们了解它们很有趣。
+
+# Dialogflow 入门
+
+要开始使用 Dialogflow，您应该访问[官方网站](https://dialogflow.com)，进入首页，该页面显示了产品信息和文档链接。 研究您要学习的任何产品或服务的文档始终是一个好主意，因为它包含软件的全部工作和功能。 我们将在本章的后续部分中参考文档中的部分。
+
+您可以在[这个页面](https://cloud.google.com/dialogflow/docs/)上找到 Dialogflow 文档。
+
+Dialogflow 与 GCP 紧密集成，因此我们必须首先创建一个 Google 帐户。 为此，请转到[这里](https://account.google.com)创建一个帐户。 如果您是第一次使用 Dialogflow 使用您的帐户，则可能需要为您的 Google 帐户提供许多权限。
+
+让我们继续进行探索和了解 Dialogflow 帐户创建过程以及 UI 各个部分的步骤。
+
+# 步骤 1 – 打开 Dialogflow 控制台
+
+您需要单击[页面右上角](https://dialogflow.com)的“转到控制台”按钮。 或者，您可以在浏览器中输入`https://dialogflow.cloud.google.com/`。 如果您是初次使用，您将看到如下屏幕：
+
+![](img/3f63c63f-055e-418d-ab6b-1584c6ee3e17.png)
+
+仪表板会提示您创建一个新智能体。
+
+# 第 2 步 - 创建新智能体
+
+现在，我们将创建一个 Dialogflow 智能体。 就 Dialogflow 而言，智能体是聊天机器人的别称。 它是接收，处理和响应用户提供的所有输入的智能体。
+
+单击“创建智能体”按钮，然后根据您的喜好填写有关智能体的必要信息，其中包括智能体的名称，默认语言，时区和 Google 项目名称。
+
+如果您在此步骤之前没有使用过 GCP，则必须创建一个项目。 我们已经在 “第 6 章”，“使用 Python 在 Google Cloud Platform 上进行深度学习”中，讨论了 GCP 项目的创建。 或者，您可以简单地让 GCP 在创建智能体时自动为您创建一个新项目。
+
+# 步骤 3 – 了解仪表板
+
+成功创建 Dialogflow 智能体后，将为您提供一个仪表板，如以下屏幕截图所示：
+
+![](img/9dc140c8-5a57-428c-8d95-fe121fb43532.png)
+
+在左侧，您可以看到一个菜单，其中包含构成聊天机器人的各种组件。 该菜单将非常有用，您应该仔细阅读其所有内容，以确保您了解菜单项中我们所指的内容。 当我们使用诸如“单击实体”之类的句子时，是指我们希望您单击此菜单中的“实体”项。
+
+中心部分将包含不同的内容，具体取决于单击菜单中的哪个组件。 默认情况下，当您打开 Dialogflow 控制台时，它包含聊天机器人的意图列表。 目的是什么？
+
+意图是用户希望通过对聊天机器人的任何说话来执行的动作。 例如，当用户说`Bring me a cup of coffee`时，他们的意图是让聊天机器人“喝咖啡”：
+
+![](img/b455813e-a6a5-486d-af4d-83efcfcd4c80.png)
+
+在最右边，提供了一个面板来随时测试聊天机器人。 您可以编写任何想要用来测试聊天机器人的响应的输入文本，并且会向您显示一系列信息以及聊天机器人产生的响应。
+
+考虑以下测试输入和响应：
+
+![](img/1c8a88f2-9d9a-4fbf-92cd-6ed636277b4e.png)
+
+当用户输入`What is my order status`时，聊天机器人将答复，询问所涉及订单的订单 ID。 这与`CheckOrderStatus`意图匹配，并且需要名为`OrderId`的参数。 在开发过程中，我们将在整个项目中定期使用此控制台来调试聊天机器人。
+
+虽然在先前的屏幕截图中，我们已经为您显示了一个带有意图的预配置智能体，但是您新创建的智能体此时将没有任何自定义意图。 让我们创建它们！
+
+# 步骤 4 – 建立意图
+
+现在，让我们创建两个意图。 一种意图将为用户提供帮助，另一种意图将对用户提供的订单 ID 的状态进行检查。
+
+# 步骤 4.1 – 创建`HelpIntent`
+
+在此子步骤中，单击左侧菜单中“意图”项目右侧的`+`按钮。 您将看到一个空白的意向创建表单。
+
+您可以在意向创建表单中看到以下标题：
+
+![](img/e229400a-7d81-4313-80b8-0ed1a34a5b3f.png)
+
+为此，在[Intent Name]中填写`HelpIntent`。
+
+现在，按照以下步骤完成此意图创建。
+
+**步骤 4.1.1 – 输入`HelpIntent`的训练短语**
+
+现在，我们需要定义可能调用此行动意图的短语。 为此，请单击“训练短语”标题并输入一些样本训练短语，如下所示：
+
+![](img/7dfccd76-fb68-4aae-8911-22af5e77a48c.png)
+
+对意图进行任何更改时，请确保单击“保存”。
+
+**步骤 4.1.2 – 添加响应**
+
+为了以这种意图响应用户查询，我们需要定义可能的响应。 单击“意图创建”表单中的“响应”标题，然后向查询中添加示例响应，如下所示：
+
+![](img/64a15276-092b-46b6-9c1e-7a2cf89d5d7b.png)
+
+保存意图。 一旦完成构建，我们就可以通过输入类似于我们为此目的定义的训练短语的输入来测试聊天机器人。
+
+**步骤 4.1.3 – 测试意图**
+
+让我们测试`HelpIntent`。 在右侧测试面板中，输入`Can you help me?`。 智能体产生以下响应：
+
+![](img/5addae4f-c070-4f96-83f6-b2e65a6bf5e9.png)
+
+请注意上述屏幕截图底部的匹配意图。 由于`HelpIntent`已成功匹配输入，训练短语中未明确定义该输入，因此我们可以得出结论，该智能体运作良好。
+
+为什么业务代表响应尚未接受过训练的输入很重要？ 这是因为在针对特定意图测试座席时，我们希望确保与该训练短语完全或紧密匹配的所有言语都与该意图匹配。 如果它与期望的目的没有紧密相关的查询，则需要提供更多的训练短语，并检查座席的其他任何目的中是否有任何冲突的训练。
+
+现在，我们有一个意图告诉用户该聊天机器人可以做什么—即检查订单状态—现在创建一个可以实际检查订单状态的意图。
+
+# 步骤 4.2 – 创建`CheckOrderStatus`意图
+
+单击“创建意图”按钮，然后将意图的名称输入为`CheckOrderStatus`。
+
+**步骤 4.2.1 – 输入`CheckOrderStatus`意图的训练短语**
+
+为此，我们输入以下训练短语：
+
+1.  `What is the status for order id 12345?`
+2.  `When will my product arrive?`
+3.  `What has happened to my order?`
+4.  `When will my order arrive?`
+5.  `What's my order status?`
+
+请注意，第一个训练短语与其他短语不同，因为它包含一个订单 ID。
+
+我们需要能够将其标识为订单 ID，并使用它来获取订单状态。
+
+**步骤 4.2.2 – 从输入中提取并保存订单 ID**
+
+在`CheckOrderStatus`目的的第一个训练短语中，双击 12345 并弹出一个菜单，如下所示：
+
+![](img/c98bee73-f7c7-4615-b3dc-d54da04384c7.png)
+
+选择`@sys.number`，然后将参数名称输入为`OrderId`。 您的训练短语如下所示：
+
+![](img/76dcff96-1ac6-4b4d-a3f9-465c3f178ff2.png)
+
+但是有时，就像其余的训练短语一样，用户不会在没有提示的情况下提及订单 ID。 让我们添加一个提示以及一种在找到订单 ID 时将其存储的方法。
+
+**步骤 4.2.3 – 存储参数并提示是否找到**
+
+向下滚动到意图创建表单中的“动作和参数”标题。 输入`OrderId`作为参数名称和值，然后选中需要的复选框。 以下屏幕截图应类似于您当前屏幕上的屏幕截图：
+
+![](img/b57ad591-d3d9-41d2-927b-357920901174.png)
+
+在`OrderId`参数的右侧，单击“定义提示”以添加此参数的提示。 示例提示可能是`Sure, could you please let me know the Order ID? It looks like 12345!`。
+
+我们希望在出现此提示后，用户一定会说出订单 ID，然后该 ID 将与该意图的第一个训练短语匹配。
+
+此后，我们需要为此目的定义响应。
+
+**步骤 4.2.4 – 通过履行`CheckOrderStatus`意向打开响应**
+
+请记住，此意图需要从获得的订单 ID 中获取订单状态。 在这种情况下，恒定的响应集将无法达到目的。 因此，我们将在意图创建表单中使用“实现”标题。
+
+向下滚动并为此目的启用实现方法 Webhook。 现在，此部分应如下所示：
+
+![](img/9c9f4952-6bd9-4355-82d6-947bb003c29a.png)
+
+完全填充使您的 Dialogflow 智能体可以查询外部 API，以生成该智能体必须做出的响应。 与智能体接收到的查询相关联的元数据被发送到外部 API，该 API 然后了解并决定需要给出查询的响应。 这对于通过聊天机器人进行动态响应很有用。
+
+现在，我们必须定义此 webhook 来使用订单 ID 处理订单状态的获取。
+
+# 步骤 5 – 创建一个 webhook
+
+现在，我们将创建一个 Webhook，该 Webhook 将在 Firebase 云控制台上运行并调用一个外部 API，该 API 位于我们的订单管理门户中。
+
+单击菜单栏中的“实现项目”。 系统会为您提供打开 Webhook 或使用 Firebase Cloud Functions 的选项。 打开内联编辑器。 您的屏幕将类似于以下屏幕截图：
+
+![](img/a462f840-72e8-4bd3-adda-859232692693.png)
+
+我们将自定义内联编辑器中存在的两个文件。
+
+# 第 6 步 – 创建 Firebase Cloud Functions
+
+Firebase Cloud Functions 在 Firebase 平台上运行，并按您在创建 Dialogflow 智能体期间选择或创建的 GCP 项目的规定计费。 您可以在[这个页面](https://dialogflow.com/docs/how-tos/getting-started-fulfillment)上了解有关 Cloud Functions 的更多信息。
+
+# 步骤 6.1 – 将所需的包添加到`package.json`
+
+在内联编辑器的`package.json`文件中，我们将`request`和`request-promise-native`包添加到依赖项中，如下所示：
+
+```py
+"dependencies": {
+    "actions-on-google": "^2.2.0",
+    "firebase-admin": "^5.13.1",
+    "firebase-functions": "^2.0.2",
+    "dialogflow": "^0.6.0",
+    "dialogflow-fulfillment": "^0.5.0",
+    "request": "*",
+    "request-promise-native": "*"
+  }
+```
+
+这些包将在构建智能体的过程中自动获取，因此您无需显式执行任何命令来安装它们。
+
+# 步骤 6.2 – 向`index.js`添加逻辑
+
+我们将添加调用订单管理系统 API 所需的代码。 在`dialogflowFirebaseFulfillment`对象定义内添加以下函数：
+
+```py
+function checkOrderStatus(){
+    const request = require('request-promise-native');
+    var orderId = agent.parameters.OrderId;
+    var url = "https://example.com/api/checkOrderStatus/"+orderId;
+    return request.get(url)
+        .then(jsonBody => {
+            var body = JSON.parse(jsonBody);
+            agent.add("Your order is: " + body.order[0].order_status);
+            return Promise.resolve(agent);
+        })
+        .catch(err => {
+            agent.add('Unable to get result');
+            return Promise.resolve(agent);
+        });
+  }
+```
+
+在文件末尾，就在结束`dialogflowFirebaseFulfillment`对象定义之前，在调用 webhook 调用以生成响应之前，将先前创建的函数的映射添加到 Dialogflow 智能体中匹配的意图。
+
+```py
+  let intentMap = new Map();
+  intentMap.set('Default Welcome Intent', welcome);
+  intentMap.set('Default Fallback Intent', fallback);
+  intentMap.set('CheckOrderStatus', checkOrderStatus);
+  agent.handleRequest(intentMap);
+```
+
+现在，单击“部署”以部署此函数。 您将在屏幕的右下角收到有关部署状态的通知。 等待部署并完成构建。
+
+# 第 7 步 – 向机器人添加个性
+
+为机器人添加个性，更多地是关于如何选择响应方式以及如何通过智能体中的响应和提示推动对话。
+
+例如，尽管在上一个示例中我们选择了一个非常标准的对用户输入的响应，但是通过在响应中使用真实的语言或其他装饰元素，我们肯定可以使它更加有趣。 如果我们不是直接显示响应获取 API 的输出，而是添加了会话修饰符（例如`Great, now let me see where your order is...`），并且在将响应获取和加载到智能体过程中，使 Fulfillment 函数生成了会话填充符，这将显得非常现实。 作为`almost there...`，`just getting there...`，`hmmm, let me see...`和其他填充剂，取决于情况的要求。
+
+您还可以使用 Dialogflow 的 Small Talk 模块为聊天机器人设置一些有趣的琐事。 要使用它，请单击左侧的“闲聊”菜单项并启用闲聊。 您可以添加一些有趣的响应，让您的机器人在遇到特定查询时会做出如下所示：
+
+![](img/175d0651-9d60-46d8-9d33-70fc6f938486.png)
+
+闲聊对于在聊天机器人中添加非常独特的个性非常有用！
+
+在下一步中，我们将创建一个 UI，以直接从订单管理网站与此聊天机器人进行交互。 但是，由于我们谈论的是基于 REST API 的接口，因此我们很可能将这个 UI 与为订单管理系统创建的 API 分开托管。
+
+此云函数调用您将需要创建的 HTTPS API。 在下一节中，我们将学习如何创建一个可以在本地计算机上处​​理 HTTPS 请求的 API。
+
+# 使用 ngrok 改进本地主机上的 HTTPS API
+
+您将需要创建自己的订单管理系统 API 才能使 Cloud Functions 脚本正常工作，以便它可以从 API 中获取订单状态。 您可以在[这个页面](http://tiny.cc/omsapi)中找到快速样本。 您的 API 必须在 HTTPS URL 上运行。 为此，您可以使用 PythonAnywhere 和 ngrok 之类的服务。 尽管 PythonAnywhere 将代码托管在其服务器上并提供固定的 URL，但是 ngrok 可以安装并在本地运行以向`localhost`提供转发地址。
+
+假设您必须在系统的端口`8000`上为订单管理 API 运行 Django 项目，并且现在希望提供 HTTPS URL 以便进行测试； 您可以按照以下步骤使用 ngrok 轻松做到这一点：
+
+1.  下载 ngrok 工具。
+
+首先，转到[这里](https://ngrok.com)，然后单击顶部导航菜单中的“下载”按钮。 根据需要选择正确的工具版本，并将其下载到系统中。
+
+2.  创建一个帐户。
+
+接下来，在网站上注册一个帐户，然后转到仪表板。 您可以使用 GitHub 或 Google 认证来快速设置您的帐户。
+
+您将看到以下仪表板：
+
+![](img/e6d34b11-f143-43a2-bc9b-834b34f9dabc.png)
+
+由于您已经下载并安装了该工具，因此可以直接跳至连接您的帐户。
+
+3.  将您的 ngrok 帐户与您的工具关联。
+
+复制 ngrok 仪表板在*连接帐户*部分下给出的命令-它包含您帐户的 authtoken，并在运行时将系统上的 ngrok 工具连接到网站上的 ngrok 帐户。
+
+然后，我们准备移至`localhost`端口。
+
+4.  设置 ngrok 地址以转发到`localhost`。
+
+最后，使用以下命令开始将对随机生成的 ngrok URL 的所有请求转发到`localhost`：
+
+```py
+ngrok http 8000
+```
+
+只要您保持终端打开，ngrok 服务就会启动并保持活动状态。 您应该在屏幕上看到类似于以下屏幕截图的输出：
+
+![](img/876ab489-46d8-4ced-92a3-32a95fbb08c4.png)
+
+对您的 ngrok URL 的所有请求都将记录在终端上。 您可以在请求日志上方表格的`Forwarding`行中找到您的 ngrok URL。 请注意，`http`和`https`端口都正在转发。 现在，您可以使用在本地计算机上运行的 API 服务来从 Firebase 进行调用，后者仅允许 HTTPS 调用。
+
+# 使用 Django 创建测试 UI 来管理订单
+
+我们之前在本书中使用了 Django，即在“第 8 章”，“在 Microsoft Azure 上使用 Python 进行深度学习”和“第 10 章”，“使用深度学习的应用保护网络安全”。 因此，我们将跳过有关 Django 如何工作以及如何开始使用它的实质性细节。 让我们直接研究创建可以与您的声音进行交互的 UI！
+
+如果尚未在系统上安装 Django，请按照“第 8 章”，“在 Microsoft Azure 上使用 Python 进行深度学习”的“Django Web 开发的简介”部分。 
+
+# 第 1 步 - 创建 Django 项目
+
+每个 Django 网站都是一个项目。 要创建一个，请使用以下命令：
+
+```py
+django-admin startproject ordersui
+```
+
+使用以下目录结构创建名为`ordersui`的目录：
+
+```py
+ordersui/
+| -- ordersui/
+|         __init.py__
+|         settings.py
+|         urls.py
+|         wsgi.py
+| -- manage.py
+```
+
+让我们继续为该项目创建模块。
+
+# 第 2 步 – 创建使用订单管理系统 API 的应用
+
+请记住，每个 Django 项目都由几个协同工作的 Django 应用组成。 现在，我们将在该项目中创建一个 Django 应用，该应用将使用订单管理系统 API，并提供一个 UI 来查看 API 数据库中包含的内容。 这对于验证 Dialogflow 智能体是否正常工作很重要。
+
+在新终端或命令提示符中使用`cd`命令切换到`ordersui`目录。 然后，使用以下命令创建一个应用：
+
+```py
+python manage.py startapp apiui
+```
+
+这将在`ordersui` Django 项目应用目录中创建具有以下结构的目录：
+
+```py
+apiui/ 
+| -- __init__.py
+| -- admin.py
+| -- apps.py
+| -- migrations/
+|         __init__.py
+| -- models.py
+| -- tests.py
+| -- views.py
+```
+
+在开始开发模块之前，让我们在下一部分中定义一些项目级设置。
+
+# 第 3 步 – 设置`settings.py`
+
+现在，我们将进行`ordersui/settings.py`文件中所需的一些配置。
+
+# 步骤 3.1 – 将 apiui 应用添加到已安装应用的列表中
+
+在`INSTALLED_APPS`列表中，添加`apiui`应用，如下所示：
+
+```py
+# Application definition
+
+INSTALLED_APPS = [
+ 'apiui',
+ 'django.contrib.admin',
+ 'django.contrib.auth',
+ 'django.contrib.contenttypes',
+ 'django.contrib.sessions',
+ 'django.contrib.messages',
+ 'django.contrib.staticfiles',
+]
+```
+
+Django 框架仅包含`INSTALLED_APPS`指令中列出的运行时应用，如前面的代码中所示。 我们还需要为项目定义数据库连接，这将在下一部分中显示。
+
+# 步骤 3.2 – 删除数据库设置
+
+由于此 UI 中不需要数据库连接，因此我们将删除数据库连接设置配置。
+
+注释掉`DATABASES`词典，如下所示：
+
+```py
+# Database
+# https://docs.djangoproject.com/en/2.2/ref/settings/#databases
+
+# DATABASES = {
+#     'default': {
+#         'ENGINE': 'django.db.backends.sqlite3',
+#         'NAME': os.path.join(BASE_DIR, 'db.sqlite3'),
+#     }
+# }
+```
+
+保存文件。 完成此操作后，我们将设置一个 URL 路由以指向`apiui`路由。
+
+# 步骤 4 – 将路由添加到 apiui
+
+更改`ordersui/urls.py`中的代码以添加路径，以将路径设置文件包含在`apiui`应用内。 您的文件将包含以下代码：
+
+```py
+from django.contrib import admin
+from django.urls import path, include
+
+urlpatterns = [
+ path('', include('apiui.urls')),
+]
+```
+
+保存文件。 在项目级别设置路由之后，我们将需要在模块级别设置路由，就像在下一节中所做的那样。
+
+# 步骤 5 – 在 apiui 应用中添加路由
+
+现在，我们已指示项目使用`apiui` URL 路由，我们需要创建此应用所需的文件。 在`apiui`目录中创建一个名为`urls.py`的文件，其内容如下：
+
+```py
+from django.urls import path
+
+from . import views
+
+urlpatterns = [
+ path('', views.indexView, name='indexView'),
+ path('<int:orderId>', views.viewOrder, name='viewOrder'),
+]
+```
+
+保存文件。 现在，我们已经指定了应用中可用的路由，我们需要为每个路由创建视图，就像我们在下一节中所做的那样。
+
+# 步骤 6 – 创建所需的视图
+
+在我们创建的路由中，我们提到了两个视图-`indexView`，它不带任何参数； `viewOrder`，它带一个名为`orderId`的参数。 在`apiui`目录中创建一个名为`views.py`的新文件，然后按照以下步骤创建所需的视图。
+
+# 步骤 6.1 – 创建`indexView`
+
+该路由将仅显示放置在订单管理系统上的订单。 我们使用以下代码：
+
+```py
+from django.shortcuts import render, redirect
+from django.contrib import messages
+import requests
+
+def indexView(request):
+ URL = "https://example.com/api/"
+ r = requests.get(url=URL)
+ data = r.json()
+ return render(request, 'index.html', context={'orders': data['orders']})
+```
+
+我们将在以下部分中创建`viewOrder`视图。
+
+# 步骤 6.2 – 创建`viewOrder`
+
+如果我们以`/orderId`的形式将订单 ID 传递到同一`/`路由，则我们应该返回订单的状态。 使用以下代码：
+
+```py
+def viewOrder(request, orderId):
+ URL = "https://example.com/api/" + str(orderId)
+ r = requests.get(url=URL)
+ data = r.json()
+ return render(request, 'view.html', {'order': data['order']})
+```
+
+我们已经完成了创建该项目所需的不同视图的工作； 但是，我们尚未创建将要渲染的模板。 让我们创建下一部分中所需的模板。
+
+# 步骤 7 – 创建模板
+
+在我们先前定义的视图中，我们使用了两个模板-`index.html`和`view.html`。 但是为了使它们与设计同步显示，我们还将设置一个`base.html`模板，它将作为 UI 中其余视图模板的主模板。
+
+由于模板大多只是 HTML 模板，对网站的重要内容影响不大，因此我们在[这里](http://tiny.cc/ordersui-templates)提供了这些文件的代码。 您必须将模板文件保存在`apiui`目录内名为`templates`的文件夹中。
+
+在此阶段，您将能够使用以下命令启动 Django 项目服务器并在浏览器中检出网站：
+
+```py
+python manage.py runserver
+```
+
+现在我们的服务器正在运行，我们将在下一部分中围绕它创建一个语音界面。
+
+# 使用 Web Speech API 的网页上的语音识别和语音合成
+
+Web 开发领域中一项最新且非常令人兴奋的开发是 Web Speech API 的引入。 虽然 Google 已在桌面和 Android 的 Google Chrome 浏览器中全面支持 Web Speech API，但 Safari 和 Firefox 仅提供部分实现。 Web Speech API 主要包含两个组件：
+
+*   **语音合成**：更广为人知的 **TTS**。 它执行为任何给定文本生成语音旁白的动作。
+*   **语音识别**：也称为 **STT**。 它执行识别用户说出的单词并将其转换为相应文本的功能。
+
+您可以浏览 Web 语音 API 的非常详细的文档，该文档可从 [Mozilla 文档页面](http://tiny.cc/webspeech-moz)获得。 您可以在[这个页面](http://tiny.cc/webspeech-demo)上找到 Google 提供的技术演示：
+
+![](img/a516e800-2a10-471f-84b2-c76d65e116c1.png)
+
+在以下步骤中，我们将基于 Web Speech API 的“问问题”按钮添加到我们的网站 UI 中。
+
+# 步骤 1 – 创建按钮元素
+
+此部分中的所有代码都必须放入 UI 的`base.html`模板中，以便它可以在网站的所有页面上使用。
+
+我们使用以下代码快速创建一个按钮，该按钮的“提问”文本将位于整个站点的网页的右下角：
+
+```py
+<div id="customerChatRoot" class="btn btn-warning">Ask a question</div>
+```
+
+现在，我们将需要初始化和配置 Web Speech API，就像在下一节中所做的那样。
+
+# 步骤 2 – 初始化 Web Speech API 并执行配置
+
+网页加载完成后，我们需要初始化 Web Speech API 对象并为其设置必要的配置。 为此，请使用以下代码：
+
+```py
+$(document).ready(function(){
+            window.SpeechRecognition = window.webkitSpeechRecognition || window.SpeechRecognition;
+            var finalTranscript = '';
+            var recognition = new window.SpeechRecognition();
+            recognition.interimResults = false;
+            recognition.maxAlternatives = 10;
+            recognition.continuous = true;
+            recognition.onresult = (event) => {
+               // define success content here 
+            }
+
+            // click handler for button here
+        });
+```
+
+您可以看到我们已经初始化了一个 Web `SpeechRecognition` API 对象，然后对其进行了一些配置。 让我们尝试了解以下配置：
+
+*   `recognition.interimResults`（布尔值）指示 API 是应该尝试识别临时结果还是要说出的单词。 这将增加我们的用例的开销，因此将其关闭。 在转录速度比转录准确率更重要的情况下，例如在为讲话人生成实时转录时，将其打开会更有益。
+*   `recognition.maxAlternatives`（数字）告诉浏览器可以为同一语音段生成多少个替代项。 在浏览器不太清楚说了什么并且可以为用户提供选择正确识别的选项的情况下，这很有用。
+*   `recognition.continuous`（布尔值）告诉浏览器是必须连续捕获音频还是在一次识别语音后停止音频。
+
+但是，我们尚未定义执行 STT 后收到结果时执行的代码。 为此，我们向`recognition.onresult`函数添加了代码，如下所示：
+
+```py
+              let interimTranscript = '';
+              for (let i = event.resultIndex, len = event.results.length; i < len; i++) {
+                let transcript = event.results[i][0].transcript;
+                if (event.results[i].isFinal) {
+                  finalTranscript += transcript;
+                } else {
+                  interimTranscript += transcript;
+                }
+              }
+              goDialogFlow(finalTranscript);
+
+              finalTranscript = '';
+```
+
+前面的代码块在用户讲话时创建一个临时笔录，当说出更多单词时，该笔录会不断更新。 当用户停止讲话时，临时笔录将附加到最终笔录中，并传递给处理与 Dialogflow 交互的功能。 从 Dialogflow 智能体收到响应后，将为来自用户的下一个语音输入重置最终笔录。
+
+请注意，我们已将用户语音的最终识别成绩单发送给名为`goDialogFlow()`的函数。 让我们定义这个函数。
+
+# 步骤 3 – 调用 Dialogflow 智能体
+
+获得用户基于语音的查询的文本版本后，将其发送到 Dialogflow 智能体，如下所示：
+
+```py
+function goDialogFlow(text){
+            $.ajax({
+                type: "POST",
+                url: "https://XXXXXXXX.gateway.dialogflow.cloud.ushakov.co",
+                contentType: "application/json; charset=utf-8",
+                dataType: "json",
+                data: JSON.stringify({ 
+                    "session": "test",
+                    "queryInput": {
+                    "text": {
+                        "text": text,
+                        "languageCode": "en"
+                        }
+                    } 
+                }),
+                success: function(data) {
+                    var res = data.queryResult.fulfillmentText;
+                    speechSynthesis.speak(new SpeechSynthesisUtterance(res));
+                },
+                error: function() {
+                    console.log("Internal Server Error");
+                }
+            }); 
+        }
+```
+
+您会发现，当 API 调用成功时，我们使用 SpeechSynthesis API 向用户说出结果。 它的用法比 SpeechRecognition API 更为简单，因此是出现在 Firefox 和 Safari 中的第一个。
+
+注意上一个函数中使用的 API URL。 当前可能看起来很奇怪，您可能想知道我们从何处获得此 URL。 我们所做的基本上是跳过使用终端设置 Dialogflow 智能体服务帐户配置的要求，该终端始终位于脚本正在处理的系统本地，因此很难传输。
+
+要为您的项目获得相似的 URL，请遵循以下步骤； 否则，请跳过“步骤 4”并直接进入“步骤 5”。
+
+# 步骤 4 – 通过 Ushakov 在 Dialogflow Gateway 上创建 Dialogflow API 智能体
+
+转到[这里](https://dialogflow.cloud.ushakov.co/)。 您将看到一个界面，如下所示：
+
+![](img/2de7c84c-4fa8-4746-9387-f965726690e7.png)
+
+Dialogflow Gateway 促进了语音 UI 和 Dialogflow 智能体之间的交互。 在我们的项目作为静态网站托管的情况下，这非常有用。 Dialogflow 网关围绕 Dialogflow API 提供了简化的 API 包装器，并且非常易于使用。
+
+您必须创建一个帐户才能开始使用 Dialogflow，如下一节所示。
+
+# 步骤 4.1 – 在 Dialogflow 网关上创建帐户
+
+单击“入门”，开始在平台上创建帐户。 系统会要求您使用您的 Google 帐户登录。 确保使用与以前创建 Dialogflow 智能体相同的帐户。
+
+# 步骤 4.2 – 为 Dialogflow 智能体项目创建服务帐户
+
+我们先前在“第 6 章”，“使用 Python 在 Google Cloud Platform 上进行深度学习”中详细讨论了如何为 GCP 项目创建服务帐户。 为链接到 Dialogflow 智能体的项目创建一个新的服务密钥，如下所示：
+
+![](img/ad8232d2-aff2-47bb-8654-343e8a131ef2.png)
+
+成功创建密钥后，将弹出一个对话框，通知您密钥已保存到计算机中，如下所示：
+
+![](img/caea516d-c88e-49ce-9a31-be83ead57a5b.png)
+
+服务帐户凭据以 JSON 的形式下载到本地系统，其名称如前面的屏幕快照所示。
+
+现在，我们将使用该服务帐户凭据文件将 Dialogflow Gateway 连接到我们的 Dialogflow 智能体。
+
+# 步骤 4.3 – 将服务密钥文件上传到 Dialogflow Gateway
+
+在 Dialogflow Gateway 控制台上，您会找到“上传密钥”按钮。 单击它以上传您生成的服务帐户密钥文件。 上传后，控制台将显示您的 Dialogflow API 智能体 URL，如下所示：
+
+![](img/0dc2a2ff-d5ff-43e8-9208-afb12d3facbb.png)
+
+我们将在先前定义的函数中使用网关 URL。
+
+# 步骤 5 – 为按钮添加点击处理器
+
+最后，我们向“提问”按钮添加`click`处理器，以便它可以触发用户输入的语音识别以及 Dialogflow 智能体的输出合成。
+
+在“步骤 2”中定义的文档`ready`函数中，添加以下`click`处理器代码：
+
+```py
+$('#customerChatRoot').click(function(){
+ recognition.start();
+ $(this).text('Speak!');
+});
+```
+
+现在，当麦克风开始收听用户输入时，按钮文本将变为`Speak!`，提示用户开始讲话。
+
+尝试在您的设置上测试该网站，然后查看如何使其正常工作！
+
+# 总结
+
+在本章中，我们结合了多种技术，提出了一个端到端项目，该项目展示了将深度学习应用于网站的最快速发展的方面之一。 我们介绍了 Dialogflow，Dialogflow 网关，GCP IAM，Firebase Cloud Functions 和 ngrok 等工具。 我们还演示了如何构建基于 REST API 的 UI，以及如何使用 Web Speech API 对其进行访问。 Web 语音 API 尽管目前尚处于起步阶段，但它是 Web 浏览器中使用的一项前沿技术，并且有望在未来几年中快速增长。
+
+可以肯定地说，Web 深度学习具有巨大的潜力，并将成为许多即将开展的业务成功的关键因素。 在下一章中，我们将探讨深度学习中用于 Web 开发的一些最热门的研究领域，以及我们如何计划以最佳方式取得进展。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/13.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/13.md
new file mode 100644
index 00000000..50522494
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/13.md
@@ -0,0 +1,108 @@
+# 十三、附录：Web 深度学习的成功案例和新兴领域
+
+通常重要的是要知道其他人正在使用任何技术做什么，以了解其适用性的规模以及它可以承诺的投资回报。 本章介绍了一些最著名的网站，这些网站的产品很大程度上依赖于利用深度学习的力量。 本章还讨论了可以使用深度学习增强的 Web 开发中的一些关键研究领域。 本章将帮助您更深入地研究 Web 技术和深度学习的融合，并激发您提出自己的智能 Web 应用。
+
+本章包括两个主要部分：
+
+*   Quora 和 Duolingo 等组织在其产品中应用了深度学习的成功案例
+*   深度学习中的一些关键新兴领域，例如阅读理解，音频搜索等
+
+让我们开始吧！
+
+# 成功的故事
+
+在本节中，我们将简要介绍一些以 AI 为核心以促进业务增长的产品/公司。 在此值得注意的是，整个产品或服务是否基于任何 AI 技术或算法并不重要； 仅在其中的一小部分或具有特定功能的情况下使用 AI 即可提高产品的实用性，从而提高客户对产品的广泛使用。 有时，您甚至可能没有在产品的任何功能中使用 AI，相反，您可能仅使用它来执行数据分析并提出预期趋势，以确保您的产品符合即将到来的趋势。 让我们看一下这些公司扩大规模后对它们有用的方法。
+
+# Quora
+
+在 Quora 之前，已经有很多问答网站和论坛。 在互联网历史上的某个时刻，在线论坛被视为无法再改进的东西； 但是，Quora 提出了一些使用深度学习进行的调整，以帮助他们快速胜过其他论坛。 以下是他们实现的调整：
+
+*   他们使贡献者能够使用“问与答”功能在发布任何问题后立即请求答案。 这使问题更容易到达相关主题专家，他们迅速给出了答案，并使该平台响应更快，更准确。
+*   他们使用**自然语言处理**（**NLP**）屏蔽了写得不好的问题和答案。 这引入了具有高质量内容的自动审核论坛的概念。
+*   确定任何给定问题-答案线程的标签和相关文章使发现类似问题变得容易。 这使 Quora 用户花费大量时间阅读与他们相似的问题的答案，只是为了在他们每个人中找到新的信息。
+*   Quora Digest 时事通讯是根据用户的兴趣精心策划的文章集，几乎总是成功地将用户带回了平台：
+
+![](img/37a5aa9b-2d11-4fc5-9776-4fa843b19966.png)
+
+Quora 在某个时间点成为（现在仍然算是）互联网上最令人上瘾的社交平台。 他们使用了一个简单的问答网站，并使用深度学习将其转变为一个了不起的平台。 您可以通过[这里](https://quora.com)检出平台。
+
+# Duolingo
+
+学习新语言一直是一项艰巨的任务。 当 Duolingo 于 2012 年投放市场时，它带来了一个越来越重要和广泛的术语-人工智能。 他们将记忆单词和语法规则等平凡的东西转换为微型游戏，这些微型游戏对每个用户的反应不同。 Duolingo AI 考虑了人脑的时间特性。 他们制定了关于一个人可能很快忘记他/她学到的单词的研究。 他们称此概念为半衰期回归，并用它来增强对它预测用户在任何给定时间点会忘记的单词的了解。
+
+这在他们的支持下取得了巨大的成功，使 Duolingo 成为移动应用商店中最受欢迎的应用之一。 他们的网站也是非正统设计的经典例子，广受好评。 您可以通过[这里](https://duolingo.com)了解有关 Duolingo 的更多信息。
+
+# Spotify
+
+音频播放器已经存在很长时间了，但是没有人将 Spotify 带到桌面上。 Spotify 使用深度学习来确定用户希望在任何给定时间点收听的歌曲。 多年来，他们的 AI 取得了突飞猛进的发展，根据用户最近播放的歌曲来建议整个播放列表。 Spotify 的迅速崛起激发了许多试图做到这一点并试图赶上 Spotify 受欢迎程度的产品。
+
+Spotify 还引入了一项非常强大的功能-根据音频样本搜索歌曲。 这是一个即时热门功能； 许多用户下载 Spotify 只是因为他们不记得他们正在听的一首好听的歌曲的名字，所以想迅速找出它的名字。 您只需记录附近正在播放的歌曲的音频并将其馈送到 Spotify 即可知道正在播放的歌曲。
+
+# Google 搜索/照片
+
+尽管云图像存储是 Dropbox 等公司提供的现有解决方案，但 Google Photos 通过将 AI 纳入方程式，彻底改变了云图像存储空间。 Google 相册由于其令人惊叹的功能，例如以下内容，已被全球数十亿人采用：
+
+*   **人脸识别**：此功能存在于名为 Picasa 的较早的 Google 产品中，该产品被认为是 Google Photos 的前身。
+*   **向导**：Google 相册自动确定在同一事件或场合拍摄的照片。 然后，它尝试创建有关图片的电影，或者只是触摸图像以使其看起来更好。 有时，Google 相册还会用看起来似乎是连续的照片来创建动画 GIF。
+*   **文档和模因的识别**：Google 相册建议其用户归档旧文档，屏幕截图和模因。 这对于节省设备存储空间非常有帮助：
+
+![](img/07b18479-7ac7-4225-94b6-a59738a7ddc4.png)
+
+Google 相册由于在后台使用了深度学习，因此在个人在线画廊方面处于市场领先地位。 如果您想了解更多信息，请访问[这里](https://photos.google.com)。
+
+在本节中，我们看了一些受深度学习极大影响的产品。 在下一部分中，我们将看到一些新兴领域，其中深度学习似乎会带来很多积极成果。
+
+# 重点新兴领域
+
+在前面的部分中，我们看到了几家公司如何结合基于深度学习的技术来改进其产品。 在本节中，我们将讨论当前正在大量研究的一些领域，并且我们将通过 Web 开发的角度看到它们的影响力。
+
+# 音频搜索
+
+假设您在一家酒吧中，并且喜欢现场乐队播放的歌曲。 在您的脑海中，您知道自己曾经听过这首歌，但是无法回忆起这首歌的名字。 如果您有一个可以听这首歌并搜索其名称的系统，那不是很好吗？ 欢迎来到音频搜索引擎的世界！
+
+有很多现有的音频搜索引擎，其中声音搜索（由 Google Assistant 提供）是最受欢迎的搜索引擎之一。 您可能还想看看 Shazam。 在以下屏幕截图中，您可以看到通过声音搜索产生的示例音频搜索结果：
+
+![](img/9960ba72-9308-4507-bc6f-33b4ea110623.png)
+
+为了使系统根据接收到的音频信号执行音频搜索，系统首先需要处理该信号，这被称为音频信号处理。 然后，系统将处理后的信号与其现有的成千上万首歌曲的数据库进行比较。 在将信号与现有数据库进行比较之前，使用神经网络对其进行特定表示，通常将其称为指纹。 但是，这仍然是一个活跃的研究领域，我强烈建议您阅读[这个页面](https://ai.googleblog.com/2018/09/googles-next-generation-music.html)上的文章，详细了解这些技术。
+
+# 阅读理解
+
+您是否曾经希望搜索引擎能为您提供搜索查询的答案，而不是找到可能包含搜索查询答案的资源的合适链接？ 好吧，如果系统通过阅读理解进行编程，那么现在就有可能实现这一目标。 让我们看下面的屏幕截图，以了解这意味着什么：
+
+![](img/481443bd-131c-438b-94ce-0efe89d8eedd.png)
+
+如果您仔细地注意到，我们甚至都没有将 Sachin Tendulkar 的父亲的陈述作为疑问。 现代系统有足够的能力自行推断出这样的属性。
+
+现在，为了能够理解具有阅读理解能力的系统（或机器）的深度，请说您想在执行网络搜索后找到问题的答案。 这是您需要经历的多步骤过程：
+
+1.  首先，用相关的关键字制定搜索查询，然后搜索引擎执行搜索。
+2.  然后，搜索引擎为您提供给定搜索查询的相关文档列表。
+3.  您仔细阅读这些文档，根据自己的理解整理其中的信息，然后得出结论。
+
+本质上，仍然存在许多手动的步骤，而且这个问题仍然存在：我们是否可以设计一个系统来自动为我们找到合适答案的过程？ 现有的搜索引擎为我们提供了给定搜索查询的相关文档列表，但不足以开发能够实际产生搜索查询答案的系统。 简而言之，这样的系统需要执行以下操作：
+
+1.  遵循相关文件的结构。
+2.  理清这些文档中提供的内容。
+3.  得出最终答案。
+
+让我们简化一下问题。 假设对于一个给定的问题，我们已经有了相关段落的列表，现在我们需要开发一种系统，该系统实际上可以从这些段落中理解并为我们提供给定问题的明确答案。 在阅读理解系统中，神经网络通常学会捕捉给定问题与相关段落之间的深层语义关系，然后制定最终答案。
+
+您可能已经知道，诸如 Google 搜索，必应等之类的搜索引擎已经具备阅读理解能力。
+
+# 在社交媒体上检测假新闻
+
+随着社交媒体的飞速发展，从来没有新闻。 社交媒体已轻松成为我们新闻的主要来源之一； 但是，通常不能保证其真实性。 并非您在社交媒体上偶然发现的每篇新闻都是真实的，可以肯定地说，其中有很多是假的。 这种现象的后果可能非常令人震惊，并且确实可以导致虐待，暴力等行为。
+
+少数组织和机构正试图与此作斗争，并使人们意识到新闻报道的真实性。 考虑到我们每天在社交媒体上看到的新闻数量众多，这项任务可能非常繁琐。 因此，现在的问题变成了我们可以利用机器学习的力量来自动检测假新闻吗？ 实际上，这是一个活跃的研究领域，尚无可大规模解决此问题的实际应用。
+
+但是，以下是各个小组使用经典机器学习和深度学习方法进行的一些研究：
+
+*   [《在社交媒体网络中检测虚假新闻》](https://www.sciencedirect.com/science/article/pii/S1877050918318210)
+*   [《使用几何深度学习在社交媒体上进行虚假新闻检测》](https://arxiv.org/abs/1902.06673)
+
+鼓励您在[这个页面](https://arxiv.org/pdf/1812.00315.pdf)上查看调查报告，该报告提供了有关各种假新闻检测技术的综合指南，并讨论了有关该主题的相关研究。 另一方面，一家名为 [Varia](https://www.varia.media/) 的德国初创公司正试图以一种独特的方式解决假新闻问题。 他们没有提供新闻的真实性，而是提供了某些新闻的不同观点。 换句话说，他们正在提供透视服务。 要了解更多信息，您绝对应该在[这个页面](https://alpha.varia.media/)中进行检查。
+
+# 总结
+
+在本书的最后一章中，我们试图激发您构建下一个深度学习项目并将其在 Web 平台上使用。 您可能对更多这样的公司的故事感兴趣，这些公司使用 AI 转变了业务并统治了市场空间。 如果您浏览几乎所有访问的网站，它们都会以某种方式使用人工智能和深度学习的元素，无论是推荐系统还是广告形式（又是促销推荐系统）。 然后，我们介绍了深度学习领域中即将出现的主题，这些主题正在寻找在不久的将来在网站上实现的主题。 如果您能根据这些主题中的任何一个来提供服务，那就太好了！
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/README.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/README.md
new file mode 100644
index 00000000..f75713c8
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/README.md
@@ -0,0 +1,35 @@
+# Python Web 深度学习实用指南
+
+> 原文：[Hands-On Python Deep Learning for the Web](https://b-ok.global/book/5558571/027be9)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/SUMMARY.md
new file mode 100644
index 00000000..330e7d2d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/SUMMARY.md
@@ -0,0 +1,19 @@
++   [Python Web 深度学习实用指南](README.md)
++   [零、前言](00.md)
++   [第 1 节：Web 人工智能](sec1.md)
+	+   [一、揭秘人工智能和机器学习基础](01.md)
++   [第 2 节：使用深度学习的 Web 开发](sec2.md)
+	+   [二、使用 Python 入门深度学习](02.md)
+	+   [三、创建您的第一个深度学习 Web 应用](03.md)
+	+   [四、TensorFlow.js 入门](04.md)
++   [第 3 节：用于 Web 开发的不同深度学习 API 入门](sec3.md)
+	+   [五、通过 API 进行深度学习](05.md)
+	+   [六、Google Cloud Platform 上的 Python 深度学习](06.md)
+	+   [七、AWS 上的 Python DL：对象检测和家庭自动化](07.md)
+	+   [八、Microsoft Azure 上的 Python 深度学习](08.md)
++   [第 4 节：生产中的深度学习（智能 Web 应用）](sec4.md)
+	+   [九、启用深度学习的网站的通用生产框架](09.md)
+	+   [十、通过深度学习保护 Web 应用安全](10.md)
+	+   [十一、DIY - Web DL 生产环境](11.md)
+	+   [十二、使用 DL API 和客户支持聊天机器人创建 E2E Web 应用](12.md)
++   [十三、附录：Web 深度学习的成功案例和新兴领域](13.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/00494d15-6793-4ec3-9fb8-3c3f40d6c9d9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/00494d15-6793-4ec3-9fb8-3c3f40d6c9d9.png
new file mode 100644
index 00000000..fd33369a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/00494d15-6793-4ec3-9fb8-3c3f40d6c9d9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/01908bbd-6abc-4f1b-8b26-2d05cab0472d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/01908bbd-6abc-4f1b-8b26-2d05cab0472d.png
new file mode 100644
index 00000000..2b8bb834
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/01908bbd-6abc-4f1b-8b26-2d05cab0472d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/02c4611b-f44d-47af-8ba3-932197617f70.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/02c4611b-f44d-47af-8ba3-932197617f70.jpeg
new file mode 100644
index 00000000..efc9e5c2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/02c4611b-f44d-47af-8ba3-932197617f70.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/036c3c11-7381-44b9-83a5-f2c6f4f0b71f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/036c3c11-7381-44b9-83a5-f2c6f4f0b71f.png
new file mode 100644
index 00000000..4df4b01b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/036c3c11-7381-44b9-83a5-f2c6f4f0b71f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0505bb51-e6be-440d-86e5-3774b8532cbe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0505bb51-e6be-440d-86e5-3774b8532cbe.png
new file mode 100644
index 00000000..816c3423
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0505bb51-e6be-440d-86e5-3774b8532cbe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/06871357-5a95-4e0b-aee0-90bfb11dcc7c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/06871357-5a95-4e0b-aee0-90bfb11dcc7c.png
new file mode 100644
index 00000000..b01c333f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/06871357-5a95-4e0b-aee0-90bfb11dcc7c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/06efe53c-1ce5-45a5-9526-995ad648f78c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/06efe53c-1ce5-45a5-9526-995ad648f78c.png
new file mode 100644
index 00000000..8c9e8e2a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/06efe53c-1ce5-45a5-9526-995ad648f78c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/07b18479-7ac7-4225-94b6-a59738a7ddc4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/07b18479-7ac7-4225-94b6-a59738a7ddc4.png
new file mode 100644
index 00000000..a6ca5070
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/07b18479-7ac7-4225-94b6-a59738a7ddc4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/08af55b4-5b80-44b4-9943-282a9618ff8d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/08af55b4-5b80-44b4-9943-282a9618ff8d.png
new file mode 100644
index 00000000..ad5c9077
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/08af55b4-5b80-44b4-9943-282a9618ff8d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a057f86-a447-49f8-a185-d82dc84ada58.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a057f86-a447-49f8-a185-d82dc84ada58.png
new file mode 100644
index 00000000..15125a2f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a057f86-a447-49f8-a185-d82dc84ada58.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a36036b-7a4b-4307-b60b-5031283c9060.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a36036b-7a4b-4307-b60b-5031283c9060.png
new file mode 100644
index 00000000..8fe9ccae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a36036b-7a4b-4307-b60b-5031283c9060.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a969531-c833-44fd-8c6f-f034c65b267d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a969531-c833-44fd-8c6f-f034c65b267d.png
new file mode 100644
index 00000000..acf1adee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0a969531-c833-44fd-8c6f-f034c65b267d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0ac49e88-f2b8-4b42-b530-eaffc91dcb4a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0ac49e88-f2b8-4b42-b530-eaffc91dcb4a.png
new file mode 100644
index 00000000..13caba8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0ac49e88-f2b8-4b42-b530-eaffc91dcb4a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0dc2a2ff-d5ff-43e8-9208-afb12d3facbb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0dc2a2ff-d5ff-43e8-9208-afb12d3facbb.png
new file mode 100644
index 00000000..02af4ff2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0dc2a2ff-d5ff-43e8-9208-afb12d3facbb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0eac47bd-7093-4c7e-a082-545d3e511900.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0eac47bd-7093-4c7e-a082-545d3e511900.png
new file mode 100644
index 00000000..38a2009c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0eac47bd-7093-4c7e-a082-545d3e511900.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0fdc474a-3051-4bab-9698-8a9d883cb2f6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0fdc474a-3051-4bab-9698-8a9d883cb2f6.png
new file mode 100644
index 00000000..e04bc233
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/0fdc474a-3051-4bab-9698-8a9d883cb2f6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/11361907-2e81-41e5-ab97-90f7bd2cf2cf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/11361907-2e81-41e5-ab97-90f7bd2cf2cf.png
new file mode 100644
index 00000000..bffb162f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/11361907-2e81-41e5-ab97-90f7bd2cf2cf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/11e3506d-ee55-42ad-a013-ee0a1016a75b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/11e3506d-ee55-42ad-a013-ee0a1016a75b.png
new file mode 100644
index 00000000..b347af27
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/11e3506d-ee55-42ad-a013-ee0a1016a75b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/120bb432-ece2-40bf-9b64-19142d707316.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/120bb432-ece2-40bf-9b64-19142d707316.png
new file mode 100644
index 00000000..d63ed571
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/120bb432-ece2-40bf-9b64-19142d707316.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15bd4a33-02ec-4ab9-b0fc-7cd83f015eec.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15bd4a33-02ec-4ab9-b0fc-7cd83f015eec.png
new file mode 100644
index 00000000..ea6866e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15bd4a33-02ec-4ab9-b0fc-7cd83f015eec.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15e48360-dd9c-48f2-b123-c6e1680e2514.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15e48360-dd9c-48f2-b123-c6e1680e2514.png
new file mode 100644
index 00000000..feeb4210
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15e48360-dd9c-48f2-b123-c6e1680e2514.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15fc01ad-104b-40c0-a6f4-5490fed2bbf6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15fc01ad-104b-40c0-a6f4-5490fed2bbf6.png
new file mode 100644
index 00000000..c2aac86e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/15fc01ad-104b-40c0-a6f4-5490fed2bbf6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/16b55881-1edf-4f83-9814-5cd3c785a8da.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/16b55881-1edf-4f83-9814-5cd3c785a8da.png
new file mode 100644
index 00000000..91d6dc21
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/16b55881-1edf-4f83-9814-5cd3c785a8da.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/170428ce-55de-4a81-bf59-4ea0b5e9af4a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/170428ce-55de-4a81-bf59-4ea0b5e9af4a.png
new file mode 100644
index 00000000..55aeb3af
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/170428ce-55de-4a81-bf59-4ea0b5e9af4a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/173cfead-90f6-4776-83e6-208f4919ba20.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/173cfead-90f6-4776-83e6-208f4919ba20.png
new file mode 100644
index 00000000..076f7c40
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/173cfead-90f6-4776-83e6-208f4919ba20.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/175087bb-bb71-47a3-80ae-81095e96551f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/175087bb-bb71-47a3-80ae-81095e96551f.png
new file mode 100644
index 00000000..a2e4ad0a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/175087bb-bb71-47a3-80ae-81095e96551f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/175d0651-9d60-46d8-9d33-70fc6f938486.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/175d0651-9d60-46d8-9d33-70fc6f938486.png
new file mode 100644
index 00000000..b746f30f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/175d0651-9d60-46d8-9d33-70fc6f938486.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1778a5d1-56c1-46d1-86f2-5e3b883a42a0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1778a5d1-56c1-46d1-86f2-5e3b883a42a0.png
new file mode 100644
index 00000000..d5427911
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1778a5d1-56c1-46d1-86f2-5e3b883a42a0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1865533c-67f3-4b2c-ab89-a6a7db21b005.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1865533c-67f3-4b2c-ab89-a6a7db21b005.png
new file mode 100644
index 00000000..eec7ee14
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1865533c-67f3-4b2c-ab89-a6a7db21b005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1adb3e40-cbd7-469f-8234-3002ac0d91c2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1adb3e40-cbd7-469f-8234-3002ac0d91c2.png
new file mode 100644
index 00000000..cfce4ac8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1adb3e40-cbd7-469f-8234-3002ac0d91c2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1c8a88f2-9d9a-4fbf-92cd-6ed636277b4e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1c8a88f2-9d9a-4fbf-92cd-6ed636277b4e.png
new file mode 100644
index 00000000..b50daad9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1c8a88f2-9d9a-4fbf-92cd-6ed636277b4e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1ce37bd9-bcd5-481c-bf13-daf6065230e0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1ce37bd9-bcd5-481c-bf13-daf6065230e0.png
new file mode 100644
index 00000000..4ad40fd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1ce37bd9-bcd5-481c-bf13-daf6065230e0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1d530c5f-6145-41e3-8de2-e80c9a4b511e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1d530c5f-6145-41e3-8de2-e80c9a4b511e.png
new file mode 100644
index 00000000..73efe476
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1d530c5f-6145-41e3-8de2-e80c9a4b511e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1f0a601e-c001-4c1a-86b6-84ffa79cc16e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1f0a601e-c001-4c1a-86b6-84ffa79cc16e.png
new file mode 100644
index 00000000..c0fc4e75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1f0a601e-c001-4c1a-86b6-84ffa79cc16e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1f9f805b-e515-4714-9e23-d04c4b7fd49c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1f9f805b-e515-4714-9e23-d04c4b7fd49c.png
new file mode 100644
index 00000000..3d5be308
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/1f9f805b-e515-4714-9e23-d04c4b7fd49c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20663bb4-96fe-4e90-bf5e-5ced2e6e9e10.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20663bb4-96fe-4e90-bf5e-5ced2e6e9e10.png
new file mode 100644
index 00000000..8884bcf5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20663bb4-96fe-4e90-bf5e-5ced2e6e9e10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20979113-d6cc-4b94-be0e-1fc2f49ba1c0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20979113-d6cc-4b94-be0e-1fc2f49ba1c0.png
new file mode 100644
index 00000000..c77d8700
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20979113-d6cc-4b94-be0e-1fc2f49ba1c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20a23d3e-6c8c-44ac-874b-3e088653fec9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20a23d3e-6c8c-44ac-874b-3e088653fec9.png
new file mode 100644
index 00000000..7e93bb84
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/20a23d3e-6c8c-44ac-874b-3e088653fec9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/216dfe04-0135-4771-979f-4cd732b1d1e5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/216dfe04-0135-4771-979f-4cd732b1d1e5.png
new file mode 100644
index 00000000..1d7173f6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/216dfe04-0135-4771-979f-4cd732b1d1e5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/220321b9-76f4-476f-9fac-b77514106737.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/220321b9-76f4-476f-9fac-b77514106737.png
new file mode 100644
index 00000000..992658a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/220321b9-76f4-476f-9fac-b77514106737.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/220c2b95-9ed4-4521-9ee1-9937f6e28fec.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/220c2b95-9ed4-4521-9ee1-9937f6e28fec.png
new file mode 100644
index 00000000..bad731df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/220c2b95-9ed4-4521-9ee1-9937f6e28fec.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/234a5eeb-d4fd-4fb8-ad16-468a49bb1010.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/234a5eeb-d4fd-4fb8-ad16-468a49bb1010.png
new file mode 100644
index 00000000..3eb10904
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/234a5eeb-d4fd-4fb8-ad16-468a49bb1010.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2426808b-f6a7-462d-9692-8162fc50efbd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2426808b-f6a7-462d-9692-8162fc50efbd.png
new file mode 100644
index 00000000..62eab77a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2426808b-f6a7-462d-9692-8162fc50efbd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/246d6e58-cde0-45cd-9ad1-0f7dd1f02154.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/246d6e58-cde0-45cd-9ad1-0f7dd1f02154.png
new file mode 100644
index 00000000..c1770096
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/246d6e58-cde0-45cd-9ad1-0f7dd1f02154.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/278c72a8-1139-4273-a4e3-2d4f2274343d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/278c72a8-1139-4273-a4e3-2d4f2274343d.png
new file mode 100644
index 00000000..7f41539d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/278c72a8-1139-4273-a4e3-2d4f2274343d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2815c5c2-68c2-44ae-a545-8a9227b5685e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2815c5c2-68c2-44ae-a545-8a9227b5685e.png
new file mode 100644
index 00000000..23d0994f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2815c5c2-68c2-44ae-a545-8a9227b5685e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/281bbcd0-d1ba-46a1-9998-7609b6319c5f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/281bbcd0-d1ba-46a1-9998-7609b6319c5f.png
new file mode 100644
index 00000000..c75e6259
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/281bbcd0-d1ba-46a1-9998-7609b6319c5f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/28fe1ff8-96fa-4c85-ac98-fa1c4d0ec5db.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/28fe1ff8-96fa-4c85-ac98-fa1c4d0ec5db.png
new file mode 100644
index 00000000..84344883
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/28fe1ff8-96fa-4c85-ac98-fa1c4d0ec5db.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/29b500df-2cd7-4404-b9da-a9cbc49b7fe0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/29b500df-2cd7-4404-b9da-a9cbc49b7fe0.png
new file mode 100644
index 00000000..07d2da07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/29b500df-2cd7-4404-b9da-a9cbc49b7fe0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2de7c84c-4fa8-4746-9387-f965726690e7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2de7c84c-4fa8-4746-9387-f965726690e7.png
new file mode 100644
index 00000000..74c52cd3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2de7c84c-4fa8-4746-9387-f965726690e7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2f02b3a1-2449-470f-a1ab-2ee93093e353.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2f02b3a1-2449-470f-a1ab-2ee93093e353.png
new file mode 100644
index 00000000..0cea9df4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2f02b3a1-2449-470f-a1ab-2ee93093e353.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2f62dd1e-ca80-4973-a7da-b0b7622410bc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2f62dd1e-ca80-4973-a7da-b0b7622410bc.png
new file mode 100644
index 00000000..290b17f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2f62dd1e-ca80-4973-a7da-b0b7622410bc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2fe2f681-2cd6-4422-b942-fba491e140e1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2fe2f681-2cd6-4422-b942-fba491e140e1.png
new file mode 100644
index 00000000..17970036
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/2fe2f681-2cd6-4422-b942-fba491e140e1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3172ed87-5c07-4de6-bcb3-8a1c49c9ac02.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3172ed87-5c07-4de6-bcb3-8a1c49c9ac02.png
new file mode 100644
index 00000000..1d90e775
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3172ed87-5c07-4de6-bcb3-8a1c49c9ac02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3468a284-89f9-41d5-ba9e-8cadbfd6ca35.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3468a284-89f9-41d5-ba9e-8cadbfd6ca35.png
new file mode 100644
index 00000000..285b4174
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3468a284-89f9-41d5-ba9e-8cadbfd6ca35.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/36c2cc46-bbf1-471e-beb4-5bde0c30efe1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/36c2cc46-bbf1-471e-beb4-5bde0c30efe1.png
new file mode 100644
index 00000000..2c84b3e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/36c2cc46-bbf1-471e-beb4-5bde0c30efe1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/37049f4f-493f-4703-a41c-52f3a69aeb73.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/37049f4f-493f-4703-a41c-52f3a69aeb73.png
new file mode 100644
index 00000000..e05b55e5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/37049f4f-493f-4703-a41c-52f3a69aeb73.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/37a5aa9b-2d11-4fc5-9776-4fa843b19966.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/37a5aa9b-2d11-4fc5-9776-4fa843b19966.png
new file mode 100644
index 00000000..54ae49e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/37a5aa9b-2d11-4fc5-9776-4fa843b19966.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/384b2f86-2a4f-40e0-8d34-b77951aa764d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/384b2f86-2a4f-40e0-8d34-b77951aa764d.png
new file mode 100644
index 00000000..6c130474
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/384b2f86-2a4f-40e0-8d34-b77951aa764d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/385f0fc6-4b0a-46d6-8414-c73c8c3a4c38.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/385f0fc6-4b0a-46d6-8414-c73c8c3a4c38.png
new file mode 100644
index 00000000..9cc98be6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/385f0fc6-4b0a-46d6-8414-c73c8c3a4c38.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/38f026ca-5a81-427f-ad3c-dc5efa7357de.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/38f026ca-5a81-427f-ad3c-dc5efa7357de.png
new file mode 100644
index 00000000..0dba5bd1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/38f026ca-5a81-427f-ad3c-dc5efa7357de.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/397707d9-086c-4cdf-902b-4ec2d5944ec1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/397707d9-086c-4cdf-902b-4ec2d5944ec1.png
new file mode 100644
index 00000000..9b3c0308
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/397707d9-086c-4cdf-902b-4ec2d5944ec1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3bb72eab-b62e-42b6-9dee-6cd77653770d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3bb72eab-b62e-42b6-9dee-6cd77653770d.png
new file mode 100644
index 00000000..bdfad721
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3bb72eab-b62e-42b6-9dee-6cd77653770d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3d297b46-da99-422e-aab5-4dfb5cbc90e6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3d297b46-da99-422e-aab5-4dfb5cbc90e6.png
new file mode 100644
index 00000000..8721275e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3d297b46-da99-422e-aab5-4dfb5cbc90e6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3e03023b-b603-4d60-bb97-cb51c112e8c1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3e03023b-b603-4d60-bb97-cb51c112e8c1.png
new file mode 100644
index 00000000..dbde4957
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3e03023b-b603-4d60-bb97-cb51c112e8c1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3ea2f8b5-6d27-47cc-9670-0bb3f2e5e4f9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3ea2f8b5-6d27-47cc-9670-0bb3f2e5e4f9.png
new file mode 100644
index 00000000..ae3f2fc2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3ea2f8b5-6d27-47cc-9670-0bb3f2e5e4f9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f1deaa5-9ebe-413d-8869-8a3b87ddc294.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f1deaa5-9ebe-413d-8869-8a3b87ddc294.png
new file mode 100644
index 00000000..06ded938
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f1deaa5-9ebe-413d-8869-8a3b87ddc294.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f63c63f-055e-418d-ab6b-1584c6ee3e17.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f63c63f-055e-418d-ab6b-1584c6ee3e17.png
new file mode 100644
index 00000000..27214a98
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f63c63f-055e-418d-ab6b-1584c6ee3e17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f6ed47b-cf3a-42f9-9413-9e6a146e5577.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f6ed47b-cf3a-42f9-9413-9e6a146e5577.png
new file mode 100644
index 00000000..90cc90ca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/3f6ed47b-cf3a-42f9-9413-9e6a146e5577.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/40856d4c-4de8-458c-b4e7-83073a821f59.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/40856d4c-4de8-458c-b4e7-83073a821f59.png
new file mode 100644
index 00000000..9f3bab4e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/40856d4c-4de8-458c-b4e7-83073a821f59.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/41e6aa63-bb63-4a50-bbc7-3ae7249e74f9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/41e6aa63-bb63-4a50-bbc7-3ae7249e74f9.png
new file mode 100644
index 00000000..c14bfe00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/41e6aa63-bb63-4a50-bbc7-3ae7249e74f9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/43498898-28e2-44bf-a26c-a071493c6de0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/43498898-28e2-44bf-a26c-a071493c6de0.png
new file mode 100644
index 00000000..6ab31c29
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/43498898-28e2-44bf-a26c-a071493c6de0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/454ba3b9-649e-4cae-877b-6b2cde5bf155.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/454ba3b9-649e-4cae-877b-6b2cde5bf155.png
new file mode 100644
index 00000000..17915208
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/454ba3b9-649e-4cae-877b-6b2cde5bf155.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/469c0188-c363-4a28-a15f-d060ca342a01.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/469c0188-c363-4a28-a15f-d060ca342a01.png
new file mode 100644
index 00000000..de31848b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/469c0188-c363-4a28-a15f-d060ca342a01.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/46c1d591-c385-4491-baca-a52af92648cb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/46c1d591-c385-4491-baca-a52af92648cb.png
new file mode 100644
index 00000000..7234edee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/46c1d591-c385-4491-baca-a52af92648cb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4716dd77-2dfc-490d-b796-aa1215cab251.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4716dd77-2dfc-490d-b796-aa1215cab251.png
new file mode 100644
index 00000000..9459e8cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4716dd77-2dfc-490d-b796-aa1215cab251.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/47774b6e-33a9-495f-9c90-7a98bc56ad42.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/47774b6e-33a9-495f-9c90-7a98bc56ad42.png
new file mode 100644
index 00000000..62733a81
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/47774b6e-33a9-495f-9c90-7a98bc56ad42.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/481443bd-131c-438b-94ce-0efe89d8eedd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/481443bd-131c-438b-94ce-0efe89d8eedd.png
new file mode 100644
index 00000000..f4e147b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/481443bd-131c-438b-94ce-0efe89d8eedd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/48570a56-c2cb-48b9-8d36-309bf77bcf96.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/48570a56-c2cb-48b9-8d36-309bf77bcf96.png
new file mode 100644
index 00000000..111cae7c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/48570a56-c2cb-48b9-8d36-309bf77bcf96.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4865606d-533c-4d58-a488-c425003e96e4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4865606d-533c-4d58-a488-c425003e96e4.png
new file mode 100644
index 00000000..e516cce9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4865606d-533c-4d58-a488-c425003e96e4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/48741d83-0b89-4933-a7f4-df36291f5f9a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/48741d83-0b89-4933-a7f4-df36291f5f9a.png
new file mode 100644
index 00000000..4f8f51a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/48741d83-0b89-4933-a7f4-df36291f5f9a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4afa1398-744c-4718-bb55-0a9209e8ed04.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4afa1398-744c-4718-bb55-0a9209e8ed04.png
new file mode 100644
index 00000000..c326d67c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4afa1398-744c-4718-bb55-0a9209e8ed04.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4b4555fa-698d-4e04-bf56-b8a2ba2c4cb1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4b4555fa-698d-4e04-bf56-b8a2ba2c4cb1.png
new file mode 100644
index 00000000..075150b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4b4555fa-698d-4e04-bf56-b8a2ba2c4cb1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4b9aaa2a-87d5-487b-9d8c-6a54cb705d09.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4b9aaa2a-87d5-487b-9d8c-6a54cb705d09.png
new file mode 100644
index 00000000..86febba2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4b9aaa2a-87d5-487b-9d8c-6a54cb705d09.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4c5d75a8-1315-43f1-87d7-961a97ea98c4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4c5d75a8-1315-43f1-87d7-961a97ea98c4.png
new file mode 100644
index 00000000..0668a641
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4c5d75a8-1315-43f1-87d7-961a97ea98c4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4df1029c-865e-4d73-8f88-fcb487bf9849.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4df1029c-865e-4d73-8f88-fcb487bf9849.png
new file mode 100644
index 00000000..f26f0a8d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/4df1029c-865e-4d73-8f88-fcb487bf9849.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/523c24c1-f2c0-4d35-88e5-10b86c746140.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/523c24c1-f2c0-4d35-88e5-10b86c746140.png
new file mode 100644
index 00000000..8da80140
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/523c24c1-f2c0-4d35-88e5-10b86c746140.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/53fc5106-5219-4269-9ace-5c45edc32c8b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/53fc5106-5219-4269-9ace-5c45edc32c8b.png
new file mode 100644
index 00000000..2bd77eed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/53fc5106-5219-4269-9ace-5c45edc32c8b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/541cba3d-b30e-416a-8eac-8a9b0ec6f6f1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/541cba3d-b30e-416a-8eac-8a9b0ec6f6f1.png
new file mode 100644
index 00000000..6767b4df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/541cba3d-b30e-416a-8eac-8a9b0ec6f6f1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5429ceba-947a-43c2-abbe-7e92043a3fdf.jpg b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5429ceba-947a-43c2-abbe-7e92043a3fdf.jpg
new file mode 100644
index 00000000..b1bc8f31
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5429ceba-947a-43c2-abbe-7e92043a3fdf.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/580396c4-cea4-4e26-9fa3-b206c340510a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/580396c4-cea4-4e26-9fa3-b206c340510a.png
new file mode 100644
index 00000000..e1cf8b2a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/580396c4-cea4-4e26-9fa3-b206c340510a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/598b05d6-11ee-4c08-9c52-9bebfd97f229.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/598b05d6-11ee-4c08-9c52-9bebfd97f229.png
new file mode 100644
index 00000000..db5334dd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/598b05d6-11ee-4c08-9c52-9bebfd97f229.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5a3592f6-3ebd-4459-aa50-dfaa77b7eedd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5a3592f6-3ebd-4459-aa50-dfaa77b7eedd.png
new file mode 100644
index 00000000..8c9e8e2a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5a3592f6-3ebd-4459-aa50-dfaa77b7eedd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5addae4f-c070-4f96-83f6-b2e65a6bf5e9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5addae4f-c070-4f96-83f6-b2e65a6bf5e9.png
new file mode 100644
index 00000000..291aa707
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5addae4f-c070-4f96-83f6-b2e65a6bf5e9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5d0a60f8-7ee3-4e21-84ec-0679a3475f7f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5d0a60f8-7ee3-4e21-84ec-0679a3475f7f.png
new file mode 100644
index 00000000..27360036
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5d0a60f8-7ee3-4e21-84ec-0679a3475f7f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5e49fe53-bc9e-41e1-b544-97bdfb6d9e0a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5e49fe53-bc9e-41e1-b544-97bdfb6d9e0a.png
new file mode 100644
index 00000000..9cf637e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5e49fe53-bc9e-41e1-b544-97bdfb6d9e0a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5f7e2b07-8b1d-4ba9-a2ac-c4002fc9a22a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5f7e2b07-8b1d-4ba9-a2ac-c4002fc9a22a.png
new file mode 100644
index 00000000..fd753b23
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5f7e2b07-8b1d-4ba9-a2ac-c4002fc9a22a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5f932f02-915b-4c68-84fc-1b54864cb4fe.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5f932f02-915b-4c68-84fc-1b54864cb4fe.png
new file mode 100644
index 00000000..48fef06a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5f932f02-915b-4c68-84fc-1b54864cb4fe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5ff22c05-d2b5-4d25-9f60-b37da3ec231c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5ff22c05-d2b5-4d25-9f60-b37da3ec231c.png
new file mode 100644
index 00000000..e6522ce0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/5ff22c05-d2b5-4d25-9f60-b37da3ec231c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6166e10e-a211-4053-9236-f678e04822cc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6166e10e-a211-4053-9236-f678e04822cc.png
new file mode 100644
index 00000000..5593f401
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6166e10e-a211-4053-9236-f678e04822cc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/62216a8f-4753-45e0-853e-a73540ac5f36.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/62216a8f-4753-45e0-853e-a73540ac5f36.png
new file mode 100644
index 00000000..992658a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/62216a8f-4753-45e0-853e-a73540ac5f36.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/64a15276-092b-46b6-9c1e-7a2cf89d5d7b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/64a15276-092b-46b6-9c1e-7a2cf89d5d7b.png
new file mode 100644
index 00000000..e02a0ede
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/64a15276-092b-46b6-9c1e-7a2cf89d5d7b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/64f57e1d-2a8d-481d-b2bc-27ed8c7d89fd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/64f57e1d-2a8d-481d-b2bc-27ed8c7d89fd.png
new file mode 100644
index 00000000..9a55643a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/64f57e1d-2a8d-481d-b2bc-27ed8c7d89fd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/65ce8f08-b037-4d00-a8b5-a94172b2d2bd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/65ce8f08-b037-4d00-a8b5-a94172b2d2bd.png
new file mode 100644
index 00000000..f0ba7ee6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/65ce8f08-b037-4d00-a8b5-a94172b2d2bd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6602861e-76f7-4378-afcc-db74b1161cf8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6602861e-76f7-4378-afcc-db74b1161cf8.png
new file mode 100644
index 00000000..fcb9f305
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6602861e-76f7-4378-afcc-db74b1161cf8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/67d8fcf8-1084-4a0e-aa5e-39b2ee798280.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/67d8fcf8-1084-4a0e-aa5e-39b2ee798280.png
new file mode 100644
index 00000000..ae3f2fc2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/67d8fcf8-1084-4a0e-aa5e-39b2ee798280.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/69673107-63a9-4cbd-99da-9d9d8fc6876b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/69673107-63a9-4cbd-99da-9d9d8fc6876b.png
new file mode 100644
index 00000000..d933cb2c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/69673107-63a9-4cbd-99da-9d9d8fc6876b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6baa4f01-2672-49cb-9e03-6dd1f0902cac.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6baa4f01-2672-49cb-9e03-6dd1f0902cac.png
new file mode 100644
index 00000000..3b4e9571
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6baa4f01-2672-49cb-9e03-6dd1f0902cac.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6bbe0df1-e132-459f-bc1b-f48cfb9be413.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6bbe0df1-e132-459f-bc1b-f48cfb9be413.png
new file mode 100644
index 00000000..6a868bb7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6bbe0df1-e132-459f-bc1b-f48cfb9be413.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6be54474-9af3-4242-a2ac-c55719a38b51.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6be54474-9af3-4242-a2ac-c55719a38b51.png
new file mode 100644
index 00000000..d0e3e7e4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6be54474-9af3-4242-a2ac-c55719a38b51.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6c5749db-c62e-4e24-b514-9ca21e1afe34.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6c5749db-c62e-4e24-b514-9ca21e1afe34.png
new file mode 100644
index 00000000..ec89f069
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6c5749db-c62e-4e24-b514-9ca21e1afe34.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6c7cc6d2-b697-492b-b277-1a3217a04fe2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6c7cc6d2-b697-492b-b277-1a3217a04fe2.png
new file mode 100644
index 00000000..2b607ef2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6c7cc6d2-b697-492b-b277-1a3217a04fe2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6ccce969-b83d-44cd-87d9-647322b6f44a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6ccce969-b83d-44cd-87d9-647322b6f44a.png
new file mode 100644
index 00000000..b01c333f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6ccce969-b83d-44cd-87d9-647322b6f44a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6d3375fb-d8cf-49aa-ba7e-26efe4d6b342.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6d3375fb-d8cf-49aa-ba7e-26efe4d6b342.png
new file mode 100644
index 00000000..79309269
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6d3375fb-d8cf-49aa-ba7e-26efe4d6b342.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6e10b613-f9a8-49eb-b1d6-d6e2072fcff4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6e10b613-f9a8-49eb-b1d6-d6e2072fcff4.png
new file mode 100644
index 00000000..d2d8e8cd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6e10b613-f9a8-49eb-b1d6-d6e2072fcff4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6e957a31-82f6-4670-8ad7-eaded45163f1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6e957a31-82f6-4670-8ad7-eaded45163f1.png
new file mode 100644
index 00000000..4c561500
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/6e957a31-82f6-4670-8ad7-eaded45163f1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/71c99373-2b99-42eb-9199-be1382be273b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/71c99373-2b99-42eb-9199-be1382be273b.png
new file mode 100644
index 00000000..992658a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/71c99373-2b99-42eb-9199-be1382be273b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/72352241-b56d-4536-b083-daebba4c21cf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/72352241-b56d-4536-b083-daebba4c21cf.png
new file mode 100644
index 00000000..bfaac847
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/72352241-b56d-4536-b083-daebba4c21cf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/73d8417a-6a5d-48b3-9d3c-2df95ad05b55.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/73d8417a-6a5d-48b3-9d3c-2df95ad05b55.png
new file mode 100644
index 00000000..e52977f4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/73d8417a-6a5d-48b3-9d3c-2df95ad05b55.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/75262c2f-fdbc-41c3-b461-9a04b2d24de7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/75262c2f-fdbc-41c3-b461-9a04b2d24de7.png
new file mode 100644
index 00000000..ae37bfb7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/75262c2f-fdbc-41c3-b461-9a04b2d24de7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/768479fc-f213-41d9-898d-927c60d1869b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/768479fc-f213-41d9-898d-927c60d1869b.png
new file mode 100644
index 00000000..794906a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/768479fc-f213-41d9-898d-927c60d1869b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/76dcff96-1ac6-4b4d-a3f9-465c3f178ff2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/76dcff96-1ac6-4b4d-a3f9-465c3f178ff2.png
new file mode 100644
index 00000000..8a8cb47b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/76dcff96-1ac6-4b4d-a3f9-465c3f178ff2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/77383ecb-ff77-43fa-99ae-c06f245dd01e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/77383ecb-ff77-43fa-99ae-c06f245dd01e.png
new file mode 100644
index 00000000..940cfada
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/77383ecb-ff77-43fa-99ae-c06f245dd01e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/780c5000-1e48-466d-8e60-de7561b8d815.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/780c5000-1e48-466d-8e60-de7561b8d815.png
new file mode 100644
index 00000000..866172d1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/780c5000-1e48-466d-8e60-de7561b8d815.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/786819b2-885e-4fa8-80bf-de2842258087.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/786819b2-885e-4fa8-80bf-de2842258087.png
new file mode 100644
index 00000000..4afdd940
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/786819b2-885e-4fa8-80bf-de2842258087.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/79d278c8-9d3b-409e-ae79-de957bb6251c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/79d278c8-9d3b-409e-ae79-de957bb6251c.png
new file mode 100644
index 00000000..fba9f59b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/79d278c8-9d3b-409e-ae79-de957bb6251c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7a62120f-3616-4e5d-9edc-29f301fa363e.jpeg b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7a62120f-3616-4e5d-9edc-29f301fa363e.jpeg
new file mode 100644
index 00000000..5391d326
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7a62120f-3616-4e5d-9edc-29f301fa363e.jpeg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7af1eb56-d3b4-4e26-a4fc-804077759dcd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7af1eb56-d3b4-4e26-a4fc-804077759dcd.png
new file mode 100644
index 00000000..6b1a5e42
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7af1eb56-d3b4-4e26-a4fc-804077759dcd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7ca8c778-786e-4432-b25f-0409a6d2ef8c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7ca8c778-786e-4432-b25f-0409a6d2ef8c.png
new file mode 100644
index 00000000..e22d483d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7ca8c778-786e-4432-b25f-0409a6d2ef8c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7dcad348-20fc-4827-96c5-f4e62ffd10bb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7dcad348-20fc-4827-96c5-f4e62ffd10bb.png
new file mode 100644
index 00000000..5bbbae4b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7dcad348-20fc-4827-96c5-f4e62ffd10bb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7dfccd76-fb68-4aae-8911-22af5e77a48c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7dfccd76-fb68-4aae-8911-22af5e77a48c.png
new file mode 100644
index 00000000..298b2e51
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7dfccd76-fb68-4aae-8911-22af5e77a48c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7e081a94-5c7d-4e85-a20a-e1576ec3cea9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7e081a94-5c7d-4e85-a20a-e1576ec3cea9.png
new file mode 100644
index 00000000..c26f65e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7e081a94-5c7d-4e85-a20a-e1576ec3cea9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7e9e4820-3c32-47c8-9529-a914a16cdd59.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7e9e4820-3c32-47c8-9529-a914a16cdd59.png
new file mode 100644
index 00000000..eed31f51
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/7e9e4820-3c32-47c8-9529-a914a16cdd59.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/81841ec1-c702-47ac-84d3-11fc81c679bd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/81841ec1-c702-47ac-84d3-11fc81c679bd.png
new file mode 100644
index 00000000..fd43473a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/81841ec1-c702-47ac-84d3-11fc81c679bd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/81b66b3b-aaa5-45a5-82d4-e14bfc38ecc0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/81b66b3b-aaa5-45a5-82d4-e14bfc38ecc0.png
new file mode 100644
index 00000000..7cc38447
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/81b66b3b-aaa5-45a5-82d4-e14bfc38ecc0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/82595ac0-af4d-4777-8394-1939beb4c4b7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/82595ac0-af4d-4777-8394-1939beb4c4b7.png
new file mode 100644
index 00000000..5149e13b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/82595ac0-af4d-4777-8394-1939beb4c4b7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8325444b-269a-4dca-9f6d-b1cb9cb77b8a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8325444b-269a-4dca-9f6d-b1cb9cb77b8a.png
new file mode 100644
index 00000000..5ff0cfdf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8325444b-269a-4dca-9f6d-b1cb9cb77b8a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/83315a84-c753-4f37-980c-a9b5dd4e5ed8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/83315a84-c753-4f37-980c-a9b5dd4e5ed8.png
new file mode 100644
index 00000000..004eeb6e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/83315a84-c753-4f37-980c-a9b5dd4e5ed8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/83f2a674-113d-4694-ba19-9ba8dc7cc57c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/83f2a674-113d-4694-ba19-9ba8dc7cc57c.png
new file mode 100644
index 00000000..68a977be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/83f2a674-113d-4694-ba19-9ba8dc7cc57c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/86871ff5-e121-4939-b639-80c9587e7c56.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/86871ff5-e121-4939-b639-80c9587e7c56.png
new file mode 100644
index 00000000..31efd47d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/86871ff5-e121-4939-b639-80c9587e7c56.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/876ab489-46d8-4ced-92a3-32a95fbb08c4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/876ab489-46d8-4ced-92a3-32a95fbb08c4.png
new file mode 100644
index 00000000..8df0bf6f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/876ab489-46d8-4ced-92a3-32a95fbb08c4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/89c50dc0-72c8-4ccf-83db-1e588b47c268.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/89c50dc0-72c8-4ccf-83db-1e588b47c268.png
new file mode 100644
index 00000000..9f31a54b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/89c50dc0-72c8-4ccf-83db-1e588b47c268.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/89e7d103-9c26-4a97-aaa8-78989fd0b407.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/89e7d103-9c26-4a97-aaa8-78989fd0b407.png
new file mode 100644
index 00000000..7be58435
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/89e7d103-9c26-4a97-aaa8-78989fd0b407.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8b22fd60-5661-44c7-b485-a00f74f9fb83.jpg b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8b22fd60-5661-44c7-b485-a00f74f9fb83.jpg
new file mode 100644
index 00000000..9996d535
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8b22fd60-5661-44c7-b485-a00f74f9fb83.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8bbaa47e-7702-433d-aac9-870000b96aa9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8bbaa47e-7702-433d-aac9-870000b96aa9.png
new file mode 100644
index 00000000..050d89b5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8bbaa47e-7702-433d-aac9-870000b96aa9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d0065fb-e97a-457a-bca4-8a70e70fa661.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d0065fb-e97a-457a-bca4-8a70e70fa661.png
new file mode 100644
index 00000000..a347a8f3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d0065fb-e97a-457a-bca4-8a70e70fa661.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d44a941-a39a-4c25-8b07-1457bef65c63.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d44a941-a39a-4c25-8b07-1457bef65c63.png
new file mode 100644
index 00000000..d2962567
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d44a941-a39a-4c25-8b07-1457bef65c63.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d4bf29d-dca0-4114-9f7b-79469774b4a9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d4bf29d-dca0-4114-9f7b-79469774b4a9.png
new file mode 100644
index 00000000..8c9e8e2a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d4bf29d-dca0-4114-9f7b-79469774b4a9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d84d0b7-32b3-4ac3-a3d1-d1ba262ee005.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d84d0b7-32b3-4ac3-a3d1-d1ba262ee005.png
new file mode 100644
index 00000000..976e2cf0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d84d0b7-32b3-4ac3-a3d1-d1ba262ee005.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d9339a0-4050-4c6f-8756-c05e881ccb3c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d9339a0-4050-4c6f-8756-c05e881ccb3c.png
new file mode 100644
index 00000000..4e154bd6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8d9339a0-4050-4c6f-8756-c05e881ccb3c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8e47dac3-cf66-406f-8222-dbf2905cd686.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8e47dac3-cf66-406f-8222-dbf2905cd686.png
new file mode 100644
index 00000000..8d172ab6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/8e47dac3-cf66-406f-8222-dbf2905cd686.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9023d9b6-88bb-447f-aeb6-17b44aae03b8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9023d9b6-88bb-447f-aeb6-17b44aae03b8.png
new file mode 100644
index 00000000..0aa8e310
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9023d9b6-88bb-447f-aeb6-17b44aae03b8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/909f22eb-4654-4ba9-b596-1d49ef36a2aa.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/909f22eb-4654-4ba9-b596-1d49ef36a2aa.png
new file mode 100644
index 00000000..ed39efcf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/909f22eb-4654-4ba9-b596-1d49ef36a2aa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/92ffcb3f-b5eb-4b0c-8ec6-a364fa7a3775.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/92ffcb3f-b5eb-4b0c-8ec6-a364fa7a3775.png
new file mode 100644
index 00000000..9f1445e7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/92ffcb3f-b5eb-4b0c-8ec6-a364fa7a3775.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/932dc7a9-29ef-438c-ae22-d0397b9fab67.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/932dc7a9-29ef-438c-ae22-d0397b9fab67.png
new file mode 100644
index 00000000..37d0341d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/932dc7a9-29ef-438c-ae22-d0397b9fab67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/94ec44a4-d673-4c34-854b-e1d35c371270.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/94ec44a4-d673-4c34-854b-e1d35c371270.png
new file mode 100644
index 00000000..bcf203f8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/94ec44a4-d673-4c34-854b-e1d35c371270.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9585b379-18ef-43e1-9a0a-60b00b5e6efb.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9585b379-18ef-43e1-9a0a-60b00b5e6efb.png
new file mode 100644
index 00000000..e512196d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9585b379-18ef-43e1-9a0a-60b00b5e6efb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/95a14b78-836f-49f9-9709-4c20f0a2152e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/95a14b78-836f-49f9-9709-4c20f0a2152e.png
new file mode 100644
index 00000000..521b0366
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/95a14b78-836f-49f9-9709-4c20f0a2152e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/97baa6ef-0c5a-4258-b4d2-f1910f97cc82.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/97baa6ef-0c5a-4258-b4d2-f1910f97cc82.png
new file mode 100644
index 00000000..14e7e5f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/97baa6ef-0c5a-4258-b4d2-f1910f97cc82.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9846d629-256f-4200-a012-02f6dba24730.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9846d629-256f-4200-a012-02f6dba24730.png
new file mode 100644
index 00000000..f32fe0c1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9846d629-256f-4200-a012-02f6dba24730.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9960ba72-9308-4507-bc6f-33b4ea110623.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9960ba72-9308-4507-bc6f-33b4ea110623.png
new file mode 100644
index 00000000..64d54f6c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9960ba72-9308-4507-bc6f-33b4ea110623.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9b74f7f3-e953-46a0-a975-3d9b78497042.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9b74f7f3-e953-46a0-a975-3d9b78497042.png
new file mode 100644
index 00000000..e9714dac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9b74f7f3-e953-46a0-a975-3d9b78497042.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9c9f4952-6bd9-4355-82d6-947bb003c29a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9c9f4952-6bd9-4355-82d6-947bb003c29a.png
new file mode 100644
index 00000000..da7e4677
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9c9f4952-6bd9-4355-82d6-947bb003c29a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9dc140c8-5a57-428c-8d95-fe121fb43532.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9dc140c8-5a57-428c-8d95-fe121fb43532.png
new file mode 100644
index 00000000..5a9ca1f7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9dc140c8-5a57-428c-8d95-fe121fb43532.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9f649786-6c8e-4b3f-b0a4-bb9196747b2d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9f649786-6c8e-4b3f-b0a4-bb9196747b2d.png
new file mode 100644
index 00000000..bdd5de9c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/9f649786-6c8e-4b3f-b0a4-bb9196747b2d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1666498-816b-4b2b-87a6-4c777b0e2976.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1666498-816b-4b2b-87a6-4c777b0e2976.png
new file mode 100644
index 00000000..08641f59
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1666498-816b-4b2b-87a6-4c777b0e2976.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1b2ed80-6b11-4cdd-b69f-4dd54bf630b9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1b2ed80-6b11-4cdd-b69f-4dd54bf630b9.png
new file mode 100644
index 00000000..c77814ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1b2ed80-6b11-4cdd-b69f-4dd54bf630b9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1e52502-90c0-477b-82fa-70b9ee8e3450.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1e52502-90c0-477b-82fa-70b9ee8e3450.png
new file mode 100644
index 00000000..18329a36
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a1e52502-90c0-477b-82fa-70b9ee8e3450.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a2112f9b-9250-42c1-85c0-9be6fab58c48.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a2112f9b-9250-42c1-85c0-9be6fab58c48.png
new file mode 100644
index 00000000..8e08566c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a2112f9b-9250-42c1-85c0-9be6fab58c48.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a24eda9c-4190-41e1-bc67-d4d3a775f1d9.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a24eda9c-4190-41e1-bc67-d4d3a775f1d9.png
new file mode 100644
index 00000000..04f90cc2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a24eda9c-4190-41e1-bc67-d4d3a775f1d9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a33df20e-bf48-44a2-b065-44b02e2bf715.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a33df20e-bf48-44a2-b065-44b02e2bf715.png
new file mode 100644
index 00000000..6bbb188c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a33df20e-bf48-44a2-b065-44b02e2bf715.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a41d094b-e97b-407c-917d-75e3604a9f83.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a41d094b-e97b-407c-917d-75e3604a9f83.png
new file mode 100644
index 00000000..8b44d3a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a41d094b-e97b-407c-917d-75e3604a9f83.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a462f840-72e8-4bd3-adda-859232692693.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a462f840-72e8-4bd3-adda-859232692693.png
new file mode 100644
index 00000000..e4d332ae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a462f840-72e8-4bd3-adda-859232692693.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a4a2458f-1671-4689-b374-e77d590feef0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a4a2458f-1671-4689-b374-e77d590feef0.png
new file mode 100644
index 00000000..d8cd7b80
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a4a2458f-1671-4689-b374-e77d590feef0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a516e800-2a10-471f-84b2-c76d65e116c1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a516e800-2a10-471f-84b2-c76d65e116c1.png
new file mode 100644
index 00000000..f2fe9007
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a516e800-2a10-471f-84b2-c76d65e116c1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a6c5d938-0eea-4819-8a4c-6e5561ccbd12.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a6c5d938-0eea-4819-8a4c-6e5561ccbd12.png
new file mode 100644
index 00000000..c03a6f68
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a6c5d938-0eea-4819-8a4c-6e5561ccbd12.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a85b6a85-7af3-46bc-aa93-70b13630a83d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a85b6a85-7af3-46bc-aa93-70b13630a83d.png
new file mode 100644
index 00000000..290b17f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a85b6a85-7af3-46bc-aa93-70b13630a83d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a9e4c932-14ec-410e-81ec-255822daa48e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a9e4c932-14ec-410e-81ec-255822daa48e.png
new file mode 100644
index 00000000..e18d1169
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/a9e4c932-14ec-410e-81ec-255822daa48e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad215dbc-939b-4eff-a0be-e217c9cc2bf5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad215dbc-939b-4eff-a0be-e217c9cc2bf5.png
new file mode 100644
index 00000000..2e1d40da
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad215dbc-939b-4eff-a0be-e217c9cc2bf5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad7faaaf-0c2c-4576-92b4-6b1cf41f2489.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad7faaaf-0c2c-4576-92b4-6b1cf41f2489.png
new file mode 100644
index 00000000..290b17f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad7faaaf-0c2c-4576-92b4-6b1cf41f2489.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad8232d2-aff2-47bb-8654-343e8a131ef2.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad8232d2-aff2-47bb-8654-343e8a131ef2.png
new file mode 100644
index 00000000..e7b76891
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ad8232d2-aff2-47bb-8654-343e8a131ef2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ada2acb7-d8a7-4b38-8329-e7e64ba13a85.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ada2acb7-d8a7-4b38-8329-e7e64ba13a85.png
new file mode 100644
index 00000000..71032fc7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ada2acb7-d8a7-4b38-8329-e7e64ba13a85.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/adfb193f-163c-4f21-9dae-af3df778d861.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/adfb193f-163c-4f21-9dae-af3df778d861.png
new file mode 100644
index 00000000..c33aa2f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/adfb193f-163c-4f21-9dae-af3df778d861.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b1fb5c7a-789d-4a36-88df-0aab844dd80a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b1fb5c7a-789d-4a36-88df-0aab844dd80a.png
new file mode 100644
index 00000000..f171543b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b1fb5c7a-789d-4a36-88df-0aab844dd80a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b455813e-a6a5-486d-af4d-83efcfcd4c80.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b455813e-a6a5-486d-af4d-83efcfcd4c80.png
new file mode 100644
index 00000000..758b619c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b455813e-a6a5-486d-af4d-83efcfcd4c80.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b57ad591-d3d9-41d2-927b-357920901174.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b57ad591-d3d9-41d2-927b-357920901174.png
new file mode 100644
index 00000000..cb707a3a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b57ad591-d3d9-41d2-927b-357920901174.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b648cee7-9c85-4912-a310-764c72904530.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b648cee7-9c85-4912-a310-764c72904530.png
new file mode 100644
index 00000000..20185443
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b648cee7-9c85-4912-a310-764c72904530.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b6b48628-65c7-4267-a4d4-523f18176d6c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b6b48628-65c7-4267-a4d4-523f18176d6c.png
new file mode 100644
index 00000000..eda5b590
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b6b48628-65c7-4267-a4d4-523f18176d6c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b717132a-d629-41e8-b622-7424137ccf76.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b717132a-d629-41e8-b622-7424137ccf76.png
new file mode 100644
index 00000000..9cb750c3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b717132a-d629-41e8-b622-7424137ccf76.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b7d2ca94-6643-41d4-ac7d-aa8bdb593cff.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b7d2ca94-6643-41d4-ac7d-aa8bdb593cff.png
new file mode 100644
index 00000000..fbccb10a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/b7d2ca94-6643-41d4-ac7d-aa8bdb593cff.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bc0b7b74-497f-4bae-8f14-a5661a0c48af.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bc0b7b74-497f-4bae-8f14-a5661a0c48af.png
new file mode 100644
index 00000000..99dadc74
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bc0b7b74-497f-4bae-8f14-a5661a0c48af.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bc83753f-d373-4b82-a266-72673135f8d1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bc83753f-d373-4b82-a266-72673135f8d1.png
new file mode 100644
index 00000000..6e48d90e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bc83753f-d373-4b82-a266-72673135f8d1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bdab7ceb-ab2d-45c2-8c77-c896a0bfb2c5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bdab7ceb-ab2d-45c2-8c77-c896a0bfb2c5.png
new file mode 100644
index 00000000..e02b5efe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bdab7ceb-ab2d-45c2-8c77-c896a0bfb2c5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bdf82cb8-25df-4316-ab30-7c488e38f119.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bdf82cb8-25df-4316-ab30-7c488e38f119.png
new file mode 100644
index 00000000..1291687d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bdf82cb8-25df-4316-ab30-7c488e38f119.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/be91b2e2-dce0-40eb-ae79-746dd9ddb97c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/be91b2e2-dce0-40eb-ae79-746dd9ddb97c.png
new file mode 100644
index 00000000..497ba47d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/be91b2e2-dce0-40eb-ae79-746dd9ddb97c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/be9a0fa6-08a0-474a-8d62-b28113ea7fcf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/be9a0fa6-08a0-474a-8d62-b28113ea7fcf.png
new file mode 100644
index 00000000..7ac4a77e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/be9a0fa6-08a0-474a-8d62-b28113ea7fcf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bea02ad3-cb06-4762-8ddd-1ecd8acd8a7a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bea02ad3-cb06-4762-8ddd-1ecd8acd8a7a.png
new file mode 100644
index 00000000..c80577c3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/bea02ad3-cb06-4762-8ddd-1ecd8acd8a7a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c07baaa1-6d33-4e1b-b759-e81faa535390.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c07baaa1-6d33-4e1b-b759-e81faa535390.png
new file mode 100644
index 00000000..43d07c32
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c07baaa1-6d33-4e1b-b759-e81faa535390.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c102f556-b78a-45cb-b402-302b91561d97.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c102f556-b78a-45cb-b402-302b91561d97.png
new file mode 100644
index 00000000..16c369cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c102f556-b78a-45cb-b402-302b91561d97.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1178ecc-74c4-4240-9fa9-5fa0ff8e6c67.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1178ecc-74c4-4240-9fa9-5fa0ff8e6c67.png
new file mode 100644
index 00000000..c90b3d02
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1178ecc-74c4-4240-9fa9-5fa0ff8e6c67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1615057-9eee-451a-aa6e-49226c642255.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1615057-9eee-451a-aa6e-49226c642255.png
new file mode 100644
index 00000000..18e53440
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1615057-9eee-451a-aa6e-49226c642255.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c16cd84f-3e3a-42e5-b619-a628b3160c0c.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c16cd84f-3e3a-42e5-b619-a628b3160c0c.png
new file mode 100644
index 00000000..372c37f4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c16cd84f-3e3a-42e5-b619-a628b3160c0c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1ccae7d-7e2d-4c5c-9d8f-8f3d7d29a2bf.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1ccae7d-7e2d-4c5c-9d8f-8f3d7d29a2bf.png
new file mode 100644
index 00000000..9f2a04d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c1ccae7d-7e2d-4c5c-9d8f-8f3d7d29a2bf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c27dff75-763d-479c-aea9-4846c6cd2e08.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c27dff75-763d-479c-aea9-4846c6cd2e08.png
new file mode 100644
index 00000000..97f855bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c27dff75-763d-479c-aea9-4846c6cd2e08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c2b7f7a6-bbb5-4daf-8a80-e52ef7edd315.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c2b7f7a6-bbb5-4daf-8a80-e52ef7edd315.png
new file mode 100644
index 00000000..4f0fbd75
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c2b7f7a6-bbb5-4daf-8a80-e52ef7edd315.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c5502868-fd41-47b9-859a-f36bcfd8020e.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c5502868-fd41-47b9-859a-f36bcfd8020e.png
new file mode 100644
index 00000000..34406069
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c5502868-fd41-47b9-859a-f36bcfd8020e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c67899b6-21c7-48ed-adf3-4fd1efd01d29.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c67899b6-21c7-48ed-adf3-4fd1efd01d29.png
new file mode 100644
index 00000000..88e4bb48
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c67899b6-21c7-48ed-adf3-4fd1efd01d29.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c8e91eed-3467-461c-8b35-17eaee574e35.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c8e91eed-3467-461c-8b35-17eaee574e35.png
new file mode 100644
index 00000000..954c2288
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c8e91eed-3467-461c-8b35-17eaee574e35.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c98bee73-f7c7-4615-b3dc-d54da04384c7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c98bee73-f7c7-4615-b3dc-d54da04384c7.png
new file mode 100644
index 00000000..024e7820
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/c98bee73-f7c7-4615-b3dc-d54da04384c7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/caea516d-c88e-49ce-9a31-be83ead57a5b.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/caea516d-c88e-49ce-9a31-be83ead57a5b.png
new file mode 100644
index 00000000..8f82c865
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/caea516d-c88e-49ce-9a31-be83ead57a5b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d1097939-d2ab-4455-a459-056d54e7e468.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d1097939-d2ab-4455-a459-056d54e7e468.png
new file mode 100644
index 00000000..fa1f15b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d1097939-d2ab-4455-a459-056d54e7e468.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d1652d62-c16c-4b05-b638-cbbaaebcb4b0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d1652d62-c16c-4b05-b638-cbbaaebcb4b0.png
new file mode 100644
index 00000000..7b3cbccd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d1652d62-c16c-4b05-b638-cbbaaebcb4b0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d28fc58c-b859-4882-869e-c5c3d783772d.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d28fc58c-b859-4882-869e-c5c3d783772d.png
new file mode 100644
index 00000000..39d194c2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d28fc58c-b859-4882-869e-c5c3d783772d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d3f3ccc7-fc1e-4338-9fb3-f5704b19b0f7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d3f3ccc7-fc1e-4338-9fb3-f5704b19b0f7.png
new file mode 100644
index 00000000..7cb4c223
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d3f3ccc7-fc1e-4338-9fb3-f5704b19b0f7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d566a0e8-10d6-4418-9e82-a59447d8f27a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d566a0e8-10d6-4418-9e82-a59447d8f27a.png
new file mode 100644
index 00000000..1a32d3f5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d566a0e8-10d6-4418-9e82-a59447d8f27a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d7a94c7b-b682-4671-99b8-63180437e306.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d7a94c7b-b682-4671-99b8-63180437e306.png
new file mode 100644
index 00000000..992658a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d7a94c7b-b682-4671-99b8-63180437e306.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d9784c61-5546-4ef2-8485-d134d1b8c132.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d9784c61-5546-4ef2-8485-d134d1b8c132.png
new file mode 100644
index 00000000..86febba2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d9784c61-5546-4ef2-8485-d134d1b8c132.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d9ca1b9a-3a54-4848-be67-d133f21e5e88.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d9ca1b9a-3a54-4848-be67-d133f21e5e88.png
new file mode 100644
index 00000000..342f56e9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/d9ca1b9a-3a54-4848-be67-d133f21e5e88.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/db398383-b1d7-407a-9f2a-ed4f4223c548.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/db398383-b1d7-407a-9f2a-ed4f4223c548.png
new file mode 100644
index 00000000..a21fdae1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/db398383-b1d7-407a-9f2a-ed4f4223c548.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/dc3b9bf7-c327-4b8b-ab37-7039b36c77f6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/dc3b9bf7-c327-4b8b-ab37-7039b36c77f6.png
new file mode 100644
index 00000000..8a4a6891
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/dc3b9bf7-c327-4b8b-ab37-7039b36c77f6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/def168f0-bef1-4905-8c0d-1ced2411df48.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/def168f0-bef1-4905-8c0d-1ced2411df48.png
new file mode 100644
index 00000000..92205b5b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/def168f0-bef1-4905-8c0d-1ced2411df48.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e0506807-c8f7-4fa1-b8c1-2b79d7600dd8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e0506807-c8f7-4fa1-b8c1-2b79d7600dd8.png
new file mode 100644
index 00000000..64aa1bcf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e0506807-c8f7-4fa1-b8c1-2b79d7600dd8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e055cf24-cc4d-4caf-87a6-b5187a26a92a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e055cf24-cc4d-4caf-87a6-b5187a26a92a.png
new file mode 100644
index 00000000..a2bf5494
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e055cf24-cc4d-4caf-87a6-b5187a26a92a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e161cee5-2998-42d1-a4ef-4ed108ad54ad.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e161cee5-2998-42d1-a4ef-4ed108ad54ad.png
new file mode 100644
index 00000000..07a5ab6b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e161cee5-2998-42d1-a4ef-4ed108ad54ad.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e229400a-7d81-4313-80b8-0ed1a34a5b3f.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e229400a-7d81-4313-80b8-0ed1a34a5b3f.png
new file mode 100644
index 00000000..294da821
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e229400a-7d81-4313-80b8-0ed1a34a5b3f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e50fa991-8408-4440-88e2-cd37d88e29a1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e50fa991-8408-4440-88e2-cd37d88e29a1.png
new file mode 100644
index 00000000..1cc619a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e50fa991-8408-4440-88e2-cd37d88e29a1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e5956406-688a-4c1b-986c-d73d3ef30bff.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e5956406-688a-4c1b-986c-d73d3ef30bff.png
new file mode 100644
index 00000000..2ab44d09
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e5956406-688a-4c1b-986c-d73d3ef30bff.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e67aa8f4-cd9d-4d88-922a-4c94bd55d0b0.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e67aa8f4-cd9d-4d88-922a-4c94bd55d0b0.png
new file mode 100644
index 00000000..3330a848
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e67aa8f4-cd9d-4d88-922a-4c94bd55d0b0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e67d8ec9-75a8-48a3-aa96-a76668954eb7.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e67d8ec9-75a8-48a3-aa96-a76668954eb7.png
new file mode 100644
index 00000000..b7038289
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e67d8ec9-75a8-48a3-aa96-a76668954eb7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e6d34b11-f143-43a2-bc9b-834b34f9dabc.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e6d34b11-f143-43a2-bc9b-834b34f9dabc.png
new file mode 100644
index 00000000..1d1c0dde
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e6d34b11-f143-43a2-bc9b-834b34f9dabc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e773d1e1-5b71-45f0-b465-66fc5d2902dd.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e773d1e1-5b71-45f0-b465-66fc5d2902dd.png
new file mode 100644
index 00000000..cb06424b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e773d1e1-5b71-45f0-b465-66fc5d2902dd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e9399ac7-840c-447c-93be-18677c3b69ea.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e9399ac7-840c-447c-93be-18677c3b69ea.png
new file mode 100644
index 00000000..5e13e7a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/e9399ac7-840c-447c-93be-18677c3b69ea.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ea5a0e67-5997-4205-836e-532a4560ee54.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ea5a0e67-5997-4205-836e-532a4560ee54.png
new file mode 100644
index 00000000..89b59bb0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ea5a0e67-5997-4205-836e-532a4560ee54.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/eb0bdcce-a7ea-47a3-bd8f-4f49cb6251a6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/eb0bdcce-a7ea-47a3-bd8f-4f49cb6251a6.png
new file mode 100644
index 00000000..a04705cd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/eb0bdcce-a7ea-47a3-bd8f-4f49cb6251a6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ec63d54a-25e8-40aa-bd4c-c8b071847486.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ec63d54a-25e8-40aa-bd4c-c8b071847486.png
new file mode 100644
index 00000000..a9a0f762
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ec63d54a-25e8-40aa-bd4c-c8b071847486.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/eec5591a-a3f9-4e1a-b6aa-bbe3b0be234a.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/eec5591a-a3f9-4e1a-b6aa-bbe3b0be234a.png
new file mode 100644
index 00000000..8b9dd5a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/eec5591a-a3f9-4e1a-b6aa-bbe3b0be234a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ef96922d-fbab-4bf0-bac4-07dc23ece429.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ef96922d-fbab-4bf0-bac4-07dc23ece429.png
new file mode 100644
index 00000000..7d863d36
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ef96922d-fbab-4bf0-bac4-07dc23ece429.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f0949a1c-45e6-49d6-af20-309f9b4dd0a3.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f0949a1c-45e6-49d6-af20-309f9b4dd0a3.png
new file mode 100644
index 00000000..c8c02b1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f0949a1c-45e6-49d6-af20-309f9b4dd0a3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f1b88b0e-e960-4830-9440-3e4ffa4ab083.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f1b88b0e-e960-4830-9440-3e4ffa4ab083.png
new file mode 100644
index 00000000..585e7910
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f1b88b0e-e960-4830-9440-3e4ffa4ab083.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f35fbb48-7c92-4025-8809-fc06a50e8574.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f35fbb48-7c92-4025-8809-fc06a50e8574.png
new file mode 100644
index 00000000..9250b898
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f35fbb48-7c92-4025-8809-fc06a50e8574.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f641c5d4-03a7-4cf6-8f46-eacadf6206f4.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f641c5d4-03a7-4cf6-8f46-eacadf6206f4.png
new file mode 100644
index 00000000..acf9fef3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f641c5d4-03a7-4cf6-8f46-eacadf6206f4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f653ecc8-9aae-468b-983e-256285270df6.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f653ecc8-9aae-468b-983e-256285270df6.png
new file mode 100644
index 00000000..0b2d4916
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f653ecc8-9aae-468b-983e-256285270df6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f7e17554-5438-49ea-964b-365d2bada273.jpg b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f7e17554-5438-49ea-964b-365d2bada273.jpg
new file mode 100644
index 00000000..032a23b3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f7e17554-5438-49ea-964b-365d2bada273.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f8763b49-1e75-456b-85d4-6b65ae1d8286.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f8763b49-1e75-456b-85d4-6b65ae1d8286.png
new file mode 100644
index 00000000..feddf84f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/f8763b49-1e75-456b-85d4-6b65ae1d8286.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fbe962da-d664-4cf8-9c26-31ddc850c175.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fbe962da-d664-4cf8-9c26-31ddc850c175.png
new file mode 100644
index 00000000..992658a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fbe962da-d664-4cf8-9c26-31ddc850c175.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fccb87ea-584c-4f34-8559-40f1e95c5206.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fccb87ea-584c-4f34-8559-40f1e95c5206.png
new file mode 100644
index 00000000..3670b350
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fccb87ea-584c-4f34-8559-40f1e95c5206.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fd99fc73-d225-45bc-9dcb-8ae25e9d5647.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fd99fc73-d225-45bc-9dcb-8ae25e9d5647.png
new file mode 100644
index 00000000..f924a5ca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fd99fc73-d225-45bc-9dcb-8ae25e9d5647.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fdcd5b37-b1e7-4248-8ec0-1569c96a25a8.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fdcd5b37-b1e7-4248-8ec0-1569c96a25a8.png
new file mode 100644
index 00000000..dbde4957
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fdcd5b37-b1e7-4248-8ec0-1569c96a25a8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fe00e39b-59ba-4a1f-a61c-0f67d4cca381.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fe00e39b-59ba-4a1f-a61c-0f67d4cca381.png
new file mode 100644
index 00000000..cf4aa9e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fe00e39b-59ba-4a1f-a61c-0f67d4cca381.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fe80e464-21d6-468f-bbc8-1a23d3a7a9a5.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fe80e464-21d6-468f-bbc8-1a23d3a7a9a5.png
new file mode 100644
index 00000000..8c9e8e2a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fe80e464-21d6-468f-bbc8-1a23d3a7a9a5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fee0eddc-8450-4997-ab80-615b4b4155c1.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fee0eddc-8450-4997-ab80-615b4b4155c1.png
new file mode 100644
index 00000000..a70a3f74
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fee0eddc-8450-4997-ab80-615b4b4155c1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fee62e08-e223-469d-a77e-82bac332aa67.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fee62e08-e223-469d-a77e-82bac332aa67.png
new file mode 100644
index 00000000..f697f112
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fee62e08-e223-469d-a77e-82bac332aa67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fefb7cb2-a21e-4ac2-8aaa-84401ab2bf71.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fefb7cb2-a21e-4ac2-8aaa-84401ab2bf71.png
new file mode 100644
index 00000000..af28c208
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/fefb7cb2-a21e-4ac2-8aaa-84401ab2bf71.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ff23d8a3-8380-4e37-949f-efd3614544ca.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ff23d8a3-8380-4e37-949f-efd3614544ca.png
new file mode 100644
index 00000000..cd697785
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ff23d8a3-8380-4e37-949f-efd3614544ca.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ff3c61ce-bd96-4088-8fbe-4cf175154e52.png b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ff3c61ce-bd96-4088-8fbe-4cf175154e52.png
new file mode 100644
index 00000000..fd33369a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/img/ff3c61ce-bd96-4088-8fbe-4cf175154e52.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec1.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec1.md
new file mode 100644
index 00000000..301892f7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec1.md
@@ -0,0 +1,7 @@
+# 第 1 节：Web 人工智能
+
+本节介绍**人工智能**（**AI**）的定义，并说明 AI 在很大程度上如何影响网络。 它还简要讨论了机器学习的基础。
+
+本节包括以下章节：
+
+*   “第 1 章”，“揭秘人工智能和机器学习基础”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec2.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec2.md
new file mode 100644
index 00000000..d3a61797
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec2.md
@@ -0,0 +1,9 @@
+# 第 2 节：使用深度学习的 Web 开发
+
+本节介绍了与深度学习相关的基本概念和术语，并介绍了如何使用深度学习通过 Python 中的不同深度学习库来构建简单的 Web 应用。
+
+本节包括以下章节：
+
+*   “第 2 章”，“使用 Python 进行深度学习入门”
+*   “第 3 章”，“创建您的第一个深度学习 Web 应用”
+*   “第 4 章”，“TensorFlow.js 入门”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec3.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec3.md
new file mode 100644
index 00000000..6f71a3b1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec3.md
@@ -0,0 +1,10 @@
+# 第 3 节：用于 Web 开发的不同深度学习 API 入门
+
+本节将说明 API 在软件开发中的一般用法，并说明如何使用不同的最新深度学习 API 来构建智能 Web 应用。 我们将涵盖**自然语言处理**（**NLP**）和计算机视觉等领域。
+
+本节包括以下章节：
+
+*   “第 5 章”，“通过 API 进行深度学习”
+*   “第 6 章”，“使用 Python 在 Google Cloud Platform 上进行深度学习”
+*   “第 7 章”，“使用 Python 的 AWS 上的 DL：对象检测和家庭自动化”
+*   “第 8 章”，“使用 Python 在 Microsoft Azure 上进行深度学习”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec4.md b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec4.md
new file mode 100644
index 00000000..fb97bd65
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/handson-py-dl-web/sec4.md
@@ -0,0 +1,10 @@
+# 第 4 节：生产中的深度学习（智能 Web 应用）
+
+本节提供了不同的案例研究，显示了如何开发和部署深度学习 Web 应用（使用深度学习 API），并展示了使用深度学习保护 Web 应用安全的措施。
+
+本节包括以下章节：
+
+*   “第 9 章”，“启用深度学习的网站的通用生产框架”
+*   “第 10 章”，“通过深度学习保护 Web 应用安全”
+*   “第 11 章”，“DIY – Web DL 生产环境”
+*   “第 12 章”，“使用 DL API 和客户支持聊天机器人创建 E2E Web 应用”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/1.md b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/1.md
new file mode 100644
index 00000000..f3141fc3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/1.md
@@ -0,0 +1,881 @@
+# 一、基础
+
+## 变量
+
+TensorFlow 是一种表示计算的方式，直到请求时才实际执行。 从这个意义上讲，它是一种延迟计算形式，它能够极大改善代码的运行：
+
++   更快地计算复杂变量
++   跨多个系统的分布式计算，包括 GPU。
++   减少了某些计算中的冗余
+
+我们来看看实际情况。 首先，一个非常基本的 python 脚本：
+
+```py
+x = 35
+y = x + 5
+print(y)
+```
+
+这个脚本基本上只是“创建一个值为`35`的变量`x`，将新变量`y`的值设置为它加上`5`，当前为`40`，并将其打印出来”。 运行此程序时将打印出值`40`。 如果你不熟悉 python，请创建一个名为`basic_script.py`的新文本文件，并将该代码复制到该文件中。将其保存在你的计算机上并运行它：
+
+```
+python basic_script.py
+```
+
+请注意，路径（即`basic_script.py`）必须指向该文件，因此如果它位于`Code`文件夹中，则使用：
+
+```
+python Code/basic_script.py
+```
+
+此外，请确保已激活 Anaconda 虚拟环境。 在 Linux 上，这将使你的提示符看起来像：
+
+```
+(tensorenv)username@computername:~$
+```
+
+如果起作用，让我们将其转换为 TensorFlow 等价形式。
+
+```py
+import tensorflow as tf
+
+x = tf.constant(35, name='x')
+y = tf.Variable(x + 5, name='y')
+
+print(y)
+```
+
+运行之后，你会得到一个非常有趣的输出，类似于`<tensorflow.python.ops.variables.Variable object at 0x7f074bfd9ef0>`。 这显然不是`40`的值。
+
+原因在于，我们的程序实际上与前一个程序完全不同。 这里的代码执行以下操作：
+
++   导入`tensorflow`模块并将其命名为`tf`
++   创建一个名为`x`的常量值，并为其赋值`35`
++   创建一个名为`y`的变量，并将其定义为等式`x + 5`
++   打印`y`的等式对象
+
+微妙的区别是，`y`没有像我们之前的程序那样，给出`x + 5`的当前值”。 相反，它实际上是一个等式，意思是“当计算这个变量时，取`x`的值（就像那样）并将它加上`5`”。 `y`值的计算在上述程序中从未实际执行。
+
+我们来解决这个问题：
+
+```py
+import tensorflow as tf
+
+x = tf.constant(35, name='x')
+y = tf.Variable(x + 5, name='y')
+
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    session.run(model)
+    print(session.run(y))
+```
+
+我们删除了`print(y)`语句，而是创建了一个会话，并实际计算了`y`的值。这里有相当多的样板，但它的工作原理如下：
+
++   导入`tensorflow`模块并将其命名为`tf`
++   创建一个名为`x`的常量值，并为其赋值`35`
++   创建一个名为`y`的变量，并将其定义为等式`x + 5`
++   使用`tf.global_variables_initializer()`初始化变量（我们将在此详细介绍）
++   创建用于计算值的会话
++   运行第四步中创建的模型
++   仅运行变量`y`并打印出其当前值
+
+上面的第四步是一些魔术发生的地方。在此步骤中，将创建变量之间的依赖关系的图。在这种情况下，变量`y`取决于变量`x`，并且通过向其添加`5`来转换它的值。请记住，直到第七步才计算该值，在此之前，仅计算等式和关系。
+
+1）常量也可以是数组。预测此代码将执行的操作，然后运行它来确认：
+
+```py
+import tensorflow as tf
+
+
+x = tf.constant([35, 40, 45], name='x')
+y = tf.Variable(x + 5, name='y')
+
+
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    session.run(model)
+    print(session.run(y))
+```
+
+生成包含 10,000 个随机数的 NumPy 数组（称为`x`），并创建一个存储等式的变量。
+
+![](img/tex1.gif)
+
+你可以使用以下代码生成 NumPy 数组：
+
+```py
+import numpy as np
+data = np.random.randint(1000, size=10000)
+```
+
+然后可以使用`data`变量代替上面问题 1 中的列表。 作为一般规则，NumPy 应该用于更大的列表/数字数组，因为它具有比列表更高的内存效率和更快的计算速度。 它还提供了大量的函数（例如计算均值），通常不可用于列表。
+
+3）你还可以在循环更新的变量，稍后我们将这些变量用于机器学习。 看看这段代码，预测它会做什么（然后运行它来检查）：
+
+```py
+import tensorflow as tf
+
+
+x = tf.Variable(0, name='x')
+
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    session.run(model)
+    for i in range(5):
+        x = x + 1
+        print(session.run(x))
+```
+
+4）使用上面（2）和（3）中的代码，创建一个程序，计算以下代码行的“滑动”平均值：`np.random.randint(1000)`。 换句话说，保持循环，并在每个循环中，调用`np.random.randint(1000)`一次，并将当前平均值存储在在每个循环中不断更新变量中。
+
+5）使用 TensorBoard 可视化其中一些示例的图。 要运行 TensorBoard，请使用以下命令：`tensorboard --logdir=path/to/log-directory`。
+
+```py
+import tensorflow as tf
+
+x = tf.constant(35, name='x')
+print(x)
+y = tf.Variable(x + 5, name='y')
+
+with tf.Session() as session:
+    merged = tf.summary.merge_all()
+    writer = tf.summary.FileWriter("/tmp/basic", session.graph)
+    model =  tf.global_variables_initializer()
+    session.run(model)
+    print(session.run(y))
+```
+
+
+要了解 Tensorboard 的更多信息，请访问我们的[可视化课程](http://learningtensorflow.com/Visualisation/)。
+
+## 数组
+
+在本教程中，我们将处理图像，以便可视化数组的更改。 数组是强大的结构，我们在前面的教程中简要介绍了它。 生成有趣的数组可能很困难，但图像提供了很好的选择。
+
+首先，下载此图像到你的计算机（右键单击，并寻找选项“图片另存为”）。
+
+![](img/MarshOrchid.jpg)
+
+此图片来自[维基共享的用户 Uoaei1](https://commons.wikimedia.org/wiki/Main_Page#/media/File:Dactylorhiza_majalis_Spechtensee_01.JPG)。
+
+要处理图像，我们需要`matplotlib`。 我们还需要`pillow`库，它会覆盖已弃用的 PIL 库来处理图像。 你可以使用 Anaconda 的安装方法在你的环境中安装它们：
+
+```
+conda install matplotlib pillow
+```
+
+要加载图像，我们使用`matplotlib`的图像模块：
+
+```py
+import matplotlib.image as mpimg
+import os
+# 首先加载图像
+dir_path = os.path.dirname(os.path.realpath(__file__))
+filename = dir_path + "/MarshOrchid.jpg"
+
+# 加载图像
+image = mpimg.imread(filename)
+
+# 打印它的形状
+print(image.shape)
+```
+
+上面的代码将图像作为 NumPy 数组读入，并打印出大小。 请注意，文件名必须是下载的图像文件的完整路径（绝对路径或相对路径）。
+
+你会看到输出，即`(5528, 3685, 3)`。 这意味着图像高 5528 像素，宽 3685 像素，3 种颜色“深”。
+
+你可以使用`pyplot`查看当前图像，如下所示：
+
+```py
+import matplotlib.pyplot as plt
+plt.imshow(image)
+plt.show()
+```
+
+现在我们有了图像，让我们使用 TensorFlow 对它进行一些更改。
+
+## 几何操作
+
+我们将要执行的第一个转换是转置，将图像逆时针旋转 90 度。 完整的程序如下，其中大部分是你见过的。
+
+```py
+import tensorflow as tf
+import matplotlib.image as mpimg
+import matplotlib.pyplot as plt
+import os
+
+# 再次加载图像
+dir_path = os.path.dirname(os.path.realpath(__file__))
+filename = dir_path + "/MarshOrchid.jpg"
+image = mpimg.imread(filename)
+
+# 创建 TF 变量
+x = tf.Variable(image, name='x')
+
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    x = tf.transpose(x, perm=[1, 0, 2])
+    session.run(model)
+    result = session.run(x)
+
+
+plt.imshow(result)
+plt.show()
+```
+
+转置操作的结果：
+
+![](img/OrchidTranspose.png)
+
+新东西是这一行：
+
+```py
+x = tf.transpose(x, perm=[1, 0, 2])
+```
+
+该行使用 TensorFlow 的`transpose`方法，使用`perm`参数交换轴 0 和 1（轴 2 保持原样）。
+
+我们将要做的下一个操作是（左右）翻转，将像素从一侧交换到另一侧。 TensorFlow 有一个称为`reverse_sequence`的方法，但签名有点奇怪。 这是文档所说的内容（来自[该页面](https://tensorflow.google.cn/api_docs/python/tf/reverse_sequence)）：
+
+> ```py
+> tf.reverse_sequence(
+>     input,
+>     seq_lengths,
+>     seq_axis=None,
+>     batch_axis=None,
+>     name=None,
+>     seq_dim=None,
+>     batch_dim=None
+> )
+> ```
+> 
+> 反转可变长度切片。
+> 
+> 这个操作首先沿着维度`batch_axis`对`input`却偏，并且对于每个切片`i`，沿着维度`seq_axis`反转第一个`seq_lengths [i]`元素。
+> 
+> `seq_lengths`的元素必须满足`seq_lengths [i] <= input.dims [seq_dim]`，而`seq_lengths`必须是长度为`input.dims [batch_dim]`的向量。
+> 
+> 然后，输入切片`i`给出了沿维度`batch_axis`的输出切片`i`，其中第一个`seq_lengths [i]`切片沿着维度`seq_axis`被反转。
+
+对于这个函数，最好将其视为：
+
++   根据`batch_dim`迭代数组。 设置`batch_dim = 0`意味着我们遍历行（从上到下）。
++   对于迭代中的每个项目
+    +   对第二维切片，用`seq_dim`表示。 设置`seq_dim = 1`意味着我们遍历列（从左到右）。
+    +   迭代中第`n`项的切片由`seq_lengths`中的第`n`项表示
+
+让我们实际看看它：
+
+```py
+import numpy as np
+import tensorflow as tf
+import matplotlib.image as mpimg
+import matplotlib.pyplot as plt
+import os
+# First, load the image again
+dir_path = os.path.dirname(os.path.realpath(__file__))
+filename = dir_path + "/MarshOrchid.jpg"
+image = mpimg.imread(filename)
+height, width, depth = image.shape
+
+# Create a TensorFlow Variable
+x = tf.Variable(image, name='x')
+
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    x = tf.reverse_sequence(x, [width] * height, 1, batch_dim=0)
+    session.run(model)
+    result = session.run(x)
+
+print(result.shape)
+plt.imshow(result)
+plt.show()
+```
+
+新东西是这一行：
+
+```py
+x = tf.reverse_sequence(x, np.ones((height,)) * width, 1, batch_dim=0)
+```
+
+它从上到下（沿着它的高度）迭代图像，并从左到右（沿着它的宽度）切片。 从这里开始，它选取大小为`width`的切片，其中`width`是图像的宽度。
+
+> 译者注：
+> 
+> 还有两个函数用于实现切片操作。一个是[`tf.reverse`](https://tensorflow.google.cn/api_docs/python/tf/manip/reverse)，另一个是张量的下标和切片运算符（和 NumPy 用法一样）。
+
+代码`np.ones((height,)) * width`创建一个填充值`width`的 NumPy 数组。 这不是很有效！ 不幸的是，在编写本文时，似乎此函数不允许你仅指定单个值。
+
+“翻转”操作的结果：
+
+![](img/OrchidFlipLR.png)
+
+1）将转置与翻转代码组合来顺时针旋转。
+
+2）目前，翻转代码（使用`reverse_sequence`）需要预先计算宽度。 查看`tf.shape`函数的文档，并使用它在会话中计算`x`变量的宽度。
+
+3）执行“翻转”，从上到下翻转图像。
+
+4）计算“镜像”，复制图像的前半部分，（左右）翻转然后复制到后半部分。
+
+## 占位符
+
+到目前为止，我们已经使用`Variables`来管理我们的数据，但是有一个更基本的结构，即占位符。 占位符只是一个变量，我们将在以后向它分配数据。 它允许我们创建我们的操作，并构建我们的计算图，而不需要数据。 在 TensorFlow 术语中，我们随后通过这些占位符，将数据提供给图。
+
+```py
+import tensorflow as tf
+
+x = tf.placeholder("float", None)
+y = x * 2
+
+with tf.Session() as session:
+    result = session.run(y, feed_dict={x: [1, 2, 3]})
+    print(result)
+```
+
+这个例子与我们之前的例子略有不同，让我们分解它。
+
+首先，我们正常导入`tensorflow`。然后我们创建一个名为`x`的`placeholder`，即我们稍后将存储值的内存中的位置。
+
+然后，我们创建一个`Tensor`，它是`x`乘以 2 的运算。注意我们还没有为`x`定义任何初始值。
+
+我们现在定义了一个操作（`y`），现在可以在会话中运行它。我们创建一个会话对象，然后只运行`y`变量。请注意，这意味着，如果我们定义了更大的操作图，我们只能运行图的一小部分。这个子图求值实际上是 TensorFlow 的一个卖点，而且许多其他类似的东西都没有。
+
+运行`y`需要了解`x`的值。我们在`feed_dict`参数中定义这些来运行。我们在这里声明`x`的值是`[1,2,3]`。我们运行`y`，给了我们结果`[2,4,6]`。
+
+占位符不需要静态大小。让我们更新我们的程序，让`x`可以接受任何长度。将`x`的定义更改为：
+
+```py
+x = tf.placeholder("float", None)
+```
+
+现在，当我们在`feed_dict`中定义`x`的值时，我们可以有任意维度的值。 代码应该仍然有效，并给出相同的答案，但现在它也可以处理`feed_dict`中的任意维度的值。
+
+占位符也可以有多个维度，允许存储数组。 在下面的示例中，我们创建一个 3 乘 2 的矩阵，并在其中存储一些数字。 然后，我们使用与以前相同的操作，来逐元素加倍数字。
+
+```py
+import tensorflow as tf
+
+x = tf.placeholder("float", [None, 3])
+y = x * 2
+
+with tf.Session() as session:
+    x_data = [[1, 2, 3],
+              [4, 5, 6],]
+    result = session.run(y, feed_dict={x: x_data})
+    print(result)
+```
+
+占位符的第一个维度是`None`，这意味着我们可以有任意数量的行。 第二个维度固定为 3，这意味着每行需要有三列数据。
+
+我们可以扩展它来接受任意数量的`None`维度。 在此示例中，我们加载来自上一课的图像，然后创建一个存储该图像切片的占位符。 切片是图像的 2D 片段，但每个“像素”具有三个分量（红色，绿色，蓝色）。 因此，对于前两个维度，我们需要`None`，但是对于最后一个维度，需要 3（或`None`也能用）。 然后，我们使用 TensorFlow 的切片方法从图像中取出一个子片段来操作。
+
+```py
+import tensorflow as tf
+import matplotlib.image as mpimg
+import matplotlib.pyplot as plt
+import os
+
+# First, load the image again
+dir_path = os.path.dirname(os.path.realpath(__file__))
+filename = dir_path + "/MarshOrchid.jpg"
+raw_image_data = mpimg.imread(filename)
+
+image = tf.placeholder("uint8", [None, None, 3])
+slice = tf.slice(image, [1000, 0, 0], [3000, -1, -1])
+
+with tf.Session() as session:
+    result = session.run(slice, feed_dict={image: raw_image_data})
+    print(result.shape)
+
+plt.imshow(result)
+plt.show()
+```
+
+> 译者注：使用下标和切片运算符也可以实现切片。
+
+结果是图像的子片段：
+
+![](img/OrchidSlice.png)
+
+1）在官方文档中查看 TensorFlow 中的[其他数组函数](https://www.tensorflow.com/versions/master/api_docs/python/array_ops.html#slicing-and-joining)。
+
+2）将图像分成四个“角”，然后再将它拼在一起。
+
+3）将图像转换为灰度。 一种方法是只采用一个颜色通道并显示。 另一种方法是将三个通道的平均值作为灰色。
+
+## 交互式会话
+
+现在我们有了一些例子，让我们更仔细地看看发生了什么。
+
+正如我们之前已经确定的那样，TensorFlow 允许我们创建操作和变量图。这些变量称为张量，表示数据，无论是单个数字，字符串，矩阵还是其他内容。张量通过操作来组合，整个过程以图来建模。
+
+首先，确保激活了`tensorenv`虚拟环境，一旦激活，请输入`conda install jupyter`来安装`jupter books`。
+
+然后，运行`jupyter notebook`以启动 Jupyter Notebook（以前称为 IPython Notebook）的浏览器会话。 （如果你的浏览器没有打开，请打开它并在浏览器的地址栏中输入`localhost:8888`。）
+
+单击`New`（新建），然后单击`Notebooks`（笔记本）下的`Python 3`（Python 3）。这将启动一个新的浏览器选项卡。通过单击顶部的`Untitled`（无标题）为该笔记本命名，并为其命名（我使用`Interactive TensorFlow`）。
+
+> 如果你以前从未使用过 Jupyter 笔记本（或 IPython 笔记本），请查看[此站点](http://opentechschool.github.io/python-data-intro/core/notebook.html)来获得简介。
+
+接下来，和以前一样，让我们创建一个基本的 TensorFlow 程序。 一个主要的变化是使用`InteractiveSession`，它允许我们运行变量，而不需要经常引用会话对象（减少输入！）。 下面的代码块分为不同的单元格。 如果你看到代码中断，则需要先运行上一个单元格。 此外，如果你不自信，请确保在运行之前将给定块中的所有代码键入单元格。
+
+```py
+import tensorflow as tf
+
+session = tf.InteractiveSession()
+
+x = tf.constant(list(range(10)))
+```
+在这段代码中，我们创建了一个`InteractiveSession`，然后定义一个常量值，就像一个占位符，但具有设置的值（不会改变）。 在下一个单元格中，我们可以求解此常量并打印结果。
+
+```py
+print(x.eval())
+```
+
+下面我们关闭打开的会话。
+
+```py
+session.close()
+```
+
+关闭会话非常重要，并且很容易忘记。 出于这个原因，我们在之前的教程中使用`with`关键字来处理这个问题。 当`with`块完成执行时，会话将被关闭（如果发生错误也会发生这种情况 - 会话仍然关闭）。
+
+现在让我们来看更大的例子。 在这个例子中，我们将使用一个非常大的矩阵并对其进行计算，跟踪何时使用内存。 首先，让我们看看我们的 Python 会话当前使用了多少内存：
+
+```py
+import resource
+print("{} Kb".format(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss))
+```
+
+在我的系统上，运行上面的代码之后，使用了 78496 千字节。 现在，创建一个新会话，并定义两个矩阵：
+
+```py
+import numpy as np
+session = tf.InteractiveSession()
+
+X = tf.constant(np.eye(10000))
+Y = tf.constant(np.random.randn(10000, 300))
+```
+
+让我们再看一下我们的内存使用情况：
+
+```py
+print("{} Kb".format(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss))
+```
+
+在我的系统上，内存使用率跃升至 885,220 Kb - 那些矩阵很大！
+
+现在，让我们使用`matmul`将这些矩阵相乘：
+
+```py
+Z = tf.matmul(X, Y)
+```
+
+如果我们现在检查我们的内存使用情况，我们发现没有使用更多的内存 - 没有实际的`Z`的计算。 只有当我们求解操作时，我们才真正计算。 对于交互式会话，你可以使用`Z.eval()`，而不是运行`session.run(Z)`。 请注意，你不能总是依赖`.eval()`，因为这是使用“默认”会话的快捷方式，不一定是你要使用的会话。
+
+如果你的计算机比较低级（例如，ram 低于 3Gb），那么不要运行此代码 - 相信我！
+
+```py
+Z.eval()
+```
+
+你的计算机会考虑很长一段时间，因为现在它才实际执行这些矩阵相乘。 之后检查内存使用情况会发现此计算已经发生，因为它现在使用了接近 3Gb！
+
+```py
+print("{} Kb".format(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss))
+```
+
+别忘了关闭你的会话！
+
+```py
+session.close()
+```
+
+注意：我建议使用新的 Jupyter Notebook，因为上面的示例代码可能会被意外再次执行，可能导致计算机崩溃！
+
+1）创建一个整数值的大矩阵（至少 10,000,000）（例如，使用 NumPy 的`randint`函数）。 创建矩阵后检查内存使用情况。 然后，使用 TensorFlow 的`to_float`函数将矩阵转换为浮点值。 再次检查内存使用情况，看到内存使用量增加超过两倍。 “加倍”是由创建矩阵的副本引起的，但是“额外增加”的原因是什么？ 执行此实验后，你可以使用此代码显示图像。
+
+```py
+from PIL import Image
+from io import BytesIO
+
+# 从字符串读取数据
+im = Image.open(BytesIO(result))
+im
+```
+
+> 提示：确保在每一步之后仔细测量内存使用情况，因为只是导入 TensorFlow 就会使用相当多的内存。
+
+2）使用 TensorFlow 的图像函数将上一个教程中的图像（或其他图像）转换为 JPEG 并记录内存使用情况。
+
+## 可视化
+
+在本课中，我们将介绍如何使用 TensorBoard 创建和可视化图。 我们在第一课变量中简要地浏览了 TensorBoard
+
+那么什么是 TensorBoard 以及我们为什么要使用它呢？
+
+TensorBoard 是一套 Web 应用程序，用于检查和理解你的 TensorFlow 运行和图。 TensorBoard 目前支持五种可视化：标量，图像，音频，直方图和图。 你将在 TensorFlow 中的计算用于训练大型深度神经网络，可能相当复杂且令人困惑，TensorBoard 将使你更容易理解，调试和优化 TensorFlow 程序。
+
+要实际查看 TensorBoard，请单击[此处](https://www.tensorflow.org/get_started/graph_viz)。
+
+这就是 TensorBoard 图的样子：
+
+![](img/ezgif.com-video-to-gif.gif)
+
+## 基本的脚本
+
+下面我们有了构建 TensorBoard 图的基本脚本。 现在，如果你在 python 解释器中运行它，会返回 63。
+
+```py
+import tensorflow as tf
+
+a = tf.add(1, 2,)
+b = tf.multiply(a, 3)
+c = tf.add(4, 5,)
+d = tf.multiply(c, 6,)
+e = tf.multiply(4, 5,)
+f = tf.div(c, 6,)
+g = tf.add(b, d)
+h = tf.multiply(g, f)
+
+with tf.Session() as sess:
+	print(sess.run(h))
+```
+
+现在我们在代码末尾添加一个`SummaryWriter`，这将在给定目录中创建一个文件夹，其中包含 TensorBoard 用于构建图的信息。
+
+```py
+with tf.Session() as sess:
+	writer = tf.summary.FileWriter("output", sess.graph)
+	print(sess.run(h))
+	writer.close()
+```
+
+如果你现在运行 TensorBoard，使用`tensorboard --logdir=path/to/logs/directory`，你会看到在你给定的目录中，你得到一个名为`output`的文件夹。 如果你在终端中访问 IP 地址，它将带你到 TensorBoard，然后如果你点击图，你将看到你的图。
+
+![](img/outputfolder.png)
+
+在这一点上，图遍布各处，并且相当难以阅读。 因此，请命名一些部分来其更更加可读。
+
+![](img/basic_graph.png)
+
+## 添加名称
+
+在下面的代码中，我们只添加了`parameter`几次。`name=[something]`。 这个`parameter`将接受所选区域并在图形上为其命名。
+
+```py
+a = tf.add(1, 2, name="Add_these_numbers")
+b = tf.multiply(a, 3)
+c = tf.add(4, 5, name="And_These_ones")
+d = tf.multiply(c, 6, name="Multiply_these_numbers")
+e = tf.multiply(4, 5, name="B_add")
+f = tf.div(c, 6, name="B_mul")
+g = tf.add(b, d)
+h = tf.multiply(g, f)
+```
+
+现在，如果你重新运行 python 文件，然后再次运行`tensorboard --logdir=path/to/logs/directory`，你现在将看到，在你命名的特定部分上，你的图有了一些名称。 然而，它仍然非常混乱，如果这是一个巨大的神经网络，它几乎是不可读的。
+
+![](img/names_graph.png)
+
+## 创建作用域
+
+如果我们通过键入`tf.name_scope("MyOperationGroup"):`给图命名：并使用`with tf.name_scope("Scope_A"):`给图这样的作用域，当你重新运行你的 TensorBoard 时，你会看到一些非常不同的东西。 图现在更容易阅读，你可以看到它都在图的标题下，这里是`MyOperationGroup`，然后你有你的作用域`A`和`B`，其中有操作。
+
+```py
+# 这里我们定义图的名称，作用域 A，B 和 C。
+with tf.name_scope("MyOperationGroup"):
+    with tf.name_scope("Scope_A"):
+        a = tf.add(1, 2, name="Add_these_numbers")
+        b = tf.multiply(a, 3)
+    with tf.name_scope("Scope_B"):
+        c = tf.add(4, 5, name="And_These_ones")
+        d = tf.multiply(c, 6, name="Multiply_these_numbers")
+
+with tf.name_scope("Scope_C"):
+    e = tf.multiply(4, 5, name="B_add")
+    f = tf.div(c, 6, name="B_mul")
+g = tf.add(b, d)
+h = tf.multiply(g, f)
+```
+
+如你所见，图现在更容易阅读。
+
+![](img/scope_graph.png)
+
+TensorBoard 具有广泛的功能，其中一些我们将在未来的课程中介绍。 如果你想深入了解，请先观看 [2017 年 TensorFlow 开发者大会的视频](https://www.youtube.com/embed/eBbEDRsCmv4?list=PLOU2XLYxmsIKGc_NBoIhTn2Qhraji53cv)。
+
+在本课中，我们研究了：
+
++   TensorBoard 图的基本布局
++   添加摘要编写器来构建 TensorBoard
++   将名称添加到 TensorBoard 图
++   将名称和作用域添加到 TensorBoard
+
+有一个很棒的第三方工具叫做 TensorDebugger（TDB），TBD 就像它所谓的调试器一样。 但是与 TensorBoard 中内置的标准调试器不同，TBD 直接与 TensorFlow 图的执行交互，并允许一次执行一个节点。 由于标准 TensorBoard 调试器不能在运行 TensorFlow 图时同时使用，因此必须先写日志文件。
+
++   从[这里](https://github.com/ericjang/tdb)安装 TBD 并阅读材料（试试 Demo！）。
++   将 TBD 与此梯度下降代码一起使用，绘制一个图表，通过结果显示调试器的工作，并打印预测模型。 （注意：这仅仅与 2.7 兼容）
+
+```py
+import tensorflow as tf
+import numpy as np
+
+# x 和 y 是我们的训练数据的占位符
+x = tf.placeholder("float")
+y = tf.placeholder("float")
+# w 是存储我们的值的变量。 它使用“猜测”来初始化
+# w[0] 是我们方程中的“a”，w[1] 是“b”
+w = tf.Variable([1.0, 2.0], name="w")
+# 我们的模型是 y = a*x + b
+y_model = tf.multiply(x, w[0]) + w[1]
+
+# 我们的误差定义为差异的平方
+error = tf.square(y - y_model)
+# GradientDescentOptimizer 完成繁重的工作
+train_op = tf.train.GradientDescentOptimizer(0.01).minimize(error)
+
+# TensorFlow 常规 - 初始化值，创建会话并运行模型
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    session.run(model)
+    for i in range(1000):
+        x_value = np.random.rand()
+        y_value = x_value * 2 + 6
+        session.run(train_op, feed_dict={x: x_value, y: y_value})
+
+    w_value = session.run(w)
+    print("Predicted model: {a:.3f}x + {b:.3f}".format(a=w_value[0], b=w_value[1]))
+```
+
+这些特殊图标用于常量和摘要节点。
+
+![](img/Selection_001.png)
+
+## 读取文件
+
+TensorFlow 支持读取更大的数据集，特别是这样，数据永远不能一次全部保存在内存中（如果有这个限制则不会非常有用）。 你可以使用一些函数和选项，从标准 Python 一直到特定的操作。
+
+TensorFlow 还支持编写自定义数据处理程序，如果你有一个包含大量数据的非常大的项目，这是值得研究的。 编写自定义数据加载是前期的一点努力，但以后可以节省大量时间。 此主题的更多信息，请查看[此处](https://www.tensorflow.org/versions/r0.11/how_tos/new_data_formats/index.html)的官方文档。
+
+在本课程中，我们将介绍使用 TensorFlow 读取 CSV 文件，以及在图中使用数据的基础知识。
+
+### 占位符
+
+读取数据的最基本方法是使用标准 python 代码读取它。 让我们来看一个基本的例子，从这个 [2016 年奥运会奖牌统计数据](https://pastebin.com/bPBrr46B)中读取数据。
+
+首先，我们创建我们的图，它接受一行数据，并累计总奖牌。
+
+```py
+import tensorflow as tf
+import os
+
+dir_path = os.path.dirname(os.path.realpath(__file__))
+filename = dir_path + "/olympics2016.csv"
+
+features = tf.placeholder(tf.int32, shape=[3], name='features')
+country = tf.placeholder(tf.string, name='country')
+total = tf.reduce_sum(features, name='total')
+```
+
+接下来，我将介绍一个名为`Print`的新操作，它打印出图形上某些节点的当前值。 它是一个单位元素，这意味着它将操作作为输入，只返回与输出相同的值。
+
+```py
+printerop = tf.Print(total, [country, features, total], name='printer')
+```
+
+当你求解打印操作时会发生什么？ 它基本上将当前值记录在第二个参数中（在本例中为列表`[country, features, total]`）并返回第一个值（`total`）。 但它被认为是一个变量，因此我们需要在启动会话时初始化所有变量。
+
+接下来，我们启动会话，然后打开文件来读取。 请注意，文件读取完全是在 python 中完成的 - 我们只是在执行图形的同时读取它。
+
+```py
+with tf.Session() as sess:
+    sess.run( tf.global_variables_initializer())
+    with open(filename) as inf:
+        # 跳过标题
+        next(inf)
+        for line in inf:
+            # 使用 python 将数据读入我们的特征
+            country_name, code, gold, silver, bronze, total = line.strip().split(",")
+            gold = int(gold)
+            silver = int(silver)
+            bronze = int(bronze)
+            # 运行打印操作
+            total = sess.run(printerop, feed_dict={features: [gold, silver, bronze], country:country_name})
+            print(country_name, total)
+```
+
+在循环的内部部分，我们读取文件的一行，用逗号分割，将值转换为整数，然后将数据作为占位符值提供给`feed_dict`。 如果你不确定这里发生了什么，请查看之前的占位符教程。
+
+当你运行它时，你会在每一行看到两个输出。 第一个输出将是打印操作的结果，看起来有点像这样：
+
+```
+I tensorflow/core/kernels/logging_ops.cc:79] [\"France\"][10 18 14][42]
+```
+
+下一个输出将是`print(country_name, total)`行的结果，该行打印当前国家/地区名称（python 变量）和运行打印操作的结果。 由于打印操作是一个单位函数，因此调用它的结果只是求值`total`的结果，这会将金，银和铜的数量相加。
+
+它通常以类似的方式工作得很好。 创建占位符，将一些数据加载到内存中，计算它，然后循环使用新数据。 毕竟，这是占位符的用途。
+
+### 读取 CSV
+
+TensorFlow 支持将数据直接读入张量，但格式有点笨重。 我将通过一种方式逐步完成此操作，但我选择了一种特殊的通用方法，我希望你可以将它用于你自己的项目。
+
+步骤是创建要读取的文件名的队列（列表），然后创建稍后将执行读取的读取器操作。 从这个阅读器操作中，创建在图执行阶段执行时用实际值替换的变量。
+
+让我们来看看该过程的最后几个步骤：
+
+```py
+def create_file_reader_ops(filename_queue):
+    reader = tf.TextLineReader(skip_header_lines=1)
+    _, csv_row = reader.read(filename_queue)
+    record_defaults = [[""], [""], [0], [0], [0], [0]]
+    country, code, gold, silver, bronze, total = tf.decode_csv(csv_row, record_defaults=record_defaults)
+    features = tf.pack([gold, silver, bronze])
+    return features, country
+```
+
+这里的读取器在技术上采用队列对象，而不是普通的 Python 列表，所以我们需要在将它传递给函数之前构建一个：
+
+```py
+filename_queue = tf.train.string_input_producer(filenames, num_epochs=1, shuffle=False)
+example, country = create_file_reader_ops(filename_queue)
+```
+
+由该函数调用产生的那些操作，稍后将表示来自我们的数据集的单个条目。 运行这些需要比平常更多的工作。 原因是队列本身不像正常操作那样位于图上，因此我们需要一个`Coordinator`来管理队列中的运行。 每次求值示例和标签时，此协调器将在数据集中递增，因为它们有效地从文件中提取数据。
+
+```py
+with tf.Session() as sess:
+     tf.global_variables_initializer().run()
+    coord = tf.train.Coordinator()
+    threads = tf.train.start_queue_runners(coord=coord)
+    while True:
+        try:
+            example_data, country_name = sess.run([example, country])
+            print(example_data, country_name)
+        except tf.errors.OutOfRangeError:
+            break
+```
+
+内部`while`循环保持循环，直到我们遇到`OutOfRangeError`，表明没有更多数据要还原。
+
+有了这段代码，我们现在从数据集中一次得到一行，直接加载到我们的图形中。 还有其他用于创建批量和打乱的功能 - 如果你想了解这些参数的更多信息，请查看`tf.train.string_input_producer`和`tf.train.shuffle_batch`中的一些参数。
+
+在本课中，我们研究了：
+
++   在执行 TensorFlow 图时使用 Python 读取数据
++   `tf.Print`操作
++   将数据直接读入 TensorFlow 图/变量
++   队列对象
++   更新第二个示例的代码（直接将文件读入 TensorFlow），使用与 python-version 相同的方式输出总和（即打印出来并使用`tf.Print`）
++   在`create_file_reader_ops`中解包特征操作，即不执行`tf.pack`行。 更改代码的其余部分来满足一下情况，特征作为三个单独的特征返回，而不是单个打包的特征。 需要改变什么？
++   将数据文件拆分为几个不同的文件（可以使用文本编辑器完成）并更新队列来全部读取它们。
++   使用`tf.train.shuffle_batch`将多行合成一个变量。 这对于较大的数据集比逐行读取更有用。
+
+对于问题4，一个好的目标是在一个批量中加载尽可能多的数据，但不要太多以至于它会使计算机的 RAM 过载。 这对于这个数据集无关紧要，但以后请记住。
+
+另外，使用批量时不会返回所有数据 - 如果批量未满，则不会返回。
+
+## 迁移到 AWS
+
+在很多情况下，运行代码可能非常耗时，特别是如果你正在运行机器学习或神经网络。除非你在计算机上花费了大量资金，否则转向基于云的服务可能是最好的方法。
+
+在本教程中，我们将采用一些 Tensorflow 代码并将其移至 Amazon Web 服务（AWS）弹性计算云实例（EC2）。
+
+亚马逊网络服务（AWS）是一个安全的云服务平台，提供计算能力，数据库存储，内容交付和其他功能，来帮助企业扩展和发展。此外，亚马逊弹性计算云（Amazon EC2）是一种 Web 服务，可在云中提供可调整大小的计算能力。它旨在使 Web 级云计算对开发人员更轻松。
+
+这样做的好处是，亚马逊拥有大量基于云的服务器，其背后有很多功能。这将允许你在网络上运行代码的时间，只有你能够从本地计算机运行代码的一半。这也意味着如果它是一个需要 5-8 个小时才能完成的大型文件，你可以在 EC2 实例上运行它，并将其保留在后台而不使用你的整个计算机资源。
+
+> 创建一个 EC2 环境会花费你的钱，但它是一个非常少，8 小时可能大约 4.00 美元。 一旦你停止使用它，将不会收取你的费用。请访问[此链接](https://aws.amazon.com/ec2/pricing/)来查看价格。
+
+### 创建 EC2 实例
+
+首先，访问 [AWS 控制台](https://console.aws.amazon.com/console/home?region=us-east-1)。
+
+使用你的亚马逊帐户登录。如果你没有，则会提示你创建一个，你需要执行此操作才能继续。
+
+接下来，请访问 [EC2 服务控制台](https://console.aws.amazon.com/ec2/v2/home?region=us-east-1)。
+
+单击`Launch Instance`并在右上角的下拉菜单中选择你的地区（例如`sydney, N california`）作为你的位置。
+
+接下来转到社区 AMI 并搜索 Ubuntu x64 AMI 和 TensorFlow（GPU），它已准备好通过 GPU 运行代码，但它也足以在其上运行基本或大型 Tensorflow 脚本，而且优势是 Tensorflow 已安装。
+
+> 此时，将向你收取费用，因此请务必在完成后关闭机器。 你可以转到 EC2 服务，选择机器并停止它。 你不需要为未运行的机器付费。
+
+系统将提示你如何连接到实例的一些信息。 如果你之前未使用过 AWS，则可能需要创建一个新密钥对才能安全地连接到你的实例。 在这种情况下，为你的密钥对命名，下载 pemfile，并将其存储在安全的地方 - 如果丢失，你将无法再次连接到你的实例！
+
+单击“连接”来获取使用 pem 文件连接到实例的信息。 最可能的情况是你将使用以下命令来使用`ssh`：
+
+```
+ssh -i <certificante_name>.pem ubuntu@<server_ip_address>
+```
+
+### 将你的代码移动到 AWS EC2
+
+我们将使用以下示例继续我们的 EC2 实例，这来自前面的章节：
+
+```py
+import tensorflow as tf
+import numpy as np
+
+# x 和 y 是我们的训练数据的占位符
+x = tf.placeholder("float")
+y = tf.placeholder("float")
+# w 是存储我们的值的变量。 它使用“猜测”来初始化
+# w[0] 是我们方程中的“a”，w[1] 是“b”
+w = tf.Variable([1.0, 2.0], name="w")
+# 我们的模型是 y = a*x + b
+y_model = tf.multiply(x, w[0]) + w[1]
+
+# 我们的误差定义为差异的平方
+error = tf.square(y - y_model)
+# GradientDescentOptimizer 完成繁重的工作
+train_op = tf.train.GradientDescentOptimizer(0.01).minimize(error)
+
+# TensorFlow 常规 - 初始化值，创建会话并运行模型
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    session.run(model)
+    for i in range(1000):
+        x_value = np.random.rand()
+        y_value = x_value * 2 + 6
+        session.run(train_op, feed_dict={x: x_value, y: y_value})
+
+    w_value = session.run(w)
+    print("Predicted model: {a:.3f}x + {b:.3f}".format(a=w_value[0], b=w_value[1]))
+```
+
+有很多方法可以将此文件放到EC2实例上，但最简单的方法之一就是复制并粘贴内容。
+
+首先，按`Ctrl + A`高亮以上所有代码，然后使用`Ctrl + C`复制所有代码
+
+在 Amazon 虚拟机上，移动到主目录并使用新文件名打开`nano`，我们将在此示例中调用`basic.py `（以下是终端命令）：
+
+```
+$ cd~/
+$ nano <nameofscript>.py
+```
+
+`nano`程序将打开，这是一个命令行文本编辑器。
+
+打开此程序后，将剪贴板的内容粘贴到此文件中。 在某些系统上，你可能需要使用`ssh`程序的文件选项，而不是按`Ctrl + V`进行粘贴。 在`nano`中，按`Ctrl + O`将文件保存在磁盘上，我们将其命名为`basic.py`，然后按`Ctrl + X`退出程序。
+
+一旦你退出`nano`，输入`python basic.py`就可以了！
+
+你现在应该看到终端中弹出代码的结果，因为你很可能会发现，这可能是一种执行大型数据程序的更好方法。
+
+Facenet 是一款利用 Tensorflow 的人脸识别程序，它提供了预先训练的模型，供你下载和运行来查看其工作原理。
+
+1）访问此链接并下载预先训练的人脸识别模型
+
+2）使用上面的教程，将代码上传到 EC2 实例并使其运行。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/2.md b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/2.md
new file mode 100644
index 00000000..9b96d6d8
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/2.md
@@ -0,0 +1,709 @@
+# 二、线性模型
+
+## 广播
+
+当我们操作不同维度的数组时，它们可以以不同的方式组合，无论是逐元素还是通过广播。
+
+让我们从头开始，构建更复杂的例子。 在下面的示例中，我们有表示单个数字的 TensorFlow 常量。
+
+```py
+import tensorflow as tf
+
+a = tf.constant(3, name='a')
+
+with tf.Session() as session:
+    print(session.run(a))
+```
+
+这里没什么惊喜！ 我们也可以进行计算，例如将其加上另一个数字：
+
+```py
+a = tf.constant(3, name='a')
+b = tf.constant(4, name='b')
+add_op = a + b
+
+with tf.Session() as session:
+    print(session.run(add_op))
+```
+
+让我们将这个概念扩展到一个数字列表。 首先，让我们创建一个包含三个数字的列表，然后创建另一个数字列表：
+
+```py
+a = tf.constant([1, 2, 3], name='a')
+b = tf.constant([4, 5, 6], name='b')
+add_op = a + b
+
+with tf.Session() as session:
+    print(session.run(add_op))
+```
+
+这称为逐元素操作，其中依次考虑每个列表中的元素，将它们相加，然后合并结果。
+
+如果我们将这个列表和仅仅一个数字相加，会发生什么？
+
+```py
+a = tf.constant([1, 2, 3], name='a')
+b = tf.constant(4, name='b')
+add_op = a + b
+
+with tf.Session() as session:
+    print(session.run(add_op))
+```
+
+这是你所期望的吗？ 这被称为广播操作。 我们的主要对象引用是`a`，它是一个数字列表，也称为数组或一维向量。 与单个数字（称为标量）相加会产生广播操作，其中标量将与列表的每个元素相加。
+
+现在让我们看一个扩展，它是一个二维数组，也称为矩阵。 这个额外的维度可以被认为是“列表的列表”。 换句话说，列表是标量的组合，矩阵是列表的列表。
+
+也就是说，矩阵上的操作如何工作？
+
+```py
+a = tf.constant([[1, 2, 3], [4, 5, 6]], name='a')
+b = tf.constant([[1, 2, 3], [4, 5, 6]], name='b')
+add_op = a + b
+
+with tf.Session() as session:
+    print(session.run(add_op))
+```
+
+这是逐元素的。 如果我们加上一个标量，结果是可以预测的：
+
+```py
+a = tf.constant([[1, 2, 3], [4, 5, 6]], name='a')
+b = tf.constant(100, name='b')
+add_op = a + b
+
+with tf.Session() as session:
+    print(session.run(add_op))
+```
+
+事情开始变得棘手。 如果我们将一维数组与二维矩阵相加会发生什么？
+
+```py
+a = tf.constant([[1, 2, 3], [4, 5, 6]], name='a')
+b = tf.constant([100, 101, 102], name='b')
+add_op = a + b
+
+with tf.Session() as session:
+    print(session.run(add_op))
+```
+
+在这种情况下，数组被广播为矩阵的形状，导致数组与矩阵的每一行相加。 使用此术语，矩阵是行的列表。
+
+如果我们不想要这个，而是想将矩阵的列与`b`相加呢？
+
+```py
+a = tf.constant([[1, 2, 3], [4, 5, 6]], name='a')
+b = tf.constant([100, 101,], name='b')
+add_op = a + b
+
+with tf.Session() as session:
+    print(session.run(add_op))
+```
+
+这不起作用，因为 TensorFlow 试图按照行广播。 它不能这样做，因为`b`中的值的数量（2）与每行中的标量数量（3）不同。
+
+我们可以通过从列表中创建一个新矩阵来执行此操作。
+
+```py
+a = tf.constant([[1, 2, 3], [4, 5, 6]], name='a')
+b = tf.constant([[100], [101]], name='b')
+add_op = a + b
+
+with tf.Session() as session:
+    print(session.run(add_op))
+```
+
+这里发生了什么？ 要理解这一点，让我们看一下矩阵形状。
+
+```py
+a.shape
+    TensorShape([Dimension(2), Dimension(3)])
+b.shape
+    TensorShape([Dimension(2), Dimension(1)])
+```
+
+你可以从这两个示例中看到`a`有两个维度，第一个大小为 2，第二个大小为 3。换句话说，它有两行，每行有三个标量。
+
+我们的常数`b`也有两个维度，两行，每行一个标量。如果有一行两个标量，这与列表不同，也与矩阵不同。
+
+由于形状在第一维匹配，而第二维不匹配的事实，广播发生在列而不是行中。 广播规则的更多信息请参见[此处](https://www.tensorflow.org/versions/master/experimental/xla/broadcasting)。
+
+创建一个三维矩阵。 如果将其与标量，数组或矩阵相加，会发生什么？
+使用`tf.shape`（这是一个操作）在图的操作期间获得常量的形状。
+考虑更高维矩阵的用例。 换句话说，在哪里你可能需要 4D 矩阵，甚至是 5D 矩阵？ 提示：考虑集合而不是单个对象。
+
+## 随机性
+
+机器学习模型是许多变量的复杂集合，但必须经过训练才能找到好的值。这也意味着必须将这些“权重”设置为初始值。一种选择是从所有权重为零开始。但是，这会在算法上引起问题 - 基本上，错误的梯度无法修复错误。相反，我们经常将这些权重设置为随机值。然后，模型学习并调整。
+
+TensorFlow 有许多用于生成随机数的内置方法。这包括我们熟悉的分布，如“均匀”，以及你可能听说过的其他分布，如“正态”分布。均匀分布就像你掷骰子时得到的东西那样 - 有一组值，它们都是等可能的。正态分布是统计课程中教授的标准，其中数据具有更可能的平均值，以及围绕它的“钟形”曲线。我们将看到的，其他的也包括在内。
+
+在本节中，我们将创建一个基本的辅助函数，它只运行一个 TensorFlow 变量。这个小函数非常有用！它创建一个会话，初始化变量并为我们运行它。它仅限于单个变量，因此对于较大的程序可能没有用。
+
+```py
+import tensorflow as tf
+
+def run_variable(variable):
+    tf.initialize_all_variables()
+    with tf.Session() as sess:
+        return sess.run(variable)
+```
+
+希望现在这对你来说都很熟悉。 如果没有，请再看看第一章，开始吧。
+
+让我们从一个基本的分布开始，均匀分布。
+
+```py
+my_distribution = tf.random_uniform((6, 4), seed=42)
+uniform = run_variable(my_distribution)
+```
+
+这为我们提供了一个 6 乘 4 的张量（随机值的更多信息，请参阅上一节）。为了可视化，我们可以使用直方图：
+
+```py
+from matplotlib import pyplot as plt
+
+plt.hist(uniform.flatten())
+plt.show()
+```
+
+请注意，如果你使用的是 Jupyter 笔记本，请使用`%matplotlib inline`并删除`plt.show()`行。
+
+所得图像显示了图片，虽然还不是很清楚......
+
+![](img/histogram_uniform_small.png)
+
+此直方图显示可能的值介于 0 和 1 之间。每个值应该是等可能的，但它看起来并不是那样。 原因是我们只选择了少量的值。 如果我们增加数组的大小，它会变得更加均匀。
+
+```py
+large_normal = tf.random_uniform((600, 400), seed=42)
+large_uniform = run_variable(large_normal)
+
+plt.hist(large_uniform.flatten())
+plt.show()
+```
+
+![](img/histogram_uniform_large.png)
+
+更均匀了！
+
+如果你没有任何其他信息，对于在机器学习模型中初始化权重，均匀分布非常有用。 它也是一个“有界”分布，它具有设定的最小值和最大值，随机值不能超出该范围。 要更改范围，例如更改为 0 和 10，请乘以范围并添加最小值。 在课程结束时有一个练习。
+
+另一种常用的分布是正态分布，在 TensorFlow 中实现为`random_normal`函数：
+
+```py
+distribution = tf.random_normal((600, 4), seed=42)
+normal = run_variable(distribution)
+plt.hist(normal.flatten())
+plt.show()
+```
+
+![](img/histogram_normal_centered.png)
+
+默认情况下，此分布的平均值约为 0，标准差为 1。这些值不受限制，但越来越不可能偏离平均值，标准差设置了可能性减小的速率。 在实践中，大约 60% 的值落在距离平均值一个标准差的“半径”内，并且 99% 落在 4 个标准差内。
+
+均值和标准差是`random_normal`函数的参数。 例如，身高可近似建模为正态分布，平均值约为 170cm，标准差约为 15cm。
+
+```py
+distribution = tf.random_normal((10000,), seed=42, mean=170, stddev=15)
+normal = run_variable(distribution)
+plt.hist(normal.flatten())
+plt.show()
+```
+
+![](img/histogram_normal.png)
+
+到目前为止，我们的直方图使用`matplotlib`生成。 我们也可以使用 TensorFlow 来创建它们！`histogram_fixed_width`函数接受值的列表（如我们的随机值），范围和要计算的桶数。 然后计算每个桶的范围内有多少个值，并将结果作为数组返回。
+
+```py
+import numpy as np
+bins = tf.histogram_fixed_width(normal, (normal.min(), normal.max()), nbins=20)
+histogram_bins = run_variable(bins)
+x_values = np.linspace(normal.min(), normal.max(), len(histogram_bins))
+plt.bar(x_values, histogram_bins,)
+```
+
+在`plt.bar`调用中，我们再次手动生成`bin`值，然后使用条形图将这些值绘制为`x`值，并使用`histogram_bins`作为高度。
+
+![](img/histogram_tensorflow.png)
+
+这是正确的，但看起来不对。 直方图的值在那里，但宽度非常窄（我们的箱桶仅由单个值表示）。 我们来解决这个问题：
+
+```py
+bar_width = (normal.max() - normal.min()) / len(histogram_bins)
+plt.bar(x_values, histogram_bins, width=bar_width)
+```
+
+![](img/histogram_tensorflow_wider.png)
+
++   使用均匀分布建模单次掷骰子。 绘制结果来确保其符合你的期望
++   使用单个图中的纯 TensorFlow 调用替换本课程的最后一个代码块。 换句话说，使用 TensorFlow 概念来替换`.min()`,`.max()`和`len`调用。 只有绘图在没有 TensorFlow 的情况下进行！
+
+## 线性方程
+
+通过`tf.solve`函数，TensorFlow 可以求解线性方程组。 你可能会将这些视为连接的方程，如下所示：
+
+![](img/tex2.gif)
+
+这些类型的线性方程用于数学中的许多问题，从优化工厂输出到几何。 你可以使用多种方法解决这些方程，但在本课中，我们将了解如何使用`tf.solve`为我们执行此操作。
+
+我将专注于几何。 这是位于二维`(x, y)`空间的两个点，`p1`和`p2`：
+
+![](img/tex3.gif)
+
+这是他们在图上的样子：
+
+![](img/scatter.png)
+
+要在 TensorFlow 中执行此操作，我们首先设置线性方程组，我们的点位于中心。 首先，我们创建我们的点矩阵。 第一行对应于第一个点，第二行对应于第二个点。 同样，第一列是`x`值，而第二列是`y`值。
+
+```py
+import tensorflow as tf
+
+# 点 1
+x1 = tf.constant(2, dtype=tf.float32)
+y1 = tf.constant(9, dtype=tf.float32)
+point1 = tf.stack([x1, y1])
+
+# 点 2
+x2 = tf.constant(-1, dtype=tf.float32)
+y2 = tf.constant(3, dtype=tf.float32)
+point2 = tf.stack([x2, y2])
+
+# 将点组合为数组
+X = tf.transpose(tf.stack([point1, point2]))
+```
+
+直线的方程是：
+
+![](img/tex4.gif)
+
+重新排列方程（5），使`x`和`y`在同一侧，我们得到以下结果：
+
+![](img/tex5.gif)
+
+我们的任务是在给定观测点的情况下，找到上面的方程中的`a`和`b`的值。 我们可以通过取点数组的逆并将其乘以一个矩阵，来轻易做到这一点。
+
+使用矩阵（因为我们使用的是 TensorFlow），如果`X`是我们观察点的矩阵，而`A`是我们需要学习的参数，我们设置一个系统：
+
+![](img/tex6.gif)
+
+接下来要学习的参数就是：
+
+![](img/tex7.gif)
+
+矩阵`B`很简单，适当广播的数字 1，它源于上面方程的右侧。
+
+矩阵`A`是上面方程 3 中的参数。
+
+```py
+B = tf.ones((1, 2), dtype=tf.float32)
+
+parameters = tf.matmul(B, tf.matrix_inverse(X))
+
+with tf.Session() as session:
+    A = session.run(parameters)
+```
+
+最后一步是从上面的方程（5）中找到我们的`a`和`b`值，即从这些参数转换（符合方程（7））。
+
+```py
+b = 1 / A[0][1]
+a = -b * A[0][0]
+print("Equation: y = {a}x + {b}".format(a=a, b=b))
+```
+
+这个解决方案很好地包含在`tf.solve`函数中。 为了看到它，让我们看另一个例子。 这是一个圆圈：
+
+![](img/plotcircles.png)
+
+以下是圆圈上的三个观察点：
+
+![](img/tex8.gif)
+
+![](img/plotcircles_w_points.png)
+
+圆的规范方程是：
+
+![](img/tex9.gif)
+
+为了求解参数`d`，`e`和`f`，我们创建另一个点数组，并用 1 填充它来创建一个方阵。 我们正在寻找三个参数，因此我们的`A`矩阵必须具有形状`(3, 3)`。
+
+由于这个方程的平方部分没有参数，当我们有`x`和`y`的观测值时，我们的方程变得有点不同：
+
+![](img/tex10.gif)
+
+因此，我们的`A`矩阵由`x`和`y`值（以及另一列 1）组成，我们的`B`矩阵是负的`x`和`y`的平方和。
+
+```py
+import tensorflow as tf
+
+points = tf.constant([[2, 1],
+                 [0, 5],
+                 [-1, 2]], dtype=tf.float64)
+
+A = tf.constant([
+    [2, 1, 1],
+    [0, 5, 1],
+    [-1, 2, 1]
+], dtype='float64')
+
+B = -tf.constant([[5], [25], [5]])
+```
+
+然后我们使用`tf.matrix_solve`来找到我们的`X`数组，这是我们方程的参数。 在会话中运行它，我们得到三个值，即`D`，`E`和`F`。
+
+```py
+X = tf.matrix_solve(A, B)
+
+with tf.Session() as session:
+    result = session.run(X)
+    D, E, F = result.flatten()
+
+    print("Equation: x**2 + y**2 + {D}x + {E}y + {F} = 0".format(**locals()))
+```
+
+1）求解包含以下三点的圆：`P(2,1)`, `Q(0,5)`, `R(-1,2)`
+
+2）下面给出椭圆的一般形式。 解决以下几点（解决这个方程需要五点）：
+
+椭圆的一般形式：
+
+![](img/tex11.gif)
+
+观测点：
+
+![](img/tex12.gif)
+
+## 3D 中的 TensorFlow
+
+TensorFlow 不仅仅是一个深度学习库 - 它是一个但数值操作库，因此它可以执行许多其他库可以执行的任务。 在本课中，我们将介绍如何使用 TensorFlow 对 3D 对象执行操作。
+
+3D 对象可以被建模为三维空间中的一系列三角形，我们通常将其称为`(x, y, z)`。 这些名称不是必需的，但通常使用。 从这些 3D 点中的三个创建三角形。 点本身可以表示为大小为`(3,)`的向量。 这些数组是一个大小为`(n, 3),`的矩阵，其中`n`是我们拥有的点数。 让我们深入去看一个基本的立方体。 我们稍后将需要此功能，所以让我们创建一个绘制基本形状的函数：
+
+
+```py
+from mpl_toolkits.mplot3d import Axes3D
+import numpy as np
+from matplotlib import cm
+import matplotlib.pyplot as plt
+from scipy.spatial import Delaunay
+​
+def plot_basic_object(points):
+    """绘制一个基本对象，假设它是凸的而不是太复杂"""
+    
+    tri = Delaunay(points).convex_hull
+    fig = plt.figure(figsize=(8, 8))
+    ax = fig.add_subplot(111, projection='3d')
+    S = ax.plot_trisurf(points[:,0], points[:,1], points[:,2],
+                        triangles=tri,
+                        shade=True, cmap=cm.Blues,lw=0.5)
+    ax.set_xlim3d(-5, 5)
+    ax.set_ylim3d(-5, 5)
+    ax.set_zlim3d(-5, 5)
+
+    plt.show()
+```
+
+如果你正在使用 Jupyter 笔记本，我建议运行这一行代码，它为你提供了一个非常棒的交互式 3D 绘图。 左键单击并拖动来左右移动，右键单击并拖动来放大或缩小。
+
+```py
+%matplotlib notebook
+```
+
+现在让我们创建一个形状。 下面的函数将返回组成立方体的六个点。 如果你回到上一个函数，你将看到 Delaunay 线，它将这些点转换成三角形，以便我们可以渲染它们。
+
+```py
+import numpy as np
+def create_cube(bottom_lower=(0, 0, 0), side_length=5):
+    """从给定的左下角点（最小的 x，y，z 值）开始创建一个立方体"""
+    bottom_lower = np.array(bottom_lower)
+    points = np.vstack([
+        bottom_lower,
+        bottom_lower + [0, side_length, 0],
+        bottom_lower + [side_length, side_length, 0],
+        bottom_lower + [side_length, 0, 0],
+        bottom_lower + [0, 0, side_length],
+        bottom_lower + [0, side_length, side_length],
+        bottom_lower + [side_length, side_length, side_length],
+        bottom_lower + [side_length, 0, side_length],
+        bottom_lower,
+    ])
+    return points
+```
+
+现在让我们把这些碎片放在一起，看看它是什么样的：
+
+```py
+cube_1 = create_cube(side_length=2)
+​
+​
+plot_basic_object(cube_1)
+```
+
+![](img/cube.png)
+
+我只是在这里显示一个图像，但是你可以看到立方体，它已被我们的代码变成三角形并且颜色不同（取决于`z`值）。 这很好，但现在让我们使用 TensorFlow 对此进行一些操作。
+
+### 平移
+
+平移是一个简单的动作：向上/向下，向左/向右，向前/向后，或这些的某种组合。 它是通过简单地向每个点添加一个向量来创建的。 如果向所有点添加相同的向量，则整个对象将一致地移动。 查看我们关于广播的章节，了解当我们将大小为`(3,)`的平移向量添加到大小`(n, 3)`的点矩阵时会发生什么。
+
+```py
+import tensorflow as tf
+
+def translate(points, amount):
+    return tf.add(points, amount)
+
+
+points = tf.constant(cube_1, dtype=tf.float32)
+​
+# 更新此处的值来移动多维数据集。
+translation_amount = tf.constant([3, -3, 0], dtype=tf.float32)
+
+
+translate_op = translate(points, translation_amount)
+​
+with tf.Session() as session:
+    translated_cube = session.run(translate_op)
+
+
+plot_basic_object(translated_cube)
+```
+
+![](img/cube_2.png)
+
+### 旋转
+
+通过创建点积或旋转矩阵和原点来形成旋转。 旋转对象首先需要你确定要旋转的轴。 要围绕特定轴旋转，请将该轴的值设置为 0，相关轴中的值为 1。 你需要三个矩阵：
+
+### 沿`x`轴旋转
+
+```py
+[[1, 0, 0],
+ [0, cos \theta, sin \theta],
+ [0, -sin \theta, cos \theta]]
+```
+
+### 沿`y`轴旋转
+
+```py
+[[cos \theta, 0, -sin \theta],
+ [0, 1, 0],
+ [sin \theta, 0, cos \theta]]
+```
+
+### 沿`z`轴旋转
+
+```py
+[[cos \theta, sin \theta, 0],
+ [-sin \theta, cos \theta, 0],
+ [0, 0, 1]]
+```
+
+```py
+def rotate_around_z(points, theta):
+    theta = float(theta)
+    rotation_matrix = tf.stack([[tf.cos(theta), tf.sin(theta), 0],
+                                   [-tf.sin(theta), tf.cos(theta), 0],
+                                   [0, 0, 1]])
+    return tf.matmul(tf.to_float(points), tf.to_float(rotation_matrix))
+
+
+with tf.Session() as session:
+    result = session.run(rotate_around_z(cube_1, 75))
+
+
+plot_basic_object(result)
+```
+
+![](img/cube_1.png)
+
+通过这些简单，但是可以大规模组合的矩阵操作，你可以像这样为 3D 对象创建一系列的变换。 此概念可以用于实现剪切，缩放，交叉等。 GPU 非常擅长进行这些转换，这些转换恰好与数据分析工作（如深度学习）所需的相同类型的转换相关。 因此，TensorFlow 可以很好地配合 GPU，处理 3D 对象以及深度学习任务。
+
++   创建不同的对象，例如四棱锥或者六棱柱。 如果你不确定如何开始，请先从棱柱开始，然后先在2D中创建它。
++   围绕`x`轴和`y`轴旋转对象。
++   你可以将旋转组合到单个变换矩阵中。 为此，只需计算旋转的点积。
++   对于问题 3，顺序是否重要？
++   剪切矩阵是具有非对角线值的单位矩阵。 一个例子如下。 创建剪切矩阵并测试不同的值。
+
+```py
+[[1, 0.5, 0],
+ [0, 1, 0],
+ [0, 0, 1]]
+```
+
+## 线性模型的分类
+
+在本课中，我们将了解使用 TensorFlow 进行机器学习。
+
+我们将创建自己的线性分类器，并使用 TensorFlow 的内置优化算法来训练它。
+
+首先，我们将查看数据以及我们要做的事情。 对于那些刚接触机器学习的人来说，我们尝试执行的任务称为监督机器学习或分类。
+
+任务是尝试计算一些输入数据和输出值之间的关系。 实际上，输入数据可以是测量值，例如高度或重量，输出值可以是预期的预测值，例如“cat”或“dog”。
+
+这里的课程扩展自我们的课程“收敛”，在后面的章节中。 我建议你先完成那个课程。
+
+让我们创建并可视化一些数据：
+
+```py
+from sklearn.datasets import make_blobs
+
+import numpy as np
+
+from sklearn.preprocessing import OneHotEncoder
+
+X_values, y_flat = make_blobs(n_features=2, n_samples=800, centers=3, random_state=500)
+y = OneHotEncoder().fit_transform(y_flat.reshape(-1, 1)).todense()
+y = np.array(y)
+
+%matplotlib inline
+
+
+from matplotlib import pyplot as plt
+
+# 可选的行：将默认数字大小设置得稍大。
+plt.rcParams['figure.figsize'] = (24, 10)
+
+plt.scatter(X_values[:,0], X_values[:,1], c=y_flat, alpha=0.4, s=150)
+```
+
+![](img/plt.scatter.png)
+
+在这里，我们有三种数据，黄色，蓝色和紫色。 它们绘制在两个维度上，我们称之为`x0x0`和`x1x1`。
+
+这些值存储在`X`数组中。
+
+当我们执行机器学习时，有必要将数据拆分为我们用于创建模型的训练集和用于评估它的测试集。 如果我们不这样做，那么我们可以简单地创建一个“作弊分类器”，只记得我们的训练数据。 通过拆分，我们的分类器必须学习输入（绘图上的位置）和输出之间的关系。
+
+```py
+from sklearn.model_selection import train_test_split
+
+X_train, X_test, y_train, y_test, y_train_flat, y_test_flat = train_test_split(X_values, y, y_flat)
+
+X_test += np.random.randn(*X_test.shape) * 1.5
+```
+
+现在我们绘制测试数据。 从训练数据中学习位置和颜色之间的关系之后，将给予分类器以下几个点，并且将评估它对点着色的准确度。
+
+```py
+#plt.scatter(X_train[:,0], X_train[:,1], c=y_train_flat, alpha=0.3, s=150)
+plt.plot(X_test[:,0], X_test[:,1], 'rx', markersize=20)
+```
+
+![](img/redx.png)
+
+### 创建模型
+
+我们的模型将是一个简单的线性分类器。 这意味着它将在三种颜色之间绘制直线。 一条线上方的点被赋予一种颜色，而一条线下方的点被赋予另一种颜色。 我们将这些称为决策直线，尽管它们通常被称为决策边界，因为其他模型可以学习比线更复杂的形状。
+
+为了在数学上表示我们的模型，我们使用以下等式：
+
+```
+​Y = XW + b
+```
+
+我们的权重`W`是`(n_features, n_classes)`矩阵，表示我们模型中的学习权重。 它决定了决策直线的位置。 `X`是`(n_rows, n_features)`矩阵，并且是位置数据 - 给定点位于图上。 最后，`b`是`(1, n_classes)`向量，并且是偏差。 我们需要这样，以便我们的线不必经过点`(0,0)`，使我们能够在图上的任何位置“绘制”直线。
+
+`X`中的点是固定的 - 这些是训练或测试数据，称为观测数据。 `W`和`b`的值是我们模型中的参数，我们可以控制这些值。 为这些值选择好的值，可以为我们提供良好的决策线。
+
+在我们的模型中为参数选择好的值的过程，称为训练算法，并且是机器学习中的“学习”。
+
+让我们从上面得到我们的数学模型，并将其转换为 TensorFlow 操作。
+
+```py
+import tensorflow as tf
+
+n_features = X_values.shape[1]
+n_classes = len(set(y_flat))
+
+weights_shape = (n_features, n_classes)
+
+W = tf.Variable(dtype=tf.float32, initial_value=tf.random_normal(weights_shape))  # Weights of the model
+
+X = tf.placeholder(dtype=tf.float32)
+
+Y_true = tf.placeholder(dtype=tf.float32)
+
+bias_shape = (1, n_classes)
+b = tf.Variable(dtype=tf.float32, initial_value=tf.random_normal(bias_shape))
+
+Y_pred = tf.matmul(X, W)  + b
+```
+
+上面的`Y_pred`张量代表我们的数学模型。通过传入观测数据（`X`），我们可以得到预期值，在我们的例子中，是给定点的预期颜色。请注意偏差使用广播在所有预测中应用。
+
+`Y_pred`中的实际值由“似然”组成，模型将为给定点选择每个类的似然，生成`(n_rows， n_classes)`大小的矩阵。它们不是真正的似然，但我们可以通过找到最大值，来找出我们的模型认为的最有可能的类。
+
+接下来，我们需要定义一个函数来评估给定权重集的好坏程度。请注意，我们尚未学习权重，只是给出了随机值。 TensorFlow 具有内置的损失函数，可以接受预测的输出的（即模型产生的值）与实际值（我们首次创建测试集时创建的真实情况）。我们比较它们，并评估我们的模型表现如何。我们称之为损失函数，因为我们做得越差，值越高 - 我们试图将损失最小化。
+
+```py
+loss_function = tf.losses.softmax_cross_entropy(Y_true, Y_pred)
+```
+
+最后一步是创建一个优化步骤，该步骤接受我们的损失函数，并找到给定变量的最小化损失的值。 请注意，`loss`函数引用`Y_true`，后者又引用`W`和`b`。 TensorFlow 选择此关系，并更改这些变量中的值来寻找良好的值。
+
+```py
+learner = tf.train.GradientDescentOptimizer(0.1).minimize(loss_function)
+```
+
+现在开始训练了！
+
+我们在循环中遍历学习器，来找到最佳权重。 每次循环中，前一循环的学习权重会在下一个循环中略有改善。 前一行代码中的`0.1`是学习率。 如果增加该值，算法学得更快。 但是，较小的值通常会收敛到更好的值。 当你查看模型的其他方面时，值为`0.1`是一个很好的起点。
+
+每次循环中，我们通过占位符将我们的训练数据传递给学习器。 每隔 100 个循环，我们通过将测试数据直接传递给损失函数，来了解我们的模型是如何学习的。
+
+```py
+with tf.Session() as sess:
+    sess.run(tf.global_variables_initializer())
+    for i in range(5000):
+        result = sess.run(learner, {X: X_train, Y_true: y_train})
+        if i % 100 == 0:
+            print("Iteration {}:\tLoss={:.6f}".format(i, sess.run(loss_function, {X: X_test, Y_true: y_test})))
+    y_pred = sess.run(Y_pred, {X: X_test})
+    W_final, b_final = sess.run([W, b])
+
+predicted_y_values = np.argmax(y_pred, axis=1)
+predicted_y_values
+
+h = 1
+x_min, x_max = X_values[:, 0].min() - 2 * h, X_values[:, 0].max() + 2 * h
+y_min, y_max = X_values[:, 1].min() - 2 * h, X_values[:, 1].max() + 2 * h
+x_0, x_1 = np.meshgrid(np.arange(x_min, x_max, h),
+                     np.arange(y_min, y_max, h))
+decision_points = np.c_[x_0.ravel(), x_1.ravel()]
+```
+
+有点复杂，但我们正在有效地创建一个二维网格，涵盖`x0`和`x1`的可能值。
+
+```py
+# 我们在 NumPy 中重建我们的模型
+Z = np.argmax(decision_points @ W_final[[0,1]] + b_final, axis=1)
+
+# 创建 x_0 和 x_1 值的等高线图
+Z = Z.reshape(xx.shape)
+plt.contourf(x_0, x_1, Z, alpha=0.1)
+
+plt.scatter(X_train[:,0], X_train[:,1], c=y_train_flat, alpha=0.3)
+plt.scatter(X_test[:,0], X_test[:,1], c=predicted_y_values, marker='x', s=200)
+
+plt.xlim(x_0.min(), x_0.max())
+plt.ylim(x_1.min(), x_1.max())
+```
+
+![](img/2d_grid.png)
+
+你就实现了它！ 我们的模型会将黄色区域中的任何东西分类为黄色，依此类推。 如果覆盖实际测试值（存储在`y_test_flat`中），则可以高亮任何差异。
+
++   绘制迭代和损失之间的关系。 出现什么样的形状，你认为它将如何继续？
++   使用 TensorBoard，将图写入文件，并查看 TensorBoard 中变量的值。 更多信息请参阅其余教程。
++   通过在传递到线性模型之前对`X`执行一些变换来创建非线性模型。 这可以通过多种方式完成，你的模型的准确性将根据你的选择而改变。
++   使用以下代码加载 64 维（称为数字）的数据集，并将其传递给分类器。 你得到了什么预测准确度？
+
+```py
+from sklearn.datasets import load_digits
+digits = load_digits()
+X = digits.data
+y = digits.target
+```
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/3.md b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/3.md
new file mode 100644
index 00000000..0d1c0e0d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/3.md
@@ -0,0 +1,486 @@
+# 三、学习
+
+## 聚类和 KMeans
+
+我们现在冒险进入我们的第一个应用，即使用 k-means 算法进行聚类。 聚类是一种数据挖掘练习，我们获取大量数据并找到彼此相似的点的分组。 K-means 是一种非常善于在许多类型的数据集中查找簇的算法。
+
+对于簇和 k-means的 更多信息，请参阅 [k-means 算法的 scikit-learn 文档](http://scikit-learn.org/stable/modules/clustering.html#k-means)或观看[此视频](https://www.youtube.com/embed/_aWzGGNrcic)。
+
+### 生成样本
+
+首先，我们需要生成一些样本。 我们可以随机生成样本，但这可能会给我们提供非常稀疏的点，或者只是一个大分组 - 对于聚类来说并不是非常令人兴奋。
+
+相反，我们将从生成三个质心开始，然后在该点周围随机选择（具有正态分布）。 首先，这是一个执行此操作的方法
+
+```py
+import tensorflow as tf
+import numpy as np
+
+
+def create_samples(n_clusters, n_samples_per_cluster, n_features, embiggen_factor, seed):
+    np.random.seed(seed)
+    slices = []
+    centroids = []
+    # 为每个簇创建样本
+    for i in range(n_clusters):
+        samples = tf.random_normal((n_samples_per_cluster, n_features),
+                                   mean=0.0, stddev=5.0, dtype=tf.float32, seed=seed, name="cluster_{}".format(i))
+        current_centroid = (np.random.random((1, n_features)) * embiggen_factor) - (embiggen_factor/2)
+        centroids.append(current_centroid)
+        samples += current_centroid
+        slices.append(samples)
+    # 创建一个大的“样本”数据集
+    samples = tf.concat(slices, 0, name='samples')
+    centroids = tf.concat(centroids, 0, name='centroids')
+    return centroids, samples
+```
+
+这种方法的工作方式是随机创建`n_clusters`个不同的质心（使用`np.random.random((1, n_features))`）并将它们用作`tf.random_normal`的质心。 `tf.random_normal`函数生成正态分布的随机值，然后我们将其添加到当前质心。 这会在该形心周围创建一些点。 然后我们记录质心（`centroids.append`）和生成的样本（`slices.append(samples)`）。 最后，我们使用`tf.concat`创建“一个大样本列表”，并使用`tf.concat`将质心转换为 TensorFlow 变量。
+
+将`create_samples`方法保存在名为`functions.py`的文件中，允许我们为这个（以及下一个！）课程，将这些方法导入到我们的脚本中。 创建一个名为`generate_samples.py`的新文件，其中包含以下代码：
+
+```py
+import tensorflow as tf
+import numpy as np
+
+from functions import create_samples
+
+n_features = 2
+n_clusters = 3
+n_samples_per_cluster = 500
+seed = 700
+embiggen_factor = 70
+
+np.random.seed(seed)
+
+centroids, samples = create_samples(n_clusters, n_samples_per_cluster, n_features, embiggen_factor, seed)
+
+model = tf.global_variables_initializer()
+with tf.Session() as session:
+    sample_values = session.run(samples)
+    centroid_values = session.run(centroids)
+```
+
+这只是设置了簇和特征的数量（我建议将特征的数量保持为 2，以便我们以后可以可视化它们），以及要生成的样本数。 增加`embiggen_factor`将增加簇的“散度”或大小。 我在这里选择了一个提供良好学习机会的值，因为它可以生成视觉上可识别的集群。
+
+为了使结果可视化，我们使用`matplotlib`创建绘图函数。 将此代码添加到`functions.py`：
+
+```py
+def plot_clusters(all_samples, centroids, n_samples_per_cluster):
+    import matplotlib.pyplot as plt
+    # 绘制出不同的簇
+    # 为每个簇选择不同的颜色
+    colour = plt.cm.rainbow(np.linspace(0,1,len(centroids)))
+    for i, centroid in enumerate(centroids):
+        # 为给定簇抓取样本，并用新颜色绘制出来
+        samples = all_samples[i*n_samples_per_cluster:(i+1)*n_samples_per_cluster]
+        plt.scatter(samples[:,0], samples[:,1], c=colour[i])
+        # 还绘制质心
+        plt.plot(centroid[0], centroid[1], markersize=35, marker="x", color='k', mew=10)
+        plt.plot(centroid[0], centroid[1], markersize=30, marker="x", color='m', mew=5)
+     plt.show()
+```
+
+所有这些代码都是使用不同的颜色绘制每个簇的样本，并在质心位置创建一个大的红色`X`。 质心提供为参数，稍后会很方便。
+
+更新`generate_samples.py`，通过将`import plot_clusters`添加到文件顶部来导入此函数。 然后，将这行代码添加到底部：
+
+```py
+plot_clusters(sample_values, centroid_values, n_samples_per_cluster)
+```
+
+运行`generate_samples.py`现在应该提供以下绘图：
+
+![](img/t0601_generate.png)
+
+### 初始化
+
+k-means 算法从初始质心的选择开始，初始质心只是数据中实际质心的随机猜测。 以下函数将从数据集中随机选择多个样本作为此初始猜测：
+
+```py
+def choose_random_centroids(samples, n_clusters):
+    # 第 0 步：初始化：选择 n_clusters 个随机点
+    n_samples = tf.shape(samples)[0]
+    random_indices = tf.random_shuffle(tf.range(0, n_samples))
+    begin = [0,]
+    size = [n_clusters,]
+    size[0] = n_clusters
+    centroid_indices = tf.slice(random_indices, begin, size)
+    initial_centroids = tf.gather(samples, centroid_indices)
+    return initial_centroids
+```
+
+这段代码首先为每个样本创建一个索引（使用`tf.range(0, n_samples)`，然后随机打乱它。从那里，我们使用`tf.slice`选择固定数量（`n_clusters`）的索引。这些索引与我们的初始质心相关，然后使用`tf.gather`组合在一起形成我们的初始质心数组。
+
+将这个新的`choose_random_centorids`函数添加到`functions.py`中，并创建一个新脚本（或更新前一个脚本），写入以下内容：
+
+```py
+import tensorflow as tf
+import numpy as np
+
+from functions import create_samples, choose_random_centroids, plot_clusters
+
+n_features = 2
+n_clusters = 3
+n_samples_per_cluster = 500
+seed = 700
+embiggen_factor = 70
+
+centroids, samples = create_samples(n_clusters, n_samples_per_cluster, n_features, embiggen_factor, seed)
+initial_centroids = choose_random_centroids(samples, n_clusters)
+
+model = tf.global_variables_initializer()
+with tf.Session() as session:
+    sample_values = session.run(samples)
+    updated_centroid_value = session.run(initial_centroids)
+
+plot_clusters(sample_values, updated_centroid_value, n_samples_per_cluster)
+```
+
+这里的主要变化是我们为这些初始质心创建变量，并在会话中计算其值。 然后，我们将初始猜测绘制到`plot_cluster`，而不是用于生成数据的实际质心。
+
+运行此操作会将得到与上面类似的图像，但质心将处于随机位置。 尝试运行此脚本几次，注意质心移动了很多。
+
+### 更新质心
+
+在开始对质心位置进行一些猜测之后，然后 k-means 算法基于数据更新那些猜测。 该过程是为每个样本分配一个簇号，表示它最接近的质心。 之后，将质心更新为分配给该簇的所有样本的平均值。 以下代码处理分配到最近的簇的步骤：
+
+```py
+def assign_to_nearest(samples, centroids):
+    # 为每个样本查找最近的质心
+
+    # START from http://esciencegroup.com/2016/01/05/an-encounter-with-googles-tensorflow/
+    expanded_vectors = tf.expand_dims(samples, 0)
+    expanded_centroids = tf.expand_dims(centroids, 1)
+    distances = tf.reduce_sum( tf.square(
+               tf.subtract(expanded_vectors, expanded_centroids)), 2)
+    mins = tf.argmin(distances, 0)
+    # END from http://esciencegroup.com/2016/01/05/an-encounter-with-googles-tensorflow/
+    nearest_indices = mins
+    return nearest_indices
+```
+
+请注意，我从[这个页面](http://esciencegroup.com/2016/01/05/an-encounter-with-googles-tensorflow/)借用了一些代码，这些代码具有不同类型的 k-means 算法，以及许多其他有用的信息。
+
+这种方法的工作方式是计算每个样本和每个质心之间的距离，这通过`distances =`那行来实现。 这里的距离计算是欧几里德距离。 这里重要的一点是`tf.subtract`会自动扩展两个参数的大小。 这意味着将我们作为矩阵的样本，和作为列向量的质心将在它们之间产生成对减法。 为了实现，我们使用`tf.expand_dims`为样本和质心创建一个额外的维度，强制`tf.subtract`的这种行为。
+
+下一步代码处理质心更新：
+
+```py
+def update_centroids(samples, nearest_indices, n_clusters):
+    # 将质心更新为与其相关的所有样本的平均值。
+    nearest_indices = tf.to_int32(nearest_indices)
+    partitions = tf.dynamic_partition(samples, nearest_indices, n_clusters)
+    new_centroids = tf.concat([tf.expand_dims(tf.reduce_mean(partition, 0), 0) for partition in partitions], 0)
+    return new_centroids
+```
+
+此代码选取每个样本的最近索引，并使用`tf.dynamic_partition`将这些索引分到单独的组中。 从这里开始，我们在一个组中使用`tf.reduce_mean`来查找该组的平均值，从而形成新的质心。 我们只需将它们连接起来形成我们的新质心。
+
+现在我们有了这个部分，我们可以将这些调用添加到我们的脚本中（或者创建一个新脚本）：
+
+```py
+import tensorflow as tf
+import numpy as np
+
+from functions import *
+
+n_features = 2
+n_clusters = 3
+n_samples_per_cluster = 500
+seed = 700
+embiggen_factor = 70
+
+
+data_centroids, samples = create_samples(n_clusters, n_samples_per_cluster, n_features, embiggen_factor, seed)
+initial_centroids = choose_random_centroids(samples, n_clusters)
+nearest_indices = assign_to_nearest(samples, initial_centroids)
+updated_centroids = update_centroids(samples, nearest_indices, n_clusters)
+
+model = tf.global_variables_initializer()
+with tf.Session() as session:
+    sample_values = session.run(samples)
+    updated_centroid_value = session.run(updated_centroids)
+    print(updated_centroid_value)
+
+plot_clusters(sample_values, updated_centroid_value, n_samples_per_cluster)
+```
+
+此代码将：
+
++   从初始质心生成样本
++   随机选择初始质心
++   关联每个样本和最近的质心
++   将每个质心更新为与关联的样本的平均值
+
+这是 k-means 的单次迭代！ 我鼓励你们练习一下，把它变成一个迭代版本。
+
+1）传递给`generate_samples`的种子选项可确保每次运行脚本时，“随机”生成的样本都是一致的。 我们没有将种子传递给`choose_random_centroids`函数，这意味着每次运行脚本时这些初始质心都不同。 更新脚本来为随机质心包含新的种子。
+
+2）迭代地执行 k 均值算法，其中来自之前迭代的更新的质心用于分配簇，然后用于更新质心，等等。 换句话说，算法交替调用`assign_to_nearest`和`update_centroids`。 在停止之前，更新代码来执行此迭代 10 次。 你会发现，随着 k-means 的更多迭代，得到的质心平均上更接近。 （对于那些对 k-means 有经验的人，未来的教程将研究收敛函数和其他停止标准。）
+
+## 训练和收敛
+
+大多数人工智能和机器学习的关键组成部分是循环，即系统在多次训练迭代中得到改善。 以这种方式训练的一种非常简单的方法，就是在`for`循环中执行更新。 我们在第 2 课中看到了这种方式的一个例子：
+
+```py
+import tensorflow as tf
+
+
+x = tf.Variable(0, name='x')
+
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    for i in range(5):
+        session.run(model)
+        x = x + 1
+        print(session.run(x))
+```
+
+我们可以改变此工作流，使用变量来收敛循环，如下所示：
+
+```py
+import tensorflow as tf
+
+x = tf.Variable(0., name='x')
+threshold = tf.constant(5.)
+
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    session.run(model)
+    while session.run(tf.less(x, threshold)):
+        x = x + 1
+        x_value = session.run(x)
+        print(x_value)
+```
+
+这里的主要变化是，循环现在是一个`while`循环，测试（`tf.less`用于小于测试）为真时继续循环。 在这里，我们测试`x`是否小于给定阈值（存储在常量中），如果是，我们继续循环。
+
+### 梯度下降
+
+任何机器学习库都必须具有梯度下降算法。 我认为这是一个定律。 无论如何，Tensorflow 在主题上有一些变化，它们可以直接使用。
+
+梯度下降是一种学习算法，尝试最小化某些误差。 你问哪个误差？ 嗯，这取决于我们，虽然有一些常用的方法。
+
+让我们从一个基本的例子开始：
+
+```py
+import tensorflow as tf
+import numpy as np
+
+# x 和 y 是我们的训练数据的占位符
+x = tf.placeholder("float")
+y = tf.placeholder("float")
+# w 是存储我们的值的变量。 它使用“猜测”来初始化
+# w[0] 是我们方程中的“a”，w[1] 是“b”
+w = tf.Variable([1.0, 2.0], name="w")
+# 我们的模型是 y = a*x + b
+y_model = tf.multiply(x, w[0]) + w[1]
+
+# 我们的误差定义为差异的平方
+error = tf.square(y - y_model)
+# GradientDescentOptimizer 完成繁重的工作
+train_op = tf.train.GradientDescentOptimizer(0.01).minimize(error)
+
+# TensorFlow 常规 - 初始化值，创建会话并运行模型
+model = tf.global_variables_initializer()
+
+with tf.Session() as session:
+    session.run(model)
+    for i in range(1000):
+        x_value = np.random.rand()
+        y_value = x_value * 2 + 6
+        session.run(train_op, feed_dict={x: x_value, y: y_value})
+
+    w_value = session.run(w)
+    print("Predicted model: {a:.3f}x + {b:.3f}".format(a=w_value[0], b=w_value[1]))
+```
+
+这里的主要兴趣点是`train_op = tf.train.GradientDescentOptimizer(0.01).minimize(error)`，其中定义了训练步长。 它旨在最小化误差变量的值，该变量先前被定义为差的平方（常见的误差函数）。 0.01 是尝试学习更好的值所需的步长。
+
+### 其它优化器
+
+TensorFlow 有一整套优化器，并且你也可以定义自己的优化器（如果你对这类事情感兴趣）。 如何使用它们的 API，请参阅[此页面](https://tensorflow.google.cn/versions/master/api_docs/python/train.html#optimizers)。 列表如下：
+
++   `GradientDescentOptimizer`
++   `AdagradOptimizer`
++   `MomentumOptimizer`
++   `AdamOptimizer`
++   `FtrlOptimizer`
++   `RMSPropOptimizer`
+
+其他优化方法可能会出现在 TensorFlow 的未来版本或第三方代码中。 也就是说，上述优化对于大多数深度学习技术来说已经足够了。 如果你不确定要使用哪一个，请使用`AdamOptimizer`，除非失败。
+
+> 译者注：原文推荐随机梯度优化器，在所有优化器里是最烂的，已更改。
+
+这里一个重要的注意事项是，我们只优化了一个值，但该值可以是一个数组。 这就是为什么我们使用`w`作为变量，而不是两个单独的变量`a`和`b`。
+
+### 绘制误差
+
+![](img/l07loss.png)
+
+这个代码是上面的一个小改动。 首先，我们创建一个列表来存储误差。然后，在循环内部，我们显式地计算`train_op`和误差。 我们在一行中执行此操作，因此误差仅计算一次。 如果我们在单独的行中这样做，它将计算误差，然后是训练步骤，并且在这样做时，它将需要重新计算误差。
+
+下面我把代码放在上一个程序的`tf.global_variables_initializer()`行下面 - 这一行上面的所有内容都是一样的。
+
+```py
+errors = []
+with tf.Session() as session:
+    session.run(model)
+    for i in range(1000):
+        x_train = tf.random_normal((1,), mean=5, stddev=2.0)
+        y_train = x_train * 2 + 6
+        x_value, y_value = session.run([x_train, y_train])
+        _, error_value = session.run([train_op, error], feed_dict={x: x_value, y: y_value})
+        errors.append(error_value)
+    w_value = session.run(w)
+    print("Predicted model: {a:.3f}x + {b:.3f}".format(a=w_value[0], b=w_value[1]))
+
+import matplotlib.pyplot as plt
+plt.plot([np.mean(errors[i-50:i]) for i in range(len(errors))])
+plt.show()
+plt.savefig("errors.png")
+```
+
+你可能已经注意到我在这里采用窗口平均值 - 使用`np.mean(errors[i-50:i])`而不是仅使用`errors[i]`。 这样做的原因是我们只在循环中测试一次，所以虽然误差会减小，但它会反弹很多。 采用这个窗口平均值可以平滑一点，但正如你在上面所看到的，它仍然会跳跃。
+
+1）创建第 6 课中的 k-means 示例的收敛函数，如果旧质心与新质心之间的距离小于给定的`epsilon`值，则停止训练。
+
+2）尝试从梯度下降示例（`w`）中分离`a`和`b`值。
+
+3）我们的例子一次只训练一个示例，这是低效的。 扩展它来一次使用多个（例如 50 个）训练样本来学习。
+
+## TFLearn
+
+> 已更新到最新的 TFLearn API。
+
+这些教程主要关注 TensorFlow 的机制，但真正的用例是机器学习。 TensorFlow 有许多用于构建机器学习模型的方法，其中许多可以在官方 API 页面上找到。 这些函数允许你从头开始构建模型，包括自定义层面，例如如何构建神经网络中的层。
+
+在本教程中，我们将查看 TensorFlow Learn，它是名为`skflow`的软件包的新名称。 TensorFlow Learn（以下简称：TFLearn）是一个机器学习包装器，基于 scikit-learn API，允许你轻松执行数据挖掘。 这意味着什么？ 让我们一步一步地完成它：
+
+### 机器学习
+
+机器学习是一种概念，构建从数据中学习的算法，以便对新数据执行操作。 在这种情况下，这意味着我们有一些输入的训练数据和预期结果 - 训练目标。 我们将看看著名的数字数据集，这是一堆手绘数字的图像。 我们的输入训练数据是几千个这些图像，我们的训练目标是预期的数字。
+
+任务是学习一个模型，可以回答“这是什么数字？”，对于这样的输入：
+
+![](img/digits_sample.png)
+
+这是一个分类任务，是数据挖掘最常见的应用之一。 还有一些称为回归和聚类的变体（以及许多其他变体），但在本课中我们不会涉及它们。
+
+如果你想了解数据挖掘的更多信息，请查看我的书“[Python 数据挖掘](http://www.amazon.com/Learning-Mining-Python-Robert-Layton/dp/1784396052)”。
+
+### Scikit-Learn API
+
+Scikit-learn 是一个用于数据挖掘和分析的 Python 包，它非常受欢迎。 这是因为它广泛支持不同的算法，令人惊叹的文档，以及庞大而活跃的社区。 其他一个因素是它的一致接口，它的 API，允许人们构建可以使用 scikit-learn 辅助函数训练的模型，并允许人们非常容易地测试不同的模型。
+
+我们来看看 scikit-learn 的 API，但首先我们需要一些数据。 以下代码加载了一组可以使用`matplotlib.pyplot`显示的数字图像：
+
+```py
+from sklearn.datasets import load_digits
+from matplotlib import pyplot as plt
+
+
+digits = load_digits()
+```
+
+我们可以使用`pyplot.imshow`显示其中一个图像。 在这里，我设置`interpolation ='none'`来完全按原样查看数据，但是如果你删除这个属性，它会变得更清晰（也尝试减小数字大小）。
+
+```py
+fig = plt.figure(figsize=(3, 3))
+
+plt.imshow(digits['images'][66], cmap="gray", interpolation='none')
+
+plt.show()
+```
+
+在 scikit-learn 中，我们可以构建一个简单的分类器，训练它，然后使用它来预测图像的数字，只需使用四行代码：
+
+```py
+from sklearn import svm
+
+classifier = svm.SVC(gamma=0.001)
+classifier.fit(digits.data, digits.target)
+predicted = classifier.predict(digits.data)
+```
+
+第一行只是导入支持向量机模型，这是一种流行的机器学习方法。
+
+第二行构建“空白”分类器，`gamma`设置为 0.001。
+
+第三行使用数据来训练模型。 在这一行（这是该代码的大部分“工作”）中，调整 SVM 模型的内部状态来拟合训练数据。 我们还传递`digits.data`，因为这是一个展开的数组，是该算法的可接受输入。
+
+最后，最后一行使用这个训练好的分类器来预测某些数据的类，在这种情况下再次是原始数据集。
+
+要了解这是多么准确，我们可以使用 NumPy 计算准确度：
+
+```py
+import numpy as np
+print(np.mean(digits.target == predicted))
+```
+
+结果非常令人印象深刻（近乎完美），但这些有点误导。 在数据挖掘中，你永远不应该在用于训练的相同数据上评估你的模型。 潜在的问题被称为“过拟合”，其中模型准确地学习了训练数据所需的内容，但是无法很好地预测新的没见过的数据。 为解决这个问题，我们需要拆分我们的训练和测试数据：
+
+```py
+from sklearn.cross_validation import train_test_split
+X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target)
+```
+
+结果仍然非常好，大约 98%，但这个数据集在数据挖掘中是众所周知的，其特征已有详细记录。 无论如何，我们现在知道我们要做什么，让我们在 TFLearn 中实现它！
+
+### TFLearn
+
+TensorFlow Learn 接口距离 scikit-learn 的接口只有一小步之遥：
+
+```py
+from tensorflow.contrib import learn
+n_classes = len(set(y_train))
+classifier = learn.LinearClassifier(feature_columns=[tf.contrib.layers.real_valued_column("", dimension=X_train.shape[1])],
+                                    n_classes=n_classes)
+classifier.fit(X_train, y_train, steps=10)
+
+y_pred = classifier.predict(X_test)
+```
+
+唯一真正的变化是`import`语句和模型，它来自不同的可用算法列表。 一个区别是分类器需要知道它将预测多少个类，可以使用`len(set(y_train))`找到，或者换句话说，训练数据中有多少个唯一值。
+
+另一个区别是，需要告知分类器预期的特征类型。 对于这个例子，我们有真正重要的连续特征，所以我们可以简单地指定`feature_columns`值（它需要在列表中）。 如果你使用类别特征，则需要单独说明。 这方面的更多信息，请查看 [TFLearn 示例的文档](https://www.tensorflow.org/get_started/input_fn)。
+
+可以像以前一样评估结果，来计算准确性，但 scikit-learn 有 classification_report，它提供了更深入的了解：
+
+```py
+from sklearn import metrics
+print(metrics.classification_report(y_true=y_test, y_pred=y_pred))
+```
+
+结果显示每个类的召回率和精度，以及总体值和 f 度量。这些分数比准确性更可靠，更多信息请参阅维基百科上的[此页面](https://en.wikipedia.org/wiki/F1_score)。
+
+这是 TFLearn 的高级概述。你可以定义自定义分类器，你将在练习 3 中看到它们，并将分类器组合到流水线中（对此的支持很小，但正在改进）。该软件包有可能成为工业和学术界广泛使用的数据挖掘软件包。
+
+1）将分类器更改为`DNNClassifier`并重新运行。随意告诉所有朋友你现在使用深度学习来做数据分析。
+
+2）`DNNClassifier`的默认参数是好的，但不完美。尝试更改参数来获得更高的分数。
+
+3）从 TFLearn 的文档中查看[此示例](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/learn/mnist.py)并下载 [CIFAR 10](https://www.cs.toronto.edu/~kriz/cifar.html) 数据集。构建一个使用卷积神经网络预测图像的分类器。你可以使用此代码加载数据：
+
+```py
+def load_cifar(file):
+    import pickle
+    import numpy as np
+    with open(file, 'rb') as inf:
+        cifar = pickle.load(inf, encoding='latin1')
+    data = cifar['data'].reshape((10000, 3, 32, 32))
+    data = np.rollaxis(data, 3, 1)
+    data = np.rollaxis(data, 3, 1)
+    y = np.array(cifar['labels'])
+
+    # 最开始只需 2 和 9
+    # 如果要构建大型模型，请删除这些行
+    mask = (y == 2) | (y == 9)
+    data = data[mask]
+    y = y[mask]
+
+    return data, y
+```
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/4.md b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/4.md
new file mode 100644
index 00000000..9b9e3811
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/4.md
@@ -0,0 +1,478 @@
+# 四、分布式
+
+## 自定义函数
+
+Conway 的生命游戏是一个有趣的计算机科学模拟，它在地图上发生，有许多正方形的单元格，就像棋盘一样。 模拟以特定的时间步骤进行，并且板上的每个单元可以是 1（生存）或 0（死亡）。 经过特定的时间步骤后，每个单元格都处于生存状态或死亡状态：
+
++   如果细胞是活着的，但是有一个或零个邻居，它会由于“人口不足”而“死亡”。
++   如果细胞存活并且有两个或三个邻居，它就会活着。
++   如果细胞有三个以上的邻居，它就会因人口过多而死亡。
++   任何有三个邻居的死细胞都会再生。
+
+虽然这些规则似乎非常病态，但实际的模拟非常简单，创造了非常有趣的模式。 我们将创建一个 TensorFlow 程序来管理 Conway 的生命游戏，并在此过程中了解自定义`py_func`函数，并生成如下动画：
+
+<http://learningtensorflow.com/images/game.mp4>
+
+首先，让我们生成地图。 这是非常基本的，因为它只是一个 0 和 1 的矩阵。 我们随机生成初始地图，每次运行时都会提供不同的地图：
+
+```py
+import tensorflow as tf
+from matplotlib import pyplot as plt
+
+shape = (50, 50)
+initial_board = tf.random_uniform(shape, minval=0, maxval=2, dtype=tf.int32)
+
+with tf.Session() as session:
+    X = session.run(initial_board)
+
+fig = plt.figure()
+plot = plt.imshow(X, cmap='Greys',  interpolation='nearest')
+plt.show()
+```
+
+我们生成一个随机选择的 0 和 1 的`initial_board`，然后运行它来获取值。 然后我们使用`matplotlib.pyplot`来显示它，使用`imshow`函数，它基本上只根据一些`cmap`颜色方案绘制矩阵中的值。 在这种情况下，使用`'Greys'`会产生黑白矩阵，以及我们生命游戏的单个初始起点：
+
+![](img/l08initial.png)
+
+### 更新地图的状态
+
+由于生命游戏的地图状态表示为矩阵，因此使用矩阵运算符更新它是有意义的。 这应该提供一种快速方法，更新给定时间点的状态。
+
+非常有才华的 [Jake VanderPlas](http://staff.washington.edu/jakevdp/) 在使用 SciPy 和 NumPy 更新生命游戏中的特定状态方面做了一些出色的工作。 他的写作值得一读，可以在[这里]找到。 如果你对以下代码的工作原理感兴趣，我建议你阅读 Jake 的说明。 简而言之，`convolve2d`那行标识每个单元有多少邻居（这是计算机视觉中的常见操作符）。 我稍微更新了代码以减少行数，请参阅下面的更新后的函数：
+
+```py
+def update_board(X):
+    # Check out the details at: https://jakevdp.github.io/blog/2013/08/07/conways-game-of-life/
+    # Compute number of neighbours,
+    N = convolve2d(X, np.ones((3, 3)), mode='same', boundary='wrap') - X
+    # Apply rules of the game
+    X = (N == 3) | (X & (N == 2))
+    return X
+```
+
+`update_board`函数是 NumPy 数组的函数。 它不适用于张量，迄今为止，在 TensorFlow 中没有一种好方法可以做到这一点（虽然你可以使用现有的工具自己编写它，它不是直截了当的）。
+
+在 TensorFlow 的 0.7 版本中，添加了一个新函数`py_func`，它接受 python 函数并将其转换为 TensorFlow 中的节点。
+
+在撰写本文时（3 月 22 日），0.6 是正式版，并且它没有`py_func`。 我建议按照 TensorFlow 的 Github 页面上的说明为你的系统安装每晚构建。 例如，对于 Ubuntu 用户，你下载相关的 wheel 文件（python 安装文件）并安装它：
+
+```
+python -m wheel install --force ~/Downloads/tensorflow-0.7.1-cp34-cp34m-linux_x86_64.whl
+```
+
+请记住，你需要正确激活 TensorFlow 源（如果你愿意的话）。
+
+最终结果应该是你安装了 TensorFlow 的 0.7 或更高版本。 你可以通过在终端中运行此代码来检查：
+
+```
+python -c "import tensorflow as tf; print(tf.__version__)"
+```
+
+结果将是版本号，在编写时为 0.7.1。
+
+在代码上：
+
+```py
+board = tf.placeholder(tf.int32, shape=shape, name='board')
+board_update = tf.py_func(update_board, [board], [tf.int32])
+```
+
+从这里开始，你可以像往常一样，对张量操作节点（即`board_update`）运行初始地图。 要记住的一点是，运行`board_update`的结果是一个矩阵列表，即使我们的函数只定义了一个返回值。 我们通过在行尾添加`[0]`来获取第一个结果，我们更新的地图存储在`X`中。
+
+```py
+with tf.Session() as session:
+    initial_board_values = session.run(initial_board)
+    X = session.run(board_update, feed_dict={board: initial_board_values})[0]
+```
+
+所得值`X`是初始配置之后更新的地图。 它看起来很像一个初始随机地图，但我们从未显示初始的（虽然你可以更新代码来绘制两个值）
+
+### 循环
+
+这是事情变得非常有趣的地方，尽管从 TensorFlow 的角度来看，我们已经为本节做了很多努力。 我们可以使用`matplotlib`来显示和动画，因此显示时间步骤中的模拟状态，就像我们的原始 GIF 一样。 `matplotlib`动画的复杂性有点棘手，但是你创建一个更新并返回绘图的函数，并使用该函数调用动画代码：
+
+```py
+import matplotlib.animation as animation
+def game_of_life(*args):
+    X = session.run(board_update, feed_dict={board: X})[0]
+    plot.set_array(X)
+    return plot,
+
+ani = animation.FuncAnimation(fig, game_of_life, interval=200, blit=True)
+plt.show()
+```
+
+> 提示：你需要从早期代码中删除`plt.show()`才能运行！
+
+我将把拼图的各个部分作为练习留给读者，但最终结果将是一个窗口出现，游戏状态每 200 毫秒更新一次。
+
+如果你实现了，请给我们发消息！
+
+1）获取完整的代码示例，使用`matplotlib`和 TensorFlow 生成游戏的动画
+
+2）康威的生命游戏已被广泛研究，并有许多有趣的模式。 创建一个从文件加载模式的函数，并使用它们而不是随机地图。 我建议从 Gosper 的滑翔枪开始。
+
+3）生命游戏的一个问题（特征？）是地图可以重复，导致循环永远不会停止。 编写一些跟踪之前游戏状态的代码，并在游戏状态重复时停止循环。
+
+## 使用 GPU
+
+GPU（图形处理单元）是大多数现代计算机的组件，旨在执行 3D 图形所需的计算。 它们最常见的用途是为视频游戏执行这些操作，计算多边形向用户显示游戏。 总的来说，GPU 基本上是一大批小型处理器，执行高度并行化的计算。 你现在基本上有了一个迷你超级计算机！
+
+> 注意：不是真正的超级计算机，但在许多方面有些相似。
+
+虽然 GPU 中的每个“CPU”都很慢，但它们中有很多并且它们专门用于数字处理。 这意味着 GPU 可以同时执行许多简单的数字处理任务。 幸运的是，这正是许多机器学习算法需要做的事情。
+
+![](img/GPU.jpg)
+
+> 没有 GPU 吗？
+> 
+> 大多数现代（最近10年）的计算机都有某种形式的 GPU，即使它内置在你的主板上。 出于本教程的目的，这就足够了。
+> 
+> 你需要知道你有什么类型的显卡。 Windows 用户可以遵循[这些说明](https://help.sketchup.com/en/article/36253)，其他系统的用户需要查阅他们系统的文档。
+
+> 非 N 卡用户
+> 
+> 虽然其他显卡可能是受支持的，但本教程仅在最近的 NVidia 显卡上进行测试。 如果你的显卡属于不同类型，我建议你寻找 NVidia 显卡来学习，购买或者借用。 如果这对你来说真的很难，请联系你当地的大学或学校，看看他们是否可以提供帮助。 如果你仍然遇到问题，请随意阅读以及使用标准 CPU 进行操作。 你将能够在以后迁移所学的东西。
+
+### 安装 GPU 版的 TensorFlow
+
+如果你之前没有安装支持 GPU 的 TensorFlow，那么我们首先需要这样做。我们在第 1 课中没有说明，所以如果你没有按照你的方式启用 GPU 支持，那就是没有了。
+
+我建议你为此创建一个新的 Anaconda 环境，而不是尝试更新以前的环境。
+
+### 在你开始之前
+
+前往 [TensorFlow 官方安装说明](https://www.tensorflow.org/versions/r0.9/get_started/os_setup.html#anaconda-installation)，并遵循 Anaconda 安装说明。这与我们在第 1 课中所做的主要区别在于，你需要为你的系统启用支持 GPU 的 TensorFlow 版本。但是，在将 TensorFlow 安装到此环境之前，你需要使用 CUDA 和 CuDNN，将计算机设置为启用 GPU 的。[TensorFlow 官方文档](https://www.tensorflow.org/versions/r0.9/get_started/os_setup.html#optional-install-cuda-gpus-on-linux)逐步概述了这一点，但如果你尝试设置最近的 Ubuntu 安装，我推荐[本教程](http://www.computervisionbytecnalia.com/es/2016/06/deep-learning-development-setup-for-ubuntu-16-04-xenial/)。主要原因是，在撰写本文时（2016 年 7 月），尚未为最新的 Ubuntu 版本构建 CUDA，这意味着该过程更加手动。
+
+### 使用你的 GPU
+
+真的很简单。 至少是字面上。 只需将这个：
+
+```py
+# 起步操作
+
+with tf.Session() as sess:
+    # 运行你的代码
+```
+
+改为这个：
+
+```py
+with tf.device("/gpu:0"):
+    # 起步操作
+
+with tf.Session() as sess:
+    # 运行你的代码
+```
+
+这个新行将创建一个新的上下文管理器，告诉 TensorFlow 在 GPU 上执行这些操作。
+
+我们来看一个具体的例子。 下面的代码创建一个随机矩阵，其大小在命令行中提供。 我们可以使用命令行选项在 CPU 或 GPU 上运行代码：
+
+
+```py
+import sys
+import numpy as np
+import tensorflow as tf
+from datetime import datetime
+
+device_name = sys.argv[1]  # Choose device from cmd line. Options: gpu or cpu
+shape = (int(sys.argv[2]), int(sys.argv[2]))
+if device_name == "gpu":
+    device_name = "/gpu:0"
+else:
+    device_name = "/cpu:0"
+
+with tf.device(device_name):
+    random_matrix = tf.random_uniform(shape=shape, minval=0, maxval=1)
+    dot_operation = tf.matmul(random_matrix, tf.transpose(random_matrix))
+    sum_operation = tf.reduce_sum(dot_operation)
+
+
+startTime = datetime.now()
+with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as session:
+        result = session.run(sum_operation)
+        print(result)
+
+# 很难在终端上看到具有大量输出的结果 - 添加一些换行符以提高可读性。
+print("\n" * 5)
+print("Shape:", shape, "Device:", device_name)
+print("Time taken:", datetime.now() - startTime)
+
+print("\n" * 5)
+```
+
+你可以在命令行运行此命令：
+
+```
+python matmul.py gpu 1500
+```
+
+这将使用 GPU 和大小为 1500 平方的矩阵。 使用以下命令在 CPU 上执行相同的操作：
+
+```
+python matmul.py cpu 1500
+```
+
+与普通的 TensorFlow 脚本相比，在运行支持 GPU 的代码时，你会注意到的第一件事是输出大幅增加。 这是我的计算机在打印出任何操作结果之前打印出来的内容。
+
+```
+I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcublas.so locally
+I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcudnn.so.5 locally
+I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcufft.so locally
+I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcuda.so.1 locally
+I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcurand.so locally
+I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:925] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
+I tensorflow/core/common_runtime/gpu/gpu_init.cc:102] Found device 0 with properties: 
+name: GeForce GTX 950M
+major: 5 minor: 0 memoryClockRate (GHz) 1.124
+pciBusID 0000:01:00.0
+Total memory: 3.95GiB
+Free memory: 3.50GiB
+I tensorflow/core/common_runtime/gpu/gpu_init.cc:126] DMA: 0 
+I tensorflow/core/common_runtime/gpu/gpu_init.cc:136] 0:   Y 
+I tensorflow/core/common_runtime/gpu/gpu_device.cc:838] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 950M, pci bus id: 0000:01:00.0)
+```
+
+如果你的代码没有产生与此类似的输出，那么你没有运行支持 GPU 的 Tensorflow。或者，如果你收到`ImportError: libcudart.so.7.5: cannot open shared object file: No such file or directory`这样的错误，那么你还没有正确安装 CUDA 库。在这种情况下，你需要返回，遵循指南来在你的系统上安装 CUDA。
+
+尝试在 CPU 和 GPU 上运行上面的代码，慢慢增加数量。从 1500 开始，然后尝试 3000，然后是 4500，依此类推。你会发现 CPU 开始需要相当长的时间，而 GPU 在这个操作中真的非常快！
+
+如果你有多个 GPU，则可以使用其中任何一个。 GPU 是从零索引的 - 上面的代码访问第一个 GPU。将设备更改为`gpu:1`使用第二个 GPU，依此类推。你还可以将部分计算发送到一个 GPU，然后是另一个 GPU。此外，你可以以类似的方式访问计算机的 CPU - 只需使用`cpu:0`（或其他数字）。
+
+### 我应该把什么样的操作发送给 GPU？
+
+通常，如果该过程的步骤可以描述，例如“执行该数学运算数千次”，则将其发送到 GPU。 示例包括矩阵乘法和计算矩阵的逆。 实际上，许多基本矩阵运算是 GPU 的拿手好戏。 作为一个过于宽泛和简单的规则，应该在 CPU 上执行其他操作。
+
+更换设备和使用 GPU 还需要付出代价。 GPU 无法直接访问你计算机的其余部分（当然，除了显示器）。 因此，如果你在 GPU 上运行命令，则需要先将所有数据复制到 GPU，然后执行操作，然后将结果复制回计算机的主存。 TensorFlow 在背后处理这个问题，因此代码很简单，但仍需要执行工作。
+
+并非所有操作都可以在 GPU 上完成。 如果你收到以下错误，你正在尝试执行无法在 GPU 上执行的操作：
+
+> Cannot assign a device to node 'PyFunc': Could not satisfy explicit device specification '/device:GPU:1' because no devices matching that specification are registered in this process;
+
+如果是这种情况，你可以手动将设备更改为 CPU 来执行此函数，或者设置 TensorFlow，以便在这种情况下自动更改设备。 为此，请在配置中设置`allow_soft_placement`为`True`，作为创建会话的一部分。 原型看起来像这样：
+
+```py
+with tf.Session(config=tf.ConfigProto(allow_soft_placement=True)):
+    # 在这里运行你的图
+```
+
+我还建议在使用 GPU 时记录设备的放置，这样可以轻松调试与不同设备使用情况相关的问题。 这会将设备的使用情况打印到日志中，从而可以查看设备何时更改以及它对图的影响。
+
+```py
+with tf.Session(config=tf.ConfigProto(allow_soft_placement=True, log_device_placement=True)):
+    # 在这里运行你的图
+```
+
+1）设置你的计算机，将 GPU 用于 TensorFlow（或者如果你最近没有 GPU，就借一台）。
+
+2）尝试在 GPU 上运行以前的练习的解决方案。 哪些操作可以在 GPU 上执行，哪些不可以？
+
+3）构建一个在 GPU 和 CPU 上都使用操作的程序。 使用我们在第 5 课中看到的性能分析代码，来估计向 GPU 发送数据和从 GPU 获取数据的影响。
+
+4）把你的代码发给我！ 我很乐意看到你的代码示例，如何使用 Tensorflow，以及你找到的任何技巧。
+
+## 分布式计算
+
+TensorFlow 支持分布式计算，允许在不同的进程上计算图的部分，这些进程可能位于完全不同的服务器上！ 此外，这可用于将计算分发到具有强大 GPU 的服务器，并在具有更多内存的服务器上完成其他计算，依此类推。 虽然接口有点棘手，所以让我们从头开始构建。
+
+这是我们的第一个脚本，我们将在单个进程上运行，然后转移到多个进程。
+
+```py
+import tensorflow as tf
+
+x = tf.constant(2)
+y1 = x + 300
+y2 = x - 66
+y = y1 + y2
+
+with tf.Session() as sess:
+    result = sess.run(y)
+    print(result)
+```
+
+到现在为止，这个脚本不应该特别吓到你。 我们有一个常数和三个基本方程。 结果（238）最后打印出来。
+
+TensorFlow 有点像服务器 - 客户端模型。 这个想法是你创造了一大堆能够完成繁重任务的工作器。 然后，你可以在其中一个工作器上创建会话，它将计算图，可能将其中的一部分分发到服务器上的其他集群。
+
+为此，主工作器，主机，需要了解其他工作器。 这是通过创建`ClusterSpec`来完成的，你需要将其传递给所有工作器。 `ClusterSpec`使用字典构建，其中键是“作业名称”，每个任务包含许多工作器。
+
+下面是这个图表看上去的样子。
+
+![](img/server-clinet_model.png)
+
+以下代码创建一个`ClusterSpect`，其作业名称为`local`，和两个工作器进程。
+
+> 请注意，这些代码不会启动这些进程，只会创建一个将启动它们的引用。
+
+```py
+import tensorflow as tf
+
+cluster = tf.train.ClusterSpec({"local": ["localhost:2222", "localhost:2223"]})
+```
+
+接下来，我们启动进程。 为此，我们绘制其中一个工作器的图，并启动它：
+
+```py
+server = tf.train.Server(cluster, job_name="local", task_index=1)
+```
+
+上面的代码在`local`作业下启动`localhost:2223`工作器。
+
+下面是一个脚本，你可以从命令行运行来启动这两个进程。 将代码在你的计算机上保存为`create_worker.py`并运行`python create_worker.py 0`然后运行`python create_worker.py 1`。你需要单独的终端来执行此操作，因为脚本不会自己停止（他们正在等待指令）。
+
+```py
+# 从命令行获取任务编号
+import sys
+task_number = int(sys.argv[1])
+
+import tensorflow as tf
+
+cluster = tf.train.ClusterSpec({"local": ["localhost:2222", "localhost:2223"]})
+server = tf.train.Server(cluster, job_name="local", task_index=task_number)
+
+print("Starting server #{}".format(task_number))
+
+server.start()
+server.join()
+```
+
+执行此操作后，你将发现服务器运行在两个终端上。 我们准备分发！
+
+“分发”作业的最简单方法是在其中一个进程上创建一个会话，然后在那里执行图。 只需将上面的`session`行更改为：
+
+```py
+with tf.Session("grpc://localhost:2222") as sess:
+```
+
+现在，这并没有真正分发，不足以将作业发送到该服务器。 TensorFlow 可以将进程分发到集群中的其他资源，但可能不会。 我们可以通过指定设备来强制执行此操作（就像我们在上一课中对 GPU 所做的那样）：
+
+```py
+import tensorflow as tf
+
+
+cluster = tf.train.ClusterSpec({"local": ["localhost:2222", "localhost:2223"]})
+
+x = tf.constant(2)
+
+
+with tf.device("/job:local/task:1"):
+    y2 = x - 66
+
+with tf.device("/job:local/task:0"):
+    y1 = x + 300
+    y = y1 + y2
+
+
+with tf.Session("grpc://localhost:2222") as sess:
+    result = sess.run(y)
+    print(result)
+```
+
+现在我们正在分发！ 这可以通过根据名称和任务编号，为工作器分配任务来实现。 格式为：
+
+```py
+/job:JOB_NAME/task:TASK_NUMBER
+```
+
+通过多个作业（即识别具有大型 GPU 的计算机），我们可以以多种不同方式分发进程。
+
+### 映射和归约
+
+MapReduce 是执行大型操作的流行范式。 它由两个主要步骤组成（虽然在实践中还有一些步骤）。
+
+![](img/map_reduce.png)
+
+第一步称为映射，意思是“获取列表，并将函数应用于每个元素”。 你可以在普通的 python 中执行这样的映射：
+
+```py
+def myfunction(x):
+    return x + 5
+    
+map_result = map(myfunction, [1, 2, 3])
+
+print(list(map_result))
+```
+
+第二步是归约，这意味着“获取列表，并使用函数将它们组合”。 常见的归约操作是求和 - 即“获取数字列表并通过将它们全部加起来组合它们”，这可以通过创建相加两个数字的函数来执行。 `reduce`的原理是获取列表的前两个值，执行函数，获取结果，然后使用结果和下一个值执行函数。 总之，我们将前两个数字相加，取结果，加上下一个数字，依此类推，直到我们到达列表的末尾。 同样，`reduce`是普通 python 的一部分（尽管它不是分布式的）：
+
+```py
+from functools import reduce
+
+def add(a, b):
+    return a + b
+
+print(reduce(add, [1, 2, 3]))
+```
+
+> 译者注：原作者这里的话并不值得推荐，比如`for`你更应该使用`reduce`，因为它更安全。
+
+回到分布式 TensorFlow，执行`map`和`reduce`操作是许多非平凡程序的关键构建块。 例如，集成学习可以将单独的机器学习模型发送给多个工作器，然后组合分类结果来形成最终结果。另一个例子是一个进程。
+
+这是我们将分发的另一个基本脚本：
+
+```py
+import numpy as np
+import tensorflow as tf
+
+x = tf.placeholder(tf.float32, 100)
+
+mean = tf.reduce_mean(x)
+
+
+with tf.Session() as sess:
+    result = sess.run(mean, feed_dict={x: np.random.random(100)})
+    print(result)
+
+import numpy as np
+import tensorflow as tf
+
+x = tf.placeholder(tf.float32, 100)
+
+mean = tf.reduce_mean(x)
+
+
+with tf.Session() as sess:
+    result = sess.run(mean, feed_dict={x: np.random.random(100)})
+    print(result)
+```
+
+转换为分布式版本只是对先前转换的更改：
+
+```py
+import numpy as np
+import tensorflow as tf
+
+cluster = tf.train.ClusterSpec({"local": ["localhost:2222", "localhost:2223"]})
+
+x = tf.placeholder(tf.float32, 100)
+
+
+with tf.device("/job:local/task:1"):
+    first_batch = tf.slice(x, [0], [50])
+    mean1 = tf.reduce_mean(first_batch)
+
+with tf.device("/job:local/task:0"):
+    second_batch = tf.slice(x, [50], [-1])
+    mean2 = tf.reduce_mean(second_batch)
+    mean = (mean1 + mean2) / 2
+
+
+with tf.Session("grpc://localhost:2222") as sess:
+    result = sess.run(mean, feed_dict={x: np.random.random(100)})
+    print(result)
+```
+
+如果你从映射和归约的角度来考虑它，你会发现分发计算更容易。 首先，“我怎样才能将这个问题分解成可以独立解决的子问题？” - 这就是你的映射。 第二，“我如何将答案结合起来来形成最终结果？” - 这就是你的归约。
+
+在机器学习中，映射最常用的场景就是分割数据集。 线性模型和神经网络通常都非常合适，因为它们可以单独训练，然后再进行组合。
+
+1）将`ClusterSpec`中的`local`更改为其他内容。 你还需要在脚本中进行哪些更改才能使其正常工作？
+
+2）计算平均的脚本目前依赖于切片大小相同的事实。 尝试使用不同大小的切片并观察错误。 通过使用`tf.size`和以下公式来组合切片的平均值来解决此问题：
+
+```py
+overall_average = ((size_slice_1 * mean_slice_1) + (size_slice_2 * mean_slice_2) + ...) / total_size 
+```
+
+3）你可以通过修改设备字符串来指定远程计算机上的设备。 例如，`/job:local/task:0/gpu:0`会定位`local`作业的 GPU。 创建一个使用远程 GPU 的作业。 如果你有备用的第二台计算机，请尝试通过网络执行此操作。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/README.md b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/README.md
new file mode 100644
index 00000000..c6ce09e7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/README.md
@@ -0,0 +1,15 @@
+# TensorFlow 学习指南
+
+> 原文：[LearningTensorFlow.com](https://learningtensorflow.com)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+
++ [在线阅读](https://www.gitbook.com/book/wizardforcel/learning-tf/details)
++ [PDF格式](https://www.gitbook.com/download/pdf/book/wizardforcel/learning-tf)
++ [EPUB格式](https://www.gitbook.com/download/epub/book/wizardforcel/learning-tf)
++ [MOBI格式](https://www.gitbook.com/download/mobi/book/wizardforcel/learning-tf)
++ [代码仓库](https://github.com/apachecn/learning-tf-zh)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/SUMMARY.md
new file mode 100644
index 00000000..508ef012
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/SUMMARY.md
@@ -0,0 +1,5 @@
++   [TensorFlow 学习指南](README.md)
++   [一、基础](1.md)
++   [二、线性模型](2.md)
++   [三、学习](3.md)
++   [四、分布式](4.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/2d_grid.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/2d_grid.png
new file mode 100644
index 00000000..3ed32fe5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/2d_grid.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/GPU.jpg b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/GPU.jpg
new file mode 100644
index 00000000..bb50460c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/GPU.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/MarshOrchid.jpg b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/MarshOrchid.jpg
new file mode 100644
index 00000000..ee696827
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/MarshOrchid.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidFlipLR.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidFlipLR.png
new file mode 100644
index 00000000..c147ca8a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidFlipLR.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidSlice.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidSlice.png
new file mode 100644
index 00000000..c2038527
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidSlice.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidTranspose.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidTranspose.png
new file mode 100644
index 00000000..b9c90718
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/OrchidTranspose.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/Selection_001.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/Selection_001.png
new file mode 100644
index 00000000..a9d84c67
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/Selection_001.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/basic_graph.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/basic_graph.png
new file mode 100644
index 00000000..b6cc4224
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/basic_graph.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube.png
new file mode 100644
index 00000000..fb56fc8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube_1.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube_1.png
new file mode 100644
index 00000000..6ba32da7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube_1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube_2.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube_2.png
new file mode 100644
index 00000000..c8f66785
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/cube_2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/digits_sample.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/digits_sample.png
new file mode 100644
index 00000000..a11bd443
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/digits_sample.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/ezgif.com-video-to-gif.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/ezgif.com-video-to-gif.gif
new file mode 100644
index 00000000..a04add0d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/ezgif.com-video-to-gif.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_normal.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_normal.png
new file mode 100644
index 00000000..158d4900
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_normal.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_normal_centered.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_normal_centered.png
new file mode 100644
index 00000000..e8bf305e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_normal_centered.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_tensorflow.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_tensorflow.png
new file mode 100644
index 00000000..c37c3182
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_tensorflow.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_tensorflow_wider.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_tensorflow_wider.png
new file mode 100644
index 00000000..a8d85a27
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_tensorflow_wider.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_uniform_large.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_uniform_large.png
new file mode 100644
index 00000000..59e80094
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_uniform_large.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_uniform_small.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_uniform_small.png
new file mode 100644
index 00000000..fa92f5f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/histogram_uniform_small.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/l07loss.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/l07loss.png
new file mode 100644
index 00000000..3e79ee56
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/l07loss.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/l08initial.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/l08initial.png
new file mode 100644
index 00000000..86e7a10a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/l08initial.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/map_reduce.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/map_reduce.png
new file mode 100644
index 00000000..577e7c19
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/map_reduce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/names_graph.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/names_graph.png
new file mode 100644
index 00000000..c089d573
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/names_graph.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/outputfolder.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/outputfolder.png
new file mode 100644
index 00000000..204c33ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/outputfolder.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plotcircles.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plotcircles.png
new file mode 100644
index 00000000..ea6b889d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plotcircles.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plotcircles_w_points.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plotcircles_w_points.png
new file mode 100644
index 00000000..44ec9b1c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plotcircles_w_points.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plt.scatter.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plt.scatter.png
new file mode 100644
index 00000000..415c1121
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/plt.scatter.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/redx.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/redx.png
new file mode 100644
index 00000000..08e631d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/redx.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/scatter.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/scatter.png
new file mode 100644
index 00000000..96c675a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/scatter.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/scope_graph.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/scope_graph.png
new file mode 100644
index 00000000..49e5e219
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/scope_graph.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/server-clinet_model.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/server-clinet_model.png
new file mode 100644
index 00000000..54bc0821
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/server-clinet_model.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/t0601_generate.png b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/t0601_generate.png
new file mode 100644
index 00000000..2b15e9b5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/t0601_generate.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex1.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex1.gif
new file mode 100644
index 00000000..8d9b2d5e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex10.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex10.gif
new file mode 100644
index 00000000..89de619e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex10.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex11.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex11.gif
new file mode 100644
index 00000000..9f6d961d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex11.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex12.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex12.gif
new file mode 100644
index 00000000..45ca69a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex12.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex2.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex2.gif
new file mode 100644
index 00000000..4d1bf91c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex3.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex3.gif
new file mode 100644
index 00000000..d9539fac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex4.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex4.gif
new file mode 100644
index 00000000..f5860a0c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex5.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex5.gif
new file mode 100644
index 00000000..ceaad310
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex6.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex6.gif
new file mode 100644
index 00000000..bfc2c8be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex7.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex7.gif
new file mode 100644
index 00000000..82dc9333
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex8.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex8.gif
new file mode 100644
index 00000000..989e2bc2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex8.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex9.gif b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex9.gif
new file mode 100644
index 00000000..a0048a1a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/learning-tf-zh/img/tex9.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/00.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/00.md
new file mode 100644
index 00000000..199b2c7e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/00.md
@@ -0,0 +1,98 @@
+# 零、前言
+
+深度学习正迅速成为业界最受欢迎的话题。 本书以工业和应用为重点的方法介绍了流行的深度学习概念及其用例。 您将涵盖一系列项目，包括移动视觉，面部识别，智能 AI 助手和增强现实等任务。
+
+在八个项目的帮助下，您将学习将深度学习过程集成到 iOS 和 Android 移动平台中。 这将帮助您有效地将深度学习功能转换为强大的移动应用。 这本书让您动手选择正确的深度学习架构并优化移动深度学习模型，同时遵循面向应用的方法在本机移动应用上进行深度学习。 稍后，我们将介绍各种经过预先训练和定制的基于深度学习模型的 API，例如通过 Google Firebase 的 ML Kit。 进一步，这本书将带您通过使用 TensorFlow Lite 借助 Python 创建自定义深度学习模型的示例。 从准备模型到部署，每个项目都会演示如何将深度学习库集成到您的移动应用中。
+
+到本书结尾，您将具备在 iOS 和 Android 上构建和部署高级深度学习移动应用的技能。
+
+# 这本书是给谁的
+
+本书适合那些希望利用深度学习功能来提供更好的用户体验或希望将强大的智能功能引入其应用的应用开发人员。 同时，它也适合希望将其深度学习模型部署到跨平台移动应用的深度学习从业人员。
+
+为了充分利用本书，需要对移动应用的工作方式有基本的了解，并对 Python 有很好的了解。 建议对中学数学有较高的了解。
+
+# 本书涵盖的内容
+
+“第 1 章”，“移动深度学习简介”讨论了移动设备上深度学习的新兴重要性。 它涵盖了机器学习和深度学习的基本概念，还向您介绍了可用于将深度学习与 Android 和 iOS 集成的各种选项。 本章还介绍了使用本机和基于云的学习方法进行深度学习项目的实现。
+
+“第 2 章”，“移动视觉–使用设备上模型的人脸检测”向您介绍 ML Kit 中提供的移动视觉和移动视觉模型。 您将学习如何在 Keras 中创建人脸检测模型，并了解如何将其转换为可用于移动设备的模型。 该模型使用 Google Cloud Vision API 进行面部检测。
+
+“第 3 章”，“Google 上的聊天机器人”使用操作，可以通过扩展 Google Assistant 的功能来创建自己的自定义聊天机器人。 该项目很好地理解了如何使用 Google Actions 和 Dialogflow 的 API 构建使用引人入胜的基于语音和文本的会话界面的产品。
+
+“第 4 章”，“识别植物物种”提供了有关如何构建自定义 Tensorflow Lite 模型的深入讨论，该模型能够使用图像处理执行视觉识别任务。 开发的模型在移动设备上运行，主要用于识别不同的植物物种。 该模型使用深层**卷积神经网络**（**CNN**）进行视觉识别。
+
+“第 5 章”，“从摄像机供稿生成实时字幕”提出了一种使用摄像机供稿实时生成自然语言字幕的方法。 在这个项目中，您将创建自己的相机应用，该应用使用由图像标题生成器生成的自定义预训练模型。 该模型使用 CNN 和**长短期记忆**（**LSTM**）生成字幕。
+
+“第 6 章”，“构建人工智能认证系统”为您提供了验证用户身份并创建识别稀有和可疑用户交互的机制的方法。 在识别罕见事件（即与大多数数据不同的事件）后，不允许用户登录，并收到一条消息，指出检测到恶意用户。 当相关应用包含高度安全的数据（例如机密电子邮件或虚拟银行保险库）时，这可能会很有用。 该项目在网络请求标头上使用基于 LSTM 的模型来对异常登录进行分类。
+
+“第 7 章”，“语音/多媒体处理-使用 AI 生成音乐”探索了使用 AI 生成音乐的方法。 将向您介绍多媒体处理。 本章演示了样本训练后用于生成音乐的方法。 该项目使用循环神经网络和基于 LSTM 的模型来生成 MIDI 音乐文件。
+
+“第 8 章”，“基于增强型神经网络的国际象棋引擎”讨论了 Google 的 DeepMind，以及如何将增强型神经网络用于 Android 平台上的机器辅助游戏。 首先，您将创建一个 Connect4 引擎，以直观地构建自学习，玩游戏的 AI。 然后，您将开发基于深度强化学习的国际象棋引擎，并将其作为 API 托管在 **Google Cloud Platform**（**GCP**）上。 然后，您将使用国际象棋引擎的 API 在移动设备上执行游戏。
+
+“第 9 章”，“构建图像超分辨率应用”提出了一种借助深度学习生成超分辨率图像的方法。 您将学习在 Android/iOS 上处理图像的第三种方法，以及如何创建可在 DigitalOcean 上托管并包含在 Android/iOS 应用中的 TensorFlow 模型。 由于此模型的资源非常密集，因此将指导您如何在云上托管该模型。 该项目使用生成对抗网络。
+
+“第 10 章”，“未来之路”简要介绍了当今移动应用中最受欢迎的深度学习应用，当前趋势以及在该领域中有望发展的技术。
+
+# 充分利用这本书
+
+您需要在本地系统上有效的 Python 3.5+ 安装。 将 Python 作为 Anaconda 发行版的一部分进行安装是一个好主意。 要构建移动应用，您需要有效安装 Flutter 2.0+。 此外，整本书中通常会同时需要 TensorFlow 1.x 和 2.x。 因此，必须具有两个 Anaconda 环境：
+
+| 书中涵盖的软件/硬件 | **操作系统要求** |
+| --- | --- |
+| Jupyter 笔记本 | 带有更新的网络浏览器（最好是 Google Chrome/Mozilla Firefox/Apple Safari）的任何操作系统。最低 RAM 要求：4 GB； 但是，建议使用 8 GB。 |
+| Microsoft Visual Studio 代码 | 任何具有 4 GB 以上 RAM 的操作系统； 但是，建议使用 8 GB。 |
+| 具有开发人员访问权限的智能手机 | 具有至少 2 GB RAM 的 Android/iOS； 但是，建议使用 3 GB。 |
+
+您可以免费获得本书中所需的所有软件工具。 但是，您必须将您的信用卡/借记卡详细信息添加到您的帐户中才能激活 GCP 或 DigitalOcean 平台。
+
+如果您使用的是本书的数字版本，建议您自己键入代码或通过 GitHub 存储库（下一节中提供的链接）访问代码。 这样做将帮助您避免与代码的复制和粘贴相关的任何潜在错误。
+
+Flutter 移动应用上的深度学习尚处于开发的早期阶段。 阅读本书后，如果您撰写博客并制作有关如何在移动应用上执行机器学习或深度学习的视频，那么您将为不断增长的应用开发人员和机器学习从业者生态系统做出贡献。
+
+# 下载示例代码文件
+
+您可以从 [www.packt.com](http://www.packt.com) 的帐户中下载本书的示例代码文件。 如果您在其他地方购买了此书，则可以访问 [www.packtpub.com/support](https://www.packtpub.com/support) 并注册以将文件直接通过电子邮件发送给您。
+
+您可以按照以下步骤下载代码文件：
+
+1.  登录或注册 [www.packt.com](http://www.packt.com) 。
+2.  选择“支持”选项卡。
+3.  单击“代码下载”。
+4.  在搜索框中输入书籍的名称，然后按照屏幕上的说明进行操作。
+
+下载文件后，请确保使用以下最新版本解压缩或解压缩文件夹：
+
+*   Windows 的 WinRAR/7-Zip
+*   Mac 版 Zipeg/iZip/UnRarX
+*   适用于 Linux 的 7-Zip/PeaZip
+
+本书的代码包也托管在 [GitHub](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects) 上。 如果代码有更新，它将在现有的 GitHub 存储库中进行更新。
+
+我们还从[这里](https://github.com/PacktPublishing/)提供了丰富的书籍和视频目录中的其他代码包。 去看一下！
+
+# 下载彩色图像
+
+我们还提供了 PDF 文件，其中包含本书中使用的屏幕截图/图表的彩色图像。 您可以从[这里](https://static.packt-cdn.com/downloads/9781789611212_ColorImages.pdf)下载。
+
+# 使用约定
+
+本书中使用了许多文本约定。
+
+`CodeInText`：指示文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字。 这是一个示例：“注意，这里的`dialogflow`变量是`actions-on-google`模块的对象。”
+
+代码块设置如下：
+
+```py
+dependencies:
+  flutter:
+    sdk: flutter
+  firebase_ml_vision: ^0.9.2+1
+  image_picker: ^0.6.1+4
+```
+
+**粗体**：表示新术语，重要单词或您在屏幕上看到的单词。 例如，菜单或对话框中的单词会出现在这样的文本中。 这是一个示例：“要进入控制台，请单击**开始构建**或**转到操作控制台**按钮。”
+
+警告或重要提示如下所示。
+
+提示和技巧如下所示。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/01.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/01.md
new file mode 100644
index 00000000..3a7021de
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/01.md
@@ -0,0 +1,332 @@
+# 一、移动深度学习简介
+
+在本章中，我们将探索移动设备上深度学习的新兴途径。 我们将简要讨论机器学习和深度学习的基本概念，并将介绍可用于将深度学习与 Android 和 iOS 集成的各种选项。 本章还介绍了使用本机和基于云的学习方法进行深度学习项目的实现。
+
+在本章中，我们将介绍以下主题：
+
+*   基于**人工智能**（**AI**）的移动设备的发展
+*   了解机器学习和深度学习
+*   介绍一些常见的深度学习架构
+*   强化学习和**自然语言处理**（**NLP**）简介
+*   在 Android 和 iOS 上集成 AI 的方法
+
+# 人工智能移动设备的增长
+
+AI 变得比以前更加移动，因为更小的设备具有更多的计算能力。 移动设备原本仅用于拨打电话和发送短信，但随着 AI 的引入，如今已转变为智能手机。 这些设备现在能够利用 AI 不断增强的功能来学习用户的行为和喜好，增强照片，进行全面的对话等等。 人工智能驱动的智能手机的功能预计只会一天一天地增长。 根据 Gartner 的数据，到 2022 年，80% 的智能手机将支持 AI。
+
+# 支持 AI 的硬件变化
+
+为了应对 AI 的高计算能力，对手机的硬件支持进行了定期更改和增强，以使他们具有思考和行动的能力。 移动制造公司一直在不断升级移动设备上的硬件支持，以提供无缝和个性化的用户体验。
+
+华为已经发布了麒麟 970 SoC，该芯片可以使用专门的神经网络处理单元来实现设备上的 AI 体验。 苹果设备装有称为*神经引擎*的 AI 芯片，该芯片是 A11 Bionic 芯片的一部分。 它专用于机器学习和深度学习任务，例如面部和语音识别，记录动画和拍摄照片时的对象检测。 高通公司和联发科已经发布了他们自己的芯片，这些芯片支持设备上的 AI 解决方案。 三星宣布的 Exynos 9810 是一种基于神经网络的芯片，例如高通的 Snapdragon 845。 2018 年的三星设备 Galaxy S9 和 S9+ 包括这些基于其销售国家/地区的芯片。 借助 Galaxy S9，该公司非常明显地表明它将集成 AI 以改善设备相机的功能和实时文本翻译。 最新的三星 Galaxy S10 系列由 Qualcomm Snapdragon 855 提供支持，以支持设备上的 AI 计算。
+
+Google Translate Word Lens 和 Bixby 个人助理已用于开发该功能。 有了这些技术，该设备即可翻译多达 54 种语言。 这些电话足够智能，可以在 f/2.4 和 f/1.5 的传感器之间进行选择，非常适合在弱光条件下拍摄照片。 Google Pixel 2 利用其机器学习的强大功能，通过其协处理器 Pixel Visual Core 集成了八个图像处理单元。
+
+# 为什么移动设备需要使用 AI 芯片？
+
+集成 AI 芯片不仅有助于提高效率和计算能力，而且还保留了用户的数据和隐私。 在移动设备上包含 AI 芯片的优势可以列举如下：
+
+*   **性能**：当前日期中移动设备的 CPU 不适合机器学习的需求。 尝试在这些设备上部署机器学习模型通常会导致服务速度缓慢和电池消耗更快，从而导致不良的用户体验。 这是因为 CPU 缺乏执行 AI 计算所需的大量小型计算的效率。 AI 芯片类似于负责处理设备上图形的**图形处理器**（**GPU**）芯片，提供了单独的空间来执行与机器学习和深度学习过程专门相关的计算 。 这使 CPU 可以将时间集中在其他重要任务上。 通过合并专用的 AI 硬件，设备的性能和电池寿命得到了改善。
+*   **用户隐私**：硬件还确保提高用户隐私和安全性。 在传统的移动设备中，数据分析和机器学习过程将需要将用户数据的大块发送到云中，从而威胁到用户数据隐私和移动设备的安全性。 借助设备上的 AI 芯片，可以在设备本身上离线执行所有必需的分析和计算。 在移动设备中包含专用硬件的这种方式极大地降低了用户数据被黑或泄漏的风险。
+*   **效率**：在现实世界中，通过集成 AI 芯片，诸如图像识别和处理之类的任务可能会快得多。 华为的神经网络处理单元就是一个很好的例子。 它能够以每秒 2,000 张图片的效率识别图像。 该公司声称这比标准 CPU 所花费的时间快 20 倍。 当使用 16 位浮点数时，它可以执行 1.92 teraflops 或每秒 1 万亿次浮点运算。 苹果公司的神经引擎每秒可处理约 6000 亿次操作。
+*   **经济性**：设备上的 AI 芯片减少了将数据发送到云中的需求。 此功能使用户可以脱机访问服务并保存数据。 因此，可以避免使用应用的人为服务器付费。 这对用户和开发人员都是有利的。
+
+让我们简要概述一下移动设备上的 AI 如何影响我们与智能手机交互的方式。
+
+# 在移动设备上使用 AI 改善用户体验
+
+人工智能的使用极大地增强了移动设备上的用户体验。 可以将其大致分为以下几类。
+
+# 个性化
+
+个性化主要是指修改服务或产品以适合特定个人的偏好，有时与个人集群有关。 在移动设备上，使用 AI 通过使设备和应用适应用户的习惯及其独特的个人资料（而不是面向通用个人资料的应用）来帮助改善用户体验。 移动设备上的 AI 算法利用可用的特定于用户的数据（例如位置，购买历史记录和行为模式）来预测和个性化当前和将来的交互，例如在一天的特定时间段内用户的首选活动或音乐。
+
+例如，AI 收集有关用户购买历史的数据，并将其与从在线流量，移动设备，电子设备中嵌入的传感器和车辆中获得的其他数据进行编译。 然后，这些经过编译的数据将用于分析用户的行为，并允许品牌采取必要的措施来提高用户参与率。 因此，用户可以利用基于 AI 的应用的好处来获得个性化的结果，这将减少他们的滚动时间，并让他们探索更多的产品和服务。
+
+最好的例子是通过购物平台（如沃尔玛，亚马逊）或媒体平台（如 YouTube 或 Netflix）运行的推荐系统。
+
+2011 年，亚马逊报告的销售额增长了 29%，从 99 亿美元增至 128.3 亿美元。 凭借最成功的推荐率，亚马逊 35% 的销售额来自遵循其产品推荐引擎生成的推荐的客户。
+
+# 虚拟助手
+
+虚拟助手是一种可以理解语音命令并为用户完成任务的应用。 他们能够使用**自然语言理解**（**NLU**）来解释人的语音，并且通常会通过合成语音进行响应。 您可能会使用虚拟助手来完成真正的私人助手为您执行的几乎所有任务，即代表您打电话给他人，记下您指定的笔记，打开或关闭家中的电灯/ 在家庭自动化的帮助下办公，为您播放音乐，甚至只是与您讨论您想谈论的任何话题！ 虚拟助手可能能够接受文本，音频或视觉手势形式的命令。 虚拟助手会随着时间的推移适应用户习惯并变得更聪明。
+
+利用 NLP 的功能，虚拟助手可以识别口头语言的命令，并从您上传到助手或保存在他们可以访问的任何在线相册中的图像中识别人和宠物。
+
+目前市场上最受欢迎的虚拟助手是亚马逊上运行的 Amazon Alexa，Google 助手，iPhone 的 Siri，微软的 Cortana 和在三星设备上运行的 Bixby。 一些虚拟助手是被动监听器，仅当他们收到特定的唤醒命令时才响应。 例如，可以使用“嘿谷歌”或“确定谷歌”激活 Google 助手，然后使用“关闭卧室灯”命令关闭谷歌助手，或者使用来从联系人列表中呼叫某人。 “打给”。 在 Google IO '18 中，Google 推出了双工电话预订 AI，这表明 Google Assistant 不仅能够拨打电话，而且还可以进行对话并有可能独自在美发沙龙中进行预订 。
+
+虚拟助手的使用呈指数增长，预计到 2021 年将达到 18 亿用户。54% 的用户同意虚拟助手有助于简化日常任务，而 31% 的人已经在日常生活中使用助手。 此外，有 64% 的用户将虚拟助手用于多个目的。
+
+# 面部识别
+
+足以识别或验证面部或从数字图像和视频中识别面部表情的技术被称为面部识别。 该系统通常通过将给定图像中最常见和最显着的面部特征与数据库中存储的面部进行比较来工作。 面部识别还具有根据个人的面部纹理和形状来理解图案和变化的能力，以唯一地识别一个人，通常被称为基于 AI 的生物识别应用。
+
+最初，面部识别是计算机应用的一种形式。 但是，近来它在移动平台上被广泛使用。 面部识别以及诸如指纹和虹膜识别之类的生物识别技术在移动设备的安全系统中得到了普遍的应用。 通常，人脸识别过程分两个步骤进行：特征提取和选择是第一步，对象分类是第二步。 后来的发展引入了其他几种方法，例如使用面部识别算法，三维识别，皮肤纹理分析和热像仪。
+
+Apple 的 iPhone X 中引入的 Face ID 是生物识别认证的后继产品，是几种基于 Android 的智能手机中基于指纹的认证系统的继任者。 人脸 ID 的人脸识别传感器由两部分组成：`Romeo`模块和`Juliet`模块。 `Romeo` 模块负责将 30,000 多个红外点投射到用户的脸上。 该模块的对应部分`Juliet` 模块，读取用户面部上的点形成的图案。 然后将图案发送到设备 CPU 中的设备上`Secure Enclave`模块，以确认面部是否与所有者匹配。 苹果无法直接访问这些面部图案。 当用户闭上眼睛时，系统不允许授权工作，这是增加的安全性。
+
+该技术从用户外观的变化中吸取教训，并可以用于化妆，胡须，眼镜，太阳镜和帽子。 它也可以在黑暗中工作。 **泛光照明器**是专用的红外闪光灯，可将不可见的红外光投射到用户的脸上，以正确读取面部表情，并帮助系统在弱光条件下甚至在完全黑暗的情况下运行。 与 iPhone 相反，三星设备主要依赖于二维面部识别，并带有虹膜扫描仪，该虹膜扫描仪可在 Galaxy Note 8 中用作生物识别。印度领先的高级智能手机销售商 OnePlus 也仅依赖于二维面部识别。
+
+到 2023 年，利用面部识别的软件全球市场预计将从 2017 年的 38.5 亿美元增长到 97.8 亿美元。亚太地区是增长最快的地区，其市场份额约为 16%。
+
+# 人工智能相机
+
+相机中的 AI 集成使他们能够识别，理解和增强场景和照片。 AI 摄像机能够理解和控制摄像机的各种参数。 这些相机基于称为**计算摄影**的数字图像处理技术的原理工作。 它使用算法而不是光学过程来寻求使用机器视觉来识别和改善图片内容。 这些相机使用深度学习模型，这些模型在包​​含数百万个样本的巨大图像数据集上进行训练，可自动识别场景，光线的可用性以及所捕获场景的角度。
+
+当相机指向正确的方向时，相机的 AI 算法将接管更改相机的设置，以产生最佳质量的图像。 在幕后，实现 AI 摄影的系统并不简单。 所使用的模型经过高度优化，可在检测到几乎实时捕获的场景特征时产生正确的相机设置。 它们还可以添加动态曝光，颜色调整以及图像的最佳效果。 有时，图像可能会由 AI 模型自动进行后处理，而不是在单击照片时进行处理，以减少设备的计算开销。
+
+如今，移动设备通常配备双镜头相机。 这些相机使用两个镜头在照片上添加散景效果（日语中为“模糊”）。 **背景虚化**效果为主要拍摄对象周围的背景增添了模糊感，使其在美学上令人愉悦。 基于 AI 的算法有助于模拟识别对象的效果，并使剩余部分模糊，从而产生人像效果。
+
+Google Pixel 3 相机可以在 **Top Shot** 和 **Photobooth** 两种拍摄模式下工作。 相机最初在用户尝试捕获之前和之后捕获几帧。 然后，设备中可用的 AI 模型就可以选择最佳帧。 通过为相机的图像识别系统提供大量训练，使之成为可能，然后，该系统便能够选择看上去最好的图片，几乎就像人在捡照片一样。 **照相棚**模式允许用户简单地将设备对准动作场景，并在相机预测为图像完美的时刻自动拍摄图像。
+
+# 预测文本
+
+预测文本是一种输入技术，通常在消息传递应用中使用，根据输入的单词和短语向用户建议单词。 每次按键后的预测都是唯一的，而不是以相同的恒定顺序产生重复的字母序列。 预测性文本可以通过一次按键即可输入整个单词，从而可以大大加快输入过程。 这使得输入书写任务（例如键入文本消息，编写电子邮件或使用较少的设备键来使地址簿中的条目高效输入）成为可能。 预测文本系统将用户的首选界面样式与他们学习预测文本软件的能力水平联系在一起。 通过分析和适应用户的语言，系统最终变得更智能。 T9 词典是此类文​​本预测器的一个很好的例子。 它分析使用的单词的频率，并生成多个最可能的单词。 它也能够考虑单词的组合。
+
+快速类型是苹果公司在其 iOS 8 版本中宣布的一种预想性文本功能。 它使用机器学习和 NLP，这使软件可以根据用户的打字习惯来构建自定义词典。 这些词典随后用于预测。 这些预测系统还取决于对话的上下文，并且能够区分正式和非正式语言。 此外，它支持全球多种语言，包括美国英语，英国英语，加拿大英语，澳大利亚英语，法语，德语，意大利语，巴西葡萄牙语，西班牙语和泰语。
+
+Google 还推出了一项新功能，该功能将帮助用户比以前更快地撰写和发送电子邮件。 名为 Smart Compose 的功能可以理解键入的文本，以便 AI 可以建议单词和短语来完成句子。 智能撰写功能可通过纠正拼写错误和语法错误以及建议用户最常用的单词，帮助用户节省编写电子邮件的时间。 智能回复是另一个功能，类似于 LinkedIn 消息中的回复建议，该建议根据用户接收到的电子邮件的上下文，建议单击一次即可发送的回复。 例如，如果用户收到一封祝贺他们接受的应用的电子邮件，则“智能回复”功能可能会提供以下选项来进行回复：“谢谢！”，“谢谢让我知道”和“谢谢您” 接受我的申请。” 然后，用户可以单击首选答复并发送快速答复。
+
+在 1940 年代，林语堂创建了一种打字机，其中的启动键会根据所选字符提示字符。
+
+# 使用 AI 的最受欢迎的移动应用
+
+近年来，我们看到将 AI 集成到其功能中以增加用户参与度和定制服务交付的应用数量激增。 在本节中，我们将简要讨论移动应用领域中一些最大的参与者如何利用 AI 的优势来促进其业务发展。
+
+# Netflix
+
+Netflix 是移动应用中机器学习的最佳和最受欢迎的例子。 该应用使用线性回归，逻辑回归和其他机器学习算法为用户提供完美的个性化推荐体验。 按演员，体裁，时长，评论，年等分类的内容用于训练机器学习算法。 所有这些机器学习算法都会学习并适应用户的动作，选择和偏好。 例如，约翰看了一个新电视连续剧的第一集，但并不十分喜欢，所以他不会看后续的几集。 Netflix 涉及的推荐系统了解他不喜欢这种电视节目，因此将其从推荐中删除。 同样，如果约翰从推荐列表中选择了第八条推荐，或者在看完电影预告片后写了一篇不好的评论，则所涉及的算法会尝试适应其行为和偏好，以提供极为个性化的内容。
+
+# Seeing AI
+
+微软开发的 Seeing AI 是一款智能相机应用，它使用计算机视觉来听觉上帮助盲人和视障人士了解周围的环境。 它具有一些功能，例如为用户读取简短的文本和文档，提供有关人的描述，使用设备的相机识别其他应用中的货币，颜色，笔迹，光线甚至图像。 为了使该应用具有先进的实时响应能力，开发人员采用了使服务器与 Microsoft Cognitive Services 通信的想法。 OCR，条形码扫描仪，面部识别和场景识别是该应用整合在一起的最强大的技术，可为用户提供一系列出色的功能。
+
+# Allo
+
+Allo 是 Google 开发的以 AI 为中心的消息传递应用。 自 2019 年 3 月起，Allo 已停产。 但是，这是 Google 推动 AI 应用发展的重要里程碑。 该应用允许用户通过语音在 Android 手机上执行操作。 它使用了智能回复功能，该功能可以通过分析对话的上下文来建议单词和短语。 该应用不仅限于文本。 实际上，它同样能够分析对话期间共享的图像并提出回复建议。 强大的图像识别算法使之成为可能。 后来，此智能回复功能也在 Google 收件箱中实现，现在已在 Gmail 应用中提供。
+
+# 英语语音助手
+
+**英语语音助手**（**ELSA**）被评为全球基于 AI 的应用排名前五的应用，它是世界上最智能的 AI 语音导师。 该移动应用可以帮助人们提高发音。 它被设计为冒险游戏，按级别进行区分。 每个级别呈现一组供用户发音的单词，将其作为输入。 仔细检查用户的响应以指出他们的错误并帮助他们改进。 当应用检测到错误的发音时，它会通过指示用户嘴唇和舌头的正确运动来教给用户正确的发音，以便正确地说出单词。
+
+# Socratic
+
+Socratic 是一个导师应用，它允许用户拍摄数学问题，并给出答案以解释其背后的理论，并详细说明应如何解决。 该应用不仅限于数学。 当前，它可以为 23 个不同主题的用户提供帮助，包括英语，物理，化学，历史，心理学和微积分。 该应用使用 AI 的功能来分析所需的信息，并通过分步解决方案返回视频。 该应用的算法与计算机视觉技术相结合，能够读取图像中的问题。 此外，它使用针对数百万个示例问题训练的机器学习分类器，有助于准确预测解决问题所涉及的概念。
+
+现在，让我们更深入地研究机器学习和深度学习。
+
+# 了解机器学习和深度学习
+
+在能够研究包含与 AI 领域相关的技术和算法的解决方案之前，了解一些机器学习和深度学习的关键概念很重要。 当我们谈论 AI 的当前状态时，我们通常指的是能够搅动大量数据以找到模式并根据这些模式进行预测的系统。
+
+尽管“人工智能”一词可能会带来说话的类人机器人或自动驾驶到外行的图像，但对于研究该领域的人来说，它们可能是互连的计算模块图和网络的形式。
+
+在下一节中，我们将首先介绍机器学习。
+
+# 了解机器学习
+
+1959 年，亚瑟·塞缪尔（Arthur Samuel）创造了术语**机器学习**。 在他对机器学习的定义的轻描淡写中，使机器能够从过去的经验中学习并在提供未知输入的情况下基于它们进行预测的计算机科学领域称为机器学习。
+
+机器学习的更精确定义可以描述如下：
+
+*   通过学习有关任务`T`的经验`E`来提高其在任何任务`T`上的性能`P`的计算机程序，称为机器学习程序。
+*   使用前面的定义，在目前类似的情况下，`T`是与预测有关的任务，而`P`是计算机程序在执行任务`T`时所达到的准确率度量，基于程序能够学习的内容，该学习称为`E`。 随着`E`的增加，计算机程序会做出更好的预测，这意味着`P`得到改善，因为该程序以更高的精度执行任务`T`。
+*   在现实世界中，您可能会遇到一位老师在教学生执行特定任务，然后通过让学生参加考试来评估学生执行任务的技能。 学生接受的训练越多，他们执行任务的能力就越好，并且他们的考试成绩也就越高。
+
+在下一节中，让我们尝试了解深度学习。
+
+# 了解深度学习
+
+我们已经很长时间听到了**学习**一词，并且在某些情况下通常意味着获得执行任务的经验。 但是，以学习为前缀的**深度**是什么意思？
+
+在计算机科学中，深度学习是指一种机器学习模型，其中涉及多个学习层。 这意味着计算机程序由多种算法组成，数据通过这些算法逐一传递，最终产生所需的输出。
+
+深度学习系统是使用神经网络的概念创建的。 神经网络是连接在一起的神经元层的组成，因此数据从一层神经元传递到另一层，直到到达最终层或输出层。 神经元的每一层以与最初将数据作为输入提供给神经网络的形式相同或不同的形式获取数据输入。
+
+考虑以下神经网络图：
+
+![](img/9f7ea3ae-e393-42b3-b72c-8b257f3f346e.png)
+
+前面的屏幕截图中介绍了一些术语。 让我们简要地讨论其中的每一个。
+
+# 输入层
+
+保留输入值的层称为输入层。 有人认为该层实际上不是一个层，而仅仅是一个保存数据的变量，因此是数据本身，而不是一个层。 但是，保持该层的矩阵的尺寸很重要，必须正确定义，以使神经网络与第一隐藏层进行通信。 因此，从概念上讲，它是保存数据的层。
+
+# 隐藏层
+
+输入层和输出层之间的任何中间层都称为隐藏层。 生产环境中使用的典型神经网络可能包含数百个输入层。 通常，隐藏层比输入或输出层包含更多的神经元。 但是，在某些特殊情况下，这可能不成立。 通常会在隐藏层中包含大量神经元，以处理输入以外的维度中的数据。 这使程序可以以用户将其馈入网络时所呈现的格式，以数据的形式获得洞察力或模式，这些数据可能不可见。
+
+神经网络的复杂性直接取决于网络中神经元的层数。 尽管神经网络可以通过添加更多层来发现数据中更深的模式，但它也增加了网络的计算成本。 网络也有可能进入称为**过拟合**的错误状态。 相反，如果网络太简单，或者说网络不够深，它将到达另一个错误状态，称为**欠拟合**。
+
+您可以在[这个页面](https://towardsdatascience.com/overfitting-vs-underfitting-a-conceptual-explanation-d94ee20ca7f9)上了解有关过拟合和不足的更多信息。
+
+# 输出层
+
+产生并存储所需输出的最后一层称为输出层。 该层通常对应于所需输出类别的数量，或具有一个包含所需回归输出的单个神经元。
+
+# 激活函数
+
+神经网络中的每一层都接受称为**激活函数**的函数。 此函数的作用是将神经元内部包含的数据保持在正常范围内，否则该范围会变得太大或太小，并导致与计算机中大十进制系数或大数的处理有关的计算错误。 另外，激活函数使神经网络能够处理数据中模式的非线性。
+
+# 一些常见的深度学习架构简介
+
+在对关键术语进行简短修订之后，我们现在准备更深入地研究深度学习领域。 在本节中，我们将学习一些著名的深度学习算法及其工作原理。
+
+# 卷积神经网络
+
+从动物视觉皮层得到启发，**卷积神经网络**（**CNN**）主要用于图像处理，并且实际上已经成为图像处理的标准。 卷积层的核心概念是核（或过滤器）的存在，这些核学习区分图像的特征。 核通常比图像矩阵短得多，并且以滑动窗口的方式传递到整个图像上，从而产生核的点积与待处理图像的相应矩阵切片。 点积使程序可以识别图像中的特征。
+
+考虑以下图像向量：
+
+```py
+[[10, 10, 10, 0, 0, 0],
+ [10, 10, 10, 0, 0, 0],
+ [10, 10, 10, 0, 0, 0],
+ [0, 0, 0, 10, 10, 10],
+ [0, 0, 0, 10, 10, 10],
+ [0, 0, 0, 10, 10, 10]]
+```
+
+前面的矩阵对应于如下图像：
+
+![](img/9be1a380-eff8-4acf-b4d1-506b70652d59.png)
+
+在应用过滤器检测水平边缘时，过滤器由以下矩阵定义：
+
+```py
+[[1, 1, 1],
+ [0, 0, 0],
+ [-1, -1, -1]]
+```
+
+原始图像与过滤器卷积后产生的输出矩阵如下：
+
+```py
+[[ 0, 0, 0, 0],
+ [ 30, 10, -10, -30],
+ [ 30, 10, -10, -30],
+ [ 0, 0, 0, 0]]
+```
+
+在图像的上半部或下半部没有检测到边缘。 从左边缘移到图像的垂直中间时，会发现清晰的水平边缘。 在向右移动时，在水平边缘的另一个清晰实例之前找到了两个水平边缘的不清楚实例。 但是，现在发现的清晰水平边缘的颜色与上一个相反。
+
+因此，通过简单的卷积，可以发现图像文件中的图案。 CNN 还使用其他几个概念，例如池化。
+
+可以从以下屏幕截图中了解池化：
+
+![](img/c5a789dd-0758-491b-993d-a3955c85432c.png)
+
+用最简单的术语来说，合并是将多个图像像素合并为单个像素的方法。 前面的屏幕快照中使用的合并方法称为**最大池化**，其中只有来自所选滑动窗口核的最大值保留在所得矩阵中。 这极大地简化了图像，并有助于训练通用且不是单个图像专用的过滤器。
+
+# 生成对抗网络
+
+**生成对抗网络**（**GAN**）是 AI 领域中一个相当新的概念，并且最近已成为一项重大突破。 它们是由 Ian Goodfellow 在 2014 年的研究论文中介绍的。GAN 的核心思想是两个相互竞争的神经网络的并行运行。 第一个神经网络执行生成样本的任务，称为**生成器**。 另一个神经网络尝试根据先前提供的数据对样本进行分类，称为**判别器**。 可以通过以下屏幕截图了解 GAN 的功能：
+
+![](img/2994338d-bc00-467e-868a-5a3f96ff87dc.png)
+
+在此，随机图像向量经过生成过程以生成伪造图像，然后由已经用真实图像训练的判别器对伪造图像进行分类。 具有较高分类置信度的伪图像将进一步用于生成，而具有较低置信度的伪图像将被丢弃。 随着时间的流逝，判别器学会正确识别伪造的图像，而生成器学会在每一代之后逐渐生成与真实图像相似的图像。
+
+在学习结束时，我们将拥有一个可以产生近乎真实数据的系统，以及一个可以非常精确地对样本进行分类的系统。
+
+在接下来的章节中，我们将了解有关 GAN 的更多信息。
+
+对于 GAN 的深入研究，您可以阅读 Ian Goodfellow 在[这个页面](https://arxiv.org/abs/1406.2661)上发表的研究论文。
+
+# 循环神经网络
+
+并非世界上所有数据都独立于时间而存在。 股市价格和口语/书面文字只是与时间序列相关的数据的几个示例。 因此，数据序列具有时间维度，您可能会假设能够以适合数据的方式使用它（随时间的流逝而不是保持不变的数据块）会更直观，更直观。 会产生更好的预测精度。 在许多情况下，这是事实，并导致了神经网络架构的出现，在学习和预测时可能需要时间。
+
+一种这样的架构是**循环神经网络**（**RNN**）。 这种网络的主要特征是它不仅以顺序的方式将数据从一层传递到另一层，而且还从任何先前的层获取数据。 回顾“了解机器学习和深度学习”部分的示意图，该图具有两个隐藏层，是一个简单的**人工神经网络**（**ANN**）。 数据仅由上一层馈入下一层。 在具有两个隐藏层的 RNN 中，并非强制要求仅由第一隐藏层提供对第二隐藏层的输入，就像在简单的 ANN 中那样。
+
+以下屏幕截图中的虚线箭头表示了这一点：
+
+![](img/e8e96307-09f5-4d42-a3bf-b5fcd8b52a07.png)
+
+与简单的 ANN 相比，RNN 使用一种称为**时间上的反向传播**（**BPTT**）的方法，而不是 ANN 中的经典反向传播。 BPTT 通过在与网络中必须重复出现的输入有关的函数中定义时间，从而确保在错误的反向传播中很好地表示时间。
+
+# 长期记忆
+
+在 RNN 中观察到**消失**和**爆炸**梯度非常普遍。 在深度 RNN 的实现中，这是一个严重的瓶颈，在深度 RNN 中，数据以特征之间的关系比线性函数更复杂的形式存在。 为了克服消失的梯度问题，德国研究人员 Sepp Hochreiter 和 Juergen Schmidhuber 于 1997 年提出了**长短期记忆**（**LSTM**）的概念。
+
+LSTM 已被证明在 NLP，图像标题生成，语音识别和其他领域中非常有用，在引入后，LSTM 打破了先前建立的记录。 LSTM 将信息存储在网络外部，可以随时调用，就像计算机系统中的辅助存储设备一样。 这允许将延迟的奖励引入网络。 对 LSTM 进行了精神上的类比，称其为一个人因过去所采取的行动而获得的“业力”或报酬。
+
+在本书的后续章节中，我们将更深入地研究 LSTM 和 CNN。
+
+# 强化学习和自然语言处理简介
+
+在本节中，我们将研究强化学习和自然语言处理的基本概念。 这些是 AI 领域中非常重要的主题。 他们可能会也可能不会使用深度学习网络来实现，但是通常会使用深度网络来实现。 因此，了解它们的功能至关重要。
+
+# 强化学习
+
+强化学习是机器学习的一个分支，用于创建 AI“智能体”，以在给定环境中执行一组可能的动作，以使报酬最大化。 机器学习的其他两个分支（有监督的和无监督的机器学习）通常以表的形式在数据集上执行学习，而强化学习智能体通常使用决策树进行学习，以在任何给定情况下进行决策，最终使决策树到达具有最大奖励的叶子。
+
+例如，考虑一个希望学习走路的人形机器人。 它可以首先将其两条腿推到自己的前面，在这种情况下它会掉落，而奖励（在这种情况下，是人形机器人所覆盖的距离）将为 0。然后，它将学会在提出的前一条和提出的下一条之间增加一定的延迟。 由于存在一定程度的延迟，这可能是机器人能够在再次踩踏双脚同时向外并且摔倒之前采取`x1`的步骤。
+
+强化学习采用**探索**的概念，这意味着寻求更好的解决方案，而**利用**的概念则意味着使用先前获得的知识。 继续我们的示例，由于`x1`大于 0，因此该算法学会了在跨步之间放置大约相同的特定延迟量。 随着时间的推移，在开发和探索的共同作用下，强化学习算法变得非常强大，在这种情况下，类人动物不仅能够学习如何走路，而且还能学习跑步。
+
+# 自然语言处理
+
+NLP 是 AI 的广阔领域，它通过使用计算机算法来处理和理解人类语言。 NLP 包含几种针对人类语言理解的不同部分的方法和技术，例如，基于两个文本摘录的相似性来理解含义，生成人类语言响应，理解人类语言中提出的问题或指令以及将文本从一种语言翻译到另一种语言。
+
+NLP 已在当今的技术领域中得到了广泛的应用，几家顶尖的技术公司都在朝着该领域迈进。 有几种基于语音的用户助手，例如 Siri，Cortana 和 Google Assistant，它们严重依赖准确的 NLP 才能正确执行其功能。 NLP 还发现可以通过自动客户支持平台在客户支持中使用它们，这些平台可以回答最常见的查询，而无需人工代表来回答。 这些基于 NLP 的客户支持系统在与客户互动时，还可以从真实代表的响应中学习。 在新加坡开发银行创建的 DBS DigiBank 应用的“帮助”部分中，可以找到一种这样的主要部署系统。
+
+目前正在这一领域进行广泛的研究，并有望在未来几天主导 AI 的所有其他领域。 在下一部分中，让我们看一下将深度学习与移动应用集成的当前可用方法。
+
+# 在 Android 和 iOS 上集成 AI 的方法
+
+随着 AI 的日益普及，移动应用用户希望应用能够适应提供给他们的信息。 使应用适应数据的唯一方法是部署经过微调的机器学习模型，以提供令人愉悦的用户体验。
+
+# Firebase ML 套件
+
+Firebase ML Kit 是机器学习**软件开发工具包**（**SDK**），可在 Firebase 上为移动开发人员使用。 它促进了移动机器学习模型的托管和服务。 它减少了在移动设备上运行机器学习模型的繁重任务，从而减少了 API 调用，该 API 调用涵盖了常见的移动用例，例如面部检测，文本识别，条形码扫描，图像标记和地标识别。 它只是将输入作为参数，以便输出大量分析信息。 ML Kit 提供的 API 可以在设备上，在云上或在两者上运行。 设备上的 API 独立于网络连接，因此，与基于云的 API 相比，工作速度更快。 基于云的 API 托管在 Google Cloud Platform 上，并使用机器学习技术来提供更高的准确率。 如果可用的 API 无法满足所需的用例，则可以使用 Firebase 控制台构建，托管和提供自定义 TensorFlow Lite 模型。 ML Kit 充当自定义模型之间的 API 层，使其易于运行。 让我们看下面的截图：
+
+![](img/f2146f70-dbc7-4536-aa8d-3d18703c8403.png)
+
+在这里，您可以查看 Firebase ML Kit 的仪表板外观。
+
+# Core ML
+
+Core ML 是 Apple 在 iOS 11 中发布的一种机器学习框架，用于使在 iOS 上运行的应用（例如 Siri，Camera 和 QuickType）更加智能。 通过提供有效的性能，Core ML 促进了 iOS 设备上机器学习模型的轻松集成，使应用能够根据可用数据进行分析和预测。 Core ML 支持标准的机器学习模型，例如树状集成体，SVM 和广义线性模型。 它包含具有 30 多种类型的神经元层的广泛的深度学习模型。
+
+使用 Vision 框架，可以轻松地将面部跟踪，面部检测，文本检测和对象跟踪等功能与应用集成。 自然语言框架有助于分析自然文本并推导其特定于语言的元数据。 与 Create ML 一起使用时，该框架可用于部署自定义 NLP 模型。 对 GamePlayKit 的支持有助于评估学习的决策树。 Core ML 建立在诸如 Metal 和 Accelerate 之类的底层技术之上，因此非常高效。 这使其可以利用 CPU 和 GPU。 此外，Core ML 不需要活动的网络连接即可运行。 它具有很高的设备上优化能力。 这样可确保所有计算都在设备本身内部离线进行，从而最大程度地减少了内存占用和功耗。
+
+# Caffe2
+
+Caffe2 建立在由加州大学伯克利分校开发的**用于快速嵌入的原始卷积架构**（**Caffe**）上，是一种轻量级，模块化，可扩展的深度学习框架，由 Facebook 开发。 它可以帮助开发人员和研究人员部署机器学习模型，并在 Android，iOS 和 Raspberry Pi 上提供 AI 驱动的性能。 此外，它支持在 Android Studio，Microsoft Visual Studio 和 Xcode 中进行集成。 Caffe2 带有可互换使用的本机 Python 和 C++  API，从而简化了原型设计和优化过程。 它足够有效地处理大量数据，并且有助于自动化，图像处理以及统计和数学运算。 Caffe2 是开源的，托管在 GitHub 上，它利用社区的贡献来开发新模型和算法。
+
+# TensorFlow
+
+TensorFlow 是 Google Brain 开发的开源软件库，可促进高性能数值计算。 由于其灵活的架构，它允许在 CPU，GPU 和 TPU 之间轻松部署深度学习模型和神经网络。 Gmail 使用 TensorFlow 模型来了解邮件的上下文，并通过其广为人知的功能“智能回复”来预测回复。 TensorFlow Lite 是 TensorFlow 的轻量级版本，有助于在 Android 和 iOS 设备上部署机器学习模型。 它利用 Android 神经​​网络 API 的功能来支持硬件加速。
+
+下图说明了可通过 TensorFlow Lite 用于移动设备的 TensorFlow 生态系统：
+
+![](img/81e17c44-6438-435a-a80f-76945281a23b.png)
+
+在上图中，您可以看到我们需要将 TensorFlow 模型转换为 TensorFlow Lite 模型，然后才能在移动设备上使用它。 这很重要，因为与优化运行在移动设备上的 Lite 模型相比，TensorFlow 模型体积更大且延迟更大。 转换是通过 TF Lite 转换器执行的，可以通过以下方式使用：
+
+*   使用 Python API：可以使用 Python 和以下任何代码行将 TensorFlow 模型转换为 TensorFlow Lite 模型。
+
+```py
+TFLiteConverter.from_saved_model(): Converts SavedModel directories.
+TFLiteConverter.from_keras_model(): Converts tf.keras models.
+TFLiteConverter.from_concrete_functions(): Converts concrete functions.
+```
+
+*   使用命令行工具：TensorFlow Lite 转换器也可以作为 CLI 工具使用，尽管它的功能与 Python API 版本相比有些不同：
+
+```py
+tflite_convert \
+  --saved_model_dir=/tf_model \
+  --output_file=/tflite_model.tflite
+```
+
+在接下来的章节中，我们将演示将 TensorFlow 模型转换为 TensorFlow Lite 模型。
+
+# 总结
+
+在本章中，我们了解了移动设备中 AI 的增长，这使机器无需进行明确编程即可推理和做出决策。 我们还研究了机器学习和深度学习，其中包括与 AI 领域相关的技术和算法。 我们研究了各种深度学习架构，包括 CNN，GAN，RNN 和 LSTM。
+
+我们介绍了强化学习和 NLP，以及在 Android 和 iOS 上集成 AI 的不同方法。 深度学习的基本知识以及如何将其与移动应用集成对于接下来的章节非常重要，在这些章节中，我们将广泛使用该知识来创建一些实际应用。
+
+在下一章中，我们将学习使用设备上模型进行面部检测的知识。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/02.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/02.md
new file mode 100644
index 00000000..adf384e0
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/02.md
@@ -0,0 +1,505 @@
+# 二、移动视觉 - 使用设备上的模型的人脸检测
+
+在本章中，我们将构建一个 Flutter 应用，该应用能够使用 ML Kit 的 Firebase Vision 人脸检测 API 从从设备图库上传的媒体中或直接从相机中检测人脸。 该 API 利用了 Firebase 上托管的预训练模型的功能，并为应用提供了识别面部关键特征，检测表情并获取检测到的面部轮廓的功能。 由于人脸检测是通过 API 实时执行的，因此它还可用于跟踪视频序列，视频聊天或响应用户表情的游戏中的人脸。 用 Dart 编码的应用将在 Android 和 iOS 设备上有效运行。
+
+在本章中，我们将讨论以下主题：
+
+*   图像处理简介
+*   使用 Flutter 开发人脸检测应用
+
+让我们先简单介绍一下图像识别的工作原理！
+
+# 技术要求
+
+您需要带有 Flutter 和 Dart 插件的 Visual Studio Code，并且需要设置 Firebase 控制台。 本章的 GitHub 存储库位于[这里](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter2)。
+
+# 图像处理简介
+
+在本章中，我们将检测图像中的人脸。 在人工智能的上下文中，为了提取有关该图像的视觉内容的信息而处理图像的动作称为图像处理。
+
+得益于更好的人工智能驱动相机，基于医学图像的机器学习，自动驾驶汽车，人们从图像中分析人的情感以及许多其他应用的数量激增，图像处理是一个新兴领域。
+
+考虑使用自动驾驶车辆进行图像处理。 车辆需要尽可能接近实时地做出决策，以确保最佳的无事故驾驶。 汽车驾驶 AI 模型的响应延迟可能会导致灾难性后果。 已经开发了几种技术和算法来进行快速和准确的图像处理。 图像处理领域中最著名的算法之一是**卷积神经网络**（**CNN**）。
+
+我们不会在本章中开发完整的 CNN，但是，我们在 “第 1 章”，“移动深度学习简介”中简要讨论了 CNN。 稍后，我们将使用设备上存在的预训练模型构建面部检测 Flutter 应用。
+
+# 了解图像
+
+在深入研究图像处理之前，让我们从计算机软件的角度讨论图像的解剖结构。 考虑以下简单图像：
+
+![](img/e1639064-b278-468d-aecc-5a81713b73d1.png)
+
+前面的图像是`10 x 10`像素的图像（放大）； 前两行像素为紫色，后六行像素为红色，后两行像素为黄色。
+
+但是，计算机看不到该图像中的颜色。 计算机以像素密度矩阵的形式看到此图像。 我们在这里处理 RGB 图像。 RGB 图像由三层颜色组成，即红色，绿色和蓝色。 这些层中的每一个都由图像中的矩阵表示。 每个矩阵的元素对应于图像的每个像素中该矩阵表示的颜色的强度。
+
+让我们检查程序中的上一个图像。 紫色的两行像素之一由以下数组表示：
+
+```py
+[[255, 0, 255],
+[255, 0, 255],
+[255, 0, 255],
+[255, 0, 255],
+[255, 0, 255],
+[255, 0, 255],
+[255, 0, 255],
+[255, 0, 255],
+[255, 0, 255],
+[255, 0, 255]]
+```
+
+在前面的矩阵中，`255`的第一列表示红色。 第二列代表绿色，第三列代表蓝色。 因此，图像左上角的第一个像素是红色，绿色和蓝色的组合。 红色和蓝色都处于最大强度，而绿色则完全缺失。 因此，正如预期的那样，产生的组合颜色是紫色，基本上是红色和蓝色以相等的比例混合。 如果我们按预期观察到图像红色区域中的任何像素，则会得到以下数组：
+
+```py
+[ 255, 0, 0 ]
+```
+
+同样，从黄色区域开始，由于黄色是红色和绿色的等比例组合，因此像素用以下形式表示：
+
+```py
+[  255, 255, 0 ]
+```
+
+现在，如果我们关闭图像的红色和绿色部分，仅打开蓝色通道，则会得到以下图像：
+
+![](img/05558818-d3c4-41bd-b1ea-f5e9e1697bf2.png)
+
+根据我们之前的观察，这非常多，只有前两行像素包含蓝色成分，而图像的其余部分没有蓝色成分，因此将其显示为黑色，这表示没有强度或`0` 蓝色强度。
+
+# 处理图像
+
+在本节中，我们将讨论如何对图像进行一些常见的操作以帮助图像处理。 通常，对图像进行一些简单的操作可以导致更快，更好的预测。
+
+# 旋转
+
+假设我们希望将示例中的图像旋转 90 度。 如果检查旋转后从顶部开始的第一行像素，则可以预期该行的前两个像素为紫色，中间的六个像素为红色，最后两个像素为黄色。 与矩阵旋转类似，这可以看作是转置操作，其中行转换为列，反之亦然。 图像如下所示：
+
+![](img/dffdfa6d-9a1d-422b-bc3a-c65fdece1f67.png)
+
+而且，正如预期的那样，第一行像素由以下矩阵表示：
+
+```py
+[[255,   0, 255],
+[255, 0, 255],
+[255, 0,   0],
+[255, 0,   0],
+[255, 0,   0],
+[255, 0,   0],
+[255, 0,   0],
+[255, 0,   0],
+[255, 255,   0],
+[255, 255,   0]]
+```
+
+在此矩阵中，前两个元素代表紫色，然后是六个红色，最后两个是黄色。
+
+# 灰度转换
+
+在对其进行机器学习之前，从图像中完全删除颜色信息通常很有用。 原因是颜色有时不是所要求的预测的促成因素。 例如，在检测图像中数字的系统中，数字的形状很重要，而数字的颜色对解决方案无济于事。
+
+简而言之，灰度图像是对图像区域中可见光的量度。 通常，最占主导地位的浅色元素会被完全去除，以显示可见度较低的区域的对比度。
+
+将 RGB 转换为灰度的公式如下：
+
+![](img/183f83a0-ed34-411b-a3c2-39426d0e76a1.png)
+
+`Y`是要转换为灰度的像素将保留的最终值。`R`，`G`和`B`是该特定像素的红色，绿色和蓝色值。 产生的输出如下：
+
+![](img/dd7dfba6-0871-43c6-85cd-2b73105ec3ce.png)
+
+现在让我们开始研究面部检测应用！
+
+# 使用 Flutter 开发人脸检测应用
+
+通过“第 1 章”，“移动深度学习简介”以及如何在最基本的水平上完成图像处理，对 CNN 的工作原理有了基本的了解，我们准备继续使用 Firebase ML Kit 中的预训练模型来检测给定图像中的人脸。
+
+我们将使用 Firebase ML Kit 人脸检测 API 来检测图像中的人脸。 Firebase Vision 人脸检测 API 的主要功能如下：
+
+*   识别并返回检测到的每个脸部的面部特征的坐标，例如眼睛，耳朵，脸颊，鼻子和嘴巴。
+*   获取检测到的面部和面部特征的轮廓。
+*   检测面部表情，例如一个人在微笑还是闭着眼睛。
+*   获取在视频帧中检测到的每个人脸的标识符。 该标识符在调用之间是一致的，可用于对视频流中的特定面孔执行图像处理。
+
+让我们从第一步开始，添加所需的依赖项。
+
+# 添加发布依赖
+
+我们首先添加发布依赖项。 **依赖项**是特定功能正常运行所需的外部包。 在`pubspec.yaml`文件中指定了应用所需的所有依赖项。 对于每个依赖项，都应提及包的名称。 通常在其后跟随一个版本号，指定我们要使用的包的版本。 此外，还可以包括包的源代码，该资源告诉 pub 如何找到该包，以及源代码需要查找该包的任何描述。
+
+要获取有关特定包的信息，请访问[这里](https://pub.dartlang.org/packages)。
+
+我们将用于此项目的依赖项如下：
+
+*   `firebase_ml_vision`：一种 Flutter 插件，增加了对 Firebase ML Kit 功能的支持
+
+*   `image_picker`：Flutter 插件，可使用相机拍照并从 Android 或 iOS 图像库中选择图像
+
+包含依赖项后，`pubspec.yaml`文件的`dependencies`部分如下所示：
+
+```py
+dependencies:
+  flutter:
+    sdk: flutter
+  firebase_ml_vision: ^0.9.2+1
+  image_picker: ^0.6.1+4
+```
+
+为了使用我们添加到`pubspec.yaml`文件的依赖项，我们需要安装它们。 只需在终端中运行`flutter pub get`或单击`pubspec.yaml`文件顶部操作区域右侧的“获取包”即可完成此操作。 一旦安装了所有依赖项，我们就可以简单地将它们导入我们的项目中。 现在，让我们看一下本章将要处理的应用的基本功能。
+
+# 建立应用
+
+现在我们构建应用。 名为**人脸检测**的应用将包含两个屏幕。 第一个带有两个按钮的文本标题，允许用户从设备的图片库中选择图像或使用相机拍摄新图像。 此后，用户被引导至第二屏幕，该屏幕显示高亮显示检测到的面部而选择用于面部检测的图像。 以下屏幕截图显示了该应用的流程：
+
+![](img/7c745167-58e9-4ec0-9092-69c1a7ae4ec0.png)
+
+该应用的小部件树如下所示：
+
+![](img/9268f521-8213-4f7a-9401-af2fa7c1128c.png)
+
+现在让我们详细讨论每个小部件的创建和实现。
+
+# 创建第一个屏幕
+
+在这里，我们创建第一个屏幕。 第一个屏幕的用户界面将包含一个文本标题`Pick Image`和两个按钮`Camera`和`Gallery`。 可以将其视为包含文本标题的列和带有两个按钮的行，如以下屏幕截图所示：
+
+![](img/957163dc-49c0-4323-8380-f1cc9d0c596d.png)
+
+在以下各节中，我们将构建称为**小部件**的每个元素，然后将它们放在**支架**下。
+
+用英语讲，**支架**表示提供某种支持的结构或平台。 就 Flutter 而言，可以将支架视为设备屏幕上的主要结构，所有次要组件（在此情况下为小部件）都可以放置在其上。
+
+在 Flutter 中，每个 UI 组件都是**小部件**。 它们是 Flutter 框架中的中心类层次结构。 如果您以前使用过 Android Studio，则可以将小部件视为`TextView`或`Button`或任何其他视图组件。
+
+# 建立行标题
+
+然后正在建立行标题。 我们首先在`face_detection_home.dart file`内创建一个有状态的小部件`FaceDetectionHome`。 `FaceDetectionHomeState`将包含构建应用第一个屏幕所需的所有方法。
+
+让我们定义一个称为`buildRowTitle()`的方法来创建文本标题：
+
+```py
+Widget buildRowTitle(BuildContext context, String title) {
+    return Center(
+        child: Padding(
+            padding: EdgeInsets.symmetric(horizontal: 8.0, vertical: 16.0),
+            child: Text(
+                title,
+                style: Theme.of(context).textTheme.headline,
+            ), //Text
+        ) //Padding
+    ); //Center
+}
+```
+
+该方法用于使用`title`字符串中传递的值作为参数来创建带有标题的窗口小部件。 使用`Center()`将文本水平对齐到中心，并使用`EdgeInsets.symmetric(horizontal: 8.0, vertical: 16.0)`将文本水平`8.0`和`16.0`垂直填充。 它包含一个子级，用于创建带有标题的`Text`。 文本的印刷样式被修改为`textTheme.headline`，以更改文本的默认大小，粗细和间距。
+
+Flutter 使用**逻辑像素**作为度量单位，与**与设备无关的像素**（**dp**）相同。 此外，每个逻辑像素中的设备像素的数量可以根据`devicePixelRatio`来表示。 为了简单起见，我们将仅使用数字项来谈论宽度，高度和其他可测量的属性。
+
+# 使用按钮小部件构建行
+
+接下来是使用按钮小部件构建行。 放置文本标题后，我们现在将创建一行两个按钮，使用户可以从图库中选择图像或从相机中获取新图像。 让我们按照以下步骤进行操作：
+
+1.  我们首先定义`createButton()`以创建具有所有必需属性的按钮：
+
+```py
+Widget createButton(String imgSource) {
+    return Expanded(
+        child: Padding(
+            padding: EdgeInsets.symmetric(horizontal: 8.0),
+            child: RaisedButton(
+                color: Colors.blue,
+                textColor: Colors.white,
+                splashColor: Colors.blueGrey,
+                onPressed: () {
+                    onPickImageSelected(imgSource);
+                },
+                child: new Text(imgSource)
+            ),
+        )
+    );
+}
+```
+
+在提供`8.0`的水平填充之后，该方法返回一个小部件，即`RaisedButton`。 按钮的颜色设置为`blue`，按钮文本的颜色设置为`white`。 `splashColor`设置为`blueGrey`表示通过产生波纹效果来单击按钮。
+
+按下按钮时，将执行`onPressed`内部的代码段。 在这里，我们调用了`onPickImageSelected()`，它在本章的后面部分中定义。 按钮内显示的文本设置为`imgSource`，这里可以是图库或照相机。 此外，整个代码段都包装在`Expanded()`中，以确保所创建的按钮完全占据所有可用空间。
+
+2.  现在，我们使用`buildSelectImageRowWidget()`方法来构建带有两个按钮的行，以列出两个图像源：
+
+```py
+Widget buildSelectImageRowWidget(BuildContext context) {
+    return Row(
+        children: <Widget>[
+            createButton('Camera'),
+            createButton('Gallery')
+        ],
+    );
+}
+```
+
+在前面的代码片段中，我们调用先前定义的`createButton()`方法将`Camera`和`Gallery`添加为图像源按钮，并将它们添加到该行的`children`小部件列表中。
+
+3.  现在，让我们定义`onPickImageSelected()`。 此方法使用`image_picker`库将用户定向到图库或照相机以获取图像：
+
+```py
+void onPickImageSelected(String source) async {
+    var imageSource;
+    if (source == 'Camera') {
+        imageSource = ImageSource.camera;
+    } else {
+        imageSource = ImageSource.gallery;
+    }
+    final scaffold = _scaffoldKey.currentState;
+    try {
+        final file = await ImagePicker.pickImage(source: imageSource);
+        if (file == null) {
+            throw Exception('File is not available');
+        }
+        Navigator.push(
+            context,
+            new MaterialPageRoute(
+                builder: (context) => FaceDetectorDetail(file)),
+            );
+        } catch (e) {
+        scaffold.showSnackBar(SnackBar(
+        content: Text(e.toString()),
+        ));
+    }
+}
+```
+
+首先，使用`if`-`else`块将`imageSource`设置为摄像机或图库。 如果传递的值为`Camera`，则图像文件的源设置为`ImageSource.camera`； 否则，将其设置为`ImageSource.gallery`。
+
+一旦确定了图像的来源，就使用`pickImage()`来选择正确的`imageSource`。 如果源是`Camera`，则将引导用户到相机拍摄图像； 否则，将指示他们从图库中选择图片。
+
+如果`pickImage()`未成功返回图像，则为处理异常，对该方法的调用包含在`try`-`catch`块内。 如果发生异常，则通过调用`showSnackBar()`将执行定向到`catch`块和小吃店，并在屏幕上显示错误消息：
+
+![](img/54845f13-a133-4eab-945b-c89dfcd830b3.png)
+
+在成功选择图像并且`file`变量具有所需的`uri`之后，用户将迁移到下一个屏幕`FaceDetectorDetail`，这在“创建第二个屏幕”部分中进行了介绍，并使用`Navigator.push()`将当前上下文和所选文件传递到构造器中。 在`FaceDetectorDetail`屏幕上，我们用所选图像填充图像支架并显示有关检测到的面部的详细信息。
+
+# 创建整个用户界面
+
+现在，我们创建了整个用户界面，所有创建的小部件都放在了`FaceDetectorHomeState`类中被覆盖的`build()`方法中。
+
+在以下代码片段中，我们为应用的第一个屏幕创建了最终的支架：
+
+```py
+@override
+Widget build(BuildContext context) {
+    return Scaffold(
+        key: _scaffoldKey,  
+        appBar: AppBar(
+            centerTitle: true,
+            title: Text('Face Detection'),
+        ),
+        body: SingleChildScrollView(
+            child: Column(
+                children: <Widget>[
+                    buildRowTitle(context, 'Pick Image'),
+                    buildSelectImageRowWidget(context)
+                ],
+            )
+        )
+    );
+}
+```
+
+通过在`appBar`中设置标题，可以将工具栏的文本设置为`Face Detection`。 另外，通过将`centerTitle`设置为`true`，文本将居中对齐。 接下来，支架的主体是一列小部件。 第一个是文本标题，第二个是一行按钮。
+
+可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter2/flutter_face_detection/lib/face_detection_home.dart)上查看`FaceDetectorHome.dart`中的整个代码。
+
+# 创建第二个屏幕
+
+接下来，我们创建第二个屏幕。 成功获取用户选择的图像后，我们迁移到应用的第二个屏幕，在其中显示选择的图像。 此外，我们使用 Firebase ML Kit 标记在图像中检测到的面部。 我们首先在新的 Dart 文件`face_detection.dart`中创建一个名为`FaceDetection`的有状态小部件。
+
+# 获取图像文件
+
+首先，需要将所选图像传递到第二个屏幕进行分析。 我们使用`FaceDetection()`构造器执行此操作。
+
+**构造器**是用于初始化类变量的特殊方法。 它们与类具有相同的名称。 构造器没有返回类型，并且在创建类的对象时会自动调用它们。
+
+我们声明一个`file`变量，并使用参数化的构造器对其进行初始化，如下所示：
+
+```py
+File file; 
+FaceDetection(File file){
+ this.file = file;
+}
+```
+
+现在让我们继续下一步。
+
+# 分析图像来检测面部
+
+现在，我们分析图像以检测面部。 我们将创建`FirebaseVision`人脸检测器的实例，以使用以下步骤检测人脸：
+
+1.  首先，我们在`FaceDetectionState`类内创建一个全局`faces`变量，如以下代码所示：
+
+```py
+List<Face> faces;
+```
+
+2.  现在我们定义一个`detectFaces()`方法，在其中实例化`FaceDetector`如下：
+
+```py
+void detectFaces() async{
+    final FirebaseVisionImage visionImage = FirebaseVisionImage.fromFile(widget.file);
+    final FaceDetector faceDetector = FirebaseVision.instance.faceDetector(FaceDetectorOptions( mode:     FaceDetectorMode.accurate, enableLandmarks: true, enableClassification: true));
+    List<Face> detectedFaces = await faceDetector.processImage(visionImage);
+    for (var i = 0; i < faces.length; i++) {
+        final double smileProbablity = detectedFaces[i].smilingProbability;
+        print("Smiling: $smileProb");
+    }
+    faces = detectedFaces;
+ }
+```
+
+我们首先创建一个使用`FirebaseVisionImage.fromFile()`方法选择的图像文件的`FirebaseVisionImage`实例，该实例称为`visionImage`。 接下来，我们使用`FirebaseVision.instance.faceDetector()`方法创建`FaceDetector`的实例，并将其存储在名为`faceDetector`的变量中。 现在我们使用先前创建的`FaceDetector`实例`faceDetector`调用`processImage()`，并将图像文件作为参数传递。 方法调用返回检测到的面部列表，该列表存储在名为`detectedFaces`的列表变量中。 请注意，`processImage()`返回类型为`Face`的列表。 `Face`是一个对象，其属性包含检测到的脸部的特征。 `Face`对象具有以下属性：
+
+*   `getLandmark`
+*   `hashCode`
+*   `hasLeftEyeOpenProbability`
+*   `hasRightEyeOpenProbability`
+*   `headEulerEyeAngleY`
+*   `headEylerEyeAngleZ`
+*   `leftEyeOpenProbability`
+*   `rightEyeOpenProbability`
+*   `smilingProbability`
+
+现在，我们使用`for`循环遍历脸部列表。 我们可以使用`detectedFaces[i].smilingProbability`获得第`i`个`smilingProbablity`值。 我们将其存储在名为`smileProbablity`的变量中，然后使用`print()`将其值打印到控制台。 最后，我们将全局`faces`列表的值设置为`detectedFaces`。
+
+添加到`detectFaces()`方法的`async`修饰符使该方法能够异步执行，这意味着将创建一个与执行主线程不同的单独线程。 `async`方法适用于回调机制，以在执行完成后返回由其计算的值。
+
+为了确保在用户迁移到第二个屏幕后立即检测到面部，我们将覆盖`initState()`并从其中调用`detectFaces()`：
+
+```py
+ @override
+ void initState() {
+     super.initState();
+     detectFaces();
+ }
+```
+
+`initState()`是在创建窗口小部件之后调用的第一个方法。
+
+# 标记检测到的面部
+
+接下来，标记检测到的面部。 检测到图像中存在的所有面部之后，我们将通过以下步骤在其周围绘制矩形框：
+
+1.  首先，我们需要将图像文件转换为原始字节。 为此，我们定义`loadImage`方法如下：
+
+```py
+void loadImage(File file) async {
+    final data = await file.readAsBytes();
+    await decodeImageFromList(data).then(
+        (value) => setState(() {
+        image = value;
+        }),
+    );
+}
+```
+
+`loadImage()`方法将图像文件作为输入。 然后，我们使用`file.readAsByte()`将文件的内容转换为字节，并将结果存储在数据中。 接下来，我们调用`decodeImageFromList()`，它用于将单个图像帧从字节数组加载到`Image`对象中，并将最终结果值存储在图像中。 我们从先前定义的`detectFaces()`内部调用此方法。
+
+2.  现在，我们定义一个名为`FacePainter`的`CustomPainter`类，以便在所有检测到的面部周围绘制矩形框。 我们开始如下：
+
+```py
+class FacePainter extends CustomPainter {
+    Image image;
+    List<Face> faces;
+    List<Rect> rects = [];
+    FacePainter(ui.Image img, List<Face> faces) {
+        this.image = img;
+        this.faces = faces;
+            for(var i = 0; i < faces.length; i++) {
+                rects.add(faces[i].boundingBox);
+            }
+        }
+    }
+}
+```
+
+我们首先定义三个全局变量`image`，`faces`和`rects`。 类型为`Image`的`image`用于获取图像文件的字节格式。 `faces`是检测到的`Face`对象的`List`。 `image`和`faces`都在`FacePainter`构造器中初始化。 现在我们遍历这些面，并使用`faces[i].boundingBox`获得每个面的边界矩形，并将其存储在`rects`列表中。
+
+3.  接下来，我们覆盖`paint()`，以用矩形绘制`Canvas`，如下所示：
+
+```py
+ @override
+ void paint(Canvas canvas, Size size) {
+     final Paint paint = Paint()
+         ..style = PaintingStyle.stroke
+         ..strokeWidth = 8.0
+         ..color = Colors.red;
+     canvas.drawImage(image, Offset.zero, Paint());
+     for (var i = 0; i < faces.length; i++) {
+         canvas.drawRect(rects[i], paint);
+     }
+ }
+```
+
+我们从创建`Paint`类的实例开始，以描述绘制`Canvas`的样式，即我们一直在使用的图像。 由于我们需要绘制矩形边框，因此将`style`设置为`PaintingStyle.stroke`以仅绘制形状的边缘。 接下来，我们将`strokeWidth`，即矩形边框的宽度设置为`8`。 另外，我们将`color`设置为`red`。 最后，我们使用`cavas.drawImage()`绘制图像。 我们遍历`rects`列表内检测到的面部的每个矩形，并使用`canvas.drawRect()`绘制矩形。
+
+# 在屏幕上显示最终图像
+
+成功检测到面部并在其周围绘制矩形后，我们现在将在屏幕上显示最终图像。 我们首先为第二个屏幕构建最终的脚手架。 我们将覆盖`FaceDetectionState`中的`build()`方法，以返回支架，如下所示：
+
+```py
+ @override
+ Widget build(BuildContext context) {
+     return Scaffold(
+         appBar: AppBar(
+         title: Text("Face Detection"),
+         ),
+         body: (image == null) 
+         ? Center(child: CircularProgressIndicator(),)
+         : Center(
+             child: FittedBox(
+                 child: SizedBox(
+                     width: image.width.toDouble(),
+                     height: image.width.toDouble(),
+                     child: CustomPaint(painter: FacePainter(image, faces))
+                 ),
+             ),
+         )
+     );
+ }
+
+```
+
+我们首先为屏幕创建`appBar`，并提供标题`Face Detection`。 接下来，我们指定支架的`body`。 我们首先检查`image`的值，该值存储所选图像的字节数组。 直到时间为零，我们确信检测面部的过程正在进行中。 因此，我们使用`CircularProgressIndicator()`。 一旦检测到脸部的过程结束，用户界面就会更新，以显示具有与所选图像相同的宽度和高度的`SizedBox`。 `SizedBox`的`child`属性设置为`CustomPaint`，它使用我们之前创建的`FacePainter`类在检测到的脸部周围绘制矩形边框。
+
+可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter2/flutter_face_detection/lib/face_detection.dart)上查看`face_detection.dart`中的整个代码。
+
+# 创建最终的 MaterialApp
+
+最后，我们创建最终的`MaterialApp`。 我们创建`main.dart`文件，该文件提供了整个代码的执行点。 我们创建一个名为`FaceDetectorApp`的无状态小部件，该小部件用于返回指定标题，主题和主屏幕的`MaterialApp`：
+
+```py
+class FaceDetectorApp extends StatelessWidget {
+  @override
+  Widget build(BuildContext context) {
+    return new MaterialApp(
+      debugShowCheckedModeBanner: false,
+      title: 'Flutter Demo',
+      theme: new ThemeData(
+        primarySwatch: Colors.blue,
+      ),
+      home: new FaceDetectorHome(),
+    );
+  }
+}
+```
+
+现在，我们通过传入`FaceDetectorApp()`的实例，定义`main()`方法来执行整个应用，如下所示：
+
+```py
+void main() => runApp(new FaceDetectorApp());
+```
+
+可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter2/flutter_face_detection/lib/main.dart)中查看`main.dart`中的整个代码。
+
+# 总结
+
+在本章中，我们研究了图像处理背后的概念，以及如何将其与使用 Flutter 进行面部检测的基于 Android 或 iOS 的应用集成。 本章从添加相关的依赖关系开始，以支持 Firebase ML Kit 和`image_picker`库的功能。 添加了具有必要功能的必需 UI 组件。 该实现主要介绍了使用 Flutter 插件选择图像文件以及选择图像后如何对其进行处理。 给出了设备上人脸检测器模型用法的示例，并深入讨论了实现方法。
+
+在下一章中，我们将讨论如何创建自己的 AI 驱动的聊天机器人，该聊天机器人可以使用 Google 平台上的 Actions 兼作虚拟助手。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/03.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/03.md
new file mode 100644
index 00000000..c80778ae
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/03.md
@@ -0,0 +1,763 @@
+# 三、使用 Google Action 的聊天机器人
+
+在这个项目中，我们将介绍使用 Dialogflow API 实现对话聊天机器人的方法，以及如何借助 Google 的操作使对话聊天机器人在 Google Assistant 上执行不同的操作。 该项目将使您对如何构建使用引人入胜的基于语音和文本的对话界面的产品有很好的了解。
+
+我们将实现一个聊天机器人，该机器人将询问用户名称，然后为该用户生成一个幸运数字。 我们还将研究如何使用 Google 的 Actions 在 Google Assistant 平台上提供聊天机器人。
+
+本章将涵盖以下主题：
+
+*   了解可用于创建聊天机器人的工具
+*   创建一个 Dialogflow 帐户
+*   创建一个 Dialogflow 智能体
+*   了解 Dialogflow 控制台
+*   在 Google 上创建您的第一个动作
+*   在 Google 项目上创建操作
+*   实现 Webhook
+*   将 Webhook 部署到 Firebase 的 Cloud Functions
+*   在 Google 版本上创建动作
+*   为对话应用创建 UI
+*   集成 Dialogflow 智能体
+*   与助手添加音频交互
+
+# 技术要求
+
+对于移动应用，您将需要带有 Flutter 和 Dart 插件的 Visual Studio Code，以及 Firebase 控制台的设置和运行。
+
+[可以在本书的 GitHub 存储库中](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter3)找到本章的代码文件。
+
+# 了解可用于创建聊天机器人的工具
+
+如果您希望使用聊天机器人为用户建立对话体验，那么您将有很多选择可以建立。 有几种平台具有不同的功能集，每种平台在其提供的服务方面都是独一无二的。
+
+人工智能聊天机器人是近十年来一直在持续增长的聊天机器人类型，它已经成功地为聊天机器人更容易地进入专业网站和行业铺平了道路。 这些漫游器提供什么样的情报？ 他们解决什么业务目标？
+
+让我们尝试用一个场景回答这两个问题。
+
+假设您拥有一家百货商店，并在商店中雇用了几名员工，以便他们可以将您的客户引导到正确的部门。 有一天，您意识到这些员工实际上正在加剧商店的拥挤。 为了替换它们，您想出了一个能够响应“在哪里可以找到一些谷物？”之类的问题的应用， 带有“谷物部分朝向商店的西北部，就在水果部分旁边！”之类的答案。
+
+聊天机器人因此具有理解用户需求的能力，在这种情况下，该需求是找到**谷物**。 然后，聊天机器人能够确定**谷物**与**杂货**之间的关系。 根据对商店库存的了解，它可以将用户定向到正确的部门。 为了能够提出联想，甚至将单词从一种语言翻译成另一种语言，深度学习在聊天机器人的内部工作中起着至关重要的作用。
+
+在以下各节中，我们将探讨各种支持人工智能的工具，这些工具可用于创建聊天机器人并将其部署在手机上。
+
+# Wit.ai
+
+`Wit.ai`平台由 Facebook 制作，围绕**自然语言处理**（**NLP**）和语音转文本服务提供了一套 API。 `Wit.ai`平台是完全开源的，并在 NLP 领域提供一些最新服务。 它可以轻松地与移动应用和可穿戴设备集成，甚至可以用于家庭自动化。 该平台提供的语音文本服务使其非常适合创建使用语音接口的应用。
+
+开发人员可以轻松设计完整的对话，甚至可以为聊天机器人添加个性。 `Wit.ai`支持超过 130 种语言的对话和语音到文本服务，这使其成为专注于全球语言可访问性的应用的绝佳选择。
+
+要了解有关该平台的更多信息，请访问[这里](https://wit.ai/)。
+
+# Dialogflow
+
+从`Api.ai`重命名的 Dialogflow 提供了基于深度神经网络的自然语言处理，以创建可与多个平台（例如 Facebook Messenger，Slack，WhatsApp，Telegram 等）无缝集成的对话界面。
+
+Dialogflow 项目在 Google Cloud 上运行，并且能够从与构建会话相关的所有 Google Cloud 产品中受益，例如获取用户的位置，在 Firebase 或 App Engine 上部署 Webhooks 以及在这两个平台上由 Google 开发的应用中启动操作 Android 和 iOS。 您可以通过[这里](https://dialogflow.com/)了解有关该平台的更多信息。
+
+现在，让我们更深入地研究 Dialogflow 及其功能，以了解如何为移动设备开发类似 Google Assistant 的应用。
+
+# Dialogflow 如何工作？
+
+在上一节中，我们简要介绍了一些可用于根据需要使用文本和语音开发聊天机器人和对话界面的工具。 我们遇到了 Dialogflow，我们将在本节中对其进行深入讨论。 我们还将使用它来快速开发行业级的聊天解决方案。
+
+在开始开发 Dialogflow 聊天机器人之前，我们需要了解 Dialogflow 的工作原理，并了解与 Dialogflow 相关的一些术语。
+
+下图显示了使用 Dialogflow 的应用中的信息流：
+
+![](img/8b0714e9-8403-41a5-b21c-9a40ec51248d.png)
+
+让我们讨论上图中引入的术语：
+
+*   **用户**：用户是使用聊天机器人/应用的人，并且负责发出**用户请求**。 **用户请求**只是由用户发出的口语或句子，必须由聊天机器人进行解释。 需要针对它生成适当的响应。
+*   **集成**：集成是一个软件组件，负责将用户请求传递给聊天机器人逻辑，并将**智能体响应**传递给用户。 这种集成可以是您创建的应用或网站，也可以是现有服务（例如 Slack，Facebook Messenger），也可以是调用 Dialogflow 聊天机器人的脚本。
+*   **智能体**：我们使用 Dialogflow 工具开发的聊天机器人称为智能体。 聊天机器人生成的响应称为**智能体响应**。
+*   **意图**：这表示用户在其用户请求中尝试执行的操作。 用户输入的自然语言必须与意图相匹配，以确定针对任何特定请求要生成的响应类型。
+*   **实体**：在用户请求中，用户有时可能会使用处理响应所需的单词或短语。 这些以实体的形式从用户请求中提取，然后按需使用。 例如，如果用户说“我在哪里可以买到芒果？” 聊天机器人应该提取**芒果**一词，以便搜索其可用的数据库或互联网以提出适当的响应。
+*   **上下文**：要了解 Dialogflow 中的**上下文**，请考虑以下情形，在这种情况下，您无法与聊天机器人交谈来维护上下文：
+    您问您的聊天机器人“谁是主要角色？ 印度大臣？” 并生成适当的响应。 接下来，您问您的聊天机器人“他几岁了？” 您的聊天机器人不知道“他的”是指谁。 因此，上下文是在**聊天会话**或会话的一部分上维护的会话状态，除非上下文被与聊天机器人的会话中的新事物所覆盖。
+*   **实现**：实现是处理聊天机器人内业务逻辑的软件组件。 它是一个可以通过 Webhooks 访问的 API，可以接收有关传递给它的实体的输入，并生成响应，然后聊天机器人可以使用该响应来生成最终的智能体响应。
+
+涵盖了 Dialogflow 的基本术语和工作流程之后，我们现在将构建一个基本的 Dialogflow 智能体，该智能体可以提供对用户请求的响应。
+
+# 创建一个 Dialogflow 帐户
+
+要开始使用 Dialogflow，您需要在 Dialogflow 网站上创建一个帐户。 为此，请按照下列步骤操作：
+
+1.  访问[这里](https://dialogflow.com)开始帐户创建过程。
+
+您将需要一个 Google 帐户来创建 Dialogflow 帐户。 如果尚未创建一个，请访问[这里](https://accounts.google.com)。
+
+2.  在 Dialogflow 网站的主页上，单击“免费注册”以创建帐户，或单击“进入控制台”以打开 Dialogflow 控制台：
+
+![](img/0b539e2f-ba54-4561-8736-6ad8dfe2bd46.png)
+
+3.  单击“使用 Google 登录”后，系统会要求您使用 Google 帐户登录。 您将被要求获得使用 Dialogflow 的帐户权限，然后接受条款和条件。
+
+现在，我们可以开始创建 Dialogflow 智能体。
+
+# 创建一个 Dialogflow 智能体
+
+正如我们在“Dialogflow 如何工作”部分中讨论的那样，智能体是我们在 Dialogflow 平台中创建的聊天机器人。
+
+成功创建帐户后，将显示 Dialogflow 控制台的登录屏幕，提示您创建智能体：
+
+1.  单击“创建智能体”提示。 您将被带到一个类似于以下内容的屏幕：
+
+![](img/104abf6b-28d0-4e6f-9017-eb6f41014458.png)
+
+3.  填写智能体的名称。 我们将其命名为`DemoBot`。
+4.  将任何现有的 Google Project 链接到聊天机器人。 如果您还没有合格的 Google Project，则单击“创建”按钮时将创建一个新项目。
+
+您需要在 Google Project 上启用结算功能才能创建 Dialogflow 聊天机器人。 要了解如何创建 Google Project，请访问[这里](https://cloud.google.com/billing/docs/how-to/manage-billing-account)。
+
+# 了解 Dialogflow 控制台
+
+Dialogflow 控制台是图形用户界面，用于管理聊天机器人，意图，实体以及 Dialogflow 提供的所有其他功能。
+
+创建智能体后，您应该能够看到以下屏幕：
+
+![](img/635ba230-6053-43ed-8a4e-40e792ba29ab.png)
+
+Dialogflow 控制台提示您创建一个新的意图。 让我们创建一个新的意图，该意图可以识别用户名并使用它为用户生成一个幸运数字。
+
+# 创建一个意图并获取实体
+
+现在，我们将创建一个意图，该意图从用户那里获取输入并确定用户名称。 然后，该意图提取名称的值并将其存储在一个实体中，该实体稍后将传递给 Webhook 进行处理。 请按照以下步骤操作：
+
+1.  单击屏幕右上方的“创建意图”按钮。 意向创建表单打开。
+2.  我们必须为该意图提供一个名称，例如`luckyNum`。 然后，向下滚动到“训练短语”部分并添加一个训练短语：`name is John`。
+
+3.  抓住所需的实体，然后选择单词`John`。 将出现一个下拉列表，将单词与任何预定义实体匹配。 我们将使用`@sys.person`实体获取名称并将其存储为`userName`参数，如以下屏幕截图所示：
+
+![](img/0676c8eb-7bb9-4b8a-8059-9e9f4c5e6970.png)
+
+4.  向下滚动到“操作和参数”部分，并添加`userName`参数，如以下屏幕快照所示：
+
+![](img/cc535d0f-79fc-43f9-8788-6db34aa44b6a.png)
+
+5.  现在，只要用户查询类似于名称的东西，就会将某些东西提取到`$userName`变量中。 现在可以将其传递到 webhook 或 Firebase Cloud Function 以根据其值生成响应。
+
+现在，让我们添加一个操作，以便可以通过 Google Assistant 访问 Dialogflow 智能体。
+
+# 在 Google 上创建您的第一个动作
+
+在 Google 上创建动作之前，让我们尝试了解什么是动作。 您可能听说过 Google 助手，它在本质上可以与 Siri 或 Cortana 媲美。 它围绕虚拟助手的概念构建，虚拟助手是一种软件，能够根据用户的指示以文本或语音形式为用户执行任务。
+
+Google 助手可以执行的每个任务称为**操作**。 因此，当用户发出类似于“向我显示购物清单”或“打给 Sam 的请求”的请求时执行的任务是这样的动作，其中，函数`showShoppingList()`或`makeCall(Sam)`以适当的方式执行附加的参数。
+
+Google 平台上的 Actions 使我们能够创建充当 Google Assistant 上的 Actions 的聊天机器人。 一旦调用，我们就可以进行对话，直到被用户结束为止。
+
+调用操作是在 Google 助手中执行的，该助手将调用请求与其目录中的操作列表进行匹配，并启动适当的操作。 然后，用户接下来要做的几个动作就是与动作。 因此，Google 助手会充当多个此类操作的汇总器，并提供对其进行调用的方法。
+
+# 您为什么是 Google Action？
+
+Google 平台上的操作为有兴趣构建聊天机器人的开发人员提供了哪些商业利益？ 考虑以下屏幕截图：
+
+![](img/e704de0a-c071-4b3a-afaf-1141fb692f02.png)
+
+只需与 Google 助理交谈，用户便可以获取 Uber 选项。 这是因为“与 Uber 对话”调用与由 Uber 开发并通过 Google 平台上的“操作”提供的聊天机器人相匹配，该聊天机器人正在响应“与 Uber 对话”用户请求。
+
+因此，Uber 通过提供无文本的界面（如果使用语音输入）来提高其可用性和交互性，并受益于 Google 助手中最先进的 NLP 算法，从而最终增强了其销量。
+
+有效地将您创建的聊天机器人发布到 Google 的 Actions 上，可以为您的企业提供对话界面。 您可以使用 webhooks（我们将在本章稍后介绍）来管理业务逻辑。现在，让我们在 Google 上创建一个 Action 并将其链接到我们的聊天机器人。
+
+# 在 Google 项目上创建操作
+
+在本部分中，我们将在 Google Project 上创建一个 Actions，然后将其与 Google Assistant 应用集成。 这将使我们构建的聊天机器人可以通过 Google 助手应用访问，该助手在全球数十亿设备上都可用。
+
+让我们从在 Google 项目上创建操作开始：
+
+1.  在浏览器中，打开[这里](https://developers.google.com/actions/)，以打开 xGoogle 主页上的“操作”，您可以在其中阅读有关该平台的所有信息，并对其进行介绍。
+2.  要进入控制台，请单击**开始构建**或**转到操作控制台**按钮。 您将被带到 Google 控制台上的“操作”，系统将提示您创建一个项目。
+3.  在继续进行项目创建时，您将看到一个对话框，如以下屏幕截图所示：
+
+![](img/06e17687-1264-48a3-b8fe-746ea13bc876.png)
+
+您必须选择在其中创建 Dialogflow chatbot 智能体的同一 Google Project。
+
+4.  单击“导入项目”，将 Dialogflow 聊天机器人的操作添加到 Google 助手。 在加载的下一个屏幕上，选择“对话”模板以创建我们的操作。
+5.  然后，您将被带到 Google 控制台上的“操作”，如下所示：
+
+![](img/8acbcf5e-53c4-4c4e-85ab-fd1fb10103c0.png)
+
+在顶部栏上，您将看到内置 Action 的 Google Project 的项目 ID。在左侧垂直导航栏上，将列出所有不同步骤，您需要执行它们才能完成设置 Action。 在右侧的主要内容部分，提供了一个快速演练来设置您的第一个 Action。
+
+6.  单击“确定”如何调用操作。 您需要为您的操作提供唯一的调用字符串。 对于本章中的示例，我们使用了`Talk to Peter please`调用。 您将需要选择稍微不同的调用。
+
+成功设置调用后，演练将要求您添加一个动作。
+
+7.  单击“添加动作”链接以开始动作创建过程。
+8.  在出现的“创建操作”对话框中，在左侧列表中选择“自定义意图”，然后单击“构建”按钮。 这将带您回到 Dialogflow 界面。
+
+现在，您需要在 Google 上启用“操作”才能访问您的聊天机器人的意图。
+
+# 创建与 Google Assistant 的集成
+
+默认情况下，您在 Dialogflow 控制台中构建的聊天机器人不允许 Google Actions 项目访问其中可用的意图。 通过执行以下步骤，我们可以启用对意图的访问：
+
+1.  在 Dialogflow 界面上，单击左侧导航窗格上的`Integrations`按钮。
+2.  在加载的页面上，将为您提供 Dialogflow 支持的各种服务的集成选项，其中包括所有主要的社交聊天平台，以及 Amazon 的 Alexa 和 Microsoft 的 Cortana。
+3.  在屏幕上，您应该看到 Google 助手的“集成设置”按钮。 单击该按钮。 将打开一个对话框，如以下屏幕截图所示：
+
+![](img/20a38172-ac8a-4a48-9f1f-97114fe1dcee.png)
+
+前面的屏幕快照中的对话框使您可以快速定义 Dialogflow 智能体与 Google 项目中的操作之间的集成设置。
+
+4.  在“默认调用”下，将“默认欢迎意图”设置为当用户开始通过 Google Assistant 与您的聊天机器人进行交互时将首先运行的意图。
+5.  在隐式调用中，指定我们之前创建的`luckyNum`意图。 这将用于为用户生成幸运数字。
+6.  启用自动预览更改是个好主意，因为它使您可以将集成设置自动传播到 Google Console 上的“操作”和 Google Assistant 测试模拟器（我们将在稍后讨论），以便在为以下版本创建版本之前测试我们的应用。
+
+现在，让我们为“默认欢迎意图”提供有意义的提示，以要求用户输入其名称，以便在用户做出响应时，其输入类似于`luckyNum`意图的训练短语，从而调用它：
+
+1.  单击“意图”按钮。 然后，单击“默认欢迎意图”。 向下滚动到“意图”编辑页面的“响应”部分，然后删除那里的所有响应。 由于`luckyNum`意图希望用户说类似`My name is XYZ`的内容，因此合适的问题是`What is your name?`。 因此，我们将响应设置为`Hi, what is your name?`。
+
+请注意，“响应”部分的选项卡式导航中有一个名为“Google 助手”的新导航栏。 这样，当我们从 Google Assistant 调用此意图时，我们可以为其指定其他响应。
+
+2.  单击选项卡，然后从默认选项卡中启用用户响应作为第一个响应。 我们这样做是因为我们不想在聊天机器人中指定特定于 Google 助手的其他响应。
+3.  向上滚动到“事件”部分，并检查它是否类似于以下屏幕截图：
+
+![](img/bb0cfbfd-a65a-4880-b2f9-dcfc0281115a.png)
+
+4.  如果缺少前面两个事件中的任何一个，则可以通过简单地键入它们并从出现的自动建议框中选择它们来包括它们。
+5.  单击 Dialogflow 控制台中间部分右上方的“保存”。
+
+现在，我们准备创建我们的业务逻辑，以便为用户生成幸运数字。 首先，我们将为`luckyNum`意图创建一个 Webhook，然后将其部署到 Firebase 的 Cloud Functions 中。
+
+# 实现 Webhook
+
+在本节中，我们将为`luckyNum`意图启用 webhook，并为`luckyNum`意图的逻辑准备 webhook 代码。 请按照以下步骤操作：
+
+1.  打开`luckyNum`意图的意图编辑页面，然后向下滚动到“实现”部分。 在这里，启用“为此意图启用 webhook 调用”选项。
+
+现在，此意图将寻找从 webhook 生成的响应。
+
+2.  打开您选择的文本编辑器以创建用于 Webhook 的代码，使其使用 JavaScript 并在 Firebase 提供的 Node.js 平台上运行：
+
+```py
+'use strict';
+```
+
+上一行确保我们使用 ECMAScript 5 中定义的一组编码标准，这些编码标准对 JavaScript 语言进行了一些有用的修改，从而使其更加安全并且减少了混乱。
+
+3.  使用`require`函数将 JavaScript 中的模块导入到项目中。 包括`actions-on-google`模块和`firebase-functions`模块，因为脚本将部署到 Firebase：
+
+```py
+// Import the Dialogflow module from the Actions on Google client library.
+const {dialogflow} = require('actions-on-google');
+
+// Import the firebase-functions package for deployment.
+const functions = require('firebase-functions');
+```
+
+4.  为我们构建的 Dialogflow 智能体实例化一个新的客户端对象：
+
+```py
+// Instantiate the Dialogflow client.
+const app = dialogflow({debug: true});
+```
+
+注意，这里的 Dialogflow 变量是`actions-on-google`模块的对象。
+
+5.  将 Webhook 响应的意图设置为`luckyNum`，然后将其传递给`conv`变量：
+
+```py
+app.intent('luckyNum', (conv, {userName}) => {
+
+ let name = userName.name;
+ conv.close('Your lucky number is: ' + name.length );
+
+});
+```
+
+`app`变量保存正在处理的会话的状态信息以及我们从`luckyNum`意图中提取的`userName`参数。 然后，我们声明变量名称，并将其设置为`userName`变量的名称键。 这样做是因为`userName`变量是一个 JavaScript 对象。 您可以在右侧部分的“测试”控制台中通过为`luckyNum`意图（例如`My name is Max`）键入匹配的调用来查看此内容。
+
+6.  设置 Webhook，使其响应所有 HTTPS POST 请求，并通过 Firebase 将其导出为 Dialogflow 实现：
+
+```py
+// Set the DialogflowApp object to handle the HTTPS POST request.
+exports.dialogflowFirebaseFulfillment = functions.https.onRequest(app);
+```
+
+我们在本节中开发的脚本需要部署到服务器以使其响应。 我们将为 Firebase 使用 Cloud Functions 部署此脚本并将其用作聊天机器人的 webhook 端点。
+
+# 将 Webhook 部署到 Firebase 的 Cloud Functions
+
+既然我们已经完成了 Webhook 的逻辑创建，那么在 Firebase 上使用 Cloud Functions 部署它就非常简单。 请按照以下步骤操作：
+
+1.  单击 Dialogflow 控制台左侧导航上的`Fulfillment`按钮。 使内联编辑器能够添加您的 Webhook 并将其直接部署到 Cloud Functions。
+
+您必须清除内联编辑器中的默认样板代码才能执行此操作。
+
+2.  将上一部分中的编辑器中的代码粘贴到`index.js`选项卡式导航丸中，然后单击`Deploy`。
+
+请记住，用于部署的环境是 Node.js，因此`index.js`是包含所有业务逻辑的文件。 `package.json`文件管理您的项目所需的包。
+
+使用 Cloud Functions 具有部署 Webhook 的简单性和最小化设置的优势。 另一方面，仅设置`index.js`的限制可防止您将 Webhook 逻辑拆分为多个文件，这通常是在大型 chatbot 应用中完成的。 现在，您准备为 Action 创建一个发行版。
+
+# 在 Google 版本上创建动作
+
+最后，我们处于可以在 Google chatbot 上为 Actions 创建发行版的阶段。 但在这样做之前，重要的是在 Google Assistant 测试模拟器中测试聊天机器人：
+
+1.  单击 Google 控制台上“操作”左侧导航窗格中的“模拟器”按钮，以进入模拟器。 在模拟器中，将显示一个类似于在手机上使用 Google Assistant 的界面。 建议的输入将包含您的操作的调用方法。
+
+2.  在模拟器中为您的操作输入调用，在本例中为`Talk to Peter Please`。 这将产生来自默认欢迎意图要求您输入名称的输出。 输入您的姓名作为响应后，类似于`My name is Sammy`，您将看到您的幸运数字，如下所示：
+
+![](img/747836bd-80b4-40f5-95d1-3a6ffc72a692.png)
+
+现在我们知道我们的聊天机器人可以正常工作，并且可以与 Google 上的 Action 集成在一起，让我们为其创建一个发行版：
+
+1.  在 Google 控制台上的操作中单击“概述”，您将看到准备部署的提示。
+2.  Actions 测试控制台要求您输入一些 Action 所需的信息。 这些通常是简短和长格式的说明，开发人员的详细信息，隐私策略，操作条款和条件以及徽标。 成功填写所有内容后，单击“保存”。
+3.  在“部署”类别下的左侧导航栏中单击“发布”，以打开“发布”页面。 在这里，选择`Alpha`发布选项，然后单击`Submit`发布。
+
+部署将需要几个小时才能完成。 部署完成后，您将能够在已登录到内置 Action 的 Google 帐户的任何设备上测试您的操作。成功创建并部署 Dialogflow 智能体后，我们现在将使用以下方法开发 Flutter 应用： 与智能体进行交互的能力。 单屏应用将具有与任何基本的移动聊天应用非常相似的用户界面，带有一个用于输入消息的文本框，这些消息是 Dialogflow 智能体的查询，还有一个将每个查询发送到智能体的发送按钮。 该屏幕还将包含一个列表视图，以显示来自用户的所有查询和来自智能体的响应。 另外，在“发送”按钮旁边将有一个麦克风选项，以便用户可以利用语音到文本功能将查询发送到智能体。
+
+# 为对话应用创建 UI
+
+我们将从使用一些硬编码文本为应用创建基本用户界面开始，以测试 UI 是否正确更新。 然后，我们将集成 Dialogflow 智能体，以便它可以回答查询并告诉用户他们的幸运数字，然后添加一个`mic`选项，以便我们可以利用语音转文本功能。
+
+该应用的整体小部件树如下所示：
+
+![](img/2bd8e644-946d-40bb-84a0-1c4b9f0916f7.png)
+
+现在，让我们详细讨论每个小部件的实现。
+
+# 创建文本控制器
+
+首先，让我们在名为`chat_screen.dart`的新 dart 文件中创建一个名为`ChatScreen`的 StatefulWidget。 现在，请按照下列步骤操作：
+
+1.  创建一个文本框-用 Flutter 项`TextField`-允许用户输入输入文本。 要创建`TextField`，我们需要定义`createTextField()`：
+
+```py
+Widget createTextField() {
+     return new Flexible(
+         child: new TextField(
+             decoration:
+             new InputDecoration.collapsed(hintText: "Enter your message"),
+             controller: _textController,
+             onSubmitted: _handleSubmitted,
+         ),
+     );
+ }
+```
+
+当用户指示已完成将文本输入到文本字段中时，`onSubmitted`属性用作文本字段的回调，以处理文本输入。 当按下键盘上的`Enter`按钮时，将触发该属性。
+
+在前面的`TextField`小部件中，当用户输入完文本后便会调用`_handleSubmitted()`。 稍后将详细描述`_handleSubmitted()`。
+
+我们还将`decoration`属性指定为折叠状态，以删除可能出现在文本字段中的默认边框。 我们还将`hintText`属性指定为`Enter your message`。 要收听更改并更新`TextField`，我们还附加了`TextEditingController`的实例。 可以通过执行以下代码来创建实例：
+
+```py
+final TextEditingController _textController = new TextEditingController();
+```
+
+与 Java 不同，Dart 没有诸如`public`，`private`或`protected`之类的关键字来定义变量的使用范围。 而是在标识符名称之前使用下划线`_`来指定该标识符是类专有的。
+
+2.  接下来，创建一个发送按钮，该按钮可用于向`createSendButton()`函数内部的智能体发送查询：
+
+```py
+Widget createSendButton() {
+     return new Container(
+         margin: const EdgeInsets.symmetric(horizontal: 4.0),
+         child: new IconButton(
+             icon: new Icon(Icons.send),
+             onPressed: () => _handleSubmitted(_textController.text),
+         ),
+     );
+ }
+```
+
+在 Flutter 中，可以使用`Icons`类轻松添加类似于发送按钮的图形图标。 为此，我们创建一个新的`Icon`实例并指定`Icons.send`，以便将小部件用作发送按钮。 用作`icon`属性的参数。 我们还设置了`onPressed`属性，该属性在用户点击“发送”按钮时调用。 在这里，我们再次致电`_handleSubmitted`。
+
+`=>`（有时称为箭头）是一种速记符号，用于定义包含一行的方法。 定义为`fun() { return 10; }`的方法可以写为`fun() => return 10;`。
+
+3.  文本字段和发送按钮应该并排显示，因此可以通过将它们作为子代添加到`Row`小部件中来将它们包装在一行中。 包装好的`Row`小部件位于屏幕底部。 我们在`_buildTextComposer()`中创建此小部件：
+
+```py
+Widget _buildTextComposer() {
+     return new IconTheme(
+         data: new IconThemeData(color: Colors.blue),
+         child: new Container(
+             margin: const EdgeInsets.symmetric(horizontal: 8.0),
+             child: new Row(
+                 children: <Widget>[
+                     createTextField(),
+                     createSendButton(),
+                 ],
+             ),
+         ),
+     );
+ }
+```
+
+`_buildTextComposer()`函数返回一个以`Container`作为其子元素的`IconTheme`小部件。 容器包含由文本字段和我们在“步骤 1”和`2`中创建的发送按钮组成的`Row`小部件。
+
+在下一节中，我们将构建`ChatMessage`小部件，该小部件用于显示用户与聊天机器人的交互。
+
+# 创建`ChatMessage`
+
+来自用户的查询和来自智能体的响应可以被视为单个组件的两个不同部分。 我们将为它们创建两个不同的容器，然后将它们添加到名为`ChatMessage`的单个单元中。 这样可以确保每个查询及其答案的显示顺序与用户输入的顺序相同。 我们将在一个名为`chat_message.dart`的新 dart 文件中创建一个名为`ChatMessage`的有状态小部件。 下图显示了`ChatMesage`的查询和响应划分：
+
+![](img/79c3f291-dd45-4497-85f7-0b3345b60c5e.png)
+
+要创建屏幕的 UI，请按照下列步骤操作：
+
+1.  创建一个包含一些文本的容器，该容器将在屏幕上显示用户输入的查询：
+
+```py
+new Container(
+    margin: const EdgeInsets.only(top: 8.0),
+    child: new Text("Here is the query text",
+        style: TextStyle(
+            fontSize: 16.0,
+            color: Colors.black45,
+        ),
+    ),
+)
+```
+
+我们从为容器提供`8.0`的上边距开始，该边距包含一个当用户输入查询时将显示的字符串。 当调用`_handleSubmitted()`时，我们会将这个硬编码的字符串修改为字符串参数。 我们还将`fontSize`属性的边距修改为`16.0`，并将颜色设置为`black45`（深灰色），以帮助用户区分查询和响应。
+
+2.  创建一个容器以显示响应字符串：
+
+```py
+new Container(
+    margin: const EdgeInsets.only(top: 8.0),
+    child: new Text("This will be the response string",
+        style: TextStyle(
+            fontSize: 16.0
+        ),
+    ),
+)
+```
+
+顶部边距属性为`8.0`的容器包含一个硬编码的响应字符串。 稍后将对其进行修改，使其可以适应用户的响应。
+
+3.  将两个容器包装在单个`Column`中，然后将其作为有状态窗口小部件（即`ChatMessage`）中覆盖的`build()`方法的容器返回：
+
+```py
+@override
+Widget build(BuildContext context) {
+    return new Container(
+        margin: const EdgeInsets.symmetric(vertical: 10.0),
+        child: new Column(
+            crossAxisAlignment: CrossAxisAlignment.start,
+            children: <Widget>[
+                new Container(
+                   margin: const EdgeInsets.only(top: 8.0),
+                    child: new Text("Here is the query text",
+                        style: TextStyle(
+                            fontSize: 16.0,
+                            color: Colors.black45,
+ ),
+ ),
+ ),
+ new Container(
+ margin: const EdgeInsets.only(top: 8.0),
+ child: new Text("this will be the response text",
+                    style: TextStyle(
+                            fontSize: 16.0
+                    ),
+                ),
+            )
+        ]
+    )
+);
+```
+
+在 Flutter 中，文本包装在`Container`中。 通常，当它们太长而无法水平放置在屏幕中时，它们往往会从屏幕上溢出。 这可以看成是屏幕角落的红色标记。 为避免文本溢出，请确保将`Container`和`Text`包裹在`Flexible`内，以便文本可以垂直占据可用空间并自行调整。
+
+4.  为了存储和显示所有字符串（查询和响应），我们将使用`ChatMessage`类型的`List`：
+
+```py
+final List<ChatMessage> _messages = <ChatMessage>[];
+```
+
+此列表应出现在我们先前创建的`TextField`上方，以接受用户输入。
+
+5.  为了确保字段以垂直顺序正确显示，我们需要将它们包装在列中，然后从`ChatScreen.dart`的`Widget build()`方法返回它们。 该列的三个子级是一个灵活的列表视图，一个分隔符和一个带有文本字段的容器。 通过重写`build()`方法来创建 UI，如下所示：
+
+```py
+@override
+Widget build(BuildContext context) {
+    return new Column(
+        children: <Widget>[
+            new Flexible(
+                child: new ListView.builder(
+                    padding: new EdgeInsets.all(8.0),
+                    reverse: true,
+                    itemBuilder: (_, int index) => _messages[index],
+                    itemCount: _messages.length,
+                ),
+            ),
+            new Divider(
+                height: 1.0,
+            ),
+            new Container(
+                decoration: new BoxDecoration(
+                    color: Theme.of(context).cardColor,
+                ),
+                child: _buildTextComposer(),
+            ),
+        ],
+    );
+}
+```
+
+以`ChatMessages`作为其子元素的`ListView`被制作为`Flexible`，以便在放置分隔符和文本字段的容器之后，可以在垂直方向上占据屏幕上可用的整个空间。 在所有四个基本方向上都给`8.0`填充。 另外，将`reverse`属性设置为`true`可以使其在底部到顶部的方向上滚动。 `itemBuilder`属性被分配索引的当前值，以便它可以构建子项。 另外，为`itemCount`分配了一个值，该值可帮助列表视图正确估计最大可滚动内容。 列的第二个子级创建分隔符。 这是一条`devicePixel`粗水平线，标记了列表视图和文本字段的分隔。 在该列的最底部位置，我们将带有文本字段的容器作为其子容器。 这是通过对我们先前定义的`_buildTextComposer()`进行方法调用而构建的。
+
+6.  在`ChatScreen.dart`方法内定义`_handleSubmit()`，以正确响应用户的“发送消息”操作：
+
+```py
+void _handleSubmitted(String query) {
+    _textController.clear();
+    ChatMessage message = new ChatMessage(
+        query: query, response: "This is the response string",
+    );
+    setState(() {
+        _messages.insert(0, message);
+    });
+}
+```
+
+方法的字符串参数包含用户输入的查询字符串的值。 该查询字符串以及一个硬编码的响应字符串用于创建`ChatMessage`的实例，并插入到`_messages`列表中。
+
+7.  在`ChatMessage`中定义一个构造器，以便正确传递和初始化参数值，查询和响应：
+
+```py
+final String query, response;
+ChatMessage({this.query, this.response});
+```
+
+8.  分别在`ChatMessages.dart`中修改用于查询和响应的容器内`Text`属性的值，以使屏幕上显示的文本与用户和用户输入的文本相同。 从动作助手获得的回复：
+
+```py
+//Modifying the query text
+child: new Text(query,
+    style:.......
+)
+
+//Modify the response text
+child: new Text(response,
+    style:.......
+)
+```
+
+成功编译到目前为止我们编写的代码后，屏幕应如下所示：
+
+![](img/c1b7900a-83d0-44d4-af51-033feb918521.png)
+
+在前面的屏幕截图中，您可以看到将由用户编写的虚拟查询文本以及来自聊天机器人的响应字符串。
+
+整个`chat_message.dart`文件可以在 [GitHub](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter3/ActionsOnGoogleWithFlutter-master/lib/chat_message.dart) 上查看。
+
+在下一节中，我们将集成 Dialogflow 智能体，以便我们对用户查询具有实时响应。
+
+# 集成 Dialogflow 智能体
+
+现在，我们已经为应用创建了一个非常基本的用户界面，我们将把 Dialogflow 智能体与应用集成在一起，以便该智能体实时响应用户输入的文本。 按着这些次序：
+
+1.  为了将 Dialogflow 集成到应用中，我们将使用名为`flutter_dialogflow`的 Flutter 插件。
+
+要浏览此插件，请转到[这里](https://pub.dartlang.org/packages/flutter_dialogflow)。
+
+将依赖项添加到`pubspec.yaml`文件中的插件：
+
+```py
+dependencies:
+    flutter_dialogflow: ^0.1.0
+```
+
+2.  接下来，我们需要安装依赖项。 可以使用`$ flutter pub get`命令行参数，也可以通过单击屏幕上显示的选项来完成。 在这里，我们将使用`dialogflow_v2`，因此让我们将包导入`chat_screen.dart`文件中：
+
+```py
+import 'package:flutter_dialogflow/dialogflow_v2.dart';
+```
+
+3.  添加`.json`文件，其中包含您在项目的控制台上创建 Dialogflow 智能体时下载的 GCP 凭据。 为此，创建一个`assets`文件夹并将文件放在其中：
+
+![](img/9eaa1664-e9c5-4ff3-a498-8ec33103b669.png)
+
+4.  将文件的路径添加到`pubspec.yaml`文件的`assets`部分：
+
+```py
+flutter:
+    uses-material-design: true
+    assets:
+ - assets/your_file_downloaded_google_cloud.json
+```
+
+5.  修改`_handleSubmitted()`，以便它可以与智能体进行通信并获得对用户输入的查询的响应：
+
+```py
+Future _handleSubmitted(String query) async {
+    _textController.clear();
+
+    //Communicating with DailogFlow agent
+    AuthGoogle authGoogle = await AuthGoogle(fileJson: "assets/gcp-api.json").build();
+    Dialogflow dialogflow = Dialogflow(authGoogle: authGoogle,language: Language.english);
+    AIResponse response = await dialogflow.detectIntent(query);
+    String rsp = response.getMessage();
+    ChatMessage message = new ChatMessage(
+        query: query, response: rsp
+     );
+    setState(() {
+        _messages.insert(0, message);
+    });
+}
+```
+
+首先，我们通过指定`assets`文件夹的路径来创建一个名为`authGoogle`的`AuthGoogle`实例。 接下来，我们创建`Dialogflow`智能体的实例，该实例指定 Google 认证实例以及用于与其通信的语言。 在这里，我们选择了英语。 然后使用`response.getMessage()`提取响应，并将其存储在`rsp`字符串变量中，然后在创建`ChatMessage`实例时传递该变量，以确保两个字符串（输入文本和响应）均在屏幕上正确更新。 
+
+以下屏幕快照显示了在进行上述修改以反映用户的实际查询和 Dialogflow 智能体的响应之后的应用：
+
+![](img/feec031d-0fb5-4618-af3b-f3ba55d80cd4.png)
+
+在下一部分中，我们将向应用添加音频交互功能。
+
+# 添加与助手的音频交互
+
+现在，我们将语音识别添加到应用中，以便它可以监听用户的查询并采取相应的措施。
+
+# 添加插件
+
+我们将在此处使用`speech_recognition`插件。 让我们添加依赖项，如下所示：
+
+1.  将依赖项添加到`pubspec.yaml`文件，如下所示：
+
+```py
+dependencies:
+    speech_recognition: "^0.3.0"
+```
+
+2.  通过运行以下命令行参数来获取包：
+
+```py
+ flutter packages get
+```
+
+3.  现在，由于我们正在使用设备的麦克风，因此我们需要征得用户的许可。 为此，我们需要添加以下代码行：
+
+在 iOS 上，权限是在`infos.plist`中指定的：
+
+```py
+<key>NSMicrophoneUsageDescription</key>
+<string>This application needs to access your microphone</string>
+<key>NSSpeechRecognitionUsageDescription</key>
+<string>This application needs the speech recognition permission</string>
+```
+
+在 Android 上，权限在`AndroidManifest.xml`文件中指定：
+
+```py
+<uses-permission android:name="android.permission.RECORD_AUDIO" />
+```
+
+4.  现在，我们准备将包导入到`chat_screen.dart`文件中，以便可以使用它：
+
+```py
+import 'package:speech_recognition/speech_recognition.dart';
+```
+
+在下一节中，我们将添加将利用`speech_recognition`插件来帮助进行音频交互的方法。
+
+# 添加语音识别
+
+添加`speech_recognition`插件并导入包后，我们都准备在我们的应用中使用它。 让我们从添加将在应用内部处理语音识别的方法开始，如下所示：
+
+1.  添加并初始化所需的变量：
+
+```py
+SpeechRecognition _speechRecognition;
+bool _isAvailable = false;
+bool _isListening = false;
+String transcription = '';
+```
+
+`_speechRecognition`是`SpeechRecognition`的实例。 `_isAvailable`很重要，因为它可以让平台（Android/iOS）知道我们正在与之交互，并且`_isListening`将用于检查应用当前是否正在监听麦克风。
+
+最初，我们将两个`boolean`变量的值都设置为`false`。 `transcription`是一个字符串变量，将用于存储已监听的字符串。
+
+2.  定义`activateSpeechRecognizer()`方法以设置音频操作：
+
+```py
+void activateSpeechRecognizer() {
+    _speechRecognition = SpeechRecognition();
+
+    _speechRecognition.setAvailabilityHandler((bool result)
+        => setState(() => _isAvailable = result));
+
+    _speechRecognition.setRecognitionStartedHandler(()
+        => setState(() => _isListening = true));
+
+    _speechRecognition.setRecognitionResultHandler((String text)
+        => setState(() => transcription = text));
+
+    _speechRecognition.setRecognitionCompleteHandler(()
+        => setState(() => _isListening = false));
+}
+```
+
+在前面的代码片段中，我们在`_speechRecognition`内部初始化了`SpeechRecognition`的实例。 然后，我们通过调用`_speechRecognition.setAvailabilityHandler()`回调函数来设置`AvailabilityHandler`，该回调函数需要传回可以分配给`_isAvailable`的`boolean`结果。 接下来，我们设置`RecognitionStartedHandler`，它在启动语音识别服务时执行，并将`_isListening`设置为`true`表示移动设备的麦克风当前处于活动状态并且正在监听。 然后，我们使用`setRecognitionResultHandler`设置`RecognitionResultHandler`，这将给我们返回生成的文本。 这存储在字符串转录中。 最后，我们设置`RecognitionCompleteHandler`，当麦克风停止收听时，将`_isListening`设置为`false`。
+
+3.  公开内部的`initState()`函数调用`activateSpeechRecognizer()`来设置`_speechRecognition`实例，如下所示：
+
+```py
+@override
+void initState(){
+    super.initState();
+    activateSpeechRecognizer();
+}
+```
+
+此时，该应用能够识别音频并将其转换为文本。 现在，我们将增强 UI，以便用户可以提供音频作为输入。
+
+# 添加麦克风按钮
+
+现在，我们已经激活了语音识别器，我们将在发送按钮旁边添加一个麦克风图标，以允许用户利用该选项进行语音识别。 请按照以下步骤操作：
+
+1.  首先，我们定义`createMicButton()`函数，该函数作为第三个子项添加到`_buildTextComposer()`内部的`Row`小部件中：
+
+```py
+Widget createMicButton() {
+     return new Container(
+     margin: const EdgeInsets.symmetric(horizontal: 4.0),
+         child: new IconButton(
+         icon: new Icon(Icons.mic),
+         onPressed: () {
+             if (_isAvailable && !_isListening) {
+                 _speechRecognition.recognitionStartedHandler();
+                 _speechRecognition .listen(locale: "en_US")
+                 .then((transcription) => print('$transcription'));
+             } else if (_isListening) {
+                 _isListening = false;
+                 transcription = '';
+                 _handleSubmitted(transcription);
+                 _speechRecognition
+                 .stop()
+                 .then((result) => setState(() => _isListening = result));
+                 }
+             }
+         ),
+     );
+ }
+```
+
+在前面的代码片段中，我们返回带有子项`IconButton`的`Container`，其子项为`Icons.mic`。 我们为使用`onPressed()`的按钮提供了双重功能，以便它可以开始收听用户的声音，并且再次按下该按钮时，可以通过传递记录的字符串以与智能体进行交互来停止记录并调用`_handleSubmitted()`方法。
+
+首先，我们使用`_isAvailable`和`_isListening`变量检查麦克风是否可用并且尚未在收听用户的声音。 如果`if`语句中的条件为`true`，则将`_isListening`的值设置为`true`。 然后，我们通过调用`_speechRecognition`上的`.listen()`方法开始监听。 `locale`参数指定语言，此处为`en_US`。 相应的字符串存储在`transcription`变量中。
+
+当第二次按下麦克风停止录制时，由于`_isListening`的值设置为`true`，因此`if`条件将不满足。 现在，执行`else`块。 在这里，通过传递记录的字符串以使其可以与智能体进行交互来调用`_handleSubmitted()`，然后使用结果将`_isListening`的值设置为`true`：
+
+![](img/12804f8e-a618-412e-af67-62295156578e.png)
+
+成功编译所有代码并将`ChatScreen`包裹在`main.dart`文件中的`MaterialApp`实例中之后，该应用的外观将与前面的屏幕快照类似。
+
+可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter3/ActionsOnGoogleWithFlutter-master/lib/chat_screen.dart)和[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter3/ActionsOnGoogleWithFlutter-master)上查看`chat_screen.dart`文件。
+
+# 总结
+
+在本章中，我们研究了一些可用于创建聊天机器人的最常用工具，然后对 Dialogflow 进行了深入讨论，以了解所使用的基本术语。 我们了解了 Dialogflow 控制台的工作方式，以便我们可以创建自己的 Dialogflow 智能体。 为此，我们创建了一个意图，该意图可以提取用户的姓名并将其添加为与 Google Assistant 的集成，从而可以用幸运数字进行响应。
+
+在将 Webhook 部署为 Firebase 的 Cloud Functions 并在 Google 版本上创建 Actions 之后，我们创建了一个对话式 Flutter 应用。 我们学习了如何创建对话应用界面，并集成了 Dialogflow 智能体以根据聊天机器人的响应促进深度学习模型。 最后，我们使用 Flutter 插件向应用添加语音识别，该应用再次使用基于深度学习的模型将语音转换为文本。
+
+在下一章中，我们将研究定义和部署自己的自定义深度学习模型并将其集成到移动应用中。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/04.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/04.md
new file mode 100644
index 00000000..595da58f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/04.md
@@ -0,0 +1,869 @@
+# 四、认识植物种类
+
+该项目将深入讨论如何构建自定义的 TensorFlow Lite 模型，该模型能够从图像中识别植物物种。 该模型将在移动设备上运行，并将主要用于识别不同的植物物种。 该模型使用在 TensorFlow 的 Keras API 上开发的深层**卷积神经网络**（**CNN**）进行图像处理。 本章还向您介绍了如何使用基于云的 API 来执行图像处理。 以 **Google Cloud Platform**（**GCP**）提供的 Cloud Vision API 为例。
+
+在本章结束时，您将了解基于云的服务对于**深度学习**（**DL**）应用的重要性，设备模型对脱机执行的好处，以及移动设备上的即时深度学习任务。
+
+在本章中，我们将介绍以下主题：
+
+*   图像分类简介
+*   了解项目架构
+*   Cloud Vision API 简介
+*   配置 Cloud Vision API 进行图像识别
+*   使用**软件开发套件**（**SDK**）/工具来建立模型
+*   创建用于图像识别的自定义 TensorFlow Lite 模型
+*   创建 Flutter 应用
+*   运行图像识别
+
+# 技术要求
+
+本章的技术先决条件如下：
+
+1.  具有 Python 3.6 及更高版本的 Anaconda
+2.  TensorFlow 2.0
+3.  启用了结算功能的 GCP 帐户
+4.  Flutter
+
+[您可以在 GitHub 存储库中找到本章介绍的代码](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter4)。
+
+# 图像分类简介
+
+图像分类是当今**人工智能**（**AI**）的主要应用领域。 我们可以在我们周围的许多地方找到图像分类的实例，例如手机的面部解锁，对象识别，光学字符识别，照片中人物的标记等等。 从人的角度来看，这些任务看起来很简单，但对于计算机而言却并不那么简单。 首先，系统必须从图像中识别出物体或人，并在其周围绘制一个边界框，然后进行分类。 这两个步骤都是计算密集型的，很难在计算机上执行。
+
+研究人员每天都在努力克服图像处理中的若干挑战，例如戴眼镜或新留胡子的人的脸部识别，在拥挤的地方通过脸部识别和跟踪多个人，以及新样式的字符识别。 手写或全新的语言。 深度学习一直以来都是克服这些挑战的好工具，它能够学习图像中的几种不可见图案。
+
+深度学习中用于图像处理的一种非常常见的方法是部署 CNN，我们已经在前面的章节中进行了介绍。 要查看其概念和基本工作，请参阅“第 2 章”，“移动视觉–使用设备上模型的人脸检测”。 在这个项目中，我们将介绍如何将这些模型转换为可以在移动设备上高效运行的压缩模型。
+
+您可能想知道我们将如何构建这些模型。 为了简化语法，对 TensorFlow API 的强大支持以及广泛的技术支持社区，我们将使用 Python 构建这些模型。 很明显，您的开发计算机上将需要 Python 运行时，但对于该项目，我们将选择一种更快，更强大的选项-Google 的 Colaboratory 环境。 Colaboratory（或简称为 Colab）为即时可用的运行时提供了几个重要的**机器学习**（**ML**）以及与运行时预装的数据科学相关的模块。 另外，Colaboratory 还为启用**图形处理器**（**GPU**）和**张量处理单元**（**TPU**）的运行时提供支持。 训练深度学习模型可谓小菜一碟。 然后，我们将直接在设备上部署 TensorFlow Lite 模型，这是一种适合快速运行且不需要定期更新的模型的良好做法。
+
+让我们开始了解项目架构。
+
+# 了解项目架构
+
+我们将在本章中构建的项目将包括以下技术：
+
+*   [**TensorFlow**](https://www.tensorflow.org)：使用 CNN 构建分类模型
+*   [**TensorFlow Lite**](https://www.tensorflow.org/lite)：一种浓缩 TensorFlow 模型的格式，可以在移动设备上高效运行
+*   [**Flutter**](https://flutter.dev)：跨平台应用的开发库
+
+您可以通过访问前面的链接来了解这些技术。 以下屏幕快照给出了这些技术在该项目中发挥作用的框图：
+
+![](img/3605fe2e-c86c-438b-aa36-2aef8854ff9b.png)
+
+首先，我们将在包含数百张图像的数据集上训练分类模型。 为此，我们将使用 Python 构建 TensorFlow 模型。 然后，必须以的格式保存模型。 **tflite**，是 TensorFlow Lite 模型的扩展。 后端到此结束，我们切换到前端。
+
+在前端，我们首先使用 Flutter 构建一个应用，该应用可以从设备上存在的图库中加载图像。 Firebase 上的预测模型已下载并缓存到设备上。 从图库中选择的图像将传递到模型，该模型将预测包含图像中显示的植物物种名称的标签。 模型存储在移动设备上，即使离线也可以使用模型。
+
+设备上模型是在移动应用上使用深度学习的强大且首选的方式。 如今，普通人的手机上有几种应用使用设备上的模型来为其应用带来智能。 设备上模型通常是在桌面上开发的模型的压缩形式，并且可能会或可能不会编译为字节码。 诸如 **TensorFlow Lite** 之类的框架在上执行特殊的优化。 **tflite** 模型，使其比非移动形式的体积更小，运行更快。
+
+但是，在我们开始为任务构建定制模型之前，让我们全面了解一下我们可以使用哪些预先存在的工具或服务来执行此类任务。
+
+# 介绍 Cloud Vision API
+
+Cloud Vision API 是 GCP 套件中流行的 API。 它已成为使用计算机视觉构建应用的基准服务。 简而言之，计算机视觉是计算机识别图像中实体的能力，范围从人脸到道路和自动驾驶任务的车辆。 此外，计算机视觉可用于使人类视觉系统执行的任务自动化，例如计算道路上行驶中的车辆的数量，以及观察物理环境的变化。 计算机视觉已在以下领域得到广泛应用：
+
+*   在社交媒体平台上标记公认的人脸
+*   从图像中提取文本
+*   从图像中识别物体
+*   自动驾驶汽车
+*   基于医学图像的预测
+*   反向图像搜索
+*   地标检测
+*   名人识别
+
+通过 Cloud Vision API，可以轻松访问前面的某些任务，并为每个识别的实体返回标签。 例如，我们可以看到在下面的屏幕截图中，正确识别了具有 200 年历史的著名工程学杰作 Howrah Bridge。 根据有关地标的信息，可以预测该图像属于加尔各答市：
+
+![](img/84968b01-ffbe-4752-8c16-f337ca721d96.png)
+
+至于前面截图的标签，最主要的标签是**桥**和**悬索桥**，它们都与桥有关。 如前面的屏幕截图所示，还可以通过单击“响应”部分中的“文本”选项卡来检查图像中是否有任何可识别的文本。 要检查图像是否适合安全搜索或单击其中是否有干扰内容的内容，请单击“安全搜索”选项卡。 例如，从著名名人那里接到电话的图像很可能是欺骗，如以下屏幕快照所示：
+
+![](img/a1fab1c9-f3db-4632-80e5-dfa94eb21e91.png)
+
+接下来，我们将从设置 GCP 帐户开始，然后继续创建用于使用 API​​的示例 Flutter 应用。
+
+# 为图像识别配置 Cloud Vision API
+
+在本节中，我们将准备通过 Flutter 应用使用 Cloud Vision API。 必须为此任务拥有一个 Google 帐户，我们假设您已经拥有该帐户。 否则，[您可以通过以下链接注册免费创建 Google 帐户](https://accounts.google.com/signup)。
+
+如果您目前拥有 Google 帐户，请继续进行下一部分。
+
+# 启用 Cloud Vision API
+
+要创建 GCP 帐户，[请转到以下链接](https://cloud.google.com)。 初始注册后，您将能够看到类似于以下屏幕截图的仪表板：
+
+![](img/d7313084-9351-4564-aa89-f323433b11c0.png)
+
+在左上角，您将能够看到三栏菜单，该菜单会列出 GCP 上所有可用的服务和产品的列表。 项目名称显示在搜索栏的左侧。 确保您为该项目创建并启用计费功能，以便本章进一步介绍。 在右侧，您可以看到用户个人资料信息，通知和 Google Cloud Shell 调用图标。 仪表板中心显示当前用户正在运行的服务的各种日志和统计信息。
+
+为了访问 Cloud Vision API 并使用它，我们首先需要为项目启用它并为服务创建 API 密钥。 为此，请执行以下步骤：
+
+1.  点击左上方的汉堡菜单图标。 这将弹出一个菜单，类似于以下屏幕快照中所示的菜单：
+
+![](img/d8ff1b34-0395-4639-b48d-b558bdff7d8c.png)
+
+2.  单击“API 和服务”选项。 这将打开 API 仪表板，其中显示了与项目中启用的 API 相关的统计信息。
+3.  单击“启用 API 和服务”按钮。
+4.  在出现的搜索框中，键入`Cloud Vision API`。
+5.  单击相关的搜索结果。 该 API 供应商将列为 Google。
+6.  API 页面打开后，单击“启用”。 之后，应该显示一个图标，表明您已启用此 API，并且“启用”按钮变为“管理”。
+
+为了能够使用 Cloud Vision API，您必须为此服务创建一个 API 密钥。 我们将在下一部分中进行此操作。
+
+# 创建 Cloud Vision API 密钥
+
+现在，您必须创建一个 API 密钥来访问 API 并从中获取响应。 为此，请执行以下步骤：
+
+1.  再次打开左侧的导航菜单，并将鼠标悬停在“API 和服务”菜单项上。 出现一个子菜单-单击“凭据”。
+2.  单击“创建凭据”按钮。 在显示的下拉菜单中，选择 API 密钥，如以下屏幕截图所示：
+
+![](img/c1939d94-1eff-481d-9f17-4360050a2f4a.png)
+
+3.  API 密钥已创建。 在调用 Cloud Vision API 时，您将需要此 API 密钥。
+
+API 密钥方法仅适用于 GCP 的部分选定 API 和服务，并非十分安全。 如果要完全访问所有 API 和服务以及细粒度的安全性，则需要对服务帐户使用该方法。 为此，[您可以阅读 GCP 官方文档中的以下文章](https://cloud.google.com/docs/authentication/)。
+
+有了 API 密钥，您现在就可以通过 Flutter 应用进行 API 调用了。 在下一部分中，我们将在 **Colab** 上开发预测模型，并将其保存为`.tflite`模型。
+
+# 使用 SDK /工具构建模型
+
+我们介绍了针对现有任务使用预先存在的基于服务的深度学习模型的准备工作，以预测图片中存在的植物种类。 我们将在来自五种不同花的样本上训练图像分类器模型。 然后，模型将尝试确定花朵的任何图像可能所属的物种。 但是，此类模型通常在通常可用的数据集上进行训练，并且有时不具备特定的要求（例如，在科学实验室中）。 因此，您必须学习如何建立自己的模型来预测植物种类。
+
+这可以通过完全从头训练模型或通过扩展先前存在的模型来实现。 从头开始完全训练模型的好处是，您可以完全控制输入到模型中的数据，以及训练过程中对模型所做的任何学习。 但是，如果以这种方式设计模型，则可能会出现缓慢或偏差。 TensorFlow 团队扩展了诸如 MobileNet 模型之类的预训练模型，其优点是速度超快。 该方法的缺点是它可能不如从头开始构建的模型那样准确，但是时间准确率的折衷使 MobileNet 模型更适合在移动设备上运行。
+
+偏差是机器学习模型中非常关键的问题。 在统计术语中，这种偏差（或抽样偏差）是指数据集中的偏斜，即对于数据集中的每个分类类别，其样本数均相等。 这样的类别将获得较少的训练样本，因此很有可能被模型的输出预测所忽略。 偏见模型的一个很好的例子可能是仅在小孩脸上训练的面部识别模型。 该模型可能完全无法识别成年人或老年人的面孔。
+
+[您可以在汗学院（Khan Academy）的以下课程中了解有关识别样本偏差的更多信息](https://www.khanacademy.org/math/ap-statistics/gathering-data-ap/sampling-observational-studies/a/identifying-bias-in-samples-and-surveys)。
+
+因此，在接下来的部分中，我们将使用 MobileNet 模型来实现在移动设备上快速执行的功能。 为此，我们将使用 TensorFlow 的 Keras API。 用于该任务的语言是 Python，如前所述，它最能涵盖 TensorFlow 框架的功能。 我们假定您在接下来的部分中具有 Python 的基本工作知识。 但是，重要的是要了解 TensorFlow 和 Keras 在此项目中如何协同工作。
+
+我们将在协作环境中工作。 让我们从了解该工具开始。
+
+# Google Colab 介绍
+
+Google 提供的协作工具允许用户在公司提供的计算资源上运行类似**笔记本**的运行时，并可以选择免费使用 GPU 和 TPU，只要用户需要即可。 运行时预装了几个与 ML 和数据科学相关的 Python 模块。 Colaboratory 中的笔记本电脑都可以直接从代码内访问 GCP API（具有适当的配置）。 每个笔记本电脑都有自己的临时存储空间，当断开运行时时，该存储空间将被销毁。 同样，可以将 Colaboratory 笔记本与 GitHub 同步，从而实现最新的版本控制。 通常，协作笔记本位于用户的 Google 云端硬盘存储中。 它们可以与多个用户实时共享和一起工作。
+
+要打开合作实验室，[请转到以下链接](https://colab.research.google.com)。
+
+您将获得一个样本，欢迎笔记本。 随意浏览欢迎笔记本，以基本了解 Colaboratory 的工作方式。 在笔记本电脑的左侧，您将能够看到导航选项卡药丸，如以下屏幕截图所示：
+
+![](img/2d1ddb05-b1e3-4af7-ad2e-4930fababe26.png)
+
+“目录”选项卡显示笔记本中创建的标题和子标题，并使用 Markdown 格式进行声明。 “代码片段”选项卡提供了快速单击并插入代码片段的功能，以用于 Colaboratory 上的某些常用功能。 如果您对协作实验室不是很熟悉，但希望执行特定任务，则可能需要在此处搜索任务。 第三个选项卡“文件”是分配给此笔记本的存储空间。 此处存储的文件是此笔记本的专用文件，不会在其他任何地方显示。 使用脚本下载或脚本创建的所有文件都存储在此处。 您可以使用此屏幕上的文件管理器来浏览笔记本的整个目录结构。
+
+在右侧，主要内容部分是笔记本本身。 为了熟悉 Colaboratory 和 Notebooks 的使用，[我们强烈建议您阅读以下文章](https://www.geeksforgeeks.org/how-to-use-google-colab/)。
+
+# 创建用于图像识别的自定义 TensorFlow Lite 模型
+
+一旦您在 Colaboratory 取得了不错的成绩，我们所有人都将建立自定义的 TensorFlow Lite 模型，用于识别植物物种的任务。 为此，我们将从新的协作笔记本开始并执行以下步骤：
+
+1.  导入项目所需的模块。 首先，我们导入 TensorFlow 和 NumPy。 NumPy 对于处理图像数组很有用，而 TensorFlow 将用于构建 CNN。 可以在以下片段中看到导入模块的代码：
+
+```py
+!pip install tf-nightly-gpu-2.0-preview
+import tensorflow as tf
+import numpy as np
+import os
+```
+
+注意第一行中使用的`!pip install <package-name>`命令。 这用于在正在运行的 Colaboratory 笔记本中安装包，在这种情况下，该笔记本将安装最新的 TensorFlow 版本，该版本内部实现了 Keras 库，该库将用于构建 CNN。
+
+您可以在以下位置阅读有关使用`!pip install`命令以及其他将新库导入并安装到您的 Colaboratory 运行时的方法的[更多信息](https://colab.research.google.com/notebooks/snippets/importing_libraries.ipynb)。
+
+2.  要运行代码单元，请按住`Shift`键并按`Enter`。 TensorFlow 版本的下载和安装进度显示在您执行代码的单元下方。这将需要几秒钟，之后您会收到类似于`Successfully installed <package_name>, <package_name>, ...`的消息。
+3.  最后，我们需要`os`模块来处理文件系统上的文件。
+4.  下载数据集并提取图像。
+
+现在，我们将从可用的**统一资源定位器**（**URL**）下载数据集，并将其提取到名为`/content/flower_photos`的文件夹中，如以下代码块所示：
+
+```py
+_URL = "https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz"
+
+zip_file = tf.keras.utils.get_file(origin=_URL, 
+                                   fname="flower_photos.tgz", 
+                                   extract=True, cache_subdir='/content',)
+
+base_dir = os.path.join(os.path.dirname(zip_file), 'flower_photos')
+```
+
+您可以使用左侧面板上的“文件”选项卡浏览提取的文件夹的内容。 您会发现该文件夹还包含五个其他文件夹，其名称分别为：雏菊，蒲公英，玫瑰，向日葵和郁金香。 这些将是花朵的种类，我们将在其上训练我们的模型，此后称为**标签**。 下一步，我们将再次讨论这些文件夹名称。
+
+5.  下一步是设置生成器，以将数据传递到基于 TensorFlow 的 Keras 模型。
+6.  现在，我们将创建两个生成器函数，用于将数据输入 Keras 神经网络。 Keras 的`ImageDataGenerator`类提供了两个工具函数，可通过使用`flow_from_directory`方法读取磁盘或通过使用`flow_from_dataframe`方法将图像转换为 NumPy 数组来将数据馈送到 Python 程序。 在这里，我们将使用`flow_from_directory`方法，因为我们已经有一个包含图像的文件夹。
+
+但是，在此必须注意，包含图像的文件夹名称与图像所属的标签相同是故意的。 这是`flow_from_directory`方法要求其才能正常运行的文件夹结构的设计。 [您可以在此处阅读有关此方法的更多信息](https://theailearner.com/2019/07/06/imagedatagenerator-flow_from_directory-method/)。
+
+可以使用以下屏幕快照中显示的目录树来对此进行总结：
+
+![](img/62b369e0-1d10-4ef5-8947-cc9d7bd94fc4.png)
+
+7.  然后，我们创建`ImageDataGenerator`类的对象，并使用它为训练数据集创建生成器，如以下代码块所示：
+
+```py
+IMAGE_SIZE = 224
+BATCH_SIZE = 64
+
+datagen = tf.keras.preprocessing.image.ImageDataGenerator(
+    rescale=1./255, 
+    validation_split=0.2)
+
+train_generator = datagen.flow_from_directory(
+    base_dir,
+    target_size=(IMAGE_SIZE, IMAGE_SIZE),
+    batch_size=BATCH_SIZE, 
+    subset='training')
+```
+
+`datagen`对象采用两个参数-`rescale`和`validation_split`。 `rescale`参数告诉对象将所有黑白图像转换为`0`到`255`的范围，就像**红色，绿色和蓝色**（**RGB**）的规模，因为 MobileNet 模型已经在 RGB 图像上进行了训练。 `validation_split`参数从数据集中分配 20%（`0.2 x 100`）的图像作为验证集。 但是，我们也需要为验证集创建一个生成器，就像我们为训练集所做的那样。
+
+训练集生成器`train_generator`接受`target_size`和`batch_size`参数以及其他参数。 `target_size`参数设置要生成的图像的尺寸。 这样做是为了与 MobileNet 模型中的图像尺寸匹配。 `batch_size`参数指示单个批量应生成多少个图像。
+
+8.  对于验证集，我们具有生成器，如以下代码块所示：
+
+```py
+val_generator = datagen.flow_from_directory(
+    base_dir,
+    target_size=(IMAGE_SIZE, IMAGE_SIZE),
+    batch_size=BATCH_SIZE, 
+    subset='validation')
+```
+
+9.  让我们快速看一下这些生成器生成的数据的形状，如下所示：
+
+```py
+for image_batch, label_batch in train_generator:
+  break
+image_batch.shape, label_batch.shape
+```
+
+这将产生以下输出：`((64, 224, 224, 3), (64, 5))`，这意味着在第一批`train_generator`中，创建了尺寸为`224 x 224 x 3`的 64 个图像，以及 5 个单编码格式的 64 个标签。
+
+10.  可以通过运行以下代码来获取分配给每个标签的编码索引：
+
+```py
+print(train_generator.class_indices)
+```
+
+这将产生以下输出：`{'daisy': 0, 'dandelion': 1, 'roses': 2, 'sunflowers': 3, 'tulips': 4}`。 请注意标签名称的字母顺序。
+
+11.  现在，我们将保存这些标签，以备将来在 Flutter 应用中部署模型时使用，如下所示：
+
+```py
+labels = '\n'.join(sorted(train_generator.class_indices.keys()))
+
+with open('labels.txt', 'w') as f:
+  f.write(labels)
+```
+
+12.  接下来，我们将创建一个基本模型并冻结层。 在这一步中，我们将首先创建一个基础模型，然后冻结除最后一层之外的所有模型层，如下所示：
+
+```py
+IMG_SHAPE = (IMAGE_SIZE, IMAGE_SIZE, 3)
+
+base_model = tf.keras.applications.MobileNetV2(input_shape=IMG_SHAPE,
+                                              include_top=False, 
+                                              weights='imagenet')
+```
+
+通过导入 TensorFlow 团队提供的`MobileNetV2`模型来创建基本模型。 输入形状设置为（64、64、3），然后导入 ImageNet 数据集中的权重。 该模型可能在您的系统上不存在，在这种情况下，将从外部资源下载该模型。
+
+13.  然后，我们冻结基本模型，以使`MobileNetV2`模型中的权重不受未来训练的影响，如下所示：
+
+```py
+base_model.trainable = False
+```
+
+14.  现在，我们将创建一个扩展的 CNN，并扩展基础模型以在基础模型层之后添加另一个层，如下所示：
+
+```py
+model = tf.keras.Sequential([
+      base_model,
+  tf.keras.layers.Conv2D(32, 3, activation='relu'),
+  tf.keras.layers.Dropout(0.2),
+  tf.keras.layers.GlobalAveragePooling2D(),
+  tf.keras.layers.Dense(5, activation='softmax')
+])
+```
+
+我们创建了一个扩展基础模型的顺序模型，这实质上意味着数据是在单层连续地在连续层之间传递的，一次是一层。 我们还添加了具有`relu`激活函数的 2D 卷积层，然后是`Dropout`层，然后是`Pooling`层。 最后，添加带有`softmax`激活的输出层。
+
+15.  然后，必须对模型进行编译以对其进行训练，如下所示：
+
+```py
+model.compile(optimizer=tf.keras.optimizers.Adam(), 
+              loss='categorical_crossentropy', 
+              metrics=['accuracy'])
+```
+
+我们将损失设置为分类交叉熵，将模型评估指标设置为预测的准确率。 已经发现`Softmax`在分类交叉熵作为损失函数时表现最佳，因此是首选。
+
+16.  训练并保存模型。 最终，我们处于 ML 最激动人心的步骤之一-训练。 运行以下代码：
+
+```py
+epochs = 10
+
+history = model.fit(train_generator, 
+                    epochs=epochs, 
+                    validation_data=val_generator)
+```
+
+该模型经过 10 个周期的训练，这意味着每个样本至少要在神经网络上抛出 10 次。 注意在此函数中使用了`train_generator`和`val_generator`。 即使有 12GB+ 的 RAM 和 TPU 加速可用，训练也需要花费相当长的时间（这在任何个人中端设备上都是过大的）。 您将能够观察到运行上述代码的单元下方的训练日志。
+
+17.  然后，我们可以保存模型，之后可以继续转换保存的模型文件，如下所示：
+
+```py
+saved_model_dir = ''
+tf.saved_model.save(model, saved_model_dir)
+```
+
+18.  将模型文件转换并下载到 TensorFlow Lite。 现在，我们可以使用以下代码转换保存的模型文件。 这会将模型另存为`model.tflite`文件，如下所示：
+
+```py
+converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
+tflite_model = converter.convert()
+
+with open('model.tflite', 'wb') as f:
+  f.write(tflite_model)
+```
+
+19.  现在，我们需要下载此文件，以将其嵌入到我们构建的 Flutter 应用中。 我们可以使用以下代码进行操作：
+
+```py
+from google.colab import files
+files.download('model.tflite')
+files.download('labels.txt')
+```
+
+注意，我们使用了`google.colab`库中的`files`模块。 我们还下载了在“步骤 11”中创建的`labels.txt`文件。
+
+现在，我们准备开始创建 Flutter 应用，以演示 Cloud Vision API 的用法以及嵌入式 TensorFlow Lite 模型的用法。
+
+# 创建 Flutter 应用
+
+成功创建可识别多种植物物种的 TensorFlow Lite 模型后，现在让我们创建一个 Flutter 应用，以在移动设备上运行 TensorFlow Lite 模型。 该应用将有两个屏幕。 第一个屏幕将包含两个按钮，供用户在两个不同的模型（Cloud Vision API 和 TensorFlow Lite 模型）之间进行选择，这些模型可用于对任何选定的图像进行预测。 第二个屏幕将包含一个**浮动操作按钮**（**FAB**），使用户可以从设备的库中选择图像，一个图像视图来显示用户选择的图像，以及一个文本来使用所选模型显示预测。
+
+以下屏幕截图说明了应用的流程：
+
+![](img/ea4bf7ee-b665-4603-86a8-9f1f46d5e33b.png)
+
+现在，让我们看一下构建应用的步骤。
+
+# 在两个不同的模型之间进行选择
+
+让我们从创建应用的第一个屏幕开始。 第一个屏幕将包含两个不同的按钮，使用户可以在 Cloud Vision API 和 TensorFlow Lite 模型之间进行选择。
+
+首先，我们创建一个新的`choose_a_model.dart`文件，其中将包含`ChooseModel`有状态的小部件。 该文件将包含用于创建应用第一个屏幕的代码，其中包含带有一些文本和两个凸起按钮的列，如以下屏幕截图所示：
+
+![](img/9411ac71-b97c-45a8-aacc-deb49df6f16b.png)
+
+创建应用的第一个屏幕的步骤如下：
+
+1.  首先，我们将定义一些全局字符串变量，这些变量稍后将在创建用于选择模型的按钮以及保存用户选择的模型时使用，如下所示：
+
+```py
+var str_cloud = 'Cloud Vision API';
+var str_tensor = 'TensorFlow Lite';
+```
+
+2.  现在，让我们定义一个方法来创建一个简单的`Text`小部件，如下所示：
+
+```py
+Widget buildRowTitle(BuildContext context, String title) {
+    return Center(
+        child: Padding(
+            padding: EdgeInsets.symmetric(horizontal: 8.0, vertical: 16.0),
+            child: Text(
+                title,
+                style: Theme.of(context).textTheme.headline,
+            ),
+        ),
+    );
+}
+```
+
+该方法返回一个小部件，该小部件与中心对齐，并包含一些带有`title`值的文本作为参数传递，并带有标题为主题的“选择模型”字符串。 使用`EdgeInsets.symmetric()`属性和`EdgeInsets.symmetric()`属性，还为文本提供了水平和垂直填充。
+
+3.  接下来，我们将定义用于创建按钮的`createButton()`方法，如下所示：
+
+```py
+Widget createButton(String chosenModel) {
+    return (RaisedButton(
+        color: Colors.blue,
+        textColor: Colors.white,
+        splashColor: Colors.blueGrey,
+        child: new Text(chosenModel),
+            onPressed: () {
+                var a = (chosenModel == str_cloud ? 0 : 1);
+                    Navigator.push(
+                        context,
+                        new MaterialPageRoute(
+                            builder: (context) => PlantSpeciesRecognition(a)
+                    ),
+                );
+            }
+        )
+    );
+}
+```
+
+该方法返回`RaisedButton`方法，其颜色为`blue`，`textColor`值为`white`，`splashColor`值为`blueGrey`。 该按钮具有一个`Text`子元素，该子元素是使用`chosenModel`中传递的值构建的。 如果用户单击了“运行 Cloud Vision API”的按钮，则`chosenModel`的值将为 Cloud Vision API，并且如果单击`TensorFlow Lite`的按钮，则其值为 TensorFlow Lite。
+
+当按下按钮时，我们首先检查`chosenModel`中的值。 如果与`str_cloud`相同（即 Cloud Vision API），则分配给变量`a`的值为`0`； 否则，分配给变量`a`的值为`1`。 该值与使用`Navigator.push()`迁移到`PlantSpeciesRecognition`一起传递，这将在后面的部分中进行介绍。
+
+4.  最后，我们创建第一个屏幕的`appBar`和主体，并从`build()`方法返回`Scaffold`，如下所示：
+
+```py
+@override
+Widget build(BuildContext context) {
+    return Scaffold(
+        appBar: AppBar(
+            centerTitle: true,
+            title: Text('Plant Species Recognition'),
+            ),
+            body: SingleChildScrollView(
+                child: Column(
+                    mainAxisAlignment: MainAxisAlignment.center,
+                    children: <Widget>[
+                        buildRowTitle(context, 'Choose Model'),
+                        createButton(str_cloud),
+                        createButton(str_tensor),
+                ],
+            )
+        )
+    );
+}
+```
+
+`appBar`包含位于中间的`Plant Species Recognition`标题。 `Scaffold`的主体是一列，其中包含一些文本和两个按钮，其值分别为`str_cloud`和`str_tensor`，并与中心对齐。
+
+# 创建第二个屏幕
+
+当用户选择了模型时，应用将迁移到第二个屏幕，该屏幕将允许用户从设备的本地存储中选择一个图像，然后在该图像上运行所选模型以进行预测。 我们从创建一个新文件`plant_species_recognition.dart`开始，该文件包含`PlantSpeciesRecognition`有状态的小部件。
+
+# 创建用户界面
+
+我们将首先创建一个新文件`PlantSpeciesRecognition.dart`，其中包含一个名为`PlantSpeciesRecognition`的有状态小部件，然后将覆盖其`build()`方法以放置**用户界面**（**UI**）的应用组件：
+
+1.  让我们创建一个带有 FAB 的`Scaffold`和一个带有`build()`方法返回的应用标题的`AppBar`。 FAB 允许用户从设备的图库中选择图像，以预测图像中包含的植物种类，如下所示：
+
+```py
+return Scaffold(
+    appBar: AppBar(
+        title: const Text('Plant Species Recognition'),
+    ),
+    floatingActionButton: FloatingActionButton(
+        onPressed: chooseImageGallery,
+        tooltip: 'Pick Image',
+        child: Icon(Icons.image),
+    ),
+);
+```
+
+在前面的代码片段中，`AppBar`将包含`Plant Species Recognition`文本。 这将作为应用的标题显示在屏幕顶部的应用栏上。
+
+在 Flutter 中，`const`关键字有助于冻结对象的状态。 描述为`const`的对象的完整状态是在应用本身的编译期间确定的，并且保持不变。 同样，当与`Text()`之类的构造器一起使用时，该关键字对于小型内存优化也很有用。 在代码中添加第二个`Text()`构造器会重用为第一个`Text()`构造器分配的内存，从而重用内存空间并使应用更快。
+
+接下来，我们通过指定`FloatingActionButton`类并传递所需的参数来添加`floatingActionButton`属性。
+
+`FloatingActionButtons`是圆形按钮，它们悬停在屏幕内容的顶部。 通常，一个屏幕应该包含一个位于右下角的 FAB，并且不受内容滚动的影响。
+
+`onPressed`被添加到`chooseImageGallery`，按下该按钮将被调用。 接下来，我们添加`tooltip`属性，其`String`值为`'Pick Image'`，描述按钮将执行的操作。 最后，我们将`Icon(Icons.image)`添加为`child`，将材质图标图像放置在 FAB 的顶部。
+
+# 添加功能
+
+现在，让我们添加功能，以允许用户从设备的图库中选择图像。 我们将使用`image_picker`插件来执行此操作，并且整个代码将放置在`chooseImageGallery`方法内，如下所示：
+
+1.  首先，将依赖项添加到`pubspec.yaml`文件，指定名称和版本号，如下所示：
+
+```py
+dev_dependencies:
+flutter_test:
+sdk: flutter
+image_picker: ^0.6.0
+```
+
+有关发布依赖关系的详细讨论，请参阅“第 2 章”，“移动视觉–使用设备上模型的面部检测”。 确保运行`Flutter`包以在项目中包含依赖项。 要了解有关`image_picker`插件的更多信息，请访问[这里](https://github.com/flutter/plugins/tree/master/packages/image_picker)。
+
+2.  将库导入到`PlantSpeciesRecognition.dart`中，如下所示：
+
+```py
+import 'package:image_picker/image_picker.dart';
+```
+
+3.  此时，我们在`plant_species_recognition.dart`内声明以下两个全局变量：
+
+*   `File_image`：存储从图库中选择的图像文件
+*   `bool _busy`（初始值为`false`）：一个用于平滑处理 UI 操作的标志变量
+
+4.  现在，让我们定义按下`FloatingActionButton`按钮时将调用的`chooseImageGallery()`方法，如下所示：
+
+```py
+Future chooseImageGallery() async {
+    var image = await ImagePicker.pickImage(source: ImageSource.gallery);
+    if (image == null) return;
+    setState(() {
+        _busy = true;
+    });
+}
+```
+
+在这里，我们使用`ImagePicker.pickImage()`方法通过将其作为来源来从图库中获取图像。 我们将返回的值存储在变量图像中。 如果从调用返回的值为`null`，则由于无法对`null`值执行进一步的操作，因此我们返回了该调用。 否则，请将`_busy`的值更改为`true`，以指示正在对该图像进行进一步的操作。
+
+`setState()`是一个同步回调，用于通知框架对象的内部状态已更改。 此更改可能实际上会影响应用的 UI，因此，框架将需要安排`State`对象的构建。 [请参阅以下链接以进行进一步讨论](https://api.flutter.dev/flutter/widgets/State/setState.html)。
+
+此时，该应用已成功编译，然后按 FAB 启动画廊，可以从中选择图像。 但是，所选的图像不会显示在屏幕上，因此，现在让我们开始吧。
+
+# 在屏幕上显示所选图像
+
+现在，让我们添加一个小部件以显示在上一节中选择的图像，如下所示：
+
+1.  我们将使用小部件列表，从图库中选择的图像以及彼此堆叠或重叠的预测结果显示在屏幕上。 因此，我们首先声明一个空的小部件列表，其中将包含栈的所有子级。 另外，我们声明一个`size`实例，以使用`MediaQuery`类查询包含应用的窗口的大小，如下所示：
+
+```py
+List<Widget> stackChildren = [];
+Size size = MediaQuery.of(context).size;
+```
+
+2.  现在，将图像添加为栈的第一个子项，如下所示：
+
+```py
+stackChildren.add(Positioned(
+    top: 0.0,
+    left: 0.0,
+    width: size.width,
+    child: _image == null ?Text('No Image Selected') : Image.file(_image),
+));
+```
+
+`Positioned`类用于控制栈的子代的位置。 在这里，通过指定`top`，`left`和`width`属性的值。 `top`和`left`值分别指定子项的顶部和左侧边缘与栈顶部和左侧边缘的距离，此处为 0，即设备屏幕的左上角 。 `width`值指定子项的宽度-此处是包含应用的窗口的宽度，这意味着图像将占据整个宽度。
+
+3.  接下来，我们将添加子项，该子项将是一个文本，如果`_image`的值为`null`，则表示未选择任何图像； 否则，它包含用户选择的图像。
+
+为了在屏幕上显示栈，我们将`stackChildren`列表添加为`build()`方法返回的`Scaffold`的主体，如下所示：
+
+```py
+return Scaffold(
+    appBar: AppBar(
+      title: const Text('Plant Species Recognition'),
+    ),
+    //Add stackChildren in body
+    body: Stack(
+      children: stackChildren,
+    ),
+    floatingActionButton: FloatingActionButton(
+      onPressed: chooseImageGallery,
+      tooltip: 'Pick Image',
+      child: Icon(Icons.image),
+    ),
+  );
+```
+
+在前面的代码中，我们在`Stack()`内部传递`stackChildren`，以创建包含在列表内的所有小部件的覆盖结构。
+
+4.  此时编译代码将产生以下结果：
+
+![](img/eeaa7923-cfe1-48c9-980b-32bea0bf994d.png)
+
+此时，单击`FAB`将启动图库，并且所选图像将显示在屏幕上。
+
+接下来，我们将在设备上加载 TensorFlow Lite 模型，并向 Cloud Vision API 发出 HTTP 请求，以在所选图像上获得识别结果。
+
+# 运行图像识别
+
+现在，从图库中选择的图像可用作 Cloud Vision API 和 TensorFlow Lite 模型的两种预测方法的输入。 接下来，让我们定义两种方法。
+
+# 使用 Cloud Vision API
+
+在本节中，我们简单地定义一个`visionAPICall`方法，该方法用于向 CloudVision API 发出`http Post`请求，传入编码为`json`的请求字符串，该字符串返回一个`json`响应，该响应被解析以获取所需标签中的值：
+
+1.  首先，我们在`pubspec.yaml`文件中定义一个`http`插件依赖项，如下所示：
+
+```py
+http: ^0.12.0+2
+```
+
+2.  将插件导入`PlantSpeciesRecognition.dart`，以帮助发出`http`请求，如下所示：
+
+```py
+import 'package:http/http.dart' as http;
+```
+
+3.  现在，我们定义创建请求 URL 并发出`http` `POST`请求的方法，如下所示：
+
+```py
+List<int> imageBytes = _image.readAsBytesSync();
+String base64Image = base64Encode(imageBytes);
+```
+
+为了能够将图像文件与 HTTP 发布请求一起发送进行分析，我们需要将`png`文件转换为 Base64 格式，即，转换为仅包含**美国信息交换标准码**（**ASCII**）的字符串值。 首先，我们使用`readAsByteSync()`读取`_image`的内容作为字节列表并将其存储在`imageBytes`中。 然后，通过将`imageBytes`列表作为`base64Encode`的参数传递给我们，以 Base64 格式对该列表进行编码。
+
+4.  接下来，我们创建请求字符串，其格式如下：
+
+```py
+var request_str = {
+  "requests":[
+    {
+      "image":{
+        "content": "$base64Image"
+      },
+      "features":[
+        {
+          "type":"LABEL_DETECTION",
+          "maxResults":1
+        }
+      ]
+    }
+  ]
+};
+```
+
+虽然整个字符串将被硬编码，但是内容密钥的值将根据用户选择的图像及其 base64 编码格式而有所不同。
+
+5.  我们将需要调用的 URL 存储在`url`变量中，如下所示：
+
+```py
+var url = 'https://vision.googleapis.com/v1/images:annotate?key=API_KEY;
+```
+
+确保用您生成的密钥替换`API_KEY`。
+
+6.  使用`http.post()`方法发出 HTTP 发布请求，并传入`url`和响应字符串，如下所示：
+
+```py
+var response = await http.post(url, body: json.encode(request_str));
+print('Response status: ${response.statusCode}');
+print('Response body: ${response.body}');
+```
+
+我们还使用`response.statusCode`检查状态码，如果请求成功，则状态码应为`200`。
+
+7.  由于来自服务器的响应是 JSON 格式，因此我们使用`json.decode()`对其进行解码，然后进一步解析它，以将所需的值存储在`str`变量中，如下所示：
+
+```py
+var responseJson = json.decode(response.body);
+str = '${responseJson["responses"][0]["labelAnnotations"][0]["description"]}: ${responseJson["responses"][0]["labelAnnotations"][0]["score"].toStringAsFixed(3)}';
+```
+
+8.  将所有内容放在一起后，整个`visionAPICall()`方法将如下所示：
+
+```py
+Future visionAPICall() async {
+List<int> imageBytes = _image.readAsBytesSync();
+print(imageBytes);
+String base64Image = base64Encode(imageBytes);
+var request_str = {
+  "requests":[
+    {
+      "image":{
+        "content": "$base64Image"
+      },
+      "features":[
+        {
+          "type":"LABEL_DETECTION",
+          "maxResults":1
+        }
+      ]
+    }
+  ]
+};
+var url = 'https://vision.googleapis.com/v1/images:annotate?key=AIzaSyDJFPQO3N3h78CLOFTBdkPIN3aE9_ZYHy0';
+
+var response = await http.post(url, body: json.encode(request_str));
+print('Response status: ${response.statusCode}');
+print('Response body: ${response.body}');
+
+var responseJson = json.decode(response.body);
+str = '${responseJson["responses"][0]["labelAnnotations"][0]["description"]}: ${responseJson["responses"][0]["labelAnnotations"][0]["score"].toStringAsFixed(3)}';
+}
+```
+
+在下一节中，我们将介绍使用设备上 TensorFlow Lite 模型的步骤。
+
+# 使用设备上的 TensorFlow Lite 模型
+
+现在，让我们为用户的第二选择添加功能，即使用 TensorFlow Lite 模型分析所选图像。 在这里，我们将使用我们先前创建的 TensorFlow Lite 模型。 以下步骤详细讨论了如何使用设备上的 TensorFlow Lite 模型：
+
+1.  我们将从在`pubspec.yaml`文件中添加`tflite`依赖关系开始，如下所示：
+
+```py
+dev_dependencies:
+flutter_test:
+  sdk: flutter
+image_picker: ^0.6.0
+//Adding tflite dependency
+tflite: ^0.0.5
+```
+
+2.  接下来，我们在 Android 中配置`aaptOptions`。 将以下代码行添加到`android`块内的`android/app/build.gradle`文件中：
+
+```py
+aaptOptions {
+       noCompress 'tflite'
+       noCompress 'lite'
+   }
+```
+
+前面的代码段确保`tflite`文件未以压缩形式存储在 **Android 应用包**（**APK**）中。
+
+3.  接下来，我们需要将已经保存的`model.tflite`和`labels.txt`文件包括在`assests`文件夹中，如以下屏幕截图所示：
+
+![](img/bda97e78-3717-4a7b-9ab6-980f3be77066.png)
+
+4.  在`pubspec.yaml`文件中指定文件的路径，如下所示：
+
+```py
+flutter:
+uses-material-design: true
+//Specify the paths to the respective files
+assets:
+  - assets/model.tflite
+  - assets/labels.txt
+```
+
+5.  现在，我们都准备从在设备上加载并运行我们的第一个 TensorFlow Lite 模型开始。 首先，将`tflite.dart`文件导入到`PlantSpeciesRecognition.dart`中，如下所示：
+
+```py
+import 'package:tflite/tflite.dart';
+```
+
+6.  为了执行所有相关任务，我们定义了`analyzeTFLite()`方法。 在这里，我们从加载模型开始，将`model.tflite`文件和`labels.txt`文件作为输入传递给`Tflite.loadModel()`中的`model`和`labels`参数。
+
+如果成功加载模型，我们将结果输出存储在`res`字符串变量中，该变量将包含`success`值，如下所示：
+
+```py
+String res = await Tflite.loadModel(
+    model: "assets/model.tflite",
+    labels: "assets/labels.txt",
+    numThreads: 1 // defaults to 1
+);
+print('Model Loaded: $res'); 
+```
+
+7.  现在，我们使用`Tflite.runModelOnImage()`方法在图像上运行模型，并传递存储在设备内部的所选图像的路径。 我们将结果存储在`recognitions`变量中，如下所示：
+
+```py
+var recognitions = await Tflite.runModelOnImage(
+    path: _image.path
+);
+setState(() {
+    _recognitions = recognitions;
+});
+```
+
+8.  一旦模型在图像上成功运行并将结果存储在`recognitions`局部变量中，我们将创建`_recognitions`全局列表并将其状态设置为`recognitions`中存储的值，以便可以更新 UI 结果正确。
+
+    将所有内容放在一起后，整个`analyzeTfLite()`方法将如下所示：
+
+```py
+Future analyzeTFLite() async {
+    String res = await Tflite.loadModel(
+        model: "assets/model.tflite",
+        labels: "assets/labels.txt",
+        numThreads: 1 // defaults to 1
+    );
+    print('Model Loaded: $res');
+    var recognitions = await Tflite.runModelOnImage(
+        path: _image.path
+    );
+    setState(() {
+        _recognitions = recognitions;
+    });
+    print('Recognition Result: $_recognitions');
+}
+```
+
+在成功选择并存储图像后，取决于用户单击的按钮，这是由`visionAPICall()`和`analyzeTFLite()`这两个定义的方法从`chooseImageGallery()`调用的，这取决于传递给窗口的值。 `PlantSpeciesRecognition`构造器：Cloud Vision API 为 0，TensorFlow Lite 为 1。
+
+修改后的`chooseImagGallery()`方法如下所示：
+
+```py
+Future chooseImageGallery() async {
+    var image = await ImagePicker.pickImage(source: ImageSource.gallery);
+    if (image == null) return;
+    setState(() {
+      _busy = true;
+      _image = image;
+    });
+
+    //Deciding on which method should be chosen for image analysis
+    if(widget.modelType == 0)
+      await visionAPICall();
+    else if(widget.modelType == 1)
+      await analyzeTFLite();
+    setState(() {
+      _image = image;
+      _busy = false;
+    });
+}
+```
+
+在方法调用之前提到`await`关键字，以确保所有操作都是异步进行的。 在这里，我们还将`_image`的值设置为`image`，将`_busy`的值设置为`false`，以指示所有处理已完成，并且现在可以更新 UI。
+
+# 用结果更新用户界面
+
+在上一节“创建用户界面”中，我们通过向`stackChildren`添加一个额外的子代来更新 UI，以显示用户选择的图像。 现在，我们将另一个子项添加到栈中以显示图像分析的结果，如下所示：
+
+1.  首先，我们将添加 Cloud Vision API 的结果，如下所示：
+
+```py
+stackChildren.add( Center (
+  child: Column(
+    children: <Widget>[
+      str != null?
+      new Text(str,
+          style: TextStyle(
+            color: Colors.black,
+            fontSize: 20.0,
+            background: Paint()
+              ..color = Colors.white,
+              )
+          ): new Text('No Results')
+        ],
+      )
+    )
+);
+```
+
+回想一下，请求的 JSON 响应已被解析，格式化并存储在`str`变量中。 在这里，我们使用`str`的值创建具有指定颜色和背景的`Text`。 然后，我们将此`Text`作为子级添加到列中，并对齐`Text`以显示在屏幕中央。 最后，我们将整个格式包装在`stackChildren.add()`周围，以将其添加到 UI 元素栈中。
+
+2.  接下来，我们将添加 TensorFlow Lite 的结果，如下所示：
+
+```py
+stackChildren.add(Center(
+child: Column(
+  children: _recognitions != null
+      ? _recognitions.map((res) {
+    return Text(
+      "${res["label"]}: ${res["confidence"].toStringAsFixed(3)}",
+      style: TextStyle(
+        color: Colors.black,
+        fontSize: 20.0,
+        background: Paint()
+          ..color = Colors.white,
+      ),
+    );
+  }).toList() : [],
+),
+));
+```
+
+`_recognitions`列表中存储的 TensorFlow Lite 模型的结果逐元素进行迭代，并映射到使用`.map()`指定的列表。 列表中的每个元素都将进一步转换为`Text`，并作为与屏幕中心对齐的列子元素添加。
+
+此外，请注意，需要将 Cloud Vision API 的输出或 TensorFlow Lite 模型的输出添加到栈中。 为了确保这一点，我们将前面的代码包装在`if-else`块中，这样，如果在构造器中传递的值（即`modelChosen`）为 0，则添加前者的输出；如果该值是，则添加后者的输出。 是 1。
+
+3.  最后，在各种图像集上运行 Cloud Vision API 将提供不同的输出。 以下屏幕快照显示了一些示例：
+
+![](img/1727eda3-5ec9-4621-8c1b-2d6d8c63b1f6.png)
+
+当 TensorFlow Lite 模型使用相同的图像集时，识别方式会有所不同。 以下屏幕快照显示了一些示例：
+
+![](img/23f29672-39ba-4383-b4a1-b5fa7c90fd5b.png)
+
+在上一个屏幕截图中，我们可以看到已正确识别将图像加载到图库中的花朵的种类。
+
+# 总结
+
+在本章中，我们介绍了如何使用流行的基于深度学习的 API 服务来使用图像处理。 我们还讨论了如何通过扩展先前创建的基础模型，将其与定制训练模型一起应用。 虽然我们没有明确提及，但是基础模型的扩展是称为**迁移学习**（**TL**）的过程的一部分，其中将在特定数据集上训练的模型导入并用在完全不同的场景中，几乎没有或只有很少的微调。
+
+此外，本章还介绍了 TensorFlow Lite 为什么以及何时适合用于构建模型，以及如何将 Flutter 应用于在离线运行且非常快速的设备模型上进行应用。 本章设定了里程碑，在项目中引入了 Python 和 TensorFlow，在接下来的章节中将广泛使用这两种方法。
+
+在下一章中，我们将介绍计算机科学的一个非常激动人心的领域，即增强现实，并介绍深度学习在现实世界中的应用。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/05.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/05.md
new file mode 100644
index 00000000..47a66ef6
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/05.md
@@ -0,0 +1,1085 @@
+# 五、从摄像机源生成实时字幕
+
+作为人类，我们每天在不同的场景中看到一百万个物体。 对于人类来说，描述场景通常是一件微不足道的任务：我们所做的事情甚至都不需要花费大量的时间去思考。 但是，机器要理解图像或视频等视觉媒体中呈现给它的元素和场景是一项艰巨的任务。 但是，对于**人工智能**（**AI**）的几种应用，具有在计算机系统中理解此类图像的功能很有用。 例如，如果我们能够设计出可以将周围环境实时转换为音频的机器，则对视障人士将大有帮助。 此外，研究人员一直在努力实时生成图像和视频的字幕，以提高网站和应用上呈现的内容的可访问性。
+
+本章介绍了一种使用摄像机供稿实时生成自然语言字幕的方法。 在此项目中，您将创建一个使用存储在设备上的自定义预训练模型的相机应用。 该模型使用深层**卷积神经网络**（**CNN**）和**长短期记忆**（**LSTM**）生成字幕。
+
+我们将在本章介绍以下主题：
+
+*   设计项目架构
+*   了解图像字幕生成器
+*   了解相机插件
+*   创建相机应用
+*   从相机源生成图像字幕
+*   创建材质应用
+
+让我们从讨论此项目将要遵循的架构开始。
+
+# 设计项目架构
+
+在这个项目中，我们将构建一个移动应用，当指向任何风景时，它将能够创建描述该风景的标题。 这样的应用对于有视觉缺陷的人非常有用，因为它既可以用作网络上的辅助技术，又可以与 Alexa 或 Google Home 等语音界面搭配使用，用作日常应用。 该应用将调用一个托管 API，该 API 将为传递给它的任何给定图像生成标题。 API 返回该图像的三个最佳字幕，然后该应用将其显示在应用中相机视图的正下方。
+
+从鸟瞰图可以通过下图说明项目架构：
+
+![](img/2dadabff-2c46-4773-aee1-25199176674b.png)
+
+输入将是在智能手机中获得的相机提要，然后将其发送到托管为网络 API 的图像标题生成模型。 该模型在 Red Hat OpenShift 上作为 Docker 容器托管。 图像标题生成模型返回图像的标题，然后将其显示给用户。
+
+有了关于如何构建应用的清晰思路，让我们首先讨论图像字幕的问题以及如何解决它们。
+
+# 了解图像字幕生成器
+
+计算机科学的一个非常流行的领域是图像处理领域。 它涉及图像的操纵以及我们可以从中提取信息的各种方法。 另一个流行的领域是**自然语言处理**（**NLP**），涉及如何制造可以理解和产生有意义的自然语言的机器。 图像标题定义了两个主题的混合，试图首先提取出现在任何图像中的对象的信息，然后生成描述对象的标题。
+
+标题应以有意义的字串形式生成，并以自然语言句子的形式表示。
+
+考虑下图：
+
+![](img/a4a7bb51-fa61-42b2-abba-47ece9307ad2.png)
+
+图像中可以检测到的物体如下：勺子，玻璃杯，咖啡和桌子。
+
+但是，我们对以下问题有答案吗？
+
+1.  杯子里装着咖啡还是汤匙，还是空的？
+2.  桌子在玻璃上方还是下方？
+3.  汤匙在桌子上方还是下方？
+
+我们意识到，为了回答上述问题，我们需要使用如下语句：
+
+1.  杯子里装着咖啡。
+2.  玻璃放在桌子上。
+3.  汤匙放在桌子上。
+
+因此，如果我们试图在图像周围创建标题，而不是简单地识别图像中的项目，我们还需要在可见项目之间建立一些位置和特征关系。 这将帮助我们获得良好的图像标题，例如**一杯咖啡在桌子上，旁边放着勺子**。 在图像标题生成算法中，我们尝试从图像创建此类标题。
+
+但是，一个字幕可能并不总是足以描述风景，我们可能必须在两个可能相同的字幕之间进行选择，如以下屏幕截图所示：
+
+![](img/5a760017-e013-491f-8421-801968594401.png)
+
+Allef Vinicius 在 Unsplash 上​​的照片
+
+您如何在前面的屏幕快照中描述图像？
+
+您可以提出以下任何标题：
+
+1.  背景中有两棵树和多云的天空。
+2.  一把椅子和一把吉他放在地上。
+
+根据用户，这提出了在任何图像中重要的问题。 尽管最近有一些设计用于处理这种情况的方法，例如“注意机制”方法，但在本章中我们将不对其进行深入讨论。
+
+您可以在 CaptionBot 的[这个页面](https://www.captionbot.ai/)上查看由 Microsoft 创建的图像字幕系统的非常酷的演示。
+
+现在让我们定义将用于创建图像字幕模型的数据集。
+
+# 了解数据集
+
+不出所料，我们需要大量的通用图像以及可能列出的标题。 我们已经在上一节“了解图像字幕生成器”中显示，单个图像可以具有多个字幕，而不必任何一个都错了。 因此，在这个项目中，我们将研究 Flickr8k 数据集。 除此之外，我们还需要由 Jeffrey Pennington，Richard Socher 和 Christopher D. Manning 创建的 GloVE 嵌入。 简而言之，GloVE 告诉我们在给定单词之后可能跟随哪些单词，从而帮助我们从一组不连续的单词中形成有意义的句子。
+
+您可以在[这个页面](https://nlp.stanford.edu/projects/glove/)上阅读有关 GloVE 嵌入的更多信息，以及描述它们的论文。
+
+Flickr8k 数据集包含 8,000 个图像样本，以及每个图像的五个可能的标题。 还有其他可用于该任务的数据集，例如具有 30,000 个样本的 Flickr30k 数据集，或具有 180,000 张图像的 Microsoft COCO 数据集。 虽然使用较大的数据库会产生更好的结果，但是为了能够在普通机器上训练模型，我们将不再使用它们。 但是，如果可以使用高级计算能力，则可以肯定地尝试围绕较大的数据集构建模型。
+
+[您可以通过伊利诺伊大学厄本那香槟分校提供的以下格式的请求来下载 Flickr8k 数据集](https://forms.illinois.edu/sec/1713398)。
+
+下载数据集时，您将能够看到以下文件夹结构：
+
+```py
+Flickr8k/
+    - dataset
+        - images
+            - 8091 images
+    - text
+        - Flickr8k.token.txt
+        - Flickr8k.lemma.txt
+        - Flickr_8k.trainImages.txt 
+        - Flickr_8k.devImages.txt
+        - Flickr_8k.testImages.txt 
+        - ExpertAnnotations.txt
+        - CrowdFlowerAnnotations.txt 
+
+```
+
+在可用的文本文件中，我们感兴趣的是`Flickr8k.token.txt`，其中包含`dataset`目录下`images`文件夹中每个图像的原始标题。
+
+字幕以以下格式显示：
+
+```py
+1007129816_e794419615.jpg#0 A man in an orange hat staring at something .
+1007129816_e794419615.jpg#1 A man wears an orange hat and glasses .
+1007129816_e794419615.jpg#2 A man with gauges and glasses is wearing a Blitz hat .
+1007129816_e794419615.jpg#3 A man with glasses is wearing a beer can crocheted hat .
+1007129816_e794419615.jpg#4 The man with pierced ears is wearing glasses and an orange hat .
+```
+
+通过检查，我们可以观察到前面示例中的每一行都包含以下部分：
+
+```py
+Image_Filename#Caption_Number Caption
+```
+
+因此，通过浏览`dataset/images`文件夹中存在的图像的文件中的每一行，我们可以将标题映射到每个图像。
+
+现在开始处理图像标题生成器代码。
+
+# 建立图像字幕生成模型
+
+在本节中，我们将看一看代码，这些代码将帮助我们创建一个管道，以将抛出该图像的图像转换为字幕。 我们将本节分为四个部分，如下所示：
+
+1.  初始化字幕数据集
+2.  准备字幕数据集
+3.  训练
+4.  测试
+
+让我们从项目初始化开始。
+
+# 初始化字幕数据集
+
+在本节介绍的步骤中，我们将导入项目所需的模块并将数据集加载到内存中。 让我们从导入所需的模块开始，如下所示：
+
+1.  导入所需的库，如下所示：
+
+```py
+import numpy as np
+import pandas as pd
+
+import nltk
+from nltk.corpus import stopwords
+
+import re
+import string
+import pickle
+
+import matplotlib.pyplot as plt
+
+%matplotlib inline
+```
+
+您会看到在这个项目中将使用许多模块和子模块。 在模型的运行中，它们都非常重要，从本质上讲，帮助器模块也是如此。 下一步，我们将导入更多特定于构建模型的模块。
+
+2.  导入 Keras 和子模块，如下所示：
+
+```py
+import keras
+from keras.layers.merge import add
+from keras.preprocessing import image
+from keras.utils import to_categorical
+from keras.models import Model, load_model
+from keras.applications.vgg16 import VGG16
+from keras.preprocessing.sequence import pad_sequences
+from keras.layers import Input, Dense, Dropout, Embedding, LSTM
+from keras.applications.resnet50 import ResNet50, preprocess_input, decode_predictions
+```
+
+我们导入了 Keras 模块以及其他几个子模块和方法，以帮助我们快速构建深度学习模型。 Keras 是可用的最受欢迎的深度学习库之一，除 TensorFlow 外，还可以与 Theano 和 PyTorch 等其他框架一起使用。
+
+3.  加载字幕-在这一步中，我们将`Flickr8k.token.txt`文件中存在的所有字幕加载到单个`captions`列表中，如下所示：
+
+```py
+caption_file = "./data/Flickr8k/text/Flickr8k.token.txt"
+
+captions = []
+
+with open(caption_file) as f:
+    captions = f.readlines()
+
+captions = [x.strip() for x in captions]
+```
+
+从文件加载所有标题后，让我们看看它们包含的内容，如下所示：
+
+```py
+captions[:5]
+```
+
+正如预期的那样，并在前面的“了解数据集”部分中提到，我们获得了数据集中的以下前五行：
+
+```py
+['1000268201_693b08cb0e.jpg#0\tA child in a pink dress is climbing up a set of stairs in an entry way .',
+ '1000268201_693b08cb0e.jpg#1\tA girl going into a wooden building .',
+ '1000268201_693b08cb0e.jpg#2\tA little girl climbing into a wooden playhouse .',
+ '1000268201_693b08cb0e.jpg#3\tA little girl climbing the stairs to her playhouse .',
+ '1000268201_693b08cb0e.jpg#4\tA little girl in a pink dress going into a wooden cabin .']
+```
+
+既然我们已经看到了写入每一行的模式，那么我们就可以继续分割每一行，以便可以将数据放入数据结构中，这比一大串字符串有助于更快地访问和更新。
+
+# 准备字幕数据集
+
+在以下步骤中，我们将处理加载的字幕数据集，并将其转换为适合对其进行训练的形式：
+
+1.  在此步骤中，我们将图像描述拆分并以字典格式存储，以方便将来的代码中使用，如以下代码块所示：
+
+```py
+descriptions = {}
+
+for x in captions:
+    imgid, cap = x.split('\t')
+    imgid = imgid.split('.')[0]
+
+    if imgid not in descriptions.keys():
+        descriptions[imgid] = []
+
+    descriptions[imgid].append(cap)
+```
+
+在前面的代码行中，我们将文件中的每一行细分为图像 ID 和每个图像标题的部分。 我们用它创建了一个字典，其中图像 ID 是字典键，每个键值对都包含五个标题的列表。
+
+2.  接下来，我们开始进行基本的字符串预处理，以便继续在字幕上应用自然语言技术，如下所示：
+
+```py
+for key, caps in descriptions.items():
+    for i in range(len(caps)):
+        caps[i] = caps[i].lower()
+        caps[i] = re.sub("[^a-z]+", " ", caps[i])
+```
+
+3.  另外，为了帮助我们将来分配合适的内存空间大小并准备词汇表，让我们创建标题文本中所有单词的列表，如下所示：
+
+```py
+allwords = []
+
+for key in descriptions.keys():
+    _ = [allwords.append(i) for cap in descriptions[key] for i in cap.split()]
+```
+
+4.  一旦创建了所有单词的列表，就可以创建单词的频率计数。 为此，我们使用`collections`模块的`Counter`方法。 一些单词在数据集中很少出现。 删除这些单词是一个好主意，因为它们不太可能频繁出现在用户提供的输入中，因此不会为字幕生成算法增加太多价值。 我们使用以下代码进行操作：
+
+```py
+from collections import Counter
+
+freq = dict(Counter(allwords))
+freq = sorted(freq.items(), reverse=True, key=lambda x:x[1])
+
+threshold = 15
+freq = [x for x in freq if x[1]>threshold]
+
+print(len(freq))
+
+allwords = [x[0] for x in freq]
+```
+
+让我们通过运行以下代码来尝试查看最常用的单词：
+
+```py
+freq[:10]
+```
+
+我们看到以下输出：
+
+```py
+[('a', 62995),
+ ('in', 18987),
+ ('the', 18420),
+ ('on', 10746),
+ ('is', 9345),
+ ('and', 8863),
+ ('dog', 8138),
+ ('with', 7765),
+ ('man', 7275),
+ ('of', 6723)]
+```
+
+我们可以得出结论，停用词在字幕文本中占很大比例。 但是，由于我们在生成句子时需要它们，因此我们不会将其删除。
+
+# 训练
+
+在以下步骤中，我们加载训练并测试图像数据集并对其进行训练：
+
+1.  现在，将分离的训练和测试文件加载到数据集中。 它们包含图像文件名列表，它们实际上是带有文件扩展名的图像 ID，如以下代码块所示：
+
+```py
+train_file = "./data/Flickr8k/text/Flickr_8k.trainImages.txt"
+test_file = "./data/Flickr8k/text/Flickr_8k.testImages.txt"
+```
+
+现在，我们将处理训练图像列表文件以提取图像 ID，并省略文件扩展名，因为在所有情况下它都相同，如以下代码片段所示：
+
+```py
+with open(train_file) as f:
+    cap_train = f.readlines()
+
+cap_train = [x.strip() for x in cap_train]
+```
+
+我们对测试图像列表进行相同的操作，如下所示：
+
+```py
+with open(test_file) as f:
+    cap_test = f.readlines()
+
+cap_test = [x.strip() for x in cap_test]
+
+train = [row.split(".")[0] for row in cap_train]
+test = [row.split(".")[0] for row in cap_test]
+```
+
+2.  现在，我们将创建一个字符串，其中合并每个图像的所有五个可能的标题，并将它们存储在`train_desc`中。 字典。 我们使用`#START#`和`#STOP#`区分字幕，以便将来在字幕生成中使用它们，如以下代码块所示：
+
+```py
+train_desc = {}
+max_caption_len = -1
+
+for imgid in train:
+    train_desc[imgid] = []
+    for caption in descriptions[imgid]:
+        train_desc[imgid].append("#START# " + caption + " #STOP#")
+        max_caption_len = max(max_caption_len, len(caption.split())+1)
+```
+
+3.  我们将使用 Keras 模型资源库中的`ResNet50`预训练模型。 我们将输入形状设置为`224 x 224 x 3`，其中`224 x 244`是将传递给模型的每个图像的尺寸，而 3 是颜色通道的数量。 请注意，与**美国国家混合标准技术研究院**（**MNIST**）数据集不同，在该数据集中每个图像的尺寸均相等，而 Flickr8k 数据集则并非如此。 该代码可以在以下代码段中看到：
+
+```py
+model = ResNet50(weights="imagenet", input_shape=(224,224,3))
+model.summary()
+```
+
+从高速缓存中下载或加载模型后，将为每个层显示模型摘要。 但是，我们需要根据需要重新训练模型，因此我们将删除并重新创建模型的最后两层。 为此，我们使用与加载的模型相同的输入来创建一个新模型，并且输出等效于倒数第二层的输出，如以下代码片段所示：
+
+```py
+model_new = Model(model.input, model.layers[-2].output)
+```
+
+4.  我们将需要一个函数来重复预处理图像，预测图像中包含的特征，并根据图像中识别出的对象或属性形成特征向量。 因此，我们创建一个`encode_image`函数，该函数接受图像作为输入参数，并通过`ResNet50`重新训练的模型运行图像，从而返回图像的特征向量表示，如下所示：
+
+```py
+def encode_img(img):
+    img = image.load_img(img, target_size=(224,224))
+    img = image.img_to_array(img)
+    img = np.expand_dims(img, axis=0)
+
+    img = preprocess_input(img)
+    feature_vector = model_new.predict(img)
+
+    feature_vector = feature_vector.reshape((-1,))
+    return feature_vector
+```
+
+5.  现在，我们需要将数据集中的所有图像编码为特征向量。 为此，我们首先需要将数据集中的所有图像一张一张地加载到内存中，并对其应用`encode_img`函数。 首先，设置`images`文件夹的路径，如以下代码片段所示：
+
+```py
+img_data = "./data/Flickr8k/dataset/images/"
+```
+
+完成后，我们使用先前创建的训练图像列表遍历文件夹中的所有图像，并对每个图像应用`encode_img`函数。 然后，将特征向量存储在以图像 ID 为键的字典中，如下所示：
+
+```py
+train_encoded = {}
+
+for ix, imgid in enumerate(train):
+    img_path = img_data + "/" + imgid + ".jpg"
+
+    train_encoded[imgid] = encode_img(img_path)
+
+    if ix%100 == 0:
+        print(".", end="")
+```
+
+我们类似地使用以下代码对测试数据集中的所有图像进行编码：
+
+```py
+test_encoded = {}
+
+for i, imgid in enumerate(test):
+    img_path = img_data + "/" + imgid + ".jpg"
+
+    test_encoded[imgid] = encode_img(img_path)
+
+    if i%100 == 0:
+        print(".", end="")
+```
+
+6.  在接下来的几个步骤中，我们需要将加载的 GloVe 嵌入与项目中包含的单词列表进行匹配。 为此，我们当然必须找到任何给定单词的索引或在任何给定索引处找到该单词。 为方便起见，我们将在字幕数据集中找到的所有单词创建两个字典，将它们映射到索引和索引之间，如以下代码片段所示：
+
+```py
+word_index_map = {}
+index_word_map = {}
+
+for i,word in enumerate(allwords):
+    word_index_map[word] = i+1
+    index_word_map[i+1] = word
+```
+
+我们还将在两个字典中分别使用`"#START#"`和`"#STOP#"`字创建两个附加的键值对，如下所示：
+
+```py
+index_word_map[len(index_word_map)] = "#START#"
+word_index_map["#START#"] = len(index_word_map)
+
+index_word_map[len(index_word_map)] = "#STOP#"
+word_index_map["#STOP#"] = len(index_word_map)
+```
+
+7.  现在，将 GloVe 嵌入内容加载到项目中，如下所示：
+
+```py
+f = open("./data/glove/glove.6B.50d.txt", encoding='utf8')
+```
+
+使用发现`open`，我们将嵌入内容读入字典，其中每个词都是键，如下所示：
+
+```py
+embeddings = {}
+
+for line in f:
+    words = line.split()
+    word_embeddings = np.array(words[1:], dtype='float')
+
+    embeddings[words[0]] = word_embeddings
+```
+
+读取完`embeddings`文件后，我们将其关闭以实现更好的内存管理，如下所示：
+
+```py
+f.close()
+```
+
+8.  现在，让我们在数据集中的标题中的所有单词与 GloVe 嵌入之间创建嵌入矩阵，如以下代码块所示：
+
+```py
+embedding_matrix = np.zeros((len(word_index_map) + 1, 50))
+for word, index in word_index_map.items():
+    embedding_vector = embeddings.get(word)
+
+    if embedding_vector is not None:
+        embedding_matrix[index] = embedding_vector
+```
+
+请注意，我们存储的最大嵌入数量为 50，这对于生成长而有意义的字符串是足够的。
+
+9.  接下来，我们将创建另一个模型，该模型将在从之前的步骤中获取特征向量后，专门用于为看不见的图像生成标题。 为此，我们将特征向量的形状作为输入来创建`Input`层，如以下代码块所示：
+
+```py
+in_img_feats = Input(shape=(2048,))
+in_img_1 = Dropout(0.3)(in_img_feats)
+in_img_2 = Dense(256, activation='relu')(in_img_1)
+```
+
+完成后，我们还需要以 LSTM 的形式在整个训练数据集中的标题中输入单词，以便给定任何单词，我们都能够预测接下来的 50 个单词。 我们使用以下代码进行操作：
+
+```py
+in_caps = Input(shape=(max_caption_len,))
+in_cap_1 = Embedding(input_dim=len(word_index_map) + 1, output_dim=50, mask_zero=True)(in_caps)
+in_cap_2 = Dropout(0.3)(in_cap_1)
+in_cap_3 = LSTM(256)(in_cap_2)
+```
+
+最后，我们需要添加一个`decoder`层，该层以 LSTM 的形式接受图像特征和单词，并在字幕生成过程中输出下一个可能的单词，如下所示：
+
+```py
+decoder_1 = add([in_img_2, in_cap_3])
+decoder_2 = Dense(256, activation='relu')(decoder_1)
+outputs = Dense(len(word_index_map) + 1, activation='softmax')(decoder_2)
+```
+
+现在，通过运行以下代码，在适当添加输入和输出层之后，让我们对该模型进行总结：
+
+```py
+model = Model(inputs=[in_img_feats, in_caps], outputs=outputs)
+model.summary()
+```
+
+我们得到以下输出，描述了模型层：
+
+![](img/69760682-3198-4033-b8cf-9f86dd1f6951.png)
+
+接下来，让我们在训练模型之前设置其权重。
+
+10.  我们将在 GloVe 嵌入中的单词和数据集的标题中的可用单词之间插入我们先前创建的`embedding_matrix`，如以下代码块所示：
+
+```py
+model.layers[2].set_weights([embedding_matrix])
+model.layers[2].trainable = False
+```
+
+这样，我们就可以编译模型了，如下所示：
+
+```py
+model.compile(loss='categorical_crossentropy', optimizer='adam')
+```
+
+11.  由于数据集很大，因此我们不想在训练时将所有图像同时加载到数据集中。 为了促进模型的内存有效训练，我们使用生成器函数，如下所示：
+
+```py
+def data_generator(train_descs, train_encoded, word_index_map, max_caption_len, batch_size):
+    X1, X2, y = [], [], []
+
+    n = 0
+    while True:
+        for key, desc_list in train_descs.items():
+            n += 1
+
+            photo = train_encoded[key]
+            for desc in desc_list:
+
+                seq = [word_index_map[word] for word in desc.split() if word in word_index_map]
+                for i in range(1, len(seq)):
+                    xi = seq[0:i]
+                    yi = seq[i]
+
+                    xi = pad_sequences([xi], maxlen=max_caption_len, value=0, padding='post')[0]
+                    yi = to_categorical([yi], num_classes=len(word_index_map) + 1)[0]
+
+                    X1.append(photo)
+                    X2.append(xi)
+                    y.append(yi)
+
+                if n==batch_size:
+                    yield [[np.array(X1), np.array(X2)], np.array(y)]
+                    X1, X2, y = [], [], []
+                    n = 0
+```
+
+12.  我们现在准备训练模型。 在执行此操作之前，我们必须设置模型的一些超参数，如以下代码片段所示：
+
+```py
+batch_size = 3
+steps = len(train_desc)//batch_size
+```
+
+设置超参数后，我们可以使用以下代码行开始训练：
+
+```py
+generator = data_generator(train_desc, train_encoded, word_index_map, max_caption_len, batch_size)
+model.fit_generator(generator, epochs=1, steps_per_epoch=steps, verbose=1)
+model.save('./model_weights/model.h5')
+```
+
+# 测试
+
+现在，在以下步骤中，我们将基于前面步骤中训练的模型创建用于预测字幕的功能，并在示例图像上测试字幕：
+
+1.  我们终于到了可以使用模型生成图像标题的阶段。 我们创建了一个函数，该函数可以吸收图像并使用`model.predict`方法在每个步骤中提出一个单词，直到在预测中遇到`#STOP#`。 它在那里停止并输出生成的字幕，如下所示：
+
+```py
+def predict_caption(img):
+
+    in_text = "#START#"
+    for i in range(max_caption_len):
+        sequence = [word_index_map[w] for w in in_text.split() if w in word_index_map]
+        sequence = pad_sequences([sequence], maxlen=max_caption_len, padding='post')
+
+        pred = model.predict([img, sequence])
+        pred = pred.argmax()
+        word = index_word_map[pred]
+        in_text += (' ' + word)
+
+        if word == "#STOP#":
+            break
+
+    caption = in_text.split()[1:-1]
+
+    return ' '.join(caption)
+```
+
+2.  让我们在测试数据集中的某些图像上测试生成模型，如下所示：
+
+```py
+img_name = list(test_encoded.keys())[np.random.randint(0, 1000)]
+img = test_encoded[img_name].reshape((1, 2048))
+
+im = plt.imread(img_data + img_name + '.jpg')
+caption = predict_caption(img)
+
+print(caption)
+plt.imshow(im)
+plt.axis('off')
+plt.show()
+```
+
+假设我们将以下屏幕截图中显示的图像输入了算法：
+
+![](img/5c0923d0-7339-4ebf-b677-92d0e0dc2750.png)
+
+对于前面的屏幕快照中显示的图像，我们获得了以下生成的标题：**一只棕色的狗正穿过草丛**。 虽然标题不是很准确，但完全遗漏了图片中的第二只动物，但它的确足以确定一条棕色的狗在草地上奔跑。
+
+但是，我们训练有素的模型非常不准确，因此不适合用于生产或实验以外的用途。 您可能已经注意到，我们将训练中的周期数设置为 1，这是一个非常低的值。 这样做是为了使该程序的训练在合理的时间内完成，以供您阅读本书！
+
+在下一节中，我们将研究如何将图像字幕生成模型部署为 API 并使用它来生成实时的摄像机供稿字幕。
+
+# 创建一个简单的可单击部署的图像标题生成模型
+
+虽然我们在上一节“测试”中开发的图像标题生成模型看起来不错，但不是很好。 因此，在本节中，我们将向您展示一种方法，以单击方式将可直接用于生产环境的模型作为 Docker 映像部署在 Red Hat OpenShift 上，并由 IBM 出色的机器学习专家创建。
+
+将微服务用于在任何网站上执行的此类微小且专用的操作是一种非常普遍的做法，因此，我们将把此图像标题服务视为微服务。
+
+我们将使用的图像是 IBM 开发的 *MAX 图像字幕生成器*模型。 它基于`im2txt`模型的代码，作为 《Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge》论文的可公开使用的 TensorFlow 实现托管在 GitHub 上。
+
+在更大的 Microsoft COCO 数据集上训练了图像中使用的模型，该数据集包含超过 200,000 个带标签图像的实例，以及总共超过 300,000 个图像实例。 该数据集包含包含超过 150 万个不同对象的图像，并且是用于构建对象检测和图像标记模型的最大，最受欢迎的数据集之一。 但是，由于其巨大的尺寸，很难在低端设备上训练模型。 因此，我们将使用已经可用的 Docker 映像，而不是尝试在其上训练我们的模型。 但是，项目章节前面各节中描述的方法与 Docker 映像中的代码所使用的方法非常相似，并且在有足够的可用资源的情况下，您绝对可以尝试训练并提高模型的准确率。
+
+[您可以在以下链接中查看有关此 Docker 映像项目的所有详细信息](https://developer.ibm.com/exchanges/models/all/max-image-caption-generator/)。
+
+您可以在此 Docker 映像的项目页面上了解其他可用的方法来部署此映像，但我们将向您展示在 Red Hat OpenShift 上的部署，从而使您只需单击几下即可快速测试模型。 。
+
+让我们看看如何部署此映像，如下所示：
+
+1.  创建一个 Red Hat OpenShift 帐户。 为此，请将浏览器指向[这里](https://www.openshift.com/)，然后单击“免费试用”。
+2.  选择尝试 RedHat OpenShift Online，如以下屏幕截图所示：
+
+![](img/1fc123e4-c089-4daa-a07a-2c065d739017.png)
+
+3.  在下一个屏幕中，选择“注册 Openshift Online”。 然后，单击页面右上方的“注册”以找到“注册”页面。
+4.  填写所有必要的详细信息，然后提交表格。 系统将要求您进行电子邮件验证，完成后将带您进入订阅确认页面，该页面将要求您确认平台免费订阅的详细信息，如以下屏幕快照所示：
+
+![](img/c413db79-83cf-49fa-ac03-2503121a87c9.png)
+
+请注意，前面的订阅详细信息随时可能更改，并且可能反映订阅的其他值，区域或持续时间。
+
+5.  确认订阅后，您将需要等待几分钟才能配置系统资源。 设置完成后，您应该能够看到将带您进入管理控制台的按钮，如以下屏幕截图所示：
+
+![](img/27f73403-7dfe-4fbf-9d80-a94a84959fa0.png)
+
+在上一个屏幕快照中显示的管理控制台的左侧，您可以找到各种菜单选项，并且在当前页面的中心，将提示您创建一个新项目。
+
+6.  单击“创建项目”，然后在出现的对话框中填写项目名称。 确保您创建的项目具有唯一的名称。 创建项目后，将为您提供一个仪表板，其中显示了对所有可用资源及其使用情况的监视。
+
+在左侧菜单上，选择“开发人员”以切换到控制台的“开发人员”视图，如以下屏幕截图所示：
+
+![](img/2ce108d9-645c-4f78-a0c9-3af2fdc04633.png)
+
+7.  现在，您应该能够看到控制台的 Developer 视图以及更新的左侧菜单。 在这里，单击“拓扑”以获取以下部署选项：
+
+![](img/2847b19b-52c7-46c0-993c-4851b425844e.png)
+
+8.  在显示有部署选项的屏幕中单击“容器映像”，以调出用于容器映像部署的表单。
+
+在此处，将图像名称填写为`codait/max-image-caption-generator`，然后单击“搜索”图标。 其余字段将自动获取，并且将显示与图像有关的信息，如以下屏幕截图所示：
+
+![](img/41129ac4-3e40-4e83-82a5-6c373307e9ab.png)
+
+9.  在显示部署详细信息的下一个屏幕中，单击屏幕中央的“部署的映像”选项，如以下屏幕截图所示：
+
+![](img/6abbb243-a674-4376-9e84-67c216f677b3.png)
+
+10.  然后，向下滚动显示在屏幕右侧的信息面板，找到“路由”信息，该信息类似于以下屏幕截图：
+
+![](img/e108ee47-05ad-4806-8419-31aac5cdc0c3.png)
+
+单击此路由，将为您提供以下已成功部署的 API 的 Swagger UI：
+
+![](img/46b38340-6f06-4049-a8cc-79efa539833e.png)
+
+您可以通过将图像发布到`/model/predict`路由来快速检查模型的工作情况。 随意使用 Swagger UI 可以很好地了解其表现。 您也可以使用`/model/metadata`路由找到模型元数据。
+
+我们准备在项目中使用此 API。 让我们在接下来的部分中了解如何构建相机应用以及如何将此 API 集成到应用中。 我们首先使用相机插件构建应用。
+
+# 了解相机插件
+
+通过`camera`依赖项提供的相机插件，使我们可以自由访问设备的摄像机。 它为 Android 和 iOS 设备提供支持。 该插件是开源的，并托管在 GitHub 上，因此任何人都可以自由访问代码，修复错误并提出对当前版本的增强建议。
+
+该插件可用于在小部件上显示实时摄像机预览，捕获图像并将其本地存储在设备上。 它也可以用来录制视频。 此外，它具有访问图像流的功能。
+
+可以通过以下三个简单步骤将相机插件添加到任何应用：
+
+1.  安装包
+2.  添加用于持久存储和正确执行的方法
+3.  编程
+
+现在让我们详细讨论每个步骤。
+
+# 安装相机插件
+
+要在应用中使用相机插件，我们需要在`pubspec.yaml`文件中添加`camera`作为依赖项。 可以按照以下步骤进行：
+
+```py
+camera: 0.5.7+3
+```
+
+最后，运行`flutter pub get`将依赖项添加到应用。
+
+# 添加用于持久存储和正确执行的方法
+
+对于 iOS 设备，我们还需要指定一个空间来存储系统可以轻松访问的配置数据。 iOS 设备借助`Info.plist`文件来确定要显示的图标，应用支持的文档类型以及其他行为。 您需要在此步骤中修改`ios/Runner/Info.plist`中存在的`Info.plist`文件。
+
+这可以通过添加以下文本来完成：
+
+```py
+<key>NSCameraUsageDescription</key>
+<string>Can I use the camera please?</string>
+<key>NSMicrophoneUsageDescription</key>
+<string>Can I use the mic please?</string>
+```
+
+对于 Android 设备，插件正常运行所需的最低**软件开发套件**（**SDK**）版本是 21。因此，请将最低 Android SDK 版本更改为 21（或更高版本）， 存储在`android/app/build.gradle`文件中，如下所示：
+
+```py
+minSdkVersion 21
+```
+
+安装依赖项并进行必要的更改之后，现在让我们开始编写应用代码。
+
+# 编码
+
+安装插件并进行必要的修改后，现在就可以使用它来访问相机，单击图片并录制视频。
+
+涉及的最重要步骤如下：
+
+1.  通过运行以下代码导入插件：
+
+```py
+import 'package:camera/camera.dart';
+```
+
+2.  通过运行以下代码来检测可用的摄像机：
+
+```py
+List<CameraDescription> cameras = await availableCameras();
+```
+
+3.  初始化相机控件实例，如下所示：
+
+```py
+CameraController controller = CameraController(cameras[0], ResolutionPreset.medium);
+    controller.initialize().then((_) {
+      if (!mounted) {
+        return;
+      }
+      setState(() {});
+    });
+```
+
+4.  通过运行以下代码来处理控制器实例：
+
+```py
+controller?.dispose();
+```
+
+现在，我们已经具备了相机插件的基本知识，让我们为应用构建实时相机预览。
+
+# 创建相机应用
+
+现在，我们将开始构建移动应用，以为指向相机的对象生成标题。 它包括一个用于捕获图像的相机预览和一个用于显示模型返回的字幕的文本视图。
+
+该应用可以大致分为两部分，如下所示：
+
+1.  建立相机预览
+2.  集成模型来获取标题
+
+在以下部分中，我们将讨论构建基本的相机预览。
+
+# 建立相机预览
+
+现在，我们将为应用构建摄像机预览。 我们首先创建一个新文件`generate_live_caption.dart`和一个`GenerateLiveCaption`有状态小部件。
+
+让我们看一下创建实时摄像机预览的以下步骤：
+
+1.  要添加实时摄像机预览，我们将使用`camera`插件。 首先，将依存关系添加到`pubspec.yaml`文件中，如下所示：
+
+```py
+camera: ^0.5.7
+```
+
+接下来，我们需要通过运行`flutter pub get`将依赖项添加到项目中。
+
+2.  现在，我们创建一个新文件`generate_live_captions.dart`，其中包含`GenerateLiveCaptions`有状态的小部件。 进一步步骤中描述的所有代码将包含在`_GenerateLiveCaptionState`类中。
+
+3.  导入`camera`库。 我们将其导入`generate_live_captions.dart`，如下所示：
+
+```py
+import 'package:camera/camera.dart';
+```
+
+4.  现在，我们需要检测设备上所有可用的摄像机。 为其定义`detectCameras()`函数，如下所示：
+
+```py
+Future<void> detectCameras() async{
+    cameras = await availableCameras();
+}
+```
+
+`cameras`是包含所有可用摄像机的全局列表，并在`GenerateLiveCaptionState`中声明，如下所示：
+
+```py
+List<CameraDescription> cameras;
+```
+
+5.  现在，我们使用`initializeController()`方法创建`CameraController`的实例，如下所示：
+
+```py
+ void initializeController() {
+    controller = CameraController(cameras[0], ResolutionPreset.medium);
+      controller.initialize().then((_) {
+        if (!mounted) {
+          return;
+        }
+        setState(() {});
+    });
+  }
+```
+
+在应用中，我们将使用设备的后置摄像头，因此我们使用`camera[0]`创建`CameraController`实例，并使用`ResolutionPreset.medium`将分辨率指定为中等。 接下来，我们使用`controller.initialize()`初始化控制器。
+
+6.  为了在应用的屏幕上显示摄像机源，我们定义了`buildCameraPreview()`方法，如下所示：
+
+```py
+ Widget _buildCameraPreview() {
+    var size = MediaQuery.of(context).size.width;
+      return Container(
+        child: Column(
+          children: <Widget>[
+              Container(
+                width: size,
+                height: size,
+                child: CameraPreview(controller),
+              ),
+          ]
+        )
+      );
+  }
+```
+
+在前面的方法中，我们使用`MediaQuery.of(context).size.width`获取容器的宽度并将其存储在`size`变量中。 接下来，我们创建一列小部件，其中第一个元素是`Container`。 `Container`的子项只是`CameraPreview`，用于在应用的屏幕上显示摄像机的信息。
+
+7.  现在，我们覆盖`initState`，以便在初始化`GenerateLiveCaption`后立即检测到所有摄像机，如下所示：
+
+```py
+ @override
+  void initState() {
+    super.initState();  
+    detectCameras().then((_){
+      initializeController();
+    });
+  }
+```
+
+在前面的代码片段中，我们仅调用`detectCameras()`首先检测所有可用的摄像机，然后调用`initializeController()`用后置摄像机初始化`CameraController`。
+
+8.  要从相机供稿生成字幕，我们将从相机供稿中拍摄照片并将其存储在本地设备中。 这些单击的图片将稍后从图像文件中检索以生成标题。 因此，我们需要一种读取和写入文件的机制。 我们通过在`pubspec.yaml`文件中添加以下依赖项来使用`path_provider`插件：
+
+```py
+path_provider: ^1.4.5
+```
+
+接下来，我们通过在终端中运行`flutter pub get`来安装包。
+
+9.  要在应用中使用`path_provider`插件，我们需要通过在文件顶部添加`import`语句将其导入`generate_live_caption.dart`中，如下所示：
+
+```py
+import 'package:path_provider/path_provider.dart';
+```
+
+10.  要将图像文件保存到磁盘，我们还需要导入`dart:io`库，如下所示：
+
+```py
+import 'dart:io';
+```
+
+11.  现在，让我们定义一种方法`captureImages()`，以从相机源中捕获图像并将其存储在设备中。 这些存储的图像文件将在以后用于生成字幕。 该方法定义如下：
+
+```py
+capturePictures() async {
+   String timestamp = DateTime.now().millisecondsSinceEpoch.toString();
+   final Directory extDir = await getApplicationDocumentsDirectory();
+   final String dirPath = '${extDir.path}/Pictures/generate_caption_images';
+   await Directory(dirPath).create(recursive: true);
+   final String filePath = '$dirPath/${timestamp}.jpg';
+   controller.takePicture(filePath).then((_){
+     File imgFile = File(filePath);
+     });
+  }
+```
+
+在前面的代码片段中，我们首先使用`DateTime.now().millisecondsSinceEpoch()`找出当前时间（以毫秒为单位），然后将其转换为字符串并将其存储在变量`timestamp`中。 时间戳将用于为我们将进一步存储的图像文件提供唯一的名称。 接下来，我们使用`getApplicationDocumentsDirectory()`获取可用于存储图像的目录的路径，并将其存储在`Directory`类型的`extDir`中。 现在，我们通过在外部目录后附加`'/Pictures/generate_caption_images'`来创建适当的目录路径。 然后，我们通过将目录路径与当前时间戳组合并为其指定`.jpg`格式来创建最终的`filePath`。 由于时间戳始终具有不同的值，因此所有单击的图像的`filePath`将始终是唯一的。 最后，我们使用当前的相机控制器实例调用`takePicture()`并传入`filePath`来捕获图像。 我们存储在`imgFile`中创建的图像文件，稍后将用于生成适当的字幕。
+
+12.  如前所述，为了从实时摄像机的提要中生成字幕，我们会定期捕获图像。 为了使它起作用，我们修改`initializeController()`并添加一个计时器，如下所示：
+
+```py
+void initializeController() {
+    controller = CameraController(cameras[0], ResolutionPreset.medium);
+      controller.initialize().then((_) {
+        if (!mounted) {
+          return;
+        }
+        setState(() {});
+        const interval = const Duration(seconds:5);
+        new Timer.periodic(interval, (Timer t) => capturePictures());
+    });
+  }
+```
+
+在`initializeController()`内部，一旦正确初始化并安装了摄像机控制器，我们将使用`Duration()`类创建 5 秒的持续时间，并将其存储在间隔中。 现在，我们使用`Timer.periodic`创建一个定期计时器，并为其设置 5 秒的间隔。 此处指定的回调为`capturePictures()`。 将在指定间隔内重复调用它。
+
+至此，我们创建了一个实时摄像机供稿，该供稿显示在屏幕上，并且能够以 5 秒的间隔捕获图像。 在下一部分中，我们将集成模型以为所有捕获的图像生成标题。
+
+# 从相机源生成图像字幕
+
+现在，我们对图像标题生成器有了一个清晰的想法，并有了一个带有摄像头提要的应用，我们准备为摄像头提要生成图像的标题。 要遵循的逻辑非常简单。 图像是在特定时间间隔从实时摄像机的提要中捕获的，并存储在设备的本地存储中。 接下来，检索存储的图片，并为托管模型创建`HTTP POST`请求，传入检索的图像以获取生成的字幕，解析响应并将其显示在屏幕上。
+
+现在让我们看一下详细步骤，如下所示：
+
+1.  我们首先将`http`依赖项添加到`pubspec.yaml`文件，以发出`http`请求，如下所示：
+
+```py
+http: ^0.12.0
+```
+
+使用`flutter pub get`将依赖项安装到项目。
+
+2.  要在应用中使用`http`包，我们需要将其导入`generate_live_caption.dart`中，如下所示：
+
+```py
+import 'package:http/http.dart'  as http;
+```
+
+3.  现在，我们定义一个方法`fetchResponse()`，它使用一个图像文件并使用该图像为托管模型创建一个帖子，如下所示：
+
+```py
+Future<Map<String, dynamic>> fetchResponse(File image) async {
+
+    final mimeTypeData =
+        lookupMimeType(image.path, headerBytes: [0xFF, 0xD8]).split('/');
+
+    final imageUploadRequest = http.MultipartRequest(
+        'POST',
+        Uri.parse(
+            "http://max-image-caption-generator-mytest865.apps.us-east-2.starter.openshift-online.com/model/predict"));
+
+    final file = await http.MultipartFile.fromPath('image', image.path,
+        contentType: MediaType(mimeTypeData[0], mimeTypeData[1]));
+
+    imageUploadRequest.fields['ext'] = mimeTypeData[1];
+    imageUploadRequest.files.add(file);
+    try {
+      final streamedResponse = await imageUploadRequest.send();
+      final response = await http.Response.fromStream(streamedResponse);
+      final Map<String, dynamic> responseData = json.decode(response.body);
+      parseResponse(responseData);
+      return responseData;
+
+    } catch (e) {
+      print(e);
+      return null;
+    }
+  }
+```
+
+在上述方法中，我们首先通过查看文件的头字节来找到所选文件的 mime 类型。 然后，我们按照托管 API 的要求初始化一个多部分请求。 我们将传递给函数的文件附加为`image` POST 参数。 由于`image_picker`存在一些错误，因此错误地将图像扩展名与文件名（例如`filenamejpeg`）混合在一起，因此我们在请求正文中明确传递了图像扩展名，这会在服务器端管理或验证文件扩展名时产生问题。 响应采用 JSON 格式，因此，我们需要使用`json.decode()`对其进行解码，并使用`res.body`传入响应的主体。 现在，我们通过调用下一步定义的`parseResponse()`来解析响应。 此外，我们使用`catchError()`检测并打印执行`POST`请求时可能发生的任何错误。
+
+4.  成功执行`POST`请求并从模型中获得带有传递的图像的标题的响应之后，我们在`parseResponse()`方法内部解析响应，如下所示：
+
+```py
+void parseResponse(var response) {
+    String resString = "";
+    var predictions = response['predictions'];
+    for(var prediction in predictions) {
+      var caption = prediction['caption'];
+      var probability = prediction['probability'];
+      resString = resString + '${caption}: ${probability}\n\n';
+    }
+    setState(() {
+      resultText = resString;
+    });
+  }
+```
+
+在上述方法中，我们首先存储`response['predictions']`中存在的所有预测的列表，并将其存储在`prediction`变量中。 现在，我们使用`prediction`变量遍历`for each`循环内的每个预测。 对于每个预测，我们分别取出`prediction['caption']`和`prediction['probability']`中存储的标题和概率。 我们将它们附加到`resString`字符串变量，该变量将包含所有预测的字幕以及概率。 最后，我们将`resultText`的状态设置为`resString`中存储的值。 `resultText`是此处的全局字符串变量，将在接下来的步骤中使用它来显示预测的字幕。
+
+5.  现在，我们修改`capturePictures()`，以便每次捕获新图像时都会发出 HTTP 发布请求，如下所示：
+
+```py
+capturePictures() async {
+   . . . . .
+   controller.takePicture(filePath).then((_){
+     File imgFile = File(filePath);
+     fetchResponse(imgFile);
+     });
+  }
+```
+
+在前面的代码片段中，我们向`fetchResponse()`添加了一个调用，并传入了图像文件。
+
+6.  现在，让我们修改`buildCameraPreview()`以显示所有预测，如下所示：
+
+```py
+Widget buildCameraPreview() {
+    . . . . .
+    return Container(
+      child: Column(
+        children: <Widget>[
+          Container(
+            . . . . .
+            child: CameraPreview(controller),
+          ),
+          Text(resultText),  
+        ]
+      )
+    );
+  }
+```
+
+在前面的代码片段中，我们简单地将`Text`与`result.Text`相加。 `result.Text`是一个全局字符串变量，它将包含“步骤 5”中所述的所有预测，并声明如下：
+
+```py
+String resultText = "Fetching Response..";
+```
+
+7.  最后，我们重写`build()`方法以为应用创建最终的脚手架，如下所示：
+
+```py
+@override
+  Widget build(BuildContext context) {
+    return Scaffold(
+      appBar: AppBar(title: Text('Generate Image Caption'),),
+      body: (controller.value.isInitialized)?buildCameraPreview():new Container(),
+      );
+  }
+```
+
+在前面的代码片段中，我们返回了一个标题为`Generate Image Caption`的`appBar`支架。 主体最初设置为空容器。 初始化摄像机控制器后，将更新主体以显示摄像机供稿以及预测的字幕。
+
+8.  最后，我们按以下方式处置摄像头控制器：
+
+```py
+@override
+  void dispose() {
+    controller?.dispose();
+    super.dispose();
+  }
+```
+
+现在，我们已经成功创建了一种在屏幕上显示实时摄像机供稿的机制。 实时摄像头的提要以 5 秒的间隔被捕获，并作为输入发送到模型。 然后，所有捕获图像的预测字幕将显示在屏幕上。
+
+在下一节中，我们现在创建最终的材质应用以将所有内容整合在一起。
+
+# 创建材质应用
+
+在使所有段正常工作之后，让我们创建最终的材质应用。 在`main.dart`文件中，我们创建`StatelessWidget`并覆盖`build()`方法，如下所示：
+
+```py
+class MyApp extends StatelessWidget {  
+@override
+  Widget build(BuildContext context) {
+    return MaterialApp(
+      title: 'Flutter Demo',
+      theme: ThemeData(
+        primarySwatch: Colors.blue,
+      ),
+      home: GenerateLiveCaption()
+    );
+  }
+}
+```
+
+最后，我们执行以下代码：
+
+```py
+void main() => runApp(MyApp());
+```
+
+您应该能够拥有一个应用屏幕，如以下屏幕截图所示：
+
+![](img/76cde6f0-94f8-43e1-ada7-4e298027419d.png)
+
+请注意图像中显示的标题，如下所示：
+
+*   放在桌子上的便携式计算机。
+*   放在桌子上的一台打开的便携式计算机。
+*   放在一张木桌上的一台打开的便携式计算机。
+
+这些标题的描述非常准确。 但是，由于训练数据集中相关图片的不可用，它们有时可能表现不佳。
+
+# 总结
+
+在本章中，我们了解了如何创建一个应用，该应用使用深层的 CNN 和 LSTM 为摄像机的提要实时生成字幕。 我们还看到了如何快速将以 Docker 映像形式提供的某些机器学习/深度学习模型部署到 Red Hat OpenShift，并以可调用 API 的形式轻松获取它们。 从应用开发人员的角度来看，这是至关重要的，因为当与一组机器学习开发人员一起工作时，他们通常会为您提供要使用的模型的 Docker 映像，这样您就无需在其中执行任何代码或配置。 系统。 可以将这种应用用于多种用途，例如为盲人创建辅助技术，生成当时发生的事件的成绩单，或者（例如）为孩子提供现场指导，以帮助他们识别环境中的物体。 我们介绍了如何应用 Flutter 相机插件并在框架上进行深度学习。
+
+在下一章中，我们将研究如何开发用于执行应用安全性的深度学习模型。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/06.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/06.md
new file mode 100644
index 00000000..1ef5c7e6
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/06.md
@@ -0,0 +1,1033 @@
+# 六、构建人工智能认证系统
+
+认证是任何应用中最突出的功能之一，无论它是本机移动软件还是网站，并且自从保护数据的需求以及与机密有关的隐私需求开始以来，认证一直是一个活跃的领域。 在互联网上共享的数据。 在本章中，我们将从基于 Firebase 的简单登录到应用开始，然后逐步改进以包括基于人工智能（AI）的认证置信度指标和 Google 的 ReCaptcha。 所有这些认证方法均以深度学习为核心，并提供了一种在移动应用中实现安全性的最新方法。
+
+在本章中，我们将介绍以下主题：
+
+*   一个简单的登录应用
+*   添加 Firebase 认证
+*   了解用于认证的异常检测
+*   用于认证用户的自定义模型
+*   实现 ReCaptcha 来避免垃圾邮件
+*   在 Flutter 中部署模型
+
+# 技术要求
+
+对于移动应用，需要具有 Flutter 的 Visual Studio Code 和 Dart 插件以及 Firebase Console
+
+[GitHub 网址](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter6)。
+
+# 一个简单的登录应用
+
+我们将首先创建一个简单的认证应用，该应用使用 Firebase 认证对用户进行认证，然后再允许他们进入主屏幕。 该应用将允许用户输入其电子邮件和密码来创建一个帐户，然后使他们随后可以使用此电子邮件和密码登录。
+
+以下屏幕快照显示了应用的完整流程：
+
+![](img/ef321be6-be41-4fb6-8f25-8158e8b8401e.png)
+
+该应用的小部件树如下：
+
+![](img/11895335-ac1a-49b4-851a-e936e64fdcfd.png)
+
+现在让我们详细讨论每个小部件的实现。
+
+# 创建 UI
+
+让我们从创建应用的登录屏幕开始。 **用户界面**（**UI**）将包含两个`TextFormField`来获取用户的电子邮件 ID 和密码，`RaisedButton`进行注册/登录，以及`FlatButton`进行注册和登录操作之间的切换。
+
+以下屏幕快照标记了将用于应用的第一个屏幕的小部件：
+
+![](img/ad4b6619-45db-422d-b2fd-305f61f0ebf8.png)
+
+现在让我们创建应用的 UI，如下所示：
+
+1.  我们首先创建一个名为`signup_signin_screen.dart`的新 dart 文件。 该文件包含一个有状态的小部件– `SignupSigninScreen`。
+2.  第一个屏幕中最上面的窗口小部件是`TextField`，用于获取用户的邮件 ID。 `_createUserMailInput()`方法可帮助我们构建窗口小部件：
+
+```py
+ Widget _createUserMailInput() {
+  return Padding(
+     padding: const EdgeInsets.fromLTRB(0.0, 100.0, 0.0, 0.0),
+     child: new TextFormField(
+       maxLines: 1,
+       keyboardType: TextInputType.emailAddress,
+       autofocus: false,
+       decoration: new InputDecoration(
+           hintText: 'Email',
+           icon: new Icon(
+             Icons.mail,
+             color: Colors.grey,
+           )),
+       validator: (value) => value.isEmpty ? 'Email can\'t be empty' : null,
+       onSaved: (value) => _usermail = value.trim(),
+     ),
+   );
+ }
+```
+
+首先，我们使用`EdgeInsets.fromLTRB()`为小部件提供了填充。 这有助于我们在四个基本方向的每个方向（即左，上，右和下）上创建具有不同值的偏移量。 接下来，我们使用`maxLines`（输入的最大行数）创建了`TextFormField`，其值为`1`作为子级，它接收用户的电子邮件地址。 另外，根据输入类型`TextInputType.emailAddress`，我们指定了将在属性`keyboardType`中使用的键盘类型。 然后，将`autoFocus`设置为`false`。 然后，我们在装饰属性中使用`InputDecoration`提供`hintText "Email"`和图标`Icons.mail`。 为了确保用户在没有输入电子邮件地址或密码的情况下不要尝试登录，我们添加了一个验证器。 当尝试使用空字段登录时，将显示警告“电子邮件不能为空”。 最后，我们通过使用`trim()`删除所有尾随空格来修剪输入的值，然后将输入的值存储在`_usermail`字符串变量中。
+
+3.  与“步骤 2”中的`TextField`相似，我们定义了下一个方法`_createPasswordInput()`，以创建用于输入密码的`TextFormField()`：
+
+```py
+Widget _createPasswordInput() {
+   return Padding(
+     padding: const EdgeInsets.fromLTRB(0.0, 15.0, 0.0, 0.0),
+     child: new TextFormField(
+       maxLines: 1,
+       obscureText: true,
+       autofocus: false,
+       decoration: new InputDecoration(
+           hintText: 'Password',
+           icon: new Icon(
+             Icons.lock,
+             color: Colors.grey,
+           )),
+       validator: (value) => value.isEmpty ? 'Password can\'t be empty' : null,
+       onSaved: (value) => _userpassword = value.trim(),
+     ),
+   );
+ }
+```
+
+我们首先使用`EdgeInsets.fromLTRB()`在所有四个基本方向上提供填充，以在顶部提供`15.0`的偏移量。 接下来，我们创建一个`TextFormField`，其中`maxLines`为`1`，并将`obscureText`设置为`true`，将`autofocus`设置为`false`。 `obscureText`用于隐藏正在键入的文本。 我们使用`InputDecoration`提供`hintText`密码和一个灰色图标`Icons.lock`。 为确保文本字段不为空，使用了一个验证器，当传递空值时，该警告器会发出警告`Password can't be empty`，即用户尝试在不输入密码的情况下登录/注册。 最后，`trim()`用于删除所有尾随空格，并将密码存储在`_userpassword`字符串变量中。
+
+4.  接下来，我们在`_SignupSigninScreenState`外部声明`FormMode`枚举，该枚举在两种模式`SIGNIN`和`SIGNUP`之间运行，如以下代码片段所示：
+
+```py
+enum FormMode { SIGNIN, SIGNUP }
+```
+
+我们将对该按钮使用此枚举，该按钮将使用户既可以登录又可以注册。 这将帮助我们轻松地在两种模式之间切换。 枚举是一组用于表示常量值的标识符。
+
+使用`enum`关键字声明枚举类型。 在`enum`内部声明的每个标识符都代表一个整数值； 例如，第一标识符具有值`0`，第二标识符具有值`1`。 默认情况下，第一个标识符的值为`0`。
+
+5.  让我们定义一个`_createSigninButton()`方法，该方法返回按钮小部件以使用户注册并登录：
+
+```py
+ Widget _createSigninButton() {
+   return new Padding(
+       padding: EdgeInsets.fromLTRB(0.0, 45.0, 0.0, 0.0),
+       child: SizedBox(
+         height: 40.0,
+         child: new RaisedButton(
+           elevation: 5.0,
+           shape: new RoundedRectangleBorder(borderRadius: new BorderRadius.circular(30.0)),
+           color: Colors.blue,
+           child: _formMode == FormMode.SIGNIN
+               ? new Text('SignIn',
+                   style: new TextStyle(fontSize: 20.0, color: Colors.white))
+               : new Text('Create account',
+                   style: new TextStyle(fontSize: 20.0, color: Colors.white)),
+           onPressed: _signinSignup,
+         ),
+       ));
+ }
+```
+
+我们从`Padding`开始，将`45.0`的按钮`offset`置于顶部，然后将`SizedBox`和`40.0`的`height`作为子项，并将`RaisedButton`作为其子项。 使用`RoundedRectangleBorder()`为凸起的按钮赋予圆角矩形形状，其边框半径为`30.0`，颜色为`blue`。 作为子项添加的按钮的文本取决于`_formMode`的当前值。 如果`_formMode`的值（`FormMode`枚举的一个实例）为`FormMode.SIGNIN`，则按钮显示`SignIn`，否则创建帐户。 按下按钮时将调用`_signinSignup`方法，该方法将在后面的部分中介绍。
+
+6.  现在，我们将第四个按钮添加到屏幕上，以使用户在`SIGNIN`和`SIGNUP`表单模式之间切换。 我们定义返回`FlatButton`的`_createSigninSwitchButton()`方法，如下所示：
+
+```py
+ Widget _createSigninSwitchButton() {
+   return new FlatButton(
+     child: _formMode == FormMode.SIGNIN
+         ? new Text('Create an account',
+             style: new TextStyle(fontSize: 18.0, fontWeight: FontWeight.w300))
+         : new Text('Have an account? Sign in',
+             style:
+                 new TextStyle(fontSize: 18.0, fontWeight: FontWeight.w300)),
+     onPressed: _formMode == FormMode.SIGNIN
+         ? _switchFormToSignUp
+         : _switchFormToSignin,
+   );
+ }
+```
+
+如果`_formMode`的当前值为`SIGNIN`并按下按钮，则应更改为`SIGNUP`并显示`Create an account`。 否则，如果`_formMode`将`SIGNUP`作为其当前值，并且按下按钮，则该值应切换为由文本`Have an account? Sign in`表示的`SIGNIN`。 使用三元运算符创建`RaisedButton`的`Text`子级时，添加了在文本之间切换的逻辑。 `onPressed`属性使用非常相似的逻辑，该逻辑再次检查`_formMode`的值以在模式之间切换并使用`_switchFormToSignUp`和`_switchFormToSignin`方法更新`_formMode`的值。 我们将在“步骤 7”和 8 中定义`_switchFormToSignUp`和`_switchFormToSignin`方法。
+
+7.  现在，我们定义`_switchFormToSignUp()`如下：
+
+```py
+ void _switchFormToSignUp() {
+   _formKey.currentState.reset();
+   setState(() {
+     _formMode = FormMode.SIGNUP;
+   });
+ }
+```
+
+此方法重置`_formMode`的值并将其更新为`FormMode.SIGNUP`。 更改`setState()`内部的值有助于通知框架该对象的内部状态已更改，并且 UI 可能需要更新。
+
+8.  我们以与`_switchFormToSignUp()`非常相似的方式定义`_switchFormToSignin()`：
+
+```py
+ void _switchFormToSignin() {
+   _formKey.currentState.reset();
+   setState(() {
+     _formMode = FormMode.SIGNIN;
+   });
+ }
+```
+
+此方法重置`_formMode`的值并将其更新为`FormMode.SIGNIN`。 更改`setState()`内部的值有助于通知框架该对象的内部状态已更改，并且 UI 可能需要更新。
+
+9.  现在，让我们将所有屏幕小部件`Email TextField`，`Password TextFied`，`SignIn Button`和`FlatButton`切换为在单个容器中进行注册和登录。 为此，我们定义了一种方法`createBody()`，如下所示：
+
+```py
+ Widget _createBody(){
+   return new Container(
+       padding: EdgeInsets.all(16.0),
+       child: new Form(
+         key: _formKey,
+         child: new ListView(
+           shrinkWrap: true,
+           children: <Widget>[
+             _createUserMailInput(),
+             _createPasswordInput(),
+             _createSigninButton(),
+             _createSigninSwitchButton(),
+             _createErrorMessage(),
+           ],
+         ),
+       )
+    );
+ }
+```
+
+此方法返回一个以`Form`作为子元素的新`Container`并为其填充`16.0`。 表单使用`_formKey`作为其键，并添加`ListView`作为其子级。 `ListView`的元素是我们在前述方法中创建的用于添加`TextFormFields`和`Buttons`的小部件。 `shrinkWrap`设置为`true`，以确保`ListView`仅占用必要的空间，并且不会尝试扩展和填充整个屏幕
+
+`Form`类用于将多个`FormFields`一起分组和验证。 在这里，我们使用`Form`将两个`TextFormFields`，一个`RaisedButton`和一个`FlatButton`包装在一起。
+
+10.  这里要注意的一件事是，由于进行认证，因此用户最终将成为网络操作，因此可能需要一些时间来发出网络请求。 在此处添加进度条可防止在进行网络操作时 UI 的死锁。 我们声明`boolean`标志`_loading`，当网络操作开始时将其设置为`true`。 现在，我们定义一种`_createCircularProgress()`方法，如下所示：
+
+```py
+ Widget _createCircularProgress(){
+   if (_loading) {
+     return Center(child: CircularProgressIndicator());
+   } return Container(height: 0.0, width: 0.0,);
+ }
+```
+
+仅当`_loading`为`true`并且正在进行网络操作时，该方法才返回`CircularProgressIndicator()`。
+
+11.  最后，让我们在`build()`方法内添加所有小部件：
+
+```py
+ @override
+ Widget build(BuildContext context) {
+   return new Scaffold(
+       appBar: new AppBar(
+         title: new Text('Firebase Authentication'),
+       ),
+       body: Stack(
+         children: <Widget>[
+           _createBody(),
+           _createCircularProgress(),
+         ],
+       ));
+ }
+```
+
+从`build()`内部，添加包含应用标题的`AppBar`变量后，我们返回一个支架。 支架的主体包含一个带有子项的栈，这些子项是`_createBody()`和`_createCircularProgress()` 函数调用返回的小部件。
+
+现在，我们已经准备好应用的主要 UI 结构。
+
+可以在[这个页面](https://github.com/PacktPublishing/-Mobile-Deep-Learning-Projects/blob/master/Chapter6/firebase_authentication/lib/signup_login_screen.dart)中找到`SignupSigninScreen`的完整代码。
+
+在下一部分中，我们将介绍将 Firebase 认证添加到应用中涉及的步骤。
+
+# 添加 Firebase 认证
+
+如前所述，在“简单登录应用”部分中，我们将使用用户的电子邮件和密码通过 Firebase 集成认证。
+
+要在 Firebase 控制台上创建和配置 Firebase 项目，请参考“附录”。
+
+以下步骤详细讨论了如何在 Firebase Console 上设置项目：
+
+1.  我们首先在 Firebase 控制台上选择项目：
+
+![](img/7d327444-3ac6-482b-928e-4f8b4a74e5cb.png)
+
+2.  接下来，我们将在`Develop`菜单中单击`Authentication`选项：
+
+![](img/fb2f8dc4-c931-4180-802d-94dc04c1fa29.png)
+
+这将带我们进入认证屏幕。
+
+3.  迁移到登录标签并启用登录提供者下的“电子邮件/密码”选项：
+
+![](img/2a878561-22f5-42ec-a39e-55cd5e695c11.png)
+
+这是设置 Firebase 控制台所需的全部。
+
+接下来，我们将 Firebase 集成到代码中。 这样做如下：
+
+1.  迁移到 Flutter SDK 中的项目，然后将`firebase-auth`添加到应用级别`build.gradle`文件中：
+
+```py
+implementation 'com.google.firebase:firebase-auth:18.1.0'
+```
+
+2.  为了使`FirebaseAuthentication`在应用中正常工作，我们将在此处使用`firebase_auth`插件。 在`pubspec.yaml`文件的依赖项中添加插件依赖项：
+
+```py
+firebase_auth: 0.14.0+4
+```
+
+确保运行`flutter pub get`以安装依赖项。
+
+现在，让我们编写一些代码以在应用内部提供 Firebase 认证功能。
+
+# 创建`auth.dart`
+
+现在，我们将创建一个 Dart 文件`auth.dart`。 该文件将作为访问`firebase_auth`插件提供的认证方法的集中点：
+
+1.  首先，导入`firebase_auth`插件：
+
+```py
+import 'package:firebase_auth/firebase_auth.dart';
+```
+
+2.  现在，创建一个抽象类`BaseAuth`，该类列出了所有认证方法，并充当 UI 组件和认证方法之间的中间层：
+
+```py
+abstract class BaseAuth {
+ Future<String> signIn(String email, String password);
+ Future<String> signUp(String email, String password);
+ Future<String> getCurrentUser();
+ Future<void> signOut();
+}
+```
+
+顾名思义，这些方法将使用认证的四个主要函数：
+
+*   `signIn()`：使用电子邮件和密码登录已经存在的用户
+*   `signUp()`：使用电子邮件和密码为新用户创建帐户
+*   `getCurrentUser()`：获取当前登录的用户
+*   `signOut()`：注销已登录的用户
+
+这里要注意的重要一件事是，由于这是网络操作，因此所有方法都异步操作，并在执行完成后返回`Future`值。
+
+3.  创建一个实现`BaseAuth`的`Auth`类：
+
+```py
+class Auth implements BaseAuth {
+    //. . . . . 
+}
+```
+
+在接下来的步骤中，我们将定义`BaseAuth`中声明的所有方法。
+
+4.  创建`FirebaseAuth`的实例：
+
+```py
+final FirebaseAuth _firebaseAuth = FirebaseAuth.instance;
+```
+
+5.  `signIn()`方法实现如下：
+
+```py
+ Future<String> signIn(String email, String password) async {
+     AuthResult result = await _firebaseAuth.signInWithEmailAndPassword(email: email, password: password);
+    FirebaseUser user = result.user;
+    return user.uid;
+}
+```
+
+此方法接收用户的电子邮件和密码，然后调用`signInWithEmailAndPassword()`，并传递电子邮件和密码以登录已经存在的用户。 登录操作完成后，将返回`AuthResult`实例。 我们将其存储在`result`中，还使用`result.user`，它返回`FirebaseUser.`。它可用于获取与用户有关的信息，例如他们的`uid`，`phoneNumber`和`photoUrl`。 在这里，我们返回`user.uid`，它是每个现有用户的唯一标识。 如前所述，由于这是网络操作，因此它异步运行，并在执行完成后返回`Future`。
+
+6.  接下来，我们将定义`signUp()`方法以添加新用户：
+
+```py
+Future<String> signUp(String email, String password) async {
+    AuthResult result = await _firebaseAuth.createUserWithEmailAndPassword(email: email, password: password);
+    FirebaseUser user = result.user;
+    return user.uid;
+ }
+```
+
+前面的方法接收在注册过程中使用的电子邮件和密码，并将其值传递给`createUserWithEmailAndPassword`。 类似于上一步中定义的对象，此调用还返回`AuthResult`对象，该对象还用于提取`FirebaseUser`。 最后，`signUp`方法返回新创建的用户的`uid`。
+
+7.  现在，我们将定义`getCurrentUser()`：
+
+```py
+ Future<String> getCurrentUser() async {
+   FirebaseUser user = await _firebaseAuth.currentUser();
+   return user.uid;
+ }
+```
+
+在先前定义的函数中，我们使用`_firebaseAuth.currentUser()`提取当前登录用户的信息。 此方法返回包装在`FirebaseUser`对象中的完整信息。 我们将其存储在`user`变量中。 最后，我们使用`user.uid`返回用户的`uid`。
+
+8.  接下来，我们执行`signOut()`：
+
+```py
+Future<void> signOut() async {
+   return _firebaseAuth.signOut();
+ }
+```
+
+此函数仅在当前`FirebaseAuth`实例上调用`signOut()`并注销已登录的用户。
+
+至此，我们已经完成了用于实现 Firebase 认证的所有基本编码。
+
+可以在[这个页面](https://github.com/PacktPublishing/-Mobile-Deep-Learning-Projects/blob/master/Chapter6/firebase_authentication/lib/auth.dart)中查看`auth.dart`中的整个代码。
+
+现在让我们看看如何在应用内部使认证生效。
+
+# 在`SignupSigninScreen`中添加认证
+
+在本节中，我们将在`SignupSigninScreen`中添加 Firebase 认证。
+
+我们在`signup_signin_screen.dart`文件中定义了`_signinSignup()`方法。 当按下登录按钮时，将调用该方法。 该方法的主体如下所示：
+
+```py
+ void _signinSignup() async {
+   setState(() {
+     _loading = true;
+   });
+     String userId = "";     
+       if (_formMode == FormMode.SIGNIN) {
+         userId = await widget.auth.signIn(_usermail, _userpassword);
+       } else {
+         userId = await widget.auth.signUp(_usermail, _userpassword);
+       }
+       setState(() {
+         _loading = false;
+       });
+       if (userId.length > 0 && userId != null && _formMode == FormMode.SIGNIN) {
+         widget.onSignedIn();
+       }
+}
+```
+
+在上述方法中，我们首先将`_loading`的值设置为`true`，以便进度条显示在屏幕上，直到登录过程完成。 接下来，我们创建一个`userId`字符串，一旦登录/登录操作完成，该字符串将存储`userId`的值。 现在，我们检查`_formMode`的当前值。 如果等于`FormMode.SIGNIN`，则用户希望登录到现有帐户。 因此，我们使用传递到`SignupSigninScreen`构造器中的实例来调用`Auth`类内部定义的`signIn()`方法。
+
+这将在后面的部分中详细讨论。 否则，如果`_formMode`的值等于`FormMode.SIGNUP`，则将调用`Auth`类的`signUp()`方法，并传递用户的邮件和密码以创建新帐户。 一旦成功完成登录/注册，`userId`变量将用于存储用户的 ID。 整个过程完成后，将`_loading`设置为`false`，以从屏幕上删除循环进度指示器。 另外，如果在用户登录到现有帐户时`userId`具有有效值，则将调用`onSignedIn()`，这会将用户定向到应用的主屏幕。
+
+此方法也传递给`SignupSigninScreen`的构造器，并将在后面的部分中进行讨论。 最后，我们将整个主体包裹在`try-catch`块中，以便在登录过程中发生的任何异常都可以捕获而不会导致应用崩溃，并可以在屏幕上显示。
+
+# 创建主屏幕
+
+我们还需要确定认证状态，即用户在启动应用时是否已登录，如果已经登录，则将其定向到主屏幕。如果尚未登录，则应显示`SignInSignupScreen` 首先，在完成该过程之后，将启动主屏幕。 为了实现这一点，我们在新的 dart 文件`main_screen.dart`中创建一个有状态的小部件`MainScreen`，然后执行以下步骤：
+
+1.  我们将从定义枚举`AuthStatus`开始，该枚举表示用户的当前认证状态，可以登录或不登录：
+
+```py
+enum AuthStatus {
+ NOT_SIGNED_IN,
+ SIGNED_IN,
+}
+```
+
+2.  现在，我们创建`enum`类型的变量来存储当前认证状态，其初始值设置为`NOT_SIGNED_IN`：
+
+```py
+AuthStatus authStatus = AuthStatus.NOT_SIGNED_IN;
+```
+
+3.  初始化小部件后，我们将通过覆盖`initState()`方法来确定用户是否已登录：
+
+```py
+ @override
+ void initState() {
+   super.initState();
+   widget.auth.getCurrentUser().then((user) {
+     setState(() {
+       if (user != null) {
+         _userId = user;
+       }
+       authStatus =
+           user == null ? AuthStatus.NOT_SIGNED_IN : AuthStatus.SIGNED_IN;
+     });
+   });
+ }
+```
+
+使用在构造器中传递的类的实例调用`Auth`类的`getCurrentUser()`。 如果该方法返回的值不为`null`，则意味着用户已经登录。因此，`_userId`字符串变量的值设置为返回的值。 另外，将`authStatus`设置为`AuthStatus.SIGNED_IN.`，否则，如果返回的值为`null`，则意味着没有用户登录，因此`authStatus`的值设置为`AuthStatus.NOT_SIGNED_IN`。
+
+4.  现在，我们将定义另外两个方法`onSignIn()`和`onSignOut()`，以确保将认证状态正确存储在变量中，并相应地更新用户界面：
+
+```py
+void _onSignedIn() {
+   widget.auth.getCurrentUser().then((user){
+     setState(() {
+       _userId = user;
+     });
+   });
+   setState(() {
+     authStatus = AuthStatus.SIGNED_IN;
+   });
+ }
+ void _onSignedOut() {
+   setState(() {
+     authStatus = AuthStatus.NOT_SIGNED_IN;
+     _userId = "";
+   });
+ }
+```
+
+`_onSignedIn()`方法检查用户是否已经登录，并将`authStatus`设置为`AuthStatus.SIGNED_IN.`。 `_onSignedOut()`方法检查用户是否已注销，并将`authStatus`设置为`AuthStatus.SIGNED_OUT`。
+
+5.  最后，我们重写`build`方法将用户定向到正确的屏幕：
+
+```py
+ @override
+ Widget build(BuildContext context) {
+   if(authStatus == AuthStatus.SIGNED_OUT) {
+     return new SignupSigninScreen(
+       auth: widget.auth,
+       onSignedIn: _onSignedIn,
+     );
+   } else {
+     return new HomeScreen(
+       userId: _userId,
+       auth: widget.auth,
+       onSignedOut: _onSignedOut,
+       );
+   }
+ }
+```
+
+如果`authStatus`为`AuthStatus.SIGNED_OUT`，则返回`SignupSigninScreen`，并传递`auth`实例和`_onSignedIn()`方法。 否则，将直接返回`HomeScreen`，并传递已登录用户的`userId`，`Auth`实例类和`_onSignedOut()`方法。
+
+[可以在此处查看`main_screen.dart`的完整代码](https://github.com/PacktPublishing/-Mobile-Deep-Learning-Projects/blob/master/Chapter6/firebase_authentication/lib/main_screen.dart)。
+
+在下一部分中，我们将为应用添加一个非常简单的主屏幕。
+
+# 创建主屏幕
+
+由于我们对认证部分更感兴趣，因此主屏幕（即成功登录后指向用户的屏幕）应该非常简单。 它仅包含一些文本和一个注销选项。 正如我们对所有先前的屏幕和小部件所做的一样，我们首先创建一个`home_screen.dart`文件和一个有状态的`HomeScreen`小部件。
+
+主屏幕将显示如下：
+
+![](img/abde1983-daba-49ea-8790-858ce568b522.png)
+
+此处的完整代码位于重写的`build()`方法内部：
+
+```py
+ @override
+ Widget build(BuildContext context) {
+     return new Scaffold(
+         appBar: new AppBar(
+             title: new Text('Firebase Authentication'),
+             actions: <Widget>[
+                 new FlatButton(
+                     child: new Text('Logout',
+                     style: new TextStyle(fontSize: 16.0, color: Colors.white)),
+                     onPressed: _signOut
+                 )
+             ],
+         ),
+         body: Center(child: new Text('Hello User', 
+         style: new TextStyle(fontSize: 32.0))
+         ),
+     );
+ }
+```
+
+我们在此处返回`Scaffold`，其中包含标题为`Text Firebase Authentication`的`AppBar`和`actions`属性的小部件列表。 `actions`用于在应用标题旁边添加小部件列表到应用栏中。 在这里，它仅包含`FlatButton`，`Logout`，在按下时将调用`_signOut`。
+
+`_signOut()`方法显示如下：
+
+```py
+ _signOut() async {
+   try {
+     await widget.auth.signOut();
+     widget.onSignedOut();
+   } catch (e) {
+     print(e);
+   }
+ }
+```
+
+该方法主要是调用`Auth`类中定义的`signOut()`方法，以将用户从应用中注销。 回忆传入`HomeScreen`的`MainScreen`的`_onSignedOut()`方法。 当用户退出时，该方法在此处用作`widget.onSignedOut()`来将`authStatus`更改为`SIGNED_OUT`。 同样，它包装在`try-catch`块中，以捕获并打印此处可能发生的任何异常。
+
+[可以在此处查看`home_screen.dart`的整个代码](https://github.com/PacktPublishing/-Mobile-Deep-Learning-Projects/blob/master/Chapter6/firebase_authentication/lib/main.dart)。
+
+至此，应用的主要组件已经准备就绪，现在让我们创建最终的材质应用。
+
+# 创建`main.dart`
+
+在`main.dart`内部，我们创建`Stateless Widget`，`App`，并覆盖`build()`方法，如下所示：
+
+```py
+ @override
+ Widget build(BuildContext context) {
+   return new MaterialApp(
+       title: 'Firebase Authentication',
+       debugShowCheckedModeBanner: false,
+       theme: new ThemeData(
+         primarySwatch: Colors.blue,
+       ),
+       home: new MainScreen(auth: new Auth()));
+ }
+```
+
+该方法从主屏幕返回`MaterialApp`，以提供标题，主题。
+
+[可以在此处查看`main.dart`文件](https://github.com/PacktPublishing/-Mobile-Deep-Learning-Projects/blob/master/Chapter6/firebase_authentication/lib/main.dart)。
+
+# 了解用于认证的异常检测
+
+异常检测是机器学习的一个备受关注的分支。 该术语含义简单。 基本上，它是用于检测异常的方法的集合。 想象一袋苹果。 识别并挑选坏苹果将是异常检测的行为。
+
+异常检测以几种方式执行：
+
+*   通过使用列的最小最大范围来识别数据集中与其余样本非常不同的数据样本
+*   通过将数据绘制为线形图并识别图中的突然尖峰
+*   通过围绕高斯曲线绘制数据并将最末端的点标记为离群值（异常）
+
+一些常用的方法是支持向量机，贝叶斯网络和 K 最近邻。 在本节中，我们将重点介绍与安全性相关的异常检测。
+
+假设您通常在家中登录应用上的帐户。 如果您突然从数千英里外的位置登录帐户，或者在另一种情况下，您以前从未使用过公共计算机登录帐户，那将是非常可疑的，但是突然有一天您这样做。 另一个可疑的情况可能是您尝试 10-20 次密码，每次在成功成功登录之前每次都输入错误密码。 当您的帐户遭到盗用时，所有这些情况都是可能的行为。 因此，重要的是要合并一个能够确定您的**常规**行为并对**异常**行为进行分类的系统。 换句话说，即使黑客使用了正确的密码，企图破坏您的帐户的尝试也应标记为异常。
+
+这带给我们一个有趣的观点，即确定用户的常规行为。 我们如何做到这一点？ 什么是正常行为？ 它是针对每个用户的还是一个通用概念？ 问题的答案是它是非常特定于用户的。 但是，行为的某些方面对于所有用户而言都可以相同。 一个应用可能会在多个屏幕上启动登录。 单个用户可能更喜欢其中一种或两种方法。 这将导致特定于该用户的特定于用户的行为。 但是，如果尝试从未由开发人员标记为登录屏幕的屏幕进行登录，则无论是哪个用户尝试登录，都肯定是异常的。
+
+在我们的应用中，我们将集成一个这样的系统。 为此，我们将记录一段时间内我们应用的许多用户进行的所有登录尝试。 我们将特别注意他们尝试登录的屏幕以及它们传递给系统的数据类型。 一旦收集了很多这些样本，就可以根据用户执行的任何操作来确定系统对认证的信心。 如果系统在任何时候认为用户表现出的行为与他们的惯常行为相差很大，则该用户将未经认证并被要求验证其帐户详细信息。
+
+让我们从创建预测模型开始，以确定用户认证是常规的还是异常的。
+
+# 用于认证用户的自定义模型
+
+我们将本节分为两个主要子节：
+
+*   构建用于认证有效性检查的模型
+*   托管自定义认证验证模型
+
+让我们从第一部分开始。
+
+# 构建用于认证有效性检查的模型
+
+在本部分中，我们将构建模型来确定是否有任何用户正在执行常规登录或异常登录：
+
+1.  我们首先导入必要的模块，如下所示：
+
+```py
+import sys
+import os
+import json
+import pandas
+import numpy
+from keras.models import Sequential
+from keras.layers import LSTM, Dense, Dropout
+from keras.layers.embeddings import Embedding
+from keras.preprocessing import sequence
+from keras.preprocessing.text import Tokenizer
+from collections import OrderedDict
+```
+
+2.  现在，我们将数据集导入到项目中。 可以在[这里](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter6/Model/data/data.csv)中找到该数据集：
+
+```py
+csv_file = 'data.csv'
+
+dataframe = pandas.read_csv(csv_file, engine='python', quotechar='|', header=None)
+count_frame = dataframe.groupby([1]).count()
+print(count_frame)
+total_req = count_frame[0][0] + count_frame[0][1]
+num_malicious = count_frame[0][1]
+
+print("Malicious request logs in dataset: {:0.2f}%".format(float(num_malicious) / total_req * 100))
+```
+
+前面的代码块将 CSV 数据集加载到项目中。 它还会打印一些与数据有关的统计信息，如下所示：
+
+![](img/0e532087-53b6-4379-aed5-615c4c52f772.png)
+
+3.  我们在上一步中加载的数据目前尚无法使用，无法进行深度学习。 在此步骤中，我们将其分为特征列和标签列，如下所示：
+
+```py
+X = dataset[:,0]
+Y = dataset[:,1]
+```
+
+4.  接下来，我们将删除数据集中包含的某些列，因为我们不需要所有这些列来构建简单的模型：
+
+```py
+for index, item in enumerate(X):
+    reqJson = json.loads(item, object_pairs_hook=OrderedDict)
+    del reqJson['timestamp']
+    del reqJson['headers']
+    del reqJson['source']
+    del reqJson['route']
+    del reqJson['responsePayload']
+    X[index] = json.dumps(reqJson, separators=(',', ':'))
+```
+
+5.  接下来，我们将在剩余的请求正文上执行分词。 分词是一种用于将大文本块分解为较小文本的方法，例如将段落分成句子，将句子分成单词。 我们这样做如下：
+
+```py
+tokenizer = Tokenizer(filters='\t\n', char_level=True)
+tokenizer.fit_on_texts(X)
+```
+
+6.  分词之后，我们将请求正文中的文本转换为单词向量，如下一步所示。 我们将数据集和`DataFrame`标签分为两部分，即 75%-25%，以进行训练和测试：
+
+```py
+num_words = len(tokenizer.word_index)+1
+X = tokenizer.texts_to_sequences(X)
+
+max_log_length = 1024
+train_size = int(len(dataset) * .75)
+
+X_processed = sequence.pad_sequences(X, maxlen=max_log_length)
+X_train, X_test = X_processed[0:train_size], X_processed[train_size:len(X_processed)]
+Y_train, Y_test = Y[0:train_size], Y[train_size:len(Y)]
+```
+
+7.  接下来，我们基于**长短期记忆**（**LSTM**）创建基于**循环神经网络**（**RNN**）的学习方法，来识别**常规**用户行为。 将单词嵌入添加到层中，以帮助维持单词向量和单词之间的关系：
+
+```py
+model = Sequential()
+model.add(Embedding(num_words, 32, input_length=max_log_length))
+model.add(Dropout(0.5))
+model.add(LSTM(64, recurrent_dropout=0.5))
+model.add(Dropout(0.5))
+model.add(Dense(1, activation='sigmoid'))
+```
+
+我们的输出是单个神经元，在正常登录的情况下，该神经元保存`0`；在登录异常的情况下，则保存`1`。
+
+8.  现在，我们以精度作为度量标准编译模型，而损失则作为二进制交叉熵来计算：
+
+```py
+model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
+print(model.summary())
+```
+
+9.  现在，我们准备进行模型的训练：
+
+```py
+model.fit(X_train, Y_train, validation_split=0.25, epochs=3, batch_size=128)
+```
+
+10.  我们将快速检查模型所达到的准确率。 当前模型的准确率超过 96%：
+
+```py
+score, acc = model.evaluate(X_test, Y_test, verbose=1, batch_size=128)
+print("Model Accuracy: {:0.2f}%".format(acc * 100))
+```
+
+下面的屏幕快照显示了前面代码块的输出：
+
+![](img/dbec2b68-1ec1-424e-882b-99d22d041a67.png)
+
+11.  现在，我们保存模型权重和模型定义。 我们稍后将它们加载到 API 脚本中，以验证用户的认证：
+
+```py
+model.save_weights('lstm-weights.h5')
+model.save('lstm-model.h5')
+```
+
+现在，我们可以将认证模型作为 API 进行托管，我们将在下一部分中进行演示。
+
+# 托管自定义认证验证模型
+
+在本节中，我们将创建一个 API，用于在用户向模型提交其登录请求时对其进行认证。 请求标头将被解析为字符串，并且模型将使用它来预测登录是否有效：
+
+1.  我们首先导入创建 API 服务器所需的模块：
+
+```py
+from sklearn.externals import joblib
+from flask import Flask, request, jsonify
+from string import digits
+
+import sys
+import os
+import json
+import pandas
+import numpy
+import optparse
+from keras.models import Sequential, load_model
+from keras.preprocessing import sequence
+from keras.preprocessing.text import Tokenizer
+from collections import OrderedDict
+```
+
+2.  现在，我们实例化一个`Flask`应用对象。 我们还将从上一节“构建用于认证有效性检查的模型”中加载保存的模型定义和模型权重。然后，我们重新编译模型，并使用`_make_predict_function( )`方法创建其预测方法，如以下步骤所示：
+
+```py
+app = Flask(__name__)
+
+model = load_model('lstm-model.h5')
+model.load_weights('lstm-weights.h5')
+model.compile(loss = 'binary_crossentropy', optimizer = 'adam', metrics = ['accuracy'])
+model._make_predict_function()
+```
+
+3.  然后，我们创建一个`remove_digits()`函数，该函数用于从提供给它的输入中去除所有数字。 这将用于在将请求正文文本放入模型之前清除它：
+
+```py
+def remove_digits(s: str) -> str:
+    remove_digits = str.maketrans('', '', digits)
+    res = s.translate(remove_digits)
+    return res
+```
+
+4.  接下来，我们将在 API 服务器中创建`/login`路由。 该路由由`login()`方法处理，并响应`GET`和`POST`请求方法。 正如我们对训练输入所做的那样，我们删除了请求标头中的非必要部分。 这可以确保模型将对数据进行预测，类似于对其进行训练的数据：
+
+```py
+@app.route('/login', methods=['GET, POST'])
+def login():
+    req = dict(request.headers)
+    item = {}
+    item["method"] = str(request.method)
+    item["query"] = str(request.query_string)
+    item["path"] = str(request.path)
+    item["statusCode"] = 200
+    item["requestPayload"] = []
+
+    ## MORE CODE BELOW THIS LINE
+
+    ## MORE CODE ABOVE THIS LINE
+
+    response = {'result': float(prediction[0][0])}
+    return jsonify(response)
+```
+
+5.  现在，我们将代码添加到`login()`方法中，该方法将标记请求正文并将其传递给模型以执行有关登录请求有效性的预测，如下所示：
+
+```py
+@app.route('/login', methods=['GET, POST'])
+def login():
+    ...
+    ## MORE CODE BELOW THIS LINE
+    X = numpy.array([json.dumps(item)])
+    log_entry = "store"
+
+    tokenizer = Tokenizer(filters='\t\n', char_level=True)
+    tokenizer.fit_on_texts(X)
+    seq = tokenizer.texts_to_sequences([log_entry])
+    max_log_length = 1024
+    log_entry_processed = sequence.pad_sequences(seq, maxlen=max_log_length)
+
+    prediction = model.predict(log_entry_processed)
+    ## MORE CODE ABOVE THIS LINE
+    ...
+```
+
+最后，应用以 JSON 字符串的形式返回其对用户进行认证的信心。
+
+6.  最后，我们使用`app`的`run()`方法启动服务器脚本：
+
+```py
+if __name__ == '__main__':
+    app.run(host='0.0.0.0', port=8000)
+```
+
+7.  将此文件另存为`main.py`。 要开始执行服务器，请打开一个新终端并使用以下命令：
+
+```py
+python main.py
+```
+
+服务器监听其运行系统的所有传入 IP。 通过在`0.0.0.0` IP 上运行它，可以实现这一点。 如果我们希望稍后在基于云的服务器上部署脚本，则需要这样做。 如果不指定`0.0.0.0`主机，则默认情况下会使它监听`127.0.0.1`，这不适合在公共服务器上进行部署。 [您可以在此处详细了解这些地址之间的区别](https://xprilion.com/difference-between-localhost-127.0.0.1-and-0.0.0.0/)。
+
+在下一节中，我们将看到如何将 ReCaptcha 集成到迄今为止在该项目中构建的应用中。 之后，我们将把本节中构建的 API 集成到应用中。
+
+# 实现 ReCaptcha 来保护垃圾邮件
+
+为了为 Firebase 认证增加另一层安全性，我们将使用 ReCaptcha。 这是 Google 所支持的一项测试，可帮助我们保护数据免受垃圾邮件和滥用行为的自动 bot 攻击。 该测试很简单，很容易被人类解决，但是却阻碍了漫游器和恶意用户的使用。
+
+要了解有关 ReCaptcha 及其用途的更多信息，请访问[这里](https://support.google.com/recaptcha/?hl=en)。
+
+# ReCAPTCHA v2
+
+在本节中，我们将把 ReCaptcha 版本 2 集成到我们的应用中。 在此版本中，向用户显示一个简单的复选框。 如果刻度变为绿色，则表明用户已通过验证。
+
+另外，还可以向用户提出挑战，以区分人和机器人。 这个挑战很容易被人类解决。 他们要做的就是根据说明选择一堆图像。 使用 ReCaptcha 进行认证的传统流程如下所示：
+
+![](img/28bbf2c1-4176-4e86-af5c-b0d932b3a5db.png)
+
+一旦用户能够验证其身份，他们就可以成功登录。
+
+# 获取 API 密钥
+
+要在我们的应用内部使用 ReCaptcha，我们需要在`reCAPTCHA`管理控制台中注册该应用，并获取站点密钥和秘密密钥。 为此，请访问[这里](https://www.google.com/recaptcha/admin)并注册该应用。 您将需要导航到“注册新站点”部分，如以下屏幕截图所示：
+
+![](img/e04f86a0-94bf-4141-a945-b9a1918db216.png)
+
+我们可以通过以下两个简单步骤来获取 API 密钥：
+
+1.  首先提供一个域名。 在这里，我们将在 reCAPTCHA v2 下选择 reCAPTCHA Android。
+2.  选择 Android 版本后，添加项目的包名称。 正确填写所有信息后，单击“注册”。
+
+这将引导您到显示站点密钥和秘密密钥的屏幕，如以下屏幕快照所示：
+
+![](img/627a889d-2fc0-4fbf-9833-d65878b8284b.png)
+
+将**站点密钥**和**秘密密钥**复制并保存到安全位置。 我们将在编码应用时使用它们。
+
+# 代码整合
+
+为了在我们的应用中包含 ReCaptcha v2，我们将使用 Flutter 包`flutter_recaptcha_v2`。 将`flutter_recaptcha_v2:0.1.0`依赖项添加到`pubspec.yaml`文件中，然后在终端中运行`flutter packages get`以获取所需的依赖项。 以下步骤详细讨论了集成：
+
+1.  我们将代码添加到`signup_signin_screen.dart`。 首先导入依赖项：
+
+```py
+import 'package:flutter_recaptcha_v2/flutter_recaptcha_v2.dart';
+```
+
+2.  接下来，创建一个`RecaptchaV2Controller`实例：
+
+```py
+RecaptchaV2Controller recaptchaV2Controller = RecaptchaV2Controller();
+```
+
+3.  reCAPTCHA 复选框将添加为小部件。 首先，让我们定义一个返回小部件的`_createRecaptcha()`方法：
+
+```py
+ Widget _createRecaptcha() {
+   return RecaptchaV2(
+     apiKey: "Your Site Key here", 
+     apiSecret: "Your API Key here", 
+     controller: recaptchaV2Controller,
+     onVerifiedError: (err){
+       print(err);
+     },
+     onVerifiedSuccessfully: (success) {
+       setState(() {
+       if (success) {
+         _signinSignup();
+       } else {
+         print('Failed to verify');
+       }
+       });
+     },
+   );
+ }
+```
+
+在上述方法中，我们仅使用`RecaptchaV2()`构造器，即可为特定属性指定值。 添加您先前在`apiKey`和`apiSecret`属性中注册时保存的站点密钥和秘密密钥。 我们使用先前为属性控制器创建的`recaptcha`控制器`recaptchaV2Controller`的实例。 如果成功验证了用户，则将调用`_signinSignup()`方法以使用户登录。如果在验证期间发生错误，我们将打印错误。
+
+4.  现在，由于在用户尝试登录时应显示`reCaptcha`，因此我们将`createSigninButton()`中的登录凸起按钮的`onPressed`属性修改为`recaptchaV2Controller`：
+
+```py
+Widget _createSigninButton() {
+    . . . . . . .
+    return new Padding(
+        . . . . . . .
+        child: new RaisedButton(
+            . . . . . . 
+            //Modify the onPressed property
+            onPressed: recaptchaV2Controller.show
+        )
+    )
+}
+```
+
+5.  最后，我们将`_createRecaptcha()`添加到`build()`内部的主体栈中：
+
+```py
+ @override
+ Widget build(BuildContext context) {
+    . . . . . . .
+    return new Scaffold(
+        . . . . . . .
+        body: Stack(
+            children: <Widget>[
+                _createBody(),
+                _createCircularProgress(),
+
+                //Add reCAPTCHA Widget
+                _createRecaptcha()
+                 ],
+       ));
+ }
+```
+
+这就是一切！ 现在，我们具有比 Firebase 认证更高的安全级别，可以保护应用的数据免受自动机器人的攻击。 现在让我们看一下如何集成定制模型以检测恶意用户。
+
+# 在 Flutter 中部署模型
+
+至此，我们的 Firebase 认证应用与 ReCaptcha 保护一起运行。 现在，让我们添加最后的安全层，该层将不允许任何恶意用户进入应用。
+
+[我们已经知道该模型位于以下端点](http://34.67.126.237:8000/login)。 我们只需从应用内部进行 API 调用，传入用户提供的电子邮件和密码，并从模型中获取结果值。 该值将通过使用阈值结果值来帮助我们判断登录是否是恶意的。
+
+如果该值小于 0.20，则认为该登录名是恶意的，并且屏幕上将显示以下消息：
+
+![](img/8aa122f6-8d1e-446a-afd7-88803637b2c4.png)
+
+现在，让我们看一下在 Flutter 应用中部署模型的步骤：
+
+1.  首先，由于我们正在获取数据并且将使用网络调用（即 HTTP 请求），因此我们需要向`pubspec.yaml`文件添加`http`依赖项，并按以下方式导入：
+
+```py
+import 'package:http/http.dart' as http;
+```
+
+2.  首先在`auth.dart:`内部定义的`BaseAuth`抽象类中添加以下函数声明
+
+```py
+ Future<double> isValidUser(String email, String password);
+```
+
+3.  现在，让我们在`Auth`类中定义`isValidUser()`函数：
+
+```py
+ Future<double> isValidUser(String email, String password) async{
+   final response = await http.Client()
+       .get('http://34.67.160.232:8000/login?user=$email&password=$password');
+     var jsonResponse = json.decode(response.body);
+     var val = '${jsonResponse["result"]}';
+     double result = double.parse(val);     
+     return result;
+   }
+```
+
+此函数将用户的电子邮件和密码作为参数，并将它们附加到请求 URL，以便为特定用户生成输出。 `get request`响应存储在变量响应中。 由于响应为 JSON 格式，因此我们使用`json.decode()`对其进行解码，并将解码后的响应存储在另一个变量响应中。 现在，我们使用`‘${jsonResponse["result"]}'`访问`jsonResponse`中的结果值，使用`double.parse()`将其转换为双精度类型整数，并将其存储在结果中。 最后，我们返回结果的值。
+
+4.  为了激活代码内部的恶意检测，我们从`SigninSignupScreen`调用了`isValidUser()`方法。 当具有现有帐户的用户选择从`if-else`块内部登录时，将调用此方法：
+
+```py
+if (_formMode == FormMode.SIGNIN) {
+
+    var val = await widget.auth.isValidUser(_usermail, _userpassword);
+
+    . . . .
+    } else {
+      . . . .   
+    }
+```
+
+`isValidUser`返回的值存储在`val`变量中。
+
+5.  如果该值小于 0.20，则表明登录活动是恶意的。 因此，我们将异常抛出并在 catch 块内抛出`catch`并在屏幕上显示错误消息。 这可以通过创建自定义异常类`MalicousUserException`来完成，该类在实例化时返回一条错误消息：
+
+```py
+class MaliciousUserException implements Exception {
+  String message() => 'Malicious login! Please try later.';
+}
+```
+
+6.  现在，我们将在调用`isValidUser()`之后添加`if`块，以检查是否需要抛出异常：
+
+```py
+var val = await widget.auth.isValidUser(_usermail, _userpassword);
+//Add the if block 
+if(val < 0.20) {
+    throw new MaliciousUserException();
+}
+```
+
+7.  现在，该异常已捕获在`catch`块内，并且不允许用户继续登录。此外，我们将`_loading`设置为`false`以表示不需要进一步的网络操作：
+
+```py
+catch(MaliciousUserException) {
+       setState(() {
+         _loading = false;
+           _errorMessage = 'Malicious user detected. Please try again later.';
+       });
+
+```
+
+这就是一切！ 我们之前基于 Firebase 认证创建的 Flutter 应用现在可以在后台运行智能模型的情况下找到恶意用户。
+
+# 总结
+
+在本章中，我们了解了如何使用 Flutter 和由 Firebase 支持的认证系统构建跨平台应用，同时结合了深度学习的优势。 然后，我们了解了如何将黑客攻击尝试归类为一般用户行为中的异常现象，并创建了一个模型来对这些异常现象进行分类以防止恶意用户登录。最后，我们使用了 Google 的 ReCaptcha 来消除对该应用的垃圾邮件使用，因此，使其在自动垃圾邮件或脚本化黑客攻击方面更具弹性。
+
+在下一章中，我们将探索一个非常有趣的项目–使用移动应用上的深度学习生成音乐成绩单。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/07.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/07.md
new file mode 100644
index 00000000..51d98dee
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/07.md
@@ -0,0 +1,1111 @@
+# 七、语音/多媒体处理 - 使用 AI 生成音乐
+
+鉴于**人工智能**（**AI**）的应用越来越多，将 AI 与音乐结合使用的想法已经存在了很长时间，并且受到了广泛的研究。 由于音乐是一系列音符，因此它是时间序列数据集的经典示例。 最近证明时间序列数据集在许多预测领域中非常有用–股市，天气模式，销售模式以及其他基于时间的数据集。 **循环神经网络**（**RNN**）是处理时间序列数据集的最多模型之一。 对 RNN 进行的流行增强称为**长短期记忆**（**LSTM**）神经元。 在本章中，我们将使用 LSTM 处理音符。
+
+多媒体处理也不是一个新话题。 在本项目系列的早期，我们在多章中详细介绍了图像处理。 在本章中，我们将讨论并超越图像处理，并提供一个带有音频的深度学习示例。 我们将训练 Keras 模型来生成音乐样本，每次都会生成一个新样本。 然后，我们将此模型与 Flutter 应用结合使用，以通过 Android 和 iOS 设备上的音频播放器进行部署。
+
+在本章中，我们将介绍以下主题：
+
+*   设计项目的架构
+*   了解多媒体处理
+*   开发基于 RNN 的音乐生成模型
+*   在 Android 和 iOS 上部署音频生成 API
+
+让我们首先概述该项目的架构。
+
+# 设计项目的架构
+
+该项目的架构与作为应用部署的常规深度学习项目略有不同。 我们将有两组不同的音乐样本。 第一组样本将用于训练可以生成音乐的 LSTM 模型。 另一组样本将用作 LSTM 模型的随机输入，该模型将输出生成的音乐样本。 我们稍后将开发和使用的基于 LSTM 的模型将部署在 **Google Cloud Platform**（**GCP**）上。 但是，您可以将其部署在 AWS 或您选择的任何其他主机上。
+
+下图总结了将在本项目中使用的不同组件之间的交互：
+
+![](img/50f17dc4-2658-4211-a7ff-9c41daafd884.png)
+
+移动应用要求部署在服务器上的模型生成新的音乐样本。 该模型使用随机音乐样本作为输入，以使其通过预先训练的模型来生成新的音乐样本。 然后，新的音乐样本由移动设备获取并播放给用户。
+
+您可以将此架构与我们之前介绍的架构进行比较，在该架构中，将有一组用于训练的数据样本，然后将模型部署在云上或本地，并用于作出预测。
+
+我们还可以更改此项目架构，以在存在为 Dart 语言编写的 midi 文件处理库的情况下在本地部署模型。 但是，在撰写本文时，还没有与我们在开发模型时使用的 Python midi 文件库的要求兼容的稳定库。
+
+让我们从学习多媒体处理的含义以及如何使用 OpenCV 处理多媒体文件开始。
+
+# 了解多媒体处理
+
+多媒体是几乎所有形式的视觉，听觉或两者兼有的内容的总称。 术语**多媒体处理**本身非常模糊。 讨论该术语的更精确方法是将其分解为两个基本部分-视觉或听觉。 因此，我们将讨论多媒体处理的术语，即图像处理和音频处理。 这些术语的混合产生了视频处理，这只是多媒体的另一种形式。
+
+在以下各节中，我们将以单独的形式讨论它们。
+
+# 图像处理
+
+图像处理或计算机视觉是迄今为止人工智能研究最多的分支之一。 在过去的几十年中，它发展迅速，并在以下几种技术的进步中发挥了重要作用：
+
+*   图像过滤器和编辑器
+*   面部识别
+*   数字绘画
+*   自动驾驶汽车
+
+我们在较早的项目中讨论了图像处理的基础知识。 在这个项目中，我们将讨论一个非常流行的用于执行图像处理的库-OpenCV。 OpenCV 是*开源计算机视觉*的缩写。 它由 Intel 开发，并由 Willow Garage 和 Itseez（后来被 Intel 收购）推动。 毫无疑问，由于它与所有主要的机器学习框架（例如 TensorFlow，PyTorch 和 Caffe）兼容，因此它是执行图像处理的全球大多数开发人员的首要选择。 除此之外，OpenCV 还可以使用多种语言，例如 C++，Java 和 Python。
+
+要在 Python 环境中安装 OpenCV，可以使用以下命令：
+
+```py
+pip install opencv-contrib-python
+```
+
+前面的命令将同时安装主 OpenCV 模块和`contrib`模块。 [您可以在此处找到更多模块供您选择](https://docs.opencv.org/master/)。 有关更多安装说明，如果前面的链接不符合您的要求，[则可以在此处遵循官方文档](https://docs.opencv.org/master/df/d65/tutorial_table_of_content_introduction.html)。
+
+让我们为您介绍一个非常简单的示例，说明如何使用 OpenCV 执行图像处理。 创建一个新的 Jupyter 笔记本，并从以下步骤开始：
+
+1.  要将 OpenCV 导入笔记本，请使用以下代码行：
+
+```py
+import cv2
+```
+
+2.  我们还要将 matplotlib 导入笔记本，因为如果您尝试使用本机 OpenCV 图像显示功能，Jupyter 笔记本将会崩溃：
+
+```py
+from matplotlib import pyplot as plt
+%matplotlib inline
+```
+
+3.  让我们使用 matplotlib 为 OpenCV 的本机图像显示功能创建一个替代函数，以方便在笔记本中显示图像：
+
+```py
+def showim(image):
+    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
+    plt.imshow(image)
+    plt.show()
+```
+
+请注意，我们将图像的配色方案从**蓝色绿色红色**（**BGR**）转换为**红色绿色蓝色**（**RGB**）。 这是由于默认情况下 OpenCV 使用 BGR 配色方案。 但是，matplotlib 在显示图片时会使用 RGB 方案，并且如果不进行这种转换，我们的图像就会显得奇怪。
+
+4.  现在，让我们将图像读取到 Jupyter 笔记本中。 完成后，我们将能够看到加载的图像：
+
+```py
+image = cv2.imread("Image.jpeg")
+showim(image)
+```
+
+前面代码的输出取决于您选择加载到笔记本中的图像：
+
+![](img/856d9f1c-21a6-424e-9623-a385b8bd4fcd.png)
+
+在我们的示例中，我们加载了柑橘类水果切片的图像，这是艾萨克·奎萨达（Isaac Quesada）在“Unsplash”上拍摄的惊人照片。
+
+您可以在[这里](https://unsplash.com/photos/6mw7bn9k9jw)找到上一张图片。
+
+5.  让我们通过将之前的图像转换为灰度图像来进行简单的操作。 为此，我们就像在声明的`showim()`函数中那样简单地使用转换方法：
+
+```py
+gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
+showim(gray_image)
+```
+
+这将产生以下输出：
+
+![](img/e28a1949-81f0-452f-b34d-215ab8230e10.png)
+
+6.  现在让我们执行另一种常见的操作，即图像模糊。 在图像处理中通常采用模糊处理，以消除图像中信息的不必要的细节（此时）。 我们使用高斯模糊过滤器，这是在图像上创建模糊的最常见算法之一：
+
+```py
+blurred_image = cv2.GaussianBlur(image, (7, 7), 0)
+showim(blurred_image)
+```
+
+这将产生以下输出：
+
+![](img/8ccb770f-4c64-49fa-9a0a-69d368222b37.png)
+
+请注意，前面的图像不如原始图像清晰。 但是，它很容易达到愿意计算此图像中对象数量的目的。
+
+7.  为了在图像中定位对象，我们首先需要标记图像中的边缘。 为此，我们可以使用`Canny()`方法，该方法是 OpenCV 中可用的其他选项之一，用于查找图像的边缘：
+
+```py
+canny = cv2.Canny(blurred_image, 10, 50)
+showim(canny)
+```
+
+这将产生以下输出：
+
+![](img/731cc2e7-4d66-442f-b6af-8f5fdcb8fb29.png)
+
+请注意，在上图中找到的边缘数量很高。 虽然这会显示图像的细节，但是如果我们尝试对边缘进行计数以尝试确定图像中的对象数量，这将无济于事。
+
+8.  让我们尝试计算上一步生成的图像中不同项目的数量：
+
+```py
+contours, hierarchy= cv2.findContours(canny, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
+print("Number of objects found = ", len(contours))
+```
+
+上面的代码将产生以下输出：
+
+```py
+Number of objects found = 18
+```
+
+但是，我们知道前面的图像中没有 18 个对象。 只有 9。因此，在寻找边缘时，我们将在`canny`方法中处理阈值。
+
+9.  让我们在 canny 方法中增加边缘发现的阈值。 这使得更难检测到边缘，因此仅使最明显的边缘可见：
+
+```py
+canny = cv2.Canny(blurred_image, 50, 150)
+showim(canny)
+```
+
+这将产生以下输出：
+
+![](img/893c880e-246a-49de-a22a-66790aa69604.png)
+
+请注意，在柑橘类水果体内发现的边缘急剧减少，仅清晰可见其轮廓。 我们希望这会在计数时产生较少的对象。
+
+10.  让我们再次运行以下代码块：
+
+```py
+contours, hierarchy= cv2.findContours(canny, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
+print("Number of objects found = ", len(contours))
+```
+
+这将产生以下输出：
+
+```py
+Number of objects found = 9
+```
+
+这是期望值。 但是，只有在特殊情况下，该值才是准确的。
+
+11.  最后，让我们尝试概述检测到的对象。 为此，我们绘制了`findContours()`方法的上一步中确定的轮廓：
+
+```py
+_ = cv2.drawContours(image, contours, -1, (0,255,0), 10)
+showim(image)
+```
+
+这将产生以下输出：
+
+![](img/32c1a788-c911-4898-bdd9-4bbc1954bd43.png)
+
+请注意，我们已经在拍摄的原始图像中非常准确地识别出了九片水果。 我们可以进一步扩展此示例，以在任何图像中找到某些类型的对象。
+
+要了解有关 OpenCV 的更多信息并找到一些可供学习的示例，[请访问以下存储库](https://github.com/ayulockin/myopenCVExperiments)。
+
+现在让我们学习如何处理音频文件。
+
+# 音频处理
+
+我们已经看到了如何处理图像以及可以从中提取信息。 在本节中，我们将介绍音频文件的处理。 音频或声音是吞没您周围环境的东西。 在许多情况下，您仅能从该区域的音频剪辑中正确预测该区域或环境，而无需实际看到任何视觉提示。 声音或语音是人与人之间交流的一种形式。 安排良好的节奏模式形式的音频称为音乐，可以使用乐器制作。
+
+音频文件的一些流行格式如下：
+
+*   **MP3**：一种非常流行的格式，广泛用于共享音乐文件。
+*   **AAC**：是对 MP3 格式的改进，AAC 主要用于 Apple 设备。
+*   **WAV**：由 Microsoft 和 IBM 创建，这种格式是无损压缩，即使对于小的音频文件也可能很大。
+*   **MIDI**：乐器数字接口文件实际上不包含音频。 它们包含乐器音符，因此体积小且易于使用。
+
+音频处理是以下技术的增长所必需的：
+
+*   用于基于语音的界面或助手的语音处理
+*   虚拟助手的语音生成
+*   音乐生成
+*   字幕生成
+*   推荐类似音乐
+
+TensorFlow 团队的 Magenta 是一种非常流行的音频处理工具。
+
+您可以通过[这里](https://magenta.tensorflow.org/)访问 Magenta 主页。 该工具允许快速生成音频和音频文件的转录。
+
+让我们简要地探讨 Magenta。
+
+# Magenta
+
+Magenta 是 Google Brain 团队参与研究的一部分，该团队也参与了 TensorFlow。 它被开发为一种工具，可允许艺术家借助深度学习和强化学习算法来增强其音乐或艺术创作渠道。 这是 Magenta 的徽标：
+
+![](img/8f1ab793-d468-4a11-a584-0cbfa9cc0b3d.png)
+
+让我们从以下步骤开始：
+
+1.  要在系统上安装 Magenta，可以使用 Python 的 pip 存储库：
+
+```py
+pip install magenta
+```
+
+2.  如果缺少任何依赖项，则可以使用以下命令安装它们：
+
+```py
+!apt-get update -qq && apt-get install -qq libfluidsynth1 fluid-soundfont-gm build-essential libasound2-dev libjack-dev
+
+!pip install -qU pyfluidsynth pretty_midi
+```
+
+3.  要将 Magenta 导入项目中，可以使用以下命令：
+
+```py
+import magenta
+```
+
+或者，按照流行的惯例，仅加载 Magenta 的音乐部分，可以使用以下命令：
+
+```py
+import magenta.music as mm
+```
+
+您可以使用前面的导入在线找到很多样本。
+
+让我们快速创作一些音乐。 我们将创建一些鼓声，然后将其保存到 MIDI 文件：
+
+1.  我们首先需要创建一个`NoteSequence`对象。 在 Magenta 中，所有音乐都以音符序列的格式存储，类似于 MIDI 存储音乐的方式：
+
+```py
+from magenta.protobuf import music_pb2
+
+drums = music_pb2.NoteSequence()
+```
+
+2.  创建`NoteSequence`对象后，该对象为空，因此我们需要向其添加一些注解：
+
+```py
+drums.notes.add(pitch=36, start_time=0, end_time=0.125, is_drum=True, instrument=10, velocity=80)
+drums.notes.add(pitch=38, start_time=0, end_time=0.125, is_drum=True, instrument=10, velocity=80)
+drums.notes.add(pitch=42, start_time=0, end_time=0.125, is_drum=True, instrument=10, velocity=80)
+drums.notes.add(pitch=46, start_time=0, end_time=0.125, is_drum=True, instrument=10, velocity=80)
+.
+.
+.
+drums.notes.add(pitch=42, start_time=0.75, end_time=0.875, is_drum=True, instrument=10, velocity=80)
+drums.notes.add(pitch=45, start_time=0.75, end_time=0.875, is_drum=True, instrument=10, velocity=80)
+```
+
+请注意，在前面的代码中，每个音符都有音高和力度。 再次类似于 MIDI 文件。
+
+3.  现在让我们为音符添加节奏，并设置音乐播放的总时间：
+
+```py
+drums.total_time = 1.375
+
+drums.tempos.add(qpm=60)
+```
+
+完成此操作后，我们现在准备导出 MIDI 文件。
+
+4.  我们首先需要将 Magenta`NoteSequence`对象转换为 MIDI 文件：
+
+```py
+mm.sequence_proto_to_midi_file(drums, 'drums_sample_output.mid')
+```
+
+前面的代码首先将音符序列转换为 MIDI，然后将它们写入磁盘上的`drums_sample_output.mid`文件。 您现在可以使用任何合适的音乐播放器播放`midi`文件。
+
+继续前进，让我们探索如何处理视频。
+
+# 视频处理
+
+视频处理是多媒体处理的另一个重要部分。 通常，我们需要弄清楚移动场景中发生的事情。 例如，如果我们要生产自动驾驶汽车，则它需要实时处理大量视频才能平稳行驶。 这种情况的另一个实例可以是将手语转换为文本以帮助与语音障碍者互动的设备。 此外，需要视频处理来创建电影和动作效果。
+
+我们将在本节中再次探讨 OpenCV。 但是，我们将演示如何在 OpenCV 中使用实时摄像机供稿来检测面部。
+
+创建一个新的 Python 脚本并执行以下步骤：
+
+1.  首先，我们需要对脚本进行必要的导入。 这将很简单，因为我们只需要 OpenCV 模块：
+
+```py
+import cv2
+```
+
+2.  现在，让我们将 Haar 级联模型加载到脚本中。 Haar 级联算法是一种用于检测任何给定图像中的对象的算法。 由于视频不过是图像流，因此我们将其分解为一系列帧并检测其中的人脸：
+
+```py
+faceCascade = cv2.CascadeClassifier("haarcascade_frontalface_default.xml")
+```
+
+[您将不得不从以下位置获取`haarcascade_frontalface_default.xml`文件](https://github.com/opencv/opencv/blob/master/data/haarcascades/haarcascade_frontalface_default.xml)。
+
+Haar 级联是一类使用级联函数执行分类的分类器算法。 保罗·维奥拉（Paul Viola）和迈克尔·琼斯（Michael Jones）引入了它们，以试图建立一种对象检测算法，该算法足够快以在低端设备上运行。 级联函数池来自几个较小的分类器。
+
+Haar 级联文件通常以**可扩展标记语言**（**XML**）的格式找到，并且通常执行一项特定功能，例如面部检测，身体姿势检测， 对象检测等。 [您可以在此处阅读有关 Haar 级联的更多信息](http://www.willberger.org/cascade-haar-explained/)。
+
+3.  现在，我们必须实例化摄像机以进行视频捕获。 为此，我们可以使用默认的笔记本电脑摄像头：
+
+```py
+video_capture = cv2.VideoCapture(0)
+```
+
+4.  现在让我们从视频中捕获帧并显示它们：
+
+```py
+while True:
+    # Capture frames
+    ret, frame = video_capture.read()
+
+    ### We'll add code below in future steps
+
+    ### We'll add code above in future steps
+
+    # Display the resulting frame
+    cv2.imshow('Webcam Capture', frame)
+
+    if cv2.waitKey(1) & 0xFF == ord('q'):
+        break
+```
+
+这样您就可以在屏幕上显示实时视频供稿。 在运行此程序之前，我们需要释放相机并正确关闭窗户。
+
+5.  要正确关闭实时捕获，请使用以下命令：
+
+```py
+video_capture.release()
+cv2.destroyAllWindows()
+```
+
+现在，让我们对脚本进行测试运行。
+
+您应该会看到一个窗口，其中包含您的脸部实时捕捉的图像（如果您不害羞的话）。
+
+6.  让我们向该视频提要添加面部检测。 由于用于面部检测的 Haar 级联在使用灰度图像时效果更好，因此我们将首先将每个帧转换为灰度，然后对其进行面部检测。 我们需要将此代码添加到`while`循环中，如以下代码所示：
+
+```py
+    ### We'll add code below in future steps
+
+    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
+
+    faces = faceCascade.detectMultiScale(
+        gray,
+        scaleFactor=1.1,
+        minNeighbors=5,
+        minSize=(30, 30),
+        flags=cv2.CASCADE_SCALE_IMAGE
+    )
+
+    ### We'll add code above in future steps
+```
+
+这样，我们就可以检测到人脸了，因此让我们在视频供稿中对其进行标记！
+
+7.  我们将简单地使用 OpenCV 的矩形绘制函数在屏幕上标记面孔：
+
+```py
+    minNeighbors=5,
+        minSize=(30, 30),
+        flags=cv2.CASCADE_SCALE_IMAGE
+    )
+
+    for (x, y, w, h) in faces:
+        cv2.rectangle(frame, (x, y), (x+w, y+h), (0, 255, 0), 2)
+
+    ### We'll add code above in future steps
+```
+
+现在让我们再次尝试运行脚本。
+
+转到终端并使用以下命令运行脚本：
+
+```py
+python filename.py
+```
+
+在这里，文件名是您保存脚本文件时的名称。
+
+您应该获得类似于以下屏幕截图的输出：
+
+![](img/bdc63074-88fd-4002-987f-59a700875d4c.png)
+
+要退出实时网络摄像头捕获，请使用键盘上的`Q`键（我们已在前面的代码中进行了设置）。
+
+我们已经研究了多媒体处理的三种主要形式的概述。 现在，让我们继续前进，构建基于 LSTM 的模型以生成音频。
+
+# 开发基于 RNN 的音乐生成模型
+
+在本节中，我们将开发音乐生成模型。 我们将为此使用 RNN，并使用 LSTM 神经元模型。 RNN 与简单的**人工神经网络**（**ANN**）有很大的不同-允许在层之间重复使用输入。
+
+虽然在 ANN 中，我们希望输入到神经网络的输入值向前移动，然后产生基于错误的反馈，并将其合并到网络权重中，但 RNN 使输入多次循环返回到先前的层。
+
+下图表示 RNN 神经元：
+
+![](img/a8612d78-5f3c-42de-bdbd-4ad2f846c635.png)
+
+从上图可以看到，通过神经元激活函数后的输入分为两部分。 一部分在网络中向前移动到下一层或输出，而另一部分则反馈到网络中。 在时间序列数据集中，可以相对于给定样本在`t`的时间标记每个样本，我们可以扩展前面的图，如下所示：
+
+![](img/2c0be82b-39b0-40f4-a350-e03f62267bce.png)
+
+但是，由于通过激活函数反复暴露值，RNN 趋向于**梯度消失**，其中 RNN 的值逐梯度小到可以忽略不计（或在梯度爆炸的情况下变大）。 为避免这种情况，引入了 LSTM 单元，该单元通过将信息存储在单元中而允许将信息保留更长的时间。 每个 LSTM 单元由三个门和一个存储单元组成。 三个门（输入，输出和遗忘门）负责确定哪些值存储在存储单元中。
+
+因此，LSTM 单元变得独立于 RNN 其余部分的更新频率，并且每个单元格都有自己的时间来记住它所拥有的值。 就我们而言，与其他信息相比，我们忘记了一些随机信息的时间要晚得多，这更自然地模仿了自然。
+
+您可以在以下链接中找到[有关 RNN 和 LSTM 的详细且易于理解的解释](https://skymind.ai/wiki/lstm)。
+
+在开始为项目构建模型之前，我们需要设置项目目录，如以下代码所示：
+
+```py
+├── app.py
+├── MusicGenerate.ipynb
+├── Output/
+└── Samples/
+    ├── 0.mid
+    ├── 1.mid
+    ├── 2.mid
+    └── 3.mid
+```
+
+请注意，我们已经在`Samples`文件夹中下载了四个 MIDI 文件样本。 然后，我们创建了要使用的`MusicGenerate.ipynb` Jupyter 笔记本。 在接下来的几个步骤中，我们将仅在此 Jupyter 笔记本上工作。 `app.py`脚本当前为空，将来，我们将使用它来托管模型。
+
+现在让我们开始创建基于 LSTM 的用于生成音乐的模型。
+
+# 创建基于 LSTM 的模型
+
+在本节中，我们将在 Jupyter 笔记本环境中研究`MusicGenerate.ipynb`笔记本：
+
+1.  在此笔记本中，我们将需要导入许多模块。 使用以下代码导入它们：
+
+```py
+import mido
+from mido import MidiFile, MidiTrack, Message
+from tensorflow.keras.layers import LSTM, Dense, Activation, Dropout, Flatten
+from tensorflow.keras.preprocessing import sequence
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.optimizers import Adam
+from sklearn.preprocessing import MinMaxScaler
+import numpy as np
+```
+
+我们使用了`mido`库。 如果您的系统上未安装它，则可以使用以下命令来安装它：
+
+```py
+pip install mido
+```
+
+注意，在前面的代码中，我们还导入了 Keras 模块和子部件。 该项目中使用的 TensorFlow 版本为 2.0。 为了在您的系统上安装相同版本或升级当前的 TensorFlow 安装，可以使用以下命令：
+
+```py
+pip install --upgrade pip
+
+pip install --upgrade tensorflow
+```
+
+现在，我们将继续阅读示例文件。
+
+2.  要将 MIDI 文件读入项目笔记本，请使用以下代码：
+
+```py
+notes = []
+for msg in MidiFile('Samples/0.mid') :
+    try:
+        if not msg.is_meta and msg.channel in [0, 1, 2, 3] and msg.type == 'note_on':
+            data = msg.bytes()
+            notes.append(data[1])
+    except:
+        pass
+```
+
+这将在`notes`列表中加载通道`0`，`1`，`2`和`3`的所有开头音符。
+
+要了解有关注解，消息和频道的更多信息，[请使用以下文档](https://mido.readthedocs.io/en/latest/messages.html)。
+
+3.  由于音符处于大于 0–1 范围的可变范围内，因此我们将使用以下代码将其缩放以适合公共范围：
+
+```py
+scaler = MinMaxScaler(feature_range=(0,1))
+scaler.fit(np.array(notes).reshape(-1,1))
+notes = list(scaler.transform(np.array(notes).reshape(-1,1)))
+```
+
+4.  我们基本上拥有的是随时间变化的笔记列表。 我们需要将其转换为时间序列数据集格式。 为此，我们使用以下代码转换列表：
+
+```py
+notes = [list(note) for note in notes]
+
+X = []
+y = []
+
+n_prev = 20
+for i in range(len(notes)-n_prev):
+    X.append(notes[i:i+n_prev])
+    y.append(notes[i+n_prev])
+```
+
+我们已将其转换为一个集合，其中每个样本都带有未来的 20 个音符，并且在数据集的末尾具有过去的 20 个音符。这可以通过以下方式进行：如果我们有 5 个样本，例如`M[1]`，`M[2]`，`M[3]`，`M[4]`和`M[5]`，然后我们将它们安排在大小为 2 的配对中（类似于我们的 20），如下所示：
+
+*  `M[1] M[2]`
+*  `M[2] M[3]`
+*  `M[3] M[4]`，依此类推
+
+5.  现在，我们将使用 Keras 创建 LSTM 模型，如以下代码所示：
+
+```py
+model = Sequential()
+model.add(LSTM(256, input_shape=(n_prev, 1), return_sequences=True))
+model.add(Dropout(0.3))
+model.add(LSTM(128, input_shape=(n_prev, 1), return_sequences=True))
+model.add(Dropout(0.3))
+model.add(LSTM(256, input_shape=(n_prev, 1), return_sequences=False))
+model.add(Dropout(0.3))
+model.add(Dense(1))
+model.add(Activation('linear'))
+optimizer = Adam(lr=0.001)
+model.compile(loss='mse', optimizer=optimizer)
+```
+
+随意使用此 LSTM 模型的超参数。
+
+6.  最后，我们将训练样本适合模型并保存模型文件：
+
+```py
+model.fit(np.array(X), np.array(y), 32, 25, verbose=1)
+model.save("model.h5")
+```
+
+这将在我们的项目目录中创建`model.h5`文件。 每当用户从应用发出生成请求时，我们都会将此文件与其他音乐样本一起使用，以随机生成新的乐曲。
+
+现在，让我们使用 Flask 服务器部署此模型。
+
+# 使用 Flask 部署模型
+
+对于项目的这一部分，您可以使用本地系统，也可以在其他地方的`app.py`中部署脚本。 我们将编辑此文件以创建 Flask 服务器，该服务器生成音乐并允许下载生成的 MIDI 文件。
+
+该文件中的某些代码与 Jupyter 笔记本类似，因为每次加载音频样本并将其与我们生成的模型一起使用时，音频样本始终需要进行类似的处理：
+
+1.  我们使用以下代码将所需的模块导入此脚本：
+
+```py
+import mido
+from mido import MidiFile, MidiTrack, Message
+from tensorflow.keras.models import load_model
+from sklearn.preprocessing import MinMaxScaler
+import numpy as np
+import random
+import time
+from flask import send_file
+import os
+
+from flask import Flask, jsonify
+
+app = Flask(__name__)
+```
+
+请注意，我们进行的最后四次导入与之前在 Jupyter 笔记本中导入的内容不同。 同样，我们不需要将几个 Keras 组件导入此脚本，因为我们将从已经准备好的模型中加载。
+
+在上一个代码块的最后一行代码中，我们实例化了一个名为`app`的 Flask 对象。
+
+2.  在此步骤中，我们将创建函数的第一部分，当在 API 上调用`/generate`路由时，该函数将生成新的音乐样本：
+
+```py
+@app.route('/generate', methods=['GET'])
+def generate():
+
+    songnum = random.randint(0, 3)
+
+    ### More code below this
+```
+
+3.  一旦我们随机决定在音乐生成过程中使用哪个样本文件，我们就需要像 Jupyter 笔记本中的训练样本那样对它进行类似的转换：
+
+```py
+def generate():
+    .
+    .
+    .    
+    notes = []
+
+    for msg in MidiFile('Samples/%s.mid' % (songnum)):
+        try:
+            if not msg.is_meta and msg.channel in [0, 1, 2, 3] and msg.type == 'note_on':
+                data = msg.bytes()
+                notes.append(data[1])
+        except:
+            pass
+
+    scaler = MinMaxScaler(feature_range=(0, 1))
+    scaler.fit(np.array(notes).reshape(-1, 1))
+    notes = list(scaler.transform(np.array(notes).reshape(-1, 1)))
+
+    ### More code below this
+```
+
+在前面的代码块中，我们加载了示例文件，并从训练过程中使用的相同通道中提取了其注解。
+
+4.  现在，我们将像在训练期间一样缩放音符：
+
+```py
+def generate():
+    .
+    .
+    .     
+    notes = [list(note) for note in notes]
+
+    X = []
+    y = []
+
+    n_prev = 20
+    for i in range(len(notes) - n_prev):
+        X.append(notes[i:i + n_prev])
+        y.append(notes[i + n_prev])
+
+    ### More code below this
+```
+
+我们也将这些笔记列表转换为适合模型输入的形状，就像我们在训练过程中对输入所做的一样。
+
+5.  接下来，我们将使用以下代码来加载 Keras 模型并从该模型创建新的注解列表：
+
+```py
+def generate():
+    .
+    .
+    . 
+    model = load_model("model.h5")
+
+    xlen = len(X)
+
+    start = random.randint(0, 100)
+
+    stop = start + 200
+
+    prediction = model.predict(np.array(X[start:stop]))
+    prediction = np.squeeze(prediction)
+    prediction = np.squeeze(scaler.inverse_transform(prediction.reshape(-1, 1)))
+    prediction = [int(i) for i in prediction]    
+
+    ### More code below this
+```
+
+6.  现在，我们可以使用以下代码将此音符列表转换为 MIDI 序列：
+
+```py
+def generate():
+    .
+    .
+    . 
+    mid = MidiFile()
+    track = MidiTrack()
+    t = 0
+    for note in prediction:
+        vol = random.randint(50, 70)
+        note = np.asarray([147, note, vol])
+        bytes = note.astype(int)
+        msg = Message.from_bytes(bytes[0:3])
+        t += 1
+        msg.time = t
+        track.append(msg)
+    mid.tracks.append(track)
+
+    ### More code below this
+```
+
+7.  现在，我们准备将文件保存到磁盘。 它包含从模型随机生成的音乐：
+
+```py
+def generate():
+    .
+    .
+    . 
+    epoch_time = int(time.time())
+
+    outputfile = 'output_%s.mid' % (epoch_time)
+    mid.save("Output/" + outputfile)
+
+    response = {'result': outputfile}
+
+    return jsonify(response)
+```
+
+因此，`/generate` API 以 JSON 格式返回生成的文件的名称。 然后，我们可以下载并播放此文件。
+
+8.  要将文件下载到客户端，我们需要使用以下代码：
+
+```py
+@app.route('/download/<fname>', methods=['GET'])
+def download(fname):
+    return send_file("Output/"+fname, mimetype="audio/midi", as_attachment=True)
+```
+
+请注意，前面的函数在`/download/filename`路由上起作用，在该路由上，客户端根据上一代 API 调用的输出提供文件名。 下载的文件的 MIME 类型为`audio/midi`，它告诉客户端它是 MIDI 文件。
+
+9.  最后，我们可以添加将执行此服务器的代码：
+
+```py
+if __name__ == '__main__':
+    app.run(host="0.0.0.0", port=8000)
+```
+
+完成此操作后，我们可以在终端中使用以下命令来运行服务器：
+
+```py
+python app.py
+```
+
+如果代码中产生任何警告，您将从控制台获得一些调试信息。 完成此操作后，我们准备在下一节中为我们的 API 构建 Flutter 应用客户端。
+
+# 在 Android 和 iOS 上部署音频生成 API
+
+成功创建和部署模型后，现在开始构建移动应用。 该应用将用于获取和播放由先前创建的模型生成的音乐。
+
+它将具有三个按钮：
+
+*   **生成音乐**：生成新的音频文件
+*   **播放**：播放新生成的文件
+*   **停止**：停止正在播放的音乐
+
+另外，它的底部将显示一些文本，以显示应用的当前状态。
+
+该应用将显示如下：
+
+![](img/1e2b6e26-45a3-4268-9105-e22b939b2199.png)
+
+该应用的小部件树如下所示：
+
+![](img/b62ded76-b968-4eff-8ba8-12bd567d47bf.png)
+
+现在开始构建应用的 UI。
+
+# 创建 UI
+
+我们首先创建一个新的 Dart 文件`play_music.dart`和一个有状态的小部件`PlayMusic`。 如前所述，在该文件中，我们将创建三个按钮来执行基本功能。 以下步骤描述了如何创建 UI：
+
+1.  定义`buildGenerateButton()`方法以创建`RaisedButton`变量，该变量将用于生成新的音乐文件：
+
+```py
+ Widget buildGenerateButton() {
+   return Padding(
+     padding: EdgeInsets.only(left: 16, right: 16, top: 16),
+     child: RaisedButton(
+       child: Text("Generate Music"),
+       color: Colors.blue,
+       textColor: Colors.white,
+     ),
+   );
+ }
+```
+
+在前面定义的函数中，我们创建一个`RaisedButton`，并添加`Generate Music`文本作为子元素。 `color`属性的`Colors.blue`值用于为按钮赋予蓝色。 另外，我们将`textColor`修改为`Colors.white`，以使按钮内的文本为白色。 使用`EdgeInsets.only()`给按钮提供左，右和顶部填充。 在后面的部分中，我们将在按钮上添加`onPressed`属性，以便每次按下按钮时都可以从托管模型中获取新的音乐文件。
+
+2.  定义`buildPlayButton()`方法以播放新生成的音频文件：
+
+```py
+Widget buildPlayButton() {
+   return Padding(
+   padding: EdgeInsets.only(left: 16, right: 16, top: 16),
+   child: RaisedButton(
+     child: Text("Play"),
+     onPressed: () {
+       play();
+     },
+     color: Colors.blue,
+     textColor: Colors.white,
+     ),
+   );
+ }
+```
+
+在前面定义的函数中，我们创建一个`RaisedButton`，并添加`"Play"`文本作为子元素。 `color`属性的`Colors.blue`值用于为按钮赋予蓝色。 另外，我们将`textColor`修改为`Colors.white`，以使按钮内的文本为白色。 使用`EdgeInsets.only()`给按钮提供左，右和顶部填充。 在后面的部分中，我们将在按钮上添加`onPressed`属性，以在每次按下按钮时播放新生成的音乐文件。
+
+3.  定义`buildStopButton()`方法以停止当前正在播放的音频：
+
+```py
+Widget buildStopButton() {
+   return Padding(
+     padding: EdgeInsets.only(left: 16, right: 16, top: 16),
+     child: RaisedButton(
+       child: Text("Stop"),
+       onPressed: (){
+         stop();
+       },
+       color: Colors.blue,
+       textColor: Colors.white,
+     )
+   );
+ }
+```
+
+在前面定义的函数中，我们创建一个`RaisedButton`，并添加`"Stop"`文本作为子元素。 `color`属性的`Colors.blue`值用于为按钮赋予蓝色。 另外，我们将`textColor`修改为`Colors.white`，以使按钮内的文本为白色。 使用`EdgeInsets.only()`给按钮提供左，右和顶部填充。 在下一节中，我们将向按钮添加`onPressed`属性，以在按下按钮时停止当前播放的音频。
+
+4.  覆盖`PlayMusicState`中的`build()`方法，以创建先前创建的按钮的`Column`：
+
+```py
+ @override
+ Widget build(BuildContext context) {
+   return Scaffold(
+     appBar: AppBar(
+       title: Text("Generate Play Music"),
+     ),
+     body: Column(
+       crossAxisAlignment: CrossAxisAlignment.stretch,
+       children: <Widget>[
+         buildGenerateButton(),
+         buildPlayButton(),
+         buildStopButton(),
+       ],
+     )
+   );
+ }
+```
+
+在前面的代码片段中，我们返回`Scaffold`。 它包含一个`AppBar`，其中具有[Generate Play Music]作为`title`。 `Scaffold`的主体是`Column`。 列的子级是我们在上一步中创建的按钮。 通过调用相应方法将按钮添加到该列中。 此外，`crossAxisAlignment`属性设置为`CrossAxisAlignment.stretch`，以便按钮占据父容器（即列）的总宽度。
+
+此时，该应用如下所示：
+
+![](img/36c51120-f45c-42e6-99ea-31a1bccd4126.png)
+
+在下一节中，我们将添加一种在应用中播放音频文件的机制。
+
+# 添加音频播放器
+
+创建应用的用户界面后，我们现在将音频播放器添加到应用中以播放音频文件。 我们将使用`audioplayer`插件添加音频播放器，如下所示：
+
+1.  我们首先将依赖项添加到`pubspec.yaml`文件中：
+
+```py
+audioplayers: 0.13.2
+```
+
+现在，通过运行`flutter pub get`获得包。
+
+2.  接下来，我们将插件导入`play_music.dart`。
+
+```py
+import 'package:audioplayers/audioplayers.dart';
+```
+
+3.  然后，在`PlayMusicState`内创建`AudioPlayer`的实例：
+
+```py
+AudioPlayer audioPlayer = AudioPlayer();
+```
+
+4.  现在，让我们定义一个`play()`方法来播放远程可用的音频文件，如下所示：
+
+```py
+play() async {
+   var url = 'http://34.70.80.18:8000/download/output_1573917221.mid';
+   int result = await audioPlayer.play(url);
+   if (result == 1) {
+     print('Success');
+     }
+ }
+```
+
+最初，我们将使用存储在`url`变量中的样本音频文件。 通过传递`url`中的值，使用`audioPlayer.play()`播放音频文件。 另外，如果从`url`变量成功访问和播放了音频文件，则结果将存储在结果变量中，其值将为`1`。
+
+5.  现在，将`onPressed`属性添加到`buildPlayButton`内置的播放按钮中，以便每当按下该按钮时就播放音频文件：
+
+```py
+Widget buildPlayButton() {
+   return Padding(
+   padding: EdgeInsets.only(left: 16, right: 16, top: 16),
+   child: RaisedButton(
+     ....
+     onPressed: () {
+       play();
+     },
+     ....
+     ),
+   );
+ }
+```
+
+在前面的代码片段中，我们添加`onPressed`属性并调用`play()`方法，以便每当按下按钮时就播放音频文件。
+
+6.  现在，我们将定义`stop()`以停止正在播放的音乐：
+
+```py
+void stop() {
+   audioPlayer.stop();
+ }
+```
+
+在`stop()`方法内部，我们只需调用`audioPlayer.stop()`即可停止正在播放的音乐。
+
+7.  最后，我们为`buildStopButton()`中内置的停止按钮添加`onPressed`属性：
+
+```py
+ Widget buildStopButton() {
+   return Padding(
+     padding: EdgeInsets.only(left: 16, right: 16, top: 16),
+     child: RaisedButton(
+       ....
+       onPressed: (){
+         stop();
+       },
+       ....
+     )
+   );
+ }
+```
+
+在前面的代码片段中，我们向`onPressed`中的`stop()`添加了一个调用，以便一旦按下停止按钮就停止音频。
+
+现在开始使用 Flutter 应用部署模型。
+
+# 部署模型
+
+在为应用成功添加基本的播放和停止功能之后，现在让我们访问托管模型以每次生成，获取和播放新的音频文件。 以下步骤详细讨论了如何在应用内部访问模型：
+
+1.  首先，我们定义`fetchResponse()`方法来生成和获取新的音频文件：
+
+```py
+void fetchResponse() async {
+   final response =
+     await http.get('http://35.225.134.65:8000/generate');
+   if (response.statusCode == 200) {
+     var v = json.decode(response.body);
+     fileName = v["result"] ;
+   } else {
+     throw Exception('Failed to load');
+   }
+ }
+```
+
+我们首先使用`http.get()`从 API 获取响应，然后传入托管模型的 URL。 `get()`方法的响应存储在`response`变量中。 `get()`操作完成后，我们使用`response.statusCode`检查状态码。 如果状态值为`200`，则获取成功。 接下来，我们使用`json.decode()`将响应的主体从原始 JSON 转换为`Map<String,dynamic>`，以便可以轻松访问响应主体中包含的键值对。 我们使用`v["result"]`访问新音频文件的值，并将其存储在全局`fileName`变量中。 如果`responseCode`不是`200`，我们只会抛出一个错误。
+
+2.  现在让我们定义`load()`以对`fetchResponse()`进行适当的调用：
+
+```py
+void load() {
+   fetchResponse();
+ }
+```
+
+在前面的代码行中，我们仅定义一个`load()`方法，该方法用于调用`fetchResponse()`来获取新生成的音频文件的值。
+
+3.  现在，我们将修改`buildGenerateButton()`中的`onPressed`属性，以每次生成新的音频文件：
+
+```py
+Widget buildGenerateButton() {
+   return Padding(
+     ....
+     child: RaisedButton(
+       ....
+       onPressed: () {
+         load();
+       },
+       ....
+     ),
+   );
+ }
+```
+
+根据应用的功能，每当按下生成按钮时，都应生成一个新的音频文件。 这直接意味着无论何时按下“生成”按钮，我们都需要调用 API 以获取新生成的音频文件的名称。 因此，我们修改`buildGenerateButton()`以添加`onPressed`属性，以便每当按下按钮时，它都会调用`load()`，该调用随后将调用`fetchResponse()`并将新音频文件的名称存储在输出中。
+
+4.  托管的音频文件有两个部分，`baseUrl`和`fileName`。 `baseUrl`对于所有调用均保持不变。 因此，我们声明一个存储`baseUrl`的全局字符串变量：
+
+```py
+String baseUrl = 'http://34.70.80.18:8000/download/';
+```
+
+回想一下，我们已经在“步骤 1”中将新音频文件的名称存储在`fileName`中。
+
+5.  现在，让我们修改`play()`以播放新生成的文件：
+
+```py
+play() async {
+   var url = baseUrl + fileName;
+   AudioPlayer.logEnabled = true;
+   int result = await audioPlayer.play(url);
+   if (result == 1) {
+     print('Success');
+     }
+ }
+```
+
+在前面的代码片段中，我们修改了前面定义的`play()`方法。 我们通过附加`baseUrl`和`fileName`创建一个新的 URL，以便`url`中的值始终与新生成的音频文件相对应。 我们在调用`audioPlayer.play()`时传递 URL 的值。 这样可以确保每次按下播放按钮时，都会播放最新生成的音频文件。
+
+6.  此外，我们添加了`Text`小部件以反映文件生成状态：
+
+```py
+ Widget buildLoadingText() {
+   return Center(
+     child: Padding(
+       padding: EdgeInsets.only(top: 16),
+       child: Text(loadText)
+     )
+   );
+ }
+```
+
+在前面定义的函数中，我们创建了一个简单的`Text`小部件，以反映提取操作正在运行以及何时完成的事实。 `Text`小部件具有顶部填充，并与`Center`对齐。 `loadText`值用于创建窗口小部件。
+
+全局声明该变量，其初始值为`'Generate Music'`：
+
+```py
+String loadText = 'Generate Music';
+```
+
+7.  更新`build()`方法以添加新的`Text`小部件：
+
+```py
+@override
+ Widget build(BuildContext context) {
+   return Scaffold(
+     ....
+     body: Column(
+       ....
+       children: <Widget>[
+         buildGenerateButton(),
+         ....
+         buildLoadingText()
+       ],
+     )
+   );
+ }
+```
+
+现在，我们更新`build()`方法以添加新创建的`Text`小部件。 该窗口小部件只是作为先前创建的`Column`的子级添加的。
+
+8.  当用户想要生成一个新的文本文件时，并且在进行提取操作时，我们需要更改文本：
+
+```py
+void load() {
+   setState(() {
+    loadText = 'Generating...';
+   });
+   fetchResponse();
+ }
+```
+
+在前面的代码段中，`loadText`值设置为`'Generating...'`，以反映正在进行`get()`操作的事实。
+
+9.  最后，获取完成后，我们将更新文本：
+
+```py
+void fetchResponse() async {
+   final response =
+     await http.get('http://35.225.134.65:8000/generate').whenComplete((){
+       setState(() {
+        loadText = 'Generation Complete';
+       });
+     });
+   ....
+ }
+```
+
+提取完成后，我们将`loadText`的值更新为`'Generation Complete'`。 这表示应用现在可以播放新生成的文件了。
+
+[可以在此处查看`play_music.dart`的整个代码](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter7/flutter_generate_music/lib/play_music.dart)。
+
+在使应用的所有部分正常工作之后，现在让我们通过创建最终的材质应用将所有内容放在一起。
+
+# 创建最终的材质应用
+
+现在创建`main.dart`文件。 该文件包含无状态窗口小部件`MyApp`。 我们重写`build()`方法并将`PlayMusic`设置为其子级：
+
+```py
+ @override
+ Widget build(BuildContext context) {
+   return MaterialApp(
+     title: 'Flutter Demo',
+     theme: ThemeData(
+       primarySwatch: Colors.blue,
+     ),
+     home: PlayMusic(),
+   );
+ }
+```
+
+在覆盖的`build()`方法中，我们简单地将`home`创建为`PlayMusic()`的`MaterialApp`。
+
+[整个项目可以在这里查看](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter7/flutter_generate_music)。
+
+# 总结
+
+在本章中，我们通过将多媒体处理分解为图像，音频和视频处理的核心组件来进行研究，并讨论了一些最常用的处理工具。 我们看到了使用 OpenCV 执行图像或视频处理变得多么容易。 另外，我们看到了一个使用 Magenta 生成鼓音乐的简单示例。 在本章的下半部分，我们介绍了 LSTM 如何与时间序列数据一起使用，并构建了一个 API，该 API 可以从提供的样本文件生成器乐。 最后，我们将此 API 与 Flutter 应用结合使用，该应用是跨平台的，可以同时部署在 Android，iOS 和 Web 上。
+
+在下一章中，我们将研究如何使用**深度强化学习**（**DRL**）来创建可以玩棋盘游戏（例如国际象棋）的智能体。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/08.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/08.md
new file mode 100644
index 00000000..8f48a620
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/08.md
@@ -0,0 +1,1334 @@
+# 八、基于强化神经网络的国际象棋引擎
+
+在几个在线应用商店以及几乎每个软件商店中，游戏都提供了自己的完整版块。 游戏的重要性和热情不容忽视，这就是为什么全世界的开发人员都在不断尝试开发出更好，更吸引人的游戏的原因。
+
+在流行的棋盘游戏世界中，国际象棋是全世界最有竞争力和最复杂的游戏之一。 已经尝试了一些强大的自动化程序来下棋和与人类竞争。 本章将讨论 DeepMind 的开发人员所使用的方法，他们创建了 Alpha Zero，这是一种自学算法，可以自学下棋，从而能够以一个单打击败市场上当时最好的国际象棋 AI，Stockfish 8。 在短短 24 小时的训练中得分较高。
+
+在本章中，我们将介绍您需要理解的概念，以便构建这种深度强化学习算法，然后构建示例项目。 请注意，该项目将要求您具有 Python 和机器学习的丰富知识。
+
+我们将在本章介绍以下主题：
+
+*   强化学习导论
+*   手机游戏中的强化学习
+*   探索 Google 的 DeepMind
+*   适用于 Connect 4 的 Alpha 类零 AI
+*   基础项目架构
+*   为国际象棋引擎开发 GCP 托管的 REST API
+*   在 Android 上创建简单的国际象棋 UI
+*   将国际象棋引擎 API 与 UI 集成
+
+让我们从讨论增强学习智能体在手机游戏中的用法和普及程度开始。
+
+# 强化学习导论
+
+在过去的几年中，强化学习已成为机器学习研究人员中一个重要的研究领域。 人们越来越多地使用它来构建能够在任何给定环境中表现更好的智能体，以寻求对他们所执行行为的更好回报。 简而言之，这为我们提供了强化学习的定义–在人工智能领域，这是一种算法，旨在创建虚拟的**智能体**，它可在任何给定条件下，在**环境**中执行**动作**，在执行一系列动作后，取得最佳的**奖励**。
+
+让我们尝试通过定义与通用强化学习算法关联的变量来赋予此定义更多的结构：
+
+*   **智能体**：执行动作的虚拟实体。 是替换游戏/软件的指定用户的实体。
+*   **操作**（`a`）：智能体可以执行的可能操作。
+*   **环境**（`e`）：在软件/游戏中可用的一组场景。
+*   **状态**（`S`）：所有方案的集合，以及其中可用的配置。
+*   **奖励**（`R`）：对于智能体执行的任何操作返回的值，然后智能体尝试将其最大化。
+*   **策略**（`π`）：智能体用来确定接下来必须执行哪些操作的策略。
+*   **值**（`V`）：`R`是短期每动作奖励，而值是在一组动作结束时预期的总奖励。`V[π](s)`通过遵循状态`S`下的策略`π`来定义预期的总回报。
+
+下图显示了该算法的流程：
+
+![](img/4e61a5dd-03d4-4334-818d-570e37d0f3f9.png)
+
+尽管我们在前面的定义列表中没有提到观察者，但必须有观察者或评估者才能产生奖励。 有时，观察者本身可能是一个复杂的软件，但是通常，这是一个简单的评估函数或指标。
+
+要获得关于强化学习的更详细的想法，您可以阅读[这个页面](https://en.wikipedia.org/wiki/Reinforcement_learning)上的 Wikipedia 文章。 有关正在使用的强化学习智能体的快速样本，[请阅读以下 DataCamp 文章](https://www.datacamp.com/community/tutorials/introduction-reinforcement-learning)。
+
+在下一部分中，我们将学习强化学习在手机游戏中的地位。
+
+# 手机游戏中的强化学习
+
+出于各种原因而希望构建具有游戏性的 AI 的开发人员中，强化学习已变得越来越流行-只需检查 AI 的功能，建立可以帮助专业人士改善游戏水平的训练智能体等等。 从研究人员的角度来看，游戏为强化学习智能体提供了最佳的测试环境，可以根据经验做出决策并学习在任何给定环境中的生存/成就。 这是因为可以使用简单而精确的规则设计游戏，从而可以准确预测环境对特定动作的反应。 这使得更容易评估强化学习智能体的表现，从而为 AI 提供良好的训练基础。 考虑到在玩游戏的 AI 方面的突破，也有人表示，我们向通用 AI 的发展速度比预期的要快。 但是强化学习概念如何映射到游戏？
+
+让我们考虑一个简单的游戏，例如井字棋。 另外，如果您觉得古怪，只需使用 Google 搜索*井字棋*，您就会在搜索结果中看到一个游戏！
+
+考虑您正在用计算机玩井字棋。 这里的计算机是智能体。 在这种情况下，环境是什么？ 您猜对了–井字棋板以及在环境中管理游戏的一组规则。 井字棋盘上已经放置的标记可以确定环境所在的状态。座席可以在棋盘上放置的`X`或`O`是他们可以执行的动作，即输掉，赢得比赛或平局。 或朝着损失，胜利或平局前进是他们执行任何行动后回馈给智能体的奖励。 智能体赢得比赛所遵循的策略是遵循的策略。
+
+因此，从该示例可以得出结论，强化学习智能体非常适合构建学习玩任何游戏的 AI。 这导致许多开发人员想出了象围棋，跳棋，反恐精英等国际象棋以外的几种流行游戏的游戏 AI。 甚至 Chrome Dino 之类的游戏也发现开发人员试图使用 AI 进行游戏。
+
+在下一部分中，我们将简要概述 Google 的 DeepMind，它是游戏 AI 制造商领域中最受欢迎的公司之一。
+
+# 探索 Google 的 DeepMind
+
+当您谈论自学习人工智能的发展时，DeepMind 可能是最著名的名称之一，这是由于它们在该领域的开创性研究和成就。 自 2015 年 Google 重组以来，DeepMind 在 2014 年被 Google 收购，目前是 Alphabet 的全资子公司。DeepMind 最著名的作品包括 AlphaGo 及其继任者 Alpha Zero。 让我们更深入地讨论这些项目，并尝试了解是什么使它们在当今如此重要。
+
+# AlphaGo
+
+2015 年，AlphaGo 成为第一个在`19x19`棋盘上击败职业围棋选手 Lee Sedol 的计算机软件。 突破被记录下来并作为纪录片发行。 击败李·塞多尔的影响如此之大，以至于韩国 Baduk 协会授予了荣誉 9 丹证书，这实际上意味着围棋选手的游戏技能与神性息息相关。 这是围棋历史上第一次提供 9 荣誉荣誉证书，因此提供给 AlphaGo 的证书编号为 001。ELO 等级为 3,739。
+
+AlphaGo Master 的继任者 AlphaGo Master 在三场比赛中击败了当时统治世界的游戏冠军 Ke Jie。 为了表彰这一壮举，它获得了中国围棋协会颁发的 9 丹证书。 该软件当时的 ELO 等级为 4,858。
+
+但是，这两款软件都被其继任者 AlphaGo Zero 压倒了，后者在 3 天的自学式学习中，能够在 21 分之后以 100：0 的游戏得分击败 AlphaGo，在 89:11 的游戏得分下击败 AlphaGo Master。 天的训练。 40 天后，它的 ELO 评分达到了 5,185，超过了以前所有 Go AI 的技能。
+
+AlphaGo 基于蒙特卡洛树搜索算法，并采用了对生成的和人类玩家游戏日志进行的深度学习。 该模型的初始训练是通过人类游戏进行的。 然后，计算机将与自己对战并尝试改善其游戏性。 树搜索将被设置为一定的深度，以避免巨大的计算开销，在这种开销下，计算机将尝试达到所有可能的动作，然后再进行任何动作。
+
+总而言之，遵循以下过程：
+
+1.  最初，该模型将在人类游戏日志上进行训练。
+2.  一旦在基线上进行了训练，计算机将使用在先前步骤中训练过的模型与自己竞争，并使用有上限的蒙特卡洛树搜索来确保进行移动而不会长时间停滞该软件。 这些游戏的日志已生成。
+3.  然后对生成的游戏进行了训练，从而改善了整体模型。
+
+现在，让我们讨论 Alpha Zero。
+
+# Alpha Zero 
+
+Alpha Zero 是 AlphaGo Zero 的后继产品，它是对算法进行泛化的尝试，以便也可以用于其他棋盘游戏。 Alpha Zero 经过训练可以下棋，将棋（类似于棋的日式游戏）和围棋，其表现与相应游戏的现有 AI 相当。 经过 34 小时的训练，Alpha Zero for Go 击败了经过 3 天训练的 AlphaGo Zero，得分为 60:40。 这导致 ELO 等级为 4,430。
+
+经过约 9 个小时的训练，Alpha Zero 击败了 TCEC 竞赛 2016 年冠军的 Stockfish 8。 因此，它仍然是迄今为止最强大的国际象棋 AI，尽管有人声称最新版本的 Stockfish 将能够击败它。
+
+AlphaGo Zero 和 Alpha Zero 变体之间的主要区别如下：
+
+*   **出现平局的可能性**：在围棋中，保证有一名选手获胜，而对于象棋则不是这样。 因此，对 Alpha Zero 进行了修改，以允许并列游戏。
+*   **对称性**：AlphaGo Zero 利用了电路板的对称性。 但是，由于国际象棋不是非对称游戏，因此必须对 Alpha Zero 进行修改以使其工作。
+*   **硬编码的超参数搜索**：Alpha Zero 具有用于超参数搜索的硬编码规则。
+*   在 Alpha Zero 的情况下，神经网络会不断更新。
+
+此时，您可能会想，“什么是蒙特卡罗树搜索？”。 让我们尝试回答这个问题！
+
+# 蒙特卡洛树搜索
+
+当我们谈论象棋，围棋或井字棋等基于当前场景的战略游戏时，我们所谈论的是大量可能的场景和可以在任何情况下在其中的给定点执行的动作。 尽管对于井字棋等较小的游戏，可能的状态和动作的数量在现代计算机可以计算的范围内，但对于游戏可以生成的状态数量，更复杂的游戏（如国际象棋和围棋）呈指数增长。
+
+蒙特卡洛树搜索尝试找到在给定环境下赢得任何游戏或获得更好奖励所需要的正确动作序列。 之所以将其称为**树搜索**是因为它创建了游戏中所有可能状态的树，并通过创建每个状态的分支来实现其中的所有可能动作。 表示为树中的节点。
+
+让我们考虑以下简单的游戏示例。 假设您正在玩一个游戏，要求您猜一个三位数的数字，每个猜中都有一个相关的奖励。 可能的数字范围是 1 到 5，您可以猜测的次数是 3。 如果您做出准确的猜测，即正确猜测任意给定位置的数字，则将获得 5 分。但是，如果您做出错误的猜测，将得到正确数字两边的线性差值的分数。
+
+例如，如果要猜测的数字是 2，则可能获得以下奖励分数：
+
+*   如果您猜 1，则得分为 4
+*   如果您猜 2，则得分为 5
+*   如果您猜 3，则得分为 4
+*   如果您猜 4，则得分为 3
+*   如果您猜 5，则得分为 2
+
+因此，游戏中的最佳总得分为 15，即每个正确的猜测为 5 分。 鉴于此，您可以在每个步骤中的五个选项中进行选择，游戏中可能的状态总数为`5 * 5 * 5 = 125`，只有一个状态会给出最佳分数。
+
+让我们尝试在树上描绘前面的游戏。 假设您要猜测的数字是 413。在第一步中，您将具有以下树：
+
+![](img/9c6f27d5-d0ce-4269-97f4-70db6c42e1ec.png)
+
+做出选择后，您将获得奖励，再次有五个选项可供选择-换句话说，每个节点中有五个分支可以遍历。 在最佳游戏玩法中，将获得以下树：
+
+![](img/8366fcd1-0d0a-46d3-bd8e-5fe01f049cf3.png)
+
+现在，让我们考虑以下事实：围棋游戏共有`3^361`个可能状态。 在 AI 采取行动之前尝试计算每种可能性变得不切实际。 这是蒙特卡罗树搜索与上限可信度算法相结合的地方，它比其他方法更具优势，因为它可以终止到任何搜索深度，并且可以产生趋向于最佳分数的结果。 因此，算法不需要遍历树的每个分支。 一旦树形搜索算法意识到任何特定分支的表现不佳，就可以停止沿该路径前进，而专注于表现更好的路径。 而且，它可以尽早终止任何路径并在该点返回预期的回报，从而可以调整 AI 采取任何行动所需的时间。
+
+更确切地说，蒙特卡罗树搜索遵循以下步骤：
+
+1.  **选择**：从树的当前节点中选择最佳回报分支。 例如，在前面的游戏树中，选择除 4 以外的任何分支将产生较低的分数，因此选择了 4。
+
+2.  **扩展**：一旦选择了最佳回报节点，该节点下的树将进一步扩展，从而创建具有该节点可用的所有可能选项（分支）的节点。 这可以理解为从游戏的任何位置布局 AI 的未来动作。
+3.  **模拟**：现在，由于事先不知道在扩展阶段创建的哪个未来选项最有回报，因此我们使用强化学习逐个模拟游戏的每个选项。 请注意，与上限可信度上限算法结合使用时，直到结束游戏才算重要。 计算任何`n`个步骤的奖励也是一种不错的方法。
+4.  **更新**：最后，更新节点和父节点的奖励分数。 尽管不可能回到游戏中，并且由于任何节点的值都已减小，但如果在以后的游戏中的那个阶段找到了更好的替代方案，那么 AI 将不会遵循这条路径，从而通过多次迭代来改善其游戏玩法。
+
+接下来，我们将构建一个系统，该系统的工作原理类似于 Alpha Zero，并尝试学习玩 Connect 4 游戏，该游戏比 Tic-Tac-Toe 游戏要复杂得多，但对我们来说足够大，来解释如何构建类似的国际象棋引擎。
+
+# 适用于 Connect 4 的类似 Alpha Zero 的 AI
+
+在开始研究可玩 Connect4 的 AI 之前，让我们简要了解一下游戏及其动态。 Connect 4，有时也称为连续四人，连续四人，四人以上，等等，是全世界儿童中最受欢迎的棋盘游戏之一。 我们也可以将它理解为井字棋的更高级版本，在其中您必须水平，垂直或对角放置三个相同类型的标记。 棋盘通常是一个`6x7`的网格，两个玩家各自玩一个标记。
+
+Connect 4 的规则可能会有所不同，因此让我们为 AI 将学习的规则版本制定一些具体规则：
+
+*   该游戏被模拟为在具有七个空心列和六行的垂直板上玩。 每列在板的顶部都有一个开口，可以在其中插入片段。可以查看已放入板的片段。
+*   两位玩家都有 21 个形状像不同颜色硬币的硬币。
+*   将硬币放在板上构成一个动作。
+*   碎片从顶部的开口下降到最后一行，或者堆积在该列的最后一块。
+*   第一个以任意方向连接其任意四枚硬币的玩家，因此彼此之间不会存在任何间隙或其他玩家的硬币获胜。
+
+现在，让我们分解将 Connect 4 播放式自学 AI 分解为子问题的问题：
+
+1.  首先，我们需要创建棋盘的虚拟表示。
+2.  接下来，我们必须创建允许根据游戏规则移动的函数。
+3.  然后，为了保存游戏状态，我们需要一个状态管理系统。
+4.  接下来，我们将简化游戏玩法，其中将提示用户进行移动并宣布游戏终止。
+5.  之后，我们必须创建一个脚本，该脚本可以生成示例游戏玩法，供系统学习。
+6.  然后，我们必须创建训练函数来训练系统。
+7.  接下来，我们需要**蒙特卡洛树搜索**（**MCTS**）实现。
+8.  最后，我们需要一个神经网络的实现。
+9.  除了前面的具体步骤之外，我们还需要为系统创建许多驱动脚本以使其更加可用。
+
+让我们依次移至前面的要点，一次覆盖系统的每个部分。 但是，首先，我们将快速浏览该项目中存在的目录结构和文件，[这在本书的 GitHub 存储库中也可以找到](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter8/connect4)。 让我们来看看：
+
+*   `command/`：
+*   `__init__.py`：此文件使我们可以将此文件夹用作模块。
+*   `arena.py`：此文件获取并解析用于运行游戏的命令。
+*   `generate.py`：此文件接受并分析自玩招式生成系统的命令。
+*   `newmodel.py`：此文件用于为智能体创建新的空白模型。
+*   `train.py`：此文件用于训练基于增强学习的神经网络如何玩游戏。
+*   `util/`：
+*   `__init__.py`：此文件使我们可以将此文件夹用作模块。
+*   `arena.py`：此文件创建并维护玩家之间进行的比赛的记录，并允许我们在轮到谁之间切换。
+*   `compat.py`：此文件是用于使程序与 Python 2 和 Python 3 兼容的便捷工具。如果您确定正在开发的版本并希望在其上运行，则可以跳过此文件。
+*   `generate.py`：此文件播放一些随机移动的游戏，再加上 MCTS 移动，以生成可用于训练目的的游戏日志。 该文件存储每个游戏的获胜者以及玩家做出的动作。
+*   `internal.py`：此文件创建棋盘的虚拟表示并定义与棋盘相关的函数，例如将棋子放置在棋盘上，寻找获胜者或只是创建新棋盘。
+*   `keras_model.py`：此文件定义充当智能体大脑的模型。 在本项目的后面，我们将更深入地讨论该文件。
+*   `mcts.py`：此文件提供 MCTS 类，该类实质上是蒙特卡罗树搜索的实现。
+*   `nn.py`：此文件提供 NN 类，它是神经网络的实现，以及与神经网络相关的函数，例如拟合，预测，保存等。
+*   `player.py`：此文件为两种类型的播放器提供了类-MCTS 播放器和人工播放器。 MCTS 玩家是我们将训练的智能体，以玩游戏。
+*   `state.py`：这是`internal.py`文件的包装，提供了用于访问电路板和与电路板相关的函数的类。
+*   `trainer.py`：这使我们可以训练模型。 这与`nn.py`中提供的内容不同，因为它更专注于涵盖游戏的训练过程，而`nn.py`中的内容主要是围绕此功能的包装。
+
+接下来，我们将继续探索这些文件中每个文件的一些重要部分，同时遵循我们先前为构建 AI 制定的步骤。
+
+# 创建棋盘的虚拟表示
+
+您将如何代表 Connect 4 棋盘？ 代表 Connect 4 棋盘的两种常用方法以及游戏状态。 让我们来看看：
+
+*   **人类可读的长格式**：在这种形式中，木板的行和列分别显示在 x 和 y 轴上，并且两个玩家的标记都显示为`x`和`o`， 分别（或任何其他合适的字符）。 可能如下所示：
+
+```py
+  |1 2 3 4 5 6 7 
+--+--------------
+ 1|. . . . . . .
+ 2|. . . . . . .
+ 3|. . . . . . .
+ 4|. . . . o x .
+ 5|x o x . o o .
+ 6|o x x o x x o
+```
+
+但是，这种形式有点冗长并且在计算上不是很友好。
+
+*   **计算有效的形式**：在此形式中，我们将板存储为 2D NumPy 数组：
+
+```py
+array([[1, 1, 0, 0, 0, 0, 0],
+       [0, 0, 0, 0, 0, 0, 0],
+       [0, 0, 0, 0, 0, 0, 0],
+       [0, 0, 0, 0, 0, 0, 0],
+       [0, 0, 0, 0, 1, 0, 0],
+       [0, 0, 0, 0, 0, 0, 0]], dtype=int8)
+```
+
+以这种方式创建该数组，当将其展平为一维数组时，板位置按顺序排列，就好像该数组实际上是一维数组一样。 前两个位置分别编号为 0 和 1，而第 5 个位置位于第 5 行和第 5 列，编号为 32。通过将前一个代码块中的矩阵与给定的表进行映射，可以轻松理解此条件。 在下图中：
+
+![](img/5ab5e25d-6a20-4654-b28e-7ee2eafb005d.png)
+
+这种形式适合于进行计算，但不适合玩家在游戏过程中观看，因为对于玩家而言很难解密。
+
+*   一旦决定了如何表示电路板及其部件，就可以开始在`util/internal.py`文件中编写代码，如下所示：
+
+```py
+BOARD_SIZE_W = 7
+BOARD_SIZE_H = 6
+KEY_SIZE = BOARD_SIZE_W * BOARD_SIZE_H
+```
+
+前几行设置了板子的常数，在这种情况下，是板子上的行数和列数。 我们还通过将它们相乘来计算板上的按键或位置的数量。
+
+*   现在，让我们准备在板上生成获胜位置的代码，如下所示：
+
+```py
+LIST4 = []
+LIST4 += [[(y, x), (y + 1, x + 1), (y + 2, x + 2), (y + 3, x + 3)] for y in range(BOARD_SIZE_H - 3) for x in range(BOARD_SIZE_W - 3)]
+LIST4 += [[(y, x + 3), (y + 1, x + 2), (y + 2, x + 1), (y + 3, x)] for y in range(BOARD_SIZE_H - 3) for x in range(BOARD_SIZE_W - 3)]
+LIST4 += [[(y, x), (y, x + 1), (y, x + 2), (y, x + 3)] for y in range(BOARD_SIZE_H) for x in range(BOARD_SIZE_W - 3)]
+NO_HORIZONTAL = len(LIST4)
+LIST4 += [[(y, x), (y + 1, x), (y + 2, x), (y + 3, x)] for y in range(BOARD_SIZE_H - 3) for x in range(BOARD_SIZE_W)]
+```
+
+`LIST4`变量存储任何玩家赢得比赛时可以实现的可能组合。
+
+我们不会在此文件中讨论整个代码。 但是，重要的是要了解以下函数及其作用：
+
+*   `get_start_board()`：此函数以 NumPy 数组的形式返回电路板的空白 2D 数组表示形式。
+*   `clone_board(board)`：此函数用于按板级克隆整个 NumPy 数组。
+*   `get_action(board)`：此函数返回播放器已修改的数组中的位置。
+*   `action_to_string(action)`：此函数将玩家执行的动作的内部数字表示形式转换为可以以易于理解的形式显示给用户的字符串。 例如`place_at(board, pos,`。
+*   `player)`：执行为任何给定玩家在板上放置一块棋子的动作。 它还会更新板。
+*   `def get_winner(board)`：此函数确定棋盘当前状态下的游戏是否有赢家。 如果是，则返回获胜玩家的标识符，该标识符将为 1 或 -1。
+*   `def to_string(board)`：此函数将板的 NumPy 数组表示形式转换为字符串，该字符串为人类可读的格式。
+
+接下来，我们将研究如何对 AI 进行编程，使其根据游戏规则进行并仅接受有效的动作。
+
+# 允许根据游戏规则移动
+
+为了确定玩家（无论是人还是机器）做出的动作的有效性，我们需要建立一种机制，在机器的情况下，该机制连续不断地只生成有效的动作，或者不断验证任何人类玩家的输入。 让我们开始吧：
+
+1.  可以在`util/generator.py`文件的`_selfplay(self, state, args)`函数中找到一个这样的实例，如以下代码所示：
+
+```py
+turn = 0
+hard_random_turn = args['hard_random'] if 'hard_random' in args else 0
+soft_random_turn = (args['soft_random'] if 'soft_random' in args else 30) + hard_random_turn
+history = []
+```
+
+首先，我们将移动切换设置为`0`，指示游戏开始时尚未进行任何移动。 我们还考虑了用户在其 AI 自行生成的游戏中想要的硬性和软性随机回合的数量。 然后，我们将移动的历史记录设置为空白。
+
+2.  现在，我们可以开始为 AI 生成动作，如下所示：
+
+```py
+while state.getWinner() == None:
+    if turn < hard_random_turn:
+        # random action
+        action_list = state.getAction()
+        index = np.random.choice(len(action_list))
+        (action, key) = action_list[index]
+```
+
+前面的代码说，直到没有游戏的获胜者，都必须生成招式。 在前面的案例中，我们可以看到，只要进行一次随机随机转弯的可能性为真，AI 就会选择一个完全随机的位置来放置其棋子。
+
+3.  通过在前面的`if`语句中添加`else`块，我们告诉 AI，只要它需要进行柔和转弯，它就可以检查是否有任何随机位置将其放置在其中，但只能在 MCTS 算法所建议的移动范围内，如下所示：
+
+```py
+else:
+    action_list = self.mcts.getActionInfo(state, args['simulation'])
+    if turn < soft_random_turn:
+        # random action by visited count
+        visited = [1.0 * a.visited for a in action_list]
+        sum_visited = sum(visited)
+        assert(sum_visited > 0)
+        p = [v / sum_visited for v in visited]
+        index = np.random.choice(len(action_list), p = p)
+    else:
+        # select most visited count
+        index = np.argmax([a.visited for a in action_list])
+```
+
+请注意，如果既不进行硬转弯也不进行软转弯，则坐席会在游戏的那一刻进行最常用的动作，这有望使它朝着胜利迈进。
+
+因此，在非人类玩家的情况下，智能体只能在任何给定阶段在一组填充的有效动作之间进行选择。 对于人类玩家而言，情况并非如此，根据他们的创造力，他有可能尝试做出无效的举动。 因此，当人类玩家做出动作时，需要对其进行验证。
+
+4.  可以在`util/player.py`文件的`getNextAction(self, state)`函数中找到验证人类玩家移动的方法，如下所示：
+
+```py
+action = state.getAction()
+available_x = []
+for i in range(len(action)):
+    a, k = action[i]
+    x = a % util.BOARD_SIZE_W + 1
+    y = a // util.BOARD_SIZE_W + 1
+    print('{} - {},{}'.format(x, x, y))
+    available_x.append(x)
+```
+
+5.  首先，我们现在计算人类玩家可能采取的合法行动，并将其显示给用户。 然后，我们提示用户输入一个动作，直到他们做出有效的动作为止，如下所示：
+
+```py
+while True:
+    try:
+        x = int(compat_input('enter x: '))
+        if x in available_x:
+            for i in range(len(action)):
+                if available_x[i] == x:
+                    select = i
+                    break
+            break
+    except ValueError:
+        pass
+```
+
+因此，我们根据填充的一组有效动作来验证用户所做的动作。 我们还可以选择向用户显示错误。
+
+接下来，我们将研究程序的状态管理系统，您肯定已经注意到，到目前为止，我们一直在看该代码。
+
+# 状态管理系统
+
+游戏的状态管理系统是整个程序中最重要的部分之一，因为它控制着所有的游戏玩法，并在 AI 的自学习过程中促进了游戏玩法。 这样可以确保向玩家展示棋盘，并在进行有效的移动。 它还存储了几个与状态有关的变量，这些变量对于游戏进行很有用。 让我们来看看：
+
+1.  让我们讨论`util/state.py`文件中提供的`State`类中最重要的特性和函数：
+
+```py
+import .internal as util
+```
+
+此类使用`util/internal.py`文件中定义的名称为`util`的变量和函数。
+
+2.  `__init__(self, prototype = None)`：此类在启动时，会继承现有状态或创建新状态。 该函数的定义如下：
+
+```py
+def __init__(self, prototype = None):
+    if prototype == None:
+        self.board = util.get_start_board()
+        self.currentPlayer = 1
+        self.winner = None
+    else:
+        self.board = util.clone_board(prototype.board)
+        self.currentPlayer = prototype.currentPlayer
+        self.winner = prototype.winner
+```
+
+在这里，您可以看到该类可以使用游戏的现有状态启动，并作为参数传递给该类的构造器； 否则，该类将创建一个新的游戏状态。
+
+3.  `getRepresentativeString(self)`：此函数返回可以由人类玩家读取的游戏状态的格式正确的字符串表示形式。 其定义如下：
+
+```py
+def getRepresentativeString(self):
+        return ('x|' if self.currentPlayer > 0 else 'o|') + util.to_oneline(self.board)
+```
+
+状态类中的许多其他重要方法如下：
+
+*   `getCurrentPlayer(self)`：此方法返回游戏的当前玩家； 也就是说，应该采取行动的玩家。
+*   `getWinner(self)`：如果游戏结束，则此方法返回游戏获胜者的标识符。
+*   `getAction(self)`：此方法检查游戏是否结束。 如果没有，它将在任何给定状态下返回一组下一个可能的动作。
+*   `getNextState(self, action)`：此方法返回游戏的下一个状态； 也就是说，在将当前正在移动的棋子放在棋盘上并评估游戏是否结束之后，它将执行从一种状态到另一种状态的切换。
+*   `getNnInput(self)`：此方法返回玩家到目前为止在游戏中执行的动作，并为每个玩家的动作使用不同的标记。
+
+现在，让我们看一下如何改善程序的游戏玩法。
+
+# 实现游戏玩法
+
+负责控制程序中游戏玩法的文件是`util/arena.py`文件。
+
+它在`Arena`类中定义了以下两种方法：
+
+```py
+def fight(self, state, p1, p2, count):
+    stats = [0, 0, 0]
+    for i in range(count):
+        print('==== EPS #{} ===='.format(i + 1))
+        winner = self._fight(state, p1, p2)
+        stats[winner + 1] += 1
+        print('stats', stats[::-1])
+        winner = self._fight(state, p2, p1)
+        stats[winner * -1 + 1] += 1
+        print('stats', stats[::-1])
+```
+
+前面的`fight()`函数管理玩家的胜利/损失或平局的状态。 它确保在每个回合中进行两场比赛，其中每位玩家只能先玩一次。
+
+此类中定义的另一个`_fight()`函数如下：
+
+```py
+def _fight(self, state, p1, p2):
+    while state.getWinner() == None:
+        print(state)
+        if state.getCurrentPlayer() > 0:
+            action = p1.getNextAction(state)
+        else:
+            action = p2.getNextAction(state)
+        state = state.getNextState(action)
+    print(state)
+    return state.getWinner()
+```
+
+此函数负责切换棋盘上的玩家，直到找到赢家为止。
+
+现在，让我们看一下如何生成随机的游戏玩法以使智能体自学。
+
+# 生成示例游戏
+
+到目前为止，我们已经讨论了`util/gameplay.py`文件，以演示该文件中与移动规则相关的代码-特别是该文件的自播放函数。 现在，我们来看看这些自玩游戏如何在迭代中运行以生成完整的游戏玩法日志。 让我们开始吧：
+
+1.  请考虑此文件提供的`Generator`类的`generate()`方法的代码：
+
+```py
+def generate(self, state, nn, cb, args):
+    self.mcts = MCTS(nn)
+
+    iterator = range(args['selfplay'])
+    if args['progress']:
+        from tqdm import tqdm
+        iterator = tqdm(iterator, ncols = 50)
+
+    # self play
+    for pi in iterator:
+        result = self._selfplay(state, args)
+        if cb != None:
+            cb(result)
+```
+
+本质上，此函数负责运行该类的`_selfplay()`函数，并确定一旦完成自播放后必须执行的操作。 在大多数情况下，您会将输出保存到文件中，然后将其用于训练。
+
+2.  这已在`command/generate.py`文件中定义。 该脚本可以作为具有以下签名的命令运行：
+
+```py
+usage: run.py generate [-h]
+             [--model, default='latest.h5', help='model filename']
+             [--number, default=1000000, help='number of generated states']
+             [--simulation, default=100, help='number of simulations per move']
+             [--hard, default=0, help='number of random moves']
+             [--soft, default=1000, help='number of random moves that depends on visited node count']
+             [--progress, help='show progress bar']
+             [--gpu, help='gpu memory fraction']
+             [--file, help='save to a file']
+             [--network, help='save to remote server']
+```
+
+3.  该命令的示例调用如下：
+
+```py
+python run.py generate --model model.h5 --simulation 100 -n 5000 --file selfplay.txt --progress
+```
+
+现在，让我们看一下一旦生成自播放日志就可以训练模型的函数。
+
+# 系统训练
+
+要训​​练智能体，我们需要创建`util/trainer.py`文件，该文件提供`train()`函数。 让我们来看看：
+
+1.  签名如下：
+
+```py
+train(state, nn, filename, args = {})
+```
+
+该函数接受`State`类，神经网络类和其他参数。 它还接受文件名，该文件名是包含生成的游戏玩法的文件的路径。 训练后，我们可以选择将输出保存到另一个模型文件中，如`command/train.py`文件的`train()`函数所提供的。
+
+2.  此命令具有以下签名：
+
+```py
+usage: run.py train [-h]
+              [--progress, help='show progress bar']
+              [--epoch EPOCH, help='training epochs']
+              [--batch BATCH, help='batch size']
+              [--block BLOCK, help='block size']
+              [--gpu GPU, help='gpu memory fraction']
+              history, help='history file'
+              input, help='input model file name'
+              output, help='output model file name'
+```
+
+历史参数是存储生成的游戏玩法的文件。 输入文件是当前保存的模型文件，而输出文件是将新训练的模型保存到的文件。
+
+3.  该命令的示例调用如下：
+
+```py
+python run.py train selfplay.txt model.h5 newmodel.h5 --epoch 3 --progress
+```
+
+现在我们已经有了一个训练系统，我们需要创建 MCTS 和神经网络实现。
+
+# 实现蒙特卡罗树搜索
+
+`util/mcts.py`文件中提供了完整的 MCTS 算法实现。 该文件提供了 MCTS 类，该类具有以下重要函数：
+
+*   `getMostVisitedAction`：此函数返回将状态传递给访问次数最多的操作。
+*   `getActionInfo`：执行任何操作后，此函数返回状态信息。
+*   `_simulation`：此函数执行单个游戏模拟，并返回有关在模拟过程中玩过的游戏的信息。
+
+最后，我们需要创建一个神经网络实现。
+
+# 实现神经网络
+
+在最后一节中，我们将了解为智能体进行训练而创建的神经网络。 我们将探索`util/nn.py`文件，该文件提供`NN`类以及以下重要方法：
+
+*   `__init__(self, filename)`：如果磁盘上不存在此函数，则使用`util/keras_model.py`函数创建新模型。 否则，它将模型文件加载到程序中。
+*   `util/keras_model.py`文件中定义的模型是残差 CNN，它与 MCTS 和 UCT 结合使用，表现得像深度强化学习神经网络。 形成的模型具有以下配置：
+
+```py
+input_dim: (2, util.BOARD_SIZE_H, util.BOARD_SIZE_W),
+policy_dim: util.KEY_SIZE,
+res_layer_num: 5,
+cnn_filter_num: 64,
+cnn_filter_size: 5,
+l2_reg: 1e-4,
+learning_rate: 0.003,
+momentum: 0.9
+```
+
+默认情况下，模型具有五个残差卷积层块。 我们先前在`util/internal.py`文件中定义了`BOARD_SIZE_H`，`BOARD_SIZE_W`和`KEY_SIZE`常量：
+
+*   `save(self, filename)`：此函数将模型保存到提供的文件名中。
+*   `predict(self, x)`：提供了板状态以及已经进行的移动，此函数输出可以下一步进行的单个移动。
+*   `fit(self, x, policy, value, batch_size = 256, epochs = 1)`：此函数用于将新样本拟合到模型并更新权重。
+
+除了上述脚本之外，我们还需要一些驱动脚本。 您可以在该项目的存储库中查找它们，以了解它们的用法。
+
+要运行已完成的项目，您需要执行以下步骤：
+
+1.  使用以下命令创建新模型：
+
+```py
+python run.py newmodel model.h5
+```
+
+这将创建一个新模型并打印出其摘要。
+
+2.  生成示例游戏日志：
+
+```py
+python run.py generate --model model.h5 --simulation 100 -n 5000 --file selfplay.txt --progress
+```
+
+在仿真过程中，上一行为 MCTS 生成了 5,000 个示例游戏，深度为 100。
+
+3.  训练模型：
+
+```py
+python run.py train selfplay.txt model.h5 newmodel.h5 --epoch 3 --progress
+```
+
+前面的命令在游戏文件上训练模型三个时间，并将训练后的模型另存为`newmodel.h5`。
+
+4.  与 AI 对抗：
+
+```py
+python run.py arena human mcts,newmodel.h5,100
+```
+
+前面的命令开始与 AI 进行游戏。 在这里，您将在终端中看到一个面板和游戏选项，如下所示：
+
+![](img/2eb440c7-3ac9-497b-9813-9ca8245049c6.png)
+
+现在，我们已经成功创建了一个基于 Alpha Zero 的程序来学习玩棋盘游戏，现在我们可以将其推论到国际象棋 AI 上了。 但是，在这样做之前，我们将简要地介绍项目架构。
+
+# 基础项目架构
+
+为了创建国际象棋引擎，将其作为 REST API 托管在 GCP 上，我们将遵循常规项目架构：
+
+![](img/7082a6c7-62d7-4546-a2e9-45c40d2e3293.png)
+
+虽然上图提供了该项目的非常简化的概述，但它可以用于更复杂的系统，这些系统可以产生更好的自学习象棋引擎。
+
+GCP 上托管的模型将放置在 EC2 VM 实例中，并将包装在基于 Flask 的 REST API 中。
+
+# 为国际象棋引擎开发 GCP 托管的 REST API
+
+现在我们已经看到了如何继续进行此项目，我们还需要讨论如何将 Connect 4 的游戏映射到国际象棋，以及如何将国际象棋 RL 引擎部署为 API。
+
+您可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter8/chess)上找到我们为该象棋引擎创建的文件。 在将这些文件与 Connect 4 项目中的文件映射之前，让我们快速了解一些最重要的文件：
+
+*   `src/chess_zero/agent/`：
+*   `player_chess.py`：此文件描述`ChessPlayer`类，该类保存有关在任何时间点玩游戏的玩家的信息。 它为与使用蒙特卡洛树搜索来搜索新动作，更改玩家状态以及每个用户在玩游戏期间所需的其他功能的相关方法提供了包装。
+*   `model_chess.py`：此文件描述了此系统中使用的剩余 CNN。
+*   `src/chess_zero/config/`：
+*   `mini.py`：此文件定义国际象棋引擎学习或玩的配置。 您将需要在此处有时调整这些参数，以降低在低端计算机上进行训练期间的批量大小或虚拟 RAM 消耗。
+*   `src/chess_zero/env/`：
+*   `chess_env.py`：此文件描述棋盘的设置，游戏规则以及执行游戏操作所需的函数。 它还包含检查游戏状态和验证移动的方法。
+*   `src/chess_zero/worker/`：
+*   `evaluate.py`：此文件负责与当前最佳模型和下一代模型玩游戏。 如果下一代模型的表现优于 100 款游戏，则它将替代以前的模型。
+*   `optimize.py`：此文件加载当前最佳模型，并在其上执行更多监督的基于学习的训练。
+*   `self.py`：引擎与自己对战并学习新的游戏玩法。
+*   `sl.py`：监督学习的缩写，此文件将来自其他玩家的游戏的 PGN 文件作为输入，并对其进行监督学习。
+*   `src/chess_zero/play_game/`：
+*   `uci.py`：此文件提供了**通用国际象棋界面**（**UCI**）标准环境，可以与引擎进行交互。
+*   `flask_server.py`：该文件创建一个 Flask 服务器，该服务器使用国际象棋游戏的 UCI 表示法与引擎进行通信。
+
+现在我们知道每个文件的作用，让我们建立这些文件与 Connect 4 游戏中文件的映射。
+
+还记得我们在讨论 Connect 4 AI 时制定的步骤吗？ 让我们看看国际象棋项目是否也遵循相同的步骤：
+
+1.  创建棋盘的虚拟代表。 这是在`src/chess_zero/env/chess_env.py`文件中完成的。
+2.  创建允许根据游戏规则进行移动的函数。 这也可以在`src/chess_zero/env/chess_env.py`文件中完成。
+3.  **原地的状态管理系统**：此功能在许多文件上维护，例如`src/chess_zero/agent/player_chess.py`和`src/chess_zero/env/chess_env.py`。
+4.  **简化游戏**：这是通过`src/chess_zero/play_game/uci.py`文件完成的。
+5.  创建一个可以生成示例游戏玩法的脚本，以供系统学习。 尽管此系统未将生成的游戏玩法明确地存储为磁盘上的文件，但该任务由`src/chess_zero/worker/self_play.py`执行。
+6.  创建训练函数来训练系统。 这些训练函数位于`src/chess_zero/worker/sl.py`和`src/chess_zero/worker/self.py`处。
+7.  现在，我们需要一个 MCTS 实现。 可以在`src/chess_zero/agent/player_chess.py`的文件的移动搜索方法中找到该项目的 MCTS 实现。
+8.  **神经网络的实现**：`src/chess_zero/agent/model_chess.py`中定义了项目的神经网络。
+
+除了前面的映射之外，我们还需要讨论 Universal Chess Interface 和 Flask 服务器脚本，这两个都是游戏性和 API 部署所必需的。
+
+# 了解通用国际象棋界面
+
+`/src/chess_zero/play_game/uci.py`上的文件为引擎创建了通用国际象棋界面。 但是，UCI 到底是什么？
+
+UCI 是 Rudolf Huber 和 Stefan Meyer-Kahlen 引入的一种通信标准，它允许在任何控制台环境中使用国际象棋引擎进行游戏。 该标准使用一小组命令来调用国际象棋引擎，以搜索并输出板子任何给定位置的最佳动作。
+
+通过 UCI 进行的通信与标准输入/输出发生，并且与平台无关。 在我们程序的 UCI 脚本中可用的命令如下：
+
+*   `uci`：打印正在运行的引擎的详细信息。
+*   `isready`：这查询引擎是否准备好进行对抗。
+*   `ucinewgame`：这将启动带有引擎的新游戏。
+*   `position [fen | startpos] moves`：此设置板的位置。 如果用户从非起始位置开始，则用户需要提供 FEN 字符串来设置板。
+*   `go`：这要求引擎进行搜索并提出最佳建议。
+*   `quit`：这将结束游戏并退出界面。
+
+以下代码显示了带有 UCI 引擎的示例游戏玩法：
+
+```py
+> uci
+id name ChessZero
+id author ChessZero
+uciok
+
+> isready
+readyok
+
+> ucinewgame
+
+> position startpos moves e2e4
+
+> go
+bestmove e7e5
+
+> position rnbqkbnr/pppp1ppp/8/4p3/4P3/8/PPPP1PPP/RNBQKBNR w KQkq - 0 1 moves g1f3
+
+> go
+bestmove b8c6
+
+> quit
+```
+
+要快速生成任何板位置的 FEN 字符串，[可以使用板编辑器](https://lichess.org/editor/)。
+
+现在，让我们讨论一下 Flask 服务器脚本以及如何在 GCP 实例上部署它。
+
+# 在 GCP 上部署
+
+该国际象棋引擎程序需要存在 GPU。 因此，我们必须遵循其他步骤，才能在 GCP 实例上部署脚本。
+
+大致的工作流程如下：
+
+1.  请求增加帐户可用的 GPU 实例的配额。
+2.  创建基于 GPU 的计算引擎实例。
+3.  部署脚本。
+
+我们将在以下各节中详细介绍这些步骤。
+
+# 请求增加 GPU 实例的配额
+
+第一步将是请求增加 GPU 实例的配额。 默认情况下，您的 GCP 帐户上可拥有的 GPU 实例数为 0。此限制由您的帐户的配额配置设置，您需要请求增加。 这样做，请按照下列步骤操作：
+
+1.  通过[这里](https://console.cloud.google.com/)打开 Goog​​le Cloud Platform 控制台。
+2.  在左侧菜单上，单击“IAM&Admin | 配额”，如以下屏幕截图所示：
+
+![](img/25490c0c-99fb-42a9-a522-42e94bc72bc7.png)
+
+3.  单击`Metrics`过滤器，然后键入 GPU 以找到读取 GPU（所有区域）的条目，如以下屏幕截图所示：
+
+![](img/b6b7fbc0-b10d-43ea-8120-a55d267ce48f.png)
+
+4.  选择条目，然后单击“编辑配额”。
+5.  系统将要求您提供身份证明，包括您的电话号码。 填写详细信息，然后单击“下一步”。
+6.  输入您想要将 GPU 配额设置为的限制（最好是`1`，以避免滥用）。 另外，请提供您提出要求的理由，例如学术研究，机器学习探索或任何适合您的东西！
+7.  单击“提交”。
+
+提出要求后，大约需要 10 到 15 分钟才能将您的配额增加/设置为您指定的数量。 您将收到一封电子邮件，通知您有关此更新。 现在，您准备创建一个 GPU 实例。
+
+# 创建一个 GPU 实例
+
+下一步是创建 GPU 实例。 创建 GPU 实例的过程与创建非 GPU 实例的过程非常相似，但是需要额外的步骤。 让我们快速完成所有这些步骤：
+
+1.  在您的 Google Cloud Platform 仪表板上，单击左侧导航菜单中的“Compute Engine | VM 实例”。
+2.  单击“创建实例”。
+3.  单击“计算机类型选择”部分正下方的 CPU 平台和 GPU，如以下屏幕截图所示：
+
+![](img/c8e5a150-c87a-477c-b2a5-25de4d03a540.png)
+
+4.  单击“添加 GPU”（大加号（`+`）按钮）。 选择要附加到此 VM 的 GPU 类型和 GPU 数量。
+5.  将启动盘操作系统更改为 Ubuntu 版本 10.10。
+6.  在“防火墙”部分中，检查 HTTP 和 HTTPS 通信权限，如以下屏幕截图所示：
+
+![](img/210973f6-598c-4cf8-857f-bcf6de41ccfa.png)
+
+7.  单击表单底部的“创建”。
+
+几秒钟后，您的实例将成功创建。 如果遇到任何错误，例如超出了区域资源限制，请尝试更改要在其中创建实例的区域/区域。这通常是一个临时问题。
+
+现在，我们可以部署 Flask 服务器脚本。
+
+# 部署脚本
+
+现在，我们将部署 Flask 服务器脚本。 但是在我们这样做之前，让我们先看一下该脚本的作用：
+
+1.  脚本的前几行导入了必要的模块，脚本才能正常工作：
+
+```py
+from flask import Flask, request, jsonify
+import os
+import sys
+import multiprocessing as mp
+from logging import getLogger
+
+from chess_zero.agent.player_chess import ChessPlayer
+from chess_zero.config import Config, PlayWithHumanConfig
+from chess_zero.env.chess_env import ChessEnv
+
+from chess_zero.agent.model_chess import ChessModel
+from chess_zero.lib.model_helper import load_best_model_weight
+
+logger = getLogger(__name__)
+```
+
+2.  其余代码放入`start()`函数中，该函数由`config`对象实例化：
+
+```py
+def start(config: Config):
+    ## rest of the code
+```
+
+3.  以下几行创建了引擎和人类玩家的实例，并在脚本开始运行时重置了游戏环境：
+
+```py
+def start(config: Config):
+    ...
+    PlayWithHumanConfig().update_play_config(config.play)
+
+    me_player = None
+    env = ChessEnv().reset()
+    ...
+```
+
+4.  将创建模型，并使用以下代码将模型的最佳权重加载到其中：
+
+```py
+def start(config: Config):
+    ...
+    model = ChessModel(config)
+
+        if not load_best_model_weight(model):
+            raise RuntimeError("Best model not found!")
+
+    player = ChessPlayer(config, model.get_pipes(config.play.search_threads))
+    ...
+```
+
+5.  前面代码中的最后一行创建具有指定配置和模型知识的国际象棋引擎玩家实例：
+
+```py
+def start(config: Config):
+    ...
+    app = Flask(__name__)
+
+        @app.route('/play', methods=["GET", "POST"])
+        def play():
+            data = request.get_json()
+            print(data["position"])
+            env.update(data["position"])
+            env.step(data["moves"], False)
+            bestmove = player.action(env, False)
+            return jsonify(bestmove) 
+    ...
+```
+
+前面的代码创建了 Flask 服务器应用的实例。 定义`/play`路由，使其可以接受位置并移动参数，这与我们先前在 UCI 游戏中使用的命令相同。
+
+6.  游戏状态将更新，并且要求象棋引擎计算下一个最佳移动。 这以 JSON 格式返回给用户：
+
+```py
+def start(config: Config):
+    ...
+    app.run(host="0.0.0.0", port="8080")
+```
+
+脚本的最后一行在主机`0.0.0.0`处启动 Flask 服务器，这意味着脚本将监听其运行所在设备的所有打开的 IP。 指定的端口为`8080`。
+
+7.  最后，我们将脚本部署到我们创建的 VM 实例。 为此，请执行以下步骤：
+
+1.  打开 GCP 控制台的 VM 实例页面。
+2.  输入在上一节中创建的 VM 后，单击`SSH`按钮。
+3.  SSH 会话激活后，通过运行以下命令来更新系统上的存储库：
+
+```py
+sudo apt update
+```
+
+4.  接下来，使用以下命令克隆存储库：
+
+```py
+git clone https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects.git
+```
+
+5.  将当前工作目录更改为`chess`文件夹，如下所示：
+
+```py
+cd Mobile-Deep-Learning-Projects/Chapter8/chess
+```
+
+6.  为 Python3 安装 PIP：
+
+```py
+sudo apt install python3-pip
+```
+
+7.  安装项目所需的所有模块：
+
+```py
+pip3 install -r requirements.txt
+```
+
+8.  为最初的监督学习提供训练 PGN。 您可以从[这里](https://github.com/xprilion/ficsdata)下载示例 PGN。 `ficsgamesdb2017.pgn`文件包含 5,000 个已存储的游戏。 您需要将此文件上传到`data/play_data/`文件夹。
+9.  运行监督学习命令：
+
+```py
+python3 src/chess_zero/run.py sl
+```
+
+10.  运行自学习命令：
+
+```py
+python3 src/chess_zero/run.py self
+```
+
+当您对程序可以自行播放的时间感到满意时，请使用`Ctrl + C/Z`停止脚本。
+
+11.  运行以下命令以启动服务器：
+
+```py
+python3 src/chess_zero/run.py server
+```
+
+现在，您应该能够将职位和移动发送到服务器并获得响应。 让我们快速测试一下。 使用 Postman 或其他任何用于 API 测试的工具，我们将使用 FEN 字符串向 API 发出请求，以设置位置和正在进行的移动。
+
+假设您的 VM 实例正在公共 IP 地址上运行（在 VM 实例仪表板的实例条目上可见）1.2.3.4。 在这里，我们发送以下`POST`请求：
+
+```py
+endpoint: http://1.2.3.4:8080/play
+Content-type: JSON
+Request body:
+{
+  "position": "r1bqk2r/ppp2ppp/2np1n2/2b1p3/2B1P3/2N2N2/PPPPQPPP/R1B1K2R w KQkq - 0 1",
+  "moves": "f3g5"
+}
+```
+
+先前代码的输出为`"h7h6"`。 让我们直观地了解这种交互。 FEN 中定义的板看起来如下：
+
+![](img/d1dc8097-5cb9-48d3-a687-9c11bfb8ff54.png)
+
+我们告诉服务器这是怀特的举动，而怀特玩家的举动是`f3g5`，这意味着将怀特骑士移动到板上的 G5 位置。 我们传递给 API 的棋盘 FEN 字符串中的`'w'`表示白人玩家将进行下一回合。
+
+引擎通过将 H7 处的棋子移动到 H6 进行响应，威胁到马的前进，如以下屏幕快照所示：
+
+![](img/bafe5b9f-bf74-4f11-bc7c-f599f0124bf6.png)
+
+现在，我们可以将此 API 与 Flutter 应用集成！
+
+# 在 Android 上创建简单的国际象棋 UI
+
+现在，我们了解了强化学习以及如何使用它来开发可部署到 GCP 的国际象棋引擎，让我们为游戏创建 Flutter 应用。 该应用将具有两个播放器–用户和服务器。 用户是玩游戏的人，而服务器是我们在 GCP 上托管的国际象棋引擎。 首先，用户采取行动。 记录此移动并将其以 POST 请求的形式发送到国际象棋引擎。 然后，国际象棋引擎以自己的动作进行响应，然后在屏幕上进行更新。
+
+我们将创建一个简单的单屏应用，将棋盘和棋子放置在中间。 该应用将显示如下：
+
+![](img/5add260e-7cc3-4f99-96dd-0f063468bdc4.png)
+
+该应用的小部件树如下所示：
+
+![](img/6f6a925e-3b98-4194-aa42-ee318f257593.png)
+
+让我们开始编写应用代码。
+
+# 将依赖项添加到`pubspec.yaml`
+
+首先，将`chess_vectors_flutter`包添加到`pubspec.yaml`文件中，以便在将要构建的棋盘上显示实际的棋子。 将以下行添加到`pubspec.yaml`的依赖项部分：
+
+```py
+chess_vectors_flutter: ">=1.0.6 <2.0.0"
+```
+
+运行`flutter pub get`安装包。
+
+将棋子放置在正确的位置可能会有些棘手。 让我们了解将所有片段放置在正确位置的约定。
+
+# 了解映射结构
+
+我们将首先创建一个名为`chess_game.dart`的新 dart 文件。 这将包含所有游戏逻辑。 在文件内部，我们声明一个名为`ChessGame`的有状态小部件：
+
+1.  要将棋子映射到棋盘的正方形，我们将使用与构建模型时相同的符号，以便每个正方形均由字母和数字表示。 我们将在`ChessGameState`内创建一个列表`squareList`，以便我们可以存储所有索引的正方形，如下所示：
+
+```py
+var squareList = [ 
+ ["a8","b8","c8","d8","e8","f8","g8","h8"],
+ ["a7","b7","c7","d7","e7","f7","g7","h7"],
+ ["a6","b6","c6","d6","e6","f6","g6","h6"],
+ ["a5","b5","c5","d5","e5","f5","g5","h5"],
+ ["a4","b4","c4","d4","e4","f4","g4","h4"],
+ ["a3","b3","c3","d3","e3","f3","g3","h3"],
+ ["a2","b2","c2","d2","e2","f2","g2","h2"],
+ ["a1","b1","c1","d1","e1","f1","g1","h1"],
+ ];
+```
+
+2.  为了将正确的棋子存储在正确的正方形中并根据玩家的移动来更新它们，我们将创建一个名为`board`的`HashMap`：
+
+```py
+HashMap board = new HashMap<String, String>();
+```
+
+`HashMap`的键将包含正方形的索引，而值将是正方形将保留的片段。 我们将使用一个字符串来表示一块特定的作品，该字符串将根据作品的名称包含一个字母。 例如，`K`代表王，`B`代表相。 我们通过使用大写和小写字母来区分白色和黑色部分。 大写字母代表白色，小写字母代表黑色。 例如，`K`代表白王，`b`代表黑相。 `board['e7'] = "P"`表示索引为`'e7'`的盒子当前有一个白色棋子。
+
+3.  现在，让我们将它们放置在初始位置。 为此，我们需要定义`initializeBoard()`方法，如下所示：
+
+```py
+ void initializeBoard() {
+   setState(() {
+     for(int i = 8; i >= 1; i--) {
+       for(int j = 97; j <= 104; j++) {
+         String ch = String.fromCharCode(j)+'$i';
+         board[ch] = " ";
+       }
+     }
+
+   //Placing White Pieces
+   board['a1'] = board['h1']= "R";
+   board['b1'] = board['g1'] = "N";
+   board['c1'] = board['f1'] = "B";
+   board['d1'] = "Q";
+   board['e1'] = "K";
+   board['a2'] = board['b2'] = board['c2'] = board['d2'] =
+   board['e2'] = board['f2'] = board['g2'] = board['h2'] = "P";
+
+   //Placing Black Pieces
+   board['a8'] = board['h8']= "r";
+   board['b8'] = board['g8'] = "n";
+   board['c8'] = board['f8'] = "b";
+   board['d8'] = "q";
+   board['e8'] = "k";
+   board['a7'] = board['b7'] = board['c7'] = board['d7'] =
+   board['e7'] = board['f7'] = board['g7'] = board['h7'] = "p";
+   });
+ }
+```
+
+在前面的方法中，我们使用一个简单的嵌套循环通过从`a`到`h`的所有行以及从 1 到 8 的所有列进行遍历，使用空白字符串初始化哈希映射板的所有索引。 如“步骤 2”中所述，将其放置在其初始位置上。 为了确保在初始化棋盘时重新绘制 UI，我们将整个分配放在`setState()`中。
+
+4.  屏幕启动后，板将被初始化。 为了确保这一点，我们需要覆盖`initState()`并从那里调用`initializeBoard()`：
+
+```py
+ @override
+ void initState() {
+   super.initState();
+   initializeBoard();
+ } 
+```
+
+现在我们对映射棋子有了更好的了解，让我们开始在屏幕上放置棋子的实际图像。
+
+# 放置实际片段的图像
+
+将片段映射到其初始位置后，我们可以开始放置实际的图像向量：
+
+1.  我们首先定义一个名为`mapImages()`的函数，该函数采用正方形的索引（即哈希图板的键值）并返回图像：
+
+```py
+Widget mapImages(String squareName) {
+   board.putIfAbsent(squareName, () => " ");
+   String p = board[squareName];
+   var size = 6.0;
+   Widget imageToDisplay = Container();
+   switch (p) {
+     case "P":
+       imageToDisplay = WhitePawn(size: size);
+       break;
+     case "R":
+       imageToDisplay = WhiteRook(size: size);
+       break;
+     case "N":
+       imageToDisplay = WhiteKnight(size: size);
+       break;
+     case "B":
+       imageToDisplay = WhiteBishop(size: size);
+       break;
+     case "Q":
+       imageToDisplay = WhiteQueen(size: size);
+       break;
+     case "K":
+       imageToDisplay = WhiteKing(size: size);
+       break;
+     case "p":
+       imageToDisplay = BlackPawn(size: size);
+       break;
+     case "r":
+       imageToDisplay = BlackRook(size: size);
+       break;
+     case "n":
+       imageToDisplay = BlackKnight(size: size);
+       break;
+     case "b":
+       imageToDisplay = BlackBishop(size: size);
+       break;
+     case "q":
+       imageToDisplay = BlackQueen(size: size);
+       break;
+     case "k":
+       imageToDisplay = BlackKing(size: size);
+       break;
+     case "p":
+       imageToDisplay = BlackPawn(size: size);
+       break;
+   }
+   return imageToDisplay;
+ }
+```
+
+在前面的函数中，我们构建一个与矩形中所含件名相对应的开关盒块。 我们使用哈希图在特定的正方形中找到片段，然后返回相应的图像。 例如，如果将`a1`的值传递到`squareName`中，并且哈希图板具有与键值`a1`对应的值`P`，则白兵的图像将存储在变量`imageToDisplay`中。
+
+请注意，在 64 个棋盘格正方形中，只有 32 个包含棋子。 其余将为空白。 因此，在哈希表`board`中，将存在没有值的键。 如果`squareName`没有片段，则将其传递给`imageToDisplay`变量，该变量将只有一个空容器。
+
+2.  在上一步中，我们构建了对应于棋盘上每个正方形的小部件（图像或空容器）。 现在，让我们将所有小部件排列成行和列。 `squareName`中的特定元素（例如`[a1,b1,....,g1]`）包含应并排放置的正方形。 因此，我们将它们包装成一行并将这些行中的每一个包装成列。
+
+3.  让我们从定义`buildRow()`方法开始，该方法包含一个列表。 这本质上是`sqaureName`中的元素列表，并构建完整的行。 该方法如下所示：
+
+```py
+ Widget buildRow(List<String> children) {
+    return Expanded(
+      flex: 1,
+      child: Row(
+        children: children.map((squareName) => getImage(squareName)).toList()
+      ),
+    );
+  }
+```
+
+在前面的代码片段中，我们迭代使用`map()`方法传递的列表的每个元素。 这会调用`getImage()`以获取对应于正方形的适当图像。 然后，我们将所有这些返回的图像添加为一行的子级。 该行将一个子代添加到展开的窗口小部件并返回。
+
+4.  `getImage()`方法定义如下：
+
+```py
+ Widget getImage(String squareName) {
+   return Expanded(
+     child: mapImages(squareName),
+   );
+ }
+```
+
+只需输入`squareName`的值，然后返回一个扩展的小部件，其中将包含我们先前定义的`mapImages`返回的图像。 我们稍后将修改此方法，以确保玩家可以拖动每个图像，以便它们可以在棋盘上移动。
+
+5.  现在，我们需要构建将包含已构建行的列。 为此，我们需要定义`buildChessBoard()`方法，如下所示：
+
+```py
+  Widget buildChessBoard() {
+    return Container(
+      height: 350,
+      child: Column(
+            children: widget.squareList.map((row) {
+                return buildRow(row,);
+                }).toList()   
+      )
+    );
+  }
+```
+
+在前面的代码中，我们迭代了`squareList`内部的每一行，这些行表示为一个列表。 我们通过调用`buildRow()`来构建行，并将它们作为子级添加到列中。 此列作为子级添加到容器中并返回。
+
+6.  现在，让我们将所有片段以及实际的棋盘图像放到屏幕上。 我们将覆盖`build()`方法，以构建由棋盘图像及其碎片组成的小部件栈：
+
+```py
+@override
+ Widget build(BuildContext context) {
+   return Container(
+       child: Stack(
+         children: <Widget>[
+           Container(
+             child: new Center(child: Image.asset("assets/chess_board.png", fit: BoxFit.cover,)),
+           ),
+           Center(
+             child: Container(
+               child: buildChessBoard(),
+             ),
+           )
+         ],
+     )
+   );
+ }
+```
+
+前面的方法使用容器来构建栈，该容器添加存储在`assets`文件夹中的棋盘图像。 栈的下一个子项是居中对齐的容器，其中所有片段图像都通过对`buildChessBoard()`的调用以小部件的形式添加为行和列包装。 整个栈作为子级添加到容器中并返回，以便出现在屏幕上。
+
+此时，应用显示棋盘，以及所有放置在其初始位置的棋子。 如下所示：
+
+![](img/83b17a15-688a-45e9-aa87-dec617d34a1d.png)
+
+现在，让我们使这些棋子变得可移动，以便我们可以玩一个真实的游戏。
+
+# 使片段移动
+
+在本节中，我们将用可拖动的工具包装每块棋子，以便用户能够将棋子拖动到所需位置。 让我们详细看一下实现：
+
+1.  回想一下，我们声明了一个哈希图来存储片段的位置。 移动将包括从一个盒子中移出一块并将其放在另一个盒子中。 假设我们有两个变量`'from'`和`'to'`，它们存储用于移动片段的盒子的索引。 进行移动后，我们拿起`'from'`处的片段并将其放入`'to'`中。 因此，`'from'`的框变为空。 按照相同的逻辑，我们将定义`refreshBoard()`方法，该方法在每次移动时都会调用：
+
+```py
+void refreshBoard(String from, String to) {
+   setState(() {
+     board[to] = board[from];
+     board[from] = " ";
+   });
+ }
+```
+
+`from`和`to`变量存储源和目标正方形的索引。 这些值在`board` HasMhap 中用作键。 进行移动时，`from`处的棋子会移至`to.`。此后，`from`处的方块应该变空。 它包含在`setState()`中，以确保每次移动后都更新 UI。
+
+2.  现在，让我们将其拖曳。 为此，我们将拖动项附加到`getPieceImage()`方法返回的木板的每个图像小部件上。 我们通过修改方法来做到这一点：
+
+```py
+Widget getImage(String squareName) {
+   return Expanded(
+     child: DragTarget<List>(builder: (context, accepted, rejected) {
+             return Draggable<List>(
+                 child: mapImages(squareName),
+                 feedback: mapImages(squareName),
+                 onDragCompleted: () {},
+                 data: [
+                   squareName,
+                 ],
+               );
+       }, onWillAccept: (willAccept) {
+         return true;
+       }, onAccept: (List moveInfo) {
+         String from = moveInfo[0];
+         String to = squareName;
+         refreshBoard(from, to);
+       })
+     );
+ }
+```
+
+在前面的函数中，我们首先将特定正方形的图像包装在`Draggable`中。 此类用于感测和跟随屏幕上的拖动手势。 `child`属性用于指定要拖动的窗口小部件，而反馈内部的窗口小部件用于跟踪手指在屏幕上的移动。 当拖动完成并且用户抬起手指时，目标将有机会接受所携带的数据。 由于我们正在源和目标之间移动，因此我们将添加`Draggable`作为`DragTarget`的子代，以便可以在源和目标之间移动小部件。 `onWillAccept`设置为`true`，以便可以进行所有移动。
+
+可以修改此属性，以使其具有可以区分合法象棋动作并且不允许拖动非法动作的功能。 放下片段并完成拖动后，将调用`onAccept`。 `moveInfo`列表保存有关拖动源的信息。 在这里，我们调用`refreshBoard()`，并传入`from`和`to`的值，以便屏幕可以反映运动。 至此，我们完成了向用户显示初始棋盘的操作，并使棋子可以在盒子之间移动。
+
+在下一节中，我们将通过对托管的国际象棋服务器进行 API 调用来增加应用的交互性。 这些将使游戏栩栩如生。
+
+# 将国际象棋引擎 API 与 UI 集成
+
+托管的棋牌服务器将作为对手玩家添加到应用中。 用户将是白色的一面，而服务器将是黑色的一面。 这里要实现的游戏逻辑非常简单。 第一步是提供给应用用户。 用户进行移动时，他们将棋盘的状态从状态 X 更改为状态 Y。棋盘的状态由 FEN 字符串表示。 同样，他们将一块`from`移到一个特定的正方形`to`移到一个特定的正方形，这有助于他们的移动。 当用户完成移动时，状态 X 的 FEN 字符串及其当前移动（通过将`from`和`to`正方形连接在一起而获得）以`POST`请求的形式发送到服务器。 作为回报，服务器从其侧面进行下一步移动，然后将其反映在 UI 上。
+
+让我们看一下此逻辑的代码：
+
+1.  首先，我们定义一个名为`getPositionString()`的方法来为应用的特定状态生成 FEN 字符串：
+
+```py
+String getPositionString(String move) {
+    String s = "";
+    for(int i = 8; i >= 1; i--) {
+        int count = 0;
+        for(int j = 97; j <= 104; j++) {
+            String ch = String.fromCharCode(j)+'$i';
+            if(board[ch] == " ") {
+                count += 1;
+                if(j == 104) 
+                    s = s + "$count";
+            } else {
+                if(count > 0) 
+                    s = s + "$count";
+                s = s + board[ch];count = 0;
+            }
+        }
+    s = s + "/";
+    }
+    String position = s.substring(0, s.length-1) + " w KQkq - 0 1";
+    var json = jsonEncode({"position": position, "moves": move});
+}
+```
+
+在前面的方法中，我们将`move`作为参数，它是`from`和`to`变量的连接。 接下来，我们为棋盘的当前状态创建 FEN 字符串。 创建 FEN 字符串背后的逻辑是，我们遍历电路板的每一行并为该行创建一个字符串。 然后将生成的字符串连接到最终字符串。
+
+让我们借助示例更好地理解这一点。 考虑一个`rnbqkbnr/pp1ppppp/8/1p6/8/3P4/PPP1PPPP/RNBQKBNR w KQkq - 0 1`的 FEN 字符串。 在此，每行可以用八个或更少的字符表示。 特定行的状态通过使用分隔符“/”与另一行分开。 对于特定的行，每件作品均以其指定的符号表示，其中`P`表示白兵，`b`表示黑相。 每个占用的正方形均由件符号明确表示。 例如，`PpkB`指示板上的前四个正方形被白色棋子，黑色棋子，黑色国王和白色主教占据。 对于空盒子，使用整数，该数字表示可传染的空盒子的数量。 注意示例 FEN 字符串中的`8`。 这表示该行的所有 8 个正方形均为空。 `3P4`表示前三个正方形为空，第四个方框被白色棋子占据，并且四个正方形为空。
+
+在`getPositionString()`方法中，我们迭代从 8 到 1 的每一行，并为每行生成一个状态字符串。 对于每个非空框，我们只需在`'s'`变量中添加一个表示该块的字符。 对于每个空框，当找到非空框或到达行末时，我们将`count`的值增加 1 并将其连接到`'s'`字符串。 遍历每一行后，我们添加“/”以分隔两行。 最后，我们通过将生成的`'s'`字符串与`w KQkq - 0 1`连接来生成位置字符串。 然后，我们通过将`jsonEncode()`与键值对结合使用来生成所需的 JSON 对象
+
+2.  我们使用“步骤 1”的“步骤 1”中的`from`和`to`变量来保存用户的当前移动。 我们可以通过在`refreshBoard()`方法中添加两行来实现：
+
+```py
+void refreshBoard(String from, String to) {
+    String move= from + to;
+    getPositionString(move);
+    .....
+}
+```
+
+在前面的代码片段中，我们将`from`和`to`的值连接起来，并将它们存储在名为`move`的字符串变量中。 然后，我们调用`getPositionString()`，并将`move`的值传递给参数。
+
+3.  接下来，我们使用在上一步中`makePOSTRequest()`方法中生成的`JSON`向服务器发出`POST`请求：
+
+```py
+void makePOSTRequest(var json) async{
+    var url = 'http://35.200.253.0:8080/play';
+    var response = await http.post(url, headers: {"Content-Type": "application/json"} ,body: json);
+    String rsp = response.body;
+    String from = rsp.substring(0,3);
+    String to = rsp.substring(3);
+}
+```
+
+首先，将国际象棋服务器的 IP 地址存储在`url`变量中。 然后，我们使用`http.post()`发出`HTTP POST`请求，并为 URL，标头和正文传递正确的值。 POST 请求的响应包含服务器端的下一个动作，并存储在变量响应中。 我们解析响应的主体并将其存储在名为`rsp`的字符串变量中。 响应基本上是一个字符串，是服务器端的源方和目标方的连接。 例如，响应字符串`f4a3`表示国际象棋引擎希望将棋子以`f4`正方形移动到`a3`正方形。 我们使用`substring()`分隔源和目标，并将值存储在`from`和`to`变量中。
+
+4.  现在，通过将调用添加到`makePOSTrequest()`来从`getPositionString()`发出 POST 请求：
+
+```py
+String getPositionString(String move) {
+    .....
+    makePOSTRequest(json);
+}
+```
+
+在 FEN 字符串生成板的给定状态之后，对`makePOSTrequest()`的调用添加在函数的最后。
+
+5.  最后，我们使用`refreshBoardFromServer()`方法刷新板以反映服务器在板上的移动：
+
+```py
+void refreshBoardFromServer(String from, String to) {
+    setState(() {    
+        board[to] = board[from];
+        board[from] = " ";
+    });
+}
+```
+
+前述方法中的逻辑非常简单。 首先，我们将映射到`from`索引正方形的片段移动到`to`索引正方形，然后清空`from`索引正方形。
+
+6.  最后，我们调用适当的方法以用最新的动作更新 UI：
+
+```py
+void makePOSTRequest(var json) async{
+    ......
+    refreshBoardFromServer(from, to);
+    buildChessBoard();
+}
+```
+
+发布请求成功完成后，我们收到了服务器的响应，我们将调用`refreshBoardFromServer()`以更新板上的映射。 最后，我们调用`buildChessBoard()`以在应用屏幕上反映国际象棋引擎所做的最新动作。
+
+以下屏幕快照显示了国际象棋引擎进行移动后的更新的用户界面：
+
+![](img/f7540be0-4f43-46b1-b3b2-9cf2674c25f1.png)
+
+请注意，黑色的块在白色的块之后移动。 这就是代码的工作方式。 首先，用户采取行动。 它以板的初始状态发送到服务器。 然后，服务器以其移动进行响应，更新 UI。 作为练习，您可以尝试实现一些逻辑以区分有效动作和无效动作。
+
+可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter8/flutter_chess/lib/chess_game.dart)中找到此代码。
+
+现在，让我们通过创建材质应用来包装应用。
+
+# 创建材质应用
+
+现在，我们将在`main.dart`中创建最终的材质应用。 让我们从以下步骤开始：
+
+1.  首先，我们创建无状态窗口小部件`MyApp`，并覆盖其`build()`方法，如下所示：
+
+```py
+class MyApp extends StatelessWidget {
+    @override
+    Widget build(BuildContext context) {
+        return MaterialApp(
+            title: 'Chess',
+            theme: ThemeData(primarySwatch: Colors.blue,),
+            home: MyHomePage(title: 'Chess'),
+        );
+    }
+}
+```
+
+2.  我们创建一个单独的`StatefulWidget`，称为`MyHomePage`，以便将 UI 放置在屏幕中央。 `MyHomePage`的`build()`方法如下所示：
+
+```py
+@override
+Widget build(BuildContext context) {
+    return Scaffold(
+        appBar: AppBar(title: Text('Chess'),),
+        body: Center(
+            child: Column(
+                mainAxisAlignment: MainAxisAlignment.center,
+                children: <Widget>[ChessGame()
+                ],
+            ),
+        ),
+    );
+}
+```
+
+3.  最后，我们通过在`main.dart`中添加以下行来执行整个代码：
+
+```py
+void main() => runApp(MyApp());
+```
+
+而已！ 现在，我们有一个交互式的国际象棋游戏应用，您可以与聪明的对手一起玩。 希望你赢！
+
+整个文件的代码可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/blob/master/Chapter8/flutter_chess/lib/main.dart)中找到。
+
+# 总结
+
+在此项目中，我们介绍了强化学习的概念以及为什么强化学习在创建游戏性 AI 的开发人员中很受欢迎。 我们讨论了 Google DeepMind 的 AlphaGo 及其兄弟项目，并深入研究了它们的工作算法。 接下来，我们创建了一个类似的程序来玩 Connect 4，然后下棋。 我们将基于 AI 的国际象棋引擎作为 API 部署到 GPU 实例的 GCP 上，并将其与基于 Flutter 的应用集成。 我们还了解了如何使用 UCI 促进国际象棋的无状态游戏。 完成此项目后，您将对如何将游戏转换为强化学习环境，如何以编程方式定义游戏规则以及如何创建用于玩这些游戏的自学智能体有很好的了解。
+
+在下一章中，我们将创建一个应用，该应用可以使低分辨率图像变成非常高分辨率的图像。 我们将在 AI 的帮助下进行此操作。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/09.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/09.md
new file mode 100644
index 00000000..eb028e2f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/09.md
@@ -0,0 +1,708 @@
+# 九、构建图像超分辨率应用
+
+还记得上次和亲人一起旅行并拍了一些漂亮的照片作为记忆，但是当您回到家并刷过它们时，您发现它们非常模糊且质量低下吗？ 现在，您剩下的所有美好时光就是您自己的心理记忆和那些模糊的照片。 如果可以使您的照片清晰透明并且可以看到其中的每个细节，那不是很好吗？
+
+超分辨率是基于像素信息的近似将低分辨率图像转换为高分辨率图像的过程。 虽然今天可能还不完全是神奇的，但当技术发展到足以成为通用 AI 应用时，它肯定会在将来挽救生命。
+
+在此项目中，我们将构建一个应用，该应用使用托管在 **DigitalOcean Droplet** 上的深度学习模型，该模型可以同时比较低分辨率和高分辨率图像，从而使我们更好地了解今天的技术。 我们将使用**生成对抗网络**（**GAN**）生成超分辨率图像。
+
+在本章中，我们将介绍以下主题：
+
+*   基本项目架构
+*   了解 GAN
+*   了解图像超分辨率的工作原理
+*   创建 TensorFlow 模型以实现超分辨率
+*   构建应用的 UI
+*   从设备的本地存储中获取图片
+*   在 DigitalOcean 上托管 TensorFlow 模型
+*   在 Flutter 上集成托管的自定义模型
+*   创建材质应用
+
+让我们从了解项目的架构开始。
+
+# 基本项目架构
+
+让我们从了解项目的架构开始。
+
+我们将在本章中构建的项目主要分为两个部分：
+
+*   Jupyter 笔记本，它创建执行超分辨率的模型。
+*   使用该模型的 Flutter 应用，在 Jupyter 笔记本上接受训练后，将托管在 DigitalOcean 中的 Droplet 中。
+
+从鸟瞰图可以用下图描述该项目：
+
+![](img/726b6cdc-81ae-419b-a74f-8926bb499c70.png)
+
+将低分辨率图像放入模型中，该模型是从 Firebase 上托管的 ML Kit 实例中获取的，并放入 Flutter 应用中。 生成输出并将其作为高分辨率图像显示给用户。 该模型缓存在设备上，并且仅在开发人员更新模型时才更新，因此可以通过减少网络延迟来加快预测速度。
+
+现在，让我们尝试更深入地了解 GAN。
+
+# 了解 GAN
+
+Ian Goodfellow，Yoshua Bengio 和其他人在 NeurIPS 2014 中引入的 GAN 席卷全球。 可以应用于各种领域的 GAN 会根据模型对实际数据样本的学习近似，生成新的内容或序列。 GAN 已被大量用于生成音乐和艺术的新样本，例如下图所示的面孔，而训练数据集中不存在这些面孔：
+
+![](img/2afa5e82-1438-4e24-8757-0217a6bccdb8.png)
+
+经过 60 个周期的训练后，GAN 生成的面孔。 该图像取自[这里](https://github.com/gsurma/face_generator)。
+
+前面面孔中呈现的大量真实感证明了 GAN 的力量–在为他们提供良好的训练样本量之后，他们几乎可以学习生成任何类型的模式。
+
+GAN 的核心概念围绕两个玩家玩游戏的想法。 在这个游戏中，一个人说出一个随机句子，另一个人仅仅考虑第一人称使用的单词就指出它是事实还是假。 第二个人唯一可以使用的知识是假句子和实句中常用的单词（以及如何使用）。 这可以描述为由 minimax 算法玩的两人游戏，其中每个玩家都试图以其最大能力抵消另一位玩家所做的移动。 在 GAN 中，第一个玩家是**生成器**（`G`），第二个玩家是**判别器**（`D`）。 `G`和`D`都是常规 GAN 中的神经网络。 生成器从训练数据集中给出的样本中学习，并基于其认为当观察者查看时可以作为真实样本传播的样本来生成新样本。
+
+判别器从训练样本（正样本）和生成器生成的样本（负样本）中学习，并尝试对哪些图像存在于数据集中以及哪些图像进行分类。 它从`G`获取生成的图像，并尝试将其分类为真实图像（存在于训练样本中）或生成图像（不存在于数据库中）。
+
+通过反向传播，GAN 尝试不断减少判别器能够对生成器正确生成的图像进行分类的次数。 一段时间后，我们希望达到识别器在识别生成的图像时开始表现不佳的阶段。 这是 GAN 停止学习的地方，然后可以使用生成器生成所需数量的新样本。 因此，训练 GAN 意味着训练生成器以从随机输入产生输出，从而使判别器无法将其识别为生成的图像。
+
+判别器将传递给它的所有图像分为两类：
+
+*   **真实图像**：数据集中存在的图像或使用相机拍摄的图像
+*   **伪图像**：使用某软件生成的图像
+
+生成器欺骗判别器的能力越好，当向其提供任何随机输入序列时，生成的输出将越真实。
+
+让我们以图表形式总结前面关于 GAN 进行的讨论：
+
+![](img/82893a97-b692-432b-97f8-1da2c0ae6737.png)
+
+GAN 具有许多不同的变体，所有变体都取决于它们正在执行的任务。 其中一些如下：
+
+*   **渐进式 GAN**：在 ICLR 2018 上的一篇论文中介绍，渐进式 GAN 的生成器和判别器均以低分辨率图像开始，并随着图像层的增加而逐渐受到训练，从而使系统能够生成高分辨率图像。 例如，在第一次迭代中生成的图像为`10x10`像素，在第二代中它变为`20x20`，依此类推，直到获得非常高分辨率的图像为止。 生成器和判别器都在深度上一起增长。
+*   **条件 GAN**：假设您有一个 GAN 可以生成 10 个不同类别的样本，但是在某个时候，您希望它在给定类别或一组类别内生成样本。 这是有条件 GAN 起作用的时候。有条件 GAN 使我们可以生成 GAN 中经过训练可以生成的所有标签中任何给定标签的样本。 在图像到图像的翻译领域中，已经完成了条件 GAN 的一种非常流行的应用，其中将一个图像生成为相似或相同域的另一个更逼真的图像。 您可以通过[这个页面](https://affinelayer.com/pixsrv/)上的演示来尝试涂鸦一些猫，并获得涂鸦的真实感版本。
+*   **栈式 GAN**：栈式 GAN 的最流行的应用是基于文本描述生成图像。 在第一阶段，GAN 生成描述项的概述，在第二阶段，根据描述添加颜色。 然后，后续层中的 GAN 将更多细节添加到图像中，以生成图像的真实感版本，如描述中所述。 通过观察堆叠 GAN 的第一次迭代中的图像已经处于将要生成最终输出的尺寸，可以将栈式 GAN 与渐进式 GAN 区别开来。但是，与渐进式 GAN 相似，在第一次迭代中， 图像是最小的，并且需要进一步的层才能将其馈送到判别器。
+
+在此项目中，我们将讨论 GAN 的另一种形式，称为**超分辨率 GAN**（**SRGAN**）。 我们将在下一部分中了解有关此变体的更多信息。
+
+# 了解图像超分辨率的工作原理
+
+几十年来，人们一直在追求并希望能够使**低分辨率**图像更加精细，以及使**高分辨率**图像化。 **超分辨率**是用于将低分辨率图像转换为超高分辨率图像的技术的集合，是图像处理工程师和研究人员最激动人心的工作领域之一。 已经建立了几种方法和方法来实现图像的超分辨率，并且它们都朝着自己的目标取得了不同程度的成功。 然而，近来，随着 SRGAN 的发展，关于使用任何低分辨率图像可以实现的超分辨率的量有了显着的改进。
+
+但是在讨论 SRGAN 之前，让我们了解一些与图像超分辨率有关的概念。
+
+# 了解图像分辨率
+
+用质量术语来说，图像的分辨率取决于其清晰度。 分辨率可以归类为以下之一：
+
+*   像素分辨率
+*   空间分辨率
+*   时间分辨率
+*   光谱分辨率
+*   辐射分辨率
+
+让我们来看看每个。
+
+# 像素分辨率
+
+指定分辨率的最流行格式之一，像素分辨率最通常是指形成图像时涉及的像素数量。 单个像素是可以在任何给定查看设备上显示的最小单个单元。 可以将几个像素组合在一起以形成图像。 在本书的前面，我们讨论了图像处理，并将像素称为存储在矩阵中的颜色信息的单个单元，它代表图像。 像素分辨率定义了形成数字图像所需的像素元素总数，该总数可能与图像上可见的有效像素数不同。
+
+标记图像像素分辨率的一种非常常见的表示法是以百万像素表示。 给定`NxM`像素分辨率的图像，其分辨率可以写为（`NxM / 1000000`）百万像素。 因此，尺寸为`2,000x3,000`的图像将具有 6,000,000 像素，其分辨率可以表示为 6 兆像素。
+
+# 空间分辨率
+
+这是观察图像的人可以分辨图像中紧密排列的线条的程度的度量。 在这里，严格说来，图像的像素越多，清晰度越好。 这是由于具有较高像素数量的图像的空间分辨率较低。 因此，需要良好的空间分辨率以及具有良好的像素分辨率以使图像以良好的质量呈现。
+
+它也可以定义为像素一侧所代表的距离量。
+
+# 时间分辨率
+
+分辨率也可能取决于时间。 例如，卫星或使用**无人飞行器**（**UAV**）无人机拍摄的同一区域的图像可能会随时间变化。 重新捕获相同区域的图像所需的时间称为时间分辨率。
+
+时间分辨率主要取决于捕获图像的设备。 如在图像捕捉的情况下，这可以是变型，例如当在路边的速度陷阱照相机中触发特定传感器时执行图像捕捉。 它也可以是常数。 例如，在配置为每`x`间隔拍照的相机中。
+
+# 光谱分辨率
+
+光谱分辨率是指图像捕获设备可以记录的波段数。 也可以将其定义为波段的宽度或每个波段的波长范围。 在数字成像方面，光谱分辨率类似于图像中的通道数。 理解光谱分辨率的另一种方法是在任何给定图像或频带记录中可区分的频带数。
+
+黑白图像中的波段数为 1，而彩色（RGB）图像中的波段数为 3。可以捕获数百个波段的图像，其中其他波段可提供有关图像的不同种类的信息。 图片。
+
+# 辐射分辨率
+
+辐射分辨率是捕获设备表示在任何频带/通道上接收到的强度的能力。 辐射分辨率越高，设备可以更准确地捕获其通道上的强度，并且图像越真实。
+
+辐射分辨率类似于图像每个像素的位数。 虽然 8 位图像像素可以表示 256 个不同的强度，但是 256 位图像像素可以表示`2 ^ 256`个不同的强度。 黑白图像的辐射分辨率为 1 位，这意味着每个像素只能有两个不同的值，即 0 和 1。
+
+现在，让我们尝试了解 SRGAN。
+
+# 了解 SRGAN
+
+SRGAN 是一类 GAN，主要致力于从低分辨率图像创建超分辨率图像。
+
+SRGAN 算法的功能描述如下：该算法从数据集中选取高分辨率图像，然后将其采样为低分辨率图像。 然后，生成器神经网络尝试从低分辨率图像生成高分辨率图像。 从现在开始，我们将其称为超分辨率图像。 将超分辨率图像发送到鉴别神经网络，该神经网络已经在高分辨率图像和一些基本的超分辨率图像的样本上进行了训练，以便可以对它们进行分类。
+
+判别器将由生成器发送给它的超分辨率图像分类为有效的高分辨率图像，伪高分辨率图像或超分辨率图像。 如果将图像分类为超分辨率图像，则 GAN 损失会通过生成器网络反向传播，以便下次产生更好的伪造图像。 随着时间的流逝，生成器将学习如何创建更好的伪造品，并且判别器开始无法正确识别超分辨率图像。 GAN 在这里停止学习，被列为受过训练的人。
+
+可以用下图来总结：
+
+![](img/006c02dc-97e8-40d1-bc97-82e2c6807692.png)
+
+现在，让我们开始创建用于超分辨率的 SRGAN 模型。
+
+# 创建 TensorFlow 模型来实现超分辨率
+
+现在，我们将开始构建在图像上执行超分辨率的 GAN 模型。 在深入研究代码之前，我们需要了解如何组织项目目录。
+
+# 项目目录结构
+
+本章中包含以下文件和文件夹：
+
+*   `api/`：
+*   `model /`：
+*   `__init __.py`：此文件指示此文件的父文件夹可以像模块一样导入。
+*   `common.py`：包含任何 GAN 模型所需的常用函数。
+*   `srgan.py`：其中包含开发 SRGAN 模型所需的函数。
+*   `weights/`：
+*   `gan_generator.h5`：模型的预训练权重文件。 随意使用它来快速运行并查看项目的工作方式。
+*   `data.py`：用于在 DIV2K 数据集中下载，提取和加载图像的工具函数。
+*   `flask_app.py`：我们将使用此文件来创建将在 DigitalOcean 上部署的服务器。
+*   `train.py`：模型训练文件。 我们将在本节中更深入地讨论该文件。
+
+您可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter9/api)中找到项目此部分的源代码。
+
+**多样 2K**（**DIV2K**）数据集由**图像恢复和增强的新趋势**（**NTIRE**）2017 单张图像超分辨率挑战赛引入，也用于挑战赛的 2018 版本中。
+
+在下一节中，我们将构建 SRGAN 模型脚本。
+
+# 创建用于超分辨率的 SRGAN 模型
+
+首先，我们将从处理`train.py`文件开始：
+
+1.  让我们从将必要的模块导入项目开始：
+
+```py
+import os
+
+from data import DIV2K
+from model.srgan import generator, discriminator
+from train import SrganTrainer, SrganGeneratorTrainer
+```
+
+前面的导入引入了一些现成的类，例如`SrganTrainer`，`SrganGeneratorTrainer`等。 在完成此文件的工作后，我们将详细讨论它们。
+
+2.  现在，让我们为权重创建一个目录。 我们还将使用此目录来存储中间模型：
+
+```py
+weights_dir = 'weights'
+weights_file = lambda filename: os.path.join(weights_dir, filename)
+
+os.makedirs(weights_dir, exist_ok=True)
+```
+
+3.  接下来，我们将从 DIV2K 数据集中下载并加载图像。 我们将分别下载训练和验证图像。 对于这两组图像，可以分为两对：高分辨率和低分辨率。 但是，这些是单独下载的：
+
+```py
+div2k_train = DIV2K(scale=4, subset='train', downgrade='bicubic')
+div2k_valid = DIV2K(scale=4, subset='valid', downgrade='bicubic')
+```
+
+4.  将数据集下载并加载到变量后，我们需要将训练图像和验证图像都转换为 TensorFlow 数据集对象。 此步骤还将两个数据集中的高分辨率和低分辨率图像结合在一起：
+
+```py
+train_ds = div2k_train.dataset(batch_size=16, random_transform=True)
+valid_ds = div2k_valid.dataset(batch_size=16, random_transform=True, repeat_count=1)
+```
+
+5.  现在，回想一下我们在“了解 GAN”部分中提供的 GAN 的定义。 为了使生成器开始产生判别器可以评估的伪造品，它需要学习创建基本的伪造品。 为此，我们将快速训练神经网络，以便它可以生成基本的超分辨率图像。 我们将其命名为**预训练器**。 然后，我们将**预训练器**的权重迁移到实际的 SRGAN，以便它可以通过使用判别器来学习更多。 让我们构建并运行**预训练器**：
+
+```py
+pre_trainer = SrganGeneratorTrainer(model=generator(), checkpoint_dir=f'.ckpt/pre_generator')
+pre_trainer.train(train_ds,
+                  valid_ds.take(10),
+                  steps=1000000, 
+                  evaluate_every=1000, 
+                  save_best_only=False)
+
+pre_trainer.model.save_weights(weights_file('pre_generator.h5'))
+```
+
+现在，我们已经训练了一个基本模型并保存了权重。 我们可以随时更改 SRGAN 并通过加载其权重从基础训练中重新开始。
+
+6.  现在，让我们将**预训练器**权重加载到 SRGAN 对象中，并执行训练迭代：
+
+```py
+gan_generator = generator()
+gan_generator.load_weights(weights_file('pre_generator.h5'))
+
+gan_trainer = SrganTrainer(generator=gan_generator, discriminator=discriminator())
+gan_trainer.train(train_ds, steps=200000)
+```
+
+请注意，在具有 8 GB RAM 和 Intel i7 处理器的普通计算机上，上述代码中的训练操作可能会花费大量时间。 建议在具有**图形处理器**（**GPU**）的基于云的虚拟机中执行此训练。
+
+7.  现在，让我们保存 GAN 生成器和判别器的权重：
+
+```py
+gan_trainer.generator.save_weights(weights_file('gan_generator.h5'))
+gan_trainer.discriminator.save_weights(weights_file('gan_discriminator.h5'))
+```
+
+现在，我们准备继续进行下一部分，在该部分中将构建将使用此模型的 Flutter 应用的 UI。
+
+# 构建应用的 UI
+
+现在，我们了解了图像超分辨率模型的基本功能并为其创建了一个模型，让我们深入研究构建 Flutter 应用。 在本节中，我们将构建应用的 UI。
+
+该应用的用户界面非常简单：它将包含两个图像小部件和按钮小部件。 当用户单击按钮小部件时，他们将能够从设备的库中选择图像。 相同的图像将作为输入发送到托管模型的服务器。 服务器将返回增强的图像。 屏幕上将放置的两个图像小部件将用于显示服务器的输入和服务器的输出。
+
+下图说明了应用的基本结构和最终流程：
+
+![](img/86a43bbe-4673-4dcb-8a8c-591d7c952df0.png)
+
+该应用的三个主要小部件可以简单地排列在一列中。 该应用的小部件树如下所示：
+
+![](img/e86b1f1e-fea6-4813-a594-1d579c9d4b17.png)
+
+现在，让我们编写代码以构建主屏幕。 以下步骤讨论了该应用小部件的创建和放置：
+
+1.  首先，我们创建一个名为`image_super_resolution.dart`的新文件。 这将包含一个名为`ImageSuperResolution`的无状态窗口小部件。 该小部件将包含应用主屏幕的代码。
+2.  接下来，我们将定义一个名为`buildImageInput()`的函数，该函数返回一个小部件，该小部件负责显示用户选择的图像：
+
+```py
+Widget buildImage1() {
+     return Expanded(
+         child: Container(
+             width: 200, 
+             height: 200, 
+             child: img1
+         )
+     );
+ }
+```
+
+此函数返回带有`Container`作为其`child.`的`Expanded`小部件。`Container`的`width`和`height`为`200`。 `Container`的子元素最初是存储在资产文件夹中的占位符图像，可以通过`img1`变量进行访问，如下所示：
+
+```py
+ var img1 = Image.asset('assets/place_holder_image.png');
+```
+
+我们还将在`pubspec.yaml`文件中添加图像的路径，如下所示：
+
+```py
+flutter:
+    assets:
+        - assets/place_holder_image.png
+```
+
+3.  现在，我们将创建另一个函数`buildImageOutput()`，该函数返回一个小部件，该小部件负责显示模型返回的增强图像：
+
+```py
+Widget buildImageOutput() {
+     return Expanded(
+         child: Container(
+             width: 200, 
+             height: 200, 
+             child: imageOutput
+         )
+     );
+ }
+```
+
+此函数返回一个以其`Container`作为其子元素的`Expanded`小部件。 `Container`的宽度和高度设置为`200`。 `Container`的子级是名为`imageOutput`的小部件。 最初，`imageOutput`还将包含一个占位符图像，如下所示：
+
+```py
+Widget imageOutput = Image.asset('assets/place_holder_image.png');
+```
+
+将模型集成到应用中后，我们将更新`imageOutput`。
+
+4.  现在，我们将定义第三个函数`buildPickImageButton()`，该函数返回一个`Widget`，我们可以使用它从设备的图库中选择图像：
+
+```py
+Widget buildPickImageButton() {
+     return Container(
+         margin: EdgeInsets.all(8),
+         child: FloatingActionButton(
+             elevation: 8,
+             child: Icon(Icons.camera_alt),
+             onPressed: () => {},
+        )
+     );
+ }
+```
+
+此函数返回以`FloatingActionButton`作为其子元素的`Container`。 按钮的`elevation`属性控制其下方阴影的大小，并设置为`8`。 为了反映该按钮用于选择图像，通过`Icon`类为它提供了摄像机的图标。 当前，我们已经将按钮的`onPressed`属性设置为空白。 我们将在下一部分中定义一个函数，使用户可以在按下按钮时从设备的图库中选择图像。
+
+5.  最后，我们将覆盖`build`方法以返回应用的`Scaffold`：
+
+```py
+@override
+ Widget build(BuildContext context) {
+     return Scaffold(
+         appBar: AppBar(title: Text('Image Super Resolution')),
+         body: Container(
+             child: Column(
+                 crossAxisAlignment: CrossAxisAlignment.center,
+                 children: <Widget>[
+                     buildImageInput(),
+                     buildImageOutput(),
+                     buildPickImageButton()
+                 ]
+             )
+         )
+     );
+ }
+
+```
+
+`Scaffold`包含一个`appBar`，其标题设置为“图像超分辨率”。 `Scaffold`的主体为`Container`，其子代为`Column`。 该列的子级是我们在先前步骤中构建的三个小部件。 另外，我们将`Column`的`crossAxisAlignment`属性设置为`CrossAxisAlignment.center`，以确保该列位于屏幕的中央。
+
+至此，我们已经成功构建了应用的初始状态。 以下屏幕截图显示了该应用现在的外观：
+
+![](img/657d7a8e-5a27-4bb7-9e69-17b01cf41659.png)
+
+尽管屏幕看起来很完美，但目前无法正常工作。 接下来，我们将向应用添加功能。 我们将添加让用户从图库中选择图像的功能。
+
+# 从设备的本地存储中获取图片
+
+在本节中，我们将添加`FloatingActionButton`的功能，以使用户可以从设备的图库中选择图像。 这最终将被发送到服务器，以便我们能够收到响应。
+
+以下步骤描述了如何启动图库并让用户选择图像：
+
+1.  为了允许用户从设备的图库中选择图像，我们将使用`image_picker`库。 这将启动图库并存储用户选择的图像文件。 我们将从在`pubspec.yaml`文件中添加依赖项开始：
+
+```py
+image_picker: 0.4.12+1
+```
+
+另外，我们通过在终端上运行`flutter pub get`来获取库。
+
+2.  接下来，我们将库导入`image_super_resolution.dart`文件中：
+
+```py
+import 'package:image_picker/image_picker.dart';
+```
+
+3.  现在，让我们定义`pickImage()`函数，该函数使用户可以从图库中选择图像：
+
+```py
+void pickImage() async {
+     File pickedImg = await ImagePicker.pickImage(source: ImageSource.gallery);
+ }
+```
+
+4.  从函数内部，我们只需调用`ImagePicker.pickImage()`并将`source`指定为`ImageSource.gallery`即可。 该库本身处理启动设备图库的复杂性。 用户选择的图像文件最终由该函数返回。 我们将函数返回的文件存储在`File`类型的`pickedImg`变量中。
+5.  接下来，我们定义`loadImage()`函数，以便在屏幕上显示用户选择的图像：
+
+```py
+void loadImage(File file) {
+     setState(() {
+         img1 = Image.file(file);
+     });
+ }
+```
+
+此函数将用户选择的图像文件作为输入。 在函数内部，我们将先前声明的`img1`变量的值设置为`Image.file(file)`，这将返回从`'file'`构建的`Image`小部件。 回想一下，最初，`img1`被设置为占位符图像。 为了重新渲染屏幕并显示用户选择的图像，我们将`img1`的新分配放在`setState()`中。
+
+6.  现在，将`pickImage()`添加到`builtPickImageButton()`内的`FloatingActionButton`的`onPressed`属性中：
+
+```py
+ Widget buildPickImageButton() {
+     return Container(
+        ....
+        child: FloatingActionButton(
+            ....
+            onPressed: () => pickImage(),
+         )
+    );
+ }
+
+```
+
+前面的补充内容确保单击按钮时，会启动图库，以便可以选择图像。
+
+5.  最后，我们将从`pickImage()`向`loadImage()`添加一个调用：
+
+```py
+void pickImage() async {
+     ....
+     loadImage(pickedImg);
+ }
+```
+
+在`loadImage()`内部，我们传入用户选择的图像，该图像存储在`pickedImage`变量中，以便可以在应用的屏幕上查看该图像。
+
+完成上述所有步骤后，该应用将如下所示：
+
+![](img/dbbbf004-636d-47d6-9ca8-12453c2b7490.png)
+
+至此，我们已经构建了应用的用户界面。 我们还添加了一些功能，使用户可以从设备的图库中选择图像并将其显示在屏幕上。
+
+在下一部分中，我们将学习如何托管在“为超分辨率创建 TensorFlow 模型”中创建的模型作为 API，以便我们可以使用它执行超分辨率。
+
+# 在 DigitalOcean 上托管 TensorFlow 模型
+
+DigitalOcean 是一个了不起的低成本云解决方案平台，非常易于上手，并提供了应用开发人员为立即可用的应用后端提供动力所需的几乎所有功能。 该界面非常易于使用，并且 DigitalOcean 拥有一些最广泛的文档，这些文档围绕着如何在云上设置不同类型的应用服务器提供入门。
+
+在这个项目中，我们将使用 DigitalOcean 的 Droplet 部署我们的超分辨率 API。 DigitalOcean 中的 Droplet 只是通常在共享硬件空间上运行的虚拟机。
+
+首先，我们将在项目目录中创建`flask_app.py`文件，并添加服务器工作所需的代码。
+
+# 创建一个 Flask 服务器脚本
+
+在本节中，我们将处理`flask_app.py`文件，该文件将作为服务器在云虚拟机上运行。 让我们开始吧：
+
+1.  首先，我们将对文件进行必要的导入：
+
+```py
+from flask import Flask, request, jsonify, send_file
+import os
+import time
+
+from matplotlib.image import imsave
+
+from model.srgan import generator
+
+from model import resolve_single
+```
+
+2.  现在，我们将定义`weights`目录并将生成器权重加载到文件中：
+
+```py
+weights_dir = 'weights'
+weights_file = lambda filename: os.path.join(weights_dir, filename)
+
+gan_generator = generator()
+gan_generator.load_weights(weights_file('gan_generator.h5'))
+```
+
+3.  接下来，我们将使用以下代码行实例化`Flask`应用：
+
+```py
+app = Flask(__name__)
+```
+
+4.  现在，我们准备构建服务器将监听的路由。 首先，我们将创建`/generate`路由，该路由将图像作为输入，生成其超分辨率版本，并将所生成的高分辨率图像的文件名返回给用户：
+
+```py
+@app.route('/generate', methods=["GET", "POST"])
+def generate():
+
+    global gan_generator
+    imgData = request.get_data()
+    with open("input.png", 'wb') as output:
+        output.write(imgData)
+
+    lr = load_image("input.png")
+    gan_sr = resolve_single(gan_generator, lr)
+    epoch_time = int(time.time())
+    outputfile = 'output_%s.png' % (epoch_time)
+    imsave(outputfile, gan_sr.numpy())
+    response = {'result': outputfile}
+
+    return jsonify(response)
+```
+
+让我们尝试了解前面的代码块中发生的情况。 `/generate`路由已设置为仅监听 HTTP 请求的 GET 和 POST 方法。 首先，该方法获取 API 请求中提供给它的图像，将其转换为 NumPy 数组，然后将其提供给 SRGAN 模型。 SRGAN 模型返回超分辨率图像，然后为其分配一个唯一的名称并存储在服务器上。 用户显示文件名，他们可以使用该文件名调用另一个端点来下载文件。 让我们现在构建此端点。
+
+5.  为了创建端点以便下载生成的文件，我们可以使用以下代码：
+
+```py
+@app.route('/download/<fname>', methods=['GET'])
+def download(fname):
+    return send_file(fname)
+```
+
+在这里，我们创建了一个名为`/download`的端点，该端点附加了文件名后，将其提取并发送回给用户。
+
+6.  最后，我们可以编写执行该脚本并设置服务器的代码：
+
+```py
+app.run(host="0.0.0.0", port="8080")
+```
+
+保存此文件。 确保此时将您的存储库推送到 GitHub/GitLab 存储库。
+
+现在，我们准备将该脚本部署到`DigitalOcean` Droplet。
+
+# 将 Flask 脚本部署到 DigitalOcean Droplet
+
+要将 Flask 脚本部署到 DigitalOcean Droplet，您必须创建一个 DigitalOcean 帐户并创建一个 Droplet。 请按照以下步骤操作：
+
+1.  在您喜欢的 Web 浏览器中转到 [digitalocean.com](https://digitalocean.com) 。
+
+如果您希望在添加帐单详细信息时获得 100 美元的赠金，也可以转到[这里](https://m.do.co/c/ca4f8fcaa7e9)。 我们稍后再做。
+
+2.  在 DigitalOcean 的注册表格中填写您的详细信息，然后提交表格继续进行下一步。
+3.  系统将要求您验证电子邮件并为 DigitalOcean 帐户添加结算方式。
+
+4.  在下一步中，系统将提示您创建第一个项目。 输入所需的详细信息并提交表单以创建您的项目：
+
+![](img/610af216-fc97-44dc-aacb-87d1cd4feb55.png)
+
+5.  创建项目后，您将被带到 DigitalOcean 仪表板。 您将能够看到创建 Droplet 的提示，如以下屏幕截图所示：
+
+![](img/89741076-7529-4670-8dbb-b877507df344.png)
+
+6.  单击“提示”以弹出 Droplet 创建表单。 选择下表中描述的选项：
+
+    | **字段** | **说明** | **要使用的值** |
+    | --- | --- | --- |
+    | 选择一张图片 | Droplet 将在其上运行的操作系统。 | Ubuntu 18.04（或最新可用版本） |
+    | 选择一个计划 | 选择 Droplet 的配置。 | 4 GB RAM 或更高 |
+    | 添加块存储 | Droplet 的其他持久性，可拆卸存储容量。 | 保留默认值 |
+    | 选择数据中心区域 | 投放 Droplet 的区域。 | 根据您的喜好选择任何一个 |
+    | 选择其他选项 | 选择将与您的 Droplet 一起使用的所有其他功能。 | 保留默认值 |
+    | 认证方式 | 选择虚拟机的认证方法。 | 一次性密码 |
+    | 完成并创建 | Droplet 的一些其他设置和选项。 | 保留默认值 |
+
+7.  单击“创建 Droplet”，然后等待 DigitalOcean 设置您的 Droplet。
+8.  创建 Droplet 后，单击其名称以打开 Droplet 管理控制台，该控制台应如下所示：
+
+![](img/72bf3798-300a-4d53-82e5-c369fc742db6.png)
+
+9.  现在，我们可以使用上一幅截图所示的 Droplet 控制台左侧导航菜单上的 Access 选项卡登录到 Droplet。 单击“访问”，然后启动控制台。
+10.  将打开一个新的浏览器窗口，显示您的 Droplet 的 VNC 视图。 系统将要求您输入 Droplet 的用户名和密码。 您必须在此处使用的用户名是`root`。 可以在您已注册的电子邮件收件箱中找到该密码。
+11.  首次登录时，系统会要求您更改 Droplet 密码。 确保您选择一个强密码。
+
+12.  登录 Droplet 后，将在 VNC 终端上看到一些 Ubuntu 欢迎文本，如以下屏幕截图所示：
+
+![](img/3c1e210f-4e72-4eef-bf73-a2b3e823de2b.png)
+
+13.  现在，按照本书的“附录”中的说明，执行在云 VM 上设置深度学习环境的步骤。
+14.  接下来，将项目存储库克隆到您的 Droplet，并使用以下命令将工作目录更改为存储库的`api`文件夹：
+
+```py
+git clone https://github.com/yourusername/yourrepo.git
+cd yourrepo/api
+```
+
+15.  使用以下命令运行服务器：
+
+```py
+python3 flask_app.py
+```
+
+除了来自 TensorFlow 的一些警告消息之外，在终端输出的末尾，您还应该看到以下几行指示服务器已成功启动：
+
+![](img/ef716cd2-259d-49f6-8226-a6cb9d2be249.png)
+
+现在，如 Droplet 控制台所示，您的服务器已启动并在 Droplet 的 IP 上运行。
+
+在下一部分中，我们将学习如何使用 Flutter 应用向服务器发出 POST 请求，并在屏幕上显示服务器的响应。
+
+# 在 Flutter 上集成托管的自定义模型
+
+在本节中，我们将向托管模型发出 POST 请求，并将其传递给用户选择的图像。 服务器将以 PNG 格式响应`NetworkImage`。 然后，我们将更新之前添加的图像小部件，以显示模型返回的增强图像。
+
+让我们开始将托管模型集成到应用中：
+
+1.  首先，我们将需要两个以上的外部库来发出成功的 POST 请求。 因此，我们将以下库作为依赖项添加到`pubspec.yaml`文件：
+
+```py
+dependencies:
+     flutter:
+          http: 0.12.0+4
+          mime: 0.9.6+3
+```
+
+`http`依赖项包含一组类和函数，这些类和函数使使用 HTTP 资源非常方便。 `mime`依赖性用于处理 MIME 多部分媒体类型的流。
+
+现在，我们需要运行`flutter pub get`以确保所有依赖项均已正确安装到我们的项目中。
+
+2.  接下来，我们将所有新添加的依赖项导入`image_super_resolution.dart`文件：
+
+```py
+import 'package:http/http.dart' as http;
+import 'package:mime/mime.dart';
+```
+
+3.  现在，我们需要定义`fetchResponse()`，它接受所选的图像文件并向服务器创建 POST 请求：
+
+```py
+void fetchResponse(File image) async {
+
+    final mimeTypeData =
+        lookupMimeType(image.path, headerBytes: [0xFF, 0xD8]).split('/');
+
+    final imageUploadRequest = http.MultipartRequest('POST', Uri.parse("http://x.x.x.x:8080/generate"));
+
+    final file = await http.MultipartFile.fromPath('image', image.path,
+        contentType: MediaType(mimeTypeData[0], mimeTypeData[1]));
+
+    imageUploadRequest.fields['ext'] = mimeTypeData[1];
+    imageUploadRequest.files.add(file);
+    try {
+      final streamedResponse = await imageUploadRequest.send();
+      final response = await http.Response.fromStream(streamedResponse);
+      final Map<String, dynamic> responseData = json.decode(response.body);      
+      String outputFile = responseData['result'];
+    } catch (e) {
+      print(e);
+      return null;
+    }
+  }
+```
+
+在前面的方法中，我们通过使用`lookupMimeType`函数并使用文件的路径及其头来查找所选文件的 MIME 类型。 然后，按照托管模型的服务器的预期，初始化一个多部分请求。 我们使用 HTTP 执行此操作。 我们使用`MultipartFile.fromPath`并将`image`的值设置为作为`POST`参数附加的路径。 由于`image_picker`存在一些错误，因此我们将图片的扩展名明确传递给请求主体。 因此，它将图像扩展名与文件名（例如`filenamejpeg`）混合在一起，这在管理或验证文件扩展名时在服务器端造成了问题。 然后，来自服务器的响应将存储在`response`变量中。 响应为 JSON 格式，因此我们需要使用`json.decode()`对其进行解码。 该函数接收响应的主体，可以使用`response.body`进行访问。 我们将解码后的 JSON 存储在`responseData`变量中。 最后，使用`responseDate['result']`访问服务器的输出并将其存储在`outputFile`变量中。
+
+4.  接下来，我们定义`displayResponseImage()`函数，该函数接受服务器在`outputFile`参数内返回的 PNG 文件的名称：
+
+```py
+void displayResponseImage(String outputFile) {
+     print("Updating Image");
+     outputFile = 'http://x.x.x.x:8080/download/' + outputFile;
+     setState(() {        
+        imageOutput = Image(image: NetworkImage(outputFile));
+    });
+ }
+
+```
+
+根据服务器的自定义，我们需要在文件名之前附加一个字符串以将其显示在屏幕上。 该字符串应包含服务器正在运行的端口地址，后跟`'/download/<outputFile>'`。 然后，我们将`outputFile`的最终值用作`url`值，将`imageOutput`小部件的值设置为`NetworkImage`。 另外，我们将其封装在[H​​TG5]中，以便在正确获取响应后可以刷新屏幕。
+
+5.  接下来，我们在`fetchResponse()`的最后调用`displayResponseImage()`，并传入从托管模型收到的`outputFile`：
+
+```py
+void fetchResponse(File image) async {
+    ....   
+    displayResponseImage(outputFile);
+}
+```
+
+6.  最后，通过传入用户最初选择的图像，将调用从`pickImage()`添加到`fetchResponse()`：
+
+```py
+void pickImage() async {
+     ....
+     fetchResponse(pickedImg);
+ }
+```
+
+在前面的步骤中，我们首先向托管模型的服务器发出 POST 请求。 然后，我们解码响应并添加代码以在屏幕上显示它。 在`pickImage()`末尾添加`fetchResponse()`可确保仅在用户选择图像后才发出 POST 请求。 另外，为了确保在成功解码来自服务器的输出之后已经尝试显示响应图像，在`fetchResponse()`的末尾调用`displayImageResponse()`。 以下屏幕快照显示了屏幕的最终预期状态：
+
+![](img/14248601-46e6-421b-aa88-3353ff56bd4d.png)
+
+因此，我们已经完成了应用的构建，以便可以显示模型的输出。 我们将两个图像保存在屏幕上，以便我们可以看到它们之间的差异。
+
+可以在[这个页面](https://github.com/PacktPublishing/Mobile-Deep-Learning-Projects/tree/master/Chapter9/flutter_image_super_resolution)上访问`image_super_resolution.dart`文件的代码。
+
+# 创建材质应用
+
+现在，我们将添加`main.dart`以创建最终的 Material 应用。 我们将创建一个名为`MyApp`的无状态小部件，并覆盖`build()`方法：
+
+```py
+class MyApp extends StatelessWidget {
+     @override
+     Widget build(BuildContext context) {
+         return MaterialApp(
+             title: 'Flutter Demo',
+             theme: ThemeData(
+                 primarySwatch: Colors.blue,
+             ),
+             home: ImageSuperResolution(),
+         );
+     }
+}
+```
+
+最后，我们执行代码，如下所示：
+
+```py
+void main() => runApp(MyApp());
+```
+
+至此，我们完成了一个应用的创建，该应用允许用户选择图像并修改其分辨率。
+
+# 总结
+
+在本章中，我们研究了超分辨率图像以及如何使用 SRGAN 应用它们。 我们还研究了其他类型的 GAN 以及 GAN 的总体工作方式。 然后，我们讨论了如何创建一个 Flutter 应用，该应用可以与 DigitalOcean Droplet 上托管的 API 集成在一起，以便当从图库中拾取图像时可以执行图像超分辨率。 接下来，我们介绍了如何使用 DigitalOcean Droplet，以及由于其低成本和易于使用的界面而成为托管应用后端的理想选择。
+
+在下一章中，我们将讨论一些流行的应用，这些应用通过将深度学习集成到其功能中而获得了很大的改进。 我们还将探索手机深度学习中的一些热门研究领域，并简要讨论已在其上进行的最新工作。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/10.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/10.md
new file mode 100644
index 00000000..ec75a1c0
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/10.md
@@ -0,0 +1,105 @@
+# 十、前方的路
+
+旅程中最重要的部分是知道结束后要去哪里。 到目前为止，在本系列项目中，我们已经介绍了一些与 Flutter 应用相关的独特且功能强大的**深度学习**（**DL**）应用，但重要的是，您必须知道在哪里可以找到更多这样的项目，灵感和知识来构建自己的出色项目。 在本章中，我们将简要介绍当今在移动应用上使用 DL 的最流行的应用，当前趋势以及将来在该领域中将会出现的情况。
+
+在本章中，我们将介绍以下主题：
+
+*   了解移动应用中 DL 的最新趋势
+*   探索移动设备上 DL 的最新发展
+*   探索移动应用中 DL 的当前研究领域
+
+让我们开始研究 DL 移动应用世界中的一些趋势。
+
+# 了解移动应用中 DL 的最新趋势
+
+特别是 DL，随着最新技术和硬件的发展，**人工智能**（**AI**）变得越来越移动。 组织一直在使用智能算法来提供个性化的用户体验并提高应用参与度。 借助人脸检测，图像处理，文本识别，对象识别和语言翻译等技术，移动应用已不仅仅是提供静态信息的媒介。 它们能够适应用户的个人偏好和选择以及当前和过去的环境状况，以提供无缝的用户体验。
+
+让我们看一下一些流行的应用及其部署的方法，以提供良好的用户体验，同时增加应用的参与度。
+
+# 数学求解器
+
+数学求解器应用由微软于 2020 年 1 月 16 日启动，可通过简单地单击智能手机上有问题的图片来帮助学生完成数学作业。 该应用为基本和高级数学问题提供支持，涵盖了广泛的主题，包括基本算术，二次方程，微积分和统计。 以下屏幕截图显示了该应用的工作方式：
+
+![](img/ca78c6ae-0d73-44c8-a2f8-f4531dce5724.png)
+
+用户可以在其智能手机上单击手写或打印问题的图片，或直接在设备上涂鸦或键入图片。 该应用利用 AI 来识别问题并准确解决。 此外，它还可以提供分步说明，并提供其他学习资料，例如与问题有关的工作表和视频教程。
+
+# Netflix
+
+Netflix 的推荐系统是在移动应用上使用 DL 的最大成功案例之一。 Netflix 利用多种算法来了解用户的偏好，并提供了他们可能感兴趣的推荐列表。所有内容都标记有标签，这些标签提供了可以从中学习算法的初始数据集。 此外，该系统监视着超过 1 亿个用户个人资料，以分析人们观看的内容，以后可能观看的内容，以前观看的内容，一年前观看的内容，等等。 将收集的所有数据汇总在一起，以了解用户可能感兴趣的内容类型。
+
+然后，将使用标签和用户行为收集的数据汇总在一起，并输入到复杂的 ML 算法中。 这些数据有助于解释可能最重要的因素-例如，如果用户一年前观看的电影与上周观看的系列相比应被计数两次。 该算法还可以从用户行为中学习，例如用户喜欢还是不喜欢特定的内容，或者用户在 2 个晚上观看和观看的节目。 将所有因素汇总在一起并进行仔细分析，从而得出用户可能最感兴趣的建议列表。
+
+# 谷歌地图
+
+Google Maps 已帮助通勤者前往新地方，探索新城市并监控每日流量。 在 2019 年 6 月上旬，谷歌地图发布了一项新功能，使用户可以监控印度 10 个主要城市的巴士旅行时间，以及从印度铁路局获得实时更新。 该功能位于班加罗尔，钦奈，哥印拜陀，德里，海得拉巴，勒克瑙，孟买，浦那和苏拉特，它利用 Google 的实时交通数据和公交时刻表来计算准确的出行时间和延误。 支持该功能的算法可从总线位置随时间的顺序中学习。 该数据还与通勤时公交车上的汽车速度结合在一起。 数据还用于捕获特定街道的独特属性。 研究人员还模拟了围绕某个区域弹出查询的可能性，以使该模型更加健壮和准确。
+
+# Tinder
+
+作为结识新朋友的全球最受欢迎的应用，Tinder 部署了许多学习模型，以增加喜欢特定个人资料的人数。 **智能照片**功能增加了用户找到正确匹配项的可能性。 该功能随机排序特定用户的图片并将其显示给其他人。 支持该功能的算法分析了向左或向右滑动图片的频率。 它使用该知识根据图片的受欢迎程度对其重新排序。 随着越来越多的数据收集，该算法的准确率一直在不断提高。
+
+# Snapchat
+
+Snapchat 使用的过滤器是在图片和视频的顶部添加的设计叠加层，可以跟踪面部移动。 这些过滤器是通过计算机视觉实现的。 应用使用的算法的第一步是检测图像中存在的面部。 它输出包围检测到的面部的框。 然后，它为检测到的每个脸部标记面部标志（例如眼睛，鼻子和嘴唇）。 这里的输出通常是一个包含`x`-坐标和`y`-坐标的二维点。 正确检测到面部和面部特征后，它将使用图像处理功能在整个面部上正确放置或应用过滤器。 该算法使用 Active Shape Model 进一步分析了关键的面部特征。 在通过手动标记关键面部特征的边界进行训练后，该模型将创建与屏幕上出现的面部对齐的平均面部。 该模型将创建一个网格，以正确放置过滤器并跟踪其运动。
+
+现在，我们来看看 DL 领域的研究领域。
+
+# 探索移动设备上 DL 的最新发展
+
+随着 DL 和 AI 的复杂性与移动应用的结合，正在不断进行软件和硬件优化，以在设备上高效运行模型。 让我们看看其中的一些。
+
+# 谷歌的 MobileNet
+
+Google 的 MobileNet 于 2017 年推出。它是基于 TensorFlow 的一组移动优先计算机视觉模型，经过精心优化以在受限的移动环境中高效运行。 它充当复杂神经网络结构的准确率与移动运行时性能约束之间的桥梁。 由于这些模型具有在设备本身上本地运行的能力，因此 MobileNet 具有安全性，隐私性和灵活的可访问性的优点。 MobileNet 的两个最重要的目标是在处理计算机视觉模型时减小尺寸并降低复杂性。 MobileNet 的第一个版本提供了低延迟模型，该模型能够在受限资源下正常工作。 它们可用于分类，检测，嵌入和分段，支持各种用例。
+
+于 2018 年发布的 MobileNetV2 是对第一个版本的重大增强。 它可以用于语义分割，对象检测和分类。 作为 TensorFlow-Slim 图像分类库的一部分启动的 MobileNetV2，可以从 Colaboratory 直接访问。 也可以在本地下载，使用 Jupyter 进行浏览，也可以从 TF-Hub 和 GitHub 访问。 添加到架构中的两个最重要的功能是层之间的线性瓶颈和瓶颈之间的快捷连接。 瓶颈对中间的输入和输出进行编码，并且内层支持从较低级别的概念转换为较高级别的描述符的功能。 传统的剩余连接和快捷方式有助于减少训练时间并提高准确率。 与第一个版本相比，MobileNetV2 更快，更准确，并且所需的操作和参数更少。 它非常有效地用于对象检测和分割以提取特征。
+
+[您可以在此处阅读有关此研究工作的更多信息](https://arxiv.org/abs/1905.02244)。
+
+# 阿里巴巴移动神经网络
+
+阿里巴巴**移动神经网络**（**MNN**）是开源的轻量级 DL 推理引擎。 阿里巴巴工程副总裁贾阳清说：“与 TensorFlow 和 Caffe2 等通用框架相比，它既涵盖训练又包括推理，MNN 专注于推理的加速和优化，并解决了模型部署过程中的效率问题。 因此可以在移动端更高效地实现模型背后的服务，这实际上与 TensorRT 等服务器端推理引擎中的思想相符在大型机器学习应用中，推理的计算量通常是 10 倍以上，因此，进行推理的优化尤为重要。”
+
+MNN 的主要关注领域是**深度神经网络**（**DNN**）模型的运行和推断。 它专注于模型的优化，转换和推断。 MNN 已被成功用于阿里巴巴公司的许多移动应用中，例如 Mobile Tmall，Mobile Taobao，Fliggy，UC，Qianuu 和 Juhuasuan。 它涵盖了搜索推荐，短视频捕获，直播，资产分配，安全风险控制，交互式营销，按图像搜索产品以及许多其他实际场景。 菜鸟呼叫机柜等**物联网**（**IoT**）设备也越来越多地使用技术。 MNN 具有很高的稳定性，每天可以运行超过 1 亿次。
+
+MNN 具有高度的通用性，并为市场上大多数流行的框架提供支持，例如 TensorFlow，Caffe 和**开放式神经网络交换**（**ONNX**）。 它与**卷积神经网络**（**CNN**）和**循环神经网络**（**RNN**）等通用神经网络兼容。 MNN 轻巧且针对移动设备进行了高度优化，并且没有依赖关系。 它可以轻松部署到移动设备和各种嵌入式设备。 它还通过**便携式操作系统接口**（**POSIX**）支持主要的 Android 和 iOS 移动操作系统以及嵌入式设备。 MNN 不受任何外部库的影响，可提供非常高的性能。 它的核心操作通过大量的手写汇编代码来实现，以充分利用**高级 RISC 机器**（**ARM**）CPU 的优势。 借助高效的**图像处理模块**（**IPM**），无需 libyuv 或 OpenCV 即可加速仿射变换和色彩空间变换，MNN 易于使用。
+
+在积极开发和研究这些产品的同时，现在让我们看一下将来有望变得越来越重要的一些领域。
+
+# 探索移动应用中 DL 的当前研究领域
+
+活跃的研究人员社区要投入时间和精力，对于任何研究领域的健康发展至关重要。 幸运的是，DL 在移动设备上的应用引起了全球开发人员和研究人员的强烈关注，许多手机制造商（例如三星，苹果，Realme 和 Xiaomi）将 DL 直接集成到了系统**用户界面**中 （**UI**）为所有设备生成。 这极大地提高了模型的运行速度，并且通过系统更新定期提高模型的准确率。
+
+让我们看一下该领域中一些最受欢迎的研究领域，以及它们是如何发展的。
+
+# DeepFashion
+
+在 2019 年，DeepFashion2 数据集由葛玉英，张瑞茂等提出。 该数据集是对 DeepFashion 数据集的改进，包括来自卖方和消费者的 491,000 张图像。 数据集可识别 801,000 件服装。 数据集中的每个项目都标有比例，遮挡，放大，视点，类别，样式，边界框，密集的界标和每个像素的蒙版。
+
+数据集在训练集中有 391,000 张图像，在验证集中有 34,000 张图像，在测试集中有 67,000 张图像。 该数据集提供了提出更好的模型的可能性，该模型能够从图像中识别时装和不同的服装。 可以轻松想象此数据集可能会导致的应用范围-包括在线商店根据消费者经常穿的衣服推荐要购买的产品，以及首选品牌和产品的预期价格范围。 仅通过识别他们所穿的服装和品牌，也有可能识别任何人可能从事的职业及其财务，宗教和地理细节。
+
+[您可以在此处阅读有关 DeepFashion2 数据集的更多信息](https://arxiv.org/abs/1901.07973)。
+
+# 自我注意生成对抗网络
+
+我们在“第 9 章”，“构建图像超分辨率应用”中讨论了**生成对抗网络**（**GAN**）的应用，其中我们从低分辨率图像中生成高分辨率图像。 GAN 在学习模仿艺术和图案方面做得相当不错。 但是，在需要记住更长的序列的情况下，以及在序列的多个部分对于生成生成的输出很重要的情况下，它们无法很好地执行。 因此，我们期待 Ian Goodfellow 及其团队推出的**自我注意力 GAN**（**SAGAN**），它们是对图像生成任务应用注意力驱动的远程依赖建模的 GAN 系统。 该系统在 ImageNet 数据集上具有更好的性能，并有望在将来被广泛采用。
+
+Jason Antic 的 DeOldify 项目是使用 SAGANs 完成的工作的衍生产品。 该项目旨在将色彩带入旧的图像和视频中，从而使它们似乎从来没有缺少色彩。 以下屏幕快照显示了 DeOldify 项目的示例：
+
+![](img/48375cc3-f5a9-403a-b715-6aa4d5b0b24d.png)
+
+**Dorothea Lange（1936）的《移民母亲》**。 图像取自 [DeOldify GitHub 存储库](https://github.com/jantic/DeOldify)。 该项目可通过[这里](https://deoldify.ai/)进行测试和演示。 您可以在[这个页面](https://arxiv.org/abs/1805.08318)上了解有关 SAGAN 的更多信息。
+
+# 图片动画
+
+Facebook 是一个流行的社交媒体平台，具有用于多个平台的专用应用，一直在致力于创建工具，使您可以使用普通的相机生成 3D 图像，否则这些相机只会生成 2D 图像。 图像动画是一项类似的技术，可让我们将动画带入静态图像。 可以想象这种技术非常令人兴奋的用法，人们拍摄自拍照，然后从运动库中进行选择以对其图像进行动画处理，就好像他们自己在进行这些运动一样。
+
+图像动画虽然还处于起步阶段，但可以成为流行和有趣的应用，考虑到采用 Deepfake 技术的类似应用已成功地成为一项业务-例如，中国的 Zao 应用。
+
+[您可以在此处阅读图像动画研究论文](https://arxiv.org/abs/2003.00196v1)。
+
+# 总结
+
+在本章中，我们讨论了一些最流行的移动应用，这些应用因其在业务产品中最前沿地使用 DL 而著称，还讨论了 DL 影响其增长的方式。 我们还讨论了移动应用 DL 领域的最新发展。 最后，我们讨论了该领域的一些令人兴奋的研究领域，以及它们将来如何发展成潜在的流行应用。 我们相信，到目前为止，您将对如何在移动应用上部署 DL 以及如何使用 Flutter 来构建可在所有流行的移动平台上运行的跨平台移动应用有一个很好的了解。
+
+我们在本章结束时希望，您将充分利用本项目系列中介绍的思想和知识，并构建出令人敬畏的东西，从而在此技术领域带来一场革命。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/11.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/11.md
new file mode 100644
index 00000000..930da0c0
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/11.md
@@ -0,0 +1,573 @@
+# 十一、附录
+
+计算机科学领域令人兴奋的是，它允许多个软件组件组合在一起并致力于构建新的东西。 在这个简短的附录中，我们介绍了在移动设备上进行深度学习之前需要设置的工具，软件和在线服务。
+
+在本章中，我们将介绍以下主题：
+
+*   在 Cloud VM 上设置深度学习环境
+*   安装 Dart SDK
+*   安装 Flutter SDK
+*   配置 Firebase
+*   设置 **Visual Studio**（**VS**）代码
+
+# 在 Cloud VM 上设置深度学习环境
+
+在本节中，我们将提供有关如何在 **Google Cloud Platform**（**GCP**）计算引擎**虚拟机**（VM）实例以执行深度学习。 您也可以轻松地将此处描述的方法扩展到其他云平台。
+
+我们将以快速指南开始，介绍如何创建您的 GCP 帐户并为其启用结算功能。
+
+# 创建 GCP 帐户并启用结算
+
+要创建 GCP 帐户，您需要一个 Google 帐户。 如果您有一个以`@gmail.com`结尾的电子邮件地址或 G Suite 上的帐户，则您已经有一个 Google 帐户。 否则，您可以通过访问[这里](https://accounts.google.com/sigNup)创建一个 Google 帐户。 登录到 Google 帐户后，请执行以下步骤：
+
+1.  在浏览器上访问[这里](https://console.cloud.google.com/)。
+2.  接受在弹出窗口中显示给您的所有条款。
+3.  您将能够查看 GCP 控制台信息中心。 您可以通过阅读[这个页面](https://support.google.com/cloud/answer/3465889)上的支持文档来快速使用此仪表板。
+4.  在左侧导航菜单上，单击“计费”以打开计费管理仪表板。 系统将提示您添加一个计费帐户，如以下屏幕截图所示：
+
+![](img/4246b346-b4a9-4e99-998f-165343832c4e.png)
+
+5.  点击“添加结算帐户”。 如果有资格，您将被重定向到`GCP Free Trial`注册页面。 您可以在[这个页面](https://cloud.google.com/free/docs/gcp-free-tier)上了解有关免费试用的更多信息。 您应该看到类似于以下屏幕截图的屏幕：
+
+![](img/21a2e4df-0969-49e7-8de8-1a22a1415580.png)
+
+6.  根据需要填写表格。 创建完帐单后，请返回 GCP 控制台信息中心。
+
+您已成功创建 GCP 帐户并为其启用了结算功能。 接下来，您将能够在 GCP 控制台中创建一个项目并将资源分配给该项目。 我们将在接下来的部分中对此进行演示。
+
+# 创建一个项目和 GCP Compute Engine 实例
+
+在本部分中，您将在 GCP 帐户上创建一个项目。 GCP 中的所有资源都封装在项目下。 项目可能属于或不属于组织。 一个组织下可以有多个项目，而一个项目中可能有多个资源。 让我们开始创建项目，如以下步骤所示：
+
+1.  在屏幕的左上方，单击“选择项目”下拉菜单。
+2.  在出现的对话框中，单击对话框右上方的“新建项目”。
+
+3.  您将看到新的项目创建表单，如以下屏幕截图所示：
+
+![](img/d4fb2d23-9e3f-4bbc-9661-07f4f2aad3ed.png)
+
+4.  填写必要的详细信息后，单击`CREATE`完成创建项目。 创建项目后，将带您到项目的仪表板。 在这里，您将能够查看与当前所选项目相关的一些基本日志记录和监视。 您可以在[这个页面](https://cloud.google.com/docs/overview)上了解有关 GCP 资源组织方式的更多信息。
+5.  在左侧导航窗格中，单击`Compute Engine`。 系统将提示您创建一个 VM 实例。
+6.  点击“创建”以显示 Compute Engine 实例创建表单。 根据需要填写表格。 我们假设您在创建实例时选择了 Ubuntu 18.04 LTS 发行版。
+7.  确保在防火墙设置中启用对 VM 实例的 HTTP 和 HTTPS 连接的访问​​，如以下屏幕快照所示：
+
+![](img/4174ffef-0f01-46d5-986d-c4f9e2771301.png)
+
+8.  单击“创建”。 GCP 开始为您配置 VM 实例。 您将被带到 VM 实例管理页面。 您应该在此页面上看到您的 VM，如以下屏幕截图所示：
+
+![](img/f78eee29-a5f1-487c-8a8f-cacb5faecbdd.png)
+
+现在，您准备开始配置此 VM 实例以执行深度学习。 我们将在下一部分中对此进行介绍。
+
+# 配置您的 VM 实例来执行深度学习
+
+在本节中，我们将指导您如何安装包和模块，以在创建的 VM 实例上执行深度学习。 这些包和模块的安装说明在您选择的任何云服务提供商中都是相似的。
+
+您还可以在本地系统上使用类似的命令，以设置本地深度学习环境。
+
+首先调用 VM 的终端：
+
+1.  单击 VM 实例页面上的`SSH`按钮，以启动到 VM 的终端会话。
+
+2.  您应该看到终端会话开始，其中包含一些与系统有关的常规信息以及上次登录的详细信息，如以下屏幕截图所示：
+
+![](img/b79b0eac-cebe-4895-9616-87a90fd5d3da.png)
+
+3.  现在，让我们对该新创建的实例的包存储库执行更新：
+
+```py
+sudo apt update
+```
+
+4.  接下来，我们将在此 VM 上安装 **Anaconda**。 Anaconda 是一个受欢迎的包集合，用于使用 Python 执行深度学习和与数据科学相关的任务。 它带有`conda`包管理器打包在一起，这使得管理系统上安装的 Python 包的不同版本非常容易。 要安装它，我们首先需要获取 Anaconda 安装程序下载链接。 前往[这里](https://www.anaconda.com/distribution/#download-section)。 您将转到一个页面，为您提供要安装的 Anaconda 版本的选择，如以下屏幕截图所示：
+
+![](img/dd6e96e6-e407-49f0-ab39-d7ec503bdce5.png)
+
+5.  建议您选择 Python 3.7 版本。 右键单击“下载”按钮，然后在菜单中找到允许您复制链接地址的选项。
+6.  切换到您的 VM 实例的终端会话。 使用以下命令将占位符文本粘贴到命令中，从而将其替换为您复制的链接，如下所示：
+
+```py
+curl -O <link_you_have_copied>
+```
+
+7.  前面的命令会将 Anaconda 安装程序下载到当前用户的主目录中。 要对其进行验证，可以使用`ls`命令。 现在，要将此文件设置为可执行文件，我们将使用以下命令：
+
+```py
+chmod +x Anaconda*.sh
+```
+
+8.  现在，安装程序文件可以由您的系统执行。 要开始执行，请使用以下命令：
+
+```py
+./Anaconda*.sh
+```
+
+9.  安装应开始。 应该显示一个提示，询问您是否接受 Anaconda 软件的许可协议，如下所示：
+
+![](img/a8be21c6-5f69-4cfa-abd4-c3ce3d215c2f.png)
+
+10.  点击`Enter`继续检查许可证。 您会看到许可证文件。
+11.  点击向下箭头键以阅读协议。 输入`yes`接受许可证。
+12.  系统将要求您确认 Anaconda 安装的位置，如以下屏幕截图所示：
+
+![](img/e4579d4a-4130-4301-ae77-1eb791efaa4d.png)
+
+13.  点击`Enter`确认位置。 包提取和安装将开始。 完成此操作后，系统将询问您是否要初始化 Anaconda 环境。 在此处输入`yes`，如下所示：
+
+![](img/f1f89b99-db43-4c8a-8a0d-71424074b21b.png)
+
+14.  现在，安装程序将完成其任务并退出。 要激活 Anaconda 环境，请使用以下命令：
+
+```py
+source ~/.bashrc
+```
+
+15.  您已经成功安装了 Anaconda 环境并激活了它。 要检查安装是否成功，请在终端中输入以下命令：
+
+```py
+python3
+```
+
+如果以下命令的输出在第二行包含单词 Anaconda，Inc.，则表明安装成功。 您可以在以下屏幕截图中看到它：
+
+![](img/6c35a0ee-26db-44c3-831f-a9c4ba78407c.png)
+
+现在，您可以在此环境上开始运行深度学习脚本。 但是，您将来可能希望向此环境添加更多工具库，例如 PyTorch 或 TensorFlow 或任何其他包。 由于本书假定读者熟悉 Python，因此我们不会详细讨论`pip`工具。
+
+现在让我们看一下如何在 VM 上安装 TensorFlow。
+
+# 在 VM 上安装 TensorFlow
+
+TensorFlow 是执行深度学习的绝佳框架。
+
+要安装它，可以使用以下命令：
+
+```py
+# TensorFlow 1 with CPU only support
+python3 -m pip install tensorflow==1.15
+
+# TensorFlow 1 with GPU support
+python3 -m pip install tensorflow-gpu==1.15
+
+# TensorFlow 2 with CPU only support
+python3 -m pip install tensorflow
+
+# Tensorflow 2 with GPU support
+python3 -m pip install tensorflow-gpu
+
+```
+
+Python 中另一个经常安装的流行库是自然语言工具包（NLTK）库。 我们将在接下来的部分中演示其安装过程。
+
+# 在 VM 上安装 NLTK 并下载包
+
+要在 VM 上安装 NLTK 并为其下载数据包，请执行以下步骤：
+
+1.  使用`pip`安装 NLTK：
+
+```py
+python3 -m pip install nltk
+```
+
+2.  NLTK 有几种不同的数据包。 在大多数情况下，您并不需要全部。 要列出 NLTK 的所有可用数据包，请使用以下命令：
+
+```py
+python3 -m nltk.downloader
+```
+
+前面命令的输出将允许您交互式地查看所有可用的包，选择所需的包，然后下载它们。
+
+3.  但是，如果您只希望下载一个包，请使用以下命令：
+
+```py
+python3 -m nltk.downloader stopwords
+```
+
+前面的命令将下载 NLTK 的`stopwords`数据包。 在极少数情况下，您可能会发现自己需要或使用 NLTK 中可用的所有数据包。
+
+通过这种设置，您应该能够在云 VM 上运行大多数深度学习脚本。
+
+在下一部分中，我们将研究如何在本地系统上安装 Dart。
+
+# 安装 Dart SDK
+
+Dart 是 Google 开发的一种面向对象的语言。 它用于移动和 Web 应用开发。 Flutter 是用 Dart 构建的。 Dart 具有**即时**（**JIT**）开发周期，该状态与有状态的热重载兼容，并且具有提前编译的功能，可以快速启动并提供可预测的性能，这使其成为了可能。 适用于 Flutter。
+
+以下各节讨论如何在 Windows，macOS 和 Linux 上安装 Dart。
+
+# Windows
+
+在 Windows 中安装 Dart 的最简单方法是使用 Chocolatey。 只需在终端中运行以下命令：
+
+```py
+ C:\> choco install dart-sdk
+```
+
+接下来，我们将研究如何在 Mac 系统上安装 Dart。
+
+# MacOS
+
+要在 macOS 上安装 Dart，请执行以下步骤：
+
+1.  通过在终端中运行以下命令来安装 Homebrew：
+
+```py
+$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
+```
+
+2.  运行以下命令以安装 Dart：
+
+```py
+$brew tap dart-lang/dart
+$brew install dart
+```
+
+接下来，我们将研究如何在 Linux 系统上安装 Dart。
+
+# Linux
+
+Dart SDK 可以如下安装在 Linux 中：
+
+1.  执行以下一次性设置：
+
+```py
+$sudo apt-get update
+$sudo apt-get install apt-transport-https
+$sudo sh -c 'wget -qO- https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add -'
+$sudo sh -c 'wget -qO- https://storage.googleapis.com/download.dartlang.org/linux/debian/dart_stable.list > /etc/apt/sources.list.d/dart_stable.list'
+```
+
+2.  安装稳定版本：
+
+```py
+$sudo apt-get update
+$sudo apt-get install dart
+```
+
+接下来，我们将研究如何在本地计算机上安装 Flutter SDK。
+
+# 安装 Flutter SDK
+
+Flutter 是 Google 的一个工具包，用于使用单个代码库构建本地编译的 Android，iOS 和 Web 应用。 Flutter 具有热重载的快速开发，易于构建的表达性 UI 和本机性能等功能，这些都使 Flutter 成为应用开发人员的首选。
+
+以下各节讨论如何在 Windows，macOS 和 Linux 上安装 Flutter SDK。
+
+# Windows
+
+以下步骤详细概述了如何在 Windows 上安装 Flutter：
+
+1.  从[这里](https://storage.googleapis.com/flutter_infra/releases/stable/windows/flutter_windows_v1.9.1+hotfix.6-stable.zip)下载最新的 Flutter SDK 稳定版本。
+2.  解压缩 ZIP 文件夹，并导航到要安装 Flutter SDK 的目录，以放置`flutter`文件夹。
+
+避免将`flutter`放在可能需要特殊特权的目录中，例如`C:\Program Files\`。
+
+3.  在“开始”搜索栏中输入`env`，然后选择“编辑环境变量”。
+4.  使用`;`作为分隔符，将`flutter/bin`的完整路径附加到**用户变量**下的**路径**。
+
+如果缺少`Path`条目，只需创建一个新的`Path`变量并将`path`设置为`flutter/bin`作为其值。
+
+5.  在终端中运行`flutter doctor`。
+
+`flutter doctor`分析整个 Flutter 的安装，以检查是否需要更多工具才能在计算机上成功运行 Flutter。
+
+接下来，我们将研究如何在 Mac 系统上安装 Flutter。
+
+# MacOS
+
+Flutter 可以如下安装在 macOS 上：
+
+1.  从[这里](https://storage.googleapis.com/flutter_infra/releases/stable/macos/flutter_macos_v1.9.1+hotfix.6-stable.zip)下载最新的稳定 SDK。
+2.  将下载的 ZIP 文件夹解压缩到合适的位置，如下所示：
+
+```py
+$cd ~/
+$unzip ~/Downloads/flutter_macos_v1.9.1+hotfix.6-stable.zip
+```
+
+3.  将`flutter`工具添加到路径变量：`$ export PATH=`pwd`/flutter/bin:$PATH`。
+4.  打开`bash_profile`以永久更新`PATH`：
+
+```py
+$cd ~
+$nano .bash_profile
+```
+
+5.  将以下行添加到`bash_profile`：
+
+```py
+$export PATH=$HOME/flutter/bin:$PATH
+```
+
+6.  运行`flutter doctor`。
+
+# Linux
+
+以下步骤概述了如何在 Linux 上安装 Flutter：
+
+1.  从[这里](https://storage.googleapis.com/flutter_infra/releases/stable/linux/flutter_linux_v1.9.1+hotfix.6-stable.tar.xz)下载 SDK 的最新稳定版本。
+2.  将文件提取到合适的位置：
+
+```py
+ $cd ~/development
+ $tar xf ~/Downloads/flutter_linux_v1.9.1+hotfix.6-stable.tar.xz
+```
+
+3.  将`flutter`添加到`path`变量中：
+
+```py
+$export PATH="$PATH:`pwd`/flutter/bin"
+```
+
+4.  运行`flutter doctor`。
+
+接下来，我们将研究如何配置 Firebase 以提供 ML Kit 和自定义模型。
+
+# 配置 Firebase
+
+Firebase 提供了可促进应用开发并帮助支持大量用户的工具。 Firebase 可以轻松用于 Android，iOS 和 Web 应用。 Firebase 提供的产品（例如 Cloud Firestore，ML Kit，Cloud Functions，Authentication，Crashlytics，Performance Monitoring，Cloud Messaging 和 Dynamic Links）有助于构建应用，从而在不断发展的业务中提高应用质量。
+
+要集成 Firebase 项目，您需要创建一个 Firebase 项目并将其集成到您的 Android 或 iOS 应用中。 以下各节讨论如何创建 Firebase 项目并将其集成到 Android 和 iOS 项目中。
+
+# 创建 Firebase 项目
+
+首先，我们需要创建一个 Firebase 项目并将其链接到我们的 Android 和 iOS 项目。 此链接有助于我们利用 Firebase 提供的功能。
+
+要创建 Firebase 项目，请执行以下步骤：
+
+1.  通过[这里](https://console.firebase.google.com)访问 Firebase 控制台。
+2.  单击“添加项目”以添加新的 Firebase 项目：
+
+![](img/6129c7ba-34a6-4883-a997-f124541face3.png)
+
+3.  为您的项目提供一个名称：
+
+![](img/6456e4b0-6902-47e6-902c-ed96e569df86.png)
+
+4.  根据您的要求启用/禁用 Google Analytics（分析）。 通常建议您保持启用状态。
+
+**Google Analytics** 是一种免费且不受限制的分析解决方案，可在 Firebase Crashlytics，Cloud Messaging，应用内消息传递，远程配置，A/B 测试，预测和 Cloud Functions 中实现目标定位，报告等功能。
+
+4.  如果您选择 Firebase Analytics，则还需要选择一个帐户：
+
+![](img/9b21fa67-2ff7-4523-9539-4a654cea486f.png)
+
+在 Firebase 控制台上创建项目后，您将需要分别为 Android 和 iOS 平台进行配置。
+
+# 配置 Android 项目
+
+以下步骤讨论了如何配置 Android 项目以支持 Firebase：
+
+1.  导航到 Firebase 控制台上的应用。 在项目概述页面的中心，单击 Android 图标以启动工作流程设置：
+
+![](img/ca4e957f-15e4-4e49-b2e5-4baf21a0e082.png)
+
+2.  添加包名称以在 Firebase 控制台上注册该应用。 此处填写的包名称应与您的应用的包名称匹配。 此处提供的包名称用作标识的唯一密钥：
+
+![](img/6efdad04-0fdc-4e14-90a1-bcfabb214eb1.png)
+
+此外，您可以提供昵称和调试签名证书 SHA-1。
+
+3.  下载`google-services.json`文件并将其放在`app`文件夹中：
+
+![](img/1856a3f1-3674-4486-9c34-8f90d27a3c0e.png)
+
+`google-services.json`文件存储开发人员凭据和配置设置，并充当 Firebase 项目和 Android 项目之间的桥梁。
+
+4.  用于 Gradle 的 Google 服务插件会加载您刚刚下载的`google-services.json`文件。 项目级别的`build.gradle`（`<project>/build.gradle`）应该进行如下修改，以使用该插件：
+
+```py
+buildscript {
+  repositories {
+    // Check that you have the following line (if not, add it):
+    google()  // Google's Maven repository
+  }
+  dependencies {
+    ...
+    // Add this line
+    classpath 'com.google.gms:google-services:4.3.3'
+  }
+}
+
+allprojects {
+  ...
+  repositories {
+    // Check that you have the following line (if not, add it):
+    google()  // Google's Maven repository
+    ...
+  }
+}
+
+```
+
+5.  这是应用级别的`build.gradle`（`<p` `roject>/<app-module>build.gradle`）：
+
+```py
+apply plugin: 'com.android.application'
+// Add this line
+apply plugin: 'com.google.gms.google-services'
+
+dependencies {
+  // add SDKs for desired Firebase products
+  // https://firebase.google.com/docs/android/setup#available-libraries
+}
+```
+
+现在，您都可以在 Android 项目中使用 Firebase。
+
+# 配置 iOS 项目
+
+以下步骤演示了如何配置 iOS 项目以支持 Firebase：
+
+1.  导航到 Firebase 控制台上的应用。 在项目概述页面的中心，单击 iOS 图标以启动工作流程设置：
+
+![](img/6d8e12c8-8157-4b63-8c36-77e8a154365a.png)
+
+2.  添加 iOS 捆绑包 ID 名称，以在 Firebase 控制台上注册该应用。 您可以在“常规”选项卡中的**捆绑包标识符**中找到应用主要目标的 Xcode。 它用作标识的唯一密钥：
+
+![](img/47207ad6-ea66-4032-ba35-7f28988a9e48.png)
+
+此外，您可以提供昵称和 App Store ID。
+
+3.  下载`GoogleService-Info.plist`文件：
+
+![](img/58257e8e-5aeb-4216-9547-18d1c17bf756.png)
+
+4.  将刚刚下载的`GoogleService-Info.plist`文件移到 Xcode 项目的根目录中，并将其添加到所有目标中。
+
+Google 服务使用 CocoaPods 来安装和管理依赖项。
+
+5.  打开一个终端窗口，然后导航到您的应用的 Xcode 项目的位置。 如果没有，请在此文件夹中创建一个 Podfile：
+
+```py
+pod init
+```
+
+6.  打开您的 Podfile 并添加以下内容：
+
+```py
+# add pods for desired Firebase products # https://firebase.google.com/docs/ios/setup#available-pods
+```
+
+7.  保存文件并运行：
+
+```py
+pod install
+```
+
+这将为您的应用创建一个`.xcworkspace`文件。 使用此文件进行应用的所有将来开发。
+
+8.  要在应用启动时连接到 Firebase，请将以下初始化代码添加到主`AppDelegate`类中：
+
+```py
+import UIKit
+import Firebase
+
+@UIApplicationMain
+class AppDelegate: UIResponder, UIApplicationDelegate {
+
+  var window: UIWindow?
+
+  func application(_ application: UIApplication,
+    didFinishLaunchingWithOptions launchOptions:
+      [UIApplicationLaunchOptionsKey: Any]?) -> Bool {
+    FirebaseApp.configure()
+    return true
+  }
+}
+```
+
+现在，您都可以在 Android 项目中使用 Firebase。
+
+# 设置 VS 代码
+
+**Visual Studio**（**VS**）Code 是由 Microsoft 开发的轻型代码编辑器。 它的简单性和广泛的插件存储库使其成为开发人员的便捷工具。 凭借其 Dart 和 Flutter 插件，以及应用执行和调试支持，Flutter 应用非常易于开发。
+
+在接下来的部分中，我们将演示如何设置 VS Code 以开发 Flutter 应用。 我们将从[这里](https://code.visualstudio.com/)下载最新版本的 VS Code 开始。
+
+# 安装 Flutter 和 Dart 插件
+
+首先，我们需要在 VS Code 上安装 Flutter 和 Dart 插件。
+
+可以按照以下步骤进行：
+
+1.  在计算机上加载 VS Code。
+2.  导航到“查看 | 命令面板”。
+3.  开始输入`install`，然后选择扩展：安装扩展。
+4.  在扩展搜索字段中键入`flutter`，从列表中选择 Flutter，然后单击**安装**。 这还将安装所需的 Dart 插件。
+5.  或者，您可以导航到侧栏来安装和搜索扩展：
+
+![](img/d91be6cd-4819-440c-b048-9526ec8b23bc.png)
+
+成功安装 Flutter 和 Dart 扩展后，我们需要验证设置。 下一节将对此进行描述。
+
+# 用 Flutter Doctor 验证设置
+
+通常建议您验证设置以确保一切正常。
+
+Flutter 安装可以通过以下方式验证：
+
+1.  导航到“查看 | 命令面板”。
+2.  输入`doctor`，然后选择`Flutter: Run Flutter Doctor`。
+3.  查看“输出”窗格中的输出。 输出中列出了所有错误或缺少库。
+4.  另外，您可以在终端上运行`flutter doctor`来检查一切是否正常：
+
+![](img/363d4aad-751b-4d56-b6ce-e1f68b054d95.png)
+
+上面的屏幕快照显示，尽管 Flutter 很好用，但其他一些相关的配置却丢失了。 在这种情况下，您可能需要安装所有支持软件并重新运行`flutter doctor`以分析设置。
+
+在 VS Code 上成功设置 Flutter 之后，我们可以继续创建我们的第一个 Flutter 应用。
+
+# 创建第一个 Flutter 应用
+
+创建第一个 Flutter 应用非常简单。 执行以下步骤：
+
+1.  导航到“查看 | 命令面板”。
+2.  开始输入`flutter`，然后选择`Flutter: New Project`。
+
+3.  输入项目名称，例如`my_sample_app`。
+4.  点击`Enter`。
+5.  创建或选择新项目文件夹的父目录。
+6.  等待项目创建完成，然后显示`main.dart`文件。
+
+有关更多详细信息，请参阅[这个页面](https://flutter.dev/docs/get-started/test-drive)上的文档。
+
+在下一节中，我们将讨论如何运行您的第一个 Flutter 应用。
+
+# 运行应用
+
+一个新的 Flutter 项目的创建带有一个模板代码，我们可以直接在移动设备上运行它。 创建第一个模板应用后，可以尝试如下运行它：
+
+1.  导航至“VS Code”状态栏（即窗口底部的蓝色栏）：
+
+![](img/79b61bb4-f80d-4fa1-819f-5d3403d4099b.png)
+
+2.  从设备选择器区域中选择您喜欢的设备：
+
+*   如果没有可用的设备，并且要使用设备模拟器，请单击“无设备”并启动模拟器：
+
+![](img/af41fa7d-92bd-4511-993c-b49d91b72e5e.png)
+
+*   您也可以尝试设置用于调试的真实设备。
+
+3.  单击**设置**按钮-位于右上角的齿轮图标齿轮（现已标记为红色或橙色指示器），位于`DEBUG`文本框旁边，显示为`No Configuration`。 选择 Flutter，然后选择调试配置以创建仿真器（如果已关闭）或运行仿真器或已连接的设备。
+4.  导航到“调试 | 开始调试”或按`F5`。
+5.  等待应用启动，进度会显示在`DEBUG CONSOLE`视图中：
+
+![](img/677a90f4-1891-4074-a3ea-09221863fb64.png)
+
+应用构建完成后，您应该在设备上看到已初始化的应用：
+
+![](img/18ea54e0-ea9f-4ff7-90ac-ee3d6a42ff32.png)
+
+在下一节中，我们将介绍 Flutter 的热重载功能，该功能有助于快速开发。
+
+# 尝试热重载
+
+Flutter 提供的快速开发周期使其适合于时间优化的开发。 它支持**有状态热重载**，这意味着您可以重载正在运行的应用的代码，而不必重新启动或丢失应用状态。 热重装可以描述为一种方法，您可以通过该方法对应用源进行更改，告诉命令行工具您要热重装，并在几秒钟内在设备或仿真器上查看更改。
+
+在 VS Code 中，可以按以下方式执行热重装：
+
+1.  打开`lib/main.dart`。
+2.  将`You have pushed the button this many times:`字符串更改为`You have clicked the button this many times:`。 不要停止您的应用。 让您的应用运行。
+
+3.  保存更改：调用**全部保存**，或单击`Hot Reload`。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/README.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/README.md
new file mode 100644
index 00000000..15b350b1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/README.md
@@ -0,0 +1,35 @@
+# TensorFlow Lite，ML Kit 和 Flutter 移动深度学习
+
+> 原文：[Mobile Deep Learning with TensorFlow Lite, ML Kit and Flutter](https://b-ok.global/book/5531666/58c769)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/SUMMARY.md
new file mode 100644
index 00000000..f8a35402
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/SUMMARY.md
@@ -0,0 +1,13 @@
++   [TensorFlow Lite，ML Kit 和 Flutter 移动深度学习](README.md)
++   [零、前言](00.md)
++   [一、移动深度学习简介](01.md)
++   [二、移动视觉 - 使用设备上的模型的人脸检测](02.md)
++   [三、使用 Google Action 的聊天机器人](03.md)
++   [四、认识植物种类](04.md)
++   [五、从摄像机源生成实时字幕](05.md)
++   [六、构建人工智能认证系统](06.md)
++   [七、语音/多媒体处理 - 使用 AI 生成音乐](07.md)
++   [八、基于强化神经网络的国际象棋引擎](08.md)
++   [九、构建图像超分辨率应用](09.md)
++   [十、前方的路](10.md)
++   [十一、附录](11.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/006c02dc-97e8-40d1-bc97-82e2c6807692.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/006c02dc-97e8-40d1-bc97-82e2c6807692.png
new file mode 100644
index 00000000..1d6b73c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/006c02dc-97e8-40d1-bc97-82e2c6807692.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/05558818-d3c4-41bd-b1ea-f5e9e1697bf2.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/05558818-d3c4-41bd-b1ea-f5e9e1697bf2.png
new file mode 100644
index 00000000..bdcafb77
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/05558818-d3c4-41bd-b1ea-f5e9e1697bf2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0676c8eb-7bb9-4b8a-8059-9e9f4c5e6970.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0676c8eb-7bb9-4b8a-8059-9e9f4c5e6970.png
new file mode 100644
index 00000000..83379af9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0676c8eb-7bb9-4b8a-8059-9e9f4c5e6970.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/06e17687-1264-48a3-b8fe-746ea13bc876.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/06e17687-1264-48a3-b8fe-746ea13bc876.png
new file mode 100644
index 00000000..0d6c44b0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/06e17687-1264-48a3-b8fe-746ea13bc876.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0b539e2f-ba54-4561-8736-6ad8dfe2bd46.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0b539e2f-ba54-4561-8736-6ad8dfe2bd46.png
new file mode 100644
index 00000000..5826c6ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0b539e2f-ba54-4561-8736-6ad8dfe2bd46.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0e532087-53b6-4379-aed5-615c4c52f772.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0e532087-53b6-4379-aed5-615c4c52f772.png
new file mode 100644
index 00000000..c071bcb9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/0e532087-53b6-4379-aed5-615c4c52f772.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/104abf6b-28d0-4e6f-9017-eb6f41014458.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/104abf6b-28d0-4e6f-9017-eb6f41014458.png
new file mode 100644
index 00000000..f5dabdfc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/104abf6b-28d0-4e6f-9017-eb6f41014458.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/11895335-ac1a-49b4-851a-e936e64fdcfd.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/11895335-ac1a-49b4-851a-e936e64fdcfd.png
new file mode 100644
index 00000000..087c929c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/11895335-ac1a-49b4-851a-e936e64fdcfd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/12804f8e-a618-412e-af67-62295156578e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/12804f8e-a618-412e-af67-62295156578e.png
new file mode 100644
index 00000000..8a5ce99f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/12804f8e-a618-412e-af67-62295156578e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/14248601-46e6-421b-aa88-3353ff56bd4d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/14248601-46e6-421b-aa88-3353ff56bd4d.png
new file mode 100644
index 00000000..861a68d7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/14248601-46e6-421b-aa88-3353ff56bd4d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1727eda3-5ec9-4621-8c1b-2d6d8c63b1f6.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1727eda3-5ec9-4621-8c1b-2d6d8c63b1f6.png
new file mode 100644
index 00000000..176645c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1727eda3-5ec9-4621-8c1b-2d6d8c63b1f6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/183f83a0-ed34-411b-a3c2-39426d0e76a1.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/183f83a0-ed34-411b-a3c2-39426d0e76a1.png
new file mode 100644
index 00000000..b3935b06
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/183f83a0-ed34-411b-a3c2-39426d0e76a1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1856a3f1-3674-4486-9c34-8f90d27a3c0e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1856a3f1-3674-4486-9c34-8f90d27a3c0e.png
new file mode 100644
index 00000000..d6122c3d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1856a3f1-3674-4486-9c34-8f90d27a3c0e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/18ea54e0-ea9f-4ff7-90ac-ee3d6a42ff32.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/18ea54e0-ea9f-4ff7-90ac-ee3d6a42ff32.png
new file mode 100644
index 00000000..5b8a130b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/18ea54e0-ea9f-4ff7-90ac-ee3d6a42ff32.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1e2b6e26-45a3-4268-9105-e22b939b2199.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1e2b6e26-45a3-4268-9105-e22b939b2199.png
new file mode 100644
index 00000000..47f4da7c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1e2b6e26-45a3-4268-9105-e22b939b2199.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1fc123e4-c089-4daa-a07a-2c065d739017.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1fc123e4-c089-4daa-a07a-2c065d739017.png
new file mode 100644
index 00000000..90274ff5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/1fc123e4-c089-4daa-a07a-2c065d739017.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/20a38172-ac8a-4a48-9f1f-97114fe1dcee.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/20a38172-ac8a-4a48-9f1f-97114fe1dcee.png
new file mode 100644
index 00000000..db34bc4b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/20a38172-ac8a-4a48-9f1f-97114fe1dcee.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/210973f6-598c-4cf8-857f-bcf6de41ccfa.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/210973f6-598c-4cf8-857f-bcf6de41ccfa.png
new file mode 100644
index 00000000..d9759888
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/210973f6-598c-4cf8-857f-bcf6de41ccfa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/21a2e4df-0969-49e7-8de8-1a22a1415580.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/21a2e4df-0969-49e7-8de8-1a22a1415580.png
new file mode 100644
index 00000000..1c67df23
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/21a2e4df-0969-49e7-8de8-1a22a1415580.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/23f29672-39ba-4383-b4a1-b5fa7c90fd5b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/23f29672-39ba-4383-b4a1-b5fa7c90fd5b.png
new file mode 100644
index 00000000..5372409b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/23f29672-39ba-4383-b4a1-b5fa7c90fd5b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/25490c0c-99fb-42a9-a522-42e94bc72bc7.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/25490c0c-99fb-42a9-a522-42e94bc72bc7.png
new file mode 100644
index 00000000..db6fbab8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/25490c0c-99fb-42a9-a522-42e94bc72bc7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/27f73403-7dfe-4fbf-9d80-a94a84959fa0.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/27f73403-7dfe-4fbf-9d80-a94a84959fa0.png
new file mode 100644
index 00000000..5516b6be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/27f73403-7dfe-4fbf-9d80-a94a84959fa0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2847b19b-52c7-46c0-993c-4851b425844e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2847b19b-52c7-46c0-993c-4851b425844e.png
new file mode 100644
index 00000000..f9194344
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2847b19b-52c7-46c0-993c-4851b425844e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/28bbf2c1-4176-4e86-af5c-b0d932b3a5db.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/28bbf2c1-4176-4e86-af5c-b0d932b3a5db.png
new file mode 100644
index 00000000..59210cdc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/28bbf2c1-4176-4e86-af5c-b0d932b3a5db.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2994338d-bc00-467e-868a-5a3f96ff87dc.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2994338d-bc00-467e-868a-5a3f96ff87dc.png
new file mode 100644
index 00000000..2f88772b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2994338d-bc00-467e-868a-5a3f96ff87dc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2a878561-22f5-42ec-a39e-55cd5e695c11.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2a878561-22f5-42ec-a39e-55cd5e695c11.png
new file mode 100644
index 00000000..e7c5df5b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2a878561-22f5-42ec-a39e-55cd5e695c11.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2afa5e82-1438-4e24-8757-0217a6bccdb8.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2afa5e82-1438-4e24-8757-0217a6bccdb8.png
new file mode 100644
index 00000000..19f31b0d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2afa5e82-1438-4e24-8757-0217a6bccdb8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2bd8e644-946d-40bb-84a0-1c4b9f0916f7.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2bd8e644-946d-40bb-84a0-1c4b9f0916f7.png
new file mode 100644
index 00000000..39a3270f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2bd8e644-946d-40bb-84a0-1c4b9f0916f7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2c0be82b-39b0-40f4-a350-e03f62267bce.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2c0be82b-39b0-40f4-a350-e03f62267bce.png
new file mode 100644
index 00000000..73af897b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2c0be82b-39b0-40f4-a350-e03f62267bce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2ce108d9-645c-4f78-a0c9-3af2fdc04633.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2ce108d9-645c-4f78-a0c9-3af2fdc04633.png
new file mode 100644
index 00000000..2a18371a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2ce108d9-645c-4f78-a0c9-3af2fdc04633.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2d1ddb05-b1e3-4af7-ad2e-4930fababe26.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2d1ddb05-b1e3-4af7-ad2e-4930fababe26.png
new file mode 100644
index 00000000..6bc0afe3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2d1ddb05-b1e3-4af7-ad2e-4930fababe26.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2dadabff-2c46-4773-aee1-25199176674b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2dadabff-2c46-4773-aee1-25199176674b.png
new file mode 100644
index 00000000..e7f60874
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2dadabff-2c46-4773-aee1-25199176674b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2eb440c7-3ac9-497b-9813-9ca8245049c6.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2eb440c7-3ac9-497b-9813-9ca8245049c6.png
new file mode 100644
index 00000000..0b9a63bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/2eb440c7-3ac9-497b-9813-9ca8245049c6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/32c1a788-c911-4898-bdd9-4bbc1954bd43.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/32c1a788-c911-4898-bdd9-4bbc1954bd43.png
new file mode 100644
index 00000000..becbebde
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/32c1a788-c911-4898-bdd9-4bbc1954bd43.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/3605fe2e-c86c-438b-aa36-2aef8854ff9b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/3605fe2e-c86c-438b-aa36-2aef8854ff9b.png
new file mode 100644
index 00000000..4d560071
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/3605fe2e-c86c-438b-aa36-2aef8854ff9b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/363d4aad-751b-4d56-b6ce-e1f68b054d95.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/363d4aad-751b-4d56-b6ce-e1f68b054d95.png
new file mode 100644
index 00000000..ca5e430a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/363d4aad-751b-4d56-b6ce-e1f68b054d95.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/36c51120-f45c-42e6-99ea-31a1bccd4126.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/36c51120-f45c-42e6-99ea-31a1bccd4126.png
new file mode 100644
index 00000000..230f7eeb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/36c51120-f45c-42e6-99ea-31a1bccd4126.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/3c1e210f-4e72-4eef-bf73-a2b3e823de2b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/3c1e210f-4e72-4eef-bf73-a2b3e823de2b.png
new file mode 100644
index 00000000..610c6cd8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/3c1e210f-4e72-4eef-bf73-a2b3e823de2b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/41129ac4-3e40-4e83-82a5-6c373307e9ab.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/41129ac4-3e40-4e83-82a5-6c373307e9ab.png
new file mode 100644
index 00000000..8772564f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/41129ac4-3e40-4e83-82a5-6c373307e9ab.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4174ffef-0f01-46d5-986d-c4f9e2771301.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4174ffef-0f01-46d5-986d-c4f9e2771301.png
new file mode 100644
index 00000000..5da81c93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4174ffef-0f01-46d5-986d-c4f9e2771301.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4246b346-b4a9-4e99-998f-165343832c4e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4246b346-b4a9-4e99-998f-165343832c4e.png
new file mode 100644
index 00000000..ca27c6fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4246b346-b4a9-4e99-998f-165343832c4e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/42849d23-e01f-47c5-981c-6f8a8185adb8.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/42849d23-e01f-47c5-981c-6f8a8185adb8.png
new file mode 100644
index 00000000..6a2cf0e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/42849d23-e01f-47c5-981c-6f8a8185adb8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/46b38340-6f06-4049-a8cc-79efa539833e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/46b38340-6f06-4049-a8cc-79efa539833e.png
new file mode 100644
index 00000000..740e56c7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/46b38340-6f06-4049-a8cc-79efa539833e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/47207ad6-ea66-4032-ba35-7f28988a9e48.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/47207ad6-ea66-4032-ba35-7f28988a9e48.png
new file mode 100644
index 00000000..6c22b193
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/47207ad6-ea66-4032-ba35-7f28988a9e48.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/48375cc3-f5a9-403a-b715-6aa4d5b0b24d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/48375cc3-f5a9-403a-b715-6aa4d5b0b24d.png
new file mode 100644
index 00000000..c31d1b18
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/48375cc3-f5a9-403a-b715-6aa4d5b0b24d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4e61a5dd-03d4-4334-818d-570e37d0f3f9.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4e61a5dd-03d4-4334-818d-570e37d0f3f9.png
new file mode 100644
index 00000000..a06e6b21
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/4e61a5dd-03d4-4334-818d-570e37d0f3f9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/50f17dc4-2658-4211-a7ff-9c41daafd884.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/50f17dc4-2658-4211-a7ff-9c41daafd884.png
new file mode 100644
index 00000000..f5871c0d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/50f17dc4-2658-4211-a7ff-9c41daafd884.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/54845f13-a133-4eab-945b-c89dfcd830b3.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/54845f13-a133-4eab-945b-c89dfcd830b3.png
new file mode 100644
index 00000000..a743bd04
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/54845f13-a133-4eab-945b-c89dfcd830b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/58257e8e-5aeb-4216-9547-18d1c17bf756.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/58257e8e-5aeb-4216-9547-18d1c17bf756.png
new file mode 100644
index 00000000..8f20fe21
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/58257e8e-5aeb-4216-9547-18d1c17bf756.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5a760017-e013-491f-8421-801968594401.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5a760017-e013-491f-8421-801968594401.png
new file mode 100644
index 00000000..3ed9185f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5a760017-e013-491f-8421-801968594401.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5ab5e25d-6a20-4654-b28e-7ee2eafb005d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5ab5e25d-6a20-4654-b28e-7ee2eafb005d.png
new file mode 100644
index 00000000..56b09e3a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5ab5e25d-6a20-4654-b28e-7ee2eafb005d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5add260e-7cc3-4f99-96dd-0f063468bdc4.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5add260e-7cc3-4f99-96dd-0f063468bdc4.png
new file mode 100644
index 00000000..459ad716
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5add260e-7cc3-4f99-96dd-0f063468bdc4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5c0923d0-7339-4ebf-b677-92d0e0dc2750.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5c0923d0-7339-4ebf-b677-92d0e0dc2750.png
new file mode 100644
index 00000000..df384451
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/5c0923d0-7339-4ebf-b677-92d0e0dc2750.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/610af216-fc97-44dc-aacb-87d1cd4feb55.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/610af216-fc97-44dc-aacb-87d1cd4feb55.png
new file mode 100644
index 00000000..3486c875
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/610af216-fc97-44dc-aacb-87d1cd4feb55.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6129c7ba-34a6-4883-a997-f124541face3.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6129c7ba-34a6-4883-a997-f124541face3.png
new file mode 100644
index 00000000..1bae4cae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6129c7ba-34a6-4883-a997-f124541face3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/627a889d-2fc0-4fbf-9833-d65878b8284b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/627a889d-2fc0-4fbf-9833-d65878b8284b.png
new file mode 100644
index 00000000..bd01712e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/627a889d-2fc0-4fbf-9833-d65878b8284b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/62b369e0-1d10-4ef5-8947-cc9d7bd94fc4.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/62b369e0-1d10-4ef5-8947-cc9d7bd94fc4.png
new file mode 100644
index 00000000..9ba24ceb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/62b369e0-1d10-4ef5-8947-cc9d7bd94fc4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/635ba230-6053-43ed-8a4e-40e792ba29ab.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/635ba230-6053-43ed-8a4e-40e792ba29ab.png
new file mode 100644
index 00000000..b40e7438
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/635ba230-6053-43ed-8a4e-40e792ba29ab.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6456e4b0-6902-47e6-902c-ed96e569df86.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6456e4b0-6902-47e6-902c-ed96e569df86.png
new file mode 100644
index 00000000..1b72f8ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6456e4b0-6902-47e6-902c-ed96e569df86.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/657d7a8e-5a27-4bb7-9e69-17b01cf41659.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/657d7a8e-5a27-4bb7-9e69-17b01cf41659.png
new file mode 100644
index 00000000..44ddb790
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/657d7a8e-5a27-4bb7-9e69-17b01cf41659.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/677a90f4-1891-4074-a3ea-09221863fb64.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/677a90f4-1891-4074-a3ea-09221863fb64.png
new file mode 100644
index 00000000..00235005
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/677a90f4-1891-4074-a3ea-09221863fb64.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/69760682-3198-4033-b8cf-9f86dd1f6951.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/69760682-3198-4033-b8cf-9f86dd1f6951.png
new file mode 100644
index 00000000..ab0b7cfc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/69760682-3198-4033-b8cf-9f86dd1f6951.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6abbb243-a674-4376-9e84-67c216f677b3.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6abbb243-a674-4376-9e84-67c216f677b3.png
new file mode 100644
index 00000000..e2b73571
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6abbb243-a674-4376-9e84-67c216f677b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6c35a0ee-26db-44c3-831f-a9c4ba78407c.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6c35a0ee-26db-44c3-831f-a9c4ba78407c.png
new file mode 100644
index 00000000..279e0054
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6c35a0ee-26db-44c3-831f-a9c4ba78407c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6d8e12c8-8157-4b63-8c36-77e8a154365a.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6d8e12c8-8157-4b63-8c36-77e8a154365a.png
new file mode 100644
index 00000000..f10acc3c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6d8e12c8-8157-4b63-8c36-77e8a154365a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6efdad04-0fdc-4e14-90a1-bcfabb214eb1.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6efdad04-0fdc-4e14-90a1-bcfabb214eb1.png
new file mode 100644
index 00000000..a985c8eb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6efdad04-0fdc-4e14-90a1-bcfabb214eb1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6f6a925e-3b98-4194-aa42-ee318f257593.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6f6a925e-3b98-4194-aa42-ee318f257593.png
new file mode 100644
index 00000000..a06dc19f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/6f6a925e-3b98-4194-aa42-ee318f257593.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7082a6c7-62d7-4546-a2e9-45c40d2e3293.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7082a6c7-62d7-4546-a2e9-45c40d2e3293.png
new file mode 100644
index 00000000..44207948
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7082a6c7-62d7-4546-a2e9-45c40d2e3293.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/726b6cdc-81ae-419b-a74f-8926bb499c70.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/726b6cdc-81ae-419b-a74f-8926bb499c70.png
new file mode 100644
index 00000000..fcfb9a26
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/726b6cdc-81ae-419b-a74f-8926bb499c70.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/72bf3798-300a-4d53-82e5-c369fc742db6.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/72bf3798-300a-4d53-82e5-c369fc742db6.png
new file mode 100644
index 00000000..7384a42a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/72bf3798-300a-4d53-82e5-c369fc742db6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/731cc2e7-4d66-442f-b6af-8f5fdcb8fb29.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/731cc2e7-4d66-442f-b6af-8f5fdcb8fb29.png
new file mode 100644
index 00000000..36a286b5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/731cc2e7-4d66-442f-b6af-8f5fdcb8fb29.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/747836bd-80b4-40f5-95d1-3a6ffc72a692.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/747836bd-80b4-40f5-95d1-3a6ffc72a692.png
new file mode 100644
index 00000000..1719f8d6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/747836bd-80b4-40f5-95d1-3a6ffc72a692.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/76cde6f0-94f8-43e1-ada7-4e298027419d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/76cde6f0-94f8-43e1-ada7-4e298027419d.png
new file mode 100644
index 00000000..9711cd8f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/76cde6f0-94f8-43e1-ada7-4e298027419d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/79b61bb4-f80d-4fa1-819f-5d3403d4099b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/79b61bb4-f80d-4fa1-819f-5d3403d4099b.png
new file mode 100644
index 00000000..002321cd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/79b61bb4-f80d-4fa1-819f-5d3403d4099b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/79c3f291-dd45-4497-85f7-0b3345b60c5e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/79c3f291-dd45-4497-85f7-0b3345b60c5e.png
new file mode 100644
index 00000000..c381bed9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/79c3f291-dd45-4497-85f7-0b3345b60c5e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7b322bd2-fefc-45de-aaa0-50448093a43c.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7b322bd2-fefc-45de-aaa0-50448093a43c.png
new file mode 100644
index 00000000..bdd5de9c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7b322bd2-fefc-45de-aaa0-50448093a43c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7c745167-58e9-4ec0-9092-69c1a7ae4ec0.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7c745167-58e9-4ec0-9092-69c1a7ae4ec0.png
new file mode 100644
index 00000000..fac30c11
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7c745167-58e9-4ec0-9092-69c1a7ae4ec0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7d327444-3ac6-482b-928e-4f8b4a74e5cb.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7d327444-3ac6-482b-928e-4f8b4a74e5cb.png
new file mode 100644
index 00000000..e11cc247
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/7d327444-3ac6-482b-928e-4f8b4a74e5cb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/81e17c44-6438-435a-a80f-76945281a23b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/81e17c44-6438-435a-a80f-76945281a23b.png
new file mode 100644
index 00000000..11787167
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/81e17c44-6438-435a-a80f-76945281a23b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/82893a97-b692-432b-97f8-1da2c0ae6737.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/82893a97-b692-432b-97f8-1da2c0ae6737.png
new file mode 100644
index 00000000..a59fb659
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/82893a97-b692-432b-97f8-1da2c0ae6737.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8366fcd1-0d0a-46d3-bd8e-5fe01f049cf3.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8366fcd1-0d0a-46d3-bd8e-5fe01f049cf3.png
new file mode 100644
index 00000000..f519154b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8366fcd1-0d0a-46d3-bd8e-5fe01f049cf3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/83b17a15-688a-45e9-aa87-dec617d34a1d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/83b17a15-688a-45e9-aa87-dec617d34a1d.png
new file mode 100644
index 00000000..459ad716
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/83b17a15-688a-45e9-aa87-dec617d34a1d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/84968b01-ffbe-4752-8c16-f337ca721d96.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/84968b01-ffbe-4752-8c16-f337ca721d96.png
new file mode 100644
index 00000000..fc67d423
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/84968b01-ffbe-4752-8c16-f337ca721d96.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/856d9f1c-21a6-424e-9623-a385b8bd4fcd.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/856d9f1c-21a6-424e-9623-a385b8bd4fcd.png
new file mode 100644
index 00000000..f8442d91
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/856d9f1c-21a6-424e-9623-a385b8bd4fcd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/86a43bbe-4673-4dcb-8a8c-591d7c952df0.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/86a43bbe-4673-4dcb-8a8c-591d7c952df0.png
new file mode 100644
index 00000000..d93b796d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/86a43bbe-4673-4dcb-8a8c-591d7c952df0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/893c880e-246a-49de-a22a-66790aa69604.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/893c880e-246a-49de-a22a-66790aa69604.png
new file mode 100644
index 00000000..11d513bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/893c880e-246a-49de-a22a-66790aa69604.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/89741076-7529-4670-8dbb-b877507df344.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/89741076-7529-4670-8dbb-b877507df344.png
new file mode 100644
index 00000000..dec0e836
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/89741076-7529-4670-8dbb-b877507df344.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8aa122f6-8d1e-446a-afd7-88803637b2c4.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8aa122f6-8d1e-446a-afd7-88803637b2c4.png
new file mode 100644
index 00000000..061ee259
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8aa122f6-8d1e-446a-afd7-88803637b2c4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8acbcf5e-53c4-4c4e-85ab-fd1fb10103c0.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8acbcf5e-53c4-4c4e-85ab-fd1fb10103c0.png
new file mode 100644
index 00000000..29cf5d69
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8acbcf5e-53c4-4c4e-85ab-fd1fb10103c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8b0714e9-8403-41a5-b21c-9a40ec51248d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8b0714e9-8403-41a5-b21c-9a40ec51248d.png
new file mode 100644
index 00000000..9bdc97af
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8b0714e9-8403-41a5-b21c-9a40ec51248d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8ccb770f-4c64-49fa-9a0a-69d368222b37.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8ccb770f-4c64-49fa-9a0a-69d368222b37.png
new file mode 100644
index 00000000..2dd3494b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8ccb770f-4c64-49fa-9a0a-69d368222b37.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8f1ab793-d468-4a11-a584-0cbfa9cc0b3d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8f1ab793-d468-4a11-a584-0cbfa9cc0b3d.png
new file mode 100644
index 00000000..f5ca53ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/8f1ab793-d468-4a11-a584-0cbfa9cc0b3d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9268f521-8213-4f7a-9401-af2fa7c1128c.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9268f521-8213-4f7a-9401-af2fa7c1128c.png
new file mode 100644
index 00000000..e4bb6bbe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9268f521-8213-4f7a-9401-af2fa7c1128c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9411ac71-b97c-45a8-aacc-deb49df6f16b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9411ac71-b97c-45a8-aacc-deb49df6f16b.png
new file mode 100644
index 00000000..cfa4de5c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9411ac71-b97c-45a8-aacc-deb49df6f16b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/957163dc-49c0-4323-8380-f1cc9d0c596d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/957163dc-49c0-4323-8380-f1cc9d0c596d.png
new file mode 100644
index 00000000..a00ca261
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/957163dc-49c0-4323-8380-f1cc9d0c596d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9b20c822-6a16-47c3-acba-2176fd6d4233.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9b20c822-6a16-47c3-acba-2176fd6d4233.png
new file mode 100644
index 00000000..4ad40fd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9b20c822-6a16-47c3-acba-2176fd6d4233.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9b21fa67-2ff7-4523-9539-4a654cea486f.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9b21fa67-2ff7-4523-9539-4a654cea486f.png
new file mode 100644
index 00000000..9e6636ed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9b21fa67-2ff7-4523-9539-4a654cea486f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9be1a380-eff8-4acf-b4d1-506b70652d59.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9be1a380-eff8-4acf-b4d1-506b70652d59.png
new file mode 100644
index 00000000..9661f544
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9be1a380-eff8-4acf-b4d1-506b70652d59.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9c6f27d5-d0ce-4269-97f4-70db6c42e1ec.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9c6f27d5-d0ce-4269-97f4-70db6c42e1ec.png
new file mode 100644
index 00000000..183ecbf8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9c6f27d5-d0ce-4269-97f4-70db6c42e1ec.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9eaa1664-e9c5-4ff3-a498-8ec33103b669.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9eaa1664-e9c5-4ff3-a498-8ec33103b669.png
new file mode 100644
index 00000000..069fa010
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9eaa1664-e9c5-4ff3-a498-8ec33103b669.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9f7ea3ae-e393-42b3-b72c-8b257f3f346e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9f7ea3ae-e393-42b3-b72c-8b257f3f346e.png
new file mode 100644
index 00000000..6465f923
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/9f7ea3ae-e393-42b3-b72c-8b257f3f346e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a1fab1c9-f3db-4632-80e5-dfa94eb21e91.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a1fab1c9-f3db-4632-80e5-dfa94eb21e91.png
new file mode 100644
index 00000000..a88338a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a1fab1c9-f3db-4632-80e5-dfa94eb21e91.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a4a7bb51-fa61-42b2-abba-47ece9307ad2.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a4a7bb51-fa61-42b2-abba-47ece9307ad2.png
new file mode 100644
index 00000000..8633cf8b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a4a7bb51-fa61-42b2-abba-47ece9307ad2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a8612d78-5f3c-42de-bdbd-4ad2f846c635.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a8612d78-5f3c-42de-bdbd-4ad2f846c635.png
new file mode 100644
index 00000000..d0dd2835
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a8612d78-5f3c-42de-bdbd-4ad2f846c635.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a8be21c6-5f69-4cfa-abd4-c3ce3d215c2f.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a8be21c6-5f69-4cfa-abd4-c3ce3d215c2f.png
new file mode 100644
index 00000000..d130d6b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/a8be21c6-5f69-4cfa-abd4-c3ce3d215c2f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/abde1983-daba-49ea-8790-858ce568b522.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/abde1983-daba-49ea-8790-858ce568b522.png
new file mode 100644
index 00000000..33856530
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/abde1983-daba-49ea-8790-858ce568b522.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ad3ab1a0-0cad-4e86-bab8-9cfdc3d8f5d0.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ad3ab1a0-0cad-4e86-bab8-9cfdc3d8f5d0.png
new file mode 100644
index 00000000..9250b898
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ad3ab1a0-0cad-4e86-bab8-9cfdc3d8f5d0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ad4b6619-45db-422d-b2fd-305f61f0ebf8.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ad4b6619-45db-422d-b2fd-305f61f0ebf8.png
new file mode 100644
index 00000000..f00c363f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ad4b6619-45db-422d-b2fd-305f61f0ebf8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/af41fa7d-92bd-4511-993c-b49d91b72e5e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/af41fa7d-92bd-4511-993c-b49d91b72e5e.png
new file mode 100644
index 00000000..468f312f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/af41fa7d-92bd-4511-993c-b49d91b72e5e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b62ded76-b968-4eff-8ba8-12bd567d47bf.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b62ded76-b968-4eff-8ba8-12bd567d47bf.png
new file mode 100644
index 00000000..61aa9646
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b62ded76-b968-4eff-8ba8-12bd567d47bf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b6b7fbc0-b10d-43ea-8120-a55d267ce48f.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b6b7fbc0-b10d-43ea-8120-a55d267ce48f.png
new file mode 100644
index 00000000..64731c0c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b6b7fbc0-b10d-43ea-8120-a55d267ce48f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b79b0eac-cebe-4895-9616-87a90fd5d3da.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b79b0eac-cebe-4895-9616-87a90fd5d3da.png
new file mode 100644
index 00000000..03724934
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/b79b0eac-cebe-4895-9616-87a90fd5d3da.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bafe5b9f-bf74-4f11-bc7c-f599f0124bf6.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bafe5b9f-bf74-4f11-bc7c-f599f0124bf6.png
new file mode 100644
index 00000000..64ef2e7a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bafe5b9f-bf74-4f11-bc7c-f599f0124bf6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bb0cfbfd-a65a-4880-b2f9-dcfc0281115a.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bb0cfbfd-a65a-4880-b2f9-dcfc0281115a.png
new file mode 100644
index 00000000..290c9243
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bb0cfbfd-a65a-4880-b2f9-dcfc0281115a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bb81287d-31ec-4c10-87fb-4bec4996c334.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bb81287d-31ec-4c10-87fb-4bec4996c334.png
new file mode 100644
index 00000000..d5427911
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bb81287d-31ec-4c10-87fb-4bec4996c334.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bda97e78-3717-4a7b-9ab6-980f3be77066.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bda97e78-3717-4a7b-9ab6-980f3be77066.png
new file mode 100644
index 00000000..087aac90
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bda97e78-3717-4a7b-9ab6-980f3be77066.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bdc63074-88fd-4002-987f-59a700875d4c.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bdc63074-88fd-4002-987f-59a700875d4c.png
new file mode 100644
index 00000000..d3be5136
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/bdc63074-88fd-4002-987f-59a700875d4c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c1939d94-1eff-481d-9f17-4360050a2f4a.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c1939d94-1eff-481d-9f17-4360050a2f4a.png
new file mode 100644
index 00000000..6b33aad4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c1939d94-1eff-481d-9f17-4360050a2f4a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c1b7900a-83d0-44d4-af51-033feb918521.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c1b7900a-83d0-44d4-af51-033feb918521.png
new file mode 100644
index 00000000..e92994c3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c1b7900a-83d0-44d4-af51-033feb918521.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c413db79-83cf-49fa-ac03-2503121a87c9.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c413db79-83cf-49fa-ac03-2503121a87c9.png
new file mode 100644
index 00000000..24cf91f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c413db79-83cf-49fa-ac03-2503121a87c9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c5a789dd-0758-491b-993d-a3955c85432c.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c5a789dd-0758-491b-993d-a3955c85432c.png
new file mode 100644
index 00000000..9d36491f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c5a789dd-0758-491b-993d-a3955c85432c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c8e5a150-c87a-477c-b2a5-25de4d03a540.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c8e5a150-c87a-477c-b2a5-25de4d03a540.png
new file mode 100644
index 00000000..6edc4f27
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/c8e5a150-c87a-477c-b2a5-25de4d03a540.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ca4e957f-15e4-4e49-b2e5-4baf21a0e082.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ca4e957f-15e4-4e49-b2e5-4baf21a0e082.png
new file mode 100644
index 00000000..62f763e3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ca4e957f-15e4-4e49-b2e5-4baf21a0e082.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ca78c6ae-0d73-44c8-a2f8-f4531dce5724.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ca78c6ae-0d73-44c8-a2f8-f4531dce5724.png
new file mode 100644
index 00000000..a5ba5e63
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ca78c6ae-0d73-44c8-a2f8-f4531dce5724.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/cc535d0f-79fc-43f9-8788-6db34aa44b6a.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/cc535d0f-79fc-43f9-8788-6db34aa44b6a.png
new file mode 100644
index 00000000..68c0c99f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/cc535d0f-79fc-43f9-8788-6db34aa44b6a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d1dc8097-5cb9-48d3-a687-9c11bfb8ff54.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d1dc8097-5cb9-48d3-a687-9c11bfb8ff54.png
new file mode 100644
index 00000000..376ba663
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d1dc8097-5cb9-48d3-a687-9c11bfb8ff54.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d4fb2d23-9e3f-4bbc-9661-07f4f2aad3ed.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d4fb2d23-9e3f-4bbc-9661-07f4f2aad3ed.png
new file mode 100644
index 00000000..a5c32a37
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d4fb2d23-9e3f-4bbc-9661-07f4f2aad3ed.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d7313084-9351-4564-aa89-f323433b11c0.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d7313084-9351-4564-aa89-f323433b11c0.png
new file mode 100644
index 00000000..b3f7d71a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d7313084-9351-4564-aa89-f323433b11c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d8ff1b34-0395-4639-b48d-b558bdff7d8c.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d8ff1b34-0395-4639-b48d-b558bdff7d8c.png
new file mode 100644
index 00000000..80a901be
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d8ff1b34-0395-4639-b48d-b558bdff7d8c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d91be6cd-4819-440c-b048-9526ec8b23bc.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d91be6cd-4819-440c-b048-9526ec8b23bc.png
new file mode 100644
index 00000000..a929b11f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/d91be6cd-4819-440c-b048-9526ec8b23bc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dbbbf004-636d-47d6-9ca8-12453c2b7490.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dbbbf004-636d-47d6-9ca8-12453c2b7490.png
new file mode 100644
index 00000000..2d50b90e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dbbbf004-636d-47d6-9ca8-12453c2b7490.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dbec2b68-1ec1-424e-882b-99d22d041a67.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dbec2b68-1ec1-424e-882b-99d22d041a67.png
new file mode 100644
index 00000000..554a8f93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dbec2b68-1ec1-424e-882b-99d22d041a67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dd6e96e6-e407-49f0-ab39-d7ec503bdce5.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dd6e96e6-e407-49f0-ab39-d7ec503bdce5.png
new file mode 100644
index 00000000..6ce5e7d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dd6e96e6-e407-49f0-ab39-d7ec503bdce5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dd7dfba6-0871-43c6-85cd-2b73105ec3ce.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dd7dfba6-0871-43c6-85cd-2b73105ec3ce.png
new file mode 100644
index 00000000..9a40b0c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dd7dfba6-0871-43c6-85cd-2b73105ec3ce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dffdfa6d-9a1d-422b-bc3a-c65fdece1f67.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dffdfa6d-9a1d-422b-bc3a-c65fdece1f67.png
new file mode 100644
index 00000000..a002fc56
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/dffdfa6d-9a1d-422b-bc3a-c65fdece1f67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e04f86a0-94bf-4141-a945-b9a1918db216.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e04f86a0-94bf-4141-a945-b9a1918db216.png
new file mode 100644
index 00000000..3aa9a807
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e04f86a0-94bf-4141-a945-b9a1918db216.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e108ee47-05ad-4806-8419-31aac5cdc0c3.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e108ee47-05ad-4806-8419-31aac5cdc0c3.png
new file mode 100644
index 00000000..3d6a892d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e108ee47-05ad-4806-8419-31aac5cdc0c3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e1639064-b278-468d-aecc-5a81713b73d1.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e1639064-b278-468d-aecc-5a81713b73d1.png
new file mode 100644
index 00000000..eaf6dc05
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e1639064-b278-468d-aecc-5a81713b73d1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e28a1949-81f0-452f-b34d-215ab8230e10.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e28a1949-81f0-452f-b34d-215ab8230e10.png
new file mode 100644
index 00000000..f9b70a7d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e28a1949-81f0-452f-b34d-215ab8230e10.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e4579d4a-4130-4301-ae77-1eb791efaa4d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e4579d4a-4130-4301-ae77-1eb791efaa4d.png
new file mode 100644
index 00000000..d5d52739
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e4579d4a-4130-4301-ae77-1eb791efaa4d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e704de0a-c071-4b3a-afaf-1141fb692f02.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e704de0a-c071-4b3a-afaf-1141fb692f02.png
new file mode 100644
index 00000000..32e0b4b2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e704de0a-c071-4b3a-afaf-1141fb692f02.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e86b1f1e-fea6-4813-a594-1d579c9d4b17.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e86b1f1e-fea6-4813-a594-1d579c9d4b17.png
new file mode 100644
index 00000000..63b23006
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e86b1f1e-fea6-4813-a594-1d579c9d4b17.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e8e96307-09f5-4d42-a3bf-b5fcd8b52a07.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e8e96307-09f5-4d42-a3bf-b5fcd8b52a07.png
new file mode 100644
index 00000000..315f1fa6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e8e96307-09f5-4d42-a3bf-b5fcd8b52a07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e9e1fcb6-ee22-41a1-a90c-6cc9f7c59af2.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e9e1fcb6-ee22-41a1-a90c-6cc9f7c59af2.png
new file mode 100644
index 00000000..8af71899
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/e9e1fcb6-ee22-41a1-a90c-6cc9f7c59af2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ea4bf7ee-b665-4603-86a8-9f1f46d5e33b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ea4bf7ee-b665-4603-86a8-9f1f46d5e33b.png
new file mode 100644
index 00000000..061dba12
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ea4bf7ee-b665-4603-86a8-9f1f46d5e33b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/eeaa7923-cfe1-48c9-980b-32bea0bf994d.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/eeaa7923-cfe1-48c9-980b-32bea0bf994d.png
new file mode 100644
index 00000000..e59f8910
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/eeaa7923-cfe1-48c9-980b-32bea0bf994d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ef321be6-be41-4fb6-8f25-8158e8b8401e.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ef321be6-be41-4fb6-8f25-8158e8b8401e.png
new file mode 100644
index 00000000..6add4f18
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ef321be6-be41-4fb6-8f25-8158e8b8401e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ef716cd2-259d-49f6-8226-a6cb9d2be249.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ef716cd2-259d-49f6-8226-a6cb9d2be249.png
new file mode 100644
index 00000000..1207b1fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/ef716cd2-259d-49f6-8226-a6cb9d2be249.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f1f89b99-db43-4c8a-8a0d-71424074b21b.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f1f89b99-db43-4c8a-8a0d-71424074b21b.png
new file mode 100644
index 00000000..ef4cf39e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f1f89b99-db43-4c8a-8a0d-71424074b21b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f2146f70-dbc7-4536-aa8d-3d18703c8403.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f2146f70-dbc7-4536-aa8d-3d18703c8403.png
new file mode 100644
index 00000000..7b54308e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f2146f70-dbc7-4536-aa8d-3d18703c8403.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f7540be0-4f43-46b1-b3b2-9cf2674c25f1.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f7540be0-4f43-46b1-b3b2-9cf2674c25f1.png
new file mode 100644
index 00000000..5c32b3fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f7540be0-4f43-46b1-b3b2-9cf2674c25f1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f78eee29-a5f1-487c-8a8f-cacb5faecbdd.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f78eee29-a5f1-487c-8a8f-cacb5faecbdd.png
new file mode 100644
index 00000000..913cba7a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/f78eee29-a5f1-487c-8a8f-cacb5faecbdd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/fb2f8dc4-c931-4180-802d-94dc04c1fa29.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/fb2f8dc4-c931-4180-802d-94dc04c1fa29.png
new file mode 100644
index 00000000..c8532dca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/fb2f8dc4-c931-4180-802d-94dc04c1fa29.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/fcbf2773-b10a-4f6e-8df4-4604e8147ee1.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/fcbf2773-b10a-4f6e-8df4-4604e8147ee1.png
new file mode 100644
index 00000000..95f1015e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/fcbf2773-b10a-4f6e-8df4-4604e8147ee1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/feec031d-0fb5-4618-af3b-f3ba55d80cd4.png b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/feec031d-0fb5-4618-af3b-f3ba55d80cd4.png
new file mode 100644
index 00000000..9a67cb34
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/mobi-dl-tflite/img/feec031d-0fb5-4618-af3b-f3ba55d80cd4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/0.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/0.md
new file mode 100644
index 00000000..7064ef69
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/0.md
@@ -0,0 +1,97 @@
+# 零、前言
+
+《PyTorch 深度学习实用指南》非常适合初学者，也可以帮助读者快速进入深度学习的深度。 在过去的几年中，我们已经看到了深度学习成为新的力量。 它已经从学术界进入工业界，帮助解决了成千上万的谜团，如果没有它，人类将无法想象解决。 深度学习作为首选实现方式的主流采用主要是由一堆框架驱动的，这些框架可靠地将复杂算法作为有效的内置方法提供。 本书展示了 PyTorch 在构建深度学习模型原型，构建深度学习工作流程以及将原型模型投入生产中的优势。 总体而言，这本书着重于 PyTorch 的实际实现，而不是解释其背后的数学原理，但是，它还将您链接到一些概念上可能落后的地方。
+
+## 这本书适合谁
+
+这本书是为初学者而写的，但不会让他们跳来跳去另一本书转向高级主题。 因此，我们避免尽可能多地解释算法，而是专注于在 PyTorch 中的实现，有时着眼于使用这些算法的实际应用的实现。 对于那些了解如何使用 Python 进行编程并了解深度学习基础知识的人来说，这本书是理想的选择。 本书适用于已经在实践传统机器学习概念的人，或者是开发人员并且希望实际探索深度学习的世界并将其实现部署到生产中的人们。
+
+## 这本书涵盖的内容
+
+第 1 章，“深度学习演练和 PyTorch 简介”是对 PyTorch 进行深度学习的方式以及 PyTorch 的基本 API 的介绍。 它首先显示了 PyTorch 的历史以及为什么 PyTorch 应该成为深度学习开发的必备框架。 它还介绍了不同的深度学习方法，我们将在接下来的章节中介绍这些方法。
+
+第 2 章，“一个简单的神经网络”可帮助您构建第一个简单的神经网络，并展示如何连接神经网络，优化器和参数更新之类的点点滴滴来构建一个菜鸟级深度学习模型。 它还介绍了 PyTorch 如何进行反向传播，这是所有最新的深度学习算法的关键。
+
+第 3 章，“深度学习工作流程”深入研究了深度学习工作流程的实现和有助于构建工作流程的 PyTorch 生态系统。 如果您打算为即将进行的项目建立深度学习团队或开发渠道，那么这可能是最关键的一章。 在本章中，我们将遍历深度学习管道的不同阶段，并了解 PyTorch 社区如何通过制作适当的工具在工作流程的每个阶段中不断改进。
+
+第 4 章，“计算机视觉”是迄今为止深度学习最成功的结果，它讨论了成功背后的关键思想，并贯穿了使用最广泛的视觉算法– **卷积神经网络（CNN）**。 我们将逐步实现 CNN 以了解其工作原理，然后使用 PyTorch 的`nn`包中预定义的 CNN。 本章可帮助您制作简单的 CNN 和基于高级 CNN 的视觉算法，称为语义分割。
+
+第 5 章，“序列数据处理”着眼于循环神经网络，它是目前最成功的序列数据处理算法。 本章向您介绍主要的 RNN 组件，例如**长短期记忆**（**LSTM**）网络和**门控循环单元**（**GRU**）。 然后，在探索循环神经网络之前，我们将经历 RNN 实现中的算法更改，例如双向 RNN，并增加层数。 为了理解循环网络，我们将使用斯坦福大学 NLP 小组的著名示例（栈增强的解析器-解释器神经网络（SPINN）），并将其在 PyTorch 中实现。
+
+第 6 章，“生成网络”，简要讨论了生成网络的历史，然后解释了各种生成网络。 在这些不同的类别中，本章向我们介绍了自回归模型和 GAN。 我们将研究作为自动回归模型一部分的 PixelCNN 和 WaveNet 的实现细节，然后详细研究 GAN。
+
+第 7 章，“强化学习”介绍了强化学习的概念，它实际上并不是深度学习的子类。 我们首先来看定义问题陈述。 然后，我们将探讨累积奖励的概念。 我们将探索 Markov 决策过程和贝尔曼方程，然后转向深层 Q 学习。 我们还将看到由 OpenAI 开发的工具包 Gym 的介绍，该工具包用于开发和尝试强化学习算法。
+
+第 8 章，“生产中的 PyTorch”着眼于在将深度学习模型部署到生产过程中人们甚至是深度学习专家所面临的困难。 我们将探索用于生产部署的不同选项，包括使用围绕 PyTorch 的 Flask 包装器以及使用 RedisAI，RedisAI 是高度优化的运行时，用于在多集群环境中部署模型，并且每秒可以处理数百万个请求。
+
+## 要充分利用这本书
+
+*   该代码用 Python 编写并托管在 GitHub 上。 尽管可以下载压缩代码存储库，但在线 GitHub 存储库将收到错误修复和更新。 因此，需要具备对 GitHub 的基本了解，以及具有良好的 Python 知识。
+*   尽管不是强制性的，但如果您未使用任何预训练的模型，则使用 CUDA 驱动程序将有助于加快训练过程。
+*   这些代码示例是在 Ubuntu 18.10 机器上开发的，但是可以在所有流行的平台上运行。 但是，如果您遇到任何困难，请随时在 GitHub 存储库中提出问题。
+*   本书中的某些示例要求您使用其他服务或包，例如 redis-server 和 Flask 框架。 所有这些外部依赖项和“操作方法”指南均在其出现的章节中进行了记录。
+
+### 下载示例代码文件
+
+您可以从[这里](http://www.packt.com)的帐户中下载本书的示例代码文件。 如果您在其他地方购买了此书，则可以访问[这里](http://www.packt.com/support)并注册以将文件直接通过电子邮件发送给您。
+
+您可以按照以下步骤下载代码文件：
+
+1.  登录或登录[这里](http://www.packt.com)。
+2.  选择**支持**标签。
+3.  单击**代码下载 & 勘误表**。
+4.  在**搜索**框中输入书籍的名称，然后按照屏幕上的说明进行操作。
+
+下载文件后，请确保使用以下最新版本解压缩或解压缩文件夹：
+
+*   Windows 的 WinRAR/7-Zip
+*   适用于 macOS 的 Zipeg/iZip/UnRarX
+*   适用于 Linux 的 7-Zip/PeaZip
+
+本书的代码包也托管在 [GitHub](https://github.com/hhsecond/HandsOnDeepLearningWithPytorch) 上。 我们还从[这里](https://github.com/PacktPublishing/)提供了丰富的书籍和视频目录中的其他代码包。 去看一下！
+
+### 下载彩色图像
+
+我们还提供了 PDF 文件，其中包含本书中使用的屏幕截图/图表的彩色图像。 [您可以在此处下载](http://www.packtpub.com/sites/default/files/downloads/9781788834131_ColorImages.pdf)。
+
+### 使用的约定
+
+本书中使用了许多文本约定。
+
+`CodeInText`：指示文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字。 例如; “将下载的`WebStorm-10*.dmg`磁盘映像文件安装为系统中的另一个磁盘。”
+
+代码块设置如下：
+
+```py
+def forward(self, batch):
+    hidden = self.hidden(batch)
+    activated = torch.sigmoid(hidden)
+    out = self.out(activated)
+    return out
+```
+
+当我们希望引起您对代码块特定部分的注意时，相关行或项目以粗体显示：
+
+```py
+def binary_encoder(input_size):
+    def wrapper(num):
+        ret = [int(i) for i in '{0:b}'.format(num)]
+ return [0] * (input_size - len(ret)) + ret
+    return wrapper
+```
+
+任何命令行输入或输出的编写方式如下：
+
+```py
+python -m torch.utils.bottleneck /path/to/source/script.py [args]
+```
+
+**粗体**：表示新的术语，重要的单词或您在屏幕上看到的单词，例如在菜单或对话框中，也显示在这样的文本中。 例如：“从**管理**面板中选择**系统信息**。”
+
+#### 注意
+
+警告或重要提示如下所示。
+
+#### 提示
+
+提示和技巧如下所示。
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/1.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/1.md
new file mode 100644
index 00000000..d166d548
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/1.md
@@ -0,0 +1,563 @@
+# 一、深度学习演练和 PyTorch 简介
+
+目前，有数十种深度学习框架可以解决 GPU 上的任何种类的深度学习问题，那么为什么我们还需要一个呢？ 本书是对这一百万美元问题的解答。 PyTorch 进入了深度学习家族，并有望成为 GPU 上的 NumPy。 自加入以来，社区一直在努力兑现这一承诺。 如官方文档所述，PyTorch 是针对使用 GPU 和 CPU 进行深度学习的优化张量库。 尽管所有著名的框架都提供相同的功能，但 PyTorch 相对于几乎所有框架都具有某些优势。
+
+本书中的各章为希望从 PyTorch 的功能中受益的开发人员提供了逐步指南，以处理和解释数据。 在探索深度学习工作流程的不同阶段之前，您将学习如何实现简单的神经网络。 我们将深入研究基本的卷积网络和生成对抗网络，然后是有关如何使用 OpenAI 的 Gym 库训练模型的动手教程。 在最后一章中，您将准备生产 PyTorch 模型。
+
+在第一章中，我们将介绍 PyTorch 背后的理论，并解释为什么 PyTorch 在某些用例上胜过其他框架。 在此之前，我们将简要介绍 PyTorch 的历史，并了解为什么 PyTorch 是需要而不是选择。 在上一部分中，我们还将介绍 NumPy-PyTorch 桥和 PyTorch 内部，这将使我们在即将到来的代码密集型章节中有所作为。
+
+## 了解 PyTorch 的历史
+
+随着越来越多的人迁移到引人入胜的机器学习世界，不同的大学和组织开始建立自己的框架来支持日常研究，并且 Torch 是该家族的早期成员之一。 Ronan Collobert，Koray Kavukcuoglu 和 Clement Farabet 于 2002 年发布了 Torch，后来被 Facebook AI Research 以及其他几所大学和研究小组的许多人所采用。 许多初创公司和研究人员接受了 Torch，公司开始生产其 Torch 模型，以服务数百万用户。 Twitter，Facebook，DeepMind 等都属于该列表。 根据核心团队发布的 Torch7 官方论文[1]，Torch 在设计时考虑了三个关键功能：
+
+1.  它应该简化数值算法的开发。
+2.  它应该容易扩展。
+3.  应该很快。
+
+尽管 Torch 赋予了骨骼灵活性，并且 Lua + C 组合满足了上述所有要求，但是社区面临的主要缺点是对新语言 Lua 的学习曲线。 尽管 Lua 并不难掌握，并且已经在行业中使用了一段时间以进行高效的产品开发，但是它并没有像其他几种流行语言一样被广泛接受。
+
+Python 在深度学习社区中的广泛接受使一些研究人员和开发人员重新考虑了核心作者做出的选择 Lua 而不是 Python 的决定。 这不仅仅是语言：缺少具有易于调试功能的命令式框架也触发了 PyTorch 的构想。
+
+深度学习的前端开发人员发现符号图的概念很困难。 不幸的是，几乎所有的深度学习框架都是在此基础上构建的。 实际上，一些开发人员小组试图通过动态图来改变这种方法。 哈佛智能概率系统集团的 Autograd 是第一个这样做的流行框架。 然后，Twitter 上的 Torch 社区采纳了这个想法，并实现了 torch-autograd。
+
+接下来，来自**卡内基梅隆大学**（**CMU**）的研究小组提出了 DyNet，然后 Chainer 提出了动态图的功能和可解释的开发环境。
+
+所有这些事件都是启动惊人的框架 PyTorch 的巨大灵感，事实上，PyTorch 最初是 Chainer 的分支。 它最初是由 Torch 的核心开发人员 Soumith Chintala 领导的 Adam Paszke 的实习项目开始的。 然后，PyTorch 聘请了另外两名核心开发人员以及来自不同公司和大学的约 100 位 Alpha 测试人员。
+
+整个团队在六个月内将链条拉到了一起，并于 2017 年 1 月向公众发布了该 Beta。尽管产品开发人员最初并未使用 PyTorch，但大部分研究社区都接受了 PyTorch。 一些大学开始在 PyTorch 上开设课程，包括**纽约大学**（**NYU**），牛津大学和其他一些欧洲大学。
+
+## 什么是 PyTorch？
+
+如前所述，PyTorch 是可以由 GPU 提供支持的张量计算库。 PyTorch 的构建具有特定目标，这使其与所有其他深度学习框架有所不同。 在本书中，您将通过不同的应用重新审视这些目标，并且到本书结束时，无论您打算要进行原型设计，您都应该能够开始使用 PyTorch 的各种用例。 一个想法或建立生产的超可扩展模型。
+
+作为 **Python 优先框架**，PyTorch 大大超越了在整体 C++ 或 C 引擎上实现 Python 包装器的其他框架。 在 PyTorch 中，您可以继承 PyTorch 类并根据需要进行自定义。 内置于 PyTorch 核心的命令式编码风格仅由于 Python 优先方法才有可能。 尽管诸如 TensorFlow，MXNet 和 CNTK 的某些符号图框架提出了一种强制性方法，但由于社区的支持及其灵活性，PyTorch 仍能保持领先地位。
+
+基于磁带的**自动微分**系统使 PyTorch 具有**动态图**功能。 这是 PyTorch 与其他流行的符号图框架之间的主要区别之一。 基于磁带的 Autograd 也支持 Chainer，Autograd 和 Torch-Autograd 的反向传播算法。 具有动态图功能，您的图将在 Python 解释器到达相应行时创建。 与 TensorFlow 的*定义并运行*方法不同，这称为*通过运行定义*。
+
+基于磁带的 Autograd 使用反向模式自动微分，在前进过程中，图将每个操作保存到磁带中，然后在磁带中向后移动以进行反向传播。 动态图和 Python 优先方法使**易于调试**，您可以在其中使用常用的 Python 调试器，例如 Pdb 或基于编辑器的调试器。
+
+PyTorch 核心社区不仅为 Torch 的 C 二进制文件构建了 Python 包装器，还优化了内核并对其进行了改进。 PyTorch 根据输入数据智能地选择要为定义的每个操作运行的算法。
+
+### 安装 PyTorch
+
+如果您已安装 CUDA 和 CuDNN，则 PyTorch 的安装非常简单（出于对 GPU 的支持，但是如果您尝试在 PyTorch 中尝试并且没有 GPU，那也可以）。 PyTorch 的主页[2]显示一个交互式屏幕，用于选择您所选择的操作系统和包管理器。 选择选项并执行命令进行安装。
+
+尽管最初仅支持 Linux 和 Mac 操作系统，但从 PyTorch 0.4 Windows 开始，Windows 也在受支持的操作系统列表中。 PyTorch 已包装并运送到 PyPI 和 Conda。 PyPI 是包的官方 Python 存储库，并且包管理器`pip`可以在 Torch 的名称下找到 PyTorch。
+
+但是，如果您想冒险并获取最新代码，则可以按照 GitHub `README`页面上的说明从源代码安装 PyTorch。 PyTorch 的每晚版本都将推送到 PyPI 和 Conda。 如果您希望获得最新的代码而无需经历从源代码安装的麻烦，那么每晚构建将非常有用。
+
+![Installing PyTorch](img/B09475_01_01.jpg)
+
+图 1.1：来自 PyTorch 网站的交互式 UI 中的安装过程
+
+### 是什么让 PyTorch 受欢迎？
+
+在可靠的深度学习框架的众多中，由于速度和效率的原因，几乎每个人都在使用静态图或基于符号图的方法。 动态网络的内在问题（例如表现问题）使开发人员无法花费大量时间来实现它。 但是，静态图的限制使研究人员无法思考解决问题的多种不同方法，因为思维过程必须限制在静态计算图的框内。
+
+如前所述，哈佛大学的 Autograd 包最初是作为解决此问题的方法，然后 Torch 社区从 Python 采纳了这个想法并实现了 torch-autograd。 Chainer 和 CMU 的 DyNet 可能是接下来的两个基于动态图的框架，得到了社区的大力支持。 尽管所有这些框架都可以解决借助强制方法创建的静态图所产生的问题，但它们没有其他流行的静态图框架所具有的动力。 PyTorch 绝对是答案。 PyTorch 团队采用了经过良好测试的著名 Torch 框架的后端，并将其与 Chainer 的前端合并以得到最佳组合。 团队优化了内核，添加了更多的 Pythonic API，并正确设置了抽象，因此 PyTorch 不需要像 Keras 这样的抽象库即可让初学者入门。
+
+PyTorch 在研究界获得了广泛的接受，因为大多数人已经在使用 Torch，并且可能对 TensorFlow 之类的框架在没有提供太多灵活性的情况下的发展感到沮丧。 PyTorch 的动态性质对许多人来说是一个好处，并帮助他们在早期阶段接受 PyTorch。
+
+PyTorch 允许用户定义 Python 在向前传递中允许他们执行的任何操作。 向后遍历自动找到遍历图直到根节点的路径，并在向后遍历时计算梯度。 尽管这是一个革命性的想法，但是产品开发社区并未接受 PyTorch，就像他们不能接受遵循类似实现的其他框架一样。 但是，随着时间的流逝，越来越多的人开始迁移到 PyTorch。 Kaggle 目睹了所有顶级玩家都使用 PyTorch 进行的比赛，并且如前所述，大学开始在 PyTorch 中开设课程。 这有助于学生避免像使用基于符号图的框架时那样学习新的图语言。
+
+在 Caffe2 发布之后，自社区宣布 PyTorch 模型向 Caffe2 的迁移策略以来，甚至产品开发人员也开始尝试 PyTorch。 Caffe2 是一个静态图框架，即使在移动电话中也可以运行您的模型，因此使用 PyTorch 进行原型设计是一种双赢的方法。 构建网络时，您可以获得 PyTorch 的灵活性，并且可以将其转移到 Caffe2 并在任何生产环境中使用。 但是，在 1.0 版本说明中，PyTorch 团队从让人们学习两个框架（一个用于生产，一个用于研究）到学习在原型阶段具有动态图功能并且可以突然转换为一个框架的巨大跃进。 需要速度和效率的静态优化图。 PyTorch 团队将 Caffe2 的后端与 PyTorch 的 Aten 后端合并在一起，这使用户可以决定是要运行优化程度较低但高度灵活的图，还是运行优化程度较不灵活的图而无需重写代码库。
+
+ONNX 和 DLPack 是 AI 社区看到的下两个“大事情”。 微软和 Facebook 共同宣布了 **开放神经网络交换**（**ONNX**）协议，该协议旨在帮助开发人员将任何模型从任何框架迁移到任何其他框架。 ONNX 与 PyTorch，Caffe2，TensorFlow，MXNet 和 CNTK 兼容，并且社区正在构建/改善对几乎所有流行框架的支持。
+
+ONNX 内置在 PyTorch 的核心中，因此将模型迁移到 ONNX 表单不需要用户安装任何其他包或工具。 同时，DLPack 通过定义不同框架应遵循的标准数据结构，将互操作性提高到一个新水平，从而使张量在同一程序中从一个框架到另一个框架的迁移不需要用户序列化数据，或遵循任何其他解决方法。 例如，如果您有一个程序可以将训练过的 TensorFlow 模型用于计算机视觉，而一个高效的 PyTorch 模型用于循环数据，则可以使用一个程序来处理视频中的每个三维帧， TensorFlow 模型并将 TensorFlow 模型的输出直接传递给 PyTorch 模型以预测视频中的动作。 如果您退后一步，看看深度学习社区，您会发现整个世界都趋向于一个单一的点，在这个点上，所有事物都可以与其他事物互操作，并尝试以类似方法解决问题。 那是我们大家都想生活的世界。
+
+## 使用计算图
+
+通过的演变，人类发现对神经网络进行图绘制可以使我们将复杂性降低到最低限度。 计算图通过操作描述了网络中的数据流。
+
+由一组节点和连接它们的边组成的图是一种已有数十年历史的数据结构，仍然在几种不同的实现方式中大量使用，并且该数据结构可能一直有效，直到人类不复存在。 在计算图中，节点表示张量，边表示它们之间的关系。
+
+计算图可帮助我们解决数学问题并使大型网络变得直观。 神经网络，无论它们有多复杂或多大，都是一组数学运算。 解决方程的明显方法是将方程分成较小的单元，并将一个输出传递给另一个，依此类推。 图方法背后的想法是相同的。 您将网络内部的操作视为节点，并将它们映射到一个图，图中节点之间的关系表示从一个操作到另一个操作的过渡。
+
+计算图是，是人工智能当前所有先进技术的核心。 他们奠定了深度学习框架的基础。 现在，所有现有的深度学习框架都使用图方法进行计算。 这有助于框架找到独立的节点并作为独立的线程或进程进行计算。 计算图可帮助您轻松进行反向传播，就像从子节点移动到先前的节点一样，并在返回时携带梯度。 此操作称为自动微分，这是 40 年前的想法。 自动微分被认为是上个世纪十大数值算法之一。 具体来说，反向模式自动微分是计算图背后用于反向传播的核心思想。 PyTorch 是基于反向模式自动微分而构建的，因此所有节点都将与它们一起保留操作信息，直到控件到达叶节点为止。 然后，反向传播从叶节点开始并向后遍历。 在向后移动时，流将随其一起获取梯度，并找到与每个节点相对应的偏导数。 1970 年，芬兰数学家和计算机科学家 Seppo Linnainmaa 发现自动微分可以用于算法验证。 几乎同时在同一概念上记录了许多其他并行的工作。
+
+在深度学习中，神经网络用于求解数学方程。 无论任务多么复杂，一切都取决于一个巨大的数学方程式，您可以通过优化神经网络的参数来求解。 解决问题的明显方法是“手工”。 考虑使用大约 150 层神经网络来求解 ResNet 的数学方程； 对于人类来说，要遍历数千次图，每次手动进行相同的操作来优化参数，都是不可能的。 计算图通过将所有操作逐级映射到图并一次求解每个节点来解决此问题。 “图 1.2”显示了具有三个运算符的简单计算图。
+
+两侧的矩阵乘法运算符给出两个矩阵作为输出，它们经过加法运算符，加法运算符又经过另一个 Sigmoid 运算符。 整个图实际上是在尝试求解以下等式：
+
+![Using computational graphs](img/B09475_01_02.jpg)
+
+图 1.2：等式的图形表示
+
+但是，当您将映射到图时，一切都变得清晰起来。 您可以可视化并了解正在发生的事情，并轻松编写代码，因为流程就在您的眼前。
+
+所有深度学习框架都建立在自动微分和计算图的基础上，但是有两种固有的实现方法–静态图和动态图。
+
+### 使用静态图
+
+处理神经网络架构的传统方法是使用静态图。 在对给出的数据进行任何处理之前，该程序将构建图的正向和反向传递。 不同的开发小组尝试了不​​同的方法。 有些人先构建正向传播，然后将相同的图实例用于正向传播和后向传递。 另一种方法是先构建前向静态图，然后创建后向图并将其附加到前向图的末尾，以便可以将整个前向-后向传递作为单个图执行来执行。 按时间顺序排列节点。
+
+![Using static graphs](img/B09475_01_03.jpg)
+
+![Using static graphs](img/B09475_01_04.jpg)
+
+图 1.3 和 1.4：用于正向和反向传递的静态图相同
+
+![Using static graphs](img/B09475_01_05.jpg)
+
+图 1.5：静态图：正向和反向传递的不同图
+
+静态图具有相对于其他方法的某些固有优势。 由于要限制程序的动态变化，因此程序可以在执行图时做出与内存优化和并行执行有关的假设。 内存优化是框架开发人员在整个开发过程中都会担心的关键方面，原因是优化内存的范围非常庞大，并且伴随着这些优化的微妙之处。 Apache MXNet 开发人员已经写了一个很棒的博客[3]，详细讨论了这个问题。
+
+TensorFlow 静态图 API 中用于预测 XOR 输出的神经网络如下所示。 这是静态图如何执行的典型示例。 最初，我们声明所有输入的占位符，然后构建图。 如果仔细看，我们在图定义中的任何地方都不会将数据传递给它。 输入变量实际上是占位符，期望在将来的某个时间获取数据。 尽管图定义看起来像我们在对数据执行数学操作，但实际上是在定义流程，这就是 TensorFlow 使用内部引擎构建优化的图实现的时候：
+
+```py
+x = tf.placeholder(tf.float32, shape=[None, 2], name='x-input')
+y = tf.placeholder(tf.float32, shape=[None, 2], name='y-input')
+w1 = tf.Variable(tf.random_uniform([2, 5], -1, 1), name="w1")
+w2 = tf.Variable(tf.random_uniform([5, 2], -1, 1), name="w2")
+b1 = tf.Variable(tf.zeros([5]), name="b1")
+b2 = tf.Variable(tf.zeros([2]), name="b2")
+a2 = tf.sigmoid(tf.matmul(x, w1) + b1)
+hyp = tf.matmul(a2, w2) + b2
+cost = tf.reduce_mean(tf.losses.mean_squared_error(y, hyp))
+train_step = tf.train.GradientDescentOptimizer(lr).minimize(cost)
+prediction = tf.argmax(tf.nn.softmax(hyp), 1)
+```
+
+解释器读取完图定义后，我们就开始遍历数据：
+
+```py
+with tf.Session() as sess:
+    sess.run(init)
+    for i in range(epoch):
+        sess.run(train_step, feed_dict={x_: XOR_X, y_: XOR_Y})
+```
+
+接下来我们开始 TensorFlow 会话。 这是与预先构建的图进行交互的唯一方法。 在会话内部，您可以遍历数据，并使用`session.run`方法将数据传递到图。 因此，输入的大小应与图中定义的大小相同。
+
+如果您忘记了什么是 XOR，则下表应为您提供足够的信息以从内存中重新收集它：
+
+| | 输入 | 输出 |
+| --- | --- | --- |
+| A | B | 异或 |
+| 0 | 0 | 0 |
+| 0 | 1 | 1 |
+| 1 | 0 | 1 |
+| 1 | 1 | 0 |
+
+### 使用动态图
+
+势在必行的编程风格始终拥有较大的用户群，因为程序流程对于任何开发人员都是直观的。 动态能力是命令式图构建的良好副作用。 与静态图不同，动态图架构不会在数据传递之前构建图。 程序将等待数据到达并在遍历数据时构建图。 结果，每次数据迭代都会构建一个新的图实例，并在完成反向传播后销毁它。 由于图为每次迭代构建的，因此它不依赖于数据大小，长度或结构。 自然语言处理是需要这种方法的领域之一。
+
+例如，如果您试图对成千上万的句子进行情感分析，则需要使用静态图来破解并采取变通办法。 在普通的**循环神经网络**（**RNN**）模型中，每个单词都经过一个 RNN 单元，该单元生成输出和隐藏状态。 该隐藏状态将提供给下一个 RNN，后者处理句子中的下一个单词。 由于您在构建静态图时做了一个固定长度的插槽，因此您需要增加短句并减少长句。
+
+![Using dynamic graphs](img/B09475_01_06.jpg)
+
+图 1.6：带有短句，适当句和长句的 RNN 单元的静态图
+
+示例中给出的静态图显示了如何为每次迭代设置数据格式，以免破坏预建图。 但是，在动态图中，网络是灵活的，因此每次传递数据时都会创建网络，如上图所示。
+
+动态能力附带成本。 您不能基于假设对图进行预优化，因此必须在每次迭代时支付创建图的开销。 但是，PyTorch 旨在尽可能降低成本。 由于预优化不是动态图所能做的事情，因此 PyTorch 开发人员设法将即时图创建的成本降低到可以忽略的程度。 由于所有优化都进入了 PyTorch 的核心，因此即使提供了动态功能，它也比其他几个针对特定用例的框架要快。
+
+以下是用 PyTorch 编写的代码段，用于与我们之前在 TensorFlow 中开发的 XOR 操作相同的代码：
+
+```py
+x = torch.FloatTensor(XOR_X)
+y = torch.FloatTensor(XOR_Y)
+w1 = torch.randn(2, 5, requires_grad=True)
+w2 = torch.randn(5, 2, requires_grad=True)
+b1 = torch.zeros(5, requires_grad=True)
+b2 = torch.zeros(2, requires_grad=True)
+
+for epoch in range(epochs):
+    a1 = x @ w1 + b1
+    h1 = a2.sigmoid()
+    a2 = h2 @ w2 + b1
+    hyp = a3.sigmoid()
+    cost = (hyp - y).pow(2).sum()
+    cost.backward()
+```
+
+在 PyTorch 代码中，输入变量定义未创建占位符。 而是将变量对象包装到您的输入上。 图定义不会执行一次； 相反，它在循环内，并且每次迭代都在构建图。 您在每个图实例之间共享的唯一信息是您要优化的权重矩阵。
+
+在这种方法中，如果您在遍历数据时改变了数据大小或形状，则在图中运行新形状的数据绝对好，因为新创建的图可以接受新形状。 可能性不止于此。 如果要动态更改图的行为，也可以这样做。 在第 5 章，“序列数据处理”中的循环神经网络会话中给出的示例均基于此思想。
+
+## 探索深度学习
+
+自从人类发明了计算机以来，我们就将它们称为智能系统，但我们一直在努力增强其智能。 在过去，计算机可以做的任何人类无法做到的事情都被认为是人工智能。 记住大量数据，对数百万或数十亿个数字进行数学运算，等等，被认为是人工智能。 我们称其为 Deep Blue，这是一款在国际象棋上击败国际象棋大师 Garry Kasparov 的机器。
+
+最终，人类不能做的事情和计算机可以做的事情变成了计算机程序。 我们意识到对于程序员来说，人类可以轻松完成的某些事情是不可能的。 这种演变改变了一切。 我们可以写下并让像我们这样的计算机正常工作的可能性或规则的数量如此之大。 机器学习解救了人们。 人们找到了一种方法，使计算机可以从示例中学习规则，而不必明确地编写代码。 这就是所谓的机器学习。 “图 1.9”中给出了一个示例，该示例显示了我们如何根据客户过去的购物历史来预测客户是否会购买产品。
+
+![Exploring deep learning](img/B09475_01_07.jpg)
+
+图 1.7：显示客户购买产品的数据集
+
+即使不是全部，我们也可以预测大多数结果。 但是，如果我们可以从中进行预测的数据点数量太多而又无法用凡人的大脑来处理它们该怎么办？ 计算机可以浏览数据，并可能根据以前的数据吐出答案。 这种数据驱动的方法可以为我们提供很多帮助，因为我们唯一要做的就是假设相关的特征，然后将其交给包含不同算法的黑盒，以从特征集中学习规则或模式。
+
+有问题。 即使我们知道要查找的内容，清理数据并提取特征也不是一件有趣的事情。 然而，最主要的麻烦不是这个。 我们无法有效预测高维数据和其他媒体类型的数据的特征。 例如，在人脸识别中，我们最初使用基于规则的程序找到人脸的细节长度，并将其作为输入输入神经网络，因为我们认为这是人类用来识别人脸的特征集。
+
+![Exploring deep learning](img/B09475_01_08.jpg)
+
+图 1.8：人为选择的面部特征
+
+事实证明，对于人类来说如此明显的功能对计算机而言并不那么明显，反之亦然。 特征选择问题的实现使我们进入了深度学习的时代。 这是机器学习的子集，其中我们使用相同的数据驱动方法，但不是让计算机明确选择特征，而是让计算机决定特征应该是什么。
+
+让我们再次考虑面部识别示例。 Google 于 2014 年发表的 FaceNet 论文在深度学习的帮助下解决了它。 FaceNet 使用两个深层网络实现了整个应用。 第一个网络是从面孔识别特征集，第二个网络是使用该特征集并识别面孔（从技术上讲，将面孔分类为不同的存储桶）。 本质上，第一个网络正在做我们以前做的事情，第二个网络是一个简单而传统的机器学习算法。
+
+深度网络能够从数据集中识别特征，前提是我们拥有大型的标记数据集。 FaceNet 的第一个网络接受了带有相应标签的庞大人脸数据集的训练。 第一个网络经过训练，可以预测每个人脸的 128 个特征（通常来说，从我们的面孔有 128 个测量值，例如左眼和右眼之间的距离），第二个网络仅使用这 128 个特征来识别人。
+
+![Exploring deep learning](img/B09475_01_09.jpg)
+
+图 1.9：一个简单的神经网络
+
+一个简单的神经网络具有一个单独的隐藏层，一个输入层和一个输出层。 从理论上讲，单个隐藏层应该能够近似任何复杂的数学方程式，并且对于单个层我们应该没问题。 然而，事实证明，单隐藏层理论并不是那么实用。 在深度网络中，每一层负责查找某些特征。 初始层找到更详细的特征，而最终层抽象这些详细特征并找到高级特征。
+
+![Exploring deep learning](img/B09475_01_10.jpg)
+
+图 1.10：深度神经网络
+
+### 了解不同的架构
+
+深度学习已经存在了数十年，针对不同的用例演变出了不同的结构和架构。 其中一些基于我们对大脑的想法，而另一些则基于大脑的实际工作。 即将到来的所有章节均基于业界正在使用的的最新架构。 我们将介绍每种架构下的一个或多个应用，每一章都涵盖所有概念，规范和技术细节，其中显然都包含 PyTorch 代码。
+
+#### 全连接网络
+
+全连接或密集或线性网络是最基本但功能最强大的架构。 这是通常所谓的机器学习的直接扩展，在该机器学习中，您使用具有单个隐藏层的神经网络。 全连接层充当所有架构的端点，以使用下面的深度网络来找到分数的概率分布。 顾名思义，一个全连接网络将所有神经元在上一层和下一层相互连接。 网络可能最终决定通过设置权重来关闭某些神经元，但是在理想情况下，最初，所有神经元都参与了通信。
+
+#### 编码器和解码器
+
+编码器和解码器可能是深度学习框架下的下一个最基本的架构。 所有网络都有一个或多个编码器-解码器层。 您可以将全连接层中的隐藏层视为来自编码器的编码形式，而将输出层视为将隐藏层解码为输出的解码器。 通常，编码器将输入编码为中间状态，其中输入表示为向量，然后解码器网络将其解码为我们想要的输出形式。
+
+编码器-解码器网络的一个典型示例是**序列到序列**（**seq2seq**）网络，可以将其用作机器翻译。 用英语说的句子将被编码为中间向量表示，其中整个句子将以一些浮点数的形式进行分块，并且解码器从中间向量以另一种语言解码输出句子。
+
+![Encoders and decoders](img/B09475_01_11.jpg)
+
+图 1.11：Seq2seq 网络
+
+自编码器是一种特殊的编码器-解码器网络，属于无监督学习类别。 自编码器尝试从未标记的数据中学习，将目标值设置为等于输入值。 例如，如果输入的图像尺寸为`100 x 100`，则输入向量的尺寸为 10,000。 因此，输出大小也将为 10,000，但隐藏层的大小可能为 500。简而言之，您尝试将输入转换为较小尺寸的隐藏状态表示，从而从隐藏状态重新生成相同的输入 。
+
+如果您能够训练一个可以做到这一点的神经网络，那么，您将找到一个很好的压缩算法，可以将高维输入转移到低维向量，并获得一个数量级的幅度的收益。
+
+如今，自编码器被用于不同的情况和行业。 当我们讨论语义分割时，您将在第 4 章，“计算机视觉”中看到类似的架构。
+
+![Encoders and decoders](img/B09475_01_12.jpg)
+
+图 1.12：自编码器的结构
+
+#### 循环神经网络
+
+RNN 是最常见的深度学习算法之一，它们席卷全球。 我们现在在自然语言处理或理解中几乎拥有所有最先进的表现，这是由于 RNN 的变体。 在循环网络中，您尝试识别数据中的最小单位，并使数据成为这些单位的组。 在自然语言的示例中，最常见的方法是使一个单词成为一个单元，并在处理该句子时将其视为一组单词。 您展开整个句子的 RNN，然后一次处理一个单词。 RNN 具有适用于不同数据集的变体，有时，选择变体时可以考虑效率。 **长短期记忆**（**LSTM**）和**门控循环单元**（**GRU**）单元是最常见的 RNN 单元。
+
+![Recurrent neural networks](img/B09475_01_13.jpg)
+
+图 1.13：循环网络中单词的向量表示
+
+#### 递归神经网络
+
+顾名思义，递归神经网络是树状网络，用于了解序列数据的层次结构。 递归网络已在**自然语言处理**应用中大量使用，尤其是 Salesforce 首席科学家 Richard Socher 及其团队。
+
+词向量，我们将在第 5 章，“序列数据处理”中很快看到，它们能够将词的含义有效地映射到向量空间中，但是涉及到整个句子中的含义，没有像 word2vec 这样的单词适合的解决方案。 递归神经网络是此类应用最常用的算法之一。 递归网络可以创建一个解析树和组成向量，并映射其他层次关系，这反过来又帮助我们找到了结合单词和句子的规则。 **斯坦福自然语言推断**小组发现了一种著名的且使用良好的算法，称为 **SNLI**，这是递归网络使用的一个很好的例子。
+
+![Recursive neural networks](img/B09475_01_14.jpg)
+
+图 1.14：递归网络中单词的向量表示
+
+#### 卷积神经网络
+
+**卷积神经网络**（**CNN**）使我们能够在计算机视觉中获得超人的表现。 在的早期，我们达到了的人类准确率，并且我们仍在逐年提高准确率。
+
+卷积网络是最易理解的网络，因为我们有可视化工具可以显示每一层的特征。 **Facebook AI Research**（**FAIR**）负责人 Yann LeCun 于 1990 年代发明了 CNN。 那时我们无法使用它们，因为我们没有足够的数据集和计算能力。 CNN 基本上像滑动窗口一样扫描您的输入并进行中间表示，然后在最终到达全连接层之前对其进行逐层抽象。 CNN 也成功地用于非图像数据集中。
+
+Facebook 研究团队发现了一种具有卷积网络的先进自然语言处理系统，该系统优于 RNN，RNN 被认为是任何序列数据集的首选架构。 尽管一些神经科学家和一些 AI 研究人员不喜欢 CNN，但是由于他们认为大脑不能像 CNN 那样工作，因此基于 CNN 的网络正在击败所有现有实现。
+
+![Convolutional neural networks](img/B09475_01_15.jpg)
+
+图 1.15：典型的 CNN
+
+#### 生成对抗网络
+
+**生成对抗网络**（**GAN**）由 Ian Goodfellow 于 2014 年发明，从那时起，它们使整个 AI 社区颠倒了。 它们是最简单，最明显的实现方式之一，但具有以其功能吸引世界的力量。 在 GAN 中，两个网络相互竞争并达到平衡，生成器网络可以生成数据，而判别器网络很难与实际图像区分开来。 一个真实的例子就是警察与假冒者之间的斗争。
+
+造假者试图制造假币，而警察试图对其进行侦查。 最初，造假者知识不足，无法制作出看起来很原始的假币。 随着时间的流逝，造假者越来越擅长制作看起来更像原始货币的货币。 然后，警察开始无法识别假币，但最终他们会再次变得更好。 这一世代歧视过程最终导致了平衡。 GAN 的优势是巨大的，我们将在后面详细讨论。
+
+![Generative adversarial networks](img/B09475_01_16.jpg)
+
+Figure 1.16: GAN setup
+
+#### 强化学习
+
+通过互动学习是人类智能的基础。 强化学习是引导我们朝这个方向发展的方法。 强化学习曾经是一个完全不同的领域，它是基于概念的，即人们通过反复试验来学习。 但是，随着深度学习的发展，弹出了另一个领域，称为深度强化学习，它将深度学习和强化学习的力量结合在一起。
+
+现代强化学习使用深度网络进行学习，这与我们以前明确编码那些规则的旧方法不同。 我们将研究 Q 学习和深度 Q 学习，向您展示有无深度学习的强化学习之间的区别。
+
+强化学习被认为是通向一般智能的途径之一，在这种途径中，计算机或智能体通过与现实世界，对象或实验的交互或从反馈中学习。 教一个强化学习智能体人相当于通过负面和正面奖励来训练狗。 当您给一块饼干拿起球时，或者当您对狗不捡球而大喊时，您会通过消极和积极的奖励来增强对狗大脑的了解。 我们对 AI 智能体执行相同的操作，但是正数奖励将为正数，负数奖励将为负数。 即使我们不能将强化学习视为类似于 CNN/RNN 等的另一种架构，但我还是在这里将其作为使用深度神经网络解决实际问题的另一种方法：
+
+![Reinforcement learning](img/B09475_01_17.jpg)
+
+图 1.17：强化学习设置的图示
+
+## 代码入门
+
+让我们用一些代码弄脏一下。 如果您以前使用过 NumPy，那么您将在这里。 如果没有，请不要担心。 PyTorch 旨在简化初学者的生活。
+
+作为深度学习框架，PyTorch 也可以用于数值计算。 在这里，我们讨论 PyTorch 中的基本操作。 本章中的基本 PyTorch 操作将在下一章中简化您的工作，在下一章中，我们将尝试为一个简单的用例构建一个实际的神经网络。 本书中的所有程序都将使用 Python 3.7 和 PyTorch 1.0。 GitHub 存储库也使用相同的配置构建：尽管 PyTorch 团队推荐使用该包管理器，但它是从 PyPI 而不是 Conda 获得的 PyTorch。
+
+### 学习基本操作
+
+让我们从导入`torch`到命名空间开始编码：
+
+```py
+import torch
+```
+
+PyTorch 中的基本数据抽象是`Tensor`对象，它是 NumPy 中`ndarray`的替代方案。 您可以在 PyTorch 中以多种方式创建张量。 我们将在此处讨论一些基本方法，在构建应用时，您将在接下来的各章中看到所有这些方法：
+
+```py
+uninitialized = torch.Tensor(3,2)
+rand_initialized = torch.rand(3,2)
+matrix_with_ones = torch.ones(3,2)
+matrix_with_zeros = torch.zeros(3,2)
+```
+
+`rand`方法为您提供给定大小的随机矩阵，而`Tensor`函数返回未初始化的张量。 要从 Python 列表创建张量对象，请调用`torch.FloatTensor(python_list)`，它类似于`np.array(python_list)`。 `FloatTensor`是 PyTorch 支持的几种类型之一。 下表列出了可用的类型：
+
+| 数据类型 | CPU 张量 | GPU 张量 |
+| --- | --- | --- |
+| 32 位浮点 | `torch.FloatTensor` | `torch.cuda.FloatTensor` |
+| 64 位浮点 | `torch.DoubleTensor` | `torch.cuda.DoubleTensor` |
+| 16 位浮点 | `torch.HalfTensor` | `torch.cuda.HalfTensor` |
+| 8 位整数（无符号） | `torch.ByteTensor` | `torch.cuda.ByteTensor` |
+| 8 位整数（有符号） | `torch.CharTensor` | `torch.cuda.CharTensor` |
+| 16 位整数（有符号） | `torch.ShortTensor` | `torch.cuda.ShortTensor` |
+| 32 位整数（有符号） | `torch.IntTensor` | `torch.cuda.IntTensor` |
+| 64 位整数（有符号） | `torch.LongTensor` | `torch.cuda.LongTensor` |
+
+> 表 1.1：PyTorch 支持的数据类型。 [资料来源](http://pytorch.org/docs/master/tensors.html)
+
+在每个版本中，PyTorch 都会对该 API 进行一些更改，以使所有可能的 API 都类似于 NumPy API。 形状是 0.2 版本中引入的那些更改之一。 调用`shape`属性可以得到张量的形状（在 PyTorch 术语中为大小），也可以通过`size`函数进行访问：
+
+```py
+>>> size = rand_initialized.size()
+>>> shape = rand_initialized.shape
+>>> print(size == shape)
+True
+
+```
+
+`shape`对象是从 PythoN 元组继承的，因此对`shape`对象也可以对元组进行所有可能的操作。 作为一个很好的副作用，`shape`对象是不可变的。
+
+```py
+>>> print(shape[0])
+3
+>>> print(shape[1])
+2
+
+```
+
+现在，由于您知道张量是什么以及如何创建张量，因此我们将从最基本的数学运算开始。 一旦您熟悉乘法加法和矩阵运算之类的操作，其他所有都不过是乐高积木。
+
+PyTorch 张量对象具有覆盖了 Python 的数值运算，并且您可以使用普通运算符。 张量标量运算可能是最简单的：
+
+```py
+ >>> x = torch.ones(3,2)
+>>> x
+tensor([[1., 1.],
+	   [1., 1.],
+	   [1., 1.]])
+>>>
+>>> y = torch.ones(3,2) + 2
+>>> y
+tensor([[3., 3.],
+	   [3., 3.],
+	   [3., 3.]])
+>>>
+>>> z = torch.ones(2,1)
+>>> z
+tensor([[1.],
+      [1.]])
+>>>
+>>> x * y @ z
+tensor([[6.],
+	   [6.],
+	   [6.]]) 
+
+```
+
+变量`x`和`y`为`3 x 2`张量，Python 乘法运算符执行逐元素乘法并给出相同形状的张量。 这个张量和形状为`3 x 2`的`z`张量正在通过 Python 的矩阵乘法运算符，并吐出`3 x 2`矩阵。
+
+如上例所示，张量-张量操作有多个选项，例如普通的 Python 运算符，原地 PyTorch 函数和原地 PyTorch 函数。
+
+```py
+ >>> z = x.add(y) 
+>>> print(z) 
+tensor([[1.4059, 1.0023, 1.0358], 
+             [0.9809, 0.3433, 1.7492]]) 
+>>> z = x.add_(y) #in place addition. 
+>>> print(z) 
+tensor([[1.4059, 1.0023, 1.0358], 
+            [0.9809, 0.3433, 1.7492]]) 
+>>> print(x) 
+tensor([[1.4059, 1.0023, 1.0358],
+            [0.9809, 0.3433, 1.7492]]) 
+>>> print(x == z) 
+tensor([[1, 1, 1], 
+            [1, 1, 1]], dtype=torch.uint8) 
+>>> 
+>>> 
+>>> 
+>>> x = torch.rand(2,3) 
+>>> y = torch.rand(3,4) 
+>>> x.matmul(y) 
+tensor([[0.5594, 0.8875, 0.9234, 1.1294], 
+            [0.7671, 1.7276, 1.5178, 1.7478]]) 
+
+```
+
+可以使用`+`运算符或`add`函数将两个大小相同的张量相加，以获得相同形状的输出张量。 PyTorch 遵循对相同操作使用尾部下划线的约定，但这确实发生了。 例如，`a.add(b)`为您提供了一个新的张量，其总和超过了`a`和`b`。 此操作不会对现有的`a`和`b`张量进行任何更改。 但是`a.add_(b)`用总和值更新张量`a`并返回更新后的`a`。 这适用于 PyTorch 中的所有运算符。
+
+#### 注意
+
+原地运算符遵循尾部下划线的约定，例如`add_`和`sub_`。
+
+可以使用函数`matmul`完成矩阵乘法，而出于相同目的，还有其他函数，例如`mm`和 Python 的`@`。 切片，索引和连接是在对网络进行编码时最终要完成的下一个最重要的任务。 PyTorch 使您能够使用基本的 Pythonic 或 NumPy 语法来完成所有这些操作。
+
+索引张量就像索引普通的 Python 列表一样。 可以通过递归索引每个维度来索引多个维度。 索引从第一个可用维中选择索引。 索引时可以使用逗号分隔每个维度。 切片时可以使用此方法。 起始和结束索引可以使用完整的冒号分隔。 可以使用属性`t`访问矩阵的转置。 每个 PyTorch 张量对象都具有`t`属性。
+
+连接是工具箱中需要执行的另一项重要操作。 PyTorch 出于相同的目的制作了函数`cat`。 所有尺寸上的两个张量相同的张量（一个张量除外）可以根据需要使用`cat`进行连接。 例如，大小为`3 x 2 x 4`的张量可以与另一个大小为`3 x 2 x 4`的张量在第一维上级联，以获得大小为`3 x 2 x 4`的张量。`stack`操作看起来非常类似于连接，但这是完全不同的操作。 如果要向张量添加新尺寸，则可以使用`stack`。 与`cat`相似，您可以将轴传递到要添加新尺寸的位置。 但是，请确保两个张量的所有尺寸都与附着尺寸相同。
+
+`split`和`chunk`是用于拆分张量的类似操作。 `split`接受每个输出张量要的大小。 例如，如果要在第 0 个维度上拆分大小为`3 x 2`的张量，尺寸为 1，则将得到三个大小均为`3 x 2`的张量。但是，如果在第 0 个维度上使用 2 作为大小，则会得到`3 x 2`的张量和另一个`3 x 2`的张量。
+
+`squeeze`函数有时可以节省您的时间。 在某些情况下，您将具有一个或多个尺寸为 1 的张量。有时，您的张量中不需要那些多余的尺寸。 这就是`squeeze`将为您提供帮助的地方。 `squeeze`删除值为 1 的维。例如，如果您正在处理句子，并且有 10 个句子的批量，每个句子包含 5 个单词，则将其映射到张量对象时，将得到`10 x 5`的张量。然后，您意识到必须将其转换为一热向量，以便神经网络进行处理。
+
+您可以使用大小为 100 的单热点编码向量为张量添加另一个维度（因为词汇量为 100 个单词）。 现在，您有了一个尺寸为`10 x 5 x 100`的张量对象，并且每个批量和每个句子一次传递一个单词。
+
+现在，您必须对句子进行拆分和切分，最有可能的结果是，张量的大小为`10 x 1 x 100`（每 10 个单词中的一个单词带有 100 维向量）。 您可以使用`10 x 100`的张量处理它，这使您的生活更加轻松。 继续使用`squeeze`从`10 x 1 x 100`张量得到`10 x 100`张量。
+
+PyTorch 具有称为`unsqueeze`的防挤压操作，该操作会为张量对象添加另一个伪尺寸。 不要将`unsqueeze`与`stack`混淆，这也会增加另一个维度。 `unsqueeze`添加了伪尺寸，并且不需要其他张量，但是`stack`正在将其他形状相同的张量添加到参考张量的另一个尺寸中。
+
+![Learning the basic operations](img/B09475_01_18.jpg)
+
+![Learning the basic operations](img/B09475_01_19.jpg)
+
+![Learning the basic operations](img/B09475_01_20.jpg)
+
+图 1.18：级联，栈，压缩和取消压缩的图示
+
+如果您对的所有这些基本操作感到满意，则可以继续第二章并立即开始编码会话。 PyTorch 附带了许多其他重要操作，当您开始构建网络时，您一定会发现它们非常有用。 我们将在接下来的各章中看到其中的大多数内容，但是如果您想首先学习这一点，请访问 PyTorch 网站并查看其张量教程页面，该页面描述了张量对象可以执行的所有操作。
+
+#### PyTorch 的内部
+
+互操作性是 PyTorch 自身发展的核心哲学之一。 开发团队投入了大量时间来实现不同框架（例如 ONNX，DLPack 等）之间的互操作性。 这些示例将在后面的章节中显示，但是在这里，我们将讨论 PyTorch 的内部设计如何在不影响速度的前提下满足这一要求。
+
+普通的 Python 数据结构是可以保存数据和元数据的单层内存对象。 但是 PyTorch 数据结构是分层设计的，这使得该框架不仅可以互操作而且还可以提高内存效率。 PyTorch 核心的计算密集型部分已通过 ATen 和 Caffe2 库迁移到了 C/C++ 后端，而不是将其保留在 Python 本身中，以便提高速度。
+
+即使将 PyTorch 创建为研究框架，也已将其转换为面向研究但可用于生产的框架。 通过引入两种执行类型，可以解决多用例需求所带来的折衷。 我们将在第 8 章和“生产中的 PyTorch”中看到更多相关信息，我们将在其中讨论如何将 PyTorch 投入生产。
+
+C/C++ 后端中设计的自定义数据结构已分为不同的层。 为简单起见，我们将省略 CUDA 数据结构，而将重点放在简单的 CPU 数据结构上。 PyTorch 中的面向用户的主要数据结构是`THTensor`对象，它保存有关尺寸，偏移，步幅等信息。 但是，`THTensor`存储的另一个主要信息是指向`THStorage`对象的指针，该对象是为存储而保存的张量对象的内部层。
+
+```py
+x = torch.rand(2,3,4)
+x_with_2n3_dimension = x[1, :, :]
+scalar_x = x[1,1,1]     # first value from each dimension
+
+# numpy like slicing
+x = torch.rand(2,3)
+print(x[:, 1:])        # skipping first column
+print(x[:-1, :])       # skipping last row
+
+# transpose
+x = torch.rand(2,3)
+print(x.t())           # size 3x2
+
+# concatenation and stacking
+x = torch.rand(2,3)
+concat = torch.cat((x,x))
+print(concat)         # Concatenates 2 tensors on zeroth dimension
+
+x = torch.rand(2,3)
+concat = torch.cat((x,x), dim=1)
+print(concat)         # Concatenates 2 tensors on first dimension
+
+x = torch.rand(2,3)
+stacked = torch.stack((x,x), dim=0)
+print(stacked)        # returns 2x2x3 tensor
+
+# split: you can use chunk as well
+x = torch.rand(2,3)
+splitted = x.split(split_size=2, dim=0)
+print(splitted)       # 2 tensors of 2x2 and 1x2 size
+
+#sqeeze and unsqueeze
+x = torch.rand(3,2,1) # a tensor of size 3x2x1
+squeezed = x.squeeze()
+print(squeezed)       # remove the 1 sized dimension
+
+x = torch.rand(3)
+with_fake_dimension = x.unsqueeze(0)
+print(with_fake_dimension)        # added a fake zeroth dimension
+```
+
+![The internals of PyTorch](img/B09475_01_21.jpg)
+
+图 1.19：THTensor 到 THStorage 到原始数据
+
+正如您可能已经假设的那样，`THStorage`层不是一个智能数据结构，它实际上并不知道张量的元数据。 `THStorage`层负责保持指向原始数据和分配器的指针。 分配器完全是另一个主题，中有用于 CPU，GPU，共享内存等的不同分配器。 来自`THStorage`的指向**原始数据**的指针是互操作性的关键。 **原始数据**是存储实际数据的位置，但没有任何结构。 每个张量对象的这种三层表示使 PyTorch 的实现内存效率更高。 以下是一些示例。
+
+将变量`x`创建为`2 x 2`的张量，并填充 1。 然后，我们创建另一个变量`xv`，它是同一张量`x`的另一个视图。 我们将`2 x 2`张量展平为大小为 4 的单维张量。我们还通过调用`.NumPy()`方法并将其存储在变量`xn`中来创建 NumPy 数组：
+
+```py
+>>> import torch
+>>> import numpy as np >>> x = torch.ones(2,2)
+>>> xv = x.view(-1)
+>>> xn = x.numpy()
+>>> x
+tensor([[1., 1.],[1., 1.]])
+>>> xv
+tensor([1., 1., 1., 1.])
+>>> xn
+array([[1\. 1.],[1\. 1.]], dtype=float32)
+
+```
+
+PyTorch 提供了多种 API 来检查内部信息，`storage()`是其中之一。 `storage()`方法返回存储对象（`THStorage`），该存储对象是先前描述的 PyTorch 数据结构中的第二层。 `x`和`xv`的存储对象如下所示。 即使两个张量的视图（尺寸）不同，存储区仍显示相同的尺寸，这证明`THTensor`存储有关尺寸的信息，但存储层是一个转储层，仅将用户指向原始数据对象。 为了确认这一点，我们使用`THStorage`对象中的另一个 API `data_ptr`。 这将我们指向原始数据对象。 将`x`和`xv`的`data_ptr`等同可证明两者相同：
+
+```py
+>>> x.storage()
+1.0
+1.0
+1.0
+1.0
+[torch.FloatStorage of size 4]
+>>> xv.storage()
+1.0
+1.0
+1.0
+1.0
+[torch.FloatStorage of size 4]
+>>> x.storage().data_ptr() == xv.storage().data_ptr()
+True
+
+```
+
+接下来，我们更改张量中的第一个值，索引值为 0、0 到 20。变量`x`和`xv`具有不同的`THTensor`层，因为尺寸已更改，但实际原始数据对于两者都相同，这使得在不同张量下创建同一张量的`n`个视图确实非常容易且节省存储空间。
+
+甚至 NumPy 数组`xn`也与其他变量共享相同的原始数据对象，因此一个张量中值的变化反映了指向同一原始数据对象的所有其他张量中相同值的变化。 DLPack 是该思想的扩展，它使同一程序中不同框架之间的通信变得容易。
+
+```py
+>>> x[0,0]=20
+>>> x
+tensor([[20.,  1.],[ 1.,  1.]])
+>>> xv
+tensor([20.,  1.,  1.,  1.])
+>>> xn
+array([[20.,  1.],[ 1.,  1.]], dtype=float32)
+
+```
+
+### 总结
+
+在本章中，我们了解了 PyTorch 的历史以及动态图库相对于静态图库的优缺点。 我们还浏览了人们为解决各个领域的复杂问题而提出的不同架构和模型。 我们介绍了 PyTorch 中最重要的内容：Torch 张量的内部。 张量的概念是深度学习的基础，并且对于您使用的所有深度学习框架都是通用的。
+
+在下一章中，我们将采用更多的动手方法，并将在 PyTorch 中实现一个简单的神经网络。
+
+### 参考
+
+1.  Ronan Collobert，Koray Kavukcuoglu 和 Clement Farabet，[《Torch7：类似于 Matlab 的机器学习环境》](https://pdfs.semanticscholar.org/3449/b65008b27f6e60a73d80c1fd990f0481126b.pdf?_ga=2.194076141.1591086632.1553663514-2047335409.1553576371)
+2.  [PyTorch 的主页](https://pytorch.org/)
+3.  [《优化深度学习的内存消耗》](https://mxnet.incubator.apache.org/versions/master/architecture/note_memory.html)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/2.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/2.md
new file mode 100644
index 00000000..8eb03fc1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/2.md
@@ -0,0 +1,602 @@
+# 二、简单的神经网络
+
+学习构建神经网络的 PyTorch 方法非常重要。 这是编写 PyTorch 代码的最有效，最简洁的方法，并且由于它们具有相同的结构，因此还可以帮助您找到易于理解的教程和示例代码片段。 更重要的是，您将获得高效的代码形式，该形式也具有很高的可读性。
+
+不用担心，PyTorch 不会尝试通过采用全新的方法来在学习曲线中增加另一个峰值。 如果您知道如何使用 Python 进行编码，那么您会立刻感到宾至如归。 但是，我们不会像在第一章中那样学习这些构件。 在本章中，我们将构建一个简单的网络。 与其选择典型的入门级神经网络用例，不如讲授我们的网络以 NumPy 方式进行数学运算。 然后，我们将其转换为 PyTorch 网络。 在本章结束时，您将具备成为 PyTorch 开发人员的技能。
+
+## 神经网络介绍
+
+在本节中，我们将通过手头的问题陈述以及正在使用的数据集。 然后，我们将构建一个基本的神经网络，然后再将其构建为适当的 PyTorch 网络。
+
+## 问题
+
+您曾经玩过 **Fizz buzz** 游戏吗？ 如果没有，请不要担心。 以下是有关游戏的简单说明。
+
+### 注意
+
+根据维基百科的说法，Fizz buzz [1]是一款针对儿童的小组文字游戏，可以教他们有关分裂的知识。 玩家轮流进行递增计数。 被三整除的任何数字[2]被单词 fizz 替换，被五整除的任何数字被 buzz 单词替换。 两者均分的数字成为嘶嘶声。
+
+**艾伦人工智能研究所**（**AI2**）的研究工程师之一乔尔·格鲁斯（Joel Grus）在一个有趣的示例中使用了 Fizz 嗡嗡声，而则在博客中发文[3]在 TensorFlow 上。 尽管该示例没有解决任何实际问题，但该博客文章颇具吸引力，很高兴看到神经网络如何学会从数字流中找到数学模式。
+
+## 数据集
+
+建立数据管道与网络的架构一样重要，尤其是在实时训练网络时。 从野外获得的数据永远不会干净，在将其扔到网络之前，您必须对其进行处理。 例如，如果我们要收集数据以预测某人是否购买产品，那么最终将出现异常值。 离群值可以是任何种类且不可预测的。 例如，某人可能不小心下了订单，或者他们可以访问后来下订单的朋友，依此类推。
+
+从理论上讲，深度神经网络非常适合从数据集中查找模式和解，因为它们应该模仿人的大脑。 但是，实际上，情况并非总是如此。 如果您的数据干净且格式正确，您的网络将能够通过找到模式来轻松解决问题。 PyTorch 开箱即用地提供了数据预处理包装器，我们将在第 3 章和“深度学习工作流程”中进行讨论。 除此之外，我们将讨论如何格式化或清除数据集。
+
+为简单起见，我们将使用一些简单的函数来生成数据。 让我们开始为 *FizzBu​​zz* 模型构建简单的数据集。 当我们的模型得到一个数字时，它应该预测下一个输出，就好像是在玩游戏的人一样。 例如，如果输入为三，则模型应预测下一个数字为四。 如果输入为八，则模型应显示“嘶嘶声”，因为九可以被三整除。
+
+我们不希望我们的模型遭受复杂的输出。 因此，为使我们的模型更容易，我们将问题描述为一个简单的分类问题，其中模型将输出分为四个不同类别：`fizz`，`buzz`，`fizzbuzz`和`Continue_without_change`。 对于任何输入模型，我们都将尝试在这四个类别上进行概率分布，而在训练下，我们可以尝试使概率分布集中在正确类别上。
+
+我们还将输入的数字转换为二进制编码的形式，这使网络比整数更容易处理。
+
+![Dataset](img/B09475_02_01.jpg)
+
+图 2.1：输入到输出映射
+
+以下代码以二进制形式生成输入，并以大小为 4 的向量生成输出：
+
+```py
+def binary_encoder(input_size):
+    def wrapper(num):
+        ret = [int(i) for i in '{0:b}'.format(num)]
+        return [0] * (input_size - len(ret)) + ret
+    return wrapper
+
+def get_numpy_data(input_size=10, limit=1000):
+    x = []
+    y = []
+    encoder = binary_encoder(input_size)
+    for i in range(limit):
+        x.append(encoder(i))
+        if i % 15 == 0:
+            y.append([1, 0, 0, 0])
+        elif i % 5 == 0:
+            y.append([0, 1, 0, 0])
+        elif i % 3 == 0:
+            y.append([0, 0, 1, 0])
+        else:
+            y.append([0, 0, 0, 1])
+    return training_test_gen(np.array(x), np.array(y))
+```
+
+编码器函数将输入编码为二进制数，从而使神经网络易于学习。 将数值直接传递到神经网络会对网络施加更多约束。 不要担心最后一行中的`training_test_gen`函数； 我们将在第 3 章和“深度学习工作流程”中进行更多讨论。 现在，请记住，它将数据集拆分为训练和测试集，并将其作为 NumPy 数组返回。
+
+利用到目前为止我们拥有的关于数据集的信息，我们可以按以下方式构建网络：
+
+*   我们将输入转换为 10 位二进制数，因此我们的第一个输入层需要 10 个神经元才能接受这 10 位数字。
+*   由于我们的输出始终是大小为 4 的向量，因此我们需要有四个输出神经元。
+*   看来我们要解决的问题很简单：比较深度学习在当今世界中产生的虚构冲动。 首先，我们可以有一个大小为 100 的隐藏层。
+*   由于在处理之前批量数据总是更好，为了获得良好的结果，我们将对输入的批量添加 64 个数据点。 请查看本章末尾的“查找误差”部分，以了解批量为什么更好。
+
+让我们定义超参数并调用我们先前定义的函数以获取训练和测试数据。 我们将为各种神经网络模型定义五个典型的超参数：
+
+```py
+epochs = 500
+batches = 64
+lr = 0.01
+input_size = 10
+output_size = 4
+hidden_size = 100
+```
+
+我们需要在程序顶部定义输入和输出大小，这将帮助我们在不同的地方使用输入和输出大小，例如网络设计函数。 隐藏大小是隐藏层中神经元的数量。 如果要手动设计神经网络，则权重矩阵的大小为`input_size` x `hidden_size`，这会将您输入的大小`input_size`转换为大小`hidden_size`。 `epoch`是通过网络进行迭代的计数器值。 `epoch`的概念最终取决于程序员如何定义迭代过程。 通常，对于每个周期，您都要遍历整个数据集，然后对每个周期重复一次。
+
+```py
+for i in epoch:
+    network_execution_over_whole_dataset()
+```
+
+**学习率**决定了我们希望我们的网络从每次迭代的误差中获取反馈的速度。 它通过忘记网络从所有先前迭代中学到的知识来决定从当前迭代中学到的知识。 将学习率保持为 1 可使网络考虑完全误差，并根据完全误差调整权重。 学习率为零意味着向网络传递的信息为零。 学习率将是神经网络中梯度更新方程式中的选择因子。 对于每个神经元，我们运行以下公式来更新神经元的权重：
+
+```py
+weight -= lr * loss
+```
+
+较低的学习率可帮助网络沿着山路走很小的步，而较高的学习率可帮助网络沿山路走。 但是，这是有代价的。 一旦损失接近最小值，较高的学习率可能会使网络跳过最小值，并导致网络永远找不到最小值。 从技术上讲，在每次迭代中，网络都会对近似值进行线性近似，而学习率将控制该近似值。
+
+如果损失函数高度弯曲，则以较高的学习率进行较长的步骤可能会导致模型变坏。 因此，理想的学习率始终取决于问题陈述和当前的模型架构。 《深度学习》[4]的第四章是了解学习重要性的好资料。 来自 Coursera 上著名的吴恩达（Andrew Ng）课程的精美图片代表清楚地了解了学习率如何影响网络学习。
+
+![Dataset](img/B09475_02_02.jpg)
+
+图 2.2：学习率低而学习率高
+
+## 徒手模型
+
+现在，我们将建立一个徒手，类似于 NumPy 的模型，而不使用任何 PyTorch 特定的方法。 然后，在下一个会话中，我们将把相同的模型转换为 PyTorch 的方法。 如果您来自 NumPy，那么您会感到宾至如归，但是如果您是使用其他框架的高级深度学习从业者，请随意跳过本节。
+
+### Autograd
+
+因此，既然我们知道张量应该为类型，就可以根据从`get_numpy_data()`获得的 NumPy 数组创建 PyTorch 张量。
+
+```py
+x = torch.from_numpy(trX).to(device=device, dtype=dtype)
+y = torch.from_numpy(trY).to(device=device, dtype=dtype)
+w1 = torch.randn(input_size, hidden_size, requires_grad=True, device=device, dtype=dtype)
+w2 = torch.randn(hidden_size, output_size, requires_grad=True, device=device, dtype=dtype)
+b1 = torch.zeros(1, hidden_size, requires_grad=True, device=device, dtype=dtype)
+b2 = torch.zeros(1, output_size, requires_grad=True, device=device, dtype=dtype)
+
+```
+
+对于初学者来说，这可能看起来很吓人，但是一旦您学习了基本的构建块，就只有六行代码。 我们从 PyTorch 中最重要的模块开始，该模块是 PyTorch 框架的主框架 autograd。 它可以帮助用户进行自动微分，从而使我们在深度学习领域取得了所有突破。
+
+#### 注意
+
+**注意**：自动微分，有时也称为算法微分，是通过计算机程序利用函数执行顺序的技术。 自动微分的两种主要方法是正向模式和反向模式。 在前向模式自动微分中，我们首先找到外部函数的导数，然后递归进入内部，直到我们探索所有子节点。 反向模式自动微分正好相反，并且被深度学习社区和框架使用。 它由 Seppo Linnainmaa 于 1970 年在其硕士论文中首次出版。反向模式微分的主要构建模块是存储中间变量的存储器，以及使这些变量计算导数的功能，同时从子节点移回到父节点。
+
+正如 PyTorch 主页所说，PyTorch 中所有神经网络的中心都是 Autograd 包。 PyTorch 借助 Autograd 包获得了动态功能。 程序执行时，Autograd 将每个操作写入磁带状数据结构并将其存储在内存中。
+
+这是反向模式自动微分的关键特征之一。 这有助于 PyTorch 动态化，因为无论用户在向前传递中作为操作编写的内容都可以写入磁带，并且在反向传播开始时，Autograd 可以在磁带上向后移动并随梯度一起移动，直到到达最外层父级。
+
+磁带或内存的写操作可忽略不计，PyTorch 通过将操作写到磁带上并在向后遍历后销毁磁带来利用每次正向遍历中的行为。 尽管我会在本书中尽量避免使用尽可能多的数学方法，但是有关 Autograd 如何工作的数学示例绝对可以为您提供帮助。 在下面的两个图中，说明了反向传播算法和使用链式规则的 Autograd 的方法。 下图中我们有一个小型网络，其中有一个乘法节点和一个加法节点。 乘法节点获取输入张量和权重张量，将其传递到加法节点以进行加法运算。
+
+```py
+output = X * W + B
+```
+
+由于将方程分为几步，因此我们可以根据下一阶段找到每个阶段的斜率，然后使用链式规则将其链接在一起，从而根据最终输出获得权重的误差。 第二张图显示了 Autograd 如何将这些导数项中的每一个链接起来以获得最终误差。
+
+![Autograd](img/B09475_02_03.jpg)
+
+图 2.3：Autograd 的工作方式
+
+![Autograd](img/B09475_02_04.jpg)
+
+图 2.4：Autograd 使用的链式规则
+
+前面的图可以使用以下代码转换为 PyTorch 图：
+
+```py
+>>> import torch
+>>> inputs = torch.FloatTensor([2])
+>>> weights = torch.rand(1, requires_grad=True)
+>>> bias = torch.rand(1, requires_grad=True)
+>>> t = inputs @ weights
+>>> out = t + bias
+>>> out.backward()
+>>> weights.grad
+tensor([2.])
+>>>bias.grad
+tensor([1.])
+
+```
+
+通常，用户可以使用两个主要的 API 访问 autograd，这将处理您在构建神经网络时几乎会遇到的所有操作。
+
+#### 张量的 Autograd 属性
+
+当成为图的一部分时，张量需要存储 Autograd 自动微分所需的信息。 张量充当计算图中的一个节点，并通过函数式模块实例连接到其他节点。 张量实例主要具有支持 Autograd 的三个属性：`.grad`，`.data`和`grad_fn()`（注意字母大小写：`Function`代表 PyTorch `Function`模块，而`function`代表 Python 函数）。
+
+`.grad`属性在任何时间点存储梯度，所有向后调用将当前梯度累积到`.grad`属性。 `.data`属性可访问其中包含数据的裸张量对象。
+
+![Autograd attributes of a tensor](img/B09475_02_05.jpg)
+
+图 2.5：`data`，`grad`和`grad_fn`
+
+如果您想知道，前面的代码片段中的`required_grad`参数会通知张量或 Autograd 引擎在进行反向传播时需要梯度。 创建张量时，可以指定是否需要该张量来承载梯度。 在我们的示例中，我们没有使用梯度更新输入张量（输入永远不会改变）：我们只需要更改权重即可。 由于我们没有在迭代中更改输入，因此不需要输入张量即可计算梯度。 因此，在包装输入张量时，我们将`False`作为`required_grad`参数传递，对于权重，我们传递`True`。 检查我们之前创建的张量实例的`grad`和`data`属性。
+
+`Tensor`和`Function`实例在图中时是相互连接的，并且一起构成了非循环计算图。 除了用户明确创建的张量以外，每个张量都连接到一个函数。 （如果用户未明确创建张量，则必须通过函数创建张量。例如，表达式`c = a + b`中的`c`由加法函数创建。 ）您可以通过在张量上调用`grade_fn`来访问创建器函数。 打印`grad`，`.data`和`.grade_fn()`的值可得到以下结果：
+
+```py
+print(x.grad, x.grad_fn, x)
+# None None tensor([[...]])
+print(w1.grad, w1.grad_fn, w1)
+# None None tensor([[...]])
+```
+
+我们的输入`x`和第一层权重矩阵`w1`目前没有`grad`或`grad_fn`。 我们将很快看到这些属性的更新方式和时间。 `x`的`.data`属性为`900 x 10`形状，因为我们传递了 900 个数据点，每个数据点的大小均为 10（二进制编码数）。 现在，您可以准备进行数据迭代了。
+
+我们已经准备好输入，权重和偏差，并等待数据输入。如前所述，PyTorch 是一个基于动态图的网络，该网络在每次迭代时构建计算图。 因此，当我们遍历数据时，我们实际上是在动态构建图，并在到达最后一个或根节点时对其进行反向传播。 这是显示此代码段：
+
+```py
+for epoch in range(epochs):
+    for batch in range(no_of_batches):
+        start = batch * batches
+        end = start + batches
+        x_ = x[start:end]
+        y_ = y[start:end]
+
+        # building graph
+        a2 = x_.matmul(w1)
+        a2 = a2.add(b1)
+        print(a2.grad, a2.grad_fn, a2)
+        # None <AddBackward0 object at 0x7f5f3b9253c8> tensor([[...]])
+        h2 = a2.sigmoid()
+        a3 = h2.matmul(w2)
+        a3 = a3.add(b2)
+        hyp = a3.sigmoid()
+        error = hyp - y_
+        output = error.pow(2).sum() / 2.0
+
+        output.backward()
+
+        print(x.grad, x.grad_fn, x)
+        # None None tensor([[...]])
+        print(w1.grad, w1.grad_fn, w1)
+        # tensor([[...]], None, tensor([[...]]
+        print(a2.grad, a2.grad_fn, a2)
+        # None <AddBackward0 object at 0x7f5f3d42c780> tensor([[...]])
+
+        # parameter update
+        with torch.no_grad():
+            w1 -= lr * w1.grad
+            w2 -= lr * w2.grad
+            b1 -= lr * b1.grad
+            b2 -= lr * b2.grad
+```
+
+前面的代码段与在第 1 章，“深度学习演练和 PyTorch 简介”中看到的相同，其中解释了静态和动态计算图，但在这里我们从另一个角度来看一下代码：模型说明。 它从循环遍历每个周期的批量开始，并使用我们正在构建的模型处理每个批量。 与基于静态计算图的框架不同，我们尚未构建图。 我们刚刚定义了超参数，并根据我们的数据制作了张量。
+
+##### 构建图
+
+我们正在构建该图，如下图所示：
+
+![Building the graph](img/B09475_02_06.jpg)
+
+图 2.6：网络架构
+
+第一层由批量输入矩阵，权重和偏差之间的矩阵乘法和加法组成。 此时，`a2`张量应具有一个`grad_fn`，这应该是矩阵加法的后向操作。 但是，由于我们还没有进行反向传递，因此`.grad`应该返回`None`和`.data`，并且将一如既往地返回张量，以及矩阵乘法和偏差加法的结果。 神经元活动由 Sigmoid 激活函数定义，它以`h2`（代表第二层中的隐藏单元）的输出形式提供给我们。 第二层采用相同的结构：矩阵乘法，偏差加法和 Sigmoid。 最后得到`hyp`，它具有预期的结果：
+
+```py
+print(a2.grad, a2.grad_fn, a2)
+# None <AddBackward0 object at 0x7f5f3b9253c8> tensor([[...]])
+```
+
+###### 注意
+
+**Softmax**：让 Sigmoid 曲面吐出分类问题的预测是很不寻常的，但是我们将其保留下来，因为这样会使我们的模型易于理解，因为它重复了第一层。 通常，分类问题由 softmax 层和交叉熵损失处理，这会增加一类相对于另一类的概率。 由于所有类别的概率加在一起，因此增加一个类别的概率会降低其他类别的概率，这是一个不错的函数。 在以后的章节中将对此进行更多介绍。
+
+##### 查找误差
+
+是时候找出了，我们的模型在 Fizz 嗡嗡声中的预测效果如何。 我们使用最基本的回归损失，称为**均方误差**（**MSE**）。 最初，我们发现批量中每个元素的预测与输出之间的差异（还记得我们为每个输入数据点创建的大小为 4 的向量吗？）。 然后我们对所有差异求平方，并将所有差异求和在一起，以获得一个单一值。 如果您不熟悉损失函数，则不必担心被 2.0 除。 这样做是为了使数学在进行反向传播时保持整洁。
+
+##### 反向传播
+
+来自 NumPy 背景的人们，准备被吹走。 在 TensorFlow 或 PyTorch 等高级框架中开始进行深度学习的人，不要认为这是理所当然的。 现代框架的强大功能（自动微分）使反向传播成为一线。 图中的最后一个节点是我们刚刚发现的损失结果。 现在，我们有了一个值，该值说明了我们的模型对结果的预测程度（或良好），我们需要根据该值更新参数。 反向传播可以为您提供帮助。 我们需要承担这种损失，然后移回每个神经元以查找每个神经元的贡献。
+
+![Backpropagation](img/B09475_02_07.jpg)
+
+图 2.7：反向传播和减少损失的例子
+
+考虑损失函数的图形，其中`Y`轴是误差（我们的模型有多糟糕）。 最初，模型的预测将是随机的，并且对于整个数据集而言确实是不利的，也就是说，`Y`轴上的误差确实很高。 我们需要像爬山一样将其向下移动：我们要爬下山并找到山谷中能提供接近准确结果的最低点。
+
+反向传播通过找到每个参数应移动的方向来实现这一点，从而使损失值的整体运动爬下山。 我们为此寻求微积分的帮助。 任何函数相对于最终误差的导数都可以告诉我们上图中该函数的斜率是多少。 因此，反向传播通过获取关于最终损失的每个神经元（通常每个神经元通常是非线性函数）的导数并告诉我们必须移动的方向来帮助我们。
+
+在拥有框架之前，这不是一个容易的过程。 实际上，找到每个参数的导数并进行更新是一项繁琐且容易出错的任务。 在 PyTorch 中，您要做的就是在最后一个节点上调用`backward`，它将反向传播并更新它。 具有梯度的`grad`属性。
+
+PyTorch 的`backward`函数进行反向传播，并找到每个神经元的误差。 但是，我们需要基于此误差因子来更新神经元的权重。 更新发现的误差的过程通常称为优化，并且有不同的优化策略。 PyTorch 为我们提供了另一个名为`optim`的模块，用于实现不同的优化算法。 在先前的实现中，我们使用了基本且最受欢迎的优化算法，称为**随机梯度下降**（**SGD**）。 当我们使用复杂的神经网络时，我们将在后面的章节中看到不同的优化算法。
+
+PyTorch 还通过将反向传播和优化分为不同的步骤，为我们提供了更大的灵活性。 请记住，反向传播会在`.grad`属性中累积梯度。 这是有帮助的，特别是在我们的项目更注重研究，或者想要深入研究权重-梯度关系，或者想要了解梯度的变化方式时。 有时，我们希望更新除特定神经元之外的所有参数，或者有时我们可能认为不需要更新特定层。 在需要对参数更新进行更多控制的情况下，具有显式的参数更新步骤会带来很大的好处。
+
+在前进之前，我们检查之前检查过的所有张量，以了解在反向传播之后发生了什么变化。
+
+```py
+print(x.grad, x.grad_fn, x)
+# None None tensor([[...]])
+print(w1.grad, w1.grad_fn, w1)
+# tensor([[...]], None, tensor([[...]]
+print(a2.grad, a2.grad_fn, a2)
+# None <AddBackward0 object at 0x7f5f3d42c780> tensor([[...]])
+```
+
+事情变了！ 由于我们使用`required_grad`作为`False`创建了输入张量，因此我们首先进行打印以检查输入的属性没有显示任何差异。 `w1`已更改。 在反向传播之前，`.grad`属性为`None`，现在它具有一些梯度。 令人耳目一新！
+
+权重是我们需要根据梯度更改的参数，因此我们获得了它们的梯度。 我们没有梯度函数，因为它是由用户创建的，因此`grad_fn`仍然是`None`，而`.data`仍然相同。 如果我们尝试打印数据的值，它将仍然是相同的，因为反向传播不会隐式更新张量。 总之，在`x`，`w1`和`a2`中，只有`w1`得到了梯度。 这是因为由内部函数（例如`a2`）创建的中间节点将不保存梯度，因为它们是无参数节点。 影响神经网络输出的唯一参数是我们为层定义的权重。
+
+##### 参数更新
+
+参数更新或优化步骤采用反向传播生成的梯度，并使用一些策略来更新权重，以通过一小步来减小参数的贡献因子。 然后重复此步骤，直到找到一组良好的参数。
+
+所有用户创建的张量都要求梯度在`gradient`属性中具有值，并且我们需要更新参数。 所有参数张量都具有`.data`属性和`.grad`属性，它们分别具有张量值和梯度。 显然，我们需要做的是获取梯度并将其从数据中减去。 但是，事实证明，从参数减小整个梯度并不是一个好主意。 其背后的想法是，参数更新的数量决定了网络从每个示例（每次迭代）中学到的知识，并且如果我们给出的特定示例是一个异常值，我们不希望我们的网络学习虚假信息。
+
+我们希望我们的网络得到推广，从所有示例中学习一些，并最终变得擅长于推广任何新示例。 因此，我们不是从数据中减少整个梯度，而是使用学习率来决定在特定更新中应使用多少梯度。 找到最佳学习率始终是一个重要的决定，因为这会影响模型的整体表现。 基本的经验法则是找到一个学习率，该学习率应足够小以使模型最终能够学习，而又要足够高以至于不会永远收敛。
+
+前面描述的训练策略称为梯度下降。 诸如亚当之类的更复杂的训练策略将在下一章中讨论。 梯度下降本身已从其他两个变体演变而来。 梯度下降的最原始版本是 SGD，如前所述。 使用 SGD，每个网络执行都在单个样本上运行，并使用从一个样本获得的梯度更新模型，然后继续进行下一个样本。
+
+SGD 的主要缺点是效率低下。 例如，考虑我们的 *FizzBu​​zz* 数据集，每个数据集包含 1,000 个大小为 10 的样本。一次执行一个样本要求我们将大小为`1 x 10`的张量传递给隐藏层，并使用权重张量`1 x 10`的像素，将`1 x 10`的输入转换为`1 x 10`的隐藏状态。 为了处理整个数据集，我们必须运行 1,000 次迭代。 通常，我们会在具有数千个内核的 GPU 上运行我们的模型，但是一次只有一个样本，我们就不会使用 GPU 的全部功能。 现在考虑一次传递整个数据集。 第一层获得大小为`1,000 x 10`的输入，该输入将转移到大小为`1,000 x 100`的隐藏状态。现在这很有效，因为张量乘法将在多核 GPU 上并行执行。
+
+使用完整数据集的梯度下降的变种称为批梯度下降。 它并不比 SGD 更好。 批量梯度下降实际上提高了效率，但降低了网络的泛化能力。 SGD 必须逐个通过噪声，因此它将具有很高的抖动率，这会导致网络移出局部最小值，而分批梯度下降避免了陷入局部最小值的机会。
+
+批量梯度下降的另一个主要缺点是其内存消耗。 由于整个批量都在一起处理，因此应将庞大的数据集加载到 RAM 或 GPU 内存中，这在大多数情况下我们尝试训练数百万个样本时不切实际。 下一个变体是前面两种方法的混合，称为“小批量梯度下降”（尽管顾名思义是“小批量梯度下降”，但人们通常会使用 SGD 来指代）。
+
+除了我们刚才介绍的新超参数，学习率和批量大小以外，其他所有内容均保持不变。 我们用学习率乘以`.grad`属性来更新`.data`属性，并针对每次迭代进行此操作。 选择批量大小几乎总是取决于内存的可用性。 我们尝试使小批量尽可能大，以便可以将其放置在 GPU 内存中。 将整个批量划分为小批量，以确保每次梯度更新都会产生足够的抽动，从而在使用 GPU 提供的全部功能的同时，将模型从局部最小值中剔除。
+
+我们已经到达了模型构建旅程的最后一部分。 到目前为止，所有操作都很直观，简单，但是最后一部分有点令人困惑。 `zero_grad`做什么？ 还记得关于权重`w1.grad`的第一份印刷声明吗？ 它是空的，现在具有当前反向传递的梯度。 因此，我们需要在下一次反向传播之前清空梯度，因为梯度会累积而不是被重写。 参数更新后，我们在每个迭代的每个张量上调用`zero_grad()`，然后继续进行下一个迭代。
+
+`.grad_fn`通过连接函数和张量将图保持在一起。 在`Function`模块中定义了对张量的每种可能的操作。 所有张量的`.grad_fn`始终指向函数对象，除非用户创建了它。 PyTorch 允许您使用`grad_fn`向后浏览图。 从图中的任何节点，可以通过在`grad_fn`的返回值上调用`next_functions`来到达任何父节点。
+
+```py
+# traversing the graph using .grad_fn
+print(output.grad_fn)
+# <DivBackward0 object at 0x7eff00ae3ef0>
+print(output.grad_fn.next_functions[0][0])
+# <SumBackward0 object at 0x7eff017b4128>
+print(output.grad_fn.next_functions[0][0].next_functions[0][0])
+# <PowBackward0 object at 0x7eff017b4128>
+```
+
+训练显示出其创建者之后，立即在输出张量上打印`grad_fn`，在`output`的情况下，是除法运算符执行最后的二分运算。 然后，对任何梯度函数（或向后函数）的`next_functions`调用都会向我们展示返回输入节点的方式。 在该示例中，除法运算符遵循求和函数，该函数将一批中所有数据点的平方误差相加。 下一个运算符是幂运算符，该运算符用于平方各个误差。 下图显示了使用函数链接张量的想法：
+
+![Parameter update](img/B09475_02_08.jpg)
+
+图 2.8：链接张量和函数
+
+## PyTorch 方式
+
+到目前为止，我们已经以 NumPy-PyTorch 混合形式开发了一个简单的两层神经网络。 我们已经在 NumPy 中逐行编码了每个操作，就像我们在 NumPy 中进行编码一样，并且我们采用了与 PyTorch 的自动微分，因此我们不必对反向传递进行编码。
+
+在途中，我们学习了如何在 PyTorch 中包装矩阵（或张量），这有助于我们进行反向传播。 使用 PyTorch 进行相同操作的方式更加方便，这就是我们将在本节中讨论的内容。 PyTorch 可以访问内置的深度学习项目所需的几乎所有功能。 由于 PyTorch 支持 Python 中所有可用的数学函数，因此，如果在内核中不可用，则构建一个函数并不是一件艰巨的任务。 您不仅可以构建所需的任何函数，而且 PyTorch 隐式定义了所构建函数的导函数。
+
+PyTorch 对需要了解底层操作的人很有帮助，但同时，PyTorch 通过`torch.nn`模块提供了高层 API。 因此，如果用户不想知道黑盒内部发生了什么，而只需要构建模型，则 PyTorch 允许他们这样做。 同样，如果用户不喜欢引擎盖下的提升操作，并且需要知道到底发生了什么，PyTorch 也可以提供这种灵活性。 将这种组合构建到单个框架上可以改变游戏规则，并使 PyTorch 成为整个深度学习社区最喜欢的框架之一。
+
+### 高级 API
+
+高级 API 使初学者可以从头开始构建网络，同时，它们使高级用户可以花时间在其他关键部件上，而不必将发明的模块留给 PyTorch。 PyTorch 中构建神经网络所需的所有模块都是具有正向反向函数的 Python 类实例。 当您开始执行神经网络时，在后台执行的是正向函数，该函数又将操作添加到磁带上。 由于 PyTorch 知道所有操作的导函数，因此 PyTorch 很容易在磁带上移回。 现在，我们将代码模块化为较小的单元，以制造相同的 *FizzBu​​zz* 网络。
+
+模块化代码具有相同的结构，因为我们获取数据并从 NumPy 数据输入创建张量。 其余的“复杂”代码可以替换为我们创建的模型类。
+
+```py
+net = FizBuzNet(input_size, hidden_size, output_size)
+```
+
+我们使该类灵活地接受任何输入大小和输出大小，如果我们改变主意通过单次热编码而不是二进制编码输入，这将使我们更容易。 那么，`FizBuzNet`来自哪里？
+
+```py
+class FizBuzNet(nn.Module):
+    """
+    2 layer network for predicting fiz or buz
+    param: input_size -> int
+    param: output_size -> int
+    """
+
+    def __init__(self, input_size, hidden_size, output_size):
+        super(FizBuzNet, self).__init__()
+        self.hidden = nn.Linear(input_size, hidden_size)
+        self.out = nn.Linear(hidden_size, output_size)
+
+    def forward(self, batch):
+        hidden = self.hidden(batch)
+        activated = torch.sigmoid(hidden)
+        out = self.out(activated)
+        return out
+```
+
+我们定义了`FizBuzNet`的结构，并将其包装在从`torch.nn.Module`继承的 Python 类中。 PyTorch 中的`nn`模块是用于访问深度学习世界中所有流行层的高级 API。 让我们逐步进行。
+
+#### `nn.Module`
+
+允许用户编写其他高级 API 的高级 API 是`nn.Module`。 您可以将网络的每个可分离部分定义为单独的 Python 类，并继承自`nn.Module`。 例如，假设您想建立一个深度学习模型来交易加密货币。 您已经从某个交易所收集了每种硬币的交易数据，并将这些数据解析为可以传递到网络的某种形式。 现在您处于两难境地：如何对每个硬币进行排名？ 一种简单的方法是对硬币进行一次热编码，然后将其传递给神经元，但是您对此并不满意。 另一种相当简单的方法是制作另一个小模型来对硬币进行排名，您可以将该排名从该小模型传递到您的主模型作为输入。 啊哈！ 这看起来很简单而且很聪明，但是您又该怎么做呢？ 让我们看一下下图：
+
+![nn.Module](img/B09475_02_09.jpg)
+
+图 2.9：一个简单的网络，用于硬币排名并将输出传递给主要网络
+
+`nn.Module`使您更容易拥有如此漂亮的抽象。 初始化`class`对象时，将调用`__init__()`，这又将初始化层并返回对象。 `nn.Module`实现了两个主要函数，即`__call__`和`backward()`，并且用户需要覆盖`forward`和`__init__()`。
+
+一旦返回了层初始化的对象，就可以通过调用`model`对象本身将输入数据传递给模型。 通常，Python 对象不可调用。 要调用对象方法，用户必须显式调用它们。 但是，`nn.Module`实现了魔术函数`__call__()`，该函数又调用了用户定义的`forward`函数。 用户具有在正向调用中定义所需内容的特权。
+
+只要 PyTorch 知道如何反向传播`forward`中的内容，您就很安全。 但是，如果您在`forward`中具有自定义函数或层，则 PyTorch 允许您覆盖`backward`函数，并且该函数将在返回磁带时执行。
+
+用户可以选择在`__init__()`定义中构建层，这将照顾我们在新手模型中手工完成的权重和偏差创建。 在下面的`FizBuzNet`中，`__init__()`中的线创建了线性层。 线性层也称为全连接层或密集层，它在权重和输入之间进行矩阵乘法，并在内部进行偏差加法：
+
+```py
+self.hidden = nn.Linear(input_size, hidden_size)
+self.out = nn.Linear(hidden_size, output_size)
+```
+
+让我们看一下 PyTorch 的`nn.Linear`的源代码，它应该使我们对 `nn.Module`的工作方式以及如何扩展`nn.Module`来创建另一个自定义模块有足够的了解：
+
+```py
+class Linear(torch.nn.Module):
+    def __init__(self, in_features, out_features, bias):
+        super(Linear, self).__init__()
+        self.in_features = in_features
+        self.out_features = out_features
+        self.weight = torch.nn.Parameter(torch.Tensor(out_features, in_features))
+        self.bias = torch.nn.Parameter(torch.Tensor(out_features))
+
+    def forward(self, input):
+        return input.matmul(self.weight.t()) + self.bias
+```
+
+该代码段是 PyTorch 源代码中`Linear`层的修改版本。 用`Parameter`包裹张量对于您来说似乎很奇怪，但是不必担心。 `Parameter`类将权重和偏差添加到模块参数列表中，当您调用`model.parameters()`时将可用。 初始化器将所有参数保存为对象属性。 `forward`函数的功能与我们在上一示例中的自定义线性层中完全一样。
+
+```py
+a2 = x_.matmul(w1)
+a2 = a2.add(b1)
+```
+
+在以后的章节中，我们将使用`nn.module`的更重要的函数。
+
+##### `apply()`
+
+此函数可帮助我们将自定义函数应用于模型的所有参数。 它通常用于进行自定义权重初始化，但是通常，`model_name.apply(custom_function)`对每个模型参数执行`custom_function`。
+
+##### `cuda()`和`cpu()`
+
+这些函数与我们之前讨论的目的相同。 但是，`model.cpu()`将所有参数转换为 CPU 张量，当您的模型中有多个参数并且分别转换每个参数很麻烦时，这非常方便。
+
+```py
+net = FizBuzNet(input_size, hidden_size, output_size)
+net.cpu()     # convert all parameters to CPU tensors
+net.cuda()    # convert all parameters to GPU tensors
+```
+
+在整个程序中，此决定应统一。 如果我们决定将网络保留在 GPU 上，并且如果我们通过 CPU 张量（张量的存储位于 CPU 内存中），它将无法对其进行处理。 在创建张量本身时，PyTorch 允许您通过将张量类型作为参数传递给工厂函数来执行此操作。 做出此决定的理想方法是使用 PyTorch 的内置`cuda.is_available()`函数测试 CUDA 是否可用，并相应地创建张量：
+
+```py
+if torch.cuda.is_available():
+    xtype = torch.cuda.FloatTensor
+    ytype = torch.cuda.LongTensor
+else:
+    xtype = torch.FloatTensor
+    ytype = torch.LongTensor
+x = torch.from_numpy(trX).type(xtype)
+y = torch.from_numpy(trY).type(ytype)
+```
+
+我们不止于此。 如果您已开始在 GPU 上进行操作，并且在脚本之间进行了 CPU 优化的操作，则只需调用 CPU 方法即可将 GPU 张量转换为 CPU 张量，反之亦然。 我们将在以后的章节中看到这样的例子。
+
+##### `train()`和`eval()`
+
+就像名称所示，这些函数告诉 PyTorch 模型正在训练模式或评估模式下运行。 仅在要关闭或打开模块（例如`Dropout`或`BatchNorm`）时，此函数才有效。 在以后的章节中，我们将经常使用它们。
+
+##### `parameters()`
+
+调用`parameters()`会返回所有模型参数，这对于优化程序或要使用参数进行实验非常有用。 在我们开发的新手模型中，它具有四个参数`w1`，`w2`，`b1`和`b2`，并且逐行使用梯度更新了参数。 但是，在`FizBuzNet`中，由于我们有一个模型类，并且尚未创建模型的权重和偏差，因此`.parameter()`调用是可行的方法。
+
+```py
+net = FizBuzNet(input_size, hidden_size, output_size)
+
+#building graph
+# backpropagation
+# zeroing the gradients
+
+with torch.no_grad():
+    for p in net.parameters():
+        p -= p.grad * lr
+```
+
+无需用户逐行写下的每个参数更新，我们可以归纳为`for`循环，因为`.parameters()`返回所有具有特殊张量并具有`.grad`和`.data`属性的参数。 我们有更好的方法来更新权重，但这是人们不需要像 Adam 这样的奇特更新策略时最常用和直观的方式之一。
+
+##### `zero_grad()`
+
+这是一个方便的函数，可将梯度设为零。 但是，与我们在新手模型中执行此操作的方式不同，它是一个更简单，直接的函数调用。 使用`zero_grad`驱动的模型，我们不必查找每个参数并分别调用`zero_grad`，但是对模型对象的单个调用将使所有参数的梯度为零。
+
+##### 其他层
+
+`nn`模块具有丰富的，具有不同的层，您需要使用当前的深度学习技术来构建几乎所有内容。
+
+`nn.Module`附带的一个重要层是顺序容器，如果模型的结构是连续且直接的，则它提供了一个易于使用的 API 来制作模型对象而无需用户编写类结构。 `FizBuzNet`结构为**线性 | Sigmoid | 线性 | Sigmoid**，可以通过单行代码用`Sequential`实现，这就像我们之前构建的`FizBuzNet`网络一样：
+
+```py
+import torch.nn as nn
+
+net = nn.Sequential(
+    nn.Linear(i, h),
+    nn.Sigmoid(),
+    nn.Linear(h, o),
+    nn.Sigmoid())
+```
+
+### `functional`模块
+
+`nn.functional`模块附带我们需要将网络节点连接在一起的操作。 在我们的模型中，我们使用`functional`模块中的 Sigmoid 作为非线性激活。 `functional`模块具有更多函数，例如您正在执行的所有数学函数都指向`functional`模块。 在下面的示例中，乘法运算符从`functional`模块调用`mul`运算符：
+
+```py
+>>> a = torch.randn(1,2)
+>>> b = torch.randn(2,1,requires_grad=True)
+>>> a.requires_grad
+False
+>>> b.requires_grad
+True
+>>> c = a @ b
+>>> c.grad_fn
+<MmBackward at 0x7f1cd5222c88>
+
+```
+
+`functional`模块也具有层次，但是它比`nn`提供的抽象程度小，比我们构建新手模型的方式更抽象：
+
+```py
+>>> import torch
+>>> import torch.nn.functional as F
+>>> a = torch.Tensor([[1,1]])
+>>> w1 = torch.Tensor([[2,2]])
+>>> F.linear(a,w1) == a.matmul(w1.t())
+tensor([[1]], dtype=torch.uint8)
+
+```
+
+如前面的示例所示，`F.linear`允许我们传递权重和输入，并返回与在新手模型中使用的普通`matmul`相同的值。 `functional`中的其他层函数也以相同的方式工作。
+
+#### 注意
+
+**Sigmoid 激活**：激活函数在神经网络的各层之间创建非线性。 这是必不可少的，因为在没有非线性的情况下，各层只是将输入值与权重相乘。 在那种情况下，神经网络的单层可以完成 100 层的确切函数； 这只是增加或减少权重值的问题。 Sigmoid 激活可能是最传统的激活函数。 它将输入压缩到`[0,1]`的范围。
+
+![The functional module](img/B09475_02_10.jpg)
+
+图 2.10：Sigmoid 激活
+
+尽管 sigmoid 对输入非线性作用，但它不会产生以零为中心的输出。 逐渐梯度消失和计算上昂贵的取幂是 Sigmoid 曲线的其他缺点，由于这些原因，几乎所有深度学习从业人员如今都没有在任何用例中使用 Sigmoid 曲线。 找到合适的非线性是一个主要的研究领域，人们已经提出了更好的解决方案，例如 ReLU，Leaky ReLU 和 ELU。 在以后的章节中，我们将看到其中的大多数。
+
+在`FizBuzNet`的`forward`函数内部，我们有两个线性层和两个非线性激活层。 通常，`forward`函数的输出返回是代表概率分布的对数，其中正确的类获得较高的值，但是在我们的模型中，我们从 Sigmoid 返回输出。
+
+### 损失函数
+
+现在我们有了`FizBuzNet`返回的预测，我们需要找出模型预测的水平，然后反向传播该误差。 我们调用损失函数来查找误差。 社区中普遍存在不同的损失函数。 PyTorch 带有`nn`模块中内置的所有流行损失函数。 损失函数接受对数和实际值，并在其上应用损失函数以查找损失得分。 此过程给出了错误率，该错误率代表了模型预测的好坏。 在新手模型中，我们使用了基本的 MSE 损失，已在`nn`模块中将其定义为`MSELoss()`。
+
+```py
+loss = nn.MSELoss()
+output = loss(hyp, y_)
+output.backward()
+```
+
+`nn`模块的损失比我们在以后的章节中看到的要复杂得多，但是对于我们当前的用例，我们将使用`MSELoss`。 我们用`nn.MSELoss()`创建的损失节点等效于我们在第一个示例中定义的损失：
+
+```py
+error = hyp - y_
+output = error.pow(2).sum() / 2.0
+```
+
+然后，由`loss(hyp, y_)`返回的节点将成为叶节点，我们可以在该叶节点上向后调用以找到梯度。
+
+### 优化器
+
+在新手模型中，在我们调用`backward()`之后，我们通过减去梯度的一小部分来更新权重。 我们通过显式调用权重参数来做到这一点。
+
+```py
+# updating weight
+with torch.no_grad():
+    w1 -= lr * w1.grad
+    w2 -= lr * w2.grad
+    b1 -= lr * b1.grad
+    b2 -= lr * b2.grad
+```
+
+但是，对于具有很多参数的大型模型，我们无法做到这一点。 更好的替代方法是像我们以前看到的那样循环遍历`net.parameters()`，但是这样做的主要缺点是，循环遍历了作为样板的 Python 中的参数。 此外，有不同的权重更新策略。 我们使用的是最基本的梯度下降方法。 复杂的方法可以处理学习率衰减，动量等等。 这些帮助网络比常规 SGD 更快地达到全局最小值。
+
+`optim`包是 PyTorch 提供的替代方案，可有效处理权重更新。 除此之外，一旦使用模型参数初始化了优化器对象，用户就可以在其上调用`zero_grad`。 因此，不再像以前那样显式地在每个权重和偏置参数上调用`zero_grad`。
+
+```py
+w1.grad.zero_()
+w2.grad.zero_()
+b1.grad.zero_()
+b2.grad.zero_()
+```
+
+`optim`包内置了所有流行的优化器。 在这里，我们使用完全相同的简单优化程序– `SGD`：
+
+```py
+optimizer = optim.SGD(net.parameters(), lr=lr)
+```
+
+`optimizer`对象现在具有模型参数。 `optim`包提供了一个方便的函数，称为`step()`，该函数根据优化程序定义的策略进行参数更新：
+
+```py
+for epoch in range(epochs):
+    for batch in range(no_of_batches):
+        start = batch * batches
+        end = start + batches
+        x_ = x[start:end]
+        y_ = y[start:end]
+        hyp = net(x_)
+        loss = loss_fn(hyp, y_)
+        optimizer.zero_grad()
+        loss.backward()
+        optimizer.step()
+```
+
+这是循环遍历批量并使用输入批量调用`net`的代码。 然后，将`net(x_)`返回的`hyp`与实际值`y_`一起传递给损失函数。 损失函数返回的误差用作叶子节点来调用`backward()`。 然后，我们调用`optimizer`的`step()`函数，该函数将更新参数。 更新之后，用户负责将梯度归零，这现在可以通过`optimizer.zero_grad()`实现。
+
+## 总结
+
+在本章中，我们学习了如何以最基本的方式构建简单的神经网络，并将其转换为 PyTorch 的方式。 深度学习的基本构建模块从此处开始。 一旦知道了我们遵循的方法的方式和原因，那么我们将能够采取重大措施。 任何深度学习模型，无论大小，用法或算法如何，都可以使用我们在本章中学到的概念来构建。 因此，全面理解本章对于以后的章节至关重要。 在下一章中，我们将深入研究深度学习工作流程。
+
+## 参考
+
+1.  [Fizz buzz 维基百科页面](https://en.wikipedia.org/wiki/Fizz_buzz)
+2.  [除法（数学）维基百科页面](https://en.wikipedia.org/wiki/Division_(mathematics))
+3.  Joel Grus，[《Tensorflow 中的 Fizz buzz》](http://joelgrus.com/2016/05/23/fizz-buzz-in-tensorflow/)
+4.  Ian Goodfellow，Yoshua Bengio 和 Aaron Courville，[《深度学习》](http://www.deeplearningbook.org/)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/3.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/3.md
new file mode 100644
index 00000000..98676e4d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/3.md
@@ -0,0 +1,642 @@
+# 三、深度学习工作流程
+
+尽管深度学习正在从学术界向行业发展转变，并每天为数百万用户的需求提供动力，但该领域的新参与者仍在努力建立深度学习管道的工作流程。 本章旨在介绍 PyTorch 可以帮助完成的工作流部分。
+
+PyTorch 最初是由 Facebook 实习生作为研究框架开始的，现已发展到由超级优化的 Caffe2 核心支持后端的阶段。 因此，简而言之，PyTorch 可以用作研究或原型框架，同时可以用来编写带有服务模块的有效模型，并且还可以部署到单板计算机和移动设备上。
+
+典型的深度学习工作流程始于围绕问题陈述的构想和研究，这是架构设计和模型决策发挥作用的地方。 然后使用原型对理论模型进行实验。 这包括尝试不同的模型或技术（例如跳跃连接），或决定不尝试什么。 同样，选择合适的数据集进行原型设计并将数据集的无缝集成添加到管道中对于此阶段至关重要。 一旦实现了模型并通过训练和验证集对其进行了验证，则可以针对生产服务优化该模型。 下图描述了一个五阶段的深度学习工作流程：
+
+![Deep Learning Workflow](img/B09475_03_01.jpg)
+
+图 3.1：深度学习工作流程
+
+先前的深度学习工作流程几乎等同于业内几乎每个人所实现的工作流程，即使对于高度复杂的实现，也略有不同。 本章简要说明了第一和最后一个阶段，并进入了中间三个阶段的核心，即设计和实验，模型实现以及训练和验证。
+
+工作流的最后阶段通常是人们很费劲的，尤其是在应用规模很大的情况下。 之前我曾提到，尽管 PyTorch 是作为面向研究的框架构建的，但是社区设法将 Caffe2 集成到 PyTorch 的后端，这为 Facebook 使用的数千种模型提供了支持。 因此，在第 8 章， “生产中的 PyTorch”中详细讨论了将模型交付生产的过程，并举例说明了如何使用 ONNX，PyTorch JIT 等来展示如何交付用于服务数百万个请求的 PyTorch 模型，以及将模型迁移到单板计算机和移动设备。
+
+## 构思和计划
+
+通常，在组织中，产品团队会向工程团队显示问题陈述，希望知道他们是否可以解决。 这是构想阶段的开始。 在学术界，这可能是决策阶段，在此阶段，候选人必须为其论文找到问题。 在构思阶段，工程师们集思广益并找到了可能解决问题的理论方法。 除了将问题陈述转换为理论解决方案外，构想阶段还包括确定数据类型以及应使用哪些数据集来构建**概念证明**（**POC**）或**最低可行产品**（**MVP**）。 在这个阶段，团队通过分析问题陈述的行为，现有的可用实现，可用的预先训练的模型等来决定采用哪种框架。
+
+这个阶段在行业中很常见，我有成千上万个示例，其中计划周密的构思阶段帮助团队按时推出了可靠的产品，而计划外的构思阶段破坏了整个产品的创建。
+
+## 设计与实验
+
+构建问题陈述的理论基础之后，我们进入设计和/或实验阶段，在其中通过尝试几种模型实现来构建 POC。 设计和实验的关键部分在于数据集和数据集的预处理。 对于任何数据科学项目，主要的时间份额都花在了数据清理和预处理上。 深度学习与此不同。
+
+数据预处理是构建深度学习管道的重要部分之一。 通常，不清理或格式化现实世界的数据集以供神经网络处理。 在进行进一步处理之前，需要转换为浮点数或整数，进行规范化等操作。 建立数据处理管道也是一项艰巨的任务，其中包括编写大量样板代码。 为了使其更容易，将数据集构建器和`DataLoader`管道包内置到 PyTorch 的核心中。
+
+### 数据集和`DataLoader`类
+
+不同类型的深度学习问题需要不同类型的数据集，并且每种类型的可能需要不同类型的预处理，具体取决于我们使用的神经网络架构。 这是深度学习管道构建中的核心问题之一。
+
+尽管社区已经免费提供了用于不同任务的数据集，但是编写预处理脚本几乎总是很痛苦。 PyTorch 通过提供抽象类来编写自定义数据集和数据加载器来解决此问题。 这里给出的示例是一个简单的`dataset`类，用于加载我们在第 2 章，“一个简单神经网络”中使用的`fizzbuzz`数据集，但是将其扩展来可以处理任何类型的数据集非常简单。 PyTorch 的官方文档使用类似的方法对图像数据集进行预处理，然后再将其传递给复杂的**卷积神经网络**（**CNN**）架构。
+
+PyTorch 中的`dataset`类是高级抽象，可处理数据加载程序几乎需要的所有内容。 用户定义的自定义`dataset`类需要覆盖父类的`__len__`函数和`__getitem__`函数，其中数据加载程序正在使用`__len__`来确定数据集的长度，而`__getitem__` 数据加载器正在使用该物品来获取物品。 `__getitem__`函数希望用户将索引作为参数传递，并获取驻留在该索引上的项目：
+
+```py
+from dataclasses import dataclass
+from torch.utils.data import Dataset, DataLoader
+
+@dataclass(eq=False)
+class FizBuzDataset(Dataset):
+    input_size: int
+    start: int = 0
+    end: int = 1000
+
+    def encoder(self,num):
+        ret = [int(i) for i in '{0:b}'.format(num)]
+        return[0] * (self.input_size - len(ret)) + ret
+
+    def __getitem__(self, idx):
+        idx += self.start
+		x = self.encoder(idx)
+        if idx % 15 == 0:
+            y = [1,0,0,0]
+        elif idx % 5 ==0:
+            y = [0,1,0,0]
+        elif idx % 3 == 0:
+            y = [0,0,1,0]
+        else:
+            y = [0,0,0,1]
+        return x,y
+
+    def __len__(self):
+        return self.end - self.start
+```
+
+自定义数据集的实现使用 Python 3.7 中的全新`dataclasses`。 `dataclasses`通过使用动态代码生成，有助于消除 Python 魔术函数的样板代码，例如`__init__`。 这需要代码被类型提示，这就是类中前三行的用途。 您可以在 Python 的官方文档[1]中阅读有关`dataclasses`的更多信息。
+
+`__len__`函数返回传递给该类的结束值和起始值之间的差。 在`fizzbuzz`数据集中，数据正在由程序生成。 数据生成的实现在`__getitem__`函数内部，其中，类实例根据`DataLoader`传递的索引生成数据。 PyTorch 使类抽象尽可能通用，以便用户可以定义数据加载器应为每个 ID 返回的内容。 在这种特殊情况下，类实例为每个索引返回输入和输出，其中输入`x`是索引本身的二进制编码器版本，而输出是具有四个状态的单热编码输出。 四个状态表示下一个数字是三的倍数（嘶嘶声）或五的倍数（嗡嗡声），三或五的倍数（嘶嘶声）或不是三或五的倍数。
+
+#### 注意
+
+对于 Python 新手，可以通过首先查看从 0 到数据集长度的整数循环来理解数据集的工作方式（当`len(object)`为`len(object)`时，长度由`__len__`函数返回） 称为）。 以下代码段显示了简单的循环。
+
+```py
+dataset = FizBuzDataset()
+for i in range(len(dataset)):
+    x, y = dataset[i]
+
+dataloader = DataLoader(dataset, batch_size=10, shuffle=True, num_workers=4)
+for batch in dataloader:
+    print(batch)
+```
+
+`DataLoader`类接受从`torch.utils.data.Dataset`继承的`dataset`类。 `DataLoader`接受`dataset`并执行不重要的操作，例如小批量，多线程，打乱等，以从数据集中获取数据。 它接受来自用户的`dataset`实例，并使用采样器策略以小批量的形式采样数据。
+
+`num_worker`参数决定应该操作多少个并行线程来获取数据。 这有助于避免 CPU 瓶颈，以便 CPU 可以赶上 GPU 的并行操作。 数据加载器允许用户指定是否使用固定的 CUDA 内存，这会将数据张量复制到 CUDA 的固定的内存中，然后再返回给用户。 使用固定内存是设备之间快速数据传输的关键，因为数据是由数据加载程序本身加载到固定内存中的，而无论如何，这都是由 CPU 的多个内核完成的。
+
+大多数情况下，尤其是在进行原型制作时，开发人员可能无法使用自定义数据集，在这种情况下，自定义数据集必须依赖现有的开放数据集。 处理开放数据集的好处是，大多数数据集免于许可负担，成千上万的人已经尝试过对其进行预处理，因此社区将提供帮助。 PyTorch 提出了针对所有三种类型的数据集的工具包，这些包具有经过预训练的模型，经过预处理的数据集以及与这些数据集一起使用的工具函数。
+
+### 工具包
+
+该社区针对视觉（`torchvision`），文本（`torchtext`）和音频（`torchaudio`）制作了三种不同的工具包。 它们针对不同的数据域都解决了相同的问题，并且使用户不必担心用户可能拥有的几乎所有用例中的数据处理和清理问题。 实际上，所有工具包都可以轻松地插入到可能理解或不理解 PyTorch 数据结构的任何类型的程序中。
+
+#### `torchvision`
+
+```py
+pip install torchvision
+
+```
+
+`torchvision`是 PyTorch 中最成熟，使用最多的工具包，它由数据集，预先训练的模型和预先构建的转换脚本组成。 `torchvision`具有功能强大的 API，使用户能够轻松进行数据的预处理，并且在原型阶段（甚至可能无法使用数据集）特别有用。
+
+`torchvision`的功能分为三类：预加载的，可下载的数据集，用于几乎所有类型的计算机视觉问题； 流行的计算机视觉架构的预训练模型； 以及用于计算机视觉问题的常见转换函数。 另外一个好处是，`torchvision`包的函数式 API 的简单性使用户可以编写自定义数据集或转换函数。 以下是`torchvision`包中可用的所有当前数据集的表格及其说明：
+
+| 数据集 | 描述 |
+| --- | --- |
+| MNIST | 70,000 `28 x 28`手写数字的数据集。 |
+| KMNIST | 平假名字符的排列方式与普通 MNIST 相同。 |
+| 时尚 MNIST | 类似于 MNIST 的数据集，包含 70,000 张`28 x 28`张标记的时尚图片。 |
+| EMNIST | 该数据集是一组`28 x 28`个手写字符数字。 |
+| COCO | 大规模对象检测，分割和字幕数据集。 |
+| LSUN | 类似于 COCO 的大规模“场景理解挑战”数据集。 |
+| Imagenet-12 | 2012 年大规模视觉识别挑战赛的 1400 万张图像的数据集。 |
+| CIFAR | 以 10/100 类标记的 60,000 张`32 x 32`彩色图像的数据集。 |
+| STL10 | 另一个受 CIFAR 启发的图像数据集。 |
+| SVHN | 街景门牌号码的数据集，类似于 MNIST。 |
+| PhotoTour | 华盛顿大学提供的旅游景点数据集。 |
+
+以下代码片段给出了 MNIST 数据集的一个示例。 上表中的所有数据集都需要传递一个位置参数，即要下载的数据集所在的路径，或者如果已经下载了该数据集则用于存储该数据集的路径。 数据集的返回值将打印有关数据集状态的基本信息。 稍后，我们将使用相同的数据集来启用转换，并查看数据集输出的描述性。
+
+```py
+>>> mnist = v.datasets.MNIST('.', download=True)
+Downloading …
+Processing…
+Done!
+
+>>> mnist
+Dataset MNIST
+ Number of datapoints: 60000
+ Split: train
+ Root Location: .
+ Transforms (if any): None
+ Target Transforms (if any): None
+
+```
+
+`torchvision`使用枕头（`PIL`）作为加载图像的默认后端。 但是通过方便的函数`torchvision.set_image_backend(backend)`，可以将其更改为任何兼容的后端。 `torchvision`提供的所有数据都继承自`torch.utils.data.Dataset`类，因此，已经针对其中每个实现了`__len__`和`__getitem__`。 这两个魔术函数都使所有这些数据集都能与`DataLoader`兼容，就像我们实现简单数据集并将其加载到`DataLoader`的方式一样。
+
+```py
+>>> mnist[1]
+(<PIL.Image.Image image mode=L size=28×28 at 0x7F61AE0EA518>, tensor(0))
+>>> len(mnist)
+60000
+
+```
+
+如果用户已经有需要从磁盘上的某个位置读取的图像数据该怎么办？ 传统方式是通过编写预处理脚本来循环遍历图像，并使用`PIL`或`skimage`之类的任何包加载它们，然后将其传递给 PyTorch（或任何其他框架），可能会通过 NumPy。
+
+`torchvision`对此也有解决方案。 将图像数据集以适当的目录层次结构存储在磁盘中后，`torchvision.ImageFolder`可以从目录结构本身中获取所需的信息，就像我们使用自定义脚本所做的一样，并使加载更加容易。 用户。 给定的代码段和文件夹结构显示了工作所需的简单步骤。 一旦将图像作为类名存储在层次结构中的最后一个文件夹中（图像的名称在这里并不重要），那么`ImageFolder`就会读取数据并智能地累积所需的信息：
+
+```py
+>>> images = torchvision.datasets.ImageFolder('/path/to/image/folder')
+>>> images [0]
+(<PIL.Image.Image image mode=RGB size=1198×424 at 0x7F61715D6438>, 0)
+
+/path/to/image/folder/class_a/img1.jpg
+/path/to/image/folder/class_a/img2.jpg
+/path/to/image/folder/class_a/img3.jpg
+/path/to/image/folder/class_a/img4.jpg
+
+/path/to/image/folder/class_b/img1.jpg
+/path/to/image/folder/class_b/img2.jpg
+/path/to/image/folder/class_b/img3.jpg
+
+```
+
+`torchvision`的`models`模块包装有几种常用的模型，可以直接使用。 由于当今大多数高级模型都使用迁移学习来获得其他架构学习的权重（例如，第三章中的语义分段模型使用经过训练的 resnet18 网络），因此这是模型最常用的`torchvision`功能之一。 以下代码段显示了如何从`torchvision.models`下载 resnet18 模型。 标志`pretrained`告诉`torchvision`仅使用模型或获取从 PyTorch 服务器下载的预训练模型。
+
+```py
+>>> resnet18 = torchvision.models.resnet18(pretrained=False)
+>>> resnet18 = torchvision.models.resnet18(pretrained=True)
+>>> for param in resnet18.layer1.parameters():
+ param.requires_grad = False
+
+```
+
+PyTorch 的 Python API 允许冻结用户决定使其不可训练的模型部分。 前面的代码中给出了一个示例。 循环访问`resnet18`的第 1 层参数的循环可访问每个参数的`requires_grad`属性，这是 Autograd 在反向传播以进行梯度更新时所寻找的。 将`requires_grad`设置为`False`会屏蔽`autograd`中的特定参数，并使权重保持冻结状态。
+
+`torchvision`的`transforms`模块是另一个主要参与者，它具有用于数据预处理和数据扩充的工具模块。 `transforms`模块为常用的预处理函数（例如填充，裁切，灰度缩放，仿射变换，将图像转换为 PyTorch 张量等）提供了开箱即用的实现，以及一些实现数据扩充，例如翻转，随机裁剪和色彩抖动。 `Compose`工具将多个转换组合在一起，以形成一个管道对象。
+
+```py
+transform = transforms.Compose(
+    [
+        transforms.ToTensor(),
+        transforms.Normalize(mean, std),
+    ]
+)
+```
+
+前面的示例显示了`transforms.Compose`如何将`ToTensor`和`Normalize`组合在一起以组成单个管道。 `ToTensor`将三通道输入 RGB 图像转换为尺寸为`通道×宽度×高度`的三维张量。 这是 PyTorch 中视觉网络期望的尺寸顺序。
+
+`ToTensor`还将每个通道的像素值从 0 到 255 转换为 0.0 到 1.0 的范围。 `Transforms.Normalize`是具有均值和标准差的简单归一化。 因此，`Compose`循环遍历所有转换，并使用先前转换的结果调用转换。 以下是从源代码复制的`torchvision`转换撰写的`__call__`函数：
+
+```py
+def __call__(self, img):
+    for t in self.transforms:
+        img = t(img)
+    return img
+```
+
+转换带有很多工具，并且它们在不同的情况下都非常有用。 最好阅读不断完善的`torchvision`文档，以详细了解更多功能。
+
+#### `torchtext`
+
+```py
+pip install torchtext
+
+```
+
+与其他两个工具包不同，`torchtext`保留自己的 API 结构，该结构与`torchvision`和`torchaudio`完全不同。 `torchtext`是一个非常强大的库，可以为**自然语言处理**（**NLP**）数据集执行所需的预处理任务。 它带有一组用于常见 NLP 任务的数据集，但是与`torchvision`不同，它没有可供下载的预训练网络。
+
+`torchtext`可以插入输入或输出端的任何 Python 包中。 通常，spaCy 或 NLTK 是帮助`torchtext`进行预处理和词汇加载的好选择。 `torchtext`提供 Python 数据结构作为输出，因此可以连接到任何类型的输出框架，而不仅仅是 PyTorch。 由于`torchtext`的 API 与`torchvision`或`torchaudio`不相似，并且不如其他人简单明了，因此下一个部分将通过一个示例演示`torchtext`在 NLP 中的主要作用。
+
+`torchtext`本身是一个包装器工具，而不是支持语言操作，因此这就是我在以下示例中使用 spaCy 的原因。 例如，我们使用**文本检索会议**（**TREC**）数据集，它是一个问题分类器。
+
+| 文本 | 标签 |
+| --- | --- |
+| `How do you measure earthquakes?`（您如何测量地震？） | `DESC` |
+| `Who is Duke Ellington?`（埃灵顿公爵是谁？） | `HUM` |
+
+用于此类数据集上的 NLP 任务的常规数据预处理管道包括：
+
+*   将数据集分为训练集，测试集和验证集。
+*   将数据集转换为神经网络可以理解的形式。 数值化，单热编码和词嵌入是常见的方法。
+*   批量。
+*   填充到最长序列的长度。
+
+没有像`torchtext`这样的帮助程序类，这些平凡的任务令人沮丧且无济于事。 我们将使用`torchtext`的强大 API 来简化所有这些任务。
+
+`torchtext`有两个主要模块：`Data`模块和`Datasets`模块。 如官方文档所述，`Data`模块承载了多个数据加载器，抽象和文本迭代器（包括词汇和单词向量），而`Datasets`模块则为常见的 NLP 任务预先构建了数据集。
+
+在此示例中，我们将使用`Data`模块加载以制表符分隔的数据，并使用 spaCy 的分词对其进行预处理，然后再将文本转换为向量。
+
+```py
+spacy_en = spacy.load('en')
+
+def tokenizer(text):
+    return [tok.text for tok in spacy_en.tokenizer(text)]
+
+TEXT = data.Field(sequential=True, tokenize=tokenizer, lower=True)
+LABEL = data.Field(sequential=False, use_vocab=True)
+
+train, val, test = data.TabularDataset.splits(
+    path='./data/', train='TRECtrain.tsv',
+    validation='TRECval.tsv', test='TRECtest.tsv', format='tsv',
+    fields=[('Text', TEXT), ('Label', LABEL)])
+```
+
+上一小节的第一部分在 spaCy 中加载英语，并定义了分词器函数。 下一部分是使用`torchtext.data.Field`定义输入和输出字段的位置。 `Field`类用于定义将数据加载到`DataLoader`之前的预处理步骤。
+
+在所有输入语句之间共享`Field`变量`TEXT`，并且在所有输出标签之间共享`Field`变量`LABEL`。 该示例中的`TEXT`设置为顺序的，这告诉`Field`实例数据是顺序相关的，并且分词是将其分成较小块的更好选择。 如果`sequential`设置为`False`，则不会对数据应用分词。
+
+由于`sequential`是`TEXT`的`True`，因此我们开发的分词函数设置为`tokenizer`。 该选项默认为 Python 的`str.split`，但是我们需要更智能的分词函数，而 spaCy 的分词功能可以为我们提供帮助。
+
+常规 NLP 管道所做的另一个重要修改是将所有数据转换为相同的情况。 将`lower`设置为`True`会发生这种情况，但是默认情况下是`False`。 除了示例中给出的三个参数外，`Field`类还接受许多其他参数，其中包括`fix_length`以固定序列的长度； `pad_token`，默认为`<pad>`，用于填充序列以匹配`fixed_length`或批量中最长序列的长度； 和`unk_token`（默认为`<unk>`），用于替换没有词汇向量的标记。
+
+`Field`的官方文档详细介绍了所有参数。 因为我们只有一个单词作为标签，所以`LABEL`字段的`sequential`设置为`False`。 这对于不同的实例非常方便，尤其是在语言翻译（输入和输出均为序列）的情况下。
+
+`Field`的另一个重要参数是`use_vocab`，默认情况下将其设置为`True`。 此参数告诉`Field`实例是否对数据使用词汇表生成器。 在示例数据集中，我们将输入和输出都用作单词，甚至将输出转换为单词向量也是有意义的，但是在几乎所有情况下，输出将是单编码的向量或将其数字化。 在`torchtext`不会尝试将其转换为单词嵌入词典的索引的情况下，将`use_vocab`设置为`False`很有帮助。
+
+一旦使用`Field`设置了预处理机制，我们就可以将它们与数据位置一起传递给`DataLoader`。 现在`DataLoader`负责从磁盘加载数据并将其通过预处理管道。
+
+`Data`模块带有多个`DataLoader`实例。 我们在这里使用的是`TabularDataset`，因为我们的数据是 TSV 格式。 `torchtext`的官方文档显示了其他示例，例如 JSON 加载器。 `TabularDataset`接受磁盘中数据位置的路径以及训练，测试和验证数据的名称。 这对于加载不同的数据集非常方便，因为将数据集加载到内存中的时间少于，只需少于五行代码。 如前所述，我们将之前制作的`Field`对象传递给`DataLoader`，它知道现在如何进行预处理。 `DataLoader`返回`torchtext`对象以获取训练，测试和验证数据。
+
+我们仍然必须从一些预训练的词嵌入词典构建词汇表，然后将我们的数据集转换为词典中的索引。 `Field`对象通过放弃名为`build_vocab`的 API 来实现这一点。 但是在这里，它变得有些古怪，变成了类似循环依赖的东西，但是请放心。 我们会习惯的。
+
+`Field`的`build_vocab`要求我们传递上一步中`DataSet.split`方法返回的`data`对象。 `Field`就是这样知道数据集中存在的单词，总词汇量的长度等等。 `build_vocab`方法还可以为您下载预训练的词汇向量（如果您还没有的话）。 通过`torchtext`可用的词嵌入为：
+
+*   字符 N 元组
+*   Fasttext
+*   GloVe 向量
+
+```py
+TEXT.build_vocab(train, vectors="glove.6B.50d")
+LABEL.build_vocab(train, vectors="glove.6B.50d")
+train_iter, val_iter, test_iter = data.Iterator.splits((train, val, test), sort_key=lambda x: len(x.Text),batch_sizes=(32, 99, 99), device=-1)
+
+print(next(iter(test_iter)))
+
+# [torchtext.data.batch.Batch of size 99]
+# [.Text]:[torch.LongTensor of size 16x99]
+# [.Label]:[torch.LongTensor of size 99]
+```
+
+建立词汇表后，我们可以要求`torchtext`给我们迭代器，该迭代器可以循环执行神经网络。 上面的代码片段显示了`build_vocab`如何接受参数，然后如何调用`Iterator`包的`splits`函数来为我们的训练，验证和测试数据创建三个不同的迭代器。
+
+为了使用 CPU，将`device`参数设置为`-1`。 如果是`0`，则`Iterator`会将数据加载到默认 GPU，或者我们可以指定设备编号。 批量大小期望我们传递的每个数据集的批量大小。 在这种情况下，我们具有用于训练，验证和测试的三个数据集，因此我们传递具有三个批量大小的元组。
+
+`sort_key`使用我们传递的`lambda`函数对数据集进行排序。 在某些情况下，对数据集进行排序会有所帮助，而在大多数情况下，随机性会帮助网络学习一般情况。 `Iterator`足够聪明，可以使用通过参数传递的批量大小来批量输入数据集，但是它并不止于此。 它可以动态地将所有序列填充到每批最长序列的长度。 `Iterator`的输出（如`print`语句所示）为`TEXT`数据，其大小为`16x99`，其中`99`是我们为测试数据集传递的批量大小，而 16 是该数据集的长度。 该特定批量中最长的序列。
+
+如果`Iterator`类需要更巧妙地处理事情怎么办？ 如果数据集用于语言建模，并且我们需要一个数据集来进行**时间上的反向传播**（**BPTT**），那该怎么办？ `torchtext`也为这些模块抽象了模块，这些模块继承自我们刚刚使用的`Iterator`类。 `BucketIterator`模块将序列进行更智能的分组，以便将具有相同长度的序列归为一组，并且此减少了将噪声引入数据集的不必要填充的长度。 `BucketIterator`还可以在每个周期对批量进行混洗，并在数据集中保持足够的随机性，从而使网络无法从数据集中的顺序中学习，这实际上并没有在教授任何现实世界的信息。
+
+`BPTTIterator`是从`Iterator`类继承的另一个模块，可帮助语言建模数据集，并且需要为`t`的每个输入从`t + 1`获取标签。`t`是时间。 `BPTTIterator`接受输入数据的连续流和输出数据的连续流（在翻译网络的情况下，输入流和输出流可以不同，在语言建模网络的情况下，输入流和输出流可以相同）并将其转换为迭代器，它遵循前面描述的时间序列规则。
+
+`torchtext`还保存了开箱即用的数据集。 下面是一个示例，说明访问数据集的可用版本有多么容易：
+
+```py
+>>> import torchtext
+>>> from torchtext import data
+>>> TextData = data.Field()
+>>> LabelData = data.Field()
+>>> dataset = torchtext.datasets.SST('torchtextdata', TextData, LabelData)
+>>> dataset.splits(TextData, LabelData)
+(<torchtext.datasets.sst.SST object at 0x7f6a542dcc18>, <torchtext.datasets.sst.SST object at 0x7f69ff45fcf8>, <torchtext.datasets.sst.SST object at 0x7f69ff45fc88>)
+>>> train, val, text = dataset.splits(TextData, LabelData)
+>>> train[0]
+<torchtext.data.example.Example object at 0x7f69fef9fcf8>
+
+```
+
+在这里，我们下载了 SST 情感分析数据集，并使用相同的`dataset.splits`方法来获取具有`__len__`和`__getitem__`定义为与实例相似的`data`对象。
+
+下表显示`torchtext`中当前可用的数据集以及它们特定的任务：
+
+| 数据集 | 任务 |
+| --- | --- |
+| BaBi | 问题回答 |
+| SST | 情感分析 |
+| IMDB | 情感分析 |
+| TREC | 问题分类 |
+| SNLI | 蕴涵 |
+| MultiNLI | 蕴涵 |
+| WikiText2 | 语言建模 |
+| WikiText103 | 语言建模 |
+| PennTreebank | 语言建模 |
+| WMT14 | 机器翻译 |
+| IWSLT | 机器翻译 |
+| Multi30k | 机器翻译 |
+| UDPOS | 序列标记 |
+| CoNLL2000Chunking | 序列标记 |
+
+#### `torchaudio`
+
+音频工具可能是 PyTorch 所有工具包中最不成熟的包。 无法安装在`pip`之上的事实证明了这一主张。 但是，`torchaudio`涵盖了音频域中任何问题陈述的基本用例。 此外，PyTorch 还向内核添加了一些方便的功能，例如**逆快速傅里叶变换**（**IFFT**）和**稀疏快速傅里叶变换**（**SFFT**） ，显示 PyTorch 在音频领域的进步。
+
+`torchaudio`依赖于跨平台音频格式更改器**声音交换**（**SoX**）。 一旦安装了依赖项，就可以使用 Python 设置文件从源文件中安装。
+
+```py
+python setup.py install
+
+```
+
+`torchaudio`带有两个预先构建的数据集，一些转换以及一个用于音频文件的加载和保存工具。 让我们深入探讨其中的每一个。 加载和保存音频文件总是很麻烦，并且依赖于其他几个包。 `torchaudio`通过提供简单的加载和保存函数式 API 使其变得更加容易。 `torchtext`可以加载任何常见的音频文件并将其转换为 PyTorch 张量。 它还可以对数据进行规范化和非规范化，以及以任何通用格式写回磁盘。 保存的 API 接受文件路径，并从文件路径推断输出格式，然后将其转换为该格式，然后再将其写回磁盘。
+
+```py
+>>> data, sample_rate = torchaudio.load('foo.mp3')
+>>> print(data.size())
+torch.Size([278756, 2])
+>>> print(sample_rate)
+44100
+>>> torchaudio.save('foo.wav', data, sample_rate)
+
+```
+
+与`torchvision`一样，`torchaudio`的数据集直接继承自`torch.utils.data.Dataset`，这意味着它们已经实现了`__getitem__`和`__len__`，并且与`DataLoader`兼容。 现在，`torchaudio`的`datasets`模块预先加载了两个不同的音频数据集`VCTK`和`YESNO`，它们都具有与`torchvision`的数据集相似的 API。 使用 Torch `DataLoader`加载`YESNO`数据集的示例如下：
+
+```py
+yesno_data = torchaudio.datasets.YESNO('.', download=True)
+data_loader = torch.utils.data.DataLoader(yesno_data)
+```
+
+`transforms`模块也受到`torchvision` API 的启发，借助`Compose`，我们可以将一个或多个转换包装到一个管道中。 此处提供了一个来自官方文档的示例。 它依次将`Scale`转换和`PadTrim`转换组成一个管道。 官方文档中详细说明了所有可用转换的列表。
+
+```py
+transform = transforms.Compose(
+    [
+        transforms.Scale(),
+        transforms.PadTrim(max_len=16000)
+    ]
+)
+```
+
+## 模型实现
+
+毕竟，实现模型是我们开发流程中最重要的一步。 在某种程度上，我们为此步骤构建了整个管道。 除了构建网络架构之外，我们还需要考虑许多细节来优化实现（在工作量，时间以及代码效率方面）。
+
+在本次会议中，我们将讨论 PyTorch 包本身和`ignite`（PyTorch 的推荐训练者工具）中提供的性能分析和瓶颈工具。 第一部分介绍了瓶颈和性能分析工具，当模型开始表现不佳并且您需要知道哪里出了问题时，这是必不可少的。 本课程的第二部分介绍了训练器模块`ignite`。
+
+训练器网络并不是真正必需的组件，但它是一个很好的帮助程序工具，可以节省大量时间来编写样板文件和修复错误。 有时，它可以将程序的行数减少一半，这也有助于提高可读性。
+
+#### 瓶颈和性能分析
+
+PyTorch 的 Python 优先方法阻止核心团队在的第一年建立一个单独的探查器，但是当模块开始转向 C/C++ 内核时，就很明显需要在 Python 的 cProfiler 上安装一个独立的探查器，这就是 `autograd.profiler`故事的开始。
+
+本节将提供更多的表和统计信息，而不是分步指导，因为 PyTorch 已经使概要分析尽可能简单。 对于概要分析，我们将使用在第二章中开发的相同的 *FizzBu​​zz* 模型。 尽管`autograd.profiler`可以分析图中的所有操作，但是在此示例中，仅分析了主网络的正向传播，而没有损失函数和后向通过。
+
+```py
+with torch.autograd.profiler.profile() as prof:
+    hyp = net(x_)
+
+print(prof)
+prof.export_chrome_trace('chrometrace')
+print(prof.key_averages())
+print(prof.table('cpu_time'))
+```
+
+第一个`print`语句只是以表格形式吐出`t`概要文件输出，而第二个`print`语句将 op 节点分组在一起并平均一个特定节点所花费的时间。 在下面的屏幕快照中显示了该内容：
+
+![Bottleneck and profiling](img/B09475_03_02.jpg)
+
+图 3.2：按名称分组的`autograd.profiler`输出
+
+下一个`print`语句基于作为参数传递的头按升序对数据进行排序。 该有助于找到需要更多时间的节点，并可能提供某种方式来优化模型。
+
+![Bottleneck and profiling](img/B09475_03_03.jpg)
+
+图 3.3：`autograd.profiler`输出按 CPU 时间排序
+
+最后一个`print`语句只是可视化 Chrome 跟踪工具执行时间的另一种方式。 `export_chrome_trace`函数接受文件路径，并将输出写入 Chrome 跟踪器可以理解的文件：
+
+![Bottleneck and profiling](img/B09475_03_04.jpg)
+
+图 3.4：`autograd.profiler`输出转换为 chrometrace
+
+但是，如果用户需要结合使用`autograd.profiler`和 cProfiler（这将使我们在多个节点操作之间实现简洁的关联），或者用户仅需要调用另一个工具而不是更改用于获取配置文件的源代码， 信息是瓶颈。 瓶颈是 Torch 工具，可以从命令行作为 Python 模块执行：
+
+```py
+python -m torch.utils.bottleneck /path/to/source/script.py [args]
+
+```
+
+瓶颈可以找到有关环境的更多信息，还可以从`autograd.profiler`和 cProfiler 提供配置文件信息。 但是对于两者而言，瓶颈都会两次执行该程序，因此减少的周期数是使程序在相当长的时间内停止执行的一个好选择。 我在第二章的同一程序上使用了瓶颈，这是输出屏幕：
+
+![Bottleneck and profiling](img/B09475_03_05.jpg)
+
+图 3.5：环境摘要上的瓶颈输出
+
+![Bottleneck and profiling](img/B09475_03_06.jpg)
+
+图 3.6：瓶颈输出显示`autograd.profiler`
+
+![Bottleneck and profiling](img/B09475_03_07.jpg)
+
+图 3.7：瓶颈输出显示 cProfile 输出
+
+## 训练和验证
+
+尽管工作流实际上以将深度模型的部署到生产中而结束，但我们已经到达深度学习工作的最后一步，我们将在第 8 章和“PyTorch 投入生产”。 在完成所有预处理和模型构建之后，现在我们必须训练网络，测试准确率并验证可靠性。 在开源世界（甚至在本书中）中，我们看到的大多数现有代码实现都使用直接方法，在该方法中，我们明确编写了训练，测试和验证所需的每一行，以提高可读性，因为可以避免样板的特定工具会增加学习曲线，尤其是对于新手。 很显然，对于那些每天都在使用神经网络的程序员来说，可以避免样板的工具将是一个救生员。 因此，PyTorch 社区构建的不是一个而是两个工具：Torchnet 和 Ignite。 本次会议仅与点燃有关，因为它被发现比 Torchnet 更为有用和抽象，但两者都是积极开发的工具，有可能在不久的将来合并。
+
+### Ignite
+
+Ignite 是一种神经网络训练工具，可将某些样板代码抽象出来，以使代码简洁明了。 Ignite 的核心是`Engine`模块。 该模块非常强大，因为：
+
+*   它基于默认/自定义训练器或评估者运行模型。
+*   它可以接受处理器和指标，并对其执行操作。
+*   它可以创建触发器并执行回调。
+
+#### `Engine`
+
+`Engine`接受一个训练器函数，该函数实质上是用于训练神经网络算法的典型循环。 它包括循环遍历，循环遍历，将现有梯度值归零，使用批量调用模型，计算损失以及更新梯度。 以下示例显示了这一点，该示例取自第 2 章和“简单神经网络”：
+
+```py
+for epoch in range(epochs):
+    for x_batch, y_batch in dataset:
+        optimizer.zero_grad()
+        hyp = net(x_batch)
+        loss = loss_fn(hyp, y_batch)
+        loss.backward()
+        optimizer.step()
+```
+
+`Engine`可以帮助您避免前两个循环，并且如果您定义了需要执行其余代码的函数，它将为您完成。 以下是与`Engine`兼容的先前代码段的重写版本：
+
+```py
+def training_loop(trainer, batch)
+    x_batch, y_batch = process_batch(batch)
+    optimizer.zero_grad()
+    hyp = net(x_batch)
+    loss = loss_fn(hyp, y_batch)
+    loss.backward()
+    optimizer.step()
+
+trainer = Engine(training_loop)
+```
+
+这很聪明，但这并没有节省用户大量时间，也没有兑现承诺，例如删除样板。 它所做的只是删除两个`for`循环并添加`Engine`对象创建的另一行。 这并不是 Ignite 的真正目的。 Ignite 尝试同时使编码变得有趣且灵活，从而有助于避免重复样板。
+
+Ignite 提供了一些常用函数，例如有监督的训练或有监督的评估，并且还使用户可以灵活地定义自己的训练函数，例如训练 GAN，**强化学习**（**RL**）算法，依此类推。
+
+```py
+from ignite.engine import create_supervised_trainer, create_supervised_evaluator
+
+epochs = 1000
+train_loader, val_loader = get_data_loaders(train_batch_size, val_batch_size)
+trainer = create_supervised_trainer(model, optimizer, F.nll_loss)
+evaluator = create_supervised_evaluator(model)
+trainer.run(train_loader, max_epochs=epochs)
+evaluator.run(val_loader)
+```
+
+函数`create_supervised_trainer`和`create_supervised_evaluator`返回一个`Engine`对象，该对象具有类似于`training_loop`的函数来执行代码的公共模式，如先前给出的那样。 除了给定的参数，这两个函数还接受一个设备（CPU 或 GPU），该设备返回在我们指定的设备上运行的训练器或评估器`Engine`实例。 现在情况越来越好了吧？ 我们传递了定义的模型，所需的优化器以及正在使用的损失函数，但是在有了训练器和`evaluator`对象之后我们该怎么办？
+
+`Engine`对象定义了`run`方法，该方法使循环根据传递给`run`函数的周期和加载器开始执行。 与往常一样，`run`方法使`trainer`循环从零到周期数。 对于每次迭代，我们的训练器都会通过加载程序进行梯度更新。
+
+训练完成后，`evaluator`与`val_loader`开始，并通过使用评估数据集运行相同的模型来确保情况得到改善。
+
+那很有趣，但仍然缺少一些片段。 如果用户需要在每个周期之后运行`evaluator`，或者如果用户需要训练器将模型的精度打印到终端，或者将其绘制到 Visdom，Turing 或 Network 图上，该怎么办？ 在前面的设置中，有没有办法让知道验证准确率是什么？ 您可以通过覆盖`Engine`的默认记录器来完成大部分操作，该记录器本质上是保存在`trainer_logger`变量中的 Python 记录器，但实际的答案是事件。
+
+#### 事件
+
+Ignite 打开了一种通过事件或触发器与循环进行交互的特殊方式。 当事件发生并执行用户在函数中定义的操作时，每个设置函数都会触发。 这样，用户就可以灵活地设置任何类型的事件，并且通过避免将那些复杂的事件写入循环中并使循环变得更大且不可读，从而使用户的生活变得更加轻松。 `Engine`中当前可用的事件是：
+
+*   `EPOCH_STARTED`
+*   `EPOCH_COMPLETED`
+*   `STARTED`
+*   `COMPLETED`
+*   `ITERATION_STARTED`
+*   `ITERATION_COMPLETED`
+*   `EXCEPTION_RAISED`
+
+在这些事件上设置函数触发器的最佳和推荐方法是使用 Python 装饰器。 训练器的`on`方法接受这些事件之一作为参数，并返回一个装饰器，该装饰器设置要在该事件上触发的自定义函数。 这里给出了一些常见事件和用例：
+
+```py
+@trainer.on(Events.ITERATION_COMPLETED)
+def log_training_loss(engine):
+    epoch = engine.state.epoch
+    iteration = engine.state.iteration
+    loss = engine.state.output
+    print("Epoch:{epoch} Iteration:{iteration} Loss: {loss}")
+
+@trainer.on(Events.EPOCH_COMPLETED)
+def run_evaluator_on_training_data(engine):
+    evaluator.run(train_loader)
+
+@trainer.on(Events.EPOCH_COMPLETED)
+def run_evaluator_on_validation_data(engine):
+    evaluator.run(val_loader)
+```
+
+到目前为止，我必须已经使您相信 Ignite 是工具箱中的必备工具。 在前面的示例中，已为三个事件设置了`@trainer.on`装饰器； 实际上，在两个事件上，我们在`EPOCH_COMPLETED`事件上设置了两个函数。 使用第一个函数，我们可以将训练状态打印到终端上。 但是有些事情我们还没有看到。 状态是`Engine`用来保存有关执行信息的`state`变量。 在示例中，我们看到状态保存了有关周期，迭代乃至输出的信息，这实际上是训练循环的损失。 `state`属性包含周期，迭代，当前数据，指标（如果有）（我们将很快了解指标）； 调用`run`函数时设置的最大周期，以及`training_loop`函数的输出。
+
+##### 注意
+
+**注意**：在`create_supervised_trainer`的情况下，`training_loop`函数返回损失，在`create_supervised_evaluator`的情况下，`training_loop`函数返回模型的输出。 但是，如果我们定义一个自定义`training_loop`函数，则此函数返回的内容将是`Engine.state.output`保留的内容。
+
+第二和第三事件处理器正在`EPOCH_COMPLETED`上运行`evaluator`，但具有不同的数据集。 在第一个函数中，`evaluator`使用训练数据集，在第二个函数中，它使用评估数据集。 太好了，因为现在我们可以在每个周期完成时运行`evaluator`，而不是像第一个示例那样在整个执行结束时运行。 但是，除了运行它之外，处理器实际上并没有做任何事情。 通常，这里是我们检查平均准确率和平均损失的地方，并且我们会进行更复杂的分析，例如混淆度量的创建，我们将在后面看到。 但是，目前的主要收获是：可以为单个事件设置`n`处理器数量，Ignite 会毫不犹豫地依次调用所有这些处理器。 接下来是事件的内部`_fire_event`函数，该事件在`training_loop`函数的每个事件中触发。
+
+```py
+def _fire_event(self, event_name, *event_args):
+    if event_name in self._event_handlers.keys():
+        self._logger.debug("firing handlers for event %s", event_name)
+        for func, args, kwargs in self._event_handlers[event_name]:
+            func(self, *(event_args + args), **kwargs)
+```
+
+在下一节中，我们将使`EPOCH_COMPLETED`事件处理器使用 Ignite 的指标进行更明智的操作。
+
+#### 指标
+
+就像`Engine`一样，指标也是 Ignite 源代码的重要组成部分，源代码正在不断发展。 度量将用于分析神经网络的表现和效率的几种常用度量包装为`Engine`可以理解的简单可配置类。 接下来给出当前构建的指标。 我们将使用其中一些来构建前面的事件处理器：
+
+*   `Accuracy`
+*   `Loss`
+*   `MeanAbsoluteError`
+*   `MeanPairwiseDistance`
+*   `MeanSquaredError`
+*   `Precision`
+*   `Recall`
+*   `RootMeanSquaredError`
+*   `TopKCategoricalAccuracy`
+*   `RunningAverageŁ`
+*   `IoU`
+*   `mIoU`
+
+Ignite 具有父`metrics`类，该类由列表中的所有类继承。 可以通过将词典对象传递给用户，该词典对象以用户可读的名称作为键，并将先前类之一的实例化对象作为值传递给`Engine`创建调用，以完成设置指标。 因此，我们现在使用指标重新定义`evaluator`的创建。
+
+```py
+metrics = {'accuracy': CategoricalAccuracy(), 'null': Loss(F.null_loss)}
+evaluator = create_supervised_evaluator(model, metrics=metrics)
+```
+
+`Engine`的初始化器获取指标，并调用`Metrics.attach`函数来设置触发器，以计算`EPOCH_STARTED`，`ITERATION_COMPLETED`和`EPOCH_COMPLETED`的指标。 来自`Metrics`源代码的`attach`函数如下：
+
+```py
+def attach(self, engine, name):
+    engine.add_event_handler(Events.EPOCH_STARTED, self.started)
+    engine.add_event_handler(Events.ITERATION_COMPLETED, self.iteration_completed)
+    engine.add_event_handler(Events.EPOCH_COMPLETED, self.completed, name)
+```
+
+通过`Engine`设置事件处理器后，事件发生时将自动调用它们。 `EPOCH_STARTED`事件通过调用`reset()`方法来清理指标，并使存储对于当前周期指标集合保持干净。
+
+`ITERATION_COMPLETED`触发器将调用相应指标的`update()`方法并进行指标更新。 例如，如果度量等于损失，则它会在创建`Engine`时调用我们作为参数传递给`Loss`类的损失函数来计算当前损失。 然后将计算出的损失保存到对象变量中，以备将来使用。
+
+`EPOCH_COMPLETED`事件将是最终事件，它将使用`ITERATION_COMPLETED`中更新的内容来计算最终指标得分。 一旦将`metrics`字典作为参数传递给`Engine`创建，所有这些都将作为流在用户不知道的情况下发生。 以下代码段显示了用户如何在运行`evaluator`的`EPOCH_COMPLETED`触发器上取回此信息：
+
+```py
+@trainer.on(Events.EPOCH_COMPLETED)
+def run_evaluator_on_validation_data(engine):
+    evaluator.run(val_loader)
+    metrics = evaluator.state.metrics
+    avg_accuracy = metrics['accuracy']
+    avg_null = metrics['nll']
+    print(f"Avg accuracy: {avg_accuracy} Avg loss: {avg_nll}")
+```
+
+`metrics`状态以与最初传递的用户同名的名称保存在`Engine`状态变量中，作为字典，并以输出作为值。 Ignite 只是为用户提供了整个流程流畅和无缝的接口，因此用户不必担心编写所有普通代码。
+
+#### 保存检查点
+
+使用 Ignite 的另一个好处是检查点保存功能，PyTorch 中不提供此功能。 人们想出了不同的方法来有效地编写和加载检查点。 `EngineCheckpoint`是 Ignite 处理器的一部分，可以这样导入：
+
+```py
+from ignite.handlers import EngineCheckpoint
+```
+
+Ignite 的检查点保护程序具有非常简单的 API。 用户需要定义检查点的保存位置，检查点的保存频率以及除默认参数（如迭代计数，用于恢复操作的周期数）以外的对象要保存的内容。 在该示例中，我们为每一百次迭代检查点。 然后可以将定义的值作为参数传递给`EngineCheckpoint`模块，以获取检查点事件处理器对象。
+
+返回的处理器具有常规事件处理器的所有功能，并且可以为 Ignite 触发的任何事件进行设置。 在以下示例中，我们将其设置为`ITERATION_COMPLETED`事件：
+
+```py
+dirname = 'path/to/checkpoint/directory'
+objects_to_checkpoint = {"model": model, "optimizer": optimizer}
+engine_checkpoint = EngineCheckpoint(dirname=dirname,to_save=objects_to_checkpoint,save_interval=100)
+trainer.add_event_handler(Events.ITERATION_COMPLETED, engine_checkpoint)
+```
+
+触发器在每个`ITERATION_COMPLETED`事件上调用处理器，但是我们只需要为每百次迭代保存一次即可，并且 Ignite 没有用于自定义事件的方法。 Ignite 通过为用户提供在处理器内部进行此检查的灵活性来解决此问题。 对于检查点处理器，Ignite 在内部检查当前完成的迭代是否为百分之一，并仅在检查通过后才保存该迭代，如以下代码片段所示：
+
+```py
+if engine.state.iteration % self.save_interval !=0:
+    save_checkpoint()
+```
+
+可以使用`torch.load('checkpont_path')`加载保存的检查点。 这将为您提供具有模型和优化器的字典`objects_to_checkpoint`。
+
+## 总结
+
+本章都是关于如何为深度学习开发建立基础管道的。 我们在本章中定义的系统是一种非常普遍/通用的方法，其后是不同类型的公司，但略有变化。 从这样的通用工作流程开始的好处是，随着团队/项目的发展，您可以构建一个非常复杂的工作流程。
+
+同样，在开发的早期阶段拥有工作流本身将使您的冲刺稳定且可预测。 最后，工作流中各个步骤之间的划分有助于定义团队成员的角色，为每个步骤设置截止日期，尝试有效地将每个步骤容纳在 sprint 中以及并行执行这些步骤。
+
+PyTorch 社区正在制作不同的工具和工具包以整合到工作流中。 `ignite`，`torchvision`，`torchtext`，`torchaudio`等是这样的示例。 随着行业的发展，我们可以看到很多此类工具的出现，可以将其安装到此工作流的不同部分中，以帮助我们轻松地对其进行迭代。 但最重要的部分是：从一个开始。
+
+在下一章中，我们将探讨计算机视觉和 CNN。
+
+## 参考
+
+1.  [`dataclasses`的 Python 官方文档](https://docs.python.org/3/library/dataclasses.html)
+2.  Ignite 部分中使用的示例均受 Ignite [官方示例](https://github.com/pytorch/ignite/blob/master/examples/mnist/mnist.py)的启发
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/4.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/4.md
new file mode 100644
index 00000000..a0ddb6cb
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/4.md
@@ -0,0 +1,586 @@
+# 四、计算机视觉
+
+计算机视觉是使计算机具有视觉效果的工程流。 它支持各种图像处理，例如 iPhone，Google Lens 等中的人脸识别。 计算机视觉已经存在了几十年，可能最好在人工智能的帮助下进行探索，这将在本章中进行演示。
+
+几年前，我们在 ImageNet 挑战中达到了计算机视觉的人类准确率。 在过去的十年中，计算机视觉发生了巨大的变化，从以学术为导向的对象检测问题到在实际道路上自动驾驶汽车使用的分割问题。 尽管人们提出了许多不同的网络架构来解决计算机视觉问题，但是**卷积神经网络**（**CNN**）击败了所有这些。
+
+在本章中，我们将讨论基于 PyTorch 构建的基本 CNN，以及它们的变体，它们已经成功地应用于一些为大公司提供支持的最新模型中。
+
+## CNN 简介
+
+CNN 是具有数十年历史的机器学习算法，直到 Geoffrey Hinton 和他的实验室提出 AlexNet 时，才证明其功能强大。 从那时起，CNN 经历了多次迭代。 现在，我们在 CNN 之上构建了一些不同的架构，这些架构为世界各地的所有计算机视觉实现提供了动力。
+
+CNN 是一种基本上由小型网络组成的网络架构，几乎类似于第 2 章，“简单神经网络”中引入的简单前馈网络，但用于解决图像作为输入的问题。 CNN 由神经元组成，这些神经元具有非线性，权重参数，偏差并吐出一个损失值，基于该值，可以使用反向传播对整个网络进行重新排列。
+
+如果这听起来像简单的全连接网络，那么 CNN 为何特别适合处理图像？ CNN 让开发人员做出适用于图像的某些假设，例如像素值的空间关系。
+
+简单的全连接层具有更大的权重，因为它们存储信息以处理所有权重。 全连接层的另一个功能使其无法进行图像处理：它不能考虑空间信息，因为它在处理时会删除像素值的顺序/排列结构。
+
+CNN 由几个三维核组成，它们像滑动窗口一样在输入张量中移动，直到覆盖整个张量为止。 核是三维张量，其深度与输入张量的深度（在第一层中为 3；图像的深度在 RGB 通道中）相同。 核的高度和宽度可以小于或等于输入张量的高度和宽度。 如果核的高度和宽度与输入张量的高度和宽度相同，则其设置与正常神经网络的设置非常相似。
+
+每次核通过输入张量移动时，它都可能吐出单个值输出，该输出会经历非线性。 当核作为滑动窗口移动时，核从输入图像覆盖的每个插槽都将具有此输出值。 滑动窗口的移动将创建输出特征映射（本质上是张量）。 因此，我们可以增加核数量以获得更多的特征映射，并且从理论上讲，每个特征映射都能够保存一种特定类型的信息。
+
+![Introduction to CNNs](img/B09075_04_01.jpg)
+
+图 4.1：不同的层显示不同的信息
+
+来源：《可视化和理解卷积网络》，Matthew D. Zeiler 和 Rob Fergus
+
+由于使用了相同的核来覆盖整个图像，因此我们正在重用核参数，从而减少了参数数量。
+
+CNN 实质上会降低`x`和`y`轴（高度和宽度）中图像的尺寸，并增加深度（`z`轴）。`z`轴上的每个切片都是一个如上所述的特征映射，由每个多维核创建。
+
+CNN 中的降级有助于 CNN 的位置不变。 位置不变性可帮助其识别图像不同部分中的对象。 例如，如果您有两只猫的图像，其中一只猫在一张图像的左侧，另一只猫在右侧，那么您希望您的网络从这两幅图像中识别出这只猫，对吗？
+
+CNN 通过两种机制实现位置不变：跨步和合并。 步幅值决定了滑动窗口的运动程度。 池化是 CNN 的固有部分。 我们有三种主要的池化类型：最大池化，最小池化和平均池化。 在最大池化的情况下，池化从输入张量的子块中获取最大值，在最小池化的情况下从池中获取最小值，而在平均池化的情况下，池化将取所有值的平均值。 池化层和卷积核的输入和输出基本相同。 两者都作为滑动窗口在输入张量上移动并输出单个值。
+
+接下来是 CNN 运作方式的描述。 要更深入地了解 CNN，请查看斯坦福大学的 CS231N。 或者，如果您需要通过动画视频快速介绍 CNN，Udacity [1]提供了很好的资源。
+
+![Introduction to CNNs](img/B09075_04_02.jpg)
+
+图 4.2：一个 CNN
+
+建立完整的 CNN 网络有四种主要操作类型：
+
+*   卷积层
+*   非线性层
+*   池化层
+*   全连接层
+
+## 使用 PyTorch 的计算机视觉
+
+PyTorch 为计算机视觉提供了几个便捷函数，其中包括卷积层和池化层。 PyTorch 在`torch.nn`包下提供`Conv1d`，`Conv2d`和`Conv3d`。 听起来，`Conv1d`处理一维卷积，`Conv2d`处理带有图像之类输入的二维卷积，`Conv3d`处理诸如视频之类的输入上的三维卷积。 显然，这很令人困惑，因为指定的尺寸从未考虑输入的深度。 例如，`Conv2d`处理四维输入，其中第一维将是批量大小，第二维将是图像的深度（在 RGB 通道中），最后两个维将是图像的高度和宽度。 图片。
+
+除了用于计算机视觉的高层函数之外，`torchvision`还具有一些方便的工具函数来建立网络。 在本章中，我们将探讨其中的一些。
+
+本章使用两个神经网络应用说明 PyTorch：
+
+*   **简单 CNN**：用于对 CIFAR10 图像进行分类的简单神经网络架构
+*   **语义分割**：使用来自简单 CNN 的概念进行语义分割的高级示例
+
+### 简单 CNN
+
+我们正在开发 CNN 以执行简单的分类任务。 使用简单 CNN 的想法是为了了解 CNN 的工作原理。 弄清基础知识后，我们将转到高级网络设计，在其中使用高级 PyTorch 函数，该函数与该应用具有相同的功能，但效率更高。
+
+我们将使用 CIFAR10 作为输入数据集，它由 10 类 60,000 张`32x32`彩色图像组成，每类 6,000 张图像。 `torchvision`具有更高级别的函数，可下载和处理数据集。 如我们在第 3 章，“深度学习工作流”中看到的示例一样，我们下载数据集，然后使用转换对其进行转换，并将其包装在`get_data()`函数下。
+
+```py
+def get_data():
+    transform = transforms.Compose(
+        [transforms.ToTensor(),
+         transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
+    trainset = torchvision.datasets.CIFAR10(
+        root='./data', train=True, download=True, transform=transform)
+    trainloader = torch.utils.data.DataLoader(
+        trainset, batch_size=100, shuffle=True, num_workers=2)
+
+    testset = torchvision.datasets.CIFAR10(
+        root='./data', train=False, download=True, transform=transform)
+    testloader = torch.utils.data.DataLoader(
+        testset, batch_size=100, shuffle=False, num_workers=2)
+    return trainloader, testloader
+```
+
+函数的第一部分对来自 CIFAR10 数据集的 NumPy 数组进行转换。 首先将其转换为 Torch 张量，然后进行归一化转换。 `ToTensor`不仅将 NumPy 数组转换为 Torch 张量，而且还更改了维度的顺序和值的范围。
+
+PyTorch 的所有更高层 API 都希望通道（张量的深度）成为批量大小之后的第一维。 因此，形状`(高度 x 宽度 x 通道 (RGB))`在`[0, 255]`范围内的输入将转换为形状`(通道 (RGB) x 高度 x 宽度)`在`[0.0, 1.0]`之间的`torch.FloatTensor`。 然后，将每个通道（RGB）的平均值和标准差设置为 0.5，进行标准化。 `torchvision`转换完成的规范化操作与以下 Python 函数相同：
+
+```py
+def normalize(image, mean, std):
+    for channel in range(3):
+        image[channel] = (image[channel] - mean[channel]) / std[channel]
+```
+
+`get_data()`返回经过测试的可迭代迭代器和训练装载器。 现在数据已经准备好了，我们需要像建立 *FizBuzz* 网络时那样，设置模型，损失函数和优化器。
+
+##### 模型
+
+`SimpleCNNModel`是从 PyTorch 的`nn.Module`继承的模型类。 这是使用其他自定义类和 PyTorch 类来设置架构的父类。
+
+```py
+class SimpleCNNModel(nn.Module):
+    """ A basic CNN model implemented with the the basic building blocks """
+
+    def __init__(self):
+        super().__init__()
+        self.conv1 = Conv(3, 6, 5)
+        self.pool = MaxPool(2)
+        self.conv2 = Conv(6, 16, 5)
+        self.fc1 = nn.Linear(16 * 5 * 5, 120)
+        self.fc2 = nn.Linear(120, 84)
+        self.fc3 = nn.Linear(84, 10)
+
+    def forward(self, x):
+        x = self.pool(F.relu(self.conv1(x)))
+        x = self.pool(F.relu(self.conv2(x)))
+        x = x.view(-1, 16 * 5 * 5)
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+```
+
+该模型具有由最大池化层分隔的两个卷积层。 第二个卷积层连接到三个全连接层，一个接一个，将十个类的分数吐出来。
+
+我们为`SimpleCNNModel`构建了自定义卷积和最大池化层。 定制层可能是实现这些层的效率最低的方法，但是它们具有很高的可读性和易于理解性。
+
+```py
+class Conv(nn.Module):
+    """
+    Custom conv layer
+    Assumes the image is squre
+    """
+
+    def __init__(self, in_channels, out_channels, kernel_size, stride=1, padding=0):
+        super().__init__()
+        self.kernel_size = kernel_size
+        self.stride = stride
+        self.padding = padding
+        self.weight = Parameter(torch.Tensor(out_channels, in_channels, kernel_size, kernel_size))
+        self.bias = Parameter(torch.zeros(out_channels))
+```
+
+图像上的卷积运算使用过滤器对输入图像进行乘法和加法运算，并创建单个输出值。 因此，现在我们有了一个输入映像和一个核。 为简单起见，让我们考虑输入图像为大小为`7x7`的单通道（灰度）图像，并假设核的大小为`3x3`，如下图所示。 我们将核的中间值称为锚点，因为我们将锚点保留在图像中的某些值上进行卷积。
+
+![Model](img/B09475_04_03.jpg)
+
+图 4.3a
+
+![Model](img/B09475_04_04.jpg)
+
+图 4.3b
+
+我们通过将核锚定在图像的左上像素开始卷积，如图“图 4.3b”所示。 现在，我们将图像中的每个像素值与相应的核值相乘，然后将所有像素值相加，得到一个值。 但是我们有一个要处理的问题。 核的顶行和左列将乘以什么？ 为此，我们介绍了填充。
+
+我们在输入张量的外侧添加行和列，其值为零，以便核中的所有值在输入图像中都有一个对应的值要配对。 我们从乘法中得到的单个值和加法运算是我们对该实例进行的卷积运算的输出。
+
+现在，我们将核右移一个像素，然后像滑动窗口一样再次执行该操作，并重复此操作，直到覆盖图像为止。 我们可以从每个卷积运算中获得的每个输出一起创建该层的特征映射或输出。 下面的代码片段在最后三行中完成了所有这些操作。
+
+PyTorch 支持普通的 Python 索引，我们使用它来为特定迭代查找滑动窗口所在的插槽，并将其保存到名为`val`的变量中。 但是索引创建的张量可能不是连续的内存块。 通过使用`view()`不能更改非连续存储块张量，因此我们使用`contiguous()`方法将张量移动到连续块。 然后，将该张量与核（权重）相乘，并对其添加偏倚。 然后将卷积运算的结果保存到`out`张量，将其初始化为零作为占位符。 预先创建占位符并向其中添加元素比最后在一组单个通道上进行堆叠要高效一个数量级。
+
+```py
+out = torch.zeros(batch_size, new_depth, new_height, new_width)
+        padded_input = F.pad(x, (self.padding,) * 4)
+        for nf, f in enumerate(self.weight):
+            for h in range(new_height):
+                for w in range(new_width):
+                    val = padded_input[:, :, h:h + self.kernel_size, w:w + self.kernel_size]
+                    out[:, nf, h, w] = val.contiguous().view(batch_size, -1) @ f.view(-1)
+                    out[:, nf, h, w] += self.bias[nf]
+```
+
+PyTorch 中的`functional`模块具有帮助我们进行填充的方法。 `F.pad`接受每一侧的输入张量和填充大小。 在这种情况下，我们需要对图像的所有四个边进行恒定的填充，因此我们创建了一个大小为 4 的元组。 如果您想知道填充的工作原理，下面的示例显示在对大小为`(2, 2, 2, 2)`的大小`(1, 1)`的张量进行`F.pad`后将大小更改为`(5, 5)`。
+
+```py
+>>> F.pad(torch.zeros(1,1), (2,) * 4)
+Variable containing:
+0 0 0 0 0
+0 0 0 0 0
+0 0 0 0 0
+0 0 0 0 0
+0 0 0 0 0
+[torch.FloatTensor of size (5,5)]
+
+```
+
+如您所知，如果我们使用大小为`1 x 1 x 深度`的核，则通过对整个图像进行卷积，将获得与输入相同大小的输出。 在 CNN 中，如果我们想减小输出的大小而与核的大小无关，我们将使用一个不错的技巧通过跨步来对输出的大小进行下采样。 “图 4.4”显示了步幅减小对输出大小的影响。 以下公式可用于计算输出的大小以及核的大小，填充宽度和步幅。
+
+`W = (WF + 2P) / S + 1`，其中`W`是输入大小，`F`是核大小，`S`跨步应用`P`填充。
+
+![Model](img/B09475_04_05.jpg)
+
+图 4.4：左步幅为 1
+
+我们建立的卷积层没有进行跨步的能力，因为我们使用最大池进行了下采样。 但是在高级示例中，我们将使用 PyTorch 的卷积层，该层在内部处理跨步和填充。
+
+前面的示例使用了一个单通道输入并创建了一个单通道输出。 我们可以将其扩展为使用`n`个输入通道来创建`n`个输出通道，这是卷积网络的基本构建块。 通过进行两次更改，可以推断出相同的概念以处理任意数量的输入通道以创建任意数量的输出通道：
+
+*   由于输入图像具有多个通道，因此用于与相应元素相乘的核必须为`n`维。 如果输入通道为三个，并且核大小为五个，则核形状应为`5 x 5 x 3`。
+*   但是，如何创建`n`个输出通道？ 现在我们知道，不管输入通道有多少，一次卷积都会创建一个单值输出，而完整的滑动窗口会话会创建一个二维矩阵作为输出。 因此，如果我们有两个核做完全相同的事情，那就是：滑动输入并创建二维输出。 然后，我们将获得两个二维输出，并将它们堆叠在一起将为我们提供具有两个通道的输出。 随着输出中需要更多通道，我们增加了核数量。
+
+我们拥有的自定义卷积层可以完成卷积。 它接受输入和输出通道的数量，核大小，步幅和填充作为参数。 核的形状为`[kernel_size, kernel_size, input_channels]`。 我们没有创建`n`个核并将输出堆叠在一起以获得多通道输出，而是创建了一个大小为`output_channel, input_channel, kernal_size, kernal_size`的单个权重张量，这给出了我们想要的。
+
+在所有池化选项中，人们倾向于使用最大池化。 合并操作采用张量的一个子部分，并获取单个值作为输出。 最大池从概念上讲获取该子部件的突出特征，而平均池则取平均值并平滑该特征。 而且，从历史上看，最大池化比其他池化算法提供更好的结果，可能是因为它从输入中获取最突出的特征并将其传递到下一个级别。 因此，我们也使用最大池。 定制的最大池化层具有相同的结构，但是复杂的卷积操作由简单的最大操作代替。
+
+```py
+out = torch.zeros(batch_size, depth, new_height, new_width)
+for h in range(new_height):
+    for w in range(new_width):
+        for d in range(depth):
+            val = x[:, d, h:h + self.kernel_size, w:w + self.kernel_size]
+            out[:, d, h, w] = val.max(2)[0].max(1)[0]
+```
+
+PyTorch 的`max()`方法接受尺寸作为输入，并返回具有索引/索引到最大值和实际最大值的元组。
+
+```py
+>>> tensor
+1 2
+3 4
+[torch.FloatTensor of size 2x2]
+>>> tensor.max(0)[0]
+3
+4
+[torch.FloatTensor of size 2]
+>>> tensor.max(0)[1]
+1
+1
+[torch.LongTensor of size 2]
+
+```
+
+例如，前面示例中的`max(0)`返回一个元组。 元组中的第一个元素是张量，其值为 3 和 4，这是第 0 维的最大值；另一个张量，其值为 1 和 1，是该维的 3 和 4 的索引。 最大池化层的最后一行通过采用第二维的`max()`和第一维的`max()`来获取子部件的最大值。
+
+卷积层和最大池化层之后是三个线性层（全连接），这将维数减小到 10，从而为每个类给出了概率得分。 接下来是 PyTorch 模型存储为实际网络图的字符串表示形式。
+
+```py
+>>> simple = SimpleCNNModel()
+>>> simple
+SimpleCNNModel((conv1): Conv()(pool): MaxPool()(conv2): Conv()
+ (fc1): Linear(in_features=400, out_features=120, bias=True)
+ (fc2): Linear(in_features=120, out_features=84, bias=True)
+ (fc3): Linear(in_features=84, out_features=10, bias=True)
+)
+
+```
+
+我们已经按照需要的方式连接了神经网络，以便在看到图像时可以给出类评分。 现在我们定义损失函数和优化器。
+
+```py
+net = SimpleCNNModel()
+loss_fn = nn.CrossEntropyLoss()
+optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
+trainloader, testloader = get_data()
+```
+
+我们创建神经网络类的实例。 还记得正向函数的工作原理吗？ 网络类将定义`__call__()`函数，并依次调用我们为正向传播定义的`forward()`函数。
+
+在下一行中定义的损失函数也是`torch.nn.Module`的子类，它也具有`forward()`函数，该函数由`__call__()`和向后函数调用。 这使我们可以灵活地创建自定义损失函数。
+
+在以后的章节中，我们将提供示例。 现在，我们将使用一个称为`CrossEntropyLoss()`的内置损失函数。 就像前面几章中的一样，我们将使用 PyTorch 优化包来获取预定义的优化程序。 对于此示例，我们将**随机梯度下降**（**SGD**）用于示例，但与上一章不同，我们将使用带有动量的 SGD，这有助于我们向正确方向加速梯度。
+
+##### 注意
+
+动量是当今与优化算法一起使用的一种非常流行的技术。 我们将当前梯度的因数添加到当前梯度本身以获得更大的值，然后将其从权重中减去。 动量在与现实世界动量类似的极小方向上加速损失的运动。
+
+![Model](img/B09475_04_06.jpg)
+
+图 4.5：没有动力和有动力的 SGD
+
+现在我们已经准备好训练我们的神经网络。 至此，我们可以使用模板代码进行训练了：
+
+1.  遍历周期。
+2.  循环遍历每个周期的数据。
+3.  通过调用以下命令使现有的梯度为零：
+    *   `optimizer.zero_grad()`
+    *   `net.zero_grad()`
+4.  运行网络的正向传播。
+5.  通过使用网络输出调用损失函数来获取损失。
+6.  运行反向传播。
+7.  使用优化程序进行梯度更新。
+8.  如果需要，可以保存运行损失。
+
+在保存运行损失时要小心，因为 PyTorch 会在变量进行反向传播之前保存整个图。 增量保存图只是图中的另一种操作，其中每次迭代中的图都使用求和运算将先前的图附加到图上，最终导致内存不足。 始终从图中取出值并将其保存为没有图历史记录的普通张量。
+
+```py
+inputs, labels = data
+optimizer.zero_grad()
+outputs = net(inputs)
+loss = loss_fn(outputs, labels)
+loss.backward()
+optimizer.step()
+running_loss += loss.item()
+```
+
+### 语义分割
+
+我们已经了解了 CNN 的工作原理。 现在，我们将进行下一步，并开发 CNN 的高级应用，称为语义分段。 顾名思义，该技术将图像的一部分标记为一个类别，例如，将所有树木标记为绿色，将建筑物标记为红色，将汽车标记为灰色，等等。 分割本身意味着从图像中识别结构，区域等。
+
+语义分割是智能的，在我们想要了解图像中的内容而不是仅识别结构或区域时将使用它。 语义分割正在识别和理解像素级图像中的内容。
+
+![Semantic segmentation](img/B09475_04_08.jpg)
+
+图 4.6：语义分割示例
+
+语义分割为现实世界中的几个主要应用提供支持，从闭路电视摄像机和自动驾驶汽车到分割不同的对象。 在本章中，我们将实现一种称为 LinkNet [2][7]的最快的语义分割架构。
+
+在本章中，我们将 CamVid 数据集用于我们的 LinkNet 实现。 CamVid 是一个真实情况数据集，由高质量视频组成，这些高质量视频转换为手动分割和标记的帧。 手动标记的输出图像将颜色用作对象的标识。 例如，数据集输出目录中的所有图像都将洋红色用于道路。
+
+#### LinkNet
+
+LinkNet 利用自编码器的思想，该思想曾经是一种数据压缩技术。 自编码器的架构有两个部分：编码器和解码器。 编码器将输入编码到低维空间，而解码器从低维空间解码/重新创建输入。 自编码器被广泛用于减小压缩的尺寸等。
+
+![LinkNet](img/B09475_04_10.jpg)
+
+图 4.7：自编码器
+
+LinkNet 由一个初始块，一个最终块，一个带有四个卷积模块的编码器块以及一个带有四个解卷积模块的解码器组成。 初始块使用跨步卷积和最大池化层对输入图像进行两次下采样。 然后，编码器模块中的每个卷积模块都会以大步卷积对输入进行一次下采样。 然后将编码后的输出传递到解码器块，该解码器块会在每个反卷积块中使用步进反卷积对输入进行上采样； 反卷积将在以下部分中说明。
+
+然后，解码器模块的输出通过最终模块，该模块将上采样两次，就像初始模块下采样两次一样。 还有更多：与其他语义分割模型相比，LinkNet 通过使用跳跃连接的思想可以减少架构中的参数数量。
+
+在每个卷积块之后，编码器块与解码器块进行通信，这使编码器块在正向传播之后会忘记某些信息。 由于编码器模块的输出不必保留该信息，因此参数的数量可能比其他现有架构的数量少得多。 实际上，该论文的作者使用 ResNet18 作为编码器，并且仍然能够以惊人的表现获得最新的结果。 下面是 LinkNet 的架构：
+
+![LinkNet](img/B09475_04_11.jpg)
+
+图 4.8：LinkNet 架构
+
+因此，我们已经看到了某些以前从未见过的东西。 让我们谈谈这些。
+
+##### 反卷积
+
+反卷积可以模糊地描述为卷积运算的逆过程。 Clarifai 的创始人兼首席执行官 Matthew Zeiler 最初在他的 CNN 层可视化论文[3]中使用了去卷积，尽管当时他没有给它起名字。 自从成功以来，反卷积已在几篇论文中使用。
+
+命名操作反卷积很有意义，因为它的作用与卷积相反。 它有许多名称，例如转置卷积（因为之间使用的矩阵已转置）和后向卷积（因为操作是反向传播时卷积的反向传递）。 但是实际上，我们本质上是在进行卷积运算，但是我们更改了像素在输入中的排列方式。
+
+对于具有填充和跨度的反卷积，输入图像将在像素周围具有填充，并且之间将具有零值像素。 在所有情况下，核滑动窗口的移动将保持不变。
+
+##### 注意
+
+有关反卷积的更多信息，请参见论文《深度学习卷积算法指南》[5]或 GitHub 存储库[6]。
+
+![Deconvolution](img/B09475_04_12.jpg)
+
+图 4.9：反卷积工作
+
+##### 跳跃连接
+
+LinkNet 架构中编码器和解码器之间的平行水平线是跳跃连接表示。 跳跃连接有助于网络在编码过程中忘记某些信息，并在解码时再次查看。 由于网络解码和生成图像所需的信息量相对较低，因此这减少了网络所需的参数数量。 可以通过不同的操作来实现跳跃连接。 使用跳跃连接的另一个优点是，梯度梯度流可以容易地流过相同的连接。 LinkNet 将隐藏的编码器输出添加到相应的解码器输入，而另一种语义分割算法 Tiramisu [4]将两者连接在一起，将其发送到下一层。
+
+#### 模型
+
+语义分割模型的编码器是我们在第一个会话中构建的 SimpleCNN 模型的扩展，但具有更多的卷积模块。 我们的主类使用五个次要组件/模块来构建前面描述的架构：
+
+*   `ConvBlock`是自定义的`nn.Module`类，可实现卷积和非线性。
+*   `DeconvBlock`是一个自定义`nn.Module`类，可实现解卷积和非线性。
+*   `nn.MaxPool2d`是内置的 PyTorch 层，可进行 2D 最大合并。
+*   `EncoderBlock`。
+*   `DecoderBlock`。
+
+正如在较早的会话中看到的那样，我们通过`forward()`调用主类的`__init__()`中的主类，并像链接一样链接每个主类，但是在这里，我们需要实现一个跳跃连接。 我们使用编码器层的输出，并通过将其与正常输入添加到解码器的方式将其传递到解码器层。
+
+##### 卷积块
+
+```py
+class ConvBlock(nn.Module):
+    """ LinkNet uses initial block with conv -> batchnorm -> relu """
+
+    def __init__(self, inp, out, kernal, stride, pad, bias, act):
+        super().__init__()
+        if act:
+            self.conv_block = nn.Sequential(
+                nn.Conv2d(inp, out, kernal, stride, pad, bias=bias),
+                nn.BatchNorm2d(num_features=out),
+                nn.ReLU())
+        else:
+            self.conv_block = nn.Sequential(
+                nn.Conv2d(inp, out, kernal, stride, pad, bias=bias),
+                nn.BatchNorm2d(num_features=out))
+
+    def forward(self, x):
+        return self.conv_block(x)
+```
+
+LinkNet 中的所有卷积都紧随其后的是批量规范化和 ReLU 层，但是有一些例外，没有 ReLU 层。 这就是`ConvBlock`的目标。 如前所述，`ConvBlock`是`torch.nn.Module`的子类，可以根据正向传播中发生的任何事情进行反向传播。 `__init__`接受输入和输出尺寸，核大小，步幅值，填充宽度，表示是否需要偏置的布尔值和表示是否需要激活（ReLU）的布尔值。
+
+我们使用`torch.nn.Conv2d`，`torch.nn.BatchNorm2d`和`torch.nn.ReLu`来配置`ConvBlock`。 PyTorch 的`Conv2D`接受`ConvBlock`的`__init__`的所有参数，但表示类似激活要求的布尔值除外。 除此之外，`Conv2D`还接受另外两个用于`dilation`和`group`的可选参数。 `torch.nn`的 ReLU 函数仅接受一个称为`inplace`的可选参数，默认为`False`。 如果`inplace`为`True`，则 ReLU 将应用于原地数据，而不是创建另一个存储位置。 在许多情况下，这可能会稍微节省内存，但会导致问题，因为我们正在破坏输入。 经验法则是：除非您迫切需要内存优化，否则请远离它。
+
+批量规范化用于规范每个批量中的数据，而不是一开始只进行一次。 在开始时，标准化对于获得相等比例的输入至关重要，这反过来又可以提高精度。 但是，随着数据流经网络，非线性和权重和偏差的增加可能导致内部数据规模不同。
+
+标准化每一层被证明是解决此特定问题的一种方法，即使我们提高了学习速度，也可以提高准确率。 批量归一化还可以帮助网络从更稳定的输入分布中学习，从而加快了网络的收敛速度。 PyTorch 对不同尺寸的输入实现了批量归一化，就像卷积层一样。 在这里我们使用`BatchNorm2d`，因为我们有四维数据，其中一维是批量大小，另一维是深度。
+
+`BatchNorm2d`用两个可学习的参数实现：伽玛和贝塔。 除非我们将仿射参数设置为`False`，否则 PyTorch 会在反向传播时处理这些特征的学习。 现在，`BatchNorm2d`接受特征数量，ε 值，动量和仿射作为参数。
+
+ε值将添加到平方根内的分母中以保持数值稳定性，而动量因子决定应从上一层获得多少动量以加快操作速度。
+
+`__init__`检查是否需要激活并创建层。 这是`torch.nn.Sequential`有用的地方。 将三个不同的层（卷积，批量规范化和 ReLU）定义为单个`ConvBlock`层的明显方法是为所有三个层创建 Python 属性，并将第一层的输出传递给第二层，然后将该输出传递给第三层。但是使用`nn.Sequential`，我们可以将它们链接在一起并创建一个 Python 属性。 这样做的缺点是，随着网络的增长，您将为所有小模块提供额外的`Sequential`包装器，这将使解释网络图变得困难。 存储库中的可用代码（带有`nn.Sequential`包装器）将生成类似“图 4.10a”的图形，而没有使用`Sequential`包装器构建的层将生成类似“图 4.10b”的图形。
+
+```py
+class ConvBlockWithoutSequential(nn.Module):
+    """ LinkNet uses initial block with conv -> batchnorm -> relu """
+
+    def __init__(self, inp, out, kernel, stride, pad, bias, act):
+        super().__init__()
+        if act:
+            self.conv = nn.Conv2d(inp, out, kernel, stride, pad, bias=bias)
+            self.bn = nn.BatchNorm2d(num_features=out)
+            self.relu = nn.ReLU()
+        else:
+            self.conv = nn.Conv2d(inp, out, kernel, stride, pad, bias=bias)
+            self.bn = nn.BatchNorm2d(num_features=out)
+
+    def forward(self, x):
+        conv_r = self.conv(x)
+        self.bn_r = self.bn(conv_r)
+        if act:
+            return self.relu(self.bn_r)
+        return self.bn_r
+```
+
+##### 反卷积块
+
+反卷积块是 LinkNet 中解码器的构建块。 就像我们如何制作卷积块一样，反卷积块由三个基本模块组成：转置卷积，`BatchNorm`和 ReLU。 在那种情况下，卷积块和反卷积块之间的唯一区别是将`torch.nn.Conv2d`替换为`torch.nn.ConvTranspose2d`。 正如我们之前所见，转置卷积与卷积执行相同的操作，但给出相反的结果。
+
+```py
+class DeconvBlock(nn.Module):
+    """ LinkNet uses Deconv block with transposeconv -> batchnorm -> relu """
+
+    def __init__(self, inp, out, kernal, stride, pad):
+        super().__init__()
+        self.conv_transpose = nn.ConvTranspose2d(inp, out, kernal, stride, pad)
+        self.batchnorm = nn.BatchNorm2d(out)
+        self.relu = nn.ReLU()
+
+    def forward(self, x, output_size):
+        convt_out = self.conv_transpose(x, output_size=output_size)
+        batchnormout = self.batchnorm(convt_out)
+        return self.relu(batchnormout)
+```
+
+`DeconvBlock`的前向调用不使用`torch.nn.Sequential`，并且与`ConvBlock`中对`Conv2d`所做的工作相比，还做了其他工作。 我们将期望的`output_size`传递给转置卷积的前向调用，以使尺寸稳定。 使用`torch.nn.Sequential`将整个反卷积块变成单个变量，可以防止我们将变量传递到转置卷积中。
+
+##### 池化
+
+PyTorch 有几个用于池化操作的选项，我们从其中选择使用`MaxPool`。 正如我们在`SimpleCNN`示例中看到的那样，这是一个显而易见的操作，我们可以通过仅从池中提取突出的特征来减少输入的维数。 `MaxPool2d`接受类似于`Conv2d`的参数来确定核大小，填充和步幅。 但是除了这些参数之外，`MaxPool2d`接受两个额外的参数，即返回索引和`ciel`。 返回索引返回最大值的索引，可在某些网络架构中进行池化时使用。 `ciel`是布尔参数，它通过确定尺寸的上限或下限来确定输出形状。
+
+##### 编码器块
+
+这将对网络的一部分进行编码，对输入进行下采样，并尝试获得包含输入本质的输入的压缩版本。 编码器的基本构建模块是我们之前开发的`ConvBlock`。
+
+![EncoderBlock](img/missing.jpg)
+
+图 4.10：编码器图
+
+如上图所示，LinkNet 中的每个编码器块均由四个卷积块组成。 前两个卷积块被分组为一个块。 然后将其与残差输出（由 ResNet 推动的架构决策）相加。 然后，带有该加法的残差输出将进入第二块，这也与第一块类似。 然后将块 2 的输入添加到块 2 的输出中，而无需通过单独的残差块。
+
+第一个块用因子 2 对输入进行下采样，第二个块对输入的尺寸没有任何作用。 这就是为什么我们需要一个残差网以及第一个模块，而对于第二个模块，我们可以直接添加输入和输出。 实现该架构的代码如下。 `init`函数实际上是在初始化`conv`块和`residue`块。 PyTorch 帮助我们处理张量的加法，因此我们只需要编写我们想做的数学运算，就像您在普通的 Python 变量上执行此操作一样，而 PyTorch 的`autograd`将从那里完成。
+
+```py
+class EncoderBlock(nn.Module):
+    """ Residucal Block in linknet that does Encoding - layers in ResNet18 """
+
+    def __init__(self, inp, out):
+        """
+        Resnet18 has first layer without downsampling.
+        The parameter ''downsampling'' decides that
+        # TODO - mention about how n - f/s + 1 is handling output size in
+        # in downsample
+        """
+        super().__init__()
+        self.block1 = nn.Sequential(
+            ConvBlock(inp=inp, out=out, kernal=3, stride=2, pad=1, bias=True, act=True),
+            ConvBlock(inp=out, out=out, kernal=3, stride=1, pad=1, bias=True, act=True))
+        self.block2 = nn.Sequential(
+            ConvBlock(inp=out, out=out, kernal=3, stride=1, pad=1, bias=True, act=True),
+            ConvBlock(inp=out, out=out, kernal=3, stride=1, pad=1, bias=True, act=True))
+        self.residue = ConvBlock(
+            inp=inp, out=out, kernal=3, stride=2, pad=1, 
+bias=True, act=True)
+
+    def forward(self, x):
+        out1 = self.block1(x)
+        residue = self.residue(x)
+        out2 = self.block2(out1 + residue)
+        return out2 + out1
+```
+
+###### 解码器块
+
+![DecoderBlock](img/B09475_04_14.jpg)
+
+图 4.11：LinkNet 的解码器图片
+
+解码器是建立在`DeconvBlock`顶部之上的块，并且比`EncoderBlock`简单得多。 它没有与网络一起运行的任何残差，而只是两个卷积块之间通过反卷积块之间的直接链连接。 就像一个编码器块如何以两倍的系数对输入进行下采样一样，`DecoderBlock`以两倍的系数对输入进行上采样。 因此，我们有准确数量的编码器和解码器块来获取相同大小的输出。
+
+```py
+class DecoderBlock(nn.Module):
+    """ Residucal Block in linknet that does Encoding """
+
+    def __init__(self, inp, out):
+        super().__init__()
+        self.conv1 = ConvBlock(
+            inp=inp, out=inp // 4, kernal=1, stride=1, pad=0, bias=True, act=True)
+        self.deconv = DeconvBlock(
+            inp=inp // 4, out=inp // 4, kernal=3, stride=2, pad=1)
+        self.conv2 = ConvBlock(
+            inp=inp // 4, out=out, kernal=1, stride=1, pad=0, bias=True, act=True)
+
+    def forward(self, x, output_size):
+        conv1 = self.conv1(x)
+        deconv = self.deconv(conv1, output_size=output_size)
+        conv2 = self.conv2(deconv)
+        return conv2
+```
+
+这样，我们的 LinkNet 模型设计就完成了。 我们将所有构造块放在一起以创建 LinkNet 模型，然后在开始训练之前使用`torchvision`预处理输入。 `__init__`将初始化整个网络架构。 它将创建初始块和最大池化层，四个编码器块，四个解码器块和两个包装另一个`conv`块的`deconv`块。 四个解码器块对图像进行升采样，以补偿由四个编码器完成的降采样。 编码器块（其中四个）之前的大步卷积和最大池化层也对图像进行了下采样两次。 为了弥补这一点，我们有两个`DeconvBlocks`，其中放置在`DeconvBlock`之间的`ConvBlock`完全不影响尺寸。
+
+前向调用只是将所有初始化变量链接在一起，但是需要注意的部分是`DecoderBlock`。 我们必须将预期的输出传递给`DecoderBlock`，然后将其传递给`torch.nn.ConvTranspose2d`。 同样，我们将编码器输出的输出添加到下一步的解码器输入中。 这是我们之前看到的跳跃连接。 由于我们将编码器输出直接传递给解码器，因此我们传递了一些重建图像所需的信息。 这就是 LinkNet 即使在不影响速度的情况下也能如此出色运行的根本原因。
+
+```py
+class SegmentationModel(nn.Module):
+    """
+    LinkNet for Semantic segmentation. Inspired heavily by
+    https://github.com/meetshah1995/pytorch-semseg
+    # TODO -> pad = kernal // 2
+    # TODO -> change the var names
+    # find size > a = lambda n, f, p, s: (((n + (2 * p)) - f) / s) + 1
+    # Cannot have resnet18 architecture because it doesn't do downsampling on first layer
+    """
+
+    def __init__(self):
+        super().__init__()
+        self.init_conv = ConvBlock(
+            inp=3, out=64, kernal=7, stride=2, pad=3, bias=True, act=True)
+        self.init_maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
+
+        self.encoder1 = EncoderBlock(inp=64, out=64)
+        self.encoder2 = EncoderBlock(inp=64, out=128)
+        self.encoder3 = EncoderBlock(inp=128, out=256)
+        self.encoder4 = EncoderBlock(inp=256, out=512)
+
+        self.decoder4 = DecoderBlock(inp=512, out=256)
+        self.decoder3 = DecoderBlock(inp=256, out=128)
+        self.decoder2 = DecoderBlock(inp=128, out=64)
+        self.decoder1 = DecoderBlock(inp=64, out=64)
+
+        self.final_deconv1 = DeconvBlock(inp=64, out=32, kernal=3, stride=2, pad=1)
+        self.final_conv = ConvBlock(
+            inp=32, out=32, kernal=3, stride=1, pad=1, bias=True, act=True)
+        self.final_deconv2 = DeconvBlock(inp=32, out=2, kernal=2, stride=2, pad=0)
+
+    def forward(self, x):
+        init_conv = self.init_conv(x)
+        init_maxpool = self.init_maxpool(init_conv)
+        e1 = self.encoder1(init_maxpool)
+        e2 = self.encoder2(e1)
+        e3 = self.encoder3(e2)
+        e4 = self.encoder4(e3)
+
+        d4 = self.decoder4(e4, e3.size()) + e3
+        d3 = self.decoder3(d4, e2.size()) + e2
+        d2 = self.decoder2(d3, e1.size()) + e1
+        d1 = self.decoder1(d2, init_maxpool.size())
+
+        final_deconv1 = self.final_deconv1(d1, init_conv.size())
+        final_conv = self.final_conv(final_deconv1)
+        final_deconv2 = self.final_deconv2(final_conv, x.size())
+
+        return final_deconv2
+```
+
+### 总结
+
+在过去的十年中，借助人工智能，计算机视觉领域得到了显着改善。 现在，它不仅用于诸如对象检测/识别之类的传统用例，而且还用于提高图像质量，从图像/视频进行丰富的搜索，从图像/视频生成文本，3D 建模等等。
+
+在本章中，我们已经介绍了 CNN，这是迄今为止计算机视觉取得所有成功的关键。 CNN 的许多架构变体已用于不同目的，但是所有这些实现的核心是 CNN 的基本构建块。 关于 CNN 的技术局限性，已经进行了大量研究，尤其是从人类视觉仿真的角度。 已经证明，CNN 不能完全模拟人类视觉系统的工作方式。 这使许多研究小组认为应该有替代方案。 替代 CNN 的一种最流行的方法是使用胶囊网络，这也是杰弗里·欣顿实验室的成果。 但是现在，CNN 正在作为成千上万的实时和关键计算机视觉应用的核心。
+
+在下一章中，我们将研究另一种基本的网络架构：循环神经网络。
+
+### 参考
+
+1.  [卷积网络，Udacity](https://www.youtube.com/watch?v=ISHGyvsT0QY)
+2.  [LinkNet](https://codeac29.github.io/projects/linknet/)
+3.  Matthew D. Zeiler 和 Rob Fergus，[《可视化和理解卷积网络》](https://cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf)
+4.  [《一百层提拉米苏：用于语义分割的完全卷积 DenseNets》](https://arxiv.org/pdf/1611.09326.pdf)
+5.  [《深度学习卷积算法指南》](https://arxiv.org/pdf/1603.07285.pdf)
+6.  [用于卷积算法的 GitHub 存储库](https://github.com/vdumoulin/conv_arithmetic)
+7.  [《LinkNet：利用编码器表示形式进行有效的语义分割》](https://arxiv.org/abs/1707.03718)，Abhishek Chaurasia 和 Eugenio Culurciello，2017 年
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/5.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/5.md
new file mode 100644
index 00000000..d2972d37
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/5.md
@@ -0,0 +1,628 @@
+# 五、序列数据处理
+
+神经网络今天试图解决的主要挑战是处理，理解，压缩和生成序列数据。 序列数据可以被模糊地描述为任何依赖于上一个数据点和下一个数据点的东西。 尽管可以概括基本方法，但是处理不同类型的序列数据需要不同的技术。 我们将探讨序列数据处理单元的基本构建模块，以及常见问题及其广泛接受的解决方案。
+
+在本章中，我们将研究序列数据。 人们用于序列数据处理的规范数据是自然语言，尽管时间序列数据，音乐，声音和其他数据也被视为序列数据。 **自然语言处理**（**NLP**）和理解已被广泛探索，并且它是当前活跃的研究领域。 人类的语言异常复杂，我们整个词汇的可能组合超过了宇宙中原子的数量。 但是，深层网络通过使用诸如嵌入和注意之类的某些技术可以很好地处理此问题。
+
+## 循环神经网络简介
+
+**循环神经网络**（**RNN**）是序列数据处理的实际实现。 顾名思义，RNN 重新遍历上一次运行中保存的信息的数据，并试图像人类一样找到序列的含义。
+
+尽管原始 RNN（在输入中为每个单元展开一个简单的 RNN 单元）是一个革命性的想法，但未能提供可用于生产的结果。 主要障碍是长期依赖问题。 当输入序列的长度增加时，网络到达最后一个单元时将无法从初始单元（单词，如果是自然语言）中记住信息。 我们将在接下来的部分中看到 RNN 单元包含的内容以及如何将其展开。
+
+几次迭代和多年的研究得出了 RNN 架构设计的几种不同方法。 最新的模型现在使用**长短期记忆**（**LSTM**）实现或**门控循环单元**（**GRU**）。 这两种实现都将 RNN 单元内的门用于不同目的，例如遗忘门，它使网络忘记不必要的信息。 这些架构具有原始 RNN 所存在的长期依赖性问题，因此使用门不仅要忘记不必要的信息，而且要记住在长距离移动到最后一个单元时所必需的信息。
+
+注意是下一个重大发明，它可以帮助网络将注意力集中在输入的重要部分上，而不是搜索整个输入并试图找到答案。 实际上，来自 Google Brain 和多伦多大学的一个团队证明，注意力可以击败 LSTM 和 GRU 网络[1]。 但是，大多数实现都同时使用 LSTM/GRU 和注意力。
+
+嵌入是通过比较单词在单词群集中的分布来找到单词的概念含义的另一种革命性思想。 嵌入保持单词之间的关系，并将这种关系（它从单词群集中的单词分布中找到）转换为一组浮点数。 嵌入大大减少了输入大小，并极大地提高了表现和准确率。 我们将使用 word2vec 进行实验。
+
+数据处理是序列数据（尤其是自然语言）的主要挑战之一。 PyTorch 提供了一些工具包来处理该问题。 我们将使用预处理后的数据来简化实现，但是我们将遍历工具包以了解它们的工作原理。 与这些工具包一起，我们将使用`torchtext`，它消除了处理输入数据时将面临的许多困难。
+
+尽管本章全都是关于序列数据的，但我们将专注于序列数据的一个子集，这是自然语言。 特定于自然语言的一些研究人员认为，我们使用 LSTM 或 GRU 处理输入的方式不是应该如何处理自然语言。 自然语言在单词之间保持树状的层次关系，我们应该加以利用。 **栈式增强型解析器-解释器神经网络**（**SPINN**）[2]是来自 Stanford NLP 组的一种此类实现。 这种处理树状结构序列数据的特殊类型的网络是*递归神经网络*（与循环神经网络不同）。 在本章的最后一部分中，我们将详细介绍 SPINN。
+
+## 问题
+
+在本章中，我将首先解决要解决的问题，然后说明概念，同时解决我们遇到的问题。 问题是用三种不同的方法来找到两个英语句子之间的相似性。 为了使比较公平，我们将在所有实现中使用单词嵌入。 不用担心，我们还将进行单词嵌入。 手头的问题通常称为**包含问题**，其中我们每次都有两个句子，我们的工作是预测这些句子之间的相似性。 我们可以将句子分为三类：
+
+*   蕴含：这两个句子是同一意思：
+    *   `A soccer game with multiple males playing.`
+    *   `Some men are playing a sport.`
+*   中性：两个句子有一个共同点：
+    *   `An older and younger man smiling.`
+    *   `Two men are smiling and laughing at the cats playing on the floor.`
+*   矛盾：两个句子都传达两种不同的含义：
+    *   `A black race car starts up in front of a crowd of people.`
+    *   `A man is driving down a lonely road.`
+
+![The problem](img/B09475_05_01.jpg)
+
+图 5.1：问题的图示
+
+## 方法
+
+在遍历 SNLI 数据集之前，我们将实现所有这三种方法：基本 RNN，高级 LNN（如 LSTM 或 GRU）和递归网络（如 SPINN）。 每个数据实例给我们一对句子，一个前提和一个假设句子。 句子首先转换为嵌入，然后传递到每个实现中。 虽然简单 RNN 和高级 RNN 的过程相同，但 SPINN 引入了完全不同的训练和推理流程。 让我们从一个简单的 RNN 开始。
+
+### 简单 RNN
+
+RNN 已被用作理解数据含义的 NLP 技术，并且我们可以根据从中发现的顺序关系来完成许多任务。 我们将使用这个简单的 RNN 来展示循环如何有效地积累单词的含义并根据单词所处的上下文来理解单词的含义。
+
+在开始构建网络的任何核心模块之前，我们必须处理数据集并对其进行修改以供使用。 我们将使用来自 Stanford 的 SNLI 数据集（包含标记为包含，矛盾和中立的句子对的数据集），该数据集已经过预处理并保存在`torchtext`中。
+
+加载的数据集包含数据实例，这些实例是标记为蕴含，矛盾和中立的句子对。 每个句子与一组将与循环网络一起使用的转换相关联。 在以下代码块中显示了从`BucketIterator`加载的数据集。 我们可以通过调用`batch.premise`和`.hypothesis`访问一对句子（`get_data()`函数是伪代码，以避免显示长行；获取数据的实际代码可在 GitHub 存储库中找到）：
+
+```py
+>>> train_iter, dev_iter, test_iter = get_data()
+>>> batch = next(iter(train_iter))
+>>> batch
+[torchtext.data.batch.Batch of size 64 from SNLI]
+ [.premise]:[torch.LongTensor of size 32x64]
+ [.hypothesis]:[torch.LongTensor of size 22x64]
+ [.label]:[torch.LongTensor of size 64]
+
+```
+
+现在我们有了所需的一切（每个数据实例两个句子和一个相应的标签），我们可以开始对网络进行编码。 但是我们如何使我们的神经网络处理英语呢？ 普通的神经网络对数值执行运算，但是现在我们有了字符。 旧的方法是将输入转换为单编码序列。 这是一个很好的旧 NumPy 的简单示例：
+
+```py
+>>> vocab = {
+ 'am': 0,
+ 'are': 1,
+ 'fine': 2,
+ 'hai': 3,
+ 'how': 4,
+ 'i': 5,
+ 'thanks': 6,
+ 'you': 7,
+ ',': 8,
+ '.': 9
+ }
+>>> # input = hai, how are you -> 3, 8, 4, 1, 7
+ seq = [3, 8, 4, 1, 7]
+>>> a = np.array(seq)
+>>> b = np.zeros((len(seq), len(vocab)))
+>>> b[np.arange(len(seq)), seq] = 1
+>>> b
+array([[O., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
+ [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
+ [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
+ [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
+ [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.]])
+
+```
+
+该示例中的`b`变量是我们传递给神经网络的变量。 因此，我们的神经网络将具有与词汇量相等的许多输入神经元。 对于每个实例，我们传递一个只有一个元素的稀疏数组作为`1`。 您看到单热编码会出现什么问题吗？ 随着词汇量的增加，您最终将拥有巨大的输入层。 就是说嵌入可以为您提供帮助。
+
+#### 词嵌入
+
+使用自然语言（或由离散的单个单元组成的任何序列）的标准方法是将每个单词转换为单热编码向量，并将其用于网络的后期。 这种方法的明显缺点是，随着词汇量的增加，输入层的大小也会增加。
+
+词嵌入是减少数组或张量维数的数十年历史的想法。 **潜在迪利克雷分配**（**LDA**）和**潜在语义分析**（**LSA**）是我们用来进行嵌入的两个此类示例。 但是，在 Facebook 研究科学家 Tomas Mikolov 和他的团队于 2013 年实现 word2vec 之后，就开始将嵌入视为前提。
+
+Word2vec 是一种无监督的学习算法，在这种算法中，网络未经训练就进行嵌入。 这意味着您可以在一个英语数据集上训练 word2vec 模型，并使用它为另一模型生成嵌入。
+
+另一种流行的单词嵌入算法叫做 GloVe（我们将在本章中使用它），它来​​自斯坦福大学 NLP 小组。 尽管两种实现都试图解决相同的问题，但是它们都使用了截然不同的方法。 Word2vec 正在使用嵌入来提高预测能力； 也就是说，算法尝试通过使用上下文词来预测目标词。 随着预测精度的提高，嵌入变得更强。 GloVe 是一个基于计数的模型，其中我们制作了一个庞大的表，该表显示每个单词与其他单词对应的频率。 显然，如果词汇量很高，并且使用的是诸如维基百科之类的大型文本集，那么这将构成一个巨大的表格。 因此，我们对该表进行降维，以获得大小合理的嵌入矩阵。
+
+像其他 PyTorch 层一样，PyTorch 在`torch.nn`中创建了一个嵌入层。 尽管我们可以使用预训练的模型，但它对于我们的自定义数据集是可训练的。 嵌入层需要词汇量和我们要保留的嵌入尺寸的大小。 通常，我们使用`300`作为嵌入维度：
+
+```py
+>>> vocab_size = 100
+>>> embedding_dim = 300
+>>> embed = nn.Embedding(vocab_size, embedding_dim)
+>>> input_tensor = torch.LongTensor([5])
+>>> embed(input_tensor).size()
+torch.Size([1, 300])
+
+```
+
+如今，嵌入层还用于所有类型的分类输入，而不仅仅是嵌入自然语言。 例如，如果您要为英超联赛预测获胜者，则最好嵌入球队名称或地名，而不是将它们作为一站式编码向量传递给您的网络。
+
+但是对于我们的用例，`torchtext`将前面的方法包装为一种将输入转换为嵌入的简单方法。 下面是一个示例，其中我们转移了从 GloVe 向量获得的学习信息，以从 Google 新闻中获得对 60 亿个标记进行训练的预训练嵌入：
+
+```py
+inputs = data.Field(lower=True)
+answers = data.Field(sequential=False)
+train, dev, test = datasets.SNLI.splits(inputs, answers)
+inputs.build_vocab(train, dev, test)
+inputs.vocab.load_vectors('glove.6B.300d')
+```
+
+我们将 SNLI 数据集分为`training`，`dev`和`test`集，并将它们作为参数传递给`build_vocab`函数。 `build_vocab`函数遍历给定的数据集，并找到单词，频率和其他属性的数字，并创建`vocab`对象。 该`vocab`对象公开了`load_vectors` API，以接受预先训练的模型来进行迁移学习。
+
+#### `RNNCell`
+
+接下来，我们将开始构建网络的最小基础构建块，即 RNN 单元。 它的工作方式是一个 RNN 单元能够一一处理句子中的所有单词。 最初，我们将句子中的第一个单词传递到单元格，该单元格生成输出和中间状态。 此状态是序列的运行含义，由于在完成对整个序列的处理之前不会输出此状态，因此将其称为隐藏状态。
+
+在第一个单词之后，我们具有从 RNN 单元生成的输出和隐藏状态。 输出状态和隐藏状态都有自己的目的。 可以训练输出以预测句子中的下一个字符或单词。 这就是大多数语言建模任务的工作方式。
+
+如果您试图创建一个顺序网络来预测诸如股票价格之类的时间序列数据，那么很可能这就是您构建网络的方式。 但是在我们的例子中，我们只担心句子的整体含义，因此我们将忽略每个单元格生成的输出。 除了输出，我们将重点放在隐藏状态。 如前所述，隐藏状态的目的是保持句子的连续含义。 听起来像我们要找的东西，对吗？ 每个 RNN 单元都将一个隐藏状态作为输入之一，并吐出另一个隐藏状态，如“图 5.2”中所给。
+
+我们将为每个单词使用相同的 RNN 单元，并将从上一次单词处理生成的隐藏状态作为当前单词执行的输入传递。 因此，RNN 单元在每个字处理阶段具有两个输入：字本身和上一次执行时的隐藏状态。
+
+开始执行时会发生什么？ 我们手中没有隐藏状态，但是我们设计了单元以期望隐藏状态。 我们几乎总是创建一个零值的隐藏状态，只是为了模拟第一个单词的过程，尽管已经进行了研究以尝试使用不同的值而不是零。
+
+![RNNCell](img/B09475_05_02.jpg)
+
+图 5.2：具有输入，隐藏状态和输出展开序列的通用 RNN 单元流程图
+
+“图 5.2”显示了展开的同一 RNN 单元，以可视化如何处理句子中的每个单词。 由于我们为每个单词使用相同的 RNN 单元，因此大大减少了神经网络所需的参数数量，这使我们能够处理大型小批量。 网络参数学习的方式是处理序列的顺序。 这是 RNN 的核心原则。
+
+![RNNCell](img/B09475_05_03.jpg)
+
+图 5.3：RNN 单元流程图
+
+已经尝试了不同的布线机制来设计 RNN 单元以获得最有效的输出。 在本节中，我们将使用最基本的一层，它由两个全连接层和一个 softmax 层组成。 但是在现实世界中，人们将 LSTM 或 GRU 用作 RNN 单元，事实证明，这在许多用例中都可以提供最新的结果。 我们将在下一部分中看到它们。 实际上，已经进行了大量比较以找到所有顺序任务的最佳架构，例如《LSTM：搜索空间漫游》[3]。
+
+我们开发了一个简单的 RNN，如以下代码所示。 没有复杂的门控机制，也没有架构模式。 这是理所当然的。
+
+```py
+class RNNCell(nn.Module):
+    def __init__(self, embed_dim, hidden_size, vocab_dim):
+        super().__init__()
+
+        self.hidden_size = hidden_size
+        self.input2hidden = nn.Linear(embed_dim + hidden_size,hidden_size)
+        # Since it's encoder
+		# We are not concerned about output
+		# self.input2output = nn.Linear(embed_dim + hidden_size, vocab_dim)
+		# self.softmax = nn.LogSoftmax(dim=1)
+
+    def forward(self, inputs, hidden):
+        combined = torch.cat((inputs, hidden), 1)
+        hidden = torch.relu(self.input2hidden(combined))
+        output = self.input2output(combined)
+        output = self.softmax(output)
+        return output, hidden
+
+    def init_hidden(self):
+        return torch.zeros(1, self.hidden_size)
+```
+
+如图“图 5.3”所示，我们有两个全连接层，每个层负责创建输出和输入的隐藏状态。 `RNNCell`的`forward`函数接受先前状态的当前输入和隐藏状态，然后我们将它们连接在一起。
+
+一个`Linear`层采用级联张量并为下一个单元生成隐藏状态，而另一`Linear`层为当前单元生成输出。 然后，输出返回`softmax`，然后返回训练循环。 `RNNCell`拥有一个称为`init_hidden`的类方法，可以方便地保留该类方法，以便在初始化`RNNCell`中的对象时使用我们通过的隐藏状态大小生成第一个隐藏状态。 在开始遍历序列以获取第一个隐藏状态之前，我们将调用`init_hidden`，该状态将被初始化为零。
+
+现在，我们已准备好网络中最小的组件。 下一个任务是创建循环遍历序列的更高级别的组件，并使用`RNNCell`处理序列中的每个单词以生成隐藏状态。 我们称这个`Encoder`节点，它用词汇量大小和隐藏大小初始化`RNNCell`。 请记住，`RNNCell`需要用于嵌入层的词汇量和用于生成隐藏状态的隐藏大小。 在`forward`函数中，我们获得输入作为自变量，这将是一个小批量的序列。 在这种特殊情况下，我们遍历`torchtext`的`BucketIterator`，它识别相同长度的序列并将它们分组在一起。
+
+#### 工具
+
+如果我们不使用`BucketIterator`怎么办，或者如果我们根本没有相同长度的序列怎么办？ 我们有两种选择：要么逐个执行序列，要么将除最长句子之外的所有句子填充为零，以使所有句子的长度与最长序列相同。
+
+##### 注意
+
+尽管如果在 PyTorch 中一个接一个地传递序列长度，我们不会遇到不同序列长度的问题，但是如果我们的框架是基于静态计算图的框架，则会遇到麻烦。 在静态计算图中，甚至序列长度也必须是静态的，这就是基于静态图的框架与基于 NLP 的任务极不兼容的原因。 但是，像 TensorFlow 这样的高度复杂的框架通过为用户提供另一个名为`dynamic_rnn`的 API 来处理此问题。
+
+第一种方法似乎很好用，因为我们每次分别为每个句子处理一个单词。 但是，小批量的输入要比一次处理一个数据输入更有效，以使我们的损失函数收敛到全局最小值。 做到这一点的明显有效的方法是填充。 用零填充输入（或输入数据集中不存在的任何预定义值）有助于我们解决此特定问题。 但是，当我们尝试手动执行操作时，它变得很繁琐，并且变得多余，因为每次处理序列数据时都必须这样做。 PyTorch 在`torch.nn`下有一个单独的工具包，其中包含我们 RNN 所需的工具。
+
+##### 填充序列
+
+函数`pad_sequence`听起来很像：在标识批量中最长的序列后，将序列用零填充，然后将其他所有句子填充到该长度：
+
+```py
+>>> import torch.nn.utils.rnn as rnn_utils
+>>> a = torch.Tensor([1, 2, 3])
+>>> b = torch.Tensor([4, 5])
+>>> c = torch.Tensor([6])
+>>> rnn_utils.pad_sequence([a, b, c], True)
+
+1 2 3
+4 5 0
+6 0 0
+
+[torch.FloatTensor of size (3,3)]
+
+```
+
+在给定的示例中，我们具有三个具有三个不同长度的序列，其中最长的序列的长度为三个。 PyTorch 填充其他两个序列，以使它们现在的长度均为三。 `pad_sequence`函数接受一个位置参数，该位置参数是序列的排序序列（即最长序列（`a`）在前和最短序列（`c`）在后）和一个关键字参数，该参数决定用户是否希望它是否为`batch_first`。
+
+##### 打包序列
+
+您是否看到用零填充输入并使用 RNN 处理输入的问题，特别是在我们如此关心最后一个隐藏状态的情况下？ 批量中包含一个非常大的句子的简短句子最终将填充很多零，并且在生成隐藏状态时，我们也必须遍历这些零。
+
+下图显示了一个包含三个句子的批量输入示例。 短句子用零填充，以使长度等于最长句子。 但是在处理它们时，我们最终也会处理零。 对于双向 RNN，问题更加复杂，因为我们必须从两端进行处理。
+
+![Pack sequence](img/B09475_05_04.jpg)
+
+图 5.4：具有零的句子也具有针对零计算的隐藏状态
+
+将零添加到输入将污染结果，这是非常不希望的。 打包序列是为了避免这种影响。 PyTorch 完全具有工具函数`pack_sequence`：
+
+```py
+>>> import torch.nn.utils.rnn as rnn_utils
+>>> import torch
+>>> a = torch.Tensor([1, 2, 3])
+>>> b = torch.Tensor([1, 2])
+>>> c = torch.Tensor([1])
+>>> packed = rnn_utils.pack_sequence([a, b, c])
+>>> packed
+PackedSequence(data=tensor([1., 1., 1., 2., 2., 3.]), batch_sizes=tensor([3, 2, 1]))
+
+```
+
+`pack_sequence`函数返回`PackedSequence`类的实例，所有用 PyTorch 编写的 RNN 模块都可以接受。 由于`PackedSequence`掩盖了输入中不需要的部分，因此提高了模型的效率和准确率。 前面的示例显示了`PackedSequence`的内容。 但是，为简单起见，我们将避免在模型中使用打包序列，而将始终使用填充序列或`BucketIterator`的输出。
+
+#### 编码器
+
+```py
+class Encoder(nn.Module):
+
+    def __init__(self, embed_dim, vocab_dim, hidden_size):
+        super(Encoder, self).__init__()
+        self.rnn = RNNCell(embed_dim, hidden_size, vocab_dim)
+
+    def forward(self, inputs):
+        ht = self.rnn.init_hidden()
+        for word in inputs.split(1, dim=1):
+            outputs, ht = self.rnn(word, ht)
+        return ht
+```
+
+在`forward`函数中，我们首先将`RNNCell`的隐藏状态初始化为零； 这是通过调用我们先前创建的`init_hidden`完成的。 然后，我们通过将输入的序列以大小 1 拆分为维度 1 来遍历该序列。 这是在假设输入为`batch_first`，因此是之后，第一维将是序列长度。 为了遍历每个单词，我们必须遍历第一维。
+
+对于每个单词，我们用当前单词（输入）和先前状态的隐藏状态调用`self.rnn`的`forward`。 `self.rnn`返回下一个单元的输出和隐藏状态，我们继续循环直到序列结束。 对于我们的问题案例，我们不担心输出，也不对可能从输出中获得的损失进行反向传播。 相反，我们假设最后一个隐藏状态具有句子的含义。
+
+如果我们也能获得该对中另一个句子的含义，则可以比较这些含义以预测该类是矛盾的，必然的或中立的，并反向传播损失。 这听起来像个主意。 但是，我们将如何比较这两种含义？ 接下来。
+
+#### 分类器
+
+我们网络的最后一个组成部分是分类器。 因此，我们手头有两个句子，经过编码器，我们得到了两个句子的最终隐藏状态。 现在是时候定义损失函数了。 一种方法是从两个句子中找出高维隐藏状态之间的距离。 可以按以下方式处理损失：
+
+1.  如果需要的话，将损失最大化到一个很大的正值。
+2.  如果存在矛盾，请将损失最小化为较大的负值。
+3.  如果它是中性的，则将损失保持在零附近（在两到三倍的范围内可行）。
+
+另一种方法可能是连接两个句子的隐藏状态并将它们传递到另一组层，并定义最终的分类器层，该层可以将连接的值分类为我们想要的三个类。 实际的 SPINN 实现使用后一种方法，但是合并机制比简单的连接更为复杂。
+
+```py
+class Merger(nn.Module):
+
+    def __init__(self, size, dropout=0.5):
+        super().__init__()
+        self.bn = nn.BatchNorm1d(size * 4)
+        self.dropout = nn.Dropout(p=dropout)
+
+    def forward(self, data):
+		prem = data[0]
+		hypo = data[1]
+		diff = prem - hypo
+		prod = prem * hypo
+		cated_data = torch.cat([prem, hypo, diff, prod], 2)
+		cated_data = cated_data.squeeze()
+		return self.dropout(self.bn(cated_data))
+
+```
+
+在这里，`Merger`节点被构建为模拟 SPINN 的实际实现。 `Merger`的`forward`函数获得两个序列：`prem`和`hypo`。 我们首先通过正常减法确定两个句子之间的差异，然后通过逐元素相乘找到它们之间的乘积。 然后，我们将实际句子与差异和刚刚找到的乘积连接起来，然后将它们传递给批量规范化层和丢弃层。
+
+`Merger`节点也是我们的简单 RNN 的最终分类器层的一部分，该分类器由其他几个节点组成。
+
+包装类`RNNClassifier`包装到目前为止我们定义的所有组件，并创建最终的分类器层作为`torch.nn.Sequential`的实例。 整个网络的流程显示在“图 5.3”中，并在以下块中以代码形式表示：
+
+```py
+class RNNClassifier(nn.Module):
+
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.embed = nn.Embedding(config.vocab_dim,config.embed_dim)
+        self.encoder = Encoder(config)
+        self.classifier = nn.Sequential(
+            Merger(config.embed_dim, config.dropout),
+            nn.Linear(4 * config.embed_dim, config.fc1_dim),
+            nn.ReLU(),
+            nn.BatchNorm1d(config.fc1_dim),
+            nn.Dropout(p=config.dropout),
+            nn.Linear(config.fci_dim, config.fc2_dim)
+        )
+
+    def forward(self, batch):
+        prem_embed = self.embed(batch.premise)
+        hypo_embed = self.embed(batch.hypothesis)
+        premise = self.encoder(prem_embed)
+        hypothesis = self.encoder(hypo_embed)
+        scores = self.classifier(premise, hypothesis)
+        return scores
+```
+
+`RNNClassifier`模块具有三个主要层，我们在前面进行了讨论：
+
+*   嵌入层已保存到`self.embed`
+*   使用`RNNCell`的编码器层，该层存储在`self.encoder`中
+*   `self.classifier`中存储的`nn.Sequential`层的实例
+
+最后的顺序层从`Merger`节点开始。 合并后的输出的序列长度维度将增大四倍，因为我们将两个句子，它们的差和它们的乘积都附加到`Merger`的输出中。 然后将其穿过一个全连接层，然后在`ReLU`非线性之后使用`batchnorm1d`将其标准化。 之后的丢弃减少了过拟合的机会，过拟合的机会随后传递到另一个全连接层，该层为我们的输入数据创建了得分。 输入数据决定数据点所属的包围，矛盾或中性类​​别。
+
+##### 丢弃
+
+丢弃是 Apple 的机器学习工程师 Nitish Srivastava 提出的革命性想法。 它消除了对通常的正则化技术的需要，该技术在引入丢弃之前一直很普遍。 借助丢弃，我们丢弃了网络中神经元之间的随机连接，因此网络必须泛化并且不能偏向任何类型的外部因素。 要删除神经元，只需将​​其输出设置为零即可。 丢弃随机神经元可防止网络共同适应，因此在很大程度上减少了过拟合。
+
+![Dropout](img/B09475_05_05.jpg)
+
+图 5.5：丢弃
+
+PyTorch 作为`torch.nn`包的一部分提供了更高级别的丢弃层，该层在初始化时接受退出因子。 它的`forward`函数只是关闭一些输入。
+
+#### 训练
+
+我们为制作的所有小组件提供了一个包装模块，称为`RNNClassifier`。 训练过程与我们整本书所遵循的过程相似。 我们初始化`model`类，定义损失函数，然后定义优化器。 一旦完成所有这些设置并初始化了超参数，就将整个控件交给`ignite`。 但是在简单的 RNN 中，由于我们正在从 GloVe 向量的学习的嵌入中进行迁移学习，因此我们必须将这些学习的权重转移到嵌入层的权重矩阵中。 这是通过以下代码段的第二行完成的。
+
+```py
+model = RNNClassifier(config)
+model.embed.weight.data = inputs.vocab.vectors
+criterion = nn.CrossEntropyLoss()
+opt = optim.Adam(model.parameters(), lr=lr)
+```
+
+尽管 PyTorch 会为用户进行反向传播，并且反向传播在概念上始终是相同的，但顺序网络的反向传播与我们在普通网络中看到的反向传播并不完全相似。 在这里，我们进行**时间上的反向传播**（**BPTT**）。 为了了解 BPTT 的工作原理，我们必须假设 RNN 是相似 RNN 单元的长重复单元，而不是将相同的输入视为通过同一 RNN 单元传递。
+
+如果我们在句子中有五个单词，则我们有五个 RNN 单元，但是所有单元的权重都相同，并且当我们更新一个 RNN 单元的权重时，我们将更新所有 RNN 单元的权重。 现在，如果将输入分为五个时间步，每个单词位于每个时间步，则我们应该能够轻松描绘每个单词如何通过每个 RNN 单元。 在进行反向传播时，我们将遍历每个 RNN 单元，并在每个时间步长累积梯度。 更新一个 RNN 单元的权重也会更新其他 RNN 单元的权重。 由于所有五个单元都具有梯度，并且每次更新都会更新所有五个单元的权重，因此我们最终将每个单元的权重更新了五次。 无需进行五次更新，而是将梯度累加在一起并更新一次。 这是 BPTT。
+
+### 高级 RNN
+
+对于基于 LSTM 和 GRU 的网络，高级可能是一个模糊的术语，因为默认情况下，这些是在所有序列数据处理网络中使用的网络架构。 与 1990 年代提出的 LSTM 网络相比，GRU 网络是一个相对较新的设计。 两种网络都是门控循环网络的不同形式，其中 LSTM 网络建立的架构比 GRU 网络复杂。 这些架构被概括为门控循环网络，因为它们具有用于处理通过网络的输入/梯度流的门。 门从根本上是激活，例如 Sigmoid，以决定要流经的数据量。 在这里，我们将详细研究 LSTM 和 GRU 的架构，并了解 PyTorch 如何提供对 LSTM 和 GRU 的 API 的访问。
+
+##### LSTM
+
+![LSTM](img/B09475_05_06.jpg)
+
+图 5.6：LSTM 单元
+
+LSTM 网络由 Sepp Hochreiter 于 1991 年引入，并于 1997 年发布。LSTM 网络在循环单元中建立了多个门，其中正常的`RNNCell`具有`Linear`层，该层通过`softmax`层相互作用以生成输出，另一个`Linear`层会生成隐藏状态。 有关 LSTM 的详细说明，请参见原始论文或克里斯托弗·奥拉（Christopher Olah）的博客，标题为《了解 LSTM 网络》[4]。
+
+LSTM 主要由遗忘门，更新门和单元状态组成，这使得 LSTM 与常规 RNN 单元不同。 该架构经过精心设计，可以执行特定任务。 遗忘门使用输入向量和先前状态的隐藏状态来确定例如应忘记的内容，更新门使用当前输入和先前的隐藏状态来确定应添加到信息存储库中的内容。
+
+这些决定基于 Sigmoid 层的输出，该层始终输出一个介于 0 到 1 范围内的值。 因此，“遗忘门”中的值 1 表示记住所有内容，而值 0 则表示忘记所有内容。 更新门同样适用。
+
+所有操作都将在并行流经网络的单元状态上执行，这与网络中的信息仅具有线性交互作用，因此允许数据无缝地向前和向后流动。
+
+#### GRU
+
+GRU 是一个相对较新的设计，与 LSTM 相比，它效率高且复杂度低。 简而言之，GRU 将遗忘门和更新门合并在一起，并且只对单元状态进行一次一次性更新。 实际上，GRU 没有单独的单元状态和隐藏状态，两者都合并在一起以创建一个状态。 这些简化在不影响网络准确率的前提下，极大地降低了 GRU 的复杂性。 由于 GRU 比 LSTM 具有更高的表现，因此 GRU 如今已被广泛使用。
+
+![GRUs](img/B09475_05_07.jpg)
+
+图 5.7：一个 GRU 单元
+
+#### 架构
+
+我们的模型架构与`RNNClassifier`相似，但是`RNNCell`被 LSTM 或 GRU 单元所替代。 PyTorch 具有函数式 API，可用于将 LSTM 单元或 GRU 单元用作循环网络的最小单元。 借助动态图功能，使用 PyTorch 完全可以遍历序列并调用单元。
+
+高级 RNN 和简单 RNN 之间的唯一区别在于编码器网络。 `RNNCell`类已替换为`torch.nn.LSTMCell`或`torch.nn.GRUCell`，并且`Encoder`类使用了这些预建单元，而不是我们上次创建的自定义`RNNCell`：
+
+```py
+class Encoder(nn.Module):
+
+    def __init__(self, config):
+        super(Encoder, self).__init__()
+        self.config = config
+        if config.type == 'LSTM':
+            self.rnn = nn.LSTMCell(config.embed_dim,config.hidden_size)
+        elif config.type == 'GRU':
+            self.rnn = nn.GRUCell(config.embed_dim,config.hidden_size)
+
+    def forward(self, inputs):
+        ht = self.rnn.init_hidden()
+        for word in inputs.split(1, dim=1):
+            ht, ct = self.rnn(word, (ht, ct))
+```
+
+##### `LSTMCell`和`GRUCell`
+
+`LSTMCell`和`GRUCell`的函数式 API 绝对相似，这也正是定制`RNNCell`的方式。 它们接受输入大小和初始化器的隐藏大小。 `forward`调用接受具有输入大小的微型输入批量，并为该实例创建单元状态和隐藏状态，然后将其传递给下一个执行输入。 在静态图框架中实现这种的实现非常困难，因为该图在整个执行期间都是预先编译的并且是静态的。 循环语句也应作为图节点作为图的一部分。 这需要用户学习那些额外的操作节点或其他在内部处理循环的函数式 API。
+
+#### LSTM 和 GRU
+
+虽然 PyTorch 允许访问粒度`LSTMCell`和`GRUCell` API，但它也可以处理用户不需要粒度的情况。 这在用户不需要更改 LSTM 工作原理的内部但表现最为重要的情况下特别有用，因为 Python 循环的速度很慢。 `torch.nn`模块具有用于 LSTM 和 GRU 网络的高级 API，这些 API 封装了`LSTMCell`和`GRUCell`，并使用 **cuDNN**（**CUDA 深度神经网络**）实现了有效执行。 LSTM 和 cuDNN GRU。
+
+```py
+class Encoder(nn.Module):
+
+    def __init__(self, config):
+        super(Encoder, self).__init__()
+        self.config = config
+        if config.type == 'LSTM':
+            self.rnn = nn.LSTM(input_size=config.out_dim,hidden_size=config.hidden_size,num_layers=config.n_layers,dropout=config.dropout,bidirectional=config.birnn)
+        elif config.type == 'GRU':
+            self.rnn = nn.GRU(input_size=config.out_dim,hidden_size=config.hidden_size,num_layers=config.n_layers,dropout=config.dropout,bidirectional=config.birnn)
+
+    def forward(self, inputs):
+        batch_size = inputs.size()[1]
+        state_shape = self.config.n_cells, batch_size,self.config.hidden_size
+        h0 = c0 = inputs.new(*state_shape).zero_()
+        outputs, (ht, ct) = self.rnn(inputs, (h0, c0))
+        if not self.config.birnn:
+            return ht[-1]
+        else:
+            return ht[-2:].transpose(0, 1).contiguous().view(batch_size, -1)
+```
+
+与`LSTMCell`和`GRUCell`相似，LSTM 和 GRU 具有相似的函数式 API，以使它们彼此兼容。 此外，与单元对应物相比，LSTM 和 GRU 接受更多的参数，其中`num_layers`，`dropout`和`bidirectional`很重要。
+
+如果将`True`作为参数，则`dropout`参数将为网络实现添加一个丢弃层，这有助于避免过拟合和规范化网络。 使用 LSTM 之类的高级 API 消除了对 Python 循环的需要，并一次接受了完整的序列作为输入。 尽管可以接受常规序列作为输入，但始终建议传递打包（掩码）输入，这样可以提高性能，因为 cuDNN 后端希望输入如此。
+
+##### 增加层数
+
+![Increasing the number of layers](img/B09475_05_08.jpg)
+
+图 5.8：多层 RNN
+
+RNN 中的层数在语义上类似于任何类型的神经网络中层数的增加。 由于它可以保存有关数据集的更多信息，因此增加了网络的学习能力。
+
+在 PyTorch 中的 LSTM 中，添加多个层只是对象初始化的一个参数：`num_layers`。 但这要求单元状态和隐藏状态的形状为`[num_layers * num_directions, batch, hidden_size]`，其中`num_layers`是层数，`num_directions`对于单向是`1`，对于双向是`2`（尝试通过使用更多数量的层和双向 RNN 来保留示例的表现）。
+
+##### 双向 RNN
+
+RNN 实现通常是单向的，这就是到目前为止我们已经实现的。 单向和双向 RNN 之间的区别在于，在双向 RNN 中，后向通过等效于在相反方向上的正向传播。 因此，反向传递的输入是相同的序列，但是是反向的。
+
+事实证明，双向 RNN 的表现要优于单方向的 RNN，并且很容易理解原因，尤其是对于 NLP。 但这不能一概而论，并非在所有情况下都是如此。 从理论上讲，如果手头的任务需要过去和将来的信息，则双向 RNN 往往会工作得更好。 例如，预测单词填补空白需要上一个序列和下一个序列。
+
+在我们的分类任务中，双向 RNN 效果更好，因为当 RNN 使序列具有上下文的含义时，它会在两侧使用序列流。 PyTorch 的 LSTM 或 GRU 接受参数`bidirectional`的布尔值，该值确定网络是否应该是双向的。
+
+如前一节所述，隐藏状态和单元状态必须与`bidirectional`标志一起保持形状`[num_layers * num_directions, batch, hidden_size]`，如果`num_directions`是双向的，则必须为`2`。 另外，我还警告您，双向 RNN 并非总是首选，尤其是对于那些我们手头没有未来信息（例如股价预测等）的数据集。
+
+![Bidirectional RNN](img/B09475_05_09.jpg)
+
+图 5.9：双向 RNN
+
+#### 分类器
+
+高级`RNNClassifier`与简单`RNNClassifier`完全相同，唯一的例外是 RNN 编码器已被 LSTM 或 GRU 编码器替代。 但是，高级分类器由于使用了高度优化的 cuDNN 后端，因此可以显着提高网络表现，尤其是在 GPU 上。
+
+我们为高级 RNN 开发的模型是多层双向 LSTM/GRU 网络。 增加对秘籍的关注可大大提高性能。 但这不会改变分类器，因为所有这些组件都将使用`Encoder`方法包装，并且分类器仅担心`Encoder`的函数式 API 不会改变。
+
+##### 注意
+
+如前所述，注意力是与正常神经网络过程一起集中在重要区域上的过程。 注意不是我们现有实现的一部分； 而是充当另一个模块，该模块始终查看输入，并作为额外输入传递到当前网络。
+
+注意背后的想法是，当我们阅读句子时，我们专注于句子的重要部分。 例如，将一个句子从一种语言翻译成另一种语言，我们将更专注于上下文信息，而不是构成句子的文章或其他单词。
+
+一旦概念清晰，在 PyTorch 中获得关注就很简单。 注意可以有效地用于许多应用中，包括语音处理； 翻译，以前自编码器是首选实现； CNN 到 RNN，用于图像字幕； 和别的。
+
+实际上，《注意力就是您所需要的全部》[5]是该论文的作者仅通过关注并删除所有其他复杂的网络架构（如 LSTM）就能够获得 SOTA 结果的方法。
+
+### 循环神经网络
+
+语言研究人员的一部分永远不会认可 RNN 的工作方式，即从左到右依次进行，尽管那是多少人阅读一个句子。 某些人坚信语言具有层次结构，利用这种结构有助于我们轻松解决 NLP 问题。 循环神经网络是使用该方法解决 NLP 的尝试，其中，基于要处理的语言的短语，将序列安排为树。 SNLI 是为此目的而创建的数据集，其中每个句子都排列成一棵树。
+
+我们正在尝试构建的特定递归网络是 SPINN，它是通过充分考虑这两个方面的优点而制成的。 SPINN 从左到右处理数据，就像人类的阅读方式一样，但仍保持层次结构完整。 从左向右读取的方法相对于按层次进行解析还有另一个优势：网络从左向右读取时可以最终学习生成解析树。 这可以通过使用称为移位减少解析器的特殊实现以及栈和缓冲区数据结构的使用来实现。
+
+![Recursive neural networks](img/B09475_05_11.jpg)
+
+图 5.10：Shift-Reduce 解析器
+
+SPINN 将输入的句子编码为固定长度的向量，就像基于 RNN 的编码器如何从每个序列创建“含义”向量一样。 来自每个数据点的两个句子都将通过 SPINN 传递并为每个句子创建编码的向量，然后使用合并网络和分类器网络对其进行处理以获得这三个类别中每个类别的得分。
+
+如果您想知道需要在不公开 PyTorch 的任何其他函数式 API 的情况下显示 SPINN 实现的方法，那么答案是 SPINN 是展示 PyTorch 如何适应任何类型的神经网络架构的最佳示例。 你发展。 无论您考虑的架构要求如何，PyTorch 都不会妨碍您。
+
+静态计算图之上构建的框架不能实现 SPINN 这样的网络架构，而不会造成混乱。 这可能是所有流行框架围绕其核心实现构建动态计算图包装的原因，例如 TensorFlow 的热切需求，MXNet，CNTK 的 Gluon API 等。 我们将看到 PyTorch 的 API 对实现任何类型的条件或循环到计算图中的 API 有多么直观。 SPINN 是展示这些的完美示例。
+
+#### 简化
+
+简化网络将最左边的单词，最右边的单词和句子上下文作为输入，并在`forward`调用中生成单个归约的输出。 句子上下文由另一个称为`Tracker`的深度网络给出。 `Reduce`不在乎网络中正在发生的事情； 它总是接受三个输入，并由此减少输出。 树 LSTM 是标准 LSTM 的变体，用于与`bundle`和`unbundle`等其他辅助函数一起批量`Reduce`网络中发生的繁重操作。
+
+```py
+class Reduce(nn.Module):
+
+    def __init__(self, size, tracker_size=None):
+        super().__init__()
+        self.left = nn.Linear(size, 5 * size)
+        self.right = nn.Linear(size, 5 * size, bias=False)
+        if tracker_size is not None:
+            self.track = nn.Linear(tracker_size, 5 * size,bias=False)
+    def forward(self, left_in, right_in, tracking=None):
+        left, right = bundle(left_in), bundle(right_in)
+        tracking = bundle(tracking)
+        lstm_in = self.left(left[0])
+        lstm_in += self.right(right[0])
+        if hasattr(self, 'track'):
+            lstm_in += self.track(tracking[0])
+        out = unbundle(tree_lstm(left[1], right[1], lstm_in))
+        return out
+```
+
+`Reduce`本质上是一个典型的神经网络模块，它对三参数输入执行 LSTM 操作。
+
+#### 追踪器
+
+在循环中每次 SPINN 的`forward`调用中都会调用`Tracker`的`forward`方法。 在归约运算开始之前，我们需要将上下文向量传递到`Reduce`网络，因此，我们需要遍历`transition`向量并创建缓冲区，栈和上下文向量，然后才能执行 SPINN 的`forward()`函数。 由于 PyTorch 变量会跟踪历史事件，因此将跟踪所有这些循环操作并可以反向传播：
+
+```py
+class Tracker(nn.Module):
+
+    def __init__(self, size, tracker_size, predict):
+        super().__init__()
+        self.rnn = nn.LSTMCell(3 * size, tracker_size)
+        if predict:
+            self.transition = nn.Linear(tracker_size, 4)
+        self.state_size = tracker_size
+
+    def reset_state(self):
+        self.state = None
+
+    def forward(self, bufs, stacks):
+        buf = bundle(buf[-1] for buf in bufs)[0]
+        stack1 = bundle(stack[-1] for stack in stacks)[0]
+        stack2 = bundle(stack[-2] for stack in stacks)[0]
+        x = torch.cat((buf, stack1, stack2), 1)
+        if self.state is None:
+            self.state = 2 * [x.data.new(x.size(0),self.state_size).zero_()]
+        self.state = self.rnn(x, self.state)
+        if hasattr(self, 'transition'):
+            return unbundle(self.state),self.transition(self.state[0])
+        return unbundle(self.state), None
+```
+
+#### `SPINN`
+
+`SPINN`模块是所有小型组件的包装器类。 `SPINN`的初始化器与一样简单，包括组件模块`Reduce`和`Tracker`的初始化。 内部节点之间的所有繁重工作和协调都通过 SPINN 的`forward`调用进行管理。
+
+```py
+class SPINN(nn.Module):
+
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        assert config.d_hidden == config.d_proj / 2
+        self.reduce = Reduce(config.d_hidden, config.d_tracker)
+        self.tracker = Tracker(config.d_hidden, config.d_tracker,predict=config.predict)
+```
+
+`forward`调用的主要部分是对`Tracker`的`forward`方法的调用，该方法将处于循环中。 我们遍历输入序列，并为转换序列中的每个单词调用`Tracker`的`forward`方法，然后根据转换实例将输出保存到上下文向量列表中。 如果转换是`shift`，则栈将在后面附加当前单词；如果转换是`reduce`，则将调用`Reduce`并创建跟踪，并在最左边和最右边的单词， 这将从左侧和右侧列表中弹出。
+
+```py
+def forward(self, buffers, transitions):
+    buffers = [list(torch.split(b.squeeze(1), 1, 0))
+               for b in torch.split(buffers, 1, 1)]
+    stacks = [[buf[0], buf[0]] for buf in buffers]
+    if hasattr(self, 'tracker'):
+        self.tracker.reset_state()
+    else:
+        assert transitions is not None
+    if transitions is not None:
+        num_transitions = transitions.size(0)
+    else:
+        num_transitions = len(buffers[0]) * 2 - 3
+    for i in range(num_transitions):
+        if transitions is not None:
+            trans = transitions[i]
+        if hasattr(self, 'tracker'):
+            tracker_states, trans_hyp = self.tracker(buffers,stacks)
+            if trans_hyp is not None:
+                trans = trans_hyp.max(1)[1]
+        else:
+            tracker_states = itertools.repeat(None)
+        lefts, rights, trackings = [], [], []
+        batch = zip(trans.data, buffers, stacks, tracker_states)
+        for transition, buf, stack, tracking in batch:
+            if transition == 3: # shift
+                stack.append(buf.pop())
+            elif transition == 2: # reduce
+                rights.append(stack.pop())
+                lefts.append(stack.pop())
+                trackings.append(tracking)
+        if rights:
+            reduced = iter(self.reduce(lefts, rights, trackings))
+            for transition, stack in zip(trans.data, stacks):
+                if transition == 2:
+                    stack.append(next(reduced))
+    return bundle([stack.pop() for stack in stacks])[0]
+```
+
+## 总结
+
+序列数据是深度学习中最活跃的研究领域之一，尤其是因为自然语言数据是顺序的。 但是，序列数据处理不仅限于此。 时间序列数据本质上是我们周围发生的一切，包括声音，其他波形等等，实际上都是顺序的。
+
+处理序列数据中最困难的问题是长期依赖性，但是序列数据要复杂得多。 RNN 是序列数据处理领域的突破。 研究人员已经探索了成千上万种不同的 RNN 变体，并且它仍然是一个活跃的领域。
+
+在本章中，我们介绍了序列数据处理的基本构建块。 尽管我们只使用英语，但是我们在这里学到的技术通常适用于任何类型的数据。 对于初学者来说，了解这些构建模块至关重要，因为随后的所有操作都基于它们。
+
+即使我没有详细解释高级主题，本章中给出的解释也应该足以进入更高级的解释和教程。 存在不同的 RNN 组合，甚至存在 RNN 与 CNN 的组合以用于序列数据处理。 了解本书给出的概念将使您开始探索人们尝试过的不同方法。
+
+在下一章中，我们将探索生成对抗网络，这是深度学习的最新巨大发展。
+
+## 参考
+
+1.  <https://arxiv.org/pdf/1706.03762.pdf>
+2.  <https://github.com/stanfordnlp/spinn>
+3.  [《LSTM：搜索空间漫游》](https://arxiv.org/abs/1503.04069)，Greff，Klaus，Rupesh Kumar Srivastava，JanKoutník，Bas R.Steunebrink 和 JürgenSchmidhuber，IEEE Transactions on Neural Networks and Learning Systems，2017 年 12 月 28 日，第 2222-2232 页
+4.  <http://colah.github.io/posts/2015-08-Understanding-LSTMs/>
+5.  《您所需要的是注意力》，Vaswani，Ashish，Noam Shazeer，Niki Parmar，Jakob Uszkoreit，Llion Jones，Aidan N. Gomez，Lukasz Kaiser 和 Illia Polosukhin，NIPS，2017 年
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/6.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/6.md
new file mode 100644
index 00000000..a903f971
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/6.md
@@ -0,0 +1,644 @@
+# 六、生成网络
+
+生成网络得到了加州理工学院理工学院本科物理学教授理查德·费曼（Richard Feynman）和诺贝尔奖获得者的名言的支持：“我无法创造，就无法理解”。 生成网络是拥有可以理解世界并在其中存储知识的系统的最有前途的方法之一。 顾名思义，生成网络学习真实数据分布的模式，并尝试生成看起来像来自此真实数据分布的样本的新样本。
+
+生成模型是无监督学习的子类别，因为它们通过尝试生成样本来学习基本模式。 他们通过推送低维潜向量和参数向量来了解生成图像所需的重要特征，从而实现了这一目的。 网络在生成图像时获得的知识本质上是关于系统和环境的知识。 从某种意义上说，我们通过要求网络做某事来欺骗网络，但是网络必须在不了解自己正在学习的情况下学习我们的需求。
+
+生成网络已经在不同的深度学习领域，特别是在计算机视觉领域显示出了可喜的成果。 去模糊或提高图像的分辨率，图像修补以填充缺失的片段，对音频片段进行降噪，从文本生成语音，自动回复消息以及从文本生成图像/视频是一些研究的活跃领域。
+
+在本章中，我们将讨论一些主要的生成网络架构。 更准确地说，我们将看到一个自回归模型和一个**生成对抗网络**（**GAN**）。 首先，我们将了解这两种架构的基本组成部分是什么，以及它们之间的区别。 除此说明外，我们还将介绍一些示例和 PyTorch 代码。
+
+## 定义方法
+
+生成网络现今主要用于艺术应用中。 样式迁移，图像优化，去模糊，分辨率改善以及其他一些示例。 以下是计算机视觉中使用的生成模型的两个示例。
+
+![Defining the approaches](img/B09475_06_01.jpg)
+
+![Defining the approaches](img/B09475_06_02.jpg)
+
+图 6.1：生成模型应用示例，例如超分辨率和图像修复
+
+来源：《具有上下文注意的生成图像修复》，余佳辉等人；《使用生成对抗网络的照片级逼真的单图像超分辨率》，Christian Ledig 等人
+
+GAN 的创建者 Ian Goodfellow 描述了几类生成网络：
+
+![Defining the approaches](img/B09475_06_03.jpg)
+
+图 6.2 生成网络的层次结构
+
+我们将讨论这两个主要类别，它们在过去已经讨论过很多并且仍然是活跃的研究领域：
+
+*   自回归模型
+*   GAN
+
+自回归模型是从先前的值推断当前值的模型，正如我们在第 5 章，“序列数据处理”中使用 RNN 所讨论的那样。 **变分自编码器**（**VAE**）是自编码器的一种变体，由编码器和解码器组成，其中编码器将输入编码为低维潜在空间向量， 解码器解码潜向量以生成类似于输入的输出。
+
+整个研究界都同意，GAN 是人工智能世界中的下一个重要事物之一。 GAN 具有生成网络和对抗网络，并且两者相互竞争以生成高质量的输出图像。 GAN 和自回归模型都基于不同的原理工作，但是每种方法都有其自身的优缺点。 在本章中，我们将使用这两种方法开发一个基本示例。
+
+## 自回归模型
+
+自回归模型使用先前步骤中的信息并创建下一个输出。 RNN 为语言建模任务生成文本是自回归模型的典型示例。
+
+![Autoregressive models](img/B09475_06_04.jpg)
+
+图 6.3：用于 RNN 语言建模的自回归模型
+
+自回归模型独立生成第一个输入，或者我们将其提供给网络。 例如，对于 RNN，我们将第一个单词提供给网络，而网络使用我们提供的第一个单词来假设第二个单词是什么。 然后，它使用第一个和第二个单词来预测第三个单词，依此类推。
+
+尽管大多数生成任务都是在图像上完成的，但我们的自回归生成是在音频上。 我们将构建 WaveNet，它是 Google DeepMind 的研究成果，它是当前音频生成的最新实现，尤其是用于文本到语音处理。 通过这一过程，我们将探索什么是用于音频处理的 PyTorch API。 但是在查看 WaveNet 之前，我们需要实现 WaveNet 的基础模块 PixelCNN，它基于自回归**卷积神经网络**（**CNN**）构建。
+
+自回归模型已经被使用和探索了很多，因为每种流行的方法都有其自身的缺点。 自回归模型的主要缺点是它们的速度，因为它们顺序生成输出。 由于正向传播也是顺序的，因此在 PixelRNN 中情况变得更糟。
+
+#### PixelCNN
+
+![PixelCNN](img/B09475_06_05.jpg)
+
+图 6.4：从 PixelCNN 生成的图像
+
+资料来源：《使用 PixelCNN 解码器的条件图像生成》，Aäronvan den Oord 和其他人
+
+PixelCNN 由 DeepMind 引入，并且是 DeepMind 引入的三种自回归模型之一。 在首次引入 PixelCNN 之后，已经进行了多次迭代以提高速度和效率，但是我们将学习基本的 PixelCNN，这是构建 WaveNet 所需要的。
+
+PixelCNN 一次生成一个像素，并使用该像素生成下一个像素，然后使用前两个像素生成下一个像素。 在 PixelCNN 中，有一个概率密度模型，该模型可以学习所有图像的密度分布并从该分布生成图像。 但是在这里，我们试图通过采用所有先前预测的联合概率来限制在所有先前生成的像素上生成的每个像素。
+
+与 PixelRNN 不同，PixelCNN 使用卷积层作为接收场，从而缩短了输入的读取时间。 考虑一下图像被某些东西遮挡了； 假设我们只有一半的图像。 因此，我们有一半的图像，并且我们的算法需要生成后半部分。 在 PixelRNN 中，网络需要像图像中的单词序列一样逐个获取每个像素，并生成一半的图像，而 PixelCNN 则通过卷积层一次获取图像。 但是，无论如何，PixelCNN 的生成都必须是顺序的。 您可能想知道只有一半的图像会进行卷积。 答案是遮罩卷积，我们将在后面解释。
+
+“图 6.5”显示了如何对像素集应用卷积运算以预测中心像素。 与其他模型相比，自回归模型的主要优点是联合概率学习技术易于处理，可以使用梯度下降进行学习。 没有近似值，也没有解决方法。 我们只是尝试在给定所有先前像素值的情况下预测每个像素值，并且训练完全由反向传播支持。 但是，由于生成始终是顺序的，因此我们很难使用自回归模型来实现可伸缩性。 PixelCNN 是一个结构良好的模型，在生成新像素的同时，将各个概率的乘积作为所有先前像素的联合概率。 在 RNN 模型中，这是默认行为，但是 CNN 模型通过使用巧妙设计的遮罩来实现此目的，如前所述。
+
+PixelCNN 捕获参数中像素之间的依存关系分布，这与其他方法不同。 VAE 通过生成隐藏的潜在向量来学习此分布，该向量引入了独立的假设。 在 PixelCNN 中，学习的依赖性不仅在先前的像素之间，而且在不同的通道之间； 在正常的彩色图像中，它是红色，绿色和蓝色（RGB）。
+
+![PixelCNN](img/B09475_06_06.jpg)
+
+图 6.5：从周围像素预测像素值
+
+有一个基本问题：如果 CNN 尝试使用当前像素或将来的像素来学习当前像素怎么办？ 这也由掩码管理，掩码将**自身**的粒度也提高到了通道级别。 例如，当前像素的红色通道不会从当前像素中学习，但会从先前的像素中学习。 但是绿色通道现在可以使用当前红色通道和所有先前的像素。 同样，蓝色通道可以从当前像素的绿色和红色通道以及所有先前的像素中学习。
+
+整个网络中使用两种类型的掩码，但是后面的层不需要具有这种安全性，尽管它们在进行并行卷积操作时仍需要模拟顺序学习。 因此，PixelCNN 论文[1]引入了两种类型的蒙版：类型 A 和类型 B。
+
+使 PixelCNN 与其他传统 CNN 模型脱颖而出的主要架构差异之一是缺少池化层。 由于 PixelCNN 的目的不是以缩小尺寸的形式捕获图像的本质，并且我们不能承担通过合并丢失上下文的风险，因此作者故意删除了合并层。
+
+```py
+fm = 64
+
+net = nn.Sequential(
+    MaskedConv2d('A', 1, fm, 7, 1, 3, bias=False),
+    nn.BatchNorm2d(fm), nn.ReLU(True),
+    MaskedConv2d('B', fm, fm, 7, 1, 3, bias=False),
+    nn.BatchNorm2d(fm), nn.ReLU(True),
+    MaskedConv2d('B', fm, fm, 7, 1, 3, bias=False),
+    nn.BatchNorm2d(fm), nn.ReLU(True),
+    MaskedConv2d('B', fm, fm, 7, 1, 3, bias=False),
+    nn.BatchNorm2d(fm), nn.ReLU(True),
+    MaskedConv2d('B', fm, fm, 7, 1, 3, bias=False),
+    nn.BatchNorm2d(fm), nn.ReLU(True),
+    MaskedConv2d('B', fm, fm, 7, 1, 3, bias=False),
+    nn.BatchNorm2d(fm), nn.ReLU(True),
+    MaskedConv2d('B', fm, fm, 7, 1, 3, bias=False),
+    nn.BatchNorm2d(fm), nn.ReLU(True),
+    MaskedConv2d('B', fm, fm, 7, 1, 3, bias=False),
+    nn.BatchNorm2d(fm), nn.ReLU(True),
+    nn.Conv2d(fm, 256, 1))
+```
+
+前面的代码段是完整的 PixelCNN 模型，该模型包装在顺序单元中。 它由一堆`MaskedConv2d`实例组成，这些实例继承自`torch.nn.Conv2d`，并使用了`torch.nn`中`Conv2d`的所有`*args`和`**kwargs`。 每个卷积单元之后是批量规范层和 ReLU 层，这是与卷积层成功组合的。 作者决定不在普通层上使用线性层，而是决定使用普通的二维卷积，事实证明，该方法比线性层更好。
+
+##### 遮罩卷积
+
+PixelCNN 中使用了遮罩卷积，以防止在训练网络时信息从将来的像素和当前的像素流向生成任务。 这很重要，因为在生成像素时，我们无法访问将来的像素或当前像素。 但是，有一个例外，之前已描述过。 当前绿色通道值的生成可以使用红色通道的预测，而当前蓝色通道的生成可以使用绿色和红色通道的预测。
+
+通过将所有不需要的像素清零来完成屏蔽。 将创建一个与张量相等的掩码张量，其值为 1 和 0，对于所有不必要的像素，其值为 0。 然后，在进行卷积运算之前，此掩码张量与权重张量相乘。
+
+![Masked convolution](img/B09475_06_07.jpg)
+
+图 6.6：左侧是遮罩，右侧是 PixelCNN 中的上下文
+
+由于 PixelCNN 不使用池化层和反卷积层，因此随着流的进行，通道大小应保持恒定。 遮罩 A 专门负责阻止网络从当前像素学习值，而遮罩 B 将通道大小保持为三（RGB），并通过允许当前像素值取决于本身的值来允许网络具有更大的灵活性。
+
+![Masked convolution](img/B09475_06_08.jpg)
+
+图 6.7：遮罩 A 和遮罩 B
+
+```py
+class MaskedConv2d(nn.Conv2d):
+    def __init__(self, mask_type, *args, **kwargs):
+        super(MaskedConv2d, self).__init__(*args, **kwargs)
+        assert mask_type in ('A', 'B')
+        self.register_buffer('mask', self.weight.data.clone())
+        _, _, kH, kW = self.weight.size()
+        self.mask.fill_(1)
+        self.mask[:, :, kH // 2, kW // 2 + (mask_type == 'B'):] = 0
+        self.mask[:, :, kH // 2 + 1:] = 0
+
+    def forward(self, x):
+        self.weight.data *= self.mask
+        return super(MaskedConv2d, self).forward(x)
+```
+
+先前的类`MaskedConv2d`从`torch.nn.Conv2d`继承，而不是从`torch.nn.Module`继承。 即使我们从`torch.nn.Module`继承来正常创建自定义模型类，但由于我们试图使`Conv2d`增强带掩码的操作，我们还是从`torch.nn.Conv2D`继承，而`torch.nn.Conv2D`则从`torch.nn.Conv2D`继承 `torch.nn.Module`。 类方法`register_buffer`是 PyTorch 提供的方便的 API 之一，可以将任何张量添加到`state_dict`字典对象，如果尝试将模型保存到磁盘，则该对象随模型一起保存到磁盘。
+
+添加有状态变量（然后可以在`forward`函数中重用）的明显方法是将其添加为对象属性：
+
+```py
+self.mask = self.weight.data.clone()
+```
+
+但这绝不会成为`state_dict`的一部分，也永远不会保存到磁盘。 使用`register_buffer`，我们可以确保我们创建的新张量将成为`state_dict`的一部分。 然后使用原地`fill_`操作将掩码张量填充为 1s，然后向其添加 0 以得到类似于“图 6.6”的张量，尽管该图仅显示了二维张量， 实际权重张量是三维的。 `forward`函数仅用于通过乘以遮罩张量来遮罩权重张量。 乘法将保留与掩码具有 1 的索引对应的所有值，同时删除与掩码具有 0 的索引对应的所有值。然后，对父级`Conv2d`层的常规调用使用权重张量，并执行二维卷积操作。
+
+网络的最后一层是 softmax 层，该层可预测像素的 256 个可能值中的值，从而离散化网络的输出生成，而先前使用的最先进的自回归模型将在网络的最后一层上继续生成值。
+
+```py
+optimizer = optim.Adam(net.parameters())
+for epoch in range(25):
+    net.train(True)
+    for input, _ in tr:
+        target = (input[:,0] * 255).long()
+        out = net(input)
+        loss = F.cross_entropy(out, target)
+        optimizer.zero_grad()
+        loss.backward()
+        optimizer.step()
+```
+
+训练使用具有默认动量速率的`Adam`优化器。 另外，损失函数是从 PyTorch 的`Functional`模块创建的。 除了创建`target`变量以外，其他所有操作均与常规训练操作相同。
+
+到目前为止，我们一直在有监督的学习中工作，其中明确给出了标签，但是在这种情况下，目标与输入相同，因为我们试图重新创建相同的输出。 `torchvision`包对像素应用了转换和归一化，并将像素值范围从 0 到 255 转换为 -1 到 1。我们需要转换回 0 到 255 的范围，因为我们在最后一层使用了 softmax，并且会在 0 到 255 之间生成概率分布。
+
+##### 门控 PixelCNN
+
+DeepMind 在 PixelCNN 的一篇迭代论文中成功地使用了门控 PixelCNN ，该方法通过用 Sigmoid 和 tanh 构建的门代替 ReLU 激活函数。 PixelCNN [1]的介绍性论文提供了三种用于解决同一代网络的不同方法，其中具有 RNN 的模型优于其他两种。 DeepMind 仍引入了基于 CNN 的模型来显示与 PixelRNN 相比的速度增益。 但是，随着 PixelCNN 中门控激活的引入，作者能够将表现与 RNN 变体相匹配，从而获得更大的表现增益。 同一篇论文介绍了一种避免盲点并在生成时增加全局和局部条件的机制，这超出了本书的范围，因为对于 WaveNet 模型而言这不是必需的。
+
+### WaveNet
+
+DeepMind 在另一篇针对其自回归生成网络的迭代论文[2]中引入了 WaveNet，其中包括 PixelCNN。 实际上，WaveNet 架构是基于 PixelCNN 的构建的，与 PixelRNN 相比，WaveNet 架构使网络能够以相对更快的方式生成输出。 借助 WaveNet，我们在书中首次探索了针对音频信号的神经网络实现。 我们对音频信号使用一维卷积，这与 PixelCNN 的二维卷积不同，对于初学者而言，这是相当复杂的。
+
+WaveNet 取代了对音频信号使用傅里叶变换的传统方法。 它通过使神经网络找出要执行的转换来做到这一点。 因此，转换可以反向传播，原始音频数据可以使用一些技术来处理，例如膨胀卷积，8 位量化等。 但是人们一直在研究将 WaveNet 方法与传统方法相结合，尽管该方法将损失函数转换为多元回归，而不是 WaveNet 使用的分类。
+
+PyTorch 向后公开了此类传统方法的 API。 以下是对傅立叶变换的结果进行快速傅立叶变换和傅立叶逆变换以获取实际输入的示例。 两种操作都在二维张量上，最后一个维为 2，表示复数的实部和虚部。
+
+PyTorch 提供了用于快速傅里叶变换（`torch.fft`），快速傅里叶逆变换（`torch.ifft`），实数到复杂傅里叶变换（`torch.rfft`），实数到复杂傅里叶变换（`torch.irfft`）的 API。 ），短时傅立叶变换（`torch.stft`）和几个窗口函数，例如 Hann 窗口，Hamming 窗口和 Bartlett 窗口。
+
+```py
+>>> x = torch.ones(3,2)
+>>> x
+
+ 1 1
+ 1 1
+ 1 1
+[torch.FloatTensor of size (3,2)]
+
+>>> torch.fft(x, 1)
+
+ 3 3
+ 0 0
+ 0 0
+[torch.FloatTensor of size (3,2)]
+
+>>> fft_x = torch.fft(x, 1)
+>>> torch.ifft(fft_x, 1)
+
+ 1 1
+ 1 1
+ 1 1
+[torch.FloatTensor of size (3,2)]
+
+```
+
+WaveNet 并不是第一个引入序列数据卷积网络或扩张的卷积网络以加快操作速度的架构。 但是 WaveNet 成功地将两者结合使用，从而产生了可区分的音频。 第一波 WaveNet 的作者发布了另一篇迭代论文，该论文极大地加速了的产生，称为并行 WaveNet。 但是，在本章中，我们将重点关注普通的 WaveNet，这在很大程度上受到了戈尔宾的资料库的启发[3]。
+
+WaveNet 的基本构件是膨胀卷积，它取代了 RNN 的功能来获取上下文信息。
+
+![WaveNet](img/B09475_06_09.jpg)
+
+图 6.8：没有卷积卷积的 WaveNet 架构
+
+来源： 《WaveNet：原始音频的生成模型》，Aaron van den Oord 等
+
+“图 6.8”显示了 WaveNet 在进行新值预测时如何提取有关上下文的信息。 输入以蓝色（图片的底部）给出，它是原始音频样本。 例如，一个 16 kHz 的音频样本具有一秒钟音频的 16,000 个数据点，如果与自然语言的序列长度（每个单词将是一个数据点）相比，这是巨大的。 这些长序列是为什么 RNN 对原始音频样本不太有效的一个很好的原因。
+
+LSTM 网络可以记住上下文信息的实际序列长度为 50 到 100。上图具有三个隐藏层，这些隐藏层使用来自上一层的信息。 第一层输入经过一维卷积层以生成第二层的数据。 卷积可以并行完成，这与 RNN 的情况不同，在卷积中，每个数据点都需要先前的输入顺序地传递。 为了使收集更多上下文，我们可以增加层数。 在“图 6.8”中，位于第四层的输出将从输入层中的五个节点获取上下文信息。 因此，每一层将另外一个输入节点添加到上下文中。 也就是说，如果我们有 10 个隐藏层，则最后一层将从 12 个输入节点获取上下文信息。
+
+![WaveNet](img/B09475_06_10.jpg)
+
+图 6.9：膨胀卷积
+
+来源： 《WaveNet：原始音频的生成模型》，Aaron van den Oord 等
+
+到目前为止，应该很明显，要达到 LSTM 网络的上下文保持能力为 50 到 100 的实际限制，该网络需要 98 层，这在计算上是昂贵的。 这是我们使用膨胀卷积的地方。 使用膨胀卷积，我们将为每个层都有一个膨胀因子，并且以指数方式增加该膨胀因子将以对数形式减少任何特定上下文窗口宽度所需的层数。
+
+![WaveNet](img/B09475_06_11.jpg)
+
+图 6.10：膨胀为 0、2 和 4 的卷积
+
+资料来源：通过扩散卷积进行的多尺度上下文聚合，Fisher Yu 和 Vladlen Koltun
+
+“图 6.9”显示了 WaveNet 中使用的膨胀卷积方案（尽管为了更好地理解膨胀卷积，我们在这里使用的是二维图片； WaveNet 使用一维卷积）。 尽管该实现方案跳过了中参数的日志，但最终节点仍然可以通过这种巧妙设计的方案从上下文中的所有节点获取信息。 在具有扩张卷积和三个隐藏层的情况下，先前的实现覆盖了 16 个输入节点，而先前没有扩张卷积的实现仅覆盖了五个输入节点。
+
+```py
+dilatedcausalconv = torch.nn.Conv1d(
+									res_channels,
+									res_channels,
+									kernel_size=2,
+									dilation=dilation,
+									padding=0,
+									bias=False)
+```
+
+可以用“图 6.10”中给出的二维图片直观地解释膨胀卷积的实现。 所有这三个示例均使用大小为 3x3 的核，其中最左边的块显示的是正常卷积或膨胀卷积，其膨胀因子等于零。 中间块具有相同的核，但膨胀因子为 2，最后一个块的膨胀因子为 4。 扩张卷积的实现技巧是在核之间添加零以扩展核的大小，如图“图 6.11”所示：
+
+![WaveNet](img/B09475_06_12.jpg)
+
+图 6.11：带有核扩展的膨胀卷积
+
+PyTorch 通过使用户能够将膨胀作为关键字参数传递，从而使进行膨胀卷积变得容易，如先前代码块中的`DilatedCausalConv1d`节点中所给出的。 如前所述，每一层具有不同的扩张因子，并且可以为每一层的扩张卷积节点创建传递该因子。 由于跨步为 1，所以填充保持为 0，目的不是上采样或下采样。 `init_weights_for_test`是通过将权重矩阵填充 1 来进行测试的便捷函数。
+
+PyTorch 提供的灵活性使用户可以在线调整参数，这对于调试网络更加有用。 `forward`传递仅调用 PyTorch `conv1d`对象，该对象是可调用的并保存在`self.conv`变量中：
+
+```py
+causalconv = torch.nn.Conv1d(
+							in_channels,
+							res_channels,
+							kernel_size=2,
+							padding=1,
+							bias=False)
+```
+
+WaveNet 的完整架构建立在膨胀卷积网络和卷积后门控激活的基础之上。 WaveNet 中的数据流从因果卷积运算开始，这是一种正常的一维卷积，然后传递到膨胀的卷积节点。 WaveNet 图片中的每个白色圆圈（“图 6.9”）是一个扩展的卷积节点。 然后，将正常卷积的数据点传递到膨胀的卷积节点，然后将其独立地通过 Sigmoid 门和 tanh 激活。 然后，两个运算的输出通过逐点乘法运算符和`1x1`卷积进行。 WaveNet 使用剩余连接和跳跃连接来平滑数据流。 与主流程并行运行的剩余线程通过加法运算与`1x1`卷积的输出合并。
+
+![WaveNet](img/B09475_06_13.jpg)
+
+图 6.12：WaveNet 架构
+
+来源： 《WaveNet：原始音频的生成模型》，Aaron van den Oord 等
+
+“图 6.12”中提供的 WaveNet 的结构图显示了所有这些小组件以及它们如何连接在一起。 跳跃连接之后的部分在程序中称为密集层，尽管它不是上一章介绍的密集层。 通常，密集层表示全连接层，以将非线性引入网络并获得所有数据的概览。 但是 WaveNet 的作者发现，正常的密集层可以由一串 ReLU 代替，并且`1x1`卷积可以通过最后的 softmax 层实现更高的精度，该层可以展开为 256 个单元（巨大扇出的 8 位`µ`律量化） 音频）。
+
+```py
+class WaveNetModule(torch.nn.Module):
+    def __init__(self, layer_size, stack_size,
+                        in_channels, res_channels):
+        super().__init__()
+        self.causal = CausalConv1d(in_channels, res_channels)
+        self.res_stack = ResidualStack(layer_size,
+                                        stack_size,
+                                        res_channels,
+                                        in_channels)
+        self.convdensnet = ConvDensNet(in_channels)
+
+    def forward(self, x):
+        output = self.causal(output)
+        skip_connections = self.res_stack(output, output_size)
+        output = torch.sum(skip_connections, dim=0)
+        output = self.convdensnet(output)
+        return output.contiguous()
+```
+
+前面的代码块中给出的程序是主要的父 WaveNet 模块，该模块使用所有子组件来创建图。 `init`定义了三个主要成分，其中是第一个普通卷积，然后是`res_stack`（它是由所有膨胀卷积和 Sigmoid 正切门组成的残差连接块）。 然后，最后的`convdensnet`在`1x1`卷积的顶部进行。 `forward`引入一个求和节点，依次执行这些模块。 然后，将`convdensnet`创建的输出通过`contiguous()`移动到存储器的单个块。 这是其余网络所必需的。
+
+`ResidualStack`是需要更多说明的模块，它是 WaveNet 架构的核心。 `ResidualStack`是`ResidualBlock`的层的栈。 WaveNet 图片中的每个小圆圈都是一个残差块。 在正常卷积之后，数据到达`ResidualBlock`，如前所述。 `ResidualBlock`从膨胀的卷积开始，并且期望得到膨胀。 因此，`ResidualBlock`决定了架构中每个小圆节点的膨胀因子。 如前所述，膨胀卷积的输出然后通过类似于我们在 PixelCNN 中看到的门的门。
+
+在那之后，它必须经历两个单独的卷积以进行跳跃连接和残差连接。 尽管作者并未将其解释为两个单独的卷积，但使用两个单独的卷积更容易理解。
+
+```py
+class ResidualBlock(torch.nn.Module):
+    def __init__(self, res_channels, skip_channels, dilation=1):
+super().__init__()
+        self.dilatedcausalconv = torch.nn.Conv1d(
+           res_channels, res_channels, kernel_size=2,
+dilation=dilation,
+           padding=0, bias=False)
+self.conv_res = torch.nn.Conv1d(res_channels, res_channels, 1)
+self.conv_skip = torch.nn.Conv1d(res_channels, skip_channels, 1)
+self.gate_tanh = torch.nn.Tanh()
+self.gate_sigmoid = torch.nn.Sigmoid()
+def forward(self, x, skip_size):
+    x = self.dilatedcausalconv(x)
+    # PixelCNN Gate
+    # ---------------------------
+    gated_tanh = self.gate_tanh(x)
+    gated_sigmoid = self.gate_sigmoid(x)
+    gated = gated_tanh * gated_sigmoid
+    # ---------------------------
+    x = self.conv_res(gated)
+    x += x[:, :, -x.size(2):]
+    skip = self.conv_skip(gated)[:, :, -skip_size:]
+    return x, skip
+```
+
+`ResidualStack`使用层数和栈数来创建膨胀因子。 通常，每个层具有`2 ^ l`作为膨胀因子，其中`l`是层数。 从`1`到`2 ^ l`开始，每个栈都具有相同数量的层和相同样式的膨胀因子列表。
+
+方法`stack_res_block`使用我们前面介绍的`ResidualBlock`为每个栈和每个层中的每个节点创建一个残差块。 该程序引入了一个新的 PyTorch API，称为`torch.nn.DataParallel`。 如果有多个 GPU，则`DataParallel` API 会引入​​并行性。 将模型制作为数据并行模型可以使 PyTorch 知道用户可以使用更多 GPU，并且 PyTorch 从那里获取了它，而没有给用户带来任何障碍。 PyTorch 将数据划分为尽可能多的 GPU，并在每个 GPU 中并行执行模型。
+
+它还负责从每个 GPU 收集回结果，并将其合并在一起，然后再继续进行。
+
+```py
+class ResidualStack(torch.nn.Module):
+ def __init__(self, layer_size, stack_size, res_channels,
+skip_channels):
+   super().__init__()
+   self.res_blocks = torch.nn.ModuleList()
+   for s in range(stack_size):
+      for l in range(layer_size):
+         dilation = 2 ** l
+		 block = ResidualBlock(res_channels, skip_channels,
+				 dilation)
+         self.res_blocks.append(block)
+  def forward(self, x, skip_size):
+      skip_connections = []
+      for res_block in self.res_blocks:
+          x, skip = res_block(x, skip_size)
+          skip_connections.append(skip)
+return torch.stack(skip_connections)
+```
+
+## GAN
+
+在许多深度学习研究人员看来，GAN 是过去十年的主要发明之一。 它们在本质上不同于其他生成网络，尤其是在训练方式上。 Ian Goodfellow 撰写的第一篇有关对抗网络生成数据的论文于 2014 年发表。 GAN 被认为是一种无监督学习算法，其中有监督学习算法学习使用标记数据`y`来推理函数`y' = f(x)`。
+
+这种监督学习算法本质上是判别式的，这意味着它学会对条件概率分布函数进行建模，在此条件函数中，它说明了某事物的概率被赋予了另一事物的状态。 例如，如果购买房屋的价格为 100,000 美元，那么房屋位置的概率是多少？ GAN 从随机分布生成输出，因此随机输入的变化使输出不同。
+
+GAN 从随机分布中获取样本，然后由网络将其转换为输出。 GAN 在学习输入分布的模式时不受监督，并且与其他生成网络不同，GAN 不会尝试明确地学习密度分布。 相反，他们使用博弈论方法来找到两个参与者之间的纳什均衡。 GAN 实现将始终拥有一个生成网络和一个对抗网络，这被视为两个试图击败的参与者。 GAN 的核心思想在于从统一或高斯等数据分布中采样，然后让网络将采样转换为真正的数据分布样。 我们将实现一个简单的 GAN，以了解 GAN 的工作原理，然后转向名为 CycleGAN 的高级 GAN 实现。
+
+### 简单的 GAN
+
+了解 GAN 的直观方法是从博弈论的角度了解它。 简而言之，GAN 由两个参与者组成，一个生成器和一个判别器，每一个都试图击败对方。 生成器从分布中获取一些随机噪声，并尝试从中生成一些输出分布。 生成器总是尝试创建与真实分布没有区别的分布； 也就是说，伪造的输出应该看起来像是真实的图像。
+
+![Simple GAN](img/B09475_06_14.jpg)
+
+Figure 6.13: GAN architecture
+
+但是，如果没有明确的训练或标签，生成器将无法确定真实图像的外观，并且其唯一的来源就是随机浮点数的张量。 然后，GAN 将第二个玩家介绍给游戏，这是一个判别器。 判别器仅负责通知生成器生成的输出看起来不像真实图像，以便生成器更改其生成图像的方式以使判别器确信它是真实图像。 但是判别器总是可以告诉生成器图像不是真实的，因为判别器知道图像是从生成器生成的。 这就是事情变得有趣的地方。 GAN 将真实，真实的图像引入游戏中，并将判别器与生成器隔离。 现在，判别器从一组真实图像中获取一个图像，并从生成器中获取一个伪图像，并且判别器必须找出每个图像的来源。 最初，判别器什么都不知道，只能预测随机结果。
+
+```py
+class DiscriminatorNet(torch.nn.Module):
+    """
+    A three hidden-layer discriminative neural network
+    """
+    def __init__(self):
+        super().__init__()
+        n_features = 784
+        n_out = 1
+
+        self.hidden0 = nn.Sequential(
+            nn.Linear(n_features, 1024),
+            nn.LeakyReLU(0.2),
+            nn.Dropout(0.3)
+        )
+        self.hidden1 = nn.Sequential(
+            nn.Linear(1024, 512),
+            nn.LeakyReLU(0.2),
+            nn.Dropout(0.3)
+        )
+        self.hidden2 = nn.Sequential(
+            nn.Linear(512, 256),
+            nn.LeakyReLU(0.2),
+            nn.Dropout(0.3)
+        )
+        self.out = nn.Sequential(
+            torch.nn.Linear(256, n_out),
+            torch.nn.Sigmoid()
+        )
+
+    def forward(self, x):
+        x = self.hidden0(x)
+        x = self.hidden1(x)
+        x = self.hidden2(x)
+        x = self.out(x)
+        return x
+```
+
+但是，可以将辨别器的任务修改为分类任务。 判别器可以将输入图像分类为**原始**或**生成的**，这是二分类。 同样，我们训练判别器网络正确地对图像进行分类，最终，通过反向传播，判别器学会了区分真实图像和生成的图像。
+
+该会话中使用的示例将生成类似 MNIST 的输出。 前面的代码显示了 MNIST 上的鉴别播放器，该播放器总是从真实源数据集或生成器中获取图像。 GAN 众所周知非常不稳定，因此使用`LeakyReLU`是研究人员发现比常规`ReLU`更好工作的黑客之一。 现在，`LeakyReLU`通过它泄漏了负极，而不是将所有内容限制为零到零。 与正常的`ReLU`相比，这有助于使梯度更好地流过网络，对于小于零的值，梯度为零。
+
+![Simple GAN](img/B09475_06_15.jpg)
+
+图 6.14：ReLU 和泄漏的 ReLU
+
+我们开发的的简单判别器具有三个连续层。 每个层都有一个线性层，泄漏的 ReLU 和一个夹在中间的漏失层，然后是一个线性层和一个 Sigmoid 门。 通常，概率预测网络使用 softmax 层作为最后一层； 像这样的简单 GAN 最适合 Sigmoid 曲面。
+
+```py
+def train_discriminator(optimizer, real_data, fake_data):
+    optimizer.zero_grad()
+
+    # 1.1 Train on Real Data
+    prediction_real = discriminator(real_data)
+    # Calculate error and backpropagate
+    error_real = loss(prediction_real,real_data_target(real_data.size(0)))
+    error_real.backward()
+
+    # 1.2 Train on Fake Data
+    prediction_fake = discriminator(fake_data)
+    # Calculate error and backpropagate
+    error_fake = loss(prediction_fake,fake_data_target(real_data.size(0)))
+    error_fake.backward()
+
+    # 1.3 Update weights with gradients
+    optimizer.step()
+
+    # Return error
+    return error_real + error_fake, prediction_real, prediction_fake
+```
+
+在前面的代码块中定义的函数`train_generator`接受`optimizer`对象，伪数据和实数据，然后将它们传递给判别器。 函数`fake_data_target`（在下面的代码块中提供）创建一个零张量，该张量的大小与预测大小相同，其中预测是从判别器返回的值。 判别器的训练策略是使任何真实数据被归类为真实分布的概率最大化，并使任何数据点被归类为真实分布的概率最小化。 在实践中，使用了来自判别器或生成器的结果的日志，因为这会严重损害网络的分类错误。 然后在应用`optimizer.step`函数之前将误差反向传播，该函数将通过学习率以梯度更新权重。
+
+接下来给出用于获得真实数据目标和伪数据目标的函数，这与前面讨论的最小化或最大化概率的概念基本一致。 实际数据生成器返回一个张量为 1s 的张量，该张量是我们作为输入传递的形状。 在训练生成器时，我们正在尝试通过生成图像来最大程度地提高其概率，该图像看起来应该是从真实数据分布中获取的。 这意味着判别器应将 1 预测为图像来自真实分布的置信度分数。
+
+```py
+def real_data_target(size):
+    '''
+    Tensor containing ones, with shape = size
+    '''
+    return torch.ones(size, 1).to(device)
+
+def fake_data_target(size):
+    '''
+    Tensor containing zeros, with shape = size
+    '''
+    return torch.zeros(size, 1).to(device)
+```
+
+因此，判别器的实现很容易实现，因为它本质上只是分类任务。 生成器网络将涉及所有卷积上采样/下采样，因此有点复杂。 但是对于当前示例，由于我们希望它尽可能简单，因此我们将在全连接网络而不是卷积网络上进行工作。
+
+```py
+def noise(size):
+    n = torch.randn(size, 100)
+    return n.to(device)
+```
+
+可以定义一个噪声生成函数，该函数可以生成随机样本（事实证明，这种采样在高斯分布而非随机分布下是有效的，但为简单起见，此处使用随机分布）。 如果 CUDA 可用，我们会将随机产生的噪声从 CPU 内存传输到 GPU 内存，并返回张量，其输出大小为`100`。 因此，生成网络期望输入噪声的特征数量为 100，而我们知道 MNIST 数据集中有 784 个数据点（`28x28`）。
+
+对于生成器，我们具有与判别器类似的结构，但是在最后一层具有 tanh 层，而不是 Sigmoid。 进行此更改是为了与我们对 MNIST 数据进行的归一化同步，以将其转换为 -1 到 1 的范围，以便判别器始终获得具有相同范围内数据点的数据集。 生成器中的三层中的每一层都将输入噪声上采样到 784 的输出大小，就像我们在判别器中下采样以进行分类一样。
+
+```py
+class GeneratorNet(torch.nn.Module):
+    """
+    A three hidden-layer generative neural network
+    """
+    def __init__(self):
+        super().__init__()
+        n_features = 100
+        n_out = 784
+
+        self.hidden0 = nn.Sequential(
+            nn.Linear(n_features, 256),
+            nn.LeakyReLU(0.2)
+        )
+        self.hidden1 = nn.Sequential(
+            nn.Linear(256, 512),
+            nn.LeakyReLU(0.2)
+        )
+        self.hidden2 = nn.Sequential(
+            nn.Linear(512, 1024),
+            nn.LeakyReLU(0.2)
+        )
+
+        self.out = nn.Sequential(
+            nn.Linear(1024, n_out),
+            nn.Tanh()
+        )
+
+    def forward(self, x):
+        x = self.hidden0(x)
+        x = self.hidden1(x)
+        x = self.hidden2(x)
+        x = self.out(x)
+        return x
+```
+
+生成器训练器函数比判别器训练器函数简单得多，因为它不需要从两个来源获取输入，也不必针对不同的目的进行训练，而判别器则必须最大化将真实图像分类为真实图像的可能性。 图像，并最小化将噪声图像分类为真实图像的可能性。 此函数仅接受伪图像数据和优化器，其中伪图像是生成器生成的图像。 生成器训练器函数代码可以在 GitHub 存储库中找到。
+
+我们分别创建判别器和生成器网络的实例。 到目前为止，我们所有的网络实现都具有单个模型或单个神经网络，但第一次，我们有两个单独的网络在同一个数据集上工作，并具有不同的优化目标。 对于两个单独的网络，我们还需要创建两个单独的优化器。 从历史上看，`Adam`优化器最适合学习速度非常慢的 GAN。
+
+两个网络都使用判别器的输出进行训练。 唯一的区别是，在训练判别器时，我们尝试使伪造图像被分类为真实图像的可能性最小，而在训练生成器时，我们试图使伪造图像被分类为真实图像的可能性最大。 由于它始终是试图预测 0 和 1 的二分类器，因此我们使用`torch.nn`中的`BCELoss`来尝试预测 0 或 1：
+
+```py
+discriminator = DiscriminatorNet().to(device)
+generator = GeneratorNet().to(device)
+d_optimizer = optim.Adam(discriminator.parameters(), lr=0.0002)
+g_optimizer = optim.Adam(generator.parameters(), lr=0.0002)
+loss = nn.BCELoss()
+```
+
+接下来是简单 GAN 在不同周期生成的输出，该图显示了网络如何学会将输入随机分布映射到输出真实分布。
+
+![Simple GAN](img/B09475_06_16.jpg)
+
+图 6.15：100 个周期后的输出
+
+![Simple GAN](img/B09475_06_17.jpg)
+
+图 6.16：200 个周期后的输出
+
+![Simple GAN](img/B09475_06_18.jpg)
+
+图 6.17：300 个周期后的输出
+
+### CycleGAN
+
+![CycleGAN](img/B09475_06_19.jpg)
+
+图 6.18：实践中的 CycleGAN
+
+资料来源：《使用周期一致的对抗性网络的不成对图像翻译》，朱俊彦等
+
+CycleGAN 是 GAN 类型的智能变体之一。 在同一架构中，两个 GAN 之间巧妙设计的循环流可教导两个不同分布之间的映射。 先前的方法需要来自不同分布的成对图像，以便网络学习映射。 对于示例，如果目标是建立一个可以将黑白图像转换为彩色图像的网络，则数据集在训练集中需要将同一图像的黑白和彩色版本作为一对。 尽管很难，但在一定程度上这是可能的。 但是，如果要使冬天拍摄的图像看起来像夏天拍摄的图像，则训练集中的这对图像必须是在冬天和夏天拍摄的具有相同对象和相同帧的完全相同的图像。 这是完全不可能的，而那正是 CycleGAN 可以提供帮助的地方。
+
+CycleGAN 学习每种分布的模式，并尝试将图像从一种分布映射到另一种分布。 “图 6.19”中给出了 CycleGAN 的简单架构图。 上面的图显示了如何训练一个 GAN，下面的图显示了如何使用正在工作的 CycleGAN 典型示例：马和斑马来训练另一个。
+
+在 CycleGAN 中，我们不是从分布中随机采样的数据开始，而是使用来自集合 A（在本例中为一组马）的真实图像。 委托生成器 A 到 B（我们称为 A2B）将同一匹马转换为斑马，但没有将成对的马匹转换为斑马的配对图像。 训练开始时，A2B 会生成无意义的图像。 判别器 B 从 A2B 生成的图像或从集合 B（斑马的集合）中获取真实图像。 与其他任何判别器一样，它负责预测图像是生成的还是真实的。 这个过程是正常的 GAN，它永远不能保证同一匹马转换为斑马。 而是将马的图像转换为斑马的任何图像，因为损失只是为了确保图像看起来像集合 B 的分布； 它不需要与集合 A 相关。为了强加这种相关性，CycleGAN 引入了循环。
+
+然后，从 A2B 生成的图像会通过另一个生成器 B2A，以获得`Cyclic_A`。 施加到`Cyclic_A`的损失是 CycleGAN 的关键部分。 在这里，我们尝试减小`Cyclic_A`和`Input_A`之间的距离。 第二个损失背后的想法是，第二个生成器必须能够生成马，因为我们开始时的分布是马。 如果 A2B 知道如何将马匹映射到斑马而不改变图片中的任何其他内容，并且如果 B2A 知道如何将斑马线映射到匹马而不改变图片中的其他任何东西，那么我们对损失所做的假设应该是正确的。
+
+![CycleGAN](img/B09475_06_20.jpg)
+
+图 6.19：CycleGAN 架构
+
+当判别器 A 获得马的真实图像时，判别器 B 从 A2B 获得斑马的生成图像，当判别器 B 获得斑马的真实图像时，判别器 A 从 B2A 获得马的生成图像。 要注意的一点是，判别器 A 总是能够预测图像是否来自马具，而判别器 B 总是能够预测图像是否来自斑马具。 同样，A2B 始终负责将马集合映射到斑马分布，而 B2A 始终负责将斑马集合映射到马分布。
+
+生成器和判别器的这种周期性训练可确保网络学会使用模式变化来映射图像，但图像的所有其他特征均保持不变。
+
+```py
+Generator(
+  (model): Sequential(
+    (0): ReflectionPad2d((3, 3, 3, 3))
+    (1): Conv2d(3, 64, kernel_size=(7, 7), stride=(1, 1))
+    (2): InstanceNorm2d(64, eps=1e-05, momentum=0.1, affine=False,track_running_stats=False)
+    (3): ReLU(inplace)
+    (4): Conv2d(64, 128, kernel_size=(3, 3), stride=(2, 2),padding=(1, 1))
+    (5): InstanceNorm2d(128, eps=1e-05, momentum=0.1,affine=False, track_running_stats=False)
+    (6): ReLU(inplace)
+    (7): Conv2d(128, 256, kernel_size=(3, 3), stride=(2, 2),padding=(1, 1))
+    (8): InstanceNorm2d(256, eps=1e-05, momentum=0.1,affine=False, track_running_stats=False)
+    (9): ReLU(inplace)
+    (10): ResidualBlock()
+    (11): ResidualBlock()
+    (12): ResidualBlock()
+    (13): ResidualBlock()
+    (14): ResidualBlock()
+    (15): ResidualBlock()
+    (16): ResidualBlock()
+    (17): ResidualBlock()
+    (18): ResidualBlock()
+    (19): ConvTranspose2d(256, 128, kernel_size=(3, 3), stride=(2,2), padding=(1, 1), output_padding=(1, 1))
+    (20): InstanceNorm2d(128, eps=1e-05, momentum=0.1,affine=False, track_running_stats=False)
+    (21): ReLU(inplace)
+    (22): ConvTranspose2d(128, 64, kernel_size=(3, 3), stride=(2,2), padding=(1, 1), output_padding=(1, 1))
+    (23): InstanceNorm2d(64, eps=1e-05, momentum=0.1,affine=False, track_running_stats=False)
+    (24): ReLU(inplace)
+    (25): ReflectionPad2d((3, 3, 3, 3))
+    (26): Conv2d(64, 3, kernel_size=(7, 7), stride=(1, 1))
+    (27): Tanh()
+  )
+)
+```
+
+PyTorch 为用户提供了进入网络并进行操作的完全灵活性。 其中一部分是将模型打印到终端上，以显示其中包含所有模块的地形排序图。
+
+之前我们在 CycleGAN 中看到了生成器的图。 与我们探讨的第一个简单 GAN 不同，A2B 和 B2A 都具有相同的内部结构，内部具有卷积。 整个生成器都包装在以`ReflectionPad2D`开头的单个序列模块中。
+
+反射填充涉及填充输入的边界，跳过批量尺寸和通道尺寸。 填充之后是典型的卷积模块布置，即二维卷积。
+
+实例归一化分别对每个输出批量进行归一化，而不是像“批量归一化”中那样对整个集合进行归一化。 二维实例归一化确实在 4D 输入上实例化归一化，且批量尺寸和通道尺寸为第一维和第二维。 PyTorch 通过传递`affine=True`允许实例规范化层可训练。 参数`track_running_stats`决定是否存储训练循环的运行平均值和方差，以用于评估模式（例如归一化）。 默认情况下，它设置为`False`； 也就是说，它在训练和评估模式下都使用从输入中收集的统计信息。
+
+下图给出了批量规范化和实例规范化的直观比较。 在图像中，数据表示为三维张量，其中`C`是通道，`N`是批量，`D`是其他维，为简单起见，在一个维中表示。 如图中所示，批量归一化对整个批量中的数据进行归一化，而实例归一化则在两个维度上对一个数据实例进行归一化，从而使批量之间的差异保持完整。
+
+![CycleGAN](img/B09475_06_21.jpg)
+
+图 6.20：
+
+Source: Group Normalization, Yuxin Wu and Kaiming He
+
+原始 CycleGAN 的生成器在三个卷积块之后使用九个残差块，其中每个卷积块由卷积层，归一化层和激活层组成。 残差块之后是几个转置卷积，然后是最后一层具有 tanh 函数的一个卷积层。 如简单 GAN 中所述，tanh 输出的范围是 -1 至 1，这是所有图像的归一化值范围。
+
+残余块的内部是按顺序排列的另一组填充，卷积，归一化和激活单元。 但是`forward`方法与`residueNet`中的求和操作建立了残余连接。 在以下示例中，所有内部块的顺序包装都保存到变量`conv_block`中。 然后，将经过此块的数据与加法运算符一起输入到网络`x`。 此残留连接通过允许信息更容易地双向流动来帮助网络变得稳定：
+
+```py
+class ResidualBlock(nn.Module):
+    def __init__(self, in_features):
+        super().__init__()
+
+	conv_block = [nn.ReflectionPad2d(1),
+                  nn.Conv2d(in_features, in_features, 3),
+                  nn.InstanceNorm2d(in_features),
+                  nn.ReLU(inplace=True),
+                  nn.ReflectionPad2d(1),
+                  nn.Conv2d(in_features, in_features, 3),
+                  nn.InstanceNorm2d(in_features)]
+	self.conv_block = nn.Sequential(*conv_block)
+    def forward(self, x):
+        return x + self.conv_block(x)
+```
+
+## 总结
+
+在本章中，我们学习了一系列全新的神经网络，这些神经网络使人工智能世界发生了翻天覆地的变化。 生成网络对我们始终很重要，但是直到最近我们才能达到人类无法比拟的准确率。 尽管有一些成功的生成网络架构，但在本章中我们仅讨论了两个最受欢迎的网络。
+
+生成网络使用 CNN 或 RNN 之类的基本架构作为整个网络的构建块，但是使用一些不错的技术来确保网络正在学习生成一些输出。 到目前为止，生成网络已在艺术中得到广泛使用，并且由于模型必须学习数据分布以生成输出，因此我们可以轻松地预测生成网络将成为许多复杂网络的基础。 生成网络最有前途的用途可能不是生成，而是通过生成学习数据分发并将该信息用于其他目的。
+
+在下一章中，我们将研究最受关注的网络：强化学习算法。
+
+## 参考
+
+1.  [《使用 PixelCNN 解码器的条件图像生成》](https://arxiv.org/pdf/1606.05328.pdf)，Oord，Aäronvan den，Nal Kalchbrenner，Oriol Vinyals，Lasse Espeholt，Alex Graves 和 Koray Kavukcuoglu，NIPS，2016 年
+2.  [《并行 WaveNet：快速高保真语音合成》](https://DeepMind.com/documents/131/Distilling_WaveNet.pdf)，Oord，Aäronvan den，Yazhe Li，Igor Babuschkin，Karen Simonyan，Oriol Vinyals，Koray Kavukcuoglu，George van den Driessche，Edward Lockhart，Luis C. Cobo， Florian Stimberg，Norman Casagrande，Dominik Grewe，Seb Noury，Sander Dieleman，Erich Elsen，Nal Kalchbrenner，Heiga Zen，Alex Graves，Helen King，Tom Walters，Dan Belov 和 Demis Hassabis，ICML，2018
+3.  [戈尔宾的 WaveNet 存储库](https://github.com/golbin/WaveNet)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/7.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/7.md
new file mode 100644
index 00000000..fea3bbc3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/7.md
@@ -0,0 +1,460 @@
+# 七、强化学习
+
+让我们谈谈学习的本质。 我们不是天生就知道这个世界。 通过与世界互动，我们了解了行动的效果。 一旦我们了解了世界的运转方式，我们就可以利用这些知识来做出可以将我们引向特定目标的决策。
+
+在本章中，我们将使用一种称为强化学习的方法来制定这种计算学习方法。 它与本书中介绍的其他类型的深度学习算法非常不同，并且本身就是一个广阔的领域。
+
+强化学习的应用范围从在数字环境中玩游戏到在现实环境中控制机器人的动作。 它也恰好是您用来训练狗和其他动物的技术。 如今，强化学习已被用于驾驶自动驾驶汽车，这是一个非常受欢迎的领域。
+
+当计算机（AlphaGo）击败世界围棋冠军 Lee Sedol [1]时，发生了最近的重大突破之一。 这是一个突破，因为围棋一直以来被认为是让计算机掌握很长时间的游戏圣杯。 这是因为据说围棋游戏中的配置数量大于我们宇宙中的原子数量。
+
+在世界冠军输给 AlphaGo 之后，甚至有人说他已经从计算机中学到了一些东西。 这听起来很疯狂，但这是事实。 听起来更疯狂的是，算法的输入只不过是棋盘游戏当前状态的图像，而 AlphaGo 则一遍又一遍地对自己进行训练。 但在此之前，它从观看世界冠军的视频中学习了数小时。
+
+如今，强化学习已被用于使机器人学习如何走路。 在这种情况下，输入将是机器人可以施加到其关节的力以及机器人将要行走的地面状态。 强化学习也被用于预测股价，并且在该领域引起了很多关注。
+
+这些现实问题似乎非常复杂。 我们将需要对所有这些事情进行数学公式化，以便计算机可以解决它们。 为此，我们需要简化环境和决策过程以实现特定目标。
+
+在强化学习的整个范式中，我们仅关注从交互中学习，而学习器或决策者则被视为智能体。 在自动驾驶汽车中，智能体是汽车，而在乒乓球中，智能体是球拍。 当智能体最初进入世界时，它将对世界一无所知。 智能体将必须观察其环境并根据其做出决策或采取行动。 它从环境中返回的响应称为奖励，可以是肯定的也可以是否定的。 最初，智能体将随机采取行动，直到获得正面奖励为止，并告诉他们这些决定可能对其有利。
+
+这似乎很简单，因为智能体程序要做的就是考虑环境的当前状态进行决策，但是我们还想要更多。 通常，座席的目标是在其一生中最大化其累积奖励，重点是“累积”一词。 智能体不仅关心在下一步中获得的报酬，而且还关心将来可能获得的报酬。 这需要有远见，并将使智能体学习得更好。
+
+这个元素使问题变得更加复杂，因为我们必须权衡两个因素：探索与利用。 探索将意味着做出随机决策并对其进行测试，而利用则意味着做出智能体已经知道的决策将给其带来积极的结果，因此智能体现在需要找到一种方法来平衡这两个因素以获得最大的累积结果。 。 这是强化学习中非常重要的概念。 这个概念催生了各种算法来平衡这两个因素，并且是一个广泛的研究领域。
+
+在本章中，我们将使用 OpenAI 名为 Gym 的库。 这是一个开放源代码库，为强化学习算法的训练和基准测试设定了标准。 体育馆提供了许多研究人员用来训练强化学习算法的环境。 它包括许多 Atari 游戏，用于拾取物品的机器人仿真，用于步行和跑步的各种机器人仿真以及驾驶仿真。 该库提供了智能体程序和环境之间相互交互所必需的参数。
+
+## 问题
+
+现在，我们已经准备好用数学公式来表达强化学习问题，因此让我们开始吧。
+
+![The problem](img/B09475_07_01.jpg)
+
+图 7.1：强化学习框架
+
+在上图中，您可以看到任何强化学习问题的设置。 通常，强化学习问题的特征在于，智能体试图学习有关其环境的信息，如前所述。
+
+假设时间以不连续的时间步长演化，则在时间步长 0 处，智能体查看环境。 您可以将这种观察视为环境呈现给智能体的情况。 这也称为观察环境状态。 然后，智能体必须为该特定状态选择适当的操作。 接下来，环境根据智能体采取的行动向智能体提出了新的情况。 在同一时间步长中，环境会给智能体提供奖励，从而可以指示智能体是否做出了适当的响应。 然后该过程继续。 环境为坐席提供状态和奖励，然后坐席采取行动。
+
+![The problem](img/B09475_07_02.jpg)
+
+图 7.2：每个时间步骤都有一个状态，动作和奖励
+
+因此，状态，动作和奖励的顺序现在随着时间而流动，在这个过程中，对智能体而言最重要的是其奖励。 话虽如此，智能体的目标是使累积奖励最大化。 换句话说，智能体需要制定一项策略，以帮助其采取使累积奖励最大化的行动。 这只能通过与环境交互来完成。
+
+这是因为环境决定了对每个动作给予智能体多少奖励。 为了用数学公式表述，我们需要指定状态，动作和奖励，以及环境规则。
+
+## 情景任务与连续任务
+
+在现实世界中，我们指定的许多任务都有明确定义的终点。 例如，如果智能体正在玩游戏，则当智能体获胜或失败或死亡时，剧集或任务便会结束。
+
+在无人驾驶汽车的情况下，任务在汽车到达目的地或撞车时结束。 这些具有明确终点的任务称为剧集任务。 智能体在每个剧集的结尾都会获得奖励，这是智能体决定自己在环境中做得如何的时候。 然后，智能体从头开始但继续拥有下一个剧集的先验信息，然后继续执行下一个剧集，因此效果更好。
+
+随着时间的流逝，在一段剧集中，智能体将学会玩游戏或将汽车开到特定的目的地，因此将受到训练。 您会记得，智能体的目标是在剧集结束时最大限度地提高累积奖励。
+
+但是，有些任务可能永远持续下去。 例如，在股票市场上交易股票的机器人没有明确的终点，必须在每个时间步骤中学习和提高自己。 这些任务称为连续任务。 因此，在那种情况下，奖励是在特定的时间间隔提供给业务代表的，但任务没有尽头，因此业务代表必须从环境中学习并同时进行预测。
+
+在本章中，我们将只关注情景任务，但为连续任务制定问题陈述并不会有太大不同。
+
+## 累积折扣奖励
+
+为了使智能体最大化累积奖励，可以考虑的一种方法是在每个时间步长上最大化奖励。 这样做可能会产生负面影响，因为在初始时间步长中最大化回报可能会导致智能体在将来很快失败。 让我们以步行机器人为例。 假定机器人的速度是奖励的一个因素，如果机器人在每个时间步长上都最大化其速度，则可能会使其不稳定并使其更快落下。
+
+我们正在训练机器人走路； 因此，我们可以得出结论，智能体不能仅仅专注于当前时间步长来最大化报酬。 它需要考虑所有时间步骤。 所有强化学习问题都会是这种情况。 动作可能具有短期或长期影响，智能体需要了解动作的复杂性以及环境带来的影响。
+
+在前述情况下，如果智能体将了解到其移动速度不能超过某个可能会使它不稳定并对其产生长期影响的极限，则它将自行学习阈值速度。 因此，智能体将在每个时间步长处获得较低的报酬，但会避免将来跌倒，从而使累积报酬最大化。
+
+假设在所有未来时间步长处的奖励都由`R[t]`，`R[t + 1]`，`R[t + 2]`表示，依此类推：
+
+![Cumulative discounted rewards](img/B09475_07_002.jpg)
+
+由于这些时间步伐是在将来，智能体无法确定地知道将来的回报是什么。 它只能估计或预测它们。 未来奖励的总和也称为回报。 我们可以更明确地指定智能体的目标是使期望收益最大化。
+
+让我们还考虑一下，未来回报中的所有回报并不那么重要。 为了说明这一点，假设您想训练一只狗。 您给它命令，如果它正确地遵循了它们，则给它一种奖赏。 您能期望狗像称重从现在起数年可能获得的奖励一样，来权衡明天可能获得的奖励吗？ 这似乎不可行。
+
+为了让狗决定现在需要采取什么行动，它需要更加重视可能早日获得的奖励，而不再重视可能会从现在开始获得的奖励。 这也被认为是合乎逻辑的，因为狗不确定未来的把握，特别是当狗仍在学习环境并改变其从环境中获得最大回报的策略时。 因为与未来成千上万步长的奖励相比，未来数个时间步长的奖励更可预测，所以折扣收益的概念应运而生。
+
+![Cumulative discounted rewards](img/B09475_07_003.jpg)
+
+可以看到，我们在`Goal`方程中引入了可变伽玛。 接近 1 的`Gamma`表示您将来对每个奖励的重视程度相同。 接近 0 的`Gamma`表示只有最近的奖励才具有很高的权重。
+
+一个良好的做法是将`Gamma = 0.9`，因为您希望智能体对未来有足够的关注，但又不是无限远。 您可以在训练时设置`Gamma`，并且`Gamma`会保持固定，直到实验结束。 重要的是要注意，折扣在连续任务中非常有用，因为它们没有尽头。 但是，继续执行的任务不在本章范围之内。
+
+## 马尔可夫决策过程
+
+让我们通过学习称为**马尔可夫决策过程**（**MDP**）的数学框架来完成对强化学习问题的定义。
+
+MDP 定义有五件事：
+
+*   有限状态集
+*   有限动作集
+*   有限奖励集
+*   折扣率
+*   环境的单步动态
+
+我们已经了解了如何指定状态，操作，奖励和折扣率。 让我们找出如何指定环境的一步式动态。
+
+下图描述了垃圾收集机器人的 MDP。 机器人的目标是收集垃圾桶。 机器人将继续寻找垃圾桶，并不断收集垃圾桶，直到电池用完，然后再回到扩展坞为电池充电。 可以将机器人的状态定义为高和低，以表示其电池电量。 机器人可以执行的一组操作是搜索垃圾桶，在自己的位置等待，然后返回对接站为电池充电。
+
+![Markov decision processes](img/B09475_07_03.jpg)
+
+图 7.3：垃圾收集机器人的 MDP
+
+例如，假设机器人处于高电量状态。 如果决定搜索垃圾桶，则状态保持高状态的概率为 70%，状态变为低状态的概率为 30%，每种状态获得的奖励为 4。
+
+同样，如果电池处于高电量状态，则决定在其当前位置等待，电池处于高电量状态的可能性为 100%，但是获得的奖励也很低。
+
+花一点时间浏览所有动作和状态，以更好地了解它们。 通过详细说明智能体可以处于的所有状态以及智能体在其所有状态下可以执行的所有操作，并确定每个操作的概率，可以指定环境。 一旦指定了所有这些，就可以指定环境的一站式动态。
+
+在任何 MDP 中，智能体都会知道状态，操作和折扣率，而不会知道环境的回报和一步动态。
+
+现在，您了解了制定任何实际问题（通过强化学习解决）的所有知识。
+
+## 解决方案
+
+既然我们已经学习了如何使用 MDP 来指定问题，那么智能体需要制定解决方案。 此策略也可以称为策略。
+
+### 策略和值函数
+
+策略定义学习智能体在给定时间的行为方式。 保单用希腊字母`Pi`表示。 该策略不能用公式定义； 它更多是基于直觉的概念。
+
+让我们举个例子。 对于需要在房间外寻找出路的机器人，它可能具有以下策略：
+
+*   随机走
+*   沿着墙壁走
+*   找到通往门的最短路径
+
+为了使我们能够数学地预测在特定状态下要采取的行动，我们需要一个函数。 让我们定义一个函数，该函数将设为当前状态，并输出一个数字，该数字表示该状态的值。例如，如果您要越过河流，那么靠近桥梁的位置的值将比远离目标位置更大。 此函数称为值函数，也用`V`表示。
+
+我们可以使用另一个函数来帮助我们度量事物：一个函数，该函数为我们提供由所有可以采取的行动所导致的所有未来状态的值。
+
+![Policies and value functions](img/B09475_07_04.jpg)
+
+图 7.4：MDP 中的状态和动作
+
+让我们举个例子。 让我们考虑通用状态`S0`。 现在我们需要预测在`a1`，`a2`和`a3`之间要采取什么行动才能获得最大的回报（累积折扣奖励）。 我们将此函数命名为`Q`。 我们的函数`Q`，将预测每个操作的预期收益（值（`V`））。 此`Q`函数也称为动作值函数，因为它考虑了状态和动作，并预测了它们各自的组合的预期收益。
+
+我们通常会选择最大值。 因此，这些最高限额将指导智能体到最后，这将是我们的策略。 请注意，我大部分时间都在说。 通常，在选择非最大动作值对时，我们会保持很小的随机机会。 我们这样做是为了提高模型的可探索性。 该随机探索机会的百分比称为`ε`，该策略称为 ε 贪婪策略。 这是人们用来解决强化学习问题的最常见策略。 如果我们一直都只选择最大值，而不进行任何探索，则该策略简称为贪婪策略。 我们将在实现过程中同时使用这两种策略。
+
+但是起初，我们可能不知道最佳作用值函数。 因此，由此产生的策略也将不是最佳策略。 我们将需要遍历动作值函数，并找到提供最佳回报的函数。 一旦找到它，我们将获得最优的`Q`。 最佳`Q`也称为`Q*`。 因此，我们将能够找到最优的`Pi`，也称为`Pi*`。
+
+此`Q`函数是智能体必须学习的函数。 我们将使用神经网络来学习此函数，因为神经网络也是通用函数逼近器。 一旦有了行动值函数，座席就可以了解问题的最佳策略，我们就可以完成目标。
+
+### 贝尔曼方程
+
+如果我们使用最近定义的 Q 函数重新定义目标方程，则可以编写：
+
+![Bellman equation](img/B09475_07_004.jpg)
+
+现在让我们递归定义相同的方程式。 我们将提出贝尔曼方程：
+
+![Bellman equation](img/B09475_07_005.jpg)
+
+简而言之，Bellman 等式指出，每个点的收益等于下一时间步长的估计报酬加上随后状态的折扣报酬。 可以肯定地说，某些策略的任何值函数都遵循贝尔曼方程。
+
+#### 寻找最佳 Q 函数
+
+现在我们知道，如果我们具有最优 Q 函数，则可以通过选择收益最高的操作来找到最优策略。
+
+### 深度 Q 学习
+
+深度 Q 学习算法使用神经网络来解决 Q 学习问题。 它对于连续空间的强化学习问题非常有效。 也就是说，任务不会结束。
+
+前面我们讨论了值函数（`V`）和操作值函数（`Q`）。 由于神经网络是通用函数逼近器，因此我们可以假设它们中的任何一个都是神经网络，具有可以训练的权重。
+
+因此，值函数现在将接受网络的状态和权重，并输出当前状态的值。 我们将需要计算某种误差并将其反向传播到网络，然后使用梯度下降进行训练。 我们需要将网络的输出（值函数）与我们认为最佳的值进行比较。
+
+根据贝尔曼方程：
+
+![Deep Q-learning](img/B09475_07_005.jpg)
+
+我们可以通过考虑下一个状态的值来计算预期的`Q`。 我们可以通过考虑到目前为止的累积奖励来计算当前的`Q`。 在这些 Q 函数之间的差上使用**均方误差**（**MSE**）可能是我们的损失。 研究人员建议的一项改进是，当误差较大时，使用平均绝对误差代替 MSE。 当 Q 函数的估计值非常嘈杂时，这使它对异常值更加健壮。 这种损失称为胡贝尔损失。
+
+![Deep Q-learning](img/B09475_07_006.jpg)
+
+我们的代码的训练循环如下所示：
+
+*   随机初始化`w, π <- ε`
+*   对于所有剧集：
+    *   观察`S`
+    *   虽然`S`并非在每个时间步都是终端：
+    *   使用`π, Q`从`S`中选择`A`
+    *   观察`R`和`S'`
+    *   更新`Q`
+    *   `S <- S'`
+
+这里要注意的一件事是，我们将使用相同的 ε 贪婪策略在“步骤 6”中选择动作，并在“步骤 8”中更新相同的策略。 这种算法称为策略上算法。 从某种意义上讲，这是很好的，因为在我们观察和更新同一策略时，将更快地学习该策略。 它收敛非常快。 它也有一些缺点，即所学习的策略和用于决策的策略彼此紧密地联系在一起。 如果我们想要一个更具探索性的策略，以便在“步骤 6”中选择观察结果，并在“步骤 8”中更新更优化的策略，该怎么办？ 这样的算法被称为非策略算法。
+
+Q 学习是一种非策略算法，因此，在 Q 学习中，我们将有两个策略。 我们用来推断动作的策略将是 ε 贪婪策略，并且我们将其称为策略网络。 我们将使用更新步骤更新的网络将是我们的目标网络。 那只能由一个贪婪的策略来控制，这意味着我们将始终选择`ε`等于零的最大值。 我们不会对此策略采取随机措施。 我们这样做是为了使我们更快地朝着更高的值前进。 我们将通过不时复制策略网的权重（例如每隔一集一次）来更新目标网的权重。
+
+其背后的想法是不追逐一个移动的目标。 让我们举个例子：假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜，驴可能会向前走，胡萝卜仍与驴保持相同的距离。 但是，与普遍的看法相反，这并不那么有效。 胡萝卜可能会随机反弹，并可能使驴远离其路径。 取而代之的是，通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩，这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。
+
+### 经验回放
+
+我们可以对算法进行的另一项改进是添加有限的经验和已保存交易记录。 每笔交易都包含学习某些东西所需的所有相关信息。 它是状态，执行的动作，随后的下一个状态以及对该动作给予的奖励的元组。
+
+```py
+Transition = namedtuple('Transition', ('state', 'action', 'next_state', 'reward'))
+```
+
+我们将随机采样一些经验或交易，并在优化模型时向他们学习。
+
+```py
+class ReplayMemory(object):
+    def __init__(self, capacity):
+        self.capacity = capacity
+        self.memory = []
+        self.position = 0
+
+    def push(self, *args):
+        if len(self.memory) < self.capacity:
+            self.memory.append(None)
+            self.memory[self.position] = Transition(*args)
+            self.position = (self.position + 1) % self.capacity
+
+    def sample(self, batch_size):
+        return random.sample(self.memory, batch_size)
+
+    def __len__(self):
+        return len(self.memory)
+
+memory = ReplayMemory(10000)
+```
+
+在这里，我们为交易定义了一个存储库。 有一个称为`push`的函数可将事务推送到内存中。 还有另一个函数可以从内存中随机采样。
+
+### Gym
+
+我们将使用 OpenAI 的 Gym 从环境`env`中获取参数。 环境变量很多，例如智能体的速度和位置。 我们将训练一个平衡点来平衡自己。
+
+![Gym](img/B09475_07_05.jpg)
+
+图 7.5：卡特彼勒平衡环境
+
+![Gym](img/B09475_07_06.jpg)
+
+图 7.6：Gym 暴露的环境变量
+
+在环境中的每个观察值或状态在 Cartpole 环境（`env`）中都有四个值。 上面的屏幕快照来自于 Cartpole 环境的 Gym 代码。 每个观测值在尖端都有位置，速度，极角和极速度。 您可以采取的行动是向左或向右移动。
+
+```py
+env = gym.make('CartPole-v0').unwrapped
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+screen_width = 600
+
+def get_screen():
+    screen = env.render(mode='rgb_array').transpose((2, 0, 1))  # transpose into torch order (CHW)
+    screen = screen[:, 160:320]  # Strip off the top and bottom of the screen
+
+    # Get cart location
+    world_width = env.x_threshold * 2
+    scale = screen_width / world_width
+    cart_location = int(env.state[0] * scale + screen_width / 2.0)  # MIDDLE OF CART
+
+    # Decide how much to strip
+    view_width = 320
+    if cart_location < view_width // 2:
+        slice_range = slice(view_width)
+    elif cart_location > (screen_width - view_width // 2):
+        slice_range = slice(-view_width, None)
+    else:
+        slice_range = slice(cart_location - view_width // 2,
+                            cart_location + view_width // 2)
+
+    # Strip off the edges, so that we have a square image centered on a cart
+    screen = screen[:, :, slice_range]
+
+    screen = np.ascontiguousarray(screen, dtype=np.float32) / 255
+    screen = torch.from_numpy(screen)
+    resize = T.Compose([T.ToPILImage(),
+                        T.Resize(40, interpolation=Image.CUBIC),
+                        T.ToTensor()])
+
+    return resize(screen).unsqueeze(0).to(device)  # Resize, and add a batch dimension (BCHW)
+```
+
+在这里，我们定义了`get_screen`函数。 柱状环境渲染并返回一个屏幕（3D 像素数组）。 我们将要剪裁一个正方形的图像，其中心是小刀。 我们从`env.state[0]`获得了位置。 根据文档，第一个参数是推车位置。 然后我们去掉顶部，底部，左侧和右侧，以使小柱位于中心。 接下来，我们将其转换为张量，进行一些转换，添加另一个尺寸，然后返回图像。
+
+```py
+class DQN(nn.Module):
+    def __init__(self):
+        super(DQN, self).__init__()
+        self.conv1 = nn.Conv2d(3, 16, kernel_size=5, stride=2)
+        self.bn1 = nn.BatchNorm2d(16)
+        self.conv2 = nn.Conv2d(16, 32, kernel_size=5, stride=2)
+        self.bn2 = nn.BatchNorm2d(32)
+        self.conv3 = nn.Conv2d(32, 32, kernel_size=5, stride=2)
+        self.bn3 = nn.BatchNorm2d(32)
+        self.head = nn.Linear(448, 2)
+
+    def forward(self, x):
+        x = F.relu(self.bn1(self.conv1(x)))
+        x = F.relu(self.bn2(self.conv2(x)))
+        x = F.relu(self.bn3(self.conv3(x)))
+        return self.head(x.view(x.size(0), -1))
+
+policy_net = DQN().to(device)
+target_net = DQN().to(device)
+target_net.load_state_dict(policy_net.state_dict())
+target_net.eval()
+```
+
+接下来，我们定义我们的网络。 网络采用当前状态，对其进行一些卷积运算，最后收敛到线性层，并给出当前状态值的输出，和表示在该状态下有多大好处的值。
+
+我们定义了两个网络`policy_net`和`target_net`。 我们将`policy_net`的权重复制到`target_net`，以便它们代表相同的网络。 我们将`target_net`设为评估模式，以便在反向传播时不更新网络的权重。 我们将在每个步骤中推断`policy_net`，但会不时更新`target_net`。
+
+```py
+EPS_START = 0.9
+EPS_END = 0.05
+EPS_DECAY = 200
+steps_done = 0
+
+def select_action(state):
+    global steps_done
+    eps_threshold = EPS_END + (EPS_START - EPS_END) * \
+        math.exp(-1\. * steps_done / EPS_DECAY)
+    steps_done += 1
+
+    sample = random.random()
+    if sample > eps_threshold:
+
+        # freeze the network and get predictions
+        with torch.no_grad():
+            return policy_net(state).max(1)[1].view(1, 1)
+
+    else:
+
+        # select random action
+        return torch.tensor([[random.randrange(2)]], device=device, dtype=torch.long)
+```
+
+接下来，我们定义一种使用 ε 贪婪策略为我们采取行动的方法。 我们可以从策略网中推断出一定时间百分比，但是也有`eps_threshold`的机会，这意味着我们将随机选择操作。
+
+```py
+num_episodes = 20
+TARGET_UPDATE = 5
+
+for i_episode in range(num_episodes):
+    env.reset()
+    last_screen = get_screen()
+    current_screen = get_screen()
+    state = current_screen - last_screen
+
+    for t in count():  # for each timestep in an episode
+        # Select action for the given state and get rewards
+        action = select_action(state)
+        _, reward, done, _ = env.step(action.item())
+        reward = torch.tensor([reward], device=device)
+
+        # Observe new state
+        last_screen = current_screen
+        current_screen = get_screen()
+        if not done:
+            next_state = current_screen - last_screen
+        else:
+            next_state = None
+
+        # Store the transition in memory
+        memory.push(state, action, next_state, reward)
+
+        # Move to the next state
+        state = next_state
+
+        # Perform one step of the optimization (on the target network)
+        optimize_model()
+        if done:
+            break
+
+    # Update the target network every TARGET_UPDATE episodes
+    if i_episode % TARGET_UPDATE == 0:
+        target_net.load_state_dict(policy_net.state_dict())
+
+env.close()
+```
+
+让我们看看我们的训练循环。 对于每个剧集，我们都会重置环境。 我们从环境中获得了两个屏幕，将当前状态定义为两个屏幕之间的差异。 然后，对于剧集中的每个时间步，我们使用`select_action`函数选择一个动作。 我们要求环境采取该行动，并将奖励和`done`标志归还（它告诉我们剧集是否结束，也就是卡塔普尔跌倒了）。 我们观察到已经提出的新状态。 然后，我们将刚刚经历的事务推入存储体，并移至下一个状态。 下一步是优化模型。 我们将很快介绍该函数。
+
+我们还将每五集使用`policy_net`权重的副本更新`target_net`。
+
+```py
+BATCH_SIZE = 64
+GAMMA = 0.999
+optimizer = optim.RMSprop(policy_net.parameters())
+
+def optimize_model():
+
+    # Dont optimize till atleast BATCH_SIZE memories are filled
+    if len(memory) < BATCH_SIZE:
+        return
+
+    transitions = memory.sample(BATCH_SIZE)
+    batch = Transition(*zip(*transitions))
+
+    # Get the actual Q
+    state_batch = torch.cat(batch.state)
+    action_batch = torch.cat(batch.action)
+    state_values = policy_net(state_batch)  # Values of States for all actions
+
+    # Values of states for the selected action
+    state_action_values = state_values.gather(1, action_batch)
+
+    # Get the expected Q
+    # # Mask to identify if next state is final
+    non_final_mask = torch.tensor(tuple(map
+                                        (lambda s: s is not None,
+                                         batch.next_state)),
+                                         device=device, 
+                                         dtype=torch.uint8)
+    non_final_next_states = torch.cat([s for s in batch.next_state if s is not None])
+    next_state_values = torch.zeros(BATCH_SIZE, device=device)  # init to zeros
+    # predict next non final state values from target_net using next states
+    next_state_values[non_final_mask] = target_net(non_final_next_states).max(1)[0].detach()
+    reward_batch = torch.cat(batch.reward)
+    # calculate the predicted values of states for actions
+    expected_state_action_values = (next_state_values * GAMMA) + reward_batch
+
+    # Compute Huber loss
+    loss = F.smooth_l1_loss(state_action_values, expected_state_action_values.unsqueeze(1))
+
+    # Optimize the model
+    optimizer.zero_grad()
+    loss.backward()
+    for param in policy_net.parameters():
+        param.grad.data.clamp_(-1, 1)
+    optimizer.step()
+```
+
+然后是主要部分：优化器步骤。 这是我们使用`RMSProp`找出损失和反向传播的地方。 我们从存储库中提取了一些经验。 然后，我们将所有状态，动作和奖励转换为批量。 我们通过`policy_net`传递状态并获得相应的值。
+
+![Gym](img/B09475_07_07.jpg)
+
+然后，我们收集与操作批量相对应的值。
+
+![Gym](img/B09475_07_08.jpg)
+
+现在我们有了状态动作对，以及与之相关的值。 这对应于实际的 Q 函数。
+
+接下来，我们需要找到期望的 Q 函数。 我们创建一个由 0 和 1 组成的掩码，将非 0 状态映射为 1，将 0 状态（终端状态）映射为 0。通过算法的设计，我们知道终端状态将始终具有值 0。 状态的值为正，但终端状态的值为 0。掩码如下所示：
+
+![Gym](img/B09475_07_09.jpg)
+
+在那批状态中，置于 0 的 1 是终端状态。 所有其他均为非最终状态。 我们将所有非最终的下一个状态连接到`non_final_next_states`中。 之后，我们将`next_state_values`初始化为全 0。 然后，我们将`non_final_next_states`传递给`target_network`，从中获得最大值的操作值，并将其应用于`next_state_values[non_final_mask]`。 我们将从非最终状态预测的所有值都放入非最终`next_state_values`数组。 `next_state_values`的外观如下：
+
+![Gym](img/B09475_07_10.jpg)
+
+最后，我们计算期望的 Q 函数。 根据我们先前的讨论，它将是`R + Gamma`（下一个状态值）。 然后，我们根据实际 Q 函数和预期 Q 函数计算损失，然后将误差反向传播到策略网络（请记住`target_net`处于`eval`模式）。 我们还使用梯度钳制来确保梯度较小且不会转移得太远。
+
+训练神经网络将花费一些时间，因为该过程将渲染每个帧并计算该误差。 我们本可以使用一种更简单的方法，直接获取速度和位置来表示损失函数，并且由于不需要渲染每一帧，因此可以花费更少的时间进行训练。 它只会直接从`env.state`接受输入。
+
+此算法有许多改进，例如为智能体增加了想象力，以便可以更好地探索和想象其脑海中的动作，并做出更好的预测。
+
+## 总结
+
+在本章中，我们学习了无监督学习的一个全新领域：强化学习。 这是一个完全不同的领域，我们在本章中仅涉及了这个主题。 我们学习了如何对问题进行措辞以进行强化学习，然后我们训练了一个模型，该模型可以看到环境提供的一些测量结果，并且可以学习如何平衡赤字。 您可以应用相同的知识来教机器人走路，驾驶汽车以及玩游戏。 这是深度学习的更多物理应用之一。
+
+在下一章和最后一章中，我们将着眼于生产我们的 PyTorch 模型，以便您可以在任何框架或语言上运行它们，并扩展您的深度学习应用。
+
+## 参考
+
+1.  [Google DeepMind 挑战赛：Lee Sedol 与 AlphaGo](https://www.youtube.com/watch?v=vFr3K2DORc8)
+
+本章由 Sudhanshu Passi 贡献。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/8.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/8.md
new file mode 100644
index 00000000..7821bb30
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/8.md
@@ -0,0 +1,734 @@
+# 八、生产中的 PyTorch 
+
+2017 年，当 PyTorch 发布其可用版本时，它的承诺是成为研究人员的 Python 优先框架。 PyTorch 社区对此严格了一年，但随后看到了大量的生产要求，并决定将生产能力与 PyTorch 的第一个稳定版本 1.0 合并，但又不影响其创建的可用性和灵活性。
+
+PyTorch 以其干净的框架而闻名，因此要获得研究所需的生产能力和灵活性是一项艰巨的任务。 我认为，将生产支持推向核心的主要障碍是摆脱 Python 的境界，并将 PyTorch 模型转移到具有多线程功能的更快的线程安全语言中。 但是随后，这违反了 PyTorch 当时所遵循的 Python 优先原则。
+
+解决此问题的第一步是使**开放式神经网络交换**（**ONNX**）格式稳定，并与所有流行的框架兼容（至少与具有良好功能的框架兼容） 模块）。 ONNX 定义了深度学习图所需的基本运算符和标准数据类型。 这引导了 ONNX 进入 PyTorch 核心的道路，并且它与 ONNX 转换器一起为流行的深度学习框架（例如 CNTK，MXNet，TensorFlow 等）构建。
+
+ONNX 很棒，并且每个人都喜欢它，但是 ONNX 的主要缺点之一是其脚本模式。 也就是说，ONNX 运行一次图以获取有关图的信息，然后将其转换为 ONNX 格式。 因此，ONNX 无法迁移模型中的控制流（将`for`循环用于循环神经网络（RNN）模型的不同序列长度）。
+
+生产 PyTorch 的第二种方法是在 PyTorch 本身中构建高性能后端。 Caffe2 的核心与 PyTorch 核心合并在一起，而不是从头开始构建一个，但 Python API 保持不变。 但是，这并不能解决 Python 语言所具有的问题。
+
+接下来是 TorchScript 的引入，它可以将本机 Python 模型转换为可以在高性能 Universe 中加载的序列化形式，例如 C++ 线程。 PyTorch 的后端 LibTorch 可以读取 TorchScript，这使 PyTorch 高效。 有了它，开发人员可以对模型进行原型设计，甚至可以使用 Python 本身对其进行训练。 训练后，可以将模型转换为到**中间表示**（**IR**）。 目前，仅开发了 C++ 后端，因此可以将 IR 作为 C++ 对象加载，然后可以从 PyTorch 的 C++ API 中读取。 TorchScript 甚至可以在 Python 程序中转换控制流，这在生产支持的情况下使其优于 ONNX 方法。 TorchScript 本身是 Python 语言中可能的操作的子集，因此不允许任何 Python 操作用 TorchScript 编写。 官方文档本身提供了非常详细的说明，并讨论了可能的情况和不可能的情况，以及许多示例[1]。
+
+在本章中，我们将从使用 Flask（流行的 Python Web 框架）提供普通的 Python PyTorch 模型开始。 这样的设置通常就足够了，特别是如果您要设置示例 Web 应用或满足您个人需求或类似用例的东西。 然后，我们将探索 ONNX 并将 PyTorch 模型转换为 MXNet，然后可以使用 MXNet 模型服务器提供服务。 从那里，我们将转到 TorchScript，这是 PyTorch 社区的新东西。 使用 TorchScript，我们将制作 C++ 可执行文件，然后可以在 LibTorch 的帮助下从 C++ 执行该可执行文件。 然后，可以从稳定，高性能的 C++ 服务器甚至使用 cgo 的 Go 服务器提供高效的 C++ 可执行文件。 对于所有份量，我们将使用在第 2 章，“简单神经网络”中构建的 fizzbuzz 网络。
+
+## 与 Flask 一起使用
+
+在 Python 本身中提供 PyTorch 模型是在生产环境中提供模型的最简单方法。 但是在解释如何完成之前，让我们快速看一下 Flask 是什么。 完全解释 Flask 不在本章的讨论范围内，但我们仍将介绍 Flask 的最基本概念。
+
+### Flask 简介
+
+Flask 是的微框架，已被 Python 领域的多家大公司用于生产。 即使 Flask 提供了可用于将 UI 推送到客户端的模板引擎，我们也没有使用它。 相反，我们将制作一个提供 API 的 RESTful 后端。
+
+可以使用`pip`来安装 Flask ，就像其他任何 Python 包一样：
+
+```py
+pip install Flask
+
+```
+
+这将安装其他依赖项 Werkzeug（应用和服务器之间的 Python 接口），Jinga（作为模板引擎），其危险（用于安全签名数据）和 Click（作为 CLI 构建器）。
+
+安装后，用户将可以访问 CLI，并使用`flask run`调用我们的脚本将启动服务器：
+
+```py
+from flask import Flask
+app = Flask(__name__)
+
+@app.route("/")
+def hello():
+    return "Hello World!"
+```
+
+该示例包含四个部分：
+
+*   第一行是我们导入 Flask 包的位置。
+*   我们创建一个 Flask 对象，这是我们的大型 Web 应用对象，Flask 服务器将使用该对象来运行我们的服务器。
+*   有了应用对象后，我们需要存储有关对象应对其执行操作的 URL 的信息。 为此，应用对象带有`route`方法，该方法接受所需的 URL 并返回装饰器。 这是我们希望应用现在提供的 URL。
+*   由应用对象返回的装饰器对一个函数进行装饰，当 URL 命中时，将触发该函数。 我们将其命名为`hello`。 函数的名称在这里并不重要。 在前面的示例中，它只是检查输入并做出相应的响应。 但是对于我们的模型服务器，我们使此函数稍微复杂一点，以便它可以接受输入并将该输入提供给我们构建的模型。 然后，我们模型的返回值将作为 HTTP 响应推回给用户。
+
+我们通过建立`flask_trial`目录开始实现，并将该文件另存为`app.py`在该目录中：
+
+```py
+mkdir flask_trial
+cd flask_trial
+
+```
+
+然后，我们执行 Flask 随附的 CLI 命令来启动服务器。 执行后，如果未提供自定义参数，您将看到`http://127.0.0.1:5000`正在为服务器提供服务。
+
+```py
+flask run
+
+```
+
+我们可以通过向服务器位置发出 HTTP 请求来测试简单的 Flask 应用。 如果一切正常，我们应该得到一个“你好，世界！” 来自服务器的消息。
+
+```py
+-> curl "http://127.0.0.1:5000"
+-> Hello World!
+
+```
+
+我们已经建立了简单的 Flask 应用。 现在，将 fizzbuzz 模型引入我们的应用。 以下代码片段显示了与第 2 章和“简单神经网络”相同的模型，供您参考。 该模型将从路由函数中调用。 我们已经在第 2 章和“一个简单的神经网络”中对模型进行了训练，因此，我们将在这里加载训练后的模型，而不是再次对其进行训练：
+
+```py
+import torch.nn as nn
+import torch
+
+class FizBuzNet(nn.Module):
+    """
+    2 layer network for predicting fiz or buz
+    param: input_size -> int
+    param: output_size -> int
+    """
+
+    def __init__(self, input_size, hidden_size, output_size):
+        super(FizBuzNet, self).__init__()
+        self.hidden = nn.Linear(input_size, hidden_size)
+        self.out = nn.Linear(hidden_size, output_size)
+
+    def forward(self, batch):
+        hidden = self.hidden(batch)
+        activated = torch.sigmoid(hidden)
+        out = self.out(activated)
+        return out
+```
+
+#### 用于 Flask 的模型
+
+下面的屏幕快照给出了我们应用的目录结构。 `assets`文件夹具有训练好的模型，在加载模型时，`controller.py`文件将使用该模型。 根目录中的`app.py`是 Flask 应用的入口。 Flask 首选`app.py`作为入口点文件的默认名称。
+
+当您执行`flask run`时，Flask 将在当前目录中查找`app.py`文件并执行该文件。 `controller.py`文件是我们从`model.py`文件加载模型的地方。 然后，加载的模型将等待用户通过 HTTP 端点输入。 `app.py`将用户输入重定向到`controller`，然后将其转换为 Torch 张量。
+
+张量对象将通过神经网络传递，并且`controller`将神经网络的结果传递给后处理操作后，从神经网络返回结果。
+
+![Model serving with Flask](img/B09475_08_01.jpg)
+
+图 8.1：当前目录
+
+目录中有四个组件用于制作 Flask 应用。 `assets`文件夹是我们保留模型的地方。 其他三个文件是代码所在的位置。 让我们研究一下每个。 我们将从入口文件`app.py`开始。 它是先前提供的简单 Flask 应用的扩展版本。 该文件教我们如何定义 URL 端点，以及如何将 URL 端点映射到 Python 函数。 我们的扩展`app.py`文件显示在以下代码块中：
+
+```py
+import json
+
+from flask import Flask
+from flask import request
+
+import controller
+
+app = Flask('FizBuzAPI')
+
+@app.route('/predictions/fizbuz_package', methods=['POST'])
+def predict():
+    which = request.get_json().get('input.1')
+    if not which:
+        return "InvalidData"
+    try:
+        number = int(which) + 1
+        prediction = controller.run(number)
+        out = json.dumps({'NextNumber': prediction})
+    except ValueError:
+        out = json.dumps({'NextNumber': 'WooHooo!!!'})
+    return out
+```
+
+Flask 为我们提供了`request`工具，它是一个全局变量，但对于存储有关当前请求信息的当前线程而言是局部的。 我们使用`request`对象的`get_json`函数从`request`对象获取主体`POST`参数。 然后，将通过 HTTP 传入的字符串数据转换为整数。 这个整数是我们从前端传递的数字。 我们应用的任务是预测下一个数字的状态。 那将是下一个数字本身还是嘶嘶声，嗡嗡声或嘶嘶声？ 但是，如果您还记得，我们会训练我们的网络来预测我们通过的号码的状态。 但是，我们需要下一个号码的状态。 因此，我们将一个加到当前数上，然后将结果传递给我们的模型。
+
+我们的下一个导入是`controller`，我们在其中加载了模型文件。 我们正在调用`run`方法并将数字传递给模型。 然后，将`controller`的预测值作为字典传递回。 Flask 会将其转换为响应正文并将其发送回用户。
+
+在继续之前，我们可以从以前的简单 Flask 应用的扩展版本中看到两个主要差异。 一种是 URL 路由：`/predictions/fizbuz_package`。 如前所述，Flask 允许您将任何 URL 端点映射到您选择的函数。
+
+其次，我们在装饰器中使用了另一个关键字参数：`methods`。 这样，我们告诉 Flask，不仅需要通过 URL 规则来调用此函数，而且还需要在对该 URL 的`POST`方法调用上进行调用。 因此，我们像以前一样使用`flask run`运行该应用，并使用`curl`命令对其进行测试。
+
+```py
+-> curl -X POST http://127.0.0.1:5000/predictions/fizbuz_package \
+ -H "Content-Type: application/json" \
+ -d '{"input.1": 14}'
+
+-> {"NextNumber": "FizBuz"}
+
+```
+
+在 HTTP `POST`请求中，我们传递了输入数字为`14`的 JSON 对象，我们的服务器返回了下一个数字`FizBuz`。 所有这些魔术都发生在我们的`app.py`调用的`controller.run()`方法中。 现在，让我们看看该函数在做什么。
+
+接下来是使用`run()`方法的`controller`文件。 在这里，我们将输入数字转换为 10 位二进制数（请记住，在第 2 章，“简单神经网络”中，这是我们作为输入传递给 fizzbuzz 网络的东西），将其变为 Torch 张量。 然后将二进制张量传递给我们模型的正向函数，以得到具有预测的`1 x 4`张量。
+
+通过从加载了保存的`.pth`文件的模型文件中调用`FizBuz`类来创建我们的模型。 我们使用 Torch 的`load_state_dict`方法将参数加载到初始化的模型中。 之后，我们将模型转换为`eval()`模式，这将模型设置为评估模式（它在评估模式下关闭了`batchnorm`丢弃层）。 模型的输出是运行`max`并确定哪个索引具有最大值，然后将其转换为可读输出的概率分布。
+
+#### 为生产准备的服务器
+
+这是关于如何使用 Flask 将 PyTorch 模型部署到服务器的非常基本的演练。 但是 Flask 的内置服务器尚未投入生产，只能用于开发目的。 开发完成后，我们应该使用其他服务器包在生产中为 Flask 应用提供服务。
+
+Gunicorn 是 Python 开发人员使用的最受欢迎的服务器包之一，将其与 Flask 应用绑定非常容易。 您可以使用`pip`安装 Gunicorn，就像我们安装 Flask 一样：
+
+```py
+pip install gunicorn
+
+```
+
+Gunicorn 需要我们传递模块名称，以便它能够拾取模块并运行服务器。 但是 Gunicorn 希望应用对象具有名称`application`，而我们的项目则不是这样。 因此，我们需要显式传递应用对象名称和模块名称。 Gunicorn 的命令行工具有很多选择，但是我们正在尝试使其尽可能简单：
+
+```py
+gunicorn app:app
+
+```
+
+```py
+import torch
+from model import FizBuzNet
+
+input_size = 10
+output_size = 4
+hidden_size = 100
+
+def binary_encoder():
+    def wrapper(num):
+        ret = [int(i) for i in '{0:b}'.format(num)]
+        return [0] * (input_size - len(ret)) + ret
+    return wrapper
+
+net = FizBuzNet(input_size, hidden_size, output_size)
+net.load_state_dict(torch.load('assets/fizbuz_model.pth'))
+net.eval()
+encoder = binary_encoder()
+
+def run(number):
+    with torch.no_grad():
+        binary = torch.Tensor([encoder(number)])
+        out = net(binary)[0].max(0)[1].item()
+    return get_readable_output(number, out)
+```
+
+## ONNX
+
+建立 ONNX 协议是为了创建不同框架之间的互操作性。 这可以帮助 AI 开发人员和组织选择合适的框架来开发他们花费大部分时间的 AI 模型。 一旦开发和训练阶段结束，他们便可以将模型迁移到他们选择的任何框架中，以在生产中提供服务。
+
+可以针对不同目的优化不同的框架，例如移动部署，可读性和灵活性，生产部署等。 有时将模型转换为不同的框架是不可避免的，手动转换很耗时。 这是 ONNX 试图通过互操作性解决的另一个用例。
+
+让我们以任何框架示例为例，看看 ONNX 适合什么地方。框架将具有语言 API（供开发人员使用），然后是由他们开发的模型的图形表示。 然后，该 IR 进入高度优化的运行时以执行。 ONNX 为此 IR 提供了统一的标准，并使所有框架都了解 ONNX 的 IR。 借助 ONNX，开发人员可以使用 API​​制作模型，然后将其转换为框架的 IR。 ONNX 转换器可以将该 IR 转换为 ONNX 的标准 IR，然后可以将其转换为其他框架的 IR。
+
+这是 PyTorch 的 Fizzbuzz 网络的 IR 的可读表示：
+
+```py
+graph(%input.1 : Float(1, 10)
+      %weight.1 : Float(100, 10)
+      %bias.1 : Float(100)
+      %weight : Float(4, 100)
+      %bias : Float(4)) {
+  %5 : Float(10!, 100!) = aten::t(%weight.1),scope: FizBuzNet/Linear[hidden]
+  %6 : int = prim::Constant[value=1](),scope: FizBuzNet/Linear[hidden]
+  %7 : int = prim::Constant[value=1](),scope: FizBuzNet/Linear[hidden]
+  %hidden : Float(1, 100) = aten::addmm(%bias.1, %input.1, %5, %6,%7), scope: FizBuzNet/Linear [hidden]
+  %input : Float(1, 100) = aten::sigmoid(%hidden),scope: FizBuzNet
+  %10 : Float(100!, 4!) = aten::t(%weight),scope: FizBuzNet/Linear[out]
+  %11 : int = prim::Constant[value=1](),scope: FizBuzNet/Linear[out]
+  %12 : int = prim::Constant[value=1](),scope: FizBuzNet/Linear[out]
+  %13 : Float(1, 4) = aten::addmm(%bias, %input, %10, %11, %12),scope: FizBuzNet/Linear[out]
+  return (%13);
+}
+```
+
+表示清楚地表明了整个网络的结构。 前五行显示参数和输入张量，并为每一个标记一个名称。 例如，整个网络将输入张量定为`input.i`，它是形状为`1 x 10`的浮点张量。然后，它显示了我们第一层和第二层的权重和偏差张量。
+
+从第六行开始，显示了图的结构。 每行的第一部分（以`%`符号开头的全冒号之前的字符）是每行的标识符，这是其他行中用来引用这些行的标识符。 例如，以`%5`作为标识符的线对`aten::t(%weight.i)`表示的第一层的权重进行转置，从而输出形状为`10 x 100`的浮点张量。
+
+![ONNX](img/B09475_08_02.jpg)
+
+图 8.2：另一个 IR 转换为 ONNX 的 IR，然后又转换为另一个 IR
+
+PyTorch 具有内置的 ONNX 导出器，它可以帮助我们创建 ONNX IR，而无需离开 PyTorch。 在此处给出的示例中，我们将 fizbuzz 网络导出到 ONNX，然后由 MXNet 模型服务器提供服务。 在以下代码段中，我们使用 PyTorch 的内置`export`模块将 fizzbuzz 网络转换为 ONNX 的 IR：
+
+```py
+>>> import torch
+>>> dummy_input = torch.Tensor([[0, 0, 0, 0, 0, 0, 0, 0, 1, 0]])
+>>> dummy_inputtensor([[O., 0., 0., 0., 0., 0., 0., O., 1., 0.]])
+>>> net = FizBuzNet(input_size, hidden_size, output_size)
+>>> net.load_state_dict(torch.load('assets/fizbuz_model.pth'))
+>>> dummy_input = torch.Tensor([[0, 0, 0, 0, 0, 0, 0, 0, 1, 0]])
+>>> torch.onnx.export(net, dummy_input, "fizbuz.onnx", verbose=True)
+
+```
+
+在最后一行，我们调用`export`模块，并传递 PyTorch 的`net`，虚拟输入和输出文件名。 ONNX 通过跟踪图进行转换； 也就是说，它使用我们提供的虚拟输入执行一次图。
+
+在执行图时，它会跟踪我们执行的 PyTorch 操作，然后将每个操作转换为 ONNX 格式。 键值参数`verbose=True`在导出时将输出写入到终端屏幕。 它为我们提供了 ONNX 中相同图的 IR 表示：
+
+```py
+graph(%input.1 : Float(1, 10)
+      %1 : Float(100, 10)
+      %2 : Float(100)
+      %3 : Float(4, 100)
+      %4 : Float(4)) {
+  %5 : Float(1, 100) = onnx::Gemm[alpha=1, beta=1,transB=1](%input.1, %1, %2),scope: FizBuzNet/Linear[hidden]
+  %6 : Float(1, 100) = onnx::Sigmoid(%5), scope: FizBuzNet
+  %7 : Float(1, 4) = onnx::Gemm[alpha=1, beta=1,transB=1](%6, %3, %4),scope: FizBuzNet/Linear[out]
+  return (%7);
+}
+```
+
+它还显示了图执行所需的所有操作，但比 PyTorch 的图形表示要小。 虽然 PyTorch 向我们显示了每个操作（包括转置操作），但 ONNX 会在高级功能（例如`onnx:Gemm`）下抽象该粒度信息，前提是其他框架的`import`模块可以读取这些抽象。
+
+PyTorch 的`export`模块将 ONNX 模型保存在`fizbuz.onnx`文件中。 可以从 ONNX 本身或其他框架中内置的 ONNX 导入程序中加载。 在这里，我们将 ONNX 模型加载到 ONNX 本身并进行模型检查。 ONNX 还具有由 Microsoft 管理的高性能运行时，这超出了本书的解释范围，但可在[这个页面](https://github.com/Microsoft/onnxruntime)上获得。
+
+由于 ONNX 已成为框架之间互操作性的规范，因此围绕它构建了其他工具。 最常用/最有用的工具可能是 Netron，它是 ONNX 模型的可视化工具。 尽管 Netron 不像 TensorBoard 那样具有交互性，但 Netron 足以用于基本可视化。
+
+拥有`.onnx`文件后，您可以将文件位置作为参数传递给 Netron 命令行工具，该工具将构建服务器并在浏览器中显示该图：
+
+```py
+pip install netron
+netron -b fizbuz.onnx
+
+```
+
+前面的命令将使用 Fizzbuzz 网络的图可视化来启动 Netron 服务器，如下图所示。 除了可缩放的图外，Netron 还可以可视化其他基本信息，例如版本，生成器，图的生成方式等等。 另外，每个节点都是可单击的，它将显示有关该特定节点的信息。 当然，这还不够复杂，无法满足可视化工具所需的所有要求，但足以让我们对整个网络有所了解。
+
+![ONNX](img/B09475_08_03.jpg)
+
+图 8.3：Fizzbuzz 网络的 Netron 可视化
+
+从成为 ONNX 可视化工具开始，Netron 逐渐接受所有流行框架的导出模型。 目前，根据官方文件，Netron 接受 ONNX，Keras，CoreML，Caffe2，MXNet，TensorFlow Lite，TensorFlow.js，TensorFlow，Caffe，PyTorch，Torch，CNTK，PaddlePaddle，Darknet 和 scikit-learn 的模型。
+
+### MXNet 模型服务器
+
+现在我们离开了 PyTorch 世界。 我们现在有不同的模型服务器，但我们选择了 MXNet 模型服务器。 MXNet 模型服务器由社区维护，由亚马逊团队领导，也称为 MMS。 从这里开始，我将交替使用 MMS 和 MXNet 模型服务器。
+
+MXNet 比其他服务模块更好。 在撰写本文时，TensorFlow 与 Python 3.7 不兼容，并且 MXNet 的服务模块已与内置的 ONNX 模型集成，这使开发人员可以轻松地以很少的命令行为模型提供服务，而无需了解分布式或高度可扩展的部署的复杂性。
+
+其他模型服务器，例如 TensorRT 和 Clipper，不像 MXNet 服务器那样易于设置和管理。 而且，MXNet 附带了另一个名为 MXNet 存档器的工具，该工具将所有必需的文件打包成一个捆绑包，这些文件可以独立部署，而不必担心其他依赖项。 除了 MXNet 模型服务器具备的所有这些很酷的功能之外，最大的好处是能够自定义预处理和后处理步骤。 我们将在接下来的部分中介绍如何完成所有这些操作。
+
+整个过程的流程从我们尝试使用模型存档器创建具有`.mar`格式的单个存档文件的位置开始。 单个捆绑包文件需要 ONNX 模型文件`signature.json`，该文件提供有关输入大小，名称等的信息。 认为它是可以随时更改的配置文件。 如果您决定将所有值硬编码到代码中，而不是从配置中读取，则它甚至不必成为存档的一部分。 然后，您需要服务文件，您可以在其中定义预处理，推理功能，后处理功能和其他工具函数。
+
+制作完模型档案后，我们可以调用模型服务器，并将位置作为输入传递给我们的模型档案。 而已; 您现在可以从超级性能模型服务器提供模型。
+
+#### MXNet 模型存档器
+
+我们将通过安装 MXNet 模型存档器开始我们的旅程。 MXNet 模型服务器随附的默认模型存档器不支持 ONNX，因此我们需要单独安装。 ONNX 的模型存档器依赖于协议缓冲区和 MXNet 包本身。 官方文档中提供了为每个操作系统安装 protobuf 编译器的指南。 可以通过`pip`来安装 MXNet 包，就像我们已经安装了其他包一样（对于 GPU，MXNet 还有另一个包，但是这里我们正在安装 MXNet 的基本版本）：
+
+```py
+pip install mxnet
+pip install model-archiver[onnx]
+
+```
+
+现在，我们可以安装 MXNet 模型服务器。 它基于 **Java 虚拟机**（**JVM**）构建，因此从 JVM 调用了运行有我们模型实例的多个线程。 利用 JVM 支持的复杂性，可以将 MXNet 服务器扩展为处理数千个请求的多个进程。
+
+MXNet 服务器带有管理 API，该 API 通过 HTTP 提供。 这有助于生产团队根据需要增加/减少资源。 除了处理工作器规模之外，管理 API 还具有其他选项。 但是我们不会在这里深入探讨。 由于模型服务器在 JVM 上运行，因此我们需要安装 Java8。此外，MXNet 模型服务器在 Windows 上仍处于试验模式，但在 Linux 风味和 Mac 上稳定。
+
+```py
+pip install mxnet-model-server
+
+```
+
+现在，在安装了所有前提条件之后，我们可以开始使用 MXNet 模型服务器对可用于生产的 PyTorch 模型进行编码。 首先，我们创建一个新目录，以保存所有需要的文件以供模型存档器创建捆绑文件。 然后，我们移动在上一步中创建的`.onnx`文件。
+
+MMS 的一项强制性要求是其中包含服务类的服务文件。 MMS 执行服务文件中唯一可用类的`initialize()`和`handle()`函数。 在下一节中，我们将逐一进行介绍，但这是我们可以用来制作服务文件的框架。
+
+![MXNet model archiver](img/B09475_08_04.jpg)
+
+图 8.4：`fizbuz_package`的目录结构
+
+```py
+class MXNetModelService(object):
+
+    def __init__(self):
+        ...
+    def initialize(self, context):
+        ...
+    def preprocess(self, batch):
+        ...
+    def inference(self, model_input):
+        ...
+    def postprocess(self, inference_output):
+        ...
+    def handle(self, data, context):
+        ...
+```
+
+然后，我们需要一个签名文件。 正如我们之前所看到的，签名文件只是配置文件。 我们可以通过将值硬编码到脚本本身来避免发生这种情况，但是 MMS 人士也建议这样做。 我们为 fizzbuzz 网络制作了最小的签名文件，如下所示：
+
+```py
+{
+  "inputs": [
+    {
+      "data_name": "input.1",
+      "data_shape": [
+        1,
+        10
+      ]
+    }
+  ],
+  "input_type": "application/json"
+}
+```
+
+在签名文件中，我们描述了数据名称，输入形状和输入类型。 当通过 HTTP 读取数据流时，这就是我们的服务器假定的数据信息。 通常，我们可以通过在签名文件中进行配置来使我们的 API 接受任何类型的数据。 但是然后我们的脚本也应该能够处理这些类型。 让我们完成服务文件，然后将其与 MMS 捆绑在一起。
+
+如您先前所见，MMS 调用服务文件中唯一可用的单个类的`initialize()`方法。 如果服务文件中存在更多类，那就完全是另一回事了，但是让我们足够简单地理解它。 顾名思义，`initialize()`文件初始化所需的属性和方法：
+
+```py
+def initialize(self, context):
+    properties = context.system_properties
+    model_dir = properties.get("model_dir")
+    gpu_id = properties.get("gpu_id")
+    self._batch_size = properties.get('batch_size')
+    signature_file_path = os.path.join(
+        model_dir, "signature.json")
+    if not os.path.isfile(signature_file_path):
+        raise RuntimeError("Missing signature.json file.")
+    with open(signature_file_path) as f:
+        self.signature = json.load(f)
+    data_names = []
+    data_shapes = []
+    input_data = self.signature["inputs"][0]
+    data_name = input_data["data_name"]
+    data_shape = input_data["data_shape"]
+    data_shape[0] = self._batch_size
+    data_names.append(data_name)
+    data_shapes.append((data_name, tuple(data_shape)))
+    self.mxnet_ctx = mx.cpu() if gpu_id is None elsemx.gpu(gpu_id)
+    sym, arg_params, aux_params = mx.model.load_checkpoint(checkpoint_prefix, self.epoch)
+    self.mx_model = mx.mod.Module(
+        symbol=sym, context=self.mxnet_ctx,
+        data_names=data_names, label_names=None)
+    self.mx_model.bind(
+        for_training=False, data_shapes=data_shapes)
+    self.mx_model.set_params(
+        arg_params, aux_params,
+        allow_missing=True, allow_extra=True)
+    self.has_initialized = True
+```
+
+MMS 在调用`initialize()`时传递上下文参数，该参数具有在解压缩存档文件时获取的信息。 当首先使用存档文件路径作为参数调用 MMS 时，在调用服务文件之前，MMS 解压缩存档文件并安装模型，并收集信息，其中存储模型，MMS 可以使用多少个内核，它是否具有 GPU 等。 所有这些信息都作为上下文参数传递给`initialize()`。
+
+`initialize()`的第一部分是收集此信息以及来自签名 JSON 文件的信息。 函数的第二部分从第一部分中收集的信息中获取与输入有关的数据。 然后，该函数的第三部分是创建 MXNet 模型并将训练后的参数加载到模型中。 最后，我们将`self.has_initialized`变量设置为`True`，然后将其用于检查服务文件其他部分的初始化状态：
+
+```py
+def handle(self, data, context):
+    try:
+        if not self.has_initialized:
+            self.initialize()
+        preprocess_start = time.time()
+        data = self.preprocess(data)
+        inference_start = time.time()
+        data = self.inference(data)
+        postprocess_start = time.time()
+        data = self.postprocess(data)
+        end_time = time.time()
+
+        metrics = context.metrics
+        metrics.add_time(self.add_first())
+        metrics.add_time(self.add_second())
+        metrics.add_time(self.add_third())
+        return data
+    except Exception as e:
+        request_processor = context.request_processor
+        request_processor.report_status(
+            500, "Unknown inference error")
+        return [str(e)] * self._batch_size
+```
+
+MMS 被编程为在每个请求上调用相同类的`handle()`方法，这是我们控制流程的地方。 `initialize()`函数只会在启动线程时被调用一次； 每个用户请求都将调用`handle()`函数。 由于`handle()`函数是针对每个用户请求被调用的，以及上下文信息，因此它也将在参数中获取当前数据。 但是，为了使程序模块化，我们没有在`handle()`中进行任何操作； 取而代之的是，我们正在调用其他仅指定做一件事的函数：该函数应该做什么。
+
+我们将整个流分为四个部分：预处理，推理，后处理和矩阵记录。 在`handle()`的第一行中，我们验证是否正在使用上下文和数据信息初始化线程。 完成后，我们将进入流程。 现在，我们将逐步完成流程。
+
+我们首先使用`data`作为参数调用`self.preprocess()`函数，其中`data`将是 HTTP 请求的`POST`正文内容。 `preprocess`函数以与我们在`signature.json`文件中配置的名称相同的名称获取传递的数据。 一旦有了数据，这就是我们需要系统预测下一个数字的整数。 由于我们已经训练了模型来预测当前号码的嘶嘶声状态，因此我们将在数据中为号码添加一个嗡嗡声，然后在新号码的二进制文件上创建一个 MXNet 数组：
+
+```py
+def preprocess(self, batch):
+    param_name = self.signature['inputs'][0]['data_name']
+    data = batch[0].get('body').get(param_name)
+    if data:
+        self.input = data + 1
+        tensor = mx.nd.array(
+            [self.binary_encoder(self.input, input_size=10)])
+        return tensor
+    self.error = 'InvalidData'
+```
+
+`handle()`函数获取已处理的数据，并将其传递给`inference()`函数，该函数将使用已处理的数据调用保存在`initialize()`函数上的 MXNet 模型。 `inference()`函数返回大小为`1 x 4`的输出张量，然后将其返回到`handle()`函数。
+
+```py
+def inference(self, model_input):
+    if self.error is not None:
+        return None
+    self.mx_model.forward(DataBatch([model_input]))
+    model_output = self.mx_model.get_outputs()
+    return model_output
+```
+
+然后将张量传递给`postprocess()`函数，以将其转换为人类可读的输出。 我们具有`self.get_readable_output()`函数，可根据需要将模型的输出转换为嘶嘶声，嗡嗡声，嘶嘶声嗡嗡声或下一个数字。
+
+然后，后处理的数据返回到`handle()`函数，在其中进行矩阵创建。 之后，数据将返回到`handle()`函数的被调用方，该函数是 MMS 的一部分。 MMS 将该数据转换为 HTTP 响应，并将其返回给用户。 MMS 还记录矩阵的输出，以便操作可以实时查看矩阵并基于此做出决策：
+
+```py
+def postprocess(self, inference_output):
+    if self.error is not None:
+        return [self.error] * self._batch_size
+    prediction = self.get_readable_output(
+        self.input,
+        int(inference_output[0].argmax(1).asscalar()))
+    out = [{'next_number': prediction}]
+    return out
+```
+
+一旦将所有文件包含在前面给出的目录中，就可以创建`.mar`存档文件：
+
+```py
+model-archiver \
+        --model-name fizbuz_package \
+        --model-path fizbuz_package \
+        --handler fizbuz_service -f
+```
+
+这将在当前目录中创建一个`fizbuz_package.mar`文件。 然后可以将其作为 CLI 参数传递给 MMS：
+
+```py
+mxnet-model-server \
+        --start \
+        --model-store FizBuz_with_ONNX \
+        --models fizbuz_package.mar
+```
+
+现在，我们的模型服务器已启动并在端口 8080 上运行（如果您尚未更改端口）。 我们可以尝试执行与 Flask 应用相同的`curl`命令（显然，我们必须更改端口号）并检查模型。 我们应该获得与 Flask 应用完全相同的结果，但是现在我们可以根据需要动态地动态扩展或缩减工作器的数量。 MMS 为此提供了管理 API。 管理 API 带有几个可配置的选项，但是这里我们只关注于增加或减少工作器的数量。
+
+除了在端口 8080 上运行的服务器之外，还将在 8081 上运行管理 API 服务，我们可以对其进行调用和控制配置。 使用简单的`GET`请求命中该端点将为您提供服务器的状态。 但是在探究这一点之前，我们将工作器数量设为 1（默认情况下为 4）。 API 端点是适当的 REST 端点； 我们在路径中指定模型名称，并传递参数`max_worker=1`以使工作器数为 1。 我们也可以通过`min_worker=<number>`来增加工作器数量。 官方文档[2]中详细介绍了管理 API 上可能的配置。
+
+```py
+-> curl -v -X PUT "http://localhost:8081/models/fizbuz_package?max_worker=1"
+...
+{
+ "status": "Processing worker updates..."
+}
+...
+
+```
+
+一旦减少了工作器的数量，我们就可以命中端点来确定服务器的状态。 示例输出（在我们减少了工作器数量之后）如下：
+
+```py
+-> curl "http://localhost:8081/models/fizbuz_package"
+{
+ "modelName": "fizbuz_package",
+ "modelUrl": "fizbuz_package.mar",
+ "runtime": "python",
+ "minWorkers": 1,
+ "maxWorkers": 1,
+ "batchSize": 1,
+ "maxBatchDelay": 100,
+ "workers": [
+ {
+ "id": "9000",
+ "startTime": "2019-02-11T19:03:41.763Z",
+ "status": "READY",
+ "gpu": false,
+ "memoryUsage": 0
+ }
+ ]
+}
+
+```
+
+我们已经设置了模型服务器，现在我们知道如何根据比例配置服务器。 让我们使用 Locust 对服务器进行负载测试，并检查服务器的负载情况，以及根据我们的需求增加/减少资源有多容易。 将 AI 模型部署到生产环境并非易事。
+
+#### 负载测试
+
+随后是示例蝗虫脚本，应将其另存为`locust.py`在当前目录中。 如果已安装 Locust（可以使用`pip`进行安装），则调用`locust`将打开 Locust 服务器并打开 UI，我们可以在其中输入要测试的比例尺。 我们可以逐步提高规模，并检查服务器在什么时候开始崩溃，然后点击管理 API 以增加工作量并确保我们的服务器可以容纳规模：
+
+```py
+import random
+from locust import HttpLocust, TaskSet, task
+
+class UserBehavior(TaskSet):
+    def on_start(self):
+        self.url = "/predictions/fizbuz_package"
+        self.headers = {"Content-Type": "application/json"}
+
+    @task(1)
+    def success(self):
+        data = {'input.1': random.randint(0, 1000)}
+        self.client.post(self.url, headers=self.headers, json=data)
+
+class WebsiteUser(HttpLocust):
+    task_set = UserBehavior
+    host = "http://localhost: 8081"
+```
+
+![Load testing](img/B09475_08_05.jpg)
+
+图 8.5：Locust UI，我们可以在其中配置用户数量以模拟生产负载
+
+## TorchScript 的效率
+
+我们已经设置了简单的 Flask 应用服务器来为我们的模型提供服务，并且已经使用 MXNet 模型服务器实现了相同的模型，但是如果我们需要摆脱 Python 的世界，并使用 C++ 或 Go 创建高效的服务器 ，或使用其他有效的语言，PyTorch 提出了 TorchScript，它可以生成模型中最有效的形式，并且可以在 C++ 中读取。
+
+现在的问题是：这不是我们对 ONNX 所做的吗？ 也就是说，从 PyTorch 模型创建另一个 IR？ 是的，过程相似，但区别在于 ONNX 使用跟踪创建了优化的 IR； 也就是说，它通过模型传递虚拟输入，并在执行模型时记录 PyTorch 操作，然后将这些操作转换为中间 IR。
+
+这种方法有一个问题：如果模型是数据相关的，例如 RNN 中的循环，或者`if`/`else`条件是基于输入的，那么跟踪就不能真正做到这一点。 跟踪将仅发现在特定执行周期中发生的情况，而忽略其他情况。 例如，如果我们的虚拟输入是 10 个单词的句子，而我们的模型是基于循环的 RNN，则跟踪的图将对 RNN 单元的 10 次执行进行硬编码，如果句子的长度大于 10，或者较短的句子带有更少的单词，则它将中断。 考虑到这一点引入了 TorchScript。
+
+TorchScript 支持此类 Python 控制流的一个子集，唯一要做的就是将现有程序转换为所有控制流都是 TorchScript 支持的控制流的阶段。 LibTorch 可以读取 TorchScript 创建的中间阶段。 在此会话中，我们将创建 TorchScript 输出并编写一个 C++ 模块以使用 LibTorch 加载它。
+
+即使 TorchScript 是 PyTorch 早期版本的 JIT 包的一部分，它仍在 PyTorch 1.0 中引入了可用且稳定的 TorchScript 版本。 TorchScript 可以序列化和优化用 PyTorch 编写的模型。
+
+与 ONNX 一样，TorchScripts 可以作为 IR 保存到磁盘中，但是与 ONNX 不同，该 IR 经过优化可在生产环境中运行。 保存的 TorchScript 模型可以在不依赖 Python 的环境中加载。 由于性能和多线程原因，Python 一直是生产部署的瓶颈，即使 Python 可以带给您的扩展能力足以满足现实世界中的大多数使用情况。
+
+避免这种基本的瓶颈是所有可用于生产环境的框架的主要任务，这就是为什么静态计算图统治框架世界的原因。 PyTorch 通过引入具有高级 API 的基于 C++ 的运行库来解决此问题，如果开发人员希望使用 C++ 进行编程，则可以使用这些 API。
+
+通过将 TorchScript 推到核心，PyTorch 可以投入生产了。 TorchScript 可以将用 Python 编写的模型转换为高度优化的 IR，然后可由 LibTorch 读取。 然后，可以将 LibTorch 加载的模型保存为 C++ 对象，并可以在 C++ 程序或其他高效编程语言（例如 Go）中运行。
+
+PyTorch 允许您通过两种方法制作 TorchScript IR。 最简单的是通过跟踪，就像 ONNX 一样。 您可以通过虚拟输入将模型（甚至函数）传递给`torch.jit.trace`。 PyTorch 通过模型/函数运行虚拟输入，并在运行输入时跟踪操作。
+
+然后，可以将跟踪的函数（PyTorch 操作）转换为优化的 IR，也称为静态单分配 IR。 像 ONNX 图一样，该图中的指令也具有张量库（ATen，PyTorch 的后端）可以理解的原始运算符。
+
+这确实很容易，但是要付出代价。 基于跟踪的推理具有 ONNX 的基本问题：它无法处理依赖于数据的模型结构更改，即`if`/`else`条件检查或循环（序列数据）。 为了处理这种情况，PyTorch 引入了脚本模式。
+
+可以通过使用`torch.jit.script`装饰器（用于常规函数）和`torch.jit.script_method`（用于 PyTorch 模型上的方法）来启用脚本模式。 通过此装饰器，函数/方法中的内容将直接转换为 TorchScript。 在对模型类使用`torch.jit.script_method`时要记住的另一件重要事情是关于父类。 通常，我们从`torch.nn.Module`继承，但是为了制作 TorchScript，我们从`torch.jit.ScriptModule`继承。 这有助于 PyTorch 避免使用无法转换为 TorchScript 的纯 Python 方法。 目前，TorchScript 不支持所有 Python 函数，但具有支持数据相关张量操作的所有必需函数。
+
+我们将首先将模型导出到`ScriptModule` IR，以此开始 fizzbuzz 模型的 C++ 实现，就像我们对 ONNX 导出所做的一样：
+
+```py
+net = FizBuzNet(input_size, hidden_size, output_size)
+traced = torch.jit.trace(net, dummy_input)
+traced.save('fizbuz.pt')
+```
+
+可以通过`torch.load()`方法将保存的模型加载回 Python，但是我们将使用 C++ 中引入的类似 API LibTorch 将模型加载到 C++。 在讨论逻辑之前，让我们将所需的标头导入当前作用域：
+
+```py
+#include <torch/script.h>
+#include <iostream>
+#include <memory>
+#include <string>
+```
+
+最重要的头是`torch/script.h`，它带来了 LibTorch 所需的所有方法和函数。 我们决定将模型名称和示例输入作为命令行参数传递。 因此，主程序的第一部分是读取命令行参数并将其解析为程序的其余部分：
+
+```py
+std::string arg = argv[2];
+int x = std::stoi(arg);
+float array[10];
+
+int i;
+int j = 9;
+for (i = 0; i < 10; ++i) {
+    array[j] = (x >> i) & 1;
+    j--;
+}
+```
+
+程序读取第二个命令行参数，这是用户给出的用于获取预测的编号。 从命令行读取时，该数字为`string`类型。 我们将其转换为`int`。 对于`string`到`int`转换后的循环，我们需要将其转换为二进制数组。 这是 LibTorch 执行开始的地方：
+
+```py
+std::shared_ptr<torch::jit::script::Module> module = torch::jit::load(argv[1]);
+auto options = torch::TensorOptions().dtype(torch::kFloat32);
+torch::Tensor tensor_in = torch::from_blob(array, {1, 10},options);
+std::vector<torch::jit::IValue> inputs;
+inputs.push_back(tensor_in);
+at::Tensor output = module->forward(inputs).toTensor();
+```
+
+在第一行中，我们从路径加载模型，该路径作为第一个命令行参数传递（我们将变量声明为`ScriptModule`）。 在第三行，我们使用`from_blob`方法将二进制数组转换为二维 LibTorch 张量。 在最后一行，我们使用我们制作的张量执行模型的`forward`方法，并将输出返回给用户。 这可能是我们可以实现以展示 TorchScript 实际操​​作的最基本示例。 官方文档中有许多示例，它们显示了脚本模式（与跟踪模式不同）的功能，可以理解 Python 控制流并将模型推向 C++ 世界。
+
+## 探索 RedisAI
+
+我们已经看到可以通过 TorchScript 获得的优化，但是优化的二进制文件将如何处理？ 是的，我们可以在 C++ 世界中加载它，并制作 Go 服务器，然后在其中加载它，但这仍然很痛苦。
+
+Redis Labs 和 Orobix 为我们带来了另一个名为 RedisAI 的解决方案。 它是基于 LibTorch 构建的高度优化的运行时，可以接受已编译的 TorchScript 二进制文件，以通过 Redis 协议提供服务。 对于没有 Redis 经验的人， [这里](http://redis.io)有很好的文档，那里的介绍文档[3]应该是一个好的开始。
+
+RedisAI 带有三个选项来配置三个后端：PyTorch，TensorFlow 和 ONNX 运行时。 它并不仅限于此：RedisAI 在后端使用 DLPack 来使张量能够通过不同的框架，而无需花费很多转换成本。
+
+那有什么意思？ 假设您有一个 TensorFlow 模型，该模型将人脸转换为 128 维嵌入（这是 FaceNet 所做的）。 现在，您可以使 PyTorch 模型使用此 128 维嵌入进行分类。 在正常情况下，将张量从 TensorFlow 传递到 PyTorch 需要深入了解事物在幕后的工作方式，但是使用 RedisAI，您可以使用几个命令来完成。
+
+RedisAI 是作为 Redis 服务器（`loadmodule`开关）的模块构建的。 通过 RedisAI 提供模型的好处不仅在于拥有多个运行时以及它们之间的互操作性。 实际上，这对于生产部署来说是最不重要的。 RedisAI 附带的最重要的功能是故障转移和分布式部署选项已经嵌入到 Redis 服务器中。
+
+借助 Redis Sentinel 和 Redis Cluster，我们可以在多集群，高可用性设置中部署 RedisAI，而无需对 DevOps 或基础架构建设有足够的了解。 另外，由于 Redis 拥有所有流行语言的客户端，因此，通过 RedisAI 部署 TorchScript 模型后，您基本上可以使用 Redis 的任何语言客户端与服务器通信以运行模型，将输入传递给模型，从模型获取输出，以及更多。
+
+使用 RedisAI 的下一个亮点是 Redis 整个大型生态系统的可用性，例如 RedisGears（可将任何 Python 函数作为管道的一部分运行），RedisTimeSeries，Redis Streams 等。
+
+让我们开始将使用 TorchScript 编译的 fizzbuzz 网络模型加载到 RedisAI。 首先，我们需要安装 Redis 服务器和 RedisAI 来设置环境。 `installation.sh`文件包含三个部分来执行此操作：
+
+```py
+sudo apt update
+sudo apt install -y build-essential tcl libjemalloc-dev
+sudo apt install -y git cmake unzip
+
+curl -O http://download.redis.io/redis-stable.tar.gz
+tar xzvf redis-stable.tar.gz
+cd redis-stable
+make
+sudo make install
+cd ~
+rm redis-stable.tar.gz
+
+git clone https://github.com/RedisAI/RedisAI.git
+cd RedisAl
+bash get_deps.sh cpu
+mkdir build
+cd build
+cmake -DDEPS_PATH=../deps/install ..
+make
+cd ~
+
+```
+
+第一部分是我们安装所需依赖项的位置。 第二部分是我们下载 Redis 服务器二进制文件并进行安装的地方。 第三部分是克隆 RedisAI 服务器并使用`make`进行构建。 安装完成后，我们可以运行`run_server.sh`文件以将 RedisAI 作为已加载的模块来构建 Redis 服务器。
+
+```py
+cd redis-stable
+redis-server redis.conf --loadmodule ../RedisAI/build/redisai.so
+
+```
+
+现在，我们的 Redis 服务器已全部就绪。 设置 RedisAI 服务器就这么简单。 现在，使用 Sentinel 或 Cluster 对其进行扩展也并不可怕。 官方文档具有足够的信息供您入门。
+
+在这里，我们从最小的 Python 脚本开始，以使用 RedisAI 运行 fizzbuzz 示例。 我们正在使用 Python 包`Redis`与 Redis 服务器通信。 RedisAI 已经建立了一个正式的客户端，但是在撰写本文时还不能使用它。
+
+```py
+r = redis.Redis()
+MODEL_PATH = 'fizbuz_model.pt'
+with open(MODEL_PATH,'rb') as f:
+    model_pt = f.read()
+r.execute_command('AI.MODELSET', 'model', 'TORCH', 'CPU',model_pt)
+```
+
+上面的脚本首先打开与本地主机的 Redis 连接。 它读取以前使用 TorchScript 保存的二进制模型，并使用命令`AI.MODELSET`在 RedisAI 中设置 Torch 模型。 该命令需要我们为服务器中的模型传递所需的名称，无论是要使用 CPU 还是 GPU，我们都想使用该后端，然后是二进制模型文件本身。 模型设置命令返回一条正常消息，然后循环浏览并等待用户输入。 如前所述，用户输入通过编码器传递，以将其转换为二进制编码格式。
+
+```py
+while True:
+    number = int(input('Enter number, press CTRL+c to exit: ')) + 1
+    inputs = encoder(number)
+
+    r.execute_command('AI. TENSORSET', 'a', 'FLOAT', *inputs.shape, 'BLOB',inputs.tobytes())
+    r.execute_command('AI.MODELRUN', 'model', 'INPUTS', 'a','OUTPUTS', 'out')
+    typ, shape, buf = r.execute_command('AI.TENSORGET', 'out','BLOB')
+    prediction = np.frombuffer(buf, dtype=np.float32).argmax()
+    print(get_readable_output(number, prediction))
+```
+
+然后，我们使用`AI.TENSORSET`来设置张量并将其映射到关键点。 您可能已经看到了我们将输入 NumPy 数组传递给后端的方式。 NumPy 有一个方便的函数`tobytes()`，它给出了如何将数据存储在内存中的字符串格式。 我们明确告诉命令我们需要将模型另存为`BLOB`。 保存模型的另一个选项是`VALUES`，当您要保存更大的数组时，它不是很有用。
+
+我们还必须传递数据类型和输入张量的形状。 做张量集时，我们应该考虑的一件事是数据类型和形状。 由于我们将输入作为缓冲区传递，因此 RedisAI 尝试使用我们传递的形状和数据类型信息将缓冲区转换为 DLPack 张量。 如果这与我们传递的字节串的长度不匹配，RedisAI 将抛出错误。
+
+设置张量后，我们将模型保存在名为`model`的键中，并将张量保存在名为`a`的键中。 现在，我们可以通过传递模型键名称和张量键名称来运行`AI.MODELRUN`命令。
+
+如果有多个输入要传递，我们将使用张量集不止一次，并将所有键作为`INPUTS`传递给`MODELRUN`命令。 `MODELRUN`命令将输出保存到`OUTPUTS`下提到的键，然后`AI.TENSORGET`可以读取。
+
+在这里，我们像保存了一样将张量读为`BLOB`。 张量命令为我们提供类型，形状和自身的缓冲。 然后将缓冲区传递给 NumPy 的`frombuffer()`函数，该函数为我们提供了结果的 NumPy 数组。
+
+一旦我们从 RedisAI 中获得了数据，那么其他章节中的内容将相同。 RedisAI 似乎是当前市场上可用于 AI 开发人员的最有前途的生产部署系统。 它甚至还处于早期阶段，并于 4 月在 RedisConf 2019 上发布。 我们可以在不久的将来看到 RedisAI 带来的许多惊人功能，这使其成为大部分 AI 社区事实上的部署机制。
+
+## 总结
+
+在本章中，我们从最简单但性能最低的方法开始，使用了三种不同的方法将 PyTorch 投入生产：使用 Flask。 然后，我们转移到 MXNet 模型服务器，这是一个预先构建的，优化的服务器实现，可以使用管理 API 进行管理。 MXNet 模型服务器对不需要太多复杂性但需要可以根据需要扩展的高效服务器实现的人很有用。
+
+最后，我们尝试使用 TorchScript 创建模型的最有效版本，并将其导入 C++ 中。 对于那些准备承担构建和维护 C++，Go 或 Rust 等底层语言服务器的复杂性的人，可以采用这种方法并构建自定义服务器，直到我们有可以读取脚本模块的更好的运行时为止，就像 MXNet 在 ONNX 模型上一样。
+
+2018 年是模型服务器的一年; 有许多来自不同组织的模型服务器，它们具有不同的观点。 但是未来是光明的，我们可以看到越来越多的模型服务器每天都在问世，这可能会使所有前面提到的方法过时。
+
+## 参考
+
+1.  <https://pytorch.org/docs/stable/jit.html>
+2.  <https://github.com/awslabs/mxnet-model-server/blob/master/docs/management_api.md>
+3.  <https://redis.io/topics/introduction>
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/README.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/README.md
new file mode 100644
index 00000000..56871478
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/README.md
@@ -0,0 +1,35 @@
+# PyTorch 深度学习实用指南
+
+> 原文：[PyTorch Deep Learning Hands-On](https://b-ok.asia/book/5558802/3df626)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/SUMMARY.md
new file mode 100644
index 00000000..6e96c2f9
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/SUMMARY.md
@@ -0,0 +1,10 @@
++   [PyTorch 深度学习实用指南](README.md)
++   [零、前言](0.md)
++   [一、深度学习演练和 PyTorch 简介](1.md)
++   [二、简单的神经网络](2.md)
++   [三、深度学习工作流程](3.md)
++   [四、计算机视觉](4.md)
++   [五、序列数据处理](5.md)
++   [六、生成网络](6.md)
++   [七、强化学习](7.md)
++   [八、生产中的 PyTorch ](8.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/9781788834247.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/9781788834247.jpg
new file mode 100644
index 00000000..72c2848c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/9781788834247.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09075_04_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09075_04_01.jpg
new file mode 100644
index 00000000..38a4e6cb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09075_04_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09075_04_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09075_04_02.jpg
new file mode 100644
index 00000000..9efbe115
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09075_04_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_01.jpg
new file mode 100644
index 00000000..9c440f4a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_02.jpg
new file mode 100644
index 00000000..542f08f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_03.jpg
new file mode 100644
index 00000000..9922a5d8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_04.jpg
new file mode 100644
index 00000000..8e10cea4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_05.jpg
new file mode 100644
index 00000000..b0c13dfd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_06.jpg
new file mode 100644
index 00000000..54f6b650
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_07.jpg
new file mode 100644
index 00000000..27e7cbf9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_08.jpg
new file mode 100644
index 00000000..79de7d8d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_09.jpg
new file mode 100644
index 00000000..e609727d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_10.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_10.jpg
new file mode 100644
index 00000000..0f89a26c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_10.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_11.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_11.jpg
new file mode 100644
index 00000000..327492ea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_11.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_12.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_12.jpg
new file mode 100644
index 00000000..035d5b33
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_12.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_13.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_13.jpg
new file mode 100644
index 00000000..9abc6afe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_13.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_14.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_14.jpg
new file mode 100644
index 00000000..be7a8c46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_14.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_15.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_15.jpg
new file mode 100644
index 00000000..9efbe115
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_15.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_16.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_16.jpg
new file mode 100644
index 00000000..51090570
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_16.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_17.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_17.jpg
new file mode 100644
index 00000000..b342a2e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_17.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_18.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_18.jpg
new file mode 100644
index 00000000..3b944ad0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_18.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_19.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_19.jpg
new file mode 100644
index 00000000..f6319c62
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_19.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_20.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_20.jpg
new file mode 100644
index 00000000..54683a4b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_20.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_21.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_21.jpg
new file mode 100644
index 00000000..09a4e631
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_01_21.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_01.jpg
new file mode 100644
index 00000000..a6aaebd1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_02.jpg
new file mode 100644
index 00000000..8a6454b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_03.jpg
new file mode 100644
index 00000000..6ef942a3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_04.jpg
new file mode 100644
index 00000000..bee53a94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_05.jpg
new file mode 100644
index 00000000..5e55d90e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_06.jpg
new file mode 100644
index 00000000..7072c881
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_07.jpg
new file mode 100644
index 00000000..14339843
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_08.jpg
new file mode 100644
index 00000000..756da417
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_09.jpg
new file mode 100644
index 00000000..2d693694
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_10.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_10.jpg
new file mode 100644
index 00000000..ff4888c2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_02_10.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_01.jpg
new file mode 100644
index 00000000..56fe2035
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_02.jpg
new file mode 100644
index 00000000..c2d6d891
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_03.jpg
new file mode 100644
index 00000000..14b3821d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_04.jpg
new file mode 100644
index 00000000..802ff966
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_05.jpg
new file mode 100644
index 00000000..7066b699
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_06.jpg
new file mode 100644
index 00000000..cd351da3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_07.jpg
new file mode 100644
index 00000000..b68fb8ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_03_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_03.jpg
new file mode 100644
index 00000000..e00c9b8d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_04.jpg
new file mode 100644
index 00000000..55ccf901
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_05.jpg
new file mode 100644
index 00000000..d866951b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_06.jpg
new file mode 100644
index 00000000..480d83c1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_08.jpg
new file mode 100644
index 00000000..c8021327
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_10.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_10.jpg
new file mode 100644
index 00000000..035d5b33
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_10.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_11.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_11.jpg
new file mode 100644
index 00000000..76235d30
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_11.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_12.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_12.jpg
new file mode 100644
index 00000000..b0089452
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_12.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_14.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_14.jpg
new file mode 100644
index 00000000..13cc3271
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_04_14.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_01.jpg
new file mode 100644
index 00000000..786c1efe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_02.jpg
new file mode 100644
index 00000000..b9ecc996
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_03.jpg
new file mode 100644
index 00000000..754d5f21
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_04.jpg
new file mode 100644
index 00000000..3cfd5663
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_05.jpg
new file mode 100644
index 00000000..4471857f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_06.jpg
new file mode 100644
index 00000000..b79a03e1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_07.jpg
new file mode 100644
index 00000000..b9702f81
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_08.jpg
new file mode 100644
index 00000000..df9da49a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_09.jpg
new file mode 100644
index 00000000..58c52007
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_11.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_11.jpg
new file mode 100644
index 00000000..d86c144f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_05_11.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_01.jpg
new file mode 100644
index 00000000..c441d905
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_02.jpg
new file mode 100644
index 00000000..e1ed813a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_03.jpg
new file mode 100644
index 00000000..e1cf158a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_04.jpg
new file mode 100644
index 00000000..3e2ce37f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_05.jpg
new file mode 100644
index 00000000..951f74fd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_06.jpg
new file mode 100644
index 00000000..49b28e48
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_07.jpg
new file mode 100644
index 00000000..baa68381
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_08.jpg
new file mode 100644
index 00000000..76798b46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_09.jpg
new file mode 100644
index 00000000..63cad2c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_10.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_10.jpg
new file mode 100644
index 00000000..e78db079
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_10.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_11.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_11.jpg
new file mode 100644
index 00000000..4c6dad42
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_11.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_12.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_12.jpg
new file mode 100644
index 00000000..8f5c8173
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_12.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_13.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_13.jpg
new file mode 100644
index 00000000..6dbfa4f9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_13.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_14.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_14.jpg
new file mode 100644
index 00000000..a1e0cabf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_14.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_15.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_15.jpg
new file mode 100644
index 00000000..988bd28d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_15.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_16.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_16.jpg
new file mode 100644
index 00000000..e9b082a0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_16.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_17.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_17.jpg
new file mode 100644
index 00000000..d42aa3d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_17.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_18.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_18.jpg
new file mode 100644
index 00000000..e9e87784
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_18.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_19.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_19.jpg
new file mode 100644
index 00000000..dda9fc23
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_19.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_20.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_20.jpg
new file mode 100644
index 00000000..9efb2992
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_20.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_21.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_21.jpg
new file mode 100644
index 00000000..ae2bc2a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_06_21.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_002.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_002.jpg
new file mode 100644
index 00000000..dd4c2fed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_002.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_003.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_003.jpg
new file mode 100644
index 00000000..10c6c92a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_003.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_004.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_004.jpg
new file mode 100644
index 00000000..3a361c90
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_004.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_005.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_005.jpg
new file mode 100644
index 00000000..01af783b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_005.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_006.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_006.jpg
new file mode 100644
index 00000000..b08cddb9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_006.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_007.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_007.jpg
new file mode 100644
index 00000000..814d86aa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_007.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_008.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_008.jpg
new file mode 100644
index 00000000..6fd8f6b0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_008.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_009.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_009.jpg
new file mode 100644
index 00000000..c253e09e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_009.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_01.jpg
new file mode 100644
index 00000000..ba1be292
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_02.jpg
new file mode 100644
index 00000000..ec135427
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_03.jpg
new file mode 100644
index 00000000..ea46462a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_04.jpg
new file mode 100644
index 00000000..573f5257
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_05.jpg
new file mode 100644
index 00000000..201d0228
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_06.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_06.jpg
new file mode 100644
index 00000000..70d6222b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_06.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_07.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_07.jpg
new file mode 100644
index 00000000..38b6581c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_07.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_08.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_08.jpg
new file mode 100644
index 00000000..9cc56d93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_08.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_09.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_09.jpg
new file mode 100644
index 00000000..a2397769
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_09.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_10.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_10.jpg
new file mode 100644
index 00000000..ac1e55f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_07_10.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_01.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_01.jpg
new file mode 100644
index 00000000..5f80e236
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_01.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_02.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_02.jpg
new file mode 100644
index 00000000..1cbbd7ec
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_02.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_03.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_03.jpg
new file mode 100644
index 00000000..c0dc475e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_03.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_04.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_04.jpg
new file mode 100644
index 00000000..36ff3c56
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_04.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_05.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_05.jpg
new file mode 100644
index 00000000..e2f63946
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/B09475_08_05.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/Mapt_logo.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/Mapt_logo.jpg
new file mode 100644
index 00000000..a1a717a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/Mapt_logo.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/action.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/action.jpg
new file mode 100644
index 00000000..398745b9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/action.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/activity.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/activity.jpg
new file mode 100644
index 00000000..d14025df
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/activity.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/cover.jpg
new file mode 100644
index 00000000..feb58945
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/list.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/list.jpg
new file mode 100644
index 00000000..2731afb7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/list.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/missing.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/missing.jpg
new file mode 100644
index 00000000..e6887359
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/missing.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/note.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/note.jpg
new file mode 100644
index 00000000..af056671
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/note.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/reference.jpg b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/reference.jpg
new file mode 100644
index 00000000..63237fe7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-dl-handson/img/reference.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/01.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/01.md
new file mode 100644
index 00000000..fef39340
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/01.md
@@ -0,0 +1 @@
+# 学习 PyTorch
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/02.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/02.md
new file mode 100644
index 00000000..95f7a4f1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/02.md
@@ -0,0 +1,39 @@
+# PyTorch 深度学习：60 分钟快速入门
+
+> 原文：<https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html>
+
+**作者**： [Soumith Chintala](http://soumith.ch)
+
+<https://www.youtube.com/embed/u7x8RXwLKcA>
+
+## 什么是 PyTorch？
+
+PyTorch 是基于以下两个目的而打造的 python 科学计算框架：
+
+*   无缝替换 NumPy，并且通过释放 GPU 的算力来实现神经网络的加速。
+*   通过自动微分机制，来让神经网络的实现变得更加容易。
+
+## 本次教程的目标：
+
+*   深入了解 PyTorch 的张量单元以及如何使用 Pytorch 来搭建神经网络。
+*   自己动手训练一个小型神经网络来实现图像的分类。
+
+注意
+
+确保已安装[`torch`](https://github.com/pytorch/pytorch)和[`torchvision`](https://github.com/pytorch/vision)包。
+
+![../_img/tensor_illustration_flat.png](img/0c7a402331744a44f5e17575b1607904.png)
+
+[张量](blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py)
+
+![../_img/autodiff.png](img/0a7a97c39d6dfc0e08d2701eb7a49231.png)
+
+[`torch.autograd`的简要介绍](blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py)
+
+![../_img/mnist1.png](img/be60e8e1f4baa0de87cf9d37c5325525.png)
+
+[神经网络简介](blitz/neural_networks_tutorial.html#sphx-glr-beginner-blitz-neural-networks-tutorial-py)
+
+![../_img/cifar101.png](img/7a28f697e6bab9f3d9b1e8da4a5a5249.png)
+
+[自己动手训练一个图像分类器](blitz/cifar10_tutorial.html#sphx-glr-beginner-blitz-cifar10-tutorial-py)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/03.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/03.md
new file mode 100644
index 00000000..71ea97fe
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/03.md
@@ -0,0 +1,329 @@
+# 张量
+
+> 原文：<https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py>
+
+张量是一种特殊的数据结构，与数组和矩阵非常相似。 在 PyTorch 中，我们使用张量对模型的输入和输出以及模型的参数进行编码。
+
+张量与 NumPy 的`ndarray`相似，除了张量可以在 GPU 或其他专用硬件上运行以加速计算。 如果您熟悉`ndarray`，就可以使用张量 API。 如果没有，请遵循此快速 API 演练。
+
+```py
+import torch
+import numpy as np
+
+```
+
+## 张量初始化
+
+张量可以通过多种方式初始化。 看下面的例子：
+
+**直接来自数据**
+
+张量可以直接从数据创建。 数据类型是自动推断的。
+
+```py
+data = [[1, 2],[3, 4]]
+x_data = torch.tensor(data)
+
+```
+
+**来自 NumPy 数组**
+
+可以从 NumPy 数组创建张量（反之亦然-参见[与 NumPy 桥接](#bridge-to-np-label)）。
+
+```py
+np_array = np.array(data)
+x_np = torch.from_numpy(np_array)
+
+```
+
+**来自另一个张量**：
+
+除非明确覆盖，否则新张量将保留参数张量的属性（形状，数据类型）。
+
+```py
+x_ones = torch.ones_like(x_data) # retains the properties of x_data
+print(f"Ones Tensor: \n {x_ones} \n")
+
+x_rand = torch.rand_like(x_data, dtype=torch.float) # overrides the datatype of x_data
+print(f"Random Tensor: \n {x_rand} \n")
+
+```
+
+出：
+
+```py
+Ones Tensor:
+ tensor([[1, 1],
+        [1, 1]])
+
+Random Tensor:
+ tensor([[0.2143, 0.8153],
+        [0.5212, 0.8607]])
+
+```
+
+**具有随机或恒定值**：
+
+`shape`是张量尺寸的元组。 在下面的函数中，它确定输出张量的维数。
+
+```py
+shape = (2,3,)
+rand_tensor = torch.rand(shape)
+ones_tensor = torch.ones(shape)
+zeros_tensor = torch.zeros(shape)
+
+print(f"Random Tensor: \n {rand_tensor} \n")
+print(f"Ones Tensor: \n {ones_tensor} \n")
+print(f"Zeros Tensor: \n {zeros_tensor}")
+
+```
+
+出：
+
+```py
+Random Tensor:
+ tensor([[0.6513, 0.6193, 0.5550],
+        [0.7230, 0.3545, 0.9288]])
+
+Ones Tensor:
+ tensor([[1., 1., 1.],
+        [1., 1., 1.]])
+
+Zeros Tensor:
+ tensor([[0., 0., 0.],
+        [0., 0., 0.]])
+
+```
+
+* * *
+
+## 张量属性
+
+张量属性描述了它们的形状，数据类型以及存储它们的设备。
+
+```py
+tensor = torch.rand(3,4)
+
+print(f"Shape of tensor: {tensor.shape}")
+print(f"Datatype of tensor: {tensor.dtype}")
+print(f"Device tensor is stored on: {tensor.device}")
+
+```
+
+出：
+
+```py
+Shape of tensor: torch.Size([3, 4])
+Datatype of tensor: torch.float32
+Device tensor is stored on: cpu
+
+```
+
+* * *
+
+## 张量运算
+
+[在此处](https://pytorch.org/docs/stable/torch.html)全面描述了超过 100 个张量运算，包括转置，索引，切片，数学运算，线性代数，随机采样等。
+
+它们每个都可以在 GPU 上运行（通常比 CPU 上更高的速度）。 如果您使用的是 Colab，请通过转到“编辑”>“笔记本设置”来分配 GPU。
+
+```py
+# We move our tensor to the GPU if available
+if torch.cuda.is_available():
+  tensor = tensor.to('cuda')
+
+```
+
+尝试从列表中进行一些操作。 如果您熟悉 NumPy API，则可以轻松使用张量 API。
+
+**类似 Numpy 的标准索引和切片**：
+
+```py
+tensor = torch.ones(4, 4)
+tensor[:,1] = 0
+print(tensor)
+
+```
+
+出：
+
+```py
+tensor([[1., 0., 1., 1.],
+        [1., 0., 1., 1.],
+        [1., 0., 1., 1.],
+        [1., 0., 1., 1.]])
+
+```
+
+**连接张量**可以使用`torch.cat`沿给定维度连接一系列张量。 另请参见[`torch.stack`](https://pytorch.org/docs/stable/generated/torch.stack.html)，这是另一个与`torch.cat`稍有不同的张量连接操作。
+
+```py
+t1 = torch.cat([tensor, tensor, tensor], dim=1)
+print(t1)
+
+```
+
+出：
+
+```py
+tensor([[1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
+        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
+        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
+        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.]])
+
+```
+
+**相乘张量**
+
+```py
+# This computes the element-wise product
+print(f"tensor.mul(tensor) \n {tensor.mul(tensor)} \n")
+# Alternative syntax:
+print(f"tensor * tensor \n {tensor * tensor}")
+
+```
+
+出：
+
+```py
+tensor.mul(tensor)
+ tensor([[1., 0., 1., 1.],
+        [1., 0., 1., 1.],
+        [1., 0., 1., 1.],
+        [1., 0., 1., 1.]])
+
+tensor * tensor
+ tensor([[1., 0., 1., 1.],
+        [1., 0., 1., 1.],
+        [1., 0., 1., 1.],
+        [1., 0., 1., 1.]])
+
+```
+
+计算两个张量之间的矩阵乘法
+
+```py
+print(f"tensor.matmul(tensor.T) \n {tensor.matmul(tensor.T)} \n")
+# Alternative syntax:
+print(f"tensor @ tensor.T \n {tensor @ tensor.T}")
+
+```
+
+出：
+
+```py
+tensor.matmul(tensor.T)
+ tensor([[3., 3., 3., 3.],
+        [3., 3., 3., 3.],
+        [3., 3., 3., 3.],
+        [3., 3., 3., 3.]])
+
+tensor @ tensor.T
+ tensor([[3., 3., 3., 3.],
+        [3., 3., 3., 3.],
+        [3., 3., 3., 3.],
+        [3., 3., 3., 3.]])
+
+```
+
+**原地操作**后缀为`_`的操作就位。 例如：`x.copy_(y)`，`x.t_()`将更改为`x`。
+
+```py
+print(tensor, "\n")
+tensor.add_(5)
+print(tensor)
+
+```
+
+出：
+
+```py
+tensor([[1., 0., 1., 1.],
+        [1., 0., 1., 1.],
+        [1., 0., 1., 1.],
+        [1., 0., 1., 1.]])
+
+tensor([[6., 5., 6., 6.],
+        [6., 5., 6., 6.],
+        [6., 5., 6., 6.],
+        [6., 5., 6., 6.]])
+
+```
+
+注意
+
+原地操作可以节省一些内存，但是在计算导数时可能会因为立即丢失历史记录而出现问题。 因此，不鼓励使用它们。
+
+* * *
+
+## 与 NumPy 桥接
+
+CPU 和 NumPy 数组上的张量可以共享其基础内存位置，更改一个将更改另一个。
+
+### 张量到 NumPy 数组
+
+```py
+t = torch.ones(5)
+print(f"t: {t}")
+n = t.numpy()
+print(f"n: {n}")
+
+```
+
+出：
+
+```py
+t: tensor([1., 1., 1., 1., 1.])
+n: [1\. 1\. 1\. 1\. 1.]
+
+```
+
+张量的变化反映在 NumPy 数组中。
+
+```py
+t.add_(1)
+print(f"t: {t}")
+print(f"n: {n}")
+
+```
+
+出：
+
+```py
+t: tensor([2., 2., 2., 2., 2.])
+n: [2\. 2\. 2\. 2\. 2.]
+
+```
+
+### 将 NumPy 数组转换为张量
+
+```py
+n = np.ones(5)
+t = torch.from_numpy(n)
+
+```
+
+NumPy 数组中的更改反映在张量中。
+
+```py
+np.add(n, 1, out=n)
+print(f"t: {t}")
+print(f"n: {n}")
+
+```
+
+出：
+
+```py
+t: tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
+n: [2\. 2\. 2\. 2\. 2.]
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.045 秒）
+
+[下载 Python 源码：`tensor_tutorial.py`](https://pytorch.org/tutorials/_downloads/092fba3c36cb2ab226bfdaa78248b310/tensor_tutorial.py)
+
+[下载 Jupyter 笔记本：`tensor_tutorial.ipynb`](https://pytorch.org/tutorials/_downloads/3c2b25b8a9f72db7780a6bf9b5fc9f62/tensor_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/04.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/04.md
new file mode 100644
index 00000000..955bbefd
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/04.md
@@ -0,0 +1,236 @@
+# `torch.autograd`的简要介绍
+
+> 原文：<https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py>
+
+`torch.autograd`是 PyTorch 的自动差分引擎，可为神经网络训练提供支持。 在本节中，您将获得有关 Autograd 如何帮助神经网络训练的概念性理解。
+
+## 背景
+
+神经网络（NN）是在某些输入数据上执行的嵌套函数的集合。 这些函数由*参数*（由权重和偏差组成）定义，这些参数在 PyTorch 中存储在张量中。
+
+训练 NN 分为两个步骤：
+
+**正向传播**：在正向传播中，NN 对正确的输出进行最佳猜测。 它通过其每个函数运行输入数据以进行猜测。
+
+**反向传播**：在反向传播中，NN 根据其猜测中的误差调整其参数。 它通过从输出向后遍历，收集有关函数参数（*梯度*）的误差导数并使用梯度下降来优化参数来实现。 有关反向传播的更详细的演练，请查看 3Blue1Brown 的[视频](https://www.youtube.com/watch?v=tIeHLnjs5U8)。
+
+## 在 PyTorch 中的用法
+
+让我们来看一个训练步骤。 对于此示例，我们从`torchvision`加载了经过预训练的 resnet18 模型。 我们创建一个随机数据张量来表示具有 3 个通道的单个图像，高度&宽度为 64，其对应的`label`初始化为一些随机值。
+
+```py
+import torch, torchvision
+model = torchvision.models.resnet18(pretrained=True)
+data = torch.rand(1, 3, 64, 64)
+labels = torch.rand(1, 1000)
+
+```
+
+接下来，我们通过模型的每一层运行输入数据以进行预测。 这是**正向传播**。
+
+```py
+prediction = model(data) # forward pass
+
+```
+
+我们使用模型的预测和相应的标签来计算误差（`loss`）。 下一步是通过网络反向传播此误差。 当我们在误差张量上调用`.backward()`时，开始反向传播。 然后，Autograd 会为每个模型参数计算梯度并将其存储在参数的`.grad`属性中。
+
+```py
+loss = (prediction - labels).sum()
+loss.backward() # backward pass
+
+```
+
+接下来，我们加载一个优化器，在本例中为 SGD，学习率为 0.01，动量为 0.9。 我们在优化器中注册模型的所有参数。
+
+```py
+optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)
+
+```
+
+最后，我们调用`.step()`启动梯度下降。 优化器通过`.grad`中存储的梯度来调整每个参数。
+
+```py
+optim.step() #gradient descent
+
+```
+
+至此，您已经具备了训练神经网络所需的一切。 以下各节详细介绍了 Autograd 的工作原理-随时跳过它们。
+
+* * *
+
+## Autograd 的微分
+
+让我们来看看`autograd`如何收集梯度。 我们用`requires_grad=True`创建两个张量`a`和`b`。 这向`autograd`发出信号，应跟踪对它们的所有操作。
+
+```py
+import torch
+
+a = torch.tensor([2., 3.], requires_grad=True)
+b = torch.tensor([6., 4.], requires_grad=True)
+
+```
+
+我们从`a`和`b`创建另一个张量`Q`。
+
+![](img/tex4-1.gif)
+
+```py
+Q = 3`a`3 - b**2
+
+```
+
+假设`a`和`b`是神经网络的参数，`Q`是误差。 在 NN 训练中，我们想要相对于参数的误差，即
+
+![](img/tex4-2.gif)
+
+![](img/tex4-3.gif)
+
+当我们在`Q`上调用`.backward()`时，Autograd 将计算这些梯度并将其存储在各个张量的`.grad`属性中。
+
+我们需要在`Q.backward()`中显式传递`gradient`参数，因为它是向量。 `gradient`是与`Q`形状相同的张量，它表示`Q`相对于本身的梯度，即
+
+![](img/tex4-4.gif)
+
+同样，我们也可以将`Q`聚合为一个标量，然后隐式地向后调用，例如`Q.sum().backward()`。
+
+```py
+external_grad = torch.tensor([1., 1.])
+Q.backward(gradient=external_grad)
+
+```
+
+梯度现在沉积在`a.grad`和`b.grad`中
+
+```py
+# check if collected gradients are correct
+print(9`a`2 == a.grad)
+print(-2*b == b.grad)
+
+```
+
+出：
+
+```py
+tensor([True, True])
+tensor([True, True])
+
+```
+
+### 可选阅读-使用`autograd`的向量微积分
+
+从数学上讲，如果您具有向量值函数`y = f(x)`，则`y`相对于`x`的雅可比矩阵`J`：
+
+![](img/tex4-5.gif)
+
+一般来说，`torch.autograd`是用于计算向量雅可比积的引擎。 也就是说，给定任何向量`v`，计算乘积`J^T · v`
+
+如果`v`恰好是标量函数的梯度
+
+![](img/tex4-6.gif)
+
+然后根据链式规则，向量-雅可比积将是`l`相对于`x`的梯度：
+
+![](img/tex4-7.gif)
+
+上面的示例中使用的是 vector-Jacobian 乘积的这一特征。 `external_grad`表示`v`。
+
+## 计算图
+
+从概念上讲，Autograd 在由[函数](https://pytorch.org/docs/stable/autograd.html#torch.autograd.Function)对象组成的有向无环图（DAG）中记录数据（张量）和所有已执行的操作（以及由此产生的新张量）。 在此 DAG 中，叶子是输入张量，根是输出张量。 通过从根到叶跟踪此图，可以使用链式规则自动计算梯度。
+
+在正向传播中，Autograd 同时执行两项操作：
+
+*   运行请求的操作以计算结果张量，并且
+*   在 DAG 中维护操作的*梯度函数*。
+
+当在 DAG 根目录上调用`.backward()`时，后退通道开始。 `autograd`然后：
+
+*   从每个`.grad_fn`计算梯度，
+*   将它们累积在各自的张量的`.grad`属性中，然后
+*   使用链式规则，一直传播到叶子张量。
+
+下面是我们示例中 DAG 的直观表示。 在图中，箭头指向前进的方向。 节点代表正向传播中每个操作的反向函数。 蓝色的叶节点代表我们的叶张量`a`和`b`。
+
+![../../_img/dag_autograd.png](img/1270bde38f2cfccd4900a5df8ac70a7d.png)
+
+注意
+
+**DAG 在 PyTorch 中是动态的**。要注意的重要一点是，图是从头开始重新创建的； 在每个`.backward()`调用之后，Autograd 开始填充新图。 这正是允许您在模型中使用控制流语句的原因。 您可以根据需要在每次迭代中更改形状，大小和操作。
+
+### 从 DAG 中排除
+
+`torch.autograd`跟踪所有将其`requires_grad`标志设置为`True`的张量的操作。 对于不需要梯度的张量，将此属性设置为`False`会将其从梯度计算 DAG 中排除。
+
+即使只有一个输入张量具有`requires_grad=True`，操作的输出张量也将需要梯度。
+
+```py
+x = torch.rand(5, 5)
+y = torch.rand(5, 5)
+z = torch.rand((5, 5), requires_grad=True)
+
+a = x + y
+print(f"Does `a` require gradients? : {a.requires_grad}")
+b = x + z
+print(f"Does `b` require gradients?: {b.requires_grad}")
+
+```
+
+出：
+
+```py
+Does `a` require gradients? : False
+Does `b` require gradients?: True
+
+```
+
+在 NN 中，不计算梯度的参数通常称为**冻结参数**。 如果事先知道您不需要这些参数的梯度，则“冻结”模型的一部分很有用（通过减少自动梯度计算，这会带来一些表现优势）。
+
+从 DAG 中排除很重要的另一个常见用例是[调整预训练网络](https://pytorch.org/tutorials/beginner/finetuning_torchvision_models_tutorial.html)
+
+在微调中，我们冻结了大部分模型，通常仅修改分类器层以对新标签进行预测。 让我们来看一个小例子来说明这一点。 和以前一样，我们加载一个预训练的 resnet18 模型，并冻结所有参数。
+
+```py
+from torch import nn, optim
+
+model = torchvision.models.resnet18(pretrained=True)
+
+# Freeze all the parameters in the network
+for param in model.parameters():
+    param.requires_grad = False
+
+```
+
+假设我们要在具有 10 个标签的新数据集中微调模型。 在 resnet 中，分类器是最后一个线性层`model.fc`。 我们可以简单地将其替换为充当我们的分类器的新线性层（默认情况下未冻结）。
+
+```py
+model.fc = nn.Linear(512, 10)
+
+```
+
+现在，除了`model.fc`的参数外，模型中的所有参数都将冻结。 计算梯度的唯一参数是`model.fc`的权重和偏差。
+
+```py
+# Optimize only the classifier
+optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)
+
+```
+
+请注意，尽管我们在优化器中注册了所有参数，但唯一可计算梯度的参数（因此会在梯度下降中进行更新）是分类器的权重和偏差。
+
+[`torch.no_grad()`](https://pytorch.org/docs/stable/generated/torch.no_grad.html)中的上下文管理器可以使用相同的排除功能。
+
+* * *
+
+## 进一步阅读：
+
+*   [原地操作&多线程 Autograd](https://pytorch.org/docs/stable/notes/autograd.html)
+*   [反向模式自动微分](https://colab.research.google.com/drive/1VpeE6UvEPRz9HmsHh1KS0XxXjYu533EC) 的示例实现
+
+**脚本的总运行时间**：（0 分钟 5.184 秒）
+
+[下载 Python 源码：`autograd_tutorial.py`](https://pytorch.org/tutorials/_downloads/00a1ac60985c7481f4250bafeae15ffa/autograd_tutorial.py)
+
+[下载 Jupyter 笔记本：`autograd_tutorial.ipynb`](https://pytorch.org/tutorials/_downloads/009cea8b0f40dfcb55e3280f73b06cc2/autograd_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/05.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/05.md
new file mode 100644
index 00000000..06eac934
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/05.md
@@ -0,0 +1,292 @@
+# 神经网络
+
+> 原文：<https://pytorch.org/tutorials/beginner/blitz/neural_networks_tutorial.html#sphx-glr-beginner-blitz-neural-networks-tutorial-py>
+
+可以使用`torch.nn`包构建神经网络。
+
+现在您已经了解了`autograd`，`nn`依赖于`autograd`来定义模型并对其进行微分。 `nn.Module`包含层，以及返回`output`的方法`forward(input)`。
+
+例如，查看以下对数字图像进行分类的网络：
+
+![convnet](img/3250cbba812d68265cf7815d987bcd1b.png)
+
+卷积网
+
+这是一个简单的前馈网络。 它获取输入，将其一层又一层地馈入，然后最终给出输出。
+
+神经网络的典型训练过程如下：
+
+*   定义具有一些可学习参数（或权重）的神经网络
+*   遍历输入数据集
+*   通过网络处理输入
+*   计算损失（输出正确的距离有多远）
+*   将梯度传播回网络参数
+*   通常使用简单的更新规则来更新网络的权重：`weight = weight - learning_rate * gradient`
+
+## 定义网络
+
+让我们定义这个网络：
+
+```py
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+class Net(nn.Module):
+
+    def __init__(self):
+        super(Net, self).__init__()
+        # 1 input image channel, 6 output channels, 3x3 square convolution
+        # kernel
+        self.conv1 = nn.Conv2d(1, 6, 3)
+        self.conv2 = nn.Conv2d(6, 16, 3)
+        # an affine operation: y = Wx + b
+        self.fc1 = nn.Linear(16 * 6 * 6, 120)  # 6*6 from image dimension
+        self.fc2 = nn.Linear(120, 84)
+        self.fc3 = nn.Linear(84, 10)
+
+    def forward(self, x):
+        # Max pooling over a (2, 2) window
+        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
+        # If the size is a square you can only specify a single number
+        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
+        x = x.view(-1, self.num_flat_features(x))
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+    def num_flat_features(self, x):
+        size = x.size()[1:]  # all dimensions except the batch dimension
+        num_features = 1
+        for s in size:
+            num_features *= s
+        return num_features
+
+net = Net()
+print(net)
+
+```
+
+出：
+
+```py
+Net(
+  (conv1): Conv2d(1, 6, kernel_size=(3, 3), stride=(1, 1))
+  (conv2): Conv2d(6, 16, kernel_size=(3, 3), stride=(1, 1))
+  (fc1): Linear(in_features=576, out_features=120, bias=True)
+  (fc2): Linear(in_features=120, out_features=84, bias=True)
+  (fc3): Linear(in_features=84, out_features=10, bias=True)
+)
+
+```
+
+您只需要定义`forward`函数，就可以使用`autograd`为您自动定义`backward`函数（计算梯度）。 您可以在`forward`函数中使用任何张量操作。
+
+模型的可学习参数由`net.parameters()`返回
+
+```py
+params = list(net.parameters())
+print(len(params))
+print(params[0].size())  # conv1's .weight
+
+```
+
+出：
+
+```py
+10
+torch.Size([6, 1, 3, 3])
+
+```
+
+让我们尝试一个`32x32`随机输入。 注意：该网络的预期输入大小（LeNet）为`32x32`。 要在 MNIST 数据集上使用此网络，请将图像从数据集中调整为`32x32`。
+
+```py
+input = torch.randn(1, 1, 32, 32)
+out = net(input)
+print(out)
+
+```
+
+出：
+
+```py
+tensor([[ 0.1002, -0.0694, -0.0436,  0.0103,  0.0488, -0.0429, -0.0941, -0.0146,
+         -0.0031, -0.0923]], grad_fn=<AddmmBackward>)
+
+```
+
+使用随机梯度将所有参数和反向传播的梯度缓冲区归零：
+
+```py
+net.zero_grad()
+out.backward(torch.randn(1, 10))
+
+```
+
+注意
+
+`torch.nn`仅支持小批量。 整个`torch.nn`包仅支持作为微型样本而不是单个样本的输入。
+
+例如，`nn.Conv2d`将采用`nSamples x nChannels x Height x Width`的 4D 张量。
+
+如果您只有一个样本，只需使用`input.unsqueeze(0)`添加一个假批量尺寸。
+
+在继续之前，让我们回顾一下到目前为止所看到的所有类。
+
+**回顾**：
+
+*   `torch.Tensor`-一个*多维数组*，支持诸如`backward()`的自动微分操作。 同样，保持相对于张量的梯度。
+*   `nn.Module`-神经网络模块。 *封装参数*的便捷方法，并带有将其移动到 GPU，导出，加载等的帮助器。
+*   `nn.Parameter`-一种张量，即将其分配为`Module`的属性时，自动注册为参数。
+*   `autograd.Function`-实现自动微分操作的正向和反向定义。 每个`Tensor`操作都会创建至少一个`Function`节点，该节点连接到创建`Tensor`的函数，并且编码其历史记录。
+
+**目前为止，我们涵盖了**：
+
+*   定义神经网络
+*   处理输入并向后调用
+
+**仍然剩下**：
+
+*   计算损失
+*   更新网络的权重
+
+## 损失函数
+
+损失函数采用一对（输出，目标）输入，并计算一个值，该值估计输出与目标之间的距离。
+
+`nn`包下有几种不同的[损失函数](https://pytorch.org/docs/nn.html#loss-functions)。 一个简单的损失是：`nn.MSELoss`，它计算输入和目标之间的均方误差。
+
+例如：
+
+```py
+output = net(input)
+target = torch.randn(10)  # a dummy target, for example
+target = target.view(1, -1)  # make it the same shape as output
+criterion = nn.MSELoss()
+
+loss = criterion(output, target)
+print(loss)
+
+```
+
+出：
+
+```py
+tensor(0.4969, grad_fn=<MseLossBackward>)
+
+```
+
+现在，如果使用`.grad_fn`属性向后跟随`loss`，您将看到一个计算图，如下所示：
+
+```py
+input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
+      -> view -> linear -> relu -> linear -> relu -> linear
+      -> MSELoss
+      -> loss
+
+```
+
+因此，当我们调用`loss.backward()`时，整个图将被微分。 损失，并且图中具有`requires_grad=True`的所有张量将随梯度累积其`.grad`张量。
+
+为了说明，让我们向后走几步：
+
+```py
+print(loss.grad_fn)  # MSELoss
+print(loss.grad_fn.next_functions[0][0])  # Linear
+print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU
+
+```
+
+出：
+
+```py
+<MseLossBackward object at 0x7f1ba05a1ba8>
+<AddmmBackward object at 0x7f1ba05a19e8>
+<AccumulateGrad object at 0x7f1ba05a19e8>
+
+```
+
+## 反向传播
+
+要反向传播误差，我们要做的只是对`loss.backward()`。 不过，您需要清除现有的梯度，否则梯度将累积到现有的梯度中。
+
+现在，我们将其称为`loss.backward()`，然后看一下向后前后`conv1`的偏差梯度。
+
+```py
+net.zero_grad()     # zeroes the gradient buffers of all parameters
+
+print('conv1.bias.grad before backward')
+print(net.conv1.bias.grad)
+
+loss.backward()
+
+print('conv1.bias.grad after backward')
+print(net.conv1.bias.grad)
+
+```
+
+出：
+
+```py
+conv1.bias.grad before backward
+tensor([0., 0., 0., 0., 0., 0.])
+conv1.bias.grad after backward
+tensor([ 0.0111, -0.0064,  0.0053, -0.0047,  0.0026, -0.0153])
+
+```
+
+现在，我们已经看到了如何使用损失函数。
+
+**稍后阅读**：
+
+> 神经网络包包含各种模块和损失函数，这些模块和损失函数构成了深度神经网络的构建块。 带有文档的完整列表位于此处。
+
+**唯一需要学习的是**：
+
+> *   更新网络的权重
+
+## 更新权重
+
+实践中使用的最简单的更新规则是随机梯度下降（SGD）：
+
+> `weight = weight - learning_rate * gradient`
+
+我们可以使用简单的 Python 代码实现此目标：
+
+```py
+learning_rate = 0.01
+for f in net.parameters():
+    f.data.sub_(f.grad.data * learning_rate)
+
+```
+
+但是，在使用神经网络时，您希望使用各种不同的更新规则，例如 SGD，Nesterov-SGD，Adam，RMSProp 等。为实现此目的，我们构建了一个小包装：`torch.optim`，可实现所有这些方法。 使用它非常简单：
+
+```py
+import torch.optim as optim
+
+# create your optimizer
+optimizer = optim.SGD(net.parameters(), lr=0.01)
+
+# in your training loop:
+optimizer.zero_grad()   # zero the gradient buffers
+output = net(input)
+loss = criterion(output, target)
+loss.backward()
+optimizer.step()    # Does the update
+
+```
+
+注意
+
+观察如何使用`optimizer.zero_grad()`将梯度缓冲区手动设置为零。 这是因为如[反向传播](#backprop)部分中所述累积了梯度。
+
+**脚本的总运行时间**：（0 分钟 3.778 秒）
+
+[下载 Python 源码：`neural_networks_tutorial.py`](https://pytorch.org/tutorials/_downloads/3665741da15f111de82da3227a615699/neural_networks_tutorial.py)
+
+[下载 Jupyter 笔记本：`neural_networks_tutorial.ipynb`](https://pytorch.org/tutorials/_downloads/97abb4c06a586d45ef3fc4b4b9634406/neural_networks_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/06.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/06.md
new file mode 100644
index 00000000..157f7097
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/06.md
@@ -0,0 +1,421 @@
+# 训练分类器
+
+> 原文：<https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html#sphx-glr-beginner-blitz-cifar10-tutorial-py>
+
+就是这个。 您已经了解了如何定义神经网络，计算损失并更新网络的权重。
+
+现在您可能在想，
+
+## 数据呢？
+
+通常，当您必须处理图像，文本，音频或视频数据时，可以使用将数据加载到 NumPy 数组中的标准 Python 包。 然后，您可以将该数组转换为`torch.*Tensor`。
+
+*   对于图像，Pillow，OpenCV 等包很有用
+*   对于音频，请使用 SciPy 和 librosa 等包
+*   对于文本，基于 Python 或 Cython 的原始加载，或者 NLTK 和 SpaCy 很有用
+
+专门针对视觉，我们创建了一个名为`torchvision`的包，其中包含用于常见数据集（例如 Imagenet，CIFAR10，MNIST 等）的数据加载器，以及用于图像（即`torchvision.datasets`和`torch.utils.data.DataLoader`）的数据转换器。
+
+这提供了极大的便利，并且避免了编写样板代码。
+
+在本教程中，我们将使用 CIFAR10 数据集。 它具有以下类别：“飞机”，“汽车”，“鸟”，“猫”，“鹿”，“狗”，“青蛙”，“马”，“船”，“卡车”。 CIFAR-10 中的图像尺寸为`3x32x32`，即尺寸为`32x32`像素的 3 通道彩色图像。
+
+![cifar10](img/ae800707f2489607d51d67499071db16.png)
+
+cifar10
+
+## 训练图像分类器
+
+我们将按顺序执行以下步骤：
+
+1.  使用`torchvision`加载并标准化 CIFAR10 训练和测试数据集
+2.  定义卷积神经网络
+3.  定义损失函数
+4.  根据训练数据训练网络
+5.  在测试数据上测试网络
+
+### 1.加载并标准化 CIFAR10
+
+使用`torchvision`，加载 CIFAR10 非常容易。
+
+```py
+import torch
+import torchvision
+import torchvision.transforms as transforms
+
+```
+
+TorchVision 数据集的输出是`[0, 1]`范围的`PILImage`图像。 我们将它们转换为归一化范围`[-1, 1]`的张量。 .. 注意：
+
+```py
+If running on Windows and you get a BrokenPipeError, try setting
+the num_worker of torch.utils.data.DataLoader() to 0.
+
+```
+
+```py
+transform = transforms.Compose(
+    [transforms.ToTensor(),
+     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
+
+trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
+                                        download=True, transform=transform)
+trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
+                                          shuffle=True, num_workers=2)
+
+testset = torchvision.datasets.CIFAR10(root='./data', train=False,
+                                       download=True, transform=transform)
+testloader = torch.utils.data.DataLoader(testset, batch_size=4,
+                                         shuffle=False, num_workers=2)
+
+classes = ('plane', 'car', 'bird', 'cat',
+           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
+
+```
+
+出：
+
+```py
+Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data/cifar-10-python.tar.gz
+Extracting ./data/cifar-10-python.tar.gz to ./data
+Files already downloaded and verified
+
+```
+
+让我们展示一些训练图像，很有趣。
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+
+# functions to show an image
+
+def imshow(img):
+    img = img / 2 + 0.5     # unnormalize
+    npimg = img.numpy()
+    plt.imshow(np.transpose(npimg, (1, 2, 0)))
+    plt.show()
+
+# get some random training images
+dataiter = iter(trainloader)
+images, labels = dataiter.next()
+
+# show images
+imshow(torchvision.utils.make_grid(images))
+# print labels
+print(' '.join('%5s' % classes[labels[j]] for j in range(4)))
+
+```
+
+![../../_img/sphx_glr_cifar10_tutorial_001.png](img/aaf8c905effc5044cb9691420e5261fa.png)
+
+出：
+
+```py
+dog truck  frog horse
+
+```
+
+### 2.定义卷积神经网络
+
+之前从“神经网络”部分复制神经网络，然后对其进行修改以获取 3 通道图像（而不是定义的 1 通道图像）。
+
+```py
+import torch.nn as nn
+import torch.nn.functional as F
+
+class Net(nn.Module):
+    def __init__(self):
+        super(Net, self).__init__()
+        self.conv1 = nn.Conv2d(3, 6, 5)
+        self.pool = nn.MaxPool2d(2, 2)
+        self.conv2 = nn.Conv2d(6, 16, 5)
+        self.fc1 = nn.Linear(16 * 5 * 5, 120)
+        self.fc2 = nn.Linear(120, 84)
+        self.fc3 = nn.Linear(84, 10)
+
+    def forward(self, x):
+        x = self.pool(F.relu(self.conv1(x)))
+        x = self.pool(F.relu(self.conv2(x)))
+        x = x.view(-1, 16 * 5 * 5)
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+net = Net()
+
+```
+
+### 3.定义损失函数和优化器
+
+让我们使用分类交叉熵损失和带有动量的 SGD。
+
+```py
+import torch.optim as optim
+
+criterion = nn.CrossEntropyLoss()
+optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
+
+```
+
+### 4.训练网络
+
+这是事情开始变得有趣的时候。 我们只需要遍历数据迭代器，然后将输入馈送到网络并进行优化即可。
+
+```py
+for epoch in range(2):  # loop over the dataset multiple times
+
+    running_loss = 0.0
+    for i, data in enumerate(trainloader, 0):
+        # get the inputs; data is a list of [inputs, labels]
+        inputs, labels = data
+
+        # zero the parameter gradients
+        optimizer.zero_grad()
+
+        # forward + backward + optimize
+        outputs = net(inputs)
+        loss = criterion(outputs, labels)
+        loss.backward()
+        optimizer.step()
+
+        # print statistics
+        running_loss += loss.item()
+        if i % 2000 == 1999:    # print every 2000 mini-batches
+            print('[%d, %5d] loss: %.3f' %
+                  (epoch + 1, i + 1, running_loss / 2000))
+            running_loss = 0.0
+
+print('Finished Training')
+
+```
+
+出：
+
+```py
+[1,  2000] loss: 2.196
+[1,  4000] loss: 1.849
+[1,  6000] loss: 1.671
+[1,  8000] loss: 1.589
+[1, 10000] loss: 1.547
+[1, 12000] loss: 1.462
+[2,  2000] loss: 1.382
+[2,  4000] loss: 1.389
+[2,  6000] loss: 1.369
+[2,  8000] loss: 1.332
+[2, 10000] loss: 1.304
+[2, 12000] loss: 1.288
+Finished Training
+
+```
+
+让我们快速保存我们训练过的模型：
+
+```py
+PATH = './cifar_net.pth'
+torch.save(net.state_dict(), PATH)
+
+```
+
+有关保存 PyTorch 模型的更多详细信息，请参见[此处](https://pytorch.org/docs/stable/notes/serialization.html)。
+
+### 5.根据测试数据测试网络
+
+我们已经在训练数据集中对网络进行了 2 次训练。 但是我们需要检查网络是否学到了什么。
+
+我们将通过预测神经网络输出的类别标签并根据实际情况进行检查来进行检查。 如果预测正确，则将样本添加到正确预测列表中。
+
+好的，第一步。 让我们显示测试集中的图像以使其熟悉。
+
+```py
+dataiter = iter(testloader)
+images, labels = dataiter.next()
+
+# print images
+imshow(torchvision.utils.make_grid(images))
+print('GroundTruth: ', ' '.join('%5s' % classes[labels[j]] for j in range(4)))
+
+```
+
+![../../_img/sphx_glr_cifar10_tutorial_002.png](img/d148a5bd51a3278e9698bba522cbc34a.png)
+
+出：
+
+```py
+GroundTruth:    cat  ship  ship plane
+
+```
+
+接下来，让我们重新加载保存的模型（注意：这里不需要保存和重新加载模型，我们只是为了说明如何这样做）：
+
+```py
+net = Net()
+net.load_state_dict(torch.load(PATH))
+
+```
+
+好的，现在让我们看看神经网络对以上这些示例的看法：
+
+```py
+outputs = net(images)
+
+```
+
+输出是 10 类的能量。 一个类别的能量越高，网络就认为该图像属于特定类别。 因此，让我们获取最高能量的指数：
+
+```py
+_, predicted = torch.max(outputs, 1)
+
+print('Predicted: ', ' '.join('%5s' % classes[predicted[j]]
+                              for j in range(4)))
+
+```
+
+出：
+
+```py
+Predicted:    cat  ship  ship plane
+
+```
+
+结果似乎还不错。
+
+让我们看一下网络在整个数据集上的表现。
+
+```py
+correct = 0
+total = 0
+with torch.no_grad():
+    for data in testloader:
+        images, labels = data
+        outputs = net(images)
+        _, predicted = torch.max(outputs.data, 1)
+        total += labels.size(0)
+        correct += (predicted == labels).sum().item()
+
+print('Accuracy of the network on the 10000 test images: %d %%' % (
+    100 * correct / total))
+
+```
+
+出：
+
+```py
+Accuracy of the network on the 10000 test images: 53 %
+
+```
+
+看起来比偶然更好，准确率是 10%（从 10 个类中随机选择一个类）。 好像网络学到了一些东西。
+
+嗯，哪些类的表现良好，哪些类的表现不佳：
+
+```py
+class_correct = list(0\. for i in range(10))
+class_total = list(0\. for i in range(10))
+with torch.no_grad():
+    for data in testloader:
+        images, labels = data
+        outputs = net(images)
+        _, predicted = torch.max(outputs, 1)
+        c = (predicted == labels).squeeze()
+        for i in range(4):
+            label = labels[i]
+            class_correct[label] += c[i].item()
+            class_total[label] += 1
+
+for i in range(10):
+    print('Accuracy of %5s : %2d %%' % (
+        classes[i], 100 * class_correct[i] / class_total[i]))
+
+```
+
+出：
+
+```py
+Accuracy of plane : 50 %
+Accuracy of   car : 62 %
+Accuracy of  bird : 51 %
+Accuracy of   cat : 32 %
+Accuracy of  deer : 31 %
+Accuracy of   dog : 35 %
+Accuracy of  frog : 77 %
+Accuracy of horse : 70 %
+Accuracy of  ship : 71 %
+Accuracy of truck : 52 %
+
+```
+
+好的，那下一步呢？
+
+我们如何在 GPU 上运行这些神经网络？
+
+## 在 GPU 上进行训练
+
+就像将张量转移到 GPU 上一样，您也将神经网络转移到 GPU 上。
+
+如果可以使用 CUDA，首先将我们的设备定义为第一个可见的 cuda 设备：
+
+```py
+device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+
+# Assuming that we are on a CUDA machine, this should print a CUDA device:
+
+print(device)
+
+```
+
+出：
+
+```py
+cuda:0
+
+```
+
+本节的其余部分假定`device`是 CUDA 设备。
+
+然后，这些方法将递归遍历所有模块，并将其参数和缓冲区转换为 CUDA 张量：
+
+```py
+net.to(device)
+
+```
+
+请记住，您还必须将每一步的输入和目标也发送到 GPU：
+
+```py
+inputs, labels = data[0].to(device), data[1].to(device)
+
+```
+
+与 CPU 相比，为什么我没有注意到 MASSIVE 加速？ 因为您的网络真的很小。
+
+**练习**：尝试增加网络的宽度（第一个`nn.Conv2d`的参数 2 和第二个`nn.Conv2d`的参数 1 –它们必须是相同的数字），看看您可以得到哪种加速。
+
+**已实现的目标**：
+
+*   全面了解 PyTorch 的张量库和神经网络。
+*   训练一个小型神经网络对图像进行分类
+
+## 在多个 GPU 上进行训练
+
+如果您想使用所有 GPU 来获得更大的大规模加速，请查看[可选：数据并行](data_parallel_tutorial.html)。
+
+## 我下一步要去哪里？
+
+*   [训练神经网络玩视频游戏](../../intermediate/reinforcement_q_learning.html)
+*   [在 imagenet 上训练最先进的 ResNet 网络](https://github.com/pytorch/examples/tree/master/imagenet) 
+*   [使用生成对抗网络训练人脸生成器](https://github.com/pytorch/examples/tree/master/dcgan)
+*   [使用递归 LSTM 网络训练单词级语言模型](https://github.com/pytorch/examples/tree/master/word_language_model)
+*   [更多示例](https://github.com/pytorch/examples)
+*   [更多教程](https://github.com/pytorch/tutorials)
+*   [在论坛上讨论 PyTorch](https://discuss.pytorch.org/)
+*   [在 Slack 上与其他用户聊天](https://pytorch.slack.com/messages/beginner/) 
+
+**脚本的总运行时间**：（2 分钟 39.965 秒）
+
+[下载 Python 源码：`cifar10_tutorial.py`](https://pytorch.org/tutorials/_downloads/ba100c1433c3c42a16709bb6a2ed0f85/cifar10_tutorial.py)
+
+[下载 Jupyter 笔记本：`cifar10_tutorial.ipynb`](https://pytorch.org/tutorials/_downloads/17a7c7cb80916fcdf921097825a0f562/cifar10_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/07.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/07.md
new file mode 100644
index 00000000..4cedfe0b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/07.md
@@ -0,0 +1,631 @@
+# 通过示例学习 PyTorch
+
+> 原文：<https://pytorch.org/tutorials/beginner/pytorch_with_examples.html>
+
+**作者**：[Justin Johnson](https://github.com/jcjohnson/pytorch-examples)
+
+本教程通过独立的示例介绍 [PyTorch](https://github.com/pytorch/pytorch) 的基本概念。
+
+PyTorch 的核心是提供两个主要功能：
+
+*   n 维张量，类似于 NumPy，但可以在 GPU 上运行
+*   用于构建和训练神经网络的自动微分
+
+我们将使用将三阶多项式拟合`y = sin(x)`的问题作为运行示例。 该网络将具有四个参数，并且将通过使网络输出与实际输出之间的欧几里德距离最小化来进行梯度下降训练，以适应随机数据。
+
+注意
+
+您可以在[本页](#examples-download)浏览各个示例。
+
+## 张量
+
+### 预热：NumPy
+
+在介绍 PyTorch 之前，我们将首先使用 numpy 实现网络。
+
+Numpy 提供了一个 n 维数组对象，以及许多用于操纵这些数组的函数。 Numpy 是用于科学计算的通用框架。 它对计算图，深度学习或梯度一无所知。 但是，通过使用 numpy 操作手动实现网络的前向和后向传递，我们可以轻松地使用 numpy 使三阶多项式适合正弦函数：
+
+```py
+# -*- coding: utf-8 -*-
+import numpy as np
+import math
+
+# Create random input and output data
+x = np.linspace(-math.pi, math.pi, 2000)
+y = np.sin(x)
+
+# Randomly initialize weights
+a = np.random.randn()
+b = np.random.randn()
+c = np.random.randn()
+d = np.random.randn()
+
+learning_rate = 1e-6
+for t in range(2000):
+    # Forward pass: compute predicted y
+    # y = a + b x + c x^2 + d x^3
+    y_pred = a + b * x + c * x ** 2 + d * x ** 3
+
+    # Compute and print loss
+    loss = np.square(y_pred - y).sum()
+    if t % 100 == 99:
+        print(t, loss)
+
+    # Backprop to compute gradients of a, b, c, d with respect to loss
+    grad_y_pred = 2.0 * (y_pred - y)
+    grad_a = grad_y_pred.sum()
+    grad_b = (grad_y_pred * x).sum()
+    grad_c = (grad_y_pred * x ** 2).sum()
+    grad_d = (grad_y_pred * x ** 3).sum()
+
+    # Update weights
+    a -= learning_rate * grad_a
+    b -= learning_rate * grad_b
+    c -= learning_rate * grad_c
+    d -= learning_rate * grad_d
+
+print(f'Result: y = {a} + {b} x + {c} x^2 + {d} x^3')
+
+```
+
+### PyTorch：张量
+
+Numpy 是一个很棒的框架，但是它不能利用 GPU 来加速其数值计算。 对于现代深度神经网络，GPU 通常会提供 [50 倍或更高](https://github.com/jcjohnson/cnn-benchmarks)的加速，因此遗憾的是，numpy 不足以实现现代深度学习。
+
+在这里，我们介绍最基本的 PyTorch 概念：**张量**。 PyTorch 张量在概念上与 numpy 数组相同：张量是 n 维数组，PyTorch 提供了许多在这些张量上进行操作的函数。 在幕后，张量可以跟踪计算图和梯度，但它们也可用作科学计算的通用工具。
+
+与 numpy 不同，PyTorch 张量可以利用 GPU 加速其数字计算。 要在 GPU 上运行 PyTorch 张量，您只需要指定正确的设备即可。
+
+在这里，我们使用 PyTorch 张量将三阶多项式拟合为正弦函数。 像上面的 numpy 示例一样，我们需要手动实现通过网络的正向和反向传递：
+
+```py
+# -*- coding: utf-8 -*-
+
+import torch
+import math
+
+dtype = torch.float
+device = torch.device("cpu")
+# device = torch.device("cuda:0") # Uncomment this to run on GPU
+
+# Create random input and output data
+x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
+y = torch.sin(x)
+
+# Randomly initialize weights
+a = torch.randn((), device=device, dtype=dtype)
+b = torch.randn((), device=device, dtype=dtype)
+c = torch.randn((), device=device, dtype=dtype)
+d = torch.randn((), device=device, dtype=dtype)
+
+learning_rate = 1e-6
+for t in range(2000):
+    # Forward pass: compute predicted y
+    y_pred = a + b * x + c * x ** 2 + d * x ** 3
+
+    # Compute and print loss
+    loss = (y_pred - y).pow(2).sum().item()
+    if t % 100 == 99:
+        print(t, loss)
+
+    # Backprop to compute gradients of a, b, c, d with respect to loss
+    grad_y_pred = 2.0 * (y_pred - y)
+    grad_a = grad_y_pred.sum()
+    grad_b = (grad_y_pred * x).sum()
+    grad_c = (grad_y_pred * x ** 2).sum()
+    grad_d = (grad_y_pred * x ** 3).sum()
+
+    # Update weights using gradient descent
+    a -= learning_rate * grad_a
+    b -= learning_rate * grad_b
+    c -= learning_rate * grad_c
+    d -= learning_rate * grad_d
+
+print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')
+
+```
+
+## Autograd
+
+### PyTorch：张量和 Autograd
+
+在上述示例中，我们必须手动实现神经网络的前向和后向传递。 对于小型的两层网络，手动实现反向传递并不是什么大问题，但是对于大型的复杂网络来说，可以很快变得非常麻烦。
+
+幸运的是，我们可以使用[自动微分](https://en.wikipedia.org/wiki/Automatic_differentiation)来自动计算神经网络中的反向传递。 PyTorch 中的 **Autograd** 包正是提供了此功能。 使用 Autograd 时，网络的正向传播将定义**计算图**； 图中的节点为张量，边为从输入张量产生输出张量的函数。 然后通过该图进行反向传播，可以轻松计算梯度。
+
+这听起来很复杂，在实践中非常简单。 每个张量代表计算图中的一个节点。 如果`x`是具有`x.requires_grad=True`的张量，则`x.grad`是另一个张量，其保持`x`相对于某个标量值的梯度。
+
+在这里，我们使用 PyTorch 张量和 Autograd 来实现我们的正弦波与三阶多项式示例； 现在我们不再需要通过网络手动实现反向传递：
+
+```py
+# -*- coding: utf-8 -*-
+import torch
+import math
+
+dtype = torch.float
+device = torch.device("cpu")
+# device = torch.device("cuda:0")  # Uncomment this to run on GPU
+
+# Create Tensors to hold input and outputs.
+# By default, requires_grad=False, which indicates that we do not need to
+# compute gradients with respect to these Tensors during the backward pass.
+x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
+y = torch.sin(x)
+
+# Create random Tensors for weights. For a third order polynomial, we need
+# 4 weights: y = a + b x + c x^2 + d x^3
+# Setting requires_grad=True indicates that we want to compute gradients with
+# respect to these Tensors during the backward pass.
+a = torch.randn((), device=device, dtype=dtype, requires_grad=True)
+b = torch.randn((), device=device, dtype=dtype, requires_grad=True)
+c = torch.randn((), device=device, dtype=dtype, requires_grad=True)
+d = torch.randn((), device=device, dtype=dtype, requires_grad=True)
+
+learning_rate = 1e-6
+for t in range(2000):
+    # Forward pass: compute predicted y using operations on Tensors.
+    y_pred = a + b * x + c * x ** 2 + d * x ** 3
+
+    # Compute and print loss using operations on Tensors.
+    # Now loss is a Tensor of shape (1,)
+    # loss.item() gets the scalar value held in the loss.
+    loss = (y_pred - y).pow(2).sum()
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Use autograd to compute the backward pass. This call will compute the
+    # gradient of loss with respect to all Tensors with requires_grad=True.
+    # After this call a.grad, b.grad. c.grad and d.grad will be Tensors holding
+    # the gradient of the loss with respect to a, b, c, d respectively.
+    loss.backward()
+
+    # Manually update weights using gradient descent. Wrap in torch.no_grad()
+    # because weights have requires_grad=True, but we don't need to track this
+    # in autograd.
+    with torch.no_grad():
+        a -= learning_rate * a.grad
+        b -= learning_rate * b.grad
+        c -= learning_rate * c.grad
+        d -= learning_rate * d.grad
+
+        # Manually zero the gradients after updating weights
+        a.grad = None
+        b.grad = None
+        c.grad = None
+        d.grad = None
+
+print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')
+
+```
+
+### PyTorch：定义新的 Autograd 函数
+
+在幕后，每个原始的 Autograd 运算符实际上都是在张量上运行的两个函数。 **正向**函数从输入张量计算输出张量。 **反向**函数接收相对于某个标量值的输出张量的梯度，并计算相对于相同标量值的输入张量的梯度。
+
+在 PyTorch 中，我们可以通过定义`torch.autograd.Function`的子类并实现`forward`和`backward`函数来轻松定义自己的 Autograd 运算符。 然后，我们可以通过构造实例并像调用函数一样调用新的 Autograd 运算符，并传递包含输入数据的张量。
+
+在此示例中，我们将模型定义为`y = a + b P[3](c + dx)`而不是`y = a + bx + cx ^ 2 + dx ^ 3`，其中`P[3](x) = 1/2 (5x ^ 3 - 3x)`是三次的[勒让德多项式](https://en.wikipedia.org/wiki/Legendre_polynomials)。 我们编写了自己的自定义 Autograd 函数来计算`P[3]`的前进和后退，并使用它来实现我们的模型：
+
+```py
+# -*- coding: utf-8 -*-
+import torch
+import math
+
+class LegendrePolynomial3(torch.autograd.Function):
+    """
+    We can implement our own custom autograd Functions by subclassing
+    torch.autograd.Function and implementing the forward and backward passes
+    which operate on Tensors.
+    """
+
+    @staticmethod
+    def forward(ctx, input):
+        """
+        In the forward pass we receive a Tensor containing the input and return
+        a Tensor containing the output. ctx is a context object that can be used
+        to stash information for backward computation. You can cache arbitrary
+        objects for use in the backward pass using the ctx.save_for_backward method.
+        """
+        ctx.save_for_backward(input)
+        return 0.5 * (5 * input ** 3 - 3 * input)
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        """
+        In the backward pass we receive a Tensor containing the gradient of the loss
+        with respect to the output, and we need to compute the gradient of the loss
+        with respect to the input.
+        """
+        input, = ctx.saved_tensors
+        return grad_output * 1.5 * (5 * input ** 2 - 1)
+
+dtype = torch.float
+device = torch.device("cpu")
+# device = torch.device("cuda:0")  # Uncomment this to run on GPU
+
+# Create Tensors to hold input and outputs.
+# By default, requires_grad=False, which indicates that we do not need to
+# compute gradients with respect to these Tensors during the backward pass.
+x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
+y = torch.sin(x)
+
+# Create random Tensors for weights. For this example, we need
+# 4 weights: y = a + b * P3(c + d * x), these weights need to be initialized
+# not too far from the correct result to ensure convergence.
+# Setting requires_grad=True indicates that we want to compute gradients with
+# respect to these Tensors during the backward pass.
+a = torch.full((), 0.0, device=device, dtype=dtype, requires_grad=True)
+b = torch.full((), -1.0, device=device, dtype=dtype, requires_grad=True)
+c = torch.full((), 0.0, device=device, dtype=dtype, requires_grad=True)
+d = torch.full((), 0.3, device=device, dtype=dtype, requires_grad=True)
+
+learning_rate = 5e-6
+for t in range(2000):
+    # To apply our Function, we use Function.apply method. We alias this as 'P3'.
+    P3 = LegendrePolynomial3.apply
+
+    # Forward pass: compute predicted y using operations; we compute
+    # P3 using our custom autograd operation.
+    y_pred = a + b * P3(c + d * x)
+
+    # Compute and print loss
+    loss = (y_pred - y).pow(2).sum()
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Use autograd to compute the backward pass.
+    loss.backward()
+
+    # Update weights using gradient descent
+    with torch.no_grad():
+        a -= learning_rate * a.grad
+        b -= learning_rate * b.grad
+        c -= learning_rate * c.grad
+        d -= learning_rate * d.grad
+
+        # Manually zero the gradients after updating weights
+        a.grad = None
+        b.grad = None
+        c.grad = None
+        d.grad = None
+
+print(f'Result: y = {a.item()} + {b.item()} * P3({c.item()} + {d.item()} x)')
+
+```
+
+## `nn`模块
+
+### PyTorch：`nn`
+
+计算图和 Autograd 是定义复杂运算符并自动采用导数的非常强大的范例。 但是对于大型神经网络，原始的 Autograd 可能会太低级。
+
+在构建神经网络时，我们经常想到将计算安排在**层**中，其中某些层具有**可学习的参数**，这些参数会在学习期间进行优化。
+
+在 TensorFlow 中，像 [Keras](https://github.com/fchollet/keras) ， [TensorFlow-Slim](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/slim) 和 [TFLearn](http://tflearn.org/) 之类的包在原始计算图上提供了更高层次的抽象，可用于构建神经网络。
+
+在 PyTorch 中，`nn`包也达到了相同的目的。 `nn`包定义了一组**模块**，它们大致等效于神经网络层。 模块接收输入张量并计算输出张量，但也可以保持内部状态，例如包含可学习参数的张量。 `nn`包还定义了一组有用的损失函数，这些函数通常在训练神经网络时使用。
+
+在此示例中，我们使用`nn`包来实现我们的多项式模型网络：
+
+```py
+# -*- coding: utf-8 -*-
+import torch
+import math
+
+# Create Tensors to hold input and outputs.
+x = torch.linspace(-math.pi, math.pi, 2000)
+y = torch.sin(x)
+
+# For this example, the output y is a linear function of (x, x^2, x^3), so
+# we can consider it as a linear layer neural network. Let's prepare the
+# tensor (x, x^2, x^3).
+p = torch.tensor([1, 2, 3])
+xx = x.unsqueeze(-1).pow(p)
+
+# In the above code, x.unsqueeze(-1) has shape (2000, 1), and p has shape
+# (3,), for this case, broadcasting semantics will apply to obtain a tensor
+# of shape (2000, 3) 
+
+# Use the nn package to define our model as a sequence of layers. nn.Sequential
+# is a Module which contains other Modules, and applies them in sequence to
+# produce its output. The Linear Module computes output from input using a
+# linear function, and holds internal Tensors for its weight and bias.
+# The Flatten layer flatens the output of the linear layer to a 1D tensor,
+# to match the shape of `y`.
+model = torch.nn.Sequential(
+    torch.nn.Linear(3, 1),
+    torch.nn.Flatten(0, 1)
+)
+
+# The nn package also contains definitions of popular loss functions; in this
+# case we will use Mean Squared Error (MSE) as our loss function.
+loss_fn = torch.nn.MSELoss(reduction='sum')
+
+learning_rate = 1e-6
+for t in range(2000):
+
+    # Forward pass: compute predicted y by passing x to the model. Module objects
+    # override the __call__ operator so you can call them like functions. When
+    # doing so you pass a Tensor of input data to the Module and it produces
+    # a Tensor of output data.
+    y_pred = model(xx)
+
+    # Compute and print loss. We pass Tensors containing the predicted and true
+    # values of y, and the loss function returns a Tensor containing the
+    # loss.
+    loss = loss_fn(y_pred, y)
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Zero the gradients before running the backward pass.
+    model.zero_grad()
+
+    # Backward pass: compute gradient of the loss with respect to all the learnable
+    # parameters of the model. Internally, the parameters of each Module are stored
+    # in Tensors with requires_grad=True, so this call will compute gradients for
+    # all learnable parameters in the model.
+    loss.backward()
+
+    # Update the weights using gradient descent. Each parameter is a Tensor, so
+    # we can access its gradients like we did before.
+    with torch.no_grad():
+        for param in model.parameters():
+            param -= learning_rate * param.grad
+
+# You can access the first layer of `model` like accessing the first item of a list
+linear_layer = model[0]
+
+# For linear layer, its parameters are stored as `weight` and `bias`.
+print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')
+
+```
+
+### PyTorch：`optim`
+
+到目前为止，我们已经通过使用`torch.no_grad()`手动更改持有可学习参数的张量来更新模型的权重。 对于像随机梯度下降这样的简单优化算法来说，这并不是一个巨大的负担，但是在实践中，我们经常使用更复杂的优化器（例如 AdaGrad，RMSProp，Adam 等）来训练神经网络。
+
+PyTorch 中的`optim`包抽象了优化算法的思想，并提供了常用优化算法的实现。
+
+在此示例中，我们将使用`nn`包像以前一样定义我们的模型，但是我们将使用`optim`包提供的 RMSprop 算法来优化模型：
+
+```py
+# -*- coding: utf-8 -*-
+import torch
+import math
+
+# Create Tensors to hold input and outputs.
+x = torch.linspace(-math.pi, math.pi, 2000)
+y = torch.sin(x)
+
+# Prepare the input tensor (x, x^2, x^3).
+p = torch.tensor([1, 2, 3])
+xx = x.unsqueeze(-1).pow(p)
+
+# Use the nn package to define our model and loss function.
+model = torch.nn.Sequential(
+    torch.nn.Linear(3, 1),
+    torch.nn.Flatten(0, 1)
+)
+loss_fn = torch.nn.MSELoss(reduction='sum')
+
+# Use the optim package to define an Optimizer that will update the weights of
+# the model for us. Here we will use RMSprop; the optim package contains many other
+# optimization algorithms. The first argument to the RMSprop constructor tells the
+# optimizer which Tensors it should update.
+learning_rate = 1e-3
+optimizer = torch.optim.RMSprop(model.parameters(), lr=learning_rate)
+for t in range(2000):
+    # Forward pass: compute predicted y by passing x to the model.
+    y_pred = model(xx)
+
+    # Compute and print loss.
+    loss = loss_fn(y_pred, y)
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Before the backward pass, use the optimizer object to zero all of the
+    # gradients for the variables it will update (which are the learnable
+    # weights of the model). This is because by default, gradients are
+    # accumulated in buffers( i.e, not overwritten) whenever .backward()
+    # is called. Checkout docs of torch.autograd.backward for more details.
+    optimizer.zero_grad()
+
+    # Backward pass: compute gradient of the loss with respect to model
+    # parameters
+    loss.backward()
+
+    # Calling the step function on an Optimizer makes an update to its
+    # parameters
+    optimizer.step()
+
+linear_layer = model[0]
+print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')
+
+```
+
+### PyTorch：自定义`nn`模块
+
+有时，您将需要指定比一系列现有模块更复杂的模型。 对于这些情况，您可以通过子类化`nn.Module`并定义一个`forward`来定义自己的模块，该模块使用其他模块或在 Tensors 上的其他自动转换操作来接收输入 Tensors 并生成输出 Tensors。
+
+在此示例中，我们将三阶多项式实现为自定义`Module`子类：
+
+```py
+# -*- coding: utf-8 -*-
+import torch
+import math
+
+class Polynomial3(torch.nn.Module):
+    def __init__(self):
+        """
+        In the constructor we instantiate four parameters and assign them as
+        member parameters.
+        """
+        super().__init__()
+        self.a = torch.nn.Parameter(torch.randn(()))
+        self.b = torch.nn.Parameter(torch.randn(()))
+        self.c = torch.nn.Parameter(torch.randn(()))
+        self.d = torch.nn.Parameter(torch.randn(()))
+
+    def forward(self, x):
+        """
+        In the forward function we accept a Tensor of input data and we must return
+        a Tensor of output data. We can use Modules defined in the constructor as
+        well as arbitrary operators on Tensors.
+        """
+        return self.a + self.b * x + self.c * x ** 2 + self.d * x ** 3
+
+    def string(self):
+        """
+        Just like any class in Python, you can also define custom method on PyTorch modules
+        """
+        return f'y = {self.a.item()} + {self.b.item()} x + {self.c.item()} x^2 + {self.d.item()} x^3'
+
+# Create Tensors to hold input and outputs.
+x = torch.linspace(-math.pi, math.pi, 2000)
+y = torch.sin(x)
+
+# Construct our model by instantiating the class defined above
+model = Polynomial3()
+
+# Construct our loss function and an Optimizer. The call to model.parameters()
+# in the SGD constructor will contain the learnable parameters of the nn.Linear
+# module which is members of the model.
+criterion = torch.nn.MSELoss(reduction='sum')
+optimizer = torch.optim.SGD(model.parameters(), lr=1e-6)
+for t in range(2000):
+    # Forward pass: Compute predicted y by passing x to the model
+    y_pred = model(x)
+
+    # Compute and print loss
+    loss = criterion(y_pred, y)
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Zero gradients, perform a backward pass, and update the weights.
+    optimizer.zero_grad()
+    loss.backward()
+    optimizer.step()
+
+print(f'Result: {model.string()}')
+
+```
+
+### PyTorch：控制流 + 权重共享
+
+作为动态图和权重共享的示例，我们实现了一个非常奇怪的模型：一个三阶多项式，在每个正向传播中选择 3 到 5 之间的一个随机数，并使用该阶数，多次使用相同的权重重复计算四和五阶。
+
+对于此模型，我们可以使用常规的 Python 流控制来实现循环，并且可以通过在定义正向传播时简单地多次重复使用相同的参数来实现权重共享。
+
+我们可以轻松地将此模型实现为`Module`子类：
+
+```py
+# -*- coding: utf-8 -*-
+import random
+import torch
+import math
+
+class DynamicNet(torch.nn.Module):
+    def __init__(self):
+        """
+        In the constructor we instantiate five parameters and assign them as members.
+        """
+        super().__init__()
+        self.a = torch.nn.Parameter(torch.randn(()))
+        self.b = torch.nn.Parameter(torch.randn(()))
+        self.c = torch.nn.Parameter(torch.randn(()))
+        self.d = torch.nn.Parameter(torch.randn(()))
+        self.e = torch.nn.Parameter(torch.randn(()))
+
+    def forward(self, x):
+        """
+        For the forward pass of the model, we randomly choose either 4, 5
+        and reuse the e parameter to compute the contribution of these orders.
+
+        Since each forward pass builds a dynamic computation graph, we can use normal
+        Python control-flow operators like loops or conditional statements when
+        defining the forward pass of the model.
+
+        Here we also see that it is perfectly safe to reuse the same parameter many
+        times when defining a computational graph.
+        """
+        y = self.a + self.b * x + self.c * x ** 2 + self.d * x ** 3
+        for exp in range(4, random.randint(4, 6)):
+            y = y + self.e * x ** exp
+        return y
+
+    def string(self):
+        """
+        Just like any class in Python, you can also define custom method on PyTorch modules
+        """
+        return f'y = {self.a.item()} + {self.b.item()} x + {self.c.item()} x^2 + {self.d.item()} x^3 + {self.e.item()} x^4 ? + {self.e.item()} x^5 ?'
+
+# Create Tensors to hold input and outputs.
+x = torch.linspace(-math.pi, math.pi, 2000)
+y = torch.sin(x)
+
+# Construct our model by instantiating the class defined above
+model = DynamicNet()
+
+# Construct our loss function and an Optimizer. Training this strange model with
+# vanilla stochastic gradient descent is tough, so we use momentum
+criterion = torch.nn.MSELoss(reduction='sum')
+optimizer = torch.optim.SGD(model.parameters(), lr=1e-8, momentum=0.9)
+for t in range(30000):
+    # Forward pass: Compute predicted y by passing x to the model
+    y_pred = model(x)
+
+    # Compute and print loss
+    loss = criterion(y_pred, y)
+    if t % 2000 == 1999:
+        print(t, loss.item())
+
+    # Zero gradients, perform a backward pass, and update the weights.
+    optimizer.zero_grad()
+    loss.backward()
+    optimizer.step()
+
+print(f'Result: {model.string()}')
+
+```
+
+## 示例
+
+您可以在此处浏览以上示例。
+
+### 张量
+
+![../_img/sphx_glr_polynomial_numpy_thumb.png](img/ea0bddb69dfbd67215b823007544ab8f.png)
+
+[热身：NumPy](examples_tensor/polynomial_numpy.html#sphx-glr-beginner-examples-tensor-polynomial-numpy-py)
+
+![../_img/sphx_glr_polynomial_tensor_thumb.png](img/04ee335faf821b337dba0c4d7ccb0b67.png)
+
+[PyTorch：张量](examples_tensor/polynomial_tensor.html#sphx-glr-beginner-examples-tensor-polynomial-tensor-py)
+
+### Autograd
+
+![../_img/sphx_glr_polynomial_autograd_thumb.png](img/ffad28c33f8a48d06521421f1aa441ed.png)
+
+[PyTorch：张量和 Autograd](examples_autograd/polynomial_autograd.html#sphx-glr-beginner-examples-autograd-polynomial-autograd-py)
+
+![../_img/sphx_glr_polynomial_custom_function_thumb.png](img/a5c5d931ed12e34bf68476f4f157b780.png)
+
+[PyTorch：定义新的 Autograd 函数](examples_autograd/polynomial_custom_function.html#sphx-glr-beginner-examples-autograd-polynomial-custom-function-py)
+
+### `nn`模块
+
+![../_img/sphx_glr_polynomial_nn_thumb.png](img/335fb81e535f98bfda7cbdb3e50d8832.png)
+
+[PyTorch：`nn`](examples_nn/polynomial_nn.html#sphx-glr-beginner-examples-nn-polynomial-nn-py)
+
+![../_img/sphx_glr_polynomial_optim_thumb.png](img/87aa5017f5f0ba9a29d66e74ac6b3d1a.png)
+
+[PyTorch：`optim`](examples_nn/polynomial_optim.html#sphx-glr-beginner-examples-nn-polynomial-optim-py)
+
+![../_img/sphx_glr_polynomial_module_thumb.png](img/b3f0b96ed8ba751fee4a5fc7ca878eb1.png)
+
+[PyTorch：自定义`nn`模块](examples_nn/polynomial_module.html#sphx-glr-beginner-examples-nn-polynomial-module-py)
+
+![../_img/sphx_glr_dynamic_net_thumb.png](img/bf0b252ce2d39ba6da26c16bee984d39.png)
+
+[PyTorch：控制流 + 权重共享](examples_nn/dynamic_net.html#sphx-glr-beginner-examples-nn-dynamic-net-py)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/08.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/08.md
new file mode 100644
index 00000000..d78d6eb0
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/08.md
@@ -0,0 +1,59 @@
+# 热身：NumPy
+
+> 原文：<https://pytorch.org/tutorials/beginner/examples_tensor/polynomial_numpy.html#sphx-glr-beginner-examples-tensor-polynomial-numpy-py>
+
+经过训练的三阶多项式，可以通过最小化平方的欧几里得距离来预测`y = sin(x)`从`-pi`到`pi`。
+
+此实现使用 numpy 手动计算正向传播，损失和后向通过。
+
+numpy 数组是通用的 n 维数组； 它对深度学习，梯度或计算图一无所知，而只是执行通用数值计算的一种方法。
+
+```py
+import numpy as np
+import math
+
+# Create random input and output data
+x = np.linspace(-math.pi, math.pi, 2000)
+y = np.sin(x)
+
+# Randomly initialize weights
+a = np.random.randn()
+b = np.random.randn()
+c = np.random.randn()
+d = np.random.randn()
+
+learning_rate = 1e-6
+for t in range(2000):
+    # Forward pass: compute predicted y
+    # y = a + b x + c x^2 + d x^3
+    y_pred = a + b * x + c * x ** 2 + d * x ** 3
+
+    # Compute and print loss
+    loss = np.square(y_pred - y).sum()
+    if t % 100 == 99:
+        print(t, loss)
+
+    # Backprop to compute gradients of a, b, c, d with respect to loss
+    grad_y_pred = 2.0 * (y_pred - y)
+    grad_a = grad_y_pred.sum()
+    grad_b = (grad_y_pred * x).sum()
+    grad_c = (grad_y_pred * x ** 2).sum()
+    grad_d = (grad_y_pred * x ** 3).sum()
+
+    # Update weights
+    a -= learning_rate * grad_a
+    b -= learning_rate * grad_b
+    c -= learning_rate * grad_c
+    d -= learning_rate * grad_d
+
+print(f'Result: y = {a} + {b} x + {c} x^2 + {d} x^3')
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`polynomial_numpy.py`](https://pytorch.org/tutorials/_downloads/6287cd68dd239d4f34ac75d774a66e23/polynomial_numpy.py)
+
+[下载 Jupyter 笔记本：`polynomial_numpy.ipynb`](https://pytorch.org/tutorials/_downloads/d4cfaf6a36486a5e37afb34266028d9e/polynomial_numpy.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/09.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/09.md
new file mode 100644
index 00000000..709223d7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/09.md
@@ -0,0 +1,64 @@
+# PyTorch：张量
+
+> 原文：<https://pytorch.org/tutorials/beginner/examples_tensor/polynomial_tensor.html#sphx-glr-beginner-examples-tensor-polynomial-tensor-py>
+
+经过训练的三阶多项式，可以通过最小化平方的欧几里得距离来预测`y = sin(x)`从`-pi`到`pi`。
+
+此实现使用 PyTorch 张量手动计算正向传播，损失和后向通过。
+
+PyTorch 张量基本上与 numpy 数组相同：它对深度学习或计算图或梯度一无所知，只是用于任意数值计算的通用 n 维数组。
+
+numpy 数组和 PyTorch 张量之间的最大区别是 PyTorch 张量可以在 CPU 或 GPU 上运行。 要在 GPU 上运行操作，只需将张量转换为 cuda 数据类型。
+
+```py
+import torch
+import math
+
+dtype = torch.float
+device = torch.device("cpu")
+# device = torch.device("cuda:0") # Uncomment this to run on GPU
+
+# Create random input and output data
+x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
+y = torch.sin(x)
+
+# Randomly initialize weights
+a = torch.randn((), device=device, dtype=dtype)
+b = torch.randn((), device=device, dtype=dtype)
+c = torch.randn((), device=device, dtype=dtype)
+d = torch.randn((), device=device, dtype=dtype)
+
+learning_rate = 1e-6
+for t in range(2000):
+    # Forward pass: compute predicted y
+    y_pred = a + b * x + c * x ** 2 + d * x ** 3
+
+    # Compute and print loss
+    loss = (y_pred - y).pow(2).sum().item()
+    if t % 100 == 99:
+        print(t, loss)
+
+    # Backprop to compute gradients of a, b, c, d with respect to loss
+    grad_y_pred = 2.0 * (y_pred - y)
+    grad_a = grad_y_pred.sum()
+    grad_b = (grad_y_pred * x).sum()
+    grad_c = (grad_y_pred * x ** 2).sum()
+    grad_d = (grad_y_pred * x ** 3).sum()
+
+    # Update weights using gradient descent
+    a -= learning_rate * grad_a
+    b -= learning_rate * grad_b
+    c -= learning_rate * grad_c
+    d -= learning_rate * grad_d
+
+print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`polynomial_tensor.py`](https://pytorch.org/tutorials/_downloads/38bc029908996abe0c601bcf0f5fd9d8/polynomial_tensor.py)
+
+[下载 Jupyter 笔记本：`polynomial_tensor.ipynb`](https://pytorch.org/tutorials/_downloads/1c715a0888ae0e33279df327e1653329/polynomial_tensor.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/10.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/10.md
new file mode 100644
index 00000000..da742903
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/10.md
@@ -0,0 +1,77 @@
+# PyTorch：张量和 Autograd
+
+> 原文：<https://pytorch.org/tutorials/beginner/examples_autograd/polynomial_autograd.html#sphx-glr-beginner-examples-autograd-polynomial-autograd-py>
+
+经过训练的三阶多项式，可以通过最小化平方的欧几里得距离来预测`y = sin(x)`从`-pi`到`pi`。
+
+此实现使用 PyTorch 张量上的运算来计算正向传播，并使用 PyTorch Autograd 来计算梯度。
+
+PyTorch 张量表示计算图中的一个节点。 如果`x`是具有`x.requires_grad=True`的张量，则`x.grad`是另一个张量，其保持`x`相对于某个标量值的梯度。
+
+```py
+import torch
+import math
+
+dtype = torch.float
+device = torch.device("cpu")
+# device = torch.device("cuda:0")  # Uncomment this to run on GPU
+
+# Create Tensors to hold input and outputs.
+# By default, requires_grad=False, which indicates that we do not need to
+# compute gradients with respect to these Tensors during the backward pass.
+x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
+y = torch.sin(x)
+
+# Create random Tensors for weights. For a third order polynomial, we need
+# 4 weights: y = a + b x + c x^2 + d x^3
+# Setting requires_grad=True indicates that we want to compute gradients with
+# respect to these Tensors during the backward pass.
+a = torch.randn((), device=device, dtype=dtype, requires_grad=True)
+b = torch.randn((), device=device, dtype=dtype, requires_grad=True)
+c = torch.randn((), device=device, dtype=dtype, requires_grad=True)
+d = torch.randn((), device=device, dtype=dtype, requires_grad=True)
+
+learning_rate = 1e-6
+for t in range(2000):
+    # Forward pass: compute predicted y using operations on Tensors.
+    y_pred = a + b * x + c * x ** 2 + d * x ** 3
+
+    # Compute and print loss using operations on Tensors.
+    # Now loss is a Tensor of shape (1,)
+    # loss.item() gets the scalar value held in the loss.
+    loss = (y_pred - y).pow(2).sum()
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Use autograd to compute the backward pass. This call will compute the
+    # gradient of loss with respect to all Tensors with requires_grad=True.
+    # After this call a.grad, b.grad. c.grad and d.grad will be Tensors holding
+    # the gradient of the loss with respect to a, b, c, d respectively.
+    loss.backward()
+
+    # Manually update weights using gradient descent. Wrap in torch.no_grad()
+    # because weights have requires_grad=True, but we don't need to track this
+    # in autograd.
+    with torch.no_grad():
+        a -= learning_rate * a.grad
+        b -= learning_rate * b.grad
+        c -= learning_rate * c.grad
+        d -= learning_rate * d.grad
+
+        # Manually zero the gradients after updating weights
+        a.grad = None
+        b.grad = None
+        c.grad = None
+        d.grad = None
+
+print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`polynomial_autograd.py`](https://pytorch.org/tutorials/_downloads/2956e289de4f5fdd59114171805b23d2/polynomial_autograd.py)
+
+[下载 Jupyter 笔记本：`polynomial_autograd.ipynb`](https://pytorch.org/tutorials/_downloads/e1d4d0ca7bd75ea2fff8032fcb79076e/polynomial_autograd.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/11.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/11.md
new file mode 100644
index 00000000..a7cda6fa
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/11.md
@@ -0,0 +1,103 @@
+# PyTorch：定义新的 Autograd 函数
+
+> 原文：<https://pytorch.org/tutorials/beginner/examples_autograd/polynomial_custom_function.html#sphx-glr-beginner-examples-autograd-polynomial-custom-function-py>
+
+经过训练的三阶多项式，可以通过最小化平方的欧几里得距离来预测`y = sin(x)`从`-pi`到`pi`。 而不是将多项式写为`y = a + bx + cx ^ 2 + dx ^ 3`，我们将多项式写为`y = a + b P[3](c + dx)`其中`P[3](x) = 1/2 (5x ^ 3 - 3x)`是三次的[勒让德多项式](https://en.wikipedia.org/wiki/Legendre_polynomials)。
+
+此实现使用 PyTorch 张量上的运算来计算正向传播，并使用 PyTorch Autograd 来计算梯度。
+
+在此实现中，我们实现了自己的自定义 Autograd 函数来执行`P'[3](x)`。 通过数学，`P'[3](x) = 3/2 (5x ^ 2 - 1)`：
+
+```py
+import torch
+import math
+
+class LegendrePolynomial3(torch.autograd.Function):
+    """
+    We can implement our own custom autograd Functions by subclassing
+    torch.autograd.Function and implementing the forward and backward passes
+    which operate on Tensors.
+    """
+
+    @staticmethod
+    def forward(ctx, input):
+        """
+        In the forward pass we receive a Tensor containing the input and return
+        a Tensor containing the output. ctx is a context object that can be used
+        to stash information for backward computation. You can cache arbitrary
+        objects for use in the backward pass using the ctx.save_for_backward method.
+        """
+        ctx.save_for_backward(input)
+        return 0.5 * (5 * input ** 3 - 3 * input)
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        """
+        In the backward pass we receive a Tensor containing the gradient of the loss
+        with respect to the output, and we need to compute the gradient of the loss
+        with respect to the input.
+        """
+        input, = ctx.saved_tensors
+        return grad_output * 1.5 * (5 * input ** 2 - 1)
+
+dtype = torch.float
+device = torch.device("cpu")
+# device = torch.device("cuda:0")  # Uncomment this to run on GPU
+
+# Create Tensors to hold input and outputs.
+# By default, requires_grad=False, which indicates that we do not need to
+# compute gradients with respect to these Tensors during the backward pass.
+x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
+y = torch.sin(x)
+
+# Create random Tensors for weights. For this example, we need
+# 4 weights: y = a + b * P3(c + d * x), these weights need to be initialized
+# not too far from the correct result to ensure convergence.
+# Setting requires_grad=True indicates that we want to compute gradients with
+# respect to these Tensors during the backward pass.
+a = torch.full((), 0.0, device=device, dtype=dtype, requires_grad=True)
+b = torch.full((), -1.0, device=device, dtype=dtype, requires_grad=True)
+c = torch.full((), 0.0, device=device, dtype=dtype, requires_grad=True)
+d = torch.full((), 0.3, device=device, dtype=dtype, requires_grad=True)
+
+learning_rate = 5e-6
+for t in range(2000):
+    # To apply our Function, we use Function.apply method. We alias this as 'P3'.
+    P3 = LegendrePolynomial3.apply
+
+    # Forward pass: compute predicted y using operations; we compute
+    # P3 using our custom autograd operation.
+    y_pred = a + b * P3(c + d * x)
+
+    # Compute and print loss
+    loss = (y_pred - y).pow(2).sum()
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Use autograd to compute the backward pass.
+    loss.backward()
+
+    # Update weights using gradient descent
+    with torch.no_grad():
+        a -= learning_rate * a.grad
+        b -= learning_rate * b.grad
+        c -= learning_rate * c.grad
+        d -= learning_rate * d.grad
+
+        # Manually zero the gradients after updating weights
+        a.grad = None
+        b.grad = None
+        c.grad = None
+        d.grad = None
+
+print(f'Result: y = {a.item()} + {b.item()} * P3({c.item()} + {d.item()} x)')
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`polynomial_custom_function.py`](https://pytorch.org/tutorials/_downloads/b7ec15fd7bec1ca3f921104cfb6a54ed/polynomial_custom_function.py)
+
+[下载 Jupyter 笔记本：`polynomial_custom_function.ipynb`](https://pytorch.org/tutorials/_downloads/0a64809624bf2f3eb497d30d5303a9a0/polynomial_custom_function.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/12.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/12.md
new file mode 100644
index 00000000..9dc0b70d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/12.md
@@ -0,0 +1,87 @@
+# PyTorch：`nn`
+
+> 原文：<https://pytorch.org/tutorials/beginner/examples_nn/polynomial_nn.html#sphx-glr-beginner-examples-nn-polynomial-nn-py>
+
+经过训练的三阶多项式，可以通过最小化平方的欧几里得距离来预测`y = sin(x)`从`-pi`到`pi`。
+
+此实现使用来自 PyTorch 的`nn`包来构建网络。 PyTorch Autograd 使定义计算图和获取梯度变得容易，但是原始的 Autograd 对于定义复杂的神经网络来说可能太低了。 这是`nn`包可以提供帮助的地方。 `nn`包定义了一组模块，您可以将其视为神经网络层，该神经网络层从输入产生输出并且可能具有一些可训练的权重。
+
+```py
+import torch
+import math
+
+# Create Tensors to hold input and outputs.
+x = torch.linspace(-math.pi, math.pi, 2000)
+y = torch.sin(x)
+
+# For this example, the output y is a linear function of (x, x^2, x^3), so
+# we can consider it as a linear layer neural network. Let's prepare the
+# tensor (x, x^2, x^3).
+p = torch.tensor([1, 2, 3])
+xx = x.unsqueeze(-1).pow(p)
+
+# In the above code, x.unsqueeze(-1) has shape (2000, 1), and p has shape
+# (3,), for this case, broadcasting semantics will apply to obtain a tensor
+# of shape (2000, 3)
+
+# Use the nn package to define our model as a sequence of layers. nn.Sequential
+# is a Module which contains other Modules, and applies them in sequence to
+# produce its output. The Linear Module computes output from input using a
+# linear function, and holds internal Tensors for its weight and bias.
+# The Flatten layer flatens the output of the linear layer to a 1D tensor,
+# to match the shape of `y`.
+model = torch.nn.Sequential(
+    torch.nn.Linear(3, 1),
+    torch.nn.Flatten(0, 1)
+)
+
+# The nn package also contains definitions of popular loss functions; in this
+# case we will use Mean Squared Error (MSE) as our loss function.
+loss_fn = torch.nn.MSELoss(reduction='sum')
+
+learning_rate = 1e-6
+for t in range(2000):
+
+    # Forward pass: compute predicted y by passing x to the model. Module objects
+    # override the __call__ operator so you can call them like functions. When
+    # doing so you pass a Tensor of input data to the Module and it produces
+    # a Tensor of output data.
+    y_pred = model(xx)
+
+    # Compute and print loss. We pass Tensors containing the predicted and true
+    # values of y, and the loss function returns a Tensor containing the
+    # loss.
+    loss = loss_fn(y_pred, y)
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Zero the gradients before running the backward pass.
+    model.zero_grad()
+
+    # Backward pass: compute gradient of the loss with respect to all the learnable
+    # parameters of the model. Internally, the parameters of each Module are stored
+    # in Tensors with requires_grad=True, so this call will compute gradients for
+    # all learnable parameters in the model.
+    loss.backward()
+
+    # Update the weights using gradient descent. Each parameter is a Tensor, so
+    # we can access its gradients like we did before.
+    with torch.no_grad():
+        for param in model.parameters():
+            param -= learning_rate * param.grad
+
+# You can access the first layer of `model` like accessing the first item of a list
+linear_layer = model[0]
+
+# For linear layer, its parameters are stored as `weight` and `bias`.
+print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`polynomial_nn.py`](https://pytorch.org/tutorials/_downloads/b4767df4367deade63dc8a0d3712c1d4/polynomial_nn.py)
+
+[下载 Jupyter 笔记本：`polynomial_nn.ipynb`](https://pytorch.org/tutorials/_downloads/7bc167d8b8308ae65a717d7461d838fa/polynomial_nn.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/13.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/13.md
new file mode 100644
index 00000000..ac2d8a92
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/13.md
@@ -0,0 +1,71 @@
+# PyTorch：`optim`
+
+> 原文：<https://pytorch.org/tutorials/beginner/examples_nn/polynomial_optim.html#sphx-glr-beginner-examples-nn-polynomial-optim-py>
+
+经过训练的三阶多项式，可以通过最小化平方的欧几里得距离来预测`y = sin(x)`从`-pi`到`pi`。
+
+此实现使用来自 PyTorch 的`nn`包来构建网络。
+
+与其像以前那样手动更新模型的权重，不如使用`optim`包定义一个优化器，该优化器将为我们更新权重。 `optim`包定义了许多深度学习常用的优化算法，包括 SGD + 动量，RMSProp，Adam 等。
+
+```py
+import torch
+import math
+
+# Create Tensors to hold input and outputs.
+x = torch.linspace(-math.pi, math.pi, 2000)
+y = torch.sin(x)
+
+# Prepare the input tensor (x, x^2, x^3).
+p = torch.tensor([1, 2, 3])
+xx = x.unsqueeze(-1).pow(p)
+
+# Use the nn package to define our model and loss function.
+model = torch.nn.Sequential(
+    torch.nn.Linear(3, 1),
+    torch.nn.Flatten(0, 1)
+)
+loss_fn = torch.nn.MSELoss(reduction='sum')
+
+# Use the optim package to define an Optimizer that will update the weights of
+# the model for us. Here we will use RMSprop; the optim package contains many other
+# optimization algorithms. The first argument to the RMSprop constructor tells the
+# optimizer which Tensors it should update.
+learning_rate = 1e-3
+optimizer = torch.optim.RMSprop(model.parameters(), lr=learning_rate)
+for t in range(2000):
+    # Forward pass: compute predicted y by passing x to the model.
+    y_pred = model(xx)
+
+    # Compute and print loss.
+    loss = loss_fn(y_pred, y)
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Before the backward pass, use the optimizer object to zero all of the
+    # gradients for the variables it will update (which are the learnable
+    # weights of the model). This is because by default, gradients are
+    # accumulated in buffers( i.e, not overwritten) whenever .backward()
+    # is called. Checkout docs of torch.autograd.backward for more details.
+    optimizer.zero_grad()
+
+    # Backward pass: compute gradient of the loss with respect to model
+    # parameters
+    loss.backward()
+
+    # Calling the step function on an Optimizer makes an update to its
+    # parameters
+    optimizer.step()
+
+linear_layer = model[0]
+print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`polynomial_optim.py`](https://pytorch.org/tutorials/_downloads/bcfec6f02e0fe747a42dbd1579267469/polynomial_optim.py)
+
+[下载 Jupyter 笔记本：`polynomial_optim.ipynb`](https://pytorch.org/tutorials/_downloads/8ef669b2c61c6c5aa47c54dceac4979e/polynomial_optim.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/14.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/14.md
new file mode 100644
index 00000000..619ffac4
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/14.md
@@ -0,0 +1,75 @@
+# PyTorch：自定义`nn`模块
+
+> 原文：<https://pytorch.org/tutorials/beginner/examples_nn/polynomial_module.html#sphx-glr-beginner-examples-nn-polynomial-module-py>
+
+经过训练的三阶多项式，可以通过最小化平方的欧几里得距离来预测`y = sin(x)`从`-pi`到`pi`。
+
+此实现将模型定义为自定义`Module`子类。 每当您想要一个比现有模块的简单序列更复杂的模型时，都需要以这种方式定义模型。
+
+```py
+import torch
+import math
+
+class Polynomial3(torch.nn.Module):
+    def __init__(self):
+        """
+        In the constructor we instantiate four parameters and assign them as
+        member parameters.
+        """
+        super().__init__()
+        self.a = torch.nn.Parameter(torch.randn(()))
+        self.b = torch.nn.Parameter(torch.randn(()))
+        self.c = torch.nn.Parameter(torch.randn(()))
+        self.d = torch.nn.Parameter(torch.randn(()))
+
+    def forward(self, x):
+        """
+        In the forward function we accept a Tensor of input data and we must return
+        a Tensor of output data. We can use Modules defined in the constructor as
+        well as arbitrary operators on Tensors.
+        """
+        return self.a + self.b * x + self.c * x ** 2 + self.d * x ** 3
+
+    def string(self):
+        """
+        Just like any class in Python, you can also define custom method on PyTorch modules
+        """
+        return f'y = {self.a.item()} + {self.b.item()} x + {self.c.item()} x^2 + {self.d.item()} x^3'
+
+# Create Tensors to hold input and outputs.
+x = torch.linspace(-math.pi, math.pi, 2000)
+y = torch.sin(x)
+
+# Construct our model by instantiating the class defined above
+model = Polynomial3()
+
+# Construct our loss function and an Optimizer. The call to model.parameters()
+# in the SGD constructor will contain the learnable parameters of the nn.Linear
+# module which is members of the model.
+criterion = torch.nn.MSELoss(reduction='sum')
+optimizer = torch.optim.SGD(model.parameters(), lr=1e-6)
+for t in range(2000):
+    # Forward pass: Compute predicted y by passing x to the model
+    y_pred = model(x)
+
+    # Compute and print loss
+    loss = criterion(y_pred, y)
+    if t % 100 == 99:
+        print(t, loss.item())
+
+    # Zero gradients, perform a backward pass, and update the weights.
+    optimizer.zero_grad()
+    loss.backward()
+    optimizer.step()
+
+print(f'Result: {model.string()}')
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`polynomial_module.py`](https://pytorch.org/tutorials/_downloads/916a9c460c899330dbc53216cc775358/polynomial_module.py)
+
+[下载 Jupyter 笔记本：`polynomial_module.ipynb`](https://pytorch.org/tutorials/_downloads/19f4ecdd2763dd4b90693df4d6e10ebe/polynomial_module.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/15.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/15.md
new file mode 100644
index 00000000..50fb29a1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/15.md
@@ -0,0 +1,82 @@
+# PyTorch：控制流 + 权重共享
+
+> 原文：<https://pytorch.org/tutorials/beginner/examples_nn/dynamic_net.html#sphx-glr-beginner-examples-nn-dynamic-net-py>
+
+为了展示 PyTorch 动态图的强大功能，我们将实现一个非常奇怪的模型：一个三阶多项式，在每个正向传播中选择 3 到 5 之间的一个随机数，并使用该数量的阶次，多次使用相同的权重重复计算四和五阶。
+
+```py
+import random
+import torch
+import math
+
+class DynamicNet(torch.nn.Module):
+    def __init__(self):
+        """
+        In the constructor we instantiate five parameters and assign them as members.
+        """
+        super().__init__()
+        self.a = torch.nn.Parameter(torch.randn(()))
+        self.b = torch.nn.Parameter(torch.randn(()))
+        self.c = torch.nn.Parameter(torch.randn(()))
+        self.d = torch.nn.Parameter(torch.randn(()))
+        self.e = torch.nn.Parameter(torch.randn(()))
+
+    def forward(self, x):
+        """
+        For the forward pass of the model, we randomly choose either 4, 5
+        and reuse the e parameter to compute the contribution of these orders.
+
+        Since each forward pass builds a dynamic computation graph, we can use normal
+        Python control-flow operators like loops or conditional statements when
+        defining the forward pass of the model.
+
+        Here we also see that it is perfectly safe to reuse the same parameter many
+        times when defining a computational graph.
+        """
+        y = self.a + self.b * x + self.c * x ** 2 + self.d * x ** 3
+        for exp in range(4, random.randint(4, 6)):
+            y = y + self.e * x ** exp
+        return y
+
+    def string(self):
+        """
+        Just like any class in Python, you can also define custom method on PyTorch modules
+        """
+        return f'y = {self.a.item()} + {self.b.item()} x + {self.c.item()} x^2 + {self.d.item()} x^3 + {self.e.item()} x^4 ? + {self.e.item()} x^5 ?'
+
+# Create Tensors to hold input and outputs.
+x = torch.linspace(-math.pi, math.pi, 2000)
+y = torch.sin(x)
+
+# Construct our model by instantiating the class defined above
+model = DynamicNet()
+
+# Construct our loss function and an Optimizer. Training this strange model with
+# vanilla stochastic gradient descent is tough, so we use momentum
+criterion = torch.nn.MSELoss(reduction='sum')
+optimizer = torch.optim.SGD(model.parameters(), lr=1e-8, momentum=0.9)
+for t in range(30000):
+    # Forward pass: Compute predicted y by passing x to the model
+    y_pred = model(x)
+
+    # Compute and print loss
+    loss = criterion(y_pred, y)
+    if t % 2000 == 1999:
+        print(t, loss.item())
+
+    # Zero gradients, perform a backward pass, and update the weights.
+    optimizer.zero_grad()
+    loss.backward()
+    optimizer.step()
+
+print(f'Result: {model.string()}')
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`dynamic_net.py`](https://pytorch.org/tutorials/_downloads/3900c903cde097dc0088c3b06d588c0b/dynamic_net.py)
+
+[下载 Jupyter 笔记本：`dynamic_net.ipynb`](https://pytorch.org/tutorials/_downloads/ad230923bd9eb0d42576725b63ad8d91/dynamic_net.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/16.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/16.md
new file mode 100644
index 00000000..e6867d85
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/16.md
@@ -0,0 +1,971 @@
+# `torch.nn`到底是什么？
+
+> 原文：<https://pytorch.org/tutorials/beginner/nn_tutorial.html>
+
+作者：Jeremy Howard，[fast.ai](https://www.fast.ai)。 感谢 Rachel Thomas 和 Francisco Ingham。
+
+我们建议将本教程作为笔记本而不是脚本来运行。 要下载笔记本（`.ipynb`）文件，请单击页面顶部的链接。
+
+PyTorch 提供设计精美的模块和类[`torch.nn`](https://pytorch.org/docs/stable/nn.html)，[`torch.optim`](https://pytorch.org/docs/stable/optim.html)，[`Dataset`](https://pytorch.org/docs/stable/data.html?highlight=dataset#torch.utils.data.Dataset)和[`DataLoader`](https://pytorch.org/docs/stable/data.html?highlight=dataloader#torch.utils.data.DataLoader)神经网络。 为了充分利用它们的功能并针对您的问题对其进行自定义，您需要真正了解它们在做什么。 为了建立这种理解，我们将首先在 MNIST 数据集上训练基本神经网络，而无需使用这些模型的任何功能。 我们最初将仅使用最基本的 PyTorch 张量函数。 然后，我们将一次从`torch.nn`，`torch.optim`，`Dataset`或`DataLoader`中逐个添加一个函数，以准确显示每个函数，以及如何使代码更简洁或更有效。 灵活。
+
+**本教程假定您已经安装了 PyTorch，并且熟悉张量操作的基础知识。** （如果您熟悉 Numpy 数组操作，将会发现此处使用的 PyTorch 张量操作几乎相同）。
+
+## MNIST 数据集
+
+我们将使用经典的 [MNIST](http://deeplearning.net/data/mnist/) 数据集，该数据集由手绘数字的黑白图像组成（0 到 9 之间）。
+
+我们将使用[`pathlib`](https://docs.python.org/3/library/pathlib.html)处理路径（Python 3 标准库的一部分），并使用[`requests`](http://docs.python-requests.org/en/master/)下载数据集。 我们只会在使用模块时才导入它们，因此您可以确切地看到每个位置上正在使用的模块。
+
+```py
+from pathlib import Path
+import requests
+
+DATA_PATH = Path("data")
+PATH = DATA_PATH / "mnist"
+
+PATH.mkdir(parents=True, exist_ok=True)
+
+URL = "https://github.com/pytorch/tutorials/raw/master/_static/"
+FILENAME = "mnist.pkl.gz"
+
+if not (PATH / FILENAME).exists():
+        content = requests.get(URL + FILENAME).content
+        (PATH / FILENAME).open("wb").write(content)
+
+```
+
+该数据集为 numpy 数组格式，并已使用`pickle`（一种用于序列化数据的 python 特定格式）存储。
+
+```py
+import pickle
+import gzip
+
+with gzip.open((PATH / FILENAME).as_posix(), "rb") as f:
+        ((x_train, y_train), (x_valid, y_valid), _) = pickle.load(f, encoding="latin-1")
+
+```
+
+每个图像为`28 x 28`，并存储为长度为`784 = 28x28`的扁平行。 让我们来看一个； 我们需要先将其重塑为 2d。
+
+```py
+from matplotlib import pyplot
+import numpy as np
+
+pyplot.imshow(x_train[0].reshape((28, 28)), cmap="gray")
+print(x_train.shape)
+
+```
+
+![../_img/sphx_glr_nn_tutorial_001.png](img/7c783def0bbe536f41ed172041b7e89e.png)
+
+出：
+
+```py
+(50000, 784)
+
+```
+
+PyTorch 使用`torch.tensor`而不是 numpy 数组，因此我们需要转换数据。
+
+```py
+import torch
+
+x_train, y_train, x_valid, y_valid = map(
+    torch.tensor, (x_train, y_train, x_valid, y_valid)
+)
+n, c = x_train.shape
+x_train, x_train.shape, y_train.min(), y_train.max()
+print(x_train, y_train)
+print(x_train.shape)
+print(y_train.min(), y_train.max())
+
+```
+
+出：
+
+```py
+tensor([[0., 0., 0.,  ..., 0., 0., 0.],
+        [0., 0., 0.,  ..., 0., 0., 0.],
+        [0., 0., 0.,  ..., 0., 0., 0.],
+        ...,
+        [0., 0., 0.,  ..., 0., 0., 0.],
+        [0., 0., 0.,  ..., 0., 0., 0.],
+        [0., 0., 0.,  ..., 0., 0., 0.]]) tensor([5, 0, 4,  ..., 8, 4, 8])
+torch.Size([50000, 784])
+tensor(0) tensor(9)
+
+```
+
+## 从零开始的神经网络（没有`torch.nn`）
+
+首先，我们仅使用 PyTorch 张量操作创建模型。 我们假设您已经熟悉神经网络的基础知识。 （如果不是，则可以在 [course.fast.ai](https://course.fast.ai) 中学习它们）。
+
+PyTorch 提供了创建随机或零填充张量的方法，我们将使用它们来为简单的线性模型创建权重和偏差。 这些只是常规张量，还有一个非常特殊的附加值：我们告诉 PyTorch 它们需要梯度。 这使 PyTorch 记录了在张量上完成的所有操作，因此它可以在反向传播时*自动计算*的梯度！
+
+**对于权重，我们在初始化之后设置`requires_grad`，因为我们不希望该步骤包含在梯度中。 （请注意，PyTorch 中的尾随`_`表示该操作是原地执行的。）**
+
+注意
+
+我们在这里用 [Xavier 初始化](http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf)（通过乘以`1 / sqrt(n)`）来初始化权重。
+
+```py
+import math
+
+weights = torch.randn(784, 10) / math.sqrt(784)
+weights.requires_grad_()
+bias = torch.zeros(10, requires_grad=True)
+
+```
+
+由于 PyTorch 具有自动计算梯度的功能，我们可以将任何标准的 Python 函数（或可调用对象）用作模型！ 因此，我们只需编写一个普通矩阵乘法和广播加法即可创建一个简单的线性模型。 我们还需要激活函数，因此我们将编写并使用`log_softmax`。 请记住：尽管 PyTorch 提供了许多预写的损失函数，激活函数等，但是您可以使用纯 Python 轻松编写自己的函数。 PyTorch 甚至会自动为您的函数创建快速 GPU 或向量化的 CPU 代码。
+
+```py
+def log_softmax(x):
+    return x - x.exp().sum(-1).log().unsqueeze(-1)
+
+def model(xb):
+    return log_softmax(xb @ weights + bias)
+
+```
+
+在上面，`@`代表点积运算。 我们将对一批数据（在本例中为 64 张图像）调用函数。 这是一个*正向传播*。 请注意，由于我们从随机权重开始，因此在这一阶段，我们的预测不会比随机预测更好。
+
+```py
+bs = 64  # batch size
+
+xb = x_train[0:bs]  # a mini-batch from x
+preds = model(xb)  # predictions
+preds[0], preds.shape
+print(preds[0], preds.shape)
+
+```
+
+出：
+
+```py
+tensor([-2.5964, -2.3153, -2.1321, -2.4480, -2.2930, -1.9507, -2.1289, -2.4175,
+        -2.5332, -2.3967], grad_fn=<SelectBackward>) torch.Size([64, 10])
+
+```
+
+如您所见，`preds`张量不仅包含张量值，还包含梯度函数。 稍后我们将使用它进行反向传播。
+
+让我们实现负对数可能性作为损失函数（同样，我们只能使用标准 Python）：
+
+```py
+def nll(input, target):
+    return -input[range(target.shape[0]), target].mean()
+
+loss_func = nll
+
+```
+
+让我们使用随机模型来检查损失，以便我们稍后查看反向传播后是否可以改善我们的损失。
+
+```py
+yb = y_train[0:bs]
+print(loss_func(preds, yb))
+
+```
+
+出：
+
+```py
+tensor(2.3735, grad_fn=<NegBackward>)
+
+```
+
+我们还实现一个函数来计算模型的准确率。 对于每个预测，如果具有最大值的索引与目标值匹配，则该预测是正确的。
+
+```py
+def accuracy(out, yb):
+    preds = torch.argmax(out, dim=1)
+    return (preds == yb).float().mean()
+
+```
+
+让我们检查一下随机模型的准确率，以便我们可以看出随着损失的增加，准确率是否有所提高。
+
+```py
+print(accuracy(preds, yb))
+
+```
+
+出：
+
+```py
+tensor(0.0938)
+
+```
+
+现在，我们可以运行一个训练循环。 对于每次迭代，我们将：
+
+*   选择一个小批量数据（大小为`bs`）
+*   使用模型进行预测
+*   计算损失
+*   `loss.backward()`更新模型的梯度，在这种情况下为`weights`和`bias`。
+
+现在，我们使用这些梯度来更新权重和偏差。 我们在`torch.no_grad()`上下文管理器中执行此操作，因为我们不希望在下一步的梯度计算中记录这些操作。 [您可以在这里阅读有关 PyTorch 的 Autograd 如何记录操作的更多信息](https://pytorch.org/docs/stable/notes/autograd.html)。
+
+然后，将梯度设置为零，以便为下一个循环做好准备。 否则，我们的梯度会记录所有已发生操作的运行记录（即`loss.backward()`将梯度添加到已存储的内容中，而不是替换它们）。
+
+小费
+
+您可以使用标准的 python 调试器逐步浏览 PyTorch 代码，从而可以在每一步检查各种变量值。 取消注释以下`set_trace()`即可尝试。
+
+```py
+from IPython.core.debugger import set_trace
+
+lr = 0.5  # learning rate
+epochs = 2  # how many epochs to train for
+
+for epoch in range(epochs):
+    for i in range((n - 1) // bs + 1):
+        #         set_trace()
+        start_i = i * bs
+        end_i = start_i + bs
+        xb = x_train[start_i:end_i]
+        yb = y_train[start_i:end_i]
+        pred = model(xb)
+        loss = loss_func(pred, yb)
+
+        loss.backward()
+        with torch.no_grad():
+            weights -= weights.grad * lr
+            bias -= bias.grad * lr
+            weights.grad.zero_()
+            bias.grad.zero_()
+
+```
+
+就是这样：我们完全从头开始创建并训练了一个最小的神经网络（在这种情况下，是逻辑回归，因为我们没有隐藏的层）！
+
+让我们检查损失和准确率，并将其与我们之前获得的进行比较。 我们希望损失会减少，准确率会增加，而且确实如此。
+
+```py
+print(loss_func(model(xb), yb), accuracy(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(0.0811, grad_fn=<NegBackward>) tensor(1.)
+
+```
+
+## 使用`torch.nn.functional`
+
+现在，我们将重构代码，使其执行与以前相同的操作，只是我们将开始利用 PyTorch 的`nn`类使其更加简洁和灵活。 从这里开始的每一步，我们都应该使代码中的一个或多个：更短，更易理解和/或更灵活。
+
+第一步也是最简单的步骤，就是用`torch.nn.functional`（通常按照惯例将其导入到名称空间`F`中）替换我们的手写激活和损失函数，从而缩短代码长度。 该模块包含`torch.nn`库中的所有函数（而该库的其他部分包含类）。 除了广泛的损失和激活函数外，您还会在这里找到一些方便的函数来创建神经网络，例如合并函数。 （还有一些用于进行卷积，线性层等的函数，但是正如我们将看到的那样，通常可以使用库的其他部分来更好地处理这些函数。）
+
+如果您使用的是负对数似然损失和对数 softmax 激活，那么 Pytorch 会提供结合了两者的单一函数`F.cross_entropy`。 因此，我们甚至可以从模型中删除激活函数。
+
+```py
+import torch.nn.functional as F
+
+loss_func = F.cross_entropy
+
+def model(xb):
+    return xb @ weights + bias
+
+```
+
+请注意，我们不再在`model`函数中调用`log_softmax`。 让我们确认我们的损失和准确率与以前相同：
+
+```py
+print(loss_func(model(xb), yb), accuracy(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(0.0811, grad_fn=<NllLossBackward>) tensor(1.)
+
+```
+
+## 使用`nn.Module`重构
+
+接下来，我们将使用`nn.Module`和`nn.Parameter`进行更清晰，更简洁的训练循环。 我们将`nn.Module`子类化（它本身是一个类并且能够跟踪状态）。 在这种情况下，我们要创建一个类，该类包含前进步骤的权重，偏置和方法。 `nn.Module`具有许多我们将要使用的属性和方法（例如`.parameters()`和`.zero_grad()`）。
+
+注意
+
+`nn.Module`（大写`M`）是 PyTorch 的特定概念，并且是我们将经常使用的一类。 不要将`nn.Module`与[模块](https://docs.python.org/3/tutorial/modules.html)（小写`m`）的 Python 概念混淆，该模块是可以导入的 Python 代码文件。
+
+```py
+from torch import nn
+
+class Mnist_Logistic(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.weights = nn.Parameter(torch.randn(784, 10) / math.sqrt(784))
+        self.bias = nn.Parameter(torch.zeros(10))
+
+    def forward(self, xb):
+        return xb @ self.weights + self.bias
+
+```
+
+由于我们现在使用的是对象而不是仅使用函数，因此我们首先必须实例化模型：
+
+```py
+model = Mnist_Logistic()
+
+```
+
+现在我们可以像以前一样计算损失。 请注意，`nn.Module`对象的使用就好像它们是函数一样（即，它们是*可调用的*），但是在后台 Pytorch 会自动调用我们的`forward`方法。
+
+```py
+print(loss_func(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(2.3903, grad_fn=<NllLossBackward>)
+
+```
+
+以前，在我们的训练循环中，我们必须按名称更新每个参数的值，并手动将每个参数的梯度分别归零，如下所示：
+
+```py
+with torch.no_grad():
+    weights -= weights.grad * lr
+    bias -= bias.grad * lr
+    weights.grad.zero_()
+    bias.grad.zero_()
+
+```
+
+现在我们可以利用`model.parameters()`和`model.zero_grad()`（它们都由 PyTorch 为`nn.Module`定义）来使这些步骤更简洁，并且更不会出现忘记某些参数的错误，尤其是当我们有一个更复杂的模型的时候：
+
+```py
+with torch.no_grad():
+    for p in model.parameters(): p -= p.grad * lr
+    model.zero_grad()
+
+```
+
+我们将把小的训练循环包装在`fit`函数中，以便稍后再运行。
+
+```py
+def fit():
+    for epoch in range(epochs):
+        for i in range((n - 1) // bs + 1):
+            start_i = i * bs
+            end_i = start_i + bs
+            xb = x_train[start_i:end_i]
+            yb = y_train[start_i:end_i]
+            pred = model(xb)
+            loss = loss_func(pred, yb)
+
+            loss.backward()
+            with torch.no_grad():
+                for p in model.parameters():
+                    p -= p.grad * lr
+                model.zero_grad()
+
+fit()
+
+```
+
+让我们仔细检查一下我们的损失是否减少了：
+
+```py
+print(loss_func(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(0.0808, grad_fn=<NllLossBackward>)
+
+```
+
+## 使用`nn.Linear`重构
+
+我们继续重构我们的代码。 代替手动定义和初始化`self.weights`和`self.bias`并计算`xb  @ self.weights + self.bias`，我们将对线性层使用 Pytorch 类[`nn.Linear`](https://pytorch.org/docs/stable/nn.html#linear-layers)，这将为我们完成所有工作。 Pytorch 具有许多类型的预定义层，可以大大简化我们的代码，并且通常也可以使其速度更快。
+
+```py
+class Mnist_Logistic(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.lin = nn.Linear(784, 10)
+
+    def forward(self, xb):
+        return self.lin(xb)
+
+```
+
+我们以与以前相同的方式实例化模型并计算损失：
+
+```py
+model = Mnist_Logistic()
+print(loss_func(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(2.4215, grad_fn=<NllLossBackward>)
+
+```
+
+我们仍然可以使用与以前相同的`fit`方法。
+
+```py
+fit()
+
+print(loss_func(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(0.0824, grad_fn=<NllLossBackward>)
+
+```
+
+## 使用`optim`重构
+
+Pytorch 还提供了一个包含各种优化算法的包`torch.optim`。 我们可以使用优化器中的`step`方法采取向前的步骤，而不是手动更新每个参数。
+
+这将使我们替换之前的手动编码优化步骤：
+
+```py
+with torch.no_grad():
+    for p in model.parameters(): p -= p.grad * lr
+    model.zero_grad()
+
+```
+
+而是只使用：
+
+```py
+opt.step()
+opt.zero_grad()
+
+```
+
+（`optim.zero_grad()`将梯度重置为 0，我们需要在计算下一个小批量的梯度之前调用它。）
+
+```py
+from torch import optim
+
+```
+
+我们将定义一个小函数来创建模型和优化器，以便将来重用。
+
+```py
+def get_model():
+    model = Mnist_Logistic()
+    return model, optim.SGD(model.parameters(), lr=lr)
+
+model, opt = get_model()
+print(loss_func(model(xb), yb))
+
+for epoch in range(epochs):
+    for i in range((n - 1) // bs + 1):
+        start_i = i * bs
+        end_i = start_i + bs
+        xb = x_train[start_i:end_i]
+        yb = y_train[start_i:end_i]
+        pred = model(xb)
+        loss = loss_func(pred, yb)
+
+        loss.backward()
+        opt.step()
+        opt.zero_grad()
+
+print(loss_func(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(2.2999, grad_fn=<NllLossBackward>)
+tensor(0.0823, grad_fn=<NllLossBackward>)
+
+```
+
+## 使用`Dataset`重构
+
+PyTorch 有一个抽象的`Dataset`类。 数据集可以是具有`__len__`函数（由 Python 的标准`len`函数调用）和具有`__getitem__`函数作为对其进行索引的一种方法。 [本教程](https://pytorch.org/tutorials/beginner/data_loading_tutorial.html)演示了一个不错的示例，该示例创建一个自定义`FacialLandmarkDataset`类作为`Dataset`的子类。
+
+PyTorch 的[`TensorDataset`](https://pytorch.org/docs/stable/_modules/torch/utils/data/dataset.html#TensorDataset)是一个数据集包装张量。 通过定义索引的长度和方式，这也为我们提供了沿张量的第一维进行迭代，索引和切片的方法。 这将使我们在训练的同一行中更容易访问自变量和因变量。
+
+```py
+from torch.utils.data import TensorDataset
+
+```
+
+`x_train`和`y_train`都可以合并为一个`TensorDataset`，这将更易于迭代和切片。
+
+```py
+train_ds = TensorDataset(x_train, y_train)
+
+```
+
+以前，我们不得不分别遍历`x`和`y`值的小批量：
+
+```py
+xb = x_train[start_i:end_i]
+yb = y_train[start_i:end_i]
+
+```
+
+现在，我们可以一起执行以下两个步骤：
+
+```py
+xb,yb = train_ds[i*bs : i*bs+bs]
+
+```
+
+```py
+model, opt = get_model()
+
+for epoch in range(epochs):
+    for i in range((n - 1) // bs + 1):
+        xb, yb = train_ds[i * bs: i * bs + bs]
+        pred = model(xb)
+        loss = loss_func(pred, yb)
+
+        loss.backward()
+        opt.step()
+        opt.zero_grad()
+
+print(loss_func(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(0.0819, grad_fn=<NllLossBackward>)
+
+```
+
+## 使用`DataLoader`重构
+
+Pytorch 的`DataLoader`负责批量管理。 您可以从任何`Dataset`创建一个`DataLoader`。 `DataLoader`使迭代迭代变得更加容易。 不必使用`train_ds[i*bs : i*bs+bs]`，`DataLoader`会自动为我们提供每个小批量。
+
+```py
+from torch.utils.data import DataLoader
+
+train_ds = TensorDataset(x_train, y_train)
+train_dl = DataLoader(train_ds, batch_size=bs)
+
+```
+
+以前，我们的循环遍历如下批量`(xb, yb)`：
+
+```py
+for i in range((n-1)//bs + 1):
+    xb,yb = train_ds[i*bs : i*bs+bs]
+    pred = model(xb)
+
+```
+
+现在，我们的循环更加简洁了，因为`(xb, yb)`是从数据加载器自动加载的：
+
+```py
+for xb,yb in train_dl:
+    pred = model(xb)
+
+```
+
+```py
+model, opt = get_model()
+
+for epoch in range(epochs):
+    for xb, yb in train_dl:
+        pred = model(xb)
+        loss = loss_func(pred, yb)
+
+        loss.backward()
+        opt.step()
+        opt.zero_grad()
+
+print(loss_func(model(xb), yb))
+
+```
+
+出：
+
+```py
+tensor(0.0821, grad_fn=<NllLossBackward>)
+
+```
+
+得益于 Pytorch 的`nn.Module`，`nn.Parameter`，`Dataset`和`DataLoader`，我们的训练循环现在变得更小，更容易理解。 现在，让我们尝试添加在实践中创建有效模型所需的基本功能。
+
+## 添加验证
+
+在第 1 节中，我们只是试图建立一个合理的训练循环以用于我们的训练数据。 实际上，您也应该**始终**具有[验证集](https://www.fast.ai/2017/11/13/validation-sets/)，以便识别您是否过拟合。
+
+[对训练数据进行打乱](https://www.quora.com/Does-the-order-of-training-data-matter-when-training-neural-networks)对于防止批量与过拟合之间的相关性很重要。 另一方面，无论我们是否打乱验证集，验证损失都是相同的。 由于打乱需要花费更多时间，因此打乱验证数据没有任何意义。
+
+我们将验证集的批量大小设为训练集的两倍。 这是因为验证集不需要反向传播，因此占用的内存更少（不需要存储梯度）。 我们利用这一优势来使用更大的批量，并更快地计算损失。
+
+```py
+train_ds = TensorDataset(x_train, y_train)
+train_dl = DataLoader(train_ds, batch_size=bs, shuffle=True)
+
+valid_ds = TensorDataset(x_valid, y_valid)
+valid_dl = DataLoader(valid_ds, batch_size=bs * 2)
+
+```
+
+我们将在每个周期结束时计算并打印验证损失。
+
+（请注意，我们总是在训练之前调用`model.train()`，并在推理之前调用`model.eval()`，因为诸如`nn.BatchNorm2d`和`nn.Dropout`之类的层会使用它们，以确保这些不同阶段的行为正确。）
+
+```py
+model, opt = get_model()
+
+for epoch in range(epochs):
+    model.train()
+    for xb, yb in train_dl:
+        pred = model(xb)
+        loss = loss_func(pred, yb)
+
+        loss.backward()
+        opt.step()
+        opt.zero_grad()
+
+    model.eval()
+    with torch.no_grad():
+        valid_loss = sum(loss_func(model(xb), yb) for xb, yb in valid_dl)
+
+    print(epoch, valid_loss / len(valid_dl))
+
+```
+
+出：
+
+```py
+0 tensor(0.3743)
+1 tensor(0.3316)
+
+```
+
+## 创建`fit()`和`get_data()`
+
+现在，我们将自己进行一些重构。 由于我们经历了两次相似的过程来计算训练集和验证集的损失，因此我们将其设为自己的函数`loss_batch`，该函数可计算一批损失。
+
+我们将优化器传入训练集中，然后使用它执行反向传播。 对于验证集，我们没有通过优化程序，因此该方法不会执行反向传播。
+
+```py
+def loss_batch(model, loss_func, xb, yb, opt=None):
+    loss = loss_func(model(xb), yb)
+
+    if opt is not None:
+        loss.backward()
+        opt.step()
+        opt.zero_grad()
+
+    return loss.item(), len(xb)
+
+```
+
+`fit`运行必要的操作来训练我们的模型，并计算每个周期的训练和验证损失。
+
+```py
+import numpy as np
+
+def fit(epochs, model, loss_func, opt, train_dl, valid_dl):
+    for epoch in range(epochs):
+        model.train()
+        for xb, yb in train_dl:
+            loss_batch(model, loss_func, xb, yb, opt)
+
+        model.eval()
+        with torch.no_grad():
+            losses, nums = zip(
+                *[loss_batch(model, loss_func, xb, yb) for xb, yb in valid_dl]
+            )
+        val_loss = np.sum(np.multiply(losses, nums)) / np.sum(nums)
+
+        print(epoch, val_loss)
+
+```
+
+`get_data`返回训练和验证集的数据加载器。
+
+```py
+def get_data(train_ds, valid_ds, bs):
+    return (
+        DataLoader(train_ds, batch_size=bs, shuffle=True),
+        DataLoader(valid_ds, batch_size=bs * 2),
+    )
+
+```
+
+现在，我们获取数据加载器和拟合模型的整个过程可以在 3 行代码中运行：
+
+```py
+train_dl, valid_dl = get_data(train_ds, valid_ds, bs)
+model, opt = get_model()
+fit(epochs, model, loss_func, opt, train_dl, valid_dl)
+
+```
+
+出：
+
+```py
+0 0.3120644524335861
+1 0.28915613491535186
+
+```
+
+您可以使用这些基本的 3 行代码来训练各种各样的模型。 让我们看看是否可以使用它们来训练卷积神经网络（CNN）！
+
+## 切换到 CNN
+
+现在，我们将构建具有三个卷积层的神经网络。 由于上一节中的任何功能都不假设任何有关模型形式的信息，因此我们将能够使用它们来训练 CNN，而无需进行任何修改。
+
+我们将使用 Pytorch 的预定义[`Conv2d`](https://pytorch.org/docs/stable/nn.html#torch.nn.Conv2d)类作为我们的卷积层。 我们定义了具有 3 个卷积层的 CNN。 每个卷积后跟一个 ReLU。 最后，我们执行平均池化。 （请注意，`view`是 numpy 的`reshape`的 PyTorch 版本）
+
+```py
+class Mnist_CNN(nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.conv1 = nn.Conv2d(1, 16, kernel_size=3, stride=2, padding=1)
+        self.conv2 = nn.Conv2d(16, 16, kernel_size=3, stride=2, padding=1)
+        self.conv3 = nn.Conv2d(16, 10, kernel_size=3, stride=2, padding=1)
+
+    def forward(self, xb):
+        xb = xb.view(-1, 1, 28, 28)
+        xb = F.relu(self.conv1(xb))
+        xb = F.relu(self.conv2(xb))
+        xb = F.relu(self.conv3(xb))
+        xb = F.avg_pool2d(xb, 4)
+        return xb.view(-1, xb.size(1))
+
+lr = 0.1
+
+```
+
+[动量](https://cs231n.github.io/neural-networks-3/#sgd)是随机梯度下降的一种变体，它也考虑了以前的更新，通常可以加快训练速度。
+
+```py
+model = Mnist_CNN()
+opt = optim.SGD(model.parameters(), lr=lr, momentum=0.9)
+
+fit(epochs, model, loss_func, opt, train_dl, valid_dl)
+
+```
+
+出：
+
+```py
+0 0.32337012240886687
+1 0.25021172934770586
+
+```
+
+## `nn.Sequential`
+
+`torch.nn`还有另一个方便的类，可以用来简化我们的代码：[`Sequential`](https://pytorch.org/docs/stable/nn.html#torch.nn.Sequential)。 `Sequential`对象以顺序方式运行其中包含的每个模块。 这是编写神经网络的一种简单方法。
+
+为了利用这一点，我们需要能够从给定的函数轻松定义**自定义层**。 例如，PyTorch 没有视层，我们需要为我们的网络创建一个层。 `Lambda`将创建一个层，然后在使用`Sequential`定义网络时可以使用该层。
+
+```py
+class Lambda(nn.Module):
+    def __init__(self, func):
+        super().__init__()
+        self.func = func
+
+    def forward(self, x):
+        return self.func(x)
+
+def preprocess(x):
+    return x.view(-1, 1, 28, 28)
+
+```
+
+用`Sequential`创建的模型很简单：
+
+```py
+model = nn.Sequential(
+    Lambda(preprocess),
+    nn.Conv2d(1, 16, kernel_size=3, stride=2, padding=1),
+    nn.ReLU(),
+    nn.Conv2d(16, 16, kernel_size=3, stride=2, padding=1),
+    nn.ReLU(),
+    nn.Conv2d(16, 10, kernel_size=3, stride=2, padding=1),
+    nn.ReLU(),
+    nn.AvgPool2d(4),
+    Lambda(lambda x: x.view(x.size(0), -1)),
+)
+
+opt = optim.SGD(model.parameters(), lr=lr, momentum=0.9)
+
+fit(epochs, model, loss_func, opt, train_dl, valid_dl)
+
+```
+
+出：
+
+```py
+0 0.30119081069231035
+1 0.25335356528759
+
+```
+
+## 包装`DataLoader`
+
+Our CNN is fairly concise, but it only works with MNIST, because:
+
+*   假设输入为`28 * 28`长向量
+*   假设 CNN 的最终网格尺寸为`4 * 4`（因为这是平均值
+
+我们使用的合并核大小）
+
+让我们摆脱这两个假设，因此我们的模型适用于任何 2d 单通道图像。 首先，我们可以删除初始的 Lambda 层，但将数据预处理移至生成器中：
+
+```py
+def preprocess(x, y):
+    return x.view(-1, 1, 28, 28), y
+
+class WrappedDataLoader:
+    def __init__(self, dl, func):
+        self.dl = dl
+        self.func = func
+
+    def __len__(self):
+        return len(self.dl)
+
+    def __iter__(self):
+        batches = iter(self.dl)
+        for b in batches:
+            yield (self.func(*b))
+
+train_dl, valid_dl = get_data(train_ds, valid_ds, bs)
+train_dl = WrappedDataLoader(train_dl, preprocess)
+valid_dl = WrappedDataLoader(valid_dl, preprocess)
+
+```
+
+接下来，我们可以将`nn.AvgPool2d`替换为`nn.AdaptiveAvgPool2d`，这使我们能够定义所需的*输出*张量的大小，而不是所需的*输入*张量的大小。 结果，我们的模型将适用于任何大小的输入。
+
+```py
+model = nn.Sequential(
+    nn.Conv2d(1, 16, kernel_size=3, stride=2, padding=1),
+    nn.ReLU(),
+    nn.Conv2d(16, 16, kernel_size=3, stride=2, padding=1),
+    nn.ReLU(),
+    nn.Conv2d(16, 10, kernel_size=3, stride=2, padding=1),
+    nn.ReLU(),
+    nn.AdaptiveAvgPool2d(1),
+    Lambda(lambda x: x.view(x.size(0), -1)),
+)
+
+opt = optim.SGD(model.parameters(), lr=lr, momentum=0.9)
+
+```
+
+试试看：
+
+```py
+fit(epochs, model, loss_func, opt, train_dl, valid_dl)
+
+```
+
+出：
+
+```py
+0 0.327303307390213
+1 0.2181092014491558
+
+```
+
+## 使用您的 GPU
+
+如果您足够幸运地能够使用具有 CUDA 功能的 GPU（可以从大多数云提供商处以每小时 0.50 美元的价格租用一个），则可以使用它来加速代码。 首先检查您的 GPU 是否在 Pytorch 中正常工作：
+
+```py
+print(torch.cuda.is_available())
+
+```
+
+出：
+
+```py
+True
+
+```
+
+然后为其创建一个设备对象：
+
+```py
+dev = torch.device(
+    "cuda") if torch.cuda.is_available() else torch.device("cpu")
+
+```
+
+让我们更新`preprocess`，将批量移至 GPU：
+
+```py
+def preprocess(x, y):
+    return x.view(-1, 1, 28, 28).to(dev), y.to(dev)
+
+train_dl, valid_dl = get_data(train_ds, valid_ds, bs)
+train_dl = WrappedDataLoader(train_dl, preprocess)
+valid_dl = WrappedDataLoader(valid_dl, preprocess)
+
+```
+
+最后，我们可以将模型移至 GPU。
+
+```py
+model.to(dev)
+opt = optim.SGD(model.parameters(), lr=lr, momentum=0.9)
+
+```
+
+您应该发现它现在运行得更快：
+
+```py
+fit(epochs, model, loss_func, opt, train_dl, valid_dl)
+
+```
+
+出：
+
+```py
+0 0.1833980613708496
+1 0.17365939717292786
+
+```
+
+## 总结
+
+现在，我们有了一个通用的数据管道和训练循环，您可以将其用于使用 Pytorch 训练许多类型的模型。 要了解现在可以轻松进行模型训练，请查看`mnist_sample`示例笔记本。
+
+当然，您需要添加很多内容，例如数据扩充，超参数调整，监控训练，迁移学习等。 这些功能可在 fastai 库中使用，该库是使用本教程中所示的相同设计方法开发的，为希望进一步推广其模型的从业人员提供了自然的下一步。
+
+我们承诺在本教程开始时将通过示例分别说明`torch.nn`，`torch.optim`，`Dataset`和`DataLoader`。 因此，让我们总结一下我们所看到的：
+
+> *   `torch.nn`
+>     *   `Module`：创建一个行为类似于函数的可调用对象，但也可以包含状态（例如神经网络层权重）。 它知道其中包含的 `Parameter` ，并且可以将其所有坡度归零，遍历它们以进行权重更新等。
+>     *   `Parameter`：张量的包装器，用于告知 `Module` 具有在反向传播期间需要更新的权重。 仅更新具有`require_grad`属性集的张量
+>     *   `functional`：一个模块（通常按照惯例导入到 `F` 名称空间中），其中包含激活函数，损失函数等。 以及卷积和线性层等层的无状态版本。
+> *   `torch.optim`：包含诸如 `SGD` 的优化程序，这些优化程序在后退步骤
+> *   `Dataset` 中更新 `Parameter` 的权重。 具有 `__len__` 和 `__getitem__` 的对象，包括 Pytorch 提供的类，例如 `TensorDataset`
+> *   `DataLoader`：获取任何 `Dataset` 并创建一个迭代器，该迭代器返回批量数据。
+
+**脚本的总运行时间**：（0 分钟 57.062 秒）
+
+[下载 Python 源码：`nn_tutorial.py`](../_downloads/a6246751179fbfb7cad9222ef1c16617/nn_tutorial.py)
+
+[下载 Jupyter 笔记本：`nn_tutorial.ipynb`](../_downloads/5ddab57bb7482fbcc76722617dd47324/nn_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/17.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/17.md
new file mode 100644
index 00000000..12d5eeb4
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/17.md
@@ -0,0 +1,348 @@
+# 使用 TensorBoard 可视化模型，数据和训练
+
+> 原文：<https://pytorch.org/tutorials/intermediate/tensorboard_tutorial.html>
+
+在 [60 分钟突击](https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html)中，我们向您展示了如何加载数据，如何通过定义为`nn.Module`子类的模型提供数据，如何在训练数据上训练该模型以及在测试数据上对其进行测试。 为了了解发生的情况，我们在模型训练期间打印一些统计数据，以了解训练是否在进行中。 但是，我们可以做得更好：PyTorch 与 TensorBoard 集成在一起，TensorBoard 是一种工具，用于可视化神经网络训练运行的结果。 本教程使用 [Fashion-MNIST 数据集](https://github.com/zalandoresearch/fashion-mnist)说明了其某些功能，可以使用`torchvision.datasets`将其读入 PyTorch。
+
+在本教程中，我们将学习如何：
+
+> 1.  读取数据并进行适当的转换（与先前的教程几乎相同）。
+> 2.  设置 TensorBoard。
+> 3.  写入 TensorBoard。
+> 4.  使用 TensorBoard 检查模型架构。
+> 5.  使用 TensorBoard 来创建我们在上一个教程中创建的可视化的交互式版本，并使用较少的代码
+
+具体来说，在第 5 点，我们将看到：
+
+> *   有两种方法可以检查我们的训练数据
+> *   在训练模型时如何跟踪其表现
+> *   在训练后如何评估模型的表现。
+
+我们将从 [CIFAR-10 教程](https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html)中类似的样板代码开始：
+
+```py
+# imports
+import matplotlib.pyplot as plt
+import numpy as np
+
+import torch
+import torchvision
+import torchvision.transforms as transforms
+
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.optim as optim
+
+# transforms
+transform = transforms.Compose(
+    [transforms.ToTensor(),
+    transforms.Normalize((0.5,), (0.5,))])
+
+# datasets
+trainset = torchvision.datasets.FashionMNIST('./data',
+    download=True,
+    train=True,
+    transform=transform)
+testset = torchvision.datasets.FashionMNIST('./data',
+    download=True,
+    train=False,
+    transform=transform)
+
+# dataloaders
+trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
+                                        shuffle=True, num_workers=2)
+
+testloader = torch.utils.data.DataLoader(testset, batch_size=4,
+                                        shuffle=False, num_workers=2)
+
+# constant for classes
+classes = ('T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
+        'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle Boot')
+
+# helper function to show an image
+# (used in the `plot_classes_preds` function below)
+def matplotlib_imshow(img, one_channel=False):
+    if one_channel:
+        img = img.mean(dim=0)
+    img = img / 2 + 0.5     # unnormalize
+    npimg = img.numpy()
+    if one_channel:
+        plt.imshow(npimg, cmap="Greys")
+    else:
+        plt.imshow(np.transpose(npimg, (1, 2, 0)))
+
+```
+
+我们将在该教程中定义一个类似的模型架构，仅需进行少量修改即可解决以下事实：图像现在是一个通道而不是三个通道，而图像是`28x28`而不是`32x32`：
+
+```py
+class Net(nn.Module):
+    def __init__(self):
+        super(Net, self).__init__()
+        self.conv1 = nn.Conv2d(1, 6, 5)
+        self.pool = nn.MaxPool2d(2, 2)
+        self.conv2 = nn.Conv2d(6, 16, 5)
+        self.fc1 = nn.Linear(16 * 4 * 4, 120)
+        self.fc2 = nn.Linear(120, 84)
+        self.fc3 = nn.Linear(84, 10)
+
+    def forward(self, x):
+        x = self.pool(F.relu(self.conv1(x)))
+        x = self.pool(F.relu(self.conv2(x)))
+        x = x.view(-1, 16 * 4 * 4)
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+net = Net()
+
+```
+
+我们将在之前定义相同的`optimizer`和`criterion`：
+
+```py
+criterion = nn.CrossEntropyLoss()
+optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
+
+```
+
+## 1\. TensorBoard 设置
+
+现在，我们将设置 TensorBoard，从`torch.utils`导入`tensorboard`并定义`SummaryWriter`，这是将信息写入 TensorBoard 的关键对象。
+
+```py
+from torch.utils.tensorboard import SummaryWriter
+
+# default `log_dir` is "runs" - we'll be more specific here
+writer = SummaryWriter('runs/fashion_mnist_experiment_1')
+
+```
+
+请注意，仅此行会创建一个`runs/fashion_mnist_experiment_1`文件夹。
+
+## 2\. 写入 TensorBoard
+
+现在，使用[`make_grid`](https://pytorch.org/docs/stable/torchvision/utils.html#torchvision.utils.make_grid)将图像写入到 TensorBoard 中，具体来说就是网格。
+
+```py
+# get some random training images
+dataiter = iter(trainloader)
+images, labels = dataiter.next()
+
+# create grid of images
+img_grid = torchvision.utils.make_grid(images)
+
+# show images
+matplotlib_imshow(img_grid, one_channel=True)
+
+# write to tensorboard
+writer.add_image('four_fashion_mnist_images', img_grid)
+
+```
+
+正在运行
+
+```py
+tensorboard --logdir=runs
+
+```
+
+从命令行，然后导航到`https://localhost:6006`应该显示以下内容。
+
+![intermediate/../../_static/img/tensorboard_first_view.png](img/8b09d6361316e495383ceedf9b8407ea.png)
+
+现在您知道如何使用 TensorBoard 了！ 但是，此示例可以在 Jupyter 笔记本中完成-TensorBoard 真正擅长的地方是创建交互式可视化。 接下来，我们将介绍其中之一，并在本教程结束时介绍更多内容。
+
+## 3\. 使用 TensorBoard 检查模型
+
+TensorBoard 的优势之一是其可视化复杂模型结构的能力。 让我们可视化我们构建的模型。
+
+```py
+writer.add_graph(net, images)
+writer.close()
+
+```
+
+现在刷新 TensorBoard 后，您应该会看到一个`Graphs`标签，如下所示：
+
+![intermediate/../../_static/img/tensorboard_model_viz.png](img/8f596b99dbb3c262b61db267d5db2d63.png)
+
+继续并双击`Net`以展开它，查看构成模型的各个操作的详细视图。
+
+TensorBoard 具有非常方便的功能，可在低维空间中可视化高维数据，例如图像数据。 接下来我们将介绍这一点。
+
+## 4\. 在 TensorBoard 中添加“投影仪”
+
+我们可以通过[`add_embedding`](https://pytorch.org/docs/stable/tensorboard.html#torch.utils.tensorboard.writer.SummaryWriter.add_embedding)方法可视化高维数据的低维表示
+
+```py
+# helper function
+def select_n_random(data, labels, n=100):
+    '''
+    Selects n random datapoints and their corresponding labels from a dataset
+    '''
+    assert len(data) == len(labels)
+
+    perm = torch.randperm(len(data))
+    return data[perm][:n], labels[perm][:n]
+
+# select random images and their target indices
+images, labels = select_n_random(trainset.data, trainset.targets)
+
+# get the class labels for each image
+class_labels = [classes[lab] for lab in labels]
+
+# log embeddings
+features = images.view(-1, 28 * 28)
+writer.add_embedding(features,
+                    metadata=class_labels,
+                    label_img=images.unsqueeze(1))
+writer.close()
+
+```
+
+现在，在 TensorBoard 的“投影仪”选项卡中，您可以看到这 100 张图像-每个图像 784 维-向下投影到三维空间中。 此外，这是交互式的：您可以单击并拖动以旋转三维投影。 最后，一些技巧可以使可视化效果更容易看到：选择左上方的“颜色：标签”，以及启用“夜间模式”，这将使图像更容易看到，因为它们的背景是白色的：
+
+![intermediate/../../_static/img/tensorboard_projector.png](img/f4990a0920dff7e4647a23cfc1639a8a.png)
+
+现在我们已经彻底检查了我们的数据，让我们展示了 TensorBoard 如何从训练开始就可以使跟踪模型的训练和评估更加清晰。
+
+## 5\. 使用 TensorBoard 跟踪模型训练
+
+在前面的示例中，我们仅*每 2000 次迭代*打印该模型的运行损失。 现在，我们将运行损失记录到 TensorBoard 中，并通过`plot_classes_preds`函数查看模型所做的预测。
+
+```py
+# helper functions
+
+def images_to_probs(net, images):
+    '''
+    Generates predictions and corresponding probabilities from a trained
+    network and a list of images
+    '''
+    output = net(images)
+    # convert output probabilities to predicted class
+    _, preds_tensor = torch.max(output, 1)
+    preds = np.squeeze(preds_tensor.numpy())
+    return preds, [F.softmax(el, dim=0)[i].item() for i, el in zip(preds, output)]
+
+def plot_classes_preds(net, images, labels):
+    '''
+    Generates matplotlib Figure using a trained network, along with images
+    and labels from a batch, that shows the network's top prediction along
+    with its probability, alongside the actual label, coloring this
+    information based on whether the prediction was correct or not.
+    Uses the "images_to_probs" function.
+    '''
+    preds, probs = images_to_probs(net, images)
+    # plot the images in the batch, along with predicted and true labels
+    fig = plt.figure(figsize=(12, 48))
+    for idx in np.arange(4):
+        ax = fig.add_subplot(1, 4, idx+1, xticks=[], yticks=[])
+        matplotlib_imshow(images[idx], one_channel=True)
+        ax.set_title("{0}, {1:.1f}%\n(label: {2})".format(
+            classes[preds[idx]],
+            probs[idx] * 100.0,
+            classes[labels[idx]]),
+                    color=("green" if preds[idx]==labels[idx].item() else "red"))
+    return fig
+
+```
+
+最后，让我们使用与之前教程相同的模型训练代码来训练模型，但是每 1000 批将结果写入 TensorBoard，而不是打印到控制台。 这是通过[`add_scalar`](https://pytorch.org/docs/stable/tensorboard.html#torch.utils.tensorboard.writer.SummaryWriter.add_scalar)函数完成的。
+
+此外，在训练过程中，我们将生成一幅图像，显示该批量中包含的四幅图像的模型预测与实际结果。
+
+```py
+running_loss = 0.0
+for epoch in range(1):  # loop over the dataset multiple times
+
+    for i, data in enumerate(trainloader, 0):
+
+        # get the inputs; data is a list of [inputs, labels]
+        inputs, labels = data
+
+        # zero the parameter gradients
+        optimizer.zero_grad()
+
+        # forward + backward + optimize
+        outputs = net(inputs)
+        loss = criterion(outputs, labels)
+        loss.backward()
+        optimizer.step()
+
+        running_loss += loss.item()
+        if i % 1000 == 999:    # every 1000 mini-batches...
+
+            # ...log the running loss
+            writer.add_scalar('training loss',
+                            running_loss / 1000,
+                            epoch * len(trainloader) + i)
+
+            # ...log a Matplotlib Figure showing the model's predictions on a
+            # random mini-batch
+            writer.add_figure('predictions vs. actuals',
+                            plot_classes_preds(net, inputs, labels),
+                            global_step=epoch * len(trainloader) + i)
+            running_loss = 0.0
+print('Finished Training')
+
+```
+
+现在，您可以查看“标量”选项卡，以查看在 15,000 次训练迭代中绘制的运行损失：
+
+![intermediate/../../_static/img/tensorboard_scalar_runs.png](img/afda8238ecd1f547d61be4d155844f68.png)
+
+此外，我们可以查看整个学习过程中模型在任意批量上所做的预测。 查看“图像”选项卡，然后在“预测与实际”可视化条件下向下滚动以查看此内容； 这表明，例如，仅经过 3000 次训练迭代，该模型就已经能够区分出视觉上截然不同的类，例如衬衫，运动鞋和外套，尽管它并没有像后来的训练那样有信心：
+
+![intermediate/../../_static/img/tensorboard_images.png](img/d5ab1f07cb4a9d9200c2a2d3b238340d.png)
+
+在之前的教程中，我们研究了模型训练后的每类准确率； 在这里，我们将使用 TensorBoard 绘制每个类别的精确调用曲线（[在这里解释](https://www.scikit-yb.org/en/latest/api/classifier/prcurve.html)）。
+
+## 6\. 使用 TensorBoard 评估经过训练的模型
+
+```py
+# 1\. gets the probability predictions in a test_size x num_classes Tensor
+# 2\. gets the preds in a test_size Tensor
+# takes ~10 seconds to run
+class_probs = []
+class_preds = []
+with torch.no_grad():
+    for data in testloader:
+        images, labels = data
+        output = net(images)
+        class_probs_batch = [F.softmax(el, dim=0) for el in output]
+        _, class_preds_batch = torch.max(output, 1)
+
+        class_probs.append(class_probs_batch)
+        class_preds.append(class_preds_batch)
+
+test_probs = torch.cat([torch.stack(batch) for batch in class_probs])
+test_preds = torch.cat(class_preds)
+
+# helper function
+def add_pr_curve_tensorboard(class_index, test_probs, test_preds, global_step=0):
+    '''
+    Takes in a "class_index" from 0 to 9 and plots the corresponding
+    precision-recall curve
+    '''
+    tensorboard_preds = test_preds == class_index
+    tensorboard_probs = test_probs[:, class_index]
+
+    writer.add_pr_curve(classes[class_index],
+                        tensorboard_preds,
+                        tensorboard_probs,
+                        global_step=global_step)
+    writer.close()
+
+# plot all the pr curves
+for i in range(len(classes)):
+    add_pr_curve_tensorboard(i, test_probs, test_preds)
+
+```
+
+现在，您将看到一个`PR Curves`选项卡，其中包含每个类别的精确调用曲线。 继续四处戳； 您会发现在某些类别中，模型的“曲线下面积”接近 100%，而在另一些类别中，该面积更低：
+
+![intermediate/../../_static/img/tensorboard_pr_curves.png](img/d15de2be2b754f9a4f46418764232b5e.png)
+
+这是 TensorBoard 和 PyTorch 与之集成的介绍。 当然，您可以在 Jupyter 笔记本中完成 TensorBoard 的所有操作，但是使用 TensorBoard 时，默认情况下会获得交互式的视觉效果。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/18.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/18.md
new file mode 100644
index 00000000..410648d1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/18.md
@@ -0,0 +1 @@
+# 图片/视频
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/19.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/19.md
new file mode 100644
index 00000000..d37340e7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/19.md
@@ -0,0 +1,453 @@
+# `torchvision`对象检测微调教程
+
+> 原文：<https://pytorch.org/tutorials/intermediate/torchvision_tutorial.html>
+
+小费
+
+为了充分利用本教程，我们建议使用此 [Colab 版本](https://colab.research.google.com/github/pytorch/vision/blob/temp-tutorial/tutorials/torchvision_finetuning_instance_segmentation.ipynb)。 这将使您可以尝试以下信息。
+
+在本教程中，我们将对 [Penn-Fudan 数据库](https://www.cis.upenn.edu/~jshi/ped_html/)中的行人检测和分割，使用预训练的 [Mask R-CNN](https://arxiv.org/abs/1703.06870) 模型进行微调。 它包含 170 个图像和 345 个行人实例，我们将用它来说明如何在`torchvision`中使用新功能，以便在自定义数据集上训练实例细分模型。
+
+## 定义数据集
+
+用于训练对象检测，实例细分和人员关键点检测的参考脚本可轻松支持添加新的自定义数据集。 数据集应继承自标准`torch.utils.data.Dataset`类，并实现`__len__`和`__getitem__`。
+
+我们唯一需要的特异性是数据集`__getitem__`应该返回：
+
+*   图像：大小为`(H, W)`的 PIL 图像
+*   目标：包含以下字段的字典
+    *   `boxes (FloatTensor[N, 4])`：`[x0, y0, x1, y1]`格式的`N`边界框的坐标，范围从`0`至`W`，从`0`至`H`
+    *   `labels (Int64Tensor[N])`：每个边界框的标签。 `0`始终代表背景类。
+    *   `image_id (Int64Tensor[1])`：图像标识符。 它在数据集中的所有图像之间应该是唯一的，并在评估过程中使用
+    *   `area (Tensor[N])`：边界框的区域。 在使用 COCO 度量进行评估时，可使用此值来区分小盒子，中盒子和大盒子之间的度量得分。
+    *   `iscrowd (UInt8Tensor[N])`：`iscrowd = True`的实例在评估期间将被忽略。
+    *   （可选）`masks (UInt8Tensor[N, H, W])`：每个对象的分割蒙版
+    *   （可选）`keypoints (FloatTensor[N, K, 3])`：对于 N 个对象中的每一个，它包含`[x, y, visibility]`格式的 K 个关键点，以定义对象。 可见性为 0 表示关键点不可见。 请注意，对于数据扩充，翻转关键点的概念取决于数据表示形式，您可能应该将`references/detection/transforms.py`修改为新的关键点表示形式
+
+如果您的模型返回上述方法，则它们将使其适用于训练和评估，并将使用`pycocotools`中的评估脚本。
+
+注意
+
+对于 Windows，请使用命令从[`gautamchitnis`](https://github.com/gautamchitnis/cocoapi)安装`pycocotools`
+
+`pip install git+https://github.com/gautamchitnis/cocoapi.git@cocodataset-master#subdirectory=PythonAPI`
+
+关于`labels`的注解。 该模型将`0`类作为背景。 如果您的数据集不包含背景类，则`labels`中不应包含`0`。 例如，假设您只有*猫*和*狗*两类，则可以定义`1`来表示*猫*和`0`代表*狗*。 因此，例如，如果其中一个图像同时具有两个类，则您的`labels`张量应类似于`[1,2]`。
+
+此外，如果要在训练过程中使用宽高比分组（以便每个批量仅包含具有相似长宽比的图像），则建议您还实现`get_height_and_width`方法，该方法返回图像的高度和宽度。 如果未提供此方法，我们将通过`__getitem__`查询数据集的所有元素，这会将图像加载到内存中，并且比提供自定义方法慢。
+
+### 为 PennFudan 编写自定义数据集
+
+让我们为 PennFudan 数据集编写一个数据集。 在[下载并解压缩 zip 文件](https://www.cis.upenn.edu/~jshi/ped_html/PennFudanPed.zip)之后，我们具有以下文件夹结构：
+
+```py
+PennFudanPed/
+  PedMasks/
+    FudanPed00001_mask.png
+    FudanPed00002_mask.png
+    FudanPed00003_mask.png
+    FudanPed00004_mask.png
+    ...
+  PNGimg/
+    FudanPed00001.png
+    FudanPed00002.png
+    FudanPed00003.png
+    FudanPed00004.png
+
+```
+
+这是一对图像和分割蒙版的一个示例
+
+![intermediate/../../_static/img/tv_tutorial/tv_image01.png](img/342d5d0add3b5754dae73ff222bbc543.png) ![intermediate/../../_static/img/tv_tutorial/tv_image02.png](img/c814c5c2350e00cf5fc0d883acf0843c.png)
+
+因此，每个图像都有一个对应的分割蒙版，其中每个颜色对应一个不同的实例。 让我们为此数据集编写一个`torch.utils.data.Dataset`类。
+
+```py
+import os
+import numpy as np
+import torch
+from PIL import Image
+
+class PennFudanDataset(object):
+    def __init__(self, root, transforms):
+        self.root = root
+        self.transforms = transforms
+        # load all image files, sorting them to
+        # ensure that they are aligned
+        self.imgs = list(sorted(os.listdir(os.path.join(root, "PNGImages"))))
+        self.masks = list(sorted(os.listdir(os.path.join(root, "PedMasks"))))
+
+    def __getitem__(self, idx):
+        # load images ad masks
+        img_path = os.path.join(self.root, "PNGImages", self.imgs[idx])
+        mask_path = os.path.join(self.root, "PedMasks", self.masks[idx])
+        img = Image.open(img_path).convert("RGB")
+        # note that we haven't converted the mask to RGB,
+        # because each color corresponds to a different instance
+        # with 0 being background
+        mask = Image.open(mask_path)
+        # convert the PIL Image into a numpy array
+        mask = np.array(mask)
+        # instances are encoded as different colors
+        obj_ids = np.unique(mask)
+        # first id is the background, so remove it
+        obj_ids = obj_ids[1:]
+
+        # split the color-encoded mask into a set
+        # of binary masks
+        masks = mask == obj_ids[:, None, None]
+
+        # get bounding box coordinates for each mask
+        num_objs = len(obj_ids)
+        boxes = []
+        for i in range(num_objs):
+            pos = np.where(masks[i])
+            xmin = np.min(pos[1])
+            xmax = np.max(pos[1])
+            ymin = np.min(pos[0])
+            ymax = np.max(pos[0])
+            boxes.append([xmin, ymin, xmax, ymax])
+
+        # convert everything into a torch.Tensor
+        boxes = torch.as_tensor(boxes, dtype=torch.float32)
+        # there is only one class
+        labels = torch.ones((num_objs,), dtype=torch.int64)
+        masks = torch.as_tensor(masks, dtype=torch.uint8)
+
+        image_id = torch.tensor([idx])
+        area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0])
+        # suppose all instances are not crowd
+        iscrowd = torch.zeros((num_objs,), dtype=torch.int64)
+
+        target = {}
+        target["boxes"] = boxes
+        target["labels"] = labels
+        target["masks"] = masks
+        target["image_id"] = image_id
+        target["area"] = area
+        target["iscrowd"] = iscrowd
+
+        if self.transforms is not None:
+            img, target = self.transforms(img, target)
+
+        return img, target
+
+    def __len__(self):
+        return len(self.imgs)
+
+```
+
+这就是数据集的全部内容。 现在，我们定义一个可以对该数据集执行预测的模型。
+
+## 定义模型
+
+在本教程中，我们将基于 [Faster R-CNN](https://arxiv.org/abs/1506.01497) 使用 [Mask R-CNN](https://arxiv.org/abs/1703.06870) 。 Faster R-CNN 是可预测图像中潜在对象的边界框和类分数的模型。
+
+![intermediate/../../_static/img/tv_tutorial/tv_image03.png](img/611c2725bdfb89e258da9a99fca53433.png)
+
+Mask R-CNN 在 Faster R-CNN 中增加了一个分支，该分支还可以预测每个实例的分割掩码。
+
+![intermediate/../../_static/img/tv_tutorial/tv_image04.png](img/afd408b97567c661cc8cb8a80c7c777c.png)
+
+在两种常见情况下，可能要修改`torchvision`模型动物园中的可用模型之一。 首先是当我们想从预先训练的模型开始，然后微调最后一层时。 另一个是当我们想要用另一个模型替换主干时（例如，为了更快的预测）。
+
+在以下各节中，让我们看看如何做一个或另一个。
+
+### 1-将预训练模型用于微调
+
+假设您要从在 COCO 上经过预训练的模型开始，并希望针对您的特定类对其进行微调。 这是一种可行的方法：
+
+```py
+import torchvision
+from torchvision.models.detection.faster_rcnn import FastRCNNPredictor
+
+# load a model pre-trained pre-trained on COCO
+model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True)
+
+# replace the classifier with a new one, that has
+# num_classes which is user-defined
+num_classes = 2  # 1 class (person) + background
+# get number of input features for the classifier
+in_features = model.roi_heads.box_predictor.cls_score.in_features
+# replace the pre-trained head with a new one
+model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)
+
+```
+
+### 2-修改模型以添加其他主干
+
+```py
+import torchvision
+from torchvision.models.detection import FasterRCNN
+from torchvision.models.detection.rpn import AnchorGenerator
+
+# load a pre-trained model for classification and return
+# only the features
+backbone = torchvision.models.mobilenet_v2(pretrained=True).features
+# FasterRCNN needs to know the number of
+# output channels in a backbone. For mobilenet_v2, it's 1280
+# so we need to add it here
+backbone.out_channels = 1280
+
+# let's make the RPN generate 5 x 3 anchors per spatial
+# location, with 5 different sizes and 3 different aspect
+# ratios. We have a Tuple[Tuple[int]] because each feature
+# map could potentially have different sizes and
+# aspect ratios
+anchor_generator = AnchorGenerator(sizes=((32, 64, 128, 256, 512),),
+                                   aspect_ratios=((0.5, 1.0, 2.0),))
+
+# let's define what are the feature maps that we will
+# use to perform the region of interest cropping, as well as
+# the size of the crop after rescaling.
+# if your backbone returns a Tensor, featmap_names is expected to
+# be [0]. More generally, the backbone should return an
+# OrderedDict[Tensor], and in featmap_names you can choose which
+# feature maps to use.
+roi_pooler = torchvision.ops.MultiScaleRoIAlign(featmap_names=[0],
+                                                output_size=7,
+                                                sampling_ratio=2)
+
+# put the pieces together inside a FasterRCNN model
+model = FasterRCNN(backbone,
+                   num_classes=2,
+                   rpn_anchor_generator=anchor_generator,
+                   box_roi_pool=roi_pooler)
+
+```
+
+### PennFudan 数据集的实例细分模型
+
+在我们的案例中，由于我们的数据集非常小，我们希望从预训练模型中进行微调，因此我们将遵循方法 1。
+
+这里我们还想计算实例分割掩码，因此我们将使用 Mask R-CNN：
+
+```py
+import torchvision
+from torchvision.models.detection.faster_rcnn import FastRCNNPredictor
+from torchvision.models.detection.mask_rcnn import MaskRCNNPredictor
+
+def get_model_instance_segmentation(num_classes):
+    # load an instance segmentation model pre-trained pre-trained on COCO
+    model = torchvision.models.detection.maskrcnn_resnet50_fpn(pretrained=True)
+
+    # get number of input features for the classifier
+    in_features = model.roi_heads.box_predictor.cls_score.in_features
+    # replace the pre-trained head with a new one
+    model.roi_heads.box_predictor = FastRCNNPredictor(in_features, num_classes)
+
+    # now get the number of input features for the mask classifier
+    in_features_mask = model.roi_heads.mask_predictor.conv5_mask.in_channels
+    hidden_layer = 256
+    # and replace the mask predictor with a new one
+    model.roi_heads.mask_predictor = MaskRCNNPredictor(in_features_mask,
+                                                       hidden_layer,
+                                                       num_classes)
+
+    return model
+
+```
+
+就是这样，这将使`model`随时可以在您的自定义数据集上进行训练和评估。
+
+## 将所有内容放在一起
+
+在`references/detection/`中，我们提供了许多帮助程序功能来简化训练和评估检测模型。 在这里，我们将使用`references/detection/engine.py`，`references/detection/utils.py`和`references/detection/transforms.py`。 只需将它们复制到您的文件夹中，然后在此处使用它们即可。
+
+让我们写一些辅助函数来进行数据扩充/转换：
+
+```py
+import transforms as T
+
+def get_transform(train):
+    transforms = []
+    transforms.append(T.ToTensor())
+    if train:
+        transforms.append(T.RandomHorizontalFlip(0.5))
+    return T.Compose(transforms)
+
+```
+
+## 测试`forward()`方法（可选）
+
+在遍历数据集之前，最好先查看模型在训练过程中的期望值以及对样本数据的推断时间。
+
+```py
+model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True)
+dataset = PennFudanDataset('PennFudanPed', get_transform(train=True))
+data_loader = torch.utils.data.DataLoader(
+ dataset, batch_size=2, shuffle=True, num_workers=4,
+ collate_fn=utils.collate_fn)
+# For Training
+images,targets = next(iter(data_loader))
+images = list(image for image in images)
+targets = [{k: v for k, v in t.items()} for t in targets]
+output = model(images,targets)   # Returns losses and detections
+# For inference
+model.eval()
+x = [torch.rand(3, 300, 400), torch.rand(3, 500, 400)]
+predictions = model(x)           # Returns predictions
+
+```
+
+现在，我们编写执行训练和验证的`main`函数：
+
+```py
+from engine import train_one_epoch, evaluate
+import utils
+
+def main():
+    # train on the GPU or on the CPU, if a GPU is not available
+    device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
+
+    # our dataset has two classes only - background and person
+    num_classes = 2
+    # use our dataset and defined transformations
+    dataset = PennFudanDataset('PennFudanPed', get_transform(train=True))
+    dataset_test = PennFudanDataset('PennFudanPed', get_transform(train=False))
+
+    # split the dataset in train and test set
+    indices = torch.randperm(len(dataset)).tolist()
+    dataset = torch.utils.data.Subset(dataset, indices[:-50])
+    dataset_test = torch.utils.data.Subset(dataset_test, indices[-50:])
+
+    # define training and validation data loaders
+    data_loader = torch.utils.data.DataLoader(
+        dataset, batch_size=2, shuffle=True, num_workers=4,
+        collate_fn=utils.collate_fn)
+
+    data_loader_test = torch.utils.data.DataLoader(
+        dataset_test, batch_size=1, shuffle=False, num_workers=4,
+        collate_fn=utils.collate_fn)
+
+    # get the model using our helper function
+    model = get_model_instance_segmentation(num_classes)
+
+    # move model to the right device
+    model.to(device)
+
+    # construct an optimizer
+    params = [p for p in model.parameters() if p.requires_grad]
+    optimizer = torch.optim.SGD(params, lr=0.005,
+                                momentum=0.9, weight_decay=0.0005)
+    # and a learning rate scheduler
+    lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer,
+                                                   step_size=3,
+                                                   gamma=0.1)
+
+    # let's train it for 10 epochs
+    num_epochs = 10
+
+    for epoch in range(num_epochs):
+        # train for one epoch, printing every 10 iterations
+        train_one_epoch(model, optimizer, data_loader, device, epoch, print_freq=10)
+        # update the learning rate
+        lr_scheduler.step()
+        # evaluate on the test dataset
+        evaluate(model, data_loader_test, device=device)
+
+    print("That's it!")
+
+```
+
+您应该获得第一个周期的输出：
+
+```py
+Epoch: [0]  [ 0/60]  eta: 0:01:18  lr: 0.000090  loss: 2.5213 (2.5213)  loss_classifier: 0.8025 (0.8025)  loss_box_reg: 0.2634 (0.2634)  loss_mask: 1.4265 (1.4265)  loss_objectness: 0.0190 (0.0190)  loss_rpn_box_reg: 0.0099 (0.0099)  time: 1.3121  data: 0.3024  max mem: 3485
+Epoch: [0]  [10/60]  eta: 0:00:20  lr: 0.000936  loss: 1.3007 (1.5313)  loss_classifier: 0.3979 (0.4719)  loss_box_reg: 0.2454 (0.2272)  loss_mask: 0.6089 (0.7953)  loss_objectness: 0.0197 (0.0228)  loss_rpn_box_reg: 0.0121 (0.0141)  time: 0.4198  data: 0.0298  max mem: 5081
+Epoch: [0]  [20/60]  eta: 0:00:15  lr: 0.001783  loss: 0.7567 (1.1056)  loss_classifier: 0.2221 (0.3319)  loss_box_reg: 0.2002 (0.2106)  loss_mask: 0.2904 (0.5332)  loss_objectness: 0.0146 (0.0176)  loss_rpn_box_reg: 0.0094 (0.0123)  time: 0.3293  data: 0.0035  max mem: 5081
+Epoch: [0]  [30/60]  eta: 0:00:11  lr: 0.002629  loss: 0.4705 (0.8935)  loss_classifier: 0.0991 (0.2517)  loss_box_reg: 0.1578 (0.1957)  loss_mask: 0.1970 (0.4204)  loss_objectness: 0.0061 (0.0140)  loss_rpn_box_reg: 0.0075 (0.0118)  time: 0.3403  data: 0.0044  max mem: 5081
+Epoch: [0]  [40/60]  eta: 0:00:07  lr: 0.003476  loss: 0.3901 (0.7568)  loss_classifier: 0.0648 (0.2022)  loss_box_reg: 0.1207 (0.1736)  loss_mask: 0.1705 (0.3585)  loss_objectness: 0.0018 (0.0113)  loss_rpn_box_reg: 0.0075 (0.0112)  time: 0.3407  data: 0.0044  max mem: 5081
+Epoch: [0]  [50/60]  eta: 0:00:03  lr: 0.004323  loss: 0.3237 (0.6703)  loss_classifier: 0.0474 (0.1731)  loss_box_reg: 0.1109 (0.1561)  loss_mask: 0.1658 (0.3201)  loss_objectness: 0.0015 (0.0093)  loss_rpn_box_reg: 0.0093 (0.0116)  time: 0.3379  data: 0.0043  max mem: 5081
+Epoch: [0]  [59/60]  eta: 0:00:00  lr: 0.005000  loss: 0.2540 (0.6082)  loss_classifier: 0.0309 (0.1526)  loss_box_reg: 0.0463 (0.1405)  loss_mask: 0.1568 (0.2945)  loss_objectness: 0.0012 (0.0083)  loss_rpn_box_reg: 0.0093 (0.0123)  time: 0.3489  data: 0.0042  max mem: 5081
+Epoch: [0] Total time: 0:00:21 (0.3570 s / it)
+creating index...
+index created!
+Test:  [ 0/50]  eta: 0:00:19  model_time: 0.2152 (0.2152)  evaluator_time: 0.0133 (0.0133)  time: 0.4000  data: 0.1701  max mem: 5081
+Test:  [49/50]  eta: 0:00:00  model_time: 0.0628 (0.0687)  evaluator_time: 0.0039 (0.0064)  time: 0.0735  data: 0.0022  max mem: 5081
+Test: Total time: 0:00:04 (0.0828 s / it)
+Averaged stats: model_time: 0.0628 (0.0687)  evaluator_time: 0.0039 (0.0064)
+Accumulating evaluation results...
+DONE (t=0.01s).
+Accumulating evaluation results...
+DONE (t=0.01s).
+IoU metric: bbox
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.606
+ Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.984
+ Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.780
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.313
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.582
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.612
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.270
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.672
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.672
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.650
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.755
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.664
+IoU metric: segm
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.704
+ Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.979
+ Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.871
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.325
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.488
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.727
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.316
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.748
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.749
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.650
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.673
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.758
+
+```
+
+因此，经过一个周期的训练，我们获得了 60.6 的 COCO 风格 mAP 和 70.4 的遮罩 mAP。
+
+经过 10 个周期的训练，我得到了以下指标
+
+```py
+IoU metric: bbox
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.799
+ Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.969
+ Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.935
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.349
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.592
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.831
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.324
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.844
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.844
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.400
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.777
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.870
+IoU metric: segm
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.761
+ Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.969
+ Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.919
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.341
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.464
+ Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.788
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.303
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.799
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.799
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.400
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.769
+ Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.818
+
+```
+
+但是这些预测是什么样的？ 让我们在数据集中拍摄一张图像并进行验证
+
+![intermediate/../../_static/img/tv_tutorial/tv_image05.png](img/85fee85630aaace1c60fe5ba0df8c795.png)
+
+经过训练的模型会在此图片中预测 9 个人物实例，让我们看看其中的几个：
+
+![intermediate/../../_static/img/tv_tutorial/tv_image06.png](img/c9d3ddd13da5858e2cb03b53753ece3c.png) ![intermediate/../../_static/img/tv_tutorial/tv_image07.png](img/5c33a15f9b0da3f9377dc63f70bb58a7.png)
+
+结果看起来还不错！
+
+## 总结
+
+在本教程中，您学习了如何在自定义数据集上为实例细分模型创建自己的训练管道。 为此，您编写了一个`torch.utils.data.Dataset`类，该类返回图像以及真实情况框和分段蒙版。 您还利用了在 COCO train2017 上预先训练的 Mask R-CNN 模型，以便对该新数据集执行迁移学习。
+
+对于更完整的示例（包括多机/多 GPU 训练），请检查在`torchvision`存储库中存在的`references/detection/train.py`。
+
+[您可以在此处下载本教程的完整源文件](https://pytorch.org/tutorials/_static/tv-training-code.py)。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/20.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/20.md
new file mode 100644
index 00000000..e6ddbb8e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/20.md
@@ -0,0 +1,590 @@
+# 计算机视觉的迁移学习教程
+
+> 原文：<https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html>
+
+**作者**： [Sasank Chilamkurthy](https://chsasank.github.io)
+
+在本教程中，您将学习如何使用迁移学习训练卷积神经网络进行图像分类。 您可以在 [cs231n 笔记](https://cs231n.github.io/transfer-learning/)中阅读有关转学的更多信息。
+
+引用这些注解，
+
+> 实际上，很少有人从头开始训练整个卷积网络（使用随机初始化），因为拥有足够大小的数据集相对很少。 相反，通常在非常大的数据集上对 ConvNet 进行预训练（例如 ImageNet，其中包含 120 万个具有 1000 个类别的图像），然后将 ConvNet 用作初始化或固定特征提取器以完成感兴趣的任务。
+
+这两个主要的迁移学习方案如下所示：
+
+*   **卷积网络的微调**：代替随机初始化，我们使用经过预训练的网络初始化网络，例如在 imagenet 1000 数据集上进行训练的网络。 其余的训练照常进行。
+*   **作为固定特征提取器的 ConvNet**：在这里，我们将冻结除最终全连接层之外的所有网络的权重。 最后一个全连接层将替换为具有随机权重的新层，并且仅训练该层。
+
+```py
+# License: BSD
+# Author: Sasank Chilamkurthy
+
+from __future__ import print_function, division
+
+import torch
+import torch.nn as nn
+import torch.optim as optim
+from torch.optim import lr_scheduler
+import numpy as np
+import torchvision
+from torchvision import datasets, models, transforms
+import matplotlib.pyplot as plt
+import time
+import os
+import copy
+
+plt.ion()   # interactive mode
+
+```
+
+## 加载数据
+
+我们将使用`torchvision`和`torch.utils.data`包来加载数据。
+
+我们今天要解决的问题是训练一个模型来对**蚂蚁**和**蜜蜂**进行分类。 我们为蚂蚁和蜜蜂提供了大约 120 张训练图像。 每个类别有 75 个验证图像。 通常，如果从头开始训练的话，这是一个非常小的数据集。 由于我们正在使用迁移学习，因此我们应该能够很好地概括。
+
+该数据集是 imagenet 的很小一部分。
+
+注意
+
+从的下载数据，并将其提取到当前目录。
+
+```py
+# Data augmentation and normalization for training
+# Just normalization for validation
+data_transforms = {
+    'train': transforms.Compose([
+        transforms.RandomResizedCrop(224),
+        transforms.RandomHorizontalFlip(),
+        transforms.ToTensor(),
+        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
+    ]),
+    'val': transforms.Compose([
+        transforms.Resize(256),
+        transforms.CenterCrop(224),
+        transforms.ToTensor(),
+        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
+    ]),
+}
+
+data_dir = 'data/hymenoptera_data'
+image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
+                                          data_transforms[x])
+                  for x in ['train', 'val']}
+dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=4,
+                                             shuffle=True, num_workers=4)
+              for x in ['train', 'val']}
+dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
+class_names = image_datasets['train'].classes
+
+device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+
+```
+
+### 可视化一些图像
+
+让我们可视化一些训练图像，以了解数据扩充。
+
+```py
+def imshow(inp, title=None):
+    """Imshow for Tensor."""
+    inp = inp.numpy().transpose((1, 2, 0))
+    mean = np.array([0.485, 0.456, 0.406])
+    std = np.array([0.229, 0.224, 0.225])
+    inp = std * inp + mean
+    inp = np.clip(inp, 0, 1)
+    plt.imshow(inp)
+    if title is not None:
+        plt.title(title)
+    plt.pause(0.001)  # pause a bit so that plots are updated
+
+# Get a batch of training data
+inputs, classes = next(iter(dataloaders['train']))
+
+# Make a grid from batch
+out = torchvision.utils.make_grid(inputs)
+
+imshow(out, title=[class_names[x] for x in classes])
+
+```
+
+![../_img/sphx_glr_transfer_learning_tutorial_001.png](img/be538c850b645a41a7a77ff388954e14.png)
+
+## 训练模型
+
+现在，让我们编写一个通用函数来训练模型。 在这里，我们将说明：
+
+*   安排学习率
+*   保存最佳模型
+
+以下，参数`scheduler`是来自`torch.optim.lr_scheduler`的 LR 调度器对象。
+
+```py
+def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
+    since = time.time()
+
+    best_model_wts = copy.deepcopy(model.state_dict())
+    best_acc = 0.0
+
+    for epoch in range(num_epochs):
+        print('Epoch {}/{}'.format(epoch, num_epochs - 1))
+        print('-' * 10)
+
+        # Each epoch has a training and validation phase
+        for phase in ['train', 'val']:
+            if phase == 'train':
+                model.train()  # Set model to training mode
+            else:
+                model.eval()   # Set model to evaluate mode
+
+            running_loss = 0.0
+            running_corrects = 0
+
+            # Iterate over data.
+            for inputs, labels in dataloaders[phase]:
+                inputs = inputs.to(device)
+                labels = labels.to(device)
+
+                # zero the parameter gradients
+                optimizer.zero_grad()
+
+                # forward
+                # track history if only in train
+                with torch.set_grad_enabled(phase == 'train'):
+                    outputs = model(inputs)
+                    _, preds = torch.max(outputs, 1)
+                    loss = criterion(outputs, labels)
+
+                    # backward + optimize only if in training phase
+                    if phase == 'train':
+                        loss.backward()
+                        optimizer.step()
+
+                # statistics
+                running_loss += loss.item() * inputs.size(0)
+                running_corrects += torch.sum(preds == labels.data)
+            if phase == 'train':
+                scheduler.step()
+
+            epoch_loss = running_loss / dataset_sizes[phase]
+            epoch_acc = running_corrects.double() / dataset_sizes[phase]
+
+            print('{} Loss: {:.4f} Acc: {:.4f}'.format(
+                phase, epoch_loss, epoch_acc))
+
+            # deep copy the model
+            if phase == 'val' and epoch_acc > best_acc:
+                best_acc = epoch_acc
+                best_model_wts = copy.deepcopy(model.state_dict())
+
+        print()
+
+    time_elapsed = time.time() - since
+    print('Training complete in {:.0f}m {:.0f}s'.format(
+        time_elapsed // 60, time_elapsed % 60))
+    print('Best val Acc: {:4f}'.format(best_acc))
+
+    # load best model weights
+    model.load_state_dict(best_model_wts)
+    return model
+
+```
+
+### 可视化模型预测
+
+通用函数，显示一些图像的预测
+
+```py
+def visualize_model(model, num_images=6):
+    was_training = model.training
+    model.eval()
+    images_so_far = 0
+    fig = plt.figure()
+
+    with torch.no_grad():
+        for i, (inputs, labels) in enumerate(dataloaders['val']):
+            inputs = inputs.to(device)
+            labels = labels.to(device)
+
+            outputs = model(inputs)
+            _, preds = torch.max(outputs, 1)
+
+            for j in range(inputs.size()[0]):
+                images_so_far += 1
+                ax = plt.subplot(num_img//2, 2, images_so_far)
+                ax.axis('off')
+                ax.set_title('predicted: {}'.format(class_names[preds[j]]))
+                imshow(inputs.cpu().data[j])
+
+                if images_so_far == num_images:
+                    model.train(mode=was_training)
+                    return
+        model.train(mode=was_training)
+
+```
+
+## 微调 ConvNet
+
+加载预训练的模型并重置最终的全连接层。
+
+```py
+model_ft = models.resnet18(pretrained=True)
+num_ftrs = model_ft.fc.in_features
+# Here the size of each output sample is set to 2.
+# Alternatively, it can be generalized to nn.Linear(num_ftrs, len(class_names)).
+model_ft.fc = nn.Linear(num_ftrs, 2)
+
+model_ft = model_ft.to(device)
+
+criterion = nn.CrossEntropyLoss()
+
+# Observe that all parameters are being optimized
+optimizer_ft = optim.SGD(model_ft.parameters(), lr=0.001, momentum=0.9)
+
+# Decay LR by a factor of 0.1 every 7 epochs
+exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)
+
+```
+
+### 训练和评估
+
+在 CPU 上大约需要 15-25 分钟。 但是在 GPU 上，此过程不到一分钟。
+
+```py
+model_ft = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler,
+                       num_epochs=25)
+
+```
+
+出：
+
+```py
+Epoch 0/24
+----------
+train Loss: 0.6303 Acc: 0.6926
+val Loss: 0.1492 Acc: 0.9346
+
+Epoch 1/24
+----------
+train Loss: 0.5511 Acc: 0.7869
+val Loss: 0.2577 Acc: 0.8889
+
+Epoch 2/24
+----------
+train Loss: 0.4885 Acc: 0.8115
+val Loss: 0.3390 Acc: 0.8758
+
+Epoch 3/24
+----------
+train Loss: 0.5158 Acc: 0.7992
+val Loss: 0.5070 Acc: 0.8366
+
+Epoch 4/24
+----------
+train Loss: 0.5878 Acc: 0.7992
+val Loss: 0.2706 Acc: 0.8758
+
+Epoch 5/24
+----------
+train Loss: 0.4396 Acc: 0.8279
+val Loss: 0.2870 Acc: 0.8954
+
+Epoch 6/24
+----------
+train Loss: 0.4612 Acc: 0.8238
+val Loss: 0.2809 Acc: 0.9150
+
+Epoch 7/24
+----------
+train Loss: 0.4387 Acc: 0.8402
+val Loss: 0.1853 Acc: 0.9281
+
+Epoch 8/24
+----------
+train Loss: 0.2998 Acc: 0.8648
+val Loss: 0.1926 Acc: 0.9085
+
+Epoch 9/24
+----------
+train Loss: 0.3383 Acc: 0.9016
+val Loss: 0.1762 Acc: 0.9281
+
+Epoch 10/24
+----------
+train Loss: 0.2969 Acc: 0.8730
+val Loss: 0.1872 Acc: 0.8954
+
+Epoch 11/24
+----------
+train Loss: 0.3117 Acc: 0.8811
+val Loss: 0.1807 Acc: 0.9150
+
+Epoch 12/24
+----------
+train Loss: 0.3005 Acc: 0.8770
+val Loss: 0.1930 Acc: 0.9085
+
+Epoch 13/24
+----------
+train Loss: 0.3129 Acc: 0.8689
+val Loss: 0.2184 Acc: 0.9150
+
+Epoch 14/24
+----------
+train Loss: 0.3776 Acc: 0.8607
+val Loss: 0.1869 Acc: 0.9216
+
+Epoch 15/24
+----------
+train Loss: 0.2245 Acc: 0.9016
+val Loss: 0.1742 Acc: 0.9346
+
+Epoch 16/24
+----------
+train Loss: 0.3105 Acc: 0.8607
+val Loss: 0.2056 Acc: 0.9216
+
+Epoch 17/24
+----------
+train Loss: 0.2729 Acc: 0.8893
+val Loss: 0.1722 Acc: 0.9085
+
+Epoch 18/24
+----------
+train Loss: 0.3210 Acc: 0.8730
+val Loss: 0.1977 Acc: 0.9281
+
+Epoch 19/24
+----------
+train Loss: 0.3231 Acc: 0.8566
+val Loss: 0.1811 Acc: 0.9216
+
+Epoch 20/24
+----------
+train Loss: 0.3206 Acc: 0.8648
+val Loss: 0.2033 Acc: 0.9150
+
+Epoch 21/24
+----------
+train Loss: 0.2917 Acc: 0.8648
+val Loss: 0.1694 Acc: 0.9150
+
+Epoch 22/24
+----------
+train Loss: 0.2412 Acc: 0.8852
+val Loss: 0.1757 Acc: 0.9216
+
+Epoch 23/24
+----------
+train Loss: 0.2508 Acc: 0.8975
+val Loss: 0.1662 Acc: 0.9281
+
+Epoch 24/24
+----------
+train Loss: 0.3283 Acc: 0.8566
+val Loss: 0.1761 Acc: 0.9281
+
+Training complete in 1m 10s
+Best val Acc: 0.934641
+
+```
+
+```py
+visualize_model(model_ft)
+
+```
+
+![../_img/sphx_glr_transfer_learning_tutorial_002.png](img/ebec7787362bc53fe2289e5740da5756.png)
+
+## 作为固定特征提取器的 ConvNet 
+
+在这里，我们需要冻结除最后一层之外的所有网络。 我们需要设置`requires_grad == False`冻结参数，以便不在`backward()`中计算梯度。
+
+[您可以在文档中阅读有关此内容的更多信息](https://pytorch.org/docs/notes/autograd.html#excluding-subgraphs-from-backward)。
+
+```py
+model_conv = torchvision.models.resnet18(pretrained=True)
+for param in model_conv.parameters():
+    param.requires_grad = False
+
+# Parameters of newly constructed modules have requires_grad=True by default
+num_ftrs = model_conv.fc.in_features
+model_conv.fc = nn.Linear(num_ftrs, 2)
+
+model_conv = model_conv.to(device)
+
+criterion = nn.CrossEntropyLoss()
+
+# Observe that only parameters of final layer are being optimized as
+# opposed to before.
+optimizer_conv = optim.SGD(model_conv.fc.parameters(), lr=0.001, momentum=0.9)
+
+# Decay LR by a factor of 0.1 every 7 epochs
+exp_lr_scheduler = lr_scheduler.StepLR(optimizer_conv, step_size=7, gamma=0.1)
+
+```
+
+### 训练和评估
+
+与以前的方案相比，在 CPU 上将花费大约一半的时间。 这是可以预期的，因为不需要为大多数网络计算梯度。 但是，确实需要计算正向。
+
+```py
+model_conv = train_model(model_conv, criterion, optimizer_conv,
+                         exp_lr_scheduler, num_epochs=25)
+
+```
+
+出：
+
+```py
+Epoch 0/24
+----------
+train Loss: 0.7258 Acc: 0.6148
+val Loss: 0.2690 Acc: 0.9020
+
+Epoch 1/24
+----------
+train Loss: 0.5342 Acc: 0.7500
+val Loss: 0.1905 Acc: 0.9412
+
+Epoch 2/24
+----------
+train Loss: 0.4262 Acc: 0.8320
+val Loss: 0.1903 Acc: 0.9412
+
+Epoch 3/24
+----------
+train Loss: 0.4103 Acc: 0.8197
+val Loss: 0.2658 Acc: 0.8954
+
+Epoch 4/24
+----------
+train Loss: 0.3938 Acc: 0.8115
+val Loss: 0.2871 Acc: 0.8954
+
+Epoch 5/24
+----------
+train Loss: 0.4623 Acc: 0.8361
+val Loss: 0.1651 Acc: 0.9346
+
+Epoch 6/24
+----------
+train Loss: 0.5348 Acc: 0.7869
+val Loss: 0.1944 Acc: 0.9477
+
+Epoch 7/24
+----------
+train Loss: 0.3827 Acc: 0.8402
+val Loss: 0.1846 Acc: 0.9412
+
+Epoch 8/24
+----------
+train Loss: 0.3655 Acc: 0.8443
+val Loss: 0.1873 Acc: 0.9412
+
+Epoch 9/24
+----------
+train Loss: 0.3275 Acc: 0.8525
+val Loss: 0.2091 Acc: 0.9412
+
+Epoch 10/24
+----------
+train Loss: 0.3375 Acc: 0.8320
+val Loss: 0.1798 Acc: 0.9412
+
+Epoch 11/24
+----------
+train Loss: 0.3077 Acc: 0.8648
+val Loss: 0.1942 Acc: 0.9346
+
+Epoch 12/24
+----------
+train Loss: 0.4336 Acc: 0.7787
+val Loss: 0.1934 Acc: 0.9346
+
+Epoch 13/24
+----------
+train Loss: 0.3149 Acc: 0.8566
+val Loss: 0.2062 Acc: 0.9281
+
+Epoch 14/24
+----------
+train Loss: 0.3617 Acc: 0.8320
+val Loss: 0.1761 Acc: 0.9412
+
+Epoch 15/24
+----------
+train Loss: 0.3066 Acc: 0.8361
+val Loss: 0.1799 Acc: 0.9281
+
+Epoch 16/24
+----------
+train Loss: 0.3952 Acc: 0.8443
+val Loss: 0.1666 Acc: 0.9346
+
+Epoch 17/24
+----------
+train Loss: 0.3552 Acc: 0.8443
+val Loss: 0.1928 Acc: 0.9412
+
+Epoch 18/24
+----------
+train Loss: 0.3106 Acc: 0.8648
+val Loss: 0.1964 Acc: 0.9346
+
+Epoch 19/24
+----------
+train Loss: 0.3675 Acc: 0.8566
+val Loss: 0.1813 Acc: 0.9346
+
+Epoch 20/24
+----------
+train Loss: 0.3565 Acc: 0.8320
+val Loss: 0.1758 Acc: 0.9346
+
+Epoch 21/24
+----------
+train Loss: 0.2922 Acc: 0.8566
+val Loss: 0.2295 Acc: 0.9216
+
+Epoch 22/24
+----------
+train Loss: 0.3283 Acc: 0.8402
+val Loss: 0.2267 Acc: 0.9281
+
+Epoch 23/24
+----------
+train Loss: 0.2875 Acc: 0.8770
+val Loss: 0.1878 Acc: 0.9346
+
+Epoch 24/24
+----------
+train Loss: 0.3172 Acc: 0.8689
+val Loss: 0.1849 Acc: 0.9412
+
+Training complete in 0m 34s
+Best val Acc: 0.947712
+
+```
+
+```py
+visualize_model(model_conv)
+
+plt.ioff()
+plt.show()
+
+```
+
+![../_img/sphx_glr_transfer_learning_tutorial_003.png](img/54625e60404f9c98f34cf32ca56bb118.png)
+
+## 进一步学习
+
+如果您想了解有关迁移学习的更多信息，请查看我们的[计算机视觉教程的量化迁移学习](https://pytorch.org/tutorials/intermediate/quantized_transfer_learning_tutorial.html)。
+
+**脚本的总运行时间**：（1 分钟 56.157 秒）
+
+[下载 Python 源码：`transfer_learning_tutorial.py`](../_downloads/07d5af1ef41e43c07f848afaf5a1c3cc/transfer_learning_tutorial.py)
+
+[下载 Jupyter 笔记本：`transfer_learning_tutorial.ipynb`](../_downloads/62840b1eece760d5e42593187847261f/transfer_learning_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/21.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/21.md
new file mode 100644
index 00000000..94744e06
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/21.md
@@ -0,0 +1,301 @@
+# 对抗示例生成
+
+> 原文：<https://pytorch.org/tutorials/beginner/fgsm_tutorial.html>
+
+**作者：** [Nathan Inkawhich](https://github.com/inkawhich)
+
+如果您正在阅读本文，希望您能体会到某些机器学习模型的有效性。 研究不断推动 ML 模型更快，更准确和更高效。 但是，设计和训练模型的一个经常被忽略的方面是安全性和鲁棒性，尤其是在面对想要欺骗模型的对手的情况下。
+
+本教程将提高您对 ML 模型的安全漏洞的认识，并深入了解对抗性机器学习的热门话题。 您可能会惊讶地发现，*在图像上添加无法察觉的扰动会导致完全不同的模型表现*。 鉴于这是一个教程，我们将通过图像分类器上的示例来探讨该主题。 具体而言，我们将使用最流行的一种攻击方法，即快速梯度符号攻击（FGSM）来欺骗 MNIST 分类器。
+
+## 威胁模型
+
+就上下文而言，有多种类型的对抗性攻击，每种攻击者的目标和假设都不同。 但是，总的来说，总体目标是向输入数据添加最少的扰动，以引起所需的错误分类。 攻击者的知识有几种假设，其中两种是：**白盒**和**黑盒**。 *白盒*攻击假定攻击者具有完全的知识并可以访问模型，包括架构，输入，输出和权重。 *黑盒*攻击假定攻击者只能访问模型的输入和输出，并且对底层架构或权重一无所知。 目标也有几种类型，包括**错误分类**和**源/目标错误分类**。 *错误分类*意味着对手只希望输出分类错误，而不在乎新分类是什么。 *源/目标错误分类*意味着对手想要更改最初属于特定源类别的图像，以便将其分类为特定目标类别。
+
+在这种情况下，FGSM 攻击是*白盒*攻击，目标是*错误分类*。 有了这些背景信息，我们现在可以详细讨论攻击了。
+
+## 快速梯度符号攻击
+
+迄今为止，最早的也是最流行的对抗性攻击之一被称为*快速梯度符号攻击（FGSM）*，由[《解释和利用对抗性示例》](https://arxiv.org/abs/1412.6572)（Goodfellow 等）描述。 攻击非常强大，而且直观。 它旨在利用神经网络学习*梯度*的方式来攻击神经网络。 这个想法很简单，不是通过基于反向传播的梯度来调整权重来使损失最小化，攻击会基于相同的反向传播的梯度来调整输入数据，以使损失最大化。 换句话说，攻击使用损失相对于输入数据的梯度，然后调整输入数据以使损失最大化。
+
+在进入代码之前，让我们看一下著名的 [FGSM](https://arxiv.org/abs/1412.6572) Pandas 示例，并提取一些符号。
+
+![fgsm_panda_image](img/d74012096c3134b776b5e9f70e8178f3.png)
+
+从图中，`x`是正确分类为“Pandas”的原始输入图像，`y`是`x`的输出，`θ`表示模型参数，而`J(θ, x, y)`是用于训练网络的损失。 攻击会将梯度反向传播回输入数据，以计算`ᐁ[x] J(θ, x, y)`。 然后，它会沿方向（即`ᐁ[x] J(θ)`）沿一小步（图片中的`ε`或`0.007`）调整输入数据，`(x, y)`，这将使损失最大化。 然后，当目标图像仍明显是“Pandas”时，目标网络将它们误分类为“长臂猿”。
+
+希望本教程的动机已经明确，所以让我们跳入实现过程。
+
+```py
+from __future__ import print_function
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.optim as optim
+from torchvision import datasets, transforms
+import numpy as np
+import matplotlib.pyplot as plt
+
+```
+
+## 实现
+
+在本节中，我们将讨论本教程的输入参数，定义受到攻击的模型，然后编写攻击代码并运行一些测试。
+
+### 输入
+
+本教程只有三个输入，定义如下：
+
+*   `epsilons`-用于运行的`ε`值列表。 在列表中保留 0 很重要，因为它表示原始测试集上的模型表现。 同样，从直觉上讲，我们期望`ε`越大，扰动越明显，但是从降低模型准确率的角度来看，攻击越有效。 由于此处的数据范围为`[0,1]`，因此`ε`值不得超过 1。
+*   `pretrained_model`-使用[`pytorch/examples/mnist`](https://github.com/pytorch/examples/tree/master/mnist)训练的 MNIST 模型的路径。 为简单起见，[请在此处下载预训练模型](https://drive.google.com/drive/folders/1fn83DF14tWmit0RTKWRhPq5uVXt73e0h?usp=sharing)。
+*   `use_cuda`-布尔标志，如果需要和可用，则使用 CUDA。 请注意，具有 CUDA 的 GPU 在本教程中并不重要，因为 CPU 不会花费很多时间。
+
+```py
+epsilons = [0, .05, .1, .15, .2, .25, .3]
+pretrained_model = "data/lenet_mnist_model.pth"
+use_cuda=True
+
+```
+
+### 受到攻击的模型
+
+如前所述，受到攻击的模型与[`pytorch/examples/mnist`](https://github.com/pytorch/examples/tree/master/mnist)中的 MNIST 模型相同。 您可以训练并保存自己的 MNIST 模型，也可以下载并使用提供的模型。 这里的*网络*定义和测试数据加载器已从 MNIST 示例中复制而来。 本部分的目的是定义模型和数据加载器，然后初始化模型并加载预训练的权重。
+
+```py
+# LeNet Model definition
+class Net(nn.Module):
+    def __init__(self):
+        super(Net, self).__init__()
+        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
+        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
+        self.conv2_drop = nn.Dropout2d()
+        self.fc1 = nn.Linear(320, 50)
+        self.fc2 = nn.Linear(50, 10)
+
+    def forward(self, x):
+        x = F.relu(F.max_pool2d(self.conv1(x), 2))
+        x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))
+        x = x.view(-1, 320)
+        x = F.relu(self.fc1(x))
+        x = F.dropout(x, training=self.training)
+        x = self.fc2(x)
+        return F.log_softmax(x, dim=1)
+
+# MNIST Test dataset and dataloader declaration
+test_loader = torch.utils.data.DataLoader(
+    datasets.MNIST('../data', train=False, download=True, transform=transforms.Compose([
+            transforms.ToTensor(),
+            ])),
+        batch_size=1, shuffle=True)
+
+# Define what device we are using
+print("CUDA Available: ",torch.cuda.is_available())
+device = torch.device("cuda" if (use_cuda and torch.cuda.is_available()) else "cpu")
+
+# Initialize the network
+model = Net().to(device)
+
+# Load the pretrained model
+model.load_state_dict(torch.load(pretrained_model, map_location='cpu'))
+
+# Set the model in evaluation mode. In this case this is for the Dropout layers
+model.eval()
+
+```
+
+出：
+
+```py
+Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to ../data/MNIST/raw/train-images-idx3-ubyte.gz
+Extracting ../data/MNIST/raw/train-images-idx3-ubyte.gz to ../data/MNIST/raw
+Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz to ../data/MNIST/raw/train-labels-idx1-ubyte.gz
+Extracting ../data/MNIST/raw/train-labels-idx1-ubyte.gz to ../data/MNIST/raw
+Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz to ../data/MNIST/raw/t10k-images-idx3-ubyte.gz
+Extracting ../data/MNIST/raw/t10k-images-idx3-ubyte.gz to ../data/MNIST/raw
+Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to ../data/MNIST/raw/t10k-labels-idx1-ubyte.gz
+Extracting ../data/MNIST/raw/t10k-labels-idx1-ubyte.gz to ../data/MNIST/raw
+Processing...
+Done!
+CUDA Available:  True
+
+```
+
+### FGSM 攻击
+
+现在，我们可以通过干扰原始输入来定义创建对抗示例的函数。 `fgsm_attack`函数接受三个输入，`image`是原始的干净图像（`x`），`epsilon`是像素级扰动量`ε`，`data_grad`是输入图像损失的梯度（`ᐁ[x] J(θ, x, y)`）。 该函数然后创建扰动图像为
+
+![](img/tex21-1.gif)
+
+最后，为了维持数据的原始范围，将被扰动的图像裁剪到范围`[0,1]`。
+
+```py
+# FGSM attack code
+def fgsm_attack(image, epsilon, data_grad):
+    # Collect the element-wise sign of the data gradient
+    sign_data_grad = data_grad.sign()
+    # Create the perturbed image by adjusting each pixel of the input image
+    perturbed_image = image + epsilon*sign_data_grad
+    # Adding clipping to maintain [0,1] range
+    perturbed_image = torch.clamp(perturbed_image, 0, 1)
+    # Return the perturbed image
+    return perturbed_image
+
+```
+
+### 测试函数
+
+最后，本教程的主要结果来自`test`函数。 每次调用此测试函数都会在 MNIST 测试集上执行完整的测试步骤，并报告最终精度。 但是，请注意，此函数还需要`epsilon`输入。 这是因为`test`函数报告实力为`ε`的来自对手的攻击模型的准确率。 更具体地说，对于测试集中的每个样本，函数都会计算输入数据`data_grad`的损失梯度，并使用`fgsm_attack`创建一个扰动图像`perturbed_data`，然后检查受干扰的示例是否具有对抗性。 除了测试模型的准确率外，该函数还保存并返回了一些成功的对抗示例，以供以后可视化。
+
+```py
+def test( model, device, test_loader, epsilon ):
+
+    # Accuracy counter
+    correct = 0
+    adv_examples = []
+
+    # Loop over all examples in test set
+    for data, target in test_loader:
+
+        # Send the data and label to the device
+        data, target = data.to(device), target.to(device)
+
+        # Set requires_grad attribute of tensor. Important for Attack
+        data.requires_grad = True
+
+        # Forward pass the data through the model
+        output = model(data)
+        init_pred = output.max(1, keepdim=True)[1] # get the index of the max log-probability
+
+        # If the initial prediction is wrong, dont bother attacking, just move on
+        if init_pred.item() != target.item():
+            continue
+
+        # Calculate the loss
+        loss = F.nll_loss(output, target)
+
+        # Zero all existing gradients
+        model.zero_grad()
+
+        # Calculate gradients of model in backward pass
+        loss.backward()
+
+        # Collect datagrad
+        data_grad = data.grad.data
+
+        # Call FGSM Attack
+        perturbed_data = fgsm_attack(data, epsilon, data_grad)
+
+        # Re-classify the perturbed image
+        output = model(perturbed_data)
+
+        # Check for success
+        final_pred = output.max(1, keepdim=True)[1] # get the index of the max log-probability
+        if final_pred.item() == target.item():
+            correct += 1
+            # Special case for saving 0 epsilon examples
+            if (epsilon == 0) and (len(adv_examples) < 5):
+                adv_ex = perturbed_data.squeeze().detach().cpu().numpy()
+                adv_examples.append( (init_pred.item(), final_pred.item(), adv_ex) )
+        else:
+            # Save some adv examples for visualization later
+            if len(adv_examples) < 5:
+                adv_ex = perturbed_data.squeeze().detach().cpu().numpy()
+                adv_examples.append( (init_pred.item(), final_pred.item(), adv_ex) )
+
+    # Calculate final accuracy for this epsilon
+    final_acc = correct/float(len(test_loader))
+    print("Epsilon: {}\tTest Accuracy = {} / {} = {}".format(epsilon, correct, len(test_loader), final_acc))
+
+    # Return the accuracy and an adversarial example
+    return final_acc, adv_examples
+
+```
+
+### 运行攻击
+
+实现的最后一部分是实际运行攻击。 在这里，我们为`epsilon`输入中的每个`ε`值运行完整的测试步骤。 对于每个`ε`，我们还保存最终精度，并在接下来的部分中绘制一些成功的对抗示例。 请注意，随着ε值的增加，打印的精度如何降低。 另外，请注意`ε = 0`表示原始测试准确率，没有受到攻击。
+
+```py
+accuracies = []
+examples = []
+
+# Run test for each epsilon
+for eps in epsilons:
+    acc, ex = test(model, device, test_loader, eps)
+    accuracies.append(acc)
+    examples.append(ex)
+
+```
+
+出：
+
+```py
+Epsilon: 0      Test Accuracy = 9810 / 10000 = 0.981
+Epsilon: 0.05   Test Accuracy = 9426 / 10000 = 0.9426
+Epsilon: 0.1    Test Accuracy = 8510 / 10000 = 0.851
+Epsilon: 0.15   Test Accuracy = 6826 / 10000 = 0.6826
+Epsilon: 0.2    Test Accuracy = 4301 / 10000 = 0.4301
+Epsilon: 0.25   Test Accuracy = 2082 / 10000 = 0.2082
+Epsilon: 0.3    Test Accuracy = 869 / 10000 = 0.0869
+
+```
+
+## 结果
+
+### 准确率与`ε`
+
+第一个结果是精度与`ε`曲线的关系。 如前所述，随着`ε`的增加，我们预计测试精度会降低。 这是因为更大的ε意味着我们朝着将损失最大化的方向迈出了更大的一步。 请注意，即使`ε`值是线性间隔的，曲线中的趋势也不是线性的。 例如，`ε = 0.05`处的精度仅比`ε = 0`低约 4%，但`ε = 0.2`处的精度比`ε = 0.15`。 另外，请注意，模型的准确率在`ε = 0.25`和`ε = 0.3`之间达到 10 类分类器的随机准确率。
+
+```py
+plt.figure(figsize=(5,5))
+plt.plot(epsilons, accuracies, "*-")
+plt.yticks(np.arange(0, 1.1, step=0.1))
+plt.xticks(np.arange(0, .35, step=0.05))
+plt.title("Accuracy vs Epsilon")
+plt.xlabel("Epsilon")
+plt.ylabel("Accuracy")
+plt.show()
+
+```
+
+![../_img/sphx_glr_fgsm_tutorial_001.png](img/7633144b009ac008488a6bd051f404c9.png)
+
+### 对抗示例样本
+
+还记得没有免费午餐的想法吗？ 在这种情况下，随着`ε`的增加，测试精度降低，但扰动变得更容易察觉。 实际上，在攻击者必须考虑的准确率下降和可感知性之间要进行权衡。 在这里，我们展示了每个`ε`值下成功对抗示例的一些示例。 绘图的每一行显示不同的`ε`值。 第一行是`ε = 0`示例，这些示例表示没有干扰的原始“干净”图像。 每张图片的标题均显示“原始分类->对抗分类”。 注意，扰动在`ε = 0.15`处开始变得明显，而在`ε = 0.3`处则非常明显。 但是，在所有情况下，尽管增加了噪音，人类仍然能够识别正确的类别。
+
+```py
+# Plot several examples of adversarial samples at each epsilon
+cnt = 0
+plt.figure(figsize=(8,10))
+for i in range(len(epsilons)):
+    for j in range(len(examples[i])):
+        cnt += 1
+        plt.subplot(len(epsilons),len(examples[0]),cnt)
+        plt.xticks([], [])
+        plt.yticks([], [])
+        if j == 0:
+            plt.ylabel("Eps: {}".format(epsilons[i]), fontsize=14)
+        orig,adv,ex = examples[i][j]
+        plt.title("{} -> {}".format(orig, adv))
+        plt.imshow(ex, cmap="gray")
+plt.tight_layout()
+plt.show()
+
+```
+
+![../_img/sphx_glr_fgsm_tutorial_002.png](img/049e79b05a41598709a2aeef166e4a2a.png)
+
+## 接下来要去哪里？
+
+希望本教程对对抗性机器学习主题有所了解。 从这里可以找到许多潜在的方向。 这种攻击代表了对抗性攻击研究的最开始，并且由于随后有许多关于如何攻击和防御来自对手的 ML 模型的想法。 实际上，在 NIPS 2017 上有一个对抗性的攻击和防御竞赛，并且本文描述了该竞赛中使用的许多方法：[《对抗性的攻击与防御竞赛》](https://arxiv.org/pdf/1804.00097.pdf)。 防御方面的工作还引发了使机器学习模型总体上更*健壮*的想法，以适应自然扰动和对抗性输入。
+
+另一个方向是不同领域的对抗性攻击和防御。 对抗性研究不仅限于图像领域，请查看[对语音到文本模型的这种攻击](https://arxiv.org/pdf/1801.01944.pdf)。 但是，也许更多地了解对抗性机器学习的最好方法是动手。 尝试实现与 NIPS 2017 竞赛不同的攻击，并查看它与 FGSM 有何不同。 然后，尝试保护模型免受自己的攻击。
+
+**脚本的总运行时间**：（4 分钟 22.519 秒）
+
+[下载 Python 源码：`fgsm_tutorial.py`](../_downloads/c9aee5c8955d797c051f02c07927b0c0/fgsm_tutorial.py)
+
+[下载 Jupyter 笔记本：`fgsm_tutorial.ipynb`](../_downloads/fba7866856a418520404ba3a11142335/fgsm_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/22.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/22.md
new file mode 100644
index 00000000..040604c0
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/22.md
@@ -0,0 +1,735 @@
+# DCGAN 教程
+
+> 原文：<https://pytorch.org/tutorials/beginner/dcgan_faces_tutorial.html>
+
+**作者**： [Nathan Inkawhich](https://github.com/inkawhich)
+
+## 简介
+
+本教程将通过一个示例对 DCGAN 进行介绍。 在向其展示许多真实名人的照片后，我们将训练一个生成对抗网络（GAN）来产生新名人。 此处的大多数代码来自[`pytorch/examples`](https://github.com/pytorch/examples)中的 dcgan 实现，并且本文档将对该实现进行详尽的解释，并阐明此模型的工作方式和原因。 但请放心，不需要 GAN 的先验知识，但这可能需要新手花一些时间来推理幕后实际发生的事情。 同样，为了节省时间，拥有一两个 GPU 也将有所帮助。 让我们从头开始。
+
+## 生成对抗网络
+
+### 什么是 GAN？
+
+GAN 是用于教授 DL 模型以捕获训练数据分布的框架，因此我们可以从同一分布中生成新数据。 GAN 由 Ian Goodfellow 于 2014 年发明，并在论文[《生成对抗网络》](https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf)中首次进行了描述。 它们由两个不同的模型组成：*生成器*和*判别器*。 生成器的工作是生成看起来像训练图像的“假”图像。 判别器的工作是查看图像并从生成器输出它是真实的训练图像还是伪图像。 在训练过程中，生成器不断尝试通过生成越来越好的伪造品而使判别器的表现超过智者，而判别器正在努力成为更好的侦探并正确地对真实和伪造图像进行分类。 博弈的平衡点是当生成器生成的伪造品看起来像直接来自训练数据时，而判别器则总是猜测生成器输出是真实还是伪造品的 50% 置信度。
+
+现在，让我们从判别器开始定义一些在整个教程中使用的符号。 令`x`为代表图像的数据。 `D(x)`是判别器网络，其输出`x`来自训练数据而不是生成器的（标量）概率。 在这里，由于我们要处理图像，因此`D(x)`的输入是 CHW 大小为`3x64x64`的图像。 直观地，当`x`来自训练数据时，`D(x)`应该为高，而当`x`来自生成器时，它应该为低。 `D(x)`也可以被认为是传统的二分类器。
+
+对于生成器的表示法，令`z`是从标准正态分布中采样的潜在空间向量。 `G(z)`表示将隐向量`z`映射到数据空间的生成器函数。 `G`的目标是估计训练数据来自`p_data`的分布，以便它可以从该估计分布（`p_g`）生成假样本。
+
+因此，`D(G(z))`是生成器`G`的输出是真实图像的概率（标量）。 如 [Goodfellow 的论文](https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf)中所述，`D`和`G`玩一个 minimax 游戏，其中`D`试图最大化其正确分类实物和假物`log D(x)`，并且`G`尝试最小化`D`预测其输出为假的概率`log(1 - D(G(g(x))))`。 从本文来看，GAN 损失函数为
+
+![](img/tex22-1.gif)
+
+从理论上讲，此极小极大游戏的解决方案是`p_g = p_data`，判别器会随机猜测输入是真实的还是假的。 但是，GAN 的收敛理论仍在积极研究中，实际上，模型并不总是能达到这一目的。
+
+### 什么是 DCGAN？
+
+DCGAN 是上述 GAN 的直接扩展，不同之处在于，DCGAN 分别在判别器和生成器中分别使用卷积和卷积转置层。 它最早由 Radford 等人，在论文[《使用深度卷积生成对抗网络的无监督表示学习》](https://arxiv.org/pdf/1511.06434.pdf)中描述。 判别器由分层的[卷积层](https://pytorch.org/docs/stable/nn.html#torch.nn.Conv2d)，[批量规范层](https://pytorch.org/docs/stable/nn.html#torch.nn.BatchNorm2d)和 [LeakyReLU](https://pytorch.org/docs/stable/nn.html#torch.nn.LeakyReLU) 激活组成。 输入是`3x64x64`的输入图像，输出是输入来自真实数据分布的标量概率。 生成器由[转置卷积层](https://pytorch.org/docs/stable/nn.html#torch.nn.ConvTranspose2d)，批量规范层和 [ReLU](https://pytorch.org/docs/stable/nn.html#relu) 激活组成。 输入是从标准正态分布中提取的潜向量`z`，输出是`3x64x64` RGB 图像。 跨步的转置层使潜向量可以转换为具有与图像相同形状的体积。 在本文中，作者还提供了一些有关如何设置优化器，如何计算损失函数以及如何初始化模型权重的提示，所有这些都将在接下来的部分中进行解释。
+
+```py
+from __future__ import print_function
+#%matplotlib inline
+import argparse
+import os
+import random
+import torch
+import torch.nn as nn
+import torch.nn.parallel
+import torch.backends.cudnn as cudnn
+import torch.optim as optim
+import torch.utils.data
+import torchvision.datasets as dset
+import torchvision.transforms as transforms
+import torchvision.utils as vutils
+import numpy as np
+import matplotlib.pyplot as plt
+import matplotlib.animation as animation
+from IPython.display import HTML
+
+# Set random seed for reproducibility
+manualSeed = 999
+#manualSeed = random.randint(1, 10000) # use if you want new results
+print("Random Seed: ", manualSeed)
+random.seed(manualSeed)
+torch.manual_seed(manualSeed)
+
+```
+
+出：
+
+```py
+Random Seed:  999
+
+```
+
+## 输入
+
+让我们为跑步定义一些输入：
+
+*   `dataroot`-数据集文件夹根目录的路径。 我们将在下一节中进一步讨论数据集
+*   `worker`-使用`DataLoader`加载数据的工作线程数
+*   `batch_size`-训练中使用的批量大小。 DCGAN 纸使用的批量大小为 128
+*   `image_size`-用于训练的图像的空间大小。 此实现默认为`64x64`。 如果需要其他尺寸，则必须更改`D`和`G`的结构。 有关更多详细信息，请参见[此处](https://github.com/pytorch/examples/issues/70)。
+*   `nc`-输入图像中的彩色通道数。 对于彩色图像，这是 3
+*   `nz`-潜向量的长度
+*   `ngf`-与通过生成器传送的特征映射的深度有关
+*   `ndf`-设置通过判别器传播的特征映射的深度
+*   `num_epochs`-要运行的训练周期数。 训练更长的时间可能会导致更好的结果，但也会花费更长的时间
+*   `lr`-训练的学习率。 如 DCGAN 文件中所述，此数字应为 0.0002
+*   `beta1`-Adam 优化器的`beta1`超参数。 如论文所述，该数字应为 0.5
+*   `ngpu`-可用的 GPU 数量。 如果为 0，则代码将在 CPU 模式下运行。 如果此数字大于 0，它将在该数量的 GPU 上运行
+
+```py
+# Root directory for dataset
+dataroot = "data/celeba"
+
+# Number of workers for dataloader
+workers = 2
+
+# Batch size during training
+batch_size = 128
+
+# Spatial size of training images. All images will be resized to this
+#   size using a transformer.
+image_size = 64
+
+# Number of channels in the training images. For color images this is 3
+nc = 3
+
+# Size of z latent vector (i.e. size of generator input)
+nz = 100
+
+# Size of feature maps in generator
+ngf = 64
+
+# Size of feature maps in discriminator
+ndf = 64
+
+# Number of training epochs
+num_epochs = 5
+
+# Learning rate for optimizers
+lr = 0.0002
+
+# Beta1 hyperparam for Adam optimizers
+beta1 = 0.5
+
+# Number of GPUs available. Use 0 for CPU mode.
+ngpu = 1
+
+```
+
+## 数据
+
+在本教程中，我们将使用 [Celeb-A Faces 数据集](http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)，该数据集可在链接的站点或 [Google 云端硬盘](https://drive.google.com/drive/folders/0B7EVK8r0v71pTUZsaXdaSnZBZzg)中下载。 数据集将下载为名为`img_align_celeba.zip`的文件。 下载完成后，创建一个名为`celeba`的目录，并将 zip 文件解压缩到该目录中。 然后，将此笔记本的`dataroot `输入设置为刚创建的`celeba`目录。 结果目录结构应为：
+
+```py
+/path/to/celeba
+    -> img_align_celeba
+        -> 188242.jpg
+        -> 173822.jpg
+        -> 284702.jpg
+        -> 537394.jpg
+           ...
+
+```
+
+这是重要的一步，因为我们将使用`ImageFolder`数据集类，该类要求数据集的根文件夹中有子目录。 现在，我们可以创建数据集，创建数据加载器，将设备设置为可以运行，并最终可视化一些训练数据。
+
+```py
+# We can use an image folder dataset the way we have it setup.
+# Create the dataset
+dataset = dset.ImageFolder(root=dataroot,
+                           transform=transforms.Compose([
+                               transforms.Resize(image_size),
+                               transforms.CenterCrop(image_size),
+                               transforms.ToTensor(),
+                               transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)),
+                           ]))
+# Create the dataloader
+dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size,
+                                         shuffle=True, num_workers=workers)
+
+# Decide which device we want to run on
+device = torch.device("cuda:0" if (torch.cuda.is_available() and ngpu > 0) else "cpu")
+
+# Plot some training images
+real_batch = next(iter(dataloader))
+plt.figure(figsize=(8,8))
+plt.axis("off")
+plt.title("Training Images")
+plt.imshow(np.transpose(vutils.make_grid(real_batch[0].to(device)[:64], padding=2, normalize=True).cpu(),(1,2,0)))
+
+```
+
+![../_img/sphx_glr_dcgan_faces_tutorial_001.png](img/04fb3a8ed8e63cf7cffb5f29224decca.png)
+
+## 实现
+
+设置好输入参数并准备好数据集后，我们现在可以进入实现了。 我们将从权重初始化策略开始，然后详细讨论生成器，判别器，损失函数和训练循环。
+
+### 权重初始化
+
+在 DCGAN 论文中，作者指定所有模型权重均应从均值为 0，`stdev = 0.02`的正态分布中随机初始化。 `weights_init`函数采用已初始化的模型作为输入，并重新初始化所有卷积，卷积转置和批量归一化层以满足此标准。 初始化后立即将此函数应用于模型。
+
+```py
+# custom weights initialization called on netG and netD
+def weights_init(m):
+    classname = m.__class__.__name__
+    if classname.find('Conv') != -1:
+        nn.init.normal_(m.weight.data, 0.0, 0.02)
+    elif classname.find('BatchNorm') != -1:
+        nn.init.normal_(m.weight.data, 1.0, 0.02)
+        nn.init.constant_(m.bias.data, 0)
+
+```
+
+### 生成器
+
+生成器`G`用于将潜在空间向量（`z`）映射到数据空间。 由于我们的数据是图像，因此将`z`转换为数据空间意味着最终创建与训练图像大小相同的 RGB 图像（即`3x64x64`）。 在实践中，这是通过一系列跨步的二维卷积转置层来完成的，每个层都与 2d 批量规范层和 relu 激活配对。 生成器的输出通过 tanh 函数馈送，以使其返回到输入数据范围`[-1,1]`。 值得注意的是，在卷积转置层之后存在批量规范函数，因为这是 DCGAN 论文的关键贡献。 这些层有助于训练过程中的梯度流动。 DCGAN 纸生成的图像如下所示。
+
+![dcgan_generator](img/85974d98be6202902f21ce274418953f.png)
+
+请注意，我们在输入部分中设置的输入（`nz`，`ngf`和`nc`）如何影响代码中的生成器架构。 `nz`是`z`输入向量的长度，`ngf`与通过生成器传播的特征映射的大小有关， `nc`是输出图像中的通道（对于 RGB 图像设置为 3）。 下面是生成器的代码。
+
+```py
+# Generator Code
+
+class Generator(nn.Module):
+    def __init__(self, ngpu):
+        super(Generator, self).__init__()
+        self.ngpu = ngpu
+        self.main = nn.Sequential(
+            # input is Z, going into a convolution
+            nn.ConvTranspose2d( nz, ngf * 8, 4, 1, 0, bias=False),
+            nn.BatchNorm2d(ngf * 8),
+            nn.ReLU(True),
+            # state size. (ngf*8) x 4 x 4
+            nn.ConvTranspose2d(ngf * 8, ngf * 4, 4, 2, 1, bias=False),
+            nn.BatchNorm2d(ngf * 4),
+            nn.ReLU(True),
+            # state size. (ngf*4) x 8 x 8
+            nn.ConvTranspose2d( ngf * 4, ngf * 2, 4, 2, 1, bias=False),
+            nn.BatchNorm2d(ngf * 2),
+            nn.ReLU(True),
+            # state size. (ngf*2) x 16 x 16
+            nn.ConvTranspose2d( ngf * 2, ngf, 4, 2, 1, bias=False),
+            nn.BatchNorm2d(ngf),
+            nn.ReLU(True),
+            # state size. (ngf) x 32 x 32
+            nn.ConvTranspose2d( ngf, nc, 4, 2, 1, bias=False),
+            nn.Tanh()
+            # state size. (nc) x 64 x 64
+        )
+
+    def forward(self, input):
+        return self.main(input)
+
+```
+
+现在，我们可以实例化生成器并应用`weights_init`函数。 签出打印的模型以查看生成器对象的结构。
+
+```py
+# Create the generator
+netG = Generator(ngpu).to(device)
+
+# Handle multi-gpu if desired
+if (device.type == 'cuda') and (ngpu > 1):
+    netG = nn.DataParallel(netG, list(range(ngpu)))
+
+# Apply the weights_init function to randomly initialize all weights
+#  to mean=0, stdev=0.2.
+netG.apply(weights_init)
+
+# Print the model
+print(netG)
+
+```
+
+出：
+
+```py
+Generator(
+  (main): Sequential(
+    (0): ConvTranspose2d(100, 512, kernel_size=(4, 4), stride=(1, 1), bias=False)
+    (1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (2): ReLU(inplace=True)
+    (3): ConvTranspose2d(512, 256, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1), bias=False)
+    (4): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (5): ReLU(inplace=True)
+    (6): ConvTranspose2d(256, 128, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1), bias=False)
+    (7): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (8): ReLU(inplace=True)
+    (9): ConvTranspose2d(128, 64, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1), bias=False)
+    (10): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (11): ReLU(inplace=True)
+    (12): ConvTranspose2d(64, 3, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1), bias=False)
+    (13): Tanh()
+  )
+)
+
+```
+
+### 判别器
+
+如前所述，判别器`D`是一个二分类网络，将图像作为输入并输出标量概率，即输入图像是真实的（与假的相对）。 在这里，`D`拍摄`3x64x64`的输入图像，通过一系列的`Conv2d`，`BatchNorm2d`和`LeakyReLU`层对其进行处理，然后通过 Sigmoid 激活函数输出最终概率。 如果需要解决此问题，可以用更多层扩展此架构，但是使用跨步卷积，`BatchNorm`和`LeakyReLU`仍然很重要。 DCGAN 论文提到，使用跨步卷积而不是通过池化来进行下采样是一个好习惯，因为它可以让网络学习自己的池化特征。 批量规范和泄漏 ReLU 函数还可以促进健康的梯度流，这对于`G`和`D`的学习过程都是至关重要的。
+
+鉴别码
+
+```py
+class Discriminator(nn.Module):
+    def __init__(self, ngpu):
+        super(Discriminator, self).__init__()
+        self.ngpu = ngpu
+        self.main = nn.Sequential(
+            # input is (nc) x 64 x 64
+            nn.Conv2d(nc, ndf, 4, 2, 1, bias=False),
+            nn.LeakyReLU(0.2, inplace=True),
+            # state size. (ndf) x 32 x 32
+            nn.Conv2d(ndf, ndf * 2, 4, 2, 1, bias=False),
+            nn.BatchNorm2d(ndf * 2),
+            nn.LeakyReLU(0.2, inplace=True),
+            # state size. (ndf*2) x 16 x 16
+            nn.Conv2d(ndf * 2, ndf * 4, 4, 2, 1, bias=False),
+            nn.BatchNorm2d(ndf * 4),
+            nn.LeakyReLU(0.2, inplace=True),
+            # state size. (ndf*4) x 8 x 8
+            nn.Conv2d(ndf * 4, ndf * 8, 4, 2, 1, bias=False),
+            nn.BatchNorm2d(ndf * 8),
+            nn.LeakyReLU(0.2, inplace=True),
+            # state size. (ndf*8) x 4 x 4
+            nn.Conv2d(ndf * 8, 1, 4, 1, 0, bias=False),
+            nn.Sigmoid()
+        )
+
+    def forward(self, input):
+        return self.main(input)
+
+```
+
+现在，与生成器一样，我们可以创建判别器，应用`weights_init`函数，并打印模型的结构。
+
+```py
+# Create the Discriminator
+netD = Discriminator(ngpu).to(device)
+
+# Handle multi-gpu if desired
+if (device.type == 'cuda') and (ngpu > 1):
+    netD = nn.DataParallel(netD, list(range(ngpu)))
+
+# Apply the weights_init function to randomly initialize all weights
+#  to mean=0, stdev=0.2.
+netD.apply(weights_init)
+
+# Print the model
+print(netD)
+
+```
+
+出：
+
+```py
+Discriminator(
+  (main): Sequential(
+    (0): Conv2d(3, 64, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1), bias=False)
+    (1): LeakyReLU(negative_slope=0.2, inplace=True)
+    (2): Conv2d(64, 128, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1), bias=False)
+    (3): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (4): LeakyReLU(negative_slope=0.2, inplace=True)
+    (5): Conv2d(128, 256, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1), bias=False)
+    (6): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (7): LeakyReLU(negative_slope=0.2, inplace=True)
+    (8): Conv2d(256, 512, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1), bias=False)
+    (9): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (10): LeakyReLU(negative_slope=0.2, inplace=True)
+    (11): Conv2d(512, 1, kernel_size=(4, 4), stride=(1, 1), bias=False)
+    (12): Sigmoid()
+  )
+)
+
+```
+
+### 损失函数和优化器
+
+使用`D`和`G`设置，我们可以指定它们如何通过损失函数和优化器学习。 我们将使用在 PyTorch 中定义的二进制交叉熵损失（[BCELoss](https://pytorch.org/docs/stable/nn.html#torch.nn.BCELoss)）函数：
+
+![](img/tex22-2.gif)
+
+请注意，此函数如何提供目标函数中两个对数分量的计算（即`log D(x)`和`log(1 - D(G(z)))`）。 我们可以指定`y`输入使用 BCE 方程的哪一部分。 这是在即将到来的训练循环中完成的，但重要的是要了解我们如何仅通过更改`y`（即`GT`标签）即可选择希望计算的分量。
+
+接下来，我们将实际标签定义为 1，将假标签定义为 0。这些标签将在计算`D`和`G`的损失时使用，这也是 GAN 原始论文中使用的惯例 。 最后，我们设置了两个单独的优化器，一个用于`D`，另一个用于`G`。 如 DCGAN 论文中所指定，这两个都是学习速度为 0.0002 和`Beta1 = 0.5`的 Adam 优化器。 为了跟踪生成器的学习进度，我们将生成一批固定的潜在向量，这些向量是从高斯分布（即`fixed_noise`）中提取的。 在训练循环中，我们将定期将此`fixed_noise`输入到`G`中，并且在迭代过程中，我们将看到图像形成于噪声之外。
+
+```py
+# Initialize BCELoss function
+criterion = nn.BCELoss()
+
+# Create batch of latent vectors that we will use to visualize
+#  the progression of the generator
+fixed_noise = torch.randn(64, nz, 1, 1, device=device)
+
+# Establish convention for real and fake labels during training
+real_label = 1.
+fake_label = 0.
+
+# Setup Adam optimizers for both G and D
+optimizerD = optim.Adam(netD.parameters(), lr=lr, betas=(beta1, 0.999))
+optimizerG = optim.Adam(netG.parameters(), lr=lr, betas=(beta1, 0.999))
+
+```
+
+### 训练
+
+最后，既然我们已经定义了 GAN 框架的所有部分，我们就可以对其进行训练。 请注意，训练 GAN 某种程度上是一种艺术形式，因为不正确的超参数设置会导致模式崩溃，而对失败的原因几乎没有解释。 在这里，我们将严格遵循 Goodfellow 论文中的算法 1，同时遵守[`ganhacks`](https://github.com/soumith/ganhacks)中显示的一些最佳做法。 即，我们将“为真实和伪造构建不同的小批量”图像，并调整`G`的目标函数以最大化`log D(G(z))`。 训练分为两个主要部分。 第 1 部分更新了判别器，第 2 部分更新了生成器。
+
+**第 1 部分-训练判别器**
+
+回想一下，训练判别器的目的是最大程度地提高将给定输入正确分类为真实或伪造的可能性。 就古德费罗而言，我们希望“通过提高其随机梯度来更新判别器”。 实际上，我们要最大化`log D(x) + log(1 - D(G(z))`。 由于 ganhacks 提出了单独的小批量建议，因此我们将分两步进行计算。 首先，我们将从训练集中构造一批真实样本，向前通过`D`，计算损失（`log D(x)`），然后在向后通过中计算梯度。 其次，我们将使用当前生成器构造一批假样本，将这批伪造通过`D`，计算损失（`log(1 - D(G(z)))`），然后*反向累积*梯度。 现在，利用全批量和全批量的累积梯度，我们称之为判别器优化程序的一个步骤。
+
+**第 2 部分-训练生成器**
+
+如原始论文所述，我们希望通过最小化`log(1 - D(G(z)))`来训练生成器，以产生更好的假货。 如前所述，Goodfellow 证明这不能提供足够的梯度，尤其是在学习过程的早期。 作为解决方法，我们希望最大化`log D(G(z))`。 在代码中，我们通过以下步骤来实现此目的：将第 1 部分的生成器输出与判别器进行分类，使用实数标签`GT`计算`G`的损失，反向计算`G`的梯度，最后使用优化器步骤更新`G`的参数。 将真实标签用作损失函数的`GT`标签似乎是违反直觉的，但这使我们可以使用 BCELoss 的`log(x)`部分（而不是`log(1 - x)`部分），这正是我们想要的。
+
+最后，我们将进行一些统计报告，并在每个周期结束时，将我们的`fixed_noise`批量推送到生成器中，以直观地跟踪`G`的训练进度。 报告的训练统计数据是：
+
+*   `Loss_D`-判别器损失，计算为所有真实批量和所有假批量的损失总和（`log D(x) + log D(G(z))`）。
+*   `Loss_G`-生成器损失计算为`log D(G(z))`
+*   `D(x)`-所有真实批量的判别器的平均输出（整个批量）。 这应该从接近 1 开始，然后在`G`变得更好时理论上收敛到 0.5。 想想这是为什么。
+*   `D(G(z))`-所有假批量的平均判别器输出。 第一个数字在`D`更新之前，第二个数字在`D`更新之后。 这些数字应从 0 开始，并随着`G`的提高收敛到 0.5。 想想这是为什么。
+
+**注意**：此步骤可能需要一段时间，具体取决于您运行了多少个周期以及是否从数据集中删除了一些数据。
+
+```py
+# Training Loop
+
+# Lists to keep track of progress
+img_list = []
+G_losses = []
+D_losses = []
+iters = 0
+
+print("Starting Training Loop...")
+# For each epoch
+for epoch in range(num_epochs):
+    # For each batch in the dataloader
+    for i, data in enumerate(dataloader, 0):
+
+        ############################
+        # (1) Update D network: maximize log(D(x)) + log(1 - D(G(z)))
+        ###########################
+        ## Train with all-real batch
+        netD.zero_grad()
+        # Format batch
+        real_cpu = data[0].to(device)
+        b_size = real_cpu.size(0)
+        label = torch.full((b_size,), real_label, dtype=torch.float, device=device)
+        # Forward pass real batch through D
+        output = netD(real_cpu).view(-1)
+        # Calculate loss on all-real batch
+        errD_real = criterion(output, label)
+        # Calculate gradients for D in backward pass
+        errD_real.backward()
+        D_x = output.mean().item()
+
+        ## Train with all-fake batch
+        # Generate batch of latent vectors
+        noise = torch.randn(b_size, nz, 1, 1, device=device)
+        # Generate fake image batch with G
+        fake = netG(noise)
+        label.fill_(fake_label)
+        # Classify all fake batch with D
+        output = netD(fake.detach()).view(-1)
+        # Calculate D's loss on the all-fake batch
+        errD_fake = criterion(output, label)
+        # Calculate the gradients for this batch
+        errD_fake.backward()
+        D_G_z1 = output.mean().item()
+        # Add the gradients from the all-real and all-fake batches
+        errD = errD_real + errD_fake
+        # Update D
+        optimizerD.step()
+
+        ############################
+        # (2) Update G network: maximize log(D(G(z)))
+        ###########################
+        netG.zero_grad()
+        label.fill_(real_label)  # fake labels are real for generator cost
+        # Since we just updated D, perform another forward pass of all-fake batch through D
+        output = netD(fake).view(-1)
+        # Calculate G's loss based on this output
+        errG = criterion(output, label)
+        # Calculate gradients for G
+        errG.backward()
+        D_G_z2 = output.mean().item()
+        # Update G
+        optimizerG.step()
+
+        # Output training stats
+        if i % 50 == 0:
+            print('[%d/%d][%d/%d]\tLoss_D: %.4f\tLoss_G: %.4f\tD(x): %.4f\tD(G(z)): %.4f / %.4f'
+                  % (epoch, num_epochs, i, len(dataloader),
+                     errD.item(), errG.item(), D_x, D_G_z1, D_G_z2))
+
+        # Save Losses for plotting later
+        G_losses.append(errG.item())
+        D_losses.append(errD.item())
+
+        # Check how the generator is doing by saving G's output on fixed_noise
+        if (iters % 500 == 0) or ((epoch == num_epochs-1) and (i == len(dataloader)-1)):
+            with torch.no_grad():
+                fake = netG(fixed_noise).detach().cpu()
+            img_list.append(vutils.make_grid(fake, padding=2, normalize=True))
+
+        iters += 1
+
+```
+
+出：
+
+```py
+Starting Training Loop...
+[0/5][0/1583]   Loss_D: 1.9847  Loss_G: 5.5914  D(x): 0.6004    D(G(z)): 0.6680 / 0.0062
+[0/5][50/1583]  Loss_D: 0.7168  Loss_G: 35.7954 D(x): 0.7127    D(G(z)): 0.0000 / 0.0000
+[0/5][100/1583] Loss_D: 0.0007  Loss_G: 28.2580 D(x): 0.9994    D(G(z)): 0.0000 / 0.0000
+[0/5][150/1583] Loss_D: 0.0001  Loss_G: 42.5731 D(x): 0.9999    D(G(z)): 0.0000 / 0.0000
+[0/5][200/1583] Loss_D: 0.0138  Loss_G: 42.3603 D(x): 0.9933    D(G(z)): 0.0000 / 0.0000
+[0/5][250/1583] Loss_D: 0.0010  Loss_G: 42.2029 D(x): 0.9991    D(G(z)): 0.0000 / 0.0000
+[0/5][300/1583] Loss_D: 0.0000  Loss_G: 41.9521 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][350/1583] Loss_D: 0.0000  Loss_G: 41.7962 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][400/1583] Loss_D: 0.0000  Loss_G: 41.6345 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][450/1583] Loss_D: 0.0000  Loss_G: 41.6058 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][500/1583] Loss_D: 0.0001  Loss_G: 41.6208 D(x): 0.9999    D(G(z)): 0.0000 / 0.0000
+[0/5][550/1583] Loss_D: 0.0000  Loss_G: 41.3979 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][600/1583] Loss_D: 0.0000  Loss_G: 41.2545 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][650/1583] Loss_D: 0.0000  Loss_G: 41.0200 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][700/1583] Loss_D: 0.0000  Loss_G: 39.6461 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][750/1583] Loss_D: 0.0000  Loss_G: 38.8834 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][800/1583] Loss_D: 0.0000  Loss_G: 38.5914 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][850/1583] Loss_D: 0.0000  Loss_G: 38.8209 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][900/1583] Loss_D: 0.0000  Loss_G: 38.9713 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][950/1583] Loss_D: 0.0000  Loss_G: 38.4995 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1000/1583]        Loss_D: 0.0001  Loss_G: 38.5549 D(x): 0.9999    D(G(z)): 0.0000 / 0.0000
+[0/5][1050/1583]        Loss_D: 0.0000  Loss_G: 39.1773 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1100/1583]        Loss_D: 0.0000  Loss_G: 39.0142 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1150/1583]        Loss_D: 0.0000  Loss_G: 38.6368 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1200/1583]        Loss_D: 0.0000  Loss_G: 38.7159 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1250/1583]        Loss_D: 0.0000  Loss_G: 38.7660 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1300/1583]        Loss_D: 0.0000  Loss_G: 38.5522 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1350/1583]        Loss_D: 0.0001  Loss_G: 38.6703 D(x): 0.9999    D(G(z)): 0.0000 / 0.0000
+[0/5][1400/1583]        Loss_D: 0.0000  Loss_G: 38.5487 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1450/1583]        Loss_D: 0.0000  Loss_G: 38.0378 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1500/1583]        Loss_D: 0.0000  Loss_G: 38.1258 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[0/5][1550/1583]        Loss_D: 0.0000  Loss_G: 38.3473 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][0/1583]   Loss_D: 0.0000  Loss_G: 37.8825 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][50/1583]  Loss_D: 0.0000  Loss_G: 38.2248 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][100/1583] Loss_D: 0.0000  Loss_G: 38.2204 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][150/1583] Loss_D: 0.0000  Loss_G: 38.0967 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][200/1583] Loss_D: 0.0000  Loss_G: 38.0669 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][250/1583] Loss_D: 0.0000  Loss_G: 37.4736 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][300/1583] Loss_D: 0.0000  Loss_G: 37.0766 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][350/1583] Loss_D: 0.0000  Loss_G: 36.6055 D(x): 1.0000    D(G(z)): 0.0000 / 0.0000
+[1/5][400/1583] Loss_D: 2.5403  Loss_G: 12.8251 D(x): 0.8672    D(G(z)): 0.8088 / 0.0000
+[1/5][450/1583] Loss_D: 1.3779  Loss_G: 2.0631  D(x): 0.5850    D(G(z)): 0.4734 / 0.1820
+[1/5][500/1583] Loss_D: 1.0299  Loss_G: 2.4048  D(x): 0.5165    D(G(z)): 0.1698 / 0.1333
+[1/5][550/1583] Loss_D: 1.4922  Loss_G: 3.2383  D(x): 0.5854    D(G(z)): 0.4773 / 0.0888
+[1/5][600/1583] Loss_D: 0.9283  Loss_G: 1.8533  D(x): 0.6231    D(G(z)): 0.2962 / 0.2153
+[1/5][650/1583] Loss_D: 0.8065  Loss_G: 2.9684  D(x): 0.6684    D(G(z)): 0.2624 / 0.0715
+[1/5][700/1583] Loss_D: 0.6909  Loss_G: 2.8746  D(x): 0.7910    D(G(z)): 0.3013 / 0.0819
+[1/5][750/1583] Loss_D: 1.3242  Loss_G: 2.5236  D(x): 0.7183    D(G(z)): 0.5300 / 0.1090
+[1/5][800/1583] Loss_D: 1.0871  Loss_G: 2.0203  D(x): 0.4993    D(G(z)): 0.1716 / 0.1727
+[1/5][850/1583] Loss_D: 1.7561  Loss_G: 4.9674  D(x): 0.8542    D(G(z)): 0.7052 / 0.0133
+[1/5][900/1583] Loss_D: 0.8294  Loss_G: 2.5024  D(x): 0.6913    D(G(z)): 0.2910 / 0.1178
+[1/5][950/1583] Loss_D: 0.9390  Loss_G: 2.2087  D(x): 0.5508    D(G(z)): 0.1638 / 0.1617
+[1/5][1000/1583]        Loss_D: 1.8202  Loss_G: 1.2178  D(x): 0.2535    D(G(z)): 0.0684 / 0.3527
+[1/5][1050/1583]        Loss_D: 0.9816  Loss_G: 3.7976  D(x): 0.7310    D(G(z)): 0.3944 / 0.0343
+[1/5][1100/1583]        Loss_D: 0.9798  Loss_G: 2.0990  D(x): 0.5963    D(G(z)): 0.2328 / 0.1660
+[1/5][1150/1583]        Loss_D: 0.7173  Loss_G: 2.7879  D(x): 0.6385    D(G(z)): 0.1424 / 0.1057
+[1/5][1200/1583]        Loss_D: 0.8903  Loss_G: 2.3547  D(x): 0.7371    D(G(z)): 0.3589 / 0.1251
+[1/5][1250/1583]        Loss_D: 0.6137  Loss_G: 2.1031  D(x): 0.7491    D(G(z)): 0.2062 / 0.1588
+[1/5][1300/1583]        Loss_D: 1.0179  Loss_G: 5.0280  D(x): 0.7465    D(G(z)): 0.4325 / 0.0129
+[1/5][1350/1583]        Loss_D: 0.7131  Loss_G: 3.6670  D(x): 0.7931    D(G(z)): 0.3270 / 0.0398
+[1/5][1400/1583]        Loss_D: 1.0736  Loss_G: 4.2392  D(x): 0.8172    D(G(z)): 0.4861 / 0.0351
+[1/5][1450/1583]        Loss_D: 0.6050  Loss_G: 2.6052  D(x): 0.7590    D(G(z)): 0.2240 / 0.1019
+[1/5][1500/1583]        Loss_D: 1.3370  Loss_G: 1.9105  D(x): 0.3786    D(G(z)): 0.0405 / 0.2013
+[1/5][1550/1583]        Loss_D: 0.6698  Loss_G: 2.3040  D(x): 0.6444    D(G(z)): 0.1071 / 0.1372
+[2/5][0/1583]   Loss_D: 1.3043  Loss_G: 2.1213  D(x): 0.4073    D(G(z)): 0.0423 / 0.1682
+[2/5][50/1583]  Loss_D: 1.3636  Loss_G: 3.4322  D(x): 0.7959    D(G(z)): 0.6129 / 0.0510
+[2/5][100/1583] Loss_D: 0.8047  Loss_G: 3.4262  D(x): 0.9067    D(G(z)): 0.4371 / 0.0536
+[2/5][150/1583] Loss_D: 0.7103  Loss_G: 2.4974  D(x): 0.6212    D(G(z)): 0.0862 / 0.1273
+[2/5][200/1583] Loss_D: 0.8335  Loss_G: 2.9292  D(x): 0.7340    D(G(z)): 0.3396 / 0.0772
+[2/5][250/1583] Loss_D: 1.4766  Loss_G: 1.4532  D(x): 0.3469    D(G(z)): 0.0140 / 0.3162
+[2/5][300/1583] Loss_D: 0.8063  Loss_G: 2.5363  D(x): 0.6939    D(G(z)): 0.2714 / 0.1160
+[2/5][350/1583] Loss_D: 2.4655  Loss_G: 1.7710  D(x): 0.1625    D(G(z)): 0.0049 / 0.2345
+[2/5][400/1583] Loss_D: 0.9256  Loss_G: 1.4698  D(x): 0.5101    D(G(z)): 0.1192 / 0.2926
+[2/5][450/1583] Loss_D: 0.7932  Loss_G: 3.1267  D(x): 0.8831    D(G(z)): 0.4330 / 0.0657
+[2/5][500/1583] Loss_D: 1.0515  Loss_G: 1.8415  D(x): 0.4922    D(G(z)): 0.0817 / 0.2372
+[2/5][550/1583] Loss_D: 1.1575  Loss_G: 2.3904  D(x): 0.8286    D(G(z)): 0.5113 / 0.1394
+[2/5][600/1583] Loss_D: 0.8667  Loss_G: 4.0253  D(x): 0.8805    D(G(z)): 0.4499 / 0.0329
+[2/5][650/1583] Loss_D: 0.9943  Loss_G: 3.0625  D(x): 0.8224    D(G(z)): 0.4700 / 0.0678
+[2/5][700/1583] Loss_D: 0.7634  Loss_G: 3.7297  D(x): 0.7855    D(G(z)): 0.3507 / 0.0369
+[2/5][750/1583] Loss_D: 0.6280  Loss_G: 2.7439  D(x): 0.7664    D(G(z)): 0.2518 / 0.0897
+[2/5][800/1583] Loss_D: 0.9011  Loss_G: 1.3725  D(x): 0.5495    D(G(z)): 0.1341 / 0.3033
+[2/5][850/1583] Loss_D: 0.4595  Loss_G: 3.0410  D(x): 0.8186    D(G(z)): 0.1808 / 0.0721
+[2/5][900/1583] Loss_D: 0.8331  Loss_G: 1.3725  D(x): 0.5696    D(G(z)): 0.1528 / 0.3128
+[2/5][950/1583] Loss_D: 1.2701  Loss_G: 4.4360  D(x): 0.9365    D(G(z)): 0.6218 / 0.0226
+[2/5][1000/1583]        Loss_D: 0.5165  Loss_G: 3.2817  D(x): 0.7543    D(G(z)): 0.1460 / 0.0651
+[2/5][1050/1583]        Loss_D: 0.5562  Loss_G: 2.5533  D(x): 0.8034    D(G(z)): 0.2385 / 0.1047
+[2/5][1100/1583]        Loss_D: 0.9842  Loss_G: 3.5247  D(x): 0.7936    D(G(z)): 0.4511 / 0.0446
+[2/5][1150/1583]        Loss_D: 0.6793  Loss_G: 3.2208  D(x): 0.8038    D(G(z)): 0.3133 / 0.0571
+[2/5][1200/1583]        Loss_D: 1.8110  Loss_G: 5.4461  D(x): 0.8337    D(G(z)): 0.7185 / 0.0090
+[2/5][1250/1583]        Loss_D: 0.6310  Loss_G: 2.8066  D(x): 0.7859    D(G(z)): 0.2644 / 0.0822
+[2/5][1300/1583]        Loss_D: 0.6009  Loss_G: 1.6727  D(x): 0.6759    D(G(z)): 0.1297 / 0.2422
+[2/5][1350/1583]        Loss_D: 0.5156  Loss_G: 3.5893  D(x): 0.8552    D(G(z)): 0.2686 / 0.0385
+[2/5][1400/1583]        Loss_D: 0.7672  Loss_G: 1.0321  D(x): 0.5755    D(G(z)): 0.0938 / 0.4195
+[2/5][1450/1583]        Loss_D: 0.6583  Loss_G: 2.0611  D(x): 0.6727    D(G(z)): 0.1675 / 0.1591
+[2/5][1500/1583]        Loss_D: 1.2956  Loss_G: 3.7047  D(x): 0.9324    D(G(z)): 0.6345 / 0.0479
+[2/5][1550/1583]        Loss_D: 0.8555  Loss_G: 3.0119  D(x): 0.8243    D(G(z)): 0.4237 / 0.0696
+[3/5][0/1583]   Loss_D: 0.7295  Loss_G: 2.0605  D(x): 0.7051    D(G(z)): 0.2466 / 0.1671
+[3/5][50/1583]  Loss_D: 0.6551  Loss_G: 3.0267  D(x): 0.8502    D(G(z)): 0.3419 / 0.0676
+[3/5][100/1583] Loss_D: 0.9209  Loss_G: 1.3069  D(x): 0.5238    D(G(z)): 0.1032 / 0.3367
+[3/5][150/1583] Loss_D: 0.6289  Loss_G: 1.8684  D(x): 0.6835    D(G(z)): 0.1555 / 0.1994
+[3/5][200/1583] Loss_D: 1.0600  Loss_G: 1.3343  D(x): 0.4512    D(G(z)): 0.0575 / 0.3259
+[3/5][250/1583] Loss_D: 0.7251  Loss_G: 1.7242  D(x): 0.6128    D(G(z)): 0.1340 / 0.2269
+[3/5][300/1583] Loss_D: 0.7097  Loss_G: 1.7072  D(x): 0.7143    D(G(z)): 0.2623 / 0.2238
+[3/5][350/1583] Loss_D: 0.8045  Loss_G: 2.7455  D(x): 0.7958    D(G(z)): 0.3825 / 0.0901
+[3/5][400/1583] Loss_D: 0.8351  Loss_G: 1.6116  D(x): 0.5394    D(G(z)): 0.1106 / 0.2425
+[3/5][450/1583] Loss_D: 1.4829  Loss_G: 0.5346  D(x): 0.3523    D(G(z)): 0.0987 / 0.6289
+[3/5][500/1583] Loss_D: 0.6972  Loss_G: 2.1915  D(x): 0.7656    D(G(z)): 0.2987 / 0.1450
+[3/5][550/1583] Loss_D: 0.7369  Loss_G: 1.7250  D(x): 0.6402    D(G(z)): 0.1899 / 0.2224
+[3/5][600/1583] Loss_D: 0.8170  Loss_G: 2.6806  D(x): 0.7843    D(G(z)): 0.3880 / 0.0929
+[3/5][650/1583] Loss_D: 1.1531  Loss_G: 0.9077  D(x): 0.4340    D(G(z)): 0.1224 / 0.4550
+[3/5][700/1583] Loss_D: 0.8751  Loss_G: 1.0230  D(x): 0.5587    D(G(z)): 0.1808 / 0.4021
+[3/5][750/1583] Loss_D: 0.7169  Loss_G: 2.1268  D(x): 0.6690    D(G(z)): 0.2219 / 0.1588
+[3/5][800/1583] Loss_D: 0.9772  Loss_G: 3.1279  D(x): 0.8451    D(G(z)): 0.5081 / 0.0632
+[3/5][850/1583] Loss_D: 0.6574  Loss_G: 1.9605  D(x): 0.7010    D(G(z)): 0.2120 / 0.1775
+[3/5][900/1583] Loss_D: 0.6153  Loss_G: 2.8981  D(x): 0.8399    D(G(z)): 0.3197 / 0.0697
+[3/5][950/1583] Loss_D: 0.9155  Loss_G: 1.1091  D(x): 0.5482    D(G(z)): 0.1730 / 0.3799
+[3/5][1000/1583]        Loss_D: 0.9873  Loss_G: 3.9150  D(x): 0.8838    D(G(z)): 0.5423 / 0.0284
+[3/5][1050/1583]        Loss_D: 0.8369  Loss_G: 2.1366  D(x): 0.8039    D(G(z)): 0.4067 / 0.1533
+[3/5][1100/1583]        Loss_D: 0.9522  Loss_G: 3.4744  D(x): 0.8732    D(G(z)): 0.5049 / 0.0412
+[3/5][1150/1583]        Loss_D: 0.6371  Loss_G: 2.1278  D(x): 0.7648    D(G(z)): 0.2672 / 0.1424
+[3/5][1200/1583]        Loss_D: 1.0349  Loss_G: 2.7710  D(x): 0.7604    D(G(z)): 0.4512 / 0.0920
+[3/5][1250/1583]        Loss_D: 0.9350  Loss_G: 2.7946  D(x): 0.8007    D(G(z)): 0.4649 / 0.0805
+[3/5][1300/1583]        Loss_D: 0.7655  Loss_G: 2.7838  D(x): 0.7965    D(G(z)): 0.3724 / 0.0803
+[3/5][1350/1583]        Loss_D: 0.7623  Loss_G: 2.2647  D(x): 0.7979    D(G(z)): 0.3641 / 0.1414
+[3/5][1400/1583]        Loss_D: 0.9361  Loss_G: 3.1341  D(x): 0.8601    D(G(z)): 0.4938 / 0.0628
+[3/5][1450/1583]        Loss_D: 0.7966  Loss_G: 3.1544  D(x): 0.8568    D(G(z)): 0.4211 / 0.0623
+[3/5][1500/1583]        Loss_D: 1.0768  Loss_G: 3.8304  D(x): 0.8364    D(G(z)): 0.5348 / 0.0353
+[3/5][1550/1583]        Loss_D: 0.8528  Loss_G: 3.3978  D(x): 0.8824    D(G(z)): 0.4788 / 0.0491
+[4/5][0/1583]   Loss_D: 0.8361  Loss_G: 1.9086  D(x): 0.6756    D(G(z)): 0.2975 / 0.1872
+[4/5][50/1583]  Loss_D: 0.7666  Loss_G: 2.3647  D(x): 0.7698    D(G(z)): 0.3487 / 0.1232
+[4/5][100/1583] Loss_D: 0.7536  Loss_G: 1.6556  D(x): 0.6398    D(G(z)): 0.2084 / 0.2423
+[4/5][150/1583] Loss_D: 0.8390  Loss_G: 1.7737  D(x): 0.6400    D(G(z)): 0.2714 / 0.2181
+[4/5][200/1583] Loss_D: 0.8608  Loss_G: 2.5683  D(x): 0.7898    D(G(z)): 0.4126 / 0.1009
+[4/5][250/1583] Loss_D: 0.8651  Loss_G: 1.8416  D(x): 0.6033    D(G(z)): 0.2312 / 0.1954
+[4/5][300/1583] Loss_D: 0.8790  Loss_G: 1.2224  D(x): 0.5099    D(G(z)): 0.0960 / 0.3501
+[4/5][350/1583] Loss_D: 2.0809  Loss_G: 0.5006  D(x): 0.1907    D(G(z)): 0.0415 / 0.6501
+[4/5][400/1583] Loss_D: 1.0178  Loss_G: 2.6912  D(x): 0.7134    D(G(z)): 0.4299 / 0.0977
+[4/5][450/1583] Loss_D: 0.7773  Loss_G: 1.5577  D(x): 0.6859    D(G(z)): 0.2705 / 0.2527
+[4/5][500/1583] Loss_D: 1.0217  Loss_G: 2.8968  D(x): 0.8227    D(G(z)): 0.5103 / 0.0755
+[4/5][550/1583] Loss_D: 0.6428  Loss_G: 2.8346  D(x): 0.8293    D(G(z)): 0.3290 / 0.0793
+[4/5][600/1583] Loss_D: 1.7683  Loss_G: 4.1924  D(x): 0.9236    D(G(z)): 0.7656 / 0.0211
+[4/5][650/1583] Loss_D: 0.8692  Loss_G: 2.2491  D(x): 0.7046    D(G(z)): 0.3386 / 0.1336
+[4/5][700/1583] Loss_D: 0.8933  Loss_G: 1.5814  D(x): 0.6256    D(G(z)): 0.2963 / 0.2476
+[4/5][750/1583] Loss_D: 1.2154  Loss_G: 2.6798  D(x): 0.8082    D(G(z)): 0.5792 / 0.0862
+[4/5][800/1583] Loss_D: 0.7252  Loss_G: 1.6059  D(x): 0.6257    D(G(z)): 0.1717 / 0.2486
+[4/5][850/1583] Loss_D: 0.6888  Loss_G: 2.4141  D(x): 0.7470    D(G(z)): 0.2786 / 0.1207
+[4/5][900/1583] Loss_D: 1.0490  Loss_G: 1.1737  D(x): 0.4731    D(G(z)): 0.1746 / 0.3528
+[4/5][950/1583] Loss_D: 1.1517  Loss_G: 0.5954  D(x): 0.4083    D(G(z)): 0.0727 / 0.5876
+[4/5][1000/1583]        Loss_D: 0.7451  Loss_G: 2.1440  D(x): 0.7385    D(G(z)): 0.3118 / 0.1455
+[4/5][1050/1583]        Loss_D: 1.2439  Loss_G: 0.8178  D(x): 0.3806    D(G(z)): 0.0852 / 0.4825
+[4/5][1100/1583]        Loss_D: 0.8468  Loss_G: 3.3432  D(x): 0.8220    D(G(z)): 0.4289 / 0.0484
+[4/5][1150/1583]        Loss_D: 0.9824  Loss_G: 0.8542  D(x): 0.4712    D(G(z)): 0.1120 / 0.4808
+[4/5][1200/1583]        Loss_D: 1.1658  Loss_G: 3.3930  D(x): 0.8771    D(G(z)): 0.5939 / 0.0450
+[4/5][1250/1583]        Loss_D: 0.8152  Loss_G: 1.3158  D(x): 0.5988    D(G(z)): 0.1721 / 0.3111
+[4/5][1300/1583]        Loss_D: 0.7013  Loss_G: 2.0752  D(x): 0.6751    D(G(z)): 0.2173 / 0.1596
+[4/5][1350/1583]        Loss_D: 0.8809  Loss_G: 3.0340  D(x): 0.8292    D(G(z)): 0.4574 / 0.0636
+[4/5][1400/1583]        Loss_D: 0.7911  Loss_G: 2.7713  D(x): 0.7982    D(G(z)): 0.3830 / 0.0829
+[4/5][1450/1583]        Loss_D: 1.0299  Loss_G: 2.8774  D(x): 0.7987    D(G(z)): 0.4941 / 0.0761
+[4/5][1500/1583]        Loss_D: 0.8572  Loss_G: 2.5340  D(x): 0.7273    D(G(z)): 0.3717 / 0.1009
+[4/5][1550/1583]        Loss_D: 0.8135  Loss_G: 1.6428  D(x): 0.5799    D(G(z)): 0.1693 / 0.2267
+
+```
+
+## 结果
+
+最后，让我们看看我们是如何做到的。 在这里，我们将看三个不同的结果。 首先，我们将了解`D`和`G`的损失在训练过程中如何变化。 其次，我们将在每个周期将`G`的输出显示为`fixed_noise`批量。 第三，我们将查看一批真实数据以及来自`G`的一批伪数据。
+
+**损失与训练迭代**
+
+下面是`D&G`的损失与训练迭代的关系图。
+
+```py
+plt.figure(figsize=(10,5))
+plt.title("Generator and Discriminator Loss During Training")
+plt.plot(G_losses,label="G")
+plt.plot(D_losses,label="D")
+plt.xlabel("iterations")
+plt.ylabel("Loss")
+plt.legend()
+plt.show()
+
+```
+
+![../_img/sphx_glr_dcgan_faces_tutorial_002.png](img/097cd68a7de6371c697afbe4230ef328.png)
+
+**可视化`G`的进度**
+
+请记住，在每次训练之后，我们如何将生成器的输出保存为`fixed_noise`批量。 现在，我们可以用动画形象化`G`的训练进度。 按下播放按钮开始动画。
+
+```py
+#%%capture
+fig = plt.figure(figsize=(8,8))
+plt.axis("off")
+ims = [[plt.imshow(np.transpose(i,(1,2,0)), animated=True)] for i in img_list]
+ani = animation.ArtistAnimation(fig, ims, interval=1000, repeat_delay=1000, blit=True)
+
+HTML(ani.to_jshtml())
+
+```
+
+![../_img/sphx_glr_dcgan_faces_tutorial_003.png](img/2a31b55ef7bfff0c24c35bc635656078.png)
+
+**真实图像和伪图像**
+
+最后，让我们并排查看一些真实图像和伪图像。
+
+```py
+# Grab a batch of real images from the dataloader
+real_batch = next(iter(dataloader))
+
+# Plot the real images
+plt.figure(figsize=(15,15))
+plt.subplot(1,2,1)
+plt.axis("off")
+plt.title("Real Images")
+plt.imshow(np.transpose(vutils.make_grid(real_batch[0].to(device)[:64], padding=5, normalize=True).cpu(),(1,2,0)))
+
+# Plot the fake images from the last epoch
+plt.subplot(1,2,2)
+plt.axis("off")
+plt.title("Fake Images")
+plt.imshow(np.transpose(img_list[-1],(1,2,0)))
+plt.show()
+
+```
+
+![../_img/sphx_glr_dcgan_faces_tutorial_004.png](img/c0f8a413c1f6dd23bb137d8adff1adda.png)
+
+## 下一步去哪里
+
+我们已经走到了旅程的尽头，但是您可以从这里到达几个地方。 你可以：
+
+*   训练更长的时间，看看效果如何
+*   修改此模型以采用其他数据集，并可能更改图像的大小和模型架构
+*   查看其他一些不错的 GAN 项目
+*   [创建可生成音乐的 GAN](https://deepmind.com/blog/wavenet-generative-model-raw-audio/)
+
+**脚本的总运行时间**：（29 分钟 17.480 秒）
+
+[下载 Python 源码：`dcgan_faces_tutorial.py`](../_downloads/dc0e6f475c6735eb8d233374f8f462eb/dcgan_faces_tutorial.py)
+
+[下载 Jupyter 笔记本：`dcgan_faces_tutorial.ipynb`](../_downloads/e9c8374ecc202120dc94db26bf08a00f/dcgan_faces_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/23.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/23.md
new file mode 100644
index 00000000..562a9f26
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/23.md
@@ -0,0 +1 @@
+# 音频
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/24.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/24.md
new file mode 100644
index 00000000..96fec4a3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/24.md
@@ -0,0 +1,499 @@
+# 音频 I/O 和`torchaudio`的预处理
+
+> 原文：<https://pytorch.org/tutorials/beginner/audio_preprocessing_tutorial.html>
+
+PyTorch 是一个开源深度学习平台，提供了从研究原型到具有 GPU 支持的生产部署的无缝路径。
+
+解决机器学习问题的重要工作是准备数据。 `torchaudio`充分利用了 PyTorch 的 GPU 支持，并提供了许多工具来简化数据加载并使其更具可读性。 在本教程中，我们将看到如何从简单的数据集中加载和预处理数据。 请访问[音频 I/O 和`torchaudio`](https://pytorch.org/tutorials/beginner/audio_preprocessing_tutorial.html)的预处理，以了解更多信息。
+
+对于本教程，请确保已安装`matplotlib`包，以便于查看。
+
+```py
+# Uncomment the following line to run in Google Colab
+# !pip install torchaudio
+import torch
+import torchaudio
+import requests
+import matplotlib.pyplot as plt
+
+```
+
+## 打开文件
+
+`torchaudio`还支持以 wav 和 mp3 格式加载声音文件。 我们将波形称为原始音频信号。
+
+```py
+url = "https://pytorch.org/tutorials/_static/img/steam-train-whistle-daniel_simon-converted-from-mp3.wav"
+r = requests.get(url)
+
+with open('steam-train-whistle-daniel_simon-converted-from-mp3.wav', 'wb') as f:
+    f.write(r.content)
+
+filename = "steam-train-whistle-daniel_simon-converted-from-mp3.wav"
+waveform, sample_rate = torchaudio.load(filename)
+
+print("Shape of waveform: {}".format(waveform.size()))
+print("Sample rate of waveform: {}".format(sample_rate))
+
+plt.figure()
+plt.plot(waveform.t().numpy())
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_001.png](img/90c999fe7ccda5e8a8fb0f86000d887f.png)
+
+出：
+
+```py
+Shape of waveform: torch.Size([2, 276858])
+Sample rate of waveform: 44100
+
+```
+
+在`torchaudio`中加载文件时，可以选择指定后端以通过`torchaudio.set_audio_backend`使用 [SoX](https://pypi.org/project/sox/) 或 [SoundFile](https://pypi.org/project/SoundFile/) 。 这些后端在需要时会延迟加载。
+
+`torchaudio`还使 JIT 编译对于函数是可选的，并在可能的情况下使用`nn.Module`。
+
+## 转换
+
+`torchaudio`支持不断增长的[转换列表](https://pytorch.org/audio/stable/transforms.html)。
+
+*   `Resample`：将波形重采样为其他采样率。
+*   `Spectrogram`：从波形创建频谱图。
+*   `GriffinLim`：使用 Griffin-Lim 变换从线性比例幅度谱图计算波形。
+*   `ComputeDeltas`：计算张量（通常是声谱图）的增量系数。
+*   `ComplexNorm`：计算复数张量的范数。
+*   `MelScale`：使用转换矩阵将正常 STFT 转换为 Mel 频率 STFT。
+*   `AmplitudeToDB`：这将频谱图从功率/振幅标度变为分贝标度。
+*   `MFCC`：从波形创建梅尔频率倒谱系数。
+*   `MelSpectrogram`：使用 PyTorch 中的 STFT 特征从波形创建 MEL 频谱图。
+*   `MuLawEncoding`：基于 mu-law 压扩对波形进行编码。
+*   `MuLawDecoding`：解码 mu-law 编码波形。
+*   `TimeStretch`：在不更改给定速率的音调的情况下，及时拉伸频谱图。
+*   `FrequencyMasking`：在频域中对频谱图应用屏蔽。
+*   `TimeMasking`：在时域中对频谱图应用屏蔽。
+
+每个变换都支持批量：您可以对单个原始音频信号或频谱图或许多相同形状的信号执行变换。
+
+由于所有变换都是`nn.Modules`或`jit.ScriptModules`，因此它们可以随时用作神经网络的一部分。
+
+首先，我们可以以对数刻度查看频谱图的对数。
+
+```py
+specgram = torchaudio.transforms.Spectrogram()(waveform)
+
+print("Shape of spectrogram: {}".format(specgram.size()))
+
+plt.figure()
+plt.imshow(specgram.log2()[0,:,:].numpy(), cmap='gray')
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_002.png](img/e21cb5ec883a2e5dceeff4064add3acd.png)
+
+出：
+
+```py
+Shape of spectrogram: torch.Size([2, 201, 1385])
+
+```
+
+或者我们可以以对数刻度查看梅尔光谱图。
+
+```py
+specgram = torchaudio.transforms.MelSpectrogram()(waveform)
+
+print("Shape of spectrogram: {}".format(specgram.size()))
+
+plt.figure()
+p = plt.imshow(specgram.log2()[0,:,:].detach().numpy(), cmap='gray')
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_003.png](img/4262b5e808a503bf338ce30fb37e6db9.png)
+
+出：
+
+```py
+Shape of spectrogram: torch.Size([2, 128, 1385])
+
+```
+
+我们可以一次对一个通道重新采样波形。
+
+```py
+new_sample_rate = sample_rate/10
+
+# Since Resample applies to a single channel, we resample first channel here
+channel = 0
+transformed = torchaudio.transforms.Resample(sample_rate, new_sample_rate)(waveform[channel,:].view(1,-1))
+
+print("Shape of transformed waveform: {}".format(transformed.size()))
+
+plt.figure()
+plt.plot(transformed[0,:].numpy())
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_004.png](img/1af46e992c93618e7ba22e311f063d1b.png)
+
+出：
+
+```py
+Shape of transformed waveform: torch.Size([1, 27686])
+
+```
+
+作为变换的另一个示例，我们可以基于 Mu-Law 编码对信号进行编码。 但是要这样做，我们需要信号在 -1 和 1 之间。由于张量只是常规的 PyTorch 张量，因此我们可以在其上应用标准运算符。
+
+```py
+# Let's check if the tensor is in the interval [-1,1]
+print("Min of waveform: {}\nMax of waveform: {}\nMean of waveform: {}".format(waveform.min(), waveform.max(), waveform.mean()))
+
+```
+
+出：
+
+```py
+Min of waveform: -0.572845458984375
+Max of waveform: 0.575958251953125
+Mean of waveform: 9.293758921558037e-05
+
+```
+
+由于波形已经在 -1 和 1 之间，因此我们不需要对其进行归一化。
+
+```py
+def normalize(tensor):
+    # Subtract the mean, and scale to the interval [-1,1]
+    tensor_minusmean = tensor - tensor.mean()
+    return tensor_minusmean/tensor_minusmean.abs().max()
+
+# Let's normalize to the full interval [-1,1]
+# waveform = normalize(waveform)
+
+```
+
+让我们对波形进行编码。
+
+```py
+transformed = torchaudio.transforms.MuLawEncoding()(waveform)
+
+print("Shape of transformed waveform: {}".format(transformed.size()))
+
+plt.figure()
+plt.plot(transformed[0,:].numpy())
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_005.png](img/9ae42af4b6629f7493bc1bc150af6355.png)
+
+出：
+
+```py
+Shape of transformed waveform: torch.Size([2, 276858])
+
+```
+
+现在解码。
+
+```py
+reconstructed = torchaudio.transforms.MuLawDecoding()(transformed)
+
+print("Shape of recovered waveform: {}".format(reconstructed.size()))
+
+plt.figure()
+plt.plot(reconstructed[0,:].numpy())
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_006.png](img/97b434ffec8449a196f698b23197df05.png)
+
+出：
+
+```py
+Shape of recovered waveform: torch.Size([2, 276858])
+
+```
+
+我们最终可以将原始波形与其重构版本进行比较。
+
+```py
+# Compute median relative difference
+err = ((waveform-reconstructed).abs() / waveform.abs()).median()
+
+print("Median relative difference between original and MuLaw reconstucted signals: {:.2%}".format(err))
+
+```
+
+出：
+
+```py
+Median relative difference between original and MuLaw reconstucted signals: 1.28%
+
+```
+
+## 函数
+
+上面看到的转换依赖于较低级别的无状态函数进行计算。 这些函数在`torchaudio.functional`下可用。 完整列表在[此处](https://pytorch.org/audio/functional.html)，包括：
+
+*   `istft`：短期傅立叶逆变换。
+*   `gain`：对整个波形进行放大或衰减。
+*   `dither`：增加以特定位深度存储的音频的动态范围。
+*   `compute_deltas`：计算张量的增量系数。
+*   `equalizer_biquad`：设计双二阶峰值均衡器过滤器并执行滤波。
+*   `lowpass_biquad`：设计双二阶低通过滤器并执行滤波。
+*   `highpass_biquad`：设计双二阶高通过滤器并执行滤波。
+
+例如，让我们尝试`mu_law_encoding`函数：
+
+```py
+mu_law_encoding_waveform = torchaudio.functional.mu_law_encoding(waveform, quantization_channels=256)
+
+print("Shape of transformed waveform: {}".format(mu_law_encoding_waveform.size()))
+
+plt.figure()
+plt.plot(mu_law_encoding_waveform[0,:].numpy())
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_007.png](img/62754b628ac962d094ed602f9067fcf2.png)
+
+出：
+
+```py
+Shape of transformed waveform: torch.Size([2, 276858])
+
+```
+
+您可以看到`torchaudio.functional.mu_law_encoding`的输出与`torchaudio.transforms.MuLawEncoding`的输出相同。
+
+现在让我们尝试其他一些函数，并可视化其输出。 通过我们的频谱图，我们可以计算出其增量：
+
+```py
+computed = torchaudio.functional.compute_deltas(specgram.contiguous(), win_length=3)
+print("Shape of computed deltas: {}".format(computed.shape))
+
+plt.figure()
+plt.imshow(computed.log2()[0,:,:].detach().numpy(), cmap='gray')
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_008.png](img/45cf97ab2bd8f85e41c99cd60c565619.png)
+
+出：
+
+```py
+Shape of computed deltas: torch.Size([2, 128, 1385])
+
+```
+
+我们可以获取原始波形并对其应用不同的效果。
+
+```py
+gain_waveform = torchaudio.functional.gain(waveform, gain_db=5.0)
+print("Min of gain_waveform: {}\nMax of gain_waveform: {}\nMean of gain_waveform: {}".format(gain_waveform.min(), gain_waveform.max(), gain_waveform.mean()))
+
+dither_waveform = torchaudio.functional.dither(waveform)
+print("Min of dither_waveform: {}\nMax of dither_waveform: {}\nMean of dither_waveform: {}".format(dither_waveform.min(), dither_waveform.max(), dither_waveform.mean()))
+
+```
+
+出：
+
+```py
+Min of gain_waveform: -1.0186792612075806
+Max of gain_waveform: 1.024214744567871
+Mean of gain_waveform: 0.00016526899707969278
+Min of dither_waveform: -0.572784423828125
+Max of dither_waveform: 0.575927734375
+Mean of dither_waveform: 0.00010744280007202178
+
+```
+
+`torchaudio.functional`中函数的另一个示例是将过滤器应用于我们的波形。 将低通双二阶过滤器应用于我们的波形，将输出修改了频率信号的新波形。
+
+```py
+lowpass_waveform = torchaudio.functional.lowpass_biquad(waveform, sample_rate, cutoff_freq=3000)
+
+print("Min of lowpass_waveform: {}\nMax of lowpass_waveform: {}\nMean of lowpass_waveform: {}".format(lowpass_waveform.min(), lowpass_waveform.max(), lowpass_waveform.mean()))
+
+plt.figure()
+plt.plot(lowpass_waveform.t().numpy())
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_009.png](img/063cdb1f0b70bc4c83494b9819c6a3f5.png)
+
+出：
+
+```py
+Min of lowpass_waveform: -0.5595059990882874
+Max of lowpass_waveform: 0.5595012307167053
+Mean of lowpass_waveform: 9.293757466366515e-05
+
+```
+
+我们还可以使用高通双二阶过滤器可视化波形。
+
+```py
+highpass_waveform = torchaudio.functional.highpass_biquad(waveform, sample_rate, cutoff_freq=2000)
+
+print("Min of highpass_waveform: {}\nMax of highpass_waveform: {}\nMean of highpass_waveform: {}".format(highpass_waveform.min(), highpass_waveform.max(), highpass_waveform.mean()))
+
+plt.figure()
+plt.plot(highpass_waveform.t().numpy())
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_010.png](img/a2eafa804c5b1d5c8564675a255507b2.png)
+
+出：
+
+```py
+Min of highpass_waveform: -0.11269102990627289
+Max of highpass_waveform: 0.10451897978782654
+Mean of highpass_waveform: 1.8138147234170177e-11
+
+```
+
+## 从 Kaldi 迁移到`torchaudio`
+
+用户可能熟悉 [Kaldi](http://github.com/kaldi-asr/kaldi) （一种用于语音识别的工具包）。 `torchaudio`提供与`torchaudio.kaldi_io`中的兼容性。 实际上，它可以通过以下方式从 kaldi scp 或 ark 文件或流中读取：
+
+*   `read_vec_int_ark`
+*   `read_vec_flt_scp`
+*   `read_vec_flt_arkfile`/流
+*   `read_mat_scp`
+*   `read_mat_ark`
+
+`torchaudio`为`spectrogram`，`fbank`，`mfcc`和 Kaldi [提供兼容的转换](#id2)。 `resample_waveform`受益于 GPU 支持，有关更多信息，请参见[此处](compliance.kaldi.html)。
+
+```py
+n_fft = 400.0
+frame_length = n_fft / sample_rate * 1000.0
+frame_shift = frame_length / 2.0
+
+params = {
+    "channel": 0,
+    "dither": 0.0,
+    "window_type": "hanning",
+    "frame_length": frame_length,
+    "frame_shift": frame_shift,
+    "remove_dc_offset": False,
+    "round_to_power_of_two": False,
+    "sample_frequency": sample_rate,
+}
+
+specgram = torchaudio.compliance.kaldi.spectrogram(waveform, **params)
+
+print("Shape of spectrogram: {}".format(specgram.size()))
+
+plt.figure()
+plt.imshow(specgram.t().numpy(), cmap='gray')
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_011.png](img/8879aed8539537d699fb0d155b55b403.png)
+
+出：
+
+```py
+Shape of spectrogram: torch.Size([1383, 201])
+
+```
+
+我们还支持根据波形计算过滤器组特征，以匹配 Kaldi 的实现。
+
+```py
+fbank = torchaudio.compliance.kaldi.fbank(waveform, **params)
+
+print("Shape of fbank: {}".format(fbank.size()))
+
+plt.figure()
+plt.imshow(fbank.t().numpy(), cmap='gray')
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_012.png](img/d0d82c063f83a0ba4bb8df4dcec57138.png)
+
+出：
+
+```py
+Shape of fbank: torch.Size([1383, 23])
+
+```
+
+您可以从原始音频信号创建梅尔频率倒谱系数，这与 Kaldi 的 compute-mfcc-feats 的输入/输出相匹配。
+
+```py
+mfcc = torchaudio.compliance.kaldi.mfcc(waveform, **params)
+
+print("Shape of mfcc: {}".format(mfcc.size()))
+
+plt.figure()
+plt.imshow(mfcc.t().numpy(), cmap='gray')
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_013.png](img/8130c72979511b4b2daddcb2d909388a.png)
+
+出：
+
+```py
+Shape of mfcc: torch.Size([1383, 13])
+
+```
+
+## 可用数据集
+
+如果您不想创建自己的数据集来训练模型，则`torchaudio`提供了统一的数据集接口。 该接口支持将文件延迟加载到内存，下载和提取函数以及数据集以构建模型。
+
+当前支持的数据集`torchaudio`为：
+
+*   **VCTK**：109 位以英语为母语的母语者说的语音数据，带有各种重音（[在此处详细了解](https://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html)）。
+*   **Yesno**：一个人在希伯来语中说是或否的 60 张唱片； 每个记录长 8 个字（[在此处了解更多](https://www.openslr.org/1/)）。
+*   **Common Voice**：开源的多语言语音数据集，任何人都可以用来训练启用语音的应用（[在此处了解更多](https://voice.mozilla.org/en/datasets)）。
+*   **LibriSpeech**：阅读英语语音的大型语料库（1000 小时）（[在此处详细了解](http://www.openslr.org/12)）。
+
+```py
+yesno_data = torchaudio.datasets.YESNO('./', download=True)
+
+# A data point in Yesno is a tuple (waveform, sample_rate, labels) where labels is a list of integers with 1 for yes and 0 for no.
+
+# Pick data point number 3 to see an example of the the yesno_data:
+n = 3
+waveform, sample_rate, labels = yesno_data[n]
+
+print("Waveform: {}\nSample rate: {}\nLabels: {}".format(waveform, sample_rate, labels))
+
+plt.figure()
+plt.plot(waveform.t().numpy())
+
+```
+
+![../_img/sphx_glr_audio_preprocessing_tutorial_014.png](img/901c72128f102e0be23409cd1d103a9b.png)
+
+出：
+
+```py
+Waveform: tensor([[ 3.0518e-05,  6.1035e-05,  3.0518e-05,  ..., -1.8311e-04,
+          4.2725e-04,  6.7139e-04]])
+Sample rate: 8000
+Labels: [0, 0, 1, 0, 0, 0, 1, 0]
+
+```
+
+现在，每当您从数据集中请求声音文件时，仅当您请求声音文件时，它才会加载到内存中。 这意味着，数据集仅加载所需的项目并将其保留在内存中，并保存在内存中。
+
+## 总结
+
+我们使用示例原始音频信号或波形来说明如何使用`torchaudio`打开音频文件，以及如何对该波形进行预处理，变换和应用函数。 我们还演示了如何使用熟悉的 Kaldi 函数以及如何利用内置数据集构建模型。 鉴于`torchaudio`是基于 PyTorch 构建的，因此这些技术可以在利用 GPU 的同时，用作语音识别等更高级音频应用的构建块。
+
+**脚本的总运行时间**：（0 分钟 18.821 秒）
+
+[下载 Python 源码：`audio_preprocessing_tutorial.py`](../_downloads/5ffe15ce830e55b3a9e9c294d04ab41c/audio_preprocessing_tutorial.py)
+
+[下载 Jupyter 笔记本：`audio_preprocessing_tutorial.ipynb`](../_downloads/7303ce3181f4dbc9a50bc1ed5bb3218f/audio_preprocessing_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/25.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/25.md
new file mode 100644
index 00000000..782ae420
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/25.md
@@ -0,0 +1,456 @@
+# 使用`torchaudio`的语音命令识别
+
+> 原文：<https://pytorch.org/tutorials/intermediate/speech_command_recognition_with_torchaudio.html>
+
+本教程将向您展示如何正确设置音频数据集的格式，然后在数据集上训练/测试音频分类器网络。
+
+Colab 提供了 GPU 选项。 在菜单选项卡中，选择“运行系统”，然后选择“更改运行系统类型”。 在随后的弹出窗口中，您可以选择 GPU。 更改之后，运行时应自动重新启动（这意味着来自已执行单元的信息会消失）。
+
+首先，让我们导入常见的 Torch 包，例如[`torchaudio`](https://github.com/pytorch/audio)，可以按照网站上的说明进行安装。
+
+```py
+# Uncomment the following line to run in Google Colab
+
+# CPU:
+# !pip install torch==1.7.0+cpu torchvision==0.8.1+cpu torchaudio==0.7.0 -f https://download.pytorch.org/whl/torch_stable.html
+
+# GPU:
+# !pip install torch==1.7.0+cu101 torchvision==0.8.1+cu101 torchaudio==0.7.0 -f https://download.pytorch.org/whl/torch_stable.html
+
+# For interactive demo at the end:
+# !pip install pydub
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.optim as optim
+import torchaudio
+
+import matplotlib.pyplot as plt
+import IPython.display as ipd
+from tqdm.notebook import tqdm
+
+```
+
+让我们检查一下 CUDA GPU 是否可用，然后选择我们的设备。 在 GPU 上运行网络将大大减少训练/测试时间。
+
+```py
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(device)
+
+```
+
+## 导入数据集
+
+我们使用`torchaudio`下载并表示数据集。 在这里，我们使用 [SpeechCommands](https://arxiv.org/abs/1804.03209)，它是由不同人员说出的 35 个命令的数据集。 数据集`SPEECHCOMMANDS`是数据集的`torch.utils.data.Dataset`版本。 在此数据集中，所有音频文件的长度约为 1 秒（因此约为 16000 个时间帧）。
+
+实际的加载和格式化步骤是在访问数据点时发生的，`torchaudio`负责将音频文件转换为张量。 如果想直接加载音频文件，可以使用`torchaudio.load()`。 它返回一个包含新创建的张量的元组以及音频文件的采样频率（`SpeechCommands`为 16kHz）。
+
+回到数据集，这里我们创建一个子类，将其分为标准训练，验证和测试子集。
+
+```py
+from torchaudio.datasets import SPEECHCOMMANDS
+import os
+
+class SubsetSC(SPEECHCOMMANDS):
+    def __init__(self, subset: str = None):
+        super().__init__("./", download=True)
+
+        def load_list(filename):
+            filepath = os.path.join(self._path, filename)
+            with open(filepath) as fileobj:
+                return [os.path.join(self._path, line.strip()) for line in fileobj]
+
+        if subset == "validation":
+            self._walker = load_list("validation_list.txt")
+        elif subset == "testing":
+            self._walker = load_list("testing_list.txt")
+        elif subset == "training":
+            excludes = load_list("validation_list.txt") + load_list("testing_list.txt")
+            excludes = set(excludes)
+            self._walker = [w for w in self._walker if w not in excludes]
+
+# Create training and testing split of the data. We do not use validation in this tutorial.
+train_set = SubsetSC("training")
+test_set = SubsetSC("testing")
+
+waveform, sample_rate, label, speaker_id, utterance_number = train_set[0]
+
+```
+
+`SPEECHCOMMANDS`数据集中的数据点是一个由波形（音频信号），采样率，发声（标签），讲话者的 ID，发声数组成的元组。
+
+```py
+print("Shape of waveform: {}".format(waveform.size()))
+print("Sample rate of waveform: {}".format(sample_rate))
+
+plt.plot(waveform.t().numpy());
+
+```
+
+让我们找到数据集中可用的标签列表。
+
+```py
+labels = sorted(list(set(datapoint[2] for datapoint in train_set)))
+labels
+
+```
+
+35 个音频标签是用户说的命令。 前几个文件是人们所说的`marvin`。
+
+```py
+waveform_first, *_ = train_set[0]
+ipd.Audio(waveform_first.numpy(), rate=sample_rate)
+
+waveform_second, *_ = train_set[1]
+ipd.Audio(waveform_second.numpy(), rate=sample_rate)
+
+```
+
+最后一个文件是有人说“视觉”。
+
+```py
+waveform_last, *_ = train_set[-1]
+ipd.Audio(waveform_last.numpy(), rate=sample_rate)
+
+```
+
+## 格式化数据
+
+这是将转换应用于数据的好地方。 对于波形，我们对音频进行下采样以进行更快的处理，而不会损失太多的分类能力。
+
+我们无需在此应用其他转换。 对于某些数据集，通常必须通过沿通道维度取平均值或仅保留其中一个通道来减少通道数量（例如，从立体声到单声道）。 由于`SpeechCommands`使用单个通道进行音频，因此此处不需要。
+
+```py
+new_sample_rate = 8000
+transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=new_sample_rate)
+transformed = transform(waveform)
+
+ipd.Audio(transformed.numpy(), rate=new_sample_rate)
+
+```
+
+我们使用标签列表中的每个索引对每个单词进行编码。
+
+```py
+def label_to_index(word):
+    # Return the position of the word in labels
+    return torch.tensor(labels.index(word))
+
+def index_to_label(index):
+    # Return the word corresponding to the index in labels
+    # This is the inverse of label_to_index
+    return labels[index]
+
+word_start = "yes"
+index = label_to_index(word_start)
+word_recovered = index_to_label(index)
+
+print(word_start, "-->", index, "-->", word_recovered)
+
+```
+
+为了将由录音和语音构成的数据点列表转换为该模型的两个成批张量，我们实现了整理函数，PyTorch `DataLoader`使用了该函数，允许我们分批迭代数据集。 有关使用整理函数的更多信息，请参见[文档](https://pytorch.org/docs/stable/data.html#working-with-collate-fn)。
+
+在整理函数中，我们还应用了重采样和文本编码。
+
+```py
+def pad_sequence(batch):
+    # Make all tensor in a batch the same length by padding with zeros
+    batch = [item.t() for item in batch]
+    batch = torch.nn.utils.rnn.pad_sequence(batch, batch_first=True, padding_value=0.)
+    return batch.permute(0, 2, 1)
+
+def collate_fn(batch):
+
+    # A data tuple has the form:
+    # waveform, sample_rate, label, speaker_id, utterance_number
+
+    tensors, targets = [], []
+
+    # Gather in lists, and encode labels as indices
+    for waveform, _, label, *_ in batch:
+        tensors += [waveform]
+        targets += [label_to_index(label)]
+
+    # Group the list of tensors into a batched tensor
+    tensors = pad_sequence(tensors)
+    targets = torch.stack(targets)
+
+    return tensors, targets
+
+batch_size = 256
+
+if device == "cuda":
+    num_workers = 1
+    pin_memory = True
+else:
+    num_workers = 0
+    pin_memory = False
+
+train_loader = torch.utils.data.DataLoader(
+    train_set,
+    batch_size=batch_size,
+    shuffle=True,
+    collate_fn=collate_fn,
+    num_workers=num_workers,
+    pin_memory=pin_memory,
+)
+test_loader = torch.utils.data.DataLoader(
+    test_set,
+    batch_size=batch_size,
+    shuffle=False,
+    drop_last=False,
+    collate_fn=collate_fn,
+    num_workers=num_workers,
+    pin_memory=pin_memory,
+)
+
+```
+
+## 定义网络
+
+在本教程中，我们将使用卷积神经网络来处理原始音频数据。 通常，更高级的转换将应用于音频数据，但是 CNN 可以用于准确处理原始数据。 具体架构是根据[本文](https://arxiv.org/pdf/1610.00087.pdf)中描述的 M5 网络架构建模的。 模型处理原始音频数据的一个重要方面是其第一层过滤器的接收范围。 我们模型的第一个过滤器长度为 80，因此在处理以 8kHz 采样的音频时，接收场约为 10ms（而在 4kHz 时约为 20ms）。 此大小类似于语音处理应用，该应用通常使用 20ms 到 40ms 的接收域。
+
+```py
+class M5(nn.Module):
+    def __init__(self, n_input=1, n_output=35, stride=16, n_channel=32):
+        super().__init__()
+        self.conv1 = nn.Conv1d(n_input, n_channel, kernel_size=80, stride=stride)
+        self.bn1 = nn.BatchNorm1d(n_channel)
+        self.pool1 = nn.MaxPool1d(4)
+        self.conv2 = nn.Conv1d(n_channel, n_channel, kernel_size=3)
+        self.bn2 = nn.BatchNorm1d(n_channel)
+        self.pool2 = nn.MaxPool1d(4)
+        self.conv3 = nn.Conv1d(n_channel, 2 * n_channel, kernel_size=3)
+        self.bn3 = nn.BatchNorm1d(2 * n_channel)
+        self.pool3 = nn.MaxPool1d(4)
+        self.conv4 = nn.Conv1d(2 * n_channel, 2 * n_channel, kernel_size=3)
+        self.bn4 = nn.BatchNorm1d(2 * n_channel)
+        self.pool4 = nn.MaxPool1d(4)
+        self.fc1 = nn.Linear(2 * n_channel, n_output)
+
+    def forward(self, x):
+        x = self.conv1(x)
+        x = F.relu(self.bn1(x))
+        x = self.pool1(x)
+        x = self.conv2(x)
+        x = F.relu(self.bn2(x))
+        x = self.pool2(x)
+        x = self.conv3(x)
+        x = F.relu(self.bn3(x))
+        x = self.pool3(x)
+        x = self.conv4(x)
+        x = F.relu(self.bn4(x))
+        x = self.pool4(x)
+        x = F.avg_pool1d(x, x.shape[-1])
+        x = x.permute(0, 2, 1)
+        x = self.fc1(x)
+        return F.log_softmax(x, dim=2)
+
+model = M5(n_input=transformed.shape[0], n_output=len(labels))
+model.to(device)
+print(model)
+
+def count_parameters(model):
+    return sum(p.numel() for p in model.parameters() if p.requires_grad)
+
+n = count_parameters(model)
+print("Number of parameters: %s" % n)
+
+```
+
+我们将使用与本文相同的优化技术，将权重衰减设置为 0.0001 的 Adam 优化器。 首先，我们将以 0.01 的学习率进行训练，但是在 20 个周期后的训练过程中，我们将使用`scheduler`将其降低到 0.001。
+
+```py
+optimizer = optim.Adam(model.parameters(), lr=0.01, weight_decay=0.0001)
+scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=20, gamma=0.1)  # reduce the learning after 20 epochs by a factor of 10
+
+```
+
+## 训练和测试网络
+
+现在，我们定义一个训练函数，它将训练数据输入模型中，并执行反向传播和优化步骤。 对于训练，我们将使用的损失是负对数可能性。 然后，在每个周期之后将对网络进行测试，以查看训练期间准确率如何变化。
+
+```py
+def train(model, epoch, log_interval):
+    model.train()
+    for batch_idx, (data, target) in enumerate(train_loader):
+
+        data = data.to(device)
+        target = target.to(device)
+
+        # apply transform and model on whole batch directly on device
+        data = transform(data)
+        output = model(data)
+
+        # negative log-likelihood for a tensor of size (batch x 1 x n_output)
+        loss = F.nll_loss(output.squeeze(), target)
+
+        optimizer.zero_grad()
+        loss.backward()
+        optimizer.step()
+
+        # print training stats
+        if batch_idx % log_interval == 0:
+            print(f"Train Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)} ({100\. * batch_idx / len(train_loader):.0f}%)]\tLoss: {loss.item():.6f}")
+
+        # update progress bar
+        pbar.update(pbar_update)
+        # record loss
+        losses.append(loss.item())
+
+```
+
+现在我们有了训练函数，我们需要制作一个用于测试网络准确率的函数。 我们将模型设置为`eval()`模式，然后对测试数据集进行推断。 调用`eval()`将网络中所有模块中的训练变量设置为`false`。 某些层（例如批量归一化层和丢弃层）在训练期间的行为会有所不同，因此此步骤对于获取正确的结果至关重要。
+
+```py
+def number_of_correct(pred, target):
+    # count number of correct predictions
+    return pred.squeeze().eq(target).sum().item()
+
+def get_likely_index(tensor):
+    # find most likely label index for each element in the batch
+    return tensor.argmax(dim=-1)
+
+def test(model, epoch):
+    model.eval()
+    correct = 0
+    for data, target in test_loader:
+
+        data = data.to(device)
+        target = target.to(device)
+
+        # apply transform and model on whole batch directly on device
+        data = transform(data)
+        output = model(data)
+
+        pred = get_likely_index(output)
+        correct += number_of_correct(pred, target)
+
+        # update progress bar
+        pbar.update(pbar_update)
+
+    print(f"\nTest Epoch: {epoch}\tAccuracy: {correct}/{len(test_loader.dataset)} ({100\. * correct / len(test_loader.dataset):.0f}%)\n")
+
+```
+
+最后，我们可以训练和测试网络。 我们将训练网络十个周期，然后降低学习率，再训练十个周期。 在每个周期之后将对网络进行测试，以查看训练过程中准确率如何变化。
+
+```py
+log_interval = 20
+n_epoch = 2
+
+pbar_update = 1 / (len(train_loader) + len(test_loader))
+losses = []
+
+# The transform needs to live on the same device as the model and the data.
+transform = transform.to(device)
+with tqdm(total=n_epoch) as pbar:
+    for epoch in range(1, n_epoch + 1):
+        train(model, epoch, log_interval)
+        test(model, epoch)
+        scheduler.step()
+
+# Let's plot the training loss versus the number of iteration.
+# plt.plot(losses);
+# plt.title("training loss");
+
+```
+
+2 个周期后，测试集的网络准确率应超过 65%，而 21 个周期后，网络应达到 85%。 让我们看一下训练集中的最后几句话，看看模型是如何做到的。
+
+```py
+def predict(tensor):
+    # Use the model to predict the label of the waveform
+    tensor = tensor.to(device)
+    tensor = transform(tensor)
+    tensor = model(tensor.unsqueeze(0))
+    tensor = get_likely_index(tensor)
+    tensor = index_to_label(tensor.squeeze())
+    return tensor
+
+waveform, sample_rate, utterance, *_ = train_set[-1]
+ipd.Audio(waveform.numpy(), rate=sample_rate)
+
+print(f"Expected: {utterance}. Predicted: {predict(waveform)}.")
+
+```
+
+如果有一个示例，我们来寻找一个分类错误的示例。
+
+```py
+for i, (waveform, sample_rate, utterance, *_) in enumerate(test_set):
+    output = predict(waveform)
+    if output != utterance:
+        ipd.Audio(waveform.numpy(), rate=sample_rate)
+        print(f"Data point #{i}. Expected: {utterance}. Predicted: {output}.")
+        break
+else:
+    print("All examples in this dataset were correctly classified!")
+    print("In this case, let's just look at the last data point")
+    ipd.Audio(waveform.numpy(), rate=sample_rate)
+    print(f"Data point #{i}. Expected: {utterance}. Predicted: {output}.")
+
+```
+
+随意尝试使用其中一个标签的自己的录音！ 例如，使用 Colab，在执行下面的单元格时说“ Go”。 这将录制一秒钟的音频并尝试对其进行分类。
+
+```py
+from google.colab import output as colab_output
+from base64 import b64decode
+from io import BytesIO
+from pydub import AudioSegment
+
+RECORD = """
+const sleep  = time => new Promise(resolve => setTimeout(resolve, time))
+const b2text = blob => new Promise(resolve => {
+  const reader = new FileReader()
+  reader.onloadend = e => resolve(e.srcElement.result)
+  reader.readAsDataURL(blob)
+})
+var record = time => new Promise(async resolve => {
+  stream = await navigator.mediaDevices.getUserMedia({ audio: true })
+  recorder = new MediaRecorder(stream)
+  chunks = []
+  recorder.ondataavailable = e => chunks.push(e.data)
+  recorder.start()
+  await sleep(time)
+  recorder.onstop = async ()=>{
+    blob = new Blob(chunks)
+    text = await b2text(blob)
+    resolve(text)
+  }
+  recorder.stop()
+})
+"""
+
+def record(seconds=1):
+    display(ipd.Javascript(RECORD))
+    print(f"Recording started for {seconds} seconds.")
+    s = colab_output.eval_js("record(%d)" % (seconds * 1000))
+    print("Recording ended.")
+    b = b64decode(s.split(",")[1])
+
+    fileformat = "wav"
+    filename = f"_audio.{fileformat}"
+    AudioSegment.from_file(BytesIO(b)).export(filename, format=fileformat)
+    return torchaudio.load(filename)
+
+waveform, sample_rate = record()
+print(f"Predicted: {predict(waveform)}.")
+ipd.Audio(waveform.numpy(), rate=sample_rate)
+
+```
+
+## 总结
+
+在本教程中，我们使用了`torchaudio`来加载数据集并对信号进行重新采样。 然后，我们定义了经过训练的神经网络，以识别给定命令。 还有其他数据预处理方法，例如找到梅尔频率倒谱系数（MFCC），可以减小数据集的大小。 此变换也可以在`torchaudio`中作为`torchaudio.transforms.MFCC`使用。
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`speech_command_recognition_with_torchaudio.py`](../_downloads/4cbc77c0f631ff7a80a046f57b97a075/speech_command_recognition_with_torchaudio.py)
+
+[下载 Jupyter 笔记本：`speech_command_recognition_with_torchaudio.ipynb`](../_downloads/d87597d0062580c9ec699193e951e3f4/speech_command_recognition_with_torchaudio.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/26.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/26.md
new file mode 100644
index 00000000..584a81a7
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/26.md
@@ -0,0 +1 @@
+# 文本
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/27.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/27.md
new file mode 100644
index 00000000..1c888aa6
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/27.md
@@ -0,0 +1,329 @@
+# 使用`nn.Transformer`和`torchtext`的序列到序列建模
+
+> 原文：<https://pytorch.org/tutorials/beginner/transformer_tutorial.html>
+
+这是一个有关如何训练使用[`nn.Transformer`](https://pytorch.org/docs/master/nn.html?highlight=nn%20transformer#torch.nn.Transformer)模块的序列到序列模型的教程。
+
+PyTorch 1.2 版本包括一个基于[论文](https://arxiv.org/pdf/1706.03762.pdf)的标准转换器模块。 事实证明，该转换器模型在许多序列间问题上具有较高的质量，同时具有更高的可并行性。 `nn.Transformer`模块完全依赖于注意力机制（另一个最近实现为[`nn.MultiheadAttention`](https://pytorch.org/docs/master/nn.html?highlight=multiheadattention#torch.nn.MultiheadAttention)的模块）来绘制输入和输出之间的全局依存关系。 `nn.Transformer`模块现已高度模块化，因此可以轻松地修改/组成单个组件（如本教程中的[`nn.TransformerEncoder`](https://pytorch.org/docs/master/nn.html?highlight=nn%20transformerencoder#torch.nn.TransformerEncoder)）。
+
+![../_img/transformer_architecture.jpg](img/4b79dddf1ff54b9384754144d8246d9b.png)
+
+## 定义模型
+
+在本教程中，我们将在语言建模任务上训练`nn.TransformerEncoder`模型。 语言建模任务是为给定单词（或单词序列）遵循单词序列的可能性分配概率。 标记序列首先传递到嵌入层，然后传递到位置编码层以说明单词的顺序（有关更多详细信息，请参见下一段）。 `nn.TransformerEncoder`由多层[`nn.TransformerEncoderLayer`](https://pytorch.org/docs/master/nn.html?highlight=transformerencoderlayer#torch.nn.TransformerEncoderLayer)组成。 与输入序列一起，还需要一个正方形的注意掩码，因为`nn.TransformerEncoder`中的自注意层仅允许出现在该序列中的较早位置。 对于语言建模任务，应屏蔽将来头寸上的所有标记。 为了获得实际的单词，将`nn.TransformerEncoder`模型的输出发送到最终的`Linear`层，然后是对数 Softmax 函数。
+
+```py
+import math
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+class TransformerModel(nn.Module):
+
+    def __init__(self, ntoken, ninp, nhead, nhid, nlayers, dropout=0.5):
+        super(TransformerModel, self).__init__()
+        from torch.nn import TransformerEncoder, TransformerEncoderLayer
+        self.model_type = 'Transformer'
+        self.pos_encoder = PositionalEncoding(ninp, dropout)
+        encoder_layers = TransformerEncoderLayer(ninp, nhead, nhid, dropout)
+        self.transformer_encoder = TransformerEncoder(encoder_layers, nlayers)
+        self.encoder = nn.Embedding(ntoken, ninp)
+        self.ninp = ninp
+        self.decoder = nn.Linear(ninp, ntoken)
+
+        self.init_weights()
+
+    def generate_square_subsequent_mask(self, sz):
+        mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)
+        mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
+        return mask
+
+    def init_weights(self):
+        initrange = 0.1
+        self.encoder.weight.data.uniform_(-initrange, initrange)
+        self.decoder.bias.data.zero_()
+        self.decoder.weight.data.uniform_(-initrange, initrange)
+
+    def forward(self, src, src_mask):
+        src = self.encoder(src) * math.sqrt(self.ninp)
+        src = self.pos_encoder(src)
+        output = self.transformer_encoder(src, src_mask)
+        output = self.decoder(output)
+        return output
+
+```
+
+`PositionalEncoding`模块注入一些有关标记在序列中的相对或绝对位置的信息。 位置编码的尺寸与嵌入的尺寸相同，因此可以将两者相加。 在这里，我们使用不同频率的`sine`和`cosine`函数。
+
+```py
+class PositionalEncoding(nn.Module):
+
+    def __init__(self, d_model, dropout=0.1, max_len=5000):
+        super(PositionalEncoding, self).__init__()
+        self.dropout = nn.Dropout(p=dropout)
+
+        pe = torch.zeros(max_len, d_model)
+        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
+        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
+        pe[:, 0::2] = torch.sin(position * div_term)
+        pe[:, 1::2] = torch.cos(position * div_term)
+        pe = pe.unsqueeze(0).transpose(0, 1)
+        self.register_buffer('pe', pe)
+
+    def forward(self, x):
+        x = x + self.pe[:x.size(0), :]
+        return self.dropout(x)
+
+```
+
+## 加载和批量数据
+
+本教程使用`torchtext`生成 Wikitext-2 数据集。 `vocab`对象是基于训练数据集构建的，用于将标记数字化为张量。 从序列数据开始，`batchify()`函数将数据集排列为列，以修剪掉数据分成大小为`batch_size`的批量后剩余的所有标记。 例如，以字母为序列（总长度为 26）并且批大小为 4，我们将字母分为 4 个长度为 6 的序列：
+
+![](img/tex27-1.gif)
+
+这些列被模型视为独立的，这意味着无法了解`G`和`F`的依赖性，但可以进行更有效的批量。
+
+```py
+import io
+import torch
+from torchtext.utils import download_from_url, extract_archive
+from torchtext.data.utils import get_tokenizer
+from torchtext.vocab import build_vocab_from_iterator
+
+url = 'https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-v1.zip'
+test_filepath, valid_filepath, train_filepath = extract_archive(download_from_url(url))
+tokenizer = get_tokenizer('basic_english')
+vocab = build_vocab_from_iterator(map(tokenizer,
+                                      iter(io.open(train_filepath,
+                                                   encoding="utf8"))))
+
+def data_process(raw_text_iter):
+  data = [torch.tensor([vocab[token] for token in tokenizer(item)],
+                       dtype=torch.long) for item in raw_text_iter]
+  return torch.cat(tuple(filter(lambda t: t.numel() > 0, data)))
+
+train_data = data_process(iter(io.open(train_filepath, encoding="utf8")))
+val_data = data_process(iter(io.open(valid_filepath, encoding="utf8")))
+test_data = data_process(iter(io.open(test_filepath, encoding="utf8")))
+
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+def batchify(data, bsz):
+    # Divide the dataset into bsz parts.
+    nbatch = data.size(0) // bsz
+    # Trim off any extra elements that wouldn't cleanly fit (remainders).
+    data = data.narrow(0, 0, nbatch * bsz)
+    # Evenly divide the data across the bsz batches.
+    data = data.view(bsz, -1).t().contiguous()
+    return data.to(device)
+
+batch_size = 20
+eval_batch_size = 10
+train_data = batchify(train_data, batch_size)
+val_data = batchify(val_data, eval_batch_size)
+test_data = batchify(test_data, eval_batch_size)
+
+```
+
+### 生成输入序列和目标序列的函数
+
+`get_batch()`函数为转换器模型生成输入和目标序列。 它将源数据细分为长度为`bptt`的块。 对于语言建模任务，模型需要以下单词作为`Target`。 例如，如果`bptt`值为 2，则`i = 0`时，我们将获得以下两个变量：
+
+![../_img/transformer_input_target.png](img/20ef8681366b44461cf49d1ab98ab8f2.png)
+
+应该注意的是，这些块沿着维度 0，与`Transformer`模型中的`S`维度一致。 批量尺寸`N`沿尺寸 1。
+
+```py
+bptt = 35
+def get_batch(source, i):
+    seq_len = min(bptt, len(source) - 1 - i)
+    data = source[i:i+seq_len]
+    target = source[i+1:i+1+seq_len].reshape(-1)
+    return data, target
+
+```
+
+## 启动实例
+
+使用下面的超参数建立模型。 `vocab`的大小等于`vocab`对象的长度。
+
+```py
+ntokens = len(vocab.stoi) # the size of vocabulary
+emsize = 200 # embedding dimension
+nhid = 200 # the dimension of the feedforward network model in nn.TransformerEncoder
+nlayers = 2 # the number of nn.TransformerEncoderLayer in nn.TransformerEncoder
+nhead = 2 # the number of heads in the multiheadattention models
+dropout = 0.2 # the dropout value
+model = TransformerModel(ntokens, emsize, nhead, nhid, nlayers, dropout).to(device)
+
+```
+
+## 运行模型
+
+[`CrossEntropyLoss`](https://pytorch.org/docs/master/nn.html?highlight=crossentropyloss#torch.nn.CrossEntropyLoss)用于跟踪损失，[`SGD`](https://pytorch.org/docs/master/optim.html?highlight=sgd#torch.optim.SGD)实现随机梯度下降方法作为优化器。 初始学习率设置为 5.0。 [`StepLR`](https://pytorch.org/docs/master/optim.html?highlight=steplr#torch.optim.lr_scheduler.StepLR)用于通过历时调整学习率。 在训练期间，我们使用[`nn.utils.clip_grad_norm_`](https://pytorch.org/docs/master/nn.html?highlight=nn%20utils%20clip_grad_norm#torch.nn.utils.clip_grad_norm_)函数将所有梯度缩放在一起，以防止爆炸。
+
+```py
+criterion = nn.CrossEntropyLoss()
+lr = 5.0 # learning rate
+optimizer = torch.optim.SGD(model.parameters(), lr=lr)
+scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1.0, gamma=0.95)
+
+import time
+def train():
+    model.train() # Turn on the train mode
+    total_loss = 0.
+    start_time = time.time()
+    src_mask = model.generate_square_subsequent_mask(bptt).to(device)
+    for batch, i in enumerate(range(0, train_data.size(0) - 1, bptt)):
+        data, targets = get_batch(train_data, i)
+        optimizer.zero_grad()
+        if data.size(0) != bptt:
+            src_mask = model.generate_square_subsequent_mask(data.size(0)).to(device)
+        output = model(data, src_mask)
+        loss = criterion(output.view(-1, ntokens), targets)
+        loss.backward()
+        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
+        optimizer.step()
+
+        total_loss += loss.item()
+        log_interval = 200
+        if batch % log_interval == 0 and batch > 0:
+            cur_loss = total_loss / log_interval
+            elapsed = time.time() - start_time
+            print('| epoch {:3d} | {:5d}/{:5d} batches | '
+                  'lr {:02.2f} | ms/batch {:5.2f} | '
+                  'loss {:5.2f} | ppl {:8.2f}'.format(
+                    epoch, batch, len(train_data) // bptt, scheduler.get_lr()[0],
+                    elapsed * 1000 / log_interval,
+                    cur_loss, math.exp(cur_loss)))
+            total_loss = 0
+            start_time = time.time()
+
+def evaluate(eval_model, data_source):
+    eval_model.eval() # Turn on the evaluation mode
+    total_loss = 0.
+    src_mask = model.generate_square_subsequent_mask(bptt).to(device)
+    with torch.no_grad():
+        for i in range(0, data_source.size(0) - 1, bptt):
+            data, targets = get_batch(data_source, i)
+            if data.size(0) != bptt:
+                src_mask = model.generate_square_subsequent_mask(data.size(0)).to(device)
+            output = eval_model(data, src_mask)
+            output_flat = output.view(-1, ntokens)
+            total_loss += len(data) * criterion(output_flat, targets).item()
+    return total_loss / (len(data_source) - 1)
+
+```
+
+循环遍历。 如果验证损失是迄今为止迄今为止最好的，请保存模型。 在每个周期之后调整学习率。
+
+```py
+best_val_loss = float("inf")
+epochs = 3 # The number of epochs
+best_model = None
+
+for epoch in range(1, epochs + 1):
+    epoch_start_time = time.time()
+    train()
+    val_loss = evaluate(model, val_data)
+    print('-' * 89)
+    print('| end of epoch {:3d} | time: {:5.2f}s | valid loss {:5.2f} | '
+          'valid ppl {:8.2f}'.format(epoch, (time.time() - epoch_start_time),
+                                     val_loss, math.exp(val_loss)))
+    print('-' * 89)
+
+    if val_loss < best_val_loss:
+        best_val_loss = val_loss
+        best_model = model
+
+    scheduler.step()
+
+```
+
+出：
+
+```py
+| epoch   1 |   200/ 2928 batches | lr 5.00 | ms/batch 30.78 | loss  8.03 | ppl  3085.47
+| epoch   1 |   400/ 2928 batches | lr 5.00 | ms/batch 29.85 | loss  6.83 | ppl   929.53
+| epoch   1 |   600/ 2928 batches | lr 5.00 | ms/batch 29.92 | loss  6.41 | ppl   610.71
+| epoch   1 |   800/ 2928 batches | lr 5.00 | ms/batch 29.88 | loss  6.29 | ppl   539.54
+| epoch   1 |  1000/ 2928 batches | lr 5.00 | ms/batch 29.95 | loss  6.17 | ppl   479.92
+| epoch   1 |  1200/ 2928 batches | lr 5.00 | ms/batch 29.95 | loss  6.15 | ppl   468.35
+| epoch   1 |  1400/ 2928 batches | lr 5.00 | ms/batch 29.95 | loss  6.11 | ppl   450.25
+| epoch   1 |  1600/ 2928 batches | lr 5.00 | ms/batch 29.95 | loss  6.10 | ppl   445.77
+| epoch   1 |  1800/ 2928 batches | lr 5.00 | ms/batch 29.97 | loss  6.02 | ppl   409.90
+| epoch   1 |  2000/ 2928 batches | lr 5.00 | ms/batch 29.92 | loss  6.01 | ppl   408.66
+| epoch   1 |  2200/ 2928 batches | lr 5.00 | ms/batch 29.94 | loss  5.90 | ppl   363.89
+| epoch   1 |  2400/ 2928 batches | lr 5.00 | ms/batch 29.94 | loss  5.96 | ppl   388.68
+| epoch   1 |  2600/ 2928 batches | lr 5.00 | ms/batch 29.94 | loss  5.95 | ppl   382.60
+| epoch   1 |  2800/ 2928 batches | lr 5.00 | ms/batch 29.95 | loss  5.88 | ppl   358.87
+-----------------------------------------------------------------------------------------
+| end of epoch   1 | time: 91.45s | valid loss  5.85 | valid ppl   348.17
+-----------------------------------------------------------------------------------------
+| epoch   2 |   200/ 2928 batches | lr 4.51 | ms/batch 30.09 | loss  5.86 | ppl   351.70
+| epoch   2 |   400/ 2928 batches | lr 4.51 | ms/batch 29.97 | loss  5.85 | ppl   347.85
+| epoch   2 |   600/ 2928 batches | lr 4.51 | ms/batch 29.98 | loss  5.67 | ppl   288.80
+| epoch   2 |   800/ 2928 batches | lr 4.51 | ms/batch 29.92 | loss  5.70 | ppl   299.81
+| epoch   2 |  1000/ 2928 batches | lr 4.51 | ms/batch 29.95 | loss  5.65 | ppl   285.57
+| epoch   2 |  1200/ 2928 batches | lr 4.51 | ms/batch 29.99 | loss  5.68 | ppl   293.48
+| epoch   2 |  1400/ 2928 batches | lr 4.51 | ms/batch 29.96 | loss  5.69 | ppl   296.90
+| epoch   2 |  1600/ 2928 batches | lr 4.51 | ms/batch 29.96 | loss  5.72 | ppl   303.83
+| epoch   2 |  1800/ 2928 batches | lr 4.51 | ms/batch 29.93 | loss  5.66 | ppl   285.90
+| epoch   2 |  2000/ 2928 batches | lr 4.51 | ms/batch 29.93 | loss  5.67 | ppl   289.58
+| epoch   2 |  2200/ 2928 batches | lr 4.51 | ms/batch 29.97 | loss  5.55 | ppl   257.20
+| epoch   2 |  2400/ 2928 batches | lr 4.51 | ms/batch 29.96 | loss  5.65 | ppl   283.92
+| epoch   2 |  2600/ 2928 batches | lr 4.51 | ms/batch 29.95 | loss  5.65 | ppl   283.76
+| epoch   2 |  2800/ 2928 batches | lr 4.51 | ms/batch 29.95 | loss  5.60 | ppl   269.90
+-----------------------------------------------------------------------------------------
+| end of epoch   2 | time: 91.37s | valid loss  5.60 | valid ppl   270.66
+-----------------------------------------------------------------------------------------
+| epoch   3 |   200/ 2928 batches | lr 4.29 | ms/batch 30.12 | loss  5.60 | ppl   269.95
+| epoch   3 |   400/ 2928 batches | lr 4.29 | ms/batch 29.92 | loss  5.62 | ppl   274.84
+| epoch   3 |   600/ 2928 batches | lr 4.29 | ms/batch 29.96 | loss  5.41 | ppl   222.98
+| epoch   3 |   800/ 2928 batches | lr 4.29 | ms/batch 29.93 | loss  5.48 | ppl   240.15
+| epoch   3 |  1000/ 2928 batches | lr 4.29 | ms/batch 29.94 | loss  5.43 | ppl   229.16
+| epoch   3 |  1200/ 2928 batches | lr 4.29 | ms/batch 29.94 | loss  5.48 | ppl   239.42
+| epoch   3 |  1400/ 2928 batches | lr 4.29 | ms/batch 29.95 | loss  5.49 | ppl   242.87
+| epoch   3 |  1600/ 2928 batches | lr 4.29 | ms/batch 29.93 | loss  5.52 | ppl   250.16
+| epoch   3 |  1800/ 2928 batches | lr 4.29 | ms/batch 29.93 | loss  5.47 | ppl   237.70
+| epoch   3 |  2000/ 2928 batches | lr 4.29 | ms/batch 29.94 | loss  5.49 | ppl   241.36
+| epoch   3 |  2200/ 2928 batches | lr 4.29 | ms/batch 29.92 | loss  5.36 | ppl   211.91
+| epoch   3 |  2400/ 2928 batches | lr 4.29 | ms/batch 29.95 | loss  5.47 | ppl   237.16
+| epoch   3 |  2600/ 2928 batches | lr 4.29 | ms/batch 29.94 | loss  5.47 | ppl   236.47
+| epoch   3 |  2800/ 2928 batches | lr 4.29 | ms/batch 29.92 | loss  5.41 | ppl   223.08
+-----------------------------------------------------------------------------------------
+| end of epoch   3 | time: 91.32s | valid loss  5.61 | valid ppl   272.10
+-----------------------------------------------------------------------------------------
+
+```
+
+## 使用测试数据集评估模型
+
+应用最佳模型以检查测试数据集的结果。
+
+```py
+test_loss = evaluate(best_model, test_data)
+print('=' * 89)
+print('| End of training | test loss {:5.2f} | test ppl {:8.2f}'.format(
+    test_loss, math.exp(test_loss)))
+print('=' * 89)
+
+```
+
+出：
+
+```py
+=========================================================================================
+| End of training | test loss  5.52 | test ppl   249.05
+=========================================================================================
+
+```
+
+**脚本的总运行时间**：（4 分钟 50.218 秒）
+
+[下载 Python 源码：`transformer_tutorial.py`](../_downloads/f53285338820248a7c04a947c5110f7b/transformer_tutorial.py)
+
+[下载 Jupyter 笔记本：`transformer_tutorial.ipynb`](../_downloads/dca13261bbb4e9809d1a3aa521d22dd7/transformer_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/28.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/28.md
new file mode 100644
index 00000000..8176c3f1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/28.md
@@ -0,0 +1,555 @@
+# 从零开始的 NLP：使用字符级 RNN 分类名称
+
+> 原文：<https://pytorch.org/tutorials/intermediate/char_rnn_classification_tutorial.html>
+
+**作者**： [Sean Robertson](https://github.com/spro/practical-pytorch)
+
+我们将建立和训练基本的字符级 RNN 对单词进行分类。 本教程与以下两个教程一起，展示了如何“从头开始”进行 NLP 建模的预处理数据，特别是不使用`torchtext`的许多便利函数，因此您可以了解 NLP 建模的预处理如何在低水平上工作。
+
+字符级 RNN 将单词作为一系列字符读取-在每个步骤输出预测和“隐藏状态”，将其先前的隐藏状态输入到每个下一步。 我们将最终的预测作为输出，即单词属于哪个类别。
+
+具体来说，我们将训练来自 18 种起源语言的数千种姓氏，并根据拼写方式预测名称的来源：
+
+```py
+$ python predict.py Hinton
+(-0.47) Scottish
+(-1.52) English
+(-3.57) Irish
+
+$ python predict.py Schmidhuber
+(-0.19) German
+(-2.48) Czech
+(-2.68) Dutch
+
+```
+
+**推荐读物**：
+
+我假设您至少已经安装了 PyTorch，Python 和 Tensors：
+
+*   [安装说明](https://pytorch.org/)
+*   [使用 PyTorch 进行深度学习：60 分钟的突击](../beginner/deep_learning_60min_blitz.html)通常开始使用 PyTorch
+*   [使用示例学习 PyTorch](../beginner/pytorch_with_examples.html)
+*   [PyTorch（面向以前的 Torch 用户）](../beginner/former_torchies_tutorial.html)（如果您以前是 Lua Torch 用户）
+
+了解 RNN 及其工作方式也将很有用：
+
+*   [《循环神经网络的不合理有效性》](https://karpathy.github.io/2015/05/21/rnn-effectiveness/)显示了许多现实生活中的例子
+*   [《了解 LSTM 网络》](https://colah.github.io/posts/2015-08-Understanding-LSTMs/)特别是关于 LSTM 的，但一般来说也有关 RNN 的
+
+## 准备数据
+
+注意
+
+从的下载数据，并将其提取到当前目录。
+
+`data/names`目录中包含 18 个文本文件，名称为`[Language].txt`。 每个文件包含一堆名称，每行一个名称，大多数是罗马化的（但我们仍然需要从 Unicode 转换为 ASCII）。
+
+我们将得到一个字典，其中列出了每种语言的名称列表`{language: [names ...]}`。 通用变量“类别”和“行”（在本例中为语言和名称）用于以后的扩展。
+
+```py
+from __future__ import unicode_literals, print_function, division
+from io import open
+import glob
+import os
+
+def findFiles(path): return glob.glob(path)
+
+print(findFiles('data/names/*.txt'))
+
+import unicodedata
+import string
+
+all_letters = string.ascii_letters + " .,;'"
+n_letters = len(all_letters)
+
+# Turn a Unicode string to plain ASCII, thanks to https://stackoverflow.com/a/518232/2809427
+def unicodeToAscii(s):
+    return ''.join(
+        c for c in unicodedata.normalize('NFD', s)
+        if unicodedata.category(c) != 'Mn'
+        and c in all_letters
+    )
+
+print(unicodeToAscii('Ślusàrski'))
+
+# Build the category_lines dictionary, a list of names per language
+category_lines = {}
+all_categories = []
+
+# Read a file and split into lines
+def readLines(filename):
+    lines = open(filename, encoding='utf-8').read().strip().split('\n')
+    return [unicodeToAscii(line) for line in lines]
+
+for filename in findFiles('data/names/*.txt'):
+    category = os.path.splitext(os.path.basename(filename))[0]
+    all_categories.append(category)
+    lines = readLines(filename)
+    category_lines[category] = lines
+
+n_categories = len(all_categories)
+
+```
+
+出：
+
+```py
+['data/names/French.txt', 'data/names/Czech.txt', 'data/names/Dutch.txt', 'data/names/Polish.txt', 'data/names/Scottish.txt', 'data/names/Chinese.txt', 'data/names/English.txt', 'data/names/Italian.txt', 'data/names/Portuguese.txt', 'data/names/Japanese.txt', 'data/names/German.txt', 'data/names/Russian.txt', 'data/names/Korean.txt', 'data/names/Arabic.txt', 'data/names/Greek.txt', 'data/names/Vietnamese.txt', 'data/names/Spanish.txt', 'data/names/Irish.txt']
+Slusarski
+
+```
+
+现在我们有了`category_lines`，这是一个字典，将每个类别（语言）映射到行（名称）列表。 我们还跟踪了`all_categories`（只是语言列表）和`n_categories`，以供以后参考。
+
+```py
+print(category_lines['Italian'][:5])
+
+```
+
+出：
+
+```py
+['Abandonato', 'Abatangelo', 'Abatantuono', 'Abate', 'Abategiovanni']
+
+```
+
+### 将名称转换为张量
+
+现在我们已经组织了所有名称，我们需要将它们转换为张量以使用它们。
+
+为了表示单个字母，我们使用大小为`<1 x n_letters>`的单热向量。 单热向量用 0 填充，但当前字母的索引处的数字为 1，例如 `"b" = <0 1 0 0 0 ...>`。
+
+为了制造一个单词，我们将其中的一些连接成 2D 矩阵`<line_length x 1 x n_letters>`。
+
+额外的 1 维是因为 PyTorch 假定所有内容都是成批的-在这里我们仅使用 1 的批量大小。
+
+```py
+import torch
+
+# Find letter index from all_letters, e.g. "a" = 0
+def letterToIndex(letter):
+    return all_letters.find(letter)
+
+# Just for demonstration, turn a letter into a <1 x n_letters> Tensor
+def letterToTensor(letter):
+    tensor = torch.zeros(1, n_letters)
+    tensor[0][letterToIndex(letter)] = 1
+    return tensor
+
+# Turn a line into a <line_length x 1 x n_letters>,
+# or an array of one-hot letter vectors
+def lineToTensor(line):
+    tensor = torch.zeros(len(line), 1, n_letters)
+    for li, letter in enumerate(line):
+        tensor[li][0][letterToIndex(letter)] = 1
+    return tensor
+
+print(letterToTensor('J'))
+
+print(lineToTensor('Jones').size())
+
+```
+
+出：
+
+```py
+tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
+         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
+         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
+         0., 0., 0.]])
+torch.Size([5, 1, 57])
+
+```
+
+## 创建网络
+
+在进行自动微分之前，在 Torch 中创建一个循环神经网络涉及在多个时间步长上克隆层的参数。 层保留了隐藏状态和梯度，这些层现在完全由图本身处理。 这意味着您可以非常“纯”的方式将 RNN 用作常规前馈层。
+
+该 RNN 模块（主要从[面向 Torch 用户的 PyTorch 教程](https://pytorch.org/tutorials/beginner/former_torchies/nn_tutorial.html#example-2-recurrent-net)复制）只有两个线性层，它们在输入和隐藏状态下运行，在输出之后是`LogSoftmax`层。
+
+![](img/592fae78143370fffc1d0c7957706384.png)
+
+```py
+import torch.nn as nn
+
+class RNN(nn.Module):
+    def __init__(self, input_size, hidden_size, output_size):
+        super(RNN, self).__init__()
+
+        self.hidden_size = hidden_size
+
+        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
+        self.i2o = nn.Linear(input_size + hidden_size, output_size)
+        self.softmax = nn.LogSoftmax(dim=1)
+
+    def forward(self, input, hidden):
+        combined = torch.cat((input, hidden), 1)
+        hidden = self.i2h(combined)
+        output = self.i2o(combined)
+        output = self.softmax(output)
+        return output, hidden
+
+    def initHidden(self):
+        return torch.zeros(1, self.hidden_size)
+
+n_hidden = 128
+rnn = RNN(n_letters, n_hidden, n_categories)
+
+```
+
+要运行此网络的步骤，我们需要传递输入（在本例中为当前字母的张量）和先前的隐藏状态（首先将其初始化为零）。 我们将返回输出（每种语言的概率）和下一个隐藏状态（我们将其保留用于下一步）。
+
+```py
+input = letterToTensor('A')
+hidden =torch.zeros(1, n_hidden)
+
+output, next_hidden = rnn(input, hidden)
+
+```
+
+为了提高效率，我们不想为每个步骤创建一个新的张量，因此我们将使用`lineToTensor`而不是`letterToTensor`并使用切片。 这可以通过预先计算一批张量来进一步优化。
+
+```py
+input = lineToTensor('Albert')
+hidden = torch.zeros(1, n_hidden)
+
+output, next_hidden = rnn(input[0], hidden)
+print(output)
+
+```
+
+出：
+
+```py
+tensor([[-2.8934, -2.7991, -2.8549, -2.8915, -2.9122, -2.9010, -2.8979, -2.8875,
+         -2.8256, -2.8792, -2.8712, -2.8465, -2.9582, -3.0171, -2.8308, -2.9629,
+         -2.9233, -2.8979]], grad_fn=<LogSoftmaxBackward>)
+
+```
+
+如您所见，输出为`<1 x n_categories>`张量，其中每个项目都是该类别的可能性（可能性更大）。
+
+## 训练
+
+### 准备训练
+
+在接受训练之前，我们应该做一些辅助函数。 首先是解释网络的输出，我们知道这是每个类别的可能性。 我们可以使用`Tensor.topk`获得最大值的索引：
+
+```py
+def categoryFromOutput(output):
+    top_n, top_i = output.topk(1)
+    category_i = top_i[0].item()
+    return all_categories[category_i], category_i
+
+print(categoryFromOutput(output))
+
+```
+
+出：
+
+```py
+('Czech', 1)
+
+```
+
+我们还将希望有一种快速的方法来获取训练示例（名称及其语言）：
+
+```py
+import random
+
+def randomChoice(l):
+    return l[random.randint(0, len(l) - 1)]
+
+def randomTrainingExample():
+    category = randomChoice(all_categories)
+    line = randomChoice(category_lines[category])
+    category_tensor = torch.tensor([all_categories.index(category)], dtype=torch.long)
+    line_tensor = lineToTensor(line)
+    return category, line, category_tensor, line_tensor
+
+for i in range(10):
+    category, line, category_tensor, line_tensor = randomTrainingExample()
+    print('category =', category, '/ line =', line)
+
+```
+
+出：
+
+```py
+category = Chinese / line = Jia
+category = Korean / line = Son
+category = Czech / line = Matocha
+category = Dutch / line = Nifterik
+category = German / line = Dreschner
+category = Irish / line = Names
+category = French / line = Charpentier
+category = Italian / line = Carboni
+category = Irish / line = Shannon
+category = German / line = Adam
+
+```
+
+### 训练网络
+
+现在，训练该网络所需要做的就是向它展示大量示例，进行猜测，并告诉它是否错误。
+
+对于损失函数，`nn.NLLLoss`是适当的，因为 RNN 的最后一层是`nn.LogSoftmax`。
+
+```py
+criterion = nn.NLLLoss()
+
+```
+
+每个训练循环将：
+
+*   创建输入和目标张量
+*   创建归零的初始隐藏状态
+*   阅读每个字母
+    *   保存下一个字母的隐藏状态
+*   比较最终输出与目标
+*   反向传播
+*   返回输出和损失
+
+```py
+learning_rate = 0.005 # If you set this too high, it might explode. If too low, it might not learn
+
+def train(category_tensor, line_tensor):
+    hidden = rnn.initHidden()
+
+    rnn.zero_grad()
+
+    for i in range(line_tensor.size()[0]):
+        output, hidden = rnn(line_tensor[i], hidden)
+
+    loss = criterion(output, category_tensor)
+    loss.backward()
+
+    # Add parameters' gradients to their values, multiplied by learning rate
+    for p in rnn.parameters():
+        p.data.add_(p.grad.data, alpha=-learning_rate)
+
+    return output, loss.item()
+
+```
+
+现在，我们只需要运行大量示例。 由于`train`函数返回输出和损失，因此我们可以打印其猜测并跟踪作图的损失。 因为有 1000 个示例，所以我们仅打印每个`print_every`示例，并对损失进行平均。
+
+```py
+import time
+import math
+
+n_iters = 100000
+print_every = 5000
+plot_every = 1000
+
+# Keep track of losses for plotting
+current_loss = 0
+all_losses = []
+
+def timeSince(since):
+    now = time.time()
+    s = now - since
+    m = math.floor(s / 60)
+    s -= m * 60
+    return '%dm %ds' % (m, s)
+
+start = time.time()
+
+for iter in range(1, n_iters + 1):
+    category, line, category_tensor, line_tensor = randomTrainingExample()
+    output, loss = train(category_tensor, line_tensor)
+    current_loss += loss
+
+    # Print iter number, loss, name and guess
+    if iter % print_every == 0:
+        guess, guess_i = categoryFromOutput(output)
+        correct = '✓' if guess == category else '✗ (%s)' % category
+        print('%d %d%% (%s) %.4f %s / %s %s' % (iter, iter / n_iters * 100, timeSince(start), loss, line, guess, correct))
+
+    # Add current loss avg to list of losses
+    if iter % plot_every == 0:
+        all_losses.append(current_loss / plot_every)
+        current_loss = 0
+
+```
+
+出：
+
+```py
+5000 5% (0m 15s) 2.5667 Ly / Chinese ✗ (Vietnamese)
+10000 10% (0m 26s) 2.3171 Rocha / Japanese ✗ (Portuguese)
+15000 15% (0m 37s) 2.2941 Gouveia / Spanish ✗ (Portuguese)
+20000 20% (0m 49s) 1.3015 Lippi / Italian ✓
+25000 25% (1m 1s) 0.7693 Thuy / Vietnamese ✓
+30000 30% (1m 13s) 1.9341 Murray / Arabic ✗ (Scottish)
+35000 35% (1m 25s) 2.3633 Busto / Scottish ✗ (Italian)
+40000 40% (1m 38s) 1.0401 Chung / Chinese ✗ (Korean)
+45000 45% (1m 50s) 0.0499 Filipowski / Polish ✓
+50000 50% (2m 2s) 0.2598 Mccallum / Scottish ✓
+55000 55% (2m 14s) 4.5375 Mozdzierz / German ✗ (Polish)
+60000 60% (2m 26s) 1.7194 Talalihin / Irish ✗ (Russian)
+65000 65% (2m 38s) 0.1150 Ziemniak / Polish ✓
+70000 70% (2m 51s) 1.8548 Pharlain / Scottish ✗ (Irish)
+75000 75% (3m 3s) 2.1362 Prehatney / Russian ✗ (Czech)
+80000 80% (3m 15s) 0.4166 Leclerc / French ✓
+85000 85% (3m 27s) 1.4189 Elford / English ✓
+90000 90% (3m 39s) 2.1959 Gagnon / Scottish ✗ (French)
+95000 95% (3m 51s) 0.1622 Bukoski / Polish ✓
+100000 100% (4m 3s) 1.3180 Faucheux / French ✓
+
+```
+
+### 绘制结果
+
+从`all_losses`绘制历史损失可显示网络学习情况：
+
+```py
+import matplotlib.pyplot as plt
+import matplotlib.ticker as ticker
+
+plt.figure()
+plt.plot(all_losses)
+
+```
+
+![../_img/sphx_glr_char_rnn_classification_tutorial_001.png](img/cc57a36a43d450df4bfc1d1d1b1ce274.png)
+
+## 评估结果
+
+为了查看网络在不同类别上的表现如何，我们将创建一个混淆矩阵，为每种实际语言（行）指示网络猜测（列）哪种语言。 为了计算混淆矩阵，使用`evaluate()`通过网络运行一堆样本，该样本等于`train()`减去反向传播器。
+
+```py
+# Keep track of correct guesses in a confusion matrix
+confusion = torch.zeros(n_categories, n_categories)
+n_confusion = 10000
+
+# Just return an output given a line
+def evaluate(line_tensor):
+    hidden = rnn.initHidden()
+
+    for i in range(line_tensor.size()[0]):
+        output, hidden = rnn(line_tensor[i], hidden)
+
+    return output
+
+# Go through a bunch of examples and record which are correctly guessed
+for i in range(n_confusion):
+    category, line, category_tensor, line_tensor = randomTrainingExample()
+    output = evaluate(line_tensor)
+    guess, guess_i = categoryFromOutput(output)
+    category_i = all_categories.index(category)
+    confusion[category_i][guess_i] += 1
+
+# Normalize by dividing every row by its sum
+for i in range(n_categories):
+    confusion[i] = confusion[i] / confusion[i].sum()
+
+# Set up plot
+fig = plt.figure()
+ax = fig.add_subplot(111)
+cax = ax.matshow(confusion.numpy())
+fig.colorbar(cax)
+
+# Set up axes
+ax.set_xticklabels([''] + all_categories, rotation=90)
+ax.set_yticklabels([''] + all_categories)
+
+# Force label at every tick
+ax.xaxis.set_major_locator(ticker.MultipleLocator(1))
+ax.yaxis.set_major_locator(ticker.MultipleLocator(1))
+
+# sphinx_gallery_thumbnail_number = 2
+plt.show()
+
+```
+
+![../_img/sphx_glr_char_rnn_classification_tutorial_002.png](img/029a9d26725997aae97e9e3f6f10067f.png)
+
+您可以从主轴上挑出一些亮点，以显示它猜错了哪些语言，例如中文（朝鲜语）和西班牙语（意大利语）。 它似乎与希腊语搭配得很好，而与英语搭配得很差（可能是因为与其他语言重叠）。
+
+### 在用户输入上运行
+
+```py
+def predict(input_line, n_predictions=3):
+    print('\n> %s' % input_line)
+    with torch.no_grad():
+        output = evaluate(lineToTensor(input_line))
+
+        # Get top N categories
+        topv, topi = output.topk(n_predictions, 1, True)
+        predictions = []
+
+        for i in range(n_predictions):
+            value = topv[0][i].item()
+            category_index = topi[0][i].item()
+            print('(%.2f) %s' % (value, all_categories[category_index]))
+            predictions.append([value, all_categories[category_index]])
+
+predict('Dovesky')
+predict('Jackson')
+predict('Satoshi')
+
+```
+
+出：
+
+```py
+> Dovesky
+(-0.82) Russian
+(-1.06) Czech
+(-2.22) Polish
+
+> Jackson
+(-0.63) English
+(-1.75) Scottish
+(-1.75) Russian
+
+> Satoshi
+(-0.97) Japanese
+(-1.50) Polish
+(-2.13) Italian
+
+```
+
+实际 PyTorch 存储库中的脚本的[最终版本](https://github.com/spro/practical-pytorch/tree/master/char-rnn-classification)将上述代码分成几个文件：
+
+*   `data.py`（加载文件）
+*   `model.py`（定义 RNN）
+*   `train.py`（进行训练）
+*   `predict.py`（使用命令行参数运行`predict()`）
+*   `server.py`（通过`bottle.py`将预测用作 JSON API）
+
+运行`train.py`训练并保存网络。
+
+使用名称运行`predict.py`以查看预测：
+
+```py
+$ python predict.py Hazaki
+(-0.42) Japanese
+(-1.39) Polish
+(-3.51) Czech
+
+```
+
+运行`server.py`并访问`http://localhost:5533/Yourname`以获取预测的 JSON 输出。
+
+## 练习
+
+*   尝试使用行 -> 类别的其他数据集，例如：
+    *   任何单词 -> 语言
+    *   名称 -> 性别
+    *   角色名称 -> 作家
+    *   页面标题 -> 博客或 subreddit
+*   通过更大和/或形状更好的网络获得更好的结果
+    *   添加更多线性层
+    *   尝试`nn.LSTM`和`nn.GRU`层
+    *   将多个这些 RNN 合并为更高级别的网络
+
+**脚本的总运行时间**：（4 分钟 15.239 秒）
+
+[下载 Python 源码：`char_rnn_classification_tutorial.py`](../_downloads/ccb15f8365bdae22a0a019e57216d7c6/char_rnn_classification_tutorial.py)
+
+[下载 Jupyter 笔记本：`char_rnn_classification_tutorial.ipynb`](../_downloads/977c14818c75427641ccb85ad21ed6dc/char_rnn_classification_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/29.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/29.md
new file mode 100644
index 00000000..c3a04041
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/29.md
@@ -0,0 +1,426 @@
+# 从零开始的 NLP：使用字符级 RNN 生成名称
+
+> 原文：<https://pytorch.org/tutorials/intermediate/char_rnn_generation_tutorial.html>
+
+**作者**： [Sean Robertson](https://github.com/spro/practical-pytorch)
+
+这是我们关于“从零开始的 NLP”的三个教程中的第二个。 在第一个教程`/intermediate/char_rnn_classification_tutorial`中，我们使用了 RNN 将名称分类为源语言。 这次，我们将转过来并使用语言生成名称。
+
+```py
+> python sample.py Russian RUS
+Rovakov
+Uantov
+Shavakov
+
+> python sample.py German GER
+Gerren
+Ereng
+Rosher
+
+> python sample.py Spanish SPA
+Salla
+Parer
+Allan
+
+> python sample.py Chinese CHI
+Chan
+Hang
+Iun
+
+```
+
+我们仍在手工制作带有一些线性层的小型 RNN。 最大的区别在于，我们无需输入名称中的所有字母即可预测类别，而是输入类别并一次输出一个字母。 反复预测字符以形成语言（这也可以用单词或其他高阶结构来完成）通常称为“语言模型”。
+
+**推荐读物**：
+
+我假设您至少已经安装了 PyTorch，Python 和张量：
+
+*   [安装说明](https://pytorch.org/)
+*   [使用 PyTorch 进行深度学习：60 分钟的突击](../beginner/deep_learning_60min_blitz.html)通常开始使用 PyTorch
+*   [使用示例学习 PyTorch](../beginner/pytorch_with_examples.html)
+*   [PyTorch（面向以前的 Torch 用户）](../beginner/former_torchies_tutorial.html)（如果您以前是 Lua Torch 用户）
+
+了解 RNN 及其工作方式也将很有用：
+
+*   [《循环神经网络的不合理有效性》](https://karpathy.github.io/2015/05/21/rnn-effectiveness/)显示了许多现实生活中的例子
+*   [《了解 LSTM 网络》](https://colah.github.io/posts/2015-08-Understanding-LSTMs/)特别是关于 LSTM 的，但一般来说也有关 RNN 的
+
+我还建议上一教程[《从零开始的 NLP：使用字符级 RNN 对名称进行分类》](char_rnn_classification_tutorial.html)
+
+## 准备数据
+
+注意
+
+从的下载数据，并将其提取到当前目录。
+
+有关此过程的更多详细信息，请参见上一教程。 简而言之，有一堆纯文本文件`data/names/[Language].txt`，每行都有一个名称。 我们将行拆分成一个数组，将 Unicode 转换为 ASCII，最后得到一个字典`{language: [names ...]}`。
+
+```py
+from __future__ import unicode_literals, print_function, division
+from io import open
+import glob
+import os
+import unicodedata
+import string
+
+all_letters = string.ascii_letters + " .,;'-"
+n_letters = len(all_letters) + 1 # Plus EOS marker
+
+def findFiles(path): return glob.glob(path)
+
+# Turn a Unicode string to plain ASCII, thanks to https://stackoverflow.com/a/518232/2809427
+def unicodeToAscii(s):
+    return ''.join(
+        c for c in unicodedata.normalize('NFD', s)
+        if unicodedata.category(c) != 'Mn'
+        and c in all_letters
+    )
+
+# Read a file and split into lines
+def readLines(filename):
+    lines = open(filename, encoding='utf-8').read().strip().split('\n')
+    return [unicodeToAscii(line) for line in lines]
+
+# Build the category_lines dictionary, a list of lines per category
+category_lines = {}
+all_categories = []
+for filename in findFiles('data/names/*.txt'):
+    category = os.path.splitext(os.path.basename(filename))[0]
+    all_categories.append(category)
+    lines = readLines(filename)
+    category_lines[category] = lines
+
+n_categories = len(all_categories)
+
+if n_categories == 0:
+    raise RuntimeError('Data not found. Make sure that you downloaded data '
+        'from https://download.pytorch.org/tutorial/data.zip and extract it to '
+        'the current directory.')
+
+print('# categories:', n_categories, all_categories)
+print(unicodeToAscii("O'Néàl"))
+
+```
+
+出：
+
+```py
+# categories: 18 ['French', 'Czech', 'Dutch', 'Polish', 'Scottish', 'Chinese', 'English', 'Italian', 'Portuguese', 'Japanese', 'German', 'Russian', 'Korean', 'Arabic', 'Greek', 'Vietnamese', 'Spanish', 'Irish']
+O'Neal
+
+```
+
+## 创建网络
+
+该网络扩展[最后一个教程](#Creating-the-Network)的 RNN，并为类别张量附加了一个参数，该参数与其他张量连接在一起。 类别张量就像字母输入一样是一个单向向量。
+
+我们将输出解释为下一个字母的概率。 采样时，最可能的输出字母用作下一个输入字母。
+
+我添加了第二个线性层`o2o`（在合并了隐藏和输出之后），以使其有更多的肌肉可以使用。 还有一个丢弃层，[以给定的概率](https://arxiv.org/abs/1207.0580)（此处为 0.1）将输入的部分随机归零，通常用于模糊输入以防止过拟合。 在这里，我们在网络的末端使用它来故意添加一些混乱并增加采样种类。
+
+![](img/28a4f1426695fb55f1f6bc86278f6547.png)
+
+```py
+import torch
+import torch.nn as nn
+
+class RNN(nn.Module):
+    def __init__(self, input_size, hidden_size, output_size):
+        super(RNN, self).__init__()
+        self.hidden_size = hidden_size
+
+        self.i2h = nn.Linear(n_categories + input_size + hidden_size, hidden_size)
+        self.i2o = nn.Linear(n_categories + input_size + hidden_size, output_size)
+        self.o2o = nn.Linear(hidden_size + output_size, output_size)
+        self.dropout = nn.Dropout(0.1)
+        self.softmax = nn.LogSoftmax(dim=1)
+
+    def forward(self, category, input, hidden):
+        input_combined = torch.cat((category, input, hidden), 1)
+        hidden = self.i2h(input_combined)
+        output = self.i2o(input_combined)
+        output_combined = torch.cat((hidden, output), 1)
+        output = self.o2o(output_combined)
+        output = self.dropout(output)
+        output = self.softmax(output)
+        return output, hidden
+
+    def initHidden(self):
+        return torch.zeros(1, self.hidden_size)
+
+```
+
+## 训练
+
+### 准备训练
+
+首先，辅助函数获取随机对（类别，行）：
+
+```py
+import random
+
+# Random item from a list
+def randomChoice(l):
+    return l[random.randint(0, len(l) - 1)]
+
+# Get a random category and random line from that category
+def randomTrainingPair():
+    category = randomChoice(all_categories)
+    line = randomChoice(category_lines[category])
+    return category, line
+
+```
+
+对于每个时间步（即，对于训练词中的每个字母），网络的输入将为`(category, current letter, hidden state)`，而输出将为`(next letter, next hidden state)`。 因此，对于每个训练集，我们都需要类别，一组输入字母和一组输出/目标字母。
+
+由于我们正在预测每个时间步中当前字母的下一个字母，因此字母对是该行中连续字母的组-例如对于`"ABCD<EOS>"`，我们将创建`('A', 'B'), ('B', 'C'), ('C', 'D'), ('D', 'EOS')`。
+
+![](img/3fae03d85aed3a2237fd4b2f7fb7b480.png)
+
+类别张量是大小为`<1 x n_categories>`的[单热张量](https://en.wikipedia.org/wiki/One-hot)。 训练时，我们会随时随地将其馈送到网络中-这是一种设计选择，它可能已作为初始隐藏状态或某些其他策略的一部分包含在内。
+
+```py
+# One-hot vector for category
+def categoryTensor(category):
+    li = all_categories.index(category)
+    tensor = torch.zeros(1, n_categories)
+    tensor[0][li] = 1
+    return tensor
+
+# One-hot matrix of first to last letters (not including EOS) for input
+def inputTensor(line):
+    tensor = torch.zeros(len(line), 1, n_letters)
+    for li in range(len(line)):
+        letter = line[li]
+        tensor[li][0][all_letters.find(letter)] = 1
+    return tensor
+
+# LongTensor of second letter to end (EOS) for target
+def targetTensor(line):
+    letter_indexes = [all_letters.find(line[li]) for li in range(1, len(line))]
+    letter_indexes.append(n_letters - 1) # EOS
+    return torch.LongTensor(letter_indexes)
+
+```
+
+为了方便训练，我们将使用`randomTrainingExample`函数来获取随机（类别，行）对，并将其转换为所需的（类别，输入，目标）张量。
+
+```py
+# Make category, input, and target tensors from a random category, line pair
+def randomTrainingExample():
+    category, line = randomTrainingPair()
+    category_tensor = categoryTensor(category)
+    input_line_tensor = inputTensor(line)
+    target_line_tensor = targetTensor(line)
+    return category_tensor, input_line_tensor, target_line_tensor
+
+```
+
+### 训练网络
+
+与仅使用最后一个输出的分类相反，我们在每个步骤进行预测，因此在每个步骤都计算损失。
+
+Autograd 的神奇之处在于，您可以简单地在每个步骤中对这些损失进行求和，然后在末尾调用。
+
+```py
+criterion = nn.NLLLoss()
+
+learning_rate = 0.0005
+
+def train(category_tensor, input_line_tensor, target_line_tensor):
+    target_line_tensor.unsqueeze_(-1)
+    hidden = rnn.initHidden()
+
+    rnn.zero_grad()
+
+    loss = 0
+
+    for i in range(input_line_tensor.size(0)):
+        output, hidden = rnn(category_tensor, input_line_tensor[i], hidden)
+        l = criterion(output, target_line_tensor[i])
+        loss += l
+
+    loss.backward()
+
+    for p in rnn.parameters():
+        p.data.add_(p.grad.data, alpha=-learning_rate)
+
+    return output, loss.item() / input_line_tensor.size(0)
+
+```
+
+为了跟踪训练需要多长时间，我添加了一个`timeSince(timestamp)`函数，该函数返回人类可读的字符串：
+
+```py
+import time
+import math
+
+def timeSince(since):
+    now = time.time()
+    s = now - since
+    m = math.floor(s / 60)
+    s -= m * 60
+    return '%dm %ds' % (m, s)
+
+```
+
+训练照常进行-召集训练多次并等待几分钟，每`print_every`个示例打印当前时间和损失，并在`all_losses`中保存每个`plot_every`实例的平均损失以供以后绘制。
+
+```py
+rnn = RNN(n_letters, 128, n_letters)
+
+n_iters = 100000
+print_every = 5000
+plot_every = 500
+all_losses = []
+total_loss = 0 # Reset every plot_every iters
+
+start = time.time()
+
+for iter in range(1, n_iters + 1):
+    output, loss = train(*randomTrainingExample())
+    total_loss += loss
+
+    if iter % print_every == 0:
+        print('%s (%d %d%%) %.4f' % (timeSince(start), iter, iter / n_iters * 100, loss))
+
+    if iter % plot_every == 0:
+        all_losses.append(total_loss / plot_every)
+        total_loss = 0
+
+```
+
+出：
+
+```py
+0m 26s (5000 5%) 3.2265
+0m 51s (10000 10%) 3.0171
+1m 16s (15000 15%) 2.1535
+1m 41s (20000 20%) 2.0806
+2m 7s (25000 25%) 2.3842
+2m 32s (30000 30%) 2.5014
+2m 57s (35000 35%) 2.2441
+3m 22s (40000 40%) 2.2113
+3m 47s (45000 45%) 2.1184
+4m 13s (50000 50%) 1.3983
+4m 38s (55000 55%) 2.5881
+5m 3s (60000 60%) 1.8033
+5m 29s (65000 65%) 2.4285
+5m 54s (70000 70%) 2.4198
+6m 20s (75000 75%) 2.9660
+6m 45s (80000 80%) 1.9752
+7m 11s (85000 85%) 3.7507
+7m 36s (90000 90%) 2.2044
+8m 2s (95000 95%) 2.8938
+8m 27s (100000 100%) 2.2471
+
+```
+
+### 绘制损失图
+
+绘制`all_loss`的历史损失可显示网络学习情况：
+
+```py
+import matplotlib.pyplot as plt
+import matplotlib.ticker as ticker
+
+plt.figure()
+plt.plot(all_losses)
+
+```
+
+![../_img/sphx_glr_char_rnn_generation_tutorial_001.png](img/5ad82e2b23a82287af2caa2fe4b316b3.png)
+
+## 网络采样
+
+为了示例，我们给网络一个字母，询问下一个字母是什么，将其作为下一个字母输入，并重复直到 EOS 标记。
+
+*   为输入类别，起始字母和空隐藏状态创建张量
+*   用起始字母创建一个字符串`output_name`
+*   直到最大输出长度，
+    *   将当前字母输入网络
+    *   从最高输出中获取下一个字母，以及下一个隐藏状态
+    *   如果字母是`EOS`，请在此处停止
+    *   如果是普通字母，请添加到`output_name`并继续
+*   返回姓氏
+
+注意
+
+不必给它起一个开始字母，另一种策略是在训练中包括一个“字符串开始”标记，并让网络选择自己的开始字母。
+
+```py
+max_length = 20
+
+# Sample from a category and starting letter
+def sample(category, start_letter='A'):
+    with torch.no_grad():  # no need to track history in sampling
+        category_tensor = categoryTensor(category)
+        input = inputTensor(start_letter)
+        hidden = rnn.initHidden()
+
+        output_name = start_letter
+
+        for i in range(max_length):
+            output, hidden = rnn(category_tensor, input[0], hidden)
+            topv, topi = output.topk(1)
+            topi = topi[0][0]
+            if topi == n_letters - 1:
+                break
+            else:
+                letter = all_letters[topi]
+                output_name += letter
+            input = inputTensor(letter)
+
+        return output_name
+
+# Get multiple samples from one category and multiple starting letters
+def samples(category, start_letters='ABC'):
+    for start_letter in start_letters:
+        print(sample(category, start_letter))
+
+samples('Russian', 'RUS')
+
+samples('German', 'GER')
+
+samples('Spanish', 'SPA')
+
+samples('Chinese', 'CHI')
+
+```
+
+出：
+
+```py
+Rovanov
+Uarinov
+Santovov
+Gangerten
+Erer
+Roure
+Salla
+Parera
+Allan
+Chin
+Han
+Iun
+
+```
+
+## 练习
+
+*   尝试使用类别 -> 行的其他数据集，例如：
+    *   虚构序列 -> 角色名称
+    *   词性 -> 词
+    *   国家 -> 城市
+*   使用“句子开头”标记，以便无需选择开始字母即可进行采样
+*   通过更大和/或形状更好的网络获得更好的结果
+    *   尝试`nn.LSTM`和`nn.GRU`层
+    *   将多个这些 RNN 合并为更高级别的网络
+
+**脚本的总运行时间**：（8 分钟 27.431 秒）
+
+[下载 Python 源码：`char_rnn_generation_tutorial.py`](../_downloads/8167177b6dd8ddf05bb9fe58744ac406/char_rnn_generation_tutorial.py)
+
+[下载 Jupyter 笔记本：`char_rnn_generation_tutorial.ipynb`](../_downloads/a35c00bb5afae3962e1e7869c66872fa/char_rnn_generation_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/30.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/30.md
new file mode 100644
index 00000000..6cf9743b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/30.md
@@ -0,0 +1,794 @@
+# 从零开始的 NLP：使用序列到序列网络和注意力的翻译
+
+> 原文：<https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html>
+
+**作者**： [Sean Robertson](https://github.com/spro/practical-pytorch)
+
+这是关于“从头开始进行 NLP”的第三篇也是最后一篇教程，我们在其中编写自己的类和函数来预处理数据以完成 NLP 建模任务。 我们希望在完成本教程后，您将继续学习紧接着本教程的三本教程，`torchtext`如何为您处理许多此类预处理。
+
+在这个项目中，我们将教授将法语翻译成英语的神经网络。
+
+```py
+[KEY: > input, = target, < output]
+
+> il est en train de peindre un tableau .
+= he is painting a picture .
+< he is painting a picture .
+
+> pourquoi ne pas essayer ce vin delicieux ?
+= why not try that delicious wine ?
+< why not try that delicious wine ?
+
+> elle n est pas poete mais romanciere .
+= she is not a poet but a novelist .
+< she not not a poet but a novelist .
+
+> vous etes trop maigre .
+= you re too skinny .
+< you re all alone .
+
+```
+
+……取得不同程度的成功。
+
+通过[序列到序列网络](https://arxiv.org/abs/1409.3215)的简单但强大的构想，使这成为可能，其中两个循环神经网络协同工作，将一个序列转换为另一个序列。 编码器网络将输入序列压缩为一个向量，而解码器网络将该向量展开为一个新序列。
+
+![](img/b01274082109b1019682274a0d4ca4d8.png)
+
+为了改进此模型，我们将使用[注意力机制](https://arxiv.org/abs/1409.0473)，该机制可使解码器学会专注于输入序列的特定范围。
+
+**推荐读物**：
+
+我假设您至少已经安装了 PyTorch，Python 和张量：
+
+*   [安装说明](https://pytorch.org/)
+*   [使用 PyTorch 进行深度学习：60 分钟的突击](../beginner/deep_learning_60min_blitz.html)通常开始使用 PyTorch
+*   [使用示例]学习 PyTorch(../beginner/pytorch_with_examples.html)
+*   [PyTorch（面向以前的 Torch 用户）](../beginner/former_torchies_tutorial.html)（如果您以前是 Lua Torch 用户）
+
+了解序列到序列网络及其工作方式也将很有用：
+
+*   [《使用 RNN 编解码器学习短语表示法进行统计机器翻译》](https://arxiv.org/abs/1406.1078)
+*   [《序列到神经网络的序列学习》](https://arxiv.org/abs/1409.3215)
+*   [《通过共同学习对齐和翻译的神经机器翻译》](https://arxiv.org/abs/1409.0473)
+*   [《神经对话模型》](https://arxiv.org/abs/1506.05869)
+
+您还将找到有关[《从零开始的 NLP：使用字符级 RNN 分类名称》](char_rnn_classification_tutorial.html)和[《从零开始的 NLP：使用字符级 RNN 生成名称》](char_rnn_generation_tutorial.html)的先前教程。 分别与编码器和解码器模型非常相似。
+
+有关更多信息，请阅读介绍以下主题的论文：
+
+*   [《使用 RNN 编解码器学习短语表示法进行统计机器翻译》](https://arxiv.org/abs/1406.1078)
+*   [《序列到序列神经网络的学习》](https://arxiv.org/abs/1409.3215)
+*   [《通过共同学习对齐和翻译的神经机器翻译》](https://arxiv.org/abs/1409.0473)
+*   [《神经对话模型》](https://arxiv.org/abs/1506.05869)
+
+**要求**
+
+```py
+from __future__ import unicode_literals, print_function, division
+from io import open
+import unicodedata
+import string
+import re
+import random
+
+import torch
+import torch.nn as nn
+from torch import optim
+import torch.nn.functional as F
+
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+```
+
+## 加载数据文件
+
+该项目的数据是成千上万的英语到法语翻译对的集合。
+
+[开放数据栈交换](https://opendata.stackexchange.com/questions/3888/dataset-of-sentences-translated-into-many-languages)上的这个问题使我指向[开放翻译站点](https://tatoeba.org/) ，该站点可从[这里](https://tatoeba.org/eng/downloads)下载。更好的是，有人在这里做了一些额外的工作，[将语言对拆分为单独的文本文件](https://www.manythings.org/anki/)。
+
+英文对法文对太大，无法包含在仓库中，因此请先下载到`data/eng-fra.txt`，然后再继续。 该文件是制表符分隔的翻译对列表：
+
+```py
+I am cold.    J'ai froid.
+
+```
+
+注意
+
+从的下载数据，并将其提取到当前目录。
+
+与字符级 RNN 教程中使用的字符编码类似，我们将一种语言中的每个单词表示为一个单向向量，或零个大向量（除单个单向索引外）（在单词的索引处）。 与某种语言中可能存在的数十个字符相比，单词更多很多，因此编码向量要大得多。 但是，我们将作弊并整理数据以使每种语言仅使用几千个单词。
+
+![](img/7fa129004e942671707f8f2d4fb80a20.png)
+
+我们将需要每个单词一个唯一的索引，以便以后用作网络的输入和目标。 为了跟踪所有这些，我们将使用一个名为`Lang`的帮助程序类，该类具有单词→索引（`word2index`）和索引→单词（`index2word`）字典，以及每个要使用的单词`word2count`的计数，以便以后替换稀有词。
+
+```py
+SOS_token = 0
+EOS_token = 1
+
+class Lang:
+    def __init__(self, name):
+        self.name = name
+        self.word2index = {}
+        self.word2count = {}
+        self.index2word = {0: "SOS", 1: "EOS"}
+        self.n_words = 2  # Count SOS and EOS
+
+    def addSentence(self, sentence):
+        for word in sentence.split(' '):
+            self.addWord(word)
+
+    def addWord(self, word):
+        if word not in self.word2index:
+            self.word2index[word] = self.n_words
+            self.word2count[word] = 1
+            self.index2word[self.n_words] = word
+            self.n_words += 1
+        else:
+            self.word2count[word] += 1
+
+```
+
+文件全部为 Unicode，为简化起见，我们将 Unicode 字符转换为 ASCII，将所有内容都转换为小写，并修剪大多数标点符号。
+
+```py
+# Turn a Unicode string to plain ASCII, thanks to
+# https://stackoverflow.com/a/518232/2809427
+def unicodeToAscii(s):
+    return ''.join(
+        c for c in unicodedata.normalize('NFD', s)
+        if unicodedata.category(c) != 'Mn'
+    )
+
+# Lowercase, trim, and remove non-letter characters
+
+def normalizeString(s):
+    s = unicodeToAscii(s.lower().strip())
+    s = re.sub(r"([.!?])", r" \1", s)
+    s = re.sub(r"[^a-zA-Z.!?]+", r" ", s)
+    return s
+
+```
+
+要读取数据文件，我们将文件拆分为几行，然后将几行拆分为两对。 这些文件都是英语→其他语言的，因此，如果我们要从其他语言→英语进行翻译，我添加了`reverse`标志来反转对。
+
+```py
+def readLangs(lang1, lang2, reverse=False):
+    print("Reading lines...")
+
+    # Read the file and split into lines
+    lines = open('data/%s-%s.txt' % (lang1, lang2), encoding='utf-8').\
+        read().strip().split('\n')
+
+    # Split every line into pairs and normalize
+    pairs = [[normalizeString(s) for s in l.split('\t')] for l in lines]
+
+    # Reverse pairs, make Lang instances
+    if reverse:
+        pairs = [list(reversed(p)) for p in pairs]
+        input_lang = Lang(lang2)
+        output_lang = Lang(lang1)
+    else:
+        input_lang = Lang(lang1)
+        output_lang = Lang(lang2)
+
+    return input_lang, output_lang, pairs
+
+```
+
+由于示例句子有很多，并且我们想快速训练一些东西，因此我们将数据集修剪为仅相对简短的句子。 在这里，最大长度为 10 个字（包括结尾的标点符号），我们正在过滤翻译成“我是”或“他是”等形式的句子（考虑到前面已替换掉撇号的情况）。
+
+```py
+MAX_LENGTH = 10
+
+eng_prefixes = (
+    "i am ", "i m ",
+    "he is", "he s ",
+    "she is", "she s ",
+    "you are", "you re ",
+    "we are", "we re ",
+    "they are", "they re "
+)
+
+def filterPair(p):
+    return len(p[0].split(' ')) < MAX_LENGTH and \
+        len(p[1].split(' ')) < MAX_LENGTH and \
+        p[1].startswith(eng_prefixes)
+
+def filterPairs(pairs):
+    return [pair for pair in pairs if filterPair(pair)]
+
+```
+
+准备数据的完整过程是：
+
+*   读取文本文件并拆分为行，将行拆分为偶对
+*   规范文本，按长度和内容过滤
+*   成对建立句子中的单词列表
+
+```py
+def prepareData(lang1, lang2, reverse=False):
+    input_lang, output_lang, pairs = readLangs(lang1, lang2, reverse)
+    print("Read %s sentence pairs" % len(pairs))
+    pairs = filterPairs(pairs)
+    print("Trimmed to %s sentence pairs" % len(pairs))
+    print("Counting words...")
+    for pair in pairs:
+        input_lang.addSentence(pair[0])
+        output_lang.addSentence(pair[1])
+    print("Counted words:")
+    print(input_lang.name, input_lang.n_words)
+    print(output_lang.name, output_lang.n_words)
+    return input_lang, output_lang, pairs
+
+input_lang, output_lang, pairs = prepareData('eng', 'fra', True)
+print(random.choice(pairs))
+
+```
+
+出：
+
+```py
+Reading lines...
+Read 135842 sentence pairs
+Trimmed to 10599 sentence pairs
+Counting words...
+Counted words:
+fra 4345
+eng 2803
+['il a l habitude des ordinateurs .', 'he is familiar with computers .']
+
+```
+
+## Seq2Seq 模型
+
+循环神经网络（RNN）是在序列上运行并将其自身的输出用作后续步骤的输入的网络。
+
+[序列到序列网络](https://arxiv.org/abs/1409.3215)或 seq2seq 网络或[编码器解码器网络](https://arxiv.org/pdf/1406.1078v3.pdf)是由两个称为编码器和解码器的 RNN 组成的模型。 编码器读取输入序列并输出单个向量，而解码器读取该向量以产生输出序列。
+
+![](img/b01274082109b1019682274a0d4ca4d8.png)
+
+与使用单个 RNN 进行序列预测（每个输入对应一个输出）不同，seq2seq 模型使我们摆脱了序列长度和顺序的限制，这使其非常适合两种语言之间的翻译。
+
+考虑一下句子`Je ne suis pas le chat noir -> I am not the black cat`。 输入句子中的大多数单词在输出句子中具有直接翻译，但是顺序略有不同，例如`chat noir`和`black cat`。 由于采用`ne/pas`结构，因此在输入句子中还有一个单词。 直接从输入单词的序列中产生正确的翻译将是困难的。
+
+使用 seq2seq 模型，编码器创建单个向量，在理想情况下，该向量将输入序列的“含义”编码为单个向量—在句子的 N 维空间中的单个点。
+
+### 编码器
+
+seq2seq 网络的编码器是 RNN，它为输入句子中的每个单词输出一些值。 对于每个输入字，编码器输出一个向量和一个隐藏状态，并将隐藏状态用于下一个输入字。
+
+![](img/9b7e299515676cf41cd2c0fd6ab1295d.png)
+
+```py
+class EncoderRNN(nn.Module):
+    def __init__(self, input_size, hidden_size):
+        super(EncoderRNN, self).__init__()
+        self.hidden_size = hidden_size
+
+        self.embedding = nn.Embedding(input_size, hidden_size)
+        self.gru = nn.GRU(hidden_size, hidden_size)
+
+    def forward(self, input, hidden):
+        embedded = self.embedding(input).view(1, 1, -1)
+        output = embedded
+        output, hidden = self.gru(output, hidden)
+        return output, hidden
+
+    def initHidden(self):
+        return torch.zeros(1, 1, self.hidden_size, device=device)
+
+```
+
+### 解码器
+
+解码器是另一个 RNN，它采用编码器输出向量并输出单词序列来创建翻译。
+
+#### 简单解码器
+
+在最简单的 seq2seq 解码器中，我们仅使用编码器的最后一个输出。 该最后的输出有时称为*上下文向量*，因为它从整个序列中编码上下文。 该上下文向量用作解码器的初始隐藏状态。
+
+在解码的每个步骤中，为解码器提供输入标记和隐藏状态。 初始输入标记是字符串开始`<SOS>`标记，第一个隐藏状态是上下文向量（编码器的最后一个隐藏状态）。
+
+![](img/34b376e0c7299810f7349ab99c2c5497.png)
+
+```py
+class DecoderRNN(nn.Module):
+    def __init__(self, hidden_size, output_size):
+        super(DecoderRNN, self).__init__()
+        self.hidden_size = hidden_size
+
+        self.embedding = nn.Embedding(output_size, hidden_size)
+        self.gru = nn.GRU(hidden_size, hidden_size)
+        self.out = nn.Linear(hidden_size, output_size)
+        self.softmax = nn.LogSoftmax(dim=1)
+
+    def forward(self, input, hidden):
+        output = self.embedding(input).view(1, 1, -1)
+        output = F.relu(output)
+        output, hidden = self.gru(output, hidden)
+        output = self.softmax(self.out(output[0]))
+        return output, hidden
+
+    def initHidden(self):
+        return torch.zeros(1, 1, self.hidden_size, device=device)
+
+```
+
+我鼓励您训练并观察该模型的结果，但是为了节省空间，我们将直接努力并引入注意力机制。
+
+#### 注意力解码器
+
+如果仅上下文向量在编码器和解码器之间传递，则该单个向量承担对整个句子进行编码的负担。
+
+注意使解码器网络可以针对解码器自身输出的每一步，“专注”于编码器输出的不同部分。 首先，我们计算一组*注意力权重*。 将这些与编码器输出向量相乘以创建加权组合。 结果（在代码中称为`attn_applied`）应包含有关输入序列特定部分的信息，从而帮助解码器选择正确的输出字。
+
+![](img/3313f4800c7d01049e2a2ef2079e5905.png)
+
+另一个前馈层`attn`使用解码器的输入和隐藏状态作为输入来计算注意力权重。 由于训练数据中包含各种大小的句子，因此要实际创建和训练该层，我们必须选择可以应用的最大句子长度（输入长度​​，用于编码器输出）。 最大长度的句子将使用所有注意权重，而较短的句子将仅使用前几个。
+
+![](img/32ec68a6e0d29efae32b0f50db877598.png)
+
+```py
+class AttnDecoderRNN(nn.Module):
+    def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH):
+        super(AttnDecoderRNN, self).__init__()
+        self.hidden_size = hidden_size
+        self.output_size = output_size
+        self.dropout_p = dropout_p
+        self.max_length = max_length
+
+        self.embedding = nn.Embedding(self.output_size, self.hidden_size)
+        self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
+        self.attn_combine = nn.Linear(self.hidden_size * 2, self.hidden_size)
+        self.dropout = nn.Dropout(self.dropout_p)
+        self.gru = nn.GRU(self.hidden_size, self.hidden_size)
+        self.out = nn.Linear(self.hidden_size, self.output_size)
+
+    def forward(self, input, hidden, encoder_outputs):
+        embedded = self.embedding(input).view(1, 1, -1)
+        embedded = self.dropout(embedded)
+
+        attn_weights = F.softmax(
+            self.attn(torch.cat((embedded[0], hidden[0]), 1)), dim=1)
+        attn_applied = torch.bmm(attn_weights.unsqueeze(0),
+                                 encoder_outputs.unsqueeze(0))
+
+        output = torch.cat((embedded[0], attn_applied[0]), 1)
+        output = self.attn_combine(output).unsqueeze(0)
+
+        output = F.relu(output)
+        output, hidden = self.gru(output, hidden)
+
+        output = F.log_softmax(self.out(output[0]), dim=1)
+        return output, hidden, attn_weights
+
+    def initHidden(self):
+        return torch.zeros(1, 1, self.hidden_size, device=device)
+
+```
+
+注意
+
+还有其他形式的注意，可以通过使用相对位置方法来解决长度限制问题。 在[《基于注意力的神经机器翻译的有效方法》](https://arxiv.org/abs/1508.04025)中阅读“本地注意力”。
+
+## 训练
+
+### 准备训练数据
+
+为了训练，对于每一对，我们将需要一个输入张量（输入句子中单词的索引）和目标张量（目标句子中单词的索引）。 创建这些向量时，我们会将`EOS`标记附加到两个序列上。
+
+```py
+def indexesFromSentence(lang, sentence):
+    return [lang.word2index[word] for word in sentence.split(' ')]
+
+def tensorFromSentence(lang, sentence):
+    indexes = indexesFromSentence(lang, sentence)
+    indexes.append(EOS_token)
+    return torch.tensor(indexes, dtype=torch.long, device=device).view(-1, 1)
+
+def tensorsFromPair(pair):
+    input_tensor = tensorFromSentence(input_lang, pair[0])
+    target_tensor = tensorFromSentence(output_lang, pair[1])
+    return (input_tensor, target_tensor)
+
+```
+
+### 训练模型
+
+为了训练，我们通过编码器运行输入语句，并跟踪每个输出和最新的隐藏状态。 然后，为解码器提供`<SOS>`标记作为其第一个输入，为编码器提供最后的隐藏状态作为其第一个隐藏状态。
+
+“教师强制”的概念是使用实际目标输出作为每个下一个输入，而不是使用解码器的猜测作为下一个输入。 使用教师强制会导致其收敛更快，但是当使用受过训练的网络时，[可能会显示不稳定](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.378.4095&rep=rep1&type=pdf)。
+
+您可以观察到以教师为主导的网络的输出，这些输出阅读的是连贯的语法，但是却偏离了正确的翻译-直观地，它已经学会了代表输出语法，并且一旦老师说了最初的几个单词就可以“理解”含义，但是首先，它还没有正确地学习如何从翻译中创建句子。
+
+由于 PyTorch 的 Autograd 具有给我们的自由，我们可以通过简单的`if`语句随意选择是否使用教师强迫。 调高`teacher_forcing_ratio`以使用更多。
+
+```py
+teacher_forcing_ratio = 0.5
+
+def train(input_tensor, target_tensor, encoder, decoder, encoder_optimizer, decoder_optimizer, criterion, max_length=MAX_LENGTH):
+    encoder_hidden = encoder.initHidden()
+
+    encoder_optimizer.zero_grad()
+    decoder_optimizer.zero_grad()
+
+    input_length = input_tensor.size(0)
+    target_length = target_tensor.size(0)
+
+    encoder_outputs = torch.zeros(max_length, encoder.hidden_size, device=device)
+
+    loss = 0
+
+    for ei in range(input_length):
+        encoder_output, encoder_hidden = encoder(
+            input_tensor[ei], encoder_hidden)
+        encoder_outputs[ei] = encoder_output[0, 0]
+
+    decoder_input = torch.tensor([[SOS_token]], device=device)
+
+    decoder_hidden = encoder_hidden
+
+    use_teacher_forcing = True if random.random() < teacher_forcing_ratio else False
+
+    if use_teacher_forcing:
+        # Teacher forcing: Feed the target as the next input
+        for di in range(target_length):
+            decoder_output, decoder_hidden, decoder_attention = decoder(
+                decoder_input, decoder_hidden, encoder_outputs)
+            loss += criterion(decoder_output, target_tensor[di])
+            decoder_input = target_tensor[di]  # Teacher forcing
+
+    else:
+        # Without teacher forcing: use its own predictions as the next input
+        for di in range(target_length):
+            decoder_output, decoder_hidden, decoder_attention = decoder(
+                decoder_input, decoder_hidden, encoder_outputs)
+            topv, topi = decoder_output.topk(1)
+            decoder_input = topi.squeeze().detach()  # detach from history as input
+
+            loss += criterion(decoder_output, target_tensor[di])
+            if decoder_input.item() == EOS_token:
+                break
+
+    loss.backward()
+
+    encoder_optimizer.step()
+    decoder_optimizer.step()
+
+    return loss.item() / target_length
+
+```
+
+这是一个帮助函数，用于在给定当前时间和进度% 的情况下打印经过的时间和估计的剩余时间。
+
+```py
+import time
+import math
+
+def asMinutes(s):
+    m = math.floor(s / 60)
+    s -= m * 60
+    return '%dm %ds' % (m, s)
+
+def timeSince(since, percent):
+    now = time.time()
+    s = now - since
+    es = s / (percent)
+    rs = es - s
+    return '%s (- %s)' % (asMinutes(s), asMinutes(rs))
+
+```
+
+整个训练过程如下所示：
+
+*   启动计时器
+*   初始化优化器和标准
+*   创建一组训练对
+*   启动空损失数组进行绘图
+
+然后，我们多次调用`train`，并偶尔打印进度（示例的百分比，到目前为止的时间，估计的时间）和平均损失。
+
+```py
+def trainIters(encoder, decoder, n_iters, print_every=1000, plot_every=100, learning_rate=0.01):
+    start = time.time()
+    plot_losses = []
+    print_loss_total = 0  # Reset every print_every
+    plot_loss_total = 0  # Reset every plot_every
+
+    encoder_optimizer = optim.SGD(encoder.parameters(), lr=learning_rate)
+    decoder_optimizer = optim.SGD(decoder.parameters(), lr=learning_rate)
+    training_pairs = [tensorsFromPair(random.choice(pairs))
+                      for i in range(n_iters)]
+    criterion = nn.NLLLoss()
+
+    for iter in range(1, n_iters + 1):
+        training_pair = training_pairs[iter - 1]
+        input_tensor = training_pair[0]
+        target_tensor = training_pair[1]
+
+        loss = train(input_tensor, target_tensor, encoder,
+                     decoder, encoder_optimizer, decoder_optimizer, criterion)
+        print_loss_total += loss
+        plot_loss_total += loss
+
+        if iter % print_every == 0:
+            print_loss_avg = print_loss_total / print_every
+            print_loss_total = 0
+            print('%s (%d %d%%) %.4f' % (timeSince(start, iter / n_iters),
+                                         iter, iter / n_iters * 100, print_loss_avg))
+
+        if iter % plot_every == 0:
+            plot_loss_avg = plot_loss_total / plot_every
+            plot_losses.append(plot_loss_avg)
+            plot_loss_total = 0
+
+    showPlot(plot_losses)
+
+```
+
+### 绘制结果
+
+使用训练时保存的损失值数组`plot_losses`，使用 matplotlib 进行绘制。
+
+```py
+import matplotlib.pyplot as plt
+plt.switch_backend('agg')
+import matplotlib.ticker as ticker
+import numpy as np
+
+def showPlot(points):
+    plt.figure()
+    fig, ax = plt.subplots()
+    # this locator puts ticks at regular intervals
+    loc = ticker.MultipleLocator(base=0.2)
+    ax.yaxis.set_major_locator(loc)
+    plt.plot(points)
+
+```
+
+## 评估
+
+评估与训练基本相同，但是没有目标，因此我们只需将解码器的预测反馈给每一步。 每当它预测一个单词时，我们都会将其添加到输出字符串中，如果它预测到`EOS`标记，我们将在此处停止。 我们还将存储解码器的注意输出，以供以后显示。
+
+```py
+def evaluate(encoder, decoder, sentence, max_length=MAX_LENGTH):
+    with torch.no_grad():
+        input_tensor = tensorFromSentence(input_lang, sentence)
+        input_length = input_tensor.size()[0]
+        encoder_hidden = encoder.initHidden()
+
+        encoder_outputs = torch.zeros(max_length, encoder.hidden_size, device=device)
+
+        for ei in range(input_length):
+            encoder_output, encoder_hidden = encoder(input_tensor[ei],
+                                                     encoder_hidden)
+            encoder_outputs[ei] += encoder_output[0, 0]
+
+        decoder_input = torch.tensor([[SOS_token]], device=device)  # SOS
+
+        decoder_hidden = encoder_hidden
+
+        decoded_words = []
+        decoder_attentions = torch.zeros(max_length, max_length)
+
+        for di in range(max_length):
+            decoder_output, decoder_hidden, decoder_attention = decoder(
+                decoder_input, decoder_hidden, encoder_outputs)
+            decoder_attentions[di] = decoder_attention.data
+            topv, topi = decoder_output.data.topk(1)
+            if topi.item() == EOS_token:
+                decoded_words.append('<EOS>')
+                break
+            else:
+                decoded_words.append(output_lang.index2word[topi.item()])
+
+            decoder_input = topi.squeeze().detach()
+
+        return decoded_words, decoder_attentions[:di + 1]
+
+```
+
+我们可以从训练集中评估随机句子，并打印出输入，目标和输出以做出一些主观的质量判断：
+
+```py
+def evaluateRandomly(encoder, decoder, n=10):
+    for i in range(n):
+        pair = random.choice(pairs)
+        print('>', pair[0])
+        print('=', pair[1])
+        output_words, attentions = evaluate(encoder, decoder, pair[0])
+        output_sentence = ' '.join(output_words)
+        print('<', output_sentence)
+        print('')
+
+```
+
+## 训练和评估
+
+有了所有这些辅助函数（看起来像是额外的工作，但它使运行多个实验更加容易），我们实际上可以初始化网络并开始训练。
+
+请记住，输入语句已被大量过滤。 对于这个小的数据集，我们可以使用具有 256 个隐藏节点和单个 GRU 层的相对较小的网络。 在 MacBook CPU 上运行约 40 分钟后，我们会得到一些合理的结果。
+
+注意
+
+如果运行此笔记本，则可以进行训练，中断内核，评估并在以后继续训练。 注释掉编码器和解码器已初始化的行，然后再次运行`trainIters`。
+
+```py
+hidden_size = 256
+encoder1 = EncoderRNN(input_lang.n_words, hidden_size).to(device)
+attn_decoder1 = AttnDecoderRNN(hidden_size, output_lang.n_words, dropout_p=0.1).to(device)
+
+trainIters(encoder1, attn_decoder1, 75000, print_every=5000)
+
+```
+
+*   ![../_img/sphx_glr_seq2seq_translation_tutorial_001.png](img/5015200eb4481feb8a71a658b384ec39.png)
+*   ![../_img/sphx_glr_seq2seq_translation_tutorial_002.png](img/89adff7333b116436cf785388029ba1a.png)
+
+出：
+
+```py
+2m 6s (- 29m 28s) (5000 6%) 2.8538
+4m 7s (- 26m 49s) (10000 13%) 2.3035
+6m 10s (- 24m 40s) (15000 20%) 1.9812
+8m 13s (- 22m 37s) (20000 26%) 1.7083
+10m 15s (- 20m 31s) (25000 33%) 1.5199
+12m 17s (- 18m 26s) (30000 40%) 1.3580
+14m 18s (- 16m 20s) (35000 46%) 1.2002
+16m 18s (- 14m 16s) (40000 53%) 1.0832
+18m 21s (- 12m 14s) (45000 60%) 0.9719
+20m 22s (- 10m 11s) (50000 66%) 0.8879
+22m 23s (- 8m 8s) (55000 73%) 0.8130
+24m 25s (- 6m 6s) (60000 80%) 0.7509
+26m 27s (- 4m 4s) (65000 86%) 0.6524
+28m 27s (- 2m 1s) (70000 93%) 0.6007
+30m 30s (- 0m 0s) (75000 100%) 0.5699
+
+```
+
+```py
+evaluateRandomly(encoder1, attn_decoder1)
+
+```
+
+出：
+
+```py
+> nous sommes desolees .
+= we re sorry .
+< we re sorry . <EOS>
+
+> tu plaisantes bien sur .
+= you re joking of course .
+< you re joking of course . <EOS>
+
+> vous etes trop stupide pour vivre .
+= you re too stupid to live .
+< you re too stupid to live . <EOS>
+
+> c est un scientifique de niveau international .
+= he s a world class scientist .
+< he is a successful person . <EOS>
+
+> j agis pour mon pere .
+= i am acting for my father .
+< i m trying to my father . <EOS>
+
+> ils courent maintenant .
+= they are running now .
+< they are running now . <EOS>
+
+> je suis tres heureux d etre ici .
+= i m very happy to be here .
+< i m very happy to be here . <EOS>
+
+> vous etes bonne .
+= you re good .
+< you re good . <EOS>
+
+> il a peur de la mort .
+= he is afraid of death .
+< he is afraid of death . <EOS>
+
+> je suis determine a devenir un scientifique .
+= i am determined to be a scientist .
+< i m ready to make a cold . <EOS>
+
+```
+
+### 可视化注意力
+
+注意力机制的一个有用特性是其高度可解释的输出。 因为它用于加权输入序列的特定编码器输出，所以我们可以想象一下在每个时间步长上网络最关注的位置。
+
+您可以简单地运行`plt.matshow(attentions)`以将注意力输出显示为矩阵，其中列为输入步骤，行为输出步骤：
+
+```py
+output_words, attentions = evaluate(
+    encoder1, attn_decoder1, "je suis trop froid .")
+plt.matshow(attentions.numpy())
+
+```
+
+![../_img/sphx_glr_seq2seq_translation_tutorial_003.png](img/5412faceb18bc6fa2823be3ae1bdfd8d.png)
+
+为了获得更好的观看体验，我们将做一些额外的工作来添加轴和标签：
+
+```py
+def showAttention(input_sentence, output_words, attentions):
+    # Set up figure with colorbar
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+    cax = ax.matshow(attentions.numpy(), cmap='bone')
+    fig.colorbar(cax)
+
+    # Set up axes
+    ax.set_xticklabels([''] + input_sentence.split(' ') +
+                       ['<EOS>'], rotation=90)
+    ax.set_yticklabels([''] + output_words)
+
+    # Show label at every tick
+    ax.xaxis.set_major_locator(ticker.MultipleLocator(1))
+    ax.yaxis.set_major_locator(ticker.MultipleLocator(1))
+
+    plt.show()
+
+def evaluateAndShowAttention(input_sentence):
+    output_words, attentions = evaluate(
+        encoder1, attn_decoder1, input_sentence)
+    print('input =', input_sentence)
+    print('output =', ' '.join(output_words))
+    showAttention(input_sentence, output_words, attentions)
+
+evaluateAndShowAttention("elle a cinq ans de moins que moi .")
+
+evaluateAndShowAttention("elle est trop petit .")
+
+evaluateAndShowAttention("je ne crains pas de mourir .")
+
+evaluateAndShowAttention("c est un jeune directeur plein de talent .")
+
+```
+
+*   ![../_img/sphx_glr_seq2seq_translation_tutorial_004.png](img/6e09db671ada03c61bdd1f32b6a7624b.png)
+*   ![../_img/sphx_glr_seq2seq_translation_tutorial_005.png](img/08bcfed65e8ab03ac7f380e20d421434.png)
+*   ![../_img/sphx_glr_seq2seq_translation_tutorial_006.png](img/b1ba956974f3e844b0b0cea490cc1148.png)
+*   ![../_img/sphx_glr_seq2seq_translation_tutorial_007.png](img/1226e2e8b7633b50c2c45ce699d8f71f.png)
+
+出：
+
+```py
+input = elle a cinq ans de moins que moi .
+output = she s five years younger than i am . <EOS>
+input = elle est trop petit .
+output = she s too loud . <EOS>
+input = je ne crains pas de mourir .
+output = i m not scared to die . <EOS>
+input = c est un jeune directeur plein de talent .
+output = he s a talented young writer . <EOS>
+
+```
+
+## 练习
+
+*   尝试使用其他数据集
+    *   另一对语言
+    *   人机 → 机器（例如 IOT 命令）
+    *   聊天 → 回复
+    *   问题 → 答案
+*   用预训练的单词嵌入（例如 word2vec 或 GloVe）替换嵌入
+*   尝试使用更多的层，更多的隐藏单元和更多的句子。 比较训练时间和结果。
+*   如果您使用翻译对，其中成对具有两个相同的词组（`I am test \t I am test`），则可以将其用作自编码器。 尝试这个：
+    *   训练为自编码器
+    *   仅保存编码器网络
+    *   从那里训练新的解码器进行翻译
+
+**脚本的总运行时间**：（30 分钟 37.929 秒）
+
+[下载 Python 源码：`seq2seq_translation_tutorial.py`](../_downloads/a96a2daac1918ec72f68233dfe3f2c47/seq2seq_translation_tutorial.py)
+
+[下载 Jupyter 笔记本：`seq2seq_translation_tutorial.ipynb`](../_downloads/a60617788061539b5449701ae76aee56/seq2seq_translation_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/31.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/31.md
new file mode 100644
index 00000000..45173424
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/31.md
@@ -0,0 +1,348 @@
+# 使用`torchtext`的文本分类
+
+> 原文：<https://pytorch.org/tutorials/beginner/text_sentiment_ngrams_tutorial.html>
+
+本教程说明如何使用`torchtext`中的文本分类数据集，包括
+
+```py
+- AG_NEWS,
+- SogouNews,
+- DBpedia,
+- YelpReviewPolarity,
+- YelpReviewFull,
+- YahooAnswers,
+- AmazonReviewPolarity,
+- AmazonReviewFull
+
+```
+
+此示例显示了如何使用这些`TextClassification`数据集之一训练用于分类的监督学习算法。
+
+## 使用 N 元组加载数据
+
+一袋 N 元组特征用于捕获有关本地单词顺序的一些部分信息。 在实践中，应用二元语法或三元语法作为单词组比仅一个单词提供更多的好处。 一个例子：
+
+```py
+"load data with ngrams"
+Bi-grams results: "load data", "data with", "with ngrams"
+Tri-grams results: "load data with", "data with ngrams"
+
+```
+
+`TextClassification`数据集支持`ngrams`方法。 通过将`ngrams`设置为 2，数据集中的示例文本将是一个单字加二元组字符串的列表。
+
+```py
+import torch
+import torchtext
+from torchtext.datasets import text_classification
+NGRAMS = 2
+import os
+if not os.path.isdir('./.data'):
+    os.mkdir('./.data')
+train_dataset, test_dataset = text_classification.DATASETS['AG_NEWS'](
+    root='./.data', ngrams=NGRAMS, vocab=None)
+BATCH_SIZE = 16
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+```
+
+## 定义模型
+
+该模型由[`EmbeddingBag`](https://pytorch.org/docs/stable/nn.html?highlight=embeddingbag#torch.nn.EmbeddingBag)层和线性层组成（请参见下图）。 `nn.EmbeddingBag`计算嵌入“袋”的平均值。 此处的文本条目具有不同的长度。 `nn.EmbeddingBag`此处不需要填充，因为文本长度以偏移量保存。
+
+另外，由于`nn.EmbeddingBag`会动态累积嵌入中的平均值，因此`nn.EmbeddingBag`可以提高性能和存储效率，以处理张量序列。
+
+![../_img/text_sentiment_ngrams_model.png](img/30f766e7717c0e45a583a4f58ebc322a.png)
+
+```py
+import torch.nn as nn
+import torch.nn.functional as F
+class TextSentiment(nn.Module):
+    def __init__(self, vocab_size, embed_dim, num_class):
+        super().__init__()
+        self.embedding = nn.EmbeddingBag(vocab_size, embed_dim, sparse=True)
+        self.fc = nn.Linear(embed_dim, num_class)
+        self.init_weights()
+
+    def init_weights(self):
+        initrange = 0.5
+        self.embedding.weight.data.uniform_(-initrange, initrange)
+        self.fc.weight.data.uniform_(-initrange, initrange)
+        self.fc.bias.data.zero_()
+
+    def forward(self, text, offsets):
+        embedded = self.embedding(text, offsets)
+        return self.fc(embedded)
+
+```
+
+## 启动实例
+
+`AG_NEWS`数据集具有四个标签，因此类别数是四个。
+
+```py
+1 : World
+2 : Sports
+3 : Business
+4 : Sci/Tec
+
+```
+
+词汇的大小等于词汇的长度（包括单个单词和 N 元组）。 类的数量等于标签的数量，在`AG_NEWS`情况下为 4。
+
+```py
+VOCAB_SIZE = len(train_dataset.get_vocab())
+EMBED_DIM = 32
+NUN_CLASS = len(train_dataset.get_labels())
+model = TextSentiment(VOCAB_SIZE, EMBED_DIM, NUN_CLASS).to(device)
+
+```
+
+## 用于生成批量的函数
+
+由于文本条目的长度不同，因此使用自定义函数`generate_batch()`生成数据批和偏移量。 该函数被传递到`torch.utils.data.DataLoader`中的`collate_fn`。 `collate_fn`的输入是张量列表，其大小为`batch_size`，`collate_fn`函数将它们打包成一个小批量。 请注意此处，并确保将`collate_fn`声明为顶级`def`。 这样可以确保该函数在每个工作程序中均可用。
+
+原始数据批量输入中的文本条目打包到一个列表中，并作为单个张量级联，作为`nn.EmbeddingBag`的输入。 偏移量是定界符的张量，表示文本张量中各个序列的起始索引。 `Label`是一个张量，用于保存单个文本条目的标签。
+
+```py
+def generate_batch(batch):
+    label = torch.tensor([entry[0] for entry in batch])
+    text = [entry[1] for entry in batch]
+    offsets = [0] + [len(entry) for entry in text]
+    # torch.Tensor.cumsum returns the cumulative sum
+    # of elements in the dimension dim.
+    # torch.Tensor([1.0, 2.0, 3.0]).cumsum(dim=0)
+
+    offsets = torch.tensor(offsets[:-1]).cumsum(dim=0)
+    text = torch.cat(text)
+    return text, offsets, label
+
+```
+
+## 定义函数来训练模型并评估结果
+
+建议 PyTorch 用户使用[`torch.utils.data.DataLoader`](https://pytorch.org/docs/stable/data.html?highlight=dataloader#torch.utils.data.DataLoader)，它可以轻松地并行加载数据（[教程在这里](https://pytorch.org/tutorials/beginner/data_loading_tutorial.html)）。 我们在此处使用`DataLoader`加载`AG_NEWS`数据集，并将其发送到模型以进行训练/验证。
+
+```py
+from torch.utils.data import DataLoader
+
+def train_func(sub_train_):
+
+    # Train the model
+    train_loss = 0
+    train_acc = 0
+    data = DataLoader(sub_train_, batch_size=BATCH_SIZE, shuffle=True,
+                      collate_fn=generate_batch)
+    for i, (text, offsets, cls) in enumerate(data):
+        optimizer.zero_grad()
+        text, offsets, cls = text.to(device), offsets.to(device), cls.to(device)
+        output = model(text, offsets)
+        loss = criterion(output, cls)
+        train_loss += loss.item()
+        loss.backward()
+        optimizer.step()
+        train_acc += (output.argmax(1) == cls).sum().item()
+
+    # Adjust the learning rate
+    scheduler.step()
+
+    return train_loss / len(sub_train_), train_acc / len(sub_train_)
+
+def test(data_):
+    loss = 0
+    acc = 0
+    data = DataLoader(data_, batch_size=BATCH_SIZE, collate_fn=generate_batch)
+    for text, offsets, cls in data:
+        text, offsets, cls = text.to(device), offsets.to(device), cls.to(device)
+        with torch.no_grad():
+            output = model(text, offsets)
+            loss = criterion(output, cls)
+            loss += loss.item()
+            acc += (output.argmax(1) == cls).sum().item()
+
+    return loss / len(data_), acc / len(data_)
+
+```
+
+## 分割数据集并运行模型
+
+由于原始的`AG_NEWS`没有有效的数据集，因此我们将训练数据集分为训练/有效集，其分割比率为 0.95（训练）和 0.05（有效）。 在这里，我们在 PyTorch 核心库中使用[`torch.utils.data.dataset.random_split`](https://pytorch.org/docs/stable/data.html?highlight=random_split#torch.utils.data.random_split)函数。
+
+[`CrossEntropyLoss`](https://pytorch.org/docs/stable/nn.html?highlight=crossentropyloss#torch.nn.CrossEntropyLoss)标准将`nn.LogSoftmax()`和`nn.NLLLoss()`合并到一个类中。 在训练带有`C`类的分类问题时很有用。 [`SGD`](https://pytorch.org/docs/stable/_modules/torch/optim/sgd.html)实现了随机梯度下降方法作为优化程序。 初始学习率设置为 4.0。 [`StepLR`](https://pytorch.org/docs/master/_modules/torch/optim/lr_scheduler.html#StepLR)在此处用于通过历时调整学习率。
+
+```py
+import time
+from torch.utils.data.dataset import random_split
+N_EPOCHS = 5
+min_valid_loss = float('inf')
+
+criterion = torch.nn.CrossEntropyLoss().to(device)
+optimizer = torch.optim.SGD(model.parameters(), lr=4.0)
+scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1, gamma=0.9)
+
+train_len = int(len(train_dataset) * 0.95)
+sub_train_, sub_valid_ = \
+    random_split(train_dataset, [train_len, len(train_dataset) - train_len])
+
+for epoch in range(N_EPOCHS):
+
+    start_time = time.time()
+    train_loss, train_acc = train_func(sub_train_)
+    valid_loss, valid_acc = test(sub_valid_)
+
+    secs = int(time.time() - start_time)
+    mins = secs / 60
+    secs = secs % 60
+
+    print('Epoch: %d' %(epoch + 1), " | time in %d minutes, %d seconds" %(mins, secs))
+    print(f'\tLoss: {train_loss:.4f}(train)\t|\tAcc: {train_acc * 100:.1f}%(train)')
+    print(f'\tLoss: {valid_loss:.4f}(valid)\t|\tAcc: {valid_acc * 100:.1f}%(valid)')
+
+```
+
+出：
+
+```py
+Epoch: 1  | time in 0 minutes, 11 seconds
+        Loss: 0.0262(train)     |       Acc: 84.7%(train)
+        Loss: 0.0002(valid)     |       Acc: 89.3%(valid)
+Epoch: 2  | time in 0 minutes, 11 seconds
+        Loss: 0.0119(train)     |       Acc: 93.6%(train)
+        Loss: 0.0002(valid)     |       Acc: 89.6%(valid)
+Epoch: 3  | time in 0 minutes, 11 seconds
+        Loss: 0.0069(train)     |       Acc: 96.3%(train)
+        Loss: 0.0000(valid)     |       Acc: 91.8%(valid)
+Epoch: 4  | time in 0 minutes, 11 seconds
+        Loss: 0.0038(train)     |       Acc: 98.1%(train)
+        Loss: 0.0000(valid)     |       Acc: 91.5%(valid)
+Epoch: 5  | time in 0 minutes, 11 seconds
+        Loss: 0.0022(train)     |       Acc: 99.0%(train)
+        Loss: 0.0000(valid)     |       Acc: 91.4%(valid)
+
+```
+
+使用以下信息在 GPU 上运行模型：
+
+周期：1 | 时间在 0 分 11 秒内
+
+```py
+Loss: 0.0263(train)     |       Acc: 84.5%(train)
+Loss: 0.0001(valid)     |       Acc: 89.0%(valid)
+
+```
+
+周期：2 | 时间在 0 分钟 10 秒内
+
+```py
+Loss: 0.0119(train)     |       Acc: 93.6%(train)
+Loss: 0.0000(valid)     |       Acc: 89.6%(valid)
+
+```
+
+周期：3 | 时间在 0 分钟 9 秒内
+
+```py
+Loss: 0.0069(train)     |       Acc: 96.4%(train)
+Loss: 0.0000(valid)     |       Acc: 90.5%(valid)
+
+```
+
+周期：4 | 时间在 0 分 11 秒内
+
+```py
+Loss: 0.0038(train)     |       Acc: 98.2%(train)
+Loss: 0.0000(valid)     |       Acc: 90.4%(valid)
+
+```
+
+周期：5 | 时间在 0 分 11 秒内
+
+```py
+Loss: 0.0022(train)     |       Acc: 99.0%(train)
+Loss: 0.0000(valid)     |       Acc: 91.0%(valid)
+
+```
+
+## 使用测试数据集评估模型
+
+```py
+print('Checking the results of test dataset...')
+test_loss, test_acc = test(test_dataset)
+print(f'\tLoss: {test_loss:.4f}(test)\t|\tAcc: {test_acc * 100:.1f}%(test)')
+
+```
+
+出：
+
+```py
+Checking the results of test dataset...
+        Loss: 0.0002(test)      |       Acc: 90.9%(test)
+
+```
+
+正在检查测试数据集的结果…
+
+```py
+Loss: 0.0237(test)      |       Acc: 90.5%(test)
+
+```
+
+## 测试随机新闻
+
+使用到目前为止最好的模型并测试高尔夫新闻。 标签信息在[这里](https://pytorch.org/text/datasets.html?highlight=ag_news#torchtext.datasets.AG_NEWS)。
+
+```py
+import re
+from torchtext.data.utils import ngrams_iterator
+from torchtext.data.utils import get_tokenizer
+
+ag_news_label = {1 : "World",
+                 2 : "Sports",
+                 3 : "Business",
+                 4 : "Sci/Tec"}
+
+def predict(text, model, vocab, ngrams):
+    tokenizer = get_tokenizer("basic_english")
+    with torch.no_grad():
+        text = torch.tensor([vocab[token]
+                            for token in ngrams_iterator(tokenizer(text), ngrams)])
+        output = model(text, torch.tensor([0]))
+        return output.argmax(1).item() + 1
+
+ex_text_str = "MEMPHIS, Tenn. – Four days ago, Jon Rahm was \
+    enduring the season's worst weather conditions on Sunday at The \
+    Open on his way to a closing 75 at Royal Portrush, which \
+    considering the wind and the rain was a respectable showing. \
+    Thursday's first round at the WGC-FedEx St. Jude Invitational \
+    was another story. With temperatures in the mid-80s and hardly any \
+    wind, the Spaniard was 13 strokes better in a flawless round. \
+    Thanks to his best putting performance on the PGA Tour, Rahm \
+    finished with an 8-under 62 for a three-stroke lead, which \
+    was even more impressive considering he'd never played the \
+    front nine at TPC Southwind."
+
+vocab = train_dataset.get_vocab()
+model = model.to("cpu")
+
+print("This is a %s news" %ag_news_label[predict(ex_text_str, model, vocab, 2)])
+
+```
+
+出：
+
+```py
+This is a Sports news
+
+```
+
+这是体育新闻
+
+[您可以在此处找到本说明中显示的代码示例](https://github.com/pytorch/text/tree/master/examples/text_classification)。
+
+**脚本的总运行时间**：（1 分 38.483 秒）
+
+[下载 Python 源码：`text_sentiment_ngrams_tutorial.py`](../_downloads/1824f32965271d21829e1739cc434729/text_sentiment_ngrams_tutorial.py)
+
+[下载 Jupyter 笔记本：`text_sentiment_ngrams_tutorial.ipynb`](../_downloads/27bd42079e7f46673b53e90153168529/text_sentiment_ngrams_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/32.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/32.md
new file mode 100644
index 00000000..2fd00207
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/32.md
@@ -0,0 +1,501 @@
+# `torchtext`语言翻译
+
+> 原文：<https://pytorch.org/tutorials/beginner/torchtext_translation_tutorial.html>
+
+本教程介绍了如何使用`torchtext`预处理包含英语和德语句子的著名数据集的数据，并使用它来训练序列到序列模型，并能将德语句子翻译成英语。
+
+它基于 PyTorch 社区成员 [Ben Trevett](https://github.com/bentrevett) 的本教程，并获得 Ben 的许可。 我们通过删除一些旧代码来更新教程。
+
+在本教程结束时，您将可以将句子预处理为张量以用于 NLP 建模，并可以使用[`torch.utils.data.DataLoader`](https://pytorch.org/docs/stable/data.html?highlight=dataloader#torch.utils.data.DataLoader)来训练和验证模型。
+
+## 数据处理
+
+`torchtext`具有工具，可用于创建可以轻松迭代的数据集，以创建语言翻译模型。 在此示例中，我们展示了如何对原始文本句子进行标记，构建词汇表以及将标记数字化为张量。
+
+注意：本教程中的分词需要 [Spacy](https://spacy.io) 我们使用 Spacy 是因为它为英语以外的其他语言的分词提供了强大的支持。 `torchtext`提供了`basic_english`标记器，并支持其他英语标记器（例如 [Moses](https://bitbucket.org/luismsgomes/mosestokenizer/src/default/)），但对于语言翻译（需要多种语言），Spacy 是您的最佳选择。
+
+要运行本教程，请先使用`pip`或`conda`安装`spacy`。 接下来，下载英语和德语 Spacy 分词器的原始数据：
+
+```py
+python -m spacy download en
+python -m spacy download de
+
+```
+
+```py
+import torchtext
+import torch
+from torchtext.data.utils import get_tokenizer
+from collections import Counter
+from torchtext.vocab import Vocab
+from torchtext.utils import download_from_url, extract_archive
+import io
+
+url_base = 'https://raw.githubusercontent.com/multi30k/dataset/master/data/task1/raw/'
+train_urls = ('train.de.gz', 'train.en.gz')
+val_urls = ('val.de.gz', 'val.en.gz')
+test_urls = ('test_2016_flickr.de.gz', 'test_2016_flickr.en.gz')
+
+train_filepaths = [extract_archive(download_from_url(url_base + url))[0] for url in train_urls]
+val_filepaths = [extract_archive(download_from_url(url_base + url))[0] for url in val_urls]
+test_filepaths = [extract_archive(download_from_url(url_base + url))[0] for url in test_urls]
+
+de_tokenizer = get_tokenizer('spacy', language='de')
+en_tokenizer = get_tokenizer('spacy', language='en')
+
+def build_vocab(filepath, tokenizer):
+  counter = Counter()
+  with io.open(filepath, encoding="utf8") as f:
+    for string_ in f:
+      counter.update(tokenizer(string_))
+  return Vocab(counter, specials=['<unk>', '<pad>', '<bos>', '<eos>'])
+
+de_vocab = build_vocab(train_filepaths[0], de_tokenizer)
+en_vocab = build_vocab(train_filepaths[1], en_tokenizer)
+
+def data_process(filepaths):
+  raw_de_iter = iter(io.open(filepaths[0], encoding="utf8"))
+  raw_en_iter = iter(io.open(filepaths[1], encoding="utf8"))
+  data = []
+  for (raw_de, raw_en) in zip(raw_de_iter, raw_en_iter):
+    de_tensor_ = torch.tensor([de_vocab[token] for token in de_tokenizer(raw_de)],
+                            dtype=torch.long)
+    en_tensor_ = torch.tensor([en_vocab[token] for token in en_tokenizer(raw_en)],
+                            dtype=torch.long)
+    data.append((de_tensor_, en_tensor_))
+  return data
+
+train_data = data_process(train_filepaths)
+val_data = data_process(val_filepaths)
+test_data = data_process(test_filepaths)
+
+```
+
+## `DataLoader`
+
+我们将使用的最后`torch`个特定函数是`DataLoader`，它易于使用，因为它将数据作为第一个参数。 具体来说，正如文档所说：`DataLoader`结合了一个数据集和一个采样器，并在给定的数据集上提供了可迭代的。 `DataLoader`支持映射样式和可迭代样式的数据集，具有单进程或多进程加载，自定义加载顺序以及可选的自动批量（归类）和内存固定。
+
+请注意`collate_fn`（可选），它将合并样本列表以形成张量的小批量。 在从映射样式数据集中使用批量加载时使用。
+
+```py
+import torch
+
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+
+BATCH_SIZE = 128
+PAD_IDX = de_vocab['<pad>']
+BOS_IDX = de_vocab['<bos>']
+EOS_IDX = de_vocab['<eos>']
+
+from torch.nn.utils.rnn import pad_sequence
+from torch.utils.data import DataLoader
+
+def generate_batch(data_batch):
+  de_batch, en_batch = [], []
+  for (de_item, en_item) in data_batch:
+    de_batch.append(torch.cat([torch.tensor([BOS_IDX]), de_item, torch.tensor([EOS_IDX])], dim=0))
+    en_batch.append(torch.cat([torch.tensor([BOS_IDX]), en_item, torch.tensor([EOS_IDX])], dim=0))
+  de_batch = pad_sequence(de_batch, padding_value=PAD_IDX)
+  en_batch = pad_sequence(en_batch, padding_value=PAD_IDX)
+  return de_batch, en_batch
+
+train_iter = DataLoader(train_data, batch_size=BATCH_SIZE,
+                        shuffle=True, collate_fn=generate_batch)
+valid_iter = DataLoader(val_data, batch_size=BATCH_SIZE,
+                        shuffle=True, collate_fn=generate_batch)
+test_iter = DataLoader(test_data, batch_size=BATCH_SIZE,
+                       shuffle=True, collate_fn=generate_batch)
+
+```
+
+## 定义我们的`nn.Module`和`Optimizer`
+
+这大部分是从`torchtext`角度出发的：构建了数据集并定义了迭代器，本教程的其余部分仅将模型定义为`nn.Module`以及`Optimizer`，然后对其进行训练。
+
+具体来说，我们的模型遵循[此处描述的架构](https://arxiv.org/abs/1409.0473)（您可以在[这里](https://github.com/SethHWeidman/pytorch-seq2seq/blob/master/3%20-%20Neural%20Machine%20Translation%20by%20Jointly%20Learning%20to%20Align%20and%20Translate.ipynb)找到注释更多的版本。
+
+注意：此模型只是可用于语言翻译的示例模型； 我们选择它是因为它是任务的标准模型，而不是因为它是用于翻译的推荐模型。 如您所知，目前最先进的模型基于“转换器”； 您可以看到 PyTorch 的实现[`Transformer`](https://pytorch.org/docs/stable/nn.html#transformer-layers)层的功能； 特别是，以下模型中使用的“注意”与转换器模型中存在的多头自我注意不同。
+
+```py
+import random
+from typing import Tuple
+
+import torch.nn as nn
+import torch.optim as optim
+import torch.nn.functional as F
+from torch import Tensor
+
+class Encoder(nn.Module):
+    def __init__(self,
+                 input_dim: int,
+                 emb_dim: int,
+                 enc_hid_dim: int,
+                 dec_hid_dim: int,
+                 dropout: float):
+        super().__init__()
+
+        self.input_dim = input_dim
+        self.emb_dim = emb_dim
+        self.enc_hid_dim = enc_hid_dim
+        self.dec_hid_dim = dec_hid_dim
+        self.dropout = dropout
+
+        self.embedding = nn.Embedding(input_dim, emb_dim)
+
+        self.rnn = nn.GRU(emb_dim, enc_hid_dim, bidirectional = True)
+
+        self.fc = nn.Linear(enc_hid_dim * 2, dec_hid_dim)
+
+        self.dropout = nn.Dropout(dropout)
+
+    def forward(self,
+                src: Tensor) -> Tuple[Tensor]:
+
+        embedded = self.dropout(self.embedding(src))
+
+        outputs, hidden = self.rnn(embedded)
+
+        hidden = torch.tanh(self.fc(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim = 1)))
+
+        return outputs, hidden
+
+class Attention(nn.Module):
+    def __init__(self,
+                 enc_hid_dim: int,
+                 dec_hid_dim: int,
+                 attn_dim: int):
+        super().__init__()
+
+        self.enc_hid_dim = enc_hid_dim
+        self.dec_hid_dim = dec_hid_dim
+
+        self.attn_in = (enc_hid_dim * 2) + dec_hid_dim
+
+        self.attn = nn.Linear(self.attn_in, attn_dim)
+
+    def forward(self,
+                decoder_hidden: Tensor,
+                encoder_outputs: Tensor) -> Tensor:
+
+        src_len = encoder_outputs.shape[0]
+
+        repeated_decoder_hidden = decoder_hidden.unsqueeze(1).repeat(1, src_len, 1)
+
+        encoder_outputs = encoder_outputs.permute(1, 0, 2)
+
+        energy = torch.tanh(self.attn(torch.cat((
+            repeated_decoder_hidden,
+            encoder_outputs),
+            dim = 2)))
+
+        attention = torch.sum(energy, dim=2)
+
+        return F.softmax(attention, dim=1)
+
+class Decoder(nn.Module):
+    def __init__(self,
+                 output_dim: int,
+                 emb_dim: int,
+                 enc_hid_dim: int,
+                 dec_hid_dim: int,
+                 dropout: int,
+                 attention: nn.Module):
+        super().__init__()
+
+        self.emb_dim = emb_dim
+        self.enc_hid_dim = enc_hid_dim
+        self.dec_hid_dim = dec_hid_dim
+        self.output_dim = output_dim
+        self.dropout = dropout
+        self.attention = attention
+
+        self.embedding = nn.Embedding(output_dim, emb_dim)
+
+        self.rnn = nn.GRU((enc_hid_dim * 2) + emb_dim, dec_hid_dim)
+
+        self.out = nn.Linear(self.attention.attn_in + emb_dim, output_dim)
+
+        self.dropout = nn.Dropout(dropout)
+
+    def _weighted_encoder_rep(self,
+                              decoder_hidden: Tensor,
+                              encoder_outputs: Tensor) -> Tensor:
+
+        a = self.attention(decoder_hidden, encoder_outputs)
+
+        a = a.unsqueeze(1)
+
+        encoder_outputs = encoder_outputs.permute(1, 0, 2)
+
+        weighted_encoder_rep = torch.bmm(a, encoder_outputs)
+
+        weighted_encoder_rep = weighted_encoder_rep.permute(1, 0, 2)
+
+        return weighted_encoder_rep
+
+    def forward(self,
+                input: Tensor,
+                decoder_hidden: Tensor,
+                encoder_outputs: Tensor) -> Tuple[Tensor]:
+
+        input = input.unsqueeze(0)
+
+        embedded = self.dropout(self.embedding(input))
+
+        weighted_encoder_rep = self._weighted_encoder_rep(decoder_hidden,
+                                                          encoder_outputs)
+
+        rnn_input = torch.cat((embedded, weighted_encoder_rep), dim = 2)
+
+        output, decoder_hidden = self.rnn(rnn_input, decoder_hidden.unsqueeze(0))
+
+        embedded = embedded.squeeze(0)
+        output = output.squeeze(0)
+        weighted_encoder_rep = weighted_encoder_rep.squeeze(0)
+
+        output = self.out(torch.cat((output,
+                                     weighted_encoder_rep,
+                                     embedded), dim = 1))
+
+        return output, decoder_hidden.squeeze(0)
+
+class Seq2Seq(nn.Module):
+    def __init__(self,
+                 encoder: nn.Module,
+                 decoder: nn.Module,
+                 device: torch.device):
+        super().__init__()
+
+        self.encoder = encoder
+        self.decoder = decoder
+        self.device = device
+
+    def forward(self,
+                src: Tensor,
+                trg: Tensor,
+                teacher_forcing_ratio: float = 0.5) -> Tensor:
+
+        batch_size = src.shape[1]
+        max_len = trg.shape[0]
+        trg_vocab_size = self.decoder.output_dim
+
+        outputs = torch.zeros(max_len, batch_size, trg_vocab_size).to(self.device)
+
+        encoder_outputs, hidden = self.encoder(src)
+
+        # first input to the decoder is the <sos> token
+        output = trg[0,:]
+
+        for t in range(1, max_len):
+            output, hidden = self.decoder(output, hidden, encoder_outputs)
+            outputs[t] = output
+            teacher_force = random.random() < teacher_forcing_ratio
+            top1 = output.max(1)[1]
+            output = (trg[t] if teacher_force else top1)
+
+        return outputs
+
+INPUT_DIM = len(de_vocab)
+OUTPUT_DIM = len(en_vocab)
+# ENC_EMB_DIM = 256
+# DEC_EMB_DIM = 256
+# ENC_HID_DIM = 512
+# DEC_HID_DIM = 512
+# ATTN_DIM = 64
+# ENC_DROPOUT = 0.5
+# DEC_DROPOUT = 0.5
+
+ENC_EMB_DIM = 32
+DEC_EMB_DIM = 32
+ENC_HID_DIM = 64
+DEC_HID_DIM = 64
+ATTN_DIM = 8
+ENC_DROPOUT = 0.5
+DEC_DROPOUT = 0.5
+
+enc = Encoder(INPUT_DIM, ENC_EMB_DIM, ENC_HID_DIM, DEC_HID_DIM, ENC_DROPOUT)
+
+attn = Attention(ENC_HID_DIM, DEC_HID_DIM, ATTN_DIM)
+
+dec = Decoder(OUTPUT_DIM, DEC_EMB_DIM, ENC_HID_DIM, DEC_HID_DIM, DEC_DROPOUT, attn)
+
+model = Seq2Seq(enc, dec, device).to(device)
+
+def init_weights(m: nn.Module):
+    for name, param in m.named_parameters():
+        if 'weight' in name:
+            nn.init.normal_(param.data, mean=0, std=0.01)
+        else:
+            nn.init.constant_(param.data, 0)
+
+model.apply(init_weights)
+
+optimizer = optim.Adam(model.parameters())
+
+def count_parameters(model: nn.Module):
+    return sum(p.numel() for p in model.parameters() if p.requires_grad)
+
+print(f'The model has {count_parameters(model):,} trainable parameters')
+
+```
+
+出：
+
+```py
+The model has 3,491,552 trainable parameters
+
+```
+
+注意：特别是对语言翻译模型的表现进行评分时，我们必须告诉`nn.CrossEntropyLoss`函数忽略仅填充目标的索引。
+
+```py
+PAD_IDX = en_vocab.stoi['<pad>']
+
+criterion = nn.CrossEntropyLoss(ignore_index=PAD_IDX)
+
+```
+
+最后，我们可以训练和评估该模型：
+
+```py
+import math
+import time
+
+def train(model: nn.Module,
+          iterator: torch.utils.data.DataLoader,
+          optimizer: optim.Optimizer,
+          criterion: nn.Module,
+          clip: float):
+
+    model.train()
+
+    epoch_loss = 0
+
+    for _, (src, trg) in enumerate(iterator):
+        src, trg = src.to(device), trg.to(device)
+
+        optimizer.zero_grad()
+
+        output = model(src, trg)
+
+        output = output[1:].view(-1, output.shape[-1])
+        trg = trg[1:].view(-1)
+
+        loss = criterion(output, trg)
+
+        loss.backward()
+
+        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
+
+        optimizer.step()
+
+        epoch_loss += loss.item()
+
+    return epoch_loss / len(iterator)
+
+def evaluate(model: nn.Module,
+             iterator: torch.utils.data.DataLoader,
+             criterion: nn.Module):
+
+    model.eval()
+
+    epoch_loss = 0
+
+    with torch.no_grad():
+
+        for _, (src, trg) in enumerate(iterator):
+            src, trg = src.to(device), trg.to(device)
+
+            output = model(src, trg, 0) #turn off teacher forcing
+
+            output = output[1:].view(-1, output.shape[-1])
+            trg = trg[1:].view(-1)
+
+            loss = criterion(output, trg)
+
+            epoch_loss += loss.item()
+
+    return epoch_loss / len(iterator)
+
+def epoch_time(start_time: int,
+               end_time: int):
+    elapsed_time = end_time - start_time
+    elapsed_mins = int(elapsed_time / 60)
+    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
+    return elapsed_mins, elapsed_secs
+
+N_EPOCHS = 10
+CLIP = 1
+
+best_valid_loss = float('inf')
+
+for epoch in range(N_EPOCHS):
+
+    start_time = time.time()
+
+    train_loss = train(model, train_iter, optimizer, criterion, CLIP)
+    valid_loss = evaluate(model, valid_iter, criterion)
+
+    end_time = time.time()
+
+    epoch_mins, epoch_secs = epoch_time(start_time, end_time)
+
+    print(f'Epoch: {epoch+1:02} | Time: {epoch_mins}m {epoch_secs}s')
+    print(f'\tTrain Loss: {train_loss:.3f} | Train PPL: {math.exp(train_loss):7.3f}')
+    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. PPL: {math.exp(valid_loss):7.3f}')
+
+test_loss = evaluate(model, test_iter, criterion)
+
+print(f'| Test Loss: {test_loss:.3f} | Test PPL: {math.exp(test_loss):7.3f} |')
+
+```
+
+出：
+
+```py
+Epoch: 01 | Time: 0m 59s
+        Train Loss: 5.790 | Train PPL: 327.039
+         Val. Loss: 5.250 |  Val. PPL: 190.532
+Epoch: 02 | Time: 0m 59s
+        Train Loss: 4.762 | Train PPL: 116.990
+         Val. Loss: 5.037 |  Val. PPL: 153.939
+Epoch: 03 | Time: 0m 59s
+        Train Loss: 4.527 | Train PPL:  92.475
+         Val. Loss: 4.924 |  Val. PPL: 137.525
+Epoch: 04 | Time: 0m 59s
+        Train Loss: 4.344 | Train PPL:  76.977
+         Val. Loss: 4.801 |  Val. PPL: 121.673
+Epoch: 05 | Time: 0m 59s
+        Train Loss: 4.210 | Train PPL:  67.356
+         Val. Loss: 4.758 |  Val. PPL: 116.536
+Epoch: 06 | Time: 0m 59s
+        Train Loss: 4.125 | Train PPL:  61.875
+         Val. Loss: 4.691 |  Val. PPL: 109.004
+Epoch: 07 | Time: 0m 59s
+        Train Loss: 4.043 | Train PPL:  56.979
+         Val. Loss: 4.639 |  Val. PPL: 103.446
+Epoch: 08 | Time: 0m 59s
+        Train Loss: 3.947 | Train PPL:  51.771
+         Val. Loss: 4.589 |  Val. PPL:  98.396
+Epoch: 09 | Time: 0m 59s
+        Train Loss: 3.874 | Train PPL:  48.135
+         Val. Loss: 4.514 |  Val. PPL:  91.324
+Epoch: 10 | Time: 0m 59s
+        Train Loss: 3.785 | Train PPL:  44.021
+         Val. Loss: 4.467 |  Val. PPL:  87.126
+| Test Loss: 4.433 | Test PPL:  84.168 |
+
+```
+
+## 后续步骤
+
+*   查看其余的 [Ben Trevett](https://github.com/bentrevett/) 的`torchtext`使用教程。
+*   敬请关注使用其他`torchtext`函数以及`nn.Transformer`通过下一个单词预测进行语言建模的教程！
+
+**脚本的总运行时间**：（10 分钟 13.398 秒）
+
+[下载 Python 源码：`torchtext_translation_tutorial.py`](../_downloads/96d6dc961c7477af88e16ca6c9592240/torchtext_translation_tutorial.py)
+
+[下载 Jupyter 笔记本：`torchtext_translation_tutorial.ipynb`](../_downloads/05baddac9b2f50d639a62ea5fa6e21e4/torchtext_translation_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/33.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/33.md
new file mode 100644
index 00000000..f9d86906
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/33.md
@@ -0,0 +1 @@
+# 强化学习
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/34.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/34.md
new file mode 100644
index 00000000..a2ff08cc
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/34.md
@@ -0,0 +1,396 @@
+# 强化学习（DQN）教程
+
+> 原文：<https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html>
+
+**作者**： [Adam Paszke](https://github.com/apaszke)
+
+本教程说明如何使用 PyTorch 在 [OpenAI Gym](https://gym.openai.com/) 上的 CartPole-v0 任务上训练深度 Q 学习（DQN）智能体。
+
+**任务**
+
+智能体必须在两个动作之间做出决定-向左或向右移动推车-以便使与之相连的杆子保持直立。 您可以在 [Gym 网站](https://gym.openai.com/envs/CartPole-v0)上找到具有各种算法和可视化效果的官方排行榜。
+
+![cartpole](img/fed25c69a6015a90b6e9406e4ac6e01c.png)
+
+卡特波尔
+
+当智能体观察环境的当前状态并选择一个动作时，环境*会转换为*到新状态，并且还会返回表示该动作后果的奖励。 在此任务中，每增加一个时间步长，奖励为 +1，并且如果杆子掉落得太远或手推车离中心的距离超过 2.4 个单位，则环境终止。 这意味着表现更好的方案将持续更长的时间，从而积累更大的回报。
+
+对 CartPole 任务进行了设计，以使对智能体的输入是代表环境状态（位置，速度等）的 4 个实际值。 但是，神经网络可以完全通过查看场景来解决任务，因此我们将以推车为中心的一部分屏幕作为输入。 因此，我们的结果无法直接与官方排行榜上的结果进行比较-我们的任务更加艰巨。 不幸的是，这确实减慢了训练速度，因为我们必须渲染所有帧。
+
+严格来说，我们将状态显示为当前屏幕补丁与前一个屏幕补丁之间的差异。 这将允许智能体从一张图像中考虑极点的速度。
+
+**包**
+
+首先，让我们导入所需的包。 首先，我们需要针对环境的 [Gym](https://gym.openai.com/docs)（使用`pip install Gym`进行安装）。 我们还将使用 PyTorch 中的以下内容：
+
+*   神经网络（`torch.nn`）
+*   优化（`torch.optim`）
+*   自动微分（`torch.autograd`）
+*   视觉任务的工具（`torchvision`-[单独的包](https://github.com/pytorch/vision)）。
+
+```py
+import gym
+import math
+import random
+import numpy as np
+import matplotlib
+import matplotlib.pyplot as plt
+from collections import namedtuple
+from itertools import count
+from PIL import Image
+
+import torch
+import torch.nn as nn
+import torch.optim as optim
+import torch.nn.functional as F
+import torchvision.transforms as T
+
+env = gym.make('CartPole-v0').unwrapped
+
+# set up matplotlib
+is_ipython = 'inline' in matplotlib.get_backend()
+if is_ipython:
+    from IPython import display
+
+plt.ion()
+
+# if gpu is to be used
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+```
+
+## 回放记忆
+
+我们将使用经验回放记忆来训练我们的 DQN。 它存储智能体观察到的转换，使我们以后可以重用此数据。 通过从中随机采样，可以构建批量的转换相关。 已经表明，这极大地稳定和改善了 DQN 训练程序。
+
+为此，我们将需要两个类：
+
+*   `Transition`-表示我们环境中单个过渡的命名元组。 它本质上将（状态，动作）对映射到其（下一个状态，奖励）结果，该状态是屏幕差异图像，如下所述。
+*   `ReplayMemory`-有界大小的循环缓冲区，用于保存最近观察到的转换。 它还实现了`.sample()`方法，用于选择随机的过渡批量进行训练。
+
+```py
+Transition = namedtuple('Transition',
+                        ('state', 'action', 'next_state', 'reward'))
+
+class ReplayMemory(object):
+
+    def __init__(self, capacity):
+        self.capacity = capacity
+        self.memory = []
+        self.position = 0
+
+    def push(self, *args):
+        """Saves a transition."""
+        if len(self.memory) < self.capacity:
+            self.memory.append(None)
+        self.memory[self.position] = Transition(*args)
+        self.position = (self.position + 1) % self.capacity
+
+    def sample(self, batch_size):
+        return random.sample(self.memory, batch_size)
+
+    def __len__(self):
+        return len(self.memory)
+
+```
+
+现在，让我们定义我们的模型。 但是首先，让我们快速回顾一下 DQN 是什么。
+
+## DQN 算法
+
+我们的环境是确定性的，因此为简单起见，此处介绍的所有方程式也都确定性地制定。 在强化学习文献中，它们还将包含对环境中随机转变的期望。
+
+我们的目标是制定一种策略，尝试最大化折扣的累积奖励`R[t[0]] = Σ γ^(t - t[0]) r[t], t = t[0] -> ∞`，其中`R[t[0]]`也称为*回报*。 折扣`γ`应该是`0`和`1`之间的常数，以确保总和收敛。 这使得来自不确定的遥远未来的回报对我们的智能体而言不如可以对其充满信心的近期回报重要。
+
+Q 学习的主要思想是，如果我们有一个函数`Q*：State x Action => R`，这可以告诉我们，如果我们在给定状态下采取行动，那么我们就可以轻松地制定出使我们的回报最大化的策略：
+
+![](img/tex34-1.gif)
+
+但是，我们对世界一无所知，因此无法访问`Q*`。 但是，由于神经网络是通用函数逼近器，因此我们可以简单地创建一个并将其训练为类似于`Q*`的函数。
+
+对于我们的训练更新规则，我们将使用一个事实，即某些策略的每个`Q`函数都遵循贝尔曼方程：
+
+![](img/tex34-2.gif)
+
+等式两侧之间的差异称为时间差异误差`delta`：
+
+![](img/tex34-3.gif)
+
+为了最小化此误差，我们将使用 [Huber 损失](https://en.wikipedia.org/wiki/Huber_loss)。 当误差较小时，Huber 损失的作用类似于均方误差，而当误差较大时，则表现为平均绝对误差-当`Q`的估计值非常嘈杂时，这使它对异常值的鲁棒性更高。 我们通过从重播内存中采样的一批过渡`B`来计算：
+
+![](img/tex34-4.gif)
+
+### Q 网络
+
+我们的模型将是一个卷积神经网络，该卷积神经网络将吸收当前屏幕补丁和先前屏幕补丁之间的差异。 它有两个输出，分别代表`Q(s, left)`和`Q(s, right)`（其中`s`是网络的输入）。 实际上，网络正在尝试预测在给定当前输入的情况下执行每个操作的*预期收益*。
+
+```py
+class DQN(nn.Module):
+
+    def __init__(self, h, w, outputs):
+        super(DQN, self).__init__()
+        self.conv1 = nn.Conv2d(3, 16, kernel_size=5, stride=2)
+        self.bn1 = nn.BatchNorm2d(16)
+        self.conv2 = nn.Conv2d(16, 32, kernel_size=5, stride=2)
+        self.bn2 = nn.BatchNorm2d(32)
+        self.conv3 = nn.Conv2d(32, 32, kernel_size=5, stride=2)
+        self.bn3 = nn.BatchNorm2d(32)
+
+        # Number of Linear input connections depends on output of conv2d layers
+        # and therefore the input image size, so compute it.
+        def conv2d_size_out(size, kernel_size = 5, stride = 2):
+            return (size - (kernel_size - 1) - 1) // stride  + 1
+        convw = conv2d_size_out(conv2d_size_out(conv2d_size_out(w)))
+        convh = conv2d_size_out(conv2d_size_out(conv2d_size_out(h)))
+        linear_input_size = convw * convh * 32
+        self.head = nn.Linear(linear_input_size, outputs)
+
+    # Called with either one element to determine next action, or a batch
+    # during optimization. Returns tensor([[left0exp,right0exp]...]).
+    def forward(self, x):
+        x = F.relu(self.bn1(self.conv1(x)))
+        x = F.relu(self.bn2(self.conv2(x)))
+        x = F.relu(self.bn3(self.conv3(x)))
+        return self.head(x.view(x.size(0), -1))
+
+```
+
+### 输入提取
+
+以下代码是用于从环境中提取和处理渲染图像的工具。 它使用`torchvision`包，可轻松组成图像变换。 一旦运行单元，它将显示它提取的示例补丁。
+
+```py
+resize = T.Compose([T.ToPILImage(),
+                    T.Resize(40, interpolation=Image.CUBIC),
+                    T.ToTensor()])
+
+def get_cart_location(screen_width):
+    world_width = env.x_threshold * 2
+    scale = screen_width / world_width
+    return int(env.state[0] * scale + screen_width / 2.0)  # MIDDLE OF CART
+
+def get_screen():
+    # Returned screen requested by gym is 400x600x3, but is sometimes larger
+    # such as 800x1200x3\. Transpose it into torch order (CHW).
+    screen = env.render(mode='rgb_array').transpose((2, 0, 1))
+    # Cart is in the lower half, so strip off the top and bottom of the screen
+    _, screen_height, screen_width = screen.shape
+    screen = screen[:, int(screen_height*0.4):int(screen_height * 0.8)]
+    view_width = int(screen_width * 0.6)
+    cart_location = get_cart_location(screen_width)
+    if cart_location < view_width // 2:
+        slice_range = slice(view_width)
+    elif cart_location > (screen_width - view_width // 2):
+        slice_range = slice(-view_width, None)
+    else:
+        slice_range = slice(cart_location - view_width // 2,
+                            cart_location + view_width // 2)
+    # Strip off the edges, so that we have a square image centered on a cart
+    screen = screen[:, :, slice_range]
+    # Convert to float, rescale, convert to torch tensor
+    # (this doesn't require a copy)
+    screen = np.ascontiguousarray(screen, dtype=np.float32) / 255
+    screen = torch.from_numpy(screen)
+    # Resize, and add a batch dimension (BCHW)
+    return resize(screen).unsqueeze(0).to(device)
+
+env.reset()
+plt.figure()
+plt.imshow(get_screen().cpu().squeeze(0).permute(1, 2, 0).numpy(),
+           interpolation='none')
+plt.title('Example extracted screen')
+plt.show()
+
+```
+
+## 训练
+
+### 超参数和工具
+
+该单元实例化我们的模型及其优化器，并定义一些工具：
+
+*   `select_action`-将根据 ε 贪婪策略选择一个动作。 简而言之，有时我们会使用模型来选择操作，有时我们会统一采样。 选择随机动作的可能性将从`EPS_START`开始，并朝`EPS_END`呈指数衰减。 `EPS_DECAY`控制衰减率。
+*   `plot_durations`-绘制剧集持续时间以及最近 100 个剧集的平均值（官方评估中使用的度量）的助手。 该图将在包含主要训练循环的单元下面，并且将在每个剧集之后更新。
+
+```py
+BATCH_SIZE = 128
+GAMMA = 0.999
+EPS_START = 0.9
+EPS_END = 0.05
+EPS_DECAY = 200
+TARGET_UPDATE = 10
+
+# Get screen size so that we can initialize layers correctly based on shape
+# returned from AI gym. Typical dimensions at this point are close to 3x40x90
+# which is the result of a clamped and down-scaled render buffer in get_screen()
+init_screen = get_screen()
+_, _, screen_height, screen_width = init_screen.shape
+
+# Get number of actions from gym action space
+n_actions = env.action_space.n
+
+policy_net = DQN(screen_height, screen_width, n_actions).to(device)
+target_net = DQN(screen_height, screen_width, n_actions).to(device)
+target_net.load_state_dict(policy_net.state_dict())
+target_net.eval()
+
+optimizer = optim.RMSprop(policy_net.parameters())
+memory = ReplayMemory(10000)
+
+steps_done = 0
+
+def select_action(state):
+    global steps_done
+    sample = random.random()
+    eps_threshold = EPS_END + (EPS_START - EPS_END) * \
+        math.exp(-1\. * steps_done / EPS_DECAY)
+    steps_done += 1
+    if sample > eps_threshold:
+        with torch.no_grad():
+            # t.max(1) will return largest column value of each row.
+            # second column on max result is index of where max element was
+            # found, so we pick action with the larger expected reward.
+            return policy_net(state).max(1)[1].view(1, 1)
+    else:
+        return torch.tensor([[random.randrange(n_actions)]], device=device, dtype=torch.long)
+
+episode_durations = []
+
+def plot_durations():
+    plt.figure(2)
+    plt.clf()
+    durations_t = torch.tensor(episode_durations, dtype=torch.float)
+    plt.title('Training...')
+    plt.xlabel('Episode')
+    plt.ylabel('Duration')
+    plt.plot(durations_t.numpy())
+    # Take 100 episode averages and plot them too
+    if len(durations_t) >= 100:
+        means = durations_t.unfold(0, 100, 1).mean(1).view(-1)
+        means = torch.cat((torch.zeros(99), means))
+        plt.plot(means.numpy())
+
+    plt.pause(0.001)  # pause a bit so that plots are updated
+    if is_ipython:
+        display.clear_output(wait=True)
+        display.display(plt.gcf())
+
+```
+
+### 训练循环
+
+最后，是训练模型的代码。
+
+在这里，您可以找到执行优化步骤的`optimize_model`函数。 它首先对一批进行采样，将所有张量连接为一个张量，计算`Q(s[t], a[t])`和`V(s[t+1])= max[a] Q(s[t+1], a)`，并将其合并为我们的损失。 根据定义，如果`s`为终端状态，则设置`V(s) = 0`。 我们还使用目标网络来计算`V(s[t+1])`，以提高稳定性。 目标网络的权重大部分时间保持冻结状态，但经常更新以策略网络的权重。 通常这是一组固定的步骤，但是为了简单起见，我们将使用剧集。
+
+```py
+def optimize_model():
+    if len(memory) < BATCH_SIZE:
+        return
+    transitions = memory.sample(BATCH_SIZE)
+    # Transpose the batch (see https://stackoverflow.com/a/19343/3343043 for
+    # detailed explanation). This converts batch-array of Transitions
+    # to Transition of batch-arrays.
+    batch = Transition(*zip(*transitions))
+
+    # Compute a mask of non-final states and concatenate the batch elements
+    # (a final state would've been the one after which simulation ended)
+    non_final_mask = torch.tensor(tuple(map(lambda s: s is not None,
+                                          batch.next_state)), device=device, dtype=torch.bool)
+    non_final_next_states = torch.cat([s for s in batch.next_state
+                                                if s is not None])
+    state_batch = torch.cat(batch.state)
+    action_batch = torch.cat(batch.action)
+    reward_batch = torch.cat(batch.reward)
+
+    # Compute Q(s_t, a) - the model computes Q(s_t), then we select the
+    # columns of actions taken. These are the actions which would've been taken
+    # for each batch state according to policy_net
+    state_action_values = policy_net(state_batch).gather(1, action_batch)
+
+    # Compute V(s_{t+1}) for all next states.
+    # Expected values of actions for non_final_next_states are computed based
+    # on the "older" target_net; selecting their best reward with max(1)[0].
+    # This is merged based on the mask, such that we'll have either the expected
+    # state value or 0 in case the state was final.
+    next_state_values = torch.zeros(BATCH_SIZE, device=device)
+    next_state_values[non_final_mask] = target_net(non_final_next_states).max(1)[0].detach()
+    # Compute the expected Q values
+    expected_state_action_values = (next_state_values * GAMMA) + reward_batch
+
+    # Compute Huber loss
+    loss = F.smooth_l1_loss(state_action_values, expected_state_action_values.unsqueeze(1))
+
+    # Optimize the model
+    optimizer.zero_grad()
+    loss.backward()
+    for param in policy_net.parameters():
+        param.grad.data.clamp_(-1, 1)
+    optimizer.step()
+
+```
+
+在下面，您可以找到主要的训练循环。 首先，我们重置环境并初始化`state`张量。 然后，我们采样一个动作，执行它，观察下一个屏幕和奖励（总是 1），并一次优化我们的模型。 当剧集结束（我们的模型失败）时，我们重新开始循环。
+
+下面，将`num_episodes`设置得较小。 您应该下载笔记本并运行更多的片段，例如 300 多个片段，才能显着改善持续时间。
+
+```py
+num_episodes = 50
+for i_episode in range(num_episodes):
+    # Initialize the environment and state
+    env.reset()
+    last_screen = get_screen()
+    current_screen = get_screen()
+    state = current_screen - last_screen
+    for t in count():
+        # Select and perform an action
+        action = select_action(state)
+        _, reward, done, _ = env.step(action.item())
+        reward = torch.tensor([reward], device=device)
+
+        # Observe new state
+        last_screen = current_screen
+        current_screen = get_screen()
+        if not done:
+            next_state = current_screen - last_screen
+        else:
+            next_state = None
+
+        # Store the transition in memory
+        memory.push(state, action, next_state, reward)
+
+        # Move to the next state
+        state = next_state
+
+        # Perform one step of the optimization (on the target network)
+        optimize_model()
+        if done:
+            episode_durations.append(t + 1)
+            plot_durations()
+            break
+    # Update the target network, copying all weights and biases in DQN
+    if i_episode % TARGET_UPDATE == 0:
+        target_net.load_state_dict(policy_net.state_dict())
+
+print('Complete')
+env.render()
+env.close()
+plt.ioff()
+plt.show()
+
+```
+
+这是说明总体结果数据流的图。
+
+![../_img/reinforcement_learning_diagram.jpg](img/8ec7228e178647ed9c25273de4b9a270.png)
+
+可以随机选择或根据策略选择动作，从健身环境中获取下一步样本。 我们将结果记录在重播内存中，并在每次迭代时运行优化步骤。 优化会从重播内存中随机抽取一批来进行新策略的训练。 “较旧”的`target_net`也用于优化计算期望的 Q 值； 有时会对其进行更新以使其保持最新状态。
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`reinforcement_q_learning.py`](../_downloads/b8954cc7b372cac10a92b8c6183846a3/reinforcement_q_learning.py)
+
+[下载 Jupyter 笔记本：`reinforcement_q_learning.ipynb`](../_downloads/2b3f06b04b5e96e4772746c20fcb4dcc/reinforcement_q_learning.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/35.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/35.md
new file mode 100644
index 00000000..667e6fdf
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/35.md
@@ -0,0 +1,671 @@
+# 训练玩马里奥的 RL 智能体
+
+> 原文：<https://pytorch.org/tutorials/intermediate/mario_rl_tutorial.html>
+
+Authors: [Yuansong Feng](https://github.com/YuansongFeng) , [Suraj Subramanian](https://github.com/suraj813) , [Howard Wang](https://github.com/hw26) , [Steven Guo](https://github.com/GuoYuzhang) .
+
+本教程将向您介绍深度强化学习的基础知识。 最后，您将实现一个 AI 驱动的马里奥（使用[双重深度 Q 网络](https://arxiv.org/pdf/1509.06461.pdf)），它可以自己玩游戏。
+
+尽管本教程不需要任何有关 RL 的先验知识，但是您可以熟悉这些 RL [概念](https://spinningup.openai.com/en/latest/spinningup/rl_intro.html)，并将此方便的[备忘单](https://colab.research.google.com/drive/1eN33dPVtdPViiS1njTW_-r-IYCDTFU7N)作为您的伴侣。[完整代码可在此处获得](https://github.com/yuansongFeng/MadMario/)。
+
+![mario](img/e46d7dbb0cc58ac0895589bf255444be.png)
+
+```py
+# !pip install gym-super-mario-bros==7.3.0
+
+import torch
+from torch import nn
+from torchvision import transforms as T
+from PIL import Image
+import numpy as np
+from pathlib import Path
+from collections import deque
+import random, datetime, os, copy
+
+# Gym is an OpenAI toolkit for RL
+import gym
+from gym.spaces import Box
+from gym.wrappers import FrameStack
+
+# NES Emulator for OpenAI Gym
+from nes_py.wrappers import JoypadSpace
+
+# Super Mario environment for OpenAI Gym
+import gym_super_mario_bros
+
+```
+
+## RL 定义
+
+**环境**：智能体与之交互并学习的世界。
+
+**操作**`a`：智能体如何响应环境。 所有可能动作的集合称为*动作空间*。
+
+**状态**`s`：环境的当前特征。 环境可以处于的所有可能状态的集合称为*状态空间*。
+
+**奖励**`r`：奖励是从环境到智能体的关键反馈。 这是驱动智能体学习并改变其未来行动的动力。 多个时间步长上的奖励汇总称为**回报**。
+
+**最佳操作的值函数**`Q*(s, a)`：如果您以状态`s`开始，执行任意操作`a`并给出期望的回报， 然后针对每个未来时间步长采取使收益最大化的行动。 可以说`Q`代表状态中动作的“质量”。 我们尝试近似该函数。
+
+## 环境
+
+### 初始化环境
+
+在马里奥，环境由试管，蘑菇和其他成分组成。
+
+当马里奥采取行动时，环境会以已更改的（下一个）状态，奖励和其他信息作为响应。
+
+```py
+# Initialize Super Mario environment
+env = gym_super_mario_bros.make("SuperMarioBros-1-1-v0")
+
+# Limit the action-space to
+#   0\. walk right
+#   1\. jump right
+env = JoypadSpace(env, [["right"], ["right", "A"]])
+
+env.reset()
+next_state, reward, done, info = env.step(action=0)
+print(f"{next_state.shape},\n {reward},\n {done},\n {info}")
+
+```
+
+出：
+
+```py
+(240, 256, 3),
+ 0,
+ False,
+ {'coins': 0, 'flag_get': False, 'life': 2, 'score': 0, 'stage': 1, 'status': 'small', 'time': 400, 'world': 1, 'x_pos': 40, 'x_pos_screen': 40, 'y_pos': 79}
+
+```
+
+### 预处理环境
+
+环境数据在`next_state`中返回给智能体。 正如您在上面看到的，每个状态都由`[3, 240, 256]`大小数组表示。 通常，这比我们的智能体需要的信息更多； 例如，马里奥的举动并不取决于管道或天空的颜色！
+
+我们使用**包装程序**在将环境数据发送到智能体之前对其进行预处理。
+
+`GrayScaleObservation`是将 RGB 图像转换为灰度的通用包装器； 这样做可以减少状态表示的大小，而不会丢失有用的信息。 现在每个状态的大小：`[1, 240, 256]`
+
+`ResizeObservation`将每个观察值下采样为正方形图像。 新尺寸：`[1, 84, 84]`
+
+`SkipFrame`是一个自定义包装器，它继承自`gym.Wrapper`并实现了`step()`函数。 由于连续的帧变化不大，因此我们可以跳过 n 个中间帧而不会丢失太多信息。 第 n 帧聚集在每个跳过的帧上累积的奖励。
+
+`FrameStack`是一个包装器，它使我们可以将环境的连续帧压缩到单个观察点中，以提供给我们的学习模型。 这样，我们可以根据前几个帧中马里奥的运动方向来确定马里奥是在降落还是跳跃。
+
+```py
+class SkipFrame(gym.Wrapper):
+    def __init__(self, env, skip):
+        """Return only every `skip`-th frame"""
+        super().__init__(env)
+        self._skip = skip
+
+    def step(self, action):
+        """Repeat action, and sum reward"""
+        total_reward = 0.0
+        done = False
+        for i in range(self._skip):
+            # Accumulate reward and repeat the same action
+            obs, reward, done, info = self.env.step(action)
+            total_reward += reward
+            if done:
+                break
+        return obs, total_reward, done, info
+
+class GrayScaleObservation(gym.ObservationWrapper):
+    def __init__(self, env):
+        super().__init__(env)
+        obs_shape = self.observation_space.shape[:2]
+        self.observation_space = Box(low=0, high=255, shape=obs_shape, dtype=np.uint8)
+
+    def permute_orientation(self, observation):
+        # permute [H, W, C] array to [C, H, W] tensor
+        observation = np.transpose(observation, (2, 0, 1))
+        observation = torch.tensor(observation.copy(), dtype=torch.float)
+        return observation
+
+    def observation(self, observation):
+        observation = self.permute_orientation(observation)
+        transform = T.Grayscale()
+        observation = transform(observation)
+        return observation
+
+class ResizeObservation(gym.ObservationWrapper):
+    def __init__(self, env, shape):
+        super().__init__(env)
+        if isinstance(shape, int):
+            self.shape = (shape, shape)
+        else:
+            self.shape = tuple(shape)
+
+        obs_shape = self.shape + self.observation_space.shape[2:]
+        self.observation_space = Box(low=0, high=255, shape=obs_shape, dtype=np.uint8)
+
+    def observation(self, observation):
+        transforms = T.Compose(
+            [T.Resize(self.shape), T.Normalize(0, 255)]
+        )
+        observation = transforms(observation).squeeze(0)
+        return observation
+
+# Apply Wrappers to environment
+env = SkipFrame(env, skip=4)
+env = GrayScaleObservation(env)
+env = ResizeObservation(env, shape=84)
+env = FrameStack(env, num_stack=4)
+
+```
+
+将上述包装纸应用于环境后，最终的包装状态由 4 个灰度连续的帧堆叠在一起组成，如左图所示。 每次马里奥采取行动时，环境都会以这种结构的状态做出响应。 该结构由大小为`[4, 84, 84]`的 3D 数组表示。
+
+![picture](img/ad48ffbd1cfc0475d744b8b89a0d962a.png)
+
+## 智能体
+
+我们创建一个类`Mario`来表示我们的智能体在游戏中。 马里奥应该能够：
+
+*   **根据（环境的）当前状态，执行最佳操作策略**。
+*   **记住**经验。 经验为（当前状态，当前动作，奖励，下一个状态）。 马里奥*缓存*并且后来*回忆起*他的经验来更新其行动策略。
+*   **逐步了解**更好的操作策略
+
+```py
+class Mario:
+    def __init__():
+        pass
+
+    def act(self, state):
+        """Given a state, choose an epsilon-greedy action"""
+        pass
+
+    def cache(self, experience):
+        """Add the experience to memory"""
+        pass
+
+    def recall(self):
+        """Sample experiences from memory"""
+        pass
+
+    def learn(self):
+        """Update online action value (Q) function with a batch of experiences"""
+        pass
+
+```
+
+在以下各节中，我们将填充马里奥的参数并定义其函数。
+
+### 行动
+
+对于任何给定状态，智能体都可以选择执行最佳操作（**利用**）或执行随机操作（**探索**）。
+
+马里奥随机发掘并发`self.exploration_rate` 当他选择利用时，他依靠`MarioNet`（在`Learn`部分中实现）提供最佳操作。
+
+```py
+class Mario:
+    def __init__(self, state_dim, action_dim, save_dir):
+        self.state_dim = state_dim
+        self.action_dim = action_dim
+        self.save_dir = save_dir
+
+        self.use_cuda = torch.cuda.is_available()
+
+        # Mario's DNN to predict the most optimal action - we implement this in the Learn section
+        self.net = MarioNet(self.state_dim, self.action_dim).float()
+        if self.use_cuda:
+            self.net = self.net.to(device="cuda")
+
+        self.exploration_rate = 1
+        self.exploration_rate_decay = 0.99999975
+        self.exploration_rate_min = 0.1
+        self.curr_step = 0
+
+        self.save_every = 5e5  # no. of experiences between saving Mario Net
+
+    def act(self, state):
+        """
+    Given a state, choose an epsilon-greedy action and update value of step.
+
+    Inputs:
+    state(LazyFrame): A single observation of the current state, dimension is (state_dim)
+    Outputs:
+    action_idx (int): An integer representing which action Mario will perform
+    """
+        # EXPLORE
+        if np.random.rand() < self.exploration_rate:
+            action_idx = np.random.randint(self.action_dim)
+
+        # EXPLOIT
+        else:
+            state = state.__array__()
+            if self.use_cuda:
+                state = torch.tensor(state).cuda()
+            else:
+                state = torch.tensor(state)
+            state = state.unsqueeze(0)
+            action_values = self.net(state, model="online")
+            action_idx = torch.argmax(action_values, axis=1).item()
+
+        # decrease exploration_rate
+        self.exploration_rate *= self.exploration_rate_decay
+        self.exploration_rate = max(self.exploration_rate_min, self.exploration_rate)
+
+        # increment step
+        self.curr_step += 1
+        return action_idx
+
+```
+
+### 缓存和回忆
+
+这两个函数是马里奥的“记忆”过程。
+
+`cache()`：每次马里奥执行操作时，都会将`experience`存储到他的内存中。 他的经验包括当前*状态*，*动作*，*从动作中获得的奖励*，*下一个状态*以及游戏是否为*完成*。
+
+`recall()`：马里奥从他的记忆中随机抽取一批经验，并以此来学习游戏。
+
+```py
+class Mario(Mario):  # subclassing for continuity
+    def __init__(self, state_dim, action_dim, save_dir):
+        super().__init__(state_dim, action_dim, save_dir)
+        self.memory = deque(maxlen=100000)
+        self.batch_size = 32
+
+    def cache(self, state, next_state, action, reward, done):
+        """
+        Store the experience to self.memory (replay buffer)
+
+        Inputs:
+        state (LazyFrame),
+        next_state (LazyFrame),
+        action (int),
+        reward (float),
+        done(bool))
+        """
+        state = state.__array__()
+        next_state = next_state.__array__()
+
+        if self.use_cuda:
+            state = torch.tensor(state).cuda()
+            next_state = torch.tensor(next_state).cuda()
+            action = torch.tensor([action]).cuda()
+            reward = torch.tensor([reward]).cuda()
+            done = torch.tensor([done]).cuda()
+        else:
+            state = torch.tensor(state)
+            next_state = torch.tensor(next_state)
+            action = torch.tensor([action])
+            reward = torch.tensor([reward])
+            done = torch.tensor([done])
+
+        self.memory.append((state, next_state, action, reward, done,))
+
+    def recall(self):
+        """
+        Retrieve a batch of experiences from memory
+        """
+        batch = random.sample(self.memory, self.batch_size)
+        state, next_state, action, reward, done = map(torch.stack, zip(*batch))
+        return state, next_state, action.squeeze(), reward.squeeze(), done.squeeze()
+
+```
+
+### 学习
+
+马里奥在后台使用 [DDQN 算法](https://arxiv.org/pdf/1509.06461)。 DDQN 使用两个 ConvNet-`Q_online`和`Q_target`-独立地逼近最佳作用值函数。
+
+在我们的实现中，我们在`Q_online`和`Q_target`之间共享特征生成器`features`，但是为每个特征维护单独的 FC 分类器。 `θ_target`（`Q_target`的参数）被冻结，以防止反向传播进行更新。 而是定期与`θ_online`同步（稍后会对此进行详细介绍）。
+
+#### 神经网络
+
+```py
+class MarioNet(nn.Module):
+    """mini cnn structure
+  input -> (conv2d + relu) x 3 -> flatten -> (dense + relu) x 2 -> output
+  """
+
+    def __init__(self, input_dim, output_dim):
+        super().__init__()
+        c, h, w = input_dim
+
+        if h != 84:
+            raise ValueError(f"Expecting input height: 84, got: {h}")
+        if w != 84:
+            raise ValueError(f"Expecting input width: 84, got: {w}")
+
+        self.online = nn.Sequential(
+            nn.Conv2d(in_channels=c, out_channels=32, kernel_size=8, stride=4),
+            nn.ReLU(),
+            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=4, stride=2),
+            nn.ReLU(),
+            nn.Conv2d(in_channels=64, out_channels=64, kernel_size=3, stride=1),
+            nn.ReLU(),
+            nn.Flatten(),
+            nn.Linear(3136, 512),
+            nn.ReLU(),
+            nn.Linear(512, output_dim),
+        )
+
+        self.target = copy.deepcopy(self.online)
+
+        # Q_target parameters are frozen.
+        for p in self.target.parameters():
+            p.requires_grad = False
+
+    def forward(self, input, model):
+        if model == "online":
+            return self.online(input)
+        elif model == "target":
+            return self.target(input)
+
+```
+
+#### TD 估计和 TD 目标
+
+学习涉及两个值：
+
+**TD 估计**-给定状态`s`的预测最佳`Q*`
+
+![](img/tex34-5.gif)
+
+**TD 目标**-当前奖励和下一状态`s'`中的估计`Q*`的汇总
+
+![](img/tex34-6.gif)
+
+![](img/tex34-7.gif)
+
+由于我们不知道下一个动作`a'`是什么，因此我们在下一个状态`s'`中使用动作`a'`最大化`Q_online`。
+
+请注意，我们在`td_target()`上使用了[`@torch.no_grad()`](https://pytorch.org/docs/stable/generated/torch.no_grad.html#no-grad)装饰器来禁用梯度计算（因为我们无需在`θ_target`上进行反向传播。）
+
+```py
+class Mario(Mario):
+    def __init__(self, state_dim, action_dim, save_dir):
+        super().__init__(state_dim, action_dim, save_dir)
+        self.gamma = 0.9
+
+    def td_estimate(self, state, action):
+        current_Q = self.net(state, model="online")[
+            np.arange(0, self.batch_size), action
+        ]  # Q_online(s,a)
+        return current_Q
+
+    @torch.no_grad()
+    def td_target(self, reward, next_state, done):
+        next_state_Q = self.net(next_state, model="online")
+        best_action = torch.argmax(next_state_Q, axis=1)
+        next_Q = self.net(next_state, model="target")[
+            np.arange(0, self.batch_size), best_action
+        ]
+        return (reward + (1 - done.float()) * self.gamma * next_Q).float()
+
+```
+
+#### 更新模型
+
+当马里奥从其重播缓冲区中采样输入时，我们计算`TD_t`和`TD_e`并反向传播该损失`Q_online`以更新其参数`θ_online`（\ （\ alpha \）是传递给`optimizer`的学习率`lr`）
+
+![](img/tex34-8.gif)
+
+`θ_target`不会通过反向传播进行更新。 相反，我们会定期将`θ_online`复制到`θ_target`
+
+![](img/tex34-9.gif)
+
+```py
+class Mario(Mario):
+    def __init__(self, state_dim, action_dim, save_dir):
+        super().__init__(state_dim, action_dim, save_dir)
+        self.optimizer = torch.optim.Adam(self.net.parameters(), lr=0.00025)
+        self.loss_fn = torch.nn.SmoothL1Loss()
+
+    def update_Q_online(self, td_estimate, td_target):
+        loss = self.loss_fn(td_estimate, td_target)
+        self.optimizer.zero_grad()
+        loss.backward()
+        self.optimizer.step()
+        return loss.item()
+
+    def sync_Q_target(self):
+        self.net.target.load_state_dict(self.net.online.state_dict())
+
+```
+
+#### 保存检查点
+
+```py
+class Mario(Mario):
+    def save(self):
+        save_path = (
+            self.save_dir / f"mario_net_{int(self.curr_step // self.save_every)}.chkpt"
+        )
+        torch.save(
+            dict(model=self.net.state_dict(), exploration_rate=self.exploration_rate),
+            save_path,
+        )
+        print(f"MarioNet saved to {save_path} at step {self.curr_step}")
+
+```
+
+#### 全部放在一起
+
+```py
+class Mario(Mario):
+    def __init__(self, state_dim, action_dim, save_dir):
+        super().__init__(state_dim, action_dim, save_dir)
+        self.burnin = 1e4  # min. experiences before training
+        self.learn_every = 3  # no. of experiences between updates to Q_online
+        self.sync_every = 1e4  # no. of experiences between Q_target & Q_online sync
+
+    def learn(self):
+        if self.curr_step % self.sync_every == 0:
+            self.sync_Q_target()
+
+        if self.curr_step % self.save_every == 0:
+            self.save()
+
+        if self.curr_step < self.burnin:
+            return None, None
+
+        if self.curr_step % self.learn_every != 0:
+            return None, None
+
+        # Sample from memory
+        state, next_state, action, reward, done = self.recall()
+
+        # Get TD Estimate
+        td_est = self.td_estimate(state, action)
+
+        # Get TD Target
+        td_tgt = self.td_target(reward, next_state, done)
+
+        # Backpropagate loss through Q_online
+        loss = self.update_Q_online(td_est, td_tgt)
+
+        return (td_est.mean().item(), loss)
+
+```
+
+### 日志记录
+
+```py
+import numpy as np
+import time, datetime
+import matplotlib.pyplot as plt
+
+class MetricLogger:
+    def __init__(self, save_dir):
+        self.save_log = save_dir / "log"
+        with open(self.save_log, "w") as f:
+            f.write(
+                f"{'Episode':>8}{'Step':>8}{'Epsilon':>10}{'MeanReward':>15}"
+                f"{'MeanLength':>15}{'MeanLoss':>15}{'MeanQValue':>15}"
+                f"{'TimeDelta':>15}{'Time':>20}\n"
+            )
+        self.ep_rewards_plot = save_dir / "reward_plot.jpg"
+        self.ep_lengths_plot = save_dir / "length_plot.jpg"
+        self.ep_avg_losses_plot = save_dir / "loss_plot.jpg"
+        self.ep_avg_qs_plot = save_dir / "q_plot.jpg"
+
+        # History metrics
+        self.ep_rewards = []
+        self.ep_lengths = []
+        self.ep_avg_losses = []
+        self.ep_avg_qs = []
+
+        # Moving averages, added for every call to record()
+        self.moving_avg_ep_rewards = []
+        self.moving_avg_ep_lengths = []
+        self.moving_avg_ep_avg_losses = []
+        self.moving_avg_ep_avg_qs = []
+
+        # Current episode metric
+        self.init_episode()
+
+        # Timing
+        self.record_time = time.time()
+
+    def log_step(self, reward, loss, q):
+        self.curr_ep_reward += reward
+        self.curr_ep_length += 1
+        if loss:
+            self.curr_ep_loss += loss
+            self.curr_ep_q += q
+            self.curr_ep_loss_length += 1
+
+    def log_episode(self):
+        "Mark end of episode"
+        self.ep_rewards.append(self.curr_ep_reward)
+        self.ep_lengths.append(self.curr_ep_length)
+        if self.curr_ep_loss_length == 0:
+            ep_avg_loss = 0
+            ep_avg_q = 0
+        else:
+            ep_avg_loss = np.round(self.curr_ep_loss / self.curr_ep_loss_length, 5)
+            ep_avg_q = np.round(self.curr_ep_q / self.curr_ep_loss_length, 5)
+        self.ep_avg_losses.append(ep_avg_loss)
+        self.ep_avg_qs.append(ep_avg_q)
+
+        self.init_episode()
+
+    def init_episode(self):
+        self.curr_ep_reward = 0.0
+        self.curr_ep_length = 0
+        self.curr_ep_loss = 0.0
+        self.curr_ep_q = 0.0
+        self.curr_ep_loss_length = 0
+
+    def record(self, episode, epsilon, step):
+        mean_ep_reward = np.round(np.mean(self.ep_rewards[-100:]), 3)
+        mean_ep_length = np.round(np.mean(self.ep_lengths[-100:]), 3)
+        mean_ep_loss = np.round(np.mean(self.ep_avg_losses[-100:]), 3)
+        mean_ep_q = np.round(np.mean(self.ep_avg_qs[-100:]), 3)
+        self.moving_avg_ep_rewards.append(mean_ep_reward)
+        self.moving_avg_ep_lengths.append(mean_ep_length)
+        self.moving_avg_ep_avg_losses.append(mean_ep_loss)
+        self.moving_avg_ep_avg_qs.append(mean_ep_q)
+
+        last_record_time = self.record_time
+        self.record_time = time.time()
+        time_since_last_record = np.round(self.record_time - last_record_time, 3)
+
+        print(
+            f"Episode {episode} - "
+            f"Step {step} - "
+            f"Epsilon {epsilon} - "
+            f"Mean Reward {mean_ep_reward} - "
+            f"Mean Length {mean_ep_length} - "
+            f"Mean Loss {mean_ep_loss} - "
+            f"Mean Q Value {mean_ep_q} - "
+            f"Time Delta {time_since_last_record} - "
+            f"Time {datetime.datetime.now().strftime('%Y-%m-%dT%H:%M:%S')}"
+        )
+
+        with open(self.save_log, "a") as f:
+            f.write(
+                f"{episode:8d}{step:8d}{epsilon:10.3f}"
+                f"{mean_ep_reward:15.3f}{mean_ep_length:15.3f}{mean_ep_loss:15.3f}{mean_ep_q:15.3f}"
+                f"{time_since_last_record:15.3f}"
+                f"{datetime.datetime.now().strftime('%Y-%m-%dT%H:%M:%S'):>20}\n"
+            )
+
+        for metric in ["ep_rewards", "ep_lengths", "ep_avg_losses", "ep_avg_qs"]:
+            plt.plot(getattr(self, f"moving_avg_{metric}"))
+            plt.savefig(getattr(self, f"{metric}_plot"))
+            plt.clf()
+
+```
+
+## 开始吧！
+
+在此示例中，我们运行了 10 个剧集的训练循环，但是对于马里奥要真正了解他的世界的方式，我们建议运行至少 40,000 个剧集的循环！
+
+```py
+use_cuda = torch.cuda.is_available()
+print(f"Using CUDA: {use_cuda}")
+print()
+
+save_dir = Path("checkpoints") / datetime.datetime.now().strftime("%Y-%m-%dT%H-%M-%S")
+save_dir.mkdir(parents=True)
+
+mario = Mario(state_dim=(4, 84, 84), action_dim=env.action_space.n, save_dir=save_dir)
+
+logger = MetricLogger(save_dir)
+
+episodes = 10
+for e in range(episodes):
+
+    state = env.reset()
+
+    # Play the game!
+    while True:
+
+        # Run agent on the state
+        action = mario.act(state)
+
+        # Agent performs action
+        next_state, reward, done, info = env.step(action)
+
+        # Remember
+        mario.cache(state, next_state, action, reward, done)
+
+        # Learn
+        q, loss = mario.learn()
+
+        # Logging
+        logger.log_step(reward, loss, q)
+
+        # Update state
+        state = next_state
+
+        # Check if end of game
+        if done or info["flag_get"]:
+            break
+
+    logger.log_episode()
+
+    if e % 20 == 0:
+        logger.record(episode=e, epsilon=mario.exploration_rate, step=mario.curr_step)
+
+```
+
+![../_img/sphx_glr_mario_rl_tutorial_001.png](img/4d4a02b1af752dcb28b536a50d0f9ee4.png)
+
+出：
+
+```py
+Using CUDA: True
+
+Episode 0 - Step 40 - Epsilon 0.9999900000487484 - Mean Reward 231.0 - Mean Length 40.0 - Mean Loss 0.0 - Mean Q Value 0.0 - Time Delta 0.444 - Time 2021-01-05T20:23:08
+
+```
+
+## 总结
+
+在本教程中，我们看到了如何使用 PyTorch 来训练玩游戏的 AI。 您可以使用相同的方法训练 AI 在 [OpenAI Gym](https://gym.openai.com/)上玩任何游戏。 希望您喜欢本教程，请随时通过[我们的 Github](https://github.com/yuansongFeng/MadMario/) 与我们联系！
+
+**脚本的总运行时间**：（0 分钟 21.485 秒）
+
+[下载 Python 源码：`mario_rl_tutorial.py`](../_downloads/5f9fbaa1fe608e9c6ceeeae4c9bea7ed/mario_rl_tutorial.py)
+
+[下载 Jupyter 笔记本：`mario_rl_tutorial.ipynb`](../_downloads/54f5097c720c6f2656219ab14a4e7431/mario_rl_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/36.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/36.md
new file mode 100644
index 00000000..4876704a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/36.md
@@ -0,0 +1 @@
+# 在生产中部署 PyTorch 模型
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/37.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/37.md
new file mode 100644
index 00000000..4f6d134f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/37.md
@@ -0,0 +1,319 @@
+# 通过使用 Flask 的 REST API 在 Python 中部署 PyTorch
+
+> 原文：<https://pytorch.org/tutorials/intermediate/flask_rest_api_tutorial.html>
+
+**作者**： [Avinash Sajjanshetty](https://avi.im)
+
+在本教程中，我们将使用 Flask 部署 PyTorch 模型，并公开用于模型推理的 REST API。 特别是，我们将部署预训练的 DenseNet 121 模型来检测图像。
+
+小费
+
+此处使用的所有代码均以 MIT 许可发布，可在 [Github](https://github.com/avinassh/pytorch-flask-api) 上找到。
+
+这是在生产中部署 PyTorch 模型的系列教程中的第一篇。 到目前为止，以这种方式使用 Flask 是开始为 PyTorch 模型提供服务的最简单方法，但不适用于具有高性能要求的用例。 为了那个原因：
+
+> *   如果您已经熟悉 TorchScript，则可以直接进入我们的[通过 C++ 加载 TorchScript 模型](https://pytorch.org/tutorials/advanced/cpp_export.html)的教程。
+> *   如果您首先需要在 TorchScript 上进行复习，请查看我们的 [TorchScript 入门](https://pytorch.org/tutorials/beginner/Intro_to_TorchScript_tutorial.html)教程。
+
+## API 定义
+
+我们将首先定义 API 端点，请求和响应类型。 我们的 API 端点将位于`/predict`，它通过包含图片的`file`参数接受 HTTP POST 请求。 响应将是包含预测的 JSON 响应：
+
+```py
+{"class_id": "n02124075", "class_name": "Egyptian_cat"}
+
+```
+
+## 依赖项
+
+通过运行以下命令来安装所需的依赖项：
+
+```py
+$ pip install Flask==1.0.3 torchvision-0.3.0
+
+```
+
+## 简单的 Web 服务器
+
+以下是一个简单的网络服务器，摘自 Flask 的文档
+
+```py
+from flask import Flask
+app = Flask(__name__)
+
+@app.route('/')
+def hello():
+    return 'Hello World!'
+
+```
+
+将以上代码段保存在名为`app.py`的文件中，您现在可以通过输入以下内容来运行 Flask 开发服务器：
+
+```py
+$ FLASK_ENV=development FLASK_APP=app.py flask run
+
+```
+
+当您在网络浏览器中访问`http://localhost:5000/`时，您会看到`Hello World!`文字
+
+我们将对上面的代码片段进行一些更改，以使其适合我们的 API 定义。 首先，我们将方法重命名为`predict`。 我们将端点路径更新为`/predict`。 由于图像文件将通过 HTTP POST 请求发送，因此我们将对其进行更新，使其也仅接受 POST 请求：
+
+```py
+@app.route('/predict', methods=['POST'])
+def predict():
+    return 'Hello World!'
+
+```
+
+我们还将更改响应类型，以使其返回包含 ImageNet 类 ID 和名称的 JSON 响应。 更新后的`app.py`文件现在为：
+
+```py
+from flask import Flask, jsonify
+app = Flask(__name__)
+
+@app.route('/predict', methods=['POST'])
+def predict():
+    return jsonify({'class_id': 'IMAGE_NET_XXX', 'class_name': 'Cat'})
+
+```
+
+## 推断
+
+在下一部分中，我们将重点介绍编写推理代码。 这将涉及两部分，第一部分是准备图像，以便可以将其馈送到 DenseNet；第二部分，我们将编写代码以从模型中获取实际的预测。
+
+### 准备图像
+
+DenseNet 模型要求图像为尺寸为`224 x 224`的 3 通道 RGB 图像。我们还将使用所需的均值和标准差值对图像张量进行归一化。 您可以在上阅读有关它的更多信息。
+
+我们将使用`torchvision`库中的`transforms`并建立一个转换管道，该转换管道可根据需要转换图像。 [您可以这里阅读有关转换的更多信息](https://pytorch.org/docs/stable/torchvision/transforms.html)。
+
+```py
+import io
+
+import torchvision.transforms as transforms
+from PIL import Image
+
+def transform_image(image_bytes):
+    my_transforms = transforms.Compose([transforms.Resize(255),
+                                        transforms.CenterCrop(224),
+                                        transforms.ToTensor(),
+                                        transforms.Normalize(
+                                            [0.485, 0.456, 0.406],
+                                            [0.229, 0.224, 0.225])])
+    image = Image.open(io.BytesIO(image_bytes))
+    return my_transforms(image).unsqueeze(0)
+
+```
+
+上面的方法以字节为单位获取图像数据，应用一系列变换并返回张量。 要测试上述方法，请以字节模式读取图像文件（首先将`../_static/img/sample_file.jpeg`替换为计算机上文件的实际路径），然后查看是否取回张量：
+
+```py
+with open("../_static/img/sample_file.jpeg", 'rb') as f:
+    image_bytes = f.read()
+    tensor = transform_image(image_bytes=image_bytes)
+    print(tensor)
+
+```
+
+出：
+
+```py
+tensor([[[[ 0.4508,  0.4166,  0.3994,  ..., -1.3473, -1.3302, -1.3473],
+          [ 0.5364,  0.4851,  0.4508,  ..., -1.2959, -1.3130, -1.3302],
+          [ 0.7077,  0.6392,  0.6049,  ..., -1.2959, -1.3302, -1.3644],
+          ...,
+          [ 1.3755,  1.3927,  1.4098,  ...,  1.1700,  1.3584,  1.6667],
+          [ 1.8893,  1.7694,  1.4440,  ...,  1.2899,  1.4783,  1.5468],
+          [ 1.6324,  1.8379,  1.8379,  ...,  1.4783,  1.7352,  1.4612]],
+
+         [[ 0.5728,  0.5378,  0.5203,  ..., -1.3704, -1.3529, -1.3529],
+          [ 0.6604,  0.6078,  0.5728,  ..., -1.3004, -1.3179, -1.3354],
+          [ 0.8529,  0.7654,  0.7304,  ..., -1.3004, -1.3354, -1.3704],
+          ...,
+          [ 1.4657,  1.4657,  1.4832,  ...,  1.3256,  1.5357,  1.8508],
+          [ 2.0084,  1.8683,  1.5182,  ...,  1.4657,  1.6583,  1.7283],
+          [ 1.7458,  1.9384,  1.9209,  ...,  1.6583,  1.9209,  1.6408]],
+
+         [[ 0.7228,  0.6879,  0.6531,  ..., -1.6476, -1.6302, -1.6476],
+          [ 0.8099,  0.7576,  0.7228,  ..., -1.6476, -1.6476, -1.6650],
+          [ 1.0017,  0.9145,  0.8797,  ..., -1.6476, -1.6650, -1.6999],
+          ...,
+          [ 1.6291,  1.6291,  1.6465,  ...,  1.6291,  1.8208,  2.1346],
+          [ 2.1868,  2.0300,  1.6814,  ...,  1.7685,  1.9428,  2.0125],
+          [ 1.9254,  2.0997,  2.0823,  ...,  1.9428,  2.2043,  1.9080]]]])
+
+```
+
+### 预测
+
+现在将使用预训练的 DenseNet 121 模型来预测图像类别。 我们将使用`torchvision`库中的一个，加载模型并进行推断。 在此示例中，我们将使用预训练模型，但您可以对自己的模型使用相同的方法。 在此[教程](../beginner/saving_loading_models.html)中查看有关加载模型的更多信息。
+
+```py
+from torchvision import models
+
+# Make sure to pass `pretrained` as `True` to use the pretrained weights:
+model = models.densenet121(pretrained=True)
+# Since we are using our model only for inference, switch to `eval` mode:
+model.eval()
+
+def get_prediction(image_bytes):
+    tensor = transform_image(image_bytes=image_bytes)
+    outputs = model.forward(tensor)
+    _, y_hat = outputs.max(1)
+    return y_hat
+
+```
+
+张量`y_hat`将包含预测的类 ID 的索引。 但是，我们需要一个人类可读的类名。 为此，我们需要一个类 ID 来进行名称映射。 将[这个文件](https://s3.amazonaws.com/deep-learning-models/image-models/imagenet_class_index.json)下载为`imagenet_class_index.json`，并记住它的保存位置（或者，如果您按照本教程中的确切步骤操作，请将其保存在`tutorials/_static`中）。 此文件包含 ImageNet 类 ID 到 ImageNet 类名称的映射。 我们将加载此 JSON 文件并获取预测索引的类名称。
+
+```py
+import json
+
+imagenet_class_index = json.load(open('../_static/imagenet_class_index.json'))
+
+def get_prediction(image_bytes):
+    tensor = transform_image(image_bytes=image_bytes)
+    outputs = model.forward(tensor)
+    _, y_hat = outputs.max(1)
+    predicted_idx = str(y_hat.item())
+    return imagenet_class_index[predicted_idx]
+
+```
+
+在使用`imagenet_class_index`字典之前，首先我们将张量值转换为字符串值，因为`imagenet_class_index`字典中的键是字符串。 我们将测试上述方法：
+
+```py
+with open("../_static/img/sample_file.jpeg", 'rb') as f:
+    image_bytes = f.read()
+    print(get_prediction(image_bytes=image_bytes))
+
+```
+
+出：
+
+```py
+['n02124075', 'Egyptian_cat']
+
+```
+
+您应该得到如下响应：
+
+```py
+['n02124075', 'Egyptian_cat']
+
+```
+
+数组中的第一项是 ImageNet 类 ID，第二项是人类可读的名称。
+
+注意
+
+您是否注意到`model`变量不属于`get_prediction`方法？ 还是为什么模型是全局变量？ 就内存和计算而言，加载模型可能是一项昂贵的操作。 如果我们以`get_prediction`方法加载模型，则每次调用该方法时都会不必要地加载该模型。 由于我们正在构建一个 Web 服务器，因此每秒可能有成千上万的请求，因此我们不应该浪费时间为每个推断重复加载模型。 因此，我们仅将模型加载到内存中一次。 在生产系统中，必须高效使用计算以能够大规模处理请求，因此通常应在处理请求之前加载模型。
+
+## 将模型集成到我们的 API 服务器中
+
+在最后一部分中，我们将模型添加到 Flask API 服务器中。 由于我们的 API 服务器应该获取图像文件，因此我们将更新`predict`方法以从请求中读取文件：
+
+```py
+from flask import request
+
+@app.route('/predict', methods=['POST'])
+def predict():
+    if request.method == 'POST':
+        # we will get the file from the request
+        file = request.files['file']
+        # convert that to bytes
+        img_bytes = file.read()
+        class_id, class_name = get_prediction(image_bytes=img_bytes)
+        return jsonify({'class_id': class_id, 'class_name': class_name})
+
+```
+
+`app.py`文件现在完成。 以下是完整版本； 将路径替换为保存文件的路径，它应运行：
+
+```py
+import io
+import json
+
+from torchvision import models
+import torchvision.transforms as transforms
+from PIL import Image
+from flask import Flask, jsonify, request
+
+app = Flask(__name__)
+imagenet_class_index = json.load(open('<PATH/TO/.json/FILE>/imagenet_class_index.json'))
+model = models.densenet121(pretrained=True)
+model.eval()
+
+def transform_image(image_bytes):
+    my_transforms = transforms.Compose([transforms.Resize(255),
+                                        transforms.CenterCrop(224),
+                                        transforms.ToTensor(),
+                                        transforms.Normalize(
+                                            [0.485, 0.456, 0.406],
+                                            [0.229, 0.224, 0.225])])
+    image = Image.open(io.BytesIO(image_bytes))
+    return my_transforms(image).unsqueeze(0)
+
+def get_prediction(image_bytes):
+    tensor = transform_image(image_bytes=image_bytes)
+    outputs = model.forward(tensor)
+    _, y_hat = outputs.max(1)
+    predicted_idx = str(y_hat.item())
+    return imagenet_class_index[predicted_idx]
+
+@app.route('/predict', methods=['POST'])
+def predict():
+    if request.method == 'POST':
+        file = request.files['file']
+        img_bytes = file.read()
+        class_id, class_name = get_prediction(image_bytes=img_bytes)
+        return jsonify({'class_id': class_id, 'class_name': class_name})
+
+if __name__ == '__main__':
+    app.run()
+
+```
+
+让我们测试一下我们的网络服务器！ 跑：
+
+```py
+$ FLASK_ENV=development FLASK_APP=app.py flask run
+
+```
+
+我们可以使用[`requests`](https://pypi.org/project/requests/)库向我们的应用发送 POST 请求：
+
+```py
+import requests
+
+resp = requests.post("http://localhost:5000/predict",
+                     files={"file": open('<PATH/TO/.jpg/FILE>/cat.jpg','rb')})
+
+```
+
+现在打印`resp.json()`将显示以下内容：
+
+```py
+{"class_id": "n02124075", "class_name": "Egyptian_cat"}
+
+```
+
+## 后续步骤
+
+我们编写的服务器非常琐碎，可能无法完成生产应用所需的一切。 因此，您可以采取一些措施来改善它：
+
+*   端点`/predict`假定请求中始终会有一个图像文件。 这可能并不适用于所有请求。 我们的用户可能发送带有其他参数的图像，或者根本不发送任何图像。
+*   用户也可以发送非图像类型的文件。 由于我们没有处理错误，因此这将破坏我们的服务器。 添加显式的错误处理路径将引发异常，这将使我们能够更好地处理错误的输入
+*   即使模型可以识别大量类别的图像，也可能无法识别所有图像。 增强实现以处理模型无法识别图像中的任何情况的情况。
+*   我们在开发模式下运行 Flask 服务器，该服务器不适合在生产中进行部署。 您可以查看[本教程](https://flask.palletsprojects.com/en/1.1.x/tutorial/deploy/)，以便在生产环境中部署 Flask 服务器。
+*   您还可以通过创建一个带有表单的页面来添加 UI，该表单可以拍摄图像并显示预测。 查看类似项目的[演示](https://pytorch-imagenet.herokuapp.com/)及其[源代码](https://github.com/avinassh/pytorch-flask-api-heroku)。
+*   在本教程中，我们仅展示了如何构建可以一次返回单个图像预测的服务。 我们可以修改服务以能够一次返回多个图像的预测。 此外，[service-streamer](https://github.com/ShannonAI/service-streamer) 库自动将对服务的请求排队，并将请求采样到微型批量中，这些微型批量可输入模型中。 您可以查看[本教程](https://github.com/ShannonAI/service-streamer/wiki/Vision-Recognition-Service-with-Flask-and-service-streamer)。
+*   最后，我们鼓励您在页面顶部查看链接到的其他 PyTorch 模型部署教程。
+
+**脚本的总运行时间**：（0 分钟 1.232 秒）
+
+[下载 Python 源码：`flask_rest_api_tutorial.py`](../_downloads/146c514e84d7e33f2a302bcc3ae793cb/flask_rest_api_tutorial.py)
+
+[下载 Jupyter 笔记本：`flask_rest_api_tutorial.ipynb`](../_downloads/6c042f3d39855d2a2de414758e5f9836/flask_rest_api_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/38.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/38.md
new file mode 100644
index 00000000..c37b2170
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/38.md
@@ -0,0 +1,480 @@
+# TorchScript 简介
+
+> 原文：<https://pytorch.org/tutorials/beginner/Intro_to_TorchScript_tutorial.html>
+
+*James Reed (jamesreed@fb.com)，Michael Suo (suo@fb.com)*，修订 2
+
+本教程是 TorchScript 的简介，TorchScript 是 PyTorch 模型（`nn.Module`的子类）的中间表示，可以在高性能环境（例如 C++）中运行。
+
+在本教程中，我们将介绍：
+
+1.  PyTorch 中模型创作的基础，包括：
+
+*   模组
+*   定义`forward`函数
+*   将模块组成模块的层次结构
+
+2.  将 PyTorch 模块转换为 TorchScript（我们的高性能部署运行时）的特定方法
+
+*   跟踪现有模块
+*   使用脚本直接编译模块
+*   如何组合两种方法
+*   保存和加载 TorchScript 模块
+
+我们希望在完成本教程之后，您将继续学习[后续教程](https://pytorch.org/tutorials/advanced/cpp_export.html)，该教程将引导您完成一个从 C++ 实际调用 TorchScript 模型的示例。
+
+```py
+import torch  # This is all you need to use both PyTorch and TorchScript!
+print(torch.__version__)
+
+```
+
+出：
+
+```py
+1.7.1
+
+```
+
+## PyTorch 模型创建基础
+
+首先定义一个简单的`Module`。 `Module`是 PyTorch 中组成的基本单位。 它包含：
+
+1.  为调用准备模块的构造器
+2.  一组`Parameters`和子`Modules`。 这些由构造器初始化，并且可以在调用期间由模块使用。
+3.  `forward`函数。 这是调用模块时运行的代码。
+
+我们来看一个小例子：
+
+```py
+class MyCell(torch.nn.Module):
+    def __init__(self):
+        super(MyCell, self).__init__()
+
+    def forward(self, x, h):
+        new_h = torch.tanh(x + h)
+        return new_h, new_h
+
+my_cell = MyCell()
+x = torch.rand(3, 4)
+h = torch.rand(3, 4)
+print(my_cell(x, h))
+
+```
+
+出：
+
+```py
+(tensor([[0.8837, 0.5372, 0.4951, 0.9124],
+        [0.6124, 0.7072, 0.6395, 0.9585],
+        [0.6178, 0.8701, 0.8071, 0.2415]]), tensor([[0.8837, 0.5372, 0.4951, 0.9124],
+        [0.6124, 0.7072, 0.6395, 0.9585],
+        [0.6178, 0.8701, 0.8071, 0.2415]]))
+
+```
+
+因此，我们已经：
+
+1.  创建了一个子类`torch.nn.Module`的类。
+2.  定义一个构造器。 构造器没有做很多事情，只是调用`super`的构造器。
+3.  定义了`forward`函数，该函数具有两个输入并返回两个输出。 `forward`函数的实际内容并不是很重要，但它是一种伪造的 [RNN 单元](https://colah.github.io/posts/2015-08-Understanding-LSTMs/)，即，该函数应用于循环。
+
+我们实例化了该模块，并制作了`x`和`y`，它们只是`3x4`随机值矩阵。 然后，我们使用`my_cell(x, h)`调用该单元格。 这依次调用我们的`forward`函数。
+
+让我们做一些更有趣的事情：
+
+```py
+class MyCell(torch.nn.Module):
+    def __init__(self):
+        super(MyCell, self).__init__()
+        self.linear = torch.nn.Linear(4, 4)
+
+    def forward(self, x, h):
+        new_h = torch.tanh(self.linear(x) + h)
+        return new_h, new_h
+
+my_cell = MyCell()
+print(my_cell)
+print(my_cell(x, h))
+
+```
+
+出：
+
+```py
+MyCell(
+  (linear): Linear(in_features=4, out_features=4, bias=True)
+)
+(tensor([[ 0.5042,  0.8137, -0.1593,  0.4167],
+        [ 0.1716,  0.8078, -0.2267,  0.7011],
+        [ 0.5616,  0.8753,  0.1597, -0.3899]], grad_fn=<TanhBackward>), tensor([[ 0.5042,  0.8137, -0.1593,  0.4167],
+        [ 0.1716,  0.8078, -0.2267,  0.7011],
+        [ 0.5616,  0.8753,  0.1597, -0.3899]], grad_fn=<TanhBackward>))
+
+```
+
+我们已经重新定义了模块`MyCell`，但是这次我们添加了`self.linear`属性，并且在`forward`函数中调用了`self.linear`。
+
+这里到底发生了什么？ `torch.nn.Linear`是 PyTorch 标准库中的`Module`。 就像`MyCell`一样，可以使用调用语法来调用它。 我们正在建立`Module`的层次结构。
+
+`Module`上的`print`将直观地表示`Module`的子类层次结构。 在我们的示例中，我们可以看到`Linear`子类及其参数。
+
+通过以这种方式组成`Module`，我们可以简洁易读地编写具有可重用组件的模型。
+
+您可能已经在输出上注意到`grad_fn`。 这是 PyTorch 自动微分方法的详细信息，称为 [autograd](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html) 。 简而言之，该系统允许我们通过潜在的复杂程序来计算导数。 该设计为模型创作提供了极大的灵活性。
+
+现在，让我们检查一下灵活性：
+
+```py
+class MyDecisionGate(torch.nn.Module):
+    def forward(self, x):
+        if x.sum() > 0:
+            return x
+        else:
+            return -x
+
+class MyCell(torch.nn.Module):
+    def __init__(self):
+        super(MyCell, self).__init__()
+        self.dg = MyDecisionGate()
+        self.linear = torch.nn.Linear(4, 4)
+
+    def forward(self, x, h):
+        new_h = torch.tanh(self.dg(self.linear(x)) + h)
+        return new_h, new_h
+
+my_cell = MyCell()
+print(my_cell)
+print(my_cell(x, h))
+
+```
+
+出：
+
+```py
+MyCell(
+  (dg): MyDecisionGate()
+  (linear): Linear(in_features=4, out_features=4, bias=True)
+)
+(tensor([[0.8636, 0.5572, 0.6262, 0.8546],
+        [0.7766, 0.5056, 0.5357, 0.8360],
+        [0.7293, 0.7581, 0.7117, 0.2432]], grad_fn=<TanhBackward>), tensor([[0.8636, 0.5572, 0.6262, 0.8546],
+        [0.7766, 0.5056, 0.5357, 0.8360],
+        [0.7293, 0.7581, 0.7117, 0.2432]], grad_fn=<TanhBackward>))
+
+```
+
+我们再次重新定义了`MyCell`类，但是在这里我们定义了`MyDecisionGate`。 该模块利用**控制流**。 控制流包括循环和`if`语句之类的内容。
+
+给定完整的程序表示形式，许多框架都采用计算符号派生的方法。 但是，在 PyTorch 中，我们使用梯度色带。 我们记录发生的操作，并在计算派生时向后回放。 这样，框架不必为语言中的所有构造显式定义派生类。
+
+![How autograd works](img/beccc5ac5df1571304e11d6b12772a99.png)
+
+Autograd 的工作原理
+
+## TorchScript 的基础
+
+现在，让我们以正在运行的示例为例，看看如何应用 TorchScript。
+
+简而言之，即使 PyTorch 具有灵活和动态的特性，TorchScript 也提供了捕获模型定义的工具。 让我们开始研究所谓的**跟踪**。
+
+### 跟踪`Modules`
+
+```py
+class MyCell(torch.nn.Module):
+    def __init__(self):
+        super(MyCell, self).__init__()
+        self.linear = torch.nn.Linear(4, 4)
+
+    def forward(self, x, h):
+        new_h = torch.tanh(self.linear(x) + h)
+        return new_h, new_h
+
+my_cell = MyCell()
+x, h = torch.rand(3, 4), torch.rand(3, 4)
+traced_cell = torch.jit.trace(my_cell, (x, h))
+print(traced_cell)
+traced_cell(x, h)
+
+```
+
+出：
+
+```py
+MyCell(
+  original_name=MyCell
+  (linear): Linear(original_name=Linear)
+)
+
+```
+
+我们倒退了一点，并学习了`MyCell`类的第二版。 和以前一样，我们实例化了它，但是这一次，我们调用了`torch.jit.trace`，将其传递给`Module`，并传递给了*示例输入*，网络可能会看到。
+
+这到底是做什么的？ 它调用了`Module`，记录了运行`Module`时发生的操作，并创建了`torch.jit.ScriptModule`的实例（其中`TracedModule`是实例）
+
+TorchScript 将其定义记录在中间表示（或 IR）中，在深度学习中通常称为*图*。 我们可以检查带有`.graph`属性的图：
+
+```py
+print(traced_cell.graph)
+
+```
+
+出：
+
+```py
+graph(%self.1 : __torch__.MyCell,
+      %input : Float(3:4, 4:1, requires_grad=0, device=cpu),
+      %h : Float(3:4, 4:1, requires_grad=0, device=cpu)):
+  %19 : __torch__.torch.nn.modules.linear.Linear = prim::GetAttr[name="linear"](%self.1)
+  %21 : Tensor = prim::CallMethod[name="forward"](%19, %input)
+  %12 : int = prim::Constant[value=1]() # /var/lib/jenkins/workspace/beginner_source/Intro_to_TorchScript_tutorial.py:188:0
+  %13 : Float(3:4, 4:1, requires_grad=1, device=cpu) = aten::add(%21, %h, %12) # /var/lib/jenkins/workspace/beginner_source/Intro_to_TorchScript_tutorial.py:188:0
+  %14 : Float(3:4, 4:1, requires_grad=1, device=cpu) = aten::tanh(%13) # /var/lib/jenkins/workspace/beginner_source/Intro_to_TorchScript_tutorial.py:188:0
+  %15 : (Float(3:4, 4:1, requires_grad=1, device=cpu), Float(3:4, 4:1, requires_grad=1, device=cpu)) = prim::TupleConstruct(%14, %14)
+  return (%15)
+
+```
+
+但是，这是一个非常低级的表示形式，图中包含的大多数信息对最终用户没有用。 相反，我们可以使用`.code`属性来给出代码的 Python 语法解释：
+
+```py
+print(traced_cell.code)
+
+```
+
+出：
+
+```py
+def forward(self,
+    input: Tensor,
+    h: Tensor) -> Tuple[Tensor, Tensor]:
+  _0 = torch.add((self.linear).forward(input, ), h, alpha=1)
+  _1 = torch.tanh(_0)
+  return (_1, _1)
+
+```
+
+那么**为什么我们要进行所有这些操作？ 有以下几个原因**：
+
+1.  TorchScript 代码可以在其自己的解释器中调用，该解释器基本上是受限制的 Python 解释器。 该解释器不获取全局解释器锁定，因此可以在同一实例上同时处理许多请求。
+2.  这种格式允许我们将整个模型保存到磁盘上，然后将其加载到另一个环境中，例如在以 Python 以外的语言编写的服务器中
+3.  TorchScript 为我们提供了一种表示形式，其中我们可以对代码进行编译器优化以提供更有效的执行
+4.  TorchScript 允许我们与许多后端/设备运行时进行交互，与单个运算符相比，它们要求更广泛的程序视图。
+
+我们可以看到，调用`traced_cell`会产生与 Python 模块相同的结果：
+
+```py
+print(my_cell(x, h))
+print(traced_cell(x, h))
+
+```
+
+出：
+
+```py
+(tensor([[-0.3869,  0.0678,  0.5692,  0.6332],
+        [ 0.1230,  0.4653,  0.8051,  0.3346],
+        [-0.5288,  0.2767,  0.9063,  0.4727]], grad_fn=<TanhBackward>), tensor([[-0.3869,  0.0678,  0.5692,  0.6332],
+        [ 0.1230,  0.4653,  0.8051,  0.3346],
+        [-0.5288,  0.2767,  0.9063,  0.4727]], grad_fn=<TanhBackward>))
+(tensor([[-0.3869,  0.0678,  0.5692,  0.6332],
+        [ 0.1230,  0.4653,  0.8051,  0.3346],
+        [-0.5288,  0.2767,  0.9063,  0.4727]], grad_fn=<TanhBackward>), tensor([[-0.3869,  0.0678,  0.5692,  0.6332],
+        [ 0.1230,  0.4653,  0.8051,  0.3346],
+        [-0.5288,  0.2767,  0.9063,  0.4727]], grad_fn=<TanhBackward>))
+
+```
+
+## 使用脚本转换模块
+
+有一个原因是我们使用了模块的第二版，而不是使用带有大量控制流的子模块。 现在让我们检查一下：
+
+```py
+class MyDecisionGate(torch.nn.Module):
+    def forward(self, x):
+        if x.sum() > 0:
+            return x
+        else:
+            return -x
+
+class MyCell(torch.nn.Module):
+    def __init__(self, dg):
+        super(MyCell, self).__init__()
+        self.dg = dg
+        self.linear = torch.nn.Linear(4, 4)
+
+    def forward(self, x, h):
+        new_h = torch.tanh(self.dg(self.linear(x)) + h)
+        return new_h, new_h
+
+my_cell = MyCell(MyDecisionGate())
+traced_cell = torch.jit.trace(my_cell, (x, h))
+print(traced_cell.code)
+
+```
+
+出：
+
+```py
+def forward(self,
+    input: Tensor,
+    h: Tensor) -> Tuple[Tensor, Tensor]:
+  _0 = self.dg
+  _1 = (self.linear).forward(input, )
+  _2 = (_0).forward(_1, )
+  _3 = torch.tanh(torch.add(_1, h, alpha=1))
+  return (_3, _3)
+
+```
+
+查看`.code`输出，可以发现找不到`if-else`分支！ 为什么？ 跟踪完全按照我们所说的去做：运行代码，记录发生的操作，并构造一个执行此操作的`ScriptModule`。 不幸的是，诸如控制流之类的东西被擦除了。
+
+我们如何在 TorchScript 中忠实地表示此模块？ 我们提供了**脚本编译器**，它可以直接分析您的 Python 源代码以将其转换为 TorchScript。 让我们使用脚本编译器转换`MyDecisionGate`：
+
+```py
+scripted_gate = torch.jit.script(MyDecisionGate())
+
+my_cell = MyCell(scripted_gate)
+traced_cell = torch.jit.script(my_cell)
+print(traced_cell.code)
+
+```
+
+出：
+
+```py
+def forward(self,
+    x: Tensor,
+    h: Tensor) -> Tuple[Tensor, Tensor]:
+  _0 = (self.dg).forward((self.linear).forward(x, ), )
+  new_h = torch.tanh(torch.add(_0, h, alpha=1))
+  return (new_h, new_h)
+
+```
+
+万岁！ 现在，我们已经忠实地捕获了我们在 TorchScript 中程序的行为。 现在，让我们尝试运行该程序：
+
+```py
+# New inputs
+x, h = torch.rand(3, 4), torch.rand(3, 4)
+traced_cell(x, h)
+
+```
+
+### 混合脚本和跟踪
+
+在某些情况下，需要使用跟踪而不是脚本（例如，一个模块具有许多基于不变的 Python 值做出的架构决策，而我们不希望它们出现在 TorchScript 中）。 在这种情况下，可以通过跟踪来编写脚本：`torch.jit.script`将内联被跟踪模块的代码，而跟踪将内联脚本模块的代码。
+
+第一种情况的示例：
+
+```py
+class MyRNNLoop(torch.nn.Module):
+    def __init__(self):
+        super(MyRNNLoop, self).__init__()
+        self.cell = torch.jit.trace(MyCell(scripted_gate), (x, h))
+
+    def forward(self, xs):
+        h, y = torch.zeros(3, 4), torch.zeros(3, 4)
+        for i in range(xs.size(0)):
+            y, h = self.cell(xs[i], h)
+        return y, h
+
+rnn_loop = torch.jit.script(MyRNNLoop())
+print(rnn_loop.code)
+
+```
+
+出：
+
+```py
+def forward(self,
+    xs: Tensor) -> Tuple[Tensor, Tensor]:
+  h = torch.zeros([3, 4], dtype=None, layout=None, device=None, pin_memory=None)
+  y = torch.zeros([3, 4], dtype=None, layout=None, device=None, pin_memory=None)
+  y0 = y
+  h0 = h
+  for i in range(torch.size(xs, 0)):
+    _0 = (self.cell).forward(torch.select(xs, 0, i), h0, )
+    y1, h1, = _0
+    y0, h0 = y1, h1
+  return (y0, h0)
+
+```
+
+还有第二种情况的示例：
+
+```py
+class WrapRNN(torch.nn.Module):
+    def __init__(self):
+        super(WrapRNN, self).__init__()
+        self.loop = torch.jit.script(MyRNNLoop())
+
+    def forward(self, xs):
+        y, h = self.loop(xs)
+        return torch.relu(y)
+
+traced = torch.jit.trace(WrapRNN(), (torch.rand(10, 3, 4)))
+print(traced.code)
+
+```
+
+出：
+
+```py
+def forward(self,
+    argument_1: Tensor) -> Tensor:
+  _0, h, = (self.loop).forward(argument_1, )
+  return torch.relu(h)
+
+```
+
+这样，当情况需要它们时，可以使用脚本和跟踪并将它们一起使用。
+
+## 保存和加载模型
+
+我们提供 API，以存档格式将 TorchScript 模块保存到磁盘或从磁盘加载 TorchScript 模块。 这种格式包括代码，参数，属性和调试信息，这意味着归档文件是模型的独立表示形式，可以在完全独立的过程中加载。 让我们保存并加载包装好的 RNN 模块：
+
+```py
+traced.save('wrapped_rnn.zip')
+
+loaded = torch.jit.load('wrapped_rnn.zip')
+
+print(loaded)
+print(loaded.code)
+
+```
+
+出：
+
+```py
+RecursiveScriptModule(
+  original_name=WrapRNN
+  (loop): RecursiveScriptModule(
+    original_name=MyRNNLoop
+    (cell): RecursiveScriptModule(
+      original_name=MyCell
+      (dg): RecursiveScriptModule(original_name=MyDecisionGate)
+      (linear): RecursiveScriptModule(original_name=Linear)
+    )
+  )
+)
+def forward(self,
+    argument_1: Tensor) -> Tensor:
+  _0, h, = (self.loop).forward(argument_1, )
+  return torch.relu(h)
+
+```
+
+如您所见，序列化保留了模块层次结构和我们一直在研究的代码。 [也可以将模型加载到 C++ 中](https://pytorch.org/tutorials/advanced/cpp_export.html)，以实现不依赖 Python 的执行。
+
+### 进一步阅读
+
+我们已经完成了教程！ 有关更多涉及的演示，[请查看 NeurIPS 演示来使用 TorchScript 转换机器翻译模型](https://colab.research.google.com/drive/1HiICg6jRkBnr5hvK2-VnMi88Vi9pUzEJ)。
+
+**脚本的总运行时间**：（0 分钟 0.269 秒）
+
+[下载 Python 源码：`Intro_to_TorchScript_tutorial.py`](../_downloads/bf4ee4ef1ffde8b469d9ed4001a28ee8/Intro_to_TorchScript_tutorial.py)
+
+[下载 Jupyter 笔记本：`Intro_to_TorchScript_tutorial.ipynb`](../_downloads/0fd9e9bc92ac80a422914e974021c007/Intro_to_TorchScript_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/39.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/39.md
new file mode 100644
index 00000000..6d569ec1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/39.md
@@ -0,0 +1,298 @@
+# 在 C++ 中加载 TorchScript 模型
+
+> 原文：<https://pytorch.org/tutorials/advanced/cpp_export.html>
+
+顾名思义，PyTorch 的主要接口是 Python 编程语言。 尽管 Python 是许多需要动态性和易于迭代的场景的合适且首选的语言，但是在同样许多情况下，Python 的这些属性恰恰是不利的。 后者经常应用的一种环境是*生产* –低延迟和严格部署要求的土地。 对于生产场景，即使仅将 C++ 绑定到 Java，Rust 或 Go 之类的另一种语言中，它也是经常选择的语言。 以下各段将概述 PyTorch 提供的从现有 Python 模型到序列化表示形式的路径，该序列化表示形式可以完全由 C++ *加载*和*执行*，不依赖于 Python。
+
+## 第 1 步：将 PyTorch 模型转换为 Torch 脚本
+
+PyTorch 模型从 Python 到 C++ 的旅程由 [Torch 脚本](https://pytorch.org/docs/master/jit.html)启用，它是 PyTorch 模型的一种表示形式，可以由 Torch 脚本编译器理解，编译和序列化。 如果您从使用原始“渴望” API 编写的现有 PyTorch 模型开始，则必须首先将模型转换为 Torch 脚本。 在最常见的情况下（如下所述），只需很少的努力。 如果您已经有了 Torch 脚本模块，则可以跳到本教程的下一部分。
+
+有两种将 PyTorch 模型转换为 Torch 脚本的方法。 第一种称为*跟踪*，该机制通过使用示例输入对模型的结构进行一次评估，并记录这些输入在模型中的流量来捕获模型的结构。 这适用于有限使用控制流的模型。 第二种方法是在模型中添加显式注解，以告知 TorchScript 编译器可以根据 Torch Script 语言施加的约束直接解析和编译模型代码。
+
+小费
+
+您可以在官方 [Torch 脚本参考](https://pytorch.org/docs/master/jit.html)中找到这两种方法的完整文档以及使用方法的进一步指导。
+
+### 通过跟踪转换为 Torch 脚本
+
+要将 PyTorch 模型通过跟踪转换为 Torch 脚本，必须将模型的实例以及示例输入传递给`torch.jit.trace`函数。 这将产生一个`torch.jit.ScriptModule`对象，并将模型评估的轨迹嵌入到模块的`forward`方法中：
+
+```py
+import torch
+import torchvision
+
+# An instance of your model.
+model = torchvision.models.resnet18()
+
+# An example input you would normally provide to your model's forward() method.
+example = torch.rand(1, 3, 224, 224)
+
+# Use torch.jit.trace to generate a torch.jit.ScriptModule via tracing.
+traced_script_module = torch.jit.trace(model, example)
+
+```
+
+现在可以对跟踪的`ScriptModule`进行评估，使其与常规 PyTorch 模块相同：
+
+```py
+In[1]: output = traced_script_module(torch.ones(1, 3, 224, 224))
+In[2]: output[0, :5]
+Out[2]: tensor([-0.2698, -0.0381,  0.4023, -0.3010, -0.0448], grad_fn=<SliceBackward>)
+
+```
+
+### 通过注解转换为 Torch 脚本
+
+在某些情况下，例如，如果模型采用特定形式的控制流，则可能需要直接在 Torch 脚本中编写模型并相应地注解模型。 例如，假设您具有以下原始 Pytorch 模型：
+
+```py
+import torch
+
+class MyModule(torch.nn.Module):
+    def __init__(self, N, M):
+        super(MyModule, self).__init__()
+        self.weight = torch.nn.Parameter(torch.rand(N, M))
+
+    def forward(self, input):
+        if input.sum() > 0:
+          output = self.weight.mv(input)
+        else:
+          output = self.weight + input
+        return output
+
+```
+
+因为此模块的`forward`方法使用取决于输入的控制流，所以它不适合跟踪。 相反，我们可以将其转换为`ScriptModule`。 为了将模块转换为`ScriptModule`，需要使用`torch.jit.script`编译模块，如下所示：
+
+```py
+class MyModule(torch.nn.Module):
+    def __init__(self, N, M):
+        super(MyModule, self).__init__()
+        self.weight = torch.nn.Parameter(torch.rand(N, M))
+
+    def forward(self, input):
+        if input.sum() > 0:
+          output = self.weight.mv(input)
+        else:
+          output = self.weight + input
+        return output
+
+my_module = MyModule(10,20)
+sm = torch.jit.script(my_module)
+
+```
+
+如果您需要在`nn.Module`中排除某些方法，因为它们使用的是 TorchScript 不支持的 Python 函数，则可以使用`@torch.jit.ignore`来注解这些方法
+
+`my_module`是已准备好进行序列化的`ScriptModule`的实例。
+
+## 第 2 步：将脚本模块序列化为文件
+
+跟踪或注解 PyTorch 模型后，一旦有了`ScriptModule`，就可以将其序列化为文件了。 稍后，您将能够使用 C++ 从此文件加载模块并执行它，而无需依赖 Python。 假设我们要序列化先前在跟踪示例中显示的`ResNet18`模型。 要执行此序列化，只需在模块上调用[`save`](https://pytorch.org/docs/master/jit.html#torch.jit.ScriptModule.save)并为其传递文件名：
+
+```py
+traced_script_module.save("traced_resnet_model.pt")
+
+```
+
+这将在您的工作目录中生成一个`traced_resnet_model.pt`文件。 如果您还想序列化`my_module`，请致电`my_module.save("my_module_model.pt")`。我们现在已经正式离开 Python 领域，并准备跨入 C++ 领域。
+
+## 第 3 步：在 C++ 中加载脚本模块
+
+要在 C++ 中加载序列化的 PyTorch 模型，您的应用必须依赖于 PyTorch C++ API –也称为 *LibTorch* 。 LibTorch 发行版包含共享库，头文件和 CMake 构建配置文件的集合。 虽然 CMake 不是依赖 LibTorch 的要求，但它是推荐的方法，将来会得到很好的支持。 对于本教程，我们将使用 CMake 和 LibTorch 构建一个最小的 C++ 应用，该应用简单地加载并执行序列化的 PyTorch 模型。
+
+### 最小的 C++ 应用
+
+让我们从讨论加载模块的代码开始。 以下将已经做：
+
+```py
+#include <torch/script.h> // One-stop header.
+
+#include <iostream>
+#include <memory>
+
+int main(int argc, const char* argv[]) {
+  if (argc != 2) {
+    std::cerr << "usage: example-app <path-to-exported-script-module>\n";
+    return -1;
+  }
+
+  torch::jit::script::Module module;
+  try {
+    // Deserialize the ScriptModule from a file using torch::jit::load().
+    module = torch::jit::load(argv[1]);
+  }
+  catch (const c10::Error& e) {
+    std::cerr << "error loading the model\n";
+    return -1;
+  }
+
+  std::cout << "ok\n";
+}
+
+```
+
+`<torch/script.h>`标头包含了运行示例所需的 LibTorch 库中的所有相关包含。 我们的应用接受序列化的 PyTorch `ScriptModule`的文件路径作为其唯一的命令行参数，然后继续使用`torch::jit::load()`函数对该模块进行反序列化，该函数将该文件路径作为输入。 作为回报，我们收到一个`torch::jit::script::Module`对象。 我们将稍后讨论如何执行它。
+
+### 依赖 LibTorch 并构建应用
+
+假设我们将以上代码存储到名为`example-app.cpp`的文件中。 最小的`CMakeLists.txt`构建起来看起来很简单：
+
+```py
+cmake_minimum_required(VERSION 3.0 FATAL_ERROR)
+project(custom_ops)
+
+find_package(Torch REQUIRED)
+
+add_executable(example-app example-app.cpp)
+target_link_libraries(example-app "${TORCH_LIBRARIES}")
+set_property(TARGET example-app PROPERTY CXX_STANDARD 14)
+
+```
+
+建立示例应用的最后一件事是 LibTorch 发行版。 您可以随时从 PyTorch 网站上的[下载页面](https://pytorch.org/)获取最新的稳定版本。 如果下载并解压缩最新的归档文件，则应该收到具有以下目录结构的文件夹：
+
+```py
+libtorch/
+  bin/
+  include/
+  lib/
+  share/
+
+```
+
+*   `lib/`文件夹包含您必须链接的共享库，
+*   `include/`文件夹包含程序需要包含的头文件，
+*   `share/`文件夹包含必要的 CMake 配置，以启用上面的简单`find_package(Torch)`命令。
+
+小费
+
+在 Windows 上，调试和发行版本不兼容 ABI。 如果计划以调试模式构建项目，请尝试使用 LibTorch 的调试版本。 另外，请确保在下面的`cmake --build .`行中指定正确的配置。
+
+最后一步是构建应用。 为此，假定示例目录的布局如下：
+
+```py
+example-app/
+  CMakeLists.txt
+  example-app.cpp
+
+```
+
+现在，我们可以运行以下命令从`example-app/`文件夹中构建应用：
+
+```py
+mkdir build
+cd build
+cmake -DCMAKE_PREFIX_PATH=/path/to/libtorch ..
+cmake --build . --config Release
+
+```
+
+其中`/path/to/libtorch`应该是解压缩的 LibTorch 发行版的完整路径。 如果一切顺利，它将看起来像这样：
+
+```py
+root@4b5a67132e81:/example-app# mkdir build
+root@4b5a67132e81:/example-app# cd build
+root@4b5a67132e81:/example-app/build# cmake -DCMAKE_PREFIX_PATH=/path/to/libtorch ..
+-- The C compiler identification is GNU 5.4.0
+-- The CXX compiler identification is GNU 5.4.0
+-- Check for working C compiler: /usr/bin/cc
+-- Check for working C compiler: /usr/bin/cc -- works
+-- Detecting C compiler ABI info
+-- Detecting C compiler ABI info - done
+-- Detecting C compile features
+-- Detecting C compile features - done
+-- Check for working CXX compiler: /usr/bin/c++
+-- Check for working CXX compiler: /usr/bin/c++ -- works
+-- Detecting CXX compiler ABI info
+-- Detecting CXX compiler ABI info - done
+-- Detecting CXX compile features
+-- Detecting CXX compile features - done
+-- Looking for pthread.h
+-- Looking for pthread.h - found
+-- Looking for pthread_create
+-- Looking for pthread_create - not found
+-- Looking for pthread_create in pthreads
+-- Looking for pthread_create in pthreads - not found
+-- Looking for pthread_create in pthread
+-- Looking for pthread_create in pthread - found
+-- Found Threads: TRUE
+-- Configuring done
+-- Generating done
+-- Build files have been written to: /example-app/build
+root@4b5a67132e81:/example-app/build# make
+Scanning dependencies of target example-app
+[ 50%] Building CXX object CMakeFiles/example-app.dir/example-app.cpp.o
+[100%] Linking CXX executable example-app
+[100%] Built target example-app
+
+```
+
+如果我们提供到先前创建的跟踪`ResNet18`模型`traced_resnet_model.pt`到生成的`example-app`二进制文件的路径，则应该以友好的“确定”来回报。 请注意，如果尝试使用`my_module_model.pt`运行此示例，则会收到一条错误消息，提示您输入的形状不兼容。 `my_module_model.pt`期望使用 1D 而不是 4D。
+
+```py
+root@4b5a67132e81:/example-app/build# ./example-app <path_to_model>/traced_resnet_model.pt
+ok
+
+```
+
+## 步骤 4：在 C++ 中执行脚本模块
+
+在用 C++ 成功加载序列化的`ResNet18`之后，我们现在离执行它仅几行代码了！ 让我们将这些行添加到 C++ 应用的`main()`函数中：
+
+```py
+// Create a vector of inputs.
+std::vector<torch::jit::IValue> inputs;
+inputs.push_back(torch::ones({1, 3, 224, 224}));
+
+// Execute the model and turn its output into a tensor.
+at::Tensor output = module.forward(inputs).toTensor();
+std::cout << output.slice(/*dim=*/1, /*start=*/0, /*end=*/5) << '\n';
+
+```
+
+前两行设置了模型的输入。 我们创建一个`torch::jit::IValue`的向量（类型擦除的值类型`script::Module`方法接受并返回），并添加单个输入。 要创建输入张量，我们使用`torch::ones()`，等效于 C++ API 中的`torch.ones`。 然后，我们运行`script::Module`的`forward`方法，并将其传递给我们创建的输入向量。 作为回报，我们得到了一个新的`IValue`，我们可以通过调用`toTensor()`将其转换为张量。
+
+小费
+
+要总体上了解有关`torch::ones`和 PyTorch C++ API 之类的功能的更多信息，请参阅[这个页面](https://pytorch.org/cppdocs)上的文档。 PyTorch C++ API 提供了与 Python API 几乎相同的功能，使您可以像在 Python 中一样进一步操纵和处理张量。
+
+在最后一行，我们打印输出的前五个条目。 由于在本教程前面的部分中，我们为 Python 中的模型提供了相同的输入，因此理想情况下，我们应该看到相同的输出。 让我们通过重新编译我们的应用并以相同的序列化模型运行它来进行尝试：
+
+```py
+root@4b5a67132e81:/example-app/build# make
+Scanning dependencies of target example-app
+[ 50%] Building CXX object CMakeFiles/example-app.dir/example-app.cpp.o
+[100%] Linking CXX executable example-app
+[100%] Built target example-app
+root@4b5a67132e81:/example-app/build# ./example-app traced_resnet_model.pt
+-0.2698 -0.0381  0.4023 -0.3010 -0.0448
+[ Variable[CPUFloatType]{1,5} ]
+
+```
+
+作为参考，Python 以前的输出为：
+
+```py
+tensor([-0.2698, -0.0381,  0.4023, -0.3010, -0.0448], grad_fn=<SliceBackward>)
+
+```
+
+看起来很不错！
+
+小费
+
+要将模型移至 GPU 内存，可以编写`model.to(at::kCUDA);`。 通过调用`tensor.to(at::kCUDA)`来确保模型的输入也位于 CUDA 内存中，这将在 CUDA 内存中返回新的张量。
+
+## 第 5 步：获得帮助并探索 API
+
+本教程有望使您对 PyTorch 模型从 Python 到 C++ 的路径有一个大致的了解。 利用本教程中介绍的概念，您应该能够从原始的“急切的” PyTorch 模型，到 Python 中的已编译`ScriptModule`，再到磁盘上的序列化文件，以及–结束循环–到可执行文件`script::Module`在 C++ 中。
+
+当然，有许多我们没有介绍的概念。 例如，您可能会发现自己想要扩展使用 C++ 或 CUDA 实现的自定义运算符来扩展`ScriptModule`，并希望在纯 C++ 生产环境中加载的`ScriptModule`内执行该自定义运算符。 好消息是：这是可能的，并且得到了很好的支持！ 现在，您可以浏览[这个](https://github.com/pytorch/pytorch/tree/master/test/custom_operator)文件夹作为示例，我们将很快提供一个教程。 目前，以下链接通常可能会有所帮助：
+
+*   [Torch 脚本参考](https://pytorch.org/docs/master/jit.html)
+*   [PyTorch C++ API 文档](https://pytorch.org/cppdocs/)
+*   [PyTorch Python API 文档](https://pytorch.org/docs/)
+
+与往常一样，如果您遇到任何问题或疑问，可以使用我们的[论坛](https://discuss.pytorch.org/)或 [GitHub ISSUE](https://github.com/pytorch/pytorch/issues) 进行联系。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/40.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/40.md
new file mode 100644
index 00000000..c0c8e0f6
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/40.md
@@ -0,0 +1,219 @@
+# 将模型从 PyTorch 导出到 ONNX 并使用 ONNX 运行时运行它（可选）
+
+> 原文：<https://pytorch.org/tutorials/advanced/super_resolution_with_onnxruntime.html>
+
+在本教程中，我们描述了如何将 PyTorch 中定义的模型转换为 ONNX 格式，然后在 ONNX 运行时中运行它。
+
+ONNX 运行时是针对 ONNX 模型的以性能为中心的引擎，可在多个平台和硬件（Windows，Linux 和 Mac 以及 CPU 和 GPU 上）高效地进行推理。 事实证明，如[此处](https://cloudblogs.microsoft.com/opensource/2019/05/22/onnx-runtime-machine-learning-inferencing-0-4-release)所述，ONNX 运行时大大提高了多个模型的性能。
+
+对于本教程，您将需要安装 [ONNX](https://github.com/onnx/onnx) 和 [ONNX 运行时](https://github.com/microsoft/onnxruntime)。 您可以使用`pip install onnx onnxruntime`获得 ONNX 和 ONNX 运行时的二进制版本。 请注意，ONNX 运行时与 Python 3.5 至 3.7 版本兼容。
+
+`NOTE`：本教程需要 PyTorch `master`分支，[可以按照此处的说明进行安装](https://github.com/pytorch/pytorch#from-source)
+
+```py
+# Some standard imports
+import io
+import numpy as np
+
+from torch import nn
+import torch.utils.model_zoo as model_zoo
+import torch.onnx
+
+```
+
+超分辨率是一种提高图像，视频分辨率的方法，广泛用于图像处理或视频编辑中。 在本教程中，我们将使用一个小的超分辨率模型。
+
+首先，让我们在 PyTorch 中创建一个`SuperResolution`模型。 该模型使用了[《使用高效的子像素卷积神经网络的实时单幅图像和视频超分辨率》](https://arxiv.org/abs/1609.05158)（Shi 等人）中所述的高效子像素卷积层来提高图像的分辨率受向上缩放因子的影响。 该模型期望图像的 YCbCr 的 Y 分量作为输入，并以超分辨率输出放大的 Y 分量。
+
+[模型](https://github.com/pytorch/examples/blob/master/super_resolution/model.py)直接来自 PyTorch 的示例，未经修改：
+
+```py
+# Super Resolution model definition in PyTorch
+import torch.nn as nn
+import torch.nn.init as init
+
+class SuperResolutionNet(nn.Module):
+    def __init__(self, upscale_factor, inplace=False):
+        super(SuperResolutionNet, self).__init__()
+
+        self.relu = nn.ReLU(inplace=inplace)
+        self.conv1 = nn.Conv2d(1, 64, (5, 5), (1, 1), (2, 2))
+        self.conv2 = nn.Conv2d(64, 64, (3, 3), (1, 1), (1, 1))
+        self.conv3 = nn.Conv2d(64, 32, (3, 3), (1, 1), (1, 1))
+        self.conv4 = nn.Conv2d(32, upscale_factor ** 2, (3, 3), (1, 1), (1, 1))
+        self.pixel_shuffle = nn.PixelShuffle(upscale_factor)
+
+        self._initialize_weights()
+
+    def forward(self, x):
+        x = self.relu(self.conv1(x))
+        x = self.relu(self.conv2(x))
+        x = self.relu(self.conv3(x))
+        x = self.pixel_shuffle(self.conv4(x))
+        return x
+
+    def _initialize_weights(self):
+        init.orthogonal_(self.conv1.weight, init.calculate_gain('relu'))
+        init.orthogonal_(self.conv2.weight, init.calculate_gain('relu'))
+        init.orthogonal_(self.conv3.weight, init.calculate_gain('relu'))
+        init.orthogonal_(self.conv4.weight)
+
+# Create the super-resolution model by using the above model definition.
+torch_model = SuperResolutionNet(upscale_factor=3)
+
+```
+
+通常，您现在将训练此模型。 但是，在本教程中，我们将下载一些预训练的权重。 请注意，此模型未经过充分训练以提供良好的准确率，此处仅用于演示目的。
+
+在导出模型之前，请先调用`torch_model.eval()`或`torch_model.train(False)`，以将模型转换为推理模式，这一点很重要。 这是必需的，因为像`dropout`或`batchnorm`这样的运算符在推断和训练模式下的行为会有所不同。
+
+```py
+# Load pretrained model weights
+model_url = 'https://s3.amazonaws.com/pytorch/test_data/export/superres_epoch100-44c6958e.pth'
+batch_size = 1    # just a random number
+
+# Initialize model with the pretrained weights
+map_location = lambda storage, loc: storage
+if torch.cuda.is_available():
+    map_location = None
+torch_model.load_state_dict(model_zoo.load_url(model_url, map_location=map_location))
+
+# set the model to inference mode
+torch_model.eval()
+
+```
+
+在 PyTorch 中导出模型是通过跟踪或脚本编写的。 本教程将以通过跟踪导出的模型为例。 要导出模型，我们调用`torch.onnx.export()`函数。 这将执行模型，并记录使用什么运算符计算输出的轨迹。 因为`export`运行模型，所以我们需要提供输入张量`x`。 只要是正确的类型和大小，其中的值就可以是随机的。 请注意，除非指定为动态轴，否则输入尺寸将在导出的 ONNX 图中固定为所有输入尺寸。 在此示例中，我们使用输入`batch_size 1`导出模型，但随后在`torch.onnx.export()`的`dynamic_axes`参数中将第一维指定为动态。 因此，导出的模型将接受大小为`[batch_size, 1, 224, 224]`的输入，其中`batch_size`可以是可变的。
+
+要了解有关 PyTorch 导出接口的更多详细信息，请查看[`torch.onnx`文档](https://pytorch.org/docs/master/onnx.html)。
+
+```py
+# Input to the model
+x = torch.randn(batch_size, 1, 224, 224, requires_grad=True)
+torch_out = torch_model(x)
+
+# Export the model
+torch.onnx.export(torch_model,               # model being run
+                  x,                         # model input (or a tuple for multiple inputs)
+                  "super_resolution.onnx",   # where to save the model (can be a file or file-like object)
+                  export_params=True,        # store the trained parameter weights inside the model file
+                  opset_version=10,          # the ONNX version to export the model to
+                  do_constant_folding=True,  # whether to execute constant folding for optimization
+                  input_names = ['input'],   # the model's input names
+                  output_names = ['output'], # the model's output names
+                  dynamic_axes={'input' : {0 : 'batch_size'},    # variable lenght axes
+                                'output' : {0 : 'batch_size'}})
+
+```
+
+我们还计算了`torch_out`（模型之后的输出），我们将用来验证导出的模型在 ONNX 运行时中运行时是否计算出相同的值。
+
+但是，在通过 ONNX 运行时验证模型的输出之前，我们将使用 ONNX 的 API 检查 ONNX 模型。 首先，`onnx.load("super_resolution.onnx")`将加载保存的模型并输出`onnx.ModelProto`结构（用于捆绑 ML 模型的顶级文件/容器格式。有关更多信息，请参见[`onnx.proto`文档](https://github.com/onnx/onnx/blob/master/onnx/onnx.proto)。 然后，`onnx.checker.check_model(onnx_model)`将验证模型的结构并确认模型具有有效的架构。 通过检查模型的版本，图的结构以及节点及其输入和输出，可以验证 ONNX 图的有效性。
+
+```py
+import onnx
+
+onnx_model = onnx.load("super_resolution.onnx")
+onnx.checker.check_model(onnx_model)
+
+```
+
+现在，我们使用 ONNX 运行时的 Python API 计算输出。 这部分通常可以在单独的过程中或在另一台机器上完成，但是我们将继续同一过程，以便我们可以验证 ONNX 运行时和 PyTorch 正在为网络计算相同的值。
+
+为了使用 ONNX 运行时运行模型，我们需要使用所选的配置参数为模型创建一个推理会话（此处使用默认配置）。 创建会话后，我们将使用`run()` API 评估模型。 此调用的输出是一个列表，其中包含由 ONNX 运行时计算的模型的输出。
+
+```py
+import onnxruntime
+
+ort_session = onnxruntime.InferenceSession("super_resolution.onnx")
+
+def to_numpy(tensor):
+    return tensor.detach().cpu().numpy() if tensor.requires_grad else tensor.cpu().numpy()
+
+# compute ONNX Runtime output prediction
+ort_inputs = {ort_session.get_inputs()[0].name: to_numpy(x)}
+ort_outs = ort_session.run(None, ort_inputs)
+
+# compare ONNX Runtime and PyTorch results
+np.testing.assert_allclose(to_numpy(torch_out), ort_outs[0], rtol=1e-03, atol=1e-05)
+
+print("Exported model has been tested with ONNXRuntime, and the result looks good!")
+
+```
+
+我们应该看到 PyTorch 和 ONNX 运行时的输出在数值上与给定的精度匹配（`rtol = 1e-03`和`atol = 1e-05`）。 附带说明一下，如果它们不匹配，则说明 ONNX 导出器中存在问题，因此请与我们联系。
+
+## 使用 ONNX 运行时在图像上运行模型
+
+到目前为止，我们已经从 PyTorch 导出了一个模型，并演示了如何使用虚拟张量作为输入在 ONNX 运行时中加载和运行该模型。
+
+在本教程中，我们将使用广泛使用的著名猫图像，如下图所示
+
+![cat](img/35d54d0c48ca1c52d56850a202a2c160.png)
+
+首先，让我们加载图片，然后使用标准的 PIL python 库对其进行预处理。 请注意，此预处理是处理数据以训练/测试神经网络的标准做法。
+
+我们首先调整图像大小以适合模型输入的大小（`224x224`）。 然后，我们将图像分为 Y，Cb 和 Cr 分量。 这些分量代表灰度图像（Y），以及蓝差（Cb）和红差（Cr）色度分量。 Y 分量对人眼更敏感，我们对将要转换的这个分量很感兴趣。 提取 Y 分量后，我们将其转换为张量，这将是模型的输入。
+
+```py
+from PIL import Image
+import torchvision.transforms as transforms
+
+img = Image.open("./_static/img/cat.jpg")
+
+resize = transforms.Resize([224, 224])
+img = resize(img)
+
+img_ycbcr = img.convert('YCbCr')
+img_y, img_cb, img_cr = img_ycbcr.split()
+
+to_tensor = transforms.ToTensor()
+img_y = to_tensor(img_y)
+img_y.unsqueeze_(0)
+
+```
+
+现在，作为下一步，让我们使用代表灰度尺寸调整后的猫图像的张量，并按照先前的说明在 ONNX 运行时中运行超分辨率模型。
+
+```py
+ort_inputs = {ort_session.get_inputs()[0].name: to_numpy(img_y)}
+ort_outs = ort_session.run(None, ort_inputs)
+img_out_y = ort_outs[0]
+
+```
+
+此时，模型的输出为张量。 现在，我们将处理模型的输出，以根据输出张量构造最终的输出图像，并保存图像。 采用了来自此处的[超分辨率模型的 PyTorch 实现](https://github.com/pytorch/examples/blob/master/super_resolution/super_resolve.py)的后处理步骤。
+
+```py
+img_out_y = Image.fromarray(np.uint8((img_out_y[0] * 255.0).clip(0, 255)[0]), mode='L')
+
+# get the output image follow post-processing step from PyTorch implementation
+final_img = Image.merge(
+    "YCbCr", [
+        img_out_y,
+        img_cb.resize(img_out_y.size, Image.BICUBIC),
+        img_cr.resize(img_out_y.size, Image.BICUBIC),
+    ]).convert("RGB")
+
+# Save the image, we will compare this with the output image from mobile device
+final_img.save("./_static/img/cat_superres_with_ort.jpg")
+
+```
+
+![output\_cat](img/efb29904552d032a076d8512d4e60b95.png)
+
+ONNX 运行时是跨平台引擎，您可以在多个平台上以及在 CPU 和 GPU 上运行它。
+
+还可以使用 Azure 机器学习服务将 ONNX 运行时部署到云中以进行模型推断。 更多信息在[此处](https://docs.microsoft.com/en-us/azure/machine-learning/service/concept-onnx)。
+
+[在这里了解有关 ONNX 运行时性能的更多信息](https://github.com/microsoft/onnxruntime#high-performance)。
+
+有关 ONNX 运行时的更多信息，[请点击这里](https://github.com/microsoft/onnxruntime)。
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`super_resolution_with_onnxruntime.py`](../_downloads/58ce6e85b9b9e9647d302d6b48feccb0/super_resolution_with_onnxruntime.py)
+
+[下载 Jupyter 笔记本：`super_resolution_with_onnxruntime.ipynb`](../_downloads/8c7f0be1e1c3803fcb4c41bcd9f4226b/super_resolution_with_onnxruntime.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/41.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/41.md
new file mode 100644
index 00000000..4f909d3e
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/41.md
@@ -0,0 +1 @@
+# 前端 API
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/42.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/42.md
new file mode 100644
index 00000000..64d1de4f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/42.md
@@ -0,0 +1,607 @@
+# PyTorch 中的命名张量简介（原型）
+
+> 原文：<https://pytorch.org/tutorials/intermediate/named_tensor_tutorial.html>
+
+**作者**： [Richard Zou](https://github.com/zou3519)
+
+命名张量旨在通过允许用户将显式名称与张量维度相关联来使张量更易于使用。 在大多数情况下，采用尺寸参数的操作将接受尺寸名称，而无需按位置跟踪尺寸。 此外，命名张量使用名称来自动检查运行时是否正确使用了 API，从而提供了额外的安全性。 名称也可以用于重新排列尺寸，例如，支持“按名称广播”而不是“按位置广播”。
+
+本教程旨在作为 1.3 启动中将包含的功能的指南。 到最后，您将能够：
+
+*   创建具有命名尺寸的张量，以及删除或重命名这些尺寸
+*   了解操作如何传播维度名称的基础
+*   了解命名尺寸如何在两个关键区域实现更清晰的代码：
+
+    *   广播操作
+    *   重塑和展开尺寸
+
+最后，我们将通过使用命名张量编写一个多头注意力模块来将其付诸实践。
+
+PyTorch 中的命名张量受 [Sasha Rush](https://tech.cornell.edu/people/alexander-rush/) 的启发并与之合作。 Sasha 在他的 [2019 年 1 月博客文章](http://nlp.seas.harvard.edu/NamedTensor)中提出了最初的想法和概念证明。
+
+## 基础知识：命名维度
+
+PyTorch 现在允许张量具有命名维度； 工厂函数采用新的名称参数，该参数将名称与每个维度相关联。 这适用于大多数工厂函数，例如
+
+*   `tensor`
+*   `empty`
+*   `ones`
+*   `zeros`
+*   `randn`
+*   `rand`
+
+这里我们用名字构造一个张量：
+
+```py
+import torch
+imgs = torch.randn(1, 2, 2, 3, names=('N', 'C', 'H', 'W'))
+print(imgs.names)
+
+```
+
+出：
+
+```py
+('N', 'C', 'H', 'W')
+
+```
+
+与[命名张量的原始博客文章](http://nlp.seas.harvard.edu/NamedTensor)不同，命名维度是有序的：`tensor.names[i]`是`tensor`的第`i`个维度的名称。
+
+重命名`Tensor`尺寸的方法有两种：
+
+```py
+# Method #1: set the .names attribute (this changes name in-place)
+imgs.names = ['batch', 'channel', 'width', 'height']
+print(imgs.names)
+
+# Method #2: specify new names (this changes names out-of-place)
+imgs = imgs.rename(channel='C', width='W', height='H')
+print(imgs.names)
+
+```
+
+出：
+
+```py
+('batch', 'channel', 'width', 'height')
+('batch', 'C', 'W', 'H')
+
+```
+
+删除名称的首选方法是调用`tensor.rename(None)`：
+
+```py
+imgs = imgs.rename(None)
+print(imgs.names)
+
+```
+
+出：
+
+```py
+(None, None, None, None)
+
+```
+
+未命名的张量（没有命名尺寸的张量）仍然可以正常工作，并且在其`repr`中没有名称。
+
+```py
+unnamed = torch.randn(2, 1, 3)
+print(unnamed)
+print(unnamed.names)
+
+```
+
+出：
+
+```py
+tensor([[[-0.7420, -0.3646,  0.1424]],
+
+        [[-0.6065, -1.4888,  0.2935]]])
+(None, None, None)
+
+```
+
+命名张量不需要命名所有尺寸。
+
+```py
+imgs = torch.randn(3, 1, 1, 2, names=('N', None, None, None))
+print(imgs.names)
+
+```
+
+出：
+
+```py
+('N', None, None, None)
+
+```
+
+由于命名张量可以与未命名张量共存，因此我们需要一种不错的方式来编写可识别命名张量的代码，该代码可用于命名张量和未命名张量。 使用`tensor.refine_names(*names)`优化尺寸并将未命名的暗淡提升为已命名的暗淡。 细化维度定义为“重命名”，并具有以下限制：
+
+*   可以将`None`暗号细化为任何名称
+*   命名的维度只能精简为具有相同的名称。
+
+```py
+imgs = torch.randn(3, 1, 1, 2)
+named_imgs = imgs.refine_names('N', 'C', 'H', 'W')
+print(named_imgs.names)
+
+# Refine the last two dims to 'H' and 'W'. In Python 2, use the string '...'
+# instead of ...
+named_imgs = imgs.refine_names(..., 'H', 'W')
+print(named_imgs.names)
+
+def catch_error(fn):
+    try:
+        fn()
+        assert False
+    except RuntimeError as err:
+        err = str(err)
+        if len(err) > 180:
+            err = err[:180] + "..."
+        print(err)
+
+named_imgs = imgs.refine_names('N', 'C', 'H', 'W')
+
+# Tried to refine an existing name to a different name
+catch_error(lambda: named_imgs.refine_names('N', 'C', 'H', 'width'))
+
+```
+
+出：
+
+```py
+('N', 'C', 'H', 'W')
+(None, None, 'H', 'W')
+refine_names: cannot coerce Tensor['N', 'C', 'H', 'W'] to Tensor['N', 'C', 'H', 'width'] because 'W' is different from 'width' at index 3
+
+```
+
+大多数简单的操作都会传播名称。 命名张量的最终目标是所有操作以合理，直观的方式传播名称。 在 1.3 版本发布时，已添加了对许多常用操作的支持。 例如，这里是`.abs()`：
+
+```py
+print(named_imgs.abs().names)
+
+```
+
+出：
+
+```py
+('N', 'C', 'H', 'W')
+
+```
+
+### 访问器和归约
+
+可以使用尺寸名称来引用尺寸而不是位置尺寸。 这些操作还传播名称。 索引（基本索引和高级索引）尚未实现，但仍在规划中。 使用上面的`named_imgs`张量，我们可以执行以下操作：
+
+```py
+output = named_imgs.sum('C')  # Perform a sum over the channel dimension
+print(output.names)
+
+img0 = named_imgs.select('N', 0)  # get one image
+print(img0.names)
+
+```
+
+出：
+
+```py
+('N', 'H', 'W')
+('C', 'H', 'W')
+
+```
+
+### 名称推断
+
+名称在称为**名称推断**的两步过程中在操作上传播：
+
+1.  **检查名称**：运算符可以在运行时执行自动检查，以检查某些尺寸名称是否匹配。
+2.  **传播名称**：名称推断将输出名称传播到输出张量。
+
+让我们看一个非常小的例子，添加 2 个一维张量，不进行广播。
+
+```py
+x = torch.randn(3, names=('X',))
+y = torch.randn(3)
+z = torch.randn(3, names=('Z',))
+
+```
+
+**检查名称**：首先，我们将检查这两个张量的名称是否相匹配。 当且仅当两个名称相等（字符串相等）或至少一个为`None`（`None`本质上是一个特殊的通配符名称）时，两个名称才匹配。 因此，这三者中唯一会出错的是`x + z`：
+
+```py
+catch_error(lambda: x + z)
+
+```
+
+出：
+
+```py
+Error when attempting to broadcast dims ['X'] and dims ['Z']: dim 'X' and dim 'Z' are at the same position from the right but do not match.
+
+```
+
+**传播名称**：通过返回两个名称中最精确的名称来统一这两个名称。 使用`x + y`时，`X`比`None`更精细。
+
+```py
+print((x + y).names)
+
+```
+
+出：
+
+```py
+('X',)
+
+```
+
+大多数名称推断规则都很简单明了，但是其中一些可能具有意想不到的语义。 让我们来看看您可能会遇到的一对：广播和矩阵乘法。
+
+#### 广播
+
+命名张量不会改变广播行为； 他们仍然按位置广播。 但是，在检查两个尺寸是否可以广播时，PyTorch 还会检查这些尺寸的名称是否匹配。
+
+这导致命名张量防止广播操作期间意外对齐。 在下面的示例中，我们将`per_batch_scale`应用于`imgs`。
+
+```py
+imgs = torch.randn(2, 2, 2, 2, names=('N', 'C', 'H', 'W'))
+per_batch_scale = torch.rand(2, names=('N',))
+catch_error(lambda: imgs * per_batch_scale)
+
+```
+
+出：
+
+```py
+Error when attempting to broadcast dims ['N', 'C', 'H', 'W'] and dims ['N']: dim 'W' and dim 'N' are at the same position from the right but do not match.
+
+```
+
+如果没有`names`，则`per_batch_scale`张量与`imgs`的最后一个尺寸对齐，这不是我们想要的。 我们确实想通过将`per_batch_scale`与`imgs`的批量尺寸对齐来执行操作。 有关如何按名称对齐张量的信息，请参见新的“按名称显式广播”功能，如下所述。
+
+#### 矩阵乘法
+
+`torch.mm(A, B)`在`A`的第二个暗角和`B`的第一个暗角之间执行点积，返回具有`A`的第一个暗角和`B`的第二个暗角的张量。 （其他`matmul`函数，例如`torch.matmul`，`torch.mv`和`torch.dot`的行为类似）。
+
+```py
+markov_states = torch.randn(128, 5, names=('batch', 'D'))
+transition_matrix = torch.randn(5, 5, names=('in', 'out'))
+
+# Apply one transition
+new_state = markov_states @ transition_matrix
+print(new_state.names)
+
+```
+
+出：
+
+```py
+('batch', 'out')
+
+```
+
+如您所见，矩阵乘法不会检查收缩尺寸是否具有相同的名称。
+
+接下来，我们将介绍命名张量启用的两个新行为：按名称的显式广播以及按名称的展平和展平尺寸
+
+### 新行为：按名称显式广播
+
+有关使用多个维度的主要抱怨之一是需要`unsqueeze`“虚拟”维度，以便可以进行操作。 例如，在之前的每批比例示例中，使用未命名的张量，我们将执行以下操作：
+
+```py
+imgs = torch.randn(2, 2, 2, 2)  # N, C, H, W
+per_batch_scale = torch.rand(2)  # N
+
+correct_result = imgs * per_batch_scale.view(2, 1, 1, 1)  # N, C, H, W
+incorrect_result = imgs * per_batch_scale.expand_as(imgs)
+assert not torch.allclose(correct_result, incorrect_result)
+
+```
+
+通过使用名称，我们可以使这些操作更安全（并且易于与尺寸数量无关）。 我们提供了一个新的`tensor.align_as(other)`操作，可以对张量的尺寸进行排列以匹配`other.names`中指定的顺序，并在适当的地方添加一个尺寸的尺寸（`tensor.align_to(*names)`也可以）：
+
+```py
+imgs = imgs.refine_names('N', 'C', 'H', 'W')
+per_batch_scale = per_batch_scale.refine_names('N')
+
+named_result = imgs * per_batch_scale.align_as(imgs)
+# note: named tensors do not yet work with allclose
+assert torch.allclose(named_result.rename(None), correct_result)
+
+```
+
+### 新行为：按名称展平或取消展平维度
+
+一种常见的操作是展平和展平尺寸。 现在，用户可以使用`view`，`reshape`或`flatten`来执行此操作； 用例包括将批量尺寸展平以将张量发送到必须采用一定数量尺寸的输入的运算符（即`conv2d`采用 4D 输入）。
+
+为了使这些操作比查看或整形更具语义意义，我们引入了一种新的`tensor.unflatten(dim, namedshape)`方法并更新`flatten`以使用名称：`tensor.flatten(dims, new_dim)`。
+
+`flatten`只能展平相邻的尺寸，但也可以用于不连续的维度。 必须将名称和形状传递到`unflatten`中，该形状是`(dim, size)`元组的列表，以指定如何展开维度。 可以在`flatten`期间保存`unflatten`的尺寸，但我们尚未这样做。
+
+```py
+imgs = imgs.flatten(['C', 'H', 'W'], 'features')
+print(imgs.names)
+
+imgs = imgs.unflatten('features', (('C', 2), ('H', 2), ('W', 2)))
+print(imgs.names)
+
+```
+
+出：
+
+```py
+('N', 'features')
+('N', 'C', 'H', 'W')
+
+```
+
+### Autograd 支持
+
+Autograd 当前会忽略所有张量上的名称，只是将它们视为常规张量。 梯度计算是正确的，但是我们失去了名称赋予我们的安全性。 在路线图上引入名称以自动微分的处理。
+
+```py
+x = torch.randn(3, names=('D',))
+weight = torch.randn(3, names=('D',), requires_grad=True)
+loss = (x - weight).abs()
+grad_loss = torch.randn(3)
+loss.backward(grad_loss)
+
+correct_grad = weight.grad.clone()
+print(correct_grad)  # Unnamed for now. Will be named in the future
+
+weight.grad.zero_()
+grad_loss = grad_loss.refine_names('C')
+loss = (x - weight).abs()
+# Ideally we'd check that the names of loss and grad_loss match, but we don't
+# yet
+loss.backward(grad_loss)
+
+print(weight.grad)  # still unnamed
+assert torch.allclose(weight.grad, correct_grad)
+
+```
+
+出：
+
+```py
+tensor([0.5398, 0.7907, 0.7784])
+tensor([0.5398, 0.7907, 0.7784])
+
+```
+
+### 其他受支持的（和不受支持的）功能
+
+[有关 1.3 发行版支持的功能的详细分类，请参见此处](https://pytorch.org/docs/stable/named_tensor.html)。
+
+特别是，我们要指出当前不支持的三个重要函数：
+
+*   通过`torch.save`或`torch.load`保存或加载命名张量
+*   通过`torch.multiprocessing`进行多重处理
+*   JIT 支持； 例如，以下将错误
+
+```py
+imgs_named = torch.randn(1, 2, 2, 3, names=('N', 'C', 'H', 'W'))
+
+@torch.jit.script
+def fn(x):
+    return x
+
+catch_error(lambda: fn(imgs_named))
+
+```
+
+出：
+
+```py
+NYI: Named tensors are currently unsupported in TorchScript. As a  workaround please drop names via `tensor = tensor.rename(None)`.
+
+```
+
+解决方法是，在使用尚不支持命名张量的任何东西之前，请通过`tensor = tensor.rename(None)`删除名称。
+
+### 更长的例子：多头关注
+
+现在，我们将通过一个完整的示例来实现一个常见的 PyTorch `nn.Module`：多头注意。 我们假设读者已经熟悉多头注意； 要进行复习，请查看[此说明](https://nlp.seas.harvard.edu/2018/04/03/attention.html)或[此说明](http://jalammar.github.io/illustrated-transformer/)。
+
+我们采用 [ParlAI](https://github.com/facebookresearch/ParlAI) 来实现多头注意力的实现； 具体来说[此处](https://github.com/facebookresearch/ParlAI/blob/f7db35cba3f3faf6097b3e6b208442cd564783d9/parlai/agents/transformer/modules.py#L907)。 阅读该示例中的代码； 然后，与下面的代码进行比较，注意有四个标记为（I），（II），（III）和（IV）的位置，使用命名张量可以使代码更易读； 在代码块之后，我们将深入探讨其中的每一个。
+
+```py
+import torch.nn as nn
+import torch.nn.functional as F
+import math
+
+class MultiHeadAttention(nn.Module):
+    def __init__(self, n_heads, dim, dropout=0):
+        super(MultiHeadAttention, self).__init__()
+        self.n_heads = n_heads
+        self.dim = dim
+
+        self.attn_dropout = nn.Dropout(p=dropout)
+        self.q_lin = nn.Linear(dim, dim)
+        self.k_lin = nn.Linear(dim, dim)
+        self.v_lin = nn.Linear(dim, dim)
+        nn.init.xavier_normal_(self.q_lin.weight)
+        nn.init.xavier_normal_(self.k_lin.weight)
+        nn.init.xavier_normal_(self.v_lin.weight)
+        self.out_lin = nn.Linear(dim, dim)
+        nn.init.xavier_normal_(self.out_lin.weight)
+
+    def forward(self, query, key=None, value=None, mask=None):
+        # (I)
+        query = query.refine_names(..., 'T', 'D')
+        self_attn = key is None and value is None
+        if self_attn:
+            mask = mask.refine_names(..., 'T')
+        else:
+            mask = mask.refine_names(..., 'T', 'T_key')  # enc attn
+
+        dim = query.size('D')
+        assert dim == self.dim, \
+            f'Dimensions do not match: {dim} query vs {self.dim} configured'
+        assert mask is not None, 'Mask is None, please specify a mask'
+        n_heads = self.n_heads
+        dim_per_head = dim // n_heads
+        scale = math.sqrt(dim_per_head)
+
+        # (II)
+        def prepare_head(tensor):
+            tensor = tensor.refine_names(..., 'T', 'D')
+            return (tensor.unflatten('D', [('H', n_heads), ('D_head', dim_per_head)])
+                          .align_to(..., 'H', 'T', 'D_head'))
+
+        assert value is None
+        if self_attn:
+            key = value = query
+        elif value is None:
+            # key and value are the same, but query differs
+            key = key.refine_names(..., 'T', 'D')
+            value = key
+        dim = key.size('D')
+
+        # Distinguish between query_len (T) and key_len (T_key) dims.
+        k = prepare_head(self.k_lin(key)).rename(T='T_key')
+        v = prepare_head(self.v_lin(value)).rename(T='T_key')
+        q = prepare_head(self.q_lin(query))
+
+        dot_prod = q.div_(scale).matmul(k.align_to(..., 'D_head', 'T_key'))
+        dot_prod.refine_names(..., 'H', 'T', 'T_key')  # just a check
+
+        # (III)
+        attn_mask = (mask == 0).align_as(dot_prod)
+        dot_prod.masked_fill_(attn_mask, -float(1e20))
+
+        attn_weights = self.attn_dropout(F.softmax(dot_prod / scale,
+                                                   dim='T_key'))
+
+        # (IV)
+        attentioned = (
+            attn_weights.matmul(v).refine_names(..., 'H', 'T', 'D_head')
+            .align_to(..., 'T', 'H', 'D_head')
+            .flatten(['H', 'D_head'], 'D')
+        )
+
+        return self.out_lin(attentioned).refine_names(..., 'T', 'D')
+
+```
+
+（I）细化输入张量维度
+
+```py
+def forward(self, query, key=None, value=None, mask=None):
+    # (I)
+    query = query.refine_names(..., 'T', 'D')
+
+```
+
+`query = query.refine_names(..., 'T', 'D')`用作可执行的文档，并将输入尺寸提升为名称。 它检查最后两个维度是否可以调整为`['T', 'D']`，以防止在以后出现潜在的无声或混乱的尺寸不匹配错误。
+
+（II）在`prepare_head`中操纵尺寸
+
+```py
+# (II)
+def prepare_head(tensor):
+    tensor = tensor.refine_names(..., 'T', 'D')
+    return (tensor.unflatten('D', [('H', n_heads), ('D_head', dim_per_head)])
+                  .align_to(..., 'H', 'T', 'D_head'))
+
+```
+
+首先要注意的是代码如何清楚地说明输入和输出尺寸：输入张量必须以`T`和`D`变暗结束，输出张量应以`H`，`T`和`D_head`维度结束。
+
+要注意的第二件事是代码清楚地描述了正在发生的事情。 `prepare_head`获取键，查询和值，并将嵌入的维度拆分为多个头部，最后将维度顺序重新排列为`[..., 'H', 'T', 'D_head']`。 ParlAI 使用`view`和`transpose`操作实现以下`prepare_head`：
+
+```py
+def prepare_head(tensor):
+    # input is [batch_size, seq_len, n_heads * dim_per_head]
+    # output is [batch_size * n_heads, seq_len, dim_per_head]
+    batch_size, seq_len, _ = tensor.size()
+    tensor = tensor.view(batch_size, tensor.size(1), n_heads, dim_per_head)
+    tensor = (
+        tensor.transpose(1, 2)
+        .contiguous()
+        .view(batch_size * n_heads, seq_len, dim_per_head)
+    )
+    return tensor
+
+```
+
+我们命名的张量变量使用的操作虽然较为冗长，但比`view`和`transpose`具有更多的语义含义，并包含以名称形式出现的可执行文档。
+
+（III）按名称显式广播
+
+```py
+def ignore():
+    # (III)
+    attn_mask = (mask == 0).align_as(dot_prod)
+    dot_prod.masked_fill_(attn_mask, -float(1e20))
+
+```
+
+`mask`通常具有暗淡`[N, T]`（在自我关注的情况下）或`[N, T, T_key]`（对于编码器注意的情况），而`dot_prod`具有暗淡的`[N, H, T, T_key]`。 为了使`mask`与`dot_prod`正确广播，我们通常会在自注意的情况下将的调暗`1`和`-1`压下，在编码器的情况下，我们将`unsqueeze`调暗`unsqueeze` 。 使用命名张量，我们只需使用`align_as`将`attn_mask`与`dot_prod`对齐，而不必担心`unsqueeze`变暗的位置。
+
+（IV）使用`align_to`和`flatten`进行更多尺寸操作
+
+```py
+def ignore():
+    # (IV)
+    attentioned = (
+        attn_weights.matmul(v).refine_names(..., 'H', 'T', 'D_head')
+        .align_to(..., 'T', 'H', 'D_head')
+        .flatten(['H', 'D_head'], 'D')
+    )
+
+```
+
+在这里，与（II）一样，`align_to`和`flatten`在语义上比`view`和`transpose`更有意义（尽管更冗长）。
+
+### 运行示例
+
+```py
+n, t, d, h = 7, 5, 2 * 3, 3
+query = torch.randn(n, t, d, names=('N', 'T', 'D'))
+mask = torch.ones(n, t, names=('N', 'T'))
+attn = MultiHeadAttention(h, d)
+output = attn(query, mask=mask)
+# works as expected!
+print(output.names)
+
+```
+
+出：
+
+```py
+('N', 'T', 'D')
+
+```
+
+以上工作正常。 此外，请注意，在代码中我们根本没有提到批量维度的名称。 实际上，我们的`MultiHeadAttention`模块与批量尺寸的存在无关。
+
+```py
+query = torch.randn(t, d, names=('T', 'D'))
+mask = torch.ones(t, names=('T',))
+output = attn(query, mask=mask)
+print(output.names)
+
+```
+
+出：
+
+```py
+('T', 'D')
+
+```
+
+### 总结
+
+感谢您的阅读！ 命名张量仍在发展中。 如果您有反馈和/或改进建议，请通过创建 [ISSUE](https://github.com/pytorch/pytorch/issues) 来通知我们。
+
+**脚本的总运行时间**：（0 分钟 0.094 秒）
+
+[下载 Python 源码：`named_tensor_tutorial.py`](../_downloads/1e94d0ce96a0c8097f002bcbe94c35d7/named_tensor_tutorial.py)
+
+[下载 Jupyter 笔记本：`named_tensor_tutorial.ipynb`](../_downloads/90d6df7aa4b65bb035e19943c6f92ea0/named_tensor_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/43.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/43.md
new file mode 100644
index 00000000..6a73d07d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/43.md
@@ -0,0 +1,416 @@
+# PyTorch 中通道在最后的内存格式（beta）
+
+> 原文：<https://pytorch.org/tutorials/intermediate/memory_format_tutorial.html>
+
+**作者**： [Vitaly Fedyunin](https://github.com/VitalyFedyunin)
+
+## 什么是通道在最后
+
+通道在最后的内存格式是在保留内存尺寸的顺序中对 NCHW 张量进行排序的另一种方法。 通道最后一个张量的排序方式使通道成为最密集的维度（又称为每像素存储图像）。
+
+例如，NCHW 张量的经典（连续）存储（在我们的示例中是具有 3 个颜色通道的两个`2x2`图像）如下所示：
+
+![classic_memory_format](img/77e0660b596f377125122a2409288181.png)
+
+通道最后的存储格式对数据的排序方式不同：
+
+![channels_last_memory_format](img/462373919a0dfe17cd816fa0d8af140c.png)
+
+Pytorch 通过使用现有的跨步结构支持内存格式（并提供与现有模型（包括 eager，JIT 和 TorchScript）的向后兼容性）。 例如，通道在最后的格式中的`10x3x16x16`批量的步幅等于`(768, 1, 48, 3)`。
+
+通道最后一个存储格式仅适用于 4D NCWH 张量。
+
+```py
+import torch
+N, C, H, W = 10, 3, 32, 32
+
+```
+
+## 内存格式 API
+
+这是在连续和通道最后存储格式之间转换张量的方法。
+
+经典 PyTorch 连续张量
+
+```py
+x = torch.empty(N, C, H, W)
+print(x.stride()) # Ouputs: (3072, 1024, 32, 1)
+
+```
+
+出：
+
+```py
+(3072, 1024, 32, 1)
+
+```
+
+转换运算符
+
+```py
+x = x.contiguous(memory_format=torch.channels_last)
+print(x.shape) # Outputs: (10, 3, 32, 32) as dimensions order preserved
+print(x.stride()) # Outputs: (3072, 1, 96, 3)
+
+```
+
+出：
+
+```py
+torch.Size([10, 3, 32, 32])
+(3072, 1, 96, 3)
+
+```
+
+返回连续
+
+```py
+x = x.contiguous(memory_format=torch.contiguous_format)
+print(x.stride()) # Outputs: (3072, 1024, 32, 1)
+
+```
+
+出：
+
+```py
+(3072, 1024, 32, 1)
+
+```
+
+替代选择
+
+```py
+x = x.to(memory_format=torch.channels_last)
+print(x.stride()) # Ouputs: (3072, 1, 96, 3)
+
+```
+
+出：
+
+```py
+(3072, 1, 96, 3)
+
+```
+
+格式检查
+
+```py
+print(x.is_contiguous(memory_format=torch.channels_last)) # Ouputs: True
+
+```
+
+出：
+
+```py
+True
+
+```
+
+最后创建为渠道
+
+```py
+x = torch.empty(N, C, H, W, memory_format=torch.channels_last)
+print(x.stride()) # Ouputs: (3072, 1, 96, 3)
+
+```
+
+出：
+
+```py
+(3072, 1, 96, 3)
+
+```
+
+`clone`保留内存格式
+
+```py
+y = x.clone()
+print(y.stride()) # Ouputs: (3072, 1, 96, 3)
+
+```
+
+出：
+
+```py
+(3072, 1, 96, 3)
+
+```
+
+`to`，`cuda`，`float`…保留内存格式
+
+```py
+if torch.cuda.is_available():
+    y = x.cuda()
+    print(y.stride()) # Ouputs: (3072, 1, 96, 3)
+
+```
+
+出：
+
+```py
+(3072, 1, 96, 3)
+
+```
+
+`empty_like`和`*_like`运算符保留内存格式
+
+```py
+y = torch.empty_like(x)
+print(y.stride()) # Ouputs: (3072, 1, 96, 3)
+
+```
+
+出：
+
+```py
+(3072, 1, 96, 3)
+
+```
+
+点向运算符保留内存格式
+
+```py
+z = x + y
+print(z.stride()) # Ouputs: (3072, 1, 96, 3)
+
+```
+
+出：
+
+```py
+(3072, 1, 96, 3)
+
+```
+
+转换，`Batchnorm`模块支持通道在最后（仅适用于`CudNN >= 7.6`）
+
+```py
+if torch.backends.cudnn.version() >= 7603:
+    input = torch.randint(1, 10, (2, 8, 4, 4), dtype=torch.float32, device="cuda", requires_grad=True)
+    model = torch.nn.Conv2d(8, 4, 3).cuda().float()
+
+    input = input.contiguous(memory_format=torch.channels_last)
+    model = model.to(memory_format=torch.channels_last) # Module parameters need to be Channels Last
+
+    out = model(input)
+    print(out.is_contiguous(memory_format=torch.channels_last)) # Ouputs: True
+
+```
+
+出：
+
+```py
+True
+
+```
+
+## 性能提升
+
+在具有张量核心支持的 Nvidia 硬件上观察到了最大的性能提升。 在运行 [Nvidia](https://github.com/NVIDIA/apex) 提供的 AMP（自动混合精度）训练脚本时，我们可以将性能提高 22% 以上。
+
+`python main_amp.py -a resnet50 --b 200 --workers 16 --opt-level O2  ./data`
+
+```py
+# opt_level = O2
+# keep_batchnorm_fp32 = None <class 'NoneType'>
+# loss_scale = None <class 'NoneType'>
+# CUDNN VERSION: 7603
+# => creating model 'resnet50'
+# Selected optimization level O2:  FP16 training with FP32 batchnorm and FP32 master weights.
+# Defaults for this optimization level are:
+# enabled                : True
+# opt_level              : O2
+# cast_model_type        : torch.float16
+# patch_torch_functions  : False
+# keep_batchnorm_fp32    : True
+# master_weights         : True
+# loss_scale             : dynamic
+# Processing user overrides (additional kwargs that are not None)...
+# After processing overrides, optimization options are:
+# enabled                : True
+# opt_level              : O2
+# cast_model_type        : torch.float16
+# patch_torch_functions  : False
+# keep_batchnorm_fp32    : True
+# master_weights         : True
+# loss_scale             : dynamic
+# Epoch: [0][10/125] Time 0.866 (0.866) Speed 230.949 (230.949) Loss 0.6735125184 (0.6735) Prec@1 61.000 (61.000) Prec@5 100.000 (100.000)
+# Epoch: [0][20/125] Time 0.259 (0.562) Speed 773.481 (355.693) Loss 0.6968704462 (0.6852) Prec@1 55.000 (58.000) Prec@5 100.000 (100.000)
+# Epoch: [0][30/125] Time 0.258 (0.461) Speed 775.089 (433.965) Loss 0.7877287269 (0.7194) Prec@1 51.500 (55.833) Prec@5 100.000 (100.000)
+# Epoch: [0][40/125] Time 0.259 (0.410) Speed 771.710 (487.281) Loss 0.8285319805 (0.7467) Prec@1 48.500 (54.000) Prec@5 100.000 (100.000)
+# Epoch: [0][50/125] Time 0.260 (0.380) Speed 770.090 (525.908) Loss 0.7370464802 (0.7447) Prec@1 56.500 (54.500) Prec@5 100.000 (100.000)
+# Epoch: [0][60/125] Time 0.258 (0.360) Speed 775.623 (555.728) Loss 0.7592862844 (0.7472) Prec@1 51.000 (53.917) Prec@5 100.000 (100.000)
+# Epoch: [0][70/125] Time 0.258 (0.345) Speed 774.746 (579.115) Loss 1.9698858261 (0.9218) Prec@1 49.500 (53.286) Prec@5 100.000 (100.000)
+# Epoch: [0][80/125] Time 0.260 (0.335) Speed 770.324 (597.659) Loss 2.2505953312 (1.0879) Prec@1 50.500 (52.938) Prec@5 100.000 (100.000)
+
+```
+
+传递`--channels-last true`允许以通道在最后的格式运行模型，观察到 22% 的表现增益。
+
+`python main_amp.py -a resnet50 --b 200 --workers 16 --opt-level O2 --channels-last true ./data`
+
+```py
+# opt_level = O2
+# keep_batchnorm_fp32 = None <class 'NoneType'>
+# loss_scale = None <class 'NoneType'>
+#
+# CUDNN VERSION: 7603
+#
+# => creating model 'resnet50'
+# Selected optimization level O2:  FP16 training with FP32 batchnorm and FP32 master weights.
+#
+# Defaults for this optimization level are:
+# enabled                : True
+# opt_level              : O2
+# cast_model_type        : torch.float16
+# patch_torch_functions  : False
+# keep_batchnorm_fp32    : True
+# master_weights         : True
+# loss_scale             : dynamic
+# Processing user overrides (additional kwargs that are not None)...
+# After processing overrides, optimization options are:
+# enabled                : True
+# opt_level              : O2
+# cast_model_type        : torch.float16
+# patch_torch_functions  : False
+# keep_batchnorm_fp32    : True
+# master_weights         : True
+# loss_scale             : dynamic
+#
+# Epoch: [0][10/125] Time 0.767 (0.767) Speed 260.785 (260.785) Loss 0.7579724789 (0.7580) Prec@1 53.500 (53.500) Prec@5 100.000 (100.000)
+# Epoch: [0][20/125] Time 0.198 (0.482) Speed 1012.135 (414.716) Loss 0.7007197738 (0.7293) Prec@1 49.000 (51.250) Prec@5 100.000 (100.000)
+# Epoch: [0][30/125] Time 0.198 (0.387) Speed 1010.977 (516.198) Loss 0.7113101482 (0.7233) Prec@1 55.500 (52.667) Prec@5 100.000 (100.000)
+# Epoch: [0][40/125] Time 0.197 (0.340) Speed 1013.023 (588.333) Loss 0.8943189979 (0.7661) Prec@1 54.000 (53.000) Prec@5 100.000 (100.000)
+# Epoch: [0][50/125] Time 0.198 (0.312) Speed 1010.541 (641.977) Loss 1.7113249302 (0.9551) Prec@1 51.000 (52.600) Prec@5 100.000 (100.000)
+# Epoch: [0][60/125] Time 0.198 (0.293) Speed 1011.163 (683.574) Loss 5.8537774086 (1.7716) Prec@1 50.500 (52.250) Prec@5 100.000 (100.000)
+# Epoch: [0][70/125] Time 0.198 (0.279) Speed 1011.453 (716.767) Loss 5.7595844269 (2.3413) Prec@1 46.500 (51.429) Prec@5 100.000 (100.000)
+# Epoch: [0][80/125] Time 0.198 (0.269) Speed 1011.827 (743.883) Loss 2.8196096420 (2.4011) Prec@1 47.500 (50.938) Prec@5 100.000 (100.000)
+
+```
+
+以下模型列表完全支持通道在最后，并在 Volta 设备上显示了 8%-35% 的表现增益：`alexnet`，`mnasnet0_5`，`mnasnet0_75`，`mnasnet1_0`，`mnasnet1_3`，`mobilenet_v2`，`resnet101`，`resnet152`，`resnet18`，`resnet34`，`resnet50`，`resnext50_32x4d`，`shufflenet_v2_x0_5`，`shufflenet_v2_x1_0`，`shufflenet_v2_x1_5`，`shufflenet_v2_x2_0`，`squeezenet1_0`，`squeezenet1_1`，`vgg11` ，`vgg11_bn`，`vgg13`，`vgg13_bn`，`vgg16`，`vgg16_bn`，`vgg19`，`vgg19_bn`，`wide_resnet101_2`，`wide_resnet50_2`
+
+## 转换现有模型
+
+通道在最后支持不受现有模型的限制，因为只要输入格式正确，任何模型都可以转换为通道在最后，并通过图传播格式。
+
+```py
+# Need to be done once, after model initialization (or load)
+model = model.to(memory_format=torch.channels_last) # Replace with your model
+
+# Need to be done for every input
+input = input.to(memory_format=torch.channels_last) # Replace with your input
+output = model(input)
+
+```
+
+但是，并非所有运算符都完全转换为支持通道在最后（通常返回连续输出）。 这意味着您需要根据[支持的运算符列表](https://github.com/pytorch/pytorch/wiki/Operators-with-Channels-Last-support)来验证已使用运算符的列表，或将内存格式检查引入急切的执行模式并运行模型。
+
+运行以下代码后，如果运算符的输出与输入的存储格式不匹配，运算符将引发异常。
+
+```py
+def contains_cl(args):
+    for t in args:
+        if isinstance(t, torch.Tensor):
+            if t.is_contiguous(memory_format=torch.channels_last) and not t.is_contiguous():
+                return True
+        elif isinstance(t, list) or isinstance(t, tuple):
+            if contains_cl(list(t)):
+                return True
+    return False
+
+def print_inputs(args, indent=''):
+    for t in args:
+        if isinstance(t, torch.Tensor):
+            print(indent, t.stride(), t.shape, t.device, t.dtype)
+        elif isinstance(t, list) or isinstance(t, tuple):
+            print(indent, type(t))
+            print_inputs(list(t), indent=indent + '    ')
+        else:
+            print(indent, t)
+
+def check_wrapper(fn):
+    name = fn.__name__
+
+    def check_cl(*args, **kwargs):
+        was_cl = contains_cl(args)
+        try:
+            result = fn(*args, **kwargs)
+        except Exception as e:
+            print("`{}` inputs are:".format(name))
+            print_inputs(args)
+            print('-------------------')
+            raise e
+        failed = False
+        if was_cl:
+            if isinstance(result, torch.Tensor):
+                if result.dim() == 4 and not result.is_contiguous(memory_format=torch.channels_last):
+                    print("`{}` got channels_last input, but output is not channels_last:".format(name),
+                          result.shape, result.stride(), result.device, result.dtype)
+                    failed = True
+        if failed and True:
+            print("`{}` inputs are:".format(name))
+            print_inputs(args)
+            raise Exception(
+                'Operator `{}` lost channels_last property'.format(name))
+        return result
+    return check_cl
+
+old_attrs = dict()
+
+def attribute(m):
+    old_attrs[m] = dict()
+    for i in dir(m):
+        e = getattr(m, i)
+        exclude_functions = ['is_cuda', 'has_names', 'numel',
+                             'stride', 'Tensor', 'is_contiguous', '__class__']
+        if i not in exclude_functions and not i.startswith('_') and '__call__' in dir(e):
+            try:
+                old_attrs[m][i] = e
+                setattr(m, i, check_wrapper(e))
+            except Exception as e:
+                print(i)
+                print(e)
+
+attribute(torch.Tensor)
+attribute(torch.nn.functional)
+attribute(torch)
+
+```
+
+出：
+
+```py
+Optional
+'_Optional' object has no attribute '__name__'
+
+```
+
+如果您发现不支持通道在最后的张量的运算符并且想要贡献力量，请随时使用[以下开发人员指南](https://github.com/pytorch/pytorch/wiki/Writing-memory-format-aware-operators)。
+
+下面的代码是恢复火炬的属性。
+
+```py
+for (m, attrs) in old_attrs.items():
+  for (k,v) in attrs.items():
+    setattr(m, k, v)
+
+```
+
+## 要做的工作
+
+仍有许多事情要做，例如：
+
+*   解决 N1HW 和 NC11 张量的歧义；
+*   测试分布式训练支持；
+*   提高运算符覆盖率。
+
+如果您有反馈和/或改进建议，请通过创建 [ISSUE](https://github.com/pytorch/pytorch/issues) 来通知我们。
+
+**脚本的总运行时间**：（0 分钟 2.300 秒）
+
+[下载 Python 源码：`memory_format_tutorial.py`](../_downloads/6c290a5fc635f734b10bbca97b52d2f1/memory_format_tutorial.py)
+
+[下载 Jupyter 笔记本：`memory_format_tutorial.ipynb`](../_downloads/6f7327daa2a9b857365f893069d0bace/memory_format_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/44.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/44.md
new file mode 100644
index 00000000..e34a4a5a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/44.md
@@ -0,0 +1,965 @@
+# 使用 PyTorch C++ 前端
+
+> 原文：<https://pytorch.org/tutorials/advanced/cpp_frontend.html>
+
+PyTorch C++ 前端是 PyTorch 机器学习框架的纯 C++ 接口。 虽然 PyTorch 的主要接口自然是 Python，但此 Python API 位于强大的 C++ 代码库之上，提供基本的数据结构和功能，例如张量和自动微分。 C++ 前端公开了纯 C++  11 API，该 API 使用机器学习训练和推理所需的工具扩展了此基础 C++ 代码库。 这包括用于神经网络建模的通用组件的内置集合； 使用自定义模块扩展此集合的 API； 一个流行的优化算法库，例如随机梯度下降； 具有 API 的并行数据加载器，用于定义和加载数据集； 序列化例程等。
+
+本教程将引导您完成使用 C++ 前端训练模型的端到端示例。 具体来说，我们将训练 [DCGAN](https://arxiv.org/abs/1511.06434) （一种生成模型），以生成 MNIST 数字的图像。 虽然从概念上讲是一个简单的示例，但它足以使您对 PyTorch C++ 前端有个大概的了解，并且可以满足您训练更复杂模型的需求。 我们将从一些鼓舞人心的词开始，说明您为什么要使用 C++ 前端，然后直接深入定义和训练我们的模型。
+
+小费
+
+观看[来自 CppCon 2018 的简短演讲](https://www.youtube.com/watch?v=auRPXMMHJzc)，获得有关 C++ 前端的快速（幽默）演示。
+
+小费
+
+[本笔记](https://pytorch.org/cppdocs/frontend.html)概述了 C++ 前端的组件和设计原理。
+
+小费
+
+有关 PyTorch C++ 生态系统的文档，请访问[这个页面](https://pytorch.org/cppdocs)。 您可以在此处找到高级描述以及 API 级文档。
+
+## 动机
+
+在我们开始 GAN 和 MNIST 数字的激动人心的旅程之前，让我们退后一步，讨论为什么要使用 C++ 前端而不是 Python。 我们（PyTorch 团队）创建了 C++ 前端，以便能够在无法使用 Python 或根本不适合该工具的环境中进行研究。 此类环境的示例包括：
+
+*   **低延迟系统**：您可能希望在具有高每秒帧数和低延迟要求的纯 C++ 游戏引擎中进行强化学习研究。 与 Python 库相比，使用纯 C++ 库更适合这种环境。 由于 Python 解释器的缓慢性，Python 可能根本无法处理。
+*   **高度多线程环境**：由于全局解释器锁定（GIL），Python 一次不能运行多个系统线程。 多处理是一种替代方法，但可伸缩性却不如它，并且存在很多缺点。 C++ 没有这样的约束，线程易于使用和创建。 需要重型并行化的模型，例如[深度神经演化](https://eng.uber.com/deep-neuroevolution/)中使用的模型，可以从中受益。
+*   **现有 C++ 代码库**：您可能是现有 C++ 应用的所有者，该应用从事从后端服务器中的网页服务到照片编辑软件中的 3D 图形渲染等所有工作，并且希望将机器学习方法集成到您的系统中。 C++ 前端使您可以继续使用 C++，并避免在 Python 和 C++ 之间来回绑定的麻烦，同时保留了传统 PyTorch（Python）体验的大部分灵活性和直观性。
+
+C++ 前端无意与 Python 前端竞争。 它是对它的补充。 我们知道研究人员和工程师都喜欢 PyTorch，因为它具有简单，灵活和直观的 API。 我们的目标是确保您可以在所有可能的环境（包括上述环境）中利用这些核心设计原则。 如果这些场景中的一种很好地描述了您的用例，或者您只是感兴趣或好奇，请在以下段落中继续研究 C++ 前端。
+
+小费
+
+C++ 前端试图提供一个与 Python 前端尽可能接近的 API。 如果您对 Python 前端有丰富的经验，并且问过自己“我如何使用 C++ 前端 X？”，请像在 Python 中那样编写代码，而且大多数情况下，相同的函数和方法也可以在 C++ 中使用，就像在 Python 中一样（只记得用双冒号替换点）。
+
+## 编写基本应用
+
+首先，编写一个最小的 C++ 应用，以验证我们是否在同一页面上了解我们的设置和构建环境。 首先，您需要获取 *LibTorch* 发行版的副本-我们现成的 zip 归档文件，其中打包了使用 C++ 前端所需的所有相关标头，库和 CMake 构建文件。 LibTorch 发行版可从 [PyTorch 网站](https://pytorch.org/get-started/locally/)下载，适用于 Linux，MacOS 和 Windows。 本教程的其余部分将假定基本的 Ubuntu Linux 环境，但是您也可以在 MacOS 或 Windows 上随意进行操作。
+
+小费
+
+有关[安装 PyTorch](https://pytorch.org/cppdocs/installing.html) 的 C++ 发行版的说明，更详细地描述了以下步骤。
+
+小费
+
+在 Windows 上，调试和发行版本不兼容 ABI。 如果计划以调试模式构建项目，请尝试使用 LibTorch 的调试版本。 另外，请确保在下面的`cmake --build .`行中指定正确的配置。
+
+第一步是通过从 PyTorch 网站获取的链接在本地下载 LibTorch 发行版。 对于普通的 Ubuntu Linux 环境，这意味着运行：
+
+```py
+# If you need e.g. CUDA 9.0 support, please replace "cpu" with "cu90" in the URL below.
+wget https://download.pytorch.org/libtorch/nightly/cpu/libtorch-shared-with-deps-latest.zip
+unzip libtorch-shared-with-deps-latest.zip
+
+```
+
+接下来，让我们编写一个名为`dcgan.cpp`的小型 C++ 文件，其中包含`torch/torch.h`，现在只需打印出三乘三的标识矩阵即可：
+
+```py
+#include <torch/torch.h>
+#include <iostream>
+
+int main() {
+  torch::Tensor tensor = torch::eye(3);
+  std::cout << tensor << std::endl;
+}
+
+```
+
+稍后，为了构建这个小应用以及我们完整的训练脚本，我们将使用以下`CMakeLists.txt`文件：
+
+```py
+cmake_minimum_required(VERSION 3.0 FATAL_ERROR)
+project(dcgan)
+
+find_package(Torch REQUIRED)
+
+add_executable(dcgan dcgan.cpp)
+target_link_libraries(dcgan "${TORCH_LIBRARIES}")
+set_property(TARGET dcgan PROPERTY CXX_STANDARD 14)
+
+```
+
+注意
+
+虽然 CMake 是 LibTorch 的推荐构建系统，但这并不是硬性要求。 您还可以使用 Visual Studio 项目文件，QMake，普通 Makefile 或您认为合适的任何其他构建环境。 但是，我们不为此提供现成的支持。
+
+在上面的 CMake 文件中记下第 4 行：`find_package(Torch REQUIRED)`。 这指示 CMake 查找 LibTorch 库的构建配置。 为了使 CMake 知道在哪里找到这些文件，调用`cmake`时必须设置`CMAKE_PREFIX_PATH`。 在执行此操作之前，让我们就`dcgan`应用的以下目录结构达成一致：
+
+```py
+dcgan/
+  CMakeLists.txt
+  dcgan.cpp
+
+```
+
+此外，我将指向未压缩的 LibTorch 分布的路径称为`/path/to/libtorch`。 注意，它**必须是绝对路径**。 特别是，将`CMAKE_PREFIX_PATH`设置为`../../libtorch`之类的内容会以意想不到的方式中断。 而是写`$PWD/../../libtorch`以获取相应的绝对路径。 现在，我们准备构建我们的应用：
+
+```py
+root@fa350df05ecf:/home# mkdir build
+root@fa350df05ecf:/home# cd build
+root@fa350df05ecf:/home/build# cmake -DCMAKE_PREFIX_PATH=/path/to/libtorch ..
+-- The C compiler identification is GNU 5.4.0
+-- The CXX compiler identification is GNU 5.4.0
+-- Check for working C compiler: /usr/bin/cc
+-- Check for working C compiler: /usr/bin/cc -- works
+-- Detecting C compiler ABI info
+-- Detecting C compiler ABI info - done
+-- Detecting C compile features
+-- Detecting C compile features - done
+-- Check for working CXX compiler: /usr/bin/c++
+-- Check for working CXX compiler: /usr/bin/c++ -- works
+-- Detecting CXX compiler ABI info
+-- Detecting CXX compiler ABI info - done
+-- Detecting CXX compile features
+-- Detecting CXX compile features - done
+-- Looking for pthread.h
+-- Looking for pthread.h - found
+-- Looking for pthread_create
+-- Looking for pthread_create - not found
+-- Looking for pthread_create in pthreads
+-- Looking for pthread_create in pthreads - not found
+-- Looking for pthread_create in pthread
+-- Looking for pthread_create in pthread - found
+-- Found Threads: TRUE
+-- Found torch: /path/to/libtorch/lib/libtorch.so
+-- Configuring done
+-- Generating done
+-- Build files have been written to: /home/build
+root@fa350df05ecf:/home/build# cmake --build . --config Release
+Scanning dependencies of target dcgan
+[ 50%] Building CXX object CMakeFiles/dcgan.dir/dcgan.cpp.o
+[100%] Linking CXX executable dcgan
+[100%] Built target dcgan
+
+```
+
+上面，我们首先在`dcgan`目录内创建一个`build`文件夹，进入该文件夹，运行`cmake`命令以生成必要的构建（Make）文件，最后通过运行`cmake --build . --config Release`成功编译该项目。 现在我们准备执行最小的二进制文件并完成有关基本项目配置的这一部分：
+
+```py
+root@fa350df05ecf:/home/build# ./dcgan
+1  0  0
+0  1  0
+0  0  1
+[ Variable[CPUFloatType]{3,3} ]
+
+```
+
+在我看来就像一个身份矩阵！
+
+## 定义神经网络模型
+
+现在我们已经配置了基本环境，我们可以深入研究本教程中更有趣的部分。 首先，我们将讨论如何在 C++ 前端中定义模块并与之交互。 我们将从基本的小规模示例模块开始，然后使用 C++ 前端提供的广泛的内置模块库来实现全面的 GAN。
+
+### 模块 API 基础
+
+与 Python 接口一致，基于 C++ 前端的神经网络由称为*模块*的可重用构建块组成。 有一个基础模块类，所有其他模块都从该基础类派生。 在 Python 中，此类为`torch.nn.Module`，在 C++ 中为`torch::nn::Module`。 除了实现模块封装的算法的`forward()`方法之外，模块通常还包含以下三种子对象中的任何一种：参数，缓冲区和子模块。
+
+参数和缓冲区以张量的形式存储状态。 参数记录梯度，而缓冲区不记录。 参数通常是神经网络的可训练权重。 缓冲区的示例包括批量标准化的均值和方差。 为了重用特定的逻辑和状态块，PyTorch API 允许嵌套模块。 嵌套模块称为*子模块*。
+
+参数，缓冲区和子模块必须显式注册。 注册后，可以使用`parameters()`或`buffers()`之类的方法来检索整个（嵌套）模块层次结构中所有参数的容器。 类似地，使用`to(...)`之类的方法，例如 `to(torch::kCUDA)`将所有参数和缓冲区从 CPU 移到 CUDA 内存，在整个模块层次结构上工作。
+
+#### 定义模块和注册参数
+
+为了将这些词写成代码，让我们考虑一下用 Python 接口编写的简单模块：
+
+```py
+import torch
+
+class Net(torch.nn.Module):
+  def __init__(self, N, M):
+    super(Net, self).__init__()
+    self.W = torch.nn.Parameter(torch.randn(N, M))
+    self.b = torch.nn.Parameter(torch.randn(M))
+
+  def forward(self, input):
+    return torch.addmm(self.b, input, self.W)
+
+```
+
+在 C++ 中，它看起来像这样：
+
+```py
+#include <torch/torch.h>
+
+struct Net : torch::nn::Module {
+  Net(int64_t N, int64_t M) {
+    W = register_parameter("W", torch::randn({N, M}));
+    b = register_parameter("b", torch::randn(M));
+  }
+  torch::Tensor forward(torch::Tensor input) {
+    return torch::addmm(b, input, W);
+  }
+  torch::Tensor W, b;
+};
+
+```
+
+就像在 Python 中一样，我们定义了一个名为`Net`的类（为简单起见，这里是`struct`而不是`class`），然后从模块基类派生它。 在构造器内部，我们使用`torch::randn`创建张量，就像在 Python 中使用`torch.randn`一样。 一个有趣的区别是我们如何注册参数。 在 Python 中，我们用`torch.nn.Parameter`类包装了张量，而在 C++ 中，我们不得不通过`register_parameter`方法传递张量。 这样做的原因是 Python API 可以检测到属性为`torch.nn.Parameter`类型并自动注册此类张量。 在 C++ 中，反射非常受限制，因此提供了一种更传统（且不太神奇）的方法。
+
+#### 注册子模块并遍历模块层次结构
+
+以相同的方式我们可以注册参数，我们也可以注册子模块。 在 Python 中，将子模块分配为模块的属性时，会自动检测并注册这些子模块：
+
+```py
+class Net(torch.nn.Module):
+  def __init__(self, N, M):
+      super(Net, self).__init__()
+      # Registered as a submodule behind the scenes
+      self.linear = torch.nn.Linear(N, M)
+      self.another_bias = torch.nn.Parameter(torch.rand(M))
+
+  def forward(self, input):
+    return self.linear(input) + self.another_bias
+
+```
+
+例如，这允许使用`parameters()`方法来递归访问模块层次结构中的所有参数：
+
+```py
+>>> net = Net(4, 5)
+>>> print(list(net.parameters()))
+[Parameter containing:
+tensor([0.0808, 0.8613, 0.2017, 0.5206, 0.5353], requires_grad=True), Parameter containing:
+tensor([[-0.3740, -0.0976, -0.4786, -0.4928],
+        [-0.1434,  0.4713,  0.1735, -0.3293],
+        [-0.3467, -0.3858,  0.1980,  0.1986],
+        [-0.1975,  0.4278, -0.1831, -0.2709],
+        [ 0.3730,  0.4307,  0.3236, -0.0629]], requires_grad=True), Parameter containing:
+tensor([ 0.2038,  0.4638, -0.2023,  0.1230, -0.0516], requires_grad=True)]
+
+```
+
+要在 C++ 中注册子模块，请使用恰当命名的`register_module()`方法注册类似`torch::nn::Linear`的模块：
+
+```py
+struct Net : torch::nn::Module {
+  Net(int64_t N, int64_t M)
+      : linear(register_module("linear", torch::nn::Linear(N, M))) {
+    another_bias = register_parameter("b", torch::randn(M));
+  }
+  torch::Tensor forward(torch::Tensor input) {
+    return linear(input) + another_bias;
+  }
+  torch::nn::Linear linear;
+  torch::Tensor another_bias;
+};
+
+```
+
+小费
+
+您可以在[`torch::nn`命名空间的文档](https://pytorch.org/cppdocs/api/namespace_torch__nn.html)中找到可用的内置模块的完整列表，例如`torch::nn::Linear`，`torch::nn::Dropout`或`torch::nn::Conv2d`。
+
+关于上述代码的一个微妙之处在于，为什么在构造器的初始值设定项列表中创建子模块，而在构造器的主体内部创建参数。 这是有充分的理由的，我们将在下面有关“C++ 前端所有权模型”的部分中对此进行介绍。 但是，最终结果是，就像 Python 中一样，我们可以递归访问模块树的参数。 调用`parameters()`返回一个`std::vector<torch::Tensor>`，我们可以对其进行迭代：
+
+```py
+int main() {
+  Net net(4, 5);
+  for (const auto& p : net.parameters()) {
+    std::cout << p << std::endl;
+  }
+}
+
+```
+
+打印：
+
+```py
+root@fa350df05ecf:/home/build# ./dcgan
+0.0345
+1.4456
+-0.6313
+-0.3585
+-0.4008
+[ Variable[CPUFloatType]{5} ]
+-0.1647  0.2891  0.0527 -0.0354
+0.3084  0.2025  0.0343  0.1824
+-0.4630 -0.2862  0.2500 -0.0420
+0.3679 -0.1482 -0.0460  0.1967
+0.2132 -0.1992  0.4257  0.0739
+[ Variable[CPUFloatType]{5,4} ]
+0.01 *
+3.6861
+-10.1166
+-45.0333
+7.9983
+-20.0705
+[ Variable[CPUFloatType]{5} ]
+
+```
+
+具有三个参数，就像在 Python 中一样。 为了也查看这些参数的名称，C++ API 提供了`named_parameters()`方法，该方法返回`OrderedDict`就像在 Python 中一样：
+
+```py
+Net net(4, 5);
+for (const auto& pair : net.named_parameters()) {
+  std::cout << pair.key() << ": " << pair.value() << std::endl;
+}
+
+```
+
+我们可以再次执行以查看输出：
+
+```py
+root@fa350df05ecf:/home/build# make && ./dcgan                                                                                                                                            11:13:48
+Scanning dependencies of target dcgan
+[ 50%] Building CXX object CMakeFiles/dcgan.dir/dcgan.cpp.o
+[100%] Linking CXX executable dcgan
+[100%] Built target dcgan
+b: -0.1863
+-0.8611
+-0.1228
+1.3269
+0.9858
+[ Variable[CPUFloatType]{5} ]
+linear.weight:  0.0339  0.2484  0.2035 -0.2103
+-0.0715 -0.2975 -0.4350 -0.1878
+-0.3616  0.1050 -0.4982  0.0335
+-0.1605  0.4963  0.4099 -0.2883
+0.1818 -0.3447 -0.1501 -0.0215
+[ Variable[CPUFloatType]{5,4} ]
+linear.bias: -0.0250
+0.0408
+0.3756
+-0.2149
+-0.3636
+[ Variable[CPUFloatType]{5} ]
+
+```
+
+注意
+
+[`torch::nn::Module`的文档](https://pytorch.org/cppdocs/api/classtorch_1_1nn_1_1_module.html#exhale-class-classtorch-1-1nn-1-1-module)包含在模块层次结构上运行的方法的完整列表。
+
+#### 在正向模式下运行网络
+
+要使用 C++ 执行网络，我们只需调用我们自己定义的`forward()`方法：
+
+```py
+int main() {
+  Net net(4, 5);
+  std::cout << net.forward(torch::ones({2, 4})) << std::endl;
+}
+
+```
+
+打印类似：
+
+```py
+root@fa350df05ecf:/home/build# ./dcgan
+0.8559  1.1572  2.1069 -0.1247  0.8060
+0.8559  1.1572  2.1069 -0.1247  0.8060
+[ Variable[CPUFloatType]{2,5} ]
+
+```
+
+#### 模块所有权
+
+至此，我们知道了如何使用 C++ 定义模块，注册参数，注册子模块，通过`parameters()`之类的方法遍历模块层次结构并最终运行模块的`forward()`方法。 尽管在 C++ API 中还有很多方法，类和主题需要使用，但我将为您提供完整菜单的[文档](https://pytorch.org/cppdocs/api/namespace_torch__nn.html)。 我们将在稍后实现 DCGAN 模型和端到端训练管道的过程中，涉及更多概念。 在我们这样做之前，让我简要介绍一下 C++ 前端为`torch::nn::Module`的子类提供的*所有权模型*。
+
+在本次讨论中，所有权模型是指模块的存储和传递方式-确定特定模块实例的所有者或所有者。 在 Python 中，对象始终是动态分配的（在堆上），并且具有引用语义。 这是非常容易使用且易于理解的。 实际上，在 Python 中，您可以很大程度上忽略对象的位置以及如何引用它们，而将精力集中在完成事情上。
+
+C++ 是一种较低级的语言，它在此领域提供了更多选择。 这增加了复杂性，并严重影响了 C++ 前端的设计和人体工程学。 特别是，对于 C++ 前端中的模块，我们可以选择使用*值语义*或*引用语义*。 第一种情况是最简单的，并且在到目前为止的示例中已进行了展示：模块对象在栈上分配，并在传递给函数时可以被复制，移动（使用`std::move`）或通过引用或指针获取：
+
+```py
+struct Net : torch::nn::Module { };
+
+void a(Net net) { }
+void b(Net& net) { }
+void c(Net* net) { }
+
+int main() {
+  Net net;
+  a(net);
+  a(std::move(net));
+  b(net);
+  c(&net);
+}
+
+```
+
+对于第二种情况-引用语义-我们可以使用`std::shared_ptr`。 引用语义的优势在于，就像在 Python 中一样，它减少了思考如何将模块传递给函数以及如何声明参数的认知开销（假设您在任何地方都使用`shared_ptr`）。
+
+```py
+struct Net : torch::nn::Module {};
+
+void a(std::shared_ptr<Net> net) { }
+
+int main() {
+  auto net = std::make_shared<Net>();
+  a(net);
+}
+
+```
+
+根据我们的经验，来自动态语言的研究人员非常喜欢引用语义而不是值语义，即使后者比 C++ 更“原生”。 同样重要的是要注意，`torch::nn::Module`的设计要与 Python API 的人体工程学保持紧密联系，因此要依靠共享所有权。 例如，采用我们较早的（此处为缩短的）`Net`定义：
+
+```py
+struct Net : torch::nn::Module {
+  Net(int64_t N, int64_t M)
+    : linear(register_module("linear", torch::nn::Linear(N, M)))
+  { }
+  torch::nn::Linear linear;
+};
+
+```
+
+为了使用`linear`子模块，我们想将其直接存储在我们的类中。 但是，我们还希望模块基类了解并有权访问此子模块。 为此，它必须存储对此子模块的引用。 至此，我们已经达到了共享所有权的需要。 `torch::nn::Module`类和具体的`Net`类都需要引用该子模块。 因此，基类将模块存储为`shared_ptr`，因此具体类也必须存储。
+
+可是等等！ 在上面的代码中我没有提到`shared_ptr`！ 这是为什么？ 好吧，因为`std::shared_ptr<MyModule>`实在令人难受。 为了保持研究人员的生产力，我们提出了一个精心设计的方案，以隐藏`shared_ptr`的提法-通常保留给值语义的好处-同时保留引用语义。 要了解它是如何工作的，我们可以看一下核心库中`torch::nn::Linear`模块的简化定义（[完整定义在此处](https://github.com/pytorch/pytorch/blob/master/torch/csrc/api/include/torch/nn/modules/linear.h)）：
+
+```py
+struct LinearImpl : torch::nn::Module {
+  LinearImpl(int64_t in, int64_t out);
+
+  Tensor forward(const Tensor& input);
+
+  Tensor weight, bias;
+};
+
+TORCH_MODULE(Linear);
+
+```
+
+简而言之：该模块不是`Linear`，而是`LinearImpl`。 然后，宏`TORCH_MODULE`定义了实际的`Linear`类。 这个“生成的”类实际上是`std::shared_ptr<LinearImpl>`的包装。 它是一个包装器，而不是简单的`typedef`，因此，除其他事项外，构造器仍可按预期工作，即，您仍然可以编写`torch::nn::Linear(3, 4)`而不是`std::make_shared<LinearImpl>(3, 4)`。 我们将由宏创建的类称为模块*所有者*。 与（共享）指针一样，您可以使用箭头运算符（例如`model->forward(...)`）访问基础对象。 最终结果是一个所有权模型，该模型非常类似于 Python API。 引用语义成为默认语义，但是没有额外输入`std::shared_ptr`或`std::make_shared`。 对于我们的`Net`，使用模块持有人 API 如下所示：
+
+```py
+struct NetImpl : torch::nn::Module {};
+TORCH_MODULE(Net);
+
+void a(Net net) { }
+
+int main() {
+  Net net;
+  a(net);
+}
+
+```
+
+这里有一个微妙的问题值得一提。 默认构造的`std::shared_ptr`为“空”，即包含空指针。 什么是默认构造的`Linear`或`Net`？ 好吧，这是一个棘手的选择。 我们可以说它应该是一个空（`null`）`std::shared_ptr<LinearImpl>`。 但是，请记住`Linear(3, 4)`与`std::make_shared<LinearImpl>(3, 4)`相同。 这意味着如果我们已确定`Linear linear;`应该为空指针，则将无法构造不采用任何构造器参数或都不使用所有缺省构造器的模块。 因此，在当前的 API 中，默认构造的模块持有人（如`Linear()`）将调用基础模块的默认构造器（`LinearImpl()`）。 如果基础模块没有默认构造器，则会出现编译器错误。 要构造空持有人，可以将`nullptr`传递给持有人的构造器。
+
+实际上，这意味着您可以使用如先前所示的子模块，在*初始化器列表*中注册并构造该模块：
+
+```py
+struct Net : torch::nn::Module {
+  Net(int64_t N, int64_t M)
+    : linear(register_module("linear", torch::nn::Linear(N, M)))
+  { }
+  torch::nn::Linear linear;
+};
+
+```
+
+或者，您可以先使用空指针构造持有人，然后在构造器中为其分配值（Python 爱好者更熟悉）：
+
+```py
+struct Net : torch::nn::Module {
+  Net(int64_t N, int64_t M) {
+    linear = register_module("linear", torch::nn::Linear(N, M));
+  }
+  torch::nn::Linear linear{nullptr}; // construct an empty holder
+};
+
+```
+
+结论：您应该使用哪种所有权模型–哪种语义？ C++ 前端的 API 最能支持模块所有者提供的所有权模型。 这种机制的唯一缺点是在模块声明下方多了一行样板。 也就是说，最简单的模型仍然是 C++ 模块简介中显示的值语义模型。 对于小的，简单的脚本，您也可以摆脱它。 但是，由于技术原因，您迟早会发现它并不总是受支持。 例如，序列化 API（`torch::save`和`torch::load`）仅支持模块支架（或普通`shared_ptr`）。 因此，建议使用模块持有人 API 和 C++ 前端定义模块，此后我们将在本教程中使用此 API。
+
+### 定义 DCGAN 模块
+
+现在，我们有必要的背景和简介来定义我们要在本文中解决的机器学习任务的模块。 回顾一下：我们的任务是从 [MNIST 数据集](http://yann.lecun.com/exdb/mnist/)生成数字图像。 我们想使用[生成对抗网络（GAN）](https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf)解决此任务。 特别是，我们将使用 [DCGAN 架构](https://arxiv.org/abs/1511.06434)，这是同类中最早，最简单的架构之一，但完全可以完成此任务。
+
+小费
+
+[您可以在存储库中找到本教程中提供的完整源代码](https://github.com/pytorch/examples/tree/master/cpp/dcgan)。
+
+#### 什么是 GAN aGAN？
+
+GAN 由两个不同的神经网络模型组成：*生成器*和*判别器*。 生成器从噪声分布中接收样本，其目的是将每个噪声样本转换为类似于目标分布的图像（在我们的情况下为 MNIST 数据集）。 判别器又从 MNIST 数据集接收*实际*图像，或从生成器接收*假*图像。 要求发出一个概率来判断特定图像的真实程度（接近`1`）或伪造（接近`0`）。 来自判别器的关于由生成器产生的图像有多真实的反馈被用来训练生成器。 判别器对真实性有多好的反馈将用于优化判别器。 从理论上讲，生成器和判别器之间的微妙平衡使它们连接起来得到改善，从而导致生成器生成与目标分布无法区分的图像，从而使判别器（那时）的敏锐眼睛冒出了散发`0.5`的真实和真实可能性。 假图片。 对我们来说，最终结果是一台接收噪声作为输入并生成逼真的数字图像作为其输出的机器。
+
+#### 生成器模块
+
+我们首先定义生成器模块，该模块由一系列转置的 2D 卷积，批量归一化和 ReLU 激活单元组成。 我们在定义自己的模块的`forward()`方法中显式地（在功能上）在模块之间传递输入：
+
+```py
+struct DCGANGeneratorImpl : nn::Module {
+  DCGANGeneratorImpl(int kNoiseSize)
+      : conv1(nn::ConvTranspose2dOptions(kNoiseSize, 256, 4)
+                  .bias(false)),
+        batch_norm1(256),
+        conv2(nn::ConvTranspose2dOptions(256, 128, 3)
+                  .stride(2)
+                  .padding(1)
+                  .bias(false)),
+        batch_norm2(128),
+        conv3(nn::ConvTranspose2dOptions(128, 64, 4)
+                  .stride(2)
+                  .padding(1)
+                  .bias(false)),
+        batch_norm3(64),
+        conv4(nn::ConvTranspose2dOptions(64, 1, 4)
+                  .stride(2)
+                  .padding(1)
+                  .bias(false))
+ {
+   // register_module() is needed if we want to use the parameters() method later on
+   register_module("conv1", conv1);
+   register_module("conv2", conv2);
+   register_module("conv3", conv3);
+   register_module("conv4", conv4);
+   register_module("batch_norm1", batch_norm1);
+   register_module("batch_norm2", batch_norm2);
+   register_module("batch_norm3", batch_norm3);
+ }
+
+ torch::Tensor forward(torch::Tensor x) {
+   x = torch::relu(batch_norm1(conv1(x)));
+   x = torch::relu(batch_norm2(conv2(x)));
+   x = torch::relu(batch_norm3(conv3(x)));
+   x = torch::tanh(conv4(x));
+   return x;
+ }
+
+ nn::ConvTranspose2d conv1, conv2, conv3, conv4;
+ nn::BatchNorm2d batch_norm1, batch_norm2, batch_norm3;
+};
+TORCH_MODULE(DCGANGenerator);
+
+DCGANGenerator generator(kNoiseSize);
+
+```
+
+现在我们可以在`DCGANGenerator`上调用`forward()`将噪声样本映射到图像。
+
+选择的特定模块，例如`nn::ConvTranspose2d`和`nn::BatchNorm2d`，遵循前面概述的结构。 `kNoiseSize`常数确定输入噪声向量的大小，并将其设置为`100`。 当然，超参数是通过研究生的血统发现的。
+
+Attention
+
+No grad students were harmed in the discovery of hyperparameters. They were fed Soylent regularly.
+
+Note
+
+A brief word on the way options are passed to built-in modules like `Conv2d` in the C++ frontend: Every module has some required options, like the number of features for `BatchNorm2d`. If you only need to configure the required options, you can pass them directly to the module’s constructor, like `BatchNorm2d(128)` or `Dropout(0.5)` or `Conv2d(8, 4, 2)` (for input channel count, output channel count, and kernel size). If, however, you need to modify other options, which are normally defaulted, such as `bias` for `Conv2d`, you need to construct and pass an *options* object. Every module in the C++ frontend has an associated options struct, called `ModuleOptions` where `Module` is the name of the module, like `LinearOptions` for `Linear`. This is what we do for the `Conv2d` modules above.
+
+#### 判别器模块
+
+The discriminator is similarly a sequence of convolutions, batch normalizations and activations. However, the convolutions are now regular ones instead of transposed, and we use a leaky ReLU with an alpha value of 0.2 instead of a vanilla ReLU. Also, the final activation becomes a Sigmoid, which squashes values into a range between 0 and 1\. We can then interpret these squashed values as the probabilities the discriminator assigns to images being real.
+
+To build the discriminator, we will try something different: a Sequential module. Like in Python, PyTorch here provides two APIs for model definition: a functional one where inputs are passed through successive functions (e.g. the generator module example), and a more object-oriented one where we build a Sequential module containing the entire model as submodules. Using Sequential, the discriminator would look like:
+
+```py
+nn::Sequential discriminator(
+  // Layer 1
+  nn::Conv2d(
+      nn::Conv2dOptions(1, 64, 4).stride(2).padding(1).bias(false)),
+  nn::LeakyReLU(nn::LeakyReLUOptions().negative_slope(0.2)),
+  // Layer 2
+  nn::Conv2d(
+      nn::Conv2dOptions(64, 128, 4).stride(2).padding(1).bias(false)),
+  nn::BatchNorm2d(128),
+  nn::LeakyReLU(nn::LeakyReLUOptions().negative_slope(0.2)),
+  // Layer 3
+  nn::Conv2d(
+      nn::Conv2dOptions(128, 256, 4).stride(2).padding(1).bias(false)),
+  nn::BatchNorm2d(256),
+  nn::LeakyReLU(nn::LeakyReLUOptions().negative_slope(0.2)),
+  // Layer 4
+  nn::Conv2d(
+      nn::Conv2dOptions(256, 1, 3).stride(1).padding(0).bias(false)),
+  nn::Sigmoid());
+
+```
+
+Tip
+
+A `Sequential` module simply performs function composition. The output of the first submodule becomes the input of the second, the output of the third becomes the input of the fourth and so on.
+
+## 加载数据
+
+Now that we have defined the generator and discriminator model, we need some data we can train these models with. The C++ frontend, like the Python one, comes with a powerful parallel data loader. This data loader can read batches of data from a dataset (which you can define yourself) and provides many configuration knobs.
+
+注意
+
+While the Python data loader uses multi-processing, the C++ data loader is truly multi-threaded and does not launch any new processes.
+
+The data loader is part of the C++ frontend’s `data` api, contained in the `torch::data::` namespace. This API consists of a few different components:
+
+*   数据加载器类，
+*   用于定义数据集的 API，
+*   用于定义*转换*的 API，可以将其应用于数据集，
+*   用于定义*采样器*的 API，该采样器会生成用于对数据集建立索引的索引，
+*   现有数据集，变换和采样器的库。
+
+For this tutorial, we can use the `MNIST` dataset that comes with the C++ frontend. Let’s instantiate a `torch::data::datasets::MNIST` for this, and apply two transformations: First, we normalize the images so that they are in the range of `-1` to `+1` (from an original range of `0` to `1`). Second, we apply the `Stack` *collation*, which takes a batch of tensors and stacks them into a single tensor along the first dimension:
+
+```py
+auto dataset = torch::data::datasets::MNIST("./mnist")
+    .map(torch::data::transforms::Normalize<>(0.5, 0.5))
+    .map(torch::data::transforms::Stack<>());
+
+```
+
+Note that the MNIST dataset should be located in the `./mnist` directory relative to wherever you execute the training binary from. You can use [this script](https://gist.github.com/goldsborough/6dd52a5e01ed73a642c1e772084bcd03) to download the MNIST dataset.
+
+接下来，我们创建一个数据加载器并将其传递给该数据集。 为了创建一个新的数据加载器，我们使用`torch::data::make_data_loader`，它返回正确类型的`std::unique_ptr`（取决于数据集的类型，采样器的类型以及其他一些实现细节）：
+
+```py
+auto data_loader = torch::data::make_data_loader(std::move(dataset));
+
+```
+
+数据加载器确实提供了很多选项。 [您可以在这里检查全套](https://github.com/pytorch/pytorch/blob/master/torch/csrc/api/include/torch/data/dataloader_options.h)。 例如，为了加快数据加载速度，我们可以增加工作器的数量。 默认数字为零，这意味着将使用主线程。 如果将`workers`设置为`2`，将产生两个线程并发加载数据。 我们还应该将批量大小从其默认值`1`增加到更合理的值，例如`64`（`kBatchSize`的值）。 因此，让我们创建一个`DataLoaderOptions`对象并设置适当的属性：
+
+```py
+auto data_loader = torch::data::make_data_loader(
+    std::move(dataset),
+    torch::data::DataLoaderOptions().batch_size(kBatchSize).workers(2));
+
+```
+
+现在，我们可以编写一个循环来加载批量数据，目前我们仅将其打印到控制台：
+
+```py
+for (torch::data::Example<>& batch : *data_loader) {
+  std::cout << "Batch size: " << batch.data.size(0) << " | Labels: ";
+  for (int64_t i = 0; i < batch.data.size(0); ++i) {
+    std::cout << batch.target[i].item<int64_t>() << " ";
+  }
+  std::cout << std::endl;
+}
+
+```
+
+在这种情况下，数据加载器返回的类型为`torch::data::Example`。 此类型是一种简单的结构，其中的`data`字段用于数据，而`target`字段用于标签。 因为我们之前应用了`Stack`归类，所以数据加载器仅返回一个这样的示例。 如果我们未应用排序规则，则数据加载器将改为生成`std::vector<torch::data::Example<>>`，批量中每个示例包含一个元素。
+
+如果重建并运行此代码，则应看到类似以下内容的内容：
+
+```py
+root@fa350df05ecf:/home/build# make
+Scanning dependencies of target dcgan
+[ 50%] Building CXX object CMakeFiles/dcgan.dir/dcgan.cpp.o
+[100%] Linking CXX executable dcgan
+[100%] Built target dcgan
+root@fa350df05ecf:/home/build# make
+[100%] Built target dcgan
+root@fa350df05ecf:/home/build# ./dcgan
+Batch size: 64 | Labels: 5 2 6 7 2 1 6 7 0 1 6 2 3 6 9 1 8 4 0 6 5 3 3 0 4 6 6 6 4 0 8 6 0 6 9 2 4 0 2 8 6 3 3 2 9 2 0 1 4 2 3 4 8 2 9 9 3 5 8 0 0 7 9 9
+Batch size: 64 | Labels: 2 2 4 7 1 2 8 8 6 9 0 2 2 9 3 6 1 3 8 0 4 4 8 8 8 9 2 6 4 7 1 5 0 9 7 5 4 3 5 4 1 2 8 0 7 1 9 6 1 6 5 3 4 4 1 2 3 2 3 5 0 1 6 2
+Batch size: 64 | Labels: 4 5 4 2 1 4 8 3 8 3 6 1 5 4 3 6 2 2 5 1 3 1 5 0 8 2 1 5 3 2 4 4 5 9 7 2 8 9 2 0 6 7 4 3 8 3 5 8 8 3 0 5 8 0 8 7 8 5 5 6 1 7 8 0
+Batch size: 64 | Labels: 3 3 7 1 4 1 6 1 0 3 6 4 0 2 5 4 0 4 2 8 1 9 6 5 1 6 3 2 8 9 2 3 8 7 4 5 9 6 0 8 3 0 0 6 4 8 2 5 4 1 8 3 7 8 0 0 8 9 6 7 2 1 4 7
+Batch size: 64 | Labels: 3 0 5 5 9 8 3 9 8 9 5 9 5 0 4 1 2 7 7 2 0 0 5 4 8 7 7 6 1 0 7 9 3 0 6 3 2 6 2 7 6 3 3 4 0 5 8 8 9 1 9 2 1 9 4 4 9 2 4 6 2 9 4 0
+Batch size: 64 | Labels: 9 6 7 5 3 5 9 0 8 6 6 7 8 2 1 9 8 8 1 1 8 2 0 7 1 4 1 6 7 5 1 7 7 4 0 3 2 9 0 6 6 3 4 4 8 1 2 8 6 9 2 0 3 1 2 8 5 6 4 8 5 8 6 2
+Batch size: 64 | Labels: 9 3 0 3 6 5 1 8 6 0 1 9 9 1 6 1 7 7 4 4 4 7 8 8 6 7 8 2 6 0 4 6 8 2 5 3 9 8 4 0 9 9 3 7 0 5 8 2 4 5 6 2 8 2 5 3 7 1 9 1 8 2 2 7
+Batch size: 64 | Labels: 9 1 9 2 7 2 6 0 8 6 8 7 7 4 8 6 1 1 6 8 5 7 9 1 3 2 0 5 1 7 3 1 6 1 0 8 6 0 8 1 0 5 4 9 3 8 5 8 4 8 0 1 2 6 2 4 2 7 7 3 7 4 5 3
+Batch size: 64 | Labels: 8 8 3 1 8 6 4 2 9 5 8 0 2 8 6 6 7 0 9 8 3 8 7 1 6 6 2 7 7 4 5 5 2 1 7 9 5 4 9 1 0 3 1 9 3 9 8 8 5 3 7 5 3 6 8 9 4 2 0 1 2 5 4 7
+Batch size: 64 | Labels: 9 2 7 0 8 4 4 2 7 5 0 0 6 2 0 5 9 5 9 8 8 9 3 5 7 5 4 7 3 0 5 7 6 5 7 1 6 2 8 7 6 3 2 6 5 6 1 2 7 7 0 0 5 9 0 0 9 1 7 8 3 2 9 4
+Batch size: 64 | Labels: 7 6 5 7 7 5 2 2 4 9 9 4 8 7 4 8 9 4 5 7 1 2 6 9 8 5 1 2 3 6 7 8 1 1 3 9 8 7 9 5 0 8 5 1 8 7 2 6 5 1 2 0 9 7 4 0 9 0 4 6 0 0 8 6
+...
+
+```
+
+这意味着我们能够成功地从 MNIST 数据集中加载数据。
+
+## 编写训练循环
+
+现在，让我们完成示例的算法部分，并实现生成器和判别器之间的精妙舞蹈。 首先，我们将创建两个优化器，一个用于生成器，一个用于判别器。 我们使用的优化程序实现了 [Adam](https://arxiv.org/pdf/1412.6980.pdf) 算法：
+
+```py
+torch::optim::Adam generator_optimizer(
+    generator->parameters(), torch::optim::AdamOptions(2e-4).beta1(0.5));
+torch::optim::Adam discriminator_optimizer(
+    discriminator->parameters(), torch::optim::AdamOptions(5e-4).beta1(0.5));
+
+```
+
+注意
+
+在撰写本文时，C++ 前端提供了实现 Adagrad，Adam，LBBFG，RMSprop 和 SGD 的优化器。 [文档](https://pytorch.org/cppdocs/api/namespace_torch__optim.html)具有最新列表。
+
+接下来，我们需要更新我们的训练循环。 我们将添加一个外循环以在每个周期耗尽数据加载器，然后编写 GAN 训练代码：
+
+```py
+for (int64_t epoch = 1; epoch <= kNumberOfEpochs; ++epoch) {
+  int64_t batch_index = 0;
+  for (torch::data::Example<>& batch : *data_loader) {
+    // Train discriminator with real images.
+    discriminator->zero_grad();
+    torch::Tensor real_images = batch.data;
+    torch::Tensor real_labels = torch::empty(batch.data.size(0)).uniform_(0.8, 1.0);
+    torch::Tensor real_output = discriminator->forward(real_images);
+    torch::Tensor d_loss_real = torch::binary_cross_entropy(real_output, real_labels);
+    d_loss_real.backward();
+
+    // Train discriminator with fake images.
+    torch::Tensor noise = torch::randn({batch.data.size(0), kNoiseSize, 1, 1});
+    torch::Tensor fake_images = generator->forward(noise);
+    torch::Tensor fake_labels = torch::zeros(batch.data.size(0));
+    torch::Tensor fake_output = discriminator->forward(fake_images.detach());
+    torch::Tensor d_loss_fake = torch::binary_cross_entropy(fake_output, fake_labels);
+    d_loss_fake.backward();
+
+    torch::Tensor d_loss = d_loss_real + d_loss_fake;
+    discriminator_optimizer.step();
+
+    // Train generator.
+    generator->zero_grad();
+    fake_labels.fill_(1);
+    fake_output = discriminator->forward(fake_images);
+    torch::Tensor g_loss = torch::binary_cross_entropy(fake_output, fake_labels);
+    g_loss.backward();
+    generator_optimizer.step();
+
+    std::printf(
+        "\r[%2ld/%2ld][%3ld/%3ld] D_loss: %.4f | G_loss: %.4f",
+        epoch,
+        kNumberOfEpochs,
+        ++batch_index,
+        batches_per_epoch,
+        d_loss.item<float>(),
+        g_loss.item<float>());
+  }
+}
+
+```
+
+上面，我们首先在真实图像上评估判别器，为此应为其分配较高的概率。 为此，我们使用`torch::empty(batch.data.size(0)).uniform_(0.8, 1.0)`作为目标概率。
+
+注意
+
+我们选择均匀分布在 0.8 到 1.0 之间的随机值，而不是各处的 1.0，以使判别器训练更可靠。 此技巧称为*标签平滑*。
+
+在评估判别器之前，我们将其参数的梯度归零。 计算完损失后，我们通过调用`d_loss.backward()`来计算新的梯度，从而在网络中反向传播。 我们对虚假图像重复此步骤。 我们不使用数据集中的图像，而是让生成器通过为它提供一批随机噪声来为此创建伪造图像。 然后，我们将这些伪造图像转发给判别器。 这次，我们希望判别器发出低概率，最好是全零。 一旦计算了一批真实图像和一批伪造图像的判别器损失，我们就可以一步一步地进行判别器的优化程序，以更新其参数。
+
+为了训练生成器，我们再次首先将其梯度归零，然后在伪图像上重新评估判别器。 但是，这一次，我们希望判别器将概率分配为非常接近的概率，这将表明生成器可以生成使判别器认为它们实际上是真实的图像（来自数据集）。 为此，我们用全部填充`fake_labels`张量。 最后，我们逐步使用生成器的优化器来更新其参数。
+
+现在，我们应该准备在 CPU 上训练我们的模型。 我们还没有任何代码可以捕获状态或示例输出，但是我们稍后会添加。 现在，让我们观察一下我们的模型正在*做某事* –我们稍后将根据生成的图像来验证这是否有意义。 重建和运行应打印如下内容：
+
+```py
+root@3c0711f20896:/home/build# make && ./dcgan
+Scanning dependencies of target dcgan
+[ 50%] Building CXX object CMakeFiles/dcgan.dir/dcgan.cpp.o
+[100%] Linking CXX executable dcgan
+[100%] Built target dcga
+[ 1/10][100/938] D_loss: 0.6876 | G_loss: 4.1304
+[ 1/10][200/938] D_loss: 0.3776 | G_loss: 4.3101
+[ 1/10][300/938] D_loss: 0.3652 | G_loss: 4.6626
+[ 1/10][400/938] D_loss: 0.8057 | G_loss: 2.2795
+[ 1/10][500/938] D_loss: 0.3531 | G_loss: 4.4452
+[ 1/10][600/938] D_loss: 0.3501 | G_loss: 5.0811
+[ 1/10][700/938] D_loss: 0.3581 | G_loss: 4.5623
+[ 1/10][800/938] D_loss: 0.6423 | G_loss: 1.7385
+[ 1/10][900/938] D_loss: 0.3592 | G_loss: 4.7333
+[ 2/10][100/938] D_loss: 0.4660 | G_loss: 2.5242
+[ 2/10][200/938] D_loss: 0.6364 | G_loss: 2.0886
+[ 2/10][300/938] D_loss: 0.3717 | G_loss: 3.8103
+[ 2/10][400/938] D_loss: 1.0201 | G_loss: 1.3544
+[ 2/10][500/938] D_loss: 0.4522 | G_loss: 2.6545
+...
+
+```
+
+## 移至 GPU
+
+虽然我们当前的脚本可以在 CPU 上正常运行，但是我们都知道卷积在 GPU 上要快得多。 让我们快速讨论如何将训练转移到 GPU 上。 为此，我们需要做两件事：将 GPU 设备规范传递给我们分配给自己的张量，并通过`to()`方法将所有其他张量明确复制到 C++ 前端中的所有张量和模块上。 实现这两者的最简单方法是在我们的训练脚本的顶层创建`torch::Device`的实例，然后将该设备传递给张量工厂函数，例如`torch::zeros`和`to()`方法。 我们可以从使用 CPU 设备开始：
+
+```py
+// Place this somewhere at the top of your training script.
+torch::Device device(torch::kCPU);
+
+```
+
+新的张量分配，例如
+
+```py
+torch::Tensor fake_labels = torch::zeros(batch.data.size(0));
+
+```
+
+应该更新为以`device`作为最后一个参数：
+
+```py
+torch::Tensor fake_labels = torch::zeros(batch.data.size(0), device);
+
+```
+
+对于那些不在我们手中的张量，例如来自 MNIST 数据集的张量，我们必须插入显式的`to()`调用。 这表示
+
+```py
+torch::Tensor real_images = batch.data;
+
+```
+
+变成
+
+```py
+torch::Tensor real_images = batch.data.to(device);
+
+```
+
+并且我们的模型参数也应该移到正确的设备上：
+
+```py
+generator->to(device);
+discriminator->to(device);
+
+```
+
+注意
+
+如果张量已经存在于提供给`to()`的设备上，则该调用为空操作。 没有多余的副本。
+
+至此，我们已经使之前的 CPU 代码更加明确了。 但是，现在将设备更改为 CUDA 设备也非常容易：
+
+```py
+torch::Device device(torch::kCUDA)
+
+```
+
+现在，所有张量都将驻留在 GPU 上，并调用快速 CUDA 内核进行所有操作，而无需我们更改任何下游代码。 如果我们想指定一个特定的设备索引，则可以将其作为第二个参数传递给`Device`构造器。 如果我们希望不同的张量驻留在不同的设备上，则可以传递单独的设备实例（例如，一个在 CUDA 设备 0 上，另一个在 CUDA 设备 1 上）。 我们甚至可以动态地进行此配置，这通常对于使我们的训练脚本更具可移植性很有用：
+
+```py
+torch::Device device = torch::kCPU;
+if (torch::cuda::is_available()) {
+  std::cout << "CUDA is available! Training on GPU." << std::endl;
+  device = torch::kCUDA;
+}
+
+```
+
+甚至
+
+```py
+torch::Device device(torch::cuda::is_available() ? torch::kCUDA : torch::kCPU);
+
+```
+
+## 检查点和恢复训练状态
+
+我们应该对训练脚本进行的最后扩充是定期保存模型参数的状态，优化器的状态以及一些生成的图像样本。 如果我们的计算机在训练过程中崩溃，则前两个将使我们能够恢复训练状态。 对于长期的训练过程，这是绝对必要的。 幸运的是，C++ 前端提供了一个 API，用于对模型和优化器状态以及单个张量进行序列化和反序列化。
+
+为此的核心 API 是`torch::save(thing,filename)`和`torch::load(thing,filename)`，其中`thing`可以是`torch::nn::Module`子类，也可以是优化脚本实例，例如我们在训练脚本中拥有的`Adam`对象。 让我们更新训练循环，以一定间隔检查模型和优化器状态：
+
+```py
+if (batch_index % kCheckpointEvery == 0) {
+  // Checkpoint the model and optimizer state.
+  torch::save(generator, "generator-checkpoint.pt");
+  torch::save(generator_optimizer, "generator-optimizer-checkpoint.pt");
+  torch::save(discriminator, "discriminator-checkpoint.pt");
+  torch::save(discriminator_optimizer, "discriminator-optimizer-checkpoint.pt");
+  // Sample the generator and save the images.
+  torch::Tensor samples = generator->forward(torch::randn({8, kNoiseSize, 1, 1}, device));
+  torch::save((samples + 1.0) / 2.0, torch::str("dcgan-sample-", checkpoint_counter, ".pt"));
+  std::cout << "\n-> checkpoint " << ++checkpoint_counter << '\n';
+}
+
+```
+
+其中`kCheckpointEvery`是设置为类似于`100`之类的整数，用于每批`100`批量检查点，而`checkpoint_counter`是每次创建检查点时都会增加的计数器。
+
+要恢复训练状态，可以在创建所有模型和优化器之后但在训练循环之前添加如下代码：
+
+```py
+torch::optim::Adam generator_optimizer(
+    generator->parameters(), torch::optim::AdamOptions(2e-4).beta1(0.5));
+torch::optim::Adam discriminator_optimizer(
+    discriminator->parameters(), torch::optim::AdamOptions(2e-4).beta1(0.5));
+
+if (kRestoreFromCheckpoint) {
+  torch::load(generator, "generator-checkpoint.pt");
+  torch::load(generator_optimizer, "generator-optimizer-checkpoint.pt");
+  torch::load(discriminator, "discriminator-checkpoint.pt");
+  torch::load(
+      discriminator_optimizer, "discriminator-optimizer-checkpoint.pt");
+}
+
+int64_t checkpoint_counter = 0;
+for (int64_t epoch = 1; epoch <= kNumberOfEpochs; ++epoch) {
+  int64_t batch_index = 0;
+  for (torch::data::Example<>& batch : *data_loader) {
+
+```
+
+## 检查生成的图像
+
+我们的训练脚本现已完成。 我们准备在 CPU 或 GPU 上训练 GAN。 为了检查我们训练过程的中间输出，为此我们添加了将代码样本定期保存到`"dcgan-sample-xxx.pt"`文件的代码，我们可以编写一个小的 Python 脚本来加载张量并使用 matplotlib 显示它们：
+
+```py
+from __future__ import print_function
+from __future__ import unicode_literals
+
+import argparse
+
+import matplotlib.pyplot as plt
+import torch
+
+parser = argparse.ArgumentParser()
+parser.add_argument("-i", "--sample-file", required=True)
+parser.add_argument("-o", "--out-file", default="out.png")
+parser.add_argument("-d", "--dimension", type=int, default=3)
+options = parser.parse_args()
+
+module = torch.jit.load(options.sample_file)
+images = list(module.parameters())[0]
+
+for index in range(options.dimension * options.dimension):
+  image = images[index].detach().cpu().reshape(28, 28).mul(255).to(torch.uint8)
+  array = image.numpy()
+  axis = plt.subplot(options.dimension, options.dimension, 1 + index)
+  plt.imshow(array, cmap="gray")
+  axis.get_xaxis().set_visible(False)
+  axis.get_yaxis().set_visible(False)
+
+plt.savefig(options.out_file)
+print("Saved ", options.out_file)
+
+```
+
+现在，让我们训练模型约 30 个周期：
+
+```py
+root@3c0711f20896:/home/build# make && ./dcgan                                                                                                                                10:17:57
+Scanning dependencies of target dcgan
+[ 50%] Building CXX object CMakeFiles/dcgan.dir/dcgan.cpp.o
+[100%] Linking CXX executable dcgan
+[100%] Built target dcgan
+CUDA is available! Training on GPU.
+[ 1/30][200/938] D_loss: 0.4953 | G_loss: 4.0195
+-> checkpoint 1
+[ 1/30][400/938] D_loss: 0.3610 | G_loss: 4.8148
+-> checkpoint 2
+[ 1/30][600/938] D_loss: 0.4072 | G_loss: 4.36760
+-> checkpoint 3
+[ 1/30][800/938] D_loss: 0.4444 | G_loss: 4.0250
+-> checkpoint 4
+[ 2/30][200/938] D_loss: 0.3761 | G_loss: 3.8790
+-> checkpoint 5
+[ 2/30][400/938] D_loss: 0.3977 | G_loss: 3.3315
+...
+-> checkpoint 120
+[30/30][938/938] D_loss: 0.3610 | G_loss: 3.8084
+
+```
+
+并在图中显示图像：
+
+```py
+root@3c0711f20896:/home/build# python display.py -i dcgan-sample-100.pt
+Saved out.png
+
+```
+
+应该看起来像这样：
+
+![digits](img/931dea1655c975ec616a9e22c80c242f.png)
+
+数字！ 万岁！ 现在，事情就在您的球场上了：您可以改进模型以使数字看起来更好吗？
+
+## 总结
+
+希望本教程为您提供了 PyTorch C++ 前端的可摘要。 像 PyTorch 这样的机器学习库必然具有非常广泛的 API。 因此，有许多概念我们没有时间或空间来讨论。 但是，我建议您尝试一下 API，并在遇到问题时查阅[我们的文档](https://pytorch.org/cppdocs/)，尤其是[库 API](https://pytorch.org/cppdocs/api/library_root.html) 部分。 另外，请记住，只要我们能够做到，就可以期望 C++ 前端遵循 Python 前端的设计和语义，因此您可以利用这一事实来提高学习率。
+
+小费
+
+[您可以在存储库中找到本教程中提供的完整源代码](https://github.com/pytorch/examples/tree/master/cpp/dcgan)。
+
+与往常一样，如果您遇到任何问题或疑问，可以使用我们的[论坛](https://discuss.pytorch.org/)或 [GitHub ISSUE](https://github.com/pytorch/pytorch/issues) 进行联系。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/45.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/45.md
new file mode 100644
index 00000000..b2a58869
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/45.md
@@ -0,0 +1,996 @@
+# 自定义 C++ 和 CUDA 扩展
+
+> 原文：<https://pytorch.org/tutorials/advanced/cpp_extension.html>
+
+**作者**： [Peter Goldsborough](https://www.goldsborough.me/)
+
+PyTorch 提供了与神经网络，任意张量代数，数据整理和其他目的有关的大量操作。 但是，您仍然可能发现自己需要更多的自定义操作。 例如，您可能想使用论文中发现的新颖的激活函数，或者实现您在研究过程中开发的操作。
+
+在 PyTorch 中集成这样的自定义操作的最简单方法是通过扩展[此处](https://pytorch.org/docs/master/notes/extending.html)概述的`Function`和`Module`来用 Python 编写它。 这为您提供了自动微分的全部功能（使您不必编写导函数）以及 Python 的通常表达能力。 但是，有时您的操作可以用 C++ 更好地实现。 例如，您的代码可能*确实*需要速度，因为在模型中它经常被调用，或者即使很少调用也很昂贵。 另一个合理的原因是它依赖于其他 C 或 C++ 库或与之交互。 为了解决这种情况，PyTorch 提供了一种非常简单的方式来编写自定义 *C++ 扩展*。
+
+C++ 扩展是我们开发的一种机制，允许用户（您）创建源外定义的 PyTorch 运算符，即与 PyTorch 后端分开。 该方法不同于本机 PyTorch 操作的实现方式。 C++ 扩展旨在为您节省大量与将操作与 PyTorch 后端集成在一起相关的样板，同时为基于 PyTorch 的项目提供高度的灵活性。 但是，一旦将操作定义为 C++ 扩展，将其转换为本地 PyTorch 函数在很大程度上取决于代码组织，如果您决定在上游进行操作，则可以解决此问题。
+
+## 动机和示例
+
+本说明的其余部分将逐步介绍编写和使用 C++（和 CUDA）扩展的实际示例。 如果您被追捕，或者在一天结束前仍未完成该操作，就会有人开除您，则可以跳过本节，直接进入下一部分的实现细节。
+
+假设您想出了一种新型的循环装置，发现与现有技术相比，它具有更好的表现。 该循环单元类似于 LSTM，但不同之处在于它缺少*遗忘门*，并使用*指数线性单元*（ELU）作为其内部激活函数。 由于此设备永远不会忘记，因此我们将其称为 *LLTM* 或*长期记忆*单元。
+
+LLTM 与普通 LSTM 的两种区别非常重要，以至于我们无法为自己的目的配置 PyTorch 的`LSTMCell`，因此我们必须创建一个自定义单元。 这样做的第一个也是最简单的方法，并且在所有情况下都可能是一个好的第一步，是使用 Python 在纯 PyTorch 中实现我们所需的功能。 为此，我们需要子类`torch.nn.Module`并实现 LLTM 的正向传播。 看起来像这样：
+
+```py
+class LLTM(torch.nn.Module):
+    def __init__(self, input_features, state_size):
+        super(LLTM, self).__init__()
+        self.input_features = input_features
+        self.state_size = state_size
+        # 3 * state_size for input gate, output gate and candidate cell gate.
+        # input_features + state_size because we will multiply with [input, h].
+        self.weights = torch.nn.Parameter(
+            torch.empty(3 * state_size, input_features + state_size))
+        self.bias = torch.nn.Parameter(torch.empty(3 * state_size))
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        stdv = 1.0 / math.sqrt(self.state_size)
+        for weight in self.parameters():
+            weight.data.uniform_(-stdv, +stdv)
+
+    def forward(self, input, state):
+        old_h, old_cell = state
+        X = torch.cat([old_h, input], dim=1)
+
+        # Compute the input, output and candidate cell gates with one MM.
+        gate_weights = F.linear(X, self.weights, self.bias)
+        # Split the combined gate weight matrix into its components.
+        gates = gate_weights.chunk(3, dim=1)
+
+        input_gate = torch.sigmoid(gates[0])
+        output_gate = torch.sigmoid(gates[1])
+        # Here we use an ELU instead of the usual tanh.
+        candidate_cell = F.elu(gates[2])
+
+        # Compute the new cell state.
+        new_cell = old_cell + candidate_cell * input_gate
+        # Compute the new hidden state and output.
+        new_h = torch.tanh(new_cell) * output_gate
+
+        return new_h, new_cell
+
+```
+
+然后我们可以按预期使用：
+
+```py
+import torch
+
+X = torch.randn(batch_size, input_features)
+h = torch.randn(batch_size, state_size)
+C = torch.randn(batch_size, state_size)
+
+rnn = LLTM(input_features, state_size)
+
+new_h, new_C = rnn(X, (h, C))
+
+```
+
+自然，如果可能的话，您应该使用这种方法扩展 PyTorch。 由于 PyTorch 对 CPU 和 GPU 的操作进行了高度优化的实现，并由 [NVIDIA cuDNN](https://developer.nvidia.com/cudnn)，[Intel MKL](https://software.intel.com/en-us/mkl) 或 [NNPACK](https://github.com/Maratyszcza/NNPACK) 等库提供支持 ，上面的 PyTorch 代码通常会足够快。 但是，我们还可以看到为什么在某些情况下还有进一步改进性能的空间。 最明显的原因是 PyTorch 不了解您要实现的*算法*。 它仅知道您用于组成算法的单个操作。 因此，PyTorch 必须一个接一个地执行您的操作。 由于对操作的实现（或*核*）的每个单独调用（可能涉及 CUDA 内核的启动）都具有一定的开销，因此该开销在许多函数调用中可能变得很重要。 此外，运行我们的代码的 Python 解释器本身可能会使我们的程序变慢。
+
+因此，一种确定的加速方法是用 C++（或 CUDA）和*熔断*特定操作组来重写零件。 融合是指将许多功能的实现组合为一个功能，这可以从更少的内核启动以及我们可以提高全局数据流可见性的情况下执行的其他优化中获利。
+
+让我们看看如何使用 C++ 扩展来实现 LLTM 的*融合*版本。 首先，我们使用 [ATen](https://github.com/zdevito/ATen) 库以普通的 C++ 语言编写代码，该库为 PyTorch 的许多后端提供了强大的支持，并了解它如何使我们轻松转换 Python 代码。 然后，我们将模型的某些部分移至 CUDA 内核，以从 GPU 提供的大量并行处理中受益，从而进一步加快处理速度。
+
+## 编写 C++ 扩展
+
+C++ 扩展有两种形式：它们可以使用`setuptools`提前构建，也可以通过`torch.utils.cpp_extension.load()`适时构建。 我们将从第一种方法开始，稍后再讨论后者。
+
+### 使用`setuptools`构建
+
+为了“提前”，我们通过编写一个`setup.py`脚本来构建 C++ 扩展，该脚本使用`setuptools`编译我们的 C++ 代码。 对于 LLTM，它看起来像这样简单：
+
+```py
+from setuptools import setup, Extension
+from torch.utils import cpp_extension
+
+setup(name='lltm_cpp',
+      ext_modules=[cpp_extension.CppExtension('lltm_cpp', ['lltm.cpp'])],
+      cmdclass={'build_ext': cpp_extension.BuildExtension})
+
+```
+
+在此代码中，`CppExtension`是`setuptools.Extension`的便利包装，它传递正确的包含路径并将扩展的语言设置为 C++。 等效的`setuptools`原始代码如下：
+
+```py
+Extension(
+   name='lltm_cpp',
+   sources=['lltm.cpp'],
+   include_dirs=cpp_extension.include_paths(),
+   language='c++')
+
+```
+
+`BuildExtension`执行许多必需的配置步骤，并检查和管理混合 C++/CUDA 扩展的混合编译。 这就是我们现在真正需要了解的有关构建 C++ 扩展的全部信息！ 现在让我们看一下`lltm.cpp`中 C++ 扩展的实现。
+
+### 编写 C++ 操作
+
+让我们开始以 C++ 实现 LLTM！ 我们需要反向传播的一项函数是 Sigmoid 导数。 这是一小段代码，用于讨论编写 C++ 扩展时可供我们使用的总体环境：
+
+```py
+#include <torch/extension.h>
+
+#include <iostream>
+
+torch::Tensor d_sigmoid(torch::Tensor z) {
+  auto s = torch::sigmoid(z);
+  return (1 - s) * s;
+}
+
+```
+
+`<torch/extension.h>`是一站式标头，包括编写 C++ 扩展的所有必需的 PyTorch 位。 这包括：
+
+*   ATen 库，这是我们用于张量计算的主要 API，
+*   [`pybind11`](https://github.com/pybind/pybind11) ，这是我们为 C++ 代码创建 Python 绑定的方式，
+*   标头，用于管理 ATen 与`pybind11`之间的交互的详细信息。
+
+`d_sigmoid()`的实现显示了如何使用 ATen API。 PyTorch 的张量和变量接口是从 ATen 库自动生成的，因此我们可以或多或少地将 Python 实现 1:1 转换为 C++。 我们用于所有计算的主要数据类型将为`torch::Tensor`。 可以在此处检查其完整的 API。 还要注意，我们可以包括`<iostream>`或*任何其他 C 或 C++ 头文件* –我们拥有 C++ 11 的全部功能。
+
+#### 正向传播
+
+接下来，我们可以将整个正向传播到 C++：
+
+```py
+#include <vector>
+
+std::vector<at::Tensor> lltm_forward(
+    torch::Tensor input,
+    torch::Tensor weights,
+    torch::Tensor bias,
+    torch::Tensor old_h,
+    torch::Tensor old_cell) {
+  auto X = torch::cat({old_h, input}, /*dim=*/1);
+
+  auto gate_weights = torch::addmm(bias, X, weights.transpose(0, 1));
+  auto gates = gate_weights.chunk(3, /*dim=*/1);
+
+  auto input_gate = torch::sigmoid(gates[0]);
+  auto output_gate = torch::sigmoid(gates[1]);
+  auto candidate_cell = torch::elu(gates[2], /*alpha=*/1.0);
+
+  auto new_cell = old_cell + candidate_cell * input_gate;
+  auto new_h = torch::tanh(new_cell) * output_gate;
+
+  return {new_h,
+          new_cell,
+          input_gate,
+          output_gate,
+          candidate_cell,
+          X,
+          gate_weights};
+}
+
+```
+
+#### 反向传播
+
+C++ 扩展 API 当前不提供为我们自动生成向后函数的方法。 因此，我们还必须实现 LLTM 的后向传递，它计算相对于正向传播的每个输入的损失导数。 最终，我们将正向和反向函数放入`torch.autograd.Function`中，以创建一个不错的 Python 绑定。 向后函数的作用稍大一些，因此我们将不深入研究代码（如果您有兴趣，请阅读 [Alex Graves 的论文](https://www.cs.toronto.edu/~graves/phd.pdf)，以获取有关此方面的更多信息）：
+
+```py
+// tanh'(z) = 1 - tanh^2(z)
+torch::Tensor d_tanh(torch::Tensor z) {
+  return 1 - z.tanh().pow(2);
+}
+
+// elu'(z) = relu'(z) + { alpha * exp(z) if (alpha * (exp(z) - 1)) < 0, else 0}
+torch::Tensor d_elu(torch::Tensor z, torch::Scalar alpha = 1.0) {
+  auto e = z.exp();
+  auto mask = (alpha * (e - 1)) < 0;
+  return (z > 0).type_as(z) + mask.type_as(z) * (alpha * e);
+}
+
+std::vector<torch::Tensor> lltm_backward(
+    torch::Tensor grad_h,
+    torch::Tensor grad_cell,
+    torch::Tensor new_cell,
+    torch::Tensor input_gate,
+    torch::Tensor output_gate,
+    torch::Tensor candidate_cell,
+    torch::Tensor X,
+    torch::Tensor gate_weights,
+    torch::Tensor weights) {
+  auto d_output_gate = torch::tanh(new_cell) * grad_h;
+  auto d_tanh_new_cell = output_gate * grad_h;
+  auto d_new_cell = d_tanh(new_cell) * d_tanh_new_cell + grad_cell;
+
+  auto d_old_cell = d_new_cell;
+  auto d_candidate_cell = input_gate * d_new_cell;
+  auto d_input_gate = candidate_cell * d_new_cell;
+
+  auto gates = gate_weights.chunk(3, /*dim=*/1);
+  d_input_gate *= d_sigmoid(gates[0]);
+  d_output_gate *= d_sigmoid(gates[1]);
+  d_candidate_cell *= d_elu(gates[2]);
+
+  auto d_gates =
+      torch::cat({d_input_gate, d_output_gate, d_candidate_cell}, /*dim=*/1);
+
+  auto d_weights = d_gates.t().mm(X);
+  auto d_bias = d_gates.sum(/*dim=*/0, /*keepdim=*/true);
+
+  auto d_X = d_gates.mm(weights);
+  const auto state_size = grad_h.size(1);
+  auto d_old_h = d_X.slice(/*dim=*/1, 0, state_size);
+  auto d_input = d_X.slice(/*dim=*/1, state_size);
+
+  return {d_old_h, d_input, d_weights, d_bias, d_old_cell};
+}
+
+```
+
+### 绑定到 Python
+
+一旦用 C++ 和 ATen 编写了操作，就可以使用`pybind11`以非常简单的方式将 C++ 函数或类绑定到 Python 中。 您对 PyTorch C++ 扩展部分的疑问或问题将在[`pybind11`文档](https://pybind11.readthedocs.io/en/master/)中得到解决。
+
+对于我们的扩展，必要的绑定代码仅跨越四行：
+
+```py
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+  m.def("forward", &lltm_forward, "LLTM forward");
+  m.def("backward", &lltm_backward, "LLTM backward");
+}
+
+```
+
+这里要注意的一点是宏`TORCH_EXTENSION_NAME`。 火炬扩展程序构建会将其定义为您在`setup.py`脚本中为扩展程序指定的名称。 在这种情况下，`TORCH_EXTENSION_NAME`的值为`lltm`。 这是为了避免在两个位置（构建脚本和 C++ 代码）都保留扩展名，因为两者之间的不匹配会导致令人讨厌且难以跟踪的问题。
+
+### 使用扩展程序
+
+现在，我们准备将扩展名导入 PyTorch 中。 此时，您的目录结构可能如下所示：
+
+```py
+pytorch/
+  lltm-extension/
+    lltm.cpp
+    setup.py
+
+```
+
+现在，运行`python setup.py install`来构建和安装扩展程序。 看起来应该像这样：
+
+```py
+running install
+running bdist_egg
+running egg_info
+creating lltm_cpp.egg-info
+writing lltm_cpp.egg-info/PKG-INFO
+writing dependency_links to lltm_cpp.egg-info/dependency_links.txt
+writing top-level names to lltm_cpp.egg-info/top_level.txt
+writing manifest file 'lltm_cpp.egg-info/SOURCES.txt'
+reading manifest file 'lltm_cpp.egg-info/SOURCES.txt'
+writing manifest file 'lltm_cpp.egg-info/SOURCES.txt'
+installing library code to build/bdist.linux-x86_64/egg
+running install_lib
+running build_ext
+building 'lltm_cpp' extension
+creating build
+creating build/temp.linux-x86_64-3.7
+gcc -pthread -B ~/local/miniconda/compiler_compat -Wl,--sysroot=/ -Wsign-compare -DNDEBUG -g -fwrapv -O3 -Wall -Wstrict-prototypes -fPIC -I~/local/miniconda/lib/python3.7/site-packages/torch/include -I~/local/miniconda/lib/python3.7/site-packages/torch/include/torch/csrc/api/include -I~/local/miniconda/lib/python3.7/site-packages/torch/include/TH -I~/local/miniconda/lib/python3.7/site-packages/torch/include/THC -I~/local/miniconda/include/python3.7m -c lltm.cpp -o build/temp.linux-x86_64-3.7/lltm.o -DTORCH_API_INCLUDE_EXTENSION_H -DTORCH_EXTENSION_NAME=lltm_cpp -D_GLIBCXX_USE_CXX11_ABI=1 -std=c++11
+cc1plus: warning: command line option '-Wstrict-prototypes' is valid for C/ObjC but not for C++
+creating build/lib.linux-x86_64-3.7
+g++ -pthread -shared -B ~/local/miniconda/compiler_compat -L~/local/miniconda/lib -Wl,-rpath=~/local/miniconda/lib -Wl,--no-as-needed -Wl,--sysroot=/ build/temp.linux-x86_64-3.7/lltm.o -o build/lib.linux-x86_64-3.7/lltm_cpp.cpython-37m-x86_64-linux-gnu.so
+creating build/bdist.linux-x86_64
+creating build/bdist.linux-x86_64/egg
+copying build/lib.linux-x86_64-3.7/lltm_cpp.cpython-37m-x86_64-linux-gnu.so -> build/bdist.linux-x86_64/egg
+creating stub loader for lltm_cpp.cpython-37m-x86_64-linux-gnu.so
+byte-compiling build/bdist.linux-x86_64/egg/lltm_cpp.py to lltm_cpp.cpython-37.pyc
+creating build/bdist.linux-x86_64/egg/EGG-INFO
+copying lltm_cpp.egg-info/PKG-INFO -> build/bdist.linux-x86_64/egg/EGG-INFO
+copying lltm_cpp.egg-info/SOURCES.txt -> build/bdist.linux-x86_64/egg/EGG-INFO
+copying lltm_cpp.egg-info/dependency_links.txt -> build/bdist.linux-x86_64/egg/EGG-INFO
+copying lltm_cpp.egg-info/top_level.txt -> build/bdist.linux-x86_64/egg/EGG-INFO
+writing build/bdist.linux-x86_64/egg/EGG-INFO/native_libs.txt
+zip_safe flag not set; analyzing archive contents...
+__pycache__.lltm_cpp.cpython-37: module references __file__
+creating 'dist/lltm_cpp-0.0.0-py3.7-linux-x86_64.egg' and adding 'build/bdist.linux-x86_64/egg' to it
+removing 'build/bdist.linux-x86_64/egg' (and everything under it)
+Processing lltm_cpp-0.0.0-py3.7-linux-x86_64.egg
+removing '~/local/miniconda/lib/python3.7/site-packages/lltm_cpp-0.0.0-py3.7-linux-x86_64.egg' (and everything under it)
+creating ~/local/miniconda/lib/python3.7/site-packages/lltm_cpp-0.0.0-py3.7-linux-x86_64.egg
+Extracting lltm_cpp-0.0.0-py3.7-linux-x86_64.egg to ~/local/miniconda/lib/python3.7/site-packages
+lltm-cpp 0.0.0 is already the active version in easy-install.pth
+
+Installed ~/local/miniconda/lib/python3.7/site-packages/lltm_cpp-0.0.0-py3.7-linux-x86_64.egg
+Processing dependencies for lltm-cpp==0.0.0
+Finished processing dependencies for lltm-cpp==0.0.0
+
+```
+
+关于编译器的小提示：由于 ABI 版本问题，用于构建 C++ 扩展的编译器必须与 PyTorch 编译器兼容。 实际上，这意味着您必须在 Linux 上使用 GCC 4.9 及更高版本。 对于 Ubuntu 16.04 和其他较新的 Linux 发行版，这应该已经是默认的编译器。 在 MacOS 上，您必须使用 clang（它没有任何 ABI 版本控制问题）。 在最坏的情况下，您可以使用编译器从源代码构建 PyTorch，然后使用相同的编译器构建扩展。
+
+扩展程序构建完成后，您可以使用`setup.py`脚本中指定的名称，将其简单地导入 Python。 只需确保先`import torch`，因为这将解决动态链接器必须看到的一些符号：
+
+```py
+In [1]: import torch
+In [2]: import lltm_cpp
+In [3]: lltm_cpp.forward
+Out[3]: <function lltm.PyCapsule.forward>
+
+```
+
+如果我们在函数或模块上调用`help()`，则可以看到其签名与我们的 C++ 代码匹配：
+
+```py
+In[4] help(lltm_cpp.forward)
+forward(...) method of builtins.PyCapsule instance
+    forward(arg0: torch::Tensor, arg1: torch::Tensor, arg2: torch::Tensor, arg3: torch::Tensor, arg4: torch::Tensor) -> List[torch::Tensor]
+
+    LLTM forward
+
+```
+
+由于我们现在可以从 Python 调用 C++ 函数，因此可以将它们包装为`torch.autograd.Function`和`torch.nn.Module`以使其成为 PyTorch 的一等公民：
+
+```py
+import math
+import torch
+
+# Our module!
+import lltm_cpp
+
+class LLTMFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, input, weights, bias, old_h, old_cell):
+        outputs = lltm_cpp.forward(input, weights, bias, old_h, old_cell)
+        new_h, new_cell = outputs[:2]
+        variables = outputs[1:] + [weights]
+        ctx.save_for_backward(*variables)
+
+        return new_h, new_cell
+
+    @staticmethod
+    def backward(ctx, grad_h, grad_cell):
+        outputs = lltm_cpp.backward(
+            grad_h.contiguous(), grad_cell.contiguous(), *ctx.saved_variables)
+        d_old_h, d_input, d_weights, d_bias, d_old_cell = outputs
+        return d_input, d_weights, d_bias, d_old_h, d_old_cell
+
+class LLTM(torch.nn.Module):
+    def __init__(self, input_features, state_size):
+        super(LLTM, self).__init__()
+        self.input_features = input_features
+        self.state_size = state_size
+        self.weights = torch.nn.Parameter(
+            torch.empty(3 * state_size, input_features + state_size))
+        self.bias = torch.nn.Parameter(torch.empty(3 * state_size))
+        self.reset_parameters()
+
+    def reset_parameters(self):
+        stdv = 1.0 / math.sqrt(self.state_size)
+        for weight in self.parameters():
+            weight.data.uniform_(-stdv, +stdv)
+
+    def forward(self, input, state):
+        return LLTMFunction.apply(input, self.weights, self.bias, *state)
+
+```
+
+#### 性能比较
+
+现在我们已经可以使用并从 PyTorch 调用 C++ 代码了，我们可以运行一个小型基准测试，以查看通过用 C++ 重写操作所获得的性能。 我们将向前和向后运行 LLTM 几次，并测量持续时间：
+
+```py
+import time
+
+import torch
+
+batch_size = 16
+input_features = 32
+state_size = 128
+
+X = torch.randn(batch_size, input_features)
+h = torch.randn(batch_size, state_size)
+C = torch.randn(batch_size, state_size)
+
+rnn = LLTM(input_features, state_size)
+
+forward = 0
+backward = 0
+for _ in range(100000):
+    start = time.time()
+    new_h, new_C = rnn(X, (h, C))
+    forward += time.time() - start
+
+    start = time.time()
+    (new_h.sum() + new_C.sum()).backward()
+    backward += time.time() - start
+
+print('Forward: {:.3f} us | Backward {:.3f} us'.format(forward * 1e6/1e5, backward * 1e6/1e5))
+
+```
+
+如果我们使用本文开头用纯 Python 编写的原始 LLTM 运行此代码，则会得到以下数字（在我的机器上）：
+
+```py
+Forward: 506.480 us | Backward 444.694 us
+
+```
+
+以及我们的新 C++ 版本：
+
+```py
+Forward: 349.335 us | Backward 443.523 us
+
+```
+
+我们已经可以看到正向函数的明显提速（超过 30%）。 对于反向函数，可以看到加速，尽管不是很大。 我在上面编写的后向通行证没有特别优化，并且肯定可以改进。 而且，PyTorch 的自动微分引擎可以自动并行化计算图，可以整体上使用更高效的操作流程，并且也可以用 C++ 来实现，因此有望实现更快的速度。 不过，这是一个良好的开始。
+
+#### GPU 设备上的性能
+
+关于 PyTorch 的 *ATen* 后端的一个奇妙事实是，它抽象了您正在运行的计算设备。 这意味着我们为 CPU 编写的同一代码*也可以*在 GPU 上运行，并且各个操作将相应地分派到 GPU 优化的实现。 对于某些运算，例如矩阵乘法（例如`mm`或`addmm`），这是一个很大的胜利。 让我们看一下使用 CUDA 张量运行 C++ 代码所获得的性能。 无需更改实现，我们只需要将张量从 Python 放入 GPU 内存，即可在创建时添加`device=cuda_device`参数，或者在创建后使用`.to(cuda_device)`：
+
+```py
+import torch
+
+assert torch.cuda.is_available()
+cuda_device = torch.device("cuda")  # device object representing GPU
+
+batch_size = 16
+input_features = 32
+state_size = 128
+
+# Note the device=cuda_device arguments here
+X = torch.randn(batch_size, input_features, device=cuda_device)
+h = torch.randn(batch_size, state_size, device=cuda_device)
+C = torch.randn(batch_size, state_size, device=cuda_device)
+
+rnn = LLTM(input_features, state_size).to(cuda_device)
+
+forward = 0
+backward = 0
+for _ in range(100000):
+    start = time.time()
+    new_h, new_C = rnn(X, (h, C))
+    torch.cuda.synchronize()
+    forward += time.time() - start
+
+    start = time.time()
+    (new_h.sum() + new_C.sum()).backward()
+    torch.cuda.synchronize()
+    backward += time.time() - start
+
+print('Forward: {:.3f} us | Backward {:.3f} us'.format(forward * 1e6/1e5, backward * 1e6/1e5))
+
+```
+
+再次将普通的 PyTorch 代码与 C++ 版本（现在都在 CUDA 设备上运行）进行比较，我们再次看到了性能提升。 对于 Python/PyTorch：
+
+```py
+Forward: 187.719 us | Backward 410.815 us
+
+```
+
+和 C++/ATen：
+
+```py
+Forward: 149.802 us | Backward 393.458 us
+
+```
+
+与非 CUDA 代码相比，这可以大大提高整体速度。 但是，通过编写自定义 CUDA 内核，我们可以从 C++ 代码中获得更多性能，我们将很快深入其中。 在此之前，让我们讨论构建 C++ 扩展的另一种方法。
+
+### JIT 编译扩展
+
+之前，我提到过有两种构建 C++ 扩展的方法：使用`setuptools`或即时（JIT）。 在介绍了前者之后，让我们详细介绍后者。 JIT 编译机制通过调用 PyTorch API 中称为`torch.utils.cpp_extension.load()`的简单函数，为您提供了一种动态编译和加载扩展的方式。 对于 LLTM，这看起来像这样简单：
+
+```py
+from torch.utils.cpp_extension import load
+
+lltm_cpp = load(name="lltm_cpp", sources=["lltm.cpp"])
+
+```
+
+在此，我们为函数提供与`setuptools`相同的信息。 在后台，这将执行以下操作：
+
+1.  创建一个临时目录`/tmp/torch_extensions/lltm`，
+2.  将 [Ninja](https://ninja-build.org/) 构建文件发送到该临时目录中，
+3.  将您的源文件编译到共享库中，
+4.  将此共享库导入为 Python 模块。
+
+实际上，如果将`verbose=True`传递给`cpp_extension.load()`，则会通知您有关过程：
+
+```py
+Using /tmp/torch_extensions as PyTorch extensions root...
+Emitting ninja build file /tmp/torch_extensions/lltm_cpp/build.ninja...
+Building extension module lltm_cpp...
+Loading extension module lltm_cpp...
+
+```
+
+生成的 Python 模块将与`setuptools`生成的模块完全相同，但是消除了必须维护单独的`setup.py`构建文件的要求。 如果您的设置更为复杂，并且确实需要`setuptools`的全部功能，则*可以*编写自己的`setup.py` –但是在许多情况下，这种 JIT 技术就可以了。 第一次运行此行时，将需要一些时间，因为扩展程序是在后台编译的。 由于我们使用 Ninja 构建系统来构建您的源代码，因此重新编译是增量的，因此在您第二次运行 Python 模块时重新加载扩展程序非常快捷，而且如果您不更改扩展程序的源文件，开销也很低。
+
+## 编写混合的 C++/CUDA 扩展
+
+为了将实现真正提升到一个新的水平，我们可以使用自定义 CUDA 内核来手写前进和后退通道的一部分。 对于 LLTM，这具有特别有效的前景，因为按顺序有大量的逐点运算，这些运算都可以在单个 CUDA 内核中融合和并行化。 让我们看看如何编写这种 CUDA 内核，并使用此扩展机制将其与 PyTorch 集成。
+
+编写 CUDA 扩展的一般策略是首先编写一个 C++ 文件，该文件定义将从 Python 调用的函数，然后使用`pybind11`将这些函数绑定到 Python。 此外，此文件还将声明在 CUDA（`.cu`）文件中定义的函数。 然后，C++ 函数将进行一些检查，并最终将其调用转发给 CUDA 函数。 在 CUDA 文件中，我们编写了实际的 CUDA 内核。 然后`cpp_extension`包将负责使用`gcc`等 C++ 编译器来编译 C++ 源代码，并使用 NVIDIA 的`nvcc`编译器来编译 CUDA 源。 这样可以确保每个编译器都照顾最了解要编译的文件。 最终，它们将被链接到一个共享库中，该库可从 Python 代码中获得。
+
+我们将从 C++ 文件开始，我们将其称为`lltm_cuda.cpp`，例如：
+
+```py
+#include <torch/extension.h>
+
+#include <vector>
+
+// CUDA forward declarations
+
+std::vector<torch::Tensor> lltm_cuda_forward(
+    torch::Tensor input,
+    torch::Tensor weights,
+    torch::Tensor bias,
+    torch::Tensor old_h,
+    torch::Tensor old_cell);
+
+std::vector<torch::Tensor> lltm_cuda_backward(
+    torch::Tensor grad_h,
+    torch::Tensor grad_cell,
+    torch::Tensor new_cell,
+    torch::Tensor input_gate,
+    torch::Tensor output_gate,
+    torch::Tensor candidate_cell,
+    torch::Tensor X,
+    torch::Tensor gate_weights,
+    torch::Tensor weights);
+
+// C++ interface
+
+#define CHECK_CUDA(x) TORCH_CHECK(x.type().is_cuda(), #x " must be a CUDA tensor")
+#define CHECK_CONTIGUOUS(x) TORCH_CHECK(x.is_contiguous(), #x " must be contiguous")
+#define CHECK_INPUT(x) CHECK_CUDA(x); CHECK_CONTIGUOUS(x)
+
+std::vector<torch::Tensor> lltm_forward(
+    torch::Tensor input,
+    torch::Tensor weights,
+    torch::Tensor bias,
+    torch::Tensor old_h,
+    torch::Tensor old_cell) {
+  CHECK_INPUT(input);
+  CHECK_INPUT(weights);
+  CHECK_INPUT(bias);
+  CHECK_INPUT(old_h);
+  CHECK_INPUT(old_cell);
+
+  return lltm_cuda_forward(input, weights, bias, old_h, old_cell);
+}
+
+std::vector<torch::Tensor> lltm_backward(
+    torch::Tensor grad_h,
+    torch::Tensor grad_cell,
+    torch::Tensor new_cell,
+    torch::Tensor input_gate,
+    torch::Tensor output_gate,
+    torch::Tensor candidate_cell,
+    torch::Tensor X,
+    torch::Tensor gate_weights,
+    torch::Tensor weights) {
+  CHECK_INPUT(grad_h);
+  CHECK_INPUT(grad_cell);
+  CHECK_INPUT(input_gate);
+  CHECK_INPUT(output_gate);
+  CHECK_INPUT(candidate_cell);
+  CHECK_INPUT(X);
+  CHECK_INPUT(gate_weights);
+  CHECK_INPUT(weights);
+
+  return lltm_cuda_backward(
+      grad_h,
+      grad_cell,
+      new_cell,
+      input_gate,
+      output_gate,
+      candidate_cell,
+      X,
+      gate_weights,
+      weights);
+}
+
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+  m.def("forward", &lltm_forward, "LLTM forward (CUDA)");
+  m.def("backward", &lltm_backward, "LLTM backward (CUDA)");
+}
+
+```
+
+如您所见，它主要是样板文件，检查并转发到我们将在 CUDA 文件中定义的功能。 我们将此文件命名为`lltm_cuda_kernel.cu`（请注意`.cu`扩展名！）。 NVCC 可以合理地编译 C++  11，因此我们仍然可以使用 ATen 和 C++ 标准库（但不能使用`torch.h`）。 请注意，`setuptools`无法处理具有相同名称但扩展名不同的文件，因此，如果您使用`setup.py`方法而不是 JIT 方法，则必须给 CUDA 文件指定一个与 C++ 文件不同的名称（对于 JIT 方法， `lltm.cpp`和`lltm.cu`可以正常工作）。 让我们看一下该文件的外观：
+
+```py
+#include <torch/extension.h>
+
+#include <cuda.h>
+#include <cuda_runtime.h>
+
+#include <vector>
+
+template <typename scalar_t>
+__device__ __forceinline__ scalar_t sigmoid(scalar_t z) {
+  return 1.0 / (1.0 + exp(-z));
+}
+
+```
+
+在这里，我们看到了我刚刚描述的标头，以及我们正在使用特定于 CUDA 的声明，例如`__device__`和`__forceinline__`以及类似`exp`的事实。 让我们继续一些我们需要的辅助功​​能：
+
+```py
+template <typename scalar_t>
+__device__ __forceinline__ scalar_t d_sigmoid(scalar_t z) {
+  const auto s = sigmoid(z);
+  return (1.0 - s) * s;
+}
+
+template <typename scalar_t>
+__device__ __forceinline__ scalar_t d_tanh(scalar_t z) {
+  const auto t = tanh(z);
+  return 1 - (t * t);
+}
+
+template <typename scalar_t>
+__device__ __forceinline__ scalar_t elu(scalar_t z, scalar_t alpha = 1.0) {
+  return fmax(0.0, z) + fmin(0.0, alpha * (exp(z) - 1.0));
+}
+
+template <typename scalar_t>
+__device__ __forceinline__ scalar_t d_elu(scalar_t z, scalar_t alpha = 1.0) {
+  const auto e = exp(z);
+  const auto d_relu = z < 0.0 ? 0.0 : 1.0;
+  return d_relu + (((alpha * (e - 1.0)) < 0.0) ? (alpha * e) : 0.0);
+}
+
+```
+
+现在，要真正实现一个函数，我们再次需要两件事：一个函数执行我们不想手工明确编写的操作并调用 CUDA 内核，然后是要加速的部分的实际 CUDA 内核。 。 对于正向传播，第一个函数应如下所示：
+
+```py
+std::vector<torch::Tensor> lltm_cuda_forward(
+    torch::Tensor input,
+    torch::Tensor weights,
+    torch::Tensor bias,
+    torch::Tensor old_h,
+    torch::Tensor old_cell) {
+  auto X = torch::cat({old_h, input}, /*dim=*/1);
+  auto gates = torch::addmm(bias, X, weights.transpose(0, 1));
+
+  const auto batch_size = old_cell.size(0);
+  const auto state_size = old_cell.size(1);
+
+  auto new_h = torch::zeros_like(old_cell);
+  auto new_cell = torch::zeros_like(old_cell);
+  auto input_gate = torch::zeros_like(old_cell);
+  auto output_gate = torch::zeros_like(old_cell);
+  auto candidate_cell = torch::zeros_like(old_cell);
+
+  const int threads = 1024;
+  const dim3 blocks((state_size + threads - 1) / threads, batch_size);
+
+  AT_DISPATCH_FLOATING_TYPES(gates.type(), "lltm_forward_cuda", ([&] {
+    lltm_cuda_forward_kernel<scalar_t><<<blocks, threads>>>(
+        gates.data<scalar_t>(),
+        old_cell.data<scalar_t>(),
+        new_h.data<scalar_t>(),
+        new_cell.data<scalar_t>(),
+        input_gate.data<scalar_t>(),
+        output_gate.data<scalar_t>(),
+        candidate_cell.data<scalar_t>(),
+        state_size);
+  }));
+
+  return {new_h, new_cell, input_gate, output_gate, candidate_cell, X, gates};
+}
+
+```
+
+这里的主要关注点是`AT_DISPATCH_FLOATING_TYPES`宏和内核启动（由`<<<...>>>`指示）。 尽管 ATen 提取了我们处理过的张量的设备和数据类型，但张量在运行时仍将由具体设备上具体类型的内存支持。 因此，我们需要一种在运行时确定张量是什么类型，然后有选择地调用具有相应正确类型签名的函数的方法。 手动完成后，（在概念上）将如下所示：
+
+```py
+switch (tensor.type().scalarType()) {
+  case torch::ScalarType::Double:
+    return function<double>(tensor.data<double>());
+  case torch::ScalarType::Float:
+    return function<float>(tensor.data<float>());
+  ...
+}
+
+```
+
+`AT_DISPATCH_FLOATING_TYPES`的目的是为我们处理此调度。 它需要一个类型（在我们的例子中为`gates.type()`），一个名称（用于错误消息）和一个 lambda 函数。 在此 lambda 函数内部，类型别名`scalar_t`可用，并且定义为该上下文中张量实际上在运行时的类型。 这样，如果我们有一个模板函数（CUDA 内核将使用该模板函数），则可以使用此`scalar_t`别名实例化它，然后将调用正确的函数。 在这种情况下，我们还希望检索张量的数据指针作为`scalar_t`类型的指针。 如果您想分派所有类型而不只是浮点类型（`Float`和`Double`），则可以使用`AT_DISPATCH_ALL_TYPES`。
+
+请注意，我们使用普通的 ATen 执行一些操作。 这些操作仍将在 GPU 上运行，但使用 ATen 的默认实现。 这是有道理的，因为 ATen 会针对矩阵乘法（例如`addmm`）或卷积使用高度优化的例程，而这将很难实现和改善。
+
+至于内核启动本身，我们在这里指定每个 CUDA 块将具有 1024 个线程，并且将整个 GPU 网格分为所需的`1 x 1024`线程块，以便用每个组件一个线程填充矩阵。 例如，如果我们的状态大小为 2048，批量大小为 4，则我们将以每个 1024 个线程总共启动`4 x 2 = 8`块。 如果您以前从未听说过 CUDA 的“障碍”或“网格”，那么 [CUDA 简介](https://devblogs.nvidia.com/even-easier-introduction-cuda)可能会有所帮助。
+
+实际的 CUDA 内核非常简单（如果您曾经编程过 GPU）：
+
+```py
+template <typename scalar_t>
+__global__ void lltm_cuda_forward_kernel(
+    const scalar_t* __restrict__ gates,
+    const scalar_t* __restrict__ old_cell,
+    scalar_t* __restrict__ new_h,
+    scalar_t* __restrict__ new_cell,
+    scalar_t* __restrict__ input_gate,
+    scalar_t* __restrict__ output_gate,
+    scalar_t* __restrict__ candidate_cell,
+    size_t state_size) {
+  const int column = blockIdx.x * blockDim.x + threadIdx.x;
+  const int index = blockIdx.y * state_size + column;
+  const int gates_row = blockIdx.y * (state_size * 3);
+  if (column < state_size) {
+    input_gate[index] = sigmoid(gates[gates_row + column]);
+    output_gate[index] = sigmoid(gates[gates_row + state_size + column]);
+    candidate_cell[index] = elu(gates[gates_row + 2 * state_size + column]);
+    new_cell[index] =
+        old_cell[index] + candidate_cell[index] * input_gate[index];
+    new_h[index] = tanh(new_cell[index]) * output_gate[index];
+  }
+}
+
+```
+
+这里最有趣的是，我们能够为门矩阵中的每个单独的组件完全并行地计算所有这些逐点运算。 如果您想象必须用一个串行的百万个元素的`for`大型循环来执行此操作，那么您会明白为什么这样做会更快。
+
+### 使用访问器
+
+您可以在 CUDA 内核中看到，我们直接处理正确类型的指针。 实际上，直接在 cuda 内核内部使用高级类型不可知张量会非常低效。
+
+但是，这是以易于使用和可读性为代价的，尤其是对于高维数据。 在我们的示例中，例如，我们知道连续的`gates`张量具有 3 个维度：
+
+1.  批量，`batch_size`的大小和`3*state_size`的步幅
+2.  `3`的行，大小和`state_size`的步幅
+3.  指数，`state_size`的大小和`1`的步幅
+
+那么我们如何访问内核中的元素`gates[n][row][column]`？ 事实证明，您需要通过一些简单的算法就可以大步访问元素。
+
+```py
+gates.data<scalar_t>()[n`3`state_size + row*state_size + column]
+
+```
+
+除了冗长之外，此表达式还需要跨步才能明确知道，并因此在其参数内传递给内核函数。 您会看到，在内核函数接受具有不同大小的多个张量的情况下，您将得到很长的参数列表。
+
+对我们来说幸运的是，ATen 提供了通过动态检查张量是维度的类型和数量而创建的访问器。 然后，访问器公开一个 API，可以有效地访问张量元素，而不必转换为单个指针：
+
+```py
+torch::Tensor foo = torch::rand({12, 12});
+
+// assert foo is 2-dimensional and holds floats.
+auto foo_a = foo.accessor<float,2>();
+float trace = 0;
+
+for(int i = 0; i < foo_a.size(0); i++) {
+  // use the accessor foo_a to get tensor data.
+  trace += foo_a[i][i];
+}
+
+```
+
+访问器对象具有相对较高级别的接口，具有`.size()`和`.stride()`方法以及多维索引。 `.accessor<>`接口旨在在 CPU 张量上有效访问数据。 CUDA 张量的等效项是`packed_accessor64<>`和`packed_accessor32<>`，它们产生具有 64 位或 32 位整数索引的压缩访问器。
+
+与访问器的根本区别在于，打包的访问器在其结构内部复制大小和跨度数据，而不是指向它。 它允许我们将其传递给 CUDA 内核函数并在其中使用其接口。
+
+我们可以设计一个使用压缩访问器而不是指针的函数。
+
+```py
+__global__ void lltm_cuda_forward_kernel(
+    const torch::PackedTensorAccessor32<scalar_t,3,torch::RestrictPtrTraits> gates,
+    const torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> old_cell,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> new_h,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> new_cell,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> input_gate,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> output_gate,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> candidate_cell)
+
+```
+
+让我们分解一下这里使用的模板。 前两个参数`scalar_t`和`2`与常规访问器相同。 参数`torch::RestrictPtrTraits`指示必须使用`__restrict__`关键字。 另请注意，我们使用了`PackedAccessor32`变体，将变体和步幅存储在`int32_t`中。 这很重要，因为使用 64 位变体（`PackedAccessor64`）会使内核变慢。
+
+函数声明变为
+
+```py
+template <typename scalar_t>
+__global__ void lltm_cuda_forward_kernel(
+    const torch::PackedTensorAccessor32<scalar_t,3,torch::RestrictPtrTraits> gates,
+    const torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> old_cell,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> new_h,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> new_cell,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> input_gate,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> output_gate,
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> candidate_cell) {
+  //batch index
+  const int n = blockIdx.y;
+  // column index
+  const int c = blockIdx.x * blockDim.x + threadIdx.x;
+  if (c < gates.size(2)){
+    input_gate[n][c] = sigmoid(gates[n][0][c]);
+    output_gate[n][c] = sigmoid(gates[n][1][c]);
+    candidate_cell[n][c] = elu(gates[n][2][c]);
+    new_cell[n][c] =
+        old_cell[n][c] + candidate_cell[n][c] * input_gate[n][c];
+    new_h[n][c] = tanh(new_cell[n][c]) * output_gate[n][c];
+  }
+}
+
+```
+
+该实现更具可读性！ 然后，通过在主机函数内使用`.packed_accessor32<>`方法创建压缩访问器来调用此函数。
+
+```py
+std::vector<torch::Tensor> lltm_cuda_forward(
+    torch::Tensor input,
+    torch::Tensor weights,
+    torch::Tensor bias,
+    torch::Tensor old_h,
+    torch::Tensor old_cell) {
+  auto X = torch::cat({old_h, input}, /*dim=*/1);
+  auto gate_weights = torch::addmm(bias, X, weights.transpose(0, 1));
+
+  const auto batch_size = old_cell.size(0);
+  const auto state_size = old_cell.size(1);
+
+  auto gates = gate_weights.reshape({batch_size, 3, state_size});
+  auto new_h = torch::zeros_like(old_cell);
+  auto new_cell = torch::zeros_like(old_cell);
+  auto input_gate = torch::zeros_like(old_cell);
+  auto output_gate = torch::zeros_like(old_cell);
+  auto candidate_cell = torch::zeros_like(old_cell);
+
+  const int threads = 1024;
+  const dim3 blocks((state_size + threads - 1) / threads, batch_size);
+
+  AT_DISPATCH_FLOATING_TYPES(gates.type(), "lltm_forward_cuda", ([&] {
+    lltm_cuda_forward_kernel<scalar_t><<<blocks, threads>>>(
+        gates.packed_accessor32<scalar_t,3,torch::RestrictPtrTraits>(),
+        old_cell.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        new_h.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        new_cell.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        input_gate.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        output_gate.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        candidate_cell.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>());
+  }));
+
+  return {new_h, new_cell, input_gate, output_gate, candidate_cell, X, gates};
+}
+
+```
+
+反向传播遵循相同的模式，在此我不再赘述：
+
+```py
+template <typename scalar_t>
+__global__ void lltm_cuda_backward_kernel(
+    torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> d_old_cell,
+    torch::PackedTensorAccessor32<scalar_t,3,torch::RestrictPtrTraits> d_gates,
+    const torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> grad_h,
+    const torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> grad_cell,
+    const torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> new_cell,
+    const torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> input_gate,
+    const torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> output_gate,
+    const torch::PackedTensorAccessor32<scalar_t,2,torch::RestrictPtrTraits> candidate_cell,
+    const torch::PackedTensorAccessor32<scalar_t,3,torch::RestrictPtrTraits> gate_weights) {
+  //batch index
+  const int n = blockIdx.y;
+  // column index
+  const int c = blockIdx.x * blockDim.x + threadIdx.x;
+  if (c < d_gates.size(2)){
+    const auto d_output_gate = tanh(new_cell[n][c]) * grad_h[n][c];
+    const auto d_tanh_new_cell = output_gate[n][c] * grad_h[n][c];
+    const auto d_new_cell =
+        d_tanh(new_cell[n][c]) * d_tanh_new_cell + grad_cell[n][c];
+
+    d_old_cell[n][c] = d_new_cell;
+    const auto d_candidate_cell = input_gate[n][c] * d_new_cell;
+    const auto d_input_gate = candidate_cell[n][c] * d_new_cell;
+
+    d_gates[n][0][c] =
+        d_input_gate * d_sigmoid(gate_weights[n][0][c]);
+    d_gates[n][1][c] =
+        d_output_gate * d_sigmoid(gate_weights[n][1][c]);
+    d_gates[n][2][c] =
+        d_candidate_cell * d_elu(gate_weights[n][2][c]);
+  }
+}
+
+std::vector<torch::Tensor> lltm_cuda_backward(
+    torch::Tensor grad_h,
+    torch::Tensor grad_cell,
+    torch::Tensor new_cell,
+    torch::Tensor input_gate,
+    torch::Tensor output_gate,
+    torch::Tensor candidate_cell,
+    torch::Tensor X,
+    torch::Tensor gates,
+    torch::Tensor weights) {
+  auto d_old_cell = torch::zeros_like(new_cell);
+  auto d_gates = torch::zeros_like(gates);
+
+  const auto batch_size = new_cell.size(0);
+  const auto state_size = new_cell.size(1);
+
+  const int threads = 1024;
+  const dim3 blocks((state_size + threads - 1) / threads, batch_size);
+
+  AT_DISPATCH_FLOATING_TYPES(X.type(), "lltm_forward_cuda", ([&] {
+    lltm_cuda_backward_kernel<scalar_t><<<blocks, threads>>>(
+        d_old_cell.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        d_gates.packed_accessor32<scalar_t,3,torch::RestrictPtrTraits>(),
+        grad_h.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        grad_cell.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        new_cell.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        input_gate.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        output_gate.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        candidate_cell.packed_accessor32<scalar_t,2,torch::RestrictPtrTraits>(),
+        gates.packed_accessor32<scalar_t,3,torch::RestrictPtrTraits>());
+  }));
+
+  auto d_gate_weights = d_gates.reshape({batch_size, 3*state_size});
+  auto d_weights = d_gate_weights.t().mm(X);
+  auto d_bias = d_gate_weights.sum(/*dim=*/0, /*keepdim=*/true);
+
+  auto d_X = d_gate_weights.mm(weights);
+  auto d_old_h = d_X.slice(/*dim=*/1, 0, state_size);
+  auto d_input = d_X.slice(/*dim=*/1, state_size);
+
+  return {d_old_h, d_input, d_weights, d_bias, d_old_cell, d_gates};
+}
+
+```
+
+### 将 C++/CUDA 操作与 PyTorch 集成
+
+同样，将支持 CUDA 的操作与 PyTorch 集成非常简单。 如果要编写`setup.py`脚本，它可能看起来像这样：
+
+```py
+from setuptools import setup
+from torch.utils.cpp_extension import BuildExtension, CUDAExtension
+
+setup(
+    name='lltm',
+    ext_modules=[
+        CUDAExtension('lltm_cuda', [
+            'lltm_cuda.cpp',
+            'lltm_cuda_kernel.cu',
+        ])
+    ],
+    cmdclass={
+        'build_ext': BuildExtension
+    })
+
+```
+
+现在，我们使用`CUDAExtension()`代替`CppExtension()`。 我们只需要指定`.cu`文件和`.cpp`文件即可–该库将为您解决所有麻烦。 JIT 机制甚至更简单：
+
+```py
+from torch.utils.cpp_extension import load
+
+lltm = load(name='lltm', sources=['lltm_cuda.cpp', 'lltm_cuda_kernel.cu'])
+
+```
+
+#### 性能比较
+
+我们的希望是，将我们的代码的逐点操作与 CUDA 并行化和融合，将改善 LLTM 的性能。 让我们看看这是否成立。 我们可以运行前面列出的代码来运行基准测试。 我们之前最快的版本是基于 CUDA 的 C++ 代码：
+
+```py
+Forward: 149.802 us | Backward 393.458 us
+
+```
+
+现在使用我们的自定义 CUDA 内核：
+
+```py
+Forward: 129.431 us | Backward 304.641 us
+
+```
+
+更多性能提升！
+
+## 总结
+
+现在，您应该对 PyTorch 的 C++ 扩展机制有了一个很好的了解，并有使用它们的动机。 [您可以在此处找到本说明中显示的代码示例](https://github.com/pytorch/extension-cpp)。 如有疑问，请使用[论坛](https://discuss.pytorch.org)。 另外，请务必查看我们的[常见问题解答](https://pytorch.org/cppdocs/notes/faq.html)，以防遇到任何问题。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/46.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/46.md
new file mode 100644
index 00000000..6ec1d1a3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/46.md
@@ -0,0 +1,782 @@
+# 使用自定义 C++ 运算符扩展 TorchScript
+
+> 原文：<https://pytorch.org/tutorials/advanced/torch_script_custom_ops.html>
+
+PyTorch 1.0 版本向 PyTorch 引入了一种新的编程模型，称为 [TorchScript](https://pytorch.org/docs/master/jit.html) 。 TorchScript 是 Python 编程语言的子集，可以通过 TorchScript 编译器进行解析，编译和优化。 此外，已编译的 TorchScript 模型可以选择序列化为磁盘文件格式，然后可以从纯 C++（以及 Python）加载并运行该文件格式以进行推理。
+
+TorchScript 支持`torch`包提供的大量操作子集，使您可以纯粹表示为 PyTorch 的“标准库”中的一系列张量操作来表示多种复杂模型。 但是，有时您可能需要使用自定义 C++ 或 CUDA 函数扩展 TorchScript。 虽然我们建议您仅在无法（简单有效地）将您的想法表达为简单的 Python 函数时才诉诸该选项，但我们确实提供了一个非常友好且简单的接口，用于使用 [ATen](https://pytorch.org/cppdocs/#aten) 定义自定义 C++ 和 CUDA 内核。 ，PyTorch 的高性能 C++ 张量库。 绑定到 TorchScript 后，您可以将这些自定义内核（或“操作”）嵌入到 TorchScript 模型中，并以 Python 或直接以 C++ 的序列化形式执行它们。
+
+以下段落提供了一个编写 TorchScript 自定义操作以调用 [OpenCV](https://www.opencv.org) （使用 C++ 编写的计算机视觉库）的示例。 我们将讨论如何在 C++ 中使用张量，如何有效地将它们转换为第三方张量格式（在这种情况下为 OpenCV `Mat`），如何在 TorchScript 运行时中注册您的运算符，以及最后如何编译该运算符并在 Python 和 C++ 中使用它。
+
+## 在 C++ 中实现自定义运算符
+
+在本教程中，我们将公开[`warpPerspective`](https://docs.opencv.org/2.4/modules/imgproc/doc/geometric_transformations.html#warpperspective)函数，该函数将透视转换应用于图像，从 OpenCV 到 TorchScript 作为自定义运算符。 第一步是用 C++ 编写自定义运算符的实现。 让我们将此实现的文件称为`op.cpp`，并使其如下所示：
+
+```py
+torch::Tensor warp_perspective(torch::Tensor image, torch::Tensor warp) {
+  // BEGIN image_mat
+  cv::Mat image_mat(/*rows=*/image.size(0),
+                    /*cols=*/image.size(1),
+                    /*type=*/CV_32FC1,
+                    /*data=*/image.data_ptr<float>());
+  // END image_mat
+
+  // BEGIN warp_mat
+  cv::Mat warp_mat(/*rows=*/warp.size(0),
+                   /*cols=*/warp.size(1),
+                   /*type=*/CV_32FC1,
+                   /*data=*/warp.data_ptr<float>());
+  // END warp_mat
+
+  // BEGIN output_mat
+  cv::Mat output_mat;
+  cv::warpPerspective(image_mat, output_mat, warp_mat, /*dsize=*/{8, 8});
+  // END output_mat
+
+  // BEGIN output_tensor
+  torch::Tensor output = torch::from_blob(output_mat.ptr<float>(), /*sizes=*/{8, 8});
+  return output.clone();
+  // END output_tensor
+}
+
+```
+
+该运算符的代码很短。 在文件顶部，我们包含 OpenCV 标头文件`opencv2/opencv.hpp`和`torch/script.h`标头，该标头暴露了 PyTorch C++ API 中所有需要编写自定义 TorchScript 运算符的必要特性。 我们的函数`warp_perspective`有两个参数：输入`image`和我们希望应用于图像的`warp`变换矩阵。 这些输入的类型是`torch::Tensor`，这是 C++ 中 PyTorch 的张量类型（也是 Python 中所有张量的基础类型）。 我们的`warp_perspective`函数的返回类型也将是`torch::Tensor`。
+
+小费
+
+有关 ATen 的更多信息，请参见[本说明](https://pytorch.org/cppdocs/notes/tensor_basics.html)，ATen 是为 PyTorch 提供`Tensor`类的库。 此外，[本教程](https://pytorch.org/cppdocs/notes/tensor_creation.html)描述了如何在 C++ 中分配和初始化新的张量对象（此运算符不需要）。
+
+注意
+
+TorchScript 编译器了解固定数量的类型。 只有这些类型可以用作自定义运算符的参数。 当前这些类型是：`torch::Tensor`，`torch::Scalar`，`double`，`int64_t`和这些类型的`std::vector`。 请注意，只支持`double`而不是`float`，只支持`int64_t`而不是其他整数类型，例如`int`，`short`或`long`。
+
+在函数内部，我们要做的第一件事就是将 PyTorch 张量转换为 OpenCV 矩阵，因为 OpenCV 的`warpPerspective`期望`cv::Mat`对象作为输入。 幸运的是，有一种方法可以执行它，而无需复制任何数据。 在前几行中
+
+```py
+  cv::Mat image_mat(/*rows=*/image.size(0),
+                    /*cols=*/image.size(1),
+                    /*type=*/CV_32FC1,
+                    /*data=*/image.data_ptr<float>());
+
+```
+
+我们正在调用 [OpenCV `Mat`类的构造器](https://docs.opencv.org/trunk/d3/d63/classcv_1_1Mat.html#a922de793eabcec705b3579c5f95a643e)，将张量转换为`Mat`对象。 我们向其传递原始`image`张量的行数和列数，数据类型（在此示例中，我们将其固定为`float32`），最后是指向基础数据的原始指针– `float*`。 `Mat`类的此构造器的特殊之处在于它不会复制输入数据。 取而代之的是，它将简单地引用此存储器来执行`Mat`上的所有操作。 如果在`image_mat`上执行原地操作，这将反映在原始`image`张量中（反之亦然）。 即使我们实际上将数据存储在 PyTorch 张量中，这也使我们能够使用库的本机矩阵类型调用后续的 OpenCV 例程。 我们重复此过程将`warp` PyTorch 张量转换为`warp_mat` OpenCV 矩阵：
+
+```py
+  cv::Mat warp_mat(/*rows=*/warp.size(0),
+                   /*cols=*/warp.size(1),
+                   /*type=*/CV_32FC1,
+                   /*data=*/warp.data_ptr<float>());
+
+```
+
+接下来，我们准备调用我们渴望在 TorchScript 中使用的 OpenCV 函数：`warpPerspective`。 为此，我们将`image_mat`和`warp_mat`矩阵以及称为`output_mat`的空输出矩阵传递给 OpenCV 函数。 我们还指定了我们希望输出矩阵（图像）为`dsize`的大小。 对于此示例，它被硬编码为`8 x 8`：
+
+```py
+  cv::Mat output_mat;
+  cv::warpPerspective(image_mat, output_mat, warp_mat, /*dsize=*/{8, 8});
+
+```
+
+我们的自定义运算符实现的最后一步是将`output_mat`转换回 PyTorch 张量，以便我们可以在 PyTorch 中进一步使用它。 这与我们先前在另一个方向进行转换的操作极为相似。 在这种情况下，PyTorch 提供了一种`torch::from_blob`方法。 在这种情况下， *blob* 的意思是指向我们要解释为 PyTorch 张量的不透明平面指针。 对`torch::from_blob`的调用如下所示：
+
+```py
+  torch::Tensor output = torch::from_blob(output_mat.ptr<float>(), /*sizes=*/{8, 8});
+  return output.clone();
+
+```
+
+我们在 OpenCV `Mat`类上使用`.ptr<float>()`方法来获取指向基础数据的原始指针（就像之前的 PyTorch 张量的`.data_ptr<float>()`一样）。 我们还指定了张量的输出形状，我们将其硬编码为`8 x 8`。 然后`torch::from_blob`的输出是`torch::Tensor`，指向 OpenCV 矩阵拥有的内存。
+
+从我们的运算符实现返回此张量之前，我们必须在张量上调用`.clone()`以执行基础数据的存储副本。 这样做的原因是`torch::from_blob`返回了一个不拥有其数据的张量。 那时，数据仍归 OpenCV 矩阵所有。 但是，此 OpenCV 矩阵将超出范围，并在函数末尾重新分配。 如果我们按原样返回`output`张量，那么当我们在函数外部使用它时，它将指向无效的内存。 调用`.clone()`会返回一个新张量，其中包含新张量自己拥有的原始数据的副本。 因此，返回外部世界是安全的。
+
+## 使用 TorchScript 注册自定义运算符
+
+现在，已经在 C++ 中实现了自定义运算符，我们需要在 T​​orchScript 运行时和编译器中将其注册。 这将使 TorchScript 编译器可以在 TorchScript 代码中解析对我们自定义运算符的引用。 如果您曾经使用过`pybind11`库，则我们的注册语法非常类似于`pybind11`语法。 要注册一个函数，我们编写：
+
+```py
+TORCH_LIBRARY(my_ops, m) {
+  m.def("warp_perspective", warp_perspective);
+}
+
+```
+
+在`op.cpp`文件顶层的某个位置。 `TORCH_LIBRARY`宏创建一个在程序启动时将被调用的函数。 库的名称（`my_ops`）作为第一个参数给出（不应用引号引起来）。 第二个参数（`m`）定义了`torch::Library`类型的变量，该变量是注册运算符的主要接口。 方法`Library::def`实际上创建了一个名为`warp_perspective`的运算符，将其同时暴露给 Python 和 TorchScript。 您可以通过多次调用`def`来定义任意数量的运算符。
+
+在后台，`def`函数实际上正在做大量工作：它正在使用模板元编程来检查函数的类型签名，并将其转换为可在 TorchScript 的类型系统中指定操作符类型的操作符架构。
+
+## 构建自定义运算符
+
+现在，我们已经用 C++ 实现了自定义运算符并编写了其注册代码，是时候将该运算符构建到一个（共享的）库中了，可以将其加载到 Python 中进行研究和实验，或者加载到 C++ 中以在非 Python 中进行推理。 环境。 有多种方法可以使用纯 CMake 或`setuptools`之类的 Python 替代方法来构建我们的运算符。 为简洁起见，以下段落仅讨论 CMake 方法。 本教程的附录将深入探讨其他替代方法。
+
+### 环境设置
+
+我们需要安装 PyTorch 和 OpenCV。 实现这两者的最简单，最独立于平台的方法是通过 Conda：
+
+```py
+conda install -c pytorch pytorch
+conda install opencv
+
+```
+
+### 将 CMake 用于构建
+
+为了使用 [CMake](https://cmake.org) 构建系统将自定义运算符构建到共享库中，我们需要编写一个简短的`CMakeLists.txt`文件并将其与我们先前的`op.cpp`文件放置在一起。 为此，让我们就一个看起来像这样的目录结构达成一致：
+
+```py
+warp-perspective/
+  op.cpp
+  CMakeLists.txt
+
+```
+
+我们的`CMakeLists.txt`文件的内容应为以下内容：
+
+```py
+cmake_minimum_required(VERSION 3.1 FATAL_ERROR)
+project(warp_perspective)
+
+find_package(Torch REQUIRED)
+find_package(OpenCV REQUIRED)
+
+# Define our library target
+add_library(warp_perspective SHARED op.cpp)
+# Enable C++14
+target_compile_features(warp_perspective PRIVATE cxx_std_14)
+# Link against LibTorch
+target_link_libraries(warp_perspective "${TORCH_LIBRARIES}")
+# Link against OpenCV
+target_link_libraries(warp_perspective opencv_core opencv_imgproc)
+
+```
+
+现在要构建我们的运算符，我们可以从`warp_perspective`文件夹中运行以下命令：
+
+```py
+$ mkdir build
+$ cd build
+$ cmake -DCMAKE_PREFIX_PATH="$(python -c 'import torch.utils; print(torch.utils.cmake_prefix_path)')" ..
+-- The C compiler identification is GNU 5.4.0
+-- The CXX compiler identification is GNU 5.4.0
+-- Check for working C compiler: /usr/bin/cc
+-- Check for working C compiler: /usr/bin/cc -- works
+-- Detecting C compiler ABI info
+-- Detecting C compiler ABI info - done
+-- Detecting C compile features
+-- Detecting C compile features - done
+-- Check for working CXX compiler: /usr/bin/c++
+-- Check for working CXX compiler: /usr/bin/c++ -- works
+-- Detecting CXX compiler ABI info
+-- Detecting CXX compiler ABI info - done
+-- Detecting CXX compile features
+-- Detecting CXX compile features - done
+-- Looking for pthread.h
+-- Looking for pthread.h - found
+-- Looking for pthread_create
+-- Looking for pthread_create - not found
+-- Looking for pthread_create in pthreads
+-- Looking for pthread_create in pthreads - not found
+-- Looking for pthread_create in pthread
+-- Looking for pthread_create in pthread - found
+-- Found Threads: TRUE
+-- Found torch: /libtorch/lib/libtorch.so
+-- Configuring done
+-- Generating done
+-- Build files have been written to: /warp_perspective/build
+$ make -j
+Scanning dependencies of target warp_perspective
+[ 50%] Building CXX object CMakeFiles/warp_perspective.dir/op.cpp.o
+[100%] Linking CXX shared library libwarp_perspective.so
+[100%] Built target warp_perspective
+
+```
+
+这会将`libwarp_perspective.so`共享库文件放置在`build`文件夹中。 在上面的`cmake`命令中，我们使用帮助程序变量`torch.utils.cmake_prefix_path`方便地告诉我们 PyTorch 安装的 cmake 文件在哪里。
+
+我们将在下面进一步探讨如何使用和调用我们的运算符，但为了早日获得成功，我们可以尝试在 Python 中运行以下代码：
+
+```py
+import torch
+torch.ops.load_library("build/libwarp_perspective.so")
+print(torch.ops.my_ops.warp_perspective)
+
+```
+
+如果一切顺利，则应打印如下内容：
+
+```py
+<built-in method my_ops::warp_perspective of PyCapsule object at 0x7f618fc6fa50>
+
+```
+
+这是我们稍后将用来调用自定义运算符的 Python 函数。
+
+## 在 Python 中使用 TorchScript 自定义运算符
+
+将我们的自定义运算符构建到共享库后，我们就可以在 Python 的 TorchScript 模型中使用此运算符了。 这有两个部分：首先将运算符加载到 Python 中，其次在 TorchScript 代码中使用运算符。
+
+您已经了解了如何将运算符导入 Python：`torch.ops.load_library()`。 此函数采用包含自定义运算符的共享库的路径，并将其加载到当前进程中。 加载共享库也将执行`TORCH_LIBRARY`块。 这将在 TorchScript 编译器中注册我们的自定义运算符，并允许我们在 TorchScript 代码中使用该运算符。
+
+您可以将已加载的运算符称为`torch.ops.<namespace>.<function>`，其中`<namespace>`是运算符名称的名称空间部分，而`<function>`是运算符的函数名称。 对于我们上面编写的运算符，名称空间为`my_ops`，函数名称为`warp_perspective`，这意味着我们的运算符可以作为`torch.ops.my_ops.warp_perspective`使用。 虽然可以在脚本化或跟踪的 TorchScript 模块中使用此函数，但我们也可以仅在急切的 PyTorch 中使用它，并将其传递给常规 PyTorch 张量：
+
+```py
+import torch
+torch.ops.load_library("build/libwarp_perspective.so")
+print(torch.ops.my_ops.warp_perspective(torch.randn(32, 32), torch.rand(3, 3)))
+
+```
+
+生产：
+
+```py
+tensor([[0.0000, 0.3218, 0.4611,  ..., 0.4636, 0.4636, 0.4636],
+      [0.3746, 0.0978, 0.5005,  ..., 0.4636, 0.4636, 0.4636],
+      [0.3245, 0.0169, 0.0000,  ..., 0.4458, 0.4458, 0.4458],
+      ...,
+      [0.1862, 0.1862, 0.1692,  ..., 0.0000, 0.0000, 0.0000],
+      [0.1862, 0.1862, 0.1692,  ..., 0.0000, 0.0000, 0.0000],
+      [0.1862, 0.1862, 0.1692,  ..., 0.0000, 0.0000, 0.0000]])
+
+```
+
+注意
+
+幕后发生的事情是，您第一次使用 Python 访问`torch.ops.namespace.function`时，TorchScript 编译器（在 C++ 领域）将查看是否已注册函数`namespace::function`，如果已注册，则将 Python 句柄返回给该函数， 我们随后可以使用它从 Python 调用我们的 C++ 运算符实现。 这是 TorchScript 自定义运算符和 C++ 扩展之间的一个值得注意的区别：C++ 扩展是使用`pybind11`手动绑定的，而 TorchScript 自定义操作则是由 PyTorch 自己动态绑定的。`pybind11`在绑定到 Python 的类型和类方面为您提供了更大的灵活性，因此建议将其用于纯粹渴望的代码，但 TorchScript 操作不支持它。
+
+从这里开始，您可以在脚本或跟踪代码中使用自定义运算符，就像`torch`包中的其他函数一样。 实际上，诸如`torch.matmul`之类的“标准库”函数在很大程度上与自定义运算符使用相同的注册路径，这使得自定义运算符在 TorchScript 中的使用方式和位置方面真正成为一流公民。 （但是，区别之一是标准库函数具有自定义的 Python 自变量解析逻辑，与`torch.ops`自变量解析不同。）
+
+### 在跟踪中使用自定义运算符
+
+首先，将我们的运算符嵌入到跟踪函数中。 回想一下，为了进行跟踪，我们从一些原始的 Pytorch 代码开始：
+
+```py
+def compute(x, y, z):
+    return x.matmul(y) + torch.relu(z)
+
+```
+
+然后在其上调用`torch.jit.trace`。 我们进一步传递`torch.jit.trace`一些示例输入，它将输入到我们的实现中，以记录输入流过其中时发生的操作顺序。 这样的结果实际上是渴望的 PyTorch 程序的“冻结”版本，TorchScript 编译器可以对其进行进一步的分析，优化和序列化：
+
+```py
+inputs = [torch.randn(4, 8), torch.randn(8, 5), torch.randn(4, 5)]
+trace = torch.jit.trace(compute, inputs)
+print(trace.graph)
+
+```
+
+生产：
+
+```py
+graph(%x : Float(4:8, 8:1),
+      %y : Float(8:5, 5:1),
+      %z : Float(4:5, 5:1)):
+  %3 : Float(4:5, 5:1) = aten::matmul(%x, %y) # test.py:10:0
+  %4 : Float(4:5, 5:1) = aten::relu(%z) # test.py:10:0
+  %5 : int = prim::Constant[value=1]() # test.py:10:0
+  %6 : Float(4:5, 5:1) = aten::add(%3, %4, %5) # test.py:10:0
+  return (%6)
+
+```
+
+现在，令人兴奋的启示是，我们可以简单地将自定义运算符放到 PyTorch 跟踪中，就好像它是`torch.relu`或任何其他`torch`函数一样：
+
+```py
+def compute(x, y, z):
+    x = torch.ops.my_ops.warp_perspective(x, torch.eye(3))
+    return x.matmul(y) + torch.relu(z)
+
+```
+
+然后像以前一样跟踪它：
+
+```py
+inputs = [torch.randn(4, 8), torch.randn(8, 5), torch.randn(8, 5)]
+trace = torch.jit.trace(compute, inputs)
+print(trace.graph)
+
+```
+
+生产：
+
+```py
+graph(%x.1 : Float(4:8, 8:1),
+      %y : Float(8:5, 5:1),
+      %z : Float(8:5, 5:1)):
+  %3 : int = prim::Constant[value=3]() # test.py:25:0
+  %4 : int = prim::Constant[value=6]() # test.py:25:0
+  %5 : int = prim::Constant[value=0]() # test.py:25:0
+  %6 : Device = prim::Constant[value="cpu"]() # test.py:25:0
+  %7 : bool = prim::Constant[value=0]() # test.py:25:0
+  %8 : Float(3:3, 3:1) = aten::eye(%3, %4, %5, %6, %7) # test.py:25:0
+  %x : Float(8:8, 8:1) = my_ops::warp_perspective(%x.1, %8) # test.py:25:0
+  %10 : Float(8:5, 5:1) = aten::matmul(%x, %y) # test.py:26:0
+  %11 : Float(8:5, 5:1) = aten::relu(%z) # test.py:26:0
+  %12 : int = prim::Constant[value=1]() # test.py:26:0
+  %13 : Float(8:5, 5:1) = aten::add(%10, %11, %12) # test.py:26:0
+  return (%13)
+
+```
+
+如此简单地将 TorchScript 自定义操作集成到跟踪的 PyTorch 代码中！
+
+### 将自定义运算符与脚本一起使用
+
+除了跟踪之外，获得 PyTorch 程序的 TorchScript 表示形式的另一种方法是直接在 TorchScript 中编写代码。 TorchScript 在很大程度上是 Python 语言的子集，它具有一些限制，使 TorchScript 编译器更容易推理程序。 您可以使用`@torch.jit.script`标记自由函数，使用`@torch.jit.script_method`标记类中的方法（也必须从`torch.jit.ScriptModule`派生），将常规 PyTorch 代码转换为 TorchScript。 有关 TorchScript 注解的更多详细信息，请参见[此处](https://pytorch.org/docs/master/jit.html)。
+
+使用 TorchScript 而不是跟踪的一个特殊原因是，跟踪无法捕获 PyTorch 代码中的控制流。 因此，让我们考虑使用控制流的此函数：
+
+```py
+def compute(x, y):
+  if bool(x[0][0] == 42):
+      z = 5
+  else:
+      z = 10
+  return x.matmul(y) + z
+
+```
+
+要将此函数从原始 PyTorch 转换为 TorchScript，我们用`@torch.jit.script`对其进行注解：
+
+```py
+@torch.jit.script
+def compute(x, y):
+  if bool(x[0][0] == 42):
+      z = 5
+  else:
+      z = 10
+  return x.matmul(y) + z
+
+```
+
+这将及时将`compute`函数编译成图形表示形式，我们可以在`compute.graph`属性中进行检查：
+
+```py
+>>> compute.graph
+graph(%x : Dynamic
+    %y : Dynamic) {
+  %14 : int = prim::Constant[value=1]()
+  %2 : int = prim::Constant[value=0]()
+  %7 : int = prim::Constant[value=42]()
+  %z.1 : int = prim::Constant[value=5]()
+  %z.2 : int = prim::Constant[value=10]()
+  %4 : Dynamic = aten::select(%x, %2, %2)
+  %6 : Dynamic = aten::select(%4, %2, %2)
+  %8 : Dynamic = aten::eq(%6, %7)
+  %9 : bool = prim::TensorToBool(%8)
+  %z : int = prim::If(%9)
+    block0() {
+      -> (%z.1)
+    }
+    block1() {
+      -> (%z.2)
+    }
+  %13 : Dynamic = aten::matmul(%x, %y)
+  %15 : Dynamic = aten::add(%13, %z, %14)
+  return (%15);
+}
+
+```
+
+现在，就像以前一样，我们可以像脚本代码中的任何其他函数一样使用自定义运算符：
+
+```py
+torch.ops.load_library("libwarp_perspective.so")
+
+@torch.jit.script
+def compute(x, y):
+  if bool(x[0] == 42):
+      z = 5
+  else:
+      z = 10
+  x = torch.ops.my_ops.warp_perspective(x, torch.eye(3))
+  return x.matmul(y) + z
+
+```
+
+当 TorchScript 编译器看到对`torch.ops.my_ops.warp_perspective`的引用时，它将找到我们通过 C++ 中的`TORCH_LIBRARY`函数注册的实现，并将其编译为图形表示形式：
+
+```py
+>>> compute.graph
+graph(%x.1 : Dynamic
+    %y : Dynamic) {
+    %20 : int = prim::Constant[value=1]()
+    %16 : int[] = prim::Constant[value=[0, -1]]()
+    %14 : int = prim::Constant[value=6]()
+    %2 : int = prim::Constant[value=0]()
+    %7 : int = prim::Constant[value=42]()
+    %z.1 : int = prim::Constant[value=5]()
+    %z.2 : int = prim::Constant[value=10]()
+    %13 : int = prim::Constant[value=3]()
+    %4 : Dynamic = aten::select(%x.1, %2, %2)
+    %6 : Dynamic = aten::select(%4, %2, %2)
+    %8 : Dynamic = aten::eq(%6, %7)
+    %9 : bool = prim::TensorToBool(%8)
+    %z : int = prim::If(%9)
+      block0() {
+        -> (%z.1)
+      }
+      block1() {
+        -> (%z.2)
+      }
+    %17 : Dynamic = aten::eye(%13, %14, %2, %16)
+    %x : Dynamic = my_ops::warp_perspective(%x.1, %17)
+    %19 : Dynamic = aten::matmul(%x, %y)
+    %21 : Dynamic = aten::add(%19, %z, %20)
+    return (%21);
+  }
+
+```
+
+请特别注意图末尾对`my_ops::warp_perspective`的引用。
+
+注意
+
+TorchScript 图形表示仍可能更改。 不要依靠它看起来像这样。
+
+在 Python 中使用自定义运算符时，确实如此。 简而言之，您可以使用`torch.ops.load_library`导入包含您的运算符的库，并像其他任何`torch`运算符一样，从跟踪或编写脚本的 TorchScript 代码中调用自定义操作。
+
+## 在 C++ 中使用 TorchScript 自定义运算符
+
+TorchScript 的一项有用功能是能够将模型序列化到磁盘文件中。 该文件可以通过有线方式发送，存储在文件系统中，或者更重要的是，可以动态反序列化和执行，而无需保留原始源代码。 这在 Python 中是可能的，但在 C++ 中也是可能的。 为此，PyTorch [提供了纯 C++ API](https://pytorch.org/cppdocs/)，用于反序列化以及执行 TorchScript 模型。 如果您还没有的话，请阅读[在 C++ 中加载和运行序列化 TorchScript 模型](https://pytorch.org/tutorials/advanced/cpp_export.html)的教程，接下来的几段将基于该教程构建。
+
+简而言之，即使从文件反序列化并以 C++ 运行，也可以像常规`torch`运算符一样执行自定义运算符。 唯一的要求是将我们先前构建的自定义运算符共享库与执行模型的 C++ 应用链接。 在 Python 中，只需调用`torch.ops.load_library`即可。 在 C++ 中，您需要在使用的任何构建系统中将共享库与主应用链接。 下面的示例将使用 CMake 展示这一点。
+
+注意
+
+从技术上讲，您还可以在运行时将共享库动态加载到 C++ 应用中，就像在 Python 中一样。 在 Linux 上，可以使用`dlopen`来执行此操作。 在其他平台上也存在等效项。
+
+在上面链接的 C++ 执行教程的基础上，让我们从一个最小的 C++ 应用开始，在与自定义运算符不同的文件夹中的`main.cpp`文件中，该文件加载并执行序列化的 TorchScript 模型：
+
+```py
+#include <torch/script.h> // One-stop header.
+
+#include <iostream>
+#include <memory>
+
+int main(int argc, const char* argv[]) {
+  if (argc != 2) {
+    std::cerr << "usage: example-app <path-to-exported-script-module>\n";
+    return -1;
+  }
+
+  // Deserialize the ScriptModule from a file using torch::jit::load().
+  std::shared_ptr<torch::jit::script::Module> module = torch::jit::load(argv[1]);
+
+  std::vector<torch::jit::IValue> inputs;
+  inputs.push_back(torch::randn({4, 8}));
+  inputs.push_back(torch::randn({8, 5}));
+
+  torch::Tensor output = module->forward(std::move(inputs)).toTensor();
+
+  std::cout << output << std::endl;
+}
+
+```
+
+以及一个小的`CMakeLists.txt`文件：
+
+```py
+cmake_minimum_required(VERSION 3.1 FATAL_ERROR)
+project(example_app)
+
+find_package(Torch REQUIRED)
+
+add_executable(example_app main.cpp)
+target_link_libraries(example_app "${TORCH_LIBRARIES}")
+target_compile_features(example_app PRIVATE cxx_range_for)
+
+```
+
+在这一点上，我们应该能够构建应用：
+
+并在尚未通过模型的情况下运行它：
+
+接下来，让我们序列化我们之前编写的使用自定义运算符的脚本函数：
+
+```py
+torch.ops.load_library("libwarp_perspective.so")
+
+@torch.jit.script
+def compute(x, y):
+  if bool(x[0][0] == 42):
+      z = 5
+  else:
+      z = 10
+  x = torch.ops.my_ops.warp_perspective(x, torch.eye(3))
+  return x.matmul(y) + z
+
+compute.save("example.pt")
+
+```
+
+最后一行将脚本函数序列化为一个名为`example.pt`的文件。 如果我们随后将此序列化模型传递给 C++ 应用，则可以立即运行它：
+
+或者可能不是。 也许还没有。 当然！ 我们尚未将自定义运算符库与我们的应用链接。 让我们立即执行此操作，并正确进行操作，让我们稍微更新一下文件组织，如下所示：
+
+```py
+example_app/
+  CMakeLists.txt
+  main.cpp
+  warp_perspective/
+    CMakeLists.txt
+    op.cpp
+
+```
+
+这将允许我们将`warp_perspective`库 CMake 目标添加为应用目标的子目录。 `example_app`文件夹中的顶级`CMakeLists.txt`应该如下所示：
+
+```py
+cmake_minimum_required(VERSION 3.1 FATAL_ERROR)
+project(example_app)
+
+find_package(Torch REQUIRED)
+
+add_subdirectory(warp_perspective)
+
+add_executable(example_app main.cpp)
+target_link_libraries(example_app "${TORCH_LIBRARIES}")
+target_link_libraries(example_app -Wl,--no-as-needed warp_perspective)
+target_compile_features(example_app PRIVATE cxx_range_for)
+
+```
+
+基本的 CMake 配置与以前非常相似，只是我们将`warp_perspective` CMake 构建添加为子目录。 一旦其 CMake 代码运行，我们将`example_app`应用与`warp_perspective`共享库链接。
+
+注意
+
+上面的示例中嵌入了一个关键细节：`warp_perspective`链接行的`-Wl,--no-as-needed`前缀。 这是必需的，因为我们实际上不会在应用代码中从`warp_perspective`共享库中调用任何函数。 我们只需要运行`TORCH_LIBRARY`函数。 麻烦的是，这使链接器感到困惑，并使其认为可以完全跳过与库的链接。 在 Linux 上，`-Wl,--no-as-needed`标志会强制链接发生（注意：此标志特定于 Linux！）。 还有其他解决方法。 最简单的方法是在运算符库中定义*一些函数*，您需要从主应用中调用该函数。 这可能就像在某个标头中声明的函数`void init();`一样简单，然后在运算符库中将其定义为`void init() { }`。 在主应用中调用此`init()`函数会给链接器以印象，这是一个值得链接的库。 不幸的是，这超出了我们的控制范围，我们宁愿让您知道其原因和简单的解决方法，而不是让您将一些不透明的宏放入代码中。
+
+现在，由于我们现在在顶层找到了`Torch`包，因此`warp_perspective`子目录中的`CMakeLists.txt`文件可以缩短一些。 它看起来应该像这样：
+
+```py
+find_package(OpenCV REQUIRED)
+add_library(warp_perspective SHARED op.cpp)
+target_compile_features(warp_perspective PRIVATE cxx_range_for)
+target_link_libraries(warp_perspective PRIVATE "${TORCH_LIBRARIES}")
+target_link_libraries(warp_perspective PRIVATE opencv_core opencv_photo)
+
+```
+
+让我们重新构建示例应用，该应用还将与自定义运算符库链接。 在顶层`example_app`目录中：
+
+```py
+$ mkdir build
+$ cd build
+$ cmake -DCMAKE_PREFIX_PATH="$(python -c 'import torch.utils; print(torch.utils.cmake_prefix_path)')" ..
+-- The C compiler identification is GNU 5.4.0
+-- The CXX compiler identification is GNU 5.4.0
+-- Check for working C compiler: /usr/bin/cc
+-- Check for working C compiler: /usr/bin/cc -- works
+-- Detecting C compiler ABI info
+-- Detecting C compiler ABI info - done
+-- Detecting C compile features
+-- Detecting C compile features - done
+-- Check for working CXX compiler: /usr/bin/c++
+-- Check for working CXX compiler: /usr/bin/c++ -- works
+-- Detecting CXX compiler ABI info
+-- Detecting CXX compiler ABI info - done
+-- Detecting CXX compile features
+-- Detecting CXX compile features - done
+-- Looking for pthread.h
+-- Looking for pthread.h - found
+-- Looking for pthread_create
+-- Looking for pthread_create - not found
+-- Looking for pthread_create in pthreads
+-- Looking for pthread_create in pthreads - not found
+-- Looking for pthread_create in pthread
+-- Looking for pthread_create in pthread - found
+-- Found Threads: TRUE
+-- Found torch: /libtorch/lib/libtorch.so
+-- Configuring done
+-- Generating done
+-- Build files have been written to: /warp_perspective/example_app/build
+$ make -j
+Scanning dependencies of target warp_perspective
+[ 25%] Building CXX object warp_perspective/CMakeFiles/warp_perspective.dir/op.cpp.o
+[ 50%] Linking CXX shared library libwarp_perspective.so
+[ 50%] Built target warp_perspective
+Scanning dependencies of target example_app
+[ 75%] Building CXX object CMakeFiles/example_app.dir/main.cpp.o
+[100%] Linking CXX executable example_app
+[100%] Built target example_app
+
+```
+
+如果现在运行`example_app`二进制文件并将其交给序列化模型，我们应该得出一个圆满的结局：
+
+```py
+$ ./example_app example.pt
+11.4125   5.8262   9.5345   8.6111  12.3997
+ 7.4683  13.5969   9.0850  11.0698   9.4008
+ 7.4597  15.0926  12.5727   8.9319   9.0666
+ 9.4834  11.1747   9.0162  10.9521   8.6269
+10.0000  10.0000  10.0000  10.0000  10.0000
+10.0000  10.0000  10.0000  10.0000  10.0000
+10.0000  10.0000  10.0000  10.0000  10.0000
+10.0000  10.0000  10.0000  10.0000  10.0000
+[ Variable[CPUFloatType]{8,5} ]
+
+```
+
+成功！ 您现在可以推断了。
+
+## 总结
+
+本教程向您介绍了如何在 C++ 中实现自定义 TorchScript 运算符，如何将其构建到共享库中，如何在 Python 中使用它来定义 TorchScript 模型以及如何将其加载到 C++ 应用中以进行推理工作负载。 现在，您可以使用与第三方 C++ 库进行接口的 C++ 运算符扩展 TorchScript 模型，编写自定义的高性能 CUDA 内核，或实现任何其他需要 Python，TorchScript 和 C++ 之间的界线才能平稳融合的用例。
+
+与往常一样，如果您遇到任何问题或疑问，可以使用我们的[论坛](https://discuss.pytorch.org/)或 [GitHub ISSUE](https://github.com/pytorch/pytorch/issues) 进行联系。 另外，我们的[常见问题解答（FAQ）页面](https://pytorch.org/cppdocs/notes/faq.html)可能包含有用的信息。
+
+## 附录 A：建立自定义运算符的更多方法
+
+“构建自定义运算符”一节介绍了如何使用 CMake 将自定义运算符构建到共享库中。 本附录概述了两种进一步的编译方法。 他们俩都使用 Python 作为编译过程的“驱动程序”或“接口”。 此外，两者都重用了[现有基础结构](https://pytorch.org/docs/stable/cpp_extension.html)。 PyTorch 提供了 [C++ 扩展](https://pytorch.org/tutorials/advanced/cpp_extension.html)，它们依赖于[`pybind11`](https://github.com/pybind/pybind11)用于将函数从 C++ “显式”绑定到 Python。
+
+第一种方法是使用 C++ 扩展程序的[方便的即时（JIT）编译接口](https://pytorch.org/docs/stable/cpp_extension.html#torch.utils.cpp_extension.load)在您首次运行 PyTorch 脚本时在后台编译代码。 第二种方法依赖于古老的`setuptools`包，并涉及编写单独的`setup.py`文件。 这样可以进行更高级的配置，并与其他基于`setuptools`的项目集成。 我们将在下面详细探讨这两种方法。
+
+### 使用 JIT 编译的构建
+
+PyTorch C++ 扩展工具包提供的 JIT 编译功能可将自定义运算符的编译直接嵌入到您的 Python 代码中，例如在训练脚本的顶部。
+
+注意
+
+这里的“ JIT 编译”与 TorchScript 编译器中用于优化程序的 JIT 编译无关。 这只是意味着您的自定义运算符 C++ 代码将在您首次导入时在系统`/tmp`目录下的文件夹中编译，就像您自己事先对其进行编译一样。
+
+此 JIT 编译功能有两种形式。 首先，您仍然将运算符实现保留在单独的文件（`op.cpp`）中，然后使用`torch.utils.cpp_extension.load()`编译扩展名。 通常，此函数将返回暴露您的 C++ 扩展的 Python 模块。 但是，由于我们没有将自定义运算符编译到其自己的 Python 模块中，因此我们只想编译一个普通的共享库。 幸运的是，`torch.utils.cpp_extension.load()`有一个参数`is_python_module`，可以将其设置为`False`，以表明我们仅对构建共享库感兴趣，而对 Python 模块不感兴趣。 然后`torch.utils.cpp_extension.load()`将会编译并将共享库也加载到当前进程中，就像`torch.ops.load_library`之前所做的那样：
+
+```py
+import torch.utils.cpp_extension
+
+torch.utils.cpp_extension.load(
+    name="warp_perspective",
+    sources=["op.cpp"],
+    extra_ldflags=["-lopencv_core", "-lopencv_imgproc"],
+    is_python_module=False,
+    verbose=True
+)
+
+print(torch.ops.my_ops.warp_perspective)
+
+```
+
+这应该大致打印：
+
+```py
+<built-in method my_ops::warp_perspective of PyCapsule object at 0x7f3e0f840b10>
+
+```
+
+JIT 编译的第二种形式使您可以将自定义 TorchScript 运算符的源代码作为字符串传递。 为此，请使用`torch.utils.cpp_extension.load_inline`：
+
+```py
+import torch
+import torch.utils.cpp_extension
+
+op_source = """
+#include <opencv2/opencv.hpp>
+#include <torch/script.h>
+
+torch::Tensor warp_perspective(torch::Tensor image, torch::Tensor warp) {
+  cv::Mat image_mat(/*rows=*/image.size(0),
+                    /*cols=*/image.size(1),
+                    /*type=*/CV_32FC1,
+                    /*data=*/image.data<float>());
+  cv::Mat warp_mat(/*rows=*/warp.size(0),
+                   /*cols=*/warp.size(1),
+                   /*type=*/CV_32FC1,
+                   /*data=*/warp.data<float>());
+
+  cv::Mat output_mat;
+  cv::warpPerspective(image_mat, output_mat, warp_mat, /*dsize=*/{64, 64});
+
+  torch::Tensor output =
+    torch::from_blob(output_mat.ptr<float>(), /*sizes=*/{64, 64});
+  return output.clone();
+}
+
+TORCH_LIBRARY(my_ops, m) {
+  m.def("warp_perspective", &warp_perspective);
+}
+"""
+
+torch.utils.cpp_extension.load_inline(
+    name="warp_perspective",
+    cpp_sources=op_source,
+    extra_ldflags=["-lopencv_core", "-lopencv_imgproc"],
+    is_python_module=False,
+    verbose=True,
+)
+
+print(torch.ops.my_ops.warp_perspective)
+
+```
+
+自然，最佳实践是仅在源代码相当短的情况下才使用`torch.utils.cpp_extension.load_inline`。
+
+请注意，如果您在 Jupyter 笔记本中使用此功能，则不应多次执行单元格的注册，因为每次执行都会注册一个新库并重新注册自定义运算符。 如果需要重新执行它，请事先重新启动笔记本的 Python 内核。
+
+### 使用`setuptools`构建
+
+从 Python 专门构建自定义运算符的第二种方法是使用`setuptools`。 这样做的好处是`setuptools`具有相当强大而广泛的接口，可以用来构建用 C++ 编写的 Python 模块。 但是，由于`setuptools`实际上是用于构建 Python 模块而不是普通的共享库（它们没有 Python 期望从模块中获得的必要入口点），因此这种方法可能有点古怪。 也就是说，您需要的是一个`setup.py`文件来代替`CMakeLists.txt`，该文件看起来像这样：
+
+```py
+from setuptools import setup
+from torch.utils.cpp_extension import BuildExtension, CppExtension
+
+setup(
+    name="warp_perspective",
+    ext_modules=[
+        CppExtension(
+            "warp_perspective",
+            ["example_app/warp_perspective/op.cpp"],
+            libraries=["opencv_core", "opencv_imgproc"],
+        )
+    ],
+    cmdclass={"build_ext": BuildExtension.with_options(no_python_abi_suffix=True)},
+)
+
+```
+
+请注意，我们在底部的`BuildExtension`中启用了`no_python_abi_suffix`选项。 这指示`setuptools`在产生的共享库的名称中省略任何特定于 Python-3 的 ABI 后缀。 否则，例如在 Python 3.7 上，该库可能被称为`warp_perspective.cpython-37m-x86_64-linux-gnu.so`，其中`cpython-37m-x86_64-linux-gnu`是 ABI 标签，但我们确实只是希望将其称为`warp_perspective.so`
+
+如果现在从`setup.py`所在的文件夹中的终端中运行`python setup.py build develop`，我们应该会看到类似以下内容的内容：
+
+```py
+$ python setup.py build develop
+running build
+running build_ext
+building 'warp_perspective' extension
+creating build
+creating build/temp.linux-x86_64-3.7
+gcc -pthread -B /root/local/miniconda/compiler_compat -Wl,--sysroot=/ -Wsign-compare -DNDEBUG -g -fwrapv -O3 -Wall -Wstrict-prototypes -fPIC -I/root/local/miniconda/lib/python3.7/site-packages/torch/lib/include -I/root/local/miniconda/lib/python3.7/site-packages/torch/lib/include/torch/csrc/api/include -I/root/local/miniconda/lib/python3.7/site-packages/torch/lib/include/TH -I/root/local/miniconda/lib/python3.7/site-packages/torch/lib/include/THC -I/root/local/miniconda/include/python3.7m -c op.cpp -o build/temp.linux-x86_64-3.7/op.o -DTORCH_API_INCLUDE_EXTENSION_H -DTORCH_EXTENSION_NAME=warp_perspective -D_GLIBCXX_USE_CXX11_ABI=0 -std=c++11
+cc1plus: warning: command line option '-Wstrict-prototypes' is valid for C/ObjC but not for C++
+creating build/lib.linux-x86_64-3.7
+g++ -pthread -shared -B /root/local/miniconda/compiler_compat -L/root/local/miniconda/lib -Wl,-rpath=/root/local/miniconda/lib -Wl,--no-as-needed -Wl,--sysroot=/ build/temp.linux-x86_64-3.7/op.o -lopencv_core -lopencv_imgproc -o build/lib.linux-x86_64-3.7/warp_perspective.so
+running develop
+running egg_info
+creating warp_perspective.egg-info
+writing warp_perspective.egg-info/PKG-INFO
+writing dependency_links to warp_perspective.egg-info/dependency_links.txt
+writing top-level names to warp_perspective.egg-info/top_level.txt
+writing manifest file 'warp_perspective.egg-info/SOURCES.txt'
+reading manifest file 'warp_perspective.egg-info/SOURCES.txt'
+writing manifest file 'warp_perspective.egg-info/SOURCES.txt'
+running build_ext
+copying build/lib.linux-x86_64-3.7/warp_perspective.so ->
+Creating /root/local/miniconda/lib/python3.7/site-packages/warp-perspective.egg-link (link to .)
+Adding warp-perspective 0.0.0 to easy-install.pth file
+
+Installed /warp_perspective
+Processing dependencies for warp-perspective==0.0.0
+Finished processing dependencies for warp-perspective==0.0.0
+
+```
+
+这将产生一个名为`warp_perspective.so`的共享库，我们可以像之前那样将其传递给`torch.ops.load_library`，以使我们的运算符对 TorchScript 可见：
+
+```py
+>>> import torch
+>>> torch.ops.load_library("warp_perspective.so")
+>>> print(torch.ops.custom.warp_perspective)
+<built-in method custom::warp_perspective of PyCapsule object at 0x7ff51c5b7bd0>
+
+```
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/47.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/47.md
new file mode 100644
index 00000000..42fc08a2
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/47.md
@@ -0,0 +1,529 @@
+# 使用自定义 C++ 类扩展 TorchScript
+
+> 原文：<https://pytorch.org/tutorials/advanced/torch_script_custom_classes.html>
+
+本教程是[自定义运算符](torch_script_custom_ops.html)教程的后续教程，并介绍了我们为将 C++ 类同时绑定到 TorchScript 和 Python 而构建的 API。 该 API 与[`pybind11`](https://github.com/pybind/pybind11)非常相似，如果您熟悉该系统，则大多数概念都将转移过来。
+
+## 用 C++ 实现和绑定类
+
+在本教程中，我们将定义一个简单的 C++ 类，该类在成员变量中保持持久状态。
+
+```py
+// This header is all you need to do the C++ portions of this
+// tutorial
+#include <torch/script.h>
+// This header is what defines the custom class registration
+// behavior specifically. script.h already includes this, but
+// we include it here so you know it exists in case you want
+// to look at the API or implementation.
+#include <torch/custom_class.h>
+
+#include <string>
+#include <vector>
+
+template <class T>
+struct MyStackClass : torch::CustomClassHolder {
+  std::vector<T> stack_;
+  MyStackClass(std::vector<T> init) : stack_(init.begin(), init.end()) {}
+
+  void push(T x) {
+    stack_.push_back(x);
+  }
+  T pop() {
+    auto val = stack_.back();
+    stack_.pop_back();
+    return val;
+  }
+
+  c10::intrusive_ptr<MyStackClass> clone() const {
+    return c10::make_intrusive<MyStackClass>(stack_);
+  }
+
+  void merge(const c10::intrusive_ptr<MyStackClass>& c) {
+    for (auto& elem : c->stack_) {
+      push(elem);
+    }
+  }
+};
+
+```
+
+有几件事要注意：
+
+*   `torch/custom_class.h`是您需要使用自定义类扩展 TorchScript 的标头。
+*   注意，无论何时使用自定义类的实例，我们都通过`c10::intrusive_ptr<>`的实例来实现。 可以将`intrusive_ptr`视为类似于`std::shared_ptr`的智能指针，但是引用计数直接存储在对象中，而不是单独的元数据块（如`std::shared_ptr`中所做的。`torch::Tensor`内部使用相同的指针类型 ;和自定义类也必须使用此指针类型，以便我们可以一致地管理不同的对象类型。
+*   注意的第二件事是用户定义的类必须继承`torch::CustomClassHolder`。 这样可以确保自定义类具有存储引用计数的空间。
+
+现在让我们看一下如何使该类对 TorchScript 可见，该过程称为*绑定*该类：
+
+```py
+// Notice a few things:
+// - We pass the class to be registered as a template parameter to
+//   `torch::class_`. In this instance, we've passed the
+//   specialization of the MyStackClass class ``MyStackClass<std::string>``.
+//   In general, you cannot register a non-specialized template
+//   class. For non-templated classes, you can just pass the
+//   class name directly as the template parameter.
+// - The arguments passed to the constructor make up the "qualified name"
+//   of the class. In this case, the registered class will appear in
+//   Python and C++ as `torch.classes.my_classes.MyStackClass`. We call
+//   the first argument the "namespace" and the second argument the
+//   actual class name.
+TORCH_LIBRARY(my_classes, m) {
+  m.class_<MyStackClass<std::string>>("MyStackClass")
+    // The following line registers the contructor of our MyStackClass
+    // class that takes a single `std::vector<std::string>` argument,
+    // i.e. it exposes the C++ method `MyStackClass(std::vector<T> init)`.
+    // Currently, we do not support registering overloaded
+    // constructors, so for now you can only `def()` one instance of
+    // `torch::init`.
+    .def(torch::init<std::vector<std::string>>())
+    // The next line registers a stateless (i.e. no captures) C++ lambda
+    // function as a method. Note that a lambda function must take a
+    // `c10::intrusive_ptr<YourClass>` (or some const/ref version of that)
+    // as the first argument. Other arguments can be whatever you want.
+    .def("top", [](const c10::intrusive_ptr<MyStackClass<std::string>>& self) {
+      return self->stack_.back();
+    })
+    // The following four lines expose methods of the MyStackClass<std::string>
+    // class as-is. `torch::class_` will automatically examine the
+    // argument and return types of the passed-in method pointers and
+    // expose these to Python and TorchScript accordingly. Finally, notice
+    // that we must take the *address* of the fully-qualified method name,
+    // i.e. use the unary `&` operator, due to C++ typing rules.
+    .def("push", &MyStackClass<std::string>::push)
+    .def("pop", &MyStackClass<std::string>::pop)
+    .def("clone", &MyStackClass<std::string>::clone)
+    .def("merge", &MyStackClass<std::string>::merge)
+  ;
+}
+
+```
+
+## 使用 CMake 将示例构建为 C++ 项目
+
+现在，我们将使用 [CMake](https://cmake.org) 构建系统来构建上述 C++ 代码。 首先，将到目前为止介绍的所有 C++ 代码放入`class.cpp`文件中。 然后，编写一个简单的`CMakeLists.txt`文件并将其放在同一目录中。 `CMakeLists.txt`应该是这样的：
+
+```py
+cmake_minimum_required(VERSION 3.1 FATAL_ERROR)
+project(custom_class)
+
+find_package(Torch REQUIRED)
+
+# Define our library target
+add_library(custom_class SHARED class.cpp)
+set(CMAKE_CXX_STANDARD 14)
+# Link against LibTorch
+target_link_libraries(custom_class "${TORCH_LIBRARIES}")
+
+```
+
+另外，创建一个`build`目录。 您的文件树应如下所示：
+
+```py
+custom_class_project/
+  class.cpp
+  CMakeLists.txt
+  build/
+
+```
+
+我们假设您已经按照[上一教程](torch_script_custom_ops.html)中所述的相同方式设置了环境。 继续并调用`cmake`，然后进行构建项目：
+
+```py
+$ cd build
+$ cmake -DCMAKE_PREFIX_PATH="$(python -c 'import torch.utils; print(torch.utils.cmake_prefix_path)')" ..
+  -- The C compiler identification is GNU 7.3.1
+  -- The CXX compiler identification is GNU 7.3.1
+  -- Check for working C compiler: /opt/rh/devtoolset-7/root/usr/bin/cc
+  -- Check for working C compiler: /opt/rh/devtoolset-7/root/usr/bin/cc -- works
+  -- Detecting C compiler ABI info
+  -- Detecting C compiler ABI info - done
+  -- Detecting C compile features
+  -- Detecting C compile features - done
+  -- Check for working CXX compiler: /opt/rh/devtoolset-7/root/usr/bin/c++
+  -- Check for working CXX compiler: /opt/rh/devtoolset-7/root/usr/bin/c++ -- works
+  -- Detecting CXX compiler ABI info
+  -- Detecting CXX compiler ABI info - done
+  -- Detecting CXX compile features
+  -- Detecting CXX compile features - done
+  -- Looking for pthread.h
+  -- Looking for pthread.h - found
+  -- Looking for pthread_create
+  -- Looking for pthread_create - not found
+  -- Looking for pthread_create in pthreads
+  -- Looking for pthread_create in pthreads - not found
+  -- Looking for pthread_create in pthread
+  -- Looking for pthread_create in pthread - found
+  -- Found Threads: TRUE
+  -- Found torch: /torchbind_tutorial/libtorch/lib/libtorch.so
+  -- Configuring done
+  -- Generating done
+  -- Build files have been written to: /torchbind_tutorial/build
+$ make -j
+  Scanning dependencies of target custom_class
+  [ 50%] Building CXX object CMakeFiles/custom_class.dir/class.cpp.o
+  [100%] Linking CXX shared library libcustom_class.so
+  [100%] Built target custom_class
+
+```
+
+您会发现，构建目录中现在有一个动态库文件。 在 Linux 上，它可能名为`libcustom_class.so`。 因此，文件树应如下所示：
+
+```py
+custom_class_project/
+  class.cpp
+  CMakeLists.txt
+  build/
+    libcustom_class.so
+
+```
+
+## 从 Python 和 TorchScript 使用 C++ 类
+
+现在我们已经将我们的类及其注册编译为`.so`文件，我们可以将`.so`加载到 Python 中并进行尝试。 这是一个演示脚本的脚本：
+
+```py
+import torch
+
+# `torch.classes.load_library()` allows you to pass the path to your .so file
+# to load it in and make the custom C++ classes available to both Python and
+# TorchScript
+torch.classes.load_library("build/libcustom_class.so")
+# You can query the loaded libraries like this:
+print(torch.classes.loaded_libraries)
+# prints {'/custom_class_project/build/libcustom_class.so'}
+
+# We can find and instantiate our custom C++ class in python by using the
+# `torch.classes` namespace:
+#
+# This instantiation will invoke the MyStackClass(std::vector<T> init)
+# constructor we registered earlier
+s = torch.classes.my_classes.MyStackClass(["foo", "bar"])
+
+# We can call methods in Python
+s.push("pushed")
+assert s.pop() == "pushed"
+
+# Returning and passing instances of custom classes works as you'd expect
+s2 = s.clone()
+s.merge(s2)
+for expected in ["bar", "foo", "bar", "foo"]:
+    assert s.pop() == expected
+
+# We can also use the class in TorchScript
+# For now, we need to assign the class's type to a local in order to
+# annotate the type on the TorchScript function. This may change
+# in the future.
+MyStackClass = torch.classes.my_classes.MyStackClass
+
+@torch.jit.script
+def do_stacks(s: MyStackClass):  # We can pass a custom class instance
+    # We can instantiate the class
+    s2 = torch.classes.my_classes.MyStackClass(["hi", "mom"])
+    s2.merge(s)  # We can call a method on the class
+    # We can also return instances of the class
+    # from TorchScript function/methods
+    return s2.clone(), s2.top()
+
+stack, top = do_stacks(torch.classes.my_classes.MyStackClass(["wow"]))
+assert top == "wow"
+for expected in ["wow", "mom", "hi"]:
+    assert stack.pop() == expected
+
+```
+
+## 使用自定义类保存，加载和运行 TorchScript 代码
+
+我们还可以在使用 libtorch 的 C++ 进程中使用自定义注册的 C++ 类。 举例来说，让我们定义一个简单的`nn.Module`，它实例化并调用`MyStackClass`类上的方法：
+
+```py
+import torch
+
+torch.classes.load_library('build/libcustom_class.so')
+
+class Foo(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+
+    def forward(self, s: str) -> str:
+        stack = torch.classes.my_classes.MyStackClass(["hi", "mom"])
+        return stack.pop() + s
+
+scripted_foo = torch.jit.script(Foo())
+print(scripted_foo.graph)
+
+scripted_foo.save('foo.pt')
+
+```
+
+我们文件系统中的`foo.pt`现在包含我们刚刚定义的序列化 TorchScript 程序。
+
+现在，我们将定义一个新的 CMake 项目，以展示如何加载此模型及其所需的`.so`文件。 有关如何执行此操作的完整说明，请查看[在 C++ 中加载 TorchScript 模型](https://pytorch.org/tutorials/advanced/cpp_export.html)的教程。
+
+与之前类似，让我们创建一个包含以下内容的文件结构：
+
+```py
+cpp_inference_example/
+  infer.cpp
+  CMakeLists.txt
+  foo.pt
+  build/
+  custom_class_project/
+    class.cpp
+    CMakeLists.txt
+    build/
+
+```
+
+请注意，我们已经复制了序列化的`foo.pt`文件以及上面`custom_class_project`的源代码树。 我们将把`custom_class_project`作为依赖项添加到此 C++ 项目中，以便可以将自定义类构建到二进制文件中。
+
+让我们用以下内容填充`infer.cpp`：
+
+```py
+#include <torch/script.h>
+
+#include <iostream>
+#include <memory>
+
+int main(int argc, const char* argv[]) {
+  torch::jit::Module module;
+  try {
+    // Deserialize the ScriptModule from a file using torch::jit::load().
+    module = torch::jit::load("foo.pt");
+  }
+  catch (const c10::Error& e) {
+    std::cerr << "error loading the model\n";
+    return -1;
+  }
+
+  std::vector<c10::IValue> inputs = {"foobarbaz"};
+  auto output = module.forward(inputs).toString();
+  std::cout << output->string() << std::endl;
+}
+
+```
+
+同样，让我们​​定义`CMakeLists.txt`文件：
+
+```py
+cmake_minimum_required(VERSION 3.1 FATAL_ERROR)
+project(infer)
+
+find_package(Torch REQUIRED)
+
+add_subdirectory(custom_class_project)
+
+# Define our library target
+add_executable(infer infer.cpp)
+set(CMAKE_CXX_STANDARD 14)
+# Link against LibTorch
+target_link_libraries(infer "${TORCH_LIBRARIES}")
+# This is where we link in our libcustom_class code, making our
+# custom class available in our binary.
+target_link_libraries(infer -Wl,--no-as-needed custom_class)
+
+```
+
+您知道练习：`cd build`，`cmake`和`make`：
+
+```py
+$ cd build
+$ cmake -DCMAKE_PREFIX_PATH="$(python -c 'import torch.utils; print(torch.utils.cmake_prefix_path)')" ..
+  -- The C compiler identification is GNU 7.3.1
+  -- The CXX compiler identification is GNU 7.3.1
+  -- Check for working C compiler: /opt/rh/devtoolset-7/root/usr/bin/cc
+  -- Check for working C compiler: /opt/rh/devtoolset-7/root/usr/bin/cc -- works
+  -- Detecting C compiler ABI info
+  -- Detecting C compiler ABI info - done
+  -- Detecting C compile features
+  -- Detecting C compile features - done
+  -- Check for working CXX compiler: /opt/rh/devtoolset-7/root/usr/bin/c++
+  -- Check for working CXX compiler: /opt/rh/devtoolset-7/root/usr/bin/c++ -- works
+  -- Detecting CXX compiler ABI info
+  -- Detecting CXX compiler ABI info - done
+  -- Detecting CXX compile features
+  -- Detecting CXX compile features - done
+  -- Looking for pthread.h
+  -- Looking for pthread.h - found
+  -- Looking for pthread_create
+  -- Looking for pthread_create - not found
+  -- Looking for pthread_create in pthreads
+  -- Looking for pthread_create in pthreads - not found
+  -- Looking for pthread_create in pthread
+  -- Looking for pthread_create in pthread - found
+  -- Found Threads: TRUE
+  -- Found torch: /local/miniconda3/lib/python3.7/site-packages/torch/lib/libtorch.so
+  -- Configuring done
+  -- Generating done
+  -- Build files have been written to: /cpp_inference_example/build
+$ make -j
+  Scanning dependencies of target custom_class
+  [ 25%] Building CXX object custom_class_project/CMakeFiles/custom_class.dir/class.cpp.o
+  [ 50%] Linking CXX shared library libcustom_class.so
+  [ 50%] Built target custom_class
+  Scanning dependencies of target infer
+  [ 75%] Building CXX object CMakeFiles/infer.dir/infer.cpp.o
+  [100%] Linking CXX executable infer
+  [100%] Built target infer
+
+```
+
+现在我们可以运行令人兴奋的 C++ 二进制文件：
+
+```py
+$ ./infer
+  momfoobarbaz
+
+```
+
+难以置信！
+
+## 将自定义类移入或移出`IValue`
+
+也可能需要将自定义类从自定义 C++ 类实例移入或移出`IValue`, such as when you take or return IValues from TorchScript methods or you want to instantiate a custom class attribute in C++. For creating an IValue：
+
+*   `torch::make_custom_class<T>()`提供类似于`c10::intrusive_ptr<T>`的 API，因为它将采用您提供给它的任何参数集，调用与该参数集匹配的`T`的构造器，并包装该实例，然后返回。 但是，它不仅返回指向自定义类对象的指针，还返回包装对象的`IValue`。 然后，您可以将此`IValue`直接传递给 TorchScript。
+*   如果您已经有一个指向类的`intrusive_ptr`，则可以使用构造器`IValue(intrusive_ptr<T>)`直接从其构造`IValue`。
+
+要将`IValue`转换回自定义类：
+
+*   `IValue::toCustomClass<T>()`将返回一个`intrusive_ptr<T>`，指向`IValue`包含的自定义类。 在内部，此函数正在检查`T`是否已注册为自定义类，并且`IValue`实际上确实包含一个自定义类。 您可以通过调用`isCustomClass()`来手动检查`IValue`是否包含自定义类。
+
+## 为自定义 C++ 类定义序列化/反序列化方法
+
+如果您尝试将具有自定义绑定 C++ 类的`ScriptModule`保存为属性，则会出现以下错误：
+
+```py
+# export_attr.py
+import torch
+
+torch.classes.load_library('build/libcustom_class.so')
+
+class Foo(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.stack = torch.classes.my_classes.MyStackClass(["just", "testing"])
+
+    def forward(self, s: str) -> str:
+        return self.stack.pop() + s
+
+scripted_foo = torch.jit.script(Foo())
+
+scripted_foo.save('foo.pt')
+loaded = torch.jit.load('foo.pt')
+
+print(loaded.stack.pop())
+
+```
+
+```py
+$ python export_attr.py
+RuntimeError: Cannot serialize custom bound C++ class __torch__.torch.classes.my_classes.MyStackClass. Please define serialization methods via def_pickle for this class. (pushIValueImpl at ../torch/csrc/jit/pickler.cpp:128)
+
+```
+
+这是因为 TorchScript 无法自动找出 C++ 类中保存的信息。 您必须手动指定。 这样做的方法是使用`class_`上的特殊`def_pickle`方法在类上定义`__getstate__`和`__setstate__`方法。
+
+注意
+
+TorchScript 中`__getstate__`和`__setstate__`的语义与 Python `pickle`模块的语义相同。 您可以[阅读更多](https://github.com/pytorch/pytorch/blob/master/torch/csrc/jit/docs/serialization.md#getstate-and-setstate)有关如何使用这些方法的信息。
+
+这是`def_pickle`调用的示例，我们可以将其添加到`MyStackClass`的注册中以包括序列化方法：
+
+```py
+    // class_<>::def_pickle allows you to define the serialization
+    // and deserialization methods for your C++ class.
+    // Currently, we only support passing stateless lambda functions
+    // as arguments to def_pickle
+    .def_pickle(
+          // __getstate__
+          // This function defines what data structure should be produced
+          // when we serialize an instance of this class. The function
+          // must take a single `self` argument, which is an intrusive_ptr
+          // to the instance of the object. The function can return
+          // any type that is supported as a return value of the TorchScript
+          // custom operator API. In this instance, we've chosen to return
+          // a std::vector<std::string> as the salient data to preserve
+          // from the class.
+          [](const c10::intrusive_ptr<MyStackClass<std::string>>& self)
+              -> std::vector<std::string> {
+            return self->stack_;
+          },
+          // __setstate__
+          // This function defines how to create a new instance of the C++
+          // class when we are deserializing. The function must take a
+          // single argument of the same type as the return value of
+          // `__getstate__`. The function must return an intrusive_ptr
+          // to a new instance of the C++ class, initialized however
+          // you would like given the serialized state.
+          [](std::vector<std::string> state)
+              -> c10::intrusive_ptr<MyStackClass<std::string>> {
+            // A convenient way to instantiate an object and get an
+            // intrusive_ptr to it is via `make_intrusive`. We use
+            // that here to allocate an instance of MyStackClass<std::string>
+            // and call the single-argument std::vector<std::string>
+            // constructor with the serialized state.
+            return c10::make_intrusive<MyStackClass<std::string>>(std::move(state));
+          });
+
+```
+
+注意
+
+我们在 Pickle API 中采用与`pybind11`不同的方法。`pybind11`作为传递给`class_::def()`的特殊函数`pybind11::pickle()`，为此我们有一个单独的方法`def_pickle`。 这是因为`torch::jit::pickle`这个名称已经被使用了，我们不想引起混淆。
+
+以这种方式定义（反）序列化行为后，脚本现在可以成功运行：
+
+```py
+$ python ../export_attr.py
+testing
+
+```
+
+## 定义接受或返回绑定 C++ 类的自定义运算符
+
+定义自定义 C++ 类后，您还可以将该类用作自变量或从自定义运算符返回（即自由函数）。 假设您具有以下自由函数：
+
+```py
+c10::intrusive_ptr<MyStackClass<std::string>> manipulate_instance(const c10::intrusive_ptr<MyStackClass<std::string>>& instance) {
+  instance->pop();
+  return instance;
+}
+
+```
+
+您可以在`TORCH_LIBRARY`块中运行以下代码来注册它：
+
+```py
+    m.def(
+      "foo::manipulate_instance(__torch__.torch.classes.my_classes.MyStackClass x) -> __torch__.torch.classes.my_classes.MyStackClass Y",
+      manipulate_instance
+    );
+
+```
+
+有关注册 API 的更多详细信息，请参见[自定义操作教程](https://pytorch.org/tutorials/advanced/torch_script_custom_ops.html)。
+
+完成此操作后，您可以像以下示例一样使用操作：
+
+```py
+class TryCustomOp(torch.nn.Module):
+    def __init__(self):
+        super(TryCustomOp, self).__init__()
+        self.f = torch.classes.my_classes.MyStackClass(["foo", "bar"])
+
+    def forward(self):
+        return torch.ops.foo.manipulate_instance(self.f)
+
+```
+
+注意
+
+注册使用 C++ 类作为参数的运算符时，要求已注册自定义类。 您可以通过确保自定义类注册和您的自由函数定义在同一`TORCH_LIBRARY`块中，并确保自定义类注册位于第一位来强制实现此操作。 将来，我们可能会放宽此要求，以便可以按任何顺序进行注册。
+
+## 总结
+
+本教程向您介绍了如何向 TorchScript（以及扩展为 Python）公开 C++ 类，如何注册其方法，如何从 Python 和 TorchScript 使用该类以及如何使用该类保存和加载代码以及运行该代码。 在独立的 C++ 过程中。 现在，您可以使用与第三方 C++ 库连接的 C++ 类扩展 TorchScript 模型，或实现需要 Python，TorchScript 和 C++ 之间的界线平滑融合的任何其他用例。
+
+与往常一样，如果您遇到任何问题或疑问，可以使用我们的[论坛](https://discuss.pytorch.org/)或 [GitHub ISSUE](https://github.com/pytorch/pytorch/issues) 进行联系。 另外，我们的[常见问题解答（FAQ）页面](https://pytorch.org/cppdocs/notes/faq.html)可能包含有用的信息。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/48.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/48.md
new file mode 100644
index 00000000..6c9882e5
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/48.md
@@ -0,0 +1,233 @@
+# TorchScript 中的动态并行性
+
+> 原文：<https://pytorch.org/tutorials/advanced/torch-script-parallelism.html>
+
+在本教程中，我们介绍在 TorchScript 中执行*动态互操作并行化*的语法。 此并行性具有以下属性：
+
+*   动态-创建的并行任务的数量及其工作量可能取决于程序的控制流。
+*   互操作-并行性与并行运行 TorchScript 程序片段有关。 这与*运算内部并行化*不同，后者涉及拆分单个运算符并并行运行运算符工作的子集。
+
+## 基本语法
+
+动态并行的两个重要 API 是：
+
+*   `torch.jit.fork(fn : Callable[..., T], *args, **kwargs) -> torch.jit.Future[T]`
+*   `torch.jit.wait(fut : torch.jit.Future[T]) -> T`
+
+通过示例来演示这些工作原理的好方法：
+
+```py
+import torch
+
+def foo(x):
+    return torch.neg(x)
+
+@torch.jit.script
+def example(x):
+    # Call `foo` using parallelism:
+    # First, we "fork" off a task. This task will run `foo` with argument `x`
+    future = torch.jit.fork(foo, x)
+
+    # Call `foo` normally
+    x_normal = foo(x)
+
+    # Second, we "wait" on the task. Since the task may be running in
+    # parallel, we have to "wait" for its result to become available.
+    # Notice that by having lines of code between the "fork()" and "wait()"
+    # call for a given Future, we can overlap computations so that they
+    # run in parallel.
+    x_parallel = torch.jit.wait(future)
+
+    return x_normal, x_parallel
+
+print(example(torch.ones(1))) # (-1., -1.)
+
+```
+
+`fork()`接受可调用`fn`以及该可调用`args`和`kwargs`的参数，并创建异步任务来执行`fn`。 `fn`可以是函数，方法或模块实例。 `fork()`返回对此执行结果的值的引用，称为`Future`。 因为`fork`在创建异步任务后立即返回，所以在执行`fork()`调用之后的代码行时可能尚未执行`fn`。 因此，`wait()`用于等待异步任务完成并返回值。
+
+这些结构可用于重叠函数内语句的执行（如工作示例部分所示），或与其他语言结构（如循环）组合在一起：
+
+```py
+import torch
+from typing import List
+
+def foo(x):
+    return torch.neg(x)
+
+@torch.jit.script
+def example(x):
+    futures : List[torch.jit.Future[torch.Tensor]] = []
+    for _ in range(100):
+        futures.append(torch.jit.fork(foo, x))
+
+    results = []
+    for future in futures:
+        results.append(torch.jit.wait(future))
+
+    return torch.sum(torch.stack(results))
+
+print(example(torch.ones([])))
+
+```
+
+注意
+
+当我们初始化一个空的期货列表时，我们需要在`futures`上添加一个显式类型注解。 在 TorchScript 中，空容器默认假定它们包含张量值，因此我们将列表构造器`#`注解为`List[torch.jit.Future[torch.Tensor]]`类型
+
+本示例使用`fork()`启动函数`foo`的 100 个实例，等待 100 个任务完成，然后对结果求和，返回`-100.0`。
+
+## 应用示例：双向 LSTM 的集成
+
+让我们尝试将并行性应用于一个更现实的示例，看看我们可以从中获得什么样的性能。 首先，让我们定义基准模型：双向 LSTM 层的集合。
+
+```py
+import torch, time
+
+# In RNN parlance, the dimensions we care about are:
+# # of time-steps (T)
+# Batch size (B)
+# Hidden size/number of "channels" (C)
+T, B, C = 50, 50, 1024
+
+# A module that defines a single "bidirectional LSTM". This is simply two
+# LSTMs applied to the same sequence, but one in reverse
+class BidirectionalRecurrentLSTM(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.cell_f = torch.nn.LSTM(input_size=C, hidden_size=C)
+        self.cell_b = torch.nn.LSTM(input_size=C, hidden_size=C)
+
+    def forward(self, x : torch.Tensor) -> torch.Tensor:
+        # Forward layer
+        output_f, _ = self.cell_f(x)
+
+        # Backward layer. Flip input in the time dimension (dim 0), apply the
+        # layer, then flip the outputs in the time dimension
+        x_rev = torch.flip(x, dims=[0])
+        output_b, _ = self.cell_b(torch.flip(x, dims=[0]))
+        output_b_rev = torch.flip(output_b, dims=[0])
+
+        return torch.cat((output_f, output_b_rev), dim=2)
+
+# An "ensemble" of `BidirectionalRecurrentLSTM` modules. The modules in the
+# ensemble are run one-by-one on the same input then their results are
+# stacked and summed together, returning the combined result.
+class LSTMEnsemble(torch.nn.Module):
+    def __init__(self, n_models):
+        super().__init__()
+        self.n_models = n_models
+        self.models = torch.nn.ModuleList([
+            BidirectionalRecurrentLSTM() for _ in range(self.n_models)])
+
+    def forward(self, x : torch.Tensor) -> torch.Tensor:
+        results = []
+        for model in self.models:
+            results.append(model(x))
+        return torch.stack(results).sum(dim=0)
+
+# For a head-to-head comparison to what we're going to do with fork/wait, let's
+# instantiate the model and compile it with TorchScript
+ens = torch.jit.script(LSTMEnsemble(n_models=4))
+
+# Normally you would pull this input out of an embedding table, but for the
+# purpose of this demo let's just use random data.
+x = torch.rand(T, B, C)
+
+# Let's run the model once to warm up things like the memory allocator
+ens(x)
+
+x = torch.rand(T, B, C)
+
+# Let's see how fast it runs!
+s = time.time()
+ens(x)
+print('Inference took', time.time() - s, ' seconds')
+
+```
+
+在我的机器上，该网络运行时间为`2.05`秒。 我们可以做得更好！
+
+## 并行化前向和后向层
+
+我们可以做的一个非常简单的事情是在`BidirectionalRecurrentLSTM`中并行化前进和后退层。 为此，计算结构是静态的，因此我们实际上甚至不需要任何循环。 像这样重写`BidirectionalRecurrentLSTM`的`forward`方法：
+
+```py
+def forward(self, x : torch.Tensor) -> torch.Tensor:
+    # Forward layer - fork() so this can run in parallel to the backward
+    # layer
+    future_f = torch.jit.fork(self.cell_f, x)
+
+    # Backward layer. Flip input in the time dimension (dim 0), apply the
+    # layer, then flip the outputs in the time dimension
+    x_rev = torch.flip(x, dims=[0])
+    output_b, _ = self.cell_b(torch.flip(x, dims=[0]))
+    output_b_rev = torch.flip(output_b, dims=[0])
+
+    # Retrieve the output from the forward layer. Note this needs to happen
+    # *after* the stuff we want to parallelize with
+    output_f, _ = torch.jit.wait(future_f)
+
+    return torch.cat((output_f, output_b_rev), dim=2)
+
+```
+
+在此示例中，`forward()`将`cell_f`的执行委派给另一个线程，而它继续执行`cell_b`。 这导致两个单元的执行彼此重叠。
+
+通过简单的修改再次运行脚本会产生`1.71`秒的运行时间，从而改进了`17%`！
+
+## 旁注：可视化并行性
+
+我们还没有完成模型的优化，但是值得介绍一下用于可视化性能的工具。 一种重要的工具是 [PyTorch 分析器](https://pytorch.org/docs/stable/autograd.html#profiler)。
+
+让我们将分析器与 Chrome 跟踪导出功能一起使用，以可视化并行模型的性能：
+
+此代码段将写出名为`parallel.json`的文件。 如果您将 Google Chrome 浏览器导航到`chrome://tracing`，单击`Load`按钮，然后加载该 JSON 文件，则应该看到类似以下的时间轴：
+
+![](img/6b495cb0cd4336a2469d9f07696faa3e.png)
+
+时间轴的横轴表示时间，纵轴表示执行线程。 如我们所见，我们一次运行两个`lstm`实例。 这是我们辛勤工作使双向层平行的结果！
+
+## 集成中的并行化模型
+
+您可能已经注意到，我们的代码中还有更多的并行化机会：我们还可以并行运行`LSTMEnsemble`中包含的模型。 做到这一点的方法很简单，这就是我们应该更改`LSTMEnsemble`的`forward`方法的方式：
+
+```py
+def forward(self, x : torch.Tensor) -> torch.Tensor:
+    # Launch tasks for each model
+    futures : List[torch.jit.Future[torch.Tensor]] = []
+    for model in self.models:
+        futures.append(torch.jit.fork(model, x))
+
+    # Collect the results from the launched tasks
+    results : List[torch.Tensor] = []
+    for future in futures:
+        results.append(torch.jit.wait(future))
+
+    return torch.stack(results).sum(dim=0)
+
+```
+
+或者，如果您重视简洁性，我们可以使用列表推导：
+
+```py
+def forward(self, x : torch.Tensor) -> torch.Tensor:
+    futures = [torch.jit.fork(model, x) for model in self.models]
+    results = [torch.jit.wait(fut) for fut in futures]
+    return torch.stack(results).sum(dim=0)
+
+```
+
+如介绍中所述，我们使用循环为集合中的每个模型分派任务。 然后，我们使用了另一个循环来等待所有任务完成。 这提供了更多的计算重叠。
+
+通过此小更新，脚本将在`1.4`秒内运行，总速度为`32%`！ 两行代码相当不错。
+
+我们还可以再次使用 Chrome 跟踪器来查看运行情况：
+
+![](img/ac8752539498c11001a65c1ff470d696.png)
+
+现在我们可以看到所有`LSTM`实例都在完全并行运行。
+
+## 总结
+
+在本教程中，我们学习了`fork()`和`wait()`，这是在 TorchScript 中执行动态，互操作并行的基本 API。 我们看到了一些典型的使用模式，这些模式使用这些函数并行执行 TorchScript 代码中的函数，方法或`Modules`的执行。 最后，我们通过一个使用该技术优化模型的示例进行了研究，并探索了 PyTorch 中可用的性能测量和可视化工具。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/49.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/49.md
new file mode 100644
index 00000000..f2776e85
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/49.md
@@ -0,0 +1,414 @@
+# C++ 前端中的 Autograd
+
+> 原文：<https://pytorch.org/tutorials/advanced/cpp_autograd.html>
+
+`autograd`包对于在 PyTorch 中构建高度灵活和动态的神经网络至关重要。 PyTorch Python 前端中的大多数 autograd API 也可以在 C++ 前端中使用，从而可以轻松地将 Autograd 代码从 Python 转换为 C++。
+
+在本教程中，我们将看几个在 PyTorch C++ 前端中进行 Autograd 的示例。 请注意，本教程假定您已经对 Python 前端中的 Autograd 有基本的了解。 如果不是这种情况，请先阅读 [Autograd：自动微分](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html)。
+
+## 基本的 Autograd 操作
+
+（改编自[本教程](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#autograd-automatic-differentiation)）
+
+创建一个张量并设置`torch::requires_grad()`以跟踪它的计算
+
+```py
+auto x = torch::ones({2, 2}, torch::requires_grad());
+std::cout << x << std::endl;
+
+```
+
+出：
+
+```py
+1 1
+1 1
+[ CPUFloatType{2,2} ]
+
+```
+
+进行张量运算：
+
+```py
+auto y = x + 2;
+std::cout << y << std::endl;
+
+```
+
+出：
+
+```py
+ 3  3
+ 3  3
+[ CPUFloatType{2,2} ]
+
+```
+
+`y`是由于操作而创建的，因此具有`grad_fn`。
+
+```py
+std::cout << y.grad_fn()->name() << std::endl;
+
+```
+
+出：
+
+```py
+AddBackward1
+
+```
+
+在`y`上执行更多操作
+
+```py
+auto z = y * y * 3;
+auto out = z.mean();
+
+std::cout << z << std::endl;
+std::cout << z.grad_fn()->name() << std::endl;
+std::cout << out << std::endl;
+std::cout << out.grad_fn()->name() << std::endl;
+
+```
+
+出：
+
+```py
+ 27  27
+ 27  27
+[ CPUFloatType{2,2} ]
+MulBackward1
+27
+[ CPUFloatType{} ]
+MeanBackward0
+
+```
+
+`.requires_grad_( ... )`原地更改现有张量的`requires_grad`标志。
+
+```py
+auto a = torch::randn({2, 2});
+a = ((a * 3) / (a - 1));
+std::cout << a.requires_grad() << std::endl;
+
+a.requires_grad_(true);
+std::cout << a.requires_grad() << std::endl;
+
+auto b = (a * a).sum();
+std::cout << b.grad_fn()->name() << std::endl;
+
+```
+
+出：
+
+```py
+false
+true
+SumBackward0
+
+```
+
+现在让我们反向传播。 因为`out`包含单个标量，所以`out.backward()`等效于`out.backward(torch::tensor(1.))`。
+
+```py
+out.backward();
+
+```
+
+打印梯度`d(out) / dx`
+
+```py
+std::cout << x.grad() << std::endl;
+
+```
+
+出：
+
+```py
+ 4.5000  4.5000
+ 4.5000  4.5000
+[ CPUFloatType{2,2} ]
+
+```
+
+您应该具有`4.5`的矩阵。 有关如何获得此值的说明，请参见[本教程](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#gradients)中的相应部分。
+
+现在，让我们来看一个向量雅各布产品的示例：
+
+```py
+x = torch::randn(3, torch::requires_grad());
+
+y = x * 2;
+while (y.norm().item<double>() < 1000) {
+  y = y * 2;
+}
+
+std::cout << y << std::endl;
+std::cout << y.grad_fn()->name() << std::endl;
+
+```
+
+出：
+
+```py
+-1021.4020
+  314.6695
+ -613.4944
+[ CPUFloatType{3} ]
+MulBackward1
+
+```
+
+如果我们想要向量-Jacobian 乘积，请将向量作为参数传递给`backward`：
+
+```py
+auto v = torch::tensor({0.1, 1.0, 0.0001}, torch::kFloat);
+y.backward(v);
+
+std::cout << x.grad() << std::endl;
+
+```
+
+出：
+
+```py
+  102.4000
+ 1024.0000
+    0.1024
+[ CPUFloatType{3} ]
+
+```
+
+您也可以通过在代码块中放置`torch::NoGradGuard`来停止对需要梯度的张量的跟踪历史的自动定格
+
+```py
+std::cout << x.requires_grad() << std::endl;
+std::cout << x.pow(2).requires_grad() << std::endl;
+
+{
+  torch::NoGradGuard no_grad;
+  std::cout << x.pow(2).requires_grad() << std::endl;
+}
+
+```
+
+出：
+
+```py
+true
+true
+false
+
+```
+
+或者使用`.detach()`获得具有相同内容但不需要梯度的新张量：
+
+```py
+std::cout << x.requires_grad() << std::endl;
+y = x.detach();
+std::cout << y.requires_grad() << std::endl;
+std::cout << x.eq(y).all().item<bool>() << std::endl;
+
+```
+
+出：
+
+```py
+true
+false
+true
+
+```
+
+有关 C++ 张量自动梯度 API 的更多信息，例如`grad`/`requires_grad`/`is_leaf`/`backward`/`detach`/`detach_`/`register_hook`/`retain_grad`，请参见[相应的 C++ API 文档](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html)。
+
+## 用 C++ 计算高阶梯度
+
+高阶梯度的应用之一是计算梯度罚分。 我们来看看使用`torch::autograd::grad`的示例：
+
+```py
+#include <torch/torch.h>
+
+auto model = torch::nn::Linear(4, 3);
+
+auto input = torch::randn({3, 4}).requires_grad_(true);
+auto output = model(input);
+
+// Calculate loss
+auto target = torch::randn({3, 3});
+auto loss = torch::nn::MSELoss()(output, target);
+
+// Use norm of gradients as penalty
+auto grad_output = torch::ones_like(output);
+auto gradient = torch::autograd::grad({output}, {input}, /*grad_outputs=*/{grad_output}, /*create_graph=*/true)[0];
+auto gradient_penalty = torch::pow((gradient.norm(2, /*dim=*/1) - 1), 2).mean();
+
+// Add gradient penalty to loss
+auto combined_loss = loss + gradient_penalty;
+combined_loss.backward();
+
+std::cout << input.grad() << std::endl;
+
+```
+
+出：
+
+```py
+-0.1042 -0.0638  0.0103  0.0723
+-0.2543 -0.1222  0.0071  0.0814
+-0.1683 -0.1052  0.0355  0.1024
+[ CPUFloatType{3,4} ]
+
+```
+
+有关如何使用它们的更多信息，请参见[`torch::autograd::backward`](https://pytorch.org/cppdocs/api/function_namespacetorch_1_1autograd_1afa9b5d4329085df4b6b3d4b4be48914b.html)和[`torch::autograd::grad`](https://pytorch.org/cppdocs/api/function_namespacetorch_1_1autograd_1a1e03c42b14b40c306f9eb947ef842d9c.html)的文档。
+
+## 在 C++ 中使用自定义 Autograd 函数
+
+（改编自[本教程](https://pytorch.org/docs/stable/notes/extending.html#extending-torch-autograd)）
+
+向`torch::autograd`添加新的基本操作需要为每个操作实现一个新的`torch::autograd::Function`子类。 `torch::autograd::Function`用于`torch::autograd`计算结果和梯度，并对操作历史进行编码。 每个新函数都需要您实现两种方法：`forward`和`backward`，有关详细要求，请参见[此链接](https://pytorch.org/cppdocs/api/structtorch_1_1autograd_1_1_function.html)。
+
+在下面，您可以从`torch::nn`找到`Linear`函数的代码：
+
+```py
+#include <torch/torch.h>
+
+using namespace torch::autograd;
+
+// Inherit from Function
+class LinearFunction : public Function<LinearFunction> {
+ public:
+  // Note that both forward and backward are static functions
+
+  // bias is an optional argument
+  static torch::Tensor forward(
+      AutogradContext *ctx, torch::Tensor input, torch::Tensor weight, torch::Tensor bias = torch::Tensor()) {
+    ctx->save_for_backward({input, weight, bias});
+    auto output = input.mm(weight.t());
+    if (bias.defined()) {
+      output += bias.unsqueeze(0).expand_as(output);
+    }
+    return output;
+  }
+
+  static tensor_list backward(AutogradContext *ctx, tensor_list grad_outputs) {
+    auto saved = ctx->get_saved_variables();
+    auto input = saved[0];
+    auto weight = saved[1];
+    auto bias = saved[2];
+
+    auto grad_output = grad_outputs[0];
+    auto grad_input = grad_output.mm(weight);
+    auto grad_weight = grad_output.t().mm(input);
+    auto grad_bias = torch::Tensor();
+    if (bias.defined()) {
+      grad_bias = grad_output.sum(0);
+    }
+
+    return {grad_input, grad_weight, grad_bias};
+  }
+};
+
+```
+
+然后，我们可以通过以下方式使用`LinearFunction`：
+
+```py
+auto x = torch::randn({2, 3}).requires_grad_();
+auto weight = torch::randn({4, 3}).requires_grad_();
+auto y = LinearFunction::apply(x, weight);
+y.sum().backward();
+
+std::cout << x.grad() << std::endl;
+std::cout << weight.grad() << std::endl;
+
+```
+
+出：
+
+```py
+ 0.5314  1.2807  1.4864
+ 0.5314  1.2807  1.4864
+[ CPUFloatType{2,3} ]
+ 3.7608  0.9101  0.0073
+ 3.7608  0.9101  0.0073
+ 3.7608  0.9101  0.0073
+ 3.7608  0.9101  0.0073
+[ CPUFloatType{4,3} ]
+
+```
+
+在这里，我们给出了一个由非张量参数设置参数的函数的附加示例：
+
+```py
+#include <torch/torch.h>
+
+using namespace torch::autograd;
+
+class MulConstant : public Function<MulConstant> {
+ public:
+  static torch::Tensor forward(AutogradContext *ctx, torch::Tensor tensor, double constant) {
+    // ctx is a context object that can be used to stash information
+    // for backward computation
+    ctx->saved_data["constant"] = constant;
+    return tensor * constant;
+  }
+
+  static tensor_list backward(AutogradContext *ctx, tensor_list grad_outputs) {
+    // We return as many input gradients as there were arguments.
+    // Gradients of non-tensor arguments to forward must be `torch::Tensor()`.
+    return {grad_outputs[0] * ctx->saved_data["constant"].toDouble(), torch::Tensor()};
+  }
+};
+
+```
+
+然后，我们可以通过以下方式使用`MulConstant`：
+
+```py
+auto x = torch::randn({2}).requires_grad_();
+auto y = MulConstant::apply(x, 5.5);
+y.sum().backward();
+
+std::cout << x.grad() << std::endl;
+
+```
+
+出：
+
+```py
+ 5.5000
+ 5.5000
+[ CPUFloatType{2} ]
+
+```
+
+有关`torch::autograd::Function`的更多信息，请参见[其文档](https://pytorch.org/cppdocs/api/structtorch_1_1autograd_1_1_function.html)。
+
+## 将 Autograd 代码从 Python 转换为 C++ 
+
+在较高的层次上，在 C++ 中使用 Autograd 的最简单方法是先在 Python 中拥有可用的 Autograd 代码，然后使用下表将您的 Autograd 代码从 Python 转换为 C++：
+
+| Python | C++ |
+| --- | --- |
+| `torch.autograd.backward` | [`torch::autograd::backward`](https://pytorch.org/cppdocs/api/function_namespacetorch_1_1autograd_1afa9b5d4329085df4b6b3d4b4be48914b.html)） |
+| `torch.autograd.grad` | [`torch::autograd::grad`](https://pytorch.org/cppdocs/api/function_namespacetorch_1_1autograd_1a1e03c42b14b40c306f9eb947ef842d9c.html)） |
+| `torch.Tensor.detach` | [`torch::Tensor::detach`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor6detachEv)） |
+| `torch.Tensor.detach_` | [`torch::Tensor::detach_`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor7detach_Ev)） |
+| `torch.Tensor.backward` | [`torch::Tensor::backward`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor8backwardERK6Tensorbb)） |
+| `torch.Tensor.register_hook` | [`torch::Tensor::register_hook`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4I0ENK2at6Tensor13register_hookE18hook_return_void_tI1TERR1T)） |
+| `torch.Tensor.requires_grad` | [`torch::Tensor::requires_grad_`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor14requires_grad_Eb)） |
+| `torch.Tensor.retain_grad` | [`torch::Tensor::retain_grad`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor11retain_gradEv)） |
+| `torch.Tensor.grad` | [`torch::Tensor::grad`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor4gradEv)） |
+| `torch.Tensor.grad_fn` | [`torch::Tensor::grad_fn`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor7grad_fnEv)） |
+| `torch.Tensor.set_data` | [`torch::Tensor::set_data`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor8set_dataERK6Tensor)） |
+| `torch.Tensor.data` | [`torch::Tensor::data`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor4dataEv)） |
+| `torch.Tensor.output_nr` | [`torch::Tensor::output_nr`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor9output_nrEv)） |
+| `torch.Tensor.is_leaf` | [`torch::Tensor::is_leaf`](https://pytorch.org/cppdocs/api/classat_1_1_tensor.html#_CPPv4NK2at6Tensor7is_leafEv)） |
+
+翻译后，您的大多数 Python Autograd 代码都应仅在 C++ 中工作。 如果不是这种情况，请在 [GitHub ISSUE](https://github.com/pytorch/pytorch/issues) 中提交错误报告，我们将尽快对其进行修复。
+
+## 总结
+
+现在，您应该对 PyTorch 的 C++  autograd API 有了一个很好的了解。 [您可以在此处找到本说明中显示的代码示例](https://github.com/pytorch/examples/tree/master/cpp/autograd)。 与往常一样，如果您遇到任何问题或疑问，可以使用我们的[论坛](https://discuss.pytorch.org/)或 [GitHub ISSUE](https://github.com/pytorch/pytorch/issues) 进行联系。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/50.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/50.md
new file mode 100644
index 00000000..8328c266
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/50.md
@@ -0,0 +1,244 @@
+# 在 C++ 中注册调度运算符
+
+> 原文：<https://pytorch.org/tutorials/advanced/dispatcher.html>
+
+调度器是 PyTorch 的内部组件，负责确定调用`torch::add`之类的函数时应实际运行哪些代码。 这是不平凡的，因为 PyTorch 操作需要处理很多交叉关注点，这些关注点“层叠”在另一个之上。 以下是其处理的一些示例：
+
+*   根据输入张量的设备，在运算符的 CPU 和 CUDA 实现之间切换。
+*   在运算符的自动微分和后端实现之间切换，这取决于是否需要自动微分处理。
+*   必要时应用自动广播来实现自动混合精度。
+*   当运算符在`vmap`调用下运行时，应用批量规则。
+*   如果要跟踪导出的模型，则跟踪操作的执行。
+
+如果在[自定义运算符代码](torch_script_custom_ops)中发现自己手动编写了`if`语句来处理这些情况，则调度器 API 可以帮助组织代码。 （相反，如果您的自定义运算符非常简单并且仅用于 CPU 推断，则可能不需要使用调度器，只需使用基本 API。）
+
+在本教程中，我们将描述如何构造自定义运算符注册以使用调度器来组织各种组件。 我们假设您熟悉如何[注册运算符](torch_script_custom_ops)以及如何编写[自定义自动微分函数](cpp_autograd)。
+
+## 定义模式和后端实现
+
+调度器背后的一般原理是将一个运算符的实现分为多个内核，每个内核都为特定的*调度键*实现功能； 例如，CPU，CUDA 或 Autograd。 调度器在您调用运算符时确定最高优先级的调度键是什么（这通过查看张量参数和某些线程本地状态来完成），并将控制权传递给内核以使用该调度键。 最终结果是，当您调用运算符时，我们首先执行 Autograd 内核，然后根据传入的张量的设备类型将其重新分配到 CPU 或 CUDA 内核。
+
+让我们看一下实现这一目标所涉及的各个部分。 首先，我们必须为所讨论的运算符定义架构。 与简单的`pybind11`样式的运算符注册不同，我们目前实际上并未提供运算符的实现； 我们只提供一个模式字符串，指定所有其他内核将遵守的运算符的类型签名：
+
+```py
+TORCH_LIBRARY(myops, m) {
+  m.def("myadd(Tensor self, Tensor other) -> Tensor");
+}
+
+```
+
+接下来，我们需要实际提供此运算符的一些实现。 具体来说，这是一个非常简单的 CPU 实现：
+
+```py
+Tensor myadd_cpu(const Tensor& self_, const Tensor& other_) {
+  TORCH_CHECK(self_.sizes() == other_.sizes());
+  TORCH_INTERNAL_ASSERT(self_.device().type() == DeviceType::CPU);
+  TORCH_INTERNAL_ASSERT(other_.device().type() == DeviceType::CPU);
+  Tensor self = self_.contiguous();
+  Tensor other = other_.contiguous();
+  Tensor result = torch::empty(self.sizes(), self.options());
+  const float* self_ptr = self.data_ptr<float>();
+  const float* other_ptr = other.data_ptr<float>();
+  float* result_ptr = result.data_ptr<float>();
+  for (int64_t i = 0; i < result.numel(); i++) {
+    result_ptr[i] = self_ptr[i] + other_ptr[i];
+  }
+  return result;
+}
+
+```
+
+我们想将此函数注册为`myops::myadd`的实现。 但是，简单的注册方法（`def("myadd", myadd_cpu)`）将注册内核以在所有情况下都可以运行，即使张量不是 CPU 张量！ （在内部，我们将它们称为“全部捕获”内核，因为它们捕获所有情况。）为确保仅针对 CPU 张量运行`myadd_cpu`，我们可以使用`TORCH_LIBRARY_IMPL`宏：
+
+```py
+TORCH_LIBRARY_IMPL(myops, CPU, m) {
+  m.impl("myadd", myadd_cpu);
+}
+
+```
+
+通过`TORCH_LIBRARY_IMPL`，我们可以在特定的调度键（在本例中为 CPU）上为运算符注册实现。 每次对`impl`的调用都会将 CPU 内核与相应的运算符（我们先前在`TORCH_LIBRARY`块中定义）相关联。 如果我们还有 CUDA 实现`myadd_cuda`，我们可以将其注册在单独的`TORCH_LIBRARY_IMPL`块中：
+
+```py
+TORCH_LIBRARY_IMPL(myops, CUDA, m) {
+  m.impl("myadd", myadd_cuda);
+}
+
+```
+
+这些注册可以跨文件甚至跨库边界拆分； 因此，例如，您可以将这两个`TORCH_LIBRARY_IMPL`块编译为单独的`myops_cpu`和`myops_cuda`动态库。 一般来说，您的注册结构如下所示：
+
+1.  单个`TORCH_LIBRARY`在集中位置列出名称空间中的每个自定义运算符。
+2.  每个调度键的`TORCH_LIBRARY_IMPL`，用于注册该键的实现（例如，CPU 或 CUDA）。 如果愿意，可以按每个运算符将`TORCH_LIBRARY_IMPL`块进一步细分为一个块。 如果每个运算符的实现都有一个单独的文件，但是又不想在标头中显示运算符，这将很方便。 您只需将注册内容放入定义您的运算符的 cpp 文件中。
+
+注意
+
+您知道吗，您还可以为 PyTorch 中的现有核心运算符编写`TORCH_LIBRARY_IMPL`块？ 这就是实现 XLA 对 PyTorch 的支持的方式：`torch_xla`库包含一个`TORCH_LIBRARY_IMPL`，该库为 XLA 调度键上的所有基本运算符提供实现。
+
+## 添加 Autograd 支持
+
+至此，我们有了一个同时具有 CPU 和 CUDA 实现的运算符。 我们如何为它添加 Autograd 支持？ 您可能会猜到，我们将注册一个 Autograd 内核（类似于[自定义 Autograd 函数](cpp_autograd)教程中描述的内容）！ 但是，有一个变数：与 CPU 和 CUDA 内核不同，Autograd 内核需要*重新分发*：它需要回调调度器才能到达最终的 CPU 和 CUDA 实现。
+
+因此，在编写 Autograd 内核之前，让我们编写一个*调度函数*，该函数调用调度器以为您的运算符找到合适的内核。 该函数构成了供您的运算符使用的公共 C++ API，实际上，PyTorch C++ API 中的所有张量函数都在后台完全以相同的方式调用了调度器。 调度函数如下所示：
+
+```py
+Tensor myadd(const Tensor& self, const Tensor& other) {
+  static auto op = torch::Dispatcher::singleton()
+    .findSchemaOrThrow("myops::myadd", "")
+    .typed<decltype(myadd)>();
+  return op.call(self, other);
+}
+
+```
+
+让我们分解一下：
+
+*   在第一行中，我们从调度器中查找与要调度到的运算符相对应的类型化运算符句柄。 `findSchemaOrThrow`具有两个参数：运算符的（名称空间限定）名称和运算符的重载名称（通常只是空字符串）。 `typed`将动态类型的句柄转换为静态类型的句柄（进行运行时测试以确保您提供了正确的 C++ 类型），以便我们可以对其进行常规的 C++ 调用。 我们将其传递给`decltype(myadd)`，因为调度函数的类型与注册到调度器的基础内核的类型相同。
+
+    为了提高性能，此计算是在静态变量中完成的，因此我们只需要进行一次（慢速）查找。 如果键入了要调用的运算符的名称，则第一次调用此函数时，此查找将出错。
+
+*   在第二行中，我们只需将所有参数传递到调度函数中，就可以简单地`call`运算符句柄。 这实际上将调用调度器，最终控制权将转移到适合此调用的任何内核。
+
+有了分发函数，我们现在可以编写 Autograd 内核：
+
+```py
+class MyAddFunction : public torch::autograd::Function<MyAddFunction> {
+ public:
+  static Tensor forward(
+      AutogradContext *ctx, torch::Tensor self, torch::Tensor other) {
+    at::AutoNonVariableTypeMode g;
+    return myadd(self, other);
+  }
+
+  static tensor_list backward(AutogradContext *ctx, tensor_list grad_outputs) {
+    auto grad_output = grad_outputs[0];
+    return {grad_output, grad_output};
+  }
+};
+
+Tensor myadd_autograd(const Tensor& self, const Tensor& other) {
+  return MyAddFunction::apply(self, other)[0];
+}
+
+```
+
+使用`torch::autograd::Function`正常编写 Autograd 函数，除了代替直接在`forward()`中编写实现，我们：
+
+1.  使用`at::AutoNonVariableTypeMode` RAII 保护器关闭 Autograd 处理，然后
+2.  调用调度函数`myadd`以回调调度器。
+
+如果没有（1），您的调用将无限循环（并且栈溢出），因为`myadd`将使您返回此函数（因为最高优先级分配键仍将是自动微分的。）对于（1），自动微分从一组正在考虑的调度键中排除，我们将转到下一个处理器，即 CPU 和 CUDA。
+
+现在，我们可以按照注册 CPU/CUDA 函数的相同方式注册此函数：
+
+```py
+TORCH_LIBRARY_IMPL(myops, Autograd, m) {
+  m.impl("myadd", myadd_autograd);
+}
+
+```
+
+## 超越 Autograd
+
+从某种意义上说，调度员并没有做太多事情：它所做的只是实现一种美化的`if`语句，其方法如下：
+
+```py
+class MyAddFunction : ... {
+public:
+  static Tensor forward(
+    AutogradContext *ctx, torch::Tensor self, torch::Tensor other) {
+
+    if (self.device().type() == DeviceType::CPU) {
+      return add_cpu(self, other);
+    } else if (self.device().type() == DeviceType::CUDA) {
+      return add_cuda(self, other);
+    } else {
+      TORCH_CHECK(0, "Unsupported device ", self.device().type());
+    }
+  }
+  ...
+}
+
+```
+
+那么为什么要使用调度器呢？ 有几个原因：
+
+1.  它是分散的。 您可以组装运算符的所有部分（CPU，CUDA，Autograd），而不必编写引用所有元素的集中式`if`语句。 重要的是，第三方可以注册其他方面的额外实现，而不必修补运算符的原始定义。
+2.  它比 CPU，CUDA 和 Autograd 支持更多的调度键。 您可以在`c10/core/DispatchKey.h`中查看 PyTorch 中当前实现的调度键的完整列表。 这些调度键为运算符实现了多种可选功能，如果您决定希望自定义运算符支持该功能，则只需为相应的键注册内核即可。
+3.  调度器实现对盒装后备函数的支持，后者是可以一次实现并应用于系统中所有运算符的函数。 盒装后备可用于提供调度键的默认行为。 如果您使用调度器来实现您的运算符，那么您还可以选择所有这些操作的备用。
+
+这是一些特定的调度键，您可能需要为其定义一个运算符。
+
+### Autocast
+
+Autocast 调度键实现对[自动混合精度（AMP）](https://pytorch.org/docs/stable/amp.html)的支持。 自动广播包装器内核通常会在运行操作之前将传入的`float16`或`float32` CUDA 张量转换为某些首选精度。 例如，浮点 CUDA 张量上的积和卷积通常运行得更快，并且在`float16`中使用较少的内存，而不会影响收敛。 自动广播包装器仅在[启用自动广播的上下文](https://pytorch.org/docs/stable/amp.html#torch.cuda.amp.autocast)中有效。
+
+这是假设的自定义`Matmul`的自动广播包装器及其注册信息：
+
+```py
+// Autocast-specific helper functions
+#include <ATen/autocast_mode.h>
+
+Tensor mymatmul_autocast(const Tensor& self, const Tensor& other) {
+  c10::impl::ExcludeDispatchKeyGuard no_autocast(c10::DispatchKey::Autocast);
+  return mymatmul(at::autocast::cached_cast(at::kHalf, self),
+                  at::autocast::cached_cast(at::kHalf, other));
+}
+
+TORCH_LIBRARY_IMPL(myops, Autocast, m) {
+  m.impl("mymatmul", mymatmul_autocast);
+}
+
+```
+
+如果`tensor`为 CUDA 和`float32`，则`cached_cast(kHalf, tensor)`将`tensor`强制转换为`float16`，否则，`tensor`保持不变（参见[资格策略](https://pytorch.org/docs/stable/amp.html#op-eligibility)对于本地自动播报的操作）。 这样可以确保网络是否在`float16`和`float32` CUDA 张量的任何混合形式上调用`mymatmul`，`mymatmul`在`float16`中运行。 同时，使用非 CUDA，整数类型或`float64`输入的对`mymatmul`的调用不受影响。 建议使用`cached_cast`在您自己的自动广播包装程序中遵循本机资格策略，但不是必需的。 例如，如果要对所有输入类型强制执行`float16`，则可以使用`return mymatmul(self.half(), other.half());`而不是使用`cached_cast`。
+
+请注意，就像我们的 Autograd 内核一样，我们在重新分配之前从分配中排除`Autocast`键。
+
+默认情况下，如果未提供自动广播包装器，我们将直接进入常规的运算符实现（不进行自动广播）。 （在此示例中，我们没有使用`myadd`，因为逐点加法不需要自动广播，因此应该会失败。）
+
+什么时候应该注册自动广播包装器？ 不幸的是，对于运算符的首选精度并没有严格的规定。 通过查看[运算符列表](https://pytorch.org/docs/master/amp.html#op-specific-behavior)，您可以了解某些本机运算符的首选精度。 一般指导：
+
+*   进行减少操作的操作可能应该在`float32`中执行，
+*   在幕后进行卷积或宝石运算的任何操作都应在`float16`中执行，并且
+*   具有多个浮点张量输入的其他运算符应将它们标准化为通用精度（除非实现支持具有不同精度的输入）。
+
+如果您的自定义操作属于第三类，则`promote_type`模板有助于找出输入张量中存在的最宽浮点类型，这是执行类型的最安全选择：
+
+```py
+#include <ATen/autocast_mode.h>
+
+Tensor my_multiple_input_op_autocast(const Tensor& t0, const Tensor& t1) {
+  c10::impl::ExcludeDispatchKeyGuard no_autocast(c10::DispatchKey::Autocast);
+  // The required at::kHalf argument is an optimistic initial guess.
+  auto exec_type = at::autocast::promote_type(at::kHalf, t0, t1);
+  return my_multiple_input_op(at::autocast::cached_cast(exec_type, t0),
+                              at::autocast::cached_cast(exec_type, t1));
+}
+
+```
+
+如果您的自定义操作[已启用 Autograd](#autograd-support)，则只需编写和注册自动广播包装器，其名称与注册自动梯度包装器的名称相同。 例如，如果您想为 Autograd 部分中显示的`myadd`函数使用自动广播包装，那么您所需要做的就是
+
+```py
+Tensor myadd_autocast(const Tensor& self, const Tensor& other) {
+  c10::impl::ExcludeDispatchKeyGuard no_autocast(c10::DispatchKey::Autocast);
+  return myadd(at::autocast::cached_cast(<desired dtype>, self),
+               at::autocast::cached_cast(<desired dtype>, other));
+}
+
+TORCH_LIBRARY_IMPL(myops, Autocast, m) {
+  m.impl("myadd", myadd_autocast);
+}
+
+```
+
+没有单独的体操可使后向方法自动广播兼容。 但是，在自定义 Autograd 函数中定义的向后方法将以与正向方法的自动广播集相同的`dtype`运行，因此您应该选择既适合于正向方法又适合于向后方法的`<desired dtype>`。
+
+### 批量
+
+批量张量允许您按示例方式编写代码，然后在`vmap`调用下运行时自动对其进行批量。 当前正在开发用于编写批量规则的 API，但是一旦稳定该 API，就可以通过在 Batched 调度键处注册内核来为运算符添加对`vmap`的支持。
+
+### 追踪器
+
+追踪器调度键实现了对在运行`torch.jit.trace`时将运算符调用记录到跟踪中的支持。 我们打算提供一个盒装后备，它将实现对任意操作的跟踪，请参阅 [ISSUE#41478](https://github.com/pytorch/pytorch/issues/41478) 以跟踪进度。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/51.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/51.md
new file mode 100644
index 00000000..e47eefb2
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/51.md
@@ -0,0 +1 @@
+# 模型优化
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/52.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/52.md
new file mode 100644
index 00000000..0c8c7991
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/52.md
@@ -0,0 +1,285 @@
+# 分析您的 PyTorch 模块
+
+> 原文：<https://pytorch.org/tutorials/beginner/profiler.html>
+
+**作者：** [Suraj Subramanian](https://github.com/suraj813)
+
+PyTorch 包含一个探查器 API，可用于识别代码中各种 PyTorch 操作的时间和内存成本。 Profiler 可以轻松集成到您的代码中，结果可以打印为表格或在 JSON 跟踪文件中显示。
+
+注意
+
+Profiler 支持多线程模型。 Profiler 与该操作在同一线程中运行，但它还将对可能在另一个线程中运行的子运算符进行概要分析。 同时运行的探查器的作用域将限制在其自己的线程中，以防止结果混淆。
+
+转到[此秘籍](https://pytorch.org/tutorials/recipes/recipes/profiler.html)，可以更快地了解 Profiler API 的用法。
+
+* * *
+
+```py
+import torch
+import numpy as np
+from torch import nn
+import torch.autograd.profiler as profiler
+
+```
+
+## 使用 Profiler 的性能调试
+
+Profiler 有助于识别模型中的性能瓶颈。 在此示例中，我们构建了一个自定义模块，该模块执行两个子任务：
+
+*   输入的线性变换，以及
+*   使用转换结果来获取遮罩张量上的索引。
+
+我们使用`profiler.record_function("label")`将每个子任务的代码包装在单独的带标签的上下文管理器中。 在事件探查器输出中，子任务中所有操作的综合性能指标将显示在其相应的标签下。
+
+请注意，使用 Profiler 会产生一些开销，并且最好仅用于调查代码。 如果要对运行时进行基准测试，请记住将其删除。
+
+```py
+class MyModule(nn.Module):
+    def __init__(self, in_features: int, out_features: int, bias: bool = True):
+        super(MyModule, self).__init__()
+        self.linear = nn.Linear(in_features, out_features, bias)
+
+    def forward(self, input, mask):
+        with profiler.record_function("LINEAR PASS"):
+            out = self.linear(input)
+
+        with profiler.record_function("MASK INDICES"):
+            threshold = out.sum(axis=1).mean().item()
+            hi_idx = np.argwhere(mask.cpu().numpy() > threshold)
+            hi_idx = torch.from_numpy(hi_idx).cuda()
+
+        return out, hi_idx
+
+```
+
+## 分析正向传播
+
+我们初始化随机输入和蒙版张量以及模型。
+
+在运行探查器之前，我们需要对 CUDA 进行预热，以确保进行准确的性能基准测试。 我们将模块的正向传播包装在`profiler.profile`上下文管理器中。 `with_stack=True`参数在跟踪中附加操作的文件和行号。
+
+警告
+
+`with_stack=True`会产生额外的开销，并且更适合于研究代码。 如果要对性能进行基准测试，请记住将其删除。
+
+```py
+model = MyModule(500, 10).cuda()
+input = torch.rand(128, 500).cuda()
+mask = torch.rand((500, 500, 500), dtype=torch.double).cuda()
+
+# warm-up
+model(input, mask)
+
+with profiler.profile(with_stack=True, profile_memory=True) as prof:
+    out, idx = model(input, mask)
+
+```
+
+## 打印分析器结果
+
+最后，我们打印分析器结果。 `profiler.key_averages`通过运算符名称，以及可选地通过输入形状和/或栈跟踪事件来聚合结果。 按输入形状分组有助于识别模型使用哪些张量形状。
+
+在这里，我们使用`group_by_stack_n=5`通过操作及其回溯（截断为最近的 5 个事件）聚合运行时，并按事件注册的顺序显示事件。 还可以通过传递`sort_by`参数对表进行排序（有关有效的排序键，请参阅[文档](https://pytorch.org/docs/stable/autograd.html#profiler)）。
+
+注意
+
+在笔记本中运行 Profiler 时，您可能会在栈跟踪中看到`<ipython-input-18-193a910735e8>(13): forward`之类的条目，而不是文件名。 这些对应于`<notebook-cell>(line number): calling-function`。
+
+```py
+print(prof.key_averages(group_by_stack_n=5).table(sort_by='self_cpu_time_total', row_limit=5))
+
+"""
+(Some columns are omitted)
+
+-------------  ------------  ------------  ------------  ---------------------------------
+         Name    Self CPU %      Self CPU  Self CPU Mem   Source Location
+-------------  ------------  ------------  ------------  ---------------------------------
+ MASK INDICES        87.88%        5.212s    -953.67 Mb  /mnt/xarfuse/.../torch/au
+                                                         <ipython-input-...>(10): forward
+                                                         /mnt/xarfuse/.../torch/nn
+                                                         <ipython-input-...>(9): <module>
+                                                         /mnt/xarfuse/.../IPython/
+
+  aten::copy_        12.07%     715.848ms           0 b  <ipython-input-...>(12): forward
+                                                         /mnt/xarfuse/.../torch/nn
+                                                         <ipython-input-...>(9): <module>
+                                                         /mnt/xarfuse/.../IPython/
+                                                         /mnt/xarfuse/.../IPython/
+
+  LINEAR PASS         0.01%     350.151us         -20 b  /mnt/xarfuse/.../torch/au
+                                                         <ipython-input-...>(7): forward
+                                                         /mnt/xarfuse/.../torch/nn
+                                                         <ipython-input-...>(9): <module>
+                                                         /mnt/xarfuse/.../IPython/
+
+  aten::addmm         0.00%     293.342us           0 b  /mnt/xarfuse/.../torch/nn
+                                                         /mnt/xarfuse/.../torch/nn
+                                                         /mnt/xarfuse/.../torch/nn
+                                                         <ipython-input-...>(8): forward
+                                                         /mnt/xarfuse/.../torch/nn
+
+   aten::mean         0.00%     235.095us           0 b  <ipython-input-...>(11): forward
+                                                         /mnt/xarfuse/.../torch/nn
+                                                         <ipython-input-...>(9): <module>
+                                                         /mnt/xarfuse/.../IPython/
+                                                         /mnt/xarfuse/.../IPython/
+
+-----------------------------  ------------  ---------- ----------------------------------
+Self CPU time total: 5.931s
+
+"""
+
+```
+
+## 提高内存性能
+
+请注意，就内存和时间而言，最昂贵的操作位于`forward (10)`，代表掩码索引中的操作。 让我们尝试先解决内存消耗问题。 我们可以看到第 12 行的`.to()`操作消耗 953.67 Mb。 该操作将`mask`复制到 CPU。 `mask`使用`torch.double`数据类型初始化。 我们可以通过将其转换为`torch.float`来减少内存占用吗？
+
+```py
+model = MyModule(500, 10).cuda()
+input = torch.rand(128, 500).cuda()
+mask = torch.rand((500, 500, 500), dtype=torch.float).cuda()
+
+# warm-up
+model(input, mask)
+
+with profiler.profile(with_stack=True, profile_memory=True) as prof:
+    out, idx = model(input, mask)
+
+print(prof.key_averages(group_by_stack_n=5).table(sort_by='self_cpu_time_total', row_limit=5))
+
+"""
+(Some columns are omitted)
+
+-----------------  ------------  ------------  ------------  --------------------------------
+             Name    Self CPU %      Self CPU  Self CPU Mem   Source Location
+-----------------  ------------  ------------  ------------  --------------------------------
+     MASK INDICES        93.61%        5.006s    -476.84 Mb  /mnt/xarfuse/.../torch/au
+                                                             <ipython-input-...>(10): forward
+                                                             /mnt/xarfuse/  /torch/nn
+                                                             <ipython-input-...>(9): <module>
+                                                             /mnt/xarfuse/.../IPython/
+
+      aten::copy_         6.34%     338.759ms           0 b  <ipython-input-...>(12): forward
+                                                             /mnt/xarfuse/.../torch/nn
+                                                             <ipython-input-...>(9): <module>
+                                                             /mnt/xarfuse/.../IPython/
+                                                             /mnt/xarfuse/.../IPython/
+
+ aten::as_strided         0.01%     281.808us           0 b  <ipython-input-...>(11): forward
+                                                             /mnt/xarfuse/.../torch/nn
+                                                             <ipython-input-...>(9): <module>
+                                                             /mnt/xarfuse/.../IPython/
+                                                             /mnt/xarfuse/.../IPython/
+
+      aten::addmm         0.01%     275.721us           0 b  /mnt/xarfuse/.../torch/nn
+                                                             /mnt/xarfuse/.../torch/nn
+                                                             /mnt/xarfuse/.../torch/nn
+                                                             <ipython-input-...>(8): forward
+                                                             /mnt/xarfuse/.../torch/nn
+
+      aten::_local        0.01%     268.650us           0 b  <ipython-input-...>(11): forward
+      _scalar_dense                                          /mnt/xarfuse/.../torch/nn
+                                                             <ipython-input-...>(9): <module>
+                                                             /mnt/xarfuse/.../IPython/
+                                                             /mnt/xarfuse/.../IPython/
+
+-----------------  ------------  ------------  ------------  --------------------------------
+Self CPU time total: 5.347s
+
+"""
+
+```
+
+此操作的 CPU 内存占用量减少了一半。
+
+## 提高时间表现
+
+虽然所消耗的时间也有所减少，但仍然太高。 原来，将矩阵从 CUDA 复制到 CPU 非常昂贵！ `forward (12)`中的`aten::copy_`运算符将`mask`复制到 CPU，以便可以使用 NumPy `argwhere`函数。 `forward(13)`处的`aten::copy_`将数组作为张量复制回 CUDA。 如果我们在这里使用`torch`函数`nonzero()`，则可以消除这两个方面。
+
+```py
+class MyModule(nn.Module):
+    def __init__(self, in_features: int, out_features: int, bias: bool = True):
+        super(MyModule, self).__init__()
+        self.linear = nn.Linear(in_features, out_features, bias)
+
+    def forward(self, input, mask):
+        with profiler.record_function("LINEAR PASS"):
+            out = self.linear(input)
+
+        with profiler.record_function("MASK INDICES"):
+            threshold = out.sum(axis=1).mean()
+            hi_idx = (mask > threshold).nonzero(as_tuple=True)
+
+        return out, hi_idx
+
+model = MyModule(500, 10).cuda()
+input = torch.rand(128, 500).cuda()
+mask = torch.rand((500, 500, 500), dtype=torch.float).cuda()
+
+# warm-up
+model(input, mask)
+
+with profiler.profile(with_stack=True, profile_memory=True) as prof:
+    out, idx = model(input, mask)
+
+print(prof.key_averages(group_by_stack_n=5).table(sort_by='self_cpu_time_total', row_limit=5))
+
+"""
+(Some columns are omitted)
+
+--------------  ------------  ------------  ------------  ---------------------------------
+          Name    Self CPU %      Self CPU  Self CPU Mem   Source Location
+--------------  ------------  ------------  ------------  ---------------------------------
+      aten::gt        57.17%     129.089ms           0 b  <ipython-input-...>(12): forward
+                                                          /mnt/xarfuse/.../torch/nn
+                                                          <ipython-input-...>(25): <module>
+                                                          /mnt/xarfuse/.../IPython/
+                                                          /mnt/xarfuse/.../IPython/
+
+ aten::nonzero        37.38%      84.402ms           0 b  <ipython-input-...>(12): forward
+                                                          /mnt/xarfuse/.../torch/nn
+                                                          <ipython-input-...>(25): <module>
+                                                          /mnt/xarfuse/.../IPython/
+                                                          /mnt/xarfuse/.../IPython/
+
+   INDEX SCORE         3.32%       7.491ms    -119.21 Mb  /mnt/xarfuse/.../torch/au
+                                                          <ipython-input-...>(10): forward
+                                                          /mnt/xarfuse/.../torch/nn
+                                                          <ipython-input-...>(25): <module>
+                                                          /mnt/xarfuse/.../IPython/
+
+aten::as_strided         0.20%    441.587us          0 b  <ipython-input-...>(12): forward
+                                                          /mnt/xarfuse/.../torch/nn
+                                                          <ipython-input-...>(25): <module>
+                                                          /mnt/xarfuse/.../IPython/
+                                                          /mnt/xarfuse/.../IPython/
+
+ aten::nonzero
+     _numpy             0.18%     395.602us           0 b  <ipython-input-...>(12): forward
+                                                          /mnt/xarfuse/.../torch/nn
+                                                          <ipython-input-...>(25): <module>
+                                                          /mnt/xarfuse/.../IPython/
+                                                          /mnt/xarfuse/.../IPython/
+--------------  ------------  ------------  ------------  ---------------------------------
+Self CPU time total: 225.801ms
+
+"""
+
+```
+
+## 进一步阅读
+
+我们已经看到了 Profiler 如何用于调查 PyTorch 模型中的时间和内存瓶颈。 在此处阅读有关 Profiler 的更多信息：
+
+*   [事件探查器使用秘籍](https://pytorch.org/tutorials/recipes/recipes/profiler.html)
+*   [分析基于 RPC 的工作负载](https://pytorch.org/tutorials/recipes/distributed_rpc_profiling.html)
+*   [Profiler API 文档](https://pytorch.org/docs/stable/autograd.html?highlight=profiler#profiler)
+
+**脚本的总运行时间**：（0 分钟 0.000 秒）
+
+[下载 Python 源码：`profiler.py`](../_downloads/390e82110dc76e71b26225b3f9020e14/profiler.py)
+
+[下载 Jupyter 笔记本：`profiler.ipynb`](../_downloads/28071a0f69f5106129ad8a68a47af061/profiler.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/53.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/53.md
new file mode 100644
index 00000000..b3c631b5
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/53.md
@@ -0,0 +1,1711 @@
+# 使用 Ray Tune 的超参数调整
+
+> 原文：<https://pytorch.org/tutorials/beginner/hyperparameter_tuning_tutorial.html>
+
+超参数调整可以使平均模型与高精度模型有所不同。 通常，选择不同的学习率或更改网络层大小等简单的事情可能会对模型表现产生巨大影响。
+
+幸运的是，有一些工具可以帮助您找到最佳的参数组合。 [Ray Tune](https://docs.ray.io/en/latest/tune.html) 是用于分布式超参数调整的行业标准工具。 Ray Tune 包含最新的超参数搜索算法，与 TensorBoard 和其他分析库集成，并通过 [Ray 的分布式机器学习引擎](https://ray.io/)本地支持分布式训练。
+
+在本教程中，我们将向您展示如何将 Ray Tune 集成到 PyTorch 训练工作流程中。 我们将扩展 PyTorch 文档的[本教程](https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html)，以训练 CIFAR10 图像分类器。
+
+如您所见，我们只需要添加一些细微的修改即可。 特别是，我们需要
+
+1.  在函数中包装数据加载和训练，
+2.  使一些网络参数可配置，
+3.  添加检查点（可选），
+4.  并定义用于模型调整的搜索空间
+
+要运行本教程，请确保已安装以下包：
+
+*   `ray[tune]`：分布式超参数调整库
+*   `torchvision`：用于数据转换器
+
+## 设置/导入
+
+让我们从导入开始：
+
+```py
+from functools import partial
+import numpy as np
+import os
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.optim as optim
+from torch.utils.data import random_split
+import torchvision
+import torchvision.transforms as transforms
+from ray import tune
+from ray.tune import CLIReporter
+from ray.tune.schedulers import ASHAScheduler
+
+```
+
+建立 PyTorch 模型需要大多数导入产品。 Ray Tune 仅最后三个导入。
+
+## 数据加载器
+
+我们将数据加载器包装在它们自己的函数中，并传递一个全局数据目录。 这样，我们可以在不同的试验之间共享数据目录。
+
+```py
+def load_data(data_dir="./data"):
+    transform = transforms.Compose([
+        transforms.ToTensor(),
+        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
+    ])
+
+    trainset = torchvision.datasets.CIFAR10(
+        root=data_dir, train=True, download=True, transform=transform)
+
+    testset = torchvision.datasets.CIFAR10(
+        root=data_dir, train=False, download=True, transform=transform)
+
+    return trainset, testset
+
+```
+
+## 可配置的神经网络
+
+我们只能调整那些可配置的参数。 在此示例中，我们可以指定全连接层的层大小：
+
+```py
+class Net(nn.Module):
+    def __init__(self, l1=120, l2=84):
+        super(Net, self).__init__()
+        self.conv1 = nn.Conv2d(3, 6, 5)
+        self.pool = nn.MaxPool2d(2, 2)
+        self.conv2 = nn.Conv2d(6, 16, 5)
+        self.fc1 = nn.Linear(16 * 5 * 5, l1)
+        self.fc2 = nn.Linear(l1, l2)
+        self.fc3 = nn.Linear(l2, 10)
+
+    def forward(self, x):
+        x = self.pool(F.relu(self.conv1(x)))
+        x = self.pool(F.relu(self.conv2(x)))
+        x = x.view(-1, 16 * 5 * 5)
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+```
+
+## 训练函数
+
+现在变得有趣了，因为我们对 [PyTorch 文档中的示例](https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html)进行了一些更改。
+
+我们将训练脚本包装在函数`train_cifar(config, checkpoint_dir=None, data_dir=None)`中。 可以猜到，`config`参数将接收我们要训练的超参数。 `checkpoint_dir`参数用于还原检查点。 `data_dir`指定了我们加载和存储数据的目录，因此多次运行可以共享同一数据源。
+
+```py
+net = Net(config["l1"], config["l2"])
+
+if checkpoint_dir:
+    model_state, optimizer_state = torch.load(
+        os.path.join(checkpoint_dir, "checkpoint"))
+    net.load_state_dict(model_state)
+    optimizer.load_state_dict(optimizer_state)
+
+```
+
+优化器的学习率也可以配置：
+
+```py
+optimizer = optim.SGD(net.parameters(), lr=config["lr"], momentum=0.9)
+
+```
+
+我们还将训练数据分为训练和验证子集。 因此，我们训练了 80% 的数据，并计算了其余 20% 的验证损失。 我们遍历训练和测试集的批量大小也是可配置的。
+
+### 通过`DataParallel`添加（多）GPU 支持
+
+图像分类主要受益于 GPU。 幸运的是，我们可以继续在 Ray Tune 中使用 PyTorch 的抽象。 因此，我们可以将模型包装在`nn.DataParallel`中，以支持在多个 GPU 上进行数据并行训练：
+
+```py
+device = "cpu"
+if torch.cuda.is_available():
+    device = "cuda:0"
+    if torch.cuda.device_count() > 1:
+        net = nn.DataParallel(net)
+net.to(device)
+
+```
+
+通过使用`device`变量，我们可以确保在没有 GPU 的情况下训练也能正常进行。 PyTorch 要求我们将数据显式发送到 GPU 内存，如下所示：
+
+```py
+for i, data in enumerate(trainloader, 0):
+    inputs, labels = data
+    inputs, labels = inputs.to(device), labels.to(device)
+
+```
+
+该代码现在支持在 CPU，单个 GPU 和多个 GPU 上进行训练。 值得注意的是，Ray 还支持[分数 GPU](https://docs.ray.io/en/master/using-ray-with-gpus.html#fractional-gpus) ，因此我们可以在试验之间共享 GPU，只要模型仍适合 GPU 内存即可。 我们稍后再讲。
+
+### 与 Ray Tune 交流
+
+最有趣的部分是与 Ray Tune 的交流：
+
+```py
+with tune.checkpoint_dir(epoch) as checkpoint_dir:
+    path = os.path.join(checkpoint_dir, "checkpoint")
+    torch.save((net.state_dict(), optimizer.state_dict()), path)
+
+tune.report(loss=(val_loss / val_steps), accuracy=correct / total)
+
+```
+
+在这里，我们首先保存一个检查点，然后将一些指标报告给 Ray Tune。 具体来说，我们将验证损失和准确率发送回 Ray Tune。 然后，Ray Tune 可以使用这些指标来决定哪种超参数配置可以带来最佳结果。 这些指标还可用于尽早停止效果不佳的试验，以避免浪费资源进行试验。
+
+保存检查点是可选的，但是，如果我们想使用高级调度器，例如[基于总体的训练](https://docs.ray.io/en/master/tune/tutorials/tune-advanced-tutorial.html)，则有必要。 另外，通过保存检查点，我们可以稍后加载经过训练的模型并在测试集上对其进行验证。
+
+### 完整的训练函数
+
+完整的代码示例如下所示：
+
+```py
+def train_cifar(config, checkpoint_dir=None, data_dir=None):
+    net = Net(config["l1"], config["l2"])
+
+    device = "cpu"
+    if torch.cuda.is_available():
+        device = "cuda:0"
+        if torch.cuda.device_count() > 1:
+            net = nn.DataParallel(net)
+    net.to(device)
+
+    criterion = nn.CrossEntropyLoss()
+    optimizer = optim.SGD(net.parameters(), lr=config["lr"], momentum=0.9)
+
+    if checkpoint_dir:
+        model_state, optimizer_state = torch.load(
+            os.path.join(checkpoint_dir, "checkpoint"))
+        net.load_state_dict(model_state)
+        optimizer.load_state_dict(optimizer_state)
+
+    trainset, testset = load_data(data_dir)
+
+    test_abs = int(len(trainset) * 0.8)
+    train_subset, val_subset = random_split(
+        trainset, [test_abs, len(trainset) - test_abs])
+
+    trainloader = torch.utils.data.DataLoader(
+        train_subset,
+        batch_size=int(config["batch_size"]),
+        shuffle=True,
+        num_workers=8)
+    valloader = torch.utils.data.DataLoader(
+        val_subset,
+        batch_size=int(config["batch_size"]),
+        shuffle=True,
+        num_workers=8)
+
+    for epoch in range(10):  # loop over the dataset multiple times
+        running_loss = 0.0
+        epoch_steps = 0
+        for i, data in enumerate(trainloader, 0):
+            # get the inputs; data is a list of [inputs, labels]
+            inputs, labels = data
+            inputs, labels = inputs.to(device), labels.to(device)
+
+            # zero the parameter gradients
+            optimizer.zero_grad()
+
+            # forward + backward + optimize
+            outputs = net(inputs)
+            loss = criterion(outputs, labels)
+            loss.backward()
+            optimizer.step()
+
+            # print statistics
+            running_loss += loss.item()
+            epoch_steps += 1
+            if i % 2000 == 1999:  # print every 2000 mini-batches
+                print("[%d, %5d] loss: %.3f" % (epoch + 1, i + 1,
+                                                running_loss / epoch_steps))
+                running_loss = 0.0
+
+        # Validation loss
+        val_loss = 0.0
+        val_steps = 0
+        total = 0
+        correct = 0
+        for i, data in enumerate(valloader, 0):
+            with torch.no_grad():
+                inputs, labels = data
+                inputs, labels = inputs.to(device), labels.to(device)
+
+                outputs = net(inputs)
+                _, predicted = torch.max(outputs.data, 1)
+                total += labels.size(0)
+                correct += (predicted == labels).sum().item()
+
+                loss = criterion(outputs, labels)
+                val_loss += loss.cpu().numpy()
+                val_steps += 1
+
+        with tune.checkpoint_dir(epoch) as checkpoint_dir:
+            path = os.path.join(checkpoint_dir, "checkpoint")
+            torch.save((net.state_dict(), optimizer.state_dict()), path)
+
+        tune.report(loss=(val_loss / val_steps), accuracy=correct / total)
+    print("Finished Training")
+
+```
+
+如您所见，大多数代码直接来自原始示例。
+
+## 测试集准确率
+
+通常，机器学习模型的表现是在保持测试集上使用尚未用于训练模型的数据进行测试的。 我们还将其包装在一个函数中：
+
+```py
+def test_accuracy(net, device="cpu"):
+    trainset, testset = load_data()
+
+    testloader = torch.utils.data.DataLoader(
+        testset, batch_size=4, shuffle=False, num_workers=2)
+
+    correct = 0
+    total = 0
+    with torch.no_grad():
+        for data in testloader:
+            images, labels = data
+            images, labels = images.to(device), labels.to(device)
+            outputs = net(images)
+            _, predicted = torch.max(outputs.data, 1)
+            total += labels.size(0)
+            correct += (predicted == labels).sum().item()
+
+    return correct / total
+
+```
+
+该函数还需要一个`device`参数，因此我们可以在 GPU 上进行测试集验证。
+
+## 配置搜索空间
+
+最后，我们需要定义 Ray Tune 的搜索空间。 这是一个例子：
+
+```py
+config = {
+    "l1": tune.sample_from(lambda _: 2**np.random.randint(2, 9)),
+    "l2": tune.sample_from(lambda _: 2**np.random.randint(2, 9)),
+    "lr": tune.loguniform(1e-4, 1e-1),
+    "batch_size": tune.choice([2, 4, 8, 16])
+}
+
+```
+
+`tune.sample_from()`函数使您可以定义自己的采样方法以获得超参数。 在此示例中，`l1`和`l2`参数应为 4 到 256 之间的 2 的幂，因此应为 4、8、16、32、64、128 或 256。`lr`（学习率）应在 0.0001 和 0.1 之间均匀采样。 最后，批量大小可以在 2、4、8 和 16 之间选择。
+
+现在，在每次试用中，Ray Tune 都会从这些搜索空间中随机抽取参数组合。 然后它将并行训练许多模型，并在其中找到表现最佳的模型。 我们还使用`ASHAScheduler`，它将尽早终止效果不佳的测试。
+
+我们用`functools.partial`包装`train_cifar`函数以设置常量`data_dir`参数。 我们还可以告诉 Ray Tune 每个审判应提供哪些资源：
+
+```py
+gpus_per_trial = 2
+# ...
+result = tune.run(
+    partial(train_cifar, data_dir=data_dir),
+    resources_per_trial={"cpu": 8, "gpu": gpus_per_trial},
+    config=config,
+    num_samples=num_samples,
+    scheduler=scheduler,
+    progress_reporter=reporter,
+    checkpoint_at_end=True)
+
+```
+
+您可以指定 CPU 的数量，例如增加 PyTorch `DataLoader`实例的`num_workers`。 在每次试用中，选定数量的 GPU 对 PyTorch 都是可见的。 试用版无法访问未要求使用 GPU 的 GPU，因此您不必担心使用同一组资源进行两次试用。
+
+在这里，我们还可以指定分数 GPU，因此`gpus_per_trial=0.5`之类的东西完全有效。 然后，试用版将彼此共享 GPU。 您只需要确保模型仍然适合 GPU 内存即可。
+
+训练完模型后，我们将找到表现最好的模型，并从检查点文件中加载训练后的网络。 然后，我们获得测试仪的准确率，并通过打印报告一切。
+
+完整的`main`函数如下：
+
+```py
+def main(num_samples=10, max_num_epochs=10, gpus_per_trial=2):
+    data_dir = os.path.abspath("./data")
+    load_data(data_dir)
+    config = {
+        "l1": tune.sample_from(lambda _: 2 ** np.random.randint(2, 9)),
+        "l2": tune.sample_from(lambda _: 2 ** np.random.randint(2, 9)),
+        "lr": tune.loguniform(1e-4, 1e-1),
+        "batch_size": tune.choice([2, 4, 8, 16])
+    }
+    scheduler = ASHAScheduler(
+        metric="loss",
+        mode="min",
+        max_t=max_num_epochs,
+        grace_period=1,
+        reduction_factor=2)
+    reporter = CLIReporter(
+        # parameter_columns=["l1", "l2", "lr", "batch_size"],
+        metric_columns=["loss", "accuracy", "training_iteration"])
+    result = tune.run(
+        partial(train_cifar, data_dir=data_dir),
+        resources_per_trial={"cpu": 2, "gpu": gpus_per_trial},
+        config=config,
+        num_samples=num_samples,
+        scheduler=scheduler,
+        progress_reporter=reporter)
+
+    best_trial = result.get_best_trial("loss", "min", "last")
+    print("Best trial config: {}".format(best_trial.config))
+    print("Best trial final validation loss: {}".format(
+        best_trial.last_result["loss"]))
+    print("Best trial final validation accuracy: {}".format(
+        best_trial.last_result["accuracy"]))
+
+    best_trained_model = Net(best_trial.config["l1"], best_trial.config["l2"])
+    device = "cpu"
+    if torch.cuda.is_available():
+        device = "cuda:0"
+        if gpus_per_trial > 1:
+            best_trained_model = nn.DataParallel(best_trained_model)
+    best_trained_model.to(device)
+
+    best_checkpoint_dir = best_trial.checkpoint.value
+    model_state, optimizer_state = torch.load(os.path.join(
+        best_checkpoint_dir, "checkpoint"))
+    best_trained_model.load_state_dict(model_state)
+
+    test_acc = test_accuracy(best_trained_model, device)
+    print("Best trial test set accuracy: {}".format(test_acc))
+
+if __name__ == "__main__":
+    # You can change the number of GPUs per trial here:
+    main(num_samples=10, max_num_epochs=10, gpus_per_trial=0)
+
+```
+
+出：
+
+```py
+Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to /var/lib/jenkins/workspace/beginner_source/data/cifar-10-python.tar.gz
+Extracting /var/lib/jenkins/workspace/beginner_source/data/cifar-10-python.tar.gz to /var/lib/jenkins/workspace/beginner_source/data
+Files already downloaded and verified
+== Status ==
+Memory usage on this node: 4.0/240.1 GiB
+Using AsyncHyperBand: num_stopped=0
+Bracket: Iter 8.000: None | Iter 4.000: None | Iter 2.000: None | Iter 1.000: None
+Resources requested: 2/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 1/10 (1 RUNNING)
++---------------------+----------+-------+--------------+------+------+-------------+
+| Trial name          | status   | loc   |   batch_size |   l1 |   l2 |          lr |
+|---------------------+----------+-------+--------------+------+------+-------------|
+| DEFAULT_d3304_00000 | RUNNING  |       |            2 |    4 |   16 | 0.000111924 |
++---------------------+----------+-------+--------------+------+------+-------------+
+
+[2m[36m(pid=1588)[0m Files already downloaded and verified
+[2m[36m(pid=1568)[0m Files already downloaded and verified
+[2m[36m(pid=1504)[0m Files already downloaded and verified
+[2m[36m(pid=1575)[0m Files already downloaded and verified
+[2m[36m(pid=1494)[0m Files already downloaded and verified
+[2m[36m(pid=1572)[0m Files already downloaded and verified
+[2m[36m(pid=1567)[0m Files already downloaded and verified
+[2m[36m(pid=1585)[0m Files already downloaded and verified
+[2m[36m(pid=1565)[0m Files already downloaded and verified
+[2m[36m(pid=1505)[0m Files already downloaded and verified
+[2m[36m(pid=1588)[0m Files already downloaded and verified
+[2m[36m(pid=1568)[0m Files already downloaded and verified
+[2m[36m(pid=1504)[0m Files already downloaded and verified
+[2m[36m(pid=1575)[0m Files already downloaded and verified
+[2m[36m(pid=1494)[0m Files already downloaded and verified
+[2m[36m(pid=1572)[0m Files already downloaded and verified
+[2m[36m(pid=1567)[0m Files already downloaded and verified
+[2m[36m(pid=1565)[0m Files already downloaded and verified
+[2m[36m(pid=1585)[0m Files already downloaded and verified
+[2m[36m(pid=1505)[0m Files already downloaded and verified
+[2m[36m(pid=1585)[0m [1,  2000] loss: 2.307
+[2m[36m(pid=1568)[0m [1,  2000] loss: 2.226
+[2m[36m(pid=1565)[0m [1,  2000] loss: 2.141
+[2m[36m(pid=1505)[0m [1,  2000] loss: 2.339
+[2m[36m(pid=1504)[0m [1,  2000] loss: 2.042
+[2m[36m(pid=1572)[0m [1,  2000] loss: 2.288
+[2m[36m(pid=1567)[0m [1,  2000] loss: 2.047
+[2m[36m(pid=1575)[0m [1,  2000] loss: 2.316
+[2m[36m(pid=1494)[0m [1,  2000] loss: 2.322
+[2m[36m(pid=1588)[0m [1,  2000] loss: 2.289
+[2m[36m(pid=1585)[0m [1,  4000] loss: 1.154
+[2m[36m(pid=1505)[0m [1,  4000] loss: 1.170
+[2m[36m(pid=1565)[0m [1,  4000] loss: 0.939
+[2m[36m(pid=1568)[0m [1,  4000] loss: 1.102
+[2m[36m(pid=1504)[0m [1,  4000] loss: 0.916
+[2m[36m(pid=1572)[0m [1,  4000] loss: 1.156
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.226
+  date: 2021-01-05_20-23-37
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 2.083958268547058
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 27.169169902801514
+  time_this_iter_s: 27.169169902801514
+  time_total_s: 27.169169902801514
+  timestamp: 1609878217
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 9.2/240.1 GiB
+Using AsyncHyperBand: num_stopped=0
+Bracket: Iter 8.000: None | Iter 4.000: None | Iter 2.000: None | Iter 1.000: -2.083958268547058
+Resources requested: 20/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (10 RUNNING)
++---------------------+----------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status   | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+----------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING  |                 |            2 |    4 |   16 | 0.000111924 |         |            |                      |
+| DEFAULT_d3304_00001 | RUNNING  |                 |            8 |   16 |   32 | 0.077467    |         |            |                      |
+| DEFAULT_d3304_00002 | RUNNING  |                 |            4 |    8 |  128 | 0.00436986  |         |            |                      |
+| DEFAULT_d3304_00003 | RUNNING  | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 2.08396 |      0.226 |                    1 |
+| DEFAULT_d3304_00004 | RUNNING  |                 |            4 |   16 |   32 | 0.016474    |         |            |                      |
+| DEFAULT_d3304_00005 | RUNNING  |                 |            4 |  128 |   64 | 0.00757252  |         |            |                      |
+| DEFAULT_d3304_00006 | RUNNING  |                 |            2 |   64 |  256 | 0.00177236  |         |            |                      |
+| DEFAULT_d3304_00007 | RUNNING  |                 |            8 |    8 |    8 | 0.000155891 |         |            |                      |
+| DEFAULT_d3304_00008 | RUNNING  |                 |            2 |   16 |   64 | 0.0310199   |         |            |                      |
+| DEFAULT_d3304_00009 | RUNNING  |                 |            4 |    4 |   32 | 0.0175239   |         |            |                      |
++---------------------+----------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1567)[0m [1,  4000] loss: 0.943
+[2m[36m(pid=1494)[0m [1,  4000] loss: 1.155
+[2m[36m(pid=1575)[0m [1,  4000] loss: 1.162
+[2m[36m(pid=1585)[0m [1,  6000] loss: 0.768
+[2m[36m(pid=1505)[0m [1,  6000] loss: 0.780
+[2m[36m(pid=1565)[0m [1,  6000] loss: 0.582
+[2m[36m(pid=1504)[0m [1,  6000] loss: 0.587
+[2m[36m(pid=1568)[0m [1,  6000] loss: 0.770
+[2m[36m(pid=1572)[0m [1,  6000] loss: 0.771
+[2m[36m(pid=1567)[0m [1,  6000] loss: 0.615
+Result for DEFAULT_d3304_00007:
+  accuracy: 0.1011
+  date: 2021-01-05_20-23-51
+  done: true
+  experiment_id: 947614a8c2a74533be128b929f363bd1
+  experiment_tag: 7_batch_size=8,l1=8,l2=8,lr=0.00015589
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 2.3038805620193483
+  node_ip: 172.17.0.2
+  pid: 1494
+  should_checkpoint: true
+  time_since_restore: 41.69914960861206
+  time_this_iter_s: 41.69914960861206
+  time_total_s: 41.69914960861206
+  timestamp: 1609878231
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00007
+
+== Status ==
+Memory usage on this node: 9.1/240.1 GiB
+Using AsyncHyperBand: num_stopped=1
+Bracket: Iter 8.000: None | Iter 4.000: None | Iter 2.000: None | Iter 1.000: -2.193919415283203
+Resources requested: 20/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (10 RUNNING)
++---------------------+----------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status   | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+----------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING  |                 |            2 |    4 |   16 | 0.000111924 |         |            |                      |
+| DEFAULT_d3304_00001 | RUNNING  |                 |            8 |   16 |   32 | 0.077467    |         |            |                      |
+| DEFAULT_d3304_00002 | RUNNING  |                 |            4 |    8 |  128 | 0.00436986  |         |            |                      |
+| DEFAULT_d3304_00003 | RUNNING  | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 2.08396 |     0.226  |                    1 |
+| DEFAULT_d3304_00004 | RUNNING  |                 |            4 |   16 |   32 | 0.016474    |         |            |                      |
+| DEFAULT_d3304_00005 | RUNNING  |                 |            4 |  128 |   64 | 0.00757252  |         |            |                      |
+| DEFAULT_d3304_00006 | RUNNING  |                 |            2 |   64 |  256 | 0.00177236  |         |            |                      |
+| DEFAULT_d3304_00007 | RUNNING  | 172.17.0.2:1494 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | RUNNING  |                 |            2 |   16 |   64 | 0.0310199   |         |            |                      |
+| DEFAULT_d3304_00009 | RUNNING  |                 |            4 |    4 |   32 | 0.0175239   |         |            |                      |
++---------------------+----------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+Result for DEFAULT_d3304_00001:
+  accuracy: 0.1017
+  date: 2021-01-05_20-23-51
+  done: true
+  experiment_id: 26ac228b4b454584869f8490742cf253
+  experiment_tag: 1_batch_size=8,l1=16,l2=32,lr=0.077467
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 2.321864831352234
+  node_ip: 172.17.0.2
+  pid: 1575
+  should_checkpoint: true
+  time_since_restore: 42.09821367263794
+  time_this_iter_s: 42.09821367263794
+  time_total_s: 42.09821367263794
+  timestamp: 1609878231
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00001
+
+[2m[36m(pid=1588)[0m [2,  2000] loss: 1.916
+[2m[36m(pid=1585)[0m [1,  8000] loss: 0.576
+[2m[36m(pid=1505)[0m [1,  8000] loss: 0.584
+[2m[36m(pid=1565)[0m [1,  8000] loss: 0.422
+[2m[36m(pid=1504)[0m [1,  8000] loss: 0.433
+[2m[36m(pid=1572)[0m [1,  8000] loss: 0.578
+[2m[36m(pid=1568)[0m [1,  8000] loss: 0.580
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.3762
+  date: 2021-01-05_20-24-00
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 2
+  loss: 1.7041921138763427
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 50.74612545967102
+  time_this_iter_s: 23.576955556869507
+  time_total_s: 50.74612545967102
+  timestamp: 1609878240
+  timesteps_since_restore: 0
+  training_iteration: 2
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 8.0/240.1 GiB
+Using AsyncHyperBand: num_stopped=2
+Bracket: Iter 8.000: None | Iter 4.000: None | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.3038805620193483
+Resources requested: 16/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (8 RUNNING, 2 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    |                 |            2 |    4 |   16 | 0.000111924 |         |            |                      |
+| DEFAULT_d3304_00002 | RUNNING    |                 |            4 |    8 |  128 | 0.00436986  |         |            |                      |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.70419 |     0.3762 |                    2 |
+| DEFAULT_d3304_00004 | RUNNING    |                 |            4 |   16 |   32 | 0.016474    |         |            |                      |
+| DEFAULT_d3304_00005 | RUNNING    |                 |            4 |  128 |   64 | 0.00757252  |         |            |                      |
+| DEFAULT_d3304_00006 | RUNNING    |                 |            2 |   64 |  256 | 0.00177236  |         |            |                      |
+| DEFAULT_d3304_00008 | RUNNING    |                 |            2 |   16 |   64 | 0.0310199   |         |            |                      |
+| DEFAULT_d3304_00009 | RUNNING    |                 |            4 |    4 |   32 | 0.0175239   |         |            |                      |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1567)[0m [1,  8000] loss: 0.458
+[2m[36m(pid=1585)[0m [1, 10000] loss: 0.461
+[2m[36m(pid=1505)[0m [1, 10000] loss: 0.467
+[2m[36m(pid=1565)[0m [1, 10000] loss: 0.329
+[2m[36m(pid=1504)[0m [1, 10000] loss: 0.344
+[2m[36m(pid=1572)[0m [1, 10000] loss: 0.463
+[2m[36m(pid=1568)[0m [1, 10000] loss: 0.464
+[2m[36m(pid=1567)[0m [1, 10000] loss: 0.360
+[2m[36m(pid=1588)[0m [3,  2000] loss: 1.663
+Result for DEFAULT_d3304_00002:
+  accuracy: 0.3791
+  date: 2021-01-05_20-24-18
+  done: false
+  experiment_id: eaf4d25c9a0e46219afb226ed323095b
+  experiment_tag: 2_batch_size=4,l1=8,l2=128,lr=0.0043699
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 1.6690538251161575
+  node_ip: 172.17.0.2
+  pid: 1504
+  should_checkpoint: true
+  time_since_restore: 68.1856791973114
+  time_this_iter_s: 68.1856791973114
+  time_total_s: 68.1856791973114
+  timestamp: 1609878258
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00002
+
+== Status ==
+Memory usage on this node: 8.0/240.1 GiB
+Using AsyncHyperBand: num_stopped=2
+Bracket: Iter 8.000: None | Iter 4.000: None | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.193919415283203
+Resources requested: 16/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (8 RUNNING, 2 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    |                 |            2 |    4 |   16 | 0.000111924 |         |            |                      |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.66905 |     0.3791 |                    1 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.70419 |     0.3762 |                    2 |
+| DEFAULT_d3304_00004 | RUNNING    |                 |            4 |   16 |   32 | 0.016474    |         |            |                      |
+| DEFAULT_d3304_00005 | RUNNING    |                 |            4 |  128 |   64 | 0.00757252  |         |            |                      |
+| DEFAULT_d3304_00006 | RUNNING    |                 |            2 |   64 |  256 | 0.00177236  |         |            |                      |
+| DEFAULT_d3304_00008 | RUNNING    |                 |            2 |   16 |   64 | 0.0310199   |         |            |                      |
+| DEFAULT_d3304_00009 | RUNNING    |                 |            4 |    4 |   32 | 0.0175239   |         |            |                      |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1585)[0m [1, 12000] loss: 0.384
+[2m[36m(pid=1505)[0m [1, 12000] loss: 0.390
+Result for DEFAULT_d3304_00009:
+  accuracy: 0.101
+  date: 2021-01-05_20-24-19
+  done: true
+  experiment_id: 471eb6134c2a45509b005af46861c602
+  experiment_tag: 9_batch_size=4,l1=4,l2=32,lr=0.017524
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 2.310983589553833
+  node_ip: 172.17.0.2
+  pid: 1572
+  should_checkpoint: true
+  time_since_restore: 69.29919123649597
+  time_this_iter_s: 69.29919123649597
+  time_total_s: 69.29919123649597
+  timestamp: 1609878259
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00009
+
+Result for DEFAULT_d3304_00004:
+  accuracy: 0.102
+  date: 2021-01-05_20-24-19
+  done: true
+  experiment_id: bd1f438c1fdd4a9ba98074d1cfd573fe
+  experiment_tag: 4_batch_size=4,l1=16,l2=32,lr=0.016474
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 2.313420217037201
+  node_ip: 172.17.0.2
+  pid: 1568
+  should_checkpoint: true
+  time_since_restore: 69.48366618156433
+  time_this_iter_s: 69.48366618156433
+  time_total_s: 69.48366618156433
+  timestamp: 1609878259
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00004
+
+[2m[36m(pid=1565)[0m [1, 12000] loss: 0.267
+Result for DEFAULT_d3304_00005:
+  accuracy: 0.3301
+  date: 2021-01-05_20-24-22
+  done: false
+  experiment_id: 738b3d315db548a7956646b2c07f1b0c
+  experiment_tag: 5_batch_size=4,l1=128,l2=64,lr=0.0075725
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 1.8058318739891053
+  node_ip: 172.17.0.2
+  pid: 1567
+  should_checkpoint: true
+  time_since_restore: 72.0806794166565
+  time_this_iter_s: 72.0806794166565
+  time_total_s: 72.0806794166565
+  timestamp: 1609878262
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00005
+
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.4242
+  date: 2021-01-05_20-24-23
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 3
+  loss: 1.5498835063934326
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 73.29849410057068
+  time_this_iter_s: 22.552368640899658
+  time_total_s: 73.29849410057068
+  timestamp: 1609878263
+  timesteps_since_restore: 0
+  training_iteration: 3
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 6.9/240.1 GiB
+Using AsyncHyperBand: num_stopped=4
+Bracket: Iter 8.000: None | Iter 4.000: None | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.3038805620193483
+Resources requested: 12/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (6 RUNNING, 4 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    |                 |            2 |    4 |   16 | 0.000111924 |         |            |                      |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.66905 |     0.3791 |                    1 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.54988 |     0.4242 |                    3 |
+| DEFAULT_d3304_00005 | RUNNING    | 172.17.0.2:1567 |            4 |  128 |   64 | 0.00757252  | 1.80583 |     0.3301 |                    1 |
+| DEFAULT_d3304_00006 | RUNNING    |                 |            2 |   64 |  256 | 0.00177236  |         |            |                      |
+| DEFAULT_d3304_00008 | RUNNING    |                 |            2 |   16 |   64 | 0.0310199   |         |            |                      |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1585)[0m [1, 14000] loss: 0.329
+[2m[36m(pid=1504)[0m [2,  2000] loss: 1.708
+[2m[36m(pid=1565)[0m [1, 14000] loss: 0.225
+[2m[36m(pid=1505)[0m [1, 14000] loss: 0.334
+[2m[36m(pid=1567)[0m [2,  2000] loss: 1.803
+[2m[36m(pid=1585)[0m [1, 16000] loss: 0.288
+[2m[36m(pid=1588)[0m [4,  2000] loss: 1.541
+[2m[36m(pid=1504)[0m [2,  4000] loss: 0.840
+[2m[36m(pid=1565)[0m [1, 16000] loss: 0.198
+[2m[36m(pid=1505)[0m [1, 16000] loss: 0.292
+[2m[36m(pid=1567)[0m [2,  4000] loss: 0.912
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.4494
+  date: 2021-01-05_20-24-44
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 4
+  loss: 1.4720179980278014
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 94.81268787384033
+  time_this_iter_s: 21.514193773269653
+  time_total_s: 94.81268787384033
+  timestamp: 1609878284
+  timesteps_since_restore: 0
+  training_iteration: 4
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 6.9/240.1 GiB
+Using AsyncHyperBand: num_stopped=4
+Bracket: Iter 8.000: None | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.3038805620193483
+Resources requested: 12/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (6 RUNNING, 4 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    |                 |            2 |    4 |   16 | 0.000111924 |         |            |                      |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.66905 |     0.3791 |                    1 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.47202 |     0.4494 |                    4 |
+| DEFAULT_d3304_00005 | RUNNING    | 172.17.0.2:1567 |            4 |  128 |   64 | 0.00757252  | 1.80583 |     0.3301 |                    1 |
+| DEFAULT_d3304_00006 | RUNNING    |                 |            2 |   64 |  256 | 0.00177236  |         |            |                      |
+| DEFAULT_d3304_00008 | RUNNING    |                 |            2 |   16 |   64 | 0.0310199   |         |            |                      |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1585)[0m [1, 18000] loss: 0.256
+[2m[36m(pid=1565)[0m [1, 18000] loss: 0.173
+[2m[36m(pid=1504)[0m [2,  6000] loss: 0.572
+[2m[36m(pid=1505)[0m [1, 18000] loss: 0.259
+[2m[36m(pid=1567)[0m [2,  6000] loss: 0.611
+[2m[36m(pid=1585)[0m [1, 20000] loss: 0.230
+[2m[36m(pid=1565)[0m [1, 20000] loss: 0.156
+[2m[36m(pid=1505)[0m [1, 20000] loss: 0.234
+[2m[36m(pid=1504)[0m [2,  8000] loss: 0.417
+[2m[36m(pid=1588)[0m [5,  2000] loss: 1.452
+[2m[36m(pid=1567)[0m [2,  8000] loss: 0.461
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.4839
+  date: 2021-01-05_20-25-06
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 5
+  loss: 1.4083827662467956
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 116.5817449092865
+  time_this_iter_s: 21.769057035446167
+  time_total_s: 116.5817449092865
+  timestamp: 1609878306
+  timesteps_since_restore: 0
+  training_iteration: 5
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 6.9/240.1 GiB
+Using AsyncHyperBand: num_stopped=4
+Bracket: Iter 8.000: None | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.3038805620193483
+Resources requested: 12/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (6 RUNNING, 4 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    |                 |            2 |    4 |   16 | 0.000111924 |         |            |                      |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.66905 |     0.3791 |                    1 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.40838 |     0.4839 |                    5 |
+| DEFAULT_d3304_00005 | RUNNING    | 172.17.0.2:1567 |            4 |  128 |   64 | 0.00757252  | 1.80583 |     0.3301 |                    1 |
+| DEFAULT_d3304_00006 | RUNNING    |                 |            2 |   64 |  256 | 0.00177236  |         |            |                      |
+| DEFAULT_d3304_00008 | RUNNING    |                 |            2 |   16 |   64 | 0.0310199   |         |            |                      |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1504)[0m [2, 10000] loss: 0.339
+Result for DEFAULT_d3304_00000:
+  accuracy: 0.1104
+  date: 2021-01-05_20-25-10
+  done: false
+  experiment_id: 454624d453954d46b33a1eb496e7ec53
+  experiment_tag: 0_batch_size=2,l1=4,l2=16,lr=0.00011192
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 2.2988875378131866
+  node_ip: 172.17.0.2
+  pid: 1585
+  should_checkpoint: true
+  time_since_restore: 120.59520411491394
+  time_this_iter_s: 120.59520411491394
+  time_total_s: 120.59520411491394
+  timestamp: 1609878310
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00000
+
+Result for DEFAULT_d3304_00008:
+  accuracy: 0.0983
+  date: 2021-01-05_20-25-11
+  done: true
+  experiment_id: 381603b190bc47a9b794321f7692695f
+  experiment_tag: 8_batch_size=2,l1=16,l2=64,lr=0.03102
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 2.336980807876587
+  node_ip: 172.17.0.2
+  pid: 1505
+  should_checkpoint: true
+  time_since_restore: 121.36707901954651
+  time_this_iter_s: 121.36707901954651
+  time_total_s: 121.36707901954651
+  timestamp: 1609878311
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00008
+
+Result for DEFAULT_d3304_00006:
+  accuracy: 0.4586
+  date: 2021-01-05_20-25-11
+  done: false
+  experiment_id: d8bae0fc87134e6398fd0341279c1a1a
+  experiment_tag: 6_batch_size=2,l1=64,l2=256,lr=0.0017724
+  hostname: 1a844a452371
+  iterations_since_restore: 1
+  loss: 1.5124113649010658
+  node_ip: 172.17.0.2
+  pid: 1565
+  should_checkpoint: true
+  time_since_restore: 121.536208152771
+  time_this_iter_s: 121.536208152771
+  time_total_s: 121.536208152771
+  timestamp: 1609878311
+  timesteps_since_restore: 0
+  training_iteration: 1
+  trial_id: d3304_00006
+
+== Status ==
+Memory usage on this node: 6.6/240.1 GiB
+Using AsyncHyperBand: num_stopped=5
+Bracket: Iter 8.000: None | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 10/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (5 RUNNING, 5 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    | 172.17.0.2:1585 |            2 |    4 |   16 | 0.000111924 | 2.29889 |     0.1104 |                    1 |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.66905 |     0.3791 |                    1 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.40838 |     0.4839 |                    5 |
+| DEFAULT_d3304_00005 | RUNNING    | 172.17.0.2:1567 |            4 |  128 |   64 | 0.00757252  | 1.80583 |     0.3301 |                    1 |
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.51241 |     0.4586 |                    1 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+Result for DEFAULT_d3304_00002:
+  accuracy: 0.4078
+  date: 2021-01-05_20-25-16
+  done: false
+  experiment_id: eaf4d25c9a0e46219afb226ed323095b
+  experiment_tag: 2_batch_size=4,l1=8,l2=128,lr=0.0043699
+  hostname: 1a844a452371
+  iterations_since_restore: 2
+  loss: 1.6191314194440842
+  node_ip: 172.17.0.2
+  pid: 1504
+  should_checkpoint: true
+  time_since_restore: 126.61185264587402
+  time_this_iter_s: 58.42617344856262
+  time_total_s: 126.61185264587402
+  timestamp: 1609878316
+  timesteps_since_restore: 0
+  training_iteration: 2
+  trial_id: d3304_00002
+
+[2m[36m(pid=1567)[0m [2, 10000] loss: 0.371
+[2m[36m(pid=1585)[0m [2,  2000] loss: 2.298
+[2m[36m(pid=1565)[0m [2,  2000] loss: 1.466
+[2m[36m(pid=1588)[0m [6,  2000] loss: 1.383
+Result for DEFAULT_d3304_00005:
+  accuracy: 0.3647
+  date: 2021-01-05_20-25-24
+  done: true
+  experiment_id: 738b3d315db548a7956646b2c07f1b0c
+  experiment_tag: 5_batch_size=4,l1=128,l2=64,lr=0.0075725
+  hostname: 1a844a452371
+  iterations_since_restore: 2
+  loss: 1.7739140236496926
+  node_ip: 172.17.0.2
+  pid: 1567
+  should_checkpoint: true
+  time_since_restore: 134.1462869644165
+  time_this_iter_s: 62.06560754776001
+  time_total_s: 134.1462869644165
+  timestamp: 1609878324
+  timesteps_since_restore: 0
+  training_iteration: 2
+  trial_id: d3304_00005
+
+== Status ==
+Memory usage on this node: 6.3/240.1 GiB
+Using AsyncHyperBand: num_stopped=6
+Bracket: Iter 8.000: None | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 10/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (5 RUNNING, 5 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    | 172.17.0.2:1585 |            2 |    4 |   16 | 0.000111924 | 2.29889 |     0.1104 |                    1 |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.61913 |     0.4078 |                    2 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.40838 |     0.4839 |                    5 |
+| DEFAULT_d3304_00005 | RUNNING    | 172.17.0.2:1567 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.51241 |     0.4586 |                    1 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1504)[0m [3,  2000] loss: 1.656
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.5061
+  date: 2021-01-05_20-25-27
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 6
+  loss: 1.3623717227935792
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 137.95851016044617
+  time_this_iter_s: 21.376765251159668
+  time_total_s: 137.95851016044617
+  timestamp: 1609878327
+  timesteps_since_restore: 0
+  training_iteration: 6
+  trial_id: d3304_00003
+
+[2m[36m(pid=1585)[0m [2,  4000] loss: 1.147
+[2m[36m(pid=1565)[0m [2,  4000] loss: 0.749
+[2m[36m(pid=1504)[0m [3,  4000] loss: 0.838
+[2m[36m(pid=1585)[0m [2,  6000] loss: 0.760
+[2m[36m(pid=1565)[0m [2,  6000] loss: 0.498
+[2m[36m(pid=1588)[0m [7,  2000] loss: 1.326
+[2m[36m(pid=1504)[0m [3,  6000] loss: 0.560
+[2m[36m(pid=1585)[0m [2,  8000] loss: 0.561
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.5209
+  date: 2021-01-05_20-25-48
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 7
+  loss: 1.316757419013977
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 158.4953932762146
+  time_this_iter_s: 20.536883115768433
+  time_total_s: 158.4953932762146
+  timestamp: 1609878348
+  timesteps_since_restore: 0
+  training_iteration: 7
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 5.8/240.1 GiB
+Using AsyncHyperBand: num_stopped=6
+Bracket: Iter 8.000: None | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 8/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (4 RUNNING, 6 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    | 172.17.0.2:1585 |            2 |    4 |   16 | 0.000111924 | 2.29889 |     0.1104 |                    1 |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.61913 |     0.4078 |                    2 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.31676 |     0.5209 |                    7 |
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.51241 |     0.4586 |                    1 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1565)[0m [2,  8000] loss: 0.372
+[2m[36m(pid=1504)[0m [3,  8000] loss: 0.416
+[2m[36m(pid=1585)[0m [2, 10000] loss: 0.434
+[2m[36m(pid=1565)[0m [2, 10000] loss: 0.292
+[2m[36m(pid=1588)[0m [8,  2000] loss: 1.278
+[2m[36m(pid=1504)[0m [3, 10000] loss: 0.333
+[2m[36m(pid=1585)[0m [2, 12000] loss: 0.347
+[2m[36m(pid=1565)[0m [2, 12000] loss: 0.245
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.5406
+  date: 2021-01-05_20-26-08
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 8
+  loss: 1.267511115884781
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 179.13841199874878
+  time_this_iter_s: 20.64301872253418
+  time_total_s: 179.13841199874878
+  timestamp: 1609878368
+  timesteps_since_restore: 0
+  training_iteration: 8
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 5.8/240.1 GiB
+Using AsyncHyperBand: num_stopped=6
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 8/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (4 RUNNING, 6 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    | 172.17.0.2:1585 |            2 |    4 |   16 | 0.000111924 | 2.29889 |     0.1104 |                    1 |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.61913 |     0.4078 |                    2 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.26751 |     0.5406 |                    8 |
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.51241 |     0.4586 |                    1 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+Result for DEFAULT_d3304_00002:
+  accuracy: 0.3997
+  date: 2021-01-05_20-26-11
+  done: false
+  experiment_id: eaf4d25c9a0e46219afb226ed323095b
+  experiment_tag: 2_batch_size=4,l1=8,l2=128,lr=0.0043699
+  hostname: 1a844a452371
+  iterations_since_restore: 3
+  loss: 1.7084122330278158
+  node_ip: 172.17.0.2
+  pid: 1504
+  should_checkpoint: true
+  time_since_restore: 182.02509140968323
+  time_this_iter_s: 55.413238763809204
+  time_total_s: 182.02509140968323
+  timestamp: 1609878371
+  timesteps_since_restore: 0
+  training_iteration: 3
+  trial_id: d3304_00002
+
+[2m[36m(pid=1585)[0m [2, 14000] loss: 0.290
+[2m[36m(pid=1565)[0m [2, 14000] loss: 0.213
+[2m[36m(pid=1504)[0m [4,  2000] loss: 1.653
+[2m[36m(pid=1588)[0m [9,  2000] loss: 1.245
+[2m[36m(pid=1585)[0m [2, 16000] loss: 0.244
+[2m[36m(pid=1565)[0m [2, 16000] loss: 0.186
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.5409
+  date: 2021-01-05_20-26-29
+  done: false
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 9
+  loss: 1.2721123942375183
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 199.56540870666504
+  time_this_iter_s: 20.42699670791626
+  time_total_s: 199.56540870666504
+  timestamp: 1609878389
+  timesteps_since_restore: 0
+  training_iteration: 9
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 5.8/240.1 GiB
+Using AsyncHyperBand: num_stopped=6
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 8/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (4 RUNNING, 6 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    | 172.17.0.2:1585 |            2 |    4 |   16 | 0.000111924 | 2.29889 |     0.1104 |                    1 |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.70841 |     0.3997 |                    3 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.27211 |     0.5409 |                    9 |
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.51241 |     0.4586 |                    1 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1504)[0m [4,  4000] loss: 0.842
+[2m[36m(pid=1585)[0m [2, 18000] loss: 0.214
+[2m[36m(pid=1565)[0m [2, 18000] loss: 0.159
+[2m[36m(pid=1504)[0m [4,  6000] loss: 0.561
+[2m[36m(pid=1585)[0m [2, 20000] loss: 0.191
+[2m[36m(pid=1588)[0m [10,  2000] loss: 1.210
+[2m[36m(pid=1565)[0m [2, 20000] loss: 0.143
+Result for DEFAULT_d3304_00003:
+  accuracy: 0.5619
+  date: 2021-01-05_20-26-50
+  done: true
+  experiment_id: d4b00469893d498ea65a729df202882a
+  experiment_tag: 3_batch_size=16,l1=32,l2=4,lr=0.0012023
+  hostname: 1a844a452371
+  iterations_since_restore: 10
+  loss: 1.2222298237800597
+  node_ip: 172.17.0.2
+  pid: 1588
+  should_checkpoint: true
+  time_since_restore: 220.31984639167786
+  time_this_iter_s: 20.754437685012817
+  time_total_s: 220.31984639167786
+  timestamp: 1609878410
+  timesteps_since_restore: 0
+  training_iteration: 10
+  trial_id: d3304_00003
+
+== Status ==
+Memory usage on this node: 5.8/240.1 GiB
+Using AsyncHyperBand: num_stopped=7
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 8/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (4 RUNNING, 6 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    | 172.17.0.2:1585 |            2 |    4 |   16 | 0.000111924 | 2.29889 |     0.1104 |                    1 |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.70841 |     0.3997 |                    3 |
+| DEFAULT_d3304_00003 | RUNNING    | 172.17.0.2:1588 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.51241 |     0.4586 |                    1 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1504)[0m [4,  8000] loss: 0.422
+Result for DEFAULT_d3304_00000:
+  accuracy: 0.2724
+  date: 2021-01-05_20-26-55
+  done: true
+  experiment_id: 454624d453954d46b33a1eb496e7ec53
+  experiment_tag: 0_batch_size=2,l1=4,l2=16,lr=0.00011192
+  hostname: 1a844a452371
+  iterations_since_restore: 2
+  loss: 1.8605026947617531
+  node_ip: 172.17.0.2
+  pid: 1585
+  should_checkpoint: true
+  time_since_restore: 225.84529209136963
+  time_this_iter_s: 105.25008797645569
+  time_total_s: 225.84529209136963
+  timestamp: 1609878415
+  timesteps_since_restore: 0
+  training_iteration: 2
+  trial_id: d3304_00000
+
+== Status ==
+Memory usage on this node: 5.3/240.1 GiB
+Using AsyncHyperBand: num_stopped=8
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.4720179980278014 | Iter 2.000: -1.7390530687630177 | Iter 1.000: -2.301384049916267
+Resources requested: 6/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (3 RUNNING, 7 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | RUNNING    | 172.17.0.2:1585 |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.70841 |     0.3997 |                    3 |
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.51241 |     0.4586 |                    1 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00003 | TERMINATED |                 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+Result for DEFAULT_d3304_00006:
+  accuracy: 0.5007
+  date: 2021-01-05_20-26-57
+  done: false
+  experiment_id: d8bae0fc87134e6398fd0341279c1a1a
+  experiment_tag: 6_batch_size=2,l1=64,l2=256,lr=0.0017724
+  hostname: 1a844a452371
+  iterations_since_restore: 2
+  loss: 1.3979384284215048
+  node_ip: 172.17.0.2
+  pid: 1565
+  should_checkpoint: true
+  time_since_restore: 227.80454421043396
+  time_this_iter_s: 106.26833605766296
+  time_total_s: 227.80454421043396
+  timestamp: 1609878417
+  timesteps_since_restore: 0
+  training_iteration: 2
+  trial_id: d3304_00006
+
+[2m[36m(pid=1504)[0m [4, 10000] loss: 0.335
+Result for DEFAULT_d3304_00002:
+  accuracy: 0.3849
+  date: 2021-01-05_20-27-06
+  done: true
+  experiment_id: eaf4d25c9a0e46219afb226ed323095b
+  experiment_tag: 2_batch_size=4,l1=8,l2=128,lr=0.0043699
+  hostname: 1a844a452371
+  iterations_since_restore: 4
+  loss: 1.720731588792801
+  node_ip: 172.17.0.2
+  pid: 1504
+  should_checkpoint: true
+  time_since_restore: 236.71593952178955
+  time_this_iter_s: 54.69084811210632
+  time_total_s: 236.71593952178955
+  timestamp: 1609878426
+  timesteps_since_restore: 0
+  training_iteration: 4
+  trial_id: d3304_00002
+
+== Status ==
+Memory usage on this node: 4.7/240.1 GiB
+Using AsyncHyperBand: num_stopped=9
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.5963747934103012 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 4/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (2 RUNNING, 8 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00002 | RUNNING    | 172.17.0.2:1504 |            4 |    8 |  128 | 0.00436986  | 1.72073 |     0.3849 |                    4 |
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.39794 |     0.5007 |                    2 |
+| DEFAULT_d3304_00000 | TERMINATED |                 |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00003 | TERMINATED |                 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1565)[0m [3,  2000] loss: 1.373
+[2m[36m(pid=1565)[0m [3,  4000] loss: 0.696
+[2m[36m(pid=1565)[0m [3,  6000] loss: 0.466
+[2m[36m(pid=1565)[0m [3,  8000] loss: 0.357
+[2m[36m(pid=1565)[0m [3, 10000] loss: 0.283
+[2m[36m(pid=1565)[0m [3, 12000] loss: 0.241
+[2m[36m(pid=1565)[0m [3, 14000] loss: 0.203
+[2m[36m(pid=1565)[0m [3, 16000] loss: 0.178
+[2m[36m(pid=1565)[0m [3, 18000] loss: 0.160
+[2m[36m(pid=1565)[0m [3, 20000] loss: 0.142
+Result for DEFAULT_d3304_00006:
+  accuracy: 0.5095
+  date: 2021-01-05_20-28-36
+  done: false
+  experiment_id: d8bae0fc87134e6398fd0341279c1a1a
+  experiment_tag: 6_batch_size=2,l1=64,l2=256,lr=0.0017724
+  hostname: 1a844a452371
+  iterations_since_restore: 3
+  loss: 1.4272501501079649
+  node_ip: 172.17.0.2
+  pid: 1565
+  should_checkpoint: true
+  time_since_restore: 326.1525847911835
+  time_this_iter_s: 98.34804058074951
+  time_total_s: 326.1525847911835
+  timestamp: 1609878516
+  timesteps_since_restore: 0
+  training_iteration: 3
+  trial_id: d3304_00006
+
+== Status ==
+Memory usage on this node: 4.2/240.1 GiB
+Using AsyncHyperBand: num_stopped=9
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.5963747934103012 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 2/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (1 RUNNING, 9 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.42725 |     0.5095 |                    3 |
+| DEFAULT_d3304_00000 | TERMINATED |                 |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00002 | TERMINATED |                 |            4 |    8 |  128 | 0.00436986  | 1.72073 |     0.3849 |                    4 |
+| DEFAULT_d3304_00003 | TERMINATED |                 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1565)[0m [4,  2000] loss: 1.320
+[2m[36m(pid=1565)[0m [4,  4000] loss: 0.701
+[2m[36m(pid=1565)[0m [4,  6000] loss: 0.454
+[2m[36m(pid=1565)[0m [4,  8000] loss: 0.345
+[2m[36m(pid=1565)[0m [4, 10000] loss: 0.276
+[2m[36m(pid=1565)[0m [4, 12000] loss: 0.234
+[2m[36m(pid=1565)[0m [4, 14000] loss: 0.199
+[2m[36m(pid=1565)[0m [4, 16000] loss: 0.170
+[2m[36m(pid=1565)[0m [4, 18000] loss: 0.151
+[2m[36m(pid=1565)[0m [4, 20000] loss: 0.144
+Result for DEFAULT_d3304_00006:
+  accuracy: 0.4749
+  date: 2021-01-05_20-30-15
+  done: false
+  experiment_id: d8bae0fc87134e6398fd0341279c1a1a
+  experiment_tag: 6_batch_size=2,l1=64,l2=256,lr=0.0017724
+  hostname: 1a844a452371
+  iterations_since_restore: 4
+  loss: 1.4950430885698218
+  node_ip: 172.17.0.2
+  pid: 1565
+  should_checkpoint: true
+  time_since_restore: 425.3827154636383
+  time_this_iter_s: 99.23013067245483
+  time_total_s: 425.3827154636383
+  timestamp: 1609878615
+  timesteps_since_restore: 0
+  training_iteration: 4
+  trial_id: d3304_00006
+
+== Status ==
+Memory usage on this node: 4.1/240.1 GiB
+Using AsyncHyperBand: num_stopped=9
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.4950430885698218 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 2/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (1 RUNNING, 9 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.49504 |     0.4749 |                    4 |
+| DEFAULT_d3304_00000 | TERMINATED |                 |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00002 | TERMINATED |                 |            4 |    8 |  128 | 0.00436986  | 1.72073 |     0.3849 |                    4 |
+| DEFAULT_d3304_00003 | TERMINATED |                 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1565)[0m [5,  2000] loss: 1.314
+[2m[36m(pid=1565)[0m [5,  4000] loss: 0.663
+[2m[36m(pid=1565)[0m [5,  6000] loss: 0.453
+[2m[36m(pid=1565)[0m [5,  8000] loss: 0.341
+[2m[36m(pid=1565)[0m [5, 10000] loss: 0.278
+[2m[36m(pid=1565)[0m [5, 12000] loss: 0.235
+[2m[36m(pid=1565)[0m [5, 14000] loss: 0.197
+[2m[36m(pid=1565)[0m [5, 16000] loss: 0.173
+[2m[36m(pid=1565)[0m [5, 18000] loss: 0.155
+[2m[36m(pid=1565)[0m [5, 20000] loss: 0.137
+Result for DEFAULT_d3304_00006:
+  accuracy: 0.531
+  date: 2021-01-05_20-31-56
+  done: false
+  experiment_id: d8bae0fc87134e6398fd0341279c1a1a
+  experiment_tag: 6_batch_size=2,l1=64,l2=256,lr=0.0017724
+  hostname: 1a844a452371
+  iterations_since_restore: 5
+  loss: 1.373500657767952
+  node_ip: 172.17.0.2
+  pid: 1565
+  should_checkpoint: true
+  time_since_restore: 526.6667892932892
+  time_this_iter_s: 101.28407382965088
+  time_total_s: 526.6667892932892
+  timestamp: 1609878716
+  timesteps_since_restore: 0
+  training_iteration: 5
+  trial_id: d3304_00006
+
+== Status ==
+Memory usage on this node: 4.1/240.1 GiB
+Using AsyncHyperBand: num_stopped=9
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.4950430885698218 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 2/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (1 RUNNING, 9 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.3735  |     0.531  |                    5 |
+| DEFAULT_d3304_00000 | TERMINATED |                 |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00002 | TERMINATED |                 |            4 |    8 |  128 | 0.00436986  | 1.72073 |     0.3849 |                    4 |
+| DEFAULT_d3304_00003 | TERMINATED |                 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1565)[0m [6,  2000] loss: 1.325
+[2m[36m(pid=1565)[0m [6,  4000] loss: 0.668
+[2m[36m(pid=1565)[0m [6,  6000] loss: 0.457
+[2m[36m(pid=1565)[0m [6,  8000] loss: 0.338
+[2m[36m(pid=1565)[0m [6, 10000] loss: 0.283
+[2m[36m(pid=1565)[0m [6, 12000] loss: 0.232
+[2m[36m(pid=1565)[0m [6, 14000] loss: 0.198
+[2m[36m(pid=1565)[0m [6, 16000] loss: 0.175
+[2m[36m(pid=1565)[0m [6, 18000] loss: 0.149
+[2m[36m(pid=1565)[0m [6, 20000] loss: 0.140
+Result for DEFAULT_d3304_00006:
+  accuracy: 0.4852
+  date: 2021-01-05_20-33-55
+  done: false
+  experiment_id: d8bae0fc87134e6398fd0341279c1a1a
+  experiment_tag: 6_batch_size=2,l1=64,l2=256,lr=0.0017724
+  hostname: 1a844a452371
+  iterations_since_restore: 6
+  loss: 1.5015573524537555
+  node_ip: 172.17.0.2
+  pid: 1565
+  should_checkpoint: true
+  time_since_restore: 645.3050956726074
+  time_this_iter_s: 118.63830637931824
+  time_total_s: 645.3050956726074
+  timestamp: 1609878835
+  timesteps_since_restore: 0
+  training_iteration: 6
+  trial_id: d3304_00006
+
+== Status ==
+Memory usage on this node: 4.1/240.1 GiB
+Using AsyncHyperBand: num_stopped=9
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.4950430885698218 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 2/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (1 RUNNING, 9 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.50156 |     0.4852 |                    6 |
+| DEFAULT_d3304_00000 | TERMINATED |                 |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00002 | TERMINATED |                 |            4 |    8 |  128 | 0.00436986  | 1.72073 |     0.3849 |                    4 |
+| DEFAULT_d3304_00003 | TERMINATED |                 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1565)[0m [7,  2000] loss: 1.295
+[2m[36m(pid=1565)[0m [7,  4000] loss: 0.662
+[2m[36m(pid=1565)[0m [7,  6000] loss: 0.452
+[2m[36m(pid=1565)[0m [7,  8000] loss: 0.339
+[2m[36m(pid=1565)[0m [7, 10000] loss: 0.270
+[2m[36m(pid=1565)[0m [7, 12000] loss: 0.235
+[2m[36m(pid=1565)[0m [7, 14000] loss: 0.193
+[2m[36m(pid=1565)[0m [7, 16000] loss: 0.169
+[2m[36m(pid=1565)[0m [7, 18000] loss: 0.154
+[2m[36m(pid=1565)[0m [7, 20000] loss: 0.137
+Result for DEFAULT_d3304_00006:
+  accuracy: 0.4696
+  date: 2021-01-05_20-35-52
+  done: false
+  experiment_id: d8bae0fc87134e6398fd0341279c1a1a
+  experiment_tag: 6_batch_size=2,l1=64,l2=256,lr=0.0017724
+  hostname: 1a844a452371
+  iterations_since_restore: 7
+  loss: 1.5851255111492393
+  node_ip: 172.17.0.2
+  pid: 1565
+  should_checkpoint: true
+  time_since_restore: 762.1866834163666
+  time_this_iter_s: 116.88158774375916
+  time_total_s: 762.1866834163666
+  timestamp: 1609878952
+  timesteps_since_restore: 0
+  training_iteration: 7
+  trial_id: d3304_00006
+
+== Status ==
+Memory usage on this node: 4.1/240.1 GiB
+Using AsyncHyperBand: num_stopped=9
+Bracket: Iter 8.000: -1.267511115884781 | Iter 4.000: -1.4950430885698218 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 2/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (1 RUNNING, 9 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.58513 |     0.4696 |                    7 |
+| DEFAULT_d3304_00000 | TERMINATED |                 |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00002 | TERMINATED |                 |            4 |    8 |  128 | 0.00436986  | 1.72073 |     0.3849 |                    4 |
+| DEFAULT_d3304_00003 | TERMINATED |                 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+[2m[36m(pid=1565)[0m [8,  2000] loss: 1.341
+[2m[36m(pid=1565)[0m [8,  4000] loss: 0.667
+[2m[36m(pid=1565)[0m [8,  6000] loss: 0.445
+[2m[36m(pid=1565)[0m [8,  8000] loss: 0.336
+[2m[36m(pid=1565)[0m [8, 10000] loss: 0.271
+[2m[36m(pid=1565)[0m [8, 12000] loss: 0.228
+[2m[36m(pid=1565)[0m [8, 14000] loss: 0.196
+[2m[36m(pid=1565)[0m [8, 16000] loss: 0.175
+[2m[36m(pid=1565)[0m [8, 18000] loss: 0.155
+[2m[36m(pid=1565)[0m [8, 20000] loss: 0.135
+Result for DEFAULT_d3304_00006:
+  accuracy: 0.467
+  date: 2021-01-05_20-37-32
+  done: true
+  experiment_id: d8bae0fc87134e6398fd0341279c1a1a
+  experiment_tag: 6_batch_size=2,l1=64,l2=256,lr=0.0017724
+  hostname: 1a844a452371
+  iterations_since_restore: 8
+  loss: 1.6539037554110967
+  node_ip: 172.17.0.2
+  pid: 1565
+  should_checkpoint: true
+  time_since_restore: 862.3724186420441
+  time_this_iter_s: 100.18573522567749
+  time_total_s: 862.3724186420441
+  timestamp: 1609879052
+  timesteps_since_restore: 0
+  training_iteration: 8
+  trial_id: d3304_00006
+
+== Status ==
+Memory usage on this node: 4.1/240.1 GiB
+Using AsyncHyperBand: num_stopped=10
+Bracket: Iter 8.000: -1.4607074356479388 | Iter 4.000: -1.4950430885698218 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 2/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (1 RUNNING, 9 TERMINATED)
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc             |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00006 | RUNNING    | 172.17.0.2:1565 |            2 |   64 |  256 | 0.00177236  | 1.6539  |     0.467  |                    8 |
+| DEFAULT_d3304_00000 | TERMINATED |                 |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00001 | TERMINATED |                 |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00002 | TERMINATED |                 |            4 |    8 |  128 | 0.00436986  | 1.72073 |     0.3849 |                    4 |
+| DEFAULT_d3304_00003 | TERMINATED |                 |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |                 |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |                 |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00007 | TERMINATED |                 |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |                 |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |                 |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-----------------+--------------+------+------+-------------+---------+------------+----------------------+
+
+== Status ==
+Memory usage on this node: 4.0/240.1 GiB
+Using AsyncHyperBand: num_stopped=10
+Bracket: Iter 8.000: -1.4607074356479388 | Iter 4.000: -1.4950430885698218 | Iter 2.000: -1.7041921138763427 | Iter 1.000: -2.301384049916267
+Resources requested: 0/32 CPUs, 0/2 GPUs, 0.0/157.71 GiB heap, 0.0/49.37 GiB objects
+Result logdir: /var/lib/jenkins/ray_results/DEFAULT_2021-01-05_20-23-08
+Number of trials: 10/10 (10 TERMINATED)
++---------------------+------------+-------+--------------+------+------+-------------+---------+------------+----------------------+
+| Trial name          | status     | loc   |   batch_size |   l1 |   l2 |          lr |    loss |   accuracy |   training_iteration |
+|---------------------+------------+-------+--------------+------+------+-------------+---------+------------+----------------------|
+| DEFAULT_d3304_00000 | TERMINATED |       |            2 |    4 |   16 | 0.000111924 | 1.8605  |     0.2724 |                    2 |
+| DEFAULT_d3304_00001 | TERMINATED |       |            8 |   16 |   32 | 0.077467    | 2.32186 |     0.1017 |                    1 |
+| DEFAULT_d3304_00002 | TERMINATED |       |            4 |    8 |  128 | 0.00436986  | 1.72073 |     0.3849 |                    4 |
+| DEFAULT_d3304_00003 | TERMINATED |       |           16 |   32 |    4 | 0.00120234  | 1.22223 |     0.5619 |                   10 |
+| DEFAULT_d3304_00004 | TERMINATED |       |            4 |   16 |   32 | 0.016474    | 2.31342 |     0.102  |                    1 |
+| DEFAULT_d3304_00005 | TERMINATED |       |            4 |  128 |   64 | 0.00757252  | 1.77391 |     0.3647 |                    2 |
+| DEFAULT_d3304_00006 | TERMINATED |       |            2 |   64 |  256 | 0.00177236  | 1.6539  |     0.467  |                    8 |
+| DEFAULT_d3304_00007 | TERMINATED |       |            8 |    8 |    8 | 0.000155891 | 2.30388 |     0.1011 |                    1 |
+| DEFAULT_d3304_00008 | TERMINATED |       |            2 |   16 |   64 | 0.0310199   | 2.33698 |     0.0983 |                    1 |
+| DEFAULT_d3304_00009 | TERMINATED |       |            4 |    4 |   32 | 0.0175239   | 2.31098 |     0.101  |                    1 |
++---------------------+------------+-------+--------------+------+------+-------------+---------+------------+----------------------+
+
+Best trial config: {'l1': 32, 'l2': 4, 'lr': 0.0012023396319256663, 'batch_size': 16}
+Best trial final validation loss: 1.2222298237800597
+Best trial final validation accuracy: 0.5619
+Files already downloaded and verified
+Files already downloaded and verified
+Best trial test set accuracy: 0.5537
+
+```
+
+如果运行代码，则示例输出如下所示：
+
+为了避免浪费资源，大多数审判​​已提早停止。 效果最好的试验的验证准确率约为 58%，可以在测试仪上进行确认。
+
+就是这样了！ 您现在可以调整 PyTorch 模型的参数。
+
+**脚本的总运行时间**：（14 分钟 43.400 秒）
+
+[下载 Python 源码：`hyperparameter_tuning_tutorial.py`](../_downloads/95074cd7ce8c3e57a92e7a9c49182e6a/hyperparameter_tuning_tutorial.py)
+
+[下载 Jupyter 笔记本：`hyperparameter_tuning_tutorial.ipynb`](../_downloads/c24b93738bc036c1b66d0387555bf69a/hyperparameter_tuning_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/54.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/54.md
new file mode 100644
index 00000000..e158b5e8
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/54.md
@@ -0,0 +1,781 @@
+# 模型剪裁教程
+
+> 原文：<https://pytorch.org/tutorials/intermediate/pruning_tutorial.html>
+
+**作者**： [Michela Paganini](https://github.com/mickypaganini)
+
+最新的深度学习技术依赖于难以部署的过度参数化模型。 相反，已知生物神经网络使用有效的稀疏连通性。 为了减少内存，电池和硬件消耗，同时又不牺牲精度，在设备上部署轻量级模型并通过私有设备上计算来确保私密性，确定通过减少模型中的参数数量来压缩模型的最佳技术很重要。 在研究方面，剪裁用于研究参数过度配置和参数不足网络在学习动态方面的差异，以研究幸运的稀疏子网络的作用（[“彩票”](https://arxiv.org/abs/1803.03635)），以及初始化，作为破坏性的神经结构搜索技术等等。
+
+在本教程中，您将学习如何使用`torch.nn.utils.prune`稀疏神经网络，以及如何扩展它以实现自己的自定义剪裁技术。
+
+## 要求
+
+`"torch>=1.4.0a0+8e8a5e0"`
+
+```py
+import torch
+from torch import nn
+import torch.nn.utils.prune as prune
+import torch.nn.functional as F
+
+```
+
+## 创建模型
+
+在本教程中，我们使用 LeCun 等人，1998 年的 [LeNet](http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf) 架构。
+
+```py
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+class LeNet(nn.Module):
+    def __init__(self):
+        super(LeNet, self).__init__()
+        # 1 input image channel, 6 output channels, 3x3 square conv kernel
+        self.conv1 = nn.Conv2d(1, 6, 3)
+        self.conv2 = nn.Conv2d(6, 16, 3)
+        self.fc1 = nn.Linear(16 * 5 * 5, 120)  # 5x5 image dimension
+        self.fc2 = nn.Linear(120, 84)
+        self.fc3 = nn.Linear(84, 10)
+
+    def forward(self, x):
+        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
+        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
+        x = x.view(-1, int(x.nelement() / x.shape[0]))
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+model = LeNet().to(device=device)
+
+```
+
+## 检查模块
+
+让我们检查一下 LeNet 模型中的（未剪裁）`conv1`层。 现在它将包含两个参数`weight`和`bias`，并且没有缓冲区。
+
+```py
+module = model.conv1
+print(list(module.named_parameters()))
+
+```
+
+出：
+
+```py
+[('weight', Parameter containing:
+tensor([[[[ 0.1552,  0.0102, -0.1944],
+          [ 0.0263,  0.1374, -0.3139],
+          [ 0.2838,  0.1943,  0.0948]]],
+
+        [[[-0.0296, -0.2514,  0.1300],
+          [ 0.0756, -0.3155, -0.2900],
+          [-0.1840,  0.1143, -0.0120]]],
+
+        [[[-0.2383, -0.3022,  0.2295],
+          [-0.0050,  0.2485, -0.3230],
+          [-0.1317, -0.0054,  0.2659]]],
+
+        [[[-0.0932,  0.1316,  0.0670],
+          [ 0.0572, -0.1845,  0.0870],
+          [ 0.1372,  0.1080,  0.0324]]],
+
+        [[[ 0.0908, -0.3280,  0.0365],
+          [-0.3108,  0.2317, -0.2271],
+          [ 0.1171,  0.2113, -0.2259]]],
+
+        [[[ 0.0407,  0.0512,  0.0954],
+          [-0.0437,  0.0302, -0.1317],
+          [ 0.2573,  0.0626,  0.0883]]]], device='cuda:0', requires_grad=True)), ('bias', Parameter containing:
+tensor([-0.1803,  0.1331, -0.3267,  0.3173, -0.0349,  0.1828], device='cuda:0',
+       requires_grad=True))]
+
+```
+
+```py
+print(list(module.named_buffers()))
+
+```
+
+出：
+
+```py
+[]
+
+```
+
+## 剪裁模块
+
+要剪裁模块（在此示例中，为 LeNet 架构的`conv1`层），请首先从`torch.nn.utils.prune`中可用的那些技术中选择一种剪裁技术（或[通过子类化`BasePruningMethod`实现您自己的东西](#extending-torch-nn-utils-pruning-with-custom-pruning-functions)）。 然后，指定模块和该模块中要剪裁的参数的名称。 最后，使用所选剪裁技术所需的适当关键字参数，指定剪裁参数。
+
+在此示例中，我们将在`conv1`层中名为`weight`的参数中随机剪裁 30% 的连接。 模块作为第一个参数传递给函数； `name`使用其字符串标识符在该模块中标识参数； `amount`表示与剪裁的连接百分比（如果是介于 0 和 1 之间的浮点数），或表示与剪裁的连接的绝对数量（如果它是非负整数）。
+
+```py
+prune.random_unstructured(module, name="weight", amount=0.3)
+
+```
+
+剪裁是通过从参数中删除`weight`并将其替换为名为`weight_orig`的新参数（即，将`"_orig"`附加到初始参数`name`）来进行的。 `weight_orig`存储未剪裁的张量版本。 `bias`未剪裁，因此它将保持完整。
+
+```py
+print(list(module.named_parameters()))
+
+```
+
+出：
+
+```py
+[('bias', Parameter containing:
+tensor([-0.1803,  0.1331, -0.3267,  0.3173, -0.0349,  0.1828], device='cuda:0',
+       requires_grad=True)), ('weight_orig', Parameter containing:
+tensor([[[[ 0.1552,  0.0102, -0.1944],
+          [ 0.0263,  0.1374, -0.3139],
+          [ 0.2838,  0.1943,  0.0948]]],
+
+        [[[-0.0296, -0.2514,  0.1300],
+          [ 0.0756, -0.3155, -0.2900],
+          [-0.1840,  0.1143, -0.0120]]],
+
+        [[[-0.2383, -0.3022,  0.2295],
+          [-0.0050,  0.2485, -0.3230],
+          [-0.1317, -0.0054,  0.2659]]],
+
+        [[[-0.0932,  0.1316,  0.0670],
+          [ 0.0572, -0.1845,  0.0870],
+          [ 0.1372,  0.1080,  0.0324]]],
+
+        [[[ 0.0908, -0.3280,  0.0365],
+          [-0.3108,  0.2317, -0.2271],
+          [ 0.1171,  0.2113, -0.2259]]],
+
+        [[[ 0.0407,  0.0512,  0.0954],
+          [-0.0437,  0.0302, -0.1317],
+          [ 0.2573,  0.0626,  0.0883]]]], device='cuda:0', requires_grad=True))]
+
+```
+
+通过以上选择的剪裁技术生成的剪裁掩码将保存为名为`weight_mask`的模块缓冲区（即，将`"_mask"`附加到初始参数`name`）。
+
+```py
+print(list(module.named_buffers()))
+
+```
+
+出：
+
+```py
+[('weight_mask', tensor([[[[1., 1., 0.],
+          [0., 0., 1.],
+          [1., 0., 1.]]],
+
+        [[[1., 1., 1.],
+          [1., 1., 1.],
+          [1., 1., 1.]]],
+
+        [[[1., 1., 0.],
+          [1., 0., 0.],
+          [1., 0., 1.]]],
+
+        [[[1., 1., 1.],
+          [1., 0., 1.],
+          [1., 1., 1.]]],
+
+        [[[1., 1., 1.],
+          [0., 0., 1.],
+          [1., 1., 1.]]],
+
+        [[[1., 0., 0.],
+          [1., 0., 1.],
+          [1., 0., 0.]]]], device='cuda:0'))]
+
+```
+
+为了使正向传播不更改即可工作，需要存在`weight`属性。 在`torch.nn.utils.prune`中实现的剪裁技术计算权重的剪裁版本（通过将掩码与原始参数组合）并将它们存储在属性`weight`中。 注意，这不再是`module`的参数，现在只是一个属性。
+
+```py
+print(module.weight)
+
+```
+
+出：
+
+```py
+tensor([[[[ 0.1552,  0.0102, -0.0000],
+          [ 0.0000,  0.0000, -0.3139],
+          [ 0.2838,  0.0000,  0.0948]]],
+
+        [[[-0.0296, -0.2514,  0.1300],
+          [ 0.0756, -0.3155, -0.2900],
+          [-0.1840,  0.1143, -0.0120]]],
+
+        [[[-0.2383, -0.3022,  0.0000],
+          [-0.0050,  0.0000, -0.0000],
+          [-0.1317, -0.0000,  0.2659]]],
+
+        [[[-0.0932,  0.1316,  0.0670],
+          [ 0.0572, -0.0000,  0.0870],
+          [ 0.1372,  0.1080,  0.0324]]],
+
+        [[[ 0.0908, -0.3280,  0.0365],
+          [-0.0000,  0.0000, -0.2271],
+          [ 0.1171,  0.2113, -0.2259]]],
+
+        [[[ 0.0407,  0.0000,  0.0000],
+          [-0.0437,  0.0000, -0.1317],
+          [ 0.2573,  0.0000,  0.0000]]]], device='cuda:0',
+       grad_fn=<MulBackward0>)
+
+```
+
+最后，使用 PyTorch 的`forward_pre_hooks`在每次向前传递之前应用剪裁。 具体来说，当剪裁`module`时（如我们在此处所做的那样），它将为与之关联的每个参数获取`forward_pre_hook`进行剪裁。 在这种情况下，由于到目前为止我们只剪裁了名称为`weight`的原始参数，因此只会出现一个钩子。
+
+```py
+print(module._forward_pre_hooks)
+
+```
+
+出：
+
+```py
+OrderedDict([(0, <torch.nn.utils.prune.RandomUnstructured object at 0x7fda78275e48>)])
+
+```
+
+为了完整起见，我们现在也可以剪裁`bias`，以查看`module`的参数，缓冲区，挂钩和属性如何变化。 仅出于尝试另一种剪裁技术的目的，在此我们按 L1 范数剪裁偏差中的 3 个最小条目，如`l1_unstructured`剪裁函数中所实现的。
+
+```py
+prune.l1_unstructured(module, name="bias", amount=3)
+
+```
+
+现在，我们希望命名参数同时包含`weight_orig`（从前）和`bias_orig`。 缓冲区将包括`weight_mask`和`bias_mask`。 两个张量的剪裁后的版本将作为模块属性存在，并且该模块现在将具有两个`forward_pre_hooks`。
+
+```py
+print(list(module.named_parameters()))
+
+```
+
+出：
+
+```py
+[('weight_orig', Parameter containing:
+tensor([[[[ 0.1552,  0.0102, -0.1944],
+          [ 0.0263,  0.1374, -0.3139],
+          [ 0.2838,  0.1943,  0.0948]]],
+
+        [[[-0.0296, -0.2514,  0.1300],
+          [ 0.0756, -0.3155, -0.2900],
+          [-0.1840,  0.1143, -0.0120]]],
+
+        [[[-0.2383, -0.3022,  0.2295],
+          [-0.0050,  0.2485, -0.3230],
+          [-0.1317, -0.0054,  0.2659]]],
+
+        [[[-0.0932,  0.1316,  0.0670],
+          [ 0.0572, -0.1845,  0.0870],
+          [ 0.1372,  0.1080,  0.0324]]],
+
+        [[[ 0.0908, -0.3280,  0.0365],
+          [-0.3108,  0.2317, -0.2271],
+          [ 0.1171,  0.2113, -0.2259]]],
+
+        [[[ 0.0407,  0.0512,  0.0954],
+          [-0.0437,  0.0302, -0.1317],
+          [ 0.2573,  0.0626,  0.0883]]]], device='cuda:0', requires_grad=True)), ('bias_orig', Parameter containing:
+tensor([-0.1803,  0.1331, -0.3267,  0.3173, -0.0349,  0.1828], device='cuda:0',
+       requires_grad=True))]
+
+```
+
+```py
+print(list(module.named_buffers()))
+
+```
+
+出：
+
+```py
+[('weight_mask', tensor([[[[1., 1., 0.],
+          [0., 0., 1.],
+          [1., 0., 1.]]],
+
+        [[[1., 1., 1.],
+          [1., 1., 1.],
+          [1., 1., 1.]]],
+
+        [[[1., 1., 0.],
+          [1., 0., 0.],
+          [1., 0., 1.]]],
+
+        [[[1., 1., 1.],
+          [1., 0., 1.],
+          [1., 1., 1.]]],
+
+        [[[1., 1., 1.],
+          [0., 0., 1.],
+          [1., 1., 1.]]],
+
+        [[[1., 0., 0.],
+          [1., 0., 1.],
+          [1., 0., 0.]]]], device='cuda:0')), ('bias_mask', tensor([0., 0., 1., 1., 0., 1.], device='cuda:0'))]
+
+```
+
+```py
+print(module.bias)
+
+```
+
+出：
+
+```py
+tensor([-0.0000,  0.0000, -0.3267,  0.3173, -0.0000,  0.1828], device='cuda:0',
+       grad_fn=<MulBackward0>)
+
+```
+
+```py
+print(module._forward_pre_hooks)
+
+```
+
+出：
+
+```py
+OrderedDict([(0, <torch.nn.utils.prune.RandomUnstructured object at 0x7fda78275e48>), (1, <torch.nn.utils.prune.L1Unstructured object at 0x7fda80bbe470>)])
+
+```
+
+## 迭代式剪裁
+
+一个模块中的同一参数可以被多次剪裁，各种剪裁调用的效果等于连接应用的各种蒙版的组合。 `PruningContainer`的`compute_mask`方法可处理新遮罩与旧遮罩的组合。
+
+例如，假设我们现在想进一步剪裁`module.weight`，这一次是使用沿着张量的第 0 轴的结构化剪裁（第 0 轴对应于卷积层的输出通道，并且对于`conv1`具有 6 维） ，基于渠道的 L2 规范。 这可以通过`ln_structured`和`n=2`和`dim=0`函数来实现。
+
+```py
+prune.ln_structured(module, name="weight", amount=0.5, n=2, dim=0)
+
+# As we can verify, this will zero out all the connections corresponding to
+# 50% (3 out of 6) of the channels, while preserving the action of the
+# previous mask.
+print(module.weight)
+
+```
+
+出：
+
+```py
+tensor([[[[ 0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000,  0.0000]]],
+
+        [[[-0.0296, -0.2514,  0.1300],
+          [ 0.0756, -0.3155, -0.2900],
+          [-0.1840,  0.1143, -0.0120]]],
+
+        [[[-0.2383, -0.3022,  0.0000],
+          [-0.0050,  0.0000, -0.0000],
+          [-0.1317, -0.0000,  0.2659]]],
+
+        [[[-0.0000,  0.0000,  0.0000],
+          [ 0.0000, -0.0000,  0.0000],
+          [ 0.0000,  0.0000,  0.0000]]],
+
+        [[[ 0.0908, -0.3280,  0.0365],
+          [-0.0000,  0.0000, -0.2271],
+          [ 0.1171,  0.2113, -0.2259]]],
+
+        [[[ 0.0000,  0.0000,  0.0000],
+          [-0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000,  0.0000]]]], device='cuda:0',
+       grad_fn=<MulBackward0>)
+
+```
+
+现在，对应的钩子将为`torch.nn.utils.prune.PruningContainer`类型，并将存储应用于`weight`参数的剪裁历史。
+
+```py
+for hook in module._forward_pre_hooks.values():
+    if hook._tensor_name == "weight":  # select out the correct hook
+        break
+
+print(list(hook))  # pruning history in the container
+
+```
+
+出：
+
+```py
+[<torch.nn.utils.prune.RandomUnstructured object at 0x7fda78275e48>, <torch.nn.utils.prune.LnStructured object at 0x7fda80071828>]
+
+```
+
+## 序列化剪裁的模型
+
+所有相关的张量，包括掩码缓冲区和用于计算剪裁的张量的原始参数，都存储在模型的`state_dict`中，因此可以根据需要轻松地序列化和保存。
+
+```py
+print(model.state_dict().keys())
+
+```
+
+出：
+
+```py
+odict_keys(['conv1.weight_orig', 'conv1.bias_orig', 'conv1.weight_mask', 'conv1.bias_mask', 'conv2.weight', 'conv2.bias', 'fc1.weight', 'fc1.bias', 'fc2.weight', 'fc2.bias', 'fc3.weight', 'fc3.bias'])
+
+```
+
+## 删除剪裁重新参数化
+
+要使剪裁永久化，请删除`weight_orig`和`weight_mask`的重新参数化，然后删除`forward_pre_hook`，我们可以使用`torch.nn.utils.prune`的`remove`函数。 请注意，这不会撤消剪裁，好像从未发生过。 而是通过将参数`weight`重新分配给模型参数（剪裁后的版本）来使其永久不变。
+
+删除重新参数化之前：
+
+```py
+print(list(module.named_parameters()))
+
+```
+
+出：
+
+```py
+[('weight_orig', Parameter containing:
+tensor([[[[ 0.1552,  0.0102, -0.1944],
+          [ 0.0263,  0.1374, -0.3139],
+          [ 0.2838,  0.1943,  0.0948]]],
+
+        [[[-0.0296, -0.2514,  0.1300],
+          [ 0.0756, -0.3155, -0.2900],
+          [-0.1840,  0.1143, -0.0120]]],
+
+        [[[-0.2383, -0.3022,  0.2295],
+          [-0.0050,  0.2485, -0.3230],
+          [-0.1317, -0.0054,  0.2659]]],
+
+        [[[-0.0932,  0.1316,  0.0670],
+          [ 0.0572, -0.1845,  0.0870],
+          [ 0.1372,  0.1080,  0.0324]]],
+
+        [[[ 0.0908, -0.3280,  0.0365],
+          [-0.3108,  0.2317, -0.2271],
+          [ 0.1171,  0.2113, -0.2259]]],
+
+        [[[ 0.0407,  0.0512,  0.0954],
+          [-0.0437,  0.0302, -0.1317],
+          [ 0.2573,  0.0626,  0.0883]]]], device='cuda:0', requires_grad=True)), ('bias_orig', Parameter containing:
+tensor([-0.1803,  0.1331, -0.3267,  0.3173, -0.0349,  0.1828], device='cuda:0',
+       requires_grad=True))]
+
+```
+
+```py
+print(list(module.named_buffers()))
+
+```
+
+出：
+
+```py
+[('weight_mask', tensor([[[[0., 0., 0.],
+          [0., 0., 0.],
+          [0., 0., 0.]]],
+
+        [[[1., 1., 1.],
+          [1., 1., 1.],
+          [1., 1., 1.]]],
+
+        [[[1., 1., 0.],
+          [1., 0., 0.],
+          [1., 0., 1.]]],
+
+        [[[0., 0., 0.],
+          [0., 0., 0.],
+          [0., 0., 0.]]],
+
+        [[[1., 1., 1.],
+          [0., 0., 1.],
+          [1., 1., 1.]]],
+
+        [[[0., 0., 0.],
+          [0., 0., 0.],
+          [0., 0., 0.]]]], device='cuda:0')), ('bias_mask', tensor([0., 0., 1., 1., 0., 1.], device='cuda:0'))]
+
+```
+
+```py
+print(module.weight)
+
+```
+
+出：
+
+```py
+tensor([[[[ 0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000,  0.0000]]],
+
+        [[[-0.0296, -0.2514,  0.1300],
+          [ 0.0756, -0.3155, -0.2900],
+          [-0.1840,  0.1143, -0.0120]]],
+
+        [[[-0.2383, -0.3022,  0.0000],
+          [-0.0050,  0.0000, -0.0000],
+          [-0.1317, -0.0000,  0.2659]]],
+
+        [[[-0.0000,  0.0000,  0.0000],
+          [ 0.0000, -0.0000,  0.0000],
+          [ 0.0000,  0.0000,  0.0000]]],
+
+        [[[ 0.0908, -0.3280,  0.0365],
+          [-0.0000,  0.0000, -0.2271],
+          [ 0.1171,  0.2113, -0.2259]]],
+
+        [[[ 0.0000,  0.0000,  0.0000],
+          [-0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000,  0.0000]]]], device='cuda:0',
+       grad_fn=<MulBackward0>)
+
+```
+
+删除重新参数化后：
+
+```py
+prune.remove(module, 'weight')
+print(list(module.named_parameters()))
+
+```
+
+出：
+
+```py
+[('bias_orig', Parameter containing:
+tensor([-0.1803,  0.1331, -0.3267,  0.3173, -0.0349,  0.1828], device='cuda:0',
+       requires_grad=True)), ('weight', Parameter containing:
+tensor([[[[ 0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000,  0.0000]]],
+
+        [[[-0.0296, -0.2514,  0.1300],
+          [ 0.0756, -0.3155, -0.2900],
+          [-0.1840,  0.1143, -0.0120]]],
+
+        [[[-0.2383, -0.3022,  0.0000],
+          [-0.0050,  0.0000, -0.0000],
+          [-0.1317, -0.0000,  0.2659]]],
+
+        [[[-0.0000,  0.0000,  0.0000],
+          [ 0.0000, -0.0000,  0.0000],
+          [ 0.0000,  0.0000,  0.0000]]],
+
+        [[[ 0.0908, -0.3280,  0.0365],
+          [-0.0000,  0.0000, -0.2271],
+          [ 0.1171,  0.2113, -0.2259]]],
+
+        [[[ 0.0000,  0.0000,  0.0000],
+          [-0.0000,  0.0000, -0.0000],
+          [ 0.0000,  0.0000,  0.0000]]]], device='cuda:0', requires_grad=True))]
+
+```
+
+```py
+print(list(module.named_buffers()))
+
+```
+
+出：
+
+```py
+[('bias_mask', tensor([0., 0., 1., 1., 0., 1.], device='cuda:0'))]
+
+```
+
+## 剪裁模型中的多个参数
+
+通过指定所需的剪裁技术和参数，我们可以轻松地剪裁网络中的多个张量，也许根据它们的类型，如在本示例中将看到的那样。
+
+```py
+new_model = LeNet()
+for name, module in new_model.named_modules():
+    # prune 20% of connections in all 2D-conv layers
+    if isinstance(module, torch.nn.Conv2d):
+        prune.l1_unstructured(module, name='weight', amount=0.2)
+    # prune 40% of connections in all linear layers
+    elif isinstance(module, torch.nn.Linear):
+        prune.l1_unstructured(module, name='weight', amount=0.4)
+
+print(dict(new_model.named_buffers()).keys())  # to verify that all masks exist
+
+```
+
+出：
+
+```py
+dict_keys(['conv1.weight_mask', 'conv2.weight_mask', 'fc1.weight_mask', 'fc2.weight_mask', 'fc3.weight_mask'])
+
+```
+
+## 全局剪裁
+
+到目前为止，我们仅查看了通常称为“局部”剪裁的情况，即通过比较每个条目的统计信息（权重，激活度，梯度等）来逐个剪裁模型中的张量的做法。 到该张量中的其他条目。 但是，一种通用且可能更强大的技术是通过删除（例如）删除整个模型中最低的 20% 的连接，而不是删除每一层中最低的 20% 的连接来一次剪裁模型。 这很可能导致每个层的剪裁百分比不同。 让我们看看如何使用`torch.nn.utils.prune`中的`global_unstructured`进行操作。
+
+```py
+model = LeNet()
+
+parameters_to_prune = (
+    (model.conv1, 'weight'),
+    (model.conv2, 'weight'),
+    (model.fc1, 'weight'),
+    (model.fc2, 'weight'),
+    (model.fc3, 'weight'),
+)
+
+prune.global_unstructured(
+    parameters_to_prune,
+    pruning_method=prune.L1Unstructured,
+    amount=0.2,
+)
+
+```
+
+现在，我们可以检查每个剪裁参数中引起的稀疏性，该稀疏性将不等于每层中的 20%。 但是，全局稀疏度将（大约）为 20%。
+
+```py
+print(
+    "Sparsity in conv1.weight: {:.2f}%".format(
+        100\. * float(torch.sum(model.conv1.weight == 0))
+        / float(model.conv1.weight.nelement())
+    )
+)
+print(
+    "Sparsity in conv2.weight: {:.2f}%".format(
+        100\. * float(torch.sum(model.conv2.weight == 0))
+        / float(model.conv2.weight.nelement())
+    )
+)
+print(
+    "Sparsity in fc1.weight: {:.2f}%".format(
+        100\. * float(torch.sum(model.fc1.weight == 0))
+        / float(model.fc1.weight.nelement())
+    )
+)
+print(
+    "Sparsity in fc2.weight: {:.2f}%".format(
+        100\. * float(torch.sum(model.fc2.weight == 0))
+        / float(model.fc2.weight.nelement())
+    )
+)
+print(
+    "Sparsity in fc3.weight: {:.2f}%".format(
+        100\. * float(torch.sum(model.fc3.weight == 0))
+        / float(model.fc3.weight.nelement())
+    )
+)
+print(
+    "Global sparsity: {:.2f}%".format(
+        100\. * float(
+            torch.sum(model.conv1.weight == 0)
+            + torch.sum(model.conv2.weight == 0)
+            + torch.sum(model.fc1.weight == 0)
+            + torch.sum(model.fc2.weight == 0)
+            + torch.sum(model.fc3.weight == 0)
+        )
+        / float(
+            model.conv1.weight.nelement()
+            + model.conv2.weight.nelement()
+            + model.fc1.weight.nelement()
+            + model.fc2.weight.nelement()
+            + model.fc3.weight.nelement()
+        )
+    )
+)
+
+```
+
+出：
+
+```py
+Sparsity in conv1.weight: 3.70%
+Sparsity in conv2.weight: 8.10%
+Sparsity in fc1.weight: 22.05%
+Sparsity in fc2.weight: 12.29%
+Sparsity in fc3.weight: 8.45%
+Global sparsity: 20.00%
+
+```
+
+## 使用自定义剪裁函数扩展`torch.nn.utils.prune`
+
+要实现自己的剪裁函数，可以通过继承`BasePruningMethod`基类的子类来扩展`nn.utils.prune`模块，这与所有其他剪裁方法一样。 基类为您实现以下方法：`__call__`，`apply_mask`，`apply`，`prune`和`remove`。 除了一些特殊情况外，您无需为新的剪裁技术重新实现这些方法。 但是，您将必须实现`__init__`（构造器）和`compute_mask`（有关如何根据剪裁技术的逻辑为给定张量计算掩码的说明）。 另外，您将必须指定此技术实现的剪裁类型（支持的选项为`global`，`structured`和`unstructured`）。 需要确定在迭代应用剪裁的情况下如何组合蒙版。 换句话说，当剪裁预剪裁的参数时，当前的剪裁技术应作用于参数的未剪裁部分。 指定`PRUNING_TYPE`将使`PruningContainer`（处理剪裁掩码的迭代应用）正确识别要剪裁的参数。
+
+例如，假设您要实现一种剪裁技术，以剪裁张量中的所有其他条目（或者-如果先前已剪裁过张量，则剪裁张量的其余未剪裁部分）。 这将是`PRUNING_TYPE='unstructured'`，因为它作用于层中的单个连接，而不作用于整个单元/通道（`'structured'`），或作用于不同的参数（`'global'`）。
+
+```py
+class FooBarPruningMethod(prune.BasePruningMethod):
+    """Prune every other entry in a tensor
+    """
+    PRUNING_TYPE = 'unstructured'
+
+    def compute_mask(self, t, default_mask):
+        mask = default_mask.clone()
+        mask.view(-1)[::2] = 0
+        return mask
+
+```
+
+现在，要将其应用于`nn.Module`中的参数，还应该提供一个简单的函数来实例化该方法并将其应用。
+
+```py
+def foobar_unstructured(module, name):
+    """Prunes tensor corresponding to parameter called `name` in `module`
+    by removing every other entry in the tensors.
+    Modifies module in place (and also return the modified module)
+    by:
+    1) adding a named buffer called `name+'_mask'` corresponding to the
+    binary mask applied to the parameter `name` by the pruning method.
+    The parameter `name` is replaced by its pruned version, while the
+    original (unpruned) parameter is stored in a new parameter named
+    `name+'_orig'`.
+
+    Args:
+        module (nn.Module): module containing the tensor to prune
+        name (string): parameter name within `module` on which pruning
+                will act.
+
+    Returns:
+        module (nn.Module): modified (i.e. pruned) version of the input
+            module
+
+    Examples:
+        >>> m = nn.Linear(3, 4)
+        >>> foobar_unstructured(m, name='bias')
+    """
+    FooBarPruningMethod.apply(module, name)
+    return module
+
+```
+
+试试吧！
+
+```py
+model = LeNet()
+foobar_unstructured(model.fc3, name='bias')
+
+print(model.fc3.bias_mask)
+
+```
+
+出：
+
+```py
+tensor([0., 1., 0., 1., 0., 1., 0., 1., 0., 1.])
+
+```
+
+**脚本的总运行时间**：（0 分钟 0.135 秒）
+
+[下载 Python 源码：`pruning_tutorial.py`](../_downloads/8eb4a30bf66c6a1a0d1faba246c07bb3/pruning_tutorial.py)
+
+[下载 Jupyter 笔记本：`pruning_tutorial.ipynb`](../_downloads/f40ae04715cdb214ecba048c12f8dddf/pruning_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/55.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/55.md
new file mode 100644
index 00000000..ad495c50
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/55.md
@@ -0,0 +1,398 @@
+# LSTM 单词语言模型上的动态量化（beta）
+
+> 原文：<https://pytorch.org/tutorials/advanced/dynamic_quantization_tutorial.html>
+
+**作者**： [James Reed](https://github.com/jamesr66a)
+
+**编辑**：[Seth Weidman](https://github.com/SethHWeidman/)
+
+## 简介
+
+量化涉及将模型的权重和激活从`float`转换为`int`，这可以导致模型尺寸更小，推断速度更快，而对准确率的影响很小。
+
+在本教程中，我们将最简单的量化形式-[动态量化](https://pytorch.org/docs/stable/quantization.html#torch.quantization.quantize_dynamic)应用于基于 LSTM 的下一个单词预测模型，紧紧遵循 PyTorch 示例中的[单词语言模型](https://github.com/pytorch/examples/tree/master/word_language_model) 。
+
+```py
+# imports
+import os
+from io import open
+import time
+
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+
+```
+
+## 1.定义模型
+
+在这里，我们根据词语言模型示例中的[模型](https://github.com/pytorch/examples/blob/master/word_language_model/model.py)定义 LSTM 模型架构。
+
+```py
+class LSTMModel(nn.Module):
+    """Container module with an encoder, a recurrent module, and a decoder."""
+
+    def __init__(self, ntoken, ninp, nhid, nlayers, dropout=0.5):
+        super(LSTMModel, self).__init__()
+        self.drop = nn.Dropout(dropout)
+        self.encoder = nn.Embedding(ntoken, ninp)
+        self.rnn = nn.LSTM(ninp, nhid, nlayers, dropout=dropout)
+        self.decoder = nn.Linear(nhid, ntoken)
+
+        self.init_weights()
+
+        self.nhid = nhid
+        self.nlayers = nlayers
+
+    def init_weights(self):
+        initrange = 0.1
+        self.encoder.weight.data.uniform_(-initrange, initrange)
+        self.decoder.bias.data.zero_()
+        self.decoder.weight.data.uniform_(-initrange, initrange)
+
+    def forward(self, input, hidden):
+        emb = self.drop(self.encoder(input))
+        output, hidden = self.rnn(emb, hidden)
+        output = self.drop(output)
+        decoded = self.decoder(output)
+        return decoded, hidden
+
+    def init_hidden(self, bsz):
+        weight = next(self.parameters())
+        return (weight.new_zeros(self.nlayers, bsz, self.nhid),
+                weight.new_zeros(self.nlayers, bsz, self.nhid))
+
+```
+
+## 2.加载文本数据
+
+接下来，我们再次根据单词模型示例对[预处理](https://github.com/pytorch/examples/blob/master/word_language_model/data.py)，将 [Wikitext-2 数据集](https://www.google.com/search?q=wikitext+2+data)加载到语料库中。
+
+```py
+class Dictionary(object):
+    def __init__(self):
+        self.word2idx = {}
+        self.idx2word = []
+
+    def add_word(self, word):
+        if word not in self.word2idx:
+            self.idx2word.append(word)
+            self.word2idx[word] = len(self.idx2word) - 1
+        return self.word2idx[word]
+
+    def __len__(self):
+        return len(self.idx2word)
+
+class Corpus(object):
+    def __init__(self, path):
+        self.dictionary = Dictionary()
+        self.train = self.tokenize(os.path.join(path, 'train.txt'))
+        self.valid = self.tokenize(os.path.join(path, 'valid.txt'))
+        self.test = self.tokenize(os.path.join(path, 'test.txt'))
+
+    def tokenize(self, path):
+        """Tokenizes a text file."""
+        assert os.path.exists(path)
+        # Add words to the dictionary
+        with open(path, 'r', encoding="utf8") as f:
+            for line in f:
+                words = line.split() + ['<eos>']
+                for word in words:
+                    self.dictionary.add_word(word)
+
+        # Tokenize file content
+        with open(path, 'r', encoding="utf8") as f:
+            idss = []
+            for line in f:
+                words = line.split() + ['<eos>']
+                ids = []
+                for word in words:
+                    ids.append(self.dictionary.word2idx[word])
+                idss.append(torch.tensor(ids).type(torch.int64))
+            ids = torch.cat(idss)
+
+        return ids
+
+model_data_filepath = 'data/'
+
+corpus = Corpus(model_data_filepath + 'wikitext-2')
+
+```
+
+## 3.加载预先训练的模型
+
+这是一本有关动态量化的教程，这是在训练模型后应用的一种量化技术。 因此，我们将简单地将一些预训练的权重加载到此模型架构中； 这些权重是通过使用单词语言模型示例中的默认设置训练五个周期而获得的。
+
+```py
+ntokens = len(corpus.dictionary)
+
+model = LSTMModel(
+    ntoken = ntokens,
+    ninp = 512,
+    nhid = 256,
+    nlayers = 5,
+)
+
+model.load_state_dict(
+    torch.load(
+        model_data_filepath + 'word_language_model_quantize.pth',
+        map_location=torch.device('cpu')
+        )
+    )
+
+model.eval()
+print(model)
+
+```
+
+出：
+
+```py
+LSTMModel(
+  (drop): Dropout(p=0.5, inplace=False)
+  (encoder): Embedding(33278, 512)
+  (rnn): LSTM(512, 256, num_layers=5, dropout=0.5)
+  (decoder): Linear(in_features=256, out_features=33278, bias=True)
+)
+
+```
+
+现在，我们生成一些文本以确保预先训练的模型能够正常工作-与以前类似，我们在此处遵循
+
+```py
+input_ = torch.randint(ntokens, (1, 1), dtype=torch.long)
+hidden = model.init_hidden(1)
+temperature = 1.0
+num_words = 1000
+
+with open(model_data_filepath + 'out.txt', 'w') as outf:
+    with torch.no_grad():  # no tracking history
+        for i in range(num_words):
+            output, hidden = model(input_, hidden)
+            word_weights = output.squeeze().div(temperature).exp().cpu()
+            word_idx = torch.multinomial(word_weights, 1)[0]
+            input_.fill_(word_idx)
+
+            word = corpus.dictionary.idx2word[word_idx]
+
+            outf.write(str(word.encode('utf-8')) + ('\n' if i % 20 == 19 else ' '))
+
+            if i % 100 == 0:
+                print('| Generated {}/{} words'.format(i, 1000))
+
+with open(model_data_filepath + 'out.txt', 'r') as outf:
+    all_output = outf.read()
+    print(all_output)
+
+```
+
+出：
+
+```py
+| Generated 0/1000 words
+| Generated 100/1000 words
+| Generated 200/1000 words
+| Generated 300/1000 words
+| Generated 400/1000 words
+| Generated 500/1000 words
+| Generated 600/1000 words
+| Generated 700/1000 words
+| Generated 800/1000 words
+| Generated 900/1000 words
+b'broadcaster' b'good' b',' b'which' b'provided' b'for' b'a' b'vignettes' b'socially' b'and' b'the' b'FIA' b"'s" b'ad' b'.' b'The' b'state' b'into' b'this' b'position'
+b'is' b'in' b'account' b'of' b'a' b'wide' b'Domonia' b'<unk>' b',' b'fallen' b'to' b'for' b'the' b'types' b'of' b'<unk>' b'developers' b'being' b'entertaining' b'.'
+b'<eos>' b'The' b'Claus' b'II' b'(' b'The' b'Book' b'of' b'Karnataka' b',' b'2' b'/' b'10' b')' b'was' b'released' b'by' b'British' b'@-@' b'Irish'
+b'ruler' b'arriving' b'on' b'the' b'winter' b'of' b'its' b'championship' b'orbit' b'.' b'In' b'early' b'spring' b'roles' b'dismay' b'when' b'he' b'replaced' b'by' b'a'
+b'religious' b'park' b',' b'when' b'it' b'features' b'flowers' b'they' b'do' b'populist' b'.' b'temperatures' b'attempted' b'to' b'have' b'trouble' b'met' b',' b'<unk>' b','
+b'and' b'karaoke' b'leads' b'to' b'some' b'return' b'up' b'as' b'or' b'seated' b'.' b'The' b'remainder' b'of' b'w' b'voltage' b'contains' b'Allah' b'in' b'the'
+b'series' b'to' b'infiltrate' b'disappeared' b'.' b'Though' b'it' b'comes' b'into' b'his' b'Shinnok' b"'s" b'history' b',' b'they' b'may' b'sometimes' b'7' b'@-@' b'April'
+b',' b'roughly' b'7' b'%' b'of' b'50' b'mph' b'(' b'4' b'@.@' b'8' b'in' b')' b'while' b'males' b'have' b'put' b'except' b'far' b'as'
+b'alkaline' b'@-@' b'up' b'.' b'<eos>' b'Electrical' b'medical' b'rings' b'were' b'always' b'published' b'.' b'<eos>' b'Based' b'on' b'2' b'November' b',' b'Idaho' b'can'
+b'be' b'estimated' b'cooking' b'and' b'<unk>' b',' b'while' b'no' b',' b'thin' b'drugs' b'was' b'poor' b'to' b'each' b'area' b'.' b'It' b'has' b'not'
+b'campaigned' b'those' b'of' b'the' b'most' b'potent' b'population' b'of' b'leaves' b'in' b'all' b'condition' b',' b'because' b'they' b'were' b'forced' b'to' b'die' b'in'
+b'bhandara' b'<unk>' b'that' b'culture' b'.' b'Almost' b'a' b'prose' b'plan' b',' b'there' b'have' b'been' b'only' b'clear' b',' b'it' b'occurs' b'.' b'<eos>'
+b'The' b'kakapo' b'was' b'interpreted' b'on' b'1998' b'from' b'1955' b'and' b'played' b'in' b'<unk>' b',' b'Western' b'Asia' b'on' b'0' b'August' b'1966' b','
+b'with' b'an' b'additional' b'population' b'that' b'Samuel' b'solemnly' b',' b'Chapman' b'sponsored' b'after' b'a' b'few' b'years' b'.' b'In' b'1990' b',' b'prominent' b'areas'
+b'believe' b'that' b'as' b'being' b'an' b'rural' b'planet' b',' b'they' b'is' b'neglected' b'as' b'to' b'be' b'changed' b'.' b'Congress' b'This' b'well' b'"'
+b'was' b'run' b'by' b'<unk>' b',' b'Waldemar' b'Greenwood' b'.' b'170' b'have' b'just' b'in' b'place' b',' b'he' b'overruled' b'.' b'The' b'1966' b'race'
+b'is' b'a' b'embodies' b'state' b'of' b'Viking' b'or' b'most' b'generation' b',' b'not' b'in' b'the' b'codes' b'of' b'all' b'other' b'alignment' b'musical' b'politicians'
+b'.' b'No' b'system' b'have' b'participated' b'on' b'3' b'to' b'9' b'%' b'of' b'any' b'urine' b',' b'with' b'both' b'drawings' b'and' b'significantly' b'towards'
+b'his' b'deteriorating' b'and' b'poverty' b'.' b'As' b'a' b'rust' b',' b'contains' b'other' b'compositions' b'that' b'must' b'be' b'beneficial' b'by' b'overnight' b'or' b'fluid'
+b',' b'u' b'organizations' b'can' b'seek' b'mild' b'late' b'down' b'on' b'a' b'broadside' b'and' b'leads' b'to' b'its' b'cycle' b'.' b'For' b'example' b','
+b'1137' b',' b'snowmelt' b'and' b'<unk>' b'\xe2\x80\x94' b'a' b'variety' b'of' b'dealt' b';' b'Species' b'(' b'with' b'a' b'reduction' b'of' b'prohibitions' b')' b','
+b'<unk>' b'exploration' b',' b'<unk>' b'an' b'fuel' b'eye' b'of' b'purple' b'trees' b',' b'was' b'shown' b'west' b'.' b'chased' b'Jack' b'of' b'claws' b','
+b'his' b'vertex' b'states' b'that' b'they' b',' b'in' b'1922' b',' b'was' b'killed' b'.' b'<eos>' b'There' b'have' b'been' b'official' b'concerns' b'of' b'Boat'
+b'Kerry' b'including' b'L\xc3\xaa' b'\xe3\x80\x89' b'and' b'<unk>' b'A' b'Forest' b',' b'"' b'<unk>' b',' b'because' b'<unk>' b',' b'and' b'sometimes' b'encounters' b'like' b'I'
+b"'ve" b'been' b'<unk>' b'.' b'"' b'<unk>' b'Hunter' b'pathway' b'writes' b'it' b'entering' b'the' b'second' b'.' b'The' b'kakapo' b'is' b'gems' b'used' b'after'
+b'died' b'from' b'two' b'games' b'in' b'six' b'<unk>' b',' b'her' b'feature' b'and' b'called' b'"' b'mercenaries' b'"' b',' b'which' b'supported' b'by' b'the'
+b'Selective' b'Race' b'.' b'"' b'<eos>' b'Bono' b'Dutch' b'struggles' b'to' b'the' b'species' b'<unk>' b',' b'especially' b'crusaders' b'I' b'lives' b'process' b',' b'but'
+b'Constantin' b'approximate' b'and' b'character' b'or' b'so' b'.' b'There' b'have' b'numerous' b'pale' b'dioceses' b'as' b'a' b'resistant' b';' b'the' b'Inn' b'Comic' b'@-@'
+b'white' b'individuals' b',' b'its' b'flat' b',' b'<unk>' b'and' b'correct' b',' b'in' b'which' b'they' b'felt' b'.' b'In' b'the' b'arms' b',' b'the'
+b'original' b'occasion' b'about' b'Spanish' b'sites' b'all' b'(' b'millionaire' b'lay' b';' b'or' b'160' b'@-@' b'mosquitoes' b')' b'v' b'<unk>' b'(' b'c' b')'
+b'.' b'The' b'bird' b'is' b'extremely' b'paved' b',' b'and' b'they' b'are' b'claimed' b'to' b'wedding' b'the' b'<unk>' b'of' b'Excellence' b',' b'and' b'an'
+b'extinct' b'composite' b',' b'cute' b'outside' b'<unk>' b'.' b'This' b'may' b'be' b'seen' b'by' b'the' b'Seer' b'that' b'Tempest' b'"' b'comes' b'"' b'over'
+b'a' b'bright' b'judicial' b'guitar' b',' b'which' b'describes' b',' b'and' b'tend' b'to' b'be' b'seen' b'.' b'<eos>' b'<eos>' b'=' b'=' b'Conservation' b'for'
+b'contraception' b'=' b'=' b'<eos>' b'<eos>' b'Grieco' b'Island' b'is' b'a' b'eventually' b'scale' b'word' b'to' b'a' b'tropical' b'storm' b',' b'based' b'in' b'a'
+b'pre' b'\xe2\x80\x93' b'9' b'lead' b',' b'a' b'forces' b'after' b'a' b'additional' b',' b'grey' b'substance' b',' b'Metro' b',' b'background' b',' b'and' b'cooperate'
+b'with' b'its' b'overly' b'overview' b',' b'so' b'the' b'heaviest' b'route' b',' b'and' b'\xc2\xb3' b'.' b'portion' b'may' b'occur' b'this' b'other' b'up' b'an'
+b'<unk>' b'break' b',' b'then' b'or' b'deep' b'distinct' b'or' b'female' b'offspring' b',' b'but' b'even' b'understand' b'.' b'Following' b'God' b'(' b'no' b'nervous'
+b'image' b'from' b'complaints' b')' b',' b'the' b'player' b'represents' b'three' b'or' b'over' b'9' b'\xc2\xb0' b'large' b'(' b'five' b'weeks' b'of' b'many' b'cats'
+b')' b',' b'as' b'it' b'targets' b'for' b'the' b'second' b'female' b'together' b'.' b'159' b',' b'it' b'also' b'spend' b'bold' b'markets' b'and' b'its'
+b'players' b'powers' b',' b'dubbed' b'those' b'of' b'lengths' b'.' b'Most' b'are' b'arrow' b'could' b'be' b'noticed' b'involving' b'they' b'fall' b'.' b'On' b'FAU'
+b"'s" b'only' b'lifetime' b'she' b'treated' b'or' b'their' b'apparent' b'soaring' b'proposition' b'has' b'5th' b'of' b'those' b'eye' b',' b'but' b'knows' b'in' b'a'
+b'<unk>' b'Network' b';' b'which' b'of' b'that' b'reality' b'or' b'artificial' b'when' b'struggling' b'Bungie' b'is' b'successful' b'.' b'The' b'<unk>' b'sound' b'of' b'frontier'
+b'ahead' b'for' b'damage' b'came' b'on' b',' b'so' b'the' b'first' b'series' b'funded' b'by' b'its' b'bowls' b',' b'a' b'chant' b'.' b'They' b'may'
+b'be' b'used' b'Pongsak' b'or' b'occasionally' b'protected' b'them' b'.' b'Fingal' b'cylindrical' b'conspired' b'on' b'a' b'variety' b'of' b'prey' b',' b'<unk>' b',' b'Zach'
+b',' b'and' b'young' b'possessing' b'Westland' b'valleys' b'.' b'Otherwise' b',' b'I' b'do' b'at' b'them' b'in' b'first' b'@-@' b'season' b'woodland' b',' b'where'
+b'they' b'weighed' b'them' b'to' b'correct' b'a' b'list' b'of' b'other' b'birds' b'.' b'Another' b'theme' b'where' b'or' b',' b'it' b'is' b'a' b'appropriate'
+b'source' b',' b'this' b'competed' b'in' b'integral' b'Waiouru' b'alone' b',' b'the' b'pathways' b'under' b'Aravind' b',' b'and' b'others' b',' b'instead' b'of' b'westward'
+b',' b'as' b'they' b'are' b'quarters' b'and' b'caused' b'in' b'males' b'.' b'Once' b'selective' b'centered' b',' b'they' b'threats' b'were' b'Zuniceratops' b'.' b'Although'
+b'the' b'most' b'spots' b'replication' b'became' b'a' b'fragile' b'pointer' b'(' b'a' b'pair' b'of' b'<unk>' b')' b',' b'strongly' b'"' b'mammals' b'"' b','
+b'which' b'give' b'Powderfinger' b'to' b'persecution' b'.' b'Other' b'conifers' b'but' b'even' b'only' b'swallow' b'so' b'every' b'symbols' b'of' b'Manders' b',' b'in' b'massive'
+
+```
+
+它不是 GPT-2，但看起来该模型已开始学习语言结构！
+
+我们几乎准备好演示动态量化。 我们只需要定义一些辅助函数：
+
+```py
+bptt = 25
+criterion = nn.CrossEntropyLoss()
+eval_batch_size = 1
+
+# create test data set
+def batchify(data, bsz):
+    # Work out how cleanly we can divide the dataset into bsz parts.
+    nbatch = data.size(0) // bsz
+    # Trim off any extra elements that wouldn't cleanly fit (remainders).
+    data = data.narrow(0, 0, nbatch * bsz)
+    # Evenly divide the data across the bsz batches.
+    return data.view(bsz, -1).t().contiguous()
+
+test_data = batchify(corpus.test, eval_batch_size)
+
+# Evaluation functions
+def get_batch(source, i):
+    seq_len = min(bptt, len(source) - 1 - i)
+    data = source[i:i+seq_len]
+    target = source[i+1:i+1+seq_len].reshape(-1)
+    return data, target
+
+def repackage_hidden(h):
+  """Wraps hidden states in new Tensors, to detach them from their history."""
+
+  if isinstance(h, torch.Tensor):
+      return h.detach()
+  else:
+      return tuple(repackage_hidden(v) for v in h)
+
+def evaluate(model_, data_source):
+    # Turn on evaluation mode which disables dropout.
+    model_.eval()
+    total_loss = 0.
+    hidden = model_.init_hidden(eval_batch_size)
+    with torch.no_grad():
+        for i in range(0, data_source.size(0) - 1, bptt):
+            data, targets = get_batch(data_source, i)
+            output, hidden = model_(data, hidden)
+            hidden = repackage_hidden(hidden)
+            output_flat = output.view(-1, ntokens)
+            total_loss += len(data) * criterion(output_flat, targets).item()
+    return total_loss / (len(data_source) - 1)
+
+```
+
+## 4.测试动态量化
+
+最后，我们可以在模型上调用`torch.quantization.quantize_dynamic`！ 特别，
+
+*   我们指定我们希望对模型中的`nn.LSTM`和`nn.Linear`模块进行量化
+*   我们指定希望将权重转换为`int8`值
+
+```py
+import torch.quantization
+
+quantized_model = torch.quantization.quantize_dynamic(
+    model, {nn.LSTM, nn.Linear}, dtype=torch.qint8
+)
+print(quantized_model)
+
+```
+
+出：
+
+```py
+LSTMModel(
+  (drop): Dropout(p=0.5, inplace=False)
+  (encoder): Embedding(33278, 512)
+  (rnn): DynamicQuantizedLSTM(512, 256, num_layers=5, dropout=0.5)
+  (decoder): DynamicQuantizedLinear(in_features=256, out_features=33278, dtype=torch.qint8, qscheme=torch.per_tensor_affine)
+)
+
+```
+
+该模型看起来相同； 这对我们有什么好处？ 首先，我们看到模型尺寸显着减小：
+
+```py
+def print_size_of_model(model):
+    torch.save(model.state_dict(), "temp.p")
+    print('Size (MB):', os.path.getsize("temp.p")/1e6)
+    os.remove('temp.p')
+
+print_size_of_model(model)
+print_size_of_model(quantized_model)
+
+```
+
+出：
+
+```py
+Size (MB): 113.945726
+Size (MB): 79.739984
+
+```
+
+其次，我们看到了更快的推理时间，而评估损失没有差异：
+
+注意：由于量化模型运行单线程，因此用于单线程比较的线程数为 1。
+
+```py
+torch.set_num_threads(1)
+
+def time_model_evaluation(model, test_data):
+    s = time.time()
+    loss = evaluate(model, test_data)
+    elapsed = time.time() - s
+    print('''loss: {0:.3f}\nelapsed time (seconds): {1:.1f}'''.format(loss, elapsed))
+
+time_model_evaluation(model, test_data)
+time_model_evaluation(quantized_model, test_data)
+
+```
+
+出：
+
+```py
+loss: 5.167
+elapsed time (seconds): 251.3
+loss: 5.168
+elapsed time (seconds): 166.3
+
+```
+
+在没有量化的情况下在 MacBook Pro 上本地运行此操作，推理大约需要 200 秒，而量化则只需大约 100 秒。
+
+## 总结
+
+动态量化可能是减小模型大小的简单方法，而对精度的影响有限。
+
+谢谢阅读！ 与往常一样，我们欢迎您提供反馈，因此，如果有任何问题，[请在这里创建一个 ISSUE](https://github.com/pytorch/pytorch/issues)。
+
+**脚本的总运行时间**：（7 分钟 3.126 秒）
+
+[下载 Python 源码：`dynamic_quantization_tutorial.py`](../_downloads/3fa656e39c210acc81b96b164a3da032/dynamic_quantization_tutorial.py)
+
+[下载 Jupyter 笔记本：`dynamic_quantization_tutorial.ipynb`](../_downloads/9387e74b1a614d9ed5642654e06b1728/dynamic_quantization_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/56.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/56.md
new file mode 100644
index 00000000..9d12bb92
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/56.md
@@ -0,0 +1,444 @@
+# BERT 上的动态量化（Beta）
+
+> 原文：<https://pytorch.org/tutorials/intermediate/dynamic_quantization_bert_tutorial.html>
+
+小费
+
+为了充分利用本教程，我们建议使用此 [Colab 版本](https://colab.research.google.com/github/pytorch/tutorials/blob/gh-pages/_downloads/dynamic_quantization_bert_tutorial.ipynb)。 这将使您可以尝试以下信息。
+
+**作者**：[Jianyu Huang](https://github.com/jianyuh)
+
+**审核**： [Raghuraman Krishnamoorthi](https://github.com/raghuramank100)
+
+**编辑**：[Jessica Lin](https://github.com/jlin27)
+
+## 简介
+
+在本教程中，我们将动态量化应用在 BERT 模型上，紧跟 [HuggingFace 转换器示例](https://github.com/huggingface/transformers)中的 BERT 模型。 通过这一循序渐进的旅程，我们将演示如何将著名的 BERT 等最新模型转换为动态量化模型。
+
+*   BERT，或者说转换器的双向嵌入表示，是一种预训练语言表示的新方法，它可以在许多常见的自然语言处理（NLP）任务（例如问题解答，文本分类， 和别的。 [可以在此处找到](https://arxiv.org/pdf/1810.04805.pdf)。
+*   PyTorch 中的动态量化支持将浮点模型转换为具有静态`int8`或`float16`数据类型的权重和动态量化激活的量化模型。 当权重量化为`int8`时，激活（每批）动态量化为`int8`。 在 PyTorch 中，我们有[`torch.quantization.quantize_dynamic` API](https://pytorch.org/docs/stable/quantization.html#torch.quantization.quantize_dynamic)，该 API 用仅动态权重的量化版本替换了指定的模块，并输出了量化模型。
+*   我们在[通用语言理解评估基准（GLUE）](https://gluebenchmark.com/)中演示了 [Microsoft Research Paraphrase 语料库（MRPC）任务](https://www.microsoft.com/en-us/download/details.aspx?id=52398)的准确率和推理表现结果。 MRPC（Dolan 和 Brockett，2005 年）是从在线新闻源中自动提取的句子对的语料库，带有人工标注，说明句子中的句子在语义上是否等效。 由于类别不平衡（正向为 68%，负向为 32%），我们遵循常规做法并报告 [F1 得分](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)。 MRPC 是用于语言对分类的常见 NLP 任务，如下所示。
+
+![../_img/bert.png](img/b43b70d8a6eef9ea4f75867b5e83b483.png)
+
+## 1.设置
+
+### 1.1 安装 PyTorch 和 HuggingFace 转换器
+
+要开始本教程，首先请遵循 [PyTorch](https://github.com/pytorch/pytorch/#installation) 和 [HuggingFace Github 仓库](https://github.com/huggingface/transformers#installation)中的安装说明。 此外，我们还将安装 [scikit-learn](https://github.com/scikit-learn/scikit-learn) 包，因为我们将重复使用其内置的 F1 分数计算助手函数。
+
+```py
+pip install sklearn
+pip install transformers
+
+```
+
+由于我们将使用 PyTorch 的 Beta 版部分，因此建议安装最新版本的 Torch 和`tochvision`。[ 您可以在此处找到有关本地安装的最新说明](https://pytorch.org/get-started/locally/)。 例如，要在 Mac 上安装：
+
+```py
+yes y | pip uninstall torch tochvision
+yes y | pip install --pre torch -f https://download.pytorch.org/whl/nightly/cu101/torch_nightly.html
+
+```
+
+### 1.2 导入必要的模块
+
+在这一步中，我们将导入本教程所需的 Python 模块。
+
+```py
+from __future__ import absolute_import, division, print_function
+
+import logging
+import numpy as np
+import os
+import random
+import sys
+import time
+import torch
+
+from argparse import Namespace
+from torch.utils.data import (DataLoader, RandomSampler, SequentialSampler,
+                              TensorDataset)
+from tqdm import tqdm
+from transformers import (BertConfig, BertForSequenceClassification, BertTokenizer,)
+from transformers import glue_compute_metrics as compute_metrics
+from transformers import glue_output_modes as output_modes
+from transformers import glue_processors as processors
+from transformers import glue_convert_examples_to_features as convert_examples_to_features
+
+# Setup logging
+logger = logging.getLogger(__name__)
+logging.basicConfig(format = '%(asctime)s - %(levelname)s - %(name)s -   %(message)s',
+                    datefmt = '%m/%d/%Y %H:%M:%S',
+                    level = logging.WARN)
+
+logging.getLogger("transformers.modeling_utils").setLevel(
+   logging.WARN)  # Reduce logging
+
+print(torch.__version__)
+
+```
+
+我们设置线程数以比较 FP32 和 INT8 性能之间的单线程性能。 在本教程的最后，用户可以通过使用右侧并行后端构建 PyTorch 来设置其他线程数量。
+
+```py
+torch.set_num_threads(1)
+print(torch.__config__.parallel_info())
+
+```
+
+### 1.3 了解辅助函数
+
+助手函数内置在转换器库中。 我们主要使用以下辅助函数：一个用于将文本示例转换为特征向量的函数； 另一个用于测量预测结果的 F1 分数。
+
+[`gum_convert_examples_to_features`](https://github.com/huggingface/transformers/blob/master/transformers/data/processors/glue.py)函数将文本转换为输入特征：
+
+*   标记输入序列；
+*   在开头插入`[CLS]`；
+*   在第一句和第二句之间并在最后插入`[SEP]`；
+*   生成标记类型 ID，以指示标记是属于第一序列还是第二序列。
+
+[`gum_compute_metrics`](https://github.com/huggingface/transformers/blob/master/transformers/data/processors/glue.py)函数的计算指标为 [F1 得分](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)，可以将其解释为精度和召回率的加权平均值，其中 F1 得分最佳值为 1，最差值为 0。精度和召回率对 F1 得分的相对贡献相等。
+
+*   F1 分数的公式为：
+
+![](img/tex56-1.gif)
+
+### 1.4 下载数据集
+
+在运行 MRPC 任务之前，我们通过运行[此脚本](https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e)并下载 [GLUE 数据](https://gluebenchmark.com/tasks)并将其解压缩到目录`glue_data`中。
+
+```py
+python download_glue_data.py --data_dir='glue_data' --tasks='MRPC'
+
+```
+
+## 2.微调 BERT 模型
+
+BERT 的精神是预训练语言表示形式，然后以最小的任务相关参数微调各种任务上的深层双向表示形式，并获得最新的结果。 在本教程中，我们将专注于对预训练的 BERT 模型进行微调，以对 MRPC 任务上的语义等效句子对进行分类。
+
+要为 MRPC 任务微调预训练的 BERT 模型（HuggingFace 转换器中的`bert-base-uncased`模型），可以按照[示例](https://github.com/huggingface/transformers/tree/master/examples#mrpc)中的命令进行操作：
+
+```py
+export GLUE_DIR=./glue_data
+export TASK_NAME=MRPC
+export OUT_DIR=./$TASK_NAME/
+python ./run_glue.py \
+    --model_type bert \
+    --model_name_or_path bert-base-uncased \
+    --task_name $TASK_NAME \
+    --do_train \
+    --do_eval \
+    --do_lower_case \
+    --data_dir $GLUE_DIR/$TASK_NAME \
+    --max_seq_length 128 \
+    --per_gpu_eval_batch_size=8   \
+    --per_gpu_train_batch_size=8   \
+    --learning_rate 2e-5 \
+    --num_train_epochs 3.0 \
+    --save_steps 100000 \
+    --output_dir $OUT_DIR
+
+```
+
+[我们在此处为 MRPC 任务提供了经过微调的 BERT 模型](https://download.pytorch.org/tutorial/MRPC.zip)。 为了节省时间，您可以将模型文件（约 400 MB）直接下载到本地文件夹`$OUT_DIR`中。
+
+### 2.1 设置全局配置
+
+在这里，我们设置了用于在动态量化之前和之后评估微调 BERT 模型的全局配置。
+
+```py
+configs = Namespace()
+
+# The output directory for the fine-tuned model, $OUT_DIR.
+configs.output_dir = "./MRPC/"
+
+# The data directory for the MRPC task in the GLUE benchmark, $GLUE_DIR/$TASK_NAME.
+configs.data_dir = "./glue_data/MRPC"
+
+# The model name or path for the pre-trained model.
+configs.model_name_or_path = "bert-base-uncased"
+# The maximum length of an input sequence
+configs.max_seq_length = 128
+
+# Prepare GLUE task.
+configs.task_name = "MRPC".lower()
+configs.processor = processors[configs.task_name]()
+configs.output_mode = output_modes[configs.task_name]
+configs.label_list = configs.processor.get_labels()
+configs.model_type = "bert".lower()
+configs.do_lower_case = True
+
+# Set the device, batch size, topology, and caching flags.
+configs.device = "cpu"
+configs.per_gpu_eval_batch_size = 8
+configs.n_gpu = 0
+configs.local_rank = -1
+configs.overwrite_cache = False
+
+# Set random seed for reproducibility.
+def set_seed(seed):
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+set_seed(42)
+
+```
+
+### 2.2 加载经过微调的 BERT 模型
+
+我们从`configs.output_dir`加载标记器和经过微调的 BERT 序列分类器模型（FP32）。
+
+```py
+tokenizer = BertTokenizer.from_pretrained(
+    configs.output_dir, do_lower_case=configs.do_lower_case)
+
+model = BertForSequenceClassification.from_pretrained(configs.output_dir)
+model.to(configs.device)
+
+```
+
+### 2.3 定义分词和评估函数
+
+我们重用了 [Huggingface](https://github.com/huggingface/transformers/blob/master/examples/run_glue.py) 中的分词和评估函数。
+
+```py
+# coding=utf-8
+# Copyright 2018 The Google AI Language Team Authors and The HuggingFace Inc. team.
+# Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+def evaluate(args, model, tokenizer, prefix=""):
+    # Loop to handle MNLI double evaluation (matched, mis-matched)
+    eval_task_names = ("mnli", "mnli-mm") if args.task_name == "mnli" else (args.task_name,)
+    eval_outputs_dirs = (args.output_dir, args.output_dir + '-MM') if args.task_name == "mnli" else (args.output_dir,)
+
+    results = {}
+    for eval_task, eval_output_dir in zip(eval_task_names, eval_outputs_dirs):
+        eval_dataset = load_and_cache_examples(args, eval_task, tokenizer, evaluate=True)
+
+        if not os.path.exists(eval_output_dir) and args.local_rank in [-1, 0]:
+            os.makedirs(eval_output_dir)
+
+        args.eval_batch_size = args.per_gpu_eval_batch_size * max(1, args.n_gpu)
+        # Note that DistributedSampler samples randomly
+        eval_sampler = SequentialSampler(eval_dataset) if args.local_rank == -1 else DistributedSampler(eval_dataset)
+        eval_dataloader = DataLoader(eval_dataset, sampler=eval_sampler, batch_size=args.eval_batch_size)
+
+        # multi-gpu eval
+        if args.n_gpu > 1:
+            model = torch.nn.DataParallel(model)
+
+        # Eval!
+        logger.info("***** Running evaluation {} *****".format(prefix))
+        logger.info("  Num examples = %d", len(eval_dataset))
+        logger.info("  Batch size = %d", args.eval_batch_size)
+        eval_loss = 0.0
+        nb_eval_steps = 0
+        preds = None
+        out_label_ids = None
+        for batch in tqdm(eval_dataloader, desc="Evaluating"):
+            model.eval()
+            batch = tuple(t.to(args.device) for t in batch)
+
+            with torch.no_grad():
+                inputs = {'input_ids':      batch[0],
+                          'attention_mask': batch[1],
+                          'labels':         batch[3]}
+                if args.model_type != 'distilbert':
+                    inputs['token_type_ids'] = batch[2] if args.model_type in ['bert', 'xlnet'] else None  # XLM, DistilBERT and RoBERTa don't use segment_ids
+                outputs = model(**inputs)
+                tmp_eval_loss, logits = outputs[:2]
+
+                eval_loss += tmp_eval_loss.mean().item()
+            nb_eval_steps += 1
+            if preds is None:
+                preds = logits.detach().cpu().numpy()
+                out_label_ids = inputs['labels'].detach().cpu().numpy()
+            else:
+                preds = np.append(preds, logits.detach().cpu().numpy(), axis=0)
+                out_label_ids = np.append(out_label_ids, inputs['labels'].detach().cpu().numpy(), axis=0)
+
+        eval_loss = eval_loss / nb_eval_steps
+        if args.output_mode == "classification":
+            preds = np.argmax(preds, axis=1)
+        elif args.output_mode == "regression":
+            preds = np.squeeze(preds)
+        result = compute_metrics(eval_task, preds, out_label_ids)
+        results.update(result)
+
+        output_eval_file = os.path.join(eval_output_dir, prefix, "eval_results.txt")
+        with open(output_eval_file, "w") as writer:
+            logger.info("***** Eval results {} *****".format(prefix))
+            for key in sorted(result.keys()):
+                logger.info("  %s = %s", key, str(result[key]))
+                writer.write("%s = %s\n" % (key, str(result[key])))
+
+    return results
+
+def load_and_cache_examples(args, task, tokenizer, evaluate=False):
+    if args.local_rank not in [-1, 0] and not evaluate:
+        torch.distributed.barrier()  # Make sure only the first process in distributed training process the dataset, and the others will use the cache
+
+    processor = processors[task]()
+    output_mode = output_modes[task]
+    # Load data features from cache or dataset file
+    cached_features_file = os.path.join(args.data_dir, 'cached_{}_{}_{}_{}'.format(
+        'dev' if evaluate else 'train',
+        list(filter(None, args.model_name_or_path.split('/'))).pop(),
+        str(args.max_seq_length),
+        str(task)))
+    if os.path.exists(cached_features_file) and not args.overwrite_cache:
+        logger.info("Loading features from cached file %s", cached_features_file)
+        features = torch.load(cached_features_file)
+    else:
+        logger.info("Creating features from dataset file at %s", args.data_dir)
+        label_list = processor.get_labels()
+        if task in ['mnli', 'mnli-mm'] and args.model_type in ['roberta']:
+            # HACK(label indices are swapped in RoBERTa pretrained model)
+            label_list[1], label_list[2] = label_list[2], label_list[1]
+        examples = processor.get_dev_examples(args.data_dir) if evaluate else processor.get_train_examples(args.data_dir)
+        features = convert_examples_to_features(examples,
+                                                tokenizer,
+                                                label_list=label_list,
+                                                max_length=args.max_seq_length,
+                                                output_mode=output_mode,
+                                                pad_on_left=bool(args.model_type in ['xlnet']),                 # pad on the left for xlnet
+                                                pad_token=tokenizer.convert_tokens_to_ids([tokenizer.pad_token])[0],
+                                                pad_token_segment_id=4 if args.model_type in ['xlnet'] else 0,
+        )
+        if args.local_rank in [-1, 0]:
+            logger.info("Saving features into cached file %s", cached_features_file)
+            torch.save(features, cached_features_file)
+
+    if args.local_rank == 0 and not evaluate:
+        torch.distributed.barrier()  # Make sure only the first process in distributed training process the dataset, and the others will use the cache
+
+    # Convert to Tensors and build dataset
+    all_input_ids = torch.tensor([f.input_ids for f in features], dtype=torch.long)
+    all_attention_mask = torch.tensor([f.attention_mask for f in features], dtype=torch.long)
+    all_token_type_ids = torch.tensor([f.token_type_ids for f in features], dtype=torch.long)
+    if output_mode == "classification":
+        all_labels = torch.tensor([f.label for f in features], dtype=torch.long)
+    elif output_mode == "regression":
+        all_labels = torch.tensor([f.label for f in features], dtype=torch.float)
+
+    dataset = TensorDataset(all_input_ids, all_attention_mask, all_token_type_ids, all_labels)
+    return dataset
+
+```
+
+## 3.应用动态量化
+
+我们在模型上调用`torch.quantization.quantize_dynamic`，将动态量化应用于 HuggingFace BERT 模型。 特别，
+
+*   我们指定要对模型中的`torch.nn.Linear`模块进行量化；
+*   我们指定希望将权重转换为量化的`int8`值。
+
+```py
+quantized_model = torch.quantization.quantize_dynamic(
+    model, {torch.nn.Linear}, dtype=torch.qint8
+)
+print(quantized_model)
+
+```
+
+### 3.1 检查模型大小
+
+首先，检查模型尺寸。 我们可以观察到模型大小的显着减小（FP32 总大小：438 MB； INT8 总大小：181 MB）：
+
+```py
+def print_size_of_model(model):
+    torch.save(model.state_dict(), "temp.p")
+    print('Size (MB):', os.path.getsize("temp.p")/1e6)
+    os.remove('temp.p')
+
+print_size_of_model(model)
+print_size_of_model(quantized_model)
+
+```
+
+本教程中使用的 BERT 模型（`bert-base-uncased`）的词汇量`V`为 30522。在嵌入量为 768 的情况下，单词嵌入表的总大小为`~4 (Bytes/FP32) * 30522 * 768 = 90 MB` 。 因此，借助量化，非嵌入表部分的模型大小从 350 MB（FP32 模型）减少到 90 MB（INT8 模型）。
+
+### 3.2 评估推理准确率和时间
+
+接下来，我们比较一下动态量化后原始 FP32 模型和 INT8 模型之间的推断时间以及评估精度。
+
+```py
+def time_model_evaluation(model, configs, tokenizer):
+    eval_start_time = time.time()
+    result = evaluate(configs, model, tokenizer, prefix="")
+    eval_end_time = time.time()
+    eval_duration_time = eval_end_time - eval_start_time
+    print(result)
+    print("Evaluate total time (seconds): {0:.1f}".format(eval_duration_time))
+
+# Evaluate the original FP32 BERT model
+time_model_evaluation(model, configs, tokenizer)
+
+# Evaluate the INT8 BERT model after the dynamic quantization
+time_model_evaluation(quantized_model, configs, tokenizer)
+
+```
+
+在 MacBook Pro 上本地运行此程序，无需进行量化，推理（对于 MRPC 数据集中的所有 408 个示例）大约需要 160 秒，而进行量化则只需大约 90 秒。 我们总结了在 Macbook Pro 上运行量化 BERT 模型推断的结果，如下所示：
+
+```py
+| Prec | F1 score | Model Size | 1 thread | 4 threads |
+| FP32 |  0.9019  |   438 MB   | 160 sec  | 85 sec    |
+| INT8 |  0.902   |   181 MB   |  90 sec  | 46 sec    |
+
+```
+
+在 MRPC 任务的微调 BERT 模型上应用训练后动态量化后，我们的 F1 分数准确率为 0.6%。 作为比较，在[最新论文](https://arxiv.org/pdf/1910.06188.pdf)（表 1）中，通过应用训练后动态量化，可以达到 0.8788；通过应用量化感知训练，可以达到 0.8956。 主要区别在于我们在 PyTorch 中支持非对称量化，而该论文仅支持对称量化。
+
+请注意，在本教程中，为了进行单线程比较，我们将线程数设置为 1。 我们还为这些量化的 INT8 运算符支持运算内并行化。 用户现在可以通过`torch.set_num_threads(N)`设置多线程（`N`是内部运算并行线程的数量）。 启用帧内并行支持的一项初步要求是使用正确的[后端](https://pytorch.org/docs/stable/notes/cpu_threading_torchscript_inference.html#build-options)（例如 OpenMP，Native 或 TBB）构建 PyTorch。 您可以使用`torch.__config__.parallel_info()`检查并行化设置。 在使用 PyTorch 和本机后端进行并行化的同一台 MacBook Pro 上，我们可以花大约 46 秒的时间来处理 MRPC 数据集的评估。
+
+### 3.3 序列化量化模型
+
+跟踪模型后，我们可以使用`torch.jit.save`序列化并保存量化模型，以备将来使用。
+
+```py
+input_ids = ids_tensor([8, 128], 2)
+token_type_ids = ids_tensor([8, 128], 2)
+attention_mask = ids_tensor([8, 128], vocab_size=2)
+dummy_input = (input_ids, attention_mask, token_type_ids)
+traced_model = torch.jit.trace(quantized_model, dummy_input)
+torch.jit.save(traced_model, "bert_traced_eager_quant.pt")
+
+```
+
+要加载量化模型，我们可以使用`torch.jit.load`
+
+```py
+loaded_quantized_model = torch.jit.load("bert_traced_eager_quant.pt")
+
+```
+
+## 总结
+
+在本教程中，我们演示了如何演示如何将 BERT 等著名的最新 NLP 模型转换为动态量化模型。 动态量化可以减小模型的大小，而对准确率的影响有限。
+
+谢谢阅读！ 与往常一样，我们欢迎您提供反馈，因此，如果有任何问题，[请在这里创建一个 ISSUE](https://github.com/pytorch/pytorch/issues)。
+
+## 参考文献
+
+```py
+[1] J.Devlin, M. Chang, K. Lee and K. Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018).
+
+[2] HuggingFace Transformers.
+
+[3] O. Zafrir, G. Boudoukh, P. Izsak, and M. Wasserblat (2019). Q8BERT: Quantized 8bit BERT.
+```
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/57.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/57.md
new file mode 100644
index 00000000..4f3cd2bb
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/57.md
@@ -0,0 +1,813 @@
+# PyTorch 中使用 Eager 模式的静态量化（beta）
+
+> 原文：<https://pytorch.org/tutorials/advanced/static_quantization_tutorial.html#>
+
+**作者**： [Raghuraman Krishnamoorthi](https://github.com/raghuramank100)
+
+**编辑**：[Seth Weidman](https://github.com/SethHWeidman/)
+
+本教程说明了如何进行训练后的静态量化，并说明了两种更先进的技术-每通道量化和量化感知训练-可以进一步提高模型的准确率。 请注意，目前仅支持 CPU 量化，因此在本教程中我们将不使用 GPU/CUDA。
+
+在本教程结束时，您将看到 PyTorch 中的量化如何导致模型大小显着减小同时提高速度。 此外，[您将在此处看到如何轻松应用显示的一些高级量化技术](https://arxiv.org/abs/1806.08342)，以使您的量化模型受到的准确率影响要小得多。
+
+警告：我们使用了许多其他 PyTorch 仓库中的样板代码，例如，定义了`MobileNetV2`模型架构，定义了数据加载器等等。 我们当然鼓励您阅读它； 但是如果要使用量化功能，请随时跳到“ 4。 训练后静态量化”部分。
+
+我们将从进行必要的导入开始：
+
+```py
+import numpy as np
+import torch
+import torch.nn as nn
+import torchvision
+from torch.utils.data import DataLoader
+from torchvision import datasets
+import torchvision.transforms as transforms
+import os
+import time
+import sys
+import torch.quantization
+
+# # Setup warnings
+import warnings
+warnings.filterwarnings(
+    action='ignore',
+    category=DeprecationWarning,
+    module=r'.*'
+)
+warnings.filterwarnings(
+    action='default',
+    module=r'torch.quantization'
+)
+
+# Specify random seed for repeatable results
+torch.manual_seed(191009)
+
+```
+
+## 1.模型架构
+
+我们首先定义 MobileNetV2 模型架构，并进行了一些值得注意的修改以实现量化：
+
+*   用`nn.quantized.FloatFunctional`代替添加
+*   在网络的开头和结尾处插入`QuantStub`和`DeQuantStub`。
+*   用 ReLU 替换 ReLU6
+
+注意：此代码取自[此处](https://github.com/pytorch/vision/blob/master/torchvision/models/mobilenet.py)。
+
+```py
+from torch.quantization import QuantStub, DeQuantStub
+
+def _make_divisible(v, divisor, min_value=None):
+    """
+    This function is taken from the original tf repo.
+    It ensures that all layers have a channel number that is divisible by 8
+    It can be seen here:
+    https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet.py
+    :param v:
+    :param divisor:
+    :param min_value:
+    :return:
+    """
+    if min_value is None:
+        min_value = divisor
+    new_v = max(min_value, int(v + divisor / 2) // divisor * divisor)
+    # Make sure that round down does not go down by more than 10%.
+    if new_v < 0.9 * v:
+        new_v += divisor
+    return new_v
+
+class ConvBNReLU(nn.Sequential):
+    def __init__(self, in_planes, out_planes, kernel_size=3, stride=1, groups=1):
+        padding = (kernel_size - 1) // 2
+        super(ConvBNReLU, self).__init__(
+            nn.Conv2d(in_planes, out_planes, kernel_size, stride, padding, groups=groups, bias=False),
+            nn.BatchNorm2d(out_planes, momentum=0.1),
+            # Replace with ReLU
+            nn.ReLU(inplace=False)
+        )
+
+class InvertedResidual(nn.Module):
+    def __init__(self, inp, oup, stride, expand_ratio):
+        super(InvertedResidual, self).__init__()
+        self.stride = stride
+        assert stride in [1, 2]
+
+        hidden_dim = int(round(inp * expand_ratio))
+        self.use_res_connect = self.stride == 1 and inp == oup
+
+        layers = []
+        if expand_ratio != 1:
+            # pw
+            layers.append(ConvBNReLU(inp, hidden_dim, kernel_size=1))
+        layers.extend([
+            # dw
+            ConvBNReLU(hidden_dim, hidden_dim, stride=stride, groups=hidden_dim),
+            # pw-linear
+            nn.Conv2d(hidden_dim, oup, 1, 1, 0, bias=False),
+            nn.BatchNorm2d(oup, momentum=0.1),
+        ])
+        self.conv = nn.Sequential(*layers)
+        # Replace torch.add with floatfunctional
+        self.skip_add = nn.quantized.FloatFunctional()
+
+    def forward(self, x):
+        if self.use_res_connect:
+            return self.skip_add.add(x, self.conv(x))
+        else:
+            return self.conv(x)
+
+class MobileNetV2(nn.Module):
+    def __init__(self, num_classes=1000, width_mult=1.0, inverted_residual_setting=None, round_nearest=8):
+        """
+        MobileNet V2 main class
+
+        Args:
+            num_classes (int): Number of classes
+            width_mult (float): Width multiplier - adjusts number of channels in each layer by this amount
+            inverted_residual_setting: Network structure
+            round_nearest (int): Round the number of channels in each layer to be a multiple of this number
+            Set to 1 to turn off rounding
+        """
+        super(MobileNetV2, self).__init__()
+        block = InvertedResidual
+        input_channel = 32
+        last_channel = 1280
+
+        if inverted_residual_setting is None:
+            inverted_residual_setting = [
+                # t, c, n, s
+                [1, 16, 1, 1],
+                [6, 24, 2, 2],
+                [6, 32, 3, 2],
+                [6, 64, 4, 2],
+                [6, 96, 3, 1],
+                [6, 160, 3, 2],
+                [6, 320, 1, 1],
+            ]
+
+        # only check the first element, assuming user knows t,c,n,s are required
+        if len(inverted_residual_setting) == 0 or len(inverted_residual_setting[0]) != 4:
+            raise ValueError("inverted_residual_setting should be non-empty "
+                             "or a 4-element list, got {}".format(inverted_residual_setting))
+
+        # building first layer
+        input_channel = _make_divisible(input_channel * width_mult, round_nearest)
+        self.last_channel = _make_divisible(last_channel * max(1.0, width_mult), round_nearest)
+        features = [ConvBNReLU(3, input_channel, stride=2)]
+        # building inverted residual blocks
+        for t, c, n, s in inverted_residual_setting:
+            output_channel = _make_divisible(c * width_mult, round_nearest)
+            for i in range(n):
+                stride = s if i == 0 else 1
+                features.append(block(input_channel, output_channel, stride, expand_ratio=t))
+                input_channel = output_channel
+        # building last several layers
+        features.append(ConvBNReLU(input_channel, self.last_channel, kernel_size=1))
+        # make it nn.Sequential
+        self.features = nn.Sequential(*features)
+        self.quant = QuantStub()
+        self.dequant = DeQuantStub()
+        # building classifier
+        self.classifier = nn.Sequential(
+            nn.Dropout(0.2),
+            nn.Linear(self.last_channel, num_classes),
+        )
+
+        # weight initialization
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out')
+                if m.bias is not None:
+                    nn.init.zeros_(m.bias)
+            elif isinstance(m, nn.BatchNorm2d):
+                nn.init.ones_(m.weight)
+                nn.init.zeros_(m.bias)
+            elif isinstance(m, nn.Linear):
+                nn.init.normal_(m.weight, 0, 0.01)
+                nn.init.zeros_(m.bias)
+
+    def forward(self, x):
+
+        x = self.quant(x)
+
+        x = self.features(x)
+        x = x.mean([2, 3])
+        x = self.classifier(x)
+        x = self.dequant(x)
+        return x
+
+    # Fuse Conv+BN and Conv+BN+Relu modules prior to quantization
+    # This operation does not change the numerics
+    def fuse_model(self):
+        for m in self.modules():
+            if type(m) == ConvBNReLU:
+                torch.quantization.fuse_modules(m, ['0', '1', '2'], inplace=True)
+            if type(m) == InvertedResidual:
+                for idx in range(len(m.conv)):
+                    if type(m.conv[idx]) == nn.Conv2d:
+                        torch.quantization.fuse_modules(m.conv, [str(idx), str(idx + 1)], inplace=True)
+
+```
+
+## 2.辅助函数
+
+接下来，我们定义一些助手函数以帮助模型评估。 这些主要来自[这里](https://github.com/pytorch/examples/blob/master/imagenet/main.py)。
+
+```py
+class AverageMeter(object):
+    """Computes and stores the average and current value"""
+    def __init__(self, name, fmt=':f'):
+        self.name = name
+        self.fmt = fmt
+        self.reset()
+
+    def reset(self):
+        self.val = 0
+        self.avg = 0
+        self.sum = 0
+        self.count = 0
+
+    def update(self, val, n=1):
+        self.val = val
+        self.sum += val * n
+        self.count += n
+        self.avg = self.sum / self.count
+
+    def __str__(self):
+        fmtstr = '{name} {val' + self.fmt + '} ({avg' + self.fmt + '})'
+        return fmtstr.format(**self.__dict__)
+
+def accuracy(output, target, topk=(1,)):
+    """Computes the accuracy over the k top predictions for the specified values of k"""
+    with torch.no_grad():
+        maxk = max(topk)
+        batch_size = target.size(0)
+
+        _, pred = output.topk(maxk, 1, True, True)
+        pred = pred.t()
+        correct = pred.eq(target.view(1, -1).expand_as(pred))
+
+        res = []
+        for k in topk:
+            correct_k = correct[:k].reshape(-1).float().sum(0, keepdim=True)
+            res.append(correct_k.mul_(100.0 / batch_size))
+        return res
+
+def evaluate(model, criterion, data_loader, neval_batches):
+    model.eval()
+    top1 = AverageMeter('Acc@1', ':6.2f')
+    top5 = AverageMeter('Acc@5', ':6.2f')
+    cnt = 0
+    with torch.no_grad():
+        for image, target in data_loader:
+            output = model(image)
+            loss = criterion(output, target)
+            cnt += 1
+            acc1, acc5 = accuracy(output, target, topk=(1, 5))
+            print('.', end = '')
+            top1.update(acc1[0], image.size(0))
+            top5.update(acc5[0], image.size(0))
+            if cnt >= neval_batches:
+                 return top1, top5
+
+    return top1, top5
+
+def load_model(model_file):
+    model = MobileNetV2()
+    state_dict = torch.load(model_file)
+    model.load_state_dict(state_dict)
+    model.to('cpu')
+    return model
+
+def print_size_of_model(model):
+    torch.save(model.state_dict(), "temp.p")
+    print('Size (MB):', os.path.getsize("temp.p")/1e6)
+    os.remove('temp.p')
+
+```
+
+## 3.定义数据集和数据加载器
+
+作为最后的主要设置步骤，我们为训练和测试集定义了数据加载器。
+
+### ImageNet 数据
+
+我们为本教程创建的特定数据集仅包含来自 ImageNet 数据的 1000 张图像，每个类别都有一张（此数据集的大小刚好超过 250 MB，可以相对轻松地下载）。 此自定义数据集的 URL 为：
+
+```py
+https://s3.amazonaws.com/pytorch-tutorial-assets/imagenet_1k.zip
+
+```
+
+要使用 Python 在本地下载此数据，可以使用：
+
+```py
+import requests
+
+url = 'https://s3.amazonaws.com/pytorch-tutorial-assets/imagenet_1k.zip`
+filename = '~/Downloads/imagenet_1k_data.zip'
+
+r = requests.get(url)
+
+with open(filename, 'wb') as f:
+    f.write(r.content)
+
+```
+
+为了运行本教程，我们下载了这些数据，并使用 [Makefile](https://github.com/pytorch/tutorials/blob/master/Makefile) 中的这些行将其移到正确的位置。
+
+另一方面，要使用整个 ImageNet 数据集运行本教程中的代码，[可以在此之后使用`torchvision`下载数据](https://pytorch.org/docs/stable/torchvision/datasets.html#imagenet)。 例如，要下载训练集并对其进行一些标准转换，可以使用：
+
+```py
+import torchvision
+import torchvision.transforms as transforms
+
+imagenet_dataset = torchvision.datasets.ImageNet(
+    '~/.data/imagenet',
+    split='train',
+    download=True,
+    transforms.Compose([
+        transforms.RandomResizedCrop(224),
+        transforms.RandomHorizontalFlip(),
+        transforms.ToTensor(),
+        transforms.Normalize(mean=[0.485, 0.456, 0.406],
+                             std=[0.229, 0.224, 0.225]),
+    ])
+
+```
+
+下载完数据后，我们在下面显示了一些函数，这些函数定义了将用于读取此数据的数据加载器。 这些函数主要来自[此处](https://github.com/pytorch/vision/blob/master/references/detection/train.py)。
+
+```py
+def prepare_data_loaders(data_path):
+
+    traindir = os.path.join(data_path, 'train')
+    valdir = os.path.join(data_path, 'val')
+    normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406],
+                                     std=[0.229, 0.224, 0.225])
+
+    dataset = torchvision.datasets.ImageFolder(
+        traindir,
+        transforms.Compose([
+            transforms.RandomResizedCrop(224),
+            transforms.RandomHorizontalFlip(),
+            transforms.ToTensor(),
+            normalize,
+        ]))
+
+    dataset_test = torchvision.datasets.ImageFolder(
+        valdir,
+        transforms.Compose([
+            transforms.Resize(256),
+            transforms.CenterCrop(224),
+            transforms.ToTensor(),
+            normalize,
+        ]))
+
+    train_sampler = torch.utils.data.RandomSampler(dataset)
+    test_sampler = torch.utils.data.SequentialSampler(dataset_test)
+
+    data_loader = torch.utils.data.DataLoader(
+        dataset, batch_size=train_batch_size,
+        sampler=train_sampler)
+
+    data_loader_test = torch.utils.data.DataLoader(
+        dataset_test, batch_size=eval_batch_size,
+        sampler=test_sampler)
+
+    return data_loader, data_loader_test
+
+```
+
+接下来，我们将加载经过预先​​训练的 MobileNetV2 模型。 [我们在这里提供用于从`torchvision`中下载数据的 URL](https://github.com/pytorch/vision/blob/master/torchvision/models/mobilenet.py#L9)。
+
+```py
+data_path = 'data/imagenet_1k'
+saved_model_dir = 'data/'
+float_model_file = 'mobilenet_pretrained_float.pth'
+scripted_float_model_file = 'mobilenet_quantization_scripted.pth'
+scripted_quantized_model_file = 'mobilenet_quantization_scripted_quantized.pth'
+
+train_batch_size = 30
+eval_batch_size = 30
+
+data_loader, data_loader_test = prepare_data_loaders(data_path)
+criterion = nn.CrossEntropyLoss()
+float_model = load_model(saved_model_dir + float_model_file).to('cpu')
+
+```
+
+接下来，我们将“融合模块”； 通过节省内存访问量，这可以使模型更快，同时还可以提高数值精度。 尽管这可以用于任何模型，但在量化模型中尤为常见。
+
+```py
+print('\n Inverted Residual Block: Before fusion \n\n', float_model.features[1].conv)
+float_model.eval()
+
+# Fuses modules
+float_model.fuse_model()
+
+# Note fusion of Conv+BN+Relu and Conv+Relu
+print('\n Inverted Residual Block: After fusion\n\n',float_model.features[1].conv)
+
+```
+
+出：
+
+```py
+Inverted Residual Block: Before fusion
+
+ Sequential(
+  (0): ConvBNReLU(
+    (0): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32, bias=False)
+    (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (2): ReLU()
+  )
+  (1): Conv2d(32, 16, kernel_size=(1, 1), stride=(1, 1), bias=False)
+  (2): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+)
+
+ Inverted Residual Block: After fusion
+
+ Sequential(
+  (0): ConvBNReLU(
+    (0): ConvReLU2d(
+      (0): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32)
+      (1): ReLU()
+    )
+    (1): Identity()
+    (2): Identity()
+  )
+  (1): Conv2d(32, 16, kernel_size=(1, 1), stride=(1, 1))
+  (2): Identity()
+)
+
+```
+
+最后，为了获得“基准”精度，让我们看看带有融合模块的未量化模型的精度
+
+```py
+num_eval_batches = 10
+
+print("Size of baseline model")
+print_size_of_model(float_model)
+
+top1, top5 = evaluate(float_model, criterion, data_loader_test, neval_batches=num_eval_batches)
+print('Evaluation accuracy on %d images, %2.2f'%(num_eval_batches * eval_batch_size, top1.avg))
+torch.jit.save(torch.jit.script(float_model), saved_model_dir + scripted_float_model_file)
+
+```
+
+出：
+
+```py
+Size of baseline model
+Size (MB): 13.999657
+..........Evaluation accuracy on 300 images, 77.67
+
+```
+
+我们看到 300 张图像的准确率达到 78%，这是 ImageNet 的坚实基础，特别是考虑到我们的模型只有 14.0 MB。
+
+这将是我们比较的基准。 接下来，让我们尝试不同的量化方法
+
+## 4.训练后的静态量化
+
+训练后的静态量化不仅涉及像动态量化中那样将权重从`float`转换为`int`，而且还执行额外的步骤，即首先通过网络馈送一批数据并计算不同激活的结果分布（具体来说，这通过在记录此数据的不同点插入观察者模块来完成）。 然后使用这些分布来确定在推理时如何具体量化不同的激活（一种简单的技术是将整个激活范围简单地划分为 256 个级别，但我们也支持更复杂的方法）。 重要的是，此附加步骤使我们能够在操作之间传递量化值，而不是在每次操作之间将这些值转换为浮点数，然后再转换为整数，从而显着提高了速度。
+
+```py
+num_calibration_batches = 10
+
+myModel = load_model(saved_model_dir + float_model_file).to('cpu')
+myModel.eval()
+
+# Fuse Conv, bn and relu
+myModel.fuse_model()
+
+# Specify quantization configuration
+# Start with simple min/max range estimation and per-tensor quantization of weights
+myModel.qconfig = torch.quantization.default_qconfig
+print(myModel.qconfig)
+torch.quantization.prepare(myModel, inplace=True)
+
+# Calibrate first
+print('Post Training Quantization Prepare: Inserting Observers')
+print('\n Inverted Residual Block:After observer insertion \n\n', myModel.features[1].conv)
+
+# Calibrate with the training set
+evaluate(myModel, criterion, data_loader, neval_batches=num_calibration_batches)
+print('Post Training Quantization: Calibration done')
+
+# Convert to quantized model
+torch.quantization.convert(myModel, inplace=True)
+print('Post Training Quantization: Convert done')
+print('\n Inverted Residual Block: After fusion and quantization, note fused modules: \n\n',myModel.features[1].conv)
+
+print("Size of model after quantization")
+print_size_of_model(myModel)
+
+top1, top5 = evaluate(myModel, criterion, data_loader_test, neval_batches=num_eval_batches)
+print('Evaluation accuracy on %d images, %2.2f'%(num_eval_batches * eval_batch_size, top1.avg))
+
+```
+
+出：
+
+```py
+QConfig(activation=functools.partial(<class 'torch.quantization.observer.MinMaxObserver'>, reduce_range=True), weight=functools.partial(<class 'torch.quantization.observer.MinMaxObserver'>, dtype=torch.qint8, qscheme=torch.per_tensor_symmetric))
+Post Training Quantization Prepare: Inserting Observers
+
+ Inverted Residual Block:After observer insertion
+
+ Sequential(
+  (0): ConvBNReLU(
+    (0): ConvReLU2d(
+      (0): Conv2d(
+        32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32
+        (activation_post_process): MinMaxObserver(min_val=inf, max_val=-inf)
+      )
+      (1): ReLU(
+        (activation_post_process): MinMaxObserver(min_val=inf, max_val=-inf)
+      )
+    )
+    (1): Identity()
+    (2): Identity()
+  )
+  (1): Conv2d(
+    32, 16, kernel_size=(1, 1), stride=(1, 1)
+    (activation_post_process): MinMaxObserver(min_val=inf, max_val=-inf)
+  )
+  (2): Identity()
+)
+..........Post Training Quantization: Calibration done
+Post Training Quantization: Convert done
+
+ Inverted Residual Block: After fusion and quantization, note fused modules:
+
+ Sequential(
+  (0): ConvBNReLU(
+    (0): QuantizedConvReLU2d(32, 32, kernel_size=(3, 3), stride=(1, 1), scale=0.1516050398349762, zero_point=0, padding=(1, 1), groups=32)
+    (1): Identity()
+    (2): Identity()
+  )
+  (1): QuantizedConv2d(32, 16, kernel_size=(1, 1), stride=(1, 1), scale=0.17719413340091705, zero_point=63)
+  (2): Identity()
+)
+Size of model after quantization
+Size (MB): 3.631847
+..........Evaluation accuracy on 300 images, 66.67
+
+```
+
+对于这个量化模型，我们发现在这 300 张相同的图像上，准确率仅低至约 62%。 不过，我们确实将模型的大小减小到了 3.6 MB 以下，几乎减少了 4 倍。
+
+此外，我们可以通过使用不同的量化配置来显着提高准确率。 我们使用推荐的配置对 x86 架构进行量化，重复相同的练习。 此配置执行以下操作：
+
+*   量化每个通道的权重
+*   使用直方图观察器，该直方图观察器收集激活的直方图，然后以最佳方式选择量化参数。
+
+```py
+per_channel_quantized_model = load_model(saved_model_dir + float_model_file)
+per_channel_quantized_model.eval()
+per_channel_quantized_model.fuse_model()
+per_channel_quantized_model.qconfig = torch.quantization.get_default_qconfig('fbgemm')
+print(per_channel_quantized_model.qconfig)
+
+torch.quantization.prepare(per_channel_quantized_model, inplace=True)
+evaluate(per_channel_quantized_model,criterion, data_loader, num_calibration_batches)
+torch.quantization.convert(per_channel_quantized_model, inplace=True)
+top1, top5 = evaluate(per_channel_quantized_model, criterion, data_loader_test, neval_batches=num_eval_batches)
+print('Evaluation accuracy on %d images, %2.2f'%(num_eval_batches * eval_batch_size, top1.avg))
+torch.jit.save(torch.jit.script(per_channel_quantized_model), saved_model_dir + scripted_quantized_model_file)
+
+```
+
+出：
+
+```py
+QConfig(activation=functools.partial(<class 'torch.quantization.observer.HistogramObserver'>, reduce_range=True), weight=functools.partial(<class 'torch.quantization.observer.PerChannelMinMaxObserver'>, dtype=torch.qint8, qscheme=torch.per_channel_symmetric))
+....................Evaluation accuracy on 300 images, 74.67
+
+```
+
+仅更改这种量化配置方法，就可以将准确率提高到 76% 以上！ 尽管如此，这仍比上述 78% 的基准差 1-2%。 因此，让我们尝试量化意识的训练。
+
+## 5.量化感知的训练
+
+量化感知的训练（QAT）是通常导致最高准确率的量化方法。 使用 QAT，在训练的正向和反向过程中，所有权重和激活都被“伪量化”：即，浮点值四舍五入以模拟`int8`值，但所有计算仍使用浮点数完成。 因此，在训练过程中进行所有权重调整，同时“意识到”该模型将最终被量化的事实。 因此，在量化之后，此方法通常会比动态量化或训练后静态量化产生更高的精度。
+
+实际执行 QAT 的总体工作流程与之前非常相似：
+
+*   我们可以使用与以前相同的模型：量化感知的训练不需要额外的准备。
+*   我们需要使用`qconfig`来指定要在权重和激活之后插入哪种伪量化，而不是指定观察者
+
+我们首先定义一个训练函数：
+
+```py
+def train_one_epoch(model, criterion, optimizer, data_loader, device, ntrain_batches):
+    model.train()
+    top1 = AverageMeter('Acc@1', ':6.2f')
+    top5 = AverageMeter('Acc@5', ':6.2f')
+    avgloss = AverageMeter('Loss', '1.5f')
+
+    cnt = 0
+    for image, target in data_loader:
+        start_time = time.time()
+        print('.', end = '')
+        cnt += 1
+        image, target = image.to(device), target.to(device)
+        output = model(image)
+        loss = criterion(output, target)
+        optimizer.zero_grad()
+        loss.backward()
+        optimizer.step()
+        acc1, acc5 = accuracy(output, target, topk=(1, 5))
+        top1.update(acc1[0], image.size(0))
+        top5.update(acc5[0], image.size(0))
+        avgloss.update(loss, image.size(0))
+        if cnt >= ntrain_batches:
+            print('Loss', avgloss.avg)
+
+            print('Training: * Acc@1 {top1.avg:.3f} Acc@5 {top5.avg:.3f}'
+                  .format(top1=top1, top5=top5))
+            return
+
+    print('Full imagenet train set:  * Acc@1 {top1.global_avg:.3f} Acc@5 {top5.global_avg:.3f}'
+          .format(top1=top1, top5=top5))
+    return
+
+```
+
+我们像以前一样融合模块
+
+```py
+qat_model = load_model(saved_model_dir + float_model_file)
+qat_model.fuse_model()
+
+optimizer = torch.optim.SGD(qat_model.parameters(), lr = 0.0001)
+qat_model.qconfig = torch.quantization.get_default_qat_qconfig('fbgemm')
+
+```
+
+最后，`prepare_qat`执行“伪量化”，为量化感知训练准备模型
+
+```py
+torch.quantization.prepare_qat(qat_model, inplace=True)
+print('Inverted Residual Block: After preparation for QAT, note fake-quantization modules \n',qat_model.features[1].conv)
+
+```
+
+出：
+
+```py
+Inverted Residual Block: After preparation for QAT, note fake-quantization modules
+ Sequential(
+  (0): ConvBNReLU(
+    (0): ConvBnReLU2d(
+      32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32, bias=False
+      (bn): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+      (weight_fake_quant): FakeQuantize(
+        fake_quant_enabled=tensor([1], dtype=torch.uint8), observer_enabled=tensor([1], dtype=torch.uint8),            quant_min=-128, quant_max=127, dtype=torch.qint8, qscheme=torch.per_channel_symmetric, ch_axis=0,         scale=tensor([1.]), zero_point=tensor([0])
+        (activation_post_process): MovingAveragePerChannelMinMaxObserver(min_val=tensor([]), max_val=tensor([]))
+      )
+      (activation_post_process): FakeQuantize(
+        fake_quant_enabled=tensor([1], dtype=torch.uint8), observer_enabled=tensor([1], dtype=torch.uint8),            quant_min=0, quant_max=255, dtype=torch.quint8, qscheme=torch.per_tensor_affine, ch_axis=-1,         scale=tensor([1.]), zero_point=tensor([0])
+        (activation_post_process): MovingAverageMinMaxObserver(min_val=inf, max_val=-inf)
+      )
+    )
+    (1): Identity()
+    (2): Identity()
+  )
+  (1): ConvBn2d(
+    32, 16, kernel_size=(1, 1), stride=(1, 1), bias=False
+    (bn): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+    (weight_fake_quant): FakeQuantize(
+      fake_quant_enabled=tensor([1], dtype=torch.uint8), observer_enabled=tensor([1], dtype=torch.uint8),            quant_min=-128, quant_max=127, dtype=torch.qint8, qscheme=torch.per_channel_symmetric, ch_axis=0,         scale=tensor([1.]), zero_point=tensor([0])
+      (activation_post_process): MovingAveragePerChannelMinMaxObserver(min_val=tensor([]), max_val=tensor([]))
+    )
+    (activation_post_process): FakeQuantize(
+      fake_quant_enabled=tensor([1], dtype=torch.uint8), observer_enabled=tensor([1], dtype=torch.uint8),            quant_min=0, quant_max=255, dtype=torch.quint8, qscheme=torch.per_tensor_affine, ch_axis=-1,         scale=tensor([1.]), zero_point=tensor([0])
+      (activation_post_process): MovingAverageMinMaxObserver(min_val=inf, max_val=-inf)
+    )
+  )
+  (2): Identity()
+)
+
+```
+
+高精度训练量化模型需要在推断时对数字进行精确建模。 因此，对于量化感知的训练，我们通过以下方式修改训练循环：
+
+*   在训练快要结束时切换批量规范以使用运行均值和方差，以更好地匹配推理数字。
+*   我们还冻结了量化器参数（比例和零点），并对权重进行了微调。
+
+```py
+num_train_batches = 20
+
+# Train and check accuracy after each epoch
+for nepoch in range(8):
+    train_one_epoch(qat_model, criterion, optimizer, data_loader, torch.device('cpu'), num_train_batches)
+    if nepoch > 3:
+        # Freeze quantizer parameters
+        qat_model.apply(torch.quantization.disable_observer)
+    if nepoch > 2:
+        # Freeze batch norm mean and variance estimates
+        qat_model.apply(torch.nn.intrinsic.qat.freeze_bn_stats)
+
+    # Check the accuracy after each epoch
+    quantized_model = torch.quantization.convert(qat_model.eval(), inplace=False)
+    quantized_model.eval()
+    top1, top5 = evaluate(quantized_model,criterion, data_loader_test, neval_batches=num_eval_batches)
+    print('Epoch %d :Evaluation accuracy on %d images, %2.2f'%(nepoch, num_eval_batches * eval_batch_size, top1.avg))
+
+```
+
+出：
+
+```py
+....................Loss tensor(2.0747, grad_fn=<DivBackward0>)
+Training: * Acc@1 56.167 Acc@5 77.333
+..........Epoch 0 :Evaluation accuracy on 300 images, 77.67
+....................Loss tensor(2.0358, grad_fn=<DivBackward0>)
+Training: * Acc@1 54.833 Acc@5 78.500
+..........Epoch 1 :Evaluation accuracy on 300 images, 77.00
+....................Loss tensor(2.0417, grad_fn=<DivBackward0>)
+Training: * Acc@1 54.667 Acc@5 77.333
+..........Epoch 2 :Evaluation accuracy on 300 images, 74.67
+....................Loss tensor(1.9055, grad_fn=<DivBackward0>)
+Training: * Acc@1 56.833 Acc@5 78.667
+..........Epoch 3 :Evaluation accuracy on 300 images, 76.33
+....................Loss tensor(1.9055, grad_fn=<DivBackward0>)
+Training: * Acc@1 58.167 Acc@5 80.000
+..........Epoch 4 :Evaluation accuracy on 300 images, 77.00
+....................Loss tensor(1.7821, grad_fn=<DivBackward0>)
+Training: * Acc@1 60.500 Acc@5 82.833
+..........Epoch 5 :Evaluation accuracy on 300 images, 76.33
+....................Loss tensor(1.8145, grad_fn=<DivBackward0>)
+Training: * Acc@1 58.833 Acc@5 82.333
+..........Epoch 6 :Evaluation accuracy on 300 images, 74.33
+....................Loss tensor(1.6930, grad_fn=<DivBackward0>)
+Training: * Acc@1 63.000 Acc@5 81.333
+..........Epoch 7 :Evaluation accuracy on 300 images, 75.67
+
+```
+
+在这里，我们只对少数几个周期执行量化感知训练。 尽管如此，量化感知的训练在整个 imagenet 数据集上的准确率仍超过 71%，接近浮点精度 71.9%。
+
+有关量化感知的训练的更多信息：
+
+*   QAT 是训练后量化技术的超集，可以进行更多调试。 例如，我们可以分析模型的准确率是否受到权重或激活量化的限制。
+*   由于我们使用伪量化来对实际量化算术的数值建模，因此我们还可以在浮点中模拟量化模型的准确率。
+*   我们也可以轻松地模拟训练后量化。
+
+### 来自量化的加速
+
+最后，让我们确认一下我们上面提到的内容：量化模型实际上执行推理的速度更快吗？ 让我们测试一下：
+
+```py
+def run_benchmark(model_file, img_loader):
+    elapsed = 0
+    model = torch.jit.load(model_file)
+    model.eval()
+    num_batches = 5
+    # Run the scripted model on a few batches of images
+    for i, (images, target) in enumerate(img_loader):
+        if i < num_batches:
+            start = time.time()
+            output = model(images)
+            end = time.time()
+            elapsed = elapsed + (end-start)
+        else:
+            break
+    num_images = images.size()[0] * num_batches
+
+    print('Elapsed time: %3.0f ms' % (elapsed/num_images*1000))
+    return elapsed
+
+run_benchmark(saved_model_dir + scripted_float_model_file, data_loader_test)
+
+run_benchmark(saved_model_dir + scripted_quantized_model_file, data_loader_test)
+
+```
+
+出：
+
+```py
+Elapsed time:   7 ms
+Elapsed time:   4 ms
+
+```
+
+在 MacBook Pro 上本地运行此程序，常规模型的运行时间为 61 毫秒，而量化模型的运行时间仅为 20 毫秒，这说明了量化模型与浮点模型相比，典型的 2-4 倍加速。
+
+## 总结
+
+在本教程中，我们展示了两种量化方法-训练后静态量化和量化感知训练-描述它们在“幕后”进行的操作以及如何在 PyTorch 中使用它们。
+
+谢谢阅读！ 与往常一样，我们欢迎您提供反馈，因此，如果有任何问题，[请在这里创建一个 ISSUE](https://github.com/pytorch/pytorch/issues)。
+
+**脚本的总运行时间**：（5 分钟 40.226 秒）
+
+[下载 Python 源码：`static_quantization_tutorial.py`](../_downloads/bd7ace4f5df8c6f747eadb10a7f737cd/static_quantization_tutorial.py)
+
+[下载 Jupyter 笔记本：`static_quantization_tutorial.ipynb`](../_downloads/03ac9a8e1176f5e39736885e8c439a82/static_quantization_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/58.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/58.md
new file mode 100644
index 00000000..ca6788e6
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/58.md
@@ -0,0 +1,431 @@
+# 计算机视觉的量化迁移学习教程（beta）
+
+> 原文：<https://pytorch.org/tutorials/intermediate/quantized_transfer_learning_tutorial.html>
+
+小费
+
+为了充分利用本教程，我们建议使用此 [Colab 版本](https://colab.research.google.com/github/pytorch/tutorials/blob/gh-pages/_downloads/quantized_transfer_learning_tutorial.ipynb)。 这将使您可以尝试以下信息。
+
+**作者**： [Zafar Takhirov](https://github.com/z-a-f)
+
+**由**审核： [Raghuraman Krishnamoorthi](https://github.com/raghuramank100)
+
+**编辑**：[Jessica Lin](https://github.com/jlin27)
+
+本教程以 [Sasank Chilamkurthy](https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html) 编写的原始 [PyTorch 迁移学习](https://pytorch.org/tutorials/beginner/transfer_learning_tutorial.html)教程为基础。
+
+迁移学习是指利用预训练的模型应用于不同数据集的技术。 使用迁移学习的主要方法有两种：
+
+1.  **作为固定特征提取器的 ConvNet**：在这里，您[“冻结”](https://arxiv.org/abs/1706.04983)网络中所有参数的权重，除了最后几层（又称“头部”，通常是全连接层）。 将这些最后一层替换为使用随机权重初始化的新层，并且仅训练这些层。
+2.  **ConvNet 的微调**：使用随机训练的网络初始化模型，而不是随机初始化，然后像往常一样使用不同的数据集进行训练。 通常，如果输出数量不同，则在网络中也会更换头部（或头部的一部分）。 这种方法通常将学习率设置为较小的值。 这样做是因为已经对网络进行了训练，并且只需进行较小的更改即可将其“微调”到新的数据集。
+
+您还可以结合以上两种方法：首先，可以冻结特征提取器，并训练头部。 之后，您可以解冻特征提取器（或其一部分），将学习率设置为较小的值，然后继续进行训练。
+
+在本部分中，您将使用第一种方法-使用量化模型提取特征。
+
+## 第 0 部分，先决条件
+
+在深入学习迁移学习之前，让我们回顾一下“先决条件”，例如安装和数据加载/可视化。
+
+```py
+# Imports
+import copy
+import matplotlib.pyplot as plt
+import numpy as np
+import os
+import time
+
+plt.ion()
+
+```
+
+### 安装每夜构建
+
+因为您将使用 PyTorch 的 Beta 部分，所以建议安装最新版本的`torch`和`torchvision`。 [您可以在这里找到有关本地安装的最新说明](https://pytorch.org/get-started/locally/)。 例如，要在没有 GPU 支持的情况下进行安装：
+
+```py
+pip install numpy
+pip install --pre torch torchvision -f https://download.pytorch.org/whl/nightly/cpu/torch_nightly.html
+# For CUDA support use https://download.pytorch.org/whl/nightly/cu101/torch_nightly.html
+
+```
+
+### 加载数据
+
+注意
+
+本部分与原始的迁移学习教程相同。
+
+我们将使用`torchvision`和`torch.utils.data`包加载数据。
+
+您今天要解决的问题是从图像中对**蚂蚁**和**蜜蜂**进行分类。 该数据集包含约 120 张针对蚂蚁和蜜蜂的训练图像。 每个类别有 75 个验证图像。 可以认为这是一个很小的数据集。 但是，由于我们正在使用迁移学习，因此我们应该能够很好地进行概括。
+
+*此数据集是 imagenet 的很小子集。*
+
+注意
+
+从[此处](https://download.pytorch.org/tutorial/hymenoptera_data.zip)下载数据，并将其提取到`data`目录。
+
+```py
+import torch
+from torchvision import transforms, datasets
+
+# Data augmentation and normalization for training
+# Just normalization for validation
+data_transforms = {
+    'train': transforms.Compose([
+        transforms.Resize(224),
+        transforms.RandomCrop(224),
+        transforms.RandomHorizontalFlip(),
+        transforms.ToTensor(),
+        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
+    ]),
+    'val': transforms.Compose([
+        transforms.Resize(224),
+        transforms.CenterCrop(224),
+        transforms.ToTensor(),
+        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
+    ]),
+}
+
+data_dir = 'data/hymenoptera_data'
+image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
+                                          data_transforms[x])
+                  for x in ['train', 'val']}
+dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=16,
+                                              shuffle=True, num_workers=8)
+              for x in ['train', 'val']}
+dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
+class_names = image_datasets['train'].classes
+
+device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+
+```
+
+### 可视化一些图像
+
+让我们可视化一些训练图像，以了解数据扩充。
+
+```py
+import torchvision
+
+def imshow(inp, title=None, ax=None, figsize=(5, 5)):
+  """Imshow for Tensor."""
+  inp = inp.numpy().transpose((1, 2, 0))
+  mean = np.array([0.485, 0.456, 0.406])
+  std = np.array([0.229, 0.224, 0.225])
+  inp = std * inp + mean
+  inp = np.clip(inp, 0, 1)
+  if ax is None:
+    fig, ax = plt.subplots(1, figsize=figsize)
+  ax.imshow(inp)
+  ax.set_xticks([])
+  ax.set_yticks([])
+  if title is not None:
+    ax.set_title(title)
+
+# Get a batch of training data
+inputs, classes = next(iter(dataloaders['train']))
+
+# Make a grid from batch
+out = torchvision.utils.make_grid(inputs, nrow=4)
+
+fig, ax = plt.subplots(1, figsize=(10, 10))
+imshow(out, title=[class_names[x] for x in classes], ax=ax)
+
+```
+
+### 模型训练的支持函数
+
+以下是模型训练的通用函数。 此函数也：
+
+*   安排学习率
+*   保存最佳模型
+
+```py
+def train_model(model, criterion, optimizer, scheduler, num_epochs=25, device='cpu'):
+  """
+  Support function for model training.
+
+  Args:
+    model: Model to be trained
+    criterion: Optimization criterion (loss)
+    optimizer: Optimizer to use for training
+    scheduler: Instance of ``torch.optim.lr_scheduler``
+    num_epochs: Number of epochs
+    device: Device to run the training on. Must be 'cpu' or 'cuda'
+  """
+  since = time.time()
+
+  best_model_wts = copy.deepcopy(model.state_dict())
+  best_acc = 0.0
+
+  for epoch in range(num_epochs):
+    print('Epoch {}/{}'.format(epoch, num_epochs - 1))
+    print('-' * 10)
+
+    # Each epoch has a training and validation phase
+    for phase in ['train', 'val']:
+      if phase == 'train':
+        model.train()  # Set model to training mode
+      else:
+        model.eval()   # Set model to evaluate mode
+
+      running_loss = 0.0
+      running_corrects = 0
+
+      # Iterate over data.
+      for inputs, labels in dataloaders[phase]:
+        inputs = inputs.to(device)
+        labels = labels.to(device)
+
+        # zero the parameter gradients
+        optimizer.zero_grad()
+
+        # forward
+        # track history if only in train
+        with torch.set_grad_enabled(phase == 'train'):
+          outputs = model(inputs)
+          _, preds = torch.max(outputs, 1)
+          loss = criterion(outputs, labels)
+
+          # backward + optimize only if in training phase
+          if phase == 'train':
+            loss.backward()
+            optimizer.step()
+
+        # statistics
+        running_loss += loss.item() * inputs.size(0)
+        running_corrects += torch.sum(preds == labels.data)
+      if phase == 'train':
+        scheduler.step()
+
+      epoch_loss = running_loss / dataset_sizes[phase]
+      epoch_acc = running_corrects.double() / dataset_sizes[phase]
+
+      print('{} Loss: {:.4f} Acc: {:.4f}'.format(
+        phase, epoch_loss, epoch_acc))
+
+      # deep copy the model
+      if phase == 'val' and epoch_acc > best_acc:
+        best_acc = epoch_acc
+        best_model_wts = copy.deepcopy(model.state_dict())
+
+    print()
+
+  time_elapsed = time.time() - since
+  print('Training complete in {:.0f}m {:.0f}s'.format(
+    time_elapsed // 60, time_elapsed % 60))
+  print('Best val Acc: {:4f}'.format(best_acc))
+
+  # load best model weights
+  model.load_state_dict(best_model_wts)
+  return model
+
+```
+
+### 可视化模型预测的支持函数
+
+通用函数，显示一些图像的预测
+
+```py
+def visualize_model(model, rows=3, cols=3):
+  was_training = model.training
+  model.eval()
+  current_row = current_col = 0
+  fig, ax = plt.subplots(rows, cols, figsize=(cols*2, rows*2))
+
+  with torch.no_grad():
+    for idx, (imgs, lbls) in enumerate(dataloaders['val']):
+      imgs = imgs.cpu()
+      lbls = lbls.cpu()
+
+      outputs = model(imgs)
+      _, preds = torch.max(outputs, 1)
+
+      for jdx in range(imgs.size()[0]):
+        imshow(imgs.data[jdx], ax=ax[current_row, current_col])
+        ax[current_row, current_col].axis('off')
+        ax[current_row, current_col].set_title('predicted: {}'.format(class_names[preds[jdx]]))
+
+        current_col += 1
+        if current_col >= cols:
+          current_row += 1
+          current_col = 0
+        if current_row >= rows:
+          model.train(mode=was_training)
+          return
+    model.train(mode=was_training)
+
+```
+
+## 第 1 部分，基于量化特征提取器训练自定义分类器
+
+在本节中，您将使用“冻结”量化特征提取器，并在其顶部训练自定义分类器头。 与浮点模型不同，您无需为量化模型设置`require_grad = False`，因为它没有可训练的参数。 请参阅[文档](https://pytorch.org/docs/stable/quantization.html)了解更多详细信息。
+
+加载预训练的模型：在本练习中，您将使用 [ResNet-18](https://pytorch.org/hub/pytorch_vision_resnet/) 。
+
+```py
+import torchvision.models.quantization as models
+
+# You will need the number of filters in the `fc` for future use.
+# Here the size of each output sample is set to 2.
+# Alternatively, it can be generalized to nn.Linear(num_ftrs, len(class_names)).
+model_fe = models.resnet18(pretrained=True, progress=True, quantize=True)
+num_ftrs = model_fe.fc.in_features
+
+```
+
+此时，您需要修改预训练模型。 该模型在开始和结束时都有量化/去量化块。 但是，由于只使用特征提取器，因此反量化层必须在线性层（头部）之前移动。 最简单的方法是将模型包装在`nn.Sequential`模块中。
+
+第一步是在 ResNet 模型中隔离特征提取器。 尽管在本示例中，您被责成使用`fc`以外的所有层作为特征提取器，但实际上，您可以根据需要选择任意数量的零件。 如果您也想替换一些卷积层，这将很有用。
+
+注意
+
+将特征提取器与量化模型的其余部分分开时，必须手动将量化器/去量化器放置在要保持量化的部分的开头和结尾。
+
+下面的函数创建一个带有自定义头部的模型。
+
+```py
+from torch import nn
+
+def create_combined_model(model_fe):
+  # Step 1\. Isolate the feature extractor.
+  model_fe_features = nn.Sequential(
+    model_fe.quant,  # Quantize the input
+    model_fe.conv1,
+    model_fe.bn1,
+    model_fe.relu,
+    model_fe.maxpool,
+    model_fe.layer1,
+    model_fe.layer2,
+    model_fe.layer3,
+    model_fe.layer4,
+    model_fe.avgpool,
+    model_fe.dequant,  # Dequantize the output
+  )
+
+  # Step 2\. Create a new "head"
+  new_head = nn.Sequential(
+    nn.Dropout(p=0.5),
+    nn.Linear(num_ftrs, 2),
+  )
+
+  # Step 3\. Combine, and don't forget the quant stubs.
+  new_model = nn.Sequential(
+    model_fe_features,
+    nn.Flatten(1),
+    new_head,
+  )
+  return new_model
+
+```
+
+警告
+
+当前，量化模型只能在 CPU 上运行。 但是，可以将模型的未量化部分发送到 GPU。
+
+```py
+import torch.optim as optim
+new_model = create_combined_model(model_fe)
+new_model = new_model.to('cpu')
+
+criterion = nn.CrossEntropyLoss()
+
+# Note that we are only training the head.
+optimizer_ft = optim.SGD(new_model.parameters(), lr=0.01, momentum=0.9)
+
+# Decay LR by a factor of 0.1 every 7 epochs
+exp_lr_scheduler = optim.lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)
+
+```
+
+### 训练和评估
+
+此步骤在 CPU 上大约需要 15-25 分钟。 由于量化模型只能在 CPU 上运行，因此您不能在 GPU 上运行训练。
+
+```py
+new_model = train_model(new_model, criterion, optimizer_ft, exp_lr_scheduler,
+                        num_epochs=25, device='cpu')
+
+visualize_model(new_model)
+plt.tight_layout()
+
+```
+
+## 第 2 部分，微调量化模型
+
+在这一部分中，我们将微调用于迁移学习的特征提取器，并对特征提取器进行量化。 请注意，在第 1 部分和第 2 部分中，特征提取器都是量化的。 不同之处在于，在第 1 部分中，我们使用了预训练的量化模型。 在这一部分中，我们将在对感兴趣的数据集进行微调之后创建一个量化的特征提取器，因此这是一种在具有量化优势的同时通过迁移学习获得更好的准确率的方法。 请注意，在我们的特定示例中，训练集非常小（120 张图像），因此微调整个模型的好处并不明显。 但是，此处显示的过程将提高使用较大数据集进行传递学习的准确率。
+
+预训练特征提取器必须是可量化的。 为确保其可量化，请执行以下步骤：
+
+> 1.  使用 `torch.quantization.fuse_modules` 熔断 `(Conv, BN, ReLU)` ， `(Conv, BN)` 和 `(Conv, ReLU)` 。
+> 2.  将特征提取器与自定义头部连接。 这需要对特征提取器的输出进行反量化。
+> 3.  在特征提取器中的适当位置插入伪量化模块，以模拟训练期间的量化。
+
+对于步骤（1），我们使用`torchvision/models/quantization`中的模型，这些模型具有成员方法`fuse_model`。 此函数将所有`conv`，`bn`和`relu`模块融合在一起。 对于自定义模型，这需要使用模块列表调用`torch.quantization.fuse_modules` API 进行手动融合。
+
+步骤（2）由上一节中使用的`create_combined_model`函数执行。
+
+步骤（3）通过使用`torch.quantization.prepare_qat`来实现，它会插入伪量化模块。
+
+在步骤（4）中，您可以开始“微调”模型，然后将其转换为完全量化的版本（步骤 5）。
+
+要将微调模型转换为量化模型，可以调用`torch.quantization.convert`函数（在我们的情况下，仅对特征提取器进行量化）。
+
+注意
+
+由于随机初始化，您的结果可能与本教程中显示的结果不同。
+
+```py
+# notice quantize=False model = models.resnet18(pretrained=True, progress=True, quantize=False) num_ftrs = model.fc.in_features
+
+# Step 1 model.train() model.fuse_model() # Step 2 model_ft = create_combined_model(model) model_ft[0].qconfig = torch.quantization.default_qat_qconfig # Use default QAT configuration # Step 3 model_ft = torch.quantization.prepare_qat(model_ft, inplace=True)
+```
+
+### 微调模型
+
+在当前教程中，整个模型都经过了微调。 通常，这将导致更高的精度。 但是，由于此处使用的训练集很小，最终导致我们过度适应了训练集。
+
+步骤 4.微调模型
+
+```py
+for param in model_ft.parameters():
+  param.requires_grad = True
+
+model_ft.to(device)  # We can fine-tune on GPU if available
+
+criterion = nn.CrossEntropyLoss()
+
+# Note that we are training everything, so the learning rate is lower
+# Notice the smaller learning rate
+optimizer_ft = optim.SGD(model_ft.parameters(), lr=1e-3, momentum=0.9, weight_decay=0.1)
+
+# Decay LR by a factor of 0.3 every several epochs
+exp_lr_scheduler = optim.lr_scheduler.StepLR(optimizer_ft, step_size=5, gamma=0.3)
+
+model_ft_tuned = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler,
+                             num_epochs=25, device=device)
+
+```
+
+步骤 5.转换为量化模型
+
+```py
+from torch.quantization import convert
+model_ft_tuned.cpu()
+
+model_quantized_and_trained = convert(model_ft_tuned, inplace=False)
+
+```
+
+让我们看看量化模型在几张图像上的表现
+
+```py
+visualize_model(model_quantized_and_trained)
+
+plt.ioff()
+plt.tight_layout()
+plt.show()
+
+```
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/59.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/59.md
new file mode 100644
index 00000000..4ad24ab9
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/59.md
@@ -0,0 +1 @@
+# 并行和分布式训练
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/60.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/60.md
new file mode 100644
index 00000000..52bda72d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/60.md
@@ -0,0 +1,73 @@
+# PyTorch 分布式概述
+
+> 原文：<https://pytorch.org/tutorials/beginner/dist_overview.html>
+
+**作者**：[Shen Li](https://mrshenli.github.io/)
+
+这是`torch.distributed`包的概述页面。 由于在不同位置添加了越来越多的文档，示例和教程，因此不清楚要针对特定​​问题咨询哪个文档或教程，或者阅读这些内容的最佳顺序是什么。 该页面的目的是通过将文档分类为不同的主题并简要描述每个主题来解决此问题。 如果这是您第一次使用 PyTorch 构建分布式训练应用，建议使用本文档导航至最适合您的用例的技术。
+
+## 简介
+
+从 PyTorch v1.6.0 开始，`torch.distributed`中的功能可以分为三个主要组件：
+
+*   [分布式数据并行训练](https://pytorch.org/docs/master/generated/torch.nn.parallel.DistributedDataParallel.html)（DDP）是一种广泛采用的单程序多数据训练范例。 使用 DDP，可以在每个流程上复制模型，并且每个模型副本都将获得一组不同的输入数据样本。 DDP 负责梯度通信，以保持模型副本同步，并使其与梯度计算重叠，以加快训练速度。
+*   [基于 RPC 的分布式训练](https://pytorch.org/docs/master/rpc.html)（RPC）开发来支持无法适应数据并行训练的常规训练结构，例如分布式管道并行性，参数服务器范式以及 DDP 与其他训练范式的组合。 它有助于管理远程对象的生命周期，并将自动微分引擎扩展到机器范围之外。
+*   [集体通信](https://pytorch.org/docs/stable/distributed.html)（c10d）库支持跨组内的进程发送张量。 它提供了集体通信 API（例如[`all_reduce`](https://pytorch.org/docs/stable/distributed.html#torch.distributed.all_reduce)和[`all_gather`](https://pytorch.org/docs/stable/distributed.html#torch.distributed.all_gather)）和 P2P 通信 API（例如[`send`](https://pytorch.org/docs/stable/distributed.html#torch.distributed.send)和 [`isend`](https://pytorch.org/docs/stable/distributed.html#torch.distributed.isend)）。 从 v1.6.0 开始，DDP 和 RPC（[ProcessGroup 后端](https://pytorch.org/docs/master/rpc.html#process-group-backend)）建立在 c10d 上，其中前者使用集体通信，而后者使用 P2P 通信。 通常，开发人员无需直接使用此原始通信 API，因为上述 DDP 和 RPC 功能可以满足许多分布式训练方案的需求。 但是，在某些情况下，此 API 仍然很有帮助。 一个示例是分布式参数平均，其中应用希望在反向传播之后计算所有模型参数的平均值，而不是使用 DDP 来传递梯度。 这可以使通信与计算脱钩，并允许对通信内容进行更细粒度的控制，但另一方面，它也放弃了 DDP 提供的性能优化。 [用 PyTorch 编写分布式应用](https://pytorch.org/tutorials/intermediate/dist_tuto.html)显示了使用 c10d 通信 API 的示例。
+
+现有的大多数文档都是为 DDP 或 RPC 编写的，本页面的其余部分将详细介绍这两个组件的材料。
+
+## 数据并行训练
+
+PyTorch 为数据并行训练提供了几种选择。 对于从简单到复杂以及从原型到生产逐渐增长的应用，共同的发展轨迹将是：
+
+1.  如果数据和模型可以放在一个 GPU 中，并且不关心训练速度，请使用单设备训练。
+2.  如果服务器上有多个 GPU，请使用单机多 GPU [`DataParallel`](https://pytorch.org/docs/master/generated/torch.nn.DataParallel.html)，并且您希望以最少的代码更改来加快训练速度。
+3.  如果您想进一步加快训练速度并愿意编写更多代码来设置它，请使用单机多 GPU [`DistributedDataParallel`](https://pytorch.org/docs/master/generated/torch.nn.parallel.DistributedDataParallel.html)。
+4.  如果应用需要跨计算机边界扩展，请使用多计算机[`DistributedDataParallel`](https://pytorch.org/docs/master/generated/torch.nn.parallel.DistributedDataParallel.html)和[启动脚本](https://github.com/pytorch/examples/blob/master/distributed/ddp/README.md)。
+5.  如果预计会出现错误（例如，OOM），或者在训练过程中资源可以动态加入和离开，请使用[扭弹性](https://pytorch.org/elastic)启动分布式训练。
+
+注意
+
+数据并行训练还可以与[自动混合精度（AMP）](https://pytorch.org/docs/master/notes/amp_examples.html#working-with-multiple-gpus)一起使用。
+
+### `torch.nn.DataParallel`
+
+[`DataParallel`](https://pytorch.org/docs/master/generated/torch.nn.DataParallel.html)包以最低的编码障碍实现了单机多 GPU 并行处理。 它只需要一行更改应用代码。 教程[可选：数据并行](https://pytorch.org/tutorials/beginner/blitz/data_parallel_tutorial.html)显示了一个示例。 需要注意的是，尽管`DataParallel`非常易于使用，但通常无法提供最佳性能。 这是因为`DataParallel`的实现会在每个正向传播中复制该模型，并且其单进程多线程并行性自然会遭受 GIL 争用。 为了获得更好的性能，请考虑使用[`DistributedDataParallel`](https://pytorch.org/docs/master/generated/torch.nn.parallel.DistributedDataParallel.html)。
+
+### `torch.nn.parallel.DistributedDataParallel`
+
+与[`DataParallel`](https://pytorch.org/docs/master/generated/torch.nn.DataParallel.html)相比，[`DistributedDataParallel`](https://pytorch.org/docs/master/generated/torch.nn.parallel.DistributedDataParallel.html)还需要设置一个步骤，即调用[`init_process_group`](https://pytorch.org/docs/stable/distributed.html#torch.distributed.init_process_group)。 DDP 使用多进程并行性，因此在模型副本之间没有 GIL 争用。 此外，该模型是在 DDP 构建时而不是在每个正向传播时广播的，这也有助于加快训练速度。 DDP 附带了几种性能优化技术。 有关更深入的说明，请参阅此 [DDP 论文](https://arxiv.org/abs/2006.15704)（VLDB'20）。
+
+DDP 材料如下：
+
+1.  [DDP 注解](https://pytorch.org/docs/stable/notes/ddp.html)提供了一个入门示例，并简要介绍了其设计和实现。 如果这是您第一次使用 DDP，请从本文档开始。
+2.  [分布式数据并行入门](../intermediate/ddp_tutorial.html)解释了 DDP 训练的一些常见问题，包括不平衡的工作量，检查点和多设备模型。 请注意，DDP 可以轻松与[单机模型并行最佳实践](../intermediate/model_parallel_tutorial.html)教程中描述的单机多设备模型并行性结合。
+3.  [启动和配置分布式数据并行应用](https://github.com/pytorch/examples/blob/master/distributed/ddp/README.md)文档显示了如何使用 DDP 启动脚本。
+4.  [使用 Amazon AWS 的 PyTorch 分布式训练器](aws_distributed_training_tutorial.html)演示了如何在 AWS 上使用 DDP。
+
+### TorchElastic
+
+随着应用复杂性和规模的增长，故障恢复成为当务之急。 有时，使用 DDP 时不可避免地会遇到 OOM 之类的错误，但是 DDP 本身无法从这些错误中恢复，基本的`try-except`块也无法工作。 这是因为 DDP 要求所有进程以紧密同步的方式运行，并且在不同进程中启动的所有`AllReduce`通信都必须匹配。 如果组中的某个进程抛出 OOM 异常，则很可能导致不同步（`AllReduce`操作不匹配），从而导致崩溃或挂起。 如果您期望在训练过程中发生故障，或者资源可能会动态离开并加入，请使用 [Torrlastic](https://pytorch.org/elastic) 启动分布式数据并行训练。
+
+## 通用分布式训练
+
+许多训练范式不适合数据并行性，例如参数服务器范式，分布式管道并行性，具有多个观察者或智能体的强化学习应用等。 [`torch.distributed.rpc`](https://pytorch.org/docs/master/rpc.html)旨在支持一般的分布式训练方案 。
+
+[`torch.distributed.rpc`](https://pytorch.org/docs/master/rpc.html)包具有四个主要支柱：
+
+*   [RPC](https://pytorch.org/docs/master/rpc.html#rpc) 支持在远程工作器上运行给定函数
+*   [RRef](https://pytorch.org/docs/master/rpc.html#rref) 帮助管理远程对象的生存期。 引用计数协议在 [RRef 注解](https://pytorch.org/docs/master/rpc/rref.html#remote-reference-protocol)中提供。
+*   [分布式自动微分](https://pytorch.org/docs/master/rpc.html#distributed-autograd-framework)将自动微分引擎扩展到机器范围之外。 有关更多详细信息，请参考[分布式 Autograd 设计](https://pytorch.org/docs/master/rpc/distributed_autograd.html#distributed-autograd-design)。
+*   [分布式优化器](https://pytorch.org/docs/master/rpc.html#module-torch.distributed.optim)，它使用分布式 Autograd 引擎计算的梯度自动与所有参与的工作器联系以更新参数。
+
+RPC 教程如下：
+
+1.  [分布式 RPC 框架入门](../intermediate/rpc_tutorial.html)教程首先使用一个简单的强化学习（RL）示例来演示 RPC 和 RRef。 然后，它对 RNN 示例应用了基本的分布式模型并行性，以展示如何使用分布式 Autograd 和分布式优化器。
+2.  [使用分布式 RPC 框架实现参数服务器](../intermediate/rpc_param_server_tutorial.html)教程借鉴了 [HogWild 的训练精神](https://people.eecs.berkeley.edu/~brecht/papers/hogwildTR.pdf)，并将其应用于异步参数服务器（PS）训练应用。
+3.  使用 RPC 的[分布式管道并行化](../intermediate/dist_pipeline_parallel_tutorial.html)教程将单机管道并行示例（在[单机模型并行最佳实践](../intermediate/model_parallel_tutorial.html)中介绍）扩展到了分布式环境，并展示了如何使用 RPC 来实现它 。
+4.  [使用异步执行实现批量 RPC](../intermediate/rpc_async_execution.html) 教程演示了如何使用[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)装饰器实现 RPC 批量。这可以帮助加速推理和训练。 它使用了以上教程 1 和 2 中采用的类似 RL 和 PS 示例。
+5.  [将分布式`DataParallel`与分布式 RPC 框架结合](../advanced/rpc_ddp_tutorial.html)教程演示了如何将 DDP 与 RPC 结合使用分布式数据并行性和分布式模型并行性来训练模型。
+
+## PyTorch 分布式开发人员
+
+如果您想为 PyTorch 分布式做出贡献，请参阅我们的[开发人员指南](https://github.com/pytorch/pytorch/blob/master/torch/distributed/CONTRIBUTING.md)。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/61.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/61.md
new file mode 100644
index 00000000..b00c8b5c
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/61.md
@@ -0,0 +1,263 @@
+# 单机模型并行最佳实践
+
+> 原文：<https://pytorch.org/tutorials/intermediate/model_parallel_tutorial.html>
+
+**作者**：[Shen Li](https://mrshenli.github.io/)
+
+模型并行在分布式训练技术中被广泛使用。 先前的帖子已经解释了如何使用[`DataParallel`](https://pytorch.org/tutorials/beginner/blitz/data_parallel_tutorial.html)在多个 GPU 上训练神经网络； 此功能将相同的模型复制到所有 GPU，其中每个 GPU 消耗输入数据的不同分区。 尽管它可以极大地加快训练过程，但不适用于模型太大而无法容纳单个 GPU 的某些用例。 这篇文章展示了如何通过使用**模型并行**解决该问题，与`DataParallel`相比，该模型将单个模型拆分到不同的 GPU 上，而不是在每个 GPU 上复制整个模型（具体来说， 假设模型`m`包含 10 层：使用`DataParallel`时，每个 GPU 都具有这 10 层中的每一个的副本，而当在两个 GPU 上并行使用模型时，每个 GPU 可以承载 5 层。
+
+模型并行化的高级思想是将模型的不同子网放置在不同的设备上，并相应地实现`forward`方法以在设备之间移动中间输出。 由于模型的一部分仅在任何单个设备上运行，因此一组设备可以共同为更大的模型服务。 在本文中，我们将不会尝试构建庞大的模型并将其压缩到有限数量的 GPU 中。 取而代之的是，本文着重展示并行模型的思想。 读者可以将这些想法应用到实际应用中。
+
+注意
+
+对于模型跨越多个服务器的分布式模型并行训练，请参考[分布式 RPC 框架入门](rpc_tutorial.html)，以获取示例和详细信息。
+
+## 基本用法
+
+让我们从包含两个线性层的玩具模型开始。 要在两个 GPU 上运行该模型，只需将每个线性层放置在不同的 GPU 上，然后移动输入和中间输出以匹配层设备。
+
+```py
+import torch
+import torch.nn as nn
+import torch.optim as optim
+
+class ToyModel(nn.Module):
+    def __init__(self):
+        super(ToyModel, self).__init__()
+        self.net1 = torch.nn.Linear(10, 10).to('cuda:0')
+        self.relu = torch.nn.ReLU()
+        self.net2 = torch.nn.Linear(10, 5).to('cuda:1')
+
+    def forward(self, x):
+        x = self.relu(self.net1(x.to('cuda:0')))
+        return self.net2(x.to('cuda:1'))
+
+```
+
+请注意，除了五个`to(device)`调用将线性层和张量放置在适当的设备上之外，上述`ToyModel`看起来非常类似于在单个 GPU 上实现它的方式。 那是模型中唯一需要更改的地方。 `backward()`和`torch.optim`将自动处理梯度，就像模型在一个 GPU 上一样。 调用损失函数时，只需确保标签与输出位于同一设备上。
+
+```py
+model = ToyModel()
+loss_fn = nn.MSELoss()
+optimizer = optim.SGD(model.parameters(), lr=0.001)
+
+optimizer.zero_grad()
+outputs = model(torch.randn(20, 10))
+labels = torch.randn(20, 5).to('cuda:1')
+loss_fn(outputs, labels).backward()
+optimizer.step()
+
+```
+
+## 将模型并行应用于现有模块
+
+只需进行几行更改，就可以在多个 GPU 上运行现有的单 GPU 模块。 以下代码显示了如何将`torchvision.models.resnet50()`分解为两个 GPU。 这个想法是继承现有的`ResNet`模块，并在构建过程中将层拆分为两个 GPU。 然后，通过相应地移动中间输出，覆盖`forward`方法来缝合两个子网。
+
+```py
+from torchvision.models.resnet import ResNet, Bottleneck
+
+num_classes = 1000
+
+class ModelParallelResNet50(ResNet):
+    def __init__(self, *args, **kwargs):
+        super(ModelParallelResNet50, self).__init__(
+            Bottleneck, [3, 4, 6, 3], num_classes=num_classes, *args, **kwargs)
+
+        self.seq1 = nn.Sequential(
+            self.conv1,
+            self.bn1,
+            self.relu,
+            self.maxpool,
+
+            self.layer1,
+            self.layer2
+        ).to('cuda:0')
+
+        self.seq2 = nn.Sequential(
+            self.layer3,
+            self.layer4,
+            self.avgpool,
+        ).to('cuda:1')
+
+        self.fc.to('cuda:1')
+
+    def forward(self, x):
+        x = self.seq2(self.seq1(x).to('cuda:1'))
+        return self.fc(x.view(x.size(0), -1))
+
+```
+
+对于模型太大而无法放入单个 GPU 的情况，上述实现解决了该问题。 但是，您可能已经注意到，如果模型合适，它将比在单个 GPU 上运行它要慢。 这是因为在任何时间点，两个 GPU 中只有一个在工作，而另一个在那儿什么也没做。 由于中间输出需要在`layer2`和`layer3`之间从`cuda:0`复制到`cuda:1`，因此性能进一步恶化。
+
+让我们进行实验以更定量地了解执行时间。 在此实验中，我们通过运行随机输入和标签来训练`ModelParallelResNet50`和现有的`torchvision.models.resnet50()`。 训练后，模型将不会产生任何有用的预测，但是我们可以对执行时间有一个合理的了解。
+
+```py
+import torchvision.models as models
+
+num_batches = 3
+batch_size = 120
+image_w = 128
+image_h = 128
+
+def train(model):
+    model.train(True)
+    loss_fn = nn.MSELoss()
+    optimizer = optim.SGD(model.parameters(), lr=0.001)
+
+    one_hot_indices = torch.LongTensor(batch_size) \
+                           .random_(0, num_classes) \
+                           .view(batch_size, 1)
+
+    for _ in range(num_batches):
+        # generate random inputs and labels
+        inputs = torch.randn(batch_size, 3, image_w, image_h)
+        labels = torch.zeros(batch_size, num_classes) \
+                      .scatter_(1, one_hot_indices, 1)
+
+        # run forward pass
+        optimizer.zero_grad()
+        outputs = model(inputs.to('cuda:0'))
+
+        # run backward pass
+        labels = labels.to(outputs.device)
+        loss_fn(outputs, labels).backward()
+        optimizer.step()
+
+```
+
+上面的`train(model)`方法使用`nn.MSELoss`作为损失函数，并使用`optim.SGD`作为优化器。 它模拟了对`128 X 128`图像的训练，这些图像分为 3 批，每批包含 120 张图像。 然后，我们使用`timeit`来运行`train(model)`方法 10 次，并绘制带有标准差的执行时间。
+
+```py
+import matplotlib.pyplot as plt
+plt.switch_backend('Agg')
+import numpy as np
+import timeit
+
+num_repeat = 10
+
+stmt = "train(model)"
+
+setup = "model = ModelParallelResNet50()"
+# globals arg is only available in Python 3\. In Python 2, use the following
+# import __builtin__
+# __builtin__.__dict__.update(locals())
+mp_run_times = timeit.repeat(
+    stmt, setup, number=1, repeat=num_repeat, globals=globals())
+mp_mean, mp_std = np.mean(mp_run_times), np.std(mp_run_times)
+
+setup = "import torchvision.models as models;" + \
+        "model = models.resnet50(num_classes=num_classes).to('cuda:0')"
+rn_run_times = timeit.repeat(
+    stmt, setup, number=1, repeat=num_repeat, globals=globals())
+rn_mean, rn_std = np.mean(rn_run_times), np.std(rn_run_times)
+
+def plot(means, stds, labels, fig_name):
+    fig, ax = plt.subplots()
+    ax.bar(np.arange(len(means)), means, yerr=stds,
+           align='center', alpha=0.5, ecolor='red', capsize=10, width=0.6)
+    ax.set_ylabel('ResNet50 Execution Time (Second)')
+    ax.set_xticks(np.arange(len(means)))
+    ax.set_xticklabels(labels)
+    ax.yaxis.grid(True)
+    plt.tight_layout()
+    plt.savefig(fig_name)
+    plt.close(fig)
+
+plot([mp_mean, rn_mean],
+     [mp_std, rn_std],
+     ['Model Parallel', 'Single GPU'],
+     'mp_vs_rn.png')
+
+```
+
+![](img/7f2d776cf49fcf3fd44fd84a238a3cc6.png)
+
+结果表明，模型并行实现的执行时间比现有的单 GPU 实现长`4.02/3.75-1=7%`。 因此，我们可以得出结论，在 GPU 之间来回复制张量大约有 7% 的开销。 有待改进的地方，因为我们知道两个 GPU 之一在整个执行过程中处于空闲状态。 一种选择是将每个批量进一步划分为拆分流水线，以便当一个拆分到达第二子网时，可以将下一个拆分馈入第一子网。 这样，两个连续的拆分可以在两个 GPU 上同时运行。
+
+## 通过流水线输入加快速度
+
+在以下实验中，我们将每个 120 图像批量进一步分为 20 图像分割。 当 PyTorch 异步启动 CUDA 操作时，该实现无需生成多个线程即可实现并发。
+
+```py
+class PipelineParallelResNet50(ModelParallelResNet50):
+    def __init__(self, split_size=20, *args, **kwargs):
+        super(PipelineParallelResNet50, self).__init__(*args, **kwargs)
+        self.split_size = split_size
+
+    def forward(self, x):
+        splits = iter(x.split(self.split_size, dim=0))
+        s_next = next(splits)
+        s_prev = self.seq1(s_next).to('cuda:1')
+        ret = []
+
+        for s_next in splits:
+            # A. s_prev runs on cuda:1
+            s_prev = self.seq2(s_prev)
+            ret.append(self.fc(s_prev.view(s_prev.size(0), -1)))
+
+            # B. s_next runs on cuda:0, which can run concurrently with A
+            s_prev = self.seq1(s_next).to('cuda:1')
+
+        s_prev = self.seq2(s_prev)
+        ret.append(self.fc(s_prev.view(s_prev.size(0), -1)))
+
+        return torch.cat(ret)
+
+setup = "model = PipelineParallelResNet50()"
+pp_run_times = timeit.repeat(
+    stmt, setup, number=1, repeat=num_repeat, globals=globals())
+pp_mean, pp_std = np.mean(pp_run_times), np.std(pp_run_times)
+
+plot([mp_mean, rn_mean, pp_mean],
+     [mp_std, rn_std, pp_std],
+     ['Model Parallel', 'Single GPU', 'Pipelining Model Parallel'],
+     'mp_vs_rn_vs_pp.png')
+
+```
+
+请注意，设备到设备的张量复制操作在源设备和目标设备上的当前流上同步。 如果创建多个流，则必须确保复制操作正确同步。 在完成复制操作之前写入源张量或读取/写入目标张量可能导致不确定的行为。 上面的实现仅在源设备和目标设备上都使用默认流，因此不必强制执行其他同步。
+
+![](img/48d2e67f025b05eeb9259e249566add3.png)
+
+实验结果表明，对并行 ResNet50 进行建模的流水线输入可大致加快`3.75/2.51-1=49%`的速度，加快训练过程。 距离理想的 100% 加速仍然相去甚远。 由于我们在管道并行实现中引入了新参数`split_sizes`，因此尚不清楚新参数如何影响整体训练时间。 直观地讲，使用较小的`split_size`会导致许多小的 CUDA 内核启动，而使用较大的`split_size`会导致在第一次和最后一次拆分期间出现较长的空闲时间。 两者都不是最优的。 对于此特定实验，可能会有最佳的`split_size`配置。 让我们尝试通过使用几个不同的`split_size`值进行实验来找到它。
+
+```py
+means = []
+stds = []
+split_sizes = [1, 3, 5, 8, 10, 12, 20, 40, 60]
+
+for split_size in split_sizes:
+    setup = "model = PipelineParallelResNet50(split_size=%d)" % split_size
+    pp_run_times = timeit.repeat(
+        stmt, setup, number=1, repeat=num_repeat, globals=globals())
+    means.append(np.mean(pp_run_times))
+    stds.append(np.std(pp_run_times))
+
+fig, ax = plt.subplots()
+ax.plot(split_sizes, means)
+ax.errorbar(split_sizes, means, yerr=stds, ecolor='red', fmt='ro')
+ax.set_ylabel('ResNet50 Execution Time (Second)')
+ax.set_xlabel('Pipeline Split Size')
+ax.set_xticks(split_sizes)
+ax.yaxis.grid(True)
+plt.tight_layout()
+plt.savefig("split_size_tradeoff.png")
+plt.close(fig)
+
+```
+
+![](img/9d53a7aba4b9016ea39aa794905ee059.png)
+
+结果表明，将`split_size`设置为 12 可获得最快的训练速度，从而导致`3.75/2.43-1=54%`加速。 仍有机会进一步加快训练过程。 例如，对`cuda:0`的所有操作都放在其默认流上。 这意味着下一个拆分的计算不能与上一个拆分的复制操作重叠。 但是，由于上一个和下一个分割是不同的张量，因此将一个计算与另一个副本重叠是没有问题的。 实现需要在两个 GPU 上使用多个流，并且不同的子网结构需要不同的流管理策略。 由于没有通用的多流解决方案适用于所有模型并行用例，因此在本教程中将不再讨论。
+
+**注意**：
+
+这篇文章显示了几个性能指标。 当您在自己的计算机上运行相同的代码时，您可能会看到不同的数字，因为结果取决于底层的硬件和软件。 为了使您的环境获得最佳性能，一种正确的方法是首先生成曲线以找出最佳分割尺寸，然后将该分割尺寸用于管道输入。
+
+**脚本的总运行时间**：（6 分钟 20.515 秒）
+
+[下载 Python 源码：`model_parallel_tutorial.py`](../_downloads/d961a67e594a77a630ec636c89f84bb8/model_parallel_tutorial.py)
+
+[下载 Jupyter 笔记本：`model_parallel_tutorial.ipynb`](../_downloads/b882009cab92c6a1d9121b1f8c4108c4/model_parallel_tutorial.ipynb)
+
+[由 Sphinx 画廊](https://sphinx-gallery.readthedocs.io)生成的画廊
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/62.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/62.md
new file mode 100644
index 00000000..021492ce
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/62.md
@@ -0,0 +1,224 @@
+# 分布式数据并行入门
+
+> 原文：<https://pytorch.org/tutorials/intermediate/ddp_tutorial.html>
+
+**作者**：[Shen Li](https://mrshenli.github.io/)
+
+**编辑**：[Joe Zhu](https://github.com/gunandrose4u)
+
+先决条件：
+
+*   [PyTorch 分布式概述](../beginner/dist_overview.html)
+*   [`DistributedDataParallel` API 文档](https://pytorch.org/docs/master/generated/torch.nn.parallel.DistributedDataParallel.html)
+*   [`DistributedDataParallel`注意事项](https://pytorch.org/docs/master/notes/ddp.html)
+
+[`DistributedDataParallel`](https://pytorch.org/docs/stable/nn.html#torch.nn.parallel.DistributedDataParallel)（DDP）在模块级别实现可在多台计算机上运行的数据并行性。 使用 DDP 的应用应产生多个进程，并为每个进程创建一个 DDP 实例。 DDP 在[`torch.distributed`](https://pytorch.org/tutorials/intermediate/dist_tuto.html)包中使用集体通信来同步梯度和缓冲区。 更具体地说，DDP 为`model.parameters()`给定的每个参数注册一个 Autograd 挂钩，当在后向传递中计算相应的梯度时，挂钩将触发。 然后，DDP 使用该信号触发跨进程的梯度同步。 有关更多详细信息，请参考 [DDP 设计说明](https://pytorch.org/docs/master/notes/ddp.html)。
+
+推荐的使用 DDP 的方法是为每个模型副本生成一个进程，其中一个模型副本可以跨越多个设备。 DDP 进程可以放在同一台计算机上，也可以在多台计算机上，但是 GPU 设备不能在多个进程之间共享。 本教程从一个基本的 DDP 用例开始，然后演示了更高级的用例，包括检查点模型以及将 DDP 与模型并行结合。
+
+注意
+
+本教程中的代码在 8-GPU 服务器上运行，但可以轻松地推广到其他环境。
+
+## `DataParallel`和`DistributedDataParallel`之间的比较
+
+在深入探讨之前，让我们澄清一下为什么尽管增加了复杂性，但还是考虑使用`DistributedDataParallel`而不是`DataParallel`：
+
+*   首先，`DataParallel`是单进程，多线程，并且只能在单台机器上运行，而`DistributedDataParallel`是多进程，并且适用于单机和多机训练。 即使在单台机器上，`DataParallel`通常也比`DistributedDataParallel`慢，这是因为跨线程的 GIL 争用，每次迭代复制的模型以及分散输入和收集输出所带来的额外开销。
+*   回顾[先前的教程](https://pytorch.org/tutorials/intermediate/model_parallel_tutorial.html)，如果模型太大而无法容纳在单个 GPU 上，则必须使用**模型并行**将其拆分到多个 GPU 中。 `DistributedDataParallel`与**模型并行**一起使用； `DataParallel`目前没有。 当 DDP 与模型并行组合时，每个 DDP 进程将并行使用模型，而所有进程共同将并行使用数据。
+*   如果您的模型需要跨越多台机器，或者您的用例不适合数据并行性范式，请参阅 [RPC API](https://pytorch.org/docs/stable/rpc.html) ，以获得更多通用的分布式训练支持。
+
+## 基本用例
+
+要创建 DDP 模块，请首先正确设置过程组。 更多细节可以在[用 PyTorch 编写分布式应用](https://pytorch.org/tutorials/intermediate/dist_tuto.html)中找到。
+
+```py
+import os
+import sys
+import tempfile
+import torch
+import torch.distributed as dist
+import torch.nn as nn
+import torch.optim as optim
+import torch.multiprocessing as mp
+
+from torch.nn.parallel import DistributedDataParallel as DDP
+
+def setup(rank, world_size):
+    if sys.platform == 'win32':
+        # Distributed package only covers collective communications with Gloo
+        # backend and FileStore on Windows platform. Set init_method parameter
+        # in init_process_group to a local file.
+        # Example init_method="file:///f:/libtmp/some_file"
+        init_method="file:///{your local file path}"
+
+        # initialize the process group
+        dist.init_process_group(
+            "gloo",
+            init_method=init_method,
+            rank=rank,
+            world_size=world_size
+        )
+    else:
+        os.environ['MASTER_ADDR'] = 'localhost'
+        os.environ['MASTER_PORT'] = '12355'
+
+        # initialize the process group
+        dist.init_process_group("gloo", rank=rank, world_size=world_size)
+
+def cleanup():
+    dist.destroy_process_group()
+
+```
+
+现在，让我们创建一个玩具模块，将其与 DDP 封装在一起，并提供一些虚拟输入数据。 请注意，由于 DDP 会将模型状态从等级 0 进程广播到 DDP 构造器中的所有其他进程，因此您不必担心不同的 DDP 进程从不同的模型参数初始值开始。
+
+```py
+class ToyModel(nn.Module):
+    def __init__(self):
+        super(ToyModel, self).__init__()
+        self.net1 = nn.Linear(10, 10)
+        self.relu = nn.ReLU()
+        self.net2 = nn.Linear(10, 5)
+
+    def forward(self, x):
+        return self.net2(self.relu(self.net1(x)))
+
+def demo_basic(rank, world_size):
+    print(f"Running basic DDP example on rank {rank}.")
+    setup(rank, world_size)
+
+    # create model and move it to GPU with id rank
+    model = ToyModel().to(rank)
+    ddp_model = DDP(model, device_ids=[rank])
+
+    loss_fn = nn.MSELoss()
+    optimizer = optim.SGD(ddp_model.parameters(), lr=0.001)
+
+    optimizer.zero_grad()
+    outputs = ddp_model(torch.randn(20, 10))
+    labels = torch.randn(20, 5).to(rank)
+    loss_fn(outputs, labels).backward()
+    optimizer.step()
+
+    cleanup()
+
+def run_demo(demo_fn, world_size):
+    mp.spawn(demo_fn,
+             args=(world_size,),
+             nprocs=world_size,
+             join=True)
+
+```
+
+如您所见，DDP 包装了较低级别的分布式通信详细信息，并提供了干净的 API，就好像它是本地模型一样。 梯度同步通信发生在反向传递过程中，并且与反向计算重叠。 当`backward()`返回时，`param.grad`已经包含同步梯度张量。 对于基本用例，DDP 仅需要几个 LoC 即可设置流程组。 在将 DDP 应用到更高级的用例时，需要注意一些警告。
+
+## 带偏差的处理速度
+
+在 DDP 中，构造器，正向传播和反向传递都是分布式同步点。 预期不同的进程将启动相同数量的同步，并以相同的顺序到达这些同步点，并在大致相同的时间进入每个同步点。 否则，快速流程可能会提早到达，并在等待流浪者时超时。 因此，用户负责平衡流程之间的工作负载分配。 有时，由于例如网络延迟，资源争夺，不可预测的工作量峰值，不可避免地会出现处理速度偏差。 为了避免在这种情况下超时，请在调用[`init_process_group`](https://pytorch.org/docs/stable/distributed.html#torch.distributed.init_process_group)时传递足够大的`timeout`值。
+
+## 保存和加载检查点
+
+在训练过程中通常使用`torch.save`和`torch.load`来检查点模块并从检查点中恢复。 有关更多详细信息，请参见[保存和加载模型](https://pytorch.org/tutorials/beginner/saving_loading_models.html)。 使用 DDP 时，一种优化方法是仅在一个进程中保存模型，然后将其加载到所有进程中，从而减少写开销。 这是正确的，因为所有过程都从相同的参数开始，并且梯度在反向传播中同步，因此优化程序应将参数设置为相同的值。 如果使用此优化，请确保在保存完成之前不要启动所有进程。 此外，在加载模块时，您需要提供适当的`map_location`参数，以防止进程进入其他设备。 如果缺少`map_location`，则`torch.load`将首先将模块加载到 CPU，然后将每个参数复制到保存位置，这将导致同一台机器上的所有进程使用相同的设备集。 有关更高级的故障恢复和弹性支持，请参考[这里](https://pytorch.org/elastic)。
+
+```py
+def demo_checkpoint(rank, world_size):
+    print(f"Running DDP checkpoint example on rank {rank}.")
+    setup(rank, world_size)
+
+    model = ToyModel().to(rank)
+    ddp_model = DDP(model, device_ids=[rank])
+
+    loss_fn = nn.MSELoss()
+    optimizer = optim.SGD(ddp_model.parameters(), lr=0.001)
+
+    CHECKPOINT_PATH = tempfile.gettempdir() + "/model.checkpoint"
+    if rank == 0:
+        # All processes should see same parameters as they all start from same
+        # random parameters and gradients are synchronized in backward passes.
+        # Therefore, saving it in one process is sufficient.
+        torch.save(ddp_model.state_dict(), CHECKPOINT_PATH)
+
+    # Use a barrier() to make sure that process 1 loads the model after process
+    # 0 saves it.
+    dist.barrier()
+    # configure map_location properly
+    map_location = {'cuda:%d' % 0: 'cuda:%d' % rank}
+    ddp_model.load_state_dict(
+        torch.load(CHECKPOINT_PATH, map_location=map_location))
+
+    optimizer.zero_grad()
+    outputs = ddp_model(torch.randn(20, 10))
+    labels = torch.randn(20, 5).to(rank)
+    loss_fn = nn.MSELoss()
+    loss_fn(outputs, labels).backward()
+    optimizer.step()
+
+    # Not necessary to use a dist.barrier() to guard the file deletion below
+    # as the AllReduce ops in the backward pass of DDP already served as
+    # a synchronization.
+
+    if rank == 0:
+        os.remove(CHECKPOINT_PATH)
+
+    cleanup()
+
+```
+
+## 将 DDP 与模型并行性结合起来
+
+DDP 还可以与多 GPU 模型一起使用。 当训练具有大量数据的大型模型时，DDP 包装多 GPU 模型特别有用。
+
+```py
+class ToyMpModel(nn.Module):
+    def __init__(self, dev0, dev1):
+        super(ToyMpModel, self).__init__()
+        self.dev0 = dev0
+        self.dev1 = dev1
+        self.net1 = torch.nn.Linear(10, 10).to(dev0)
+        self.relu = torch.nn.ReLU()
+        self.net2 = torch.nn.Linear(10, 5).to(dev1)
+
+    def forward(self, x):
+        x = x.to(self.dev0)
+        x = self.relu(self.net1(x))
+        x = x.to(self.dev1)
+        return self.net2(x)
+
+```
+
+将多 GPU 模型传递给 DDP 时，不得设置`device_ids`和`output_device`。 输入和输出数据将通过应用或模型`forward()`方法放置在适当的设备中。
+
+```py
+def demo_model_parallel(rank, world_size):
+    print(f"Running DDP with model parallel example on rank {rank}.")
+    setup(rank, world_size)
+
+    # setup mp_model and devices for this process
+    dev0 = rank * 2
+    dev1 = rank * 2 + 1
+    mp_model = ToyMpModel(dev0, dev1)
+    ddp_mp_model = DDP(mp_model)
+
+    loss_fn = nn.MSELoss()
+    optimizer = optim.SGD(ddp_mp_model.parameters(), lr=0.001)
+
+    optimizer.zero_grad()
+    # outputs will be on dev1
+    outputs = ddp_mp_model(torch.randn(20, 10))
+    labels = torch.randn(20, 5).to(dev1)
+    loss_fn(outputs, labels).backward()
+    optimizer.step()
+
+    cleanup()
+
+if __name__ == "__main__":
+    n_gpus = torch.cuda.device_count()
+    if n_gpus < 8:
+      print(f"Requires at least 8 GPUs to run, but got {n_gpus}.")
+    else:
+      run_demo(demo_basic, 8)
+      run_demo(demo_checkpoint, 8)
+      run_demo(demo_model_parallel, 4)
+
+```
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/63.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/63.md
new file mode 100644
index 00000000..9f4cfc09
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/63.md
@@ -0,0 +1,385 @@
+# 用 PyTorch 编写分布式应用
+
+> 原文：<https://pytorch.org/tutorials/intermediate/dist_tuto.html>
+
+**作者**：[SébArnold](https://seba1511.com)
+
+先决条件：
+
+*   [PyTorch 分布式概述](../beginner/dist_overview.html)
+
+在这个简短的教程中，我们将介绍 PyTorch 的分布式包。 我们将了解如何设置分布式设置，如何使用不同的交流策略以及如何查看包的一些内部内容。
+
+## 设置
+
+PyTorch 中包含的分布式包（即`torch.distributed`）使研究人员和从业人员可以轻松地并行化他们在跨进程和机器集群的计算。 为此，它利用了传递消息的语义，从而允许每个进程将数据传递给任何其他进程。 与多处理包相反，进程可以使用不同的通信后端，而不仅限于在同一台计算机上执行。
+
+为了开始，我们需要同时运行多个进程的能力。 如果您有权访问计算群集，则应咨询本地系统管理员或使用您喜欢的协调工具。 （例如 [pdsh](https://linux.die.net/man/1/pdsh)，[clustershell](https://cea-hpc.github.io/clustershell/) 或[其他](https://slurm.schedmd.com/)）。出于本教程的目的，我们将使用以下模板使用一台计算机并分叉多个进程。
+
+```py
+"""run.py:"""
+#!/usr/bin/env python
+import os
+import torch
+import torch.distributed as dist
+from torch.multiprocessing import Process
+
+def run(rank, size):
+    """ Distributed function to be implemented later. """
+    pass
+
+def init_process(rank, size, fn, backend='gloo'):
+    """ Initialize the distributed environment. """
+    os.environ['MASTER_ADDR'] = '127.0.0.1'
+    os.environ['MASTER_PORT'] = '29500'
+    dist.init_process_group(backend, rank=rank, world_size=size)
+    fn(rank, size)
+
+if __name__ == "__main__":
+    size = 2
+    processes = []
+    for rank in range(size):
+        p = Process(target=init_process, args=(rank, size, run))
+        p.start()
+        processes.append(p)
+
+    for p in processes:
+        p.join()
+
+```
+
+上面的脚本产生了两个进程，每个进程将设置分布式环境，初始化进程组（`dist.init_process_group`），最后执行给定的`run`函数。
+
+让我们看一下`init_process`函数。 它确保每个进程都可以使用相同的 IP 地址和端口通过主机进行协调。 请注意，我们使用了`gloo`后端，但其他后端也可用。 （请参阅[第 5.1 节](#communication-backends)），我们将在本教程的结尾部分介绍`dist.init_process_group`中发生的魔术，但实际上，它允许进程通过共享位置相互进行通信。
+
+## 点对点通信
+
+![Send and Recv](img/f29264b289639882a61fb5c3447b1ecc.png)
+
+发送和接收
+
+数据从一个进程到另一个进程的传输称为点对点通信。 这些是通过`send`和`recv`函数或其*直接*对应部分`isend`和`irecv`实现的。
+
+```py
+"""Blocking point-to-point communication."""
+
+def run(rank, size):
+    tensor = torch.zeros(1)
+    if rank == 0:
+        tensor += 1
+        # Send the tensor to process 1
+        dist.send(tensor=tensor, dst=1)
+    else:
+        # Receive tensor from process 0
+        dist.recv(tensor=tensor, src=0)
+    print('Rank ', rank, ' has data ', tensor[0])
+
+```
+
+在上面的示例中，两个进程都从零张量开始，然后进程 0 递增张量并将其发送到进程 1，以便它们都以 1.0 结尾。 请注意，进程 1 需要分配内存以存储它将接收的数据。
+
+另请注意，`send`/`recv`被**阻塞**：两个过程都停止，直到通信完成。 另一方面，即时消息是**非阻塞**； 脚本继续执行，方法返回`Work`对象，我们可以选择`wait()`作为对象。
+
+```py
+"""Non-blocking point-to-point communication."""
+
+def run(rank, size):
+    tensor = torch.zeros(1)
+    req = None
+    if rank == 0:
+        tensor += 1
+        # Send the tensor to process 1
+        req = dist.isend(tensor=tensor, dst=1)
+        print('Rank 0 started sending')
+    else:
+        # Receive tensor from process 0
+        req = dist.irecv(tensor=tensor, src=0)
+        print('Rank 1 started receiving')
+    req.wait()
+    print('Rank ', rank, ' has data ', tensor[0])
+
+```
+
+使用立即数时，我们必须谨慎使用已发送和已接收张量。 由于我们不知道何时将数据传递给其他进程，因此在`req.wait()`完成之前，我们既不应该修改发送的张量也不应该访问接收的张量。 换一种说法，
+
+*   在`dist.isend()`之后写入`tensor`将导致不确定的行为。
+*   在`dist.irecv()`之后从`tensor`读取将导致不确定的行为。
+
+但是，在执行了`req.wait()`之后，我们可以保证已进行通信，并且`tensor[0]`中存储的值为 1.0。
+
+当我们希望对流程的通信进行精细控制时，点对点通信非常有用。 它们可用于实现精美的算法，例如[百度的 DeepSpeech](https://github.com/baidu-research/baidu-allreduce) 或 [Facebook 的大规模实验](https://research.fb.com/publications/imagenet1kin1h/)中使用的算法。（请参阅 [4.1 节](#our-own-ring-allreduce)）
+
+## 集合通信
+
+| | |
+| --- | --- |
+| ![Scatter](img/3aa3584628cb0526c8b0e9d02b15d876.png) | 分散 | 
+| ![Gather](img/7e8670a3b7cdc7848394514ef1da090a.png) | 收集 |
+| ![Reduce](img/1c451df4406aea85e640d1ae7df6df31.png) | 归约 |
+| ![All-Reduce](img/0ef9693f0008d5a75aa5ac2b542b83ac.png) | 全部归约 |
+| ![Broadcast](img/525847c9d4b48933cb231204a2d13e0e.png) | 广播 | 
+| ![All-Gather](img/4a48977cd9545f897942a4a4ef1175ac.png) | 全部收集 |
+
+与点对点通信相反，集合允许跨**组**中所有进程的通信模式。 小组是我们所有过程的子集。 要创建组，我们可以将等级列表传递给`dist.new_group(group)`。 默认情况下，集合在所有进程（也称为**世界**）上执行。 例如，为了获得所有过程中所有张量的总和，我们可以使用`dist.all_reduce(tensor, op, group)`集合。
+
+```py
+""" All-Reduce example."""
+def run(rank, size):
+    """ Simple point-to-point communication. """
+    group = dist.new_group([0, 1])
+    tensor = torch.ones(1)
+    dist.all_reduce(tensor, op=dist.reduce_op.SUM, group=group)
+    print('Rank ', rank, ' has data ', tensor[0])
+
+```
+
+由于我们需要组中所有张量的总和，因此我们将`dist.reduce_op.SUM`用作化简运算符。 一般而言，任何可交换的数学运算都可以用作运算符。 PyTorch 开箱即用，带有 4 个这样的运算符，它们都在元素级运行：
+
+*   `dist.reduce_op.SUM`，
+*   `dist.reduce_op.PRODUCT`，
+*   `dist.reduce_op.MAX`，
+*   `dist.reduce_op.MIN`。
+
+除了`dist.all_reduce(tensor, op, group)`之外，PyTorch 中目前共有 6 个集合体。
+
+*   `dist.broadcast(tensor, src, group)`：将`tensor`从`src`复制到所有其他进程。
+*   `dist.reduce(tensor, dst, op, group)`：将`op`应用于所有`tensor`，并将结果存储在`dst`中。
+*   `dist.all_reduce(tensor, op, group)`：与`reduce`相同，但是结果存储在所有进程中。
+*   `dist.scatter(tensor, src, scatter_list, group)`：将第`i`个张量`scatter_list[i]`复制到第`i`个过程。
+*   `dist.gather(tensor, dst, gather_list, group)`：从`dst`中的所有进程复制`tensor`。
+*   `dist.all_gather(tensor_list, tensor, group)`：将所有进程中的`tensor`从所有进程复制到`tensor_list`。
+*   `dist.barrier(group)`：阻止组中的所有进程，直到每个进程都进入此函数。
+
+## 分布式训练
+
+**注意**：[您可以在此 GitHub 存储库中找到本节的示例脚本](https://github.com/seba-1511/dist_tuto.pth/)。
+
+现在我们了解了分布式模块的工作原理，让我们用它编写一些有用的东西。 我们的目标是复制[`DistributedDataParallel`](https://pytorch.org/docs/stable/nn.html#torch.nn.parallel.DistributedDataParallel)的功能。 当然，这将是一个教学示例，在现实世界中，您应该使用上面链接的经过官方测试，优化的最佳版本。
+
+很简单，我们想要实现随机梯度下降的分布式版本。 我们的脚本将允许所有进程在其数据批量上计算其模型的梯度，然后平均其梯度。 为了在更改进程数时确保相似的收敛结果，我们首先必须对数据集进行分区。 （您也可以使用[`tnt.dataset.SplitDataset`](https://github.com/pytorch/tnt/blob/master/torchnet/dataset/splitdataset.py#L4)代替下面的代码段。）
+
+```py
+""" Dataset partitioning helper """
+class Partition(object):
+
+    def __init__(self, data, index):
+        self.data = data
+        self.index = index
+
+    def __len__(self):
+        return len(self.index)
+
+    def __getitem__(self, index):
+        data_idx = self.index[index]
+        return self.data[data_idx]
+
+class DataPartitioner(object):
+
+    def __init__(self, data, sizes=[0.7, 0.2, 0.1], seed=1234):
+        self.data = data
+        self.partitions = []
+        rng = Random()
+        rng.seed(seed)
+        data_len = len(data)
+        indexes = [x for x in range(0, data_len)]
+        rng.shuffle(indexes)
+
+        for frac in sizes:
+            part_len = int(frac * data_len)
+            self.partitions.append(indexes[0:part_len])
+            indexes = indexes[part_len:]
+
+    def use(self, partition):
+        return Partition(self.data, self.partitions[partition])
+
+```
+
+使用上面的代码片段，我们现在可以使用以下几行简单地对任何数据集进行分区：
+
+```py
+""" Partitioning MNIST """
+def partition_dataset():
+    dataset = datasets.MNIST('./data', train=True, download=True,
+                             transform=transforms.Compose([
+                                 transforms.ToTensor(),
+                                 transforms.Normalize((0.1307,), (0.3081,))
+                             ]))
+    size = dist.get_world_size()
+    bsz = 128 / float(size)
+    partition_sizes = [1.0 / size for _ in range(size)]
+    partition = DataPartitioner(dataset, partition_sizes)
+    partition = partition.use(dist.get_rank())
+    train_set = torch.utils.data.DataLoader(partition,
+                                         batch_size=bsz,
+                                         shuffle=True)
+    return train_set, bsz
+
+```
+
+假设我们有 2 个副本，则每个进程的`train_set`为`60000/2 = 30000`个样本。 我们还将批量大小除以副本数，以使*整个*批量大小保持为 128。
+
+现在，我们可以编写我们通常的前向后优化训练代码，并添加一个函数调用来平均模型的梯度。 （以下内容主要是受 [PyTorch MNIST 官方示例](https://github.com/pytorch/examples/blob/master/mnist/main.py)的启发）。
+
+```py
+""" Distributed Synchronous SGD Example """
+def run(rank, size):
+    torch.manual_seed(1234)
+    train_set, bsz = partition_dataset()
+    model = Net()
+    optimizer = optim.SGD(model.parameters(),
+                          lr=0.01, momentum=0.5)
+
+    num_batches = ceil(len(train_set.dataset) / float(bsz))
+    for epoch in range(10):
+        epoch_loss = 0.0
+        for data, target in train_set:
+            optimizer.zero_grad()
+            output = model(data)
+            loss = F.nll_loss(output, target)
+            epoch_loss += loss.item()
+            loss.backward()
+            average_gradients(model)
+            optimizer.step()
+        print('Rank ', dist.get_rank(), ', epoch ',
+              epoch, ': ', epoch_loss / num_batches)
+
+```
+
+仍然需要执行`average_gradients(model)`函数，该函数只需要一个模型并在整个世界上平均其梯度即可。
+
+```py
+""" Gradient averaging. """
+def average_gradients(model):
+    size = float(dist.get_world_size())
+    for param in model.parameters():
+        dist.all_reduce(param.grad.data, op=dist.reduce_op.SUM)
+        param.grad.data /= size
+
+```
+
+等等！ 我们成功实现了分布式同步 SGD，并且可以在大型计算机集群上训练任何模型。
+
+**注意**：虽然从技术上来说最后一句话是是正确的，但要实现同步 SGD 的生产级实现，还需要[更多技巧](https://seba-1511.github.io/dist_blog)。 同样，[请使用经过测试和优化的东西](https://pytorch.org/docs/stable/nn.html#torch.nn.parallel.DistributedDataParallel)。
+
+### 我们自己的 Ring-Allreduce
+
+另一个挑战是，假设我们想实现 DeepSpeech 的高效环网减少。 使用点对点集合很容易实现。
+
+```py
+""" Implementation of a ring-reduce with addition. """
+def allreduce(send, recv):
+   rank = dist.get_rank()
+   size = dist.get_world_size()
+   send_buff = send.clone()
+   recv_buff = send.clone()
+   accum = send.clone()
+
+   left = ((rank - 1) + size) % size
+   right = (rank + 1) % size
+
+   for i in range(size - 1):
+       if i % 2 == 0:
+           # Send send_buff
+           send_req = dist.isend(send_buff, right)
+           dist.recv(recv_buff, left)
+           accum[:] += recv_buff[:]
+       else:
+           # Send recv_buff
+           send_req = dist.isend(recv_buff, right)
+           dist.recv(send_buff, left)
+           accum[:] += send_buff[:]
+       send_req.wait()
+   recv[:] = accum[:]
+
+```
+
+在上面的脚本中，`allreduce(send, recv)`函数的签名与 PyTorch 中的签名略有不同。 它需要一个`recv`张量，并将所有`send`张量的总和存储在其中。 作为练习留给读者，我们的版本与 DeepSpeech 中的版本之间仍然有一个区别：它们的实现将梯度张量划分为*块*，以便最佳地利用通信带宽。 （提示：[`torch.chunk`](https://pytorch.org/docs/stable/torch.html#torch.chunk)）
+
+## 高级主题
+
+现在，我们准备发现`torch.distributed`的一些更高级的功能。 由于涉及的内容很多，本节分为两个小节：
+
+1.  通讯后端：我们在这里学习如何使用 MPI 和 Gloo 进行 GPU-GPU 通讯。
+2.  初始化方法：我们了解如何在`dist.init_process_group()`中最佳设置初始协调阶段。
+
+### 通信后端
+
+`torch.distributed`最优雅的方面之一是它具有抽象能力，并且可以在不同的后端之上构建。 如前所述，目前在 PyTorch 中实现了三个后端：Glo，NCCL 和 MPI。 它们各自具有不同的规格和权衡，具体取决于所需的用例。 可以在此处找到支持功能的比较表。
+
+**Gloo 后端**
+
+到目前为止，我们已经广泛使用 [Gloo 后端](https://github.com/facebookincubator/gloo)。 它作为开发平台非常方便，因为它已包含在预编译的 PyTorch 二进制文件中，并且可在 Linux（自 0.2 开始）和 macOS（自 1.3 开始）上运行。 它支持 CPU 上的所有点对点和集合操作，以及 GPU 上的所有集合操作。 CUDA 张量的集体运算的实现未像 NCCL 后端提供的那样优化。
+
+如您所知，如果在 GPU 上放置`model`，我们的分布式 SGD 示例将无法正常工作。 为了使用多个 GPU，让我们还进行以下修改：
+
+1.  使用`device = torch.device("cuda:{}".format(rank))`
+2.  `model = Net() => model = Net().to(device)`
+3.  使用`data, target = data.to(device), target.to(device)`
+
+经过上述修改，我们的模型现在可以在两个 GPU 上训练，您可以使用`watch nvidia-smi`监视其使用情况。
+
+**MPI 后端**
+
+消息传递接口（MPI）是来自高性能计算领域的标准化工具。 它允许进行点对点和集体通信，并且是`torch.distributed` API 的主要灵感。 存在几种针对不同目的而优化的 MPI 实现（例如 [Open-MPI](https://www.open-mpi.org/)，[MVAPICH2](http://mvapich.cse.ohio-state.edu/)，[Intel MPI](https://software.intel.com/en-us/intel-mpi-library)）。 使用 MPI 后端的优势在于 MPI 在大型计算机群集上的广泛可用性-和高水平的优化。 [一些](https://developer.nvidia.com/mvapich)[最近的](https://developer.nvidia.com/ibm-spectrum-mpi)[实现](https://www.open-mpi.org/)也能够利用 CUDA IPC 和 GPU Direct 技术，以避免通过 CPU 进行内存复制。
+
+不幸的是，PyTorch 的二进制文件不能包含 MPI 实现，我们将不得不手动对其进行重新编译。 幸运的是，鉴于编译后，PyTorch 会单独查看以查找可用的 MPI 实现，因此此过程相当简单。 [以下步骤通过从源安装 PyTorch 来安装 MPI 后端](https://github.com/pytorch/pytorch#from-source)。
+
+1.  创建并激活 Anaconda 环境，按照[指南](https://github.com/pytorch/pytorch#from-source)的要求安装所有先决条件，但是**尚未**运行。
+2.  选择并安装您喜欢的 MPI 实现。 请注意，启用支持 CUDA 的 MPI 可能需要一些其他步骤。 在我们的情况下，我们将坚持不支持 GPU 的 Open-MPI：`conda install -c conda-forge openmpi`
+3.  现在，转到克隆的 PyTorch 存储库并执行`python setup.py install`。
+
+为了测试我们新安装的后端，需要进行一些修改。
+
+1.  将`if __name__ == '__main__':`下的内容替换为`init_process(0, 0, run, backend='mpi')`。
+2.  运行`mpirun -n 4 python myscript.py`。
+
+这些更改的原因是，MPI 需要在生成进程之前创建自己的环境。 MPI 还将生成自己的进程，并执行[初始化方法](#initialization-methods)中描述的握手，使`init_process_group`的`rank`和`size`参数多余。 实际上，这非常强大，因为您可以将其他参数传递给`mpirun`，以便为每个进程定制计算资源。 （诸如每个进程的内核数，将计算机手动分配给特定级别之类的东西，以及[其它](https://www.open-mpi.org/faq/?category=running#mpirun-hostfile)。）这样做，您应该获得与其他通信后端相同的熟悉输出。
+
+**NCCL 后端**
+
+[NCCL 后端](https://github.com/nvidia/nccl)提供了针对 CUDA 张量的集体运算的优化实现。 如果仅对集体操作使用 CUDA 张量，请考虑使用此后端以获得最佳性能。 NCCL 后端包含在具有 CUDA 支持的预构建二进制文件中。
+
+### 初始化方法
+
+为了完成本教程，我们来谈谈我们调用的第一个函数：`dist.init_process_group(backend, init_method)`。 特别是，我们将介绍负责每个过程之间初始协调步骤的不同初始化方法。 这些方法使您可以定义协调方式。 根据您的硬件设置，这些方法之一自然应该比其他方法更合适。 除了以下各节之外，您还应该查看[官方文档](https://pytorch.org/docs/stable/distributed.html#initialization)。
+
+**环境变量**
+
+在本教程中，我们一直在使用环境变量初始化方法。 通过在所有机器上设置以下四个环境变量，所有进程将能够正确连接到主服务器，获取有关其他进程的信息，最后与它们握手。
+
+*   `MASTER_PORT`：计算机上的空闲端口，它将托管等级为 0 的进程。
+*   `MASTER_ADDR`：将以等级 0 托管进程的计算机的 IP 地址。
+*   `WORLD_SIZE`：进程总数，以便主机知道要等待多少个工作器。
+*   `RANK`：每个进程的等级，因此他们将知道它是否是工作器的主人。
+
+**共享文件系统**
+
+共享文件系统要求所有进程都有权访问共享文件系统，并将通过共享文件进行协调。 这意味着每个进程都将打开文件，写入文件信息，然后等到每个人都打开文件。 之后，所有必需的信息将可用于所有过程。 为了避免争用情况，文件系统必须通过[`fcntl`](http://man7.org/linux/man-pages/man2/fcntl.2.html)支持锁定。
+
+```py
+dist.init_process_group(
+    init_method='file:///mnt/nfs/sharedfile',
+    rank=args.rank,
+    world_size=4)
+
+```
+
+**TCP**
+
+通过提供等级 0 和可访问的端口号的进程的 IP 地址，可以实现通过 TCP 进行初始化。 在这里，所有工作器都可以连接到等级为 0 的流程，并交换有关如何相互联系的信息。
+
+```py
+dist.init_process_group(
+    init_method='tcp://10.1.1.20:23456',
+    rank=args.rank,
+    world_size=4)
+
+```
+
+<center>
+
+**致谢**
+
+</center>
+
+我要感谢 PyTorch 开发人员在实现，文档和测试方面做得如此出色。 当代码不清楚时，我总是可以依靠[文档](https://pytorch.org/docs/stable/distributed.html)或[测试](https://github.com/pytorch/pytorch/blob/master/test/test_distributed.py)来找到答案。 我尤其要感谢 Soumith Chintala，Adam Paszke 和 Natalia Gimelshein 提供的有见地的评论并回答了有关初稿的问题。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/64.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/64.md
new file mode 100644
index 00000000..8a53aba3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/64.md
@@ -0,0 +1,467 @@
+# 分布式 RPC 框架入门
+
+> 原文：<https://pytorch.org/tutorials/intermediate/rpc_tutorial.html>
+
+**作者**：[Shen Li](https://mrshenli.github.io/)
+
+先决条件：
+
+*   [PyTorch 分布式概述](../beginner/dist_overview.html)
+*   [RPC API 文档](https://pytorch.org/docs/master/rpc.html)
+
+本教程使用两个简单的示例来演示如何使用[`torch.distributed.rpc`](https://pytorch.org/docs/master/rpc.html)包构建分布式训练，该包首先在 PyTorch v1.4 中作为原型功能引入。 这两个示例的源代码可以在 [PyTorch 示例](https://github.com/pytorch/examples)中找到。
+
+先前的教程[分布式数据并行入门](ddp_tutorial.html)和[使用 PyTorch](dist_tuto.html) 编写分布式应用，描述了[`DistributedDataParallel`](https://pytorch.org/docs/stable/_modules/torch/nn/parallel/distributed.html)，该模型支持特定的训练范例，该模型可在多个进程之间复制，每个进程都处理输入数据的拆分。 有时，您可能会遇到需要不同训练范例的场景。 例如：
+
+1.  在强化学习中，从环境中获取训练数据可能相对昂贵，而模型本身可能很小。 在这种情况下，产生多个并行运行的观察者并共享一个智能体可能会很有用。 在这种情况下，智能体将在本地负责训练，但是应用仍将需要库在观察者和训练者之间发送和接收数据。
+2.  您的模型可能太大，无法容纳在一台计算机上的 GPU 中，因此需要一个库来帮助将模型拆分到多台计算机上。 或者，您可能正在实现[参数服务器](https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf)训练框架，其中模型参数和训练器位于不同的机器上。
+
+[`torch.distributed.rpc`](https://pytorch.org/docs/master/rpc.html)包可以帮助解决上述情况。 在情况 1 中， [RPC](https://pytorch.org/docs/master/rpc.html#rpc) 和 [RRef](https://pytorch.org/docs/master/rpc.html#rref) 允许将数据从一个工作程序发送到另一个工作程序，同时轻松引用远程数据对象。 在情况 2 中，[分布式 Autograd](https://pytorch.org/docs/master/rpc.html#distributed-autograd-framework) 和[分布式优化器](https://pytorch.org/docs/master/rpc.html#module-torch.distributed.optim)使执行反向传递和优化器步骤就像本地训练一样。 在接下来的两节中，我们将使用强化学习示例和语言模型示例来演示[`torch.distributed.rpc`](https://pytorch.org/docs/master/rpc.html)的 API。 请注意，本教程并非旨在构建最准确或最有效的模型来解决给定的问题，相反，此处的主要目标是演示如何使用[`torch.distributed.rpc`](https://pytorch.org/docs/master/rpc.html)包来构建分布式训练应用。
+
+## 使用 RPC 和 RRef 的分布式强化学习
+
+本节介绍了使用 RPC 建立玩具分布式强化学习模型以解决 [OpenAI Gym](https://gym.openai.com) 中的 CartPole-v1 的步骤。 策略代码主要是从现有的单线程[示例](https://github.com/pytorch/examples/blob/master/reinforcement_learning)中借用的，如下所示。 我们将跳过`Policy`设计的详细信息，并将重点介绍 RPC 的用法。
+
+```py
+import torch.nn as nn
+import torch.nn.functional as F
+
+class Policy(nn.Module):
+
+    def __init__(self):
+        super(Policy, self).__init__()
+        self.affine1 = nn.Linear(4, 128)
+        self.dropout = nn.Dropout(p=0.6)
+        self.affine2 = nn.Linear(128, 2)
+
+        self.saved_log_probs = []
+        self.rewards = []
+
+    def forward(self, x):
+        x = self.affine1(x)
+        x = self.dropout(x)
+        x = F.relu(x)
+        action_scores = self.affine2(x)
+        return F.softmax(action_scores, dim=1)
+
+```
+
+首先，让我们准备一个助手，以在`RRef`的所有者工作程序上远程运行函数。 您将在本教程的示例中的多个地方发现该函数。 理想情况下，`torch.distributed.rpc`包应立即提供这些助手函数。 例如，如果应用可以直接调用`RRef.some_func(*arg)`，然后将其转换为`RRef`所有者的 RPC，将会更容易。 在[`pytorch/pytorch#31743`](https://github.com/pytorch/pytorch/issues/31743)中跟踪了此 API 的进度。
+
+```py
+from torch.distributed.rpc import rpc_sync
+
+def _call_method(method, rref, *args, **kwargs):
+    return method(rref.local_value(), *args, **kwargs)
+
+def _remote_method(method, rref, *args, **kwargs):
+    args = [method, rref] + list(args)
+    return rpc_sync(rref.owner(), _call_method, args=args, kwargs=kwargs)
+
+# to call a function on an rref, we could do the following
+# _remote_method(some_func, rref, *args)
+
+```
+
+我们准备介绍观察员。 在此示例中，每个观察者创建自己的环境，并等待智能体的命令来运行剧集。 在每个剧集中，一个观察者最多循环`n_steps`个迭代，并且在每个迭代中，它使用 RPC 将其环境状态传递给智能体并取回操作。 然后，它将该操作应用于其环境，并从环境中获取奖励和下一个状态。 之后，观察者使用另一个 RPC 向智能体报告奖励。 同样，请注意，这显然不是最有效的观察者实现。 例如，一个简单的优化可能是将当前状态和最后的报酬打包到一个 RPC 中，以减少通信开销。 但是，目标是演示 RPC API，而不是为 CartPole 构建最佳的求解器。 因此，在此示例中，让逻辑保持简单，并明确两个步骤。
+
+```py
+import argparse
+import gym
+import torch.distributed.rpc as rpc
+
+parser = argparse.ArgumentParser(
+    description="RPC Reinforcement Learning Example",
+    formatter_class=argparse.ArgumentDefaultsHelpFormatter,
+)
+
+parser.add_argument('--world_size', default=2, help='Number of workers')
+parser.add_argument('--log_interval', default=1, help='Log every log_interval episodes')
+parser.add_argument('--gamma', default=0.1, help='how much to value future rewards')
+parser.add_argument('--seed', default=1, help='random seed for reproducibility')
+args = parser.parse_args()
+
+class Observer:
+
+    def __init__(self):
+        self.id = rpc.get_worker_info().id
+        self.env = gym.make('CartPole-v1')
+        self.env.seed(args.seed)
+
+    def run_episode(self, agent_rref, n_steps):
+        state, ep_reward = self.env.reset(), 0
+        for step in range(n_steps):
+            # send the state to the agent to get an action
+            action = _remote_method(Agent.select_action, agent_rref, self.id, state)
+
+            # apply the action to the environment, and get the reward
+            state, reward, done, _ = self.env.step(action)
+
+            # report the reward to the agent for training purpose
+            _remote_method(Agent.report_reward, agent_rref, self.id, reward)
+
+            if done:
+                break
+
+```
+
+agent 的代码稍微复杂一点，我们将其分成多个部分。 在此示例中，智能体既充当训练者又充当主角色，以便它向多个分布式观察者发送命令以运行剧集，并且还记录本地的所有动作和奖励，这些动作和奖赏将在每个剧集之后的训练阶段使用。 下面的代码显示了`Agent`构造器，其中大多数行都在初始化各种组件。 最后的循环在其他工作器上远程初始化观察者，并在本地将`RRefs`保留给这些观察者。 智能体稍后将使用那些观察者`RRefs`发送命令。 应用无需担心`RRefs`的寿命。 每个`RRef`的所有者维护一个引用计数图以跟踪其生命周期，并保证只要该`RRef`的任何活动用户都不会删除远程数据对象。 有关详细信息，请参考`RRef` [设计文档](https://pytorch.org/docs/master/notes/rref.html)。
+
+```py
+import gym
+import numpy as np
+
+import torch
+import torch.distributed.rpc as rpc
+import torch.optim as optim
+from torch.distributed.rpc import RRef, rpc_async, remote
+from torch.distributions import Categorical
+
+class Agent:
+    def __init__(self, world_size):
+        self.ob_rrefs = []
+        self.agent_rref = RRef(self)
+        self.rewards = {}
+        self.saved_log_probs = {}
+        self.policy = Policy()
+        self.optimizer = optim.Adam(self.policy.parameters(), lr=1e-2)
+        self.eps = np.finfo(np.float32).eps.item()
+        self.running_reward = 0
+        self.reward_threshold = gym.make('CartPole-v1').spec.reward_threshold
+        for ob_rank in range(1, world_size):
+            ob_info = rpc.get_worker_info(OBSERVER_NAME.format(ob_rank))
+            self.ob_rrefs.append(remote(ob_info, Observer))
+            self.rewards[ob_info.id] = []
+            self.saved_log_probs[ob_info.id] = []
+
+```
+
+接下来，智能体向观察者公开两个 API，以供他们选择动作和报告奖励。 这些函数仅在智能体上本地运行，但是将由观察者通过 RPC 触发。
+
+```py
+class Agent:
+    ...
+    def select_action(self, ob_id, state):
+        state = torch.from_numpy(state).float().unsqueeze(0)
+        probs = self.policy(state)
+        m = Categorical(probs)
+        action = m.sample()
+        self.saved_log_probs[ob_id].append(m.log_prob(action))
+        return action.item()
+
+    def report_reward(self, ob_id, reward):
+        self.rewards[ob_id].append(reward)
+
+```
+
+让我们在智能体上添加`run_episode`函数，该函数告诉所有观察者执行片段。 在此函数中，它首先创建一个列表，以从异步 RPC 收集期货，然后在所有观察者`RRefs`上循环以生成异步 RPC。 在这些 RPC 中，智能体还将自身的`RRef`传递给观察者，以便观察者也可以在智能体上调用函数。 如上所示，每个观察者都将 RPC 返回给智能体，它们是嵌套的 RPC。 在每个剧集之后，`saved_log_probs`和`rewards`将包含记录的动作概率和奖励。
+
+```py
+class Agent:
+    ...
+    def run_episode(self, n_steps=0):
+        futs = []
+        for ob_rref in self.ob_rrefs:
+            # make async RPC to kick off an episode on all observers
+            futs.append(
+                rpc_async(
+                    ob_rref.owner(),
+                    _call_method,
+                    args=(Observer.run_episode, ob_rref, self.agent_rref, n_steps)
+                )
+            )
+
+        # wait until all obervers have finished this episode
+        for fut in futs:
+            fut.wait()
+
+```
+
+最后，在一集之后，智能体需要训练模型，该模型在下面的`finish_episode`函数中实现。 此函数中没有 RPC，并且大多数是从单线程[示例](https://github.com/pytorch/examples/blob/master/reinforcement_learning)中借用的。 因此，我们跳过描述其内容。
+
+```py
+class Agent:
+    ...
+    def finish_episode(self):
+      # joins probs and rewards from different observers into lists
+      R, probs, rewards = 0, [], []
+      for ob_id in self.rewards:
+          probs.extend(self.saved_log_probs[ob_id])
+          rewards.extend(self.rewards[ob_id])
+
+      # use the minimum observer reward to calculate the running reward
+      min_reward = min([sum(self.rewards[ob_id]) for ob_id in self.rewards])
+      self.running_reward = 0.05 * min_reward + (1 - 0.05) * self.running_reward
+
+      # clear saved probs and rewards
+      for ob_id in self.rewards:
+          self.rewards[ob_id] = []
+          self.saved_log_probs[ob_id] = []
+
+      policy_loss, returns = [], []
+      for r in rewards[::-1]:
+          R = r + args.gamma * R
+          returns.insert(0, R)
+      returns = torch.tensor(returns)
+      returns = (returns - returns.mean()) / (returns.std() + self.eps)
+      for log_prob, R in zip(probs, returns):
+          policy_loss.append(-log_prob * R)
+      self.optimizer.zero_grad()
+      policy_loss = torch.cat(policy_loss).sum()
+      policy_loss.backward()
+      self.optimizer.step()
+      return min_reward
+
+```
+
+使用`Policy`，`Observer`和`Agent`类，我们准备启动多个过程来执行分布式训练。 在此示例中，所有进程都运行相同的`run_worker`函数，并且它们使用等级来区分其角色。 等级 0 始终是智能体，其他所有等级都是观察者。 智能体通过重复调用`run_episode`和`finish_episode`作为主设备，直到运行的奖励超过环境指定的奖励阈值为止。 所有观察者都被动地等待来自智能体的命令。 该代码由[`rpc.init_rpc`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.init_rpc)和[`rpc.shutdown`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.shutdown)包装，它们分别初始化和终止 RPC 实例。 [API 页面](https://pytorch.org/docs/master/rpc.html)中提供了更多详细信息。
+
+```py
+import os
+from itertools import count
+
+import torch.multiprocessing as mp
+
+AGENT_NAME = "agent"
+OBSERVER_NAME="obs"
+TOTAL_EPISODE_STEP = 100
+
+def run_worker(rank, world_size):
+    os.environ['MASTER_ADDR'] = 'localhost'
+    os.environ['MASTER_PORT'] = '29500'
+    if rank == 0:
+        # rank0 is the agent
+        rpc.init_rpc(AGENT_NAME, rank=rank, world_size=world_size)
+
+        agent = Agent(world_size)
+        for i_episode in count(1):
+            n_steps = int(TOTAL_EPISODE_STEP / (args.world_size - 1))
+            agent.run_episode(n_steps=n_steps)
+            last_reward = agent.finish_episode()
+
+            if i_episode % args.log_interval == 0:
+                print('Episode {}\tLast reward: {:.2f}\tAverage reward: {:.2f}'.format(
+                      i_episode, last_reward, agent.running_reward))
+
+            if agent.running_reward > agent.reward_threshold:
+                print("Solved! Running reward is now {}!".format(agent.running_reward))
+                break
+    else:
+        # other ranks are the observer
+        rpc.init_rpc(OBSERVER_NAME.format(rank), rank=rank, world_size=world_size)
+        # observers passively waiting for instructions from the agent
+
+    # block until all rpcs finish, and shutdown the RPC instance
+    rpc.shutdown()
+
+mp.spawn(
+    run_worker,
+    args=(args.world_size, ),
+    nprocs=args.world_size,
+    join=True
+)
+
+```
+
+以下是使用`world_size = 2`进行训练时的一些示例输出。
+
+```py
+Episode 10      Last reward: 26.00      Average reward: 10.01
+Episode 20      Last reward: 16.00      Average reward: 11.27
+Episode 30      Last reward: 49.00      Average reward: 18.62
+Episode 40      Last reward: 45.00      Average reward: 26.09
+Episode 50      Last reward: 44.00      Average reward: 30.03
+Episode 60      Last reward: 111.00     Average reward: 42.23
+Episode 70      Last reward: 131.00     Average reward: 70.11
+Episode 80      Last reward: 87.00      Average reward: 76.51
+Episode 90      Last reward: 86.00      Average reward: 95.93
+Episode 100     Last reward: 13.00      Average reward: 123.93
+Episode 110     Last reward: 33.00      Average reward: 91.39
+Episode 120     Last reward: 73.00      Average reward: 76.38
+Episode 130     Last reward: 137.00     Average reward: 88.08
+Episode 140     Last reward: 89.00      Average reward: 104.96
+Episode 150     Last reward: 97.00      Average reward: 98.74
+Episode 160     Last reward: 150.00     Average reward: 100.87
+Episode 170     Last reward: 126.00     Average reward: 104.38
+Episode 180     Last reward: 500.00     Average reward: 213.74
+Episode 190     Last reward: 322.00     Average reward: 300.22
+Episode 200     Last reward: 165.00     Average reward: 272.71
+Episode 210     Last reward: 168.00     Average reward: 233.11
+Episode 220     Last reward: 184.00     Average reward: 195.02
+Episode 230     Last reward: 284.00     Average reward: 208.32
+Episode 240     Last reward: 395.00     Average reward: 247.37
+Episode 250     Last reward: 500.00     Average reward: 335.42
+Episode 260     Last reward: 500.00     Average reward: 386.30
+Episode 270     Last reward: 500.00     Average reward: 405.29
+Episode 280     Last reward: 500.00     Average reward: 443.29
+Episode 290     Last reward: 500.00     Average reward: 464.65
+Solved! Running reward is now 475.3163778435275!
+
+```
+
+在此示例中，我们展示了如何使用 RPC 作为通信工具来跨工作器传递数据，以及如何使用 RRef 引用远程对象。 的确，您可以直接在`ProcessGroup` `send`和`recv` API 之上构建整个结构，也可以使用其他通信/ RPC 库。 但是，通过使用`torch.distributed.rpc`，您可以在后台获得本机支持并不断优化性能。
+
+接下来，我们将展示如何将 RPC 和 RRef 与分布式 Autograd 和分布式优化器结合起来执行分布式模型并行训练。
+
+## 使用分布式 Autograd 和分布式优化器的分布式 RNN
+
+在本节中，我们将使用 RNN 模型来展示如何使用 RPC API 构建分布式模型并行训练。 示例 RNN 模型非常小，可以轻松地放入单个 GPU 中，但是我们仍将其层划分为两个不同的工作器来演示这一想法。 开发人员可以应用类似的技术在多个设备和机器上分布更大的模型。
+
+RNN 模型设计是从 PyTorch [示例](https://github.com/pytorch/examples/tree/master/word_language_model)存储库中的词语言模型中借用的，该存储库包含三个主要组件，一个嵌入表，一个`LSTM`层和一个解码器。 下面的代码将嵌入表和解码器包装到子模块中，以便它们的构造器可以传递给 RPC API。 在`EmbeddingTable`子模块中，我们有意将`Embedding`层放在 GPU 上以涵盖用例。 在 v1.4 中，RPC 始终在目标工作线程上创建 CPU 张量参数或返回值。 如果函数使用 GPU 张量，则需要将其显式移动到适当的设备。
+
+```py
+class EmbeddingTable(nn.Module):
+    r"""
+    Encoding layers of the RNNModel
+    """
+    def __init__(self, ntoken, ninp, dropout):
+        super(EmbeddingTable, self).__init__()
+        self.drop = nn.Dropout(dropout)
+        self.encoder = nn.Embedding(ntoken, ninp).cuda()
+        self.encoder.weight.data.uniform_(-0.1, 0.1)
+
+    def forward(self, input):
+        return self.drop(self.encoder(input.cuda()).cpu()
+
+class Decoder(nn.Module):
+    def __init__(self, ntoken, nhid, dropout):
+        super(Decoder, self).__init__()
+        self.drop = nn.Dropout(dropout)
+        self.decoder = nn.Linear(nhid, ntoken)
+        self.decoder.bias.data.zero_()
+        self.decoder.weight.data.uniform_(-0.1, 0.1)
+
+    def forward(self, output):
+        return self.decoder(self.drop(output))
+
+```
+
+使用上述子模块，我们现在可以使用 RPC 将它们组合在一起以创建 RNN 模型。 在下面的代码中，`ps`代表参数服务器，该服务器托管嵌入表和解码器的参数。 构造器使用[远程](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.remote) API 在参数服务器上创建`EmbeddingTable`对象和`Decoder`对象，并在本地创建`LSTM`子模块。 在前进过程中，训练器使用`EmbeddingTable` `RRef`查找远程子模块，然后使用 RPC 将输入数据传递到`EmbeddingTable`，并获取查找结果。 然后，它通过本地`LSTM`层运行嵌入，最后使用另一个 RPC 将输出发送到`Decoder`子模块。 通常，要实现分布式模型并行训练，开发人员可以将模型分为多个子模块，调用 RPC 远程创建子模块实例，并在必要时使用`RRef`查找它们。 正如您在下面的代码中看到的那样，它看起来与单机模型并行训练非常相似。 主要区别是用 RPC 函数替换了`Tensor.to(device)`。
+
+```py
+class RNNModel(nn.Module):
+    def __init__(self, ps, ntoken, ninp, nhid, nlayers, dropout=0.5):
+        super(RNNModel, self).__init__()
+
+        # setup embedding table remotely
+        self.emb_table_rref = rpc.remote(ps, EmbeddingTable, args=(ntoken, ninp, dropout))
+        # setup LSTM locally
+        self.rnn = nn.LSTM(ninp, nhid, nlayers, dropout=dropout)
+        # setup decoder remotely
+        self.decoder_rref = rpc.remote(ps, Decoder, args=(ntoken, nhid, dropout))
+
+    def forward(self, input, hidden):
+        # pass input to the remote embedding table and fetch emb tensor back
+        emb = _remote_method(EmbeddingTable.forward, self.emb_table_rref, input)
+        output, hidden = self.rnn(emb, hidden)
+        # pass output to the rremote decoder and get the decoded output back
+        decoded = _remote_method(Decoder.forward, self.decoder_rref, output)
+        return decoded, hidden
+
+```
+
+在介绍分布式优化器之前，让我们添加一个辅助函数来生成模型参数的 RRef 列表，该列表将由分布式优化器使用。 在本地训练中，应用可以调用`Module.parameters()`来获取对所有参数张量的引用，并将其传递给本地优化器以进行后续更新。 但是，由于某些参数存在于远程计算机上，因此同一 API 在分布式训练方案中不起作用。 因此，分布式优化器不采用参数`Tensors`的列表，而是采用`RRefs`的列表，每个模型参数一个`RRef`用于本地和远程模型参数。 辅助函数非常简单，只需调用`Module.parameters()`并在每个参数上创建一个本地`RRef`。
+
+```py
+def _parameter_rrefs(module):
+    param_rrefs = []
+    for param in module.parameters():
+        param_rrefs.append(RRef(param))
+    return param_rrefs
+
+```
+
+然后，由于`RNNModel`包含三个子模块，因此我们需要调用`_parameter_rrefs` 3 次，并将其包装到另一个辅助函数中。
+
+```py
+class RNNModel(nn.Module):
+    ...
+    def parameter_rrefs(self):
+        remote_params = []
+        # get RRefs of embedding table
+        remote_params.extend(_remote_method(_parameter_rrefs, self.emb_table_rref))
+        # create RRefs for local parameters
+        remote_params.extend(_parameter_rrefs(self.rnn))
+        # get RRefs of decoder
+        remote_params.extend(_remote_method(_parameter_rrefs, self.decoder_rref))
+        return remote_params
+
+```
+
+现在，我们准备实现训练循环。 初始化模型参数后，我们创建`RNNModel`和`DistributedOptimizer`。 分布式优化器将采用参数`RRefs`的列表，查找所有不同的所有者工作器，并在每个所有者工作器上创建给定的本地优化器（即，在这种情况下，您也可以使用其他本地优化器`SGD`） 使用给定的参数（即`lr=0.05`）。
+
+在训练循环中，它首先创建一个分布式 Autograd 上下文，这将帮助分布式 Autograd 引擎查找梯度和涉及的 RPC 发送/接收函数。 分布式 Autograd 引擎的设计详细信息可以在其[设计说明](https://pytorch.org/docs/master/notes/distributed_autograd.html)中找到。 然后，它像本地模型一样开始正向传播，并运行分布式后向传递。 对于后向分布，您只需要指定一个根列表，在这种情况下，就是损失`Tensor`。 分布式 Autograd 引擎将自动遍历分布式图并正确编写梯度。 接下来，它在分布式优化器上运行`step`函数，该函数将与所有涉及的本地优化器联系以更新模型参数。 与本地训练相比，一个较小的差异是您不需要运行`zero_grad()`，因为每个 Autograd 上下文都有专用的空间来存储梯度，并且在每次迭代创建上下文时，来自不同迭代的那些梯度不会累积到同一组`Tensors`。
+
+```py
+def run_trainer():
+    batch = 5
+    ntoken = 10
+    ninp = 2
+
+    nhid = 3
+    nindices = 3
+    nlayers = 4
+    hidden = (
+        torch.randn(nlayers, nindices, nhid),
+        torch.randn(nlayers, nindices, nhid)
+    )
+
+    model = rnn.RNNModel('ps', ntoken, ninp, nhid, nlayers)
+
+    # setup distributed optimizer
+    opt = DistributedOptimizer(
+        optim.SGD,
+        model.parameter_rrefs(),
+        lr=0.05,
+    )
+
+    criterion = torch.nn.CrossEntropyLoss()
+
+    def get_next_batch():
+        for _ in range(5):
+            data = torch.LongTensor(batch, nindices) % ntoken
+            target = torch.LongTensor(batch, ntoken) % nindices
+            yield data, target
+
+    # train for 10 iterations
+    for epoch in range(10):
+        for data, target in get_next_batch():
+            # create distributed autograd context
+            with dist_autograd.context() as context_id:
+                hidden[0].detach_()
+                hidden[1].detach_()
+                output, hidden = model(data, hidden)
+                loss = criterion(output, target)
+                # run distributed backward pass
+                dist_autograd.backward(context_id, [loss])
+                # run distributed optimizer
+                opt.step(context_id)
+                # not necessary to zero grads since they are
+                # accumulated into the distributed autograd context
+                # which is reset every iteration.
+        print("Training epoch {}".format(epoch))
+
+```
+
+最后，让我们添加一些粘合代码以启动参数服务器和训练器流程。
+
+```py
+def run_worker(rank, world_size):
+    os.environ['MASTER_ADDR'] = 'localhost'
+    os.environ['MASTER_PORT'] = '29500'
+    if rank == 1:
+        rpc.init_rpc("trainer", rank=rank, world_size=world_size)
+        _run_trainer()
+    else:
+        rpc.init_rpc("ps", rank=rank, world_size=world_size)
+        # parameter server do nothing
+        pass
+
+    # block until all rpcs finish
+    rpc.shutdown()
+
+if __name__=="__main__":
+    world_size = 2
+    mp.spawn(run_worker, args=(world_size, ), nprocs=world_size, join=True)
+
+```
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/65.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/65.md
new file mode 100644
index 00000000..901fb97b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/65.md
@@ -0,0 +1,412 @@
+# 使用分布式 RPC 框架实现参数服务器
+
+> 原文：<https://pytorch.org/tutorials/intermediate/rpc_param_server_tutorial.html>
+
+**作者**： [Rohan Varma](https://github.com/rohan-varma)
+
+先决条件：
+
+*   [PyTorch 分布式概述](../beginner/dist_overview.html)
+*   [RPC API 文档](https://pytorch.org/docs/master/rpc.html)
+
+本教程介绍了一个简单的示例，该示例使用 PyTorch 的[分布式 RPC 框架](https://pytorch.org/docs/stable/rpc.html)实现参数服务器。 参数服务器框架是一种范例，其中一组服务器存储参数（例如大型嵌入表），并且多个训练人员查询参数服务器以检索最新参数。 这些训练器可以在本地运行训练循环，并偶尔与参数服务器同步以获得最新参数。 有关参数服务器方法的更多信息，请查阅[本文](https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf)。
+
+使用分布式 RPC 框架，我们将构建一个示例，其中多个训练器使用 RPC 与同一个参数服务器进行通信，并使用 [RRef](https://pytorch.org/docs/stable/rpc.html#torch.distributed.rpc.RRef) 访问远程参数服务器实例上的状态。 每位训练器将通过使用分布式 Autograd 跨多个节点拼接 Autograd 图，以分布式方式启动其专用的反向传递。
+
+**注意**：本教程介绍了分布式 RPC 框架的用法，该方法可用于将模型拆分到多台计算机上，或用于实现参数服务器训练策略，在该策略中，网络训练器可以获取托管在另一台计算机上的参数。 相反，如果您要跨多个 GPU 复制模型，请参阅[分布式数据并行教程](https://pytorch.org/tutorials/intermediate/ddp_tutorial.html)。 还有另一个 [RPC 教程](https://pytorch.org/tutorials/intermediate/rpc_tutorial.html)，涵盖了强化学习和 RNN 用例。
+
+让我们从熟悉的地方开始：导入我们所需的模块并定义一个简单的 ConvNet，它将在 MNIST 数据集上进行训练。 以下网络是从[`pytorch/examples`仓库](https://github.com/pytorch/examples/tree/master/mnist)中定义的网络中广泛采用的。
+
+```py
+import argparse
+import os
+import time
+from threading import Lock
+
+import torch
+import torch.distributed.autograd as dist_autograd
+import torch.distributed.rpc as rpc
+import torch.multiprocessing as mp
+import torch.nn as nn
+import torch.nn.functional as F
+from torch import optim
+from torch.distributed.optim import DistributedOptimizer
+from torchvision import datasets, transforms
+
+# --------- MNIST Network to train, from pytorch/examples -----
+
+class Net(nn.Module):
+    def __init__(self, num_gpus=0):
+        super(Net, self).__init__()
+        print(f"Using {num_gpus} GPUs to train")
+        self.num_gpus = num_gpus
+        device = torch.device(
+            "cuda:0" if torch.cuda.is_available() and self.num_gpus > 0 else "cpu")
+        print(f"Putting first 2 convs on {str(device)}")
+        # Put conv layers on the first cuda device, or CPU if no cuda device
+        self.conv1 = nn.Conv2d(1, 32, 3, 1).to(device)
+        self.conv2 = nn.Conv2d(32, 64, 3, 1).to(device)
+        # Put rest of the network on the 2nd cuda device, if there is one
+        if "cuda" in str(device) and num_gpus > 1:
+            device = torch.device("cuda:1")
+
+        print(f"Putting rest of layers on {str(device)}")
+        self.dropout1 = nn.Dropout2d(0.25).to(device)
+        self.dropout2 = nn.Dropout2d(0.5).to(device)
+        self.fc1 = nn.Linear(9216, 128).to(device)
+        self.fc2 = nn.Linear(128, 10).to(device)
+
+    def forward(self, x):
+        x = self.conv1(x)
+        x = F.relu(x)
+        x = self.conv2(x)
+        x = F.max_pool2d(x, 2)
+
+        x = self.dropout1(x)
+        x = torch.flatten(x, 1)
+        # Move tensor to next device if necessary
+        next_device = next(self.fc1.parameters()).device
+        x = x.to(next_device)
+
+        x = self.fc1(x)
+        x = F.relu(x)
+        x = self.dropout2(x)
+        x = self.fc2(x)
+        output = F.log_softmax(x, dim=1)
+        return output
+
+```
+
+接下来，让我们定义一些辅助函数，这些函数将对其余脚本有用。 下面使用[`rpc_sync`](https://pytorch.org/docs/stable/rpc.html#torch.distributed.rpc.rpc_sync)和 [RRef](https://pytorch.org/docs/stable/rpc.html#torch.distributed.rpc.RRef) 来定义一个函数，该函数在远程节点上的对象上调用给定方法。 下面，通过`rref`参数指定了对远程对象的句柄，并在其拥有的节点`rref.owner()`上运行它。 在调用者节点上，我们通过使用`rpc_sync`同步运行此命令，这意味着我们将阻塞直到收到响应。
+
+```py
+# --------- Helper Methods --------------------
+
+# On the local node, call a method with first arg as the value held by the
+# RRef. Other args are passed in as arguments to the function called.
+# Useful for calling instance methods. method could be any matching function, including
+# class methods.
+def call_method(method, rref, *args, **kwargs):
+    return method(rref.local_value(), *args, **kwargs)
+
+# Given an RRef, return the result of calling the passed in method on the value
+# held by the RRef. This call is done on the remote node that owns
+# the RRef and passes along the given argument.
+# Example: If the value held by the RRef is of type Foo, then
+# remote_method(Foo.bar, rref, arg1, arg2) is equivalent to calling
+# <foo_instance>.bar(arg1, arg2) on the remote node and getting the result
+# back.
+
+def remote_method(method, rref, *args, **kwargs):
+    args = [method, rref] + list(args)
+    return rpc.rpc_sync(rref.owner(), call_method, args=args, kwargs=kwargs)
+
+```
+
+现在，我们准备定义参数服务器。 我们将子类化`nn.Module`，并将句柄保存到上面定义的网络中。 我们还将保存一个输入设备，该输入设备将是在调用模型之前将输入传输到的设备。
+
+```py
+# --------- Parameter Server --------------------
+class ParameterServer(nn.Module):
+    def __init__(self, num_gpus=0):
+        super().__init__()
+        model = Net(num_gpus=num_gpus)
+        self.model = model
+        self.input_device = torch.device(
+            "cuda:0" if torch.cuda.is_available() and num_gpus > 0 else "cpu")
+
+```
+
+接下来，我们将定义前进通道。 请注意，无论模型输出的设备如何，我们都会将输出移至 CPU，因为分布式 RPC 框架当前仅支持通过 RPC 发送 CPU 张量。 由于有可能在调用者/被调用者上使用不同的设备（CPU/GPU），因此我们有意禁用通过 RPC 发送 CUDA 张量，但在将来的版本中可能会支持此功能。
+
+```py
+class ParameterServer(nn.Module):
+...
+    def forward(self, inp):
+        inp = inp.to(self.input_device)
+        out = self.model(inp)
+        # This output is forwarded over RPC, which as of 1.5.0 only accepts CPU tensors.
+        # Tensors must be moved in and out of GPU memory due to this.
+        out = out.to("cpu")
+        return out
+
+```
+
+接下来，我们将定义一些其他函数，可用于训练和验证。 第一个`get_dist_gradients`将采用分布式 Autograd 上下文 ID，并调用`dist_autograd.get_gradients` API，以检索由分布式 Autograd 计算的梯度。 可以在[分布式 Autograd 文档](https://pytorch.org/docs/stable/rpc.html#distributed-autograd-framework)中找到更多信息。 请注意，由于该框架当前仅支持通过 RPC 发送张量，因此我们还会迭代生成的字典并将每个张量转换为 CPU 张量。 接下来，`get_param_rrefs`将迭代我们的模型参数，并将它们包装为（本地）[RRef](https://pytorch.org/docs/stable/rpc.html#torch.distributed.rpc.RRef)。 训练者节点将通过 RPC 调用此方法，并将返回要优化的参数列表。 这是[分布式优化器](https://pytorch.org/docs/stable/rpc.html#module-torch.distributed.optim)的输入，它需要所有必须优化的参数作为`RRef`的列表。
+
+```py
+# Use dist autograd to retrieve gradients accumulated for this model.
+# Primarily used for verification.
+def get_dist_gradients(self, cid):
+    grads = dist_autograd.get_gradients(cid)
+    # This output is forwarded over RPC, which as of 1.5.0 only accepts CPU tensors.
+    # Tensors must be moved in and out of GPU memory due to this.
+    cpu_grads = {}
+    for k, v in grads.items():
+        k_cpu, v_cpu = k.to("cpu"), v.to("cpu")
+        cpu_grads[k_cpu] = v_cpu
+    return cpu_grads
+
+# Wrap local parameters in a RRef. Needed for building the
+# DistributedOptimizer which optimizes paramters remotely.
+def get_param_rrefs(self):
+    param_rrefs = [rpc.RRef(param) for param in self.model.parameters()]
+    return param_rrefs
+
+```
+
+最后，我们将创建用于初始化参数服务器的方法。 请注意，所有过程中只有一个参数服务器实例，并且所有训练器都将与同一参数服务器对话并更新相同的存储模型。 如`run_parameter_server`所示，服务器本身不采取任何独立的操作； 它等待来自训练者的请求（尚未定义），并通过运行所请求的函数对其作出响应。
+
+```py
+# The global parameter server instance.
+param_server = None
+# A lock to ensure we only have one parameter server.
+global_lock = Lock()
+
+def get_parameter_server(num_gpus=0):
+    """
+    Returns a singleton parameter server to all trainer processes
+    """
+    global param_server
+    # Ensure that we get only one handle to the ParameterServer.
+    with global_lock:
+        if not param_server:
+            # construct it once
+            param_server = ParameterServer(num_gpus=num_gpus)
+        return param_server
+
+def run_parameter_server(rank, world_size):
+    # The parameter server just acts as a host for the model and responds to
+    # requests from trainers.
+    # rpc.shutdown() will wait for all workers to complete by default, which
+    # in this case means that the parameter server will wait for all trainers
+    # to complete, and then exit.
+    print("PS master initializing RPC")
+    rpc.init_rpc(name="parameter_server", rank=rank, world_size=world_size)
+    print("RPC initialized! Running parameter server...")
+    rpc.shutdown()
+    print("RPC shutdown on parameter server.")
+
+```
+
+请注意，以上`rpc.shutdown()`不会立即关闭参数服务器。 相反，它将等待所有工作器（在这种情况下为训练人员）也呼唤`rpc.shutdown()`。 这样可以保证参数服务器在所有训练人员（尚未定义）完成训练过程之前不会脱机。
+
+接下来，我们将定义`TrainerNet`类。 这也将是`nn.Module`的子类，并且我们的`__init__`方法将使用`rpc.remote` API 获取对我们的参数服务器的 RRef 或远程引用。 请注意，此处我们没有将参数服务器复制到本地进程，而是可以将`self.param_server_rref`视为指向驻留在单独进程中的参数服务器的分布式共享指针。
+
+```py
+# --------- Trainers --------------------
+
+# nn.Module corresponding to the network trained by this trainer. The
+# forward() method simply invokes the network on the given parameter
+# server.
+class TrainerNet(nn.Module):
+    def __init__(self, num_gpus=0):
+        super().__init__()
+        self.num_gpus = num_gpus
+        self.param_server_rref = rpc.remote(
+            "parameter_server", get_parameter_server, args=(num_gpus,))
+
+```
+
+接下来，我们将定义一个名为`get_global_param_rrefs`的方法。 为了激发对这种方法的需求，值得阅读[`DistributedOptimizer`](https://pytorch.org/docs/stable/rpc.html#module-torch.distributed.optim)上的文档，尤其是 API 签名。 必须向优化器传递与要优化的远程参数相对应的`RRef`列表，因此在这里我们获得了必要的`RRef`。 由于给定`TrainerNet`与之交互的唯一远程工作器是`ParameterServer`，因此我们只需在`ParameterServer`上调用`remote_method`。 我们使用在`ParameterServer`类中定义的`get_param_rrefs`方法。 此方法将`RRef`的列表返回到需要优化的参数。 请注意，在这种情况下，我们的`TrainerNet`没有定义自己的参数； 如果确实如此，我们还需要将每个参数都包装在`RRef`中，并将其包含在`DistributedOptimizer`的输入中。
+
+```py
+class TrainerNet(nn.Module):
+...
+    def get_global_param_rrefs(self):
+        remote_params = remote_method(
+            ParameterServer.get_param_rrefs,
+            self.param_server_rref)
+        return remote_params
+
+```
+
+现在，我们准备定义`forward`方法，该方法将调用（同步）RPC 以运行`ParameterServer`上定义的网络的正向传播。 请注意，我们将`self.param_server_rref`（它是`ParameterServer`的远程句柄）传递给 RPC 调用。 该调用将向运行`ParameterServer`的节点发送 RPC，调用`forward`传递，然后返回与模型输出相对应的`Tensor`。
+
+```py
+class TrainerNet(nn.Module):
+...
+    def forward(self, x):
+        model_output = remote_method(
+            ParameterServer.forward, self.param_server_rref, x)
+        return model_output
+
+```
+
+完全定义好训练器之后，现在该编写我们的神经网络训练循环，该循环将创建我们的网络和优化器，通过网络运行一些输入并计算损失。 训练循环看起来很像本地训练计划，但由于我们的网络在机器之间分布，因此进行了一些修改。
+
+下面，我们初始化`TrainerNet`并构建一个`DistributedOptimizer`。 请注意，如上所述，我们必须传入要优化的所有全局参数（跨参与分布式训练的所有节点）。 另外，我们传入要使用的本地优化器，在这种情况下为 SGD。 请注意，我们可以像创建本地优化器一样配置基础优化器算法-`optimizer.SGD`的所有参数都将正确转发。 例如，我们传入一个自定义学习率，它将用作所有本地优化器的学习率。
+
+```py
+def run_training_loop(rank, num_gpus, train_loader, test_loader):
+    # Runs the typical nueral network forward + backward + optimizer step, but
+    # in a distributed fashion.
+    net = TrainerNet(num_gpus=num_gpus)
+    # Build DistributedOptimizer.
+    param_rrefs = net.get_global_param_rrefs()
+    opt = DistributedOptimizer(optim.SGD, param_rrefs, lr=0.03)
+
+```
+
+接下来，我们定义我们的主要训练循环。 我们遍历了 PyTorch 的[`DataLoader`](https://pytorch.org/docs/stable/data.html)提供的可迭代项。 在编写典型的前向/后向/优化器循环之前，我们首先将逻辑包装在[分布式 Autograd 上下文](https://pytorch.org/docs/stable/rpc.html#torch.distributed.autograd.context)中。 请注意，这需要记录在模型的正向传播中调用的 RPC，以便可以构造一个适当的图，其中包括在后向传递中所有参与的分布式工作器。 分布式 Autograd 上下文返回`context_id`，它用作用于累积和优化与特定迭代对应的梯度的标识符。
+
+与调用典型的`loss.backward()`会启动此本地工作程序的反向传播相反，我们调用`dist_autograd.backward()`并传递我们的`context_id`和`loss`，这是我们希望反向传播从它开始的根。 另外，我们将此`context_id`传递到优化程序调用中，该调用程序必须能够在所有节点上查找由该特定反向传播计算出的相应梯度。
+
+```py
+def run_training_loop(rank, num_gpus, train_loader, test_loader):
+...
+    for i, (data, target) in enumerate(train_loader):
+        with dist_autograd.context() as cid:
+            model_output = net(data)
+            target = target.to(model_output.device)
+            loss = F.nll_loss(model_output, target)
+            if i % 5 == 0:
+                print(f"Rank {rank} training batch {i} loss {loss.item()}")
+            dist_autograd.backward(cid, [loss])
+            # Ensure that dist autograd ran successfully and gradients were
+            # returned.
+            assert remote_method(
+                ParameterServer.get_dist_gradients,
+                net.param_server_rref,
+                cid) != {}
+            opt.step(cid)
+
+     print("Training complete!")
+     print("Getting accuracy....")
+     get_accuracy(test_loader, net)
+
+```
+
+与传统的本地模型非常相似，下面的内容只是简单地计算了我们训练后模型的准确率。 但是，请注意，我们在上面传递给此函数的`net`是`TrainerNet`的实例，因此，正向传播以透明方式调用 RPC。
+
+```py
+def get_accuracy(test_loader, model):
+    model.eval()
+    correct_sum = 0
+    # Use GPU to evaluate if possible
+    device = torch.device("cuda:0" if model.num_gpus > 0
+        and torch.cuda.is_available() else "cpu")
+    with torch.no_grad():
+        for i, (data, target) in enumerate(test_loader):
+            out = model(data, -1)
+            pred = out.argmax(dim=1, keepdim=True)
+            pred, target = pred.to(device), target.to(device)
+            correct = pred.eq(target.view_as(pred)).sum().item()
+            correct_sum += correct
+
+    print(f"Accuracy {correct_sum / len(test_loader.dataset)}")
+
+```
+
+接下来，类似于我们将`run_parameter_server`定义为负责初始化 RPC 的`ParameterServer`的主循环的方式，让我们为训练者定义一个类似的循环。 所不同的是，我们的训练器必须执行上面定义的训练循环：
+
+```py
+# Main loop for trainers.
+def run_worker(rank, world_size, num_gpus, train_loader, test_loader):
+    print(f"Worker rank {rank} initializing RPC")
+    rpc.init_rpc(
+        name=f"trainer_{rank}",
+        rank=rank,
+        world_size=world_size)
+
+    print(f"Worker {rank} done initializing RPC")
+
+    run_training_loop(rank, num_gpus, train_loader, test_loader)
+    rpc.shutdown()
+
+```
+
+请注意，类似于`run_parameter_server`，`rpc.shutdown()`默认情况下将等待该节点退出之前，所有训练器和`ParameterServer`的所有工作器都调用`rpc.shutdown()`。 这样可确保节点正常终止，并且没有一个节点脱机，而另一个节点则期望其联机。
+
+现在，我们已经完成了特定于训练器和参数服务器的代码，剩下的就是添加代码以启动训练器和参数服务器。 首先，我们必须接受适用于我们的参数服务器和训练器的各种参数。 `world_size`对应于将参加训练的节点总数，并且是所有训练器和参数服务器的总和。 我们还必须为每个单独的进程传递唯一的`rank`，从 0（将在其中运行单个参数服务器的地方）到`world_size - 1`。 `master_addr`和`master_port`是可用于标识等级 0 进程在何处运行的参数，并且各个节点将使用它们来相互发现。 要在本地测试此示例，只需将`localhost`和相同的`master_port`传递给所有产生的实例。 请注意，出于演示目的，此示例仅支持 0-2 个 GPU，尽管可以扩展该模式以使用其他 GPU。
+
+```py
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser(
+        description="Parameter-Server RPC based training")
+    parser.add_argument(
+        "--world_size",
+        type=int,
+        default=4,
+        help="""Total number of participating processes. Should be the sum of
+        master node and all training nodes.""")
+    parser.add_argument(
+        "rank",
+        type=int,
+        default=None,
+        help="Global rank of this process. Pass in 0 for master.")
+    parser.add_argument(
+        "num_gpus",
+        type=int,
+        default=0,
+        help="""Number of GPUs to use for training, Currently supports between 0
+         and 2 GPUs. Note that this argument will be passed to the parameter servers.""")
+    parser.add_argument(
+        "--master_addr",
+        type=str,
+        default="localhost",
+        help="""Address of master, will default to localhost if not provided.
+        Master must be able to accept network traffic on the address + port.""")
+    parser.add_argument(
+        "--master_port",
+        type=str,
+        default="29500",
+        help="""Port that master is listening on, will default to 29500 if not
+        provided. Master must be able to accept network traffic on the host and port.""")
+
+    args = parser.parse_args()
+    assert args.rank is not None, "must provide rank argument."
+    assert args.num_gpus <= 3, f"Only 0-2 GPUs currently supported (got {args.num_gpus})."
+    os.environ['MASTER_ADDR'] = args.master_addr
+    os.environ["MASTER_PORT"] = args.master_port
+
+```
+
+现在，我们将根据命令行参数创建一个与参数服务器或训练器相对应的过程。 如果传入的等级为 0，我们将创建一个`ParameterServer`，否则，将创建一个`TrainerNet`。 请注意，我们正在使用`torch.multiprocessing`启动与我们要执行的函数相对应的子进程，并使用`p.join()`从主线程等待该进程完成。 在初始化训练器的情况下，我们还使用 PyTorch 的[数据加载器](https://pytorch.org/docs/stable/data.html)来指定 MNIST 数据集上的训练和测试数据加载器。
+
+```py
+processes = []
+world_size = args.world_size
+if args.rank == 0:
+    p = mp.Process(target=run_parameter_server, args=(0, world_size))
+    p.start()
+    processes.append(p)
+else:
+    # Get data to train on
+    train_loader = torch.utils.data.DataLoader(
+        datasets.MNIST('../data', train=True, download=True,
+                       transform=transforms.Compose([
+                           transforms.ToTensor(),
+                           transforms.Normalize((0.1307,), (0.3081,))
+                       ])),
+        batch_size=32, shuffle=True,)
+    test_loader = torch.utils.data.DataLoader(
+        datasets.MNIST(
+            '../data',
+            train=False,
+            transform=transforms.Compose([
+                    transforms.ToTensor(),
+                    transforms.Normalize((0.1307,), (0.3081,))
+                        ])),
+        batch_size=32,
+        shuffle=True,
+    )
+    # start training worker on this node
+    p = mp.Process(
+        target=run_worker,
+        args=(
+            args.rank,
+            world_size, args.num_gpus,
+            train_loader,
+            test_loader))
+    p.start()
+    processes.append(p)
+
+for p in processes:
+    p.join()
+
+```
+
+要在本地运行示例，请在单独的终端窗口中为服务器和要生成的每个工作程序运行以下命令工作程序：`python rpc_parameter_server.py --world_size=WORLD_SIZE --rank=RANK`。 例如，对于世界大小为 2 的主节点，命令为`python rpc_parameter_server.py --world_size=2 --rank=0`。 然后可以在单独的窗口中使用命令`python rpc_parameter_server.py --world_size=2 --rank=1`启动训练器，这将开始使用一台服务器和一台训练器进行训练。 请注意，本教程假定使用 0 到 2 个 GPU 进行训练，并且可以通过将`--num_gpus=N`传递到训练脚本中来配置此参数。
+
+您可以传入命令行参数`--master_addr=ADDRESS`和`--master_port=PORT`来指示主工作器正在监听的地址和端口，例如，以测试在其他机器上运行训练者和主节点的功能。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/66.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/66.md
new file mode 100644
index 00000000..e397964f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/66.md
@@ -0,0 +1,292 @@
+# 使用 RPC 的分布式管道并行化
+
+> 原文：<https://pytorch.org/tutorials/intermediate/dist_pipeline_parallel_tutorial.html>
+
+**作者**：[Shen Li](https://mrshenli.github.io/)
+
+先决条件：
+
+*   [PyTorch 分布式概述](../beginner/dist_overview.html)
+*   [单机模型并行最佳实践](https://pytorch.org/tutorials/intermediate/model_parallel_tutorial.html)
+*   [分布式 RPC 框架](https://pytorch.org/tutorials/intermediate/rpc_tutorial.html)入门
+*   RRef 辅助函数： [`RRef.rpc_sync()`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.RRef.rpc_sync)， [`RRef.rpc_async()`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.RRef.rpc_async)和 [`RRef.remote()`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.RRef.remote)
+
+本教程使用 Resnet50 模型来演示如何使用[`torch.distributed.rpc`](https://pytorch.org/docs/master/rpc.html) API 实现分布式管道并行性。 可以将其视为[单机模型并行最佳实践](model_parallel_tutorial.html)中讨论的多 GPU 管道并行性的分布式对应物。
+
+注意
+
+本教程需要 PyTorch v1.6.0 或更高版本。
+
+注意
+
+本教程的完整源代码可以在[`pytorch/examples`](https://github.com/pytorch/examples/tree/master/distributed/rpc/pipeline)中找到。
+
+## 基础知识
+
+上一教程[分布式 RPC 框架入门](rpc_tutorial.html)显示了如何使用[`torch.distributed.rpc`](https://pytorch.org/docs/master/rpc.html)为 RNN 模型实现分布式模型并行性。 该教程使用一个 GPU 来托管`EmbeddingTable`，并且提供的代码可以正常工作。 但是，如果模型驻留在多个 GPU 上，则将需要一些额外的步骤来增加所有 GPU 的摊销利用率。 管道并行性是在这种情况下可以提供帮助的一种范例。
+
+在本教程中，我们使用`ResNet50`作为示例模型，[单机模型并行最佳实践](model_parallel_tutorial.html)教程也使用了该模型。 类似地，`ResNet50`模型被分为两个碎片，输入批量被划分为多个拆分，并以流水线方式馈入两个模型碎片。 区别在于，本教程将调用异步 RPC，而不是使用 CUDA 流来并行执行。 因此，本教程中介绍的解决方案也可以跨计算机边界使用。 本教程的其余部分分四个步骤介绍了实现。
+
+## 第 1 步：对 ResNet50 模型进行分片
+
+这是在两个模型分片中实现`ResNet50`的准备步骤。 以下代码是从`torchvision`中的 [ResNet 实现](https://github.com/pytorch/vision/blob/7c077f6a986f05383bcb86b535aedb5a63dd5c4b/torchvision/models/resnet.py#L124)中借用的。 `ResNetBase`模块包含两个 ResNet 碎片的通用构件和属性。
+
+```py
+import threading
+
+import torch
+import torch.nn as nn
+
+from torchvision.models.resnet import Bottleneck
+
+num_classes = 1000
+
+def conv1x1(in_planes, out_planes, stride=1):
+    return nn.Conv2d(in_planes, out_planes, kernel_size=1, stride=stride, bias=False)
+
+class ResNetBase(nn.Module):
+    def __init__(self, block, inplanes, num_classes=1000,
+                groups=1, width_per_group=64, norm_layer=None):
+        super(ResNetBase, self).__init__()
+
+        self._lock = threading.Lock()
+        self._block = block
+        self._norm_layer = nn.BatchNorm2d
+        self.inplanes = inplanes
+        self.dilation = 1
+        self.groups = groups
+        self.base_width = width_per_group
+
+    def _make_layer(self, planes, blocks, stride=1):
+        norm_layer = self._norm_layer
+        downsample = None
+        previous_dilation = self.dilation
+        if stride != 1 or self.inplanes != planes * self._block.expansion:
+            downsample = nn.Sequential(
+                conv1x1(self.inplanes, planes * self._block.expansion, stride),
+                norm_layer(planes * self._block.expansion),
+            )
+
+        layers = []
+        layers.append(self._block(self.inplanes, planes, stride, downsample, self.groups,
+                                self.base_width, previous_dilation, norm_layer))
+        self.inplanes = planes * self._block.expansion
+        for _ in range(1, blocks):
+            layers.append(self._block(self.inplanes, planes, groups=self.groups,
+                                    base_width=self.base_width, dilation=self.dilation,
+                                    norm_layer=norm_layer))
+
+        return nn.Sequential(*layers)
+
+    def parameter_rrefs(self):
+        return [RRef(p) for p in self.parameters()]
+
+```
+
+现在，我们准备定义两个模型碎片。 对于构造器，我们只需将所有 ResNet50 层分为两部分，然后将每个部分移至提供的设备中。 两个分片的`forward`函数获取输入数据的`RRef`，在本地获取数据，然后将其移至所需的设备。 将所有层应用于输入后，它将输出移至 CPU 并返回。 这是因为当调用方和被调用方中的设备数量不匹配时，RPC API 要求张量驻留在 CPU 上，以避免无效的设备错误。
+
+```py
+class ResNetShard1(ResNetBase):
+    def __init__(self, device, *args, **kwargs):
+        super(ResNetShard1, self).__init__(
+            Bottleneck, 64, num_classes=num_classes, *args, **kwargs)
+
+        self.device = device
+        self.seq = nn.Sequential(
+            nn.Conv2d(3, self.inplanes, kernel_size=7, stride=2, padding=3, bias=False),
+            self._norm_layer(self.inplanes),
+            nn.ReLU(inplace=True),
+            nn.MaxPool2d(kernel_size=3, stride=2, padding=1),
+            self._make_layer(64, 3),
+            self._make_layer(128, 4, stride=2)
+        ).to(self.device)
+
+        for m in self.modules():
+            if isinstance(m, nn.Conv2d):
+                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
+            elif isinstance(m, nn.BatchNorm2d):
+                nn.init.constant_(m.weight, 1)
+                nn.init.constant_(m.bias, 0)
+
+    def forward(self, x_rref):
+        x = x_rref.to_here().to(self.device)
+        with self._lock:
+            out =  self.seq(x)
+        return out.cpu()
+
+class ResNetShard2(ResNetBase):
+    def __init__(self, device, *args, **kwargs):
+        super(ResNetShard2, self).__init__(
+            Bottleneck, 512, num_classes=num_classes, *args, **kwargs)
+
+        self.device = device
+        self.seq = nn.Sequential(
+            self._make_layer(256, 6, stride=2),
+            self._make_layer(512, 3, stride=2),
+            nn.AdaptiveAvgPool2d((1, 1)),
+        ).to(self.device)
+
+        self.fc =  nn.Linear(512 * self._block.expansion, num_classes).to(self.device)
+
+    def forward(self, x_rref):
+        x = x_rref.to_here().to(self.device)
+        with self._lock:
+            out = self.fc(torch.flatten(self.seq(x), 1))
+        return out.cpu()
+
+```
+
+## 第 2 步：将 ResNet50 模型片段拼接到一个模块中
+
+然后，我们创建一个`DistResNet50`模块来组装两个分片并实现流水线并行逻辑。 在构造器中，我们使用两个`rpc.remote`调用分别将两个分片放在两个不同的 RPC 工作器上，并保持`RRef`到两个模型部分，以便可以在正向传播中引用它们。 `forward`函数将输入批量分为多个微批量，并将这些微批量以流水线方式馈送到两个模型部件。 它首先使用`rpc.remote`调用将第一个分片应用于微批量，然后将返回的中间输出`RRef`转发到第二个模型分片。 之后，它将收集所有微输出的`Future`，并在循环后等待所有它们。 请注意，`remote()`和`rpc_async()`都立即返回并异步运行。 因此，整个循环是非阻塞的，并将同时启动多个 RPC。 中间输出`y_rref`保留了两个模型零件上一个微批量的执行顺序。 微批量的执行顺序无关紧要。 最后，正向函数将所有微批量的输出连接到一个单一的输出张量中并返回。 `parameter_rrefs`函数是简化分布式优化器构造的助手，将在以后使用。
+
+```py
+class DistResNet50(nn.Module):
+    def __init__(self, num_split, workers, *args, **kwargs):
+        super(DistResNet50, self).__init__()
+
+        self.num_split = num_split
+
+        # Put the first part of the ResNet50 on workers[0]
+        self.p1_rref = rpc.remote(
+            workers[0],
+            ResNetShard1,
+            args = ("cuda:0",) + args,
+            kwargs = kwargs
+        )
+
+        # Put the second part of the ResNet50 on workers[1]
+        self.p2_rref = rpc.remote(
+            workers[1],
+            ResNetShard2,
+            args = ("cuda:1",) + args,
+            kwargs = kwargs
+        )
+
+    def forward(self, xs):
+        out_futures = []
+        for x in iter(xs.split(self.split_size, dim=0)):
+            x_rref = RRef(x)
+            y_rref = self.p1_rref.remote().forward(x_rref)
+            z_fut = self.p2_rref.rpc_async().forward(y_rref)
+            out_futures.append(z_fut)
+
+        return torch.cat(torch.futures.wait_all(out_futures))
+
+    def parameter_rrefs(self):
+        remote_params = []
+        remote_params.extend(self.p1_rref.remote().parameter_rrefs().to_here())
+        remote_params.extend(self.p2_rref.remote().parameter_rrefs().to_here())
+        return remote_params
+
+```
+
+## 步骤 3：定义训练循环
+
+定义模型后，让我们实现训练循环。 我们使用专门的“主”工作器来准备随机输入和标签，并控制分布式反向传递和分布式优化器步骤。 它首先创建`DistResNet50`模块的实例。 它指定每个批量的微批数量，并提供两个 RPC 工作程序的名称（即`worker1`和`worker2`）。 然后，它定义损失函数，并使用`parameter_rrefs()`帮助器创建`DistributedOptimizer`以获取参数`RRefs`的列表。 然后，主训练循环与常规本地训练非常相似，除了它使用`dist_autograd`向后启动并为反向和优化器`step()`提供`context_id`之外。
+
+```py
+import torch.distributed.autograd as dist_autograd
+import torch.optim as optim
+from torch.distributed.optim import DistributedOptimizer
+
+num_batches = 3
+batch_size = 120
+image_w = 128
+image_h = 128
+
+def run_master(num_split):
+    # put the two model parts on worker1 and worker2 respectively
+    model = DistResNet50(num_split, ["worker1", "worker2"])
+    loss_fn = nn.MSELoss()
+    opt = DistributedOptimizer(
+        optim.SGD,
+        model.parameter_rrefs(),
+        lr=0.05,
+    )
+
+    one_hot_indices = torch.LongTensor(batch_size) \
+                        .random_(0, num_classes) \
+                        .view(batch_size, 1)
+
+    for i in range(num_batches):
+        print(f"Processing batch {i}")
+        # generate random inputs and labels
+        inputs = torch.randn(batch_size, 3, image_w, image_h)
+        labels = torch.zeros(batch_size, num_classes) \
+                    .scatter_(1, one_hot_indices, 1)
+
+        with dist_autograd.context() as context_id:
+            outputs = model(inputs)
+            dist_autograd.backward(context_id, [loss_fn(outputs, labels)])
+            opt.step(context_id)
+
+```
+
+## 第 4 步：启动 RPC 进程
+
+最后，下面的代码显示了所有进程的目标函数。 主要逻辑在`run_master`中定义。 工作器被动地等待主服务器发出的命令，因此只需运行`init_rpc`和`shutdown`即可，其中默认情况下`shutdown`会阻塞，直到所有 RPC 参与者都完成。
+
+```py
+import os
+import time
+
+import torch.multiprocessing as mp
+
+def run_worker(rank, world_size, num_split):
+    os.environ['MASTER_ADDR'] = 'localhost'
+    os.environ['MASTER_PORT'] = '29500'
+    options = rpc.TensorPipeRpcBackendOptions(num_worker_threads=128)
+
+    if rank == 0:
+        rpc.init_rpc(
+            "master",
+            rank=rank,
+            world_size=world_size,
+            rpc_backend_options=options
+        )
+        run_master(num_split)
+    else:
+        rpc.init_rpc(
+            f"worker{rank}",
+            rank=rank,
+            world_size=world_size,
+            rpc_backend_options=options
+        )
+        pass
+
+    # block until all rpcs finish
+    rpc.shutdown()
+
+if __name__=="__main__":
+    world_size = 3
+    for num_split in [1, 2, 4, 8]:
+        tik = time.time()
+        mp.spawn(run_worker, args=(world_size, num_split), nprocs=world_size, join=True)
+        tok = time.time()
+        print(f"number of splits = {num_split}, execution time = {tok - tik}")
+
+```
+
+下面的输出显示通过增加每批中的拆分数量而获得的加速。
+
+```py
+$ python main.py
+Processing batch 0
+Processing batch 1
+Processing batch 2
+number of splits = 1, execution time = 16.45062756538391
+Processing batch 0
+Processing batch 1
+Processing batch 2
+number of splits = 2, execution time = 12.329529762268066
+Processing batch 0
+Processing batch 1
+Processing batch 2
+number of splits = 4, execution time = 10.164430618286133
+Processing batch 0
+Processing batch 1
+Processing batch 2
+number of splits = 8, execution time = 9.076049566268921
+
+```
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/67.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/67.md
new file mode 100644
index 00000000..60d01b71
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/67.md
@@ -0,0 +1,393 @@
+# 使用异步执行实现批量 RPC 处理
+
+> 原文：<https://pytorch.org/tutorials/intermediate/rpc_async_execution.html>
+
+**作者**：[Shen Li](https://mrshenli.github.io/)
+
+先决条件：
+
+*   [PyTorch 分布式概述](../beginner/dist_overview.html)
+*   [分布式 RPC 框架](rpc_tutorial.html)入门
+*   [使用分布式 RPC 框架](rpc_param_server_tutorial.html)实现参数服务器
+*   [RPC 异步执行装饰器](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)
+
+本教程演示了如何使用[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)装饰器来构建批量 RPC 应用，该装饰器通过减少阻止的 RPC 线程数和合并被调用方上的 CUDA 操作来帮助加快训练速度。 这使用 TorchServer 的相同想法进行[批量推断](https://pytorch.org/serve/batch_inference_with_ts.html)。
+
+注意
+
+本教程需要 PyTorch v1.6.0 或更高版本。
+
+## 基础知识
+
+先前的教程显示了使用[`torch.distributed.rpc`](https://pytorch.org/docs/stable/rpc.html)构建分布式训练应用的步骤，但并未详细说明在处理 RPC 请求时被调用方发生的情况。 从 PyTorch v1.5 开始，每个 RPC 请求都会在被调用方上阻塞一个线程，以在该请求中执行该函数，直到该函数返回为止。 这适用于许多用例，但有一个警告。 如果用户函数例如通过嵌套 RPC 调用在 IO 上阻塞，或者例如在等待其他 RPC 请求解除阻塞的信号时阻塞，则被调用方上的 RPC 线程将必须空闲，直到 IO 完成或发生信令事件为止。 结果，RPC 被调用者可能使用了不必要的更多线程。 造成此问题的原因是 RPC 将用户函数视为黑盒，并且几乎不了解该函数会发生什么。 为了允许用户函数产生和释放 RPC 线程，需要向 RPC 系统提供更多提示。
+
+从 v1.6.0 开始，PyTorch 通过引入两个新概念来解决此问题：
+
+*   [`torch.futures.Future`](https://pytorch.org/docs/master/futures.html) 类型封装了异步执行，还支持安装回调函数。
+*   一个[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)装饰器，允许应用告诉被调用方目标函数将返回将来的函数，并且在执行期间可以暂停并产生多次。
+
+使用这两个工具，应用代码可以将用户函数分解为多个较小的函数，将它们作为`Future`对象上的回调链接在一起，然后返回包含最终结果的`Future`。 在被调用方，当获取`Future`对象时，它还将安装后续的 RPC 响应准备和通讯作为回调，这将在最终结果准备好时触发。 这样，被调用者不再需要阻塞一个线程并等待直到最终返回值准备就绪。 有关简单示例，请参考[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution) 的 API 文档。
+
+除了减少被调用方上的空闲线程数之外，这些工具还有助于使批量 RPC 处理更容易，更快捷。 本教程的以下两节演示了如何使用[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)装饰器来构建分布式批更新参数服务器和批量强化学习应用。
+
+## 批量更新参数服务器
+
+考虑具有一个参数服务器（PS）和多个训练器的同步参数服务器训练应用。 在此应用中，PS 保留参数并等待所有训练器报告坡度。 在每次迭代中，它都会等到收到所有训练者的梯度后，再一次更新所有参数。 下面的代码显示 PS 类的实现。 `update_and_fetch_model`方法是用`@rpc.functions.async_execution`装饰的，将由训练器调用。 每次调用都会返回一个`Future`对象，该对象将填充有更新的模型。 大多数训练器发起的调用仅将梯度累积到`.grad`字段，立即返回，并在 PS 上产生 RPC 线程。 最后到达的训练器将触发优化器步骤，并消耗所有先前报告的梯度。 然后，它使用更新的模型设置`future_model`，该模型又通过`Future`对象通知其他训练器的所有先前请求，并将更新后的模型发送给所有训练器。
+
+```py
+import threading
+import torchvision
+import torch
+import torch.distributed.rpc as rpc
+from torch import optim
+
+num_classes, batch_update_size = 30, 5
+
+class BatchUpdateParameterServer(object):
+    def __init__(self, batch_update_size=batch_update_size):
+        self.model = torchvision.models.resnet50(num_classes=num_classes)
+        self.lock = threading.Lock()
+        self.future_model = torch.futures.Future()
+        self.batch_update_size = batch_update_size
+        self.curr_update_size = 0
+        self.optimizer = optim.SGD(self.model.parameters(), lr=0.001, momentum=0.9)
+        for p in self.model.parameters():
+            p.grad = torch.zeros_like(p)
+
+    def get_model(self):
+        return self.model
+
+    @staticmethod
+    @rpc.functions.async_execution
+    def update_and_fetch_model(ps_rref, grads):
+        # Using the RRef to retrieve the local PS instance
+        self = ps_rref.local_value()
+        with self.lock:
+            self.curr_update_size += 1
+            # accumulate gradients into .grad field
+            for p, g in zip(self.model.parameters(), grads):
+                p.grad += g
+
+            # Save the current future_model and return it to make sure the
+            # returned Future object holds the correct model even if another
+            # thread modifies future_model before this thread returns.
+            fut = self.future_model
+
+            if self.curr_update_size >= self.batch_update_size:
+                # update the model
+                for p in self.model.parameters():
+                    p.grad /= self.batch_update_size
+                self.curr_update_size = 0
+                self.optimizer.step()
+                self.optimizer.zero_grad()
+                # by settiing the result on the Future object, all previous
+                # requests expecting this updated model will be notified and
+                # the their responses will be sent accordingly.
+                fut.set_result(self.model)
+                self.future_model = torch.futures.Future()
+
+        return fut
+
+```
+
+对于训练器，它们都使用来自 PS 的相同参数集进行初始化。 在每次迭代中，每位训练器首先进行前进和后退操作，以局部生成梯度。 然后，每个训练器都使用 RPC 向 PS 报告其梯度，并通过同一 RPC 请求的返回值取回更新的参数。 在训练器的实现中，目标函数是否标记有`@rpc.functions.async_execution`都没有关系。 训练器只需使用`rpc_sync`调用`update_and_fetch_model`，这会阻塞训练器，直到返回更新的模型。
+
+```py
+batch_size, image_w, image_h  = 20, 64, 64
+
+class Trainer(object):
+    def __init__(self, ps_rref):
+        self.ps_rref, self.loss_fn = ps_rref, torch.nn.MSELoss()
+        self.one_hot_indices = torch.LongTensor(batch_size) \
+                                    .random_(0, num_classes) \
+                                    .view(batch_size, 1)
+
+    def get_next_batch(self):
+        for _ in range(6):
+            inputs = torch.randn(batch_size, 3, image_w, image_h)
+            labels = torch.zeros(batch_size, num_classes) \
+                        .scatter_(1, self.one_hot_indices, 1)
+            yield inputs.cuda(), labels.cuda()
+
+    def train(self):
+        name = rpc.get_worker_info().name
+        # get initial model parameters
+        m = self.ps_rref.rpc_sync().get_model().cuda()
+        # start training
+        for inputs, labels in self.get_next_batch():
+            self.loss_fn(m(inputs), labels).backward()
+            m = rpc.rpc_sync(
+                self.ps_rref.owner(),
+                BatchUpdateParameterServer.update_and_fetch_model,
+                args=(self.ps_rref, [p.grad for p in m.cpu().parameters()]),
+            ).cuda()
+
+```
+
+在本教程中，我们将跳过启动多个进程的代码，有关完整实现，请参考[示例](https://github.com/pytorch/examples/tree/master/distributed/rpc)回购。 请注意，可以在没有[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)装饰器的情况下实现批量。 但是，这将需要在 PS 上阻塞更多的 RPC 线程，或者使用另一轮 RPC 来获取更新的模型，后者将增加代码的复杂性和通信开销。
+
+本节使用一个简单的参数服务器训练示例来说明如何使用[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)装饰器实现批量 RPC 应用。 在下一节中，我们将使用批量重新实现上一[分布式 RPC 框架](https://pytorch.org/tutorials/intermediate/rpc_tutorial.html)入门指南中的强化学习示例，并演示其对训练速度的影响。
+
+## 批量 CartPole 求解器
+
+本节以 [OpenAI Gym](https://gym.openai.com/) 中的 CartPole-v1 为例，说明批量 RPC 的性能影响。 请注意，我们的目标是演示[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)的用法，而不是构建最佳的 CartPole 求解器或解决大多数不同的 RL 问题，我们使用非常简单的策略和奖励计算策略，并将重点放在多观察者单智能体的批量 RPC 实现。 我们使用与前面的教程类似的`Policy`模型，如下所示。 与上一教程相比，不同之处在于其构造器使用了一个附加的`batch`参数来控制`F.softmax`的`dim`参数，因为进行批量时，`forward`函数中的`x`参数包含来自多个观察者的状态，因此尺寸需要适当更改。 其他所有内容保持不变。
+
+```py
+import argparse
+import torch.nn as nn
+import torch.nn.functional as F
+
+parser = argparse.ArgumentParser(description='PyTorch RPC Batch RL example')
+parser.add_argument('--gamma', type=float, default=1.0, metavar='G',
+                    help='discount factor (default: 1.0)')
+parser.add_argument('--seed', type=int, default=543, metavar='N',
+                    help='random seed (default: 543)')
+parser.add_argument('--num-episode', type=int, default=10, metavar='E',
+                    help='number of episodes (default: 10)')
+args = parser.parse_args()
+
+torch.manual_seed(args.seed)
+
+class Policy(nn.Module):
+    def __init__(self, batch=True):
+        super(Policy, self).__init__()
+        self.affine1 = nn.Linear(4, 128)
+        self.dropout = nn.Dropout(p=0.6)
+        self.affine2 = nn.Linear(128, 2)
+        self.dim = 2 if batch else 1
+
+    def forward(self, x):
+        x = self.affine1(x)
+        x = self.dropout(x)
+        x = F.relu(x)
+        action_scores = self.affine2(x)
+        return F.softmax(action_scores, dim=self.dim)
+
+```
+
+`Observer`的构造器也会相应地进行调整。 它还带有`batch`参数，该参数控制用于选择动作的`Agent`函数。 在批量模式下，它将调用`Agent`上的`select_action_batch`函数，该函数将很快出现，并且该函数将以[`@rpc.functions.async_execution`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.functions.async_execution)装饰。
+
+```py
+import gym
+import torch.distributed.rpc as rpc
+
+class Observer:
+    def __init__(self, batch=True):
+        self.id = rpc.get_worker_info().id - 1
+        self.env = gym.make('CartPole-v1')
+        self.env.seed(args.seed)
+        self.select_action = Agent.select_action_batch if batch else Agent.select_action
+
+```
+
+与之前的教程[分布式 RPC 框架入门](https://pytorch.org/tutorials/intermediate/rpc_tutorial.html)相比，观察者的行为略有不同。 它不会在环境停止时退出，而是始终在每个剧集中运行`n_steps`迭代。 当环境返回时，观察者只需重置环境并重新开始。 通过这种设计，智能体将从每个观察者那里收到固定数量的状态，因此可以将它们打包成固定大小的张量。 在每个步骤中，`Observer`使用 RPC 将其状态发送到`Agent`，并通过返回值获取操作。 在每个剧集的结尾，它将所有步骤的奖励返还给`Agent`。 注意，`Agent`将使用 RPC 调用此`run_episode`函数。 因此，此函数中的`rpc_sync`调用将是嵌套的 RPC 调用。 我们也可以将此函数标记为`@rpc.functions.async_execution`，以避免阻塞`Observer`上的一个线程。 但是，由于瓶颈是`Agent`而不是`Observer`，因此可以在`Observer`进程中阻塞一个线程。
+
+```py
+import torch
+
+class Observer:
+    ...
+
+    def run_episode(self, agent_rref, n_steps):
+        state, ep_reward = self.env.reset(), NUM_STEPS
+        rewards = torch.zeros(n_steps)
+        start_step = 0
+        for step in range(n_steps):
+            state = torch.from_numpy(state).float().unsqueeze(0)
+            # send the state to the agent to get an action
+            action = rpc.rpc_sync(
+                agent_rref.owner(),
+                self.select_action,
+                args=(agent_rref, self.id, state)
+            )
+
+            # apply the action to the environment, and get the reward
+            state, reward, done, _ = self.env.step(action)
+            rewards[step] = reward
+
+            if done or step + 1 >= n_steps:
+                curr_rewards = rewards[start_step:(step + 1)]
+                R = 0
+                for i in range(curr_rewards.numel() -1, -1, -1):
+                    R = curr_rewards[i] + args.gamma * R
+                    curr_rewards[i] = R
+                state = self.env.reset()
+                if start_step == 0:
+                    ep_reward = min(ep_reward, step - start_step + 1)
+                start_step = step + 1
+
+        return [rewards, ep_reward]
+
+```
+
+`Agent`的构造器还采用`batch`参数，该参数控制如何对动作概率进行批量。 在批量模式下，`saved_log_probs`包含一张张量列表，其中每个张量包含一个步骤中所有观察者的动作抢夺。 如果不进行批量，则`saved_log_probs`是字典，其中的键是观察者 ID，值是该观察者的动作概率列表。
+
+```py
+import threading
+from torch.distributed.rpc import RRef
+
+class Agent:
+    def __init__(self, world_size, batch=True):
+        self.ob_rrefs = []
+        self.agent_rref = RRef(self)
+        self.rewards = {}
+        self.policy = Policy(batch).cuda()
+        self.optimizer = optim.Adam(self.policy.parameters(), lr=1e-2)
+        self.running_reward = 0
+
+        for ob_rank in range(1, world_size):
+            ob_info = rpc.get_worker_info(OBSERVER_NAME.format(ob_rank))
+            self.ob_rrefs.append(rpc.remote(ob_info, Observer, args=(batch,)))
+            self.rewards[ob_info.id] = []
+
+        self.states = torch.zeros(len(self.ob_rrefs), 1, 4)
+        self.batch = batch
+        self.saved_log_probs = [] if batch else {k:[] for k in range(len(self.ob_rrefs))}
+        self.future_actions = torch.futures.Future()
+        self.lock = threading.Lock()
+        self.pending_states = len(self.ob_rrefs)
+
+```
+
+非批量`select_acion`只需运行状态抛出策略，保存动作概率，然后立即将动作返回给观察者。
+
+```py
+from torch.distributions import Categorical
+
+class Agent:
+    ...
+
+    @staticmethod
+    def select_action(agent_rref, ob_id, state):
+        self = agent_rref.local_value()
+        probs = self.policy(state.cuda())
+        m = Categorical(probs)
+        action = m.sample()
+        self.saved_log_probs[ob_id].append(m.log_prob(action))
+        return action.item()
+
+```
+
+使用批量时，状态以观察者 id 为行 ID 存储在 2D 张量`self.states`中。 然后，它通过将回调函数安装到批量生成的`self.future_actions` `Future`对象上来链接`Future`，该对象将使用使用该观察者 ID 索引的特定行进行填充。 最后到达的观察者一口气通过策略运行所有批量状态，并相应地设置`self.future_actions`。 发生这种情况时，将触发安装在`self.future_actions`上的所有回调函数，并使用它们的返回值来填充链接的`Future`对象，该对象进而通知`Agent`为所有先前的 RPC 请求准备和传达来自其他观察者的响应。
+
+```py
+class Agent:
+    ...
+
+    @staticmethod
+    @rpc.functions.async_execution
+    def select_action_batch(agent_rref, ob_id, state):
+        self = agent_rref.local_value()
+        self.states[ob_id].copy_(state)
+        future_action = self.future_actions.then(
+            lambda future_actions: future_actions.wait()[ob_id].item()
+        )
+
+        with self.lock:
+            self.pending_states -= 1
+            if self.pending_states == 0:
+                self.pending_states = len(self.ob_rrefs)
+                probs = self.policy(self.states.cuda())
+                m = Categorical(probs)
+                actions = m.sample()
+                self.saved_log_probs.append(m.log_prob(actions).t()[0])
+                future_actions = self.future_actions
+                self.future_actions = torch.futures.Future()
+                future_actions.set_result(actions.cpu())
+        return future_action
+
+```
+
+现在，让我们定义如何将不同的 RPC 函数结合在一起。 `Agent`控制每个剧集的执行。 它首先使用`rpc_async`在所有观察者上开始该剧集，并阻止将由观察者奖励填充的返还期货。 请注意，以下代码使用 RRef 帮助器`ob_rref.rpc_async()`在具有提供的参数的`ob_rref` RRef 的所有者上启动`run_episode`函数。 然后将保存的动作概率和返回的观察者奖励转换为期望的数据格式，并开始训练步骤。 最后，它将重置所有状态并返回当前剧集的奖励。 此函数是运行一集的入口。
+
+```py
+class Agent:
+    ...
+
+    def run_episode(self, n_steps=0):
+        futs = []
+        for ob_rref in self.ob_rrefs:
+            # make async RPC to kick off an episode on all observers
+            futs.append(ob_rref.rpc_async().run_episode(self.agent_rref, n_steps))
+
+        # wait until all obervers have finished this episode
+        rets = torch.futures.wait_all(futs)
+        rewards = torch.stack([ret[0] for ret in rets]).cuda().t()
+        ep_rewards = sum([ret[1] for ret in rets]) / len(rets)
+
+        # stack saved probs into one tensor
+        if self.batch:
+            probs = torch.stack(self.saved_log_probs)
+        else:
+            probs = [torch.stack(self.saved_log_probs[i]) for i in range(len(rets))]
+            probs = torch.stack(probs)
+
+        policy_loss = -probs * rewards / len(rets)
+        policy_loss.sum().backward()
+        self.optimizer.step()
+        self.optimizer.zero_grad()
+
+        # reset variables
+        self.saved_log_probs = [] if self.batch else {k:[] for k in range(len(self.ob_rrefs))}
+        self.states = torch.zeros(len(self.ob_rrefs), 1, 4)
+
+        # calculate running rewards
+        self.running_reward = 0.5 * ep_rewards + 0.5 * self.running_reward
+        return ep_rewards, self.running_reward
+
+```
+
+其余代码是正常的进程启动和日志记录，与其他 RPC 教程类似。 在本教程中，所有观察者都被动地等待来自智能体的命令。 有关完整的实现，请参考[示例](https://github.com/pytorch/examples/tree/master/distributed/rpc)回购。
+
+```py
+def run_worker(rank, world_size, n_episode, batch, print_log=True):
+    os.environ['MASTER_ADDR'] = 'localhost'
+    os.environ['MASTER_PORT'] = '29500'
+    if rank == 0:
+        # rank0 is the agent
+        rpc.init_rpc(AGENT_NAME, rank=rank, world_size=world_size)
+
+        agent = Agent(world_size, batch)
+        for i_episode in range(n_episode):
+            last_reward, running_reward = agent.run_episode(n_steps=NUM_STEPS)
+
+            if print_log:
+                print('Episode {}\tLast reward: {:.2f}\tAverage reward: {:.2f}'.format(
+                    i_episode, last_reward, running_reward))
+    else:
+        # other ranks are the observer
+        rpc.init_rpc(OBSERVER_NAME.format(rank), rank=rank, world_size=world_size)
+        # observers passively waiting for instructions from agents
+    rpc.shutdown()
+
+def main():
+    for world_size in range(2, 12):
+        delays = []
+        for batch in [True, False]:
+            tik = time.time()
+            mp.spawn(
+                run_worker,
+                args=(world_size, args.num_episode, batch),
+                nprocs=world_size,
+                join=True
+            )
+            tok = time.time()
+            delays.append(tok - tik)
+
+        print(f"{world_size}, {delays[0]}, {delays[1]}")
+
+if __name__ == '__main__':
+    main()
+
+```
+
+批量 RPC 有助于将操作推断合并为较少的 CUDA 操作，从而减少了摊销的开销。 上面的`main`函数使用不同数量的观察者（从 1 到 10）在批量和无批量模式下运行相同的代码。下图使用默认参数值绘制了不同世界大小的执行时间。 结果证实了我们的期望，即批量有助于加快训练速度。
+
+![](img/f5504c7ed93640f2bed4d2a606c015ba.png)
+
+## 了解更多
+
+*   [批量更新参数服务器的源代码](https://github.com/pytorch/examples/blob/master/distributed/rpc/batch/parameter_server.py)
+*   [批量 CartPole 求解器](https://github.com/pytorch/examples/blob/master/distributed/rpc/batch/reinforce.py)
+*   [分布式 Autograd](https://pytorch.org/docs/master/rpc.html#distributed-autograd-framework)
+*   [分布式管道并行性](dist_pipeline_parallel_tutorial.html)
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/68.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/68.md
new file mode 100644
index 00000000..5cadd0cc
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/68.md
@@ -0,0 +1,234 @@
+# 将分布式`DataParallel`与分布式 RPC 框架相结合
+
+> 原文：<https://pytorch.org/tutorials/advanced/rpc_ddp_tutorial.html>
+
+**作者**： [Pritam Damania](https://github.com/pritamdamania87)
+
+本教程使用一个简单的示例演示如何将[`DistributedDataParallel`](https://pytorch.org/docs/stable/nn.html#torch.nn.parallel.DistributedDataParallel)（DDP）与[分布式 RPC 框架](https://pytorch.org/docs/master/rpc.html)结合使用，以将分布式数据并行性与分布式模型并行性结合在一起，以训练简单模型。 该示例的源代码可以在中找到[。](https://github.com/pytorch/examples/tree/master/distributed/rpc/ddp_rpc)
+
+先前的教程[分布式数据并行入门](https://pytorch.org/tutorials/intermediate/ddp_tutorial.html)和[分布式 RPC 框架入门](https://pytorch.org/tutorials/intermediate/rpc_tutorial.html)分别描述了如何执行分布式数据并行训练和分布式模型并行训练。 虽然，有几种训练范例，您可能想将这两种技术结合起来。 例如：
+
+1.  如果我们的模型具有稀疏部分（较大的嵌入表）和密集部分（FC 层），则可能需要将嵌入表放在参数服务器上，并使用[`DistributedDataParallel`](https://pytorch.org/docs/stable/nn.html#torch.nn.parallel.DistributedDataParallel)。 [分布式 RPC 框架](https://pytorch.org/docs/master/rpc.html)可用于在参数服务器上执行嵌入查找。
+2.  如 [PipeDream](https://arxiv.org/abs/1806.03377) 论文中所述，启用混合并行性。 我们可以使用[分布式 RPC 框架](https://pytorch.org/docs/master/rpc.html)在多个工作程序之间流水线化模型的各个阶段，并使用[`DistributedDataParallel`](https://pytorch.org/docs/stable/nn.html#torch.nn.parallel.DistributedDataParallel)复制每个阶段（如果需要）。
+
+在本教程中，我们将介绍上述情况 1。 我们的设置中共有 4 个工作器，如下所示：
+
+1.  1 个主机，负责在参数服务器上创建嵌入表（`nn.EmbeddingBag`）。 主人还会在两个教练上驱动训练循环。
+2.  1 参数服务器，它基本上将嵌入表保存在内存中，并响应来自主服务器和训练器的 RPC。
+3.  2 个训练器，用于存储 FC 层（线性线性），并使用[`DistributedDataParallel`](https://pytorch.org/docs/stable/nn.html#torch.nn.parallel.DistributedDataParallel)在它们之间进行复制。 训练人员还负责执行前进，后退和优化器步骤。
+
+整个训练过程执行如下：
+
+1.  主服务器在参数服务器上创建一个嵌入表，并为其保留一个 [RRef](https://pytorch.org/docs/master/rpc.html#rref)。
+2.  然后，主持人开始在训练器上进行训练循环，并将嵌入表 RRef 传递给训练器。
+3.  训练器创建一个`HybridModel`，该`HybridModel`首先使用主机提供的嵌入表 RRef 执行嵌入查找，然后执行包装在 DDP 中的 FC 层。
+4.  训练者执行模型的正向传播，并使用[分布式 Autograd](https://pytorch.org/docs/master/rpc.html#distributed-autograd-framework) 使用损失执行反向传递。
+5.  作为向后遍历的一部分，将首先计算 FC 层的梯度，并通过 DDP 中的`allreduce`将其同步到所有训练器。
+6.  接下来，分布式 Autograd 将梯度传播到参数服务器，在该服务器中更新嵌入表的梯度。
+7.  最后，[分布式优化器](https://pytorch.org/docs/master/rpc.html#module-torch.distributed.optim)用于更新所有参数。
+
+注意
+
+如果您将 DDP 和 RPC 结合使用，则应始终使用[分布式 Autograd](https://pytorch.org/docs/master/rpc.html#distributed-autograd-framework) 进行反向传播。
+
+现在，让我们详细介绍每个部分。 首先，我们需要先设置所有工作器，然后才能进行任何训练。 我们创建 4 个过程，使等级 0 和 1 是我们的训练器，等级 2 是主控制器，等级 3 是参数服务器。
+
+我们使用 TCP init_method 在所有 4 个工作器上初始化 RPC 框架。 RPC 初始化完成后，主服务器使用[`rpc.remote`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.remote)在参数服务器上创建[`EmbeddingBag`](https://pytorch.org/docs/master/generated/torch.nn.EmbeddingBag.html)。 然后，主控制器通过使用[`rpc_async`](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.rpc_async)在每个教练上调用`_run_trainer`，循环遍历每个教练并开始训练循环。 最后，主人在退出之前等待所有训练结束。
+
+训练器首先使用[`init_process_group`](https://pytorch.org/docs/stable/distributed.html#torch.distributed.init_process_group)为`world_size = 2`的 DDP 初始化`ProcessGroup`（对于两个训练器）。 接下来，他们使用 TCP `init_method`初始化 RPC 框架。 请注意，RPC 初始化和`ProcessGroup`初始化中的端口不同。 这是为了避免两个框架的初始化之间的端口冲突。 初始化完成后，训练器只需等待主服务器的`_run_trainer` RPC。
+
+参数服务器只是初始化 RPC 框架，并等待来自训练者和主服务器的 RPC。
+
+```py
+def run_worker(rank, world_size):
+    r"""
+    A wrapper function that initializes RPC, calls the function, and shuts down
+    RPC.
+    """
+    os.environ['MASTER_ADDR'] = 'localhost'
+    os.environ['MASTER_PORT'] = '29500'
+
+    rpc_backend_options = TensorPipeRpcBackendOptions()
+    rpc_backend_options.init_method='tcp://localhost:29501'
+
+    # Rank 2 is master, 3 is ps and 0 and 1 are trainers.
+    if rank == 2:
+        rpc.init_rpc(
+                "master",
+                rank=rank,
+                world_size=world_size,
+                rpc_backend_options=rpc_backend_options)
+
+        # Build the embedding table on the ps.
+        emb_rref = rpc.remote(
+                "ps",
+                torch.nn.EmbeddingBag,
+                args=(NUM_EMBEDDINGS, EMBEDDING_DIM),
+                kwargs={"mode": "sum"})
+
+        # Run the training loop on trainers.
+        futs = []
+        for trainer_rank in [0, 1]:
+            trainer_name = "trainer{}".format(trainer_rank)
+            fut = rpc.rpc_async(
+                    trainer_name, _run_trainer, args=(emb_rref, rank))
+            futs.append(fut)
+
+        # Wait for all training to finish.
+        for fut in futs:
+            fut.wait()
+    elif rank <= 1:
+        # Initialize process group for Distributed DataParallel on trainers.
+        dist.init_process_group(
+                backend="gloo", rank=rank, world_size=2)
+
+        # Initialize RPC.
+        trainer_name = "trainer{}".format(rank)
+        rpc.init_rpc(
+                trainer_name,
+                rank=rank,
+                world_size=world_size,
+                rpc_backend_options=rpc_backend_options)
+
+        # Trainer just waits for RPCs from master.
+    else:
+        rpc.init_rpc(
+                "ps",
+                rank=rank,
+                world_size=world_size,
+                rpc_backend_options=rpc_backend_options)
+        # parameter server do nothing
+        pass
+
+    # block until all rpcs finish
+    rpc.shutdown()
+
+if __name__=="__main__":
+    # 2 trainers, 1 parameter server, 1 master.
+    world_size = 4
+    mp.spawn(run_worker, args=(world_size, ), nprocs=world_size, join=True)
+
+```
+
+在讨论训练器的详细信息之前，让我们介绍一下训练器使用的`HybridModel`。 如下所述，使用对参数服务器上嵌入表（`emb_rref`）的 RRef 和用于 DDP 的`device`初始化`HybridModel`。 模型的初始化在 DDP 中包装了[`nn.Linear`](https://pytorch.org/docs/master/generated/torch.nn.Linear.html)层，以在所有训练器之间复制和同步该层。
+
+该模型的前进方法非常简单。 它使用 [RRef 帮助程序](https://pytorch.org/docs/master/rpc.html#torch.distributed.rpc.RRef.rpc_sync)在参数服务器上执行嵌入查找，并将其输出传递到 FC 层。
+
+```py
+class HybridModel(torch.nn.Module):
+    r"""
+    The model consists of a sparse part and a dense part. The dense part is an
+    nn.Linear module that is replicated across all trainers using
+    DistributedDataParallel. The sparse part is an nn.EmbeddingBag that is
+    stored on the parameter server.
+
+    The model holds a Remote Reference to the embedding table on the parameter
+    server.
+    """
+
+    def __init__(self, emb_rref, device):
+        super(HybridModel, self).__init__()
+        self.emb_rref = emb_rref
+        self.fc = DDP(torch.nn.Linear(16, 8).cuda(device), device_ids=[device])
+        self.device = device
+
+    def forward(self, indices, offsets):
+        emb_lookup = self.emb_rref.rpc_sync().forward(indices, offsets)
+        return self.fc(emb_lookup.cuda(self.device))
+
+```
+
+接下来，让我们看看训练器上的设置。 训练者首先使用对参数服务器上嵌入表的 RRef 及其自身等级创建上述`HybridModel`。
+
+现在，我们需要检索要使用[`DistributedOptimizer`](https://pytorch.org/docs/master/rpc.html#module-torch.distributed.optim)优化的所有参数的 RRef 列表。 为了从参数服务器中检索嵌入表的参数，我们定义了一个简单的辅助函数`_retrieve_embedding_parameters`，该函数基本上遍历了嵌入表的所有参数并返回 RRef 的列表。 训练器通过 RPC 在参数服务器上调用此方法，以接收所需参数的 RRef 列表。 由于`DistributedOptimizer`始终将需要优化的参数的 RRef 列表，因此我们甚至需要为 FC 层的本地参数创建 RRef。 这是通过遍历`model.parameters()`，为每个参数创建 RRef 并将其附加到列表来完成的。 请注意，`model.parameters()`仅返回本地参数，不包含`emb_rref`。
+
+最后，我们使用所有 RRef 创建我们的`DistributedOptimizer`，并定义`CrossEntropyLoss`函数。
+
+```py
+def _retrieve_embedding_parameters(emb_rref):
+    param_rrefs = []
+    for param in emb_rref.local_value().parameters():
+        param_rrefs.append(RRef(param))
+    return param_rrefs
+
+def _run_trainer(emb_rref, rank):
+    r"""
+    Each trainer runs a forward pass which involves an embedding lookup on the
+    parameter server and running nn.Linear locally. During the backward pass,
+    DDP is responsible for aggregating the gradients for the dense part
+    (nn.Linear) and distributed autograd ensures gradients updates are
+    propagated to the parameter server.
+    """
+
+    # Setup the model.
+    model = HybridModel(emb_rref, rank)
+
+    # Retrieve all model parameters as rrefs for DistributedOptimizer.
+
+    # Retrieve parameters for embedding table.
+    model_parameter_rrefs = rpc.rpc_sync(
+            "ps", _retrieve_embedding_parameters, args=(emb_rref,))
+
+    # model.parameters() only includes local parameters.
+    for param in model.parameters():
+        model_parameter_rrefs.append(RRef(param))
+
+    # Setup distributed optimizer
+    opt = DistributedOptimizer(
+        optim.SGD,
+        model_parameter_rrefs,
+        lr=0.05,
+    )
+
+    criterion = torch.nn.CrossEntropyLoss()
+
+```
+
+现在，我们准备介绍在每个训练器上运行的主要训练循环。 `get_next_batch`只是一个辅助函数，用于生成随机输入和训练目标。 我们针对多个周期和每个批量运行训练循环：
+
+1.  为分布式 Autograd 设置[分布式 Autograd 上下文](https://pytorch.org/docs/master/rpc.html#torch.distributed.autograd.context)。
+2.  运行模型的正向传播并检索其输出。
+3.  使用损失函数，根据我们的输出和目标计算损失。
+4.  使用分布式 Autograd 使用损失执行分布式反向传递。
+5.  最后，运行“分布式优化器”步骤以优化所有参数。
+
+```py
+    def get_next_batch(rank):
+        for _ in range(10):
+            num_indices = random.randint(20, 50)
+            indices = torch.LongTensor(num_indices).random_(0, NUM_EMBEDDINGS)
+
+            # Generate offsets.
+            offsets = []
+            start = 0
+            batch_size = 0
+            while start < num_indices:
+                offsets.append(start)
+                start += random.randint(1, 10)
+                batch_size += 1
+
+            offsets_tensor = torch.LongTensor(offsets)
+            target = torch.LongTensor(batch_size).random_(8).cuda(rank)
+            yield indices, offsets_tensor, target
+
+    # Train for 100 epochs
+    for epoch in range(100):
+        # create distributed autograd context
+        for indices, offsets, target in get_next_batch(rank):
+            with dist_autograd.context() as context_id:
+                output = model(indices, offsets)
+                loss = criterion(output, target)
+
+                # Run distributed backward pass
+                dist_autograd.backward(context_id, [loss])
+
+                # Tun distributed optimizer
+                opt.step(context_id)
+
+                # Not necessary to zero grads as each iteration creates a different
+                # distributed autograd context which hosts different grads
+        print("Training done for epoch {}".format(epoch))
+
+```
+
+[整个示例的源代码可以在这里找到](https://github.com/pytorch/examples/tree/master/distributed/rpc/ddp_rpc)。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/README.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/README.md
new file mode 100644
index 00000000..cd349818
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/README.md
@@ -0,0 +1,35 @@
+# PyTorch 中文官方教程 1.7
+
+> 原文：[WELCOME TO PYTORCH TUTORIALS](https://pytorch.org/tutorials/)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/SUMMARY.md
new file mode 100644
index 00000000..96763102
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/SUMMARY.md
@@ -0,0 +1,69 @@
++   [PyTorch 中文官方教程 1.7](README.md)
++   [学习 PyTorch](01.md)
+    +   [PyTorch 深度学习：60 分钟的突击](02.md)
+        +   [张量](03.md)
+        +   [`torch.autograd`的简要介绍](04.md)
+        +   [神经网络](05.md)
+        +   [训练分类器](06.md)
+    +   [通过示例学习 PyTorch](07.md)
+        +   [热身：NumPy](08.md)
+        +   [PyTorch：张量](09.md)
+        +   [PyTorch：张量和 Autograd](10.md)
+        +   [PyTorch：定义新的 Autograd 函数](11.md)
+        +   [PyTorch：`nn`](12.md)
+        +   [PyTorch：`optim`](13.md)
+        +   [PyTorch：自定义`nn`模块](14.md)
+        +   [PyTorch：控制流 + 权重共享](15.md)
+    +   [`torch.nn`到底是什么？](16.md)
+    +   [使用 TensorBoard 可视化模型，数据和训练](17.md)
++   [图片/视频](18.md)
+    +   [`torchvision`对象检测微调教程](19.md)
+    +   [计算机视觉的迁移学习教程](20.md)
+    +   [对抗示例生成](21.md)
+    +   [DCGAN 教程](22.md)
++   [音频](23.md)
+    +   [音频 I/O 和`torchaudio`的预处理](24.md)
+    +   [使用`torchaudio`的语音命令识别](25.md)
++   [文本](26.md)
+    +   [使用`nn.Transformer`和`torchtext`的序列到序列建模](27.md)
+    +   [从零开始的 NLP：使用字符级 RNN 分类名称](28.md)
+    +   [从零开始的 NLP：使用字符级 RNN 生成名称](29.md)
+    +   [从零开始的 NLP：使用序列到序列网络和注意力的翻译](30.md)
+    +   [使用`torchtext`的文本分类](31.md)
+    +   [`torchtext`语言翻译](32.md)
++   [强化学习](33.md)
+    +   [强化学习（DQN）教程](34.md)
+    +   [训练玩马里奥的 RL 智能体](35.md)
++   [在生产中部署 PyTorch 模型](36.md)
+    +   [通过使用 Flask 的 REST API 在 Python 中部署 PyTorch](37.md)
+    +   [TorchScript 简介](38.md)
+    +   [在 C++ 中加载 TorchScript 模型](39.md)
+    +   [将模型从 PyTorch 导出到 ONNX 并使用 ONNX 运行时运行它（可选）](40.md)
++   [前端 API](41.md)
+    +   [PyTorch 中的命名张量简介（原型）](42.md)
+    +   [PyTorch 中通道在最后的内存格式（beta）](43.md)
+    +   [使用 PyTorch C++ 前端](44.md)
+    +   [自定义 C++ 和 CUDA 扩展](45.md)
+    +   [使用自定义 C++ 运算符扩展 TorchScript](46.md)
+    +   [使用自定义 C++ 类扩展 TorchScript](47.md)
+    +   [TorchScript 中的动态并行性](48.md)
+    +   [C++ 前端中的 Autograd](49.md)
+    +   [在 C++ 中注册调度运算符](50.md)
++   [模型优化](51.md)
+    +   [分析您的 PyTorch 模块](52.md)
+    +   [使用 Ray Tune 的超参数调整](53.md)
+    +   [模型剪裁教程](54.md)
+    +   [LSTM 单词语言模型上的动态量化（beta）](55.md)
+    +   [BERT 上的动态量化（Beta）](56.md)
+    +   [PyTorch 中使用 Eager 模式的静态量化（beta）](57.md)
+    +   [计算机视觉的量化迁移学习教程（beta）](58.md)
++   [并行和分布式训练](59.md)
+    +   [PyTorch 分布式概述](60.md)
+    +   [单机模型并行最佳实践](61.md)
+    +   [分布式数据并行入门](62.md)
+    +   [用 PyTorch 编写分布式应用](63.md)
+    +   [分布式 RPC 框架入门](64.md)
+    +   [使用分布式 RPC 框架实现参数服务器](65.md)
+    +   [使用 RPC 的分布式管道并行化](66.md)
+    +   [使用异步执行实现批量 RPC 处理](67.md)
+    +   [将分布式`DataParallel`与分布式 RPC 框架相结合](68.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/029a9d26725997aae97e9e3f6f10067f.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/029a9d26725997aae97e9e3f6f10067f.png
new file mode 100644
index 00000000..f6edf4ad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/029a9d26725997aae97e9e3f6f10067f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/049e79b05a41598709a2aeef166e4a2a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/049e79b05a41598709a2aeef166e4a2a.png
new file mode 100644
index 00000000..0adfff1e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/049e79b05a41598709a2aeef166e4a2a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/04ee335faf821b337dba0c4d7ccb0b67.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/04ee335faf821b337dba0c4d7ccb0b67.png
new file mode 100644
index 00000000..81f76fc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/04ee335faf821b337dba0c4d7ccb0b67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/04fb3a8ed8e63cf7cffb5f29224decca.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/04fb3a8ed8e63cf7cffb5f29224decca.png
new file mode 100644
index 00000000..6810d2f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/04fb3a8ed8e63cf7cffb5f29224decca.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/063cdb1f0b70bc4c83494b9819c6a3f5.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/063cdb1f0b70bc4c83494b9819c6a3f5.png
new file mode 100644
index 00000000..8bdf3614
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/063cdb1f0b70bc4c83494b9819c6a3f5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/08bcfed65e8ab03ac7f380e20d421434.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/08bcfed65e8ab03ac7f380e20d421434.png
new file mode 100644
index 00000000..2668e939
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/08bcfed65e8ab03ac7f380e20d421434.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/097cd68a7de6371c697afbe4230ef328.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/097cd68a7de6371c697afbe4230ef328.png
new file mode 100644
index 00000000..af5f6634
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/097cd68a7de6371c697afbe4230ef328.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0a7a97c39d6dfc0e08d2701eb7a49231.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0a7a97c39d6dfc0e08d2701eb7a49231.png
new file mode 100644
index 00000000..646fd547
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0a7a97c39d6dfc0e08d2701eb7a49231.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0c7a402331744a44f5e17575b1607904.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0c7a402331744a44f5e17575b1607904.png
new file mode 100644
index 00000000..85b99b47
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0c7a402331744a44f5e17575b1607904.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0ef9693f0008d5a75aa5ac2b542b83ac.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0ef9693f0008d5a75aa5ac2b542b83ac.png
new file mode 100644
index 00000000..a6de08b6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/0ef9693f0008d5a75aa5ac2b542b83ac.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1226e2e8b7633b50c2c45ce699d8f71f.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1226e2e8b7633b50c2c45ce699d8f71f.png
new file mode 100644
index 00000000..cc12929f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1226e2e8b7633b50c2c45ce699d8f71f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1270bde38f2cfccd4900a5df8ac70a7d.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1270bde38f2cfccd4900a5df8ac70a7d.png
new file mode 100644
index 00000000..20dbef62
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1270bde38f2cfccd4900a5df8ac70a7d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1af46e992c93618e7ba22e311f063d1b.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1af46e992c93618e7ba22e311f063d1b.png
new file mode 100644
index 00000000..79b71958
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1af46e992c93618e7ba22e311f063d1b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1c451df4406aea85e640d1ae7df6df31.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1c451df4406aea85e640d1ae7df6df31.png
new file mode 100644
index 00000000..c3fd80f4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/1c451df4406aea85e640d1ae7df6df31.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/20ef8681366b44461cf49d1ab98ab8f2.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/20ef8681366b44461cf49d1ab98ab8f2.png
new file mode 100644
index 00000000..540ccf72
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/20ef8681366b44461cf49d1ab98ab8f2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/28a4f1426695fb55f1f6bc86278f6547.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/28a4f1426695fb55f1f6bc86278f6547.png
new file mode 100644
index 00000000..774b8109
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/28a4f1426695fb55f1f6bc86278f6547.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/2a31b55ef7bfff0c24c35bc635656078.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/2a31b55ef7bfff0c24c35bc635656078.png
new file mode 100644
index 00000000..735c93ca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/2a31b55ef7bfff0c24c35bc635656078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/30f766e7717c0e45a583a4f58ebc322a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/30f766e7717c0e45a583a4f58ebc322a.png
new file mode 100644
index 00000000..85e0f816
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/30f766e7717c0e45a583a4f58ebc322a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3250cbba812d68265cf7815d987bcd1b.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3250cbba812d68265cf7815d987bcd1b.png
new file mode 100644
index 00000000..72af3d36
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3250cbba812d68265cf7815d987bcd1b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/32ec68a6e0d29efae32b0f50db877598.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/32ec68a6e0d29efae32b0f50db877598.png
new file mode 100644
index 00000000..7cfbaaca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/32ec68a6e0d29efae32b0f50db877598.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3313f4800c7d01049e2a2ef2079e5905.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3313f4800c7d01049e2a2ef2079e5905.png
new file mode 100644
index 00000000..e59f885c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3313f4800c7d01049e2a2ef2079e5905.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/335fb81e535f98bfda7cbdb3e50d8832.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/335fb81e535f98bfda7cbdb3e50d8832.png
new file mode 100644
index 00000000..81f76fc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/335fb81e535f98bfda7cbdb3e50d8832.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/342d5d0add3b5754dae73ff222bbc543.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/342d5d0add3b5754dae73ff222bbc543.png
new file mode 100644
index 00000000..781c0939
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/342d5d0add3b5754dae73ff222bbc543.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/34b376e0c7299810f7349ab99c2c5497.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/34b376e0c7299810f7349ab99c2c5497.png
new file mode 100644
index 00000000..76867186
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/34b376e0c7299810f7349ab99c2c5497.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/35d54d0c48ca1c52d56850a202a2c160.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/35d54d0c48ca1c52d56850a202a2c160.png
new file mode 100644
index 00000000..2196aa5f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/35d54d0c48ca1c52d56850a202a2c160.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3aa3584628cb0526c8b0e9d02b15d876.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3aa3584628cb0526c8b0e9d02b15d876.png
new file mode 100644
index 00000000..0a47c4b3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3aa3584628cb0526c8b0e9d02b15d876.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3fae03d85aed3a2237fd4b2f7fb7b480.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3fae03d85aed3a2237fd4b2f7fb7b480.png
new file mode 100644
index 00000000..5b7b315a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/3fae03d85aed3a2237fd4b2f7fb7b480.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4262b5e808a503bf338ce30fb37e6db9.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4262b5e808a503bf338ce30fb37e6db9.png
new file mode 100644
index 00000000..a612a2e0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4262b5e808a503bf338ce30fb37e6db9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/45cf97ab2bd8f85e41c99cd60c565619.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/45cf97ab2bd8f85e41c99cd60c565619.png
new file mode 100644
index 00000000..aa8917f8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/45cf97ab2bd8f85e41c99cd60c565619.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/462373919a0dfe17cd816fa0d8af140c.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/462373919a0dfe17cd816fa0d8af140c.png
new file mode 100644
index 00000000..0e6c0308
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/462373919a0dfe17cd816fa0d8af140c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/48d2e67f025b05eeb9259e249566add3.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/48d2e67f025b05eeb9259e249566add3.png
new file mode 100644
index 00000000..1aeff2e7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/48d2e67f025b05eeb9259e249566add3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4a48977cd9545f897942a4a4ef1175ac.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4a48977cd9545f897942a4a4ef1175ac.png
new file mode 100644
index 00000000..4765eded
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4a48977cd9545f897942a4a4ef1175ac.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4b79dddf1ff54b9384754144d8246d9b.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4b79dddf1ff54b9384754144d8246d9b.png
new file mode 100644
index 00000000..c7ee20ee
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4b79dddf1ff54b9384754144d8246d9b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4d4a02b1af752dcb28b536a50d0f9ee4.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4d4a02b1af752dcb28b536a50d0f9ee4.png
new file mode 100644
index 00000000..aa1ddb9e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/4d4a02b1af752dcb28b536a50d0f9ee4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5015200eb4481feb8a71a658b384ec39.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5015200eb4481feb8a71a658b384ec39.png
new file mode 100644
index 00000000..aa1ddb9e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5015200eb4481feb8a71a658b384ec39.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/525847c9d4b48933cb231204a2d13e0e.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/525847c9d4b48933cb231204a2d13e0e.png
new file mode 100644
index 00000000..bf1f10fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/525847c9d4b48933cb231204a2d13e0e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5412faceb18bc6fa2823be3ae1bdfd8d.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5412faceb18bc6fa2823be3ae1bdfd8d.png
new file mode 100644
index 00000000..4bbf1c67
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5412faceb18bc6fa2823be3ae1bdfd8d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/54625e60404f9c98f34cf32ca56bb118.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/54625e60404f9c98f34cf32ca56bb118.png
new file mode 100644
index 00000000..fe2fed88
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/54625e60404f9c98f34cf32ca56bb118.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/592fae78143370fffc1d0c7957706384.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/592fae78143370fffc1d0c7957706384.png
new file mode 100644
index 00000000..7533691c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/592fae78143370fffc1d0c7957706384.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5ad82e2b23a82287af2caa2fe4b316b3.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5ad82e2b23a82287af2caa2fe4b316b3.png
new file mode 100644
index 00000000..6f4c03dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5ad82e2b23a82287af2caa2fe4b316b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5c33a15f9b0da3f9377dc63f70bb58a7.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5c33a15f9b0da3f9377dc63f70bb58a7.png
new file mode 100644
index 00000000..906bb3c0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/5c33a15f9b0da3f9377dc63f70bb58a7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/611c2725bdfb89e258da9a99fca53433.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/611c2725bdfb89e258da9a99fca53433.png
new file mode 100644
index 00000000..7662dbd4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/611c2725bdfb89e258da9a99fca53433.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/62754b628ac962d094ed602f9067fcf2.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/62754b628ac962d094ed602f9067fcf2.png
new file mode 100644
index 00000000..17dc7a87
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/62754b628ac962d094ed602f9067fcf2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/6b495cb0cd4336a2469d9f07696faa3e.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/6b495cb0cd4336a2469d9f07696faa3e.png
new file mode 100644
index 00000000..694a9196
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/6b495cb0cd4336a2469d9f07696faa3e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/6e09db671ada03c61bdd1f32b6a7624b.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/6e09db671ada03c61bdd1f32b6a7624b.png
new file mode 100644
index 00000000..9361380e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/6e09db671ada03c61bdd1f32b6a7624b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7633144b009ac008488a6bd051f404c9.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7633144b009ac008488a6bd051f404c9.png
new file mode 100644
index 00000000..61e30661
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7633144b009ac008488a6bd051f404c9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/77e0660b596f377125122a2409288181.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/77e0660b596f377125122a2409288181.png
new file mode 100644
index 00000000..273aee8f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/77e0660b596f377125122a2409288181.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7a28f697e6bab9f3d9b1e8da4a5a5249.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7a28f697e6bab9f3d9b1e8da4a5a5249.png
new file mode 100644
index 00000000..9f4bf2b1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7a28f697e6bab9f3d9b1e8da4a5a5249.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7c783def0bbe536f41ed172041b7e89e.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7c783def0bbe536f41ed172041b7e89e.png
new file mode 100644
index 00000000..8b09c51e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7c783def0bbe536f41ed172041b7e89e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7e8670a3b7cdc7848394514ef1da090a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7e8670a3b7cdc7848394514ef1da090a.png
new file mode 100644
index 00000000..3a199f39
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7e8670a3b7cdc7848394514ef1da090a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7f2d776cf49fcf3fd44fd84a238a3cc6.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7f2d776cf49fcf3fd44fd84a238a3cc6.png
new file mode 100644
index 00000000..785c6f6a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7f2d776cf49fcf3fd44fd84a238a3cc6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7fa129004e942671707f8f2d4fb80a20.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7fa129004e942671707f8f2d4fb80a20.png
new file mode 100644
index 00000000..8a656f90
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/7fa129004e942671707f8f2d4fb80a20.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8130c72979511b4b2daddcb2d909388a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8130c72979511b4b2daddcb2d909388a.png
new file mode 100644
index 00000000..1e90f605
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8130c72979511b4b2daddcb2d909388a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/85974d98be6202902f21ce274418953f.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/85974d98be6202902f21ce274418953f.png
new file mode 100644
index 00000000..5bf9e630
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/85974d98be6202902f21ce274418953f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/85fee85630aaace1c60fe5ba0df8c795.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/85fee85630aaace1c60fe5ba0df8c795.png
new file mode 100644
index 00000000..15226a00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/85fee85630aaace1c60fe5ba0df8c795.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/87aa5017f5f0ba9a29d66e74ac6b3d1a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/87aa5017f5f0ba9a29d66e74ac6b3d1a.png
new file mode 100644
index 00000000..81f76fc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/87aa5017f5f0ba9a29d66e74ac6b3d1a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8879aed8539537d699fb0d155b55b403.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8879aed8539537d699fb0d155b55b403.png
new file mode 100644
index 00000000..1171591d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8879aed8539537d699fb0d155b55b403.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/89adff7333b116436cf785388029ba1a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/89adff7333b116436cf785388029ba1a.png
new file mode 100644
index 00000000..88f2c9d0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/89adff7333b116436cf785388029ba1a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8b09d6361316e495383ceedf9b8407ea.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8b09d6361316e495383ceedf9b8407ea.png
new file mode 100644
index 00000000..69fed39f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8b09d6361316e495383ceedf9b8407ea.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8ec7228e178647ed9c25273de4b9a270.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8ec7228e178647ed9c25273de4b9a270.png
new file mode 100644
index 00000000..7262a25d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8ec7228e178647ed9c25273de4b9a270.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8f596b99dbb3c262b61db267d5db2d63.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8f596b99dbb3c262b61db267d5db2d63.png
new file mode 100644
index 00000000..e8ba21d3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/8f596b99dbb3c262b61db267d5db2d63.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/901c72128f102e0be23409cd1d103a9b.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/901c72128f102e0be23409cd1d103a9b.png
new file mode 100644
index 00000000..747f092b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/901c72128f102e0be23409cd1d103a9b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/90c999fe7ccda5e8a8fb0f86000d887f.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/90c999fe7ccda5e8a8fb0f86000d887f.png
new file mode 100644
index 00000000..dc7d63b3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/90c999fe7ccda5e8a8fb0f86000d887f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/931dea1655c975ec616a9e22c80c242f.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/931dea1655c975ec616a9e22c80c242f.png
new file mode 100644
index 00000000..66339451
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/931dea1655c975ec616a9e22c80c242f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/97b434ffec8449a196f698b23197df05.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/97b434ffec8449a196f698b23197df05.png
new file mode 100644
index 00000000..4ae88355
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/97b434ffec8449a196f698b23197df05.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9ae42af4b6629f7493bc1bc150af6355.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9ae42af4b6629f7493bc1bc150af6355.png
new file mode 100644
index 00000000..17dc7a87
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9ae42af4b6629f7493bc1bc150af6355.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9b7e299515676cf41cd2c0fd6ab1295d.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9b7e299515676cf41cd2c0fd6ab1295d.png
new file mode 100644
index 00000000..7d56120c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9b7e299515676cf41cd2c0fd6ab1295d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9d53a7aba4b9016ea39aa794905ee059.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9d53a7aba4b9016ea39aa794905ee059.png
new file mode 100644
index 00000000..68716bcd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/9d53a7aba4b9016ea39aa794905ee059.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/a2eafa804c5b1d5c8564675a255507b2.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/a2eafa804c5b1d5c8564675a255507b2.png
new file mode 100644
index 00000000..33339e49
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/a2eafa804c5b1d5c8564675a255507b2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/a5c5d931ed12e34bf68476f4f157b780.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/a5c5d931ed12e34bf68476f4f157b780.png
new file mode 100644
index 00000000..81f76fc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/a5c5d931ed12e34bf68476f4f157b780.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/aaf8c905effc5044cb9691420e5261fa.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/aaf8c905effc5044cb9691420e5261fa.png
new file mode 100644
index 00000000..eb3c503f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/aaf8c905effc5044cb9691420e5261fa.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ac8752539498c11001a65c1ff470d696.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ac8752539498c11001a65c1ff470d696.png
new file mode 100644
index 00000000..9d5ad962
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ac8752539498c11001a65c1ff470d696.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ad48ffbd1cfc0475d744b8b89a0d962a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ad48ffbd1cfc0475d744b8b89a0d962a.png
new file mode 100644
index 00000000..d89b227d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ad48ffbd1cfc0475d744b8b89a0d962a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ae800707f2489607d51d67499071db16.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ae800707f2489607d51d67499071db16.png
new file mode 100644
index 00000000..39e12d44
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ae800707f2489607d51d67499071db16.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/afd408b97567c661cc8cb8a80c7c777c.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/afd408b97567c661cc8cb8a80c7c777c.png
new file mode 100644
index 00000000..195da6a5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/afd408b97567c661cc8cb8a80c7c777c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/afda8238ecd1f547d61be4d155844f68.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/afda8238ecd1f547d61be4d155844f68.png
new file mode 100644
index 00000000..2cc42903
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/afda8238ecd1f547d61be4d155844f68.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b01274082109b1019682274a0d4ca4d8.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b01274082109b1019682274a0d4ca4d8.png
new file mode 100644
index 00000000..3610d709
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b01274082109b1019682274a0d4ca4d8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b1ba956974f3e844b0b0cea490cc1148.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b1ba956974f3e844b0b0cea490cc1148.png
new file mode 100644
index 00000000..01e2c0bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b1ba956974f3e844b0b0cea490cc1148.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b3f0b96ed8ba751fee4a5fc7ca878eb1.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b3f0b96ed8ba751fee4a5fc7ca878eb1.png
new file mode 100644
index 00000000..81f76fc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b3f0b96ed8ba751fee4a5fc7ca878eb1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b43b70d8a6eef9ea4f75867b5e83b483.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b43b70d8a6eef9ea4f75867b5e83b483.png
new file mode 100644
index 00000000..ba13d24c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/b43b70d8a6eef9ea4f75867b5e83b483.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/be538c850b645a41a7a77ff388954e14.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/be538c850b645a41a7a77ff388954e14.png
new file mode 100644
index 00000000..c63a206d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/be538c850b645a41a7a77ff388954e14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/be60e8e1f4baa0de87cf9d37c5325525.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/be60e8e1f4baa0de87cf9d37c5325525.png
new file mode 100644
index 00000000..850895db
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/be60e8e1f4baa0de87cf9d37c5325525.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/beccc5ac5df1571304e11d6b12772a99.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/beccc5ac5df1571304e11d6b12772a99.png
new file mode 100644
index 00000000..bd8898ab
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/beccc5ac5df1571304e11d6b12772a99.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/bf0b252ce2d39ba6da26c16bee984d39.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/bf0b252ce2d39ba6da26c16bee984d39.png
new file mode 100644
index 00000000..81f76fc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/bf0b252ce2d39ba6da26c16bee984d39.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c0f8a413c1f6dd23bb137d8adff1adda.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c0f8a413c1f6dd23bb137d8adff1adda.png
new file mode 100644
index 00000000..13d8444f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c0f8a413c1f6dd23bb137d8adff1adda.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c814c5c2350e00cf5fc0d883acf0843c.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c814c5c2350e00cf5fc0d883acf0843c.png
new file mode 100644
index 00000000..55ca3282
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c814c5c2350e00cf5fc0d883acf0843c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c9d3ddd13da5858e2cb03b53753ece3c.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c9d3ddd13da5858e2cb03b53753ece3c.png
new file mode 100644
index 00000000..32c29744
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/c9d3ddd13da5858e2cb03b53753ece3c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/cc57a36a43d450df4bfc1d1d1b1ce274.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/cc57a36a43d450df4bfc1d1d1b1ce274.png
new file mode 100644
index 00000000..56432ac7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/cc57a36a43d450df4bfc1d1d1b1ce274.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d0d82c063f83a0ba4bb8df4dcec57138.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d0d82c063f83a0ba4bb8df4dcec57138.png
new file mode 100644
index 00000000..c6265aa5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d0d82c063f83a0ba4bb8df4dcec57138.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d148a5bd51a3278e9698bba522cbc34a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d148a5bd51a3278e9698bba522cbc34a.png
new file mode 100644
index 00000000..a94ef69c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d148a5bd51a3278e9698bba522cbc34a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d15de2be2b754f9a4f46418764232b5e.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d15de2be2b754f9a4f46418764232b5e.png
new file mode 100644
index 00000000..71ba971e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d15de2be2b754f9a4f46418764232b5e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d5ab1f07cb4a9d9200c2a2d3b238340d.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d5ab1f07cb4a9d9200c2a2d3b238340d.png
new file mode 100644
index 00000000..bdb9b5ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d5ab1f07cb4a9d9200c2a2d3b238340d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d74012096c3134b776b5e9f70e8178f3.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d74012096c3134b776b5e9f70e8178f3.png
new file mode 100644
index 00000000..507d7f4c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/d74012096c3134b776b5e9f70e8178f3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/e21cb5ec883a2e5dceeff4064add3acd.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/e21cb5ec883a2e5dceeff4064add3acd.png
new file mode 100644
index 00000000..c127dace
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/e21cb5ec883a2e5dceeff4064add3acd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/e46d7dbb0cc58ac0895589bf255444be.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/e46d7dbb0cc58ac0895589bf255444be.png
new file mode 100644
index 00000000..ea9a4395
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/e46d7dbb0cc58ac0895589bf255444be.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ea0bddb69dfbd67215b823007544ab8f.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ea0bddb69dfbd67215b823007544ab8f.png
new file mode 100644
index 00000000..81f76fc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ea0bddb69dfbd67215b823007544ab8f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ebec7787362bc53fe2289e5740da5756.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ebec7787362bc53fe2289e5740da5756.png
new file mode 100644
index 00000000..5f3dbdfa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ebec7787362bc53fe2289e5740da5756.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/efb29904552d032a076d8512d4e60b95.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/efb29904552d032a076d8512d4e60b95.png
new file mode 100644
index 00000000..37ababe8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/efb29904552d032a076d8512d4e60b95.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f29264b289639882a61fb5c3447b1ecc.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f29264b289639882a61fb5c3447b1ecc.png
new file mode 100644
index 00000000..ee6ad30c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f29264b289639882a61fb5c3447b1ecc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f4990a0920dff7e4647a23cfc1639a8a.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f4990a0920dff7e4647a23cfc1639a8a.png
new file mode 100644
index 00000000..f370a9a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f4990a0920dff7e4647a23cfc1639a8a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f5504c7ed93640f2bed4d2a606c015ba.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f5504c7ed93640f2bed4d2a606c015ba.png
new file mode 100644
index 00000000..c61237b1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/f5504c7ed93640f2bed4d2a606c015ba.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/fed25c69a6015a90b6e9406e4ac6e01c.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/fed25c69a6015a90b6e9406e4ac6e01c.png
new file mode 100644
index 00000000..01a02cb4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/fed25c69a6015a90b6e9406e4ac6e01c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ffad28c33f8a48d06521421f1aa441ed.png b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ffad28c33f8a48d06521421f1aa441ed.png
new file mode 100644
index 00000000..81f76fc6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/ffad28c33f8a48d06521421f1aa441ed.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex21-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex21-1.gif
new file mode 100644
index 00000000..7d658baa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex21-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex22-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex22-1.gif
new file mode 100644
index 00000000..f1e35c3c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex22-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex22-2.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex22-2.gif
new file mode 100644
index 00000000..ad6c9f5b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex22-2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex27-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex27-1.gif
new file mode 100644
index 00000000..5da456a2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex27-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-1.gif
new file mode 100644
index 00000000..70b73c44
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-2.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-2.gif
new file mode 100644
index 00000000..a02bcdef
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-3.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-3.gif
new file mode 100644
index 00000000..c138c933
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-4.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-4.gif
new file mode 100644
index 00000000..8e37ec86
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-5.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-5.gif
new file mode 100644
index 00000000..6fa55a4d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex34-5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-1.gif
new file mode 100644
index 00000000..69fb2c0d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-2.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-2.gif
new file mode 100644
index 00000000..97787edc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-3.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-3.gif
new file mode 100644
index 00000000..ef40453d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-4.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-4.gif
new file mode 100644
index 00000000..745fadf2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex35-4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-1.gif
new file mode 100644
index 00000000..2bf1400f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-2.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-2.gif
new file mode 100644
index 00000000..d5884b93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-2.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-3.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-3.gif
new file mode 100644
index 00000000..4724a31c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-3.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-4.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-4.gif
new file mode 100644
index 00000000..2193427d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-4.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-5.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-5.gif
new file mode 100644
index 00000000..665d0d4c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-5.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-6.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-6.gif
new file mode 100644
index 00000000..cca1906e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-6.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-7.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-7.gif
new file mode 100644
index 00000000..9815ee71
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex4-7.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex56-1.gif b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex56-1.gif
new file mode 100644
index 00000000..a28a3f61
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/pt-tut-17/img/tex56-1.gif differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/00.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/00.md
new file mode 100644
index 00000000..ecb8400a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/00.md
@@ -0,0 +1,73 @@
+# 零、前言
+
+TensorFlow 是 Python 中最受欢迎的机器学习框架之一。 通过这本书，您将提高对 TensorFlow 最新功能的了解，并能够使用 Python 执行监督和无监督的机器学习。
+
+# 这本书是给谁的
+
+顾名思义，本书旨在向读者介绍 TensorFlow 及其最新功能，包括 2.0.0 版以内的 Alpha 版本，包括急切的执行`tf.data`，`tf.keras`，TensorFlow Hub，机器学习， 和神经网络应用。
+
+本书适用于对机器学习及其应用有所了解的任何人：数据科学家，机器学习工程师，计算机科学家，计算机科学专业的学生和业余爱好者。
+
+# 本书涵盖的内容
+
+第 1 章，“TensorFlow 2 简介”，通过查看一些代码片段（说明一些基本操作）来介绍 TensorFlow。 我们将概述现代 TensorFlow 生态系统，并了解如何安装 TensorFlow。
+
+第 2 章，“Keras，TensorFlow 2 的高级 API”，介绍了 Keras API，包括一些一般性的评论和见解，其后以四种不同的形式表示了基本架构 MNIST 数据集训练的方法。
+
+第 3 章，“TensorFlow 2 和 ANN 技术”，探讨了许多支持创建和使用神经网络的技术。 本章将介绍到 ANN 的数据表示，ANN 的层，创建模型，梯度下降算法的梯度计算，损失函数以及保存和恢复模型。
+
+第 4 章，“TensorFlow 2 和监督机器学习”，描述了在涉及线性回归的两种情况下使用 TensorFlow 的示例，在这些情况下，特征映射到具有连续值的已知标签，从而可以进行预测看不见的特征。
+
+第 5 章，“TensorFlow 2 和无监督学习”着眼于自编码器在无监督学习中的两种应用：首先用于压缩数据；其次用于压缩数据。 第二，用于降噪，换句话说，去除图像中的噪声。
+
+第 6 章，“使用 TensorFlow 2 识别图像”，首先查看 Google Quick Draw 1 图像数据集，其次查看 CIFAR 10 图像数据集。
+
+第 7 章，“TensorFlow 2 和神经风格迁移”，说明如何拍摄内容图像和风格图像，然后生成混合图像。 我们将使用经过训练的 VGG19 模型中的层来完成此任务。
+
+第 8 章，“TensorFlow 2 和循环神经网络”首先讨论了 RNN 的一般原理，然后介绍了如何获取和准备一些文本以供模型使用。
+
+第 9 章， “TensorFlow 估计器和 TensorFlow Hub”首先介绍了用于训练时装数据集的估计器。 我们将看到估计器如何为 TensorFlow 提供简单直观的 API。 我们还将研究用于分析电影反馈数据库 IMDb 的神经网络。
+
+附录，“从 tf1.12 转换为 tf2”包含一些将 tf1.12 文件转换为 tf2 的技巧。
+
+# 充分利用这本书
+
+假定熟悉 Python 3.6，并且熟悉 Jupyter 笔记本的使用。
+
+本书的编写是假定读者比以文本形式出现的冗长文本解释更高兴以代码段和完整程序的形式给出的解释，当然，后者以不同的风格出现在本书中。
+
+强烈建议您对机器学习的概念和技术有所了解，但是如果读者愿意对这些主题进行一些阅读，则这不是绝对必要的。
+
+# 使用约定
+
+本书中使用了许多文本约定。
+
+`CodeInText`：指示文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字。 这是一个示例：“将下载的`WebStorm-10*.dmg`磁盘映像文件安装为系统中的另一个磁盘。”
+
+代码块设置如下：
+
+```py
+image1 = tf.zeros([7, 28, 28, 3]) #  example-within-batch by height by width by color
+```
+
+当我们希望引起您对代码块特定部分的注意时，相关的行或项目以粗体显示：
+
+```py
+r1 = tf.reshape(t2,[2,6]) # 2 rows 6 cols
+r2 = tf.reshape(t2,[1,12]) # 1 rows 12 cols
+r1
+# <tf.Tensor: id=33, shape=(2, 6), dtype=float32, 
+numpy= array([[ 0., 1., 2., 3., 4., 5.], [ 6., 7., 8., 9., 10., 11.]], dtype=float32)>
+```
+
+任何命令行输入或输出的编写方式如下：
+
+```py
+var = tf.Variable([3, 3])
+```
+
+**粗体**：表示新术语，重要单词或您在屏幕上看到的单词。 例如，菜单或对话框中的单词会出现在这样的文本中。 这是一个示例：“从管理面板中选择系统信息。”
+
+警告或重要提示如下所示。
+
+提示和技巧如下所示。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/01.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/01.md
new file mode 100644
index 00000000..111f08e4
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/01.md
@@ -0,0 +1,820 @@
+# 一、TensorFlow 2 简介
+
+TensorFlow 于 2011 年以 Google 的内部封闭源代码项目 DisBelief 诞生。 DisBelief 是采用深度学习神经网络的机器学习系统。 该系统演变为 TensorFlow，并在 2015 年 11 月 9 日根据 Apache 2.0 开源许可证发布到开发人员社区。版本 1.0.0 于 2017 年 2 月 11 日出现。此后有许多版本发布。 合并了许多新功能。
+
+在撰写本书时，最新版本是 TensorFlow 2.0.0 alpha 版本，该版本在 2019 年 3 月 6 日的 TensorFlow 开发峰会上宣布。
+
+TensorFlow 的名字来源于张量。 张量是向量和矩阵到更高维度的一般化。 张量的等级是唯一指定该张量的每个元素所用的索引数。 标量（简单数字）是等级 0 的张量，向量是等级 1 的张量，矩阵是等级 2 的张量，三维数组是等级 3 的张量。张量具有数据类型和形状（张量中的所有数据项必须具有相同的类型）。 4 维张量的示例（即等级 4）是图像，其中维是例如`batch`，`height`，`width`和`color`通道内的示例：
+
+```py
+image1 = tf.zeros([7, 28, 28, 3]) #  example-within-batch by height by width by color
+
+```
+
+尽管 TensorFlow 通常可以用于许多数值计算领域，尤其是机器学习，但其主要研究和开发领域是**深层神经网络**（**DNN**）的应用，它已在语音和声音识别等不同领域使用，例如，在如今广泛使用的声控助手中； 基于文本的应用，例如语言翻译器； 图像识别，例如系外行星搜寻，癌症检测和诊断； 以及时间序列应用（例如推荐系统）。
+
+在本章中，我们将讨论以下内容：
+
+*   现代 TensorFlow 生态系统
+*   安装 TensorFlow
+*   急切操作
+*   提供有用的 TensorFlow 操作
+
+# 现代 TensorFlow 生态系统
+
+让我们讨论**急切执行**。 TensorFlow 的第一个化身包括构造由操作和张量组成的计算图，随后必须在 Google 所谓的会话中对其进行评估（这称为声明性编程）。 这仍然是编写 TensorFlow 程序的常用方法。 但是，急切执行的功能（以研究形式从版本 1.5 开始可用，并从版本 1.7 被烘焙到 TensorFlow 中）需要立即评估操作，结果是可以将张量像 NumPy 数组一样对待（这被称为命令式编程）。
+
+谷歌表示，急切执行是研究和开发的首选方法，但计算图对于服务 TensorFlow 生产应用将是首选。
+
+`tf.data`是一种 API，可让您从更简单，可重复使用的部件中构建复杂的数据输入管道。 最高级别的抽象是`Dataset`，它既包含张量的嵌套结构元素，又包含作用于这些元素的转换计划。 有以下几种类：
+
+*   `Dataset`包含来自至少一个二进制文件（`FixedLengthRecordDataset`）的固定长度记录集
+*   `Dataset`由至少一个 TFRecord 文件（`TFRecordDataset`）中的记录组成
+*   `Dataset`由记录组成，这些记录是至少一个文本文件（`TFRecordDataset`）中的行
+*   还有一个类表示通过`Dataset`（`tf.data.Iterator`）进行迭代的状态
+
+让我们继续进行**估计器**，这是一个高级 API，可让您构建大大简化的机器学习程序。 估计员负责训练，评估，预测和导出服务。
+
+**TensorFlow.js** 是 API 的集合，可让您使用底层 JavaScript 线性代数库或高层 API 来构建和训练模型。 因此，可以训练模型并在浏览器中运行它们。
+
+**TensorFlow Lite** 是适用于移动和嵌入式设备的 TensorFlow 的轻量级版本。 它由运行时解释器和一组工具组成。 这个想法是您在功率更高的机器上训练模型，然后使用工具将模型转换为`.tflite`格式。 然后将模型加载到您选择的设备中。 在撰写本文时，使用 C++ API 在 Android 和 iOS 上支持 TensorFlow Lite，并且具有适用于 Android 的 Java 包装器。 如果 Android 设备支持 **Android 神经​​网络**（**ANN**）API 进行硬件加速，则解释器将使用此 API，否则它将默认使用 CPU 执行。
+
+**TensorFlow Hub** 是一个旨在促进机器学习模型的可重用模块的发布，发现和使用的库。 在这种情况下，模块是 TensorFlow 图的独立部分，包括其权重和其他资产。 该模块可以通过称为迁移学习的方法在不同任务中重用。 这个想法是您在大型数据集上训练模型，然后将适当的模块重新用于您的其他但相关的任务。 这种方法具有许多优点-您可以使用较小的数据集训练模型，可以提高泛化能力，并且可以大大加快训练速度。
+
+例如，ImageNet 数据集以及许多不同的神经网络架构（例如`inception_v3`）已非常成功地用于解决许多其他图像处理训练问题。
+
+**TensorFlow Extended**（**TFX**）是基于 TensorFlow 的通用机器学习平台。 迄今为止，已开源的库包括 TensorFlow 转换，TensorFlow 模型分析和 TensorFlow 服务。
+
+`tf.keras`是用 Python 编写的高级神经网络 API，可与 TensorFlow（和其他各种张量工具）接口。 `tf.k` `eras`支持快速原型设计，并且用户友好，模块化且可扩展。 它支持卷积和循环网络，并将在 CPU 和 GPU 上运行。 Keras 是 TensorFlow 2 中开发的首选 API。
+
+**TensorBoard** 是一套可视化工具，支持对 TensorFlow 程序的理解，调试和优化。 它与急切和图执行环境兼容。 您可以在训练期间使用 TensorBoard 可视化模型的各种指标。
+
+TensorFlow 的一项最新开发（在撰写本文时仍处于实验形式）将 TensorFlow 直接集成到 Swift 编程语言中。 Swift 中的 TensorFlow 应用是使用命令性代码编写的，即命令急切地（在运行时）执行的代码。 Swift 编译器会自动将此源代码转换为一个 TensorFlow 图，然后在 CPU，GPU 和 TPU 上以 TensorFlow Sessions 的全部性能执行此编译后的代码。
+
+在本书中，我们将重点介绍那些使用 Python 3.6 和 TensorFlow 2.0.0 alpha 版本启动和运行 TensorFlow 的 TensorFlow 工具。 特别是，我们将使用急切的执行而不是计算图，并且将尽可能利用`tf.keras`的功能来构建网络，因为这是研究和实验的现代方法。
+
+# 安装 TensorFlow
+
+TensorFlow 的最佳编程支持是为 Python 提供的（尽管确实存在 Java，C 和 Go 的库，而其他语言的库正在积极开发中）。
+
+Web 上有大量信息可用于为 Python 安装 TensorFlow。
+
+Google 也建议在虚拟环境中安装 TensorFlow，这是一种标准做法，该环境将一组 API 和代码与其他 API 和代码以及系统范围的环境隔离开来。
+
+TensorFlow 有两种不同的版本-一个用于在 CPU 上执行，另一个用于在 GPU 上执行。 最后，这需要安装数值库 CUDA 和 CuDNN。 Tensorflow 将在可能的情况下默认执行 GPU。 参见[这里](https://www.tensorflow.org/alpha/guide/using_gpu)。
+
+与其尝试重新发明轮子，不如跟随资源来创建虚拟环境和安装 TensorFlow。
+
+总而言之，可能会为 Windows 7 或更高版本，Ubuntu Linux 16.04 或更高版本以及 macOS 10.12.6 或更高版本安装 TensorFlow。
+
+有关虚拟环境的完整介绍，请参见[这里](http://docs.python-guide.org/en/latest/dev/virtualenvs/)。
+
+[Google 的官方文档](https://www.tensorflow.org/install/)中提供了有关安装 TensorFlow 所需的所有方面的非常详细的信息。
+
+安装后，您可以从命令终端检查 TensorFlow 的安装。 [这个页面](http://www.laurencemoroney.com/tensorflow-to-gpu-or-not-to-gpu/)有执行此操作，以及安装 TensorFlow 的夜间版本（其中包含所有最新更新）的说明。
+
+# 急切的操作
+
+我们将首先介绍如何导入 TensorFlow，然后介绍 TensorFlow 编码风格，以及如何进行一些基本的整理工作。 之后，我们将看一些基本的 TensorFlow 操作。 您可以为这些代码片段创建 Jupyter 笔记本，也可以使用自己喜欢的 IDE 创建源代码。 该代码在 GitHub 存储库中都可用。
+
+# 导入 TensorFlow
+
+导入 TensorFlow 很简单。 请注意几个系统检查：
+
+```py
+import tensorflow as tf
+print("TensorFlow version: {}".format(tf.__version__))
+print("Eager execution is: {}".format(tf.executing_eagerly()))
+print("Keras version: {}".format(tf.keras.__version__))
+```
+
+# TensorFlow 的编码风格约定
+
+对于 Python 应用，Google 遵守 PEP8 标准约定。 特别是，他们将 CamelCase 用于类（例如`hub.LatestModuleExporter`），将`snake_case`用于函数，方法和属性（例如`tf.math.squared_difference`）。 Google 还遵守《Google Python 风格指南》，该指南可在[这个页面](https://github.com/google/styleguide/blob/gh-pages/pyguide.md)中找到。
+
+# 使用急切执行
+
+急切执行是 TensorFlow 2 中的默认设置，因此不需要特殊设置。
+
+以下代码可用于查找是否正在使用 CPU 或 GPU，如果它是 GPU，则该 GPU 是否为`#0`。
+
+我们建议键入代码，而不要使用复制和粘贴。 这样，您将对以下命令有所了解：
+
+```py
+var = tf.Variable([3, 3])
+
+if tf.test.is_gpu_available(): 
+ print('Running on GPU')
+ print('GPU #0?')
+ print(var.device.endswith('GPU:0'))
+else: 
+ print('Running on CPU')
+```
+
+# 声明急切变量
+
+声明 TensorFlow 急切变量的方法如下：
+
+```py
+t0 = 24 # python variable
+t1 = tf.Variable(42) # rank 0 tensor
+t2 = tf.Variable([ [ [0., 1., 2.], [3., 4., 5.] ], [ [6., 7., 8.], [9., 10., 11.] ] ]) #rank 3 tensor
+t0, t1, t2
+```
+
+输出将如下所示：
+
+```py
+(24,
+ <tf.Variable 'Variable:0' shape=() dtype=int32, numpy=42>,
+ <tf.Variable 'Variable:0' shape=(2, 2, 3) dtype=float32, numpy=
+ array([[[ 0.,  1.,  2.],
+         [ 3.,  4.,  5.]],
+         [[ 6.,  7.,  8.],
+         [ 9., 10., 11.]]], dtype=float32)>)
+```
+
+TensorFlow 将推断数据类型，对于浮点数默认为`tf.float32`，对于整数默认为`tf.int32`（请参见前面的示例）。
+
+或者，可以显式指定数据类型，如下所示：
+
+```py
+f64 = tf.Variable(89, dtype = tf.float64)
+f64.dtype
+```
+
+TensorFlow 具有大量的内置数据类型。
+
+示例包括之前看到的示例`tf.int16`，`tf.complex64`和`tf.string`。 参见[这里](https://www.tensorflow.org/api_docs/python/tf/dtypes/DType)。 要重新分配变量，请使用`var.assign()`，如下所示：
+
+```py
+f1 = tf.Variable(89.)
+f1
+
+# <tf.Variable 'Variable:0' shape=() dtype=float32, numpy=89.0>
+
+f1.assign(98.)
+f1
+
+# <tf.Variable 'Variable:0' shape=() dtype=float32, numpy=98.0>
+```
+
+# 声明 TensorFlow 常量
+
+TensorFlow 常量可以在以下示例中声明：
+
+```py
+m_o_l = tf.constant(42)
+
+m_o_l
+
+# <tf.Tensor: id=45, shape=(), dtype=int32, numpy=42>
+
+m_o_l.numpy()
+
+# 42
+```
+
+同样，TensorFlow 将推断数据类型，或者可以像使用变量那样显式指定它：
+
+```py
+unit = tf.constant(1, dtype = tf.int64)
+
+unit
+
+# <tf.Tensor: id=48, shape=(), dtype=int64, numpy=1>
+```
+
+# 调整张量
+
+张量的形状通过属性（而不是函数）访问：
+
+```py
+t2 = tf.Variable([ [ [0., 1., 2.], [3., 4., 5.] ], [ [6., 7., 8.], [9., 10., 11.] ] ]) # tensor variable
+print(t2.shape)
+```
+
+输出将如下所示：
+
+```py
+(2, 2, 3)
+```
+
+张量可能会被重塑并保留相同的值，这是构建神经网络经常需要的。
+
+这是一个示例：
+
+```py
+r1 = tf.reshape(t2,[2,6]) # 2 rows 6 cols
+r2 = tf.reshape(t2,[1,12]) # 1 rows 12 cols
+r1
+# <tf.Tensor: id=33, shape=(2, 6), dtype=float32, 
+numpy= array([[ 0., 1., 2., 3., 4., 5.], [ 6., 7., 8., 9., 10., 11.]], dtype=float32)>
+```
+
+这是另一个示例：
+
+```py
+r2 = tf.reshape(t2,[1,12]) # 1 row 12 columns
+r2
+# <tf.Tensor: id=36, shape=(1, 12), dtype=float32, 
+numpy= array([[ 0., 1., 2., 3., 4., 5., 6., 7., 8., 9., 10., 11.]], dtype=float32)>
+```
+
+# 张量的等级（尺寸）
+
+张量的等级是它具有的维数，即指定该张量的任何特定元素所需的索引数。
+
+张量的等级可以这样确定，例如：
+
+```py
+tf.rank(t2)
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=53, shape=(), dtype=int32, numpy=3>
+(the shape is () because the output here is a scalar value)
+```
+
+# 指定张量的元素
+
+正如您期望的那样，通过指定所需的索引来指定张量的元素。
+
+以这个为例：
+
+```py
+t3 = t2[1, 0, 2] # slice 1, row 0, column 2
+t3
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=75, shape=(), dtype=float32, numpy=8.0>
+```
+
+# 将张量转换为 NumPy/Python 变量
+
+如果需要，可以将张量转换为`numpy`变量，如下所示：
+
+```py
+print(t2.numpy())
+```
+
+输出将如下所示：
+
+```py
+[[[ 0\. 1\. 2.] [ 3\. 4\. 5.]] [[ 6\. 7\. 8.] [ 9\. 10\. 11.]]]
+
+```
+
+也可以这样：
+
+```py
+print(t2[1, 0, 2].numpy())
+```
+
+输出将如下所示：
+
+```py
+8.0
+```
+
+# 查找张量的大小（元素数）
+
+张量中的元素数量很容易获得。 再次注意，使用`.numpy()`函数从张量中提取 Python 值：
+
+```py
+s =  tf.size(input=t2).numpy()
+s
+```
+
+输出将如下所示：
+
+```py
+12
+```
+
+# 查找张量的数据类型
+
+TensorFlow 支持您期望的所有数据类型。 完整列表位于[这里](https://www.tensorflow.org/versions/r1.1/programmers_guide/dims_types)，其中包括`tf.int32`（默认整数类型），`tf.float32`（默认浮动点类型）和`tf.complex64`（复数类型）。
+
+要查找张量的数据类型，请使用以下`dtype`属性：
+
+```py
+t3.dtype
+```
+
+输出将如下所示：
+
+```py
+tf.float32
+```
+
+# 指定按元素的基本张量操作
+
+如您所料，使用重载运算符`+`，`-`，`*`和`/`来指定逐元素基本张量操作，如下所示：
+
+```py
+t2*t2
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=555332, shape=(2, 2, 3), dtype=float32, numpy= array([[[ 0., 1., 4.], [ 9., 16., 25.]], [[ 36., 49., 64.], [ 81., 100., 121.]]], dtype=float32)>
+```
+
+# 广播
+
+按元素张量操作以与 NumPy 数组相同的方式支持广播。 最简单的示例是将张量乘以标量：
+
+```py
+t4 = t2*4
+print(t4)
+```
+
+输出将如下所示：
+
+```py
+tf.Tensor( [[[ 0\. 4\. 8.] [12\. 16\. 20.]] [[24\. 28\. 32.] [36\. 40\. 44.]]], shape=(2, 2, 3), dtype=float32) 
+```
+
+在该示例中，在概念上至少将标量乘法器 4 扩展为一个数组，该数组可以与`t2`逐元素相乘。 在[上对广播进行了非常详细的讨论，网址为](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html)。
+
+# 转置 TensorFlow 和矩阵乘法
+
+要紧急转置矩阵和矩阵乘法，请使用以下命令：
+
+```py
+u = tf.constant([[3,4,3]]) 
+v = tf.constant([[1,2,1]])
+tf.matmul(u, tf.transpose(a=v))
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=555345, shape=(1, 1), dtype=int32, numpy=array([[14]], dtype=int32)>
+```
+
+再次注意，默认整数类型为`tf.int32`，默认浮点类型为`tf.float32`。
+
+可用于构成计算图一部分的张量的所有操作也可用于急切执行变量。
+
+在[这个页面](https://www.tensorflow.org/api_guides/python/math_ops)上有这些操作的完整列表。
+
+# 将张量转换为另一个（张量）数据类型
+
+一种类型的 TensorFlow 变量可以强制转换为另一种类型。 可以在[这个页面](https://www.tensorflow.org/api_docs/python/tf/cast)中找到更多详细信息。
+
+请看以下示例：
+
+```py
+i = tf.cast(t1, dtype=tf.int32) # 42
+i
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=116, shape=(), dtype=int32, numpy=42>
+```
+
+截断后，将如下所示：
+
+```py
+j = tf.cast(tf.constant(4.9), dtype=tf.int32) # 4
+j
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=119, shape=(), dtype=int32, numpy=4>
+```
+
+# 声明参差不齐的张量
+
+参差不齐的张量是具有一个或多个参差不齐尺寸的张量。 参差不齐的尺寸是具有可能具有不同长度的切片的尺寸。
+
+声明参差不齐的数组的方法有很多种，最简单的方法是常量参差不齐的数组。
+
+以下示例显示了如何声明一个常数的，参差不齐的数组以及各个切片的长度：
+
+```py
+ragged =tf.ragged.constant([[5, 2, 6, 1], [], [4, 10, 7], [8], [6,7]])
+
+print(ragged)
+print(ragged[0,:])
+print(ragged[1,:])
+print(ragged[2,:])
+print(ragged[3,:])
+print(ragged[4,:])
+```
+
+输出如下：
+
+```py
+<tf.RaggedTensor [[5, 2, 6, 1], [], [4, 10, 7], [8], [6, 7]]>
+tf.Tensor([5 2 6 1], shape=(4,), dtype=int32)
+tf.Tensor([], shape=(0,), dtype=int32)
+tf.Tensor([ 4 10  7], shape=(3,), dtype=int32)
+tf.Tensor([8], shape=(1,), dtype=int32)
+tf.Tensor([6 7], shape=(2,), dtype=int32)
+```
+
+注意单个切片的形状。
+
+创建参差不齐的数组的常用方法是使用`tf.RaggedTensor.from_row_splits()`方法，该方法具有以下签名：
+
+```py
+@classmethod
+from_row_splits(
+    cls,
+    values,
+    row_splits,
+    name=None
+)
+
+```
+
+在这里，`values`是要变成参差不齐的数组的值的列表，`row_splits`是要拆分该值列表的位置的列表，因此行`ragged[i]`的值存储在其中 `ragged.values[ragged.row_splits[i]:ragged.row_splits[i+1]]`：
+
+```py
+print(tf.RaggedTensor.from_row_splits(values=[5, 2, 6, 1, 4, 10, 7, 8, 6, 7],
+row_splits=[0, 4, 4, 7, 8, 10]))
+```
+
+`RaggedTensor`如下：
+
+```py
+<tf.RaggedTensor [[5, 2, 6, 1], [], [4, 10, 7], [8], [6, 7]]>
+```
+
+# 提供有用的 TensorFlow 操作
+
+在[这个页面](https://www.tensorflow.org/api_docs/python/tf)上有所有 TensorFlow Python 模块，类和函数的完整列表。
+
+可以在[这个页面](https://www.tensorflow.org/api_docs/python/tf/math)中找到所有数学函数。
+
+在本节中，我们将研究一些有用的 TensorFlow 操作，尤其是在神经网络编程的上下文中。
+
+# 求两个张量之间的平方差
+
+在本书的后面，我们将需要找到两个张量之差的平方。 方法如下：
+
+```py
+tf.math.squared.difference( x,  y, name=None)
+```
+
+请看以下示例：
+
+```py
+x = [1,3,5,7,11]
+y = 5
+s = tf.math.squared_difference(x,y)
+s
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=279, shape=(5,), dtype=int32, numpy=array([16, 4, 0, 4, 36], dtype=int32)>
+```
+
+请注意，在此示例中，Python 变量`x`和`y`被转换为张量，然后`y`跨`x`广播。 因此，例如，第一计算是`(1 - 5)^2 = 16`。
+
+# 求平均值
+
+以下是`tf.reduce_mean()`的签名。
+
+请注意，在下文中，所有 TensorFlow 操作都有一个名称参数，当使用急切执行作为其目的是在计算图中识别操作时，可以安全地将其保留为默认值`None`。
+
+请注意，这等效于`np.mean`，除了它从输入张量推断返回数据类型，而`np.mean`允许您指定输出类型（默认为`float64`）：
+
+```py
+tf.reduce_mean(input_tensor, axis=None, keepdims=None, name=None)
+```
+
+通常需要找到张量的平均值。 当在单个轴上完成此操作时，该轴被称为减少了。
+
+这里有些例子：
+
+```py
+numbers = tf.constant([[4., 5.], [7., 3.]])
+```
+
+# 求所有轴的均值
+
+求出所有轴的平均值（即使用默认的`axis = None`）：
+
+```py
+tf.reduce_mean(input_tensor=numbers)
+#( 4\. + 5\. + 7\. + 3.)/4 = 4.75
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=272, shape=(), dtype=float32, numpy=4.75>
+```
+
+# 求各列的均值
+
+用以下方法找到各列的均值（即减少行数）：
+
+```py
+tf.reduce_mean(input_tensor=numbers, axis=0) # [ (4\. + 7\. )/2 , (5\. + 3.)/2 ] = [5.5, 4.]
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=61, shape=(2,), dtype=float32, numpy=array([5.5, 4\. ], dtype=float32)>
+
+```
+
+当`keepdims`为`True`时，缩小轴将保留为 1：
+
+```py
+ tf.reduce_mean(input_tensor=numbers, axis=0, keepdims=True)
+```
+
+输出如下：
+
+```py
+array([[5.5, 4.]])        (1 row, 2 columns) 
+```
+
+# 求各行的均值
+
+使用以下方法找到各行的均值（即减少列数）：
+
+```py
+tf.reduce_mean(input_tensor=numbers, axis=1) # [ (4\. + 5\. )/2 , (7\. + 3\. )/2] = [4.5, 5]
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=64, shape=(2,), dtype=float32, numpy=array([4.5, 5\. ], dtype=float32)>
+```
+
+当`keepdims`为`True`时，缩小轴将保留为 1：
+
+```py
+tf.reduce_mean(input_tensor=numbers, axis=1, keepdims=True)
+```
+
+输出如下：
+
+```py
+([[4.5], [5]])      (2 rows, 1 column)
+```
+
+# 生成充满随机值的张量
+
+开发神经网络时，例如初始化权重和偏差时，经常需要随机值。 TensorFlow 提供了多种生成这些随机值的方法。
+
+# 使用`tf.random.normal()`
+
+`tf.random.normal()`输出给定形状的张量，其中填充了来自正态分布的`dtype`类型的值。
+
+所需的签名如下：
+
+```py
+tf. random.normal(shape, mean = 0, stddev =2, dtype=tf.float32, seed=None, name=None)
+```
+
+以这个为例：
+
+```py
+tf.random.normal(shape = (3,2), mean=10, stddev=2, dtype=tf.float32, seed=None,  name=None)
+ran = tf.random.normal(shape = (3,2), mean=10.0, stddev=2.0)
+print(ran)
+```
+
+输出将如下所示：
+
+```py
+<tf.Tensor: id=13, shape=(3, 2), dtype=float32, numpy= array([[ 8.537131 , 7.6625767], [10.925293 , 11.804686 ], [ 9.3763075, 6.701221 ]], dtype=float32)>
+```
+
+# 使用`tf.random.uniform()`
+
+所需的签名是这样的：
+
+```py
+tf.random.uniform(shape, minval = 0, maxval= None, dtype=tf.float32, seed=None,  name=None)
+```
+
+这将输出给定形状的张量，该张量填充了从`minval`到`maxval`范围内的均匀分布的值，其中下限包括在内，而上限不包括在内。
+
+以这个为例：
+
+```py
+tf.random.uniform(shape = (2,4),  minval=0, maxval=None, dtype=tf.float32, seed=None,  name=None)
+```
+
+输出将如下所示：
+
+```py
+tf.Tensor( [[ 6 7] [ 0 12]], shape=(2, 2), dtype=int32)
+```
+
+请注意，对于这两个随机操作，如果您希望生成的随机值都是可重复的，则使用`tf.random.set_seed()`。 还显示了非默认数据类型的使用：
+
+```py
+tf.random.set_seed(11)
+ran1 = tf.random.uniform(shape = (2,2), maxval=10, dtype = tf.int32)
+ran2 =  tf.random.uniform(shape = (2,2), maxval=10, dtype = tf.int32)
+print(ran1) #Call 1
+print(ran2)
+
+tf.random.set_seed(11) #same seed
+ran1 = tf.random.uniform(shape = (2,2), maxval=10, dtype = tf.int32)
+ran2 = tf.random.uniform(shape = (2,2), maxval=10, dtype = tf.int32)
+print(ran1) #Call 2
+print(ran2)
+```
+
+`Call 1`和`Call 2`将返回相同的一组值。
+
+输出将如下所示：
+
+```py
+tf.Tensor(
+[[4 6]
+ [5 2]], shape=(2, 2), dtype=int32)
+tf.Tensor(
+[[9 7]
+ [9 4]], shape=(2, 2), dtype=int32)
+
+tf.Tensor(
+[[4 6]
+ [5 2]], shape=(2, 2), dtype=int32)
+tf.Tensor(
+[[9 7]
+ [9 4]], shape=(2, 2), dtype=int32)
+```
+
+# 使用随机值的实际示例
+
+这是一个适合从[这个页面](https://colab.research.google.com/notebooks/mlcc/creating_and_manipulating_tensors.ipynb#scrollTo=6UUluecQSCvr)执行的小示例。
+
+请注意，此示例显示了如何通过调用 TensorFlow 函数来初始化急切变量。
+
+```py
+ dice1 = tf.Variable(tf.random.uniform([10, 1], minval=1, maxval=7, dtype=tf.int32))
+ dice2 = tf.Variable(tf.random.uniform([10, 1], minval=1, maxval=7, dtype=tf.int32))
+
+ # We may add dice1 and dice2 since they share the same shape and size.
+ dice_sum = dice1 + dice2
+
+ # We've got three separate 10x1 matrices. To produce a single
+ # 10x3 matrix, we'll concatenate them along dimension 1.
+ resulting_matrix = tf.concat(values=[dice1, dice2, dice_sum], axis=1)
+
+ print(resulting_matrix)
+```
+
+示例输出如下：
+
+```py
+tf.Tensor( 
+[[ 5 4 9] 
+[ 5 1 6] 
+[ 2 4 6] 
+[ 5 6 11]
+[ 4 4 8] 
+[ 4 6 10]
+[ 2 2 4]
+[ 5 6 11] 
+[ 2 6 8] 
+[ 5 4 9]], shape=(10, 3), dtype=int32)
+```
+
+# 查找最大和最小元素的索引
+
+现在，我们将研究如何在张量轴上查找具有最大值和最小值的元素的索引。
+
+这些函数的签名如下：
+
+```py
+tf.argmax(input, axis=None, name=None, output_type=tf.int64 )
+
+tf.argmin(input, axis=None, name=None, output_type=tf.int64 )
+```
+
+以这个为例：
+
+```py
+# 1-D tensor
+t5 = tf.constant([2, 11, 5, 42, 7, 19, -6, -11, 29])
+print(t5)
+i = tf.argmax(input=t5)
+print('index of max; ', i)
+print('Max element: ',t5[i].numpy())
+
+i = tf.argmin(input=t5,axis=0).numpy()
+print('index of min: ', i)
+print('Min element: ',t5[i].numpy())
+
+t6 = tf.reshape(t5, [3,3])
+
+print(t6)
+i = tf.argmax(input=t6,axis=0).numpy() # max arg down rows
+print('indices of max down rows; ', i)
+i = tf.argmin(input=t6,axis=0).numpy() # min arg down rows
+print('indices of min down rows ; ',i)
+
+print(t6)
+i = tf.argmax(input=t6,axis=1).numpy() # max arg across cols
+print('indices of max across cols: ',i)
+i = tf.argmin(input=t6,axis=1).numpy() # min arg across cols
+print('indices of min across cols: ',i)
+```
+
+输出将如下所示：
+
+```py
+tf.Tensor([ 2 11 5 42 7 19 -6 -11 29], shape=(9,), dtype=int32) 
+
+index of max; tf.Tensor(3, shape=(), dtype=int64) 
+Max element: 42 
+
+index of min: tf.Tensor(7, shape=(), dtype=int64) 
+Min element: -11 
+
+tf.Tensor( [[ 2 11 5] [ 42 7 19] [ -6 -11 29]], shape=(3, 3), dtype=int32) 
+indices of max down rows; tf.Tensor([1 0 2], shape=(3,), dtype=int64) 
+indices of min down rows ; tf.Tensor([2 2 0], shape=(3,), dtype=int64) 
+
+tf.Tensor( [[ 2 11 5] [ 42 7 19] [ -6 -11 29]], shape=(3, 3), dtype=int32) 
+indices of max across cols: tf.Tensor([1 0 2], shape=(3,), dtype=int64) 
+indices of min across cols: tf.Tensor([0 1 1], shape=(3,), dtype=int64)
+```
+
+# 使用检查点保存和恢复张量值
+
+为了保存和加载张量值，这是最好的方法（有关保存完整模型的方法，请参见第 2 章和 “Keras，TensorFlow 2” 的高级 API）：
+
+```py
+variable = tf.Variable([[1,3,5,7],[11,13,17,19]])
+checkpoint= tf.train.Checkpoint(var=variable)
+save_path = checkpoint.save('./vars')
+variable.assign([[0,0,0,0],[0,0,0,0]])
+variable
+checkpoint.restore(save_path)
+print(variable)
+
+```
+
+输出将如下所示：
+
+```py
+<tf.Variable 'Variable:0' shape=(2, 4) dtype=int32, numpy= array([[ 1, 3, 5, 7],  [11, 13, 17, 19]], dtype=int32)>
+```
+
+# 使用`tf.function`
+
+`tf.function`是将采用 Python 函数并返回 TensorFlow 图的函数。 这样做的好处是，图可以在 Python 函数（`func`）中应用优化并利用并行性。 `tf.function`是 TensorFlow 2 的新功能。
+
+其签名如下：
+
+```py
+tf.function(
+    func=None,
+    input_signature=None,
+    autograph=True,
+    experimental_autograph_options=None
+)
+
+```
+
+示例如下：
+
+```py
+def f1(x, y):
+    return tf.reduce_mean(input_tensor=tf.multiply(x ** 2, 5) + y**2)
+
+f2 = tf.function(f1)
+
+x = tf.constant([4., -5.])
+y = tf.constant([2., 3.])
+
+# f1 and f2 return the same value, but f2 executes as a TensorFlow graph
+
+assert f1(x,y).numpy() == f2(x,y).numpy()
+```
+
+断言通过，因此没有输出。
+
+# 总结
+
+在本章中，我们通过查看一些说明一些基本操作的代码片段开始熟悉 TensorFlow。 我们对现代 TensorFlow 生态系统以及如何安装 TensorFlow 进行了概述。 我们还研究了一些管家操作，一些急切操作以及各种 TensorFlow 操作，这些操作在本书的其余部分中将是有用的。 在 [www.youtube.com/watch?v=k5c-vg4rjBw](https://www.youtube.com/watch?v=k5c-vg4rjBw) 上对 TensorFlow 2 进行了出色的介绍。
+
+另请参阅“附录 A”，以获得`tf1.12`到`tf2`转换工具的详细信息。 在下一章中，我们将介绍 Keras，这是 TensorFlow 2 的高级 API。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/02.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/02.md
new file mode 100644
index 00000000..5970e8ff
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/02.md
@@ -0,0 +1,470 @@
+# 二、Keras：TensorFlow 2 的高级 API
+
+在本章中，我们将讨论 Keras，这是 TensorFlow 2 的高级 API。Keras 是由 FrançoisChollet 在 Google 上开发的。 Keras 在快速原型制作，深度学习模型的构建和训练以及研究和生产方面非常受欢迎。 Keras 是一个非常丰富的 API。 正如我们将看到的，它支持急切的执行和数据管道以及其他功能。
+
+自 2017 年以来，Keras 已可用于 TensorFlow，但随着 TensorFlow 2.0 的发布，其用途已扩展并进一步集成到 TensorFlow 中。 TensorFlow 2.0 已将 Keras 用作大多数深度学习开发工作的首选 API。
+
+可以将 Keras 作为独立模块导入，但是在本书中，我们将集中精力在 TensorFlow 2 内部使用 Keras。因此，该模块为`tensorflow.keras`。
+
+在本章中，我们将介绍以下主题：
+
+*   Keras 的采用和优势
+*   Keras 的特性
+*   默认的 Keras 配置文件
+*   Keras 后端
+*   Keras 数据类型
+*   Keras 模型
+*   Keras 数据集
+
+# Keras 的采用和优势
+
+下图显示了 Keras 在工业和研究领域的广泛应用。 *PowerScore* 排名由 Jeff Hale 设计，他使用了 7 个不同类别的 11 个数据源来评估框架的使用，兴趣和受欢迎程度。 然后，他对数据进行了加权和合并，[如 2018 年 9 月的这篇文章所示](https://towardsdatascience.com/deep-learning-framework-power-scores-2018-23607ddf297a)：
+
+![](img/d90b06ca-d15d-4741-9f7c-511735d3181c.png)
+
+Keras 具有许多优点，其中包括：
+
+*   它专为新用户和专家而设计，提供一致且简单的 API
+*   通过简单，一致的接口对用户友好，该接口针对常见用例进行了优化
+*   它为用户错误提供了很好的反馈，这些错误很容易理解，并且经常伴随有用的建议
+*   它是模块化且可组合的； Keras 中的模型是通过结合可配置的构建块来构建的
+*   通过编写自定义构建块很容易扩展
+*   无需导入 Keras，因为它可以作为`tensorflow.keras`获得
+
+# Keras 的特性
+
+如果您想知道 TensorFlow 随附的 Keras 版本，请使用以下命令：
+
+```py
+import tensorflow as tf
+print(tf.keras.__version__)
+```
+
+在撰写本文时，这产生了以下内容（来自 TensorFlow 2 的 Alpha 版本）：
+
+```py
+2.2.4-tf
+```
+
+Keras 的其他功能包括对多 GPU 数据并行性的内置支持，以及 Keras 模型可以转化为 TensorFlow Estimators 并在 Google Cloud 上的 GPU 集群上进行训练的事实。
+
+Keras 可能是不寻常的，因为它具有作为独立开源项目维护的参考实现，位于 [www.keras.io](http://www.keras.io) 。
+
+尽管 TensorFlow 在`tf.keras`模块中确实具有 Keras 的完整实现，但它独立于 TensorFlow 进行维护。 默认情况下，该实现具有 TensorFlow 特定的增强功能，包括对急切执行的支持。
+
+急切的执行意味着代码的执行是命令式编程环境，而不是基于图的环境，这是在 TensorFlow（v1.5 之前）的初始产品中工作的唯一方法。 这种命令式（即刻）风格允许直观的调试，快速的开发迭代，支持 TensorFlow `SavedModel`格式，并内置支持对 CPU，GPU 甚至 Google 自己的硬件**张量处理单元**（**TPU**）进行分布式训练。
+
+TensorFlow 实现还支持`tf.data`，分发策略，导出模型（可通过 TensorFlow Lite 部署在移动和嵌入式设备上）以及用于表示和分类结构化数据的特征列。
+
+# 默认的 Keras 配置文件
+
+Linux 用户的默认配置文件如下：
+
+```py
+$HOME/.keras/keras.json
+```
+
+对于 Windows 用户，将`$HOME`替换为`%USERPROFILE%`。
+
+它是在您第一次使用 Keras 时创建的，可以进行编辑以更改默认值。 以下是`.json`文件包含的内容：
+
+```py
+{ "image_data_format": "channels_last", "epsilon": 1e-07, "floatx": "float32", "backend": "tensorflow" }
+```
+
+默认值如下：
+
+*   `image_data_format`：这是图像格式的字符串，`"channels_last"`或`channels_first`。 在 TensorFlow 之上运行的 Keras 使用默认值。
+*   `epsilon`：这是一个浮点数，是一个*模糊*常数，用于在某些操作中避免被零除。
+
+*   `floatx`：这是一个字符串，指定默认的浮点精度，为`"float16"`，`"float32"`或`"float64"`之一。
+*   `backend`：这是一个字符串，指定 Keras 在`"tensorflow"`，`"theano"`或`"cntk"`中的一种之上发现自己的工具。
+
+对于所有这些值，在`keras.backend`中有获取器和设置器方法。 参见[这里](https://keras.io/backend/)。
+
+例如，在以下集合中，供 Keras 使用的浮点类型为`floatx`，其中`floatx`参数是以下命令中所示的三种精度之一：
+
+```py
+keras.backend.set_floatx(floatx)
+```
+
+# Keras 后端
+
+由于其模型级别的库结构，Keras 可能具有处理低级操作（例如卷积，张量乘积等）的不同张量操纵引擎。 这些引擎称为**后端**。 其他后端可用； 我们在这里不考虑它们。
+
+相同的[链接](https://keras.io/backend/)可带您使用许多`keras.backend`函数。
+
+使用 Keras `backend`的规范方法是：
+
+```py
+from keras import backend as K
+```
+
+例如，以下是有用函数的签名：
+
+```py
+K.constant(value, dtype=None, shape=None, name=None)
+```
+
+`value`是要赋予常数的值，`dtype`是创建的张量的类型，`shape`是创建的张量的形状，`name`是可选名称。
+
+实例如下：
+
+```py
+from tensorflow.keras import backend as K
+const = K.constant([[42,24],[11,99]], dtype=tf.float16, shape=[2,2])
+const
+```
+
+这将产生以下恒定张量。 注意，由于启用了急切执行，（默认情况下）在输出中给出常量的值：
+
+```py
+<tf.Tensor: id=1, shape=(2, 2), dtype=float16, numpy= array([[42., 24.], [11., 99.]], dtype=float16)>
+```
+
+急切不启用，输出将如下所示：
+
+```py
+<tf.Tensor 'Const:0' shape=(2, 2) dtype=float16>
+```
+
+# Keras 数据类型
+
+Keras **数据类型**（`dtypes`）与 TensorFlow Python 数据类型相同，如下表所示：
+
+| Python 类型 | 描述 |
+| --- | --- |
+| `tf.float16` | 16 位浮点 |
+| `tf.float32` | 32 位浮点 |
+| `tf.float64` | 64 位浮点 |
+| `tf.int8` | 8 位有符号整数 |
+| `tf.int16` | 16 位有符号整数 |
+| `tf.int32` | 32 位有符号整数 |
+| `tf.int64` | 64 位有符号整数 |
+| `tf.uint8` | 8 位无符号整数 |
+| `tf.string` | 可变长度字节数组 |
+| `tf.bool` | 布尔型 |
+| `tf.complex64` | 由两个 32 位浮点组成的复数-一个实部和虚部 |
+| `tf.complex128` | 由两个 64 位浮点组成的复数-一个实部和一个虚部 |
+| `tf.qint8` | 量化运算中使用的 8 位有符号整数 |
+| `tf.qint32` | 量化运算中使用的 32 位有符号整数 |
+| `tf.quint8` | 量化运算中使用的 8 位无符号整数 |
+
+# Keras 模型
+
+Keras 基于神经网络模型的概念。 主要模型称为**序列**，是层的线性栈。 还有一个使用 Keras 函数式 API 的系统。
+
+# Keras 顺序模型
+
+要构建 Keras `Sequential`模型，请*向其中添加层*，其顺序与您希望网络进行计算的顺序相同。
+
+建立模型后，您可以*编译*； 这样可以优化要进行的计算，并且可以在其中分配优化器和希望模型使用的损失函数。
+
+下一步是*使模型拟合数据*。 这通常称为训练模型，是所有计算发生的地方。 可以分批或一次将数据呈现给模型。
+
+接下来，您评估模型以建立其准确率，损失和其他指标。 最后，在训练好模型之后，您可以使用它对新数据进行预测。 因此，工作流程是：构建，编译，拟合，评估，做出预测。
+
+有两种创建`Sequential`模型的方法。 让我们看看它们中的每一个。
+
+# 创建顺序模型的第一种方法
+
+首先，可以将层实例列表传递给构造器，如以下示例所示。
+
+在下一章中，我们将对层进行更多的讨论。 目前，我们将仅作足够的解释，以使您了解此处发生的情况。
+
+采集数据。 `mnist`是手绘数字的数据集，每个数字在`28 x 28`像素的网格上。 每个单独的数据点都是一个无符号的 8 位整数（`uint8`），如标签所示：
+
+```py
+mnist = tf.keras.datasets.mnist
+(train_x,train_y), (test_x, test_y) = mnist.load_data()
+```
+
+`epochs`变量存储我们将数据呈现给模型的次数：
+
+```py
+epochs=10
+batch_size = 32 # 32 is default in fit method but specify anyway
+```
+
+接下来，将所有数据点（`x`）归一化为`float32`类型的浮点数范围为 0 到 1。 另外，根据需要将标签（`y`）投射到`int64`：
+
+```py
+train_x, test_x = tf.cast(train_x/255.0, tf.float32), tf.cast(test_x/255.0, tf.float32)
+train_y, test_y = tf.cast(train_y,tf.int64),tf.cast(test_y,tf.int64) 
+```
+
+模型定义如下。
+
+注意在模型定义中我们如何传递层列表：
+
+*   `Flatten`接受`28 x 28`（即 2D）像素图像的输入，并产生 784（即 1D）向量，因为下一个（密集）层是一维的。
+*   `Dense`是一个完全连接的层，意味着其所有神经元都连接到上一层和下一层中的每个神经元。 下面的示例有 512 个神经元，其输入通过 ReLU（非线性）激活函数传递。
+*   `Dropout`随机关闭上一层神经元的一部分（在这种情况下为 0.2）。 这样做是为了防止任何特定的神经元变得过于专业化，并导致模型*与数据*过拟合，从而影响测试数据上模型的准确率指标（在后面的章节中将对此进行更多介绍）。
+*   最后的`Dense`层具有一个称为`softmax`的特殊激活函数，该函数将概率分配给可能的 10 个输出单元中的每一个：
+
+```py
+model1 = tf.keras.models.Sequential([
+ tf.keras.layers.Flatten(),
+ tf.keras.layers.Dense(512,activation=tf.nn.relu),
+ tf.keras.layers.Dropout(0.2),
+ tf.keras.layers.Dense(10,activation=tf.nn.softmax)
+])
+```
+
+`model.summary()`函数是一种有用的同义词方法，并为我们的模型提供以下输出：
+
+![](img/8fc9b424-7555-4e7c-a146-7d05f35034c0.png)
+
+`401920`的数字来自输入`28 x 28 = 784 x 512`（`dense_2`层）输出`784 * 512 = 401,408`以及每个`dense_1`层神经元的偏置单元 ，则`401,408 + 512 = 401,920`。
+
+`5130`的数字来自`512 * 10 + 10 = 5,130`。
+
+接下来，我们编译模型，如以下代码所示：
+
+```py
+optimiser = tf.keras.optimizers.Adam()
+model1.compile (optimizer= optimiser, loss='sparse_categorical_crossentropy', metrics = ['accuracy'])
+```
+
+`optimizer`是一种方法，通过该方法可以调整模型中加权连接的权重以减少损失。
+
+`loss`是模型所需输出与实际输出之间差异的度量，而`metrics`是我们评估模型的方式。
+
+为了训练我们的模型，我们接下来使用`fit`方法，如下所示：
+
+```py
+model1.fit(train_x, train_y, batch_size=batch_size, epochs=epochs)
+```
+
+调用`fit()`的输出如下，显示了周期训练时间，损失和准确率：
+
+```py
+Epoch 1/10 60000/60000 [==============================] - 5s 77us/step - loss: 0.2031 - acc: 0.9394 ...
+Epoch 10/10 60000/60000 [==============================] - 4s 62us/step - loss: 0.0098 - acc: 0.9967
+```
+
+最后，我们可以使用`evaluate`方法检查我们训练有素的模型的准确率：
+
+```py
+model1.evaluate(test_x, test_y)
+```
+
+这将产生以下输出：
+
+```py
+10000/10000 [==============================] - 0s 39us/step [0.09151900197149189, 0.9801]
+```
+
+这表示测试数据的损失为 0.09，准确率为 0.9801。 精度为 0.98 意味着该模型平均可以识别出 100 个测试数据点中的 98 个。
+
+# 创建顺序模型的第二种方法
+
+对于同一体系结构，将层列表传递给`Sequential`模型的构造器的替代方法是使用`add`方法，如下所示：
+
+```py
+model2 = tf.keras.models.Sequential();
+model2.add(tf.keras.layers.Flatten())
+model2.add(tf.keras.layers.Dense(512, activation='relu'))
+model2.add(tf.keras.layers.Dropout(0.2))
+model2.add(tf.keras.layers.Dense(10,activation=tf.nn.softmax))
+model2.compile (optimizer= tf.keras.Adam(), loss='sparse_categorical_crossentropy', 
+ metrics = ['accuracy'])
+```
+
+如我们所见，`fit()`方法执行训练，使用模型将输入拟合为输出：
+
+```py
+model2.fit(train_x, train_y, batch_size=batch_size, epochs=epochs)
+```
+
+然后，我们使用`test`数据评估模型的表现：
+
+```py
+model2.evaluate(test_x, test_y)
+```
+
+这给我们带来了`0.07`的损失和`0.981`的准确率。
+
+因此，这种定义模型的方法产生的结果与第一个结果几乎相同，这是可以预期的，因为它是相同的体系结构，尽管表达方式略有不同，但具有相同的`optimizer`和`loss`函数。 现在让我们看一下函数式 API。
+
+# Keras 函数式 API
+
+与以前看到的`Sequential`模型的简单线性栈相比，函数式 API 使您可以构建更复杂的体系结构。 它还支持更高级的模型。 这些模型包括多输入和多输出模型，具有共享层的模型以及具有剩余连接的模型。
+
+这是函数式 API 的使用的简短示例，其架构与前两个相同。
+
+设置代码与先前演示的相同：
+
+```py
+import tensorflow as tf
+mnist = tf.keras.datasets.mnist
+(train_x,train_y), (test_x, test_y) = mnist.load_data()
+train_x, test_x = train_x/255.0, test_x/255.0
+epochs=10
+```
+
+这是模型定义。
+
+注意如何在`tensor`上调用层并返回张量作为输出，然后如何使用这些输入和输出张量来定义模型：
+
+```py
+inputs = tf.keras.Input(shape=(28,28)) # Returns a 'placeholder' tensor
+x = tf.keras.layers.Flatten()(inputs)
+x = tf.layers.Dense(512, activation='relu',name='d1')(x)
+x = tf.keras.layers.Dropout(0.2)(x)
+predictions = tf.keras.layers.Dense(10,activation=tf.nn.softmax, name='d2')(x)
+
+model3 = tf.keras.Model(inputs=inputs, outputs=predictions)
+```
+
+请注意，此代码如何产生与`model1`和`model2`相同的体系结构：
+
+![](img/16862498-ba29-45b2-8070-4bda783bf422.png)
+
+`None`出现在这里是因为我们没有指定我们有多少输入项（即批量大小）。 这确实意味着*未提供*。
+
+其余代码与前面的示例相同：
+
+```py
+optimiser = tf.keras.optimizers.Adam()
+model3.compile (optimizer= optimiser, loss='sparse_categorical_crossentropy', metrics = ['accuracy'])
+
+model3.fit(train_x, train_y, batch_size=32, epochs=epochs)
+
+model3.evaluate(test_x, test_y)
+```
+
+对于相同的体系结构，这同样会产生`0.067`的损失和`0.982`的精度。
+
+接下来，让我们看看如何对 Keras `model`类进行子类化。
+
+# 子类化 Keras 模型类
+
+Keras `Model`类可以被子类化，如下面的代码所示。 Google 指出，*纯*函数风格（如前面的示例所示）比子类风格更可取（我们在此包括其内容是出于完整性的考虑，因为它很有趣）。
+
+首先，请注意如何在构造器（`.__init__()`）中分别声明和命名层。
+
+然后，注意在`call()`方法中各层如何以函数风格链接在一起。 此方法封装了*前向传播*：
+
+```py
+class MyModel(tf.keras.Model):
+ def __init__(self, num_classes=10):
+  super(MyModel, self).__init__()
+ # Define your layers here.
+   inputs = tf.keras.Input(shape=(28,28)) # Returns a placeholder tensor
+   self.x0 = tf.keras.layers.Flatten()
+   self.x1 = tf.keras.layers.Dense(512, activation='relu',name='d1')
+   self.x2 = tf.keras.layers.Dropout(0.2)
+   self.predictions = tf.keras.layers.Dense(10,activation=tf.nn.softmax, name='d2')
+
+ def call(self, inputs):
+ # This is where to define your forward pass
+ # using the layers previously defined in `__init__`
+   x = self.x0(inputs)
+   x = self.x1(x)
+   x = self.x2(x) 
+   return self.predictions(x)
+
+model4 = MyModel()
+```
+
+该定义可以代替本章中的任何较早的模型定义使用，它们具有相同的数据下载支持代码，以及相似的用于训练/评估的代码。 下面的代码显示了最后一个示例：
+
+```py
+model4 = MyModel()
+batch_size = 32
+steps_per_epoch = len(train_x.numpy())//batch_size
+print(steps_per_epoch)
+
+model4.compile (optimizer= tf.keras.Adam(), loss='sparse_categorical_crossentropy', 
+ metrics = ['accuracy'])
+
+model4.fit(train_x, train_y, batch_size=batch_size, epochs=epochs)
+
+ model4.evaluate(test_x, test_y)
+```
+
+结果是`0.068`的损失，准确率为`0.982`； 再次与本章中其他三种模型构建风格产生的结果几乎相同。
+
+# 使用数据管道
+
+也可以使用以下代码将数据作为`tf.data.Dataset()`迭代器传递到`fit`方法中（数据获取代码与先前描述的相同）。 `from_tensor_slices()`方法将 NumPy 数组转换为数据集。 注意`batch()`和`shuffle()`方法链接在一起。 接下来，`map()`方法在输入图像`x`上调用一种方法，该方法在`y`轴上随机翻转其中的两个，有效地增加了图像集的大小。 标签`y`在这里保持不变。 最后，`repeat()`方法意味着在到达数据集的末尾（连续）时，将从头开始重新填充该数据集：
+
+```py
+batch_size = 32
+buffer_size = 10000
+
+train_dataset = tf.data.Dataset.from_tensor_slices((train_x, train_y)).batch(32).shuffle(10000)
+
+train_dataset = train_dataset.map(lambda x, y: (tf.image.random_flip_left_right(x), y))
+train_dataset = train_dataset.repeat()
+
+```
+
+`test`设置的代码类似，除了不进行翻转：
+
+```py
+test_dataset = tf.data.Dataset.from_tensor_slices((test_x, test_y)).batch(batch_size).shuffle(10000)
+
+test_dataset = train_dataset.repeat()
+```
+
+现在，在`fit()`函数中，我们可以直接传递数据集，如下所示：
+
+```py
+steps_per_epoch = len(train_x)//batch_size # required because of the repeat on the dataset
+optimiser = tf.keras.optimizers.Adam()
+model5.compile (optimizer= optimiser, loss='sparse_categorical_crossentropy', metrics = ['accuracy'])
+model.fit(train_dataset, batch_size=batch_size, epochs=epochs, steps_per_epoch=steps_per_epoch)
+```
+
+编译和评估代码与之前看到的类似。
+
+使用`data.Dataset`迭代器的优点在于，管道可以处理通常用于准备数据的大部分管道，例如批量和改组。 我们也已经看到，各种操作可以链接在一起。
+
+# 保存和加载 Keras 模型
+
+TensorFlow 中的 Keras API 具有轻松保存和恢复模型的能力。 这样做如下，并将模型保存在当前目录中。 当然，这里可以通过更长的路径：
+
+```py
+model.save('./model_name.h5')
+```
+
+这将保存模型体系结构，权重，训练状态（`loss`，`optimizer`）和优化器的状态，以便您可以从上次中断的地方继续训练模型。
+
+加载保存的模型的步骤如下。 请注意，如果您已经编译了模型，那么负载将使用保存的训练配置来编译模型：
+
+```py
+from tensorflow.keras.models import load_model
+new_model = load_model('./model_name.h5')
+```
+
+也可以仅保存模型权重并以此加载它们（在这种情况下，必须构建体系结构以将权重加载到其中）：
+
+```py
+model.save_weights('./model_weights.h5')
+```
+
+然后使用以下内容加载它：
+
+```py
+model.load_weights('./model_weights.h5')
+```
+
+# Keras 数据集
+
+可从 Keras 中获得以下数据集：`boston_housing`，`cifar10`，`cifar100`，`fashion_mnist`，`imdb`，`mnist`和`reuters`。
+
+它们都可以通过`load_data()`函数访问。 例如，要加载`fashion_mnist`数据集，请使用以下命令：
+
+```py
+(x_train, y_train), (x_test, y_test) = tf.keras.datasets.fashion_mnist.load_data()
+```
+
+可以在[这个页面](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/keras/datasets/)中找到更多详细信息。
+
+# 总结
+
+在本章中，我们使用通用注释和见解探索了 Keras API，然后以四种不同的方式表示相同的基本体系结构，以训练`mnist`数据集。
+
+在下一章中，我们将通过探索许多监督的学习场景，包括线性回归，逻辑回归和 K 近邻，开始认真使用 TensorFlow。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/03.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/03.md
new file mode 100644
index 00000000..2fb82e48
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/03.md
@@ -0,0 +1,535 @@
+# 三、TensorFlow 2 和 ANN 技术
+
+在本章中，我们将讨论并举例说明 TensorFlow 2 的那些部分，这些部分对于构建，训练和评估人工神经网络及其推理的利用目的是必需的。 最初，我们不会提供完整的申请。 相反，在将所有概念和技术放在一起并在随后的章节中介绍完整的模型之前，我们将重点关注它们。
+
+在本章中，我们将介绍以下主题：
+
+*   将数据呈现给**人工神经网络**（**ANN**）
+*   神经网络层
+*   梯度下降算法的梯度计算
+*   损失函数
+
+# 将数据呈现给人工神经网络
+
+Google 推荐的将数据呈现给 TensorFlow ANN 的规范方法是通过由`tf.data.Dataset`对象和`tf.data.Iterator`方法组成的数据管道。 `tf.data.Dataset`对象由一系列元素组成，其中每个元素包含一个或多个张量对象。 `tf.data.Iterator`是一种用于遍历数据集以便可以访问其中的连续单个元素的方法。
+
+我们将研究构建数据管道的两种重要方法，首先是从内存中的 **NumPy** 数组，其次是从**逗号分隔值**（**CSV**）文件。 我们还将研究二进制 TFRecord 格式。
+
+# 将 NumPy 数组与数据集结合使用
+
+首先让我们看一些简单的例子。 这是一个 NumPy 数组：
+
+```py
+import tensorflow as tf
+import numpy as np 
+
+num_items = 11
+num_list1 = np.arange(num_items)
+num_list2 = np.arange(num_items,num_items*2)
+```
+
+这是使用`from_tensor_slices()`方法创建数据集的方法：
+
+```py
+num_list1_dataset = tf.data.Dataset.from_tensor_slices(num_list1)
+```
+
+这是使用`make_one_shot_iterator()`方法在其上创建`iterator`的方法：
+
+```py
+iterator = tf.compat.v1.data.make_one_shot_iterator(num_list1_dataset)
+```
+
+这是使用`get_next`方法将它们一起使用的方法：
+
+```py
+for item in num_list1_dataset:
+    num = iterator1.get_next().numpy()
+    print(num)
+```
+
+请注意，由于我们使用的是**单次**迭代器，因此在同一程序运行中两次执行此代码会引发错误。
+
+也可以使用`batch`方法批量访问数据。 请注意，第一个参数是每个批次中要放置的元素数，第二个参数是不言自明的`drop_remainder`参数：
+
+```py
+num_list1_dataset = tf.data.Dataset.from_tensor_slices(num_list1).batch(3, drop_remainder = False)
+iterator = tf.compat.v1.data.make_one_shot_iterator(num_list1_dataset)
+for item in num_list1_dataset:
+    num = iterator.get_next().numpy()
+    print(num)
+```
+
+还有一种`zip`方法，可用于一起显示特征和标签：
+
+```py
+dataset1 = [1,2,3,4,5]
+dataset2 = ['a','e','i','o','u']
+dataset1 = tf.data.Dataset.from_tensor_slices(dataset1)
+dataset2 = tf.data.Dataset.from_tensor_slices(dataset2)
+zipped_datasets = tf.data.Dataset.zip((dataset1, dataset2))
+iterator = tf.compat.v1.data.make_one_shot_iterator(zipped_datasets)
+for item in zipped_datasets:
+    num = iterator.get_next()
+    print(num)
+```
+
+我们可以使用`concatenate`方法如下连接两个数据集：
+
+```py
+ds1 = tf.data.Dataset.from_tensor_slices([1,2,3,5,7,11,13,17])
+ds2 = tf.data.Dataset.from_tensor_slices([19,23,29,31,37,41])
+ds3 = ds1.concatenate(ds2)
+print(ds3)
+iterator = tf.compat.v1.data.make_one_shot_iterator(ds3)
+for i in range(14):
+  num = iterator.get_next()
+  print(num)
+```
+
+我们还可以完全取消迭代器，如下所示：
+
+```py
+epochs=2
+for e in range(epochs):
+  for item in ds3:
+    print(item)
+```
+
+请注意，此处的外部循环不会引发错误，因此在大多数情况下将是首选方法。
+
+# 将逗号分隔值（CSV）文件与数据集一起使用
+
+CSV 文件是一种非常流行的数据存储方法。 TensorFlow 2 包含灵活的方法来处理它们。 这里的主要方法是`tf.data.experimental.CsvDataset`。
+
+# CSV 示例 1
+
+使用以下参数，我们的数据集将由`filename`文件每一行中的两项组成，均为浮点类型，忽略文件的第一行，并使用第 1 列和第 2 列（当然，列编号为 ，从 0 开始）：
+
+```py
+filename = ["./size_1000.csv"]
+record_defaults = [tf.float32] * 2 # two required float columns
+dataset = tf.data.experimental.CsvDataset(filename, record_defaults, header=True, select_cols=[1,2])
+for item in dataset:
+  print(item)
+```
+
+# CSV 示例 2
+
+在此示例中，使用以下参数，我们的数据集将包含一个必需的浮点数，一个默认值为`0.0`的可选浮点和一个`int`，其中 CSV 文件中没有标题，而只有列 1 ，2 和 3 被导入：
+
+```py
+#file Chapter_2.ipynb
+filename = "mycsvfile.txt"
+record_defaults = [tf.float32, tf.constant([0.0], dtype=tf.float32), tf.int32,]
+dataset = tf.data.experimental.CsvDataset(filename, record_defaults, header=False, select_cols=[1,2,3])
+for item in dataset:
+  print(item)
+```
+
+# CSV 示例 3
+
+对于最后一个示例，我们的`dataset`将由两个必需的浮点数和一个必需的字符串组成，其中 CSV 文件具有`header`变量：
+
+```py
+filename = "file1.txt"
+record_defaults = [tf.float32, tf.float32, tf.string ,]
+dataset = tf.data.experimental.CsvDataset(filename, record_defaults, header=False)
+or item in dataset:
+    print(item[0].numpy(), item[1].numpy(),item[2].numpy().decode() ) 
+# decode as string is in binary format.
+```
+
+# TFRecord
+
+另一种流行的存储数据选择是 TFRecord 格式。 这是一个二进制文件格式。 对于大文件，这是一个不错的选择，因为二进制文件占用的磁盘空间更少，复制所需的时间更少，并且可以非常有效地从磁盘读取。 所有这些都会对数据管道的效率以及模型的训练时间产生重大影响。 该格式还以多种方式与 TensorFlow 一起进行了优化。 这有点复杂，因为在存储之前必须将数据转换为二进制格式，并在回读时将其解码。
+
+# TFRecord 示例 1
+
+我们在此处显示的第一个示例将演示该技术的基本内容。 （文件为`TFRecords.ipynb`）。
+
+由于 TFRecord 文件是二进制字符串序列，因此必须在保存之前指定其结构，以便可以正确地写入并随后回读。 TensorFlow 为此具有两个结构，即`tf.train.Example`和`tf.train.SequenceExample`。 您要做的是将每个数据样本存储在这些结构之一中，然后对其进行序列化，然后使用`tf.python_io.TFRecordWriter`将其保存到磁盘。
+
+在下面的示例中，浮点数组`data`被转换为二进制格式，然后保存到磁盘。 `feature`是一个字典，包含在序列化和保存之前传递给`tf.train.Example`的数据。 “TFRecord 示例 2”中显示了更详细的示例：
+
+TFRecords 支持的字节数据类型为`FloatList`，`Int64List`和`BytesList`。
+
+```py
+# file: TFRecords.ipynb
+import tensorflow as tf
+import numpy as np
+
+data=np.array([10.,11.,12.,13.,14.,15.])
+
+def npy_to_tfrecords(fname,data):
+    writer = tf.io.TFRecordWriter(fname)
+    feature={}
+    feature['data'] = tf.train.Feature(float_list=tf.train.FloatList(value=data))
+    example = tf.train.Example(features=tf.train.Features(feature=feature))
+    serialized = example.SerializeToString()
+    writer.write(serialized)
+    writer.close()
+
+npy_to_tfrecords("./myfile.tfrecords",data)
+```
+
+读回记录的代码如下。 构造了`parse_function`函数，该函数对从文件读回的数据集进行解码。 这需要一个字典（`keys_to_features`），其名称和结构与保存的数据相同：
+
+```py
+dataset = tf.data.TFRecordDataset("./myfile.tfrecords")
+
+def parse_function(example_proto):
+ keys_to_features = {'data':tf.io.FixedLenSequenceFeature([], dtype = tf.float32, allow_missing = True) }
+    parsed_features = tf.io.parse_single_example(serialized=example_proto, features=keys_to_features)
+    return parsed_features['data']
+
+dataset = dataset.map(parse_function)
+iterator = tf.compat.v1.data.make_one_shot_iterator(dataset)
+# array is retrieved as one item
+item = iterator.get_next()
+print(item)
+print(item.numpy())
+print(item[2].numpy())
+```
+
+# TFRecord 示例 2
+
+在这个例子中，我们看一下这个字典给出的更复杂的记录结构：
+
+```py
+filename = './students.tfrecords'
+data = {
+            'ID': 61553,
+            'Name': ['Jones', 'Felicity'],
+            'Scores': [45.6, 97.2] 
+        }
+```
+
+使用此方法，我们可以再次使用`Feature()`方法构造一个`tf.train.Example`类。 注意我们如何编码字符串：
+
+```py
+ID = tf.train.Feature(int64_list=tf.train.Int64List(value=[data['ID']]))
+
+Name = tf.train.Feature(bytes_list=tf.train.BytesList(value=[n.encode('utf-8') for n in data['Name']]))
+
+Scores = tf.train.Feature(float_list=tf.train.FloatList(value=data['Scores']))
+
+example = tf.train.Example(features=tf.train.Features(feature={'ID': ID, 'Name': Name, 'Scores': Scores }))
+```
+
+将此记录串行化并将其写入光盘与“TFRecord 示例 1”相同：
+
+```py
+writer = tf.io.TFRecordWriter(filename)
+writer.write(example.SerializeToString())
+writer.close()
+```
+
+为了回读这一点，我们只需要构造我们的`parse_function`函数即可反映记录的结构：
+
+```py
+dataset = tf.data.TFRecordDataset("./students.tfrecords")
+
+def parse_function(example_proto):
+    keys_to_features = {'ID':tf.io.FixedLenFeature([], dtype = tf.int64),
+                       'Name':tf.io.VarLenFeature(dtype = tf.string),
+                        'Scores':tf.io.VarLenFeature(dtype = tf.float32)
+                       }
+    parsed_features = tf.io.parse_single_example(serialized=example_proto, features=keys_to_features)
+    return parsed_features["ID"], parsed_features["Name"],parsed_features["Scores"]
+```
+
+下一步与之前相同：
+
+```py
+dataset = dataset.map(parse_function)
+
+iterator = tf.compat.v1.data.make_one_shot_iterator(dataset)
+item = iterator.get_next()
+# record is retrieved as one item
+print(item)
+```
+
+输出如下：
+
+```py
+(<tf.Tensor: id=264, shape=(), dtype=int64, numpy=61553>, <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f1bfc7567b8>, <tensorflow.python.framework.sparse_tensor.SparseTensor object at 0x7f1bfc771e80>)
+```
+
+现在我们可以从`item`中提取数据（注意，必须解码（从字节开始）字符串，其中 Python 3 的默认值为`utf8`）。 还要注意，字符串和浮点数数组将作为稀疏数组返回，并且要从记录中提取它们，我们使用稀疏数组`value`方法：
+
+```py
+print("ID: ",item[0].numpy())
+name = item[1].values.numpy()
+name1= name[0].decode()returned
+name2 = name[1].decode('utf8')
+print("Name:",name1,",",name2)
+print("Scores: ",item[2].values.numpy())
+```
+
+# 单热编码
+
+**单热编码**（**OHE**）是根据数据标签构造张量的方法，在每个标签中，与标签值相对应的每个元素中的数字为 1，其他地方为 0； 也就是说，张量中的位之一是热的（1）。
+
+# OHE 示例 1
+
+在此示例中，我们使用`tf.one_hot()`方法将十进制值`5`转换为一个单编码的值`0000100000`：
+
+```py
+y = 5
+y_train_ohe = tf.one_hot(y, depth=10).numpy() 
+print(y, "is ",y_train_ohe,"when one-hot encoded with a depth of 10")
+# 5 is 00000100000 when one-hot encoded with a depth of 10
+```
+
+# OHE 示例 2
+
+在下面的示例中，还使用从时尚 MNIST 数据集导入的示例代码很好地展示了这一点。
+
+原始标签是从 0 到 9 的整数，因此，例如`2`的标签在进行一次热编码时变为`0010000000`，但请注意索引与该索引处存储的标签之间的区别：
+
+```py
+import tensorflow as tf
+from tensorflow.python.keras.datasets import fashion_mnist
+tf.enable_eager_execution()
+width, height, = 28,28
+n_classes = 10
+
+# load the dataset
+(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
+split = 50000
+#split feature training set into training and validation sets
+(y_train, y_valid) = y_train[:split], y_train[split:]
+
+# one-hot encode the labels using TensorFlow. 
+# then convert back to numpy for display 
+y_train_ohe = tf.one_hot(y_train, depth=n_classes).numpy() 
+y_valid_ohe = tf.one_hot(y_valid, depth=n_classes).numpy()
+y_test_ohe = tf.one_hot(y_test, depth=n_classes).numpy()
+
+# show difference between the original label and a one-hot-encoded label
+
+i=5
+print(y_train[i]) # 'ordinary' number value of label at index i=5 is 2
+# 2
+# note the difference between the *index* of 5 and the *label* at that index which is 2
+print(y_train_ohe[i]) # 
+# 0\. 0\. 1\. 0\. 0.0 .0 .0\. 0\. 0.
+```
+
+接下来，我们将检查神经网络的基本数据结构：神经元的**层**。
+
+# 层
+
+ANN 使用的基本数据结构是**层**，许多相互连接的层构成了一个完整的 ANN。 可以将一层设想为神经元的数组，尽管使用单词*神经元*可能会产生误导，因为在人脑神经元和构成一层的人工神经元之间只有很少的对应关系。 记住这一点，我们将在下面使用术语*神经元*。 与任何计算机处理单元一样，神经元的特征在于其输入和输出。 通常，神经元具有许多输入和一个输出值。 每个输入连接均带有权重`w[i]`。
+
+下图显示了一个神经元。 重要的是要注意，激活函数`f`对于平凡的 ANN 而言是非线性的。 网络中的一般神经元接收来自其他神经元的输入，并且每个神经元的权重为`w[i]`，如图所示，网络*通过调整这些权重来学习权重*，以便输入生成所需的输出：
+
+![](img/67592e56-0b8c-42e6-936d-5bae84a9e962.png)
+
+图 1：人工神经元
+
+通过将输入乘以权重，将偏差乘以其权重相加，然后应用激活函数，可以得出神经元的输出（请参见下图）。
+
+下图显示了如何配置各个人工神经元和层以创建 ANN：
+
+![](img/68e8b66b-b872-4f0e-a209-c34ac9d6cf13.png)
+
+图 2：人工神经网络
+
+层的输出由以下公式给出：
+
+![](img/3b1b9398-5ec7-4c65-9bca-d3096545e6c1.png)
+
+在此， `W`是输入的权重， `X`是输入向量， `f`是非线性激活函数。
+
+层的类型很多，支持大量的 ANN 模型结构。 可以在[这个页面](https://www.tensorflow.org/api_docs/python/tf/keras/layers)中找到非常全面的列表。
+
+在这里，我们将研究一些更流行的方法，以及 TensorFlow 如何实现它们。
+
+# 密集（完全连接）层
+
+**密集层**是完全连接的层。 这意味着上一层中的所有神经元都连接到下一层中的所有神经元。 在密集的网络中，所有层都是密集的。 （如果网络具有三个或更多隐藏层，则称为**深度网络**）。
+
+`layer = tf.keras.layers.Dense(n)`行构成了一个密集层，其中`n`是输出单元的数量。
+
+注意，密集层是一维的。 请参考“模型”的部分。
+
+# 卷积层
+
+**卷积层**是一层，其中层中的神经元通过使用通常为正方形的过滤器分组为小块，并通过在该层上滑动过滤器来创建。 每个色块由*卷积*，即乘以滤波器并相加。 简而言之，**卷积网**或 **ConvNets** 已经证明自己非常擅长图像识别和处理。
+
+对于图像，卷积层具有部分签名`tf.keras.layers.Conv2D(filters, kernel_size, strides=1, padding='valid')`。
+
+因此，在下面的示例中，该第一层具有一个大小为`(1, 1)`的过滤器，并且其填充`'valid'`。 其他填充可能性是`'same'`。
+
+区别在于，使用`'same'`填充，必须在外部填充该层（通常用零填充），以便在卷积发生后，输出大小与该层大小相同。 如果使用`'valid'`填充，则不会进行填充，并且如果跨度和内核大小的组合不能完全适合该层，则该层将被截断。 输出大小小于正在卷积的层：
+
+```py
+seqtial_Net = tf.keras.Sequential([tf.keras.layers.Conv2D(   1, (1, 1), strides = 1, padding='valid')
+```
+
+# 最大池化层
+
+当窗口在层上滑动时，**最大池化层**在其窗口内取最大值，这与卷积发生的方式几乎相同。
+
+空间数据（即图像）的最大池签名如下：
+
+```py
+tf.keras.layers.MaxPooling2D(pool_size=(2, 2), strides=None, padding='valid', data_format=None)
+```
+
+因此，要使用默认值，您只需拥有以下内容：
+
+```py
+layer = tf.keras.maxPooling2D()
+```
+
+# 批量归一化层和丢弃层
+
+**批量归一化**是一个接受输入并输出相同数量的输出的层，其中激活的平均值和单位方差为零，因为这对学习有益。 批量标准化规范了激活，使它们既不会变得很小也不会爆炸性地变大，这两种情况都阻止了网络的学习。
+
+`BatchNormalization`层的签名如下：
+
+```py
+tf.keras.layers.BatchNormalization(axis=-1, momentum=0.99, epsilon=0.001, center=True, scale=True, beta_initializer='zeros', gamma_initializer='ones', moving_mean_initializer='zeros', moving_variance_initializer='ones', beta_regularizer=None, gamma_regularizer=None, beta_constraint=None, gamma_constraint=None)
+```
+
+因此，要使用默认值，只需使用以下命令：
+
+```py
+layer = tf.keras.layers.BatchNormalization()
+```
+
+**丢弃层**是其中一定百分比的神经元在训练过程中（而不是在推理过程中）随机关闭的层。 由于不鼓励单个神经元对其输入进行专门化，因此这迫使网络在泛化方面变得更好。
+
+`Dropout`层的签名如下：
+
+```py
+tf.keras.layers.Dropout(rate, noise_shape=None, seed=None)
+```
+
+`rate`参数是神经元被关闭的部分。
+
+因此，要使用它，例如，您需要：
+
+```py
+layer = tf.keras.layers.Dropout(rate = 0.5)
+```
+
+随机选择的 50% 的神经元将被关闭。
+
+# Softmax 层
+
+**softmax 层**是其中每个输出单元的激活对应于输出单元与给定标签匹配的概率的层。 因此，具有最高激活值的输出神经元是网络的预测。 当要学习的类互斥时使用此函数，以使 softmax 层输出的概率总计为 1。
+
+它被实现为在密集层上的激活。
+
+因此，例如，我们有以下内容：
+
+```py
+model2.add(tf.keras.layers.Dense(10,activation=tf.nn.softmax))
+```
+
+这将添加具有 10 个神经元的密集 softmax 层，其中神经元的激活总数为 1。
+
+接下来，我们将进一步讨论激活函数。
+
+# 激活函数
+
+重要的是要注意，神经网络具有非线性激活函数，即应用于神经元加权输入之和的函数。 除了平凡的神经网络模型外，线性激活单元无法将输入层映射到输出层。
+
+有许多常用的激活函数，包括 Sigmoid，tanh，ReLU 和泄漏的 ReLU。 一个很好的总结，以及这些函数的图表，[可以在这里找到](https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6)。
+
+# 建立模型
+
+使用 Keras 创建 ANN 模型的方法有四种：
+
+*   **方法 1** ：参数已传递给`tf.keras.Sequential`
+*   **方法 2** ：使用`tf.keras.Sequential`的`.add`方法
+*   **方法 3** ：使用 Keras 函数式 API
+*   **方法 4** ：通过将`tf.keras.Model`对象子类化
+
+有关这四种方法的详细信息，请参考第 2 章“TensorFlow 2 的高级 API，Keras”。
+
+# 梯度下降算法的梯度计算
+
+TenorFlow 的一大优势是它能够自动计算梯度以用于梯度下降算法，这当然是大多数机器学习模型的重要组成部分。 TensorFlow 提供了许多用于梯度计算的方法。
+
+启用急切执行时，有四种自动计算梯度的方法（它们也适用于图模式）：
+
+1.  `tf.GradientTape`：上下文记录了计算，因此您可以调用`tf.gradient()`来获取记录时针对任何可训练变量计算的任何张量的梯度
+2.  `tfe.gradients_function()`：采用一个函数（例如`f()`）并返回一个梯度函数（例如`fg()`），该函数可以计算`f()`的输出相对于`f()`或其部分参数的梯度
+3.  `tfe.implicit_gradients()`：这非常相似，但是`fg()`会针对这些输出所依赖的所有可训练变量计算`f()`输出的梯度
+4.  `tfe.implicit_value_and_gradients()`：几乎相同，但`fg()`也返回函数`f()`的输出
+
+我们将看看其中最流行的`tf.GradientTape`。 同样，在其上下文中，随着计算的进行，对这些计算进行记录（录音），以便可以使用`tf.gradient()`重放磁带，并实现适当的自动微分。
+
+在以下代码中，当计算`sum`方法时，磁带将在`tf.GradientTape()`上下文中记录计算结果，以便可以通过调用`tape.gradient()`找到自动微分。
+
+注意在`[weight1_grad] = tape.gradient(sum, [weight1])`中的此示例中如何使用列表。
+
+默认情况下，仅可以调用`tape.gradient()`：
+
+```py
+# by default, you can only call tape.gradient once in a GradientTape context
+weight1 = tf.Variable(2.0)
+def weighted_sum(x1):
+   return weight1 * x1
+with tf.GradientTape() as tape:
+   sum = weighted_sum(7.)
+   [weight1_grad] = tape.gradient(sum, [weight1])
+print(weight1_grad.numpy()) # 7 , weight1*x diff w.r.t. weight1 is x, 7.0, also see below.
+```
+
+在下一个示例中，请注意，参数`persistent=True`已传递给`tf.GradientTape()`。 这使我们可以多次调用`tape.gradient()`。 同样，我们在`tf.GradientTape`上下文中计算一个加权和，然后调用`tape.gradient()`来计算每项相对于`weight`变量的导数：
+
+```py
+# if you need to call tape.gradient() more than once
+# use GradientTape(persistent=True) 
+weight1 = tf.Variable(2.0)
+weight2 = tf.Variable(3.0)
+weight3 = tf.Variable(5.0)
+
+def weighted_sum(x1, x2, x3):
+    return weight1*x1 + weight2*x2 + weight3*x3
+
+with tf.GradientTape(persistent=True) as tape:
+   sum = weighted_sum(7.,5.,6.)
+
+[weight1_grad] = tape.gradient(sum, [weight1])
+[weight2_grad] = tape.gradient(sum, [weight2])
+[weight3_grad] = tape.gradient(sum, [weight3])
+
+print(weight1_grad.numpy()) #7.0
+print(weight2_grad.numpy()) #5.0
+print(weight3_grad.numpy()) #6.0
+```
+
+接下来，我们将研究损失函数。 这些是在训练神经网络模型期间优化的函数。
+
+# 损失函数
+
+`loss`函数（即，误差测量）是训练 ANN 的必要部分。 它是网络在训练期间计算出的输出与其所需输出的差异程度的度量。 通过微分`loss`函数，我们可以找到一个量，通过该量可以调整各层之间的连接权重，以使 ANN 的计算输出与所需输出更紧密匹配。
+
+最简单的`loss`函数是均方误差：
+
+![](img/1aa3395d-d5c9-498b-9eca-7c82a3a99208.png)，
+
+在此， `y`是实际标签值，`y_hat`是预测标签值。
+
+特别值得注意的是分类交叉熵`loss`函数，它由以下方程式给出：
+
+![](img/b64eba12-27da-420f-8c63-17d374b7e2a1.png)
+
+当所有可能的类别中只有一类正确时，使用`loss`函数；当`softmax`函数用作 ANN 的最后一层的输出时，将使用此`loss`函数。
+
+请注意，这两个函数可以很好地微分，这是反向传播所要求的。
+
+# 总结
+
+在本章中，我们研究了许多支持神经网络创建和使用的技术。
+
+我们涵盖了到 ANN 的数据表示，ANN 的各层，创建模型，梯度下降算法的梯度计算，损失函数以及保存和恢复模型的内容。 这些主题是在开发神经网络模型时将在后续章节中遇到的概念和技术的重要前提。
+
+确实，在下一章中，我们将通过探索许多监督的学习场景，包括线性回归，逻辑回归和 K 近邻，来认真地使用 TensorFlow。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/04.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/04.md
new file mode 100644
index 00000000..710ce2ee
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/04.md
@@ -0,0 +1,608 @@
+# 四、TensorFlow 2 和监督机器学习
+
+在本章中，我们将讨论并举例说明 TensorFlow 2 在以下情况下的监督机器学习问题中的使用：线性回归，逻辑回归和 **K 最近邻**（**KNN**） 。
+
+在本章中，我们将研究以下主题：
+
+*   监督学习
+*   线性回归
+*   我们的第一个线性回归示例
+*   波士顿住房数据集
+*   逻辑回归（分类）
+*   **K 最近邻**（**KNN**）
+
+# 监督学习
+
+监督学习是一种机器学习场景，其中一组数据点中的一个或多个数据点与标签关联。 然后，模型*学习*，以预测看不见的数据点的标签。 为了我们的目的，每个数据点通常都是张量，并与一个标签关联。 在计算机视觉中，有很多受监督的学习问题； 例如，算法显示了许多成熟和未成熟的西红柿的图片，以及表明它们是否成熟的分类标签，并且在训练结束后，该模型能够根据训练集预测未成熟的西红柿的状态。 这可能在番茄的物理分拣机制中有非常直接的应用。 或一种算法，该算法可以在显示许多示例以及它们的性别和年龄之后，学会预测新面孔的性别和年龄。 此外，如果模型已经在许多树图像及其类型标签上进行了训练，则可以学习根据树图像来预测树的类型可能是有益的。
+
+# 线性回归
+
+线性回归问题是在给定一个或多个其他变量（数据点）的值的情况下，您必须预测一个*连续*变量的值的问题。 例如，根据房屋的占地面积，预测房屋的售价。 在这些示例中，您可以将已知特征及其关联的标签绘制在简单的线性图上，如熟悉的`x, y`散点图，并绘制最适合数据的线 。 这就是最适合的**系列**。 然后，您可以读取对应于该图的`x`范围内的任何特征值的标签。
+
+但是，线性回归问题可能涉及几个特征，其中使用了术语**多个**或**多元线性回归**。 在这种情况下，不是最适合数据的线，而是一个平面（两个特征）或一个超平面（两个以上特征）。 在房价示例中，我们可以将房间数量和花园的长度添加到特征中。 有一个著名的数据集，称为波士顿住房数据集，[涉及 13 个特征](https://www.kaggle.com/c/ml210-boston)。 考虑到这 13 个特征，此处的回归问题是预测波士顿郊区的房屋中位数。
+
+术语：特征也称为预测变量或自变量。 标签也称为响应变量或因变量。
+
+# 我们的第一个线性回归示例
+
+我们将从一个简单的，人为的，线性回归问题开始设置场景。 在此问题中，我们构建了一个人工数据集，首先在其中创建，因此知道了我们要拟合的线，但是随后我们将使用 TensorFlow 查找这条线。
+
+我们执行以下操作-在导入和初始化之后，我们进入一个循环。 在此循环内，我们计算总损失（定义为点的数据集`y`的均方误差）。 然后，我们根据我们的权重和偏置来得出这种损失的导数。 这将产生可用于调整权重和偏差以降低损失的值； 这就是所谓的梯度下降。 通过多次重复此循环（技术上称为**周期**），我们可以将损失降低到尽可能低的程度，并且可以使用训练有素的模型进行预测。
+
+首先，我们导入所需的模块（回想一下，急切执行是默认的）：
+
+```py
+ import tensorflow as tf
+ import numpy as np
+```
+
+接下来，我们初始化重要的常量，如下所示：
+
+```py
+n_examples = 1000 # number of training examples
+training_steps = 1000 # number of steps we are going to train for
+display_step = 100 # after multiples of this, we display the loss
+learning_rate = 0.01 # multiplying factor on gradients
+m, c = 6, -5 # gradient and y-intercept of our line, edit these for a different linear problem
+```
+
+给定`weight`和`bias`（`m`和`c`）的函数，用于计算预测的`y`：
+
+```py
+def train_data(n, m, c):
+    x = tf.random.normal([n]) # n values taken from a normal distribution,
+    noise = tf.random.normal([n])# n values taken from a normal distribution
+    y = m*x + c + noise # our scatter plot
+    return x, y
+def prediction(x, weight, bias):
+    return weight*x + bias # our predicted (learned) m and c, expression is like y = m*x + c
+```
+
+用于获取初始或预测的权重和偏差并根据`y`计算均方损失（偏差）的函数：
+
+```py
+def loss(x, y, weights, biases): 
+    error = prediction(x, weights, biases) - y # how 'wrong' our predicted (learned) y is
+    squared_error = tf.square(error)
+    return tf.reduce_mean(input_tensor=squared_error) # overall mean of squared error, scalar value.
+```
+
+这就是 TensorFlow 发挥作用的地方。 使用名为`GradientTape()`的类，我们可以编写一个函数来计算相对于`weights`和`bias`的损失的导数（梯度）：
+
+```py
+def grad(x, y, weights, biases):
+    with tf.GradientTape() as tape:
+         loss_ = loss(x, y, weights, biases)
+    return tape.gradient(loss, [weights, bias]) # direction and value of the gradient of our weights and biases
+```
+
+为训练循环设置回归器，并显示初始损失，如下所示：
+
+```py
+x, y = train_data(n_examples,m,c) # our training values x and y
+plt.scatter(x,y)
+plt.xlabel("x")
+plt.ylabel("y")
+plt.title("Figure 1: Training Data")
+W = tf.Variable(np.random.randn()) # initial, random, value for predicted weight (m)
+B = tf.Variable(np.random.randn()) # initial, random, value for predicted bias (c)
+
+print("Initial loss: {:.3f}".format(loss(x, y, W, B)))
+```
+
+输出如下所示：
+
+![](img/99a9971b-03c1-4f4d-b0ee-b3877ad300ab.png)
+
+接下来，我们的主要训练循环。 这里的想法是根据我们的`learning_rate`来少量调整`weights`和`bias`，以将损失依次降低到我们最适合的线上收敛的点：
+
+```py
+for step in range(training_steps): #iterate for each training step
+     deltaW, deltaB = grad(x, y, W, B) # direction(sign) and value of the gradients of our loss 
+   # with respect to our weights and bias
+     change_W = deltaW * learning_rate # adjustment amount for weight
+     change_B = deltaB * learning_rate # adjustment amount for bias
+     W.assign_sub(change_W) # subract change_W from W
+     B.assign_sub(change_B) # subract change_B from B
+     if step==0 or step % display_step == 0:
+
+   # print(deltaW.numpy(), deltaB.numpy()) # uncomment if you want to see the gradients
+
+  print("Loss at step {:02d}: {:.6f}".format(step, loss(x, y, W, B)))
+```
+
+最终结果如下：
+
+```py
+print("Final loss: {:.3f}".format(loss(x, y, W, B)))
+print("W = {}, B = {}".format(W.numpy(), B.numpy()))
+print("Compared with m = {:.3f}, c = {:.3f}".format(m, c)," of the original line")
+xs = np.linspace(-3, 4, 50)
+ys = W.numpy()*xs + B.numpy()
+plt.scatter(xs,ys)
+plt.xlabel("x")
+plt.ylabel("y")
+plt.title("Figure 2: Line of Best Fit")
+```
+
+您应该看到，发现`W`和`B`的值非常接近我们用于`m`和`c`的值，这是可以预期的：
+
+![](img/f3445ea2-cea1-4ce6-9028-c8404eed2b8e.png)
+
+# 波士顿住房数据集
+
+接下来，我们将类似的回归技术应用于波士顿房屋数据集。
+
+此模型与我们之前的仅具有一个特征的人工数据集之间的主要区别在于，波士顿房屋数据集是真实数据，具有 13 个特征。 这是一个回归问题，因为我们认为房价（即标签）被不断估价。
+
+同样，我们从导入开始，如下所示：
+
+```py
+import tensorflow as tf
+from sklearn.datasets import load_boston
+from sklearn.preprocessing import scale
+import numpy as np
+```
+
+我们的重要常数如下所示：
+
+```py
+learning_rate = 0.01
+epochs = 10000
+display_epoch = epochs//20
+n_train = 300
+n_valid = 100
+```
+
+接下来，我们加载数据集并将其分为训练，验证和测试集。 我们在训练集上进行训练，并在验证集上检查和微调我们的训练模型，以确保例如没有过拟合。 然后，我们使用测试集进行最终精度测量，并查看我们的模型在完全看不见的数据上的表现如何。
+
+注意`scale`方法。 这用于将数据转换为均值为零且单位标准差为零的集合。 `sklearn.preprocessing`方法`scale`通过从特征集中的每个数据点减去平均值，然后将每个特征除以该特征集的标准差来实现此目的。
+
+这样做是因为它有助于我们模型的收敛。 所有特征也都转换为`float32`数据类型：
+
+```py
+features, prices = load_boston(True)
+ n_test = len(features) - n_train - n_valid
+
+# Keep n_train samples for training
+ train_features = tf.cast(scale(features[:n_train]), dtype=tf.float32) 
+ train_prices = prices[:n_train]
+
+# Keep n_valid samples for validation
+ valid_features = tf.cast(scale(features[n_train:n_train+n_valid]), dtype=tf.float32)
+ valid_prices = prices[n_train:n_train+n_valid]
+
+# Keep remaining n_test data points as test set)
+ test_features = tf.cast(scale(features[n_train+n_valid:n_train+n_valid+n_test]), dtype=tf.float32)
+
+test_prices = prices[n_train + n_valid : n_train + n_valid + n_test]
+```
+
+接下来，我们具有与上一个示例相似的函数。 首先，请注意我们现在使用的是更流行的路径，均方误差：
+
+```py
+# A loss function using root mean-squared error
+def loss(x, y, weights, bias):
+  error = prediction(x, weights, bias) - y # how 'wrong' our predicted (learned) y is
+  squared_error = tf.square(error)
+  return tf.sqrt(tf.reduce_mean(input_tensor=squared_error)) # squre root of overall mean of squared error.
+```
+
+接下来，我们找到相对于`weights`和`bias`的损失梯度的方向和值：
+
+```py
+# Find the derivative of loss with respect to weight and bias
+def gradient(x, y, weights, bias):
+  with tf.GradientTape() as tape:
+    loss_value = loss(x, y, weights, bias)
+  return tape.gradient(loss_value, [weights, bias])# direction and value of the gradient of our weight and bias
+```
+
+然后，我们查询设备，将初始权重设置为随机值，将`bias`设置为`0`，然后打印初始损失。
+
+请注意，`W`现在是`1`向量的`13`，如下所示：
+
+```py
+# Start with random values for W and B on the same batch of data
+W = tf.Variable(tf.random.normal([13, 1],mean=0.0, stddev=1.0, dtype=tf.float32))
+B = tf.Variable(tf.zeros(1) , dtype = tf.float32)
+print(W,B)
+print("Initial loss: {:.3f}".format(loss(train_features, train_prices,W, B)))
+```
+
+现在，进入我们的主要训练循环。 这里的想法是根据我们的`learning_rate`将`weights`和`bias`进行少量调整，以将损失逐步降低至我们已经收敛到最佳拟合线的程度。 如前所述，此技术称为**梯度下降**：
+
+```py
+for e in range(epochs): #iterate for each training epoch
+    deltaW, deltaB = gradient(train_features, train_prices, W, B) # direction (sign) and value of the gradient of our weight and bias
+    change_W = deltaW * learning_rate # adjustment amount for weight
+    change_B = deltaB * learning_rate # adjustment amount for bias
+    W.assign_sub(change_W) # subract from W
+    B.assign_sub(change_B) # subract from B
+    if e==0 or e % display_epoch == 0:
+        # print(deltaW.numpy(), deltaB.numpy()) # uncomment if you want to see the gradients
+        print("Validation loss after epoch {:02d}: {:.3f}".format(e, loss(valid_features, valid_prices, W, B)))
+```
+
+最后，让我们将实际房价与其预测值进行比较，如下所示：
+
+```py
+example_house = 69
+y = test_prices[example_house]
+y_pred = prediction(test_features,W.numpy(),B.numpy())[example_house]
+print("Actual median house value",y," in $10K")
+print("Predicted median house value ",y_pred.numpy()," in $10K")
+```
+
+# 逻辑回归（分类）
+
+这类问题的名称令人迷惑，因为正如我们所看到的，回归意味着连续值标签，例如房屋的中位数价格或树的高度。
+
+逻辑回归并非如此。 当您遇到需要逻辑回归的问题时，这意味着标签为`categorical`； 例如，零或一，`True`或`False`，是或否，猫或狗，或者它可以是两个以上的分类值； 例如，红色，蓝色或绿色，或一，二，三，四或五，或给定花的类型。 标签通常具有与之相关的概率； 例如，`P(cat = 0.92)`，`P(dog = 0.08)`。 因此，逻辑回归也称为**分类**。
+
+在下一个示例中，我们将使用`fashion_mnist`数据集使用逻辑回归来预测时尚商品的类别。
+
+这里有一些例子：
+
+![](img/b77a5c70-b3e3-4f5c-8495-ac934a9f0da1.png)
+
+逻辑回归以预测项目类别
+
+我们可以在 50,000 张图像上训练模型，在 10,000 张图像上进行验证，并在另外 10,000 张图像上进行测试。
+
+首先，我们导入建立初始模型和对其进行训练所需的模块，并启用急切的执行：
+
+```py
+import numpy as np
+import tensorflow as tf
+import keras
+from tensorflow.python.keras.datasets import fashion_mnist #this is our dataset 
+from keras.callbacks import ModelCheckpoint
+
+tf.enable_eager_execution()
+```
+
+接下来，我们初始化重要的常量，如下所示：
+
+```py
+# important constants
+batch_size = 128
+epochs = 20
+n_classes = 10
+learning_rate = 0.1
+width = 28 # of our images
+height = 28 # of our images
+```
+
+然后，我们将我们训练的时尚标签的`indices`与它们的标签相关联，以便稍后以图形方式打印出结果：
+
+```py
+fashion_labels =
+
+["Shirt/top","Trousers","Pullover","Dress","Coat","Sandal","Shirt","Sneaker","Bag","Ankle boot"]
+ #indices 0       1         2          3      4         5       6       7       8        9
+
+# Next, we load our fashion data set, 
+# load the dataset
+ (x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
+```
+
+然后，我们将每个图像中的每个整数值像素转换为`float32`并除以 255 以对其进行归一化：
+
+```py
+# normalize the features for better training
+ x_train = x_train.astype('float32') / 255.
+ x_test = x_test.astype('float32') / 255.
+```
+
+`x_train`现在由`60000`，`float32`值组成，并且`x_test`保持`10000`相似的值。
+
+然后，我们展平特征集，准备进行训练：
+
+```py
+# flatten the feature set for use by the training algorithm
+ x_train = x_train.reshape((60000, width * height))
+ x_test = x_test.reshape((10000, width * height))
+```
+
+然后，我们将训练集`x_train`和`y_train`进一步分为训练集和验证集：
+
+```py
+split = 50000
+ #split training sets into training and validation sets
+ (x_train, x_valid) = x_train[:split], x_train[split:]
+ (y_train, y_valid) = y_train[:split], y_train[split:]
+```
+
+如果标签是单热编码的，那么许多机器学习算法效果最好，因此我们接下来要做。 但请注意，我们会将产生的一束热张量转换回（单热）NumPy 数组，以备稍后由 Keras 使用：
+
+```py
+# one hot encode the labels using TensorFLow.
+ # then convert back to numpy as we cannot combine numpy
+ # and tensors as input to keras later
+ y_train_ohe = tf.one_hot(y_train, depth=n_classes).numpy()
+ y_valid_ohe = tf.one_hot(y_valid, depth=n_classes).numpy()
+ y_test_ohe = tf.one_hot(y_test, depth=n_classes).numpy()
+ #or use tf.keras.utils.to_categorical(y_train,10)
+```
+
+这是一段代码，其中显示了一个介于零到九之间的值以及其单热编码版本：
+
+```py
+# show difference between original label and one-hot-encoded label
+i=5
+print(y_train[i]) # 'ordinairy' number value of label at index i
+print (tf.one_hot(y_train[i], depth=n_classes))# same value as a 1\. in correct position in an length 10 1D tensor
+print(y_train_ohe[i]) # same value as a 1\. in correct position in an length 10 1D numpy array
+```
+
+在这里重要的是要注意索引`i`和存储在索引`i`的标签之间的差异。 这是另一段代码，显示`y_train`中的前 10 个时尚项目：
+
+```py
+# print sample fashion images.
+# we have to reshape the image held in x_train back to width by height
+# as we flattened it for training into width*height
+import matplotlib.pyplot as plt
+%matplotlib inline
+_,image = plt.subplots(1,10,figsize=(8,1))
+
+for i in range(10):
+    image[i].imshow(np.reshape(x_train[i],(width, height)), cmap="Greys")
+    print(fashion_labels[y_train[i]],sep='', end='')
+```
+
+现在，我们进入代码的重要且可概括的部分。 Google 建议，对于创建任何类型的机器学习模型，都可以通过将其分类为`tf.keras.Model`来创建模型。
+
+这具有直接的优势，即我们可以在我们的子类化模型中使用`tf.keras.Model`的所有功能，包括编译和训练例程以及层功能，在后续的章节中，我们将详细介绍。
+
+对于我们的逻辑回归示例，我们需要在子类中编写两个方法。 首先，我们需要编写一个构造器，该构造器调用超类的构造器，以便正确创建模型。 在这里，我们传入正在使用的类数（`10`），并在实例化模型以创建单个层时使用此构造器。 我们还必须声明`call`方法，并使用该方法来编程在模型训练的正向传递过程中发生的情况。
+
+稍后，当我们考虑具有前向和后向传递的神经网络时，我们将对这种情况进行更多说明。 对于我们当前的目的，我们只需要知道在`call`方法中，我们采用输入的`softmax`来产生输出。 `softmax`函数的作用是获取一个向量（或张量），然后在其元素具有该向量最大值的位置上用几乎为 1 的值覆盖，在所有其他位置上使用几乎为零的值覆盖。 这与单热编码很相似。 请注意，在此方法中，由于`softmax`未为 GPU 实现，因此我们必须在 CPU 上强制执行：
+
+```py
+# model definition (the canonical Google way)
+class LogisticRegression(tf.keras.Model):
+
+    def __init__(self, num_classes):
+        super(LogisticRegression, self).__init__() # call the constructor of the parent class (Model)
+        self.dense = tf.keras.layers.Dense(num_classes) #create an empty layer called dense with 10 elements.
+
+    def call(self, inputs, training=None, mask=None): # required for our forward pass
+        output = self.dense(inputs) # copy training inputs into our layer
+
+        # softmax op does not exist on the gpu, so force execution on the CPU
+        with tf.device('/cpu:0'):
+            output = tf.nn.softmax(output) # softmax is near one for maximum value in output
+                                           # and near zero for the other values.
+
+        return output
+```
+
+现在，我们准备编译和训练我们的模型。
+
+首先，我们确定可用的设备，然后使用它。 然后，使用我们开发的类声明模型。 声明要使用的优化程序后，我们将编译模型。 我们使用的损失，分类交叉熵（也称为**对数损失**），通常用于逻辑回归，因为要求预测是概率。
+
+优化器是一个选择和有效性的问题，[有很多可用的方法](https://www.tensorflow.org/api_guides/python/train#Optimizers)。 接下来是带有三个参数的`model.compile`调用。 我们将很快看到，它为我们的训练模型做准备。
+
+在撰写本文时，优化器的选择是有限的。 `categorical_crossentropy`是多标签逻辑回归问题的正态损失函数，`'accuracy'`度量是通常用于分类问题的度量。
+
+请注意，接下来，我们必须使用样本大小仅为输入图像之一的`model.call`方法进行虚拟调用，否则`model.fit`调用将尝试将整个数据集加载到内存中以确定输入特征的大小 。
+
+接下来，我们建立一个`ModelCheckpoint`实例，该实例用于保存训练期间的最佳模型，然后使用`model.fit`调用训练模型。
+
+找出`model.compile`和`model.fit`（以及所有其他 Python 或 TensorFlow 类或方法）的所有不同参数的最简单方法是在 Jupyter 笔记本中工作，然后按`Shift + TAB + TAB`，当光标位于相关类或方法调用上时。
+
+从代码中可以看到，`model.fit`在训练时使用`callbacks`方法（由验证准确率确定）保存最佳模型，然后加载最佳模型。 最后，我们在测试集上评估模型，如下所示：
+
+```py
+# build the model
+model = LogisticRegression(n_classes)
+# compile the model
+#optimiser = tf.train.GradientDescentOptimizer(learning_rate)
+optimiser =tf.keras.optimizers.Adam() #not supported in eager execution mode.
+model.compile(optimizer=optimiser, loss='categorical_crossentropy', metrics=['accuracy'], )
+
+# TF Keras tries to use the entire dataset to determine the shape without this step when using .fit()
+# So, use one sample of the provided input dataset size to determine input/output shapes for the model
+dummy_x = tf.zeros((1, width * height))
+model.call(dummy_x)
+
+checkpointer = ModelCheckpoint(filepath="./model.weights.best.hdf5", verbose=2, save_best_only=True, save_weights_only=True)
+    # train the model
+model.fit(x_train, y_train_ohe, batch_size=batch_size, epochs=epochs,
+              validation_data=(x_valid, y_valid_ohe), callbacks=[checkpointer], verbose=2)
+    #load model with the best validation accuracy
+model.load_weights("./model.weights.best.hdf5")
+
+    # evaluate the model on the test set
+scores = model.evaluate(x_test, y_test_ohe, batch_size, verbose=2)
+print("Final test loss and accuracy :", scores)
+y_predictions = model.predict(x_test)
+```
+
+最后，对于我们的逻辑回归示例，我们有一些代码可以检查一个时尚的测试项目，以查看其预测是否准确：
+
+```py
+    # example of one predicted versus one true fashion label
+index = 42
+index_predicted = np.argmax(y_predictions[index]) # largest label probability
+index_true = np.argmax(y_test_ohe[index]) # pick out index of element with a 1 in it
+print("When prediction is ",index_predicted)
+print("ie. predicted label is", fashion_labels[index_predicted])
+print("True label is ",fashion_labels[index_true])
+
+print ("\n\nPredicted V (True) fashion labels, green is correct, red is wrong")
+size = 12 # i.e. 12 random numbers chosen out of x_test.shape[0] =1000, we do not replace them
+fig = plt.figure(figsize=(15,3))
+rows = 3
+cols = 4
+```
+
+检查 12 个预测的随机样本，如下所示：
+
+```py
+for i, index in enumerate(np.random.choice(x_test.shape[0], size = size, replace = False)):
+          axis = fig.add_subplot(rows,cols,i+1, xticks=[], yticks=[]) # position i+1 in grid with rows rows and cols columns
+          axis.imshow(x_test[index].reshape(width,height), cmap="Greys")
+          index_predicted = np.argmax(y_predictions[index])
+          index_true = np.argmax(y_test_ohe[index])
+          axis.set_title(("{} ({})").format(fashion_labels[index_predicted],fashion_labels[index_true]),
+                                                  color=("green" if index_predicted==index_true else "red"))
+```
+
+以下屏幕快照显示了真实与（预测）时尚标签：
+
+![](img/e81c9e90-26ff-4fb8-974d-b4e4eaffb6ae.png)
+
+时尚标签
+
+到此结束我们对逻辑回归的研究。 现在，我们将看看另一种非常强大的监督学习技术，即 K 最近邻。
+
+# K 最近邻（KNN）
+
+KNN 背后的想法相对简单。 给定新的特定数据点的值，请查看该点的 KNN，并根据该 k 个邻居的标签为该点分配标签，其中`k`是算法的参数。
+
+在这种情况下，没有这样构造的模型。 该算法仅查看数据集中新点与所有其他数据点之间的所有距离，接下来，我们将使用由三种类型的鸢尾花组成的著名数据集：`iris setosa`， `iris virginica`和`iris versicolor`。 对于这些标签中的每一个，特征都是花瓣长度，花瓣宽度，萼片长度和萼片宽度。 有关显示此数据集的图表，请参见[这里](https://en.wikipedia.org/wiki/Iris_flower_data_set#/media/File:Iris_dataset_scatterplot.svg)。
+
+有 150 个数据点（每个数据点都包含前面提到的四个测量值）和 150 个相关标签。 我们将它们分为 120 个训练数据点和 30 个测试数据点。
+
+首先，我们有通常的导入，如下所示：
+
+```py
+import numpy as np
+from sklearn import datasets
+import tensorflow as tf
+# and we next load our data:
+
+iris = datasets.load_iris()
+x = np.array([i for i in iris.data])
+y = np.array(iris.target)
+
+x.shape, y.shape
+```
+
+然后，我们将花标签放在列表中以备后用，如下所示：
+
+```py
+flower_labels = ["iris setosa", "iris virginica", "iris versicolor"]
+```
+
+现在是时候对标签进行一次热编码了。 `np.eye`返回一个二维数组，在对角线上有一个，默认为主对角线。 然后用`y`进行索引为我们提供了所需的`y`单热编码：
+
+```py
+#one hot encoding, another method
+y = np.eye(len(set(y)))[y]
+y[0:10]
+```
+
+接下来，我们将特征规格化为零到一，如下所示：
+
+```py
+x = (x - x.min(axis=0)) / (x.max(axis=0) - x.min(axis=0))
+```
+
+为了使算法正常工作，我们必须使用一组随机的训练特征。 接下来，我们还要通过从数据集的整个范围中删除训练指标来设置测试指标：
+
+```py
+# create indices for the train-test split
+np.random.seed(42)
+split = 0.8 # this makes 120 train and 30 test features
+train_indices = np.random.choice(len(x), round(len(x) * split), replace=False)
+test_indices =np.array(list(set(range(len(x))) - set(train_indices)))
+```
+
+我们现在可以创建我们的训练和测试特征，以及它们的相关标签：
+
+```py
+# the train-test split
+ train_x = x[train_indices]
+ test_x = x[test_indices]
+ train_y = y[train_indices]
+ test_y = y[test_indices]
+```
+
+现在，我们将`k`的值设置为`5`，如下所示：
+
+```py
+k = 5
+```
+
+接下来，在 Jupyter 笔记本中，我们具有预测测试数据点类别的函数。 我们将逐行对此进行细分。
+
+首先是我们的`distance`函数。 执行此函数后，可变距离包含我们 120 个训练点与 30 个测试点之间的所有（曼哈顿）距离； 也就是说，由 30 行乘 120 列组成的数组-曼哈顿距离，有时也称为**城市街区距离**，是`x[1], x[2]`的两个数据点向量的值之差的绝对值； 即`|x[1] - x[2]|`。 如果需要的话（如本例所示），将使用各个特征差异的总和。
+
+`tf.expand`在`test_x`上增加了一个额外的维数，以便在减法发生之前，可以通过广播使两个数组*扩展*以使其与减法兼容。 由于`x`具有四个特征，并且`reduce_sum`超过`axis=2`，因此结果是我们 30 个测试点和 120 个训练点之间的距离的 30 行。 所以我们的`prediction`函数是：
+
+```py
+def prediction(train_x, test_x, train_y,k):
+    print(test_x)
+    d0 = tf.expand_dims(test_x, axis =1)
+    d1 = tf.subtract(train_x, d0)
+    d2 = tf.abs(d1)
+    distances = tf.reduce_sum(input_tensor=d2, axis=2)
+    print(distances)
+    # or
+    # distances = tf.reduce_sum(tf.abs(tf.subtract(train_x, tf.expand_dims(test_x, axis =1))), axis=2)
+```
+
+然后，我们使用`tf.nn.top_k`返回 KNN 的索引作为其第二个返回值。 请注意，此函数的第一个返回值是距离本身的值，我们不需要这些距离，因此我们将其“扔掉”（带下划线）：
+
+```py
+_, top_k_indices = tf.nn.top_k(tf.negative(distances), k=k)
+```
+
+接下来，我们`gather`，即使用索引作为切片，找到并返回与我们最近的邻居的索引相关联的所有训练标签：
+
+```py
+top_k_labels = tf.gather(train_y, top_k_indices)
+```
+
+之后，我们对预测进行汇总，如下所示：
+
+```py
+predictions_sum = tf.reduce_sum(input_tensor=top_k_labels, axis=1)
+```
+
+最后，我们通过找到最大值的索引来返回预测的标签：
+
+```py
+pred = tf.argmax(input=predictions_sum, axis=1)
+```
+
+返回结果预测`pred`。 作为参考，下面是一个完整的函数：
+
+```py
+def prediction(train_x, test_x, train_y,k):
+     distances = tf.reduce_sum(tf.abs(tf.subtract(train_x, tf.expand_dims(test_x, axis =1))), axis=2)
+     _, top_k_indices = tf.nn.top_k(tf.negative(distances), k=k)
+     top_k_labels = tf.gather(train_y, top_k_indices)
+     predictions_sum = tf.reduce_sum(top_k_labels, axis=1)
+     pred = tf.argmax(predictions_sum, axis=1)
+     return pred
+```
+
+打印在此函数中出现的各种张量的形状可能非常有启发性。
+
+代码的最后一部分很简单。 我们将花朵标签的预测与实际标签压缩（连接）在一起，然后我们可以遍历它们，打印出来并求出正确性总计，然后将精度打印为测试集中数据点数量的百分比 ：
+
+```py
+i, total = 0 , 0
+results = zip(prediction(train_x, test_x, train_y,k), test_y) #concatenate predicted label with actual label
+print("Predicted Actual")
+print("--------- ------")
+for pred, actual in results:
+    print(i, flower_labels[pred.numpy()],"\t",flower_labels[np.argmax(actual)] )
+    if pred.numpy() == np.argmax(actual):
+        total += 1
+    i += 1
+accuracy = round(total/len(test_x),3)*100
+print("Accuracy = ",accuracy,"%")
+```
+
+如果您自己输入代码，或运行提供的笔记本电脑，则将看到准确率为 96.7%，只有一个`iris versicolor`被误分类为`iris virginica`（测试索引为 25）。
+
+# 总结
+
+在本章中，我们看到了在涉及线性回归的两种情况下使用 TensorFlow 的示例。 其中将特征映射到具有连续值的已知标签，从而可以对看不见的特征进行预测。 我们还看到了逻辑回归的一个示例，更好地描述为分类，其中将特征映射到分类标签，再次允许对看不见的特征进行预测。 最后，我们研究了用于分类的 KNN 算法。
+
+我们现在将在第 5 章“将 TensorFlow 2 用于无监督学习”，继续进行无监督学习，在该过程中，特征和标签之间没有初始映射，并且 TensorFlow 的任务是发现特征之​​间的关系。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/05.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/05.md
new file mode 100644
index 00000000..a7d608a5
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/05.md
@@ -0,0 +1,537 @@
+# 五、TensorFlow 2 和无监督学习
+
+在本章中，我们将研究使用 TensorFlow 2 进行无监督学习。无监督学习的目的是在数据中发现以前未标记数据点的模式或关系； 因此，我们只有特征。 这与监督式学习形成对比，在监督式学习中，我们既提供了特征及其标签，又希望预测以前未见过的新特征的标签。 在无监督学习中，我们想找出我们的数据是否存在基础结构。 例如，可以在不事先了解其结构的情况下以任何方式对其进行分组或组织吗？ 这被称为**聚类**。 例如，亚马逊在其推荐系统中使用无监督学习来建议您以书本方式可能购买的商品，例如，通过识别以前购买的商品类别来提出建议。
+
+无监督学习的另一种用途是在数据压缩技术中，其中数据中的模式可以用更少的内存表示，而不会损害数据的结构或完整性。 在本章中，我们将研究两个自编码器，以及如何将它们用于压缩数据以及如何消除图像中的噪声。
+
+在本章中，我们将深入探讨自编码器。
+
+# 自编码器
+
+自编码是一种使用 ANN 实现的数据压缩和解压缩算法。 由于它是学习算法的无监督形式，因此我们知道只需要未标记的数据。 它的工作方式是通过强制输入通过瓶颈（即，宽度小于原始输入的一层或多层）来生成输入的压缩版本。 要重建输入（即解压缩），我们可以逆向处理。 我们使用反向传播在中间层中创建输入的表示形式，并重新创建输入作为表示形式的输出。
+
+自编码是有损的，也就是说，与原始输入相比，解压缩后的输出将变差。 这与 MP3 和 JPEG 压缩格式相似。
+
+自编码是特定于数据的，也就是说，只有与它们经过训练的数据相似的数据才可以正确压缩。 例如，训练有素的自编码器在汽车图片上的表现会很差，这是因为其学习到的特征将是汽车特有的。
+
+# 一个简单的自编码器
+
+让我们编写一个非常简单的自编码器，该编码器仅使用一层 ANN。 首先，像往常一样，让我们​​从导入开始，如下所示：
+
+```py
+from tensorflow.keras.layers import Input, Dense
+from tensorflow.keras.models import Model
+from tensorflow.keras.datasets import fashion_mnist
+from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping
+from tensorflow.keras import regularizers
+
+import numpy as np
+import matplotlib.pyplot as plt
+
+%matplotlib inline
+```
+
+# 预处理数据
+
+然后，我们加载数据。 对于此应用，我们将使用`fashion_mnist`数据集，该数据集旨在替代著名的 MNIST 数据集。 本节末尾有这些图像的示例。 每个数据项（图像中的像素）都是 0 到 255 之间的无符号整数，因此我们首先将其转换为`float32`，然后将其缩放为零至一的范围，以使其适合以后的学习过程：
+
+```py
+(x_train, _), (x_test, _) = fashion_mnist.load_data() # we don't need the labels
+x_train = x_train.astype('float32') / 255\. # normalize
+x_test = x_test.astype('float32') / 255.
+
+print(x_train.shape) # shape of input
+print(x_test.shape)
+```
+
+这将给出形状，如以下代码所示：
+
+```py
+(60000, 28, 28)
+(10000, 28, 28)
+```
+
+接下来，我们将图像展平，因为我们要将其馈送到一维的密集层：
+
+```py
+x_train = x_train.reshape(( x_train.shape[0], np.prod(x_train.shape[1:]))) #flatten
+x_test = x_test.reshape((x_test.shape[0], np.prod(x_test.shape[1:])))
+
+print(x_train.shape)
+print(x_test.shape)
+```
+
+现在的形状如下：
+
+```py
+(60000, 784)
+(10000, 784)
+```
+
+分配所需的尺寸，如以下代码所示：
+
+```py
+image_dim = 784 # this is the size of our input image, 784
+encoding_dim = 32 # this is the length of our encoded items.Compression of factor=784/32=24.5
+```
+
+接下来，我们构建单层编码器和自编码器模型，如下所示：
+
+```py
+input_image = Input(shape=(image_dim, )) # the input placeholder
+
+encoded_image = Dense(encoding_dim, activation='relu',
+ activity_regularizer=regularizers.l1(10e-5))(input_image)# "encoded" is the encoded representation of the input
+
+encoder = Model(input_image, encoded_image)
+
+decoded_image = Dense(image_dim, activation='sigmoid')(encoded_image)# "decoded" is the lossy reconstruction of the input
+
+autoencoder = Model(input_image, decoded_image) # this model maps an input to its reconstruction
+```
+
+然后，我们构造解码器模型，如下所示：
+
+```py
+encoded_input = Input(shape=(encoding_dim,))# create a placeholder for an encoded (32-dimensional) input
+
+decoder_layer = autoencoder.layers[-1]# retrieve the last layer of the autoencoder model
+
+decoder = Model(encoded_input, decoder_layer(encoded_input))# create the decoder model
+```
+
+接下来，我们可以编译我们的自编码器。 由于数据几乎是二元的，因此选择了`binary_crossentropy`损失，因此，我们可以最小化每个像素的二元交叉熵：
+
+```py
+autoencoder.compile(optimizer='adadelta', loss='binary_crossentropy')
+```
+
+我们可以定义两个有用的检查点。 第一个在每个周期后保存模型。 如果`save_best_only=True`，根据监视的数量（验证损失），最新的最佳模型将不会被覆盖。
+
+其签名如下：
+
+```py
+keras.callbacks.ModelCheckpoint(filepath, monitor='val_loss', verbose=0, save_best_only=False, save_weights_only=False, mode='auto', period=1)
+```
+
+我们声明如下：
+
+```py
+checkpointer1 = ModelCheckpoint(filepath= 'model.weights.best.hdf5' , verbose =2, save_best_only = True)
+```
+
+当监视器中的更改（验证损失）小于`min_delta`时，即小于`min_delta`的更改不算改善时，第二个检查点停止训练。 这对于`patience`周期必定会发生，然后停止训练。 其签名如下：
+
+```py
+EarlyStopping(monitor='val_loss', min_delta=0, patience=0, verbose=0, mode='auto', baseline=None)
+```
+
+我们声明如下：
+
+```py
+checkpointer2 = EarlyStopping(monitor='val_loss', min_delta=0.0005, patience=2, verbose=2, mode='auto')
+```
+
+# 训练
+
+训练运行使用`.fit`方法，其签名如下：
+
+```py
+autoencoder.fit(x=None, y=None, batch_size=None, epochs=1, verbose=1, callbacks=None, validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None, initial_epoch=0, steps_per_epoch=None, validation_steps=None, max_queue_size=10, workers=1, use_multiprocessing=False, **kwargs)
+```
+
+香草训练运行如下。 注意，我们如何传递`x`和`y`的`x_train`，因为我们要使用`x`输入并尝试在输出（`y=x`）上再现它。 请注意以下代码：
+
+```py
+epochs = 50
+autoencoder.fit(x_train, x_train, epochs=epochs, batch_size=256, verbose=2, shuffle=True, validation_data=(x_test, x_test))
+```
+
+这之后是一些代码，用于压缩和解压缩（编码和解码）`test`数据。 请记住，`encoder`和`decoder`都是模型，所以我们可以调用该方法。 在它们上使用`predict`方法生成其输出：
+
+```py
+encoded_images = encoder.predict(x_test) #compress
+decoded_images = decoder.predict(encoded_images) #decompress
+```
+
+我们还可以使用`ModelCheckpoint`检查点，在这种情况下，我们的`.fit`调用如下：
+
+```py
+epochs = 50
+autoencoder.fit(x_train, x_train, epochs=epochs, batch_size=256, verbose=2, callbacks=[checkpointer1], shuffle=True, validation_data=(x_test, x_test))
+```
+
+我们还需要按如下方式加载保存的权重，以获取最佳模型：
+
+```py
+autoencoder.load_weights('model.weights.best.hdf5' )
+encoded_images = encoder.predict(x_test)
+decoded_images = decoder.predict(encoded_images)
+```
+
+以类似的方式，我们可以使用`EarlyStopping`，在这种情况下，`.fit`调用如下：
+
+```py
+epochs = 50
+autoencoder.fit(x_train, x_train, epochs=epochs, batch_size=256, verbose=2, callbacks=[checkpointer2], shuffle=True, validation_data=(x_test, x_test))
+```
+
+# 显示结果
+
+下面是一些代码，可以在屏幕上前后打印一些内容。 我们正在使用以下代码：
+
+```py
+plt.subplot(nrows, ncols, index, **kwargs)
+```
+
+子图在具有`nrows`行和`ncols`列的网格上的`index`位置处，`index`位置从左上角的一个位置开始，并向右增加以定位时尚项目：
+
+```py
+number_of_items = 12 # how many items we will display
+plt.figure(figsize=(20, 4))
+for i in range(number_of_items):
+    # display items before compression 
+    graph = plt.subplot(2, number_of_items, i + 1)
+    plt.imshow(x_test[i].reshape(28, 28))
+    plt.gray()
+    graph.get_xaxis().set_visible(False)
+    graph.get_yaxis().set_visible(False)
+
+    # display items after decompression
+    graph = plt.subplot(2, number_of_items, i + 1 + number_of_items)
+    plt.imshow(decoded_images[i].reshape(28, 28))
+    plt.gray()
+    graph.get_xaxis().set_visible(False)
+    graph.get_yaxis().set_visible(False)
+plt.show()
+```
+
+压缩前的结果如下：
+
+![](img/9758ae58-a6e9-401b-8c2a-cc46c6d4a00c.png)
+
+减压后，结果如下所示：
+
+![](img/e6499d2a-350c-4aff-bf67-72f8dd0338a8.png)
+
+因此，压缩/解压缩的有损性很明显。 作为一种可能的健全性检查，如果我们使用`encoding_dim = 768`（与输入相同数量的隐藏层节点），我们将得到以下结果：
+
+![](img/a271f6c6-dc36-446e-a527-44d5edf655be.png)
+
+这可能与原始版本略有不同。 接下来，我们将看一下自编码的应用。
+
+# 自编码器应用–去噪
+
+自编码器的一个很好的应用是去噪：去除图像（噪声）中小的随机伪像的过程。 我们将用多层卷积码代替简单的一层自编码器。
+
+我们将人造噪声添加到我们的时装中，然后将其消除。 我们还将借此机会研究使用 TensorBoard 来检查一些网络训练指标。
+
+# 构建模型
+
+我们最初的导入包括我们的卷积网络的导入。
+
+注意，我们不必显式地使用 Keras，因为它是 TensorFlow 本身的模块，如以下代码所示：
+
+```py
+from tensorflow.keras.layers import Input, Dense, Conv2D, MaxPooling2D, UpSampling2D
+from tensorflow.keras.models import Model
+from tensorflow.keras.datasets import fashion_mnist
+from tensorflow.keras.callbacks import TensorBoard
+import numpy as np
+import matplotlib.pyplot as plt
+%matplotlib inline
+```
+
+# 预处理数据
+
+首先，加载图像数据； 我们不需要标签，因为我们只关注图像本身：
+
+```py
+(train_x, _), (test_x, _) = fashion_mnist.load_data()
+```
+
+接下来，像以前一样，将图像数据点转换为零至一范围内的`float32`值：
+
+```py
+train_x = train_x.astype('float32') / 255.
+test_x = test_x.astype('float32') / 255.
+```
+
+检查形状，如以下代码所示：
+
+```py
+print(train_x.shape)
+print(test_x.shape)
+```
+
+它给出以下结果：
+
+```py
+(60000, 28, 28) (10000, 28, 28)
+```
+
+输入卷积层需要以下形状：
+
+```py
+train_x = np.reshape(train_x, (len(train_x), 28, 28, 1)) 
+test_x = np.reshape(test_x, (len(test_x), 28, 28, 1))
+```
+
+在这里，形状中的一个是用于灰度通道； 以下是形状的完整性检查：
+
+```py
+print(train_x.shape)
+print(test_x.shape)
+```
+
+得到以下结果：
+
+```py
+(60000, 28, 28, 1) (10000, 28, 28, 1)
+```
+
+为了在图像中引入一些随机噪声，我们在训练和测试集中添加了`np.random.normal`（即高斯）值数组。 所需的签名如下：
+
+```py
+numpy.random.normal(loc=0.0, scale=1.0, size=None)
+```
+
+在这里，`loc`是分布的中心，`scale`是标准差，`size`是输出形状。 因此，我们使用以下代码：
+
+```py
+noise = 0.5
+train_x_noisy = train_x + noise * np.random.normal(loc=0.0, scale=1.0, size=train_x.shape) 
+test_x_noisy = test_x + noise * np.random.normal(loc=0.0, scale=1.0, size=test_x.shape) 
+```
+
+由于这可能会使我们的值超出零至一的范围，因此我们将值裁剪到该范围：
+
+```py
+train_x_noisy = np.clip(train_x_noisy, 0., 1.)
+test_x_noisy = np.clip(test_x_noisy, 0., 1.)
+```
+
+# 噪声图像
+
+下面的代码从测试集中打印出一些嘈杂的图像。 注意如何调整图像的显示形状：
+
+```py
+plt.figure(figsize=(20, 2))
+for i in range(number_of_items):
+    display = plt.subplot(1, number_of_items,i+1)
+    plt.imshow(test_x_noisy[i].reshape(28, 28))
+    plt.gray()
+    display.get_xaxis().set_visible(False)
+    display.get_yaxis().set_visible(False)
+plt.show()
+```
+
+这是结果，如以下屏幕快照所示：
+
+![](img/4456e23d-5c7b-4978-a348-ab3a9be3e662.png)
+
+因此很明显，原始图像与噪点几乎没有区别。
+
+# 创建编码层
+
+接下来，我们创建编码和解码层。 我们将使用 Keras 函数式 API 风格来设置模型。 我们从一个占位符开始，以（下一个）卷积层所需的格式输入：
+
+```py
+input_image = Input(shape=(28, 28, 1))
+```
+
+接下来，我们有一个卷积层。 回忆卷积层的签名：
+
+```py
+Conv2D(filters, kernel_size, strides=(1, 1), padding='valid', data_format=None, dilation_rate=(1, 1), activation=None, use_bias=True, kernel_initializer='glorot_uniform', bias_initializer='zeros', kernel_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None, **kwargs)
+```
+
+我们将主要使用默认值； 接下来是我们的第一个`Conv2D`。 注意`(3,3)`的内核大小； 这是 Keras 应用于输入图像的滑动窗口的大小。 还记得`padding='same'`表示图像用 0 左右填充，因此卷积的输入和输出层是内核（过滤器）以其中心“面板”开始于图像中第一个像素时的大小。 。 默认步幅`(1, 1)`表示滑动窗口一次从图像的左侧到末尾水平移动一个像素，然后向下移动一个像素，依此类推。 接下来，我们将研究每个层的形状，如下所示：
+
+```py
+im = Conv2D(filters=32, kernel_size=(3, 3), activation='relu', padding='same')(input_image)
+print(x.shape)
+```
+
+得到以下结果：
+
+```py
+(?, 28, 28, 32)
+```
+
+`?`代表输入项目的数量。
+
+接下来，我们有一个`MaxPooling2D`层。 回想一下，在此情况下，此操作将在图像上移动`(2, 2)`大小的滑动窗口，并采用在每个窗口中找到的最大值。 其签名如下：
+
+```py
+MaxPooling2D(pool_size=(2, 2), strides=None, padding='valid', data_format=None, **kwargs)
+```
+
+这是下采样的示例，因为生成的图像尺寸减小了。 我们将使用以下代码：
+
+```py
+im = MaxPooling2D((2, 2), padding='same')(im)
+print(im.shape)
+```
+
+得到以下结果：
+
+```py
+(?, 14, 14, 32)
+```
+
+其余的编码层如下：
+
+```py
+im = Conv2D(32, (3, 3), activation='relu', padding='same')(im)
+print(im.shape)
+encoded = MaxPooling2D((2, 2), padding='same')(im)
+print(encoded.shape)
+```
+
+所有这些都结束了编码。
+
+# 创建解码层
+
+为了进行解码，我们反转了该过程，并使用上采样层`UpSampling2D`代替了最大池化层。 上采样层分别按大小[0]和大小[1]复制数据的行和列。
+
+因此，在这种情况下，*会取消*最大合并层的效果，尽管会损失细粒度。 签名如下：
+
+```py
+ UpSampling2D(size=(2, 2), data_format=None, **kwargs)
+```
+
+我们使用以下内容：
+
+```py
+im = UpSampling2D((2, 2))(im)
+```
+
+以下是解码层：
+
+```py
+im = Conv2D(32, (3, 3), activation='relu', padding='same')(encoded)
+print(im.shape)
+im = UpSampling2D((2, 2))(im)
+print(im.shape)
+im = Conv2D(32, (3, 3), activation='relu', padding='same')(im)
+print(im.shape)
+im = UpSampling2D((2, 2))(im)
+print(im.shape)
+decoded = Conv2D(1, (3, 3), activation='sigmoid', padding='same')(im)
+print(decoded.shape)
+```
+
+得到以下结果：
+
+```py
+(?, 7, 7, 32) (?, 14, 14, 32) (?, 14, 14, 32) (?, 28, 28, 32) (?, 28, 28, 1)
+```
+
+因此，您可以看到解码层如何逆转编码层的过程。
+
+# 模型摘要
+
+这是我们模型的摘要：
+
+![](img/b33ae38e-dc32-4e06-bb11-b04215f913c1.png)
+
+看看我们如何得出参数数字很有启发性。
+
+公式是参数数量 = 过滤器数量 x 内核大小 x 上一层的深度 + 过滤器数量（用于偏差）：
+
+*   `input_1`：这是一个占位符，没有可训练的参数
+*   `conv2d`：过滤器数量`= 32`，内核大小`= 3 * 3 = 9`，上一层的深度`= 1`，因此`32 * 9 + 32 = 320`
+*   `max_pooling2d`：最大池化层没有可训练的参数。
+*   `conv2d_1`：过滤器数`= 32`，内核大小`= 3 * 3 = 9`，上一层的深度`= 14`，因此`32 * 9 * 32 + 32 = 9,248`
+*   `conv_2d_2`，`conv2d_3`：与`conv2d_1`相同
+*   `conv2d_4`：`1 * 9 * 32 + 1 = 289`
+
+# 模型实例化，编译和训练
+
+接下来，我们用输入层和输出层实例化模型，然后使用`.compile`方法设置模型以进行训练：
+
+```py
+autoencoder = Model(inputs=input_img, outputs=decoded)
+autoencoder.compile(optimizer='adadelta', loss='binary_crossentropy')
+```
+
+现在，我们准备训练模型以尝试恢复时尚商品的图像。 请注意，我们已经为 TensorBoard 提供了回调，因此我们可以看一下一些训练指标。 Keras TensorBoard 签名如下：
+
+```py
+keras.callbacks.TensorBoard(
+    ["log_dir='./logs'", 'histogram_freq=0', 'batch_size=32', 'write_graph=True', 'write_grads=False', 'write_images=False', 'embeddings_freq=0', 'embeddings_layer_names=None', 'embeddings_metadata=None', 'embeddings_data=None', "update_freq='epoch'"],
+)
+```
+
+我们将主要使用默认值，如下所示：
+
+```py
+tb = [TensorBoard(log_dir='./tmp/tb', write_graph=True)]
+```
+
+接下来，我们使用`.fit()`方法训练自编码器。 以下代码是其签名：
+
+```py
+fit(x=None, y=None, batch_size=None, epochs=1, verbose=1, callbacks=None, validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None, initial_epoch=0, steps_per_epoch=None, validation_steps=None, validation_freq=1)
+```
+
+注意我们如何将`x_train_noisy`用于特征（输入），并将`x_train`用于标签（输出）：
+
+```py
+epochs=100
+batch_size=128
+
+autoencoder.fit(x_train_noisy, x_train, epochs=epochs,batch_size=batch_size, shuffle=True, validation_data=(x_test_noisy, x_test), callbacks=tb)
+```
+
+# 去噪图像
+
+现在，通过解码以下第一行中的所有测试集，然后循环遍历一个固定数字（`number_of_items`）并显示它们，来对测试集中的一些噪点图像进行去噪。 请注意，在显示每个图像（`im`）之前，需要对其进行重塑：
+
+```py
+decoded_images = autoencoder.predict(test_noisy_x)
+number_of_items = 10
+plt.figure(figsize=(20, 2))
+for item in range(number_of_items):
+    display = plt.subplot(1, number_of_items,item+1)
+    im = decoded_images[item].reshape(28, 28)
+   plt.imshow(im, cmap="gray")
+    display.get_xaxis().set_visible(False)
+    display.get_yaxis().set_visible(False)
+plt.show()
+```
+
+我们得到以下结果：
+
+![](img/5fd8eb0d-a384-485f-a54a-d05fb4780f67.png)
+
+考虑到图像最初模糊的程度，降噪器已经做了合理的尝试来恢复图像。
+
+# TensorBoard 输出
+
+要查看 TensorBoard 输出，请在命令行上使用以下命令：
+
+```py
+tensorboard  --logdir=./tmp/tb
+```
+
+然后，您需要将浏览器指向`http://localhost:6006`。
+
+下图显示了作为训练和验证时间的函数（`x`轴）的损失（`y`轴）：
+
+下图显示了训练损失：
+
+![](img/1e1ff356-312f-4c90-8f53-75798f678bc4.png)
+
+验证损失如下图所示：
+
+![](img/beed13e6-2d68-4db6-bd11-1d4fe2ea089d.png)
+
+到此结束我们对自编码器的研究。
+
+# 总结
+
+在本章中，我们研究了自编码器在无监督学习中的两种应用：首先用于压缩数据，其次用于降噪，这意味着从图像中去除噪声。
+
+在下一章中，我们将研究如何在图像处理和识别中使用神经网络。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/06.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/06.md
new file mode 100644
index 00000000..371233f2
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/06.md
@@ -0,0 +1,659 @@
+# 六、使用 TensorFlow 2 识别图像
+
+本章分为两部分，但我们将同时学习使用 TensorFlow 进行图像分类。
+
+在本章中，我们将涵盖以下主要主题：
+
+*   QuickDraw – 使用 TensorFlow 进行图像分类
+*   使用 TensorFlow 的 CIFAR 10 图像分类
+
+在第一部分中，我们将使用在前几章中学到的技术开发 TensorFlow 2 模型以进行图像识别，尤其是第 2 章， “Keras，TensorFlow 2 的高级 API”。 这将使我们能够看到如何使用 TensorFlow 2 将所有相关技术结合在一起来创建，训练和评估完整的模型。我们将利用 Google 提供的 QuickDraw 图片数据集可帮助您解决此问题。
+
+# QuickDraw – 使用 TensorFlow 进行图像分类
+
+我们将使用从 Google QuickDraw 拍摄的图像数据集。 这是一个公开的开放源代码，它包含 345 个类别的 5000 万张图像的数据集，所有这些图像都是由参与挑战的 1500 万名用户在 20 秒或更短的时间内绘制的。 我们将训练 10 个类别的 10,000 张图像，其中一些被选择为相似图像，以便我们可以测试模型的区分能力。 您可以在[这个页面](https://quickdraw.withgoogle.com/data)上查看这些图像的示例。 这些图片有多种格式，请参见[这个页面](https://github.com/googlecreativelab/quickdraw-dataset)中的所有格式。
+
+在这里，我们将使用已存储为`.npy`文件的图像。 `.npy`文件的公共数据集托管在[这个页面](https://console.cloud.google.com/storage/browser/quickdraw_dataset/full/numpy_bitmap?pli=1)上。 从这里可以一次下载一组。 要使用不同的图像运行此示例，请从数据目录中删除图像文件，然后将所需的图像下载到存储库中的同一目录中。 该程序从文件名中读取标签。
+
+在本节中，我们将涵盖以下主题：
+
+*   采集数据
+*   预处理数据
+*   建立模型
+*   训练和测试模型
+*   保存，加载和重新测试模型
+*   使用`.h5`格式保存和加载 NumPy 图像数据
+*   加载预训练的模型
+*   使用预训练的模型
+
+我们将逐步开发和呈现代码片段。 这些代码段通过螺栓连接在一起，[成为存储库中的完整程序](https://github.com/PacktPublishing/Tensorflow-2.0-Quick-Start-Guide)。
+
+# 采集数据
+
+我们将需要从 Google 下载数据。 您可以将数据下载到一个空目录`data_files`。
+
+转到[这里](https://console.cloud.google.com/storage/browser/quickdraw_dataset/full/numpy_bitmap?pli=1)并将 10 个数据集下载到`data_files`文件夹中。 以下是将要下载的文件的示例：
+
+```py
+'alarm_clock.npy', 'broom.npy', 'ant.npy', 'bee.npy', 'cell_phone.npy', 'baseball.npy', 'dolphin.npy', 'crocodile.npy', 'aircraft_carrier.npy', 'asparagus.npy'
+```
+
+您将下载的文件名称前会带有多余的位，例如`full_numpy_bitmap_alarm clock.npy`。
+
+为了使这些内容更简洁，请删除开头的位，然后重命名文件，以使文件名在我们的示例中变为`alarm_clock.npy`。 对所有 10 个文件执行此操作。
+
+# 建立环境
+
+首先，我们需要导入依赖项：
+
+```py
+import tensorflow as tf
+import keras
+import numpy as np
+from sklearn.model_selection import train_test_split
+from os import walk
+```
+
+您可能需要运行`pip install sklearn`。 接下来，我们将建立一些常量供以后使用：
+
+```py
+batch_size = 128
+img_rows, img_cols = 28, 28 # image dimensions
+```
+
+接下来，我们将使用`os.walk`方法从`data_files`文件夹中收集数据集的文件名：
+
+请注意，文件名收集在列表变量`filenames`中。
+
+```py
+data_path = "data_files/" 
+for (dirpath, dirnames, filenames) in walk(data_path):
+     pass # filenames accumulate in list 'filenames'
+print(filenames)
+```
+
+对于我们的示例，文件名（对应于`label`类别）如下：
+
+```py
+['alarm_clock.npy', 'broom.npy', 'ant.npy', 'bee.npy', 'cell_phone.npy', 'baseball.npy', 'dolphin.npy', 'crocodile.npy', 'aircraft_carrier.npy', 'asparagus.npy']
+```
+
+要使用不同的图像运行该示例，只需将 10 个不同的文件下载到`data`文件夹中。
+
+接下来，我们将定义模型所需的更多值。 图像总数（`num_images`）可在此处更改：
+
+```py
+num_images = 1000000 ### was 100000, reduce this number if memory issues.
+num_files = len(filenames) # we have 10 files
+images_per_category = num_images//num_files
+seed = np.random.randint(1, 10e7)
+i=0
+print(images_per_category)
+```
+
+# 预处理数据
+
+接下来是将图像加载到内存中的代码。 我们将遍历文件，并在获取文件路径的值之后，加载该文件或一组图像（`x`）。 然后，将`x`转换为浮点数，然后除以 255，将其设置为 0 到 1 的范围。之后，我们为该组图像`x`创建一个数字标签`y`。 对于第一组图像，该值为 0，对于下一组图像，此值为 1，一直到最后一组图像的 9，由变量`i`控制。 然后，我们将集合`x`和`y`切片，以将图像和标签放回`x`和`y`中。 之后，我们将`x`和`y`累积到`x_all`和`y_all`中，如果这是它们第一次进入循环（即`i=0`），则创建这两个新列表，并将`x`和[ 如果这不是他们第一次通过循环（即`i>0`），则将它们移到`y`上。 当此循环终止时，`x_all`和`y_all`将分别包含带有标签的图像：
+
+```py
+i=0
+for file in filenames:
+     file_path = data_path + file
+     x = np.load(file_path)
+     x = x.astype('float32') ##normalize images
+     x /= 255.0
+     y = [i] * len(x) # create numeric label for this image
+
+     x = x[:images_per_category] # get the sample of images 
+     y = y[:images_per_category] # get the sample of labels 
+
+     if i == 0: 
+         x_all = x
+         y_all = y
+     else: 
+         x_all = np.concatenate((x,x_all), axis=0)
+         y_all = np.concatenate((y,y_all), axis=0)
+     i += 1
+```
+
+之后，我们将使用`sklearn.model_selection`模块中的`train_test_split`方法将`x_all`和`y_all`分为训练和测试集，并以 80/20 的训练/测试进行分割：
+
+```py
+#split data arrays into train and test segments
+x_train, x_test, y_train, y_test = train_test_split(x_all, y_all, test_size=0.2, random_state=42)
+```
+
+由于我们将使用卷积神经网络（`convNet`）对快速抽奖进行分类！ 图像，接下来要做的是将`x_train`和`x_test`重塑为`28 x 28 x 1`图像，它们开始出现时的样子，其中前两个维度是图像的高度和宽度（以像素为单位），第三个维度是每个像素的灰度。 我们还将建立`input_shape`，并将其用于`convNet`的第一层：
+
+```py
+x_train = x_train.reshape(x_train.shape[0], img_rows, img_cols, 1) 
+x_test = x_test.reshape(x_test.shape[0], img_rows, img_cols, 1) 
+input_shape = (img_rows, img_cols, 1)
+```
+
+此后，我们将根据`convNet`的要求对`y_train`和`y_test`标签进行一次热编码：
+
+```py
+y_train = tf.keras.utils.to_categorical(y_train, num_files) 
+y_test = tf.keras.utils.to_categorical(y_test, num_files)
+```
+
+接下来，我们将训练和测试`x`集进一步与验证集一起分成 90/10 的更小的测试集：
+
+```py
+x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size=0.1, random_state=42)
+```
+
+# 建立模型
+
+现在，我们准备创建`convNet`模型。
+
+有两个卷积层（具有 ReLU 激活），每个卷积层都插入最大池化和丢弃层，然后是一个将卷积层的输出展平为一维的层。 在这些层之后是密集的（完全连接的）一维层（同样具有 ReLU 激活），最后的丢弃层，最后是具有 10 个单元的 softmax 层。 softmax 层中每个输出单元的激活给出了该图像是 10 张图像之一的可能性。 这种 ANN 架构有足够的实验空间。
+
+然后使用分类交叉熵的损失来编译模型：
+
+```py
+model = tf.keras.Sequential()
+
+model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape)) 
+model.add(tf.keras.layers.MaxPooling2D(pool_size=(2, 2))) 
+model.add(tf.keras.layers.Dropout(0.25))
+
+model.add(tf.keras.layers.Conv2D(64, (3, 3), activation='relu')) 
+model.add(tf.keras.layers.MaxPooling2D(pool_size=(2, 2))) 
+model.add(tf.keras.layers.Dropout(0.25))
+
+model.add(tf.keras.layers.Flatten())
+model.add(tf.keras.layers.Dense(128, activation='relu')) 
+model.add(tf.keras.layers.Dropout(0.5))
+model.add(tf.keras.layers.Dense(num_files, activation='softmax')) 
+
+print("Compiling...........")
+model.compile(loss=tf.keras.losses.categorical_crossentropy,
+ optimizer=tf.keras.optimizers.Adadelta(),
+ metrics=['accuracy'])
+```
+
+# 训练和测试模型
+
+现在，我们可以使用`fit`方法训练模型。 注意验证集的使用，它不同于训练集。 `callbacks`列表还可以用于诸如保存最佳模型或在学习停止时终止训练（如果在所有周期完成之前发生这种情况）的操作。 有关详细信息，请参见[这里](https://keras.io/callbacks/)：
+
+```py
+epochs=25
+callbacks=[tf.keras.callbacks.TensorBoard(logdir = "./tb_log_dir")]
+model.fit( x_train, y_train,
+ batch_size=batch_size,
+ epochs=epochs,
+ callbacks=callbacks,
+ verbose=1,
+ validation_data=(x_valid, y_valid)
+)
+```
+
+根据模型所处的硬件配置，如果该模型在 GPU 上运行，或者在 CPU 上运行缓慢，则训练速度将非常快。 为了说明的目的，可以减少周期的数量。 在 NVIDIA GTX 1080 GPU 上，时间/周期约为 38 秒。
+
+为了确定模型的准确率，按以下方法使用`evaluate`方法。 请注意，测试集用于此评估：
+
+```py
+score = model.evaluate(x_test, y_test, verbose=1)
+print('Test loss:', score[0])
+print('Test accuracy:', score[1])
+```
+
+我们还可以对测试图像进​​行随机采样，并使用以下代码查看模型的效果。 从文件名中检索标签并打印以供参考，然后再打印成对的预测标签与实际标签：
+
+```py
+import os
+labels = [os.path.splitext(file)[0] for file in filenames]
+print(labels)
+print("\nFor each pair in the following, the first label is predicted, second is actual\n")
+for i in range(20):
+  t = np.random.randint(len(x_test) )
+  x1= x_test[t]
+  x1 = x1.reshape(1,28,28,1) 
+  p = model.predict(x1)
+  print("-------------------------")
+  print(labels[np.argmax(p)])
+  print(labels[np.argmax(y_test[t])])
+  print("-------------------------")
+```
+
+# TensorBoard 回调
+
+TensorBoard 是用于训练模型的可视化工具。 TensorBoard 回调的完整签名如下：
+
+```py
+tf.keras.callbacks.TensorBoard(log_dir='./logs', histogram_freq=0, batch_size=32, write_graph=True, write_grads=False, write_images=False, embeddings_freq=0, embeddings_layer_names=None, embeddings_metadata=None, embeddings_data=None, update_freq='epoch')
+```
+
+在[这个页面](https://keras.io/callbacks/) 上有所有这些参数的非常清晰而详细的描述。 TensorBoard 可以从命令行调用，如下所示：
+
+```py
+tensorboard --logdir=/full_path_to_your_logs
+```
+
+例如，我们可以使用`tensorboard --logdir=./logs`作为默认目录。 将`histogram_freq`设置为非 0 的值会导致在写入数据时`epochs`之间有明显的停顿，并且仅在需要模型所有层的激活和权重直方图时才应使用。
+
+# 保存，加载和重新测试模型
+
+现在，我们可以保存模型并将其删除：
+
+```py
+model.save("./QDrawModel.h5")
+del model
+```
+
+然后，我们需要重新加载它：
+
+```py
+from tensorflow.keras.models import load_model
+model = load_model('./QDrawModel.h5')
+```
+
+最后，我们必须对其进行总结以表明我们已经成功地重新加载了保存的模型：
+
+```py
+model.summary()
+```
+
+最后，我们打印出 20 种时尚商品的测试样本，以确保网络正常运行：
+
+```py
+print("For each pair, first is predicted, second is actual")
+for i in range(20):
+  t = np.random.randint(len(x_test))
+  x1= x_test[t]
+  x1 = x1.reshape(1,28,28,1) 
+  p = model.predict(x1)
+  print("-------------------------")
+  print(labels[np.argmax(p)])
+  print(labels[np.argmax(y_test[t])])
+  print("-------------------------")
+```
+
+# 使用`.h5`格式保存和加载 NumPy 图像数据
+
+如果需要保存先前程序中的训练和测试数据，则可以使用以下代码：
+
+```py
+import h5py
+with h5py.File('x_train.h5', 'w') as hf:
+  hf.create_dataset("QuickDraw", data=x_train)
+with h5py.File('y_train.h5', 'w') as hf:
+  hf.create_dataset("QuickDraw", data=y_train)
+with h5py.File('x_test.h5', 'w') as hf:
+  hf.create_dataset("QuickDraw", data=x_test)
+with h5py.File('y_test.h5', 'w') as hf:
+  hf.create_dataset("QuickDraw", data=y_test)
+```
+
+请注意，加载数据集时传递给`h5py.File()`方法的数据集名称必须与使用`h5py.File.create_dataset()`方法保存数据集时使用的名称相同：
+
+```py
+import h5py
+hf = h5py.File('x_train.h5', 'r')
+x_train = np.array(hf["QuickDraw"][:])
+hf = h5py.File('x_test.h5', 'r')
+x_test = np.array(hf["QuickDraw"][:])
+hf = h5py.File('y_train.h5', 'r')
+y_train = np.array(hf["QuickDraw"][:])
+hf = h5py.File('y_test.h5', 'r')
+y_test = np.array(hf["QuickDraw"][:])
+```
+
+# 使用预训练的模型进行加载和推断
+
+经过训练的模型`'QDrawModel.h5'`已运行 25 个周期，并且达到了 90% 以上的测试准确率，已保存在存储库中。 您已经看过此代码； 为方便起见，在此复制。
+
+因此，重申一下，您可以使用以下代码加载此经过训练的模型：
+
+```py
+from keras.models import load_model
+model = load_model('./QDrawModel.h5')
+model.summary()
+```
+
+同样，可以使用以下代码加载训练/测试数据：
+
+```py
+import h5py
+import numpy as np
+hf = h5py.File('x_train.h5', 'r')
+x_train = np.array(hf["QuickDraw"][:])
+hf = h5py.File('x_test.h5', 'r')
+x_test = np.array(hf["QuickDraw"][:])
+hf = h5py.File('y_train.h5', 'r')
+y_train = np.array(hf["QuickDraw"][:])
+hf = h5py.File('y_test.h5', 'r')
+y_test = np.array(hf["QuickDraw"][:])
+```
+
+再次重申，我们可以使用以下代码获取标签（我们看到的标签对应于图像文件名）：
+
+```py
+from os import walk
+import os
+data_path = "data_files/" # folder for image files
+for (dirpath, dirnames, filenames) in walk(data_path):
+  pass # filenames accumulate in list 'filenames'
+labels = [os.path.splitext(file)[0] for file in filenames]
+print(labels)
+```
+
+然后，可以通过以下代码使用我们加载的模型进行推理。 请注意，如果有必要，这还将演示如何强制在 CPU 上进行计算：
+
+```py
+import tensorflow as tf
+with tf.device('/cpu:0'):
+     for i in range(10):
+         t = np.random.randint(len(x_test) )
+         x1= x_test[t]
+         x1 = x1.reshape(1,28,28,1) 
+         p = model.predict(x1)
+         y1 = y_test[t]
+         print("-------------------------")
+         print(labels[np.argmax([p])])
+         print(labels[y1]) 
+         print("-------------------------")
+```
+
+# 使用 TensorFlow 的 CIFAR 10 图像分类
+
+在第二部分中，我们将研究训练模型以识别 CIFAR10 图像数据集中的图像。 这将使我们有机会举例说明顺序模型创建的稍有不同的风格。
+
+# 介绍
+
+具有 10 个类别的 CIFAR 10 图像数据集是 8000 万个微型图像数据集的标记子集。 这些图像由 Alex Krizhevsky，Vinod Nair 和 Geoffrey Hinton 收集。 有关此数据集的完整详细信息，请访问[这里](https://www.cs.toronto.edu/~kriz/cifar.html)。
+
+在 10 个类别中，总共有 60,000 个`32 x 32`彩色图像，包括 50,000 个训练图像和 10,000 个测试图像。
+
+类别如下：
+
+```py
+labels = ['airplane','automobile','bird','cat','deer','dog','frog','horse','ship','truck']
+```
+
+以下是这些类别的图像的一些示例：
+
+![](img/477a48fd-96b7-4311-a7ac-a7760a1626da.png)
+
+# 应用
+
+首先，以下是设置所需的导入：
+
+```py
+import tensorflow as tf
+import numpy as np
+from tensorflow.keras.datasets import cifar10
+from tensorflow.keras.preprocessing.image import ImageDataGenerator
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import Dense, Dropout, Activation, Flatten
+from tensorflow.keras.layers import Conv2D, MaxPooling2D,BatchNormalization
+from tensorflow.keras import regularizers
+from tensorflow.keras.models import load_model
+import os
+from matplotlib import pyplot as plt
+from PIL import Image
+```
+
+您可能需要运行`pip install PIL`。
+
+接下来，我们将在其余的代码中使用一组值：
+
+```py
+batch_size = 32
+number_of_classes = 10
+epochs = 100 # for testing; use epochs = 100 for training ~30 secs/epoch on CPU
+weight_decay = 1e-4
+save_dir = os.path.join(os.getcwd(), 'saved_models')
+model_name = 'keras_cifar10_trained_model.h5'
+number_of_images = 5
+```
+
+然后，我们可以加载并查看数据的形状：
+
+```py
+(x_train, y_train), (x_test, y_test) = cifar10.load_data()
+print('x_train shape:', x_train.shape)
+print(x_train.shape[0], 'train samples')
+print(x_test.shape[0], 'test samples')
+```
+
+这将产生预期的输出：
+
+```py
+x_train shape: (50000, 32, 32, 3) 50000 train samples 10000 test samples
+```
+
+现在，我们有了一个显示图像子集的函数。 这将在网格中显示它们：
+
+```py
+def show_images(images):
+    plt.figure(1)
+    image_index = 0
+    for i in range(0,number_of_images):
+        for j in range(0,number_of_images):
+            plt.subplot2grid((number_of_images, number_of_images),(i,j))
+            plt.imshow(Image.fromarray(images[image_index]))
+            image_index +=1
+            plt.gca().axes.get_yaxis().set_visible(False)
+            plt.gca().axes.get_xaxis().set_visible(False) 
+    plt.show()
+```
+
+让我们执行以下函数的调用：
+
+```py
+show_images(x_test[:number_of_images*number_of_images])
+```
+
+这给我们以下输出：
+
+![](img/b2b5bc7d-7dd7-4644-9c34-cf2222dcab0d.png)
+
+请注意，图像在原始数据集中故意很小。
+
+现在，我们可以将图像投射到浮动对象上，并将其范围更改为`[0, 1]`：
+
+```py
+x_train = x_train.astype('float32')/255
+x_test = x_test.astype('float32')/255
+```
+
+如果将标签作为一站式向量提供，则最好了解它们，因此，我们现在将这样做：
+
+```py
+y_train = tf.keras.utils.to_categorical(y_train, number_of_classes) # or use tf.one_hot()
+y_test = tf.keras.utils.to_categorical(y_test, number_of_classes)
+```
+
+接下来，我们可以指定模型的架构。 请注意，与之前的操作相比，我们使用的激活指定方法略有不同：
+
+```py
+model.add(Activation('elu'))
+```
+
+`elu`激活函数代表指数线性单元。 在[这个页面](https://sefiks.com/2018/01/02/elu-as-a-neural-networks-activation-function/)中有很好的描述。
+
+注意，我们正在使用具有卷积层，`BatchNormalization`和 MaxPooling 层的顺序模型。 倒数第二层使结构变平，最后一层使用 softmax 激活，因此我们预测的类将显示为具有最高激活的输出神经元：
+
+```py
+model = Sequential()
+model.add(Conv2D(32, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay), input_shape=x_train.shape[1:]))
+model.add(Activation('elu'))
+model.add(BatchNormalization())
+model.add(Conv2D(32, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
+model.add(Activation('elu'))
+model.add(BatchNormalization())
+model.add(MaxPooling2D(pool_size=(2,2)))
+model.add(Dropout(0.2))
+
+model.add(Conv2D(64, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
+model.add(Activation('elu'))
+model.add(BatchNormalization())
+model.add(Conv2D(64, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
+model.add(Activation('elu'))
+model.add(BatchNormalization())
+model.add(MaxPooling2D(pool_size=(2,2)))
+model.add(Dropout(0.3))
+
+model.add(Conv2D(128, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
+model.add(Activation('elu'))
+model.add(BatchNormalization())
+model.add(Conv2D(128, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
+model.add(Activation('elu'))
+model.add(BatchNormalization())
+model.add(MaxPooling2D(pool_size=(2,2)))
+model.add(Dropout(0.4))
+
+model.add(Flatten())
+model.add(Dense(number_of_classes, activation='softmax'))
+```
+
+接下来，我们必须定义我们的优化器； `RMSprop`。 `decay`是每次更新后学习率降低的速度：
+
+```py
+opt = tf.keras.optimizers.RMSprop(lr=0.0001, decay=decay)
+```
+
+现在，我们将编译我们的模型：
+
+```py
+model.compile(loss='categorical_crossentropy', optimizer=opt,metrics=['accuracy'])
+```
+
+为了帮助模型学习和推广，我们将实现实时数据增强。
+
+这是通过`ImageDataGenerator()`函数完成的。 其签名如下：
+
+```py
+keras.preprocessing.image.ImageDataGenerator(featurewise_center=False, samplewise_center=False, featurewise_std_normalization=False, samplewise_std_normalization=False, zca_whitening=False, zca_epsilon=1e-06, rotation_range=0, width_shift_range=0.0, height_shift_range=0.0, brightness_range=None, shear_range=0.0, zoom_range=0.0, channel_shift_range=0.0, fill_mode='nearest', cval=0.0, horizontal_flip=False, vertical_flip=False, rescale=None, preprocessing_function=None, data_format=None, validation_split=0.0, dtype=None)
+```
+
+但是，我们将主要使用前面签名中所示的默认值。 数据将分批循环。
+
+这是对图像应用各种转换，例如水平翻转，高度偏移，宽度偏移，旋转等。 我们将使用以下代码进行演示：
+
+```py
+ # This will do preprocessing and real-time data augmentation:
+datagen = ImageDataGenerator(
+ rotation_range=10, # randomly rotate images in the range 0 to 10 degrees
+
+ width_shift_range=0.1,# randomly shift images horizontally (fraction of total width)
+
+ height_shift_range=0.1,# randomly shift images vertically (fraction of total height)
+
+ horizontal_flip=True, # randomly flip images
+
+ validation_split=0.1)
+```
+
+我们还将建立一个回调，以便如果模型的准确率停止提高，训练将停止，并且将为模型恢复最佳权重。
+
+`EarlyStopping`回调的签名如下：
+
+```py
+keras.callbacks.EarlyStopping(monitor='val_loss', min_delta=0, patience=0, verbose=0, mode='auto', baseline=None, restore_best_weights=False)
+```
+
+`Monitor`是要跟踪的数量，`min_delta`是被算作改进的跟踪数量的最小变化，`patience`是没有变化的周期数，之后将停止训练，而`mode` 是['min'，'max'，'auto']之一，它分别确定所跟踪的值是应该减少还是增加，或者分别从其名称中确定。 `baseline`是要达到的跟踪值的值，而`restore_best_weights`确定是否应恢复最佳周期的模型权重（如果使用`false`，则使用最新权重）。
+
+我们将有以下代码：
+
+```py
+callback = tf.keras.callbacks.EarlyStopping(monitor='accuracy', min_delta=0, patience=1, verbose=1,mode='max', restore_best_weights=True) 
+```
+
+现在，我们可以训练模型了。 `fit.generator()`函数用于根据`flow()`生成器批量显示的数据训练模型。 可以在[这个页面](https://keras.io/models/sequential/#fit_generator)中找到更多详细信息：
+
+```py
+model.fit_generator(datagen.flow(x_train, y_train, batch_size=batch_size), epochs=epochs, callbacks=[callback])
+```
+
+让我们保存模型，以便以后可以重新加载它：
+
+```py
+if not os.path.isdir(save_dir):
+  os.makedirs(save_dir)
+
+model_path = os.path.join(save_dir, model_name)
+model.save(model_path)
+print('Model saved at: %s ' % model_path)
+```
+
+现在让我们重新加载它：
+
+```py
+model1 = tf.keras.models.load_model(model_path)
+model1.summary()
+```
+
+最后，让我们看看我们的模型在测试集上的表现如何。 我们需要重新加载数据，因为它已被损坏：
+
+```py
+(x_train, y_train), (x_test, y_test) = cifar10.load_data()
+show_images(x_test[:num_images*num_images])
+x_test = x_test.astype('float32')/255
+```
+
+这里又是标签：
+
+```py
+labels = ['airplane','automobile','bird','cat','deer','dog','frog','horse','ship','truck']
+```
+
+最后，我们可以检查预测的标签：
+
+```py
+indices = tf.argmax(input=model1.predict(x_test[:number_of_images*number_of_images]),axis=1)
+i = 0
+print('Learned \t True')
+print('=====================')
+for index in indices:
+    print(labels[index], '\t', labels[y_test[i][0]])
+    i+=1
+```
+
+在一次运行中，提前停止开始了 43 个周期，测试准确率为 81.4%，并且前 25 张图像的测试结果如下：
+
+```py
+Learned  True
+=====================
+cat      cat
+ship     ship
+ship     ship
+ship     airplane
+frog     frog
+frog     frog
+automobile       automobile
+frog     frog
+cat      cat
+automobile       automobile
+airplane         airplane
+truck    truck
+dog      dog
+horse    horse
+truck    truck
+ship     ship
+dog      dog
+horse    horse
+ship     ship
+frog     frog
+horse    horse
+airplane         airplane
+deer     deer
+truck    truck
+deer     dog
+```
+
+可以通过进一步调整模型架构和超参数（例如学习率）来提高此准确率。
+
+到此结束了我们对 CIFAR 10 图像数据集的了解。
+
+# 总结
+
+本章分为两个部分。 在第一部分中，我们研究了来自 Google 的数据集 QuickDraw。 我们介绍了它，然后看到了如何将其加载到内存中。 这很简单，因为 Google 善意地将数据集作为一组`.npy`文件提供，这些文件可以直接加载到 NumPy 数组中。 接下来，我们将数据分为训练，验证和测试集。 创建`ConvNet`模型后，我们对数据进行了训练并进行了测试。 在测试中，经过 25 个周期，该模型的准确率刚好超过 90%，我们注意到，通过进一步调整模型，可能会改善这一精度。 最后，我们看到了如何保存经过训练的模型，然后如何重新加载它并将其用于进一步的推断。
+
+在第二部分中，我们训练了一个模型来识别 CIFAR 10 图像数据集中的图像。 该数据集包含 10 类图像，是用于测试体系结构和进行超参数研究的流行数据集。 我们的准确率刚刚超过 81%。
+
+在下一章中，我们将研究神经风格迁移，其中涉及获取一个图像的内容并将第二个图像的风格强加于其上，以生成第三个混合图像。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/07.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/07.md
new file mode 100644
index 00000000..2785394b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/07.md
@@ -0,0 +1,517 @@
+# 七、TensorFlow 2 和神经风格迁移
+
+神经风格迁移是一种使用神经网络将一幅图像的艺术风格施加到另一幅图像的内容上的技术，因此最终得到的是两种图像的混合体。 您开始使用的图像称为**内容图像**。 您在内容图像上加上风格的图像称为**风格参考图像**。 Google 将转换后的图像称为**输入图像**，这似乎令人困惑（输入是从两个不同来源获取输入的意思）； 让我们将其称为**混合图像**。 因此，混合图像是具有风格参考图像风格的内容图像。
+
+神经风格迁移通过定义两个损失函数来工作-一个描述两个图像的内容之间的差异，另一个描述两个图像之间的风格差异。
+
+为了开始该过程，用内容图像初始化混合图像。 然后，使用反向传播将内容和内容以及混合图像的风格之间的差异（也称为损失或距离）最小化。 这将创建具有风格参考图像风格和内容图像内容的新图像（即混合图像）。
+
+此过程中涉及一些技术-使用函数式 API，使用预训练的模型及其特征图以及使用自定义训练循环以最小化`loss`函数。 我们将在下面的代码中满足所有这些要求。
+
+要充分利用该技术，有两个先决条件-Gatys 等人在 2015 年发表的[原始论文](https://arxiv.org/abs/1508.06576)虽非必要，但确实可以解释该技术。 技术非常好，因此非常有必要了解如何通过梯度下降来减少损失。
+
+我们将使用 VGG19 架构中的特征层（已在著名的 ImageNet 数据集上进行了训练，其中包含 1400 万张图像和 1000 个类别）。
+
+我们将检查的代码源自 Google 提供的代码； 它使用了急切的执行程序，我们当然不需要编写代码，因为它是 TensorFlow 2 中的默认代码。该代码在 GPU 上运行得更快，但在耐心等待的情况下仍可以在 CPU 上合理的时间内进行训练。
+
+在本章中，我们将介绍以下主题：
+
+*   配置导入
+*   预处理图像
+*   查看原始图像
+*   使用 VGG19 架构
+*   建立模型
+*   计算损失
+*   执行风格迁移
+
+# 配置导入
+
+要对您自己的图像使用此实现，您需要将这些图像保存在下载的存储库的`./tmp/nst`目录中，然后编辑`content_path`和`style_path`路径，如以下代码所示。
+
+与往常一样，我们要做的第一件事是导入（并配置）所需的模块：
+
+```py
+import numpy as np
+from PIL import Image
+import time
+import functools
+
+import matplotlib.pyplot as plt
+import matplotlib as mpl
+# set things up for images display
+mpl.rcParams['figure.figsize'] = (10,10)
+mpl.rcParams['axes.grid'] = False
+```
+
+您可能需要`pip install pillow`，这是 PIL 的分支。 接下来是 TensorFlow 模块：
+
+```py
+import tensorflow as tf
+
+from tensorflow.keras.preprocessing import image as kp_image
+from tensorflow.keras import models
+from tensorflow.keras import losses
+from tensorflow.keras import layers
+from tensorflow.keras import backend as K
+from tensorflow.keras import optimizers
+```
+
+这是我们最初将使用的两个图像：
+
+```py
+content_path = './tmp/nst/elephant.jpg'#Andrew Shiva / Wikipedia / CC BY-SA 4.0
+style_path = './tmp/nst/zebra.jpg' # zebra:Yathin S Krishnappa, https://creativecommons.org/licenses/by-sa/4.0/deed.en
+```
+
+# 预处理图像
+
+下一个函数只需稍作预处理即可加载图像。 `Image.open()`是所谓的惰性操作。 该函数找到文件并将其打开以进行读取，但是实际上直到从您尝试对其进行处理或加载数据以来，才从文件中读取图像数据。 下一组三行会调整图像的大小，以便任一方向的最大尺寸为 512（`max_dimension`）像素。 例如，如果图像为`1,024 x 768`，则`scale`将为 0.5（`512 / 1,024`），并且这将应用于图像的两个尺寸，从而将图像大小调整为`512 x 384`。`Image.ANTIALIAS`参数保留最佳图像质量。 接下来，使用`img_to_array()`调用（`tensorflow.keras.preprocessing`的方法）将 PIL 图像转换为 NumPy 数组。
+
+最后，为了与以后的使用兼容，图像需要沿零轴的批次尺寸（由于图像是彩色的，因此共给出了四个尺寸）。 这可以通过调用`np.expand_dims()`实现：
+
+```py
+def load_image(path_to_image):
+    max_dimension = 512
+    image = Image.open(path_to_image)
+    longest_side = max(image.size)
+    scale = max_dimension/longest_side
+    image = image.resize((round(image.size[0]*scale), round(image.size[1]*scale)), Image.ANTIALIAS)
+
+    image = kp_image.img_to_array(image) # keras preprocessing
+
+    # Broadcast the image array so that it has a batch dimension on axis 0
+    image = np.expand_dims(image, axis=0)
+    return image
+```
+
+下一个函数显示已由`load_image()`预处理过的图像。 由于我们不需要额外的尺寸来显示，因此可以通过调用`np.squeeze()`将其删除。 之后，根据对`plt.imshow()`的调用（后面带有可选标题）的要求，将图像数据中的值转换为无符号的 8 位整数：
+
+```py
+def show_image(image, title=None):
+  # Remove the batch dimension from the image
+    image1 = np.squeeze(image, axis=0)
+  # Normalize the image for display 
+    image1 = image1.astype('uint8')
+    plt.imshow(image1)
+    if title is not None:
+        plt.title(title)
+    plt.imshow(image1)
+```
+
+# 查看原始图像
+
+接下来，我们使用对前面两个函数的调用来显示内容和风格图像，请记住图像像素必须是无符号 8 位整数类型。 `plt.subplot(1,2,1)`函数意味着在位置 1 使用一排两列的网格； `plt.subplot(1,2,2)`表示在位置 2 使用一排两列的网格：
+
+```py
+channel_means = [103.939, 116.779, 123.68] # means of the BGR channels, for VGG processing
+
+plt.figure(figsize=(10,10))
+
+content_image = load_image(content_path).astype('uint8')
+style_image = load_image(style_path).astype('uint8')
+
+plt.subplot(1, 2, 1)
+show_image(content_image, 'Content Image')
+
+plt.subplot(1, 2, 2)
+show_image(style_image, 'Style Image')
+
+plt.show()
+```
+
+输出显示在以下屏幕截图中：
+
+![](img/c2cdcfbd-80c8-4aca-bc8d-a0fbf9cab5ce.png)
+
+接下来是加载图像的函数。 正如我们将要提到的那样，在经过训练的`vgg19`模型中，我们需要相应地预处理图像数据。
+
+`tf.keras`模块为我们提供了执行此操作的方法。 这里的预处理将我们的 RGB 彩色图像翻转为 BGR：
+
+```py
+def load_and_process_image(path_to_image):
+  image = load_image(path_to_image)
+  image = tf.keras.applications.vgg19.preprocess_input(image)
+  return image
+```
+
+为了显示我们的图像，我们需要一个函数来获取用`load_and_process_image`处理的数据，并将图像数据返回到其原始状态。 这必须手动完成。
+
+首先，我们检查图像的尺寸是否正确，如果不是 3 或 4，则会引发错误。
+
+预处理从每个通道中减去其平均值，因此通道的平均值为零。 减去的值来自 ImageNet 分析，其中 BGR 通道的均值分别为`103.939`，`116.779`和`123.68`。
+
+因此，接下来，我们将这些值添加回 BGR（彩色）通道以恢复原始值，然后将 BGR 序列翻转回 RGB。
+
+最后，对于此函数，我们需要确保我们的值是无符号的 8 位整数，其值在 0 到 255 之间； 这可以通过`np.clip()`函数实现：
+
+```py
+def deprocess_image(processed_image):
+  im = processed_image.copy()
+  if len(im.shape) == 4:
+    im = np.squeeze(im, 0)
+  assert len(im.shape) == 3, ("Input to deprocess image must be an image of "
+                             "dimension [1, height, width, channel] or [height, width, channel]")
+  if len(im.shape) != 3:
+    raise ValueError("Invalid input to deprocessing image")
+
+  # the inverse of the preprocessing step
+  im[:, :, 0] += channel_means[0] # these are the means subtracted by the preprocessing step
+  im[:, :, 1] += channel_means[1]
+  im[:, :, 2] += channel_means[2]
+  im= im[:, :, ::-1] # channel last
+
+  im = np.clip(im, 0, 255).astype('uint8')
+  return im
+```
+
+# 使用 VGG19 架构
+
+了解下一个代码片段的最好方法是查看 VGG19 架构。 [这是一个好地方](https://github.com/fchollet/deep-learning-models/blob/master/vgg19.py)（大约位于页面的一半）。
+
+在这里，您将看到 VGG19 是一个相当简单的体系结构，由卷积层的块组成，每个块的末尾都有一个最大池化层。
+
+对于内容层，我们使用`block5`中的第二个卷积层。 之所以使用这个最高的块，是因为较早的块具有更能代表单个像素的特征图。 网络中的高层会根据对象及其在输入图像中的排列来捕获高级内容，[但不会限制重建的实际精确像素值](https://arxiv.org/abs/1508.06576)。
+
+对于风格层，我们将在每个层块中使用第一个卷积层，即`block1_conv1`到`block5_conv5`。
+
+然后保存内容和风格层的长度，以供以后使用：
+
+```py
+# The feature maps are obtained from this content layer
+content_layers = ['block5_conv2']
+
+# Style layers we need
+style_layers = ['block1_conv1',
+                'block2_conv1',
+                'block3_conv1',
+                'block4_conv1',
+                'block5_conv1'
+               ]
+
+number_of_content_layers = len(content_layers)
+number_of_style_layers = len(style_layers)
+```
+
+# 建立模型
+
+现在，接下来是一系列函数，这些函数最终导致执行风格迁移（`run_style_transfer()`）的主要函数。
+
+此序列中的第一个函数`get_model()`创建我们将要使用的模型。
+
+它首先加载训练后的`vgg_model`（已在`ImageNet`上进行训练），而没有其分类层（`include_top=False`）。 接下来，它冻结加载的模型（`vgg_model.trainable = False`）。
+
+然后，使用列表推导获取风格和内容层的输出值，该列表推导遍历我们在上一节中指定的层的名称。
+
+然后将这些输出值与 VGG 输入一起使用，以创建可以访问 VGG 层的新模型，即`get_model()`返回 Keras 模型，该模型输出已训练的 VGG19 模型的风格和内容中间层。 不必使用顶层，因为这是 VGG19 中的最终分类层，我们将不再使用。
+
+我们将创建一个输出图像，以使输出和相应特征层上的输入/风格之间的距离（差异）最小化：
+
+```py
+def get_model():
+ vgg_model = tf.keras.applications.vgg19.VGG19(include_top=False, weights='imagenet')
+ vgg_model.trainable = False
+
+ # Acquire the output layers corresponding to the style layers and the content layers 
+ style_outputs = [vgg_model.get_layer(name).output for name in style_layers]
+ content_outputs = [vgg_model.get_layer(name).output for name in content_layers]
+ model_outputs = style_outputs + content_outputs
+
+# Build model 
+ return models.Model(vgg_model.input, model_outputs)
+```
+
+# 计算损失
+
+现在，我们需要两个图像的内容和风格之间的损失。 我们将使用均方损失如下。 请注意，`image1 - image2`中的减法是两个图像数组之间逐元素的。 此减法有效，因为图像已在`load_image`中调整为相同大小：
+
+```py
+def rms_loss(image1,image2):
+    loss = tf.reduce_mean(input_tensor=tf.square(image1 - image2))
+    return loss
+```
+
+接下来，我们定义`content_loss`函数。 这只是函数签名中`content`和`target`之间的均方差：
+
+```py
+def content_loss(content, target):
+  return rms_loss(content, target)
+```
+
+风格损失是根据称为 **Gram 矩阵**的数量定义的。 Gram 矩阵（也称为度量）是风格矩阵及其自身的转置的点积。 因为这意味着图像矩阵的每一列都与每一行相乘，所以我们可以认为原始表示中包含的空间信息已经*分配*。 结果是有关图像的非本地化信息，例如纹理，形状和权重，即其风格。
+
+产生`gram_matrix`的代码如下：
+
+```py
+def gram_matrix(input_tensor):
+  channels = int(input_tensor.shape[-1]) # channels is last dimension
+  tensor = tf.reshape(input_tensor, [-1, channels]) # Make the image channels first 
+  number_of_channels = tf.shape(input=tensor)[0] # number of channels
+  gram = tf.matmul(tensor, tensor, transpose_a=True) # produce tensorT*tensor
+  return gram / tf.cast(number_of_channels, tf.float32) # scaled by the number of channels.
+```
+
+因此，风格损失（其中`gram_target`将是混合图像上风格激活的 Gram 矩阵）如下：
+
+```py
+def style_loss(style, gram_target):
+  gram_style = gram_matrix(style)
+  return rms_loss(gram_style, gram_target) 
+```
+
+接下来，我们通过获取`content_image`和`style_image`并将它们馈入模型来找到`content_features`和`style_features`表示形式。 此代码分为两个块，一个用于`content_features`，另一个用于`style_features`。 对于内容块，我们加载图像，在其上调用我们的模型，最后，提取先前分配的特征层。 `style_features`的代码是相同的，除了我们首先加载风格图像：
+
+```py
+def get_feature_representations(model, content_path, style_path):
+  #Function to compute content and style feature representations.
+
+  content_image = load_and_process_image(content_path)
+  content_outputs = model(content_image)
+  #content_features = [content_layer[0] for content_layer in content_outputs[:number_of_content_layers]]
+  content_features = [content_layer[0] for content_layer in content_outputs[number_of_style_layers:]]
+
+  style_image = load_and_process_image(style_path)
+  style_outputs = model(style_image)
+  style_features = [style_layer[0] for style_layer in style_outputs[:number_of_style_layers]]
+
+  return style_features, content_features
+```
+
+接下来，我们需要计算总损失。 查看该方法的签名，我们可以看到，首先，我们传入模型（可以访问 VGG19 的中间层）。 接下来，进入`loss_weights`，它们是每个损失函数（`content_weight`，`style_weight`和总变化权重）的每个贡献的权重。 然后，我们有了初始图像，即我们正在通过优化过程更新的图像。 接下来是`gram_style_features`和`content_features`，分别对应于我们正在使用的风格层和内容层。
+
+首先从方法签名中复制风格和`content_weight`。 然后，在我们的初始图像上调用模型。 我们的模型可以直接调用，因为我们使用的是急切执行，如我们所见，这是 TensorFlow 2 中的默认执行。此调用返回所有模型输出值。
+
+然后，我们有两个类似的块，一个块用于内容，一个块用于风格。 对于第一个（内容）块，获取我们所需层中的内容和风格表示。 接下来，我们累积来自所有内容损失层的内容损失，其中每一层的贡献均被加权。
+
+第二个块与第一个块相似，不同之处在于，这里我们累积来自所有风格损失层的风格损失，其中每个损失层的每个贡献均被平均加权。
+
+最后，该函数返回总损失，风格损失和内容损失，如以下代码所示：
+
+```py
+def compute_total_loss(model, loss_weights, init_image, gram_style_features, content_features):
+
+   style_weight, content_weight = loss_weights
+   model_outputs = model(init_image)
+
+   content_score = 0
+   content_output_features = model_outputs[number_of_style_layers:] 
+   weight_per_content_layer = 1.0 / float(number_of_content_layers)
+   for target_content, comb_content in zip(content_features, content_output_features):
+      content_score += weight_per_content_layer*content_loss(comb_content[0], target_content)
+   content_score *= content_weight
+
+   style_score = 0
+   style_output_features = model_outputs[:number_of_style_layers]
+   weight_per_style_layer = 1.0 / float(number_of_style_layers)
+   for target_style, comb_style in zip(gram_style_features, style_output_features):
+     style_score += weight_per_style_layer *style_loss(comb_style[0], target_style)
+   style_score ***= style_weight
+
+ total_loss = style_score + content_score
+ return total_loss, style_score, content_score
+```
+
+接下来，我们有一个计算梯度的函数：
+
+```py
+def compute_grads(config):
+   with tf.GradientTape() as tape: 
+      all_loss = compute_total_loss(**config)
+    # Compute gradients wrt input image
+  total_loss = all_loss[0]
+  return tape.gradient(total_loss, config['init_image']), all_loss
+
+import IPython.display
+```
+
+# 执行风格迁移
+
+执行`style_transfer`的函数很长，因此我们将分节介绍。 其签名如下：
+
+```py
+def run_style_transfer(content_path,
+                       style_path,
+                       number_of_iterations=1000,
+                       content_weight=1e3,
+                       style_weight=1e-2):
+```
+
+由于我们实际上不想训练模型中的任何层，因此只需使用如前所述的层的输出值即可。 我们相应地设置其可训练属性：
+
+```py
+model = get_model() 
+for layer in model.layers:
+  layer.trainable = False
+```
+
+接下来，我们使用先前定义的函数从模型的各层获得`style_features`和`content_features`表示形式：
+
+```py
+style_features, content_features = get_feature_representations(model, content_path, style_path)
+```
+
+`gram_style_features`使用`style_features`上的循环，如下所示：
+
+```py
+gram_style_features = [gram_matrix(style_feature) for style_feature in style_features]
+```
+
+接下来，我们通过加载内容图像并将其转换为张量，来初始化将成为算法输出的图像，即混合图像（也称为 **Pastiche 图像**）：
+
+```py
+initial_image = load_and_process_image(content_path)
+initial_image = tf.Variable(initial_image, dtype=tf.float32)
+```
+
+下一行定义所需的`AdamOptimizer`函数：
+
+```py
+optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=5, beta1=0.99, epsilon=1e-1)
+```
+
+我们将继续保存`best_image`和`best_loss`，因此请初始化变量以存储它们：
+
+```py
+ best_loss, best_image = float('inf'), None
+```
+
+接下来，我们设置将被传递到`compute_grads()`函数的配置值字典：
+
+```py
+loss_weights = (style_weight, content_weight)
+  config = {
+      'model': model,
+      'loss_weights': loss_weights,
+      'init_image': initial_image,
+      'gram_style_features': gram_style_features,
+      'content_features': content_features
+  }
+```
+
+这是显示常量：
+
+```py
+number_rows = 2
+number_cols = 5
+display_interval = number_of_iterations/(number_rows*number_cols)
+```
+
+接下来，我们计算图像边界，如下所示：
+
+```py
+norm_means = np.array(channel_means)
+minimum_vals = -norm_means
+maximum_vals = 255 - norm_means 
+```
+
+此列表将存储混合图像：
+
+```py
+images = []
+```
+
+接下来，我们开始主图像处理循环，如下所示：
+
+```py
+for i in range(number_of_iterations):
+```
+
+因此，接下来我们计算梯度，计算损失，调用优化器以应用梯度，并将图像裁剪到我们先前计算的边界：
+
+```py
+   grads, all_loss = compute_grads(config)
+   loss, style_score, content_score = all_loss
+   optimizer.apply_gradients([(grads, initial_image)])
+   clipped_image = tf.clip_by_value(initial_image, minimum_vals, maximum_vals)
+   initial_image.assign(clipped_image)
+```
+
+我们将继续保存`best_loss`和`best_image`，因此下一步：
+
+```py
+ if loss < best_loss:
+ # Update best loss and best image from total loss. 
+   best_loss = loss
+   best_image = deprocess_image(initial_image.numpy()
+```
+
+然后，我们有条件地保存混合图像（总共 10 张图像），并将其与训练指标一起显示：
+
+```py
+if i % display_interval== 0:
+  # Use the .numpy() method to get the numpy image array, needs eager execution
+  plot_image = initial_image.numpy()
+  plot_image = deprocess_image(plot_image)
+  images.append(plot_image)
+  IPython.display.clear_output(wait=True)
+  IPython.display.display_png(Image.fromarray(plot_image))
+  print('Iteration: {}'.format(i)) 
+  print('Total loss: {:.4e}, ' 
+        'style loss: {:.4e}, '
+        'content loss: {:.4e} '
+        .format(loss, style_score, content_score))
+```
+
+最后，对于此函数，我们显示所有`best_image`和`best_loss`：
+
+```py
+ IPython.display.clear_output(wait=True)
+ plt.figure(figsize=(14,4))
+ for i,image in enumerate(images):
+   plt.subplot(number_rows,number_cols,i+1)
+   plt.imshow(image)
+   plt.xticks([])
+   plt.yticks([])
+
+ return best_image, best_loss
+```
+
+接下来，我们调用前面的函数来获取`best_image`和`best_loss`（还将显示 10 张图像）：
+
+![](img/b5dbdb99-d9bd-49a3-94ff-1bf19b9e814b.png)
+
+的代码如下：
+
+```py
+best_image, best_loss = run_style_transfer(content_path, style_path, number_of_iterations=100)
+Image.fromarray(best_image)
+```
+
+以下是`best_image`的显示：
+
+![](img/a98dd3a7-6f07-43a7-a4e1-71a4d002cc40.png)
+
+# 最终展示
+
+最后，我们有一个函数，它与`best_image`一起显示内容和风格图像：
+
+```py
+def show_results(best_image, content_path, style_path, show_large_final=True):
+ plt.figure(figsize=(10, 5))
+  content = load_image(content_path)
+  style = load_image(style_path)
+
+  plt.subplot(1, 2, 1)
+  show_image(content, 'Content Image')
+
+  plt.subplot(1, 2, 2)
+  show_image(style, 'Style Image')
+
+  if show_large_final:
+    plt.figure(figsize=(10, 10))
+
+    plt.imshow(best_image)
+    plt.title('Output Image')
+    plt.show()
+```
+
+接下来是对该函数的调用，如下所示：
+
+```py
+show_results(best_image, content_path, style_path)
+```
+
+# 总结
+
+到此结束我们对神经风格迁移的研究。 我们看到了如何拍摄内容图像和风格图像并生成混合图像。 我们使用训练有素的 VGG19 模型中的层来完成此任务。
+
+在下一章中，我们将研究循环神经网络。 这些网络可以处理顺序的输入值，并且输入值和输出值中的一个或两个具有可变长度。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/08.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/08.md
new file mode 100644
index 00000000..8ec337cb
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/08.md
@@ -0,0 +1,661 @@
+# 八、TensorFlow 2 和循环神经网络
+
+包括卷积网络（CNN）在内的许多神经网络体系结构的主要缺点之一是它们不允许处理顺序数据。 换句话说，一个完整的特征（例如图像）必须一次全部呈现。 因此，输入是固定长度张量，而输出必须是固定长度张量。 先前特征的输出值也不会以任何方式影响当前特征。 同样，所有输入值（和输出值）都应视为彼此独立。 例如，在我们的`fashion_mnist`模型（第 4 章“使用 TensorFlow 2的监督机器学习”）中，每个输入时尚图像都独立于并且完全不了解先前图像。
+
+**循环神经网络**（**RNN**）克服了这个问题，并使许多新的应用成为可能。
+
+在本章中，我们将研究以下主题：
+
+*   神经网络处理模式
+*   循环架构
+*   RNN 的应用
+*   我们的 RNN 示例的代码
+*   建立并实例化我们的模型
+*   训练和使用我们的模型
+
+# 神经网络处理模式
+
+下图说明了各种神经网络处理模式：
+
+![](img/8e01e880-e868-421b-a5a7-0a152e8795ed.png)
+
+矩形代表张量，箭头代表函数，红色是输入，蓝色是输出，绿色是张量状态。
+
+从左到右，我们有以下内容：
+
+*   普通前馈网络，固定尺寸的输入和固定尺寸的输出，例如图像分类
+*   序列输出，例如，拍摄一张图像并输出一组用于标识图像中项目的单词的图像字幕
+*   序列输入，例如情感识别（如我们的 IMDb 应用），其中句子被分为正面情感或负面情感
+*   序列输入和输出，例如机器翻译，其中 RNN 接受英语句子并将其翻译为法语输出
+*   逐帧同步输入和输出的序列，例如，类似于视频分类的两者
+
+# 循环架构
+
+因此，需要一种新的体系结构来处理顺序到达的数据，并且其输入值和输出值中的一个或两个具有可变长度，例如，语言翻译应用中句子中的单词。 在这种情况下，模型的输入和输出都具有不同的长度，就像之前的第四种模式一样。 同样，为了预测给定当前词的后续词，还需要知道先前的词。 这种新的神经网络架构称为 RNN，专门设计用于处理顺序数据。
+
+出现术语**循环**是因为此类模型对序列的每个元素执行相同的计算，其中每个输出都依赖于先前的输出。 从理论上讲，每个输出都取决于所有先前的输出项，但实际上，RNN 仅限于回顾少量步骤。 这种布置等效于具有存储器的 RNN，该存储器可以利用先前的计算结果。
+
+RNN 用于顺序输入值，例如时间序列，音频，视频，语音，文本，财务和天气数据。 它们在消费产品中的使用示例包括 Apple 的 Siri，Google 翻译和亚马逊的 Alexa。
+
+将传统前馈网络与 RNN 进行比较的示意图如下：
+
+![](img/98b325df-dafc-40e2-9825-80f9a1985632.png)
+
+每个 RNN 单元上的回送代表*记忆*。 前馈网络无法区分序列中的项目顺序，而 RNN 从根本上取决于项目的顺序。 例如，假设前馈网络接收到输入字符串`aardvark`：到输入为`d`时，网络已经忘记了先前的输入值为`a`，`a`和`r`，因此无法预测下一个`va`。 另一方面，在给定相同输入的情况下，循环网络“记住”先前的输入值为`a`，`a`和`r`，因此*有可能*根据其先前的训练来预测`va`是下一个。
+
+RNN 的每个单独项目到网络的输入称为**时间步长**。 因此，例如，在字符级 RNN 中，每个字符的输入都是一个时间步。 下图说明了 RNN 的*展开*。
+
+时间步长从`t = 0`开始，输入为`X[0]`，一直到时间步长`t = t`，输入为`X[t]`，相应的输出值为`h[0]`至`h[t]`，如下图所示：
+
+![](img/b33bb6fe-e10b-4a19-be19-ab717ecda115.png)
+
+展开式循环神经网络
+
+RNN 在称为**沿时间反向传播**（**BPTT**）的过程中通过反向传播进行训练。 在此可以想象 RNN 的展开（也称为**展开**）会创建一系列神经网络，并且会针对每个时间步长计算误差并将其合并，以便可以使用反向传播更新网络中的权重。 例如，为了计算梯度，从而计算误差，在时间步`t = 6`时，我们将向后传播五个步，并对梯度求和。 但是，在尝试学习长期依赖关系时（即在相距很远的时间步之间），这种方法存在问题，因为梯度可能变得太小而使学习变得不可能或非常缓慢，或者它们可能变得太大并淹没了网络。 这被称为消失/爆炸梯度问题，并且已经发明了各种修改方法来解决它，包括**长短期记忆**（**LSTM**）网络和**门控循环单元**（**GRU** **s**），我们将在以后使用。
+
+下图显示了有关展开（或展开）的更多详细信息：
+
+![](img/e6d1b2a6-b40b-45bf-acbc-6c6c1433d13d.png)
+
+循环神经网络的示意图
+
+在该图中，我们可以看到以下内容：
+
+*   `x[t]`是时间步长`t`的输入。 例如，`x[t]`可以是基于字符的 RNN 中的第十个字符，表示为来自字符集的索引。
+*   `s[t]`是时间步`t`的隐藏状态，因此是网络的内存。
+*   `s[t]`的计算公式为`s[t] = f(Ux[t] + Ws[t-1])`，其中`f`是非线性函数，例如 ReLU。 `U`，`V`和`W`是权重。
+*   `o[t]`是时间步长`t`的输出。 例如，如果我们要计算字符序列中的下一个字母，它将是字符集`o[t] = Vs[t]`的概率向量。
+
+如前所述，我们可以将`s[t]`视为网络的内存，因为它包含有关网络中较早时间步长发生了什么的信息。 请注意，权重`U`，`V`和`W`在每个步骤中都是共享的，因为我们在每个步骤都执行相同的计算，只是使用不同的输入值（ 结果是学习权重的数量大大减少了）。 还要注意，我们可能不需要每个时间步长的输出值（如图所示）。 如果我们要进行情感分析，每个步骤都是一个词，比如说电影评论，那么我们可能只关心最终的输出（正面或负面）。
+
+现在，让我们看一个使用 RNN 的有趣示例，在该示例中，我们尝试以给定的写作风格创建文本。
+
+# RNN 的应用
+
+在此应用中，我们将看到如何使用基于字符的循环神经网络创建文本。 更改要使用的文本的语料库很容易（请参见下面的示例）； 在这里，我们将使用查尔斯·狄更斯（Charles Dickens）的小说《伟大的期望》。 我们将在此文本上训练网络，以便如果我们给它一个字符序列，例如`thousan`，它将产生序列中的下一个字符`d`。 此过程可以继续进行，可以通过在不断演变的序列上反复调用模型来创建更长的文本序列。
+
+这是训练模型之前创建的文本的示例：
+
+```py
+Input: 
+ 'o else is there to inform?”\n\n“Is there no chance person who might identify you in the street?” said\n'
+Next Char Predictions: 
+ "dUFdZ!mig())'(ZIon“4g&HZ”@\nWGWtlinnqQY*dGJ7ioU'6(vLKL&cJ29LG'lQW8n-,M!JSVy”cjN;1cH\ndEEeMXhtW$U8Mt&sp"
+```
+
+这是一些文本，其中包含`Pip`序列，该序列是在模型经过 0.1 个温度（请参阅下文）进行 100 个周期（约 10 秒每个）的训练后创建的：
+
+```py
+Pip; it was not to be done. I had been a little while I was a look out and the strength of considerable particular by the windows of the rest of his prospering look at the windows of the room wing and the courtyard in the morning was the first time I had been a very much being strictly under the wall of my own person to me that he had done my sister, and I went on with the street common, I should have been a very little for an air of the river by the fire. For the man who was all the time of the money. My dear Herbert, who was a little way to the marshes he had ever seemed to have had once more than once and the more was a ragged hand before I had ever seemed to have him a dreadful loveriement in his head and with a falling to the table, and I went on with his arms, I saw him ever so many times, and we all the courtyard to the fire to be so often to be on some time when I saw his shoulder as if it were a long time in the morning I was a woman and a singer at the tide was remained by the 
+```
+
+对于不了解语法或拼写的系统来说，这并不是一个坏结果。 这显然是荒谬的，但那时我们并不是在追求理性。 只有一个不存在的单词（`loveriement`）。 因此，网络已经完成了学习拼写和学习单词是文本单元的工作。 还要注意，在下面的代码中，仅在短序列（`sequence_length = 100`）上训练网络。
+
+接下来，我们将查看用于设置，训练和测试循环神经网络的代码。
+
+# 我们的 RNN 示例的代码
+
+此应用基于 Google 根据 Apache 2 许可提供的应用。
+
+像往常一样，我们会将代码分解成片段，然后将您引到存储库中获取许可证和完整的工作版本。 首先，我们有模块导入，如下所示：
+
+```py
+import tensorflow as tf
+import numpy as np
+import os
+import time
+```
+
+接下来，我们有文本文件的下载链接。
+
+您可以通过在`file`中指定文件名和在`url`中指定文件的完整 URL，轻松地将其更改为所需的任何文本：
+
+```py
+file='1400-0.txt'
+url='https://www.gutenberg.org/files/1400/1400-0.txt' # Great Expectations by Charles Dickens
+```
+
+然后，我们为该文件设置了 Keras `get_file()`工具，如下所示：
+
+```py
+path = tf.keras.utils.get_file(file,url)
+```
+
+然后，我们打开并读取文件，并以字符为单位查看文件的长度：
+
+```py
+text = open(path).read()
+print ('Length of text: {} characters'.format(len(text)))
+```
+
+在文件开头没有我们不需要的文本，因此我们将其剥离掉，然后再看一下前几个字符就很有帮助了，接下来我们要做：
+
+```py
+# strip off text we don't need
+text = text[835:]
+
+# Take a look at the first 300 characters in text
+print(text[:300])
+```
+
+输出应如下所示：
+
+```py
+My father's family name being Pirrip, and my Christian name Philip, my
+infant tongue could make of both names nothing longer or more explicit
+than Pip. So, I called myself Pip, and came to be called Pip.
+
+I give Pirrip as my father's family name, on the authority of his
+tombstone and my sister,--Mrs
+```
+
+现在，让我们看一下文本中有多少个唯一字符，使用一组字符来获取它们，并按其 ASCII 码的顺序对其进行排序：
+
+```py
+# The unique characters in the file
+vocabulary = sorted(set(text))
+print ('{} unique characters.'.format(len(vocabulary)))
+```
+
+这应该提供 84 个唯一字符。
+
+接下来，我们创建一个字典，其中字符是键，而连续的整数是值。
+
+这样我们就可以找到索引，表示任何给定字符的数值：
+
+```py
+# Create a  dictionary of unique character keys to index values
+char_to_index = {char:index for index, char in enumerate(vocabulary)}
+print(char_to_index)
+```
+
+输出如下：
+
+```py
+{'\n': 0, ' ': 1, '!': 2, '$': 3, '%': 4, '&': 5, "'": 6, '(': 7, ')': 8, '*': 9, ',': 10, '-': 11, '.': 12, '/': 13, '0': 14, '1': 15, '2': 16, '3': 17, '4': 18, '5': 19, '6': 20, '7': 21, '8': 22, '9': 23, ':': 24, ';': 25, '?': 26, '@': 27, 'A': 28, 'B': 29, 'C': 30, 'D': 31, 'E': 32, 'F': 33, 'G': 34, 'H': 35, 'I': 36, 'J': 37, 'K': 38, 'L': 39, 'M': 40, 'N': 41, 'O': 42, 'P': 43, 'Q': 44, 'R': 45, 'S': 46, 'T': 47, 'U': 48, 'V': 49, 'W': 50, 'X': 51, 'Y': 52, 'Z': 53, 'a': 54, 'b': 55, 'c': 56, 'd': 57, 'e': 58, 'f': 59, 'g': 60, 'h': 61, 'i': 62, 'j': 63, 'k': 64, 'l': 65, 'm': 66, 'n': 67, 'o': 68, 'p': 69, 'q': 70, 'r': 71, 's': 72, 't': 73, 'u': 74, 'v': 75, 'w': 76, 'x': 77, 'y': 78, 'z': 79, 'ê': 80, 'ô': 81, '“': 82, '”': 83}
+```
+
+我们还需要将字符存储在数组中。 这样我们就可以找到与任何给定数值对应的字符，即`index`：
+
+```py
+index_to_char = np.array(vocabulary)
+print(index_to_char)
+```
+
+输出如下：
+
+```py
+['\n' ' ' '!' '$' '%' '&' "'" '(' ')' '*' ',' '-' '.' '/' '0' '1' '2' '3' '4' '5' '6' '7' '8' '9' ':' ';' '?' '@' 'A' 'B' 'C' 'D' 'E' 'F' 'G' 'H' 'I' 'J' 'K' 'L' 'M' 'N' 'O' 'P' 'Q' 'R' 'S' 'T' 'U' 'V' 'W' 'X' 'Y' 'Z' 'a' 'b' 'c' 'd' 'e' 'f' 'g' 'h' 'i' 'j' 'k' 'l' 'm' 'n' 'o' 'p' 'q' 'r' 's' 't' 'u' 'v' 'w' 'x' 'y' 'z' 'ê' 'ô' '“' '”']
+```
+
+现在，我们正在使用的整个文本已转换为我们作为字典创建的整数数组`char_to_index`：
+
+```py
+text_as_int = np.array([char_to_index[char] for char in text]
+```
+
+这是字符及其索引的示例：
+
+```py
+print('{')
+for char,_ in zip(char_to_index, range(20)):
+    print(' {:4s}: {:3d},'.format(repr(char), char_to_index[char]))
+print(' ...\n}')
+```
+
+输出如下：
+
+```py
+{
+  '\n':   0,
+  ' ' :   1,
+  '!' :   2,
+  '$' :   3,
+  '%' :   4,
+  '&' :   5,
+  "'" :   6,
+  '(' :   7,
+  ')' :   8,
+  '*' :   9,
+  ',' :  10,
+  '-' :  11,
+  '.' :  12,
+  '/' :  13,
+  '0' :  14,
+  '1' :  15,
+  '2' :  16,
+  '3' :  17,
+  '4' :  18,
+  '5' :  19,
+  ...
+}
+```
+
+接下来，查看文本如何映射为整数很有用； 这是前几个：
+
+```py
+# Show how the first 15 characters from the text are mapped to integers
+print ('{} ---- characters mapped to int ---- > {}'.format(repr(text[:15]), text_as_int[:15]))
+```
+
+输出如下：
+
+```py
+"My father's fam" ---- characters mapped to int ---- > [40 78  1 59 54 73 61 58 71  6 72  1 59 54 66]
+```
+
+然后，我们设置每个输入的句子长度，并因此设置训练周期中的示例数：
+
+```py
+# The maximum length sentence we want for a single input in characters
+sequence_length = 100
+examples_per_epoch = len(text)//seq_length
+```
+
+接下来，我们创建`data.Dataset`以在以后的训练中使用：
+
+```py
+# Create training examples / targets
+char_dataset = tf.data.Dataset.from_tensor_slices(text_as_int)
+# Display , sanity check
+for char in char_dataset.take(5):
+  print(index_to_char[char.numpy()])
+```
+
+输出如下：
+
+```py
+M y f a
+```
+
+我们需要批量此数据以将其馈送到我们的 RNN，因此接下来我们要这样做：
+
+```py
+sequences = char_dataset.batch(sequence_length+1, drop_remainder=True)
+```
+
+请记住，我们已经设置了`sequence_length = 100`，所以批量中的字符数是 101。
+
+现在，我们有了一个函数来创建我们的输入数据和目标数据（必需的输出）。
+
+该函数返回我们一直在处理的文本以及相同的文本，但是一起移动了一个字符，即，如果第一个单词是`Python`和`sequence_length = 5`，则该函数返回`Pytho`和`ython` 。
+
+然后，我们通过连接输入和输出字符序列来创建数据集：
+
+```py
+def split_input_target(chunk):
+   input_text = chunk[:-1]
+   target_text = chunk[1:]
+   return input_text, target_text
+
+dataset = sequences.map(split_input_target)
+```
+
+接下来，我们执行另一个健全性检查。 我们使用先前创建的数据集来显示输入和目标数据。
+
+请注意，`dataset.take(n)`方法从数据集中返回`n`批次。
+
+在这里还请注意，由于我们已经启用了急切执行（当然，默认情况下，在 TensorFlow 2 中是这样），因此我们可以使用`numpy()`方法来查找张量的值：
+
+```py
+for input_example, target_example in dataset.take(1):
+ print ('Input data: ', repr(''.join(index_to_char[input_example.numpy()]))) #101 characters
+ print ('Target data:', repr(''.join(index_to_char[target_example.numpy()])))
+```
+
+输出如下：
+
+```py
+Input data: "My father's family name being Pirrip, and my Christian name Philip, my\ninfant tongue could make of b" Target data: "y father's family name being Pirrip, and my Christian name Philip, my\ninfant tongue could make of bo"
+```
+
+现在，我们可以通过几个步骤显示输入和预期输出：
+
+```py
+for char, (input_index, target_index) in enumerate(zip(input_example[:5], target_example[:5])):
+    print("Step {:4d}".format(char))
+    print(" input: {} ({:s})".format(input_index, repr(index_to_char[input_index])))
+    print(" expected output: {} ({:s})".format(target_index, repr(index_to_char[target_index])))
+```
+
+以下是此输出：
+
+```py
+Step 0:      input: 40 ('M'),  expected output: 78 ('y') Step 1:      input: 78 ('y'),  expected output: 1 (' ') Step 2:      input: 1 (' '),  expected output: 59 ('f') Step 3:      input: 59 ('f'),  expected output: 54 ('a') Step 4:      input: 54 ('a'),  expected output: 73 ('t')
+```
+
+接下来，我们为训练进行设置，如下所示：
+
+```py
+# how many characters in a batch
+batch = 64
+
+# the number of training steps taken in each epoch
+steps_per_epoch = examples_per_epoch//batch # note integer division
+
+# TF data maintains a buffer in memory in which to shuffle data 
+# since it is designed to work with possibly endless data
+buffer = 10000
+
+dataset = dataset.shuffle(buffer).batch(batch, drop_remainder=True)
+
+# call repeat() on dataset so data can be re-fed into the model from the beginning
+dataset = dataset.repeat()
+
+dataset
+```
+
+这给出了以下数据集结构：
+
+```py
+<RepeatBatchDataset shapes: ((64, 100), (64, 100)), types: (tf.int64, tf.int64)>
+```
+
+此处，`64`是批次大小，`100`是序列长度。 以下是我们训练所需的一些值：
+
+```py
+# The vocabulary length in characters
+vocabulary_length = len(vocabulary)
+
+# The embedding dimension 
+embedding_dimension = 256
+
+# The number of recurrent neural network units
+recurrent_nn_units = 1024
+```
+
+我们正在使用 GRU，在 **CUDA 深度神经网络**（**cuDNN**）库中，如果代码在 GPU 上运行，则可以使用这些例程进行快速计算。 GRU 是在 RNN 中实现内存的一种方式。 下一节将实现此想法，如下所示：
+
+```py
+if tf.test.is_gpu_available():
+    recurrent_nn = tf.compat.v1.keras.layers.CuDNNGRU
+    print("GPU in use")
+else:
+    import functools
+    recurrent_nn = functools.partial(tf.keras.layers.GRU, recurrent_activation='sigmoid')
+    print("CPU in use")
+```
+
+# 建立并实例化我们的模型
+
+如我们先前所见，一种用于构建模型的技术是将所需的层传递到`tf.keras.Sequential()`构造器中。 在这种情况下，我们分为三层：嵌入层，RNN 层和密集层。
+
+第一嵌入层是向量的查找表，一个向量用于每个字符的数值。 它的尺寸为`embedding_dimension`。 中间，循环层是 GRU； 其大小为`recurrent_nn_units`。 最后一层是长度为`vocabulary_length`单元的密集输出层。
+
+该模型所做的是查找嵌入，使用嵌入作为输入来运行 GRU 一次，然后将其传递给密集层，该层生成下一个字符的对数（对数赔率）。
+
+如下图所示：
+
+![](img/3832c4d7-fb9f-40af-99bf-9f2c4acd2584.png)
+
+因此，实现此模型的代码如下：
+
+```py
+def build_model(vocabulary_size, embedding_dimension, recurrent_nn_units, batch_size):
+    model = tf.keras.Sequential(
+        [tf.keras.layers.Embedding(vocabulary_size, embedding_dimension, batch_input_shape=[batch_size, None]),
+    recurrent_nn(recurrent_nn_units, return_sequences=True, recurrent_initializer='glorot_uniform', stateful=True),
+    tf.keras.layers.Dense(vocabulary_length)
+  ])
+    return model
+```
+
+现在我们可以实例化我们的模型，如下所示：
+
+```py
+model = build_model(
+  vocabulary_size = len(vocabulary),
+  embedding_dimension=embedding_dimension,
+  recurrent_nn_units=recurrent_nn_units,
+  batch_size=batch)
+```
+
+现在，我们可以进行健全性检查，以确保我们的模型输出正确的形状。 注意使用`dataset.take()`提取数据集的元素：
+
+```py
+for batch_input_example, batch_target_example in dataset.take(1):
+    batch_predictions_example = model(batch_input_example)
+    print(batch_predictions_example.shape, "# (batch, sequence_length, vocabulary_length)")
+```
+
+以下是此输出：
+
+```py
+(64, 100, 84) # (batch, sequence_length, vocabulary_length)
+```
+
+这是预期的； 回想一下，我们的字符集中有`84`个唯一字符。
+
+这是显示我们的模型外观的代码：
+
+```py
+model.summary()
+```
+
+我们的模型架构摘要的输出如下：
+
+![](img/c16b150d-45b6-4f82-a596-8317ae714c1d.png)
+
+再次回想一下，我们有`84`输入值，我们可以看到，对于嵌入层，`84 * 256 = 21,504`，对于密集层，`1024 * 84 + 84（偏置单元）= 86,100`。
+
+# 使用我们的模型获得预测
+
+为了从我们的模型中获得预测，我们需要从输出分布中抽取一个样本。 此采样将为我们提供该输出分布所需的字符（对输出分布进行采样很重要，因为像通常那样对它进行`argmax`提取，很容易使模型陷入循环）。
+
+在显示索引之前，`tf.random.categorical`进行此采样，`axis=-1`与`tf.squeeze`删除张量的最后一个维度。
+
+`tf.random.categorical`的签名如下：
+
+```py
+tf.random.categorical(logits, num_samples, seed=None, name=None, output_dtype=None)
+```
+
+将其与调用进行比较，我们看到我们正在从预测（`example_batch_predictions[0]`）中获取一个样本（长度为`sequence_length = 100`）。 然后删除了多余的尺寸，因此我们可以查找与示例相对应的字符：
+
+```py
+sampled_indices = tf.random.categorical(logits=batch_predictions_example[0], num_samples=1)
+
+sampled_indices = tf.squeeze(sampled_indices,axis=-1).numpy()
+
+sampled_indices
+```
+
+这将产生以下输出：
+
+```py
+array([79, 43, 3, 12, 20, 24, 54, 10, 61, 43, 46, 15, 0, 24, 39, 77, 2, 73, 4, 78, 5, 60, 13, 65, 1, 75, 47, 33, 61, 13, 64, 41, 32, 42, 40, 20, 37, 10, 60, 51, 21, 17, 69, 8, 3, 74, 64, 68, 2, 3, 35, 13, 67, 16, 46, 48, 47, 1, 38, 80, 47, 8, 32, 53, 50, 28, 63, 33, 35, 72, 80, 0, 7, 64, 2, 79, 1, 56, 61, 13, 55, 28, 62, 30, 40, 22, 32, 40, 27, 46, 21, 51, 10, 76, 64, 47, 72, 83, 45, 8])
+```
+
+让我们看一下到训练之前的一些输入和输出*：*
+
+```py
+print("Input: \n", repr("".join(index_to_char[batch_input_example[0]])))
+
+print("Next Char Predictions: \n", repr("".join(index_to_char[sampled_indices ])))
+#
+```
+
+因此输出如下。 输入的文本之后是下一个字符预测（在训练之前）：
+
+```py
+Input: 
+ 'r, that I might refer to it again; but I could not find it, and\nwas uneasy to think that it must hav'
+Next Char Predictions: 
+ "hFTzJe;rAô:G*'”x4d?&ôce9QekL:*O7@KuoZM&“$r0mg\n%/2-6QaE&$)/'Y8m.x)94b?fKp.rRô.3IMMTMjMMag.iL1LuM6 ?';"
+```
+
+接下来，我们定义`loss`函数：
+
+```py
+def loss(labels, logits):
+ return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)
+```
+
+然后，我们在训练之前查看模型的损失，并进行另一次尺寸完整性检查：
+
+```py
+batch_loss_example = tf.compat.v1.losses.sparse_softmax_cross_entropy(batch_target_example, batch_predictions_example)
+print("Prediction shape: ", batch_predictions_example.shape, " # (batch_size, sequence_length, vocab_size)")
+print("scalar_loss: ", batch_loss_example.numpy())
+```
+
+这将产生以下输出：
+
+```py
+Prediction shape: (64, 100, 84) # (batch, sequence_length, vocabulary_length) 
+scalar_loss: 4.429237
+```
+
+为了准备我们的训练模型，我们现在使用`AdamOptimizer`和 softmax 交叉熵损失对其进行编译：
+
+```py
+#next produced by upgrade script.... 
+#model.compile(optimizer = tf.compat.v1.train.AdamOptimizer(), loss = loss) 
+#.... but following optimizer is available.
+model.compile(optimizer = tf.optimizers.Adam(), loss = loss)
+
+```
+
+我们将保存模型的权重，因此，接下来，我们为此准备检查点：
+
+```py
+# The checkpoints will be saved in this directory
+directory = './checkpoints'
+
+# checkpoint files
+file_prefix = os.path.join(directory, "ckpt_{epoch}")
+callback=[tf.keras.callbacks.ModelCheckpoint(filepath=file_prefix, save_weights_only=True)]
+```
+
+最后，我们可以使用对`model.fit()`的调用来训练模型：
+
+```py
+epochs=45 # *much* faster on GPU, ~10s / epoch, reduce this figure significantly if on CPU 
+
+history = model.fit(dataset, epochs=epochs, steps_per_epoch=steps_per_epoch, callbacks=callback)
+```
+
+这给出以下输出：
+
+```py
+Epoch 1/50 158/158 [==============================] - 10s 64ms/step - loss: 2.6995 .................... Epoch 50/50 158/158 [==============================] - 10s 65ms/step - loss: 0.6143
+```
+
+以下是最新的检查点：
+
+```py
+tf.train.latest_checkpoint(directory)
+```
+
+可以解决以下结果：
+
+```py
+'./checkpoints/ckpt_45'
+```
+
+因此，我们可以重建模型（以展示其完成方式）：
+
+```py
+model = build_model(vocabulary_size, embedding_dimension, recurrent_nn_units, batch_size=1)
+
+model.load_weights(tf.train.latest_checkpoint(directory))
+
+model.build(tf.TensorShape([1, None]))
+
+model.summary()
+```
+
+下表显示了我们模型的摘要：
+
+![](img/3066d8ab-9f14-4449-a8eb-f5416c4e6af9.png)
+
+接下来，在给定训练有素的模型，起始字符串和温度的情况下，我们使用一个函数来生成新文本，其值确定文本的随机性（低值给出更多可预测的文本；高值给出更多随机的文本）。
+
+首先，我们确定要生成的字符数，然后向量化起始字符串，并为其添加空白尺寸。 我们将额外的维添加到`input_string`变量中，因为 RNN 单元需要它（两个必需的维是批量长度和序列长度）。 然后，我们初始化一个变量，用于存储生成的文本。
+
+`temperature`的值确定生成的文本的随机性（较低的随机性较小，意味着更可预测）。
+
+在一个循环中，对于要生成的每个新字符，我们使用包含 RNN 状态的模型来获取下一个字符的预测分布。 然后使用多项式分布来找到预测字符的索引，然后将其用作模型的下一个输入。 由于存在循环，模型返回的 RNN 状态将反馈到模型中，因此它现在不仅具有一个字符，而且具有更多信息。 一旦预测了下一个字符，就将修改后的 RNN 状态反复反馈到模型中，以便模型学习，因为它从先前预测的字符获得的上下文会增加。
+
+下图显示了它是如何工作的：
+
+![](img/8cf34e04-9d73-46cc-b1aa-7bcd0a5342b3.png)
+
+在这里，多项式用`tf.random.categorical`实现； 现在我们准备生成我们的预测文本：
+
+```py
+def generate_text(model, start_string, temperature, characters_to_generate):
+
+# Vectorise the start string into numbers 
+  input_string = [char_to_index[char] for char in start_string]
+# add extra dimension to input_string
+  input_string = tf.expand_dims(input_string, 0)
+
+# Empty list to store generated text
+  generated = []
+
+# (batch size is 1)
+  model.reset_states()
+  for i in range(characters_to_generate):
+    predictions = model(input_string) #here's where we need the extra dimension
+
+    # remove the batch dimension
+    predictions = tf.squeeze(predictions, 0)
+
+    # using a random categorical (multinomial) distribution to predict word returned by the model
+    predictions = predictions / temperature
+    predicted_id = tf.random.categorical(logits=predictions, num_samples=1)[-1,0].numpy()
+
+    # Pass  predicted word as  next input to the model along with previous hidden state
+    input_string = tf.expand_dims([predicted_id], 0)
+
+    generated.append(index_to_char[predicted_id])
+return (start_string + ''.join(generated)) # generated is a list
+```
+
+因此，在定义函数之后，我们可以调用它以返回生成的文本。
+
+在给定的函数参数中，低温给出更多可预测的文本，而高温给出更多随机的文本。 同样，您可以在此处更改起始字符串并更改函数生成的字符数：
+
+```py
+generated_text = generate_text(model=model, start_string="Pip", temperature=0.1, characters_to_generate = 1000)
+print(generated_text)
+```
+
+经过 30 个训练周期后，将产生以下输出：
+
+```py
+Pip; it was a much better to and the Aged and weaking his hands of the windows of the way who went them on which the more I had been a very little for me, and I went on with his back in the soldiers of the room with the whole hand the other gentleman with the hand on the service, when I was a look of half of the room was was the first time of the money. I forgetter, Mr. Pip?” “I don't know that I have no more than I know what I have no inquiry with the rest of its being straight up again. He came out of the room, and in the midst of the room was was all the words, “and he came into the Castle. One would repeat it to your expectations condition of the courtyard. In a moment was the first time in the house to the fork, and we all lighted and at his being so beautiful looking at the convicts. My depression of the morning, I looked at him in the morning, I should not have been made a strong for the first time of the wall before the table to the forefinger of the room, and had not quite diffi
+```
+
+`Loss = 0.6761`； 该文本或多或少地被正确地拼写和标点，尽管其含义（我们并未试图实现）的含义在很大程度上是愚蠢的。 它还没有学习如何正确使用语音标记。 只有两个无意义的单词（`forgetter`和`weaking`），经过检查，在语义上仍然是合理的。 生成的是否为 Charles Dickens 风格是一个悬而未决的问题。
+
+周期数的实验表明，损失在约 45 周期时达到最小值，此后它开始增加。
+
+45 个周期后，输出如下：
+
+```py
+Pip; or I should
+have felt painfully consciousness that he was the man with his back to the kitchen, and he seemed to have no
+strength, and as I had often seen her shutters with the poker on
+the parlor, through having been every disagreeable to be seen; I thought I would give him more letters of my own
+eyes and flared about the fire, and showed the greatest state of mind,
+I thought I would give up of his having fastened out of the room, and had
+made some advance in that respect to me to feel an
+indescribable awe as it was a to be even than ever of her steps, or for old
+asked, “Yes.”
+
+“What is it?” repeated Mr. Jaggers. “You know I was in my mind by his blue eyes most of all admirers,
+and that she had shaken hands contributing the poker out of his
+hands in his pockets and his dinner loosely tied in a busy preparation for the reference to my United and
+self-possession when Miss Havisham and Estella now that I had been too much to be the salvey dark night, which seemed so long
+ago. “Yes, de
+```
+
+`Loss = 0.6166`； 该模型现在似乎已正确配对了语音标记，并且没有无意义的单词。
+
+# 总结
+
+这样就结束了我们对 RNN 的研究。 在本章中，我们首先讨论了 RNN 的一般原理，然后介绍了如何获取和准备一些供模型使用的文本，并指出在此处使用替代文本源很简单。 然后，我们看到了如何创建和实例化我们的模型。 然后，我们训练了模型并使用它从起始字符串中产生文本，并注意到网络已了解到单词是文本的单元以及如何拼写各种各样的单词（有点像文本作者的风格）， 几个非单词。
+
+在下一章中，我们将研究 TensorFlow Hub 的使用，它是一个软件库。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/09.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/09.md
new file mode 100644
index 00000000..c063b895
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/09.md
@@ -0,0 +1,499 @@
+# 九、TensorFlow 估计器和 TensorFlow HUB
+
+本章分为两部分，但是此处的技术是相关的。 首先，我们将研究 TensorFlow 估计器如何为 TensorFlow 提供简单的高级 API，其次，我们将研究 TensorFlow Hub 如何包含可在自己的应用中使用的模块。
+
+在本章中，我们将涵盖以下主要主题：
+
+*   TensorFlow 估计器
+*   TensorFlow HUB
+
+# TensorFlow 估计器
+
+`tf.estimator`是 TensorFlow 的高级 API。 它通过提供用于服务模型的直接训练，评估，预测和导出的方法来简化机器学习编程。
+
+估计器为 TensorFlow 开发人员带来了许多优势。 与低级 API 相比，使用估计器开发模型更容易，更直观。 特别是，同一模型可以在本地计算机或分布式多服务器系统上运行。 该模型也不了解其所处的处理器，即 CPU，GPU 或 TPU。 估计器还通过简化模型开发人员共享实现的过程，简化了开发过程，并且由于构建在 Keras 层上，因此使自定义更加简单。
+
+估计器会处理与 TensorFlow 模型一起使用的所有背景管线。 它们支持安全，分布式的训练循环，用于图构建，变量初始化，数据加载，异常处理，创建检查点文件，从故障中恢复以及为 TensorBoard 保存摘要。 正如我们将看到的，由于它们创建检查点，因此它们支持在给定数量的步骤之后停止和开始训练。
+
+开发估计器模型的过程分为四个步骤：
+
+1.  采集数据并创建数据函数
+2.  创建特征列
+3.  实例化估计器
+4.  评估模型的表现
+
+我们将在以下代码中举例说明这些步骤。
+
+我们之前已经看过`fashion_mnist`数据集（在第 5 章“将 TensorFlow 2 用于无监督学习”），因此我们将再次使用该数据集来演示估计器的用例。
+
+# 代码
+
+首先，这是必需的导入：
+
+```py
+import tensorflow as tf
+import numpy as np
+```
+
+接下来，我们获取并预处理数据。 注意，`tf.keras.datasets`中方便地存在`fashion_mnist`。 数据集中的`x`值采用整数 NumPy 数组的形式，每个元素的范围为 0 到 255，代表`28 x 28`像素时尚图像中每个像素的灰度值。 为了进行训练，必须将这些值转换为 0 到 1 范围内的浮点数。`y`值采用无符号 8 位整数`(uint8)`的形式，并且必须转换为 32 位整数（`int32` ），供估计工具再次使用。
+
+尽管可以用以下方法试验该超参数值，但将学习率设置为一个很小的值：
+
+```py
+fashion = tf.keras.datasets.fashion_mnist
+(x_train, y_train),(x_test, y_test) = fashion.load_data()
+print(type(x_train))
+x_train, x_test = x_train / 255.0, x_test / 255.0
+
+y_train, y_test = np.int32(y_train), np.int32(y_test)
+
+learning_rate = 1e-4
+```
+
+之后，是我们的训练输入特征。
+
+当您具有数组中的完整数据集并需要快速进行批量，混排和/或重复的方法时，将使用`tf.compat.v1.estimator.inputs.numpy_input_fn`。
+
+其签名如下：
+
+```py
+tf.compat.v1.estimator.inputs.numpy_input_fn(
+ x,
+ y=None,
+ batch_size=128,
+ num_epochs=1,
+ shuffle=None,
+ queue_capacity=1000,
+ num_threads=1
+)
+```
+
+将此与我们对函数的调用进行比较，您可以看到`x`值如何作为 NumPy 数组的字典（与张量兼容）传递，以及`y`照原样传递。 在此阶段，我们尚未指定周期数，即该函数将永远运行（稍后将指定步骤），我们的批量大小（即一步中显示的图像数）为`50`， 并在每一步之前将数据在队列中混洗。 其他参数保留为其默认值：
+
+```py
+train_input_fn = tf.compat.v1.estimator.inputs.numpy_input_fn(
+    x={"x": x_train},
+        y=y_train,
+        num_epochs=None,
+        batch_size=50,
+        shuffle=True
+)
+```
+
+值得一提的是，尽管这样的便利函数虽然在 TensorFlow 2.0 alpha 中不可用，但仍有望改用 TensorFlow2。
+
+测试函数具有相同的签名，但是在这种情况下，我们仅指定一个周期，并且正如 Google 所建议的那样，我们不会对数据进行混洗。 同样，其余参数保留为其默认值：
+
+```py
+test_input_fn = tf.compat.v1.estimator.inputs.numpy_input_fn(
+    x={"x": x_test},
+        y=y_test,
+        num_epochs=1,
+        shuffle=False
+)
+```
+
+接下来，我们建立特征列。 特征列是一种将数据传递给估计器的方法。
+
+特征列函数的签名如下。 `key`是唯一的字符串，是与我们先前在输入函数中指定的字典名称相对应的列名称（有关不同类型的特征列的更多详细信息，请参见[这里](https://www.tensorflow.org/api_docs/python/tf/feature_column)）：
+
+```py
+tf.feature_column.numeric_column(
+    key,
+    shape=(1,),
+    default_value=None,
+    dtype=tf.float32,
+    normalizer_fn=None
+)
+```
+
+在我们的特定特征列中，我们可以看到关键是`"x"`，并且形状就是`fashion_mnist`数据集图像的`28 x 28`像素形状：
+
+```py
+feature_columns = [tf.feature_column.numeric_column("x", shape=[28, 28])]
+```
+
+接下来，我们实例化我们的估计器，它将进行分类。 它将为我们构建一个深度神经网络。 它的签名很长很详细，因此我们将带您参考[这里](https://www.tensorflow.org/api_docs/python/tf/estimator/DNNClassifier)，因为我们将主要使用其默认参数。 它的第一个参数是我们刚刚指定的特征，而第二个参数是我们的网络规模。 （输入层和输出层由估计器在后台添加。）`AdamOptimizer`是安全的选择。 `n_classes`对应于我们`fashion_mnist`数据集的`y`标签数量，我们在其中添加了`0.1`的适度`dropout`。 然后，`model_dir`是我们保存模型参数及其图和检查点的目录。 此目录还用于将检查点重新加载到估计器中以继续训练：
+
+```py
+# Build 2 layer DNN classifier
+classifier = tf.estimator.DNNClassifier(
+    feature_columns=feature_columns,
+    hidden_units=[256, 32],
+    optimizer=tf.compat.v1.train.AdamOptimizer(learning_rate),
+    n_classes=10,
+    dropout=0.1,
+    model_dir="./tmp/mnist_modelx"
+, loss_reduction=tf.compat.v1.losses.Reduction.SUM)
+```
+
+现在，我们准备训练模型。 如果您第二次或之后运行`.train`循环，则 Estimator 将从`model_dir`加载其模型参数，并进行进一步的`steps`训练（要完全从头开始，只需通过`model_dir`删除指定的目录）：
+
+```py
+classifier.train(input_fn=train_input_fn, steps=10000)
+```
+
+典型的输出线如下所示：
+
+```py
+INFO:tensorflow:loss = 25.540459, step = 1600 (0.179 sec) INFO:tensorflow:global_step/sec: 523.471
+```
+
+最终输出如下所示：
+
+```py
+INFO:tensorflow:Saving checkpoints for 10000 into ./tmp/mnist_modelx/model.ckpt.
+INFO:tensorflow:Loss for final step: 13.06977.
+```
+
+`model_dir`中指定的目录如下所示：
+
+![](img/27a244c6-21a0-4834-a28a-4718d7197716.png)
+
+为了评估模型的表现，使用了`classifier.evaluate`方法。 其签名如下：
+
+```py
+classifier.evaluate(input_fn, steps=None, hooks=None, checkpoint_path=None, name=None)
+```
+
+这将返回一个字典，因此在我们的调用中，我们正在提取准确率指标。
+
+在此，`steps`默认为`None`。 这将评估模型，直到`input_fn`引发输入结束异常，即，它将评估整个测试集：
+
+```py
+ accuracy_score = classifier.evaluate(input_fn=test_input_fn)["accuracy"]
+ print("\nTest Accuracy: {0:f}%\n".format(accuracy_score*100))
+```
+
+我们还可以使用以下命令在 TensorBoard 中查看训练的进度：
+
+```py
+tensorboard --logdir=./tmp/mnist_modelx
+```
+
+此处，损失图如下所示，其中`x`轴以 1,000（k）单位表示：
+
+![](img/5b1262f0-e388-4537-ae0f-fe7ee09b7bb9.png)
+
+到此结束我们对时尚估计器分类器的了解。 现在我们来看看 TensorFlow Hub。
+
+# TensorFlow HUB
+
+TensorFlow Hub 是一个软件库。 其目的是提供可重用的组件（称为模块），这些组件可在开发组件的原始上下文之外的上下文中使用。 所谓模块，是指 TensorFlow 图的一个独立部分及其权重，可以在其他类似任务中重复使用。
+
+# IMDb（电影评论数据库）
+
+在本节中，我们将研究一种基于 Google 的应用，该应用在**情感分析**中分析了电影评论的 IMDb 的子集。 该子集由斯坦福大学主持，包含每部电影的评论，以及情感积极性等级为 1 到 4（差）和 7 到 10（好）的情感。 问题在于确定关于每个电影的文本句子中表达的视图的极性，即针对每个评论，以确定它是正面评论还是负面评论。 我们将在 TensorFlow Hub 中使用一个模块，该模块先前已经过训练以生成单词嵌入。
+
+词嵌入是数字的向量，因此具有相似含义的词也具有类似的向量。 这是监督学习的示例，因为评论的训练集将使用 IMDB 数据库提供的阳性值来训练模型。 然后，我们将在测试集上使用经过训练的模型，并查看其预测与 IMDB 数据库中存储的预测相比如何，从而为我们提供了一种准确率度量。
+
+可以在[这个页面](http://ai.stanford.edu/~amaas/data/sentiment/)中找到该数据库论文的引文。
+
+# 数据集
+
+[以下是数据库随附的自述文件](http://ai.stanford.edu/~amaas/data/sentiment/)：
+
+"The core dataset contains 50,000 reviews split evenly into 25k train and 25k test sets. The overall distribution of labels is balanced (25k pos and 25k neg)."
+"In the entire collection, no more than 30 reviews are allowed for any given movie because reviews for the same movie tend to have correlated ratings. Further, the train and test sets contain a disjoint set of movies, so no significant performance is obtained by memorizing movie-unique terms and their associated with observed labels. In the labeled train/test sets, a negative review has a score <= 4 out of 10, and a positive review has a score >= 7 out of 10\. Thus, reviews with more neutral ratings are not included in the train/test sets."
+
+这是从 IMDb 训练头的顶部起的五行示例：
+
+|  | **句子** | **情感** | **极性** |
+| --- | --- | --- | --- |
+| 0 | `I came here for a review last night before dec...` | 3 | 0 |
+| 1 | `Look, I'm reading and reading these comments and...` | 4 | 0 |
+| 2 | `I was overtaken by the emotion. Unforgettable ...` | 10 | 1 |
+| 3 | `This movie could have been a decent B-movie if...` | 4 | 0 |
+| 4 | `I have a thing for old black and white movies ...` | 10 | 1 |
+
+这是其尾部的五行：
+
+|  | 句子 | 情感 | 极性 |
+| --- | --- | --- | --- |
+| 24995 | `I have watched some pretty poor films in the p...` | 1 | 0 |
+| 24996 | `This film is a calculated attempt to cash in t...` | 1 | 0 |
+| 24997 | `This movie was so very badly written. The char...` | 1 | 0 |
+| 24998 | `I am a huge Stooges fan but the one and only r...` | 2 | 0 |
+| 24999 | `Well, let me start off by saying how utterly H...` | 3 | 0 |
+
+以下是测试集：
+
+![](img/2bfa077e-c4cd-43a1-9140-74b375ee7897.png)
+
+# 代码
+
+现在，让我们看一下在这些数据上训练的代码。 在程序的顶部，我们有通常的导入，以及可能需要与`pip` – `tensorflow_hub`，`pandas`和`seaborn`一起安装的三个额外的导入。 如前所述，我们将使用`tensorflow_hub`中的模块； 我们还将使用`pandas`的一些`DataFrame`属性和`seaborn`的一些绘制方法：
+
+```py
+import tensorflow as tf
+import tensorflow_hub as hub
+import matplotlib.pyplot as plt
+import numpy as np
+import os
+import pandas as pd
+import re
+import seaborn as sns
+```
+
+另外，这是一些值和我们稍后需要的方法：
+
+```py
+n_classes = 2
+hidden_units = [500,100]
+learning_rate = 1e-4
+steps = 1000
+optimizer = tf.optimizers.Adagrad(learning_rate=learning_rate)
+# upgrade script gave this:
+#optimizer = tf.compat.v1.train.AdagradOptimizer(learning_rate = learning_rate)
+```
+
+重要的是要认识到，这里使用的 IMDb 数据是目录的分层结构形式。
+
+顶级 IMDb 目录包含两个子目录：`train`和`test`。 `train`和`test`子目录分别包含另外两个子目录`pos`和`neg`：
+
+*   `pos`：包含文本文件的集合。 每个文本文件都是正面评价（极性为 1）。
+*   `neg`：包含文本文件的集合。 每个文本文件都是负面评论（极性为 0）。
+
+情感（分别为 7 到 10 或 1 到 4）记录在文件名中； 例如，文件名为`18_7.txt`的文本文件评论的情感为 7（`pos`），而文件名为`38_2.txt`的文本文件评论的情感为 2（`neg`）：
+
+![](img/5b2f5728-0221-484e-b748-dd9191aa5d53.png)
+
+IMDb 目录/文件层次结构
+
+我们从调用层次结构中的三个函数开始，这些函数获取并预处理审阅数据。
+
+在第一个函数`load_data(directory)`中，`directory_data`是一个字典，其中加载了`directory`中的数据，该数据作为参数传入并作为 pandas `DataFrame`返回。
+
+用`description`和`sentiment`键初始化`directory_data`字典，然后将它们分配为空列表作为值。
+
+然后，该函数循环遍历`directory`中的每个文件，并且对于每个文本文件，读取其内容（作为电影评论）并将其附加到情感列表中。 然后，它使用正则表达式分析文件名并提取数字情感，如前所示，该数字情感紧随文件名中的下划线（`_`）。 该函数将此数字情感附加到`sentiment`列表中。 当所有`.txt`文件都循环通过后，该函数将返回已转换为 pandas `DataFrame`的字典：
+
+```py
+# Load all files from a directory into a Pandas DataFrame.
+def load_data(directory):
+    directory_data = {}
+    directory_data["description"] = []
+    directory_data["sentiment"] = []
+    for file in os.listdir(directory):
+        with tf.io.gfile.GFile(os.path.join(directory, file), "r") as f:
+            directory_data["description"].append(f.read())
+            directory_data["sentiment"].append(re.match("\d+_(\d+)\.txt", file).group(1))
+    return pd.DataFrame.from_dict(directory_data)
+```
+
+如我们前面所述，下一个函数`load(directory)`调用`load_data(directory)`从`pos`和`neg`子目录创建一个`DataFrame`。 它将适当的极性作为额外字段添加到每个`DataFrame`。 然后，它返回一个新的`DataFrame`，该数据帧由`pos`和`neg`的`DataFrame`的连接组成，经过混洗（`sample(frac=1)`），并插入了新的数字索引（因为我们已经对行进行了混排）：
+
+```py
+# Merge positive and negative examples, add a polarity column and shuffle.
+def load(directory):
+    positive_df = load_data(os.path.join(directory, "pos"))
+    positive_df["polarity"] = 1
+
+    negative_df = load_data(os.path.join(directory, "neg"))
+    negative_df["polarity"] = 0
+    return pd.concat([positive_df, negative_df]).sample(frac=1).reset_index(drop=True)
+```
+
+第三个也是最后一个函数是`acquire_data()`。 如果缓存中不存在该函数，则使用 Keras 工具从 Stanford URL 中获取我们所需的文件。 默认情况下，高速缓存是位于`~/.keras/datasets`的目录，如有必要，文件将提取到该位置。 该工具将返回到我们的 IMDb 的路径。 然后将其传递给`load_dataset()`的两个调用，以获取训练和测试`DataFrame`：
+
+```py
+# Download and process the dataset files.
+def acquire_data():
+    data = tf.keras.utils.get_file(
+    fname="aclImdb.tar.gz",
+    origin="http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz", extract=True)
+
+    train_df = load(os.path.join(os.path.dirname(data), "aclImdb", "train"))
+    test_df = load(os.path.join(os.path.dirname(data), "aclImdb", "test"))
+
+    return train_df, test_df
+tf.compat.v1.logging.set_verbosity(tf.compat.v1.logging.ERROR)
+```
+
+主程序要做的第一件事是通过调用我们刚刚描述的函数来获取训练并测试 pandas `DataFrame`：
+
+```py
+train_df, test_df = acquire_data()
+```
+
+此时，`train_df`和`test_df`包含我们要使用的数据。
+
+在查看下一个片段之前，让我们看一下它的签名。 这是一个估计器，它返回用于将 Pandas `DataFrame`馈入模型的输入函数：
+
+```py
+tf.compat.v1.estimator.inputs.pandas_input_fn(x, y=None, batch_size=128, num_epochs=1, shuffle=None, queue_capacity=1000, num_threads=1, target_column='target')
+```
+
+调用本身如下：
+
+```py
+# Training input on the whole training set with no limit on training epochs
+train_input_fn = tf.compat.v1.estimator.inputs.pandas_input_fn(train_df, train_df["polarity"], num_epochs=None, shuffle=True)
+```
+
+通过将此调用与函数签名进行比较，我们可以看到训练数据帧`train_df`与每个评论的极性一起传入。 `num_epochs =None`表示对训练周期的数量没有限制，因为我们将在后面进行指定； `shuffle=True`表示以随机顺序读取记录，即文件的每一行。
+
+接下来是预测训练结果的函数：
+
+```py
+# Prediction on the whole training set.
+predict_train_input_fn = tf.compat.v1.estimator.inputs.pandas_input_fn(train_df, train_df["polarity"], shuffle=False)
+```
+
+我们还具有预测测试结果的函数：
+
+```py
+# Prediction on the test set.
+predict_test_input_fn = tf.compat.v1.estimator.inputs.pandas_input_fn(test_df, test_df["polarity"], shuffle=False)
+```
+
+然后，我们有特征列。 特征列是原始数据和估计器之间的中介。 共有九种特征列类型。 它们根据其类型采用数值或分类数据，然后将数据转换为适用于估计器的格式。 在[这个页面](https://www.tensorflow.org/guide/feature_columns)上有一个出色的描述以及许多示例。
+
+请注意，嵌入来自`tf.hub`：
+
+```py
+embedded_text_feature_column = hub.text_embedding_column(
+    key="description",
+    module_spec="https://tfhub.dev/google/nnlm-en-dim128/1")
+```
+
+接下来，我们有我们的深度神经网络估计器。 估计器是用于处理模型的高级工具。
+
+估计器的示例包括`DNNClassifier`，即用于 TensorFlow 深层神经网络的分类器（在以下代码中使用），以及`LinearRegressor`，即用于线性回归问题的分类器。 其签名如下：
+
+```py
+tf.estimator.DNNClassifier(hidden_units, feature_columns, model_dir=None, n_classes=2, weight_column=None, label_vocabulary=None, optimizer='Adagrad', activation_fn=<function relu at 0x7fbb75512488>, dropout=None, input_layer_partitioner=None, config=None, warm_start_from=None, loss_reduction='weighted_sum', batch_norm=False, loss_reduction=None)
+```
+
+让我们将此与通话进行比较：
+
+```py
+estimator = tf.estimator.DNNClassifier(
+    hidden_units = hidden_units,
+    feature_columns=[embedded_text_feature_column],
+    n_classes=n_classes,
+    optimizer= optimiser,
+    model_dir = "./tmp/IMDbModel"
+, loss_reduction=tf.compat.v1.losses.Reduction.SUM)
+```
+
+我们可以看到，我们将使用具有 500 和 100 个单元的隐藏层的神经网络，我们先前定义的特征列，两个输出类（标签）和`ProximalAdagrad`优化器。
+
+请注意，与前面的示例一样，由于我们指定了`model_dir`，因此估计器将保存一个检查点和各种模型参数，以便在重新训练时，将从该目录加载模型并对其进行进一步的训练`steps`。
+
+现在，我们可以使用以下代码来训练我们的网络：
+
+```py
+estimator.train(input_fn=train_input_fn, steps=steps);
+```
+
+此代码块为我们的结果造成混淆矩阵。
+
+在我们的上下文中，混淆矩阵是一个图表，显示了经过训练的模型的以下内容：
+
+*   **真阳性**：真实的正面情感被正确地预测为正面的评论（右下）
+*   **真阴性**：真实的负面情感被正确地预测为负面的评论（左上）
+*   **假阳性**：真实的负面情感被错误地预测为正面的评论（右上）
+*   **假阴性**：真实的正面情感被错误地预测为负面的评论（左下）
+
+以下是我们的训练集的混淆矩阵：
+
+![](img/788706bf-771d-4d36-be04-a6c134703cfb.png)
+
+训练集的混淆矩阵
+
+原始数据如下：
+
+| 9,898 | 2602 |
+| 2,314 | 10,186 |
+
+注意总数是 25,000，这是我们使用的训练示例的数量。
+
+这是我们测试集的混淆矩阵：
+
+![](img/0c50c8c8-6cec-4269-8fc3-7dfdf34ea031.png)
+
+测试集的混淆矩阵
+
+原始数据如下：
+
+| 9859 | 2641 |
+| 2500 | 10000 |
+
+对于混淆矩阵，重要的是，对角线的值（左上到右下）要比该对角线的值高得多。 我们可以从混淆矩阵中立即看到，我们的模型在训练和测试集上都表现良好（如果在测试集上差一些）。
+
+在代码中，我们首先有一个获取预测的函数：
+
+```py
+def get_predictions(estimator, input_fn):
+    return [prediction["class_ids"][0] for prediction in estimator.predict(input_fn=input_fn)]
+```
+
+TensorFlow 有一种创建混淆矩阵的方法（如前所述，它们可以显示在原始图中）。
+
+其签名如下：
+
+```py
+tf.math.confusion_matrix(labels, predictions, num_classes=None, dtype=tf.int32, name=None, weights=None)
+```
+
+在这里，`labels`是真实的标签。
+
+我们的代码调用如下方法：
+
+```py
+confusion_train = tf.math.confusion_matrix(labels=train_df["polarity"], predictions=get_predictions(estimator, predict_train_input_fn))
+print("Raw figures:")
+print(confusion_train.numpy())
+```
+
+接下来，我们对混淆矩阵进行归一化，以便其行总计为 1：
+
+```py
+# Normalize the confusion matrix so that each row sums to 1.
+
+top = confusion_train.numpy()
+bottom = np.sum(top)
+confusion_train = 2*top/bottom
+```
+
+最后，我们使用`seaborn`方法`heatmap`绘制混淆矩阵。 此方法的签名很长且很详细，因此，查看它的最简单方法是在 Jupyter 笔记本中将光标放在`Shift + TAB`上。
+
+我们在这里只需要四个参数：
+
+```py
+sns.heatmap(confusion_train, annot=True, xticklabels=LABELS, yticklabels=LABELS)
+plt.xlabel("Predicted")
+plt.ylabel("True")
+```
+
+在这里，我们得到以下内容：
+
+```py
+LABELS = ["negative", "positive"]
+```
+
+除了使用测试集代替训练集之外，用于显示测试集的混淆矩阵的代码是相同的：
+
+```py
+# Create a confusion matrix on test data.
+confusion_test = tf.math.confusion_matrix(labels=test_df["polarity"], predictions=get_predictions(estimator, predict_test_input_fn))
+print(confusion_test.numpy())
+# Normalize the confusion matrix so that each row sums to 1.
+top = confusion_test.numpy()
+bottom = np.sum(top)
+confusion_test = 2*top/bottom
+sns.heatmap(confusion_test, annot=True, xticklabels=LABELS, yticklabels=LABELS);
+plt.xlabel("Predicted");
+plt.ylabel("True");
+```
+
+到此结束我们对 IMDb 情感分析的研究。
+
+# 总结
+
+在本章中，我们介绍了用于训练时装数据集的估计器。 我们了解了估计器如何为 TensorFlow 提供简单直观的 API。
+
+然后，我们查看了另一个应用，这一次是对 IMDb 中电影评论的情感分类。 我们看到了 TensorFlow Hub 如何为我们提供文本嵌入，即单词的向量，这是具有相似含义的单词具有相似向量的地方。
+
+在本书中，我们看到了 TensorFlow 2.0 alpha 的概述。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/10.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/10.md
new file mode 100644
index 00000000..6a4e1941
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/10.md
@@ -0,0 +1,42 @@
+# 十、从 tf1.12 转换为 tf2
+
+Google 提供了一个名为 `tf_upgrade_v2`的命令行脚本，该脚本会将 1.12 版文件（`.py`和`.ipynb`文件）转换为 TensorFlow 2 兼容文件。
+
+此转换的语法如下：
+
+```py
+ tf_upgrade_v2   --infile  file_to_convert --outfile  converted_file
+```
+
+[这里是更新脚本的实战演示](https://www.youtube.com/watch?v=JmSNUeBG-PQ&list=PLQY2H8rRoyvzoUYI26kHmKSJBedn3SQuB&index=32&t=71s)，以及有关它的更多详细信息，请参见[这里](https://github.com/tensorflow/docs/blob/master/site/en/r2/guide/upgrade.md) 。
+
+重要的是要注意，在运行脚本之前，不应该*手动更新*代码部分。
+
+该脚本不会解决所有问题，但是它生成的报告将标识那些必须手动解决的问题。
+
+特别是，`tf.contrib`已从 TF2 中删除，因此必须跟踪并手动修复以前驻留在其中的函数。
+
+这是脚本生成的报告的示例：
+
+```py
+Processing file 'Chapter1_TF2_Snippets.ipynb'
+ outputting to 'Chapter1_TF2_alpha'
+ --------------------------------------------------------------------------------
+
+ 37:4: INFO: Added keywords to args of function 'tf.size'
+ 48:13: INFO: Added keywords to args of function 'tf.transpose'
+ 74:0: INFO: Added keywords to args of function 'tf.reduce_mean'
+ 75:0: INFO: Added keywords to args of function 'tf.reduce_mean'
+ 76:0: INFO: Added keywords to args of function 'tf.reduce_mean'
+ 77:0: INFO: Added keywords to args of function 'tf.reduce_mean'
+ 78:0: INFO: Added keywords to args of function 'tf.reduce_mean'
+ 110:4: INFO: Added keywords to args of function 'tf.argmax'
+ 114:4: INFO: Added keywords to args of function 'tf.argmin'
+ 121:4: INFO: Added keywords to args of function 'tf.argmax'
+ 123:4: INFO: Added keywords to args of function 'tf.argmin'
+ 127:4: INFO: Added keywords to args of function 'tf.argmax'
+ 129:4: INFO: Added keywords to args of function 'tf.argmin'
+ 136:0: ERROR: Using member tf.contrib.integrate.odeint in deprecated module tf.contrib. tf.contrib.integrate.odeint cannot be converted automatically. tf.contrib will not be distributed with TensorFlow 2.0, please consider an alternative in non-contrib TensorFlow, a community-maintained repository, or fork the required code.
+ 162:10: INFO: Added keywords to args of function 'tf.transpose'
+ 173:11: INFO: Added keywords to args of function 'tf.reduce_mean'
+```
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/README.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/README.md
new file mode 100644
index 00000000..47bcac07
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/README.md
@@ -0,0 +1,35 @@
+# TensorFlow 2.0 快速入门指南
+
+> 原文：[TensorFlow 2.0 Quick Start Guide](https://b-ok.global/book/5207549/c42521)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/SUMMARY.md
new file mode 100644
index 00000000..f32e19a8
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/SUMMARY.md
@@ -0,0 +1,15 @@
++   [TensorFlow 2.0 快速入门指南](README.md)
++   [零、前言](00.md)
++   [第 1 部分：TensorFlow 2.00 Alpha 简介](s1.md)
++   [一、TensorFlow 2 简介](01.md)
++   [二、Keras：TensorFlow 2 的高级 API](02.md)
++   [三、TensorFlow 2 和 ANN 技术](03.md)
++   [第 2 部分：TensorFlow 2.00 Alpha 中的监督和无监督学习](s2.md)
++   [四、TensorFlow 2 和监督机器学习](04.md)
++   [五、TensorFlow 2 和无监督学习](05.md)
++   [第 3 部分：TensorFlow 2.00 Alpha 的神经网络应用](s3.md)
++   [六、使用 TensorFlow 2 识别图像](06.md)
++   [七、TensorFlow 2 和神经风格迁移](07.md)
++   [八、TensorFlow 2 和循环神经网络](08.md)
++   [九、TensorFlow 估计器和 TensorFlow HUB](09.md)
++   [十、从 tf1.12 转换为 tf2](10.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/cover.jpg
new file mode 100644
index 00000000..220e6313
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/0834da64-99c6-466a-bc8e-d019d8e05f8c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/0834da64-99c6-466a-bc8e-d019d8e05f8c.png
new file mode 100644
index 00000000..21e7efe5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/0834da64-99c6-466a-bc8e-d019d8e05f8c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/0c50c8c8-6cec-4269-8fc3-7dfdf34ea031.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/0c50c8c8-6cec-4269-8fc3-7dfdf34ea031.png
new file mode 100644
index 00000000..ca7f0305
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/0c50c8c8-6cec-4269-8fc3-7dfdf34ea031.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/16862498-ba29-45b2-8070-4bda783bf422.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/16862498-ba29-45b2-8070-4bda783bf422.png
new file mode 100644
index 00000000..d3fe272f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/16862498-ba29-45b2-8070-4bda783bf422.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/1aa3395d-d5c9-498b-9eca-7c82a3a99208.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/1aa3395d-d5c9-498b-9eca-7c82a3a99208.png
new file mode 100644
index 00000000..22d59a93
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/1aa3395d-d5c9-498b-9eca-7c82a3a99208.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/1e1ff356-312f-4c90-8f53-75798f678bc4.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/1e1ff356-312f-4c90-8f53-75798f678bc4.png
new file mode 100644
index 00000000..91b1b228
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/1e1ff356-312f-4c90-8f53-75798f678bc4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/27a244c6-21a0-4834-a28a-4718d7197716.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/27a244c6-21a0-4834-a28a-4718d7197716.png
new file mode 100644
index 00000000..b594b0e6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/27a244c6-21a0-4834-a28a-4718d7197716.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/2bfa077e-c4cd-43a1-9140-74b375ee7897.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/2bfa077e-c4cd-43a1-9140-74b375ee7897.png
new file mode 100644
index 00000000..b58ab5a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/2bfa077e-c4cd-43a1-9140-74b375ee7897.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3066d8ab-9f14-4449-a8eb-f5416c4e6af9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3066d8ab-9f14-4449-a8eb-f5416c4e6af9.png
new file mode 100644
index 00000000..c6aad22e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3066d8ab-9f14-4449-a8eb-f5416c4e6af9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3832c4d7-fb9f-40af-99bf-9f2c4acd2584.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3832c4d7-fb9f-40af-99bf-9f2c4acd2584.png
new file mode 100644
index 00000000..c527d9ce
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3832c4d7-fb9f-40af-99bf-9f2c4acd2584.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3b0bafd0-bc90-4dc9-b951-0a5c5c5c441d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3b0bafd0-bc90-4dc9-b951-0a5c5c5c441d.png
new file mode 100644
index 00000000..33c9d7cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3b0bafd0-bc90-4dc9-b951-0a5c5c5c441d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3b1b9398-5ec7-4c65-9bca-d3096545e6c1.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3b1b9398-5ec7-4c65-9bca-d3096545e6c1.png
new file mode 100644
index 00000000..03524433
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/3b1b9398-5ec7-4c65-9bca-d3096545e6c1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/4456e23d-5c7b-4978-a348-ab3a9be3e662.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/4456e23d-5c7b-4978-a348-ab3a9be3e662.png
new file mode 100644
index 00000000..2960c68b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/4456e23d-5c7b-4978-a348-ab3a9be3e662.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/477a48fd-96b7-4311-a7ac-a7760a1626da.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/477a48fd-96b7-4311-a7ac-a7760a1626da.png
new file mode 100644
index 00000000..867d655c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/477a48fd-96b7-4311-a7ac-a7760a1626da.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/490b0703-aba4-4526-8420-7eec756e2e68.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/490b0703-aba4-4526-8420-7eec756e2e68.png
new file mode 100644
index 00000000..f11c0b55
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/490b0703-aba4-4526-8420-7eec756e2e68.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/4b44c9ea-2fb5-4bc0-a374-f42bf5ea85ea.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/4b44c9ea-2fb5-4bc0-a374-f42bf5ea85ea.png
new file mode 100644
index 00000000..8545de7e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/4b44c9ea-2fb5-4bc0-a374-f42bf5ea85ea.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5b1262f0-e388-4537-ae0f-fe7ee09b7bb9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5b1262f0-e388-4537-ae0f-fe7ee09b7bb9.png
new file mode 100644
index 00000000..52e50006
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5b1262f0-e388-4537-ae0f-fe7ee09b7bb9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5b2f5728-0221-484e-b748-dd9191aa5d53.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5b2f5728-0221-484e-b748-dd9191aa5d53.png
new file mode 100644
index 00000000..6bb9402f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5b2f5728-0221-484e-b748-dd9191aa5d53.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5fd8eb0d-a384-485f-a54a-d05fb4780f67.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5fd8eb0d-a384-485f-a54a-d05fb4780f67.png
new file mode 100644
index 00000000..15839d24
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/5fd8eb0d-a384-485f-a54a-d05fb4780f67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/67592e56-0b8c-42e6-936d-5bae84a9e962.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/67592e56-0b8c-42e6-936d-5bae84a9e962.png
new file mode 100644
index 00000000..5485edaa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/67592e56-0b8c-42e6-936d-5bae84a9e962.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/68e8b66b-b872-4f0e-a209-c34ac9d6cf13.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/68e8b66b-b872-4f0e-a209-c34ac9d6cf13.png
new file mode 100644
index 00000000..02b34df2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/68e8b66b-b872-4f0e-a209-c34ac9d6cf13.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/788706bf-771d-4d36-be04-a6c134703cfb.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/788706bf-771d-4d36-be04-a6c134703cfb.png
new file mode 100644
index 00000000..fbbaeed1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/788706bf-771d-4d36-be04-a6c134703cfb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8cf34e04-9d73-46cc-b1aa-7bcd0a5342b3.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8cf34e04-9d73-46cc-b1aa-7bcd0a5342b3.png
new file mode 100644
index 00000000..a34ffdb4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8cf34e04-9d73-46cc-b1aa-7bcd0a5342b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8e01e880-e868-421b-a5a7-0a152e8795ed.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8e01e880-e868-421b-a5a7-0a152e8795ed.png
new file mode 100644
index 00000000..5a873fd8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8e01e880-e868-421b-a5a7-0a152e8795ed.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8fc9b424-7555-4e7c-a146-7d05f35034c0.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8fc9b424-7555-4e7c-a146-7d05f35034c0.png
new file mode 100644
index 00000000..58c54d46
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/8fc9b424-7555-4e7c-a146-7d05f35034c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/9758ae58-a6e9-401b-8c2a-cc46c6d4a00c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/9758ae58-a6e9-401b-8c2a-cc46c6d4a00c.png
new file mode 100644
index 00000000..95d00cda
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/9758ae58-a6e9-401b-8c2a-cc46c6d4a00c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/97fd9641-fe8c-4692-90ef-5485db2fc164.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/97fd9641-fe8c-4692-90ef-5485db2fc164.png
new file mode 100644
index 00000000..47c0a545
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/97fd9641-fe8c-4692-90ef-5485db2fc164.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/98b325df-dafc-40e2-9825-80f9a1985632.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/98b325df-dafc-40e2-9825-80f9a1985632.png
new file mode 100644
index 00000000..7b976f9d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/98b325df-dafc-40e2-9825-80f9a1985632.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/99a9971b-03c1-4f4d-b0ee-b3877ad300ab.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/99a9971b-03c1-4f4d-b0ee-b3877ad300ab.png
new file mode 100644
index 00000000..7a583e7d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/99a9971b-03c1-4f4d-b0ee-b3877ad300ab.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a271f6c6-dc36-446e-a527-44d5edf655be.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a271f6c6-dc36-446e-a527-44d5edf655be.png
new file mode 100644
index 00000000..28499559
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a271f6c6-dc36-446e-a527-44d5edf655be.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a4dc5c3b-7b22-40f6-921d-c5add2629129.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a4dc5c3b-7b22-40f6-921d-c5add2629129.png
new file mode 100644
index 00000000..4ad40fd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a4dc5c3b-7b22-40f6-921d-c5add2629129.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a98dd3a7-6f07-43a7-a4e1-71a4d002cc40.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a98dd3a7-6f07-43a7-a4e1-71a4d002cc40.png
new file mode 100644
index 00000000..922ad7a0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/a98dd3a7-6f07-43a7-a4e1-71a4d002cc40.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b2b5bc7d-7dd7-4644-9c34-cf2222dcab0d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b2b5bc7d-7dd7-4644-9c34-cf2222dcab0d.png
new file mode 100644
index 00000000..c98f626b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b2b5bc7d-7dd7-4644-9c34-cf2222dcab0d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b33ae38e-dc32-4e06-bb11-b04215f913c1.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b33ae38e-dc32-4e06-bb11-b04215f913c1.png
new file mode 100644
index 00000000..26e4718e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b33ae38e-dc32-4e06-bb11-b04215f913c1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b33bb6fe-e10b-4a19-be19-ab717ecda115.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b33bb6fe-e10b-4a19-be19-ab717ecda115.png
new file mode 100644
index 00000000..64230514
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b33bb6fe-e10b-4a19-be19-ab717ecda115.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b5dbdb99-d9bd-49a3-94ff-1bf19b9e814b.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b5dbdb99-d9bd-49a3-94ff-1bf19b9e814b.png
new file mode 100644
index 00000000..59c5c993
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b5dbdb99-d9bd-49a3-94ff-1bf19b9e814b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b64eba12-27da-420f-8c63-17d374b7e2a1.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b64eba12-27da-420f-8c63-17d374b7e2a1.png
new file mode 100644
index 00000000..1ab97a13
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b64eba12-27da-420f-8c63-17d374b7e2a1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b77a5c70-b3e3-4f5c-8495-ac934a9f0da1.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b77a5c70-b3e3-4f5c-8495-ac934a9f0da1.png
new file mode 100644
index 00000000..212b8b99
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/b77a5c70-b3e3-4f5c-8495-ac934a9f0da1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/baa279c2-c41f-4748-9d07-d1408ed7c40c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/baa279c2-c41f-4748-9d07-d1408ed7c40c.png
new file mode 100644
index 00000000..a719bed4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/baa279c2-c41f-4748-9d07-d1408ed7c40c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/beed13e6-2d68-4db6-bd11-1d4fe2ea089d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/beed13e6-2d68-4db6-bd11-1d4fe2ea089d.png
new file mode 100644
index 00000000..73cda3dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/beed13e6-2d68-4db6-bd11-1d4fe2ea089d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/c16b150d-45b6-4f82-a596-8317ae714c1d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/c16b150d-45b6-4f82-a596-8317ae714c1d.png
new file mode 100644
index 00000000..677b1f79
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/c16b150d-45b6-4f82-a596-8317ae714c1d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/c2cdcfbd-80c8-4aca-bc8d-a0fbf9cab5ce.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/c2cdcfbd-80c8-4aca-bc8d-a0fbf9cab5ce.png
new file mode 100644
index 00000000..e4eea547
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/c2cdcfbd-80c8-4aca-bc8d-a0fbf9cab5ce.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/d90b06ca-d15d-4741-9f7c-511735d3181c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/d90b06ca-d15d-4741-9f7c-511735d3181c.png
new file mode 100644
index 00000000..b9e23541
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/d90b06ca-d15d-4741-9f7c-511735d3181c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e6499d2a-350c-4aff-bf67-72f8dd0338a8.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e6499d2a-350c-4aff-bf67-72f8dd0338a8.png
new file mode 100644
index 00000000..9179a34e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e6499d2a-350c-4aff-bf67-72f8dd0338a8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e6d1b2a6-b40b-45bf-acbc-6c6c1433d13d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e6d1b2a6-b40b-45bf-acbc-6c6c1433d13d.png
new file mode 100644
index 00000000..3e9c61c4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e6d1b2a6-b40b-45bf-acbc-6c6c1433d13d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e81c9e90-26ff-4fb8-974d-b4e4eaffb6ae.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e81c9e90-26ff-4fb8-974d-b4e4eaffb6ae.png
new file mode 100644
index 00000000..7b040951
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/e81c9e90-26ff-4fb8-974d-b4e4eaffb6ae.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/f3445ea2-cea1-4ce6-9028-c8404eed2b8e.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/f3445ea2-cea1-4ce6-9028-c8404eed2b8e.png
new file mode 100644
index 00000000..f67e8846
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/img/f3445ea2-cea1-4ce6-9028-c8404eed2b8e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s1.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s1.md
new file mode 100644
index 00000000..b2c70e01
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s1.md
@@ -0,0 +1,9 @@
+# 第 1 部分：TensorFlow 2.00 Alpha 简介
+
+在本部分中，我们将介绍 TensorFlow 2.00 alpha。 我们将首先概述该机器学习生态系统的主要功能，并查看其使用示例。 然后我们将介绍 TensorFlow 的高级 Keras API。 我们将在本节结尾处研究人工神经网络技术。
+
+本节包含以下章节：
+
+*   第 1 章“TensorFlow 2 简介”
+*   第 2 章“Keras，TensorFlow 2 的高级 API”
+*   第 3 章“TensorFlow 2 和 ANN 技术”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s2.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s2.md
new file mode 100644
index 00000000..bc0f2c9b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s2.md
@@ -0,0 +1,8 @@
+# 第 2 部分：TensorFlow 2.00 Alpha 中的监督和无监督学习
+
+在本节中，我们将首先看到 TensorFlow 在监督机器学习中的许多应用，包括线性回归，逻辑回归和聚类。 然后，我们将研究无监督学习，特别是应用于数据压缩和去噪的自编码。
+
+本节包含以下章节：
+
+*   第 4 章“TensorFlow 2 和监督机器学习”
+*   第 5 章“Tensorflow 2 和无监督学习”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s3.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s3.md
new file mode 100644
index 00000000..b451bb2d
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-20-quick-start-guide/s3.md
@@ -0,0 +1,10 @@
+# 第 3 部分：TensorFlow 2.00 Alpha 的神经网络应用
+
+在本节中，我们将研究许多**人工神经网络**（**ANN**）应用。 这些包括图像识别，神经风格迁移，文本风格生成，时尚识别以及电影评论的 IMDb 数据库的语义分析。
+
+本节包含以下章节：
+
+*   第 6 章“使用 TensorFlow 2 识别图像”
+*   第 7 章“TensorFlow 2 和神经风格迁移”
+*   第 8 章“Tensorflow 2 和循环神经网络”
+*   第 9 章“TensorFlow 估计器和 TensorFlow HUB”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/README.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/README.md
new file mode 100644
index 00000000..632dc61b
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/README.md
@@ -0,0 +1,35 @@
+# TensorFlow 机器学习秘籍中文第二版
+
+> 原文：[TensorFlow Machine Learning Cookbook](https://b-ok.global/book/3600731/bb0f38)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/SUMMARY.md
new file mode 100644
index 00000000..a62ad3c3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/SUMMARY.md
@@ -0,0 +1,12 @@
++   [TensorFlow 机器学习秘籍中文第二版](README.md)
++   [一、TensorFlow 入门](ch01.md)
++   [二、TensorFlow 的方式](ch02.md)
++   [三、线性回归](ch03.md)
++   [四、支持向量机](ch04.md)
++   [五、最近邻方法](ch05.md)
++   [六、神经网络](ch06.md)
++   [七、自然语言处理](ch07.md)
++   [八、卷积神经网络](ch08.md)
++   [九、循环神经网络](ch09.md)
++   [十、将 TensorFlow 投入生产](ch10.md)
++   [十一、更多 TensorFlow](ch11.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch01.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch01.md
new file mode 100644
index 00000000..485c6d47
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch01.md
@@ -0,0 +1,807 @@
+# 一、TensorFlow 入门
+
+在本章中，我们将介绍一些基本的秘籍，以便了解 TensorFlow 的工作原理以及如何访问本书的数据和其他资源。
+
+到本章结束时，您应该了解以下内容：
+
+*   TensorFlow 如何工作
+*   声明变量和张量
+*   使用占位符和变量
+*   使用矩阵
+*   声明操作符
+*   实现激活函数
+*   使用数据源
+*   其他资源
+
+# 介绍
+
+谷歌的 TensorFlow 引擎有一种解决问题的独特方式。这种独特的方式使我们能够非常有效地解决机器学习问题。机器学习几乎用于生活和工作的所有领域，但一些更着名的领域是计算机视觉，语音识别，语言翻译，医疗保健等等。我们将介绍了解 TensorFlow 如何运行的基本步骤，并最终在本书后面构建生产代码技术。这些基础知识对于理解本书其余部分的秘籍非常重要。
+
+# TensorFlow 如何工作
+
+起初，TensorFlow 中的计算可能看起来不必要地复杂化。但有一个原因：由于 TensorFlow 如何处理计算，开发更复杂的算法相对容易。该秘籍将指导我们完成 TensorFlow 算法的伪代码。
+
+## 准备
+
+目前，TensorFlow 在 Linux，macOS 和 Windows 上受支持。本书的代码已经在 Linux 系统上创建和运行，但也应该在任何其他系统上运行。该书的代码可在 [GitHub](https://github.com/nfmcclure/tensorflow_cookbook) 以及 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)中找到。
+
+在本书中，我们只关注 TensorFlow 的 Python 库包装器，尽管 TensorFlow 的大多数原始核心代码都是用 C++ 编写的。本书将使用 [Python 3.6+](https://www.python.org) 和 [TensorFlow 1.10.0+](https://www.tensorflow.org)。虽然 TensorFlow 可以在 CPU 上运行，但是如果在 GPU 上处理，大多数算法运行得更快，并且在具有 Nvidia Compute Capability v4.0+（推荐 v5.1）的显卡上支持。
+
+TensorFlow 的流行 GPU 是 Nvidia Tesla 架构和具有至少 4 GB 视频 RAM 的 Pascal 架构。要在 GPU 上运行，您还需要下载并安装 Nvidia CUDA 工具包以及[版本 5.x+](https://developer.nvidia.com/cuda-downloads)。
+
+本章中的一些秘籍将依赖于当前安装的 SciPy，NumPy 和 scikit-learn Python 包。这些随附的包也包含在 [Anaconda 包](https://www.continuum.io/downloads)中。
+
+## 操作步骤
+
+在这里，我们将介绍 TensorFlow 算法的一般流程。大多数秘籍将遵循以下大纲：
+
+1.  导入或生成数据集：我们所有的机器学习算法都依赖于数据集。在本书中，我们将生成数据或使用外部数据集源。有时，最好依赖生成的数据，因为我们只想知道预期的结果。大多数情况下，我们将访问给定秘籍的公共数据集。有关访问这些数据集的详细信息，请参见本章第 8 节的其他资源。
+2.  转换和正则化数据：通常，输入数据集不会出现在图片中。 TensorFlow 期望我们需要转换 TensorFlow，以便它们获得可接受的形状。数据通常不在我们的算法所期望的正确维度或类型中。在我们使用之前，我们必须转换数据。大多数算法也期望归一化数据，我们也会在这里看一下。 TensorFlow 具有内置函数，可以为您正则化数据，如下所示：
+
+```py
+import tensorflow as tf
+data = tf.nn.batch_norm_with_global_normalization(...) 
+```
+
+1.  将数据集划分为训练集，测试集和验证集：我们通常希望在我们训练过的不同集上测试我们的算法。此外，许多算法需要超参数调整，因此我们留出一个验证集来确定最佳的超参数集。
+2.  设置算法参数（超参数）：我们的算法通常有一组参数，我们在整个过程中保持不变。例如，这可以是我们选择的迭代次数，学习率或其他固定参数。将这些一起初始化是一种良好的做法，以便读者或用户可以轻松找到它们，如下所示：
+
+```py
+learning_rate = 0.01 
+batch_size = 100 
+iterations = 1000
+```
+
+1.  初始化变量和占位符：TensorFlow 依赖于知道它能够和不能修改的内容。 TensorFlow 将在优化期间修改/调整变量（模型权重/偏差）以最小化损失函数。为此，我们通过占位符提供数据。我们需要初始化变量和占位符的大小和类型，以便 TensorFlow 知道会发生什么。 TensorFlow 还需要知道期望的数据类型。对于本书的大部分内容，我们将使用`float32`。 TensorFlow 还提供`float64`和`float16`。请注意，用于精度的更多字节会导致算法速度变慢，但使用较少会导致精度降低。请参阅以下代码：
+
+```py
+a_var = tf.constant(42) 
+x_input = tf.placeholder(tf.float32, [None, input_size]) 
+y_input = tf.placeholder(tf.float32, [None, num_classes]) 
+```
+
+1.  定义模型结构：在获得数据并初始化变量和占位符之后，我们必须定义模型。这是通过构建计算图来完成的。我们将在第 2 章，TensorFlow 方法中更详细地讨论计算图 TensorFlow 秘籍中的运算中的计算图。此示例的模型将是线性模型（`y = mx + b`）：
+
+```py
+y_pred = tf.add(tf.mul(x_input, weight_matrix), b_matrix) 
+```
+
+1.  声明损失函数：定义模型后，我们必须能够评估输出。这是我们宣布损失函数的地方。损失函数非常重要，因为它告诉我们预测距实际值有多远。在第 2 章，TensorFlow 方法中的实现反向传播秘籍中更详细地探讨了不同类型的损失函数。在这里，我们实现了 n 点的均方误差，即：
+
+    ![](img/dedb314e-baf6-4580-83d0-9fb217fbe829.png)
+
+```py
+loss = tf.reduce_mean(tf.square(y_actual - y_pred)) 
+```
+
+1.  初始化和训练模型：现在我们已经完成了所有工作，我们需要创建图实例，通过占位符输入数据，让 TensorFlow 更改变量以更好地预测我们的训练数据。这是初始化计算图的一种方法：
+
+```py
+with tf.Session(graph=graph) as session: 
+... 
+session.run(...) 
+... 
+Note that we can also initiate our graph with:
+session = tf.Session(graph=graph) 
+session.run(...) 
+```
+
+1.  评估模型：一旦我们构建并训练了模型，我们应该通过查看通过某些指定标准对新数据的处理程度来评估模型。我们对训练和测试装置进行评估，这些评估将使我们能够看到模型是否过拟合。我们将在后面的秘籍中解决这个问题。
+2.  调整超参数：大多数情况下，我们希望根据模型的表现返回并更改一些超参数。然后，我们使用不同的超参数重复前面的步骤，并在验证集上评估模型。
+3.  部署/预测新结果：了解如何对新数据和未见数据进行预测也很重要。一旦我们对他们进行了训练，我们就可以对所有模型进行此操作。
+
+## 工作原理
+
+在 TensorFlow 中，我们必须先设置数据，变量，占位符和模型，然后才能告诉程序训练和更改变量以改进预测。 TensorFlow 通过计算图完成此任务。这些计算图是没有递归的有向图，这允许计算并行性。为此，我们需要为 TensorFlow 创建一个最小化的损失函数。 TensorFlow 通过修改计算图中的变量来实现此目的。 TensorFlow 知道如何修改变量，因为它跟踪模型中的计算并自动计算变量梯度（如何更改每个变量）以最小化损失。因此，我们可以看到进行更改和尝试不同数据源是多么容易。
+
+## 另见
+
+有关 TensorFlow 的更多介绍和资源，请参阅官方文档和教程：
+
+*   [一个更好的起点是 Python API 官方文档](https://www.tensorflow.org/api_docs/python/)
+*   [还有教程](https://www.tensorflow.org/tutorials/)
+*   [TensorFlow 教程，项目，演示文稿和代码仓库的非官方集合](https://github.com/jtoy/awesome-tensorflow)
+
+# 声明变量和张量
+
+张量是 TensorFlow 用于在计算图上操作的主要数据结构。我们可以将这些张量声明为变量和/或将它们作为占位符提供。要做到这一点，首先，我们必须学习如何创建张量。
+
+> `tensor`是指广义向量或矩阵的数学术语。如果向量是一维的并且矩阵是二维的，则张量是 n 维的（其中`n`可以是 1，2 或甚至更大）。
+
+## 准备
+
+当我们创建一个张量并将其声明为变量时，TensorFlow 会在我们的计算图中创建几个图结构。同样重要的是要指出，仅通过创建张量，TensorFlow 不会向计算图中添加任何内容。 TensorFlow 仅在运行初始化变量的操作后执行此操作。有关更多信息，请参阅下一节有关变量和占位符的内容。
+
+## 操作步骤
+
+在这里，我们将介绍我们可以在 TensorFlow 中创建张量的主要方法：
+
+1.固定张量：
+
+*   *   在下面的代码中，我们创建了一个零填充张量：
+
+```py
+zero_tsr = tf.zeros([row_dim, col_dim])
+```
+
+*   *   在下面的代码中，我们创建了一个填充张量：
+
+```py
+ones_tsr = tf.ones([row_dim, col_dim]) 
+```
+
+*   *   在下面的代码中，我们创建了一个常量填充张量：
+
+```py
+filled_tsr = tf.fill([row_dim, col_dim], 42) 
+```
+
+*   *   在下面的代码中，我们从现有常量中创建一个张量：
+
+```py
+constant_tsr = tf.constant([1,2,3])
+```
+
+> 请注意，`tf.constant()`函数可用于将值广播到数组中，通过编写`tf.constant(42, [row_dim, col_dim])`来模仿`tf.fill()`的行为。
+
+1.  相似形状的张量：我们还可以根据其他张量的形状初始化变量，如下所示：
+
+```py
+zeros_similar = tf.zeros_like(constant_tsr) 
+ones_similar = tf.ones_like(constant_tsr) 
+```
+
+> 请注意，由于这些张量依赖于先前的张量，我们必须按顺序初始化它们。尝试一次初始化所有张量将导致错误。有关变量和占位符，请参阅下一节末尾的“更多”小节。
+
+1.  序列张量：TensorFlow 允许我们指定包含定义间隔的张量。以下函数与 NumPy 的`linspace()`输出和`range()`输出非常相似。请参阅以下函数：
+
+```py
+linear_tsr = tf.linspace(start=0, stop=1, start=3) 
+```
+
+得到的张量具有[0.0,0.5,1.0]的序列。请注意，此函数包含指定的停止值。有关更多信息，请参阅以下函数：
+
+```py
+integer_seq_tsr = tf.range(start=6, limit=15, delta=3) 
+```
+
+结果是序列[6,9,12]。请注意，此函数不包括限制值。
+
+1.  随机张量：以下生成的随机数来自均匀分布：
+
+```py
+randunif_tsr = tf.random_uniform([row_dim, col_dim], minval=0, maxval=1) 
+```
+
+注意，这种随机均匀分布来自包含`minval`但不包括`maxval`（`minval >= x < maxval`）的区间。
+
+要从正态分布中获取随机抽取的张量，可以运行以下代码：
+
+```py
+randnorm_tsr = tf.random_normal([row_dim, col_dim], mean=0.0, stddev=1.0) 
+```
+
+有时候我们想要生成在某些范围内保证的正常随机值。`truncated_normal()`函数总是在指定均值的两个标准偏差内选择正常值：
+
+```py
+runcnorm_tsr = tf.truncated_normal([row_dim, col_dim], mean=0.0, stddev=1.0) 
+```
+
+我们可能也对随机化数组条目感兴趣。要做到这一点，有两个函数可以帮助我们：`random_shuffle()`和`random_crop()`。以下代码执行此操作：
+
+```py
+shuffled_output = tf.random_shuffle(input_tensor) 
+cropped_output = tf.random_crop(input_tensor, crop_size) 
+```
+
+在本书的后面，我们将有兴趣随机裁剪大小（高度，宽度，3）的图像，其中有三种颜色光谱。要修复`cropped_output`中的大小，您必须在该大小中为其指定最大大小：
+
+```py
+cropped_image = tf.random_crop(my_image, [height/2, width/2, 3]) 
+```
+
+## 工作原理
+
+一旦我们决定如何创建张量，我们也可以通过在`Variable()`函数中包含张量来创建相应的变量，如下所示（下一节将详细介绍）：
+
+```py
+my_var = tf.Variable(tf.zeros([row_dim, col_dim])) 
+```
+
+## 更多
+
+我们不仅限于内置函数：我们可以使用`convert_to_tensor()`函数将任何 NumPy 数组转换为 Python 列表，或将常量转换为张量。注意，如果我们希望概括函数内部的计算，该函数也接受张量作为输入。
+
+# 使用占位符和变量
+
+占位符和变量是在 TensorFlow 中使用计算图的关键工具。我们必须了解它们之间的区别以及何时最好地利用它们对我们有利。
+
+## 准备
+
+与数据最重要的区别之一是它是占位符还是变量。变量是算法的模型参数，TensorFlow 跟踪如何更改这些参数以优化算法。占位符是允许您提供特定类型和形状的数据的对象，或者取决于计算图的结果，例如计算的预期结果。
+
+## 操作步骤
+
+创建变量的主要方法是使用`Variable()`函数，该函数将张量作为输入并输出变量。这只是声明，我们仍然需要初始化变量。初始化是将变量与相应方法放在计算图上的内容。以下是创建和初始化变量的示例：
+
+```py
+my_var = tf.Variable(tf.zeros([2,3])) 
+sess = tf.Session() 
+initialize_op = tf.global_variables_initializer() 
+sess.run(initialize_op) 
+```
+
+要在创建和初始化变量后查看计算图是什么样的，请参阅此秘籍的以下部分。占位符只是保持数据的位置以输入图。占位符从会话中的`feed_dict`参数获取数据。要将占位符放入图中，我们必须对占位符执行至少一个操作。在下面的代码片段中，我们初始化图，将`x`声明为占位符（预定义大小），并将`y`定义为`x`上的标识操作，它只返回`x`。然后，我们创建数据以提供给`x`占位符并运行身份操作。代码如下所示，结果图如下：
+
+```py
+sess = tf.Session() 
+x = tf.placeholder(tf.float32, shape=[2,2]) 
+y = tf.identity(x) 
+x_vals = np.random.rand(2,2) 
+sess.run(y, feed_dict={x: x_vals}) 
+# Note that sess.run(x, feed_dict={x: x_vals}) will result in a self-referencing error. 
+```
+
+> 值得注意的是，TensorFlow 不会在馈送字典中返回自引用占位符。换句话说，在下图中运行`sess.run(x, feed_dict={x: x_vals})`将返回误差。
+
+## 工作原理
+
+将变量初始化为零张量的计算图如下图所示：
+
+![](img/9aed31ea-b420-4fb7-9ed3-c05a7a15d926.png)
+
+图 1：变量
+
+在这里，我们只用一个变量就可以看到计算图的详细信息，并将其全部初始化为零。灰色阴影区域是对所涉及的操作和常数的非常详细的视图。细节较少的主要计算图是右上角灰色区域之外的较小图。有关创建和可视化图的更多详细信息，请参阅第 10 章的第一部分，将 TensorFlow 转换为生产。类似地，可以在下图中看到将 NumPy 数组送入占位符的计算图：
+
+![](img/3cb49bac-be51-46c3-ac43-589c2f04b799.png)
+
+图 2：初始化占位符的计算图
+
+灰色阴影区域是对所涉及的操作和常数的非常详细的视图。细节较少的主要计算图是右上角灰色区域之外的较小图。
+
+## 更多
+
+在计算图运行期间，我们必须告诉 TensorFlow 何时初始化我们创建的变量。虽然每个变量都有一个`initializer`方法，但最常用的方法是使用辅助函数，即`global_variables_initializer()`。此函数在图中创建一个初始化我们创建的所有变量的操作，如下所示：
+
+```py
+initializer_op = tf.global_variables_initializer() 
+```
+
+但是如果我们想根据初始化另一个变量的结果来初始化变量，我们必须按照我们想要的顺序初始化变量，如下所示：
+
+```py
+sess = tf.Session() 
+first_var = tf.Variable(tf.zeros([2,3])) 
+sess.run(first_var.initializer) 
+second_var = tf.Variable(tf.zeros_like(first_var)) 
+# 'second_var' depends on the 'first_var'
+sess.run(second_var.initializer)
+```
+
+# 使用矩阵
+
+了解 TensorFlow 如何与矩阵一起工作对于通过计算图来理解数据流非常重要。
+
+> 值得强调的是矩阵在机器学习（以及一般数学）中的重要性。大多数机器学习算法在计算上表示为矩阵运算。本书未涉及矩阵属性和矩阵代数（线性代数）的数学背景，因此强烈建议读者充分了解矩阵以适应矩阵代数。
+
+## 准备
+
+许多算法依赖于矩阵运算。 TensorFlow 为我们提供了易于使用的操作来执行此类矩阵计算。对于以下所有示例，我们首先通过运行以下代码来创建图会话：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+## 操作步骤
+
+我们将按如下方式处理秘籍：
+
+1.  创建矩阵：我们可以从 NumPy 数组或嵌套列表创建二维矩阵，正如我们在创建和使用张量秘籍中所描述的那样。我们还可以使用张量创建函数并为`zeros()`，`ones()`，`truncated_normal()`等函数指定二维形状。 TensorFlow 还允许我们使用`diag()`函数从一维数组或列表创建对角矩阵，如下所示：
+
+```py
+identity_matrix = tf.diag([1.0, 1.0, 1.0]) 
+A = tf.truncated_normal([2, 3]) 
+B = tf.fill([2,3], 5.0) 
+C = tf.random_uniform([3,2]) 
+D = tf.convert_to_tensor(np.array([[1., 2., 3.],[-3., -7., -1.],[0., 5., -2.]])) 
+print(sess.run(identity_matrix)) 
+[[ 1\.  0\.  0.] 
+ [ 0\.  1\.  0.] 
+ [ 0\.  0\.  1.]] 
+print(sess.run(A)) 
+[[ 0.96751703  0.11397751 -0.3438891 ] 
+ [-0.10132604 -0.8432678   0.29810596]] 
+print(sess.run(B)) 
+[[ 5\.  5\.  5.] 
+ [ 5\.  5\.  5.]] 
+print(sess.run(C)) 
+[[ 0.33184157  0.08907614] 
+ [ 0.53189191  0.67605299] 
+ [ 0.95889051 0.67061249]] 
+print(sess.run(D)) 
+[[ 1\.  2\.  3.] 
+ [-3\. -7\. -1.] 
+ [ 0\.  5\. -2.]] 
+```
+
+> 请注意，如果我们再次运行`sess.run(C)`，我们将重新初始化随机变量并最终得到不同的随机值。
+
+1.  加法，减法和乘法：要添加，减去或相乘相同维度的矩阵，TensorFlow 使用以下函数：
+
+```py
+print(sess.run(A+B)) 
+[[ 4.61596632  5.39771316  4.4325695 ] 
+ [ 3.26702736  5.14477345  4.98265553]] 
+print(sess.run(B-B)) 
+[[ 0\.  0\.  0.] 
+ [ 0\.  0\.  0.]] 
+Multiplication 
+print(sess.run(tf.matmul(B, identity_matrix))) 
+[[ 5\.  5\.  5.] 
+ [ 5\.  5\.  5.]] 
+```
+
+值得注意的是，`matmul()`函数具有参数，用于指定是否在乘法之前转置参数或每个矩阵是否稀疏。
+
+> 请注意，未明确定义矩阵除法。虽然许多人将矩阵划分定义为乘以逆，但与实数除法相比，它基本上是不同的。
+
+1.  转置：转置矩阵（翻转列和行），如下所示：
+
+```py
+print(sess.run(tf.transpose(C))) 
+[[ 0.67124544  0.26766731  0.99068872] 
+ [ 0.25006068  0.86560275  0.58411312]] 
+```
+
+同样，值得一提的是，重新初始化为我们提供了与以前不同的值。
+
+1.  行列式：要计算行列式，请使用以下内容：
+
+```py
+print(sess.run(tf.matrix_determinant(D))) 
+-38.0 
+```
+
+1.  逆：要查找方阵的逆，请参阅以下内容：
+
+```py
+print(sess.run(tf.matrix_inverse(D))) 
+[[-0.5        -0.5        -0.5       ] 
+ [ 0.15789474  0.05263158  0.21052632] 
+ [ 0.39473684  0.13157895  0.02631579]] 
+```
+
+> 只有当矩阵是对称正定时，逆方法才基于 Cholesky 分解。如果矩阵不是对称正定，那么它基于 LU 分解。
+
+1.  分解：对于 Cholesky 分解，请使用以下内容：
+
+```py
+print(sess.run(tf.cholesky(identity_matrix))) 
+[[ 1\.  0\.  1.] 
+ [ 0\.  1\.  0.] 
+ [ 0\.  0\.  1.]] 
+```
+
+1.  特征值和特征向量：对于特征值和特征向量，请使用以下代码：
+
+```py
+print(sess.run(tf.self_adjoint_eig(D)) 
+[[-10.65907521  -0.22750691   2.88658212] 
+ [  0.21749542   0.63250104  -0.74339638] 
+ [  0.84526515   0.2587998    0.46749277] 
+ [ -0.4880805    0.73004459   0.47834331]] 
+```
+
+注意，`self_adjoint_eig()`函数输出第一行中的特征值和剩余向量中的后续向量。在数学中，这被称为矩阵的特征分解。
+
+## 工作原理
+
+TensorFlow 为我们提供了开始使用数值计算并将这些计算添加到图中的所有工具。对于简单的矩阵运算，这种表示法可能看起来很重。请记住，我们正在将这些操作添加到图中，并告诉 TensorFlow 哪些张量运行这些操作。虽然现在看起来似乎很冗长，但它有助于我们理解后面章节中的符号，这种计算方式将使我们更容易实现目标。
+
+# 声明操作符
+
+现在，我们必须了解我们可以添加到 TensorFlow 图的其他操作。
+
+## 准备
+
+除了标准算术运算之外，TensorFlow 还为我们提供了更多我们应该了解的操作以及如何在继续操作之前使用它们。同样，我们可以通过运行以下代码来创建图会话：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+## 操作步骤
+
+TensorFlow 对张量有标准操作，即`add()`，`sub()`，`mul()`和`div()`。请注意，除非另有说明，否则本节中的所有操作都将按元素评估输入：
+
+1.  TensorFlow 提供了`div()`和相关函数的一些变体。
+2.  值得一提的是`div()`返回与输入相同的类型。这意味着如果输入是整数，它确实返回了分区的底线（类似于 Python2）。要返回 Python3 版本，它在分割之前将整数转换为浮点数并始终返回浮点数，TensorFlow 提供`truediv()`函数，如下所示：
+
+```py
+print(sess.run(tf.div(3, 4))) 
+0 
+print(sess.run(tf.truediv(3, 4))) 
+0.75 
+```
+
+1.  如果我们有浮点数并想要整数除法，我们可以使用`floordiv()`函数。请注意，这仍然会返回一个浮点数，但它会向下舍入到最接近的整数。这个函数如下：
+
+```py
+print(sess.run(tf.floordiv(3.0,4.0))) 
+0.0 
+```
+
+1.  另一个重要函数是`mod()`。此函数返回除法后的余数。它如下：
+
+```py
+print(sess.run(tf.mod(22.0, 5.0))) 
+2.0 
+```
+
+1.  两个张量之间的交叉积通过`cross()`函数实现。请记住，交叉乘积仅针对两个三维向量定义，因此它只接受两个三维张量。以下代码说明了这种用法：
+
+```py
+print(sess.run(tf.cross([1., 0., 0.], [0., 1., 0.]))) 
+[ 0\.  0\.  1.0]
+```
+
+1.  这是一个更常见的数学函数的紧凑列表。所有这些函数都以元素方式运行：
+
+| | |
+| --- | --- |
+| `abs()` | 输入张量的绝对值 |
+| `ceil()` | 输入张量的向上取整函数 |
+| `cos()` | 输入张量的余弦函数 |
+| `exp()` | 输入张量的基于`e`指数 |
+| `floor()` | 输入张量的向下取整函数 |
+| `inv()` | 输入张量的乘法逆（`1 / x`） |
+| `log()` | 输入张量的自然对数 |
+| `maximum()` | 两个张量的逐元素最大值 |
+| `minimum()` | 两个张量的逐元素最小值 |
+| `neg()` | 输入张量的反转 |
+| `pow()` | 第一个张量元素的第二个张量元素次幂 |
+| `round()` | 输入张量的舍入 |
+| `rsqrt()` | 输入张量的平方根倒数 |
+| `sign()` | 返回 -1，0 或 1，具体取决于张量的符号 |
+| `sin()` | 输入张量的正弦函数 |
+| `sqrt()` | 输入张量的平方根 |
+| `square()` | 输入张量的平方 |
+
+1.  专业数学函数：有一些特殊的数学函数可以在机器学习中使用，值得一提，TensorFlow 为它们提供了内置函数。同样，除非另有说明，否则这些函数在元素方面运行：
+
+| | |
+| --- | --- |
+| `digamma()` | Psi 函数，`lgamma()`函数的导数 |
+| `erf()` | 张量的逐元素高斯误差函数 |
+| `erfc()` | 张量的互补误差函数 |
+| `igamma()` | 较低正则化的不完全伽玛函数 |
+| `igammac()` | 较高正则化的不完全伽马函数 |
+| `lbeta()` | Beta 函数绝对值的自然对数 |
+| `lgamma()` | 伽玛函数绝对值的自然对数 |
+| `squared_difference()` | 两个张量之间差异的平方 |
+
+## 工作原理
+
+重要的是要知道我们可以使用哪些函数，以便我们可以将它们添加到我们的计算图中。我们将主要关注前面的函数。我们还可以生成许多不同的自定义函数作为前面的组合，如下所示：
+
+```py
+# Tangent function (tan(pi/4)=1) 
+print(sess.run(tf.tan(3.1416/4.)))
+1.0 
+```
+
+## 更多
+
+如果我们希望向我们未在此处列出的图添加其他操作，我们必须从前面的函数创建自己的操作。以下是我们之前未使用的操作示例，我们可以将其添加到图中。我们选择使用以下代码添加自定义多项式函数`3x^2 - x + 10`：
+
+```py
+def custom_polynomial(value): 
+    return tf.sub(3 * tf.square(value), value) + 10
+print(sess.run(custom_polynomial(11))) 
+362 
+```
+
+# 实现激活函数
+
+激活函数是神经网络近似非线性输出并适应非线性特征的关键。他们将非线性运算引入神经网络。如果我们小心选择了哪些激活函数以及放置它们的位置，它们是非常强大的操作，我们可以告诉 TensorFlow 适合和优化。
+
+## 准备
+
+当我们开始使用神经网络时，我们将定期使用激活函数，因为激活函数是任何神经网络的重要组成部分。激活函数的目标只是调整权重和偏差。在 TensorFlow 中，激活函数是作用于张量的非线性操作。它们是以与先前的数学运算类似的方式运行的函数。激活函数有很多用途，但主要的概念是它们在对输出进行归一化的同时在图中引入了非线性。使用以下命令启动 TensorFlow 图：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+## 操作步骤
+
+激活函数存在于 TensorFlow 中的神经网络（`nn`）库中。除了使用内置激活函数外，我们还可以使用 TensorFlow 操作设计自己的函数。我们可以导入预定义的激活函数（`import tensorflow.nn as nn`）或显式，并在函数调用中写入`nn`。在这里，我们选择明确每个函数调用：
+
+1.  被整流的线性单元，称为 ReLU，是将非线性引入神经网络的最常见和最基本的方式。这个函数叫做`max(0,x)`。它是连续的，但不是平滑的。它看起来如下：
+
+```py
+print(sess.run(tf.nn.relu([-3., 3., 10.]))) 
+[  0\.  3\.  10.] 
+```
+
+1.  有时我们会想要限制前面的 ReLU 激活函数的线性增加部分。我们可以通过将`max(0,x)`函数嵌套到`min()`函数中来实现。 TensorFlow 具有的实现称为 ReLU6 函数。这被定义为`min(max(0,x),6)`。这是硬 sigmoid 函数的一个版本，并且计算速度更快，并且不会消失（无穷小接近零）或爆炸值。当我们在第 8 章，卷积神经网络和第 9 章，循环神经网络中讨论更深层的神经网络时，这将派上用场。它看起来如下：
+
+```py
+print(sess.run(tf.nn.relu6([-3., 3., 10.]))) 
+[ 0\. 3\. 6.]
+```
+
+1.  Sigmoid 函数是最常见的连续和平滑激活函数。它也被称为逻辑函数，其形式为`1 / (1 + exp(-x))`。 Sigmoid 函数不经常使用，因为它倾向于在训练期间将反向传播项置零。它看起来如下：
+
+```py
+print(sess.run(tf.nn.sigmoid([-1., 0., 1.]))) 
+[ 0.26894143  0.5         0.7310586 ] 
+```
+
+> 我们应该知道一些激活函数不是以零为中心的，例如 sigmoid。这将要求我们在大多数计算图算法中使用之前将数据归零。
+
+1.  另一个平滑激活函数是超切线。超正切函数与 sigmoid 非常相似，除了它的范围在 0 和 1 之间，它的范围在 -1 和 1 之间。该函数具有双曲正弦与双曲余弦的比率的形式。写这个的另一种方法是`(exp(x) - exp(-x)) / (exp(x) + exp(-x))`。此激活函数如下：
+
+```py
+print(sess.run(tf.nn.tanh([-1., 0., 1.]))) 
+[-0.76159418  0\.         0.76159418 ] 
+```
+
+1.  `softsign`函数也可用作激活函数。该函数的形式是`x / (|x| + 1)`。`softsign`函数应该是符号函数的连续（但不是平滑）近似。请参阅以下代码：
+
+```py
+print(sess.run(tf.nn.softsign([-1., 0., -1.]))) 
+[-0.5  0\.   0.5] 
+```
+
+1.  另一个函数是`softplus`函数，是 ReLU 函数的流畅版本。该函数的形式是`log(exp(x) + 1)`。它看起来如下：
+
+```py
+print(sess.run(tf.nn.softplus([-1., 0., -1.]))) 
+[ 0.31326166  0.69314718  1.31326163] 
+```
+
+> 当输入增加时，`softplus`函数变为无穷大，而`softsign`函数变为 1.然而，当输入变小时，`softplus`函数接近零，`softsign`函数变为 -1。
+
+1.  指数线性单元（ELU）与 softplus 函数非常相似，只是底部渐近线为 -1 而不是 0.如果`x < 0`其他`x`，则形式为`exp(x) + 1`。它看起来如下：
+
+```py
+print(sess.run(tf.nn.elu([-1., 0., -1.]))) 
+[-0.63212055  0\.          1\.        ] 
+```
+
+## 工作原理
+
+这些激活函数是我们将来可以在神经网络或其他计算图中引入非线性的方法。重要的是要注意我们的网络中我们使用激活函数的位置。如果激活函数的范围在 0 和 1（sigmoid）之间，则计算图只能输出 0 到 1 之间的值。如果激活函数在内部并隐藏在节点之间，那么我们想要知道当我们传递它们时，范围可以在我们的张量上。如果我们的张量被缩放到平均值为零，我们将希望使用一个激活函数来保持尽可能多的方差在零附近。这意味着我们想要选择激活函数，例如双曲正切（tanh）或 softsign。如果张量都被缩放为正数，那么我们理想地选择一个激活函数来保留正域中的方差。
+
+## 更多
+
+以下是两个绘图，说明了不同的激活函数。下图显示了 ReLU，ReLU6，softplus，指数 LU，sigmoid，softsign 和双曲正切函数：
+
+![](img/2a1256eb-1993-4e62-a561-48577ebcfec2.png)
+
+图 3：softplus，ReLU，ReLU6 和指数 LU 的激活函数
+
+在这里，我们可以看到四个激活函数：softplus，ReLU，ReLU6 和指数 LU。这些函数在零的左边展平并线性增加到零的右边，但 ReLU6 除外，其最大值为 6：
+
+![](img/d2167d3b-96f9-46d1-87c4-79d0839b3745.png)
+
+图 4：Sigmoid，双曲正切（tanh）和 softsign 激活函数
+
+这是 sigmoid，双曲正切（tanh）和 softsign 激活函数。这些激活函数都是平滑的，具有`S n`形状。请注意，这些函数有两个水平渐近线。
+
+# 使用数据源
+
+对于本书的大部分内容，我们将依赖数据集的使用来适应机器学习算法。本节介绍如何通过 TensorFlow 和 Python 访问每个数据集。
+
+> 一些数据源依赖于外部网站的维护，以便您可以访问数据。如果这些网站更改或删除此数据，则可能需要更新本节中的以下某些代码。您可以在作者的 [GitHub 页面](https://github.com/nfmcclure/tensorflow_cookbook)上找到更新的代码。
+
+## 准备
+
+在 TensorFlow 中，我们将使用的一些数据集构建在 Python 库中，一些将需要 Python 脚本下载，一些将通过互联网手动下载。几乎所有这些数据集都需要有效的互联网连接，以便您可以检索它们。
+
+## 操作步骤
+
+1.  鸢尾数据：该数据集可以说是机器学习中使用的最经典的数据集，也可能是所有统计数据。它是一个数据集，可以测量三种不同类型鸢尾花的萼片长度，萼片宽度，花瓣长度和花瓣宽度：山鸢尾，弗吉尼亚和杂色鸢尾。总共有 150 个测量值，这意味着每个物种有 50 个测量值。要在 Python 中加载数据集，我们将使用 scikit-learn 的数据集函数，如下所示：
+
+```py
+from sklearn import datasets 
+iris = datasets.load_iris() 
+print(len(iris.data)) 
+150 
+print(len(iris.target)) 
+150 
+print(iris.data[0]) # Sepal length, Sepal width, Petal length, Petal width 
+[ 5.1 3.5 1.4 0.2] 
+print(set(iris.target)) # I. setosa, I. virginica, I. versicolor 
+{0, 1, 2} 
+```
+
+1.  出生体重数据：该数据最初来自 Baystate Medical Center，Springfield，Mass 1986（1）。该数据集包含出生体重的测量以及母亲和家族病史的其他人口统计学和医学测量。有 11 个变量的 189 个观测值。以下代码显示了如何在 Python 中访问此数据：
+
+```py
+import requests
+birthdata_url = 'https://github.com/nfmcclure/tensorflow_cookbook/raw/master/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat' 
+birth_file = requests.get(birthdata_url) 
+birth_data = birth_file.text.split('\r\n') 
+birth_header = birth_data[0].split('\t') 
+birth_data = [[float(x) for x in y.split('\t') if len(x)>=1] for y in birth_data[1:] if len(y)>=1]
+print(len(birth_data)) 
+189 
+print(len(birth_data[0])) 
+9
+```
+
+1.  波士顿住房数据：卡内基梅隆大学在其 StatLib 库中维护着一个数据集库。这些数据可通过[加州大学欧文分校的机器学习库](https://archive.ics.uci.edu/ml/index.php)轻松访问。有 506 个房屋价值观察，以及各种人口统计数据和住房属性（14 个变量）。以下代码显示了如何通过 Keras 库在 Python 中访问此数据：
+
+```py
+from keras.datasets import boston_housing
+(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
+housing_header = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] 
+print(x_train.shape[0]) 
+404 
+print(x_train.shape[1]) 
+13 
+```
+
+1.  MNIST 手写数据：MNIST（混合国家标准与技术研究院）数据集是较大的 NIST 手写数据库的子集。 MNIST 手写数据集托管在 [Yann LeCun 的网站](https://yann.lecun.com/exdb/mnist/)上。它是一个包含 70,000 个单元数字图像（0-9）的数据库，其中带标签的约 60,000 个用于训练集，10,000 个用于测试集。 TensorFlow 在图像识别中经常使用此数据集，TensorFlow 提供了访问此数据的内置函数。在机器学习中，提供验证数据以防止过拟合（目标泄漏）也很重要。因此，TensorFlow 将 5000 列训练图像留在验证集中。以下代码显示了如何在 Python 中访问此数据：
+
+```py
+from tensorflow.examples.tutorials.mnist import input_data 
+mnist = input_data.read_data_sets("MNIST_data/"," one_hot=True) 
+print(len(mnist.train.images)) 
+55000 
+print(len(mnist.test.images)) 
+10000 
+print(len(mnist.validation.images)) 
+5000 
+print(mnist.train.labels[1,:]) # The first label is a 3 
+[ 0\.  0\.  0\.  1\.  0\.  0\.  0\.  0\.  0\.  0.] 
+```
+
+1.  垃圾邮件文本数据。 UCI 的机器学习数据集库还包含垃圾短信文本消息数据集。我们可以访问此`.zip`文件并获取垃圾邮件文本数据，如下所示：
+
+```py
+import requests 
+import io 
+from zipfile import ZipFile 
+zip_url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip' 
+r = requests.get(zip_url) 
+z = ZipFile(io.BytesIO(r.content)) 
+file = z.read('SMSSpamCollection') 
+text_data = file.decode() 
+text_data = text_data.encode('ascii',errors='ignore') 
+text_data = text_data.decode().split('\n') 
+text_data = [x.split('\t') for x in text_data if len(x)>=1] 
+[text_data_target, text_data_train] = [list(x) for x in zip(*text_data)] 
+print(len(text_data_train)) 
+5574 
+print(set(text_data_target)) 
+{'ham', 'spam'} 
+print(text_data_train[1]) 
+Ok lar... Joking wif u oni... 
+```
+
+1.  电影评论数据：来自康奈尔大学的 Bo Pang 发布了一个电影评论数据集，将评论分为好或坏（3）。[您可以在以下网站上找到数据](http://www.cs.cornell.edu/people/pabo/movie-review-data/)。要下载，提取和转换此数据，我们可以运行以下代码：
+
+```py
+import requests 
+import io 
+import tarfile 
+movie_data_url = 'http://www.cs.cornell.edu/people/pabo/movie-review-data/rt-polaritydata.tar.gz' 
+r = requests.get(movie_data_url) 
+# Stream data into temp object 
+stream_data = io.BytesIO(r.content) 
+tmp = io.BytesIO() 
+while True: 
+    s = stream_data.read(16384) 
+    if not s: 
+        break 
+    tmp.write(s) 
+    stream_data.close() 
+tmp.seek(0) 
+# Extract tar file 
+tar_file = tarfile.open(fileobj=tmp, mode="r:gz") 
+pos = tar_file.extractfile('rt-polaritydata/rt-polarity.pos') 
+neg = tar_file.extractfile('rt-polaritydata/rt-polarity.neg') 
+# Save pos/neg reviews (Also deal with encoding) 
+pos_data = [] 
+for line in pos: 
+    pos_data.append(line.decode('ISO-8859-1').encode('ascii',errors='ignore').decode()) 
+neg_data = [] 
+for line in neg: 
+    neg_data.append(line.decode('ISO-8859-1').encode('ascii',errors='ignore').decode()) 
+tar_file.close() 
+print(len(pos_data)) 
+5331 
+print(len(neg_data)) 
+5331 
+# Print out first negative review 
+print(neg_data[0]) 
+simplistic , silly and tedious . 
+```
+
+1.  CIFAR-10 图像数据：加拿大高级研究院发布了一个图像集，其中包含 8000 万个带标签的彩色图像（每个图像缩放为`32 x 32`像素）。有 10 种不同的目标类别（飞机，汽车，鸟类等）。 CIFAR-10 是包含 60,000 张图像的子集。训练集中有 50,000 个图像，测试集中有 10,000 个。由于我们将以多种方式使用此数据集，并且因为它是我们较大的数据集之一，因此我们不会在每次需要时运行脚本。要获取此数据集，请导航至[此链接](http://www.cs.toronto.edu/~kriz/cifar.html)并下载 CIFAR-10 数据集。我们将在相应的章节中介绍如何使用此数据集。
+2.  莎士比亚文本数据的作品：古登堡项目（5）是一个发布免费书籍电子版的项目。他们一起编辑了莎士比亚的所有作品。以下代码显示了如何通过 Python 访问此文本文件：
+
+```py
+import requests 
+shakespeare_url = 'http://www.gutenberg.org/cache/epub/100/pg100.txt' 
+# Get Shakespeare text 
+response = requests.get(shakespeare_url) 
+shakespeare_file = response.content 
+# Decode binary into string 
+shakespeare_text = shakespeare_file.decode('utf-8') 
+# Drop first few descriptive paragraphs. 
+shakespeare_text = shakespeare_text[7675:] 
+print(len(shakespeare_text)) # Number of characters 
+5582212
+```
+
+1.  英语 - 德语句子翻译数据：[Tatoeba 项目](http://tatoeba.org) 收集多种语言的句子翻译。他们的数据已在 CC 协议下发布。根据这些数据，[ManyThings.org](http://www.manythings.org) 编译了可供下载的文本文件中的句子到句子的翻译。在这里，我们将使用英语 - 德语翻译文件，但您可以将 URL 更改为您想要使用的语言：
+
+```py
+import requests 
+import io 
+from zipfile import ZipFile 
+sentence_url = 'http://www.manythings.org/anki/deu-eng.zip' 
+r = requests.get(sentence_url) 
+z = ZipFile(io.BytesIO(r.content)) 
+file = z.read('deu.txt') 
+# Format Data 
+eng_ger_data = file.decode() 
+eng_ger_data = eng_ger_data.encode('ascii',errors='ignore') 
+eng_ger_data = eng_ger_data.decode().split('\n') 
+eng_ger_data = [x.split('\t') for x in eng_ger_data if len(x)>=1] 
+[english_sentence, german_sentence] = [list(x) for x in zip(*eng_ger_data)] 
+print(len(english_sentence)) 
+137673 
+print(len(german_sentence)) 
+137673 
+print(eng_ger_data[10]) 
+['I' won!, 'Ich habe gewonnen!'] 
+```
+
+## 工作原理
+
+当在秘籍中使用这些数据集之一时，我们将引用您到本节并假设数据以上一节中描述的方式加载。如果需要进一步的数据转换或预处理，那么这些代码将在秘籍本身中提供。
+
+## 另见
+
+以下是我们在本书中使用的数据资源的其他参考：
+
+*   Hosmer，D.W.，Lemeshow，S. 和 Sturdivant，R.X.，2013，应用逻辑回归：第三版
+*   [Lichman，M.，2013，UCI 机器学习库，Irvine，CA：加州大学信息与计算机科学学院](http://archive.ics.uci.edu/ml)
+*   [Bo Pang，Lillian Lee 和 Shivakumar Vaithyanathan，竖起大拇指？使用机器学习技术的情感分类，EMNLP 2002 年会议录](http://www.cs.cornell.edu/people/pabo/movie-review-data/)
+*   [Krizhevsky，2009 年，从微小图像学习多层特征](http://www.cs.toronto.edu/~kriz/cifar.html)
+*   [古腾堡项目，2016 年 4 月](http://www.gutenberg.org/)
+
+# 其他资源
+
+在本节中，您将找到对学习和使用 TensorFlow 有很大帮助的其他链接，文档资源和教程。
+
+## 准备
+
+在学习如何使用 TensorFlow 时，有助于知道在哪里寻求帮助或指针。本节列出了运行 TensorFlow 和解决问题的资源。
+
+## 操作步骤
+
+以下是 TensorFlow 资源列表：
+
+*   本书的代码可在 [Packt 仓库](https://github.com/nfmcclure/tensorflow_cookbook)在线获取。
+
+*   TensorFlow Python API 官方文档位于[这里](https://www.tensorflow.org/api_docs/python)。这里有 TensorFlow 中所有函数，对象和方法的文档和示例。
+*   TensorFlow 的官方教程非常详尽。它们位于[这里](https://www.tensorflow.org/tutorials/index.html)。他们开始覆盖图像识别模型，并通过 Word2Vec，RNN 模型和序列到序列模型进行工作。他们还有额外的教程来生成分形和解决 PDE 系统。请注意，他们不断向此集合添加更多教程和示例。
+
+*   TensorFlow 的 GitHub 官方仓库可通过[此链接](https://github.com/tensorflow/tensorflow)获得。在这里，您可以查看开源代码，甚至可以根据需要分叉或克隆最新版本的代码。如果导航到 issues 目录，您还可以查看当前提交的问题。
+*   Dockerhub 的[此链接](https://hub.docker.com/r/tensorflow/tensorflow/)提供了一个由 TensorFlow 保持最新的公共 Docker 容器。
+*   Stack Overflow 是社区帮助的重要来源。 TensorFlow 有一个标签。随着 TensorFlow 越来越受欢迎，这个标签似乎越来越受关注。要查看此标记上的活动，请访问[此链接](http://stackoverflow.com/questions/tagged/Tensorflow)。
+*   虽然 TensorFlow 非常灵活且可以用于很多事情，但 TensorFlow 最常见的用途是深度学习。为了理解深度学习的基础，基础数学如何运作，以及在深度学习方面发展更多直觉，谷歌创建了一个在 Udacity 上可用的在线课程。要注册并参加视频讲座课程，请访问[此链接](https://www.udacity.com/course/deep-learning--ud730)。
+*   TensorFlow 还建立了一个网站，您可以在视觉上探索训练神经网络，同时更改参数和数据集。访问[此链接](http://playground.tensorflow.org/)，探讨不同的设置如何影响神经网络的训练。
+*   [Geoffrey Hinton 通过 Coursera 教授一个名为神经网络的机器学习在线课程](https://www.coursera.org/learn/neural-networks)。
+*   斯坦福大学有一个[在线教学大纲和详细的视觉识别卷积神经网络课程笔记](http://cs231n.stanford.edu/)。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch02.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch02.md
new file mode 100644
index 00000000..ef30fdd3
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch02.md
@@ -0,0 +1,1055 @@
+# 二、TensorFlow 的方式
+
+在本章中，我们将介绍 TensorFlow 如何运作的关键组件。然后，我们将它们组合在一起以创建一个简单的分类器并评估结果。到本章结束时，您应该了解以下内容：
+
+*   计算图中的操作
+*   分层嵌套操作
+*   使用多个层
+*   实现损失函数
+*   实现反向传播
+*   使用批量和随机训练
+*   把所有东西结合在一起
+*   评估模型
+
+# 介绍
+
+现在我们已经介绍了 TensorFlow 如何创建张量，并使用变量和占位符，我们将介绍如何在计算图中对这些对象进行操作。由此，我们可以设置一个简单的分类器，看看它的表现如何。
+
+> 此外，请记住，[本书中的当前和更新代码可以在 GitHub 上在线获取](https://github.com/nfmcclure/tensorflow_cookbook)。
+
+# 计算图中的操作
+
+现在我们可以将对象放入计算图中，我们将介绍对这些对象起作用的操作。
+
+## 准备
+
+要启动图，我们加载 TensorFlow 并创建一个会话，如下所示：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+## 操作步骤
+
+在这个例子中，我们将结合我们学到的东西并将列表中的每个数字提供给图中的操作并打印输出：
+
+首先，我们宣布我们的张量和占位符。在这里，我们将创建一个 NumPy 数组来提供给我们的操作：
+
+```py
+import numpy as np 
+x_vals = np.array([1., 3., 5., 7., 9.]) 
+x_data = tf.placeholder(tf.float32) 
+m_const = tf.constant(3.) 
+my_product = tf.multiply(x_data, m_const) 
+for x_val in x_vals: 
+    print(sess.run(my_product, feed_dict={x_data: x_val})) 
+```
+
+上述代码的输出如下：
+
+```py
+3.0 
+9.0 
+15.0 
+21.0 
+27.0 
+```
+
+## 工作原理
+
+本节中的代码在计算图上创建数据和操作。下图是计算图的样子：
+
+![](img/c92d9c7b-a07f-48c5-9717-01ced228ffe9.png)
+
+图 1：`x_data`占位符以及乘法常数输入到乘法运算中
+
+# 对嵌套操作分层
+
+在本文中，我们将学习如何在同一计算图上放置多个操作。
+
+## 准备
+
+了解如何将操作链接在一起非常重要。这将在计算图中设置分层操作。对于演示，我们将占位符乘以两个矩阵，然后执行加法。我们将以三维 NumPy 数组的形式提供两个矩阵：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+## 操作步骤
+
+同样重要的是要注意数据在通过时如何改变形状。我们将输入两个大小为`3 x 5`的 NumPy 数组。我们将每个矩阵乘以一个大小常数`5 x 1,`，这将产生一个大小为`3 x 1`的矩阵。然后我们将其乘以`1 x 1`矩阵，再次产生`3 x 1`矩阵。最后，我们在最后添加`3 x 1`矩阵，如下所示：
+
+1.  首先，我们创建要输入的数据和相应的占位符：
+
+```py
+my_array = np.array([[1., 3., 5., 7., 9.], 
+                   [-2., 0., 2., 4., 6.], 
+                   [-6., -3., 0., 3., 6.]]) 
+x_vals = np.array([my_array, my_array + 1]) 
+x_data = tf.placeholder(tf.float32, shape=(3, 5)) 
+```
+
+1.  接下来，我们创建将用于矩阵乘法和加法的常量：
+
+```py
+m1 = tf.constant([[1.], [0.], [-1.], [2.], [4.]]) 
+m2 = tf.constant([[2.]]) 
+a1 = tf.constant([[10.]]) 
+```
+
+1.  现在，我们声明操作并将它们添加到图中：
+
+```py
+prod1 = tf.matmul(x_data, m1) 
+prod2 = tf.matmul(prod1, m2) 
+add1 = tf.add(prod2, a1)
+```
+
+1.  最后，我们为图提供数据：
+
+```py
+for x_val in x_vals: 
+    print(sess.run(add1, feed_dict={x_data: x_val})) 
+[[ 102.] 
+ [  66.] 
+ [  58.]] 
+[[ 114.] 
+ [  78.] 
+ [  70.]] 
+```
+
+## 工作原理
+
+我们刚刚创建的计算图可以使用 TensorBoard 进行可视化。 TensorBoard 是 TensorFlow 的一个功能，它允许我们可视化计算图和这些图中的值。与其他机器学习框架不同，这些功能是本机提供的。要了解如何完成此操作，请参阅第 11 章中的 TensorBoard 秘籍中的可视化图，更多内容使用 TensorFlow。以下是我们的分层图如下所示：
+
+![](img/e14ff4a8-12d8-42ba-968f-87b50c1afc6d.png)
+
+图 2：向上传播到图时的数据大小
+
+## 更多
+
+在通过图运行数据之前，我们必须声明数据形状并知道操作的结果形状。这并非总是如此。可能有一两个我们事先不知道的维度，或者一些可能变化的维度。为实现此目的，我们将可以改变（或未知）的维度或维度指定为值`None`。例如，要使先前的数据占位符具有未知数量的列，我们将编写以下行：
+
+```py
+x_data = tf.placeholder(tf.float32, shape=(3,None))
+```
+
+这允许我们打破矩阵乘法规则，但我们仍然必须遵守乘法常数必须具有相同行数的事实。当我们将数据输入图时，我们可以动态生成或重新整形`x_data`。当我们以不同批次大小的多批次提供数据时，这将在后面的章节中派上用场。
+
+> 虽然使用`None`作为大小允许我们使用可变大小的大小，但在填充大小时始终建议尽可能明确。如果我们将大小标准化为固定大小，那么我们应该明确地将该大小写为大小。建议将`None`用作维度，以限制数据的批量大小（或我们一次计算的数据点数）。
+
+# 使用多个层
+
+现在我们已经介绍了多个操作，我们将介绍如何连接具有通过它们传播的数据的各个层。
+
+## 准备
+
+在本文中，我们将介绍如何最好地连接各种层，包括自定义层。我们将生成和使用的数据将代表小型随机图像。最好通过一个简单的例子来理解这种类型的操作，看看我们如何使用一些内置层来执行计算。我们将探索的第一层称为移动窗口。我们将在 2D 图像上执行小的移动窗口平均值，然后第二层将是自定义操作层。
+
+在本节中，我们将看到计算图可能变得庞大且难以查看。为了解决这个问题，我们还将介绍命名操作和创建层范围的方法。首先，加载`numpy`和`tensorflow`，然后使用以下命令创建图：
+
+```py
+import tensorflow as tf 
+import numpy as np 
+sess = tf.Session() 
+```
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  首先，我们使用 NumPy 创建示例 2D 图像。该图像将是`4 x 4`像素图像。我们将在四个方面创建它；第一个和最后一个维度的大小为 1。请注意，某些 TensorFlow 图像函数将在四维图像上运行。这四个维度是图像编号，高度，宽度和通道，为了使其成为一个具有一个通道的图像，我们将两个维度设置为`1`，如下所示：
+
+```py
+x_shape = [1, 4, 4, 1] 
+x_val = np.random.uniform(size=x_shape) 
+```
+
+1.  现在，我们必须在图中创建占位符，我们可以在其中提供示例图像，如下所示：
+
+```py
+x_data = tf.placeholder(tf.float32, shape=x_shape) 
+```
+
+1.  为了在我们的`4 x 4`图像上创建一个移动窗口平均值，我们将使用一个内置函数，它将在形状窗口`2 x 2`上收敛一个常量。我们将使用的函数是`conv2d()`;此函数在图像处理和 TensorFlow 中非常常用。此函数采用窗口的分段产品和我们指定的过滤器。我们还必须在两个方向上指定移动窗口的步幅。在这里，我们将计算四个移动窗口平均值：左上角，右上角，左下角和右下角四个像素。我们通过创建`2 x 2`窗口并在每个方向上具有长度`2`的步幅来实现这一点。为取平均值，我们将`2 x 2`窗口用`0.25`的常数卷积，如下：
+
+```py
+my_filter = tf.constant(0.25, shape=[2, 2, 1, 1]) 
+my_strides = [1, 2, 2, 1] 
+mov_avg_layer= tf.nn.conv2d(x_data, my_filter, my_strides, 
+                            padding='SAME', name='Moving_Avg_Window') 
+```
+
+> 请注意，我们还使用函数的`name`参数命名此层`Moving_Avg_Window`。 为了计算卷积层的输出大小，我们可以使用下面的公式`: Output = (W - F + 2P) / S + 1`，其中`W`是输入大小，`F`是过滤器大小，`P`是零填充，并且`S`是步幅。
+
+1.  现在，我们定义一个自定义层，它将在移动窗口平均值的`2 x 2`输出上运行。自定义函数将首先将输入乘以另一个`2 x 2`矩阵张量，然后为每个条目添加 1。在此之后，我们取每个元素的 sigmoid 并返回`2 x 2`矩阵。由于矩阵乘法仅对二维矩阵进行操作，因此我们需要删除大小为`1`的图像的额外维度。 TensorFlow 可以使用内置的`squeeze()`函数执行此操作。在这里，我们定义新层：
+
+```py
+    def custom_layer(input_matrix): 
+        input_matrix_sqeezed = tf.squeeze(input_matrix) 
+        A = tf.constant([[1., 2.], [-1., 3.]]) 
+        b = tf.constant(1., shape=[2, 2]) 
+        temp1 = tf.matmul(A, input_matrix_sqeezed) 
+        temp = tf.add(temp1, b) # Ax + b 
+        return tf.sigmoid(temp) 
+```
+
+1.  现在，我们必须将新层放在图上。我们将使用命名范围执行此操作，以便它在计算图上可识别和可折叠/可扩展，如下所示：
+
+```py
+with tf.name_scope('Custom_Layer') as scope: 
+    custom_layer1 = custom_layer(mov_avg_layer) 
+```
+
+1.  现在，我们只需输入`4 x 4`图像来替换占位符并告诉 TensorFlow 运行图，如下所示：
+
+```py
+print(sess.run(custom_layer1, feed_dict={x_data: x_val})) 
+[[ 0.91914582 0.96025133] 
+ [ 0.87262219  0.9469803 ]] 
+```
+
+## 工作原理
+
+通过命名操作和层范围，可视化绘图看起来更好。我们可以折叠和展开自定义层，因为我们在命名范围内创建了它。在下图中，请参阅左侧的折叠版本和右侧的展开版本：
+
+![](img/16011597-1adf-4b5c-b12e-38eed5a3e596.png)
+
+图 3：具有两层的计算图
+
+第一层名为`Moving_Avg_Window`。第二个是名为`Custom_Layer`的操作集合。它在左侧折叠并在右侧展开。
+
+# 实现损失函数
+
+损失函数对于机器学习算法非常重要。它们测量模型输出与目标（真值）值之间的距离。在这个秘籍中，我们在 TensorFlow 中展示了各种损失函数实现。
+
+## 准备
+
+为了优化我们的机器学习算法，我们需要评估结果。评估 TensorFlow 中的结果取决于指定损失函数。损失函数告诉 TensorFlow 预测与期望结果相比有多好或多坏。在大多数情况下，我们将有一组数据和一个目标来训练我们的算法。损失函数将目标与预测进行比较，并给出两者之间的数值距离。
+
+对于这个秘籍，我们将介绍我们可以在 TensorFlow 中实现的主要损失函数。
+
+要了解不同损失函数的运行方式，我们将在此秘籍中绘制它们。我们将首先启动一个计算图并加载`matplotlib`，一个 Python 绘图库，如下所示：
+
+```py
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+```
+
+## 操作步骤
+
+1.  首先，我们将讨论回归的损失函数，这意味着预测连续的因变量。首先，我们将创建一个预测序列和一个作为张量的目标。我们将在 -1 和 1 之间输出 500 个值的结果。有关输出的绘图，请参阅“工作原理”部分。使用以下代码：
+
+```py
+x_vals = tf.linspace(-1., 1., 500) 
+target = tf.constant(0.) 
+```
+
+1.  L2 范数损失也称为欧几里德损失函数。它只是到目标的距离的平方。在这里，我们将计算损失函数，就像目标为零一样。 L2 范数是一个很大的损失函数，因为它在目标附近非常弯曲，并且算法可以使用这个事实来越慢地收敛到目标，越接近零。我们可以按如下方式实现：
+
+```py
+l2_y_vals = tf.square(target - x_vals) 
+l2_y_out = sess.run(l2_y_vals)
+```
+
+> TensorFlow 具有 L2 范数的内置形式，称为`nn.l2_loss()`。这个函数实际上是 L2 范数的一半。换句话说，它与前一个相同，但除以 2。
+
+1.  L1 范数损失也称为绝对损失函数。我们不是平衡差异，而是取绝对值。 L1 范数对于异常值比 L2 范数更好，因为对于较大的值，它不是那么陡峭。需要注意的一个问题是 L1 范数在目标处不平滑，这可能导致算法收敛不好。它看起来如下：
+
+```py
+l1_y_vals = tf.abs(target - x_vals) 
+l1_y_out = sess.run(l1_y_vals) 
+```
+
+1.  伪 Huber 损失是 Huber 损失函数的连续且平滑的近似。这种损失函数试图通过在目标附近凸起并且对于极值不太陡峭来充分利用 L1 和 L2 范数。表格取决于额外的参数`delta`，它决定了它的陡峭程度。我们将绘制两种形式，`delta1 = 0.25`和`delta2 = 5`，以显示差异，如下所示：
+
+```py
+delta1 = tf.constant(0.25) 
+phuber1_y_vals = tf.multiply(tf.square(delta1), tf.sqrt(1\. +  
+                        tf.square((target - x_vals)/delta1)) - 1.) 
+phuber1_y_out = sess.run(phuber1_y_vals) 
+delta2 = tf.constant(5.) 
+phuber2_y_vals = tf.multiply(tf.square(delta2), tf.sqrt(1\. +  
+                        tf.square((target - x_vals)/delta2)) - 1.) 
+phuber2_y_out = sess.run(phuber2_y_vals) 
+```
+
+现在，我们继续讨论分类问题的损失函数。分类损失函数用于在预测分类结果时评估损失。通常，我们的类别类型的输出是 0 到 1 之间的实数值。然后，我们选择截止值（通常选择 0.5）并且如果数字高于截止值，则将结果分类为该类别。在这里，我们考虑分类输出的各种损失函数：
+
+1.  首先，我们需要重新定义我们的预测（`x_vals`）和`target`。我们将保存输出并在下一节中绘制它们。使用以下内容：
+
+```py
+x_vals = tf.linspace(-3., 5., 500) 
+target = tf.constant(1.) 
+targets = tf.fill([500,], 1.)
+```
+
+1.  铰链损失主要用于支持向量机，但也可用于神经网络。它旨在计算两个目标类 1 和 -1 之间的损失。在下面的代码中，我们使用目标值`1`，因此我们的预测越接近 1，损失值越低：
+
+```py
+hinge_y_vals = tf.maximum(0., 1\. - tf.multiply(target, x_vals)) 
+hinge_y_out = sess.run(hinge_y_vals) 
+```
+
+1.  二元情形的交叉熵损失有时也称为逻辑损失函数。它是在我们预测两个 0 或 1 类时出现的。我们希望测量从实际类（0 或 1）到预测值的距离，预测值通常是介于 0 和 1 之间的实数。为了测量这个距离，我们可以使用信息论中的交叉熵公式，如下：
+
+```py
+xentropy_y_vals = - tf.multiply(target, tf.log(x_vals)) - tf.multiply((1\. - target), tf.log(1\. - x_vals)) 
+xentropy_y_out = sess.run(xentropy_y_vals) 
+```
+
+1.  Sigmoid 交叉熵损失与之前的损失函数非常相似，除了我们在将它们置于交叉熵损失之前使用 sigmoid 函数转换 x 值，如下所示：
+
+```py
+xentropy_sigmoid_y_vals = tf.nn.sigmoid_cross_entropy_with_logits_v2(logits=x_vals, labels=targets) 
+xentropy_sigmoid_y_out = sess.run(xentropy_sigmoid_y_vals) 
+```
+
+1.  加权交叉熵损失是 Sigmoid 交叉熵损失的加权版本。我们对积极目标给予了重视。举个例子，我们将正面目标加权 0.5，如下：
+
+```py
+weight = tf.constant(0.5) 
+xentropy_weighted_y_vals = tf.nn.weighted_cross_entropy_with_logits(logits=x_vals, targets=targets, pos_weight=weight) 
+xentropy_weighted_y_out = sess.run(xentropy_weighted_y_vals) 
+```
+
+1.  Softmax 交叉熵损失在非标准化输出上运行。当只有一个目标类别而不是多个目标类别时，此函数用于测量损失。因此，函数通过 softmax 函数将输出转换为概率分布，然后根据真实概率分布计算损失函数，如下所示：
+
+```py
+unscaled_logits = tf.constant([[1., -3., 10.]]) 
+target_dist = tf.constant([[0.1, 0.02, 0.88]]) 
+softmax_xentropy = tf.nn.softmax_cross_entropy_with_logits_v2(logits=unscaled_logits, labels=target_dist) 
+print(sess.run(softmax_xentropy)) 
+[ 1.16012561] 
+```
+
+1.  稀疏 softmax 交叉熵损失与前一个相同，除了目标是概率分布，它是哪个类别为真的索引。我们只传递真值的类别的索引，而不是稀疏的全零目标向量，其值为 1，如下所示：
+
+```py
+unscaled_logits = tf.constant([[1., -3., 10.]]) 
+sparse_target_dist = tf.constant([2]) 
+sparse_xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=unscaled_logits, labels=sparse_target_dist) 
+print(sess.run(sparse_xentropy)) 
+[ 0.00012564] 
+```
+
+## 工作原理
+
+以下是如何使用`matplotlib`绘制回归损失函数：
+
+```py
+x_array = sess.run(x_vals) 
+plt.plot(x_array, l2_y_out, 'b-', label='L2 Loss') 
+plt.plot(x_array, l1_y_out, 'r--', label='L1 Loss') 
+plt.plot(x_array, phuber1_y_out, 'k-.', label='P-Huber Loss (0.25)') 
+plt.plot(x_array, phuber2_y_out, 'g:', label='P-Huber Loss (5.0)') 
+plt.ylim(-0.2, 0.4) 
+plt.legend(loc='lower right', prop={'size': 11}) 
+plt.show() 
+```
+
+我们得到以下图作为上述代码的输出：
+
+![](img/8475c505-e8c7-49ba-a1d1-b6764a1b45b0.png)
+
+图 4：绘制各种回归损失函数
+
+以下是如何使用`matplotlib`绘制各种分类损失函数：
+
+```py
+x_array = sess.run(x_vals) 
+plt.plot(x_array, hinge_y_out, 'b-''', label='Hinge Loss''') 
+plt.plot(x_array, xentropy_y_out, 'r--''', label='Cross' Entropy Loss') 
+plt.plot(x_array, xentropy_sigmoid_y_out, 'k-.''', label='Cross' Entropy Sigmoid Loss') 
+plt.plot(x_array, xentropy_weighted_y_out, g:''', label='Weighted' Cross Enropy Loss (x0.5)') 
+plt.ylim(-1.5, 3) 
+plt.legend(loc='lower right''', prop={'size''': 11}) 
+plt.show() 
+```
+
+我们从前面的代码中得到以下图：
+
+![](img/ac1fb199-5d83-474a-aad9-efeefb7e4caf.png)Figure 5: Plots of classification loss functions
+
+## 更多
+
+这是一个总结我们描述的不同损失函数的表：
+
+| 损失函数 | 任务 | 优点 | 缺点 |
+| --- | --- | --- | --- |
+| L2 | 回归 | 更稳定 | 不太强大 |
+| L1 | 回归 | 更强大 | 不太稳定 |
+| 伪 Huber | 回归 | 更强大，更稳定 | 还有一个参数 |
+| Hinge | 分类 | 创建 SVM 中使用的最大边距 | 受到异常值影响的无限损失 |
+| 交叉熵 | 分类 | 更稳定 | 无限损失，不那么强大 |
+
+剩余的分类损失函数都与交叉熵损失的类型有关。交叉熵 sigmoid 损失函数用于未缩放的对率，并且优于计算 sigmoid 然后交叉熵，因为 TensorFlow 具有更好的内置方式来处理数字边缘情况。 softmax 交叉熵和稀疏 softmax 交叉熵也是如此。
+
+> 这里描述的大多数分类损失函数用于两类预测。通过对每个预测/目标上的交叉熵项求和，可以将其扩展到多个类。
+
+评估模型时还需要考虑许多其他指标。以下列出了一些需要考虑的事项：
+
+| 模型指标 | 描述 |
+| --- | --- |
+| R 平方（确定系数） | 对于线性模型，这是因变量的方差比例，由独立数据解释。对于具有大量特征的模型，请考虑使用调整后的 R 平方。 |
+| 均方根误差 | 对于连续模型，它通过平均平方误差的平方根来测量预测与实际之间的差异。 |
+| 混淆矩阵 | 对于分类模型，我们查看预测类别与实际类别的矩阵。一个完美的模型具有沿对角线的所有计数。 |
+| 召回 | 对于分类模型，这是所有预测阳性的真阳性分数。 |
+| 精确 | 对于分类模型，这是所有实际阳性的真阳性分数。 |
+| F-得分 | 对于分类模型，这是精度和召回的调和平均值。 |
+
+# 实现反向传播
+
+使用 TensorFlow 的一个好处是它可以跟踪操作并根据反向传播自动更新模型变量。在本文中，我们将介绍如何在训练机器学习模型时将此方面用于我们的优势。
+
+## 准备
+
+现在，我们将介绍如何以最小化损失函数的方式更改模型中的变量。我们已经学会了如何使用对象和操作，并创建了测量我们的预测和目标之间距离的损失函数。现在，我们只需告诉 TensorFlow 如何通过我们的计算图反向传播误差来更新变量并最小化损失函数。这是通过声明优化函数完成的。一旦我们声明了一个优化函数，TensorFlow 将通过并计算出图中所有计算的反向传播项。当我们输入数据并最小化损失函数时，TensorFlow 将相应地修改图中的变量。
+
+对于这个秘籍，我们将做一个非常简单的回归算法。我们将从正态分布中抽取随机数，均值为 1，标准差为 0.1。然后，我们将通过一个操作来运行数字，这将是它们乘以变量`A`。由此，损失函数将是输出和目标之间的 L2 范数，其总是值 10。理论上，A 的最佳值将是数字 10，因为我们的数据将具有平均值 1。
+
+第二个例子是一个非常简单的二分类算法。在这里，我们将从两个正态分布`N(-1,1)`和`N(3,1)`生成 100 个数字。来自`N(-1, 1)`的所有数字将在目标等级 0 中，并且来自`N(3, 1)`的所有数字将在目标等级 1 中。用于区分这些数字的模型将是翻译的 Sigmoid 函数。换句话说，模型将是`sigmoid(x + A)`，其中`A`是我们将适合的变量。从理论上讲，A 将等于 -1。我们得到这个数字是因为如果`m1`和`m2`是两个正常函数的平均值，那么加到它们以将它们等距离转换为零的值将是 - `(m1 + m2) / 2`。我们将在第二个例子中看到 TensorFlow 如何达到该数字。
+
+虽然指定良好的学习率有助于算法的收敛，但我们还必须指定一种优化。从前两个例子中，我们使用标准梯度下降。这是通过`GradientDescentOptimizer()` TensorFlow 函数实现的。
+
+## 操作步骤
+
+以下是回归示例的工作原理：
+
+1.  我们首先加载`numpy`和`tensorflow`数值 Python 包：
+
+```py
+import numpy as np 
+import tensorflow as tf 
+```
+
+1.  现在，我们启动图会话：
+
+```py
+sess = tf.Session() 
+```
+
+1.  接下来，我们创建数据，占位符和`A`变量：
+
+```py
+x_vals = np.random.normal(1, 0.1, 100) 
+y_vals = np.repeat(10., 100) 
+x_data = tf.placeholder(shape=[1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[1])) 
+```
+
+1.  我们将乘法运算添加到图中：
+
+```py
+my_output = tf.mul(x_data, A) 
+```
+
+1.  接下来，我们在乘法输出和目标数据之间添加 L2 `Loss`函数：
+
+```py
+loss = tf.square(my_output - y_target)
+```
+
+1.  现在，我们必须声明一种优化图中变量的方法。我们声明了一种优化算法。大多数优化算法需要知道每次迭代中的步进距离。该距离由学习率控制。如果我们的学习率太大，我们的算法可能会超过最小值，但如果我们的学习率太小，我们的算法可能需要很长时间才能收敛；这与消失和爆炸的梯度问题有关。学习率对收敛有很大影响，我们将在本节末尾讨论这个问题。虽然我们在这里使用标准梯度下降算法，但是有许多不同的优化算法可以不同地运行，并且可以根据问题做得更好或更差。有关不同优化算法的精彩概述，请参阅 Sebastian Ruder 在本文末尾的另见部分中的文章：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(learning_rate=0.02)
+train_step = my_opt.minimize(loss)
+```
+
+1.  现在我们可以初始化我们的模型变量：
+
+```py
+init = tf.global_variable_initializer()
+sess.run(init) 
+```
+
+There is a lot of theory on which learning rates are best. This is one of the harder things to figure out in machine learning algorithms. Good papers to read about how learning rates are related to specific optimization algorithms are listed in the See also section at the end of this recipe.
+
+1.  最后一步是循环我们的训练算法并告诉 TensorFlow 多次训练。我们将这样做 101 次，并且每 25 次迭代打印出结果。为了训练，我们将选择随机`x`和`y`条目并通过图提供。 TensorFlow 将自动计算损失，并略微改变`A`偏差以最小化损失：
+
+```py
+for i in range(100): 
+    rand_index = np.random.choice(100) 
+    rand_x = [x_vals[rand_index]] 
+    rand_y = [y_vals[rand_index]] 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    if (i + 1) % 25 == 0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
+        print('Loss = ' + str(sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}))) 
+# Here is the output: 
+Step #25 A = [ 6.23402166] 
+Loss = 16.3173 
+Step #50 A = [ 8.50733757] 
+Loss = 3.56651 
+Step #75 A = [ 9.37753201] 
+Loss = 3.03149 
+Step #100 A = [ 9.80041122] 
+Loss = 0.0990248 
+```
+
+现在，我们将介绍简单分类示例的代码。如果我们先重置图，我们可以使用相同的 TensorFlow 脚本。请记住，我们将尝试找到一个最佳平移`A`，它将两个分布转换为原点，而 sigmoid 函数将两个分为两个不同的类：
+
+1.  首先，我们重置图并重新初始化图会话：
+
+```py
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+sess = tf.Session() 
+```
+
+1.  接下来，我们从两个不同的正态分布`N(-1, 1)`和`N(3, 1)`中提取数据。我们还将生成目标标签，数据占位符和偏差变量`A`：
+
+```py
+x_vals = np.concatenate((np.random.normal(-1, 1, 50), np.random.normal(3, 1, 50))) 
+y_vals = np.concatenate((np.repeat(0., 50), np.repeat(1., 50))) 
+x_data = tf.placeholder(shape=[1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(mean=10, shape=[1])) 
+```
+
+> 我们将`A`初始化为大约 10 的值，远离理论值-1。我们这样做的目的是为了说明算法如何从 10 的值收敛到最佳值 -1。
+
+1.  接下来，我们将转换操作添加到图中。请记住，我们不必将它包装在 sigmoid 函数中，因为损失函数将为我们执行此操作：
+
+```py
+my_output = tf.add(x_data, A)
+```
+
+1.  由于特定损失函数需要具有与之关联的额外维度的批量数据（添加的维度，即批次编号），因此我们将使用`expand_dims()`函数为输出添加额外维度。在下一节中，我们将讨论如何在训练中使用可变大小的批次。现在，我们将再次使用一个随机数据点：
+
+```py
+my_output_expanded = tf.expand_dims(my_output, 0) 
+y_target_expanded = tf.expand_dims(y_target, 0) 
+```
+
+1.  接下来，我们将初始化我们的一个变量`A`：
+
+```py
+init = tf.initialize_all_variables() 
+sess.run(init) 
+```
+
+1.  现在，我们宣布我们的损失函数。我们将使用带有未缩放的对率的交叉熵，它使用 sigmoid 函数对它们进行转换。在名为`nn.sigmoid_cross_entropy_with_logits()`的神经网络包中，TensorFlow 为我们提供了这一函数。如前所述，它希望参数具有特定的维度，因此我们必须相应地使用扩展的输出和目标：
+
+```py
+xentropy = tf.nn.sigmoid_cross_entropy_with_logits( my_output_expanded, y_target_expanded) 
+```
+
+1.  与回归示例一样，我们需要向图中添加优化器函数，以便 TensorFlow 知道如何更新图中的偏差变量：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.05) 
+train_step = my_opt.minimize(xentropy) 
+```
+
+1.  最后，我们循环遍历随机选择的数据点数百次并相应地更新`A`变量。每 200 次迭代，我们将打印出`A`的值和损失：
+
+```py
+for i in range(1400): 
+    rand_index = np.random.choice(100) 
+    rand_x = [x_vals[rand_index]] 
+    rand_y = [y_vals[rand_index]] 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    if (i + 1) % 200 == 0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
+        print('Loss = ' + str(sess.run(xentropy, feed_dict={x_data: rand_x, y_target: rand_y}))) 
+Step #200 A = [ 3.59597969] 
+Loss = [[ 0.00126199]] 
+Step #400 A = [ 0.50947344] 
+Loss = [[ 0.01149425]] 
+Step #600 A = [-0.50994617] 
+Loss = [[ 0.14271219]] 
+Step #800 A = [-0.76606178] 
+Loss = [[ 0.18807337]] 
+Step #1000 A = [-0.90859312] 
+Loss = [[ 0.02346182]] 
+Step #1200 A = [-0.86169094] 
+Loss = [[ 0.05427232]] 
+Step #1400 A = [-1.08486211] 
+Loss = [[ 0.04099189]] 
+```
+
+## 工作原理
+
+有关回顾和解释，对于这两个示例，我们执行了以下操作：
+
+1.  创建了数据。这两个示例都需要通过占位符加载数据。
+2.  初始化占位符和变量。这些是非常相似的数据占位符。变量非常相似，它们都有乘法矩阵`A`，但第一个分类算法有一个偏差项来找到数据中的分裂。
+3.  创建了损失函数，我们使用 L2 损失进行回归，使用交叉熵损失进行分类。
+4.  定义了一种优化算法。两种算法都使用梯度下降。
+5.  迭代随机数据样本以迭代更新我们的变量。
+
+## 更多
+
+如前所述，优化算法对学习率的选择很敏感。重要的是要以简洁的方式总结这种选择的效果：
+
+| 学习率大小 | 优点缺点 | 用途 |
+| --- | --- | --- |
+| 较小的学习率 | 收敛速度较慢但结果更准确 | 如果解决方案不稳定，请先尝试降低学习率 |
+| 学习率更高 | 不太准确，但收敛速度更快 | 对于某些问题，有助于防止解决方案停滞不前 |
+
+有时，标准梯度下降算法会显着卡住或减速。当优化卡在马鞍的平坦点时，可能会发生这种情况。为了解决这个问题，还有另一种算法考虑了动量项，它增加了前一步骤的梯度下降值的一小部分。 TensorFlow 内置了`MomentumOptimizer()`函数。
+
+另一种变体是为我们模型中的每个变量改变优化器步骤。理想情况下，我们希望为较小的移动变量采取较大的步骤，为较快的变化变量采取较短的步骤。我们不会深入研究这种方法的数学，但这种思想的常见实现称为 Adagrad 算法。该算法考虑了变量梯度的整个历史。 TensorFlow 中的函数称为`AdagradOptimizer()`。
+
+有时候，Adagrad 会过早地强调梯度为零，因为它考虑了整个历史。解决方法是限制我们使用的步数。这样做称为 Adadelta 算法。我们可以使用`AdadeltaOptimizer()`函数来应用它。
+
+还有一些不同的梯度下降算法的其他实现。对于这些，我们会让读者参考 [TensorFlow 文档](https://www.tensorflow.org/api_guides/python/train)。
+
+## 另见
+
+有关优化算法和学习率的一些参考，请参阅以下文章和文章：
+
+*   另见本章的秘籍如下：
+    *   在实现损失函数部分。
+    *   在实现反向传播部分。
+*   [Kingma，D.，Jimmy，L.，Adam：一种随机优化方法，ICLR 2015](https://arxiv.org/pdf/1412.6980.pdf)
+*   [Ruder，S.，梯度下降优化算法概述，2016](https://arxiv.org/pdf/1609.04747v1.pdf)
+*   [Zeiler，M.，ADADelta：一种自适应学习率方法，2012](http://www.matthewzeiler.com/pubs/googleTR2012/googleTR2012.pdf)
+
+# 使用批量和随机训练
+
+虽然 TensorFlow 根据反向传播更新我们的模型变量，但它可以同时操作从一个基准观察到一大批数据的任何事物。在一个训练示例上操作可以使得学习过程非常不稳定，而使用太大的批次可能在计算上是昂贵的。选择正确类型的训练对于使我们的机器学习算法融合到解决方案至关重要。
+
+## 准备
+
+为了使 TensorFlow 计算反向传播的可变梯度，我们必须测量样本或多个样本的损失。随机训练一次只适用于一个随机抽样的数据 - 目标对，就像我们在上一个秘籍中所做的那样。另一种选择是一次放置大部分训练样例并平均梯度计算的损失。训练批次的大小可以一次变化，直到并包括整个数据集。在这里，我们将展示如何将先前的回归示例（使用随机训练）扩展到批量训练。
+
+我们将首先加载`numpy`，`matplotlib`和`tensorflow`，然后启动图会话，如下所示：
+
+```py
+import matplotlib as plt 
+import numpy as np 
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们将从声明批量大小开始。这将是我们将同时通过计算图提供多少数据观察：
+
+```py
+batch_size = 20
+```
+
+1.  接下来，我们在模型中声明数据，占位符和变量。我们在这里做的改变是我们改变了占位符的形状。它们现在是两个维度，第一个维度是`None`，第二个维度是批次中的数据点数。我们可以明确地将它设置为 20，但我们可以推广并使用`None`值。同样，正如第 1 章，TensorFlow 入门中所述，我们仍然需要确保维度在模型中运行，这不允许我们执行任何非法矩阵操作：
+
+```py
+x_vals = np.random.normal(1, 0.1, 100) 
+y_vals = np.repeat(10., 100) 
+x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[1,1])) 
+```
+
+1.  现在，我们将操作添加到图中，现在将是矩阵乘法而不是常规乘法。请记住，矩阵乘法不是可交换的，因此我们必须在`matmul()`函数中以正确的顺序输入矩阵：
+
+```py
+my_output = tf.matmul(x_data, A) 
+```
+
+1.  我们的`loss`函数会发生变化，因为我们必须采用批次中每个数据点的所有 L2 损失的平均值。我们通过将先前的损失输出包装在 TensorFlow 的`reduce_mean()`函数中来实现：
+
+```py
+loss = tf.reduce_mean(tf.square(my_output - y_target)) 
+```
+
+1.  我们像以前一样声明我们的优化器并初始化我们的模型变量，如下所示：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.02) 
+train_step = my_opt.minimize(loss)
+init = tf.global_variables_initializer()
+sess.run(init)
+```
+
+1.  最后，我们将循环并迭代训练步骤以优化算法。这部分与以前不同，因为我们希望能够绘制随时间的损失并比较批次与随机训练的收敛。因此，我们初始化一个列表，每隔五个时间间隔存储一次损失函数：
+
+```py
+loss_batch = [] 
+for i in range(100): 
+    rand_index = np.random.choice(100, size=batch_size) 
+    rand_x = np.transpose([x_vals[rand_index]]) 
+    rand_y = np.transpose([y_vals[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    if (i + 1) % 5 == 0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
+        temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+        print('Loss = ' + str(temp_loss)) 
+        loss_batch.append(temp_loss) 
+```
+
+1.  这是 100 次迭代的最终输出。请注意，`A`的值有一个额外的维度，因为它现在必须是一个 2D 矩阵：
+
+```py
+Step #100 A = [[ 9.86720943]] 
+Loss = 0\. 
+```
+
+## 工作原理
+
+批量训练和随机训练的优化方法和收敛性不同。找到一个好的批量大小可能很困难。为了了解批量与随机指标之间的收敛程度如何不同，建议读者将批量大小更改为各种级别。以下是保存和记录训练循环中随机损失的代码。只需在上一个秘籍中替换此代码：
+
+```py
+loss_stochastic = [] 
+for i in range(100): 
+    rand_index = np.random.choice(100) 
+    rand_x = [x_vals[rand_index]] 
+    rand_y = [y_vals[rand_index]] 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    if (i + 1) % 5 == 0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
+        temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+        print('Loss = ' + str(temp_loss)) 
+        loss_stochastic.append(temp_loss) 
+```
+
+下面是为同一回归问题生成随机和批量损失图的代码：
+
+```py
+plt.plot(range(0, 100, 5), loss_stochastic, 'b-', label='Stochastic Loss') 
+plt.plot(range(0, 100, 5), loss_batch, 'r--', label='Batch' Loss, size=20') 
+plt.legend(loc='upper right', prop={'size': 11}) 
+plt.show() 
+```
+
+我们得到以下绘图：
+
+![](img/3d734ed6-f40b-44e6-a890-7324ac20a592.png)
+
+图 6：在 100 次迭代中绘制的随机损失和批量损失（批量大小为 20）。请注意，批次损失更加平滑，随机损失更加不稳定。
+
+## 更多
+
+| 训练类型 | 优点 | 缺点 |
+| --- | --- | --- |
+| 随机 | 随机性可能有助于摆脱局部的最小值。 | 通常，需要更多迭代才能收敛。 |
+| 批量 | 更快地找到最小值。 | 需要更多资源来计算。 |
+
+# 把所有东西结合在一起
+
+在本节中，我们将结合到目前为止所示的所有内容，并为鸢尾数据集创建分类器。
+
+## 准备
+
+鸢尾数据集在第 1 章，TensorFlow 入门中使用数据源秘籍中有更详细的描述。我们将加载这些数据并制作一个简单的二元分类器来预测花是否是山鸢尾的种类。需要说明的是，这个数据集有三个种类，但我们只能预测一种花是单一种，是否是一种花，给我们一个二元分类器。我们将首先加载库和数据，然后相应地转换目标。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  首先，我们加载所需的库并初始化计算图。注意我们也在这里加载`matplotlib`，因为我们想在之后绘制结果行：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+from sklearn import datasets 
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+1.  接下来，我们加载鸢尾数据。我们还需要将目标数据转换为 1 或 0，无论目标是否为山鸢尾。由于鸢尾数据集将山鸢尾标记为 0，我们将更改所有目标，值为 0 到 1，其他值全部为 0.我们也将只使用两个特征，花瓣长度和花瓣宽度。这两个特征是每个`x-value`中的第三和第四个条目：
+
+```py
+iris = datasets.load_iris() 
+binary_target = np.array([1\. if x==0 else 0\. for x in iris.target]) 
+iris_2d = np.array([[x[2], x[3]] for x in iris.data]) 
+```
+
+1.  让我们声明我们的批量大小，数据占位符和模型变量。请记住，可变批量大小的数据占位符将`None`作为第一个维度：
+
+```py
+batch_size = 20 
+x1_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+x2_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[1, 1])) 
+b = tf.Variable(tf.random_normal(shape=[1, 1])) 
+```
+
+> 请注意，我们可以通过使用`dtype=tf.float32`来减少浮点数的字节来提高算法的表现（速度）。
+
+1.  在这里，我们定义线性模型。模型将采用`x2 = x1 * A + b`的形式，如果我们想要找到该行上方或下方的点，我们会在插入等式`x2 - x1 * A - b`时看到它们是高于还是低于零。我们将通过取该方程的 sigmoid 并从该方程预测 1 或 0 来实现。请记住，TensorFlow 具有内置 sigmoid 的`loss`函数，因此我们只需要在 sigmoid 函数之前定义模型的输出：
+
+```py
+my_mult = tf.matmul(x2_data, A) 
+my_add = tf.add(my_mult, b) 
+my_output = tf.sub(x1_data, my_add) 
+```
+
+1.  现在，我们使用 TensorFlow 的内置`sigmoid_cross_entropy_with_logits()`函数添加 sigmoid 交叉熵损失函数：
+
+```py
+xentropy = tf.nn.sigmoid_cross_entropy_with_logits(my_output, y_target) 
+```
+
+1.  我们还必须告诉 TensorFlow 如何通过声明优化方法来优化我们的计算图。我们希望最大限度地减少交叉熵损失。我们还会选择`0.05`作为我们的学习率：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.05) 
+train_step = my_opt.minimize(xentropy) 
+```
+
+1.  现在，我们创建一个变量初始化操作并告诉 TensorFlow 执行它：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  现在，我们将训练我们的线性模型 1000 次迭代。我们将提供我们需要的三个数据点：花瓣长度，花瓣宽度和目标变量。每 200 次迭代，我们将打印变量值：
+
+```py
+for i in range(1000): 
+    rand_index = np.random.choice(len(iris_2d), size=batch_size) 
+    rand_x = iris_2d[rand_index] 
+    rand_x1 = np.array([[x[0]] for x in rand_x]) 
+    rand_x2 = np.array([[x[1]] for x in rand_x]) 
+    rand_y = np.array([[y] for y in binary_target[rand_index]]) 
+    sess.run(train_step, feed_dict={x1_data: rand_x1, x2_data: rand_x2, y_target: rand_y}) 
+    if (i + 1) % 200 == 0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ', b = ' + str(sess.run(b)))
+
+Step #200 A = [[ 8.67285347]], b = [[-3.47147632]] 
+Step #400 A = [[ 10.25393486]], b = [[-4.62928772]] 
+Step #600 A = [[ 11.152668]], b = [[-5.4077611]] 
+Step #800 A = [[ 11.81016064]], b = [[-5.96689034]] 
+Step #1000 A = [[ 12.41202831]], b = [[-6.34769201]] 
+```
+
+1.  下一组命令提取模型变量并在绘图上绘制线条。结果绘图在它的工作原理...部分：
+
+```py
+[[slope]] = sess.run(A) 
+[[intercept]] = sess.run(b) 
+x = np.linspace(0, 3, num=50) 
+ablineValues = [] 
+for i in x: 
+    ablineValues.append(slope*i+intercept) 
+
+setosa_x = [a[1] for i,a in enumerate(iris_2d) if binary_target[i]==1] 
+setosa_y = [a[0] for i,a in enumerate(iris_2d) if binary_target[i]==1] 
+non_setosa_x = [a[1] for i,a in enumerate(iris_2d) if binary_target[i]==0] 
+non_setosa_y = [a[0] for i,a in enumerate(iris_2d) if binary_target[i]==0] 
+plt.plot(setosa_x, setosa_y, 'rx', ms=10, mew=2, label='setosa') 
+plt.plot(non_setosa_x, non_setosa_y, 'ro', label='Non-setosa') 
+plt.plot(x, ablineValues, 'b-') 
+plt.xlim([0.0, 2.7]) 
+plt.ylim([0.0, 7.1]) 
+plt.suptitle('Linear' Separator For I.setosa', fontsize=20) 
+plt.xlabel('Petal Length') 
+plt.ylabel('Petal Width') 
+plt.legend(loc='lower right') 
+plt.show() 
+```
+
+## 工作原理
+
+我们的目标是仅使用花瓣宽度和花瓣长度在山鸢尾点和其他两个物种之间拟合一条线。如果我们绘制点和结果线，我们看到我们已经实现了这个：
+
+![](img/922f9297-3d22-4eff-a854-a613cead1b35.png)
+
+图 7：花瓣宽度与花瓣长度的山鸢尾和其它鸢尾的图；实线是我们在 1000 次迭代后实现的线性分离器
+
+## 更多
+
+虽然我们实现了用一条线分隔两个类的目标，但它可能不是分离两个类的最佳模型。在第 4 章，支持向量机中，我们将讨论支持向量机，它是在特征空间中分离两个类的更好方法。
+
+## 另见
+
+*   有关 scikit-learn 鸢尾花数据集实现的信息，请参阅[此链接](http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html)的文档。
+
+# 评估模型
+
+我们已经学会了如何在 TensorFlow 中训练回归和分类算法。在此之后，我们必须能够评估模型的预测，以确定它的效果。
+
+## 准备
+
+评估模型非常重要，每个后续模型都将采用某种形式的模型评估。使用 TensorFlow，我们必须将此函数构建到计算图中，并在我们的模型进行训练时和/或完成训练后调用它。
+
+在训练期间评估模型可以让我们深入了解算法，并可以提供调试，改进或完全更改模型的提示。虽然训练期间的评估并不总是必要的，但我们将展示如何使用回归和分类进行评估。
+
+训练结束后，我们需要量化模型对数据的执行方式。理想情况下，我们有一个单独的训练和测试集（甚至是验证集），我们可以在其上评估模型。
+
+当我们想要评估模型时，我们希望在大批数据点上进行评估。如果我们已经实现了批量训练，我们可以重用我们的模型来对这样的批次进行预测。如果我们实现了随机训练，我们可能必须创建一个可以批量处理数据的单独评估器。
+
+> 如果我们在`loss`函数中包含对模型输出的转换，例如`sigmoid_cross_entropy_with_logits()`，我们必须在计算精度计算的预测时考虑到这一点。不要忘记将此包含在您对模型的评估中。
+
+我们要评估的任何模型的另一个重要方面是它是回归还是分类模型。
+
+回归模型试图预测连续数。目标不是类别，而是所需数量。为了评估这些针对实际目标的回归预测，我们需要对两者之间的距离进行综合测量。大多数情况下，有意义的损失函数将满足这些标准。此秘籍向您展示如何将之前的简单回归算法更改为打印出训练循环中的损失并在结束时评估损失。例如，我们将在本章的先前实现反向传播秘籍中重新审视并重写我们的回归示例。
+
+分类模型基于数字输入预测类别。实际目标是 1 和 0 的序列，我们必须衡量我们与预测的真实程度。分类模型的损失函数通常对解释模型的运行情况没有帮助。通常，我们需要某种分类准确率，这通常是正确预测类别的百分比。对于此示例，我们将使用本章中先前实现反向传播秘籍的分类示例。
+
+## 操作步骤
+
+首先，我们将展示如何评估简单回归模型，该模型简单地适应目标的常数乘法，即 10，如下所示：
+
+1.  首先，我们首先加载库并创建图，数据，变量和占位符。本节还有一个非常重要的部分。在我们创建数据之后，我们将数据随机分成训练和测试数据集。这很重要，因为我们总是会测试我们的模型，看看它们是否预测良好。在训练数据和测试数据上评估模型还可以让我们看到模型是否过拟合：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+sess = tf.Session() 
+x_vals = np.random.normal(1, 0.1, 100) 
+y_vals = np.repeat(10., 100) 
+x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+batch_size = 25 
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices] 
+A = tf.Variable(tf.random_normal(shape=[1,1])) 
+```
+
+1.  现在，我们声明我们的模型，`loss`函数和优化算法。我们还将初始化模型变量`A`。使用以下代码：
+
+```py
+my_output = tf.matmul(x_data, A) 
+loss = tf.reduce_mean(tf.square(my_output - y_target))
+my_opt = tf.train.GradientDescentOptimizer(0.02)
+train_step = my_opt.minimize(loss)
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  我们正如我们之前看到的那样运行训练循环，如下所示：
+
+```py
+for i in range(100): 
+    rand_index = np.random.choice(len(x_vals_train), size=batch_size) rand_x = np.transpose([x_vals_train[rand_index]]) 
+    rand_y = np.transpose([y_vals_train[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    if (i + 1) % 25 == 0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
+        print('Loss = ' + str(sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}))) 
+Step #25 A = [[ 6.39879179]] 
+Loss = 13.7903 
+Step #50 A = [[ 8.64770794]] 
+Loss = 2.53685 
+Step #75 A = [[ 9.40029907]] 
+Loss = 0.818259 
+Step #100 A = [[ 9.6809473]] 
+Loss = 1.10908 
+```
+
+1.  现在，为了评估模型，我们将在训练和测试集上输出 MSE（损失函数），如下所示：
+
+```py
+mse_test = sess.run(loss, feed_dict={x_data: np.transpose([x_vals_test]), y_target: np.transpose([y_vals_test])}) 
+mse_train = sess.run(loss, feed_dict={x_data: np.transpose([x_vals_train]), y_target: np.transpose([y_vals_train])}) 
+print('MSE' on test:' + str(np.round(mse_test, 2))) 
+print('MSE' on train:' + str(np.round(mse_train, 2))) 
+MSE on test:1.35 
+MSE on train:0.88 
+```
+
+对于分类示例，我们将做一些非常相似的事情。这一次，我们需要创建我们自己的精确度函数，我们可以在最后调用。其中一个原因是我们的损失函数内置了 sigmoid，我们需要单独调用 sigmoid 并测试它以查看我们的类是否正确：
+
+1.  在同一个脚本中，我们可以重新加载图并创建数据，变量和占位符。请记住，我们还需要将数据和目标分成训练和测试集。使用以下代码：
+
+```py
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+sess = tf.Session() 
+batch_size = 25 
+x_vals = np.concatenate((np.random.normal(-1, 1, 50), np.random.normal(2, 1, 50))) 
+y_vals = np.concatenate((np.repeat(0., 50), np.repeat(1., 50))) 
+x_data = tf.placeholder(shape=[1, None], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[1, None], dtype=tf.float32) 
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices] 
+A = tf.Variable(tf.random_normal(mean=10, shape=[1])) 
+```
+
+1.  我们现在将模型和损失函数添加到图中，初始化变量，并创建优化过程，如下所示：
+
+```py
+my_output = tf.add(x_data, A) 
+init = tf.initialize_all_variables() 
+sess.run(init) 
+xentropy = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(my_output, y_target)) 
+my_opt = tf.train.GradientDescentOptimizer(0.05) 
+train_step = my_opt.minimize(xentropy) 
+```
+
+1.  现在，我们运行我们的训练循环，如下所示：
+
+```py
+for i in range(1800): 
+    rand_index = np.random.choice(len(x_vals_train), size=batch_size) 
+    rand_x = [x_vals_train[rand_index]] 
+    rand_y = [y_vals_train[rand_index]] 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    if (i+1)%200==0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A))) 
+        print('Loss = ' + str(sess.run(xentropy, feed_dict={x_data: rand_x, y_target: rand_y}))) 
+Step #200 A = [ 6.64970636] 
+Loss = 3.39434 
+Step #400 A = [ 2.2884655] 
+Loss = 0.456173 
+Step #600 A = [ 0.29109824] 
+Loss = 0.312162 
+Step #800 A = [-0.20045301] 
+Loss = 0.241349 
+Step #1000 A = [-0.33634067] 
+Loss = 0.376786 
+Step #1200 A = [-0.36866501] 
+Loss = 0.271654 
+Step #1400 A = [-0.3727718] 
+Loss = 0.294866 
+Step #1600 A = [-0.39153299] 
+Loss = 0.202275 
+Step #1800 A = [-0.36630616] 
+Loss = 0.358463 
+```
+
+1.  为了评估模型，我们将创建自己的预测操作。我们将预测操作包装在挤压函数中，因为我们希望使预测和目标形成相同的形状。然后，我们用相等的函数测试相等性。在那之后，我们留下了一个真值和假值的张量，我们将其转换为`float32`并取平均值。这将产生准确率值。我们将为训练集和测试集评估此函数，如下所示：
+
+```py
+y_prediction = tf.squeeze(tf.round(tf.nn.sigmoid(tf.add(x_data, A)))) 
+correct_prediction = tf.equal(y_prediction, y_target) 
+accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) 
+acc_value_test = sess.run(accuracy, feed_dict={x_data: [x_vals_test], y_target: [y_vals_test]}) 
+acc_value_train = sess.run(accuracy, feed_dict={x_data: [x_vals_train], y_target: [y_vals_train]}) 
+print('Accuracy' on train set: ' + str(acc_value_train)) 
+print('Accuracy' on test set: ' + str(acc_value_test)) 
+Accuracy on train set: 0.925 
+Accuracy on test set: 0.95 
+```
+
+1.  通常，查看模型结果（准确率，MSE 等）将有助于我们评估模型。我们可以在这里轻松绘制模型和数据的绘图，因为它是一维的。以下是使用`matplotlib`使用两个单独的直方图可视化模型和数据的方法：
+
+```py
+A_result = sess.run(A) 
+bins = np.linspace(-5, 5, 50) 
+plt.hist(x_vals[0:50], bins, alpha=0.5, label='N(-1,1)', color='white') 
+plt.hist(x_vals[50:100], bins[0:50], alpha=0.5, label='N(2,1)', color='red') 
+plt.plot((A_result, A_result), (0, 8), 'k--', linewidth=3, label='A = '+ str(np.round(A_result, 2))) 
+plt.legend(loc='upper right') 
+plt.title('Binary Classifier, Accuracy=' + str(np.round(acc_value, 2))) 
+plt.show() 
+```
+
+## 工作原理
+
+这导致绘图显示两个单独数据类的直方图中两个类的预测最佳分隔符。
+
+![](img/0f077787-e4de-475b-a0c2-960c1e4a73ad.png)
+
+图 8：数据和最终模型的可视化。两个正常值以 -1 和 2 为中心，使理论最佳分割为 0.5。在这里，模型发现最接近该数字的最佳分割。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch03.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch03.md
new file mode 100644
index 00000000..b0483e25
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch03.md
@@ -0,0 +1,870 @@
+# 三、线性回归
+
+在本章中，我们将介绍涉及线性回归的秘籍。我们从用矩阵求解线性回归的数学公式开始，然后继续使用 TensorFlow 范例实现标准线性回归和变量。我们将涵盖以下领域：
+
+*   使用矩阵逆方法
+*   实现分解方法
+*   学习 TensorFlow 回归方式
+*   理解线性回归中的损失函数
+*   实现戴明回归
+*   实现套索和岭回归
+*   实现弹性网络回归
+*   实现逻辑回归
+
+# 介绍
+
+线性回归可能是统计学，机器学习和一般科学中最重要的算法之一。它是最广泛使用的算法之一，了解如何实现它及其各种风格非常重要。线性回归优于许多其他算法的优点之一是它是非常可解释的。我们最终得到一个数字，用于直接表示该特征如何影响目标或因变量的每个特征。在本章中，我们将介绍线性回归是如何经典实现的，然后继续讨论如何在 TensorFlow 范例中最好地实现它。
+
+> 请记住，所有代码都可以在 [Github](https://github.com/nfmcclure/tensorflow_cookbook) 以及 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)获得。
+
+# 使用矩阵逆方法
+
+在这个秘籍中，我们将使用 TensorFlow 用矩阵逆方法求解二维线性回归。
+
+## 准备
+
+线性回归可以表示为一组矩阵方程，比如`Ax = b`。在这里，我们感兴趣的是求解矩阵`x`中的系数。如果我们的观察矩阵（设计矩阵）`A`不是正方形，我们必须要小心。解决`x`的解决方案可以表示为：
+
+![](img/cef9855e-d719-434e-ac00-fa8ab4b351db.png)
+
+为了证明确实如此，我们将生成二维数据，在 TensorFlow 中解决它，并绘制结果。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  首先，我们加载必要的库，初始化图并创建数据。请参阅以下代码：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+sess = tf.Session() 
+x_vals = np.linspace(0, 10, 100) 
+y_vals = x_vals + np.random.normal(0, 1, 100) 
+```
+
+1.  接下来，我们创建要在逆方法中使用的矩阵。我们首先创建`A`矩阵，它将是`x`数据列和全 1 的列。然后，我们从`y`数据创建`b`矩阵。使用以下代码：
+
+```py
+x_vals_column = np.transpose(np.matrix(x_vals)) 
+ones_column = np.transpose(np.matrix(np.repeat(1, 100))) 
+A = np.column_stack((x_vals_column, ones_column)) 
+b = np.transpose(np.matrix(y_vals)) 
+```
+
+1.  然后我们将`A`和`b`矩阵转换为张量，如下所示：
+
+```py
+A_tensor = tf.constant(A) 
+b_tensor = tf.constant(b)
+```
+
+1.  现在我们已经设置了矩阵，我们可以使用 TensorFlow 通过矩阵逆方法解决这个问题，如下所示：
+
+```py
+tA_A = tf.matmul(tf.transpose(A_tensor), A_tensor) 
+tA_A_inv = tf.matrix_inverse(tA_A) 
+product = tf.matmul(tA_A_inv, tf.transpose(A_tensor)) 
+solution = tf.matmul(product, b_tensor) 
+solution_eval = sess.run(solution) 
+```
+
+1.  我们现在使用以下代码从解，斜率和 y 截距中提取系数：
+
+```py
+slope = solution_eval[0][0] 
+y_intercept = solution_eval[1][0] 
+print('slope: ' + str(slope)) 
+print('y_intercept: ' + str(y_intercept)) 
+slope: 0.955707151739 
+y_intercept: 0.174366829314 
+best_fit = [] 
+for i in x_vals: 
+    best_fit.append(slope*i+y_intercept) 
+
+plt.plot(x_vals, y_vals, 'o', label='Data') 
+plt.plot(x_vals, best_fit, 'r-', label='Best fit line', linewidth=3) 
+plt.legend(loc='upper left') 
+plt.show() 
+```
+
+我们得到前面代码的图，如下所示：
+
+![](img/eaa2fd52-cdc8-42d9-a43c-c18a9dd445a5.png)
+
+图 1：数据点和通过矩阵逆方法获得的最佳拟合线
+
+## 工作原理
+
+与之前的秘籍或本书中的大多数秘籍不同，此处的解决方案仅通过矩阵运算找到。我们将使用的大多数 TensorFlow 算法都是通过训练循环实现的，并利用自动反向传播来更新模型变量。在这里，我们通过实现将模型拟合到数据的直接解决方案来说明 TensorFlow 的多功能性。
+
+> 我们在这里使用了一个二维数据示例来显示与数据拟合的图。值得注意的是，用于求解系数的公式
+> 
+> ![](img/32e2728d-bb84-491b-a4e1-e28108f5fff1.png)
+> 
+> 将根据需要扩展到数据中的许多特征（除非存在任何共线性问题）。
+
+# 实现分解方法
+
+对于这个秘籍，我们将实现一个用于线性回归的矩阵分解方法。具体来说，我们将使用 Cholesky 分解，TensorFlow 中存在相关函数。
+
+## 准备
+
+在大多数情况下，实现前一个秘籍中的逆方法在数值上效率低，尤其是当矩阵变得非常大时。另一种方法是分解`A`矩阵并对分解执行矩阵运算。一种方法是在 TensorFlow 中使用内置的 Cholesky 分解方法。
+
+人们对将矩阵分解为更多矩阵如此感兴趣的一个原因是，所得到的矩阵将具有允许我们有效使用某些方法的保证属性。 Cholesky 分解将矩阵分解为下三角矩阵和上三角矩阵，比如`L`和`L'`，使得这些矩阵是彼此的转置。有关此分解属性的更多信息，有许多可用资源来描述它以及如何到达它。在这里，我们将通过将其写为`LL'x = b`来解决系统`Ax = b`。我们首先解决`Ly = b`的`y`，然后求解`L'x = y`得到我们的系数矩阵`x`。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们将以与上一个秘籍完全相同的方式设置系统。我们将导入库，初始化图并创建数据。然后，我们将以之前的方式获得我们的`A`矩阵和`b`矩阵：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+sess = tf.Session() 
+x_vals = np.linspace(0, 10, 100) 
+y_vals = x_vals + np.random.normal(0, 1, 100) 
+x_vals_column = np.transpose(np.matrix(x_vals)) 
+ones_column = np.transpose(np.matrix(np.repeat(1, 100))) 
+A = np.column_stack((x_vals_column, ones_column)) 
+b = np.transpose(np.matrix(y_vals)) 
+A_tensor = tf.constant(A) 
+b_tensor = tf.constant(b) 
+```
+
+1.  接下来，我们找到方阵的 Cholesky 分解，`A^T A`：
+
+```py
+tA_A = tf.matmul(tf.transpose(A_tensor), A_tensor) 
+L = tf.cholesky(tA_A) 
+tA_b = tf.matmul(tf.transpose(A_tensor), b) 
+sol1 = tf.matrix_solve(L, tA_b) 
+sol2 = tf.matrix_solve(tf.transpose(L), sol1) 
+```
+
+> 请注意，TensorFlow 函数`cholesky()`仅返回分解的下对角线部分。这很好，因为上对角矩阵只是下对角矩阵的转置。
+
+1.  现在我们有了解决方案，我们提取系数：
+
+```py
+solution_eval = sess.run(sol2) 
+slope = solution_eval[0][0] 
+y_intercept = solution_eval[1][0] 
+print('slope: ' + str(slope)) 
+print('y_intercept: ' + str(y_intercept)) 
+slope: 0.956117676145 
+y_intercept: 0.136575513864 
+best_fit = [] 
+for i in x_vals: 
+    best_fit.append(slope*i+y_intercept) 
+plt.plot(x_vals, y_vals, 'o', label='Data') 
+plt.plot(x_vals, best_fit, 'r-', label='Best fit line', linewidth=3) 
+plt.legend(loc='upper left') 
+plt.show() 
+```
+
+绘图如下：
+
+![](img/57a190f8-110c-4cd2-902f-3668dc603f65.png)
+
+图 2：通过 Cholesky 分解获得的数据点和最佳拟合线
+
+## 工作原理
+
+如您所见，我们得出了与之前秘籍非常相似的答案。请记住，这种分解矩阵然后对碎片执行操作的方式有时会更加高效和数值稳定，尤其是在考虑大型数据矩阵时。
+
+# 学习 TensorFlow 线性回归方法
+
+虽然使用矩阵和分解方法非常强大，但 TensorFlow 还有另一种解决斜率和截距的方法。 TensorFlow 可以迭代地执行此操作，逐步学习最小化损失的线性回归参数。
+
+## 准备
+
+在这个秘籍中，我们将遍历批量数据点并让 TensorFlow 更新斜率和`y`截距。我们将使用内置于 scikit-learn 库中的鸢尾花数据集，而不是生成的数据。具体来说，我们将通过数据点找到最佳线，其中`x`值是花瓣宽度，`y`值是萼片长度。我们选择了这两个，因为它们之间似乎存在线性关系，我们将在最后的绘图中看到。我们还将在下一节中详细讨论不同损失函数的影响，但对于这个秘籍，我们将使用 L2 损失函数。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们首先加载必要的库，创建图并加载数据：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+sess = tf.Session() 
+iris = datasets.load_iris() 
+x_vals = np.array([x[3] for x in iris.data]) 
+y_vals = np.array([y[0] for y in iris.data])
+```
+
+1.  然后我们声明我们的学习率，批量大小，占位符和模型变量：
+
+```py
+learning_rate = 0.05 
+batch_size = 25 
+x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[1,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+```
+
+1.  接下来，我们编写线性模型的公式`y = Ax + b`：
+
+```py
+model_output = tf.add(tf.matmul(x_data, A), b)
+```
+
+1.  然后，我们声明我们的 L2 损失函数（包括批量的平均值），初始化变量，并声明我们的优化器。请注意，我们选择`0.05`作为我们的学习率：
+
+```py
+loss = tf.reduce_mean(tf.square(y_target - model_output)) 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+my_opt = tf.train.GradientDescentOptimizer(learning_rate) 
+train_step = my_opt.minimize(loss)
+```
+
+1.  我们现在可以在随机选择的批次上循环并训练模型。我们将运行 100 个循环并每 25 次迭代打印出变量和损失值。请注意，在这里，我们还保存了每次迭代的损失，以便我们以后可以查看它们：
+
+```py
+loss_vec = [] 
+for i in range(100): 
+    rand_index = np.random.choice(len(x_vals), size=batch_size) 
+    rand_x = np.transpose([x_vals[rand_index]]) 
+    rand_y = np.transpose([y_vals[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+    if (i+1)%25==0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ' b = ' + str(sess.run(b))) 
+        print('Loss = ' + str(temp_loss)) 
+
+Step #25 A = [[ 2.17270374]] b = [[ 2.85338426]] 
+Loss = 1.08116 
+Step #50 A = [[ 1.70683455]] b = [[ 3.59916329]] 
+Loss = 0.796941 
+Step #75 A = [[ 1.32762754]] b = [[ 4.08189011]] 
+Loss = 0.466912 
+Step #100 A = [[ 1.15968263]] b = [[ 4.38497639]] 
+Loss = 0.281003
+```
+
+1.  接下来，我们将提取我们找到的系数并创建一个最合适的线以放入图中：
+
+```py
+[slope] = sess.run(A) 
+[y_intercept] = sess.run(b) 
+best_fit = [] 
+for i in x_vals: 
+    best_fit.append(slope*i+y_intercept)
+```
+
+1.  在这里，我们将创建两个图。第一个是覆盖拟合线的数据。第二个是 100 次迭代中的 L2 损失函数。这是生成两个图的代码。
+
+```py
+plt.plot(x_vals, y_vals, 'o', label='Data Points') 
+plt.plot(x_vals, best_fit, 'r-', label='Best fit line', linewidth=3) 
+plt.legend(loc='upper left') 
+plt.title('Sepal Length vs Petal Width') 
+plt.xlabel('Petal Width') 
+plt.ylabel('Sepal Length') 
+plt.show() 
+plt.plot(loss_vec, 'k-') 
+plt.title('L2 Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('L2 Loss') 
+plt.show() 
+```
+
+此代码生成以下拟合数据和损失图。
+
+![](img/e3f807db-f6b3-4808-8b2e-990ed0c444b8.png)
+
+图 3：来自鸢尾数据集的数据点（萼片长度与花瓣宽度）重叠在 TensorFlow 中找到的最佳线条拟合。
+
+![](img/3d3d7762-7528-4101-bd3b-8175f11e0c83.png)
+
+图 4：用我们的算法拟合数据的 L2 损失；注意损失函数中的抖动，可以通过较大的批量大小减小抖动，或者通过较小的批量大小来增加。
+
+Here is a good place to note how to see whether the model is overfitting or underfitting the data. If our data is broken into test and training sets, and the accuracy is greater on the training set and lower on the test set, then we are overfitting the data. If the accuracy is still increasing on both test and training sets, then the model is underfitting and we should continue training.
+
+## 工作原理
+
+找到的最佳线不保证是最合适的线。最佳拟合线的收敛取决于迭代次数，批量大小，学习率和损失函数。随着时间的推移观察损失函数总是很好的做法，因为它可以帮助您解决问题或超参数变化。
+
+# 理解线性回归中的损失函数
+
+了解损失函数在算法收敛中的作用非常重要。在这里，我们将说明 L1 和 L2 损失函数如何影响线性回归中的收敛。
+
+## 准备
+
+我们将使用与先前秘籍中相同的鸢尾数据集，但我们将更改损失函数和学习率以查看收敛如何变化。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  程序的开始与上一个秘籍相同，直到我们达到我们的损失函数。我们加载必要的库，启动会话，加载数据，创建占位符，并定义我们的变量和模型。需要注意的一点是，我们正在提取学习率和模型迭代。我们这样做是因为我们希望显示快速更改这些参数的效果。使用以下代码：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+sess = tf.Session() 
+iris = datasets.load_iris() 
+x_vals = np.array([x[3] for x in iris.data]) 
+y_vals = np.array([y[0] for y in iris.data]) 
+batch_size = 25 
+learning_rate = 0.1 # Will not converge with learning rate at 0.4 
+iterations = 50 
+x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[1,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+model_output = tf.add(tf.matmul(x_data, A), b)
+```
+
+1.  我们的损失函数将变为 L1 损失（`loss_l1`），如下所示：
+
+```py
+loss_l1 = tf.reduce_mean(tf.abs(y_target - model_output)) 
+```
+
+1.  现在，我们通过初始化变量，声明我们的优化器以及通过训练循环迭代数据来恢复。请注意，我们也在节省每一代的损失来衡量收敛。使用以下代码：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+my_opt_l1 = tf.train.GradientDescentOptimizer(learning_rate) 
+train_step_l1 = my_opt_l1.minimize(loss_l1) 
+loss_vec_l1 = [] 
+for i in range(iterations): 
+    rand_index = np.random.choice(len(x_vals), size=batch_size) 
+    rand_x = np.transpose([x_vals[rand_index]]) 
+    rand_y = np.transpose([y_vals[rand_index]]) 
+    sess.run(train_step_l1, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    temp_loss_l1 = sess.run(loss_l1, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec_l1.append(temp_loss_l1) 
+    if (i+1)%25==0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ' b = ' + str(sess.run(b))) 
+
+plt.plot(loss_vec_l1, 'k-', label='L1 Loss') 
+plt.plot(loss_vec_l2, 'r--', label='L2 Loss') 
+plt.title('L1 and L2 Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('L1 Loss') 
+plt.legend(loc='upper right') 
+plt.show() 
+```
+
+## 工作原理
+
+在选择损失函数时，我们还必须选择适合我们问题的相应学习率。在这里，我们将说明两种情况，一种是首选 L2，另一种是首选 L1。
+
+如果我们的学习率很小，我们的收敛会花费更多时间。但是如果我们的学习速度太大，我们的算法就会遇到问题从不收敛。下面是当学习率为 0.05 时，鸢尾线性回归问题的 L1 和 L2 损失的损失函数图：
+
+![](img/bf44e506-bc88-41c2-b566-ddf2fe68bbd6.png)
+
+图 5：鸢尾线性回归问题的学习率为 0.05 的 L1 和 L2 损失
+
+学习率为 0.05 时，似乎 L2 损失是首选，因为它会收敛到较低的损失。下面是我们将学习率提高到 0.4 时的损失函数图：
+
+![](img/729d53ef-d7e2-4068-8ae7-2fc6e91c572b.png)
+
+图 6：鸢尾线性回归问题的 L1 和 L2 损失，学习率为 0.4;请注意，由于 y 轴的高比例，L1 损失不可见
+
+在这里，我们可以看到高学习率可以在 L2 范数中超调，而 L1 范数收敛。
+
+## 更多
+
+为了理解正在发生的事情，我们应该看看大学习率和小学习率如何影响 L1 范数和 L2 范数。为了使这个可视化，我们查看两个规范的学习步骤的一维表示，如下所示：
+
+![](img/f15420de-a851-4e7f-8b87-434e1eba5e2d.png)
+
+图 7：学习率越来越高的 L1 和 L2 范数会发生什么
+
+# 实现戴明回归
+
+在这个秘籍中，我们将实现戴明回归，这意味着我们需要一种不同的方法来测量模型线和数据点之间的距离。
+
+> 戴明回归有几个名字。它也称为总回归，正交距离回归（ODR）和最短距离回归。
+
+## 准备
+
+如果最小二乘线性回归最小化到线的垂直距离，则戴明回归最小化到线的总距离。这种类型的回归可以最小化`y`和`x`值的误差。
+
+请参阅下图进行比较：
+
+![](img/7b0c20a1-43c3-4a07-9785-2f7a5706ad6b.png)
+
+图 8：常规线性回归和戴明回归之间的差异；左边的线性回归最小化了到线的垂直距离，右边的变形回归最小化了到线的总距离
+
+要实现戴明回归，我们必须修改损失函数。常规线性回归中的损失函数使垂直距离最小化。在这里，我们希望最小化总距离。给定线的斜率和截距，到点的垂直距离是已知的几何公式​​。我们只需要替换此公式并告诉 TensorFlow 将其最小化。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  代码与之前的秘籍非常相似，除非我们进入损失函数。我们首先加载库；开始一个会议；加载数据；声明批量大小；并创建占位符，变量和模型输出，如下所示：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+sess = tf.Session() 
+iris = datasets.load_iris() 
+x_vals = np.array([x[3] for x in iris.data]) 
+y_vals = np.array([y[0] for y in iris.data]) 
+batch_size = 50 
+x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[1,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+model_output = tf.add(tf.matmul(x_data, A), b)
+```
+
+1.  损失函数是由分子和分母组成的几何公式​​。为清楚起见，我们将分别编写这些内容。给定一条线`y = mx + b`和一个点`(x0, y0)`，两者之间的垂直距离可以写成如下：
+
+![](img/9537f564-ab2b-4b6a-936e-2432e21e2859.png)
+
+```py
+deming_numerator = tf.abs(tf.sub(y_target, tf.add(tf.matmul(x_data, A), b))) 
+deming_denominator = tf.sqrt(tf.add(tf.square(A),1)) 
+loss = tf.reduce_mean(tf.truediv(deming_numerator, deming_denominator)) 
+```
+
+1.  我们现在初始化变量，声明我们的优化器，并循环遍历训练集以获得我们的参数，如下所示：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+my_opt = tf.train.GradientDescentOptimizer(0.1) 
+train_step = my_opt.minimize(loss) 
+loss_vec = [] 
+for i in range(250): 
+    rand_index = np.random.choice(len(x_vals), size=batch_size) 
+    rand_x = np.transpose([x_vals[rand_index]]) 
+    rand_y = np.transpose([y_vals[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+    if (i+1)%50==0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ' b = ' + str(sess.run(b))) 
+        print('Loss = ' + str(temp_loss)) 
+```
+
+1.  我们可以使用以下代码绘制输出：
+
+```py
+[slope] = sess.run(A) 
+[y_intercept] = sess.run(b) 
+best_fit = [] 
+for i in x_vals: 
+    best_fit.append(slope*i+y_intercept)
+
+plt.plot(x_vals, y_vals, 'o', label='Data Points') 
+plt.plot(x_vals, best_fit, 'r-', label='Best fit line', linewidth=3) 
+plt.legend(loc='upper left') 
+plt.title('Sepal Length vs petal Width') 
+plt.xlabel('petal Width') 
+plt.ylabel('Sepal Length') 
+plt.show() 
+```
+
+我们得到上面代码的以下图：
+
+![](img/e53cec07-65ac-4af7-8a26-f9d5a1c27642.png)
+
+图 9：对鸢尾数据集进行戴明回归的解决方案
+
+## 工作原理
+
+戴明回归的方法几乎与常规线性回归相同。关键的区别在于我们如何衡量预测和数据点之间的损失。而不是垂直损失，我们对`y`和`x`值有垂直损失（或总损失）。
+
+> 当我们假设`x`和`y`值中的误差相似时，使用这种类型的回归。根据我们的假设，我们还可以根据误差的差异在距离计算中缩放`x`和`y`轴。
+
+# 实现套索和岭回归
+
+还有一些方法可以限制系数对回归输出的影响。这些方法称为正则化方法，两种最常见的正则化方法是套索和岭回归。我们将介绍如何在本文中实现这两个方面。
+
+## 准备
+
+套索和岭回归与常规线性回归非常相似，除了我们添加正则化项以限制公式中的斜率（或部分斜率）。这可能有多种原因，但一个常见的原因是我们希望限制对因变量产生影响的特征。这可以通过在损失函数中添加一个取决于我们的斜率值`A`的项来实现。
+
+对于套索回归，如果斜率`A`超过某个值，我们必须添加一个能大大增加损失函数的项。我们可以使用 TensorFlow 的逻辑运算，但它们没有与之关联的梯度。相反，我们将使用称为连续重阶函数的阶梯函数的连续近似，该函数按比例放大到我们选择的正则化截止值。我们将展示如何在此秘籍中进行套索回归。
+
+对于岭回归，我们只是在 L2 范数中添加一个项，这是斜率系数的缩放 L2 范数。这种修改很简单，并在本秘籍末尾的“更多”部分中显示。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们将再次使用鸢尾花数据集并以与以前相同的方式设置我们的脚本。我们先加载库；开始一个会议；加载数据；声明批量大小；并创建占位符，变量和模型输出，如下所示：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+sess = tf.Session() 
+iris = datasets.load_iris() 
+x_vals = np.array([x[3] for x in iris.data]) 
+y_vals = np.array([y[0] for y in iris.data]) 
+batch_size = 50 
+learning_rate = 0.001 
+x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[1,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+model_output = tf.add(tf.matmul(x_data, A), b)
+```
+
+1.  我们添加了损失函数，它是一个改进的连续 Heaviside 阶梯函数。我们还为`0.9`设定了套索回归的截止值。这意味着我们希望将斜率系数限制为小于`0.9`。使用以下代码：
+
+```py
+lasso_param = tf.constant(0.9) 
+heavyside_step = tf.truediv(1., tf.add(1., tf.exp(tf.multiply(-100., tf.subtract(A, lasso_param))))) 
+regularization_param = tf.mul(heavyside_step, 99.) 
+loss = tf.add(tf.reduce_mean(tf.square(y_target - model_output)), regularization_param) 
+```
+
+1.  我们现在初始化变量并声明我们的优化器，如下所示：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+my_opt = tf.train.GradientDescentOptimizer(learning_rate) 
+train_step = my_opt.minimize(loss) 
+```
+
+1.  我们将训练循环延长了一段时间，因为它可能需要一段时间才能收敛。我们可以看到斜率系数小于`0.9`。使用以下代码：
+
+```py
+loss_vec = [] 
+for i in range(1500): 
+    rand_index = np.random.choice(len(x_vals), size=batch_size) 
+    rand_x = np.transpose([x_vals[rand_index]]) 
+    rand_y = np.transpose([y_vals[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss[0]) 
+    if (i+1)%300==0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ' b = ' + str(sess.run(b))) 
+        print('Loss = ' + str(temp_loss)) 
+
+Step #300 A = [[ 0.82512331]] b = [[ 2.30319238]] 
+Loss = [[ 6.84168959]] 
+Step #600 A = [[ 0.8200165]] b = [[ 3.45292258]] 
+Loss = [[ 2.02759886]] 
+Step #900 A = [[ 0.81428504]] b = [[ 4.08901262]] 
+Loss = [[ 0.49081498]] 
+Step #1200 A = [[ 0.80919558]] b = [[ 4.43668795]] 
+Loss = [[ 0.40478843]] 
+Step #1500 A = [[ 0.80433637]] b = [[ 4.6360755]] 
+Loss = [[ 0.23839757]] 
+```
+
+## 工作原理
+
+我们通过在线性回归的损失函数中添加连续的 Heaviside 阶跃函数来实现套索回归。由于阶梯函数的陡峭性，我们必须小心步长。步长太大而且不会收敛。对于岭回归，请参阅下一节中所需的更改。
+
+## 更多
+
+对于岭回归，我们将损失`ss`函数更改为如下：
+
+```py
+ridge_param = tf.constant(1.) 
+ridge_loss = tf.reduce_mean(tf.square(A)) 
+loss = tf.expand_dims(tf.add(tf.reduce_mean(tf.square(y_target - model_output)), tf.multiply(ridge_param, ridge_loss)), 0) 
+```
+
+# 实现弹性网络回归
+
+弹性网络回归是一种回归类型，通过将 L1 和 L2 正则化项添加到损失函数，将套索回归与岭回归相结合。
+
+## 准备
+
+在前两个秘籍之后实现弹性网络回归应该是直截了当的，因此我们将在鸢尾数据集上的多元线性回归中实现这一点，而不是像以前那样坚持二维数据。我们将使用花瓣长度，花瓣宽度和萼片宽度来预测萼片长度。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  首先，我们加载必要的库并初始化图，如下所示：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+sess = tf.Session()
+```
+
+1.  现在，我们加载数据。这次，`x`数据的每个元素将是三个值的列表而不是一个。使用以下代码：
+
+```py
+iris = datasets.load_iris() 
+x_vals = np.array([[x[1], x[2], x[3]] for x in iris.data]) 
+y_vals = np.array([y[0] for y in iris.data]) 
+```
+
+1.  接下来，我们声明批量大小，占位符，变量和模型输出。这里唯一的区别是我们更改`x`数据占位符的大小规范，取三个值而不是一个，如下所示：
+
+```py
+batch_size = 50 
+learning_rate = 0.001 
+x_data = tf.placeholder(shape=[None, 3], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[3,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+model_output = tf.add(tf.matmul(x_data, A), b) 
+```
+
+1.  对于弹性网络，损失函数具有部分斜率的 L1 和 L2 范数。我们创建这些项，然后将它们添加到损失函数中，如下所示：
+
+```py
+elastic_param1 = tf.constant(1.) 
+elastic_param2 = tf.constant(1.) 
+l1_a_loss = tf.reduce_mean(tf.abs(A)) 
+l2_a_loss = tf.reduce_mean(tf.square(A)) 
+e1_term = tf.multiply(elastic_param1, l1_a_loss) 
+e2_term = tf.multiply(elastic_param2, l2_a_loss) 
+loss = tf.expand_dims(tf.add(tf.add(tf.reduce_mean(tf.square(y_target - model_output)), e1_term), e2_term), 0)
+```
+
+1.  现在，我们可以初始化变量，声明我们的优化函数，运行训练循环，并拟合我们的系数，如下所示：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+my_opt = tf.train.GradientDescentOptimizer(learning_rate) 
+train_step = my_opt.minimize(loss) 
+loss_vec = [] 
+for i in range(1000): 
+    rand_index = np.random.choice(len(x_vals), size=batch_size) 
+    rand_x = x_vals[rand_index] 
+    rand_y = np.transpose([y_vals[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss[0]) 
+    if (i+1)%250==0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ' b = ' + str(sess.run(b))) 
+        print('Loss = ' + str(temp_loss)) 
+```
+
+1.  这是代码的输出：
+
+```py
+Step #250 A = [[ 0.42095602] 
+ [ 0.1055888 ] 
+ [ 1.77064979]] b = [[ 1.76164341]] 
+Loss = [ 2.87764359] 
+Step #500 A = [[ 0.62762028] 
+ [ 0.06065864] 
+ [ 1.36294949]] b = [[ 1.87629771]] 
+Loss = [ 1.8032167] 
+Step #750 A = [[ 0.67953539] 
+ [ 0.102514 ] 
+ [ 1.06914485]] b = [[ 1.95604002]] 
+Loss = [ 1.33256555] 
+Step #1000 A = [[ 0.6777274 ] 
+ [ 0.16535147] 
+ [ 0.8403284 ]] b = [[ 2.02246833]] 
+Loss = [ 1.21458709]
+```
+
+1.  现在，我们可以观察训练迭代的损失，以确保算法收敛，如下所示：
+
+```py
+plt.plot(loss_vec, 'k-') 
+plt.title('Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.show() 
+```
+
+我们得到上面代码的以下图：
+
+![](img/12a7c632-d523-401b-b9bd-769b8b765f67.png)
+
+图 10：在 1,000 次训练迭代中绘制的弹性净回归损失
+
+## 工作原理
+
+这里实现弹性网络回归以及多元线性回归。我们可以看到，利用损失函数中的这些正则化项，收敛速度比先前的秘籍慢。正则化就像在损失函数中添加适当的项一样简单。
+
+# 实现逻辑回归
+
+对于这个秘籍，我们将实现逻辑回归来预测样本人群中低出生体重的概率。
+
+## 准备
+
+逻辑回归是将线性回归转换为二元分类的一种方法。这是通过将线性输出转换为 Sigmoid 函数来实现的，该函数将输出在 0 和 1 之间进行缩放。目标是零或一，表示数据点是在一个类还是另一个类中。由于我们预测 0 和 1 之间的数字，如果预测高于指定的截止值，则预测被分类为类值 1，否则分类为 0。出于此示例的目的，我们将指定截断为 0.5，这将使分类像舍入输出一样简单。
+
+我们将用于此示例的数据将是从作者的 GitHub 仓库获得的[低出生体重数据](https://github.com/nfmcclure/tensorflow_cookbook/raw/master/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat)。我们将从其他几个因素预测低出生体重。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们首先加载库，包括`request`库，因为我们将通过超链接访问低出生体重数据。我们还发起了一个会议：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+import requests 
+from sklearn import datasets 
+from sklearn.preprocessing import normalize 
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+sess = tf.Session()
+```
+
+1.  接下来，我们通过请求模块加载数据并指定我们要使用的特征。我们必须具体，因为一个特征是实际出生体重，我们不想用它来预测出生体重是大于还是小于特定量。我们也不想将 ID 列用作预测器：
+
+```py
+birth_weight_file = 'birth_weight.csv'
+# Download data and create data file if file does not exist in current directory
+if not os.path.exists(birth_weight_file):
+    birthdata_url = 'https://github.com/nfmcclure/tensorflow_cookbook/raw/master/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat'
+    birth_file = requests.get(birthdata_url)
+    birth_data = birth_file.text.split('\r\n')
+    birth_header = birth_data[0].split('\t')
+    birth_data = [[float(x) for x in y.split('\t') if len(x)>=1] for y in birth_data[1:] if len(y)>=1]
+    with open(birth_weight_file, 'w', newline='') as f:
+        writer = csv.writer(f)
+        writer.writerow(birth_header)
+        writer.writerows(birth_data)
+
+# Read birth weight data into memory
+birth_data = []
+with open(birth_weight_file, newline='') as csvfile:
+    csv_reader = csv.reader(csvfile)
+    birth_header = next(csv_reader)
+    for row in csv_reader:
+        birth_data.append(row)
+    birth_data = [[float(x) for x in row] for row in birth_data]
+# Pull out target variable
+y_vals = np.array([x[0] for x in birth_data])
+# Pull out predictor variables (not id, not target, and not birthweight)
+x_vals = np.array([x[1:8] for x in birth_data])
+```
+
+1.  首先，我们将数据集拆分为测试和训练集：
+
+```py
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices]
+```
+
+1.  当特征在 0 和 1 之间缩放（最小 - 最大缩放）时，逻辑回归收敛效果更好。那么，接下来我们将扩展每个特征：
+
+```py
+def normalize_cols(m, col_min=np.array([None]), col_max=np.array([None])):
+    if not col_min[0]:
+        col_min = m.min(axis=0)
+    if not col_max[0]:
+        col_max = m.max(axis=0)
+    return (m-col_min) / (col_max - col_min), col_min, col_max
+
+x_vals_train, train_min, train_max = np.nan_to_num(normalize_cols(x_vals_train))
+x_vals_test = np.nan_to_num(normalize_cols(x_vals_test, train_min, train_max))
+```
+
+> 请注意，在缩放数据集之前，我们将数据集拆分为训练和测试。这是一个重要的区别。我们希望确保测试集完全不影响训练集。如果我们在分裂之前缩放整个集合，那么我们不能保证它们不会相互影响。我们确保从训练组中保存缩放以缩放测试集。
+
+1.  接下来，我们声明批量大小，占位符，变量和逻辑模型。我们不将输出包装在 sigmoid 中，因为该操作内置于损失函数中。另请注意，每次观察都有七个输入特征，因此`x_data`占位符的大小为`[None, 7]`。
+
+```py
+batch_size = 25 
+x_data = tf.placeholder(shape=[None, 7], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+A = tf.Variable(tf.random_normal(shape=[7,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+model_output = tf.add(tf.matmul(x_data, A), b)
+```
+
+1.  现在，我们声明我们的损失函数，它具有 sigmoid 函数，初始化我们的变量，并声明我们的优化函数：
+
+```py
+loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(model_output, y_target)) 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+my_opt = tf.train.GradientDescentOptimizer(0.01) 
+train_step = my_opt.minimize(loss)
+```
+
+1.  在记录损失函数的同时，我们还希望在训练和测试集上记录分类准确率。因此，我们将创建一个预测函数，返回任何大小的批量的准确率：
+
+```py
+prediction = tf.round(tf.sigmoid(model_output)) 
+predictions_correct = tf.cast(tf.equal(prediction, y_target), tf.float32) 
+accuracy = tf.reduce_mean(predictions_correct)
+```
+
+1.  现在，我们可以开始我们的训练循环并记录损失和准确率：
+
+```py
+loss_vec = [] 
+train_acc = [] 
+test_acc = [] 
+for i in range(1500): 
+    rand_index = np.random.choice(len(x_vals_train), size=batch_size) 
+    rand_x = x_vals_train[rand_index] 
+    rand_y = np.transpose([y_vals_train[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+    temp_acc_train = sess.run(accuracy, feed_dict={x_data: x_vals_train, y_target: np.transpose([y_vals_train])}) 
+    train_acc.append(temp_acc_train) 
+    temp_acc_test = sess.run(accuracy, feed_dict={x_data: x_vals_test, y_target: np.transpose([y_vals_test])}) 
+    test_acc.append(temp_acc_test)
+```
+
+1.  以下是查看损失和准确率图的代码：
+
+```py
+plt.plot(loss_vec, 'k-') 
+plt.title('Cross' Entropy Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Cross' Entropy Loss') 
+plt.show() 
+plt.plot(train_acc, 'k-', label='Train Set Accuracy') 
+plt.plot(test_acc, 'r--', label='Test Set Accuracy') 
+plt.title('Train and Test Accuracy') 
+plt.xlabel('Generation') 
+plt.ylabel('Accuracy') 
+plt.legend(loc='lower right') 
+plt.show() 
+```
+
+## 工作原理
+
+这是迭代和训练和测试精度的损失。由于数据集仅为 189 次观测，因此随着数据集的随机分裂，训练和测试精度图将发生变化。第一个数字是交叉熵损失：
+
+![](img/0efa3298-7046-432d-8393-ca1765b44175.png)
+
+图 11：在 1,500 次迭代过程中绘制的交叉熵损失
+
+第二个图显示了训练和测试装置的准确率：
+
+![](img/a6f50907-4950-402e-b327-053a02deb6b3.png)Figure 12: Test and train set accuracy plotted over 1,500 generations
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch04.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch04.md
new file mode 100644
index 00000000..018b19c8
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch04.md
@@ -0,0 +1,998 @@
+# 四、支持向量机
+
+本章将介绍有关如何在 TensorFlow 中使用，实现和评估支持向量机（SVM）的一些重要秘籍。将涵盖以下领域：
+
+*   使用线性 SVM
+*   回退到线性回归
+*   在 TensorFlow 中使用核
+*   实现非线性 SVM
+*   实现多类 SVM
+
+> 本章中先前涵盖的逻辑回归和大多数 SVM 都是二元预测变量。虽然逻辑回归试图找到最大化距离的任何分离线（概率地），但 SVM 还尝试最小化误差，同时最大化类之间的余量。通常，如果问题与训练示例相比具有大量特征，请尝试逻辑回归或线性 SVM。如果训练样本的数量较大，或者数据不是线性可分的，则可以使用具有高斯核的 SVM。
+
+另外，请记住本章的所有代码都可以在 [Github](https://github.com/nfmcclure/tensorflow_cookbook) 和 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)中找到。
+
+# 介绍
+
+SVM 是二分类的方法。基本思想是在两个类之间找到二维的线性分离线（或更多维度的超平面）。我们首先假设二元类目标是 -1 或 1，而不是先前的 0 或 1 目标。由于可能有许多行分隔两个类，我们定义最佳线性分隔符，以最大化两个类之间的距离：
+
+![](img/bc479121-6689-4836-9221-2f694919ce64.png)
+
+图 1
+
+给定两个可分类`o`和`x`，我们希望找到两者之间的线性分离器的等式。左侧绘图显示有许多行将两个类分开。右侧绘图显示了唯一的最大边际线。边距宽度由`2 / ||A||`给出。通过最小化`A`的 L2 范数找到该线。
+
+我们可以编写如下超平面：
+
+![](img/d459df75-35ba-46f7-b3a0-2e6d934d5636.png)
+
+这里，`A`是我们部分斜率的向量，`x`是输入向量。最大边距的宽度可以显示为 2 除以`A`的 L2 范数。这个事实有许多证明，但是对于几何思想，求解从 2D 点到直线的垂直距离可以提供前进的动力。
+
+对于线性可分的二元类数据，为了最大化余量，我们最小化`A`，![](img/c8bd7a37-6085-4843-8d01-34b9877ffe39.png)的 L2 范数。我们还必须将此最小值置于以下约束条件下：
+
+![](img/35825b20-6e93-4136-acb4-f51128ed4c7f.png)
+
+前面的约束确保我们来自相应类的所有点都在分离线的同一侧。
+
+由于并非所有数据集都是线性可分的，因此我们可以为跨越边界线的点引入损失函数。对于`n`数据点，我们引入了所谓的软边际损失函数，如下所示：
+
+![](img/068234be-29b7-4890-96ef-afd771e361f6.png)
+
+请注意，如果该点位于边距的正确一侧，则乘积`y[i](Ax[i] - b)`始终大于 1。这使得损失函数的左手项等于 0，并且对损失函数的唯一影响是余量的大小。
+
+前面的损失函数将寻找线性可分的线，但允许穿过边缘线的点。根据`α`的值，这可以是硬度或软度量。`α`的较大值导致更加强调边距的扩大，而`α`的较小值导致模型更像是一个硬边缘，同时允许数据点跨越边距，如果需要的话。
+
+在本章中，我们将建立一个软边界 SVM，并展示如何将其扩展到非线性情况和多个类。
+
+# 使用线性 SVM
+
+对于此示例，我们将从鸢尾花数据集创建线性分隔符。我们从前面的章节中知道，萼片长度和花瓣宽度创建了一个线性可分的二分类数据集，用于预测花是否是山鸢尾（I）。
+
+## 准备
+
+要在 TensorFlow 中实现软可分 SVM，我们将实现特定的损失函数，如下所示：
+
+![](img/11e1a288-7294-4c7c-bbee-37e854bbf309.png)
+
+这里，`A`是部分斜率的向量，`b`是截距，`x[i]`是输入向量，`y[i]`是实际类，（-1 或 1），`α`是软可分性正则化参数。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们首先加载必要的库。这将包括用于访问鸢尾数据集的`scikit-learn`数据集库。使用以下代码：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+```
+
+> 要为此练习设置 scikit-learn，我们只需要输入`$pip install -U scikit-learn`。请注意，它也安装了 Anaconda。
+
+1.  接下来，我们启动图会话并根据需要加载数据。请记住，我们正在加载鸢尾数据集中的第一个和第四个变量，因为它们是萼片长度和萼片宽度。我们正在加载目标变量，对于山鸢尾将取值 1，否则为 -1。使用以下代码：
+
+```py
+sess = tf.Session() 
+iris = datasets.load_iris() 
+x_vals = np.array([[x[0], x[3]] for x in iris.data]) 
+y_vals = np.array([1 if y==0 else -1 for y in iris.target])
+```
+
+1.  我们现在应该将数据集拆分为训练集和测试集。我们将评估训练和测试集的准确率。由于我们知道这个数据集是线性可分的，因此我们应该期望在两个集合上获得 100% 的准确率。要拆分数据，请使用以下代码：
+
+```py
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices] 
+```
+
+1.  接下来，我们设置批量大小，占位符和模型变量。值得一提的是，使用这种 SVM 算法，我们需要非常大的批量大小来帮助收敛。我们可以想象，对于非常小的批量大小，最大边际线会略微跳跃。理想情况下，我们也会慢慢降低学习率，但现在这已经足够了。此外，`A`变量将采用`2x1`形状，因为我们有两个预测变量：萼片长度和花瓣宽度。要进行此设置，我们使用以下代码：
+
+```py
+batch_size = 100 
+
+x_data = tf.placeholder(shape=[None, 2], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+
+A = tf.Variable(tf.random_normal(shape=[2,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+```
+
+1.  我们现在声明我们的模型输出。对于正确分类的点，如果目标是山鸢尾，则返回大于或等于 1 的数字，否则返回小于或等于 -1。模型输出使用以下代码：
+
+```py
+model_output = tf.subtract(tf.matmul(x_data, A), b) 
+```
+
+1.  接下来，我们将汇总并声明必要的组件以获得最大的保证金损失。首先，我们将声明一个计算向量的 L2 范数的函数。然后，我们添加边距参数 ![](img/1f304159-a7af-498c-b746-72d49ecadecb.png)。然后我们宣布我们的分类损失并将这两项加在一起。使用以下代码：
+
+```py
+l2_norm = tf.reduce_sum(tf.square(A)) 
+alpha = tf.constant([0.1]) 
+classification_term = tf.reduce_mean(tf.maximum(0., tf.subtract(1., tf.multiply(model_output, y_target)))) 
+
+loss = tf.add(classification _term, tf.multiply(alpha, l2_norm)) 
+```
+
+1.  现在，我们声明我们的预测和准确率函数，以便我们可以评估训练集和测试集的准确率，如下所示：
+
+```py
+prediction = tf.sign(model_output) 
+accuracy = tf.reduce_mean(tf.cast(tf.equal(prediction, y_target), tf.float32)) 
+```
+
+1.  在这里，我们将声明我们的优化函数并初始化我们的模型变量；我们在以下代码中执行此操作：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.01) 
+train_step = my_opt.minimize(loss) 
+
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  我们现在可以开始我们的训练循环，记住我们想要在训练和测试集上记录我们的损失和训练准确率，如下所示：
+
+```py
+loss_vec = [] 
+train_accuracy = [] 
+test_accuracy = [] 
+for i in range(500): 
+   rand_index = np.random.choice(len(x_vals_train), size=batch_size) 
+   rand_x = x_vals_train[rand_index] 
+    rand_y = np.transpose([y_vals_train[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+
+    train_acc_temp = sess.run(accuracy, feed_dict={x_data: x_vals_train, y_target: np.transpose([y_vals_train])}) 
+    train_accuracy.append(train_acc_temp) 
+
+    test_acc_temp = sess.run(accuracy, feed_dict={x_data: x_vals_test, y_target: np.transpose([y_vals_test])}) 
+    test_accuracy.append(test_acc_temp) 
+
+    if (i+1)%100==0: 
+        print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)) + ' b = ' + str(sess.run(b))) 
+        print('Loss = ' + str(temp_loss))
+```
+
+1.  训练期间脚本的输出应如下所示：
+
+```py
+Step #100 A = [[-0.10763293] 
+ [-0.65735245]] b = [[-0.68752676]] 
+Loss = [ 0.48756418] 
+Step #200 A = [[-0.0650763 ] 
+ [-0.89443302]] b = [[-0.73912662]] 
+Loss = [ 0.38910741] 
+Step #300 A = [[-0.02090022] 
+ [-1.12334013]] b = [[-0.79332656]] 
+Loss = [ 0.28621092] 
+Step #400 A = [[ 0.03189624] 
+ [-1.34912157]] b = [[-0.8507266]] 
+Loss = [ 0.22397576] 
+Step #500 A = [[ 0.05958777] 
+ [-1.55989814]] b = [[-0.9000265]] 
+Loss = [ 0.20492229] 
+```
+
+1.  为了绘制输出（拟合，损失和精度），我们必须提取系数并将`x`值分成山鸢尾和其它鸢尾，如下所示：
+
+```py
+[[a1], [a2]] = sess.run(A) 
+[[b]] = sess.run(b) 
+slope = -a2/a1 
+y_intercept = b/a1 
+
+x1_vals = [d[1] for d in x_vals] 
+
+best_fit = [] 
+for i in x1_vals: 
+    best_fit.append(slope*i+y_intercept) 
+
+setosa_x = [d[1] for i,d in enumerate(x_vals) if y_vals[i]==1] 
+setosa_y = [d[0] for i,d in enumerate(x_vals) if y_vals[i]==1] 
+not_setosa_x = [d[1] for i,d in enumerate(x_vals) if y_vals[i]==-1] 
+not_setosa_y = [d[0] for i,d in enumerate(x_vals) if y_vals[i]==-1] 
+```
+
+1.  以下是使用线性分离器拟合，精度和损耗绘制数据的代码：
+
+```py
+plt.plot(setosa_x, setosa_y, 'o', label='I. setosa') 
+plt.plot(not_setosa_x, not_setosa_y, 'x', label='Non-setosa') 
+plt.plot(x1_vals, best_fit, 'r-', label='Linear Separator', linewidth=3) 
+plt.ylim([0, 10]) 
+plt.legend(loc='lower right') 
+plt.title('Sepal Length vs Petal Width') 
+plt.xlabel('Petal Width') 
+plt.ylabel('Sepal Length') 
+plt.show() 
+
+plt.plot(train_accuracy, 'k-', label='Training Accuracy') 
+plt.plot(test_accuracy, 'r--', label='Test Accuracy') 
+plt.title('Train and Test Set Accuracies') 
+plt.xlabel('Generation') 
+plt.ylabel('Accuracy') 
+plt.legend(loc='lower right') 
+plt.show() 
+
+plt.plot(loss_vec, 'k-') 
+plt.title('Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.show() 
+```
+
+> 以这种方式使用 TensorFlow 来实现 SVD 算法可能导致每次运行的结果略有不同。其原因包括随机训练/测试集拆分以及每个训练批次中不同批次点的选择。此外，在每一代之后慢慢降低学习率是理想的。
+
+得到的图如下：
+
+![](img/9c53587e-f2d7-4e1f-9af9-1bde936d24da.png)
+
+图 2：最终线性 SVM 与绘制的两个类别拟合
+
+![](img/fb331bce-9d8e-4d8e-928e-8446022dac2c.png)
+
+图 3：迭代测试和训练集精度；我们确实获得 100% 的准确率，因为这两个类是线性可分的
+
+![](img/adb5aaf5-d575-4e93-a84c-7f709afcdcb6.png)
+
+图 4：超过 500 次迭代的最大边际损失图
+
+## 工作原理
+
+在本文中，我们已经证明使用最大边际损失函数可以实现线性 SVD 模型。
+
+# 简化为线性回归
+
+SVM 可用于拟合线性回归。在本节中，我们将探讨如何使用 TensorFlow 执行此操作。
+
+## 准备
+
+可以将相同的最大边际概念应用于拟合线性回归。我们可以考虑最大化包含最多（`x`，`y`）点的边距，而不是最大化分隔类的边距。为了说明这一点，我们将使用相同的鸢尾数据集，并表明我们可以使用此概念来拟合萼片长度和花瓣宽度之间的线。
+
+相应的损失函数类似于：
+
+![](img/fa49eabe-ad86-4314-8e13-ed19e7e20b27.png)
+
+这里，`ε`是边距宽度的一半，如果一个点位于该区域，则损失等于 0。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  首先，我们加载必要的库，启动图，然后加载鸢尾数据集。之后，我们将数据集拆分为训练集和测试集，以显示两者的损失。使用以下代码：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+sess = tf.Session() 
+iris = datasets.load_iris() 
+x_vals = np.array([x[3] for x in iris.data]) 
+y_vals = np.array([y[0] for y in iris.data]) 
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices]
+```
+
+> 对于此示例，我们将数据拆分为训练集和测试集。将数据拆分为三个数据集也很常见，其中包括验证集。我们可以使用此验证集来验证我们在训练它们时不会过拟合模型。
+
+1.  让我们声明我们的批量大小，占位符和变量，并创建我们的线性模型，如下所示：
+
+```py
+batch_size = 50 
+
+x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+
+A = tf.Variable(tf.random_normal(shape=[1,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+
+model_output = tf.add(tf.matmul(x_data, A), b) 
+```
+
+1.  现在，我们宣布我们的损失函数。如前文所述，损失函数实现为`ε = 0.5`。请记住，epsilon 是我们的损失函数的一部分，它允许软边距而不是硬边距：
+
+```py
+epsilon = tf.constant([0.5]) 
+loss = tf.reduce_mean(tf.maximum(0., tf.subtract(tf.abs(tf.subtract(model_output, y_target)), epsilon))) 
+```
+
+1.  我们创建一个优化器并接下来初始化我们的变量，如下所示：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.075) 
+train_step = my_opt.minimize(loss) 
+
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  现在，我们迭代 200 次训练迭代并保存训练和测试损失以便以后绘图：
+
+```py
+train_loss = [] 
+test_loss = [] 
+for i in range(200): 
+    rand_index = np.random.choice(len(x_vals_train), size=batch_size) 
+    rand_x = np.transpose([x_vals_train[rand_index]]) 
+    rand_y = np.transpose([y_vals_train[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+
+    temp_train_loss = sess.run(loss, feed_dict={x_data: np.transpose([x_vals_train]), y_target: np.transpose([y_vals_train])}) 
+    train_loss.append(temp_train_loss) 
+
+    temp_test_loss = sess.run(loss, feed_dict={x_data: np.transpose([x_vals_test]), y_target: np.transpose([y_vals_test])}) 
+    test_loss.append(temp_test_loss) 
+    if (i+1)%50==0: 
+        print('-----------') 
+        print('Generation: ' + str(i)) 
+        print('A = ' + str(sess.run(A)) + ' b = ' + str(sess.run(b))) 
+        print('Train Loss = ' + str(temp_train_loss)) 
+        print('Test Loss = ' + str(temp_test_loss)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Generation: 50 
+A = [[ 2.20651722]] b = [[ 2.71290684]] 
+Train Loss = 0.609453 
+Test Loss = 0.460152 
+----------- 
+Generation: 100 
+A = [[ 1.6440177]] b = [[ 3.75240564]] 
+Train Loss = 0.242519 
+Test Loss = 0.208901 
+----------- 
+Generation: 150 
+A = [[ 1.27711761]] b = [[ 4.3149066]] 
+Train Loss = 0.108192 
+Test Loss = 0.119284 
+----------- 
+Generation: 200 
+A = [[ 1.05271816]] b = [[ 4.53690529]] 
+Train Loss = 0.0799957 
+Test Loss = 0.107551 
+```
+
+1.  我们现在可以提取我们找到的系数，并获得最佳拟合线的值。出于绘图目的，我们也将获得边距的值。使用以下代码：
+
+```py
+[[slope]] = sess.run(A) 
+[[y_intercept]] = sess.run(b) 
+[width] = sess.run(epsilon) 
+
+best_fit = [] 
+best_fit_upper = [] 
+best_fit_lower = [] 
+for i in x_vals: 
+  best_fit.append(slope*i+y_intercept) 
+  best_fit_upper.append(slope*i+y_intercept+width) 
+  best_fit_lower.append(slope*i+y_intercept-width) 
+```
+
+1.  最后，这里是用拟合线和训练测试损失绘制数据的代码：
+
+```py
+plt.plot(x_vals, y_vals, 'o', label='Data Points') 
+plt.plot(x_vals, best_fit, 'r-', label='SVM Regression Line', linewidth=3) 
+plt.plot(x_vals, best_fit_upper, 'r--', linewidth=2) 
+plt.plot(x_vals, best_fit_lower, 'r--', linewidth=2) 
+plt.ylim([0, 10]) 
+plt.legend(loc='lower right') 
+plt.title('Sepal Length vs Petal Width') 
+plt.xlabel('Petal Width') 
+plt.ylabel('Sepal Length') 
+plt.show() 
+plt.plot(train_loss, 'k-', label='Train Set Loss') 
+plt.plot(test_loss, 'r--', label='Test Set Loss') 
+plt.title('L2 Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('L2 Loss') 
+plt.legend(loc='upper right') 
+plt.show() 
+```
+
+上述代码的图如下：
+
+![](img/9e656a1b-1414-49d5-a4e8-e2e2d1907737.png)
+
+图 5：鸢尾数据上有 0.5 个边缘的 SVM 回归（萼片长度与花瓣宽度）
+
+以下是训练迭代中的训练和测试损失：
+
+![](img/281870d6-9835-4fdd-8db0-8e861aa474d5.png)
+
+图 6：训练和测试集上每代的 SVM 回归损失
+
+## 工作原理
+
+直觉上，我们可以将 SVM 回归看作是一个函数，试图尽可能多地在`2ε`宽度范围内拟合点。该线的拟合对该参数有些敏感。如果我们选择太小的`ε`，算法将无法适应边距中的许多点。如果我们选择太大的`ε`，将会有许多行能够适应边距中的所有数据点。我们更喜欢较小的`ε`，因为距离边缘较近的点比较远的点贡献较少的损失。
+
+# 在 TensorFlow 中使用核
+
+先前的 SVM 使用线性可分数据。如果我们分离非线性数据，我们可以改变将线性分隔符投影到数据上的方式。这是通过更改 SVM 损失函数中的核来完成的。在本章中，我们将介绍如何更改核并分离非线性可分离数据。
+
+## 准备
+
+在本文中，我们将激励支持向量机中核的使用。在线性 SVM 部分，我们用特定的损失函数求解了软边界。这种方法的另一种方法是解决所谓的优化问题的对偶。可以证明线性 SVM 问题的对偶性由以下公式给出：
+
+![](img/a311abb6-b9c9-4aef-9cac-88438abb5879.png)
+
+对此，以下适用：
+
+![](img/6b8e7a37-0f7a-40e2-9135-838f6ea38141.png)
+
+这里，模型中的变量将是`b`向量。理想情况下，此向量将非常稀疏，仅对我们数据集的相应支持向量采用接近 1 和 -1 的值。我们的数据点向量由`x[i]`表示，我们的目标（1 或 -1）`y[i]`表示。
+
+前面等式中的核是点积`x[i] · y[j]`，它给出了线性核。该核是一个方形矩阵，填充了数据点`i, j`的点积。
+
+我们可以将更复杂的函数扩展到更高的维度，而不是仅仅在数据点之间进行点积，而在这些维度中，类可以是线性可分的。这似乎是不必要的复杂，但我们可以选择一个具有以下属性的函数`k`：
+
+![](img/eb618f1d-e0d3-49a7-bbec-c8e5ab9049d4.png)
+
+这里`, k`被称为核函数。更常见的核是使用高斯核（也称为径向基函数核或 RBF 核）。该核用以下等式描述：
+
+![](img/91bc4d05-6bc2-4b0d-85ac-70a964eae981.png)
+
+为了对这个核进行预测，比如说`p[i]`，我们只需在核中的相应方程中用预测点替换，如下所示：
+
+![](img/284cc0b5-9a95-4a09-bf23-39776df87409.png)
+
+在本节中，我们将讨论如何实现高斯核。我们还将在适当的位置记下在何处替换实现线性核。我们将使用的数据集将手动创建，以显示高斯核更适合在线性核上使用的位置。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  首先，我们加载必要的库并启动图会话，如下所示：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+sess = tf.Session() 
+```
+
+1.  现在，我们生成数据。我们将生成的数据将是两个同心数据环；每个戒指都属于不同的阶级。我们必须确保类只有 -1 或 1。然后我们将数据分成每个类的`x`和`y`值以用于绘图目的。为此，请使用以下代码：
+
+```py
+(x_vals, y_vals) = datasets.make_circles(n_samples=500, factor=.5, noise=.1) 
+y_vals = np.array([1 if y==1 else -1 for y in y_vals]) 
+class1_x = [x[0] for i,x in enumerate(x_vals) if y_vals[i]==1] 
+class1_y = [x[1] for i,x in enumerate(x_vals) if y_vals[i]==1] 
+class2_x = [x[0] for i,x in enumerate(x_vals) if y_vals[i]==-1] 
+class2_y = [x[1] for i,x in enumerate(x_vals) if y_vals[i]==-1]
+```
+
+1.  接下来，我们声明批量大小和占位符，并创建我们的模型变量`b`。对于 SVM，我们倾向于需要更大的批量大小，因为我们需要一个非常稳定的模型，该模型在每次训练生成时都不会波动很大。另请注意，我们为预测点添加了额外的占位符。为了可视化结果，我们将创建一个颜色网格，以查看哪些区域最后属于哪个类。我们这样做如下：
+
+```py
+batch_size = 250 
+x_data = tf.placeholder(shape=[None, 2], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+prediction_grid = tf.placeholder(shape=[None, 2], dtype=tf.float32) 
+b = tf.Variable(tf.random_normal(shape=[1,batch_size])) 
+```
+
+1.  我们现在将创建高斯核。该核可以表示为矩阵运算，如下所示：
+
+```py
+gamma = tf.constant(-50.0) 
+dist = tf.reduce_sum(tf.square(x_data), 1) 
+dist = tf.reshape(dist, [-1,1]) 
+sq_dists = tf.add(tf.subtract(dist, tf.multiply(2., tf.matmul(x_data, tf.transpose(x_data)))), tf.transpose(dist)) 
+my_kernel = tf.exp(tf.multiply(gamma, tf.abs(sq_dists)))  
+```
+
+> 注意`add`和`subtract`操作的`sq_dists`行中广播的使用。 另外，请注意线性核可以表示为`my_kernel = tf.matmul(x_data, tf.transpose(x_data))`。
+
+1.  现在，我们宣布了本秘籍中之前所述的双重问题。最后，我们将使用`tf.negative()`函数最小化损失函数的负值，而不是最大化。我们使用以下代码完成此任务：
+
+```py
+model_output = tf.matmul(b, my_kernel) 
+first_term = tf.reduce_sum(b) 
+b_vec_cross = tf.matmul(tf.transpose(b), b) 
+y_target_cross = tf.matmul(y_target, tf.transpose(y_target)) 
+second_term = tf.reduce_sum(tf.multiply(my_kernel, tf.multiply(b_vec_cross, y_target_cross))) 
+loss = tf.negative(tf.subtract(first_term, second_term))
+```
+
+1.  我们现在创建预测和准确率函数。首先，我们必须创建一个预测核，类似于步骤 4，但是我们拥有带有预测数据的点的核心，而不是点的核。然后预测是模型输出的符号。这实现如下：
+
+```py
+rA = tf.reshape(tf.reduce_sum(tf.square(x_data), 1),[-1,1]) 
+rB = tf.reshape(tf.reduce_sum(tf.square(prediction_grid), 1),[-1,1]) 
+pred_sq_dist = tf.add(tf.subtract(rA, tf.multiply(2., tf.matmul(x_data, tf.transpose(prediction_grid)))), tf.transpose(rB)) 
+pred_kernel = tf.exp(tf.multiply(gamma, tf.abs(pred_sq_dist))) 
+
+prediction_output = tf.matmul(tf.multiply(tf.transpose(y_target),b), pred_kernel) 
+prediction = tf.sign(prediction_output-tf.reduce_mean(prediction_output)) 
+accuracy = tf.reduce_mean(tf.cast(tf.equal(tf.squeeze(prediction), tf.squeeze(y_target)), tf.float32)) 
+```
+
+> 为了实现线性预测核，我们可以编写`pred_kernel = tf.matmul(x_data, tf.transpose(prediction_grid))`。
+
+1.  现在，我们可以创建一个优化函数并初始化所有变量，如下所示：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.001) 
+train_step = my_opt.minimize(loss) 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  接下来，我们开始训练循环。我们将记录每代的损耗向量和批次精度。当我们运行准确率时，我们必须放入所有三个占位符，但我们输入`x`数据两次以获得对点的预测，如下所示：
+
+```py
+loss_vec = [] 
+batch_accuracy = [] 
+for i in range(500): 
+    rand_index = np.random.choice(len(x_vals), size=batch_size) 
+    rand_x = x_vals[rand_index] 
+    rand_y = np.transpose([y_vals[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+
+    acc_temp = sess.run(accuracy, feed_dict={x_data: rand_x, 
+                                             y_target: rand_y, 
+                                             prediction_grid:rand_x}) 
+    batch_accuracy.append(acc_temp) 
+
+    if (i+1)%100==0: 
+        print('Step #' + str(i+1)) 
+        print('Loss = ' + str(temp_loss)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Step #100 
+Loss = -28.0772 
+Step #200 
+Loss = -3.3628 
+Step #300 
+Loss = -58.862 
+Step #400 
+Loss = -75.1121 
+Step #500 
+Loss = -84.8905 
+```
+
+1.  为了查看整个空间的输出类，我们将在系统中创建一个预测点网格，并对所有这些预测点进行预测，如下所示：
+
+```py
+x_min, x_max = x_vals[:, 0].min() - 1, x_vals[:, 0].max() + 1 
+y_min, y_max = x_vals[:, 1].min() - 1, x_vals[:, 1].max() + 1 
+xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), 
+                     np.arange(y_min, y_max, 0.02)) 
+grid_points = np.c_[xx.ravel(), yy.ravel()] 
+[grid_predictions] = sess.run(prediction, feed_dict={x_data: x_vals, 
+                                                   y_target: np.transpose([y_vals]), 
+                                                   prediction_grid: grid_points}) 
+grid_predictions = grid_predictions.reshape(xx.shape) 
+```
+
+1.  以下是绘制结果，批次准确率和损失的代码：
+
+```py
+plt.contourf(xx, yy, grid_predictions, cmap=plt.cm.Paired, alpha=0.8) 
+plt.plot(class1_x, class1_y, 'ro', label='Class 1') 
+plt.plot(class2_x, class2_y, 'kx', label='Class -1') 
+plt.legend(loc='lower right') 
+plt.ylim([-1.5, 1.5]) 
+plt.xlim([-1.5, 1.5]) 
+plt.show() 
+
+plt.plot(batch_accuracy, 'k-', label='Accuracy') 
+plt.title('Batch Accuracy') 
+plt.xlabel('Generation') 
+plt.ylabel('Accuracy') 
+plt.legend(loc='lower right') 
+plt.show() 
+
+plt.plot(loss_vec, 'k-') 
+plt.title('Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.show() 
+```
+
+为了简洁起见，我们将仅显示结果图，但我们也可以单独运行绘图代码并查看损失和准确率。
+
+以下屏幕截图说明了线性可分离拟合对我们的非线性数据有多糟糕：
+
+![](img/3dc4f147-d736-4b8d-a4af-e004a6f306fc.png)
+
+图 7：非线性可分离数据上的线性 SVM
+
+以下屏幕截图显示了高斯核可以更好地拟合非线性数据：
+
+![](img/942b3cec-7ca0-42d5-bc2b-7fddb0a4d4e4.png)Figure 8: Non-linear SVM with Gaussian kernel results on non-linear ring data
+
+如果我们使用高斯核来分离我们的非线性环数据，我们会得到更好的拟合。
+
+## 工作原理
+
+有两个重要的代码需要了解：我们如何实现核，以及我们如何为 SVM 双优化问题实现损失函数。我们已经展示了如何实现线性和高斯核，并且高斯核可以分离非线性数据集。
+
+我们还应该提到另一个参数，即高斯核中的伽马值。此参数控制影响点对分离曲率的影响程度。通常选择小值，但它在很大程度上取决于数据集。理想情况下，使用交叉验证等统计技术选择此参数。
+
+> 对于新点的预测/评估，我们使用以下命令：`sess.run(prediction, feed_dict:{x_data: x_vals, y_data: np.transpose([y_vals])})`。此评估必须包括原始数据集（`x_vals`和`y_vals`），因为 SVM 是使用支持向量定义的，由哪些点指定在边界上或不是。
+
+## 更多
+
+如果我们这样选择，我们可以实现更多核。以下是一些更常见的非线性核列表：
+
+*   多项式齐次核：
+
+![](img/3233ad1f-7336-40e8-b9de-895eb041bb5b.png)
+
+*   多项式非齐次核：
+
+![](img/bdb676cb-da55-47f7-a656-2a0406ff4ab3.png)
+
+*   双曲正切核：
+
+![](img/5d9c1c9e-e1ce-4497-9fc4-5f7be14ce1b3.png)
+
+# 实现非线性 SVM
+
+对于此秘籍，我们将应用非线性核来拆分数据集。
+
+## 准备
+
+在本节中，我们将在实际数据上实现前面的高斯核 SVM。我们将加载鸢尾数据集并为山鸢尾创建分类器（与其它鸢尾相比）。我们将看到各种伽马值对分类的影响。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们首先加载必要的库，其中包括`scikit-learn`数据集，以便我们可以加载鸢尾数据。然后，我们将启动图会话。使用以下代码：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+sess = tf.Session() 
+```
+
+1.  接下来，我们将加载鸢尾数据，提取萼片长度和花瓣宽度，并分离每个类的`x`和`y`值（以便以后绘图），如下所示：
+
+```py
+iris = datasets.load_iris() 
+x_vals = np.array([[x[0], x[3]] for x in iris.data]) 
+y_vals = np.array([1 if y==0 else -1 for y in iris.target]) 
+class1_x = [x[0] for i,x in enumerate(x_vals) if y_vals[i]==1] 
+class1_y = [x[1] for i,x in enumerate(x_vals) if y_vals[i]==1] 
+class2_x = [x[0] for i,x in enumerate(x_vals) if y_vals[i]==-1] 
+class2_y = [x[1] for i,x in enumerate(x_vals) if y_vals[i]==-1] 
+```
+
+1.  现在，我们声明我们的批量大小（首选大批量），占位符和模型变量`b`，如下所示：
+
+```py
+batch_size = 100 
+
+x_data = tf.placeholder(shape=[None, 2], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+prediction_grid = tf.placeholder(shape=[None, 2], dtype=tf.float32) 
+
+b = tf.Variable(tf.random_normal(shape=[1,batch_size]))
+```
+
+1.  接下来，我们声明我们的高斯核。这个核依赖于伽马值，我们将在本文后面的各个伽玛值对分类的影响进行说明。使用以下代码：
+
+```py
+gamma = tf.constant(-10.0) 
+dist = tf.reduce_sum(tf.square(x_data), 1) 
+dist = tf.reshape(dist, [-1,1]) 
+sq_dists = tf.add(tf.subtract(dist, tf.multiply(2., tf.matmul(x_data, tf.transpose(x_data)))), tf.transpose(dist)) 
+my_kernel = tf.exp(tf.multiply(gamma, tf.abs(sq_dists))) 
+# We now compute the loss for the dual optimization problem, as follows: 
+model_output = tf.matmul(b, my_kernel) 
+first_term = tf.reduce_sum(b) 
+b_vec_cross = tf.matmul(tf.transpose(b), b) 
+y_target_cross = tf.matmul(y_target, tf.transpose(y_target)) 
+second_term = tf.reduce_sum(tf.multiply(my_kernel, tf.multiply(b_vec_cross, y_target_cross))) 
+loss = tf.negative(tf.subtract(first_term, second_term)) 
+```
+
+1.  为了使用 SVM 执行预测，我们必须创建预测核函数。之后，我们还会声明一个准确率计算，它只是使用以下代码正确分类的点的百分比：
+
+```py
+rA = tf.reshape(tf.reduce_sum(tf.square(x_data), 1),[-1,1]) 
+rB = tf.reshape(tf.reduce_sum(tf.square(prediction_grid), 1),[-1,1]) 
+pred_sq_dist = tf.add(tf.subtract(rA, tf.mul(2., tf.matmul(x_data, tf.transpose(prediction_grid)))), tf.transpose(rB)) 
+pred_kernel = tf.exp(tf.multiply(gamma, tf.abs(pred_sq_dist))) 
+
+prediction_output = tf.matmul(tf.multiply(tf.transpose(y_target),b), pred_kernel) 
+prediction = tf.sign(prediction_output-tf.reduce_mean(prediction_output)) 
+accuracy = tf.reduce_mean(tf.cast(tf.equal(tf.squeeze(prediction), tf.squeeze(y_target)), tf.float32)) 
+```
+
+1.  接下来，我们声明我们的优化函数并初始化变量，如下所示：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.01) 
+train_step = my_opt.minimize(loss) 
+init = tf.initialize_all_variables() 
+sess.run(init)
+```
+
+1.  现在，我们可以开始训练循环了。我们运行循环 300 次迭代并存储损失值和批次精度。为此，我们使用以下实现：
+
+```py
+loss_vec = [] 
+batch_accuracy = [] 
+for i in range(300): 
+    rand_index = np.random.choice(len(x_vals), size=batch_size) 
+    rand_x = x_vals[rand_index] 
+    rand_y = np.transpose([y_vals[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+
+    acc_temp = sess.run(accuracy, feed_dict={x_data: rand_x, 
+                                             y_target: rand_y, 
+                                             prediction_grid:rand_x}) 
+    batch_accuracy.append(acc_temp) 
+```
+
+1.  为了绘制决策边界，我们将创建`x`，`y`点的网格并评估我们在所有这些点上创建的预测函数，如下所示：
+
+```py
+x_min, x_max = x_vals[:, 0].min() - 1, x_vals[:, 0].max() + 1 
+y_min, y_max = x_vals[:, 1].min() - 1, x_vals[:, 1].max() + 1 
+xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), 
+                     np.arange(y_min, y_max, 0.02)) 
+grid_points = np.c_[xx.ravel(), yy.ravel()] 
+[grid_predictions] = sess.run(prediction, feed_dict={x_data: x_vals, 
+                                                   y_target: np.transpose([y_vals]), 
+                                                   prediction_grid: grid_points}) 
+grid_predictions = grid_predictions.reshape(xx.shape) 
+```
+
+1.  为简洁起见，我们只展示如何用决策边界绘制点。有关伽马值的图和效果，请参阅本秘籍的下一部分。使用以下代码：
+
+```py
+plt.contourf(xx, yy, grid_predictions, cmap=plt.cm.Paired, alpha=0.8) 
+plt.plot(class1_x, class1_y, 'ro', label='I. setosa') 
+plt.plot(class2_x, class2_y, 'kx', label='Non-setosa') 
+plt.title('Gaussian SVM Results on Iris Data') 
+plt.xlabel('Petal Length') 
+plt.ylabel('Sepal Width') 
+plt.legend(loc='lower right') 
+plt.ylim([-0.5, 3.0]) 
+plt.xlim([3.5, 8.5]) 
+plt.show() 
+```
+
+## 工作原理
+
+以下是对四种不同伽玛值（1，10，25 和 100）的山鸢尾结果的分类。注意伽玛值越高，每个单独点对分类边界的影响越大：
+
+![](img/21a6bf2b-18fd-407c-9854-bca30ac02a84.png)
+
+图 9：使用具有四个不同伽马值的高斯核 SVM 的山鸢尾的分类结果
+
+# 实现多类 SVM
+
+我们还可以使用 SVM 对多个类进行分类，而不仅仅是两个类。在本文中，我们将使用多类 SVM 对鸢尾数据集中的三种类型的花进行分类。
+
+## 准备
+
+通过设计，SVM 算法是二元分类器。但是，有一些策略可以让他们在多个类上工作。两种主要策略称为“一对一”，“一对剩余”。
+
+一对一是一种策略，其中为每个可能的类对创建二分类器。然后，对具有最多投票的类的点进行预测。这可能在计算上很难，因为我们必须为`k`类创建`k!/(k - 2)!2!`个分类器。
+
+实现多类分类器的另一种方法是执行一对一策略，我们为`k`类的每个类创建一个分类器。点的预测类将是创建最大 SVM 边距的类。这是我们将在本节中实现的策略。
+
+在这里，我们将加载鸢尾数据集并使用高斯核执行多类非线性 SVM。鸢尾数据集是理想的，因为有三个类（山鸢尾，弗吉尼亚和杂色鸢尾）。我们将为每个类创建三个高斯核 SVM，并预测存在最高边界的点。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  首先，我们加载我们需要的库并启动图，如下所示：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from sklearn import datasets 
+sess = tf.Session()
+```
+
+1.  接下来，我们将加载鸢尾数据集并拆分每个类的目标。我们将仅使用萼片长度和花瓣宽度来说明，因为我们希望能够绘制输出。我们还将每个类的`x`和`y`值分开，以便最后进行绘图。使用以下代码：
+
+```py
+iris = datasets.load_iris() 
+x_vals = np.array([[x[0], x[3]] for x in iris.data]) 
+y_vals1 = np.array([1 if y==0 else -1 for y in iris.target]) 
+y_vals2 = np.array([1 if y==1 else -1 for y in iris.target]) 
+y_vals3 = np.array([1 if y==2 else -1 for y in iris.target]) 
+y_vals = np.array([y_vals1, y_vals2, y_vals3]) 
+class1_x = [x[0] for i,x in enumerate(x_vals) if iris.target[i]==0] 
+class1_y = [x[1] for i,x in enumerate(x_vals) if iris.target[i]==0] 
+class2_x = [x[0] for i,x in enumerate(x_vals) if iris.target[i]==1] 
+class2_y = [x[1] for i,x in enumerate(x_vals) if iris.target[i]==1] 
+class3_x = [x[0] for i,x in enumerate(x_vals) if iris.target[i]==2] 
+class3_y = [x[1] for i,x in enumerate(x_vals) if iris.target[i]==2] 
+```
+
+1.  与实现非线性 SVM 秘籍相比，我们在此示例中所做的最大改变是，许多维度将发生变化（我们现在有三个分类器而不是一个）。我们还将利用矩阵广播和重塑技术一次计算所有三个 SVM。由于我们一次性完成这一操作，我们的`y_target`占位符现在具有`[3, None]`的大小，我们的模型变量`b`将被初始化为`[3, batch_size]`。使用以下代码：
+
+```py
+batch_size = 50 
+
+x_data = tf.placeholder(shape=[None, 2], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[3, None], dtype=tf.float32) 
+prediction_grid = tf.placeholder(shape=[None, 2], dtype=tf.float32) 
+
+b = tf.Variable(tf.random_normal(shape=[3,batch_size])) 
+```
+
+1.  接下来，我们计算高斯核。由于这仅取决于输入的 x 数据，因此该代码不会改变先前的秘籍。使用以下代码：
+
+```py
+gamma = tf.constant(-10.0) 
+dist = tf.reduce_sum(tf.square(x_data), 1) 
+dist = tf.reshape(dist, [-1,1]) 
+sq_dists = tf.add(tf.subtract(dist, tf.multiply(2., tf.matmul(x_data, tf.transpose(x_data)))), tf.transpose(dist)) 
+my_kernel = tf.exp(tf.multiply(gamma, tf.abs(sq_dists)))
+```
+
+1.  一个重大变化是我们将进行批量矩阵乘法。我们将最终得到三维矩阵，我们将希望在第三个索引上广播矩阵乘法。我们没有为此设置数据和目标矩阵。为了使`x^T · x`等操作跨越额外维度，我们创建一个函数来扩展这样的矩阵，将矩阵重新整形为转置，然后在额外维度上调用 TensorFlow 的`batch_matmul`。使用以下代码：
+
+```py
+def reshape_matmul(mat): 
+    v1 = tf.expand_dims(mat, 1) 
+    v2 = tf.reshape(v1, [3, batch_size, 1]) 
+    return tf.batch_matmul(v2, v1)
+```
+
+1.  创建此函数后，我们现在可以计算双重损失函数，如下所示：
+
+```py
+model_output = tf.matmul(b, my_kernel) 
+first_term = tf.reduce_sum(b) 
+b_vec_cross = tf.matmul(tf.transpose(b), b) 
+y_target_cross = reshape_matmul(y_target) 
+
+second_term = tf.reduce_sum(tf.multiply(my_kernel, tf.multiply(b_vec_cross, y_target_cross)),[1,2]) 
+loss = tf.reduce_sum(tf.negative(tf.subtract(first_term, second_term))) 
+```
+
+1.  现在，我们可以创建预测核。请注意，我们必须小心`reduce_sum`函数并且不要在所有三个 SVM 预测中减少，因此我们必须告诉 TensorFlow 不要用第二个索引参数对所有内容求和。使用以下代码：
+
+```py
+rA = tf.reshape(tf.reduce_sum(tf.square(x_data), 1),[-1,1]) 
+rB = tf.reshape(tf.reduce_sum(tf.square(prediction_grid), 1),[-1,1]) 
+pred_sq_dist = tf.add(tf.subtract(rA, tf.multiply(2., tf.matmul(x_data, tf.transpose(prediction_grid)))), tf.transpose(rB)) 
+pred_kernel = tf.exp(tf.multiply(gamma, tf.abs(pred_sq_dist))) 
+```
+
+1.  当我们完成预测核时，我们可以创建预测。这里的一个重大变化是预测不是输出的`sign()`。由于我们正在实现一对一策略，因此预测是具有最大输出的分类器。为此，我们使用 TensorFlow 的内置`argmax()`函数，如下所示：
+
+```py
+prediction_output = tf.matmul(tf.mul(y_target,b), pred_kernel) 
+prediction = tf.arg_max(prediction_output-tf.expand_dims(tf.reduce_mean(prediction_output,1), 1), 0) 
+accuracy = tf.reduce_mean(tf.cast(tf.equal(prediction, tf.argmax(y_target,0)), tf.float32)) 
+```
+
+1.  现在我们已经拥有了核，损失和预测函数，我们只需要声明我们的优化函数并初始化我们的变量，如下所示：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.01) 
+train_step = my_opt.minimize(loss) 
+init = tf.global_variables_initializer() 
+sess.run(init)
+```
+
+1.  该算法收敛速度相对较快，因此我们不必运行训练循环超过 100 次迭代。我们使用以下代码执行此操作：
+
+```py
+loss_vec = [] 
+batch_accuracy = [] 
+for i in range(100): 
+    rand_index = np.random.choice(len(x_vals), size=batch_size) 
+    rand_x = x_vals[rand_index] 
+    rand_y = y_vals[:,rand_index] 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+
+    acc_temp = sess.run(accuracy, feed_dict={x_data: rand_x, y_target: rand_y, prediction_grid:rand_x}) 
+    batch_accuracy.append(acc_temp) 
+
+    if (i+1)%25==0: 
+        print('Step #' + str(i+1)) 
+        print('Loss = ' + str(temp_loss)) 
+
+Step #25 
+Loss = -2.8951 
+Step #50 
+Loss = -27.9612 
+Step #75 
+Loss = -26.896 
+Step #100 
+Loss = -30.2325
+```
+
+1.  我们现在可以创建点的预测网格并对所有点运行预测函数，如下所示：
+
+```py
+x_min, x_max = x_vals[:, 0].min() - 1, x_vals[:, 0].max() + 1 
+y_min, y_max = x_vals[:, 1].min() - 1, x_vals[:, 1].max() + 1 
+xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), 
+                     np.arange(y_min, y_max, 0.02)) 
+grid_points = np.c_[xx.ravel(), yy.ravel()] 
+grid_predictions = sess.run(prediction, feed_dict={x_data: rand_x, 
+                                                   y_target: rand_y, 
+                                                   prediction_grid: grid_points}) 
+grid_predictions = grid_predictions.reshape(xx.shape)
+```
+
+1.  以下是绘制结果，批量准确率和损失函数的代码。为简洁起见，我们只显示最终结果：
+
+```py
+plt.contourf(xx, yy, grid_predictions, cmap=plt.cm.Paired, alpha=0.8) 
+plt.plot(class1_x, class1_y, 'ro', label='I. setosa') 
+plt.plot(class2_x, class2_y, 'kx', label='I. versicolor') 
+plt.plot(class3_x, class3_y, 'gv', label='I. virginica') 
+plt.title('Gaussian SVM Results on Iris Data') 
+plt.xlabel('Petal Length') 
+plt.ylabel('Sepal Width') 
+plt.legend(loc='lower right') 
+plt.ylim([-0.5, 3.0]) 
+plt.xlim([3.5, 8.5])  
+plt.show() 
+
+plt.plot(batch_accuracy, 'k-', label='Accuracy') 
+plt.title('Batch Accuracy') 
+plt.xlabel('Generation') 
+plt.ylabel('Accuracy') 
+plt.legend(loc='lower right') 
+plt.show() 
+
+plt.plot(loss_vec, 'k-') 
+plt.title('Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.show() 
+```
+
+然后我们得到以下绘图：
+
+![](img/42907158-e660-4a92-a2da-897722139ec5.png)
+
+图 10：在鸢尾数据集上的伽马为 10 的多类（三类）非线性高斯 SVM 的结果
+
+我们观察前面的屏幕截图，其中显示了所有三个鸢尾类，以及为每个类分类的点网格。
+
+## 工作原理
+
+本文中需要注意的重点是我们如何改变算法以同时优化三个 SVM 模型。我们的模型参数`b`有一个额外的维度可以考虑所有三个模型。在这里，我们可以看到，由于 TensorFlow 处理额外维度的内置函数，算法扩展到多个类似算法相对容易。
+
+下一章将介绍最近邻方法，这是一种用于预测目的的非常强大的算法。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch05.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch05.md
new file mode 100644
index 00000000..0466ed58
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch05.md
@@ -0,0 +1,756 @@
+# 五、最近邻方法
+
+本章将重点介绍最近邻方法，以及如何在 TensorFlow 中实现它们。我们将首先介绍这些方法，然后我们将说明如何实现各种形式。本章将以地址匹配和图像识别的示例结束。
+
+在本章中，我们将介绍以下内容：
+
+*   使用最近邻
+*   使用基于文本的距离
+*   计算混合距离函数
+*   使用地址匹配的示例
+*   使用最近邻进行图像识别
+
+> 请注意，所有最新代码均可在 [Github](https://github.com/nfmcclure/tensorflow_cookbook) 和 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)获得。
+
+# 介绍
+
+最近邻方法植根于基于距离的概念思想。我们认为我们的训练设定了一个模型，并根据它们与训练集中的点的接近程度对新点进行预测。一种简单的方法是使预测类与最接近的训练数据点类相同。但由于大多数数据集包含一定程度的噪声，因此更常见的方法是采用一组`k-`最近邻的加权平均值。该方法称为 K 最近邻（KNN）。
+
+给定具有相应目标（`y[1], y[2]....y[n]`）的训练数据集（`x[1],x[2].....x[n]`），我们可以通过查看一组最近邻来对点`z`进行预测。实际的预测方法取决于我们是进行回归（连续`y[i]`）还是分类（离散`y[i]`）。
+
+对于离散分类目标，可以通过最大投票方案给出预测，通过到预测点的距离加权：
+
+![](img/f6815331-7ba6-4be4-9719-eeeca8f4dd94.png)
+
+我们这里的预测`f(z)`是所有类别`j`的最大加权值，其中从预测点到训练点的加权距离`i`由`φ(d[ij])`给出。如果点`i`在类`j.`中，`l[ij]`只是一个指示器函数如果点`i`在类`j`中，则指示器函数取值 1，如果不是，则取值 0 另外，`k`是要考虑的最近点数。
+
+对于连续回归目标，预测由最接近预测的所有`k`点的加权平均值给出：
+
+![](img/7bd24242-3c82-47ee-b114-7aeb5922e317.png)
+
+很明显，预测很大程度上取决于距离度量的选择`d`。
+
+距离度量的常用规范是 L1 和 L2 距离，如下所示：
+
+*   ![](img/1506c3f9-8094-4485-8d10-dd4dcf414fbe.png)
+*   ![](img/b5116b6c-0f94-40b6-86b6-58611da16ca4.png)
+
+我们可以选择许多不同规格的距离指标。在本章中，我们将探讨 L1 和 L2 指标，以及编辑和文本距离。
+
+我们还必须选择如何加权距离。对距离进行加权的直接方法是距离本身。远离我们预测的点应该比较近点的影响小。最常见的权重方法是通过距离的归一化逆。我们将在下一个秘籍中实现此方法。
+
+> 注意，KNN 是一种聚合方法。对于回归，我们正在执行邻居的加权平均。因此，预测将不那么极端，并且与实际目标相比变化较小。这种影响的大小将由算法中邻居的数量`k`决定。
+
+# 使用最近邻
+
+我们将通过实现最近邻来预测住房价值来开始本章。这是从最近邻开始的好方法，因为我们将处理数字特征和连续目标。
+
+## 准备
+
+为了说明如何在 TensorFlow 中使用最近邻进行预测，我们将使用波士顿住房数据集。在这里，我们将预测邻域住房价值中位数作为几个特征的函数。
+
+由于我们考虑训练集训练模型，我们将找到预测点的 KNN，并将计算目标值的加权平均值。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们将从加载所需的库并启动图会话开始。我们将使用`requests`模块从 UCI 机器学习库加载必要的波士顿住房数据：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+import requests 
+
+sess = tf.Session() 
+```
+
+1.  接下来，我们将使用`requests`模块加载数据：
+
+```py
+housing_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data' 
+housing_header = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] 
+cols_used = ['CRIM', 'INDUS', 'NOX', 'RM', 'AGE', 'DIS', 'TAX', 'PTRATIO', 'B', 'LSTAT'] 
+num_features = len(cols_used) 
+# Request data 
+housing_file = requests.get(housing_url) 
+# Parse Data 
+housing_data = [[float(x) for x in y.split(' ') if len(x)>=1] for y in housing_file.text.split('n') if len(y)>=1] 
+```
+
+1.  接下来，我们将数据分为依赖和独立的特征。我们将预测最后一个变量`MEDV`，这是房屋组的中值。我们也不会使用`ZN`，`CHAS`和`RAD`特征，因为它们没有信息或二元性质：
+
+```py
+y_vals = np.transpose([np.array([y[13] for y in housing_data])]) 
+x_vals = np.array([[x for i,x in enumerate(y) if housing_header[i] in cols_used] for y in housing_data]) 
+
+x_vals = (x_vals - x_vals.min(0)) / x_vals.ptp(0) 
+```
+
+1.  现在，我们将`x`和`y`值分成训练和测试集。我们将通过随机选择大约 80% 的行来创建训练集，并将剩下的 20% 留给测试集：
+
+```py
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices] 
+```
+
+1.  接下来，我们将声明`k`值和批量大小：
+
+```py
+k = 4 
+batch_size=len(x_vals_test)
+```
+
+1.  我们接下来会申报占位符。请记住，没有模型变量需要训练，因为模型完全由我们的训练集确定：
+
+```py
+x_data_train = tf.placeholder(shape=[None, num_features], dtype=tf.float32)
+x_data_test = tf.placeholder(shape=[None, num_features], dtype=tf.float32)
+y_target_train = tf.placeholder(shape=[None, 1], dtype=tf.float32)
+y_target_test = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+```
+
+1.  接下来，我们将为一批测试点创建距离函数。在这里，我们将说明 L1 距离的使用：
+
+```py
+distance = tf.reduce_sum(tf.abs(tf.subtract(x_data_train, tf.expand_dims(x_data_test,1))), reduction_indices=2) 
+```
+
+> 注意，也可以使用 L2 距离函数。我们将距离公式改为`distance = tf.sqrt(tf.reduce_sum(tf.square(tf.subtract(x_data_train, tf.expand_dims(x_data_test,1))), reduction_indices=1))`。
+
+1.  现在，我们将创建我们的预测函数。为此，我们将使用`top_k()`函数，该函数返回张量中最大值的值和索引。由于我们想要最小距离的指数，我们将找到`k` - 最大负距离。我们还将声明目标值的预测和均方误差（MSE）：
+
+```py
+top_k_xvals, top_k_indices = tf.nn.top_k(tf.negative(distance), k=k) 
+x_sums = tf.expand_dims(tf.reduce_sum(top_k_xvals, 1),1) 
+x_sums_repeated = tf.matmul(x_sums,tf.ones([1, k], tf.float32)) 
+x_val_weights = tf.expand_dims(tf.divide(top_k_xvals,x_sums_repeated), 1) 
+
+top_k_yvals = tf.gather(y_target_train, top_k_indices) 
+prediction = tf.squeeze(tf.batch_matmul(x_val_weights,top_k_yvals), squeeze_dims=[1]) 
+mse = tf.divide(tf.reduce_sum(tf.square(tf.subtract(prediction, y_target_test))), batch_size)
+```
+
+1.  现在，我们将遍历测试数据并存储预测和准确率值：
+
+```py
+num_loops = int(np.ceil(len(x_vals_test)/batch_size)) 
+
+for i in range(num_loops): 
+    min_index = i*batch_size 
+    max_index = min((i+1)*batch_size,len(x_vals_train)) 
+    x_batch = x_vals_test[min_index:max_index] 
+    y_batch = y_vals_test[min_index:max_index] 
+    predictions = sess.run(prediction, feed_dict={x_data_train: x_vals_train, x_data_test: x_batch, y_target_train: y_vals_train, y_target_test: y_batch}) 
+    batch_mse = sess.run(mse, feed_dict={x_data_train: x_vals_train, x_data_test: x_batch, y_target_train: y_vals_train, y_target_test: y_batch}) 
+
+    print('Batch #' + str(i+1) + ' MSE: ' + str(np.round(batch_mse,3))) 
+
+Batch #1 MSE: 23.153 
+```
+
+1.  另外，我们可以查看实际目标值与预测值的直方图。看待这一点的一个原因是要注意这样一个事实：使用平均方法，我们无法预测目标的极端：
+
+```py
+bins = np.linspace(5, 50, 45) 
+plt.hist(predictions, bins, alpha=0.5, label='Prediction') 
+plt.hist(y_batch, bins, alpha=0.5, label='Actual') 
+plt.title('Histogram of Predicted and Actual Values') 
+plt.xlabel('Med Home Value in $1,000s') 
+plt.ylabel('Frequency') 
+plt.legend(loc='upper right') 
+plt.show() 
+```
+
+然后我们将获得直方图，如下所示：
+
+![](img/9900e23a-473d-4a23-8864-30cfcc69e691.png)
+
+图 1：KNN 的预测值和实际目标值的直方图（其中`k=4`）
+
+一个难以确定的是`k`的最佳值。对于上图和预测，我们将`k=4`用于我们的模型。我们之所以选择这个，是因为它给了我们最低的 MSE。这通过交叉验证来验证。如果我们在`k`的多个值上使用交叉验证，我们将看到`k=4`给我们一个最小的 MSE。我们在下图中说明了这一点。绘制预测值的方差也是值得的，以表明它会随着我们平均的邻居越多而减少：
+
+![](img/7320b5e5-e41d-4431-9ef1-7fa0b43a5187.png)
+
+图 2：各种`k`值的 KNN 预测的 MSE。我们还绘制了测试集上预测值的方差。请注意，随着`k`的增加，方差会减小。
+
+## 工作原理
+
+使用最近邻算法，模型是训练集。因此，我们不必在模型中训练任何变量。唯一的参数`k`是通过交叉验证确定的，以最大限度地减少我们的 MSE。
+
+## 更多
+
+对于 KNN 的加权，我们选择直接按距离加权。还有其他选择我们也可以考虑。另一种常见方法是通过反平方距离加权。
+
+# 使用基于文本的距离
+
+最近邻比处理数字更通用。只要我们有一种方法来测量特征之间的距离，我们就可以应用最近邻算法。在本文中，我们将介绍如何使用 TensorFlow 测量文本距离。
+
+## 准备
+
+在本文中，我们将说明如何在字符串之间使用 TensorFlow 的文本距离度量，Levenshtein 距离（编辑距离）。这将在本章后面重要，因为我们扩展了最近邻方法以包含带有文本的特征。
+
+Levenshtein 距离是从一个字符串到另一个字符串的最小编辑次数。允许的编辑是插入字符，删除字符或用不同的字符替换字符。对于这个秘籍，我们将使用 TensorFlow 的 Levenshtein 距离函数`edit_distance()`。值得说明这个函数的用法，因为它的用法将适用于后面的章节。
+
+> 请注意，TensorFlow 的`edit_distance()`函数仅接受稀疏张量。我们必须创建我们的字符串作为单个字符的稀疏张量。
+
+## 操作步骤
+
+1.  首先，我们将加载 TensorFlow 并初始化图：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+1.  然后，我们将说明如何计算两个单词`'bear'`和`'beer'`之间的编辑距离。首先，我们将使用 Python 的`list()`函数从我们的字符串创建一个字符列表。接下来，我们将从该列表中创建一个稀疏的 3D 矩阵。我们必须告诉 TensorFlow 字符索引，矩阵的形状以及我们在张量中想要的字符。之后，我们可以决定是否要使用总编辑距离`(normalize=False)`或标准化编辑距离`(normalize=True)`，我们将编辑距离除以第二个单词的长度：
+
+```py
+hypothesis = list('bear') 
+truth = list('beers') 
+h1 = tf.SparseTensor([[0,0,0], [0,0,1], [0,0,2], [0,0,3]], 
+                     hypothesis, [1,1,1]) 
+t1 = tf.SparseTensor([[0,0,0], [0,0,1], [0,0,1], [0,0,3],[0,0,4]], truth, [1,1,1]) 
+
+print(sess.run(tf.edit_distance(h1, t1, normalize=False))) 
+
+[[ 2.]]
+```
+
+> TensorFlow 的文档将两个字符串视为提议（假设）字符串和基础事实字符串。我们将在这里用`h`和`t`张量继续这个表示法。函数`SparseTensorValue()`是一种在 TensorFlow 中创建稀疏张量的方法。它接受我们希望创建的稀疏张量的索引，值和形状。
+
+1.  接下来，我们将说明如何将两个单词`bear`和`beer`与另一个单词`beers`进行比较。为了达到这个目的，我们必须复制`beers`以获得相同数量的可比词：
+
+```py
+hypothesis2 = list('bearbeer') 
+truth2 = list('beersbeers') 
+h2 = tf.SparseTensor([[0,0,0], [0,0,1], [0,0,2], [0,0,3], [0,1,0], [0,1,1], [0,1,2], [0,1,3]], hypothesis2, [1,2,4]) 
+t2 = tf.SparseTensor([[0,0,0], [0,0,1], [0,0,2], [0,0,3], [0,0,4], [0,1,0], [0,1,1], [0,1,2], [0,1,3], [0,1,4]], truth2, [1,2,5]) 
+
+print(sess.run(tf.edit_distance(h2, t2, normalize=True))) 
+
+[[ 0.40000001  0.2      ]]
+```
+
+1.  在此示例中显示了将一组单词与另一单词进行比较的更有效方法。我们将事先为假设和基本真实字符串创建索引和字符列表：
+
+```py
+hypothesis_words = ['bear','bar','tensor','flow'] 
+truth_word = ['beers''] 
+num_h_words = len(hypothesis_words) 
+h_indices = [[xi, 0, yi] for xi,x in enumerate(hypothesis_words) for yi,y in enumerate(x)] 
+h_chars = list(''.join(hypothesis_words)) 
+h3 = tf.SparseTensor(h_indices, h_chars, [num_h_words,1,1]) 
+truth_word_vec = truth_word*num_h_words 
+t_indices = [[xi, 0, yi] for xi,x in enumerate(truth_word_vec) for yi,y in enumerate(x)] 
+t_chars = list(''.join(truth_word_vec)) 
+t3 = tf.SparseTensor(t_indices, t_chars, [num_h_words,1,1]) 
+
+print(sess.run(tf.edit_distance(h3, t3, normalize=True))) 
+
+[[ 0.40000001]
+ [ 0.60000002]
+ [ 0.80000001]
+ [ 1\.        ]]
+```
+
+1.  现在，我们将说明如何使用占位符计算两个单词列表之间的编辑距离。这个概念是一样的，除了我们将`SparseTensorValue()`而不是稀疏张量。首先，我们将创建一个从单词列表创建稀疏张量的函数：
+
+```py
+def create_sparse_vec(word_list): 
+    num_words = len(word_list) 
+    indices = [[xi, 0, yi] for xi,x in enumerate(word_list) for yi,y in enumerate(x)] 
+    chars = list(''.join(word_list)) 
+    return(tf.SparseTensorValue(indices, chars, [num_words,1,1])) 
+
+hyp_string_sparse = create_sparse_vec(hypothesis_words) 
+truth_string_sparse = create_sparse_vec(truth_word*len(hypothesis_words)) 
+
+hyp_input = tf.sparse_placeholder(dtype=tf.string) 
+truth_input = tf.sparse_placeholder(dtype=tf.string) 
+
+edit_distances = tf.edit_distance(hyp_input, truth_input, normalize=True) 
+
+feed_dict = {hyp_input: hyp_string_sparse, 
+             truth_input: truth_string_sparse} 
+
+print(sess.run(edit_distances, feed_dict=feed_dict)) 
+
+[[ 0.40000001]
+ [ 0.60000002]
+ [ 0.80000001]
+ [ 1\.        ]]
+```
+
+## 工作原理
+
+在这个秘籍中，我们展示了我们可以使用 TensorFlow 以多种方式测量文本距离。这对于在具有文本特征的数据上执行最近邻非常有用。当我们执行地址匹配时，我们将在本章后面看到更多内容。
+
+## 更多
+
+我们应该讨论其他文本距离指标。这是一个定义表，描述了两个字符串`s1`和`s2`之间的其他文本距离：
+
+| 名称 | 描述 | 公式 |
+| --- | --- | --- |
+| 汉明距离 | 相同位置的相等字符的数量。仅在字符串长度相等时有效。 | ![](img/3f9a30b1-0aff-4c8d-b1ca-f00744f177cf.png)，其中`I`是相等字符的指示函数。 |
+| 余弦距离 | `k`差异的点积除以`k`差异的 L2 范数。 | ![](img/0015e197-fc53-491a-82a0-9d1acfc4b795.png) |
+| 雅克卡距离 | 共同的字符数除以两个字符串中的字符总和。 | ![](img/b9646b5b-e1cf-4fc1-9099-9dd1c9813b07.png) |
+
+# 使用混合距离函数的计算
+
+在处理具有多个特征的数据观察时，我们应该意识到特征可以在不同的尺度上以不同的方式缩放。在这个方案中，我们将考虑到这一点，以改善我们的住房价值预测。
+
+## 准备
+
+扩展最近邻算法很重要，要考虑不同缩放的变量。在这个例子中，我们将说明如何缩放不同变量的距离函数。具体来说，我们将距离函数作为特征方差的函数进行缩放。
+
+加权距离函数的关键是使用权重矩阵。用矩阵运算写的距离函数变为以下公式：
+
+![](img/4b4a519d-305e-4b3b-85b9-2b05a51aaeb7.png)
+
+这里，`A`是一个对角线权重矩阵，我们将用它来缩放每个特征的距离度量。
+
+在本文中，我们将尝试在波士顿住房价值数据集上改进我们的 MSE。该数据集是不同尺度上的特征的一个很好的例子，并且最近邻算法将受益于缩放距离函数。
+
+## 操作步骤
+
+我们将按如下方式处理秘籍：
+
+1.  首先，我们将加载必要的库并启动图会话：
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import tensorflow as tf
+import requests
+sess = tf.Session() 
+```
+
+1.  接下来，我们将加载数据并将其存储在 NumPy 数组中。再次注意，我们只会使用某些列进行预测。我们不使用 id，也不使用方差非常低的变量：
+
+```py
+housing_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data' 
+housing_header = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] 
+cols_used = ['CRIM', 'INDUS', 'NOX', 'RM', 'AGE', 'DIS', 'TAX', 'PTRATIO', 'B', 'LSTAT'] 
+num_features = len(cols_used) 
+housing_file = requests.get(housing_url) 
+housing_data = [[float(x) for x in y.split(' ') if len(x)>=1] for y in housing_file.text.split('\n') if len(y)>=1] 
+y_vals = np.transpose([np.array([y[13] for y in housing_data])]) 
+x_vals = np.array([[x for i,x in enumerate(y) if housing_header[i] in cols_used] for y in housing_data]) 
+```
+
+1.  现在，我们将`x`值缩放到 0 到 1 之间，最小 - 最大缩放：
+
+```py
+x_vals = (x_vals - x_vals.min(0)) / x_vals.ptp(0)
+```
+
+1.  然后，我们将创建对角线权重矩阵，该矩阵将通过特征的标准偏差提供距离度量的缩放：
+
+```py
+weight_diagonal = x_vals.std(0) 
+weight_matrix = tf.cast(tf.diag(weight_diagonal), dtype=tf.float32)
+```
+
+1.  现在，我们将数据分成训练和测试集。我们还将声明`k`，最近邻的数量，并使批量大小等于测试集大小：
+
+```py
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices] 
+k = 4 
+batch_size=len(x_vals_test) 
+```
+
+1.  我们将声明接下来需要的占位符。我们有四个占位符 - 训练和测试集的[​​HTG0] - 输入和`y` - 目标：
+
+```py
+x_data_train = tf.placeholder(shape=[None, num_features], dtype=tf.float32) 
+x_data_test = tf.placeholder(shape=[None, num_features], dtype=tf.float32) 
+y_target_train = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+y_target_test = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+```
+
+1.  现在，我们可以声明我们的距离函数。为了便于阅读，我们将把距离函数分解为其组件。请注意，我们必须按批量大小平铺权重矩阵，并使用`batch_matmul()`函数在批量大小中执行批量矩阵乘法：
+
+```py
+subtraction_term =  tf.subtract(x_data_train, tf.expand_dims(x_data_test,1)) 
+first_product = tf.batch_matmul(subtraction_term, tf.tile(tf.expand_dims(weight_matrix,0), [batch_size,1,1])) 
+second_product = tf.batch_matmul(first_product, tf.transpose(subtraction_term, perm=[0,2,1])) 
+distance = tf.sqrt(tf.batch_matrix_diag_part(second_product))
+```
+
+1.  在我们计算每个测试点的所有训练距离之后，我们将需要返回顶部 KNN。我们可以使用`top_k()`函数执行此操作。由于此函数返回最大值，并且我们想要最小距离，因此我们返回最大的负距离值。然后，我们将预测作为顶部`k`邻居的距离的加权平均值：
+
+```py
+top_k_xvals, top_k_indices = tf.nn.top_k(tf.neg(distance), k=k) 
+x_sums = tf.expand_dims(tf.reduce_sum(top_k_xvals, 1),1) 
+x_sums_repeated = tf.matmul(x_sums,tf.ones([1, k], tf.float32)) 
+x_val_weights = tf.expand_dims(tf.div(top_k_xvals,x_sums_repeated), 1) 
+top_k_yvals = tf.gather(y_target_train, top_k_indices) 
+prediction = tf.squeeze(tf.batch_matmul(x_val_weights,top_k_yvals), squeeze_dims=[1]) 
+```
+
+1.  为了评估我们的模型，我们将计算预测的 MSE：
+
+```py
+mse = tf.divide(tf.reduce_sum(tf.square(tf.subtract(prediction, y_target_test))), batch_size) 
+```
+
+1.  现在，我们可以遍历我们的测试批次并计算每个的 MSE：
+
+```py
+num_loops = int(np.ceil(len(x_vals_test)/batch_size))
+for i in range(num_loops):
+    min_index = i*batch_size
+    max_index = min((i+1)*batch_size,len(x_vals_train))
+    x_batch = x_vals_test[min_index:max_index]
+    y_batch = y_vals_test[min_index:max_index]
+    predictions = sess.run(prediction, feed_dict={x_data_train: x_vals_train, x_data_test: x_batch, y_target_train: y_vals_train, y_target_test: y_batch})
+    batch_mse = sess.run(mse, feed_dict={x_data_train: x_vals_train, x_data_test: x_batch, y_target_train: y_vals_train, y_target_test: y_batch})
+    print('Batch #' + str(i+1) + ' MSE: ' + str(np.round(batch_mse,3))) 
+
+Batch #1 MSE: 21.322
+```
+
+1.  作为最终比较，我们可以使用以下代码绘制实际测试集的住房值分布和测试集的预测：
+
+```py
+bins = np.linspace(5, 50, 45) 
+plt.hist(predictions, bins, alpha=0.5, label='Prediction') 
+plt.hist(y_batch, bins, alpha=0.5, label='Actual') 
+plt.title('Histogram of Predicted and Actual Values') 
+plt.xlabel('Med Home Value in $1,000s') 
+plt.ylabel('Frequency') 
+plt.legend(loc='upper right') 
+plt.show() 
+```
+
+我们将获得前面代码的以下直方图：
+
+![](img/5d0b3e2a-6c96-4934-9065-a903836c40e9.png)
+
+图 3：波士顿数据集上预测房屋价值和实际房屋价值的两个直方图；这一次，我们为每个特征不同地缩放了距离函数
+
+## 工作原理
+
+我们通过引入一种缩放每个特征的距离函数的方法来减少测试集上的 MSE。在这里，我们通过特征标准偏差的因子来缩放距离函数。这提供了更准确的测量视图，其中测量哪些点是最近的邻居。由此，我们还将顶部`k`邻域的加权平均值作为距离的函数，以获得住房价值预测。
+
+## 更多
+
+该缩放因子还可以用于最近邻距离计算中的向下加权或向上加权的特征。这在我们比某些特征更信任某些特征的情况下非常有用。
+
+# 使用地址匹配的示例
+
+现在我们已经测量了数值和文本距离，我们将花一些时间学习如何将它们组合起来测量具有文本和数字特征的观察之间的距离。
+
+## 准备
+
+最近邻是一种用于地址匹配的好算法。地址匹配是一种记录匹配，其中我们在多个数据集中具有地址并且想要匹配它们。在地址匹配中，我们可能在地址，不同城市或不同的邮政编码中存在拼写错误，但它们可能都指向相同的地址。在地址的数字和字符组件上使用最近邻算法可以帮助我们识别实际上相同的地址。
+
+在此示例中，我们将生成两个数据集。每个数据集将包含街道地址和邮政编码。但是，一个数据集在街道地址中存在大量拼写错误。我们将非拼写数据集作为我们的黄金标准，并将为每个拼写错误地址返回一个地址，该地址最接近字符串距离（对于街道）和数字距离（对于邮政编码）的函数。
+
+代码的第一部分将侧重于生成两个数据集。然后，代码的第二部分将运行测试集并返回训练集中最接近的地址。
+
+## 操作步骤
+
+我们将按如下方式处理秘籍：
+
+1.  我们将从加载必要的库开始：
+
+```py
+import random 
+import string 
+import numpy as np 
+import tensorflow as tf 
+```
+
+1.  我们现在将创建参考数据集。为了显示简洁的输出，我们只会使每个数据集由`10`地址组成（但它可以运行更多）：
+
+```py
+n = 10 street_names = ['abbey', 'baker', 'canal', 'donner', 'elm']
+street_types = ['rd', 'st', 'ln', 'pass', 'ave'] 
+rand_zips = [random.randint(65000,65999) for i in range(5)] 
+numbers = [random.randint(1, 9999) for i in range(n)] 
+streets = [random.choice(street_names) for i in range(n)] 
+street_suffs = [random.choice(street_types) for i in range(n)] 
+zips = [random.choice(rand_zips) for i in range(n)] 
+full_streets = [str(x) + ' ' + y + ' ' + z for x,y,z in zip(numbers, streets, street_suffs)] 
+reference_data = [list(x) for x in zip(full_streets,zips)] 
+```
+
+1.  要创建测试集，我们需要一个函数，它将在字符串中随机创建一个拼写错误并返回结果字符串：
+
+```py
+def create_typo(s, prob=0.75):
+    if random.uniform(0,1) < prob:
+        rand_ind = random.choice(range(len(s)))
+        s_list = list(s)
+        s_list[rand_ind]=random.choice(string.ascii_lowercase)
+        s = ''.join(s_list)
+    return s
+
+typo_streets = [create_typo(x) for x in streets]
+typo_full_streets = [str(x) + ' ' + y + ' ' + z for x,y,z in zip(numbers, typo_streets, street_suffs)]
+test_data = [list(x) for x in zip(typo_full_streets,zips)] 
+```
+
+1.  现在，我们可以初始化图会话并声明我们需要的占位符。我们在每个测试和参考集中需要四个占位符，我们需要一个地址和邮政编码占位符：
+
+```py
+sess = tf.Session() 
+test_address = tf.sparse_placeholder( dtype=tf.string) 
+test_zip = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+ref_address = tf.sparse_placeholder(dtype=tf.string) 
+ref_zip = tf.placeholder(shape=[None, n], dtype=tf.float32) 
+```
+
+1.  现在，我们将声明数字拉链距离和地址字符串的编辑距离：
+
+```py
+zip_dist = tf.square(tf.subtract(ref_zip, test_zip)) 
+address_dist = tf.edit_distance(test_address, ref_address, normalize=True)
+```
+
+1.  我们现在将拉链距离和地址距离转换为相似之处。对于相似性，当两个输入完全相同时，我们想要`1`的相似性，当它们非常不同时，我们想要`0`附近。对于拉链距离，我们可以通过获取距离，从最大值减去，然后除以距离的范围来实现。对于地址相似性，由于距离已经在`0`和`1`之间缩放，我们只需从 1 中减去它以获得相似性：
+
+```py
+zip_max = tf.gather(tf.squeeze(zip_dist), tf.argmax(zip_dist, 1)) 
+zip_min = tf.gather(tf.squeeze(zip_dist), tf.argmin(zip_dist, 1)) 
+zip_sim = tf.divide(tf.subtract(zip_max, zip_dist), tf.subtract(zip_max, zip_min)) 
+address_sim = tf.subtract(1., address_dist) 
+```
+
+1.  为了结合两个相似度函数，我们将采用两者的加权平均值。对于这个秘籍，我们对地址和邮政编码给予同等重视。我们可以根据我们对每个特征的信任程度来改变这一点。然后，我们将返回参考集的最高相似度的索引：
+
+```py
+address_weight = 0.5 
+zip_weight = 1\. - address_weight 
+weighted_sim = tf.add(tf.transpose(tf.multiply(address_weight, address_sim)), tf.multiply(zip_weight, zip_sim)) 
+top_match_index = tf.argmax(weighted_sim, 1) 
+```
+
+1.  为了在 TensorFlow 中使用编辑距离，我们必须将地址字符串转换为稀疏向量。在本章的先前秘籍中，使用基于文本的距离，我们创建了以下函数，我们也将在此秘籍中使用它：
+
+```py
+def sparse_from_word_vec(word_vec): 
+    num_words = len(word_vec) 
+    indices = [[xi, 0, yi] for xi,x in enumerate(word_vec) for yi,y in enumerate(x)] 
+    chars = list(''.join(word_vec)) 
+    # Now we return our sparse vector 
+    return tf.SparseTensorValue(indices, chars, [num_words,1,1])
+```
+
+1.  我们需要将参考数据集中的地址和邮政编码分开，以便在循环测试集时将它们提供给占位符：
+
+```py
+reference_addresses = [x[0] for x in reference_data] 
+reference_zips = np.array([[x[1] for x in reference_data]])
+```
+
+1.  我们需要使用我们在步骤 8 中创建的函数创建稀疏张量参考地址集：
+
+```py
+sparse_ref_set = sparse_from_word_vec(reference_addresses)
+```
+
+1.  现在，我们可以循环遍历测试集的每个条目，并返回它最接近的引用集的索引。我们将为每个条目打印测试和参考集。如您所见，我们在此生成的数据集中获得了很好的结果：
+
+```py
+for i in range(n): 
+    test_address_entry = test_data[i][0] 
+    test_zip_entry = [[test_data[i][1]]] 
+
+    # Create sparse address vectors 
+    test_address_repeated = [test_address_entry] * n 
+    sparse_test_set = sparse_from_word_vec(test_address_repeated) 
+
+    feeddict={test_address: sparse_test_set, 
+               test_zip: test_zip_entry, 
+               ref_address: sparse_ref_set, 
+               ref_zip: reference_zips} 
+    best_match = sess.run(top_match_index, feed_dict=feeddict)
+    best_street = reference_addresses[best_match[0]]
+    [best_zip] = reference_zips[0][best_match]
+    [[test_zip_]] = test_zip_entry
+    print('Address: ' + str(test_address_entry) + ', ' + str(test_zip_))
+    print('Match : ' + str(best_street) + ', ' + str(best_zip))
+```
+
+我们将得到以下结果：
+
+```py
+Address: 8659 beker ln, 65463 
+Match  : 8659 baker ln, 65463 
+Address: 1048 eanal ln, 65681 
+Match  : 1048 canal ln, 65681 
+Address: 1756 vaker st, 65983 
+Match  : 1756 baker st, 65983 
+Address: 900 abbjy pass, 65983 
+Match  : 900 abbey pass, 65983 
+Address: 5025 canal rd, 65463 
+Match  : 5025 canal rd, 65463 
+Address: 6814 elh st, 65154 
+Match  : 6814 elm st, 65154 
+Address: 3057 cagal ave, 65463 
+Match  : 3057 canal ave, 65463 
+Address: 7776 iaker ln, 65681 
+Match  : 7776 baker ln, 65681 
+Address: 5167 caker rd, 65154
+```
+
+```py
+Match  : 5167 baker rd, 65154 
+Address: 8765 donnor st, 65154 
+Match  : 8765 donner st, 65154 
+```
+
+## 工作原理
+
+在像这样的地址匹配问题中要弄清楚的一个难点是权重的值以及如何缩放距离。这可能需要对数据本身进行一些探索和洞察。此外，在处理地址时，我们应该考虑除此处使用的组件之外的组件。我们可以将街道号码视为街道地址的独立组成部分，甚至可以包含其他组成部分，例如城市和州。
+
+> 处理数字地址组件时，请注意它们可以被视为数字（具有数字距离）或字符（具有编辑距离）。由您决定选择哪个。请注意，如果我们认为邮政编码中的拼写错误来自人为错误而不是计算机映射错误，我们可以考虑使用邮政编码的编辑距离。
+
+为了了解拼写错误如何影响结果，我们鼓励读者更改拼写错误函数以进行更多拼写错误或更频繁的拼写错误，并增加数据集大小以查看此算法的工作情况。
+
+# 使用最近邻进行图像识别
+
+最近邻也可用于图像识别。图像识别数据集的问题世界是 MNIST 手写数字数据集。由于我们将在后面的章节中将此数据集用于各种神经网络图像识别算法，因此将结果与非神经网络算法进行比较将会很棒。
+
+## 准备
+
+MNIST 数字数据集由数千个大小为`28×28`像素的标记图像组成。虽然这被认为是一个小图像，但它对于最近邻算法总共有 784 个像素（或特征）。我们将通过考虑最近的`k`邻居（`k=4`，在该示例中）的模式预测来计算该分类问题的最近邻预测。
+
+## 操作步骤
+
+我们将按如下方式处理秘籍：
+
+1.  我们将从加载必要的库开始。请注意，我们还将导入 Python 图像库（PIL），以便能够绘制预测输出的样本。 TensorFlow 有一个内置方法来加载我们将使用的 MNIST 数据集，如下所示：
+
+```py
+import random 
+import numpy as np 
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+from PIL import Image 
+from tensorflow.examples.tutorials.mnist import input_data 
+```
+
+1.  现在，我们将启动图会话并以单热编码形式加载 MNIST 数据：
+
+```py
+sess = tf.Session() 
+mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
+```
+
+> 单热编码是更适合数值计算的分类值的数值表示。这里，我们有 10 个类别（数字 0-9），并将它们表示为长度为 10 的 0-1 向量。例如，类别 0 由向量`1,0,0,0,0,0`表示，类别 1 用`0,1,0,0,0,0`表示，依此类推。
+
+1.  因为 MNIST 数据集很大并且计算数万个输入上的 784 个特征之间的距离在计算上是困难的，所以我们将采样一组较小的图像来训练。此外，我们将选择一个可被 6 整除的测试集编号，仅用于绘图目的，因为我们将绘制最后一批六个图像以查看结果的示例：
+
+```py
+train_size = 1000 
+test_size = 102 
+rand_train_indices = np.random.choice(len(mnist.train.images), train_size, replace=False) 
+rand_test_indices = np.random.choice(len(mnist.test.images), test_size, replace=False) 
+x_vals_train = mnist.train.images[rand_train_indices] 
+x_vals_test = mnist.test.images[rand_test_indices] 
+y_vals_train = mnist.train.labels[rand_train_indices] 
+y_vals_test = mnist.test.labels[rand_test_indices]
+```
+
+1.  我们将声明我们的`k`值和批量大小：
+
+```py
+k = 4 
+batch_size=6 
+```
+
+1.  现在，我们将初始化将添加到图中的占位符：
+
+```py
+x_data_train = tf.placeholder(shape=[None, 784], dtype=tf.float32) 
+x_data_test = tf.placeholder(shape=[None, 784], dtype=tf.float32) 
+y_target_train = tf.placeholder(shape=[None, 10], dtype=tf.float32) 
+y_target_test = tf.placeholder(shape=[None, 10], dtype=tf.float32) 
+```
+
+1.  然后我们将声明我们的距离度量。在这里，我们将使用 L1 度量（绝对值）：
+
+```py
+distance = tf.reduce_sum(tf.abs(tf.subtract(x_data_train, tf.expand_dims(x_data_test,1))), reduction_indices=2) 
+```
+
+> 请注意，我们也可以使用以下代码来改变距离函数：`distance = tf.sqrt(tf.reduce_sum(tf.square(tf.subtract(x_data_train, tf.expand_dims(x_data_test,1))), reduction_indices=1))`。
+
+1.  现在，我们将找到最接近的顶级`k`图像并预测模式。该模式将在单热编码索引上执行，计数最多：
+
+```py
+top_k_xvals, top_k_indices = tf.nn.top_k(tf.negative(distance), k=k) 
+prediction_indices = tf.gather(y_target_train, top_k_indices) 
+count_of_predictions = tf.reduce_sum(prediction_indices, reduction_indices=1) 
+prediction = tf.argmax(count_of_predictions) 
+```
+
+1.  我们现在可以遍历我们的测试集，计算预测并存储它们，如下所示：
+
+```py
+num_loops = int(np.ceil(len(x_vals_test)/batch_size)) 
+test_output = [] 
+actual_vals = [] 
+for i in range(num_loops): 
+    min_index = i*batch_size 
+    max_index = min((i+1)*batch_size,len(x_vals_train)) 
+    x_batch = x_vals_test[min_index:max_index] 
+    y_batch = y_vals_test[min_index:max_index] 
+    predictions = sess.run(prediction, feed_dict={x_data_train: x_vals_train, x_data_test: x_batch, y_target_train: y_vals_train, y_target_test: y_batch}) 
+    test_output.extend(predictions) 
+    actual_vals.extend(np.argmax(y_batch, axis=1)) 
+```
+
+1.  现在我们已经保存了实际和预测的输出，我们可以计算出准确率。由于我们对测试/训练数据集进行随机抽样，这会发生变化，但最终我们的准确率值应该在 80%-90% 左右：
+
+```py
+accuracy = sum([1./test_size for i in range(test_size) if test_output[i]==actual_vals[i]]) 
+print('Accuracy on test set: ' + str(accuracy)) 
+Accuracy on test set: 0.8333333333333325 
+```
+
+1.  以下是绘制前面批量结果的代码：
+
+```py
+actuals = np.argmax(y_batch, axis=1) 
+Nrows = 2 
+Ncols = 3 
+for i in range(len(actuals)): 
+    plt.subplot(Nrows, Ncols, i+1) 
+    plt.imshow(np.reshape(x_batch[i], [28,28]), cmap='Greys_r') 
+    plt.title('Actual: ' + str(actuals[i]) + ' Pred: ' + str(predictions[i]), fontsize=10) 
+    frame = plt.gca() 
+    frame.axes.get_xaxis().set_visible(False) 
+    frame.axes.get_yaxis().set_visible(False) 
+```
+
+结果如下：
+
+![](img/37d1bd73-254f-4a86-b749-9d0b476f388b.png)
+
+图 4：我们运行最近邻预测的最后一批六个图像。我们可以看到，我们并没有完全正确地获得所有图像。
+
+## 工作原理
+
+给定足够的计算时间和计算资源，我们可以使测试和训练集更大。这可能会提高我们的准确率，也是防止过拟合的常用方法。另外，请注意，此算法需要进一步探索理想的`k`值进行选择。可以在数据集上进行一组交叉验证实验后选择`k`值。
+
+## 更多
+
+我们还可以使用最近邻算法来评估用户看不见的数字。有关使用此模型评估用户输入数字的方法，[请参阅在线仓库](https://github.com/nfmcclure/tensorflow_cookbook)。
+
+在本章中，我们探讨了如何使用 KNN 算法进行回归和分类。我们讨论了距离函数的不同用法，以及如何将它们混合在一起。我们鼓励读者探索不同的距离度量，权重和`k`值，以优化这些方法的准确率。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch06.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch06.md
new file mode 100644
index 00000000..39d1eae4
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch06.md
@@ -0,0 +1,1545 @@
+# 六、神经网络
+
+在本章中，我们将介绍神经网络以及如何在 TensorFlow 中实现它们。大多数后续章节将基于神经网络，因此学习如何在 TensorFlow 中使用它们非常重要。在开始使用多层网络之前，我们将首先介绍神经网络的基本概念。在上一节中，我们将创建一个神经网络，学习如何玩井字棋。
+
+在本章中，我们将介绍以下秘籍：
+
+*   实现操作门
+*   使用门和激活函数
+*   实现单层神经网络
+*   实现不同的层
+*   使用多层网络
+*   改进线性模型的预测
+*   学习玩井字棋
+
+读者可以在 [Github](https://github.com/nfmcclure/tensorflow_cookbook) 和[ Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)中找到本章中的所有代码。
+
+# 介绍
+
+神经网络目前在诸如图像和语音识别，阅读手写，理解文本，图像分割，对话系统，自动驾驶汽车等任务中打破记录。虽然这些上述任务中的一些将在后面的章节中介绍，但重要的是将神经网络作为一种易于实现的机器学习算法引入，以便我们以后可以对其进行扩展。
+
+神经网络的概念已经存在了几十年。然而，它最近才获得牵引力，因为我们现在具有训练大型网络的计算能力，因为处理能力，算法效率和数据大小的进步。
+
+神经网络基本上是应用于输入数据矩阵的一系列操作。这些操作通常是加法和乘法的集合，然后是非线性函数的应用。我们已经看到的一个例子是逻辑回归，我们在第 3 章，线性回归中看到了这一点。逻辑回归是部分斜率 - 特征乘积的总和，其后是应用 Sigmoid 函数，这是非线性的。神经网络通过允许操作和非线性函数的任意组合（包括绝对值，最大值，最小值等的应用）来进一步概括这一点。
+
+神经网络的重要技巧称为反向传播。反向传播是一种允许我们根据学习率和损失函数输出更新模型变量的过程。我们使用反向传播来更新第 3 章，线性回归和第 4 章，支持向量机中的模型变量。
+
+关于神经网络的另一个重要特征是非线性激活函数。由于大多数神经网络只是加法和乘法运算的组合，因此它们无法对非线性数据集进行建模。为了解决这个问题，我们在神经网络中使用了非线性激活函数。这将允许神经网络适应大多数非线性情况。
+
+重要的是要记住，正如我们在许多算法中所看到的，神经网络对我们选择的超参数敏感。在本章中，我们将探讨不同学习率，损失函数和优化程序的影响。
+
+> 学习神经网络的资源更多，更深入，更详细地涵盖了该主题。这些资源如下：
+
+*   [描述反向传播的开创性论文是 Yann LeCun 等人的 Efficient Back Prop](http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf)
+*   [CS231，用于视觉识别的卷积神经网络，由斯坦福大学提供。](http://cs231n.stanford.edu/)
+*   [CS224d，斯坦福大学自然语言处理的深度学习。](http://cs224d.stanford.edu/)
+*   [深度学习，麻省理工学院出版社出版的一本书，Goodfellow 等人，2016]http://www.deeplearningbook.org)。
+
+*   迈克尔·尼尔森（Michael Nielsen）有一本名为[“神经网络与深度学习”](http://neuralnetworksanddeeplearning.com/)的在线书籍。
+*   对于一个更实用的方法和神经网络的介绍，Andrej Karpathy 用 JavaScript 实例写了一个很棒的总结，称为[黑客的神经网络指南](http://karpathy.github.io/neuralnets/)。
+*   另一个总结深度学习的网站被 Ian Goodfellow，Yoshua Bengio 和 Aaron Courville 称为[初学者深度学习](http://randomekek.github.io/deep/deeplearning.html)。
+
+# 实现操作门
+
+神经网络最基本的概念之一是作为操作门操作。在本节中，我们将从乘法操作开始作为门，然后再继续考虑嵌套门操作。
+
+## 准备
+
+我们将实现的第一个操作门是`f(x) = a · x`。为优化此门，我们将`a`输入声明为变量，将`x`输入声明为占位符。这意味着 TensorFlow 将尝试更改`a`值而不是`x`值。我们将创建损失函数作为输出和目标值之间的差异，即 50。
+
+第二个嵌套操作门将是`f(x) = a · x + b`。同样，我们将`a`和`b`声明为变量，将`x`声明为占位符。我们再次将输出优化到目标值 50。值得注意的是，第二个例子的解决方案并不是唯一的。有许多模型变量组合可以使输出为 50.对于神经网络，我们并不关心中间模型变量的值，而是更加强调所需的输出。
+
+将这些操作视为我们计算图上的操作门。下图描绘了前面两个示例：
+
+![](img/d954838e-bc84-4659-be40-91028c951c64.png)
+
+图 1：本节中的两个操作门示例
+
+## 操作步骤
+
+要在 TensorFlow 中实现第一个操作门`f(x) = a · x`并将输出训练为值 50，请按照下列步骤操作：
+
+1.  首先加载`TensorFlow`并创建图会话，如下所示：
+
+```py
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+1.  现在我们需要声明我们的模型变量，输入数据和占位符。我们使输入数据等于值`5`，因此得到 50 的乘法因子将为 10（即`5X10=50`），如下所示：
+
+```py
+a = tf.Variable(tf.constant(4.))
+x_val = 5.
+x_data = tf.placeholder(dtype=tf.float32)
+```
+
+1.  接下来，我们使用以下输入将操作添加到计算图中：
+
+```py
+multiplication = tf.multiply(a, x_data) 
+```
+
+1.  我们现在将损失函数声明为输出与`50`的期望目标值之间的 L2 距离，如下所示：
+
+```py
+loss = tf.square(tf.subtract(multiplication, 50.)) 
+```
+
+1.  现在我们初始化我们的模型变量并将我们的优化算法声明为标准梯度下降，如下所示：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+my_opt = tf.train.GradientDescentOptimizer(0.01) 
+train_step = my_opt.minimize(loss)
+```
+
+1.  我们现在可以将模型输出优化到`50`的期望值。我们通过连续输入 5 的输入值并反向传播损失来将模型变量更新为`10`的值，如下所示：
+
+```py
+print('Optimizing a Multiplication Gate Output to 50.') 
+for i in range(10): 
+    sess.run(train_step, feed_dict={x_data: x_val}) 
+    a_val = sess.run(a) 
+    mult_output = sess.run(multiplication, feed_dict={x_data: x_val}) 
+    print(str(a_val) + ' * ' + str(x_val) + ' = ' + str(mult_output)) 
+```
+
+1.  上一步应该产生以下输出：
+
+```py
+Optimizing a Multiplication Gate Output to 50\. 
+7.0 * 5.0 = 35.0 
+8.5 * 5.0 = 42.5 
+9.25 * 5.0 = 46.25 
+9.625 * 5.0 = 48.125 
+9.8125 * 5.0 = 49.0625 
+9.90625 * 5.0 = 49.5312 
+9.95312 * 5.0 = 49.7656 
+9.97656 * 5.0 = 49.8828 
+9.98828 * 5.0 = 49.9414 
+9.99414 * 5.0 = 49.9707 
+```
+
+接下来，我们将对两个嵌套的操作门`f(x) = a · x + b`进行相同的操作。
+
+1.  我们将以与前面示例完全相同的方式开始，但将初始化两个模型变量`a`和`b`，如下所示：
+
+```py
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+sess = tf.Session() 
+
+a = tf.Variable(tf.constant(1.)) 
+b = tf.Variable(tf.constant(1.)) 
+x_val = 5\. 
+x_data = tf.placeholder(dtype=tf.float32) 
+
+two_gate = tf.add(tf.multiply(a, x_data), b) 
+
+loss = tf.square(tf.subtract(two_gate, 50.)) 
+
+my_opt = tf.train.GradientDescentOptimizer(0.01) 
+train_step = my_opt.minimize(loss) 
+
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  我们现在优化模型变量以将输出训练到`50`的目标值，如下所示：
+
+```py
+print('Optimizing Two Gate Output to 50.') 
+for i in range(10): 
+    # Run the train step 
+    sess.run(train_step, feed_dict={x_data: x_val}) 
+    # Get the a and b values 
+    a_val, b_val = (sess.run(a), sess.run(b)) 
+    # Run the two-gate graph output 
+    two_gate_output = sess.run(two_gate, feed_dict={x_data: x_val}) 
+    print(str(a_val) + ' * ' + str(x_val) + ' + ' + str(b_val) + ' = ' + str(two_gate_output)) 
+```
+
+1.  上一步应该产生以下输出：
+
+```py
+Optimizing Two Gate Output to 50\. 
+5.4 * 5.0 + 1.88 = 28.88 
+7.512 * 5.0 + 2.3024 = 39.8624 
+8.52576 * 5.0 + 2.50515 = 45.134 
+9.01236 * 5.0 + 2.60247 = 47.6643 
+9.24593 * 5.0 + 2.64919 = 48.8789 
+9.35805 * 5.0 + 2.67161 = 49.4619 
+9.41186 * 5.0 + 2.68237 = 49.7417 
+9.43769 * 5.0 + 2.68754 = 49.876 
+9.45009 * 5.0 + 2.69002 = 49.9405 
+9.45605 * 5.0 + 2.69121 = 49.9714 
+```
+
+> 这里需要注意的是，第二个例子的解决方案并不是唯一的。这在神经网络中并不重要，因为所有参数都被调整为减少损失。这里的最终解决方案将取决于`a`和`b`的初始值。如果这些是随机初始化的，而不是值 1，我们会看到每次迭代的模型变量的不同结束值。
+
+## 工作原理
+
+我们通过 TensorFlow 的隐式反向传播实现了计算门的优化。 TensorFlow 跟踪我们的模型的操作和变量值，并根据我们的优化算法规范和损失函数的输出进行调整。
+
+我们可以继续扩展操作门，同时跟踪哪些输入是变量，哪些输入是数据。这对于跟踪是很重要的，因为 TensorFlow 将更改所有变量以最小化损失而不是数据，这被声明为占位符。
+
+每个训练步骤自动跟踪计算图并自动更新模型变量的隐式能力是 TensorFlow 的强大功能之一，也是它如此强大的原因之一。
+
+# 使用门和激活函数
+
+现在我们可以将操作门连接在一起，我们希望通过激活函数运行计算图输出。在本节中，我们将介绍常见的激活函数。
+
+## 准备
+
+在本节中，我们将比较和对比两种不同的激活函数：Sigmoid 和整流线性单元（ReLU）。回想一下，这两个函数由以下公式给出：
+
+![](img/99793b89-d872-4349-adf9-0b04b07b05dd.png)
+
+![](img/e27c24a9-4e98-404e-a085-9019936fe3d4.png)
+
+在这个例子中，我们将创建两个具有相同结构的单层神经网络，除了一个将通过 sigmoid 激活并且一个将通过 ReLU 激活。损失函数将由距离值 0.75 的 L2 距离控制。我们将从正态分布`(Normal(mean=2, sd=0.1))`中随机抽取批量数据，然后将输出优化为 0.75。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们将首先加载必要的库并初始化图。这也是我们可以提出如何使用 TensorFlow 设置随机种子的好点。由于我们将使用 NumPy 和 TensorFlow 中的随机数生成器，因此我们需要为两者设置随机种子。使用相同的随机种子集，我们应该能够复制结果。我们通过以下输入执行此操作：
+
+```py
+import tensorflow as tf 
+import numpy as np 
+import matplotlib.pyplot as plt 
+sess = tf.Session() 
+tf.set_random_seed(5) 
+np.random.seed(42) 
+```
+
+1.  现在我们需要声明我们的批量大小，模型变量，数据和占位符来输入数据。我们的计算图将包括将我们的正态分布数据输入到两个相似的神经网络中，这两个神经网络的区别仅在于激活函数。结束，如下所示：
+
+```py
+batch_size = 50 
+a1 = tf.Variable(tf.random_normal(shape=[1,1])) 
+b1 = tf.Variable(tf.random_uniform(shape=[1,1])) 
+a2 = tf.Variable(tf.random_normal(shape=[1,1])) 
+b2 = tf.Variable(tf.random_uniform(shape=[1,1])) 
+x = np.random.normal(2, 0.1, 500) 
+x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+```
+
+1.  接下来，我们将声明我们的两个模型，即 sigmoid 激活模型和 ReLU 激活模型，如下所示：
+
+```py
+sigmoid_activation = tf.sigmoid(tf.add(tf.matmul(x_data, a1), b1)) 
+relu_activation = tf.nn.relu(tf.add(tf.matmul(x_data, a2), b2)) 
+```
+
+1.  损失函数将是模型输出与值 0.75 之间的平均 L2 范数，如下所示：
+
+```py
+loss1 = tf.reduce_mean(tf.square(tf.subtract(sigmoid_activation, 0.75))) 
+loss2 = tf.reduce_mean(tf.square(tf.subtract(relu_activation, 0.75)))
+```
+
+1.  现在我们需要声明我们的优化算法并初始化我们的变量，如下所示：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.01) 
+train_step_sigmoid = my_opt.minimize(loss1) 
+train_step_relu = my_opt.minimize(loss2) 
+init = tf.global_variable_initializer() 
+sess.run(init) 
+```
+
+1.  现在，我们将针对两个模型循环我们的 750 次迭代训练，如下面的代码块所示。我们还将保存损失输出和激活输出值，以便稍后进行绘图：
+
+```py
+loss_vec_sigmoid = [] 
+loss_vec_relu = [] 
+activation_sigmoid = [] 
+activation_relu = [] 
+for i in range(750): 
+    rand_indices = np.random.choice(len(x), size=batch_size) 
+    x_vals = np.transpose([x[rand_indices]]) 
+    sess.run(train_step_sigmoid, feed_dict={x_data: x_vals}) 
+    sess.run(train_step_relu, feed_dict={x_data: x_vals}) 
+
+    loss_vec_sigmoid.append(sess.run(loss1, feed_dict={x_data: x_vals})) 
+    loss_vec_relu.append(sess.run(loss2, feed_dict={x_data: x_vals}))     
+
+    activation_sigmoid.append(np.mean(sess.run(sigmoid_activation, feed_dict={x_data: x_vals}))) 
+    activation_relu.append(np.mean(sess.run(relu_activation, feed_dict={x_data: x_vals})))
+```
+
+1.  要绘制损失和激活输出，我们需要输入以下代码：
+
+```py
+plt.plot(activation_sigmoid, 'k-', label='Sigmoid Activation') 
+plt.plot(activation_relu, 'r--', label='Relu Activation') 
+plt.ylim([0, 1.0]) 
+plt.title('Activation Outputs') 
+plt.xlabel('Generation') 
+plt.ylabel('Outputs') 
+plt.legend(loc='upper right') 
+plt.show() 
+plt.plot(loss_vec_sigmoid, 'k-', label='Sigmoid Loss') 
+plt.plot(loss_vec_relu, 'r--', label='Relu Loss') 
+plt.ylim([0, 1.0]) 
+plt.title('Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.legend(loc='upper right') 
+plt.show() 
+```
+
+激活输出需要绘制，如下图所示：
+
+![](img/e8f656c0-3ccb-4dee-b6ff-1f05dcb0a1d6.png)
+
+图 2：来自具有 Sigmoid 激活的网络和具有 ReLU 激活的网络的计算图输出
+
+两个神经网络使用类似的架构和目标（0.75），但有两个不同的激活函数，sigmoid 和 ReLU。重要的是要注意 ReLU 激活网络收敛到比 sigmoid 激活所需的 0.75 目标更快，如下图所示：
+
+![](img/59a4dcbb-73a7-4598-80e9-28690b520a8d.png)
+
+图 3：该图描绘了 Sigmoid 和 ReLU 激活网络的损耗值。注意迭代开始时 ReLU 损失的极端程度
+
+## 工作原理
+
+由于 ReLU 激活函数的形式，它比 sigmoid 函数更频繁地返回零值。我们认为这种行为是一种稀疏性。这种稀疏性导致收敛速度加快，但失去了受控梯度。另一方面，Sigmoid 函数具有非常良好控制的梯度，并且不会冒 ReLU 激活所带来的极值的风险，如下图所示：
+
+| 激活函数 | 优点 | 缺点 |
+| --- | --- | --- |
+| Sigmoid | 不太极端的输出 | 收敛速度较慢 |
+| RELU | 更快地收敛 | 可能有极端的输出值 |
+
+## 更多
+
+在本节中，我们比较了神经网络的 ReLU 激活函数和 Sigmoid 激活函数。还有许多其他激活函数通常用于神经网络，但大多数属于两个类别之一；第一类包含形状类似于 sigmoid 函数的函数，如 arctan，hypertangent，heavyiside step 等；第二类包含形状的函数，例如 ReLU 函数，例如 softplus，leaky ReLU 等。我们在本节中讨论的关于比较这两个函数的大多数内容都适用于任何类别的激活。然而，重要的是要注意激活函数的选择对神经网络的收敛和输出有很大影响。
+
+# 实现单层神经网络
+
+我们拥有实现对真实数据进行操作的神经网络所需的所有工具，因此在本节中我们将创建一个神经网络，其中一个层在`Iris`数据集上运行。
+
+## 准备
+
+在本节中，我们将实现一个具有一个隐藏层的神经网络。重要的是要理解完全连接的神经网络主要基于矩阵乘法。因此，重要的是数据和矩阵的大小正确排列。
+
+由于这是一个回归问题，我们将使用均方误差作为损失函数。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  要创建计算图，我们首先加载以下必要的库：
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import tensorflow as tf
+from sklearn import datasets 
+```
+
+1.  现在我们将加载`Iris`数据并将长度存储为目标值。然后我们将使用以下代码启动图会话：
+
+```py
+iris = datasets.load_iris() 
+x_vals = np.array([x[0:3] for x in iris.data]) 
+y_vals = np.array([x[3] for x in iris.data]) 
+sess = tf.Session() 
+```
+
+1.  由于数据集较小，我们需要设置种子以使结果可重现，如下所示：
+
+```py
+seed = 2 
+tf.set_random_seed(seed) 
+np.random.seed(seed)
+```
+
+1.  为了准备数据，我们将创建一个 80-20 训练测试分割，并通过最小 - 最大缩放将 x 特征标准化为 0 到 1 之间，如下所示：
+
+```py
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices]
+
+def normalize_cols(m): 
+    col_max = m.max(axis=0) 
+    col_min = m.min(axis=0) 
+    return (m-col_min) / (col_max - col_min) 
+
+x_vals_train = np.nan_to_num(normalize_cols(x_vals_train)) 
+x_vals_test = np.nan_to_num(normalize_cols(x_vals_test))
+```
+
+1.  现在，我们将使用以下代码声明数据和目标的批量大小和占位符：
+
+```py
+batch_size = 50 
+x_data = tf.placeholder(shape=[None, 3], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+```
+
+1.  重要的是要用适当的形状声明我们的模型变量。我们可以将隐藏层的大小声明为我们希望的任何大小；在下面的代码块中，我们将其设置为有五个隐藏节点：
+
+```py
+hidden_layer_nodes = 5 
+A1 = tf.Variable(tf.random_normal(shape=[3,hidden_layer_nodes])) 
+b1 = tf.Variable(tf.random_normal(shape=[hidden_layer_nodes])) 
+A2 = tf.Variable(tf.random_normal(shape=[hidden_layer_nodes,1])) 
+b2 = tf.Variable(tf.random_normal(shape=[1]))
+```
+
+1.  我们现在分两步宣布我们的模型。第一步是创建隐藏层输出，第二步是创建模型的`final_output`，如下所示：
+
+> 请注意，我们的模型从三个输入特征到五个隐藏节点，最后到一个输出值。
+
+```py
+hidden_output = tf.nn.relu(tf.add(tf.matmul(x_data, A1), b1)) 
+final_output = tf.nn.relu(tf.add(tf.matmul(hidden_output, A2), b2)) 
+```
+
+1.  我们作为`loss`函数的均方误差如下：
+
+```py
+loss = tf.reduce_mean(tf.square(y_target - final_output)) 
+```
+
+1.  现在我们将声明我们的优化算法并使用以下代码初始化我们的变量：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.005) 
+train_step = my_opt.minimize(loss) 
+init = tf.global_variables_initializer() 
+sess.run(init)
+```
+
+1.  接下来，我们循环我们的训练迭代。我们还将初始化两个列表，我们可以存储我们的训练和`test_loss`函数。在每个循环中，我们还希望从训练数据中随机选择一个批量以适合模型，如下所示：
+
+```py
+# First we initialize the loss vectors for storage. 
+loss_vec = [] 
+test_loss = [] 
+for i in range(500): 
+    # We select a random set of indices for the batch. 
+    rand_index = np.random.choice(len(x_vals_train), size=batch_size) 
+    # We then select the training values 
+    rand_x = x_vals_train[rand_index] 
+    rand_y = np.transpose([y_vals_train[rand_index]]) 
+    # Now we run the training step 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    # We save the training loss 
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(np.sqrt(temp_loss)) 
+
+    # Finally, we run the test-set loss and save it. 
+    test_temp_loss = sess.run(loss, feed_dict={x_data: x_vals_test, y_target: np.transpose([y_vals_test])}) 
+    test_loss.append(np.sqrt(test_temp_loss)) 
+    if (i+1)%50==0: 
+        print('Generation: ' + str(i+1) + '. Loss = ' + str(temp_loss))
+```
+
+1.  我们可以用`matplotlib`和以下代码绘制损失：
+
+```py
+plt.plot(loss_vec, 'k-', label='Train Loss') 
+plt.plot(test_loss, 'r--', label='Test Loss') 
+plt.title('Loss (MSE) per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.legend(loc='upper right') 
+plt.show() 
+```
+
+我们通过绘制下图来继续秘籍：
+
+![](img/e9f5eb6c-586d-4ad8-8ac0-9a4e00482688.png)
+
+图 4：我们绘制了训练和测试装置的损失（MSE）。请注意，我们在 200 代之后略微过拟合模型，因为测试 MSE 不会进一步下降，但训练 MSE 确实
+
+## 工作原理
+
+我们的模型现已可视化为神经网络图，如下图所示：
+
+![](img/52077e5c-eee3-4684-97fa-cdac28fceec6.png)
+
+图 5：上图是我们的神经网络的可视化，在隐藏层中有五个节点。我们馈送三个值：萼片长度（S.L），萼片宽度（S.W.）和花瓣长度（P.L.）。目标将是花瓣宽度。总的来说，模型中总共有 26 个变量
+
+## 更多
+
+请注意，通过查看测试和训练集上的`loss`函数，我们可以确定模型何时开始过拟合训练数据。我们还可以看到训练损失并不像测试装置那样平稳。这是因为有两个原因：第一个原因是我们使用的批量小于测试集，尽管不是很多；第二个原因是由于我们正在训练训练组，而测试装置不会影响模型的变量。
+
+# 实现不同的层
+
+了解如何实现不同的层非常重要。在前面的秘籍中，我们实现了完全连接的层。在本文中，我们将进一步扩展我们对各层的了解。
+
+## 准备
+
+我们已经探索了如何连接数据输入和完全连接的隐藏层，但是 TensorFlow 中有更多类型的层是内置函数。最常用的层是卷积层和最大池化层。我们将向您展示如何使用输入数据和完全连接的数据创建和使用此类层。首先，我们将研究如何在一维数据上使用这些层，然后在二维数据上使用这些层。
+
+虽然神经网络可以以任何方式分层，但最常见的用途之一是使用卷积层和完全连接的层来首先创建特征。如果我们有太多的特征，通常会有一个最大池化层。在这些层之后，通常引入非线性层作为激活函数。我们将在第 8 章卷积神经网络中考虑的卷积神经网络（CNN）通常具有卷积，最大池化，激活，卷积，最大池化和激活形式。
+
+## 操作步骤
+
+我们将首先看一维数据。我们需要使用以下步骤为此任务生成随机数据数组：
+
+1.  我们首先加载我们需要的库并启动图会话，如下所示：
+
+```py
+import tensorflow as tf 
+import numpy as np 
+sess = tf.Session() 
+```
+
+1.  现在我们可以初始化我们的数据（长度为`25`的 NumPy 数组）并创建占位符，我们将通过以下代码提供它：
+
+```py
+data_size = 25 
+data_1d = np.random.normal(size=data_size) 
+x_input_1d = tf.placeholder(dtype=tf.float32, shape=[data_size])
+```
+
+1.  接下来，我们将定义一个将构成卷积层的函数。然后我们将声明一个随机过滤器并创建卷积层，如下所示：
+
+> 请注意，许多 TensorFlow 的层函数都是为处理 4D 数据而设计的（`4D = [batch size, width, height, and channels]`）。我们需要修改输入数据和输出数据，以扩展或折叠所需的额外维度。对于我们的示例数据，我们的批量大小为 1，宽度为 1，高度为 25，通道大小为 1。要扩展大小，我们使用`expand_dims()`函数，并且为了折叠大小，我们使用`squeeze()`函数。另请注意，我们可以使用`output_size=(W-F+2P)/S+1`公式计算卷积层的输出大小，其中`W`是输入大小，`F`是滤镜大小，`P`是填充大小，`S`是步幅大小。
+
+```py
+def conv_layer_1d(input_1d, my_filter): 
+    # Make 1d input into 4d 
+    input_2d = tf.expand_dims(input_1d, 0) 
+    input_3d = tf.expand_dims(input_2d, 0) 
+    input_4d = tf.expand_dims(input_3d, 3) 
+    # Perform convolution 
+    convolution_output = tf.nn.conv2d(input_4d, filter=my_filter, strides=[1,1,1,1], padding="VALID") 
+    # Now drop extra dimensions 
+    conv_output_1d = tf.squeeze(convolution_output) 
+    return(conv_output_1d) 
+
+my_filter = tf.Variable(tf.random_normal(shape=[1,5,1,1])) 
+my_convolution_output = conv_layer_1d(x_input_1d, my_filter) 
+```
+
+1.  默认情况下，TensorFlow 的激活函数将按元素方式执行。这意味着我们只需要在感兴趣的层上调用激活函数。我们通过创建激活函数然后在图上初始化它来完成此操作，如下所示：
+
+```py
+def activation(input_1d): 
+    return tf.nn.relu(input_1d) 
+my_activation_output = activation(my_convolution_output)
+```
+
+1.  现在我们将声明一个最大池化层函数。此函数将在我们的一维向量上的移动窗口上创建一个最大池化。对于此示例，我们将其初始化为宽度为 5，如下所示：
+
+> TensorFlow 的最大池化参数与卷积层的参数非常相似。虽然最大池化参数没有过滤器，但它确实有`size`，`stride`和`padding`选项。由于我们有一个带有有效填充的 5 的窗口（没有零填充），因此我们的输出数组将减少 4 个条目。
+
+```py
+def max_pool(input_1d, width): 
+    # First we make the 1d input into 4d. 
+    input_2d = tf.expand_dims(input_1d, 0) 
+    input_3d = tf.expand_dims(input_2d, 0) 
+    input_4d = tf.expand_dims(input_3d, 3) 
+    # Perform the max pool operation 
+    pool_output = tf.nn.max_pool(input_4d, ksize=[1, 1, width, 1], strides=[1, 1, 1, 1], padding='VALID') 
+    pool_output_1d = tf.squeeze(pool_output) 
+    return pool_output_1d 
+
+my_maxpool_output = max_pool(my_activation_output, width=5) 
+```
+
+1.  我们将要连接的最后一层是完全连接的层。在这里，我们想要创建一个多特征函数，输入一维数组并输出指示的数值。还要记住，要使用 1D 数组进行矩阵乘法，我们必须将维度扩展为 2D，如下面的代码块所示：
+
+```py
+def fully_connected(input_layer, num_outputs): 
+    # Create weights 
+    weight_shape = tf.squeeze(tf.stack([tf.shape(input_layer), [num_outputs]])) 
+    weight = tf.random_normal(weight_shape, stddev=0.1) 
+    bias = tf.random_normal(shape=[num_outputs]) 
+    # Make input into 2d 
+    input_layer_2d = tf.expand_dims(input_layer, 0) 
+    # Perform fully connected operations 
+    full_output = tf.add(tf.matmul(input_layer_2d, weight), bias) 
+    # Drop extra dimensions 
+    full_output_1d = tf.squeeze(full_output) 
+    return full_output_1d
+
+my_full_output = fully_connected(my_maxpool_output, 5)
+```
+
+1.  现在我们将初始化所有变量，运行图并打印每个层的输出，如下所示：
+
+```py
+init = tf.global_variable_initializer() 
+sess.run(init) 
+feed_dict = {x_input_1d: data_1d} 
+# Convolution Output 
+print('Input = array of length 25') 
+print('Convolution w/filter, length = 5, stride size = 1, results in an array of length 21:') 
+print(sess.run(my_convolution_output, feed_dict=feed_dict)) 
+# Activation Output 
+print('Input = the above array of length 21') 
+print('ReLU element wise returns the array of length 21:') 
+print(sess.run(my_activation_output, feed_dict=feed_dict)) 
+# Maxpool Output 
+print('Input = the above array of length 21') 
+print('MaxPool, window length = 5, stride size = 1, results in the array of length 17:') 
+print(sess.run(my_maxpool_output, feed_dict=feed_dict)) 
+# Fully Connected Output 
+print('Input = the above array of length 17') 
+print('Fully connected layer on all four rows with five outputs:') 
+print(sess.run(my_full_output, feed_dict=feed_dict)) 
+```
+
+1.  上一步应该产生以下输出：
+
+```py
+Input = array of length 25 
+Convolution w/filter, length = 5, stride size = 1, results in an array of length 21: 
+[-0.91608119  1.53731811 -0.7954089   0.5041104   1.88933098  
+ -1.81099761  0.56695032  1.17945457 -0.66252393 -1.90287709 
+  0.87184119  0.84611893 -5.25024986 -0.05473572  2.19293165 
+ -4.47577858 -1.71364677  3.96857905 -2.0452652  -1.86647367 
+ -0.12697852] 
+Input = the above array of length 21 
+ReLU element wise returns the array of length 21: 
+[ 0\.          1.53731811  0\.          0.5041104   1.88933098 
+  0\.          0\.          1.17945457  0\.          0\.          
+  0.87184119  0.84611893  0\.          0\.          2.19293165 
+  0\.          0\.          3.96857905  0\.          0\.         
+  0\.         ] 
+Input = the above array of length 21 
+MaxPool, window length = 5, stride size = 1, results in the array of length 17: 
+[ 1.88933098  1.88933098  1.88933098  1.88933098  1.88933098  
+  1.17945457  1.17945457  1.17945457  0.87184119  0.87184119  
+  2.19293165  2.19293165  2.19293165  3.96857905  3.96857905   
+  3.96857905  3.96857905] 
+Input = the above array of length 17 
+Fully connected layer on all four rows with five outputs: 
+[ 1.23588216 -0.42116445  1.44521213  1.40348077 -0.79607368] 
+```
+
+> 对于神经网络，一维数据非常重要。时间序列，信号处理和一些文本嵌入被认为是一维的并且经常在神经网络中使用。
+
+我们现在将以相同的顺序考虑相同类型的层，但是对于二维数据：
+
+1.  我们将从清除和重置计算图开始，如下所示：
+
+```py
+ops.reset_default_graph() 
+sess = tf.Session() 
+```
+
+1.  然后我们将初始化我们的输入数组，使其为`10x10`矩阵，然后我们将为具有相同形状的图初始化占位符，如下所示：
+
+```py
+data_size = [10,10] 
+data_2d = np.random.normal(size=data_size) 
+x_input_2d = tf.placeholder(dtype=tf.float32, shape=data_size) 
+```
+
+1.  就像在一维示例中一样，我们现在需要声明卷积层函数。由于我们的数据已经具有高度和宽度，我们只需要将其扩展为二维（批量大小为 1，通道大小为 1），以便我们可以使用`conv2d()`函数对其进行操作。对于滤波器，我们将使用随机`2x2`滤波器，两个方向的步幅为 2，以及有效填充（换句话说，没有零填充）。因为我们的输入矩阵是`10x10`，我们的卷积输出将是`5x5`，如下所示：
+
+```py
+def conv_layer_2d(input_2d, my_filter): 
+    # First, change 2d input to 4d 
+    input_3d = tf.expand_dims(input_2d, 0) 
+    input_4d = tf.expand_dims(input_3d, 3) 
+    # Perform convolution 
+    convolution_output = tf.nn.conv2d(input_4d, filter=my_filter, strides=[1,2,2,1], padding="VALID") 
+    # Drop extra dimensions 
+    conv_output_2d = tf.squeeze(convolution_output) 
+    return(conv_output_2d) 
+
+my_filter = tf.Variable(tf.random_normal(shape=[2,2,1,1])) 
+my_convolution_output = conv_layer_2d(x_input_2d, my_filter)
+```
+
+1.  激活函数在逐个元素的基础上工作，因此我们现在可以创建激活操作并使用以下代码在图上初始化它：
+
+```py
+def activation(input_2d): 
+    return tf.nn.relu(input_2d) 
+my_activation_output = activation(my_convolution_output) 
+```
+
+1.  我们的最大池化层与一维情况非常相似，只是我们必须声明最大池化窗口的宽度和高度。就像我们的卷积 2D 层一样，我们只需要扩展到两个维度，如下所示：
+
+```py
+def max_pool(input_2d, width, height): 
+    # Make 2d input into 4d 
+    input_3d = tf.expand_dims(input_2d, 0) 
+    input_4d = tf.expand_dims(input_3d, 3) 
+    # Perform max pool 
+    pool_output = tf.nn.max_pool(input_4d, ksize=[1, height, width, 1], strides=[1, 1, 1, 1], padding='VALID') 
+    # Drop extra dimensions 
+    pool_output_2d = tf.squeeze(pool_output) 
+    return pool_output_2d 
+
+my_maxpool_output = max_pool(my_activation_output, width=2, height=2) 
+```
+
+1.  我们的全连接层与一维输出非常相似。我们还应该注意到，此层的 2D 输入被视为一个对象，因此我们希望每个条目都连接到每个输出。为了实现这一点，我们需要完全展平二维矩阵，然后将其展开以进行矩阵乘法，如下所示：
+
+```py
+def fully_connected(input_layer, num_outputs): 
+    # Flatten into 1d 
+    flat_input = tf.reshape(input_layer, [-1]) 
+    # Create weights 
+    weight_shape = tf.squeeze(tf.stack([tf.shape(flat_input), [num_outputs]])) 
+    weight = tf.random_normal(weight_shape, stddev=0.1) 
+    bias = tf.random_normal(shape=[num_outputs]) 
+    # Change into 2d 
+    input_2d = tf.expand_dims(flat_input, 0) 
+    # Perform fully connected operations 
+    full_output = tf.add(tf.matmul(input_2d, weight), bias) 
+    # Drop extra dimensions 
+    full_output_2d = tf.squeeze(full_output) 
+    return full_output_2d 
+
+my_full_output = fully_connected(my_maxpool_output, 5) 
+```
+
+1.  现在我们需要初始化变量并使用以下代码为我们的操作创建一个馈送字典：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+
+feed_dict = {x_input_2d: data_2d} 
+```
+
+1.  每个层的输出应如下所示：
+
+```py
+# Convolution Output 
+print('Input = [10 X 10] array') 
+print('2x2 Convolution, stride size = [2x2], results in the [5x5] array:') 
+print(sess.run(my_convolution_output, feed_dict=feed_dict)) 
+# Activation Output 
+print('Input = the above [5x5] array') 
+print('ReLU element wise returns the [5x5] array:') 
+print(sess.run(my_activation_output, feed_dict=feed_dict)) 
+# Max Pool Output 
+print('Input = the above [5x5] array') 
+print('MaxPool, stride size = [1x1], results in the [4x4] array:') 
+print(sess.run(my_maxpool_output, feed_dict=feed_dict)) 
+# Fully Connected Output 
+print('Input = the above [4x4] array') 
+print('Fully connected layer on all four rows with five outputs:') 
+print(sess.run(my_full_output, feed_dict=feed_dict)) 
+```
+
+1.  上一步应该产生以下输出：
+
+```py
+Input = [10 X 10] array 
+2x2 Convolution, stride size = [2x2], results in the [5x5] array: 
+[[ 0.37630892 -1.41018617 -2.58821273 -0.32302785  1.18970704] 
+ [-4.33685207  1.97415686  1.0844903  -1.18965471  0.84643292] 
+ [ 5.23706436  2.46556497 -0.95119286  1.17715418  4.1117816 ] 
+ [ 5.86972761  1.2213701   1.59536231  2.66231227  2.28650784] 
+ [-0.88964868 -2.75502229  4.3449688   2.67776585 -2.23714781]] 
+Input = the above [5x5] array 
+ReLU element wise returns the [5x5] array: 
+[[ 0.37630892  0\.          0\.          0\.          1.18970704] 
+ [ 0\.          1.97415686  1.0844903   0\.          0.84643292] 
+ [ 5.23706436  2.46556497  0\.          1.17715418  4.1117816 ] 
+ [ 5.86972761  1.2213701   1.59536231  2.66231227  2.28650784] 
+ [ 0\.          0\.          4.3449688   2.67776585  0\.        ]] 
+Input = the above [5x5] array 
+MaxPool, stride size = [1x1], results in the [4x4] array: 
+[[ 1.97415686  1.97415686  1.0844903   1.18970704] 
+ [ 5.23706436  2.46556497  1.17715418  4.1117816 ] 
+ [ 5.86972761  2.46556497  2.66231227  4.1117816 ] 
+ [ 5.86972761  4.3449688   4.3449688   2.67776585]] 
+Input = the above [4x4] array 
+Fully connected layer on all four rows with five outputs: 
+[-0.6154139  -1.96987963 -1.88811922  0.20010889  0.32519674] 
+```
+
+## 工作原理
+
+我们现在应该知道如何在 TensorFlow 中使用一维和二维数据中的卷积和最大池化层。无论输入的形状如何，我们最终都得到相同的大小输出。这对于说明神经网络层的灵活性很重要。本节还应该再次向我们强调形状和大小在神经网络操作中的重要性。
+
+# 使用多层神经网络
+
+我们现在将通过在低出生体重数据集上使用多层神经网络将我们对不同层的知识应用于实际数据。
+
+## 准备
+
+现在我们知道如何创建神经网络并使用层，我们将应用此方法，以预测低出生体重数据集中的出生体重。我们将创建一个具有三个隐藏层的神经网络。低出生体重数据集包括实际出生体重和出生体重是否高于或低于 2,500 克的指标变量。在这个例子中，我们将目标设为实际出生体重（回归），然后在最后查看分类的准确率。最后，我们的模型应该能够确定出生体重是否小于 2,500 克。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们将首先加载库并初始化我们的计算图，如下所示：
+
+```py
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+import os
+import csv
+import requests 
+import numpy as np 
+sess = tf.Session() 
+```
+
+1.  我们现在将使用`requests`模块从网站加载数据。在此之后，我们将数据拆分为感兴趣的特征和目标值，如下所示：
+
+```py
+# Name of data file
+birth_weight_file = 'birth_weight.csv'
+birthdata_url = 'https://github.com/nfmcclure/tensorflow_cookbook/raw/master' \
+'/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat'
+
+# Download data and create data file if file does not exist in current directory
+if not os.path.exists(birth_weight_file):
+    birth_file = requests.get(birthdata_url)
+    birth_data = birth_file.text.split('\r\n')
+    birth_header = birth_data[0].split('\t')
+    birth_data = [[float(x) for x in y.split('\t') if len(x) >= 1]
+                  for y in birth_data[1:] if len(y) >= 1]
+    with open(birth_weight_file, "w") as f:
+        writer = csv.writer(f)
+        writer.writerows([birth_header])
+        writer.writerows(birth_data)
+
+# Read birth weight data into memory
+birth_data = []
+with open(birth_weight_file, newline='') as csvfile:
+    csv_reader = csv.reader(csvfile)
+    birth_header = next(csv_reader)
+    for row in csv_reader:
+        birth_data.append(row)
+
+birth_data = [[float(x) for x in row] for row in birth_data]
+
+# Pull out target variable
+y_vals = np.array([x[0] for x in birth_data])
+# Pull out predictor variables (not id, not target, and not birthweight)
+x_vals = np.array([x[1:8] for x in birth_data])
+```
+
+1.  为了帮助实现可重复性，我们现在需要为 NumPy 和 TensorFlow 设置随机种子。然后我们声明我们的批量大小如下：
+
+```py
+seed = 4 
+tf.set_random_seed(seed) 
+np.random.seed(seed) 
+batch_size = 100 
+```
+
+1.  接下来，我们将数据分成 80-20 训练测试分组。在此之后，我们需要正则化我们的输入特征，使它们在 0 到 1 之间，具有最小 - 最大缩放比例，如下所示：
+
+```py
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices] 
+
+# Normalize by column (min-max norm)
+def normalize_cols(m, col_min=np.array([None]), col_max=np.array([None])):
+    if not col_min[0]:
+        col_min = m.min(axis=0)
+    if not col_max[0]:
+        col_max = m.max(axis=0)
+    return (m-col_min) / (col_max - col_min), col_min, col_max
+
+x_vals_train, train_min, train_max = np.nan_to_num(normalize_cols(x_vals_train)) 
+x_vals_test, _, _ = np.nan_to_num(normalize_cols(x_vals_test), train_min, train_max)
+```
+
+> 归一化输入特征是一种常见的特征转换，尤其适用于神经网络。如果我们的数据以 0 到 1 的中心为激活函数，它将有助于收敛。
+
+1.  由于我们有多个层具有相似的初始化变量，我们现在需要创建一个函数来初始化权重和偏差。我们使用以下代码执行此操作：
+
+```py
+def init_weight(shape, st_dev): 
+    weight = tf.Variable(tf.random_normal(shape, stddev=st_dev)) 
+    return weight
+
+def init_bias(shape, st_dev): 
+    bias = tf.Variable(tf.random_normal(shape, stddev=st_dev)) 
+    return bias 
+```
+
+1.  我们现在需要初始化占位符。将有八个输入特征和一个输出，出生重量以克为单位，如下所示：
+
+```py
+x_data = tf.placeholder(shape=[None, 8], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) 
+```
+
+1.  对于所有三个隐藏层，完全连接的层将使用三次。为了防止重复代码，我们将在初始化模型时创建一个层函数，如下所示：
+
+```py
+def fully_connected(input_layer, weights, biases): 
+    layer = tf.add(tf.matmul(input_layer, weights), biases) 
+    return tf.nn.relu(layer) 
+```
+
+1.  现在是时候创建我们的模型了。对于每个层（和输出层），我们将初始化权重矩阵，偏置矩阵和完全连接的层。对于此示例，我们将使用大小为 25，10 和 3 的隐藏层：
+
+> 我们使用的模型将有 522 个变量适合。为了得到这个数字，我们可以看到数据和第一个隐藏层之间有`8*25 +25=225`变量。如果我们以这种方式继续添加它们，我们将有`225+260+33+4=522`变量。这远远大于我们在逻辑回归模型中使用的九个变量。
+
+```py
+# Create second layer (25 hidden nodes) 
+weight_1 = init_weight(shape=[8, 25], st_dev=10.0) 
+bias_1 = init_bias(shape=[25], st_dev=10.0) 
+layer_1 = fully_connected(x_data, weight_1, bias_1) 
+
+# Create second layer (10 hidden nodes) 
+weight_2 = init_weight(shape=[25, 10], st_dev=10.0) 
+bias_2 = init_bias(shape=[10], st_dev=10.0) 
+layer_2 = fully_connected(layer_1, weight_2, bias_2) 
+
+# Create third layer (3 hidden nodes) 
+weight_3 = init_weight(shape=[10, 3], st_dev=10.0) 
+bias_3 = init_bias(shape=[3], st_dev=10.0) 
+layer_3 = fully_connected(layer_2, weight_3, bias_3) 
+# Create output layer (1 output value) 
+weight_4 = init_weight(shape=[3, 1], st_dev=10.0)   
+bias_4 = init_bias(shape=[1], st_dev=10.0) 
+final_output = fully_connected(layer_3, weight_4, bias_4) 
+```
+
+1.  我们现在将使用 L1 损失函数（绝对值），声明我们的优化器（使用 Adam 优化），并按如下方式初始化变量：
+
+```py
+loss = tf.reduce_mean(tf.abs(y_target - final_output)) 
+my_opt = tf.train.AdamOptimizer(0.05) 
+train_step = my_opt.minimize(loss) 
+init = tf.global_variables_initializer()
+sess.run(init) 
+```
+
+> 虽然我们在前一步骤中用于 Adam 优化函数的学习率是 0.05，但有研究表明较低的学习率始终产生更好的结果。对于这个秘籍，由于数据的一致性和快速收敛的需要，我们使用了更大的学习率。
+
+1.  接下来，我们需要训练我们的模型进行 200 次迭代。我们还将包含存储`train`和`test`损失的代码，选择随机批量大小，并每 25 代打印一次状态，如下所示：
+
+```py
+# Initialize the loss vectors 
+loss_vec = [] 
+test_loss = [] 
+for i in range(200): 
+    # Choose random indices for batch selection 
+    rand_index = np.random.choice(len(x_vals_train), size=batch_size) 
+    # Get random batch 
+    rand_x = x_vals_train[rand_index] 
+    rand_y = np.transpose([y_vals_train[rand_index]]) 
+    # Run the training step 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    # Get and store the train loss 
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+    # Get and store the test loss 
+    test_temp_loss = sess.run(loss, feed_dict={x_data: x_vals_test, y_target: np.transpose([y_vals_test])}) 
+    test_loss.append(test_temp_loss) 
+    if (i+1)%25==0: 
+        print('Generation: ' + str(i+1) + '. Loss = ' + str(temp_loss)) 
+```
+
+1.  上一步应该产生以下输出：
+
+```py
+Generation: 25\. Loss = 5922.52 
+Generation: 50\. Loss = 2861.66 
+Generation: 75\. Loss = 2342.01 
+Generation: 100\. Loss = 1880.59 
+Generation: 125\. Loss = 1394.39 
+Generation: 150\. Loss = 1062.43 
+Generation: 175\. Loss = 834.641 
+Generation: 200\. Loss = 848.54 
+```
+
+1.  以下是使用`matplotlib`绘制训练和测试损失的代码片段：
+
+```py
+plt.plot(loss_vec, 'k-', label='Train Loss') 
+plt.plot(test_loss, 'r--', label='Test Loss') 
+plt.title('Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.legend(loc='upper right') 
+plt.show() 
+```
+
+我们通过绘制下图来继续秘籍：
+
+![](img/2a730c9a-4bf5-4244-bfef-73ccca82eaa7.png)
+
+图 6：在上图中，我们绘制了我们训练的神经网络的训练和测试损失，以克数表示出生体重。请注意，大约 30 代后我们已经达到了良好的模型
+
+1.  我们现在想将我们的出生体重结果与我们之前的后勤结果进行比较。使用逻辑线性回归（如第 3 章中的实现逻辑回归秘籍，线性回归），我们在数千次迭代后获得了大约 60% 的准确率结果。为了将其与我们在上一节中所做的进行比较，我们需要输出训练并测试回归结果，并通过创建指标（如果它们高于或低于 2,500 克）将其转换为分类结果。要找出模型的准确率，我们需要使用以下代码：
+
+```py
+actuals = np.array([x[1] for x in birth_data]) 
+test_actuals = actuals[test_indices] 
+train_actuals = actuals[train_indices] 
+test_preds = [x[0] for x in sess.run(final_output, feed_dict={x_data: x_vals_test})] 
+train_preds = [x[0] for x in sess.run(final_output, feed_dict={x_data: x_vals_train})] 
+test_preds = np.array([1.0 if x<2500.0 else 0.0 for x in test_preds]) 
+train_preds = np.array([1.0 if x<2500.0 else 0.0 for x in train_preds]) 
+# Print out accuracies 
+test_acc = np.mean([x==y for x,y in zip(test_preds, test_actuals)]) 
+train_acc = np.mean([x==y for x,y in zip(train_preds, train_actuals)]) 
+print('On predicting the category of low birthweight from regression output (<2500g):') 
+print('Test Accuracy: {}'.format(test_acc)) 
+print('Train Accuracy: {}'.format(train_acc)) 
+```
+
+1.  上一步应该产生以下输出：
+
+```py
+Test Accuracy: 0.631578947368421 
+Train Accuracy: 0.7019867549668874 
+```
+
+## 工作原理
+
+在这个秘籍中，我们创建了一个回归神经网络，其中包含三个完全连接的隐藏层，以预测低出生体重数据集的出生体重。当将其与物流输出进行比较以预测高于或低于 2,500 克时，我们获得了类似的结果并且在更少的几代中实现了它们。在下一个方案中，我们将尝试通过使其成为多层逻辑类神经网络来改进逻辑回归。
+
+# 改进线性模型的预测
+
+在前面的秘籍中，我们注意到我们拟合的参数数量远远超过等效的线性模型。在这个秘籍中，我们将尝试通过使用神经网络来改进我们的低出生体重的逻辑模型。
+
+## 准备
+
+对于这个秘籍，我们将加载低出生体重数据，并使用神经网络与两个隐藏的完全连接的层与 sigmoid 激活，以适应低出生体重的概率。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们首先加载库并初始化我们的计算图，如下所示：
+
+```py
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+import requests 
+sess = tf.Session() 
+```
+
+1.  接下来，我们按照前面的秘籍加载，提取和标准化我们的数据，除了在这里我们将使用低出生体重指示变量作为我们的目标而不是实际出生体重，如下所示：
+
+```py
+# Name of data file
+birth_weight_file = 'birth_weight.csv'
+birthdata_url = 'https://github.com/nfmcclure/tensorflow_cookbook/raw/master' \
+                '/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat'
+
+# Download data and create data file if file does not exist in current directory
+if not os.path.exists(birth_weight_file):
+    birth_file = requests.get(birthdata_url)
+    birth_data = birth_file.text.split('\r\n')
+    birth_header = birth_data[0].split('\t')
+    birth_data = [[float(x) for x in y.split('\t') if len(x) >= 1]
+                  for y in birth_data[1:] if len(y) >= 1]
+    with open(birth_weight_file, "w") as f:
+        writer = csv.writer(f)
+        writer.writerows([birth_header])
+        writer.writerows(birth_data) 
+
+# read birth weight data into memory
+birth_data = []
+with open(birth_weight_file, newline='') as csvfile:
+    csv_reader = csv.reader(csvfile)
+    birth_header = next(csv_reader)
+    for row in csv_reader:
+        birth_data.append(row)
+
+birth_data = [[float(x) for x in row] for row in birth_data]
+
+# Pull out target variable
+y_vals = np.array([x[0] for x in birth_data])
+# Pull out predictor variables (not id, not target, and not birthweight)
+x_vals = np.array([x[1:8] for x in birth_data])
+
+train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(x_vals))) - set(train_indices))) 
+x_vals_train = x_vals[train_indices] 
+x_vals_test = x_vals[test_indices] 
+y_vals_train = y_vals[train_indices] 
+y_vals_test = y_vals[test_indices] 
+
+def normalize_cols(m, col_min=np.array([None]), col_max=np.array([None])):
+    if not col_min[0]:
+        col_min = m.min(axis=0)
+    if not col_max[0]:
+        col_max = m.max(axis=0)
+    return (m - col_min) / (col_max - col_min), col_min, col_max
+
+x_vals_train, train_min, train_max = np.nan_to_num(normalize_cols(x_vals_train))
+x_vals_test, _, _ = np.nan_to_num(normalize_cols(x_vals_test, train_min, train_max))
+```
+
+1.  接下来，我们需要声明我们的批量大小和数据的占位符，如下所示：
+
+```py
+batch_size = 90 
+x_data = tf.placeholder(shape=[None, 7], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32)
+```
+
+1.  如前所述，我们现在需要声明在模型中初始化变量和层的函数。为了创建更好的逻辑函数，我们需要创建一个在输入层上返回逻辑层的函数。换句话说，我们将使用完全连接的层并为每个层返回一个 sigmoid 元素。重要的是要记住我们的损失函数将包含最终的 sigmoid，因此我们要在最后一层指定我们不会返回输出的 sigmoid，如下所示：
+
+```py
+def init_variable(shape): 
+    return tf.Variable(tf.random_normal(shape=shape)) 
+# Create a logistic layer definition 
+def logistic(input_layer, multiplication_weight, bias_weight, activation = True): 
+    linear_layer = tf.add(tf.matmul(input_layer, multiplication_weight), bias_weight) 
+
+    if activation: 
+        return tf.nn.sigmoid(linear_layer) 
+    else: 
+        return linear_layer 
+```
+
+1.  现在我们将声明三个层（两个隐藏层和一个输出层）。我们将首先为每个层初始化权重和偏差矩阵，并按如下方式定义层操作：
+
+```py
+# First logistic layer (7 inputs to 14 hidden nodes) 
+A1 = init_variable(shape=[7,14]) 
+b1 = init_variable(shape=[14]) 
+logistic_layer1 = logistic(x_data, A1, b1)
+
+# Second logistic layer (14 hidden inputs to 5 hidden nodes) 
+A2 = init_variable(shape=[14,5]) 
+b2 = init_variable(shape=[5]) 
+logistic_layer2 = logistic(logistic_layer1, A2, b2) 
+# Final output layer (5 hidden nodes to 1 output) 
+A3 = init_variable(shape=[5,1]) 
+b3 = init_variable(shape=[1]) 
+final_output = logistic(logistic_layer2, A3, b3, activation=False)
+```
+
+1.  接下来，我们声明我们的损失（交叉熵）和优化算法，并初始化以下变量：
+
+```py
+# Create loss function 
+loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=final_output, labels=y_target)) 
+# Declare optimizer 
+my_opt = tf.train.AdamOptimizer(learning_rate = 0.002) 
+train_step = my_opt.minimize(loss) 
+# Initialize variables 
+init = tf.global_variables_initializer() 
+sess.run(init)
+```
+
+> 交叉熵是一种测量概率之间距离的方法。在这里，我们想要测量确定性（0 或 1）与模型概率（`0 < x < 1`）之间的差异。 TensorFlow 使用内置的 sigmoid 函数实现交叉熵。这也是超参数调整的一部分，因为我们更有可能找到最佳的损失函数，学习率和针对当前问题的优化算法。为简洁起见，我们不包括超参数调整。
+
+1.  为了评估和比较我们的模型与以前的模型，我们需要在图上创建预测和精度操作。这将允许我们提供整个测试集并确定准确率，如下所示：
+
+```py
+prediction = tf.round(tf.nn.sigmoid(final_output)) 
+predictions_correct = tf.cast(tf.equal(prediction, y_target), tf.float32) 
+accuracy = tf.reduce_mean(predictions_correct) 
+```
+
+1.  我们现在准备开始我们的训练循环。我们将训练 1500 代并保存模型损失并训练和测试精度以便以后进行绘图。我们的训练循环使用以下代码启动：
+
+```py
+# Initialize loss and accuracy vectors loss_vec = [] train_acc = [] test_acc = [] 
+for i in range(1500): 
+    # Select random indicies for batch selection 
+    rand_index = np.random.choice(len(x_vals_train), size=batch_size) 
+    # Select batch 
+    rand_x = x_vals_train[rand_index] 
+    rand_y = np.transpose([y_vals_train[rand_index]]) 
+    # Run training step 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    # Get training loss 
+    temp_loss = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+    loss_vec.append(temp_loss) 
+    # Get training accuracy 
+    temp_acc_train = sess.run(accuracy, feed_dict={x_data: x_vals_train, y_target: np.transpose([y_vals_train])}) 
+    train_acc.append(temp_acc_train) 
+    # Get test accuracy 
+    temp_acc_test = sess.run(accuracy, feed_dict={x_data: x_vals_test, y_target: np.transpose([y_vals_test])}) 
+    test_acc.append(temp_acc_test) 
+    if (i+1)%150==0: 
+        print('Loss = '' + str(temp_loss)) 
+```
+
+1.  上一步应该产生以下输出：
+
+```py
+Loss = 0.696393 
+Loss = 0.591708 
+Loss = 0.59214 
+Loss = 0.505553 
+Loss = 0.541974 
+Loss = 0.512707 
+Loss = 0.590149 
+Loss = 0.502641 
+Loss = 0.518047 
+Loss = 0.502616 
+```
+
+1.  以下代码块说明了如何使用`matplotlib`绘制交叉熵损失以及训练和测试集精度：
+
+```py
+# Plot loss over time 
+plt.plot(loss_vec, 'k-') 
+plt.title('Cross Entropy Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Cross Entropy Loss') 
+plt.show() 
+# Plot train and test accuracy 
+plt.plot(train_acc, 'k-', label='Train Set Accuracy') 
+plt.plot(test_acc, 'r--', label='Test Set Accuracy') 
+plt.title('Train and Test Accuracy') 
+plt.xlabel('Generation') 
+plt.ylabel('Accuracy') 
+plt.legend(loc='lower right') 
+plt.show()
+```
+
+我们得到每代交叉熵损失的图如下：
+
+![](img/c3e4b9e2-8d06-45d0-b19f-890dbcef6c4a.png)
+
+图 7：超过 1500 次迭代的训练损失
+
+在大约 50 代之内，我们已经达到了良好的模式。在我们继续训练时，我们可以看到在剩余的迭代中获得的很少，如下图所示：
+
+![](img/77fdb4ad-5bdf-4013-9768-1beca691cf5b.png)
+
+图 8：训练组和测试装置的准确率
+
+正如您在上图中所看到的，我们很快就找到了一个好模型。
+
+## 工作原理
+
+在考虑使用神经网络建模数据时，您必须考虑优缺点。虽然我们的模型比以前的模型融合得更快，并且可能具有更高的准确率，但这需要付出代价；我们正在训练更多的模型变量，并且更有可能过拟合。为了检查是否发生过拟合，我们会查看测试和训练集的准确率。如果训练集的准确率继续增加而测试集的精度保持不变或甚至略微下降，我们可以假设过拟合正在发生。
+
+为了对抗欠拟合，我们可以增加模型深度或训练模型以进行更多迭代。为了解决过拟合问题，我们可以为模型添加更多数据或添加正则化技术。
+
+同样重要的是要注意我们的模型变量不像线性模型那样可解释。神经网络模型具有比线性模型更难解释的系数，因为它们解释了模型中特征的重要性。
+
+# 学习玩井字棋
+
+为了展示适应性神经网络的可用性，我们现在将尝试使用神经网络来学习井字棋的最佳动作。我们将知道井字棋是一种确定性游戏，并且最佳动作已经知道。
+
+## 准备
+
+为了训练我们的模型，我们将使用一系列的棋盘位置，然后对许多不同的棋盘进行最佳的最佳响应。我们可以通过仅考虑在对称性方面不同的棋盘位置来减少要训练的棋盘数量。井字棋棋盘的非同一性变换是 90 度，180 度和 270 度的旋转（在任一方向上），水平反射和垂直反射。鉴于这个想法，我们将使用最佳移动的候选棋盘名单，应用两个随机变换，然后将其输入神经网络进行学习。
+
+> 由于井字棋是一个确定性的游戏，值得注意的是，无论谁先走，都应该赢或抽。我们希望能够以最佳方式响应我们的动作并最终获得平局的模型。
+
+如果我们将`X`标注为 1，将`O`标注为 -1，将空格标注为 0，则下图说明了我们如何将棋盘位置和最佳移动视为一行数据：
+
+![](img/e71cb35d-172e-4f0b-bc3b-e50bd46ca956.png)Figure 9: Here, we illustrate how to consider a board and an optimal move as a row of data. Note that X = 1, O = -1, and empty spaces are 0, and we start indexing at 0
+
+除了模型损失，要检查我们的模型如何执行，我们将做两件事。我们将执行的第一项检查是从训练集中删除位置和最佳移动行。这将使我们能够看到神经网络模型是否可以推广它以前从未见过的移动。我们将评估模型的第二种方法是在最后实际对抗它。
+
+可以在此秘籍的 [GitHub 目录](https://github.com/nfmcclure/tensorflow_cookbook/tree/master/06_Neural_Networks/08_Learning_Tic_Tac_Toe) 和 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)中找到可能的棋盘列表和最佳移动。
+
+## 操作步骤
+
+我们按如下方式处理秘籍：
+
+1.  我们需要从为此脚本加载必要的库开始，如下所示：
+
+```py
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+import csv 
+import random 
+import numpy as np 
+import random 
+```
+
+1.  接下来，我们声明以下批量大小来训练我们的模型：
+
+```py
+batch_size = 50 
+```
+
+1.  为了使棋盘更容易可视化，我们将创建一个输出带`X`和`O`的井字棋棋盘的函数。这是通过以下代码完成的：
+
+```py
+ def print_board(board):
+    symbols = ['O', ' ', 'X']
+    board_plus1 = [int(x) + 1 for x in board]
+    board_line1 = ' {} | {} | {}'.format(symbols[board_plus1[0]],
+                                         symbols[board_plus1[1]],
+                                         symbols[board_plus1[2]])
+    board_line2 = ' {} | {} | {}'.format(symbols[board_plus1[3]],
+                                         symbols[board_plus1[4]],
+                                         symbols[board_plus1[5]])
+    board_line3 = ' {} | {} | {}'.format(symbols[board_plus1[6]],
+                                         symbols[board_plus1[7]],
+                                         symbols[board_plus1[8]])
+    print(board_line1)
+    print('___________')
+    print(board_line2)
+    print('___________')
+    print(board_line3)
+```
+
+1.  现在我们必须创建一个函数，它将返回一个新的棋盘和一个转换下的最佳响应位置。这是通过以下代码完成的：
+
+```py
+def get_symmetry(board, response, transformation): 
+    ''' 
+    :param board: list of integers 9 long: 
+     opposing mark = -1 
+     friendly mark = 1 
+     empty space = 0 
+    :param transformation: one of five transformations on a board: 
+     rotate180, rotate90, rotate270, flip_v, flip_h 
+    :return: tuple: (new_board, new_response) 
+    ''' 
+
+    if transformation == 'rotate180': 
+        new_response = 8 - response 
+        return board[::-1], new_response 
+
+    elif transformation == 'rotate90': 
+        new_response = [6, 3, 0, 7, 4, 1, 8, 5, 2].index(response) 
+        tuple_board = list(zip(*[board[6:9], board[3:6], board[0:3]])) 
+        return [value for item in tuple_board for value in item], new_response 
+
+    elif transformation == 'rotate270': 
+        new_response = [2, 5, 8, 1, 4, 7, 0, 3, 6].index(response) 
+        tuple_board = list(zip(*[board[0:3], board[3:6], board[6:9]]))[::-1] 
+        return [value for item in tuple_board for value in item], new_response 
+
+    elif transformation == 'flip_v': 
+        new_response = [6, 7, 8, 3, 4, 5, 0, 1, 2].index(response) 
+        return board[6:9] +  board[3:6] + board[0:3], new_response 
+
+    elif transformation == 'flip_h': 
+    # flip_h = rotate180, then flip_v 
+        new_response = [2, 1, 0, 5, 4, 3, 8, 7, 6].index(response) 
+        new_board = board[::-1] 
+        return new_board[6:9] +  new_board[3:6] + new_board[0:3], new_response 
+
+    else: 
+        raise ValueError('Method not implmented.') 
+```
+
+1.  棋盘列表及其最佳响应位于目录中的`.csv`文件中，可从 [github 仓库](https://github.com/nfmcclure/tensorflow_cookbook)或 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)获得。我们将创建一个函数，它将使用棋盘和响应加载文件，并将其存储为元组列表，如下所示：
+
+```py
+def get_moves_from_csv(csv_file): 
+    ''' 
+    :param csv_file: csv file location containing the boards w/ responses 
+    :return: moves: list of moves with index of best response 
+    ''' 
+    moves = [] 
+    with open(csv_file, 'rt') as csvfile: 
+        reader = csv.reader(csvfile, delimiter=',') 
+        for row in reader: 
+            moves.append(([int(x) for x in row[0:9]],int(row[9]))) 
+    return moves 
+```
+
+1.  现在我们需要将所有内容组合在一起以创建一个函数，该函数将返回随机转换的棋盘和响应。这是通过以下代码完成的：
+
+```py
+def get_rand_move(moves, rand_transforms=2): 
+    # This function performs random transformations on a board. 
+    (board, response) = random.choice(moves) 
+    possible_transforms = ['rotate90', 'rotate180', 'rotate270', 'flip_v', 'flip_h'] 
+    for i in range(rand_transforms): 
+        random_transform = random.choice(possible_transforms) 
+        (board, response) = get_symmetry(board, response, random_transform) 
+    return board, response 
+```
+
+1.  接下来，我们需要初始化图会话，加载数据，并创建一个训练集，如下所示：
+
+```py
+sess = tf.Session() 
+moves = get_moves_from_csv('base_tic_tac_toe_moves.csv') 
+# Create a train set: 
+train_length = 500 
+train_set = [] 
+for t in range(train_length): 
+    train_set.append(get_rand_move(moves)) 
+```
+
+1.  请记住，我们希望从我们的训练集中删除一个棋盘和一个最佳响应，以查看该模型是否可以推广以实现最佳移动。以下棋盘的最佳举措将是在第 6 号指数进行：
+
+```py
+test_board = [-1, 0, 0, 1, -1, -1, 0, 0, 1] 
+train_set = [x for x in train_set if x[0] != test_board] 
+```
+
+1.  我们现在可以创建函数来创建模型变量和模型操作。请注意，我们在以下模型中不包含`softmax()`激活函数，因为它包含在损失函数中：
+
+```py
+def init_weights(shape): 
+    return tf.Variable(tf.random_normal(shape)) 
+
+def model(X, A1, A2, bias1, bias2): 
+    layer1 = tf.nn.sigmoid(tf.add(tf.matmul(X, A1), bias1)) 
+    layer2 = tf.add(tf.matmul(layer1, A2), bias2) 
+    return layer2 
+```
+
+1.  现在我们需要声明我们的占位符，变量和模型，如下所示：
+
+```py
+X = tf.placeholder(dtype=tf.float32, shape=[None, 9]) 
+Y = tf.placeholder(dtype=tf.int32, shape=[None]) 
+A1 = init_weights([9, 81]) 
+bias1 = init_weights([81]) 
+A2 = init_weights([81, 9]) 
+bias2 = init_weights([9]) 
+model_output = model(X, A1, A2, bias1, bias2)
+```
+
+1.  接下来，我们需要声明我们的`loss`函数，它将是最终输出对率的平均 softmax（非标准化输出）。然后我们将声明我们的训练步骤和优化器。如果我们希望将来能够对抗我们的模型，我们还需要创建一个预测操作，如下所示：
+
+```py
+loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=model_output, labels=Y)) 
+train_step = tf.train.GradientDescentOptimizer(0.025).minimize(loss) 
+prediction = tf.argmax(model_output, 1) 
+```
+
+1.  我们现在可以使用以下代码初始化变量并循环遍历神经网络的训练：
+
+```py
+# Initialize variables 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+loss_vec = [] 
+for i in range(10000): 
+    # Select random indices for batch 
+    rand_indices = np.random.choice(range(len(train_set)), batch_size, replace=False) 
+    # Get batch 
+    batch_data = [train_set[i] for i in rand_indices] 
+    x_input = [x[0] for x in batch_data] 
+    y_target = np.array([y[1] for y in batch_data]) 
+    # Run training step 
+    sess.run(train_step, feed_dict={X: x_input, Y: y_target}) 
+    # Get training loss 
+    temp_loss = sess.run(loss, feed_dict={X: x_input, Y: y_target}) 
+    loss_vec.append(temp_loss)
+```
+
+```py
+    if i%500==0: 
+        print('iteration ' + str(i) + ' Loss: ' + str(temp_loss)) 
+```
+
+1.  以下是绘制模型训练损失所需的代码：
+
+```py
+plt.plot(loss_vec, 'k-', label='Loss') 
+plt.title('Loss (MSE) per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.show() 
+```
+
+我们应该得到以下每代损失的绘图：
+
+![](img/598821e9-0461-40de-bb4e-d6c72b9d6a28.png)
+
+图 10：超过 10,000 次迭代的井字棋训练组损失
+
+在上图中，我们绘制了训练步骤的损失。
+
+1.  为了测试模型，我们需要看看它是如何在我们从训练集中删除的测试棋盘上执行的。我们希望模型可以推广和预测移动的最佳索引，这将是索引号 6。大多数时候模型将成功，如下所示：
+
+```py
+test_boards = [test_board] 
+feed_dict = {X: test_boards} 
+logits = sess.run(model_output, feed_dict=feed_dict) 
+predictions = sess.run(prediction, feed_dict=feed_dict) 
+print(predictions) 
+```
+
+1.  上一步应该产生以下输出：
+
+```py
+[6] 
+```
+
+1.  为了评估我们的模型，我们需要与我们训练的模型进行对比。要做到这一点，我们必须创建一个能够检查胜利的函数。这样，我们的程序将知道何时停止要求更多动作。这是通过以下代码完成的：
+
+```py
+def check(board): 
+    wins = [[0,1,2], [3,4,5], [6,7,8], [0,3,6], [1,4,7], [2,5,8], [0,4,8], [2,4,6]] 
+    for i in range(len(wins)): 
+        if board[wins[i][0]]==board[wins[i][1]]==board[wins[i][2]]==1.: 
+            return 1 
+        elif board[wins[i][0]]==board[wins[i][1]]==board[wins[i][2]]==-1.: 
+            return 1 
+    return 0 
+```
+
+1.  现在我们可以使用我们的模型循环播放游戏。我们从一个空白棋盘（全零）开始，我们要求用户输入一个索引（0-8），然后我们将其输入到模型中进行预测。对于模型的移动，我们采用最大的可用预测，也是一个开放空间。从这个游戏中，我们可以看到我们的模型并不完美，如下所示：
+
+```py
+game_tracker = [0., 0., 0., 0., 0., 0., 0., 0., 0.] 
+win_logical = False 
+num_moves = 0 
+while not win_logical: 
+    player_index = input('Input index of your move (0-8): ') 
+    num_moves += 1 
+    # Add player move to game 
+    game_tracker[int(player_index)] = 1\. 
+
+    # Get model's move by first getting all the logits for each index 
+    [potential_moves] = sess.run(model_output, feed_dict={X: [game_tracker]}) 
+    # Now find allowed moves (where game tracker values = 0.0) 
+    allowed_moves = [ix for ix,x in enumerate(game_tracker) if x==0.0] 
+    # Find best move by taking argmax of logits if they are in allowed moves 
+    model_move = np.argmax([x if ix in allowed_moves else -999.0 for ix,x in enumerate(potential_moves)]) 
+
+    # Add model move to game 
+    game_tracker[int(model_move)] = -1\. 
+    print('Model has moved') 
+    print_board(game_tracker) 
+    # Now check for win or too many moves 
+    if check(game_tracker)==1 or num_moves>=5: 
+        print('Game Over!') 
+       win_logical = True 
+```
+
+1.  上一步应该产生以下交互输出：
+
+```py
+Input index of your move (0-8): 4
+Model has moved
+ O |   |
+___________ 
+   | X | 
+___________ 
+   |   | 
+Input index of your move (0-8): 6 
+Model has moved 
+O  |   | 
+___________ 
+   | X | 
+___________ 
+ X |   | O 
+Input index of your move (0-8): 2 
+Model has moved 
+O  |   | X 
+___________ 
+O  | X | 
+___________ 
+X  |   | O 
+Game Over! 
+```
+
+## 工作原理
+
+在本节中，我们通过馈送棋盘位置和九维向量训练神经网络来玩井字棋，并预测最佳响应。我们只需要喂几个可能的井字棋棋盘并对每个棋盘应用随机变换以增加训练集大小。
+
+为了测试我们的算法，我们删除了一个特定棋盘的所有实例，并查看我们的模型是否可以推广以预测最佳响应。最后，我们针对我们的模型玩了一个示例游戏。虽然它还不完善，但仍有不同的架构和训练程序可用于改进它。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch07.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch07.md
new file mode 100644
index 00000000..ccfcd293
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch07.md
@@ -0,0 +1,1674 @@
+# 七、自然语言处理
+
+在本章中，我们将向您介绍如何使用 TensorFlow 中的文本。我们将首先介绍单词嵌入如何使用词袋方法，然后我们将继续实现更高级的嵌入，如 word2vec 和 doc2vec。
+
+在本章中，我们将介绍以下主题：
+
+*   使用词袋
+*   实现 TF-IDF
+*   使用 Skip-Gram 嵌入
+*   使用 CBOW 嵌入
+*   使用 word2vec 进行预测
+*   使用 doc2vec 进行情感分析
+
+请注意，读者可以在 [Github](https://github.com/nfmcclure/tensorflow_cookbook) 和 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)中找到本章的所有代码。
+
+# 介绍
+
+到目前为止，我们只考虑过主要使用数字输入的机器学习算法。如果我们想要使用文本，我们必须找到一种方法将文本转换为数字。有很多方法可以做到这一点，我们将在本章中探讨一些常用的方法。
+
+如果我们考虑句子`TensorFlow makes machine learning easy`，我们可以按照我们观察它们的顺序将单词转换为数字。这将使句子成为`1 2 3 4 5`。然后，当我们看到一个新句子`machine learning is easy`时，我们可以将其翻译为`3 4 0 5,`，表示我们没有看到的索引为零的单词。通过这两个例子，我们将词汇量限制为六个数字。对于大块文本，我们可以选择我们想要保留多少单词，并且通常保留最常用的单词，用零索引标记其他所有单词。
+
+如果单词`learning`的数值为 4，单词`makes`的数值为 2，则自然会认为`learning`是`makes`的两倍。由于我们不希望单词之间存在这种类型的数字关系，我们可以假设这些数字代表的是类别，而不是关系数字。
+
+另一个问题是这两个句子的大小不同。我们所做的每个观察（在这种情况下，句子）需要具有与我们希望创建的模型相同的大小输入。为了解决这个问题，我们必须在稀疏向量中创建每个句子，如果该单词出现在该索引中，则该特定索引中的值为 1：
+
+| `TensorFlow` | `makes` | `machine` | `learning` | `easy` |
+| --- | --- | --- | --- | --- |
+| 1 | 2 | 3 | 4 | 5 |
+
+```py
+first_sentence = [0,1,1,1,1,1] 
+```
+
+为了进一步解释前面的向量，我们的词汇由六个不同的单词组成（五个已知单词和一个未知单词）。对于这些单词中的每一个，我们要么具有零值或 1 值。零表示单词不出现在我们的句子中，1 表示它至少出现一次。因此值为零表示该单词不会出现，值为 1 表示它出现
+
+| `machine` | `learning` | `is` | `easy` |
+| --- | --- | --- | --- |
+| 3 | 4 | 0 | 5 |
+
+```py
+second_sentence = [1,0,0,1,1,1] 
+```
+
+这种方法的缺点是我们失去了任何词序的指示。两个句子`TensorFlow makes machine learning easy`和`machine learning makes TensorFlow easy`将产生相同的句子向量。
+
+值得注意的是，这些向量的长度等于我们选择的词汇量的大小。选择非常大的词汇量是很常见的，因此这些句子向量可能非常稀疏。这种类型的嵌入称为词袋。我们将在下一节中实现这一点。
+
+另一个缺点是单词`is`和`TensorFlow`具有相同的数字索引值：1。有意义的是，单词`is`可能不如单词`TensorFlow`的出现重要。
+
+我们将在本章中探索不同类型的嵌入，试图解决这些问题，但首先我们将开始实现字袋算法。
+
+# 使用词袋嵌入
+
+在本节中，我们将首先向您展示如何使用 TensorFlow 中的词袋嵌入。这种映射是我们在介绍中介绍的。在这里，我们将向您展示如何使用此类嵌入进行垃圾邮件预测。
+
+## 准备
+
+为了说明如何在文本数据集中使用词袋，我们将使用来自 UCI 机器学习数据仓库的[垃圾邮件电话文本数据库](https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection)。这是垃圾邮件或非垃圾邮件（非垃圾邮件）的电话短信集合。我们将下载此数据，将其存储以备将来使用，然后继续使用词袋方法来预测文本是否为垃圾邮件。将在词袋算法上运行的模型将是没有隐藏层的逻辑模型。我们将使用批量大小为 1 的随机训练，并在最后的保持测试集上计算精度。
+
+## 操作步骤
+
+对于这个例子，我们将首先获取数据，正则化和分割文本，通过嵌入函数运行它，并训练逻辑函数来预测垃圾邮件：
+
+1.  第一项任务是为此任务导入必要的库。在通常的库中，我们需要一个`.zip`文件库来解压缩来自 UCI 机器学习网站的数据，我们从中检索它：
+
+```py
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+import os 
+import numpy as np 
+import csv 
+import string 
+import requests 
+import io 
+from zipfile import ZipFile 
+from tensorflow.contrib import learn 
+sess = tf.Session() 
+```
+
+1.  我们不会在每次运行脚本时下载文本数据，而是保存它并检查文件之前是否已保存。如果我们想要更改脚本的参数，这可以防止我们反复下载数据。下载此数据后，我们将提取输入和目标数据，并将目标更改为`1`以查找垃圾邮件，将`0`更改为非垃圾邮件：
+
+```py
+save_file_name = os.path.join('temp','temp_spam_data.csv') 
+if os.path.isfile(save_file_name): 
+ text_data = [] 
+    with open(save_file_name, 'r') as temp_output_file: 
+        reader = csv.reader(temp_output_file) 
+        for row in reader: 
+            text_data.append(row) 
+else: 
+    zip_url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip' 
+    r = requests.get(zip_url) 
+    z = ZipFile(io.BytesIO(r.content)) 
+    file = z.read('SMSSpamCollection') 
+    # Format Data 
+    text_data = file.decode() 
+    text_data = text_data.encode('ascii',errors='ignore') 
+    text_data = text_data.decode().split('\n') 
+    text_data = [x.split('\t') for x in text_data if len(x)>=1] 
+
+    # And write to csv 
+    with open(save_file_name, 'w') as temp_output_file: 
+        writer = csv.writer(temp_output_file) 
+        writer.writerows(text_data) 
+texts = [x[1] for x in text_data] 
+target = [x[0] for x in text_data] 
+# Relabel 'spam' as 1, 'ham' as 0 
+target = [1 if x=='spam' else 0 for x in target] 
+```
+
+1.  为了减少潜在的词汇量，我们将文本正则化。为此，我们消除了文本中大小写和数字的影响。使用以下代码：
+
+```py
+# Convert to lower case 
+texts = [x.lower() for x in texts] 
+# Remove punctuation 
+texts = [''.join(c for c in x if c not in string.punctuation) for x in texts] 
+# Remove numbers 
+texts = [''.join(c for c in x if c not in '0123456789') for x in texts] 
+# Trim extra whitespace 
+texts = [' '.join(x.split()) for x in texts] 
+```
+
+1.  我们还必须确定最大句子大小。为此，我们将查看数据集中文本长度的直方图。我们可以看到一个很好的截止可能是 25 个字左右。使用以下代码：
+
+```py
+# Plot histogram of text lengths 
+text_lengths = [len(x.split()) for x in texts] 
+text_lengths = [x for x in text_lengths if x < 50] 
+plt.hist(text_lengths, bins=25) 
+plt.title('Histogram of # of Words in Texts') 
+sentence_size = 25 
+min_word_freq = 3
+```
+
+由此，我们将得到以下绘图：
+
+![](img/da702c2c-702c-4ea7-bcf6-e778e7cfad70.png)
+
+图 1：数据中每个文本中单词数的直方图。
+
+We use this to establish a maximum length of words to consider in each text. We set this to 25 words, but it can easily be set to 30 or 40 as well.
+
+1.  TensorFlow 有一个内置的处理工具，用于确定名为`VocabularyProcessor()`的词汇嵌入，它位于`learn.preprocessing`库中。请注意，您可能会使用此函数获得已弃用的警告：
+
+```py
+vocab_processor = learn.preprocessing.VocabularyProcessor(sentence_size, min_frequency=min_word_freq) 
+vocab_processor.fit_transform(texts) 
+transformed_texts = np.array([x for x in vocab_processor.transform(texts)])
+embedding_size = len(np.unique(transformed_texts))
+```
+
+1.  现在我们将数据分成 80-20 训练和测试集：
+
+```py
+train_indices = np.random.choice(len(texts), round(len(texts)*0.8), replace=False) 
+test_indices = np.array(list(set(range(len(texts))) - set(train_indices))) 
+texts_train = [x for ix, x in enumerate(texts) if ix in train_indices] 
+texts_test = [x for ix, x in enumerate(texts) if ix in test_indices] 
+target_train = [x for ix, x in enumerate(target) if ix in train_indices] 
+target_test = [x for ix, x in enumerate(target) if ix in test_indices] 
+```
+
+1.  接下来，我们声明单词的嵌入矩阵。句子词将被翻译成指数。这些索引将被转换为单热编码的向量，我们可以使用单位矩阵创建，这将是我们的单词嵌入的大小。我们将使用此矩阵查找每个单词的稀疏向量，并将它们一起添加到稀疏句子向量中。使用以下代码执行此操作：
+
+```py
+identity_mat = tf.diag(tf.ones(shape=[embedding_size])) 
+```
+
+1.  由于我们最终会执行逻辑回归来预测垃圾邮件的概率，因此我们需要声明逻辑回归变量。然后我们也可以声明我们的数据占位符。值得注意的是，`x_data`输入占位符应该是整数类型，因为它将用于查找我们的单位矩阵的行索引。 TensorFlow 要求此查找为整数：
+
+```py
+A = tf.Variable(tf.random_normal(shape=[embedding_size,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+# Initialize placeholders 
+x_data = tf.placeholder(shape=[sentence_size], dtype=tf.int32) 
+y_target = tf.placeholder(shape=[1, 1], dtype=tf.float32) 
+```
+
+1.  现在我们将使用 TensorFlow 的嵌入查找函数，它将句子中单词的索引映射到我们单位矩阵的单热编码向量。当我们有这个矩阵时，我们通过总结上述单词向量来创建句子向量。使用以下代码执行此操作：
+
+```py
+x_embed = tf.nn.embedding_lookup(identity_mat, x_data) 
+x_col_sums = tf.reduce_sum(x_embed, 0)
+```
+
+1.  现在我们为每个句子都有固定长度的句子向量，我们想要进行逻辑回归。为此，我们需要声明实际的模型操作。由于我们一次只做一个数据点（随机训练），我们将扩展输入的维度并对其进行线性回归操作。请记住，TensorFlow 具有包含 sigmoid 函数的损失函数，因此我们不需要在此输出中包含它：
+
+```py
+x_col_sums_2D = tf.expand_dims(x_col_sums, 0) 
+model_output = tf.add(tf.matmul(x_col_sums_2D, A), b)
+```
+
+1.  我们现在将声明损失函数，预测操作和优化函数来训练模型。使用以下代码执行此操作：
+
+```py
+loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=model_output, labels=y_target)) 
+# Prediction operation 
+prediction = tf.sigmoid(model_output) 
+# Declare optimizer 
+my_opt = tf.train.GradientDescentOptimizer(0.001) 
+train_step = my_opt.minimize(loss) 
+```
+
+1.  接下来，我们将在开始训练生成之前初始化图变量：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  现在我们将开始对句子进行迭代。 TensorFlow 的`vocab_processor.fit()`函数是一次运行一个句子的生成器。我们将利用这一优势，以便我们可以对物流模型进行随机训练。为了更好地了解准确率趋势，我们将保留过去 50 个训练步骤的平均值。如果我们只是绘制当前的一个，我们会看到 1 或 0，这取决于我们是否预测训练数据是否正确。使用以下代码执行此操作：
+
+```py
+loss_vec = [] 
+train_acc_all = [] 
+train_acc_avg = [] 
+for ix, t in enumerate(vocab_processor.fit_transform(texts_train)): 
+    y_data = [[target_train[ix]]] 
+
+    sess.run(train_step, feed_dict={x_data: t, y_target: y_data}) 
+
+    temp_loss = sess.run(loss, feed_dict={x_data: t, y_target: y_data}) 
+    loss_vec.append(temp_loss) 
+
+    if (ix+1)%10==0: 
+        print('Training Observation #{}: Loss= {}'.format(ix+1, temp_loss)) 
+
+    # Keep trailing average of past 50 observations accuracy 
+    # Get prediction of single observation 
+    [[temp_pred]] = sess.run(prediction, feed_dict={x_data:t, y_target:y_data}) 
+    # Get True/False if prediction is accurate 
+    train_acc_temp = target_train[ix]==np.round(temp_pred) 
+    train_acc_all.append(train_acc_temp) 
+    if len(train_acc_all) >= 50: 
+        train_acc_avg.append(np.mean(train_acc_all[-50:]))
+```
+
+1.  这产生以下输出：
+
+```py
+Starting Training Over 4459 Sentences. 
+Training Observation #10: Loss = 5.45322 
+Training Observation #20: Loss = 3.58226 
+Training Observation #30: Loss = 0.0 
+...
+Training Observation #4430: Loss = 1.84636 
+Training Observation #4440: Loss = 1.46626e-05 
+Training Observation #4450: Loss = 0.045941 
+```
+
+1.  为了获得测试集的准确率，我们重复前面的过程，但仅限于预测操作，而不是测试集的训练操作：
+
+```py
+print('Getting Test Set Accuracy') 
+test_acc_all = [] 
+for ix, t in enumerate(vocab_processor.fit_transform(texts_test)): 
+    y_data = [[target_test[ix]]] 
+
+    if (ix+1)%50==0: 
+        print('Test Observation #{}'.format(ix+1))     
+
+    # Keep trailing average of past 50 observations accuracy 
+    # Get prediction of single observation 
+    [[temp_pred]] = sess.run(prediction, feed_dict={x_data:t, y_target:y_data}) 
+    # Get True/False if prediction is accurate 
+    test_acc_temp = target_test[ix]==np.round(temp_pred) 
+    test_acc_all.append(test_acc_temp) 
+print('\nOverall Test Accuracy: {}'.format(np.mean(test_acc_all)))
+
+Getting Test Set Accuracy For 1115 Sentences. 
+Test Observation #10 
+Test Observation #20 
+Test Observation #30 
+...
+Test Observation #1000 
+Test Observation #1050 
+Test Observation #1100 
+Overall Test Accuracy: 0.8035874439461883 
+```
+
+## 工作原理
+
+在本例中，我们使用了来自 UCI 机器学习库的垃圾邮件文本数据。我们使用 TensorFlow 的词汇处理函数来创建标准化词汇表来处理和创建句子向量，这些句子向量是每个文本的单词向量的总和。我们使用这个句子向量与逻辑回归并获得 80% 准确率模型来预测特定文本是否是垃圾邮件。
+
+## 更多
+
+值得一提的是限制句子（或文本）大小的动机。在此示例中，我们将文本大小限制为 25 个单词。这是词袋的常见做法，因为它限制了文本长度对预测的影响。你可以想象，如果我们找到一个单词，例如`meeting`，它可以预测文本是非垃圾邮件（而不是垃圾邮件），那么垃圾邮件可能会通过在最后输入该单词的多次出现来实现。实际上，这是目标数据不平衡的常见问题。在这种情况下可能会出现不平衡的数据，因为垃圾邮件可能很难找到，而非垃圾邮件可能很容易找到。由于这个事实，我们创建的词汇可能严重偏向于我们数据的非垃圾邮件部分中表示的单词（更多非垃圾邮件意味着更多的单词在非垃圾邮件中表示而不是垃圾邮件）。如果我们允许无限长度的文本，那么垃圾邮件发送者可能会利用这一点并创建非常长的文本，这些文本在我们的逻辑模型中触发非垃圾邮件词因素的概率更高。
+
+在下一节中，我们将尝试通过使用单词出现的频率来更好地解决此问题，以确定单词嵌入的值。
+
+# 实现 TF-IDF
+
+由于我们可以为每个单词选择嵌入，我们可能会决定更改某些单词的加权。一种这样的策略是增加有用的单词和减轻过度常见或罕见单词的权重。我们将在此秘籍中探索的嵌入是尝试实现此目的。
+
+## 准备
+
+TF-IDF 是一个缩写，代表文本频率 - 反向文档频率。该术语基本上是每个单词的文本频率和反向文档频率的乘积。
+
+在前面的秘籍中，我们介绍了词袋方法，它为句子中每个单词的出现赋值为 1。这可能并不理想，因为每个类别的句子（前一个秘籍中的垃圾邮件和非垃圾邮件）很可能具有`the`，`and`和其他单词的相同频率，而诸如`Viagra`和`sale`之类的单词]可能应该更加重视查明文本是否是垃圾邮件。
+
+首先，我们要考虑词频。在这里，我们考虑单个条目中单词出现的频率。这部分（TF）的目的是找到在每个条目中看起来很重要的项。
+
+但是`the`和`and`等词可能会在每个条目中频繁出现。我们希望减轻这些单词的重要性，因此将前面的文本频率（TF）乘以整个文档频率的倒数可能有助于找到重要的单词。然而，由于文本集（语料库）可能非常大，因此通常采用逆文档频率的对数。这为我们留下了每个文档条目中每个单词的 TF-IDF 的以下公式：
+
+![](img/6d9df72e-4e84-45f4-864f-32730248af36.png)
+
+这里`w[tf]`是文档中的单词频率，`w[df]`是所有文档中这些单词的总频率。有意义的是，TF-IDF 的高值可能表示在确定文档内容时非常重要的单词。
+
+创建 TF-IDF 向量要求我们将所有文本加载到内存中，并在开始训练模型之前计算每个单词的出现次数。因此，它没有在 TensorFlow 中完全实现，因此我们将使用 scikit-learn 来创建我们的 TF-IDF 嵌入，但是使用 TensorFlow 来适应逻辑模型。
+
+## 操作步骤
+
+我们将按如下方式处理秘籍：
+
+1.  我们将从加载必要的库开始。这次，我们正在为我们的文本加载 scikit-learn TF-IDF 预处理库。使用以下代码执行此操作：
+
+```py
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+import csv 
+import numpy as np 
+import os 
+import string 
+import requests 
+import io 
+import nltk 
+from zipfile import ZipFile 
+from sklearn.feature_extraction.text import TfidfVectorizer
+```
+
+1.  我们将开始一个图会话，并为我们的词汇表声明我们的批量大小和最大特征大小：
+
+```py
+sess = tf.Session() 
+batch_size= 200 
+max_features = 1000 
+```
+
+1.  接下来，我们将从 Web 或我们的`temp`数据文件夹中加载数据（如果我们之前已保存过）。使用以下代码执行此操作：
+
+```py
+save_file_name = os.path.join('temp','temp_spam_data.csv') 
+if os.path.isfile(save_file_name): 
+    text_data = [] 
+    with open(save_file_name, 'r') as temp_output_file: 
+        reader = csv.reader(temp_output_file) 
+        for row in reader: 
+            text_data.append(row) 
+else: 
+    zip_url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip' 
+    r = requests.get(zip_url) 
+    z = ZipFile(io.BytesIO(r.content)) 
+    file = z.read('SMSSpamCollection') 
+    # Format Data 
+    text_data = file.decode() 
+    text_data = text_data.encode('ascii',errors='ignore') 
+    text_data = text_data.decode().split('\n') 
+    text_data = [x.split('\t') for x in text_data if len(x)>=1] 
+
+    # And write to csv 
+    with open(save_file_name, 'w') as temp_output_file: 
+        writer = csv.writer(temp_output_file) 
+        writer.writerows(text_data) 
+texts = [x[1] for x in text_data] 
+target = [x[0] for x in text_data] 
+# Relabel 'spam' as 1, 'ham' as 0 
+target = [1\. if x=='spam' else 0\. for x in target] 
+```
+
+1.  就像前面的秘籍一样，我们将通过将所有内容转换为小写，删除标点符号并删除数字来减少词汇量：
+
+```py
+# Lower case 
+texts = [x.lower() for x in texts] 
+# Remove punctuation 
+texts = [''.join(c for c in x if c not in string.punctuation) for x in texts] 
+# Remove numbers 
+texts = [''.join(c for c in x if c not in '0123456789') for x in texts] 
+# Trim extra whitespace 
+texts = [' '.join(x.split()) for x in texts] 
+```
+
+1.  为了使用 scikt-learn 的 TF-IDF 处理函数，我们必须告诉它如何标记我们的句子。通过这个，我们只是指如何将句子分解为相应的单词。我们已经为我们构建了一个很好的标记器：`nltk`包可以很好地将句子分解为相应的单词：
+
+```py
+def tokenizer(text): 
+    words = nltk.word_tokenize(text) 
+    return words 
+# Create TF-IDF of texts 
+tfidf = TfidfVectorizer(tokenizer=tokenizer, stop_words='english', max_features=max_features) 
+sparse_tfidf_texts = tfidf.fit_transform(texts) 
+```
+
+1.  接下来，我们将数据集分解为测试和训练集。使用以下代码执行此操作：
+
+```py
+train_indices = np.random.choice(sparse_tfidf_texts.shape[0], round(0.8*sparse_tfidf_texts.shape[0]), replace=False) 
+test_indices = np.array(list(set(range(sparse_tfidf_texts.shape[0])) - set(train_indices))) 
+texts_train = sparse_tfidf_texts[train_indices] 
+texts_test = sparse_tfidf_texts[test_indices] 
+target_train = np.array([x for ix, x in enumerate(target) if ix in train_indices]) 
+target_test = np.array([x for ix, x in enumerate(target) if ix in test_indices]) 
+```
+
+1.  现在我们声明我们的逻辑回归模型变量和我们的数据占位符：
+
+```py
+A = tf.Variable(tf.random_normal(shape=[max_features,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+# Initialize placeholders 
+x_data = tf.placeholder(shape=[None, max_features], dtype=tf.float32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32)
+```
+
+1.  我们现在可以声明模型操作和损失函数。请记住，逻辑回归的 sigmoid 部分在我们的损失函数中。使用以下代码执行此操作：
+
+```py
+model_output = tf.add(tf.matmul(x_data, A), b) 
+loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=model_output, labels=y_target)) 
+```
+
+1.  我们将预测和精度函数添加到图中，以便在我们的模型训练时我们可以看到训练和测试集的准确率：
+
+```py
+prediction = tf.round(tf.sigmoid(model_output)) 
+predictions_correct = tf.cast(tf.equal(prediction, y_target), tf.float32) 
+accuracy = tf.reduce_mean(predictions_correct) 
+```
+
+1.  然后我们将声明一个优化器并初始化我们的图变量：
+
+```py
+my_opt = tf.train.GradientDescentOptimizer(0.0025) 
+train_step = my_opt.minimize(loss) 
+# Intitialize Variables 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  我们现在将训练我们的模型超过 10,000 代，并记录每 100 代的测试/训练损失和准确率，每 500 代打印一次。使用以下代码执行此操作：
+
+```py
+train_loss = [] 
+test_loss = [] 
+train_acc = [] 
+test_acc = [] 
+i_data = [] 
+for i in range(10000): 
+    rand_index = np.random.choice(texts_train.shape[0], size=batch_size) 
+    rand_x = texts_train[rand_index].todense() 
+    rand_y = np.transpose([target_train[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+
+    # Only record loss and accuracy every 100 generations 
+    if (i+1)%100==0: 
+        i_data.append(i+1) 
+        train_loss_temp = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+        train_loss.append(train_loss_temp) 
+
+        test_loss_temp = sess.run(loss, feed_dict={x_data: texts_test.todense(), y_target: np.transpose([target_test])}) 
+        test_loss.append(test_loss_temp) 
+
+        train_acc_temp = sess.run(accuracy, feed_dict={x_data: rand_x, y_target: rand_y}) 
+        train_acc.append(train_acc_temp) 
+
+        test_acc_temp = sess.run(accuracy, feed_dict={x_data: texts_test.todense(), y_target: np.transpose([target_test])}) 
+        test_acc.append(test_acc_temp) 
+    if (i+1)%500==0: 
+        acc_and_loss = [i+1, train_loss_temp, test_loss_temp, train_acc_temp, test_acc_temp] 
+        acc_and_loss = [np.round(x,2) for x in acc_and_loss] 
+        print('Generation # {}. Train Loss (Test Loss): {:.2f} ({:.2f}). Train Acc (Test Acc): {:.2f} ({:.2f})'.format(*acc_and_loss)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Generation # 500\. Train Loss (Test Loss): 0.69 (0.73). Train Acc (Test Acc): 0.62 (0.57) 
+Generation # 1000\. Train Loss (Test Loss): 0.62 (0.63). Train Acc (Test Acc): 0.68 (0.66) 
+... 
+Generation # 9500\. Train Loss (Test Loss): 0.39 (0.45). Train Acc (Test Acc): 0.89 (0.85) 
+Generation # 10000\. Train Loss (Test Loss): 0.48 (0.45). Train Acc (Test Acc): 0.84 (0.85) 
+```
+
+以下是绘制训练和测试装置的准确率和损耗的绘图：
+
+![](img/46d64e8f-a3e6-42db-abd6-d58abebce4c8.png)
+
+图 2：根据 TF-IDF 值构建的物流垃圾邮件模型的交叉熵损失
+
+训练和测试精度图如下：
+
+![](img/cfd1bce3-764c-4ddf-9f6c-847e76d7fdf7.png)
+
+图 3：根据 TF-IDF 值构建的逻辑垃圾邮件模型的训练和测试集精度
+
+## 工作原理
+
+使用模型的 TF-IDF 值增加了我们对先前的词袋模型的预测，从 80% 的准确率到接近 90% 的准确率。我们通过使用 scikit-learn 的 TF-IDF 词汇处理函数并使用这些 TF-IDF 值进行逻辑回归来实现这一目标。
+
+## 更多
+
+虽然我们可能已经解决了重要性这个问题，但我们还没有解决字序问题。词袋和 TF-IDF 都没有考虑句子中的单词的顺序特征。我们将在接下来的几节中尝试解决这个问题，这将向我们介绍 word2vec 技术。
+
+# 使用 Skip-Gram 嵌入
+
+在之前的秘籍中，我们在训练模型之前决定了我们的文本嵌入。使用神经网络，我们可以使嵌入值成为训练过程的一部分。我们将探索的第一个这样的方法叫做 Skip-Gram 嵌入。
+
+## 准备
+
+在此秘籍之前，我们没有考虑与创建单词嵌入相关的单词顺序。 2013 年初，Tomas Mikolov 和谷歌的其他研究人员撰写了一篇关于创建解决这个问题的[单词嵌入的论文](https://arxiv.org/abs/1301.3781)，他们将他们的方法命名为 word2vec。
+
+基本思想是创建捕获单词关系方面的单词嵌入。我们试图了解各种单词如何相互关联。这些嵌入可能如何表现的一些示例如下：
+
+`king - man + woman = queen`
+
+`India pale ale - hops + malt = stout`
+
+如果我们只考虑它们之间的位置关系，我们可能会实现这样的数字表示。如果我们能够分析足够大的相关文档来源，我们可能会发现在我们的文本中，`king`，`man`和`queen`这两个词在彼此之间相互提及。如果我们也知道`man`和`woman`以不同的方式相关，那么我们可以得出结论，`man`是`king`，因为`woman`是`queen`，依此类推。
+
+为了找到这样的嵌入，我们将使用一个神经网络来预测给定输入字的周围单词。我们可以轻松地切换它并尝试在给定一组周围单词的情况下预测目标单词，但我们将从前面的方法开始。两者都是 word2vec 过程的变体，但是从目标词预测周围词（上下文）的前述方法称为 Skip-Gram 模型。在下一个秘籍中，我们将实现另一个方法，从上下文预测目标词，这称为连续词袋方法（CBOW）：
+
+![](img/33e5cd5b-a002-43db-af41-8826c3cd5fc2.png)
+
+图 4：word2vec 的 Skip-Gram 实现的图示。 Skip-Gram 预测目标词的上下文窗口（每侧窗口大小为 1）。
+
+对于这个秘籍，我们将在康奈尔大学的一组电影评论数据上实现 [Skip-Gram 模型](http://www.cs.cornell.edu/people/pabo/movie-review-data/)。 word2vec 的 CBOW 方法将在下一个秘籍中实现。
+
+## 操作步骤
+
+对于这个秘籍，我们将创建几个辅助函数。这些函数将加载数据，正则化文本，生成词汇表并生成数据批量。只有在这之后我们才开始训练我们的单词嵌入。为了清楚起见，我们不是预测任何目标变量，而是我们将拟合单词嵌入：
+
+1.  首先，我们将加载必要的库并启动图会话：
+
+```py
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+import numpy as np 
+import random 
+import os 
+import string 
+import requests 
+import collections 
+import io 
+import tarfile 
+import urllib.request 
+from nltk.corpus import stopwords 
+sess = tf.Session() 
+```
+
+1.  然后我们声明一些模型参数。我们将一次查看 50 对单词嵌入（批量大小）。每个单词的嵌入大小将是一个长度为 200 的向量，我们只考虑 10,000 个最常用的单词（每隔一个单词将被归类为未知单词）。我们将训练 5 万代，并每 500 代打印一次。然后我们将声明一个我们将在损失函数中使用的`num_sampled`变量（我们将在后面解释），并且我们还声明了我们的 Skip-Gram 窗口大小。在这里，我们将窗口大小设置为 2，因此我们将查看目标每侧的周围两个单词。我们将通过名为`nltk`的 Python 包设置我们的停用词。我们还想要一种方法来检查我们的单词嵌入是如何执行的，因此我们将选择一些常见的电影评论单词并从每 2,000 次迭代中打印出最近的邻居单词：
+
+```py
+batch_size = 50 
+embedding_size = 200 
+vocabulary_size = 10000 
+generations = 50000 
+print_loss_every = 500 
+num_sampled = int(batch_size/2) 
+window_size = 2 
+stops = stopwords.words('english') 
+print_valid_every = 2000 
+valid_words = ['cliche', 'love', 'hate', 'silly', 'sad']
+```
+
+1.  接下来，我们将声明我们的数据加载函数，该函数会检查以确保在下载之前我们没有下载数据。否则，如果之前保存了数据，它将从磁盘加载数据。使用以下代码执行此操作：
+
+```py
+def load_movie_data(): 
+    save_folder_name = 'temp' 
+    pos_file = os.path.join(save_folder_name, 'rt-polarity.pos') 
+    neg_file = os.path.join(save_folder_name, 'rt-polarity.neg') 
+    # Check if files are already downloaded 
+    if os.path.exists(save_folder_name): 
+        pos_data = [] 
+        with open(pos_file, 'r') as temp_pos_file: 
+            for row in temp_pos_file: 
+                pos_data.append(row) 
+        neg_data = [] 
+        with open(neg_file, 'r') as temp_neg_file: 
+            for row in temp_neg_file: 
+                neg_data.append(row) 
+    else: # If not downloaded, download and save 
+        movie_data_url = 'http://www.cs.cornell.edu/people/pabo/movie-review-data/rt-polaritydata.tar.gz' 
+        stream_data = urllib.request.urlopen(movie_data_url) 
+        tmp = io.BytesIO() 
+        while True: 
+            s = stream_data.read(16384) 
+            if not s:   
+                break 
+            tmp.write(s) 
+            stream_data.close() 
+            tmp.seek(0) 
+        tar_file = tarfile.open(fileobj=tmp, mode='r:gz') 
+        pos = tar_file.extractfile('rt-polaritydata/rt-polarity.pos') 
+        neg = tar_file.extractfile('rt-polaritydata/rt-polarity.neg') 
+        # Save pos/neg reviews 
+        pos_data = [] 
+        for line in pos: 
+            pos_data.append(line.decode('ISO-8859-1').encode('ascii',errors='ignore').decode()) 
+        neg_data = [] 
+        for line in neg: 
+            neg_data.append(line.decode('ISO-8859-1').encode('ascii',errors='ignore').decode()) 
+        tar_file.close() 
+        # Write to file 
+        if not os.path.exists(save_folder_name): 
+            os.makedirs(save_folder_name) 
+        # Save files 
+        with open(pos_file, 'w') as pos_file_handler: 
+            pos_file_handler.write(''.join(pos_data)) 
+        with open(neg_file, 'w') as neg_file_handler: 
+            neg_file_handler.write(''.join(neg_data)) 
+    texts = pos_data + neg_data 
+    target = [1]*len(pos_data) + [0]*len(neg_data) 
+    return(texts, target) 
+texts, target = load_movie_data() 
+```
+
+1.  接下来，我们将为文本创建正则化函数。此函数将输入字符串列表并使其为小写，删除标点，删除数字，删除额外的空格，并删除停用词。使用以下代码执行此操作：
+
+```py
+def normalize_text(texts, stops): 
+    # Lower case 
+    texts = [x.lower() for x in texts] 
+    # Remove punctuation 
+    texts = [''.join(c for c in x if c not in string.punctuation) for x in texts] 
+    # Remove numbers 
+    texts = [''.join(c for c in x if c not in '0123456789') for x in texts] 
+    # Remove stopwords 
+    texts = [' '.join([word for word in x.split() if word not in (stops)]) for x in texts] 
+    # Trim extra whitespace 
+    texts = [' '.join(x.split()) for x in texts] 
+
+    return(texts) 
+texts = normalize_text(texts, stops) 
+```
+
+1.  为了确保我们所有的电影评论都能提供信息，我们应该确保它们足够长，以包含重要的单词关系。我们会随意将其设置为三个或更多单词：
+
+```py
+target = [target[ix] for ix, x in enumerate(texts) if len(x.split()) > 2] 
+texts = [x for x in texts if len(x.split()) > 2]
+```
+
+1.  为了构建我们的词汇表，我们将创建一个函数来创建一个带有计数的单词字典。任何不常见的词都不会使我们的词汇量大小被截止，将被标记为`RARE`。使用以下代码执行此操作：
+
+```py
+def build_dictionary(sentences, vocabulary_size): 
+    # Turn sentences (list of strings) into lists of words 
+    split_sentences = [s.split() for s in sentences] 
+    words = [x for sublist in split_sentences for x in sublist] 
+    # Initialize list of [word, word_count] for each word, starting with unknown 
+    count = [['RARE', -1]] 
+    # Now add most frequent words, limited to the N-most frequent (N=vocabulary size) 
+count.extend(collections.Counter(words).most_common(vocabulary_size-1)) 
+    # Now create the dictionary 
+    word_dict = {} 
+    # For each word, that we want in the dictionary, add it, then make it the value of the prior dictionary length 
+    for word, word_count in count: 
+        word_dict[word] = len(word_dict) 
+    return(word_dict) 
+```
+
+1.  我们需要一个函数将一个句子列表转换为单词索引列表，我们可以将它们传递给嵌入查找函数。使用以下代码执行此操作：
+
+```py
+def text_to_numbers(sentences, word_dict): 
+    # Initialize the returned data 
+    data = [] 
+    for sentence in sentences: 
+        sentence_data = [] 
+        # For each word, either use selected index or rare word index 
+        for word in sentence: 
+            if word in word_dict: 
+                word_ix = word_dict[word] 
+            else: 
+                word_ix = 0 
+            sentence_data.append(word_ix) 
+        data.append(sentence_data) 
+    return data
+```
+
+1.  现在我们可以实际创建我们的字典并将我们的句子列表转换为单词索引列表：
+
+```py
+word_dictionary = build_dictionary(texts, vocabulary_size) 
+word_dictionary_rev = dict(zip(word_dictionary.values(), word_dictionary.keys())) 
+text_data = text_to_numbers(texts, word_dictionary) 
+```
+
+1.  从前面的单词字典中，我们可以查找我们在步骤 2 中选择的验证字的索引。使用以下代码执行此操作：
+
+```py
+valid_examples = [word_dictionary[x] for x in valid_words]
+```
+
+1.  我们现在将创建一个将返回 Skip-Gram 批次的函数。我们想训练一对单词，其中一个单词是训练输入（来自我们窗口中心的目标单词），另一个单词是从窗口中选择的。例如，句子`the cat in the hat`可能导致（输入，输出）对，如下所示：（`the`，`in`），（`cat`，`in`），（`the`，`in`），（`hat`，`in`）如果是目标词，我们每个方向的窗口大小为 2：
+
+```py
+def generate_batch_data(sentences, batch_size, window_size, method='skip_gram'): 
+    # Fill up data batch 
+    batch_data = [] 
+    label_data = [] 
+    while len(batch_data) < batch_size: 
+        # select random sentence to start 
+        rand_sentence = np.random.choice(sentences) 
+        # Generate consecutive windows to look at 
+        window_sequences = [rand_sentence[max((ix-window_size),0):(ix+window_size+1)] for ix, x in enumerate(rand_sentence)] 
+        # Denote which element of each window is the center word of interest 
+        label_indices = [ix if ix<window_size else window_size for ix,x in enumerate(window_sequences)] 
+
+        # Pull out center word of interest for each window and create a tuple for each window 
+        if method=='skip_gram': 
+            batch_and_labels = [(x[y], x[:y] + x[(y+1):]) for x,y in zip(window_sequences, label_indices)] 
+            # Make it in to a big list of tuples (target word, surrounding word) 
+            tuple_data = [(x, y_) for x,y in batch_and_labels for y_ in y] 
+        else: 
+            raise ValueError('Method {} not implmented yet.'.format(method)) 
+
+        # extract batch and labels 
+        batch, labels = [list(x) for x in zip(*tuple_data)] 
+        batch_data.extend(batch[:batch_size]) 
+        label_data.extend(labels[:batch_size]) 
+    # Trim batch and label at the end 
+    batch_data = batch_data[:batch_size] 
+    label_data = label_data[:batch_size] 
+
+    # Convert to numpy array 
+    batch_data = np.array(batch_data) 
+    label_data = np.transpose(np.array([label_data])) 
+
+    return batch_data, label_data 
+```
+
+1.  我们现在可以初始化嵌入矩阵，声明占位符，并初始化嵌入查找函数。使用以下代码执行此操作：
+
+```py
+embeddings = tf.Variable(tf.random_uniform([vocabulary_size,  
+    embedding_size], -1.0, 1.0)) 
+# Create data/target placeholders 
+x_inputs = tf.placeholder(tf.int32, shape=[batch_size]) 
+y_target = tf.placeholder(tf.int32, shape=[batch_size, 1]) 
+valid_dataset = tf.constant(valid_examples, dtype=tf.int32) 
+
+# Lookup the word embedding: 
+embed = tf.nn.embedding_lookup(embeddings, x_inputs) 
+```
+
+1.  损失函数应该是诸如`softmax`之类的东西，它计算预测错误单词类别时的损失。但由于我们的目标有 10,000 个不同的类别，因此非常稀疏。这种稀疏性导致关于模型的拟合或收敛的问题。为了解决这个问题，我们将使用称为噪声对比误差的损失函数。这种 NCE 损失函数通过预测单词类与随机噪声预测将我们的问题转化为二元预测。`num_sampled`参数指定批量变成随机噪声的程度：
+
+```py
+nce_weights = tf.Variable(tf.truncated_normal([vocabulary_size,  
+    embedding_size], stddev=1.0 / np.sqrt(embedding_size))) 
+nce_biases = tf.Variable(tf.zeros([vocabulary_size]))
+loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce_weights, 
+                                     biases=nce_biases, 
+                                     inputs=embed, 
+                                     labels=y_target, 
+                                     num_sampled=num_sampled, 
+                                     num_classes=vocabulary_size))
+```
+
+1.  现在我们需要创建一种方法来查找附近的单词到我们的验证单词。我们将通过计算验证集和所有单词嵌入之间的余弦相似性来完成此操作，然后我们可以为每个验证字打印出最接近的单词集。使用以下代码执行此操作：
+
+```py
+norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keepdims=True)) 
+normalized_embeddings = embeddings / norm 
+valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings, valid_dataset) 
+similarity = tf.matmul(valid_embeddings, normalized_embeddings, transpose_b=True) 
+```
+
+1.  我们现在声明我们的优化函数并初始化我们的模型变量：
+
+```py
+optimizer = tf.train.GradientDescentOptimizer(learning_rate=1.0).minimize(loss) 
+init = tf.global_variables_initializer() 
+sess.run(init)
+```
+
+1.  现在我们可以训练我们的嵌入并在训练期间打印损失和最接近我们验证集的单词。使用以下代码执行此操作：
+
+```py
+loss_vec = [] 
+loss_x_vec = [] 
+for i in range(generations): 
+    batch_inputs, batch_labels = generate_batch_data(text_data, batch_size, window_size) 
+    feed_dict = {x_inputs : batch_inputs, y_target : batch_labels} 
+    # Run the train step 
+    sess.run(optimizer, feed_dict=feed_dict) 
+    # Return the loss 
+    if (i+1) % print_loss_every == 0: 
+        loss_val = sess.run(loss, feed_dict=feed_dict) 
+        loss_vec.append(loss_val) 
+        loss_x_vec.append(i+1) 
+        print("Loss at step {} : {}".format(i+1, loss_val)) 
+
+    # Validation: Print some random words and top 5 related words 
+    if (i+1) % print_valid_every == 0: 
+        sim = sess.run(similarity, feed_dict=feed_dict) 
+        for j in range(len(valid_words)): 
+            valid_word = word_dictionary_rev[valid_examples[j]] 
+            top_k = 5 # number of nearest neighbors 
+            nearest = (-sim[j, :]).argsort()[1:top_k+1] 
+            log_str = "Nearest to {}:".format(valid_word) 
+            for k in range(top_k): 
+                close_word = word_dictionary_rev[nearest[k]] 
+                log_str = "%s %s," % (log_str, close_word) 
+            print(log_str)
+```
+
+> 在前面的代码中，我们在调用`argsort`方法之前采用相似矩阵的否定。我们这样做是因为我们想要找到从最高相似度值到最低相似度值的索引，而不是相反。
+
+1.  这产生以下输出：
+
+```py
+Loss at step 500 : 13.387781143188477 
+Loss at step 1000 : 7.240757465362549 
+Loss at step 49500 : 0.9395825862884521 
+Loss at step 50000 : 0.30323168635368347 
+Nearest to cliche: walk, intrigue, brim, eileen, dumber, 
+Nearest to love: plight, fiction, complete, lady, bartleby, 
+Nearest to hate: style, throws, players, fearlessness, astringent, 
+Nearest to silly: delivers, meow, regain, nicely, anger, 
+Nearest to sad: dizzying, variety, existing, environment, tunney, 
+```
+
+## 工作原理
+
+我们通过`Skip-Gram`方法在电影评论数据集上训练了一个 word2vec 模型。我们下载了数据，将单词转换为带有字典的索引，并将这些索引号用作嵌入查找，我们对其进行了训练，以便附近的单词可以相互预测。
+
+## 更多
+
+乍一看，我们可能期望验证集的附近单词集合是同义词。事实并非如此，因为很少有同义词实际上在句子中彼此相邻。我们真正得到的是预测我们的数据集中哪些单词彼此接近。我们希望使用这样的嵌入将使预测更容易。
+
+为了使用这些嵌入，我们必须使它们可重用并保存它们。我们将通过实现 CBOW 嵌入在下一个秘籍中执行此操作。
+
+# 使用 CBOW 嵌入
+
+在这个秘籍中，我们将实现 word2vec 的 CBOW（连续词袋）方法。它与`Skip-Gram`方法非常相似，除了我们预测来自环境词周围窗口的单个目标词。
+
+## 准备
+
+在这个秘籍中，我们将实现 word2vec 的`CBOW`方法。它与`Skip-Gram`方法非常相似，只是我们预测来自环境词周围窗口的单个目标词。
+
+在前面的示例中，我们将窗口和目标的每个组合视为一组配对的输入和输出，但是使用 CBOW，我们将周围的窗口嵌入添加到一起以获得一个嵌入来预测目标字嵌入：
+
+![](img/5e2d25dc-7309-4f36-bb6a-b192653c4c62.png)
+
+图 5：如何在一个例子的窗口上创建 CBOW 嵌入数据的描述（每侧窗口大小为 1）
+
+大多数代码都保持不变，除了我们需要改变我们创建嵌入的方式以及如何从句子生成数据。
+
+为了使代码更易于阅读，我们已将所有主要函数移动到同一目录中名为`text_helpers.py`的单独文件中。此函数保存数据加载，文本正则化，字典创建和批量生成函数。除非另有说明，否则这些函数与使用 Skip-Gram 嵌入秘籍中显示的完全相同。
+
+## 操作步骤
+
+我们将按如下方式处理秘籍：
+
+1.  我们将首先加载必要的库，包括前面提到的`text_helpers.py`脚本，我们将把我们的函数用于文本加载和操作。然后我们将开始一个图会话：
+
+```py
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+import numpy as np 
+import random 
+import os 
+import pickle 
+import string 
+import requests 
+import collections 
+import io 
+import tarfile 
+import urllib.request 
+import text_helpers 
+from nltk.corpus import stopwords 
+sess = tf.Session() 
+```
+
+1.  我们要确保在开始保存之前存在临时数据和参数保存文件夹。使用以下代码检查：
+
+```py
+# Make a saving directory if it doesn't exist 
+data_folder_name = 'temp' 
+if not os.path.exists(data_folder_name): 
+    os.makedirs(data_folder_name)
+```
+
+1.  然后我们将声明模型的参数，这与我们在上一个秘籍中对`Skip-Gram`方法所做的类似：
+
+```py
+# Declare model parameters 
+batch_size = 500 
+embedding_size = 200 
+vocabulary_size = 2000 
+generations = 50000 
+model_learning_rate = 0.001 
+num_sampled = int(batch_size/2 
+window_size = 3 
+# Add checkpoints to training 
+save_embeddings_every = 5000 
+print_valid_every = 5000 
+print_loss_every = 100 
+# Declare stop words 
+stops = stopwords.words('english') 
+# We pick some test words. We are expecting synonyms to appear 
+valid_words = ['love', 'hate', 'happy', 'sad', 'man', 'woman'] 
+```
+
+1.  我们已将数据加载和文本正则化函数移动到我们在开始时导入的单独文件中，此文件在 [Github 仓库](https://github.com/nfmcclure/tensorflow_cookbook/tree/master/07_Natural_Language_Processing/05_Working_With_CBOW_Embeddings)和 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)中都可用。现在我们可以打电话给他们我们也只想要包含三个或更多单词的评论。使用以下代码：
+
+```py
+texts, target = text_helpers.load_movie_data(data_folder_name) texts = text_helpers.normalize_text(texts, stops) # Texts must contain at least 3 words target = [target[ix] for ix, x in enumerate(texts) if len(x.split()) > 2] texts = [x for x in texts if len(x.split()) > 2] 
+```
+
+1.  现在我们将创建我们的词汇词典，这将帮助我们查找单词。当我们想要打印出最接近我们验证集的单词时，我们还需要一个反向字典来查找索引中的单词：
+
+```py
+word_dictionary = text_helpers.build_dictionary(texts,  
+vocabulary_size) 
+word_dictionary_rev = dict(zip(word_dictionary.values(), word_dictionary.keys())) 
+text_data = text_helpers.text_to_numbers(texts, word_dictionary) 
+# Get validation word keys 
+valid_examples = [word_dictionary[x] for x in valid_words] 
+```
+
+1.  接下来，我们将初始化我们想要拟合的单词嵌入，并声明模型数据占位符。使用以下代码执行此操作：
+
+```py
+embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0)) 
+# Create data/target placeholders 
+x_inputs = tf.placeholder(tf.int32, shape=[batch_size,  
+2*window_size]) 
+y_target = tf.placeholder(tf.int32, shape=[batch_size, 1]) 
+valid_dataset = tf.constant(valid_examples, dtype=tf.int32) 
+```
+
+1.  我们现在可以创建一种处理嵌入一词的方法。由于 CBOW 模型添加了上下文窗口的嵌入，我们将创建一个循环并将所有嵌入添加到窗口中：
+
+```py
+# Lookup the word embeddings and 
+# Add together window embeddings: 
+embed = tf.zeros([batch_size, embedding_size]) 
+for element in range(2*window_size): 
+    embed += tf.nn.embedding_lookup(embeddings, x_inputs[:, element]) 
+```
+
+1.  我们将使用 TensorFlow 中内置的噪声对比误差损失函数，因为我们的分类输出太稀疏，无法使 softmax 收敛，如下所示：
+
+```py
+# NCE loss parameters 
+nce_weights = tf.Variable(tf.truncated_normal([vocabulary_size,  
+embedding_size], stddev=1.0 / np.sqrt(embedding_size))) 
+nce_biases = tf.Variable(tf.zeros([vocabulary_size])) 
+# Declare loss function (NCE) 
+loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce_weights, 
+                                     biases=nce_biases, 
+                                     inputs=embed, 
+                                     labels=y_target, 
+                                     num_sampled=num_sampled, 
+                                     num_classes=vocabulary_size))
+```
+
+1.  就像我们在 Skip-Gram 秘籍中所做的那样，我们将使用余弦相似性来打印离我们的验证字数据集最近的单词，以了解我们的嵌入如何工作。使用以下代码执行此操作：
+
+```py
+norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keepdims=True)) 
+normalized_embeddings = embeddings / norm 
+valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings, valid_dataset) 
+similarity = tf.matmul(valid_embeddings, normalized_embeddings, transpose_b=True)
+```
+
+1.  要保存嵌入，我们必须加载 TensorFlow `train.Saver`方法。这个方法默认保存整个图，但是我们可以给它一个参数来保存嵌入变量，我们也可以给它一个特定的名称。在这里，我们给它的名称与图中的变量名称相同：
+
+```py
+saver = tf.train.Saver({"embeddings": embeddings})
+```
+
+1.  我们现在将声明我们的优化函数并初始化我们的模型变量。使用以下代码执行此操作：
+
+```py
+optimizer = tf.train.GradientDescentOptimizer(learning_rate=model_learning_rate).minimize(loss) 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  最后，我们可以遍历我们的训练步骤，打印出损失，并将我们指定的嵌入和字典保存到：
+
+```py
+loss_vec = [] 
+loss_x_vec = [] 
+for i in range(generations): 
+    batch_inputs, batch_labels = text_helpers.generate_batch_data(text_data, batch_size, window_size, method='cbow') 
+    feed_dict = {x_inputs : batch_inputs, y_target : batch_labels} 
+    # Run the train step 
+    sess.run(optimizer, feed_dict=feed_dict) 
+    # Return the loss 
+    if (i+1) % print_loss_every == 0: 
+        loss_val = sess.run(loss, feed_dict=feed_dict) 
+        loss_vec.append(loss_val) 
+        loss_x_vec.append(i+1) 
+        print('Loss at step {} : {}'.format(i+1, loss_val)) 
+
+    # Validation: Print some random words and top 5 related words 
+    if (i+1) % print_valid_every == 0: 
+        sim = sess.run(similarity, feed_dict=feed_dict) 
+        for j in range(len(valid_words)): 
+            valid_word = word_dictionary_rev[valid_examples[j]] 
+            top_k = 5 # number of nearest neighbors 
+            nearest = (-sim[j, :]).argsort()[1:top_k+1] 
+            log_str = "Nearest to {}:".format(valid_word) 
+            for k in range(top_k): 
+                close_word = word_dictionary_rev[nearest[k]] 
+                print_str = '{} {},'.format(log_str, close_word) 
+            print(print_str) 
+
+    # Save dictionary + embeddings 
+    if (i+1) % save_embeddings_every == 0: 
+        # Save vocabulary dictionary 
+        with open(os.path.join(data_folder_name,'movie_vocab.pkl'), 'wb') as f: 
+            pickle.dump(word_dictionary, f) 
+
+        # Save embeddings 
+        model_checkpoint_path = os.path.join(os.getcwd(),data_folder_name,'cbow_movie_embeddings.ckpt') 
+        save_path = saver.save(sess, model_checkpoint_path) 
+        print('Model saved in file: {}'.format(save_path)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Loss at step 100 : 62.04829025268555 
+Loss at step 200 : 33.182334899902344
+... 
+Loss at step 49900 : 1.6794960498809814 
+Loss at step 50000 : 1.5071022510528564 
+Nearest to love: clarity, cult, cliched, literary, memory, 
+Nearest to hate: bringing, gifted, almost, next, wish, 
+Nearest to happy: ensemble, fall, courage, uneven, girls, 
+Nearest to sad: santa, devoid, biopic, genuinely, becomes, 
+Nearest to man: project, stands, none, soul, away, 
+Nearest to woman: crush, even, x, team, ensemble, 
+Model saved in file: .../temp/cbow_movie_embeddings.ckpt 
+```
+
+1.  `text_helpers.py`文件中除了一个函数之外的所有函数都具有直接来自上一个秘籍的函数。我们将通过添加`cbow`方法对`generate_batch_data()`函数稍加补充，如下所示：
+
+```py
+elif method=='cbow': 
+    batch_and_labels = [(x[:y] + x[(y+1):], x[y]) for x,y in zip(window_sequences, label_indices)] 
+    # Only keep windows with consistent 2*window_size 
+    batch_and_labels = [(x,y) for x,y in batch_and_labels if len(x)==2*window_size] 
+    batch, labels = [list(x) for x in zip(*batch_and_labels)] 
+```
+
+## 工作原理
+
+此秘籍与使用 Skip-Gram 创建嵌入非常相似。主要区别在于我们如何生成数据并组合嵌入。
+
+对于这个秘籍，我们加载数据，正则化文本，创建词汇词典，使用字典查找嵌入，组合嵌入，并训练神经网络来预测目标词。
+
+## 更多
+
+值得注意的是，`CBOW`方法训练周围窗口的累加嵌入以预测目标字。这样做的一个结果是来自 word2vec 的`CBOW`方法具有`Skip-Gram`方法缺乏的平滑效果，并且认为这对于较小的文本数据集可能是优选的是合理的。
+
+# 使用 word2vec 进行预测
+
+在本文中，我们将使用先前学习的嵌入策略来执行分类。
+
+## 准备
+
+现在我们已经创建并保存了 CBOW 字嵌入，我们需要使用它们来对电影数据集进行情感预测。在本文中，我们将学习如何加载和使用预先训练的嵌入，并使用这些嵌入来通过训练逻辑线性模型来预测好的或坏的评论来执行情感分析。
+
+情感分析是一项非常艰巨的任务，因为人类语言使得很难掌握所谓意义的真实含义的微妙之处和细微差别。讽刺，笑话和含糊不清的引用都使这项任务成倍增加。我们将在电影评论数据集上创建一个简单的逻辑回归，以查看我们是否可以从我们在上一个秘籍中创建并保存的 CBOW 嵌入中获取任何信息。由于本文的重点是加载和使用已保存的嵌入，我们不会追求更复杂的模型。
+
+## 操作步骤
+
+我们将按如下方式处理秘籍：
+
+1.  我们将首先加载必要的库并启动图会话：
+
+```py
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+import numpy as np 
+import random 
+import os 
+import pickle 
+import string 
+import requests 
+import collections 
+import io 
+import tarfile 
+import urllib.request 
+import text_helpers 
+from nltk.corpus import stopwords 
+sess = tf.Session() 
+```
+
+1.  现在我们将声明模型参数。嵌入大小应与我们用于创建前面的 CBOW 嵌入的嵌入大小相同。使用以下代码执行此操作：
+
+```py
+embedding_size = 200 
+vocabulary_size = 2000 
+batch_size = 100 
+max_words = 100 
+stops = stopwords.words('english') 
+```
+
+1.  我们将从我们创建的`text_helpers.py`文件加载和转换文本数据。使用以下代码执行此操作：
+
+```py
+texts, target = text_helpers.load_movie_data() 
+# Normalize text 
+print('Normalizing Text Data') 
+texts = text_helpers.normalize_text(texts, stops) 
+# Texts must contain at least 3 words 
+target = [target[ix] for ix, x in enumerate(texts) if len(x.split()) > 2] 
+texts = [x for x in texts if len(x.split()) > 2] 
+train_indices = np.random.choice(len(target), round(0.8*len(target)), replace=False) 
+test_indices = np.array(list(set(range(len(target))) - set(train_indices))) 
+texts_train = [x for ix, x in enumerate(texts) if ix in train_indices] 
+texts_test = [x for ix, x in enumerate(texts) if ix in test_indices] 
+target_train = np.array([x for ix, x in enumerate(target) if ix in train_indices]) 
+target_test = np.array([x for ix, x in enumerate(target) if ix in test_indices])
+```
+
+1.  我们现在加载我们在拟合 CBOW 嵌入时创建的单词字典。重要的是我们加载它以便我们具有从单词到嵌入索引的完全相同的映射，如下所示：
+
+```py
+dict_file = os.path.join(data_folder_name, 'movie_vocab.pkl') 
+word_dictionary = pickle.load(open(dict_file, 'rb')) 
+```
+
+1.  我们现在可以使用我们的单词字典将我们加载的句子数据转换为数字`numpy`数组：
+
+```py
+text_data_train = np.array(text_helpers.text_to_numbers(texts_train, word_dictionary)) 
+text_data_test = np.array(text_helpers.text_to_numbers(texts_test, word_dictionary)) 
+```
+
+1.  由于电影评论的长度不同，我们将它们标准化，因此它们的长度都相同。在我们的例子中，我们将其设置为 100 个单词。如果评论少于 100 个单词，我们将用零填充它。使用以下代码执行此操作：
+
+```py
+text_data_train = np.array([x[0:max_words] for x in [y+[0]*max_words for y in text_data_train]]) 
+text_data_test = np.array([x[0:max_words] for x in [y+[0]*max_words for y in text_data_test]]) 
+```
+
+1.  现在我们将声明我们的模型变量和占位符以进行逻辑回归。使用以下代码执行此操作：
+
+```py
+A = tf.Variable(tf.random_normal(shape=[embedding_size,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+# Initialize placeholders 
+x_data = tf.placeholder(shape=[None, max_words], dtype=tf.int32) 
+y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32)
+```
+
+1.  为了让 TensorFlow 恢复我们预先训练的嵌入，我们必须首先给`Saver`方法一个变量来恢复，所以我们将创建一个嵌入变量，其形状与我们将加载的嵌入相同：
+
+```py
+embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))
+```
+
+1.  现在我们将`embedding_lookup`函数放在图上，并将句子中所有单词的平均嵌入。使用以下代码执行此操作：
+
+```py
+embed = tf.nn.embedding_lookup(embeddings, x_data) 
+# Take average of all word embeddings in documents 
+embed_avg = tf.reduce_mean(embed, 1)
+```
+
+1.  接下来，我们将声明我们的模型操作和损失函数，记住我们的损失函数已经内置了 sigmoid 操作，如下所示：
+
+```py
+model_output = tf.add(tf.matmul(embed_avg, A), b) 
+# Declare loss function (Cross Entropy loss) 
+loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=model_output, labels=y_target)) 
+```
+
+1.  现在我们将向图添加预测和精度函数，以便我们可以在使用以下代码训练模型时评估精度：
+
+```py
+prediction = tf.round(tf.sigmoid(model_output)) 
+predictions_correct = tf.cast(tf.equal(prediction, y_target), tf.float32) 
+accuracy = tf.reduce_mean(predictions_correct) 
+```
+
+1.  我们将声明我们的优化函数并初始化以下模型变量：
+
+```py
+my_opt = tf.train.AdagradOptimizer(0.005) 
+train_step = my_opt.minimize(loss) 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  现在我们有一个随机初始化嵌入，我们可以告诉`Saver`方法将我们之前的 CBOW 嵌入加载到嵌入变量中。使用以下代码执行此操作：
+
+```py
+model_checkpoint_path = os.path.join(data_folder_name,'cbow_movie_embeddings.ckpt') 
+saver = tf.train.Saver({"embeddings": embeddings}) 
+saver.restore(sess, model_checkpoint_path)
+```
+
+1.  现在我们可以开始训练几代。请注意，我们每 100 代就可以节省训练和测试损失和准确率。我们只会每 500 代打印一次模型状态，如下所示：
+
+```py
+train_loss = [] 
+test_loss = [] 
+train_acc = [] 
+test_acc = [] 
+i_data = [] 
+for i in range(10000): 
+    rand_index = np.random.choice(text_data_train.shape[0], size=batch_size) 
+    rand_x = text_data_train[rand_index] 
+    rand_y = np.transpose([target_train[rand_index]]) 
+    sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y}) 
+
+    # Only record loss and accuracy every 100 generations 
+    if (i+1)%100==0: 
+        i_data.append(i+1) 
+        train_loss_temp = sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y}) 
+        train_loss.append(train_loss_temp) 
+
+        test_loss_temp = sess.run(loss, feed_dict={x_data: text_data_test, y_target: np.transpose([target_test])}) 
+        test_loss.append(test_loss_temp) 
+
+        train_acc_temp = sess.run(accuracy, feed_dict={x_data: rand_x, y_target: rand_y}) 
+        train_acc.append(train_acc_temp) 
+        test_acc_temp = sess.run(accuracy, feed_dict={x_data: text_data_test, y_target: np.transpose([target_test])}) 
+        test_acc.append(test_acc_temp) 
+    if (i+1)%500==0: 
+        acc_and_loss = [i+1, train_loss_temp, test_loss_temp, train_acc_temp, test_acc_temp] 
+        acc_and_loss = [np.round(x,2) for x in acc_and_loss] 
+        print('Generation # {}. Train Loss (Test Loss): {:.2f} ({:.2f}). Train Acc (Test Acc): {:.2f} ({:.2f})'.format(*acc_and_loss))
+```
+
+1.  结果如下：
+
+```py
+Generation # 500\. Train Loss (Test Loss): 0.70 (0.71). Train Acc (Test Acc): 0.52 (0.48) 
+Generation # 1000\. Train Loss (Test Loss): 0.69 (0.72). Train Acc (Test Acc): 0.56 (0.47) 
+... 
+Generation # 9500\. Train Loss (Test Loss): 0.69 (0.70). Train Acc (Test Acc): 0.57 (0.55) 
+Generation # 10000\. Train Loss (Test Loss): 0.70 (0.70). Train Acc (Test Acc): 0.59 (0.55) 
+```
+
+1.  以下是绘制训练和测试损失和准确率的代码，我们每 100 代保存一次：
+
+```py
+# Plot loss over time 
+plt.plot(i_data, train_loss, 'k-', label='Train Loss') 
+plt.plot(i_data, test_loss, 'r--', label='Test Loss', linewidth=4) 
+plt.title('Cross Entropy Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Cross Entropy Loss') 
+plt.legend(loc='upper right') 
+plt.show() 
+
+# Plot train and test accuracy 
+plt.plot(i_data, train_acc, 'k-', label='Train Set Accuracy') 
+plt.plot(i_data, test_acc, 'r--', label='Test Set Accuracy', linewidth=4) 
+plt.title('Train and Test Accuracy') 
+plt.xlabel('Generation') 
+plt.ylabel('Accuracy') 
+plt.legend(loc='lower right') 
+plt.show() 
+```
+
+每代交叉熵损失的图如下：
+
+![](img/f7717031-b704-4976-9b75-27fcf2042a9a.png)Figure 6: Here we observe the train and test loss over 10,000 generations
+
+上述代码的训练图和测试精度如下：
+
+![](img/3d330ede-7ab7-4ef5-8d54-43de2455437c.png)
+
+图 7：我们可以观察到训练和测试装置的准确率正在缓慢提高 10,000 代。值得注意的是，该模型表现非常差，并且仅比随机预测器略好。
+
+## 工作原理
+
+我们加载了我们之前的 CBOW 嵌入并对平均嵌入评论进行了逻辑回归。这里要注意的重要方法是我们如何将模型变量从磁盘加载到当前模型中已经初始化的变量。我们还必须记住在训练嵌入之前存储和加载我们创建的词汇表。使用相同的嵌入时，从单词到嵌入索引具有相同的映射非常重要。
+
+## 更多
+
+我们可以看到，我们在预测情感方面几乎达到了 60% 的准确率。例如，要知道单词`great;`背后的含义是一项艰巨的任务，它可以在评论中用于消极或积极的背景。
+
+为了解决这个问题，我们希望以某种方式为文档本身创建嵌入并解决情感问题。通常，整个评论是积极的，或者整个评论是否定的。我们可以利用这个优势，我们将在下面的使用 doc2vec 以获取情感分析方法中查看如何执行此操作。
+
+# 使用 doc2vec 进行情感分析
+
+既然我们知道如何训练单词嵌入，我们也可以扩展这些方法以进行文档嵌入。我们将在以下部分中探讨如何执行此操作。
+
+## 准备
+
+在前面关于 word2vec 方法的部分中，我们设法捕获了单词之间的位置关系。我们没有做的是捕捉单词与它们来自的文档（或电影评论）之间的关系。 word2vec 的一个扩展来捕获文档效果，称为 doc2vec。
+
+doc2vec 的基本思想是引入文档嵌入，以及可能有助于捕获文档基调的单词嵌入。例如，只知道单词`movie`和`love`彼此接近可能无法帮助我们确定评论的情感。评论可能是谈论他们如何热爱电影或他们如何不爱电影。但是如果评论足够长并且在文档中找到了更多否定词，那么我们可以采用可以帮助我们预测后续词语的整体语气。
+
+Doc2vec 只是为文档添加了一个额外的嵌入矩阵，并使用一个单词窗口加上文档索引来预测下一个单词。文档中的所有文字窗口都具有相同的文档索引。值得一提的是，考虑如何将文档嵌入与单词嵌入相结合是很重要的。我们通过对它们求和来将单词嵌入组合在单词窗口中。将这些嵌入与文档嵌入相结合有两种主要方式：通常，文档嵌入要么添加到单词嵌入中，要么连接到单词嵌入的末尾。如果我们添加两个嵌入，我们将文档嵌入大小限制为与嵌入字大小相同的大小。如果我们连接，我们解除了这个限制，但增加了逻辑回归必须处理的变量数量。为了便于说明，我们将向您展示如何处理此秘籍中的连接。但总的来说，对于较小的数据集，添加是更好的选择。
+
+第一步是将文档和单词嵌入适用于整个电影评论集。然后我们将进行训练测试分组，训练逻辑模型，看看我们是否可以更准确地预测评论情感。
+
+## 操作步骤
+
+我们将按如下方式处理秘籍：
+
+1.  我们将从加载必要的库并启动图会话开始，如下所示：
+
+```py
+import tensorflow as tf 
+import matplotlib.pyplot as plt 
+import numpy as np 
+import random 
+import os 
+import pickle 
+import string 
+import requests 
+import collections 
+import io 
+import tarfile 
+import urllib.request 
+import text_helpers 
+from nltk.corpus import stopwords 
+sess = tf.Session() 
+```
+
+1.  我们将加载电影评论语料库，就像我们在前两个秘籍中所做的那样。使用以下代码执行此操作：
+
+```py
+texts, target = text_helpers.load_movie_data() 
+```
+
+1.  我们将声明模型参数，如下所示：
+
+```py
+batch_size = 500 
+vocabulary_size = 7500 
+generations = 100000 
+model_learning_rate = 0.001 
+embedding_size = 200   # Word embedding size 
+doc_embedding_size = 100   # Document embedding size 
+concatenated_size = embedding_size + doc_embedding_size 
+num_sampled = int(batch_size/2) 
+window_size = 3       # How many words to consider to the left. 
+# Add checkpoints to training 
+save_embeddings_every = 5000 
+print_valid_every = 5000 
+print_loss_every = 100 
+# Declare stop words 
+stops = stopwords.words('english') 
+# We pick a few test words. 
+valid_words = ['love', 'hate', 'happy', 'sad', 'man', 'woman'] 
+```
+
+1.  我们将正则化电影评论，并确保每个电影评论都大于所需的窗口大小。使用以下代码执行此操作：
+
+```py
+texts = text_helpers.normalize_text(texts, stops)
+# Texts must contain at least as much as the prior window size
+target = [target[ix] for ix, x in enumerate(texts) if len(x.split()) > window_size]
+texts = [x for x in texts if len(x.split()) > window_size]
+assert(len(target)==len(texts)) 
+```
+
+1.  现在我们将创建我们的单词字典。请务必注意，我们不必创建文档字典。文件索引只是文件的索引；每个文档都有一个唯一的索引：
+
+```py
+word_dictionary = text_helpers.build_dictionary(texts, vocabulary_size) 
+word_dictionary_rev = dict(zip(word_dictionary.values(), word_dictionary.keys())) 
+text_data = text_helpers.text_to_numbers(texts, word_dictionary) 
+# Get validation word keys 
+valid_examples = [word_dictionary[x] for x in valid_words] 
+```
+
+1.  接下来，我们将定义单词嵌入和文档嵌入。然后我们将声明我们的噪声对比损失参数。使用以下代码执行此操作：
+
+```py
+embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0)) 
+doc_embeddings = tf.Variable(tf.random_uniform([len(texts), doc_embedding_size], -1.0, 1.0)) 
+# NCE loss parameters 
+nce_weights = tf.Variable(tf.truncated_normal([vocabulary_size, concatenated_size], 
+                                               stddev=1.0 / np.sqrt(concatenated_size))) 
+nce_biases = tf.Variable(tf.zeros([vocabulary_size]))
+```
+
+1.  我们现在将声明 doc2vec 索引和目标词索引的占位符。请注意，输入索引的大小是窗口大小加 1。这是因为我们生成的每个数据窗口都有一个附加的文档索引，如下所示：
+
+```py
+x_inputs = tf.placeholder(tf.int32, shape=[None, window_size + 1]) 
+y_target = tf.placeholder(tf.int32, shape=[None, 1]) 
+valid_dataset = tf.constant(valid_examples, dtype=tf.int32)
+```
+
+1.  现在我们必须创建嵌入函数，它将单词嵌入加在一起，然后在最后连接文档嵌入。使用以下代码执行此操作：
+
+```py
+embed = tf.zeros([batch_size, embedding_size]) 
+for element in range(window_size): 
+    embed += tf.nn.embedding_lookup(embeddings, x_inputs[:, element]) 
+doc_indices = tf.slice(x_inputs, [0,window_size],[batch_size,1]) 
+doc_embed = tf.nn.embedding_lookup(doc_embeddings,doc_indices) 
+# concatenate embeddings 
+final_embed = tf.concat(axis=1, values=)
+```
+
+1.  我们还需要声明一组验证词的余弦距离，我们可以经常打印出来以观察 doc2vec 模型的进度。使用以下代码执行此操作：
+
+```py
+loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce_weights, 
+                                     biases=nce_biases, 
+                                     labels=y_target,
+                                     inputs=final_embed,
+                                     num_sampled=num_sampled, 
+                                     num_classes=vocabulary_size))
+
+# Create optimizer 
+optimizer =  
+ tf.train.GradientDescentOptimizer(learning_rate=model_learning_rate) 
+train_step = optimizer.minimize(loss)
+```
+
+1.  我们还需要从一组验证单词中声明余弦距离，我们可以经常打印出来以观察 doc2vec 模型的进度。使用以下代码执行此操作：
+
+```py
+norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1,  
+keep_dims=True)) 
+normalized_embeddings = embeddings / norm 
+valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings,  
+valid_dataset) 
+similarity = tf.matmul(valid_embeddings, normalized_embeddings,  
+transpose_b=True) 
+```
+
+1.  为了以后保存我们的嵌入，我们将创建一个模型`saver`函数。然后我们可以初始化变量，这是我们开始训练单词嵌入之前的最后一步：
+
+```py
+saver = tf.train.Saver({"embeddings": embeddings, "doc_embeddings":  
+doc_embeddings}) 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+loss_vec = [] 
+loss_x_vec = [] 
+for i in range(generations): 
+    batch_inputs, batch_labels = text_helpers.generate_batch_data(text_data, batch_size, 
+                                                                  window_size, method='doc2vec') 
+    feed_dict = {x_inputs : batch_inputs, y_target : batch_labels} 
+
+    # Run the train step 
+    sess.run(train_step, feed_dict=feed_dict) 
+
+    # Return the loss 
+    if (i+1) % print_loss_every == 0: 
+        loss_val = sess.run(loss, feed_dict=feed_dict) 
+        loss_vec.append(loss_val) 
+        loss_x_vec.append(i+1) 
+        print('Loss at step {} : {}'.format(i+1, loss_val)) 
+
+    # Validation: Print some random words and top 5 related words 
+    if (i+1) % print_valid_every == 0: 
+        sim = sess.run(similarity, feed_dict=feed_dict) 
+        for j in range(len(valid_words)): 
+            valid_word = word_dictionary_rev[valid_examples[j]] 
+            top_k = 5 # number of nearest neighbors 
+            nearest = (-sim[j, :]).argsort()[1:top_k+1] 
+            log_str = "Nearest to {}:".format(valid_word) 
+            for k in range(top_k): 
+                close_word = word_dictionary_rev[nearest[k]] 
+                log_str = '{} {},'.format(log_str, close_word) 
+            print(log_str) 
+
+    # Save dictionary + embeddings 
+    if (i+1) % save_embeddings_every == 0: 
+        # Save vocabulary dictionary 
+        with open(os.path.join(data_folder_name,'movie_vocab.pkl'), 'wb') as f: 
+            pickle.dump(word_dictionary, f) 
+
+        # Save embeddings 
+        model_checkpoint_path = os.path.join(os.getcwd(),data_folder_name,'doc2vec_movie_embeddings.ckpt') 
+        save_path = saver.save(sess, model_checkpoint_path) 
+        print('Model saved in file: {}'.format(save_path)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Loss at step 100 : 126.176816940307617 
+Loss at step 200 : 89.608322143554688
+... 
+Loss at step 99900 : 17.733346939086914 
+Loss at step 100000 : 17.384489059448242 
+Nearest to love: ride, with, by, its, start, 
+Nearest to hate: redundant, snapshot, from, performances, extravagant, 
+Nearest to happy: queen, chaos, them, succumb, elegance, 
+Nearest to sad: terms, pity, chord, wallet, morality, 
+Nearest to man: of, teen, an, our, physical, 
+Nearest to woman: innocuous, scenes, prove, except, lady, 
+Model saved in file: /.../temp/doc2vec_movie_embeddings.ckpt 
+```
+
+1.  现在我们已经训练了 doc2vec 嵌入，我们可以在逻辑回归中使用这些嵌入来预测评论情感。首先，我们为逻辑回归设置了一些参数。使用以下代码执行此操作：
+
+```py
+max_words = 20 # maximum review word length 
+logistic_batch_size = 500 # training batch size 
+```
+
+1.  我们现在将数据集拆分为训练集和测试集：
+
+```py
+train_indices = np.sort(np.random.choice(len(target),  
+round(0.8*len(target)), replace=False)) 
+test_indices = np.sort(np.array(list(set(range(len(target))) -  
+set(train_indices)))) 
+texts_train = [x for ix, x in enumerate(texts) if ix in train_indices] 
+texts_test = [x for ix, x in enumerate(texts) if ix in test_indices] 
+target_train = np.array([x for ix, x in enumerate(target) if ix in train_indices]) 
+target_test = np.array([x for ix, x in enumerate(target) if ix in test_indices]) 
+```
+
+1.  接下来，我们将评论转换为数字单词索引，并将每个评论填充或裁剪为 20 个单词，如下所示：
+
+```py
+text_data_train = np.array(text_helpers.text_to_numbers(texts_train, word_dictionary)) text_data_test = np.array(text_helpers.text_to_numbers(texts_test, word_dictionary)) # Pad/crop movie reviews to specific length text_data_train = np.array([x[0:max_words] for x in [y+[0]*max_words for y in text_data_train]]) text_data_test = np.array([x[0:max_words] for x in [y+[0]*max_words for y in text_data_test]])
+```
+
+1.  现在我们将声明图中与逻辑回归模型相关的部分。我们将添加数据占位符，变量，模型操作和损失函数，如下所示：
+
+```py
+# Define Logistic placeholders 
+log_x_inputs = tf.placeholder(tf.int32, shape=[None, max_words + 1]) 
+log_y_target = tf.placeholder(tf.int32, shape=[None, 1]) 
+A = tf.Variable(tf.random_normal(shape=[concatenated_size,1])) 
+b = tf.Variable(tf.random_normal(shape=[1,1])) 
+
+# Declare logistic model (sigmoid in loss function) 
+model_output = tf.add(tf.matmul(log_final_embed, A), b) 
+
+# Declare loss function (Cross Entropy loss) 
+logistic_loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=model_output,  
+labels=tf.cast(log_y_target, tf.float32))) 
+```
+
+1.  我们需要创建另一个嵌入函数。前半部分中的嵌入函数在三个单词（和文档索引）的较小窗口上进行训练，以预测下一个单词。在这里，我们将采用相同的方式进行 20 字复习。使用以下代码执行此操作：
+
+```py
+# Add together element embeddings in window: 
+log_embed = tf.zeros([logistic_batch_size, embedding_size]) 
+for element in range(max_words): 
+    log_embed += tf.nn.embedding_lookup(embeddings, log_x_inputs[:, element]) 
+log_doc_indices = tf.slice(log_x_inputs, [0,max_words],[logistic_batch_size,1]) 
+log_doc_embed = tf.nn.embedding_lookup(doc_embeddings,log_doc_indices) 
+# concatenate embeddings 
+log_final_embed = tf.concat(1, [log_embed, tf.squeeze(log_doc_embed)]) 
+```
+
+1.  接下来，我们将在图上创建预测和准确率函数，以便我们可以在训练生成过程中评估模型的表现。然后我们将声明一个优化函数并初始化所有变量：
+
+```py
+prediction = tf.round(tf.sigmoid(model_output)) 
+predictions_correct = tf.cast(tf.equal(prediction, tf.cast(log_y_target, tf.float32)), tf.float32) 
+accuracy = tf.reduce_mean(predictions_correct) 
+# Declare optimizer 
+logistic_opt = tf.train.GradientDescentOptimizer(learning_rate=0.01) 
+logistic_train_step = logistic_opt.minimize(logistic_loss, var_list=[A, b]) 
+# Intitialize Variables 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  现在我们可以开始 Logistic 模型训练了：
+
+```py
+train_loss = [] 
+test_loss = [] 
+train_acc = [] 
+test_acc = [] 
+i_data = [] 
+for i in range(10000): 
+    rand_index = np.random.choice(text_data_train.shape[0], size=logistic_batch_size) 
+    rand_x = text_data_train[rand_index] 
+    # Append review index at the end of text data 
+    rand_x_doc_indices = train_indices[rand_index] 
+    rand_x = np.hstack((rand_x, np.transpose([rand_x_doc_indices]))) 
+    rand_y = np.transpose([target_train[rand_index]]) 
+
+    feed_dict = {log_x_inputs : rand_x, log_y_target : rand_y} 
+    sess.run(logistic_train_step, feed_dict=feed_dict) 
+
+    # Only record loss and accuracy every 100 generations 
+    if (i+1)%100==0: 
+        rand_index_test = np.random.choice(text_data_test.shape[0], size=logistic_batch_size) 
+        rand_x_test = text_data_test[rand_index_test] 
+        # Append review index at the end of text data 
+        rand_x_doc_indices_test = test_indices[rand_index_test] 
+        rand_x_test = np.hstack((rand_x_test, np.transpose([rand_x_doc_indices_test]))) 
+        rand_y_test = np.transpose([target_test[rand_index_test]]) 
+
+        test_feed_dict = {log_x_inputs: rand_x_test, log_y_target: rand_y_test} 
+
+        i_data.append(i+1) 
+        train_loss_temp = sess.run(logistic_loss, feed_dict=feed_dict) 
+        train_loss.append(train_loss_temp) 
+
+        test_loss_temp = sess.run(logistic_loss, feed_dict=test_feed_dict) 
+        test_loss.append(test_loss_temp) 
+
+        train_acc_temp = sess.run(accuracy, feed_dict=feed_dict) 
+        train_acc.append(train_acc_temp) 
+
+        test_acc_temp = sess.run(accuracy, feed_dict=test_feed_dict) 
+        test_acc.append(test_acc_temp) 
+    if (i+1)%500==0: 
+        acc_and_loss = [i+1, train_loss_temp, test_loss_temp, train_acc_temp, test_acc_temp] 
+        acc_and_loss = [np.round(x,2) for x in acc_and_loss] 
+        print('Generation # {}. Train Loss (Test Loss): {:.2f} ({:.2f}). Train Acc (Test Acc): {:.2f} ({:.2f})'.format(*acc_and_loss)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Generation # 500\. Train Loss (Test Loss): 5.62 (7.45). Train Acc (Test Acc): 0.52 (0.48) Generation # 10000\. Train Loss (Test Loss): 2.35 (2.51). Train Acc (Test Acc): 0.59 (0.58) 
+```
+
+1.  我们还应该注意到，我们在名为 doc2vec 的`text_helpers.generate_batch_data()`函数中创建了一个单独的数据批量生成方法，我们在本文的第一部分中使用它来训练 doc2vec 嵌入。以下是与该方法有关的该函数的摘录：
+
+```py
+def generate_batch_data(sentences, batch_size, window_size, method='skip_gram'): 
+    # Fill up data batch 
+    batch_data = [] 
+    label_data = [] 
+    while len(batch_data) < batch_size: 
+        # select random sentence to start 
+        rand_sentence_ix = int(np.random.choice(len(sentences), size=1)) 
+        rand_sentence = sentences[rand_sentence_ix] 
+        # Generate consecutive windows to look at 
+        window_sequences = [rand_sentence[max((ix-window_size),0):(ix+window_size+1)] for ix, x in enumerate(rand_sentence)] 
+        # Denote which element of each window is the center word of interest 
+        label_indices = [ix if ix<window_size else window_size for ix,x in enumerate(window_sequences)] 
+
+        # Pull out center word of interest for each window and create a tuple for each window 
+        if method=='skip_gram': 
+            ... 
+        elif method=='cbow': 
+            ... 
+        elif method=='doc2vec': 
+            # For doc2vec we keep LHS window only to predict target word 
+            batch_and_labels = [(rand_sentence[i:i+window_size], rand_sentence[i+window_size]) for i in range(0, len(rand_sentence)-window_size)] 
+            batch, labels = [list(x) for x in zip(*batch_and_labels)] 
+            # Add document index to batch!! Remember that we must extract the last index in batch for the doc-index 
+            batch = [x + [rand_sentence_ix] for x in batch] 
+        else: 
+            raise ValueError('Method {} not implmented yet.'.format(method)) 
+
+        # extract batch and labels 
+        batch_data.extend(batch[:batch_size]) 
+        label_data.extend(labels[:batch_size]) 
+    # Trim batch and label at the end 
+    batch_data = batch_data[:batch_size] 
+    label_data = label_data[:batch_size] 
+
+    # Convert to numpy array 
+    batch_data = np.array(batch_data) 
+    label_data = np.transpose(np.array([label_data])) 
+
+    return batch_data, label_data 
+```
+
+## 工作原理
+
+在这个秘籍中，我们进行了两个训练循环。第一个是适合 doc2vec 嵌入，第二个循环是为了适应电影情感的逻辑回归。
+
+虽然我们没有大幅度提高情感预测准确率（它仍然略低于 60%），但我们在电影语料库中成功实现了 doc2vec 的连接版本。为了提高我们的准确率，我们应该为 doc2vec 嵌入和可能更复杂的模型尝试不同的参数，因为逻辑回归可能无法捕获自然语言中的所有非线性行为。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch08.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch08.md
new file mode 100644
index 00000000..975b9978
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch08.md
@@ -0,0 +1,1309 @@
+# 八、卷积神经网络
+
+卷积神经网络（CNN）负责过去几年中图像识别的重大突破。在本章中，我们将介绍以下主题：
+
+*   实现简单的 CNN
+*   实现高级的 CNN
+*   重新训练现有的 CNN 模型
+*   应用 Stylenet 和神经式项目
+*   实现 DeepDream
+
+> 提醒一下，读者可以在[这里](https://github.com/nfmcclure/tensorflow_cookbook)，以及 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)找到本章的所有代码。
+
+# 介绍
+
+在数学中，卷积是应用于另一个函数的输出的函数。在我们的例子中，我们将考虑在图像上应用矩阵乘法（滤波器）。出于我们的目的，我们将图像视为数字矩阵。这些数字可以表示像素或甚至图像属性。我们将应用于这些矩阵的卷积运算包括在图像上移动固定宽度的滤波器并应用逐元素乘法来得到我们的结果。
+
+有关图像卷积如何工作的概念性理解，请参见下图：
+
+![](img/1a969461-cf3c-433e-9a1c-db07eec5db88.png)
+
+图 1：如何在图像上应用卷积滤镜（长度与宽度之间的深度），以创建新的特征层。这里，我们有一个`2x2`卷积滤波器，在`5x5`输入的有效空间中操作，两个方向的步幅为 1。结果是`4x4`矩阵
+
+CNN 还具有满足更多要求的其他操作，例如引入非线性（ReLU）或聚合参数（最大池化）以及其他类似操作。上图是在`5x5`数组上应用卷积运算的示例，其中卷积滤波器是`2x2`矩阵。步长为 1，我们只考虑有效的展示位置。此操作中的可训练变量将是`2x2`滤波器权重。在卷积之后，通常会跟进聚合操作，例如最大池化。如果我们在两个方向上采用步幅为 2 的`2x2`区域的最大值，下图提供了最大池如何操作的示例：
+
+![](img/1cc7f69a-e794-4bb1-b857-7a857482777f.png)
+
+图 2：最大池化操作如何运行的示例。这里，我们有一个`2x2`窗口，在`4x4`输入的有效空间上操作，两个方向的步幅为 2。结果是`2x2`矩阵
+
+虽然我们将首先创建自己的 CNN 进行图像识别，但强烈建议您使用现有的架构，我们将在本章的其余部分中进行操作。
+
+> 通常采用预先训练好的网络并使用新数据集对其进行重新训练，并在最后使用新的完全连接层。这种方法非常有用，我们将在重新训练现有的 CNN 模型秘籍中进行说明，我们将重新训练现有的架构以改进我们的 CIFAR-10 预测。
+
+# 实现简单的 CNN
+
+在本文中，我们将开发一个四层卷积神经网络，以提高我们预测 MNIST 数字的准确率。前两个卷积层将各自由卷积-ReLU-最大池化操作组成，最后两个层将是完全连接的层。
+
+## 准备
+
+为了访问 MNIST 数据，TensorFlow 有一个`examples.tutorials`包，它具有很好的数据集加载函数。加载数据后，我们将设置模型变量，创建模型，批量训练模型，然后可视化损失，准确率和一些样本数字。
+
+## 操作步骤
+
+执行以下步骤：
+
+1.  首先，我们将加载必要的库并启动图会话：
+
+```py
+import matplotlib.pyplot as plt
+import numpy as np
+import tensorflow as tf
+from tensorflow.examples.tutorials.mnist import input_data
+from tensorflow.python.framework import ops
+ops.reset_default_graph()
+
+sess = tf.Session()
+```
+
+1.  接下来，我们将加载数据并将图像转换为`28x28`数组：
+
+```py
+data_dir = 'temp' 
+mnist = input_data.read_data_sets(data_dir, one_hot=False)
+train_xdata = np.array([np.reshape(x, (28,28)) for x in mnist.train.images]) 
+test_xdata = np.array([np.reshape(x, (28,28)) for x in mnist.test.images]) 
+train_labels = mnist.train.labels 
+test_labels = mnist.test.labels 
+```
+
+> 请注意，此处下载的 MNIST 数据集还包括验证集。此验证集通常与测试集的大小相同。如果我们进行任何超参数调整或模型选择，最好将其加载到其他测试中。
+
+1.  现在我们将设置模型参数。请记住，图像的深度（通道数）为 1，因为这些图像是灰度的：
+
+```py
+batch_size = 100 
+learning_rate = 0.005 
+evaluation_size = 500 
+image_width = train_xdata[0].shape[0] 
+image_height = train_xdata[0].shape[1] 
+target_size = max(train_labels) + 1 
+num_channels = 1 
+generations = 500 
+eval_every = 5 
+conv1_features = 25 
+conv2_features = 50 
+max_pool_size1 = 2 
+max_pool_size2 = 2 
+fully_connected_size1 = 100 
+```
+
+1.  我们现在可以声明数据的占位符。我们将声明我们的训练数据变量和测试数据变量。我们将针对训练和评估规模使用不同的批量大小。您可以根据可用于训练和评估的物理内存来更改这些内容：
+
+```py
+x_input_shape = (batch_size, image_width, image_height, num_channels) 
+x_input = tf.placeholder(tf.float32, shape=x_input_shape) 
+y_target = tf.placeholder(tf.int32, shape=(batch_size)) 
+eval_input_shape = (evaluation_size, image_width, image_height, num_channels) 
+eval_input = tf.placeholder(tf.float32, shape=eval_input_shape) 
+eval_target = tf.placeholder(tf.int32, shape=(evaluation_size)) 
+```
+
+1.  我们将使用我们在前面步骤中设置的参数声明我们的卷积权重和偏差：
+
+```py
+conv1_weight = tf.Variable(tf.truncated_normal([4, 4, num_channels, conv1_features], stddev=0.1, dtype=tf.float32)) 
+conv1_bias = tf.Variable(tf.zeros([conv1_features],dtype=tf.float32)) 
+conv2_weight = tf.Variable(tf.truncated_normal([4, 4, conv1_features, conv2_features], stddev=0.1, dtype=tf.float32)) 
+conv2_bias = tf.Variable(tf.zeros([conv2_features],dtype=tf.float32)) 
+```
+
+1.  接下来，我们将为模型的最后两层声明完全连接的权重和偏差：
+
+```py
+resulting_width = image_width // (max_pool_size1 * max_pool_size2) 
+resulting_height = image_height // (max_pool_size1 * max_pool_size2) 
+full1_input_size = resulting_width * resulting_height*conv2_features 
+full1_weight = tf.Variable(tf.truncated_normal([full1_input_size, fully_connected_size1], stddev=0.1, dtype=tf.float32)) 
+full1_bias = tf.Variable(tf.truncated_normal([fully_connected_size1], stddev=0.1, dtype=tf.float32)) 
+full2_weight = tf.Variable(tf.truncated_normal([fully_connected_size1, target_size], stddev=0.1, dtype=tf.float32)) 
+full2_bias = tf.Variable(tf.truncated_normal([target_size], stddev=0.1, dtype=tf.float32)) 
+```
+
+1.  现在我们将宣布我们的模型。我们首先创建一个模型函数。请注意，该函数将在全局范围内查找所需的层权重和偏差。此外，为了使完全连接的层工作，我们将第二个卷积层的输出展平，这样我们就可以在完全连接的层中使用它：
+
+```py
+def my_conv_net(input_data): 
+   # First Conv-ReLU-MaxPool Layer 
+    conv1 = tf.nn.conv2d(input_data, conv1_weight, strides=[1, 1, 1, 1], padding='SAME') 
+    relu1 = tf.nn.relu(tf.nn.bias_add(conv1, conv1_bias)) 
+    max_pool1 = tf.nn.max_pool(relu1, ksize=[1, max_pool_size1, max_pool_size1, 1], strides=[1, max_pool_size1, max_pool_size1, 1], padding='SAME') 
+    # Second Conv-ReLU-MaxPool Layer 
+    conv2 = tf.nn.conv2d(max_pool1, conv2_weight, strides=[1, 1, 1, 1], padding='SAME') 
+    relu2 = tf.nn.relu(tf.nn.bias_add(conv2, conv2_bias)) 
+    max_pool2 = tf.nn.max_pool(relu2, ksize=[1, max_pool_size2, max_pool_size2, 1], strides=[1, max_pool_size2, max_pool_size2, 1], padding='SAME') 
+    # Transform Output into a 1xN layer for next fully connected layer 
+    final_conv_shape = max_pool2.get_shape().as_list() 
+    final_shape = final_conv_shape[1] * final_conv_shape[2] * final_conv_shape[3] 
+    flat_output = tf.reshape(max_pool2, [final_conv_shape[0], final_shape]) 
+    # First Fully Connected Layer 
+    fully_connected1 = tf.nn.relu(tf.add(tf.matmul(flat_output, full1_weight), full1_bias)) 
+    # Second Fully Connected Layer 
+    final_model_output = tf.add(tf.matmul(fully_connected1, full2_weight), full2_bias) 
+    return final_model_output 
+```
+
+1.  接下来，我们可以在训练和测试数据上声明模型：
+
+```py
+model_output = my_conv_net(x_input) 
+test_model_output = my_conv_net(eval_input) 
+```
+
+1.  我们将使用的损失函数是 softmax 函数。我们使用稀疏 softmax，因为我们的预测只是一个类别，而不是多个类别。我们还将使用一个对对率而不是缩放概率进行操作的损失函数：
+
+```py
+loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=model_output, labels=y_target)) 
+```
+
+1.  接下来，我们将创建一个训练和测试预测函数。然后我们还将创建一个准确率函数来确定模型在每个批次上的准确率：
+
+```py
+prediction = tf.nn.softmax(model_output) 
+test_prediction = tf.nn.softmax(test_model_output) 
+# Create accuracy function 
+def get_accuracy(logits, targets): 
+    batch_predictions = np.argmax(logits, axis=1) 
+    num_correct = np.sum(np.equal(batch_predictions, targets)) 
+    return 100\. * num_correct/batch_predictions.shape[0] 
+```
+
+1.  现在我们将创建我们的优化函数，声明训练步骤，并初始化所有模型变量：
+
+```py
+my_optimizer = tf.train.MomentumOptimizer(learning_rate, 0.9) 
+train_step = my_optimizer.minimize(loss) 
+# Initialize Variables 
+init = tf.global_variables_initializer() 
+sess.run(init)
+```
+
+1.  我们现在可以开始训练我们的模型。我们以随机选择的批次循环数据。我们经常选择在训练上评估模型并测试批次并记录准确率和损失。我们可以看到，经过 500 代，我们可以在测试数据上快速达到 96%-97% 的准确率：
+
+```py
+train_loss = [] 
+train_acc = [] 
+test_acc = [] 
+for i in range(generations): 
+    rand_index = np.random.choice(len(train_xdata), size=batch_size) 
+    rand_x = train_xdata[rand_index] 
+    rand_x = np.expand_dims(rand_x, 3) 
+    rand_y = train_labels[rand_index] 
+    train_dict = {x_input: rand_x, y_target: rand_y} 
+    sess.run(train_step, feed_dict=train_dict) 
+    temp_train_loss, temp_train_preds = sess.run([loss, prediction], feed_dict=train_dict) 
+    temp_train_acc = get_accuracy(temp_train_preds, rand_y) 
+    if (i+1) % eval_every == 0: 
+        eval_index = np.random.choice(len(test_xdata), size=evaluation_size) 
+        eval_x = test_xdata[eval_index] 
+        eval_x = np.expand_dims(eval_x, 3) 
+        eval_y = test_labels[eval_index] 
+        test_dict = {eval_input: eval_x, eval_target: eval_y} 
+        test_preds = sess.run(test_prediction, feed_dict=test_dict) 
+        temp_test_acc = get_accuracy(test_preds, eval_y) 
+        # Record and print results 
+        train_loss.append(temp_train_loss) 
+        train_acc.append(temp_train_acc) 
+        test_acc.append(temp_test_acc) 
+        acc_and_loss = [(i+1), temp_train_loss, temp_train_acc, temp_test_acc] 
+        acc_and_loss = [np.round(x,2) for x in acc_and_loss] 
+        print('Generation # {}. Train Loss: {:.2f}. Train Acc (Test Acc): {:.2f} ({:.2f})'.format(*acc_and_loss)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Generation # 5\. Train Loss: 2.37\. Train Acc (Test Acc): 7.00 (9.80) 
+Generation # 10\. Train Loss: 2.16\. Train Acc (Test Acc): 31.00 (22.00) 
+Generation # 15\. Train Loss: 2.11\. Train Acc (Test Acc): 36.00 (35.20) 
+...
+Generation # 490\. Train Loss: 0.06\. Train Acc (Test Acc): 98.00 (97.40) 
+Generation # 495\. Train Loss: 0.10\. Train Acc (Test Acc): 98.00 (95.40) 
+Generation # 500\. Train Loss: 0.14\. Train Acc (Test Acc): 98.00 (96.00) 
+```
+
+1.  以下是使用`Matplotlib`绘制损耗和精度的代码：
+
+```py
+eval_indices = range(0, generations, eval_every) 
+# Plot loss over time 
+plt.plot(eval_indices, train_loss, 'k-') 
+plt.title('Softmax Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Softmax Loss') 
+plt.show() 
+
+# Plot train and test accuracy 
+plt.plot(eval_indices, train_acc, 'k-', label='Train Set Accuracy') 
+plt.plot(eval_indices, test_acc, 'r--', label='Test Set Accuracy') 
+plt.title('Train and Test Accuracy') 
+plt.xlabel('Generation') 
+plt.ylabel('Accuracy') 
+plt.legend(loc='lower right') 
+plt.show() 
+```
+
+然后我们得到以下图：
+
+![](img/1092cc3c-6d21-4b82-bf79-af63e1a4fa3d.png)
+
+图 3：左图是我们 500 代训练中的训练和测试集精度。右图是超过 500 代的 softmax 损失值。
+
+1.  如果我们想要绘制最新批次结果的样本，下面是绘制由六个最新结果组成的样本的代码：
+
+```py
+# Plot the 6 of the last batch results: 
+actuals = rand_y[0:6] 
+predictions = np.argmax(temp_train_preds,axis=1)[0:6] 
+images = np.squeeze(rand_x[0:6]) 
+Nrows = 2 
+Ncols = 3 
+for i in range(6): 
+    plt.subplot(Nrows, Ncols, i+1) 
+    plt.imshow(np.reshape(images[i], [28,28]), cmap='Greys_r') 
+    plt.title('Actual: ' + str(actuals[i]) + ' Pred: ' + str(predictions[i]), fontsize=10) 
+    frame = plt.gca() 
+    frame.axes.get_xaxis().set_visible(False) 
+    frame.axes.get_yaxis().set_visible(False) 
+```
+
+我们得到前面代码的以下输出：
+
+![](img/5e821fd6-fba1-48c6-9b72-d7ac6238f1ff.png)
+
+图 4：六个随机图像的绘图，标题中包含实际值和预测值。右下图预计是 3，而事实上它是 1
+
+## 工作原理
+
+我们提高了 MNIST 数据集的表现，并构建了一个模型，在从头开始训练时，可快速达到约 97% 的准确率。我们的前两层是卷积，ReLU 和最大池化的组合。第二层是完全连接的层。我们以 100 个批次进行了训练，并研究了我们训练的几代的准确率和损失。最后，我们还绘制了六个随机数字和每个数字的预测/实际值。
+
+CNN 非常适合图像识别。造成这种情况的部分原因是卷积层创建了自己的低级特征，当它们遇到重要的部分图像时会被激活。这种类型的模型自己创建特征并将其用于预测。
+
+## 更多
+
+在过去几年中，CNN 模型在图像识别方面取得了巨大进步。正在探索许多新颖的想法，并且经常发现新的架构。该领域的一个很好的论文库是一个名为 [Arxiv.org](https://arxiv.org/) 的仓库网站，由康奈尔大学创建和维护。 Arxiv.org 包括许多领域的一些最新论文，包括计算机科学和计算机科学子领域，如[计算机视觉和图像识别](https://arxiv.org/list/cs.CV/recent)。
+
+## 另见
+
+以下列出了一些可用于了解 CNN 的优秀资源：
+
+*   [斯坦福大学有一个很棒的维基](http://scarlet.stanford.edu/teach/index.php/An_Introduction_to_Convolutional_Neural_Networks)
+*   [迈克尔·尼尔森的深度学习](http://neuralnetworksanddeeplearning.com/chap6.html)
+*   [吴建新介绍卷积神经网络](https://pdfs.semanticscholar.org/450c/a19932fcef1ca6d0442cbf52fec38fb9d1e5.pdf)
+
+# 实现高级的 CNN
+
+能够扩展 CNN 模型以进行图像识别非常重要，这样我们才能理解如何增加网络的深度。如果我们有足够的数据，这可能会提高我们预测的准确率。扩展 CNN 网络的深度是以标准方式完成的：我们只是重复卷积，最大池和 ReLU，直到我们对深度感到满意为止。许多更精确的图像识别网络以这种方式操作。
+
+## 准备
+
+在本文中，我们将实现一种更先进的读取图像数据的方法，并使用更大的 CNN 在 [CIFAR10](https://www.cs.toronto.edu/~kriz/cifar.html) 数据集上进行图像识别。该数据集具有 60,000 个`32x32`图像，这些图像恰好属于十个可能类别中的一个。图像的潜在类别是飞机，汽车，鸟，猫，鹿，狗，青蛙，马，船和卡车。另见“另见”部分中的第一个要点。
+
+大多数图像数据集太大而无法放入内存中。我们可以使用 TensorFlow 设置一个图像管道，一次从一个文件中一次读取。我们通过设置图像阅读器，然后创建在图像阅读器上运行的批量队列来完成此操作。
+
+此外，对于图像识别数据，通常在将图像发送之前随机扰动图像以进行训练。在这里，我们将随机裁剪，翻转和更改亮度。
+
+此秘籍是TensorFlow CIFAR-10 官方教程的改编版本，可在本章末尾的“另见”部分中找到。我们将教程浓缩为一个脚本，我们将逐行完成并解释所有必要的代码。我们还将一些常量和参数恢复为原始引用的纸张值；我们将在适当的步骤中标记这一点。
+
+## 操作步骤
+
+执行以下步骤：
+
+1.  首先，我们加载必要的库并启动图会话：
+
+```py
+import os 
+import sys 
+import tarfile 
+import matplotlib.pyplot as plt 
+import numpy as np 
+import tensorflow as tf 
+from six.moves import urllib 
+sess = tf.Session()
+```
+
+1.  现在我们将声明一些模型参数。我们的批量大小为 128（用于训练和测试）。我们将每 50 代输出一次状态，总共运行 20,000 代。每 500 代，我们将评估一批测试数据。然后我们将声明一些图像参数，高度和宽度，以及随机裁剪图像的大小。有三个通道（红色，绿色和蓝色），我们有十个不同的目标。然后我们将声明我们将从队列中存储数据和图像批次的位置：
+
+```py
+batch_size = 128 
+output_every = 50 
+generations = 20000 
+eval_every = 500 
+image_height = 32 
+image_width = 32 
+crop_height = 24 
+crop_width = 24 
+num_channels = 3 
+num_targets = 10 
+data_dir = 'temp' 
+extract_folder = 'cifar-10-batches-bin' 
+```
+
+1.  建议您在我们向好的模型迈进时降低学习率，因此我们将以指数方式降低学习率：初始学习率将设置为 0.1，并且我们将以 250% 的指数方式将其降低 10% 代。确切的公式将由`0.1 · 0.9^(x / 250)`给出，其中`x`是当前世代号。默认情况下，此值会持续降低，但 TensorFlow 会接受仅更新学习率的阶梯参数。这里我们设置一些参数供将来使用：
+
+```py
+learning_rate = 0.1 
+lr_decay = 0.9 
+num_gens_to_wait = 250\. 
+```
+
+1.  现在我们将设置参数，以便我们可以读取二进制 CIFAR-10 图像：
+
+```py
+image_vec_length = image_height * image_width * num_channels 
+record_length = 1 + image_vec_length 
+```
+
+1.  接下来，我们将设置数据目录和 URL 以下载 CIFAR-10 图像，如果我们还没有它们：
+
+```py
+data_dir = 'temp' 
+if not os.path.exists(data_dir): 
+    os.makedirs(data_dir) 
+cifar10_url = 'http://www.cs.toronto.edu/~kriz/cifar-10-binary.tar.gz' 
+data_file = os.path.join(data_dir, 'cifar-10-binary.tar.gz') 
+if not os.path.isfile(data_file): 
+    # Download file 
+    filepath, _ = urllib.request.urlretrieve(cifar10_url, data_file) 
+    # Extract file 
+    tarfile.open(filepath, 'r:gz').extractall(data_dir) 
+```
+
+1.  我们将设置记录阅读器并使用以下`read_cifar_files()`函数返回随机失真的图像。首先，我们需要声明一个读取固定字节长度的记录读取器对象。在我们读取图像队列之后，我们将图像和标签分开。最后，我们将使用 TensorFlow 的内置图像修改函数随机扭曲图像：
+
+```py
+def read_cifar_files(filename_queue, distort_images = True): 
+    reader = tf.FixedLengthRecordReader(record_bytes=record_length) 
+    key, record_string = reader.read(filename_queue) 
+    record_bytes = tf.decode_raw(record_string, tf.uint8) 
+    # Extract label 
+    image_label = tf.cast(tf.slice(record_bytes, [0], [1]), tf.int32) 
+    # Extract image 
+    image_extracted = tf.reshape(tf.slice(record_bytes, [1], [image_vec_length]), [num_channels, image_height, image_width]) 
+    # Reshape image 
+    image_uint8image = tf.transpose(image_extracted, [1, 2, 0]) 
+    reshaped_image = tf.cast(image_uint8image, tf.float32) 
+    # Randomly Crop image 
+    final_image = tf.image.resize_image_with_crop_or_pad(reshaped_image, crop_width, crop_height) 
+    if distort_images: 
+        # Randomly flip the image horizontally, change the brightness and contrast 
+        final_image = tf.image.random_flip_left_right(final_image) 
+        final_image = tf.image.random_brightness(final_image,max_delta=63) 
+        final_image = tf.image.random_contrast(final_image,lower=0.2, upper=1.8) 
+    # Normalize whitening 
+    final_image = tf.image.per_image_standardization(final_image) 
+    return final_image, image_label
+```
+
+1.  现在我们将声明一个函数，它将填充我们的图像管道以供批量器使用。我们首先需要设置一个我们想要读取的图像文件列表，并定义如何使用通过预构建的 TensorFlow 函数创建的输入生成器对象来读取它们。输入生成器可以传递给我们在上一步中创建的读取函数：`read_cifar_files()`。然后我们将在队列中设置批量阅读器：`shuffle_batch()`：
+
+```py
+def input_pipeline(batch_size, train_logical=True): 
+    if train_logical: 
+        files = [os.path.join(data_dir, extract_folder, 'data_batch_{}.bin'.format(i)) for i in range(1,6)] 
+    else: 
+        files = [os.path.join(data_dir, extract_folder, 'test_batch.bin')] 
+    filename_queue = tf.train.string_input_producer(files) 
+    image, label = read_cifar_files(filename_queue) 
+
+    min_after_dequeue = 1000 
+    capacity = min_after_dequeue + 3 * batch_size 
+    example_batch, label_batch = tf.train.shuffle_batch([image, label], batch_size, capacity, min_after_dequeue) 
+    return example_batch, label_batch
+```
+
+> 正确设置`min_after_dequeue`很重要。此参数负责设置用于采样的图像缓冲区的最小大小。TensorFlow 官方文档建议将其设置为`(#threads + error margin)*batch_size`。请注意，将其设置为更大的大小会导致更均匀的混洗，因为它正在从队列中的更大数据集进行混洗，但是在此过程中也将使用更多内存。
+
+1.  接下来，我们可以声明我们的模型函数。我们将使用的模型有两个卷积层，后面是三个完全连接的层。为了使变量声明更容易，我们首先声明两个变量函数。两个卷积层将分别创建 64 个特征。第一个完全连接的层将第二个卷积层与 384 个隐藏节点连接起来。第二个完全连接的操作将这 384 个隐藏节点连接到 192 个隐藏节点。最后的隐藏层操作将 192 个节点连接到我们试图预测的 10 个输出类。请参阅以下`#`前面的内联注释：
+
+```py
+def cifar_cnn_model(input_images, batch_size, train_logical=True): 
+    def truncated_normal_var(name, shape, dtype): 
+        return tf.get_variable(name=name, shape=shape, dtype=dtype, initializer=tf.truncated_normal_initializer(stddev=0.05)) 
+    def zero_var(name, shape, dtype): 
+        return tf.get_variable(name=name, shape=shape, dtype=dtype, initializer=tf.constant_initializer(0.0))
+    # First Convolutional Layer 
+    with tf.variable_scope('conv1') as scope: 
+        # Conv_kernel is 5x5 for all 3 colors and we will create 64 features 
+        conv1_kernel = truncated_normal_var(name='conv_kernel1', shape=[5, 5, 3, 64], dtype=tf.float32) 
+        # We convolve across the image with a stride size of 1 
+        conv1 = tf.nn.conv2d(input_images, conv1_kernel, [1, 1, 1, 1], padding='SAME') 
+        # Initialize and add the bias term 
+        conv1_bias = zero_var(name='conv_bias1', shape=[64], dtype=tf.float32) 
+        conv1_add_bias = tf.nn.bias_add(conv1, conv1_bias) 
+        # ReLU element wise 
+        relu_conv1 = tf.nn.relu(conv1_add_bias) 
+    # Max Pooling 
+    pool1 = tf.nn.max_pool(relu_conv1, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1],padding='SAME', name='pool_layer1') 
+
+    # Local Response Normalization 
+    norm1 = tf.nn.lrn(pool1, depth_radius=5, bias=2.0, alpha=1e-3, beta=0.75, name='norm1') 
+    # Second Convolutional Layer 
+    with tf.variable_scope('conv2') as scope: 
+        # Conv kernel is 5x5, across all prior 64 features and we create 64 more features 
+        conv2_kernel = truncated_normal_var(name='conv_kernel2', shape=[5, 5, 64, 64], dtype=tf.float32) 
+        # Convolve filter across prior output with stride size of 1 
+        conv2 = tf.nn.conv2d(norm1, conv2_kernel, [1, 1, 1, 1], padding='SAME') 
+        # Initialize and add the bias 
+        conv2_bias = zero_var(name='conv_bias2', shape=[64], dtype=tf.float32) 
+        conv2_add_bias = tf.nn.bias_add(conv2, conv2_bias) 
+        # ReLU element wise 
+        relu_conv2 = tf.nn.relu(conv2_add_bias) 
+    # Max Pooling 
+    pool2 = tf.nn.max_pool(relu_conv2, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], padding='SAME', name='pool_layer2')     
+     # Local Response Normalization (parameters from paper) 
+    norm2 = tf.nn.lrn(pool2, depth_radius=5, bias=2.0, alpha=1e-3, beta=0.75, name='norm2') 
+    # Reshape output into a single matrix for multiplication for the fully connected layers 
+    reshaped_output = tf.reshape(norm2, [batch_size, -1]) 
+    reshaped_dim = reshaped_output.get_shape()[1].value 
+
+    # First Fully Connected Layer 
+    with tf.variable_scope('full1') as scope: 
+        # Fully connected layer will have 384 outputs. 
+        full_weight1 = truncated_normal_var(name='full_mult1', shape=[reshaped_dim, 384], dtype=tf.float32) 
+        full_bias1 = zero_var(name='full_bias1', shape=[384], dtype=tf.float32) 
+        full_layer1 = tf.nn.relu(tf.add(tf.matmul(reshaped_output, full_weight1), full_bias1)) 
+    # Second Fully Connected Layer 
+    with tf.variable_scope('full2') as scope: 
+        # Second fully connected layer has 192 outputs. 
+        full_weight2 = truncated_normal_var(name='full_mult2', shape=[384, 192], dtype=tf.float32) 
+        full_bias2 = zero_var(name='full_bias2', shape=[192], dtype=tf.float32) 
+        full_layer2 = tf.nn.relu(tf.add(tf.matmul(full_layer1, full_weight2), full_bias2)) 
+    # Final Fully Connected Layer -> 10 categories for output (num_targets) 
+    with tf.variable_scope('full3') as scope: 
+        # Final fully connected layer has 10 (num_targets) outputs. 
+        full_weight3 = truncated_normal_var(name='full_mult3', shape=[192, num_targets], dtype=tf.float32) 
+        full_bias3 =  zero_var(name='full_bias3', shape=[num_targets], dtype=tf.float32) 
+        final_output = tf.add(tf.matmul(full_layer2, full_weight3), full_bias3) 
+
+    return final_output
+```
+
+> 我们的本地响应标准化参数取自本文，并在本文的“另见”部分中引用。
+
+1.  现在我们将创建损失函数。我们将使用 softmax 函数，因为图片只能占用一个类别，因此输出应该是十个目标的概率分布：
+
+```py
+def cifar_loss(logits, targets): 
+    # Get rid of extra dimensions and cast targets into integers 
+    targets = tf.squeeze(tf.cast(targets, tf.int32)) 
+    # Calculate cross entropy from logits and targets 
+    cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=targets) 
+    # Take the average loss across batch size 
+    cross_entropy_mean = tf.reduce_mean(cross_entropy) 
+    return cross_entropy_mean 
+```
+
+1.  接下来，我们宣布我们的训练步骤。学习率将以指数阶跃函数降低：
+
+```py
+def train_step(loss_value, generation_num): 
+    # Our learning rate is an exponential decay (stepped down) 
+    model_learning_rate = tf.train.exponential_decay(learning_rate, generation_num, num_gens_to_wait, lr_decay, staircase=True) 
+    # Create optimizer 
+    my_optimizer = tf.train.GradientDescentOptimizer(model_learning_rate) 
+    # Initialize train step 
+    train_step = my_optimizer.minimize(loss_value) 
+    return train_step 
+```
+
+1.  我们还必须具有精确度函数，以计算一批图像的准确率。我们将输入对率目标向量，并输出平均精度。然后我们可以将它用于训练和测试批次：
+
+```py
+def accuracy_of_batch(logits, targets): 
+    # Make sure targets are integers and drop extra dimensions 
+    targets = tf.squeeze(tf.cast(targets, tf.int32)) 
+    # Get predicted values by finding which logit is the greatest 
+    batch_predictions = tf.cast(tf.argmax(logits, 1), tf.int32) 
+    # Check if they are equal across the batch 
+    predicted_correctly = tf.equal(batch_predictions, targets) 
+    # Average the 1's and 0's (True's and False's) across the batch size 
+    accuracy = tf.reduce_mean(tf.cast(predicted_correctly, tf.float32)) 
+    return accuracy 
+```
+
+1.  现在我们有了一个图像管道函数，我们可以初始化训练图像管道和测试图像管道：
+
+```py
+images, targets = input_pipeline(batch_size, train_logical=True) 
+test_images, test_targets = input_pipeline(batch_size, train_logical=False)
+```
+
+1.  接下来，我们将初始化训练输出和测试输出的模型。值得注意的是，我们必须在创建训练模型后声明`scope.reuse_variables()`，这样，当我们为测试网络声明模型时，它将使用相同的模型参数：
+
+```py
+with tf.variable_scope('model_definition') as scope: 
+    # Declare the training network model 
+    model_output = cifar_cnn_model(images, batch_size) 
+    # Use same variables within scope 
+    scope.reuse_variables() 
+    # Declare test model output 
+    test_output = cifar_cnn_model(test_images, batch_size) 
+```
+
+1.  我们现在可以初始化我们的损耗和测试精度函数。然后我们将声明`generation`变量。此变量需要声明为不可训练，并传递给我们的训练函数，该函数在学习率指数衰减计算中使用它：
+
+```py
+loss = cifar_loss(model_output, targets) 
+accuracy = accuracy_of_batch(test_output, test_targets) 
+generation_num = tf.Variable(0, trainable=False) 
+train_op = train_step(loss, generation_num) 
+```
+
+1.  我们现在将初始化所有模型的变量，然后通过运行 TensorFlow 函数`start_queue_runners()`来启动图像管道。当我们开始训练或测试模型输出时，管道将输入一批图像来代替饲料字典：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+tf.train.start_queue_runners(sess=sess) 
+```
+
+1.  我们现在循环训练我们的训练，节省训练损失和测试准确率：
+
+```py
+train_loss = [] 
+test_accuracy = [] 
+for i in range(generations): 
+    _, loss_value = sess.run([train_op, loss]) 
+    if (i+1) % output_every == 0: 
+        train_loss.append(loss_value) 
+        output = 'Generation {}: Loss = {:.5f}'.format((i+1), loss_value) 
+        print(output) 
+    if (i+1) % eval_every == 0: 
+        [temp_accuracy] = sess.run([accuracy]) 
+        test_accuracy.append(temp_accuracy) 
+        acc_output = ' --- Test Accuracy= {:.2f}%.'.format(100\. * temp_accuracy) 
+        print(acc_output) 
+```
+
+1.  这产生以下输出：
+
+```py
+...
+Generation 19500: Loss = 0.04461 
+ --- Test Accuracy = 80.47%. 
+Generation 19550: Loss = 0.01171 
+Generation 19600: Loss = 0.06911 
+Generation 19650: Loss = 0.08629 
+Generation 19700: Loss = 0.05296 
+Generation 19750: Loss = 0.03462 
+Generation 19800: Loss = 0.03182 
+Generation 19850: Loss = 0.07092 
+Generation 19900: Loss = 0.11342 
+Generation 19950: Loss = 0.08751 
+Generation 20000: Loss = 0.02228 
+ --- Test Accuracy = 83.59%. 
+```
+
+1.  最后，这里有一些`matplotlib`代码将绘制在训练过程中的损失和测试准确率：
+
+```py
+eval_indices = range(0, generations, eval_every) 
+output_indices = range(0, generations, output_every) 
+# Plot loss over time 
+plt.plot(output_indices, train_loss, 'k-') 
+plt.title('Softmax Loss per Generation') 
+plt.xlabel('Generation') 
+plt.ylabel('Softmax Loss') 
+plt.show() 
+
+# Plot accuracy over time 
+plt.plot(eval_indices, test_accuracy, 'k-') 
+plt.title('Test Accuracy') 
+plt.xlabel('Generation') 
+plt.ylabel('Accuracy') 
+plt.show() 
+```
+
+我们得到以下秘籍的以下绘图：
+
+![](img/8c38465a-ddc7-4389-9cc5-806b5a388769.png)
+
+图 5：训练损失在左侧，测试精度在右侧。对于 CIFAR-10 图像识别 CNN，我们能够实现在测试集上达到约 75% 准确率的模型
+
+## 工作原理
+
+在我们下载了 CIFAR-10 数据之后，我们建立了一个图像管道而不是使用源字典。有关图像管道的更多信息，请参阅 TensorFlow CIFAR-10 官方教程。我们使用此训练和测试管道来尝试预测图像的正确类别。最后，该模型在测试集上达到了约 75% 的准确率。
+
+## 另见
+
+*   有关 CIFAR-10 数据集的更多信息，[请参阅学习 Tiny Images 的多个特征层，Alex Krizhevsky，2009](https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf)
+*   要查看原始的 TensorFlow 代码，请参阅[此链接](https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10)
+*   有关局部响应归一化的更多信息，请参阅[使用深度卷积神经网络的 ImageNet 分类，Krizhevsky，A. 等人，2012](http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks)
+
+# 重新训练现有的 CNN 模型
+
+从头开始训练新的图像识别需要大量的时间和计算能力。如果我们可以采用先前训练的网络并使用我们的图像重新训练它，它可以节省我们的计算时间。对于此秘籍，我们将展示如何使用预先训练的 TensorFlow 图像识别模型并对其进行微调以处理不同的图像集。
+
+## 准备
+
+其思想是从卷积层重用先前模型的权重和结构，并重新训练网络顶部的完全连接层。
+
+TensorFlow 在现有 CNN 模型的基础上创建了一个关于训练的教程（请参阅下一节中的第一个要点）。在本文中，我们将说明如何对 CIFAR-10 使用相同的方法。我们将采用的 CNN 网络使用一种非常流行的架构，称为 Inception。 Inception CNN 模型由 Google 创建，在许多图像识别基准测试中表现非常出色。有关详细信息，请参阅“另见”部分的第二个要点中的纸张参考。
+
+我们将介绍的主要 Python 脚本显示如何下载 CIFAR-10 图像数据并自动分离，标记和保存图像到每个训练和测试文件夹中的十个类。之后，我们将重申如何在我们的图像上训练网络。
+
+## 操作步骤
+
+执行以下步骤：
+
+1.  我们首先加载必要的库来下载，解压缩和保存 CIFAR-10 图像：
+
+```py
+import os 
+import tarfile 
+import _pickle as cPickle 
+import numpy as np 
+import urllib.request 
+import scipy.misc
+from imageio import imwrite
+```
+
+1.  我们现在声明 CIFAR-10 数据链接并创建我们将存储数据的临时目录。我们还将在以后保存图像时声明要引用的十个类别：
+
+```py
+cifar_link = 'https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz' 
+data_dir = 'temp' 
+if not os.path.isdir(data_dir): 
+    os.makedirs(data_dir) 
+objects = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck'] 
+```
+
+1.  现在我们将下载 CIFAR-10 `.tar`数据文件，并解压该文件：
+
+```py
+target_file = os.path.join(data_dir, 'cifar-10-python.tar.gz') 
+if not os.path.isfile(target_file): 
+    print('CIFAR-10 file not found. Downloading CIFAR data (Size = 163MB)') 
+    print('This may take a few minutes, please wait.') 
+    filename, headers = urllib.request.urlretrieve(cifar_link, target_file) 
+# Extract into memory 
+tar = tarfile.open(target_file) 
+tar.extractall(path=data_dir) 
+tar.close() 
+```
+
+1.  我们现在为训练创建必要的文件夹结构。临时目录将有两个文件夹，`train_dir`和`validation_dir`。在每个文件夹中，我们将为每个类别创建 10 个子文件夹：
+
+```py
+# Create train image folders 
+train_folder = 'train_dir' 
+if not os.path.isdir(os.path.join(data_dir, train_folder)): 
+    for i in range(10): 
+        folder = os.path.join(data_dir, train_folder, objects[i]) 
+        os.makedirs(folder) 
+# Create test image folders 
+test_folder = 'validation_dir' 
+if not os.path.isdir(os.path.join(data_dir, test_folder)): 
+    for i in range(10): 
+        folder = os.path.join(data_dir, test_folder, objects[i]) 
+        os.makedirs(folder)
+```
+
+1.  为了保存图像，我们将创建一个从内存加载它们并将它们存储在图像字典中的函数：
+
+```py
+def load_batch_from_file(file): 
+    file_conn = open(file, 'rb') 
+    image_dictionary = cPickle.load(file_conn, encoding='latin1') 
+    file_conn.close() 
+    return(image_dictionary) 
+```
+
+1.  使用前面的字典，我们将使用以下函数将每个文件保存在正确的位置：
+
+```py
+def save_images_from_dict(image_dict, folder='data_dir'): 
+
+    for ix, label in enumerate(image_dict['labels']): 
+        folder_path = os.path.join(data_dir, folder, objects[label]) 
+        filename = image_dict['filenames'][ix] 
+        #Transform image data 
+        image_array = image_dict['data'][ix] 
+        image_array.resize([3, 32, 32]) 
+        # Save image 
+        output_location = os.path.join(folder_path, filename) 
+        imwrite(output_location,image_array.transpose()) 
+```
+
+1.  使用上述函数，我们可以遍历下载的数据文件并将每个图像保存到正确的位置：
+
+```py
+data_location = os.path.join(data_dir, 'cifar-10-batches-py') 
+train_names = ['data_batch_' + str(x) for x in range(1,6)] 
+test_names = ['test_batch'] 
+# Sort train images 
+for file in train_names: 
+    print('Saving images from file: {}'.format(file)) 
+    file_location = os.path.join(data_dir, 'cifar-10-batches-py', file) 
+    image_dict = load_batch_from_file(file_location) 
+    save_images_from_dict(image_dict, folder=train_folder) 
+# Sort test images 
+for file in test_names: 
+    print('Saving images from file: {}'.format(file)) 
+    file_location = os.path.join(data_dir, 'cifar-10-batches-py', file) 
+    image_dict = load_batch_from_file(file_location) 
+    save_images_from_dict(image_dict, folder=test_folder)
+```
+
+1.  我们脚本的最后一部分创建了图像标签文件，这是我们需要的最后一条信息。这个文件让我们将输出解释为标签而不是数字索引：
+
+```py
+cifar_labels_file = os.path.join(data_dir,'cifar10_labels.txt') 
+print('Writing labels file, {}'.format(cifar_labels_file)) 
+with open(cifar_labels_file, 'w') as labels_file: 
+    for item in objects: 
+        labels_file.write("{}n".format(item)) 
+```
+
+1.  当前面的脚本运行时，它将下载图像并将它们分类到 TensorFlow 再训练教程所期望的正确文件夹结构中。完成后，我们只需按照教程进行操作即可。首先，我们应该克隆教程仓库：
+
+```py
+git clone https://github.com/tensorflow/models/tree/master/research/inception 
+```
+
+1.  为了使用先前训练的模型，我们必须下载网络权重并将其应用于我们的模型。为此，[您必须访问该站点](https://github.com/tensorflow/models/tree/master/research/slim)，并按照说明下载并安装 cifar10 模型架构和权重。您还将最终下载包含下面描述的构建，训练和测试脚本的数据目录。
+
+> 对于此步骤，我们导航到`research/inception/inception`目录，然后执行以下命令，`--train_directory`，`--validation_directory`，`--output_directory`和`--labels_file`的路径指向相对路径或完整路径创建的目录结构。
+
+1.  现在我们将图像放在正确的文件夹结构中，我们必须将它们变成`TFRecords`对象。我们通过运行以下命令来完成此操作：
+
+```py
+    me@computer:~$ python3 data/build_image_data.py
+    --train_directory="temp/train_dir/"
+    --validation_directory="temp/validation_dir"
+    --output_directory="temp/" --labels_file="temp/cifar10_labels.txt"
+
+```
+
+1.  现在我们将使用`bazel`训练模型，将参数设置为`true`。该脚本每 10 代输出一次损失。我们可以随时终止此过程，模型输出将在`temp/training_results`文件夹中。我们可以从此文件夹加载模型以进行评估：
+
+```py
+    me@computer:~$ bazel-bin/inception/flowers_train
+    --train_dir="temp/training_results" --data_dir="temp/data_dir"
+    --pretrained_model_checkpoint_path="model.ckpt-157585"
+    --fine_tune=True --initial_learning_rate=0.001
+    --input_queue_memory_factor=1
+```
+
+1.  这应该使输出类似于以下内容：
+
+```py
+2018-06-02 11:10:10.557012: step 1290, loss = 2.02 (1.2  examples/sec; 23.771 sec/batch)
+...
+
+```
+
+## 工作原理
+
+关于预训练 CNN 上的训练的 TensorFlow 官方教程需要设置一个文件夹；我们从 CIFAR-10 数据创建的设置。然后我们将数据转换为所需的`TFRecords`格式并开始训练模型。请记住，我们正在微调模型并重新训练顶部的完全连接的层以适合我们的 10 类数据。
+
+## 另见
+
+*   [Tensorflow Inception-v3 官方教程](https://www.tensorflow.org/tutoriaimg/image_recognition)
+*   [Googlenet Inception-v3 文件](https://arxiv.org/abs/1512.00567)
+
+# 应用 StyleNet 和 NeuralStyle 项目
+
+一旦我们对 CNN 进行了图像识别训练，我们就可以将网络本身用于一些有趣的数据和图像处理。 Stylenet 是一种尝试从一张图片中学习图像样式并将其应用于第二张图片同时保持第二图像结构（或内容）完整的过程。如果我们能够找到与样式强烈相关的中间 CNN 节点，这可能是可能的，与图像的内容分开。
+
+## 准备
+
+Stylenet 是一个过程，它接收两个图像并将一个图像的样式应用于第二个图像的内容。它基于 2015 年的着名论文“艺术风格的神经算法”（参见下一节的第一个要点）。作者在一些 CNN 中找到了一个属性，其中存在中间层，它们似乎编码图片的样式，有些编码图片的内容。为此，如果我们训练样式图片上的样式层和原始图像上的内容层，并反向传播那些计算的损失，我们可以将原始图像更改为更像样式图像。
+
+为了实现这一目标，我们将下载本文推荐的网络；叫做 imagenet-vgg-19。还有一个 imagenet-vgg-16 网络也可以使用，但是本文推荐使用 imagenet-vgg-19。
+
+## 操作步骤
+
+执行以下步骤：
+
+1.  首先，我们将以`mat`格式下载预先训练好的网络。`mat`格式是`matlab`对象，Python 中的`scipy`包有一个可以读取它的方法。下载`mat`对象的链接在这里。我们将此模型保存在 Python 脚本所在的同一文件夹中，以供参考：
+
+```py
+http://www.vlfeat.org/matconvnet/models/beta16/imagenet-vgg-verydeep-19.mat 
+```
+
+1.  我们将通过加载必要的库来启动我们的 Python 脚本：
+
+```py
+import os
+import scipy.io
+import scipy.misc
+import imageio
+from skimage.transform import resize
+from operator import mul
+from functools import reduce
+import numpy as np
+import tensorflow as tf
+from tensorflow.python.framework import ops
+ops.reset_default_graph()
+```
+
+1.  然后我们可以声明两个图像的位置：原始图像和样式图像。出于我们的目的，我们将使用本书的封面图片作为原始图像；对于风格形象，我们将使用文森特·梵高的星夜。随意使用您想要的任何两张图片。如果您选择使用这些图片，[可以在本书的 GitHub 网站上找到（导航到 Styelnet 部分）](https://github.com/nfmcclure/tensorflow_cookbook)：
+
+```py
+original_image_file = 'temp/book_cover.jpg' 
+style_image_file = 'temp/starry_night.jpg' 
+```
+
+1.  我们将为我们的模型设置一些参数：`mat`文件的位置，权重，学习率，代数以及输出中间图像的频率。对于权重，有助于在原始图像上高度加权样式图像。应根据所需结果的变化调整这些超参数：
+
+```py
+vgg_path = 'imagenet-vgg-verydeep-19.mat'
+original_image_weight = 5.0
+style_image_weight = 500.0
+regularization_weight = 100
+learning_rate = 10
+generations = 100
+output_generations = 25
+beta1 = 0.9
+beta2 = 0.999
+```
+
+1.  现在我们将使用`scipy`加载两个图像并更改样式图像以适合原始图像大小：
+
+```py
+original_image = imageio.imread(original_image_file)
+style_image = imageio.imread(style_image_file)
+
+# Get shape of target and make the style image the same
+target_shape = original_image.shape
+style_image = resize(style_image, target_shape)
+```
+
+1.  从论文中，我们可以按照它们出现的顺序定义层。我们将使用作者的命名约定：
+
+```py
+vgg_layers = ['conv1_1', 'relu1_1', 
+              'conv1_2', 'relu1_2', 'pool1', 
+              'conv2_1', 'relu2_1', 
+              'conv2_2', 'relu2_2', 'pool2', 
+              'conv3_1', 'relu3_1', 
+              'conv3_2', 'relu3_2', 
+              'conv3_3', 'relu3_3', 
+              'conv3_4', 'relu3_4', 'pool3', 
+              'conv4_1', 'relu4_1', 
+              'conv4_2', 'relu4_2', 
+              'conv4_3', 'relu4_3', 
+              'conv4_4', 'relu4_4', 'pool4', 
+              'conv5_1', 'relu5_1', 
+              'conv5_2', 'relu5_2', 
+              'conv5_3', 'relu5_3', 
+              'conv5_4', 'relu5_4'] 
+```
+
+1.  现在我们将定义一个从`mat`文件中提取参数的函数：
+
+```py
+def extract_net_info(path_to_params): 
+    vgg_data = scipy.io.loadmat(path_to_params) 
+    normalization_matrix = vgg_data['normalization'][0][0][0] 
+    mat_mean = np.mean(normalization_matrix, axis=(0,1)) 
+    network_weights = vgg_data['layers'][0] 
+    return mat_mean, network_weights
+```
+
+1.  根据加载的权重和`layer`定义，我们可以使用以下函数在 TensorFlow 中重新创建网络。我们将遍历每一层并使用适当的`weights`和`biases`分配相应的函数，如果适用：
+
+```py
+def vgg_network(network_weights, init_image): 
+    network = {} 
+    image = init_image 
+    for i, layer in enumerate(vgg_layers): 
+        if layer[1] == 'c': 
+            weights, bias = network_weights[i][0][0][0][0] 
+            weights = np.transpose(weights, (1, 0, 2, 3)) 
+            bias = bias.reshape(-1) 
+            conv_layer = tf.nn.conv2d(image, tf.constant(weights), (1, 1, 1, 1), 'SAME') 
+            image = tf.nn.bias_add(conv_layer, bias) 
+        elif layer[1] == 'r': 
+            image = tf.nn.relu(image) 
+        else: 
+            image = tf.nn.max_pool(image, (1, 2, 2, 1), (1, 2, 2, 1), 'SAME') 
+        network[layer] = image 
+    return(network)
+```
+
+1.  本文推荐了一些策略，用于将中间层分配给原始图像和样式图像。虽然我们应该为原始图像保留`relu4_2`，但我们可以为样式图像尝试其他`reluX_1`层输出的不同组合：
+
+```py
+original_layer = ['relu4_2'] 
+style_layers = ['relu1_1', 'relu2_1', 'relu3_1', 'relu4_1', 'relu5_1'] 
+```
+
+1.  接下来，我们将运行前面的函数来获取权重和均值。我们还需要均匀设置 VGG19 样式层权重。如果您愿意，可以通过更改权重进行实验。现在，我们假设它们对于两个层都是 0.5：
+
+```py
+# Get network parameters
+normalization_mean, network_weights = extract_net_info(vgg_path)
+shape = (1,) + original_image.shape
+style_shape = (1,) + style_image.shape
+original_features = {}
+style_features = {}
+
+# Set style weights
+style_weights = {l: 1./(len(style_layers)) for l in style_layers}
+```
+
+1.  为了忠实于原始图片外观，我们希望添加一个损失值，将内容/原始特征与原始内容特征进行比较。为此，我们加载 VGG19 模型并计算原始内容特征的内容/原始特征：
+
+```py
+g_original = tf.Graph()
+with g_original.as_default(), tf.Session() as sess1:
+    image = tf.placeholder('float', shape=shape)
+    vgg_net = vgg_network(network_weights, image)
+    original_minus_mean = original_image - normalization_mean
+    original_norm = np.array([original_minus_mean])
+    for layer in original_layers:
+        original_features[layer] = vgg_net[layer].eval(feed_dict={image: original_norm})
+```
+
+1.  与步骤 11 类似，我们希望将原始图像的样式特征更改为样式图片的样式特征。为此，我们将为损失函数添加样式损失值。此损失值需要查看我们预先确定的样式层中样式图像的值。我们还将通过单独的图运行此操作。我们按如下方式计算这些样式特征：
+
+```py
+# Get style image network
+g_style = tf.Graph()
+with g_style.as_default(), tf.Session() as sess2:
+    image = tf.placeholder('float', shape=style_shape)
+    vgg_net = vgg_network(network_weights, image)
+    style_minus_mean = style_image - normalization_mean
+    style_norm = np.array([style_minus_mean])
+    for layer in style_layers:
+        features = vgg_net[layer].eval(feed_dict={image: style_norm})
+        features = np.reshape(features, (-1, features.shape[3]))
+        gram = np.matmul(features.T, features) / features.size
+        style_features[layer] = gram 
+```
+
+1.  我们启动默认图来计算损失和训练步骤。首先，我们首先将随机图像初始化为 TensorFlow 变量：
+
+```py
+# Make Combined Image via loss function
+with tf.Graph().as_default():
+    # Get network parameters
+    initial = tf.random_normal(shape) * 0.256
+    init_image = tf.Variable(initial)
+    vgg_net = vgg_network(network_weights, init_image) 
+```
+
+1.  接下来，我们计算原始内容损失（将其缩进到默认图下）。这个损失部分将尽可能保持原始图像的结构完整：
+
+```py
+# Loss from Original Image
+original_layers_w = {'relu4_2': 0.5, 'relu5_2': 0.5}
+original_loss = 0
+for o_layer in original_layers:
+    temp_original_loss = original_layers_w[o_layer] * original_image_weight *\
+                (2 * tf.nn.l2_loss(vgg_net[o_layer] - original_features[o_layer]))
+    original_loss += (temp_original_loss / original_features[o_layer].size) 
+```
+
+1.  仍然在默认图缩进下，我们创建第二个损失项，即样式损失。此损失将比较我们预先计算的样式特征与输入图像的样式特征（随机初始化）：
+
+```py
+# Loss from Style Image
+style_loss = 0
+style_losses = []
+for style_layer in style_layers:
+    layer = vgg_net[style_layer]
+    feats, height, width, channels = [x.value for x in layer.get_shape()]
+    size = height * width * channels
+    features = tf.reshape(layer, (-1, channels))
+    style_gram_matrix = tf.matmul(tf.transpose(features), features) / size
+    style_expected = style_features[style_layer]
+    style_losses.append(style_weights[style_layer] * 2 *
+                        tf.nn.l2_loss(style_gram_matrix - style_expected) /
+                        style_expected.size)
+style_loss += style_image_weight * tf.reduce_sum(style_losses) 
+```
+
+1.  第三个也是最后一个损失条款将有助于平滑图像。我们在这里使用总变差损失来惩罚相邻像素的剧烈变化，如下所示：
+
+```py
+total_var_x = reduce(mul, init_image[:, 1:, :, :].get_shape().as_list(), 1)
+total_var_y = reduce(mul, init_image[:, :, 1:, :].get_shape().as_list(), 1)
+first_term = regularization_weight * 2
+second_term_numerator = tf.nn.l2_loss(init_image[:, 1:, :, :] - init_image[:, :shape[1]-1, :, :])
+second_term = second_term_numerator / total_var_y
+third_term = (tf.nn.l2_loss(init_image[:, :, 1:, :] - init_image[:, :, :shape[2]-1, :]) / total_var_x)
+total_variation_loss = first_term * (second_term + third_term)
+```
+
+1.  接下来，我们结合损失项并创建优化函数和训练步骤，如下所示：
+
+```py
+# Combined Loss
+loss = original_loss + style_loss + total_variation_loss
+
+# Declare Optimization Algorithm
+optimizer = tf.train.AdamOptimizer(learning_rate, beta1, beta2)
+train_step = optimizer.minimize(loss)
+```
+
+1.  现在我们运行训练步骤，保存中间图像，并保存最终输出图像，如下所示：
+
+```py
+# Initialize variables and start training
+with tf.Session() as sess:
+    tf.global_variables_initializer().run()
+    for i in range(generations):
+        train_step.run()
+
+        # Print update and save temporary output
+        if (i+1) % output_generations == 0:
+            print('Generation {} out of {}, loss: {}'.format(i + 1, generations, sess.run(loss)))
+            image_eval = init_image.eval()
+            best_image_add_mean = image_eval.reshape(shape[1:]) + normalization_mean
+            output_file = 'temp_output_{}.jpg'.format(i)
+            imageio.imwrite(output_file, best_image_add_mean.astype(np.uint8))
+
+    # Save final image
+    image_eval = init_image.eval()
+    best_image_add_mean = image_eval.reshape(shape[1:]) + normalization_mean
+    output_file = 'final_output.jpg'
+    scipy.misc.imsave(output_file, best_image_add_mean)
+```
+
+![](img/f26567a0-ae26-409e-87ee-2ef19c33567d.png)
+
+图 6：使用 Stylenet 算法将书籍封面图像与星夜相结合。请注意，可以通过更改脚本开头的权重来使用不同的样式重点
+
+## 工作原理
+
+我们首先加载两个图像，然后将预先训练的网络权重和指定的层加载到原始图像和样式图像。我们计算了三种损失函数：原始图像损失，样式损失和总变差损失。然后我们训练随机噪声图片以使用样式图像的样式和原始图像的内容。
+
+[损失函数受 GitHub 神经风格项目的影响很大](https://github.com/anishathalye/neural-style)。我们还强烈建议读者查看这些项目中的代码以获得改进，更多细节，以及通常更强大的算法，可以提供更好的结果。
+
+## 另见
+
+*   [Gatys，Ecker，Bethge 的艺术风格神经算法，2015](https://arxiv.org/abs/1508.06576)
+*   Leon Gatys 在 CVPR 2016（计算机视觉和模式识别）上的[一个很好的推荐视频](https://www.youtube.com/watch?v=UFffxcCQMPQ)
+
+# 实现 DeepDream
+
+受过训练的 CNN 的另一个用途是利用一些中间节点检测标签特征（例如，猫的耳朵或鸟的羽毛）的事实。利用这一事实，我们可以找到转换任何图像的方法，以反映我们选择的任何节点的节点特征。对于这个秘籍，我们将在 TensorFlow 的网站上浏览 DeepDream 教程，但我们将更详细地介绍基本部分。希望我们可以让读者准备好使用 DeepDream 算法来探索 CNN 及其中创建的特征。
+
+## 准备
+
+TensorFlow 的官方教程展示了如何通过脚本实现 DeepDream（请参阅下一节中的第一个要点）。这个方法的目的是通过他们提供的脚本并解释每一行。虽然教程很棒，但有些部分可以跳过，有些部分可以使用更多解释。我们希望提供更详细的逐行说明。我们还将在必要时使代码符合 Python3 标准。
+
+## 操作步骤
+
+执行以下步骤：
+
+1.  为了开始使用 DeepDream，我们需要下载在 CIFAR-1000 上接受过 CNN 训练的 GoogleNet：
+
+```py
+me@computer:~$ wget https://storage.googleapis.com/download.tensorflow.org/models/inception5h.zip  
+me@computer:~$ unzip inception5h.zip 
+```
+
+1.  我们首先加载必要的库并启动图会话：
+
+```py
+import os 
+import matplotlib.pyplot as plt 
+import numpy as np 
+import PIL.Image 
+import tensorflow as tf 
+from io import BytesIO 
+graph = tf.Graph() 
+sess = tf.InteractiveSession(graph=graph) 
+```
+
+1.  我们现在声明解压缩模型参数的位置（从步骤 1 开始）并将参数加载到 TensorFlow 图中：
+
+```py
+# Model location 
+model_fn = 'tensorflow_inception_graph.pb' 
+# Load graph parameters 
+with tf.gfile.FastGFile(model_fn, 'rb') as f: 
+    graph_def = tf.GraphDef() 
+    graph_def.ParseFromString(f.read()) 
+```
+
+1.  我们为输入创建一个占位符，保存 imagenet 平均值 117.0，然后使用正则化占位符导入图定义：
+
+```py
+# Create placeholder for input 
+t_input = tf.placeholder(np.float32, name='input') 
+# Imagenet average bias to subtract off images 
+imagenet_mean = 117.0 
+t_preprocessed = tf.expand_dims(t_input-imagenet_mean, 0) 
+tf.import_graph_def(graph_def, {'input':t_preprocessed})
+```
+
+1.  接下来，我们将导入卷积层，以便在以后可视化并使用它们进行 DeepDream 处理：
+
+```py
+# Create a list of layers that we can refer to later 
+layers = [op.name for op in graph.get_operations() if op.type=='Conv2D' and 'import/' in op.name] 
+# Count how many outputs for each layer 
+feature_nums = [int(graph.get_tensor_by_name(name+':0').get_shape()[-1]) for name in layers]
+```
+
+1.  现在我们将选择一个可视化的层。我们也可以通过名字选择其他人。我们选择查看特征号`139`。图像以随机噪声开始：
+
+```py
+layer = 'mixed4d_3x3_bottleneck_pre_relu' 
+channel = 139 
+img_noise = np.random.uniform(size=(224,224,3)) + 100.0 
+```
+
+1.  我们声明了一个绘制图像数组的函数：
+
+```py
+def showarray(a, fmt='jpeg'): 
+    # First make sure everything is between 0 and 255 
+    a = np.uint8(np.clip(a, 0, 1)*255) 
+    # Pick an in-memory format for image display 
+    f = BytesIO() 
+    # Create the in memory image 
+    PIL.Image.fromarray(a).save(f, fmt) 
+    # Show image 
+    plt.imshow(a) 
+```
+
+1.  我们将通过创建一个从图中按名称检索层的函数来缩短一些重复代码：
+
+```py
+def T(layer): #Helper for getting layer output tensor return graph.get_tensor_by_name("import/%s:0"%layer) 
+```
+
+1.  我们将创建的下一个函数是一个包装函数，用于根据我们指定的参数创建占位符：
+
+```py
+# The following function returns a function wrapper that will create the placeholder 
+# inputs of a specified dtype 
+def tffunc(*argtypes): 
+    '''Helper that transforms TF-graph generating function into a regular one. 
+    See "resize" function below. 
+    ''' 
+    placeholders = list(map(tf.placeholder, argtypes)) 
+    def wrap(f): 
+        out = f(*placeholders) 
+        def wrapper(*args, **kw): 
+            return out.eval(dict(zip(placeholders, args)), session=kw.get('session')) 
+        return wrapper 
+    return wrap
+```
+
+1.  我们还需要一个将图像大小调整为大小规格的函数。我们使用 TensorFlow 的内置图像线性插值函数：`tf.image.resize.bilinear()`
+
+```py
+# Helper function that uses TF to resize an image 
+def resize(img, size): 
+    img = tf.expand_dims(img, 0) 
+    # Change 'img' size by linear interpolation 
+    return tf.image.resize_bilinear(img, size)[0,:,:,:]
+```
+
+1.  现在我们需要一种方法来更新源图像，使其更像我们使用的特征。我们通过指定如何计算图像上的梯度来完成此操作。我们定义了一个函数，用于计算图像上子区域（图块）的梯度，以加快计算速度。为了防止平铺输出，我们将在`x`和`y`方向上随机移动或滚动图像，这将平滑平铺效果：
+
+```py
+def calc_grad_tiled(img, t_grad, tile_size=512): 
+    '''Compute the value of tensor t_grad over the image in a tiled way. 
+    Random shifts are applied to the image to blur tile boundaries over  
+    multiple iterations.''' 
+    # Pick a subregion square size 
+    sz = tile_size 
+    # Get the image height and width 
+    h, w = img.shape[:2] 
+    # Get a random shift amount in the x and y direction 
+    sx, sy = np.random.randint(sz, size=2) 
+    # Randomly shift the image (roll image) in the x and y directions 
+    img_shift = np.roll(np.roll(img, sx, 1), sy, 0) 
+    # Initialize the while image gradient as zeros 
+    grad = np.zeros_like(img) 
+    # Now we loop through all the sub-tiles in the image 
+    for y in range(0, max(h-sz//2, sz),sz): 
+        for x in range(0, max(w-sz//2, sz),sz): 
+            # Select the sub image tile 
+            sub = img_shift[y:y+sz,x:x+sz] 
+            # Calculate the gradient for the tile 
+            g = sess.run(t_grad, {t_input:sub}) 
+            # Apply the gradient of the tile to the whole image gradient 
+            grad[y:y+sz,x:x+sz] = g 
+    # Return the gradient, undoing the roll operation 
+    return np.roll(np.roll(grad, -sx, 1), -sy, 0)
+```
+
+1.  现在我们可以声明 DeepDream 函数。我们算法的目标是我们选择的特征的平均值。损耗在梯度上运行，这取决于输入图像和所选特征之间的距离。策略是将图像分成高频和低频，并计算低频部分的梯度。将得到的高频图像再次分开并重复该过程。原始图像和低频图像的集合称为`octaves`。对于每次传递，我们计算梯度并将它们应用于图像：
+
+```py
+def render_deepdream(t_obj, img0=img_noise, 
+                     iter_n=10, step=1.5, octave_n=4, octave_scale=1.4): 
+    # defining the optimization objective, the objective is the mean of the feature 
+    t_score = tf.reduce_mean(t_obj) 
+    # Our gradients will be defined as changing the t_input to get closer to the values of t_score.  Here, t_score is the mean of the feature we select. 
+    # t_input will be the image octave (starting with the last) 
+    t_grad = tf.gradients(t_score, t_input)[0] # behold the power of automatic differentiation! 
+    # Store the image 
+    img = img0 
+    # Initialize the image octave list 
+    octaves = [] 
+    # Since we stored the image, we need to only calculate n-1 octaves 
+    for i in range(octave_n-1): 
+        # Extract the image shape 
+        hw = img.shape[:2] 
+        # Resize the image, scale by the octave_scale (resize by linear interpolation) 
+        lo = resize(img, np.int32(np.float32(hw)/octave_scale)) 
+        # Residual is hi.  Where residual = image - (Resize lo to be hw-shape) 
+        hi = img-resize(lo, hw) 
+        # Save the lo image for re-iterating 
+        img = lo 
+        # Save the extracted hi-image 
+        octaves.append(hi) 
+
+    # generate details octave by octave 
+    for octave in range(octave_n): 
+        if octave>0: 
+            # Start with the last octave 
+            hi = octaves[-octave] 
+            # 
+            img = resize(img, hi.shape[:2])+hi 
+        for i in range(iter_n): 
+            # Calculate gradient of the image. 
+            g = calc_grad_tiled(img, t_grad) 
+            # Ideally, we would just add the gradient, g, but 
+            # we want do a forward step size of it ('step'), 
+            # and divide it by the avg. norm of the gradient, so 
+            # we are adding a gradient of a certain size each step. 
+            # Also, to make sure we aren't dividing by zero, we add 1e-7\. 
+            img += g*(step / (np.abs(g).mean()+1e-7)) 
+            print('.',end = ' ') 
+        showarray(img/255.0) 
+```
+
+1.  通过我们所做的所有特征设置，我们现在可以运行 DeepDream 算法：
+
+```py
+# Run Deep Dream 
+if __name__=="__main__": 
+    # Create resize function that has a wrapper that creates specified placeholder types 
+    resize = tffunc(np.float32, np.int32)(resize) 
+
+    # Open image 
+    img0 = PIL.Image.open('book_cover.jpg') 
+    img0 = np.float32(img0) 
+    # Show Original Image 
+    showarray(img0/255.0) 
+    # Create deep dream 
+    render_deepdream(T(layer)[:,:,:,139], img0, iter_n=15) 
+    sess.close() 
+```
+
+输出如下：
+
+![](img/07fcab05-6c73-4aeb-b2ed-a1330c65fa0d.png)
+
+图 7：本书的封面，贯穿 DeepDream 算法，其特征层编号为 50，110，100 和 139
+
+## 更多
+
+我们敦促读者使用 DeepDream 官方教程作为进一步信息的来源，并访问 DeepDream 上的原始 Google 研究博客文章（请参阅下面的第二个要点参见另见部分）。
+
+## 另见
+
+*   [DeepDream 上的 TensorFlow 教程](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/tutorials/deepdream)
+*   [关于 DeepDream 的最初 Google 研究博客文章](https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html)
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch09.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch09.md
new file mode 100644
index 00000000..424f4061
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch09.md
@@ -0,0 +1,1692 @@
+# 九、循环神经网络
+
+在本章中，我们将介绍循环神经网络（RNN）以及如何在 TensorFlow 中实现它们。我们将首先演示如何使用 RNN 来预测垃圾邮件。然后，我们将介绍一种用于创建莎士比亚文本的 RNN 变体。我们将通过创建 RNN 序列到序列模型来完成从英语到德语的翻译：
+
+*   实现 RNN 以进行垃圾邮件预测
+*   实现 LSTM 模型
+*   堆叠多个 LSTM 层
+*   创建序列到序列模型
+*   训练 Siamese 相似性度量
+
+本章的所有代码都可以在 [Github](https://github.com/nfmcclure/tensorflow_cookbook) 和 [Packt 在线仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)。
+
+# 介绍
+
+在迄今为止我们考虑过的所有机器学习算法中，没有人将数据视为序列。为了考虑序列数据，我们扩展了存储先前迭代输出的神经网络。这种类型的神经网络称为 RNN。考虑完全连接的网络秘籍：
+
+![](img/ab01cacf-e47e-4b82-90eb-09d12f96d06c.png)
+
+这里，权重由`A`乘以输入层`x`给出，然后通过激活函数`σ`，给出输出层`y`。
+
+如果我们有一系列输入数据`x[1], x[2], x[3], ...`，我们可以调整完全连接的层以考虑先前的输入，如下所示：
+
+![](img/fe9f65c6-64fa-4fcc-854b-c1fae403ead8.png)
+
+在此循环迭代之上获取下一个输入，我们希望得到概率分布输出，如下所示：
+
+![](img/e5a295eb-90c3-410e-877a-dc830cac4504.png)
+
+一旦我们有一个完整的序列输出`{S[1], S[2], S[3], ...}`，我们可以通过考虑最后的输出将目标视为数字或类别。有关通用架构的工作原理，请参见下图：
+
+![](img/1a80edbf-b1dc-47fc-a328-f4973493e260.png)
+
+图 1：为了预测单个数字或类别，我们采用一系列输入（标记）并将最终输出视为预测输出
+
+我们还可以将序列输出视为序列到序列模型中的输入：
+
+![](img/2b10596a-93d9-42b5-acdb-71e661e49650.png)
+
+图 2：为了预测序列，我们还可以将输出反馈到模型中以生成多个输出
+
+对于任意长序列，使用反向传播算法进行训练会产生长时间相关的梯度。因此，存在消失或爆炸的梯度问题。在本章的后面，我们将通过将 RNN 单元扩展为所谓的长短期记忆（LSTM）单元来探索该问题的解决方案。主要思想是 LSTM 单元引入另一个操作，称为门，它控制通过序列的信息流。我们将在后面的章节中详细介绍。
+
+> 在处理 NLP 的 RNN 模型时，编码是用于描述将数据（NLP 中的字或字符）转换为数字 RNN 特征的过程的术语。术语解码是将 RNN 数字特征转换为输出字或字符的过程。
+
+# 为垃圾邮件预测实现 RNN
+
+首先，我们将应用标准 RNN 单元来预测奇异数值输出，即垃圾邮件概率。
+
+## 准备
+
+在此秘籍中，我们将在 TensorFlow 中实现标准 RNN，以预测短信是垃圾邮件还是非垃圾邮件。我们将使用 UCI 的 ML 仓库中的 SMS 垃圾邮件收集数据集。我们将用于预测的架构将是来自嵌入文本的输入 RNN 序列，我们将最后的 RNN 输出作为垃圾邮件或非垃圾邮件（1 或 0）的预测。
+
+## 操作步骤
+
+1.  我们首先加载此脚本所需的库：
+
+```py
+import os 
+import re 
+import io 
+import requests 
+import numpy as np 
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+from zipfile import ZipFile 
+```
+
+1.  接下来，我们启动图会话并设置 RNN 模型参数。我们将通过`20`周期以`250`的批量大小运行数据。我们将考虑的每个文本的最大长度是`25`字；我们将更长的文本剪切为`25`或零填充短文本。 RNN 将是`10`单元。我们只考虑在词汇表中出现至少 10 次的单词，并且每个单词都将嵌入到可训练的大小`50`中。丢弃率将是我们可以在训练期间`0.5`或评估期间`1.0`设置的占位符：
+
+```py
+sess = tf.Session() 
+epochs = 20 
+batch_size = 250 
+max_sequence_length = 25 
+rnn_size = 10 
+embedding_size = 50 
+min_word_frequency = 10 
+learning_rate = 0.0005 
+dropout_keep_prob = tf.placeholder(tf.float32) 
+```
+
+1.  现在我们获取 SMS 文本数据。首先，我们检查它是否已经下载，如果是，请在文件中读取。否则，我们下载数据并保存：
+
+```py
+data_dir = 'temp' 
+data_file = 'text_data.txt' 
+if not os.path.exists(data_dir): 
+   os.makedirs(data_dir) 
+if not os.path.isfile(os.path.join(data_dir, data_file)): 
+    zip_url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip' 
+    r = requests.get(zip_url) 
+    z = ZipFile(io.BytesIO(r.content)) 
+    file = z.read('SMSSpamCollection') 
+    # Format Data 
+    text_data = file.decode() 
+    text_data = text_data.encode('ascii',errors='ignore') 
+    text_data = text_data.decode().split('\n') 
+    # Save data to text file 
+    with open(os.path.join(data_dir, data_file), 'w') as file_conn: 
+        for text in text_data: 
+            file_conn.write("{}\n".format(text)) 
+else: 
+    # Open data from text file 
+    text_data = [] 
+    with open(os.path.join(data_dir, data_file), 'r') as file_conn: 
+        for row in file_conn: 
+            text_data.append(row) 
+    text_data = text_data[:-1] 
+text_data = [x.split('\t') for x in text_data if len(x)>=1] 
+[text_data_target, text_data_train] = [list(x) for x in zip(*text_data)] 
+```
+
+1.  为了减少我们的词汇量，我们将通过删除特殊字符和额外的空格来清理输入文本，并将所有内容放在小写中：
+
+```py
+def clean_text(text_string):
+    text_string = re.sub(r'([^sw]|_|[0-9])+', '', text_string)
+    text_string = " ".join(text_string.split())
+    text_string = text_string.lower()
+    return text_string
+
+# Clean texts
+text_data_train = [clean_text(x) for x in text_data_train]
+```
+
+> 请注意，我们的清洁步骤会删除特殊字符作为替代方案，我们也可以用空格替换它们。理想情况下，这取决于数据集的格式。
+
+1.  现在我们使用 TensorFlow 的内置词汇处理器函数处理文本。这会将文本转换为适当的索引列表：
+
+```py
+vocab_processor = tf.contrib.learn.preprocessing.VocabularyProcessor(max_sequence_length,    min_frequency=min_word_frequency) 
+text_processed = np.array(list(vocab_processor.fit_transform(text_data_train))) 
+```
+
+> 请注意，`contrib.learn.preprocessing`中的函数目前已弃用（使用当前的 TensorFlow 版本，1.10）。目前的替换建议 TensorFlow 预处理包仅在 Python2 中运行。将 TensorFlow 预处理移至 Python3 的工作目前正在进行中，并将取代前两行。请记住，所有当前和最新的代码都可以在[这个 GitHub 页面](https://www.github.com/nfmcclure/tensorflow_cookbook)，和 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)找到。
+
+1.  接下来，我们打乱数据以使其随机化：
+
+```py
+text_processed = np.array(text_processed) 
+text_data_target = np.array([1 if x=='ham' else 0 for x in text_data_target]) 
+shuffled_ix = np.random.permutation(np.arange(len(text_data_target))) 
+x_shuffled = text_processed[shuffled_ix] 
+y_shuffled = text_data_target[shuffled_ix] 
+```
+
+1.  我们还将数据拆分为 80-20 训练测试数据集：
+
+```py
+ix_cutoff = int(len(y_shuffled)*0.80) 
+x_train, x_test = x_shuffled[:ix_cutoff], x_shuffled[ix_cutoff:] 
+y_train, y_test = y_shuffled[:ix_cutoff], y_shuffled[ix_cutoff:] 
+vocab_size = len(vocab_processor.vocabulary_) 
+print("Vocabulary Size: {:d}".format(vocab_size)) 
+print("80-20 Train Test split: {:d} -- {:d}".format(len(y_train), len(y_test)))
+```
+
+> 对于这个秘籍，我们不会进行任何超参数调整。如果读者朝这个方向前进，请记住在继续之前将数据集拆分为训练测试验证集。一个很好的选择是 Scikit-learn 函数`model_selection.train_test_split()`。
+
+1.  接下来，我们声明图占位符。`x`输入将是一个大小为`[None, max_sequence_length]`的占位符，它将是根据文本消息允许的最大字长的批量大小。对于非垃圾邮件或垃圾邮件，`y_output`占位符只是一个 0 或 1 的整数：
+
+```py
+x_data = tf.placeholder(tf.int32, [None, max_sequence_length]) 
+y_output = tf.placeholder(tf.int32, [None]) 
+```
+
+1.  我们现在为`x`输入数据创建嵌入矩阵和嵌入查找操作：
+
+```py
+embedding_mat = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0)) 
+embedding_output = tf.nn.embedding_lookup(embedding_mat, x_data) 
+```
+
+1.  我们将模型声明如下。首先，我们初始化一种要使用的 RNN 单元（RNN 大小为 10）。然后我们通过使其成为动态 RNN 来创建 RNN 序列。然后我们将退出添加到 RNN：
+
+```py
+cell = tf.nn.rnn_cell.BasicRNNCell(num_units = rnn_size)
+output, state = tf.nn.dynamic_rnn(cell, embedding_output, dtype=tf.float32)
+output = tf.nn.dropout(output, dropout_keep_prob)
+```
+
+> 注意，动态 RNN 允许可变长度序列。即使我们在这个例子中使用固定的序列长度，通常最好在 TensorFlow 中使用`dynamic_rnn`有两个主要原因。一个原因是，在实践中，动态 RNN 实际上运行速度更快；第二个是，如果我们选择，我们可以通过 RNN 运行不同长度的序列。
+
+1.  现在要得到我们的预测，我们必须重新安排 RNN 并切掉最后一个输出：
+
+```py
+output = tf.transpose(output, [1, 0, 2]) 
+last = tf.gather(output, int(output.get_shape()[0]) - 1) 
+```
+
+1.  为了完成 RNN 预测，我们通过完全连接的网络层将`rnn_size`输出转换为两个类别输出：
+
+```py
+weight = tf.Variable(tf.truncated_normal([rnn_size, 2], stddev=0.1)) 
+bias = tf.Variable(tf.constant(0.1, shape=[2])) 
+logits_out = tf.nn.softmax(tf.matmul(last, weight) + bias) 
+```
+
+1.  我们接下来宣布我们的损失函数。请记住，当使用 TensorFlow 中的`sparse_softmax`函数时，目标必须是整数索引（类型为`int`），并且对率必须是浮点数：
+
+```py
+losses = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits_out, labels=y_output) 
+loss = tf.reduce_mean(losses) 
+```
+
+1.  我们还需要一个精确度函数，以便我们可以比较测试和训练集上的算法：
+
+```py
+accuracy = tf.reduce_mean(tf.cast(tf.equal(tf.argmax(logits_out, 1), tf.cast(y_output, tf.int64)), tf.float32)) 
+```
+
+1.  接下来，我们创建优化函数并初始化模型变量：
+
+```py
+optimizer = tf.train.RMSPropOptimizer(learning_rate)
+train_step = optimizer.minimize(loss)
+init = tf.global_variables_initializer()
+sess.run(init) 
+```
+
+1.  现在我们可以开始循环遍历数据并训练模型。在多次循环数据时，最好在每个周期对数据进行洗牌以防止过度训练：
+
+```py
+train_loss = [] 
+test_loss = [] 
+train_accuracy = [] 
+test_accuracy = [] 
+# Start training 
+for epoch in range(epochs): 
+    # Shuffle training data 
+    shuffled_ix = np.random.permutation(np.arange(len(x_train))) 
+    x_train = x_train[shuffled_ix] 
+    y_train = y_train[shuffled_ix] 
+    num_batches = int(len(x_train)/batch_size) + 1 
+    for i in range(num_batches): 
+        # Select train data 
+        min_ix = i * batch_size 
+        max_ix = np.min([len(x_train), ((i+1) * batch_size)]) 
+        x_train_batch = x_train[min_ix:max_ix] 
+        y_train_batch = y_train[min_ix:max_ix] 
+
+        # Run train step 
+        train_dict = {x_data: x_train_batch, y_output: y_train_batch, dropout_keep_prob:0.5} 
+        sess.run(train_step, feed_dict=train_dict) 
+
+    # Run loss and accuracy for training 
+    temp_train_loss, temp_train_acc = sess.run([loss, accuracy], feed_dict=train_dict) 
+    train_loss.append(temp_train_loss) 
+    train_accuracy.append(temp_train_acc) 
+
+    # Run Eval Step 
+    test_dict = {x_data: x_test, y_output: y_test, dropout_keep_prob:1.0} 
+    temp_test_loss, temp_test_acc = sess.run([loss, accuracy], feed_dict=test_dict) 
+    test_loss.append(temp_test_loss) 
+    test_accuracy.append(temp_test_acc) 
+    print('Epoch: {}, Test Loss: {:.2}, Test Acc: {:.2}'.format(epoch+1, temp_test_loss, temp_test_acc)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Vocabulary Size: 933 
+80-20 Train Test split: 4459 -- 1115 
+Epoch: 1, Test Loss: 0.59, Test Acc: 0.83 
+Epoch: 2, Test Loss: 0.58, Test Acc: 0.83 
+...
+```
+
+```py
+Epoch: 19, Test Loss: 0.46, Test Acc: 0.86 
+Epoch: 20, Test Loss: 0.46, Test Acc: 0.86 
+```
+
+1.  以下是绘制训练/测试损失和准确率的代码：
+
+```py
+epoch_seq = np.arange(1, epochs+1) 
+plt.plot(epoch_seq, train_loss, 'k--', label='Train Set') 
+plt.plot(epoch_seq, test_loss, 'r-', label='Test Set') 
+plt.title('Softmax Loss') 
+plt.xlabel('Epochs') 
+plt.ylabel('Softmax Loss') 
+plt.legend(loc='upper left') 
+plt.show() 
+# Plot accuracy over time 
+plt.plot(epoch_seq, train_accuracy, 'k--', label='Train Set') 
+plt.plot(epoch_seq, test_accuracy, 'r-', label='Test Set') 
+plt.title('Test Accuracy') 
+plt.xlabel('Epochs') 
+plt.ylabel('Accuracy') 
+plt.legend(loc='upper left') 
+plt.show() 
+```
+
+## 工作原理
+
+在这个秘籍中，我们创建了一个 RNN 到类别的模型来预测 SMS 文本是垃圾邮件还是非垃圾邮件。我们在测试装置上实现了大约 86% 的准确率。以下是测试和训练集的准确率和损失图：
+
+![](img/84d3659e-1220-4f1a-8848-60a9052938c1.png)
+
+图 3：训练和测试集的准确率（左）和损失（右）
+
+## 更多
+
+强烈建议您多次浏览训练数据集以获取顺序数据（这也建议用于非顺序数据）。每次传递数据都称为周期。此外，在每个周期之前对数据进行混洗是非常常见的（并且强烈推荐），以最小化数据顺序对训练的影响。
+
+# 实现 LSTM 模型
+
+我们将扩展我们的 RNN 模型，以便通过在此秘籍中引入 LSTM 单元来使用更长的序列。
+
+## 准备
+
+长短期记忆（LSTM）是传统 RNN 的变体。 LSTM 是一种解决可变长度 RNN 所具有的消失/爆炸梯度问题的方法。为了解决这个问题，LSTM 单元引入了一个内部遗忘门，它可以修改从一个单元到下一个单元的信息流。为了概念化它的工作原理，我们将逐步介绍一个无偏置的 LSTM 方程式。第一步与常规 RNN 相同：
+
+![](img/a540a97f-aa33-4b1f-8682-8fcad8f96292.png)
+
+为了确定我们想要忘记或通过的值，我们将如下评估候选值。这些值通常称为存储单元：
+
+![](img/d658968e-1b1c-4871-a429-66c863b9c215.png)
+
+现在我们用一个遗忘矩阵修改候选存储单元，其计算方法如下：
+
+![](img/aa794cfb-e140-4c9b-9ea5-a9e1695b5f1d.png)
+
+我们现在将遗忘存储器与先前的存储器步骤相结合，并将其添加到候选存储器单元以获得新的存储器值：
+
+![](img/59210e39-f327-4604-a3e1-ebfe782c0818.png)
+
+现在我们将所有内容组合起来以获取单元格的输出：
+
+![](img/bf3b19f0-222e-42f8-8485-9b5c20a37249.png)
+
+然后，对于下一次迭代，我们更新`h`如下：
+
+![](img/c713765a-d0ce-449e-8195-02f5d1282218.png)
+
+LSTM 的想法是通过基于输入到单元的信息可以忘记或修改的单元具有自我调节的信息流。
+
+> 在这里使用 TensorFlow 的一个好处是我们不必跟踪这些操作及其相应的反向传播属性。 TensorFlow 将跟踪这些并根据我们的损失函数，优化器和学习率指定的梯度自动更新模型变量。
+
+对于这个秘籍，我们将使用具有 LSTM 单元的序列 RNN 来尝试预测接下来的单词，对莎士比亚的作品进行训练。为了测试我们的工作方式，我们将提供模型候选短语，例如`thou art more`，并查看模型是否可以找出短语后面应该包含的单词。
+
+## 操作步骤
+
+1.  首先，我们为脚本加载必要的库：
+
+```py
+import os 
+import re 
+import string 
+import requests 
+import numpy as np 
+import collections 
+import random 
+import pickle 
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+```
+
+1.  接下来，我们启动图会话并设置 RNN 参数：
+
+```py
+sess = tf.Session()
+
+# Set RNN Parameters 
+min_word_freq = 5 
+rnn_size = 128 
+epochs = 10 
+batch_size = 100 
+learning_rate = 0.001 
+training_seq_len = 50  
+embedding_size = rnn_size 
+save_every = 500 
+eval_every = 50 
+prime_texts = ['thou art more', 'to be or not to', 'wherefore art thou'] 
+```
+
+1.  我们设置数据和模型文件夹和文件名，同时声明要删除的标点符号。我们希望保留连字符和撇号，因为莎士比亚经常使用它们来组合单词和音节：
+
+```py
+data_dir = 'temp' 
+data_file = 'shakespeare.txt' 
+model_path = 'shakespeare_model' 
+full_model_dir = os.path.join(data_dir, model_path) 
+# Declare punctuation to remove, everything except hyphens and apostrophe's 
+punctuation = string.punctuation 
+punctuation = ''.join([x for x in punctuation if x not in ['-', "'"]]) 
+```
+
+1.  接下来，我们获取数据。如果数据文件不存在，我们下载并保存莎士比亚文本。如果确实存在，我们加载数据：
+
+```py
+if not os.path.exists(full_model_dir): 
+    os.makedirs(full_model_dir) 
+# Make data directory 
+if not os.path.exists(data_dir): 
+    os.makedirs(data_dir) 
+print('Loading Shakespeare Data') 
+# Check if file is downloaded. 
+if not os.path.isfile(os.path.join(data_dir, data_file)): 
+    print('Not found, downloading Shakespeare texts from www.gutenberg.org') 
+    shakespeare_url = 'http://www.gutenberg.org/cache/epub/100/pg100.txt' 
+    # Get Shakespeare text 
+    response = requests.get(shakespeare_url) 
+    shakespeare_file = response.content 
+    # Decode binary into string 
+    s_text = shakespeare_file.decode('utf-8') 
+    # Drop first few descriptive paragraphs. 
+    s_text = s_text[7675:] 
+    # Remove newlines 
+    s_text = s_text.replace('\r\n', '') 
+    s_text = s_text.replace('\n', '') 
+
+    # Write to file 
+    with open(os.path.join(data_dir, data_file), 'w') as out_conn: 
+        out_conn.write(s_text) 
+else: 
+    # If file has been saved, load from that file 
+    with open(os.path.join(data_dir, data_file), 'r') as file_conn: 
+        s_text = file_conn.read().replace('\n', '') 
+```
+
+1.  我们通过删除标点符号和额外的空格来清理莎士比亚的文本：
+
+```py
+s_text = re.sub(r'[{}]'.format(punctuation), ' ', s_text) 
+s_text = re.sub('s+', ' ', s_text ).strip().lower() 
+```
+
+1.  我们现在处理创建要使用的莎士比亚词汇。我们创建一个函数，它将返回两个字典（单词到索引和索引到单词），其中的单词出现的频率超过指定的频率：
+
+```py
+def build_vocab(text, min_word_freq): 
+    word_counts = collections.Counter(text.split(' ')) 
+    # limit word counts to those more frequent than cutoff 
+    word_counts = {key:val for key, val in word_counts.items() if val>min_word_freq} 
+    # Create vocab --> index mapping 
+    words = word_counts.keys() 
+    vocab_to_ix_dict = {key:(ix+1) for ix, key in enumerate(words)} 
+    # Add unknown key --> 0 index 
+    vocab_to_ix_dict['unknown']=0 
+    # Create index --> vocab mapping 
+    ix_to_vocab_dict = {val:key for key,val in vocab_to_ix_dict.items()} 
+
+    return ix_to_vocab_dict, vocab_to_ix_dict 
+ix2vocab, vocab2ix = build_vocab(s_text, min_word_freq) 
+vocab_size = len(ix2vocab) + 1
+```
+
+> 请注意，在处理文本时，我们必须小心索引值为零的单词。我们应该保存填充的零值，也可能保存未知单词。
+
+1.  现在我们有了词汇量，我们将莎士比亚的文本变成了一系列索引：
+
+```py
+s_text_words = s_text.split(' ') 
+s_text_ix = [] 
+for ix, x in enumerate(s_text_words): 
+    try: 
+        s_text_ix.append(vocab2ix[x]) 
+    except: 
+        s_text_ix.append(0) 
+s_text_ix = np.array(s_text_ix) 
+```
+
+1.  在本文中，我们将展示如何在类对象中创建模型。这对我们很有帮助，因为我们希望使用相同的模型（具有相同的权重）来批量训练并从示例文本生成文本。如果没有采用内部抽样方法的类，这将很难做到。理想情况下，此类代码应位于单独的 Python 文件中，我们可以在此脚本的开头导入该文件：
+
+```py
+class LSTM_Model(): 
+    def __init__(self, rnn_size, batch_size, learning_rate, 
+                 training_seq_len, vocab_size, infer =False): 
+        self.rnn_size = rnn_size 
+        self.vocab_size = vocab_size 
+        self.infer = infer 
+        self.learning_rate = learning_rate 
+
+        if infer: 
+            self.batch_size = 1 
+            self.training_seq_len = 1 
+        else: 
+            self.batch_size = batch_size 
+            self.training_seq_len = training_seq_len 
+
+        self.lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(rnn_size) 
+        self.initial_state = self.lstm_cell.zero_state(self.batch_size, tf.float32) 
+
+        self.x_data = tf.placeholder(tf.int32, [self.batch_size, self.training_seq_len]) 
+        self.y_output = tf.placeholder(tf.int32, [self.batch_size, self.training_seq_len]) 
+
+        with tf.variable_scope('lstm_vars'): 
+            # Softmax Output Weights 
+            W = tf.get_variable('W', [self.rnn_size, self.vocab_size], tf.float32, tf.random_normal_initializer()) 
+            b = tf.get_variable('b', [self.vocab_size], tf.float32, tf.constant_initializer(0.0)) 
+
+            # Define Embedding 
+            embedding_mat = tf.get_variable('embedding_mat', [self.vocab_size, self.rnn_size], tf.float32, tf.random_normal_initializer()) 
+
+            embedding_output = tf.nn.embedding_lookup(embedding_mat, self.x_data)
+            rnn_inputs = tf.split(embedding_output, num_or_size_splits=self.training_seq_len, axis=1) 
+            rnn_inputs_trimmed = [tf.squeeze(x, [1]) for x in rnn_inputs] 
+
+        # If we are inferring (generating text), we add a 'loop' function 
+        # Define how to get the i+1 th input from the i th output 
+        def inferred_loop(prev, count): 
+            prev_transformed = tf.matmul(prev, W) + b 
+            prev_symbol = tf.stop_gradient(tf.argmax(prev_transformed, 1)) 
+            output = tf.nn.embedding_lookup(embedding_mat, prev_symbol) 
+            return output 
+
+        decoder = tf.nn.seq2seq.rnn_decoder 
+        outputs, last_state = decoder(rnn_inputs_trimmed, 
+                                      self.initial_state, 
+                                      self.lstm_cell, 
+                                      loop_function=inferred_loop if infer else None) 
+        # Non inferred outputs 
+        output = tf.reshape(tf.concat(1, outputs), [-1, self.rnn_size]) 
+        # Logits and output 
+        self.logit_output = tf.matmul(output, W) + b 
+        self.model_output = tf.nn.softmax(self.logit_output) 
+        loss_fun = tf.contrib.legacy_seq2seq.sequence_loss_by_example
+        loss = loss_fun([self.logit_output],[tf.reshape(self.y_output, [-1])], 
+                [tf.ones([self.batch_size * self.training_seq_len])], 
+                self.vocab_size) 
+        self.cost = tf.reduce_sum(loss) / (self.batch_size * self.training_seq_len) 
+        self.final_state = last_state 
+        gradients, _ = tf.clip_by_global_norm(tf.gradients(self.cost, tf.trainable_variables()), 4.5) 
+        optimizer = tf.train.AdamOptimizer(self.learning_rate) 
+        self.train_op = optimizer.apply_gradients(zip(gradients, tf.trainable_variables())) 
+
+    def sample(self, sess, words=ix2vocab, vocab=vocab2ix, num=10, prime_text='thou art'): 
+        state = sess.run(self.lstm_cell.zero_state(1, tf.float32)) 
+        word_list = prime_text.split() 
+        for word in word_list[:-1]: 
+            x = np.zeros((1, 1)) 
+            x[0, 0] = vocab[word] 
+            feed_dict = {self.x_data: x, self.initial_state:state} 
+            [state] = sess.run([self.final_state], feed_dict=feed_dict) 
+        out_sentence = prime_text 
+        word = word_list[-1] 
+        for n in range(num): 
+            x = np.zeros((1, 1)) 
+            x[0, 0] = vocab[word] 
+            feed_dict = {self.x_data: x, self.initial_state:state} 
+            [model_output, state] = sess.run([self.model_output, self.final_state], feed_dict=feed_dict) 
+            sample = np.argmax(model_output[0]) 
+            if sample == 0: 
+                break 
+            word = words[sample] 
+            out_sentence = out_sentence + ' ' + word 
+        return out_sentence 
+```
+
+1.  现在我们将声明 LSTM 模型以及测试模型。我们将在变量范围内执行此操作，并告诉范围我们将重用测试 LSTM 模型的变量：
+
+```py
+with tf.variable_scope('lstm_model', reuse=tf.AUTO_REUSE) as scope: 
+    # Define LSTM Model 
+    lstm_model = LSTM_Model(rnn_size, batch_size, learning_rate, 
+                     training_seq_len, vocab_size) 
+    scope.reuse_variables() 
+    test_lstm_model = LSTM_Model(rnn_size, batch_size, learning_rate, 
+                     training_seq_len, vocab_size, infer=True) 
+```
+
+1.  我们创建一个保存操作，并将输入文本拆分为相等的批量大小的块。然后我们初始化模型的变量：
+
+```py
+saver = tf.train.Saver() 
+# Create batches for each epoch 
+num_batches = int(len(s_text_ix)/(batch_size * training_seq_len)) + 1 
+# Split up text indices into subarrays, of equal size 
+batches = np.array_split(s_text_ix, num_batches) 
+# Reshape each split into [batch_size, training_seq_len] 
+batches = [np.resize(x, [batch_size, training_seq_len]) for x in batches] 
+# Initialize all variables 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  我们现在可以遍历我们的周期，在每个周期开始之前对数据进行混洗。我们数据的目标只是相同的数据，但是移动了 1（使用`numpy.roll()`函数）：
+
+```py
+train_loss = [] 
+iteration_count = 1 
+for epoch in range(epochs): 
+    # Shuffle word indices 
+    random.shuffle(batches) 
+    # Create targets from shuffled batches 
+    targets = [np.roll(x, -1, axis=1) for x in batches] 
+    # Run a through one epoch 
+    print('Starting Epoch #{} of {}.'.format(epoch+1, epochs)) 
+    # Reset initial LSTM state every epoch 
+    state = sess.run(lstm_model.initial_state) 
+    for ix, batch in enumerate(batches): 
+        training_dict = {lstm_model.x_data: batch, lstm_model.y_output: targets[ix]} 
+        c, h = lstm_model.initial_state 
+        training_dict[c] = state.c 
+        training_dict[h] = state.h 
+
+        temp_loss, state, _ = sess.run([lstm_model.cost, lstm_model.final_state, lstm_model.train_op], feed_dict=training_dict) 
+        train_loss.append(temp_loss) 
+
+        # Print status every 10 gens 
+        if iteration_count % 10 == 0: 
+            summary_nums = (iteration_count, epoch+1, ix+1, num_batches+1, temp_loss) 
+            print('Iteration: {}, Epoch: {}, Batch: {} out of {}, Loss: {:.2f}'.format(*summary_nums)) 
+
+        # Save the model and the vocab 
+        if iteration_count % save_every == 0: 
+            # Save model 
+            model_file_name = os.path.join(full_model_dir, 'model') 
+            saver.save(sess, model_file_name, global_step = iteration_count) 
+            print('Model Saved To: {}'.format(model_file_name)) 
+            # Save vocabulary 
+            dictionary_file = os.path.join(full_model_dir, 'vocab.pkl') 
+            with open(dictionary_file, 'wb') as dict_file_conn: 
+                pickle.dump([vocab2ix, ix2vocab], dict_file_conn) 
+
+        if iteration_count % eval_every == 0: 
+            for sample in prime_texts: 
+                print(test_lstm_model.sample(sess, ix2vocab, vocab2ix, num=10, prime_text=sample)) 
+
+        iteration_count += 1 
+```
+
+1.  这产生以下输出：
+
+```py
+Loading Shakespeare Data 
+Cleaning Text 
+Building Shakespeare Vocab 
+Vocabulary Length = 8009 
+Starting Epoch #1 of 10\. 
+Iteration: 10, Epoch: 1, Batch: 10 out of 182, Loss: 10.37 
+Iteration: 20, Epoch: 1, Batch: 20 out of 182, Loss: 9.54 
+... 
+Iteration: 1790, Epoch: 10, Batch: 161 out of 182, Loss: 5.68 
+Iteration: 1800, Epoch: 10, Batch: 171 out of 182, Loss: 6.05 
+thou art more than i am a 
+to be or not to the man i have 
+wherefore art thou art of the long 
+Iteration: 1810, Epoch: 10, Batch: 181 out of 182, Loss: 5.99 
+```
+
+1.  最后，以下是我们如何绘制历史上的训练损失：
+
+```py
+plt.plot(train_loss, 'k-') 
+plt.title('Sequence to Sequence Loss') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.show() 
+```
+
+This results in the following plot of our loss values:
+
+![](img/678ff2b5-2732-4bc7-b85f-3fee578fb962.png)
+
+图 4：模型所有代的序列到序列损失
+
+## 工作原理
+
+在这个例子中，我们基于莎士比亚词汇构建了一个带有 LSTM 单元的 RNN 模型来预测下一个单词。可以采取一些措施来改进模型，可能会增加序列大小，具有衰减的学习率，或者训练模型以获得更多的周期。
+
+## 更多
+
+为了抽样，我们实现了一个贪婪的采样器。贪婪的采样器可能会一遍又一遍地重复相同的短语；例如，他们可能会卡住`for the for the` `for the....`为了防止这种情况，我们还可以实现一种更随机的采样方式，可能是根据输出的对数或概率分布制作加权采样器。
+
+# 堆叠多个 LSTM 层
+
+正如我们可以增加神经网络或 CNN 的深度，我们可以增加 RNN 网络的深度。在这个秘籍中，我们应用了一个三层深度的 LSTM 来改进我们的莎士比亚语言生成。
+
+## 准备
+
+我们可以通过将它们叠加在一起来增加循环神经网络的深度。从本质上讲，我们将获取目标输出并将其输入另一个网络。
+
+要了解这对于两层的工作原理，请参见下图：
+
+![](img/89cc9e5c-d9d8-403c-8656-6d2a23f69f83.png)
+
+图 5：在上图中，我们扩展了单层 RNN，使它们具有两层。对于原始的单层版本，请参阅上一章简介中的绘图。左侧架构说明了使用多层 RNN 预测输出序列中的一个输出的方法。正确的架构显示了使用多层 RNN 预测输出序列的方法，该输出序列使用输出作为输入
+
+TensorFlow 允许使用`MultiRNNCell()`函数轻松实现多个层，该函数接受 RNN 单元列表。有了这种行为，很容易用`MultiRNNCell([rnn_cell(num_units) for n in num_layers])`单元格从 Python 中的一个单元格创建多层 RNN。
+
+对于这个秘籍，我们将执行我们在之前的秘籍中执行的相同的莎士比亚预测。将有两个变化：第一个变化将是具有三个堆叠的 LSTM 模型而不是仅一个层，第二个变化将是进行字符级预测而不是单词。进行字符级预测会将我们潜在的词汇量大大减少到只有 40 个字符（26 个字母，10 个数字，1 个空格和 3 个特殊字符）。
+
+## 操作步骤
+
+我们将说明本节中的代码与上一节的不同之处，而不是重新使用所有相同的代码。有关完整代码，请参阅 [GitHub 仓库](https://github.com/nfmcclure/tensorflow_cookbook)或 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)。
+
+1.  我们首先需要设置模型的层数。我们将此作为参数放在脚本的开头，并使用其他模型参数：
+
+```py
+num_layers = 3 
+min_word_freq = 5
+```
+
+```py
+rnn_size = 128 
+epochs = 10 
+```
+
+1.  第一个主要变化是我们将按字符加载，处理和提供文本，而不是按字词加载。为了实现这一点，在清理文本之后，我们可以使用 Python 的`list()`命令逐个字符地分隔整个文本：
+
+```py
+s_text = re.sub(r'[{}]'.format(punctuation), ' ', s_text) 
+s_text = re.sub('s+', ' ', s_text ).strip().lower() 
+# Split up by characters 
+char_list = list(s_text) 
+```
+
+1.  我们现在需要更改 LSTM 模型，使其具有多个层。我们接受`num_layers`变量并使用 TensorFlow 的`MultiRNNCell()`函数创建一个多层 RNN 模型，如下所示：
+
+```py
+class LSTM_Model(): 
+    def __init__(self, rnn_size, num_layers, batch_size, learning_rate, 
+                 training_seq_len, vocab_size, infer_sample=False): 
+        self.rnn_size = rnn_size 
+        self.num_layers = num_layers 
+        self.vocab_size = vocab_size 
+        self.infer_sample = infer_sample 
+        self.learning_rate = learning_rate 
+        ... 
+
+        self.lstm_cell = tf.contrib.rnn.BasicLSTMCell(rnn_size)
+        self.lstm_cell = tf.contrib.rnn.MultiRNNCell([self.lstm_cell for _ in range(self.num_layers)]) 
+        self.initial_state = self.lstm_cell.zero_state(self.batch_size, tf.float32) 
+
+        self.x_data = tf.placeholder(tf.int32, [self.batch_size, self.training_seq_len]) 
+        self.y_output = tf.placeholder(tf.int32, [self.batch_size, self.training_seq_len])
+```
+
+> 请注意，TensorFlow 的`MultiRNNCell()`函数接受 RNN 单元列表。在这个项目中，RNN 层都是相同的，但您可以列出您希望堆叠在一起的任何 RNN 层。
+
+1.  其他一切基本相同。在这里，我们可以看到一些训练输出：
+
+```py
+Building Shakespeare Vocab by Characters 
+Vocabulary Length = 40 
+Starting Epoch #1 of 10 
+Iteration: 9430, Epoch: 10, Batch: 889 out of 950, Loss: 1.54 
+Iteration: 9440, Epoch: 10, Batch: 899 out of 950, Loss: 1.46 
+Iteration: 9450, Epoch: 10, Batch: 909 out of 950, Loss: 1.49 
+thou art more than the  
+to be or not to the serva 
+wherefore art thou dost thou 
+Iteration: 9460, Epoch: 10, Batch: 919 out of 950, Loss: 1.41 
+Iteration: 9470, Epoch: 10, Batch: 929 out of 950, Loss: 1.45 
+Iteration: 9480, Epoch: 10, Batch: 939 out of 950, Loss: 1.59 
+Iteration: 9490, Epoch: 10, Batch: 949 out of 950, Loss: 1.42 
+```
+
+1.  以下是最终文本输出的示例：
+
+```py
+thou art more fancy with to be or not to be for be wherefore art thou art thou 
+```
+
+1.  最后，以下是我们如何绘制几代的训练损失：
+
+```py
+plt.plot(train_loss, 'k-') 
+plt.title('Sequence to Sequence Loss') 
+plt.xlabel('Generation') 
+plt.ylabel('Loss') 
+plt.show() 
+```
+
+![](img/c9aa6cf7-c514-4cbe-bbfb-d815dbbb07b1.png)
+
+图 6：多层 LSTM 莎士比亚模型的训练损失与世代的关系图
+
+## 工作原理
+
+TensorFlow 只需一个 RNN 单元列表即可轻松将 RNN 层扩展到多个层。对于这个秘籍，我们使用与上一个秘籍相同的莎士比亚数据，但是用字符而不是单词处理它。我们通过三层 LSTM 模型来生成莎士比亚文本。我们可以看到，在仅仅 10 个周期之后，我们就能够以文字的形式产生古老的英语。
+
+# 创建序列到序列模型
+
+由于我们使用的每个 RNN 单元也都有输出，我们可以训练 RNN 序列来预测其他可变长度的序列。对于这个秘籍，我们将利用这一事实创建一个英语到德语的翻译模型。
+
+## 准备
+
+对于这个秘籍，我们将尝试构建一个语言翻译模型，以便从英语翻译成德语。
+
+TensorFlow 具有用于序列到序列训练的内置模型类。我们将说明如何在下载的英语 - 德语句子上训练和使用它。我们将使用的数据来自 [www.manythings.org](http://www.manythings.org/) 的编译 zip 文件，该文件汇编了 [Tatoeba 项目](http://tatoeba.org/home) 的数据。这些数据是制表符分隔的英语 - 德语句子翻译；例如，一行可能包含句子`hello. /t hallo`。该数据包含数千种不同长度的句子。
+
+此部分的代码已升级为使用 [TensorFlow 官方仓库提供的神经机器翻译模型](https://github.com/tensorflow/nmt)。
+
+该项目将向您展示如何下载数据，使用，修改和添加到超参数，以及配置您自己的数据以使用项目文件。
+
+虽然官方教程向您展示了如何通过命令行执行此操作，但本教程将向您展示如何使用提供的内部代码从头开始训练您自己的模型。
+
+## 操作步骤
+
+1.  我们首先加载必要的库：
+
+```py
+import os
+import re
+import sys
+import json
+import math
+import time
+import string
+import requests
+import io
+import numpy as np
+import collections
+import random
+import pickle
+import string
+import matplotlib.pyplot as plt
+import tensorflow as tf
+from zipfile import ZipFile
+from collections import Counter
+from tensorflow.python.ops import lookup_ops
+from tensorflow.python.framework import ops
+ops.reset_default_graph()
+
+local_repository = 'temp/seq2seq'
+```
+
+1.  以下代码块将整个 NMT 模型仓库导入`temp`文件夹：
+
+```py
+if not os.path.exists(local_repository):
+ from git import Repo
+ tf_model_repository = 'https://github.com/tensorflow/nmt/'
+ Repo.clone_from(tf_model_repository, local_repository)
+ sys.path.insert(0, 'temp/seq2seq/nmt/')
+
+# May also try to use 'attention model' by importing the attention model:
+# from temp.seq2seq.nmt import attention_model as attention_model
+from temp.seq2seq.nmt import model as model
+from temp.seq2seq.nmt.utils import vocab_utils as vocab_utils
+import temp.seq2seq.nmt.model_helper as model_helper
+import temp.seq2seq.nmt.utils.iterator_utils as iterator_utils
+import temp.seq2seq.nmt.utils.misc_utils as utils
+import temp.seq2seq.nmt.train as train
+```
+
+1.  接下来，我们设置一些关于词汇量大小，我们将删除的标点符号以及数据存储位置的参数：
+
+```py
+# Model Parameters
+vocab_size = 10000
+punct = string.punctuation
+
+# Data Parameters
+data_dir = 'temp'
+data_file = 'eng_ger.txt'
+model_path = 'seq2seq_model'
+full_model_dir = os.path.join(data_dir, model_path)
+```
+
+1.  我们将使用 TensorFlow 提供的超参数格式。这种类型的参数存储（在外部`json`或`xml`文件中）允许我们以编程方式迭代不同类型的架构（在不同的文件中）。对于本演示，我们将使用提供给我们的`wmt16.json`并进行一些更改：
+
+```py
+# Load hyper-parameters for translation model. (Good defaults are provided in Repository).
+hparams = tf.contrib.training.HParams()
+param_file = 'temp/seq2seq/nmt/standard_hparams/wmt16.json'
+# Can also try: (For different architectures)
+# 'temp/seq2seq/nmt/standard_hparams/iwslt15.json'
+# 'temp/seq2seq/nmt/standard_hparams/wmt16_gnmt_4_layer.json',
+# 'temp/seq2seq/nmt/standard_hparams/wmt16_gnmt_8_layer.json',
+
+with open(param_file, "r") as f:
+    params_json = json.loads(f.read())
+
+for key, value in params_json.items():
+    hparams.add_hparam(key, value)
+hparams.add_hparam('num_gpus', 0)
+hparams.add_hparam('num_encoder_layers', hparams.num_layers)
+hparams.add_hparam('num_decoder_layers', hparams.num_layers)
+hparams.add_hparam('num_encoder_residual_layers', 0)
+hparams.add_hparam('num_decoder_residual_layers', 0)
+hparams.add_hparam('init_op', 'uniform')
+hparams.add_hparam('random_seed', None)
+hparams.add_hparam('num_embeddings_partitions', 0)
+hparams.add_hparam('warmup_steps', 0)
+hparams.add_hparam('length_penalty_weight', 0)
+hparams.add_hparam('sampling_temperature', 0.0)
+hparams.add_hparam('num_translations_per_input', 1)
+hparams.add_hparam('warmup_scheme', 't2t')
+hparams.add_hparam('epoch_step', 0)
+hparams.num_train_steps = 5000
+
+# Not use any pretrained embeddings
+hparams.add_hparam('src_embed_file', '')
+hparams.add_hparam('tgt_embed_file', '')
+hparams.add_hparam('num_keep_ckpts', 5)
+hparams.add_hparam('avg_ckpts', False)
+
+# Remove attention
+hparams.attention = None 
+```
+
+1.  如果模型和数据目录尚不存在，请创建它们：
+
+```py
+# Make Model Directory
+if not os.path.exists(full_model_dir):
+    os.makedirs(full_model_dir)
+
+# Make data directory
+if not os.path.exists(data_dir):
+    os.makedirs(data_dir)
+```
+
+1.  现在我们删除标点符号并将翻译数据拆分为英语和德语句子的单词列表：
+
+```py
+print('Loading English-German Data')
+# Check for data, if it doesn't exist, download it and save it
+if not os.path.isfile(os.path.join(data_dir, data_file)):
+    print('Data not found, downloading Eng-Ger sentences from www.manythings.org')
+    sentence_url = 'http://www.manythings.org/anki/deu-eng.zip'
+    r = requests.get(sentence_url)
+    z = ZipFile(io.BytesIO(r.content))
+    file = z.read('deu.txt')
+    # Format Data
+    eng_ger_data = file.decode('utf-8')
+    eng_ger_data = eng_ger_data.encode('ascii', errors='ignore')
+    eng_ger_data = eng_ger_data.decode().split('\n')
+    # Write to file
+    with open(os.path.join(data_dir, data_file), 'w') as out_conn:
+        for sentence in eng_ger_data:
+            out_conn.write(sentence + '\n')
+else:
+    eng_ger_data = []
+    with open(os.path.join(data_dir, data_file), 'r') as in_conn:
+        for row in in_conn:
+            eng_ger_data.append(row[:-1])
+print('Done!') 
+```
+
+1.  现在我们删除英语和德语句子的标点符号：
+
+```py
+# Remove punctuation
+eng_ger_data = [''.join(char for char in sent if char not in punct) for sent in eng_ger_data]
+# Split each sentence by tabs 
+eng_ger_data = [x.split('\t') for x in eng_ger_data if len(x) >= 1]
+[english_sentence, german_sentence] = [list(x) for x in zip(*eng_ger_data)]
+english_sentence = [x.lower().split() for x in english_sentence]
+german_sentence = [x.lower().split() for x in german_sentence]
+```
+
+1.  为了使用 TensorFlow 中更快的数据管道函数，我们需要以适当的格式将格式化的数据写入磁盘。翻译模型期望的格式如下：
+
+```py
+train_prefix.source_suffix = train.en
+ train_prefix.target_suffix = train.de
+```
+
+后缀将决定语言（`en = English`，`de = deutsch`），前缀决定数据集的类型（训练或测试）：
+
+```py
+# We need to write them to separate text files for the text-line-dataset operations.
+train_prefix = 'train'
+src_suffix = 'en' # English
+tgt_suffix = 'de' # Deutsch (German)
+source_txt_file = train_prefix + '.' + src_suffix
+hparams.add_hparam('src_file', source_txt_file)
+target_txt_file = train_prefix + '.' + tgt_suffix
+hparams.add_hparam('tgt_file', target_txt_file)
+with open(source_txt_file, 'w') as f:
+    for sent in english_sentence:
+        f.write(' '.join(sent) + '\n')
+
+with open(target_txt_file, 'w') as f:
+    for sent in german_sentence:
+        f.write(' '.join(sent) + '\n')
+```
+
+1.  接下来，我们需要解析一些（~100）测试句子翻译。我们任意选择大约 100 个句子。然后我们也将它们写入适当的文件：
+
+```py
+# Partition some sentences off for testing files
+test_prefix = 'test_sent'
+hparams.add_hparam('dev_prefix', test_prefix)
+hparams.add_hparam('train_prefix', train_prefix)
+hparams.add_hparam('test_prefix', test_prefix)
+hparams.add_hparam('src', src_suffix)
+hparams.add_hparam('tgt', tgt_suffix)
+
+num_sample = 100
+total_samples = len(english_sentence)
+# Get around 'num_sample's every so often in the src/tgt sentences
+ix_sample = [x for x in range(total_samples) if x % (total_samples // num_sample) == 0]
+test_src = [' '.join(english_sentence[x]) for x in ix_sample]
+test_tgt = [' '.join(german_sentence[x]) for x in ix_sample]
+
+# Write test sentences to file
+with open(test_prefix + '.' + src_suffix, 'w') as f:
+    for eng_test in test_src:
+        f.write(eng_test + '\n')
+
+with open(test_prefix + '.' + tgt_suffix, 'w') as f:
+    for ger_test in test_src:
+        f.write(ger_test + '\n')
+```
+
+1.  接下来，我们处理英语和德语句子的词汇表。然后我们将词汇表列表保存到适当的文件中：
+
+```py
+print('Processing the vocabularies.')
+# Process the English Vocabulary
+all_english_words = [word for sentence in english_sentence for word in sentence]
+all_english_counts = Counter(all_english_words)
+eng_word_keys = [x[0] for x in all_english_counts.most_common(vocab_size-3)] # -3 because UNK, S, /S is also in there
+eng_vocab2ix = dict(zip(eng_word_keys, range(1, vocab_size)))
+eng_ix2vocab = {val: key for key, val in eng_vocab2ix.items()}
+english_processed = []
+for sent in english_sentence:
+    temp_sentence = []
+    for word in sent:
+        try:
+            temp_sentence.append(eng_vocab2ix[word])
+        except KeyError:
+            temp_sentence.append(0)
+    english_processed.append(temp_sentence)
+
+# Process the German Vocabulary
+all_german_words = [word for sentence in german_sentence for word in sentence]
+all_german_counts = Counter(all_german_words)
+ger_word_keys = [x[0] for x in all_german_counts.most_common(vocab_size-3)]
+# -3 because UNK, S, /S is also in there
+ger_vocab2ix = dict(zip(ger_word_keys, range(1, vocab_size)))
+ger_ix2vocab = {val: key for key, val in ger_vocab2ix.items()}
+german_processed = []
+for sent in german_sentence:
+    temp_sentence = []
+    for word in sent:
+        try:
+            temp_sentence.append(ger_vocab2ix[word])
+        except KeyError:
+            temp_sentence.append(0)
+    german_processed.append(temp_sentence)
+
+# Save vocab files for data processing
+source_vocab_file = 'vocab' + '.' + src_suffix
+hparams.add_hparam('src_vocab_file', source_vocab_file)
+eng_word_keys = ['<unk>', '<s>', '</s>'] + eng_word_keys
+
+target_vocab_file = 'vocab' + '.' + tgt_suffix
+hparams.add_hparam('tgt_vocab_file', target_vocab_file)
+ger_word_keys = ['<unk>', '<s>', '</s>'] + ger_word_keys
+
+# Write out all unique english words
+with open(source_vocab_file, 'w') as f:
+    for eng_word in eng_word_keys:
+        f.write(eng_word + '\n')
+
+# Write out all unique german words
+with open(target_vocab_file, 'w') as f:
+    for ger_word in ger_word_keys:
+        f.write(ger_word + '\n')
+
+# Add vocab size to hyper parameters
+hparams.add_hparam('src_vocab_size', vocab_size)
+hparams.add_hparam('tgt_vocab_size', vocab_size)
+
+# Add out-directory
+out_dir = 'temp/seq2seq/nmt_out'
+hparams.add_hparam('out_dir', out_dir)
+if not tf.gfile.Exists(out_dir):
+    tf.gfile.MakeDirs(out_dir)
+```
+
+1.  接下来，我们将分别创建训练，推断和评估图。首先，我们创建训练图。我们用一个类来做这个并将参数设为`namedtuple`。此代码来自 NMT TensorFlow 仓库。有关更多信息，请参阅名为`model_helper.py`的仓库中的文件：
+
+```py
+class TrainGraph(collections.namedtuple("TrainGraph", ("graph", "model", "iterator", "skip_count_placeholder"))):
+    pass
+
+def create_train_graph(scope=None):
+    graph = tf.Graph()
+    with graph.as_default():
+        src_vocab_table, tgt_vocab_table = vocab_utils.create_vocab_tables(hparams.src_vocab_file, hparams.tgt_vocab_file,share_vocab=False)
+
+    src_dataset = tf.data.TextLineDataset(hparams.src_file)
+    tgt_dataset = tf.data.TextLineDataset(hparams.tgt_file)
+    skip_count_placeholder = tf.placeholder(shape=(), dtype=tf.int64)
+
+    iterator = iterator_utils.get_iterator(src_dataset, tgt_dataset, src_vocab_table, tgt_vocab_table, batch_size=hparams.batch_size, sos=hparams.sos, eos=hparams.eos, random_seed=None, num_buckets=hparams.num_buckets, src_max_len=hparams.src_max_len, tgt_max_len=hparams.tgt_max_len, skip_count=skip_count_placeholder)
+
+ final_model = model.Model(hparams, iterator=iterator, mode=tf.contrib.learn.ModeKeys.TRAIN, source_vocab_table=src_vocab_table, target_vocab_table=tgt_vocab_table, scope=scope)
+
+ return TrainGraph(graph=graph, model=final_model, iterator=iterator, skip_count_placeholder=skip_count_placeholder)
+
+train_graph = create_train_graph()
+```
+
+1.  我们现在创建评估图：
+
+```py
+# Create the evaluation graph
+class EvalGraph(collections.namedtuple("EvalGraph", ("graph", "model", "src_file_placeholder", "tgt_file_placeholder","iterator"))):
+    pass
+
+def create_eval_graph(scope=None):
+    graph = tf.Graph()
+
+    with graph.as_default():
+        src_vocab_table, tgt_vocab_table = vocab_utils.create_vocab_tables(
+            hparams.src_vocab_file, hparams.tgt_vocab_file, hparams.share_vocab)
+        src_file_placeholder = tf.placeholder(shape=(), dtype=tf.string)
+        tgt_file_placeholder = tf.placeholder(shape=(), dtype=tf.string)
+        src_dataset = tf.data.TextLineDataset(src_file_placeholder)
+        tgt_dataset = tf.data.TextLineDataset(tgt_file_placeholder)
+        iterator = iterator_utils.get_iterator(
+            src_dataset,
+            tgt_dataset,
+            src_vocab_table,
+            tgt_vocab_table,
+            hparams.batch_size,
+            sos=hparams.sos,
+            eos=hparams.eos,
+            random_seed=hparams.random_seed,
+            num_buckets=hparams.num_buckets,
+            src_max_len=hparams.src_max_len_infer,
+            tgt_max_len=hparams.tgt_max_len_infer)
+        final_model = model.Model(hparams,
+                                  iterator=iterator,
+                                  mode=tf.contrib.learn.ModeKeys.EVAL,
+                                  source_vocab_table=src_vocab_table,
+                                  target_vocab_table=tgt_vocab_table,
+                                  scope=scope)
+    return EvalGraph(graph=graph,
+                     model=final_model,
+                     src_file_placeholder=src_file_placeholder,
+                     tgt_file_placeholder=tgt_file_placeholder,
+                     iterator=iterator)
+
+eval_graph = create_eval_graph()
+```
+
+1.  现在我们对推理图做同样的事情：
+
+```py
+# Inference graph
+class InferGraph(collections.namedtuple("InferGraph", ("graph","model","src_placeholder", "batch_size_placeholder","iterator"))):
+    pass
+
+def create_infer_graph(scope=None):
+    graph = tf.Graph()
+    with graph.as_default():
+        src_vocab_table, tgt_vocab_table = vocab_utils.create_vocab_tables(hparams.src_vocab_file,hparams.tgt_vocab_file, hparams.share_vocab)
+        reverse_tgt_vocab_table = lookup_ops.index_to_string_table_from_file(hparams.tgt_vocab_file, default_value=vocab_utils.UNK)
+
+        src_placeholder = tf.placeholder(shape=[None], dtype=tf.string)
+        batch_size_placeholder = tf.placeholder(shape=[], dtype=tf.int64)
+        src_dataset = tf.data.Dataset.from_tensor_slices(src_placeholder)
+        iterator = iterator_utils.get_infer_iterator(src_dataset,
+                                                     src_vocab_table,
+                                                     batch_size=batch_size_placeholder,
+                                                     eos=hparams.eos,
+                                                     src_max_len=hparams.src_max_len_infer)
+        final_model = model.Model(hparams,
+                                  iterator=iterator,
+                                  mode=tf.contrib.learn.ModeKeys.INFER,
+                                  source_vocab_table=src_vocab_table,
+                                  target_vocab_table=tgt_vocab_table,
+                                  reverse_target_vocab_table=reverse_tgt_vocab_table,
+                                  scope=scope)
+    return InferGraph(graph=graph,
+                      model=final_model,
+                      src_placeholder=src_placeholder,
+                      batch_size_placeholder=batch_size_placeholder,
+                      iterator=iterator)
+
+infer_graph = create_infer_graph()
+```
+
+1.  为了在训练期间提供更多说明性输出，我们提供了在训练迭代期间输出的任意源/目标翻译的简短列表：
+
+```py
+# Create sample data for evaluation
+sample_ix = [25, 125, 240, 450]
+sample_src_data = [' '.join(english_sentence[x]) for x in sample_ix]
+sample_tgt_data = [' '.join(german_sentence[x]) for x in sample_ix]
+print([x for x in zip(sample_src_data, sample_tgt_data)])
+```
+
+1.  接下来，我们加载训练图：
+
+```py
+config_proto = utils.get_config_proto()
+
+train_sess = tf.Session(config=config_proto, graph=train_graph.graph)
+eval_sess = tf.Session(config=config_proto, graph=eval_graph.graph)
+infer_sess = tf.Session(config=config_proto, graph=infer_graph.graph)
+
+# Load the training graph
+with train_graph.graph.as_default():
+    loaded_train_model, global_step = model_helper.create_or_load_model(train_graph.model,
+                                                                        hparams.out_dir,
+                                                                        train_sess,
+                                                                    "train")
+
+summary_writer = tf.summary.FileWriter(os.path.join(hparams.out_dir, 'Training'), train_graph.graph)
+```
+
+1.  现在我们将评估操作添加到图中：
+
+```py
+for metric in hparams.metrics:
+    hparams.add_hparam("best_" + metric, 0)
+    best_metric_dir = os.path.join(hparams.out_dir, "best_" + metric)
+    hparams.add_hparam("best_" + metric + "_dir", best_metric_dir)
+    tf.gfile.MakeDirs(best_metric_dir)
+
+eval_output = train.run_full_eval(hparams.out_dir, infer_graph, infer_sess, eval_graph, eval_sess, hparams, summary_writer, sample_src_data, sample_tgt_data)
+
+eval_results, _, acc_blue_scores = eval_output
+```
+
+1.  现在我们创建初始化操作并初始化图；我们还初始化了一些将更新每次迭代的参数（时间，全局步骤和周期步骤）：
+
+```py
+# Training Initialization
+last_stats_step = global_step
+last_eval_step = global_step
+last_external_eval_step = global_step
+
+steps_per_eval = 10 * hparams.steps_per_stats
+steps_per_external_eval = 5 * steps_per_eval
+
+avg_step_time = 0.0
+step_time, checkpoint_loss, checkpoint_predict_count = 0.0, 0.0, 0.0
+checkpoint_total_count = 0.0
+speed, train_ppl = 0.0, 0.0
+
+utils.print_out("# Start step %d, lr %g, %s" %
+                (global_step, loaded_train_model.learning_rate.eval(session=train_sess),
+                 time.ctime()))
+skip_count = hparams.batch_size * hparams.epoch_step
+utils.print_out("# Init train iterator, skipping %d elements" % skip_count)
+
+train_sess.run(train_graph.iterator.initializer,
+              feed_dict={train_graph.skip_count_placeholder: skip_count})
+```
+
+> 请注意，默认情况下，训练将每 1,000 次迭代保存模型。如果需要，您可以在超参数中更改此设置。目前，训练此模型并保存最新的五个模型占用大约 2 GB 的硬盘空间。
+
+1.  以下代码将开始模型的训练和评估。训练的重要部分是在循环的最开始（前三分之一）。其余代码专门用于评估，从样本推断和保存模型，如下所示：
+
+```py
+# Run training
+while global_step < hparams.num_train_steps:
+    start_time = time.time()
+    try:
+        step_result = loaded_train_model.train(train_sess)
+        (_, step_loss, step_predict_count, step_summary, global_step, step_word_count,
+         batch_size, __, ___) = step_result
+        hparams.epoch_step += 1
+    except tf.errors.OutOfRangeError:
+        # Next Epoch
+        hparams.epoch_step = 0
+        utils.print_out("# Finished an epoch, step %d. Perform external evaluation" % global_step)
+        train.run_sample_decode(infer_graph,
+                                infer_sess,
+                                hparams.out_dir,
+                                hparams,
+                                summary_writer,
+                                sample_src_data,
+                                sample_tgt_data)
+        dev_scores, test_scores, _ = train.run_external_eval(infer_graph,
+                                                             infer_sess,
+                                                             hparams.out_dir,
+                                                             hparams,
+                                                             summary_writer)
+        train_sess.run(train_graph.iterator.initializer, feed_dict={train_graph.skip_count_placeholder: 0})
+        continue
+
+    summary_writer.add_summary(step_summary, global_step)
+
+    # Statistics
+    step_time += (time.time() - start_time)
+    checkpoint_loss += (step_loss * batch_size)
+    checkpoint_predict_count += step_predict_count
+    checkpoint_total_count += float(step_word_count)
+
+    # print statistics
+    if global_step - last_stats_step >= hparams.steps_per_stats:
+        last_stats_step = global_step
+        avg_step_time = step_time / hparams.steps_per_stats
+        train_ppl = utils.safe_exp(checkpoint_loss / checkpoint_predict_count)
+        speed = checkpoint_total_count / (1000 * step_time)
+
+        utils.print_out(" global step %d lr %g "
+                       "step-time %.2fs wps %.2fK ppl %.2f %s" %
+                        (global_step,
+                         loaded_train_model.learning_rate.eval(session=train_sess),
+                         avg_step_time, speed, train_ppl, train._get_best_results(hparams)))
+
+        if math.isnan(train_ppl):
+            break
+
+        # Reset timer and loss.
+        step_time, checkpoint_loss, checkpoint_predict_count = 0.0, 0.0, 0.0
+        checkpoint_total_count = 0.0
+
+    if global_step - last_eval_step >= steps_per_eval:
+        last_eval_step = global_step
+        utils.print_out("# Save eval, global step %d" % global_step)
+        utils.add_summary(summary_writer, global_step, "train_ppl", train_ppl)
+
+        # Save checkpoint
+        loaded_train_model.saver.save(train_sess, os.path.join(hparams.out_dir, "translate.ckpt"), global_step=global_step)
+
+        # Evaluate on dev/test
+        train.run_sample_decode(infer_graph,
+                                infer_sess,
+                                out_dir,
+                                hparams,
+                                summary_writer,
+                                sample_src_data,
+                                sample_tgt_data)
+        dev_ppl, test_ppl = train.run_internal_eval(eval_graph,
+                                                    eval_sess,
+                                                    out_dir,
+                                                    hparams,
+                                                    summary_writer)
+
+    if global_step - last_external_eval_step >= steps_per_external_eval:
+        last_external_eval_step = global_step
+
+        # Save checkpoint
+        loaded_train_model.saver.save(train_sess, os.path.join(hparams.out_dir, "translate.ckpt"), global_step=global_step)
+
+        train.run_sample_decode(infer_graph,
+                                infer_sess,
+                                out_dir,
+                                hparams,
+                                summary_writer,
+                                sample_src_data,
+                                sample_tgt_data)
+        dev_scores, test_scores, _ = train.run_external_eval(infer_graph,
+                                                             infer_sess,
+                                                             out_dir,
+                                                             hparams,
+                                                             summary_writer)
+```
+
+## 工作原理
+
+对于这个秘籍，我们使用 TensorFlow 内置的序列到序列模型从英语翻译成德语。
+
+由于我们没有为我们的测试句子提供完美的翻译，因此还有改进的余地。如果我们训练时间更长，并且可能组合一些桶（每个桶中有更多的训练数据），我们可能能够改进我们的翻译。
+
+## 更多
+
+在 ManyThings 网站上托管了其他类似的[双语句子数据集](http://www.manythings.org/anki/)。您可以随意替换任何吸引您的语言数据集。
+
+# 训练 Siamese RNN 相似性度量
+
+与许多其他模型相比，RNN 模型的一个重要特性是它们可以处理各种长度的序列。利用这一点，以及它们可以推广到之前未见过的序列这一事实，我们可以创建一种方法来衡量输入的相似序列是如何相互作用的。在这个秘籍中，我们将训练一个 Siamese 相似性 RNN 来测量地址之间的相似性以进行记录匹配。
+
+## 准备
+
+在本文中，我们将构建一个双向 RNN 模型，该模型将输入到一个完全连接的层，该层输出一个固定长度的数值向量。我们为两个输入地址创建双向 RNN 层，并将输出馈送到完全连接的层，该层输出固定长度的数字向量（长度 100）。然后我们将两个向量输出与余弦距离进行比较，余弦距离在 -1 和 1 之间。我们将输入数据表示为与目标 1 相似，并且目标为 -1。余弦距离的预测只是输出的符号（负值表示不相似，正表示相似）。我们可以使用此网络通过从查询地址获取在余弦距离上得分最高的参考地址来进行记录匹配。
+
+请参阅以下网络架构图：
+
+![](img/3ab9a414-bf14-4bef-a6b5-77deef75eea6.png)
+
+图 8：Siamese RNN 相似性模型架构
+
+这个模型的优点还在于它接受以前没有见过的输入，并且可以将它们与 -1 到 1 的输出进行比较。我们将通过选择模型之前未见过的测试地址在代码中显示它并查看它是否可以匹配到类似的地址。
+
+## 操作步骤
+
+1.  我们首先加载必要的库并启动图会话：
+
+```py
+import os 
+import random 
+import string 
+import numpy as np 
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+1.  我们现在设置模型参数如下：
+
+```py
+batch_size = 200 
+n_batches = 300 
+max_address_len = 20 
+margin = 0.25 
+num_features = 50 
+dropout_keep_prob = 0.8 
+```
+
+1.  接下来，我们创建 Siamese RNN 相似性模型类，如下所示：
+
+```py
+def snn(address1, address2, dropout_keep_prob, 
+        vocab_size, num_features, input_length): 
+
+    # Define the Siamese double RNN with a fully connected layer at the end 
+    def Siamese_nn(input_vector, num_hidden): 
+        cell_unit = tf.nn.rnn_cell.BasicLSTMCell 
+
+        # Forward direction cell 
+        lstm_forward_cell = cell_unit(num_hidden, forget_bias=1.0) 
+        lstm_forward_cell = tf.nn.rnn_cell.DropoutWrapper(lstm_forward_cell, output_keep_prob=dropout_keep_prob) 
+
+        # Backward direction cell 
+        lstm_backward_cell = cell_unit(num_hidden, forget_bias=1.0) 
+        lstm_backward_cell = tf.nn.rnn_cell.DropoutWrapper(lstm_backward_cell, output_keep_prob=dropout_keep_prob) 
+
+        # Split title into a character sequence 
+        input_embed_split = tf.split(1, input_length, input_vector) 
+        input_embed_split = [tf.squeeze(x, squeeze_dims=[1]) for x in input_embed_split] 
+
+        # Create bidirectional layer 
+        outputs, _, _ = tf.nn.bidirectional_rnn(lstm_forward_cell, 
+                                                lstm_backward_cell, 
+                                                input_embed_split, 
+                                                dtype=tf.float32) 
+        # Average The output over the sequence 
+        temporal_mean = tf.add_n(outputs) / input_length 
+
+        # Fully connected layer 
+        output_size = 10 
+        A = tf.get_variable(name="A", shape=[2*num_hidden, output_size], 
+                            dtype=tf.float32, 
+                            initializer=tf.random_normal_initializer(stddev=0.1)) 
+        b = tf.get_variable(name="b", shape=[output_size], dtype=tf.float32, 
+                            initializer=tf.random_normal_initializer(stddev=0.1)) 
+
+        final_output = tf.matmul(temporal_mean, A) + b 
+        final_output = tf.nn.dropout(final_output, dropout_keep_prob) 
+
+        return(final_output) 
+
+    with tf.variable_scope("Siamese") as scope: 
+            output1 = Siamese_nn(address1, num_features) 
+            # Declare that we will use the same variables on the second string 
+            scope.reuse_variables() 
+            output2 = Siamese_nn(address2, num_features) 
+
+    # Unit normalize the outputs 
+    output1 = tf.nn.l2_normalize(output1, 1) 
+    output2 = tf.nn.l2_normalize(output2, 1) 
+    # Return cosine distance 
+    #   in this case, the dot product of the norms is the same. 
+    dot_prod = tf.reduce_sum(tf.mul(output1, output2), 1) 
+
+    return dot_prod
+```
+
+> 请注意，使用变量范围在两个地址输入的 Siamese 网络的两个部分之间共享参数。另外，请注意，余弦距离是通过归一化向量的点积来实现的。
+
+1.  现在我们将声明我们的预测函数，它只是余弦距离的符号，如下所示：
+
+```py
+def get_predictions(scores): 
+    predictions = tf.sign(scores, name="predictions") 
+    return predictions 
+```
+
+1.  现在我们将如前所述声明我们的`loss`函数。请记住，我们希望为误差留下边距（类似于 SVM 模型）。我们还将有一个真正的积极和真正的消极的损失期限。使用以下代码进行损失：
+
+```py
+def loss(scores, y_target, margin): 
+    # Calculate the positive losses 
+    pos_loss_term = 0.25 * tf.square(tf.sub(1., scores)) 
+    pos_mult = tf.cast(y_target, tf.float32) 
+
+    # Make sure positive losses are on similar strings 
+    positive_loss = tf.mul(pos_mult, pos_loss_term) 
+
+    # Calculate negative losses, then make sure on dissimilar strings 
+    neg_mult = tf.sub(1., tf.cast(y_target, tf.float32)) 
+
+    negative_loss = neg_mult*tf.square(scores) 
+
+    # Combine similar and dissimilar losses 
+    loss = tf.add(positive_loss, negative_loss) 
+
+    # Create the margin term.  This is when the targets are 0, and the scores are less than m, return 0\. 
+
+    # Check if target is zero (dissimilar strings) 
+    target_zero = tf.equal(tf.cast(y_target, tf.float32), 0.) 
+    # Check if cosine outputs is smaller than margin 
+    less_than_margin = tf.less(scores, margin) 
+    # Check if both are true 
+    both_logical = tf.logical_and(target_zero, less_than_margin) 
+    both_logical = tf.cast(both_logical, tf.float32) 
+    # If both are true, then multiply by (1-1)=0\. 
+    multiplicative_factor = tf.cast(1\. - both_logical, tf.float32) 
+    total_loss = tf.mul(loss, multiplicative_factor) 
+
+    # Average loss over batch 
+    avg_loss = tf.reduce_mean(total_loss) 
+    return avg_loss 
+```
+
+1.  我们声明`accuracy`函数如下：
+
+```py
+def accuracy(scores, y_target): 
+    predictions = get_predictions(scores) 
+    correct_predictions = tf.equal(predictions, y_target) 
+    accuracy = tf.reduce_mean(tf.cast(correct_predictions, tf.float32)) 
+    return accuracy 
+```
+
+1.  我们将通过在地址中创建拼写错误来创建类似的地址。我们将这些地址（参考地址和拼写错误地址）表示为类似：
+
+```py
+def create_typo(s): 
+    rand_ind = random.choice(range(len(s))) 
+    s_list = list(s) 
+    s_list[rand_ind]=random.choice(string.ascii_lowercase + '0123456789') 
+    s = ''.join(s_list) 
+    return s 
+```
+
+1.  我们将生成的数据将是街道号码，`street_names`和街道后缀的随机组合。名称和后缀来自以下列表：
+
+```py
+street_names = ['abbey', 'baker', 'canal', 'donner', 'elm', 'fifth', 'grandvia', 'hollywood', 'interstate', 'jay', 'kings'] 
+street_types = ['rd', 'st', 'ln', 'pass', 'ave', 'hwy', 'cir', 'dr', 'jct'] 
+```
+
+1.  我们生成测试查询和引用如下：
+
+```py
+test_queries = ['111 abbey ln', '271 doner cicle', 
+                '314 king avenue', 'tensorflow is fun'] 
+test_references = ['123 abbey ln', '217 donner cir', '314 kings ave', '404 hollywood st', 'tensorflow is so fun']
+```
+
+> 请注意，最后一个查询和引用不是模型之前会看到的地址，但我们希望它们将是模型最终看到的最相似的地址。
+
+1.  我们现在将定义如何生成一批数据。我们的批量数据将是 50% 类似的地址（参考地址和拼写错误地址）和 50% 不同的地址。我们通过占用地址列表的一半并将目标移动一个位置（使用`numpy.roll()`函数）来生成不同的地址：
+
+```py
+def get_batch(n): 
+    # Generate a list of reference addresses with similar addresses that have 
+    # a typo. 
+    numbers = [random.randint(1, 9999) for i in range(n)] 
+    streets = [random.choice(street_names) for i in range(n)] 
+    street_suffs = [random.choice(street_types) for i in range(n)] 
+    full_streets = [str(w) + ' ' + x + ' ' + y for w,x,y in zip(numbers, streets, street_suffs)] 
+    typo_streets = [create_typo(x) for x in full_streets] 
+    reference = [list(x) for x in zip(full_streets, typo_streets)] 
+
+    # Shuffle last half of them for training on dissimilar addresses 
+    half_ix = int(n/2) 
+    bottom_half = reference[half_ix:] 
+    true_address = [x[0] for x in bottom_half] 
+    typo_address = [x[1] for x in bottom_half] 
+    typo_address = list(np.roll(typo_address, 1)) 
+    bottom_half = [[x,y] for x,y in zip(true_address, typo_address)] 
+    reference[half_ix:] = bottom_half 
+
+    # Get target similarities (1's for similar, -1's for non-similar) 
+    target = [1]*(n-half_ix) + [-1]*half_ix 
+    reference = [[x,y] for x,y in zip(reference, target)] 
+    return reference 
+```
+
+1.  接下来，我们定义地址词汇表并指定如何将地址热编码为索引：
+
+```py
+vocab_chars = string.ascii_lowercase + '0123456789 ' 
+vocab2ix_dict = {char:(ix+1) for ix, char in enumerate(vocab_chars)} 
+vocab_length = len(vocab_chars) + 1 
+
+# Define vocab one-hot encoding 
+def address2onehot(address, 
+                   vocab2ix_dict = vocab2ix_dict, 
+                   max_address_len = max_address_len): 
+    # translate address string into indices 
+    address_ix = [vocab2ix_dict[x] for x in list(address)] 
+
+    # Pad or crop to max_address_len 
+    address_ix = (address_ix + [0]*max_address_len)[0:max_address_len] 
+    return address_ix 
+```
+
+1.  处理完词汇后，我们将开始声明我们的模型占位符和嵌入查找。对于嵌入查找，我们将使用单一矩阵作为查找矩阵来使用单热编码嵌入。使用以下代码：
+
+```py
+address1_ph = tf.placeholder(tf.int32, [None, max_address_len], name="address1_ph") 
+address2_ph = tf.placeholder(tf.int32, [None, max_address_len], name="address2_ph") 
+y_target_ph = tf.placeholder(tf.int32, [None], name="y_target_ph") 
+dropout_keep_prob_ph = tf.placeholder(tf.float32, name="dropout_keep_prob") 
+
+# Create embedding lookup 
+identity_mat = tf.diag(tf.ones(shape=[vocab_length])) 
+address1_embed = tf.nn.embedding_lookup(identity_mat, address1_ph) 
+address2_embed = tf.nn.embedding_lookup(identity_mat, address2_ph) 
+```
+
+1.  我们现在将声明`model`，`batch_accuracy`，`batch_loss`和`predictions`操作如下：
+
+```py
+# Define Model 
+text_snn = model.snn(address1_embed, address2_embed, dropout_keep_prob_ph, 
+                     vocab_length, num_features, max_address_len) 
+# Define Accuracy 
+batch_accuracy = model.accuracy(text_snn, y_target_ph) 
+# Define Loss 
+batch_loss = model.loss(text_snn, y_target_ph, margin) 
+# Define Predictions 
+predictions = model.get_predictions(text_snn) 
+```
+
+1.  最后，在我们开始训练之前，我们将优化和初始化操作添加到图中，如下所示：
+
+```py
+# Declare optimizer 
+optimizer = tf.train.AdamOptimizer(0.01) 
+# Apply gradients 
+train_op = optimizer.minimize(batch_loss) 
+# Initialize Variables 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  我们现在将遍历训练世代并跟踪损失和准确率：
+
+```py
+train_loss_vec = [] 
+train_acc_vec = [] 
+for b in range(n_batches): 
+    # Get a batch of data 
+    batch_data = get_batch(batch_size) 
+    # Shuffle data 
+    np.random.shuffle(batch_data) 
+    # Parse addresses and targets 
+    input_addresses = [x[0] for x in batch_data] 
+    target_similarity = np.array([x[1] for x in batch_data]) 
+    address1 = np.array([address2onehot(x[0]) for x in input_addresses]) 
+    address2 = np.array([address2onehot(x[1]) for x in input_addresses]) 
+
+    train_feed_dict = {address1_ph: address1, 
+                       address2_ph: address2, 
+                       y_target_ph: target_similarity, 
+                       dropout_keep_prob_ph: dropout_keep_prob} 
+
+    _, train_loss, train_acc = sess.run([train_op, batch_loss, batch_accuracy], 
+                                        feed_dict=train_feed_dict) 
+    # Save train loss and accuracy 
+    train_loss_vec.append(train_loss) 
+    train_acc_vec.append(train_acc) 
+```
+
+1.  经过训练，我们现在处理测试查询和引用，以了解模型的执行方式：
+
+```py
+test_queries_ix = np.array([address2onehot(x) for x in test_queries]) 
+test_references_ix = np.array([address2onehot(x) for x in test_references]) 
+num_refs = test_references_ix.shape[0] 
+best_fit_refs = [] 
+for query in test_queries_ix: 
+    test_query = np.repeat(np.array([query]), num_refs, axis=0) 
+    test_feed_dict = {address1_ph: test_query, 
+                      address2_ph: test_references_ix, 
+                      y_target_ph: target_similarity, 
+                      dropout_keep_prob_ph: 1.0} 
+    test_out = sess.run(text_snn, feed_dict=test_feed_dict) 
+    best_fit = test_references[np.argmax(test_out)] 
+    best_fit_refs.append(best_fit) 
+print('Query Addresses: {}'.format(test_queries)) 
+print('Model Found Matches: {}'.format(best_fit_refs)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Query Addresses: ['111 abbey ln', '271 doner cicle', '314 king avenue', 'tensorflow is fun'] 
+Model Found Matches: ['123 abbey ln', '217 donner cir', '314 kings ave', 'tensorflow is so fun'] 
+```
+
+## 更多
+
+我们可以从测试查询和参考中看到模型不仅能够识别正确的参考地址，而且还能够推广到非地址短语。我们还可以通过查看训练期间的损失和准确率来了解模型的执行情况：
+
+![](img/83345bbb-8fc4-4d17-b90d-b8c2ebb16c2a.png)
+
+图 9：训练期间 Siamese RNN 相似性模型的准确率和损失
+
+请注意，我们没有为此练习指定测试集。这是因为我们如何生成数据。我们创建了一个批量函数，每次调用它时都会创建新的批量数据，因此模型始终可以看到新数据。因此，我们可以使用批量损失和精度作为测试损失和准确率的替代项。但是，对于一组有限的实际数据，情况永远不会如此，因为我们总是需要训练和测试集来判断模型的表现。
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch10.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch10.md
new file mode 100644
index 00000000..e208965a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch10.md
@@ -0,0 +1,804 @@
+# 十、将 TensorFlow 投入生产
+
+在本章中，我们将介绍以下主题：
+
+*   实现单元测试
+*   使用多个执行器
+*   并行化 TensorFlow
+*   将 TensorFlow 投入生产
+*   生产环境 TensorFlow 的一个例子
+*   使用 TensorFlow 服务
+
+# 介绍
+
+到目前为止，我们已经介绍了如何在 TensorFlow 中训练和评估各种模型。因此，在本章中，我们将向您展示如何编写可供生产使用的代码。生产就绪代码有各种定义，但对我们来说，生产代码将被定义为具有单元测试的代码，分离训练和评估代码，并有效地保存，并加载数据管道和图会话的各种所需部分。
+
+> 本章提供的 Python 脚本应该从命令行运行。这允许运行测试，并将设备位置记录到屏幕上。
+
+# 实现单元测试
+
+测试代码可以加快原型设计速度，提高调试效率，加快更改速度，并且可以更轻松地共享代码。在 TensorFlow 中有许多简单的方法可以实现单元测试，我们将在本文中介绍它们。
+
+## 准备
+
+在编写 TensorFlow 模型时，有助于进行单元测试以检查程序的功能。这有助于我们，因为当我们想要对程序单元进行更改时，测试将确保这些更改不会以未知方式破坏模型。在这个秘籍中，我们将创建一个依赖于`MNIST`数据的简单 CNN 网络。有了它，我们将实现三种不同类型的单元测试来说明如何在 TensorFlow 中编写它们。
+
+> 请注意，Python 有一个很棒的测试库，名为 Nose。 TensorFlow 还具有内置测试功能，我们将在其中查看，这样可以更轻松地测试 Tensor 对象的值，而无需评估会话中的值。
+
+1.  首先，我们需要加载必要的库并格式化数据，如下所示：
+
+```py
+import sys
+import numpy as np 
+import tensorflow as tf 
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+# Start a graph session 
+sess = tf.Session() 
+# Load data 
+data_dir = 'temp' 
+mnist = tf.keras.datasets.mnist
+(train_xdata, train_labels), (test_xdata, test_labels) = mnist.load_data()
+train_xdata = train_xdata / 255.0
+test_xdata = test_xdata / 255.0
+# Set model parameters 
+batch_size = 100 
+learning_rate = 0.005 
+evaluation_size = 100 
+image_width = train_xdata[0].shape[0] 
+image_height = train_xdata[0].shape[1] 
+target_size = max(train_labels) + 1 
+num_channels = 1 # greyscale = 1 channel 
+generations = 100 
+eval_every = 5 
+conv1_features = 25 
+conv2_features = 50 
+max_pool_size1 = 2 # NxN window for 1st max pool layer 
+max_pool_size2 = 2 # NxN window for 2nd max pool layer 
+fully_connected_size1 = 100 
+dropout_prob = 0.75 
+```
+
+1.  然后，我们需要声明我们的占位符，变量和模型公式，如下所示：
+
+```py
+# Declare model placeholders 
+x_input_shape = (batch_size, image_width, image_height, num_channels) 
+x_input = tf.placeholder(tf.float32, shape=x_input_shape) 
+y_target = tf.placeholder(tf.int32, shape=(batch_size)) 
+eval_input_shape = (evaluation_size, image_width, image_height, num_channels) 
+eval_input = tf.placeholder(tf.float32, shape=eval_input_shape) 
+eval_target = tf.placeholder(tf.int32, shape=(evaluation_size)) 
+dropout = tf.placeholder(tf.float32, shape=()) 
+# Declare model parameters 
+conv1_weight = tf.Variable(tf.truncated_normal([4, 4, num_channels, conv1_features], 
+                                              stddev=0.1, dtype=tf.float32)) 
+conv1_bias = tf.Variable(tf.zeros([conv1_features], dtype=tf.float32)) 
+conv2_weight = tf.Variable(tf.truncated_normal([4, 4, conv1_features, conv2_features], 
+                                               stddev=0.1, dtype=tf.float32)) 
+conv2_bias = tf.Variable(tf.zeros([conv2_features], dtype=tf.float32)) 
+# fully connected variables 
+resulting_width = image_width // (max_pool_size1 * max_pool_size2) 
+resulting_height = image_height // (max_pool_size1 * max_pool_size2) 
+full1_input_size = resulting_width * resulting_height * conv2_features 
+full1_weight = tf.Variable(tf.truncated_normal([full1_input_size, fully_connected_size1], 
+                          stddev=0.1, dtype=tf.float32)) 
+full1_bias = tf.Variable(tf.truncated_normal([fully_connected_size1], stddev=0.1, dtype=tf.float32)) 
+full2_weight = tf.Variable(tf.truncated_normal([fully_connected_size1, target_size], 
+                                               stddev=0.1, dtype=tf.float32)) 
+full2_bias = tf.Variable(tf.truncated_normal([target_size], stddev=0.1, dtype=tf.float32)) 
+
+# Initialize Model Operations 
+def my_conv_net(input_data): 
+    # First Conv-ReLU-MaxPool Layer 
+    conv1 = tf.nn.conv2d(input_data, conv1_weight, strides=[1, 1, 1, 1], padding='SAME') 
+    relu1 = tf.nn.relu(tf.nn.bias_add(conv1, conv1_bias)) 
+    max_pool1 = tf.nn.max_pool(relu1, ksize=[1, max_pool_size1, max_pool_size1, 1], 
+                               strides=[1, max_pool_size1, max_pool_size1, 1], padding='SAME') 
+    # Second Conv-ReLU-MaxPool Layer 
+    conv2 = tf.nn.conv2d(max_pool1, conv2_weight, strides=[1, 1, 1, 1], padding='SAME') 
+    relu2 = tf.nn.relu(tf.nn.bias_add(conv2, conv2_bias)) 
+    max_pool2 = tf.nn.max_pool(relu2, ksize=[1, max_pool_size2, max_pool_size2, 1], 
+                               strides=[1, max_pool_size2, max_pool_size2, 1], padding='SAME') 
+    # Transform Output into a 1xN layer for next fully connected layer 
+    final_conv_shape = max_pool2.get_shape().as_list() 
+    final_shape = final_conv_shape[1] * final_conv_shape[2] * final_conv_shape[3] 
+    flat_output = tf.reshape(max_pool2, [final_conv_shape[0], final_shape]) 
+    # First Fully Connected Layer 
+    fully_connected1 = tf.nn.relu(tf.add(tf.matmul(flat_output, full1_weight), full1_bias)) 
+    # Second Fully Connected Layer 
+    final_model_output = tf.add(tf.matmul(fully_connected1, full2_weight), full2_bias) 
+
+    # Add dropout 
+    final_model_output = tf.nn.dropout(final_model_output, dropout) 
+    return final_model_output 
+
+model_output = my_conv_net(x_input) 
+test_model_output = my_conv_net(eval_input) 
+```
+
+1.  接下来，我们创建我们的损失函数以及我们的预测和精确操作。然后，我们初始化以下模型变量：
+
+```py
+# Declare Loss Function (softmax cross entropy) 
+loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(model_output, y_target)) 
+# Create a prediction function 
+prediction = tf.nn.softmax(model_output) 
+test_prediction = tf.nn.softmax(test_model_output) 
+
+# Create accuracy function 
+def get_accuracy(logits, targets): 
+    batch_predictions = np.argmax(logits, axis=1) 
+    num_correct = np.sum(np.equal(batch_predictions, targets)) 
+    return 100\. * num_correct/batch_predictions.shape[0] 
+
+# Create an optimizer 
+my_optimizer = tf.train.MomentumOptimizer(learning_rate, 0.9) 
+train_step = my_optimizer.minimize(loss) 
+# Initialize Variables 
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  对于我们的第一个单元测试，我们使用类`tf.test.TestCase`并创建一种方法来测试占位符（或变量）的值。对于此测试用例，我们确保损失概率（用于保持）大于`0.25`，因此模型不会更改为尝试训练超过 75% 的损失，如下所示：
+
+```py
+# Check values of tensors! 
+class DropOutTest(tf.test.TestCase): 
+    # Make sure that we don't drop too much 
+    def dropout_greaterthan(self): 
+        with self.test_session(): 
+          self.assertGreater(dropout.eval(), 0.25) 
+```
+
+1.  接下来，我们需要测试我们的`accuracy`函数是否按预期运行。为此，我们创建一个概率样本数组和我们期望的样本，然后确保测试精度返回 100% ，如下所示：
+
+```py
+# Test accuracy function 
+class AccuracyTest(tf.test.TestCase): 
+    # Make sure accuracy function behaves correctly 
+    def accuracy_exact_test(self): 
+        with self.test_session(): 
+            test_preds = [[0.9, 0.1],[0.01, 0.99]] 
+            test_targets = [0, 1] 
+            test_acc = get_accuracy(test_preds, test_targets) 
+            self.assertEqual(test_acc.eval(), 100.) 
+```
+
+1.  我们还可以确保`Tensor`对象是我们期望的形状。要通过`target_size`测试模型输出是`batch_size`的预期形状，请输入以下代码：
+
+```py
+# Test tensorshape 
+class ShapeTest(tf.test.TestCase): 
+    # Make sure our model output is size [batch_size, num_classes] 
+    def output_shape_test(self): 
+        with self.test_session(): 
+            numpy_array = np.ones([batch_size, target_size]) 
+            self.assertShapeEqual(numpy_array, model_output) 
+```
+
+1.  现在我们需要在脚本中使用`main()`函数告诉 TensorFlow 我们正在运行哪个应用。脚本如下：
+
+```py
+def main(argv):
+    # Start training loop
+    train_loss = []
+    train_acc = []
+    test_acc = []
+    for i in range(generations):
+        rand_index = np.random.choice(len(train_xdata), size=batch_size)
+        rand_x = train_xdata[rand_index]
+        rand_x = np.expand_dims(rand_x, 3)
+        rand_y = train_labels[rand_index]
+        train_dict = {x_input: rand_x, y_target: rand_y, dropout: dropout_prob}
+
+        sess.run(train_step, feed_dict=train_dict)
+        temp_train_loss, temp_train_preds = sess.run([loss, prediction], feed_dict=train_dict)
+        temp_train_acc = get_accuracy(temp_train_preds, rand_y)
+
+        if (i + 1) % eval_every == 0:
+            eval_index = np.random.choice(len(test_xdata), size=evaluation_size)
+            eval_x = test_xdata[eval_index]
+            eval_x = np.expand_dims(eval_x, 3)
+            eval_y = test_labels[eval_index]
+            test_dict = {eval_input: eval_x, eval_target: eval_y, dropout: 1.0}
+            test_preds = sess.run(test_prediction, feed_dict=test_dict)
+            temp_test_acc = get_accuracy(test_preds, eval_y)
+
+            # Record and print results
+            train_loss.append(temp_train_loss)
+            train_acc.append(temp_train_acc)
+            test_acc.append(temp_test_acc)
+            acc_and_loss = [(i + 1), temp_train_loss, temp_train_acc, temp_test_acc]
+            acc_and_loss = [np.round(x, 2) for x in acc_and_loss]
+            print('Generation # {}. Train Loss: {:.2f}. Train Acc (Test Acc): {:.2f} 
+                   ({:.2f})'.format(*acc_and_loss))
+```
+
+1.  要让我们的脚本执行测试或训练，我们需要以不同的方式从命令行调用它。以下代码段是主程序代码。如果程序收到参数`test`，它将执行测试；否则，它将运行训练：
+
+```py
+if __name__ == '__main__':
+    cmd_args = sys.argv
+    if len(cmd_args) > 1 and cmd_args[1] == 'test':
+        # Perform unit-tests
+        tf.test.main(argv=cmd_args[1:])
+    else:
+        # Run the TensorFlow app
+        tf.app.run(main=None, argv=cmd_args)
+```
+
+1.  如果我们在命令行上运行程序，我们应该得到以下输出：
+
+```py
+$ python3 implementing_unit_tests.py test
+...
+----------------------------------------------------------------------
+Ran 3 tests in 0.001s
+
+OK 
+```
+
+前面步骤中描述的完整程序可以在[书籍的 GitHub 仓库](https://github.com/nfmcclure/tensorflow_cookbook/)和 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)中找到。
+
+## 工作原理
+
+在本节中，我们实现了三种类型的单元测试：张量值，操作输出和张量形状。 TensorFlow 有更多类型的单元测试函数，[可在此处找到](https://www.tensorflow.org/versions/master/api_docs/python/test.html) 。
+
+请记住，单元测试有助于确保代码能够按预期运行，为共享代码提供信心，并使再现性更易于访问。
+
+# 使用多个执行器
+
+您将意识到 TensorFlow 有许多功能，包括计算图，它们可以自然地并行计算。计算图可以分为不同的处理器以及处理不同的批量。我们将讨论如何在此秘籍中访问同一台机器上的不同处理器。
+
+## 准备
+
+对于此秘籍，我们将向您展示如何在同一系统上访问多个设备并对其进行训练。这是一种非常常见的情况：与 CPU 一起，机器可能具有一个或多个可以共享计算负载的 GPU。如果 TensorFlow 可以访问这些设备，它将通过贪婪的过程自动将计算分配给多个设备。但是，TensorFlow 还允许程序通过名称范围放置指定哪些设备将在哪个设备上。
+
+要访问 GPU 设备，必须安装 GPU 版本的 TensorFlow。要安装 TensorFlow 的 GPU 版本，请访问[此链接](https://www.tensorflow.org/versions/master/get_started/os_setup.html)。下载，设置并按照特定系统的说明进行操作。请注意，TensorFlow 的 GPU 版本需要 CUDA 才能使用 GPU。
+
+在本文中，我们将向您展示各种命令，允许您访问系统上的各种设备；我们还将演示如何找出 TensorFlow 正在使用的设备。
+
+## 操作步骤
+
+1.  为了找出 TensorFlow 用于哪些操作的设备，我们需要在会话参数中设置`config`，将`log_device_placement`设置为`True`。当我们从命令行运行脚本时，我们将看到特定的设备放置，如以下输出所示：
+
+```py
+import tensorflow as tf 
+sess = tf.Session(config=tf.ConfigProto(log_device_placement=True)) 
+a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a') 
+b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b') 
+c = tf.matmul(a, b) 
+# Runs the op. 
+print(sess.run(c)) 
+```
+
+1.  从终端，运行以下命令：
+
+```py
+$python3 using_multiple_devices.py 
+Device mapping: no known devices. 
+I tensorflow/core/common_runtime/direct_session.cc:175] Device mapping: 
+MatMul: /job:localhost/replica:0/task:0/cpu:0 
+I tensorflow/core/common_runtime/simple_placer.cc:818] MatMul: /job:localhost/replica:0/task:0/cpu:0 
+b: /job:localhost/replica:0/task:0/cpu:0 
+I tensorflow/core/common_runtime/simple_placer.cc:818] b: /job:localhost/replica:0/task:0/cpu:0 
+a: /job:localhost/replica:0/task:0/cpu:0 
+I tensorflow/core/common_runtime/simple_placer.cc:818] a: /job:localhost/replica:0/task:0/cpu:0 
+[[ 22\.  28.] 
+ [ 49\.  64.]] 
+```
+
+1.  默认情况下，TensorFlow 会自动决定如何跨计算设备（CPU 和 GPU）分配计算，有时我们需要了解这些展示位置。这在加载早期的现有模型时非常有用，该模型在我们的计算机具有不同设备时在图中分配了硬展示位置。我们可以在配置中设置软放置以解决此问题，如下所示：
+
+```py
+config = tf.ConfigProto() 
+config.allow_soft_placement = True 
+sess_soft = tf.Session(config=config) 
+```
+
+1.  使用 GPU 时，TensorFlow 会自动占用 GPU 内存的很大一部分。虽然通常需要这样做，但我们可以采取措施更加小心 GPU 内存分配。虽然 TensorFlow 从未发布 GPU 内存，但我们可以通过设置 GPU 内存增长选项，将其分配缓慢增加到最大限制（仅在需要时），如下所示：
+
+```py
+config.gpu_options.allow_growth = True 
+sess_grow = tf.Session(config=config) 
+```
+
+1.  如果我们想对 TensorFlow 使用的 GPU 内存百分比设置硬限制，我们可以使用`config`设置`per_process_gpu_memory_fraction`，如下所示：
+
+```py
+config.gpu_options.per_process_gpu_memory_fraction = 0.4 
+sess_limited = tf.Session(config=config) 
+```
+
+1.  有时我们可能需要编写可靠的代码来确定它是否在 GPU 可用的情况下运行。 TensorFlow 具有内置功能，可以测试 GPU 是否可用。当我们想要编写在可用时利用 GPU 并为其分配特定操作的代码时，这很有用。这是通过以下代码完成的：
+
+```py
+if tf.test.is_built_with_cuda(): 
+    <Run GPU specific code here>
+```
+
+1.  如果我们需要为 GPU 分配特定操作，请输入以下代码。这将执行简单的计算并将操作分配给主 CPU 和两个辅助 GPU：
+
+```py
+with tf.device('/cpu:0'): 
+    a = tf.constant([1.0, 3.0, 5.0], shape=[1, 3]) 
+    b = tf.constant([2.0, 4.0, 6.0], shape=[3, 1]) 
+
+    with tf.device('/gpu:0'): 
+        c = tf.matmul(a,b) 
+        c = tf.reshape(c, [-1]) 
+
+    with tf.device('/gpu:1'): 
+        d = tf.matmul(b,a) 
+        flat_d = tf.reshape(d, [-1]) 
+
+    combined = tf.multiply(c, flat_d) 
+print(sess.run(combined)) 
+```
+
+## 工作原理
+
+当我们想在我们的机器上为 TensorFlow 操作指定特定设备时，我们需要知道 TensorFlow 如何引用这些设备。 TensorFlow 中的设备名称遵循以下约定：
+
+| 设备 | 设备名称 |
+| --- | --- | --- |
+| 主 CPU | `/CPU:0` |
+| 第二个 CPU | `/CPU:1` |
+| 主 GPU | `/GPU:0` |
+| 第二个 GPU | `/GPU:1` |
+| 第三个 GPU | `/GPU:2` |
+
+## 更多
+
+幸运的是，在云中运行 TensorFlow 现在比以往更容易。许多云计算服务提供商都提供 GPU 实例，其中包含主 CPU 和强大的 GPU。 Amazon Web Services（AWS）具有 G 实例和 P2 实例，允许使用功能强大的 GPU，为 TensorFlow 流程提供极快的速度。您甚至可以免费选择 AWS Machine Images（AMI），它将在安装了 TensorFlow 的 GPU 实例的情况下启动选定的实例。
+
+# 并行化 TensorFlow
+
+为了扩展 TensorFlow 并行化的范围，我们还可以以分布式方式在完全不同的机器上从我们的图执行单独的操作。这个秘籍将告诉你如何。
+
+## 准备
+
+在 TensorFlow 发布几个月后，谷歌发布了分布式 TensorFlow，它是对 TensorFlow 生态系统的一次重大升级，并且允许在不同的工作机器上设置 TensorFlow 集群，并分享训练和评估的计算任务楷模。使用分布式 TensorFlow 就像为工作器设置参数一样简单，然后为不同的工作器分配不同的工作。
+
+在这个秘籍中，我们将建立两个本地工作器并将他们分配到不同的工作。
+
+## 操作步骤
+
+1.  首先，我们加载 TensorFlow 并使用配置字典文件（端口`2222`和`2223`）定义我们的两个本地 worker，如下所示：
+
+```py
+import tensorflow as tf 
+# Cluster for 2 local workers (tasks 0 and 1): 
+cluster = tf.train.ClusterSpec({'local': ['localhost:2222', 'localhost:2223']}) 
+```
+
+1.  现在，我们将两个工作器连接到服务器并使用以下任务编号标记它们：
+
+```py
+server = tf.train.Server(cluster, job_name="local", task_index=0) 
+server = tf.train.Server(cluster, job_name="local", task_index=1) 
+```
+
+1.  现在我们将让每个工作器完成一项任务。第一个工作器将初始化两个矩阵（每个矩阵将是 25 乘 25）。第二个工作器将找到所有元素的总和。然后，我们将自动分配两个总和的总和并打印输出，如下所示：
+
+```py
+mat_dim = 25 
+matrix_list = {} 
+with tf.device('/job:local/task:0'): 
+    for i in range(0, 2): 
+        m_label = 'm_{}'.format(i) 
+        matrix_list[m_label] = tf.random_normal([mat_dim, mat_dim]) 
+# Have each worker calculate the sums 
+sum_outs = {} 
+with tf.device('/job:local/task:1'): 
+    for i in range(0, 2): 
+        A = matrix_list['m_{}'.format(i)] 
+        sum_outs['m_{}'.format(i)] = tf.reduce_sum(A) 
+    # Sum all the sums 
+    summed_out = tf.add_n(list(sum_outs.values())) 
+with tf.Session(server.target) as sess: 
+    result = sess.run(summed_out) 
+    print('Summed Values:{}'.format(result)) 
+```
+
+1.  输入上面的代码后，我们可以在命令提示符下运行以下命令：
+
+```py
+$ python3 parallelizing_tensorflow.py 
+I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:197] Initialize GrpcChannelCache for job local -> {0 -> localhost:2222, 1 -> localhost:2223} 
+I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:206] Started server with target: grpc://localhost:2222 
+I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:197] Initialize GrpcChannelCache for job local -> {0 -> localhost:2222, 1 -> localhost:2223} 
+I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:206] Started server with target: grpc://localhost:2223 
+I tensorflow/core/distributed_runtime/master_session.cc:928] Start master session 252bb6f530553002 with config:  
+Summed Values:-21.12611198425293 
+```
+
+## 工作原理
+
+使用分布式 TensorFlow 非常简单。您所要做的就是将工作器 IP 分配给具有名称的服务器。然后，可以手动或自动为工作器分配操作。
+
+# 将 TensorFlow 投入生产
+
+如果我们想在生产环境中使用我们的机器学习脚本，我们首先需要考虑一些要点作为最佳实践。在本节中，我们将概述其中的一些内容。
+
+## 准备
+
+在本文中，我们想总结并浓缩将 TensorFlow 投入生产的各种技巧。我们将介绍如何最好地保存和加载词汇表，图，变量和模型检查点。我们还将讨论如何使用 TensorFlow 的命令行参数解析器并更改 TensorFlow 的日志记录详细程度。
+
+## 操作步骤
+
+1.  运行 TensorFlow 程序时，我们可能需要检查内存中是否已存在其他图会话，或者在调试程序后是否清除了图会话。我们可以使用以下命令行来完成此任务：
+
+```py
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+```
+
+1.  在处理文本（或任何数据管道）时，我们需要确保我们保存处理数据的方式，以便我们可以以相同的方式处理未来的评估数据。例如，如果我们处理文本，我们需要确保我们可以保存并加载词汇表。以下代码是如何使用`JSON`库保存词汇表字典的示例：
+
+```py
+import json word_list = ['to', 'be', 'or', 'not', 'to', 'be']
+vocab_list = list(set(word_list))
+vocab2ix_dict = dict(zip(vocab_list, range(len(vocab_list))))
+ix2vocab_dict = {val:key for key,val in vocab2ix_dict.items()}
+
+# Save vocabulary
+import json
+with open('vocab2ix_dict.json', 'w') as file_conn:
+    json.dump(vocab2ix_dict, file_conn)
+
+# Load vocabulary
+with open('vocab2ix_dict.json', 'r') as file_conn:
+    vocab2ix_dict = json.load(file_conn)
+```
+
+> 在这里，我们以`JSON`格式保存了词汇词典，但我们也可以将其保存在`text`文件，`csv`甚至二进制格式中。如果词汇量很大，则首选二进制文件。您还可以考虑使用 Pickle 库来创建`pkl`二进制文件，但请注意，Pickle 文件在库和 Python 版本之间不能很好地转换。
+
+1.  为了保存模型图和变量，我们创建了一个`Saver()`操作并将其添加到图中。建议我们在训练期间定期保存模型。要保存模型，请输入以下代码：
+
+```py
+After model declaration, add a saving operations 
+saver = tf.train.Saver() 
+# Then during training, save every so often, referencing the training generation 
+for i in range(generations): 
+    ... 
+    if i%save_every == 0: 
+        saver.save(sess, 'my_model', global_step=step) 
+# Can also save only specific variables: 
+saver = tf.train.Saver({"my_var": my_variable})
+```
+
+> 请注意，`Saver()`操作也会采用其他参数。如前面的示例所示，它可以使用变量和张量字典来保存特定元素。每隔`n`小时也可以检查一次，定期执行保存操作。默认情况下，保存操作仅保留最后五个模型保存（出于空间考虑）。可以使用`maximum_to_keep`选项更改此设置。
+
+1.  在保存模型之前，请务必命名模型的重要操作。如果 TensorFlow 没有名称，则没有简单的方法来加载特定的占位符，操作或变量。 TensorFlow 中的大多数操作和函数都接受`name`参数，如下例所示：
+
+```py
+conv_weights = tf.Variable(tf.random_normal(), name='conv_weights') 
+loss = tf.reduce_mean(... , name='loss') 
+```
+
+1.  TensorFlow 还可以使用`tf.apps.flags`库在命令行上轻松执行参数解析。使用这些函数，我们可以定义字符串，浮点数，整数或布尔值的命令行参数，如下面的代码片段所示。使用这些标志定义，我们可以运行`tf.app.run()`，它将使用以下标志参数运行`main()`函数：
+
+```py
+tf.flags.DEFINE_string("worker_locations", "", "List of worker addresses.")
+tf.flags.DEFINE_float('learning_rate', 0.01, 'Initial learning rate.')
+tf.flags.DEFINE_integer('generations', 1000, 'Number of training generations.')
+tf.flags.DEFINE_boolean('run_unit_tests', False, 'If true, run tests.')
+FLAGS = tf.flags.FLAGS
+# Need to define a 'main' function for the app to run 
+def main(_): 
+    worker_ips = FLAGS.worker_locations.split(",") 
+    learning_rate = FLAGS.learning_rate 
+    generations = FLAGS.generations 
+    run_unit_tests = FLAGS.run_unit_tests
+
+# Run the Tensorflow app 
+if __name__ == "__main__":
+    # The following is looking for a "main()" function to run and will pass.
+    tf.app.run()
+    # Can modify this to be more custom:
+    tf.app.run(main=my_main_function(), argv=my_arguments)
+```
+
+1.  TensorFlow 具有内置日志记录，我们可以为其设置级别参数。我们可以设定的水平是`DEBUG`，`INFO`，`WARN`，`ERROR`和`FATAL`。默认为`WARN`，如下所示：
+
+```py
+tf.logging.set_verbosity(tf.logging.WARN) 
+# WARN is the default value, but to see more information, you can set it to 
+#    INFO or DEBUG 
+tf.logging.set_verbosity(tf.logging.DEBUG) 
+```
+
+## 工作原理
+
+在本节中，我们提供了在 TensorFlow 中创建生产级代码的提示。我们想介绍应用标志，模型保存和日志记录等概念，以便用户可以使用这些工具一致地编写代码，并了解在其他代码中看到这些工具时的含义。还有许多其他方法可以编写好的生产代码，但下面的秘籍中将显示完整的示例。
+
+# 生产环境 TensorFlow 的一个例子
+
+生产机器学习模型的一个好方法是将训练和评估程序分开。在本节中，我们将说明一个评估脚本，该脚本已经扩展到包括单元测试，模型保存和加载以及评估。
+
+## 准备
+
+在本文中，我们将向您展示如何使用上述标准实现评估脚本。代码实际上包含一个训练脚本和一个评估脚本，但是对于这个秘籍，我们只会向您展示评估脚本。提醒一下，两个脚本都可以在[在线 GitHub 仓库](https://github.com/nfmcclure/tensorflow_cookbook/)和 [Packt 官方仓库](https://github.com/nfmcclure/tensorflow_cookbook/)中看到。
+
+对于即将到来的示例，我们将实现第 9 章，回归神经网络中的第一个 RNN 示例，该示例试图预测文本消息是垃圾邮件还是非垃圾邮件。我们将假设 RNN 模型与词汇一起被训练和保存。
+
+## 操作步骤
+
+1.  首先，我们首先加载必要的库并声明 TensorFlow 应用标志，如下所示：
+
+```py
+import os 
+import re 
+import numpy as np 
+import tensorflow as tf 
+from tensorflow.python.framework import ops 
+ops.reset_default_graph() 
+# Define App Flags
+tf.flags.DEFINE_string("storage_folder", "temp", "Where to store model and data.")
+tf.flags.DEFINE_float('learning_rate', 0.0005, 'Initial learning rate.')
+tf.flags.DEFINE_float('dropout_prob', 0.5, 'Per to keep probability for dropout.')
+tf.flags.DEFINE_integer('epochs', 20, 'Number of epochs for training.')
+tf.flags.DEFINE_integer('batch_size', 250, 'Batch Size for training.')
+tf.flags.DEFINE_integer('rnn_size', 15, 'RNN feature size.')
+tf.flags.DEFINE_integer('embedding_size', 25, 'Word embedding size.')
+tf.flags.DEFINE_integer('min_word_frequency', 20, 'Word frequency cutoff.')
+tf.flags.DEFINE_boolean('run_unit_tests', False, 'If true, run tests.')
+
+FLAGS = tf.flags.FLAGS
+```
+
+1.  接下来，我们声明一个文本清理函数。这与训练脚本中使用的清洁函数相同，如下所示：
+
+```py
+def clean_text(text_string): 
+    text_string = re.sub(r'([^sw]|_|[0-9])+', '', text_string) 
+    text_string = " ".join(text_string.split()) 
+    text_string = text_string.lower() 
+    return text_string 
+```
+
+1.  现在，我们需要加载以下词汇处理函数：
+
+```py
+def load_vocab(): 
+    vocab_path = os.path.join(FLAGS.storage_folder, "vocab") 
+    vocab_processor = tf.contrib.learn.preprocessing.VocabularyProcessor.restore(vocab_path) 
+    return vocab_processor 
+```
+
+1.  现在我们有了清理文本的方法，并且还有一个词汇处理器，我们可以将这些函数组合起来为给定的文本创建数据处理管道，如下所示：
+
+```py
+def process_data(input_data, vocab_processor): 
+    input_data = clean_text(input_data) 
+    input_data = input_data.split() 
+    processed_input = np.array(list(vocab_processor.transform(input_data))) 
+    return processed_input 
+```
+
+1.  接下来，我们需要一种方法来获取要评估的数据。为此，我们将要求用户在屏幕上键入文本。然后，我们将处理文本并返回以下处理过的文本：
+
+```py
+def get_input_data(): 
+    input_text = input("Please enter a text message to evaluate: ") 
+    vocab_processor = load_vocab() 
+    return process_data(input_text, vocab_processor)
+```
+
+> 对于此示例，我们通过要求用户键入来创建评估数据。虽然许多应用将通过提供的文件或 API 请求获取数据，但我们可以相应地更改此输入数据函数。
+
+1.  对于单元测试，我们需要使用以下代码确保我们的文本清理函数正常运行：
+
+```py
+class clean_test(tf.test.TestCase): 
+    # Make sure cleaning function behaves correctly 
+    def clean_string_test(self): 
+        with self.test_session(): 
+            test_input = '--Tensorflow's so Great! Dont you think so?   ' 
+            test_expected = 'tensorflows so great don you think so' 
+            test_out = clean_text(test_input) 
+            self.assertEqual(test_expected, test_out) 
+```
+
+1.  现在我们有了模型和数据，我们可以运行`main`函数。`main`函数将获取数据，设置图，加载变量，输入处理过的数据，然后打印输出，如下面的代码片段所示：
+
+```py
+def main(args): 
+    # Get flags 
+    storage_folder = FLAGS.storage_folder 
+    # Get user input text 
+    x_data = get_input_data() 
+
+    # Load model 
+    graph = tf.Graph() 
+    with graph.as_default(): 
+        sess = tf.Session() 
+        with sess.as_default(): 
+            # Load the saved meta graph and restore variables 
+            saver = tf.train.import_meta_graph("{}.meta".format(os.path.join(storage_folder, "model.ckpt"))) 
+            saver.restore(sess, os.path.join(storage_folder, "model.ckpt")) 
+            # Get the placeholders from the graph by name 
+            x_data_ph = graph.get_operation_by_name("x_data_ph").outputs[0] 
+            dropout_keep_prob = graph.get_operation_by_name("dropout_keep_prob").outputs[0] 
+            probability_outputs = graph.get_operation_by_name("probability_outputs").outputs[0] 
+            # Make the prediction 
+            eval_feed_dict = {x_data_ph: x_data, dropout_keep_prob: 1.0} 
+            probability_prediction = sess.run(tf.reduce_mean(probability_outputs, 0), eval_feed_dict) 
+
+            # Print output (Or save to file or DB connection?) 
+            print('Probability of Spam: {:.4}'.format(probability_prediction[1])) 
+```
+
+1.  最后，要运行`main()`函数或单元测试，请使用以下代码：
+
+```py
+if __name__ == "__main__": 
+    if FLAGS.run_unit_tests: 
+        # Perform unit tests 
+        tf.test.main() 
+    else: 
+        # Run evaluation 
+        tf.app.run() 
+```
+
+## 工作原理
+
+为了评估模型，我们能够使用 TensorFlow 的应用标志加载命令行参数，加载模型和词汇处理器，然后通过模型运行处理过的数据并进行预测。
+
+请记住通过命令行运行此脚本，并在创建模型和词汇表字典之前检查是否运行了训练脚本。
+
+# 使用 TensorFlow 服务
+
+在本节中，我们将向您展示如何设置 RNN 模型以预测 TensorFlow 上的垃圾邮件或非垃圾邮件文本消息。我们将首先说明如何以 protobuf 格式保存模型，然后将模型加载到本地服务器，监听端口`9000`以进行输入。
+
+## 准备
+
+我们通过鼓励读者阅读 [TensorFlow 服务网站](https://www.tensorflow.org/serving/serving_basic)上的官方文档和简短教程来开始本节。
+
+对于这个例子，我们将在第 9 章，循环神经网络中重用我们在预测垃圾邮件中使用的大部分 RNN 代码和 RNNs 秘籍。我们将更改模型保存代码，以便将 protobuf 模型保存在使用 TensorFlow 服务所需的正确文件夹结构中。
+
+> 请注意，本章中的所有脚本都应该从命令行 bash 提示符执行。
+
+有关更新的安装说明，[请访问官方安装站点](https://www.tensorflow.org/serving/setup)。正常安装就像向 Linux 源添加 gpg-key 并运行以下安装命令一样简单：
+
+```py
+$ sudo apt install tensorflow-model-server
+```
+
+## 操作步骤
+
+1.  在这里，我们将以与以前相同的方式开始，通过加载必要的库并设置 TensorFlow 标志，如下所示：
+
+```py
+import os
+import re
+import io
+import sys
+import requests
+import numpy as np
+import tensorflow as tf
+from zipfile import ZipFile
+from tensorflow.python.framework import ops
+
+ops.reset_default_graph()
+
+# Define App Flags
+tf.flags.DEFINE_string("storage_folder", "temp", "Where to store model and data.")
+tf.flags.DEFINE_float('learning_rate', 0.0005, 'Initial learning rate.')
+tf.flags.DEFINE_float('dropout_prob', 0.5, 'Per to keep probability for dropout.')
+tf.flags.DEFINE_integer('epochs', 20, 'Number of epochs for training.')
+tf.flags.DEFINE_integer('batch_size', 250, 'Batch Size for training.')
+tf.flags.DEFINE_integer('rnn_size', 15, 'RNN feature size.')
+tf.flags.DEFINE_integer('embedding_size', 25, 'Word embedding size.')
+tf.flags.DEFINE_integer('min_word_frequency', 20, 'Word frequency cutoff.')
+tf.flags.DEFINE_boolean('run_unit_tests', False, 'If true, run tests.')
+
+FLAGS = tf.flags.FLAGS
+
+```
+
+1.  我们将以完全相同的方式继续完成脚本。为简洁起见，我们只会在训练脚本中包含差异，这就是我们如何保存 protobuf 模型。这是通过在训练完成后插入以下代码来完成的：
+
+> 请注意此代码与教程代码的相似之处。这里的主要区别在于模型名称，版本号以及我们正在保存 RNN 而不是 CNN 的事实。
+
+```py
+# Save the finished model for TensorFlow Serving (pb file)
+# Here, it's our storage folder / version number
+out_path = os.path.join(tf.compat.as_bytes(os.path.join(storage_folder, '1')))
+print('Exporting finished model to : {}'.format(out_path))
+builder = tf.saved_model.builder.SavedModelBuilder(out_path)
+
+# Build the signature_def_map.
+classification_inputs = tf.saved_model.utils.build_tensor_info(x_data_ph)
+classification_outputs_classes = tf.saved_model.utils.build_tensor_info(rnn_model_outputs)
+
+classification_signature = (tf.saved_model.signature_def_utils.build_signature_def(
+                inputs={tf.saved_model.signature_constants.CLASSIFY_INPUTS:   
+                        classification_inputs},
+                outputs={tf.saved_model.signature_constants.CLASSIFY_OUTPUT_CLASSES: 
+                         classification_outputs_classes},
+                method_name=tf.saved_model.signature_constants.CLASSIFY_METHOD_NAME))
+
+        tensor_info_x = tf.saved_model.utils.build_tensor_info(x_data_ph)
+        tensor_info_y = tf.saved_model.utils.build_tensor_info(y_output_ph)
+
+        prediction_signature = (
+            tf.saved_model.signature_def_utils.build_signature_def(
+                inputs={'texts': tensor_info_x},
+                outputs={'scores': tensor_info_y},
+                method_name=tf.saved_model.signature_constants.PREDICT_METHOD_NAME))
+
+        legacy_init_op = tf.group(tf.tables_initializer(), name='legacy_init_op')
+        builder.add_meta_graph_and_variables(
+            sess, [tf.saved_model.tag_constants.SERVING],
+            signature_def_map={
+                'predict_spam': prediction_signature,
+                tf.saved_model.signature_constants.DEFAULT_SERVING_SIGNATURE_DEF_KEY:
+                    classification_signature,
+            },
+            legacy_init_op=legacy_init_op)
+
+        builder.save()
+
+        print('Done exporting!')
+```
+
+1.  对我们来说，重要的是要意识到 TensorFlow Serving 需要特定的文件或文件夹结构来加载模型。该脚本将以以下格式安装文件：
+
+![](img/4b09d4e9-2abf-4884-8a45-ddef5b4247db.png)
+
+A screenshot of the directory structure that TensorFlow Serving expects.
+
+上面的屏幕截图显示了所需的目录结构。在其中，我们有我们定义的数据目录`temp`，然后是我们的模型版本号`1`。在版本号目录中，我们保存我们的 protobuf 模型和一个包含要保存的所需变量的`variables`文件夹。
+
+> 我们应该知道，在我们的数据目录中，TensorFlow 服务将查找整数文件夹。 TensorFlow 服务将自动启动并在最大整数下获取模型。这意味着要部署新模型，我们需要将其标记为版本 2，并将其粘贴在也标记为`2`的新文件夹下。然后，TensorFlow 服务将自动获取模型。
+
+1.  要启动我们的服务器，我们使用端口，`model_name`和`model_base_path`参数调用命令`tensorflow_model_server`。然后，TensorFlow Serving 查找版本号文件夹并选择最大版本编号的模型。然后它将它部署到机器上，命令通过作为参数给出的端口运行。在以下示例中，我们在本地计算机（`0.0.0.0`）上运行，并且接受的默认端口是`9000`：
+
+```py
+$ tensorflow_model_server --port=9000 --model_name=spam_ham --model_base_path=<directory of our code>/tensorflow_cookbook/10_Taking_TensorFlow_to_Production/06_Using_TensorFlow_Serving/temp/
+
+2018-08-09 12:05:16.206712: I tensorflow_serving/model_servers/main.cc:153] Building single TensorFlow model file config: model_name: spam_ham model_base_path: .../temp/
+2018-08-09 12:05:16.206874: I tensorflow_serving/model_servers/server_core.cc:459] Adding/updating models.
+2018-08-09 12:05:16.206903: I tensorflow_serving/model_servers/server_core.cc:514] (Re-)adding model: spam_ham
+2018-08-09 12:05:16.307681: I tensorflow_serving/core/basic_manager.cc:716] Successfully reserved resources to load servable {name: spam_ham version: 1}
+2018-08-09 12:05:16.307744: I tensorflow_serving/core/loader_harness.cc:66] Approving load for servable version {name: spam_ham version: 1}
+2018-08-09 12:05:16.307773: I tensorflow_serving/core/loader_harness.cc:74] Loading servable version {name: spam_ham version: 1}
+2018-08-09 12:05:16.307829: I external/org_tensorflow/tensorflow/contrib/session_bundle/bundle_shim.cc:360] Attempting to load native SavedModelBundle in bundle-shim from: .../temp/1
+2018-08-09 12:05:16.307867: I external/org_tensorflow/tensorflow/cc/saved_model/loader.cc:242] Loading SavedModel with tags: { serve }; from: .../temp/1
+2018-08-09 12:05:16.313811: I external/org_tensorflow/tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
+2018-08-09 12:05:16.325866: I external/org_tensorflow/tensorflow/cc/saved_model/loader.cc:161] Restoring SavedModel bundle.
+2018-08-09 12:05:16.329290: I external/org_tensorflow/tensorflow/cc/saved_model/loader.cc:196] Running LegacyInitOp on SavedModel bundle.
+2018-08-09 12:05:16.332936: I external/org_tensorflow/tensorflow/cc/saved_model/loader.cc:291] SavedModel load for tags { serve }; Status: success. Took 25074 microseconds.
+2018-08-09 12:05:16.332972: I tensorflow_serving/servables/tensorflow/saved_model_warmup.cc:83] No warmup data file found at .../temp/1/assets.extra/tf_serving_warmup_requests
+2018-08-09 12:05:16.333335: I tensorflow_serving/core/loader_harness.cc:86] Successfully loaded servable version {name: spam_ham version: 1}
+2018-08-09 12:05:16.334678: I tensorflow_serving/model_servers/main.cc:323] Running ModelServer at 0.0.0.0:9000 ...
+```
+
+1.  我们现在可以将二进制数据提交给`<host>:9000`并返回显示结果的 JSON 响应。我们可以通过任何机器和任何编程语言来完成。不必依赖客户端拥有 TensorFlow 的本地副本是非常有用的。
+
+## 工作原理
+
+如果我们将早期的生产规模部分与前一部分进行比较，主要区别在于我们在主机上部署了可以响应传入请求的模型服务器。前面的部分是一个很好的设置示例，用于执行批量结果或在可以加载 TensorFlow 的机器上工作，但秘籍不是很擅长部署可用的模型，可以进行计算，并将结果返回给任何客户。在本节中，我们将了解如何处理这种架构，如下表所示：
+
+|  | 第 5 节 - 批量作业 | 第 6 节 - 通过 TensorFlow 服务的作业 |
+| --- | --- | --- |
+| 优点 | 不依赖于网络连接或主机 | 结果与客户端结构无关，唯一的要求是 Numpy 数组的正确格式化的二进制文件 |
+| 缺点 | 客户端必须具有 TensorFlow 和模型文件 | 依靠可用的主机 |
+| 理想的用途 | 大批量数据 | 生产服务始终可用，通常是小的请求 |
+
+当然，每种方法的优缺点都值得商榷，两者都能满足每种情况的要求。还有许多其他可用的架构可以满足不同的需求，例如 Docker，Kubernetes，Luigi，Django/Flask，Celery，AWS 和 Azure。
+
+## 更多
+
+本章未涉及的架构工具和资源的链接如下：
+
+*   [在 Docker 中使用 TensorFlow 服务](https://www.tensorflow.org/serving/docker)
+*   [在 Kubernetes 中使用 TensorFlow 服务](https://www.tensorflow.org/serving/serving_inception)
+*   [Luigi，批量作业的管道工具](https://github.com/spotify/luigi)
+*   [在 Flask 中使用 TensorFlow](https://guillaumegenthial.github.io/serving.html)
+*   [用于分布式任务排队的 Python 框架](http://www.celeryproject.org/community/)
+*   [如何在 TensorFlow 模型中使用 AWS lambdas](https://aws.amazon.com/blogs/machine-learning/how-to-deploy-deep-learning-models-with-aws-lambda-and-tensorflow/)
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch11.md b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch11.md
new file mode 100644
index 00000000..670f9a11
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/ch11.md
@@ -0,0 +1,997 @@
+# 十一、更多 TensorFlow
+
+在本章中，我们将介绍以下秘籍：
+
+*   在 TensorBoard 中可视化的图
+*   使用遗传算法
+*   使用 K 均值聚类
+*   求解常微分方程组
+*   使用随机森林
+*   使用 TensorFlow 和 Keras
+
+本章中出现的所有代码均可在 [Github](https://github.com/nfmcclure/tensorflow_cookbook) 和 [Packt 仓库](https://github.com/PacktPublishing/TensorFlow-Machine-Learning-Cookbook-Second-Edition)中在线获取。
+
+# 介绍
+
+在本书中，我们已经看到 TensorFlow 能够实现许多模型，但 TensorFlow 可以做更多。本章将向您展示其中的一些内容。我们将首先展示如何使用 TensorBoard 的各个方面，这是 TensorFlow 附带的一项功能，它允许我们在模型训练时可视化摘要指标，图和图像。本章中的其余秘籍将展示如何使用 TensorFlow 的`group()`函数进行逐步更新。该函数将允许我们实现遗传算法，执行 k 均值聚类，求解 ODE 系统，甚至创建梯度提升随机森林。
+
+# 可视化 TensorBoard 中的图
+
+监视和排除机器学习算法可能是一项艰巨的任务，尤其是在您知道结果之前必须等待很长时间才能完成训练。为了解决这个问题，TensorFlow 包含一个名为 TensorBoard 的计算图可视化工具。使用 TensorBoard，即使在训练期间，我们也可以可视化和绘制重要值（损失，准确率，批次训练时间等）。
+
+## 准备
+
+为了说明我们可以使用 TensorBoard 的各种方法，我们将从第 3 章，线性回归中的线性回归方法的 TensorFlow 方法重新实现线性回归模型。我们将生成带有误差的线性数据，并使用 TensorFlow 损失和反向传播来匹配数据线。我们将展示如何监控数值，值集的直方图以及如何在 TensorBoard 中创建图像。
+
+## 操作步骤
+
+1.  首先，我们将加载脚本所需的库：
+
+```py
+import os 
+import io 
+import time 
+import numpy as np 
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+```
+
+1.  我们现在将初始化一个会话并创建一个可以将 TensorBoard 摘要写入`tensorboard`文件夹的摘要编写器：
+
+```py
+sess = tf.Session() 
+# Create a visualizer object 
+summary_writer = tf.summary.FileWriter('tensorboard', sess.graph)
+```
+
+1.  我们需要确保`tensorboard`文件夹存在，以便摘要编写者编写`tensorboard`日志：
+
+```py
+if not os.path.exists('tensorboard'): 
+   os.makedirs('tensorboard') 
+```
+
+1.  我们现在将设置模型参数并生成模型的线性数据。请注意，由于我们生成数据的方式，我们的真实斜率值是`2`。我们将随着时间的推移想象出变化的斜率，并看到它接近真正的值：
+
+```py
+batch_size = 50 
+generations = 100 
+# Create sample input data 
+x_data = np.arange(1000)/10\. 
+true_slope = 2\. 
+y_data = x_data * true_slope + np.random.normal(loc=0.0, scale=25, size=1000) 
+```
+
+1.  接下来，我们将数据集拆分为训练和测试集：
+
+```py
+train_ix = np.random.choice(len(x_data), size=int(len(x_data)*0.9), replace=False) 
+test_ix = np.setdiff1d(np.arange(1000), train_ix) 
+x_data_train, y_data_train = x_data[train_ix], y_data[train_ix] 
+x_data_test, y_data_test = x_data[test_ix], y_data[test_ix] 
+```
+
+1.  现在我们可以创建占位符，变量，模型运算，损失和优化操作：
+
+```py
+x_graph_input = tf.placeholder(tf.float32, [None]) 
+y_graph_input = tf.placeholder(tf.float32, [None]) 
+# Declare model variables 
+m = tf.Variable(tf.random_normal([1], dtype=tf.float32), name='Slope') 
+# Declare model 
+output = tf.multiply(m, x_graph_input, name='Batch_Multiplication') 
+# Declare loss function (L1) 
+residuals = output - y_graph_input 
+l2_loss = tf.reduce_mean(tf.abs(residuals), name="L2_Loss") 
+# Declare optimization function 
+my_optim = tf.train.GradientDescentOptimizer(0.01) 
+train_step = my_optim.minimize(l2_loss) 
+```
+
+1.  我们现在可以创建一个 TensorBoard 操作来汇总标量值。我们将总结的标量值是模型的斜率估计值：
+
+```py
+with tf.name_scope('Slope_Estimate'): 
+    tf.summary.scalar('Slope_Estimate', tf.squeeze(m))
+```
+
+1.  我们可以添加到 TensorBoard 的另一个摘要是直方图摘要，它在张量中输入多个值并输出图和直方图：
+
+```py
+with tf.name_scope('Loss_and_Residuals'): 
+    tf.summary.histogram('Histogram_Errors', tf.squeeze(l1_loss))
+    tf.summary.histogram('Histogram_Residuals', tf.squeeze(residuals)) 
+```
+
+1.  创建这些摘要操作后，我们需要创建一个将所有摘要组合在一起的摘要合并操作。然后我们可以初始化模型变量：
+
+```py
+summary_op = tf.summary.merge_all()
+# Initialize Variables 
+init = tf.global_variables_initializer()
+sess.run(init) 
+```
+
+1.  现在，我们可以训练线性模型并编写每一代的摘要：
+
+```py
+for i in range(generations): 
+    batch_indices = np.random.choice(len(x_data_train), size=batch_size) 
+    x_batch = x_data_train[batch_indices] 
+    y_batch = y_data_train[batch_indices] 
+    _, train_loss, summary = sess.run([train_step, l2_loss, summary_op], 
+                             feed_dict={x_graph_input: x_batch, 
+                                        y_graph_input: y_batch}) 
+
+    test_loss, test_resids = sess.run([l2_loss, residuals], feed_dict={x_graph_input: x_data_test, y_graph_input: y_data_test}) 
+
+   if (i+1)%10==0: 
+        print('Generation {} of {}. Train Loss: {:.3}, Test Loss: {:.3}.'.format(i+1, generations, train_loss, test_loss)) 
+
+    log_writer = tf.train.SummaryWriter('tensorboard') 
+    log_writer.add_summary(summary, i) 
+```
+
+1.  为了将最终的线性拟合图与 TensorBoard 中的数据点放在一起，我们必须以`protobuf`格式创建图的图像。为此，我们将创建一个输出`protobuf`图像的函数：
+
+```py
+def gen_linear_plot(slope): 
+    linear_prediction = x_data * slope 
+    plt.plot(x_data, y_data, 'b.', label='data') 
+    plt.plot(x_data, linear_prediction, 'r-', linewidth=3, label='predicted line') 
+    plt.legend(loc='upper left') 
+    buf = io.BytesIO() 
+    plt.savefig(buf, format='png') 
+    buf.seek(0) 
+    return(buf) 
+```
+
+1.  现在，我们可以创建`protobuf`图像并将其添加到 TensorBoard：
+
+```py
+# Get slope value
+slope = sess.run(m)
+
+# Generate the linear plot in buffer
+plot_buf = gen_linear_plot(slope[0])
+
+# Convert PNG buffer to TF image
+image = tf.image.decode_png(plot_buf.getvalue(), channels=4)
+
+# Add the batch dimension
+image = tf.expand_dims(image, 0)
+
+# Add image summary
+image_summary_op = tf.summary.image("Linear_Plot", image)
+image_summary = sess.run(image_summary_op)
+log_writer.add_summary(image_summary, i)
+log_writer.close()
+```
+
+Be careful writing image summaries too often to TensorBoard. For example, if we were to write an image summary every generation for 10,000 generations, that would generate 10,000 images worth of summary data. This tends to eat up disk space very quickly.
+
+## 更多
+
+1.  由于我们要从命令行运行描述的 python 脚本，我们打开命令提示符并运行以下命令：
+
+```py
+$ python3 using_tensorboard.py 
+
+Run the command: $tensorboard --logdir="tensorboard"   Then navigate to http://127.0.0.0:6006 
+Generation 10 of 100\. Train Loss: 20.4, Test Loss: 20.5\. 
+Generation 20 of 100\. Train Loss: 17.6, Test Loss: 20.5\. 
+Generation 90 of 100\. Train Loss: 20.1, Test Loss: 20.5\. 
+Generation 100 of 100\. Train Loss: 19.4, Test Loss: 20.5\. 
+```
+
+1.  然后我们将运行前面指定的命令来启动 tensorboard：
+
+```py
+$ tensorboard --logdir="tensorboard" Starting tensorboard b'29' on port 6006 (You can navigate to http://127.0.0.1:6006) 
+```
+
+以下是我们在 TensorBoard 中可以看到的示例：
+
+![](img/d5398887-9131-4018-8747-b8b41123fb35.png)
+
+图 1：标量值，我们的斜率估计，在张量板中可视化
+
+在这里，我们可以看到我们的标量总结的 100 代的绘图，斜率估计。事实上，我们可以看到它确实接近`2`的真正值：
+
+![](img/04e3b750-b1f3-4860-b205-32e252efd62d.png)
+
+图 2：在这里，我们可视化模型的误差和残差的直方图
+
+上图显示了查看直方图摘要的一种方法，可以将其视为多个折线图：
+
+![](img/9b927ace-a351-4d41-87ef-1b624542ac23.png)
+
+图 3：张量板中插入的图片
+
+前面是我们以`protobuf`格式放入的最终拟合和数据点图，并插入到 TensorBoard 中的图像摘要中。
+
+# 使用遗传算法
+
+TensorFlow 还可用于更新我们可以在计算图中表达的任何迭代算法。一种这样的迭代算法是遗传算法，即优化过程。
+
+## 准备
+
+在本文中，我们将说明如何实现简单的遗传算法。遗传算法是优化任何参数空间（离散，连续，平滑，非平滑等）的一种方法。我们的想法是创建一组随机初始化的解决方案，并应用选择，重组和变异来生成新的（可能更好的）子解决方案。整个想法取决于我们可以通过查看个人解决问题的程度来计算个体解决方案的适用性。
+
+通常，遗传算法的概要是从随机初始化的群体开始，根据它们的适应性对它们进行排序，然后选择最适合的个体来随机重组（或交叉）以创建新的子解决方案。然后，这些子解决方案会稍微突变，以产生新的和看不见的改进，然后再添加回父群体。在我们将子代和父代结合起来之后，我们再次重复整个过程。
+
+停止遗传算法的标准各不相同，但出于我们的目的，我们将迭代它们一定数量的世代。当我们最适合的人达到理想的适应水平或者在这么多代之后最大适应度没有改变时，我们也可以停止。
+
+对于这个秘籍，我们将简单地说明如何在 Tensorflow 中执行此操作。我们要解决的问题是生成一个最接近地面实况函数的个体（50 个浮点数的数组）`f(x) = sin(2πx / 50)`。适应度将是个体与地面事实之间的均方误差（越高越好）的负值。
+
+## 操作步骤
+
+1.  我们首先加载脚本所需的库：
+
+```py
+import os 
+import numpy as np 
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+```
+
+1.  接下来，我们将设置遗传算法的参数。在这里，我们将有`100`个体，每个个体的长度为`50`。选择百分比为 20%（保持前 20 名个人）。突变将被设置为特征数量的倒数，这是突变开始的常见位置。这意味着我们希望每个子解决方案的一个特征发生变化。我们将为`200`世代运行遗传算法：
+
+```py
+pop_size = 100 
+features = 50 
+selection = 0.2 
+mutation = 1./ features 
+generations = 200 
+num_parents = int(pop_size*selection) 
+num_children = pop_size - num_parents 
+```
+
+1.  我们将初始化图会话并创建基础事实函数，我们将使用它来快速计算适应度：
+
+```py
+sess = tf.Session() 
+# Create ground truth 
+truth = np.sin(2*np.pi*(np.arange(features, dtype=np.float32))/features) 
+```
+
+1.  接下来，我们将`population`初始化为具有随机正常输入的 TensorFlow 变量：
+
+```py
+population = tf.Variable(np.random.randn(pop_size, features), dtype=tf.float32) 
+```
+
+1.  我们现在可以为遗传算法创建占位符。占位符是为了事实，也是为了每一代都会改变的数据。由于我们希望父代之间的交叉位置发生变化，并且变异概率/值会发生变化，因此这些将是我们模型中的占位符：
+
+```py
+truth_ph = tf.placeholder(tf.float32, [1, features]) 
+crossover_mat_ph = tf.placeholder(tf.float32, [num_children, features]) 
+mutation_val_ph = tf.placeholder(tf.float32, [num_children, features]) 
+```
+
+1.  现在，我们将计算人口`fitness`（负均方误差），并找到表现最佳的人：
+
+```py
+fitness = -tf.reduce_mean(tf.square(tf.subtract(population, truth_ph)), 1) 
+top_vals, top_ind = tf.nn.top_k(fitness, k=pop_size) 
+```
+
+1.  为了达到结果和绘图目的，我们还希望检索人群中最适合的个体：
+
+```py
+best_val = tf.reduce_min(top_vals) 
+best_ind = tf.argmin(top_vals, 0) 
+best_individual = tf.gather(population, best_ind) 
+```
+
+1.  接下来，我们对父代群体进行排序，并切断表现最佳的个体，使其成为下一代的父代：
+
+```py
+population_sorted = tf.gather(population, top_ind) 
+parents = tf.slice(population_sorted, [0, 0], [num_parents, features]) 
+```
+
+1.  现在，我们将通过创建随机洗牌的两个父矩阵来创建子项。然后，我们将父矩阵乘以 1 和 0 的交叉矩阵，我们将为占位符生成每一代：
+
+```py
+# Indices to shuffle-gather parents 
+rand_parent1_ix = np.random.choice(num_parents, num_children) 
+rand_parent2_ix = np.random.choice(num_parents, num_children) 
+# Gather parents by shuffled indices, expand back out to pop_size too 
+rand_parent1 = tf.gather(parents, rand_parent1_ix) 
+rand_parent2 = tf.gather(parents, rand_parent2_ix) 
+rand_parent1_sel = tf.multiply(rand_parent1, crossover_mat_ph) 
+rand_parent2_sel = tf.multiply(rand_parent2, tf.subtract(1., crossover_mat_ph)) 
+children_after_sel = tf.add(rand_parent1_sel, rand_parent2_sel) 
+```
+
+1.  最后的步骤是改变子项，我们将通过向子矩阵中的少量条目添加随机正常量并将此矩阵连接回父族：
+
+```py
+mutated_children = tf.add(children_after_sel, mutation_val_ph) 
+# Combine children and parents into new population 
+new_population = tf.concat(0, [parents, mutated_children]) 
+```
+
+1.  我们模型的最后一步是使用 TensorFlow 的`group()`操作将新种群分配给旧种群的变量：
+
+```py
+step = tf.group(population.assign(new_population)) 
+```
+
+1.  我们现在可以初始化模型变量，如下所示：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  最后，我们遍历世代，重新创建随机交叉和变异矩阵并更新每一代的人口：
+
+```py
+for i in range(generations): 
+    # Create cross-over matrices for plugging in. 
+    crossover_mat = np.ones(shape=[num_children, features]) 
+    crossover_point = np.random.choice(np.arange(1, features-1, step=1), num_children) 
+    for pop_ix in range(num_children): 
+        crossover_mat[pop_ix,0:crossover_point[pop_ix]]=0\. 
+    # Generate mutation probability matrices 
+    mutation_prob_mat = np.random.uniform(size=[num_children, features]) 
+    mutation_values = np.random.normal(size=[num_children, features]) 
+    mutation_values[mutation_prob_mat >= mutation] = 0 
+
+    # Run GA step 
+    feed_dict = {truth_ph: truth.reshape([1, features]), 
+                 crossover_mat_ph: crossover_mat, 
+                 mutation_val_ph: mutation_values} 
+    step.run(feed_dict, session=sess) 
+    best_individual_val = sess.run(best_individual, feed_dict=feed_dict) 
+
+    if i % 5 == 0: 
+       best_fit = sess.run(best_val, feed_dict = feed_dict) 
+       print('Generation: {}, Best Fitness (lowest MSE): {:.2}'.format(i, -best_fit)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Generation: 0, Best Fitness (lowest MSE): 1.5 
+Generation: 5, Best Fitness (lowest MSE): 0.83 
+Generation: 10, Best Fitness (lowest MSE): 0.55 
+Generation: 185, Best Fitness (lowest MSE): 0.085 
+Generation: 190, Best Fitness (lowest MSE): 0.15 
+Generation: 195, Best Fitness (lowest MSE): 0.083 
+```
+
+## 工作原理
+
+在本文中，我们向您展示了如何使用 TensorFlow 运行简单的遗传算法。为了验证它是否有效，我们还可以在一个图上查看最合适的个体解决方案和基本事实：
+
+![](img/5fc75558-0092-41f5-a510-3072cdc4741e.png)
+
+图 4：200 代后的真实情况和最适合个体的绘图图。我们可以看到，最合适的个体非常接近真相
+
+## 更多
+
+遗传算法有许多变化。我们可以有两个具有两个不同适合度标准的父代群体（例如，最低 MSE 和平滑度）。我们可以对突变值施加限制，使其不大于 1 或小于 -1。我们可以进行许多不同的更改，这些更改会有很大差异，具体取决于我们要优化的问题。对于这个人为的问题，很容易计算出适应度，但对于大多数遗传算法来说，计算适应度是一项艰巨的任务。例如，如果我们想使用遗传算法来优化卷积神经网络的架构，我们可以让个体成为参数数组。参数可以代表每个卷积层的滤波器大小，步幅大小等。这种个体的适应性将是在通过数据集的固定量的迭代之后的分类的准确率。如果我们在这个人口中有 100 个人，我们将不得不为每一代评估 100 个不同的 CNN 模型。这在计算上非常强烈。
+
+在使用遗传算法解决问题之前，明智的做法是弄清楚计算个体的`fitness`需要多长时间。如果此操作耗时，遗传算法可能不是最佳使用工具。
+
+# 使用 K 均值聚类
+
+TensorFlow 还可用于实现迭代聚类算法，例如 K 均值。在本文中，我们展示了在`iris`数据集上使用 K 均值的示例。
+
+## 准备
+
+我们在本书中探讨的几乎所有机器学习模型都是监督模型。 TensorFlow 非常适合这些类型的问题。但是，如果我们愿意，我们也可以实现无监督的模型。例如，此秘籍将实现 K 均值聚类。
+
+我们将实现聚类的数据集是`iris`数据集。这是一个很好的数据集的原因之一是因为我们已经知道有三种不同的目标（三种类型的鸢尾花）。这让我们知道我们正在寻找数据中的三个不同的集群。
+
+我们将`iris`数据集聚类为三组，然后将这些聚类的准确率与实际标签进行比较。
+
+## 操作步骤
+
+1.  首先，我们加载必要的库。我们还从`sklearn`加载了一些 PCA 工具，以便我们可以将结果数据从四维更改为二维，以实现可视化目的：
+
+```py
+import numpy as np 
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+from sklearn import datasets 
+from scipy.spatial import cKDTree 
+from sklearn.decomposition import PCA 
+from sklearn.preprocessing import scale 
+```
+
+1.  我们启动图会话，并加载`iris`数据集：
+
+```py
+sess = tf.Session() 
+iris = datasets.load_iris() 
+num_pts = len(iris.data) 
+num_feats = len(iris.data[0]) 
+```
+
+1.  我们现在将设置组，代，并创建图所需的变量：
+
+```py
+k=3  
+generations = 25 
+data_points = tf.Variable(iris.data) 
+cluster_labels = tf.Variable(tf.zeros([num_pts], dtype=tf.int64)) 
+```
+
+1.  我们需要的下一个变量是每组的质心。我们将通过随机选择`iris`数据集的三个不同点来初始化 k-means 算法的质心：
+
+```py
+rand_starts = np.array([iris.data[np.random.choice(len(iris.data))] for _ in range(k)]) 
+centroids = tf.Variable(rand_starts) 
+```
+
+1.  现在，我们需要计算每个数据点和每个`centroids`之间的距离。我们通过将`centroids`扩展为矩阵来实现这一点，对数据点也是如此。然后我们将计算两个矩阵之间的欧几里德距离：
+
+```py
+centroid_matrix = tf.reshape(tf.tile(centroids, [num_pts, 1]), [num_pts, k, num_feats]) 
+point_matrix = tf.reshape(tf.tile(data_points, [1, k]), [num_pts, k, num_feats]) 
+distances = tf.reduce_sum(tf.square(point_matrix - centroid_matrix), reduction_indices=2) 
+```
+
+1.  `centroids`赋值是每个数据点最接近的`centroids`（最小距离）：
+
+```py
+centroid_group = tf.argmin(distances, 1) 
+```
+
+1.  现在，我们必须计算组平均值以获得新的质心：
+
+```py
+def data_group_avg(group_ids, data): 
+    # Sum each group 
+    sum_total = tf.unsorted_segment_sum(data, group_ids, 3) 
+    # Count each group 
+    num_total = tf.unsorted_segment_sum(tf.ones_like(data), group_ids, 3) 
+    # Calculate average 
+    avg_by_group = sum_total/num_total 
+    return(avg_by_group) 
+means = data_group_avg(centroid_group, data_points) 
+update = tf.group(centroids.assign(means), cluster_labels.assign(centroid_group)) 
+```
+
+1.  接下来，我们初始化模型变量：
+
+```py
+init = tf.global_variables_initializer() 
+sess.run(init) 
+```
+
+1.  我们将遍历几代并相应地更新每个组的质心：
+
+```py
+for i in range(generations): 
+    print('Calculating gen {}, out of {}.'.format(i, generations)) 
+    _, centroid_group_count = sess.run([update, centroid_group]) 
+    group_count = [] 
+    for ix in range(k): 
+        group_count.append(np.sum(centroid_group_count==ix)) 
+    print('Group counts: {}'.format(group_count)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Calculating gen 0, out of 25\. Group counts: [50, 28, 72] Calculating gen 1, out of 25\. Group counts: [50, 35, 65] Calculating gen 23, out of 25\. Group counts: [50, 38, 62] Calculating gen 24, out of 25\. Group counts: [50, 38, 62] 
+```
+
+1.  为了验证我们的聚类，我们可以使用聚类进行预测。我们现在看到有多少数据点位于相同鸢尾种类的相似簇中：
+
+```py
+[centers, assignments] = sess.run([centroids, cluster_labels]) 
+def most_common(my_list): 
+    return(max(set(my_list), key=my_list.count)) 
+label0 = most_common(list(assignments[0:50])) 
+label1 = most_common(list(assignments[50:100])) 
+label2 = most_common(list(assignments[100:150])) 
+group0_count = np.sum(assignments[0:50]==label0) 
+group1_count = np.sum(assignments[50:100]==label1) 
+group2_count = np.sum(assignments[100:150]==label2) 
+accuracy = (group0_count + group1_count + group2_count)/150\. 
+print('Accuracy: {:.2}'.format(accuracy)) 
+```
+
+1.  这产生以下输出：
+
+```py
+Accuracy: 0.89 
+```
+
+1.  为了直观地看到我们的分组，如果它们确实已经分离出`iris`物种，我们将使用 PCA 将四维转换为二维，并绘制数据点和组。在 PCA 分解之后，我们在 x-y 值网格上创建预测，以绘制颜色图：
+
+```py
+pca_model = PCA(n_components=2) 
+reduced_data = pca_model.fit_transform(iris.data) 
+# Transform centers 
+reduced_centers = pca_model.transform(centers) 
+# Step size of mesh for plotting 
+h = .02 
+x_min, x_max = reduced_data[:, 0].min() - 1, reduced_data[:, 0].max() + 1 
+y_min, y_max = reduced_data[:, 1].min() - 1, reduced_data[:, 1].max() + 1 
+xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))  
+# Get k-means classifications for the grid points 
+xx_pt = list(xx.ravel()) 
+yy_pt = list(yy.ravel()) 
+xy_pts = np.array([[x,y] for x,y in zip(xx_pt, yy_pt)]) 
+mytree = cKDTree(reduced_centers) 
+dist, indexes = mytree.query(xy_pts) 
+indexes = indexes.reshape(xx.shape) 
+```
+
+1.  并且，这里是`matplotlib`代码将我们的发现结合在一个绘图上。这个密码的绘图部分很大程度上改编自 [scikit-learn](http://scikit-learn.org/) [文档网站上的演示](http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html)：
+
+```py
+plt.clf() 
+plt.imshow(indexes, interpolation='nearest', 
+           extent=(xx.min(), xx.max(), yy.min(), yy.max()), 
+           cmap=plt.cm.Paired, 
+           aspect='auto', origin='lower') 
+# Plot each of the true iris data groups 
+symbols = ['o', '^', 'D'] 
+label_name = ['Setosa', 'Versicolour', 'Virginica'] 
+for i in range(3): 
+    temp_group = reduced_data[(i*50):(50)*(i+1)] 
+    plt.plot(temp_group[:, 0], temp_group[:, 1], symbols[i], markersize=10, label=label_name[i]) 
+# Plot the centroids as a white X 
+plt.scatter(reduced_centers[:, 0], reduced_centers[:, 1], 
+            marker='x', s=169, linewidths=3, 
+            color='w', zorder=10) 
+plt.title('K-means clustering on Iris Datasets' 
+          'Centroids are marked with white cross') 
+plt.xlim(x_min, x_max) 
+plt.ylim(y_min, y_max) 
+plt.legend(loc='lower right') 
+plt.show() 
+```
+
+这个绘图代码将向我们展示三个类，三个类的预测空间以及每个组的质心：
+
+![](img/f5c97339-7642-4ed5-bba4-53ac28640fda.png)
+
+图 5：显示 K 均值的无监督分类算法的屏幕截图；可以用来将三种鸢尾花种组合在一起。三个 K 均值组是三个阴影区域，三个不同的点（圆，三角形和菱形）是三个真正的物种分类
+
+## 更多
+
+对于此秘籍，我们使用 TensorFlow 将`iris`数据集聚类为三组。然后，我们计算了落入相似组的数据点的百分比（89%），并绘制了所得 K 均值组的图。由于 K 均值作为分类算法是局部线性的（线性分离器向上），因此很难学习杂色鸢尾和弗吉尼亚鸢尾之间的天然非线性边界。但是，一个优点是 K 均值算法根本不需要标记数据来执行。
+
+# 求解常微分方程组
+
+TensorFlow 可用于许多算法实现和过程。 TensorFlow 多功能性的一个很好的例子是实现 ODE 求解器。以数字方式求解 ODE 是一种迭代过程，可以在计算图中轻松描述。对于这个秘籍，我们将解决 Lotka-Volterra 捕食者 - 猎物系统。
+
+## 准备
+
+该秘籍将说明如何求解常微分方程（ODE）系统。我们可以使用与前两节类似的方法来更新值，因为我们迭代并解决 ODE 系统。
+
+我们将考虑的 ODE 系统是着名的 Lotka-Volterra 捕食者 - 猎物系统。该系统显示了捕食者 - 食饵系统如何在给定特定参数的情况下振荡。
+
+Lotka-Volterra 系统于 1920 年在一篇论文中发表（参见图 1，标量值，我们的斜率估计，在张量板中可视化）。我们将使用类似的参数来表明可以发生振荡系统。这是以数学上离散的方式表示的系统：
+
+![](img/2578e85f-2635-4e3b-b02d-c3a306407068.png)
+
+![](img/7efac4e2-7dbd-4a2e-a8d3-9282486208fc.png)
+
+在这里，`X`是猎物，`Y`将成为捕食者。我们通过`a`，`b`，`c`和`d`的值来确定哪个是猎物，哪个是捕食者：对于猎物，`a > 0`，`b < 0`和捕食者，`c < 0`，`d > 0`。我们将在 TensorFlow 解决方案中将此离散版本实现到系统中。
+
+## 操作步骤
+
+1.  我们首先加载库并启动图会话：
+
+```py
+import matplotlib.pyplot as plt 
+import tensorflow as tf 
+sess = tf.Session() 
+```
+
+1.  然后我们在图中声明我们的常量和变量：
+
+```py
+x_initial = tf.constant(1.0) 
+y_initial = tf.constant(1.0) 
+X_t1 = tf.Variable(x_initial) 
+Y_t1 = tf.Variable(y_initial) 
+# Make the placeholders 
+t_delta = tf.placeholder(tf.float32, shape=()) 
+a = tf.placeholder(tf.float32, shape=()) 
+b = tf.placeholder(tf.float32, shape=()) 
+c = tf.placeholder(tf.float32, shape=()) 
+d = tf.placeholder(tf.float32, shape=()) 
+```
+
+1.  接下来，我们将实现先前引入的离散系统，然后更新`X`和`Y`群体：
+
+```py
+X_t2 = X_t1 + (a * X_t1 + b * X_t1 * Y_t1) * t_delta 
+Y_t2 = Y_t1 + (c * Y_t1 + d * X_t1 * Y_t1) * t_delta 
+# Update to New Population 
+step = tf.group( 
+  X_t1.assign(X_t2), 
+  Y_t1.assign(Y_t2)) 
+```
+
+1.  我们现在初始化图并运行离散 ODE 系统，并使用特定参数来说明循环行为：
+
+```py
+init = tf.global_variables_initializer() sess.run(init) # Run the ODE prey_values = [] predator_values = [] for i in range(1000): # Step simulation (using constants for a known cyclic solution) step.run({a: (2./3.), b: (-4./3.), c: -1.0, d: 1.0, t_delta: 0.01}, session=sess) # Store each outcome temp_prey, temp_pred = sess.run([X_t1, Y_t1]) prey_values.append(temp_prey) predator_values.append(temp_pred)
+```
+
+A steady state (and cyclic) solution to this specific system, the Lotka-Volterra equations, very much depends on specific parameters and population values. We encourage the reader to try different parameters and values to see what can happen.
+
+1.  现在，我们可以绘制捕食者和猎物的值：
+
+```py
+plt.plot(prey_values, label="Prey") 
+plt.plot(predator_values, label="Predator") 
+plt.legend(loc='upper right') 
+plt.show() 
+```
+
+这个绘图代码将生成一个屏幕截图，显示掠食者和猎物的振荡种群：
+
+![](img/41d64abb-aa54-4cc3-be6e-360b4ecf7dc7.png)
+
+图 6：在这里，我们绘制 ODE 解决方案的捕食者和猎物值。事实上，我们可以看到周期确实发生了
+
+## 工作原理
+
+我们使用 TensorFlow 逐步求解 ODE 系统的离散版本。对于特定参数，我们看到捕食者 - 食饵系统确实可以具有循环解。这在我们的系统生物学上是有意义的，因为如果有太多的捕食者，猎物开始死亡，然后掠食者的食物就会减少，所以他们会死掉，等等。
+
+## 另见
+
+[Lotka，A.J.，关于有机系统中某些节奏关系的分析性说明](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1084562/)。
+
+# 使用随机森林
+
+随机森林算法建立在随机选择的观察和/或随机选择的特征上的聚合决策树上。我们不会介绍如何训练决策树，但会显示有些类型的随机森林可以使用梯度提升训练，TensorFlow 可以为我们计算。
+
+## 准备
+
+基于树的算法传统上是非平滑的，因为它们基于对数据进行分区以最小化目标输出中的方差。非光滑方法不适合基于梯度的方法。 TensorFlow 依赖于以下事实：模型中使用的函数是平滑的，并且它自动计算如何更改模型参数以最小化函数损失。 TensorFlow 绕过这个障碍的方式是对决策边界进行平滑逼近。可以使用 softmax 函数或类似形状函数来近似决策边界。
+
+决策树将通过生成规则在数据集上提供硬拆分，例如，如果`x &gt; 0.5`，则移动到树的这个分支....这告诉我们整个数据子集将组合在一起或拆分，取决于`x`的值。这个的平滑近似处理概率而不是整个分裂。这意味着数据集的每次观察都有可能存在于树的每个末端节点中。下图比较传统决策树和概率决策树，可以更好地说明这些差异。
+
+下图说明了两个示例决策树之间的区别：
+
+![](img/0888324c-c9e9-4a1b-92b1-875b174f5c07.png)
+
+This diagram illustrates a standard decision tree (left) which is non-differentiable, and a smooth decision tree (right), which illustrates the usage of sigmoid functions to develop probabilities of an observation appearing in a labeled leaf or end-node.
+
+> 我们选择不详细介绍函数的可微性，连续性和平滑性。本节的目的是提供关于如何通过可微分模型近似非可微分模型的直观描述。有关更多数学详细信息，我们建议读者查看本秘籍末尾的“另见”部分。
+
+## 操作步骤
+
+TensorFlow 包含了一些我们将依赖于此秘籍的默认模型估计函数。有两个主要的梯度提升模型，回归树和分类树。对于此示例，我们将使用回归树来预测[波士顿房价数据集](https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html)。
+
+1.  首先，我们加载必要的库：
+
+```py
+import numpy as np
+import tensorflow as tf
+from keras.datasets import boston_housing
+from tensorflow.python.framework import ops
+ops.reset_default_graph()
+```
+
+1.  接下来，我们从 TensorFlow 估计器库中设置我们将要使用的模型。在这里，我们将使用`BoostedTreesRegressor`模型，该模型用于使用梯度提升树进行回归：
+
+```py
+regression_classifier = tf.estimator.BoostedTreesRegressor
+```
+
+> 或者，对于二分类问题，读者可以使用估计器`BoostedTreesClassifier`。目前不支持多类别分类，尽管它将来会在路线图上。
+
+1.  现在，我们可以使用 Keras 数据导入函数将波士顿住房价格数据集加载到一行中，如下所示：
+
+```py
+(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
+```
+
+1.  在这里，我们可以设置一些模型参数；批量大小是一次训练的训练观测数量，我们将训练`500`迭代，梯度提升森林将有`100`树，每棵树的最大深度（分裂数）为`6`。
+
+```py
+# Batch size
+batch_size = 32
+# Number of training steps
+train_steps = 500
+# Number of trees in our 'forest'
+n_trees = 100
+# Maximum depth of any tree in forest
+max_depth = 6
+```
+
+1.  TensorFlow 提供的模型估计器需要输入函数。我们将为估计器函数创建数据输入函数。但首先，我们需要将数据放入正确标记的`numpy`数组格式的字典中。这些在 TensorFlow 中称为特征列。纯数字列尚不支持，因此我们将数字列放入自动存储桶中，如下所示：（a）二元特征将具有两个存储桶，（b）其他连续数字特征将被划分为 5 个存储桶。
+
+```py
+binary_split_cols = ['CHAS', 'RAD']
+col_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
+X_dtrain = {col: x_train[:, ix] for ix, col in enumerate(col_names)}
+X_dtest = {col: x_test[:, ix] for ix, col in enumerate(col_names)}
+
+# Create feature columns!
+feature_cols = []
+for ix, column in enumerate(x_train.T):
+    col_name = col_names[ix]
+
+    # Create binary split feature
+    if col_name in binary_split_cols:
+        # To create 2 buckets, need 1 boundary - the mean
+        bucket_boundaries = [column.mean()]
+        numeric_feature = tf.feature_column.numeric_column(col_name)
+        final_feature = tf.feature_column.bucketized_column(source_column=numeric_feature, boundaries=bucket_boundaries)
+    # Create bucketed feature
+    else:
+        # To create 5 buckets, need 4 boundaries
+        bucket_boundaries = list(np.linspace(column.min() * 1.1, column.max() * 0.9, 4))
+        numeric_feature = tf.feature_column.numeric_column(col_name)
+        final_feature = tf.feature_column.bucketized_column(source_column=numeric_feature, boundaries=bucket_boundaries)
+
+    # Add feature to feature_col list
+    feature_cols.append(final_feature)
+```
+
+> 将输入函数的`shuffle`选项设置为`True`进行训练，`False`进行测试是个好主意。我们想在每个周期改变`X`和`Y`训练集，但不是在测试期间。
+
+1.  我们现在使用 TensorFlow 估计器中输入库的`numpy`输入函数声明我们的数据输入函数。我们将指定我们创建的训练观察词典和一组`y`目标。
+
+```py
+input_fun = tf.estimator.inputs.numpy_input_fn(X_dtrain, y=y_train, batch_size=batch_size,        num_epochs=10, shuffle=True)
+```
+
+1.  现在，我们定义我们的模型并开始训练：
+
+```py
+model = regression_classifier(feature_columns=feature_cols,
+                              n_trees=n_trees,
+                              max_depth=max_depth,
+                              learning_rate=0.25,
+                              n_batches_per_layer=batch_size)
+model.train(input_fn=input_fun, steps=train_steps)
+```
+
+1.  在训练期间，我们应该看到类似的输出如下：
+
+```py
+INFO:tensorflow:Using default config.
+WARNING:tensorflow:Using temporary folder as model directory: /tmp/tmpqxyd62cu
+INFO:tensorflow:Using config: {'_model_dir': '/tmp/tmpqxyd62cu', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': 600, '_session_config': None, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': 100, '_train_distribute': None, '_device_fn': None, '_service': None, '_cluster_spec': <tensorflow.python.training.server_lib.ClusterSpec object at 0x7f43129d77b8>, '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': '', '_evaluation_master': '', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1}
+INFO:tensorflow:Calling model_fn.
+INFO:tensorflow:Done calling model_fn.
+INFO:tensorflow:Create CheckpointSaverHook.
+INFO:tensorflow:Graph was finalized.
+INFO:tensorflow:Running local_init_op.
+INFO:tensorflow:Done running local_init_op.
+INFO:tensorflow:Saving checkpoints for 0 into /tmp/tmpqxyd62cu/model.ckpt.
+INFO:tensorflow:loss = 691.09814, step = 1
+INFO:tensorflow:global_step/sec: 587.923
+INFO:tensorflow:loss = 178.62021, step = 101 (0.171 sec)
+INFO:tensorflow:Saving checkpoints for 127 into /tmp/tmpqxyd62cu/model.ckpt.
+INFO:tensorflow:Loss for final step: 37.436565.
+Out[190]: <tensorflow.python.estimator.canned.boosted_trees.BoostedTreesRegressor at 0x7f43129d7470>
+```
+
+1.  为了评估我们的模型，我们为测试数据创建了另一个输入函数，并获得每个测试数据点的预测。以下是获取预测并打印平均绝对误差（MAE）的代码：
+
+```py
+p_input_fun = tf.estimator.inputs.numpy_input_fn(X_dtest, y=y_test, batch_size=batch_size, num_epochs=1, shuffle=False)
+# Get predictions
+predictions = list(model.predict(input_fn=p_input_fun))
+final_preds = [pred['predictions'][0] for pred in predictions]
+
+# Get accuracy (mean absolute error, MAE)
+mae = np.mean([np.abs((actual - predicted) / predicted) for actual, predicted in zip(y_test, final_preds)])
+print('Mean Abs Err on test set: {}'.format(acc))
+```
+
+1.  其中以`0.71`打印出误差。请注意，由于随机播放的随机性，读者可能会得到略微不同的结果。为了提高准确率，我们可以考虑增加数字周期或引入更低的学习率甚至是某种类型的衰减学习率（指数或线性）：
+
+```py
+Mean Abs Err on test set: 0.7111111111111111
+```
+
+## 工作原理
+
+在本文中，我们将说明如何使用 TensorFlow 估计器和 TensorFlow 提供的数据输入函数。这些函数非常强大，不仅使我们的 TensorFlow 代码更短，更易读，而且还提高了算法的效率，减少了创建和测试算法所需的开发时间。
+
+## 另见
+
+有关决策树，随机森林，梯度提升森林以及可微分性，平滑性和连续性背后的数学的更多参考，我们鼓励读者阅读以下参考文献。
+
+1.  决策树教程。来自[伯克利的机器学习速成课程](https://ml.berkeley.edu/blog/2017/12/26/tutorial-5/)。
+2.  [随机森林 python 教程，克里斯阿尔邦](https://chrisalbon.com/machine_learning/trees_and_forests/random_forest_classifier_example/)
+3.  关于凸函数的精美 PDF 演示，它们如何用于机器学习，以及平滑度，可微性和连续性之间的差异。作者为弗朗西斯巴赫。最后还有[大约 6 页有用的参考文献](https://www.di.ens.fr/~fbach/gradsto_allerton.pdf)，读者可能会觉得有用。 
+4.  关于软决策树的文章：[将神经网络提炼为软决策树，Frosst 和 Hinton，2017](https://cex.inf.unibz.it/resources/Frosst+Hinton-CExAIIA_2017.pdf)。
+5.  [TensorFlow 实现的一个神经树](https://github.com/benoitdescamps/Neural-Tree)。作者：Benoit Deschamps。
+
+# 使用 TensorFlow 和 Keras
+
+TensorFlow 非常适合为程序员提供的灵活性和强大功能。这样做的一个缺点是原型模型和迭代各种测试对程序员来说可能很麻烦。 Keras 是深度学习库的包装器，可以更轻松地处理模型的各个方面并使编程更容易。在这里，我们选择在 TensorFlow 之上使用 Keras。事实上，使用带有 TensorFlow 后端的 Keras 非常受欢迎，TensorFlow 中有一个 Keras 库。对于这个秘籍，我们将使用该 TensorFlow 库在 MNIST 数据集上进行完全连接的神经网络和简单的 CNN 图像网络。
+
+## 准备
+
+对于这个秘籍，我们将使用驻留在 TensorFlow 内部的 Keras 函数。 [Keras](https://keras.io/) 已经是一个可以安装的独立 python 库了。如果您选择使用纯 Keras 路线，则必须为 Keras 选择后端（如 TensorFlow）。
+
+在本文中，我们将在 MNIST 图像识别数据集上执行两个单独的模型。第一个是直接完全连接的神经网络，而第二个是从第 8 章第 2 节“实现简单的 CNN”复制我们的 CNN 网络。
+
+## 操作步骤
+
+1.  我们将首先为脚本加载必要的库。
+
+```py
+import tensorflow as tf
+from sklearn.preprocessing import MultiLabelBinarizer
+from keras.utils import to_categorical
+from tensorflow import keras
+from tensorflow.python.framework import ops
+ops.reset_default_graph()
+
+# Load MNIST data
+from tensorflow.examples.tutorials.mnist import input_data
+```
+
+1.  我们可以在 TensorFlow 中使用提供的 MNIST 数据导入函数加载库。虽然原始 MNIST 图像是 28 像素乘 28 像素，但导入的数据是它们的扁平版本，其中每个观察是 0 到 1 之间的 784 个灰度点的行。y 标签作为 0 到 9 之间的整数导入。
+
+```py
+mnist = input_data.read_data_sets("MNIST_data/")
+x_train = mnist.train.images
+x_test = mnist.test.images
+y_train = mnist.train.labels
+y_test = mnist.test.labels
+y_train = [[i] for i in y_train]
+y_test = [[i] for i in y_test]
+```
+
+1.  我们现在将使用 scikit-learn 的`MultiLabelBinarizer()`函数将目标整数转换为单热编码向量，如下所示：
+
+```py
+one_hot = MultiLabelBinarizer()
+y_train = one_hot.fit_transform(y_train)
+y_test = one_hot.transform(y_test)
+```
+
+1.  我们将创建一个三层完全连接的神经网络，其中包含 32，16 和 10 个相应的隐藏节点。然后最终输出的大小为 10（每个数字一个）。我们使用以下代码创建此网络：
+
+```py
+# We start with a 'sequential' model type (connecting layers together)
+model = keras.Sequential()
+
+# Adds a densely-connected layer with 32 units to the model, followed by an ReLU activation.
+model.add(keras.layers.Dense(32, activation='relu'))
+
+# Adds a densely-connected layer with 16 units to the model, followed by an ReLU activation.
+model.add(keras.layers.Dense(16, activation='relu'))
+
+# Add a softmax layer with 10 output units:
+model.add(keras.layers.Dense(10, activation='softmax'))
+```
+
+1.  为了训练模型，我们接下来要做的就是使用适当的参数调用`compile()`方法。我们需要的参数是优化函数和损失类型。但我们也想记录模型的准确率，因此度量列表包括`accuracy`参数。
+
+```py
+model.compile(optimizer=tf.train.AdamOptimizer(0.001),
+              loss='categorical_crossentropy',
+              metrics=['accuracy'])
+```
+
+1.  这将使输出应类似于以下内容：
+
+```py
+Epoch 1/5
+   64/55000 [..............................] - ETA: 1:44 - loss: 2.3504 - acc: 0.0625
+ 3776/55000 [=>............................] - ETA: 2s - loss: 1.7904 - acc: 0.3676 
+...
+47104/55000 [========================>.....] - ETA: 0s - loss: 0.1337 - acc: 0.9615
+50880/55000 [==========================>...] - ETA: 0s - loss: 0.1336 - acc: 0.9617
+55000/55000 [==============================] - 1s 13us/step - loss: 0.1335 - acc: 0.9615
+Out[]: <tensorflow.python.keras.callbacks.History at 0x7f5768a40da0>
+```
+
+> 要配置均方误差损失的回归模型，我们将使用模型编译，如下所示：`model.compile(optimizer=tf.train.AdamOptimizer(0.01), loss='mse', metrics=['mae'])`
+
+1.  接下来，我们将看到如何实现具有两个卷积层的 CNN 模型，其具有最大池，全部后面是完全连接的层。首先，我们必须将平面图像重塑为 2D 图像，并将 y 目标转换为 numpy 数组，如下所示：00
+
+```py
+x_train = x_tra0in.reshape(x_train.shape[0], 28, 28, 1)
+x_test = x_test.reshape(x_test.shape[0], 28, 28, 1)
+input_shape = (28, 28, 1)
+num_classes = 10
+
+# Categorize y targets
+y_test = to_categorical(mnist.test.labels)
+y_train = to_categorical(mnist.train.labels)
+```
+
+1.  我们将像以前一样以类似的顺序层方法创建 CNN。这次我们将使用`Conv2D()`，`MaxPooling2D()`和`Dense()` Keras 函数创建我们的 CNN 模型，如下所示：
+
+```py
+cnn_model = keras.Sequential()
+# First convolution layer
+cnn_model.add(keras.layers.Conv2D(25,
+                                  kernel_size=(4, 4),
+                                  strides=(1, 1),
+                                  activation='relu',
+                                  input_shape=input_shape))
+# Max pooling
+cnn_model.add(keras.layers.MaxPooling2D(pool_size=(2, 2),
+                                        strides=(2, 2)))
+# Second convolution layer
+cnn_model.add(keras.layers.Conv2D(50,
+                                  kernel_size=(5, 5),
+                                  strides=(1, 1),
+                                  activation='relu'))
+# Max pooling
+cnn_model.add(keras.layers.MaxPooling2D(pool_size=(2, 2),
+                                        strides=(2, 2)))
+# Flatten for dense (fully connected) layer
+cnn_model.add(keras.layers.Flatten())
+# Add dense (fully connected) layer
+cnn_model.add(keras.layers.Dense(num_classes, activation='softmax'))
+```
+
+1.  接下来，我们将通过选择优化和损失函数来编译我们的模型。
+
+```py
+cnn_model.compile(optimizer=tf.train.AdamOptimizer(0.001),
+                  loss='categorical_crossentropy',
+                  metrics=['accuracy'])
+```
+
+1.  Keras 还允许我们将函数插入到名为`Callback`的训练代码中。回调是在代码中的某些时间执行的函数，可用于执行各种函数。有许多预制回调，可以保存模型，在特定标准下停止训练，记录值等等。有关各种选项的更多信息，请参阅[此链接](https://keras.io/callbacks/)。为了说明如何制作我们自己的自定义回调并显示它们如何工作，我们将创建一个名为`RecordAccuracy()`的回调，它是一个 Keras `Callback`类，并将在每个周期的末尾存储精度，如下所示：
+
+```py
+class RecordAccuracy(keras.callbacks.Callback):
+    def on_train_begin(self, logs={}):
+        self.acc = []
+
+    def on_epoch_end(self, batch, logs={}):
+        self.acc.append(logs.get('acc'))
+
+accuracy = RecordAccuracy()
+```
+
+1.  接下来，我们将使用`fit()`方法训练我们的 CNN 模型。这里我们将提供`validation_data`和`callbacks`如下：
+
+```py
+cnn_model.fit(x_train,
+              y_train,
+              batch_size=64,
+              epochs=3,
+              validation_data=(x_test, y_test),
+              callbacks=[accuracy])
+
+print(accuracy.acc)
+```
+
+1.  此训练将产生类似的输出，如下所示：
+
+```py
+Train on 55000 samples, validate on 64 samples
+Epoch 1/3
+   64/55000 [..............................] - ETA: 2:59 - loss: 2.2805 - acc: 0.0625
+  192/55000 [>.............................] - ETA: 1:14 - loss: 2.2729 - acc: 0.1302\
+...
+54848/55000 [============================>.] - ETA: 0s - loss: 0.0603 - acc: 0.9816
+54976/55000 [============================>.] - ETA: 0s - loss: 0.0603 - acc: 0.9816
+55000/55000 [==============================] - 26s 469us/step - loss: 0.0604 - acc: 0.9816 - val_loss: 0.0139 - val_acc: 1.0000
+Out[]: <tensorflow.python.keras.callbacks.History at 0x7f69494c7780>
+
+[0.9414363636450334, 0.9815818181731484, 0.9998980778226293]
+```
+
+## 工作原理
+
+在这个秘籍中，我们展示了 Keras 的简洁创建和训练模型。您可以自动处理变量类型，维度和数据摄取的许多复杂细节。虽然这可以让人放心，但我们应该意识到，如果我们掩盖太多模型细节，我们可能无意中实现了错误的模型。
+
+## 另见
+
+有关 Keras 的更多信息，建议读者查看以下资源：
+
+*   [Keras 官方文档](https://keras.io/)
+*   [TensorFlow Keras 教程](https://www.tensorflow.org/guide/keras)
+*   [“Keras 简介”，Francois Chollet 在斯坦福大学的客座讲座（幻灯片中的 PDF 格式）]https://web.stanford.edu/class/cs20si/lectures/march9guestlecture.pdf
+
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/cover.jpg b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/cover.jpg
new file mode 100644
index 00000000..99aa4f51
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/cover.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0015e197-fc53-491a-82a0-9d1acfc4b795.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0015e197-fc53-491a-82a0-9d1acfc4b795.png
new file mode 100644
index 00000000..f642b903
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0015e197-fc53-491a-82a0-9d1acfc4b795.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/03a5585c-b464-43fd-8f06-7ef030d0fb67.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/03a5585c-b464-43fd-8f06-7ef030d0fb67.png
new file mode 100644
index 00000000..3f8a3735
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/03a5585c-b464-43fd-8f06-7ef030d0fb67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/03d9ab94-d644-4632-8751-4ed3bfc9c944.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/03d9ab94-d644-4632-8751-4ed3bfc9c944.png
new file mode 100644
index 00000000..eb18b989
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/03d9ab94-d644-4632-8751-4ed3bfc9c944.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/04e3b750-b1f3-4860-b205-32e252efd62d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/04e3b750-b1f3-4860-b205-32e252efd62d.png
new file mode 100644
index 00000000..aab8399f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/04e3b750-b1f3-4860-b205-32e252efd62d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/05964525-d233-451e-b155-bc9b2c199dd9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/05964525-d233-451e-b155-bc9b2c199dd9.png
new file mode 100644
index 00000000..6e2bcada
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/05964525-d233-451e-b155-bc9b2c199dd9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/068234be-29b7-4890-96ef-afd771e361f6.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/068234be-29b7-4890-96ef-afd771e361f6.png
new file mode 100644
index 00000000..0726703d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/068234be-29b7-4890-96ef-afd771e361f6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/07fcab05-6c73-4aeb-b2ed-a1330c65fa0d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/07fcab05-6c73-4aeb-b2ed-a1330c65fa0d.png
new file mode 100644
index 00000000..583ea875
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/07fcab05-6c73-4aeb-b2ed-a1330c65fa0d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0888324c-c9e9-4a1b-92b1-875b174f5c07.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0888324c-c9e9-4a1b-92b1-875b174f5c07.png
new file mode 100644
index 00000000..0fb19e15
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0888324c-c9e9-4a1b-92b1-875b174f5c07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/088916f2-235d-4328-afcc-7e625ff35473.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/088916f2-235d-4328-afcc-7e625ff35473.png
new file mode 100644
index 00000000..6a3bc55b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/088916f2-235d-4328-afcc-7e625ff35473.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0e54e71b-9f28-42c7-9ed5-5435675281f4.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0e54e71b-9f28-42c7-9ed5-5435675281f4.png
new file mode 100644
index 00000000..97292525
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0e54e71b-9f28-42c7-9ed5-5435675281f4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0ec5c1d7-7f99-45d8-bbef-faa80d9d4a97.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0ec5c1d7-7f99-45d8-bbef-faa80d9d4a97.png
new file mode 100644
index 00000000..f1cb1473
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0ec5c1d7-7f99-45d8-bbef-faa80d9d4a97.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0efa3298-7046-432d-8393-ca1765b44175.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0efa3298-7046-432d-8393-ca1765b44175.png
new file mode 100644
index 00000000..f20b533b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0efa3298-7046-432d-8393-ca1765b44175.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0f077787-e4de-475b-a0c2-960c1e4a73ad.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0f077787-e4de-475b-a0c2-960c1e4a73ad.png
new file mode 100644
index 00000000..3ddb5d63
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0f077787-e4de-475b-a0c2-960c1e4a73ad.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0f1d79fb-e4e9-43c4-86dd-229be556fc74.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0f1d79fb-e4e9-43c4-86dd-229be556fc74.png
new file mode 100644
index 00000000..85d5be96
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0f1d79fb-e4e9-43c4-86dd-229be556fc74.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0faa87e7-95ef-4943-b07e-ec390add7a14.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0faa87e7-95ef-4943-b07e-ec390add7a14.png
new file mode 100644
index 00000000..8b710031
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/0faa87e7-95ef-4943-b07e-ec390add7a14.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1092cc3c-6d21-4b82-bf79-af63e1a4fa3d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1092cc3c-6d21-4b82-bf79-af63e1a4fa3d.png
new file mode 100644
index 00000000..fba468fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1092cc3c-6d21-4b82-bf79-af63e1a4fa3d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/11e1a288-7294-4c7c-bbee-37e854bbf309.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/11e1a288-7294-4c7c-bbee-37e854bbf309.png
new file mode 100644
index 00000000..0726703d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/11e1a288-7294-4c7c-bbee-37e854bbf309.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/12a7c632-d523-401b-b9bd-769b8b765f67.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/12a7c632-d523-401b-b9bd-769b8b765f67.png
new file mode 100644
index 00000000..05154e4b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/12a7c632-d523-401b-b9bd-769b8b765f67.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1421c7ad-3e07-42a0-9fb1-e8391f70755a.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1421c7ad-3e07-42a0-9fb1-e8391f70755a.png
new file mode 100644
index 00000000..f65977af
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1421c7ad-3e07-42a0-9fb1-e8391f70755a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1506c3f9-8094-4485-8d10-dd4dcf414fbe.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1506c3f9-8094-4485-8d10-dd4dcf414fbe.png
new file mode 100644
index 00000000..e6af9a3f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1506c3f9-8094-4485-8d10-dd4dcf414fbe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/16011597-1adf-4b5c-b12e-38eed5a3e596.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/16011597-1adf-4b5c-b12e-38eed5a3e596.png
new file mode 100644
index 00000000..5074db6a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/16011597-1adf-4b5c-b12e-38eed5a3e596.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/19b8ea75-73c6-44f2-aac3-3b80aea3ae08.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/19b8ea75-73c6-44f2-aac3-3b80aea3ae08.png
new file mode 100644
index 00000000..39be069e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/19b8ea75-73c6-44f2-aac3-3b80aea3ae08.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a1fab88-0067-4ecb-a4fb-69c5cce2fccb.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a1fab88-0067-4ecb-a4fb-69c5cce2fccb.png
new file mode 100644
index 00000000..21830c2a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a1fab88-0067-4ecb-a4fb-69c5cce2fccb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a2b7ff4-6b62-453e-a8a6-d342362482dd.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a2b7ff4-6b62-453e-a8a6-d342362482dd.png
new file mode 100644
index 00000000..6e2bcada
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a2b7ff4-6b62-453e-a8a6-d342362482dd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a80edbf-b1dc-47fc-a328-f4973493e260.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a80edbf-b1dc-47fc-a328-f4973493e260.png
new file mode 100644
index 00000000..716cc814
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a80edbf-b1dc-47fc-a328-f4973493e260.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a969461-cf3c-433e-9a1c-db07eec5db88.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a969461-cf3c-433e-9a1c-db07eec5db88.png
new file mode 100644
index 00000000..5809d431
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1a969461-cf3c-433e-9a1c-db07eec5db88.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1cc7f69a-e794-4bb1-b857-7a857482777f.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1cc7f69a-e794-4bb1-b857-7a857482777f.png
new file mode 100644
index 00000000..e1d9c330
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1cc7f69a-e794-4bb1-b857-7a857482777f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1f304159-a7af-498c-b746-72d49ecadecb.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1f304159-a7af-498c-b746-72d49ecadecb.png
new file mode 100644
index 00000000..db8440a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/1f304159-a7af-498c-b746-72d49ecadecb.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/21a6bf2b-18fd-407c-9854-bca30ac02a84.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/21a6bf2b-18fd-407c-9854-bca30ac02a84.png
new file mode 100644
index 00000000..f3f189cc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/21a6bf2b-18fd-407c-9854-bca30ac02a84.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2578e85f-2635-4e3b-b02d-c3a306407068.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2578e85f-2635-4e3b-b02d-c3a306407068.png
new file mode 100644
index 00000000..5620f5a6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2578e85f-2635-4e3b-b02d-c3a306407068.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/281870d6-9835-4fdd-8db0-8e861aa474d5.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/281870d6-9835-4fdd-8db0-8e861aa474d5.png
new file mode 100644
index 00000000..3d0d9d42
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/281870d6-9835-4fdd-8db0-8e861aa474d5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/284cc0b5-9a95-4a09-bf23-39776df87409.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/284cc0b5-9a95-4a09-bf23-39776df87409.png
new file mode 100644
index 00000000..d3271418
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/284cc0b5-9a95-4a09-bf23-39776df87409.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2a1256eb-1993-4e62-a561-48577ebcfec2.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2a1256eb-1993-4e62-a561-48577ebcfec2.png
new file mode 100644
index 00000000..c6e3c6dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2a1256eb-1993-4e62-a561-48577ebcfec2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2a730c9a-4bf5-4244-bfef-73ccca82eaa7.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2a730c9a-4bf5-4244-bfef-73ccca82eaa7.png
new file mode 100644
index 00000000..6783c9a9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2a730c9a-4bf5-4244-bfef-73ccca82eaa7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2b10596a-93d9-42b5-acdb-71e661e49650.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2b10596a-93d9-42b5-acdb-71e661e49650.png
new file mode 100644
index 00000000..1ed74c95
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/2b10596a-93d9-42b5-acdb-71e661e49650.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/31bd9c27-ccbb-4f87-bad6-c5eeec1c74d9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/31bd9c27-ccbb-4f87-bad6-c5eeec1c74d9.png
new file mode 100644
index 00000000..e2661dde
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/31bd9c27-ccbb-4f87-bad6-c5eeec1c74d9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3233ad1f-7336-40e8-b9de-895eb041bb5b.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3233ad1f-7336-40e8-b9de-895eb041bb5b.png
new file mode 100644
index 00000000..7a00e8fc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3233ad1f-7336-40e8-b9de-895eb041bb5b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/32e2728d-bb84-491b-a4e1-e28108f5fff1.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/32e2728d-bb84-491b-a4e1-e28108f5fff1.png
new file mode 100644
index 00000000..13183a15
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/32e2728d-bb84-491b-a4e1-e28108f5fff1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/333e9ab2-44b2-4dfa-a047-04d97df3a6e3.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/333e9ab2-44b2-4dfa-a047-04d97df3a6e3.png
new file mode 100644
index 00000000..c3cacaed
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/333e9ab2-44b2-4dfa-a047-04d97df3a6e3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/33e5cd5b-a002-43db-af41-8826c3cd5fc2.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/33e5cd5b-a002-43db-af41-8826c3cd5fc2.png
new file mode 100644
index 00000000..4816364b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/33e5cd5b-a002-43db-af41-8826c3cd5fc2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/343f681d-8d9d-490e-a98f-d8761f7d9c3d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/343f681d-8d9d-490e-a98f-d8761f7d9c3d.png
new file mode 100644
index 00000000..327f07db
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/343f681d-8d9d-490e-a98f-d8761f7d9c3d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/35825b20-6e93-4136-acb4-f51128ed4c7f.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/35825b20-6e93-4136-acb4-f51128ed4c7f.png
new file mode 100644
index 00000000..e914cfad
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/35825b20-6e93-4136-acb4-f51128ed4c7f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/362bae41-1c85-48e4-93ee-9162a4c764ad.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/362bae41-1c85-48e4-93ee-9162a4c764ad.png
new file mode 100644
index 00000000..cfc23c52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/362bae41-1c85-48e4-93ee-9162a4c764ad.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/36329dad-bcdc-4ff4-a33a-f980dd7e11e7.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/36329dad-bcdc-4ff4-a33a-f980dd7e11e7.png
new file mode 100644
index 00000000..6a3bc55b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/36329dad-bcdc-4ff4-a33a-f980dd7e11e7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/37d1bd73-254f-4a86-b749-9d0b476f388b.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/37d1bd73-254f-4a86-b749-9d0b476f388b.png
new file mode 100644
index 00000000..b4342338
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/37d1bd73-254f-4a86-b749-9d0b476f388b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/39318e56-983b-4050-9d21-e490d4125dc9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/39318e56-983b-4050-9d21-e490d4125dc9.png
new file mode 100644
index 00000000..60457927
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/39318e56-983b-4050-9d21-e490d4125dc9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3ab9a414-bf14-4bef-a6b5-77deef75eea6.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3ab9a414-bf14-4bef-a6b5-77deef75eea6.png
new file mode 100644
index 00000000..23716ed5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3ab9a414-bf14-4bef-a6b5-77deef75eea6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3cb49bac-be51-46c3-ac43-589c2f04b799.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3cb49bac-be51-46c3-ac43-589c2f04b799.png
new file mode 100644
index 00000000..254a0b47
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3cb49bac-be51-46c3-ac43-589c2f04b799.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d330ede-7ab7-4ef5-8d54-43de2455437c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d330ede-7ab7-4ef5-8d54-43de2455437c.png
new file mode 100644
index 00000000..dc4dd291
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d330ede-7ab7-4ef5-8d54-43de2455437c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d3d7762-7528-4101-bd3b-8175f11e0c83.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d3d7762-7528-4101-bd3b-8175f11e0c83.png
new file mode 100644
index 00000000..e04b51f1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d3d7762-7528-4101-bd3b-8175f11e0c83.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d734ed6-f40b-44e6-a890-7324ac20a592.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d734ed6-f40b-44e6-a890-7324ac20a592.png
new file mode 100644
index 00000000..08e4c9b0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3d734ed6-f40b-44e6-a890-7324ac20a592.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3dc4f147-d736-4b8d-a4af-e004a6f306fc.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3dc4f147-d736-4b8d-a4af-e004a6f306fc.png
new file mode 100644
index 00000000..f613e7dc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3dc4f147-d736-4b8d-a4af-e004a6f306fc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3f9a30b1-0aff-4c8d-b1ca-f00744f177cf.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3f9a30b1-0aff-4c8d-b1ca-f00744f177cf.png
new file mode 100644
index 00000000..07b61a62
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/3f9a30b1-0aff-4c8d-b1ca-f00744f177cf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/41d64abb-aa54-4cc3-be6e-360b4ecf7dc7.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/41d64abb-aa54-4cc3-be6e-360b4ecf7dc7.png
new file mode 100644
index 00000000..df017f97
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/41d64abb-aa54-4cc3-be6e-360b4ecf7dc7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/42907158-e660-4a92-a2da-897722139ec5.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/42907158-e660-4a92-a2da-897722139ec5.png
new file mode 100644
index 00000000..98a9ba66
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/42907158-e660-4a92-a2da-897722139ec5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/43757951-65ef-41b0-8b35-b1f1a37833af.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/43757951-65ef-41b0-8b35-b1f1a37833af.png
new file mode 100644
index 00000000..9b116f20
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/43757951-65ef-41b0-8b35-b1f1a37833af.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/44d4577c-b760-4acf-9070-e371d5e60d2c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/44d4577c-b760-4acf-9070-e371d5e60d2c.png
new file mode 100644
index 00000000..3b7e698d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/44d4577c-b760-4acf-9070-e371d5e60d2c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/46c283eb-3f0f-469f-9fcd-062a53a8c0d2.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/46c283eb-3f0f-469f-9fcd-062a53a8c0d2.png
new file mode 100644
index 00000000..847ae515
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/46c283eb-3f0f-469f-9fcd-062a53a8c0d2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/46d64e8f-a3e6-42db-abd6-d58abebce4c8.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/46d64e8f-a3e6-42db-abd6-d58abebce4c8.png
new file mode 100644
index 00000000..851dd49b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/46d64e8f-a3e6-42db-abd6-d58abebce4c8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b09d4e9-2abf-4884-8a45-ddef5b4247db.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b09d4e9-2abf-4884-8a45-ddef5b4247db.png
new file mode 100644
index 00000000..17cef2e9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b09d4e9-2abf-4884-8a45-ddef5b4247db.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b4a519d-305e-4b3b-85b9-2b05a51aaeb7.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b4a519d-305e-4b3b-85b9-2b05a51aaeb7.png
new file mode 100644
index 00000000..4097a11e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b4a519d-305e-4b3b-85b9-2b05a51aaeb7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b883f8c-abd6-41e4-9510-407741cfc50b.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b883f8c-abd6-41e4-9510-407741cfc50b.png
new file mode 100644
index 00000000..e6db9e13
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b883f8c-abd6-41e4-9510-407741cfc50b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b978d25-bffb-415f-8881-a3b3fa5763fe.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b978d25-bffb-415f-8881-a3b3fa5763fe.png
new file mode 100644
index 00000000..b1227caa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4b978d25-bffb-415f-8881-a3b3fa5763fe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4cf2d7b4-fec2-4e1e-bdf8-1025824b6f92.jpg b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4cf2d7b4-fec2-4e1e-bdf8-1025824b6f92.jpg
new file mode 100644
index 00000000..12c21986
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/4cf2d7b4-fec2-4e1e-bdf8-1025824b6f92.jpg differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/52077e5c-eee3-4684-97fa-cdac28fceec6.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/52077e5c-eee3-4684-97fa-cdac28fceec6.png
new file mode 100644
index 00000000..116ab42b
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/52077e5c-eee3-4684-97fa-cdac28fceec6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/575132f1-c3fb-427c-b1db-9466f04a3dae.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/575132f1-c3fb-427c-b1db-9466f04a3dae.png
new file mode 100644
index 00000000..dce2c439
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/575132f1-c3fb-427c-b1db-9466f04a3dae.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/57a190f8-110c-4cd2-902f-3668dc603f65.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/57a190f8-110c-4cd2-902f-3668dc603f65.png
new file mode 100644
index 00000000..c7314c43
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/57a190f8-110c-4cd2-902f-3668dc603f65.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/59210e39-f327-4604-a3e1-ebfe782c0818.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/59210e39-f327-4604-a3e1-ebfe782c0818.png
new file mode 100644
index 00000000..4f76be1c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/59210e39-f327-4604-a3e1-ebfe782c0818.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/598821e9-0461-40de-bb4e-d6c72b9d6a28.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/598821e9-0461-40de-bb4e-d6c72b9d6a28.png
new file mode 100644
index 00000000..2c3a87ca
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/598821e9-0461-40de-bb4e-d6c72b9d6a28.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/59a4dcbb-73a7-4598-80e9-28690b520a8d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/59a4dcbb-73a7-4598-80e9-28690b520a8d.png
new file mode 100644
index 00000000..6409a5c6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/59a4dcbb-73a7-4598-80e9-28690b520a8d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5abdd4cb-4498-4658-9d7e-ea4b430c9a72.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5abdd4cb-4498-4658-9d7e-ea4b430c9a72.png
new file mode 100644
index 00000000..7b2c1486
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5abdd4cb-4498-4658-9d7e-ea4b430c9a72.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5d0b3e2a-6c96-4934-9065-a903836c40e9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5d0b3e2a-6c96-4934-9065-a903836c40e9.png
new file mode 100644
index 00000000..ad205e49
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5d0b3e2a-6c96-4934-9065-a903836c40e9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5d9c1c9e-e1ce-4497-9fc4-5f7be14ce1b3.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5d9c1c9e-e1ce-4497-9fc4-5f7be14ce1b3.png
new file mode 100644
index 00000000..15f1011f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5d9c1c9e-e1ce-4497-9fc4-5f7be14ce1b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e2d25dc-7309-4f36-bb6a-b192653c4c62.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e2d25dc-7309-4f36-bb6a-b192653c4c62.png
new file mode 100644
index 00000000..2e59a198
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e2d25dc-7309-4f36-bb6a-b192653c4c62.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e59e8a8-b38e-46c8-823e-7c959c78c053.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e59e8a8-b38e-46c8-823e-7c959c78c053.png
new file mode 100644
index 00000000..6e87c7a4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e59e8a8-b38e-46c8-823e-7c959c78c053.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e821fd6-fba1-48c6-9b72-d7ac6238f1ff.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e821fd6-fba1-48c6-9b72-d7ac6238f1ff.png
new file mode 100644
index 00000000..6bcf10b4
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5e821fd6-fba1-48c6-9b72-d7ac6238f1ff.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5fc75558-0092-41f5-a510-3072cdc4741e.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5fc75558-0092-41f5-a510-3072cdc4741e.png
new file mode 100644
index 00000000..f61abcbc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/5fc75558-0092-41f5-a510-3072cdc4741e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/614a7789-e82a-4364-9912-cf3fb1c2631a.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/614a7789-e82a-4364-9912-cf3fb1c2631a.png
new file mode 100644
index 00000000..ea3f755a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/614a7789-e82a-4364-9912-cf3fb1c2631a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/647d83b0-3727-4bcc-a2b4-cece814b5a66.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/647d83b0-3727-4bcc-a2b4-cece814b5a66.png
new file mode 100644
index 00000000..5e11297d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/647d83b0-3727-4bcc-a2b4-cece814b5a66.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/678ff2b5-2732-4bc7-b85f-3fee578fb962.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/678ff2b5-2732-4bc7-b85f-3fee578fb962.png
new file mode 100644
index 00000000..670594fb
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/678ff2b5-2732-4bc7-b85f-3fee578fb962.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6b8e7a37-0f7a-40e2-9135-838f6ea38141.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6b8e7a37-0f7a-40e2-9135-838f6ea38141.png
new file mode 100644
index 00000000..7da15baa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6b8e7a37-0f7a-40e2-9135-838f6ea38141.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6c51e8ec-5dd2-486b-9434-6f763c347ec9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6c51e8ec-5dd2-486b-9434-6f763c347ec9.png
new file mode 100644
index 00000000..7f63f5d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6c51e8ec-5dd2-486b-9434-6f763c347ec9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6d9df72e-4e84-45f4-864f-32730248af36.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6d9df72e-4e84-45f4-864f-32730248af36.png
new file mode 100644
index 00000000..fd31dcde
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/6d9df72e-4e84-45f4-864f-32730248af36.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/729d53ef-d7e2-4068-8ae7-2fc6e91c572b.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/729d53ef-d7e2-4068-8ae7-2fc6e91c572b.png
new file mode 100644
index 00000000..1b7148bc
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/729d53ef-d7e2-4068-8ae7-2fc6e91c572b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7320b5e5-e41d-4431-9ef1-7fa0b43a5187.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7320b5e5-e41d-4431-9ef1-7fa0b43a5187.png
new file mode 100644
index 00000000..552e1d97
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7320b5e5-e41d-4431-9ef1-7fa0b43a5187.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/74415797-d824-4002-a0fc-f9e077b3e26a.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/74415797-d824-4002-a0fc-f9e077b3e26a.png
new file mode 100644
index 00000000..bed02904
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/74415797-d824-4002-a0fc-f9e077b3e26a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/77fdb4ad-5bdf-4013-9768-1beca691cf5b.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/77fdb4ad-5bdf-4013-9768-1beca691cf5b.png
new file mode 100644
index 00000000..abfce073
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/77fdb4ad-5bdf-4013-9768-1beca691cf5b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7b0c20a1-43c3-4a07-9785-2f7a5706ad6b.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7b0c20a1-43c3-4a07-9785-2f7a5706ad6b.png
new file mode 100644
index 00000000..334d47ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7b0c20a1-43c3-4a07-9785-2f7a5706ad6b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7bd24242-3c82-47ee-b114-7aeb5922e317.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7bd24242-3c82-47ee-b114-7aeb5922e317.png
new file mode 100644
index 00000000..78ccf2cf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7bd24242-3c82-47ee-b114-7aeb5922e317.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7d2e6d78-0546-4b3f-b9eb-5cd5c31d85f9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7d2e6d78-0546-4b3f-b9eb-5cd5c31d85f9.png
new file mode 100644
index 00000000..f6cee7c3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7d2e6d78-0546-4b3f-b9eb-5cd5c31d85f9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7efac4e2-7dbd-4a2e-a8d3-9282486208fc.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7efac4e2-7dbd-4a2e-a8d3-9282486208fc.png
new file mode 100644
index 00000000..87f6b7bd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/7efac4e2-7dbd-4a2e-a8d3-9282486208fc.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/802d801e-913a-434d-a54f-f32d392ca561.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/802d801e-913a-434d-a54f-f32d392ca561.png
new file mode 100644
index 00000000..28c2b3d2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/802d801e-913a-434d-a54f-f32d392ca561.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/80ac0bda-9626-46e0-a8b5-8c2aa7af0096.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/80ac0bda-9626-46e0-a8b5-8c2aa7af0096.png
new file mode 100644
index 00000000..a6efa98e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/80ac0bda-9626-46e0-a8b5-8c2aa7af0096.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8252e55d-5b0d-4a8b-9a51-0500193eb153.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8252e55d-5b0d-4a8b-9a51-0500193eb153.png
new file mode 100644
index 00000000..eed1959d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8252e55d-5b0d-4a8b-9a51-0500193eb153.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/83345bbb-8fc4-4d17-b90d-b8c2ebb16c2a.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/83345bbb-8fc4-4d17-b90d-b8c2ebb16c2a.png
new file mode 100644
index 00000000..2b7b6042
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/83345bbb-8fc4-4d17-b90d-b8c2ebb16c2a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8475c505-e8c7-49ba-a1d1-b6764a1b45b0.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8475c505-e8c7-49ba-a1d1-b6764a1b45b0.png
new file mode 100644
index 00000000..1e9a2e1d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8475c505-e8c7-49ba-a1d1-b6764a1b45b0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/84d3659e-1220-4f1a-8848-60a9052938c1.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/84d3659e-1220-4f1a-8848-60a9052938c1.png
new file mode 100644
index 00000000..7b3ff205
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/84d3659e-1220-4f1a-8848-60a9052938c1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/89cc9e5c-d9d8-403c-8656-6d2a23f69f83.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/89cc9e5c-d9d8-403c-8656-6d2a23f69f83.png
new file mode 100644
index 00000000..fff5c366
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/89cc9e5c-d9d8-403c-8656-6d2a23f69f83.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8ba8aa45-8211-4f3b-9478-2bd467cd744f.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8ba8aa45-8211-4f3b-9478-2bd467cd744f.png
new file mode 100644
index 00000000..9b116f20
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8ba8aa45-8211-4f3b-9478-2bd467cd744f.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8c38465a-ddc7-4389-9cc5-806b5a388769.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8c38465a-ddc7-4389-9cc5-806b5a388769.png
new file mode 100644
index 00000000..c4b2fe53
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8c38465a-ddc7-4389-9cc5-806b5a388769.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8d48b631-9b50-49aa-be5a-2319c83bc1a5.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8d48b631-9b50-49aa-be5a-2319c83bc1a5.png
new file mode 100644
index 00000000..cb099a27
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/8d48b631-9b50-49aa-be5a-2319c83bc1a5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/905388dc-42c1-4256-987e-8367583fdd1a.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/905388dc-42c1-4256-987e-8367583fdd1a.png
new file mode 100644
index 00000000..bc388118
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/905388dc-42c1-4256-987e-8367583fdd1a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/91bc4d05-6bc2-4b0d-85ac-70a964eae981.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/91bc4d05-6bc2-4b0d-85ac-70a964eae981.png
new file mode 100644
index 00000000..4e1fa385
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/91bc4d05-6bc2-4b0d-85ac-70a964eae981.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/922f9297-3d22-4eff-a854-a613cead1b35.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/922f9297-3d22-4eff-a854-a613cead1b35.png
new file mode 100644
index 00000000..03c5af00
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/922f9297-3d22-4eff-a854-a613cead1b35.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/93a63006-8c8c-4f4b-96f4-b8ea78ce5b0d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/93a63006-8c8c-4f4b-96f4-b8ea78ce5b0d.png
new file mode 100644
index 00000000..688f50ea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/93a63006-8c8c-4f4b-96f4-b8ea78ce5b0d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/942b3cec-7ca0-42d5-bc2b-7fddb0a4d4e4.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/942b3cec-7ca0-42d5-bc2b-7fddb0a4d4e4.png
new file mode 100644
index 00000000..e78141a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/942b3cec-7ca0-42d5-bc2b-7fddb0a4d4e4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9537f564-ab2b-4b6a-936e-2432e21e2859.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9537f564-ab2b-4b6a-936e-2432e21e2859.png
new file mode 100644
index 00000000..7d6ec893
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9537f564-ab2b-4b6a-936e-2432e21e2859.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/956b5107-b02b-4064-b2e4-4616013b12cf.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/956b5107-b02b-4064-b2e4-4616013b12cf.png
new file mode 100644
index 00000000..98536ba0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/956b5107-b02b-4064-b2e4-4616013b12cf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9900e23a-473d-4a23-8864-30cfcc69e691.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9900e23a-473d-4a23-8864-30cfcc69e691.png
new file mode 100644
index 00000000..5cadde52
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9900e23a-473d-4a23-8864-30cfcc69e691.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/99793b89-d872-4349-adf9-0b04b07b05dd.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/99793b89-d872-4349-adf9-0b04b07b05dd.png
new file mode 100644
index 00000000..ff060eb0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/99793b89-d872-4349-adf9-0b04b07b05dd.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9a65975c-9458-4a04-bffb-e9bd461d1e8d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9a65975c-9458-4a04-bffb-e9bd461d1e8d.png
new file mode 100644
index 00000000..be248e02
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9a65975c-9458-4a04-bffb-e9bd461d1e8d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9aed31ea-b420-4fb7-9ed3-c05a7a15d926.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9aed31ea-b420-4fb7-9ed3-c05a7a15d926.png
new file mode 100644
index 00000000..67f70166
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9aed31ea-b420-4fb7-9ed3-c05a7a15d926.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9b927ace-a351-4d41-87ef-1b624542ac23.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9b927ace-a351-4d41-87ef-1b624542ac23.png
new file mode 100644
index 00000000..c7794646
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9b927ace-a351-4d41-87ef-1b624542ac23.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9c53587e-f2d7-4e1f-9af9-1bde936d24da.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9c53587e-f2d7-4e1f-9af9-1bde936d24da.png
new file mode 100644
index 00000000..f08ceb26
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9c53587e-f2d7-4e1f-9af9-1bde936d24da.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9e656a1b-1414-49d5-a4e8-e2e2d1907737.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9e656a1b-1414-49d5-a4e8-e2e2d1907737.png
new file mode 100644
index 00000000..12b465ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9e656a1b-1414-49d5-a4e8-e2e2d1907737.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9ec24b3f-3ef0-4c78-a314-4713abd43f7c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9ec24b3f-3ef0-4c78-a314-4713abd43f7c.png
new file mode 100644
index 00000000..c4dd37e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/9ec24b3f-3ef0-4c78-a314-4713abd43f7c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a19cb65a-1ab7-42fc-ab01-335ba74005d2.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a19cb65a-1ab7-42fc-ab01-335ba74005d2.png
new file mode 100644
index 00000000..b1a85b3d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a19cb65a-1ab7-42fc-ab01-335ba74005d2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a2909198-b864-422d-b60e-b3bb4a1c2e9e.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a2909198-b864-422d-b60e-b3bb4a1c2e9e.png
new file mode 100644
index 00000000..b1a85b3d
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a2909198-b864-422d-b60e-b3bb4a1c2e9e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a311abb6-b9c9-4aef-9cac-88438abb5879.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a311abb6-b9c9-4aef-9cac-88438abb5879.png
new file mode 100644
index 00000000..2a393a74
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a311abb6-b9c9-4aef-9cac-88438abb5879.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a32d667c-be91-4d9a-8bdd-bd9f59835817.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a32d667c-be91-4d9a-8bdd-bd9f59835817.png
new file mode 100644
index 00000000..db8440a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a32d667c-be91-4d9a-8bdd-bd9f59835817.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a540a97f-aa33-4b1f-8682-8fcad8f96292.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a540a97f-aa33-4b1f-8682-8fcad8f96292.png
new file mode 100644
index 00000000..0daf0012
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a540a97f-aa33-4b1f-8682-8fcad8f96292.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a6445e89-3945-4cd6-9e78-283e58642493.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a6445e89-3945-4cd6-9e78-283e58642493.png
new file mode 100644
index 00000000..d0ca793f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a6445e89-3945-4cd6-9e78-283e58642493.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a6f50907-4950-402e-b327-053a02deb6b3.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a6f50907-4950-402e-b327-053a02deb6b3.png
new file mode 100644
index 00000000..d80816b0
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a6f50907-4950-402e-b327-053a02deb6b3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a9a7bd73-a2e5-40ba-bec8-7f523c0058c7.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a9a7bd73-a2e5-40ba-bec8-7f523c0058c7.png
new file mode 100644
index 00000000..f1b26efd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/a9a7bd73-a2e5-40ba-bec8-7f523c0058c7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/aa794cfb-e140-4c9b-9ea5-a9e1695b5f1d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/aa794cfb-e140-4c9b-9ea5-a9e1695b5f1d.png
new file mode 100644
index 00000000..d61c9562
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/aa794cfb-e140-4c9b-9ea5-a9e1695b5f1d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ab01cacf-e47e-4b82-90eb-09d12f96d06c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ab01cacf-e47e-4b82-90eb-09d12f96d06c.png
new file mode 100644
index 00000000..1291c441
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ab01cacf-e47e-4b82-90eb-09d12f96d06c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ac1fb199-5d83-474a-aad9-efeefb7e4caf.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ac1fb199-5d83-474a-aad9-efeefb7e4caf.png
new file mode 100644
index 00000000..bafebf73
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ac1fb199-5d83-474a-aad9-efeefb7e4caf.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/adb5aaf5-d575-4e93-a84c-7f709afcdcb6.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/adb5aaf5-d575-4e93-a84c-7f709afcdcb6.png
new file mode 100644
index 00000000..24950a0c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/adb5aaf5-d575-4e93-a84c-7f709afcdcb6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ae24b8a5-9903-4da9-9fbe-45d9bb1e9a9c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ae24b8a5-9903-4da9-9fbe-45d9bb1e9a9c.png
new file mode 100644
index 00000000..b433c9f2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ae24b8a5-9903-4da9-9fbe-45d9bb1e9a9c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/aea3605b-d55c-4799-9bf6-0a4a7e03a375.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/aea3605b-d55c-4799-9bf6-0a4a7e03a375.png
new file mode 100644
index 00000000..ca227a7c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/aea3605b-d55c-4799-9bf6-0a4a7e03a375.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b160ea09-195c-4c0e-87d7-f998e3c51078.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b160ea09-195c-4c0e-87d7-f998e3c51078.png
new file mode 100644
index 00000000..6e2bcada
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b160ea09-195c-4c0e-87d7-f998e3c51078.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b5116b6c-0f94-40b6-86b6-58611da16ca4.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b5116b6c-0f94-40b6-86b6-58611da16ca4.png
new file mode 100644
index 00000000..2dd7db26
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b5116b6c-0f94-40b6-86b6-58611da16ca4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b9646b5b-e1cf-4fc1-9099-9dd1c9813b07.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b9646b5b-e1cf-4fc1-9099-9dd1c9813b07.png
new file mode 100644
index 00000000..0bbae8e9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/b9646b5b-e1cf-4fc1-9099-9dd1c9813b07.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bc479121-6689-4836-9221-2f694919ce64.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bc479121-6689-4836-9221-2f694919ce64.png
new file mode 100644
index 00000000..4eeec6c1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bc479121-6689-4836-9221-2f694919ce64.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bdb676cb-da55-47f7-a656-2a0406ff4ab3.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bdb676cb-da55-47f7-a656-2a0406ff4ab3.png
new file mode 100644
index 00000000..0e3ff6c1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bdb676cb-da55-47f7-a656-2a0406ff4ab3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bec628e5-5a78-421b-b575-fb428983c366.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bec628e5-5a78-421b-b575-fb428983c366.png
new file mode 100644
index 00000000..6ab2bfea
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bec628e5-5a78-421b-b575-fb428983c366.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bf3b19f0-222e-42f8-8485-9b5c20a37249.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bf3b19f0-222e-42f8-8485-9b5c20a37249.png
new file mode 100644
index 00000000..df3cd1a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bf3b19f0-222e-42f8-8485-9b5c20a37249.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bf44e506-bc88-41c2-b566-ddf2fe68bbd6.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bf44e506-bc88-41c2-b566-ddf2fe68bbd6.png
new file mode 100644
index 00000000..203faf8e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/bf44e506-bc88-41c2-b566-ddf2fe68bbd6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c3e4b9e2-8d06-45d0-b19f-890dbcef6c4a.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c3e4b9e2-8d06-45d0-b19f-890dbcef6c4a.png
new file mode 100644
index 00000000..f93c2d78
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c3e4b9e2-8d06-45d0-b19f-890dbcef6c4a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c713765a-d0ce-449e-8195-02f5d1282218.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c713765a-d0ce-449e-8195-02f5d1282218.png
new file mode 100644
index 00000000..470b64a7
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c713765a-d0ce-449e-8195-02f5d1282218.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c822a54a-fdc6-47e2-a33a-039defa881c0.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c822a54a-fdc6-47e2-a33a-039defa881c0.png
new file mode 100644
index 00000000..952b06cd
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c822a54a-fdc6-47e2-a33a-039defa881c0.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c8bd7a37-6085-4843-8d01-34b9877ffe39.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c8bd7a37-6085-4843-8d01-34b9877ffe39.png
new file mode 100644
index 00000000..fa8b5087
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c8bd7a37-6085-4843-8d01-34b9877ffe39.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c92d9c7b-a07f-48c5-9717-01ced228ffe9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c92d9c7b-a07f-48c5-9717-01ced228ffe9.png
new file mode 100644
index 00000000..27a8363a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c92d9c7b-a07f-48c5-9717-01ced228ffe9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c9aa6cf7-c514-4cbe-bbfb-d815dbbb07b1.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c9aa6cf7-c514-4cbe-bbfb-d815dbbb07b1.png
new file mode 100644
index 00000000..b2fce037
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/c9aa6cf7-c514-4cbe-bbfb-d815dbbb07b1.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cae7f5e8-0e81-471b-8d5c-ccfb217b3805.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cae7f5e8-0e81-471b-8d5c-ccfb217b3805.png
new file mode 100644
index 00000000..c4dd37e8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cae7f5e8-0e81-471b-8d5c-ccfb217b3805.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cef9855e-d719-434e-ac00-fa8ab4b351db.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cef9855e-d719-434e-ac00-fa8ab4b351db.png
new file mode 100644
index 00000000..13183a15
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cef9855e-d719-434e-ac00-fa8ab4b351db.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cfd1bce3-764c-4ddf-9f6c-847e76d7fdf7.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cfd1bce3-764c-4ddf-9f6c-847e76d7fdf7.png
new file mode 100644
index 00000000..d3056716
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/cfd1bce3-764c-4ddf-9f6c-847e76d7fdf7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d2167d3b-96f9-46d1-87c4-79d0839b3745.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d2167d3b-96f9-46d1-87c4-79d0839b3745.png
new file mode 100644
index 00000000..db84f9d1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d2167d3b-96f9-46d1-87c4-79d0839b3745.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d2606791-7a33-467c-b5c5-3e95b51ba695.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d2606791-7a33-467c-b5c5-3e95b51ba695.png
new file mode 100644
index 00000000..6e2bcada
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d2606791-7a33-467c-b5c5-3e95b51ba695.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d459df75-35ba-46f7-b3a0-2e6d934d5636.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d459df75-35ba-46f7-b3a0-2e6d934d5636.png
new file mode 100644
index 00000000..ad44ca7f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d459df75-35ba-46f7-b3a0-2e6d934d5636.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d5398887-9131-4018-8747-b8b41123fb35.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d5398887-9131-4018-8747-b8b41123fb35.png
new file mode 100644
index 00000000..64fc0e94
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d5398887-9131-4018-8747-b8b41123fb35.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d646f76f-e94e-4eac-9e96-659f9b7aa2c2.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d646f76f-e94e-4eac-9e96-659f9b7aa2c2.png
new file mode 100644
index 00000000..66ecc50f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d646f76f-e94e-4eac-9e96-659f9b7aa2c2.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d658968e-1b1c-4871-a429-66c863b9c215.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d658968e-1b1c-4871-a429-66c863b9c215.png
new file mode 100644
index 00000000..8b594170
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d658968e-1b1c-4871-a429-66c863b9c215.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d954838e-bc84-4659-be40-91028c951c64.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d954838e-bc84-4659-be40-91028c951c64.png
new file mode 100644
index 00000000..edb72c9f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/d954838e-bc84-4659-be40-91028c951c64.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/da702c2c-702c-4ea7-bcf6-e778e7cfad70.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/da702c2c-702c-4ea7-bcf6-e778e7cfad70.png
new file mode 100644
index 00000000..1c9db0a8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/da702c2c-702c-4ea7-bcf6-e778e7cfad70.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/debe51d8-2829-4f70-8fc5-362f0536a7ab.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/debe51d8-2829-4f70-8fc5-362f0536a7ab.png
new file mode 100644
index 00000000..7b2c1486
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/debe51d8-2829-4f70-8fc5-362f0536a7ab.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/dedb314e-baf6-4580-83d0-9fb217fbe829.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/dedb314e-baf6-4580-83d0-9fb217fbe829.png
new file mode 100644
index 00000000..41ab5cf3
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/dedb314e-baf6-4580-83d0-9fb217fbe829.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e14ff4a8-12d8-42ba-968f-87b50c1afc6d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e14ff4a8-12d8-42ba-968f-87b50c1afc6d.png
new file mode 100644
index 00000000..dbe672ba
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e14ff4a8-12d8-42ba-968f-87b50c1afc6d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e27c24a9-4e98-404e-a085-9019936fe3d4.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e27c24a9-4e98-404e-a085-9019936fe3d4.png
new file mode 100644
index 00000000..d0e9e9c9
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e27c24a9-4e98-404e-a085-9019936fe3d4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e3f807db-f6b3-4808-8b2e-990ed0c444b8.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e3f807db-f6b3-4808-8b2e-990ed0c444b8.png
new file mode 100644
index 00000000..97ed0d83
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e3f807db-f6b3-4808-8b2e-990ed0c444b8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e4c7e341-b388-4a1e-ac1e-91dc5ce48ffe.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e4c7e341-b388-4a1e-ac1e-91dc5ce48ffe.png
new file mode 100644
index 00000000..fd3b8438
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e4c7e341-b388-4a1e-ac1e-91dc5ce48ffe.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e53cec07-65ac-4af7-8a26-f9d5a1c27642.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e53cec07-65ac-4af7-8a26-f9d5a1c27642.png
new file mode 100644
index 00000000..53fa1ebe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e53cec07-65ac-4af7-8a26-f9d5a1c27642.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e5a295eb-90c3-410e-877a-dc830cac4504.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e5a295eb-90c3-410e-877a-dc830cac4504.png
new file mode 100644
index 00000000..e156f96c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e5a295eb-90c3-410e-877a-dc830cac4504.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e71cb35d-172e-4f0b-bc3b-e50bd46ca956.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e71cb35d-172e-4f0b-bc3b-e50bd46ca956.png
new file mode 100644
index 00000000..900209fe
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e71cb35d-172e-4f0b-bc3b-e50bd46ca956.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e8f656c0-3ccb-4dee-b6ff-1f05dcb0a1d6.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e8f656c0-3ccb-4dee-b6ff-1f05dcb0a1d6.png
new file mode 100644
index 00000000..75a0e4fa
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e8f656c0-3ccb-4dee-b6ff-1f05dcb0a1d6.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e9f5eb6c-586d-4ad8-8ac0-9a4e00482688.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e9f5eb6c-586d-4ad8-8ac0-9a4e00482688.png
new file mode 100644
index 00000000..aceb3199
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/e9f5eb6c-586d-4ad8-8ac0-9a4e00482688.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/eaa2fd52-cdc8-42d9-a43c-c18a9dd445a5.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/eaa2fd52-cdc8-42d9-a43c-c18a9dd445a5.png
new file mode 100644
index 00000000..17f33740
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/eaa2fd52-cdc8-42d9-a43c-c18a9dd445a5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/eb618f1d-e0d3-49a7-bbec-c8e5ab9049d4.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/eb618f1d-e0d3-49a7-bbec-c8e5ab9049d4.png
new file mode 100644
index 00000000..70e300ac
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/eb618f1d-e0d3-49a7-bbec-c8e5ab9049d4.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ee8230e3-3b67-47ed-a159-193aa6801250.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ee8230e3-3b67-47ed-a159-193aa6801250.png
new file mode 100644
index 00000000..30dbc751
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/ee8230e3-3b67-47ed-a159-193aa6801250.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f07d7520-7d07-40da-8ada-b5c8f02e1585.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f07d7520-7d07-40da-8ada-b5c8f02e1585.png
new file mode 100644
index 00000000..2bdc8c79
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f07d7520-7d07-40da-8ada-b5c8f02e1585.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f15420de-a851-4e7f-8b87-434e1eba5e2d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f15420de-a851-4e7f-8b87-434e1eba5e2d.png
new file mode 100644
index 00000000..87be32c2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f15420de-a851-4e7f-8b87-434e1eba5e2d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f26567a0-ae26-409e-87ee-2ef19c33567d.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f26567a0-ae26-409e-87ee-2ef19c33567d.png
new file mode 100644
index 00000000..d6260aa6
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f26567a0-ae26-409e-87ee-2ef19c33567d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f5c97339-7642-4ed5-bba4-53ac28640fda.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f5c97339-7642-4ed5-bba4-53ac28640fda.png
new file mode 100644
index 00000000..9f7ef414
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f5c97339-7642-4ed5-bba4-53ac28640fda.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f6815331-7ba6-4be4-9719-eeeca8f4dd94.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f6815331-7ba6-4be4-9719-eeeca8f4dd94.png
new file mode 100644
index 00000000..1311868f
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f6815331-7ba6-4be4-9719-eeeca8f4dd94.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f7717031-b704-4976-9b75-27fcf2042a9a.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f7717031-b704-4976-9b75-27fcf2042a9a.png
new file mode 100644
index 00000000..0621f8ff
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/f7717031-b704-4976-9b75-27fcf2042a9a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fa4685e9-3a7f-4eb7-a13a-a84176bd70a9.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fa4685e9-3a7f-4eb7-a13a-a84176bd70a9.png
new file mode 100644
index 00000000..7fdfa29c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fa4685e9-3a7f-4eb7-a13a-a84176bd70a9.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fa49eabe-ad86-4314-8e13-ed19e7e20b27.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fa49eabe-ad86-4314-8e13-ed19e7e20b27.png
new file mode 100644
index 00000000..3816849a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fa49eabe-ad86-4314-8e13-ed19e7e20b27.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fb331bce-9d8e-4d8e-928e-8446022dac2c.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fb331bce-9d8e-4d8e-928e-8446022dac2c.png
new file mode 100644
index 00000000..b292f1a1
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fb331bce-9d8e-4d8e-928e-8446022dac2c.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fcbcef1d-a47c-4c25-9d4b-a75610f571c5.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fcbcef1d-a47c-4c25-9d4b-a75610f571c5.png
new file mode 100644
index 00000000..c1639354
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fcbcef1d-a47c-4c25-9d4b-a75610f571c5.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fe9f65c6-64fa-4fcc-854b-c1fae403ead8.png b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fe9f65c6-64fa-4fcc-854b-c1fae403ead8.png
new file mode 100644
index 00000000..c5297334
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/tf-ml-cookbook-2e-zh/img/fe9f65c6-64fa-4fcc-854b-c1fae403ead8.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/0.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/0.md
new file mode 100644
index 00000000..9d3fc001
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/0.md
@@ -0,0 +1,58 @@
+# 零、前言
+
+TensorFlow 是最受欢迎的机器学习框架之一，其新版本 TensorFlow 2.0 改善了其简单性和易用性。 本书将帮助您了解和利用最新的 TensorFlow 功能。
+
+《TensorFlow 2.0 的新增功能》首先关注高级概念，例如新的 TensorFlow Keras API，急切执行和高效的分发策略，这些策略可帮助您在多个 GPU 和 TPU 上运行机器学习模型。 本书随后将引导您完成构建数据摄取和训练管道的过程，并提供建议和最佳实践，以将数据提供给使用新`tf.keras` API 创建的模型。 您将探索使用 TensorFlow 服务和其他多平台部署构建推理管道的过程，然后再继续探索新发布的 AIY（本质上是自己动手的 AI）。 本书深入研究了核心 API，可帮助您构建统一的卷积层和循环层，并使用 TensorBoard 通过假设分析来可视化深度学习模型。
+
+到这本书的结尾，您将了解 TensorFlow 2.0 和 TensorFlow 1.x 之间的兼容性，并将能够平稳地迁移到 TensorFlow 2.0。
+
+# 这本书是给谁的
+
+如果您是数据科学家，机器学习从业人员，深度学习研究人员或 AI 爱好者，希望将代码迁移到并探索 TensorFlow 2.0 的最新功能，则适合您。 要了解本书所涵盖的概念，必须具有 TensorFlow 和 Python 编程的经验。
+
+# 充分利用这本书
+
+读者需要具有 Python 和 TensorFlow 的基础知识。
+
+# 下载示例代码文件
+
+您可以从 [www.packt.com](http://www.packt.com) 的帐户中下载本书的示例代码文件。 如果您在其他地方购买了此书，则可以访问 [www.packt.com/support](http://www.packt.com/support) 并注册以将文件直接通过电子邮件发送给您。
+
+您可以按照以下步骤下载代码文件：
+
+1.  登录或注册 [www.packt.com](http://www.packt.com) 。
+2.  选择支持选项卡。
+3.  单击代码下载和勘误。
+4.  在搜索框中输入书籍的名称，然后按照屏幕上的说明进行操作。
+
+下载文件后，请确保使用以下最新版本解压缩或解压缩文件夹：
+
+*   Windows 的 WinRAR/7-Zip
+*   Mac 版 Zipeg/iZip/UnRarX
+*   适用于 Linux 的 7-Zip/PeaZip
+
+本书的代码包也托管在 [GitHub](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0) 上。
+
+# 下载彩色图像
+
+我们还提供了 PDF 文件，其中包含本书中使用的屏幕截图/图表的彩色图像。 [您可以在此处下载](_ColorImages.pdf)。
+
+# 使用约定
+
+本书中使用了许多文本约定。
+
+`CodeInText`：指示文本，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄中的代码字。 这是一个示例：“将下载的`WebStorm-10*.dmg`磁盘镜像文件安装为系统中的另一个磁盘。”
+
+代码块设置如下：
+
+```py
+layer_name = tf.keras.Input(   shape=None,   batch_size=None,   name=None,   dtype=None,   sparse=False,   tensor=None,   **kwargs)
+```
+
+任何命令行输入或输出的编写方式如下：
+
+```py
+python3 -m pip --help
+```
+
+**粗体**：表示新术语，重要单词或您在屏幕上看到的单词。 例如，菜单或对话框中的单词会出现在这样的文本中。 这是一个...
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/1.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/1.md
new file mode 100644
index 00000000..11667baf
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/1.md
@@ -0,0 +1,254 @@
+# 一、TensorFlow 2.0 入门
+
+本书旨在使读者熟悉 **TensorFlow 2.0**（**TF 2.0**）中引入的新功能，并在构建机器学习应用时使您发挥其潜力。 本章概述了 TF 2.0 中新的架构和 API 级别的变化。 我们将介绍 TF 2.0 的安装和设置，并将比较有关 **TensorFlow 1.x**（**TF 1.x**）的更改，例如 Keras API 和 Layer API。 我们还将涵盖丰富的扩展，例如 TensorFlow 概率，Tensor2Tensor，参差不齐的 Tensors，以及新的针对损失函数的自定义训练逻辑。 本章还总结了对层 API 和其他 API 的更改。
+
+本章将涵盖以下主题：
+
++   TF 2.0 的主要变化
++   适用于 TF 2.0 的推荐技术
++   使代码 TF 2.0 原生
++   常见问题
++   TF 2.0 的未来
+
+# 技术要求
+
+在开始执行前人脸分中描述的步骤之前，您需要具备以下条件：
+
+*   Python 3.4 或更高版本
+*   具有 Ubuntu 16.04 或更高版本的计算机（对于大多数基于 \*NIX 的系统，例如 macOS 或其他 Linux 变体，说明仍然相似）
+
+# 什么是新增的？
+
+TF 2.0 的理念基于简单性和易用性。 主要更新包括使用`tf.keras`轻松构建模型并急切执行，可在任何平台上进行生产和商业使用的强大模型部署，强大的实验技术和研究工具，以及用于简化 API 的 API 简化。
+
+下图简化了 TF 2.0 的新组织：
+
+![](img/b7664abb-104a-4e94-a8e4-2b1889ad47f3.png)
+
+上图着重于使用 Python API 进行训练和部署； 但是，其他受支持的语言（包括 Julia，JavaScript 和 R）也遵循相同的过程。TF 2.0 的流程是...
+
+# 来自 TF 1.x 的更改
+
+TF 1.x 和 TF 2.0 之间的第一个主要区别是 API 的组织。 TF 2.0 减少了 API 结构中的冗余。 主要更改包括删除`tf.app`，`tf.flags`和`tf.logging`，以支持其他 Python 模块，例如`absl-py`和内置的日志记录功能。
+
+`tf.contrib`库现在也已从主要 TensorFlow 存储库中删除。 该库中实现的代码已移至其他位置或已移至 TensorFlow 附加库。 这样做的原因是`contrib`模块已经超出了单个存储库中可以维护的范围。
+
+其他更改包括删除`QueueRunner`模块以支持使用`tf.data`，删除图集合以及更改如何处理变量。 `QueueRunner`模块是一种向模型提供数据以进行训练的方法，但是它比`tf.data`复杂且难于使用，后者现在是将数据提供给模型的默认方法。 在第 3 章“设计和构造输入数据管道”中，说明了将`tf.data`用于数据管道的其他好处。
+
+TF 2.0 的另一个主要变化是没有更多的全局变量。 在 TF 1.x 中，使用`tf.Variable`创建的变量将被放在默认图中，并且仍可以通过其名称恢复。 TF 1.x 具有各种机制，旨在帮助用户恢复变量，例如变量作用域，全局集合以及诸如`tf.get_global_step`和`tf.global_variables_initializer`之类的辅助方法。 对于 TF 中的默认变量行为，所有这些都已在 TF 2.0 中删除。
+
+# TF 2.0 安装和设置
+
+本节介绍了使用不同方法和不同系统配置在系统上安装 TF 2.0 所需的步骤。 建议入门级用户从基于`pip`和`virtualenv`的方法开始。 对于 GPU 版本的用户，推荐使用`docker`。
+
+# 安装和使用 PIP
+
+对于初学者来说，`pip`是 Python 社区中流行的包管理系统。 如果您的系统上未安装此软件，请先安装它，然后再继续进行。 在许多 Linux 安装中，默认情况下安装了 Python 和`pip`。 您可以通过键入以下命令来检查是否已安装`pip`：
+
+```py
+python3 -m pip --help
+```
+
+如果看到`blurb`描述`pip`支持的不同命令，则说明`pip`已安装在系统上。 如果未安装`pip`，您将看到一条错误消息，类似于`No module named pip` <q>。</q>
+
+隔离开发环境通常是一个好主意。 这极大地简化了依赖项管理并简化了软件开发过程。 我们可以使用 Python 中名为`virtualenv`的工具来实现环境隔离。 此步骤是可选的，但强烈建议：
+
+```py
+>>mkdir .venv
+>>virtualenv --python=python3.6 .venv/
+>>source .venv.bin/activate
+```
+
+您可以使用`pip`安装 TensorFlow，如以下命令所示：
+
+```py
+pip3 install tensorflow==version_tag
+```
+
+例如，如果要安装版本`2.0.0-beta1`，则命令应如下所示：
+
+```py
+pip3 install tensorflow==2.0.0-beta1
+```
+
+最新包更新的完整列表可在[这个页面](https://pypi.org/project/tensorflow/#history)中找到。
+
+您可以通过运行以下命令来测试安装：
+
+```py
+python3 -c "import tensorflow as tf; a = tf.constant(1); print(tf.math.add(a, a))"
+```
+
+# 使用 Docker
+
+如果您想将 TensorFlow 安装与系统的其余部分隔离开来，则可能要考虑使用 Docker 镜像进行安装。 这将要求您在系统上安装 Docker。 可在[这个页面](https://docs.docker.com/install/)上获得安装说明。
+
+为了在 Linux 系统上使用不带`sudo`的 Docker，[请执行以下安装后步骤](https://docs.docker.com/install/linux/linux-postinstall/)。
+
+TensorFlow 团队正式支持 Docker 镜像作为安装方式。 对于用户而言，这意味着可以在[这里](https://hub.docker.com/r/tensorflow/tensorflow/)下载更新的 Docker 镜像。
+
+使用以下命令在本地下载 Docker 镜像：...
+
+# GPU 安装
+
+TensorFlow 的 GPU 版本的安装与 CPU 版本的过程稍有不同。 可以使用`pip`和 Docker 进行安装。 安装过程的选择归结为最终目标。 基于 Docker 的过程更容易，因为它涉及到安装更少的附加组件。 它还有助于避免库冲突。 但是，这可能会带来管理容器环境的额外开销。 基于`pip`的版本涉及安装更多的其他组件，但具有更高的灵活性和效率。 它使结果安装无需任何虚拟化即可直接在本地主机上运行。
+
+要继续进行操作，假设您已经设置了必要的硬件，则至少需要以下软件。 [NVIDIA GPU 驱动程序的链接](https://www.nvidia.com/Download/index.aspx?lang=en-us)中提供了详细的安装说明。
+
+# 使用 Docker 安装
+
+在撰写本书时，此选项仅适用于在 Linux 主机上运行的 NVIDIA GPU。 如果您遇到平台限制，那么这是一个很好的选择，因为它可以大大简化流程。 通过利用预构建的容器，还可以最大程度地减少需要安装的其他软件组件的数量。 要继续，我们需要安装`nvidia-docker`。 请参考以下链接以获取更多详细信息：
+
+*   [安装](https://github.com/NVIDIA/nvidia-docker)
+*   [常见问题解答](https://github.com/NVIDIA/nvidia-docker/wiki/Frequently-Asked-Questions#platform-support)
+
+完成上述链接中描述的步骤后，请执行以下步骤：
+
+1.  测试 GPU 是否可用：...
+
+# 使用 PIP 安装
+
+如果您想将 TensorFlow 与 NVIDIA GPU 一起使用，则需要在系统上安装以下其他软件。 共享的链接中提供了详细的安装说明：
+
+*   [CUDA 工具包：TensorFlow 支持 CUDA 10.0](https://developer.nvidia.com/cuda-toolkit-archive) ）
+*   [CUPTI 随附 CUDA 工具包](https://docs.nvidia.com/cuda/cupti/)
+*   [cuDNN SDK（版本 7.4.1 或更高版本）](https://developer.nvidia.com/cudnn)
+*   [（可选）TensorRT 5.0 可以改善某些模型上的推理延迟和吞吐量](https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html)
+
+一旦安装了所有先前的组件，这是一个相当简单的过程。
+
+使用`pip`安装 TensorFlow：
+
+```py
+pip3 install tensorflow-gpu==version_tag
+```
+
+例如，如果要安装`tensorflow-2.0:alpha`，则必须输入以下命令：
+
+```py
+pip3 install tensorflow-gpu==2.0.0-alpha0
+
+```
+
+有关最新包更新的完整列表，请访问[这里](https://pypi.org/project/tensorflow/#history)。
+
+您可以通过运行以下命令来测试安装：
+
+```py
+python3 -c "import tensorflow as tf; a = tf.constant(1); print(tf.math.add(a, a))"
+```
+
+# 使用 TF 2.0
+
+TF 2.0 可以通过两种主要方式使用-使用低级 API 和使用高级 API。 为了在 TF 2.0 中使用低级 API，需要实现诸如`tf.GradientTape`和`tf.function`之类的 API。
+
+编写低级代码的代码流程是定义函数内部的前向传递，该函数将输入数据作为参数。 然后使用`tf.function`装饰器对该函数进行注解，以便在图模式下运行它及其所有优点。 为了记录和获得前向通过的梯度，装饰器函数和损失函数都在`tf.GradientTape`上下文管理器中运行，可以从中计算梯度并将其应用于模型变量。
+
+训练代码也可以使用低级 API 编写，用于...
+
+# 丰富的扩展
+
+丰富的扩展功能是 TensorFlow 中引入的一组功能，可提高用户的工作效率并扩展功能。 在本节中，我们将介绍参差不齐的张量以及如何使用它们，并且还将介绍 TF 2.0 中引入的新模块。
+
+# 参差不齐的张量
+
+当训练和服务于机器学习模型时，可变大小的数据很常见。 在不同的基础媒体类型和模型架构中，此问题始终存在。 当代的解决方案是使用最大记录的大小，对较小的记录使用填充。 这不仅效率低下，不仅在内存或存储方面，而且在计算效率方面也是如此； 例如，当处理循环模型的输入时。
+
+参差不齐的张量有助于解决此问题。 在非常高的水平上，参差不齐的张量可以被认为是变长链表的 TensorFlow 模拟。 这里要注意的一个重要事实是，这种可变性也可以存在于嵌套大小中。 这意味着有可能...
+
+# 真正的参差不齐的张量是什么？
+
+参差不齐的张量也可以定义为具有一个或多个参差不齐的大小的张量。 换句话说，具有可变长度切片的大小。 由于最常见的用例涉及处理有限数量的记录，因此参差不齐的张量要求最外面的维度是统一的，换句话说，该维度的所有切片都应具有相同的长度。 最外部大小之前的大小可以既参差不齐，也可以统一。 总结一下这些要点，我们可以指出，参差不齐的张量的形状目前仅限于以下形式：
+
+*   单个统一大小
+*   后跟一个或多个参差不齐的大小
+*   后跟零个或更多个统一大小
+
+# 构造参差不齐的张量
+
+TF 2.0 提供了大量可用于创建或返回锯齿张量的方法。 最简单的方法之一是`tf.ragged.constant()`。 让我们用它来创建大小为[`num_sentences`，（`num_words`）的参差不齐的张量。 请注意，我们使用圆括号来指示参差不齐的大小：
+
+```py
+sentences = tf.ragged.constant([                          ["Hello", "World", "!"],                       ["We", "are", "testing", "tf.ragged.constant", "."]            ])print(sentences)
+```
+
+您应该会看到以下内容：
+
+```py
+<tf.RaggedTensor [[b'Hello', b'World', b'!'], [b'We', b'are', b'testing', b'tf.ragged.constant', b'.']]>
+```
+
+也可以从带有填充元素的旧式张量或 Python 列表中创建参差不齐的张量。 这可能非常...
+
+# 参差不齐的张量的基本操作
+
+在许多情况下，参差不齐的张量可以类似于常规张量的方式使用。 TensorFlow 提供了超过 100 个支持参差不齐的张量的运算符。 这些运算符大致可分为基本数学运算符，数组运算符或字符串运算符。
+
+以下代码块显示了添加两个锯齿张量的过程：
+
+```py
+x = tf.ragged.constant([
+                         [1, 2, 3, 4],
+                         [1, 2]
+                       ])
+y = tf.ragged.constant([
+                         [4, 3, 2, 1],
+                         [5, 6]
+                       ])
+print(tf.add(x, y))
+```
+
+结果为以下输出：
+
+```py
+<tf.RaggedTensor [[5, 5, 5, 5], [6, 8]]>
+```
+
+另一个有趣的功能是为参差不齐的张量定义了运算符重载。 这意味着程序员可以像使用其他张量一样直观地使用`+, -, *, //, /, %, **, &, |, ^`和`>=`等运算符。
+
+以下代码块显示了使用重载运算符的参差张量的乘法：
+
+```py
+x = tf.ragged.constant([
+                          [1, 2, 3, 4],
+                          [1, 2]
+                       ])
+print(x * 2)  # Multiply a ragged tensor with a scalar
+print(x * x)  # Multiply a ragged tensor with another ragged tensor
+```
+
+结果输出如下：
+
+```py
+<tf.RaggedTensor [[2, 4, 6, 8], [2, 4]]>
+<tf.RaggedTensor [[1, 4, 9, 16], [1, 4]]>
+```
+
+此外，`tf.ragged`包中定义了各种特定于参差不齐的张量的运算符。 可能有必要查看包的文档以了解更多信息。 请参阅以下链接以获取有关此文档的详细文档：
+
+*   [`RaggedTensor`](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/RaggedTensor)
+*   [`ragged`](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/ragged)
+
+# 新的重要包
+
+TF 2.0 的到来还伴随着 TensorFlow 下更多有趣且有用的包的到来，这些包可以单独安装。 其中一些包包括 TensorFlow 数据集，TensorFlow 插件，TensorFlow 文本和 TensorFlow 概率。
+
+TensorFlow 数据集是一个 Python 模块，可轻松访问 100 多个数据集，从音频到自然语言再到图像。 这些数据集可以通过以下代码轻松下载并用于模型中：
+
+```py
+import tensorflow_datasets as tfdsdataset = tfds.load(name="mnist", split=tfds.Split.TRAIN)dataset = dataset.shuffle(1024).batch(32).prefetch(tf.data.experimental.AUTOTUNE)
+```
+
+从该库中获取的数据集是`tf.data.Dataset`对象，这些对象...
+
+# 总结
+
+TF 2.0 包含许多主要更改，例如 API 清理，热切执行和面向对象的哲学。 API 清理包括弃用具有等效标准 Python 库的冗余模块，以及删除`tf.contrib`模块并将其重新组织到主要 API 和 TensorFlow Addons 包中。 急切的执行和面向对象的 API 使调试更加有效和直接，并且导致变量被视为普通的 Python 变量。 这意味着不再需要变量集合和其他专用于处理全局变量的 API，因此在 TF 2.0 中已将其删除。
+
+TF 2.0 还将默认的高级 API 从 TF 1.x 中的估计器转移到 TF 2.0 中的`tf.keras`，以简化和扩展。 `tf.keras` API 具有三种不同的编程类型，每种提供不同级别的抽象和可定制性。 可以使用`tf.GradientTape`编写低级 TF 2.0 代码，以处理操作的梯度，而使用`tf.function`编写基于图的执行。
+
+本章还介绍了安装 TF 2.0 的不同方法，包括通过`pip`和 Docker 进行安装，以及 GPU 版本的安装。 有许多与 TF 2.0 兼容并与之一起发布的模块，这些模块进一步增强和扩展了基本 API 的可能性。 其中包括 TensorFlow 数据集，TensorFlow 插件，TensorFlow 文本和 TensorFlow 概率。
+
+本章还包括参差不齐的张量，这对于存储具有可变长度和形状以及分层输入的数据很有用。 这意味着参差不齐的张量对于存储语言和序列数据很有用。
+
+在下一章中，我们将了解 Keras 的默认集成和急切执行的知识。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/2.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/2.md
new file mode 100644
index 00000000..5efa352f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/2.md
@@ -0,0 +1,470 @@
+# 二、Keras 默认集成和急切执行
+
+本章涵盖了两个高级 **TensorFlow 2.0**（**TF 2.0**）API，即 Keras 和估计器。 本章重点关注惰性求值和急切执行的概念，重点介绍如何在 **TensorFlow 1.x**（**TF 1.x**）和 TF 2.0 中求值基础计算图之间的差异 。 本章还提供了有关使用诸如 Keras 之类的高级 API 构建自定义模型（使用自定义低级操作）的详细指南。
+
+本章将涵盖以下主题：
+
+*   TF 2.0 中的新抽象
+*   深入了解 Keras API
+*   估计器
+*   求值 TensorFlow 图
+
+# 技术要求
+
+为了运行本章中给出的代码摘录，您将需要以下硬件和软件：
+
+*   TF 2.0 或更高版本（足够使用 CPU 或 GPU 版本）
+*   Python 3.4+（目前，TensorFlow 支持的最高 Python 版本是 3.6）
+*   NumPy（如果不是由 TensorFlow 自动安装）
+
+可在[这个页面](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0/tree/master/Chapter02)中获得本章的代码文件。
+
+# TF 2.0 中的新抽象
+
+抽象是在编程和软件开发过程中使用的非常流行的工具。 从非常高级的意义上讲，**抽象**指的是隔离和描述特定任务或一组任务的中心思想而不必指定物理，空间或时间细节的过程。 正确完成后，抽象可以显着减少针对特定任务需要编写的代码量。 它还提高了现有代码的可重用性，并使其与 TF 2.0 兼容。
+
+在使用机器学习系统时，有一些常见的高级任务，例如训练数据，建模，模型评估，预测，模型存储和模型加载，这是常见的...
+
+# 深入了解 Keras API
+
+TF 2.0 与 Keras 的结合比以前紧密，特别是对于高级 API。 如果您刚开始在 TensorFlow 中构建基于神经网络的模型，则建议您从 Keras 开始。 简而言之，Keras 公开了用户友好的 API，用于执行常见任务，例如加载数据，构建模型，训练模型，评估模型，运行模型以及加载和保存以前的模型。 影响其灵活性的一个重要因素是，它允许您在不同的抽象级别上无缝运行。
+
+# 什么是 Keras？
+
+Keras 是用于构建和训练深度学习模型的流行的高级 API。 Keras 的核心是高级神经网络 API 规范。 它在机器学习社区中被研究人员，爱好者和软件工程师广泛使用。 它的开发着眼于实现快速实验。 它具有多种机器学习平台和编程语言的实现，例如 TensorFlow，MXNet，TypeScript，JavaScript，CNTK，Theano，PlaidML，Python，Scala 和 CoreML。 TF 2.0 包含 Keras API 规范的完整实现以及 TensorFlow 特定的增强功能和优化功能。 在`tf.keras`模块中可用。
+
+Keras 是用明确的...
+
+# 构建模型
+
+机器学习从根本上讲是一系列统计计算，这些统计计算可以实现最终目的。 这些核心统计组件可以封装为模型。 此外，一些标准计算可被视为与此核心的交互。 从程序员的角度来看，将模型看成一个包含大量数学方程的黑匣子可能会很有用。 然后，其他动作可以描述为与此黑匣子的一组交互。
+
+例如，给定一组输入记录，可以将**训练**模型理解为计算模型参数（或权重）的过程。 **推理**可以看作是一个过程，使用数学核心和学习到的参数来生成给定输入集的预测。
+
+Keras 大致采用了我们刚刚讨论的抽象范式，以帮助用户使用基于神经网络的模型轻松地构建，训练和预测。 在随后的小节中，我们将详细介绍 Keras 为上述任务中的每一项提供的选项。 我们还将探讨使 Keras 成为不可忽视的强大力量的其他辅助功能。
+
+在 Keras 中，模型是通过组合层来构建的。 每个 Keras 层大致对应于神经网络架构中的层。 模型也可以看作是层的组合。 Keras 提供了多种选择来组合这些层以形成基于神经网络的模型。 接下来的两个小节重点介绍 Keras 为构建模型而公开的两种最流行的 API，也称为**数学**和**统计核心**。
+
+# Keras 层 API
+
+在用于模型构建的高级 Keras API 中，Keras 层是基本构建块。 **模型**通常定义为这些层的某种图形。 这些层也可以被编程为彼此交互。 由于这些是基本的构建块，因此我们可以在训练和推理阶段定义和自定义层的行为。 换句话说，我们具有在前进和后退过程中定义层行为的能力（如果适用）。 从程序员的角度来看，可以将一层视为封装状态和逻辑的数据结构，以从给定的一组输入生成特定的输出。
+
+层...
+
+# 使用顺序 API 建立简单模型
+
+`Sequential` API 是 Keras 为构建模型公开的非常简单但功能强大的抽象。 如果刚开始使用 Keras，建议您使用此功能。 如果要使用单输入级模型，这也是推荐的选择。
+
+该 API 的主要组件是`tf.keras.Sequential`。
+
+这对于简单，连续的层组合很有用。 假设您有一个`n`层神经网络。 假设这些层定义为`[layer_1, layer_2, …. , layer_n]`。
+
+请注意，这些层中的每一层都是 Keras 层，如前所述。 对于我们的实现，这意味着该层对象将是`tf.keras.layers`中公开的层之一，或者是对基础 Keras 层实现进行子类化的用户定义层。
+
+可以使用`tf.keras.Sequential`实例的`add()`方法合并组成层。
+
+按顺序组合它们的一般形式如下：
+
+```py
+my_model = tf.keras.Sequential()
+my_model.add(layer_1)
+.
+.
+my_model.add(layer_n)
+```
+
+假设您要建立一个描述全连接神经网络的模型（也称为**多层感知器**（**MLP**）），以对具有五个属性的一维记录进行二分类。 我们的模型包括四个全连接层。 纯粹出于说明目的，我们假设每个全连接层包含 10 个节点或神经元。 这些层中的每一层都使用**整流线性单元**（**ReLU**）激活函数。 最终输出通过`softmax`层获取。 可以在相应层的构造器中定义特定于层的自定义。 实现此模型的代码如下：
+
+```py
+model = tf.keras.Sequential()
+
+# Adds a densely-connected layer with 10 units and rectified linear unit activations
+# Accepts multiple input tensors of size 5 from user
+model.add(layers.Dense(10, activation='relu', input_shape=(5,)))
+
+# Add layer 2 with 10 units and relu activations:
+model.add(layers.Dense(10, activation='relu'))
+
+# Add layer 3 with 10 units and relu activations:
+model.add(layers.Dense(10, activation='relu'))
+
+# Add layer 4 with 10 units and relu activations:
+model.add(layers.Dense(10, activation='relu'))
+
+# Add a softmax layer with 2 output units:
+model.add(layers.Dense(2, activation='softmax'))
+```
+
+使用`Sequential` API 的另一种方法是提供列表中的所有层，或者通常提供某种迭代器。 这些可以在初始化模型对象时传递给`Sequential()`构造器。 这在分隔层描述和模型创建任务时特别有用。 让我们看下面的示例，以更好地理解这一点。
+
+考虑一下尝试从以下这些层的列表中生成模型的示例：`layer_list =[layer_1, layer_2, …. , layer_n]`。 现在可以通过将`layer_list`对象直接传递给构造器来创建模型，如下所示：
+
+```py
+new_model = tf.keras.Sequential(layer_list)
+```
+
+值得注意的是，前面的语句等同于下面的语句：
+
+```py
+new_model = tf.keras.Sequential(layers=layer_list)
+```
+
+这也可以用其他方式使用。 一个示例是将层规范和模型创建过程分开。 让我们进一步探讨这个想法。 假设您有一个用例，其中模型需要多个仅在运行时可用的层。
+
+一种简单的方法是编写一个用于创建层的函数。 让我们编写一个示例函数`get_layers(n)`，它使用整数值`n`并一个接一个地返回许多`Dense`层。 为了说明 API 的灵活性，让我们使用 Python 生成器实现该函数：
+
+```py
+def get_layers(n):
+    while n > 0:
+        yield tf.keras.Dense(10, activation='relu')
+        n -= 1
+```
+
+如果您不熟悉 Python 生成器，请在继续操作之前参阅[这里](https://realpython.com/introduction-to-python-generators/)。
+
+前一个代码块中定义的函数接受`n`的正整数值并返回`generator`对象。 此生成器生成的每个元素都是一个层。 以下代码段显示了如何使用此函数创建模型：
+
+```py
+model_using_generator = tf.keras.Sequential(layers=get_layers(10))
+```
+
+# 使用函数式 API 建立高级模型
+
+随着机器学习任务的日益成熟，具有多阶段输入和输出的模型变得越来越普遍。 大量实际使用案例涉及具有多阶段输入和输出的模型。 具有多个输入的真实世界模型的一个示例是文本分类模型，该模型可以查看输入文本中的单词和字符序列。
+
+尽管`Sequential` API 在以串行方式组合层方面做得非常好，但是它不能用于描述基础层的并行组成。 通常，它不能用于构建不具有线性拓扑的层图。 在需要利用特定层的情况下，其实用性也受到限制。
+
+# 训练模型
+
+**训练模型**指的是为不同网络组件学习权重的过程，这些过程在给定的一组示例中将损失函数降至最低。 简而言之，训练神经网络意味着找到网络值的最佳组合。 如您所知，训练过程也与评估和预测过程紧密相关。 借助抽象的强大功能，Keras 提供了强大的高级接口来实现和管理端到端的训练过程。 让我们看一下它为使用顺序和函数式 API 创建的模型提供的训练 API。 它为此阶段提供的一些函数如下：
+
+*   `model.compile()`：此函数用于配置训练过程。 用户指定详细信息，例如优化器的类型（以及超参数（如果有的话）），损失函数的类型以及要评估的指标。 这些也是可以使用 TensorBoard 可视化的指标。 下面的示例代码片段描述了一个带有**随机梯度下降**（**SGD**）优化器，`CategoricalCrossentropy`损失函数和记录`Accuracy`指标的样本训练配置：
+
+```py
+model.compile(
+             # Optimizer
+             optimizer=tf.keras.optimizers.SGD(),
+
+            # Loss function to minimize
+            loss=keras.losses.CategoricalCrossentropy(),
+
+            # List of metrics to monitor
+            metrics=[
+                    keras.metrics.SparseCategoricalAccuracy()
+            ]
+)
+```
+
+*   `model.fit()`：此方法用于提供训练数据并控制实际训练过程。 此方法中的一些重要参数和参数是训练记录，训练标签，训练周期数和训练批量大小。 以下样本片段描述了一个样本训练过程，该过程用于在训练记录（`train_x`）和训练标签（`train_y`）上以批号`32`训练`30`周期的预定义模型：
+
+```py
+model.fit(
+      x=train_x,
+      y=train_y,
+      epochs=30,
+      batch_size=32
+)
+```
+
+*   `model.evaluate()`：如前所述，训练和评估过程是相互联系的，并且紧密相连。 训练神经网络需要经常更新权重，以找到最佳的权重集。 为此，有必要在当前阶段计算某种类型的网络状态。 此过程称为**评估**。 更具体地说，评估是针对给定数据集在当前阶段计算网络的损失和其他指标的过程。 请记住，此方法执行的计算是分批执行的。 该函数返回与损失函数相对应的标量。 它还返回与`model.compile()`阶段中提供的任何度量对应的值。 以下代码段描述了一个评估函数，该函数以批量大小`32`来计算记录（`test_x`）和标签（`test_y`）上的度量：
+
+```py
+results = model.evaluate(
+      test_x,
+      test_y,
+      batch_size=32
+     )
+```
+
+# 保存和加载模型
+
+训练后，保存模型以备后用可能非常有用。 在许多用例中，将训练和推理管道分离是一个好主意。 从开发人员的角度来看，模型可以抽象为一个黑匣子，该黑匣子接受一组输入并返回一些输出。 这样，保存模型只不过是导出表示该黑匣子的工件。 然后，还原或加载模型成为使用此黑匣子执行一些实际工作的过程。 这也可以理解为**序列化**和**反序列化**模型黑匣子的过程。
+
+TF 2.0 支持以多种模式保存和恢复模型：
+
+*   仅模型架构（Keras）
+*   仅模型权重（Keras）
+*   整个模型：...
+
+# 分别加载和保存架构和权重
+
+在某些用例中，将模型创建和模型初始化步骤分离是有意义的。 在这种情况下，模型序列化将需要使用单独的过程来加载和保存架构和模型权重。 Keras 为用户提供支持，以独立使用架构和权重。
+
+# 加载和保存架构
+
+在`tf.Keras` Python API 中，架构交换的基本单元是 Python `dict`。 Keras 模型使用`get_config()`方法从现有模型生成此`dict`。 然后可以使用标准的 Python 序列化和反序列化方法（例如 Pickle 或 HD5）将此`dict`保存到磁盘或任何其他存储介质中。 您也可以将 Python `dict`直接写入磁盘上的文件。
+
+假设您要将 Keras 模型的架构`my_model`保存到磁盘。 以下代码段说明了如何执行此操作：
+
+```py
+my_model_architecture = my_model.get_config()
+```
+
+现在，您可以使用选择的方法将此 Python `dict`保存到磁盘。
+
+对于从配置对象生成模型的逆用例，...
+
+# 加载和保存权重
+
+在 Python API 中，`tensorflow.keras`使用 NumPy 数组作为权重交换的单元。 这与用于加载和保存架构的 API 非常相似。 这些 NumPy 数组也可以使用原生 Python 技术保存到磁盘中。 `get_weights()`和`set_weights()`方法大致类似于`get_config()`和`from_config()`。 前者返回对应于模型中不同层的 NumPy 数组列表。 后者接受 NumPy 数组列表并更新内存中的模型。
+
+以下代码段说明了如何获取现有模型的权重：
+
+```py
+my_model_weights = my_model.get_weights()
+```
+
+给定一组权重和一个模型副本，可以按以下步骤执行更新内存中模型权重的逆操作：
+
+```py
+replica_my_model.set_weights(my_model_weights)
+```
+
+如我们所见，可以使用`get_config()`或`get_weights()`与`from_config`或`set_weights()`的组合存储整个模型。 但是，此过程的局限性在于它不存储有关训练过程的任何信息。
+
+为了更好地理解这一点，让我们看一个例子。 考虑一个具有一个输入层，一个隐藏层和一个输出层的简单模型。 然后，我们将仅使用上一节中讨论的方法来创建此模型的副本。 步骤如下：
+
+1.  首先，让我们使用`functional` API 定义此模型：
+
+```py
+# Define layer chain
+input_layer = tf.keras.layers.Input(shape=(5,))
+hidden_layer = tf.keras.layers.Dense(10)(input_layer)
+output_layer = tf.keras.layers.Dense(5, activation='softmax')(hidden_layer)
+
+# Define Model
+my_model = tf.keras.Model(inputs=input_layer, outputs=output_layer)
+```
+
+2.  这里的目标是创建先前模型的副本。 为此，让我们创建模型架构和模型权重的副本：
+
+```py
+# Save architecture
+my_model_arch = my_model.get_config()
+
+# Save weights
+my_model_weights = my_model.get_weights()
+```
+
+3.  要创建我们的副本模型，我们必须创建一个 Keras 模型，其架构与源模型相同：
+
+```py
+# Create replica using saved architecture 
+my_model_replica = tf.keras.Model.from_config(my_model_arch)
+```
+
+4.  接下来，我们将权重从源模型复制到模型副本：
+
+```py
+# Copy saved weights
+my_model_replica.set_weights(
+    my_model_weights
+)
+```
+
+如您所见，我们已经使用`save` API 成功创建了源模型的副本。 此外，我们已经通过使用前面介绍的加载 API 将其重新加载到单独的对象内存中进行了测试。 换句话说，我们已经使用`load`和`save` API 创建了模型的副本。
+
+# 保存和加载整个模型
+
+上一节中描述的过程的主要限制之一是它不包括训练过程。 这可能是用例中的主要障碍，这些用例涉及训练过程中某个时刻的检查点。 为了克服它，TensorFlow 可以完整保存模型。 这主要可以通过两种方式实现-使用 Keras API 或使用`SavedModel` API。
+
+在以下各节中，我们将简要讨论方法及其语法。 我们还提供了有关何时使用它们的见解。
+
+# 使用 Keras
+
+可以将使用`Sequential` API 或`functional` API 构建的模型保存在单个文件中。 也可以从此文件中加载此模型，而与构建模型所用的代码无关。
+
+该文件包括以下内容：
+
+*   模型的架构
+*   模型的权重值（如果适用，还包括训练中获得的权重）
+*   优化器及其状态（如果有的话）（可用于从特定点恢复训练）
+*   模型的训练配置（已传递来编译）（如果有）
+
+使用`Sequential`或`functional` API 创建的 Keras 模型可以直接保存到磁盘。 使用 Keras 的本机 HDF5 文件格式保存文件。 实现此目的的代码的一般形式如下：
+
+```py
+model.save('file_name.h5')
+```
+
+可以使用简单的 Python 单一代码将该模型重新加载到内存中。 通用格式如下：
+
+```py
+loaded_model = tf.keras.models.load_model(
+                                         'path_to_model.h5'
+                                         )
+```
+
+这是一种非常直接的方法，在 Python API 中交换模型时效果很好。
+
+# 使用`SavedModel` API
+
+`SavedModel`是在 TensorFlow 生态系统中存储对象的默认方式。 由于这种标准化的性质，它可以用于在不同的 TensorFlow 实现之间交换模型。 使用`SavedModel`保存的模型除包含模型架构和权重外，还包含实际的 TensorFlow 代码。 `SavedModel`文件的确切内容可以列出如下：
+
+*   一个包含模型权重的 TensorFlow 检查点
+*   包含底层 TensorFlow 图的`SavedModel`原型：
+    *   默认情况下，为预测阶段保存了单独的图（训练和评估阶段也分别在适用时存储）
+*   模型的架构配置（如果有）
+
+在 Python API 中，与`SavedModel ...`进行交互
+
+# 其它功能
+
+除了非常强大的 API 规范外，TensorFlow 的`tf.keras` Keras 实现还附带了许多附加组件。 在以下各节中，我们将简要讨论其中最相关的两个。
+
+# `keras.applications`模块
+
+`keras.applications`模块包含具有流行模型权重的预构建架构。 这些可以直接用于进行预测。 用户还可以使用它们来创建其他网络的输入特征。 该包中突出的预建实现包括：
+
+*   `densenet module`：Keras 的 DenseNet 模型
+*   `inception_resnet_v2`：Keras 的 Inception-ResNet V2 模型
+*   `inception_v3`：适用于 Keras 的 Inception V3 模型
+*   `mobilenet`：Keras 的 MobileNet v1 模型
+*   `mobilenet_v2`：Keras 的 MobileNet v2 模型
+*   `nasnet`：Keras 的 NASNet-A 模型
+*   `resnet50`：用于 Keras 的 ResNet50 模型
+*   `vgg16`：适用于 Keras 的 VGG16 模型
+*   `vgg19`：适用于 Keras 的 VGG19 模型
+*   `xception`：适用于 Keras 的 Xception V1 模型
+
+每个...
+
+# `keras.datasets`模块
+
+`keras.datasets`模块包括自动化功能，可以从文件中解析某些流行数据集的数据。 如果本地没有这些文件，它还包括自动通过互联网下载这些文件的功能。 这使用户可以更轻松，更快捷地试验和评估不同的模型。 对于某些用例，此模块可以代替整个数据处理阶段！ Keras 随附的各种数据集模块包括以下内容：
+
+*   `boston_housing`：波士顿房屋价格回归数据集
+*   `cifar10`：CIFAR10 小图像分类数据集
+*   `cifar100`：CIFAR100 小图像分类数据集
+*   `fashion_mnist`：Fashion-MNIST 数据集
+*   `imdb`：IMDB 情感分类数据集
+*   `mnist`：MNIST 手写数字数据集
+*   `reuters`：路透社主题分类数据集
+
+列出的每个数据集都是一个 Python 模块。 可在[这个页面](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/keras/datasets)中找到其组件的详细列表。
+
+# 端到端顺序示例
+
+现在，让我们使用上一节中讨论的 Keras API 的组件来完成一个小的实际任务。 让我们使用`Sequential` API 构建神经网络，以对 MNIST 数据集中的手写数字进行分类。 步骤如下：
+
+1.  在开始编写任何函数代码之前，我们需要将`tensorflow`和`keras`导入内存：
+
+```py
+import tensorflow as tfimport tensorflow.keras as keras
+```
+
+2.  然后，让我们开始将数据集加载到内存中。 为此，请使用前面章节中讨论的`keras.datasets`模块：
+
+```py
+# Load Data(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()
+```
+
+3.  在前面的代码段中，数据作为`numpy`数组加载到内存中。 ...
+
+# 估计器
+
+从头开始构建机器学习模型时，从业人员通常会经历多个高级阶段。 其中包括训练，评估，预测和装运，以供大规模使用（或导出）。 到目前为止，开发人员必须编写自定义代码才能实现这些步骤中的每个步骤。 在所有应用中，运行这些过程所需的许多样板代码都保持不变。 更糟的是，此代码很容易需要在低抽象级别上进行操作。 这些问题放在一起，可能会在开发过程中造成极大的效率低下。
+
+TensorFlow 团队尝试通过引入 Estimators 来解决此问题，Estimators 是一个高级 API，旨在抽象出在上述阶段执行不同任务时产生的许多复杂性。 具体来说，估计器是用于封装以下类别任务的高级 API：
+
+*   训练
+*   评价
+*   预测
+*   模型共享（导出和运输模型）
+
+用户可以从一组预先构建的估计器中进行选择，甚至可以实现自己的估计器。 标准库中提供了针对各种常用机器学习和深度学习算法的估计器的实现。
+
+估计器具有以下优点：
+
+*   基于估计器的模型与硬件和环境无关：
+    *   程序员不必担心 Estimator 是在本地计算机上运行还是在远程计算网格上运行。
+    *   程序员可以在 CPU，GPU 或 TPU 上运行基于 Estimator 的模型，而无需重新编码他们的模型。
+*   估计器简​​化了团队中不同开发人员之间或使用不同环境或栈的团队之间的共享实现。
+*   程序员可以使用高级直观代码来开发高性能和前沿模型。 换句话说，程序员不必在管理低级 TensorFlow API 的复杂性上浪费时间。
+*   估计器建立在`tf.keras.layers`本身上，从而简化了自定义。
+*   估计器为您构建图。
+*   估计器提供了一个安全分布的训练循环，该循环控制如何以及何时执行以下操作：
+    *   建立图
+    *   初始化变量
+    *   加载数据
+    *   处理异常
+    *   创建检查点文件并从故障中恢复
+    *   为 TensorBoard 保存摘要
+*   使用 Estimators 编写应用时，程序员可以灵活地将数据输入管道与模型分开。 通过这种分离，可以轻松地尝试使用不同的数据集和不同的数据源。
+
+在 TF 2.0 中，Keras 已经提供了 Estimators 公开的许多功能。 如果您只是入门，那么 Keras 是一个更容易学习的 API。 建议初学者在评估器上使用 Keras API。 一旦用例需要使用 Estimators，就可以查找并了解更多信息。 有关详细指南，请访问[这里](https://www.tensorflow.org/guide/estimators)。
+
+# 求值 TensorFlow 图
+
+TensorFlow 的中心思想是，要求程序员创建计算图以指定需要执行的操作才能获得所需的结果。 然后，程序员指定了硬件和其他环境参数，以针对给定的一组输入来计算此计算图的输出。 这意味着在程序员明确计算图之前，值和变量没有任何值。 当程序员真正想要的只是数量的值时，这增加了程序员创建和管理会话的开销。
+
+TF 2.0 旨在通过更改求值和计算基础计算图的方式来解决此问题。 用一个句子，TF ...
+
+# 延迟加载与急切执行
+
+**延迟加载**是一种编程范例，其中直到实际需要数量才计算数量的值。 换句话说，在没有明确请求之前，不会初始化对象。 这样做的主要好处是，当按需计算数量值时，无需使用额外的内存来存储计算结果。 如果正确使用，这将导致非常有效的内存使用并提高速度。
+
+**急切执行**可以理解为与延迟加载相反。 在此，数量的值一定义就立即计算，而不必等到它被调用。 这意味着当实际请求数量时，该值从内存中返回，而不是从头开始计算。 这有助于最小化返回查询结果所需的时间，因为用户不必等待计算值所花费的时间。
+
+可以通过添加两个常量的简单操作来说明两者之间的区别：`a`和`b`。 首先，让我们看一下 2.0 之前的 TensorFlow 版本。 这些要求用户定义一个计算图，然后使用会话来运行和求值该图。 这可以理解为延迟加载的示例。 让我们看一下以下代码片段，以获得更好的主意：
+
+```py
+# Define constants
+a = tf.constant(10)
+b = tf.constant(32)
+
+# Define add operation
+c = a + b
+print(f"Value outside session: {c}”)
+
+```
+
+这给出以下输出：
+
+```py
+Outside session: Tensor("add_1:0", shape=(), dtype=int32)
+```
+
+在此阶段，我们可以看到`c`的值（即`add`对两个常量进行运算的结果）实际上是张量，没有实际数值。 因此，我们可以看到该图已构建但尚未求值。 为了获得加法运算的实际数值结果，我们必须定义一个会话来运行和求值基础图：
+
+```py
+# Create a session and run graph in it
+with tf.Session() as sess:
+  print(f"Value inside Session: {c}”)
+```
+
+您将看到以下输出：
+
+```py
+Value inside Session: 42
+```
+
+这表明添加操作仅在会话中运行后才进行求值。
+
+现在，让我们尝试使用 TF 2.0 及更高版本的相同示例。 我们用相同的变量名称和值定义两个常量。 我们还定义了第三个变量来保存加法的结果。 然后，我们在紧接之后打印加法的值：
+
+```py
+# Define constants
+a = tf.constant(10)
+b = tf.constant(32)
+
+#Define add operation
+c = a + b
+print(f"Value outside session: {c}")
+```
+
+结果输出如下：
+
+```py
+Value outside session: 42
+```
+
+如我们所见，此阶段的输出在 TensorFlow 2.0+ 和 &lt;2.0 版本之间有所不同。 在这种情况下，`c`变量已经包含加法运算的值。 无需程序员求值任何计算图即可进行计算。 换句话说，加法操作急切地执行。 这是 2.0 及更高版本与旧版本之间的主要区别。
+
+TF 2.0 与 Python 编程语言紧密集成。 急切的执行使张量可以无缝用作本机 Python 对象，而不必担心求值计算图以及管理会话或基础硬件。 好处不止于此。 急切的执行使程序员能够利用宿主编程语言的强大控制流结构。 TensorFlow 代码现在与平台的其余部分更加直观地集成，这为开发人员带来了巨大的价值，因为它不再需要特殊的流控制结构。 这也为实验，调试和笔记本环境增加了重要价值。
+
+# 总结
+
+在本章中，我们了解了 TF 2.0 中可用于模型构建，训练，保存和加载的高级抽象。 深入研究 Keras API，我们了解了如何通过使用`Sequential`和`functional` API 组合层来构建模型。 我们还了解了如何利用 Keras API 的高级抽象来训练模型。 本章还研究了在各种配置和模式下加载和保存模型的复杂性。 我们已经了解了保存模型，架构和权重的不同方法，本章对每种方法进行了深入的说明，并描述了何时应该选择一种方法。
+
+将讨论的所有概念放在一起...
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/3.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/3.md
new file mode 100644
index 00000000..5fc7b31f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/3.md
@@ -0,0 +1,491 @@
+# 三、设计和构建输入数据管道
+
+本章将概述如何构建复杂的输入数据管道，以使用由`TFRecords`组成的`tf.data` API 来以最常见的格式（例如 CSV 文件，图像，文本等）提取大型训练/推理数据集。 和`tf.data.Dataset`方法。 您还将获得有关协议缓冲区，协议消息以及如何使用 **TensorFlow 2.0**（**TF 2.0**）中的`TFRecords`和`tf.Example`方法实现的一般概念。 本章还说明了在数据的混洗，批量和预取方面使用`tf.data.Dataset`方法的最佳实践，并针对 TF 2.0 提供了建议。 最后，我们将讨论内置的 TensorFlow 数据集...
+
+# 技术要求
+
+您应该了解标准数据格式，例如 CSV 文件，图像（PNG 和 JPG）和 ASCII 文本格式。 不用说，本书的大多数章节都假定您了解基本的机器学习概念，Python 编程，`numpy` Python 模块，并且您已使用 TensorFlow 创建了一些机器学习模型。 尽管不是必需的，但熟悉 **TensorFlow 1.x**（**TF 1.x**）版本的`tf.data` API 会有所帮助。 即使您没有`tf.data` API 的先验知识，您也应该发现本章可以自学以了解它们。
+
+本章中的某些主题需要 Python 模块，例如`argparse`和`tqdm`，这些模块已在本书的 GitHub 存储库中列出。 可在[这个页面](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0/tree/master/Chapter03)中获得本章的代码。
+
+# 设计和构建数据管道
+
+训练**机器学习**（**ML**）模型和**深度神经网络**（**DNN**）时，最重要的要求之一，是在给定的样本空间中具有同分布的大型训练数据集（通常是未知的，我们在 ML 或 DNN 训练中了解到），以便 ML 模型和 DNN 可以从给定的训练数据中学习，并很好地推广到看不见的未来或分离出来的测试数据。 此外，通常与训练集分布来自同一来源的验证数据集对于微调模型超参数至关重要。 在许多情况下，开发人员会从可用的数据（无论是少量还是大量）入手，以训练机器学习模型，包括大容量的深度学习...
+
+# 原始数据
+
+用于训练 ML 模型的原始数据可以是文本文件，CSV 文件，图像，视频或自定义格式的文件。 原始数据甚至可以是这些文件类型的组合。 原始数据也可以是有序数据，例如时间序列数据，或者，它甚至可以是文本的向量表示，例如单词嵌入。 重要的是要确保在将原始输入数据输入模型之前对其进行管理，因为它会影响运行时模型训练的效率。
+
+在许多情况下，原始数据可以存储在数据库中，例如 MySQL，MS SQL，MongoDB 等。 就本书而言，假设甚至表格数据，SQL 或 NoSQL 数据都是原始数据，并且出于机器/深度学习模型的目的，需要将其拆分并转换为`TFRecords`。 解释 SQL 和 NoSQL 数据库超出了本书的范围。
+
+# 将数据拆分为训练，验证和测试数据
+
+ML 模型训练的数据准备的关键特征之一是能够将现有数据分为训练，验证和测试集。 训练数据是已看到并用于拟合或训练模型的数据； 例如，神经网络的学习权重和偏置。 验证数据（有时称为开发数据）用于微调模型的超参数，例如学习率，要使用的优化程序等等。 模型会经常查看此数据（例如，在每次迭代或新周期之后）并评估模型。
+
+请注意，验证数据仅可帮助您微调模型。 它不会更新权重和偏置。
+
+最后，测试数据是...
+
+# 创建`TFRecords`
+
+TFRecords 的创建是输入数据管道的核心，因此您可以创建`tf.data.Dataset`对象。 值得注意的是，您可以直接使用原始数据创建数据集，而无需创建`TFRecords`（将在下一部分中进行说明）。 但是，推荐的方法是首先从原始（拆分）数据创建`TFRecords`，然后将其用于数据集管道。 这是 TF 2.0 输入数据管道设计的关键部分。 下图显示了`TFRecords`的创建流程：
+
+![](img/41f35661-5631-45f1-8c96-42505714c4a3.png)
+
+`TFRecords`通过将数据序列化到磁盘来帮助我们有效地读取数据，并且可以存储在一组`TFRecords`文件中。 每个文件的建议大小为 100 MB 到 200 MB。 应该注意的是`TFRecord`是可以存储任何类型数据的二进制格式。 由于是二进制格式，因此它占用的磁盘空间更少，并且从磁盘存储进行复制或读取所需的时间也更少。 当训练数据太大而无法存储在内存服务器，GPU 和/或 TPU 中时，还需要`TFRecords`。 使用带有数据集的`TFRecords`，可以按批形式从磁盘按需加载数据（将在本章稍后的*批量*中对此进行解释） 部分）。
+
+`TFRecords`有四个重要组成部分：
+
+*   `TFRecord`格式，用于存储二进制记录或数据序列。
+*   [协议缓冲区](https://developers.google.com/protocol-buffers/)是跨平台的，并且具有跨语言库，用于以协议消息的形式对结构化数据进行有效的序列化。
+*   协议消息是信息的小型逻辑记录，其中包含一系列名称/值对。
+*   `tf.Example`是一种灵活的协议消息（也称为`protobuf`），旨在与 TensorFlow 一起使用。 **TensorFlow 扩展**（**TFX**）是 TF 2.0 中的另一个重要功能，用于部署生产级 ML 管道，我们将在第 5 章，“模型推理管道–多平台部署”中进行学习。
+
+请注意，在 TF 2.0 中，`tf.Examples`已在诸如 [TFX](https://www.tensorflow.org/tfx/) 的所有 TensorFlow 高级 API 中使用。。
+
+现在，让我们看看如何将数据存储在`TFRecords`中。 如前所述，任何转换为​​`TFRecords`格式的数据都存储为二进制字符串序列。 您可能会猜到，必须先指定数据结构，然后才能从`tfrecord`文件读取或写入数据。 为了读取和写入`tfrecords`文件，我们需要使用`tf.Example`协议消息。 请注意，数据中包含的每条小信息都必须使用`Etf.Example`进行存储。 此外，为了将信息写入磁盘，使用了`tf.io.TFRecordWriter`。 要从磁盘读回信息，您可以使用`tf.io.TFRecordReader`。
+
+# TensorFlow 协议消息 - `tf.Example`
+
+`tf.Example`是`{'string':tf.train.Feature}`映射（Python 词典），其中`'string'`可以是任何名称； 例如`'image'`，`'features'`或`'label'`。
+
+`tf.train.Feature`可以是以下三种类型之一：
+
+*   `tf.train.BytesList`：用于`string`或`byte`信息
+*   `tf.train.FloatList`：用于`float`或`double`信息
+*   `tf.train.Int64List`：用于`bool`，`enum`和所有整数，例如`int32`，`uint32`，`int64`，`uint64`等
+
+通过使用以下快捷函数转换标准 TensorFlow 类型，可以将`tf.Example`消息序列化，写入和读取到`tfrecords`文件中：
+
+以下代码块中的函数可用于将值转换为...
+
+# `tf.data`数据集对象创建
+
+如我们前面提到的，`tf.data` API 集提供了从原始数据构建复杂而有效的输入数据管道的工具。 例如，输入管道可以从分布式文件系统的图像文件构建。 如果您使用的是**自然语言处理**（**NLP**）模块，也可以从原始文本数据构建它。 下图显示了`tf.dataset`对象创建的流程：
+
+![](img/1afeb47b-4688-432f-8b53-be33a927f643.png)
+
+`tf.data.Dataset`是`tf.data` API 集的主要类，代表一系列元素，其中每个元素包含一个或多个张量对象。 数据集有四种主要类型，如下图所示：
+
+![](img/2630d32b-20bb-4643-8b10-d30504f6f72d.png)
+
+在本章中，为简单起见，所有四种类型的数据集都称为数据集和/或`tf.data.Dataset`。 在需要时将引用显式类型。
+
+从定义上讲，`tf.data.Dataset`是一个或多个张量对象的元素序列，称为分量； 数据集中的每个元素都具有相同的结构。 要检查数据集的类型和形状，开发人员可以使用两个 Python API `tf.data.Dataset.output_types`和`tf.data.Dataset.output_shapes`，如以下代码块所示：
+
+```py
+# Check type and shape of Dataset
+
+dataset = tf.data.Dataset.from_tensor_slices(...)
+print(dataset.output_types)
+print(dataset.output_shapes)
+```
+
+前面的代码是构建图像数据管道的示例。 数据集的元素可以是单张训练数据，由一对图像和标签张量组成。
+
+在 TF 2.0 中，数据集对象是 Python `iterables`，这与 TF 1.x 版本的关键区别在于 TF 1.x 版本需要`tf.data.Iterator`来遍历数据集对象。 以下代码显示了在 TF 1.x 和 TF 2.0 中迭代数据集对象之间的区别：
+
+```py
+# The following code shows difference in iterating Dataset objects 
+# in TensorFlow 1.x and TensorFlow 2.0 
+
+dataset = tf.data.Dataset.from_tensor_slices(...)
+dataset = dataset.shuffle(...)
+dataset = dataset.map(...)
+dataset = dataset.batch(...)
+
+# TensorFlow 1.x (using one shot iterator, get_next)
+iterator = dataset.make_one_shot_iterator()
+next_element = iterator.get_next()
+
+with tf.Session() as sess:
+    for _ in range(...):
+    element = sess.run(next_element)
+    ...
+
+# TensorFlow 2.0 (extremely simple where Datasets are Python iterables)
+
+for element in dataset:
+    ...
+```
+
+正如您在前面的代码块中看到的那样，现在遍历数据集对象非常简单。
+
+# 创建数据集对象
+
+可以使用两种主要方法创建数据集对象：
+
+*   从源创建：
+    *   来自内存中的`numpy` / `tensorflow`对象
+    *   使用`TFRecords`来自磁盘
+*   将转换应用于现有数据集：
+    *   从一个或多个数据集构造一个数据集。 这将在“数据集转换”部分中更详细地说明。
+
+由于建议使用`TFRecords`创建一个`tf.data.Dataset`，让我们看看它是如何工作的。 然后，我们将介绍从其他类型的输入创建数据集的方法。
+
+# 使用 TFRecords 创建数据集
+
+创建一些`TFRecords`后，我们可以直接使用`tf.data.Dataset` API 读取它们。 以下是使用`TFRecords`创建数据集的框图：
+
+![](img/f401cf69-c5ac-4b82-b38b-f767f3de4520.png)
+
+您可以使用以下代码从数据集中读取`tfrecords`文件：
+
+```py
+# You can read tfrecord files as below
+dataset = tf.data.TFRecordDataset(tfrecords_file_names)
+```
+
+# 使用内存中的对象和张量创建数据集
+
+从内存中对象创建`tf.data.Dataset`的最简单方法是使用`from_tensor_slices()`方法，该方法相对于数据中的第一个索引对数组进行切片。 我们将在此处引用`tf.data.Dataset.map()` API，该 API 在“数据集转换”部分中详细定义。 就目前而言，`map(...)`仅表示正在基于应用于数据集对象的每个元素的某些函数来修改（转换）数据集。
+
+您可以使用两种 API 从内存中的张量创建数据集：
+
+*   `tf.data.Dataset.from_tensors()`
+*   `tf.data.Dataset.from_tensor_slices()`。
+
+您可以在[这个页面](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0/blob/master/Chapter03/datasets/create_dataset_from_tensors.ipynb)中查看示例代码。
+
+# 不使用 TFRecords 直接使用其他格式创建数据集
+
+如前所述，您可以使用所有不同的文件格式直接创建`tf.data.Dataset`。 我们还解释了创建`TFRecords`的推荐方法。 但是，如果您想直接创建数据集而不经过`TFRecords`，那也是可能的。 以下是一些直接从原始数据创建`tf.data.Dataset`的示例：
+
+*   使用 CSV 文件：
+
+您可以使用`td.data.experimental.make_csv_dataset(...)` API 查找`.csv`文件。 您可以如下定义`.csv`文件和`batch_size`中可用的列。 完整的代码可以在[这个页面](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0/blob/master/Chapter03/datasets/create_dataset_from_csv.ipynb)中找到：
+
+```py
+csv_file = "./curated_data/train.csv"
+csv_columns = ['square_ft', 'house_type', 'price']
+dataset = tf.data.experimental.make_csv_dataset(csv_file, column_names=csv_columns, batch_size=8)
+```
+
+如果需要从 CSV 文件中选择几列，则可以使用`select_columns`参数来完成。 有关更详细的概述，请参阅 [tensorflow.org](http://tensorflow.org) 。
+
+*   使用文本数据：
+
+`tf.data.TextLineDataset(...)` API 旨在从文本文件创建数据集。 这主要用于文本数据，其中每一行包含一个数据样本。 一些示例包括日志消息，问题答案等。 我们将使用与上一节相同的示例向您展示如何使用文本数据创建`tf.data.Dataset`。 完整代码可在[这个页面](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0/blob/master/Chapter03/datasets/create_dataset_from_text.ipynb)中找到：
+
+```py
+def train_decode_line(row):   cols = tf.io.decode_csv(row, record_defaults=[[0.], ['house'], [0.]])   myfeatures = {'sq_footage':cols[0], 'type':cols[1]}   mylabel = cols[2] #price   
+  return myfeatures, mylabel
+
+def predict_decode_line(row):
+  cols = tf.decode_csv(row, record_defaults=[[0.], ['house']])
+  myfeatures = {'sq_footage':cols[0], 'type':cols[1]}
+  return myfeatures
+
+line_dataset = tf.data.TextLineDataset('./curated_data/train.csv')
+
+train_dataset = line_dataset.map(train_decode_line)
+
+```
+
+*   使用图像：
+
+最常见的输入数据管道之一是图像，可以是`.jpeg`或`.png`格式。 您的数据集中可能有成千上万的图像。 由于硬件内存（CPU 内存或 GPU 内存）的限制，我们无法将所有图像存储到内存中。 `tf.data.Dataset`提供了构建此管道的有效方法。
+
+在以下示例中，我们有几个`.jpeg`/`.jpg`文件，我们将使用它们全部创建`tf.data.Dataset`。 您可以在[这个页面](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0/blob/master/Chapter03/datasets/create_dataset_from_images.ipynb)中找到更多详细信息：
+
+```py
+# Get images files
+file_pattern = ["./curated_daimg/*.jpeg", "./curated_daimg/*.jpg"]
+image_files = tf.io.gfile.glob(file_pattern)
+# Get labels
+labels = []
+for img_path in image_files:
+  labels.append(get_label(img_path))
+
+# preprocess images
+def preprocess_image(img_path, label):
+  img_data = tf.io.read_file(img_path)
+  feat = tf.image.decode_jpeg(img_data, channels=3)
+  feat = tf.image.convert_image_dtype(feat, tf.float32)
+  return feat, label, img_path
+
+# Create dataset of all image files
+image_path_dataset = tf.data.Dataset.from_tensor_slices((image_files, labels))
+
+# Convert to image dataset
+image_dataset = image_path_dataset.map(preprocess_image)
+```
+
+*   使用多个数据集：
+
+我们还可以使用`tf.data.Dataset.map()`，`tf.data.Dataset.zip()`和`tf.data.Dataset.concatenate()` API 从现有数据集中创建数据集。 这些将在下一节中解释，我们将在其中讨论数据集的转换。
+
+# 转换数据集
+
+创建数据集对象后，需要根据模型要求对其进行转换。 下图显示了数据集转换的流程：
+
+![](img/c68890ab-1e05-4ea9-9525-c0e187b0bf7e.png)
+
+一些最重要的转换如下：
+
+*   **数据重排**：选择部分数据而不是获取整个数据集可能需要这些。 它们对于使用数据子集进行实验很有用。
+*   **数据清除**：这些非常重要。 就像清除日期格式（例如从`YYYY/MM/DD`到`MM-DD-YYYY`）或删除具有缺失值或错误数字的数据一样简单。 
+
+# `map`函数
+
+此转换 API 在数据集的每个元素上执行`map_func`输入。 对于那些使用 Pandas`Dataframe.apply(...)`的人来说，`map(...)`与之非常相似。 作为`map(...)` API 的自变量，它采用了一个应用于数据集每个元素的函数。 该函数继而从输入数据集中获取表示单个元素的`tf.Tensor`对象，并返回新转换的`tf.Tensor`对象。 请注意，输出中元素的顺序与输入数据集的顺序相同：
+
+```py
+ds = tf.data.Dataset.range(1, 6) # [1, 2, 3, 4, 5]
+ds.map(lambda x: x + 1)
+```
+
+根据数据集中每个元素的结构，正确定义`map_func`的输入签名非常重要：
+
+```py
+a = [1, 2, 3, 4, 5]
+ds = tf.data.Dataset.from_tensor_slices(a)
+result = a.map(lambda x: ...)
+
+b = [(2, 1), (3, 5), (6, 6)]
+ds = tf.data.Dataset.from_tensor_slices(b)
+def map_func(input):
+  output1 = input[0] + 1
+  output2 = input[1] + 2
+  return output1, output2
+
+ds=ds.map(map_func)
+```
+
+# `flat_map`函数
+
+此转换将`map_func`输入映射到输入数据集并展平结果。 这用于确保数据集的顺序保持不变。 `map_func`必须在此处返回数据集：
+
+```py
+a = Dataset.from_tensor_slices([ [1, 2, 3], [4, 5, 6], [7, 8, 9] ])a.flat_map(lambda x: Dataset.from_tensor_slices(x + 1)) # ==># [ 2, 3, 4, 5, 6, 7, 8, 9, 10 ]
+```
+
+# `zip`函数
+
+该 API 与 Python 的内置`zip(...)`函数相似。 Python 的`zip(...)`函数和`tf.data.Dataset.zip(...)`函数之间的区别在于，后者可以采用数据集的嵌套结构：
+
+```py
+a = Dataset.range(1, 4) # ==> [ 1, 2, 3 ]
+b = Dataset.range(4, 7) # ==> [ 4, 5, 6 ]
+c = Dataset.range(7, 13).batch(2) # ==> [ [7, 8], [9, 10], [11, 12] ]
+d = Dataset.range(13, 15) # ==> [ 13, 14 ]
+
+# The nested structure of the `datasets` argument determines the
+# structure of elements in the resulting dataset.
+Dataset.zip((a, b)) # ==> [ (1, 4), (2, 5), (3, 6) ]
+Dataset.zip((b, a)) # ==> [ (4, 1), (5, 2), (6, 3) ]
+
+# The `datasets` argument may contain an arbitrary number of
+# datasets.
+Dataset.zip((a, b, c)) # ==> [ (1, 4, [7, 8]),
+                        # (2, 5, [9, 10]),
+                        # (3, 6, [11, 12]) ]
+
+# The number of elements in the resulting dataset is the same as
+# the size of the smallest dataset in `datasets`.
+Dataset.zip((a, d)) # ==> [ (1, 13), (2, 14) ]
+```
+
+# `concatenate`函数
+
+此转换 API 通过将输入数据集与此数据集连接来创建新的数据集：
+
+```py
+a = tf.data.Dataset.range(1, 4) # ==> [ 1, 2, 3 ]
+b = tf.data.Dataset.range(4, 8) # ==> [ 4, 5, 6, 7 ]
+c = a.concatenate(b) # ==> [ 1, 2, 3, 4, 5, 6, 7 ]
+```
+
+# `interleave`函数
+
+该 API 使用`map_func`转换数据集的每个元素，并交织结果。 例如，您可以使用`Dataset.interleave()`同时处理许多输入文件：
+
+```py
+# Preprocess 4 files concurrently, and interleave blocks of 16 records from
+# each file.
+filenames = ["/var/data/file1.txt", "/var/data/file2.txt", ...]
+dataset = (Dataset.from_tensor_slices(filenames)
+           .interleave(lambda x:
+               TextLineDataset(x).map(parse_fn, num_parallel_calls=1),
+               cycle_length=4, block_length=16))
+```
+
+`cycle_length`和`block_length`参数控制元素生成的顺序。 `cycle_length`控制同时处理的输入元素的数量。 例如，如果将`cycle_length`设置为 1，则此转换将一次处理一个输入元素，并将产生与`tf.data.Dataset.flat_map`相同的结果。 通常，此转换会将`map_func`应用于`cycle_length`输入元素，在返回的数据集对象上打开迭代器，并对其进行循环，从每个迭代器生成`block_length`连续元素，然后在每次到达迭代器的末尾时就使用下一个输入元素：
+
+```py
+a = Dataset.range(1, 6) # ==> [ 1, 2, 3, 4, 5 ]
+
+# NOTE: New lines indicate "block" boundaries.
+a.interleave(lambda x: Dataset.from_tensors(x).repeat(6),
+            cycle_length=2, block_length=4)
+ # ==> [1, 1, 1, 1,
+ # 2, 2, 2, 2,
+ # 1, 1,
+ # 2, 2,
+ # 3, 3, 3, 3,
+ # 4, 4, 4, 4,
+ # 3, 3,
+ # 4, 4,
+ # 5, 5, 5, 5,
+ # 5, 5]
+```
+
+只要`map_func`是纯函数，此变换产生的元素的顺序就是确定性的。 如果`map_func`包含任何有状态操作，则该状态的访问顺序不确定。
+
+# `take(count)`函数
+
+`take(count)`函数使用当前数据集中的计数最多的元素创建一个新数据集。 通常，这可用于减少数据集的大小，以用于调试或简化目的。 此外，如果将计数指定为`-1`，或者如果计数大于数据集的大小，则新数据集将包含先前数据集的所有元素。
+
+# `filter`函数
+
+此 API 根据条件谓词函数过滤当前数据集：
+
+```py
+ds = tf.data.Dataset.from_tensor_slices([1, 2, 3])
+ds = ds.filter(lambda x: x > 3) # ==> [1, 2]
+```
+
+# 打乱和重复`tf.data.Dataset`
+
+机器学习模型必须从训练，验证和测试步骤的总体分布中合理地表示数据。 通常，原始数据可以按特定顺序存储，例如相对于每个类一起存储，或者数据可以一起存储在特定源中。 必须对原始数据进行混洗，以确保训练，验证和测试数据分布在整个数据分布中。 另外，建议在每个周期之后对数据进行混洗。 下图显示了打乱和重复使用`tf.data.Dataset`的流程：
+
+良好的随机播放还有助于减少数据的差异，该数据用于模型...
+
+# 批量
+
+梯度下降与反向传播相结合是最近机器学习或深度神经网络系统中最流行的学习算法。 梯度下降有三种：
+
+*   批量梯度下降，其中所有数据都呈现给模型以供学习
+*   小批量梯度下降，其中将一批数据提供给模型以供学习
+*   随机梯度下降，其中提供随机采样的数据以训练模型
+
+在这里，由于大型数据集的硬件内存限制，在大多数情况下批量梯度下降是不实际的。 而且，由于模型一次从一个数据中学习，因此随机梯度下降可能会很慢。 由于这些原因，小批量梯度下降法是使用最广泛的算法。 下图显示了批量的流程：
+
+![](img/2b600952-f4a1-46eb-8466-fab7d2eaacba.png)
+
+此外，最近的机器学习算法和深度神经网络在 GPU，TPU 和大量 CPU 上进行了分布式训练。 这些 GPU 或 TPU 中的每一个都有自己的内存限制（例如，NVIDIA 的 1080Ti GPU 具有 11 GB 的可用内存，而 Tesla V100 GPU 具有 16 GB 的可用内存）。 由于基于反向传播的梯度下降用于训练和学习 ML 模型的权重和偏差，因此开发人员使用小批量梯度下降; 因此，重要的是要有足够的批量大小，以确保可用的 GPU（或 TPU）不会耗尽内存。
+
+`tf.data.Dataset`提供了一种以高效且无缝的方式创建一批样本的好方法，如以下代码块所示：
+
+```py
+dataset = tf.data.TFRecordsDataset(...)
+dataset = dataset.shuffle(buffer_size, seed=None, reshuffle_each_iteration=None)
+dataset = dataset.repeat(count = None)
+dataset = dataset.batch(batch_size, drop_remainder=True)
+```
+
+`batch(...)` API 将此数据集的连续元素合并为批量。 `batch_size`是传递给此 API 的超参数。 在第 4 章，“模型训练和 TensorBoard 的使用”中，我们将讨论并提供批量建议。
+
+# 预取
+
+批量完成后，建议使用`prefetch(...)` API。 该 API 将输入数据集转换为新数据集，该数据集可从输入数据集中预提取元素。 该 API 之所以重要，是因为它收集了在模型为当前批量提供服务时将加载到输入管道中的下一个批量：
+
+```py
+dataset = tf.data.TFRecordsDataset(...)dataset = dataset.shuffle(buffer_size, seed=None, reshuffle_each_iteration=None)dataset = dataset.repeat(count = None)dataset = dataset.batch(batch_size, drop_remainder=True)dataset = dataset.prefetch(buffer_size)
+```
+
+通常，为`prefetch(...)`函数指定的`buffer_size`参数应与为`batch(...) ...`指定的`batch_size`参数一样大。
+
+# 在将数据管道输出输入模型之前，先对其进行验证
+
+到目前为止，我们已经学习了使用几种提取和转换数据的方法和技术来构建输入数据管道。 作为建议，在将输入数据管道输入模型之前，验证输入数据管道是否正在提取和转换正确的数据非常有用。 在 TF 2.0 中，这样做非常简单，因为数据集对象现在是 Python 可迭代的。 您可以如下遍历创建的数据集以获取数据的打印值：
+
+```py
+ds = tf.data.Dataset.from_tensor_slices([1, 2, 3])
+for data in ds:
+    print(data)
+```
+
+# 将创建的数据集馈入模型
+
+一旦创建，转换和打乱数据集对象并完成批量，就需要将其馈入模型（从本章开头记住 ETL 的 L）。 此步骤在 TF 2.0 中进行了重大更改。
+
+TF 2.0 中创建输入数据管道的一个主要区别在于其简单性。 TF 1.x 需要一个迭代器才能将数据集提供给模型。 为了做到这一点，有几个迭代器可以迭代一批数据。 一种是通过使用数据集对象中的`tf.data.Iterator` API。 TF 1.x 中有一个一次性的，可初始化的，可重新初始化的和可填充的迭代器。 尽管这些迭代器功能非常强大，但它们也增加了大量的复杂性，无论从术语上还是...
+
+# 完整的端到端数据管道示例
+
+到目前为止，我们已经介绍了数据集对象的创建以及如何创建批量数据以馈入模型。 在本节中，我们将看一个端到端输入数据管道和模型训练的示例。 我们将使用 CIFAR10 数据构建图像分类器。
+
+为了运行基于 CIFAR10 的端到端示例，您需要从[这里](https://www.cs.toronto.edu/~kriz/cifar.html)下载必要的数据。 该数据集摘自[《从微小图像中学习多层特征》](https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf)。 该数据集包含以下信息：
+
+*   50,000 张带有标签的图像用于训练
+*   10,000 张带有标签的图像用于测试
+*   10 个类标签
+
+下载并解压缩数据集后，您将看到一个名为`cifar-10-batches-py`的文件夹，其中包含以下文件：
+
+*   `batches.meta`
+*   `data_batch_2`
+*   `data_batch_4`
+*   `readme.html`
+*   `data_batch_1`
+*   `data_batch_3`
+*   `data_batch_5`
+*   `test_batch`
+
+`data_batch_*`文件包含训练数据，而`test_batch`文件包含测试数据。 这些文件为 Python `pickle`格式。 在此端到端示例中，我们将从 pickle 文件中创建`tfrecords`。 完整的代码文件以及`README.md`文件可在本书的 GitHub 存储库中找到，两者均可在[这里](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0/blob/master/Chapter03/cifar10/README.md)找到。
+
+# 使用 Pickle 文件创建 TFRecords
+
+出于说明目的，我们将使用`data_batch_*`文件之一作为验证数据。 我们将其余的用于训练。 例如，如果我们选择`data_batch_4`作为验证数据，则`data_batch_1`，`data_batch_2`，`data_batch_3`和`data_batch_5`将用作训练数据。
+
+1.  让我们使用 CIFAR10 数据创建 TFRecords：
+
+```py
+def create_tfrecords(cifar10_data_folder, validation_data_idx):  """ function to generate tfrecords  Creates three sub-folders, train, eval, test and put resp   tfr files  """  batch_files = _get_file_names(validation_data_idx)  tfrecords_outdir = './tfrecords'  for data_type in ['train', 'eval', 'test']:    input_files = [os.path.join(cifar10_data_folder, i) \ for i in batch_files[data_type]] ...
+```
+
+# TF 2.0 中数据管道的最佳实践和性能优化
+
+这是在 TF 2.0 中建立有效的输入数据管道时应遵循的最佳实践的摘要：
+
+*   建议在重复转换之前使用打乱（`shuffle`）API。
+*   使用预取转换可以重叠生产者（获取下一批数据）和使用者（使用当前数据进行训练）的工作。 另外，非常重要的一点是要注意，在对数据管道进行打乱（打乱），重复（重复）和批量（批量）之后，应将预取转换添加到输入管道的末尾。 看起来应该像这样：
+
+```py
+# buffer_size could be either 1 or 2 which represents 1 or 2 batches of data
+dataset = dataset.shuffle(count).repeat().batch(batch_size).prefetch(buffer_size)
+```
+
+*   强烈建议通过启用`num_parallel_calls`参数来并行化映射 API。
+*   对于远程存储的数据集，建议使用`interleave(...)`转换来并行读取来自不同文件的数据。
+
+# TF 2.0 中的内置数据集
+
+TF 2.0 还提供了可与 TensorFlow 一起使用的数据集的集合。 它负责下载，准备数据，甚至自行构建`tf.data.Dataset`，然后可以将其直接输入模型中。
+
+请按照以下步骤使用这些内置数据集：
+
+1.  安装 TensorFlow 数据集：
+
+```py
+pip3 install tensorflow-datasets
+```
+
+请注意，`tensorflow-datasets`希望您正确且完整地安装 TF 2.0。
+
+2.  安装`tensorflow-datasets`后，可以使用以下代码查看可用数据集的列表：
+
+```py
+import tensorflow_datasets as tfdstfds.list_builders()
+```
+
+这将给出以下输出：
+
+```py
+['abstract_reasoning', 'bair_robot_pushing_small', 'caltech101', ...
+```
+
+# 总结
+
+本章以简单而富于启发性的方式展示了使用 TF 2.0 API 设计和构建输入数据管道的总体方法。 它提供了数据管道的不同组件的构建块，并提供了构建管道所需的 API 的详细信息。 提供了 TF 1.x API 和 TF 2.0 API 之间的比较。
+
+总体流程可以概括为两个主要过程：原始数据管理和数据集处理。 原始数据管理处理原始数据； 将数据分为训练，验证和测试集； 并创建 TFRecords。 通常，这是一个一次性过程，其中还可以包括脱机数据转换。 数据集操作是一个在线转换过程，该过程创建数据集对象，应用转换，对数据进行混洗，然后重复进行此操作并通过预取创建一批数据； 稍后将它们输入模型。
+
+无论模型训练/推理的训练数据大小和生命周期如何，始终建议使用输入数据管道。 由于数据集对象在 2.0 版中是 Python 可迭代的，因此将它们馈送到模型中非常简单。
+
+在下一章中，我们将学习有关模型训练和使用 TensorBoard 的知识。
+
+# 进一步阅读
+
+尽管本章试图捕获有关如何构建输入数据管道的最新信息，但 TensorFlow 是一个快速变化的平台。 开发人员每天都在增加新功能。 社区中还有成千上万的开源贡献者，他们正在迅速添加功能。 强烈建议尽可能参考[这里](https://www.tensorflow.org)，以了解正确的 API 使用和/或更改。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/4.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/4.md
new file mode 100644
index 00000000..c8a93078
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/4.md
@@ -0,0 +1,601 @@
+# 四、TensorBoard 的模型训练和使用
+
+本章详细介绍了机器学习训练管道，以构建，训练和验证包括深度神经网络在内的最新机器学习模型。 它描述了如何集成输入数据管道，创建基于`tf.keras`的模型，以分布式方式进行训练以及运行验证以微调模型的超参数。 它还涉及有关如何导出和保存 TensorFlow 模型以进行部署和推理的各种概念。 模型调试和可视化是用于调试和提高模型准确率和表现的关键工具。 本章还概述了 TensorBoard 的用法，在 TF 2.0 中的更改以及如何使用 TensorBoard 进行模型调试以及对模型的速度和性能进行性能分析。
+
+TensorFlow 1.x 版本强烈支持低级和中级 API，以构建机器学习模型。 它还具有 Estimator API，包括预制的估计器，例如`LinearClassifier`和`DNNRegressor`，以及用作高级 TF API 的定制估计器。 TF 1.x 中对估计器的支持是提供高级 API，与低级和中级 TF API 相比，它们更易于构建。 从 TensorFlow 2.0 开始，主要变化之一是采用 Keras API 标准作为高级 API 而不是 Estimators。 对于 TensorFlow 开发团队而言，这非常有意义，因为 Keras API 是迄今为止机器学习社区中采用的最大 API 集，并且 Keras 的创建者 Francois Chollet 也是一位出色的人工智能（AI）研究人员，现在已经加入 TensorFlow 开发团队的成员。 TensorFlow 1.x 版本已经提供对`tf.keras`的初始支持; 但是，在 TF 2.0 版本中可以获得`tf.keras`的完整而完整的体验。
+
+在本章中，我们将浏览`tf.keras` API，包括 API 的顺序，函数式和模型子类类型。 您将学习如何使用`tf.data.Dataset`将输入数据流水线馈入模型流水线，以及特征列的可能分类结构。 我们还将介绍如何定义损失函数，最常见的优化器，基于 TensorBoard 的数据，模型调试，可视化和性能分析等。 从 TensorFlow 2.0 开始，`tf.keras` API 已紧密集成到 TensorFlow 生态系统中，其中包括对`tf.data`的改进支持和最新可用的分发策略，可用于跨多种 GPU 和 TPU 进行分布式训练。 `tf.keras`还无缝支持导出训练有素的模型，这些模型可以使用 TensorFlow 服务和其他技术在 TensorFlow Lite 的移动和嵌入式设备上进行服务和部署。
+
+我们将在本章介绍以下主题：
+
+*   比较 Keras 和`tf.keras`
+*   使用`tf.keras` 2.0 创建模型
+*   模型编译与训练
+*   自定义训练逻辑
+*   分布式训练
+*   TensorBoard
+
+# 技术要求
+
+假定本章和本书的读者都知道机器学习，神经网络和深度神经网络的基础知识。 另外，作为前提条件，假设读者知道 TensorFlow 1.x API。 此外，还需要对深度神经网络中的卷积层，循环层和前馈层有基本的了解。
+
+# 比较 Keras 和`tf.keras`
+
+`tf.keras`是 TensorFlow 对 Keras API 规范的实现。 这是用于构建和训练模型的高级 API，其中包括对 TensorFlow 特定功能的一流支持，例如急切执行，`tf.data`管道和估计器。 `tf.keras`使 TensorFlow 易于使用，而不会牺牲灵活性和表现。
+
+Keras（定义 Keras API 标准的原始网站）是一个开源项目，由于其简单和强大而受到 ML 工程师和数据科学家的极大关注。 最初，Keras 的默认后端引擎（请记住，Keras 是一组 API）是 Theano; 但是，最近它发生了变化，现在 TensorFlow 作为其默认后端引擎。 您还可以将默认后端引擎设置为 MXNet，CNTK 等。 Keras API 非常易于使用，模块化且可组合。 此外，还可以轻松扩展您的特定需求。 TensorFlow 采用了 Keras API 标准，从那时起，使用 TensorFlow 核心功能的`tf.keras`开发就如火如荼地进行。 现在，随着 TF 2.0 的发布，TF 开发团队为`tf.keras`高级 API 提供了紧密而有效的支持。 另外，值得一提的是 Keras 和`tf.keras`是两个完全不同的包，作为 TF 2.0 的一部分，应使用`tf.keras`。 在版本方面，在 TensorFlow 2.0 中，TensorFlow 和`tf.keras`的版本号仍然存在差异，您可以尝试使用`tf.__version__`和`tf.keras.__version__`查看此版本。
+
+# 比较估计器和`tf.keras`
+
+TensorFlow 1.x 已建议为其高级 API 集使用`tf.estimator` API，该 API 集具有内置模型（例如`LinearRegressor`和`DNNClassifier`）可用的预制估计器。 此外，对于更细化和定制的模型，TF 1.x 具有定制的估计器。 从 TF 2.0 开始，建议仅使用与线性分类器，DNN 分类器，组合 DNN 线性分类器和梯度提升树打包在一起的丰富的预制估计器 API 集。 这些模型已准备就绪，可以广泛使用。 对于任何自定义模型，建议直接使用`tf.keras`而不是`tf.estimator` API。 另外，值得注意的是，与`tf.keras, ...`有更好的协同作用
+
+# 机器学习分类法和 TF 支持的快速回顾
+
+可以使用三种主要的机器学习技术来解决大多数学习问题：
+
+*   监督学习借助标签数据预测标签
+*   无监督学习，对没有标签的数据进行分组和聚类
+*   强化学习，其中存在一种环境，智能体可以通过该环境通过采取行动并从环境中获取反馈（奖励）来学习实现预期目标
+
+生成模型和判别模型可以与这三种机器学习技术一起使用。 生成模型尝试从具有未知分布的给定数据集中凭经验学习模式和分布，并可能使用学习的模型来生成新数据，就好像它来自同一分布。 一些流行的生成模型是高斯混合模型，隐马尔可夫模型，贝叶斯网络（例如朴素贝叶斯）等。 生成对抗模型是 2014 年非常流行的生成模型，由于其强大的成功和潜力而备受关注。 除了仅学习可用于无监督学习的分布之外，生成模型还可以用于执行分类或预测任务（有监督学习），该任务使用样本`x`的条件概率， 通过使用朴素贝叶斯定理计算概率`P(y | x)`，属于`y`类。 与生成模型相反，判别模型用于直接学习条件概率`P(y | x)`，用于回归，分类和其他类型的监督学习问题。 深度神经网络可用于构建生成模型或判别模型。
+
+TensorFlow 提供了丰富的 API 集来构建上述生成模型和判别模型。 此外，在 TF 2.0 中，通过引入急切的执行（在第 2 章， “Keras 默认集成和急切执行”中进行了解释），创建这些模型的理念发生了整体变化， 这使得`tf.keras`的使用非常简单且易于调试。 此外，TensorFlow 2.0 中的`tf.keras` API 丰富了 TF 在 TF 1.x 版本中可以执行的全部功能。 在本书中，除非另有说明，否则我们主要使用`tf.keras` API 来构建，训练和预测神经网络模型，并且不会讨论低级或中级 TF API。
+
+TensorFlow 建立深度学习模型并对其进行训练时的理念是，首先定义神经网络层（也称为构建由节点和边组成的计算图）； 定义损失函数，准确率度量和适当的优化器； 然后训练模型以更新梯度。 这三个步骤在使用构建，编译和拟合的`tf.keras` API 中得到了体现，如下图所示：
+
+![](img/acaa1019-a9a9-4896-bc8e-75554932da62.png)
+
+在以下部分中，我们将首先了解如何使用`tf.keras` 2.0 API 构建模型，该 API 将详细介绍计算图节点和边的创建。 然后，我们将介绍编译和拟合，包括损失和准确率函数的定义。
+
+# 使用 tf.keras 2.0 创建模型
+
+在本节中，我们将学习`tf.keras` API 的三种主要类型，以定义神经网络层，即：
+
+*   **顺序 API** ：这些基于堆叠的 NN 层，可以是密集（前馈）层，卷积层或循环层）
+*   **函数式 API** ：这些有助于构建复杂的模型
+*   **模型子类 API** ：这些是完全可自定义的模型； 这些 API 灵活，需要谨慎编写
+
+下图显示了用于构建`tf.keras.Model`的这三个 API 的 Python 类层次结构：
+
+![](img/16a140db-6687-4c91-a063-0e3495ecfcf3.png)
+
+让我们创建一个相对简单的神经网络来构建手写识别分类器...
+
+# 顺序 API
+
+顺序 API 是创建 TF 模型并提供大约 70-75% 模型类型的最简单方法。 您需要创建一个`tf.keras.models.Sequential(...)` Python 类并将所需的层顺序添加到模型中-这也称为**层栈**。 这些层可能是密集，卷积甚至是循环层。 您可能需要提供第一层的输入形状。 以下是使用顺序 API 创建 TF 模型的步骤：
+
+1.  创建一个`Sequential`模型类：
+
+```py
+model = tf.keras.models.Sequential()
+num_filters = 32
+kernel_size = (5, 5)
+pool_size = (2, 2)
+num_classes = 10
+```
+
+2.  首先通过调用`build()`或`fit()`和一些数据来构建模型，或者在第一层中指定`input_shape`参数以进行自动构建。
+
+（可选）第一层可以接收`input_shape`参数：
+
+```py
+model.add(tf.keras.layers.Conv2D(filters=num_filters, 
+       kernel_size=kernel_size, 
+      padding='valid', activation='relu',
+      input_shape=input_shape))
+```
+
+3.  另一个`Conv2D`层：
+
+```py
+model.add(tf.keras.layers.Conv2D(filters=num_filters, 
+       kernel_size=kernel_size, 
+      padding='same', activation='relu'))
+```
+
+4.  添加最大池化层：
+
+```py
+model.add(tf.keras.layers.MaxPooling2D(pool_size=pool_size))
+```
+
+5.  并添加一个`Dropout`层：
+
+```py
+model.add(tf.keras.layers.Dropout(0.5))
+```
+
+6.  另外，添加`Flatten`层：
+
+```py
+model.add(tf.keras.layers.Flatten())
+```
+
+7.  添加具有 10 个输出单元的`softmax`层：
+
+```py
+model.add(tf.keras.layers.Dense(units=num_classes, 
+    activation='softmax'))
+```
+
+请注意，使用`tf.keras.layers`代替`tf.layers`。 TensorFlow 2.0 明确建议使用`tf.keras.layers`。 使用`tf.keras.layers`，您可以指定权重，偏差，初始值设定项和正则化项。 使用`tf.layers`和`tf.keras.layers`时，权重初始化的方式以及获得确切的 API 定义的方式可能会有一些差异。 [建议在各个部分中查看](https://www.tensorflow.org/)。
+
+# 函数式 API
+
+函数式 API 比顺序 API 可以构建更高级的模型。 例如，如果您需要一个具有多个输入和多个输出的模型，则无法使用顺序 API。 函数式 API 提供了这种灵活性。 另外，使用函数式 API，您可以定义具有共享层的模型。 此外，只能使用函数式 API 定义具有剩余连接的模型。
+
+使用函数式 API 的神经网络层的创建是通过 Python 可调用对象（可调用的 Python 对象）进行的。 作为构建深度学习模型的一部分，深度学习模型通常是分层的，与顺序 API 相反，在顺序 API 中，您首先创建`tf.keras.Sequential`模型，然后在函数式 API 中逐层添加层...
+
+# 模型子类化 API
+
+模型子类化 API 通过对`tf.keras.Model`类对象进行子类化（派生）来构建完全自定义的模型。 这是通过在派生类的构造器`__init__(...)`中创建层栈并将其设置为该类的属性来实现的。 此外，您可以在`call(...)`函数中实现前向通过图。
+
+让我们使用以下类构建模型子类：
+
+```py
+class MyModel(tf.keras.Model):
+
+  def __init__(self):
+    super(MyModel, self).__init__()
+self.num_filters = 32
+        self.kernel_size = (5, 5)
+        self.pool_size = (2, 2)
+        self.num_classes = 10
+        self.my_input_shape = (28, 28, 1)
+```
+
+现在定义层：
+
+```py
+        # first conv layer
+        self.conv1_layer = tf.keras.layers.Conv2D(filters=self.num_filters,
+          kernel_size=self.kernel_size, padding='valid', activation='relu', 
+          input_shape=self.my_input_shape)
+        # Another conv2d layer
+        self.conv2_layer = tf.keras.layers.Conv2D(filters=self.num_filters,
+          kernel_size=self.kernel_size, padding='same', activation='relu')
+```
+
+添加最大池化层：
+
+```py
+        self.mp_layer = tf.keras.layers.MaxPooling2D(pool_size=self.pool_size)
+```
+
+并添加一个丢弃：
+
+```py
+        self.do_layer = tf.keras.layers.Dropout(0.5)
+```
+
+展平层：
+
+```py
+        self.ft_layer = tf.keras.layers.Flatten()
+```
+
+添加一个带有 10 个输出单元的 softmax 层：
+
+```py
+        self.outputs_layer = tf.keras.layers.Dense(self.num_classes, activation='softmax')
+
+  def call(self, inputs, training=False):
+    conv1 = self.conv1_layer(inputs)
+       conv2 = self.conv2_layer(conv1)
+       mp = self.mp_layer(conv2)
+       do = tf.keras.layers.Dropout(0.5)(mp)
+       ft = tf.keras.layers.Flatten()(do)
+       outputs = self.outputs_layer(ft)
+       return outputs
+
+```
+
+使用任何 API 创建模型后，最好使用`model.summary()`和/或`tf.keras.utils.plot_model(...)`查看模型详细信息。
+
+# 模型编译与训练
+
+神经网络对复杂的非线性函数建模，例如`sin(x)`，`x ** 2`和`x ** 3`，仅举几个简单的函数， 由层的网络（栈）组成。 这些层可以是卷积层，循环层或简单的前馈层的混合。 每层由神经元组成。 神经元有两种模型化非线性的成分：前一层的加权总和，然后是激活函数。 神经网络试图以迭代方式学习给定训练数据的分布。 一旦通过指定激活函数以层栈的形式构建了神经网络，就需要定义一个目标函数（也称为损失函数）以使用适当的模型来改善模型权重。
+
+# `compile()` API
+
+`tf.keras.Model.compile(...)` API 有助于定义`loss`函数和优化器，如下所示：
+
+```py
+model.compile(optimizer='adam',
+              loss='categorical_crossentropy',
+              metrics=['accuracy'])
+```
+
+可以使用`mse`或`categorical_crossentropy`之类的字符串或通过指定`tf.keras.losses.CategoricalCrossentropy`来简单地定义损失，如以下代码块所示。 优化器也是如此。 但是，为了为优化器指定明确的学习率，您必须使用 Python 优化器类，例如`tf.keras.optimizers.Adam`，如下所示：
+
+```py
+# Specify the training configuration (optimizer, loss, metrics)
+model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.1),
+              # Loss function to minimize
+              loss=tf.keras.losses.CategoricalCrossentropy(),
+              # List of metrics to monitor
+              metrics=[tf.keras.metrics.Accuracy()])
+```
+
+# `fit()` API
+
+`tf.keras.Model.fit(...)`是训练模型的主要 API。 它以输入训练数据以及（可选）批量大小，回调等作为输入：
+
+```py
+model.fit(train_dataset, epochs=10,      callbacks=[tensorboard_callback],          validation_data=val_dataset)
+```
+
+回调是模型训练期间特定工具的挂钩。 它们被传递给`fit(...)`函数以自定义和扩展训练过程中模型的行为。 有很多有用的内置回调-以下是其中一些：
+
+*   `tf.keras.callbacks.ModelCheckpoint`：定期保存模型的检查点
+*   `tf.keras.callbacks.LearningRateScheduler`：动态更改学习率
+*   `tf.keras.callbacks.EarlyStopping`：发生以下情况时中断训练
+
+# 保存和还原模型
+
+监视训练进度非常重要，并且在每次迭代或训练步骤中都能查看模型对于调试模型的表现同样重要。 此外，训练结束后，需要加载模型以进行推理和部署。 为了能够做到这一点，需要保存模型的训练权重和参数以备将来使用。
+
+TF 2.0 提供了支持，可以轻松完成此操作，因为可以在训练期间和训练后保存模型。 这为用户提供了灵活性，允许从先前的检查点恢复训练，并且避免完全重新启动模型的训练以减少较长的训练时间。 此外，这些保存的模型可以在团队之间共享以进行进一步的工作。 在本节中，我们将主要讨论保存`tf.keras.Models`。
+
+TF 提供了仅保存模型权重或保存整个模型的灵活性，包括模型权重，配置和优化器详细信息，等等。
+
+# 在训练同时保存检查点
+
+可以使用`tf.keras.callbacks`轻松实现保存检查点，如下所示：
+
+```py
+# Create checkpoint callbackcp_callback = tf.keras.callbacks.ModelCheckpoint(checkpoint_path,                                                 save_weights_only=True,                                                 verbose=1)model.fit(train_dataset, epochs=10, callbacks=[cp_callback],          validation_data=val_dataset)
+```
+
+之前的回调会创建多个 TensorFlow 检查点文件，这些文件会在每次训练完成后进行更新。 此外，要使用这些检查点，请使用与保存检查点的原始模型完全相同的架构来重新创建模型，构建模型，然后使用`tf.keras.Model.load_weight(...)` API 从任何检查点加载权重并将其用于评估：
+
+```py
+model.load_weights(checkpoint_path) ...
+```
+
+# 手动保存和恢复权重
+
+模型权重也可以保存在检查点文件中。 这可以用来保存训练后的权重，以便将来进行进一步的训练：
+
+```py
+# Save the weights
+model.save_weights('./checkpoints/my_checkpoint')
+# Restore the weights
+model = create_model()
+model.load_weights('./checkpoints/my_checkpoint')
+loss,acc = model.evaluate(test_images, test_labels)
+print("Restored model, accuracy: {:5.2f}%".format(100*acc))
+```
+
+# 保存和还原整个模型
+
+TF 还可以保存和恢复整个模型，包括权重，变量，参数和模型的配置。 这提供了加载整个模型的灵活性，而无需使用训练模型的原始代码。 整个模型可以使用`tf.keras.experimental.export_saved_model`以 HDF5 文件格式或即将发布的 TF 内部格式存储。 在这一点上，后者仍处于试验阶段，因此我们将不再描述：
+
+```py
+model = create_model()model.fit(train_images, train_labels, epochs=5)
+```
+
+将整个模型保存到 HDF5 文件中：
+
+```py
+model.save('my_model.h5')
+```
+
+重新创建完全相同的模型，包括权重和优化器：
+
+```py
+new_model = keras.models.load_model('my_model.h5') ...
+```
+
+# 自定义训练逻辑
+
+如前所述，TF 2.0 带来了默认的紧急执行，这意味着基于图的代码流的传统 TF 1.x 自定义训练逻辑实现现在已过时。 为了在 TF 2.0 中实现有关急切执行的自定义训练逻辑，可以使用`tf.GradientTape`。 `tf.GradientTape`的目的是记录用于自动微分的运算，或者用于计算运算或计算相对于其输入变量的梯度。 这可以通过使用`tf.GradientTape`作为上下文管理器来完成。 TensorFlow 将在`tf.GradientTape`上下文中执行的所有操作记录到磁带上，然后将其与梯度一起与那些操作关联，以使用反向模式微分计算记录的操作的梯度。
+
+例如，一个简单的立方体操作的梯度可以如下计算：
+
+```py
+x = tf.constant(2.0)
+with tf.GradientTape() as tape:
+  tape.watch(x)
+  y = x ** 3
+dy_dx = tape.gradient(y, x) # 12.0
+```
+
+`tf.GradientTape`记录所有涉及监视张量的操作，例如上例中的`x`。 会自动监视`tf.GradientTape`上下文中出现的所有可训练变量，并将其记录在磁带上。 可以通过将`watch_accessed_variables`设置为`False`来禁用此功能，以便仅记录程序员专门监视的变量。
+
+通过将上下文管理器相互堆叠并计算相对于前一阶导数的梯度，也可以使用`tf.GradientTape`计算高阶导数。
+
+`tf.GradientTape`还允许使用更多自定义训练逻辑，因为它提供了在使用优化程序之前操纵梯度的选项。 与内置的`tf.keras.Model.fit`相比，它提供了一种替代的，更加复杂且功能强大的深度学习模型训练方法。 为此，所有前向通过操作都记录在磁带上，并且为了计算这些操作的梯度，将磁带向后播放然后丢弃。 这里要注意的重要一点是，特定的`tf.GradientTape`模型只能计算一个梯度。
+
+要首先使用`tf.GradientTape`实现模型的简单训练，请在`tf.GradentTape`上下文管理器内部的输入张量上调用前向传递，然后计算`loss`函数。 这样可以确保将所有计算结果记录在梯度磁带上。 然后，针对模型中的所有可训练变量计算梯度。 一旦计算出梯度，就可以在将其传递给优化器以将其应用于模型变量之前执行任何所需的梯度截断，归一化或变换。 看下面的例子：
+
+```py
+NUM_EXAMPLES = 2000
+
+input_x = tf.random.normal([NUM_EXAMPLES])
+noise = tf.random.normal([NUM_EXAMPLES])
+input_y = input_x * 5 + 2 + noise
+
+def loss_fn(model, inputs, targets):
+  error = model(inputs) - targets
+  return tf.reduce_mean(tf.square(error))
+
+def gradients(model, inputs, targets):
+  with tf.GradientTape() as tape:
+    loss_value = loss_fn(model, inputs, targets)
+  return tape.gradient(loss_value, model.trainable_variables)
+
+model = tf.keras.Sequential(tf.keras.layers.Dense(1))
+optimizer = tf.keras.optimizers.Adam(learning_rate=0.01)
+print("Initial loss: {:.3f}".format(loss_fn(model, input_x, input_y)))
+for i in range(500):
+  grads = gradients(model, input_x, input_y)
+  optimizer.apply_gradients(zip(grads, model.trainable_variables))
+  if i % 20 == 0:
+    print("Loss at step {:03d}: {:.3f}".format(i, loss_fn(model, input_x, input_y)))
+print("Final loss: {:.3f}".format(loss(model, input_x, input_y)))
+print("W = {}, B = {}".format(*model.trainable_variables))
+```
+
+TF 2.0 中添加的另一个功能是`tf.function`装饰器。 用`tf.function`注解函数时，它仍然像任何其他 Python 函数一样工作，但是将被编译成图，这提供了诸如执行速度更快，GPU 和 TPU 加速之类的好处，并且可以轻松导出到`SavedModel`。
+
+并非所有函数都需要使用`tf.function`进行注解，因为在带注解的函数内部调用的任何函数也将在图模式下运行。 对于具有多个较小操作的图，此类函数速度更快，但对于其他具有较昂贵操作（例如卷积）的图，改进效果会较小。
+
+`tf.function`装饰器还可以绘制 Python 控制流图，例如`if`，`while`，`for`，`break`，`continue`和`return`。 运行这些功能可实现更快的求值和硬件加速。
+
+`tf.function`也可以在`tf.keras`模型和训练循环中使用。 `tf.function`装饰器通常用于模型的`call`方法上，以提供图模型来求值。 另一种更常见的做法是将`tf.function`用于一个训练循环，因为它仅控制流程。 这样，训练过程的更多计算可以带入 TensorFlow 内，并将受益于优化的操作。
+
+以下代码段是`tf.keras`中`tf.function`的示例：
+
+```py
+class CustomModel(tf.keras.models.Model):
+
+  @tf.function
+  def call(self, input_data):
+    if tf.reduce_mean(input_data) > 0:
+      return input_data
+    else:
+      return input_data // 2
+```
+
+以下代码段是训练中的`tf.function`示例：
+
+```py
+compute_loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
+
+compute_accuracy = tf.keras.metrics.SparseCategoricalAccuracy()
+
+def train_one_step(model, optimizer, x, y):
+  with tf.GradientTape() as tape:
+    logits = model(x)
+    loss = compute_loss(y, logits)
+
+  grads = tape.gradient(loss, model.trainable_variables)
+  optimizer.apply_gradients(zip(grads, model.trainable_variables))
+
+  compute_accuracy(y, logits)
+  return loss
+
+@tf.function
+def train(model, optimizer):
+  train_ds = mnist_dataset()
+  step = 0
+  loss = 0.0
+  accuracy = 0.0
+  for x, y in train_ds:
+    step += 1
+    loss = train_one_step(model, optimizer, x, y)
+    if tf.equal(step % 10, 0):
+      tf.print('Step', step, ': loss', loss, '; accuracy', compute_accuracy.result())
+  return step, loss, accuracy
+```
+
+TF 2.0 还提供了一种创建自定义梯度以覆盖默认梯度计算的方法。 这是通过使用`tf.custom_gradient`装饰器完成的。 使用自定义梯度的一个常见原因是为一系列操作提供数值稳定的梯度，并且它们也可以用于限制梯度的范数。
+
+要使用`tf.custom_gradient`装饰器，我们必须定义一个函数，该函数既返回所需的计算结果，又返回计算的梯度。 一个示例是在反向传播过程中实现梯度裁剪：
+
+```py
+@tf.custom_gradient
+def clip_gradient_by_norm(x, norm):
+  y = tf.identity(x)
+  def grad_fn(dresult):
+    return [tf.clip_by_norm(dresult, norm), None]
+  return y, grad_fn
+```
+
+正如我们在前面的示例中看到的那样，该函数不仅返回输入张量的副本，而且还返回以默认梯度作为参数并返回裁剪后的梯度的函数。
+
+`tf.custom_gradient`装饰器的主要用途是允许在一系列操作的梯度上进行细粒度设置，并可用于创建一系列操作的更有效，更稳定的实现。
+
+有关如何使用`tf.custom_gradient`的更多示例，请参见[这里](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/custom_gradient)。
+
+# 分布式训练
+
+TF 2.0 的优点之一是能够在多个 GPU 和 TPU 上以分布式方式训练和推断模型，而无需编写大量代码。 使用分发策略 API `tf.distribute.Strategy(...)`可以简化此过程，该 API 随时可用。 “`fit()` API”部分介绍了`tf.keras.Model.fit(...)`，该部分说明了如何使用此功能训练模型。 在本节中，我们将展示如何使用分布策略跨多个 GPU 和 TPU 训练基于`tf.keras`的模型。 值得注意的是，`tf.distribute.Strategy(...)`可与`tf.keras`和`tf.estimator`等高级 API 一起使用，并支持自定义训练循环或...中的任何计算。
+
+# TensorBoard
+
+TensorBoard 是 TensorFlow 平台最重要的优势之一，而有了 TF 2.0，TensorBoard 进入了一个新的高度。 在机器学习中，要改善模型权重，通常需要能够对其进行度量。 TensorBoard 是用于提供机器学习工作流程期间所需的测量和可视化的工具。 它可以跟踪实验指标，例如损失和准确率，可视化模型图，将嵌入投影到较低维度的空间等。 与 TF 1.x 相比，TF 2.0 提供了一种非常简单的方法来使用回调来集成和调用 TensorBoard，在“`fit()` API”部分中对此进行了解释。 TensorBoard 还提供了一些技巧来测量和可视化您的数据和模型图，并且具有假设分析和分析工具。 它还扩展了自身以进行调试。
+
+# 使用回调和调用连接 TensorBoard
+
+TensorBoard 可以在 TF 2.0 中以两种主要方式使用。 一种方法是在使用`tf.keras.Model.fit()`训练模型时将其用作回调，另一种方法是将`tf.summary`用于使用`tf.GradientTape`的较低级模型。
+
+要在 Keras 模型训练中使用 TensorBoard，我们需要指定一个 TensorBoard 回调，该回调以`logdir`作为参数。 TensorBoard 回调的其他参数包括`histogram_freq`，`write_graph`，`write_images`和`update_freq`。 `histogram_freq`允许用户指定应该多久计算一次激活和权重直方图，并需要指定验证数据。 `write_graph`指定是否要在 TensorBoard 中可视化模型的图，...
+
+# 可视化标量，度量，张量和图像数据
+
+TensorBoard 还提供了可视化自定义标量和图像数据的功能。 这是前面描述的度量可视化的补充。 自定义标量日志记录可用于记录动态学习率。 为此，请使用以下步骤：
+
+1.  使用`tf.summary.create_file_writer()`创建文件编写器：
+
+```py
+logdir = "logs/scalars/" + datetime.now().strftime("%Y%m%d-%H%M%S")
+file_writer = tf.summary.create_file_writer(logdir + "/metrics")
+file_writer.set_as_default()
+```
+
+2.  然后，定义一个自定义学习率函数，然后将其传递给 Keras `LearningRateScheduler`回调并将自定义学习率记录在该函数内：
+
+```py
+def lr_schedule(epoch):
+  """
+  Returns a custom learning rate that decreases as epochs progress.
+  """
+  learning_rate = 0.2
+  if epoch > 10:
+    learning_rate = 0.02
+  if epoch > 20:
+    learning_rate = 0.01
+  if epoch > 50:
+    learning_rate = 0.005
+  tf.summary.scalar('learning rate', data=learning_rate, step=epoch)
+  return learning_rate
+lr_callback = keras.callbacks.LearningRateScheduler(lr_schedule)
+tensorboard_callback = keras.callbacks.TensorBoard(log_dir=logdir)
+model = keras.models.Sequential([
+    keras.layers.Dense(16, input_dim=1),
+    keras.layers.Dense(1),
+])
+model.compile(
+    loss='mse', # keras.losses.mean_squared_error
+    optimizer=keras.optimizers.SGD(),
+)
+```
+
+3.  最后，将`LearningRateScheduler`与 TensorBoard 回调一起传递给`model.fit`回调：
+
+```py
+training_history = model.fit(
+    x_train, # input
+    y_train, # output
+    batch_size=train_size,
+    epochs=100,
+    validation_data=(x_test, y_test),
+    callbacks=[tensorboard_callback, lr_callback],
+)
+```
+
+一般来说，要记录自定义标量，我们需要将`tf.summary.scalar()`与文件编写器一起使用，该文件编写器负责将运行数据写入特定目录并被隐式使用。
+
+在 TensorBoard 中写入用于可视化的图像数据时，也使用文件编写器。 TensorFlow 图像摘要 API 可用于轻松记录张量和任意图像并在 TensorBoard 中查看它们。 这有助于采样和检查输入数据，并可视化模型权重和生成的图像。
+
+为了可视化图像，在文件编写器的上下文中调用`tf.summary.image()`记录一个或多个图像。 此功能采用（批量，高度，宽度，通道）形式的 4 级张量，因此任何非该格式的图像都必须在将其记录到 TensorBoard 之前进行重塑。 只要将其转换为张量，该 API 还可用于记录任何种类的任意图像数据，例如 Matplotlib 图形。
+
+以下代码段是如何将单个图像记录到 TensorBoard 的示例：
+
+```py
+img = np.reshape(train_images[0], (-1, 28, 28, 1))
+# Sets up a timestamped log directory.
+logdir = "logs/train_data/" + datetime.now().strftime("%Y%m%d-%H%M%S")
+# Creates a file writer for the log directory.
+file_writer = tf.summary.create_file_writer(logdir)
+# Using the file writer, log the reshaped image.
+with file_writer.as_default():
+  tf.summary.image("Training data", img, step=0)
+```
+
+# 图形仪表板
+
+TensorBoard 的图形仪表板提供可视化和检查 TensorFlow 模型的功能。 我们可以使用它来快速查看模型结构的概念图以验证其设计或查看操作级图以了解 TensorFlow 如何理解和执行程序。 检查操作级图还可以深入了解如何重新设计模型以获得更佳的运行时间。
+
+在 TF 2.0 中，按照以下步骤查看操作级图非常简单：
+
+1.  将 TensorBoard 回调添加到`Model.fit`以确保图数据记录在 TensorBoard 中。
+2.  运行后，打开 TensorBoard 并导航到顶部栏上的“图”选项卡以查看图。 默认情况下，TensorBoard 显示操作级别图，该图显示...
+
+# 超参数调优
+
+建立良好的深度学习模型最重要的部分之一就是选择最佳超参数来训练模型本身。 超参数是工程师在模型训练之前设置的参数。 一些常见的超参数包括丢弃率，学习率和所用优化器的类型。 超参数的优化是一个耗时的过程，其中涉及对具有不同超参数的模型进行多次训练以找到最佳模型，因为目前尚无关于如何选择超参数的见解。
+
+这样，TF 2.0 提供了一种智能执行超参数调优的工具，它可以协助确定执行最佳实验和尝试最有前途的超参数的过程。
+
+为此，请使用以下步骤：
+
+1.  列出要为特定超参数尝试的值，并将实验配置记录到 TensorBoard。 然后，修改 TensorFlow 模型以在模型构建中包括超参数。 完成此操作后，将`hp.KerasCallback`回调添加到`model.fit`函数中：
+
+```py
+def train_test_model(hparams):
+  model = tf.keras.models.Sequential([
+    tf.keras.layers.Flatten(),
+    tf.keras.layers.Dense(hparams[HP_NUM_UNITS], activation=tf.nn.relu),
+    tf.keras.layers.Dropout(hparams[HP_DROPOUT]),
+    tf.keras.layers.Dense(10, activation=tf.nn.softmax),
+  ])
+  model.compile(
+      optimizer=hparams[HP_OPTIMIZER],
+      loss='sparse_categorical_crossentropy',
+      metrics=['accuracy'],
+  )
+model.fit(
+    ...,
+    callbacks=[
+        tf.keras.callbacks.TensorBoard(logdir),  # log metrics
+        hp.KerasCallback(logdir, hparams),  # log hparams
+    ],
+)
+  _, accuracy = model.evaluate(x_test, y_test)
+  return accuracy
+```
+
+2.  定义模型后，下一步就是定义一种算法来循环遍历所有可能的超参数，例如网格搜索。 这将遍历离散超参数的所有值以及实值超参数的上限和下限：
+
+```py
+session_num = 0
+for num_units in HP_NUM_UNITS.domain.values:
+  for dropout_rate in (HP_DROPOUT.domain.min_value, HP_DROPOUT.domain.max_value):
+    for optimizer in HP_OPTIMIZER.domain.values:
+      hparams = {
+          HP_NUM_UNITS: num_units,
+          HP_DROPOUT: dropout_rate,
+          HP_OPTIMIZER: optimizer,
+      }
+      run_name = "run-%d" % session_num
+      print('--- Starting trial: %s' % run_name)
+      print({h.name: hparams[h] for h in hparams})
+      run('logs/hparam_tuning/' + run_name, hparams)
+      session_num += 1
+```
+
+对于更复杂的超参数调优，随机搜索更加有效。 可以通过随机选择每个超参数并运行实验来进行，这可以比网格搜索快得多地探索超参数空间。 也可以使用其他更复杂的算法。
+
+3.  最后，可以通过在`logdir`上运行 TensorBoard 来查看超参数日志，日志在其中写入：
+
+![](img/360da61e-9b3a-4d8a-b54a-74a79d9bec0a.png)
+
+仪表板的左窗格允许用户按超参数过滤日志，以方便访问和使用。 超参数仪表板具有三个视图-表视图，并行坐标视图和“散点图矩阵视图”-每个视图都提供了一种不同的方式来可视化结果。 `TABLE VIEW`列出运行和超参数并显示指标。 并行坐标视图将每个运行显示为一条穿过每个超参数和指标的轴的线，可用于查看哪个超参数更重要。 `SCATTER PLOT MATRIX VIEW`显示比较每个超参数和度量的图，并有助于识别相关性。
+
+该工具可轻松调整超参数和详细的日志，并在 TensorBoard 中直观显示结果。
+
+# What-If 工具
+
+TensorFlow 2.0 引入了一个非常强大的工具，即 **What-If 工具**（**WIT**），该工具可在 TensorBoard 仪表板内部提供易于使用的界面。 但是，仅当使用 TensorFlow 服务为模型提供服务时，才可以使用 WIT。 在第 5 章，“模型推理管道 – 多平台部署”中解释了 TensorFlow 服务。 另外，为了使用 WIT，推理数据集必须为`TFRecords`格式。
+
+WIT 的某些功能是可以将具有相同工作流程的多个模型进行比较，推理结果的可视化，基于相似度的数据排列以及通过编辑数据点执行模型的敏感性分析的能力。
+
+# 分析工具
+
+使用 TF 2.0 随附的 TensorBoard 时，如果您使用`tf.keras` API 构建和训练模型，则已经有一个 PROFILE 仪表板选项卡，可用于查看模型所花费的各种训练时间：
+
+![](img/399c1540-e609-4b46-8f9e-529b55c2beba.png)
+
+# 总结
+
+本章详细介绍了如何使用 TF 2.0 `tf.keras` API 构建训练管道，以及如何使用分布策略在 GPU 上以分布方式在 GPU 上使用各种可用的损失函数，优化器和超参数查看构建，编译和拟合模型。 。 它还详细介绍了如何在训练时保存，恢复模型以进行将来的训练以及进行推断。 TensorBoard 是 TF 2.0 的主要优势之一，我们提供了有关如何有效地使用它来监视训练表现损失和准确率以及如何调试和分析它的详细信息。
+
+在下一章中，我们将学习模型推理管道并将其部署在多平台上。
+
+# 问题
+
+**我应该使用`tf.keras` API 还是 TF 的低级和中级 API？**
+
+查看本章，然后尝试找到答案。
+
+**我应何时使用`tf.keras`顺序和函数式 API？ 为什么需要模型子类化？**
+
+通常，对于更简单的模型，应使用`tf.keras`顺序。 大部分模型可以使用顺序 API 编写。 但是，对于那些需要多个输入和输出以及某些特定连接（例如残差）的模型，应使用函数式 API。 对于真正定制的模型，可以使用模型子类化。
+
+# 进一步阅读
+
+鼓励用户阅读[这里](https://www.tensorflow.org/)的迁移学习指南，该指南重用了预训练的模型权重和变量，[并将学习表示迁移到另一个数据集](https://www.tensorflow.org/beta/tutoriaimg/transfer_learning)。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/5.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/5.md
new file mode 100644
index 00000000..887f4aab
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/5.md
@@ -0,0 +1,359 @@
+# 五、模型推理管道 - 多平台部署
+
+训练完模型后您会怎么做？ 用它？ 如果答案是肯定的，那么您将如何使用它？ 您正在寻找的答案是**推理**。 简而言之，推理过程是确保机器学习模型可用于满足实际用户需求的基础。 正式地说，推理是有效地计算经过训练的机器学习模型以满足用户需求的过程。 可以在各种硬件类型上进行推断，包括服务器以及最终用户设备（例如电话和 Web 浏览器）。 根据用户要求，它也可以在不同的操作系统上执行。
+
+前几章重点介绍了如何...
+
+# 技术要求
+
+为了运行本章中给出的代码摘录，您将需要以下硬件和软件：
+
+*   **TensorFlow 2.0**（**TF 2.0**）或更高版本（CPU 或 GPU 版本都足够）
+*   Python 3.4+（当前，TensorFlow 支持的最高 Python 版本是 3.6）
+*   NumPy（如果不是由 TensorFlow 自动安装）
+*   Docker（请参阅第 1 章和 “TensorFlow 2.0 入门”，有关如何安装 Docker 的详细信息）
+*   [`curl`](https://curl.haxx.se/docs/install.html)
+*   具有命令行界面的 Linux 计算机
+
+本章中的每个 Python 代码段均假定已安装 TF 2.0，并且已将其导入到名称空间中。 这意味着在执行任何代码块之前，请先输入以下行：
+
+```py
+import tensorflow as tf
+```
+
+可在[这个页面](https://github.com/PacktPublishing/What-s-New-in-TensorFlow-2.0/tree/master/Chapter05)中获得本章的代码文件。
+
+# 机器学习工作流程 - 推理阶段
+
+机器学习应用的最常见子集之一遵循*构建一次，并多次使用*范式。 这种类型的应用涉及所谓的推理阶段。 在推断阶段，开发人员必须专注于运行模型以满足用户需求。 满足用户需求可能涉及从用户那里接受输入并对其进行处理以返回适当的输出。 下图描述了典型的高级机器学习应用工作流程：
+
+![](img/4dba2f20-e39c-4cce-98ba-9f2d018a4f3e.png)
+
+从上图，我们可以看到推理过程如何适应整体情况。 在随后的应用中...
+
+# 从推理的角度理解模型
+
+实现基于机器学习的应用的开发人员可以依靠的一件事是使生活变得轻松，无论所服务模型中的实际计算如何，向用户提供模型的过程或多或少都是相同的。 这意味着，如果实现正确，工程师可能不必在每次数据科学家更新模型时都重新构建部署管道。 这可以通过利用抽象的力量来实现。 这里的一个关键抽象是模型存储和加载的格式。 通过引入标准化格式，TF 2.0 使得在一个环境中训练模型然后在各个平台上使用它变得容易。 在 TF 2.0 中，执行此操作的标准方法是通过`SavedModel`格式。 这种标准化格式类似于软件开发管道中的构建工件。 读者可以将模型工件视为快照，可用于重新创建模型而无需访问创建模型的实际代码。
+
+实际上，在推理时，模型被简化为一个黑盒子，它具有一组预定义的输入和输出以及一个与底层模型进行交互的统一接口。 开发人员现在要做的就是建立在给定环境中实现和执行黑匣子所需的基础结构。 在以下各节中，我们将学习如何构建管道以服务于各种流行的软件和硬件环境中的模型。
+
+# 模型工件 – SavedModel 格式
+
+`SavedModel`格式是 TensorFlow 使用的默认模型序列化和反序列化格式。 用外行的术语来说，这可以理解为一个容器，它容纳了在不访问创建模型的原始代码的情况下从头开始重现模型的所有内容。 我们可以使用`SavedModel`将训练后的模型从训练阶段转移到推理阶段，甚至在训练过程的不同部分之间转移状态。 简而言之，可以说`SavedModel`包含完整的 TensorFlow 程序以及模型权重和所描述的各种计算操作的描述。 使用 TF 2.0 的 Python API 时，现在可以导出某些本机...
+
+# 了解核心数据流模型
+
+在我们研究`SavedModel`格式的细微差别之前，重要的是要首先了解 TensorFlow 模型的真正含义。 对于初学者，TensorFlow 实现数据流编程范例。 在这种范式下，程序被建模为在不同计算操作之间流动的数据的*有向图*。 这意味着每个节点代表一个操作（或计算），边代表数据。 输入边缘将代表该节点的输入，而输出边缘将对应于计算节点产生的输出。 为了说明这个想法，让我们看一下`tf.add()`操作的（粗略）数据流表示形式。 如下图所示，输入边对应于 x 和 y 的输入。 输出边缘`z(x + y)`对应于节点的输出，在这种特定情况下，该输出恰好是输入的总和：
+
+![](img/2e09fd48-ab43-4546-8eab-1df5c1dae380.png)
+
+使用数据流范例可以使 TensorFlow 在执行用户代码时利用某些好处：
+
+*   **并行性**：将模型表示为有向图可以使 TensorFlow 识别哪些操作相互依赖，哪些不依赖。 这样，可以并行执行独立的操作，从而加快基础计算图的执行速度。
+*   **分布式执行**：并行性的一个相关好处是，并行执行可以在同一台物理计算机上执行，也可以在另一台物理计算机上完成。 TensorFlow 还负责这些节点之间的通信。
+*   **编译**：TensorFlow 的 XLA 编译器旨在利用数据流图中的信息，通过一系列优化来生成更快的代码。
+*   **可移植性**：数据流图是模型中代码的语言无关表示形式。 这使得可以在 Python 中构建数据流图并以较低级别的语言（例如 C 或 Java）将其还原以进行低延迟推理。
+
+我们已经看到了如何使用数据流范例来表示一个简单的操作。 实际的 TensorFlow 程序或模型将由许多这样的简单操作组成。 这意味着此类程序的数据流表示形式将由许多此类简单表示形式组成，每个操作通常具有一个或多个节点。 `SavedModel`格式可以理解为该基础数据流图的序列化。 这里有趣地提到了诸如 Keras 和 Estimators 之类的高级 API 的角色。 实际上，他们从用户那里抽象出了该数据流图的细节，以至于用户甚至不必考虑它。 它们为用户提供了一组高级操作，以供实现，然后将其转换为 TensorFlow 可以执行的数据流图。 这意味着，最终，在 TensorFlow 中创建的任何模型，无论其创建方式如何，都将转换为统一的计算图。 这样就可以使用一个统一的格式保存和加载所有模型。
+
+# tf.function API
+
+正如我们在第 1 章中看到的那样，第 2 章“TensorFlow 2.0 入门”， “Keras 默认集成和急切执行”，默认情况下启用急切执行是 TF 2.0 中引入的主要更改之一。 第 1 章和 “TensorFlow 2.0 入门”还简要提到了 TF 2.0 与 Python 编程语言更紧密地结合在一起。 此更改的核心是低级`tf.function` API。 实际上，这是通过使用户能够从 Python 函数创建 TensorFlow 图而将 TensorFlow 1.x 的功能与急切执行的优点相结合。 它既可以用作可调用函数，也可以用作装饰器。 在本节中，我们将简要介绍一下如何在每个人中使用它。
+
+# `tf.autograph`函数
+
+到目前为止，我们已经看到了如何从 Python 函数创建 TensorFlow 图的代码。 TF 2.0 将 Python-TensorFlow 耦合提升到了一个全新的水平。 新引入的 AutoGraph（`tf.autograph`）函数使用户可以使用本机 Python 语法编写图的代码。
+
+当前，此功能仅支持 Python 语法的有限子集。 [这个页面](https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/autograph/LIMITATIONS.md)中提供了当前支持的语法元素的详细列表。
+
+这样做的主要优点是，它使开发人员可以编写直观的 Python 代码来完成特定任务，然后自动将其转换为高性能的 TensorFlow 图代码。 这意味着开发人员可以以直观的 Python 形式描述基本的编程语言结构（例如循环和条件），而不是 TensorFlow 等效形式，并且具有可比的性能。
+
+在 TF 2.0 中，调用`tf.function`时会自动调用 AutoGraph。 用户不需要单独调用它。 `tf.autograph`模块包含低级模块。 初学者或中级用户几乎不必直接使用它们，现在可以安全地忽略详细信息。
+
+让我们看看执行此操作的示例。 考虑一个计算给定张量中所有值之和的函数。 让我们完全使用 Pythonic 语法实现它，然后使用`tf.function`将其转换为本地 TensorFlow 计算图代码：
+
+```py
+@tf.function
+def sum_of_cubes(numbers):
+
+    _sum = 0
+
+    for number in numbers:
+        _sum += number ** 3
+
+    return _sum
+```
+
+为了测试到目前为止已经编写的代码，让我们创建一个介于 1 到 5 之间（包括两端）的整数张量。 然后，将它们传递给我们的函数：
+
+```py
+input_values = tf.constant([1, 2, 3, 4, 5])
+result = sum_of_cubes(input_values)
+print(type(result))
+print(result)
+```
+
+这将导致以下输出：
+
+```py
+<class 'tensorflow.python.framework.ops.EagerTensor'>
+tf.Tensor(225, shape=(), dtype=int32)
+```
+
+正如我们在提取的输出中看到的那样，我们已经编写的纯 Python 函数现在被转换为 TensorFlow 图。 函数现在返回张量而不是单个数字的事实证明了这一点。 输出值与预期值相同。 有效地，我们已经证明了特定于 Python 的语法结构（例如`for`循环和幂运算符）已成功转换为 TensorFlow 图的代码。 这是`tf.function`和 AutoGraph 的真正功能。 由于我们现在已经有效地将本机 Python 代码转换为 TensorFlow 计算图，因此可以使用`SavedModel`格式在环境之间共享此图。
+
+# 导出自己的 SavedModel 模型
+
+如前所述，`SavedModel`格式用于生成当前计算图（数据流图）的可再现表示。 此表示独立于用于创建计算图的特定代码。 它也独立于用于构造该图的特定过程。 例如，`SavedModel`格式没有积极地区分使用本机 TensorFlow 操作，Keras 甚至`tf.function`创建的计算图。 尽管我们可以互换地将此计算图称为模型，但从技术上讲，它也可以被认为是训练有素的数学模型和围绕它编写的一些其他代码的组合，以执行支持...
+
+# 使用`tf.function` API
+
+如前所述，`tf.function` API 使我们能够使用简单的 Python 编写 TensorFlow 图和模型。 让我们从构建一个简单模型开始，该模型接受一个数字或一个数字列表并返回列表中值的平方。 然后，我们将由此创建的模型导出为`SavedModel`格式。 这是本章以下大部分内容的重要步骤。 我们将几乎在所有地方都使用`SavedModel`工件。
+
+首先，让我们首先编写一个简单的 Python 函数来计算平方。 然后，我们可以从那里向后退：
+
+```py
+def compute_square(number):
+    return number ** 2
+
+```
+
+如我们所见，前面的 Python 方法接受一个数字作为输入并返回其平方。 我们的最终目标是构建用于执行此计算的 TensorFlow 图。 利用我们从前面的部分中学到的知识，我们知道一种实现方法是使用`tf.function`。 我们选择使用`tf.function`的装饰器形式。 如果仔细观察我们刚刚编写的代码段，您将意识到我们假设传递给`number`变量的值是一个数值。 在现实世界中，情况未必一定如此。 为了解决这个问题，我们可以在装饰器中指定此方法可以接受的值的类型。 这是通过在装饰器中固定输入签名来完成的。 我们将其固定为包含 32 位浮点数的一维张量。 任何不符合此标准的输入将被自动丢弃。 我们修改后的代码片段（带有实现错误检查的功能）现在看起来像这样：
+
+```py
+@tf.function(input_signature=[tf.TensorSpec(shape=None, dtype=tf.float32)])
+def compute_square(number):
+    return number ** 2
+
+```
+
+到目前为止，我们已经成功实现了一个 TensorFlow 计算图，该图可以计算给定一维张量的平方。 现在唯一要做的就是以`SavedModel`格式将此图导出到磁盘。 您可能还记得，`tf.saved_model`模块中提供了用于`SavedModel`的 API。 [在阅读该模块的文档](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf/saved_model)时，我们发现`save`方法可能会对我们有所帮助。 一个粗糙的边缘是`tf.saved_model.save`方法仅适用于`Trackable`类型的对象，而我们所拥有的是`tf.function()`对象（属于`Trackable`类型或其子类）。 为了克服这个问题，我们只需将代码包装在实现`Trackable`接口的类中：
+
+```py
+class Square(tf.Module):
+
+    @tf.function(
+        input_signature=[
+            tf.TensorSpec(shape=None, dtype=tf.float32)
+        ]
+    )
+    def compute_square(self, number):
+        return number ** 2​
+```
+
+现在，我们将逻辑封装在[H​​TG0]方法支持的表示形式中。 最后，我们创建一个`Square`类的对象（继承自`Trackable`）并将其传递给`save`方法：
+
+```py
+sos = Square()
+tf.saved_model.save(sos, './square/1')
+```
+
+现在，您将看到模型已成功导出到`./square/1`目录。 可以通过列出前面目录的内容来验证。 打开终端并输入以下内容：
+
+```py
+cd <directory-containing-your-code>
+ls -ax ./square/1
+```
+
+您将看到如下内容：
+
+```py
+.  ..  assets  saved_model.pb  variables 
+```
+
+在接下来的分析`SavedModel`工件的部分中，我们将研究这些文件中的每个文件所包含的内容以及它们在保存模型的过程中所起的作用。
+
+# 分析 SavedModel 工件
+
+在本小节中，我们将详细研究`SavedModel`如何序列化和反序列化 TensorFlow 图。 我们还将看看`SavedModel`命令行界面，这是一个功能强大的工具，可以分析磁盘上`SavedModel`的内容，甚至可以在本地运行`SavedModel`！
+
+`SavedModel`格式本质上描述了一种在磁盘上存储 TensorFlow 图的方法。 在较低的级别上，其工作的一部分是编纂一种用于在文件中表示该图的格式。 按照这种格式，每个图都使用组成的底层函数及其状态的组合表示。 用 TensorFlow 的话来说，这些组成函数用名称标识，并称为签名或命名签名。 这些...
+
+# SavedModel 命令行界面
+
+`SavedModel` **命令行界面**（**CLI**）是非常方便的工具，可用于分析各种`SavedModel`实例并运行它们。 它在调试磁盘上的模型时非常有用，并且可以在不读取，编写或修改任何代码的情况下使用。 在本节中，我们将简要介绍如何安装此工具，使用它分析图的不同组件并运行计算图。
+
+该工具与 TensorFlow 二进制文件捆绑在一起。 如果您通过从源代码构建 TensorFlow 来安装它，则必须单独安装它。 有关安装说明，请参见[这里](https://www.tensorflow.org/beta/guide/saved_model#details_of_the_savedmodel_command_line_interface)。
+
+这里值得简要讨论的两个命令是`show`和`run`。 前者可用于列出 MetaGraph 信息，而后者可用于通过命令行在一组输入上执行图。 通过使用`-h`参数运行工具，可以在每个步骤中获取详细说明：
+
+```py
+saved_model_cli -h
+```
+
+可以通过在命令名称后调用`-h`参数来获取特定命令的说明。 例如，如果您想要有关`run`命令的详细说明，请键入以下内容：
+
+```py
+saved_model_cli run -h
+```
+
+为了亲身体验此工具，让我们回到在`tf.function` API 的较早部分中构建和训练的模型。 您可能还记得，模型接受任何维数的张量，并返回包含原始元素平方的相同形状的张量。 首先让我们看一下模型中存在的元图数量。 为此，请在“终端”窗口中键入以下内容：
+
+```py
+saved_model_cli show --dir <path-to-model-dir>
+```
+
+对于我们计算平方的模型，您应该看到以下内容：
+
+```py
+The given SavedModel contains the following tag-sets:
+serve
+```
+
+如前所述，使用标记集来标识元图。 在这里，我们可以看到只有一个名为`serve`的标签集。 我们可能还想看一下构成该元图的组成函数。 要查看构成此标签集的`SignatureDefs`（有关详细信息，请参阅 [这里](https://www.tensorflow.org/tfx/serving/signature_defs)，您可以键入以下命令：
+
+```py
+saved_model_cli show \
+ --dir <path-to-model-dir> \
+ --tag_set serve
+```
+
+对于我们计算平方的模型，您应该看到以下内容：
+
+```py
+The given SavedModel MetaGraphDef contains SignatureDefs with the following keys:
+SignatureDef key: "__saved_model_init_op"
+SignatureDef key: "serving_default"
+```
+
+现在，让我们看看如何使用`run`函数与直接使用命令行通过`SavedModel`保存的 TensorFlow 计算图进行交互，而无需编写任何代码。 从上一阶段的输出中可以看到，有两个组件函数。 其中，我们选择使用`serving_default` SignatureDef。 现在，我们可以通过提供所需的输入并获得所需的结果，通过命令行运行它。 为此，我们需要将路径传递给模型，标签集，输入值以及要运行的组件的名称。 为了该测试的目的，我们要计算的张量由`[1, 2 , 3]`给出。 确切的命令如下：
+
+```py
+saved_model_cli run \
+ --dir <path-to-model> \
+ --tag_set serve \
+ --input_exprs "number"="[1, 2, 3]" \
+ --signature_def serving_default
+```
+
+以下是输出：
+
+```py
+Result for output key output_0:
+[1\. 4\. 9.]
+```
+
+从上一阶段的输出中，我们可以观察到以下内容：
+
+*   输出张量与输入张量具有相同的形状
+*   输出张量中的值对应于我们输入张量中的值的平方
+
+这些观察结果都确认`SavedModel`工作正常。
+
+在随后的部分中，我们将探讨在各种硬件和软件环境中服务于此模型的方法。
+
+# 后端服务器上的推理
+
+在当今世界，分布式系统无处不在。 从我们浏览的网站到我们在手机上使用的应用范围，当我们不使用分布式系统时几乎没有一天。 鉴于这种无所不在的性质，将这种范例用于构建机器学习系统显然是一个选择。 构建分布式系统的典型模式是在后端服务器上执行资源密集型（和数据敏感型）计算，同时将较轻（且相对独立）的计算任务推向用户设备。 机器学习应用的很大一部分属于资源密集型类别。 此外，机器学习模型是使用数据构建的。 在现实世界中的很大一部分...
+
+# TensorFlow 服务
+
+**TensorFlow 服务**是 **TensorFlow 扩展**（**TFX**）平台的组成部分。 顾名思义，它旨在用于服务于机器学习模型。 简而言之，它是专为生产环境设计的高性能服务系统。 TensorFlow 服务的一个重要特征是它向下游用户公开了一致的 API，而与所服务模型的实际内容无关。 这使得快速进行实验和重新部署变得容易，而无需对其余软件栈进行任何其他更改。 它附带对 TensorFlow 模型的内置支持，并且可以扩展为服务于其他类型的模型。
+
+在本节中，我们将详细介绍 TensorFlow 服务。 从基本的安装和设置开始，以下小节通过一系列动手示例描述如何设置服务器来为`SavedModel`服务。 我们还将简要介绍 TensorFlow 服务提供的一些关键 API。
+
+# 设置 TensorFlow 服务
+
+与 TensorFlow 平台的大多数其他组件一样，TensorFlow 服务也可以通过多种方式安装。 这里推荐通过 Docker 镜像使用它，因为它相对简单。
+
+如果容器镜像对您不起作用，请在[这个页面](https://www.tensorflow.org/tfx/serving/setup)上获取其他安装 TensorFlow 服务方法的摘要。
+
+使用 Docker 设置 TensorFlow 服务涉及一个简单的步骤。 但是，此步骤需要将 Docker 安装在主机上。 有关设置 Docker 的说明，请参阅第 1 章， “TensorFlow 2.0 入门”或本章的“技术要求”部分。 您需要做的就是拉相关的 Docker 镜像以...
+
+# 设置并运行推理服务器
+
+现在我们已经设置了 TensorFlow 服务，让我们使用它来执行一些实际任务。 我们可以看看如何设置后端服务器以服务于前面几节中构建的`SavedModel`格式。 我们可以使用上一节中下载的 Docker 镜像来运行`SavedModel`格式。 为此，我们需要做两件事：
+
+*   将本地主机上包含模型的位置绑定到容器内的目录（`/models/<your-model_name>`）
+*   绑定网络端口 TensorFlow 服务正在监听主机上的网络端口
+
+该命令的一般形式如下：
+
+```py
+docker run -t --rm \
+ -p <port-on-host>:8501 \
+ -v <path-to-model-on-host>:/models/<model_name> \
+ -e MODEL_NAME=<model_name> \
+ tensorflow/serving&
+```
+
+现在，模型服务器应该在您的主机上`<port-on-host>`中指定的端口上运行。
+
+现在让我们通过发送一些推断数据来测试我们的模型。 我们可以通过 RESTful API 与模型进行交互。 我们应该将带有输入值的 HTTP `POST`请求发送到服务器。 为此，请在“终端”窗口中键入以下命令：
+
+```py
+curl -X POST \
+ http://localhost:<port-on-host>/v1/models/square:predict \
+ -H 'Content-Type: application/json' \
+ -d '{"instances": [1.0, 2.0, 3.0, 4.0]}'
+```
+
+您应该看到以下输出：
+
+```py
+{
+ "predictions": [1.0, 4.0, 9.0, 16.0]
+}
+```
+
+现在我们已经看到了如何使用 TensorFlow 服务在后端服务器上提供`SavedModel`。 可通过 gRPC 和 RESTful API 访问此模型。 有关这些的详细信息，请参见以下链接：
+
+*   <https://www.tensorflow.org/tfx/serving/api_rest>
+*   <https://github.com/tensorflow/serving/blob/master/tensorflow_serving/apis/prediction_service.proto>
+
+请记住，每次调用`docker run`时，主机上都会启动一个新的 Docker 容器。 即使您已停止与该容器进行交互甚至关闭了“终端”窗口，该容器也可能会在后台继续刷新并运行。 这会导致大量的隐藏内存消耗。 需要有意识地停止容器。 为此，请执行以下步骤：
+
+找出刚启动的容器的名称或 ID。 在“终端”窗口中键入以下内容：
+
+```py
+docker ps
+```
+
+如您在前面的命令的输出中看到的，每个容器都有一个名称和 ID。 这些中的任何一个都可以用来唯一地标识容器。 我们需要使用它来停止我们启动的容器。 可以按照以下步骤进行：
+
+```py
+docker stop <container-name>
+```
+
+您还可以使用以下内容：
+
+```py
+docker stop <container-id>
+```
+
+现在，您可以放心，容器已停止并且没有占用计算机的任何内存。
+
+# 当 TensorFlow.js 与 Node.js 相遇时
+
+TensorFlow.js 的引入使在 JavaScript 环境中运行 TensorFlow 模型成为可能。 您可能已经知道，Node.js 是一个跨平台的运行时环境，可以在浏览器外部执行 JavaScript 代码。 这样就可以使用 JavaScript 代码编写后端服务。 将 Node.js 与 TensorFlow.js 集成在一起，就可以从 JavaScript 环境在后端服务器上提供机器学习服务。 请参阅[这个页面](https://www.tensorflow.org/js/tutorials/setup)上有关如何执行此操作的文档。
+
+# 浏览器中的推断
+
+您可能还记得，在前面的部分中，我们简要讨论了分布式系统。 在那里，我们讨论了主要在主机服务器上执行基于机器学习的计算的场景。 在这里，我们将研究在浏览器中在用户端执行这些计算的场景。 这样做的两个重要优点如下：
+
+*   计算被推送到用户端。 主机不必担心为执行计算而管理服务器。
+*   将模型推送到用户端意味着不必将用户数据发送到主机。 对于使用敏感或私有用户数据的应用来说，这是一个巨大的优势。 因此，浏览器中的推理成为对隐私至关重要的机器学习应用的绝佳选择：
+
+![](img/ed83cc9d-b1bb-4e26-b251-f69247244b1b.png)
+
+上图中描述的工作流说明了从头构建模型然后允许最终用户在其 Web 浏览器中运行它的端到端管道。 我们看到该过程分为两个主要阶段：训练和推理。 在训练阶段，数据科学家和其他机器学习从业者聚在一起，建立和训练模型。 现在，该模型以`SavedModel`格式导出。 但是，TensorFlow.js 尚不直接支持`SavedModel`格式。 因此，有必要将模型转换为 TensorFlow.js 支持的格式。
+
+有关如何执行转换的详细信息，请参见[这里](https://www.tensorflow.org/js/tutorials/conversion/import_saved_model)。
+
+现在，通过任何其他 JavaScript 代码，都可以通过 Web 服务器将转换后的模型提供给用户。 用户为模型提供必要的输入。 TensorFlow.js 模型在用户浏览器中处理这些输入并返回适当的输出。
+
+Detailed resources for getting started with TensorFlow.js are available at the following links:
+
+*   <https://www.tensorflow.org/js/guide>
+*   <https://www.tensorflow.org/js/tutorials>
+*   <https://www.tensorflow.org/js/demos>
+
+# 移动和物联网设备上的推理
+
+在过去几年中，智能手机的使用呈指数增长，并且以不减缓的方式持续增长。 其他物联网设备在我们的日常生活中也变得越来越普遍。 使用率的这些上升趋势对机器学习系统产生了有趣的影响。 与普通主机相比，这些平台通常资源有限。 结果，需要其他优化来在此类设备上进行推理。 TensorFlow 平台支持构建机器学习和基于深度学习的应用，这些应用可以在不同类型的边缘设备（例如手机和其他 IoT 设备）上运行。 实现此目的的主要工具是...
+
+# 总结
+
+在本章中，我们详细介绍了推理阶段。 首先，通过对端到端机器学习工作流的外观有了基本了解，我们了解了每个阶段涉及的主要步骤。 我们还了解了将模型从训练阶段转移到推理阶段时所起作用的不同抽象。 详细了解`SavedModel`格式和基础数据流模型，我们了解了可用于构建和导出模型的不同选项。 我们还了解了`tf.function`和`tf.autograph`等出色功能，使我们能够使用本地 Python 代码构建 TensorFlow 图。 在本章的后半部分，我们学习了如何构建推理管道，以便在后端服务器，Web 浏览器甚至边缘设备等不同环境中运行 TensorFlow 模型。
+
+在下一章中，我们将了解有关 AIY 项目和 TensorFlow Lite 的更多信息。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/6.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/6.md
new file mode 100644
index 00000000..ec448d16
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/6.md
@@ -0,0 +1,186 @@
+# 六、AIY 项目和 TensorFlow Lite
+
+本章详细介绍如何在低功耗嵌入式系统（例如边缘设备，移动系统（例如 Android，iOS 和 Raspberry Pi），Edge TPU 和 NVIDIA Jetson Nano 上部署经过训练的 **TensorFlow 2.0**（**TF2.0**）模型。 本章还介绍了自己动手工具包的训练和部署模型，例如 Google **自己做人工智能**（**AIY**）工具包。 本章涵盖的其他主题是如何将经过训练的 **TensorFlow**（**TF**）模型转换为 **TensorFlow Lite**（**TFLite**）模型，他们之间的主要区别，以及两者的优势。
+
+本章与前几章略有不同，从某种意义上说，它只是对 TF2.0 的更广泛关注的介绍。 也就是说，硬件领域...
+
+# TFLite 简介
+
+TFLite 是一组工具，可帮助开发人员在二进制大小较小且延迟较低的设备上运行 TF 模型。 TFLite 由两个主要组件组成：TFLite 解释器（`tf.lite.Interpreter`）和 TFLite 转换器（`tf.lite.TFLiteConverter`）。 TFLite 解释器实际上是在低功耗设备（例如手机，嵌入式 Linux 设备和微控制器）上运行 TFLite 模型的。 另一方面，TFLite 转换器在可用于训练 TF 模型的强大设备上运行，并将训练后的 TF 模型转换为解释器的有效形式。
+
+TFLite 旨在简化在设备上执行机器学习的过程，而无需通过网络连接发送任何数据。 这样可以改善延迟时间（因为没有通过网络传输数据），提高了隐私性（因为没有数据会离开设备）和脱机功能（因为不需要互联网连接就可以在任何地方发送数据）。
+
+TFLite 的一些关键功能包括针对设备的经过优化的优化解释器（它支持在二进制大小较小的设备上优化的一组核心操作），针对多种语言（例如 Swift，C，C++，Java 和 Python 的 API），预训练的模型和教程（新手可以在低功耗设备上轻松部署机器学习模型）。 TFLite 旨在通过硬件加速以及预融合的激活和偏差进行高效和优化。
+
+TFLite 的基本开发工作流程是选择模型，转换模型，将其部署到所需的设备并优化模型。 该模型可以是任何东西，从`tf.keras`自定义训练模型到从 TF 本身获取的预训练模型。
+
+# TFLite 入门
+
+使用 TFLite 的第一步是选择要转换和使用的模型。 这包括使用预训练的模型，定制训练的模型或微调的模型。 TFLite 团队提供了一组预训练和预转换的模型，可以解决各种机器学习问题。 这些包括图像分类，对象检测，智能回复，姿势估计和分割。 使用经过微调的模型或经过定制训练的模型需要另一步骤，将它们转换为 TFLite 格式。
+
+TFLite 旨在在设备上高效地执行模型，而这种效率的某些内在原因来自用于存储模型的特殊格式。 TF 模型必须先转换为这种格式，然后才能使用...
+
+# 在移动设备上运行 TFLite
+
+在本节中，我们将介绍如何在两种主要的移动操作系统（Android 和 iOS）上运行 TFLite。
+
+# Android 上的 TFLite
+
+在 Android 上使用 TFLite 就像在 Android Studio 的`build.gradle`文件中的`dependencies`字段中添加 TFLite 并将其导入 Android Studio 一样容易：
+
+```py
+dependencies {    implementation 'org.tensorflow:tensorflow-lite:0.0.0-nightly'}import org.tensorflow.lite.Interpreter;
+```
+
+一旦完成，下一步就是创建解释器的实例并加载模型。 可以使用 GitHub 上 TFLite 示例中的`getModelPath`函数`getModelPath`和`loadModelFile`加载转换后的 TFLite 文件来实现。 现在，要运行模型，只需使用解释器类的`.run`方法并为其提供所需的输入数据，如本例所示：
+
+```py
+tflite.run(inp,out);
+```
+
+`inp`参数是输入数据，它将...
+
+# iOS 上的 TFLite
+
+在 iOS 上使用 TFLite 的过程与此类似，其中包括安装 TFLite 解释器，加载模型并运行它。 再次按照“TFLite 入门”部分中的步骤操作，以创建和转换机器学习模型以在智能手机上使用。 我们将使用以下步骤在 iOS 上实现 TFLite：
+
+1.  通过将 TFLite 添加到项目的`root`目录中的`pod`文件中来安装它：
+
+```py
+use_frameworks!
+pod 'TensorFlowLiteSwift'
+```
+
+通过运行`pod install`来安装包，这将安装`pod`文件中包括的所有包，包括新添加的`TFLite`包。 安装后，可以通过在`swift`文件顶部附近添加`import TensorFlowLite`来导入包。
+
+2.  要运行`interpreter`，首先为张量分配内存：
+
+```py
+let outputTensor: Tensor
+do {
+  try interpreter.allocateTensors()
+ let inputTensor = try interpreter.input(at: 0)
+```
+
+3.  然后，从图像缓冲区中删除`alpha`组件以获取`rgbData`变量：
+
+```py
+guard let rgbData = rgbDataFromBuffer(
+ thumbnailPixelBuffer,
+ byteCount: batchSize * inputWidth * inputHeight * inputChannels,
+ isModelQuantized: inputTensor.dataType == .uInt8
+ ) else {
+ print("Failed to convert the image buffer to RGB data.")
+ return
+ }
+```
+
+4.  接下来，将`rgbData`变量复制到`Tensor`输入模型中：
+
+```py
+try interpreter.copy(rgbData, toInputAt: 0)
+```
+
+5.  通过调用`interpreter`函数运行推理：
+
+```py
+try interpreter.invoke()
+```
+
+6.  获取`outputTensor`函数以处理推理结果：
+
+```py
+outputTensor = try interpreter.output(at: 0)
+} catch let error {
+  print("Failed to invoke the interpreter with error: \(error.localizedDescription)")
+  return
+}
+```
+
+然后可以处理结果并将其显示在应用中。
+
+# 在低功率机器上运行 TFLite
+
+TFLite 能够在低功耗和低二进制计算机上运行的能力使其在嵌入式 Linux 计算机上运行时非常强大。 TFLite 可以在许多流行的嵌入式 Linux 机器以及 Coral Dev Board 上运行。 在本节中，我们将介绍在三个设备上 TFLite 的构建，编译和运行。 涵盖的第一个设备是带有 Edge TPU 处理器的 Coral Dev Board，第二个设备是 NVIDIA Jetson Nano，最后一个是 Raspberry Pi。 NVIDIA Jetson Nano 是 NVIDIA 的小型而强大的计算机，可在图像分类，目标检测，分割和语音等应用中并行运行多个神经网络。
+
+# 在 Edge TPU 处理器上运行 TFLite
+
+Edge TPU 是一种小型处理器，能够执行深度前馈网络，例如卷积神经网络。 但是，它仅支持量化的 TFLite 模型。 **量化**是一种优化技术，可将所有 32 位浮点数转换为最接近的 8 位定点数。 这使模型更小，更快，尽管精度和准确率有所降低。
+
+TF 支持两种类型的量化。 第一种量化方式是**训练后量化**。 通过将模型优化属性设置为带有`tf.lite.Optimize.OPTIMIZE_FOR_SIZE`的列表，可以在将 TF 模型转换为 TFLite 模型时完成此操作。 这导致权重被转换为 8 位精度，从而将延迟增加了多达 3 倍。 网络中其他更多计算密集型操作将转换为具有定点操作但具有浮点内存的混合操作。
+
+另一种量化类型是**量化感知训练**，它使用伪造的量化节点来模拟前向和后向模型中量化的效果； 该量化是直接估计。 这是 Edge TPU 支持的唯一量化，并允许在其上运行 TFLite 模型。
+
+Edge TPU 有两种可用方式：
+
+*   Coral 开发板，其中包含 TPU 以及预安装的所有必需软件和 API
+*   Edge TPU USB 扩展器，可在所需计算机上添加另一个处理器
+
+USB 加速器与任何具有运行 Debian 的 USB 端口的 Linux 计算机兼容。 要设置 USB 加速器，请从[这里](https://dl.google.com/coral/edgetpu_api/edgetpu_api_latest.tar.gz)下载`.tar`文件，然后解压缩并运行`install.sh`。
+
+这里要注意的一点是，在安装过程中，安装程序将要求启用最大工作频率，这将大大加快推理时间，但也会使 TPU 摸起来很烫。
+
+下图显示了将 TF 模型转换为 Edge TPU 模型并在其上运行的过程：
+
+![](img/ee7dff88-2f0b-4a1a-86b9-966f0c8ce1d7.png)
+
+但是，Edge TPU 有两个约束。 如前所述，必须使用量化感知训练对`Tensor`参数进行量化。 张量大小必须恒定（这样就不能有动态大小）； 模型参数必须恒定； 张量必须是一维，二维或三维张量，或者是三个最里面的大小大于 3 维的张量，并且只能包含 Edge TPU 支持的那些操作。 如果不满足这些要求，那么将仅编译某些模型。 模型图中发生不支持的操作的第一点是编译器将图分为两部分：一部分包含 Edge TPU 可以计算的所有操作，另一部分包含它不能计算的操作，这些部分将运行在 CPU 上：
+
+![](img/aedc0f8e-e06f-4917-ad0a-41abe07ad00b.png)
+
+一旦 TFLite 模型已编译并准备好运行，就可以使用 Edge TPU 运行时和 API 库执行该模型。 Edge TPU API 具有三个用于推理的关键 API：
+
+*   `ClassificationEngine` API，执行图像分类。 要使用它，请通过指定模型来创建实例，然后将图像传递到该实例的`ClassifyWithImage()`方法，该方法返回标签和分数列表。
+*   `DetectionEngine` API，用于执行对象检测。 与先前的 API 一样，通过指定模型文件来创建实例，然后运行`DetectWithImage()`方法，该方法返回检测候选对象的列表，每个候选对象包含一个标签，一个得分和该对象的坐标。
+*   最终的关键 API 是允许压印的 API：一种迁移学习算法，可以进行模型重新训练而无需反向传播，并且可以在 Edge TPU 上运行。 要运行此 API，必须遵循三个步骤：
+    1.  首先，确定嵌入张量，它是最后一个分类层的输入张量。
+    2.  然后，切断最后一个分类层。
+    3.  最后，完成嵌入提取器。
+
+Edge TPU 的性能远远优于许多最强大的 CPU。 当在带或不带 USB 加速器的 IntelXeon®3.60 GHz 处理器上测试模型时，单个 Edge TPU 能够以每秒 2 瓦的功率每秒执行 4 万亿次操作； 嵌入式 1.5 GHz CPU； 和珊瑚开发委员会。 在运行 DeepLab 网络时，英特尔至强花费了 301 毫秒，带加速器的英特尔至强花费了 35 毫秒，嵌入式 CPU 花费了 1,210 毫秒，而珊瑚开发板花费了 156 毫秒。 显然，Edge TPU 对模型的延迟具有重大影响。
+
+# 在 NVIDIA Jetson Nano 上运行 TF
+
+NVIDIA Jetson Nano 是另一种嵌入式设备，可为机器学习应用提供强大的计算能力。 Jetson Nano 的前提与 Edge TPU 不同，因为 Jetson Nano 是一款小型而功能强大的 GPU 计算机。 Jetson Nano 可以像配置用于深度学习的任何机器一样使用，并且可以轻松安装 GPU 版本的 TF。 也不需要安装 CUDA 和 cuDNN，因为它已预先安装在系统上。
+
+# 比较 TFLite 和 TF
+
+如前所述，TFLite 模型与普通 TF 模型有很大不同。 TFLite 模型更快，更小且计算量更少。 这种区别来自 TFLite 模型的特殊存储和解释方式。
+
+速度的首次提高来自模型存储的基本格式。`.tflite`模型文件以`FlatBuffer`格式存储，其中包含模型的简化形式和二进制形式。 `FlatBuffer`是适用于多种流行语言的高效跨平台序列化库，由 Google 创建，用于游戏开发和其他对性能至关重要的应用。 `FlatBuffer`格式在有效序列化模型数据并提供对这些数据的快速访问，同时保持较小的二进制大小方面起着至关重要的作用。 由于大量的数字数据，这对于模型存储很有用，这通常会在读取操作中产生很多延迟。 通过使用`FlatBuffers`，TFLite 可以绕过许多传统的文件解析和非解析操作，这在计算上非常昂贵。
+
+TFLite 模型优化也一直延伸到设备上的硬件。 这是因为，由于电话处理器和嵌入式 CPU 的限制，必须以超高效标准使用所有处理器。 在 Android 上运行 TFLite 时，可访问 Android 神经​​网络 API，该接口可访问 Android 中的硬件加速推理操作，并且已接口，以利用有利的硬件加速来使用所使用的设备。 TFLite 还可以在电话和其他设备中使用内置的 GPU，从而使具有过多可并行化操作和量化敏感精度的模型的速度提高了近 7 倍。
+
+如前所述，量化是另一种非常有影响力的优化技术。 量化被视为 TF 中的一种压缩技术。 神经网络中的权重和激活趋向于具有分布在相对较小范围内的三个值，因此可以有效地使用量化来压缩这些值。 由于神经网络往往对权重噪声具有鲁棒性，因此量化和舍入加到参数上的噪声对模型的整体准确率影响很小。 量化模型的好处在于，它可以有效地表示任意范围的范围，它们的线性扩展使乘法简单明了，而量化权重具有对称范围，可以实现下游硬件优化，而 32 位浮点数则无法实现。
+
+如下图所示，将模型从 TF 转换为量化的 TFLite 模型会大大减少模型的推理时间和延迟：
+
+![](img/6b0e98ac-64e7-4b03-ad69-abbde7fee70d.png)
+
+# AIY
+
+Google 为语音和视觉应用发布了自己的制造商套件，称为 AIY。 这些套件随附了所有必需的零件和组件，以及在线易于理解的教程。 AIY 当前提供两种套件-语音套件和视觉套件。
+
+# 语音套件
+
+语音工具包提供了构建自然语言处理器并将其连接到 Google Assistant 或 Cloud Speech-to-Text 服务的功能。 该套件随附 Raspberry Pi Zero，以及定制设计的语音引擎盖和用于音频功能的扬声器。 该套件还随附可插入 Pi 的 SD 卡，以及用于许多最常见应用的大量演示，示例和摘要。 它还带有一个在设备上运行 Google Assistant 并将其转变为智能家居设备的应用。
+
+要开始使用语音工具包，请按照[这个页面](https://aiyprojects.withgoogle.com/voice/#assembly-guide)上的说明构建设备。 该设备设计合理，易于组装和设置。 要设置设备，可以使用计算机或手机。 该套件的设置非常简单，可以通过**安全外壳**（**SSH**）或 HDMI 连接来完成。 完成后，可以运行许多演示来进一步了解和探索该工具包，例如前面提到的 Google Assistant 应用。
+
+语音工具包可以完成的一些事情包括创建自定义语音用户界面和使用助手控制 IoT 设备。
+
+可以使用套件中`demo`文件夹中包含的 Google Cloud 语音转文本 API 和 AIY API 在语音工具包上创建自定义语音用户界面。 该 API 增加了使用 Cloud Speech API，语音转文本以及控制 Vision Bonnet 上的 GPIO 引脚的功能。
+
+要使用语音工具包和助手来控制 IoT 设备，您可以使用几种强大的技术。 都使用了用于物联网项目的 Wi-Fi 开发套件 Particle Photon 和用于创建对话界面的`DialogFlow`。 语音套件中包含的演示提供了打开和关闭连接到 Photon 的 LED 的代码。
+
+# 视觉套件
+
+视觉套件提供了构建智能相机的功能，该相机可以使用机器学习来查看和识别对象，甚至可以在其上运行自定义 TF 模型。 与语音工具包一样，该工具包还附带 Raspberry Pi Zero，定制设计的 Vision Bonnet，压电蜂鸣器和 Raspberry Pi Camera V2。 该套件随附一个预先存储有 AIY 系统图像的 SD 卡，其中包括针对多种计算机视觉应用的演示，例如图像分类，物体检测，人脸检测，食物分类和自动拍照。
+
+和以前一样，可以按照[这里](https://aiyprojects.withgoogle.com/vision/#assembly-guide)。 该设备有一个简单的...
+
+# 总结
+
+TFLite 是 TF2.0 的一项功能，它采用 TF 模型并对其进行压缩和优化，以在嵌入式 Linux 设备或低功耗和低二进制设备上运行。 可以通过三种方式将 TF 模型转换为 TFLite 模型：从已保存的模型，`tf.keras`模型或具体函数。 转换模型后，将创建一个`.tflite`文件，然后可以将其传输到所需的设备并使用 TFLite 解释器运行。 该模型经过优化以使用硬件加速，并以`FlatBuffer`格式存储，以提高读取速度。 可以将其他优化技术应用于该模型，例如量化，以最小的精度权衡将 32 位浮点数转换为 8 位定点数。 可以在 TFLite 上运行的某些设备是 Edge TPU，NVIDIA Jetson Nano 和 Raspberry Pi。 Google 还提供了两个工具包，可为用户提供创建与视觉和语音相关的机器学习应用所需的硬件。
+
+在下一章中，我们将学习如何从 TF1.x 迁移到 TF2.0。
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/7.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/7.md
new file mode 100644
index 00000000..d4d3366f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/7.md
@@ -0,0 +1,392 @@
+# 七、从 TensorFlow 1.x 迁移到 2.0
+
+本章将介绍如何将 **TensorFlow 1.x**（**TF 1.x**）代码转换为 **TensorFlow 2.0**（**TF 2.0**） 代码有两种方式。 第一种方法是使用更新脚本，该脚本会更改大多数 TF 1.x 代码，以便可以在 TF 2.0 中运行。 但是，这仅将所有`tf.x` API 调用转换为`tf.compat.v1.x`格式。 另一种方法是，考虑到对库所做的核心更改，将 TF 1.x 代码转换为惯用的 TF2.0 代码。 我们将讨论 TF 1.x 和 TF 2.0 之间的概念差异，它们之间的兼容性标准以及我们在语法和语义上进行迁移的方式。 我们还将展示从 TF 1.x 到 TF 2.0 的语法和语义迁移的几个示例，我们将通过它们提供参考和将来的信息。
+
+本章将涵盖以下主题：
+
+*   TF 2.0 的主要变化
+*   适用于 TF 2.0 的推荐技术
+*   使代码 TF 2.0 原生
+*   常见问题
+*   TF 2.0 的未来
+
+# TF 2.0 的主要变化
+
+从 TF 1.x 迁移到 TF 2.0 时，您将遇到的主要变化涉及 API 清理。
+
+TF 2.0 中的许多 API 都已被删除或移动。 主要更改包括删除`tf.app`，`tf.flags`和`tf.logging`，以支持其他 Python 模块，例如`absl-py`和内置的日志记录系统。
+
+TF 2.0 在代码方面所做的最大更改之一就是急切执行。 TF 1.x 要求用户使用`tf.*`调用来手工拼接抽象语法树，以构建计算图，该图将与`session.run()`一起运行。 这意味着 TF 2.0 代码逐行运行，因此不再需要`tf.control_dependancies()`。
+
+TF 1.x 中的`session.run()`调用与...非常相似。
+
+# 适用于 TF 2.0 的推荐技术
+
+第一条建议涉及在 TF 2.0 中处理常规代码工作流。 TF 1.x 中常见的工作流程是使用瀑布策略，其中所有计算都布置在默认图上。 然后，使用`session.run()`运行选定的张量。 在 TF 2.0 中，应将代码重构为较小的函数，这些函数将在需要时调用。 这些函数可以是普通的 Python 函数，但如果在另一个以`tf.function`注解的函数中调用它们，则仍可以在图模式下运行。 这意味着`tf.function`仅应用于注解高级计算，例如模型的前向传递或单个训练步骤。
+
+以前，模型和训练循环所需的所有计算都将预先确定并编写，并使用`session.run()`执行。 这使得 TF 1.x 代码对于大多数编码人员来说很难遵循，因为模型的流程可能与图的编码方式完全不同，因为该图是在最后运行的。 急切执行和`tf.function`专门用于简化 TensorFlow 代码动态过程，并使其他开发人员更容易理解预编写的代码。
+
+管理和跟踪变量是 TF 1.x 中另一个复杂的过程。 使用了许多方法来控制和访问这些变量，这为线性代码增加了更多的维度。 TF 2.0 更加强调使用`tf.keras`层和`tf.estimator`模型来管理模型中的变量。
+
+这与手动滚动神经网络层和手动创建变量形成对比。 在以下示例中，必须跟踪权重和偏差变量，其形状的定义应远离模型的创建。 这使得难以更改模型并使模型适应不同的架构和数据集：
+
+```py
+def dense(x, W, b):
+ return tf.nn.sigmoid(tf.matmul(x, W) + b)
+
+@tf.function
+def multilayer_perceptron(x, w0, b0, w1, b1, w2, b2 ...):
+  x = dense(x, w0, b0)
+  x = dense(x, w1, b1)
+  x = dense(x, w2, b2)
+  ...
+```
+
+此代码的`tf.keras`实现非常简单明了，并确保开发人员不必担心变量和变量名的组织和管理。 它还可以轻松访问模型中的可训练变量：
+
+```py
+layers = [tf.keras.layers.Dense(hidden_size, activation=tf.nn.sigmoid) for _ in range(n)]
+perceptron = tf.keras.Sequential(layers)
+
+# layers[3].trainable_variables => returns [w3, b3]
+# perceptron.trainable_variables => returns [w0, b0, ...]
+```
+
+`tf.keras`模型还继承了`tf.train.Checkpointable`模型的方法，并与`tf.function`集成在一起，因此可以将它们直接保存到检查点并导出到`SavedModels`。
+
+以下是迁移学习实现的示例，并显示`tf.keras`如何使收集相关值的子集，计算其梯度以及基于梯度对其进行调整变得容易：
+
+```py
+trunk = tf.keras.Sequential([...])
+head1 = tf.keras.Sequential([...])
+head2 = tf.keras.Sequential([...])
+
+path1 = tf.keras.Sequential([trunk, head1])
+path2 = tf.keras.Sequential([trunk, head2])
+
+# Train on primary dataset
+for x, y in main_dataset:
+  with tf.GradientTape() as tape:
+    prediction = path1(x)
+    loss = loss_fn_head1(prediction, y)
+  # Simultaneously optimize trunk and head1 weights.
+  gradients = tape.gradient(loss, path1.trainable_variables)
+  optimizer.apply_gradients(zip(gradients, path1.trainable_variables))
+
+# Fine-tune second head, reusing the trunk
+for x, y in small_dataset:
+  with tf.GradientTape() as tape:
+    prediction = path2(x)
+    loss = loss_fn_head2(prediction, y)
+  # Only optimize head2 weights, not trunk weights
+  gradients = tape.gradient(loss, head2.trainable_variables)
+  optimizer.apply_gradients(zip(gradients, head2.trainable_variables))
+
+# You can publish just the trunk computation for other people to reuse.
+tf.saved_model.save(trunk, output_path)
+```
+
+所有尚未存储在内存中的数据集都应使用`tf.dataset`进行存储和流传输。 数据集在 TF 2.0 中是可迭代的，因此在急切的执行模式下，它们可以像任何其他 Python 可迭代的一样使用，例如列表和元组。 您还可以通过使用`tf.function`包装数据集迭代来利用数据集异步预取和流传输功能，该迭代将 Python 交互转换为与 AutoGraph 等效的图操作。 正如我们在本书前面所提到的，AutoGraph 采用默认的 Python 流并将其转换为基于图的代码。 例如，诸如`if...else`块之类的控制流将转换为`tf.condition`语句。 以下代码块向您展示了如何使用`for`块训练模型：
+
+```py
+@tf.function
+def train(model, dataset, optimizer):
+  for x, y in dataset:
+    with tf.GradientTape() as tape:
+      prediction = model(x)
+      loss = loss_fn(prediction, y)
+    gradients = tape.gradient(loss, model.trainable_variables)
+    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
+```
+
+但是，如果您正在使用 Keras 的`model.fit`，则不必担心。 要使用`model.fit`在数据集上训练模型，只需将数据集传递给方法。 它将处理其他所有事项：
+
+```py
+model.compile(optimizer=optimizer, loss=loss_fn)
+model.fit(dataset)
+```
+
+# 使代码 TF 2.0 原生
+
+使 TF 1.x 代码与 TF 2.0 代码兼容的最简单方法是运行系统上安装的更新脚本以及 TF 2.0 安装。 更新脚本使用`tf.compat.v1`模块。
+
+为了向 TF 1.x 编写的代码提供向后兼容性，在 TF 2.0 中引入了`tf.compat.v1`模块。 `tf.compat.v1`模块替换了所有 TF 1.x 符号，例如`tf.foo`和`tf.compat.v1.foo`。 此模块允许转换为 TF 1.x 编写的大多数代码，以便可以在 TF 2.0 中运行。
+
+作为简化此过程的一种方式，TensorFlow 提供了`tf_upgrade_v2`工具，该工具有助于尽可能简化转换。 该工具已预装...
+
+# 转换 TF 1.x 模型
+
+第一步是将所有`tf.Session.run()`调用替换为 Python 函数。 这意味着将`tf.placeholder`和`feed_dict`转换为函数参数。 这些成为函数的返回值。 此更改意味着与 TF 1.x 不同，可以使用标准的 Python 工具（例如`pdb`）来逐步调试该功能。 构建函数后，可以添加`tf.function`注解以在图模式下运行该函数，以及 TF 1.x 中等效的`tf.Session.run`调用的效率。
+
+使用`tf.layers` API 创建的 TF 1.x 模型可以相对容易地转换为 TF 2.0。 `tf.layers`模块用于包含依赖于`tf.variable_scope`定义和重用变量的层函数。
+
+以下代码块是使用`tf.layers` API 编写的 TF 1.x 中小型卷积神经网络的实现：
+
+```py
+def model(x, training, scope='model'):
+  with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):
+    x = tf.layers.conv2d(x, 32, 3, activation=tf.nn.relu,
+          kernel_regularizer=tf.contrib.layers.l2_regularizer(0.04))
+    x = tf.layers.max_pooling2d(x, (2, 2), 1)
+    x = tf.layers.flatten(x)
+    x = tf.layers.dropout(x, 0.1, training=training)
+    x = tf.layers.dense(x, 64, activation=tf.nn.relu)
+    x = tf.layers.batch_normalization(x, training=training)
+    x = tf.layers.dense(x, 10, activation=tf.nn.softmax)
+    return x
+
+train_out = model(train_data, training=True)
+test_out = model(test_data, training=False)
+```
+
+将模型转换为 TF 2.0 的最简单方法是使用`tf.keras.Sequential`，因为该模型由线性层组成。 从`tf.layers`到`tf.keras.layers`有一对一的转换，但有一些区别。 在 TF 2.0 代码中，训练参数不再传递给每个层，因为模型会自动处理该参数。
+
+这是 TF 2.0 中的代码：
+
+```py
+model = tf.keras.Sequential([
+    tf.keras.layers.Conv2D(32, 3, activation='relu',
+                           kernel_regularizer=tf.keras.regularizers.l2(0.04),
+                           input_shape=(28, 28, 1)),
+    tf.keras.layers.MaxPooling2D(),
+    tf.keras.layers.Flatten(),
+    tf.keras.layers.Dropout(0.1),
+    tf.keras.layers.Dense(64, activation='relu'),
+    tf.keras.layers.BatchNormalization(),
+    tf.keras.layers.Dense(10, activation='softmax')
+])
+
+train_data = tf.ones(shape=(1, 28, 28, 1))
+test_data = tf.ones(shape=(1, 28, 28, 1))
+
+train_out = model(train_data)
+
+test_out = model(test_data, training=False)
+```
+
+如我们所见，`tf.variable_scope`没有用于组织为模型创建的变量。 在 TF 1.x 中，该范围将用于从模型中恢复变量。 在 TF 2.0 中，可以使用`model.trainable_variables`列出模型变量。
+
+尽管从`tf.layers`到`tf.keras.layers`的转换相对简单，但是由于代码流的差异，转换变得更加复杂。
+
+TF 1.x 中的低级 API 的一些示例包括使用变量作用域来控制重用，使用`tf.get_variable`创建变量，使用`tf.placeholder`和`session.run`定期访问集合以及手动初始化变量。 由于引入了系统范围内的急切执行，这些技术和策略中的许多现在已过时，因此以低级 API 编写的代码比以高级 API 编写的代码（例如`tf.keras`和`tf.layers`）需要更大的更改。 。
+
+以下是使用 TF 1.x 的低级 API 编写的一些代码的示例：
+
+```py
+in_a = tf.placeholder(dtype=tf.float32, shape=(2))
+in_b = tf.placeholder(dtype=tf.float32, shape=(2))
+
+def forward(x):
+  with tf.variable_scope("matmul", reuse=tf.AUTO_REUSE):
+    W = tf.get_variable("W", initializer=tf.ones(shape=(2,2)),
+                       regularizer=tf.contrib.layers.l2_regularizer(0.04))
+    b = tf.get_variable("b", initializer=tf.zeros(shape=(2)))
+    return W * x + b
+
+out_a = forward(in_a)
+out_b = forward(in_b)
+
+reg_loss = tf.losses.get_regularization_loss(scope="matmul")
+
+with tf.Session() as sess:
+  sess.run(tf.global_variables_initializer())
+  outs = sess.run([out_a, out_b, reg_loss],
+                feed_dict={in_a: [1, 0], in_b: [0, 1]})
+```
+
+可以通过将前向函数更改为用`tf.function`注解的函数进行基于图的计算，删除`session.run`函数和变量范围并添加简单的函数调用来转换此代码。 将不会在`W`变量上全局调用正则化； 相反，它将被手动调用，而无需引用全局集合：
+
+```py
+W = tf.Variable(tf.ones(shape=(2,2)), name="W")
+b = tf.Variable(tf.zeros(shape=(2)), name="b")
+
+@tf.function
+def forward(x):
+  return W * x + b
+
+out_a = forward([1,0])
+out_b = forward([0,1])
+
+regularizer = tf.keras.regularizers.l2(0.04)
+reg_loss = regularizer(W)
+```
+
+正如我们所看到的，TF 2.0 代码比以前的 TF 1.x 代码更加 Python 化和简洁。
+
+使用`tf.placeholder`的好处之一是可以控制图输入的形状，如果输入与预定形状不匹配，则会返回错误。 在 TF 2.0 中，仍然可以通过使用 Python 内置的`assert`命令来完成此操作。 这可以用来断言该函数的输入自变量的形状与输入自变量所期望的形状匹配。
+
+现有的 TF 1.x 代码通常同时包含较低级别的 TF 1.x 变量和具有较高级别`tf.layers`的操作。 这意味着上述示例都不足以转换 TF 1.x 代码，并且需要`tf.keras`编程的更复杂形式，称为模型或层子类。
+
+以下是在 TF 1.x 中使用`tf.get_variable`和`tf.layers`编写的原始代码：
+
+```py
+def model(x, training, scope='model'):
+  with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):
+    W = tf.get_variable(
+      "W", dtype=tf.float32,
+      initializer=tf.ones(shape=x.shape),
+      regularizer=tf.contrib.layers.l2_regularizer(0.04),
+      trainable=True)
+    if training:
+      x = x + W
+    else:
+      x = x + W * 0.5
+    x = tf.layers.conv2d(x, 32, 3, activation=tf.nn.relu)
+    x = tf.layers.max_pooling2d(x, (2, 2), 1)
+    x = tf.layers.flatten(x)
+    return x
+
+train_out = model(train_data, training=True)
+test_out = model(test_data, training=False)
+```
+
+通过将所有低层操作和变量包装在自定义创建的 Keras 层中，可以转换此代码。 这可以通过创建一个从`tf.keras.layers.Layer`类继承的类来完成：
+
+```py
+# Create a custom layer for part of the model
+class CustomLayer(tf.keras.layers.Layer):
+  def __init__(self, *args, **kwargs):
+    super(CustomLayer, self).__init__(*args, **kwargs)
+
+  def build(self, input_shape):
+    self.w = self.add_weight(
+        shape=input_shape[1:],
+        dtype=tf.float32,
+        initializer=tf.keras.initializers.ones(),
+        regularizer=tf.keras.regularizers.l2(0.02),
+        trainable=True)
+
+  # Call method will sometimes get used in graph mode,
+  # training will get turned into a tensor
+  @tf.function
+  def call(self, inputs, training=None):
+    if training:
+      return inputs + self.w
+    else:
+      return inputs + self.w * 0.5
+```
+
+前面的代码创建了一个名为`CustomLayer`的类，该类继承了`tf.keras.layers.Layer`类的属性。 此技术允许在`tf.keras`模型内部使用任何类型的低级代码，而不管它是使用`Sequential` API 还是`functional` API 的模型。 此类中有两种方法：
+
+*   `build()`：此方法修改继承的类的默认生成方法。 在这种方法中，应该创建模型所需的所有变量。 尽管可以在模型的`the __init__()`方法中完成此操作，但建议使用`build()`，以便在正确的最佳时间构建变量。 可以使用`self.add_weight`函数完成此操作，以使 Keras 跟踪变量和正则化损失。
+*   `call()`：在输入张量上调用模型时，将运行此方法。 此方法通常采用两个参数：`inputs`和`training`。 尽管`inputs`参数是不言自明的，但`training`参数可能不会一直使用，但是对于在该层中使用批量规范化和丢弃的情况而言是必不可少的。 该功能由`tf.function`装饰器注解，以实现签名，基于图的优点以及自动控件的依赖关系。
+
+写入此自定义层后，即可在`tf.keras`模块中的任何位置使用它。 对于此转换，将使用`Sequential` API：
+
+```py
+train_data = tf.ones(shape=(1, 28, 28, 1))
+test_data = tf.ones(shape=(1, 28, 28, 1))
+
+# Build the model including the custom layer
+model = tf.keras.Sequential([
+    CustomLayer(input_shape=(28, 28, 1)),
+    tf.keras.layers.Conv2D(32, 3, activation='relu'),
+    tf.keras.layers.MaxPooling2D(),
+    tf.keras.layers.Flatten(),
+])
+
+train_out = model(train_data, training=True)
+test_out = model(test_data, training=False)
+```
+
+# 升级训练循环
+
+将 TF 1.x 代码转换为惯用的 TF 2.0 代码的第二步是升级训练管道。 TF 1.x 训练管道涉及对优化器，损失和预测的多个`tf.Session.run()`调用。 这样的训练循环还涉及样板代码，该样板代码被编写为将训练结果记录到控制台以方便监督。
+
+在 TF 2.0 中，可以使用三种类型的训练循环。 这些循环中的每一个都有不同的优点和缺点，并且难度，API 级别和复杂性各不相同。 它们如下：
+
+*   第一种训练循环是`tf.keras.Model.fit()`。 这是一个内置的训练循环，可处理训练的所有方面，并为各种 Keras 提供统一的接口...
+
+# 转换时要注意的其他事项
+
+从 TF 1.x 迁移到 TF 2.0 时，还需要进行其他几个主要转换。 比起我们先前描述的对话，要困难得多的对话是将以 TF-Slim 编写的代码转换为 TF 2.0。
+
+由于 TF-Slim 打包在`tf.contrib.layers`库下，因此即使在兼容性模块中，它也无法在 TF 2.0 中使用。 这意味着要将 TF-Slim 代码转换为 TF 2.0 格式，通常需要更改整个代码动态。
+
+这包括从代码中删除参数范围，因为所有参数在 TF 2.0 中都应明确。 `normalizer_fn`和`activation_fn`函数应分为各自的层。 请注意，TF-Slim 层的参数名称和默认值与`tf.keras`层不同。
+
+将 TF-Slim 模型转换为 TF 2.0 的最简单方法是将其转换为 TF 1.x 中的`tf.layers` API，然后将其转换为`tf.keras.layers`。
+
+另一个需要注意的转换细节是，在 TF 2.0 中，所有指标都是具有三种主要方法的对象：`update_state()`（添加新的观察值），`result()`（获取指标的当前结果）和`reset_states()`（ 清除所有观察结果。
+
+度量对象也是可调用的，并且在新观察值上调用时，它们会累加值并返回最新结果。
+
+以下示例向我们展示了如何在自定义训练循环中使用指标：
+
+1.  创建度量标准对象，该度量标准对象在每次调用时都会累积度量标准数据：
+
+```py
+loss_metric = tf.keras.metrics.Mean(name='train_loss')
+accuracy_metric = tf.keras.metrics.SparseCategoricalAccuracy(name='train_accuracy')
+
+@tf.function
+def train_step(inputs, labels):
+  with tf.GradientTape() as tape:
+    predictions = model(inputs, training=True)
+    regularization_loss = tf.math.add_n(model.losses)
+    pred_loss = loss_fn(labels, predictions)
+    total_loss = pred_loss + regularization_loss
+
+  gradients = tape.gradient(total_loss, model.trainable_variables)
+  optimizer.apply_gradients(zip(gradients, model.trainable_variables))
+```
+
+2.  更新指标：
+
+```py
+loss_metric.update_state(total_loss)
+  accuracy_metric.update_state(labels, predictions)
+
+for epoch in range(NUM_EPOCHS):
+```
+
+3.  重置指标：
+
+```py
+loss_metric.reset_states()
+  accuracy_metric.reset_states()
+
+  for inputs, labels in train_data:
+    train_step(inputs, labels)
+```
+
+4.  获取度量结果：
+
+```py
+mean_loss = loss_metric.result()
+mean_accuracy = accuracy_metric.result()
+
+print('Epoch: ', epoch)
+print(' loss: {:.3f}'.format(mean_loss))
+print(' accuracy: {:.3f}'.format(mean_accuracy))
+```
+
+# 常见问题
+
+在本节中，将解决有关从 TF 1.x 迁移到 TF 2.0 的一些常见问题。
+
+**用 TF 2.0 编写的代码的速度是否与基于图的 TF 1.x 代码相同？**
+
+是的，使用`tf.function`或`tf.keras`在 TF 2.0 中编写的代码将具有与 TF 1.x 相同的速度和最优性。 正如我们在本章前面提到的那样，使用`tf.function`注解主要功能允许模型以图模式运行，并且该功能中的所有计算和逻辑都将编译为一个计算图。 使用`tf.keras`定义和训练 TensorFlow 模型也是如此。 使用`model.fit`方法还将在图模式下训练模型，并具有所有优点和优化功能，这些优点和优点包括：
+
+# TF 2.0 的未来
+
+TF 2.0 目前处于 beta 版本，因此仍在开发中。 即将出现的一些关键功能包括对包的修改，例如 TensorBoard，TensorFlow Lite，TensorFlow.js，用于 TensorFlow 的 Swift 和 TensorFlow Extended，以及对基本 API 的微小更改。 TensorBoard 将看到增强功能，例如改进的超参数调优功能，引入托管功能以使共享仪表板变得容易，并使插件能够使用不同的前端技术，例如 ReactJS。 TensorFlow Lite 将扩大支持的操作范围，将 TF 2.0 模型更轻松地转换为 TFLite，并扩展对 Edge TPU 和 AIY 板的支持。 TensorFlow.js 和用于 TensorFlow 的 Swift 都将看到速度和性能方面的改进，并且很快将包含一组丰富的示例和带有端到端教程的入门指南。 TF Extended 即将与 TF 2.0 基本 API 完全集成，并将包括完全协调的端到端工作流程和训练函数。
+
+TF 2.0 基本 API 将包括针对任务的更多预制估计器，例如增强树，随机森林，最近邻搜索和 k 均值聚类。 `tf.distribute.Strategy`模型将扩展其对 Keras 子模型，TPU 和多节点训练的支持，以在多个处理器上实现更优化和更快的训练。
+
+当前正在开发的另一个主要附加功能是`tf-agents`模块。 该模块将核心强化学习算法实现为**智能体**，该算法定义了与环境进行交互的策略并从集体经验中训练了该策略。 `TF-agents`与 OpenAI Gym 框架一起实现，并抽象了许多用于开发的关键强化学习算法。 该模块当前处于预发布状态，但将于今年晚些时候发布。
+
+# 可看的更多资源
+
+可以在 TensorFlow Beta 网站上找到教程和许多其他资源，其中包含有关创建和训练机器学习模型的关键因素的信息。 该页面还为该领域的许多重要技术提供了[许多有用的端到端教程](https://www.tensorflow.org/beta)。
+
+可以在网站上找到 TF 2.0 的官方文档，以及该模块中每个 API 的详细文档。 该站点还具有[指向其他 TensorFlow 模块和功能的链接](https://www.tensorflow.org/versions/r2.0/api_docs/python/tf)。
+
+TensorFlow Medium 博客还提供有关 TensorFlow 库和服务状态的许多更新，并且源源不断的有用新闻和...
+
+# 总结
+
+本章介绍了两种将 TF 1.x 代码转换为 TF 2.0 代码的方法。 第一种方法是使用随附的升级脚本，该脚本会将所有 API 调用从`tf.x`更改为`tf.compat.v1.x`。 这允许 TF 1.x 代码在 TF 2.0 中运行，但不会从 TF 2.0 中带来的升级中受益。 第二种方法是将 TF 1.x 更改为惯用的 TF 2.0 代码，这涉及两个步骤。 第一步是将所有模型创建代码更改为 TF 2.0 代码，这涉及使用对函数的`sess.run`调用，以及将占位符和字典馈入函数的参数来更改张量。 使用`tf.layers` API 创建的模型与`tf.keras.layers`具有一对一的比较。 第二步是通过使用`tf.keras.Model.fit`或带有`tf.GradientTape`的自定义训练循环来升级训练管道。
+
+TF 2.0 改变了 TensorFlow 代码的编写和组织方式。 TF 2.0 中的一些主要更改是对主模块中 API 的重组和清理。 这包括删除`tf.contrib`模块。 其他更改包括增加了代码范围内的急切执行，以简化调试和使用范围。 由于急切执行，因此在 TF 2.0 中创建的变量的行为类似于普通的 Python 变量。 这意味着用于处理全局变量的 TF 1.x API 已过时，因此已在 TF 2.0 中删除。 这使我们到书的结尾！
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/README.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/README.md
new file mode 100644
index 00000000..ef5b50ea
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/README.md
@@ -0,0 +1,35 @@
+# TensorFlow 2.0 的新增功能
+
+> 原文：[What's New in TensorFlow 2.0](https://b-ok.global/book/5266002/7f6ec6)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+> 
+> 不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c
+
+* [在线阅读](https://dl.apachecn.org)
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   在我们的 [apachecn/apachecn-tf-zh](https://github.com/apachecn/apachecn-tf-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/SUMMARY.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/SUMMARY.md
new file mode 100644
index 00000000..5d075355
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/SUMMARY.md
@@ -0,0 +1,13 @@
++   [TensorFlow 2.0 的新增功能](README.md)
++   [零、前言](0.md)
++   [第 1 部分：TensorFlow 2.0 - 架构和 API 更改](pt1.md)
+    +   [一、TensorFlow 2.0 入门](1.md)
+    +   [二、Keras 默认集成和急切执行](2.md)
++   [第 2 部分：TensorFlow 2.0 - 数据和模型训练管道](pt2.md)
+    +   [三、设计和构建输入数据管道](3.md)
+    +   [四、TensorBoard 的模型训练和使用](4.md)
++   [第 3 部分：TensorFlow 2.0 - 模型推断和部署以及 AIY](pt3.md)
+    +   [五、模型推理管道 - 多平台部署](5.md)
+    +   [六、AIY 项目和 TensorFlow Lite](6.md)
++   [第 4 部分：TensorFlow 2.0 - 迁移，总结](pt4.md)
+    +   [七、从 TensorFlow 1.x 迁移到 2.0](7.md)
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/0f8cf756-0d23-4b2a-880c-5f56ce4479f7.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/0f8cf756-0d23-4b2a-880c-5f56ce4479f7.png
new file mode 100644
index 00000000..b29536e2
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/0f8cf756-0d23-4b2a-880c-5f56ce4479f7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/16a140db-6687-4c91-a063-0e3495ecfcf3.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/16a140db-6687-4c91-a063-0e3495ecfcf3.png
new file mode 100644
index 00000000..e59c1b87
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/16a140db-6687-4c91-a063-0e3495ecfcf3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/1afeb47b-4688-432f-8b53-be33a927f643.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/1afeb47b-4688-432f-8b53-be33a927f643.png
new file mode 100644
index 00000000..f3c5e544
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/1afeb47b-4688-432f-8b53-be33a927f643.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/1d4db1c0-1efa-470b-9e38-7b3c11432dac.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/1d4db1c0-1efa-470b-9e38-7b3c11432dac.png
new file mode 100644
index 00000000..4ad40fd5
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/1d4db1c0-1efa-470b-9e38-7b3c11432dac.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2630d32b-20bb-4643-8b10-d30504f6f72d.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2630d32b-20bb-4643-8b10-d30504f6f72d.png
new file mode 100644
index 00000000..40b8b76c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2630d32b-20bb-4643-8b10-d30504f6f72d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2b600952-f4a1-46eb-8466-fab7d2eaacba.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2b600952-f4a1-46eb-8466-fab7d2eaacba.png
new file mode 100644
index 00000000..b04dad07
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2b600952-f4a1-46eb-8466-fab7d2eaacba.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2e09fd48-ab43-4546-8eab-1df5c1dae380.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2e09fd48-ab43-4546-8eab-1df5c1dae380.png
new file mode 100644
index 00000000..b691bc09
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/2e09fd48-ab43-4546-8eab-1df5c1dae380.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/360da61e-9b3a-4d8a-b54a-74a79d9bec0a.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/360da61e-9b3a-4d8a-b54a-74a79d9bec0a.png
new file mode 100644
index 00000000..da648338
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/360da61e-9b3a-4d8a-b54a-74a79d9bec0a.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/399c1540-e609-4b46-8f9e-529b55c2beba.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/399c1540-e609-4b46-8f9e-529b55c2beba.png
new file mode 100644
index 00000000..42ef1c0e
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/399c1540-e609-4b46-8f9e-529b55c2beba.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/41f35661-5631-45f1-8c96-42505714c4a3.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/41f35661-5631-45f1-8c96-42505714c4a3.png
new file mode 100644
index 00000000..903d048c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/41f35661-5631-45f1-8c96-42505714c4a3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/4dba2f20-e39c-4cce-98ba-9f2d018a4f3e.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/4dba2f20-e39c-4cce-98ba-9f2d018a4f3e.png
new file mode 100644
index 00000000..9e0ce9b8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/4dba2f20-e39c-4cce-98ba-9f2d018a4f3e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/6b0e98ac-64e7-4b03-ad69-abbde7fee70d.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/6b0e98ac-64e7-4b03-ad69-abbde7fee70d.png
new file mode 100644
index 00000000..2c9f0a40
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/6b0e98ac-64e7-4b03-ad69-abbde7fee70d.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/acaa1019-a9a9-4896-bc8e-75554932da62.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/acaa1019-a9a9-4896-bc8e-75554932da62.png
new file mode 100644
index 00000000..560caf6c
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/acaa1019-a9a9-4896-bc8e-75554932da62.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/aedc0f8e-e06f-4917-ad0a-41abe07ad00b.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/aedc0f8e-e06f-4917-ad0a-41abe07ad00b.png
new file mode 100644
index 00000000..abc00c82
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/aedc0f8e-e06f-4917-ad0a-41abe07ad00b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/b7664abb-104a-4e94-a8e4-2b1889ad47f3.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/b7664abb-104a-4e94-a8e4-2b1889ad47f3.png
new file mode 100644
index 00000000..1bb6c9cf
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/b7664abb-104a-4e94-a8e4-2b1889ad47f3.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/c68890ab-1e05-4ea9-9525-c0e187b0bf7e.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/c68890ab-1e05-4ea9-9525-c0e187b0bf7e.png
new file mode 100644
index 00000000..5e138aae
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/c68890ab-1e05-4ea9-9525-c0e187b0bf7e.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/d5b1926c-afc9-4293-878b-8c54f9d15b54.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/d5b1926c-afc9-4293-878b-8c54f9d15b54.png
new file mode 100644
index 00000000..d5427911
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/d5b1926c-afc9-4293-878b-8c54f9d15b54.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/ed83cc9d-b1bb-4e26-b251-f69247244b1b.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/ed83cc9d-b1bb-4e26-b251-f69247244b1b.png
new file mode 100644
index 00000000..b07bbeb8
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/ed83cc9d-b1bb-4e26-b251-f69247244b1b.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/ee7dff88-2f0b-4a1a-86b9-966f0c8ce1d7.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/ee7dff88-2f0b-4a1a-86b9-966f0c8ce1d7.png
new file mode 100644
index 00000000..4645d70a
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/ee7dff88-2f0b-4a1a-86b9-966f0c8ce1d7.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/efe5c160-7f1a-4f97-b4e7-8db6308c9aef.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/efe5c160-7f1a-4f97-b4e7-8db6308c9aef.png
new file mode 100644
index 00000000..220e6313
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/efe5c160-7f1a-4f97-b4e7-8db6308c9aef.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/f401cf69-c5ac-4b82-b38b-f767f3de4520.png b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/f401cf69-c5ac-4b82-b38b-f767f3de4520.png
new file mode 100644
index 00000000..ec988e16
Binary files /dev/null and b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/img/f401cf69-c5ac-4b82-b38b-f767f3de4520.png differ
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt1.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt1.md
new file mode 100644
index 00000000..113b32c1
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt1.md
@@ -0,0 +1,8 @@
+# 第 1 部分：TensorFlow 2.0 - 架构和 API 更改
+
+本书的这一部分将为您简要概述 TensorFlow 2.0 中的新增功能，与 TensorFlow 1.x 的比较，惰性求值和急切执行之间的差异，架构级别的更改以及关于`tf.keras`和`Estimator`的 API 使用情况。
+
+本节包含以下章节：
+
+*   第 1 章“TensorFlow 2.0 入门”
+*   第 2 章“Keras 默认集成和急切执行”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt2.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt2.md
new file mode 100644
index 00000000..9e96503f
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt2.md
@@ -0,0 +1,8 @@
+# 第 2 部分：TensorFlow 2.0 - 数据和模型训练管道
+
+本书的这一部分将概述总体输入数据和训练模型管道。 它还将详细介绍使用`tf.keras` API 创建模型，训练和验证流程。
+
+本节包含以下章节：
+
+*   第 3 章，“设计和构建输入数据管道”
+*   第 4 章，“模型训练和 TensorBoard 的使用”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt3.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt3.md
new file mode 100644
index 00000000..1103078a
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt3.md
@@ -0,0 +1,8 @@
+# 第 3 部分：TensorFlow 2.0 - 模型推断和部署以及 AIY
+
+如果您使用过 TensorFlow 1.x，则本部分将重点介绍迁移到 TensorFlow 2.0 所需的总体概念更改。 它还将教您使用 TensorFlow 可以进行的各种 AIY 项目。 最后，本节向您展示如何将 TensorFlow Lite 与跨多个平台的低功耗设备一起使用。
+
+本节包含以下章节：
+
+*   第 5 章，“模型推理管道 – 多平台部署”
+*   第 6 章，“AIY 项目和 TensorFlow Lite”
\ No newline at end of file
diff --git a/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt4.md b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt4.md
new file mode 100644
index 00000000..e5b29970
--- /dev/null
+++ b/机器学习/ApacheCN/apachecn-dl-zh/whats-new-tf2/pt4.md
@@ -0,0 +1,7 @@
+# 第 4 部分：TensorFlow 2.0 - 迁移，总结
+
+本书的本部分将以高级方式总结 **TensorFlow 2.0**（**TF 2.0**）的使用，以及与以前版本相比 TF 2.0 的兼容性差异。 如果您使用过 **TensorFlow 1.x**（**TF 1.x**），则本书的这一部分将重点介绍如何迁移到 TF 2.0。 尽管有一个将 TF 1.x 代码转换为 TF 2.0 的迁移 API，但它只是进行语法到语法的转换。 本部分还将深入指导您完成从语义上将 TF 1.x 代码转换为 TF 2.0 所需的代码级更改。
+
+本节包含以下章节：
+
+*   第 7 章“从 TensorFlow 1.x 迁移到 2.0”
\ No newline at end of file
diff --git a/机器学习/殷康龙/机器学习笔记/1.机器学习基础.md b/机器学习/殷康龙/机器学习笔记/1.机器学习基础.md
index 64e68e20..274c0c11 100644
--- a/机器学习/殷康龙/机器学习笔记/1.机器学习基础.md
+++ b/机器学习/殷康龙/机器学习笔记/1.机器学习基础.md
@@ -1,6 +1,6 @@
 # 第1章 机器学习基础
 
-## 机器学习 概述
+## 1 机器学习 概述
 
 `机器学习(Machine Learning,ML)` 是使用计算机来彰显数据背后的真实含义，它为了把无序的数据转换成有用的信息。是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
 它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。
@@ -8,12 +8,12 @@
 1. 海量的数据
 2. 获取有用的信息
 
-## 机器学习 研究意义
+## 2 机器学习 研究意义
 
 机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
 
 机器学习已经有了十分广泛的应用，例如: 数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
-## 机器学习 场景
+## 3 机器学习 场景
 
 * 例如: 识别动物猫
    * 模式识别（官方标准）: 人们通过大量的经验，得到结论，从而判断它就是猫。
@@ -44,7 +44,7 @@
 * 申请贷款: 通过你最近的金融活动信息进行综合评定，决定你是否合格。
 
 
-## 机器学习 组成
+## 4 机器学习 组成
 
 ### 主要任务
 
@@ -84,14 +84,13 @@
 这个算法可以训练程序做出某一决定。程序在某一情况下尝试所有的可能行动，记录不同行动的结果并试着找出最好的一次尝试来做决定。 属于这一类算法的有马尔可夫决策过程。
 ### 训练过程
 
-![机器学习训练过程图](http://data.apachecn.org/img/AiLearning/ml/1.MLFoundation/机器学习基础训练过程.jpg)
+![](image/2021-03-20-10-54-57.png)
 
 ### 算法汇总
 
-![算法汇总](http://data.apachecn.org/img/AiLearning/ml/1.MLFoundation/ml_algorithm.jpg)
+![](image/算法汇总.png)
 
-
-## 机器学习 使用
+## 5 机器学习 使用
 
 > 选择算法需要考虑的两个问题
 
@@ -116,11 +115,11 @@
 5. 测试算法: [机器学习算法核心]评估算法效果
 6. 使用算法: 将机器学习算法转为应用程序
 
-## 机器学习 数学基础
+## 6 机器学习 数学基础
 * 微积分
 * 统计学/概率论
 * 线性代数
-## 机器学习 工具
+## 7 机器学习 工具
 
 ### Python语言 
 
@@ -134,7 +133,7 @@
     * 数据分析库 `Pandas`
 ### 数学工具
 * Matlab
-## 附: 机器学习专业术语
+## 8 附: 机器学习专业术语
 * 模型（model）: 计算机层面的认知
 * 学习算法（learning algorithm），从数据中产生模型的方法
 * 数据集（data set）: 一组记录的合集
@@ -175,7 +174,7 @@
 * 分布（distribution）: 样本空间的全体样本服从的一种规律
 * 独立同分布（independent and identically distributed，简称i,i,d.）:获得的每个样本都是独立地从这个分布上采样获得的。
 
-## 机器学习基础补充
+## 9 机器学习基础补充
 
 ### 数据集的划分
 
diff --git a/机器学习/殷康龙/机器学习笔记/2.k-近邻算法.md b/机器学习/殷康龙/机器学习笔记/2.k-近邻算法.md
index 8d24e436..6203c8a9 100644
--- a/机器学习/殷康龙/机器学习笔记/2.k-近邻算法.md
+++ b/机器学习/殷康龙/机器学习笔记/2.k-近邻算法.md
@@ -1,35 +1,32 @@
 # 第2章 k-近邻算法
 
 
-## KNN 概述
+## 1 KNN 概述
 
-`k-近邻（kNN, k-NearestNeighbor）算法是一种基本分类与回归方法，我们这里只讨论分类问题中的 k-近邻算法。`
+* `k-近邻（kNN, k-NearestNeighbor）算法是一种基本分类与回归方法，我们这里只讨论分类问题中的 k-近邻算法。`**一句话总结: 近朱者赤近墨者黑！** 
 
-**一句话总结: 近朱者赤近墨者黑！** 
+* k 近邻算法的输入为实例的特征向量，对应于特征空间的点；输出为实例的类别，可以取多类。k 近邻算法假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其 k 个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此，**k近邻算法不具有显式的学习过程**。
 
-`k 近邻算法的输入为实例的特征向量，对应于特征空间的点；输出为实例的类别，可以取多类。k 近邻算法假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其 k 个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此，k近邻算法不具有显式的学习过程。`
+* k 近邻算法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”。 **k值的选择、距离度量以及分类决策规则**是k近邻算法的三个基本要素。
 
-`k 近邻算法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”。 k值的选择、距离度量以及分类决策规则是k近邻算法的三个基本要素。`
+## 2 KNN 场景
 
-## KNN 场景
+* 电影可以按照题材分类，那么如何区分 `动作片` 和 `爱情片` 呢？
+  1. 动作片: 打斗次数更多
+  2. 爱情片: 亲吻次数更多
 
-电影可以按照题材分类，那么如何区分 `动作片` 和 `爱情片` 呢？<br/>
-1. 动作片: 打斗次数更多
-2. 爱情片: 亲吻次数更多
-
-基于电影中的亲吻、打斗出现的次数，使用 k-近邻算法构造程序，就可以自动划分电影的题材类型。
+* 基于电影中的亲吻、打斗出现的次数，使用 k-近邻算法构造程序，就可以自动划分电影的题材类型。
 
 ![电影视频案例](http://data.apachecn.org/img/AiLearning/ml/2.KNN/knn-1-movie.png "电影视频案例")
 
-```
-现在根据上面我们得到的样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到 k 个距离最近的电影。
-假定 k=3，则三个最靠近的电影依次是， He's Not Really into Dudes 、 Beautiful Woman 和 California Man。
-knn 算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。
-```
+* 现在根据上面我们得到的样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到 k 个距离最近的电影。
+* 假定 k=3，则三个最靠近的电影依次是， He's Not Really into Dudes 、 Beautiful Woman 和 California Man。
+* knn 算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。
 
-## KNN 原理
 
-> KNN 工作原理
+## 3 KNN 原理
+
+### KNN 工作原理
 
 1. 假设有一个带有标签的样本数据集（训练样本集），其中包含每条数据与所属分类的对应关系。
 2. 输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较。
@@ -38,11 +35,11 @@ knn 算法按照距离最近的三部电影的类型，决定未知电影的类
     3. 取前 k （k 一般小于等于 20 ）个样本数据对应的分类标签。
 3. 求 k 个数据中出现次数最多的分类标签作为新数据的分类。
 
-> KNN 通俗理解
+### KNN 通俗理解
 
-给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k 个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。
+* 给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k 个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。
 
-> KNN 开发流程
+### KNN 开发流程
 
 ```
 收集数据: 任何方法
@@ -53,7 +50,7 @@ knn 算法按照距离最近的三部电影的类型，决定未知电影的类
 使用算法: 输入样本数据和结构化的输出结果，然后运行 k-近邻算法判断输入数据分类属于哪个分类，最后对计算出的分类执行后续处理
 ```
 
-> KNN 算法特点
+### KNN 算法特点
 
 ```
 优点: 精度高、对异常值不敏感、无数据输入假定
@@ -61,27 +58,27 @@ knn 算法按照距离最近的三部电影的类型，决定未知电影的类
 适用数据范围: 数值型和标称型
 ```
 
-## KNN 项目案例
+## 4 KNN 项目案例
 
 ### 项目案例1: 优化约会网站的配对效果
 
-[完整代码地址](/src/py2.x/ml/2.KNN/kNN.py): <https://github.com/apachecn/AiLearning/blob/master/src/py2.x/ml/2.KNN/kNN.py>
+* [源码](../源代码/ml/2.KNN/kNN.py)
 
-#### 项目概述
+### 项目概述
 
-海伦使用约会网站寻找约会对象。经过一段时间之后，她发现曾交往过三种类型的人:
-* 不喜欢的人
-* 魅力一般的人
-* 极具魅力的人
+* 海伦使用约会网站寻找约会对象。经过一段时间之后，她发现曾交往过三种类型的人:
+  * 不喜欢的人
+  * 魅力一般的人
+  * 极具魅力的人
 
-她希望: 
-1. 工作日与魅力一般的人约会
-2. 周末与极具魅力的人约会
-3. 不喜欢的人则直接排除掉
+* 她希望: 
+  1. 工作日与魅力一般的人约会
+  2. 周末与极具魅力的人约会
+  3. 不喜欢的人则直接排除掉
 
-现在她收集到了一些约会网站未曾记录的数据信息，这更有助于匹配对象的归类。
+* 现在她收集到了一些约会网站未曾记录的数据信息，这更有助于匹配对象的归类。
 
-#### 开发流程
+### 开发流程
 
 ```
 收集数据: 提供文本文件
diff --git a/机器学习/殷康龙/机器学习笔记/image/2021-03-20-10-54-57.png b/机器学习/殷康龙/机器学习笔记/image/2021-03-20-10-54-57.png
new file mode 100644
index 00000000..e16b9e52
Binary files /dev/null and b/机器学习/殷康龙/机器学习笔记/image/2021-03-20-10-54-57.png differ
diff --git a/机器学习/殷康龙/机器学习笔记/image/算法汇总.png b/机器学习/殷康龙/机器学习笔记/image/算法汇总.png
new file mode 100644
index 00000000..ab691b82
Binary files /dev/null and b/机器学习/殷康龙/机器学习笔记/image/算法汇总.png differ
diff --git a/机器学习/殷康龙/源代码/dl/activators.py b/机器学习/殷康龙/源代码/dl/activators.py
new file mode 100644
index 00000000..e98b78eb
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/activators.py
@@ -0,0 +1,38 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+
+import numpy as np
+
+
+class ReluActivator(object):
+    def forward(self, weighted_input):
+        #return weighted_input
+        return max(0, weighted_input)
+
+    def backward(self, output):
+        return 1 if output > 0 else 0
+
+
+class IdentityActivator(object):
+    def forward(self, weighted_input):
+        return weighted_input
+
+    def backward(self, output):
+        return 1
+
+
+class SigmoidActivator(object):
+    def forward(self, weighted_input):
+        return np.longfloat(1.0 / (1.0 + np.exp(-weighted_input)))
+
+    def backward(self, output):
+        return output * (1 - output)
+
+
+class TanhActivator(object):
+    def forward(self, weighted_input):
+        return 2.0 / (1.0 + np.exp(-2 * weighted_input)) - 1.0
+
+    def backward(self, output):
+        return 1 - output * output
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/dl/bp.py b/机器学习/殷康龙/源代码/dl/bp.py
new file mode 100644
index 00000000..43c1b0ad
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/bp.py
@@ -0,0 +1,869 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+import random
+from functools import reduce
+from numpy import *
+
+# sigmoid 函数
+def sigmoid(inX):
+    '''
+    Desc:
+        sigmoid 函数实现
+    Args:
+        inX --- 输入向量
+    Returns:
+        对输入向量作用 sigmoid 函数之后得到的输出
+    '''
+    return 1.0 / (1 + exp(-inX))
+
+
+# 定义神经网络的节点类
+class Node(object):
+    '''
+    Desc:
+        神经网络的节点类
+    '''
+    def __init__(self, layer_index, node_index):
+        '''
+        Desc:
+            初始化一个节点
+        Args:
+            layer_index --- 层的索引，也就是表示第几层
+            node_index --- 节点的索引，也就是表示节点的索引
+        Returns:
+            None
+        '''
+        # 设置节点所在的层的位置
+        self.layer_index = layer_index
+        # 设置层中的节点的索引
+        self.node_index = node_index
+        # 设置此节点的下游节点，也就是这个节点与下一层的哪个节点相连
+        self.downstream = []
+        # 设置此节点的上游节点，也就是哪几个节点的下游节点与此节点相连
+        self.upstream = []
+        # 此节点的输出
+        self.output = 0
+        # 此节点真实值与计算值之间的差值
+        self.delta = 0
+
+    def set_output(self, output):
+        '''
+        Desc:
+            设置节点的 output
+        Args:
+            output --- 节点的 output
+        Returns:
+            None
+        '''
+        self.output = output
+
+    def append_downstream_connection(self, conn):
+        '''
+        Desc:
+           添加此节点的下游节点的连接
+        Args:
+            conn --- 当前节点的下游节点的连接的 list
+        Returns:
+            None
+        '''
+        # 使用 list 的 append 方法来将 conn 中的节点添加到 downstream 中
+        self.downstream.append(conn)
+
+    def append_upstream_connection(self, conn):
+        '''
+        Desc:
+            添加此节点的上游节点的连接
+        Args:
+            conn ---- 当前节点的上游节点的连接的 list
+        Returns:
+            None
+        '''
+        # 使用 list 的 append 方法来将 conn 中的节点添加到 upstream 中
+        self.upstream.append(conn)
+
+    def calc_output(self):
+        '''
+        Desc:
+            计算节点的输出，依据 output = sigmoid(wTx)
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 使用 reduce() 函数对其中的因素求和
+        output = reduce(lambda ret, conn: ret + conn.upstream_node.output * conn.weight, self.upstream, 0)
+        # 对上游节点的 output 乘 weights 之后求和得到的结果应用 sigmoid 函数，得到当前节点的 output
+        self.output = sigmoid(output)
+
+    def calc_hidden_layer_delta(self):
+        '''
+        Desc:
+            计算隐藏层的节点的 delta
+        Args:
+            output --- 节点的 output
+        Returns:
+            None
+        '''
+        # 根据 https://www.zybuluo.com/hanbingtao/note/476663 的 式4 计算隐藏层的delta
+        downstream_delta = reduce(lambda ret, conn: ret + conn.downstream_node.delta * conn.weight, self.downstream, 0.0)
+        # 计算此节点的 delta
+        self.delta = self.output * (1 - self.output) * downstream_delta
+
+    def calc_output_layer_delta(self, label):
+        '''
+        Desc:
+            计算输出层的 delta
+        Args:
+            label --- 输入向量对应的真实标签，不是计算得到的结果
+        Returns:
+            None
+        '''
+        # 就是那输出层的 delta
+        self.delta = self.output * (1 - self.output) * (label - self.output)
+
+    def __str__(self):
+        '''
+        Desc:
+            将节点的信息打印出来
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 打印格式: 第几层 - 第几个节点，output 是多少，delta 是多少
+        node_str = '%u-%u: output: %f delta: %f' % (self.layer_index, self.node_index, self.output, self.delta)
+        # 下游节点
+        downstream_str = reduce(lambda ret, conn: ret + '\n\t' + str(conn), self.downstream, '')
+        # 上游节点
+        upstream_str = reduce(lambda ret, conn: ret + '\n\t' + str(conn), self.upstream, '')
+        # 将本节点 + 下游节点 + 上游节点 的信息打印出来
+        return node_str + '\n\tdownstream:' + downstream_str + '\n\tupstream:' + upstream_str
+
+
+# ConstNode 对象，为了实现一个输出恒为 1 的节点（计算偏置项 wb 时需要）
+class ConstNode(object):
+    '''
+    Desc:
+        常数项对象，即相当于计算的时候的偏置项
+    '''
+    def __init__(self, layer_index, node_index):
+        '''
+        Desc:
+            初始化节点对象
+        Args:
+            layer_index --- 节点所属的层的编号
+            node_index --- 节点的编号
+        Returns:
+            None
+        '''    
+        self.layer_index = layer_index
+        self.node_index = node_index
+        self.downstream = []
+        self.output = 1
+
+
+    def append_downstream_connection(self, conn):
+        '''
+        Desc:
+            添加一个到下游节点的连接
+        Args:
+            conn --- 到下游节点的连接                                           
+        Returns:
+            None
+        '''
+        # 使用 list 的 append 方法将包含下游节点的 conn 添加到 downstream 中        
+        self.downstream.append(conn)
+
+
+    def calc_hidden_layer_delta(self):
+        '''
+        Desc:
+            计算隐藏层的 delta
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 使用我们的 公式 4 来计算下游节点的 delta，求和
+        downstream_delta = reduce(lambda ret, conn: ret + conn.downstream_node.delta * conn.weight, self.downstream, 0.0)
+        # 计算隐藏层的本节点的 delta
+        self.delta = self.output * (1 - self.output) * downstream_delta
+
+
+    def __str__(self):
+        '''
+        Desc:
+           将节点信息打印出来
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 将节点的信息打印出来
+        # 格式 第几层-第几个节点的 output 
+        node_str = '%u-%u: output: 1' % (self.layer_index, self.node_index)
+        # 此节点的下游节点的信息
+        downstream_str = reduce(lambda ret, conn: ret + '\n\t' + str(conn), self.downstream, '')
+        # 将此节点与下游节点的信息组合，一起打印出来
+        return node_str + '\n\tdownstream:' + downstream_str
+
+
+# 神经网络的层对象，负责初始化一层。此外，作为 Node 的集合对象，提供对 Node 集合的操作
+class Layer(object):
+    '''
+    Desc:
+        神经网络的 Layer 类
+    '''
+
+    def __init__(self, layer_index, node_count):
+        '''
+        Desc:
+            神经网络的层对象的初始化
+        Args:
+            layer_index --- 层的索引
+            node_count --- 节点的个数
+        Returns:
+            None
+        '''
+        # 设置 层的索引
+        self.layer_index = layer_index
+        # 设置层中的节点的 list
+        self.nodes = []
+        # 将 Node 节点添加到 nodes 中
+        for i in range(node_count):
+            self.nodes.append(Node(layer_index, i))
+        # 将 ConstNode 节点也添加到 nodes 中
+        self.nodes.append(ConstNode(layer_index, node_count))
+
+    def set_output(self, data):
+        '''
+        Desc:
+            设置层的输出，当层是输入层时会用到
+        Args:
+            data --- 输出的值的 list
+        Returns:
+            None
+        '''
+        # 设置输入层中各个节点的 output
+        for i in range(len(data)):
+            self.nodes[i].set_output(data[i])
+
+    def calc_output(self):
+        '''
+        Desc:
+            计算层的输出向量
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 遍历本层的所有节点（除去最后一个节点，因为它是恒为常数的偏置项b）
+        # 调用节点的 calc_output 方法来计算输出向量
+        for node in self.nodes[:-1]:
+            node.calc_output()
+
+    def dump(self):
+        '''
+        Desc:
+            将层信息打印出来
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 遍历层的所有的节点 nodes，将节点信息打印出来
+        for node in self.nodes:
+            print(node)
+
+
+# Connection 对象类，主要负责记录连接的权重，以及这个连接所关联的上下游的节点
+class Connection(object):
+    '''
+    Desc:
+        Connection 对象，记录连接权重和连接所关联的上下游节点，注意，这里的 connection 没有 s ，不是复数
+    '''
+    def __init__(self, upstream_node, downstream_node):
+        '''
+        Desc:
+            初始化 Connection 对象
+        Args:
+            upstream_node --- 上游节点
+            downstream_node --- 下游节点
+        Returns:
+            None
+        '''
+        # 设置上游节点
+        self.upstream_node = upstream_node
+        # 设置下游节点
+        self.downstream_node = downstream_node
+        # 设置权重，这里设置的权重是 -0.1 到 0.1 之间的任何数
+        self.weight = random.uniform(-0.1, 0.1)
+        # 设置梯度 为 0.0
+        self.gradient = 0.0
+
+    def calc_gradient(self):
+        '''
+        Desc:
+            计算梯度
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 下游节点的 delta * 上游节点的 output 计算得到梯度
+        self.gradient = self.downstream_node.delta * self.upstream_node.output
+
+    def update_weight(self, rate):
+        '''
+        Desc:
+            根据梯度下降算法更新权重
+        Args:
+            rate --- 学习率 / 或者成为步长
+        Returns:
+            None
+        '''
+        # 调用计算梯度的函数来将梯度计算出来
+        self.calc_gradient()
+        # 使用梯度下降算法来更新权重
+        self.weight += rate * self.gradient
+
+    def get_gradient(self):
+        '''
+        Desc:
+            获取当前的梯度
+        Args:
+            None
+        Returns:
+            当前的梯度 gradient 
+        '''
+        return self.gradient
+
+    def __str__(self):
+        '''
+        Desc:
+            将连接信息打印出来
+        Args:
+            None
+        Returns:
+            连接信息进行返回
+        '''
+        # 格式为: 上游节点的层的索引+上游节点的节点索引 ---> 下游节点的层的索引+下游节点的节点索引，最后一个数是权重
+        return '(%u-%u) -> (%u-%u) = %f' % (
+            self.upstream_node.layer_index, 
+            self.upstream_node.node_index,
+            self.downstream_node.layer_index, 
+            self.downstream_node.node_index, 
+            self.weight)
+
+
+
+# Connections 对象，提供 Connection 集合操作。
+class Connections(object):
+    '''
+    Desc:
+        Connections 对象，提供 Connection 集合的操作，看清楚后面有没有 s ，不要看错
+    '''
+    def __init__(self):
+        '''
+        Desc:
+            初始化 Connections 对象
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 初始化一个列表 list 
+        self.connections = []
+
+    def add_connection(self, connection):
+        '''
+        Desc:
+            将 connection 中的节点信息 append 到 connections 中
+        Args:
+            None
+        Returns:
+            None
+        '''
+        self.connections.append(connection)
+
+    def dump(self):
+        '''
+        Desc:
+            将 Connections 的节点信息打印出来
+        Args:
+            None
+        Returns:
+            None
+        '''
+        for conn in self.connections:
+            print(conn)
+
+
+# Network 对象，提供相应 API
+class Network(object):
+    '''
+    Desc:
+        Network 类
+    '''
+    def __init__(self, layers):
+        '''
+        Desc:
+            初始化一个全连接神经网络
+        Args:
+            layers --- 二维数组，描述神经网络的每层节点数
+        Returns:
+            None
+        '''
+        # 初始化 connections，使用的是 Connections 对象
+        self.connections = Connections()
+        # 初始化 layers
+        self.layers = []
+        # 我们的神经网络的层数
+        layer_count = len(layers)
+        # 节点数
+        node_count = 0
+        # 遍历所有的层，将每层信息添加到 layers 中去
+        for i in range(layer_count):
+            self.layers.append(Layer(i, layers[i]))
+        # 遍历除去输出层之外的所有层，将连接信息添加到 connections 对象中
+        for layer in range(layer_count - 1):
+            connections = [Connection(upstream_node, downstream_node) for upstream_node in self.layers[layer].nodes for downstream_node in self.layers[layer + 1].nodes[:-1]]
+            # 遍历 connections，将 conn 添加到 connections 中
+            for conn in connections:
+                self.connections.add_connection(conn)
+                # 为下游节点添加上游节点为 conn
+                conn.downstream_node.append_upstream_connection(conn)
+                # 为上游节点添加下游节点为 conn
+                conn.upstream_node.append_downstream_connection(conn)
+
+
+    def train(self, labels, data_set, rate, epoch):
+        '''
+        Desc:
+            训练神经网络
+        Args:
+            labels --- 数组，训练样本标签，每个元素是一个样本的标签
+            data_set --- 二维数组，训练样本的特征数据。每行数据是一个样本的特征
+            rate --- 学习率
+            epoch --- 迭代次数
+        Returns:
+            None
+        '''
+        # 循环迭代 epoch 次
+        for i in range(epoch):
+            # 遍历每个训练样本
+            for d in range(len(data_set)):
+                # 使用此样本进行训练（一条样本进行训练）
+                self.train_one_sample(labels[d], data_set[d], rate)
+                # print 'sample %d training finished' % d
+
+    def train_one_sample(self, label, sample, rate):
+        '''
+        Desc:
+            内部函数，使用一个样本对网络进行训练
+        Args:
+            label --- 样本的标签
+            sample --- 样本的特征
+            rate --- 学习率
+        Returns:
+            None
+        '''
+        # 调用 Network 的 predict 方法，对这个样本进行预测
+        self.predict(sample)
+        # 计算根据此样本得到的结果的 delta
+        self.calc_delta(label)
+        # 更新权重
+        self.update_weight(rate)
+
+    def calc_delta(self, label):
+        '''
+        Desc:
+            计算每个节点的 delta
+        Args:
+            label --- 样本的真实值，也就是样本的标签
+        Returns:
+            None
+        '''
+        # 获取输出层的所有节点
+        output_nodes = self.layers[-1].nodes
+        # 遍历所有的 label
+        for i in range(len(label)):
+            # 计算输出层节点的 delta
+            output_nodes[i].calc_output_layer_delta(label[i])
+        # 这个用法就是切片的用法， [-2::-1] 就是将 layers 这个数组倒过来，从没倒过来的时候的倒数第二个元素开始，到翻转过来的倒数第一个数，比如这样: aaa = [1,2,3,4,5,6,7,8,9],bbb = aaa[-2::-1] ==> bbb = [8, 7, 6, 5, 4, 3, 2, 1]
+        # 实际上就是除掉输出层之外的所有层按照相反的顺序进行遍历
+        for layer in self.layers[-2::-1]:
+            # 遍历每层的所有节点
+            for node in layer.nodes:
+                # 计算隐藏层的 delta
+                node.calc_hidden_layer_delta()
+
+    def update_weight(self, rate):
+        '''
+        Desc:
+            更新每个连接的权重
+        Args:
+            rate --- 学习率
+        Returns:
+            None
+        '''
+        # 按照正常顺序遍历除了输出层的层
+        for layer in self.layers[:-1]:
+            # 遍历每层的所有节点
+            for node in layer.nodes:
+                # 遍历节点的下游节点
+                for conn in node.downstream:
+                    # 根据下游节点来更新连接的权重
+                    conn.update_weight(rate)
+
+    def calc_gradient(self):
+        '''
+        Desc:
+            计算每个连接的梯度
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 按照正常顺序遍历除了输出层之外的层
+        for layer in self.layers[:-1]:
+            # 遍历层中的所有节点
+            for node in layer.nodes:
+                # 遍历节点的下游节点
+                for conn in node.downstream:
+                    # 计算梯度
+                    conn.calc_gradient()
+
+    def get_gradient(self, label, sample):
+        '''
+        Desc:
+            获得网络在一个样本下，每个连接上的梯度
+        Args:
+            label --- 样本标签
+            sample --- 样本特征
+        Returns:
+            None
+        '''
+        # 调用 predict() 方法，利用样本的特征数据对样本进行预测
+        self.predict(sample)
+        # 计算 delta
+        self.calc_delta(label)
+        # 计算梯度
+        self.calc_gradient()
+
+    def predict(self, sample):
+        '''
+        Desc:
+            根据输入的样本预测输出值
+        Args:
+            sample --- 数组，样本的特征，也就是网络的输入向量
+        Returns:
+            使用我们的感知器规则计算网络的输出
+        '''
+        # 首先为输入层设置输出值output为样本的输入向量，即不发生任何变化
+        self.layers[0].set_output(sample)
+        # 遍历除去输入层开始到最后一层
+        for i in range(1, len(self.layers)):
+            # 计算 output
+            self.layers[i].calc_output()
+        # 将计算得到的输出，也就是我们的预测值返回
+        return list(map(lambda node: node.output, self.layers[-1].nodes[:-1]))
+
+    def dump(self):
+        '''
+        Desc:
+            打印出我们的网络信息
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 遍历所有的 layers
+        for layer in self.layers:
+            # 将所有的层的信息打印出来
+            layer.dump()
+
+
+# # ------------------------- 至此，基本上我们把 我们的神经网络实现完成，下面还会介绍一下对应的梯度检查相关的算法，现在我们首先回顾一下我们上面写道的类及他们的作用 ------------------------
+'''
+1、节点类的实现 Node : 负责记录和维护节点自身信息以及这个节点相关的上下游连接，实现输出值和误差项的计算。如下: 
+layer_index --- 节点所属的层的编号
+node_index --- 节点的编号
+downstream --- 下游节点
+upstream  ---- 上游节点
+output    ---- 节点的输出值
+delta   ------ 节点的误差项
+
+2、ConstNode 类，偏置项类的实现: 实现一个输出恒为 1 的节点（计算偏置项的时候会用到），如下: 
+layer_index --- 节点所属层的编号
+node_index ---- 节点的编号
+downstream ---- 下游节点
+没有记录上游节点，因为一个偏置项的输出与上游节点的输出无关
+output    ----- 偏置项的输出
+
+3、layer 类，负责初始化一层。作为的是 Node 节点的集合对象，提供对 Node 集合的操作。也就是说，layer 包含的是 Node 的集合。
+layer_index ---- 层的编号
+node_count ----- 层所包含的节点的个数
+def set_ouput() -- 设置层的输出，当层是输入层时会用到
+def calc_output -- 计算层的输出向量，调用的 Node 类的 计算输出 方法
+
+4、Connection 类: 负责记录连接的权重，以及这个连接所关联的上下游节点，如下: 
+upstream_node --- 连接的上游节点
+downstream_node -- 连接的下游节点
+weight   -------- random.uniform(-0.1, 0.1) 初始化为一个很小的随机数
+gradient -------- 0.0 梯度，初始化为 0.0 
+def calc_gradient() --- 计算梯度，使用的是下游节点的 delta 与上游节点的 output 相乘计算得到
+def get_gradient() ---- 获取当前的梯度
+def update_weight() --- 根据梯度下降算法更新权重
+
+5、Connections 类: 提供对 Connection 集合操作，如下: 
+def add_connection() --- 添加一个 connection
+
+6、Network 类: 提供相应的 API，如下: 
+connections --- Connections 对象
+layers -------- 神经网络的层
+layer_count --- 神经网络的层数
+node_count  --- 节点个数
+def train() --- 训练神经网络
+def train_one_sample() --- 用一个样本训练网络
+def calc_delta() --- 计算误差项
+def update_weight() --- 更新每个连接权重
+def calc_gradient() --- 计算每个连接的梯度
+def get_gradient() --- 获得网络在一个样本下，每个连接上的梯度
+def predict() --- 根据输入的样本预测输出值 
+'''
+
+# #--------------------------------------回顾完成了，有些问题可能还是没有弄懂，没事，我们接着看下面---------------------------------------------
+
+class Normalizer(object):
+    '''
+    Desc:
+        归一化工具类
+    Args:
+        object --- 对象
+    Returns:
+        None
+    '''
+    def __init__(self):
+        '''
+        Desc:
+            初始化
+        Args:
+            None
+        Returns:
+            None
+        '''
+        # 初始化 16 进制的数，用来判断位的，分别是
+        # 0x1 ---- 00000001
+        # 0x2 ---- 00000010
+        # 0x4 ---- 00000100
+        # 0x8 ---- 00001000
+        # 0x10 --- 00010000
+        # 0x20 --- 00100000
+        # 0x40 --- 01000000
+        # 0x80 --- 10000000
+        self.mask = [0x1, 0x2, 0x4, 0x8, 0x10, 0x20, 0x40, 0x80]
+
+    def norm(self, number):
+        '''
+        Desc:
+            对 number 进行规范化
+        Args:
+            number --- 要规范化的数据
+        Returns:
+            规范化之后的数据
+        '''
+        # 此方法就相当于判断一个 8 位的向量，哪一位上有数字，如果有就将这个数设置为  0.9 ，否则，设置为 0.1，通俗比较来说，就是我们这里用 0.9 表示 1，用 0.1 表示 0
+        return list(map(lambda m: 0.9 if number & m else 0.1, self.mask))
+
+    def denorm(self, vec):
+        '''
+        Desc:
+            对我们得到的向量进行反规范化
+        Args:
+            vec --- 得到的向量
+        Returns:
+            最终的预测结果
+        '''
+        # 进行二分类，大于 0.5 就设置为 1，小于 0.5 就设置为 0
+        binary = list(map(lambda i: 1 if i > 0.5 else 0, vec))
+        # 遍历 mask
+        for i in range(len(self.mask)):
+            binary[i] = binary[i] * self.mask[i]
+        # 将结果相加得到最终的预测结果
+        return reduce(lambda x,y: x + y, binary)
+
+
+def mean_square_error(vec1, vec2):
+    '''
+    Desc:
+        计算平均平方误差
+    Args:
+        vec1 --- 第一个数
+        vec2 --- 第二个数
+    Returns:
+        返回 1/2 * (x-y)^2 计算得到的值
+    '''
+    return 0.5 * reduce(lambda a, b: a + b, map(lambda v: (v[0] - v[1]) * (v[0] - v[1]), zip(vec1, vec2)))
+
+
+
+def gradient_check(network, sample_feature, sample_label):
+    '''
+    Desc:
+        梯度检查
+    Args:
+        network --- 神经网络对象
+        sample_feature --- 样本的特征
+        sample_label --- 样本的标签   
+    Returns:
+        None
+    '''
+    # 计算网络误差
+    network_error = lambda vec1, vec2: 0.5 * reduce(lambda a, b: a + b, map(lambda v: (v[0] - v[1]) * (v[0] - v[1]), zip(vec1, vec2)))
+
+    # 获取网络在当前样本下每个连接的梯度
+    network.get_gradient(sample_feature, sample_label)
+
+    # 对每个权重做梯度检查    
+    for conn in network.connections.connections: 
+        # 获取指定连接的梯度
+        actual_gradient = conn.get_gradient()
+    
+        # 增加一个很小的值，计算网络的误差
+        epsilon = 0.0001
+        conn.weight += epsilon
+        error1 = network_error(network.predict(sample_feature), sample_label)
+    
+        # 减去一个很小的值，计算网络的误差
+        conn.weight -= 2 * epsilon # 刚才加过了一次，因此这里需要减去2倍
+        error2 = network_error(network.predict(sample_feature), sample_label)
+    
+        # 根据式6计算期望的梯度值
+        expected_gradient = (error2 - error1) / (2 * epsilon)
+    
+        # 打印
+        print('expected gradient: \t%f\nactual gradient: \t%f' % (expected_gradient, actual_gradient))
+
+
+def train_data_set():
+    '''
+    Desc:
+        获取训练数据集
+    Args:
+        None
+    Returns:
+        labels --- 训练数据集每条数据对应的标签
+    '''
+    # 调用 Normalizer() 类
+    normalizer = Normalizer()
+    # 初始化一个 list，用来存储后面的数据
+    data_set = []
+    labels = []
+    # 0 到 256 ，其中以 8 为步长
+    for i in range(0, 256, 8):
+        # 调用 normalizer 对象的 norm 方法
+        n = normalizer.norm(int(random.uniform(0, 256)))
+        # 在 data_set 中 append n
+        data_set.append(n)
+        # 在 labels 中 append n
+        labels.append(n)
+    # 将它们返回
+    return labels, data_set
+
+
+def train(network):
+    '''
+    Desc:
+        使用我们的神经网络进行训练
+    Args:
+        network --- 神经网络对象
+    Returns:
+        None
+    '''
+    # 获取训练数据集
+    labels, data_set = train_data_set()
+    labels = list(labels)
+    data_set = list(labels)
+    # 调用 network 中的 train方法来训练我们的神经网络
+    network.train(labels, data_set, 0.3, 50)
+
+
+def test(net,data):
+    #此函数不明觉厉，但是传参就有问题，如果跑不通就把这段代码注释掉吧。。。
+
+    '''
+    Desc:
+        对我们的全连接神经网络进行测试
+    Args:
+        network --- 神经网络对象
+        data ------ 测试数据集
+    Returns:
+        None
+    '''
+    # 调用 Normalizer() 类
+
+    normalizer = Normalizer()
+    # 调用 norm 方法，对数据进行规范化
+    norm_data = normalizer.norm(data)
+    norm_data = list(norm_data)
+    # 对测试数据进行预测
+    predict_data = net.predict(norm_data)
+    # 将结果打印出来
+    print('\ttestdata(%u)\tpredict(%u)' % (data, normalizer.denorm(predict_data)))
+
+
+def correct_ratio(network):
+    '''
+    Desc:
+        计算我们的神经网络的正确率
+    Args:
+        network --- 神经网络对象
+    Returns:
+        None
+    '''
+    normalizer = Normalizer()
+    correct = 0.0
+    for i in range(256):
+        if normalizer.denorm(network.predict(normalizer.norm(i))) == i:
+            correct += 1.0
+    print('correct_ratio: %.2f%%' % (correct / 256 * 100))
+
+
+def gradient_check_test():
+    '''
+    Desc:
+        梯度检查测试
+    Args:
+        None
+    Returns:
+        None
+    '''
+    # 创建一个有 3 层的网络，每层有 2 个节点
+    net = Network([2, 2, 2])
+    # 样本的特征
+    sample_feature = [0.9, 0.1]
+    # 样本对应的标签
+    sample_label = [0.9, 0.1]
+    # 使用梯度检查来查看是否正确
+    gradient_check(net, sample_feature, sample_label)
+
+
+if __name__ == '__main__':
+    '''
+    Desc:
+        主函数
+    Args:
+        None
+    Returns:
+        None
+    '''
+    # 初始化一个神经网络，输入层 8 个节点，隐藏层 3 个节点，输出层 8 个节点
+    net = Network([8, 3, 8])
+    # 训练我们的神经网络
+    train(net)
+    # 将我们的神经网络的信息打印出来
+    net.dump()
+    # 打印出神经网络的正确率
+    correct_ratio(net)
diff --git a/机器学习/殷康龙/源代码/dl/cnn.py b/机器学习/殷康龙/源代码/dl/cnn.py
new file mode 100644
index 00000000..df27a702
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/cnn.py
@@ -0,0 +1,457 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+
+import numpy as np
+from activators import ReluActivator, IdentityActivator
+
+
+# 获取卷积区域
+def get_patch(input_array, i, j, filter_width,
+              filter_height, stride):
+    '''
+    从输入数组中获取本次卷积的区域，
+    自动适配输入为2D和3D的情况
+    '''
+    start_i = i * stride
+    start_j = j * stride
+    if input_array.ndim == 2:
+        return input_array[
+               start_i: start_i + filter_height,
+               start_j: start_j + filter_width]
+    elif input_array.ndim == 3:
+        return input_array[:,
+               start_i: start_i + filter_height,
+               start_j: start_j + filter_width]
+
+
+# 获取一个2D区域的最大值所在的索引
+def get_max_index(array):
+    max_i = 0
+    max_j = 0
+    max_value = array[0, 0]
+    for i in range(array.shape[0]):
+        for j in range(array.shape[1]):
+            if array[i, j] > max_value:
+                max_value = array[i, j]
+                max_i, max_j = i, j
+    return max_i, max_j
+
+
+# 计算卷积
+def conv(input_array,
+         kernel_array,
+         output_array,
+         stride, bias):
+    '''
+    计算卷积，自动适配输入为2D和3D的情况
+    '''
+    channel_number = input_array.ndim
+    output_width = output_array.shape[1]
+    output_height = output_array.shape[0]
+    kernel_width = kernel_array.shape[-1]
+    kernel_height = kernel_array.shape[-2]
+    for i in range(output_height):
+        for j in range(output_width):
+            output_array[i][j] = (
+                                         get_patch(input_array, i, j, kernel_width,
+                                                   kernel_height, stride) * kernel_array
+                                 ).sum() + bias
+
+
+# 为数组增加Zero padding
+def padding(input_array, zp):
+    '''
+    为数组增加Zero padding，自动适配输入为2D和3D的情况
+    '''
+    if zp == 0:
+        return input_array
+    else:
+        if input_array.ndim == 3:
+            input_width = input_array.shape[2]
+            input_height = input_array.shape[1]
+            input_depth = input_array.shape[0]
+            padded_array = np.zeros((
+                input_depth,
+                input_height + 2 * zp,
+                input_width + 2 * zp))
+            padded_array[:,
+            zp: zp + input_height,
+            zp: zp + input_width] = input_array
+            return padded_array
+        elif input_array.ndim == 2:
+            input_width = input_array.shape[1]
+            input_height = input_array.shape[0]
+            padded_array = np.zeros((
+                input_height + 2 * zp,
+                input_width + 2 * zp))
+            padded_array[zp: zp + input_height,
+            zp: zp + input_width] = input_array
+            return padded_array
+
+
+# 对numpy数组进行element wise操作
+def element_wise_op(array, op):
+    for i in np.nditer(array,
+                       op_flags=['readwrite']):
+        i[...] = op(i)
+
+
+class Filter(object):
+    def __init__(self, width, height, depth):
+        self.weights = np.random.uniform(-1e-4, 1e-4,
+                                         (depth, height, width))
+        self.bias = 0
+        self.weights_grad = np.zeros(
+            self.weights.shape)
+        self.bias_grad = 0
+
+    def __repr__(self):
+        return 'filter weights:\n%s\nbias:\n%s' % (
+            repr(self.weights), repr(self.bias))
+
+    def get_weights(self):
+        return self.weights
+
+    def get_bias(self):
+        return self.bias
+
+    def update(self, learning_rate):
+        self.weights -= learning_rate * self.weights_grad
+        self.bias -= learning_rate * self.bias_grad
+
+
+class ConvLayer(object):
+    def __init__(self, input_width, input_height,
+                 channel_number, filter_width,
+                 filter_height, filter_number,
+                 zero_padding, stride, activator,
+                 learning_rate):
+        self.input_width = input_width
+        self.input_height = input_height
+        self.channel_number = channel_number
+        self.filter_width = filter_width
+        self.filter_height = filter_height
+        self.filter_number = filter_number
+        self.zero_padding = zero_padding
+        self.stride = stride
+        self.output_width = \
+            ConvLayer.calculate_output_size(
+                self.input_width, filter_width, zero_padding,
+                stride)
+        self.output_height = \
+            ConvLayer.calculate_output_size(
+                self.input_height, filter_height, zero_padding,
+                stride)
+        self.output_array = np.zeros((self.filter_number,
+                                      self.output_height, self.output_width))
+        self.filters = []
+        for i in range(filter_number):
+            self.filters.append(Filter(filter_width,
+                                       filter_height, self.channel_number))
+        self.activator = activator
+        self.learning_rate = learning_rate
+
+    def forward(self, input_array):
+        '''
+        计算卷积层的输出
+        输出结果保存在self.output_array
+        '''
+        self.input_array = input_array
+        self.padded_input_array = padding(input_array,
+                                          self.zero_padding)
+        for f in range(self.filter_number):
+            filter = self.filters[f]
+            conv(self.padded_input_array,
+                 filter.get_weights(), self.output_array[f],
+                 self.stride, filter.get_bias())
+        element_wise_op(self.output_array,
+                        self.activator.forward)
+
+    def backward(self, input_array, sensitivity_array,
+                 activator):
+        '''
+        计算传递给前一层的误差项，以及计算每个权重的梯度
+        前一层的误差项保存在self.delta_array
+        梯度保存在Filter对象的weights_grad
+        '''
+        self.forward(input_array)
+        self.bp_sensitivity_map(sensitivity_array,
+                                activator)
+        self.bp_gradient(sensitivity_array)
+
+    def update(self):
+        '''
+        按照梯度下降，更新权重
+        '''
+        for filter in self.filters:
+            filter.update(self.learning_rate)
+
+    def bp_sensitivity_map(self, sensitivity_array,
+                           activator):
+        '''
+        计算传递到上一层的sensitivity map
+        sensitivity_array: 本层的sensitivity map
+        activator: 上一层的激活函数
+        '''
+        # 处理卷积步长，对原始sensitivity map进行扩展
+        expanded_array = self.expand_sensitivity_map(
+            sensitivity_array)
+        # full卷积，对sensitivitiy map进行zero padding
+        # 虽然原始输入的zero padding单元也会获得残差
+        # 但这个残差不需要继续向上传递，因此就不计算了
+        expanded_width = expanded_array.shape[2]
+        zp = (self.input_width +
+              self.filter_width - 1 - expanded_width) // 2
+        padded_array = padding(expanded_array, zp)
+        # 初始化delta_array，用于保存传递到上一层的
+        # sensitivity map
+        self.delta_array = self.create_delta_array()
+        # 对于具有多个filter的卷积层来说，最终传递到上一层的
+        # sensitivity map相当于所有的filter的
+        # sensitivity map之和
+        for f in range(self.filter_number):
+            filter = self.filters[f]
+            # 将filter权重翻转180度
+            flipped_weights = np.array(list(map(lambda i: np.rot90(i, 2), filter.get_weights())))
+            # 计算与一个filter对应的delta_array
+            delta_array = self.create_delta_array()
+            for d in range(delta_array.shape[0]):
+                conv(padded_array[f], flipped_weights[d],
+                     delta_array[d], 1, 0)
+            self.delta_array += delta_array
+        # 将计算结果与激活函数的偏导数做element-wise乘法操作
+        derivative_array = np.array(self.input_array)
+        element_wise_op(derivative_array,
+                        activator.backward)
+        self.delta_array *= derivative_array
+
+    def bp_gradient(self, sensitivity_array):
+        # 处理卷积步长，对原始sensitivity map进行扩展
+        expanded_array = self.expand_sensitivity_map(
+            sensitivity_array)
+        for f in range(self.filter_number):
+            # 计算每个权重的梯度
+            filter = self.filters[f]
+            for d in range(filter.weights.shape[0]):
+                conv(self.padded_input_array[d],
+                     expanded_array[f],
+                     filter.weights_grad[d], 1, 0)
+            # 计算偏置项的梯度
+            filter.bias_grad = expanded_array[f].sum()
+
+    def expand_sensitivity_map(self, sensitivity_array):
+        depth = sensitivity_array.shape[0]
+        # 确定扩展后sensitivity map的大小
+        # 计算stride为1时sensitivity map的大小
+        expanded_width = (self.input_width -
+                          self.filter_width + 2 * self.zero_padding + 1)
+        expanded_height = (self.input_height -
+                           self.filter_height + 2 * self.zero_padding + 1)
+        # 构建新的sensitivity_map
+        expand_array = np.zeros((depth, expanded_height,
+                                 expanded_width))
+        # 从原始sensitivity map拷贝误差值
+        for i in range(self.output_height):
+            for j in range(self.output_width):
+                i_pos = i * self.stride
+                j_pos = j * self.stride
+                expand_array[:, i_pos, j_pos] = \
+                    sensitivity_array[:, i, j]
+        return expand_array
+
+    def create_delta_array(self):
+        return np.zeros((self.channel_number,
+                         self.input_height, self.input_width))
+
+    @staticmethod
+    def calculate_output_size(input_size,
+                              filter_size, zero_padding, stride):
+        return (input_size - filter_size +
+                2 * zero_padding) // stride + 1
+
+
+class MaxPoolingLayer(object):
+    def __init__(self, input_width, input_height,
+                 channel_number, filter_width,
+                 filter_height, stride):
+        self.input_width = input_width
+        self.input_height = input_height
+        self.channel_number = channel_number
+        self.filter_width = filter_width
+        self.filter_height = filter_height
+        self.stride = stride
+        self.output_width = (input_width -
+                             filter_width) // self.stride + 1
+        self.output_height = (input_height -
+                              filter_height) // self.stride + 1
+        self.output_array = np.zeros((self.channel_number,
+                                      self.output_height, self.output_width))
+
+    def forward(self, input_array):
+        for d in range(self.channel_number):
+            for i in range(self.output_height):
+                for j in range(self.output_width):
+                    self.output_array[d, i, j] = (
+                        get_patch(input_array[d], i, j,
+                                  self.filter_width,
+                                  self.filter_height,
+                                  self.stride).max())
+
+    def backward(self, input_array, sensitivity_array):
+        self.delta_array = np.zeros(input_array.shape)
+        for d in range(self.channel_number):
+            for i in range(self.output_height):
+                for j in range(self.output_width):
+                    patch_array = get_patch(
+                        input_array[d], i, j,
+                        self.filter_width,
+                        self.filter_height,
+                        self.stride)
+                    k, l = get_max_index(patch_array)
+                    self.delta_array[d,
+                                     i * self.stride + k,
+                                     j * self.stride + l] = \
+                        sensitivity_array[d, i, j]
+
+
+def init_test():
+    a = np.array(
+        [[[0, 1, 1, 0, 2],
+          [2, 2, 2, 2, 1],
+          [1, 0, 0, 2, 0],
+          [0, 1, 1, 0, 0],
+          [1, 2, 0, 0, 2]],
+         [[1, 0, 2, 2, 0],
+          [0, 0, 0, 2, 0],
+          [1, 2, 1, 2, 1],
+          [1, 0, 0, 0, 0],
+          [1, 2, 1, 1, 1]],
+         [[2, 1, 2, 0, 0],
+          [1, 0, 0, 1, 0],
+          [0, 2, 1, 0, 1],
+          [0, 1, 2, 2, 2],
+          [2, 1, 0, 0, 1]]])
+    b = np.array(
+        [[[0, 1, 1],
+          [2, 2, 2],
+          [1, 0, 0]],
+         [[1, 0, 2],
+          [0, 0, 0],
+          [1, 2, 1]]])
+    cl = ConvLayer(5, 5, 3, 3, 3, 2, 1, 2, IdentityActivator(), 0.001)
+    cl.filters[0].weights = np.array(
+        [[[-1, 1, 0],
+          [0, 1, 0],
+          [0, 1, 1]],
+         [[-1, -1, 0],
+          [0, 0, 0],
+          [0, -1, 0]],
+         [[0, 0, -1],
+          [0, 1, 0],
+          [1, -1, -1]]], dtype=np.float64)
+    cl.filters[0].bias = 1
+    cl.filters[1].weights = np.array(
+        [[[1, 1, -1],
+          [-1, -1, 1],
+          [0, -1, 1]],
+         [[0, 1, 0],
+          [-1, 0, -1],
+          [-1, 1, 0]],
+         [[-1, 0, 0],
+          [-1, 0, 1],
+          [-1, 0, 0]]], dtype=np.float64)
+    return a, b, cl
+
+
+def test():
+    a, b, cl = init_test()
+    cl.forward(a)
+    print(
+    cl.output_array)
+
+
+def test_bp():
+    a, b, cl = init_test()
+    cl.backward(a, b, IdentityActivator())
+    cl.update()
+    print(
+    cl.filters[0])
+    print(
+    cl.filters[1])
+
+def gradient_check():
+    '''
+    梯度检查
+    '''
+    # 设计一个误差函数，取所有节点输出项之和
+    error_function = lambda o: o.sum()
+
+    # 计算forward值
+    a, b, cl = init_test()
+    cl.forward(a)
+
+    # 求取sensitivity map
+    sensitivity_array = np.ones(cl.output_array.shape,
+                                dtype=np.float64)
+    # 计算梯度
+    cl.backward(a, sensitivity_array,
+                IdentityActivator())
+    # 检查梯度
+    epsilon = 10e-4
+    for d in range(cl.filters[0].weights_grad.shape[0]):
+        for i in range(cl.filters[0].weights_grad.shape[1]):
+            for j in range(cl.filters[0].weights_grad.shape[2]):
+                cl.filters[0].weights[d, i, j] += epsilon
+                cl.forward(a)
+                err1 = error_function(cl.output_array)
+                cl.filters[0].weights[d, i, j] -= 2 * epsilon
+                cl.forward(a)
+                err2 = error_function(cl.output_array)
+                expect_grad = (err1 - err2) / (2 * epsilon)
+                cl.filters[0].weights[d, i, j] += epsilon
+                print(
+                'weights(%d,%d,%d): expected - actural %f - %f' % (
+                    d, i, j, expect_grad, cl.filters[0].weights_grad[d, i, j]))
+
+
+def init_pool_test():
+    a = np.array(
+        [[[1, 1, 2, 4],
+          [5, 6, 7, 8],
+          [3, 2, 1, 0],
+          [1, 2, 3, 4]],
+         [[0, 1, 2, 3],
+          [4, 5, 6, 7],
+          [8, 9, 0, 1],
+          [3, 4, 5, 6]]], dtype=np.float64)
+
+    b = np.array(
+        [[[1, 2],
+          [2, 4]],
+         [[3, 5],
+          [8, 2]]], dtype=np.float64)
+
+    mpl = MaxPoolingLayer(4, 4, 2, 2, 2, 2)
+
+    return a, b, mpl
+
+
+def test_pool():
+    a, b, mpl = init_pool_test()
+    mpl.forward(a)
+    print(
+    'input array:\n%s\noutput array:\n%s' % (a,
+                                             mpl.output_array))
+
+
+def test_pool_bp():
+    a, b, mpl = init_pool_test()
+    mpl.backward(a, b)
+    print(
+    'input array:\n%s\nsensitivity array:\n%s\ndelta array:\n%s' % (
+        a, b, mpl.delta_array))
+
+
+if __name__=='__main__':
+    gradient_check()
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/dl/fc.py b/机器学习/殷康龙/源代码/dl/fc.py
new file mode 100644
index 00000000..04c9fe75
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/fc.py
@@ -0,0 +1,229 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+
+import random
+import numpy as np
+from functools import reduce
+from activators import SigmoidActivator, IdentityActivator
+
+
+# 全连接层实现类
+class FullConnectedLayer(object):
+    def __init__(self, input_size, output_size, 
+                 activator):
+        '''
+        构造函数
+        input_size: 本层输入向量的维度
+        output_size: 本层输出向量的维度
+        activator: 激活函数
+        '''
+        self.input_size = input_size
+        self.output_size = output_size
+        self.activator = activator
+        # 权重数组W
+        self.W = np.random.uniform(-0.1, 0.1,
+            (output_size, input_size))
+        # 偏置项b
+        self.b = np.zeros((output_size, 1))
+        # 输出向量
+        self.output = np.zeros((output_size, 1))
+
+    def forward(self, input_array):
+        '''
+        前向计算
+        input_array: 输入向量，维度必须等于input_size
+        '''
+        # 式2
+        self.input = input_array
+        self.output = self.activator.forward(
+            np.dot(self.W, input_array) + self.b)
+
+    def backward(self, delta_array):
+        '''
+        反向计算W和b的梯度
+        delta_array: 从上一层传递过来的误差项
+        '''
+        # 式8
+        self.delta = self.activator.backward(self.input) * np.dot(
+            self.W.T, delta_array)
+        self.W_grad = np.dot(delta_array, self.input.T)
+        self.b_grad = delta_array
+
+    def update(self, learning_rate):
+        '''
+        使用梯度下降算法更新权重
+        '''
+        self.W += learning_rate * self.W_grad
+        self.b += learning_rate * self.b_grad
+
+    def dump(self):
+        print('W: %s\nb:%s' % (self.W, self.b))
+
+
+# 神经网络类
+class Network(object):
+    def __init__(self, layers):
+        '''
+        构造函数
+        '''
+        self.layers = []
+        for i in range(len(layers) - 1):
+            self.layers.append(
+                FullConnectedLayer(
+                    layers[i], layers[i+1],
+                    SigmoidActivator()
+                )
+            )
+
+    def predict(self, sample):
+        '''
+        使用神经网络实现预测
+        sample: 输入样本
+        '''
+        output = sample
+        for layer in self.layers:
+            layer.forward(output)
+            output = layer.output
+        return output
+
+    def train(self, labels, data_set, rate, epoch):
+        '''
+        训练函数
+        labels: 样本标签
+        data_set: 输入样本
+        rate: 学习速率
+        epoch: 训练轮数
+        '''
+        for i in range(epoch):
+            for d in range(len(list(data_set))):
+                self.train_one_sample(labels[d], 
+                    data_set[d], rate)
+
+    def train_one_sample(self, label, sample, rate):
+        self.predict(sample)
+        self.calc_gradient(label)
+        self.update_weight(rate)
+
+    def calc_gradient(self, label):
+        delta = self.layers[-1].activator.backward(
+            self.layers[-1].output
+        ) * (label - self.layers[-1].output)
+        for layer in self.layers[::-1]:
+            layer.backward(delta)
+            delta = layer.delta
+        return delta
+
+    def update_weight(self, rate):
+        for layer in self.layers:
+            layer.update(rate)
+
+    def dump(self):
+        for layer in self.layers:
+            layer.dump()
+
+    def loss(self, output, label):
+        return 0.5 * ((label - output) * (label - output)).sum()
+
+    def gradient_check(self, sample_feature, sample_label):
+        '''
+        梯度检查
+        network: 神经网络对象
+        sample_feature: 样本的特征
+        sample_label: 样本的标签
+        '''
+
+        # 获取网络在当前样本下每个连接的梯度
+        self.predict(sample_feature)
+        self.calc_gradient(sample_label)
+
+        # 检查梯度
+        epsilon = 10e-4
+        for fc in self.layers:
+            for i in range(fc.W.shape[0]):
+                for j in range(fc.W.shape[1]):
+                    fc.W[i,j] += epsilon
+                    output = self.predict(sample_feature)
+                    err1 = self.loss(sample_label, output)
+                    fc.W[i,j] -= 2*epsilon
+                    output = self.predict(sample_feature)
+                    err2 = self.loss(sample_label, output)
+                    expect_grad = (err1 - err2) / (2 * epsilon)
+                    fc.W[i,j] += epsilon
+                    print('weights(%d,%d): expected - actural %.4e - %.4e' % (
+                        i, j, expect_grad, fc.W_grad[i,j]))
+
+
+from bp import train_data_set
+
+
+def transpose(args):
+    return map(
+        lambda arg: map(
+            lambda line: np.array(line).reshape(len(line), 1)
+            , arg)
+        , args
+    )
+
+
+class Normalizer(object):
+    def __init__(self):
+        self.mask = [
+            0x1, 0x2, 0x4, 0x8, 0x10, 0x20, 0x40, 0x80
+        ]
+
+    def norm(self, number):
+        data = list(map(lambda m: 0.9 if number & m else 0.1, self.mask))
+        return np.array(data).reshape(8, 1)
+
+    def denorm(self, vec):
+        binary = list(map(lambda i: 1 if i > 0.5 else 0, vec[:,0]))
+        for i in range(len(self.mask)):
+            binary[i] = binary[i] * self.mask[i]
+        return reduce(lambda x,y: x + y, binary)
+
+def train_data_set():
+    normalizer = Normalizer()
+    data_set = []
+    labels = []
+    for i in range(0, 256):
+        n = normalizer.norm(i)
+        data_set.append(n)
+        labels.append(n)
+    return labels, data_set
+
+def correct_ratio(network):
+    normalizer = Normalizer()
+    correct = 0.0;
+    for i in range(256):
+        if normalizer.denorm(network.predict(normalizer.norm(i))) == i:
+            correct += 1.0
+    print('correct_ratio: %.2f%%' % (correct / 256 * 100))
+
+
+def test():
+    labels, data_set = list(transpose(train_data_set()))
+    labels=list(labels)
+    data_set=list(data_set)
+    net = Network([8, 3, 8])
+    rate = 0.5
+    mini_batch = 20
+    epoch = 10
+    for i in range(epoch):
+        net.train(labels, list(data_set), rate, mini_batch)
+        print('after epoch %d loss: %f' % (
+            (i + 1),
+            net.loss(labels[-1], net.predict(data_set[-1]))
+        ))
+        rate /= 2
+    correct_ratio(net)
+
+
+def gradient_check():
+    '''
+    梯度检查
+    '''
+    labels, data_set = transpose(train_data_set())
+    net = Network([8, 3, 8])
+    net.gradient_check(data_set[0], labels[0])
+    return net
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/dl/linear_unit.py b/机器学习/殷康龙/源代码/dl/linear_unit.py
new file mode 100644
index 00000000..93a85fcc
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/linear_unit.py
@@ -0,0 +1,175 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+# 引入 Perceptron 类
+from perceptron import Perceptron
+
+# 定义激活函数 f
+f = lambda x: x
+
+class LinearUnit(Perceptron):
+    '''
+    Desc:
+        线性单元类
+    Args:
+        Perceptron —— 感知器
+    Returns:
+        None
+    '''
+    def __init__(self, input_num):
+        '''
+        Desc:
+            初始化线性单元，设置输入参数的个数
+        Args:
+            input_num —— 输入参数的个数
+        Returns:
+            None
+        '''
+        # 初始化我们的感知器类，设置输入参数的个数 input_num 和 激活函数 f
+        Perceptron.__init__(self, input_num, f)
+
+# 构造简单的数据集
+def get_training_dataset():
+    '''
+    Desc:
+        构建一个简单的训练数据集
+    Args:
+        None
+    Returns:
+        input_vecs —— 训练数据集的特征部分
+        labels —— 训练数据集的数据对应的标签，是一一对应的
+    '''
+    # 构建数据集，输入向量列表，每一项是工作年限
+    input_vecs = [[5], [3], [8], [1.4], [10.1]]
+    # 期望的输出列表，也就是输入向量的对应的标签，与工作年限对应的收入年薪
+    labels = [5500, 2300, 7600, 1800, 11400]
+    return input_vecs, labels
+
+
+# 使用我们的训练数据集对线性单元进行训练
+def train_linear_unit():
+    '''
+    Desc:
+        使用训练数据集对我们的线性单元进行训练
+    Args:
+        None
+    Returns:
+        lu —— 返回训练好的线性单元
+    '''
+    # 创建感知器对象，输入参数的个数也就是特征数为 1（工作年限）
+    lu = LinearUnit(1)
+    # 获取构建的数据集
+    input_vecs, labels = get_training_dataset()
+    # 训练感知器，迭代 10 轮，学习率为 0.01
+    lu.train(input_vecs, labels, 10, 0.01)
+    # 返回训练好的线性单元
+    return lu
+
+
+# 将图像画出来
+def plot(linear_unit):
+    '''
+    Desc:
+        将我们训练好的线性单元对数据的分类情况作图画出来
+    Args:
+        linear_unit —— 训练好的线性单元
+    Returns:
+        None
+    '''
+    # 引入绘图的库
+    import matplotlib.pyplot as plt
+    # 获取训练数据: 特征 input_vecs 与 对应的标签 labels
+    input_vecs, labels = get_training_dataset()
+    # figure() 创建一个 Figure 对象，与用户交互的整个窗口，这个 figure 中容纳着 subplots
+    fig = plt.figure()
+    # 在 figure 对象中创建 1行1列中的第一个图
+    ax = fig.add_subplot(111)
+    # scatter(x, y) 绘制散点图，其中的 x,y 是相同长度的数组序列
+    
+    ax.scatter(list(map(lambda x: x[0], input_vecs)), labels)
+
+    # 设置权重
+    weights = linear_unit.weights
+    # 设置偏置项
+    bias = linear_unit.bias
+    
+    y1 = 0*linear_unit.weights[0]+linear_unit.bias
+    y2 = 12*linear_unit.weights[0]+ linear_unit.bias
+    # 将图画出来
+    plt.plot([0,12],[y1,y2])
+
+    # 将最终的图展示出来
+    plt.show()
+
+
+if __name__ == '__main__':
+    '''
+    Desc:
+        main 函数，训练我们的线性单元，并进行预测
+    Args:
+        None
+    Returns:
+        None
+    '''
+    # 首先训练我们的线性单元
+    linear_unit = train_linear_unit()
+    # 打印训练获得的权重 和 偏置
+    print(linear_unit)
+    # 测试
+    print('Work 3.4 years, monthly salary = %.2f' % linear_unit.predict([3.4]))
+    print('Work 15 years, monthly salary = %.2f' % linear_unit.predict([15]))
+    print('Work 1.5 years, monthly salary = %.2f' % linear_unit.predict([1.5]))
+    print('Work 6.3 years, monthly salary = %.2f' % linear_unit.predict([6.3]))
+    plot(linear_unit)
+
+from Perceptron import Perceptron
+from matplotlib import  pyplot as plt
+#定义激活函数f
+f = lambda x: x
+class LinearUnit(Perceptron):
+    def __init__(self, input_num):
+        '''初始化线性单元，设置输入参数的个数'''
+        Perceptron.__init__(self, input_num, f)
+
+
+def get_train_dataset():
+    input_vecs = [[5],[3],[8],[1.4],[10.1]]
+    labels = [5500,2300,7600,1800,11400]
+    return input_vecs,labels
+
+def train_linear_unit():
+    lu = LinearUnit(1)
+    input_vecs,labels = get_train_dataset()
+    lu.train(input_vecs,labels,10,0.01)
+    return  lu
+
+'''
+#画图模块
+def plot(linear_unit):
+    import matplotlib.pyplot as plt
+    input_vecs, labels = get_training_dataset()
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+    ax.scatter(map(lambda x: x[0], input_vecs), labels)
+    weights = linear_unit.weights
+    bias = linear_unit.bias
+    x = range(0,12,1)
+    y = map(lambda x:weights[0] * x + bias, x)
+    ax.plot(x, y)
+    plt.show()
+'''
+
+if __name__=='__main__':
+    linear_unit = train_linear_unit()
+    input_vecs,labels = get_train_dataset()
+    print(linear_unit)
+    print('Work 3.4 years, monthly salary = %.2f' % linear_unit.predict([3.4]))
+    print('Work 15 years, monthly salary = %.2f' % linear_unit.predict([15]))
+    print('Work 1.5 years, monthly salary = %.2f' % linear_unit.predict([1.5]))
+    print('Work 6.3 years, monthly salary = %.2f' % linear_unit.predict([6.3]))
+    print(linear_unit.weights)
+    plt.scatter(input_vecs,labels)
+    y1 = 0*linear_unit.weights[0]+linear_unit.bias
+    y2 = 12*linear_unit.weights[0]+ linear_unit.bias
+    plt.plot([0,12],[y1,y2])
+    plt.show()
diff --git a/机器学习/殷康龙/源代码/dl/lstm.py b/机器学习/殷康龙/源代码/dl/lstm.py
new file mode 100644
index 00000000..cf2562cc
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/lstm.py
@@ -0,0 +1,336 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+
+import matplotlib.pyplot as plt
+import numpy as np
+from cnn import element_wise_op
+from activators import SigmoidActivator, TanhActivator, IdentityActivator
+
+
+class LstmLayer(object):
+    def __init__(self, input_width, state_width, 
+                 learning_rate):
+        self.input_width = input_width
+        self.state_width = state_width
+        self.learning_rate = learning_rate
+        # 门的激活函数
+        self.gate_activator = SigmoidActivator()
+        # 输出的激活函数
+        self.output_activator = TanhActivator()
+        # 当前时刻初始化为t0
+        self.times = 0       
+        # 各个时刻的单元状态向量c
+        self.c_list = self.init_state_vec()
+        # 各个时刻的输出向量h
+        self.h_list = self.init_state_vec()
+        # 各个时刻的遗忘门f
+        self.f_list = self.init_state_vec()
+        # 各个时刻的输入门i
+        self.i_list = self.init_state_vec()
+        # 各个时刻的输出门o
+        self.o_list = self.init_state_vec()
+        # 各个时刻的即时状态c~
+        self.ct_list = self.init_state_vec()
+        # 遗忘门权重矩阵Wfh, Wfx, 偏置项bf
+        self.Wfh, self.Wfx, self.bf = (
+            self.init_weight_mat())
+        # 输入门权重矩阵Wfh, Wfx, 偏置项bf
+        self.Wih, self.Wix, self.bi = (
+            self.init_weight_mat())
+        # 输出门权重矩阵Wfh, Wfx, 偏置项bf
+        self.Woh, self.Wox, self.bo = (
+            self.init_weight_mat())
+        # 单元状态权重矩阵Wfh, Wfx, 偏置项bf
+        self.Wch, self.Wcx, self.bc = (
+            self.init_weight_mat())
+
+    def init_state_vec(self):
+        '''
+        初始化保存状态的向量
+        '''
+        state_vec_list = []
+        state_vec_list.append(np.zeros(
+            (self.state_width, 1)))
+        return state_vec_list
+
+    def init_weight_mat(self):
+        '''
+        初始化权重矩阵
+        '''
+        Wh = np.random.uniform(-1e-4, 1e-4,
+            (self.state_width, self.state_width))
+        Wx = np.random.uniform(-1e-4, 1e-4,
+            (self.state_width, self.input_width))
+        b = np.zeros((self.state_width, 1))
+        return Wh, Wx, b
+
+    def forward(self, x):
+        '''
+        根据式1-式6进行前向计算
+        '''
+        self.times += 1
+        # 遗忘门
+        fg = self.calc_gate(x, self.Wfx, self.Wfh, 
+            self.bf, self.gate_activator)
+        self.f_list.append(fg)
+        # 输入门
+        ig = self.calc_gate(x, self.Wix, self.Wih,
+            self.bi, self.gate_activator)
+        self.i_list.append(ig)
+        # 输出门
+        og = self.calc_gate(x, self.Wox, self.Woh,
+            self.bo, self.gate_activator)
+        self.o_list.append(og)
+        # 即时状态
+        ct = self.calc_gate(x, self.Wcx, self.Wch,
+            self.bc, self.output_activator)
+        self.ct_list.append(ct)
+        # 单元状态
+        c = fg * self.c_list[self.times - 1] + ig * ct
+        self.c_list.append(c)
+        # 输出
+        h = og * self.output_activator.forward(c)
+        self.h_list.append(h)
+
+    def calc_gate(self, x, Wx, Wh, b, activator):
+        '''
+        计算门
+        '''
+        h = self.h_list[self.times - 1] # 上次的LSTM输出
+        net = np.dot(Wh, h) + np.dot(Wx, x) + b
+        gate = activator.forward(net)
+        return gate
+
+
+    def backward(self, x, delta_h, activator):
+        '''
+        实现LSTM训练算法
+        '''
+        self.calc_delta(delta_h, activator)
+        self.calc_gradient(x)
+
+    def update(self):
+        '''
+        按照梯度下降，更新权重
+        '''
+        self.Wfh -= self.learning_rate * self.Whf_grad
+        self.Wfx -= self.learning_rate * self.Whx_grad
+        self.bf -= self.learning_rate * self.bf_grad
+        self.Wih -= self.learning_rate * self.Whi_grad
+        self.Wix -= self.learning_rate * self.Whi_grad
+        self.bi -= self.learning_rate * self.bi_grad
+        self.Woh -= self.learning_rate * self.Wof_grad
+        self.Wox -= self.learning_rate * self.Wox_grad
+        self.bo -= self.learning_rate * self.bo_grad
+        self.Wch -= self.learning_rate * self.Wcf_grad
+        self.Wcx -= self.learning_rate * self.Wcx_grad
+        self.bc -= self.learning_rate * self.bc_grad
+
+    def calc_delta(self, delta_h, activator):
+        # 初始化各个时刻的误差项
+        self.delta_h_list = self.init_delta()  # 输出误差项
+        self.delta_o_list = self.init_delta()  # 输出门误差项
+        self.delta_i_list = self.init_delta()  # 输入门误差项
+        self.delta_f_list = self.init_delta()  # 遗忘门误差项
+        self.delta_ct_list = self.init_delta() # 即时输出误差项
+
+        # 保存从上一层传递下来的当前时刻的误差项
+        self.delta_h_list[-1] = delta_h
+        
+        # 迭代计算每个时刻的误差项
+        for k in range(self.times, 0, -1):
+            self.calc_delta_k(k)
+
+    def init_delta(self):
+        '''
+        初始化误差项
+        '''
+        delta_list = []
+        for i in range(self.times + 1):
+            delta_list.append(np.zeros(
+                (self.state_width, 1)))
+        return delta_list
+
+    def calc_delta_k(self, k):
+        '''
+        根据k时刻的delta_h，计算k时刻的delta_f、
+        delta_i、delta_o、delta_ct，以及k-1时刻的delta_h
+        '''
+        # 获得k时刻前向计算的值
+        ig = self.i_list[k]
+        og = self.o_list[k]
+        fg = self.f_list[k]
+        ct = self.ct_list[k]
+        c = self.c_list[k]
+        c_prev = self.c_list[k-1]
+        tanh_c = self.output_activator.forward(c)
+        delta_k = self.delta_h_list[k]
+
+        # 根据式9计算delta_o
+        delta_o = (delta_k * tanh_c * 
+            self.gate_activator.backward(og))
+        delta_f = (delta_k * og * 
+            (1 - tanh_c * tanh_c) * c_prev *
+            self.gate_activator.backward(fg))
+        delta_i = (delta_k * og * 
+            (1 - tanh_c * tanh_c) * ct *
+            self.gate_activator.backward(ig))
+        delta_ct = (delta_k * og * 
+            (1 - tanh_c * tanh_c) * ig *
+            self.output_activator.backward(ct))
+        delta_h_prev = (
+                np.dot(delta_o.transpose(), self.Woh) +
+                np.dot(delta_i.transpose(), self.Wih) +
+                np.dot(delta_f.transpose(), self.Wfh) +
+                np.dot(delta_ct.transpose(), self.Wch)
+            ).transpose()
+
+        # 保存全部delta值
+        self.delta_h_list[k-1] = delta_h_prev
+        self.delta_f_list[k] = delta_f
+        self.delta_i_list[k] = delta_i
+        self.delta_o_list[k] = delta_o
+        self.delta_ct_list[k] = delta_ct
+
+    def calc_gradient(self, x):
+        # 初始化遗忘门权重梯度矩阵和偏置项
+        self.Wfh_grad, self.Wfx_grad, self.bf_grad = (
+            self.init_weight_gradient_mat())
+        # 初始化输入门权重梯度矩阵和偏置项
+        self.Wih_grad, self.Wix_grad, self.bi_grad = (
+            self.init_weight_gradient_mat())
+        # 初始化输出门权重梯度矩阵和偏置项
+        self.Woh_grad, self.Wox_grad, self.bo_grad = (
+            self.init_weight_gradient_mat())
+        # 初始化单元状态权重梯度矩阵和偏置项
+        self.Wch_grad, self.Wcx_grad, self.bc_grad = (
+            self.init_weight_gradient_mat())
+
+       # 计算对上一次输出h的权重梯度
+        for t in range(self.times, 0, -1):
+            # 计算各个时刻的梯度
+            (Wfh_grad, bf_grad,
+            Wih_grad, bi_grad,
+            Woh_grad, bo_grad,
+            Wch_grad, bc_grad) = (
+                self.calc_gradient_t(t))
+            # 实际梯度是各时刻梯度之和
+            self.Wfh_grad += Wfh_grad
+            self.bf_grad += bf_grad
+            self.Wih_grad += Wih_grad
+            self.bi_grad += bi_grad
+            self.Woh_grad += Woh_grad
+            self.bo_grad += bo_grad
+            self.Wch_grad += Wch_grad
+            self.bc_grad += bc_grad
+
+        # 计算对本次输入x的权重梯度
+        xt = x.transpose()
+        self.Wfx_grad = np.dot(self.delta_f_list[-1], xt)
+        self.Wix_grad = np.dot(self.delta_i_list[-1], xt)
+        self.Wox_grad = np.dot(self.delta_o_list[-1], xt)
+        self.Wcx_grad = np.dot(self.delta_ct_list[-1], xt)
+
+    def init_weight_gradient_mat(self):
+        '''
+        初始化权重矩阵
+        '''
+        Wh_grad = np.zeros((self.state_width,
+            self.state_width))
+        Wx_grad = np.zeros((self.state_width,
+            self.input_width))
+        b_grad = np.zeros((self.state_width, 1))
+        return Wh_grad, Wx_grad, b_grad
+
+    def calc_gradient_t(self, t):
+        '''
+        计算每个时刻t权重的梯度
+        '''
+        h_prev = self.h_list[t-1].transpose()
+        Wfh_grad = np.dot(self.delta_f_list[t], h_prev)
+        bf_grad = self.delta_f_list[t]
+        Wih_grad = np.dot(self.delta_i_list[t], h_prev)
+        bi_grad = self.delta_f_list[t]
+        Woh_grad = np.dot(self.delta_o_list[t], h_prev)
+        bo_grad = self.delta_f_list[t]
+        Wch_grad = np.dot(self.delta_ct_list[t], h_prev)
+        bc_grad = self.delta_ct_list[t]
+        return Wfh_grad, bf_grad, Wih_grad, bi_grad, \
+               Woh_grad, bo_grad, Wch_grad, bc_grad
+
+    def reset_state(self):
+        # 当前时刻初始化为t0
+        self.times = 0       
+        # 各个时刻的单元状态向量c
+        self.c_list = self.init_state_vec()
+        # 各个时刻的输出向量h
+        self.h_list = self.init_state_vec()
+        # 各个时刻的遗忘门f
+        self.f_list = self.init_state_vec()
+        # 各个时刻的输入门i
+        self.i_list = self.init_state_vec()
+        # 各个时刻的输出门o
+        self.o_list = self.init_state_vec()
+        # 各个时刻的即时状态c~
+        self.ct_list = self.init_state_vec()
+
+
+def data_set():
+    x = [np.array([[1], [2], [3]]),
+         np.array([[2], [3], [4]])]
+    d = np.array([[1], [2]])
+    return x, d
+
+
+def gradient_check():
+    '''
+    梯度检查
+    '''
+    # 设计一个误差函数，取所有节点输出项之和
+    error_function = lambda o: o.sum()
+    
+    lstm = LstmLayer(3, 2, 1e-3)
+
+    # 计算forward值
+    x, d = data_set()
+    lstm.forward(x[0])
+    lstm.forward(x[1])
+    
+    # 求取sensitivity map
+    sensitivity_array = np.ones(lstm.h_list[-1].shape,
+                                dtype=np.float64)
+    # 计算梯度
+    lstm.backward(x[1], sensitivity_array, IdentityActivator())
+    
+    # 检查梯度
+    epsilon = 10e-4
+    for i in range(lstm.Wfh.shape[0]):
+        for j in range(lstm.Wfh.shape[1]):
+            lstm.Wfh[i,j] += epsilon
+            lstm.reset_state()
+            lstm.forward(x[0])
+            lstm.forward(x[1])
+            err1 = error_function(lstm.h_list[-1])
+            lstm.Wfh[i,j] -= 2*epsilon
+            lstm.reset_state()
+            lstm.forward(x[0])
+            lstm.forward(x[1])
+            err2 = error_function(lstm.h_list[-1])
+            expect_grad = (err1 - err2) / (2 * epsilon)
+            lstm.Wfh[i,j] += epsilon
+            print('weights(%d,%d): expected - actural %.4e - %.4e' % (
+                i, j, expect_grad, lstm.Wfh_grad[i,j]))
+    return lstm
+
+
+def test():
+    l = LstmLayer(3, 2, 1e-3)
+    x, d = data_set()
+    l.forward(x[0])
+    l.forward(x[1])
+    l.backward(x[1], d, IdentityActivator())
+    return l
+
+def test_gradient_check():
+    gradient_check()
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/dl/mnist.py b/机器学习/殷康龙/源代码/dl/mnist.py
new file mode 100644
index 00000000..b5e59877
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/mnist.py
@@ -0,0 +1,185 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+import struct
+from fc import *
+from datetime import datetime
+import warnings
+#忽略警告一把梭，忽略了sigmoid函数位数溢出的警告
+warnings.filterwarnings('ignore')
+
+
+# 数据加载器基类
+class Loader(object):
+    def __init__(self, path, count):
+        '''
+        初始化加载器
+        path: 数据文件路径
+        count: 文件中的样本个数
+        '''
+        self.path = path
+        self.count = count
+
+    def get_file_content(self):
+        '''
+        读取文件内容
+        '''
+        f = open(self.path, 'rb')
+        content = f.read()
+        f.close()
+        return list(content)
+
+    def to_int(self, byte):
+        '''
+        将unsigned byte字符转换为整数
+        '''
+        #return struct.unpack('B', byte)[0]
+        return byte
+
+# 图像数据加载器
+class ImageLoader(Loader):
+    def get_picture(self, content, index):
+        '''
+        内部函数，从文件中获取图像
+        '''
+        start = index * 28 * 28 + 16
+        picture = []
+        for i in range(28):
+            picture.append([])
+            for j in range(28):
+                picture[i].append(
+                    self.to_int(content[start + i * 28 + j]))
+        return picture
+
+    def get_one_sample(self, picture):
+        '''
+        内部函数，将图像转化为样本的输入向量
+        '''
+        sample = []
+        for i in range(28):
+            for j in range(28):
+                sample.append(picture[i][j])
+        return sample
+
+    def load(self):
+        '''
+        加载数据文件，获得全部样本的输入向量
+        '''
+        content = self.get_file_content()
+        data_set = []
+        for index in range(self.count):
+            data_set.append(
+                self.get_one_sample(
+                    self.get_picture(content, index)))
+        return data_set
+
+
+# 标签数据加载器
+class LabelLoader(Loader):
+    def load(self):
+        '''
+        加载数据文件，获得全部样本的标签向量
+        '''
+        content = self.get_file_content()
+        labels = []
+        for index in range(self.count):
+            labels.append(self.norm(content[index + 8]))
+        return labels
+
+    def norm(self, label):
+        '''
+        内部函数，将一个值转换为10维标签向量
+        '''
+        label_vec = []
+        label_value = self.to_int(label)
+        for i in range(10):
+            if i == label_value:
+                label_vec.append(0.9)
+            else:
+                label_vec.append(0.1)
+        return label_vec
+
+
+def get_training_data_set():
+    '''
+    获得训练数据集
+    原文为60000的数据集，但训练速度过于缓慢，这里
+    '''
+    image_loader = ImageLoader('./data/train-images-idx3-ubyte', 60000)
+    label_loader = LabelLoader('./data/train-labels-idx1-ubyte', 60000)
+    return image_loader.load(), label_loader.load()
+
+
+def get_test_data_set():
+    '''
+    获得测试数据集
+    '''
+    image_loader = ImageLoader('t10k-images-idx3-ubyte', 10000)
+    label_loader = LabelLoader('t10k-labels-idx1-ubyte', 10000)
+    return image_loader.load(), label_loader.load()
+
+
+def show(sample):
+    str = ''
+    for i in range(28):
+        for j in range(28):
+            if sample[i*28+j] != 0:
+                str += '*'
+            else:
+                str += ' '
+        str += '\n'
+    print(str)
+
+
+def get_result(vec):
+    max_value_index = 0
+    max_value = 0
+    vec = list(vec)
+    for i in range(len(vec)):
+        if vec[i] > max_value:
+            max_value = vec[i]
+            max_value_index = i
+    return max_value_index
+
+
+def evaluate(network, test_data_set, test_labels):
+    error = 0
+    total = len(test_data_set)
+
+    for i in range(total):
+        label = get_result(test_labels[i])
+        predict = get_result(network.predict(test_data_set[i]))
+        if label != predict:
+            error += 1
+    return float(error) / float(total)
+
+
+def now():
+    return datetime.now().strftime('%c')
+
+
+def train_and_evaluate():
+    last_error_ratio = 1.0
+    epoch = 0
+    train_data_set, train_labels = transpose(get_training_data_set())
+    test_data_set, test_labels = transpose(get_test_data_set())
+    train_data_set =list(train_data_set)
+    train_labels = list(train_labels)
+    test_data_set = list(test_data_set)
+    test_labels = list(test_labels)
+    network = Network([784, 100, 10])
+    while True:
+        epoch += 1
+        network.train(train_labels, train_data_set, 0.01, 1)
+        print('%s epoch %d finished, loss %f' % (now(), epoch,
+            network.loss(train_labels[-1], network.predict(train_data_set[-1]))))
+        if epoch % 2 == 0:
+            error_ratio = evaluate(network, test_data_set, test_labels)
+            print('%s after epoch %d, error ratio is %f' % (now(), epoch, error_ratio))
+            if error_ratio > last_error_ratio:
+                break
+            else:
+                last_error_ratio = error_ratio
+
+if __name__ == '__main__':
+    train_and_evaluate()
diff --git a/机器学习/殷康龙/源代码/dl/perceptron.py b/机器学习/殷康龙/源代码/dl/perceptron.py
new file mode 100644
index 00000000..5b5f85ca
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/perceptron.py
@@ -0,0 +1,199 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+from functools import reduce
+
+def add(x,y):
+    return  x+y
+
+
+class Perceptron(object):
+    '''
+       Desc:
+           感知器类
+       Args:
+           None
+       Returns:
+           None
+       '''
+    def __init__(self,input_num,activator):
+        '''
+              Desc:
+                  初始化感知器
+              Args:
+                  input_num —— 输入参数的个数
+                  activator —— 激活函数
+              Returns:
+                  None
+        '''
+        # 设置的激活函数
+        self.activator = activator
+        # 权重向量初始化为 0
+        self.weights = [0.0 for _ in range(input_num)]
+        # 偏置项初始化为 0
+        self.bias = 0.0
+
+    def __str__(self):
+        '''
+        Desc:
+            将感知器信息打印出来
+        Args:
+            None
+        Returns:
+            None
+        '''
+        return  'weights\t:%s\nbias\t:%f\n' % (self.weights, self.bias)
+
+    def predict(self,input_vec):
+        '''
+        Desc:
+            输入向量，输出感知器的计算结果
+        Args:
+            input_vec —— 输入向量
+        Returns:
+            感知器的计算结果
+        '''
+        # 将输入向量的计算结果返回
+        # 调用 激活函数 activator ，将输入向量输入，计算感知器的结果
+        # reduce() 函数是 python 2 的内置函数，从 python 3 开始移到了 functools 模块
+        # reduce() 从左到右对一个序列的项累计地应用有两个参数的函数，以此合并序列到一个单一值，例如 reduce(lambda x,y: x+y, [1,2,3,4,5]) 计算的就是 ((((1+2)+3)+4)+5)
+        # map() 接收一个函数 f 和一个 list ，并通过把函数 f 依次作用在 list 的每个元素上，得到一个新的 list 返回。比如我们的 f 函数是计算平方， map(f, [1,2,3,4,5]) ===> 返回 [1,4,9,16,25]
+        # zip() 接收任意多个（包括 0 个和 1个）序列作为参数，返回一个 tuple 列表。例: x = [1,2,3] y = [4,5,6] z = [7,8,9] xyz = zip(x, y, z) ===> [(1,4,7), (2,5,8), (3,6,9)]
+
+        pack = zip(input_vec,self.weights)
+        multi = []
+        for (x,w) in pack:
+            multi.append(x*w)
+        activtion = reduce(add, multi)
+        # 此处python3 lambda无法传入一个tuple的两个变量，因此将tuple当作一个整体，tp[0]为input_vec,tp[1]为self.weights
+        return self.activator(activtion + self.bias)
+        #还有一种更加简洁明了的写法，很清楚明白
+        # return self.activator(sum([x*w for (x,w) in zip(input_vec,self.weights)])+self.bias) 
+
+    def train(self,input_vecs,labels,iteration,rate):
+        '''
+        Desc:
+            输入训练数据: 一组向量、与每个向量对应的 label; 以及训练轮数、学习率
+        Args:
+            input_vec —— 输入向量
+            labels —— 数据对应的标签
+            iteration —— 训练的迭代轮数
+            rate —— 学习率
+        Returns:
+            None
+        '''
+        for i in range(iteration):
+            self._one_iteration(input_vecs,labels,rate)
+
+    def _one_iteration(self,input_vecs,labels,rate):
+        '''
+        Desc:
+            训练过程的一次迭代过程
+        Args:
+            input_vecs —— 输入向量
+            labels —— 数据对应的标签
+            rate —— 学习率
+        Returns:
+            None
+        '''
+        # zip() 接收任意多个（包括 0 个和 1个）序列作为参数，返回一个 tuple 列表。例: x = [1,2,3] y = [4,5,6] z = [7,8,9] xyz = zip(x, y, z) ===> [(1,4,7), (2,5,8), (3,6,9)]
+        samples = zip(input_vecs, labels)
+        # 对每个样本，按照感知器规则更新权重
+        for (input_vec, label) in samples:
+            # 计算感知器在当前权重下的输出
+            output = self.predict(input_vec)
+            # 更新权重
+            output = self._update_weights(input_vec, output, label, rate)
+
+    def _update_weights(self,input_vecs,output,labels,rate):
+        '''
+        Desc:
+            按照感知器规则更新权重
+        Args:
+            input_vec —— 输入向量
+            output —— 经过感知器规则计算得到的输出
+            label —— 输入向量对应的标签
+            rate —— 学习率
+        Returns:
+            None
+        '''
+        # 利用感知器规则更新权重
+        
+        delta = labels -output
+        # map() 接收一个函数 f 和一个 list ，并通过把函数 f 依次作用在 list 的每个元素上，得到一个新的 list 返回。比如我们的 f 函数是计算平方， map(f, [1,2,3,4,5]) ===> 返回 [1,4,9,16,25]
+        # zip() 接收任意多个（包括 0 个和 1个）序列作为参数，返回一个 tuple 列表。例: x = [1,2,3] y = [4,5,6] z = [7,8,9] xyz = zip(x, y, z) ===> [(1,4,7), (2,5,8), (3,6,9)]
+        # 此处python3必须对map函数进行list操作，不然 self.weights为map类型，最后无法打印出具体数值
+        pack  = zip(input_vecs,self.weights)
+        tmp = []
+        for (x,w) in pack:
+            tmp.append(w+x*delta*rate)
+        self.weights = tmp
+        # 更新 bias
+        self.bias = self.bias + delta*rate
+
+def f(x):
+    '''
+    Desc:
+        定义激活函数 f
+    Args:
+        x —— 输入向量
+    Returns:
+        （实现阶跃函数）大于 0 返回 1，否则返回 0
+    '''
+    if x>0:
+        return 1
+    else:
+        return 0
+
+def get_training_dataset():
+    '''
+    Desc:
+        基于 and 真值表来构建/获取训练数据集
+    Args:
+        None
+    Returns:
+        input_vecs —— 输入向量
+        labels —— 输入向量对应的标签
+    '''
+    # 构建训练数据，输入向量的列表
+    input_vecs = [[1,1],[0,0],[1,0],[0,1]]
+    # 期望的输出列表，也就是上面的输入向量的列表中数据对应的标签，是一一对应的
+    
+    labels = [1,0,0,0]
+    return input_vecs,labels
+
+def train_and_perception():
+    '''
+    Desc:
+        使用 and 真值表来训练我们的感知器
+    Args:
+        None
+    Returns:
+        p —— 返回训练好的感知器
+    '''
+    # 创建感知器，输入参数的个数是 2 个（因为 and 是个二元函数），激活函数为 f
+    p = Perceptron(2, f)
+    # 进行训练，迭代 10 轮，学习速率是我们设定的 rate ，为 0.1
+    input_vecs, labels = get_training_dataset()
+    p.train(input_vecs, labels, 10, 0.1)
+    # 返回训练好的感知器
+    return p
+
+if __name__ == '__main__':
+    '''
+    Desc:
+        主函数，调用上面返回的训练好的感知器进行预测
+    Args:
+        None
+    Returns:
+        None
+    '''
+    # 训练 and 感知器
+    and_perceptron = train_and_perceptron()
+    # 打印训练获得的权重
+    print(and_perceptron)
+    # 测试
+    print('1 and 1 = %d' % and_perceptron.predict([1, 1]))
+    print('0 and 0 = %d' % and_perceptron.predict([0, 0]))
+    print('1 and 0 = %d' % and_perceptron.predict([1, 0]))
+    print('0 and 1 = %d' % and_perceptron.predict([0, 1]))
diff --git a/机器学习/殷康龙/源代码/dl/recursive.py b/机器学习/殷康龙/源代码/dl/recursive.py
new file mode 100644
index 00000000..636aba6d
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/recursive.py
@@ -0,0 +1,187 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+
+import numpy as np
+from activators import IdentityActivator
+
+
+class TreeNode(object):
+    def __init__(self, data, children=[], children_data=[]):
+        self.parent = None
+        self.children = children
+        self.children_data = children_data
+        self.data = data
+        for child in children:
+            child.parent = self
+
+# 递归神经网络实现
+class RecursiveLayer(object):
+    def __init__(self, node_width, child_count, 
+                 activator, learning_rate):
+        '''
+        递归神经网络构造函数
+        node_width: 表示每个节点的向量的维度
+        child_count: 每个父节点有几个子节点
+        activator: 激活函数对象
+        learning_rate: 梯度下降算法学习率
+        '''
+        self.node_width = node_width
+        self.child_count = child_count
+        self.activator = activator
+        self.learning_rate = learning_rate
+        # 权重数组W
+        self.W = np.random.uniform(-1e-4, 1e-4,
+            (node_width, node_width * child_count))
+        # 偏置项b
+        self.b = np.zeros((node_width, 1))
+        # 递归神经网络生成的树的根节点
+        self.root = None
+
+    def forward(self, *children):
+        '''
+        前向计算
+        '''
+        children_data = self.concatenate(children)
+        parent_data = self.activator.forward(
+            np.dot(self.W, children_data) + self.b
+        )
+        self.root = TreeNode(parent_data, children
+                            , children_data)
+
+    def backward(self, parent_delta):
+        '''
+        BPTS反向传播算法
+        '''
+        self.calc_delta(parent_delta, self.root)
+        self.W_grad, self.b_grad = self.calc_gradient(self.root)
+
+    def update(self):
+        '''
+        使用SGD算法更新权重
+        '''
+        self.W -= self.learning_rate * self.W_grad
+        self.b -= self.learning_rate * self.b_grad
+
+    def reset_state(self):
+        self.root = None
+
+    def concatenate(self, tree_nodes):
+        '''
+        将各个树节点中的数据拼接成一个长向量
+        '''
+        concat = np.zeros((0,1))
+        for node in tree_nodes:
+            concat = np.concatenate((concat, node.data))
+        return concat
+
+    def calc_delta(self, parent_delta, parent):
+        '''
+        计算每个节点的delta
+        '''
+        parent.delta = parent_delta
+        if parent.children:
+            # 根据式2计算每个子节点的delta
+            children_delta = np.dot(self.W.T, parent_delta) * (
+                self.activator.backward(parent.children_data)
+            )
+            # slices = [(子节点编号，子节点delta起始位置，子节点delta结束位置)]
+            slices = [(i, i * self.node_width, 
+                        (i + 1) * self.node_width)
+                        for i in range(self.child_count)]
+            # 针对每个子节点，递归调用calc_delta函数
+            for s in slices:
+                self.calc_delta(children_delta[s[1]:s[2]], 
+                                parent.children[s[0]])
+
+    def calc_gradient(self, parent):
+        '''
+        计算每个节点权重的梯度，并将它们求和，得到最终的梯度
+        '''
+        W_grad = np.zeros((self.node_width, 
+                            self.node_width * self.child_count))
+        b_grad = np.zeros((self.node_width, 1))
+        if not parent.children:
+            return W_grad, b_grad
+        parent.W_grad = np.dot(parent.delta, parent.children_data.T)
+        parent.b_grad = parent.delta
+        W_grad += parent.W_grad
+        b_grad += parent.b_grad
+        for child in parent.children:
+            W, b = self.calc_gradient(child)
+            W_grad += W
+            b_grad += b
+        return W_grad, b_grad
+
+    def dump(self, **kwArgs):
+        print('root.data: %s' % self.root.data)
+        print('root.children_data: %s' % self.root.children_data)
+        if 'dump_grad'in kwArgs:
+            print('W_grad: %s' % self.W_grad)
+            print('b_grad: %s' % self.b_grad)
+
+
+def data_set():
+    children = [
+        TreeNode(np.array([[1],[2]])),
+        TreeNode(np.array([[3],[4]])),
+        TreeNode(np.array([[5],[6]]))
+    ]
+    d = np.array([[0.5],[0.8]])
+    return children, d
+
+
+def gradient_check():
+    '''
+    梯度检查
+    '''
+    # 设计一个误差函数，取所有节点输出项之和
+    error_function = lambda o: o.sum()
+    
+    rnn = RecursiveLayer(2, 2, IdentityActivator(), 1e-3)
+
+    # 计算forward值
+    x, d = data_set()
+    rnn.forward(x[0], x[1])
+    rnn.forward(rnn.root, x[2])
+    
+    # 求取sensitivity map
+    sensitivity_array = np.ones((rnn.node_width, 1),
+                                dtype=np.float64)
+    # 计算梯度
+    rnn.backward(sensitivity_array)
+    
+    # 检查梯度
+    epsilon = 10e-4
+    for i in range(rnn.W.shape[0]):
+        for j in range(rnn.W.shape[1]):
+            rnn.W[i,j] += epsilon
+            rnn.reset_state()
+            rnn.forward(x[0], x[1])
+            rnn.forward(rnn.root, x[2])
+            err1 = error_function(rnn.root.data)
+            rnn.W[i,j] -= 2*epsilon
+            rnn.reset_state()
+            rnn.forward(x[0], x[1])
+            rnn.forward(rnn.root, x[2])
+            err2 = error_function(rnn.root.data)
+            expect_grad = (err1 - err2) / (2 * epsilon)
+            rnn.W[i,j] += epsilon
+            print('weights(%d,%d): expected - actural %.4e - %.4e' % (
+                i, j, expect_grad, rnn.W_grad[i,j]))
+    return rnn
+
+
+def test():
+    children, d = data_set()
+    rnn = RecursiveLayer(2, 2, IdentityActivator(), 1e-3)
+    rnn.forward(children[0], children[1])
+    rnn.dump()
+    rnn.forward(rnn.root, children[2])
+    rnn.dump()
+    rnn.backward(d)
+    rnn.dump(dump_grad='true')
+    return rnn
+
+def test_gradient_check():
+    gradient_check()
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/dl/rnn.py b/机器学习/殷康龙/源代码/dl/rnn.py
new file mode 100644
index 00000000..2ad71283
--- /dev/null
+++ b/机器学习/殷康龙/源代码/dl/rnn.py
@@ -0,0 +1,155 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+
+
+import numpy as np
+from cnn import element_wise_op
+from functools import reduce
+from activators import ReluActivator, IdentityActivator
+
+
+class RecurrentLayer(object):
+    def __init__(self, input_width, state_width,
+                 activator, learning_rate):
+        self.input_width = input_width
+        self.state_width = state_width
+        self.activator = activator
+        self.learning_rate = learning_rate
+        self.times = 0  # 当前时刻初始化为t0
+        self.state_list = []  # 保存各个时刻的state
+        self.state_list.append(np.zeros(
+            (state_width, 1)))  # 初始化s0
+        self.U = np.random.uniform(-1e-4, 1e-4,
+                                   (state_width, input_width))  # 初始化U
+        self.W = np.random.uniform(-1e-4, 1e-4,
+                                   (state_width, state_width))  # 初始化W
+
+    def forward(self, input_array):
+        '''
+        根据『式2』进行前向计算
+        '''
+        self.times += 1
+        state = (np.dot(self.U, input_array) +
+                 np.dot(self.W, self.state_list[-1]))
+        element_wise_op(state, self.activator.forward)
+        self.state_list.append(state)
+
+    def backward(self, sensitivity_array,
+                 activator):
+        '''
+        实现BPTT算法
+        '''
+        self.calc_delta(sensitivity_array, activator)
+        self.calc_gradient()
+
+    def update(self):
+        '''
+        按照梯度下降，更新权重
+        '''
+        self.W -= self.learning_rate * self.gradient
+
+    def calc_delta(self, sensitivity_array, activator):
+        self.delta_list = []  # 用来保存各个时刻的误差项
+        for i in range(self.times):
+            self.delta_list.append(np.zeros(
+                (self.state_width, 1)))
+        self.delta_list.append(sensitivity_array)
+        # 迭代计算每个时刻的误差项
+        for k in range(self.times - 1, 0, -1):
+            self.calc_delta_k(k, activator)
+
+    def calc_delta_k(self, k, activator):
+        '''
+        根据k+1时刻的delta计算k时刻的delta
+        '''
+        state = self.state_list[k + 1].copy()
+        element_wise_op(self.state_list[k + 1],
+                        activator.backward)
+        self.delta_list[k] = np.dot(
+            np.dot(self.delta_list[k + 1].T, self.W),
+            np.diag(state[:, 0])).T
+
+    def calc_gradient(self):
+        self.gradient_list = []  # 保存各个时刻的权重梯度
+        for t in range(self.times + 1):
+            self.gradient_list.append(np.zeros(
+                (self.state_width, self.state_width)))
+        for t in range(self.times, 0, -1):
+            self.calc_gradient_t(t)
+        # 实际的梯度是各个时刻梯度之和
+        self.gradient = reduce(
+            lambda a, b: a + b, self.gradient_list,
+            self.gradient_list[0])  # [0]被初始化为0且没有被修改过
+
+    def calc_gradient_t(self, t):
+        '''
+        计算每个时刻t权重的梯度
+        '''
+        gradient = np.dot(self.delta_list[t],
+                          self.state_list[t - 1].T)
+        self.gradient_list[t] = gradient
+
+    def reset_state(self):
+        self.times = 0  # 当前时刻初始化为t0
+        self.state_list = []  # 保存各个时刻的state
+        self.state_list.append(np.zeros(
+            (self.state_width, 1)))  # 初始化s0
+
+
+def data_set():
+    x = [np.array([[1], [2], [3]]),
+         np.array([[2], [3], [4]])]
+    d = np.array([[1], [2]])
+    return x, d
+
+
+def gradient_check():
+    '''
+    梯度检查
+    '''
+    # 设计一个误差函数，取所有节点输出项之和
+    error_function = lambda o: o.sum()
+
+    rl = RecurrentLayer(3, 2, IdentityActivator(), 1e-3)
+
+    # 计算forward值
+    x, d = data_set()
+    rl.forward(x[0])
+    rl.forward(x[1])
+
+    # 求取sensitivity map
+    sensitivity_array = np.ones(rl.state_list[-1].shape,
+                                dtype=np.float64)
+    # 计算梯度
+    rl.backward(sensitivity_array, IdentityActivator())
+
+    # 检查梯度
+    epsilon = 10e-4
+    for i in range(rl.W.shape[0]):
+        for j in range(rl.W.shape[1]):
+            rl.W[i, j] += epsilon
+            rl.reset_state()
+            rl.forward(x[0])
+            rl.forward(x[1])
+            err1 = error_function(rl.state_list[-1])
+            rl.W[i, j] -= 2 * epsilon
+            rl.reset_state()
+            rl.forward(x[0])
+            rl.forward(x[1])
+            err2 = error_function(rl.state_list[-1])
+            expect_grad = (err1 - err2) / (2 * epsilon)
+            rl.W[i, j] += epsilon
+            print('weights(%d,%d): expected - actural %f - %f' % (
+                i, j, expect_grad, rl.gradient[i, j]))
+
+
+def test():
+    l = RecurrentLayer(3, 2, ReluActivator(), 1e-3)
+    x, d = data_set()
+    l.forward(x[0])
+    l.forward(x[1])
+    l.backward(d, ReluActivator())
+    return l
+
+
+
diff --git a/机器学习/殷康龙/源代码/ml/1.MLFoundation/NumPy.py b/机器学习/殷康龙/源代码/ml/1.MLFoundation/NumPy.py
new file mode 100644
index 00000000..e0af9edb
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/1.MLFoundation/NumPy.py
@@ -0,0 +1,58 @@
+#!/usr/bin/python
+# coding:utf-8
+
+'''
+Created on 2017-05-18
+Update  on 2017-11-17
+Author: Peter Harrington/1988/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+from numpy import random, mat, eye
+
+'''
+# NumPy 矩阵和数组的区别
+NumPy存在2中不同的数据类型:
+    1. 矩阵 matrix
+    2. 数组 array
+相似点: 
+    都可以处理行列表示的数字元素
+不同点: 
+    1. 2个数据类型上执行相同的数据运算可能得到不同的结果。
+    2. NumPy函数库中的 matrix 与 MATLAB中 matrices 等价。
+'''
+
+# 生成一个 4*4 的随机数组
+randArray = random.rand(4, 4)
+
+# 转化关系， 数组转化为矩阵
+randMat = mat(randArray)
+'''
+.I 表示对矩阵求逆(可以利用矩阵的初等变换)
+   意义: 逆矩阵是一个判断相似性的工具。逆矩阵A与列向量p相乘后，将得到列向量q，q的第i个分量表示p与A的第i个列向量的相似度。
+   参考案例链接: 
+   https://www.zhihu.com/question/33258489
+   http://blog.csdn.net/vernice/article/details/48506027
+.T 表示对矩阵转置(行列颠倒)
+    * 等同于: .transpose()
+.A 返回矩阵基于的数组
+    参考案例链接: 
+    http://blog.csdn.net/qq403977698/article/details/47254539
+'''
+invRandMat = randMat.I
+TraRandMat = randMat.T
+ArrRandMat = randMat.A
+# 输出结果
+print('randArray=(%s) \n' % type(randArray), randArray)
+print('randMat=(%s) \n' % type(randMat), randMat)
+print('invRandMat=(%s) \n' % type(invRandMat), invRandMat)
+print('TraRandMat=(%s) \n' % type(TraRandMat), TraRandMat)
+print('ArrRandMat=(%s) \n' % type(ArrRandMat), ArrRandMat)
+# 矩阵和逆矩阵 进行求积 (单位矩阵，对角线都为1嘛，理论上4*4的矩阵其他的都为0)
+myEye = randMat*invRandMat
+# 误差
+print(myEye - eye(4))
+
+'''
+如果上面的代码运行没有问题，说明numpy安装没有问题
+'''
diff --git a/机器学习/殷康龙/源代码/ml/10.kmeans/__init__.py b/机器学习/殷康龙/源代码/ml/10.kmeans/__init__.py
new file mode 100644
index 00000000..34c8b06e
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/10.kmeans/__init__.py
@@ -0,0 +1,24 @@
+#!/usr/bin/env python
+__coding__ = "utf-8"
+__author__ = "Ng WaiMing"
+
+from training.action.unsupervised.kMeans import kMeans
+from numpy import *
+
+if __name__ == '__main__':
+    # dataMat = mat(kMeans.loadDataSet('../../../../data/k-means/testSet.txt'))
+    # print('min(dataMat[:, 0])', min(dataMat[:, 0]), '\n')
+    # print('min(dataMat[:, 1])', min(dataMat[:, 1]), '\n')
+    # print('max(dataMat[:, 0])', max(dataMat[:, 0]), '\n')
+    # print('max(dataMat[:, 1])', max(dataMat[:, 1]), '\n')
+    # print(kMeans.randCent(dataMat, 2),'\n')
+    # print(kMeans.distEclud(dataMat[0],dataMat[1]))
+    # centroids, clusterAssment = kMeans.kMeans(dataMat, 4)
+    # print('centroids:\n', centroids, '\n')
+    # print('clusterAssment:\n',clusterAssment, '\n')
+    # dataMat3 = mat(kMeans.loadDataSet('../../../../data/k-means/testSet2.txt'))
+    # centList, myNewAssments = kMeans.biKmeans(dataMat3, 3)
+    # print('centList: \n', centList, '\n')
+    fileName = '../../../../data/k-means/places.txt'
+    imgName = '../../../../data/k-means/Portland.png'
+    kMeans.clusterClubs(fileName=fileName, imgName=imgName, numClust=5)
diff --git a/机器学习/殷康龙/源代码/ml/10.kmeans/k-means.md b/机器学习/殷康龙/源代码/ml/10.kmeans/k-means.md
new file mode 100644
index 00000000..84beac53
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/10.kmeans/k-means.md
@@ -0,0 +1,52 @@
+### K-均值聚类
+- 优点: 容易实现
+- 缺点: 可能收敛到局部最小值,在大规模数据集上收敛较慢
+- 适用数据类型: 数值型数据
+  **k-means是发现给定数据集的K个簇的算法.簇个数K是用户给定的,每一个簇通过其'质心(centroid)',即簇中所有点的中心来描述**
+### K-means的工作流程
+- 首先,随机确定K个初始点作为质心.然后将数据集中的每个点分配到一个簇中,具体来讲,为每个点找距离最近的质心,并将其分配给该质心所对应的簇.这一步完成之后,每个簇的质心更新为该簇所有点的平均值
+
+- 上述过程伪代码如下
+
+        创建k个点作为起始质心(经常是随机选择)
+        当任意一个点的簇分配结果发生改变时
+        对数据集中的每个数据点
+            对每个质心
+                计算质心与数据点之间的距离
+            将数据点分配到距其最近的簇
+        对每一个簇,计算簇中所有点的均值并将均值作为质心
+### k-means的一般流程
+1. 收集数据: 使用任意方法
+2. 准备数据: 需要数值型数据来计算距离,也可以将标称型数据映射为二值性数据再用于距离计算
+3. 分析数据: 使用任意方法
+4. 训练算法: 不适用与无监督学习,即无监督学习没有训练过程
+5. 测试算法: 应用聚类算法,观察结果.可以使用量化的误差指标如误差平方和来评价算法的结果
+6. 使用算法: 可用用于所希望的任何应用.通常情况下,簇质心可以代表整个簇的数据来做出决策
+### 使用后处理来提高聚类性能
+- 在包含簇分配结果的矩阵中保存着每个点的误差,即该点到簇质心的距离平方值.这个误差可以确定用户预先定义的参数K是否正确,也可以确定生成的簇是否较好
+- SSE(Sum of Squared Error,误差平方和):一种用于度量聚类效果的指标.
+- SSE值越小表示数据点越接近于它们的质心,聚类效果也越好.因为对误差取了平方,因此更重视那些远离中心的点.一种肯定可以降低SSE值的方法事增加簇的个数,但这违背了聚类的目标.聚类的目标事在保持簇数据不变的情况下提高簇的质量
+- 为了保持簇总数不变,可以将两个簇进行合并.可以很容易对二维数据上的聚类进行可视化,如果是多维 的,有两种可以量化的办法:合并最近的质心,或者合并两个使得SSE增幅最小的质心.第一种思路通过计算所有质心之间的距离,然后合并距离最近的两个点来实现.第二种方法需要合并两个簇然后计算总SSE值.必须在所有可能的两个簇上重复上述处理过程,直到找到合并最佳的两个簇为止
+### 二分k-means算法
+- 二分k-means算法是为了客服k-means算法收敛于局部最小值的问题,二分k-kmeans算法首先将所有点作为一个簇,然后将该簇一分为二.之后选择其中一个簇继续进行划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE值.上述基于SSE的划分过程不断重复,直到得到用户指定的簇数目为止
+
+- 二分k-means的伪代码形式如下:
+
+        将所有点看成一个簇
+        当簇数目小于k时
+          对每一个簇
+            计算总误差
+            在给定的簇上面进行k-means(k=2)
+            计算将该簇一分为二之后的总误差
+          选择使得误差最小的那个簇进行划分操作
+    ​
+### 对于地理数据应用二分k-means
+1. 收集数据: 使用Yahoo!PlaceFinder API收集数据
+2. 准备数据: 只保留经纬度信息
+3. 分析数据: 使用Matplotlib来构建一个二维数据图,其中包含簇与地图
+4. 训练算法: 训练不适用于无监督学习
+5. 测试算法: 使用biKmeans()函数
+6. 使用算法: 最后的输出时包含簇及簇中心的地图
+
+### 相关公式
+**欧式距离公式:** $d=\sqrt{(xA_0-xB_0)^2+(xA_1-xB_1)^2
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/ml/10.kmeans/kMeans.py b/机器学习/殷康龙/源代码/ml/10.kmeans/kMeans.py
new file mode 100644
index 00000000..bbd83b93
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/10.kmeans/kMeans.py
@@ -0,0 +1,228 @@
+#!/usr/bin/env python
+__coding__ = "utf-8"
+__author__ = "Ng WaiMing"
+
+from numpy import *
+from time import sleep
+import matplotlib
+from matplotlib import pyplot as plt
+
+
+def loadDataSet(fileName):
+    '''
+    加载数据集
+    :param fileName:
+    :return:
+    '''
+    # 初始化一个空列表
+    dataSet = []
+    # 读取文件
+    fr = open(fileName)
+    # 循环遍历文件所有行
+    for line in fr.readlines():
+        # 切割每一行的数据
+        curLine = line.strip().split('\t')
+        # 将数据转换为浮点类型,便于后面的计算
+        # fltLine = [float(x) for x in curLine]
+        # 将数据追加到dataMat
+        fltLine = list(map(float,curLine))    # 映射所有的元素为 float（浮点数）类型
+        dataSet.append(fltLine)
+    # 返回dataMat
+    return dataSet
+
+
+def distEclud(vecA, vecB):
+    '''
+    欧氏距离计算函数
+    :param vecA:
+    :param vecB:
+    :return:
+    '''
+    return sqrt(sum(power(vecA - vecB, 2)))
+
+
+def randCent(dataMat, k):
+    '''
+    为给定数据集构建一个包含K个随机质心的集合,
+    随机质心必须要在整个数据集的边界之内,这可以通过找到数据集每一维的最小和最大值来完成
+    然后生成0到1.0之间的随机数并通过取值范围和最小值,以便确保随机点在数据的边界之内
+    :param dataMat:
+    :param k:
+    :return:
+    '''
+    # 获取样本数与特征值
+    m, n = shape(dataMat)
+    # 初始化质心,创建(k,n)个以零填充的矩阵
+    centroids = mat(zeros((k, n)))
+    # 循环遍历特征值
+    for j in range(n):
+        # 计算每一列的最小值
+        minJ = min(dataMat[:, j])
+        # 计算每一列的范围值
+        rangeJ = float(max(dataMat[:, j]) - minJ)
+        # 计算每一列的质心,并将值赋给centroids
+        centroids[:, j] = mat(minJ + rangeJ * random.rand(k, 1))
+    # 返回质心
+    return centroids
+
+
+def kMeans(dataMat, k, distMeas=distEclud, createCent=randCent):
+    '''
+    创建K个质心,然后将每个店分配到最近的质心,再重新计算质心。
+    这个过程重复数次,直到数据点的簇分配结果不再改变为止
+    :param dataMat: 数据集
+    :param k: 簇的数目
+    :param distMeans: 计算距离
+    :param createCent: 创建初始质心
+    :return:
+    '''
+    # 获取样本数和特征数
+    m, n = shape(dataMat)
+    # 初始化一个矩阵来存储每个点的簇分配结果
+    # clusterAssment包含两个列:一列记录簇索引值,第二列存储误差(误差是指当前点到簇质心的距离,后面会使用该误差来评价聚类的效果)
+    clusterAssment = mat(zeros((m, 2)))
+    # 创建质心,随机K个质心
+    centroids = createCent(dataMat, k)
+    # 初始化标志变量,用于判断迭代是否继续,如果True,则继续迭代
+    clusterChanged = True
+    while clusterChanged:
+        clusterChanged = False
+        # 遍历所有数据找到距离每个点最近的质心,
+        # 可以通过对每个点遍历所有质心并计算点到每个质心的距离来完成
+        for i in range(m):
+            minDist = inf
+            minIndex = -1
+            for j in range(k):
+                # 计算数据点到质心的距离
+                # 计算距离是使用distMeas参数给出的距离公式,默认距离函数是distEclud
+                distJI = distMeas(centroids[j, :], dataMat[i, :])
+                # 如果距离比minDist(最小距离)还小,更新minDist(最小距离)和最小质心的index(索引)
+                if distJI < minDist:
+                    minDist = distJI
+                    minIndex = j
+            # 如果任一点的簇分配结果发生改变,则更新clusterChanged标志
+            if clusterAssment[i, 0] != minIndex: clusterChanged = True
+            # 更新簇分配结果为最小质心的index(索引),minDist(最小距离)的平方
+            clusterAssment[i, :] = minIndex, minDist ** 2
+        # print(centroids)
+        # 遍历所有质心并更新它们的取值
+        for cent in range(k):
+            # 通过数据过滤来获得给定簇的所有点
+            ptsInClust = dataMat[nonzero(clusterAssment[:, 0].A == cent)[0]]
+            # 计算所有点的均值,axis=0表示沿矩阵的列方向进行均值计算
+            centroids[cent, :] = mean(ptsInClust, axis=0)
+    # 返回所有的类质心与点分配结果
+    return centroids, clusterAssment
+
+
+def biKmeans(dataMat, k, distMeas=distEclud):
+    '''
+    在给定数据集,所期望的簇数目和距离计算方法的条件下,函数返回聚类结果
+    :param dataMat:
+    :param k:
+    :param distMeas:
+    :return:
+    '''
+    m, n = shape(dataMat)
+    # 创建一个矩阵来存储数据集中每个点的簇分配结果及平方误差
+    clusterAssment = mat(zeros((m, 2)))
+    # 计算整个数据集的质心,并使用一个列表来保留所有的质心
+    centroid0 = mean(dataMat, axis=0).tolist()[0]
+    centList = [centroid0]
+    # 遍历数据集中所有点来计算每个点到质心的误差值
+    for j in range(m):
+        clusterAssment[j, 1] = distMeas(mat(centroid0), dataMat[j, :]) ** 2
+    # 对簇不停的进行划分,直到得到想要的簇数目为止
+    while (len(centList) < k):
+        # 初始化最小SSE为无穷大,用于比较划分前后的SSE
+        lowestSSE = inf
+        # 通过考察簇列表中的值来获得当前簇的数目,遍历所有的簇来决定最佳的簇进行划分
+        for i in range(len(centList)):
+            # 对每一个簇,将该簇中的所有点堪称一个小的数据集
+            ptsInCurrCluster = dataMat[nonzero(clusterAssment[:, 0].A == i)[0], :]
+            # 将ptsInCurrCluster输入到函数kMeans中进行处理,k=2,
+            # kMeans会生成两个质心(簇),同时给出每个簇的误差值
+            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)
+            # 将误差值与剩余数据集的误差之和作为本次划分的误差
+            sseSplit = sum(splitClustAss[:, 1])
+            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:, 0].A != i)[0], 1])
+            print('sseSplit, and notSplit: ', sseSplit, sseNotSplit)
+            # 如果本次划分的SSE值最小,则本次划分被保存
+            if (sseSplit + sseNotSplit) < lowestSSE:
+                bestCentToSplit = i
+                bestNewCents = centroidMat
+                bestClustAss = splitClustAss.copy()
+                lowestSSE = sseSplit + sseNotSplit
+        # 找出最好的簇分配结果
+        # 调用kmeans函数并且指定簇数为2时,会得到两个编号分别为0和1的结果簇
+        bestClustAss[nonzero(bestClustAss[:, 0].A == 1)[0], 0] = len(centList)
+        # 更新为最佳质心
+        bestClustAss[nonzero(bestClustAss[:, 0].A == 0)[0], 0] = bestCentToSplit
+        print('the bestCentToSplit is: ', bestCentToSplit)
+        print('the len of bestClustAss is: ', len(bestClustAss))
+        # 更新质心列表
+        # 更新原质心list中的第i个质心为使用二分kMeans后bestNewCents的第一个质心
+        centList[bestCentToSplit] = bestNewCents[0, :].tolist()[0]
+        # 添加bestNewCents的第二个质心
+        centList.append(bestNewCents[1, :].tolist()[0])
+        # 重新分配最好簇下的数据(质心)以及SSE
+        clusterAssment[nonzero(clusterAssment[:, 0].A == bestCentToSplit)[0], :] = bestClustAss
+    return mat(centList), clusterAssment
+
+
+def distSLC(vecA, vecB):
+    '''
+    返回地球表面两点间的距离,单位是英里
+    给定两个点的经纬度,可以使用球面余弦定理来计算亮点的距离
+    :param vecA:
+    :param vecB:
+    :return:
+    '''
+    # 经度和维度用角度作为单位,但是sin()和cos()以弧度为输入.
+    # 可以将江都除以180度然后再诚意圆周率pi转换为弧度
+    a = sin(vecA[0, 1] * pi / 180) * sin(vecB[0, 1] * pi / 180)
+    b = cos(vecA[0, 1] * pi / 180) * cos(vecB[0, 1] * pi / 180) * \
+        cos(pi * (vecB[0, 0] - vecA[0, 0]) / 180)
+    return arccos(a + b) * 6371.0
+
+
+def clusterClubs(fileName, imgName, numClust=5):
+    '''
+    将文本文件的解析,聚类以及画图都封装在一起
+    :param fileName: 文本数据路径
+    :param imgName: 图片路径
+    :param numClust: 希望得到的簇数目
+    :return:
+    '''
+    # 创建一个空列表
+    datList = []
+    # 打开文本文件获取第4列和第5列,这两列分别对应维度和经度,然后将这些值封装到datList
+    for line in open(fileName).readlines():
+        lineArr = line.split('\t')
+        datList.append([float(lineArr[4]), float(lineArr[3])])
+    datMat = mat(datList)
+    # 调用biKmeans并使用distSLC函数作为聚类中使用的距离计算方式
+    myCentroids, clustAssing = biKmeans(datMat, numClust, distMeas=distSLC)
+    # 创建一幅图和一个举行,使用该矩形来决定绘制图的哪一部分
+    fig = plt.figure()
+    rect = [0.1, 0.1, 0.8, 0.8]
+    # 构建一个标记形状的列表用于绘制散点图
+    scatterMarkers = ['s', 'o', '^', '8', 'p', 'd', 'v', 'h', '>', '<']
+    axprops = dict(xticks=[], yticks=[])
+    ax0 = fig.add_axes(rect, label='ax0', **axprops)
+    # 使用imread函数基于一幅图像来创建矩阵
+    imgP = plt.imread(imgName)
+    # 使用imshow绘制该矩阵
+    ax0.imshow(imgP)
+    # 再同一幅图上绘制一张新图,允许使用两套坐标系统并不做任何缩放或偏移
+    ax1 = fig.add_axes(rect, label='ax1', frameon=False)
+    # 遍历每一个簇并将它们一一画出来,标记类型从前面创建的scatterMarkers列表中得到
+    for i in range(numClust):
+        ptsInCurrCluster = datMat[nonzero(clustAssing[:, 0].A == i)[0], :]
+        # 使用索引i % len(scatterMarkers)来选择标记形状,这意味这当有更多簇时,可以循环使用这标记
+        markerStyle = scatterMarkers[i % len(scatterMarkers)]
+        # 使用十字标记来表示簇中心并在图中显示
+        ax1.scatter(ptsInCurrCluster[:, 0].flatten().A[0], ptsInCurrCluster[:, 1].flatten().A[0], marker=markerStyle,
+                    s=90)
+    ax1.scatter(myCentroids[:, 0].flatten().A[0], myCentroids[:, 1].flatten().A[0], marker='+', s=300)
+    plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/10.kmeans/kMeansSklearn.py b/机器学习/殷康龙/源代码/ml/10.kmeans/kMeansSklearn.py
new file mode 100644
index 00000000..9bd328f5
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/10.kmeans/kMeansSklearn.py
@@ -0,0 +1,24 @@
+# -*- coding:UTF-8 -*-
+
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn.cluster import KMeans
+
+# 加载数据集
+dataMat = []
+fr = open("data/10.KMeans/testSet.txt") # 注意，这个是相对路径，请保证是在 MachineLearning 这个目录下执行。
+for line in fr.readlines():
+    curLine = line.strip().split('\t')
+    fltLine = list(map(float,curLine))    # 映射所有的元素为 float（浮点数）类型
+    dataMat.append(fltLine)
+
+# 训练模型
+km = KMeans(n_clusters=4) # 初始化
+km.fit(dataMat) # 拟合
+km_pred = km.predict(dataMat) # 预测
+centers = km.cluster_centers_ # 质心
+
+# 可视化结果
+plt.scatter(np.array(dataMat)[:, 1], np.array(dataMat)[:, 0], c=km_pred)
+plt.scatter(centers[:, 1], centers[:, 0], c="r")
+plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/10.kmeans/test.txt b/机器学习/殷康龙/源代码/ml/10.kmeans/test.txt
new file mode 100644
index 00000000..c965f959
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/10.kmeans/test.txt
@@ -0,0 +1,43 @@
+# import
+>>> import kMeans
+>>> from numpy import *
+
+# 从文本中构建矩阵，加载测试数据集
+>>> datMat=mat(kMeans.loadDataSet('testSet.txt'))
+
+# 测试 randCent() 函数是否正常运行。
+# 首先，先看一下矩阵中的最大值与最小值
+>>> min(datMat[:,0])
+matrix([[-5.379713]])
+>>> min(datMat[:,1])
+matrix([[-4.232586]])
+>>> max(datMat[:,1])
+matrix([[ 5.1904]])
+>>> max(datMat[:,0])
+matrix([[ 4.838138]])
+
+# 然后看看 randCent() 函数能否生成 min 到 max 之间的值
+>>> kMeans.randCent(datMat, 2)
+matrix([[-3.59997714, -1.43558065],
+        [-3.03744979,  4.35541488]])
+
+# 最后测试一下距离计算方法
+>>> kMeans.distEclud(datMat[0], datMat[1])
+5.184632816681332
+
+# 该算法会创建k个质心，然后将每个点分配到最近的质心，再重新计算质心。
+# 这个过程重复数次，知道数据点的簇分配结果不再改变位置。
+# 运行结果（多次运行结果可能会不一样，可以试试，原因为随机质心的影响，但总的结果是对的， 因为数据足够相似）
+>>> myCentroids, clustAssing = kMeans.kMeans(datMat, 4)
+[[ 0.15357605 -0.94962877]
+ [ 3.3593825   1.05965957]
+ [-2.41900657  3.30513371]
+ [-2.80505526 -3.73280289]]
+[[ 2.35622556 -3.02056425]
+ [ 2.95373358  2.32801413]
+ [-2.46154315  2.78737555]
+ [-3.38237045 -2.9473363 ]]
+[[ 2.65077367 -2.79019029]
+ [ 2.6265299   3.10868015]
+ [-2.46154315  2.78737555]
+ [-3.53973889 -2.89384326]]
diff --git a/机器学习/殷康龙/源代码/ml/11.Apriori/apriori.py b/机器学习/殷康龙/源代码/ml/11.Apriori/apriori.py
new file mode 100644
index 00000000..c77c62de
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/11.Apriori/apriori.py
@@ -0,0 +1,369 @@
+#!/usr/bin/python
+# coding: utf8
+
+'''
+Created on Mar 24, 2011
+Update  on 2017-05-18
+Ch 11 code
+Author: Peter/片刻
+GitHub: https://github.com/apachecn/AiLearning'''
+print(__doc__)
+from numpy import *
+
+# 加载数据集
+def loadDataSet():
+    return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
+
+# 创建集合 C1。即对 dataSet 进行去重，排序，放入 list 中，然后转换所有的元素为 frozenset
+def createC1(dataSet):
+    """createC1（创建集合 C1）
+
+    Args:
+        dataSet 原始数据集
+    Returns:
+        frozenset 返回一个 frozenset 格式的 list
+    """
+
+    C1 = []
+    for transaction in dataSet:
+        for item in transaction:
+            if not [item] in C1:
+                # 遍历所有的元素，如果不在 C1 出现过，那么就 append
+                C1.append([item])
+    # 对数组进行 `从小到大` 的排序
+    # print 'sort 前=', C1
+    C1.sort()
+    # frozenset 表示冻结的 set 集合，元素无改变；可以把它当字典的 key 来使用
+    # print 'sort 后=', C1
+    # print 'frozenset=', map(frozenset, C1)
+    return map(frozenset, C1)
+
+# 计算候选数据集 CK 在数据集 D 中的支持度，并返回支持度大于最小支持度（minSupport）的数据
+def scanD(D, Ck, minSupport):
+    """scanD（计算候选数据集 CK 在数据集 D 中的支持度，并返回支持度大于最小支持度 minSupport 的数据）
+
+    Args:
+        D 数据集
+        Ck 候选项集列表
+        minSupport 最小支持度
+    Returns:
+        retList 支持度大于 minSupport 的集合
+        supportData 候选项集支持度数据
+    """
+
+    # ssCnt 临时存放选数据集 Ck 的频率. 例如: a->10, b->5, c->8    
+    ssCnt = {}
+    for tid in D:
+        for can in Ck:
+            # s.issubset(t)  测试是否 s 中的每一个元素都在 t 中
+            if can.issubset(tid):
+                if not ssCnt.has_key(can):
+                    ssCnt[can] = 1
+                else:
+                    ssCnt[can] += 1
+    numItems = float(len(D)) # 数据集 D 的数量
+    retList = []
+    supportData = {}
+    for key in ssCnt:
+        # 支持度 = 候选项（key）出现的次数 / 所有数据集的数量
+        support = ssCnt[key]/numItems
+        if support >= minSupport:
+            # 在 retList 的首位插入元素，只存储支持度满足频繁项集的值
+            retList.insert(0, key)
+        # 存储所有的候选项（key）和对应的支持度（support）
+        supportData[key] = support
+    return retList, supportData
+
+# 输入频繁项集列表 Lk 与返回的元素个数 k，然后输出所有可能的候选项集 Ck
+def aprioriGen(Lk, k):
+    """aprioriGen（输入频繁项集列表 Lk 与返回的元素个数 k，然后输出候选项集 Ck。
+       例如: 以 {0},{1},{2} 为输入且 k = 2 则输出 {0,1}, {0,2}, {1,2}. 以 {0,1},{0,2},{1,2} 为输入且 k = 3 则输出 {0,1,2}
+       仅需要计算一次，不需要将所有的结果计算出来，然后进行去重操作
+       这是一个更高效的算法）
+
+    Args:
+        Lk 频繁项集列表
+        k 返回的项集元素个数（若元素的前 k-2 相同，就进行合并）
+    Returns:
+        retList 元素两两合并的数据集
+    """
+    
+    retList = []
+    lenLk = len(Lk)
+    for i in range(lenLk):
+        for j in range(i+1, lenLk):
+            L1 = list(Lk[i])[: k-2]
+            L2 = list(Lk[j])[: k-2]
+            # print '-----i=', i, k-2, Lk, Lk[i], list(Lk[i])[: k-2]
+            # print '-----j=', j, k-2, Lk, Lk[j], list(Lk[j])[: k-2]
+            L1.sort()
+            L2.sort()
+            # 第一次 L1,L2 为空，元素直接进行合并，返回元素两两合并的数据集
+            # if first k-2 elements are equal
+            if L1 == L2:
+                # set union
+                # print 'union=', Lk[i] | Lk[j], Lk[i], Lk[j]
+                retList.append(Lk[i] | Lk[j])
+    return retList
+
+# 找出数据集 dataSet 中支持度 >= 最小支持度的候选项集以及它们的支持度。即我们的频繁项集。
+def apriori(dataSet, minSupport=0.5):
+    """apriori（首先构建集合 C1，然后扫描数据集来判断这些只有一个元素的项集是否满足最小支持度的要求。那么满足最小支持度要求的项集构成集合 L1。然后 L1 中的元素相互组合成 C2，C2 再进一步过滤变成 L2，然后以此类推，知道 CN 的长度为 0 时结束，即可找出所有频繁项集的支持度。）
+
+    Args:
+        dataSet 原始数据集
+        minSupport 支持度的阈值
+    Returns:
+        L 频繁项集的全集
+        supportData 所有元素和支持度的全集
+    """
+    # C1 即对 dataSet 进行去重，排序，放入 list 中，然后转换所有的元素为 frozenset
+    C1 = createC1(dataSet)
+    # print 'C1: ', C1
+    # 对每一行进行 set 转换，然后存放到集合中
+    D = map(set, dataSet)
+    # print 'D=', D
+    # 计算候选数据集 C1 在数据集 D 中的支持度，并返回支持度大于 minSupport 的数据
+    L1, supportData = scanD(D, C1, minSupport)
+    # print "L1=", L1, "\n", "outcome: ", supportData
+
+    # L 加了一层 list, L 一共 2 层 list
+    L = [L1]
+    k = 2
+    # 判断 L 的第 k-2 项的数据长度是否 > 0。第一次执行时 L 为 [[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])]]。L[k-2]=L[0]=[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])]，最后面 k += 1
+    while (len(L[k-2]) > 0):
+        # print 'k=', k, L, L[k-2]
+        Ck = aprioriGen(L[k-2], k) # 例如: 以 {0},{1},{2} 为输入且 k = 2 则输出 {0,1}, {0,2}, {1,2}. 以 {0,1},{0,2},{1,2} 为输入且 k = 3 则输出 {0,1,2}
+        # print 'Ck', Ck
+
+        Lk, supK = scanD(D, Ck, minSupport) # 计算候选数据集 CK 在数据集 D 中的支持度，并返回支持度大于 minSupport 的数据
+        # 保存所有候选项集的支持度，如果字典没有，就追加元素，如果有，就更新元素
+        supportData.update(supK)
+        if len(Lk) == 0:
+            break
+        # Lk 表示满足频繁子项的集合，L 元素在增加，例如: 
+        # l=[[set(1), set(2), set(3)]]
+        # l=[[set(1), set(2), set(3)], [set(1, 2), set(2, 3)]]
+        L.append(Lk)
+        k += 1
+        # print 'k=', k, len(L[k-2])
+    return L, supportData
+
+# 计算可信度（confidence）
+def calcConf(freqSet, H, supportData, brl, minConf=0.7):
+    """calcConf（对两个元素的频繁项，计算可信度，例如:  {1,2}/{1} 或者 {1,2}/{2} 看是否满足条件）
+
+    Args:
+        freqSet 频繁项集中的元素，例如: frozenset([1, 3])    
+        H 频繁项集中的元素的集合，例如: [frozenset([1]), frozenset([3])]
+        supportData 所有元素的支持度的字典
+        brl 关联规则列表的空数组
+        minConf 最小可信度
+    Returns:
+        prunedH 记录 可信度大于阈值的集合
+    """
+    # 记录可信度大于最小可信度（minConf）的集合
+    prunedH = []
+    for conseq in H: # 假设 freqSet = frozenset([1, 3]), H = [frozenset([1]), frozenset([3])]，那么现在需要求出 frozenset([1]) -> frozenset([3]) 的可信度和 frozenset([3]) -> frozenset([1]) 的可信度
+
+        # print 'confData=', freqSet, H, conseq, freqSet-conseq
+        conf = supportData[freqSet]/supportData[freqSet-conseq] # 支持度定义: a -> b = support(a | b) / support(a). 假设  freqSet = frozenset([1, 3]), conseq = [frozenset([1])]，那么 frozenset([1]) 至 frozenset([3]) 的可信度为 = support(a | b) / support(a) = supportData[freqSet]/supportData[freqSet-conseq] = supportData[frozenset([1, 3])] / supportData[frozenset([1])]
+        if conf >= minConf:
+            # 只要买了 freqSet-conseq 集合，一定会买 conseq 集合（freqSet-conseq 集合和 conseq集合 是全集）
+            print (freqSet-conseq, '-->', conseq, 'conf:', conf)
+            brl.append((freqSet-conseq, conseq, conf))
+            prunedH.append(conseq)
+    return prunedH
+
+# 递归计算频繁项集的规则
+def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7):
+    """rulesFromConseq
+
+    Args:
+        freqSet 频繁项集中的元素，例如: frozenset([2, 3, 5])    
+        H 频繁项集中的元素的集合，例如: [frozenset([2]), frozenset([3]), frozenset([5])]
+        supportData 所有元素的支持度的字典
+        brl 关联规则列表的数组
+        minConf 最小可信度
+    """
+    # H[0] 是 freqSet 的元素组合的第一个元素，并且 H 中所有元素的长度都一样，长度由 aprioriGen(H, m+1) 这里的 m + 1 来控制
+    # 该函数递归时，H[0] 的长度从 1 开始增长 1 2 3 ...
+    # 假设 freqSet = frozenset([2, 3, 5]), H = [frozenset([2]), frozenset([3]), frozenset([5])]
+    # 那么 m = len(H[0]) 的递归的值依次为 1 2
+    # 在 m = 2 时, 跳出该递归。假设再递归一次，那么 H[0] = frozenset([2, 3, 5])，freqSet = frozenset([2, 3, 5]) ，没必要再计算 freqSet 与 H[0] 的关联规则了。
+    m = len(H[0])
+    if (len(freqSet) > (m + 1)):
+        # print 'freqSet******************', len(freqSet), m + 1, freqSet, H, H[0]
+        # 生成 m+1 个长度的所有可能的 H 中的组合，假设 H = [frozenset([2]), frozenset([3]), frozenset([5])]
+        # 第一次递归调用时生成 [frozenset([2, 3]), frozenset([2, 5]), frozenset([3, 5])]
+        # 第二次 。。。没有第二次，递归条件判断时已经退出了
+        Hmp1 = aprioriGen(H, m+1)
+        # 返回可信度大于最小可信度的集合
+        Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)
+        print ('Hmp1=', Hmp1)
+        print ('len(Hmp1)=', len(Hmp1), 'len(freqSet)=', len(freqSet))
+        # 计算可信度后，还有数据大于最小可信度的话，那么继续递归调用，否则跳出递归
+        if (len(Hmp1) > 1):
+            # print '----------------------', Hmp1
+            # print len(freqSet),  len(Hmp1[0]) + 1
+            rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)
+
+# 生成关联规则
+def generateRules(L, supportData, minConf=0.7):
+    """generateRules
+
+    Args:
+        L 频繁项集列表
+        supportData 频繁项集支持度的字典
+        minConf 最小置信度
+    Returns:
+        bigRuleList 可信度规则列表（关于 (A->B+置信度) 3个字段的组合）
+    """
+    bigRuleList = []
+    # 假设 L = [[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])], [frozenset([1, 3]), frozenset([2, 5]), frozenset([2, 3]), frozenset([3, 5])], [frozenset([2, 3, 5])]]
+    for i in range(1, len(L)):
+        # 获取频繁项集中每个组合的所有元素
+        for freqSet in L[i]:
+            # 假设: freqSet= frozenset([1, 3]), H1=[frozenset([1]), frozenset([3])]
+            # 组合总的元素并遍历子元素，并转化为 frozenset 集合，再存放到 list 列表中
+            H1 = [frozenset([item]) for item in freqSet]
+            # 2 个的组合，走 else, 2 个以上的组合，走 if
+            if (i > 1):
+                rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf)
+            else:
+                calcConf(freqSet, H1, supportData, bigRuleList, minConf)
+    return bigRuleList
+
+
+def getActionIds():
+    from time import sleep
+    from votesmart import votesmart
+    # votesmart.apikey = 'get your api key first'
+    votesmart.apikey = 'a7fa40adec6f4a77178799fae4441030'
+    actionIdList = []
+    billTitleList = []
+    fr = open('data/11.Apriori/recent20bills.txt')
+    for line in fr.readlines():
+        billNum = int(line.split('\t')[0])
+        try:
+            billDetail = votesmart.votes.getBill(billNum) # api call
+            for action in billDetail.actions:
+                if action.level == 'House' and (action.stage == 'Passage' or action.stage == 'Amendment Vote'):
+                    actionId = int(action.actionId)
+                    print ('bill: %d has actionId: %d' % (billNum, actionId))
+                    actionIdList.append(actionId)
+                    billTitleList.append(line.strip().split('\t')[1])
+        except:
+            print ("problem getting bill %d" % billNum)
+        sleep(1)                                      # delay to be polite
+    return actionIdList, billTitleList
+
+
+def getTransList(actionIdList, billTitleList): #this will return a list of lists containing ints
+    itemMeaning = ['Republican', 'Democratic']#list of what each item stands for
+    for billTitle in billTitleList:#fill up itemMeaning list
+        itemMeaning.append('%s -- Nay' % billTitle)
+        itemMeaning.append('%s -- Yea' % billTitle)
+    transDict = {}#list of items in each transaction (politician)
+    voteCount = 2
+    for actionId in actionIdList:
+        sleep(3)
+        print ('getting votes for actionId: %d' % actionId)
+        try:
+            voteList = votesmart.votes.getBillActionVotes(actionId)
+            for vote in voteList:
+                if not transDict.has_key(vote.candidateName):
+                    transDict[vote.candidateName] = []
+                    if vote.officeParties == 'Democratic':
+                        transDict[vote.candidateName].append(1)
+                    elif vote.officeParties == 'Republican':
+                        transDict[vote.candidateName].append(0)
+                if vote.action == 'Nay':
+                    transDict[vote.candidateName].append(voteCount)
+                elif vote.action == 'Yea':
+                    transDict[vote.candidateName].append(voteCount + 1)
+        except:
+            print ("problem getting actionId: %d" % actionId)
+        voteCount += 2
+    return transDict, itemMeaning
+
+
+# 暂时没用上
+# def pntRules(ruleList, itemMeaning):
+#     for ruleTup in ruleList:
+#         for item in ruleTup[0]:
+#             print itemMeaning[item]
+#         print "           -------->"
+#         for item in ruleTup[1]:
+#             print itemMeaning[item]
+#         print "confidence: %f" % ruleTup[2]
+#         print       #print a blank line
+
+def testApriori():
+    # 加载测试数据集
+    dataSet = loadDataSet()
+    print ('dataSet: ', dataSet)
+
+    # Apriori 算法生成频繁项集以及它们的支持度
+    L1, supportData1 = apriori(dataSet, minSupport=0.7)
+    print ('L(0.7): ', L1)
+    print ('supportData(0.7): ', supportData1)
+
+    print ('->->->->->->->->->->->->->->->->->->->->->->->->->->->->')
+
+    # Apriori 算法生成频繁项集以及它们的支持度
+    L2, supportData2 = apriori(dataSet, minSupport=0.5)
+    print ('L(0.5): ', L2)
+    print ('supportData(0.5): ', supportData2)
+
+def testGenerateRules():
+    # 加载测试数据集
+    dataSet = loadDataSet()
+    print ('dataSet: ', dataSet)
+
+    # Apriori 算法生成频繁项集以及它们的支持度
+    L1, supportData1 = apriori(dataSet, minSupport=0.5)
+    print ('L(0.7): ', L1)
+    print ('supportData(0.7): ', supportData1)
+
+    # 生成关联规则
+    rules = generateRules(L1, supportData1, minConf=0.5)
+    print ('rules: ', rules)
+
+def main():
+    # 测试 Apriori 算法
+    # testApriori()
+
+    # 生成关联规则
+    # testGenerateRules()
+
+    ##项目案例
+    # # 构建美国国会投票记录的事务数据集
+    # actionIdList, billTitleList = getActionIds()
+    # # 测试前2个
+    # transDict, itemMeaning = getTransList(actionIdList[: 2], billTitleList[: 2])
+    #transDict 表示 action_id的集合，transDict[key]这个就是action_id对应的选项，例如 [1, 2, 3]
+    # transDict, itemMeaning = getTransList(actionIdList, billTitleList)
+    # # 得到全集的数据
+    # dataSet = [transDict[key] for key in transDict.keys()]
+    # L, supportData = apriori(dataSet, minSupport=0.3)
+    # rules = generateRules(L, supportData, minConf=0.95)
+    # print (rules)
+
+    # # 项目案例
+    # # 发现毒蘑菇的相似特性
+    # # 得到全集的数据
+     dataSet = [line.split() for line in open("data/11.Apriori/mushroom.dat").readlines()]
+     L, supportData = apriori(dataSet, minSupport=0.3)
+    # # 2表示毒蘑菇，1表示可食用的蘑菇
+    # # 找出关于2的频繁子项出来，就知道如果是毒蘑菇，那么出现频繁的也可能是毒蘑菇
+     for item in L[1]:
+         if item.intersection('2'):
+             print (item)
+    
+     for item in L[2]:
+         if item.intersection('2'):
+             print (item)
+
+if __name__ == "__main__":
+    main()
diff --git a/机器学习/殷康龙/源代码/ml/12.FrequentPattemTree/fpGrowth.py b/机器学习/殷康龙/源代码/ml/12.FrequentPattemTree/fpGrowth.py
new file mode 100644
index 00000000..e5c7d835
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/12.FrequentPattemTree/fpGrowth.py
@@ -0,0 +1,345 @@
+#!/usr/bin/python
+# coding:utf8
+
+'''
+Created on Jun 14, 2011
+Update  on 2017-05-18
+FP-Growth FP means frequent pattern
+the FP-Growth algorithm needs:
+1. FP-tree (class treeNode)
+2. header table (use dict)
+This finds frequent itemsets similar to apriori but does not find association rules.
+Author: Peter/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+print(__doc__)
+
+
+class treeNode:
+    def __init__(self, nameValue, numOccur, parentNode):
+        self.name = nameValue
+        self.count = numOccur
+        self.nodeLink = None
+        # needs to be updated
+        self.parent = parentNode
+        self.children = {}
+
+    def inc(self, numOccur):
+        """inc(对count变量增加给定值)
+        """
+        self.count += numOccur
+
+    def disp(self, ind=1):
+        """disp(用于将树以文本形式显示)
+
+        """
+        print('  '*ind, self.name, ' ', self.count)
+        for child in self.children.values():
+            child.disp(ind+1)
+
+
+def loadSimpDat():
+    simpDat = [['r', 'z', 'h', 'j', 'p'],
+               ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
+               ['z'],
+               ['r', 'x', 'n', 'o', 's'],
+            #    ['r', 'x', 'n', 'o', 's'],
+               ['y', 'r', 'x', 'z', 'q', 't', 'p'],
+               ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
+    return simpDat
+
+
+def createInitSet(dataSet):
+    retDict = {}
+    for trans in dataSet:
+        if frozenset(trans) not in retDict.keys():
+            retDict[frozenset(trans)] = 1
+        else:
+            retDict[frozenset(trans)] += 1
+    return retDict
+
+
+# this version does not use recursion
+def updateHeader(nodeToTest, targetNode):
+    """updateHeader(更新头指针，建立相同元素之间的关系，例如:  左边的r指向右边的r值，就是后出现的相同元素 指向 已经出现的元素)
+
+    从头指针的nodeLink开始，一直沿着nodeLink直到到达链表末尾。这就是链表。
+    性能: 如果链表很长可能会遇到迭代调用的次数限制。
+
+    Args:
+        nodeToTest  满足minSup {所有的元素+(value, treeNode)}
+        targetNode  Tree对象的子节点
+    """
+    # 建立相同元素之间的关系，例如:  左边的r指向右边的r值
+    while (nodeToTest.nodeLink is not None):
+        nodeToTest = nodeToTest.nodeLink
+    nodeToTest.nodeLink = targetNode
+
+
+def updateTree(items, inTree, headerTable, count):
+    """updateTree(更新FP-tree，第二次遍历)
+
+    # 针对每一行的数据
+    # 最大的key,  添加
+    Args:
+        items       满足minSup 排序后的元素key的数组（大到小的排序）
+        inTree      空的Tree对象
+        headerTable 满足minSup {所有的元素+(value, treeNode)}
+        count       原数据集中每一组Kay出现的次数
+    """
+    # 取出 元素 出现次数最高的
+    # 如果该元素在 inTree.children 这个字典中，就进行累加
+    # 如果该元素不存在 就 inTree.children 字典中新增key，value为初始化的 treeNode 对象
+    if items[0] in inTree.children:
+        # 更新 最大元素，对应的 treeNode 对象的count进行叠加
+        inTree.children[items[0]].inc(count)
+    else:
+        # 如果不存在子节点，我们为该inTree添加子节点
+        inTree.children[items[0]] = treeNode(items[0], count, inTree)
+        # 如果满足minSup的dist字典的value值第二位为null， 我们就设置该元素为 本节点对应的tree节点
+        # 如果元素第二位不为null，我们就更新header节点
+        if headerTable[items[0]][1] is None:
+            # headerTable只记录第一次节点出现的位置
+            headerTable[items[0]][1] = inTree.children[items[0]]
+        else:
+            # 本质上是修改headerTable的key对应的Tree，的nodeLink值
+            updateHeader(headerTable[items[0]][1], inTree.children[items[0]])
+    if len(items) > 1:
+        # 递归的调用，在items[0]的基础上，添加item0[1]做子节点， count只要循环的进行累计加和而已，统计出节点的最后的统计值。
+        updateTree(items[1:], inTree.children[items[0]], headerTable, count)
+
+
+def createTree(dataSet, minSup=1):
+    """createTree(生成FP-tree)
+
+    Args:
+        dataSet  dist{行: 出现次数}的样本数据
+        minSup   最小的支持度
+    Returns:
+        retTree  FP-tree
+        headerTable 满足minSup {所有的元素+(value, treeNode)}
+    """
+    # 支持度>=minSup的dist{所有元素: 出现的次数}
+    headerTable = {}
+    # 循环 dist{行: 出现次数}的样本数据
+    for trans in dataSet:
+        # 对所有的行进行循环，得到行里面的所有元素
+        # 统计每一行中，每个元素出现的总次数
+        for item in trans:
+            # 例如:  {'ababa': 3}  count(a)=3+3+3=9   count(b)=3+3=6
+            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]
+    # 删除 headerTable中，元素次数<最小支持度的元素
+    for k in list(headerTable.keys()):  # python3中.keys()返回的是迭代器不是list,不能在遍历时对其改变。
+        if headerTable[k] < minSup:
+            del(headerTable[k])
+
+    # 满足minSup: set(各元素集合)
+    freqItemSet = set(headerTable.keys())
+    # 如果不存在，直接返回None
+    if len(freqItemSet) == 0:
+        return None, None
+    for k in headerTable:
+        # 格式化:  dist{元素key: [元素次数, None]}
+        headerTable[k] = [headerTable[k], None]
+
+    # create tree
+    retTree = treeNode('Null Set', 1, None)
+    # 循环 dist{行: 出现次数}的样本数据
+    for tranSet, count in dataSet.items():
+        # print('tranSet, count=', tranSet, count)
+        # localD = dist{元素key: 元素总出现次数}
+        localD = {}
+        for item in tranSet:
+            # 判断是否在满足minSup的集合中
+            if item in freqItemSet:
+                # print('headerTable[item][0]=', headerTable[item][0], headerTable[item])
+                localD[item] = headerTable[item][0]
+        # print('localD=', localD)
+        # 对每一行的key 进行排序，然后开始往树添加枝丫，直到丰满
+        # 第二次，如果在同一个排名下出现，那么就对该枝丫的值进行追加，继续递归调用！
+        if len(localD) > 0:
+            # p=key,value; 所以是通过value值的大小，进行从大到小进行排序
+            # orderedItems 表示取出元组的key值，也就是字母本身，但是字母本身是大到小的顺序
+            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)]
+            # print 'orderedItems=', orderedItems, 'headerTable', headerTable, '\n\n\n'
+            # 填充树，通过有序的orderedItems的第一位，进行顺序填充 第一层的子节点。
+            updateTree(orderedItems, retTree, headerTable, count)
+
+    return retTree, headerTable
+
+
+def ascendTree(leafNode, prefixPath):
+    """ascendTree(如果存在父节点，就记录当前节点的name值)
+
+    Args:
+        leafNode   查询的节点对于的nodeTree
+        prefixPath 要查询的节点值
+    """
+    if leafNode.parent is not None:
+        prefixPath.append(leafNode.name)
+        ascendTree(leafNode.parent, prefixPath)
+
+
+def findPrefixPath(basePat, treeNode):
+    """findPrefixPath 基础数据集
+
+    Args:
+        basePat  要查询的节点值
+        treeNode 查询的节点所在的当前nodeTree
+    Returns:
+        condPats 对非basePat的倒叙值作为key,赋值为count数
+    """
+    condPats = {}
+    # 对 treeNode的link进行循环
+    while treeNode is not None:
+        prefixPath = []
+        # 寻找改节点的父节点，相当于找到了该节点的频繁项集
+        ascendTree(treeNode, prefixPath)
+        # 排除自身这个元素，判断是否存在父元素（所以要>1, 说明存在父元素）
+        if len(prefixPath) > 1:
+            # 对非basePat的倒叙值作为key,赋值为count数
+            # prefixPath[1:] 变frozenset后，字母就变无序了
+            # condPats[frozenset(prefixPath)] = treeNode.count
+            condPats[frozenset(prefixPath[1:])] = treeNode.count
+        # 递归，寻找改节点的下一个 相同值的链接节点
+        treeNode = treeNode.nodeLink
+        # print(treeNode)
+    return condPats
+
+
+def mineTree(inTree, headerTable, minSup, preFix, freqItemList):
+    """mineTree(创建条件FP树)
+
+    Args:
+        inTree       myFPtree
+        headerTable  满足minSup {所有的元素+(value, treeNode)}
+        minSup       最小支持项集
+        preFix       preFix为newFreqSet上一次的存储记录，一旦没有myHead，就不会更新
+        freqItemList 用来存储频繁子项的列表
+    """
+    # 通过value进行从小到大的排序， 得到频繁项集的key
+    # 最小支持项集的key的list集合
+    bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1][0])]
+    print('-----', sorted(headerTable.items(), key=lambda p: p[1][0]))
+    print('bigL=', bigL)
+    # 循环遍历 最频繁项集的key，从小到大的递归寻找对应的频繁项集
+    for basePat in bigL:
+        # preFix为newFreqSet上一次的存储记录，一旦没有myHead，就不会更新
+        newFreqSet = preFix.copy()
+        newFreqSet.add(basePat)
+        print('newFreqSet=', newFreqSet, preFix)
+
+        freqItemList.append(newFreqSet)
+        print('freqItemList=', freqItemList)
+        condPattBases = findPrefixPath(basePat, headerTable[basePat][1])
+        print('condPattBases=', basePat, condPattBases)
+
+        # 构建FP-tree
+        myCondTree, myHead = createTree(condPattBases, minSup)
+        print('myHead=', myHead)
+        # 挖掘条件 FP-tree, 如果myHead不为空，表示满足minSup {所有的元素+(value, treeNode)}
+        if myHead is not None:
+            myCondTree.disp(1)
+            print('\n\n\n')
+            # 递归 myHead 找出频繁项集
+            mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)
+        print('\n\n\n')
+
+
+# import twitter
+# from time import sleep
+# import re
+
+
+# def getLotsOfTweets(searchStr):
+#     """
+#     获取 100个搜索结果页面
+#     """
+#     CONSUMER_KEY = ''
+#     CONSUMER_SECRET = ''
+#     ACCESS_TOKEN_KEY = ''
+#     ACCESS_TOKEN_SECRET = ''
+#     api = twitter.Api(consumer_key=CONSUMER_KEY, consumer_secret=CONSUMER_SECRET, access_token_key=ACCESS_TOKEN_KEY, access_token_secret=ACCESS_TOKEN_SECRET)
+
+#     # you can get 1500 results 15 pages * 100 per page
+#     resultsPages = []
+#     for i in range(1, 15):
+#         print("fetching page %d" % i)
+#         searchResults = api.GetSearch(searchStr, per_page=100, page=i)
+#         resultsPages.append(searchResults)
+#         sleep(6)
+#     return resultsPages
+
+
+# def textParse(bigString):
+#     """
+#     解析页面内容
+#     """
+#     urlsRemoved = re.sub('(http:[/][/]|www.)([a-z]|[A-Z]|[0-9]|[/.]|[~])*', '', bigString)    
+#     listOfTokens = re.split(r'\W*', urlsRemoved)
+#     return [tok.lower() for tok in listOfTokens if len(tok) > 2]
+
+
+# def mineTweets(tweetArr, minSup=5):
+#     """
+#     获取频繁项集
+#     """
+#     parsedList = []
+#     for i in range(14):
+#         for j in range(100):
+#             parsedList.append(textParse(tweetArr[i][j].text))
+#     initSet = createInitSet(parsedList)
+#     myFPtree, myHeaderTab = createTree(initSet, minSup)
+#     myFreqList = []
+#     mineTree(myFPtree, myHeaderTab, minSup, set([]), myFreqList)
+#     return myFreqList
+
+
+if __name__ == "__main__":
+    # rootNode = treeNode('pyramid', 9, None)
+    # rootNode.children['eye'] = treeNode('eye', 13, None)
+    # rootNode.children['phoenix'] = treeNode('phoenix', 3, None)
+    # # 将树以文本形式显示
+    # # print(rootNode.disp())
+
+    # load样本数据
+    simpDat = loadSimpDat()
+    # print(simpDat, '\n')
+    # frozen set 格式化 并 重新装载 样本数据，对所有的行进行统计求和，格式: {行: 出现次数}
+    initSet = createInitSet(simpDat)
+    print(initSet)
+
+    # 创建FP树
+    # 输入: dist{行: 出现次数}的样本数据  和  最小的支持度
+    # 输出: 最终的PF-tree，通过循环获取第一层的节点，然后每一层的节点进行递归的获取每一行的字节点，也就是分支。然后所谓的指针，就是后来的指向已存在的
+    myFPtree, myHeaderTab = createTree(initSet, 3)
+    myFPtree.disp()
+
+    # 抽取条件模式基
+    # 查询树节点的，频繁子项
+    print('x --->', findPrefixPath('x', myHeaderTab['x'][1]))
+    print('z --->', findPrefixPath('z', myHeaderTab['z'][1]))
+    print('r --->', findPrefixPath('r', myHeaderTab['r'][1]))
+
+    # 创建条件模式基
+    freqItemList = []
+    mineTree(myFPtree, myHeaderTab, 3, set([]), freqItemList)
+    print("freqItemList: \n", freqItemList)
+
+    # # 项目实战
+    # # 1.twitter项目案例
+    # # 无法运行，因为没发链接twitter
+    # lotsOtweets = getLotsOfTweets('RIMM')
+    # listOfTerms = mineTweets(lotsOtweets, 20)
+    # print(len(listOfTerms))
+    # for t in listOfTerms:
+    #     print(t)
+
+    # # 2.新闻网站点击流中挖掘，例如: 文章1阅读过的人，还阅读过什么？
+    # parsedDat = [line.split() for line in open('data/12.FPGrowth/kosarak.dat').readlines()]
+    # initSet = createInitSet(parsedDat)
+    # myFPtree, myHeaderTab = createTree(initSet, 100000)
+
+    # myFreList = []
+    # mineTree(myFPtree, myHeaderTab, 100000, set([]), myFreList)
+    # print myFreList
diff --git a/机器学习/殷康龙/源代码/ml/13.PCA/pca.py b/机器学习/殷康龙/源代码/ml/13.PCA/pca.py
new file mode 100644
index 00000000..d78a1dfc
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/13.PCA/pca.py
@@ -0,0 +1,153 @@
+#!/usr/bin/python
+# coding:utf8
+
+'''
+Created on Jun 1, 2011
+Update  on 2017-12-20
+Author: Peter Harrington/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+from numpy import *
+import matplotlib.pyplot as plt
+print(__doc__)
+
+
+def loadDataSet(fileName, delim='\t'):
+    fr = open(fileName)
+    stringArr = [line.strip().split(delim) for line in fr.readlines()]
+    datArr = [list(map(float, line)) for line in stringArr]
+    #注意这里和python2的区别，需要在map函数外加一个list（），否则显示结果为 map at 0x3fed1d0
+    return mat(datArr)
+
+
+def pca(dataMat, topNfeat=9999999):
+    """pca
+
+    Args:
+        dataMat   原数据集矩阵
+        topNfeat  应用的N个特征
+    Returns:
+        lowDDataMat  降维后数据集
+        reconMat     新的数据集空间
+    """
+
+    # 计算每一列的均值
+    meanVals = mean(dataMat, axis=0)
+    # print('meanVals', meanVals)
+
+    # 每个向量同时都减去 均值
+    meanRemoved = dataMat - meanVals
+    # print('meanRemoved=', meanRemoved)
+
+    # cov协方差=[(x1-x均值)*(y1-y均值)+(x2-x均值)*(y2-y均值)+...+(xn-x均值)*(yn-y均值)+]/(n-1)
+    '''
+    方差: （一维）度量两个随机变量关系的统计量
+    协方差:  （二维）度量各个维度偏离其均值的程度
+    协方差矩阵: （多维）度量各个维度偏离其均值的程度
+
+    当 cov(X, Y)>0时，表明X与Y正相关；(X越大，Y也越大；X越小Y，也越小。这种情况，我们称为“正相关”。)
+    当 cov(X, Y)<0时，表明X与Y负相关；
+    当 cov(X, Y)=0时，表明X与Y不相关。
+    '''
+    covMat = cov(meanRemoved, rowvar=0)
+
+    # eigVals为特征值， eigVects为特征向量
+    eigVals, eigVects = linalg.eig(mat(covMat))
+    # print('eigVals=', eigVals)
+    # print('eigVects=', eigVects)
+    # 对特征值，进行从小到大的排序，返回从小到大的index序号
+    # 特征值的逆序就可以得到topNfeat个最大的特征向量
+    '''
+    >>> x = np.array([3, 1, 2])
+    >>> np.argsort(x)
+    array([1, 2, 0])  # index,1 = 1; index,2 = 2; index,0 = 3
+    >>> y = np.argsort(x)
+    >>> y[::-1]
+    array([0, 2, 1])
+    >>> y[:-3:-1]
+    array([0, 2])  # 取出 -1, -2
+    >>> y[:-6:-1]
+    array([0, 2, 1])
+    '''
+    eigValInd = argsort(eigVals)
+    # print('eigValInd1=', eigValInd)
+
+    # -1表示倒序，返回topN的特征值[-1 到 -(topNfeat+1) 但是不包括-(topNfeat+1)本身的倒叙]
+    eigValInd = eigValInd[:-(topNfeat+1):-1]
+    # print('eigValInd2=', eigValInd)
+    # 重组 eigVects 最大到最小
+    redEigVects = eigVects[:, eigValInd]
+    # print('redEigVects=', redEigVects.T)
+    # 将数据转换到新空间
+    # print( "---", shape(meanRemoved), shape(redEigVects))
+    lowDDataMat = meanRemoved * redEigVects
+    reconMat = (lowDDataMat * redEigVects.T) + meanVals
+    # print('lowDDataMat=', lowDDataMat)
+    # print('reconMat=', reconMat)
+    return lowDDataMat, reconMat
+
+
+def replaceNanWithMean():
+    datMat = loadDataSet('data/13.PCA/secom.data', ' ')
+    numFeat = shape(datMat)[1]
+    for i in range(numFeat):
+        # 对value不为NaN的求均值
+        # .A 返回矩阵基于的数组
+        meanVal = mean(datMat[nonzero(~isnan(datMat[:, i].A))[0], i])
+        # 将value为NaN的值赋值为均值
+        datMat[nonzero(isnan(datMat[:, i].A))[0],i] = meanVal
+    return datMat
+
+
+def show_picture(dataMat, reconMat):
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+    ax.scatter(dataMat[:, 0].flatten().A[0], dataMat[:, 1].flatten().A[0], marker='^', s=90)
+    ax.scatter(reconMat[:, 0].flatten().A[0], reconMat[:, 1].flatten().A[0], marker='o', s=50, c='red')
+    plt.show()
+
+
+def analyse_data(dataMat):
+    meanVals = mean(dataMat, axis=0)
+    meanRemoved = dataMat-meanVals
+    covMat = cov(meanRemoved, rowvar=0)
+    eigvals, eigVects = linalg.eig(mat(covMat))
+    eigValInd = argsort(eigvals)
+
+    topNfeat = 20
+    eigValInd = eigValInd[:-(topNfeat+1):-1]
+    cov_all_score = float(sum(eigvals))
+    sum_cov_score = 0
+    for i in range(0, len(eigValInd)):
+        line_cov_score = float(eigvals[eigValInd[i]])
+        sum_cov_score += line_cov_score
+        '''
+        我们发现其中有超过20%的特征值都是0。
+        这就意味着这些特征都是其他特征的副本，也就是说，它们可以通过其他特征来表示，而本身并没有提供额外的信息。
+
+        最前面15个值的数量级大于10^5，实际上那以后的值都变得非常小。
+        这就相当于告诉我们只有部分重要特征，重要特征的数目也很快就会下降。
+
+        最后，我们可能会注意到有一些小的负值，他们主要源自数值误差应该四舍五入成0.
+        '''
+        print('主成分: %s, 方差占比: %s%%, 累积方差占比: %s%%' % (format(i+1, '2.0f'), format(line_cov_score/cov_all_score*100, '4.2f'), format(sum_cov_score/cov_all_score*100, '4.1f')))
+
+
+if __name__ == "__main__":
+    # # 加载数据，并转化数据类型为float
+    # dataMat = loadDataSet('data/13.PCA/testSet.txt')
+    # # 只需要1个特征向量
+    # lowDmat, reconMat = pca(dataMat, 1)
+    # # 只需要2个特征向量，和原始数据一致，没任何变化
+    # # lowDmat, reconMat = pca(dataMat, 2)
+    # # print(shape(lowDmat))
+    # show_picture(dataMat, reconMat)
+
+    # 利用PCA对半导体制造数据降维
+    dataMat = replaceNanWithMean()
+    print(shape(dataMat))
+    # 分析数据
+    analyse_data(dataMat)
+    # lowDmat, reconMat = pca(dataMat, 20)
+    # print(shape(lowDmat))
+    # show_picture(dataMat, reconMat)
diff --git a/机器学习/殷康龙/源代码/ml/14.SVD/svdRecommend.py b/机器学习/殷康龙/源代码/ml/14.SVD/svdRecommend.py
new file mode 100644
index 00000000..e8b78b4e
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/14.SVD/svdRecommend.py
@@ -0,0 +1,390 @@
+#!/usr/bin/python
+# coding: utf-8
+
+'''
+Created on Mar 8, 2011
+Update  on 2017-12-12
+Author: Peter Harrington/山上有课树/片刻/marsjhao
+GitHub: https://github.com/apachecn/AiLearning
+'''
+from numpy import linalg as la
+from numpy import *
+
+
+def loadExData3():
+    # 利用SVD提高推荐效果，菜肴矩阵
+    # 可以修改原数据集合，用对对比
+    # return[[2, 0, 0, 4, 4, 0, 0, 0, 0, 0, 0],
+    #        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5],
+    #        [0, 0, 0, 0, 0, 0, 0, 1, 0, 4, 0],
+    #        [3, 3, 4, 0, 3, 0, 0, 2, 2, 0, 0],
+    #        [5, 5, 5, 0, 0, 0, 0, 0, 0, 0, 0],
+    #        [0, 0, 0, 0, 0, 0, 5, 0, 0, 5, 0],
+    #        [4, 0, 4, 0, 0, 0, 0, 0, 0, 0, 5],
+    #        [0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 4],
+    #        [0, 0, 0, 0, 0, 0, 5, 0, 0, 5, 0],
+    #        [0, 0, 0, 3, 0, 0, 0, 0, 4, 5, 0],
+    #        [1, 1, 2, 1, 1, 2, 1, 0, 4, 5, 0]]
+    # 修改后的数据（增加了第1道菜和最后1到菜，同时有3个人吃，从而计算基于物品的协同过滤效果，原来才一个人）
+    return[[2, 0, 0, 4, 4, 0, 0, 0, 0, 0, 0],
+           [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5],
+           [0, 0, 0, 0, 0, 0, 0, 1, 0, 4, 0],
+           [3, 3, 4, 0, 3, 0, 0, 2, 2, 0, 8],
+           [5, 5, 5, 0, 0, 0, 0, 0, 0, 0, 0],
+           [0, 0, 0, 0, 0, 0, 5, 0, 0, 5, 0],
+           [4, 0, 4, 0, 0, 0, 0, 0, 0, 0, 5],
+           [0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 4],
+           [0, 0, 0, 0, 0, 0, 5, 0, 0, 5, 0],
+           [0, 0, 0, 3, 0, 0, 0, 0, 4, 5, 0],
+           [1, 1, 2, 1, 1, 2, 1, 0, 4, 5, 6]]
+
+
+def loadExData2():
+    # 书上代码给的示例矩阵
+    return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],
+           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],
+           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],
+           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],
+           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],
+           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],
+           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],
+           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],
+           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],
+           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],
+           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]
+
+
+def loadExData():
+    """
+    # 推荐引擎示例矩阵
+    return[[4, 4, 0, 2, 2],
+           [4, 0, 0, 3, 3],
+           [4, 0, 0, 1, 1],
+           [1, 1, 1, 2, 0],
+           [2, 2, 2, 0, 0],
+           [1, 1, 1, 0, 0],
+           [5, 5, 5, 0, 0]]
+    """
+    # # 原矩阵
+    # return[[1, 1, 1, 0, 0],
+    #        [2, 2, 2, 0, 0],
+    #        [1, 1, 1, 0, 0],
+    #        [5, 5, 5, 0, 0],
+    #        [1, 1, 0, 2, 2],
+    #        [0, 0, 0, 3, 3],
+    #        [0, 0, 0, 1, 1]]
+
+    # 原矩阵
+    return[[0, -1.6, 0.6],
+           [0, 1.2, 0.8],
+           [0, 0, 0],
+           [0, 0, 0]]
+
+
+# 相似度计算，假定inA和inB 都是列向量
+# 基于欧氏距离
+def ecludSim(inA, inB):
+    return 1.0/(1.0 + la.norm(inA - inB))
+
+
+# pearsSim()函数会检查是否存在3个或更多的点。
+# corrcoef直接计算皮尔逊相关系数，范围[-1, 1]，归一化后[0, 1]
+def pearsSim(inA, inB):
+    # 如果不存在，该函数返回1.0，此时两个向量完全相关。
+    if len(inA) < 3:
+        return 1.0
+    return 0.5 + 0.5 * corrcoef(inA, inB, rowvar=0)[0][1]
+
+
+# 计算余弦相似度，如果夹角为90度，相似度为0；如果两个向量的方向相同，相似度为1.0
+def cosSim(inA, inB):
+    num = float(inA.T*inB)
+    denom = la.norm(inA)*la.norm(inB)
+    return 0.5 + 0.5*(num/denom)
+
+
+# 基于物品相似度的推荐引擎
+def standEst(dataMat, user, simMeas, item):
+    """standEst(计算某用户未评分物品中，以对该物品和其他物品评分的用户的物品相似度，然后进行综合评分)
+    Args:
+        dataMat         训练数据集
+        user            用户编号
+        simMeas         相似度计算方法
+        item            未评分的物品编号
+    Returns:
+        ratSimTotal/simTotal     评分（0～5之间的值）
+    """
+    # 得到数据集中的物品数目
+    n = shape(dataMat)[1]
+    # 初始化两个评分值
+    simTotal = 0.0
+    ratSimTotal = 0.0
+    # 遍历行中的每个物品（对用户评过分的物品进行遍历，并将它与其他物品进行比较）
+    for j in range(n):
+        userRating = dataMat[user, j]
+        # 如果某个物品的评分值为0，则跳过这个物品
+        if userRating == 0:
+            continue
+        # 寻找两个用户都评级的物品
+        # 变量 overLap 给出的是两个物品当中已经被评分的那个元素的索引ID
+        # logical_and 计算x1和x2元素的为True就为True(也就是列的值同时>0), 否则就为False
+        # item(0): [[ True] [False] [False] [ True] [ True] [False] [ True] [False] [False] [False] [ True]] 
+        # j(10):   [[False] [ True] [False] [False] [False] [False] [ True] [ True] [False] [False] [False]]
+        # +1--     [[False] [False] [False] [False] [False] [False] [ True] [False] [False] [False] [False]]
+        # +2--                                                      [6]
+        # print("+++ item(%s): %s --- j(%s): %s" % (item, dataMat[:, item].A > 0, j, dataMat[:, j].A > 0))
+        # print("+1-- %s" % logical_and(dataMat[:, item].A > 0, dataMat[:, j].A > 0) )
+        # print("+2-- %s" % overLap)
+
+        overLap = nonzero(logical_and(dataMat[:, item].A > 0, dataMat[:, j].A > 0))[0]
+        # 如果相似度为0，则两着没有任何重合元素，终止本次循环
+        if len(overLap) == 0:
+            similarity = 0
+        # 如果存在重合的物品，则基于这些重合物重新计算相似度。
+        else:
+            # print("-%s-  %s:%s -- %s:%s" % (overLap, item, dataMat[overLap, item], j, dataMat[overLap, j]) )
+            # 如果 overLap 长度是为3，说明3个人同时吃了 菜A并且也同时吃了菜B
+            # 那么就要找对 这3个人对应 菜评分的矩阵
+            # -[ 3  6 10](人)-  0(菜):[[3] [4] [1]] -- 10(菜):[[8] [5] [6]]
+            # 然后就可以计算出来两个菜之间的相似度
+            similarity = simMeas(dataMat[overLap, item], dataMat[overLap, j])
+        print('the %d and %d similarity is : %f' % (item, j, similarity))
+        # 相似度会不断累加，每次计算时还考虑相似度和当前用户评分的乘积
+        # similarity  用户相似度，   userRating 用户评分
+        simTotal += similarity
+        ratSimTotal += similarity * userRating
+    if simTotal == 0:
+        return 0
+    # 通过除以所有的评分总和，对上述相似度评分的乘积进行归一化，使得最后评分在0~5之间，这些评分用来对预测值进行排序
+    else:
+        return ratSimTotal/simTotal
+
+
+# 基于SVD的评分估计
+# 在recommend() 中，这个函数用于替换对standEst()的调用，该函数对给定用户给定物品构建了一个评分估计值
+def svdEst(dataMat, user, simMeas, item):
+    """svdEst( )
+    Args:
+        dataMat         训练数据集
+        user            用户编号
+        simMeas         相似度计算方法
+        item            未评分的物品编号
+    Returns:
+        ratSimTotal/simTotal     评分（0～5之间的值）
+    """
+    # 物品数目
+    n = shape(dataMat)[1]
+    # 对数据集进行SVD分解
+    simTotal = 0.0
+    ratSimTotal = 0.0
+    # 奇异值分解
+    # 在SVD分解之后，我们只利用包含了90%能量值的奇异值，这些奇异值会以NumPy数组的形式得以保存
+    U, Sigma, VT = la.svd(dataMat)
+
+    # # 分析 Sigma 的长度取值
+    # analyse_data(Sigma, 20)
+
+    # 如果要进行矩阵运算，就必须要用这些奇异值构建出一个对角矩阵
+    Sig4 = mat(eye(4) * Sigma[: 4])
+
+    # 利用U矩阵将物品转换到低维空间中，构建转换后的物品(物品+4个主要的“隐形”特征)
+    # 公式1(目的是: 降维-改变形状，也改变大小)  xformedItems = dataMat.T * U[:, :4] * Sig4.I
+    # 公式2(目的是: 压缩-不改变形状，改变大小)      reconMat = U[:, :4] * Sig4.I * VT[:4, :]
+        # 其中: imgCompress() 是详细的案例
+    # 最近看到一篇文章描述，感觉挺有道理的，我就顺便补充一下注释: https://blog.csdn.net/qq_36523839/article/details/82347332
+    xformedItems = dataMat.T * U[:, :4] * Sig4.I
+    # print('dataMat', shape(dataMat))
+    # print('U[:, :4]', shape(U[:, :4]))
+    # print('Sig4.I', shape(Sig4.I))
+    # print('VT[:4, :]', shape(VT[:4, :]))
+    # print('xformedItems', shape(xformedItems))
+
+    # 对于给定的用户，for循环在用户对应行的元素上进行遍历
+    # 这和standEst()函数中的for循环的目的一样，只不过这里的相似度计算时在低维空间下进行的。
+    for j in range(n):
+        userRating = dataMat[user, j]
+        if userRating == 0 or j == item:
+            continue
+        # 相似度的计算方法也会作为一个参数传递给该函数
+        similarity = simMeas(xformedItems[item, :].T, xformedItems[j, :].T)
+        # for 循环中加入了一条print语句，以便了解相似度计算的进展情况。如果觉得累赘，可以去掉
+        print('the %d and %d similarity is: %f' % (item, j, similarity))
+        # 对相似度不断累加求和
+        simTotal += similarity
+        # 对相似度及对应评分值的乘积求和
+        ratSimTotal += similarity * userRating
+    if simTotal == 0:
+        return 0
+    else:
+        # 计算估计评分
+        return ratSimTotal/simTotal
+
+
+# recommend()函数，就是推荐引擎，它默认调用standEst()函数，产生了最高的N个推荐结果。
+# 如果不指定N的大小，则默认值为3。该函数另外的参数还包括相似度计算方法和估计方法
+def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):
+    """svdEst( )
+    Args:
+        dataMat         训练数据集
+        user            用户编号
+        simMeas         相似度计算方法
+        estMethod       使用的推荐算法
+    Returns:
+        返回最终 N 个推荐结果
+    """
+    # 寻找未评级的物品
+    #    nonzero（a）函数一般返回两行array（）。如果mat（）一下，就是个2*N 的矩阵
+    #    其中 (array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0]), 
+    #         array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]))
+    #    例如:  上下取出来的数据(0, 0) 表示在矩阵的横纵坐标(行、列)的位置
+    #    由于是2为矩阵，所以 [1] 就是矩阵列，也就是商品ID的为主
+    # 对给定的用户建立一个未评分的物品列表
+    unratedItems = nonzero(dataMat[user, :].A == 0)[1]
+    # 如果不存在未评分物品，那么就退出函数
+    if len(unratedItems) == 0:
+        return 'you rated everything'
+    # 物品的编号和评分值
+    itemScores = []
+    # 在未评分物品上进行循环
+    for item in unratedItems:
+        # 获取 item 该物品的评分
+        estimatedScore = estMethod(dataMat, user, simMeas, item)
+        itemScores.append((item, estimatedScore))
+    # 按照评分得分 进行逆排序，获取前N个未评级物品进行推荐
+    return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[: N]
+
+
+def analyse_data(Sigma, loopNum=20):
+    """analyse_data(分析 Sigma 的长度取值)
+    Args:
+        Sigma         Sigma的值
+        loopNum       循环次数
+    """
+    # 总方差的集合（总能量值）
+    Sig2 = Sigma**2
+    SigmaSum = sum(Sig2)
+    for i in range(loopNum):
+        SigmaI = sum(Sig2[:i+1])
+        '''
+        根据自己的业务情况，就行处理，设置对应的 Singma 次数
+        通常保留矩阵 80% ～ 90% 的能量，就可以得到重要的特征并取出噪声。
+        '''
+        print('主成分: %s, 方差占比: %s%%' % (format(i+1, '2.0f'), format(SigmaI/SigmaSum*100, '4.2f')))
+
+
+# 图像压缩函数
+# 加载并转换数据
+def imgLoadData(filename):
+    myl = []
+    # 打开文本文件，并从文件以数组方式读入字符
+    for line in open(filename).readlines():
+        newRow = []
+        for i in range(32):
+            newRow.append(int(line[i]))
+        myl.append(newRow)
+    # 矩阵调入后，就可以在屏幕上输出该矩阵
+    myMat = mat(myl)
+    return myMat
+
+
+# 打印矩阵
+def printMat(inMat, thresh=0.8):
+    # 由于矩阵保护了浮点数，因此定义浅色和深色，遍历所有矩阵元素，当元素大于阀值时打印1，否则打印0
+    for i in range(32):
+        for k in range(32):
+            if float(inMat[i, k]) > thresh:
+                print(1,)
+            else:
+                print(0,)
+        print('')
+
+
+# 实现图像压缩，允许基于任意给定的奇异值数目来重构图像
+def imgCompress(numSV=3, thresh=0.8):
+    """imgCompress( )
+    Args:
+        numSV       Sigma长度   
+        thresh      判断的阈值
+    """
+    # 构建一个列表
+    myMat = imgLoadData('data/14.SVD/0_5.txt')
+
+    print("****original matrix****")
+    # 对原始图像进行SVD分解并重构图像e
+    printMat(myMat, thresh)
+
+    # 通过Sigma 重新构成SigRecom来实现
+    # Sigma是一个对角矩阵，因此需要建立一个全0矩阵，然后将前面的那些奇异值填充到对角线上。
+    U, Sigma, VT = la.svd(myMat)
+    # SigRecon = mat(zeros((numSV, numSV)))
+    # for k in range(numSV):
+    #     SigRecon[k, k] = Sigma[k]
+
+    # 分析插入的 Sigma 长度
+    analyse_data(Sigma, 20)
+
+    SigRecon = mat(eye(numSV) * Sigma[: numSV])
+    reconMat = U[:, :numSV] * SigRecon * VT[:numSV, :]
+    print("****reconstructed matrix using %d singular values *****" % numSV)
+    printMat(reconMat, thresh)
+
+
+if __name__ == "__main__":
+
+    # # 对矩阵进行SVD分解(用python实现SVD)
+    # Data = loadExData()
+    # print('Data:', Data)
+    # U, Sigma, VT = linalg.svd(Data)
+    # # 打印Sigma的结果，因为前3个数值比其他的值大了很多，为9.72140007e+00，5.29397912e+00，6.84226362e-01
+    # # 后两个值比较小，每台机器输出结果可能有不同可以将这两个值去掉
+    # print('U:', U)
+    # print('Sigma', Sigma)
+    # print('VT:', VT)
+    # print('VT:', VT.T)
+
+    # # 重构一个3x3的矩阵Sig3
+    # Sig3 = mat([[Sigma[0], 0, 0], [0, Sigma[1], 0], [0, 0, Sigma[2]]])
+    # print(U[:, :3] * Sig3 * VT[:3, :])
+
+    """
+    # 计算欧氏距离
+    myMat = mat(loadExData())
+    # print(myMat)
+    print(ecludSim(myMat[:, 0], myMat[:, 4]))
+    print(ecludSim(myMat[:, 0], myMat[:, 0]))
+    # 计算余弦相似度
+    print(cosSim(myMat[:, 0], myMat[:, 4]))
+    print(cosSim(myMat[:, 0], myMat[:, 0]))
+    # 计算皮尔逊相关系数
+    print(pearsSim(myMat[:, 0], myMat[:, 4]))
+    print(pearsSim(myMat[:, 0], myMat[:, 0]))
+    """
+
+    # 计算相似度的方法
+    myMat = mat(loadExData3())
+    # print(myMat)
+
+    # 方式1: 基于物品的协同过滤，通过余弦相似度计算相似度
+    # print(recommend(myMat, 1))
+    # 方式2: 基于SVD，通过余弦相似度计算相似度
+    print(recommend(myMat, 1, estMethod=svdEst))
+    # 方式3: 
+    # print(recommend(myMat, 1, estMethod=svdEst, simMeas=pearsSim))
+
+    # # 默认推荐（菜馆菜肴推荐示例）
+    # print(recommend(myMat, 2))
+
+    # """
+    # # 利用SVD提高推荐效果
+    # U, Sigma, VT = la.svd(mat(loadExData2()))
+    # print(Sigma)                 # 计算矩阵的SVD来了解其需要多少维的特征
+    # Sig2 = Sigma**2              # 计算需要多少个奇异值能达到总能量的90%
+    # print(sum(Sig2))             # 计算总能量
+    # print(sum(Sig2) * 0.9)       # 计算总能量的90%
+    # print(sum(Sig2[: 2]))        # 计算前两个元素所包含的能量
+    # print(sum(Sig2[: 3]))        # 两个元素的能量值小于总能量的90%，于是计算前三个元素所包含的能量
+    # # 该值高于总能量的90%，这就可以了
+    # """
+
+    # # 压缩图片
+    # # imgCompress(2)
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMean.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMean.py
new file mode 100644
index 00000000..ae8370a8
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMean.py
@@ -0,0 +1,65 @@
+#!/usr/bin/python
+# coding:utf-8
+
+'''
+Created on 2017-04-07
+Update  on 2017-11-17
+Author: Peter/ApacheCN-xy/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+from mrjob.job import MRJob
+from mrjob.step import MRStep
+
+
+class MRmean(MRJob):
+    def __init__(self, *args, **kwargs):  # 对数据初始化
+        super(MRmean, self).__init__(*args, **kwargs)
+        self.inCount = 0
+        self.inSum = 0
+        self.inSqSum = 0
+
+    # 接受输入数据流
+    def map(self, key, val):  # 需要 2 个参数，求数据的和与平方和
+        if False:
+            yield
+        inVal = float(val)
+        self.inCount += 1
+        self.inSum += inVal
+        self.inSqSum += inVal*inVal
+
+    # 所有输入到达后开始处理
+    def map_final(self):  # 计算数据的平均值，平方的均值，并返回
+        if self.inCount == 0:
+            return
+        mn = self.inSum/self.inCount
+        mnSq = self.inSqSum/self.inCount
+        yield (1, [self.inCount, mn, mnSq])
+
+    def reduce(self, key, packedValues):
+        cumN, cumVal, cumSumSq = 0.0, 0.0, 0.0
+        for valArr in packedValues:  # 从输入流中获取值
+            nj = float(valArr[0])
+            cumN += nj
+            cumVal += nj*float(valArr[1])
+            cumSumSq += nj*float(valArr[2])
+        mean = cumVal/cumN
+        var = (cumSumSq - 2*mean*cumVal + cumN*mean*mean)/cumN
+        yield (mean, var)  # 发出平均值和方差
+
+    def steps(self):
+        """
+        step方法定义执行的步骤。
+        执行顺序不必完全遵循map-reduce模式。
+        例如: 
+            1. map-reduce-reduce-reduce
+            2. map-reduce-map-reduce-map-reduce
+        在step方法里，需要为mrjob指定mapper和reducer的名称。如果没有，它将默认调用mapper和reducer方法。
+
+        在mapper 和 mapper_final中还可以共享状态，mapper 或 mapper_final 不能 reducer之间共享状态。
+        """
+        return [MRStep(mapper=self.map, mapper_final=self.map_final, reducer=self.reduce)]
+
+
+if __name__ == '__main__':
+    MRmean.run()
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMeanMapper.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMeanMapper.py
new file mode 100644
index 00000000..a79e90b6
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMeanMapper.py
@@ -0,0 +1,42 @@
+#!/usr/bin/python
+# coding:utf-8
+
+'''
+Created on 2017-04-06
+Update  on 2017-11-17
+Author: Peter/ApacheCN-xy/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+from __future__ import print_function
+
+import sys
+from numpy import mat, mean, power
+
+'''
+    这个mapper文件按行读取所有的输入并创建一组对应的浮点数，然后得到数组的长度并创建NumPy矩阵。
+    再对所有的值进行平方，最后将均值和平方后的均值发送出去。这些值将用来计算全局的均值和方差。
+
+    Args: 
+        file 输入数据
+    Return: 
+'''
+
+
+def read_input(file):
+    for line in file:
+        yield line.rstrip()             # 返回一个 yield 迭代器，每次获取下一个值，节约内存。
+
+
+input = read_input(sys.stdin)            # 创建一个输入的数据行的列表list
+input = [float(line) for line in input]  # 将得到的数据转化为 float 类型
+numInputs = len(input)                   # 获取数据的个数，即输入文件的数据的行数
+input = mat(input)                       # 将 List 转换为矩阵
+sqInput = power(input, 2)                # 将矩阵的数据分别求 平方，即 2次方
+
+# 输出 数据的个数，n个数据的均值，n个数据平方之后的均值
+# 第一行是标准输出，也就是reducer的输出
+# 第二行识标准错误输出，即对主节点作出的响应报告，表明本节点工作正常。
+# 【这不就是面试的装逼重点吗？如何设计监听架构细节】注意: 一个好的习惯是想标准错误输出发送报告。如果某任务10分钟内没有报告输出，则将被Hadoop中止。
+print("%d\t%f\t%f" % (numInputs, mean(input), mean(sqInput)))  # 计算均值
+print("map report: still alive", file=sys.stderr)
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMeanReducer.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMeanReducer.py
new file mode 100644
index 00000000..01df8f98
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrMeanReducer.py
@@ -0,0 +1,47 @@
+#!/usr/bin/python
+# coding:utf-8
+
+'''
+Created on 2017-04-06
+Update  on 2017-11-17
+Author: Peter/ApacheCN-xy/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+from __future__ import print_function
+
+import sys
+
+'''
+    mapper 接受原始的输入并产生中间值传递给 reducer。
+    很多的mapper是并行执行的，所以需要将这些mapper的输出合并成一个值。
+    即: 将中间的 key/value 对进行组合。
+'''
+
+
+def read_input(file):
+    for line in file:
+        yield line.rstrip()						# 返回值中包含输入文件的每一行的数据的一个大的List
+
+
+input = read_input(sys.stdin)					# 创建一个输入的数据行的列表list
+
+# 将输入行分割成单独的项目并存储在列表的列表中
+mapperOut = [line.split('\t') for line in input]
+# 输入 数据的个数，n个数据的均值，n个数据平方之后的均值
+print (mapperOut)
+
+# 累计样本总和，总和 和 平分和的总和
+cumN, cumVal, cumSumSq = 0.0, 0.0, 0.0
+for instance in mapperOut:
+    nj = float(instance[0])
+    cumN += nj
+    cumVal += nj*float(instance[1])
+    cumSumSq += nj*float(instance[2])
+
+# 计算均值( varSum是计算方差的展开形式 )
+mean_ = cumVal/cumN
+varSum = (cumSumSq - 2*mean_*cumVal + cumN*mean_*mean_)/cumN
+# 输出 数据总量，均值，平方的均值（方差）
+print("数据总量: %d\t均值: %f\t方差: %f" % (cumN, mean_, varSum))
+print("reduce report: still alive", file=sys.stderr)
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrSVM.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrSVM.py
new file mode 100644
index 00000000..5a124b66
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrSVM.py
@@ -0,0 +1,95 @@
+#!/usr/bin/python
+# coding:utf-8
+
+'''
+Created on 2017-04-07
+Update  on 2017-11-17
+Author: Peter/ApacheCN-xy/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+import pickle
+from numpy import *
+from mrjob.job import MRJob
+from mrjob.step import MRStep
+
+
+class MRsvm(MRJob):
+    DEFAULT_INPUT_PROTOCOL = 'json_value'
+
+    def __init__(self, *args, **kwargs):
+        super(MRsvm, self).__init__(*args, **kwargs)
+        self.data = pickle.load(open('/opt/git/MachineLearnidata/15.BigData_MapReduce/svmDat27', 'r'))
+        self.w = 0
+        self.eta = 0.69
+        self.dataList = []
+        self.k = self.options.batchsize
+        self.numMappers = 1
+        self.t = 1  # iteration number
+
+    def configure_args(self):
+        super(MRsvm, self).configure_args()
+        self.add_passthru_arg(
+            '--iterations', dest='iterations', default=2, type=int,
+            help='T: number of iterations to run')
+        self.add_passthru_arg(
+            '--batchsize', dest='batchsize', default=100, type=int,
+            help='k: number of data points in a batch')
+
+    def map(self, mapperId, inVals):  # 需要 2 个参数
+        # input: nodeId, ('w', w-vector) OR nodeId, ('x', int)
+        if False:
+            yield
+        if inVals[0] == 'w':                  # 积累 w向量
+            self.w = inVals[1]
+        elif inVals[0] == 'x':
+            self.dataList.append(inVals[1])   # 累积数据点计算
+        elif inVals[0] == 't':                # 迭代次数
+            self.t = inVals[1]
+        else:
+            self.eta = inVals                 # 这用于 debug， eta未在map中使用
+
+    def map_fin(self):
+        labels = self.data[:, -1]
+        X = self.data[:, :-1]                # 将数据重新形成 X 和 Y
+        if self.w == 0:
+            self.w = [0.001] * shape(X)[1]   # 在第一次迭代时，初始化 w
+        for index in self.dataList:
+            p = mat(self.w)*X[index, :].T    # calc p=w*dataSet[key].T
+            if labels[index]*p < 1.0:
+                yield (1, ['u', index])      # 确保一切数据包含相同的key
+        yield (1, ['w', self.w])             # 它们将在同一个 reducer
+        yield (1, ['t', self.t])
+
+    def reduce(self, _, packedVals):
+        for valArr in packedVals:            # 从流输入获取值
+            if valArr[0] == 'u':
+                self.dataList.append(valArr[1])
+            elif valArr[0] == 'w':
+                self.w = valArr[1]
+            elif valArr[0] == 't':
+                self.t = valArr[1]
+
+        labels = self.data[:, -1]
+        X = self.data[:, 0:-1]
+        wMat = mat(self.w)
+        wDelta = mat(zeros(len(self.w)))
+
+        for index in self.dataList:
+            wDelta += float(labels[index]) * X[index, :]  # wDelta += label*dataSet
+        eta = 1.0/(2.0*self.t)       # calc new: eta
+        # calc new: w = (1.0 - 1/t)*w + (eta/k)*wDelta
+        wMat = (1.0 - 1.0/self.t)*wMat + (eta/self.k)*wDelta
+        for mapperNum in range(1, self.numMappers+1):
+            yield (mapperNum, ['w', wMat.tolist()[0]])    # 发出 w
+            if self.t < self.options.iterations:
+                yield (mapperNum, ['t', self.t+1])        # 增量 T
+                for j in range(self.k/self.numMappers):   # emit random ints for mappers iid
+                    yield (mapperNum, ['x', random.randint(shape(self.data)[0])])
+
+    def steps(self):
+        return [MRStep(mapper=self.map, reducer=self.reduce, mapper_final=self.map_fin)] * self.options.iterations
+
+
+if __name__ == '__main__':
+    MRsvm.run()
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrSVMkickStart.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrSVMkickStart.py
new file mode 100644
index 00000000..d2efb3c0
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/mrSVMkickStart.py
@@ -0,0 +1,13 @@
+'''
+Created on Feb 27, 2011
+
+Author: Peter
+'''
+from mrjob.protocol import JSONProtocol
+from numpy import *
+
+fw=open('kickStart2.txt', 'w')
+for i in [1]:
+    for j in range(100):
+        fw.write('["x", %d]\n' % random.randint(200))
+fw.close()
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/pegasos.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/pegasos.py
new file mode 100644
index 00000000..d66c1698
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/pegasos.py
@@ -0,0 +1,113 @@
+#!/usr/bin/python
+# coding:utf-8
+
+'''
+Created on 2017-04-07
+Update  on 2017-11-17
+Author: Peter/ApacheCN-xy/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+from numpy import *
+
+
+def loadDataSet(fileName):
+    dataMat = []
+    labelMat = []
+    fr = open(fileName)
+    for line in fr.readlines():
+        lineArr = line.strip().split('\t')
+        # dataMat.append([float(lineArr[0]), float(lineArr[1]), float(lineArr[2])])
+        dataMat.append([float(lineArr[0]), float(lineArr[1])])
+        labelMat.append(float(lineArr[2]))
+    return dataMat, labelMat
+
+
+def seqPegasos(dataSet, labels, lam, T):
+    m, n = shape(dataSet)
+    w = zeros(n)
+    for t in range(1, T+1):
+        i = random.randint(m)
+        eta = 1.0/(lam*t)
+        p = predict(w, dataSet[i, :])
+        if labels[i]*p < 1:
+            w = (1.0 - 1/t)*w + eta*labels[i]*dataSet[i, :]
+        else:
+            w = (1.0 - 1/t)*w
+        print(w)
+    return w
+
+
+def predict(w, x):
+    return w*x.T  # 就是预测 y 的值
+
+
+def batchPegasos(dataSet, labels, lam, T, k):
+    """batchPegasos()
+
+    Args:
+        dataMat    特征集合
+        labels     分类结果集合
+        lam        固定值
+        T          迭代次数
+        k          待处理列表大小
+    Returns:
+        w          回归系数
+    """
+    m, n = shape(dataSet)
+    w = zeros(n)  # 回归系数
+    dataIndex = list(range(m))
+    for t in range(1, T+1):
+        wDelta = mat(zeros(n))  # 重置 wDelta
+
+        # 它是学习率，代表了权重调整幅度的大小。（也可以理解为随机梯度的步长，使它不断减小，便于拟合）
+        # 输入T和K分别设定了迭代次数和待处理列表的大小。在T次迭代过程中，每次需要重新计算eta
+        eta = 1.0/(lam*t)
+        random.shuffle(dataIndex)
+        for j in range(k):      # 全部的训练集  内循环中执行批处理，将分类错误的值全部做累加后更新权重向量
+            i = dataIndex[j]
+            p = predict(w, dataSet[i, :])              # mapper 代码
+
+            # 如果预测正确，并且预测结果的绝对值>=1，因为最大间隔为1, 认为没问题。
+            # 否则算是预测错误, 通过预测错误的结果，来累计更新w.
+            if labels[i]*p < 1:                        # mapper 代码
+                wDelta += labels[i]*dataSet[i, :].A    # 累积变化
+        # w通过不断的随机梯度的方式来优化
+        w = (1.0 - 1/t)*w + (eta/k)*wDelta             # 在每个 T上应用更改
+        # print '-----', w
+    # print '++++++', w
+    return w
+
+
+datArr, labelList = loadDataSet('data/15.BigData_MapReduce/testSet.txt')
+datMat = mat(datArr)
+# finalWs = seqPegasos(datMat, labelList, 2, 5000)
+finalWs = batchPegasos(datMat, labelList, 2, 50, 100)
+print(finalWs)
+
+import matplotlib
+import matplotlib.pyplot as plt
+fig = plt.figure()
+ax = fig.add_subplot(111)
+x1 = []
+y1 = []
+xm1 = []
+ym1 = []
+for i in range(len(labelList)):
+    if labelList[i] == 1.0:
+        x1.append(datMat[i, 0])
+        y1.append(datMat[i, 1])
+    else:
+        xm1.append(datMat[i, 0])
+        ym1.append(datMat[i, 1])
+ax.scatter(x1, y1, marker='s', s=90)
+ax.scatter(xm1, ym1, marker='o', s=50, c='red')
+x = arange(-6.0, 8.0, 0.1)
+y = (-finalWs[0, 0]*x - 0)/finalWs[0, 1]
+# y2 = (0.43799*x)/0.12316
+y2 = (0.498442*x)/0.092387  # 2 iterations
+ax.plot(x, y)
+ax.plot(x, y2, 'g-.')
+ax.axis([-6, 8, -4, 5])
+ax.legend(('50 Iterations', '2 Iterations'))
+plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/proximalSVM.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/proximalSVM.py
new file mode 100644
index 00000000..96c3e2ca
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/proximalSVM.py
@@ -0,0 +1,59 @@
+#!/usr/bin/python
+# coding:utf8
+'''
+Created on 2011-02-25
+Update  on 2017-06-20
+Author: Peter/ApacheCN-xy/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+import base64
+import pickle
+
+import numpy
+
+
+def map(key, value):
+   # input key= class for one training example, e.g. "-1.0"
+   classes = [float(item) for item in key.split(",")]   # e.g. [-1.0]
+   D = numpy.diag(classes)
+
+   # input value = feature vector for one training example, e.g. "3.0, 7.0, 2.0"
+   featurematrix = [float(item) for item in value.split(",")]
+   A = numpy.matrix(featurematrix)
+
+   # create matrix E and vector e
+   e = numpy.matrix(numpy.ones(len(A)).reshape(len(A), 1))
+   E = numpy.matrix(numpy.append(A, -e, axis=1))
+
+   # create a tuple with the values to be used by reducer
+   # and encode it with base64 to avoid potential trouble with '\t' and '\n' used
+   # as default separators in Hadoop Streaming
+   producedvalue = base64.b64encode(pickle.dumps((E.T*E, E.T*D*e)))
+
+   # note: a single constant key "producedkey" sends to only one reducer
+   # somewhat "atypical" due to low degree of parallism on reducer side
+   print("producedkey\t%s" % (producedvalue))
+
+def reduce(key, values, mu=0.1):
+  sumETE = None
+  sumETDe = None
+
+  # key isn't used, so ignoring it with _ (underscore).
+  for _, value in values:
+    # unpickle values
+    ETE, ETDe = pickle.loads(base64.b64decode(value))
+    if sumETE == None:
+      # create the I/mu with correct dimensions
+      sumETE = numpy.matrix(numpy.eye(ETE.shape[1])/mu)
+    sumETE += ETE
+
+    if sumETDe == None:
+      # create sumETDe with correct dimensions
+      sumETDe = ETDe
+    else:
+      sumETDe += ETDe
+
+    # note: omega = result[:-1] and gamma = result[-1]
+    # but printing entire vector as output
+    result = sumETE.I*sumETDe
+    print("%s\t%s" % (key, str(result.tolist())))
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/py27dbg.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/py27dbg.py
new file mode 100644
index 00000000..5d8b9d65
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/py27dbg.py
@@ -0,0 +1,25 @@
+'''
+Created on Feb 27, 2011
+MapReduce version of Pegasos SVM
+Using mrjob to automate job flow
+Author: Peter
+'''
+from mrjob.job import MRJob
+
+import pickle
+from numpy import *
+
+class MRsvm(MRJob):
+                                                 
+    def map(self, mapperId, inVals): #needs exactly 2 arguments
+        if False: yield
+        yield (1, 22)
+
+    def reduce(self, _, packedVals):
+        yield "fuck ass" 
+        
+    def steps(self):
+        return ([self.mr(mapper=self.map, reducer=self.reduce)])
+
+if __name__ == '__main__':
+    MRsvm.run()
diff --git a/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/wc.py b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/wc.py
new file mode 100644
index 00000000..02e05e48
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/15.BigData_MapReduce/wc.py
@@ -0,0 +1,32 @@
+#!/usr/bin/python
+# coding:utf8
+from mrjob.job import MRJob
+
+
+class MRWordCountUtility(MRJob):
+
+    def __init__(self, *args, **kwargs):
+        super(MRWordCountUtility, self).__init__(*args, **kwargs)
+        self.chars = 0
+        self.words = 0
+        self.lines = 0
+
+    def mapper(self, _, line):
+        if False:
+            yield  # I'm a generator!
+
+        self.chars += len(line) + 1  # +1 for newline
+        self.words += sum(1 for word in line.split() if word.strip())
+        self.lines += 1
+
+    def mapper_final(self):
+        yield('chars', self.chars)
+        yield('words', self.words)
+        yield('lines', self.lines)
+
+    def reducer(self, key, values):
+        yield(key, sum(values))
+
+
+if __name__ == '__main__':
+    MRWordCountUtility.run()
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/RS-itemcf.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/RS-itemcf.py
new file mode 100644
index 00000000..14b98a39
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/RS-itemcf.py
@@ -0,0 +1,227 @@
+#!/usr/bin/python
+# coding:utf8
+'''
+Created on 2015-06-22
+Update  on 2017-05-16
+Author: Lockvictor/片刻
+《推荐系统实践》协同过滤算法源代码
+参考地址: https://github.com/Lockvictor/MovieLens-RecSys
+更新地址: https://github.com/apachecn/AiLearning
+'''
+from __future__ import print_function
+import sys
+import math
+import random
+from operator import itemgetter
+
+# 作用: 使得随机数据可预测
+random.seed(0)
+
+
+class ItemBasedCF():
+    ''' TopN recommendation - ItemBasedCF '''
+
+    def __init__(self):
+        self.trainset = {}
+        self.testset = {}
+
+        # n_sim_user: top 20个用户， n_rec_movie: top 10个推荐结果
+        self.n_sim_movie = 20
+        self.n_rec_movie = 10
+
+        # user_sim_mat: 电影之间的相似度， movie_popular: 电影的出现次数， movie_count: 总电影数量
+        self.movie_sim_mat = {}
+        self.movie_popular = {}
+        self.movie_count = 0
+
+        print('Similar movie number = %d' % self.n_sim_movie, file=sys.stderr)
+        print('Recommended movie number = %d' % self.n_rec_movie, file=sys.stderr)
+
+    @staticmethod
+    def loadfile(filename):
+        """loadfile(加载文件，返回一个生成器)
+
+        Args:
+            filename   文件名
+        Returns:
+            line       行数据，去空格
+        """
+        fp = open(filename, 'r')
+        for i, line in enumerate(fp):
+            yield line.strip('\r\n')
+            if i > 0 and i % 100000 == 0:
+                print('loading %s(%s)' % (filename, i), file=sys.stderr)
+        fp.close()
+        print('load %s success' % filename, file=sys.stderr)
+
+    def generate_dataset(self, filename, pivot=0.7):
+        """loadfile(加载文件，将数据集按照7:3 进行随机拆分)
+
+        Args:
+            filename   文件名
+            pivot      拆分比例
+        """
+        trainset_len = 0
+        testset_len = 0
+
+        for line in self.loadfile(filename):
+            # 用户ID，电影名称，评分，时间戳
+            # user, movie, rating, _ = line.split('::')
+            user, movie, rating, _ = line.split('\t')
+            # 通过pivot和随机函数比较，然后初始化用户和对应的值
+            if (random.random() < pivot):
+
+                # dict.setdefault(key, default=None)
+                # key -- 查找的键值
+                # default -- 键不存在时，设置的默认键值
+                self.trainset.setdefault(user, {})
+                self.trainset[user][movie] = int(rating)
+                trainset_len += 1
+            else:
+                self.testset.setdefault(user, {})
+                self.testset[user][movie] = int(rating)
+                testset_len += 1
+
+        print('分离训练集和测试集成功', file=sys.stderr)
+        print('train set = %s' % trainset_len, file=sys.stderr)
+        print('test set = %s' % testset_len, file=sys.stderr)
+
+    def calc_movie_sim(self):
+        """calc_movie_sim(计算用户之间的相似度)"""
+
+        print('counting movies number and popularity...', file=sys.stderr)
+
+        # 统计在所有的用户中，不同电影的总出现次数， user, movies
+        for _, movies in self.trainset.items():
+            for movie in movies:
+                # count item popularity
+                if movie not in self.movie_popular:
+                    self.movie_popular[movie] = 0
+                self.movie_popular[movie] += 1
+
+        print('count movies number and popularity success', file=sys.stderr)
+
+        # save the total number of movies
+        self.movie_count = len(self.movie_popular)
+        print('total movie number = %d' % self.movie_count, file=sys.stderr)
+
+        # 统计在相同用户时，不同电影同时出现的次数
+        itemsim_mat = self.movie_sim_mat
+        print('building co-rated users matrix...', file=sys.stderr)
+        # user, movies
+        for _, movies in self.trainset.items():
+            for m1 in movies:
+                for m2 in movies:
+                    if m1 == m2:
+                        continue
+                    itemsim_mat.setdefault(m1, {})
+                    itemsim_mat[m1].setdefault(m2, 0)
+                    itemsim_mat[m1][m2] += 1
+        print('build co-rated users matrix success', file=sys.stderr)
+
+        # calculate similarity matrix
+        print('calculating movie similarity matrix...', file=sys.stderr)
+        simfactor_count = 0
+        PRINT_STEP = 2000000
+        for m1, related_movies in itemsim_mat.items():
+            for m2, count in related_movies.iteritems():
+                # 余弦相似度
+                itemsim_mat[m1][m2] = count / math.sqrt(
+                    self.movie_popular[m1] * self.movie_popular[m2])
+                simfactor_count += 1
+                # 打印进度条
+                if simfactor_count % PRINT_STEP == 0:
+                    print('calculating movie similarity factor(%d)' % simfactor_count, file=sys.stderr)
+
+        print('calculate movie similarity matrix(similarity factor) success', file=sys.stderr)
+        print('Total similarity factor number = %d' % simfactor_count, file=sys.stderr)
+
+    # @profile
+    def recommend(self, user):
+        """recommend(找出top K的电影，对电影进行相似度sum的排序，取出top N的电影数)
+
+        Args:
+            user       用户
+        Returns:
+            rec_movie  电影推荐列表，按照相似度从大到小的排序
+        """
+        ''' Find K similar movies and recommend N movies. '''
+        K = self.n_sim_movie
+        N = self.n_rec_movie
+        rank = {}
+        watched_movies = self.trainset[user]
+
+        # 计算top K 电影的相似度
+        # rating=电影评分, w=不同电影出现的次数
+        # 耗时分析: 98.2%的时间在 line-154行
+        for movie, rating in watched_movies.iteritems():
+            for related_movie, w in sorted(
+                    self.movie_sim_mat[movie].items(),
+                    key=itemgetter(1),
+                    reverse=True)[0:K]:
+                if related_movie in watched_movies:
+                    continue
+                rank.setdefault(related_movie, 0)
+                rank[related_movie] += w * rating
+        # return the N best movies
+        return sorted(rank.items(), key=itemgetter(1), reverse=True)[0:N]
+
+    def evaluate(self):
+        ''' return precision, recall, coverage and popularity '''
+        print('Evaluation start...', file=sys.stderr)
+
+        # 返回top N的推荐结果
+        N = self.n_rec_movie
+        # varables for precision and recall
+        # hit表示命中(测试集和推荐集相同+1)，rec_count 每个用户的推荐数， test_count 每个用户对应的测试数据集的电影数
+        hit = 0
+        rec_count = 0
+        test_count = 0
+        # varables for coverage
+        all_rec_movies = set()
+        # varables for popularity
+        popular_sum = 0
+
+        # enumerate将其组成一个索引序列，利用它可以同时获得索引和值
+        # 参考地址: http://blog.csdn.net/churximi/article/details/51648388
+        for i, user in enumerate(self.trainset):
+            if i > 0 and i % 500 == 0:
+                print('recommended for %d users' % i, file=sys.stderr)
+            test_movies = self.testset.get(user, {})
+            rec_movies = self.recommend(user)
+
+            # 对比测试集和推荐集的差异 movie, w
+            for movie, _ in rec_movies:
+                if movie in test_movies:
+                    hit += 1
+                all_rec_movies.add(movie)
+                # 计算用户对应的电影出现次数log值的sum加和
+                popular_sum += math.log(1 + self.movie_popular[movie])
+            rec_count += N
+            test_count += len(test_movies)
+
+        precision = hit / (1.0 * rec_count)
+        recall = hit / (1.0 * test_count)
+        coverage = len(all_rec_movies) / (1.0 * self.movie_count)
+        popularity = popular_sum / (1.0 * rec_count)
+
+        print('precision=%.4f \t recall=%.4f \t coverage=%.4f \t popularity=%.4f' % (
+            precision, recall, coverage, popularity), file=sys.stderr)
+
+
+if __name__ == '__main__':
+    # ratingfile = 'data/16.RecommenderSystems/ml-1m/ratings.dat'
+    ratingfile = 'data/16.RecommenderSystems/ml-100k/u.data'
+
+    # 创建ItemCF对象
+    itemcf = ItemBasedCF()
+    # 将数据按照 7:3的比例，拆分成: 训练集和测试集，存储在usercf的trainset和testset中
+    itemcf.generate_dataset(ratingfile, pivot=0.7)
+    # 计算用户之间的相似度
+    itemcf.calc_movie_sim()
+    # 评估推荐效果
+    # itemcf.evaluate()
+    # 查看推荐结果用户
+    user = "2"
+    print("推荐结果", itemcf.recommend(user))
+    print("---", itemcf.testset.get(user, {}))
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/RS-usercf.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/RS-usercf.py
new file mode 100644
index 00000000..fdb1a1f2
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/RS-usercf.py
@@ -0,0 +1,238 @@
+#!/usr/bin/python
+# coding:utf8
+'''
+Created on 2015-06-22
+Update  on 2017-05-16
+Author: Lockvictor/片刻
+《推荐系统实践》协同过滤算法源代码
+参考地址: https://github.com/Lockvictor/MovieLens-RecSys
+更新地址: https://github.com/apachecn/AiLearning
+'''
+from __future__ import print_function
+import sys
+import math
+import random
+from operator import itemgetter
+print(__doc__)
+# 作用: 使得随机数据可预测
+random.seed(0)
+
+
+class UserBasedCF():
+    ''' TopN recommendation - UserBasedCF '''
+
+    def __init__(self):
+        self.trainset = {}
+        self.testset = {}
+
+        # n_sim_user: top 20个用户， n_rec_movie: top 10个推荐结果
+        self.n_sim_user = 20
+        self.n_rec_movie = 10
+
+        # user_sim_mat: 用户之间的相似度， movie_popular: 电影的出现次数， movie_count: 总电影数量
+        self.user_sim_mat = {}
+        self.movie_popular = {}
+        self.movie_count = 0
+
+        print('similar user number = %d' % self.n_sim_user, file=sys.stderr)
+        print('recommended movie number = %d' % self.n_rec_movie, file=sys.stderr)
+
+    @staticmethod
+    def loadfile(filename):
+        """loadfile(加载文件，返回一个生成器)
+
+        Args:
+            filename   文件名
+        Returns:
+            line       行数据，去空格
+        """
+        fp = open(filename, 'r')
+        for i, line in enumerate(fp):
+            yield line.strip('\r\n')
+            if i > 0 and i % 100000 == 0:
+                print('loading %s(%s)' % (filename, i), file=sys.stderr)
+        fp.close()
+        print('load %s success' % filename, file=sys.stderr)
+
+    def generate_dataset(self, filename, pivot=0.7):
+        """loadfile(加载文件，将数据集按照7:3 进行随机拆分)
+
+        Args:
+            filename   文件名
+            pivot      拆分比例
+        """
+        trainset_len = 0
+        testset_len = 0
+
+        for line in self.loadfile(filename):
+            # 用户ID，电影名称，评分，时间戳timestamp
+            # user, movie, rating, timestamp = line.split('::')
+            user, movie, rating, _ = line.split('\t')
+            # 通过pivot和随机函数比较，然后初始化用户和对应的值
+            if (random.random() < pivot):
+
+                # dict.setdefault(key, default=None)
+                # key -- 查找的键值
+                # default -- 键不存在时，设置的默认键值
+                self.trainset.setdefault(user, {})
+                self.trainset[user][movie] = int(rating)
+                trainset_len += 1
+            else:
+                self.testset.setdefault(user, {})
+                self.testset[user][movie] = int(rating)
+                testset_len += 1
+
+        print('分离训练集和测试集成功', file=sys.stderr)
+        print('train set = %s' % trainset_len, file=sys.stderr)
+        print('test  set = %s' % testset_len, file=sys.stderr)
+
+    def calc_user_sim(self):
+        """calc_user_sim(计算用户之间的相似度)"""
+
+        # build inverse table for item-users
+        # key=movieID, value=list of userIDs who have seen this movie
+        print('building movie-users inverse table...', file=sys.stderr)
+        movie2users = dict()
+
+        # 同一个电影中，收集用户的集合
+        # 统计在所有的用户中，不同电影的总出现次数
+        for user, movies in self.trainset.items():
+            for movie in movies:
+                # inverse table for item-users
+                if movie not in movie2users:
+                    movie2users[movie] = set()
+                movie2users[movie].add(user)
+                # count item popularity at the same time
+                if movie not in self.movie_popular:
+                    self.movie_popular[movie] = 0
+                self.movie_popular[movie] += 1
+
+        print('build movie-users inverse table success', file=sys.stderr)
+
+        # save the total movie number, which will be used in evaluation
+        self.movie_count = len(movie2users)
+        print('total movie number = %d' % self.movie_count, file=sys.stderr)
+
+        usersim_mat = self.user_sim_mat
+        # 统计在相同电影时，不同用户同时出现的次数
+        print('building user co-rated movies matrix...', file=sys.stderr)
+
+        for movie, users in movie2users.items():
+            for u in users:
+                for v in users:
+                    if u == v:
+                        continue
+                    usersim_mat.setdefault(u, {})
+                    usersim_mat[u].setdefault(v, 0)
+                    usersim_mat[u][v] += 1
+        print('build user co-rated movies matrix success', file=sys.stderr)
+
+        # calculate similarity matrix
+        print('calculating user similarity matrix...', file=sys.stderr)
+        simfactor_count = 0
+        PRINT_STEP = 2000000
+        for u, related_users in usersim_mat.items():
+            for v, count in related_users.iteritems():
+                # 余弦相似度
+                usersim_mat[u][v] = count / math.sqrt(
+                    len(self.trainset[u]) * len(self.trainset[v]))
+                simfactor_count += 1
+                # 打印进度条
+                if simfactor_count % PRINT_STEP == 0:
+                    print('calculating user similarity factor(%d)' % simfactor_count, file=sys.stderr)
+
+        print('calculate user similarity matrix(similarity factor) success', file=sys.stderr)
+        print('Total similarity factor number = %d' % simfactor_count, file=sys.stderr)
+
+    # @profile
+    def recommend(self, user):
+        """recommend(找出top K的用户，所看过的电影，对电影进行相似度sum的排序，取出top N的电影数)
+
+        Args:
+            user       用户
+        Returns:
+            rec_movie  电影推荐列表，按照相似度从大到小的排序
+        """
+        ''' Find K similar users and recommend N movies. '''
+        K = self.n_sim_user
+        N = self.n_rec_movie
+        rank = dict()
+        watched_movies = self.trainset[user]
+
+        # 计算top K 用户的相似度
+        # v=similar user, wuv=不同用户同时出现的次数，根据wuv倒序从大到小选出K个用户进行排列
+        # 耗时分析: 50.4%的时间在 line-160行
+        for v, wuv in sorted(
+                self.user_sim_mat[user].items(), key=itemgetter(1),
+                reverse=True)[0:K]:
+            for movie, rating in self.trainset[v].iteritems():
+                if movie in watched_movies:
+                    continue
+                # predict the user's "interest" for each movie
+                rank.setdefault(movie, 0)
+                rank[movie] += wuv * rating
+        # return the N best movies
+        """
+        wuv
+        precision=0.3766         recall=0.0759   coverage=0.3183         popularity=6.9194
+
+        wuv * rating
+        precision=0.3865         recall=0.0779   coverage=0.2681         popularity=7.0116
+        """
+        return sorted(rank.items(), key=itemgetter(1), reverse=True)[0:N]
+
+    def evaluate(self):
+        ''' return precision, recall, coverage and popularity '''
+        print('Evaluation start...', file=sys.stderr)
+
+        # 返回top N的推荐结果
+        N = self.n_rec_movie
+        # varables for precision and recall
+        # hit表示命中(测试集和推荐集相同+1)，rec_count 每个用户的推荐数， test_count 每个用户对应的测试数据集的电影数
+        hit = 0
+        rec_count = 0
+        test_count = 0
+        # varables for coverage
+        all_rec_movies = set()
+        # varables for popularity
+        popular_sum = 0
+
+        # enumerate将其组成一个索引序列，利用它可以同时获得索引和值
+        # 参考地址: http://blog.csdn.net/churximi/article/details/51648388
+        for i, user in enumerate(self.trainset):
+            if i > 0 and i % 500 == 0:
+                print('recommended for %d users' % i, file=sys.stderr)
+            test_movies = self.testset.get(user, {})
+            rec_movies = self.recommend(user)
+
+            # 对比测试集和推荐集的差异 movie, w
+            for movie, _ in rec_movies:
+                if movie in test_movies:
+                    hit += 1
+                all_rec_movies.add(movie)
+                # 计算用户对应的电影出现次数log值的sum加和
+                popular_sum += math.log(1 + self.movie_popular[movie])
+            rec_count += N
+            test_count += len(test_movies)
+
+        precision = hit / (1.0 * rec_count)
+        recall = hit / (1.0 * test_count)
+        coverage = len(all_rec_movies) / (1.0 * self.movie_count)
+        popularity = popular_sum / (1.0 * rec_count)
+
+        print('precision=%.4f \t recall=%.4f \t coverage=%.4f \t popularity=%.4f' % (
+            precision, recall, coverage, popularity), file=sys.stderr)
+
+
+if __name__ == '__main__':
+    # ratingfile = 'data/16.RecommenderSystems/ml-1m/ratings.dat'
+    ratingfile = 'data/16.RecommenderSystems/ml-100k/u.data'
+
+    # 创建UserCF对象
+    usercf = UserBasedCF()
+    # 将数据按照 7:3的比例，拆分成: 训练集和测试集，存储在usercf的trainset和testset中
+    usercf.generate_dataset(ratingfile, pivot=0.7)
+    # 计算用户之间的相似度
+    usercf.calc_user_sim()
+    # 评估推荐效果
+    usercf.evaluate()
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/python/Recommender.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/python/Recommender.py
new file mode 100644
index 00000000..40acbb04
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/python/Recommender.py
@@ -0,0 +1,28 @@
+import numpy as np
+
+
+# 自定义杰卡德相似系数函数，仅对0-1矩阵有效
+def Jaccard(a, b):
+    return 1.0*(a*b).sum()/(a+b-a*b).sum()
+
+
+class Recommender():
+
+    # 相似度矩阵
+    sim = None
+
+    # 计算相似度矩阵的函数
+    def similarity(self, x, distance):
+        y = np.ones((len(x), len(x)))
+        for i in range(len(x)):
+            for j in range(len(x)):
+                y[i, j] = distance(x[i], x[j])
+        return y
+
+    # 训练函数
+    def fit(self, x, distance=Jaccard):
+        self.sim = self.similarity(x, distance)
+
+    # 推荐函数
+    def recommend(self, a):
+        return np.dot(self.sim, a)*(1-a)
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-cf-item-test.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-cf-item-test.py
new file mode 100644
index 00000000..d9383f17
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-cf-item-test.py
@@ -0,0 +1,201 @@
+#!/usr/bin/python
+# coding:utf8
+'''
+Created on 2015-06-22
+Update  on 2017-05-16
+Author: Lockvictor/片刻
+《推荐系统实践》协同过滤算法源代码
+参考地址: https://github.com/Lockvictor/MovieLens-RecSys
+更新地址: https://github.com/apachecn/AiLearning
+'''
+from __future__ import print_function
+import math
+import random
+import sys
+from operator import itemgetter
+
+import numpy as np
+import pandas as pd
+from sklearn import cross_validation as cv
+from sklearn.metrics.pairwise import pairwise_distances
+
+# 作用: 使得随机数据可预测
+random.seed(0)
+
+
+class ItemBasedCF():
+    ''' TopN recommendation - ItemBasedCF '''
+
+    def __init__(self):
+        # 拆分数据集
+        self.train_mat = {}
+        self.test_mat = {}
+
+        # 总用户数
+        self.n_users = 0
+        self.n_items = 0
+
+        # n_sim_user: top 20个用户， n_rec_item: top 10个推荐结果
+        self.n_sim_item = 20
+        self.n_rec_item = 10
+
+        # item_mat_similarity: 电影之间的相似度， item_popular: 电影的出现次数， item_count: 总电影数量
+        self.item_mat_similarity = {}
+        self.item_popular = {}
+        self.item_count = 0
+
+        print('Similar item number = %d' % self.n_sim_item, file=sys.stderr)
+        print('Recommended item number = %d' % self.n_rec_item, file=sys.stderr)
+
+    def splitData(self, dataFile, test_size):
+        # 加载数据集
+        header = ['user_id', 'item_id', 'rating', 'timestamp']
+        df = pd.read_csv(dataFile, sep='\t', names=header)
+
+        self.n_users = df.user_id.unique().shape[0]
+        self.n_items = df.item_id.unique().shape[0]
+
+        print('Number of users = ' + str(self.n_users) +
+              ' | Number of items = ' + str(self.n_items))
+
+        # 拆分数据集:  用户+电影
+        self.train_data, self.test_data = cv.train_test_split(
+            df, test_size=test_size)
+        print('分离训练集和测试集成功', file=sys.stderr)
+        print('len(train) = %s' % np.shape(self.train_data)[0], file=sys.stderr)
+        print('len(test) = %s' % np.shape(self.test_data)[0], file=sys.stderr)
+
+    def calc_similarity(self):
+        # 创建用户产品矩阵，针对测试数据和训练数据，创建两个矩阵: 
+        self.train_mat = np.zeros((self.n_users, self.n_items))
+        for line in self.train_data.itertuples():
+            self.train_mat[int(line.user_id) - 1,
+                           int(line.item_id) - 1] = float(line.rating)
+        self.test_mat = np.zeros((self.n_users, self.n_items))
+        for line in self.test_data.itertuples():
+            # print "line", line.user_id-1, line.item_id-1, line.rating
+            self.test_mat[int(line.user_id) - 1,
+                          int(line.item_id) - 1] = float(line.rating)
+
+        # 使用sklearn的pairwise_distances函数来计算余弦相似性。
+        print("1:", np.shape(np.mat(self.train_mat).T))  # 行: 电影，列: 人
+        # 电影-电影-距离(1682, 1682)
+        self.item_mat_similarity = pairwise_distances(
+            np.mat(self.train_mat).T, metric='cosine')
+        print('item_mat_similarity=', np.shape(
+            self.item_mat_similarity), file=sys.stderr)
+
+        print('开始统计流行item的数量...', file=sys.stderr)
+
+        # 统计在所有的用户中，不同电影的总出现次数
+        for i_index in range(self.n_items):
+            if np.sum(self.train_mat[:, i_index]) != 0:
+                self.item_popular[i_index] = np.sum(
+                    self.train_mat[:, i_index] != 0)
+                # print "pop=", i_index, self.item_popular[i_index]
+
+        # save the total number of items
+        self.item_count = len(self.item_popular)
+        print('总共流行item数量 = %d' % self.item_count, file=sys.stderr)
+
+    # @profile
+    def recommend(self, u_index):
+        """recommend(找出top K的电影，对电影进行相似度sum的排序，取出top N的电影数)
+
+        Args:
+            u_index   用户_ID-1=用户index
+        Returns:
+            rec_item  电影推荐列表，按照相似度从大到小的排序
+        """
+        ''' Find K similar items and recommend N items. '''
+        K = self.n_sim_item
+        N = self.n_rec_item
+        rank = {}
+        i_items = np.where(self.train_mat[u_index, :] != 0)[0]
+        # print "i_items=", i_items
+        watched_items = dict(zip(i_items, self.train_mat[u_index, i_items]))
+
+        # 计算top K 电影的相似度
+        # rating=电影评分, w=不同电影出现的次数
+        # 耗时分析: 98.2%的时间在 line-154行
+        for i_item, rating in watched_items.items():
+            i_other_items = np.where(
+                self.item_mat_similarity[i_item, :] != 0)[0]
+            for related_item, w in sorted(
+                    dict(
+                        zip(i_other_items, self.item_mat_similarity[
+                            i_item, i_other_items])).items(),
+                    key=itemgetter(1),
+                    reverse=True)[0:K]:
+                if related_item in watched_items:
+                    continue
+                rank.setdefault(related_item, 0)
+                rank[related_item] += w * rating
+
+        # return the N best items
+        return sorted(rank.items(), key=itemgetter(1), reverse=True)[0:N]
+
+    def evaluate(self):
+        ''' return precision, recall, coverage and popularity '''
+        print('Evaluation start...', file=sys.stderr)
+
+        # varables for precision and recall
+        # hit表示命中(测试集和推荐集相同+1)，rec_count 每个用户的推荐数， test_count 每个用户对应的测试数据集的电影数
+        hit = 0
+        rec_count = 0
+        test_count = 0
+        # varables for coverage
+        all_rec_items = set()
+        # varables for popularity
+        popular_sum = 0
+
+        # enumerate 将其组成一个索引序列，利用它可以同时获得索引和值
+        # 参考地址: http://blog.csdn.net/churximi/article/details/51648388
+        for u_index in range(50):
+            if u_index > 0 and u_index % 10 == 0:
+                print('recommended for %d users' % u_index, file=sys.stderr)
+            print("u_index", u_index)
+
+            # 对比测试集和推荐集的差异
+            rec_items = self.recommend(u_index)
+            print("rec_items=", rec_items)
+            # item, w
+            for item, _ in rec_items:
+                # print 'test_mat[u_index, item]=', item, self.test_mat[u_index, item]
+
+                if self.test_mat[u_index, item] != 0:
+                    hit += 1
+                    print("self.test_mat[%d, %d]=%s" %
+                          (u_index, item, self.test_mat[u_index, item]))
+                # 计算用户对应的电影出现次数log值的sum加和
+                if item in self.item_popular:
+                    popular_sum += math.log(1 + self.item_popular[item])
+
+            rec_count += len(rec_items)
+            test_count += np.sum(self.test_mat[u_index, :] != 0)
+            # print "test_count=", np.sum(self.test_mat[u_index, :] != 0), np.sum(self.train_mat[u_index, :] != 0)
+
+        print("-------", hit, rec_count)
+        precision = hit / (1.0 * rec_count)
+        recall = hit / (1.0 * test_count)
+        coverage = len(all_rec_items) / (1.0 * self.item_count)
+        popularity = popular_sum / (1.0 * rec_count)
+
+        print('precision=%.4f \t recall=%.4f \t coverage=%.4f \t popularity=%.4f' % (
+            precision, recall, coverage, popularity), file=sys.stderr)
+
+
+if __name__ == '__main__':
+    dataFile = 'data/16.RecommenderSystems/ml-100k/u.data'
+
+    # 创建ItemCF对象
+    itemcf = ItemBasedCF()
+    # 将数据按照 7:3的比例，拆分成: 训练集和测试集，存储在usercf的trainset和testset中
+    itemcf.splitData(dataFile, test_size=0.3)
+    # 计算用户之间的相似度
+    itemcf.calc_similarity()
+    # 评估推荐效果
+    # itemcf.evaluate()
+    # 查看推荐结果用户
+    print("推荐结果", itemcf.recommend(u_index=1))
+    print("---", np.where(itemcf.test_mat[1, :] != 0)[0])
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-item.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-item.py
new file mode 100644
index 00000000..85648271
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-item.py
@@ -0,0 +1,31 @@
+#!/usr/bin/python
+# coding:utf8
+
+import numpy as np
+from sklearn.decomposition import NMF
+import matplotlib.pyplot as plt
+
+RATE_MATRIX = np.array([[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4],
+                        [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]])
+
+nmf = NMF(n_components=2)
+user_distribution = nmf.fit_transform(RATE_MATRIX)
+item_distribution = nmf.components_
+
+item_distribution = item_distribution.T
+plt.plot(item_distribution[:, 0], item_distribution[:, 1], "b*")
+plt.xlim((-1, 3))
+plt.ylim((-1, 3))
+
+plt.title(u'the distribution of items (NMF)')
+count = 1
+for item in item_distribution:
+    plt.text(
+        item[0],
+        item[1],
+        'item ' + str(count),
+        bbox=dict(facecolor='red', alpha=0.2),
+    )
+    count += 1
+
+plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-user.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-user.py
new file mode 100644
index 00000000..373d0910
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo-user.py
@@ -0,0 +1,32 @@
+#!/usr/bin/python
+# coding:utf8
+
+import numpy as np
+from sklearn.decomposition import NMF
+import matplotlib.pyplot as plt
+
+RATE_MATRIX = np.array([[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4],
+                        [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]])
+
+nmf = NMF(n_components=2)
+user_distribution = nmf.fit_transform(RATE_MATRIX)
+item_distribution = nmf.components_
+
+users = ['Ben', 'Tom', 'John', 'Fred']
+zip_data = zip(users, user_distribution)
+
+plt.title(u'the distribution of users (NMF)')
+plt.xlim((-1, 3))
+plt.ylim((-1, 4))
+for item in zip_data:
+    user_name = item[0]
+    data = item[1]
+    plt.plot(data[0], data[1], "b*")
+    plt.text(
+        data[0],
+        data[1],
+        user_name,
+        bbox=dict(facecolor='red', alpha=0.2),
+    )
+
+plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo.py
new file mode 100644
index 00000000..ab752c09
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/sklearn-RS-demo.py
@@ -0,0 +1,18 @@
+#!/usr/bin/python
+# coding:utf8
+
+import numpy as np
+from sklearn.decomposition import NMF
+import matplotlib.pyplot as plt
+
+RATE_MATRIX = np.array([[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4],
+                        [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]])
+
+nmf = NMF(n_components=2)  # 设有2个隐主题
+user_distribution = nmf.fit_transform(RATE_MATRIX)
+item_distribution = nmf.components_
+
+print('用户的主题分布: ')
+print(user_distribution)
+print('物品的主题分布: ')
+print(item_distribution)
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_evaluation_model.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_evaluation_model.py
new file mode 100644
index 00000000..164a41b3
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_evaluation_model.py
@@ -0,0 +1,73 @@
+import math
+import random
+
+def SplitData(data, M, k, seed):
+    test = []
+    train = []
+    random.seed(seed)
+    for user, item in data:
+        if random.randint(0, M) == k:
+            test.append([user, item])
+        else:
+            train.append([user, item])
+    return train, test
+
+
+# 准确率
+def Precision(train, test, N):
+    hit = 0
+    all = 0
+    for user in train.keys():
+        tu = test[user]
+        rank = GetRecommendation(user, N)
+        for item, pui in rank:
+            if item in tu:
+                hit += 1
+        all += N
+    return hit / (all * 1.0)
+
+
+# 召回率
+def Recall(train, test, N):
+    hit = 0
+    all = 0
+    for user in train.keys():
+        tu = test[user]
+        rank = GetRecommendation(user, N)
+        for item, pui in rank:
+            if item in tu:
+                hit += 1
+        all += len(tu)
+    return hit / (all * 1.0)
+
+
+# 覆盖率
+def Coverage(train, test, N):
+    recommend_items = set()
+    all_items = set()
+    for user in train.keys():
+        for item in train[user].keys():
+            all_items.add(item)
+        rank = GetRecommendation(user, N)
+        for item, pui in rank:
+            recommend_items.add(item)
+    return len(recommend_items) / (len(all_items) * 1.0)
+
+
+# 新颖度
+def Popularity(train, test, N):
+    item_popularity = dict()
+    for user, items in train.items():
+        for item in items.keys():
+            if item not in item_popularity:
+                item_popularity[item] = 0
+                item_popularity[item] += 1
+    ret = 0
+    n = 0
+    for user in train.keys():
+        rank = GetRecommendation(user, N)
+        for item, pui in rank:
+            ret += math.log(1 + item_popularity[item])
+            n += 1
+    ret /= n * 1.0
+    return ret
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_graph-based.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_graph-based.py
new file mode 100644
index 00000000..72f6282f
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_graph-based.py
@@ -0,0 +1,16 @@
+def PersonalRank(G, alpha, root):
+    rank = dict()
+    rank = {x: 0 for x in G.keys()}
+    rank[root] = 1
+    for _ in range(20):
+        tmp = {x: 0 for x in G.keys()}
+        for i, ri in G.items():
+            # j, wij
+            for j, _ in ri.items():
+                if j not in tmp:
+                    tmp[j] = 0
+                tmp[j] += 0.6 * rank[i] / (1.0 * len(ri))
+                if j == root:
+                    tmp[j] += 1 - alpha
+        rank = tmp
+    return rank
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_lfm.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_lfm.py
new file mode 100644
index 00000000..2d619355
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_lfm.py
@@ -0,0 +1,40 @@
+import random
+
+
+# 负样本采样过程
+def RandSelectNegativeSamples(self, items):
+    ret = {key: 1 for key in items}
+    n = 0
+    for i in range(0, len(items) * 3):
+        item = items_pool[random.randint(0, len(items_pool) - 1)]
+        if item in ret:
+            continue
+        ret[item] = 0
+        n += 1
+        if n > len(items):
+            break
+    return ret
+
+
+def LatentFactorModel(user_items, F, N, alpha, _lambda):
+    [P, Q] = InitModel(user_items, F)
+    for step in range(0, N):
+        for user, items in user_items.items():
+            samples = RandSelectNegativeSamples(items)
+            for item, rui in samples.items():
+                eui = rui - Predict(user, item)
+                for f in range(0, F):
+                    P[user][f] += alpha * (eui * Q[item][f] - _lambda * P[user][f])
+                    Q[item][f] += alpha * (eui * P[user][f] - _lambda * Q[item][f])
+        alpha *= 0.9
+
+
+def Recommend(user, P, Q):
+    rank = dict()
+    for f, puf in P[user].items():
+        for i, qfi in Q[f].items():
+            if i not in rank:
+                rank[i] += puf * qfi
+    return rank
+
+
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_基于物品.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_基于物品.py
new file mode 100644
index 00000000..d7c93b8d
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_基于物品.py
@@ -0,0 +1,65 @@
+import math
+from operator import itemgetter
+
+
+def ItemSimilarity1(train):
+    #calculate co-rated users between items
+    C = dict()
+    N = dict()
+    for u, items in train.items():
+        for i in users:
+            N[i] += 1
+            for j in users:
+                if i == j:
+                    continue
+                C[i][j] += 1
+
+    #calculate finial similarity matrix W
+    W = dict()
+    for i,related_items in C.items():
+        for j, cij in related_items.items():
+            W[u][v] = cij / math.sqrt(N[i] * N[j])
+    return W
+
+
+def ItemSimilarity2(train):
+    #calculate co-rated users between items
+    C = dict()
+    N = dict()
+    for u, items in train.items():
+        for i in users:
+            N[i] += 1
+            for j in users:
+                if i == j:
+                    continue
+            C[i][j] += 1 / math.log(1 + len(items) * 1.0)
+
+    #calculate finial similarity matrix W
+    W = dict()
+    for i,related_items in C.items():
+        for j, cij in related_items.items():
+            W[u][v] = cij / math.sqrt(N[i] * N[j])
+    return W
+
+
+def Recommendation1(train, user_id, W, K):
+    rank = dict()
+    ru = train[user_id]
+    for i,pi in ru.items():
+        for j, wj in sorted(W[i].items(), key=itemgetter(1), reverse=True)[0:K]:
+            if j in ru:
+                continue
+            rank[j] += pi * wj
+    return rank
+
+
+def Recommendation2(train, user_id, W, K):
+    rank = dict()
+    ru = train[user_id]
+    for i,pi in ru.items():
+        for j, wj in sorted(W[i].items(), key=itemgetter(1), reverse=True)[0:K]:
+            if j in ru:
+                continue
+            rank[j].weight += pi * wj
+            rank[j].reason[i] = pi * wj
+    return rank
diff --git a/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_基于用户.py b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_基于用户.py
new file mode 100644
index 00000000..b3341a6b
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/16.RecommenderSystems/test_基于用户.py
@@ -0,0 +1,80 @@
+import math
+from operator import itemgetter
+
+def UserSimilarity1(train):
+    W = dict()
+    for u in train.keys():
+        for v in train.keys():
+            if u == v:
+                continue
+            W[u][v] = len(train[u] & train[v])
+            W[u][v] /= math.sqrt(len(train[u]) * len(train[v]) * 1.0)
+    return W
+
+
+def UserSimilarity2(train):
+    # build inverse table for item_users
+    item_users = dict()
+    for u, items in train.items():
+        for i in items.keys():
+            if i not in item_users:
+                item_users[i] = set()
+            item_users[i].add(u)
+
+    #calculate co-rated items between users
+    C = dict()
+    N = dict()
+    for i, users in item_users.items():
+        for u in users:
+            N[u] += 1
+            for v in users:
+                if u == v:
+                    continue
+                C[u][v] += 1
+
+    #calculate finial similarity matrix W
+    W = dict()
+    for u, related_users in C.items():
+        for v, cuv in related_users.items():
+            W[u][v] = cuv / math.sqrt(N[u] * N[v])
+    return W
+
+
+def UserSimilarity3(train):
+    # build inverse table for item_users
+    item_users = dict()
+    for u, items in train.items():
+        for i in items.keys():
+            if i not in item_users:
+                item_users[i] = set()
+            item_users[i].add(u)
+
+    #calculate co-rated items between users
+    C = dict()
+    N = dict()
+    for i, users in item_users.items():
+        for u in users:
+            N[u] += 1
+            for v in users:
+                if u == v:
+                    continue
+                C[u][v] += 1 / math.log(1 + len(users))
+
+    #calculate finial similarity matrix W
+    W = dict()
+    for u, related_users in C.items():
+        for v, cuv in related_users.items():
+            W[u][v] = cuv / math.sqrt(N[u] * N[v])
+    return W
+
+
+def Recommend(user, train, W):
+    rank = dict()
+    interacted_items = train[user]
+    for v, wuv in sorted(W[u].items, key=itemgetter(1), reverse=True)[0:K]:
+        for i, rvi in train[v].items:
+            if i in interacted_items:
+                #we should filter items user interacted before
+                continue
+            rank[i] += wuv * rvi
+    return rank
diff --git a/机器学习/殷康龙/源代码/ml/2.KNN/kNN.py b/机器学习/殷康龙/源代码/ml/2.KNN/kNN.py
new file mode 100644
index 00000000..981e6530
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/2.KNN/kNN.py
@@ -0,0 +1,325 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+'''
+Created on Sep 16, 2010
+Update  on 2017-05-18
+Author: Peter Harrington/羊三/小瑶
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+# 导入科学计算包numpy和运算符模块operator
+from numpy import *
+import operator
+import os
+from collections import Counter
+
+
+def createDataSet():
+    """
+    Desc:
+        创建数据集和标签
+    Args:
+        None
+    Returns:
+        group -- 训练数据集的 features
+        labels -- 训练数据集的 labels
+    调用方式
+    import kNN
+    group, labels = kNN.createDataSet()
+    """
+    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
+    labels = ['A', 'A', 'B', 'B']
+    return group, labels
+
+
+def classify0(inX, dataSet, labels, k):
+    """
+    Desc:
+        kNN 的分类函数
+    Args:
+        inX -- 用于分类的输入向量/测试数据
+        dataSet -- 训练数据集的 features
+        labels -- 训练数据集的 labels
+        k -- 选择最近邻的数目
+    Returns:
+        sortedClassCount[0][0] -- 输入向量的预测分类 labels
+
+    注意: labels元素数目和dataSet行数相同；程序使用欧式距离公式.
+
+    预测数据所在分类可在输入下列命令
+    kNN.classify0([0,0], group, labels, 3)
+    """
+
+    # -----------实现 classify0() 方法的第一种方式----------------------------------------------------------------------------------------------------------------------------
+    # 1. 距离计算
+    dataSetSize = dataSet.shape[0]
+    # tile生成和训练样本对应的矩阵，并与训练样本求差
+    """
+    tile: 列-3表示复制的行数， 行-1／2表示对inx的重复的次数
+
+    In [8]: tile(inx, (3, 1))
+    Out[8]:
+    array([[1, 2, 3],
+        [1, 2, 3],
+        [1, 2, 3]])
+
+    In [9]: tile(inx, (3, 2))
+    Out[9]:
+    array([[1, 2, 3, 1, 2, 3],
+        [1, 2, 3, 1, 2, 3],
+        [1, 2, 3, 1, 2, 3]])
+    """
+    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
+    """
+    欧氏距离:  点到点之间的距离
+       第一行:  同一个点 到 dataSet 的第一个点的距离。
+       第二行:  同一个点 到 dataSet 的第二个点的距离。
+       ...
+       第N行:  同一个点 到 dataSet 的第N个点的距离。
+
+    [[1,2,3],[1,2,3]]-[[1,2,3],[1,2,0]]
+    (A1-A2)^2+(B1-B2)^2+(c1-c2)^2
+    """
+    # 取平方
+    sqDiffMat = diffMat ** 2
+    # 将矩阵的每一行相加
+    sqDistances = sqDiffMat.sum(axis=1)
+    # 开方
+    distances = sqDistances ** 0.5
+    # 根据距离排序从小到大的排序，返回对应的索引位置
+    # argsort() 是将x中的元素从小到大排列，提取其对应的index（索引），然后输出到y。
+    # 例如: y=array([3,0,2,1,4,5]) 则，x[3]=1最小，所以y[0]=3;x[5]=5最大，所以y[5]=5。
+    # print 'distances=', distances
+    sortedDistIndicies = distances.argsort()
+    # print 'distances.argsort()=', sortedDistIndicies
+
+    # 2. 选择距离最小的k个点
+    classCount = {}
+    for i in range(k):
+        # 找到该样本的类型
+        voteIlabel = labels[sortedDistIndicies[i]]
+        # 在字典中将该类型加一
+        # 字典的get方法
+        # 如: list.get(k,d) 其中 get相当于一条if...else...语句,参数k在字典中，字典将返回list[k];如果参数k不在字典中则返回参数d,如果K在字典中则返回k对应的value值
+        # l = {5:2,3:4}
+        # print l.get(3,0)返回的值是4；
+        # Print l.get（1,0）返回值是0；
+        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
+    # 3. 排序并返回出现最多的那个类型
+    # 字典的 items() 方法，以列表返回可遍历的(键，值)元组数组。
+    # 例如: dict = {'Name': 'Zara', 'Age': 7}   print "Value : %s" %  dict.items()   Value : [('Age', 7), ('Name', 'Zara')]
+    # sorted 中的第2个参数 key=operator.itemgetter(1) 这个参数的意思是先比较第几个元素
+    # 例如: a=[('b',2),('a',1),('c',0)]  b=sorted(a,key=operator.itemgetter(1)) >>>b=[('c',0),('a',1),('b',2)] 可以看到排序是按照后边的0,1,2进行排序的，而不是a,b,c
+    # b=sorted(a,key=operator.itemgetter(0)) >>>b=[('a',1),('b',2),('c',0)] 这次比较的是前边的a,b,c而不是0,1,2
+    # b=sorted(a,key=opertator.itemgetter(1,0)) >>>b=[('c',0),('a',1),('b',2)] 这个是先比较第2个元素，然后对第一个元素进行排序，形成多级排序。
+    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
+    return sortedClassCount[0][0]
+    
+    # ------------------------------------------------------------------------------------------------------------------------------------------
+    # 实现 classify0() 方法的第二种方式
+
+    # """
+    # 1. 计算距离
+    
+    # 欧氏距离:  点到点之间的距离
+    #    第一行:  同一个点 到 dataSet的第一个点的距离。
+    #    第二行:  同一个点 到 dataSet的第二个点的距离。
+    #    ...
+    #    第N行:  同一个点 到 dataSet的第N个点的距离。
+
+    # [[1,2,3],[1,2,3]]-[[1,2,3],[1,2,0]]
+    # (A1-A2)^2+(B1-B2)^2+(c1-c2)^2
+    
+    # inx - dataset 使用了numpy broadcasting，见 https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html
+    # np.sum() 函数的使用见 https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.sum.html
+    # """
+	#   dist = np.sum((inx - dataset)**2, axis=1)**0.5
+    
+    # """
+    # 2. k个最近的标签
+    
+    # 对距离排序使用numpy中的argsort函数， 见 https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.sort.html#numpy.sort
+    # 函数返回的是索引，因此取前k个索引使用[0 : k]
+    # 将这k个标签存在列表k_labels中
+    # """
+    # k_labels = [labels[index] for index in dist.argsort()[0 : k]]
+	# """
+    # 3. 出现次数最多的标签即为最终类别
+    
+    # 使用collections.Counter可以统计各个标签的出现次数，most_common返回出现次数最多的标签tuple，例如[('lable1', 2)]，因此[0][0]可以取出标签值
+	# """
+    # label = Counter(k_labels).most_common(1)[0][0]
+    # return label
+
+    # ------------------------------------------------------------------------------------------------------------------------------------------
+
+
+def test1():
+    """
+    第一个例子演示
+    """
+    group, labels = createDataSet()
+    print(str(group))
+    print(str(labels))
+    print(classify0([0.1, 0.1], group, labels, 3))
+
+
+# ----------------------------------------------------------------------------------------
+def file2matrix(filename):
+    """
+    导入训练数据
+    :param filename: 数据文件路径
+    :return: 数据矩阵returnMat和对应的类别classLabelVector
+    """
+    fr = open(filename, 'r')
+    # 获得文件中的数据行的行数
+    numberOfLines = len(fr.readlines())
+    # 生成对应的空矩阵
+    # 例如: zeros(2，3)就是生成一个 2*3 的矩阵，各个位置上全是 0 
+    returnMat = zeros((numberOfLines, 3))  # prepare matrix to return
+    classLabelVector = []  # prepare labels return
+    fr = open(filename, 'r')
+    index = 0
+    for line in fr.readlines():
+        # str.strip([chars]) --返回移除字符串头尾指定的字符生成的新字符串
+        line = line.strip()
+        # 以 '\t' 切割字符串
+        listFromLine = line.split('\t')
+        # 每列的属性数据，即 features
+        returnMat[index] = listFromLine[0 : 3]
+        # 每列的类别数据，就是 label 标签数据
+        classLabelVector.append(int(listFromLine[-1]))
+        index += 1
+    # 返回数据矩阵returnMat和对应的类别classLabelVector
+    return returnMat, classLabelVector
+
+
+def autoNorm(dataSet):
+    """
+    Desc: 
+        归一化特征值，消除属性之间量级不同导致的影响
+    Args: 
+        dataSet -- 需要进行归一化处理的数据集
+    Returns: 
+        normDataSet -- 归一化处理后得到的数据集
+        ranges -- 归一化处理的范围
+        minVals -- 最小值
+
+    归一化公式: 
+        Y = (X-Xmin)/(Xmax-Xmin)
+        其中的 min 和 max 分别是数据集中的最小特征值和最大特征值。该函数可以自动将数字特征值转化为0到1的区间。
+    """
+    # 计算每种属性的最大值、最小值、范围
+    minVals = dataSet.min(0)
+    maxVals = dataSet.max(0)
+    # 极差
+    ranges = maxVals - minVals
+    # -------第一种实现方式---start-------------------------
+    normDataSet = zeros(shape(dataSet))
+    m = dataSet.shape[0]
+    # 生成与最小值之差组成的矩阵
+    normDataSet = dataSet - tile(minVals, (m, 1))
+    # 将最小值之差除以范围组成矩阵
+    normDataSet = normDataSet / tile(ranges, (m, 1))  # element wise divide
+    # -------第一种实现方式---end---------------------------------------------
+    
+    # # -------第二种实现方式---start---------------------------------------
+    # norm_dataset = (dataset - minvalue) / ranges
+    # # -------第二种实现方式---end---------------------------------------------
+    return normDataSet, ranges, minVals
+
+
+def datingClassTest():
+    """
+    Desc: 
+        对约会网站的测试方法，并将分类错误的数量和分类错误率打印出来
+    Args: 
+        None
+    Returns: 
+        None
+    """
+    # 设置测试数据的的一个比例（训练数据集比例=1-hoRatio）
+    hoRatio = 0.1  # 测试范围,一部分测试一部分作为样本
+    # 从文件中加载数据
+    datingDataMat, datingLabels = file2matrix("data/2.KNN/datingTestSet2.txt")  # load data setfrom file
+    # 归一化数据
+    normMat, ranges, minVals = autoNorm(datingDataMat)
+    # m 表示数据的行数，即矩阵的第一维
+    m = normMat.shape[0]
+    # 设置测试的样本数量， numTestVecs:m表示训练样本的数量
+    numTestVecs = int(m * hoRatio)
+    print('numTestVecs=', numTestVecs)
+    errorCount = 0
+    for i in range(numTestVecs):
+        # 对数据测试
+        classifierResult = classify0(normMat[i], normMat[numTestVecs : m], datingLabels[numTestVecs : m], 3)
+        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
+        errorCount += classifierResult != datingLabels[i]
+    print("the total error rate is: %f" % (errorCount / numTestVecs))
+    print(errorCount)
+
+
+def img2vector(filename):
+    """
+    Desc: 
+        将图像数据转换为向量
+    Args: 
+        filename -- 图片文件 因为我们的输入数据的图片格式是 32 * 32的
+    Returns:
+        returnVect -- 图片文件处理完成后的一维矩阵
+
+    该函数将图像转换为向量: 该函数创建 1 * 1024 的NumPy数组，然后打开给定的文件，
+    循环读出文件的前32行，并将每行的头32个字符值存储在NumPy数组中，最后返回数组。
+    """
+    returnVect = zeros((1, 1024))
+    fr = open(filename, 'r')
+    for i in range(32):
+        lineStr = fr.readline()
+        for j in range(32):
+            returnVect[0, 32 * i + j] = int(lineStr[j])
+    return returnVect
+
+
+def handwritingClassTest():
+    """
+    Desc:
+        手写数字识别分类器，并将分类错误数和分类错误率打印出来
+    Args:
+        None
+    Returns:
+        None
+    """
+    # 1. 导入数据
+    hwLabels = []
+    trainingFileList = os.listdir("data/2.KNN/trainingDigits") # load the training set
+    m = len(trainingFileList)
+    trainingMat = zeros((m, 1024))
+    # hwLabels存储0～9对应的index位置， trainingMat存放的每个位置对应的图片向量
+    for i in range(m):
+        fileNameStr = trainingFileList[i]
+        fileStr = fileNameStr.split('.')[0]  # take off .txt
+        classNumStr = int(fileStr.split('_')[0])
+        hwLabels.append(classNumStr)
+        # 将 32*32的矩阵->1*1024的矩阵
+        trainingMat[i] = img2vector('data/2.KNN/trainingDigits/%s' % fileNameStr)
+
+    # 2. 导入测试数据
+    testFileList = os.listdir('data/2.KNN/testDigits')  # iterate through the test set
+    errorCount = 0
+    mTest = len(testFileList)
+    for i in range(mTest):
+        fileNameStr = testFileList[i]
+        fileStr = fileNameStr.split('.')[0]  # take off .txt
+        classNumStr = int(fileStr.split('_')[0])
+        vectorUnderTest = img2vector('data/2.KNN/testDigits/%s' % fileNameStr)
+        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
+        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
+        errorCount += classifierResult != classNumStr
+    print("\nthe total number of errors is: %d" % errorCount)
+    print("\nthe total error rate is: %f" % (errorCount / mTest))
+
+
+if __name__ == '__main__':
+    # test1()
+    # datingClassTest()
+    handwritingClassTest()
diff --git a/机器学习/殷康龙/源代码/ml/2.KNN/sklearn-knn-demo.py b/机器学习/殷康龙/源代码/ml/2.KNN/sklearn-knn-demo.py
new file mode 100644
index 00000000..05b8eefe
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/2.KNN/sklearn-knn-demo.py
@@ -0,0 +1,69 @@
+#!/usr/bin/python
+# -*- coding: UTF-8 -*-
+
+"""
+Created on 2017-06-28
+Updated on 2017-06-28
+KNN: k近邻算法
+Author: 小瑶
+GitHub: https://github.com/apachecn/AiLearning
+"""
+print(__doc__)
+
+import numpy as np
+import matplotlib.pyplot as plt
+from numpy import *
+from matplotlib.colors import ListedColormap
+from sklearn import neighbors, datasets
+
+n_neighbors = 3
+
+# 导入一些要玩的数据
+iris = datasets.load_iris()
+X = iris.data[:, :2]  # 我们只采用前两个feature. 我们可以使用二维数据集避免这个丑陋的切片
+y = iris.target
+
+# print 'X=', type(X), X
+# print 'y=', type(y), y
+
+# X = array([[-1.0, -1.1], [-1.0, -1.0], [0, 0], [1.0, 1.1], [2.0, 2.0], [2.0, 2.1]])
+# y = array([0, 0, 0, 1, 1, 1])
+
+# print 'X=', type(X), X
+# print 'y=', type(y), y
+
+h = .02  # 网格中的步长
+
+# 创建彩色的图
+cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])
+cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])
+
+# cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA'])
+# cmap_bold = ListedColormap(['#FF0000', '#00FF00'])
+
+for weights in ['uniform', 'distance']:
+    # 我们创建了一个knn分类器的实例，并拟合数据。
+    clf = neighbors.KNeighborsClassifier(n_neighbors, weights=weights)
+    clf.fit(X, y)
+
+    # 绘制决策边界。为此，我们将为每个分配一个颜色
+    # 来绘制网格中的点 [x_min, x_max]x[y_min, y_max].
+    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
+    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
+    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
+                         np.arange(y_min, y_max, h))
+    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
+
+    # 将结果放入一个彩色图中
+    Z = Z.reshape(xx.shape)
+    plt.figure()
+    plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
+
+    # 绘制训练点
+    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold)
+    plt.xlim(xx.min(), xx.max())
+    plt.ylim(yy.min(), yy.max())
+    plt.title("3-Class classification (k = %i, weights = '%s')"
+              % (n_neighbors, weights))
+
+plt.show()
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/ml/3.DecisionTree/DTSklearn.py b/机器学习/殷康龙/源代码/ml/3.DecisionTree/DTSklearn.py
new file mode 100644
index 00000000..014ac340
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/3.DecisionTree/DTSklearn.py
@@ -0,0 +1,117 @@
+#!/usr/bin/python
+# -*- coding: UTF-8 -*-
+# 原始链接:  http://blog.csdn.net/lsldd/article/details/41223147
+# GitHub: https://github.com/apachecn/AiLearning
+import numpy as np
+from sklearn import tree
+from sklearn.metrics import precision_recall_curve
+from sklearn.metrics import classification_report
+from sklearn.model_selection import train_test_split
+
+
+def createDataSet():
+    ''' 数据读入 '''
+    data = []
+    labels = []
+    with open("data/3.DecisionTree/data.txt") as ifile:
+        for line in ifile:
+            # 特征:  身高 体重   label:  胖瘦
+            tokens = line.strip().split(' ')
+            data.append([float(tk) for tk in tokens[:-1]])
+            labels.append(tokens[-1])
+    # 特征数据
+    x = np.array(data)
+    # label分类的标签数据
+    labels = np.array(labels)
+    # 预估结果的标签数据
+    y = np.zeros(labels.shape)
+
+    ''' 标签转换为0/1 '''
+    y[labels == 'fat'] = 1
+    print(data, '-------', x, '-------', labels, '-------', y)
+    return x, y
+
+
+def predict_train(x_train, y_train):
+    '''
+    使用信息熵作为划分标准，对决策树进行训练
+    参考链接:  http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier
+    '''
+    clf = tree.DecisionTreeClassifier(criterion='entropy')
+    # print(clf)
+    clf.fit(x_train, y_train)
+    ''' 系数反映每个特征的影响力。越大表示该特征在分类中起到的作用越大 '''
+    print('feature_importances_: %s' % clf.feature_importances_)
+
+    '''测试结果的打印'''
+    y_pre = clf.predict(x_train)
+    # print(x_train)
+    print(y_pre)
+    print(y_train)
+    print(np.mean(y_pre == y_train))
+    return y_pre, clf
+
+
+def show_precision_recall(x, y, clf,  y_train, y_pre):
+    '''
+    准确率与召回率
+    参考链接:  http://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html#sklearn.metrics.precision_recall_curve
+    '''
+    precision, recall, thresholds = precision_recall_curve(y_train, y_pre)
+    # 计算全量的预估结果
+    answer = clf.predict_proba(x)[:, 1]
+
+    '''
+    展现 准确率与召回率
+        precision 准确率
+        recall 召回率
+        f1-score  准确率和召回率的一个综合得分
+        support 参与比较的数量
+    参考链接: http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report
+    '''
+    # target_names 以 y的label分类为准
+    target_names = ['thin', 'fat']
+    print(classification_report(y, answer, target_names=target_names))
+    print(answer)
+    print(y)
+
+
+def show_pdf(clf):
+    '''
+    可视化输出
+    把决策树结构写入文件: http://sklearn.lzjqsdd.com/modules/tree.html
+
+    Mac报错: pydotplus.graphviz.InvocationException: GraphViz's executables not found
+    解决方案: sudo brew install graphviz
+    参考写入:  http://www.jianshu.com/p/59b510bafb4d
+    '''
+    # with open("testResult/tree.dot", 'w') as f:
+    #     from sklearn.externals.six import StringIO
+    #     tree.export_graphviz(clf, out_file=f)
+
+    import pydotplus
+    from sklearn.externals.six import StringIO
+    dot_data = StringIO()
+    tree.export_graphviz(clf, out_file=dot_data)
+    graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
+    graph.write_pdf("../../../output/3.DecisionTree/tree.pdf")
+
+    # from IPython.display import Image
+    # Image(graph.create_png())
+
+
+if __name__ == '__main__':
+    x, y = createDataSet()
+
+    ''' 拆分训练数据与测试数据， 80%做训练 20%做测试 '''
+    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
+    print('拆分数据: ', x_train, x_test, y_train, y_test)
+
+    # 得到训练的预测结果集
+    y_pre, clf = predict_train(x_train, y_train)
+
+    # 展现 准确率与召回率
+    show_precision_recall(x, y, clf, y_train, y_pre)
+
+    # 可视化输出
+    show_pdf(clf)
diff --git a/机器学习/殷康龙/源代码/ml/3.DecisionTree/DecisionTree.py b/机器学习/殷康龙/源代码/ml/3.DecisionTree/DecisionTree.py
new file mode 100644
index 00000000..358c9063
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/3.DecisionTree/DecisionTree.py
@@ -0,0 +1,404 @@
+#!/usr/bin/python
+# -*- coding: UTF-8 -*-
+
+'''
+Created on Oct 12, 2010
+Update on 2017-05-18
+Decision Tree Source Code for Machine Learning in Action Ch. 3
+Author: Peter Harrington/片刻
+GitHub: https://github.com/apachecn/AiLearning
+'''
+print(__doc__)
+import operator
+from math import log
+import decisionTreePlot as dtPlot
+from collections import Counter
+
+
+def createDataSet():
+    """
+    Desc:
+        创建数据集
+    Args:
+        无需传入参数
+    Returns:
+        返回数据集和对应的label标签
+    """
+    # dataSet 前两列是特征，最后一列对应的是每条数据对应的分类标签
+    dataSet = [[1, 1, 'yes'],
+               [1, 1, 'yes'],
+               [1, 0, 'no'],
+               [0, 1, 'no'],
+               [0, 1, 'no']]
+    # dataSet = [['yes'],
+    #         ['yes'],
+    #         ['no'],
+    #         ['no'],
+    #         ['no']]
+    # labels  露出水面   脚蹼，注意: 这里的labels是写的 dataSet 中特征的含义，并不是对应的分类标签或者说目标变量
+    labels = ['no surfacing', 'flippers']
+    # 返回
+    return dataSet, labels
+
+
+def calcShannonEnt(dataSet):
+    """
+    Desc: 
+        calculate Shannon entropy -- 计算给定数据集的香农熵
+    Args:
+        dataSet -- 数据集
+    Returns:
+        shannonEnt -- 返回 每一组 feature 下的某个分类下，香农熵的信息期望
+    """
+    # -----------计算香农熵的第一种实现方式start--------------------------------------------------------------------------------
+    # 求list的长度，表示计算参与训练的数据量
+    numEntries = len(dataSet)
+    # 下面输出我们测试的数据集的一些信息
+    # 例如: <type 'list'> numEntries:  5 是下面的代码的输出
+    # print(type(dataSet), 'numEntries: ', numEntries)
+
+    # 计算分类标签label出现的次数
+    labelCounts = {}
+    # the the number of unique elements and their occurance
+    for featVec in dataSet:
+        # 将当前实例的标签存储，即每一行数据的最后一个数据代表的是标签
+        currentLabel = featVec[-1]
+        # 为所有可能的分类创建字典，如果当前的键值不存在，则扩展字典并将当前键值加入字典。每个键值都记录了当前类别出现的次数。
+        if currentLabel not in labelCounts.keys():
+            labelCounts[currentLabel] = 0
+        labelCounts[currentLabel] += 1
+        # print('-----', featVec, labelCounts)
+
+    # 对于label标签的占比，求出label标签的香农熵
+    shannonEnt = 0.0
+    for key in labelCounts:
+        # 使用所有类标签的发生频率计算类别出现的概率。
+        prob = float(labelCounts[key])/numEntries
+        # log base 2
+        # 计算香农熵，以 2 为底求对数
+        shannonEnt -= prob * log(prob, 2)
+        # print('---', prob, prob * log(prob, 2), shannonEnt)
+    # -----------计算香农熵的第一种实现方式end--------------------------------------------------------------------------------
+
+    # # -----------计算香农熵的第二种实现方式start--------------------------------------------------------------------------------
+    # # 统计标签出现的次数
+    # label_count = Counter(data[-1] for data in dataSet)
+    # # 计算概率
+    # probs = [p[1] / len(dataSet) for p in label_count.items()]
+    # # 计算香农熵
+    # shannonEnt = sum([-p * log(p, 2) for p in probs])
+    # # -----------计算香农熵的第二种实现方式end--------------------------------------------------------------------------------
+    return shannonEnt
+
+
+def splitDataSet(dataSet, index, value):
+    """
+    Desc: 
+        划分数据集
+        splitDataSet(通过遍历dataSet数据集，求出index对应的colnum列的值为value的行)
+        就是依据index列进行分类，如果index列的数据等于 value的时候，就要将 index 划分到我们创建的新的数据集中
+    Args:
+        dataSet  -- 数据集                 待划分的数据集
+        index -- 表示每一行的index列        划分数据集的特征
+        value -- 表示index列对应的value值   需要返回的特征的值。
+    Returns:
+        index 列为 value 的数据集【该数据集需要排除index列】
+    """
+    # -----------切分数据集的第一种方式 start------------------------------------
+    retDataSet = []
+    for featVec in dataSet: 
+        # index列为value的数据集【该数据集需要排除index列】
+        # 判断index列的值是否为value
+        if featVec[index] == value:
+            # chop out index used for splitting
+            # [:index]表示前index行，即若 index 为2，就是取 featVec 的前 index 行
+            reducedFeatVec = featVec[:index]
+            '''
+            请百度查询一下:  extend和append的区别
+            list.append(object) 向列表中添加一个对象object
+            list.extend(sequence) 把一个序列seq的内容添加到列表中
+            1、使用append的时候，是将new_media看作一个对象，整体打包添加到music_media对象中。
+            2、使用extend的时候，是将new_media看作一个序列，将这个序列和music_media序列合并，并放在其后面。
+            result = []
+            result.extend([1,2,3])
+            print(result)
+            result.append([4,5,6])
+            print(result)
+            result.extend([7,8,9])
+            print(result)
+            结果: 
+            [1, 2, 3]
+            [1, 2, 3, [4, 5, 6]]
+            [1, 2, 3, [4, 5, 6], 7, 8, 9]
+            '''
+            reducedFeatVec.extend(featVec[index+1:])
+            # [index+1:]表示从跳过 index 的 index+1行，取接下来的数据
+            # 收集结果值 index列为value的行【该行需要排除index列】
+            retDataSet.append(reducedFeatVec)
+    # -----------切分数据集的第一种方式 end------------------------------------
+
+    # # -----------切分数据集的第二种方式 start------------------------------------
+    # retDataSet = [data[:index] + data[index + 1:] for data in dataSet for i, v in enumerate(data) if i == index and v == value]
+    # # -----------切分数据集的第二种方式 end------------------------------------
+    return retDataSet
+
+
+def chooseBestFeatureToSplit(dataSet):
+    """
+    Desc:
+        选择切分数据集的最佳特征
+    Args:
+        dataSet -- 需要切分的数据集
+    Returns:
+        bestFeature -- 切分数据集的最优的特征列
+    """
+
+    # -----------选择最优特征的第一种方式 start------------------------------------
+    # 求第一行有多少列的 Feature, 最后一列是label列嘛
+    numFeatures = len(dataSet[0]) - 1
+    # label的信息熵
+    baseEntropy = calcShannonEnt(dataSet)
+    # 最优的信息增益值, 和最优的Featurn编号
+    bestInfoGain, bestFeature = 0.0, -1
+    # iterate over all the features
+    for i in range(numFeatures):
+        # create a list of all the examples of this feature
+        # 获取每一个实例的第i+1个feature，组成list集合
+        featList = [example[i] for example in dataSet]
+        # get a set of unique values
+        # 获取剔重后的集合，使用set对list数据进行去重
+        uniqueVals = set(featList)
+        # 创建一个临时的信息熵
+        newEntropy = 0.0
+        # 遍历某一列的value集合，计算该列的信息熵 
+        # 遍历当前特征中的所有唯一属性值，对每个唯一属性值划分一次数据集，计算数据集的新熵值，并对所有唯一特征值得到的熵求和。
+        for value in uniqueVals:
+            subDataSet = splitDataSet(dataSet, i, value)
+            prob = len(subDataSet)/float(len(dataSet))
+            newEntropy += prob * calcShannonEnt(subDataSet)
+        # gain[信息增益]: 划分数据集前后的信息变化， 获取信息熵最大的值
+        # 信息增益是熵的减少或者是数据无序度的减少。最后，比较所有特征中的信息增益，返回最好特征划分的索引值。
+        infoGain = baseEntropy - newEntropy
+        print('infoGain=', infoGain, 'bestFeature=', i, baseEntropy, newEntropy)
+        if (infoGain > bestInfoGain):
+            bestInfoGain = infoGain
+            bestFeature = i
+    return bestFeature
+    # -----------选择最优特征的第一种方式 end------------------------------------
+
+    # # -----------选择最优特征的第二种方式 start------------------------------------
+    # # 计算初始香农熵
+    # base_entropy = calcShannonEnt(dataSet)
+    # best_info_gain = 0
+    # best_feature = -1
+    # # 遍历每一个特征
+    # for i in range(len(dataSet[0]) - 1):
+    #     # 对当前特征进行统计
+    #     feature_count = Counter([data[i] for data in dataSet])
+    #     # 计算分割后的香农熵
+    #     new_entropy = sum(feature[1] / float(len(dataSet)) * calcShannonEnt(splitDataSet(dataSet, i, feature[0])) \
+    #                    for feature in feature_count.items())
+    #     # 更新值
+    #     info_gain = base_entropy - new_entropy
+    #     print('No. {0} feature info gain is {1:.3f}'.format(i, info_gain))
+    #     if info_gain > best_info_gain:
+    #         best_info_gain = info_gain
+    #         best_feature = i
+    # return best_feature
+    # # -----------选择最优特征的第二种方式 end------------------------------------
+
+
+def majorityCnt(classList):
+    """
+    Desc:
+        选择出现次数最多的一个结果
+    Args:
+        classList label列的集合
+    Returns:
+        bestFeature 最优的特征列
+    """
+    # -----------majorityCnt的第一种方式 start------------------------------------
+    classCount = {}
+    for vote in classList:
+        if vote not in classCount.keys():
+            classCount[vote] = 0
+        classCount[vote] += 1
+    # 倒叙排列classCount得到一个字典集合，然后取出第一个就是结果（yes/no），即出现次数最多的结果
+    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
+    # print('sortedClassCount:', sortedClassCount)
+    return sortedClassCount[0][0]
+    # -----------majorityCnt的第一种方式 end------------------------------------
+
+    # # -----------majorityCnt的第二种方式 start------------------------------------
+    # major_label = Counter(classList).most_common(1)[0]
+    # return major_label
+    # # -----------majorityCnt的第二种方式 end------------------------------------
+
+
+def createTree(dataSet, labels):
+    """
+    Desc:
+        创建决策树
+    Args:
+        dataSet -- 要创建决策树的训练数据集
+        labels -- 训练数据集中特征对应的含义的labels，不是目标变量
+    Returns:
+        myTree -- 创建完成的决策树
+    """
+    classList = [example[-1] for example in dataSet]
+    # 如果数据集的最后一列的第一个值出现的次数=整个集合的数量，也就说只有一个类别，就只直接返回结果就行
+    # 第一个停止条件: 所有的类标签完全相同，则直接返回该类标签。
+    # count() 函数是统计括号中的值在list中出现的次数
+    if classList.count(classList[0]) == len(classList):
+        return classList[0]
+    # 如果数据集只有1列，那么最初出现label次数最多的一类，作为结果
+    # 第二个停止条件: 使用完了所有特征，仍然不能将数据集划分成仅包含唯一类别的分组。
+    if len(dataSet[0]) == 1:
+        return majorityCnt(classList)
+
+    # 选择最优的列，得到最优列对应的label含义
+    bestFeat = chooseBestFeatureToSplit(dataSet)
+    # 获取label的名称
+    bestFeatLabel = labels[bestFeat]
+    # 初始化myTree
+    myTree = {bestFeatLabel: {}}
+    # 注: labels列表是可变对象，在PYTHON函数中作为参数时传址引用，能够被全局修改
+    # 所以这行代码导致函数外的同名变量被删除了元素，造成例句无法执行，提示'no surfacing' is not in list
+    del(labels[bestFeat])
+    # 取出最优列，然后它的branch做分类
+    featValues = [example[bestFeat] for example in dataSet]
+    uniqueVals = set(featValues)
+    for value in uniqueVals:
+        # 求出剩余的标签label
+        subLabels = labels[:]
+        # 遍历当前选择特征包含的所有属性值，在每个数据集划分上递归调用函数createTree()
+        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
+        # print('myTree', value, myTree)
+    return myTree
+
+
+def classify(inputTree, featLabels, testVec):
+    """
+    Desc:
+        对新数据进行分类
+    Args:
+        inputTree  -- 已经训练好的决策树模型
+        featLabels -- Feature标签对应的名称，不是目标变量
+        testVec    -- 测试输入的数据
+    Returns:
+        classLabel -- 分类的结果值，需要映射label才能知道名称
+    """
+    # 获取tree的根节点对于的key值
+    firstStr = list(inputTree.keys())[0]
+    # 通过key得到根节点对应的value
+    secondDict = inputTree[firstStr]
+    # 判断根节点名称获取根节点在label中的先后顺序，这样就知道输入的testVec怎么开始对照树来做分类
+    featIndex = featLabels.index(firstStr)
+    # 测试数据，找到根节点对应的label位置，也就知道从输入的数据的第几位来开始分类
+    key = testVec[featIndex]
+    valueOfFeat = secondDict[key]
+    print('+++', firstStr, 'xxx', secondDict, '---', key, '>>>', valueOfFeat)
+    # 判断分枝是否结束: 判断valueOfFeat是否是dict类型
+    if isinstance(valueOfFeat, dict):
+        classLabel = classify(valueOfFeat, featLabels, testVec)
+    else:
+        classLabel = valueOfFeat
+    return classLabel
+
+
+def storeTree(inputTree, filename):
+    """
+    Desc:
+        将之前训练好的决策树模型存储起来，使用 pickle 模块
+    Args:
+        inputTree -- 以前训练好的决策树模型
+        filename -- 要存储的名称
+    Returns:
+        None
+    """
+    import pickle
+    # -------------- 第一种方法 start --------------
+    fw = open(filename, 'wb')
+    pickle.dump(inputTree, fw)
+    fw.close()
+    # -------------- 第一种方法 end --------------
+
+    # -------------- 第二种方法 start --------------
+    with open(filename, 'wb') as fw:
+        pickle.dump(inputTree, fw)
+    # -------------- 第二种方法 start --------------
+
+
+def grabTree(filename):
+    """
+    Desc:
+        将之前存储的决策树模型使用 pickle 模块 还原出来
+    Args:
+        filename -- 之前存储决策树模型的文件名
+    Returns:
+        pickle.load(fr) -- 将之前存储的决策树模型还原出来
+    """
+    import pickle
+    fr = open(filename, 'rb')
+    return pickle.load(fr)
+
+
+def fishTest():
+    """
+    Desc:
+        对动物是否是鱼类分类的测试函数，并将结果使用 matplotlib 画出来
+    Args:
+        None
+    Returns:
+        None
+    """
+    # 1.创建数据和结果标签
+    myDat, labels = createDataSet()
+    # print(myDat, labels)
+
+    # 计算label分类标签的香农熵
+    # calcShannonEnt(myDat)
+
+    # # 求第0列 为 1/0的列的数据集【排除第0列】
+    # print('1---', splitDataSet(myDat, 0, 1))
+    # print('0---', splitDataSet(myDat, 0, 0))
+
+    # # 计算最好的信息增益的列
+    # print(chooseBestFeatureToSplit(myDat))
+
+    import copy
+    myTree = createTree(myDat, copy.deepcopy(labels))
+    print(myTree)
+    # [1, 1]表示要取的分支上的节点位置，对应的结果值
+    print(classify(myTree, labels, [1, 1]))
+
+    # 画图可视化展现
+    dtPlot.createPlot(myTree)
+
+
+def ContactLensesTest():
+    """
+    Desc:
+        预测隐形眼镜的测试代码，并将结果画出来
+    Args:
+        none
+    Returns:
+        none
+    """
+
+    # 加载隐形眼镜相关的 文本文件 数据
+    fr = open('data/3.DecisionTree/lenses.txt')
+    # 解析数据，获得 features 数据
+    lenses = [inst.strip().split('\t') for inst in fr.readlines()]
+    # 得到数据的对应的 Labels
+    lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']
+    # 使用上面的创建决策树的代码，构造预测隐形眼镜的决策树
+    lensesTree = createTree(lenses, lensesLabels)
+    print(lensesTree)
+    # 画图可视化展现
+    dtPlot.createPlot(lensesTree)
+
+
+if __name__ == "__main__":
+    # fishTest()
+    ContactLensesTest()
diff --git a/机器学习/殷康龙/源代码/ml/3.DecisionTree/decisionTreePlot.py b/机器学习/殷康龙/源代码/ml/3.DecisionTree/decisionTreePlot.py
new file mode 100644
index 00000000..0ace45d8
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/3.DecisionTree/decisionTreePlot.py
@@ -0,0 +1,137 @@
+#!/usr/bin/python
+# -*- coding: UTF-8 -*-
+
+'''
+Created on Oct 14, 2010
+Update on 2017-02-27
+Decision Tree Source Code for Machine Learning in Action Ch. 3
+Author: Peter Harrington/jiangzhonglian
+'''
+import matplotlib.pyplot as plt
+
+# 定义文本框 和 箭头格式 【 sawtooth 波浪方框, round4 矩形方框 , fc表示字体颜色的深浅 0.1~0.9 依次变浅，没错是变浅】
+decisionNode = dict(boxstyle="sawtooth", fc="0.8")
+leafNode = dict(boxstyle="round4", fc="0.8")
+arrow_args = dict(arrowstyle="<-")
+
+
+def getNumLeafs(myTree):
+    numLeafs = 0
+    firstStr = list(myTree.keys())[0]
+    secondDict = myTree[firstStr]
+    # 根节点开始遍历
+    for key in secondDict.keys():
+        # 判断子节点是否为dict, 不是+1
+        if type(secondDict[key]) is dict:
+            numLeafs += getNumLeafs(secondDict[key])
+        else:
+            numLeafs += 1
+    return numLeafs
+
+
+def getTreeDepth(myTree):
+    maxDepth = 0
+    firstStr = list(myTree.keys())[0]
+    secondDict = myTree[firstStr]
+    # 根节点开始遍历
+    for key in secondDict.keys():
+        # 判断子节点是不是dict, 求分枝的深度
+        # ----------写法1 start ---------------
+        if type(secondDict[key]) is dict:
+            thisDepth = 1 + getTreeDepth(secondDict[key])
+        else:
+            thisDepth = 1
+        # ----------写法1 end ---------------
+
+        # ----------写法2 start --------------
+        # thisDepth = 1 + getTreeDepth(secondDict[key]) if type(secondDict[key]) is dict else 1
+        # ----------写法2 end --------------
+        # 记录最大的分支深度
+        maxDepth = max(maxDepth, thisDepth)
+    return maxDepth
+
+
+def plotNode(nodeTxt, centerPt, parentPt, nodeType):
+    createPlot.ax1.annotate(nodeTxt, xy=parentPt,  xycoords='axes fraction', xytext=centerPt, textcoords='axes fraction', va="center", ha="center", bbox=nodeType, arrowprops=arrow_args)
+
+
+def plotMidText(cntrPt, parentPt, txtString):
+    xMid = (parentPt[0] - cntrPt[0]) / 2 + cntrPt[0]
+    yMid = (parentPt[1] - cntrPt[1]) / 2 + cntrPt[1]
+    createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)
+
+
+def plotTree(myTree, parentPt, nodeTxt):
+    # 获取叶子节点的数量
+    numLeafs = getNumLeafs(myTree)
+    # 获取树的深度
+    # depth = getTreeDepth(myTree)
+
+    # 找出第1个中心点的位置，然后与 parentPt定点进行划线
+    cntrPt = (plotTree.xOff + (1 + numLeafs) / 2 / plotTree.totalW, plotTree.yOff)
+    # print(cntrPt)
+    # 并打印输入对应的文字
+    plotMidText(cntrPt, parentPt, nodeTxt)
+
+    firstStr = list(myTree.keys())[0]
+    # 可视化Node分支点
+    plotNode(firstStr, cntrPt, parentPt, decisionNode)
+    # 根节点的值
+    secondDict = myTree[firstStr]
+    # y值 = 最高点-层数的高度[第二个节点位置]
+    plotTree.yOff = plotTree.yOff - 1 / plotTree.totalD
+    for key in secondDict.keys():
+        # 判断该节点是否是Node节点
+        if type(secondDict[key]) is dict:
+            # 如果是就递归调用[recursion]
+            plotTree(secondDict[key], cntrPt, str(key))
+        else:
+            # 如果不是，就在原来节点一半的地方找到节点的坐标
+            plotTree.xOff = plotTree.xOff + 1 / plotTree.totalW
+            # 可视化该节点位置
+            plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)
+            # 并打印输入对应的文字
+            plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
+    plotTree.yOff = plotTree.yOff + 1 / plotTree.totalD
+
+
+def createPlot(inTree):
+    # 创建一个figure的模版
+    fig = plt.figure(1, facecolor='green')
+    fig.clf()
+
+    axprops = dict(xticks=[], yticks=[])
+    # 表示创建一个1行，1列的图，createPlot.ax1 为第 1 个子图，
+    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)
+
+    plotTree.totalW = float(getNumLeafs(inTree))
+    plotTree.totalD = float(getTreeDepth(inTree))
+    # 半个节点的长度
+    plotTree.xOff = -0.5 / plotTree.totalW
+    plotTree.yOff = 1.0
+    plotTree(inTree, (0.5, 1.0), '')
+    plt.show()
+
+
+# # 测试画图
+# def createPlot():
+#     fig = plt.figure(1, facecolor='white')
+#     fig.clf()
+#     # ticks for demo purposes
+#     createPlot.ax1 = plt.subplot(111, frameon=False)
+#     plotNode('a decision node', (0.5, 0.1), (0.1, 0.5), decisionNode)
+#     plotNode('a leaf node', (0.8, 0.1), (0.3, 0.8), leafNode)
+#     plt.show()
+
+
+# 测试数据集
+def retrieveTree(i):
+    listOfTrees = [
+        {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}},
+        {'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}}
+    ]
+    return listOfTrees[i]
+
+
+# myTree = retrieveTree(1)
+# createPlot(myTree)
diff --git a/机器学习/殷康龙/源代码/ml/3.DecisionTree/skelearn_dts_regressor_demo.py b/机器学习/殷康龙/源代码/ml/3.DecisionTree/skelearn_dts_regressor_demo.py
new file mode 100644
index 00000000..c23ee8dd
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/3.DecisionTree/skelearn_dts_regressor_demo.py
@@ -0,0 +1,58 @@
+#!/usr/bin/python
+# -*- coding: UTF-8 -*-
+
+"""
+Created on 2017-06-29
+Updated on 2017-06-29
+DecisionTree: 决策树
+Author: 小瑶
+GitHub: https://github.com/apachecn/AiLearning
+"""
+
+print(__doc__)
+
+# 引入必要的模型和库
+import numpy as np
+from sklearn.tree import DecisionTreeRegressor
+import matplotlib.pyplot as plt
+
+# 创建一个随机的数据集
+# 参考 https://docs.scipy.org/doc/numpy-1.6.0/reference/generated/numpy.random.mtrand.RandomState.html
+rng = np.random.RandomState(1)
+# print('lalalalala===', rng)
+# rand() 是给定形状的随机值，rng.rand(80, 1)即矩阵的形状是 80行，1列
+# sort() 
+X = np.sort(5 * rng.rand(80, 1), axis=0)
+# print('X=', X)
+y = np.sin(X).ravel()
+# print('y=', y)
+y[::5] += 3 * (0.5 - rng.rand(16))
+# print('yyy=', y)
+
+# 拟合回归模型
+# regr_1 = DecisionTreeRegressor(max_depth=2)
+# 保持 max_depth=5 不变，增加 min_samples_leaf=6 的参数，效果进一步提升了
+regr_2 = DecisionTreeRegressor(max_depth=5)
+regr_2 = DecisionTreeRegressor(min_samples_leaf=6)
+# regr_3 = DecisionTreeRegressor(max_depth=4)
+# regr_1.fit(X, y)
+regr_2.fit(X, y)
+# regr_3.fit(X, y)
+
+# 预测
+X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
+# y_1 = regr_1.predict(X_test)
+y_2 = regr_2.predict(X_test)
+# y_3 = regr_3.predict(X_test)
+
+# 绘制结果
+plt.figure()
+plt.scatter(X, y, c="darkorange", label="data")
+# plt.plot(X_test, y_1, color="cornflowerblue", label="max_depth=2", linewidth=2)
+plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
+# plt.plot(X_test, y_3, color="red", label="max_depth=3", linewidth=2)
+plt.xlabel("data")
+plt.ylabel("target")
+plt.title("Decision Tree Regression")
+plt.legend()
+plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/3.DecisionTree/sklearn_dts_classify_demo.py b/机器学习/殷康龙/源代码/ml/3.DecisionTree/sklearn_dts_classify_demo.py
new file mode 100644
index 00000000..7162fd5a
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/3.DecisionTree/sklearn_dts_classify_demo.py
@@ -0,0 +1,61 @@
+#!/usr/bin/python
+# -*- coding: UTF-8 -*-
+
+"""
+Created on 2017-06-29
+Updated on 2017-06-29
+DecisionTree: 决策树
+Author: 小瑶
+GitHub: https://github.com/apachecn/AiLearning
+"""
+print(__doc__)
+
+import numpy as np
+import matplotlib.pyplot as plt
+
+from sklearn.datasets import load_iris
+from sklearn.tree import DecisionTreeClassifier
+
+# 参数
+n_classes = 3
+plot_colors = "bry"
+plot_step = 0.02
+
+# 加载数据
+iris = load_iris()
+
+for pairidx, pair in enumerate([[0, 1], [0, 2], [0, 3], [1, 2], [1, 3], [2, 3]]):
+    # 我们只用两个相应的features
+    X = iris.data[:, pair]
+    y = iris.target
+
+    # 训练
+    clf = DecisionTreeClassifier().fit(X, y)
+
+    # 绘制决策边界
+    plt.subplot(2, 3, pairidx + 1)
+
+    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
+    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
+    xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
+                         np.arange(y_min, y_max, plot_step))
+
+    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
+    Z = Z.reshape(xx.shape)
+    cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)
+
+    plt.xlabel(iris.feature_names[pair[0]])
+    plt.ylabel(iris.feature_names[pair[1]])
+    plt.axis("tight")
+
+    # 绘制训练点
+    for i, color in zip(range(n_classes), plot_colors):
+        idx = np.where(y == i)
+        plt.scatter(X[idx, 0], X[idx, 1], c=color, label=iris.target_names[i],
+                    cmap=plt.cm.Paired)
+
+    plt.axis("tight")
+
+plt.suptitle("Decision surface of a decision tree using paired features")
+plt.legend()
+plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/4.NaiveBayes/bayes.py b/机器学习/殷康龙/源代码/ml/4.NaiveBayes/bayes.py
new file mode 100644
index 00000000..35324980
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/4.NaiveBayes/bayes.py
@@ -0,0 +1,402 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+"""
+Created on Oct 19, 2010
+Update  on 2017-05-18
+Author: Peter Harrington/羊三/小瑶/BBruceyuan
+GitHub: https://github.com/apachecn/AiLearning
+"""
+
+# 我个人非常不喜欢 from numpy import *
+# 因为这样会和一些系统函数冲突，比如log, sum之类的
+import numpy as np
+
+"""
+贝叶斯公式
+p(xy)=p(x|y)p(y)=p(y|x)p(x)
+p(x|y)=p(y|x)p(x)/p(y)
+"""
+
+# ------项目案例1: 屏蔽社区留言板的侮辱性言论------
+
+
+def load_data_set():
+    """
+    创建数据集,都是假的 fake data set 
+    :return: 单词列表posting_list, 所属类别class_vec
+    """
+    posting_list = [
+        ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
+        ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
+        ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
+        ['stop', 'posting', 'stupid', 'worthless', 'gar e'],
+        ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
+        ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
+    class_vec = [0, 1, 0, 1, 0, 1]  # 1 is 侮辱性的文字, 0 is not
+    return posting_list, class_vec
+
+
+def create_vocab_list(data_set):
+    """
+    获取所有单词的集合
+    :param data_set: 数据集
+    :return: 所有单词的集合(即不含重复元素的单词列表)
+    """
+    vocab_set = set()  # create empty set
+    for item in data_set:
+        # | 求两个集合的并集
+        vocab_set = vocab_set | set(item)
+    return list(vocab_set)
+
+
+def set_of_words2vec(vocab_list, input_set):
+    """
+    遍历查看该单词是否出现，出现该单词则将该单词置1
+    :param vocab_list: 所有单词集合列表
+    :param input_set: 输入数据集
+    :return: 匹配列表[0,1,0,1...]，其中 1与0 表示词汇表中的单词是否出现在输入的数据集中
+    """
+    # 创建一个和词汇表等长的向量，并将其元素都设置为0
+    result = [0] * len(vocab_list)
+    # 遍历文档中的所有单词，如果出现了词汇表中的单词，则将输出的文档向量中的对应值设为1
+    for word in input_set:
+        if word in vocab_list:
+            result[vocab_list.index(word)] = 1
+        else:
+            # 这个后面应该注释掉，因为对你没什么用，这只是为了辅助调试的
+            # print('the word: {} is not in my vocabulary'.format(word))
+            pass
+    return result
+
+
+def _train_naive_bayes(train_mat, train_category):
+    """
+    朴素贝叶斯分类原版
+    :param train_mat:  type is ndarray
+                    总的输入文本，大致是 [[0,1,0,1], [], []]
+    :param train_category: 文件对应的类别分类， [0, 1, 0],
+                            列表的长度应该等于上面那个输入文本的长度
+    :return: 
+    """
+    train_doc_num = len(train_mat)
+    words_num = len(train_mat[0])
+    # 因为侮辱性的被标记为了1， 所以只要把他们相加就可以得到侮辱性的有多少
+    # 侮辱性文件的出现概率，即train_category中所有的1的个数，
+    # 代表的就是多少个侮辱性文件，与文件的总数相除就得到了侮辱性文件的出现概率
+    pos_abusive = np.sum(train_category) / train_doc_num
+    # 单词出现的次数
+    # 原版
+    p0num = np.zeros(words_num)
+    p1num = np.zeros(words_num)
+
+    # 整个数据集单词出现的次数（原来是0，后面改成2了）
+    p0num_all = 0
+    p1num_all = 0
+
+    for i in range(train_doc_num):
+        # 遍历所有的文件，如果是侮辱性文件，就计算此侮辱性文件中出现的侮辱性单词的个数
+        if train_category[i] == 1:
+            p1num += train_mat[i]
+            p1num_all += np.sum(train_mat[i])
+        else:
+            p0num += train_mat[i]
+            p0num_all += np.sum(train_mat[i])
+    # 后面需要改成改成取 log 函数
+    p1vec = p1num / p1num_all
+    p0vec = p0num / p0num_all
+    return p0vec, p1vec, pos_abusive
+
+
+def train_naive_bayes(train_mat, train_category):
+    """
+    朴素贝叶斯分类修正版，　注意和原来的对比，为什么这么做可以查看书
+    :param train_mat:  type is ndarray
+                    总的输入文本，大致是 [[0,1,0,1], [], []]
+    :param train_category: 文件对应的类别分类， [0, 1, 0],
+                            列表的长度应该等于上面那个输入文本的长度
+    :return: 
+    """
+    train_doc_num = len(train_mat)
+    words_num = len(train_mat[0])
+    # 因为侮辱性的被标记为了1， 所以只要把他们相加就可以得到侮辱性的有多少
+    # 侮辱性文件的出现概率，即train_category中所有的1的个数，
+    # 代表的就是多少个侮辱性文件，与文件的总数相除就得到了侮辱性文件的出现概率
+    pos_abusive = np.sum(train_category) / train_doc_num
+    # 单词出现的次数
+    # 原版，变成ones是修改版，这是为了防止数字过小溢出
+    # p0num = np.zeros(words_num)
+    # p1num = np.zeros(words_num)
+    p0num = np.ones(words_num)
+    p1num = np.ones(words_num)
+    # 整个数据集单词出现的次数（原来是0，后面改成2了）
+    p0num_all = 2.0
+    p1num_all = 2.0
+
+    for i in range(train_doc_num):
+        # 遍历所有的文件，如果是侮辱性文件，就计算此侮辱性文件中出现的侮辱性单词的个数
+        if train_category[i] == 1:
+            p1num += train_mat[i]
+            p1num_all += np.sum(train_mat[i])
+        else:
+            p0num += train_mat[i]
+            p0num_all += np.sum(train_mat[i])
+    # 后面改成取 log 函数
+    p1vec = np.log(p1num / p1num_all)
+    p0vec = np.log(p0num / p0num_all)
+    return p0vec, p1vec, pos_abusive
+
+
+def classify_naive_bayes(vec2classify, p0vec, p1vec, p_class1):
+    """
+    使用算法: 
+        # 将乘法转换为加法
+        乘法: P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C)/P(F1F2...Fn)
+        加法: P(F1|C)*P(F2|C)....P(Fn|C)P(C) -> log(P(F1|C))+log(P(F2|C))+....+log(P(Fn|C))+log(P(C))
+    :param vec2classify: 待测数据[0,1,1,1,1...]，即要分类的向量
+    :param p0vec: 类别0，即正常文档的[log(P(F1|C0)),log(P(F2|C0)),log(P(F3|C0)),log(P(F4|C0)),log(P(F5|C0))....]列表
+    :param p1vec: 类别1，即侮辱性文档的[log(P(F1|C1)),log(P(F2|C1)),log(P(F3|C1)),log(P(F4|C1)),log(P(F5|C1))....]列表
+    :param p_class1: 类别1，侮辱性文件的出现概率
+    :return: 类别1 or 0
+    """
+    # 计算公式  log(P(F1|C))+log(P(F2|C))+....+log(P(Fn|C))+log(P(C))
+    # 使用 NumPy 数组来计算两个向量相乘的结果，这里的相乘是指对应元素相乘，即先将两个向量中的第一个元素相乘，然后将第2个元素相乘，以此类推。
+    # 我的理解是: 这里的 vec2Classify * p1Vec 的意思就是将每个词与其对应的概率相关联起来
+    # 可以理解为 1.单词在词汇表中的条件下，文件是good 类别的概率 也可以理解为 2.在整个空间下，文件既在词汇表中又是good类别的概率
+    p1 = np.sum(vec2classify * p1vec) + np.log(p_class1)
+    p0 = np.sum(vec2classify * p0vec) + np.log(1 - p_class1)
+    if p1 > p0:
+        return 1
+    else:
+        return 0
+
+
+def bag_words2vec(vocab_list, input_set):
+    # 注意和原来的做对比
+    result = [0] * len(vocab_list)
+    for word in input_set:
+        if word in vocab_list:
+            result[vocab_list.index(word)] += 1
+        else:
+            print('the word: {} is not in my vocabulary'.format(word))
+    return result
+
+
+def testing_naive_bayes():
+    """
+    测试朴素贝叶斯算法
+    :return: no return 
+    """
+    # 1. 加载数据集
+    list_post, list_classes = load_data_set()
+    # 2. 创建单词集合
+    vocab_list = create_vocab_list(list_post)
+
+    # 3. 计算单词是否出现并创建数据矩阵
+    train_mat = []
+    for post_in in list_post:
+        train_mat.append(
+            # 返回m*len(vocab_list)的矩阵， 记录的都是0，1信息
+            # 其实就是那个东西的句子向量（就是data_set里面每一行,也不算句子吧)
+            set_of_words2vec(vocab_list, post_in)
+        )
+    # 4. 训练数据
+    p0v, p1v, p_abusive = train_naive_bayes(np.array(train_mat), np.array(list_classes))
+    # 5. 测试数据
+    test_one = ['love', 'my', 'dalmation']
+    test_one_doc = np.array(set_of_words2vec(vocab_list, test_one))
+    print('the result is: {}'.format(classify_naive_bayes(test_one_doc, p0v, p1v, p_abusive)))
+    test_two = ['stupid', 'garbage']
+    test_two_doc = np.array(set_of_words2vec(vocab_list, test_two))
+    print('the result is: {}'.format(classify_naive_bayes(test_two_doc, p0v, p1v, p_abusive)))
+
+
+# --------项目案例2: 使用朴素贝叶斯过滤垃圾邮件--------------
+
+
+def text_parse(big_str):
+    """
+    这里就是做词划分
+    :param big_str: 某个被拼接后的字符串
+    :return: 全部是小写的word列表，去掉少于 2 个字符的字符串
+    """
+    import re
+    # 其实这里比较推荐用　\W+ 代替 \W*，
+    # 因为 \W*会match empty patten，在py3.5+之后就会出现什么问题，推荐自己修改尝试一下，可能就会re.split理解更深了
+    token_list = re.split(r'\W+', big_str)
+    if len(token_list) == 0:
+        print(token_list)
+    return [tok.lower() for tok in token_list if len(tok) > 2]
+
+
+def spam_test():
+    """
+    对贝叶斯垃圾邮件分类器进行自动化处理。
+    :return: nothing
+    """
+    doc_list = []
+    class_list = []
+    full_text = []
+    for i in range(1, 26):
+        # 添加垃圾邮件信息
+        # 这里需要做一个说明，为什么我会使用try except 来做
+        # 因为我们其中有几个文件的编码格式是 windows 1252　（spam: 17.txt, ham: 6.txt...)
+        # 这里其实还可以 :
+        # import os
+        # 然后检查 os.system(' file {}.txt'.format(i))，看一下返回的是什么
+        # 如果正常能读返回的都是: 　ASCII text
+        # 对于except需要处理的都是返回:  Non-ISO extended-ASCII text, with very long lines
+        try:
+            words = text_parse(open('data/4.NaiveBayes/email/spam/{}.txt'.format(i)).read())
+        except:
+            words = text_parse(open('data/4.NaiveBayes/email/spam/{}.txt'.format(i), encoding='Windows 1252').read())
+        doc_list.append(words)
+        full_text.extend(words)
+        class_list.append(1)
+        try:
+            # 添加非垃圾邮件
+            words = text_parse(open('data/4.NaiveBayes/email/ham/{}.txt'.format(i)).read())
+        except:
+            words = text_parse(open('data/4.NaiveBayes/email/ham/{}.txt'.format(i), encoding='Windows 1252').read())
+        doc_list.append(words)
+        full_text.extend(words)
+        class_list.append(0)
+    # 创建词汇表
+    vocab_list = create_vocab_list(doc_list)
+    
+    import random
+    # 生成随机取10个数, 为了避免警告将每个数都转换为整型
+    test_set = [int(num) for num in random.sample(range(50), 10)]
+    # 并在原来的training_set中去掉这10个数
+    training_set = list(set(range(50)) - set(test_set))
+    
+    training_mat = []
+    training_class = []
+    for doc_index in training_set:
+        training_mat.append(set_of_words2vec(vocab_list, doc_list[doc_index]))
+        training_class.append(class_list[doc_index])
+    p0v, p1v, p_spam = train_naive_bayes(
+        np.array(training_mat),
+        np.array(training_class)
+    )
+
+    # 开始测试
+    error_count = 0
+    for doc_index in test_set:
+        word_vec = set_of_words2vec(vocab_list, doc_list[doc_index])
+        if classify_naive_bayes(
+            np.array(word_vec),
+            p0v,
+            p1v,
+            p_spam
+        ) != class_list[doc_index]:
+            error_count += 1
+    print('the error rate is {}'.format(
+        error_count / len(test_set)
+    ))
+
+# ----- 项目案例3: 使用朴素贝叶斯从个人广告中获取区域倾向 ------
+# 其中有几个函数上面都写过了，没必要再写一遍了，所以删了
+
+
+def calc_most_freq(vocab_list, full_text):
+    # RSS源分类器及高频词去除函数
+    from operator import itemgetter
+    freq_dict = {}
+    for token in vocab_list:
+        freq_dict[token] = full_text.count(token)
+    sorted_freq = sorted(freq_dict.items(), key=itemgetter(1), reverse=True)
+    return sorted_freq[0:30]
+
+
+def local_words(feed1, feed0):
+    # import feedparser # 其实呢，这一行没用到，最好删了
+    # 下面操作和上面那个 spam_test函数基本一样，理解了一个，两个都ok
+    doc_list = []
+    class_list = []
+    full_text = []
+    # 找出两个中最小的一个
+    min_len = min(len(feed0), len(feed1))
+    for i in range(min_len):
+        # 类别　１
+        word_list = text_parse(feed1['entries'][i]['summary'])
+        doc_list.append(word_list)
+        full_text.extend(word_list)
+        class_list.append(1)
+        # 类别　０
+        word_list = text_parse(feed0['entries'][i]['summary'])
+        doc_list.append(word_list)
+        full_text.extend(word_list)
+        class_list.append(0)
+    vocab_list = create_vocab_list(doc_list)
+    # 去掉高频词
+    top30words = calc_most_freq(vocab_list, full_text)
+    for pair in top30words:
+        if pair[0] in vocab_list:
+            vocab_list.remove(pair[0])
+    # 获取训练数据和测试数据
+    
+    import random
+    # 生成随机取10个数, 为了避免警告将每个数都转换为整型
+    test_set = [int(num) for num in random.sample(range(2 * min_len), 20)]
+    # 并在原来的training_set中去掉这10个数
+    training_set = list(set(range(2 * min_len)) - set(test_set))
+    
+    # 把这些训练集和测试集变成向量的形式
+    training_mat = []
+    training_class = []
+    for doc_index in training_set:
+        training_mat.append(bag_words2vec(vocab_list, doc_list[doc_index]))
+        training_class.append(class_list[doc_index])
+    p0v, p1v, p_spam = train_naive_bayes(
+        np.array(training_mat),
+        np.array(training_class)
+    )
+    error_count = 0
+    for doc_index in test_set:
+        word_vec = bag_words2vec(vocab_list, doc_list[doc_index])
+        if classify_naive_bayes(
+            np.array(word_vec),
+            p0v,
+            p1v,
+            p_spam
+        ) != class_list[doc_index]:
+            error_count += 1
+    print("the error rate is {}".format(error_count / len(test_set)))
+    return vocab_list, p0v, p1v
+
+
+def test_rss():
+    import feedparser
+    ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
+    sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')
+    vocab_list, p_sf, p_nf = local_words(ny, sf)
+    # 返回值都没用上，可以用_, _, _代替
+
+
+def get_top_words():
+    import feedparser
+    ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
+    sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')
+    vocab_list, p_sf, p_ny = local_words(ny, sf)
+    top_ny = []
+    top_sf = []
+    for i in range(len(p_sf)):
+        if p_sf[i] > -6.0:
+            top_sf.append((vocab_list[i], p_sf[i]))
+        if p_ny[i] > -6.0:
+            top_ny.append((vocab_list[i], p_ny[i]))
+    sorted_sf = sorted(top_sf, key=lambda pair: pair[1], reverse=True)
+    sorted_ny = sorted(top_ny, key=lambda pair: pair[1], reverse=True)
+    print('\n----------- this is SF ---------------\n')
+    for item in sorted_sf:
+        print(item[0])
+    print('\n----------- this is NY ---------------\n')
+    for item in sorted_ny:
+        print(item[0])
+
+
+if __name__ == "__main__":
+    # testing_naive_bayes()
+    # spam_test()
+    # test_rss()
+    get_top_words()
diff --git a/机器学习/殷康龙/源代码/ml/4.NaiveBayes/sklearn-nb-demo.py b/机器学习/殷康龙/源代码/ml/4.NaiveBayes/sklearn-nb-demo.py
new file mode 100644
index 00000000..a6893c6e
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/4.NaiveBayes/sklearn-nb-demo.py
@@ -0,0 +1,45 @@
+#!/usr/bin/python
+# -*- coding:utf-8 -*-
+
+"""
+Created on 2017-06-28
+Updated on 2017-06-28
+NaiveBayes: 朴素贝叶斯
+Author: 小瑶
+GitHub: https://github.com/apachecn/AiLearning
+"""
+
+
+# GaussianNB_高斯朴素贝叶斯
+import numpy as np
+X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
+Y = np.array([1, 1, 1, 2, 2, 2])
+from sklearn.naive_bayes import GaussianNB
+clf = GaussianNB()
+clf.fit(X, Y)
+print(clf.predict([[-0.8, -1]]))
+clf_pf = GaussianNB()
+clf_pf.partial_fit(X, Y, np.unique(Y))
+print(clf_pf.predict([[-0.8, -1]]))
+
+# MultinomialNB_多项朴素贝叶斯
+'''
+import numpy as np
+X = np.random.randint(5, size=(6, 100))
+y = np.array([1, 2, 3, 4, 5, 6])
+from sklearn.naive_bayes import MultinomialNB
+clf = MultinomialNB()
+clf.fit(X, y)
+print clf.predict(X[2:3])
+'''
+
+# BernoulliNB_伯努利朴素贝叶斯
+'''
+import numpy as np
+X = np.random.randint(2, size=(6, 100))
+Y = np.array([1, 2, 3, 4, 4, 5])
+from sklearn.naive_bayes import BernoulliNB
+clf = BernoulliNB()
+clf.fit(X, Y)
+print clf.predict(X[2:3])
+'''
diff --git a/机器学习/殷康龙/源代码/ml/5.Logistic/logistic.py b/机器学习/殷康龙/源代码/ml/5.Logistic/logistic.py
new file mode 100644
index 00000000..4a943d2d
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/5.Logistic/logistic.py
@@ -0,0 +1,245 @@
+#!/usr/bin/python
+# -*- coding:utf-8 -*-
+
+"""
+Created on Oct 27, 2010
+Update  on 2017-05-18
+Logistic Regression Working Module
+Author: Peter Harrington/羊三/小瑶/BBruceyuan
+GitHub: https://github.com/apachecn/AiLearning
+"""
+
+import numpy as np
+
+
+# ------使用 Logistic 回归在简单数据集上的分类-----------
+
+def load_data_set():
+    """
+    加载数据集
+    :return:返回两个数组，普通数组 
+        data_arr -- 原始数据的特征
+        label_arr -- 原始数据的标签，也就是每条样本对应的类别
+    """
+    data_arr = []
+    label_arr = []
+    f = open('data/5.Logistic/TestSet.txt', 'r')
+    for line in f.readlines():
+        line_arr = line.strip().split()
+        # 为了方便计算，我们将 X0 的值设为 1.0 ，也就是在每一行的开头添加一个 1.0 作为 X0
+        data_arr.append([1.0, np.float(line_arr[0]), np.float(line_arr[1])])
+        label_arr.append(int(line_arr[2]))
+    return data_arr, label_arr
+
+
+def sigmoid(x):
+    # 这里其实非常有必要解释一下，会出现的错误 RuntimeWarning: overflow encountered in exp
+    # 这个错误在学习阶段虽然可以忽略，但是我们至少应该知道为什么
+    # 这里是因为我们输入的有的 x 实在是太小了，比如 -6000之类的，那么计算一个数字 np.exp(6000)这个结果太大了，没法表示，所以就溢出了
+    # 如果是计算 np.exp（-6000），这样虽然也会溢出，但是这是下溢，就是表示成零
+    # 去网上搜了很多方法，比如 使用bigfloat这个库（我竟然没有安装成功，就不尝试了，反正应该是有用的
+    return 1.0 / (1 + np.exp(-x))
+
+
+def grad_ascent(data_arr, class_labels):
+    """
+    梯度上升法，其实就是因为使用了极大似然估计，这个大家有必要去看推导，只看代码感觉不太够
+    :param data_arr: 传入的就是一个普通的数组，当然你传入一个二维的ndarray也行
+    :param class_labels: class_labels 是类别标签，它是一个 1*100 的行向量。
+                    为了便于矩阵计算，需要将该行向量转换为列向量，做法是将原向量转置，再将它赋值给label_mat
+    :return: 
+    """
+    # 注意一下，我把原来 data_mat_in 改成data_arr,因为传进来的是一个数组，用这个比较不容易搞混
+    # turn the data_arr to numpy matrix
+    data_mat = np.mat(data_arr)
+    # 变成矩阵之后进行转置
+    label_mat = np.mat(class_labels).transpose()
+    # m->数据量，样本数 n->特征数
+    m, n = np.shape(data_mat)
+    # 学习率，learning rate
+    alpha = 0.001
+    # 最大迭代次数，假装迭代这么多次就能收敛2333
+    max_cycles = 500
+    # 生成一个长度和特征数相同的矩阵，此处n为3 -> [[1],[1],[1]]
+    # weights 代表回归系数， 此处的 ones((n,1)) 创建一个长度和特征数相同的矩阵，其中的数全部都是 1
+    weights = np.ones((n, 1))
+    for k in range(max_cycles):
+        # 这里是点乘  m x 3 dot 3 x 1
+        h = sigmoid(data_mat * weights)
+        error = label_mat - h
+        # 这里比较建议看一下推导，为什么这么做可以，这里已经是求导之后的
+        weights = weights + alpha * data_mat.transpose() * error
+    return weights
+
+
+def plot_best_fit(weights):
+    """
+    可视化
+    :param weights: 
+    :return: 
+    """
+    import matplotlib.pyplot as plt
+    data_mat, label_mat = load_data_set()
+    data_arr = np.array(data_mat)
+    n = np.shape(data_mat)[0]
+    x_cord1 = []
+    y_cord1 = []
+    x_cord2 = []
+    y_cord2 = []
+    for i in range(n):
+        if int(label_mat[i]) == 1:
+            x_cord1.append(data_arr[i, 1])
+            y_cord1.append(data_arr[i, 2])
+        else:
+            x_cord2.append(data_arr[i, 1])
+            y_cord2.append(data_arr[i, 2])
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+    ax.scatter(x_cord1, y_cord1, s=30, color='k', marker='^')
+    ax.scatter(x_cord2, y_cord2, s=30, color='red', marker='s')
+    x = np.arange(-3.0, 3.0, 0.1)
+    y = (-weights[0] - weights[1] * x) / weights[2]
+    """
+    y的由来，卧槽，是不是没看懂？
+    首先理论上是这个样子的。
+    dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
+    w0*x0+w1*x1+w2*x2=f(x)
+    x0最开始就设置为1叻， x2就是我们画图的y值，而f(x)被我们磨合误差给算到w0,w1,w2身上去了
+    所以:  w0+w1*x+w2*y=0 => y = (-w0-w1*x)/w2   
+    """
+    ax.plot(x, y)
+    plt.xlabel('x1')
+    plt.ylabel('y1')
+    plt.show()
+
+
+def stoc_grad_ascent0(data_mat, class_labels):
+    """
+    随机梯度上升，只使用一个样本点来更新回归系数
+    :param data_mat: 输入数据的数据特征（除去最后一列）,ndarray
+    :param class_labels: 输入数据的类别标签（最后一列数据）
+    :return: 得到的最佳回归系数
+    """
+    m, n = np.shape(data_mat)
+    alpha = 0.01
+    weights = np.ones(n)
+    for i in range(m):
+        # sum(data_mat[i]*weights)为了求 f(x)的值， f(x)=a1*x1+b2*x2+..+nn*xn,
+        # 此处求出的 h 是一个具体的数值，而不是一个矩阵
+        h = sigmoid(sum(data_mat[i] * weights))
+        error = class_labels[i] - h
+        # 还是和上面一样，这个先去看推导，再写程序
+        weights = weights + alpha * error * data_mat[i]
+    return weights
+
+
+def stoc_grad_ascent1(data_mat, class_labels, num_iter=150):
+    """
+    改进版的随机梯度上升，使用随机的一个样本来更新回归系数
+    :param data_mat: 输入数据的数据特征（除去最后一列）,ndarray
+    :param class_labels: 输入数据的类别标签（最后一列数据
+    :param num_iter: 迭代次数
+    :return: 得到的最佳回归系数
+    """
+    m, n = np.shape(data_mat)
+    weights = np.ones(n)
+    for j in range(num_iter):
+        # 这里必须要用list，不然后面的del没法使用
+        data_index = list(range(m))
+        for i in range(m):
+            # i和j的不断增大，导致alpha的值不断减少，但是不为0
+            alpha = 4 / (1.0 + j + i) + 0.01
+            # 随机产生一个 0～len()之间的一个值
+            # random.uniform(x, y) 方法将随机生成下一个实数，它在[x,y]范围内,x是这个范围内的最小值，y是这个范围内的最大值。
+            rand_index = int(np.random.uniform(0, len(data_index)))
+            h = sigmoid(np.sum(data_mat[data_index[rand_index]] * weights))
+            error = class_labels[data_index[rand_index]] - h
+            weights = weights + alpha * error * data_mat[data_index[rand_index]]
+            del(data_index[rand_index])
+    return weights
+
+
+def test():
+    """
+    这个函数只要就是对上面的几个算法的测试，这样就不用每次都在power shell 里面操作，不然麻烦死了
+    :return: 
+    """
+    data_arr, class_labels = load_data_set()
+    # 注意，这里的grad_ascent返回的是一个 matrix, 所以要使用getA方法变成ndarray类型
+    # weights = grad_ascent(data_arr, class_labels).getA()
+    # weights = stoc_grad_ascent0(np.array(data_arr), class_labels)
+    weights = stoc_grad_ascent1(np.array(data_arr), class_labels)
+    plot_best_fit(weights)
+
+
+# -------从疝气病症预测病马的死亡率------
+
+
+def classify_vector(in_x, weights):
+    """
+    最终的分类函数，根据回归系数和特征向量来计算 Sigmoid 的值，大于0.5函数返回1，否则返回0
+    :param in_x: 特征向量，features
+    :param weights: 根据梯度下降/随机梯度下降 计算得到的回归系数
+    :return: 
+    """
+    # print(np.sum(in_x * weights))
+    prob = sigmoid(np.sum(in_x * weights))
+    if prob > 0.5:
+        return 1.0
+    return 0.0
+
+
+def colic_test():
+    """
+    打开测试集和训练集，并对数据进行格式化处理,其实最主要的的部分，比如缺失值的补充（真的需要学会的），人家已经做了
+    :return: 
+    """
+    f_train = open('data/5.Logistic/HorseColicTraining.txt', 'r')
+    f_test = open('data/5.Logistic/HorseColicTest.txt', 'r')
+    training_set = []
+    training_labels = []
+    # 解析训练数据集中的数据特征和Labels
+    # trainingSet 中存储训练数据集的特征，trainingLabels 存储训练数据集的样本对应的分类标签
+    for line in f_train.readlines():
+        curr_line = line.strip().split('\t')
+        if len(curr_line) == 1:
+            continue    # 这里如果就一个空的元素，则跳过本次循环
+        line_arr = [float(curr_line[i]) for i in range(21)]
+        training_set.append(line_arr)
+        training_labels.append(float(curr_line[21]))
+    # 使用 改进后的 随机梯度下降算法 求得在此数据集上的最佳回归系数 trainWeights
+    train_weights = stoc_grad_ascent1(np.array(training_set), training_labels, 500)
+    error_count = 0
+    num_test_vec = 0.0
+    # 读取 测试数据集 进行测试，计算分类错误的样本条数和最终的错误率
+    for line in f_test.readlines():
+        num_test_vec += 1
+        curr_line = line.strip().split('\t')
+        if len(curr_line) == 1: 
+            continue    # 这里如果就一个空的元素，则跳过本次循环
+        line_arr = [float(curr_line[i]) for i in range(21)]
+        if int(classify_vector(np.array(line_arr), train_weights)) != int(curr_line[21]):
+            error_count += 1
+    error_rate = error_count / num_test_vec
+    print('the error rate is {}'.format(error_rate))
+    return error_rate
+
+
+def multi_test():
+    """
+    调用 colicTest() 10次并求结果的平均值
+    :return: nothing 
+    """
+    num_tests = 10
+    error_sum = 0
+    for k in range(num_tests):
+        error_sum += colic_test()
+    print('after {} iteration the average error rate is {}'.format(num_tests, error_sum / num_tests))
+
+
+if __name__ == '__main__':
+    # 请依次运行下面三个函数做代码测试
+    test()
+    # colic_test()
+    # multi_test()
+
diff --git a/机器学习/殷康龙/源代码/ml/5.Logistic/sklearn_logisticRegression_demo.py b/机器学习/殷康龙/源代码/ml/5.Logistic/sklearn_logisticRegression_demo.py
new file mode 100644
index 00000000..384fc825
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/5.Logistic/sklearn_logisticRegression_demo.py
@@ -0,0 +1,281 @@
+#!/usr/bin/python
+# -*- coding:utf-8 -*-
+
+'''
+Created on Oct 27, 2010
+Update  on 2017-05-18
+Logistic Regression Working Module
+Author: 小瑶
+GitHub: https://github.com/apachecn/AiLearning
+scikit-learn的例子地址: http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
+'''
+
+# 逻辑回归中的 L1 惩罚和稀缺性 L1 Penalty and Sparsity in Logistic Regression
+'''
+print(__doc__)
+
+import numpy as np
+import matplotlib.pyplot as plt
+
+from sklearn.linear_model import LogisticRegression
+from sklearn import datasets
+from sklearn.preprocessing import StandardScaler
+
+digits = datasets.load_digits()
+
+X, y = digits.data, digits.target
+X = StandardScaler().fit_transform(X)
+
+# 将大小数字分类为小
+y = (y > 4).astype(np.int)
+
+
+# 设置正则化参数
+for i, C in enumerate((100, 1, 0.01)):
+    # 减少训练时间短的容忍度
+    clf_l1_LR = LogisticRegression(C=C, penalty='l1', tol=0.01)
+    clf_l2_LR = LogisticRegression(C=C, penalty='l2', tol=0.01)
+    clf_l1_LR.fit(X, y)
+    clf_l2_LR.fit(X, y)
+
+    coef_l1_LR = clf_l1_LR.coef_.ravel()
+    coef_l2_LR = clf_l2_LR.coef_.ravel()
+
+    # coef_l1_LR contains zeros due to the
+    # L1 sparsity inducing norm
+    # 由于 L1 稀疏诱导规范，coef_l1_LR 包含零
+
+    sparsity_l1_LR = np.mean(coef_l1_LR == 0) * 100
+    sparsity_l2_LR = np.mean(coef_l2_LR == 0) * 100
+
+    print("C=%.2f" % C)
+    print("Sparsity with L1 penalty: %.2f%%" % sparsity_l1_LR)
+    print("score with L1 penalty: %.4f" % clf_l1_LR.score(X, y))
+    print("Sparsity with L2 penalty: %.2f%%" % sparsity_l2_LR)
+    print("score with L2 penalty: %.4f" % clf_l2_LR.score(X, y))
+
+    l1_plot = plt.subplot(3, 2, 2 * i + 1)
+    l2_plot = plt.subplot(3, 2, 2 * (i + 1))
+    if i == 0:
+        l1_plot.set_title("L1 penalty")
+        l2_plot.set_title("L2 penalty")
+
+    l1_plot.imshow(np.abs(coef_l1_LR.reshape(8, 8)), interpolation='nearest',
+                   cmap='binary', vmax=1, vmin=0)
+    l2_plot.imshow(np.abs(coef_l2_LR.reshape(8, 8)), interpolation='nearest',
+                   cmap='binary', vmax=1, vmin=0)
+    plt.text(-8, 3, "C = %.2f" % C)
+
+    l1_plot.set_xticks(())
+    l1_plot.set_yticks(())
+    l2_plot.set_xticks(())
+    l2_plot.set_yticks(())
+
+plt.show()
+'''
+
+# 具有 L1-逻辑回归的路径
+'''
+print(__doc__)
+
+from datetime import datetime
+import numpy as np
+import matplotlib.pyplot as plt
+
+from sklearn import linear_model
+from sklearn import datasets
+from sklearn.svm import l1_min_c
+
+iris = datasets.load_iris()
+X = iris.data
+y = iris.target
+
+X = X[y != 2]
+y = y[y != 2]
+
+X -= np.mean(X, 0)
+
+cs = l1_min_c(X, y, loss='log') * np.logspace(0, 3)
+
+
+print("Computing regularization path ...")
+start = datetime.now()
+clf = linear_model.LogisticRegression(C=1.0, penalty='l1', tol=1e-6)
+coefs_ = []
+for c in cs:
+    clf.set_params(C=c)
+    clf.fit(X, y)
+    coefs_.append(clf.coef_.ravel().copy())
+print("This took ", datetime.now() - start)
+
+coefs_ = np.array(coefs_)
+plt.plot(np.log10(cs), coefs_)
+ymin, ymax = plt.ylim()
+plt.xlabel('log(C)')
+plt.ylabel('Coefficients')
+plt.title('Logistic Regression Path')
+plt.axis('tight')
+plt.show()
+'''
+
+# 绘制多项式和一对二的逻辑回归 Plot multinomial and One-vs-Rest Logistic Regression
+'''
+print(__doc__)
+
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn.datasets import make_blobs
+from sklearn.linear_model import LogisticRegression
+
+# 制作 3 类数据集进行分类
+centers = [[-5, 0], [0, 1.5], [5, -1]]
+X, y = make_blobs(n_samples=1000, centers=centers, random_state=40)
+transformation = [[0.4, 0.2], [-0.4, 1.2]]
+X = np.dot(X, transformation)
+
+for multi_class in ('multinomial', 'ovr'):
+    clf = LogisticRegression(solver='sag', max_iter=100, random_state=42,
+                             multi_class=multi_class).fit(X, y)
+
+    # 打印训练分数
+    print("training score : %.3f (%s)" % (clf.score(X, y), multi_class))
+
+    # 创建一个网格来绘制
+    h = .02  # 网格中的步长
+    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
+    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
+    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
+                         np.arange(y_min, y_max, h))
+
+    # 绘制决策边界。为此，我们将为网格 [x_min, x_max]x[y_min, y_max]中的每个点分配一个颜色。
+    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
+    # 将结果放入彩色图
+    Z = Z.reshape(xx.shape)
+    plt.figure()
+    plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)
+    plt.title("Decision surface of LogisticRegression (%s)" % multi_class)
+    plt.axis('tight')
+
+    # 将训练点也绘制进入
+    colors = "bry"
+    for i, color in zip(clf.classes_, colors):
+        idx = np.where(y == i)
+        plt.scatter(X[idx, 0], X[idx, 1], c=color, cmap=plt.cm.Paired)
+
+    # 绘制三个一对数分类器
+    xmin, xmax = plt.xlim()
+    ymin, ymax = plt.ylim()
+    coef = clf.coef_
+    intercept = clf.intercept_
+
+    def plot_hyperplane(c, color):
+        def line(x0):
+            return (-(x0 * coef[c, 0]) - intercept[c]) / coef[c, 1]
+        plt.plot([xmin, xmax], [line(xmin), line(xmax)],
+                 ls="--", color=color)
+
+    for i, color in zip(clf.classes_, colors):
+        plot_hyperplane(i, color)
+
+plt.show()
+'''
+
+# Logistic Regression 3-class Classifier 逻辑回归 3-类 分类器 
+
+print(__doc__)
+
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn import linear_model, datasets
+
+# 引入一些数据来玩
+iris = datasets.load_iris()
+# 我们只采用样本数据的前两个feature
+X = iris.data[:, :2]  
+Y = iris.target
+
+h = .02  # 网格中的步长
+
+logreg = linear_model.LogisticRegression(C=1e5)
+
+# 我们创建了一个 Neighbours Classifier 的实例，并拟合数据。
+logreg.fit(X, Y)
+
+# 绘制决策边界。为此我们将为网格 [x_min, x_max]x[y_min, y_max] 中的每个点分配一个颜色。
+x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
+y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
+xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
+Z = logreg.predict(np.c_[xx.ravel(), yy.ravel()])
+
+# 将结果放入彩色图中
+Z = Z.reshape(xx.shape)
+plt.figure(1, figsize=(4, 3))
+plt.pcolormesh(xx, yy, Z, cmap=plt.cm.Paired)
+
+# 将训练点也同样放入彩色图中
+plt.scatter(X[:, 0], X[:, 1], c=Y, edgecolors='k', cmap=plt.cm.Paired)
+plt.xlabel('Sepal length')
+plt.ylabel('Sepal width')
+
+plt.xlim(xx.min(), xx.max())
+plt.ylim(yy.min(), yy.max())
+plt.xticks(())
+plt.yticks(())
+
+plt.show()
+
+# Logistic function 逻辑回归函数
+# 这个类似于咱们之前讲解 logistic 回归的 Sigmoid 函数，模拟的阶跃函数
+
+'''
+print(__doc__)
+
+import numpy as np
+import matplotlib.pyplot as plt
+
+from sklearn import linear_model
+
+# 这是我们的测试集，它只是一条直线，带有一些高斯噪声。
+xmin, xmax = -5, 5
+n_samples = 100
+np.random.seed(0)
+X = np.random.normal(size=n_samples)
+y = (X > 0).astype(np.float)
+X[X > 0] *= 4
+X += .3 * np.random.normal(size=n_samples)
+
+X = X[:, np.newaxis]
+# 运行分类器
+clf = linear_model.LogisticRegression(C=1e5)
+clf.fit(X, y)
+
+# 并且画出我们的结果
+plt.figure(1, figsize=(4, 3))
+plt.clf()
+plt.scatter(X.ravel(), y, color='black', zorder=20)
+X_test = np.linspace(-5, 10, 300)
+
+
+def model(x):
+    return 1 / (1 + np.exp(-x))
+loss = model(X_test * clf.coef_ + clf.intercept_).ravel()
+plt.plot(X_test, loss, color='red', linewidth=3)
+
+ols = linear_model.LinearRegression()
+ols.fit(X, y)
+plt.plot(X_test, ols.coef_ * X_test + ols.intercept_, linewidth=1)
+plt.axhline(.5, color='.5')
+
+plt.ylabel('y')
+plt.xlabel('X')
+plt.xticks(range(-5, 10))
+plt.yticks([0, 0.5, 1])
+plt.ylim(-.25, 1.25)
+plt.xlim(-4, 10)
+plt.legend(('Logistic Regression Model', 'Linear Regression Model'),
+           loc="lower right", fontsize='small')
+plt.show()
+'''
+
+
+
diff --git a/机器学习/殷康龙/源代码/ml/6.SVM/sklearn-svm-demo.py b/机器学习/殷康龙/源代码/ml/6.SVM/sklearn-svm-demo.py
new file mode 100644
index 00000000..3b591212
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/6.SVM/sklearn-svm-demo.py
@@ -0,0 +1,82 @@
+#!/usr/bin/python
+# -*- coding:utf-8 -*-
+
+"""
+Created on 2017-06-28
+Updated on 2017-06-28
+SVM: 最大边距分离超平面
+Author: 片刻
+GitHub: https://github.com/apachecn/AiLearning
+sklearn-SVM译文链接: http://cwiki.apachecn.org/pages/viewpage.action?pageId=10031359
+"""
+import matplotlib.pyplot as plt
+import numpy as np
+from sklearn import svm
+
+print(__doc__)
+
+
+# 创建40个分离点
+np.random.seed(0)
+# X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]
+# Y = [0] * 20 + [1] * 20
+
+
+def loadDataSet(fileName):
+    """
+    对文件进行逐行解析，从而得到第行的类标签和整个数据矩阵
+    Args:
+        fileName 文件名
+    Returns:
+        dataMat  数据矩阵
+        labelMat 类标签
+    """
+    dataMat = []
+    labelMat = []
+    fr = open(fileName)
+    for line in fr.readlines():
+        lineArr = line.strip().split('\t')
+        dataMat.append([float(lineArr[0]), float(lineArr[1])])
+        labelMat.append(float(lineArr[2]))
+    return dataMat, labelMat
+
+
+X, Y = loadDataSet('data/6.SVM/testSet.txt')
+X = np.mat(X)
+
+print("X=", X)
+print("Y=", Y)
+
+# 拟合一个SVM模型
+clf = svm.SVC(kernel='linear')
+clf.fit(X, Y)
+
+# 获取分割超平面
+w = clf.coef_[0]
+# 斜率
+a = -w[0] / w[1]
+# 从-5到5，顺序间隔采样50个样本，默认是num=50
+# xx = np.linspace(-5, 5)  # , num=50)
+xx = np.linspace(-2, 10)  # , num=50)
+# 二维的直线方程
+yy = a * xx - (clf.intercept_[0]) / w[1]
+print("yy=", yy)
+
+# plot the parallels to the separating hyperplane that pass through the support vectors
+# 通过支持向量绘制分割超平面
+print("support_vectors_=", clf.support_vectors_)
+b = clf.support_vectors_[0]
+yy_down = a * xx + (b[1] - a * b[0])
+b = clf.support_vectors_[-1]
+yy_up = a * xx + (b[1] - a * b[0])
+
+# plot the line, the points, and the nearest vectors to the plane
+plt.plot(xx, yy, 'k-')
+plt.plot(xx, yy_down, 'k--')
+plt.plot(xx, yy_up, 'k--')
+
+plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80, facecolors='none')
+plt.scatter(X[:, 0].flat, X[:, 1].flat, c=Y, cmap=plt.cm.Paired)
+
+plt.axis('tight')
+plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/6.SVM/svm-complete.py b/机器学习/殷康龙/源代码/ml/6.SVM/svm-complete.py
new file mode 100644
index 00000000..456ae073
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/6.SVM/svm-complete.py
@@ -0,0 +1,541 @@
+#!/usr/bin/python
+# -*- coding:utf-8 -*-
+
+"""
+Created on Nov 4, 2010
+Update on 2017-05-18
+Chapter 5 source file for Machine Learing in Action
+Author: Peter/geekidentity/片刻
+GitHub: https://github.com/apachecn/AiLearning
+"""
+from numpy import *
+import matplotlib.pyplot as plt
+
+
+class optStruct:
+    """
+    建立的数据结构来保存所有的重要值
+    """
+    def __init__(self, dataMatIn, classLabels, C, toler, kTup):
+        """
+        Args:
+            dataMatIn    数据集
+            classLabels  类别标签
+            C   松弛变量(常量值)，允许有些数据点可以处于分隔面的错误一侧。
+                控制最大化间隔和保证大部分的函数间隔小于1.0这两个目标的权重。
+                可以通过调节该参数达到不同的结果。
+            toler   容错率
+            kTup    包含核函数信息的元组
+        """
+
+        self.X = dataMatIn
+        self.labelMat = classLabels
+        self.C = C
+        self.tol = toler
+
+        # 数据的行数
+        self.m = shape(dataMatIn)[0]
+        self.alphas = mat(zeros((self.m, 1)))
+        self.b = 0
+
+        # 误差缓存，第一列给出的是eCache是否有效的标志位，第二列给出的是实际的E值。
+        self.eCache = mat(zeros((self.m, 2)))
+
+        # m行m列的矩阵
+        self.K = mat(zeros((self.m, self.m)))
+        for i in range(self.m):
+            self.K[:, i] = kernelTrans(self.X, self.X[i], kTup)
+
+
+def kernelTrans(X, A, kTup):  # calc the kernel or transform data to a higher dimensional space
+    """
+    核转换函数
+    Args:
+        X     dataMatIn数据集
+        A     dataMatIn数据集的第i行的数据
+        kTup  核函数的信息
+
+    Returns:
+
+    """
+    m, n = shape(X)
+    K = mat(zeros((m, 1)))
+    if kTup[0] == 'lin':
+        # linear kernel:   m*n * n*1 = m*1
+        K = X * A.T
+    elif kTup[0] == 'rbf':
+        for j in range(m):
+            deltaRow = X[j, :] - A
+            K[j] = deltaRow * deltaRow.T
+        # 径向基函数的高斯版本
+        K = exp(K / (-1 * kTup[1] ** 2))  # divide in NumPy is element-wise not matrix like Matlab
+    else:
+        raise NameError('Houston We Have a Problem -- That Kernel is not recognized')
+    return K
+
+
+def loadDataSet(fileName):
+    """loadDataSet（对文件进行逐行解析，从而得到第行的类标签和整个数据矩阵）
+
+    Args:
+        fileName 文件名
+    Returns:
+        dataMat  数据矩阵
+        labelMat 类标签
+    """
+    dataMat = []
+    labelMat = []
+    fr = open(fileName)
+    for line in fr.readlines():
+        lineArr = line.strip().split('\t')
+        dataMat.append([float(lineArr[0]), float(lineArr[1])])
+        labelMat.append(float(lineArr[2]))
+    return dataMat, labelMat
+
+
+def calcEk(oS, k):
+    """calcEk（求 Ek误差: 预测值-真实值的差）
+
+    该过程在完整版的SMO算法中陪出现次数较多，因此将其单独作为一个方法
+    Args:
+        oS  optStruct对象
+        k   具体的某一行
+
+    Returns:
+        Ek  预测结果与真实结果比对，计算误差Ek
+    """
+    fXk = multiply(oS.alphas, oS.labelMat).T * oS.K[:, k] + oS.b
+    Ek = fXk - float(oS.labelMat[k])
+    return Ek
+
+
+def selectJrand(i, m):
+    """
+    随机选择一个整数
+    Args:
+        i  第一个alpha的下标
+        m  所有alpha的数目
+    Returns:
+        j  返回一个不为i的随机数，在0~m之间的整数值
+    """
+    j = i
+    while j == i:
+        j = random.randint(0, m - 1)
+    return j
+
+
+def selectJ(i, oS, Ei):  # this is the second choice -heurstic, and calcs Ej
+    """selectJ（返回最优的j和Ej）
+
+    内循环的启发式方法。
+    选择第二个(内循环)alpha的alpha值
+    这里的目标是选择合适的第二个alpha值以保证每次优化中采用最大步长。
+    该函数的误差与第一个alpha值Ei和下标i有关。
+    Args:
+        i   具体的第i一行
+        oS  optStruct对象
+        Ei  预测结果与真实结果比对，计算误差Ei
+
+    Returns:
+        j  随机选出的第j一行
+        Ej 预测结果与真实结果比对，计算误差Ej
+    """
+    maxK = -1
+    maxDeltaE = 0
+    Ej = 0
+    # 首先将输入值Ei在缓存中设置成为有效的。这里的有效意味着它已经计算好了。
+    oS.eCache[i] = [1, Ei]
+
+    # print('oS.eCache[%s]=%s' % (i, oS.eCache[i]))
+    # print('oS.eCache[:, 0].A=%s' % oS.eCache[:, 0].A.T)
+    # """
+    # # 返回非0的: 行列值
+    # nonzero(oS.eCache[:, 0].A)= (
+    #     行:  array([ 0,  2,  4,  5,  8, 10, 17, 18, 20, 21, 23, 25, 26, 29, 30, 39, 46,52, 54, 55, 62, 69, 70, 76, 79, 82, 94, 97]),
+    #     列:  array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0])
+    # )
+    # """
+    # print('nonzero(oS.eCache[:, 0].A)=', nonzero(oS.eCache[:, 0].A))
+    # # 取行的list
+    # print('nonzero(oS.eCache[:, 0].A)[0]=', nonzero(oS.eCache[:, 0].A)[0])
+    # 非零E值的行的list列表，所对应的alpha值
+    validEcacheList = nonzero(oS.eCache[:, 0].A)[0]
+    if (len(validEcacheList)) > 1:
+        for k in validEcacheList:  # 在所有的值上进行循环，并选择其中使得改变最大的那个值
+            if k == i:
+                continue  # don't calc for i, waste of time
+
+            # 求 Ek误差: 预测值-真实值的差
+            Ek = calcEk(oS, k)
+            deltaE = abs(Ei - Ek)
+            if deltaE > maxDeltaE:
+                # 选择具有最大步长的j
+                maxK = k
+                maxDeltaE = deltaE
+                Ej = Ek
+        return maxK, Ej
+    else:  # 如果是第一次循环，则随机选择一个alpha值
+        j = selectJrand(i, oS.m)
+
+        # 求 Ek误差: 预测值-真实值的差
+        Ej = calcEk(oS, j)
+    return j, Ej
+
+
+def updateEk(oS, k):
+    """updateEk（计算误差值并存入缓存中。）
+
+    在对alpha值进行优化之后会用到这个值。
+    Args:
+        oS  optStruct对象
+        k   某一列的行号
+    """
+
+    # 求 误差: 预测值-真实值的差
+    Ek = calcEk(oS, k)
+    oS.eCache[k] = [1, Ek]
+
+
+def clipAlpha(aj, H, L):
+    """clipAlpha(调整aj的值，使aj处于 L<=aj<=H)
+    Args:
+        aj  目标值
+        H   最大值
+        L   最小值
+    Returns:
+        aj  目标值
+    """
+    aj = min(aj, H)
+    aj = max(L, aj)
+    return aj
+
+
+def innerL(i, oS):
+    """innerL
+    内循环代码
+    Args:
+        i   具体的某一行
+        oS  optStruct对象
+
+    Returns:
+        0   找不到最优的值
+        1   找到了最优的值，并且oS.Cache到缓存中
+    """
+
+    # 求 Ek误差: 预测值-真实值的差
+    Ei = calcEk(oS, i)
+
+    # 约束条件 (KKT条件是解决最优化问题的时用到的一种方法。我们这里提到的最优化问题通常是指对于给定的某一函数，求其在指定作用域上的全局最小值)
+    # 0<=alphas[i]<=C，但由于0和C是边界值，我们无法进行优化，因为需要增加一个alphas和降低一个alphas。
+    # 表示发生错误的概率: labelMat[i]*Ei 如果超出了 toler， 才需要优化。至于正负号，我们考虑绝对值就对了。
+    '''
+    # 检验训练样本(xi, yi)是否满足KKT条件
+    yi*f(i) >= 1 and alpha = 0 (outside the boundary)
+    yi*f(i) == 1 and 0<alpha< C (on the boundary)
+    yi*f(i) <= 1 and alpha = C (between the boundary)
+    '''
+    if ((oS.labelMat[i] * Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or ((oS.labelMat[i] * Ei > oS.tol) and (oS.alphas[i] > 0)):
+        # 选择最大的误差对应的j进行优化。效果更明显
+        j, Ej = selectJ(i, oS, Ei)
+        alphaIold = oS.alphas[i].copy()
+        alphaJold = oS.alphas[j].copy()
+
+        # L和H用于将alphas[j]调整到0-C之间。如果L==H，就不做任何改变，直接return 0
+        if (oS.labelMat[i] != oS.labelMat[j]):
+            L = max(0, oS.alphas[j] - oS.alphas[i])
+            H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])
+        else:
+            L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)
+            H = min(oS.C, oS.alphas[j] + oS.alphas[i])
+        if L == H:
+            # print("L==H")
+            return 0
+
+        # eta是alphas[j]的最优修改量，如果eta==0，需要退出for循环的当前迭代过程
+        # 参考《统计学习方法》李航-P125~P128<序列最小最优化算法>
+        eta = 2.0 * oS.K[i, j] - oS.K[i, i] - oS.K[j, j]  # changed for kernel
+        if eta >= 0:
+            print("eta>=0")
+            return 0
+
+        # 计算出一个新的alphas[j]值
+        oS.alphas[j] -= oS.labelMat[j] * (Ei - Ej) / eta
+        # 并使用辅助函数，以及L和H对其进行调整
+        oS.alphas[j] = clipAlpha(oS.alphas[j], H, L)
+        # 更新误差缓存
+        updateEk(oS, j)
+
+        # 检查alpha[j]是否只是轻微的改变，如果是的话，就退出for循环。
+        if abs(oS.alphas[j] - alphaJold) < 0.00001:
+            # print("j not moving enough")
+            return 0
+
+        # 然后alphas[i]和alphas[j]同样进行改变，虽然改变的大小一样，但是改变的方向正好相反
+        oS.alphas[i] += oS.labelMat[j] * oS.labelMat[i] * (alphaJold - oS.alphas[j])
+        # 更新误差缓存
+        updateEk(oS, i)
+
+        # 在对alpha[i], alpha[j] 进行优化之后，给这两个alpha值设置一个常数b。
+        # w= Σ[1~n] ai*yi*xi => b = yi- Σ[1~n] ai*yi(xi*xj)
+        # 所以:   b1 - b = (y1-y) - Σ[1~n] yi*(a1-a)*(xi*x1)
+        # 为什么减2遍？ 因为是 减去Σ[1~n]，正好2个变量i和j，所以减2遍
+        b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, i] - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.K[i, j]
+        b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, j] - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.K[j, j]
+        if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]):
+            oS.b = b1
+        elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]):
+            oS.b = b2
+        else:
+            oS.b = (b1 + b2) / 2
+        return 1
+    else:
+        return 0
+
+
+def smoP(dataMatIn, classLabels, C, toler, maxIter, kTup=('lin', 0)):
+    """
+    完整SMO算法外循环，与smoSimple有些类似，但这里的循环退出条件更多一些
+    Args:
+        dataMatIn    数据集
+        classLabels  类别标签
+        C   松弛变量(常量值)，允许有些数据点可以处于分隔面的错误一侧。
+            控制最大化间隔和保证大部分的函数间隔小于1.0这两个目标的权重。
+            可以通过调节该参数达到不同的结果。
+        toler   容错率
+        maxIter 退出前最大的循环次数
+        kTup    包含核函数信息的元组
+    Returns:
+        b       模型的常量值
+        alphas  拉格朗日乘子
+    """
+
+    # 创建一个 optStruct 对象
+    oS = optStruct(mat(dataMatIn), mat(classLabels).transpose(), C, toler, kTup)
+    iter = 0
+    entireSet = True
+    alphaPairsChanged = 0
+
+    # 循环遍历: 循环maxIter次 并且 （alphaPairsChanged存在可以改变 or 所有行遍历一遍）
+    while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)):
+        alphaPairsChanged = 0
+        # ----------- 第一种写法 start -------------------------
+        #  当entireSet=true or 非边界alpha对没有了；就开始寻找 alpha对，然后决定是否要进行else。
+        if entireSet:
+            # 在数据集上遍历所有可能的alpha
+            for i in range(oS.m):
+                # 是否存在alpha对，存在就+1
+                alphaPairsChanged += innerL(i, oS)
+                # print("fullSet, iter: %d i:%d, pairs changed %d" % (iter, i, alphaPairsChanged))
+            iter += 1
+
+        # 对已存在 alpha对，选出非边界的alpha值，进行优化。
+        else:
+            # 遍历所有的非边界alpha值，也就是不在边界0或C上的值。
+            nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]
+            for i in nonBoundIs:
+                alphaPairsChanged += innerL(i, oS)
+                # print("non-bound, iter: %d i:%d, pairs changed %d" % (iter, i, alphaPairsChanged))
+            iter += 1
+        # ----------- 第一种写法 end -------------------------
+
+        # ----------- 第二种方法 start -------------------------
+        # if entireSet:																				#遍历整个数据集
+    	# 	alphaPairsChanged += sum(innerL(i, oS) for i in range(oS.m))
+		# else: 																						#遍历非边界值
+		# 	nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]						#遍历不在边界0和C的alpha
+		# 	alphaPairsChanged += sum(innerL(i, oS) for i in nonBoundIs)
+		# iter += 1
+        # ----------- 第二种方法 end -------------------------
+        # 如果找到alpha对，就优化非边界alpha值，否则，就重新进行寻找，如果寻找一遍 遍历所有的行还是没找到，就退出循环。
+        if entireSet:
+            entireSet = False  # toggle entire set loop
+        elif alphaPairsChanged == 0:
+            entireSet = True
+        print("iteration number: %d" % iter)
+    return oS.b, oS.alphas
+
+
+def calcWs(alphas, dataArr, classLabels):
+    """
+    基于alpha计算w值
+    Args:
+        alphas        拉格朗日乘子
+        dataArr       feature数据集
+        classLabels   目标变量数据集
+
+    Returns:
+        wc  回归系数
+    """
+    X = mat(dataArr)
+    labelMat = mat(classLabels).T
+    m, n = shape(X)
+    w = zeros((n, 1))
+    for i in range(m):
+        w += multiply(alphas[i] * labelMat[i], X[i].T)
+    return w
+
+
+def testRbf(k1=1.3):
+    dataArr, labelArr = loadDataSet('data/6.SVM/testSetRBF.txt')
+    b, alphas = smoP(dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1))  # C=200 important
+    datMat = mat(dataArr)
+    labelMat = mat(labelArr).transpose()
+    svInd = nonzero(alphas.A > 0)[0]
+    sVs = datMat[svInd]  # get matrix of only support vectors
+    labelSV = labelMat[svInd]
+    print("there are %d Support Vectors" % shape(sVs)[0])
+    m, n = shape(datMat)
+    errorCount = 0
+    for i in range(m):
+        kernelEval = kernelTrans(sVs, datMat[i, :], ('rbf', k1))
+
+        # 和这个svm-simple类似:  fXi = float(multiply(alphas, labelMat).T*(dataMatrix*dataMatrix[i, :].T)) + b
+        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
+        if sign(predict) != sign(labelArr[i]):
+            errorCount += 1
+    print("the training error rate is: %f" % (float(errorCount) / m))
+
+    dataArr, labelArr = loadDataSet('data/6.SVM/testSetRBF2.txt')
+    errorCount = 0
+    datMat = mat(dataArr)
+    labelMat = mat(labelArr).transpose()
+    m, n = shape(datMat)
+    for i in range(m):
+        kernelEval = kernelTrans(sVs, datMat[i, :], ('rbf', k1))
+        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
+        if sign(predict) != sign(labelArr[i]):
+            errorCount += 1
+    print("the test error rate is: %f" % (float(errorCount) / m))
+
+
+def img2vector(filename):
+    returnVect = zeros((1, 1024))
+    fr = open(filename)
+    for i in range(32):
+        lineStr = fr.readline()
+        for j in range(32):
+            returnVect[0, 32 * i + j] = int(lineStr[j])
+    return returnVect
+
+
+def loadImages(dirName):
+    from os import listdir
+    hwLabels = []
+    print(dirName)
+    trainingFileList = listdir(dirName)  # load the training set
+    m = len(trainingFileList)
+    trainingMat = zeros((m, 1024))
+    for i in range(m):
+        fileNameStr = trainingFileList[i]
+        fileStr = fileNameStr.split('.')[0]  # take off .txt
+        classNumStr = int(fileStr.split('_')[0])
+        if classNumStr == 9:
+            hwLabels.append(-1)
+        else:
+            hwLabels.append(1)
+        trainingMat[i, :] = img2vector('%s/%s' % (dirName, fileNameStr))
+    return trainingMat, hwLabels
+
+
+def testDigits(kTup=('rbf', 10)):
+
+    # 1. 导入训练数据
+    dataArr, labelArr = loadImages('data/6.SVM/trainingDigits')
+    b, alphas = smoP(dataArr, labelArr, 200, 0.0001, 10000, kTup)
+    datMat = mat(dataArr)
+    labelMat = mat(labelArr).transpose()
+    svInd = nonzero(alphas.A > 0)[0]
+    sVs = datMat[svInd]
+    labelSV = labelMat[svInd]
+    # print("there are %d Support Vectors" % shape(sVs)[0])
+    m, n = shape(datMat)
+    errorCount = 0
+    for i in range(m):
+        kernelEval = kernelTrans(sVs, datMat[i, :], kTup)
+        # 1*m * m*1 = 1*1 单个预测结果
+        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
+        if sign(predict) != sign(labelArr[i]): errorCount += 1
+    print("the training error rate is: %f" % (float(errorCount) / m))
+    # 2. 导入测试数据
+    dataArr, labelArr = loadImages('data/6.SVM/testDigits')
+    errorCount = 0
+    datMat = mat(dataArr)
+    labelMat = mat(labelArr).transpose()
+    m, n = shape(datMat)
+    for i in range(m):
+        kernelEval = kernelTrans(sVs, datMat[i, :], kTup)
+        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
+        if sign(predict) != sign(labelArr[i]): errorCount += 1
+    print("the test error rate is: %f" % (float(errorCount) / m))
+
+
+def plotfig_SVM(xArr, yArr, ws, b, alphas):
+    """
+    参考地址: 
+       http://blog.csdn.net/maoersong/article/details/24315633
+       http://www.cnblogs.com/JustForCS/p/5283489.html
+       http://blog.csdn.net/kkxgx/article/details/6951959
+    """
+
+    xMat = mat(xArr)
+    yMat = mat(yArr)
+
+    # b原来是矩阵，先转为数组类型后其数组大小为（1,1），所以后面加[0]，变为(1,)
+    b = array(b)[0]
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+
+    # 注意flatten的用法
+    ax.scatter(xMat[:, 0].flatten().A[0], xMat[:, 1].flatten().A[0])
+
+    # x最大值，最小值根据原数据集dataArr[:, 0]的大小而定
+    x = arange(-1.0, 10.0, 0.1)
+
+    # 根据x.w + b = 0 得到，其式子展开为w0.x1 + w1.x2 + b = 0, x2就是y值
+    y = (-b-ws[0, 0]*x)/ws[1, 0]
+    ax.plot(x, y)
+
+    for i in range(shape(yMat[0, :])[1]):
+        if yMat[0, i] > 0:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'cx')
+        else:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'kp')
+
+    # 找到支持向量，并在图中标红
+    for i in range(100):
+        if alphas[i] > 0.0:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'ro')
+    plt.show()
+
+
+if __name__ == "__main__":
+
+    # # 无核函数的测试
+    # # 获取特征和目标变量
+    # dataArr, labelArr = loadDataSet('data/6.SVM/testSet.txt')
+    # # print(labelArr)
+
+    # # b是常量值， alphas是拉格朗日乘子
+    # b, alphas = smoP(dataArr, labelArr, 0.6, 0.001, 40)
+    # print('/n/n/n')
+    # print('b=', b)
+    # print('alphas[alphas>0]=', alphas[alphas > 0])
+    # print('shape(alphas[alphas > 0])=', shape(alphas[alphas > 0]))
+    # for i in range(100):
+    #     if alphas[i] > 0:
+    #         print(dataArr[i], labelArr[i])
+    # # 画图
+    # ws = calcWs(alphas, dataArr, labelArr)
+    # plotfig_SVM(dataArr, labelArr, ws, b, alphas)
+
+    # 有核函数的测试
+    # testRbf(0.8)
+
+    # 项目实战
+    # 示例: 手写识别问题回顾
+    # testDigits(('rbf', 0.1))
+    # testDigits(('rbf', 5))
+    testDigits(('rbf', 10))
+    # testDigits(('rbf', 50))
+    # testDigits(('rbf', 100))
+    # testDigits(('lin', 10))
diff --git a/机器学习/殷康龙/源代码/ml/6.SVM/svm-complete_Non-Kernel.py b/机器学习/殷康龙/源代码/ml/6.SVM/svm-complete_Non-Kernel.py
new file mode 100644
index 00000000..4d944e89
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/6.SVM/svm-complete_Non-Kernel.py
@@ -0,0 +1,382 @@
+#!/usr/bin/python
+# -*- coding:utf-8 -*-
+
+"""
+Created on Nov 4, 2010
+Update on 2017-05-18
+Chapter 5 source file for Machine Learing in Action
+Author: Peter/geekidentity/片刻
+GitHub: https://github.com/apachecn/AiLearning
+"""
+from numpy import *
+import matplotlib.pyplot as plt
+
+
+class optStruct:
+    def __init__(self, dataMatIn, classLabels, C, toler):  # Initialize the structure with the parameters
+        self.X = dataMatIn
+        self.labelMat = classLabels
+        self.C = C
+        self.tol = toler
+        self.m = shape(dataMatIn)[0]
+        self.alphas = mat(zeros((self.m, 1)))
+        self.b = 0
+        self.eCache = mat(zeros((self.m, 2)))  # first column is valid flag
+
+
+def loadDataSet(fileName):
+    """loadDataSet（对文件进行逐行解析，从而得到第行的类标签和整个数据矩阵）
+
+    Args:
+        fileName 文件名
+    Returns:
+        dataMat  数据矩阵
+        labelMat 类标签
+    """
+    dataMat = []
+    labelMat = []
+    fr = open(fileName)
+    for line in fr.readlines():
+        lineArr = line.strip().split('\t')
+        dataMat.append([float(lineArr[0]), float(lineArr[1])])
+        labelMat.append(float(lineArr[2]))
+    return dataMat, labelMat
+
+
+def selectJrand(i, m):
+    """
+    随机选择一个整数
+    Args:
+        i  第一个alpha的下标
+        m  所有alpha的数目
+    Returns:
+        j  返回一个不为i的随机数，在0~m之间的整数值
+    """
+    j = i
+    while j == i:
+        j = random.randint(0, m - 1)
+    return j
+
+
+def clipAlpha(aj, H, L):
+    """clipAlpha(调整aj的值，使aj处于 L<=aj<=H)
+    Args:
+        aj  目标值
+        H   最大值
+        L   最小值
+    Returns:
+        aj  目标值
+    """
+    aj = min(aj, H)
+    aj = max(L, aj)
+    return aj
+
+
+def calcEk(oS, k):
+    """calcEk（求 Ek误差: 预测值-真实值的差）
+
+    该过程在完整版的SMO算法中陪出现次数较多，因此将其单独作为一个方法
+    Args:
+        oS  optStruct对象
+        k   具体的某一行
+
+    Returns:
+        Ek  预测结果与真实结果比对，计算误差Ek
+    """
+    fXk = multiply(oS.alphas, oS.labelMat).T * (oS.X * oS.X[k].T) + oS.b
+    Ek = fXk - float(oS.labelMat[k])
+    return Ek
+
+
+def selectJ(i, oS, Ei):  # this is the second choice -heurstic, and calcs Ej
+    """selectJ（返回最优的j和Ej）
+
+    内循环的启发式方法。
+    选择第二个(内循环)alpha的alpha值
+    这里的目标是选择合适的第二个alpha值以保证每次优化中采用最大步长。
+    该函数的误差与第一个alpha值Ei和下标i有关。
+    Args:
+        i   具体的第i一行
+        oS  optStruct对象
+        Ei  预测结果与真实结果比对，计算误差Ei
+
+    Returns:
+        j  随机选出的第j一行
+        Ej 预测结果与真实结果比对，计算误差Ej
+    """
+    maxK = -1
+    maxDeltaE = 0
+    Ej = 0
+    # 首先将输入值Ei在缓存中设置成为有效的。这里的有效意味着它已经计算好了。
+    oS.eCache[i] = [1, Ei]
+
+    # print('oS.eCache[%s]=%s' % (i, oS.eCache[i]))
+    # print('oS.eCache[:, 0].A=%s' % oS.eCache[:, 0].A.T)
+    # """
+    # # 返回非0的: 行列值
+    # nonzero(oS.eCache[:, 0].A)= (
+    #     行:  array([ 0,  2,  4,  5,  8, 10, 17, 18, 20, 21, 23, 25, 26, 29, 30, 39, 46,52, 54, 55, 62, 69, 70, 76, 79, 82, 94, 97]),
+    #     列:  array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0])
+    # )
+    # """
+    # print('nonzero(oS.eCache[:, 0].A)=', nonzero(oS.eCache[:, 0].A))
+    # # 取行的list
+    # print('nonzero(oS.eCache[:, 0].A)[0]=', nonzero(oS.eCache[:, 0].A)[0])
+    # 非零E值的行的list列表，所对应的alpha值
+    validEcacheList = nonzero(oS.eCache[:, 0].A)[0]
+    if (len(validEcacheList)) > 1:
+        for k in validEcacheList:  # 在所有的值上进行循环，并选择其中使得改变最大的那个值
+            if k == i:
+                continue  # don't calc for i, waste of time
+
+            # 求 Ek误差: 预测值-真实值的差
+            Ek = calcEk(oS, k)
+            deltaE = abs(Ei - Ek)
+            if deltaE > maxDeltaE:
+                maxK = k
+                maxDeltaE = deltaE
+                Ej = Ek
+        return maxK, Ej
+    else:  # 如果是第一次循环，则随机选择一个alpha值
+        j = selectJrand(i, oS.m)
+
+        # 求 Ek误差: 预测值-真实值的差
+        Ej = calcEk(oS, j)
+    return j, Ej
+
+
+def updateEk(oS, k):  # after any alpha has changed update the new value in the cache
+    """updateEk（计算误差值并存入缓存中。）
+
+    在对alpha值进行优化之后会用到这个值。
+    Args:
+        oS  optStruct对象
+        k   某一列的行号
+    """
+
+    # 求 误差: 预测值-真实值的差
+    Ek = calcEk(oS, k)
+    oS.eCache[k] = [1, Ek]
+
+
+def innerL(i, oS):
+    """innerL
+    内循环代码
+    Args:
+        i   具体的某一行
+        oS  optStruct对象
+
+    Returns:
+        0   找不到最优的值
+        1   找到了最优的值，并且oS.Cache到缓存中
+    """
+
+    # 求 Ek误差: 预测值-真实值的差
+    Ei = calcEk(oS, i)
+
+    # 约束条件 (KKT条件是解决最优化问题的时用到的一种方法。我们这里提到的最优化问题通常是指对于给定的某一函数，求其在指定作用域上的全局最小值)
+    # 0<=alphas[i]<=C，但由于0和C是边界值，我们无法进行优化，因为需要增加一个alphas和降低一个alphas。
+    # 表示发生错误的概率: labelMat[i]*Ei 如果超出了 toler， 才需要优化。至于正负号，我们考虑绝对值就对了。
+    '''
+    # 检验训练样本(xi, yi)是否满足KKT条件
+    yi*f(i) >= 1 and alpha = 0 (outside the boundary)
+    yi*f(i) == 1 and 0<alpha< C (on the boundary)
+    yi*f(i) <= 1 and alpha = C (between the boundary)
+    '''
+    if ((oS.labelMat[i] * Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or ((oS.labelMat[i] * Ei > oS.tol) and (oS.alphas[i] > 0)):
+        # 选择最大的误差对应的j进行优化。效果更明显
+        j, Ej = selectJ(i, oS, Ei)
+        alphaIold = oS.alphas[i].copy()
+        alphaJold = oS.alphas[j].copy()
+
+        # L和H用于将alphas[j]调整到0-C之间。如果L==H，就不做任何改变，直接return 0
+        if oS.labelMat[i] != oS.labelMat[j]:
+            L = max(0, oS.alphas[j] - oS.alphas[i])
+            H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])
+        else:
+            L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)
+            H = min(oS.C, oS.alphas[j] + oS.alphas[i])
+        if L == H:
+            print("L==H")
+            return 0
+
+        # eta是alphas[j]的最优修改量，如果eta==0，需要退出for循环的当前迭代过程
+        # 参考《统计学习方法》李航-P125~P128<序列最小最优化算法>
+        eta = oS.X[i] - oS.X[j]
+        eta = - eta * eta.T
+        if eta >= 0:
+            print("eta>=0")
+            return 0
+
+        # 计算出一个新的alphas[j]值
+        oS.alphas[j] -= oS.labelMat[j] * (Ei - Ej) / eta
+        # 并使用辅助函数，以及L和H对其进行调整
+        oS.alphas[j] = clipAlpha(oS.alphas[j], H, L)
+        # 更新误差缓存
+        updateEk(oS, j)
+
+        # 检查alpha[j]是否只是轻微的改变，如果是的话，就退出for循环。
+        if (abs(oS.alphas[j] - alphaJold) < 0.00001):
+            print("j not moving enough")
+            return 0
+
+        # 然后alphas[i]和alphas[j]同样进行改变，虽然改变的大小一样，但是改变的方向正好相反
+        oS.alphas[i] += oS.labelMat[j] * oS.labelMat[i] * (alphaJold - oS.alphas[j])
+        # 更新误差缓存
+        updateEk(oS, i)
+
+        # 在对alpha[i], alpha[j] 进行优化之后，给这两个alpha值设置一个常数b。
+        # w= Σ[1~n] ai*yi*xi => b = yj Σ[1~n] ai*yi(xi*xj)
+        # 所以:   b1 - b = (y1-y) - Σ[1~n] yi*(a1-a)*(xi*x1)
+        # 为什么减2遍？ 因为是 减去Σ[1~n]，正好2个变量i和j，所以减2遍
+        b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i] * oS.X[i].T - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.X[i] * oS.X[j].T
+        b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i] * oS.X[j].T - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.X[j] * oS.X[j].T
+        if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]):
+            oS.b = b1
+        elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]):
+            oS.b = b2
+        else:
+            oS.b = (b1 + b2) / 2
+        return 1
+    else:
+        return 0
+
+
+def smoP(dataMatIn, classLabels, C, toler, maxIter):
+    """
+    完整SMO算法外循环，与smoSimple有些类似，但这里的循环退出条件更多一些
+    Args:
+        dataMatIn    数据集
+        classLabels  类别标签
+        C   松弛变量(常量值)，允许有些数据点可以处于分隔面的错误一侧。
+            控制最大化间隔和保证大部分的函数间隔小于1.0这两个目标的权重。
+            可以通过调节该参数达到不同的结果。
+        toler   容错率
+        maxIter 退出前最大的循环次数
+    Returns:
+        b       模型的常量值
+        alphas  拉格朗日乘子
+    """
+
+    # 创建一个 optStruct 对象
+    oS = optStruct(mat(dataMatIn), mat(classLabels).transpose(), C, toler)
+    iter = 0
+    entireSet = True
+    alphaPairsChanged = 0
+
+    # 循环遍历: 循环maxIter次 并且 （alphaPairsChanged存在可以改变 or 所有行遍历一遍）
+    # 循环迭代结束 或者 循环遍历所有alpha后，alphaPairs还是没变化
+    while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)):
+        alphaPairsChanged = 0
+        # ----------- 第一种写法 start -------------------------
+        #  当entireSet=true or 非边界alpha对没有了；就开始寻找 alpha对，然后决定是否要进行else。
+        if entireSet:
+            # 在数据集上遍历所有可能的alpha
+            for i in range(oS.m):
+                # 是否存在alpha对，存在就+1
+                alphaPairsChanged += innerL(i, oS)
+                print("fullSet, iter: %d i:%d, pairs changed %d" % (iter, i, alphaPairsChanged))
+            iter += 1
+        # 对已存在 alpha对，选出非边界的alpha值，进行优化。
+        else:
+            # 遍历所有的非边界alpha值，也就是不在边界0或C上的值。
+            nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]
+            for i in nonBoundIs:
+                alphaPairsChanged += innerL(i, oS)
+                print("non-bound, iter: %d i:%d, pairs changed %d" % (iter, i, alphaPairsChanged))
+            iter += 1
+        # ----------- 第一种写法 end -------------------------
+
+        # ----------- 第二种方法 start -------------------------
+        # if entireSet:																				#遍历整个数据集
+    	# 	alphaPairsChanged += sum(innerL(i, oS) for i in range(oS.m))
+		# else: 																						#遍历非边界值
+		# 	nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]						#遍历不在边界0和C的alpha
+		# 	alphaPairsChanged += sum(innerL(i, oS) for i in nonBoundIs)
+		# iter += 1
+        # ----------- 第二种方法 end -------------------------
+        # 如果找到alpha对，就优化非边界alpha值，否则，就重新进行寻找，如果寻找一遍 遍历所有的行还是没找到，就退出循环。
+        if entireSet:
+            entireSet = False  # toggle entire set loop
+        elif alphaPairsChanged == 0:
+            entireSet = True
+        print("iteration number: %d" % iter)
+    return oS.b, oS.alphas
+
+
+def calcWs(alphas, dataArr, classLabels):
+    """
+    基于alpha计算w值
+    Args:
+        alphas        拉格朗日乘子
+        dataArr       feature数据集
+        classLabels   目标变量数据集
+
+    Returns:
+        wc  回归系数
+    """
+    X = mat(dataArr)
+    labelMat = mat(classLabels).T
+    m, n = shape(X)
+    w = zeros((n, 1))
+    for i in range(m):
+        w += multiply(alphas[i] * labelMat[i], X[i].T)
+    return w
+
+
+def plotfig_SVM(xArr, yArr, ws, b, alphas):
+    """
+    参考地址: 
+       http://blog.csdn.net/maoersong/article/details/24315633
+       http://www.cnblogs.com/JustForCS/p/5283489.html
+       http://blog.csdn.net/kkxgx/article/details/6951959
+    """
+
+    xMat = mat(xArr)
+    yMat = mat(yArr)
+
+    # b原来是矩阵，先转为数组类型后其数组大小为（1,1），所以后面加[0]，变为(1,)
+    b = array(b)[0]
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+
+    # 注意flatten的用法
+    ax.scatter(xMat[:, 0].flatten().A[0], xMat[:, 1].flatten().A[0])
+
+    # x最大值，最小值根据原数据集dataArr[:, 0]的大小而定
+    x = arange(-1.0, 10.0, 0.1)
+
+    # 根据x.w + b = 0 得到，其式子展开为w0.x1 + w1.x2 + b = 0, x2就是y值
+    y = (- b - ws[0, 0] * x) / ws[1, 0]
+    ax.plot(x, y)
+
+    for i in range(shape(yMat[0])[1]):
+        if yMat[0, i] > 0:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'cx')
+        else:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'kp')
+
+    # 找到支持向量，并在图中标红
+    for i in range(100):
+        if alphas[i] > 0.0:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'ro')
+    plt.show()
+
+
+if __name__ == "__main__":
+    # 获取特征和目标变量
+    dataArr, labelArr = loadDataSet('data/6.SVM/testSet.txt')
+    # print(labelArr)
+
+    # b是常量值， alphas是拉格朗日乘子
+    b, alphas = smoP(dataArr, labelArr, 0.6, 0.001, 40)
+    print('/n/n/n')
+    print('b=', b)
+    print('alphas[alphas>0]=', alphas[alphas > 0])
+    print('shape(alphas[alphas > 0])=', shape(alphas[alphas > 0]))
+    for i in range(100):
+        if alphas[i] > 0:
+            print(dataArr[i], labelArr[i])
+    # 画图
+    ws = calcWs(alphas, dataArr, labelArr)
+    plotfig_SVM(dataArr, labelArr, ws, b, alphas)
diff --git a/机器学习/殷康龙/源代码/ml/6.SVM/svm-simple.py b/机器学习/殷康龙/源代码/ml/6.SVM/svm-simple.py
new file mode 100644
index 00000000..7c509387
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/6.SVM/svm-simple.py
@@ -0,0 +1,254 @@
+#!/usr/bin/python
+# -*- coding:utf-8 -*-
+
+"""
+Created on Nov 4, 2010
+Update on 2017-05-18
+Chapter 5 source file for Machine Learing in Action
+Author: Peter/geekidentity/片刻
+GitHub: https://github.com/apachecn/AiLearning
+"""
+from numpy import *
+import matplotlib.pyplot as plt
+
+
+def loadDataSet(fileName):
+    """
+    对文件进行逐行解析，从而得到第行的类标签和整个特征矩阵
+    Args:
+        fileName 文件名
+    Returns:
+        dataMat  特征矩阵
+        labelMat 类标签
+    """
+    dataMat = []
+    labelMat = []
+    fr = open(fileName)
+    for line in fr.readlines():
+        lineArr = line.strip().split('\t')
+        dataMat.append([float(lineArr[0]), float(lineArr[1])])
+        labelMat.append(float(lineArr[2]))
+    return dataMat, labelMat
+
+
+def selectJrand(i, m):
+    """
+    随机选择一个整数
+    Args:
+        i  第一个alpha的下标
+        m  所有alpha的数目
+    Returns:
+        j  返回一个不为i的随机数，在0~m之间的整数值
+    """
+    j = i
+    while j == i:
+        j = int(random.uniform(0, m))
+    return j
+
+
+def clipAlpha(aj, H, L):
+    """clipAlpha(调整aj的值，使aj处于 L<=aj<=H)
+    Args:
+        aj  目标值
+        H   最大值
+        L   最小值
+    Returns:
+        aj  目标值
+    """
+    if aj > H:
+        aj = H
+    if L > aj:
+        aj = L
+    return aj
+
+
+def smoSimple(dataMatIn, classLabels, C, toler, maxIter):
+    """smoSimple
+
+    Args:
+        dataMatIn    数据集
+        classLabels  类别标签
+        C   松弛变量(常量值)，允许有些数据点可以处于分隔面的错误一侧。
+            控制最大化间隔和保证大部分的函数间隔小于1.0这两个目标的权重。
+            可以通过调节该参数达到不同的结果。
+        toler   容错率（是指在某个体系中能减小一些因素或选择对某个系统产生不稳定的概率。）
+        maxIter 退出前最大的循环次数
+    Returns:
+        b       模型的常量值
+        alphas  拉格朗日乘子
+    """
+    dataMatrix = mat(dataMatIn)
+    # 矩阵转置 和 .T 一样的功能
+    labelMat = mat(classLabels).transpose()
+    m, n = shape(dataMatrix)
+
+    # 初始化 b和alphas(alpha有点类似权重值。)
+    b = 0
+    alphas = mat(zeros((m, 1)))
+
+    # 没有任何alpha改变的情况下遍历数据的次数
+    iter = 0
+    while (iter < maxIter):
+        # w = calcWs(alphas, dataMatIn, classLabels)
+        # print("w:", w)
+
+        # 记录alpha是否已经进行优化，每次循环时设为0，然后再对整个集合顺序遍历
+        alphaPairsChanged = 0
+        for i in range(m):
+            # print('alphas=', alphas)
+            # print('labelMat=', labelMat)
+            # print('multiply(alphas, labelMat)=', multiply(alphas, labelMat))
+            # 我们预测的类别 y = w^Tx[i]+b; 其中因为 w = Σ(1~n) a[n]*lable[n]*x[n]
+            fXi = float(multiply(alphas, labelMat).T*(dataMatrix*dataMatrix[i, :].T)) + b
+            # 预测结果与真实结果比对，计算误差Ei
+            Ei = fXi - float(labelMat[i])
+
+            # 约束条件 (KKT条件是解决最优化问题的时用到的一种方法。我们这里提到的最优化问题通常是指对于给定的某一函数，求其在指定作用域上的全局最小值)
+            # 0<=alphas[i]<=C，但由于0和C是边界值，我们无法进行优化，因为需要增加一个alphas和降低一个alphas。
+            # 表示发生错误的概率: labelMat[i]*Ei 如果超出了 toler， 才需要优化。至于正负号，我们考虑绝对值就对了。
+            '''
+            # 检验训练样本(xi, yi)是否满足KKT条件
+            yi*f(i) >= 1 and alpha = 0 (outside the boundary)
+            yi*f(i) == 1 and 0<alpha< C (on the boundary)
+            yi*f(i) <= 1 and alpha = C (between the boundary)
+            '''
+            if ((labelMat[i]*Ei < -toler) and (alphas[i] < C)) or ((labelMat[i]*Ei > toler) and (alphas[i] > 0)):
+
+                # 如果满足优化的条件，我们就随机选取非i的一个点，进行优化比较
+                j = selectJrand(i, m)
+                # 预测j的结果
+                fXj = float(multiply(alphas, labelMat).T*(dataMatrix*dataMatrix[j, :].T)) + b
+                Ej = fXj - float(labelMat[j])
+                alphaIold = alphas[i].copy()
+                alphaJold = alphas[j].copy()
+
+                # L和H用于将alphas[j]调整到0-C之间。如果L==H，就不做任何改变，直接执行continue语句
+                # labelMat[i] != labelMat[j] 表示异侧，就相减，否则是同侧，就相加。
+                if (labelMat[i] != labelMat[j]):
+                    L = max(0, alphas[j] - alphas[i])
+                    H = min(C, C + alphas[j] - alphas[i])
+                else:
+                    L = max(0, alphas[j] + alphas[i] - C)
+                    H = min(C, alphas[j] + alphas[i])
+                # 如果相同，就没发优化了
+                if L == H:
+                    print("L==H")
+                    continue
+
+                # eta是alphas[j]的最优修改量，如果eta==0，需要退出for循环的当前迭代过程
+                # 参考《统计学习方法》李航-P125~P128<序列最小最优化算法>
+                eta = 2.0 * dataMatrix[i, :]*dataMatrix[j, :].T - dataMatrix[i, :]*dataMatrix[i, :].T - dataMatrix[j, :]*dataMatrix[j, :].T
+                if eta >= 0:
+                    print("eta>=0")
+                    continue
+
+                # 计算出一个新的alphas[j]值
+                alphas[j] -= labelMat[j]*(Ei - Ej)/eta
+                # 并使用辅助函数，以及L和H对其进行调整
+                alphas[j] = clipAlpha(alphas[j], H, L)
+                # 检查alpha[j]是否只是轻微的改变，如果是的话，就退出for循环。
+                if (abs(alphas[j] - alphaJold) < 0.00001):
+                    print("j not moving enough")
+                    continue
+                # 然后alphas[i]和alphas[j]同样进行改变，虽然改变的大小一样，但是改变的方向正好相反
+                alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j])
+                # 在对alpha[i], alpha[j] 进行优化之后，给这两个alpha值设置一个常数b。
+                # w= Σ[1~n] ai*yi*xi => b = yj- Σ[1~n] ai*yi(xi*xj)
+                # 所以:   b1 - b = (y1-y) - Σ[1~n] yi*(a1-a)*(xi*x1)
+                # 为什么减2遍？ 因为是 减去Σ[1~n]，正好2个变量i和j，所以减2遍
+                b1 = b - Ei- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i, :]*dataMatrix[i, :].T - labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[i, :]*dataMatrix[j, :].T
+                b2 = b - Ej- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i, :]*dataMatrix[j, :].T - labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[j, :]*dataMatrix[j, :].T
+                if (0 < alphas[i]) and (C > alphas[i]):
+                    b = b1
+                elif (0 < alphas[j]) and (C > alphas[j]):
+                    b = b2
+                else:
+                    b = (b1 + b2)/2.0
+                alphaPairsChanged += 1
+                print("iter: %d i:%d, pairs changed %d" % (iter, i, alphaPairsChanged))
+        # 在for循环外，检查alpha值是否做了更新，如果在更新则将iter设为0后继续运行程序
+        # 知道更新完毕后，iter次循环无变化，才推出循环。
+        if (alphaPairsChanged == 0):
+            iter += 1
+        else:
+            iter = 0
+        print("iteration number: %d" % iter)
+    return b, alphas
+
+
+def calcWs(alphas, dataArr, classLabels):
+    """
+    基于alpha计算w值
+    Args:
+        alphas        拉格朗日乘子
+        dataArr       feature数据集
+        classLabels   目标变量数据集
+
+    Returns:
+        wc  回归系数
+    """
+    X = mat(dataArr)
+    labelMat = mat(classLabels).transpose()
+    m, n = shape(X)
+    w = zeros((n, 1))
+    for i in range(m):
+        w += multiply(alphas[i] * labelMat[i], X[i, :].T)
+    return w
+
+
+def plotfig_SVM(xMat, yMat, ws, b, alphas):
+    """
+    参考地址: 
+       http://blog.csdn.net/maoersong/article/details/24315633
+       http://www.cnblogs.com/JustForCS/p/5283489.html
+       http://blog.csdn.net/kkxgx/article/details/6951959
+    """
+
+    xMat = mat(xMat)
+    yMat = mat(yMat)
+
+    # b原来是矩阵，先转为数组类型后其数组大小为（1,1），所以后面加[0]，变为(1,)
+    b = array(b)[0]
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+
+    # 注意flatten的用法
+    ax.scatter(xMat[:, 0].flatten().A[0], xMat[:, 1].flatten().A[0])
+
+    # x最大值，最小值根据原数据集dataArr[:, 0]的大小而定
+    x = arange(-1.0, 10.0, 0.1)
+
+    # 根据x.w + b = 0 得到，其式子展开为w0.x1 + w1.x2 + b = 0, x2就是y值
+    y = (-b-ws[0, 0]*x)/ws[1, 0]
+    ax.plot(x, y)
+
+    for i in range(shape(yMat[0, :])[1]):
+        if yMat[0, i] > 0:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'cx')
+        else:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'kp')
+
+    # 找到支持向量，并在图中标红
+    for i in range(100):
+        if alphas[i] > 0.0:
+            ax.plot(xMat[i, 0], xMat[i, 1], 'ro')
+    plt.show()
+
+
+if __name__ == "__main__":
+    # 获取特征和目标变量
+    dataArr, labelArr = loadDataSet('data/6.SVM/testSet.txt')
+    # print(labelArr)
+
+    # b是常量值， alphas是拉格朗日乘子
+    b, alphas = smoSimple(dataArr, labelArr, 0.6, 0.001, 40)
+    print('/n/n/n')
+    print('b=', b)
+    print('alphas[alphas>0]=', alphas[alphas > 0])
+    print('shape(alphas[alphas > 0])=', shape(alphas[alphas > 0]))
+    for i in range(100):
+        if alphas[i] > 0:
+            print(dataArr[i], labelArr[i])
+    # 画图
+    ws = calcWs(alphas, dataArr, labelArr)
+    plotfig_SVM(dataArr, labelArr, ws, b, alphas)
diff --git a/机器学习/殷康龙/源代码/ml/7.AdaBoost/adaboost.py b/机器学习/殷康龙/源代码/ml/7.AdaBoost/adaboost.py
new file mode 100644
index 00000000..21b2251f
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/7.AdaBoost/adaboost.py
@@ -0,0 +1,273 @@
+#!/usr/bin/python
+# coding:utf8
+"""
+Created on Nov 28, 2010
+Update  on 2017-05-18
+Adaboost is short for Adaptive Boosting
+Author: Peter/片刻/BBruceyuan
+GitHub: https://github.com/apachecn/AiLearning
+"""
+import numpy as np
+
+
+def load_sim_data():
+    """
+    测试数据，
+    :return: data_arr   feature对应的数据集
+            label_arr  feature对应的分类标签
+    """
+    data_mat = np.matrix([[1.0, 2.1],
+                          [2.0, 1.1],
+                          [1.3, 1.0],
+                          [1.0, 1.0],
+                          [2.0, 1.0]])
+    class_labels = [1.0, 1.0, -1.0, -1.0, 1.0]
+    return data_mat, class_labels
+
+
+def load_data_set(file_name):
+    """
+    加载马的疝气病的数据
+    :param file_name: 文件名
+    :return: 必须要是np.array或者np.matrix不然后面没有，shape
+    """
+    num_feat = len(open(file_name).readline().split('\t'))
+    data_arr = []
+    label_arr = []
+    fr = open(file_name)
+    for line in fr.readlines():
+        line_arr = []
+        cur_line = line.strip().split('\t')
+        for i in range(num_feat - 1):
+            line_arr.append(float(cur_line[i]))
+        data_arr.append(line_arr)
+        label_arr.append(float(cur_line[-1]))
+    return np.matrix(data_arr), label_arr
+
+
+def stump_classify(data_mat, dimen, thresh_val, thresh_ineq):
+    """
+    (将数据集，按照feature列的value进行 二分法切分比较来赋值分类)
+    :param data_mat: Matrix数据集
+    :param dimen: 特征的哪一个列
+    :param thresh_val: 特征列要比较的值
+    :param thresh_ineq: 
+    :return: np.array
+    """
+    ret_array = np.ones((np.shape(data_mat)[0], 1))
+    # data_mat[:, dimen] 表示数据集中第dimen列的所有值
+    # thresh_ineq == 'lt'表示修改左边的值，gt表示修改右边的值
+    # （这里其实我建议理解为转换左右边，就是一棵树的左右孩子，可能有点问题。。。待考证）
+    if thresh_ineq == 'lt':
+        ret_array[data_mat[:, dimen] <= thresh_val] = -1.0
+    else:
+        ret_array[data_mat[:, dimen] > thresh_val] = -1.0
+    return ret_array
+
+
+def build_stump(data_arr, class_labels, D):
+    """
+    得到决策树的模型 (这个比较重要，需要看懂）
+    :param data_arr: 特征标签集合
+    :param class_labels: 分类标签集合
+    :param D: 最初的特征权重值
+    :return: bestStump    最优的分类器模型
+            min_error     错误率
+            best_class_est  训练后的结果集
+    """
+    data_mat = np.mat(data_arr)
+    label_mat = np.mat(class_labels).T
+
+    m, n = np.shape(data_mat)
+    num_steps = 10.0
+    best_stump = {}
+    best_class_est = np.mat(np.zeros((m, 1)))
+    # 无穷大
+    min_err = np.inf
+    for i in range(n):
+        range_min = data_mat[:, i].min()
+        range_max = data_mat[:, i].max()
+        step_size = (range_max - range_min) / num_steps
+        for j in range(-1, int(num_steps) + 1):
+            for inequal in ['lt', 'gt']:
+                thresh_val = (range_min + float(j) * step_size)
+                predicted_vals = stump_classify(data_mat, i, thresh_val, inequal)
+                err_arr = np.mat(np.ones((m, 1)))
+                err_arr[predicted_vals == label_mat] = 0
+                # 这里是矩阵乘法
+                weighted_err = D.T * err_arr
+                '''
+                dim            表示 feature列
+                thresh_val      表示树的分界值
+                inequal        表示计算树左右颠倒的错误率的情况
+                weighted_error  表示整体结果的错误率
+                best_class_est    预测的最优结果 （与class_labels对应）
+                '''
+                # print('split: dim {}, thresh {}, thresh inequal: {}, the weighted err is {}'.format(
+                #     i, thresh_val, inequal, weighted_err
+                # ))
+                if weighted_err < min_err:
+                    min_err = weighted_err
+                    best_class_est = predicted_vals.copy()
+                    best_stump['dim'] = i
+                    best_stump['thresh'] = thresh_val
+                    best_stump['ineq'] = inequal
+    # best_stump 表示分类器的结果，在第几个列上，用大于／小于比较，阈值是多少 (单个弱分类器)
+    return best_stump, min_err, best_class_est
+
+
+def ada_boost_train_ds(data_arr, class_labels, num_it=40):
+    """
+    adaBoost训练过程放大
+    :param data_arr: 特征标签集合
+    :param class_labels: 分类标签集合
+    :param num_it: 迭代次数
+    :return: weak_class_arr  弱分类器的集合
+            agg_class_est   预测的分类结果值
+    """
+    weak_class_arr = []
+    m = np.shape(data_arr)[0]
+    # 初始化 D，设置每个特征的权重值，平均分为m份
+    D = np.mat(np.ones((m, 1)) / m)
+    agg_class_est = np.mat(np.zeros((m, 1)))
+    for i in range(num_it):
+        # 得到决策树的模型
+        best_stump, error, class_est = build_stump(data_arr, class_labels, D)
+        # print('D: {}'.format(D.T))
+        # alpha 目的主要是计算每一个分类器实例的权重(加和就是分类结果)
+        # 计算每个分类器的 alpha 权重值
+        alpha = float(0.5 * np.log((1.0 - error) / max(error, 1e-16)))
+        best_stump['alpha'] = alpha
+        # store Stump Params in Array
+        weak_class_arr.append(best_stump)
+        # print('class_est: {}'.format(class_est.T))
+        # 分类正确: 乘积为1，不会影响结果，-1主要是下面求e的-alpha次方
+        # 分类错误: 乘积为 -1，结果会受影响，所以也乘以 -1
+        expon = np.multiply(-1 * alpha * np.mat(class_labels).T, class_est)
+        # 判断正确的，就乘以-1，否则就乘以1， 为什么？ 书上的公式。
+        # print('(-1取反)预测值 expon=', expon.T)
+        # 计算e的expon次方，然后计算得到一个综合的概率的值
+        # 结果发现:  判断错误的样本，D对于的样本权重值会变大。
+        # multiply是对应项相乘
+        D = np.multiply(D, np.exp(expon))
+        D = D / D.sum()
+        # 预测的分类结果值，在上一轮结果的基础上，进行加和操作
+        # print('叠加前的分类结果class_est: {}'.format(class_est.T))
+        agg_class_est += alpha * class_est
+        # print('叠加后的分类结果agg_class_est: {}'.format(agg_class_est.T))
+        # sign 判断正为1， 0为0， 负为-1，通过最终加和的权重值，判断符号。
+        # 结果为: 错误的样本标签集合，因为是 !=,那么结果就是0 正, 1 负
+        agg_errors = np.multiply(np.sign(agg_class_est) != np.mat(class_labels).T,
+                                 np.ones((m, 1)))
+        error_rate = agg_errors.sum() / m
+        # print('total error: {}\n'.format(error_rate))
+        if error_rate == 0.0:
+            break
+    return weak_class_arr, agg_class_est
+
+
+def ada_classify(data_to_class, classifier_arr):
+    """
+    通过刚刚上面那个函数得到的弱分类器的集合进行预测
+    :param data_to_class: 数据集
+    :param classifier_arr: 分类器列表
+    :return: 正负一，也就是表示分类的结果
+    """
+    data_mat = np.mat(data_to_class)
+    m = np.shape(data_mat)[0]
+    agg_class_est = np.mat(np.zeros((m, 1)))
+    for i in range(len(classifier_arr)):
+        class_est = stump_classify(
+            data_mat, classifier_arr[i]['dim'],
+            classifier_arr[i]['thresh'],
+            classifier_arr[i]['ineq']
+        )
+        agg_class_est += classifier_arr[i]['alpha'] * class_est
+        print(agg_class_est)
+    return np.sign(agg_class_est)
+
+
+def plot_roc(pred_strengths, class_labels):
+    """
+    (打印ROC曲线，并计算AUC的面积大小)
+    :param pred_strengths: 最终预测结果的权重值
+    :param class_labels: 原始数据的分类结果集
+    :return: 
+    """
+    import matplotlib.pyplot as plt
+    # variable to calculate AUC
+    y_sum = 0.0
+    # 对正样本的进行求和
+    num_pos_class = np.sum(np.array(class_labels) == 1.0)
+    # 正样本的概率
+    y_step = 1 / float(num_pos_class)
+    # 负样本的概率
+    x_step = 1 / float(len(class_labels) - num_pos_class)
+    # np.argsort函数返回的是数组值从小到大的索引值
+    # get sorted index, it's reverse
+    sorted_indicies = pred_strengths.argsort()
+    # 测试结果是否是从小到大排列
+    # 可以选择打印看一下
+    # 开始创建模版对象
+    fig = plt.figure()
+    fig.clf()
+    ax = plt.subplot(111)
+    # cursor光标值
+    cur = (1.0, 1.0)
+    # loop through all the values, drawing a line segment at each point
+    for index in sorted_indicies.tolist()[0]:
+        if class_labels[index] == 1.0:
+            del_x = 0
+            del_y = y_step
+        else:
+            del_x = x_step
+            del_y = 0
+            y_sum += cur[1]
+        # draw line from cur to (cur[0]-delX, cur[1]-delY)
+        # 画点连线 (x1, x2, y1, y2)
+        # print cur[0], cur[0]-delX, cur[1], cur[1]-delY
+        ax.plot([cur[0], cur[0] - del_x], [cur[1], cur[1] - del_y], c='b')
+        cur = (cur[0] - del_x, cur[1] - del_y)
+    # 画对角的虚线线
+    ax.plot([0, 1], [0, 1], 'b--')
+    plt.xlabel('False positive rate')
+    plt.ylabel('True positive rate')
+    plt.title('ROC curve for AdaBoost horse colic detection system')
+    # 设置画图的范围区间 (x1, x2, y1, y2)
+    ax.axis([0, 1, 0, 1])
+    plt.show()
+    '''
+    参考说明: http://blog.csdn.net/wenyusuran/article/details/39056013
+    为了计算 AUC ，我们需要对多个小矩形的面积进行累加。
+    这些小矩形的宽度是x_step，因此可以先对所有矩形的高度进行累加，最后再乘以x_step得到其总面积。
+    所有高度的和(y_sum)随着x轴的每次移动而渐次增加。
+    '''
+    print("the Area Under the Curve is: ", y_sum * x_step)
+
+
+def test():
+    # D = np.mat(np.ones((5, 1)) / 5)
+    # data_mat, class_labels = load_sim_data()
+    # print(data_mat.shape)
+    # result = build_stump(data_mat, class_labels, D)
+    # print(result)
+    # classifier_array, agg_class_est = ada_boost_train_ds(data_mat, class_labels, 9)
+    # print(classifier_array, agg_class_est)
+    data_mat, class_labels = load_data_set('data/7.AdaBoost/horseColicTraining2.txt')
+    print(data_mat.shape, len(class_labels))
+    weak_class_arr, agg_class_est = ada_boost_train_ds(data_mat, class_labels, 40)
+    print(weak_class_arr, '\n-----\n', agg_class_est.T)
+    plot_roc(agg_class_est, class_labels)
+    data_arr_test, label_arr_test = load_data_set("data/7.AdaBoost/horseColicTest2.txt")
+    m = np.shape(data_arr_test)[0]
+    predicting10 = ada_classify(data_arr_test, weak_class_arr)
+    err_arr = np.mat(np.ones((m, 1)))
+    # 测试: 计算总样本数，错误样本数，错误率
+    print(m,
+          err_arr[predicting10 != np.mat(label_arr_test).T].sum(),
+          err_arr[predicting10 != np.mat(label_arr_test).T].sum() / m
+          )
+
+
+if __name__ == '__main__':
+    test()
diff --git a/机器学习/殷康龙/源代码/ml/7.AdaBoost/roc_test.py b/机器学习/殷康龙/源代码/ml/7.AdaBoost/roc_test.py
new file mode 100644
index 00000000..4758b044
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/7.AdaBoost/roc_test.py
@@ -0,0 +1,30 @@
+import numpy as np
+
+from .adaboost import ada_boost_train_ds, ada_classify, load_data_set, plot_roc
+
+
+def test():
+    # D = np.mat(np.ones((5, 1)) / 5)
+    # data_mat, class_labels = load_sim_data()
+    # print(data_mat.shape)
+    # result = build_stump(data_mat, class_labels, D)
+    # print(result)
+    # classifier_array, agg_class_est = ada_boost_train_ds(data_mat, class_labels, 9)
+    # print(classifier_array, agg_class_est)
+    data_mat, class_labels = load_data_set('../../../input/7.AdaBoost/horseColicTraining2.txt')
+    print(data_mat.shape, len(class_labels))
+    weak_class_arr, agg_class_est = ada_boost_train_ds(data_mat, class_labels, 40)
+    print(weak_class_arr, '\n-----\n', agg_class_est.T)
+    '''
+    agg_class_est是m*1维的矩阵，需先对其转置，再执行plot_roc()
+    '''
+    plot_roc(agg_class_est.T, class_labels)
+    data_arr_test, label_arr_test = load_data_set("../../../input/7.AdaBoost/horseColicTest2.txt")
+    m = np.shape(data_arr_test)[0]
+    predicting10 = ada_classify(data_arr_test, weak_class_arr)
+    err_arr = np.mat(np.ones((m, 1)))
+    # 测试: 计算总样本数，错误样本数，错误率
+    print(m,
+          err_arr[predicting10 != np.mat(label_arr_test).T].sum(),
+          err_arr[predicting10 != np.mat(label_arr_test).T].sum() / m
+          )
diff --git a/机器学习/殷康龙/源代码/ml/7.AdaBoost/sklearn-adaboost-demo.py b/机器学习/殷康龙/源代码/ml/7.AdaBoost/sklearn-adaboost-demo.py
new file mode 100644
index 00000000..6d3420e3
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/7.AdaBoost/sklearn-adaboost-demo.py
@@ -0,0 +1,61 @@
+#!/usr/bin/python
+# coding:utf8
+"""
+Created on 2017-07-10
+Updated on 2017-07-10
+Author: 片刻／Noel Dawe
+GitHub: https://github.com/apachecn/AiLearning
+sklearn-AdaBoost译文链接: http://cwiki.apachecn.org/pages/viewpage.action?pageId=10813457
+"""
+
+import matplotlib.pyplot as plt
+# importing necessary libraries
+import numpy as np
+from sklearn import metrics
+from sklearn.ensemble import AdaBoostRegressor
+from sklearn.tree import DecisionTreeRegressor
+
+print(__doc__)
+
+
+# Create the dataset
+rng = np.random.RandomState(1)
+X = np.linspace(0, 6, 100)[:, np.newaxis]
+y = np.sin(X).ravel() + np.sin(6 * X).ravel() + rng.normal(0, 0.1, X.shape[0])
+# dataArr, labelArr = loadDataSet("data/7.AdaBoost/horseColicTraining2.txt")
+
+
+# Fit regression model
+regr_1 = DecisionTreeRegressor(max_depth=4)
+regr_2 = AdaBoostRegressor(DecisionTreeRegressor(max_depth=4), n_estimators=300, random_state=rng)
+
+regr_1.fit(X, y)
+regr_2.fit(X, y)
+
+# Predict
+y_1 = regr_1.predict(X)
+y_2 = regr_2.predict(X)
+
+# Plot the results
+plt.figure()
+plt.scatter(X, y, c="k", label="training samples")
+plt.plot(X, y_1, c="g", label="n_estimators=1", linewidth=2)
+plt.plot(X, y_2, c="r", label="n_estimators=300", linewidth=2)
+plt.xlabel("data")
+plt.ylabel("target")
+plt.title("Boosted Decision Tree Regression")
+plt.legend()
+plt.show()
+
+print('y---', type(y[0]), len(y), y[:4])
+print('y_1---', type(y_1[0]), len(y_1), y_1[:4])
+print('y_2---', type(y_2[0]), len(y_2), y_2[:4])
+
+# 适合2分类
+y_true = np.array([0, 0, 1, 1])
+y_scores = np.array([0.1, 0.4, 0.35, 0.8])
+print('y_scores---', type(y_scores[0]), len(y_scores), y_scores)
+print(metrics.roc_auc_score(y_true, y_scores))
+
+# print("-" * 100)
+# print(metrics.roc_auc_score(y[:1], y_2[:1]))
diff --git a/机器学习/殷康龙/源代码/ml/7.RandomForest/randomForest.py b/机器学习/殷康龙/源代码/ml/7.RandomForest/randomForest.py
new file mode 100644
index 00000000..05d111f4
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/7.RandomForest/randomForest.py
@@ -0,0 +1,321 @@
+#!/usr/bin/python
+# coding:utf8
+
+'''
+Created 2017-04-25
+Update  on 2017-05-18
+Random Forest Algorithm on Sonar Dataset
+Author: Flying_sfeng/片刻
+GitHub: https://github.com/apachecn/AiLearning
+---
+源代码网址: http://www.tuicool.com/articles/iiUfeim
+Flying_sfeng博客地址: http://blog.csdn.net/flying_sfeng/article/details/64133822
+在此表示感谢你的代码和注解， 我重新也完善了个人注解
+'''
+from random import seed, randrange, random
+
+
+# 导入csv文件
+def loadDataSet(filename):
+    dataset = []
+    with open(filename, 'r') as fr:
+        for line in fr.readlines():
+            if not line:
+                continue
+            lineArr = []
+            for featrue in line.split(','):
+                # strip()返回移除字符串头尾指定的字符生成的新字符串
+                str_f = featrue.strip()
+                if str_f.isdigit():   # 判断是否是数字
+                    # 将数据集的第column列转换成float形式
+                    lineArr.append(float(str_f))
+                else:
+                    # 添加分类标签
+                    lineArr.append(str_f)
+            dataset.append(lineArr)
+    return dataset
+
+
+def cross_validation_split(dataset, n_folds):
+    """cross_validation_split(将数据集进行抽重抽样 n_folds 份，数据可以重复重复抽取，每一次list的元素是无重复的)
+
+    Args:
+        dataset     原始数据集
+        n_folds     数据集dataset分成n_flods份
+    Returns:
+        dataset_split    list集合，存放的是: 将数据集进行抽重抽样 n_folds 份，数据可以重复重复抽取，每一次list的元素是无重复的
+    """
+    dataset_split = list()
+    dataset_copy = list(dataset)       # 复制一份 dataset,防止 dataset 的内容改变
+    fold_size = len(dataset) / n_folds
+    for i in range(n_folds):
+        fold = list()                  # 每次循环 fold 清零，防止重复导入 dataset_split
+        while len(fold) < fold_size:   # 这里不能用 if，if 只是在第一次判断时起作用，while 执行循环，直到条件不成立
+            # 有放回的随机采样，有一些样本被重复采样，从而在训练集中多次出现，有的则从未在训练集中出现，此则自助采样法。从而保证每棵决策树训练集的差异性            
+            index = randrange(len(dataset_copy))
+            # 将对应索引 index 的内容从 dataset_copy 中导出，并将该内容从 dataset_copy 中删除。
+            # pop() 函数用于移除列表中的一个元素（默认最后一个元素），并且返回该元素的值。
+            # fold.append(dataset_copy.pop(index))  # 无放回的方式
+            fold.append(dataset_copy[index])  # 有放回的方式
+        dataset_split.append(fold)
+    # 由dataset分割出的n_folds个数据构成的列表，为了用于交叉验证
+    return dataset_split
+
+
+# Split a dataset based on an attribute and an attribute value # 根据特征和特征值分割数据集
+def test_split(index, value, dataset):
+    left, right = list(), list()
+    for row in dataset:
+        if row[index] < value:
+            left.append(row)
+        else:
+            right.append(row)
+    return left, right
+
+
+# Calculate the Gini index for a split dataset
+def gini_index(groups, class_values):    # 个人理解: 计算代价，分类越准确，则 gini 越小
+    gini = 0.0
+    for class_value in class_values:     # class_values = [0, 1] 
+        for group in groups:             # groups = (left, right)
+            size = len(group)
+            if size == 0:
+                continue
+            proportion = [row[-1] for row in group].count(class_value) / float(size)
+            gini += (proportion * (1.0 - proportion))    # 个人理解: 计算代价，分类越准确，则 gini 越小
+    return gini
+
+
+# 找出分割数据集的最优特征，得到最优的特征 index，特征值 row[index]，以及分割完的数据 groups（left, right）
+def get_split(dataset, n_features):
+    class_values = list(set(row[-1] for row in dataset))  # class_values =[0, 1]
+    b_index, b_value, b_score, b_groups = 999, 999, 999, None
+    features = list()
+    while len(features) < n_features:
+        index = randrange(len(dataset[0])-1)  # 往 features 添加 n_features 个特征（ n_feature 等于特征数的根号），特征索引从 dataset 中随机取
+        if index not in features:
+            features.append(index)
+    for index in features:                    # 在 n_features 个特征中选出最优的特征索引，并没有遍历所有特征，从而保证了每课决策树的差异性
+        for row in dataset:
+            groups = test_split(index, row[index], dataset)  # groups=(left, right), row[index] 遍历每一行 index 索引下的特征值作为分类值 value, 找出最优的分类特征和特征值
+            gini = gini_index(groups, class_values)
+            # 左右两边的数量越一样，说明数据区分度不高，gini系数越大
+            if gini < b_score:
+                b_index, b_value, b_score, b_groups = index, row[index], gini, groups  # 最后得到最优的分类特征 b_index,分类特征值 b_value,分类结果 b_groups。b_value 为分错的代价成本
+    # print(b_score)
+    return {'index': b_index, 'value': b_value, 'groups': b_groups}
+
+
+# Create a terminal node value # 输出group中出现次数较多的标签
+def to_terminal(group):
+    outcomes = [row[-1] for row in group]           # max() 函数中，当 key 参数不为空时，就以 key 的函数对象为判断的标准
+    return max(set(outcomes), key=outcomes.count)   # 输出 group 中出现次数较多的标签  
+
+
+# Create child splits for a node or make terminal  # 创建子分割器，递归分类，直到分类结束
+def split(node, max_depth, min_size, n_features, depth):  # max_depth = 10, min_size = 1, n_features = int(sqrt((dataset[0])-1))
+    left, right = node['groups']
+    del(node['groups'])
+# check for a no split
+    if not left or not right:
+        node['left'] = node['right'] = to_terminal(left + right)
+        return
+# check for max depth
+    if depth >= max_depth:   # max_depth=10 表示递归十次，若分类还未结束，则选取数据中分类标签较多的作为结果，使分类提前结束，防止过拟合
+        node['left'], node['right'] = to_terminal(left), to_terminal(right)
+        return
+# process left child
+    if len(left) <= min_size:
+        node['left'] = to_terminal(left)
+    else:
+        node['left'] = get_split(left, n_features)  # node['left']是一个字典，形式为{'index':b_index, 'value':b_value, 'groups':b_groups}，所以node是一个多层字典
+        split(node['left'], max_depth, min_size, n_features, depth+1)  # 递归，depth+1计算递归层数
+# process right child
+    if len(right) <= min_size:
+        node['right'] = to_terminal(right)
+    else:
+        node['right'] = get_split(right, n_features)
+        split(node['right'], max_depth, min_size, n_features, depth+1)
+
+
+# Build a decision tree
+def build_tree(train, max_depth, min_size, n_features):
+    """build_tree(创建一个决策树)
+
+    Args:
+        train           训练数据集
+        max_depth       决策树深度不能太深，不然容易导致过拟合
+        min_size        叶子节点的大小
+        n_features      选取的特征的个数
+    Returns:
+        root            返回决策树
+    """
+
+    # 返回最优列和相关的信息
+    root = get_split(train, n_features)
+
+    # 对左右2边的数据 进行递归的调用，由于最优特征使用过，所以在后面进行使用的时候，就没有意义了
+    # 例如:  性别-男女，对男使用这一特征就没任何意义了
+    split(root, max_depth, min_size, n_features, 1)
+    return root
+
+
+# Make a prediction with a decision tree
+def predict(node, row):   # 预测模型分类结果
+    if row[node['index']] < node['value']:
+        if isinstance(node['left'], dict):       # isinstance 是 Python 中的一个内建函数。是用来判断一个对象是否是一个已知的类型。
+            return predict(node['left'], row)
+        else:
+            return node['left']
+    else:
+        if isinstance(node['right'], dict):
+            return predict(node['right'], row)
+        else:
+            return node['right']
+
+
+# Make a prediction with a list of bagged trees
+def bagging_predict(trees, row):
+    """bagging_predict(bagging预测)
+
+    Args:
+        trees           决策树的集合
+        row             测试数据集的每一行数据
+    Returns:
+        返回随机森林中，决策树结果出现次数做大的
+    """
+
+    # 使用多个决策树trees对测试集test的第row行进行预测，再使用简单投票法判断出该行所属分类
+    predictions = [predict(tree, row) for tree in trees]
+    return max(set(predictions), key=predictions.count)
+
+
+# Create a random subsample from the dataset with replacement
+def subsample(dataset, ratio):   # 创建数据集的随机子样本
+    """random_forest(评估算法性能，返回模型得分)
+
+    Args:
+        dataset         训练数据集
+        ratio           训练数据集的样本比例
+    Returns:
+        sample          随机抽样的训练样本
+    """
+
+    sample = list()
+    # 训练样本的按比例抽样。
+    # round() 方法返回浮点数x的四舍五入值。
+    n_sample = round(len(dataset) * ratio)
+    while len(sample) < n_sample:
+        # 有放回的随机采样，有一些样本被重复采样，从而在训练集中多次出现，有的则从未在训练集中出现，此则自助采样法。从而保证每棵决策树训练集的差异性
+        index = randrange(len(dataset))
+        sample.append(dataset[index])
+    return sample
+
+
+# Random Forest Algorithm
+def random_forest(train, test, max_depth, min_size, sample_size, n_trees, n_features):
+    """random_forest(评估算法性能，返回模型得分)
+
+    Args:
+        train           训练数据集
+        test            测试数据集
+        max_depth       决策树深度不能太深，不然容易导致过拟合
+        min_size        叶子节点的大小
+        sample_size     训练数据集的样本比例
+        n_trees         决策树的个数
+        n_features      选取的特征的个数
+    Returns:
+        predictions     每一行的预测结果，bagging 预测最后的分类结果
+    """
+
+    trees = list()
+    # n_trees 表示决策树的数量
+    for i in range(n_trees):
+        # 随机抽样的训练样本， 随机采样保证了每棵决策树训练集的差异性
+        sample = subsample(train, sample_size)
+        # 创建一个决策树
+        tree = build_tree(sample, max_depth, min_size, n_features)
+        trees.append(tree)
+
+    # 每一行的预测结果，bagging 预测最后的分类结果
+    predictions = [bagging_predict(trees, row) for row in test]
+    return predictions
+
+
+# Calculate accuracy percentage
+def accuracy_metric(actual, predicted):  # 导入实际值和预测值，计算精确度
+    correct = 0
+    for i in range(len(actual)):
+        if actual[i] == predicted[i]:
+            correct += 1
+    return correct / float(len(actual)) * 100.0
+
+
+# 评估算法性能，返回模型得分
+def evaluate_algorithm(dataset, algorithm, n_folds, *args):
+    """evaluate_algorithm(评估算法性能，返回模型得分)
+
+    Args:
+        dataset     原始数据集
+        algorithm   使用的算法
+        n_folds     数据的份数
+        *args       其他的参数
+    Returns:
+        scores      模型得分
+    """
+
+    # 将数据集进行抽重抽样 n_folds 份，数据可以重复重复抽取，每一次 list 的元素是无重复的
+    folds = cross_validation_split(dataset, n_folds)
+    scores = list()
+    # 每次循环从 folds 从取出一个 fold 作为测试集，其余作为训练集，遍历整个 folds ，实现交叉验证
+    for fold in folds:
+        train_set = list(folds)
+        train_set.remove(fold)
+        # 将多个 fold 列表组合成一个 train_set 列表, 类似 union all
+        """
+        In [20]: l1=[[1, 2, 'a'], [11, 22, 'b']]
+        In [21]: l2=[[3, 4, 'c'], [33, 44, 'd']]
+        In [22]: l=[]
+        In [23]: l.append(l1)
+        In [24]: l.append(l2)
+        In [25]: l
+        Out[25]: [[[1, 2, 'a'], [11, 22, 'b']], [[3, 4, 'c'], [33, 44, 'd']]]
+        In [26]: sum(l, [])
+        Out[26]: [[1, 2, 'a'], [11, 22, 'b'], [3, 4, 'c'], [33, 44, 'd']]
+        """
+        train_set = sum(train_set, [])
+        test_set = list()
+        # fold 表示从原始数据集 dataset 提取出来的测试集
+        for row in fold:
+            row_copy = list(row)
+            row_copy[-1] = None
+            test_set.append(row_copy)
+        predicted = algorithm(train_set, test_set, *args)
+        actual = [row[-1] for row in fold]
+
+        # 计算随机森林的预测结果的正确率
+        accuracy = accuracy_metric(actual, predicted)
+        scores.append(accuracy)
+    return scores
+
+
+if __name__ == '__main__':
+
+    # 加载数据
+    dataset = loadDataSet('data/7.RandomForest/sonar-all-data.txt')
+    # print(dataset)
+
+    n_folds = 5        # 分成5份数据，进行交叉验证
+    max_depth = 20     # 调参（自己修改） #决策树深度不能太深，不然容易导致过拟合
+    min_size = 1       # 决策树的叶子节点最少的元素数量
+    sample_size = 1.0  # 做决策树时候的样本的比例
+    # n_features = int((len(dataset[0])-1))
+    n_features = 15     # 调参（自己修改） #准确性与多样性之间的权衡
+    for n_trees in [1, 10, 20]:  # 理论上树是越多越好
+        scores = evaluate_algorithm(dataset, random_forest, n_folds, max_depth, min_size, sample_size, n_trees, n_features)
+        # 每一次执行本文件时都能产生同一个随机数
+        seed(1)
+        print('random=', random())
+        print('Trees: %d' % n_trees)
+        print('Scores: %s' % scores)
+        print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))
diff --git a/机器学习/殷康龙/源代码/ml/8.Regression/regression.py b/机器学习/殷康龙/源代码/ml/8.Regression/regression.py
new file mode 100644
index 00000000..d6b0da07
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/8.Regression/regression.py
@@ -0,0 +1,586 @@
+#!/usr/bin/python
+# coding:utf8
+'''
+Created on Jan 8, 2011
+Update  on 2017-05-18
+Author: Peter Harrington/小瑶
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+from numpy import *
+import matplotlib.pylab as plt
+from time import sleep
+import bs4
+from bs4 import BeautifulSoup
+import json
+import urllib.request   # 在Python3中将urllib2和urllib3合并为一个标准库urllib,其中的urllib2.urlopen更改为urllib.request.urlopen
+
+
+def loadDataSet(fileName):
+    """ 加载数据
+        解析以tab键分隔的文件中的浮点数
+    Returns: 
+        dataMat :   feature 对应的数据集
+        labelMat :  feature 对应的分类标签，即类别标签
+    """
+    # 获取样本特征的总数，不算最后的目标变量
+    numFeat = len(open(fileName).readline().split('\t')) - 1
+    dataMat = []
+    labelMat = []
+    fr = open(fileName)
+    for line in fr.readlines():
+        # 读取每一行
+        lineArr = []
+        # 删除一行中以tab分隔的数据前后的空白符号
+        curLine = line.strip().split('\t')
+        # i 从0到2，不包括2
+        for i in range(numFeat):
+            # 将数据添加到lineArr List中，每一行数据测试数据组成一个行向量
+            lineArr.append(float(curLine[i]))
+            # 将测试数据的输入数据部分存储到dataMat 的List中
+        dataMat.append(lineArr)
+        # 将每一行的最后一个数据，即类别，或者叫目标变量存储到labelMat List中
+        labelMat.append(float(curLine[-1]))
+    return dataMat, labelMat
+
+
+def standRegres(xArr, yArr):
+    '''
+    Description: 
+        线性回归
+    Args:
+        xArr : 输入的样本数据，包含每个样本数据的 feature
+        yArr : 对应于输入数据的类别标签，也就是每个样本对应的目标变量
+    Returns:
+        ws: 回归系数
+    '''
+
+    # mat()函数将xArr，yArr转换为矩阵 mat().T 代表的是对矩阵进行转置操作
+    xMat = mat(xArr)
+    yMat = mat(yArr).T
+    # 矩阵乘法的条件是左矩阵的列数等于右矩阵的行数
+    xTx = xMat.T * xMat
+    # 因为要用到xTx的逆矩阵，所以事先需要确定计算得到的xTx是否可逆，条件是矩阵的行列式不为0
+    # linalg.det() 函数是用来求得矩阵的行列式的，如果矩阵的行列式为0，则这个矩阵是不可逆的，就无法进行接下来的运算
+    if linalg.det(xTx) == 0.0:
+        print("This matrix is singular, cannot do inverse")
+        return
+    # 最小二乘法
+    # http://cwiki.apachecn.org/pages/viewpage.action?pageId=5505133
+    # 书中的公式，求得w的最优解
+    ws = xTx.I * (xMat.T * yMat)
+    return ws
+
+
+def lwlr(testPoint, xArr, yArr, k=1.0):
+    '''
+        Description: 
+            局部加权线性回归，在待预测点附近的每个点赋予一定的权重，在子集上基于最小均方差来进行普通的回归。
+        Args: 
+            testPoint: 样本点
+            xArr: 样本的特征数据，即 feature
+            yArr: 每个样本对应的类别标签，即目标变量
+            k:关于赋予权重矩阵的核的一个参数，与权重的衰减速率有关
+        Returns:
+            testPoint * ws: 数据点与具有权重的系数相乘得到的预测点
+        Notes:
+            这其中会用到计算权重的公式，w = e^((x^((i))-x) / -2k^2)
+            理解: x为某个预测点，x^((i))为样本点，样本点距离预测点越近，贡献的误差越大（权值越大），越远则贡献的误差越小（权值越小）。
+            关于预测点的选取，在我的代码中取的是样本点。其中k是带宽参数，控制w（钟形函数）的宽窄程度，类似于高斯函数的标准差。
+            算法思路: 假设预测点取样本点中的第i个样本点（共m个样本点），遍历1到m个样本点（含第i个），算出每一个样本点与预测点的距离，
+            也就可以计算出每个样本贡献误差的权值，可以看出w是一个有m个元素的向量（写成对角阵形式）。
+    '''
+    # mat() 函数是将array转换为矩阵的函数， mat().T 是转换为矩阵之后，再进行转置操作
+    xMat = mat(xArr)
+    yMat = mat(yArr).T
+    # 获得xMat矩阵的行数
+    m = shape(xMat)[0]
+    # eye()返回一个对角线元素为1，其他元素为0的二维数组，创建权重矩阵weights，该矩阵为每个样本点初始化了一个权重
+    weights = mat(eye((m)))
+    for j in range(m):
+        # testPoint 的形式是 一个行向量的形式
+        # 计算 testPoint 与输入样本点之间的距离，然后下面计算出每个样本贡献误差的权值
+        diffMat = testPoint - xMat[j, :]
+        # k控制衰减的速度
+        weights[j, j] = exp(diffMat * diffMat.T / (-2.0 * k ** 2))
+    # 根据矩阵乘法计算 xTx ，其中的 weights 矩阵是样本点对应的权重矩阵
+    xTx = xMat.T * (weights * xMat)
+    if linalg.det(xTx) == 0.0:
+        print("This matrix is singular, cannot do inverse")
+        return
+    # 计算出回归系数的一个估计
+    ws = xTx.I * (xMat.T * (weights * yMat))
+    return testPoint * ws
+
+
+def lwlrTest(testArr, xArr, yArr, k=1.0):
+    '''
+        Description: 
+            测试局部加权线性回归，对数据集中每个点调用 lwlr() 函数
+        Args: 
+            testArr: 测试所用的所有样本点
+            xArr: 样本的特征数据，即 feature
+            yArr: 每个样本对应的类别标签，即目标变量
+            k: 控制核函数的衰减速率
+        Returns: 
+            yHat: 预测点的估计值
+    '''
+    # 得到样本点的总数
+    m = shape(testArr)[0]
+    # 构建一个全部都是 0 的 1 * m 的矩阵
+    yHat = zeros(m)
+    # 循环所有的数据点，并将lwlr运用于所有的数据点
+    for i in range(m):
+        yHat[i] = lwlr(testArr[i], xArr, yArr, k)
+    # 返回估计值
+    return yHat
+
+
+def lwlrTestPlot(xArr, yArr, k=1.0):
+    '''
+        Description:
+            首先将 X 排序，其余的都与lwlrTest相同，这样更容易绘图
+        Args: 
+            xArr: 样本的特征数据，即 feature
+            yArr: 每个样本对应的类别标签，即目标变量，实际值
+            k: 控制核函数的衰减速率的有关参数，这里设定的是常量值 1
+        Return: 
+            yHat: 样本点的估计值
+            xCopy: xArr的复制
+    '''
+    # 生成一个与目标变量数目相同的 0 向量
+    yHat = zeros(shape(yArr))
+    # 将 xArr 转换为 矩阵形式
+    xCopy = mat(xArr)
+    # 排序
+    xCopy.sort(0)
+    # 开始循环，为每个样本点进行局部加权线性回归，得到最终的目标变量估计值
+    for i in range(shape(xArr)[0]):
+        yHat[i] = lwlr(xCopy[i], xArr, yArr, k)
+    return yHat, xCopy
+
+
+def rssError(yArr, yHatArr):
+    '''
+        Desc:
+            计算分析预测误差的大小
+        Args:
+            yArr: 真实的目标变量
+            yHatArr: 预测得到的估计值
+        Returns:
+            计算真实值和估计值得到的值的平方和作为最后的返回值
+    '''
+    return ((yArr - yHatArr) ** 2).sum()
+
+
+def ridgeRegres(xMat, yMat, lam=0.2):
+    '''
+        Desc: 
+            这个函数实现了给定 lambda 下的岭回归求解。
+            如果数据的特征比样本点还多，就不能再使用上面介绍的的线性回归和局部现行回归了，因为计算 (xTx)^(-1)会出现错误。
+            如果特征比样本点还多（n > m），也就是说，输入数据的矩阵x不是满秩矩阵。非满秩矩阵在求逆时会出现问题。
+            为了解决这个问题，我们下边讲一下: 岭回归，这是我们要讲的第一种缩减方法。
+        Args: 
+            xMat: 样本的特征数据，即 feature
+            yMat: 每个样本对应的类别标签，即目标变量，实际值
+            lam: 引入的一个λ值，使得矩阵非奇异
+        Returns: 
+            经过岭回归公式计算得到的回归系数
+    '''
+
+    xTx = xMat.T * xMat
+    # 岭回归就是在矩阵 xTx 上加一个 λI 从而使得矩阵非奇异，进而能对 xTx + λI 求逆
+    denom = xTx + eye(shape(xMat)[1]) * lam
+    # 检查行列式是否为零，即矩阵是否可逆，行列式为0的话就不可逆，不为0的话就是可逆。
+    if linalg.det(denom) == 0.0:
+        print("This matrix is singular, cannot do inverse")
+        return
+    ws = denom.I * (xMat.T * yMat)
+    return ws
+
+
+def ridgeTest(xArr, yArr):
+    '''
+        Desc: 
+            函数 ridgeTest() 用于在一组 λ 上测试结果
+        Args: 
+            xArr: 样本数据的特征，即 feature
+            yArr: 样本数据的类别标签，即真实数据
+        Returns: 
+            wMat: 将所有的回归系数输出到一个矩阵并返回
+    '''
+
+    xMat = mat(xArr)
+    yMat = mat(yArr).T
+    # 计算Y的均值
+    yMean = mean(yMat, 0)
+    # Y的所有的特征减去均值
+    yMat = yMat - yMean
+    # 标准化 x，计算 xMat 平均值
+    xMeans = mean(xMat, 0)
+    # 然后计算 X的方差
+    xVar = var(xMat, 0)
+    # 所有特征都减去各自的均值并除以方差
+    xMat = (xMat - xMeans) / xVar
+    # 可以在 30 个不同的 lambda 下调用 ridgeRegres() 函数。
+    numTestPts = 30
+    # 创建30 * m 的全部数据为0 的矩阵
+    wMat = zeros((numTestPts, shape(xMat)[1]))
+    for i in range(numTestPts):
+        # exp() 返回 e^x
+        ws = ridgeRegres(xMat, yMat, exp(i - 10))
+        wMat[i, :] = ws.T
+    return wMat
+
+
+def regularize(xMat):  # 按列进行规范化
+    inMat = xMat.copy()
+    inMeans = mean(inMat, 0)  # 计算平均值然后减去它
+    inVar = var(inMat, 0)  # 计算除以Xi的方差
+    inMat = (inMat - inMeans) / inVar
+    return inMat
+
+
+def stageWise(xArr, yArr, eps=0.01, numIt=100):
+    xMat = mat(xArr)
+    yMat = mat(yArr).T
+    yMean = mean(yMat, 0)
+    yMat = yMat - yMean  # 也可以规则化ys但会得到更小的coef
+    xMat = regularize(xMat)
+    m, n = shape(xMat)
+    returnMat = zeros((numIt, n))  # 测试代码删除
+    ws = zeros((n, 1))
+    wsTest = ws.copy()
+    wsMax = ws.copy()
+    for i in range(numIt):
+        print(ws.T)
+        lowestError = inf
+        for j in range(n):
+            for sign in [-1, 1]:
+                wsTest = ws.copy()
+                wsTest[j] += eps * sign
+                yTest = xMat * wsTest
+                rssE = rssError(yMat.A, yTest.A)
+                if rssE < lowestError:
+                    lowestError = rssE
+                    wsMax = wsTest
+        ws = wsMax.copy()
+        returnMat[i, :] = ws.T
+    return returnMat
+
+
+# def scrapePage(inFile, outFile, yr, numPce, origPrc):
+#     fr = open(inFile)
+#     fw = open(outFile, 'a')  # a is append mode writing
+#     soup = BeautifulSoup(fr.read())
+#     i = 1
+#     currentRow = soup.findAll('table', r="%d" % i)
+#     while (len(currentRow) != 0):
+#         title = currentRow[0].findAll('a')[1].text
+#         lwrTitle = title.lower()
+#         if (lwrTitle.find('new') > -1) or (lwrTitle.find('nisb') > -1):
+#             newFlag = 1.0
+#         else:
+#             newFlag = 0.0
+#         soldUnicde = currentRow[0].findAll('td')[3].findAll('span')
+#         if len(soldUnicde) == 0:
+#             print("item #%d did not sell" % i)
+#         else:
+#             soldPrice = currentRow[0].findAll('td')[4]
+#             priceStr = soldPrice.text
+#             priceStr = priceStr.replace('$', '')  # strips out $
+#             priceStr = priceStr.replace(',', '')  # strips out ,
+#             if len(soldPrice) > 1:
+#                 priceStr = priceStr.replace('Free shipping', '')  # strips out Free Shipping
+#             print("%s\t%d\t%s" % (priceStr, newFlag, title))
+#             fw.write("%d\t%d\t%d\t%f\t%s\n" % (yr, numPce, newFlag, origPrc, priceStr))
+#         i += 1
+#         currentRow = soup.findAll('table', r="%d" % i)
+#     fw.close()
+
+
+# --------------------------------------------------------------
+# 预测乐高玩具套装的价格 ------ 最初的版本，因为现在 google 的 api 变化，无法获取数据
+# 故改为了下边的样子，但是需要安装一个 beautifulSoup 这个第三方网页文本解析器，安装很简单，见下边
+# from time import sleep
+# import json
+# 这里特别指出 正确的使用方法为下面的语句使用,from urllib import request 将会报错,具体细节查看官方文档
+# import urllib.request   # 在Python3中将urllib2和urllib等五个模块合并为一个标准库urllib,其中的urllib2.urlopen更改为urllib.request.urlopen
+
+def searchForSet(retX, retY, setNum, yr, numPce, origPrc):
+    sleep(10)
+    myAPIstr = 'AIzaSyD2cR2KFyx12hXu6PFU-wrWot3NXvko8vY'
+    searchURL = 'https://www.googleapis.com/shopping/search/v1/public/products?key=%s&country=US&q=lego+%d&alt=json' % (myAPIstr, setNum)
+    pg = urllib.request.urlopen(searchURL)
+    retDict = json.loads(pg.read())    # 转换为json格式
+    for i in range(len(retDict['items'])):
+        try:
+            currItem = retDict['items'][i]
+            if currItem['product']['condition'] == 'new':
+                newFlag = 1
+            else: newFlag = 0
+            listOfInv = currItem['product']['inventories']
+            for item in listOfInv:
+                sellingPrice = item['price']
+                if  sellingPrice > origPrc * 0.5:
+                    print ("%d\t%d\t%d\t%f\t%f" % (yr,numPce,newFlag,origPrc, sellingPrice))
+                    retX.append([yr, numPce, newFlag, origPrc])
+                    retY.append(sellingPrice)
+        except: print ('problem with item %d' % i)
+
+def setDataCollect(retX, retY):
+    searchForSet(retX, retY, 8288, 2006, 800, 49.99)
+    searchForSet(retX, retY, 10030, 2002, 3096, 269.99)
+    searchForSet(retX, retY, 10179, 2007, 5195, 499.99)
+    searchForSet(retX, retY, 10181, 2007, 3428, 199.99)
+    searchForSet(retX, retY, 10189, 2008, 5922, 299.99)
+    searchForSet(retX, retY, 10196, 2009, 3263, 249.99)
+
+def crossValidation(xArr,yArr,numVal=10):
+    m = len(yArr)                           
+    indexList = range(m)
+    errorMat = zeros((numVal,30))#create error mat 30columns numVal rows创建error mat 30columns numVal 行
+    for i in range(numVal):
+        trainX=[]; trainY=[]
+        testX = []; testY = []
+        random.shuffle(indexList)
+        for j in range(m):#create training set based on first 90% of values in indexList
+                          #基于indexList中的前90%的值创建训练集
+            if j < m*0.9: 
+                trainX.append(xArr[indexList[j]])
+                trainY.append(yArr[indexList[j]])
+            else:
+                testX.append(xArr[indexList[j]])
+                testY.append(yArr[indexList[j]])
+        wMat = ridgeTest(trainX,trainY)    #get 30 weight vectors from ridge
+        for k in range(30):#loop over all of the ridge estimates
+            matTestX = mat(testX); matTrainX=mat(trainX)
+            meanTrain = mean(matTrainX,0)
+            varTrain = var(matTrainX,0)
+            matTestX = (matTestX-meanTrain)/varTrain #regularize test with training params
+            yEst = matTestX * mat(wMat[k,:]).T + mean(trainY)#test ridge results and store
+            errorMat[i,k]=rssError(yEst.T.A,array(testY))
+            #print (errorMat[i,k])
+    meanErrors = mean(errorMat,0)#calc avg performance of the different ridge weight vectors
+    minMean = float(min(meanErrors))
+    bestWeights = wMat[nonzero(meanErrors==minMean)]
+    #can unregularize to get model
+    #when we regularized we wrote Xreg = (x-meanX)/var(x)
+    #we can now write in terms of x not Xreg:  x*w/var(x) - meanX/var(x) +meanY
+    xMat = mat(xArr); yMat=mat(yArr).T
+    meanX = mean(xMat,0); varX = var(xMat,0)
+    unReg = bestWeights/varX
+    print ("the best model from Ridge Regression is:\n",unReg)
+    print ("with constant term: ",-1*sum(multiply(meanX,unReg)) + mean(yMat))
+
+# ----------------------------------------------------------------------------
+# 预测乐高玩具套装的价格 可运行版本，我们把乐高数据存储到了我们的 input 文件夹下，使用 urllib爬取,bs4解析内容
+# 前提: 安装 BeautifulSoup，步骤如下
+# 在这个页面 https://www.crummy.com/software/BeautifulSoup/bs4/download/4.4/ 下载，beautifulsoup4-4.4.1.tar.gz
+# 将下载文件解压，使用 windows 版本的 cmd 命令行，进入解压的包，输入以下两行命令即可完成安装
+# python setup.py build
+# python setup.py install
+# 如果为linux或者mac系统可以直接使用pip进行安装 pip3 install bs4
+# ----------------------------------------------------------------------------
+
+
+# 从页面读取数据，生成retX和retY列表
+def scrapePage(retX, retY, inFile, yr, numPce, origPrc):
+    # 打开并读取HTML文件
+    fr = open(inFile)    # 这里推荐使用with open() 生成器,这样节省内存也可以避免最后忘记关闭文件的问题
+    soup = BeautifulSoup(fr.read())
+    i=1
+    # 根据HTML页面结构进行解析
+    currentRow = soup.findAll('table', r="%d" % i)
+    while(len(currentRow)!=0):
+        currentRow = soup.findAll('table', r="%d" % i)
+        title = currentRow[0].findAll('a')[1].text
+        lwrTitle = title.lower()
+        # 查找是否有全新标签
+        if (lwrTitle.find('new') > -1) or (lwrTitle.find('nisb') > -1):
+            newFlag = 1.0
+        else:
+            newFlag = 0.0
+        # 查找是否已经标志出售，我们只收集已出售的数据
+        soldUnicde = currentRow[0].findAll('td')[3].findAll('span')
+        if len(soldUnicde)==0:
+            print ("item #%d did not sell" % i)
+        else:
+            # 解析页面获取当前价格
+            soldPrice = currentRow[0].findAll('td')[4]
+            priceStr = soldPrice.text
+            priceStr = priceStr.replace('$','') #strips out $
+            priceStr = priceStr.replace(',','') #strips out ,
+            if len(soldPrice)>1:
+                priceStr = priceStr.replace('Free shipping', '')
+            sellingPrice = float(priceStr)
+            # 去掉不完整的套装价格
+            if  sellingPrice > origPrc * 0.5:
+                    print ("%d\t%d\t%d\t%f\t%f" % (yr,numPce,newFlag,origPrc, sellingPrice))
+                    retX.append([yr, numPce, newFlag, origPrc])
+                    retY.append(sellingPrice)
+        i += 1
+        currentRow = soup.findAll('table', r="%d" % i)
+
+'''
+# 依次读取六种乐高套装的数据，并生成数据矩阵        
+def setDataCollect(retX, retY):
+    scrapePage(retX, retY, 'data/8.Regression/setHtml/lego8288.html', 2006, 800, 49.99)
+    scrapePage(retX, retY, 'data/8.Regression/setHtml/lego10030.html', 2002, 3096, 269.99)
+    scrapePage(retX, retY, 'data/8.Regression/setHtml/lego10179.html', 2007, 5195, 499.99)
+    scrapePage(retX, retY, 'data/8.Regression/setHtml/lego10181.html', 2007, 3428, 199.99)
+    scrapePage(retX, retY, 'data/8.Regression/setHtml/lego10189.html', 2008, 5922, 299.99)
+    scrapePage(retX, retY, 'data/8.Regression/setHtml/lego10196.html', 2009, 3263, 249.99)
+# 交叉验证测试岭回归
+def crossValidation(xArr,yArr,numVal=10):
+    # 获得数据点个数，xArr和yArr具有相同长度
+    m = len(yArr)
+    indexList = range(m)
+    errorMat = zeros((numVal,30))
+    # 主循环 交叉验证循环
+    for i in range(numVal):
+        # 随机拆分数据，将数据分为训练集（90%）和测试集（10%）
+        trainX=[]; trainY=[]
+        testX = []; testY = []
+        # 对数据进行混洗操作
+        random.shuffle(indexList)
+        # 切分训练集和测试集
+        for j in range(m):
+            if j < m*0.9: 
+                trainX.append(xArr[indexList[j]])
+                trainY.append(yArr[indexList[j]])
+            else:
+                testX.append(xArr[indexList[j]])
+                testY.append(yArr[indexList[j]])
+        # 获得回归系数矩阵
+        wMat = ridgeTest(trainX,trainY)
+        # 循环遍历矩阵中的30组回归系数
+        for k in range(30):
+            # 读取训练集和数据集
+            matTestX = mat(testX); matTrainX=mat(trainX)
+            # 对数据进行标准化
+            meanTrain = mean(matTrainX,0)
+            varTrain = var(matTrainX,0)
+            matTestX = (matTestX-meanTrain)/varTrain
+            # 测试回归效果并存储
+            yEst = matTestX * mat(wMat[k,:]).T + mean(trainY)
+            # 计算误差
+            errorMat[i,k] = ((yEst.T.A-array(testY))**2).sum()
+    # 计算误差估计值的均值
+    meanErrors = mean(errorMat,0)
+    minMean = float(min(meanErrors))
+    bestWeights = wMat[nonzero(meanErrors==minMean)]
+    # 不要使用标准化的数据，需要对数据进行还原来得到输出结果
+    xMat = mat(xArr); yMat=mat(yArr).T
+    meanX = mean(xMat,0); varX = var(xMat,0)
+    unReg = bestWeights/varX
+    # 输出构建的模型
+    print ("the best model from Ridge Regression is:\n",unReg)
+    print ("with constant term: ",-1*sum(multiply(meanX,unReg)) + mean(yMat))
+
+'''
+
+# test for standRegression
+def regression1():
+    xArr, yArr = loadDataSet("data/8.Regression/data.txt")
+    xMat = mat(xArr)
+    yMat = mat(yArr)
+    ws = standRegres(xArr, yArr)
+    fig = plt.figure()
+    ax = fig.add_subplot(111)  # add_subplot(349)函数的参数的意思是，将画布分成3行4列图像画在从左到右从上到下第9块
+    ax.scatter([xMat[:, 1].flatten()], [yMat.T[:, 0].flatten().A[0]])  # scatter 的x是xMat中的第二列，y是yMat的第一列
+    xCopy = xMat.copy()
+    xCopy.sort(0)
+    yHat = xCopy * ws
+    ax.plot(xCopy[:, 1], yHat)
+    plt.show()
+
+
+def regression2():
+    xArr, yArr = loadDataSet("data/8.Regression/data.txt")
+    yHat = lwlrTest(xArr, xArr, yArr, 0.003)
+    xMat = mat(xArr)
+    srtInd = xMat[:, 1].argsort(0)  # argsort()函数是将x中的元素从小到大排列，提取其对应的index(索引)，然后输出
+    xSort = xMat[srtInd][:, 0, :]
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+    ax.plot(xSort[:, 1], yHat[srtInd])
+    ax.scatter([xMat[:, 1].flatten().A[0]], [mat(yArr).T.flatten().A[0]], s=2, c='red')
+    plt.show()
+
+
+# test for abloneDataSet
+def abaloneTest():
+    '''
+    Desc:
+        预测鲍鱼的年龄
+    Args:
+        None
+    Returns:
+        None
+    '''
+    # 加载数据
+    abX, abY = loadDataSet("data/8.Regression/abalone.txt")
+    # 使用不同的核进行预测
+    oldyHat01 = lwlrTest(abX[0:99], abX[0:99], abY[0:99], 0.1)
+    oldyHat1 = lwlrTest(abX[0:99], abX[0:99], abY[0:99], 1)
+    oldyHat10 = lwlrTest(abX[0:99], abX[0:99], abY[0:99], 10)
+    # 打印出不同的核预测值与训练数据集上的真实值之间的误差大小
+    print("old yHat01 error Size is :", rssError(abY[0:99], oldyHat01.T))
+    print("old yHat1 error Size is :", rssError(abY[0:99], oldyHat1.T))
+    print("old yHat10 error Size is :", rssError(abY[0:99], oldyHat10.T))
+
+    # 打印出 不同的核预测值 与 新数据集（测试数据集）上的真实值之间的误差大小
+    newyHat01 = lwlrTest(abX[100:199], abX[0:99], abY[0:99], 0.1)
+    print("new yHat01 error Size is :", rssError(abY[0:99], newyHat01.T))
+    newyHat1 = lwlrTest(abX[100:199], abX[0:99], abY[0:99], 1)
+    print("new yHat1 error Size is :", rssError(abY[0:99], newyHat1.T))
+    newyHat10 = lwlrTest(abX[100:199], abX[0:99], abY[0:99], 10)
+    print("new yHat10 error Size is :", rssError(abY[0:99], newyHat10.T))
+
+    # 使用简单的 线性回归 进行预测，与上面的计算进行比较
+    standWs = standRegres(abX[0:99], abY[0:99])
+    standyHat = mat(abX[100:199]) * standWs
+    print("standRegress error Size is:", rssError(abY[100:199], standyHat.T.A))
+
+
+# test for ridgeRegression
+def regression3():
+    abX, abY = loadDataSet("data/8.Regression/abalone.txt")
+    ridgeWeights = ridgeTest(abX, abY)
+    fig = plt.figure()
+    ax = fig.add_subplot(111)
+    ax.plot(ridgeWeights)
+    plt.show()
+
+
+# test for stageWise
+def regression4():
+    xArr, yArr = loadDataSet("data/8.Regression/abalone.txt")
+    stageWise(xArr, yArr, 0.01, 200)
+    xMat = mat(xArr)
+    yMat = mat(yArr).T
+    xMat = regularize(xMat)
+    yM = mean(yMat, 0)
+    yMat = yMat - yM
+    weights = standRegres(xMat, yMat.T)
+    print(weights.T)
+
+
+# predict for lego's price
+def regression5():
+    lgX = []
+    lgY = []
+    setDataCollect(lgX, lgY)
+    crossValidation(lgX, lgY, 10)
+
+
+if __name__ == '__main__':
+    # regression1()
+    # regression2()
+    # abaloneTest()
+    # regression3()
+    # regression4()
+    # regression5()
+    pass
+
diff --git a/机器学习/殷康龙/源代码/ml/8.Regression/sklearn-regression-demo.py b/机器学习/殷康龙/源代码/ml/8.Regression/sklearn-regression-demo.py
new file mode 100644
index 00000000..5b5ace2f
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/8.Regression/sklearn-regression-demo.py
@@ -0,0 +1,191 @@
+#!/usr/bin/python
+# coding:utf8
+
+'''
+Created on Jan 8, 2011
+Update  on 2017-05-18
+Author: Peter Harrington/小瑶
+GitHub: https://github.com/apachecn/AiLearning
+'''
+
+
+# Isotonic Regression 等式回归
+print(__doc__)
+
+# Author: Nelle Varoquaux <nelle.varoquaux@gmail.com>
+#         Alexandre Gramfort <alexandre.gramfort@inria.fr>
+# License: BSD
+
+import numpy as np
+import matplotlib.pyplot as plt
+from matplotlib.collections import LineCollection
+
+from sklearn.linear_model import LinearRegression
+from sklearn.isotonic import IsotonicRegression
+from sklearn.utils import check_random_state
+
+n = 100
+x = np.arange(n)
+rs = check_random_state(0)
+y = rs.randint(-50, 50, size=(n,)) + 50. * np.log(1 + np.arange(n))
+
+ir = IsotonicRegression()
+
+y_ = ir.fit_transform(x, y)
+
+lr = LinearRegression()
+lr.fit(x[:, np.newaxis], y)  # 线性回归的 x 需要为 2d
+
+segments = [[[i, y[i]], [i, y_[i]]] for i in range(n)]
+lc = LineCollection(segments, zorder=0)
+lc.set_array(np.ones(len(y)))
+lc.set_linewidths(0.5 * np.ones(n))
+
+fig = plt.figure()
+plt.plot(x, y, 'r.', markersize=12)
+plt.plot(x, y_, 'g.-', markersize=12)
+plt.plot(x, lr.predict(x[:, np.newaxis]), 'b-')
+plt.gca().add_collection(lc)
+plt.legend(('Data', 'Isotonic Fit', 'Linear Fit'), loc='lower right')
+plt.title('Isotonic regression')
+plt.show()
+
+# Kernel ridge regression ( 内核岭回归 )
+
+# 2.1 Comparison of kernel ridge regression and SVR ( 内核岭回归与 SVR 的比较 )
+
+# Authors: Jan Hendrik Metzen <jhm@informatik.uni-bremen.de>
+# License: BSD 3 clause
+
+'''
+from __future__ import division
+import time
+
+import numpy as np
+
+from sklearn.svm import SVR
+from sklearn.model_selection import GridSearchCV
+from sklearn.model_selection import learning_curve
+from sklearn.kernel_ridge import KernelRidge
+import matplotlib.pyplot as plt
+
+rng = np.random.RandomState(0)
+
+# 生成样本数据
+X = 5 * rng.rand(10000, 1)
+y = np.sin(X).ravel()
+
+# 给目标增加噪音
+y[::5] += 3 * (0.5 - rng.rand(X.shape[0] // 5))
+
+X_plot = np.linspace(0, 5, 100000)[:, None]
+
+# Fit regression model ( 拟合 回归 模型 )
+train_size = 100
+svr = GridSearchCV(SVR(kernel='rbf', gamma=0.1), cv=5,
+                   param_grid={"C": [1e0, 1e1, 1e2, 1e3],
+                               "gamma": np.logspace(-2, 2, 5)})
+
+kr = GridSearchCV(KernelRidge(kernel='rbf', gamma=0.1), cv=5,
+                  param_grid={"alpha": [1e0, 0.1, 1e-2, 1e-3],
+                              "gamma": np.logspace(-2, 2, 5)})
+
+t0 = time.time()
+svr.fit(X[:train_size], y[:train_size])
+svr_fit = time.time() - t0
+print("SVR complexity and bandwidth selected and model fitted in %.3f s"
+      % svr_fit)
+
+t0 = time.time()
+kr.fit(X[:train_size], y[:train_size])
+kr_fit = time.time() - t0
+print("KRR complexity and bandwidth selected and model fitted in %.3f s"
+      % kr_fit)
+
+sv_ratio = svr.best_estimator_.support_.shape[0] / train_size
+print("Support vector ratio: %.3f" % sv_ratio)
+
+t0 = time.time()
+y_svr = svr.predict(X_plot)
+svr_predict = time.time() - t0
+print("SVR prediction for %d inputs in %.3f s"
+      % (X_plot.shape[0], svr_predict))
+
+t0 = time.time()
+y_kr = kr.predict(X_plot)
+kr_predict = time.time() - t0
+print("KRR prediction for %d inputs in %.3f s"
+      % (X_plot.shape[0], kr_predict))
+
+# 查看结果
+sv_ind = svr.best_estimator_.support_
+plt.scatter(X[sv_ind], y[sv_ind], c='r', s=50, label='SVR support vectors',
+            zorder=2)
+plt.scatter(X[:100], y[:100], c='k', label='data', zorder=1)
+plt.hold('on')
+plt.plot(X_plot, y_svr, c='r',
+         label='SVR (fit: %.3fs, predict: %.3fs)' % (svr_fit, svr_predict))
+plt.plot(X_plot, y_kr, c='g',
+         label='KRR (fit: %.3fs, predict: %.3fs)' % (kr_fit, kr_predict))
+plt.xlabel('data')
+plt.ylabel('target')
+plt.title('SVR versus Kernel Ridge')
+plt.legend()
+
+# 可视化训练和预测时间
+plt.figure()
+
+# 生成样本数据
+X = 5 * rng.rand(10000, 1)
+y = np.sin(X).ravel()
+y[::5] += 3 * (0.5 - rng.rand(X.shape[0] // 5))
+sizes = np.logspace(1, 4, 7, dtype=np.int)
+for name, estimator in {"KRR": KernelRidge(kernel='rbf', alpha=0.1,
+                                           gamma=10),
+                        "SVR": SVR(kernel='rbf', C=1e1, gamma=10)}.items():
+    train_time = []
+    test_time = []
+    for train_test_size in sizes:
+        t0 = time.time()
+        estimator.fit(X[:train_test_size], y[:train_test_size])
+        train_time.append(time.time() - t0)
+
+        t0 = time.time()
+        estimator.predict(X_plot[:1000])
+        test_time.append(time.time() - t0)
+
+    plt.plot(sizes, train_time, 'o-', color="r" if name == "SVR" else "g",
+             label="%s (train)" % name)
+    plt.plot(sizes, test_time, 'o--', color="r" if name == "SVR" else "g",
+             label="%s (test)" % name)
+
+plt.xscale("log")
+plt.yscale("log")
+plt.xlabel("Train size")
+plt.ylabel("Time (seconds)")
+plt.title('Execution Time')
+plt.legend(loc="best")
+
+# 可视化学习曲线
+plt.figure()
+
+svr = SVR(kernel='rbf', C=1e1, gamma=0.1)
+kr = KernelRidge(kernel='rbf', alpha=0.1, gamma=0.1)
+train_sizes, train_scores_svr, test_scores_svr = \
+    learning_curve(svr, X[:100], y[:100], train_sizes=np.linspace(0.1, 1, 10),
+                   scoring="neg_mean_squared_error", cv=10)
+train_sizes_abs, train_scores_kr, test_scores_kr = \
+    learning_curve(kr, X[:100], y[:100], train_sizes=np.linspace(0.1, 1, 10),
+                   scoring="neg_mean_squared_error", cv=10)
+
+plt.plot(train_sizes, -test_scores_svr.mean(1), 'o-', color="r",
+         label="SVR")
+plt.plot(train_sizes, -test_scores_kr.mean(1), 'o-', color="g",
+         label="KRR")
+plt.xlabel("Train size")
+plt.ylabel("Mean Squared Error")
+plt.title('Learning curves')
+plt.legend(loc="best")
+
+plt.show()
+'''
diff --git a/机器学习/殷康龙/源代码/ml/9.RegTrees/RTSklearn.py b/机器学习/殷康龙/源代码/ml/9.RegTrees/RTSklearn.py
new file mode 100644
index 00000000..42e23b45
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/9.RegTrees/RTSklearn.py
@@ -0,0 +1,105 @@
+#!/usr/bin/python
+# coding:utf8
+
+# '''
+# Created on 2017-03-10
+# Update on 2017-03-10
+# author: jiangzhonglian
+# content: 回归树
+# '''
+
+# print(__doc__)
+
+
+# # Import the necessary modules and libraries
+# import numpy as np
+# from sklearn.tree import DecisionTreeRegressor
+# import matplotlib.pyplot as plt
+
+
+# # Create a random dataset
+# rng = np.random.RandomState(1)
+# X = np.sort(5 * rng.rand(80, 1), axis=0)
+# y = np.sin(X).ravel()
+# print X, '\n\n\n-----------\n\n\n', y
+# y[::5] += 3 * (0.5 - rng.rand(16))
+
+
+# # Fit regression model
+# regr_1 = DecisionTreeRegressor(max_depth=2, min_samples_leaf=5)
+# regr_2 = DecisionTreeRegressor(max_depth=5, min_samples_leaf=5)
+# regr_1.fit(X, y)
+# regr_2.fit(X, y)
+
+
+# # Predict
+# X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
+# y_1 = regr_1.predict(X_test)
+# y_2 = regr_2.predict(X_test)
+
+
+# # Plot the results
+# plt.figure()
+# plt.scatter(X, y, c="darkorange", label="data")
+# plt.plot(X_test, y_1, color="cornflowerblue", label="max_depth=2", linewidth=2)
+# plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
+# plt.xlabel("data")
+# plt.ylabel("target")
+# plt.title("Decision Tree Regression")
+# plt.legend()
+# plt.show()
+
+
+
+
+
+
+
+
+'''
+Created on 2017-03-10
+Update on 2017-03-10
+author: jiangzhonglian
+content: 模型树
+'''
+
+print(__doc__)
+
+# Author: Noel Dawe <noel.dawe@gmail.com>
+#
+# License: BSD 3 clause
+
+# importing necessary libraries
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn.tree import DecisionTreeRegressor
+from sklearn.ensemble import AdaBoostRegressor
+
+# Create the dataset
+rng = np.random.RandomState(1)
+X = np.linspace(0, 6, 100)[:, np.newaxis]
+y = np.sin(X).ravel() + np.sin(6 * X).ravel() + rng.normal(0, 0.1, X.shape[0])
+
+# Fit regression model
+regr_1 = DecisionTreeRegressor(max_depth=4)
+
+regr_2 = AdaBoostRegressor(DecisionTreeRegressor(max_depth=4),
+                          n_estimators=300, random_state=rng)
+
+regr_1.fit(X, y)
+regr_2.fit(X, y)
+
+# Predict
+y_1 = regr_1.predict(X)
+y_2 = regr_2.predict(X)
+
+# Plot the results
+plt.figure()
+plt.scatter(X, y, c="k", label="training samples")
+plt.plot(X, y_1, c="g", label="n_estimators=1", linewidth=2)
+plt.plot(X, y_2, c="r", label="n_estimators=300", linewidth=2)
+plt.xlabel("data")
+plt.ylabel("target")
+plt.title("Boosted Decision Tree Regression")
+plt.legend()
+plt.show()
diff --git a/机器学习/殷康龙/源代码/ml/9.RegTrees/regTrees.py b/机器学习/殷康龙/源代码/ml/9.RegTrees/regTrees.py
new file mode 100644
index 00000000..b9aa17f1
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/9.RegTrees/regTrees.py
@@ -0,0 +1,456 @@
+#!/usr/bin/python
+# coding:utf8
+'''
+Created on Feb 4, 2011
+Update on 2017-05-18
+Tree-Based Regression Methods Source Code for Machine Learning in Action Ch. 9
+Author: Peter Harrington/片刻/小瑶
+GitHub: https://github.com/apachecn/AiLearning
+'''
+print(__doc__)
+from numpy import *
+
+
+# 默认解析的数据是用tab分隔，并且是数值类型
+# general function to parse tab -delimited floats
+def loadDataSet(fileName):
+    """loadDataSet(解析每一行，并转化为float类型)
+        Desc: 该函数读取一个以 tab 键为分隔符的文件，然后将每行的内容保存成一组浮点数
+    Args:
+        fileName 文件名
+    Returns:
+        dataMat 每一行的数据集array类型
+    Raises:
+    """
+    # 假定最后一列是结果值
+    # assume last column is target value
+    dataMat = []
+    fr = open(fileName)
+    for line in fr.readlines():
+        curLine = line.strip().split('\t')
+        #将每行转换成浮点数
+        fltLine = [float(x) for x in curLine]
+        dataMat.append(fltLine)
+    return dataMat
+
+
+def binSplitDataSet(dataSet, feature, value):
+    """binSplitDataSet(将数据集，按照feature列的value进行 二元切分)
+        Description: 在给定特征和特征值的情况下，该函数通过数组过滤方式将上述数据集合切分得到两个子集并返回。
+    Args:
+        dataMat 数据集
+        feature 待切分的特征列
+        value 特征列要比较的值
+    Returns:
+        mat0 小于等于 value 的数据集在左边
+        mat1 大于 value 的数据集在右边
+    Raises:
+    """
+    # # 测试案例
+    # print 'dataSet[:, feature]=', dataSet[:, feature]
+    # print 'nonzero(dataSet[:, feature] > value)[0]=', nonzero(dataSet[:, feature] > value)[0]
+    # print 'nonzero(dataSet[:, feature] <= value)[0]=', nonzero(dataSet[:, feature] <= value)[0]
+
+    # dataSet[:, feature] 取去每一行中，第1列的值(从0开始算)
+    # nonzero(dataSet[:, feature] > value)  返回结果为true行的index下标
+    mat0 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]
+    mat1 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]
+    return mat0, mat1
+
+
+# 返回每一个叶子结点的均值
+# returns the value used for each leaf
+# 我的理解是: regLeaf 是产生叶节点的函数，就是求均值，即用聚类中心点来代表这类数据
+def regLeaf(dataSet):
+    return mean(dataSet[:, -1])
+
+
+# 计算总方差=方差*样本数
+# 我的理解是: 求这组数据的方差，即通过决策树划分，可以让靠近的数据分到同一类中去
+def regErr(dataSet):
+    # shape(dataSet)[0] 表示行数
+    return var(dataSet[:, -1]) * shape(dataSet)[0]
+
+
+# 1.用最佳方式切分数据集
+# 2.生成相应的叶节点
+def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1, 4)):
+    """chooseBestSplit(用最佳方式切分数据集 和 生成相应的叶节点)
+
+    Args:
+        dataSet   加载的原始数据集
+        leafType  建立叶子点的函数
+        errType   误差计算函数(求总方差)
+        ops       [容许误差下降值，切分的最少样本数]。
+    Returns:
+        bestIndex feature的index坐标
+        bestValue 切分的最优值
+    Raises:
+    """
+
+    # ops=(1,4)，非常重要，因为它决定了决策树划分停止的threshold值，被称为预剪枝（prepruning），其实也就是用于控制函数的停止时机。
+    # 之所以这样说，是因为它防止决策树的过拟合，所以当误差的下降值小于tolS，或划分后的集合size小于tolN时，选择停止继续划分。
+    # 最小误差下降值，划分后的误差减小小于这个差值，就不用继续划分
+    tolS = ops[0]
+    # 划分最小 size 小于，就不继续划分了
+    tolN = ops[1]
+    #如果数据集的最后一列所有值相等就退出
+    #dataSet[:, -1].T.tolist()[0] 取数据集的最后一列，转置为行向量，然后转换为list,取该list中的第一个元素。
+    if len(set(dataSet[:, -1].T.tolist()[0])) == 1: # 如果集合size为1，也就是说全部的数据都是同一个类别，不用继续划分。
+        #  exit cond 1
+        return None, leafType(dataSet)
+    # 计算行列值
+    m, n = shape(dataSet)
+    # 无分类误差的总方差和
+    # the choice of the best feature is driven by Reduction in RSS error from mean
+    S = errType(dataSet)
+    # inf 正无穷大
+    bestS, bestIndex, bestValue = inf, 0, 0
+    # 循环处理每一列对应的feature值
+    for featIndex in range(n-1): # 对于每个特征
+        # 下面的一行表示的是将某一列全部的数据转换为行，然后设置为list形式
+        for splitVal in set(dataSet[:, featIndex].T.tolist()[0]):
+            # 对该列进行分组，然后组内的成员的val值进行 二元切分
+            mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)
+            # 判断二元切分的方式的元素数量是否符合预期
+            if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):
+                continue
+            newS = errType(mat0) + errType(mat1)
+            # 如果二元切分，算出来的误差在可接受范围内，那么就记录切分点，并记录最小误差
+            # 如果划分后误差小于 bestS，则说明找到了新的bestS
+            if newS < bestS:
+                bestIndex = featIndex
+                bestValue = splitVal
+                bestS = newS
+    # 判断二元切分的方式的元素误差是否符合预期
+    # if the decrease (S-bestS) is less than a threshold don't do the split
+    if (S - bestS) < tolS:
+        return None, leafType(dataSet)
+    mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
+    # 对整体的成员进行判断，是否符合预期
+    # 如果集合的 size 小于 tolN 
+    if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): # 当最佳划分后，集合过小，也不划分，产生叶节点
+        return None, leafType(dataSet)
+    return bestIndex, bestValue
+
+
+# assume dataSet is NumPy Mat so we can array filtering
+# 假设 dataSet 是 NumPy Mat 类型的，那么我们可以进行 array 过滤
+def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1, 4)):
+    """createTree(获取回归树)
+        Description: 递归函数: 如果构建的是回归树，该模型是一个常数，如果是模型树，其模型师一个线性方程。
+    Args:
+        dataSet      加载的原始数据集
+        leafType     建立叶子点的函数
+        errType      误差计算函数
+        ops=(1, 4)   [容许误差下降值，切分的最少样本数]
+    Returns:
+        retTree    决策树最后的结果
+    """
+    # 选择最好的切分方式:  feature索引值，最优切分值
+    # choose the best split
+    feat, val = chooseBestSplit(dataSet, leafType, errType, ops)
+    # if the splitting hit a stop condition return val
+    # 如果 splitting 达到一个停止条件，那么返回 val
+    if feat is None:
+        return val
+    retTree = {}
+    retTree['spInd'] = feat
+    retTree['spVal'] = val
+    # 大于在右边，小于在左边，分为2个数据集
+    lSet, rSet = binSplitDataSet(dataSet, feat, val)
+    # 递归的进行调用，在左右子树中继续递归生成树
+    retTree['left'] = createTree(lSet, leafType, errType, ops)
+    retTree['right'] = createTree(rSet, leafType, errType, ops)
+    return retTree
+
+
+# 判断节点是否是一个字典
+def isTree(obj):
+    """
+    Desc:
+        测试输入变量是否是一棵树,即是否是一个字典
+    Args:
+        obj -- 输入变量
+    Returns:
+        返回布尔类型的结果。如果 obj 是一个字典，返回true，否则返回 false
+    """
+    return (type(obj).__name__ == 'dict')
+
+
+# 计算左右枝丫的均值
+def getMean(tree):
+    """
+    Desc:
+        从上往下遍历树直到叶节点为止，如果找到两个叶节点则计算它们的平均值。
+        对 tree 进行塌陷处理，即返回树平均值。
+    Args:
+        tree -- 输入的树
+    Returns:
+        返回 tree 节点的平均值
+    """
+    if isTree(tree['right']):
+        tree['right'] = getMean(tree['right'])
+    if isTree(tree['left']):
+        tree['left'] = getMean(tree['left'])
+    return (tree['left']+tree['right'])/2.0
+
+
+# 检查是否适合合并分枝
+def prune(tree, testData):
+    """
+    Desc:
+        从上而下找到叶节点，用测试数据集来判断将这些叶节点合并是否能降低测试误差
+    Args:
+        tree -- 待剪枝的树
+        testData -- 剪枝所需要的测试数据 testData 
+    Returns:
+        tree -- 剪枝完成的树
+    """
+    # 判断是否测试数据集没有数据，如果没有，就直接返回tree本身的均值
+    if shape(testData)[0] == 0:
+        return getMean(tree)
+
+    # 判断分枝是否是dict字典，如果是就将测试数据集进行切分
+    if (isTree(tree['right']) or isTree(tree['left'])):
+        lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])
+    # 如果是左边分枝是字典，就传入左边的数据集和左边的分枝，进行递归
+    if isTree(tree['left']):
+        tree['left'] = prune(tree['left'], lSet)
+    # 如果是右边分枝是字典，就传入左边的数据集和左边的分枝，进行递归
+    if isTree(tree['right']):
+        tree['right'] = prune(tree['right'], rSet)
+
+    # 上面的一系列操作本质上就是将测试数据集按照训练完成的树拆分好，对应的值放到对应的节点
+
+    # 如果左右两边同时都不是dict字典，也就是左右两边都是叶节点，而不是子树了，那么分割测试数据集。
+    # 1. 如果正确 
+    #   * 那么计算一下总方差 和 该结果集的本身不分枝的总方差比较
+    #   * 如果 合并的总方差 < 不合并的总方差，那么就进行合并
+    # 注意返回的结果:  如果可以合并，原来的dict就变为了 数值
+    if not isTree(tree['left']) and not isTree(tree['right']):
+        lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])
+        # power(x, y)表示x的y次方
+        errorNoMerge = sum(power(lSet[:, -1] - tree['left'], 2)) + sum(power(rSet[:, -1] - tree['right'], 2))
+        treeMean = (tree['left'] + tree['right'])/2.0
+        errorMerge = sum(power(testData[:, -1] - treeMean, 2))
+        # 如果 合并的总方差 < 不合并的总方差，那么就进行合并
+        if errorMerge < errorNoMerge:
+            print("merging")
+            return treeMean
+        else:
+            return tree
+    else:
+        return tree
+
+
+# 得到模型的ws系数: f(x) = x0 + x1*featrue1+ x3*featrue2 ...
+# create linear model and return coeficients
+def modelLeaf(dataSet):
+    """
+    Desc:
+        当数据不再需要切分的时候，生成叶节点的模型。
+    Args:
+        dataSet -- 输入数据集
+    Returns:
+        调用 linearSolve 函数，返回得到的 回归系数ws
+    """
+    ws, X, Y = linearSolve(dataSet)
+    return ws
+
+
+# 计算线性模型的误差值
+def modelErr(dataSet):
+    """
+    Desc:
+        在给定数据集上计算误差。
+    Args:
+        dataSet -- 输入数据集
+    Returns:
+        调用 linearSolve 函数，返回 yHat 和 Y 之间的平方误差。
+    """
+    ws, X, Y = linearSolve(dataSet)
+    yHat = X * ws
+    # print corrcoef(yHat, Y, rowvar=0)
+    return sum(power(Y - yHat, 2))
+
+
+ # helper function used in two places
+def linearSolve(dataSet):
+    """
+    Desc:
+        将数据集格式化成目标变量Y和自变量X，执行简单的线性回归，得到ws
+    Args:
+        dataSet -- 输入数据
+    Returns:
+        ws -- 执行线性回归的回归系数 
+        X -- 格式化自变量X
+        Y -- 格式化目标变量Y
+    """
+    m, n = shape(dataSet)
+    # 产生一个关于1的矩阵
+    X = mat(ones((m, n)))
+    Y = mat(ones((m, 1)))
+    # X的0列为1，常数项，用于计算平衡误差
+    X[:, 1: n] = dataSet[:, 0: n-1]
+    Y = dataSet[:, -1]
+
+    # 转置矩阵*矩阵
+    xTx = X.T * X
+    # 如果矩阵的逆不存在，会造成程序异常
+    if linalg.det(xTx) == 0.0:
+        raise NameError('This matrix is singular, cannot do inverse,\ntry increasing the second value of ops')
+    # 最小二乘法求最优解:  w0*1+w1*x1=y
+    ws = xTx.I * (X.T * Y)
+    return ws, X, Y
+
+
+# 回归树测试案例
+# 为了和 modelTreeEval() 保持一致，保留两个输入参数
+def regTreeEval(model, inDat):
+    """
+    Desc:
+        对 回归树 进行预测
+    Args:
+        model -- 指定模型，可选值为 回归树模型 或者 模型树模型，这里为回归树
+        inDat -- 输入的测试数据
+    Returns:
+        float(model) -- 将输入的模型数据转换为 浮点数 返回
+    """
+    return float(model)
+
+
+# 模型树测试案例
+# 对输入数据进行格式化处理，在原数据矩阵上增加第0列，元素的值都是1，
+# 也就是增加偏移值，和我们之前的简单线性回归是一个套路，增加一个偏移量
+def modelTreeEval(model, inDat):
+    """
+    Desc:
+        对 模型树 进行预测
+    Args:
+        model -- 输入模型，可选值为 回归树模型 或者 模型树模型，这里为模型树模型
+        inDat -- 输入的测试数据
+    Returns:
+        float(X * model) -- 将测试数据乘以 回归系数 得到一个预测值 ，转化为 浮点数 返回
+    """
+    n = shape(inDat)[1]
+    X = mat(ones((1, n+1)))
+    X[:, 1: n+1] = inDat
+    # print X, model
+    return float(X * model)
+
+
+# 计算预测的结果
+# 在给定树结构的情况下，对于单个数据点，该函数会给出一个预测值。
+# modelEval是对叶节点进行预测的函数引用，指定树的类型，以便在叶节点上调用合适的模型。
+# 此函数自顶向下遍历整棵树，直到命中叶节点为止，一旦到达叶节点，它就会在输入数据上
+# 调用modelEval()函数，该函数的默认值为regTreeEval()
+def treeForeCast(tree, inData, modelEval=regTreeEval):
+    """
+    Desc:
+        对特定模型的树进行预测，可以是 回归树 也可以是 模型树
+    Args:
+        tree -- 已经训练好的树的模型
+        inData -- 输入的测试数据
+        modelEval -- 预测的树的模型类型，可选值为 regTreeEval（回归树） 或 modelTreeEval（模型树），默认为回归树
+    Returns:
+        返回预测值
+    """
+    if not isTree(tree):
+        return modelEval(tree, inData)
+    if inData[tree['spInd']] <= tree['spVal']:
+        if isTree(tree['left']):
+            return treeForeCast(tree['left'], inData, modelEval)
+        else:
+            return modelEval(tree['left'], inData)
+    else:
+        if isTree(tree['right']):
+            return treeForeCast(tree['right'], inData, modelEval)
+        else:
+            return modelEval(tree['right'], inData)
+
+
+# 预测结果
+def createForeCast(tree, testData, modelEval=regTreeEval):
+    """
+    Desc:
+        调用 treeForeCast ，对特定模型的树进行预测，可以是 回归树 也可以是 模型树
+    Args:
+        tree -- 已经训练好的树的模型
+        inData -- 输入的测试数据
+        modelEval -- 预测的树的模型类型，可选值为 regTreeEval（回归树） 或 modelTreeEval（模型树），默认为回归树
+    Returns:
+        返回预测值矩阵
+    """
+    m = len(testData)
+    yHat = mat(zeros((m, 1)))
+    # print yHat
+    for i in range(m):
+        yHat[i, 0] = treeForeCast(tree, mat(testData[i]), modelEval)
+        # print "yHat==>", yHat[i, 0]
+    return yHat
+
+
+if __name__ == "__main__":
+    # # 测试数据集
+    # testMat = mat(eye(4))
+    # print testMat
+    # print type(testMat)
+    # mat0, mat1 = binSplitDataSet(testMat, 1, 0.5)
+    # print mat0, '\n-----------\n', mat1
+
+    # # 回归树
+    # myDat = loadDataSet('data/9.RegTrees/data1.txt')
+    # # myDat = loadDataSet('data/9.RegTrees/data2.txt')
+    # # print 'myDat=', myDat
+    # myMat = mat(myDat)
+    # # print 'myMat=',  myMat
+    # myTree = createTree(myMat)
+    # print myTree
+
+    # # 1. 预剪枝就是: 提起设置最大误差数和最少元素数
+    # myDat = loadDataSet('data/9.RegTrees/data3.txt')
+    # myMat = mat(myDat)
+    # myTree = createTree(myMat, ops=(0, 1))
+    # print myTree
+
+    # # 2. 后剪枝就是: 通过测试数据，对预测模型进行合并判断
+    # myDatTest = loadDataSet('data/9.RegTrees/data3test.txt')
+    # myMat2Test = mat(myDatTest)
+    # myFinalTree = prune(myTree, myMat2Test)
+    # print '\n\n\n-------------------'
+    # print myFinalTree
+
+    # # --------
+    # # 模型树求解
+    # myDat = loadDataSet('data/9.RegTrees/data4.txt')
+    # myMat = mat(myDat)
+    # myTree = createTree(myMat, modelLeaf, modelErr)
+    # print myTree
+
+    # # 回归树 VS 模型树 VS 线性回归
+    trainMat = mat(loadDataSet('data/9.RegTrees/bikeSpeedVsIq_train.txt'))
+    testMat = mat(loadDataSet('data/9.RegTrees/bikeSpeedVsIq_test.txt'))
+    # # 回归树
+    myTree1 = createTree(trainMat, ops=(1, 20))
+    print(myTree1)
+    yHat1 = createForeCast(myTree1, testMat[:, 0])
+    print("--------------\n")
+    # print yHat1
+    # print "ssss==>", testMat[:, 1]
+    print("回归树:", corrcoef(yHat1, testMat[:, 1],rowvar=0)[0, 1])
+
+    # 模型树
+    myTree2 = createTree(trainMat, modelLeaf, modelErr, ops=(1, 20))
+    yHat2 = createForeCast(myTree2, testMat[:, 0], modelTreeEval)
+    print(myTree2)
+    print("模型树:", corrcoef(yHat2, testMat[:, 1],rowvar=0)[0, 1])
+
+    # 线性回归
+    ws, X, Y = linearSolve(trainMat)
+    print(ws)
+    m = len(testMat[:, 0])
+    yHat3 = mat(zeros((m, 1)))
+    for i in range(shape(testMat)[0]):
+        yHat3[i] = testMat[i, 0]*ws[1, 0] + ws[0, 0]
+    print("线性回归:", corrcoef(yHat3, testMat[:, 1],rowvar=0)[0, 1])
diff --git a/机器学习/殷康龙/源代码/ml/9.RegTrees/sklearn-regressTree-demo.py b/机器学习/殷康龙/源代码/ml/9.RegTrees/sklearn-regressTree-demo.py
new file mode 100644
index 00000000..9829e02a
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/9.RegTrees/sklearn-regressTree-demo.py
@@ -0,0 +1,58 @@
+#!/usr/bin/python
+# coding:utf8
+
+"""
+Created on 2017-07-13
+Updated on 2017-07-13
+RegressionTree: 树回归
+Author: 小瑶
+GitHub: https://github.com/apachecn/AiLearning
+"""
+
+print(__doc__)
+
+# 引入必要的模型和库
+import numpy as np
+from sklearn.tree import DecisionTreeRegressor
+import matplotlib.pyplot as plt
+
+# 创建一个随机的数据集
+# 参考 https://docs.scipy.org/doc/numpy-1.6.0/reference/generated/numpy.random.mtrand.RandomState.html
+rng = np.random.RandomState(1)
+# print 'lalalalala===', rng
+# rand() 是给定形状的随机值，rng.rand(80, 1)即矩阵的形状是 80行，1列
+# sort() 
+X = np.sort(5 * rng.rand(80, 1), axis=0)
+# print 'X=', X
+y = np.sin(X).ravel()
+# print 'y=', y
+y[::5] += 3 * (0.5 - rng.rand(16))
+# print 'yyy=', y
+
+# 拟合回归模型
+# regr_1 = DecisionTreeRegressor(max_depth=2)
+# 保持 max_depth=5 不变，增加 min_samples_leaf=6 的参数，效果进一步提升了
+regr_2 = DecisionTreeRegressor(max_depth=5)
+regr_2 = DecisionTreeRegressor(min_samples_leaf=6)
+# regr_3 = DecisionTreeRegressor(max_depth=4)
+# regr_1.fit(X, y)
+regr_2.fit(X, y)
+# regr_3.fit(X, y)
+
+# 预测
+X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
+# y_1 = regr_1.predict(X_test)
+y_2 = regr_2.predict(X_test)
+# y_3 = regr_3.predict(X_test)
+
+# 绘制结果
+plt.figure()
+plt.scatter(X, y, c="darkorange", label="data")
+# plt.plot(X_test, y_1, color="cornflowerblue", label="max_depth=2", linewidth=2)
+plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
+# plt.plot(X_test, y_3, color="red", label="max_depth=3", linewidth=2)
+plt.xlabel("data")
+plt.ylabel("target")
+plt.title("Decision Tree Regression")
+plt.legend()
+plt.show()
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/ml/9.RegTrees/treeExplore.py b/机器学习/殷康龙/源代码/ml/9.RegTrees/treeExplore.py
new file mode 100644
index 00000000..5d7a0be8
--- /dev/null
+++ b/机器学习/殷康龙/源代码/ml/9.RegTrees/treeExplore.py
@@ -0,0 +1,123 @@
+#!/usr/bin/python
+# coding:utf8
+
+'''
+Created on 2017-03-08
+Update  on 2017-05-18
+Tree-Based Regression Methods Source Code for Machine Learning in Action Ch. 9
+Aauthor: Peter/片刻
+GitHub:  https://github.com/apachecn/AiLearning
+'''
+import regTrees
+from Tkinter import *
+from numpy import *
+
+import matplotlib
+from matplotlib.figure import Figure
+from matplotlib.backends.backend_tkagg import FigureCanvasTkAgg
+matplotlib.use('TkAgg')
+
+
+def test_widget_text(root):
+    mylabel = Label(root, text="helloworld")
+    # 相当于告诉 布局管理器(Geometry Manager),如果不设定位置，默认在 0行0列的位置
+    mylabel.grid()
+
+
+# 最大为误差， 最大子叶节点的数量
+def reDraw(tolS, tolN):
+    # clear the figure
+    reDraw.f.clf()
+    reDraw.a = reDraw.f.add_subplot(111)
+
+    # 检查复选框是否选中
+    if chkBtnVar.get():
+        if tolN < 2:
+            tolN = 2
+        myTree = regTrees.createTree(reDraw.rawDat, regTrees.modelLeaf, regTrees.modelErr, (tolS, tolN))
+        yHat = regTrees.createForeCast(myTree, reDraw.testDat, regTrees.modelTreeEval)
+    else:
+        myTree = regTrees.createTree(reDraw.rawDat, ops=(tolS, tolN))
+        yHat = regTrees.createForeCast(myTree, reDraw.testDat)
+
+    # use scatter for data set
+    reDraw.a.scatter(reDraw.rawDat[:, 0], reDraw.rawDat[:, 1], s=5)
+    # use plot for yHat
+    reDraw.a.plot(reDraw.testDat, yHat, linewidth=2.0, c='red')
+    reDraw.canvas.show()
+
+
+def getInputs():
+    try:
+        tolN = int(tolNentry.get())
+    except:
+        tolN = 10
+        print("enter Integer for tolN")
+        tolNentry.delete(0, END)
+        tolNentry.insert(0, '10')
+    try:
+        tolS = float(tolSentry.get())
+    except:
+        tolS = 1.0
+        print("enter Float for tolS")
+        tolSentry.delete(0, END)
+        tolSentry.insert(0, '1.0')
+    return tolN, tolS
+
+
+# 画新的tree
+def drawNewTree():
+    # #get values from Entry boxes
+    tolN, tolS = getInputs()
+    reDraw(tolS, tolN)
+
+
+def main(root):
+    # 标题
+    Label(root, text="Plot Place Holder").grid(row=0, columnspan=3)
+    # 输入栏1, 叶子的数量
+    Label(root, text="tolN").grid(row=1, column=0)
+    global tolNentry
+    tolNentry = Entry(root)
+    tolNentry.grid(row=1, column=1)
+    tolNentry.insert(0, '10')
+    # 输入栏2, 误差量
+    Label(root, text="tolS").grid(row=2, column=0)
+    global tolSentry
+    tolSentry = Entry(root)
+    tolSentry.grid(row=2, column=1)
+    # 设置输出值
+    tolSentry.insert(0,'1.0')
+
+    # 设置提交的按钮
+    Button(root, text="确定", command=drawNewTree).grid(row=1, column=2, rowspan=3)
+
+    # 设置复选按钮
+    global chkBtnVar
+    chkBtnVar = IntVar()
+    chkBtn = Checkbutton(root, text="Model Tree", variable = chkBtnVar)
+    chkBtn.grid(row=3, column=0, columnspan=2)
+
+    # 退出按钮
+    Button(root, text="退出", fg="black", command=quit).grid(row=1, column=2)
+
+    # 创建一个画板 canvas
+    reDraw.f = Figure(figsize=(5, 4), dpi=100)
+    reDraw.canvas = FigureCanvasTkAgg(reDraw.f, master=root)
+    reDraw.canvas.show()
+    reDraw.canvas.get_tk_widget().grid(row=0, columnspan=3)
+
+    reDraw.rawDat = mat(regTrees.loadDataSet('data/9.RegTrees/sine.txt'))
+    reDraw.testDat = arange(min(reDraw.rawDat[:, 0]), max(reDraw.rawDat[:, 0]), 0.01)
+    reDraw(1.0, 10)
+
+
+if __name__ == "__main__":
+
+    # 创建一个事件
+    root = Tk()
+    # test_widget_text(root)
+    main(root)
+
+    # 启动事件循环
+    root.mainloop()
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/EmotionData.xlsx b/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/EmotionData.xlsx
new file mode 100644
index 00000000..9f4083a2
Binary files /dev/null and b/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/EmotionData.xlsx differ
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/EmotionData的副本.xlsx b/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/EmotionData的副本.xlsx
new file mode 100644
index 00000000..5ae205fd
Binary files /dev/null and b/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/EmotionData的副本.xlsx differ
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/Emotion_acc.png b/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/Emotion_acc.png
new file mode 100644
index 00000000..d40f1a2c
Binary files /dev/null and b/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/Emotion_acc.png differ
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/Emotion_loss.png b/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/Emotion_loss.png
new file mode 100644
index 00000000..8bbb6cc9
Binary files /dev/null and b/机器学习/殷康龙/源代码/tensorflow2.x/Emotion/Emotion_loss.png differ
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/config.py b/机器学习/殷康龙/源代码/tensorflow2.x/config.py
new file mode 100644
index 00000000..c2fd1170
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/config.py
@@ -0,0 +1,37 @@
+# *-* coding:utf-8 *-*
+'''
+@author: 片刻
+@date: 20200428 11:02
+'''
+
+
+class Bert(object):
+    DEBUG = True
+    path_root = "/home/wac/jiangzhonglian"
+    if DEBUG:
+        path_root = "/opt/data/nlp/开源词向量/bert官方版预训练模型"
+
+    dict_path = '%s/chinese_L-12_H-768_A-12/vocab.txt' % path_root
+    path_config = '%s/chinese_L-12_H-768_A-12/bert_config.json' % path_root
+    path_checkpoint = '%s/chinese_L-12_H-768_A-12/bert_model.ckpt' % path_root
+    maxlen = 100
+    path_neg = "Emotion/neg.xlsx"
+    path_pos = "Emotion/pos.xlsx"
+
+
+class Config(object):
+    poetry_file = 'poetry.txt'
+    weight_file = 'poetry_model.h5'
+    data_file = 'Emotion/EmotionData.xlsx'
+    model_file = 'Emotion/EmotionModel.h5'
+    vocab_list = 'Emotion/vocal_list.pkl'
+    word_index = 'Emotion/word_index.pkl'
+    # 根据前六个字预测第七个字
+    max_len = 6
+    batch_size = 512
+    learning_rate = 0.0005
+    pre_num = 3
+    MAX_SEQUENCE_LENGTH = 1000  # 每个文本或者句子的截断长度，只保留1000个单词
+    EMBEDDING_DIM = 60 # 词向量维度
+
+    bert = Bert()
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/overfit_and_underfit.py b/机器学习/殷康龙/源代码/tensorflow2.x/overfit_and_underfit.py
new file mode 100644
index 00000000..a4a553e4
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/overfit_and_underfit.py
@@ -0,0 +1,319 @@
+
+# coding: utf-8
+# # 探索过拟合和欠拟合
+
+# 
+# 与往常一样，此示例中的代码将使用 `tf.keras` API，您可以在TensorFlow [Keras 指南](https://www.tensorflow.org/guide/keras)中了解更多信息。
+# 
+# 在前面的两个示例（对电影评论进行分类和预测燃油效率）中，我们看到了在验证数据上的模型的准确性在经过多个时期的训练后将达到峰值，然后开始下降。
+# 
+# 换句话说，我们的模型将 *过拟合* 训练数据。学习如何应对过拟合很重要。尽管通常可以在*训练集*上达到高精度，但我们真正想要的是开发能够很好地推广到*测试集*（或之前未见的数据）的模型。
+# 
+# 过拟合的反面是*欠拟合*。当测试数据仍有改进空间时，就会发生欠拟合。发生这种情况的原因有很多: 如果模型不够强大，模型过于规范化，或者仅仅是没有经过足够长时间的训练。这意味着网络尚未学习训练数据中的相关模式。
+# 
+# 但是，如果训练时间过长，则模型将开始过拟合并从训练数据中学习无法推广到测试数据的模式。我们需要保持平衡。如下所述，了解如何训练适当的时期是一项有用的技能。
+# 
+# 为了防止过拟合，最好的解决方案是使用更多的训练数据。经过更多数据训练的模型自然会更好地推广。当这不再可能时，下一个最佳解决方案是使用正则化之类的技术。这些因素限制了模型可以存储的信息的数量和类型。如果一个网络只能存储少量模式，那么优化过程将迫使它专注于最突出的模式，这些模式有更好的概括机会。
+# 
+# 在本笔记本中，我们将探讨两种常见的正则化技术（权重正则化和 dropout），并使用它们来改进我们的IMDB电影评论分类笔记本。
+
+
+# In[ ]:
+
+
+from __future__ import absolute_import, division, print_function, unicode_literals
+
+try:
+  # %tensorflow_version only exists in Colab.
+  get_ipython().run_line_magic('tensorflow_version', '2.x')
+except Exception:
+  pass
+import tensorflow as tf
+from tensorflow import keras
+
+import numpy as np
+import matplotlib.pyplot as plt
+
+print(tf.__version__)
+
+
+# ## 下载IMDB数据集
+# 
+# 而不是像以前的笔记本中那样使用embedding，这里我们将对句子进行 multi-hot 编码。 该模型将很快适合训练集。 它将用于演示何时发生过拟合以及如何应对。
+# 
+# 对列表进行 multi-hot 编码意味着将它们变成0和1的向量。 具体来说，这意味着例如将序列 `[3, 5]` 变成10,000维向量，该向量除了索引3和5将是1，其他将是全为零。
+
+# In[ ]:
+
+
+NUM_WORDS = 10000
+
+(train_data, train_labels), (test_data, test_labels) = keras.datasets.imdb.load_data(num_words=NUM_WORDS)
+
+def multi_hot_sequences(sequences, dimension):
+    # Create an all-zero matrix of shape (len(sequences), dimension)
+    results = np.zeros((len(sequences), dimension))
+    for i, word_indices in enumerate(sequences):
+        results[i, word_indices] = 1.0  # set specific indices of results[i] to 1s
+    return results
+
+
+train_data = multi_hot_sequences(train_data, dimension=NUM_WORDS)
+test_data = multi_hot_sequences(test_data, dimension=NUM_WORDS)
+
+
+# 让我们看一下产生的 multi-hot 向量之一。 单词索引按频率排序，因此可以预期在索引零附近有更多的1值，如我们在该图中所看到的: 
+# 
+# 
+# 
+# 
+
+# In[ ]:
+
+
+plt.plot(train_data[0])
+
+
+# ## 证明过拟合
+# 
+# 防止过拟合的最简单方法是减小模型的大小，即减小模型中可学习的参数的数量（由层数和每层单元数确定）。在深度学习中，模型中可学习参数的数量通常称为模型的“容量”。直观地讲，具有更多参数的模型将具有更多的“记忆能力”，因此将能够轻松学习训练样本与其目标之间的完美的字典式映射，这种映射没有任何泛化能力，但是在进行预测时这将是无用的根据以前看不见的数据。
+# 
+# 始终牢记这一点: 深度学习模型往往擅长拟合训练数据，但真正的挑战是泛化而不是拟合。
+# 
+# 另一方面，如果网络的存储资源有限，则将无法轻松地学习映射。为了最大程度地减少损失，它必须学习具有更强预测能力的压缩表示形式。同时，如果您使模型过小，将难以拟合训练数据。 “容量过多”和“容量不足”之间存在平衡。
+# 
+# 不幸的是，没有神奇的公式来确定模型的正确大小或体系结构（根据层数或每层的正确大小）。您将不得不尝试使用一系列不同的体系结构。
+# 
+# 为了找到合适的模型大小，最好从相对较少的图层和参数开始，然后开始增加图层的大小或添加新的图层，直到看到验证损失的收益递减为止。让我们在电影评论分类网络上尝试一下。
+# 
+# 我们将仅使用 `Dense` 层作为基准来创建一个简单的模型，然后创建较小和较大的版本并进行比较。
+# 
+# 
+
+# ### Create a baseline model
+
+# In[ ]:
+
+
+baseline_model = keras.Sequential([
+    # `input_shape` is only required here so that `.summary` works.
+    keras.layers.Dense(16, activation='relu', input_shape=(NUM_WORDS,)),
+    keras.layers.Dense(16, activation='relu'),
+    keras.layers.Dense(1, activation='sigmoid')
+])
+
+baseline_model.compile(optimizer='adam',
+                       loss='binary_crossentropy',
+                       metrics=['accuracy', 'binary_crossentropy'])
+
+baseline_model.summary()
+
+
+# In[ ]:
+
+
+baseline_history = baseline_model.fit(train_data,
+                                      train_labels,
+                                      epochs=20,
+                                      batch_size=512,
+                                      validation_data=(test_data, test_labels),
+                                      verbose=2)
+
+
+# ### 创建 smaller model
+# 
+# 让我们创建一个隐藏单元更少的模型，以与我们刚刚创建的基线模型进行比较: 
+
+# In[ ]:
+
+
+smaller_model = keras.Sequential([
+    keras.layers.Dense(4, activation='relu', input_shape=(NUM_WORDS,)),
+    keras.layers.Dense(4, activation='relu'),
+    keras.layers.Dense(1, activation='sigmoid')
+])
+
+smaller_model.compile(optimizer='adam',
+                      loss='binary_crossentropy',
+                      metrics=['accuracy', 'binary_crossentropy'])
+
+smaller_model.summary()
+
+
+# 并使用相同的数据训练模型: 
+
+# In[ ]:
+
+
+smaller_history = smaller_model.fit(train_data,
+                                    train_labels,
+                                    epochs=20,
+                                    batch_size=512,
+                                    validation_data=(test_data, test_labels),
+                                    verbose=2)
+
+
+# ### 创建 bigger model
+# 
+# 作为练习，您可以创建一个更大的模型，并查看它开始过拟合的速度。 接下来，让我们将具有更大容量的网络添加到此基准网络中，远远超出问题所能保证的范围: 
+
+# In[ ]:
+
+
+bigger_model = keras.models.Sequential([
+    keras.layers.Dense(512, activation='relu', input_shape=(NUM_WORDS,)),
+    keras.layers.Dense(512, activation='relu'),
+    keras.layers.Dense(1, activation='sigmoid')
+])
+
+bigger_model.compile(optimizer='adam',
+                     loss='binary_crossentropy',
+                     metrics=['accuracy','binary_crossentropy'])
+
+bigger_model.summary()
+
+
+# 再次，使用相同的数据训练模型: 
+
+# In[ ]:
+
+
+bigger_history = bigger_model.fit(train_data, train_labels,
+                                  epochs=20,
+                                  batch_size=512,
+                                  validation_data=(test_data, test_labels),
+                                  verbose=2)
+
+
+# ### 绘制训练和验证损失
+# 
+# <!--TODO(markdaoust): This should be a one-liner with tensorboard -->
+# 
+# 实线表示训练损失，而虚线表示验证损失（请记住: 验证损失越小表示模型越好）。 在这里，较小的网络比基准模型开始过度拟合（在6个时期而不是4个周期之后），并且一旦开始过度拟合，其性能下降的速度就会慢得多。
+# 
+
+# In[ ]:
+
+
+def plot_history(histories, key='binary_crossentropy'):
+  plt.figure(figsize=(16,10))
+
+  for name, history in histories:
+    val = plt.plot(history.epoch, history.history['val_'+key],
+                   '--', label=name.title()+' Val')
+    plt.plot(history.epoch, history.history[key], color=val[0].get_color(),
+             label=name.title()+' Train')
+
+  plt.xlabel('Epochs')
+  plt.ylabel(key.replace('_',' ').title())
+  plt.legend()
+
+  plt.xlim([0,max(history.epoch)])
+
+
+plot_history([('baseline', baseline_history),
+              ('smaller', smaller_history),
+              ('bigger', bigger_history)])
+
+
+# 请注意，较大的网络仅在一个时期后就开始过拟合，而且过拟合严重。网络的容量越多，将能够更快地对训练数据进行建模（导致较低的训练损失），但网络越容易过拟合（导致训练和验证损失之间存在较大差异）。
+
+# ## 防止过度拟合的策略
+
+# ### 添加权重正则化
+
+# 您可能熟悉Occam的Razor原理: 给某事两种解释，最可能正确的解释是“最简单”的解释，即假设最少的一种。这也适用于通过神经网络学习的模型: 给定一些训练数据和网络体系结构，可以使用多组权重值（多个模型）来解释数据，并且较简单的模型比复杂的模型不太可能过拟合。
+# 
+# 在这种情况下，“简单模型”是参数值的分布具有较小熵的模型（或如上节所述，具有总共较少参数的模型）。因此，减轻过拟合的一种通用方法是通过仅将网络的权重强制取小的值来对网络的复杂性施加约束，这使得权重值的分布更加“规则”。这称为“权重调整”，它是通过向网络的损失函数中添加与权重较大相关的成本来完成的。以下有两种形式: 
+# 
+# * [L1正则化](https://developers.google.com/machine-learning/glossary/#L1_regularization)，其中增加的成本与权重系数的绝对值成正比（即所谓的“ L1规范” ”）。
+# 
+# * [L2正则化](https://developers.google.com/machine-learning/glossary/#L2_regularization)，其中增加的成本与权重系数的值的平方成正比（即与平方的平方成正比）权重的“ L2规范”。 L2正则化在神经网络中也称为权重衰减。不要让其他名称使您感到困惑: 权重衰减在数学上与L2正则化完全相同。
+# 
+# L1正则化引入稀疏性，以使您的某些权重参数为零。 L2正则化将惩罚权重参数而不使其稀疏，这是L2更为常见的原因之一。
+# 
+# 在 `tf.keras` 中，通过将权重正则化器实例作为关键字参数传递给图层来添加权重正则化。让我们现在添加L2权重正则化。
+
+# In[ ]:
+
+
+l2_model = keras.models.Sequential([
+    keras.layers.Dense(16, kernel_regularizer=keras.regularizers.l2(0.001),
+                       activation='relu', input_shape=(NUM_WORDS,)),
+    keras.layers.Dense(16, kernel_regularizer=keras.regularizers.l2(0.001),
+                       activation='relu'),
+    keras.layers.Dense(1, activation='sigmoid')
+])
+
+l2_model.compile(optimizer='adam',
+                 loss='binary_crossentropy',
+                 metrics=['accuracy', 'binary_crossentropy'])
+
+l2_model_history = l2_model.fit(train_data, train_labels,
+                                epochs=20,
+                                batch_size=512,
+                                validation_data=(test_data, test_labels),
+                                verbose=2)
+
+
+# `l2(0.001)` 表示该层权重矩阵中的每个系数将为网络的总损耗增加 `0.001 * weight_coefficient_value**2`。 请注意，由于此惩罚仅在训练时增加，因此在训练时此网络的损失将比在测试时高得多。
+# 
+# 这是我们的L2正则化惩罚的影响: 
+# 
+
+# In[ ]:
+
+
+plot_history([('baseline', baseline_history),
+              ('l2', l2_model_history)])
+
+
+# 如您所见，即使两个模型具有相同数量的参数，L2正则化模型也比基线模型具有更高的抗过度拟合能力。
+
+# ### 添加 dropout
+# 
+# dropout 是 Hinton 和他在多伦多大学的学生开发的最有效，最常用的神经网络正则化技术之一。应用于图层的辍学包括在训练过程中随机“dropping out”（即设置为零）该图层的许多输出特征。假设在训练过程中，给定的图层通常会为给定的输入样本返回向量  [0.2, 0.5, 1.3, 0.8, 1.1]；应用删除后，此向量将有一些零个条目随机分布，例如 [0, 0.5, 1.3, 0, 1.1]。 “dropout 率”是被清零的特征的一部分。通常设置在0.2到0.5之间。在测试时，不会丢失任何单元，而是将图层的输出值按等于丢失率的比例缩小，以平衡一个活跃的单元（而不是训练时）的事实。
+# 
+# 在tf.keras中，您可以通过Dropout层在网络中引入Dropout，该层将立即应用于该层的输出。
+# 
+# 让我们在IMDB网络中添加两个Dropout层，看看它们在减少过拟合方面的表现如何: 
+
+# In[ ]:
+
+
+dpt_model = keras.models.Sequential([
+    keras.layers.Dense(16, activation='relu', input_shape=(NUM_WORDS,)),
+    keras.layers.Dropout(0.5),
+    keras.layers.Dense(16, activation='relu'),
+    keras.layers.Dropout(0.5),
+    keras.layers.Dense(1, activation='sigmoid')
+])
+
+dpt_model.compile(optimizer='adam',
+                  loss='binary_crossentropy',
+                  metrics=['accuracy','binary_crossentropy'])
+
+dpt_model_history = dpt_model.fit(train_data, train_labels,
+                                  epochs=20,
+                                  batch_size=512,
+                                  validation_data=(test_data, test_labels),
+                                  verbose=2)
+
+
+# In[ ]:
+
+
+plot_history([('baseline', baseline_history),
+              ('dropout', dpt_model_history)])
+
+
+# 添加 dropout 是对基线模型的明显改进。
+# 
+# 回顾一下: 以下是防止神经网络过拟合的最常用方法: 
+# 
+# * 获取更多训练数据
+# * 减少网络容量
+# * 添加权重调整
+# * 添加 dropout
+# 
+# 本指南未涵盖的两个重要方法是数据增强和批处理规范化。
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/poetry.txt b/机器学习/殷康龙/源代码/tensorflow2.x/poetry.txt
new file mode 100644
index 00000000..8806eb9f
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/poetry.txt
@@ -0,0 +1,99 @@
+寒随穷律变，春逐鸟声开。初风飘带柳，晚雪间花梅。碧林青旧竹，绿沼翠新苔。芝田初雁去，绮树巧莺来。
+晚霞聊自怡，初晴弥可喜。日晃百花色，风动千林翠。池鱼跃不同，园鸟声还异。寄言博通者，知予物外志。
+一朝春夏改，隔夜鸟花迁。阴阳深浅叶，晓夕重轻烟。哢莺犹响殿，横丝正网天。珮高兰影接，绶细草纹连。碧鳞惊棹侧，玄燕舞檐前。何必汾阳处，始复有山泉。
+夏律昨留灰，秋箭今移晷。峨嵋岫初出，洞庭波渐起。桂白发幽岩，菊黄开灞涘。运流方可叹，含毫属微理。
+寒惊蓟门叶，秋发小山枝。松阴背日转，竹影避风移。提壶菊花岸，高兴芙蓉池。欲知凉气早，巢空燕不窥。
+爽气浮丹阙，秋光澹紫宫。衣碎荷疏影，花明菊点丛。袍轻低草露，盖侧舞松风。散岫飘云叶，迷路飞烟鸿。砌冷兰凋佩，闺寒树陨桐。别鹤栖琴里，离猿啼峡中。落野飞星箭，弦虚半月弓。芳菲夕雾起，暮色满房栊。
+山亭秋色满，岩牖凉风度。疏兰尚染烟，残菊犹承露。古石衣新苔，新巢封古树。历览情无极，咫尺轮光暮。
+秦川雄帝宅，函谷壮皇居。绮殿千寻起，离宫百雉余。连薨遥接汉，飞观迥凌虚。云日隐层阙，风烟出绮疏。岩廊罢机务，崇文聊驻辇。玉匣启龙图，金绳披凤篆。韦编断仍续，缥帙舒还卷。对此乃淹留，欹案观坟典。移步出词林，停舆欣武宴。雕弓写明月，骏马疑流电。惊雁落虚弦，啼猿悲急箭。阅赏诚多美，于兹乃忘倦。鸣笳临乐馆，眺听欢芳节。急管韵朱弦，清歌凝白雪。彩凤肃来仪，玄鹤纷成列。去兹郑卫声，雅音方可悦。芳辰追逸趣，禁苑信多奇。桥形通汉上，峰势接云危。烟霞交隐映，花鸟自参差。何如肆辙迹，万里赏瑶池。飞盖去芳园，兰桡游翠渚。萍间日彩乱，荷处香风举。桂楫满中川，弦歌振长屿。岂必汾河曲，方为欢宴所。落日双阙昏，回舆九重暮。长烟散初碧，皎月澄轻素。搴幌玩琴书，开轩引云雾。斜汉耿层阁，清风摇玉树。欢乐难再逢，芳辰良可惜。玉酒泛云罍，兰殽陈绮席。千钟合尧禹，百兽谐金石。得志重寸阴，忘怀轻尺璧。建章欢赏夕，二八尽妖妍。罗绮昭阳殿，芬芳玳瑁筵。佩移星正动，扇掩月初圆。无劳上悬圃，即此对神仙。以兹游观极，悠然独长想。披卷览前踪，抚躬寻既往。望古茅茨约，瞻今兰殿广。人道恶高危，虚心戒盈荡。奉天竭诚敬，临民思惠养。纳善察忠谏，明科慎刑赏。六五诚难继，四三非易仰。广待淳化敷，方嗣云亭响。
+塞外悲风切，交河冰已结。瀚海百重波，阴山千里雪。迥戍危烽火，层峦引高节。悠悠卷旆旌，饮马出长城。寒沙连骑迹，朔吹断边声。胡尘清玉塞，羌笛韵金钲。绝漠干戈戢，车徒振原隰。都尉反龙堆，将军旋马邑。扬麾氛雾静，纪石功名立。荒裔一戎衣，灵台凯歌入。
+执契静三边，持衡临万姓。玉彩辉关烛，金华流日镜。无为宇宙清，有美璇玑正。皎佩星连景，飘衣云结庆。戢武耀七德，升文辉九功。烟波澄旧碧，尘火息前红。霜野韬莲剑，关城罢月弓。钱缀榆天合，新城柳塞空。花销葱岭雪，縠尽流沙雾。秋驾转兢怀，春冰弥轸虑。书绝龙庭羽，烽休凤穴戍。衣宵寝二难，食旰餐三惧。翦暴兴先废，除凶存昔亡。圆盖归天壤，方舆入地荒。孔海池京邑，双河沼帝乡。循躬思励己，抚俗愧时康。元首伫盐梅，股肱惟辅弼。羽贤崆岭四，翼圣襄城七。浇俗庶反淳，替文聊就质。已知隆至道，共欢区宇一。
+条风开献节，灰律动初阳。百蛮奉遐赆，万国朝未央。虽无舜禹迹，幸欣天地康。车轨同八表，书文混四方。赫奕俨冠盖，纷纶盛服章。羽旄飞驰道，钟鼓震岩廊。组练辉霞色，霜戟耀朝光。晨宵怀至理，终愧抚遐荒。
+寿丘惟旧迹，酆邑乃前基。粤予承累圣，悬弧亦在兹。弱龄逢运改，提剑郁匡时。指麾八荒定，怀柔万国夷。梯山咸入款，驾海亦来思。单于陪武帐，日逐卫文枇。端扆朝四岳，无为任百司。霜节明秋景，轻冰结水湄。芸黄遍原隰，禾颖积京畿。共乐还乡宴，欢比大风诗。
+代马依朔吹，惊禽愁昔丛。况兹承眷德，怀旧感深衷。积善忻余庆，畅武悦成功。垂衣天下治，端拱车书同。白水巡前迹，丹陵幸旧宫。列筵欢故老，高宴聚新丰。驻跸抚田畯，回舆访牧童。瑞气萦丹阙，祥烟散碧空。孤屿含霜白，遥山带日红。于焉欢击筑，聊以咏南风。
+昔年怀壮气，提戈初仗节。心随朗日高，志与秋霜洁。移锋惊电起，转战长河决。营碎落星沉，阵卷横云裂。一挥氛沴静，再举鲸鲵灵。于兹俯旧原，属目驻华轩。沉沙无故迹，灭灶有残痕。浪霞穿水净，峰雾抱莲昏。世途亟流易，人事殊今昔。长想眺前踪，抚躬聊自适。
+新丰停翠辇，谯邑驻鸣笳。园荒一径断，苔古半阶斜。前池消旧水，昔树发今花。一朝辞此地，四海遂为家。金舆巡白水，玉辇驻新丰。纽落藤披架，花残菊破丛。叶铺荒草蔓，流竭半池空。纫珮兰凋径，舒圭叶翦桐。昔地一蕃内，今宅九围中。架海波澄镜，韬戈器反农。八表文同轨，无劳歌大风。
+慨然抚长剑，济世岂邀名。星旗纷电举，日羽肃天行。遍野屯万骑，临原驻五营。登山麾武节，背水纵神兵。在昔戎戈动，今来宇宙平。
+崤函称地险，襟带壮两京。霜峰直临道，冰河曲绕城。古木参差影，寒猿断续声。冠盖往来合，风尘朝夕惊。高谈先马度，伪晓预鸡鸣。弃繻怀远志，封泥负壮情。别有真人气，安知名不名。
+翠野驻戎轩，卢龙转征旆。遥山丽如绮，长流萦似带。海气百重楼，岩松千丈盖。兹焉可游赏，何必襄城外。
+玄兔月初明，澄辉照辽碣。映云光暂隐，隔树花如缀。魄满桂枝圆，轮亏镜彩缺。临城却影散，带晕重围结。驻跸俯九都，停观妖氛灭。
+碧原开雾隰，绮岭峻霞城。烟峰高下翠，日浪浅深明。斑红妆蕊树，圆青压溜荆。迹岩劳傅想，窥野访莘情。巨川何以济，舟楫伫时英。
+韶光开令序，淑气动芳年。驻辇华林侧，高宴柏梁前。紫庭文珮满，丹墀衮绂连。九夷簉瑶席，五狄列琼筵。娱宾歌湛露，广乐奏钧天。清尊浮绿醑，雅曲韵朱弦。粤余君万国，还惭抚八埏。庶几保贞固，虚己厉求贤。
+未央初壮汉，阿房昔侈秦。在危犹骋丽，居奢遂投人。岂如家四海，日宇罄朝伦。扇天裁户旧，砌地翦基新。引月擎宵桂，飘云逼曙鳞。露除光炫玉，霜阙映雕银。舞接花梁燕，歌迎鸟路尘。镜池波太液，庄苑丽宜春。作异甘泉日，停非路寝辰。念劳惭逸己，居旷返劳神。所欣成大厦，宏材伫渭滨。
+楚王云梦泽，汉帝长杨宫。岂若因农暇，阅武出轘嵩。三驱陈锐卒，七萃列材雄。寒野霜氛白，平原烧火红。雕戈夏服箭，羽骑绿沉弓。怖兽潜幽壑，惊禽散翠空。长烟晦落景，灌木振岩风。所为除民瘼，非是悦林丛。
+烈烈寒风起，惨惨飞云浮。霜浓凝广隰，冰厚结清流。金鞍移上苑，玉勒骋平畴。旌旗四望合，罝罗一面求。楚踣争兕殪，秦亡角鹿愁。兽忙投密树，鸿惊起砾洲。骑敛原尘静，戈回岭日收。心非洛汭逸，意在渭滨游。禽荒非所乐，抚辔更招忧。
+披襟眺沧海，凭轼玩春芳。积流横地纪，疏派引天潢。仙气凝三岭，和风扇八荒。拂潮云布色，穿浪日舒光。照岸花分彩，迷云雁断行。怀卑运深广，持满守灵长。有形非易测，无源讵可量。洪涛经变野，翠岛屡成桑。之罘思汉帝，碣石想秦皇。霓裳非本意，端拱且图王。
+春蒐驰骏骨，总辔俯长河。霞处流萦锦，风前漾卷罗。水花翻照树，堤兰倒插波。岂必汾阴曲，秋云发棹歌。
+重峦俯渭水，碧嶂插遥天。出红扶岭日，入翠贮岩烟。叠松朝若夜，复岫阙疑全。对此恬千虑，无劳访九仙。
+高轩暧春色，邃阁媚朝光。彤庭飞彩旆，翠幌曜明珰。恭己临四极，垂衣驭八荒。霜戟列丹陛，丝竹韵长廊。穆矣熏风茂，康哉帝道昌。继文遵后轨，循古鉴前王。草秀故春色，梅艳昔年妆。巨川思欲济，终以寄舟航。
+凭轩俯兰阁，眺瞩散灵襟。绮峰含翠雾，照日蕊红林。镂丹霞锦岫，残素雪斑岑。拂浪堤垂柳，娇花鸟续吟。连甍岂一拱，众干如千寻。明非独材力，终藉栋梁深。弥怀矜乐志，更惧戒盈心。愧制劳居逸，方规十产金。
+朝光浮烧野，霜华净碧空。结浪冰初镜，在径菊方丛。约岭烟深翠，分旗霞散红。抽思滋泉侧，飞想傅岩中。已获千箱庆，何以继熏风。
+碧昏朝合雾，丹卷暝韬霞。结叶繁云色，凝琼遍雪华。光楼皎若粉，映幕集疑沙。泛柳飞飞絮，妆梅片片花。照璧台圆月，飘珠箔穿露。瑶洁短长阶，玉丛高下树。映桐珪累白，萦峰莲抱素。断续气将沉，徘徊岁云暮。怀珍愧隐德，表瑞伫丰年。蕊间飞禁苑，鹤处舞伊川。傥咏幽兰曲，同欢黄竹篇。
+岭衔宵月桂，珠穿晓露丛。蝉啼觉树冷，萤火不温风。花生圆菊蕊，荷尽戏鱼通。晨浦鸣飞雁，夕渚集栖鸿。飒飒高天吹，氛澄下炽空。
+崇文时驻步，东观还停辇。辍膳玩三坟，晖灯披五典。寒心睹肉林，飞魄看沉湎。纵情昏主多，克己明君鲜。灭身资累恶，成名由积善。既承百王末，战兢随岁转。
+二仪初创象，三才乃分位。非惟树司牧，固亦垂文字。绵代更膺期，芳图无辍记。炎汉承君道，英谟纂神器。潜龙既可跃，逵兔奚难致。前史殚妙词，后昆沉雅思。书言扬盛迹，补阙兴洪志。川谷犹旧途，郡国开新意。梅山未觉朽，谷水谁云异。车服随名表，文物因时置。凤戟翼康衢，銮舆总柔辔。清浊必能澄，洪纤幸无弃。观仪不失序，遵礼方由事。政宣竹律和，时平玉条备。文囿雕奇彩，艺门蕴深致。云飞星共流，风扬月兼至。类禋遵令典，坛壝资良地。五胜竟无违，百司诚有庇。粤予承暇景，谈丛引泉秘。讨论穷义府，看核披经笥。大辨良难仰，小学终先匮。闻道谅知荣，含毫孰忘愧。
+萧条起关塞，摇飏下蓬瀛。拂林花乱彩，响谷鸟分声。披云罗影散，泛水织文生。劳歌大风曲，威加四海清。
+罩云飘远岫，喷雨泛长河。低飞昏岭腹，斜足洒岩阿。泫丛珠缔叶，起溜镜图波。濛柳添丝密，含吹织空罗。
+洁野凝晨曜，装墀带夕晖。集条分树玉，拂浪影泉玑。色洒妆台粉，花飘绮席衣。入扇萦离匣，点素皎残机。
+北阙三春晚，南荣九夏初。黄莺弄渐变，翠林花落余。瀑流还响谷，猿啼自应虚。早荷向心卷，长杨就影舒。此时欢不极，调轸坐相于。
+红轮不暂驻，乌飞岂复停。岑霞渐渐落，溪阴寸寸生。藿叶随光转，葵心逐照倾。晚烟含树色，栖鸟杂流声。
+高轩临碧渚，飞檐迥架空。余花攒镂槛，残柳散雕栊。岸菊初含蕊，园梨始带红。莫虑昆山暗，还共尽杯中。
+结伴戏方塘，携手上雕航。船移分细浪，风散动浮香。游莺无定曲，惊凫有乱行。莲稀钏声断，水广棹歌长。栖乌还密树，泛流归建章。
+华林满芳景，洛阳遍阳春。朱颜含远日，翠色影长津。乔柯啭娇鸟，低枝映美人。昔作园中实，今来席上珍。
+玉衡流桂圃，成蹊正可寻。莺啼密叶外，蝶戏脆花心。丽景光朝彩，轻霞散夕阴。暂顾晖章侧，还眺灵山林。
+岸曲非千里，桥斜异七星。暂低逢辇度，还高值浪惊。水摇文鹢动，缆转锦花萦。远近随轮影，轻重应人行。
+回銮游福地，极目玩芳晨。梵钟交二响，法日转双轮。宝刹遥承露，天花近足春。未佩兰犹小，无丝柳尚新。圆光低月殿，碎影乱风筠。对此留余想，超然离俗尘。
+拂霞疑电落，腾虚状写虹。屈伸烟雾里，低举白云中。纷披乍依迥，掣曳或随风。念兹轻薄质，无翅强摇空。
+阊阖总金鞍，上林移玉辇。野郊怆新别，河桥非旧饯。惨日映峰沉，愁云随盖转。哀笳时断续，悲旌乍舒卷。望望情何极，浪浪泪空泫。无复昔时人，芳春共谁遣。
+凿门初奉律，仗战始临戎。振鳞方跃浪，骋翼正凌风。未展六奇术，先亏一篑功。防身岂乏智，殉命有余忠。
+晦魄移中律，凝暄起丽城。罩云朝盖上，穿露晓珠呈。笑树花分色，啼枝鸟合声。披襟欢眺望，极目畅春情。
+秋日凝翠岭，凉吹肃离宫。荷疏一盖缺，树冷半帷空。侧阵移鸿影，圆花钉菊丛。摅怀俗尘外，高眺白云中。
+斜廊连绮阁，初月照宵帏。塞冷鸿飞疾，园秋蝉噪迟。露结林疏叶，寒轻菊吐滋。愁心逢此节，长叹独含悲。
+菊散金风起，荷疏玉露圆。将秋数行雁，离夏几林蝉。云凝愁半岭，霞碎缬高天。还似成都望，直见峨眉前。爽气澄兰沼，秋风动桂林。露凝千片玉，菊散一丛金。日岫高低影，云空点缀阴。蓬瀛不可望，泉石且娱心。
+雕宫静龙漏，绮阁宴公侯。珠帘烛焰动，绣柱水光浮。云起将歌发，风停与管遒。琐除任多士，端扆竟何忧。
+石鲸分玉溜，劫烬隐平沙。柳影冰无叶，梅心冻有花。寒野凝朝雾，霜天散夕霞。欢情犹未极，落景遽西斜。
+冻云宵遍岭，素雪晓凝华。入牖千重碎，迎风一半斜。不妆空散粉，无树独飘花。萦空惭夕照，破彩谢晨霞。
+暮景斜芳殿，年华丽绮宫。寒辞去冬雪，暖带入春风。阶馥舒梅素，盘花卷烛红。共欢新故岁，迎送一宵中。
+岁阴穷暮纪，献节启新芳。冬尽今宵促，年开明日长。冰消出镜水，梅散入风香。对此欢终宴，倾壶待曙光。
+和气吹绿野，梅雨洒芳田。新流添旧涧，宿雾足朝烟。雁湿行无次，花沾色更鲜。对此欣登岁，披襟弄五弦。
+翠楼含晓雾，莲峰带晚云。玉叶依岩聚，金枝触石分。横天结阵影，逐吹起罗文。非得阳台下，空将惑楚君。
+绮筵移暮景，紫阁引宵烟。隔栋歌尘合，分阶舞影连。声流三处管，响乱一重弦。不似秦楼上，吹箫空学仙。
+残云收翠岭，夕雾结长空。带岫凝全碧，障霞隐半红。仿佛分初月，飘飖度晓风。还因三里处，冠盖远相通。
+兰气已熏宫，新蕊半妆丛。色含轻重雾，香引去来风。拂树浓舒碧，萦花薄蔽红。还当杂行雨，仿佛隐遥空。
+年柳变池台，隋堤曲直回。逐浪丝阴去，迎风带影来。疏黄一鸟弄，半翠几眉开。萦雪临春岸，参差间早梅。
+春晖开紫苑，淑景媚兰场。映庭含浅色，凝露泫浮光。日丽参差影，风传轻重香。会须君子折，佩里作芬芳。
+禁苑春晖丽，花蹊绮树妆。缀条深浅色，点露参差光。向日分千笑，迎风共一香。如何仙岭侧，独秀隐遥芳。
+参差垂玉阙，舒卷映兰宫。珠光摇素月，竹影乱清风。彩散银钩上，文斜桂户中。惟当杂罗绮，相与媚房栊。
+凌晨丽城去，薄暮上林栖。辞枝枝暂起，停树树还低。向日终难托，迎风讵肯迷。只待纤纤手，曲里作宵啼。
+骏骨饮长泾，奔流洒络缨。细纹连喷聚，乱荇绕蹄萦。水光鞍上侧，马影溜中横。翻似天池里，腾波龙种生。
+阶兰凝曙霜，岸菊照晨光。露浓晞晚笑，风劲浅残香。细叶凋轻翠，圆花飞碎黄。还持今岁色，复结后年芳。
+秋露凝高掌，朝光上翠微。参差丽双阙，照耀满重闱。仙驭随轮转，灵乌带影飞。临波光定彩，入隙有圆晖。还当葵霍志，倾叶自相依。
+半月无双影，全花有四时。摧藏千里态，掩抑几重悲。促节萦红袖，清音满翠帷。驶弹风响急，缓曲钏声迟。空余关陇恨，因此代相思。
+驱马出辽阳，万里转旂常。对敌六奇举，临戎八阵张。斩鲸澄碧海，卷雾扫扶桑。昔去兰萦翠，今来桂染芳。云芝浮碎叶，冰镜上朝光。回首长安道，方欢宴柏梁。
+暧暧去尘昏灞岸，飞飞轻盖指河梁。云峰衣结千重叶，雪岫花开几树妆。深悲黄鹤孤舟远，独叹青山别路长。聊将分袂沾巾泪，还用持添离席觞。
+四时运灰琯，一夕变冬春。送寒余雪尽，迎岁早梅新。
+焰听风来动，花开不待春。镇下千行泪，非是为思人。九龙蟠焰动，四照逐花生。即此流高殿，堪持待月明。
+上弦明月半，激箭流星远。落雁带书惊，啼猿映枝转。
+初秋玉露清，早雁出空鸣。隔云时乱影，因风乍含声。
+岸曲丝阴聚，波移带影疏。还将眉里翠，来就镜中舒。
+贞条障曲砌，翠叶贯寒霜。拂牖分龙影，临池待凤翔。
+散影玉阶柳，含翠隐鸣蝉。微形藏叶里，乱响出风前。
+盘根直盈渚，交干横倚天。舒华光四海，卷叶荫三川。
+近谷交萦蕊，遥峰对出莲。径细无全磴，松小未含烟。
+疾风知劲草，板荡识诚臣。勇夫安识义，智者必怀仁。
+太液仙舟迥，西园隐上才。未晓征车度，鸡鸣关早开。
+烟生遥岩隐，月落半崖阴。连山惊鸟乱，隔岫断猿吟。
+醽醁胜兰生，翠涛过玉瓒。千日醉不醒，十年味不败。
+绝域降附天下平，八表无事悦圣情。云披雾敛天地明。登封日观禅云亭，太常具礼方告成。
+雪耻酬百王，除凶报千古。昔乘匹马去，今驱万乘来。近日毛虽暖，闻弦心已惊。
+龙楼光曙景，鲁馆启朝扉。艳日浓妆影，低星降婺辉。玉庭浮瑞色，银榜藻祥徽。云转花萦盖，霞飘叶缀旂。雕轩回翠陌，宝驾归丹殿。鸣珠佩晓衣，镂璧轮开扇。华冠列绮筵，兰醑申芳宴。环阶凤乐陈，玳席珍羞荐。蝶舞袖香新，歌分落素尘。欢凝欢懿戚，庆叶庆初姻。暑阑炎气息，凉早吹疏频。方期六合泰，共赏万年春。
+羽盖飞天汉，凤驾越层峦。俱叹三秋阻，共叙一宵欢。璜亏夜月落，靥碎晓星残。谁能重操杼，纤手濯清澜。霓裳转云路，凤驾俨天潢。亏星凋夜靥，残月落朝璜。促欢今夕促，长离别后长。轻梭聊驻织，掩泪独悲伤。
+温渚停仙跸，丰郊驻晓旌。路曲回轮影，岩虚传漏声。暖溜惊湍驶，寒空碧雾轻。林黄疏叶下，野白曙霜明。眺听良无已，烟霞断续生。
+端居临玉扆，初律启金商。凤阙澄秋色，龙闱引夕凉。野净山气敛，林疏风露长。砌兰亏半影，岩桂发全香。满盖荷凋翠，圆花菊散黄。挥鞭争电烈，飞羽乱星光。柳空穿石碎，弦虚侧月张。怯猿啼落岫，惊雁断分行。斜轮低夕景，归旆拥通庄。
+停轩观福殿，游目眺皇畿。法轮含日转，花盖接云飞。翠烟香绮阁，丹霞光宝衣。幡虹遥合彩，定水迥分晖。萧然登十地，自得会三归。
+日宫开万仞，月殿耸千寻。花盖飞团影，幡虹曳曲阴。绮霞遥笼帐，丛珠细网林。寥廓烟云表，超然物外心。
+今宵冬律尽，来朝丽景新。花余凝地雪，条含暖吹分。绶吐芽犹嫩，冰□已镂津。薄红梅色冷，浅绿柳轻春。送迎交两节，暄寒变一辰。
+屏欲除奢政返淳。（霍王以下和句亡）
+九日正乘秋，三杯兴已周。泛桂迎尊满，吹花向酒浮。长房萸早熟，彭泽菊初收。何藉龙沙上，方得恣淹留。
+四郊秦汉国，八水帝王都。阊阖雄里閈，城阙壮规模。贯渭称天邑，含岐实奥区。金门披玉馆，因此识皇图。
+眷言君失德，骊邑想秦馀。政烦方改篆，愚俗乃焚书。阿房久已灭，阁道遂成墟。欲厌东南气，翻伤掩鲍车。
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/quickstart.py b/机器学习/殷康龙/源代码/tensorflow2.x/quickstart.py
new file mode 100644
index 00000000..855b5509
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/quickstart.py
@@ -0,0 +1,31 @@
+#%%
+# -*- coding: utf-8 -*-
+from __future__ import absolute_import, division, print_function, unicode_literals
+import tensorflow as tf
+
+#%%
+# 载入并准备好 MNIST 数据集
+# 存放地址: /home/xxx/.keras/datasets/mnist.npz
+mnist = tf.keras.datasets.mnist
+(x_train, y_train), (x_test, y_test) = mnist.load_data()
+x_train, x_test = x_train / 255.0, x_test / 255.0
+
+#%%
+# 将模型的各层堆叠起来，以搭建 tf.keras.Sequential 模型。为训练选择优化器和损失函数: 
+model = tf.keras.models.Sequential([
+  tf.keras.layers.Flatten(input_shape=(28, 28)),
+  tf.keras.layers.Dense(128, activation='relu'),
+  tf.keras.layers.Dropout(0.2),
+  tf.keras.layers.Dense(10, activation='softmax')
+])
+
+#%%
+model.compile(optimizer='adam',
+            loss='sparse_categorical_crossentropy',
+            metrics=['accuracy'])
+
+#%%
+# 训练模型
+model.fit(x_train, y_train, epochs=5)
+# 验证模型
+model.evaluate(x_test,  y_test, verbose=2)
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/test.ipynb b/机器学习/殷康龙/源代码/tensorflow2.x/test.ipynb
new file mode 100644
index 00000000..0e44e738
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/test.ipynb
@@ -0,0 +1,190 @@
+{
+ "nbformat": 4,
+ "nbformat_minor": 2,
+ "metadata": {
+  "language_info": {
+   "name": "python",
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "version": "3.6.3"
+  },
+  "orig_nbformat": 2,
+  "file_extension": ".py",
+  "mimetype": "text/x-python",
+  "name": "python",
+  "npconvert_exporter": "python",
+  "pygments_lexer": "ipython3",
+  "version": 3
+ },
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": "/Users/jiangzl/.virtualenvs/python3.6/lib/python3.6/site-packages/h5py/__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`.\n  from ._conv import register_converters as _register_converters\nUsing TensorFlow backend.\n"
+    }
+   ],
+   "source": [
+    "import sys\n",
+    "# 加载自定义包(添加: 中间件)\n",
+    "sys.path.append(\"src/py3.x/tensorflow2.x\")\n",
+    "from text_Emotion import *"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "outfile = \"/opt/data/开源词向量/gensim_word2vec_60/Word60.model\"\n",
+    "# 加载词向量\n",
+    "Word2VecModel = loadMyWord2Vec(outfile)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": "空间的词向量（60 维）: (60,) [ 2.2506642  -1.7324443   0.35593075 -3.7236977  -0.6317619   2.1253817\n -0.8911206   0.61192095 -2.5709946   5.6513844   2.3008282  -4.102604\n -0.61898416 -1.1190889  -6.060641    2.3529105   1.8131357   2.0764832\n -2.102738   -0.414962   -2.0553887   0.37966883 -2.015982   -1.4542716\n  3.191199    0.3265181   0.7307454   1.4761372  -2.2383723   0.925493\n  6.2617674  -1.3852879   0.6405419  -0.5601632  -1.084447    5.689829\n  0.46593904 -2.824275    4.2015862  -0.87934065  1.518804   -1.493514\n -1.9851282  -0.63166183  0.96814466  1.6375747   1.1566993   1.1981301\n  0.7950756  -3.0055897   1.2649575   1.2099069   1.9403213   1.3719954\n  2.6494706   1.8465079  -0.5507954  -2.3987298  -1.8990258  -4.651662  ]\n打印与空间最相近的5个词语:  [('物件', 0.7354965806007385), ('维度', 0.7326242923736572), ('自由空间', 0.7247114181518555), ('拓扑', 0.7112817764282227), ('三维空间', 0.7062257528305054)]\n加载词向量结束..\n"
+    }
+   ],
+   "source": [
+    "embeddings_matrix = load_embeding()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": "--:  [[ 0.          0.          0.         ...  0.          0.\n   0.        ]\n [ 3.6153059   2.63272738 -0.98327219 ...  0.03685202 -0.78566265\n   1.06350613]\n [ 0.21444647  2.58100891  0.08306306 ... -0.43973923 -0.2102039\n  -1.37015963]\n ...\n [-1.07420349  1.90465117  2.2614491  ... -1.90614116 -0.34697708\n  -2.43622112]\n [ 1.53204441  0.60434735 -0.02905927 ... -0.04591536 -0.63762575\n   0.29778937]\n [ 0.20260553  0.03990031 -0.22745971 ... -0.17701624  0.16334218\n   0.06799572]]\n"
+    }
+   ],
+   "source": [
+    "print('--: ', embeddings_matrix)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import re\n",
+    "import os\n",
+    "import keras\n",
+    "import random\n",
+    "import gensim\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "from keras import Model\n",
+    "from keras.models import load_model\n",
+    "from keras.layers import Dropout, Dense, Flatten, Bidirectional, Embedding, GRU, Input\n",
+    "from keras.optimizers import Adam\n",
+    "# 该目录下的 config.py文件， 数据文件是: poetry.txt\n",
+    "from config import Config\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": "空间的词向量（60 维）: (60,) [ 2.2506642  -1.7324443   0.35593075 -3.7236977  -0.6317619   2.1253817\n -0.8911206   0.61192095 -2.5709946   5.6513844   2.3008282  -4.102604\n -0.61898416 -1.1190889  -6.060641    2.3529105   1.8131357   2.0764832\n -2.102738   -0.414962   -2.0553887   0.37966883 -2.015982   -1.4542716\n  3.191199    0.3265181   0.7307454   1.4761372  -2.2383723   0.925493\n  6.2617674  -1.3852879   0.6405419  -0.5601632  -1.084447    5.689829\n  0.46593904 -2.824275    4.2015862  -0.87934065  1.518804   -1.493514\n -1.9851282  -0.63166183  0.96814466  1.6375747   1.1566993   1.1981301\n  0.7950756  -3.0055897   1.2649575   1.2099069   1.9403213   1.3719954\n  2.6494706   1.8465079  -0.5507954  -2.3987298  -1.8990258  -4.651662  ]\n打印与空间最相近的5个词语:  [('物件', 0.7354965806007385), ('维度', 0.7326242923736572), ('自由空间', 0.7247114181518555), ('拓扑', 0.7112817764282227), ('三维空间', 0.7062257528305054)]\n加载词向量结束..\n"
+    },
+    {
+     "ename": "NameError",
+     "evalue": "name 'load_data' is not defined",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mNameError\u001b[0m                                 Traceback (most recent call last)",
+      "\u001b[0;32m<ipython-input-18-afd80ed77829>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0mmodel\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mEmotionModel\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mConfig\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
+      "\u001b[0;32m/opt/git/AiLearning/src/py3.x/tensorflow2.x/text_Emotion.py\u001b[0m in \u001b[0;36m__init__\u001b[0;34m(self, config)\u001b[0m\n\u001b[1;32m     75\u001b[0m             \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mmodel\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0msummary\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     76\u001b[0m         \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 77\u001b[0;31m             \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mtrain\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     78\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     79\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mbuild_model\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0membeddings_matrix\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+      "\u001b[0;32m/opt/git/AiLearning/src/py3.x/tensorflow2.x/text_Emotion.py\u001b[0m in \u001b[0;36mtrain\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    123\u001b[0m         \u001b[0;34m'''训练模型'''\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    124\u001b[0m         \u001b[0membeddings_matrix\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mload_embeding\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 125\u001b[0;31m         \u001b[0mx_train\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0my_train\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mx_val\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0my_val\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mload_data\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    126\u001b[0m         \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mbuild_model\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0membeddings_matrix\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    127\u001b[0m         \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mmodel\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mfit\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mx_train\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0my_train\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mbatch_size\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;36m128\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mepochs\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;36m10\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mvalidation_data\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mx_val\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0my_val\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+      "\u001b[0;31mNameError\u001b[0m: name 'load_data' is not defined"
+     ]
+    }
+   ],
+   "source": [
+    "model = EmotionModel(Config)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 26,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>label</th>\n      <th>comment</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <td>0</td>\n      <td>1</td>\n      <td>距离川沙公路较近,但是公交指示不对,如果是\"蔡陆线\"的话,会非常麻烦.建议用别的路线.房间较...</td>\n    </tr>\n    <tr>\n      <td>1</td>\n      <td>1</td>\n      <td>商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!</td>\n    </tr>\n    <tr>\n      <td>2</td>\n      <td>1</td>\n      <td>早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。</td>\n    </tr>\n    <tr>\n      <td>3</td>\n      <td>1</td>\n      <td>宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...</td>\n    </tr>\n    <tr>\n      <td>4</td>\n      <td>1</td>\n      <td>CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风</td>\n    </tr>\n    <tr>\n      <td>5</td>\n      <td>1</td>\n      <td>总的来说，这样的酒店配这样的价格还算可以，希望他赶快装修，给我的客人留些好的印象</td>\n    </tr>\n    <tr>\n      <td>6</td>\n      <td>1</td>\n      <td>价格比比较不错的酒店。这次免费升级了，感谢前台服务员。房子还好，地毯是新的，比上次的好些。早...</td>\n    </tr>\n    <tr>\n      <td>7</td>\n      <td>1</td>\n      <td>不错，在同等档次酒店中应该是值得推荐的！</td>\n    </tr>\n    <tr>\n      <td>8</td>\n      <td>1</td>\n      <td>入住丽晶，感觉很好。因为是新酒店，的确有淡淡的油漆味，房间内较新。房间大小合适，卫生间设备齐...</td>\n    </tr>\n    <tr>\n      <td>9</td>\n      <td>1</td>\n      <td>1。酒店比较新，装潢和设施还不错，只是房间有些油漆味。2。早餐还可以，只是品种不是很多。3。...</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
+      "text/plain": "   label                                            comment\n0      1  距离川沙公路较近,但是公交指示不对,如果是\"蔡陆线\"的话,会非常麻烦.建议用别的路线.房间较...\n1      1                       商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!\n2      1         早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。\n3      1  宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...\n4      1               CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风\n5      1           总的来说，这样的酒店配这样的价格还算可以，希望他赶快装修，给我的客人留些好的印象\n6      1  价格比比较不错的酒店。这次免费升级了，感谢前台服务员。房子还好，地毯是新的，比上次的好些。早...\n7      1                               不错，在同等档次酒店中应该是值得推荐的！\n8      1  入住丽晶，感觉很好。因为是新酒店，的确有淡淡的油漆味，房间内较新。房间大小合适，卫生间设备齐...\n9      1  1。酒店比较新，装潢和设施还不错，只是房间有些油漆味。2。早餐还可以，只是品种不是很多。3。..."
+     },
+     "execution_count": 26,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df = pd.read_excel(\"src/py3.x/tensorflow2.x/EmotionData.xlsx\", header=0, error_bad_lines=False, encoding=\"utf_8_sig\")\n",
+    "df.head(10)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 30,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": "[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]"
+     },
+     "execution_count": 30,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "y = df[\"label\"].tolist()\n",
+    "y[:10]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "\n",
+    "def func(line, ngrams=[]):\n",
+    "    # 加入我们的组合词，保证分词的准确性\n",
+    "        \n",
+    "    if ngrams != []:\n",
+    "        for word in ngrams:\n",
+    "            jieba.add_word(\"\".join(word.lower()))\n",
+    "    # # 将文本 ['1, 2, 3', '1, 2, .., n'] 分解为: [[1, 2, 3], [1, 2, .., n]]\n",
+    "    words = [word for word in jieba.cut(str(line).lower(), cut_all=False)]\n",
+    "    # print(\">>> \", train)\n",
+    "    return \" \".join(words)\n",
+    "x = df[\"comment\"].apply(lambda line: func(line))\n"
+   ]
+  }
+ ]
+}
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/text_Emotion.py b/机器学习/殷康龙/源代码/tensorflow2.x/text_Emotion.py
new file mode 100644
index 00000000..b7df9dd9
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/text_Emotion.py
@@ -0,0 +1,260 @@
+# *-* coding:utf-8 *-*
+# 词向量: 
+#   https://www.cnblogs.com/Darwin2000/p/5786984.html
+# 数据集:
+#   https://blog.csdn.net/alip39/article/details/95891321
+# 参考代码:
+#   https://blog.csdn.net/u012052268/article/details/90238282
+# Attention:
+#   https://github.com/philipperemy/keras-attention-mechanism
+import re
+import os
+import keras
+import random
+import gensim
+import numpy as np
+import pandas as pd
+import jieba
+from sklearn.model_selection import train_test_split
+from keras import Model
+from keras.models import load_model
+from keras.layers.normalization import BatchNormalization
+from keras.layers import Dropout, Dense, Flatten, Bidirectional, Embedding, GRU, Input, multiply
+"""
+# padding: pre(默认) 向前补充0  post 向后补充0
+# truncating: 文本超过 pad_num,  pre(默认) 删除前面  post 删除后面
+# x_train = pad_sequences(x, maxlen=pad_num, value=0, padding='post', truncating="post")
+# print("--- ", x_train[0][:20])
+"""
+from keras.preprocessing.sequence import pad_sequences
+from keras.utils.np_utils import to_categorical
+from keras.optimizers import Adam
+from config import Config
+import pickle
+import matplotlib.pyplot as plt
+
+
+# 存储模型: 持久化
+def load_pkl(filename):
+    with open(filename, 'rb') as fr:
+        model = pickle.load(fr)
+    return model
+
+
+def save_pkl(model, filename):
+    with open(filename, 'wb') as fw:
+        pickle.dump(model, fw)
+
+
+## 训练自己的词向量，并保存。
+def trainWord2Vec(infile, outfile):
+    sentences =  gensim.models.word2vec.LineSentence(infile) # 读取分词后的 文本
+    model = gensim.models.Word2Vec(sentences, size=100, window=5, min_count=1, workers=4) # 训练模型
+    model.save(outfile)
+
+
+def loadMyWord2Vec(outfile):
+    # 导入 预训练的词向量
+    Word2VecModel = gensim.models.Word2Vec.load(outfile)
+    return Word2VecModel
+
+
+def load_embeding():
+    # 训练词向量(用空格隔开的文本)
+    infile = "./CarCommentAll_cut.csv"
+    outfile = "/opt/data/nlp/开源词向量/gensim_word2vec_60/Word60.model"
+    # trainWord2Vec(infile, outfile)
+    # 加载词向量
+    Word2VecModel = loadMyWord2Vec(outfile)
+
+    print('空间的词向量（60 维）:', Word2VecModel.wv['空间'].shape, Word2VecModel.wv['空间'])
+    print('打印与空间最相近的5个词语: ', Word2VecModel.wv.most_similar('空间', topn=5))
+
+    ## 2 构造包含所有词语的 list，以及初始化 “词语-序号”字典 和 “词向量”矩阵
+    vocab_list = [word for word, Vocab in Word2VecModel.wv.vocab.items()]# 存储 所有的 词语
+
+    word_index = {" ": 0}# 初始化 `[word : token]` ，后期 tokenize 语料库就是用该词典。
+    word_vector = {} # 初始化`[word : vector]`字典
+
+    # 初始化存储所有向量的大矩阵，留意其中多一位（首行），词向量全为 0，用于 padding补零。
+    # 行数 为 所有单词数+1 比如 10000+1 ； 列数为 词向量“维度”比如60。
+    embeddings_matrix = np.zeros((len(vocab_list) + 1, Word2VecModel.vector_size))
+
+    ## 3 填充 上述 的字典 和 大矩阵
+    for i in range(len(vocab_list)):
+        # print(i)
+        word = vocab_list[i]  # 每个词语
+        word_index[word] = i + 1 # 词语: 序号
+        word_vector[word] = Word2VecModel.wv[word] # 词语: 词向量
+        embeddings_matrix[i + 1] = Word2VecModel.wv[word]  # 词向量矩阵
+    print("加载词向量结束..")
+    return vocab_list, word_index, embeddings_matrix
+
+
+def plot_history(history):
+    history_dict = history.history
+    print(history_dict.keys())
+    acc = history_dict['accuracy']
+    val_acc = history_dict['val_accuracy']
+    loss = history_dict['loss']
+    val_loss = history_dict['val_loss']
+    epochs = range(1, len(acc) + 1)
+    # “bo”代表 "蓝点"
+    plt.plot(epochs, loss, 'bo', label='Training loss')
+    # b代表“蓝色实线”
+    plt.plot(epochs, val_loss, 'b', label='Validation loss')
+    plt.title('Training and validation loss')
+    plt.xlabel('Epochs')
+    plt.ylabel('Loss')
+    plt.legend()
+    plt.savefig('Emotion_loss.png')
+    # plt.show()
+
+    plt.clf()   # 清除数字
+
+    plt.plot(epochs, acc, 'bo', label='Training acc')
+    plt.plot(epochs, val_acc, 'b', label='Validation acc')
+    plt.title('Training and validation accuracy')
+    plt.xlabel('Epochs')
+    plt.ylabel('Accuracy')
+    plt.legend()
+    plt.savefig('Emotion_acc.png')
+    # plt.show()
+
+
+class EmotionModel(object):
+    def __init__(self, config):
+        self.model = None
+        self.config = config
+        self.pre_num = self.config.pre_num
+        self.data_file = self.config.data_file
+        self.vocab_list = self.config.vocab_list
+        self.word_index = self.config.word_index
+        self.EMBEDDING_DIM = self.config.EMBEDDING_DIM
+        self.MAX_SEQUENCE_LENGTH = self.config.MAX_SEQUENCE_LENGTH
+
+        # 如果模型文件存在则直接加载模型，否则开始训练
+        if os.path.exists(self.config.model_file):
+            self.model = load_model(self.config.model_file)
+            self.model.summary()
+        else:
+            self.train()
+
+    def build_model(self, embeddings_matrix):
+        ## 4 在 keras的Embedding层中使用 预训练词向量
+        embedding_layer = Embedding(
+            input_dim = len(embeddings_matrix), # 字典长度
+            output_dim = self.EMBEDDING_DIM, # 词向量 长度（60）
+            weights = [embeddings_matrix], # 重点: 预训练的词向量系数
+            input_length = self.MAX_SEQUENCE_LENGTH, # 每句话的 最大长度（必须padding） 
+            trainable = False # 是否在 训练的过程中 更新词向量
+        )
+        # 如果不加载外界的，可以自己训练
+        # 可以看出在使用 Keras的中Embedding层时候，不指定参数 weights=[embeddings_matrix] 即可自动生成词向量。
+        # embedding_layer = Embedding(
+        #     input_dim = len(word_index) + 1, # 由于 没有预训练，设置+1 
+        #     output_dim = EMBEDDING_DIM, # 设置词向量的维度
+        #     input_length=MAX_SEQUENCE_LENGTH
+        # ) #设置句子的最大长度
+        print("开始训练模型.....")
+        sequence_input = Input(shape=(self.MAX_SEQUENCE_LENGTH,), dtype='int32')  # 返回一个张量，长度为1000，也就是模型的输入为batch_size*1000
+        embedded_sequences = embedding_layer(sequence_input)  # 返回batch_size*1000*100
+        # 添加 注意力(本质上是通过加入  一个随机向量 作为 权重 来优化 输入的值 - 与全链接不同的是，这个还会作为输入项 和 输入做点乘 )
+        attention_probs = Dense(self.EMBEDDING_DIM, activation='softmax', name='attention_probs')(embedded_sequences)
+        attention_mul = multiply([embedded_sequences, attention_probs], name='attention_mul')
+        x = Bidirectional(GRU(self.EMBEDDING_DIM, return_sequences=True, dropout=0.5))(attention_mul)
+        x = Dropout(0.5)(x)
+        x = Flatten()(x)
+        # x = BatchNormalization()(x)
+        preds = Dense(self.pre_num, activation='softmax')(x)
+        self.model = Model(sequence_input, preds)
+        # 设置优化器
+        optimizer = Adam(lr=self.config.learning_rate, beta_1=0.95, beta_2=0.999,epsilon=1e-08)
+        self.model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
+        self.model.summary()
+
+    def load_word2jieba(self):
+        vocab_list = load_pkl(self.vocab_list)
+        if vocab_list != []:
+            print("加载词的总量: ", len(vocab_list))
+            for word in vocab_list:
+                jieba.add_word(word)
+
+    def predict(self, line):
+        '''预测'''
+        word_index = load_pkl(self.word_index)
+        STOPWORDS = ["-", "\t", "\n", ".", "。", ",", "，", ";", "!", "！", "?", "？", "%"]
+        words = [word for word in jieba.cut(str(line), cut_all=False) if word not in STOPWORDS]
+        indexs = [word_index.get(word, 0) for word in words]
+        x_pred = pad_sequences([indexs], maxlen=self.MAX_SEQUENCE_LENGTH)
+        res = self.model.predict(x_pred, verbose=0)[0]
+        return res
+
+    def load_data(self, word_index, vocab_list, test_size=0.25):
+        STOPWORDS = ["-", "\t", "\n", ".", "。", ",", "，", ";", "!", "！", "?", "？", "%"]
+        if vocab_list != []:
+            for word in vocab_list:
+                jieba.add_word(word)
+
+        def func(line):
+            # 将文本 ['1, 2, 3', '1, 2, .., n'] 分解为: [[1, 2, 3], [1, 2, .., n]]
+            words = [word for word in jieba.cut(str(line), cut_all=False) if word not in STOPWORDS]
+            indexs = [word_index.get(word, 0) for word in words]
+            return indexs
+
+        df = pd.read_excel(self.data_file, header=0, error_bad_lines=False, encoding="utf_8_sig")
+        x = df["comment"].apply(lambda line: func(line)).tolist()
+        x = pad_sequences(x, maxlen=self.MAX_SEQUENCE_LENGTH)
+        y = df["label"].tolist()
+        # 按照大小和顺序，生成 label(0,1,2...自然数类型)
+        """
+        In [7]: to_categorical(np.asarray([1,1,0,1,3]))
+        Out[7]:
+        array([[0., 1., 0., 0.],
+            [0., 1., 0., 0.],
+            [1., 0., 0., 0.],
+            [0., 1., 0., 0.],
+            [0., 0., 0., 1.]], dtype=float32)
+        """
+        y = to_categorical(np.asarray(y))
+        x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=test_size, random_state=10000)
+        return (x_train, y_train), (x_test, y_test) 
+
+    def train(self):
+        '''训练模型'''
+        vocab_list, word_index, embeddings_matrix = load_embeding()
+        save_pkl(vocab_list, self.vocab_list)
+        save_pkl(word_index, self.word_index)
+        (x_train, y_train), (x_test, y_test) = self.load_data(word_index, vocab_list)
+        print("---------")
+        print(x_train[:3], "\n", y_train[:3])
+        print("\n")
+        print(x_test[:3], "\n", y_test[:3])
+        print("---------")
+        self.build_model(embeddings_matrix)
+
+        # 画相关的 loss 和 accuracy=(预测正确-正or负/总预测的)
+        history = self.model.fit(x_train, y_train, batch_size=60, epochs=40, validation_split=0.2, verbose=0)
+        plot_history(history)
+
+        # self.model.fit(x_train, y_train, batch_size=60, epochs=40)
+        self.model.evaluate(x_test, y_test, verbose=2)
+        self.model.save(self.config.model_file)
+
+
+if __name__ == '__main__':
+    # 测试加载外界word2vec词向量
+    # vocab_list, word_index, embeddings_matrix = load_embeding()
+    model = EmotionModel(Config)
+    status = False
+    while 1:
+        text = input("text:")
+        if text in ["exit", "quit"]:
+            break
+        # 首次启动加载jieba词库
+        if not status:
+            model.load_word2jieba()
+            status = True
+        res = model.predict(text)
+        label_dic = {0:"消极的", 1:"中性的", 2:"积极的"}
+        print(res, " : ", label_dic[np.argmax(res)])
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/text_PoetryModel.py b/机器学习/殷康龙/源代码/tensorflow2.x/text_PoetryModel.py
new file mode 100644
index 00000000..62ed4d62
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/text_PoetryModel.py
@@ -0,0 +1,178 @@
+# *-* coding:utf-8 *-*
+'''
+代码参考: https://github.com/ioiogoo/poetry_generator_Keras
+做了一定的简化，作者 @ioiogoo 协议是 MIT
+目标: 自动生成歌词的
+'''
+import re
+import os
+import keras
+import random
+import numpy as np
+from keras.callbacks import LambdaCallback
+from keras.models import load_model
+from keras.layers import Dropout, Dense, Flatten, Bidirectional, Embedding, GRU
+from keras.optimizers import Adam
+# 该目录下的 config.py文件， 数据文件是: poetry.txt
+from config import Config
+
+
+def preprocess_file(Config):
+    # 读取文本内容，合并到一个大字符中，用 ] 隔开
+    files_content = ''
+    with open(Config.poetry_file, 'r', encoding='utf-8') as f:
+        for line in f:
+            # 每行的末尾加上"]"符号代表一首诗结束
+            line = re.sub(r"[\]\[（）(){}《》: ]+", "", line.strip())
+            files_content += line + "]"
+    
+    # 按照字存到字典中，字+频率
+    words = [i for i in sorted(list(files_content)) if i != "]"]
+    counted_words = {}
+    for word in words:
+        if word in counted_words:
+            counted_words[word] += 1
+        else:
+            counted_words[word] = 1
+
+    # 去掉低频的字
+    # [('。', 567), ('，', 565), ('风', 47), ('花', 42), ('云', 40)]
+    wordPairs = sorted([(k,v) for k,v in counted_words.items() if v>=2], key=lambda  x: x[1], reverse=True)
+    # print(wordPairs)
+
+    words, _ = zip(*wordPairs)
+    # word到id的映射
+    word2num = dict((c, i) for i, c in enumerate(words))
+    num2word = dict((i, c) for i, c in enumerate(words))
+    word2numF = lambda x: word2num.get(x, 0)
+    return word2numF, num2word, words, files_content
+
+
+class PoetryModel(object):
+    def __init__(self, config):
+        self.model = None
+        self.do_train = True
+        self.loaded_model = False
+        self.config = config
+
+        # 文件预处理
+        self.word2numF, self.num2word, self.words, self.files_content = preprocess_file(self.config)
+
+        # 如果模型文件存在则直接加载模型，否则开始训练
+        if os.path.exists(self.config.weight_file):
+            self.model = load_model(self.config.weight_file)
+            self.model.summary()
+        else:
+            self.train()
+
+        self.do_train = False
+        self.loaded_model = True
+
+    def build_model(self):
+        '''构建模型'''
+        model = keras.Sequential()
+        model.add(Embedding(len(self.num2word) + 2, 300, input_length=self.config.max_len))
+        model.add(Bidirectional(GRU(128, return_sequences=True)))
+        model.add(Dropout(0.6))
+        model.add(Flatten())
+        model.add(Dense(len(self.words), activation='softmax'))
+        # 设置优化器
+        optimizer = Adam(lr=self.config.learning_rate)
+        model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
+        self.model = model
+
+    def predict(self, text):
+        '''根据给出的文字，生成诗句'''
+        if not self.loaded_model:
+            return
+        with open(self.config.poetry_file, 'r', encoding='utf-8') as f:
+            file_list = f.readlines()
+        random_line = random.choice(file_list)
+        # 如果给的text不到四个字，则随机补全
+        if not text or len(text) != 4:
+            for _ in range(4 - len(text)):
+                random_str_index = random.randrange(0, len(self.words))
+                text += self.num2word.get(random_str_index) \
+                        if self.num2word.get(random_str_index) not in [',', '。', '，'] \
+                        else self.num2word.get(random_str_index + 1)
+
+        seed = random_line[-(self.config.max_len):-1]
+
+        res = ''
+        seed = 'c' + seed
+
+        for c in text:
+            seed = seed[1:] + c
+            for j in range(5):
+                x_pred = np.zeros((1, self.config.max_len))
+                for t, char in enumerate(seed):
+                    x_pred[0, t] = self.word2numF(char)
+
+                preds = self.model.predict(x_pred, verbose=0)[0]
+                next_index = self.sample(preds, 1.0)
+                next_char = self.num2word[next_index]
+                seed = seed[1:] + next_char
+            res += seed
+        return res
+
+    def data_generator(self):
+        '''生成器生成数据'''
+        i = 0
+        while 1:
+            # 如果越界了，就从0再开始
+            if (i + self.config.max_len) > len(self.files_content) -1 :
+                i = 0
+            x = self.files_content[i: i + self.config.max_len]
+            y = self.files_content[i + self.config.max_len]
+
+            puncs = [']', '[', '（', '）', '{', '}', ': ', '《', '》', ':']
+            if len([i for i in puncs if i in x]) != 0:
+                i += 1
+                continue
+            if len([i for i in puncs if i in y]) != 0:
+                i += 1
+                continue
+
+            y_vec = np.zeros(
+                shape=(1, len(self.words)),
+                dtype=np.bool
+            )
+            y_vec[0, self.word2numF(y)] = 1.0
+
+            x_vec = np.zeros(
+                shape=(1, self.config.max_len),
+                dtype=np.int32
+            )
+
+            for t, char in enumerate(x):
+                x_vec[0, t] = self.word2numF(char)
+            yield x_vec, y_vec
+            i += 1
+
+    def train(self):
+        '''训练模型'''
+        number_of_epoch = len(self.files_content) // self.config.batch_size
+
+        if not self.model:
+            self.build_model()
+
+        self.model.summary()
+
+        self.model.fit_generator(
+            generator=self.data_generator(),
+            verbose=True,
+            steps_per_epoch=self.config.batch_size,
+            epochs=number_of_epoch,
+            callbacks=[
+                keras.callbacks.ModelCheckpoint(self.config.weight_file, save_weights_only=False),
+                LambdaCallback(on_epoch_end=self.generate_sample_result)
+            ]
+        )
+
+
+if __name__ == '__main__':
+    model = PoetryModel(Config)
+    while 1:
+        text = input("text:")
+        sentence = model.predict(text)
+        print(sentence)
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/text_bert.py b/机器学习/殷康龙/源代码/tensorflow2.x/text_bert.py
new file mode 100644
index 00000000..ed24b0d3
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/text_bert.py
@@ -0,0 +1,351 @@
+# *-* coding:utf-8 *-*
+# 预训练模型 bert: 
+#   https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
+# 参考代码:
+#   https://blog.csdn.net/qq_32796253/article/details/98844242
+import json
+import numpy as np
+import pandas as pd
+from random import choice
+from keras_bert import load_trained_model_from_checkpoint, Tokenizer
+import re, os
+import codecs
+from keras.layers import *
+from keras.models import Model
+import keras.backend as K
+from keras.optimizers import Adam
+from config import Config
+
+
+class OurTokenizer(Tokenizer):
+    def _tokenize(self, text):
+        R = []
+        for c in text:
+            if c in self._token_dict:
+                R.append(c)
+            elif self._is_space(c):
+                R.append('[unused1]') # space类用未经训练的[unused1]表示
+            else:
+                R.append('[UNK]') # 剩余的字符是[UNK]
+        return R
+
+
+class data_generator:
+    def __init__(self, data, tokenizer, batch_size=16):
+        self.data = data
+        self.batch_size = batch_size
+        self.tokenizer = tokenizer
+        self.steps = len(self.data) // self.batch_size
+        if len(self.data) % self.batch_size != 0:
+            self.steps += 1
+
+    def __len__(self):
+        return self.steps
+
+    def __iter__(self):
+        while True:
+            idxs = list(range(len(self.data)))
+            np.random.shuffle(idxs)
+            X1, X2, Y = [], [], []
+            for i in idxs:
+                d = self.data[i]
+                text = d[0][:Config.bert.maxlen]
+                x1, x2 = self.tokenizer.encode(first=text)
+                y = d[1]
+                X1.append(x1)
+                X2.append(x2)
+                Y.append([y])
+                if len(X1) == self.batch_size or i == idxs[-1]:
+                    X1 = seq_padding(X1)
+                    X2 = seq_padding(X2)
+                    Y = seq_padding(Y)
+                    yield [X1, X2], Y
+                    [X1, X2, Y] = [], [], []
+
+
+
+def seq_padding(X, padding=0):
+    L = [len(x) for x in X]
+    ML = max(L)
+    return np.array([
+        np.concatenate([x, [padding] * (ML - len(x))]) if len(x) < ML else x for x in X
+    ])
+
+
+if __name__ == "__main__":
+    tb = TextBert()
+    model = tb.build_model()
+    tokenizer = OurTokenizer(tb.token_dict)
+
+    train_data, valid_data = tb.prepare_data()
+    train_D = data_generator(train_data, tokenizer)
+    valid_D = data_generator(valid_data, tokenizer)
+    model.fit_generator(
+        train_D.__iter__(),
+        steps_per_epoch=len(train_D),
+        epochs=5,
+        validation_data=valid_D.__iter__(),
+        validation_steps=len(valid_D)
+    )
+
+
+## 文本数据
+## bert / Embedding/  + lstm + crt
+
+
+#%%
+# 加载数据
+class TextBert():
+    def __init__(self):
+        self.path_config = Config.bert.path_config
+        self.path_checkpoint = Config.bert.path_checkpoint
+
+        self.token_dict = {}
+        with codecs.open(Config.bert.dict_path, 'r', 'utf8') as reader:
+            for line in reader:
+                token = line.strip()
+                self.token_dict[token] = len(self.token_dict)
+
+
+    def prepare_data(self):
+        neg = pd.read_excel(Config.bert.path_neg, header=None)
+        pos = pd.read_excel(Config.bert.path_pos, header=None)
+        data = []
+        for d in neg[0]:
+            data.append((d, 0))
+        for d in pos[0]:
+            data.append((d, 1))
+        # 按照9:1的比例划分训练集和验证集
+        random_order = list(range(len(data)))
+        np.random.shuffle(random_order)
+        train_data = [data[j] for i, j in enumerate(random_order) if i % 10 != 0]
+        valid_data = [data[j] for i, j in enumerate(random_order) if i % 10 == 0]
+        return train_data, valid_data
+
+    def build_model(self, m_type="bert"):
+        if m_type == "bert":
+            bert_model = load_trained_model_from_checkpoint(self.path_config, self.path_checkpoint, seq_len=None)
+            for l in bert_model.layers:
+                l.trainable = True
+            x1_in = Input(shape=(None,))
+            x2_in = Input(shape=(None,))
+            x = bert_model([x1_in, x2_in])
+            x = Lambda(lambda x: x[:, 0])(x)
+            p = Dense(1, activation='sigmoid')(x)#根据分类种类自行调节，也可以多加一些层数
+            model = Model([x1_in, x2_in], p)
+            model.compile(
+                loss='binary_crossentropy',
+                optimizer=Adam(1e-5), # 用足够小的学习率
+                metrics=['accuracy']
+            )
+        else:
+            # 否则用 Embedding
+            model = Sequential()
+            model.add(Embedding(len(vocab), EMBED_DIM, mask_zero=True))  # Random embedding
+            model.add(Bidirectional(LSTM(BiRNN_UNITS // 2, return_sequences=True)))
+            crf = CRF(len(chunk_tags), sparse_target=True)
+            model.add(crf)
+            model.compile('adam', loss=crf.loss_function, metrics=[crf.accuracy])
+        
+        model.summary()
+        return model
+
+
+#%%
+# 加载数据
+from keras_bert import Tokenizer
+#字典
+token_dict = {
+    '[CLS]': 0,
+    '[SEP]': 1,
+    'un': 2,
+    '##aff': 3,
+    '##able': 4,
+    '[UNK]': 5,
+}
+
+tokenizer = Tokenizer(token_dict)
+
+# 拆分单词实例
+print(tokenizer.tokenize('unaffable')) 
+# ['[CLS]', 'un', '##aff', '##able', '[SEP]']
+
+# indices是字对应索引
+# segments表示索引对应位置上的字属于第一句话还是第二句话
+# 这里只有一句话 unaffable，所以segments都是0
+indices, segments = tokenizer.encode('unaffable')
+print(indices)  
+# [0, 2, 3, 4, 1]
+print(segments)  
+# [0, 0, 0, 0, 0]
+
+
+
+# %%
+print(tokenizer.tokenize('unknown')) 
+# ['[CLS]', 'un', '##k', '##n', '##o', '##w', '##n', '[SEP]']
+
+indices, segments = tokenizer.encode('unknown')
+# [0, 2, 5, 5, 5, 5, 5, 1]
+# [0, 0, 0, 0, 0, 0, 0, 0]
+
+# %%
+print(tokenizer.tokenize(first='unaffable', second='钢'))
+# ['[CLS]', 'un', '##aff', '##able', '[SEP]', '钢', '[SEP]']
+indices, segments = tokenizer.encode(first='unaffable', second='钢', max_len=10)
+print(indices)  
+# [0, 2, 3, 4, 1, 5, 1, 0, 0, 0]
+print(segments)  
+# [0, 0, 0, 0, 0, 1, 1, 0, 0, 0]
+
+# %%
+import keras
+from keras_bert import get_base_dict, get_model, compile_model, gen_batch_inputs
+
+
+# 输入示例
+sentence_pairs = [
+    [['all', 'work', 'and', 'no', 'play'], ['makes', 'jack', 'a', 'dull', 'boy']],
+    [['from', 'the', 'day', 'forth'], ['my', 'arm', 'changed']],
+    [['and', 'a', 'voice', 'echoed'], ['power', 'give', 'me', 'more', 'power']],
+]
+
+# 构建 token 字典
+# 这个字典存放的是【词】
+token_dict = get_base_dict()  
+# get_base_dict()返回一个字典
+# 字典预置了一些特殊token，具体内容如下
+# {'': 0, '[UNK]': 1, '[CLS]': 2, '[SEP]': 3, '[MASK]': 4}
+for pairs in sentence_pairs:
+    for token in pairs[0] + pairs[1]:
+        if token not in token_dict:
+            token_dict[token] = len(token_dict)
+# token_dict 是由词组成的字典，大致如下
+# {'': 0, '[UNK]': 1, '[CLS]': 2, '[SEP]': 3, '[MASK]': 4, 'all': 5, 'work': 6,..., 'me': 26, 'more': 27}
+
+token_list = list(token_dict.keys())
+
+
+# 构建和训练模型
+model = get_model(
+    token_num=len(token_dict),
+    head_num=5,
+    transformer_num=12,
+    embed_dim=25,
+    feed_forward_dim=100,
+    seq_len=20,
+    pos_num=20,
+    dropout_rate=0.05,
+)
+compile_model(model)
+model.summary()
+
+def _generator():
+    while True:
+        yield gen_batch_inputs(
+            sentence_pairs,
+            token_dict,
+            token_list,
+            seq_len=20,
+            mask_rate=0.3,
+            swap_sentence_rate=1.0,
+        )
+
+model.fit_generator(
+# 这里测试集和验证集使用了同样的数据
+# 实际中使用时不能这样
+    generator=_generator(),
+    steps_per_epoch=1000,
+    epochs=100,
+    validation_data=_generator(),
+    validation_steps=100,
+    callbacks=[
+        keras.callbacks.EarlyStopping(monitor='val_loss', patience=5)
+    ],
+)
+
+
+# 使用训练好的模型
+# 取出 输入层 和 最后一个特征提取层
+inputs, output_layer = get_model(
+    token_num=len(token_dict),
+    head_num=5,
+    transformer_num=12,
+    embed_dim=25,
+    feed_forward_dim=100,
+    seq_len=20,
+    pos_num=20,
+    dropout_rate=0.05,
+    training=False,
+    trainable=False,
+    output_layer_num=4,
+)
+
+# %%
+import os
+from config import Config
+
+# 设置预训练模型的路径
+config_path = Config.bert.path_config
+checkpoint_path = Config.bert.path_checkpoint
+vocab_path = Config.bert.dict_path
+
+# 构建字典
+# 也可以用 keras_bert 中的 load_vocabulary() 函数
+# 传入 vocab_path 即可
+# from keras_bert import load_vocabulary
+# token_dict = load_vocabulary(vocab_path)
+import codecs
+token_dict = {}
+with codecs.open(vocab_path, 'r', 'utf8') as reader:
+    for line in reader:
+        token = line.strip()
+        token_dict[token] = len(token_dict)
+
+# 加载预训练模型
+from keras_bert import load_trained_model_from_checkpoint
+model = load_trained_model_from_checkpoint(config_path, checkpoint_path)
+
+# Tokenization
+from keras_bert import Tokenizer
+
+tokenizer = Tokenizer(token_dict)
+text = '语言模型'
+tokens = tokenizer.tokenize(text)
+# ['[CLS]', '语', '言', '模', '型', '[SEP]']
+indices, segments = tokenizer.encode(first=text, max_len=512)
+print(indices[:10])
+# [101, 6427, 6241, 3563, 1798, 102, 0, 0, 0, 0]
+print(segments[:10])
+# [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
+
+# 提取特征
+import numpy as np
+
+predicts = model.predict([np.array([indices]), np.array([segments])])[0]
+for i, token in enumerate(tokens):
+    print(token, predicts[i].tolist()[:5])
+
+# %%
+token_dict = {}
+with codecs.open(vocab_path, 'r', 'utf8') as reader:
+    for line in reader:
+        token = line.strip()
+        token_dict[token] = len(token_dict)
+
+token_dict_rev = {v: k for k, v in token_dict.items()}
+
+model = load_trained_model_from_checkpoint(config_path, checkpoint_path, training=True)
+
+text = '数学是利用符号语言研究数量、结构、变化以及空间等概念的一门学科'
+tokens = tokenizer.tokenize(text)
+tokens[1] = tokens[2] = '[MASK]'# ['[CLS]', '[MASK]', '[MASK]', '是', '利',..., '学', '科', '[SEP]']
+
+indices = np.array([[token_dict[token] for token in tokens] + [0] * (512 - len(tokens))])
+segments = np.array([[0] * len(tokens) + [0] * (512 - len(tokens))])
+masks = np.array([[0, 1, 1] + [0] * (512 - 3)])
+predicts = model.predict([indices, segments, masks])[0].argmax(axis=-1).tolist()
+print('Fill with: ', list(map(lambda x: token_dict_rev[x], predicts[0][1:3])))
+# Fill with:  ['数', '学']
+
+# %%
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/text_classification.py b/机器学习/殷康龙/源代码/tensorflow2.x/text_classification.py
new file mode 100644
index 00000000..3dbe16c9
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/text_classification.py
@@ -0,0 +1,246 @@
+# -*- coding: utf-8 -*-
+
+"""# 电影评论文本分类
+
+Note: 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的
+[官方英文文档](https://www.tensorflow.org/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到
+[tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入
+[docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+此笔记本（notebook）使用评论文本将影评分为*积极（positive）*或*消极（nagetive）*两类。这是一个*二元（binary）*或者二分类问题，一种重要且应用广泛的机器学习问题。
+
+我们将使用来源于[网络电影数据库（Internet Movie Database）](https://www.imdb.com/)的 [IMDB 数据集（IMDB dataset）](https://tensorflow.google.cn/api_docs/python/tf/keras/datasets/imdb)，其包含 50,000 条影评文本。从该数据集切割出的25,000条评论用作训练，另外 25,000 条用作测试。训练集与测试集是*平衡的（balanced）*，意味着它们包含相等数量的积极和消极评论。
+
+此笔记本（notebook）使用了 [tf.keras](https://tensorflow.google.cn/guide/keras)，它是一个 Tensorflow 中用于构建和训练模型的高级API。有关使用 `tf.keras` 进行文本分类的更高级教程，请参阅 [MLCC文本分类指南（MLCC Text Classification Guide）](https://developers.google.com/machine-learning/guides/text-classification/)。
+"""
+
+# Commented out IPython magic to ensure Python compatibility.
+from __future__ import absolute_import, division, print_function, unicode_literals
+
+try:
+  # Colab only
+#   %tensorflow_version 2.x
+except Exception:
+    pass
+import tensorflow as tf
+from tensorflow import keras
+
+import numpy as np
+
+print(tf.__version__)
+
+"""## 下载 IMDB 数据集
+
+IMDB 数据集已经打包在 Tensorflow 中。该数据集已经经过预处理，评论（单词序列）已经被转换为整数序列，其中每个整数表示字典中的特定单词。
+
+以下代码将下载 IMDB 数据集到您的机器上（如果您已经下载过将从缓存中复制）: 
+"""
+
+imdb = keras.datasets.imdb
+
+(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)
+
+"""参数 `num_words=10000` 保留了训练数据中最常出现的 10,000 个单词。为了保持数据规模的可管理性，低频词将被丢弃。
+
+## 探索数据
+
+让我们花一点时间来了解数据格式。该数据集是经过预处理的: 每个样本都是一个表示影评中词汇的整数数组。每个标签都是一个值为 0 或 1 的整数值，其中 0 代表消极评论，1 代表积极评论。
+"""
+
+print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))
+
+"""评论文本被转换为整数值，其中每个整数代表词典中的一个单词。首条评论是这样的: """
+
+print(train_data[0])
+
+"""电影评论可能具有不同的长度。以下代码显示了第一条和第二条评论的中单词数量。由于神经网络的输入必须是统一的长度，我们稍后需要解决这个问题。"""
+
+len(train_data[0]), len(train_data[1])
+
+"""### 将整数转换回单词
+
+了解如何将整数转换回文本对您可能是有帮助的。这里我们将创建一个辅助函数来查询一个包含了整数到字符串映射的字典对象: 
+"""
+
+# 一个映射单词到整数索引的词典
+word_index = imdb.get_word_index()
+
+# 保留第一个索引
+word_index = {k:(v+3) for k,v in word_index.items()}
+word_index["<PAD>"] = 0
+word_index["<START>"] = 1
+word_index["<UNK>"] = 2  # unknown
+word_index["<UNUSED>"] = 3
+
+reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
+
+def decode_review(text):
+    return ' '.join([reverse_word_index.get(i, '?') for i in text])
+
+"""现在我们可以使用 `decode_review` 函数来显示首条评论的文本: """
+
+decode_review(train_data[0])
+
+"""## 准备数据
+
+影评——即整数数组必须在输入神经网络之前转换为张量。这种转换可以通过以下两种方式来完成: 
+
+* 将数组转换为表示单词出现与否的由 0 和 1 组成的向量，类似于 one-hot 编码。例如，序列[3, 5]将转换为一个 10,000 维的向量，该向量除了索引为 3 和 5 的位置是 1 以外，其他都为 0。然后，将其作为网络的首层——一个可以处理浮点型向量数据的稠密层。不过，这种方法需要大量的内存，需要一个大小为 `num_words * num_reviews` 的矩阵。
+
+* 或者，我们可以填充数组来保证输入数据具有相同的长度，然后创建一个大小为 `max_length * num_reviews` 的整型张量。我们可以使用能够处理此形状数据的嵌入层作为网络中的第一层。
+
+在本教程中，我们将使用第二种方法。
+
+由于电影评论长度必须相同，我们将使用 [pad_sequences](https://tensorflow.google.cn/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences) 函数来使长度标准化: 
+"""
+
+train_data = keras.preprocessing.sequence.pad_sequences(train_data,
+                                                        value=word_index["<PAD>"],
+                                                        padding='post',
+                                                        maxlen=256)
+
+test_data = keras.preprocessing.sequence.pad_sequences(test_data,
+                                                       value=word_index["<PAD>"],
+                                                       padding='post',
+                                                       maxlen=256)
+
+"""现在让我们看下样本的长度: """
+
+len(train_data[0]), len(train_data[1])
+
+"""并检查一下首条评论（当前已经填充）: """
+
+print(train_data[0])
+
+"""## 构建模型
+
+神经网络由堆叠的层来构建，这需要从两个主要方面来进行体系结构决策: 
+
+* 模型里有多少层？
+* 每个层里有多少*隐层单元（hidden units）*？
+
+在此样本中，输入数据包含一个单词索引的数组。要预测的标签为 0 或 1。让我们来为该问题构建一个模型: 
+"""
+
+# 输入形状是用于电影评论的词汇数目（10,000 词）
+vocab_size = 10000
+
+model = keras.Sequential()
+model.add(keras.layers.Embedding(vocab_size, 16))
+model.add(keras.layers.GlobalAveragePooling1D())
+model.add(keras.layers.Dense(16, activation='relu'))
+model.add(keras.layers.Dense(1, activation='sigmoid'))
+
+model.summary()
+
+"""层按顺序堆叠以构建分类器: 
+
+1. 第一层是`嵌入（Embedding）`层。该层采用整数编码的词汇表，并查找每个词索引的嵌入向量（embedding vector）。这些向量是通过模型训练学习到的。向量向输出数组增加了一个维度。得到的维度为: `(batch, sequence, embedding)`。
+2. 接下来，`GlobalAveragePooling1D` 将通过对序列维度求平均值来为每个样本返回一个定长输出向量。这允许模型以尽可能最简单的方式处理变长输入。
+3. 该定长输出向量通过一个有 16 个隐层单元的全连接（`Dense`）层传输。
+4. 最后一层与单个输出结点密集连接。使用 `Sigmoid` 激活函数，其函数值为介于 0 与 1 之间的浮点数，表示概率或置信度。
+
+### 隐层单元
+
+上述模型在输入输出之间有两个中间层或“隐藏层”。输出（单元，结点或神经元）的数量即为层表示空间的维度。换句话说，是学习内部表示时网络所允许的自由度。
+
+如果模型具有更多的隐层单元（更高维度的表示空间）和/或更多层，则可以学习到更复杂的表示。但是，这会使网络的计算成本更高，并且可能导致学习到不需要的模式——一些能够在训练数据上而不是测试数据上改善性能的模式。这被称为*过拟合（overfitting）*，我们稍后会对此进行探究。
+
+### 损失函数与优化器
+
+一个模型需要损失函数和优化器来进行训练。由于这是一个二分类问题且模型输出概率值（一个使用 sigmoid 激活函数的单一单元层），我们将使用 `binary_crossentropy` 损失函数。
+
+这不是损失函数的唯一选择，例如，您可以选择 `mean_squared_error` 。但是，一般来说 `binary_crossentropy` 更适合处理概率——它能够度量概率分布之间的“距离”，或者在我们的示例中，指的是度量 ground-truth 分布与预测值之间的“距离”。
+
+稍后，当我们研究回归问题（例如，预测房价）时，我们将介绍如何使用另一种叫做均方误差的损失函数。
+
+现在，配置模型来使用优化器和损失函数: 
+"""
+
+model.compile(optimizer='adam',
+              loss='binary_crossentropy',
+              metrics=['accuracy'])
+
+"""## 创建一个验证集
+
+在训练时，我们想要检查模型在未见过的数据上的准确率（accuracy）。通过从原始训练数据中分离 10,000 个样本来创建一个*验证集*。（为什么现在不使用测试集？我们的目标是只使用训练数据来开发和调整模型，然后只使用一次测试数据来评估准确率（accuracy））。
+"""
+
+x_val = train_data[:10000]
+partial_x_train = train_data[10000:]
+
+y_val = train_labels[:10000]
+partial_y_train = train_labels[10000:]
+
+"""## 训练模型
+
+以 512 个样本的 mini-batch 大小迭代 40 个 epoch 来训练模型。这是指对 `x_train` 和 `y_train` 张量中所有样本的的 40 次迭代。在训练过程中，监测来自验证集的 10,000 个样本上的损失值（loss）和准确率（accuracy）: 
+"""
+
+history = model.fit(partial_x_train,
+                    partial_y_train,
+                    epochs=40,
+                    batch_size=512,
+                    validation_data=(x_val, y_val),
+                    verbose=1)
+
+"""## 评估模型
+
+我们来看一下模型的性能如何。将返回两个值。损失值（loss）（一个表示误差的数字，值越低越好）与准确率（accuracy）。
+"""
+
+results = model.evaluate(test_data,  test_labels, verbose=2)
+
+print(results)
+
+"""这种十分朴素的方法得到了约 87% 的准确率（accuracy）。若采用更好的方法，模型的准确率应当接近 95%。
+
+## 创建一个准确率（accuracy）和损失值（loss）随时间变化的图表
+
+`model.fit()` 返回一个 `History` 对象，该对象包含一个字典，其中包含训练阶段所发生的一切事件: 
+"""
+
+history_dict = history.history
+history_dict.keys()
+
+"""有四个条目: 在训练和验证期间，每个条目对应一个监控指标。我们可以使用这些条目来绘制训练与验证过程的损失值（loss）和准确率（accuracy），以便进行比较。"""
+
+import matplotlib.pyplot as plt
+
+acc = history_dict['accuracy']
+val_acc = history_dict['val_accuracy']
+loss = history_dict['loss']
+val_loss = history_dict['val_loss']
+
+epochs = range(1, len(acc) + 1)
+
+# “bo”代表 "蓝点"
+plt.plot(epochs, loss, 'bo', label='Training loss')
+# b代表“蓝色实线”
+plt.plot(epochs, val_loss, 'b', label='Validation loss')
+plt.title('Training and validation loss')
+plt.xlabel('Epochs')
+plt.ylabel('Loss')
+plt.legend()
+
+plt.show()
+
+plt.clf()   # 清除数字
+
+plt.plot(epochs, acc, 'bo', label='Training acc')
+plt.plot(epochs, val_acc, 'b', label='Validation acc')
+plt.title('Training and validation accuracy')
+plt.xlabel('Epochs')
+plt.ylabel('Accuracy')
+plt.legend()
+
+plt.show()
+
+"""在该图中，点代表训练损失值（loss）与准确率（accuracy），实线代表验证损失值（loss）与准确率（accuracy）。
+
+注意训练损失值随每一个 epoch *下降*而训练准确率（accuracy）随每一个 epoch *上升*。这在使用梯度下降优化时是可预期的——理应在每次迭代中最小化期望值。
+
+验证过程的损失值（loss）与准确率（accuracy）的情况却并非如此——它们似乎在 20 个 epoch 后达到峰值。这是过拟合的一个实例: 模型在训练数据上的表现比在以前从未见过的数据上的表现要更好。在此之后，模型过度优化并学习*特定*于训练数据的表示，而不能够*泛化*到测试数据。
+
+对于这种特殊情况，我们可以通过在 20 个左右的 epoch 后停止训练来避免过拟合。稍后，您将看到如何通过回调自动执行此操作。
+"""
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/text_regression.py b/机器学习/殷康龙/源代码/tensorflow2.x/text_regression.py
new file mode 100644
index 00000000..71881713
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/text_regression.py
@@ -0,0 +1,281 @@
+# -*- coding: utf-8 -*-
+"""text_regression.ipynb
+
+Note: 我们的 TensorFlow 社区翻译了这些文档。因为社区翻译是尽力而为， 所以无法保证它们是最准确的，并且反映了最新的
+[官方英文文档](https://www.tensorflow.org/?hl=en)。如果您有改进此翻译的建议， 请提交 pull request 到
+[tensorflow/docs](https://github.com/tensorflow/docs) GitHub 仓库。要志愿地撰写或者审核译文，请加入
+[docs-zh-cn@tensorflow.org Google Group](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-zh-cn)。
+
+在 *回归 (regression)* 问题中，我们的目的是预测出如价格或概率这样连续值的输出。相对于*分类(classification)* 问题，*分类(classification)* 的目的是从一系列的分类出选择出一个分类 （如，给出一张包含苹果或橘子的图片，识别出图片中是哪种水果）。
+
+本 notebook 使用经典的 [Auto MPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg) 数据集，构建了一个用来预测70年代末到80年代初汽车燃油效率的模型。为了做到这一点，我们将为该模型提供许多那个时期的汽车描述。这个描述包含: 气缸数，排量，马力以及重量。
+
+本示例使用 `tf.keras` API，相关细节请参阅 [本指南](https://tensorflow.google.cn/guide/keras)。
+"""
+
+# 使用 seaborn 绘制矩阵图 (pairplot)
+!pip install seaborn
+
+# Commented out IPython magic to ensure Python compatibility.
+from __future__ import absolute_import, division, print_function, unicode_literals
+
+import pathlib
+
+import matplotlib.pyplot as plt
+import pandas as pd
+import seaborn as sns
+
+try:
+  # %tensorflow_version only exists in Colab.
+#   %tensorflow_version 2.x
+except Exception:
+  pass
+import tensorflow as tf
+
+from tensorflow import keras
+from tensorflow.keras import layers
+
+print(tf.__version__)
+
+"""## Auto MPG 数据集
+
+该数据集可以从 [UCI机器学习库](https://archive.ics.uci.edu/ml/) 中获取.
+
+### 获取数据
+首先下载数据集。
+"""
+
+dataset_path = keras.utils.get_file("auto-mpg.data", "http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data")
+dataset_path
+
+"""使用 pandas 导入数据集。"""
+
+column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight',
+                'Acceleration', 'Model Year', 'Origin']
+raw_dataset = pd.read_csv(dataset_path, names=column_names,
+                      na_values = "?", comment='\t',
+                      sep=" ", skipinitialspace=True)
+
+dataset = raw_dataset.copy()
+dataset.tail()
+
+"""### 数据清洗
+
+数据集中包括一些未知值。
+"""
+
+dataset.isna().sum()
+
+"""为了保证这个初始示例的简单性，删除这些行。"""
+
+dataset = dataset.dropna()
+
+"""`"Origin"` 列实际上代表分类，而不仅仅是一个数字。所以把它转换为独热码 （one-hot）:"""
+
+origin = dataset.pop('Origin')
+
+dataset['USA'] = (origin == 1)*1.0
+dataset['Europe'] = (origin == 2)*1.0
+dataset['Japan'] = (origin == 3)*1.0
+dataset.tail()
+
+"""### 拆分训练数据集和测试数据集
+
+现在需要将数据集拆分为一个训练数据集和一个测试数据集。
+
+我们最后将使用测试数据集对模型进行评估。
+"""
+
+train_dataset = dataset.sample(frac=0.8,random_state=0)
+test_dataset = dataset.drop(train_dataset.index)
+
+"""### 数据检查
+
+快速查看训练集中几对列的联合分布。
+"""
+
+sns.pairplot(train_dataset[["MPG", "Cylinders", "Displacement", "Weight"]], diag_kind="kde")
+
+"""也可以查看总体的数据统计:"""
+
+train_stats = train_dataset.describe()
+train_stats.pop("MPG")
+train_stats = train_stats.transpose()
+train_stats
+
+"""### 从标签中分离特征
+
+将特征值从目标值或者"标签"中分离。 这个标签是你使用训练模型进行预测的值。
+"""
+
+train_labels = train_dataset.pop('MPG')
+test_labels = test_dataset.pop('MPG')
+
+"""### 数据规范化
+
+再次审视下上面的 `train_stats` 部分，并注意每个特征的范围有什么不同。
+
+使用不同的尺度和范围对特征归一化是好的实践。尽管模型*可能* 在没有特征归一化的情况下收敛，它会使得模型训练更加复杂，并会造成生成的模型依赖输入所使用的单位选择。
+
+注意: 尽管我们仅仅从训练集中有意生成这些统计数据，但是这些统计信息也会用于归一化的测试数据集。我们需要这样做，将测试数据集放入到与已经训练过的模型相同的分布中。
+"""
+
+def norm(x):
+  return (x - train_stats['mean']) / train_stats['std']
+normed_train_data = norm(train_dataset)
+normed_test_data = norm(test_dataset)
+
+"""我们将会使用这个已经归一化的数据来训练模型。
+
+警告: 用于归一化输入的数据统计（均值和标准差）需要反馈给模型从而应用于任何其他数据，以及我们之前所获得独热码。这些数据包含测试数据集以及生产环境中所使用的实时数据。
+
+## 模型
+
+### 构建模型
+
+让我们来构建我们自己的模型。这里，我们将会使用一个“顺序”模型，其中包含两个紧密相连的隐藏层，以及返回单个、连续值得输出层。模型的构建步骤包含于一个名叫 'build_model' 的函数中，稍后我们将会创建第二个模型。 两个密集连接的隐藏层。
+"""
+
+def build_model():
+  model = keras.Sequential([
+    layers.Dense(64, activation='relu', input_shape=[len(train_dataset.keys())]),
+    layers.Dense(64, activation='relu'),
+    layers.Dense(1)
+  ])
+
+  optimizer = tf.keras.optimizers.RMSprop(0.001)
+
+  model.compile(loss='mse',
+                optimizer=optimizer,
+                metrics=['mae', 'mse'])
+  return model
+
+model = build_model()
+
+"""### 检查模型
+
+使用 `.summary` 方法来打印该模型的简单描述。
+"""
+
+model.summary()
+
+"""现在试用下这个模型。从训练数据中批量获取‘10’条例子并对这些例子调用 `model.predict` 。"""
+
+example_batch = normed_train_data[:10]
+example_result = model.predict(example_batch)
+example_result
+
+"""它似乎在工作，并产生了预期的形状和类型的结果
+
+### 训练模型
+
+对模型进行1000个周期的训练，并在 `history` 对象中记录训练和验证的准确性。
+"""
+
+# 通过为每个完成的时期打印一个点来显示训练进度
+class PrintDot(keras.callbacks.Callback):
+  def on_epoch_end(self, epoch, logs):
+    if epoch % 100 == 0: print('')
+    print('.', end='')
+
+EPOCHS = 1000
+
+history = model.fit(
+  normed_train_data, train_labels,
+  epochs=EPOCHS, validation_split = 0.2, verbose=0,
+  callbacks=[PrintDot()])
+
+"""使用 `history` 对象中存储的统计信息可视化模型的训练进度。"""
+
+hist = pd.DataFrame(history.history)
+hist['epoch'] = history.epoch
+hist.tail()
+
+def plot_history(history):
+  hist = pd.DataFrame(history.history)
+  hist['epoch'] = history.epoch
+
+  plt.figure()
+  plt.xlabel('Epoch')
+  plt.ylabel('Mean Abs Error [MPG]')
+  plt.plot(hist['epoch'], hist['mae'],
+           label='Train Error')
+  plt.plot(hist['epoch'], hist['val_mae'],
+           label = 'Val Error')
+  plt.ylim([0,5])
+  plt.legend()
+
+  plt.figure()
+  plt.xlabel('Epoch')
+  plt.ylabel('Mean Square Error [$MPG^2$]')
+  plt.plot(hist['epoch'], hist['mse'],
+           label='Train Error')
+  plt.plot(hist['epoch'], hist['val_mse'],
+           label = 'Val Error')
+  plt.ylim([0,20])
+  plt.legend()
+  plt.show()
+
+
+plot_history(history)
+
+"""该图表显示在约100个 epochs 之后误差非但没有改进，反而出现恶化。 让我们更新 `model.fit` 调用，当验证值没有提高上是自动停止训练。
+我们将使用一个 *EarlyStopping callback* 来测试每个 epoch 的训练条件。如果经过一定数量的 epochs 后没有改进，则自动停止训练。
+
+你可以从[这里](https://tensorflow.google.cn/versions/master/api_docs/python/tf/keras/callbacks/EarlyStopping)学习到更多的回调。
+"""
+
+model = build_model()
+
+# patience 值用来检查改进 epochs 的数量
+early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)
+
+history = model.fit(normed_train_data, train_labels, epochs=EPOCHS,
+                    validation_split = 0.2, verbose=0, callbacks=[early_stop, PrintDot()])
+
+plot_history(history)
+
+"""如图所示，验证集中的平均的误差通常在 +/- 2 MPG左右。 这个结果好么？ 我们将决定权留给你。
+
+让我们看看通过使用 **测试集** 来泛化模型的效果如何，我们在训练模型时没有使用测试集。这告诉我们，当我们在现实世界中使用这个模型时，我们可以期望它预测得有多好。
+"""
+
+loss, mae, mse = model.evaluate(normed_test_data, test_labels, verbose=2)
+
+print("Testing set Mean Abs Error: {:5.2f} MPG".format(mae))
+
+"""### 做预测
+ 
+最后，使用测试集中的数据预测 MPG 值:
+"""
+
+test_predictions = model.predict(normed_test_data).flatten()
+
+plt.scatter(test_labels, test_predictions)
+plt.xlabel('True Values [MPG]')
+plt.ylabel('Predictions [MPG]')
+plt.axis('equal')
+plt.axis('square')
+plt.xlim([0,plt.xlim()[1]])
+plt.ylim([0,plt.ylim()[1]])
+_ = plt.plot([-100, 100], [-100, 100])
+
+"""这看起来我们的模型预测得相当好。我们来看下误差分布。"""
+
+error = test_predictions - test_labels
+plt.hist(error, bins = 25)
+plt.xlabel("Prediction Error [MPG]")
+_ = plt.ylabel("Count")
+
+"""它不是完全的高斯分布，但我们可以推断出，这是因为样本的数量很小所导致的。
+
+## 结论
+
+本笔记本 (notebook) 介绍了一些处理回归问题的技术。
+
+* 均方误差（MSE）是用于回归问题的常见损失函数（分类问题中使用不同的损失函数）。
+* 类似的，用于回归的评估指标与分类不同。 常见的回归指标是平均绝对误差（MAE）。
+* 当数字输入数据特征的值存在不同范围时，每个特征应独立缩放到相同范围。
+* 如果训练数据不多，一种方法是选择隐藏层较少的小网络，以避免过度拟合。
+* 早期停止是一种防止过度拟合的有效技术。
+"""
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/.gitignore b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/.gitignore
new file mode 100644
index 00000000..2eedd215
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/.gitignore
@@ -0,0 +1,45 @@
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+
+# C extensions
+*.so
+
+# Distribution / packaging
+.Python
+env/
+build/
+develop-eggs/
+dist/
+eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+*.egg-info/
+.installed.cfg
+*.egg
+
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.coverage
+.cache
+nosetests.xml
+coverage.xml
+
+# Translations
+*.mo
+*.pot
+
+# Django stuff:
+*.log
+
+# Sphinx documentation
+docs/_build/
+.idea
\ No newline at end of file
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/README.md b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/README.md
new file mode 100644
index 00000000..62afcf7b
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/README.md
@@ -0,0 +1,35 @@
+# zh-NER-keras
+> this project is a sample for Chinese Named Entity Recognition(NER)
+by Keras 2.1.4 
+
+## requirements 
+* keras=>2.1.4 
+* keras contribute 2.0.8 (https://github.com/keras-team/keras-contrib)
+* h5py 
+* pickle
+
+## demo 
+
+```python
+
+python val.py
+
+```
+ 
+
+input:
+```text
+中华人民共和国国务院总理周恩来在外交部长陈毅,
+副部长王东的陪同下，
+连续访问了埃塞俄比亚等非洲10国以及阿尔巴尼亚
+```
+output:
+```python
+['person: 周恩来 陈毅, 王东', 'location: 埃塞俄比亚 非洲 阿尔巴尼亚', 'organzation: 中华人民共和国国务院 外交部']
+
+```
+
+
+
+
+
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/bilsm_crf_model.py b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/bilsm_crf_model.py
new file mode 100644
index 00000000..c41f374f
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/bilsm_crf_model.py
@@ -0,0 +1,27 @@
+from keras.models import Sequential
+from keras.layers import Embedding, Bidirectional, LSTM
+from keras_contrib.layers import CRF
+import process_data
+import pickle
+
+EMBED_DIM = 200
+BiRNN_UNITS = 200
+
+
+def create_model(train=True):
+    if train:
+        (train_x, train_y), (test_x, test_y), (vocab, chunk_tags) = process_data.load_data()
+    else:
+        with open('model/config.pkl', 'rb') as inp:
+            (vocab, chunk_tags) = pickle.load(inp)
+    model = Sequential()
+    model.add(Embedding(len(vocab), EMBED_DIM, mask_zero=True))  # Random embedding
+    model.add(Bidirectional(LSTM(BiRNN_UNITS // 2, return_sequences=True)))
+    crf = CRF(len(chunk_tags), sparse_target=True)
+    model.add(crf)
+    model.summary()
+    model.compile('adam', loss=crf.loss_function, metrics=[crf.accuracy])
+    if train:
+        return model, (train_x, train_y), (test_x, test_y)
+    else:
+        return model, (vocab, chunk_tags)
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/process_data.py b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/process_data.py
new file mode 100644
index 00000000..3ddd66a6
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/process_data.py
@@ -0,0 +1,66 @@
+import numpy
+from collections import Counter
+from keras.preprocessing.sequence import pad_sequences
+import pickle
+import platform
+
+
+def load_data():
+    train = _parse_data(open('data/train_data.data', 'rb'))
+    test = _parse_data(open('data/test_data.data', 'rb'))
+
+    word_counts = Counter(row[0].lower() for sample in train for row in sample)
+    vocab = [w for w, f in iter(word_counts.items()) if f >= 2]
+    chunk_tags = ['O', 'B-PER', 'I-PER', 'B-LOC', 'I-LOC', "B-ORG", "I-ORG"]
+
+    # save initial config data
+    with open('model/config.pkl', 'wb') as outp:
+        pickle.dump((vocab, chunk_tags), outp)
+
+    train = _process_data(train, vocab, chunk_tags)
+    test = _process_data(test, vocab, chunk_tags)
+    return train, test, (vocab, chunk_tags)
+
+
+def _parse_data(fh):
+    #  in windows the new line is '\r\n\r\n' the space is '\r\n' . so if you use windows system,
+    #  you have to use recorsponding instructions
+
+    if platform.system() == 'Windows':
+        split_text = '\r\n'
+    else:
+        split_text = '\n'
+
+    string = fh.read().decode('utf-8')
+    data = [[row.split() for row in sample.split(split_text)] for
+            sample in
+            string.strip().split(split_text + split_text)]
+    fh.close()
+    return data
+
+
+def _process_data(data, vocab, chunk_tags, maxlen=None, onehot=False):
+    if maxlen is None:
+        maxlen = max(len(s) for s in data)
+    word2idx = dict((w, i) for i, w in enumerate(vocab))
+    x = [[word2idx.get(w[0].lower(), 1) for w in s] for s in data]  # set to <unk> (index 1) if not in vocab
+
+    y_chunk = [[chunk_tags.index(w[1]) for w in s] for s in data]
+
+    x = pad_sequences(x, maxlen)  # left padding
+
+    y_chunk = pad_sequences(y_chunk, maxlen, value=-1)
+
+    if onehot:
+        y_chunk = numpy.eye(len(chunk_tags), dtype='float32')[y_chunk]
+    else:
+        y_chunk = numpy.expand_dims(y_chunk, 2)
+    return x, y_chunk
+
+
+def process_data(data, vocab, maxlen=100):
+    word2idx = dict((w, i) for i, w in enumerate(vocab))
+    x = [word2idx.get(w[0].lower(), 1) for w in data]
+    length = len(x)
+    x = pad_sequences([x], maxlen)  # left padding
+    return x, length
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/train.py b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/train.py
new file mode 100644
index 00000000..fcb5f6ac
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/train.py
@@ -0,0 +1,7 @@
+import bilsm_crf_model
+
+EPOCHS = 10
+model, (train_x, train_y), (test_x, test_y) = bilsm_crf_model.create_model()
+# train model
+model.fit(train_x, train_y,batch_size=16,epochs=EPOCHS, validation_data=[test_x, test_y])
+model.save('model/crf.h5')
diff --git a/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/val.py b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/val.py
new file mode 100644
index 00000000..0cdc5055
--- /dev/null
+++ b/机器学习/殷康龙/源代码/tensorflow2.x/zh-NER-keras-master/val.py
@@ -0,0 +1,23 @@
+import bilsm_crf_model
+import process_data
+import numpy as np
+
+model, (vocab, chunk_tags) = bilsm_crf_model.create_model(train=False)
+predict_text = '中华人民共和国国务院总理周恩来在外交部长陈毅的陪同下，连续访问了埃塞俄比亚等非洲10国以及阿尔巴尼亚'
+str, length = process_data.process_data(predict_text, vocab)
+model.load_weights('model/crf.h5')
+raw = model.predict(str)[0][-length:]
+result = [np.argmax(row) for row in raw]
+result_tags = [chunk_tags[i] for i in result]
+
+per, loc, org = '', '', ''
+
+for s, t in zip(predict_text, result_tags):
+    if t in ('B-PER', 'I-PER'):
+        per += ' ' + s if (t == 'B-PER') else s
+    if t in ('B-ORG', 'I-ORG'):
+        org += ' ' + s if (t == 'B-ORG') else s
+    if t in ('B-LOC', 'I-LOC'):
+        loc += ' ' + s if (t == 'B-LOC') else s
+
+print(['person:' + per, 'location:' + loc, 'organzation:' + org])