审校Part 2

This commit is contained in:
Jerry Lee
2015-07-18 23:24:30 +08:00
parent ec107b8b24
commit f74ca4ee0f

View File

@@ -88,7 +88,7 @@
>
<img src="images/19202238_eoij.jpg" width="250" >
> ["每个工作数据管道设计得就像是一个日志;每个损坏的数据管道以其自己的方式损坏。"
> [每个工作数据管道设计得就像是一个日志;每个损坏的数据管道以其自己的方式损坏。
> —— ***Count Leo Tolstoy*** (由作者翻译)](http://en.wikipedia.org/wiki/Anna_Karenina_principle)
这里我使用术语『日志』取代了『消息系统』或者『发布-订阅』,因为在语义上明确得多,并且准确得多描述了在实际实现支持数据复制时你所要做的事。
@@ -195,7 +195,7 @@
他们对此的想法看起来与我所描述的完全吻合:
管道联通了所有的分布式系统,诸如`DynamoDB`,`RedShift`,`S3`等,同时作为使用`EC2`进行分布式流处理的基础。
`ETL`数据仓库的关系
`ETL`数据仓库的关系
-------------------------
我们再来聊聊数据仓库。数据仓库旨在包含支撑数据分析的规整的集成的数据结构(`clean, integrated data structured`)。
@@ -203,7 +203,7 @@
周期性的从源数据库抽取数据,把它们转化为可理解的形式,然后把它导入中心数据仓库。
对于数据集中分析和处理,拥有高度集中的位置存放全部数据的原始副本是非常宝贵的资产。
在高层级上,无论你使用传统的数据仓库`Oracle`还是`Teradata``Hadoop`
这个方法论不会有太多变化,也许你抽取和加载数据的顺序略微调整
这个方法论不会有太多变化,可能[调整](http://searchdatamanagement.techtarget.com/definition/Extract-Load-Transform-ELT)一下抽取和加载数据的顺序。
数据仓库是极其重要的资产,它包含了原始的和规整的数据,但是实现此目标的机制有点过时了。
@@ -265,7 +265,7 @@
最后,只有针对目标系统的聚合操作才应该加到加载过程中。
比如可能包括在数据仓库中为分析和报表而做的把数据转化成特定的星型或者雪花状模式。
因为在这个阶段(一般比较自然地对应到传统的`ETL`处理),现在处理的是一系列规整得多和统一得多的流,
因为在这个阶段(一般比较自然地对应到传统的`ETL`处理阶段),现在处理的是一规整得多和统一得多的流,
处理过程已经大简化了。
日志文件和事件