Hadoop实用作品目录

第一部分是Hadoop——一个分布式编程框架。

第1章Hadoop 2简介

1.1你为什么要写Hadoop战斗3

1.2什么是Hadoop 3？

1.3了解分布式系统和Hadoop 4

1.4比较SQL数据库和Hadoop 5

1.5了解MapReduce 6

1.5.1简单程序的动手扩展7

1 . 5 . 2 MapReduce 9中同一程序的扩展

1.6用Hadoop算单词——运行第一个程序11。

1.7 Hadoop历史15

1.8汇总16

1.9资源16

第2章了解Hadoop 17

2.1 Hadoop构建块17

2.1.1命名节点17

2.1.2数据节点18

2.1.3二级NameNode 19

2.1.4工作追踪19

2.1.5任务跟踪者19

2.2为Hadoop集群安装SSH 21

2.2.1定义了一个公众账号21。

2.2.2验证SSH安装21

2.2.3生成SSH密钥对21

2.2.4公钥的分发和登录验证22

2.3运行Hadoop 22

2.3.1本地(独立)模式23

2.3.2伪分布模式24

2.3.3完全分销模式25

2.4基于Web的集群用户界面28

2.5摘要30

第3章Hadoop组件31

3.1 HDFS文件操作31

3.1.1基本文件命令32

3.1.2编程读写HDFS 35

3.2 MapReduce程序分析37

3.2.1 Hadoop数据类型39

3.2.2映射器40

3.2.3减速器41

3.2.4分区器:重定向映射器输出41。

3.2.5合并器:本地还原43

3.2.6预定义映射器和缩减器类的字数43

3.3阅读和写作43

输入格式44

输出格式49

3.4摘要50

第二部分实战

第4章编写MapReduce Basic程序52

4.1获取专利数据集52

4.1.1专利引用数据53

4.1.2专利描述数据54

4.2构建MapReduce程序的基本模板55

4.3计数60

4.4适应Hadoop API 64的变化

4.5 Hadoop流67

4.5.1通过Unix命令使用流68

4.5.2通过脚本使用流69

4.5.3使用流处理键/值对72

4.5.4流75通过聚合包使用。

4.6使用合并器提高性能80

重温老朋友，认识新朋友

4.8摘要84

4.9更多资源84

第5章高阶MapReduce 85

5.1链接MapReduce作业85

5.1.1顺序链接MapReduce作业85

5.1.2具有复杂依赖关系的MapReduce链接86

5.1.3与预处理和后处理阶段的联系86

5.2链接不同来源的数据89

5.2.1变径侧90的连接

5.2.2基于分布式缓存98的复制连接

5.2.3半连接:在地图端过滤后在reduce端连接101。

5.3创建一个布隆过滤器102。

5.3.1布鲁姆滤镜do 102？

5.3.2实施布隆过滤器104。

5 . 3 . 3 Bloom filter 110适用于Hadoop版本0.20或以上。

5.4重温老朋友，学习新朋友+010

5.5汇总111

5.6更多资源112

第六章编程实践113

6.1开发MapReduce程序

6.1.1本地模式114

6.1.2伪分布模式118

6.2生产集群123的监控和调试

6.2.1计数器123

6.2.2跳过不良记录125

6.2.3使用IsolationRunner重新运行错误的任务128。

6.3性能调整129

6.3.1通过合并器129减少网络流量

6.3.2减少输入数据量129

6.3.3使用压缩129

6.3.4重用JVM 132

6.3.5根据猜测执行运行132。

6.3.6代码重构和算法重写133

6.4摘要134

第七章细则手册135

7.1将作业定制的参数传递给任务135

7.2勘探任务具体信息137

7.3分成多个输出文件138

7.4以数据库为输入输出143

7.5保持输出顺序145

7.6汇总146

第8章管理Hadoop 147

8.1为实际应用设置具体参数值147。

8.2系统体检149

8.3权限设置151

8.4定额管理151

8.5启用回收站152

8.6删除DataNode 152

8.7添加DataNode 153。

8.8管理NameNode和SNN 153

8.9恢复失败的NameNode 155

8.10感知网络布局和机架设计156

8.11多用户作业调度157

8.11.1多重工作追踪158

8.11.2公平调度程序158

8.12汇总160

第三部分Hadoop也疯狂

第9章在云上运行Hadoop 162

9.1亚马逊网络服务简介162

9.2安装AWS 163

9.2.1获得了AWS身份验证凭据164。

9.2.2获取命令行工具166

准备SSH密钥对168。

9.3在EC2上安装Hadoop 169

9.3.1配置安全参数169

9.3.2配置集群类型169

9.4在EC2上运行MapReduce程序171。

9.4.1将代码转移到Hadoop集群171。

9.4.2访问Hadoop集群172上的数据

9.5清空并关闭EC2实例175

9.6亚马逊弹性MapReduce和其他AWS服务176

9.6.1亚马逊弹性MapReduce 176

9.6.2 AWS进口/出口177

9.7摘要177

第10章编程用猪178

像猪一样思考

10.1.1数据流语言179

10.1.2数据类型179

10.1.3用户自定义函数179

10.2安装清管器179

10.3跑猪180

10.4通过咕噜学习猪拉丁语182

10.5谈猪拉丁186

10.5.1数据类型和架构186

10.5.2表达式和函数187

10.5.3关系运算符189

10.5.4执行优化

10.6用户自定义函数196

10.6.1使用UDF 196。

10.6.2写UDF

10.7脚本199

10.7.1注199

10.7.2参数替换200

10.7.3多查询执行201

10.8 Pig实践——计算类似专利201的一个例子

10.9汇总206

第11章Hive和Hadoop组207

11.1蜂巢207

11.1安装并配置配置单元208。

11.1.2查询210的示例

11.1.3深入HiveQL 213。

11.1.4蜂巢汇总221

11.2其他Hadoop相关部分221

11 . 2 . 1 HBase 221

动物园管理员221

11.2.3级联221

11.2.4云时代222

11.2.5 Katta 222

CloudBase 222

11.2.7 Aster数据和Greenplum 222

11.2.8哈马和看象人223

11.3汇总223

第12章案例分析224

12.1转换纽约时报11百万股票图片文档224

12.2挖掘中国移动225的数据

12.3推荐StumbleUpon 229最好的网站

12.3.1的开始分发StumbleUpon 230

12.3.2 HBase和StumbleUpon 230

12 . 3 . 3 stumble upon 236上的更多Hadoop应用

12.4构建企业查询分析系统——IBM的ES2项目238

1 ES2系统结构240

12.4.2 ES2爬虫241

12.4.3 ES2分析242

12.4.4摘要249

参考文献250

附录A HDFS文件命令251