Hadoop实用作品目录
第1章Hadoop 2简介
1.1你为什么要写Hadoop战斗3
1.2什么是Hadoop 3?
1.3了解分布式系统和Hadoop 4
1.4比较SQL数据库和Hadoop 5
1.5了解MapReduce 6
1.5.1简单程序的动手扩展7
1 . 5 . 2 MapReduce 9中同一程序的扩展
1.6用Hadoop算单词——运行第一个程序11。
1.7 Hadoop历史15
1.8汇总16
1.9资源16
第2章了解Hadoop 17
2.1 Hadoop构建块17
2.1.1命名节点17
2.1.2数据节点18
2.1.3二级NameNode 19
2.1.4工作追踪19
2.1.5任务跟踪者19
2.2为Hadoop集群安装SSH 21
2.2.1定义了一个公众账号21。
2.2.2验证SSH安装21
2.2.3生成SSH密钥对21
2.2.4公钥的分发和登录验证22
2.3运行Hadoop 22
2.3.1本地(独立)模式23
2.3.2伪分布模式24
2.3.3完全分销模式25
2.4基于Web的集群用户界面28
2.5摘要30
第3章Hadoop组件31
3.1 HDFS文件操作31
3.1.1基本文件命令32
3.1.2编程读写HDFS 35
3.2 MapReduce程序分析37
3.2.1 Hadoop数据类型39
3.2.2映射器40
3.2.3减速器41
3.2.4分区器:重定向映射器输出41。
3.2.5合并器:本地还原43
3.2.6预定义映射器和缩减器类的字数43
3.3阅读和写作43
输入格式44
输出格式49
3.4摘要50
第二部分实战
第4章编写MapReduce Basic程序52
4.1获取专利数据集52
4.1.1专利引用数据53
4.1.2专利描述数据54
4.2构建MapReduce程序的基本模板55
4.3计数60
4.4适应Hadoop API 64的变化
4.5 Hadoop流67
4.5.1通过Unix命令使用流68
4.5.2通过脚本使用流69
4.5.3使用流处理键/值对72
4.5.4流75通过聚合包使用。
4.6使用合并器提高性能80
重温老朋友,认识新朋友
4.8摘要84
4.9更多资源84
第5章高阶MapReduce 85
5.1链接MapReduce作业85
5.1.1顺序链接MapReduce作业85
5.1.2具有复杂依赖关系的MapReduce链接86
5.1.3与预处理和后处理阶段的联系86
5.2链接不同来源的数据89
5.2.1变径侧90的连接
5.2.2基于分布式缓存98的复制连接
5.2.3半连接:在地图端过滤后在reduce端连接101。
5.3创建一个布隆过滤器102。
5.3.1布鲁姆滤镜do 102?
5.3.2实施布隆过滤器104。
5 . 3 . 3 Bloom filter 110适用于Hadoop版本0.20或以上。
5.4重温老朋友,学习新朋友+010
5.5汇总111
5.6更多资源112
第六章编程实践113
6.1开发MapReduce程序
6.1.1本地模式114
6.1.2伪分布模式118
6.2生产集群123的监控和调试
6.2.1计数器123
6.2.2跳过不良记录125
6.2.3使用IsolationRunner重新运行错误的任务128。
6.3性能调整129
6.3.1通过合并器129减少网络流量
6.3.2减少输入数据量129
6.3.3使用压缩129
6.3.4重用JVM 132
6.3.5根据猜测执行运行132。
6.3.6代码重构和算法重写133
6.4摘要134
第七章细则手册135
7.1将作业定制的参数传递给任务135
7.2勘探任务具体信息137
7.3分成多个输出文件138
7.4以数据库为输入输出143
7.5保持输出顺序145
7.6汇总146
第8章管理Hadoop 147
8.1为实际应用设置具体参数值147。
8.2系统体检149
8.3权限设置151
8.4定额管理151
8.5启用回收站152
8.6删除DataNode 152
8.7添加DataNode 153。
8.8管理NameNode和SNN 153
8.9恢复失败的NameNode 155
8.10感知网络布局和机架设计156
8.11多用户作业调度157
8.11.1多重工作追踪158
8.11.2公平调度程序158
8.12汇总160
第三部分Hadoop也疯狂
第9章在云上运行Hadoop 162
9.1亚马逊网络服务简介162
9.2安装AWS 163
9.2.1获得了AWS身份验证凭据164。
9.2.2获取命令行工具166
准备SSH密钥对168。
9.3在EC2上安装Hadoop 169
9.3.1配置安全参数169
9.3.2配置集群类型169
9.4在EC2上运行MapReduce程序171。
9.4.1将代码转移到Hadoop集群171。
9.4.2访问Hadoop集群172上的数据
9.5清空并关闭EC2实例175
9.6亚马逊弹性MapReduce和其他AWS服务176
9.6.1亚马逊弹性MapReduce 176
9.6.2 AWS进口/出口177
9.7摘要177
第10章编程用猪178
像猪一样思考
10.1.1数据流语言179
10.1.2数据类型179
10.1.3用户自定义函数179
10.2安装清管器179
10.3跑猪180
10.4通过咕噜学习猪拉丁语182
10.5谈猪拉丁186
10.5.1数据类型和架构186
10.5.2表达式和函数187
10.5.3关系运算符189
10.5.4执行优化
10.6用户自定义函数196
10.6.1使用UDF 196。
10.6.2写UDF
10.7脚本199
10.7.1注199
10.7.2参数替换200
10.7.3多查询执行201
10.8 Pig实践——计算类似专利201的一个例子
10.9汇总206
第11章Hive和Hadoop组207
11.1蜂巢207
11.1安装并配置配置单元208。
11.1.2查询210的示例
11.1.3深入HiveQL 213。
11.1.4蜂巢汇总221
11.2其他Hadoop相关部分221
11 . 2 . 1 HBase 221
动物园管理员221
11.2.3级联221
11.2.4云时代222
11.2.5 Katta 222
CloudBase 222
11.2.7 Aster数据和Greenplum 222
11.2.8哈马和看象人223
11.3汇总223
第12章案例分析224
12.1转换纽约时报11百万股票图片文档224
12.2挖掘中国移动225的数据
12.3推荐StumbleUpon 229最好的网站
12.3.1的开始分发StumbleUpon 230
12.3.2 HBase和StumbleUpon 230
12 . 3 . 3 stumble upon 236上的更多Hadoop应用
12.4构建企业查询分析系统——IBM的ES2项目238
1 ES2系统结构240
12.4.2 ES2爬虫241
12.4.3 ES2分析242
12.4.4摘要249
参考文献250
附录A HDFS文件命令251