内容简介
本书侧重于大数据的实践性技术,系统地介绍了主流大数据平台及工具的安装部署、管理维护和应用开发。平台和工具的选择均为当前业界主流的开源产品,因此,对于读者来说,有很强的可操作性。
本书涉及的开源技术包括:HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka、Flume等。除介绍一般性的背景知识、安装部署、管理维护和应用开发技术外,还特别注重案例实践,重要的技术点以实际工作场景或案例为依托,使读者能快速入门,参考案例动手实践,通过具体深入的实践,体会大数据的技术本质特征,领略大数据技术带来的创新理念,更好地理解和把握信息技术的发展趋势。
本书主要内容包括以下几大部分。
大数据存储篇:以HDFS为基础,介绍分布式文件系统的原理、安装、fs命令的使用、编程,介绍如何用HDFS实现,并通过HTTP调用。
大数据计算篇:以MapReduce、YARN为基础,介绍分布式计算的原理、部署,以及编程案例。
非关系型数据库篇:以HBase为基础,重点介绍非关系型数据库的优势、原理、部署,以及命令行使用,编程案例,与Sqoop配合使用等。
大数据仓库篇:以Hive、数据仓库等为基础,重点介绍数据的抽取、原理、部署、分析与编程。
大数据实时计算篇:以Storm、Kafka为基础,介绍实时计算的架构、组成、使用与开发。
本书非常适合从事大数据技术开发与使用的初学者,以及从事大数据技术研发的企事业单位工程师学习和参考,也适合高校计算机相关专业的专科生、本科生和研究生学习使用。
前 言
技术革命的浪潮推动着人类文明的发展。
第一次浪潮造就了农业革命,它在数千年前出现并持续了数千年;第二次浪潮造就了工业革命,它在数百年前出现并持续了数百年;我们今天正在经历着信息技术第三次浪潮,发端于数十年前,目前也只是处在初级阶段。
农业技术革命释放了"物之力";工业技术革命释放了"能之力",而今天的信息技术革命释放的是"智之力"。
距今400年前,培根在《伟大的复兴》中预言:知识就是力量。今天,人类终于迎来"知识经济时代",它是人类社会经济增长方式与经济发展的全新模式。
人类认识物质世界、人类社会和精神世界的最高境界是智慧,而要达智慧的境界,必然要跨越数据、信息、知识三个层级。
数据作为基础,是信息之母、知识之初、智慧之源。正是今天的大数据技术,引燃了人们实现智慧城市、智慧医疗、智慧教育等有关人工智慧的激情。人们真切地认识到,对于人工智能,只要让数据发生质变,即使是简单的数据,也比复杂的算法更有效。
今天,移动互联网的发展,使我们在获取数据上有了质的飞跃,人类的各种社会活动都与互联网这个虚拟世界相联系,使全样本、全过程地有效测量和记录成为可能,构建了生成大数据生态的土壤,同时,人们还在期待和憧憬物联网带来更大的冲击。
另一方面,云计算发展到今天,不论从技术到产业都开始进入成熟期,这也是大数据发展的基石和推进器。
在今天这个时代中,运用大数据洞见事物蕴藏的"智慧"成为人们的渴望。大数据更新了人们对数据的认识。在技术层面,小数据时代的很多数据处理方法和工具已不再有效,需要一系列新的方法和工具。所幸,有大量平民化的开源软件可用,它们不需要特殊的硬件系统,也更适用于云计算环境。
本书正是一本介绍主流的大数据开源软件平台和工具的技术专著,侧重于大数据的实践性技术,帮助读者快速入门,通过具体深入的实践,体会大数据的技术本质特征,领略大数据技术带来的创新理念,更好地理解和把握信息技术的发展趋势。
本书定位
(1) 信息发展已步入大数据时代,当前对于大数据还缺乏面向公众的技术实践手册。
(2) 本书的创作团队有丰富的大数据规划、开发、运营等经验,多位作者成功地架构了教育部、科技部、互联网等大数据架构与分析项目。
(3) 本书的参与者均是部委信息一线工程师、著名外企架构师、国内企业资深高级工程师,所做的理论分析易于学习,实践具有可操作性。
(4) 本书重点介绍大数据的基础理论、关键技术,以及编程实践。利用本书,就可以完全搭建并能有效地管理好大数据平台。
本书特色
(1) 理念先进:均是国内外最新的大数据理念;方便读者全面了解国内外大数据研究与发展的情况。
(2) 技术领先:参与者均是国内IT人士;采用的平台均是业界主流开源平台,涉及大数据常用的HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka等技术的介绍与编程使用。
(3) 案例丰富:提供翔实的实例与解决方法,供项目中参考。
(4) 资源齐备:本书涉及的配套下载资源可以从清华大学出版社的网站中下载。
全书关键字
大数据、分布式计算、数据仓库、数据分析、HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka。
由于编者的水平有限,书中难免有疏漏和错误,希望业内专家和广大读者指正。
编 者
目 录
大数据存储篇第1章 概述 11.1 什么是大数据 21.2 大数据的技术转型 31.3 数据分片 41.4 数据一致性 51.4.1 CAP原则 51.4.2 CAP与ACID 71.4.3 BASE原则 81.5 主流大数据技术 81.6 大数据职业方向 101.7 大数据实践平台的搭建 101.7.1 初学者模式 101.7.2 物理集群模式 111.7.3 虚拟化集群模式 111.8 小结 12第2章 HDFS文件系统 132.1 HDFS概述 142.1.1 分布式文件系统 142.1.2 HDFS介绍 162.2 HDFS的运行机制 182.2.1 HDFS的结构与组成 182.2.2 HDFS的数据操作 202.2.3 访问权限 222.2.4 通信协议簇 232.2.5 HDFS的高可用性 242.2.6 集中缓存管理 252.2.7 日志和检查点 262.2.8 HDFS快照 282.3 HDFS的数据存储 292.3.1 数据完整性 292.3.2 数据压缩 302.3.3 序列化 322.4 HDFS的安装和配置 342.4.1 Hadoop的安装 342.4.2 HDFS的配置 402.4.3 启动HDFS 452.5 小结 47第3章 HDFS操作实践 493.1 HDFS接口与编程 503.1.1 Shell命令 503.1.2 Java接口操作 623.1.3 WebHDFS 693.1.4 其他接口 713.2 操作实践 733.2.1 文件操作 733.2.2 压缩与解压缩 773.3 小结 80大数据计算篇第4章 YARN 814.1 YARN概述 824.2 YARN的主要组成模块 834.3 YARN的整体设计 834.4 容量调度器 844.4.1 什么是容量调度器 844.4.2 容量调度器的特性 854.4.3 配置RM使用容量调度器 854.5 公平调度器(Fair Scheduler) 864.5.1 什么是公平调度器 864.5.2 分级队列 874.5.3 公平调度器队列的设置 874.6 资源管理者(RM)重启机制 904.6.1 什么是资源管理器重启 904.6.2 非工作保存RM重启 904.6.3 工作保存RM重启 914.6.4 RM重启配置yarn-site.xml 914.7 资源管理器的高可用性(RM HA) 924.7.1 什么是资源管理器的高可用性 924.7.2 自动故障转移 924.7.3 客户端/应用管理器/节点管理器的故障转移 924.7.4 部署RM HA 934.7.5 配置例子 944.7.6 管理员命令 954.8 节点标签 954.8.1 节点标签的特点 954.8.2 节点标签的属性 954.8.3 节点标签的配置 964.8.4 使用节点标签的调度器配置 964.8.5 节点标签配置示例 974.8.6 指定应用的节点标签 974.8.7 节点标签的监控 984.9 YARN编程 984.9.1 什么是YARN级别编程 984.9.2 YARN的相关接口 994.9.3 编程实践 994.10 YARN服务注册 1074.10.1 为什么需要服务注册 1074.10.2 配置服务注册 1074.10.3 安全选项 1084.11 小结 108第5章 MapReduce 1095.1 MapReduce概述 1105.1.1 Hadoop MapReduce 1105.1.2 MapReduce的发展史 1105.1.3 MapReduce的使用场景 1115.2 Key-Value结构的特点 1115.2.1 key的设计 1115.2.2 value的设计 1125.3 MapReduce的部署 1125.3.1 软件准备 1125.3.2 配置文件 1135.3.3 启动YARN守护进程 1135.4 MapReduce的程序结构 1135.4.1 MR框架的输入和输出 1145.4.2 WordCount 1145.5 MapReduce的编程接口 1165.5.1 Mapper接口 1175.5.2 Reducer接口 1175.5.3 Partitioner(分区) 1185.5.4 Counter(计数器) 1185.5.5 job工作机理 1185.5.6 任务提交和监控(JobSubmission and Monitoring) 1215.5.7 任务的辅助文件(TaskSide-Effect Files) 1235.5.8 提交作业到队列 1235.5.9 MR中的计数器(Counters) 1235.5.10 Profiling 1235.5.11 Debugging 1245.5.12 job Outputs 1245.5.13 忽略坏记录(SkippingBad Records) 1245.6 MapReduce的命令行 1255.6.1 概述 1255.6.2 用户命令(User Commands) 1255.6.3 管理员命令(AdministrationCommands) 1275.6.4 YARN-MapReduce的部署 1285.7 WordCount的实现 1295.8 小结 136非关系型数据库篇第6章 使用HBase 1376.1 HBase基础 1386.1.1 HBase是什么 1386.1.2 HBase伪分布式部署 1406.1.3 服务的启动与验证 1426.1.4 HBase Shell测试 1426.1.5 Web测试 1446.1.6 服务的关闭 1476.2 HBase的架构原理 1476.2.1 组成架构 1476.2.2 数据模型 1516.2.3 物理存储 1536.3 HBase的命令实践 1566.3.1 概述 1576.3.2 命名空间 1586.3.3 表管理 1606.4 HBase的数据管理 1666.4.1 数据的添加 1676.4.2 数据的追加 1686.4.3 数据的获取 1696.4.4 数据统计 1726.4.5 表的扫描 1736.4.6 数据的删除 1756.4.7 表的重建 1756.5 HBase的集群管理 1776.5.1 集群部署 1776.5.2 自动化脚本 1806.5.3 权限管理 1826.5.4 集群调度 1846.5.5 日志分析 1866.6 小结 187第7章 HBase编程开发 1897.1 HBase的编程接口 1907.1.1 rest编程接口 1907.1.2 thrift接口 1967.1.3 Java API接口 1987.1.4 Java API示例 1997.2 表与命名空间的编程 2027.2.1 表的查看 2037.2.2 表的创建 2067.2.3 表的删除 2077.2.4 表的修改 2087.2.5 命名空间 2107.3 数据编程 2137.3.1 数据的增加 2147.3.2 单行查询 2167.3.3 集合查询 2177.3.4 过滤器 2197.3.5 数据删除 2217.4 集群与优化编程 2227.4.1 集群管理 2227.4.2 集群监测 2247.4.3 多表与表池 2277.4.4 批处理 2307.4.5 数据迁移 2317.5 小结 234大数据仓库篇第8章 数据仓库概论 2358.1 初识数据仓库 2368.1.1 什么是数据仓库 2368.1.2 数据仓库与数据库 2378.1.3 为什么要有数据仓库 2398.2 数据仓库的核心概念 2408.2.1 数据平台 2408.2.2 数据产品 2418.2.3 商务智能(BI) 2428.2.4 元数据 2428.2.5 OLAP 2428.2.6 ETL 2438.2.7 数据质量 2438.3 数据仓库中的数据内容划分 2438.3.1 多个数据仓库 2438.3.2 典型的数据仓库分层 2458.3.3 数据集市 2468.4 OLAP 2478.4.1 定义 2478.4.2 维度建模 2488.4.3 事实表 2508.4.4 维度表 2518.5 ETL 2518.5.1 抽取 2528.5.2 转换 2528.5.3 加载 2548.5.4 ETL元数据 2558.5.5 ETL工具 2568.6 调度和运行 2568.6.1 调度怎么工作 2578.6.2 需要考虑的其他方面 2588.6.3 简易调度示例 2598.7 数据仓库的架构 2598.8 数据仓库的展望 2608.8.1 数据仓库发展的阶段性 2608.8.2 未来的数据仓库 2628.9 小结 262第9章 Hive 2639.1 初识Hive 2649.1.1 Hive是什么 2649.1.2 Hive的部署 2649.1.3 以MySQL作为Hive的元数据库 2669.1.4 Hive的体系结构 2689.1.5 Web界面展示 2699.2 Hive命令行接口 2709.2.1 启动Hive命令行 2709.2.2 可用的命令 2719.3 Hive数据类型与常见的结构 2719.3.1 数据类型 2719.3.2 文件的存储结构 2739.4 HiveSQL 2749.4.1 数据定义语言DDL 2749.4.2 数据操纵语言DML 2779.5 Hive的自定义函数 2839.5.1 UDF 2849.5.2 UDAF 2869.5.3 UDTF 2899.6 Hive的高级使用 2929.6.1 视图 2929.6.2 索引 2939.6.3 权限 2949.6.4 Thrift服务 2969.7 使用Hive构建数据仓库 2989.7.1 原始数据和结构 2989.7.2 数据需求和模型设计 3009.7.3 各层次数据的生成 3019.8 小结 302大数据实时计算篇第10章 Storm实时系统 30310.1 大数据实时系统概述 30410.2 Kafka分布式消息系统 30510.2.1 Kafka是什么 30510.2.2 主题的工作原理 30610.2.3 分布式分区 30710.2.4 生产者、消费者 30710.2.5 数据保证 30810.2.6 Kafka系统的应用场景 30810.2.7 Kafka系统的部署 30910.3 Storm实时处理系统 31610.3.1 概述 31610.3.2 为什么使用Storm 31610.3.3 Storm系统的特点 31710.3.4 Storm系统的工作机制 31810.3.5 Storm的分组方法 31910.3.6 Storm系统的组件 32010.3.7 搭建单点Storm系统 32010.3.8 查看Storm UI 32210.3.9 搭建Storm集群 32210.3.10 Storm系统的操作实践 32310.3.11 Storm WordCount(写RDB) 32410.3.12 Storm WordCount(从Kafka读取数据) 32910.4 小结 331参考文献 332