ISBN:978-7-313-22423-1
主编:康开锋、赵克宝、刘斌
出版社:上海交大
适用层次:通用
出版/修订日期:2025-04-01
¥68.00
本书以开发实战为原则,以Hadoop及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。全书共10章,内容包括Hadoop基础知识、搭建Hadoop分布式集群、搭建Eclipse开发环境、Hadoop分布式文件系统、Hadoop的I/O操作、MapReduce基础与编程、Hive实战、HBase实战、Spark实战、天气数据分析实战。
本书内容全面、案例典型、实用性强,且配套资源丰富,涵盖程序源代码、软件资源、习题答案、优质课件和核心内容的视频讲解等,可作为各类院校计算机、大数据、信息管理等相关专业的教材。
第1章 Hadoop基础知识
本章导读
学习目标
素质目录
1.1 Hadoop概述
1.1.1 什么是Hadoop
1.1.2 Hadoop的产生与发展
1.1.3 Hadoop的版本变迁
1.1.4 Hadoop的基本特性
1.2 Hadoop生态系统
1.3 Hadoop与Spark对比分析
1.4 Hadoop的应用场景
1.4.1 Hadoop在互联网领域的应用
1.4.2 Hadoop在通信领域的应用
1.4.3 Hadoop在交通领域的应用
本章小结
思考与练习
第2章 搭建Hadoop分布式集群
本章导读
学习目标
素质目录
2.1 创建虚拟机并安装CentOS 7
2.1.1 安装虚拟机软件
2.1.2 下载CentOS 7镜像文件
2.1.3 创建新的虚拟机
2.1.4 安装CentOS 7操作系统
2.2 配置虚拟机集群环境
2.2.1 修改主机名和设置固定IP
2.2.2 关闭防火墙和新建安装目录
2.2.3 安装和配置JDK
2.2.4 克隆虚拟机和配置主机IP映射
2.2.5 配置集群各节点SSH免密码登录
2.3 搭建Hadoop高可用集群
2.3.1 安装与配置ZooKeeper
2.3.2 安装与配置Hadoop
2.3.3 启动与测试Hadoop
本章小结
思考与练习
第3章 搭建Eclipse开发环境
本章导读
学习目标
素质目录
3.1 搭建Hadoop伪分布式环境
3.2 在Eclipse中配置Hadoop开发环境
3.2.1 在Windows中安装和配置JDK
3.2.2 在Windows中安装和配置Eclipse
3.3 演示Hadoop自带的单词统计程序
本章小结
思考与练习
第4章 Hadoop分布式文件系统
本章导读
学习目标
素质目录
4.1 HDFS概述
4.1.1 HDFS的设计目标和不足
4.1.2 HDFS的体系结构
4.2 数据错误与恢复
4.2.1 block损坏处理
4.2.2 NameNode和DataNode错误处理
4.3 HDFS的运行机制
4.3.1 副本机制
4.3.2 心跳机制
4.3.3 副本放置与机架感知策略
4.3.4 Federation机制
4.3.5 HA机制
4.3.6 安全模式
4.3.7 垃圾回收
4.4 HDFS的工作流程
4.4.1 启动流程
4.4.2 读流程
4.4.3 写流程
4.4.4 删除流程
4.5 HDFS的基本操作
4.5.1 HDFS命令行操作
4.5.2 HDFS Java API操作
本章小结
思考与练习
第5章 Hadoop的I/O操作
本章导读
学习目标
素质目录
5.1 数据完整性
5.1.1 HDFS的数据完整性
5.1.2 验证数据完整性
5.2 序列化与反序列化
5.2.1 序列化
5.2.2 反序列化
5.3 数据压缩
5.3.1 压缩与解压缩方法Codec
5.3.2 压缩与输入分片
5.4 Hadoop文件的数据结构
5.4.1 SequenceFile
5.4.2 MapFile
本章小结
思考与练习
第6章 MapReduce基础与编程
本章导读
学习目标
素质目录
6.1 MapReduce概述
6.1.1 分布式并行计算
6.1.2 MapReduce的含义
6.1.3 MapReduce的特点
6.2 MapReduce的工作流程
6.2.1 输入分片和数据格式化
6.2.2 Map过程
6.2.3 Shuffle过程
6.2.4 Reduce过程
6.3 案例解析——单词统计编程
6.3.1 案例描述
6.3.2 设计思路
6.3.3 执行过程
6.3.4 编程实现
6.3.5 运行程序
6.3.6 数据优化
6.4 案例解析——二次排序编程
6.4.1 案例描述
6.4.2 设计思路
6.4.3 编程实现
6.4.4 运行程序
本章小结
思考与练习
第7章 Hive实战
本章导读
学习目标
素质目录
7.1 Hive概述
7.1.1 什么是Hive
7.1.2 Hive的文件存储格式
7.1.3 Hive支持的数据类型
7.1.4 Hive中常用的函数
7.2 安装与验证Hive
7.2.1 安装MySQL
7.2.2 安装和配置Hive
7.2.3 验证Hive
7.3 HiveQL详解
7.3.1 数据库操作
7.3.2 表操作
7.3.3 数据查询
7.3.4 索引和视图
7.4 Hive复合数据类型
7.5 用户自定义函数
7.5.1 编写UDF
7.5.2 编写UDAF
7.6 Hive的JDBC操作
7.7 数据迁移工具Sqoop
7.7.1 安装和配置Sqoop
7.7.2 将MySQL数据导入到Hive
7.7.3 将Hive数据导出到MySQL
本章小结
思考与练习
第8章 HBase实战
本章导读
学习目标
素质目录
8.1 HBase概述
8.1.1 什么是HBase
8.1.2 逻辑视图与模式设计
8.2 安装HBase
8.2.1 单机模式
8.2.2 伪分布式模式
8.2.3 完全分布式模式
8.3 HBase Shell命令操作
8.4 HBase Java API操作
8.5 Phoenix实战
8.5.1 安装Phoenix
8.5.2 Phoenix基础操作
本章小结
思考与练习
第9章 Spark实战
本章导读
学习目标
素质目录
9.1 Spark概述
9.1.1 什么是Spark
9.1.2 Spark的主要组件
9.2 安装Spark
9.2.1 安装Scala
9.2.2 伪分布式模式
9.2.3 完全分布式模式
9.3 Spark RDD
9.3.1 转化算子
9.3.2 行动算子
9.3.3 RDD依赖关系
9.4 Spark Java API操作
9.4.1 新建Maven项目
9.4.2 转化操作
9.4.3 行动操作
9.5 案例解析——单词统计编程
本章小结
思考与练习
第10章 天气数据分析实战
本章导读
学习目标
素质目录
10.1 案例简介
10.1.1 背景介绍
10.1.2 案例目的
10.1.3 案例流程
10.2 数据采集
10.2.1 分析页面
10.2.2 采集数据
10.2.3 用Sqoop将MySQL数据导入Hive
10.3 数据预处理
10.3.1 缺失值处理
10.3.2 数据格式化
10.3.3 数据去重
10.3.4 数据分区
10.4 数据分析
10.4.1 月气温分析
10.4.2 各城市每月中晴天的天数统计
10.4.3 北京市霾天气的初步分析
本章小结
参考文献
创建虚拟机并安装CentOS 7
修改主机名和设置固定IP
关闭防火墙和新建安装目录
安装和配置JDK
克隆虚拟机和配置主机IP映射
配置集群各节点SSH免密码登录
安装与配置ZooKeeper
安装与配置Hadoop
启动与测试Hadoop
搭建Hadoop伪分布式环境
在Windows中安装和配置JDK
在Windows中安装和配置Eclipse
演示Hadoop自带的单词统计程序
HDFS命令行操作
HDFS Java API操作
验证数据完整性
序列化
压缩与解压缩方法Codec
SequenceFile
MapFile
单词统计编程实现
运行单词统计程序
二次排序编程实现
运行二次排序程序
安装MySQL
安装和配置Hive
验证Hive
数据库操作
表操作
数据查询
索引和视图
Hive复合数据类型
用户自定义函数
Hive的JDBC操作
数据迁移工具Sqoop
单机模式
伪分布式模式
完全分布式模式
HBase Shell命令操作
HBase Java API操作
Phoenix实战
安装Scala
伪分布式模式
完全分布式模式
新建Maven项目
转化操作
行动操作
案例解析——单词统计编程
分析页面
采集数据
用Sqoop将MySQL数据导入Hive
数据预处理
月气温分析
各城市每月中晴天的天数统计
北京市霾天气的初步分析
封面和样张
课件
教案
课程标准
答案
素材
软件资源
程序源代码
没有微课下载权限,如需下载请先购买~
Hadoop大数据处理实战(双色)(含微课)微课
¥0微信支付
支付宝支付
购物车
联系客服
APP下载
帮助
微信公众号
教师服务号
学生服务号
返回顶部
验证身份
重置密码
完成
*请输入正确的手机号
*请输入验证码
验证身份
重置密码
完成
*请输入密码
*请输入密码
验证身份
重置密码
完成
5s 跳转登录页
*请输入密码
*请输入密码
0M/0M
文件加载中,请耐心等待