您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
大数据工程项目开发实战活页式教程
装帧: 平装
出版社: 电子工业出版社
作者: 王倩
出版日期: 2024-01-01
商品条码: 9787121468001
版次: 1
开本: 其他
页数: 268
出版年份: 2024
定价:
¥68
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书的章节设置是为适应大数据开发应用产业对高素质技术技能型人才的职业需求,覆盖大数据行业典型工作流程岗位,包括大数据平台与相关工具配置、数据处理与计算、数据分析与可视化展现等。综合项目章节选取典型的大数据真实业务分析应用场景围绕对Hadoop集群的安装部署、管理及MapReduce计算,并包含大数据处理相关算法应用与软件工具运用,从而激发学生对大数据知识和技术的学习兴趣,提升学生职业素养和职业技能,努力为中国大数据应用产业发展储备及输送新鲜血液。 本书理念优选,内容新颖,并以注重实用、提高技能为目的,通过大量的实例和实训内容,帮助读者提高应用技能,本书基于VMware workstation 14平台和linux Centos 7操作系统为基础搭建hadoop环境,除了讲解案例开发的基础原理,更是以实际项目案例为线索在操作细节,使用交互等方面给与了详细的介绍。
目录
第1章 数据 1 1.1 数据流与大数据 1 1.1.1 数据产生 2 1.1.2 数据采集 3 1.1.3 数据存储和管理 4 1.2 数据平台与技术 5 1.2.1 离线数据平台的 相关技术 6 1.2.2 实时数据平台的 相关技术 7 习题1 9 上机实验1 大数据架构和 组件选型 9 第2章 搭建大数据集群环境 11 2.1 集群环境安装准备 11 2.1.1 学习任务:创建虚拟机 11 2.1.2 启动虚拟机并安装 Linux操作系统 15 2.1.3 克隆虚拟机 18 2.1.4 Linux操作系统 网络配置 20 2.1.5 SSH操作配置 25 2.2 安装JDK 29 2.3 ZooKeeper集群部署 31 2.3.1 ZooKeeper集群的 安装与配置 31 2.3.2 ZooKeeper集群的 启动与关闭 33 2.4 Hadoop集群部署 34 2.4.1 Hadoop高可用 集群规划 35 2.4.2 安装Hadoop 36 2.4.3 Hadoop高可用 集群配置 37 2.4.4 启用Hadoop 高可用集群 42 习题2 45 上机实验2 VMware Workstation 的安装和使用 46 第3章 Hadoop核心组件原理与实践 47 3.1 分布式文件系统HDFS的 认识与操作 47 3.1.1 HDFS体系结构的认识 47 3.1.2 HDFS Shell操作 51 3.1.3 HDFS API操作 56 3.2 分布式计算框架MapReduce 的认识与操作 70 3.2.1 MapReduce的认识 71 3.2.2 MapReduce编程模型 72 3.2.3 MapReduce WordCount 编程实例 74 3.3 YARN与Hadoop新特性 的认识 86 3.3.1 Hadoop2.0的认识 87 3.3.2 YARN体系结构的认识 88 3.3.3 YARN工作流程的认识 90 习题3 91 上机实验3 优选气温统计案例 93 第4章 数据仓库Hive应用实践 94 4.1 离线大数据处理技术Hive 94 4.1.1 Hive出现背景 94 4.1.2 Hive功能描述 95 4.1.3 Hive基本架构 95 4.1.4 Hive数据存储 97 4.1.5 Hive环境部署 98 4.2 Hive SQL 103 4.2.1 Hive关键概念 103 4.2.2 Hive数据库 104 4.2.3 Hive表DDL和DML 104 4.3 Hive SQL查询语句 109 4.3.1 select语句 110 4.3.2 group by语句 110 4.3.3 join语句 111 4.3.4 Hive内置函数 112 4.3.5 其他技术 113 4.4 数据倾斜 114 4.4.1 产生原因 114 4.4.2 数据倾斜的表现 115 4.4.3 Hive优化 115 4.5 join无关的优化 118 4.5.1 group by引起的 数据倾斜优化 118 4.5.2 count distinct优化 119 4.6 Hive用户自定义函数接口 120 4.6.1 概述 120 4.6.2 UDF概述 120 4.6.3 需求分析 121 4.6.4 UDF使用 121 4.7 综合案例―Olist巴西 电子商务网站数据分析 122 4.7.1 案例背景描述 122 4.7.2 案例数据模型 123 4.7.3 案例任务描述 124 4.7.4 数据采集 125 4.7.5 数据清洗和聚合 125 4.7.6 数据分析 131 4.7.7 案例总结 135 习题4 135 上机实验4 Hive离线数据 统计案例 137 第5章 离线处理辅助系统 138 5.1 Flume日志采集 138 5.1.1 Flume简介 138 5.1.2 Flume日志采集 系统结构 139 5.1.3 Flume安装配置 141 5.1.4 Flume负载均衡 142 5.1.5 综合案例―Flume 多数据源分类采集 155 5.2 Kafka消息订阅 159 5.2.1 Kafka简介 159 5.2.2 Kafka核心组件介绍 160 5.2.3 Kafka工作流程分析 163 5.2.4 安装Kafka 165 5.2.5 Kafka的命令行 使用方式 168 5.3 Sqoop数据迁移 168 5.3.1 Sqoop简介 169 5.3.2 Sqoop的作用 169 5.3.3 Sqoop的安装 170 5.3.4 导入MySQL数据 到HDFS 171 5.3.5 导出HDFS数据 到MySQL 171 5.3.6 案例一 172 5.3.7 案例二 173 习题5 175 上机实验5 离线处理组件的 安装配置 176 第6章 Spark流计算开发实践 178 6.1 Spark概述 178 6.1.1 Spark优点 178 6.1.2 Spark生态系统 180 6.1.3 Spark环境部署 181 6.2 SparkCore 182 6.2.1 RDD概述 183 6.2.2 RDD Transformation 185 6.2.3 RDD Action 187 6.2.4 RDD依赖 189 6.2.5 RDD缓存 190 6.2.6 Spark运行架构 191 6.2.7 Checkpoint 193 6.2.8 基于RDD的 Spark编程 194 6.3 Spark SQL 203 6.3.1 Spark SQL概述 204 6.3.2 Spark SQL编程 205 6.3.3 Spark SQL外部 数据源操作 209 6.4 Spark Streaming 214 6.4.1 Spark Streaming流 处理框架概述 214 6.4.2 Spark Streaming 核心概念 216 6.4.3 Spark Streaming编程 218 6.4.4 Spark Streaming整合 Flume 222 6.4.5 Spark Streaming整合 Kafka的两种方式 222 6.5 综合案例―Spark城市 旅游热力图 225 习题6 229 上机实验6 词频统计 230 第7章 大数据平台项目实战 231 7.1 项目介绍 231 7.2 项目架构设计及技术选型 232 7.3 数据采集 232 7.3.1 准备数据采集 开发环境 233 7.3.2 分析网页数据结构 233 7.4 数据预处理 235 7.4.1 网页数据深度分析 236 7.4.2 把数据上传到 HDFS集群中 240 7.5 数据分析 242 7.5.1 建立数据仓库 243 7.5.2 薪资区间分布分析 245 7.5.3 公司福利标签 词频分析 247 7.5.4 职位技能需求 词频统计 248 7.5.5 城市词频统计 249 7.6 数据导出 250 7.6.1 Sqoop安装 251 7.6.2 Sqoop配置 251 7.6.3 验证Sqoop安装 251 7.6.4 创建MySQL数据仓库 252 7.6.5 使用Sqoop导出数据 至MySQL 252 7.7 数据可视化 256 7.7.1 利用PyMySQL读取 数据到内存中 256 7.7.2 使用PyEcharts画图 257
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网