您好,欢迎来到聚文网。 登录 免费注册
企业级大数据项目实战 用户搜索行为分析系统从0到1

企业级大数据项目实战 用户搜索行为分析系统从0到1

  • 字数: 459000
  • 装帧: 平装
  • 出版社: 清华大学出版社
  • 作者: 张伟洋
  • 出版日期: 2023-06-01
  • 商品条码: 9787302630906
  • 版次: 1
  • 开本: 16开
  • 页数: 272
  • 出版年份: 2023
定价:¥89 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
《企业级大数据项目实战:用户搜索行为分析系统从0到1》由业界资深大数据专家执笔,以实际项目为主线,涵盖了当前流行的大数据技术,技术新颖,以提升实用技能为目标。 针对项目各模块详细介绍相关的技术、工具与开发技巧,可帮助读者积累企业级项目经验。 《企业级大数据项目实战:用户搜索行为分析系统从0到1》很适合缺乏项目经验的大数据开发人员阅读,也很适合培训机构和高校实践课程的教学用书。
内容简介
《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍“企业级大数据用户搜索行为分析系统”的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解“用户行为数据采集模块”的开发,第4章讲解“用户行为数据离线分析模块”的开发,第5章讲解“用户行为数据实时分析模块”的开发,这3章采用项目导向的方式,让读者参与实际开发过程;第6章讲解“数据可视化模块”的开发,并整合各模块,测试数据流转,完成项目的开发与部署。
《企业级大数据项目实战:用户搜索行为分析系统从0到1》项目源自真实业务场景,目的是使读者通过实际项目来理解理论知识并提高实践能力。本书适合缺乏大数据项目经验的从业者阅读,也适合作为高等院校大数据专业的教学用书。
作者简介
张伟洋,从业近10年,大数据领域资深专家,拥有多年知名互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。目前从事大数据项目讲师工作,先后多次为各大高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有着深入的研究。已出版《Flink大数据分析实战》《Hadoop 3.x大数据实战》等图书。
目录
第1章项目需求描述1
1.1项目需求1
1.2项目数据流设计2
1.3项目架构设计3
1.4集群角色规划6
1.5项目开发环境介绍7
第2章项目开发环境准备9
2.1VMware中安装CentOS7操作系统9
2.1.1下载CentOS7镜像文件10
2.1.2VMware新建虚拟机12
2.1.3安装CentOS716
2.1.4启动CentOS721
2.1.5打开Shell终端22
2.2Linux系统环境配置22
2.2.1新建用户23
2.2.2修改用户权限23
2.2.3关闭防火墙24
2.2.4设置固定IP24
2.2.5修改主机名28
2.2.6新建资源目录28
2.3安装JDK29
2.4克隆虚拟机30
2.5配置主机IP映射33
2.6配置集群各节点SSH无密钥登录34
2.6.1SSH无密钥登录原理34
2.6.2SSH无密钥登录操作步骤35
2.7搭建Hadoop分布式集群36
2.7.1搭建思路37
2.7.2搭建Hadoop集群37
2.8动手练习45
第3章用户行为数据采集模块开发46
3.1用户行为数据来源47
3.1.1构建测试数据47
3.1.2数据预处理48
3.2使用Flume采集用户行为数据48
3.2.1Flume采集架构49
3.2.2Flume组件51
3.2.3Flume的安装与测试52
3.2.4配置Flume多节点数据采集55
3.3使用Kafka中转用户行为数据57
3.3.1ZooKeeper集群的搭建58
3.3.2ZooKeeper集群的启动与连接60
3.3.3Kafka集群的搭建61
3.3.4Kafka集群的启动与查看63
3.3.5Kafka主题操作64
3.4Flume数据实时写入Kafka67
3.4.1数据流架构67
3.4.2配置centos03节点的Flume67
3.4.3启动Flume68
3.4.4测试数据流转69
3.5使用HBase存储用户行为数据69
3.5.1HBase集群的架构70
3.5.2HBase集群的搭建73

3.5.3HBase集群的启动、查看与停止75
3.5.4测试HBase数据表操作77
3.5.5创建HBase用户行为表结构80
3.6Flume数据实时写入HBase81
3.6.1数据流架构81
3.6.2配置centos03节点的Flume81
3.6.3Flume写入HBase原理分析83
3.6.4用户行为日志匹配测试84
3.6.5启动Flume85
3.6.6测试数据流转86
3.7动手练习87
第4章用户行为数据离线分析模块开发88
4.1Hive安装88
4.1.1Hive内嵌模式安装89
4.1.2Hive本地模式安装92
4.1.3Hive远程模式安装94
4.2Hive数据库操作97
4.2.1创建数据库97
4.2.2修改数据库97
4.2.3选择数据库99
4.2.4删除数据库99
4.2.5显示数据库99
4.3Hive表操作100
4.3.1内部表操作101
4.3.2外部表操作105
4.4Hive离线分析用户行为数据107
4.4.1创建用户行为表并导入数据107
4.4.2统计前10个访问量优选的用户ID及访问数量108
4.4.3分析链接排名与用户点击的相关性109
4.4.4分析一天中上网用户最多的时间段109
4.4.5查询用户访问最多的前10个网站域名110
4.5Hive集成HBase分析用户行为数据110
4.5.1Hive集成HBase的原理111
4.5.2Hive集成HBase的配置111
4.5.3Hive分析HBase用户行为表数据112
4.6Spark集群的搭建114
4.6.1应用提交方式114
4.6.2搭建集群116
4.7Spark应用程序的提交118
4.7.1spark-submit工具的使用118
4.7.2执行Spark圆周率程序119
4.7.3SparkShell的启动120
4.8SparkRDD算子运算121
4.8.1SparkRDD特性121
4.8.2创建RDD123
4.8.3转换算子运算124
4.8.4行动算子运算130
4.9使用IntelliJIDEA创建Scala项目131
4.9.1在IDEA中安装Scala插件132
4.9.2创建Scala项目133
4.10SparkWordCount项目的创建与运行134
4.10.1创建Maven管理的Spark项目135
4.10.2编写WordCount程序137
4.10.3提交WordCount程序到集群138
4.10.4查看SparkWebUI139
4.10.5查看程序执行结果141
4.11SparkRDD读写HBase141
4.11.1读取HBase表数据142
4.11.2写入HBase表数据144
4.12使用SparkSQL实现单词计数151
4.12.1SparkSQL编程特性151
4.12.2SparkSQL的基本使用153
4.12.3SparkSQL实现单词计数155
4.13SparkSQL数据源操作159
4.13.1基本操作159
4.13.2Parquet文件164
4.13.3JSON数据集166
4.13.4Hive表167
4.13.5JDBC169
4.14SparkSQL与Hive整合分析170
4.14.1整合Hive171
4.14.2操作Hive173
4.15SparkSQL整合MySQL存储分析结果175
4.15.1MySQL数据准备175
4.15.2读取MySQL表数据176
4.15.3写入结果数据到MySQL表177
4.16SparkSQL热点搜索词统计179
4.16.1开窗函数的使用179
4.16.2热点搜索词统计实现181
4.17SparkSQL搜索引擎每日UV统计184
4.17.1内置函数的使用184
4.17.2搜索引擎每日UV统计实现186
4.18动手练习187
第5章用户行为数据实时分析模块开发189
5.1SparkStreaming程序编写189
5.1.1SparkStreaming工作原理189
5.1.2输入DStream和Receiver191
5.1.3第一个SparkStreaming程序191
5.2SparkStreaming数据源193
5.2.1基本数据源193
5.2.2高级数据源195
5.2.3自定义数据源196
5.3DStream操作199
5.3.1无状态操作199
5.3.2状态操作200
5.3.3窗口操作202
5.3.4输出操作203
5.3.5缓存及持久化205
5.3.6检查点205
5.4SparkStreaming按批次累加单词数量207
5.4.1编写应用程序207
5.4.2运行应用程序209
5.4.3查看SparkWebUI210
5.5SparkStreaming整合Kafka计算实时单词数量211
5.5.1整合原理212
5.5.2编写应用程序213
5.5.3运行应用程序216
5.6StructuredStreaming快速实时单词计数217
5.7StructuredStreaming编程模型220
5.8StructuredStreaming查询输出221
5.8.1输出模式222
5.8.2外部存储系统与检查点223
5.9StructuredStreaming窗口操作224
5.9.1事件时间225
5.9.2窗口聚合单词计数226


5.9.3延迟数据和水印229

……

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网