大数据采集与处理--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书是一本专门论述大数据采集与处理相关技术及应用的著作，也是一线研发工程师的实战经验结晶。本书依次介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等相关内容，并结合大数据应用各行业背景，介绍了电商、煤炭、教育、医疗、电信、交通等行业的大数据采集与处理。最后，本书以某电商网站数据分析为背景，介绍一个完整的数据采集、清洗、处理的离线数据分析案例，以期给读者展示一个系统的实践操作过程。与本书所述技术相关的论著较少，所著内容新颖、系统全面、实践指导性强，既适合大数据、人工智能等领域的工程技术人员学习参考，也可作为高等院校计算机学科大数据及其相关专业的本科生和研究生教材。

作者简介

张雪萍，博士，教授，教育部新世纪优秀人才支持计划入选者，河南省高校科技创新人才支持计划入选者，河南省教育厅学术技术带头人，全国高等学校计算机教育研究会理事，现任河南工业大学中英国际学院（软件学院）副院长。长期从事计算机科学与技术、地理信息系统领域的教学与科研工作，主要研究兴趣包括空间数据挖掘与信息共享、智能信息处理技术等。近年来完成国家“八五”科技攻关项目、“十五”科技攻关项目、河南省自然科学基金研究项目等20余项科研项目；在国内外学术期刊上发表论文60余篇，其中30余篇被EI收录；出版学术著作6部并获河南省信息技术优秀一等奖1项、二等奖1项。

第1章大数据基础1
1．1大数据概念及特征1
1．2大数据采集与处理基本流程2
1．2．1大数据采集3
1．2．2大数据预处理3
1．2．3大数据处理4
1．3大数据分析5
1．4大数据应用6
1．4．1大数据应用行业分类6
1．4．2大数据分析在商业上的应用7
习题9
参考文献9
第2章开源Hadoop10
2．1Hadoop概述10
2．1．1Hadoop简介10
2．1．2Hadoop起源及发展史11
2．1．3Hadoop发行版本12
2．1．4Hadoop特性13
2．2Hadoop生态系统13
2．2．1HDFS14
2．2．2MapReduce15
2．2．3Hive15
2．2．4ZooKeeper16
2．2．5Flume17
2．2．6Kafka17
2．2．7Spark18
2．2．8Storm19
2．2．9Flink20
2．2．10YARN20
2．3Hadoop的安装与使用21
2．3．1环境准备22
2．3．2单机模式24
2．3．3伪分布式25
2．3．4接近分布式安装38
习题44
参考文献45
第3章大数据采集46
3．1数据采集与大数据采集46
3．1．1数据采集47
3．1．2大数据采集及数据来源47
3．1．3传统数据采集与大数据采集的区别48
3．1．4大数据采集分类48
3．2大数据采集方法49
3．2．1数据库采集50
3．2．2系统日志采集50
3．2．3网络数据采集51
3．2．4传感器采集51
3．2．5众包采集51
3．3常用采集工具及平台52
3．3．1Flume52
3．3．2Fluentd53
3．3．3Logstash55
3．3．4Chukwa56
3．3．5Scribe57
3．3．6Splunk58
3．3．7Scrapy59
3．4网络爬虫61
3．4．1网络爬虫分类61
3．4．2网络爬虫发展现状62
3．4．3网络爬虫使用技术63
3．5实战64
3．5．1项目准备64
3．5．2架构设计65
3．5．3代码实现66
3．5．4结果展示73
习题78
参考文献78
第4章日志采集79
4．1日志采集概述79
4．1．1系统日志分类79
4．1．2日志分析系统架构及日志采集方式80
4．1．3日志采集应用场景与日志分析应用场景81
4．1．4日志采集系统关键技术82
4．2Scribe83
4．2．1Scribe概述83
4．2．2Scribe全局配置83
4．2．3Scribe的存储类型配置84
4．3Chukwa88
4．3．1Chukwa概述88
4．3．2Chukwa架构88
4．3．3Chukwa数据收集应用89
4．4Kafka90
4．4．1Kafka概述90
4．4．2Kafka架构91
4．4．3Kafka日志采集93
4．5Flume94
4．5．1Flume概述94
4．5．2Flume架构95
4．5．3Flume的优势95
4．6实战95
4．6．1Flume安装部署96
4．6．2环境测试98
4．6．3采集目录到HDFS99
4．6．4采集文件到HDFS100
习题101
参考文献101
第5章大数据预处理102
5．1为什么要进行数据预处理102
5．2大数据预处理总体架构104
5．3大数据预处理方法105
5．3．1数据清洗105
5．3．2数据集成108
5．3．3数据转换109
5．3．4数据消减110
5．4ETL工具Kettle116
5．4．1ETL介绍116
5．4．2Kettle介绍119
5．4．3Kettle安装与配置142
5．5实战151
5．5．1基于Python的数据预处理151
5．5．2基于Hadoop生态圈的Kettle应用155
习题179
参考文献180
第6章大数据存储182
6．1大数据存储概述183
6．1．1大数据存储面临的问题183
6．1．2大数据存储方式184
6．1．3大数据存储技术路线184
6．2HDFS185
6．2．1HDFS架构186
6．2．2HDFS存储机制187
6．2．3NameNode和DataNode工作机制190
6．3NoSQL193
6．3．1NoSQL数据库概述193
6．3．2HBase198
6．3．3MongoDB206
6．3．4Redis214
6．4ElasticSearch220
6．4．1ElasticSearch概述220
6．4．2ElasticSearch基本概念221
6．4．3ElasticSearch工作原理223
6．4．4ElasticSearch存储机制224
6．4．5ElasticSearch分布式存储226
6．4．6ElasticSearch安装与运行229
6．5实战231
6．5．1主从模式搭建231
6．5．2Sentinel模式搭建235
6．5．3Cluster模式搭建238
习题245
参考文献245
第7章MapReduce246
7．1概述246
7．2MapReduce计算框架247
7．2．1MapReduce模型247
7．2．2MapReduce函数249
7．2．3MapReduce资源管理250
7．2．4MapReduce生命周期管理251
7．3MapReduce工作流程及原理253
7．3．1MapReduce工作流程253
7．3．2MapReduce工作原理254
7．4深入Shuffle过程255
7．4．1Map端Shuffle256
7．4．2Reduce端Shuffle260
7．5实战262
7．5．1任务准备262
7．5．2编写Map程序262
7．5．3编写Reduce程序263
7．5．4编写main函数265
7．5．5核心代码包265
7．5．6运行代码266
习题266
参考文献267
第8章Hive数据仓库268
8．1数据仓库简介269
8．1．1数据仓库概念269
8．1．2数据仓库的结构269
8．1．3传统数据仓库的问题271
8．1．4数据仓库的发展271
8．2Hive272
8．2．1Hive简介272
8．2．2Hive与传统数据库的对比273
8．2．3Hive系统架构275
8．2．4Hive体系结构276
8．2．5Hive工作原理277
8．2．6Hive的数据模型283
8．2．7Hive基本操作284
8．3Impala288
8．3．1Impala简介288
8．3．2Impala架构290
8．3．3Impala执行过程292
8．3．4Impala与Hive比较294
8．3．5Impala基本操作294
8．4SparkSQL296
8．4．1SparkSQL简介296
8．4．2SparkSQL系统架构297
8．4．3HiveContext和SQLContext的运行过程298
8．4．4Shark和SparkSQL299
8．4．5SparkSQL基本操作303
8．5案例305
8．5．1大数据仓库设计案例305
8．5．2YouTuBe项目实战307
习题318
参考文献318
第9章流计算319
9．1流计算简介319
9．1．1流计算的概念及特点320
9．1．2流计算的适用范围与应用场景321
9．2SparkStreaming321
9．2．1SparkStreaming概述321
9．2．2SparkStreaming基本原理322
9．2．3SparkStreaming运行架构322
9．2．4实战323
9．3Storm325
9．3．1Storm概述326
9．3．2Storm基础架构326
9．3．3Storm运行流程327
9．3．4实战328
9．4Flink332
9．4．1Flink概述333
9．4．2Flink运行架构335
9．4．3实战336
9．5案例341
9．5．1任务目标341
9．5．2实验环境341
9．5．3数据准备341
9．5．4业务（任务）实现344
9．5．5结果展示350
习题351
参考文献351
第10章Pregel图计算352
10．1Pregel图计算简介353
10．1．1图结构数据353
10．1．2传统图计算解决方案的不足353
10．1．3图计算通用软件353
10．1．4Pregel简介354
10．2Pregel图计算模型355
10．2．1有向图和顶点355
10．2．2顶点之间的消息传递355
10．2．3Pregel计算过程356
10．3Pregel工作原理358
10．3．1Pregel的C++API358
10．3．2消息传递机制和Combiner358
10．3．3Aggregator机制359
10．3．4拓扑改变360
10．3．5输入和输出360
10．4Pregel体系结构360
10．4．1Pregel的执行过程360
10．4．2容错性362
10．4．3Worker363
10．4．4Master363
10．4．5Aggregator364
10．5Pregel应用实例365
10．5．1单源最短路径365
10．5．2PageRank算法实现及比较367
10．6Hama371
10．6．1Hama介绍371
10．6．2Hama体系结构371
10．6．3Hama实现PageRank算法372
习题374
参考文献374
第11章大数据安全技术及应用375
11．1大数据安全概述376
11．2大数据安全威胁形式376
11．2．1大数据基础设施安全威胁376
11．2．2大数据生命周期安全威胁377
11．2．3大数据隐私安全威胁379
11．3大数据安全关键路径380
11．3．1大数据性能安全保障380
11．3．2大数据安全关键技术387
11．4大数据安全管理及应用391
11．4．1大数据安全管理392
11．4．2大数据安全应用394
11．5大数据安全案例分析398
11．5．1安全性能案例——如何自行搭建大数据计算平台398
11．5．2生命周期安全分析案例——大数据内网的硬件漏洞安全分析400
习题403
参考文献403
第12章行业大数据采集与处理404
12．1电商大数据采集与处理404
12．1．1电商行业大数据概述404
12．1．2京东大数据采集与处理404
12．1．3某电商网站完整离线数据分析案例410
12．2煤炭大数据采集与处理423
12．2．1煤炭行业大数据概述423
12．2．2煤炭行业大数据采集与处理424
12．2．3煤炭行业大数据平台案例425
12．3教育大数据采集与处理432
12．3．1总体技术架构432
12．3．2Hadoop与Spark集成平台433
12．3．3数据采集方案设计434
12．3．4数据清洗方案设计435
12．3．5数据存储方案设计436
12．3．6学生学业预警系统需求分析437
12．3．7系统体系结构设计438
12．4医疗大数据采集与处理439
12．4．1医疗大数据概述439
12．4．2医疗行业大数据采集与处理441
12．4．3医疗大数据采集与处理案例443
12．5电信大数据采集与处理447
12．5．1电信行业大数据概述448
12．5．2电信行业大数据采集与处理450
12．5．3电信行业大数据案例452
12．6交通大数据采集与处理455
12．6．1交通大数据概述456
12．6．2交通行业大数据采集与处理461
12．6．3交通大数据案例466
习题476
参考文献477

大数据采集与处理

库存： {{selectedSku?.stock}} 库存充足

上架到店铺