您好,欢迎来到聚文网。 登录 免费注册
大数据技术入门

大数据技术入门

  • 字数: 486千字
  • 装帧: 简装
  • 出版社: 清华大学出版社
  • 作者: 杨正洪 著
  • 出版日期: 2016-08-01
  • 商品条码: 9787302442837
  • 版次: 1
  • 开本: 其他
  • 页数: 291
  • 出版年份: 2016
定价:¥59 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
从2015年开始,靠前大数据市场继续保持高速的发展态势,作者在与地方政府、证券金融公司的项目合作中发现,他们对大数据技术很感兴趣,并希望从大数据技术、大数据采集、管理、分析以及可视化等方面得到指导和应用帮助。因此编写了这本大数据技术的快速入门书。 本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析等内容。很后还给出两个案例:环保大数据和公安大数据,供读者参考。 本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员,IT经理,CTO,CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。
作者简介
杨正洪,靠前知名大数据专家,毕业于美国State University of New York at Stony Brook,在IBM公司从事大数据相关研发工作12年多。从2003~2013年,杨正洪在美国加州的IBM硅谷实验室(IBM Silicon Valley Lab)负责IBM大数据平台的设计、研发和实施,主持了保险行业、金融行业、政府行业的大数据系统的架构设计和实施。
目录
第1章大数据时代1
1.1什么是大数据1
1.2大数据的四大特征2
1.3大数据的商用化3
1.4大数据分析5
1.5大数据与云计算的关系5
1.6大数据的国家战略6
1.6.1政府大数据的价值7
1.6.2政府大数据的应用场景8
1.7企业如何迎接大数据8
1.7.1评估大数据方案的维度9
1.7.2业务价值维度10
1.7.3数据维度11
1.7.4现有IT环境和成本维度12
1.7.5数据治理维度13
1.8大数据产业链分析14
1.8.1技术分析14
1.8.2角色分析15
1.8.3大数据运营17
1.9大数据交易18
1.10大数据之我见19
第2章大数据软件框架20
2.1Hadoop框架20
2.1.1HDFS(分布式文件系统)21
2.1.2MapReduce(分布式计算框架)22
2.1.3YARN(集群资源管理器)25
2.1.4Zookeeper(分布式协作服务)28
2.1.5Ambari(管理工具)29
2.2Spark(内存计算框架)29
2.2.1Scala31
2.2.2SparkSQL32
2.2.3SparkStreaming33
2.3实时流处理框架34
2.4框架的选择35
第3章安装与配置大数据软件36
3.1Hadoop发行版36
3.1.1Cloudera36
3.1.2HortonWorks37
3.1.3MapR38
3.2安装Hadoop前的准备工作39
3.2.1Linux主机配置40
3.2.2配置Java环境41
3.2.3安装NTP和python42
3.2.4安装和配置openssl43
3.2.5启动和停止特定服务44
3.2.6配置SSH无密码访问44
3.3安装Ambari和HDP45
3.3.1配置安装包文件45
3.3.2安装Ambari46
3.3.3安装和配置HDP47
3.4初识Hadoop49
3.4.1启动和停止服务50
3.4.2使用HDFS51
3.5Hadoop的特性52
第4章大数据存储:文件系统53
4.1HDFSshell命令53
4.2HDFS配置文件55
4.3HDFSAPI编程57
4.3.1读取HDFS文件内容57
4.3.2写HDFS文件内容60
4.4HDFSAPI总结62
4.4.1Configuration类62
4.4.2FileSystem抽象类62
4.4.3Path类63
4.4.4FSDataInputStream类63
4.4.5FSDataOutputStream类63
4.4.6IOUtils类63
4.4.7FileStatus类64
4.4.8FsShell类64
4.4.9ChecksumFileSystem抽象类64
4.4.10其他HDFSAPI实例64
4.4.11综合实例67
4.5HDFS文件格式69
4.5.1SequenceFile70
4.5.2TextFile(文本格式)70
4.5.3RCFile70
4.5.4Avro72
第5章大数据存储:数据库73
5.1NoSQL73
5.2HBase管理74
5.2.1HBase表结构75
5.2.2HBase系统架构78
5.2.3启动并操作HBase数据库80
5.2.4HBaseShell工具82
5.3HBase编程86
5.3.1增删改查API86
5.3.2过滤器90
5.3.3计数器93
5.3.4原子操作94
5.3.5管理API94
5.4其他NoSQL数据库95
第6章大数据访问:SQL引擎层97
6.1Phoenix97
6.1.1安装和配置Phoenix98
6.1.2在eclipse上开发phoenix程序104
6.1.3PhoenixSQL工具108
6.1.4PhoenixSQL语法109
6.2Hive111
6.2.1Hive架构111
6.2.2安装Hive112
6.2.3Hive和MySQL的配置114
6.2.4HiveCLI115
6.2.5Hive数据类型115
6.2.6HiveQLDDL119
6.2.7HiveQLDML121
6.2.8Hive编程123
6.2.9HBase集成125
6.2.10XML和JSON数据127
6.2.11使用Tez128
6.3Pig130
6.3.1Pig语法131
6.3.2Pig和Hive的使用场景比较134
6.4ElasticSearch(全文搜索引擎)136
6.4.1全文索引的基础知识136
6.4.2安装和配置ES138
6.4.3ESAPI140
第7章大数据采集和导入143
7.1Flume145
7.1.1Flume架构145
7.1.2Flume事件146
7.1.3Flume源147
7.1.4Flume拦截器(Interceptor)148
7.1.5Flume通道选择器(ChannelSelector)149
7.1.6Flume通道150
7.1.7Flume接收器151
7.1.8负载均衡和单点失败153
7.1.9Flume监控管理153
7.1.10Flume实例154
7.2Kafka155
7.2.1Kafka架构156
7.2.2Kafka与JMS的异同158
7.2.3Kafka性能考虑158
7.2.4消息传送机制159
7.2.5Kafka和Flume的比较159
7.3Sqoop160
7.3.1从数据库导入HDFS160
7.3.2增量导入163
7.3.3将数据从Oracle导入Hive163
7.3.4将数据从Oracle导入HBase164
7.3.5导入所有表165
7.3.6从HDFS导出数据165
7.3.7数据验证165
7.3.8其他Sqoop功能165
7.4Storm167
7.4.1Storm基本概念168
7.4.2spout169
7.4.3bolt171
7.4.4拓扑173
7.4.5Storm总结175
7.5Splunk175
第8章大数据管理平台177
8.1大数据建设总体架构177
8.2大数据管理平台的必要性178
8.3大数据管理平台的功能179
8.3.1推进数据资源全面整合共享179
8.3.2增强数据管理水平180
8.3.3支撑创新大数据分析180
8.4数据管理平台(DMP)180
8.5EasyDoop案例分析182
8.5.1大数据建模平台183
8.5.2大数据交换和共享平台184
8.5.3大数据云平台185
8.5.4大数据服务平台186
8.5.5EasyDoop平台技术原理分析188
第9章Spark技术192
9.1Spark框架192
9.1.1安装Spark193
9.1.2配置Spark194
9.2SparkShell195
9.3Spark编程198
9.3.1编写SparkAPI程序198
9.3.2使用sbt编译并打成jar包199
9.3.3运行程序200
9.4RDD200
9.4.1RDD算子和RDD依赖关系201
9.4.2RDD转换操作203
9.4.3RDD行动(Action)操作204
9.4.4RDD控制操作205
9.4.5RDD实例205
9.5SparkSQL208
9.5.1DataFrame209
9.5.2RDD转化为DataFrame213
9.5.3JDBC数据源215
9.5.4Hive数据源216
9.6SparkStreaming217
9.6.1DStream编程模型218
9.6.2DStream操作221
9.6.3性能考虑223
9.6.4容错能力224
9.7GraphX图计算框架224
9.7.1属性图226
9.7.2图操作符228
9.7.3属性操作231
9.7.4结构操作231
9.7.5关联(join)操作233
9.7.6聚合操作234
9.7.7计算度信息235
9.7.8缓存操作236
9.7.9图算法236
第10章大数据分析238
10.1数据科学239
10.1.1探索性数据分析240
10.1.2描述统计241
10.1.3数据可视化241
10.2预测分析244
10.2.1预测分析实例244
10.2.2回归(Regression)分析预测法246
10.3机器学习247
10.3.1机器学习的市场动态248
10.3.2机器学习分类249
10.3.3机器学习算法251
10.4SparkMLib252
10.4.1MLib架构253
10.4.2MLib算法库253
10.4.3决策树257
10.5深入了解算法261
10.5.1分类算法262
10.5.2预测算法263
10.5.3聚类分析263
10.5.4关联分析264
10.5.5异常值分析算法266
10.5.6协同过滤(推荐引擎)算法267
10.6Mahout简介267
第11章案例分析:环保大数据268
11.1环保大数据管理平台268
11.2环保大数据应用平台269
11.2.1环境自动监测监控服务270
11.2.2综合查询服务272
11.2.3统计分析服务272
11.2.4GIS服务274
11.2.5视频服务274
11.2.6预警服务275
11.2.7应急服务276
11.2.8电子政务服务277
11.2.9智能化运营管理系统279
11.2.10环保移动应用系统279
11.2.11空气质量发布系统280
11.3环保大数据分析系统280
第12章案例分析:公安大数据281
12.1总体架构设计281
12.2建设内容282
12.3建设步骤284
附录1数据量的单位级别285
附录2LinuxShell常见命令286
附录3Ganglia(分布式监控系统)289
附录4auth-ssh脚本290
附录5作者简介292

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网