您好,欢迎来到聚文网。 登录 免费注册
Hadoop+Spark大数据巨量分析与机器学习整合开发实战

Hadoop+Spark大数据巨量分析与机器学习整合开发实战

  • 字数: 730000
  • 装帧: 简装
  • 出版社: 清华大学出版社
  • 作者: 林大贵 著
  • 出版日期: 2017-01-01
  • 商品条码: 9787302453758
  • 版次: 1
  • 开本: 其他
  • 页数: 425
  • 出版年份: 2017
定价:¥79 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》从浅显易懂的“大数据和机器学习”原理介绍和说明入手,讲述大数据和机器学习的基本概念,如:分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用。为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单台Windows系统上通过Virtual Box虚拟机安装多台Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。书中介绍搭建的上机实践平台并不于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以将实践平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。 《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》很好适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。
内容简介
《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》从浅显易懂的“大数据和机器学习”原理介绍和说明入手,讲述大数据和机器学习的基本概念,如:分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用。为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单台Windows系统上通过Virtual Box虚拟机安装多台Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。书中介绍搭建的上机实践平台并不于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以将实践平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。 《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》很好适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。
作者简介
林大贵,作者从事IT产业多年,包括系统设计、网站开发等诸多领域,具备丰富实战开发经验,多版多部具有影响力的作品。
目录
第1章大数据与机器学习1
1.1大数据定义2
1.2Hadoop简介2
1.3HadoopHDFS分布式文件系统3
1.4HadoopMapReduce的介绍5
1.5Spark的介绍6
1.6机器学习的介绍8
第2章VirtualBox虚拟机软件的安装11
2.1VirtualBox的下载和安装12
2.2设置VirtualBox语言版本16
2.3设置VirtualBox存储文件夹17
2.4在VirtualBox创建虚拟机18
第3章UbuntuLinux操作系统的安装23
3.1下载安装Ubuntu的光盘文件24
3.2在Virtual设置Ubuntu虚拟光盘文件26
3.3开始安装Ubuntu28
3.4启动Ubuntu33
3.5安装增强功能34
3.6设置默认输入法38
3.7设置“终端”程序40
3.8设置“终端”程序为白底黑字42
3.9设置共享剪贴板43
第4章HadoopSingleNodeCluster的安装46
4.1安装JDK47
4.2设置SSH无密码登录50
4.3下载安装Hadoop53
4.4设置Hadoop环境变量56
4.5修改Hadoop配置设置文件58
4.6创建并格式化HDFS目录62
4.7启动Hadoop63
4.8打开HadoopResourceManagerWeb界面66
4.9NameNodeHDFSWeb界面67
第5章HadoopMultiNodeCluster的安装69
5.1把SingleNodeCluster复制到data171
5.2设置VirtualBox网卡73
5.3设置data1服务器76
5.4复制data1服务器到data2、data3、master84
5.5设置data2、data3服务器87
5.6设置master服务器91
5.7master连接到data1、data2、data3创建HDFS目录94
5.8创建并格式化NameNodeHDFS目录98
5.9启动HadoopMultiNodeCluster99
5.10打开HadoopResourceManagerWeb界面102
5.11打开NameNodeWeb界面103
第6章HadoopHDFS命令104
6.1启动HadoopMulti—NodeCluster105
6.2创建与查看HDFS目录107
6.3从本地计算机复制文件到HDFS109
6.4将HDFS上的文件复制到本地计算机114
6.5复制与删除HDFS文件116
6.6在HadoopHDFSWeb用户界面浏览HDFS118
第7章HadoopMapReduce122
7.1介绍wordCount.Java123
7.2编辑wordCount.Java124
7.3编译wordCount.Java127
7.4创建测试文本文件129
7.5运行wordCount.Java130
7.6查看运行结果131
7.7HadoopMapReduce的缺点132
第8章Spark的安装与介绍133
8.1Spark的Cluster模式架构图134
8.2Scala的介绍与安装135
8.3安装Spark138
8.4启动spark—shell交互界面141
8.5设置spark—shell显示信息142
8.6启动Hadoop144
8.7本地运行spark—shell程序145
8.8在HadoopYARN运行spark—shell147
8.9构建SparkStandaloneCluster执行环境149
8.10在SparkStandalone运行spark—shell155
第9章SparkRDD159
9.1RDD的特性160
9.2基本RDD“转换”运算161
9.3多个RDD“转换”运算167
9.4基本“动作”运算169
9.5RDDKey—Value基本“转换”运算171
9.6多个RDDKey—Value“转换”运算175
9.7Key—Value“动作”运算178
9.8Broadcast广播变量181
9.9accumulator累加器184
9.10RDDPersistence持久化186
9.11使用Spark创建WordCount188
9.12SparkWordCount详细解说191
第10章Spark的集成开发环境195
10.1下载与安装eclipseScalaIDE197
10.2下载项目所需要的Library201
10.3启动eclipse205
10.4创建新的Spark项目206
10.5设置项目链接库210
10.6新建scala程序211
10.7创建WordCount测试文本文件213
10.8创建WordCount.scala213
10.9编译WordCount.scala程序215
10.10运行WordCount.scala程序217
10.11导出jar文件220
10.12spark—submit的详细介绍223
10.13在本地local模式运行WordCount程序224
10.14在Hadoopyarn—client运行WordCount程序226
10.15在SparkStandaloneCluster上运行WordCount程序230
10.16本书范例程序的安装说明231
……
第11章创建推荐引擎236
第12章StumbleUpon数据集282
第13章决策树二元分类292
第14章逻辑回归二元分类326
第15章支持向量机SVM二元分类337
第16章朴素贝叶斯二元分类346
第17章决策树多元分类355
第18章决策树回归分析373
第19章使用ApacheZeppelin数据可视化394

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网