您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
大数据基础应用
字数: 493
出版社: 机械工业
作者: 刘黎志 刘玮 张明
商品条码: 9787111763864
版次: 1
开本: 16开
页数: 298
出版年份: 2024
印次: 1
定价:
¥59.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
本书首先介绍了大数据基础应用:重点讲解了如何搭建Hadoop分布式集群平台,使用Java语言进行MapReduce分布式编程;HBase及Hive数据库环境的安装和数据的增、删、改、查操作;Spark平台的搭建、RDD操作及Spark SQL查询;Flink平台的搭建,Kafka消息中间件的使用及流批一体计算。其次对数据预处理的常用方法及如何使用Matplotlib实现数据可视化进行了讨论。最后讲解了大数据与机器学习、深度学习。本书将机器学习算法划分为分类及回归两个问题进行了讨论,并结合scikit-learn进行了实例讲解。在深度学习部分,对深度神经网络及卷积神经网络进行了介绍,就如何使用Keras框架实现图像分类进行了实例讲解,此外介绍了循环神经网络LSTM的原理及应用。 本书适用于计算机类及信息技术类相关专业在读本科生及研究生,也可供大数据及人工智能相关领域的技术人员参考。 为了方便教学,本书配备电子课件、程序源代码等教学资源。凡选用本书作为教材的教师均可登录机械工业出版社教育服务网(www.cmpedu.com)注册后免费下载。
作者简介
高等院校教师
目录
目 录 前言 第1章 Hadoop分布式集群 1 1.1 什么是大数据 1 1.1.1 大数据的基本概念 1 1.1.2 大数据的产生和应用 2 1.2 大数据关键技术 2 1.2.1 文件系统 2 1.2.2 数据库系统 3 1.2.3 索引与查询技术 4 1.2.4 大数据分析技术 5 1.2.5 大数据处理工具 6 1.2.6 机器学习与深度学习 7 1.3 Hadoop生态圈 8 1.4 Hadoop分布式集群环境搭建 11 1.4.1 实验环境安装及配置 11 1.4.2 Hadoop集群平台的搭建 16 1.4.3 MapReduce测试 21 第2章 分布式计算框架 MapReduce 23 2.1 MapReduce分布式框架 23 2.1.1 MapReduce原理 23 2.1.2 合并函数(Combiner) 26 2.2 WordCount的处理过程 27 2.2.1 WordCount示例代码运行 27 2.2.2 WordCount源码分析 28 2.2.3 WordCount详细处理过程 32 2.2.4 MapReduce新旧版区别 33 2.3 MapReduce编程示例 33 2.3.1 Eclipse开发环境搭建 33 2.3.2 数据去重 38 2.3.3 数据排序 41 2.3.4 平均成绩 43 2.3.5 单表关联 45 2.3.6 多表关联 51 2.3.7 倒排索引 54 第3章 NoSQL数据库 60 3.1 NoSQL数据库概述 60 3.1.1 NoSQL数据库的特点 60 3.1.2 NoSQL数据库与关系数据库的 比较 61 3.1.3 NoSQL数据库的分类 61 3.2 HBase列式数据库 62 3.2.1 HBase的基本概念 62 3.2.2 HBase的安装及基本操作 64 3.2.3 HBase客户端编程 69 3.3 Hive数据仓库工具 82 3.3.1 Hive的安装及环境配置 82 3.3.2 Hive的基本使用 86 第4章 分布式计算框架Spark 93 4.1 Spark分布式计算引擎 93 4.1.1 Spark的基本概念 93 4.1.2 Spark的核心技术 95 4.1.3 Spark生态系统 96 4.1.4 Spark技术分析 96 4.1.5 Spark的应用场景 97 4.2 Spark分布式集群环境搭建 98 4.2.1 环境搭建 98 4.2.2 环境测试 100 4.3 RDD分布式编程技术 102 4.3.1 RDD的基本使用 102 4.3.2 RDD操作 104 4.3.3 共享变量 115 4.4 Spark SQL查询分析技术 118 4.4.1 DataSet(DataFrame)和RDD 119 4.4.2 Spark SQL操作 121 4.4.3 Spark SQL与数据源的交互 125 4.4.4 Spark SQL与Hive交互 126 4.4.5 Spark SQL的分区及分桶 127 第5章 流式计算 130 5.1 Flink的基本概念 130 5.1.1 Flink框架 130 5.1.2 Flink的应用 131 5.2 Flink的安装和开发环境设置 133 5.2.1 Flink本地安装 133 5.2.2 Flink开发环境设置 134 5.3 数据流接口 137 5.3.1 DataStream概述 137 5.3.2 数据流接口的基本应用 144 5.3.3 Kafka消息中间件 148 5.4 水位线和窗口 161 5.4.1 水位线(WaterMark) 161 5.4.2 窗口(Window) 165 5.4.3 应用举例 169 5.5 表接口和表查询 175 5.5.1 动态表 176 5.5.2 表接口和表查询的应用 179 第6章 数据可视化分析与预处理 184 6.1 数据可视化分析 184 6.1.1 分位数与箱线图 184 6.1.2 数据的相关性与散点图 186 6.1.3 数据的分布与直方图 189 6.1.4 Matplotlib绘图 191 6.2 数据预处理 203 6.2.1 连续型输入特征的 处理(归一化) 204 6.2.2 类别(离散)型输入特征的 处理 206 6.2.3 分类标签的处理 209 6.2.4 主成因分析(PCA-Principal Component Analysis) 209 第7章 大数据与机器学习 214 7.1 使用scikit-learn进行机器学习 214 7.1.1 scikit-learn简介 214 7.1.2 使用scikit-learn进行 机器学习 215 7.2 分类问题 218 7.2.1 逻辑回归 219 7.2.2 混淆矩阵 222 7.2.3 多分类 224 7.2.4 不平衡分类 226 7.2.5 交叉验证和参数寻优 235 7.3 回归问题 237 7.3.1 一元线性回归 237 7.3.2 多元线性回归 246 第8章 大数据与深度学习 254 8.1 深度学习概述 254 8.1.1 从神经网络到深度学习 255 8.1.2 深度学习框架Keras 262 8.2 深度神经网络 263 8.2.1 深度神经网络示例 263 8.2.2 模型的保存和读取 266 8.2.3 模型训练的历史过程 267 8.3 卷积神经网络 268 8.3.1 卷积神经网络的层 270 8.3.2 使用CNN进行图像分类 278 8.3.3 使用VGG16网络模型 285 8.4 循环神经网络 287 8.4.1 RNN 287 8.4.2 LSTM 289 参考文献 296
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网