SPARK实战--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

本书完整系统地介绍Spark各模块的原理并兼顾使用实战及综合应用从实战角度讲解Spark，实例丰富，容易理解，内容实用，适合学习

内容简介

本书介绍了Spark应用程序及更高级应用的工作流程，主要从使用角度进行了描述，每个具体内容都有对应的代码。本书涵盖了Apache Spark和它丰富的API，构成Spark的组件（包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX），在Spark standalone、 Hadoop YARN以及 Mesos clusters上运行Spark应用程序的部署和安装。通过对应的实例全面、详细地介绍了整个Spark实战开发的流程。*后，还介绍了Spark的高级应用，包括Spark流应用程序及可扩展和快速的机器学习框架H2O。本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的大数据课程材料，可用于指导Spark编程实践，也可供相关技术人员参考使用。

目录译者序致谢前言关于本书关于作者关于封面第1部分第1步第1章 Apache Spark介绍1.1什么是Spark1.1.1 Spark革命1.1.2 MapReduce的缺点 1.1.3 Spark带来了什么有价值的东西1.2 Spark组件1.2.1 Spark核心1.2.2 Spark SQL 1.2.3 Spark Streaming 1.2.4 Spark MLlib1.2.5 Spark GraphX1.3 Spark程序流1.4 Spark生态系统1.5 建立spark-in-action 虚拟机1.5.1下载启动虚拟机1.5.2 停止虚拟机1.6总结第2章 Spark基础2.1使用spark-in-action虚拟机2.1.1 复制Spark in Action GitHub存储库2.1.2 找到java2.1.3 用虚拟机的Hadoop安装2.1.4 检查虚拟机的Spark安装2.2用Spark shell（壳）编写第一个Spark程序2.2.1 启动Spark shell2.2.2 第一个Spark代码示例2.2.3 弹性分布式数据集的概念2.3基础RDD行为和转换2.3.1 使用用map转换 2.3.2 使用distinct和flatMap 转换 2.3.3 使用sample、take和takeSample操作获取RDD的元素2.4 Double RDD功能2.4.1 Double RDD基本统计 2.4.2 使用直方图可视化数据分布2.4.3 近似求和与平均值2.5 总结第3章编写Spark应用程序3.1在Eclipse上生成一个新的Spark项目3.2开发应用程序3.2.1 准备 GitHub 档案数据3.2.2 加载 JSON3.2.3 从Eclipse运行应用3.2.4 数据汇总3.2.5 排除非公司员工3.2.6 广播变量3.2.7 使用整个数据集3.3提交应用程序3.3.1 建立uberjar3.3.2 调整应用程序3.3.3 使用spark-submit3.4 总结第4章深入Spark API4.1使用键值对RDD4.1.1 创建键值对RDD4.1.2 键值对RDD的基本功能4.2了解数据分区和减少数据混排4.2.1 使用spark数据分区器4.2.2 了解和避免不必要的数据混排4.2.3 RDD重新分区4.2.4 在分区中映射数据4.3 连接、排序、分组数据 4.3.1 连接数据4.3.2 数据排序4.3.3 数据分组4.4 理解RDD依赖4.4.1 RDD依赖和Spark执行4.4.2 Spark阶段和任务4.4.3 使用检查点保存Spark谱系4.5 使用累加器和广播变量与spark执行器进行沟通4.5.1 使用累加器从执行器获取数据4.5.2 使用广播变量将数据发送数据到执行器4.6总结第二部分认识Spark家族第5章 Spark SQL查询5.1使用DataFrames5.1.1 从RDD创建DataFrames5.1.2 DataFrame API 基础知识5.1.3 用SQL函数执行数据计算5.1.4 使用缺失值5.1.5 将DataFrames转换为RDD5.1.6 分组和连接数据 5.1.7 执行连接5.2超越DataFrames：引入DataSet5.3使用SQL命令5.3.1 表目录和Hive metastore5.3.2 执行SQL查询 5.3.3 通过Thrift服务器连接到Spark SQL5.4保存并加载DataFrame 数据5.4.1 内置数据源5.4.2 保存数据5.4.3 加载数据5.5 Catalyst 优化器5.6 Tungsten性能改进5.7总结第6章使用Spark Streaming提取数据6.1编写Spark Streaming应用程序6.1.1 介绍示例程序6.1.2 创建流上下文6.1.3 创建离散流6.1.4 使用离散流6.1.5 把结果保存到文档6.1.6 启动和停止流计算6.1.7 随着保存计算状态6.1.8 使用窗口操作进行计算6.1.9 检查其他内置输入流6.2使用外部数据源6.2.1 设置kafka6.2.2 使用kafka更改流应用程序6.3 Spark Streaming任务的性能6.3.1 获得良好的性能6.3.2 实现容错6.4结构化流6.4.1 创建流式DataFrame6.4.2 输出流数据6.4.3 检查流执行6.4.4 结构化流的未来方向6.5总结第7章使用MLlib变聪明7.1机器学习简介7.1.1 机器学习的定义7.1.2 机器学习算法分类7.1.3 使用Spark进行机器学习7.2 Spark中的线性代数7.2.1 本地向量与矩阵实现7.2.2 分布式矩阵7.3线性回归7.3.1 有关线性回归7.3.2 简单的线性回归7.3.3 将模型扩展到多元线性回归7.4分析和准备数据7.4.1 分析数据分布7.4.2 分析列余弦相似性7.4.3 协方差矩阵的计算7.4.4 转化为标记点7.4.5 拆分数据7.4.6 特征缩放和平均归一化7.5拟合和使用线性回归模型7.5.1 预测目标值7.5.2 评估模型性能7.5.3 解释模型参数7.5.4 加载和保存模型7.6调整算法7.6.1 找到正确的步长和迭代次数7.6.2 添加高阶多项式7.6.3 偏差-方差权衡和模型复杂度7.6.4 绘制残差图7.6.5 利用正则化避免过度拟合7.6.6 k折交叉验证7.7优化线性回归7.7.1 小批量随机梯度下降7.7.2 LBFGS优化7.8总结八、ML：分类和聚类8.1 Spark ML 图书馆8.1.1 估计器，变压器和评估器8.1.2 ML参数8.1.3 ML管道8.2逻辑回归8.2.1 二元逻辑回归模型8.2.2准备数据在Spark中使用逻辑回归8.2.3 训练模型8.2.4 评估分类模型8.2.5 执行k折交叉验证8.2.6 多类逻辑回归8.3决策树和随机森林8.3.1 决策树8.3.2 随机森林8.4使用k均值聚类8.4.1 k均值聚类8.5总结第9章使用GraphX连接点9.1 Spark图处理9.1.1 使用GraphX API构造图9.1.2 转换图9.2图算法9.2.1 数据集的介绍9.2.2 最短路径算法9.2.3 页面排名9.2.4 连通分量9.2.5 强连通分量9.3实现A *搜索算法9.3.1 了解A *搜索算法9.3.2 实现A *搜索算法9.3.3 测试实现9.4总结第3部分 Spark ops第10章运行Spark10.1 Spark的运行时架构概述10.1.1 Spark运行组件10.1.2 Spark集群类型10.2作业与资源调度10.2.1 集群资源调度10.2.2 Spark作业调度10.2.3 数据局部性考虑10.2.4 Spark内存调度10.3配置Spark10.3.1 Spark配置文件10.3.2 命令行参数10.3.3 系统环境变量10.3.4 译编程方式设置配置10.3.5 master参数10.3.6 查看所有配置的参数10.4 Spark Web UI （网络用户界面）10.4.1 Jobs（作业）页面10.4.2 Stages（阶段）页面10.4.3 Storage（存储）页面10.4.4 Environment（环境）页面10.4.5 Executors（执行器）页面10.5在本地机器运行Spark10.5.1 本地模式10.5.2 本地集群模式10.6总结第11章在Spark独立集群上运行11.1 Spark Standalone集群组件11.1.1 启动Stanalone集群11.1.2 用shell脚本启动群集11.1.3 手动启动集群11.1.4 查看Spark进程11.1.5 Standalone master高可用性和恢复11.3 Standalone集群网络用户界面11.4 在3Standalone集群中运行应用程序11.4.1 驱动器的位置11.4.2 指定执行器的数量11.4.3 指定额外的类路径和文件11.4.4 终止应用程序11.4.5 应用程序自动重启11.5 Spark历史记录服务器和事件日志记录11.6 在Amazon EC2上运行11.6.1 先决条件11.6.2 创建一个E2C独立集群11.6.3 使用E2C集群11.6.4 销毁集群11.7 总结第12章在YARN and Mesos运行12.1 在YARN上运行Spark12.1.1 YARN架构12.1.2 安装配置启动YARN12.1.3 YARN中的资源调度12.1.4 向YARN提交Spark应用程序12.1.5 在YARN上配置Spark12.1.6 为Spark工作配置资源12.1.7 YARN UI12.1.8 在YARN上寻找日志12.1.9 安全注意事项12.1.10 动态资源分配12.2在Mesos上运行Spark12.2.1 Mesos架构12.2.2 安装配置Mesos12.2.3 Mesos Web UI12.2.4 Mesos资源调度12.2.5 向Mesos提交Spark应用程序12.2.6 使用 Docker运行Spark12.3总结第4部分协同使用第13章实例学习：实时仪表盘13.1了解用例13.1.1 概况13.1.2 了解应用程序组件13.2 运行应用程序13.2.1 在spark-in-action VM中运行应用程序13.2.2 手动启动应用程序13.3 理解源代码13.3.1 KafkaLogsSimulator项目13.3.2 Streaming Log Analyzer项目13.3.3 Web统计信息显示板项目13.3.4 建设项目13.4总结第14章 H20深入学习Spark14.1什么是深入学习14.2 在Spark中使用H2O和14.2.1 什么是H2O14.4.2 在Spark中启动Sparkling Water14.4.3 启动H2O集群14.4.4 访问Flow UI14.3 使用H2O的深度学习进行回归14.4.3 将数据加载到H2O框架中14.4.4 使用Flow UI构建和评估深度学习模型14.4.5 使用Sparkling Water API构建和评估深度学习模型14.4使用H2O的深度学习进行分类14.4.1 加载和拆分数据14.4.2 通过Flow UI 建造模型14.4.3 通过Sparkling Water API建造模型14.4.4 停止H2O集群14.5总结附录A 安装Apache Spark附录B 了解MapReduce附录C 线性代数基础

SPARK实战

库存： {{selectedSku?.stock}} 库存充足

上架到店铺