您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
精通Spark数据科学
字数: 560000
装帧: 平装
出版社: 人民邮电出版社
作者: (美)安德鲁·摩根 等
出版日期: 2020-09-01
商品条码: 9787115541567
版次: 1
开本: 16开
页数: 460
出版年份: 2020
定价:
¥109
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
1.本书采用 Spark 2.0,并结合 Scala 2.11、Maven 和 Hadoop; 2.案例丰富:读者将基于一系列典型的案例,学习Spark在构建商业级数据科学解决方案中的应用; 3.作者是数据战略及其执行方面的专家,拥有多年的商业经验,为读者呈现了一个真实的、令人兴奋的数据科学世界; 3.提供配套代码。
内容简介
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。这是一本专门介绍Spark的图书,旨在教会读者利用Spark构建实用的数据科学解决方案。 本书内容包括14章,由浅入深地介绍了数据科学生态系统、数据获取、输入格式与模式、探索性数据分析、利用Spark进行地理分析、采集基于链接的外部数据、构建社区、构建推荐系统、新闻词典和实时标记系统、故事除重和变迁、情感分析中的异常检测、趋势演算、数据保护和可扩展算法。本书适合数据科学家以及对数据科学、机器学习感兴趣的读者阅读,需要读者具备数据科学相关的基础知识,并通过阅读本书进一步提升Spark运用能力,从而创建出高效且实用的数据科学解决方案。
作者简介
安德鲁·摩根是数据战略及其执行方面的专家,在支持技术、系统架构和实现数据科学方面拥有丰富的经验。他在数据行业拥有20多年的经验,曾为一些久负盛名的公司及其全球客户设计系统——通常是大型、复杂和国际性的项目。2013年,他创办了数据科学和大数据工程咨询公司ByteSumo,目前在与欧洲和美国的客户进行合作。
目录
第1章数据科学生态系统1
1.1大数据生态系统简介1
1.1.1数据管理2
1.1.2数据管理职责2
1.1.3合适的工具4
1.2数据架构4
1.2.1数据采集5
1.2.2数据湖6
1.2.3数据科学平台7
1.2.4数据访问8
1.3数据处理技术8
1.4配套工具10
1.4.1ApacheHDFS10
1.4.2亚马逊S312
1.4.3ApacheKafka13
1.4.4ApacheParquet14
1.4.5ApacheAvro15
1.4.6ApacheNiFi16
1.4.7ApacheYARN17
1.4.8ApacheLucene18
1.4.9Kibana19
1.4.10Elasticsearch20
1.4.11Accumulo21
1.5小结22
第2章数据获取23
2.1数据管道23
2.1.1通用采集框架24
2.1.2GDELT数据集简介25
2.2内容登记32
2.2.1选择和更多选择32
2.2.2随流而行32
2.2.3元数据模型33
2.2.4Kibana仪表盘35
2.3质量保证36
2.3.1案例1——基本质量检查,无争用用户36
2.3.2案例2——进阶质量检查,无争用用户36
2.3.3案例3——基本质量检查,50%使用率争用用户37
2.4小结37
第3章输入格式与模式39
3.1结构化的生活是美好的生活40
3.2GDELT维度建模40
3.3加载数据48
3.3.1模式敏捷性49
3.3.2GKGELT51
3.4Avro54
3.4.1Spark-Avro方法55
3.4.2教学方法57
3.4.3何时执行Avro转换61
3.5ApacheParquet62
3.6小结63
第4章探索性数据分析64
4.1问题、原则与规划65
4.1.1理解EDA问题65
4.1.2设计原则65
4.1.3探索的总计划66
4.2准备工作67
4.2.1基于掩码的数据剖析简介67
4.2.2字符类掩码简介71
4.2.3构建基于掩码的剖析器73
4.3探索GDELT86
4.4小结107
第5章利用Spark进行地理分析108
5.1GDELT和石油108
5.1.1GDELT事件109
5.1.2GDELTGKG110
5.2制订行动计划110
5.3GeoMesa111
5.3.1安装112
5.3.2GDELT采集112
5.3.3GeoMesa采集113
5.3.4GeoHash117
5.3.5GeoServer120
5.4计量油价123
5.4.1使用GeoMesa查询API123
5.4.2数据准备125
5.4.3机器学习130
5.4.4朴素贝叶斯131
5.4.5结果132
5.4.6分析133
5.5小结134
第6章采集基于链接的外部数据135
6.1构建一个大规模的新闻扫描器135
6.1.1访问Web内容136
6.1.2与Spark集成138
6.1.3创建可扩展的生产准备库139
6.2命名实体识别142
6.2.1Scala库143
6.2.2NLP攻略143
6.2.3构建可扩展代码146
6.3GIS查询148
6.3.1GeoNames数据集148
6.3.2构建高效的连接149
6.3.3内容除重153
6.4名字除重154
6.4.1用Scalaz进行函数式编程155
6.4.2简单清洗158
6.4.3DoubleMetaphone算法158
6.5新闻索引仪表板160
6.6小结162
第7章构建社区163
7.1构建一个人物图谱163
7.1.1联系链164
7.1.2从Elasticsearch中提取数据166
7.2使用Accumulo数据库168
7.2.1设置Accumulo168
7.2.2单元级安全169
7.2.3迭代器170
7.2.4从Elasticsearch到Accumulo170
7.2.5从Accumulo读取173
7.2.6AccumuloGraphxInputFormat和EdgeWritable175
7.2.7构建图175
7.3社区发现算法177
7.3.1Louvain算法177
7.3.2加权社区聚类178
7.4GDELT数据集193
7.4.1Bowie效应194
7.4.2较小的社区195
7.4.3使用Accumulo单元级的安全性196
7.5小结197
第8章构建推荐系统198
8.1不同的方法198
8.1.1协同过滤199
8.1.2基于内容的过滤199
8.1.3自定义的方法199
8.2信息不完整的数据200
8.2.1处理字节200
8.2.2创建可扩展的代码203
8.2.3从时域到频域204
8.3构建歌曲分析器209
8.4构建一个推荐系统214
8.4.1PageRank算法214
8.4.2构建个性化的播放列表217
8.5扩大“蛋糕厂”规模217
8.5.1构建播放列表服务217
8.5.2应用Spark任务服务器219
8.5.3用户界面223
8.6小结224
第9章新闻词典和实时标记系统226
9.1土耳其机器人226
9.1.1人类智能任务227
9.1.2引导分类模型227
9.1.3懒惰、急躁、傲慢233
9.2设计SparkStreaming应用234
9.2.1两个架构的故事234
9.2.2Lambda架构的价值237
9.2.3Kappa架构的价值239
9.3消费数据流240
9.3.1创建GDELT数据流240
9.3.2创建Twitter数据流242
9.4处理Twitter数据243
9.4.1提取URL和主题标签244
9.4.2保存流行的主题标签245
9.4.3扩展缩短的URL246
9.5获取HTML内容248
9.6使用Elasticsearch作为缓存层249
9.7分类数据252
9.7.1训练朴素贝叶斯模型253
9.7.2确保线程安全254
9.7.3预测GDELT数据255
9.8Twitter土耳其机器人256
9.9小结258
第10章故事除重和变迁260
10.1检测近似重复260
10.1.1从散列开始第一步262
10.1.2站在“互联网巨人”的肩膀上263
10.1.3检测GDELT中的近似重复266
10.1.4索引GDELT数据库271
10.2构建故事275
10.2.1构建词频向量275
10.2.2维度灾难,数据科学之痛277
10.2.3优化KMeans278
10.3故事变迁281
10.3.1平衡态281
10.3.2随时间追踪故事283
10.3.3构建故事的关联290
10.4小结294
第11章情感分析中的异常检测295
11.1在Twitter上追踪美国大选296
11.1.1流式获取数据296
11.1.2成批获取数据297
11.2情感分析300
11.2.1格式化处理Twitter数据300
11.2.2使用斯坦福NLP302
11.2.3建立管道304
11.3使用Timely作为时间序列数据库306
11.3.1存储数据306
11.3.2使用Grafana可视化情感309
11.4Twitter与戈德温(Godwin)点311
11.4.1学习环境311
11.4.2对模型进行可视化314
11.4.3Word2Graph和戈德温点315
11.5进入检测讽刺的一小步320
11.5.1构建特征320
11.5.2检测异常324
11.6小结325
第12章趋势演算326
12.1研究趋势327
12.2趋势演算算法328
12.2.1趋势窗口328
12.2.2简单趋势331
12.2.3用户定义聚合函数332
12.2.4简单趋势计算337
12.2.5反转规则339
12.2.6FHLS条状图介绍341
12.2.7可视化数据343
12.3实际应用351
12.3.1算法特性352
12.3.2潜在的用例352
12.4小结353
第13章数据保护354
13.1数据安全性354
13.1.1存在的问题355
13.1.2基本操作355
13.2认证和授权356
13.3访问358
13.4加密359
13.4.1数据处于静态时359
13.4.2数据处于传输时368
13.4.3混淆/匿名369
13.4.4遮罩372
13.4.5令牌化375
13.5数据处置377
13.6Kerberos认证378
13.6.1用例1:ApacheSpark在受保护的HDFS中访问数据379
13.6.2用例2:扩展到自动身份验证381
13.6.3用例3:从Spark连接到安全数据库381
13.7安全生态383
13.7.1ApacheSentry383
13.7.2RecordService384
13.8安全责任385
13.9小结386
第14章可扩展算法387
14.1基本原则387
14.2Spark架构390
14.2.1Spark的历史390
14.2.2动态组件391
14.3挑战395
14.3.1算法复杂性395
14.3.2数值异常395
14.3.3洗牌398
14.3.4数据模式398
14.4规划你的路线399
14.5设计模式和技术409
14.5.1SparkAPI410
14.5.2摘要模式411
14.5.3扩展并解决模式411
14.5.4轻量级洗牌412
14.5.5宽表模式414
14.5.6广播变量模式415
14.5.7组合器模式416
14.5.8集群优化420
14.5.9再分配模式422
14.5.10加盐键模式423
14.5.11二次排序模式424
14.5.12过滤过度模式426
14.5.13概率算法426
14.5.14选择性缓存427
14.5.15垃圾回收428
14.5.16图遍历429
14.6小结430
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网