您好,欢迎来到聚文网。 登录 免费注册
大数据原理与实践 复杂信息的准备、共享和分析(原书第2版)

大数据原理与实践 复杂信息的准备、共享和分析(原书第2版)

  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: (美)朱尔斯·J.伯曼
  • 出版日期: 2020-06-01
  • 商品条码: 9787111657903
  • 版次: 1
  • 开本: 16开
  • 页数: 357
  • 出版年份: 2020
定价:¥119 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书介绍广泛适用于大型复杂数据集的新方法,新版添加了大量应用实例及Python代码示例,关注如何将原理付诸实践。书中除了涵盖常见的与大数据设计、架构、操作和分析相关的内容,还有涉及法律、社会和伦理问题的非技术性章节。书中描述的所有算法的核心部分都可以用几行代码轻松实现,帮助读者掌握如何在不安装新软件和不购买新硬件的情况下,有效地完成自己的项目。
作者简介
朱尔斯·J.伯曼(Jules J.Berman)本科毕业于麻省理工学院,在获得了该校的两个科学学士学位(数学、地球与行星科学)后,他又获得了天普大学的哲学博士学位以及迈阿密大学的医学博士学位。他的博士研究工作是在天普大学的费尔斯癌症研究所和位于纽约瓦尔哈拉的美国健康基金会完成的。Berman博士在美国国家健康研究院完成了博士后研究工作,并曾在华盛顿特区的乔治·华盛顿大学医学中心实习过一段时间。Berman博士曾在马里兰州巴尔的摩市退伍军人管理局医疗中心担任解剖病理学、外科病理学和细胞病理学的首席专家,由马里兰大学医学中心和约翰·霍普金斯医学研究机构共同任命。1998年,他转入美国国立卫生研究院担任卫生干事,并在美国国家癌症研究所癌症诊断计划中任病理信息学项目主管。Berman博士曾任病理信息学协会主席,2011年,他获得了病理信息学协会终身成就奖。他是数百部科学出版物的作者,在数据科学和疾病生物学领域编写了十余本书籍。
目录
译者序
第2版前言
第1版前言
作者简介
第1章引言1
1.1大数据的定义1
1.2大数据与小数据2
1.3大数据在哪里5
1.4大数据最常见的目的是产生小数据6
1.5大数据是研究领域的中心话题6
术语表7
参考文献11
第2章为非结构化数据提供结构13
2.1几乎所有数据都是非结构化的、不可用的原始形式13
2.2词汇索引14
2.3术语提取16
2.4构建索引19
2.5自动编码20
2.6案例研究:宇宙中任意原子准确位置的快速定位(需要安装一些软件)24
2.7案例研究(高级):一个完整的自动编码器(12行Python代码)26
2.8案例研究:以词汇索引进行文本转换28
2.9案例研究(高级):Burrows Wheeler变换30
术语表32
参考文献43
第3章标识、去标识和重标识45
3.1什么是标识符45
3.2标识符和标识系统之间的区别46
3.3生成专享标识符48
3.4糟糕的标识方法50
3.5注册专享对象标识符53
3.6去标识和重标识55
3.7案例研究:数据清理57
3.8案例研究(高级):图像标题中的标识符59
3.9案例研究:单向散列函数61
术语表63
参考文献69
第4章元数据、语义和三元组71
4.1元数据71
4.2可扩展标记语言71
4.3语义和三元组72
4.4命名空间74
4.5案例研究:三元组的语法75
4.6案例研究:Dublin Core77
术语表78
参考文献80
第5章分类和本体论81
5.1关于对象关系的全部81
5.2分类:最简单的本体84
5.3本体:有多个父类的类86
5.4分类模型选择88
5.5类混合91
5.6本体开发的常见陷阱92
5.7案例研究:上层本体93
5.8案例研究(高级):悖论94
5.9案例研究(高级):RDF框架和类属性96
5.10案例研究(高级):可视化类关系98
术语表102
参考文献111
第6章内省113
6.1自我认知113
6.2数据对象:每个大数据集合中最基本的元素116
6.3大数据如何使用内省117
6.4案例研究:时间戳数据119
6.5案例研究:TripleStore 简介121
6.6案例研究(高级):大数据必须是面向对象的证明125
术语表126
参考文献127
第7章标准和数据集成128
7.1标准128
7.2规范与标准132
7.3版本控制134
7.4合规问题135
7.5案例研究:标准化巧克力茶壶135
术语表136
参考文献137
第8章不变性和较为性139
8.1数据不变性的重要性139
8.2不变性和标识符140
8.3数据产生数据142
8.4跨机构协调标识符143
8.5案例研究:可信时间戳144
8.6案例研究:区块链和分布式账本145
8.7案例研究(高级):零知识协调147
术语表148
参考文献150
第9章评估大数据资源的充分性152
9.1观察数据152
9.2大数据的最小必要属性158
9.3附加条件的数据161
9.4案例研究:用于查看和搜索大型文件的实用程序162
9.5案例研究:数据扁平化164
术语表164
参考文献169
第10章测量170
10.1准确性与精度170
10.2数据范围171
10.3计数173
10.4数据标准化和变换176
10.5约简数据179
10.6理解控制181
10.7没有实际意义的统计意义182
10.8案例研究:基因计数183
10.9案例研究:早期生物特征和狭窄数据范围的意义184
术语表185
参考文献186
第11章快速简单的大数据分析必不可少的技巧188
11.1速度和可扩展性188
11.2适用于大数据的快速操作,并且每台计算机都支持193
11.3点积——一种简单快速的相关方法197
11.4聚类199
11.5数据持久性方法(不使用数据库)201
11.6案例研究:爬升分类202
11.7案例研究(高级):数据库示例203
11.8案例研究(高级):NoSQL205
术语表205
参考文献209
第12章寻找大型数据集中的线索211
12.1分母211
12.2词频分布212
12.3异常值和异常215
12.4封底分析216
12.5案例研究:预测用户偏好218
12.6案例研究:人口数据的多模态219
12.7案例研究:大小黑洞220
术语表220
参考文献224
第13章使用随机数将大数据分析问题的规模缩小225
13.1(伪)随机数的显著效用225
13.2重采样230
13.3蒙特卡罗模拟法234
13.4案例研究:中心极限定理的证明236
13.5案例研究:发生一连串小概率事件的频率237
13.6案例研究:臭名昭著的生日问题238
13.7案例研究(高级):蒙提霍尔问题239
13.8案例研究(高级):贝叶斯分析241
术语表242
参考文献244
第14章大数据分析中的特殊注意事项246
14.1数据搜索理论246
14.2理论搜索中的数据247
14.3巨大的偏差248
14.4大数据的数据子集:不可加和不传递251
14.5其他大数据陷阱252
14.6案例研究(高级):维数灾难254
术语表257
参考文献258
第15章大数据的失败以及如何避免260
15.1失败很常见260
15.2失败的标准261
15.3复杂性264
15.4逐步走进大数据分析265
15.5失败之后272
15.6案例研究:癌症生物医学信息学网格——遥远的桥273
15.7案例研究:高斯Copula函数277
术语表278
参考文献280
第16章数据再分析:比分析更重要283
16.1第一次分析(几乎)总是错的283
16.2为什么再分析比分析更重要285
16.3案例研究:旧JADE对撞机数据的再分析287
16.4案例研究:通过再分析证明287
16.5案例研究:从旧数据中寻找新行星288
术语表289
参考文献290
第17章大数据再利用294
17.1什么是数据再利用294
17.2暗数据、废弃数据和遗留数据296
17.3案例研究:从邮政编码到人口统计学基础297
17.4案例研究:基因序列数据库的科学推断298
17.5案例研究:将全球变暖与高强度飓风联系起来298
17.6案例研究:用地质数据推断气候趋势299
17.7案例研究:环月影像恢复工程299
术语表301
参考文献301
第18章数据共享和数据安全303
18.1什么是数据共享,为什么我们不共享更多数据303
18.2常见的不满303
18.3数据安全和加密协议308
18.4案例研究:火星上的生命313
18.5案例研究:个人标识符314
术语表315
参考文献317
第19章合法性320
19.1对数据的准确性和合法性负责320
19.2创建、使用和共享资源的权利322
19.3因使用标准而招致的版权和专利侵权行为324
19.4对个人的保护325
19.5许可问题326
19.6未经许可的数据330
19.7隐私策略332
19.8案例研究:大数据的时效性333
19.9案例:哈瓦苏派的故事334
术语表335
参考文献336
第20章社会问题338
20.1公众的大数据感知338
20.2用大数据降低成本和提高生产效率340
20.3公众的疑虑342
20.4从自己做起343
20.5谁是大数据344
20.6傲慢和夸张349
20.7案例研究:公民科学家351
20.8案例研究:乔治·奥威尔的《1984》354
术语表354
参考文献355

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网