您好,欢迎来到聚文网。 登录 免费注册
Alink权威指南 基于Flink的机器学习实例入门(Python)

Alink权威指南 基于Flink的机器学习实例入门(Python)

  • 字数: 642000
  • 装帧: 平装
  • 出版社: 电子工业出版社
  • 作者: 杨旭
  • 出版日期: 2022-04-01
  • 商品条码: 9787121431289
  • 版次: 1
  • 开本: 16开
  • 页数: 476
  • 出版年份: 2022
定价:¥149 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
"《Alink权威指南:基于Flink的机器学习实例入门(Python)》是Alink创始人杨旭老师的一本心血力作。它不仅集合了作者对Flink与Alink框架的深度观察与分析,还集合了众多学习者在学习中遇到的难点、疑点问题,作者在书中均一一剖析,并给合常见的实例进行详尽的说明,使读者能够毫无障碍地入门解决工作中的问题。 不仅如此,本书还提供了完整的源代码,读者在个人计算机中就能直接尝试、验证书中的方法和算法。书中所介绍的是均是业界正在使用的工具,支持分布式计算处理海量的数据、支持流式数据的场景,同时机器学习流程及模型还可以方便地嵌入用户的应用系统或预测服务中。"
内容简介
Alink是阿里巴巴开源的机器学习算法平台,提供了丰富、高效的算法及简便的使用方式,可帮助用户快速构建业务应用。Alink非常适合工业级的实际应用,支持在个人计算机上快速进行原型研发,支持分布式计算处理海量的数据,支持流式数据的场景,同时机器学习流程与模型可以方便地嵌入用户的应用系统或预测服务中。
本书是根据机器学习的知识点由浅入深来逐层讲述的,这样可降低阅读的门槛,让读者能对所学的内容有一个清晰的印象,并可熟练地运用到实践中。本书重点介绍算法的使用,每节结合实际的数据和典型的场景,通过Alink算法组件形成完整的解决方案,可帮助读者理解各类算法所擅长处理的问题,同时本书的方案还可以被推广、应用到类似的场景中。
本书适合机器学习算法的初学者及中级用户快速入门,也可供数据分析师、算法工程师等专业人员参考阅读。
作者简介
 
目录
第1章Alink快速上手1
1.1Alink是什么1
1.2免费下载、安装2
1.3Alink的功能2
1.3.1丰富的算法库2
1.3.2多样的使用体验3
1.3.3与SparkML的对比4
1.4关于数据和代码5
1.5简单示例6
1.5.1数据的读/写与显示6
1.5.2批式训练和批式预测7
1.5.3流式处理和流式预测10
1.5.4定义Pipeline,简化操作11
1.5.5嵌入预测服务系统13
第2章系统概况与核心概念15
2.1基本概念15
2.2批式任务与流式任务16
2.3Alink=A+link19
2.3.1BatchOperator和StreamOperator20
2.3.2link方式是批式算法/流式算法的通用使用方式21
2.3.3link的简化24
2.3.4组件的主输出与侧输出25
2.4Pipeline与PipelineModel25
2.4.1概念和定义25
2.4.2深入介绍27
2.5触发Alink任务的执行29
2.6模型信息显示31
2.7文件系统与数据库35
2.8SchemaString37
第3章文件系统与数据文件39
3.1文件系统简介39
3.1.1本地文件系统40
3.1.2Hadoop文件系统42
3.1.3阿里云OSS文件系统44
3.2数据文件的读入与导出46
3.2.1CSV格式47
3.2.2TSV格式、LibSVM格式和Text格式54
3.2.3AK格式58
第4章数据库与数据表61
4.1简介61
4.1.1Catalog的基本操作61
4.1.2Source组件和Sink组件62
4.2Hive示例63
4.3Derby示例66
4.4MySQL示例68
第5章支持FlinkSQL70
5.1基本操作70
5.1.1注册70
5.1.2运行71
5.1.3内置函数74
5.1.4用户定义函数74
5.2简化操作75
5.2.1单表操作76
5.2.2两表的连接(JOIN)操作80
5.2.3两表的集合操作82
第6章用户定义函数(UDF/UDTF)87
6.1用户定义标量函数(UDF)87
6.1.1示例数据及问题88
6.1.2UDF的定义88
6.1.3使用UDF处理批式数据89
6.1.4使用UDF处理流式数据90
6.2用户定义表值函数(UDTF)92
6.2.1示例数据及问题92
6.2.2UDTF的定义92
6.2.3使用UDTF处理批式数据93
6.2.4使用UDTF处理流式数据95
第7章基本数据处理98
7.1采样98
7.1.1取“前”N个数据99
7.1.2随机采样99
7.1.3加权采样102
7.1.4分层采样103
7.2数据划分104
7.3数值尺度变换106
7.3.1标准化106
7.3.2MinMaxScale108
7.3.3MaxAbsScale109
7.4向量的尺度变换111
7.4.1StandardScale、MinMaxScale、MaxAbsScale111
7.4.2正则化113
7.5缺失值填充114
7.6Python数组、DataFrame形式的数据和Alink批式数据之间的相互转换116
7.6.1Python数组与DataFrame形式的数据之间的相互转换116
7.6.2将Alink批式数据转换为DataFrame形式的数据117
7.6.3将DataFrame形式的数据转换为Alink批式数据118
第8章线性二分类模型119
8.1线性模型的基础知识119
8.1.1损失函数119
8.1.2经验风险函数与结构风险函数121
8.1.3线性模型与损失函数122
8.1.4逻辑回归与线性支持向量机(LinearSVM)123
8.2二分类评估方法125
8.2.1基本指标126
8.2.2综合指标128
8.2.3评估曲线131
8.3数据探索136
8.3.1基本统计138
8.3.2相关性140
8.4训练集和测试集144
8.5逻辑回归模型145
8.6线性SVM模型147
8.7模型评估149
8.8特征的多项式扩展154
8.9因子分解机157
第9章朴素贝叶斯模型与决策树模型160
9.1朴素贝叶斯模型160
9.2决策树模型162
9.2.1决策树的分裂指标定义165
9.2.2常用的决策树算法167
9.2.3指标计算示例170
9.2.4分类树与回归树173
9.2.5经典的决策树示例173
9.3数据探索176
9.4使用朴素贝叶斯方法180
9.5蘑菇分类的决策树186
第10章特征的转化192
10.1整体流程196
10.1.1特征哑元化198
10.1.2特征的重要性199
10.2减少模型特征的个数201
10.3离散特征转化203
10.3.1独热编码203
10.3.2特征哈希205
第11章构造新特征208
11.1数据探索209
11.2思路211
11.2.1用户和品牌的各种特征212
11.2.2二分类模型训练214
11.3计算训练集214
11.3.1原始数据划分214
11.3.2计算特征216
11.3.3计算标签223
11.4正负样本配比225
11.5决策树228
11.6集成学习229
11.6.1Bootstrapaggregating229
11.6.2Boosting230
11.6.3随机森林与GBDT233
11.7使用随机森林算法234
11.8使用GBDT算法235
第12章从二分类到多分类237
12.1多分类模型的评估方法237
12.1.1综合指标239
12.1.2关于每个标签值的二分类指标241
12.1.3Micro、Macro、Weighted计算的指标241
12.2数据探索244
12.3使用朴素贝叶斯算法进行多分类246
12.4二分类器组合248
12.5Softmax算法252
12.6多层感知器分类器255
第13章常用的多分类算法258
13.1数据准备258
13.1.1读取MNIST数据文件259
13.1.2稠密向量与稀疏向量260
13.1.3标签值的统计信息266
13.2Softmax算法267
13.3二分类器组合269
13.4多层感知器分类器(MLPC)270
13.5决策树与随机森林272
13.6K最近邻算法274
第14章在线学习277
14.1整体流程277
14.2数据准备279
14.3特征工程281
14.4使用特征工程处理数据282
14.5在线训练284
14.6模型过滤287
第15章回归的由来289
15.1平均数290
15.2向平均数方向的“回归”291
15.3线性回归293
第16章常用的回归算法296
16.1回归模型的评估指标296
16.2数据探索298
16.3线性回归301
16.4决策树与随机森林304
16.5GBDT305
第17章常用的聚类算法307
17.1聚类评估指标308
17.1.1基本评估指标308
17.1.2基于标签值的评估指标310
17.2K-Means聚类算法312
17.2.1算法简介312
17.2.2K-Means实例314
17.3高斯混合模型算法318
17.3.1算法介绍318
17.3.2GMM实例320
17.4二分K-Means聚类算法321
17.5基于经纬度的聚类324
第18章批式与流式聚类327
18.1稠密向量与稀疏向量327
18.2使用聚类模型预测流式数据329
18.3流式聚类332
第19章主成分分析334
19.1主成分的含义336
19.2两种计算方式340
19.3在聚类方面的应用342
19.4在分类方面的应用346
第20章超参数搜索350
20.1示例一:尝试正则系数351
20.2示例二:搜索GBDT超参数352
20.3示例三:很好聚类个数353
第21章文本分析355
21.1数据探索355
21.2分词357
21.2.1中文分词357
21.2.2Tokenizer和RegexTokenizer361
21.3词频统计365
21.4单词的区分度367
21.5抽取关键词369
21.5.1原理简介370
21.5.2示例371
21.6文本相似度373
21.6.1文本成对比较374
21.6.2最相似的TopN377
21.7主题模型389
21.7.1LDA模型390
21.7.2新闻的主题模型392
21.7.3主题与原始分类的对比394
21.8组件使用小结399
第22章单词向量化400
22.1单词向量预训练模型401
22.1.1加载模型401
22.1.2查找相似的单词402
22.1.3单词向量404
22.2将单词映射为向量409
第23章情感分析414
23.1使用提供的特征415
23.1.1使用朴素贝叶斯方法418
23.1.2使用逻辑回归算法422
23.2如何提取特征425
23.3构造更多特征429
23.4模型保存与预测432
23.4.1批式/流式预测任务432
23.4.2嵌入式预测433
第24章构建推荐系统435
24.1与推荐相关的组件介绍436
24.2常用的推荐算法439
24.2.1协同过滤439
24.2.2交替最小二乘法440
24.3数据探索441
24.4评分预测446
24.5根据用户推荐影片448
24.6计算相似影片453
24.7根据影片推荐用户456
24.8计算相似用户458

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网