您好,欢迎来到聚文网。 登录 免费注册
Flink实时大数据处理技术

Flink实时大数据处理技术

  • 字数: 546
  • 出版社: 机械工业
  • 作者: 刘月峰
  • 商品条码: 9787111752004
  • 版次: 1
  • 开本: 16开
  • 页数: 326
  • 出版年份: 2024
  • 印次: 1
定价:¥79.9 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书从实践的角度出发,介绍了Flink实时大数据处理框架开发的技术知识,包括实时处理系统的相关概念、开发方法、分布式计算的体系结构,以及面向事件驱动的编程技术。书中详细探讨了Flink的流式处理和批处理融合的能力,以及它在大规模数据流处理中的优势,并通过一个具体的实例介绍大数据实时处理系统的开发方法和开发过程。此外,本书还介绍了实时数据仓库的设计与实现,包括数据抽取、数据转换、数据存储和数据可视化等方面的内容,以帮助读者构建强大而可扩展的实时数据处理系统。除第10章外,其余各章配有习题,以指导读者深入地进行学习。 本书既可作为高等学校计算机软件技术课程的教材,也可作为大数据开发人员的技术参考书。
作者简介
刘月峰,内蒙古科技大学信息工程学院副教授,博士,硕士生导师,大数据与软件工程系主任。主要研究方向为人工智能、大数据、知识图谱等。近3年主持了省部级项目4项,国家项目2项,横向课题多项。在国内外高水平期刊及重要学术会议上发表论文30余篇,SCI二区3篇,EI期刊5篇,核心期刊多篇,授权国家发明专利2项。作为课程负责人,《C语言程序设计A》获批自治区线上线下混合式一流课程,并入选第二批国家线上线下混合式一流课程的推荐名单。作为课程负责人,主讲的内蒙古高校精品在线开放课程《深度学习之瑞士军刀—PyTorch入门》获批自治区线上一流课程,并于2022年3月入选国家高等教育智慧教育平台。一直致力于大数据与人工智能的相关应用研究,包括大数据与人工智能在故障预测方法中的应用,基于计算机视觉的人工智能应用,基于大数据的知识图谱应用等。
目录
前言 第1章Apache Flink概述 11Flink是什么 111Flink的起源 112Flink的发展过程和主要版本 113Flink的定义 114编程语言的选择 12Flink层次架构 121架构设计 122API和Libraries层 123Runtime核心层 124物理部署层 13大数据处理架构的发展 131Lambda架构 132Kappa架构 133流处理框架的发展 14Flink应用场景 141事件驱动型应用 142数据分析应用 143数据管道应用 144行业应用 15Flink生态系统和社区 151Flink的生态系统和相关工具 152Flink的社区和贡献者 16Flink与其他大数据框架的 关系 161Flink与Hadoop 162Flink与Hive 163Flink与Spark Streaming 164Flink与Storm 17习题 第2章Scala语言 21Scala语言概述 211Scala简介 212开发环境配置 213创建项目 22Scala语言入门 221类型体系结构 222变量的定义与使用 223字面量与插值表达式 224运算符 225流程控制语句 23集合 231集合概述 232Array和ArrayBuffer 233Tuple 234List和ListBuffer 235Set 236Map 237集合操作符号 24函数式编程 241函数的定义与使用 242匿名函数 243高阶函数 244柯里化与闭包 25面向对象编程 251类与对象 252构造器 253继承 254伴生类与伴生对象 255多态 256泛型 257隐式转换 26模式匹配 261基本使用 262条件守卫 263常用匹配 264样例类 27习题 第3章环境搭建和应用部署 31Flink开发环境搭建 311CentOS环境准备 312项目初始化 313项目结构与依赖 32Flink词频统计 321批处理方式 322流处理方式 323两种方式对比 324向集群提交作业 33Flink 集群部署 331Flink集群核心组件 332部署模式 333Standalone模式 334YARN模式 34YARN模式的部署与应用提交 341环境准备 342会话模式 343单作业模式 344应用模式 35习题 第4章Flink流处理架构与原理 41流处理模型与原理 411数据流的概念 412流处理和批处理 413流处理的原理 414流处理的模型 415流处理的优化策略 42Flink流处理架构 421Flink的数据流模型 422算子 423Flink的状态管理 424Flink的容错机制 425Flink在流计算中的优化 43Flink 集群架构 431集群组件的协作 432Task和算子链 433Task Slots和资源管理 44习题 第5章流处理API 51基本使用 511DataStream是什么 512基础程序 513并行度的设置 52DataStream 数据源 521内置Data Source 522自定义 Data Source 53DataStream 转换算子 531数据流转换 532RichFunction 533物理分区 534算子链 535资源组 54DataStream Sink 541Data Sinks 542自定义Sink 55用户行为实时分析 56习题 第6章时间和窗口 61时间与窗口的概念 611Flink中的时间 612窗口 613水位线 62窗口的基本使用 621窗口分配器 622内置窗口分配器 623窗口触发器 624内置触发器 63窗口函数 631ReduceFunction 632AggregateFunction 633ProcessWindowFunction 634增量聚合的ProcessWindow Function 64习题 第7章处理函数与状态管理 71处理函数 711ProcessFunction 712KeyedProcessFunction 713定时器 72多流操作 721Union 722Connect 723Window Join 724Interval Join 725侧输出流 726处理迟到数据 73状态管理 731有状态的流处理 732键控状态 733算子状态 74状态持久化 741Checkpoint 742StateBackend 743Savepoint 75习题 第8章Table API和SQL API 81Table API和SQL API概述 811程序基本结构 812TableEnvironment创建 813创建Table 814Table查询 815Table输出 816Table与DataStream的转换 82Flink SQL使用 821基本使用 822DDL创建表 823查询表 824插入数据 83窗口处理 831窗口表值函数 832窗口聚合 833窗口连接 834Top-N 835去重 84函数 841标量函数 842表值函数 843聚合函数 844表值聚合函数 85习题 第9章Flink Kafka 连接器 91Kafka概述 911基本概念 912环境准备 92生产者与消费者 921Topic操作 922消息发送及消费 923容错机制 93Flink集成Kafka 931DataStream API集成Kafka 932Table API集成Kafka 94数据实时清洗与可视化 941数据模拟 942数据清洗处理 943将数据写入ClickHouse 944数据可视化 95习题 第10章Flink 数据仓库项目实战 101数据仓库概述 1011基本概念 1012与数据库比较 1013OLTP与OLAP 1014数据仓库的应用 102数据仓库架构与模型设计 1021数据仓库架构 1022数据ETL 1023维度数据模型 1024数据仓库分层 1025离线数据仓库与实时数据 仓库 103实时数据仓库环境准备 1031项目需求 1032Nginx日志数据模拟 1033安装和配置 Flume 104项目具体实现 1041数据处理 1042数据分析 1043数据存储 1044数据可视化 参考文献

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网