您好,欢迎来到聚文网。 登录 免费注册
Apache Airflow数据编排实战

Apache Airflow数据编排实战

  • 字数: 618
  • 出版社: 清华大学
  • 作者: (荷)巴斯·哈伦斯拉克//朱利安·德·瑞特|责编:王军|译者:殷海英
  • 商品条码: 9787302618157
  • 版次: 1
  • 开本: 16开
  • 页数: 410
  • 出版年份: 2022
  • 印次: 1
定价:¥128 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
数据管道通过整合、清 理、分析、可视化等方式来 管理初始收集的数据流。 Apache Airflow提供了一个 统一的平台,可以使用它设 计、实施、监控和维护数据 的流动。Airflow具有易于使 用的UI、即插即用的选项以 及灵活的Python脚本,这些 都使Airflow能够非常轻松地 完成任何数据管理任务。 在《Apache Airflow数据 编排实战》中,介绍了如何 构建和维护有效的数据管道 。与你一同探索最常见的使 用模式,包括聚合多个数据 源、连接到数据湖以及云端 部署。可以将本书作为 Airflow的实用指南,本书涵 盖了为Airflow提供动力的有 向无环图(DAG)的各方面 知识,以及如何根据工作需 求对其进行自定义的技术。 主要内容 构建、测试及部署 Airflow管道作为DAG 自动对数据进行移动和 转换 使用回填技术分析历史 数据集 开发自定义组件 在生产环境中搭建 Airflow 本书面向具有一定 Python编程基础的程序员、 DevOps工程师、数据工程 师、机器学习工程师及系统 管理员。
作者简介
Bas Harenslak和Julian de Ruiter是数据工程师,他们在为大公司开发数据管道方面拥有丰富的经验。同时,Bas也是一位Airflow的提交者。
目录
第Ⅰ部分 入门 第1章 遇见Apache Airflow 1.1 数据管道介绍 1.1.1 数据管道的图形表示 1.1.2 运行管道图 1.1.3 管道图与顺序脚本 1.1.4 使用工作流管理器运行数据流 1.2 Airflow介绍 1.2.1 通过Python代码灵活定义数据管道 1.2.2 调度并执行数据管道 1.2.3 监控和处理故障 1.2.4 增量载入和回填 1.3 何时使用Airflow 1.3.1 选择Airflow的原因 1.3.2 不使用Airflow的理由 1.4 本书的其余部分 1.5 本章小结 第2章 Airflow DAG深度解析 2.1 从大量数据源中收集数据 2.2 编写你的第一个Airflow DAG 2.2.1 任务与operator 2.2.2 运行任意Python代码 2.3 在Airflow中运行DAG 2.3.1 在Python环境中运行Airflow 2.3.2 在Docker容器中运行Airflow 2.3.3 使用Airflow图形界面 2.4 运行定时任务 2.5 处理失败的任务 2.6 本章小结 第3章 Airflow中的调度 3.1 示例:处理用户事件 3.2 定期执行DAG 3.2.1 使用调度器计划性运行 3.2.2 基于cron的时间间隔 3.2.3 基于频率的时间间隔 3.3 增量处理数据 3.3.1 获取增量事件数据 3.3.2 使用执行日期的动态时间参考 3.3.3 对数据执行分区 3.4 理解Airflow的执行日期 3.5 使用回填技术填补过去的空白 3.6 任务设计的最佳实践 3.6.1 原子性 3.6.2 幂等性 3.7 本章小结 第4章 使用Airflow context对任务进行模板化 4.1 为Airflow准备数据 4.2 任务context和Jinja模板 4.2.1 对operator使用参数模板 4.2.2 模板中可用的变量及表达式

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网