您好,欢迎来到聚文网。 登录 免费注册
大数据采集与预处理技术

大数据采集与预处理技术

  • 字数: 419000
  • 装帧: 平装
  • 出版社: 上海交通大学出版社
  • 作者: 夏国清,洪洲,陈统主编
  • 出版日期: 2024-02-01
  • 商品条码: 9787313301697
  • 版次: 1
  • 开本: 16开
  • 页数: 256
  • 出版年份: 2024
定价:¥59.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书按照“理论+实战”的形式编写,将企业项目需求分解为单独的任务,全面系统地讲解了大数据采集与预处理的相关知识与技术。全书针对数据采集的不同来源,将知识内容分为五个项目,包括网络数据采集、分布式消息系统Kafka、实时数据库采集工具Canal和Maxwell、ETL日志采集技术栈以及ETL工具一Kettle。本书针对大数据采集与预处理的关键技术及其应用场景,从数据的采集、存储和分析等多个方面介绍了大数据的数据处理流程,通过任务实例为读者展示了如何有效地使用技术或工具。本书可作为大数据相关专业的教学用书,也可作为相关技术人员培训或工作的参考用书。
目录
项目一网络数据采集
任务一认识网络爬虫
一、了解网络爬虫
二、实现爬虫的请求
三、任务实践
任务二解析数据
一、使用正则表达式解析
二、使用BeautifulSoup解析
三、使用Path解析
四、使用PyQuery?解析
五、任务实践
任务三采集动态渲染网页的数据
一、准备Selenium的环境
二、声明浏览器对象
三、访问页面及获取HTML源码
四、查找网页元素
五、操作网页元素
六、获取元素的属性及文本
七、延时等待


八、任务实践

......

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网