您好,欢迎来到聚文网。 登录 免费注册
大数据技术科普2——大数据采集、存储与管理

大数据技术科普2——大数据采集、存储与管理

  • 字数: 147
  • 出版社: 西安电子科大
  • 作者: 编者:靳大尉|责编:李鹏飞
  • 商品条码: 9787560668178
  • 版次: 1
  • 开本: 16开
  • 页数: 124
  • 出版年份: 2023
  • 印次: 1
定价:¥32 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书是大数据技术普及 系列读物之一,主要涉及大 数据采集、分布式文件存储 和非关系型数据管理等内容 。全书共6章,每章一个专 题,按照大数据运用流程, 从网页和日志文件两种常用 的大数据采集方法入手,介 绍了分布式文件存储、 NoSQL数据库基础理论和4 种NoSQL数据库技术。针对 特定技术选择了一款最典型 的产品进行诠释,先后对 Python 语言中的Requests 和BeautifulSoup包, Hadoop生态中的Flume、 HDFS和HBase,以及Redis、 MongoDB和Neo4j等产品进 行了介绍。在每章结构上, 按照要做什么(需求背景)、 是什么(产品功能和特性) 、为什么(体系结构/数据模 型)和怎么做(基本操作)4 个方面递进展开,内容相对 独立,方便读者根据自身需 要选择章节进行阅读。 全书内容相对浅显,具 有较强的可读性,适合对大 数据技术感兴趣,希望从技 术和产品层面对大数据采集 、存储和管理进行初步学习 的读者阅读。
目录
第1章 大数据采集 1.1 概述 1.2 网页数据的爬取 1.2.1 网络爬虫概述 1.2.2 网络爬虫的实现 1.2.3 网页爬取策略 1.3 日志文件的采集 1.3.1 Apache软件组织 1.3.2 文件采集工具Flume 1.3.3 实验:Flume的使用方法 小结 第2章 分布式文件存储 2.1 Hadoop概述 2.1.1 Hadoop的诞生与发展 2.1.2 Hadoop生态系统 2.1.3 Hadoop版本演进 2.1.4 Hadoop的发行版本 2.2 HDFS分布式文件系统 2.2.1 HDFS概述 2.2.2 HDFS设计思想 2.2.3 HDFS实现机制 2.2.4 HDFS数据读取和写入 2.2.5 HDFS文件操作方式 2.3 HDFS分布式部署实战 2.3.1 虚拟化技术 2.3.2 实验设计 2.3.3 实验过程 小结 第3章 NoSQL数据库 3.1 数据管理技术的发展 3.2 关系型数据库技术 3.3 NoSQL技术概述 3.3.1 传统数据库面临的挑战 3.3.2 NoSQL技术的特点 3.3.3 NoSQL的理论基础 3.4 常见的NoSQL数据库 3.4.1 NoSQL数据库的分类 3.4.2 键值数据库 小结 第4章 列族数据库 4.1 概述 4.2 HBase数据模型 4.2.1 列族数据模型 4.2.2 一个网页的数据实例 4.3 HBase体系结构 4.4 常用命令 4.4.1 表操作 4.4.2 数据操作 小结 第5章 文档数据库

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网