您好,欢迎来到聚文网。 登录 免费注册
大数据分析处理(慕课版)

大数据分析处理(慕课版)

  • 字数: 429
  • 出版社: 人民邮电
  • 作者: 郭永洪,贺萌
  • 商品条码: 9787115628275
  • 版次: 1
  • 开本: 16开
  • 页数: 274
  • 出版年份: 2024
  • 印次: 1
定价:¥69.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书采用理论知识与任务案例相结合的形式,以PyCharm为主要开发工具,系统地阐述了大数据分析处理工作流程中的重要步骤,介绍了大数据分析过程中常用的几种第三方库。本书共13个单元,第1单元介绍了大数据分析处理的概念;第2、3单元介绍了大数据分析中科学计算与统计分析的相关知识;第4-7单元介绍了使用Pandas实现数据预处理的方法;第8单元介绍了使用Scikit-learn实现简单的机器学习的方法;第9单元介绍了使用Matplotlib、Seaborn绘制图表的方法;第10-13单元分别介绍了4个大数据分析处理的综合案例。单元1-9中,每个单元都包含了相关知识部分和任务实现部分,任务实现部分一般包含多个任务的具体实现过程,每个任务后面都有课堂实践,通过完成实践操作,读者可以进一步巩固所学知识。 本书既可作为高等院校大数据技术专业的教材,也可作为大数据爱好者的自学书籍。
作者简介
永洪 常州信息职业技术学院大数据技术专业负责人,具有丰富大数据技术专业相关教学和科研工作经验,为国家级教学团队成员、国家级职业教育教师教学创新团队成员、江苏省高校“青蓝工程”优秀青年骨干教师、江苏省优秀毕业设计团队指导老师;参与国家精品资源共享课、国家在线开放课、软件技术专业国家教学资源库、省在线开放课程等建设;获江苏省教学成果一等奖一项、二等奖一项。主要讲授大数据分析处理、数据库管理与应用、C#应用开发、UML建模与设计模式、Web前端开发等课程;参与编写国家规划教材《软件开发与项目管理》、《信息技术基础》,主编高职高专规划教材《XML案例教材》,主编常州信息职业技术学院精品教材《.NET Web应用开发》。
目录
目录 单元1 大数据分析概述 1  学习目标 1  相关知识 1 1. 大数据分析的概念 1 2. 大数据分析的产生与发展过程 2 3. 大数据分析的应用场景 3 4. 大数据分析流程 4 5. 传统的分析统计工具 9 6. 大数据处理编程语言 9 7. 大数据分析实用工具 10  任务实现 11 任务1.1根据业务需求选择合适的大数据分析技术 11 1.1.1 业务需求分析 11 1.1.2 选择大数据分析技术 12 任务1.2 使用 pip和Pycharm完成 Python包的管理 13 1.2.1 了解Python常用库 13 1.2.2 使用pip命令安装、卸载Python包 14 1.2.3 使用Pycharm平台安装、卸载Python包 16  思政园地 19  单元小结 20  课后习题 20 单元2 NumPy科学计算基础 22  学习目标 22  相关知识 22 1.NumPy与ndarray对象 22 2.创建ndarray数组的函数 23 3.ndarray对象的数据类型 23 4.数组的矢量化运算 24 5.广播机制 25 6.数组与标量的运算 26 7.NumPy通用函数 26 8.NumPy的统计与排序方法 27 9.NumPy的numpy.linalg模块 29  任务实现 29 任务2.1 保存考试成绩—创建一个数组 29 2.1.1 使用函数创建数组 29 2.1.2 掌握随机数模块的使用 32 任务2.2 查看考试成绩数据类型—查看数组的数据类型 35 2.2.1 查看数据类型 35 2.2.2 实现数据类型转换 36 任务2.3 对两门课成绩进行相加—实现数组运算 37 2.3.1 实现矢量化运算 37 2.3.2 实现数组广播 38 2.3.3 实现数组与标量间的运算 39 任务2.4 对考试成绩进行计算—使用NumPy通用函数实现数组计算 39 2.4.1 一元通用函数的使用 40 2.4.2 二元通用函数的使用 40 任务2.5对考试成绩进行统计排序—利用NumPy数组进行数据处理 42 2.5.1 变换数组的形态 42 2.5.2 实现数组统计 44 2.5.3 实现数组排序 47 任务2.6 对多门课成绩进行计算—使用NumPy的线性代数模块处理矩阵 49 2.6.1 计算对角线元素和 49 2.6.2 实现矩阵乘法 49  思政园地 50  单元小结 51  课后习题 51 单元3 Pandas统计分析基础 53  学习目标 53  相关知识 53 1. Pandas与Pandas的数据类型 53 2.创建Series和DataFrame的函数 55 3.索引与切片 56 4.排序算法与实现排序的方法 56 5.统计学与实现统计的方法 56  任务实现 57 任务3.1 用不同方式创建系列——创建Series 57 3.1.1 创建一个空的Series 57 3.1.2 使用ndarray对象创建一个Series 58 3.1.3 使用字典创建一个Series 58 3.1.4 使用标量创建一个Series 59 任务3.2 用不同方式创建数据帧——创建DataFrame 59 3.2.1 使用字典创建数据帧 59 3.2.2 使用csv文件创建DataFrame 62 3.2.3 在DataFrame中插入列和行 63 任务3.3 访问和提取随机数据——使用DataFrame进行索引与切片 65 3.3.1 使用索引访问数据 65 3.3.2 使用切片提取部分数据 66 任务3.4 对学生数据进行排序—实现数据排序 67 3.4.1 使用sort、sort_index、sort_values实现数据排序 67 3.4.2 控制排序顺序 69 3.4.3 设置排序算法 71 任务3.5 进行随机数据统计—实现数据统计 72 3.5.1 使用Pandas的统计方法进行统计 72 3.5.2 使用describe方法描述数据 76  思政园地 77  单元小结 77  课后习题 78 目录 单元4 数据加载与存储 80  学习目标 80  相关知识 80 1. 常用的数据文件类型 80 2.文本文件读取和写入 81 3.Excel文件读取和写入 83 4. 数据库文件读取和写入 85  任务实现 88 任务4.1 读取并存储城市经纬度数据-txt文件读写 88 4.1.1 读取txt文件中数据 89 4.1.2 将数据写入txt文件 91 任务4.2 读取并存储招聘数据-csv文件的读写 92 4.2.1 读取csv文件数据 93 4.2.2 将数据写入csv文件 94 任务4.3 读取并存储用户数据-Excel文件的读写 96 4.3.1 读取Excel文件工作表数据 96 4.3.2 将数据写入Excel文件的工作表中 96 任务4.4 读取商品类别数据并存储账户数据-MySQL数据库读写 96 4.4.1 连接MySQL数据库 96 4.4.2 从MySQL数据库读取数据 96 4.4.3 存储数据到MySQL数据库 96  思政园地 96  单元小结 96  课后习题 96 目录 单元5 数据质量与数据清洗 110  学习目标 110  相关知识 110 1.企业数据管理现状 110 2.数据标准 111 3.数据质量的定义 111 4.常用的数据质量检测手段 113 5.数据质量管理的必要性 113 6. 缺失值 114 7. 重复值 115 8. 异常值 117  任务实现 120 任务5.1 医药销售数据遗漏检查-缺失值处理 120 5.1.1 发现缺失值 121 5.1.2 处理缺失值 123 任务5.2 医药销售数据去重校验-重复值处理 125 5.2.1 重复值判断和查看 125 5.2.2 处理记录重复值 126 5.2.3 处理特征重复值 127 任务5.3 医药销售数据异常值排除-异常值处理 130 5.3.1 异常值识别 131 5.3.2 异常值处理 132  思政园地 133  单元小结 133  课后习题 134 单元6 数据合并与转换 136  学习目标 136  相关知识 136 1.concat()函数 136 2.append()方法 138 3.merge()函数 138 4.join()方法 141 5.combine_first()方法 142 6.map()方法 143 7.cut()函数 143 8.qcut()函数 144  任务实现 145 任务6.1 堆叠学生信息和考试成绩数据—实现数据堆叠 145 6.1.1 实现数据横向堆叠 145 6.1.2 实现数据纵向堆叠 146 任务6.2 连接学生信息和考试成绩数据—实现数据连接 148 6.2.1 使用merge()函数实现数据连接 148 6.2.2 使用join()方法实现数据连接 150 6.2.3 使用combine_first()方法重叠合并数据 151 任务6.3 对学生考试成绩进行等级转换—实现数据映射转换 152 6.3.1 使用自定义函数映射转换数据 152 6.3.2 使用字典映射转换数据 153 6.3.3 使用lambda表达式映射转换数据 154 任务6.4 对学生考试成绩进行离散化—实现数据离散化 155 6.4.1 实现数据等宽离散化 155 6.4.2 实现数据等频离散化 156  思政园地 157  单元小结 157  课后习题 158 单元7 数据分组与聚合 160  学习目标 160  相关知识 160 1.数据分组的概念 160 2.GroupBy机制 161 3.数据分组的原则和依据 161 4.数据分组的方法与体系 162 5.数据聚合的概念 163 6. agg和aggregate函数 163 7. apply函数 163 8. transform函数 163  任务实现 164 任务7.1 简单数据表处理-数据分组 164 7.1.1 数据分组方法 164 7.1.2 实现Pandas 数据分组 166 任务7.2 人员得分表处理-数据聚合 172 7.2.1 实现agg聚合 172 7.2.2 实现apply聚合 175 7.2.3 实现transform聚合 179  思政园地 181  单元小结 182  课后习题 182 单元8 Scikit-learn机器学习 184  学习目标 184  相关知识 184 1.机器学习的概念 184 2.机器学习的基本术语 185 3.机器学习的分类与应用 185 4.假设空间 185 5.归纳偏好 186 6.Sklearn 187 7.划分数据集函数 188 8.preprocessing模块 189 9.标准化和归一化 190 10.降维 190 11.线性回归 191 12.逻辑回归 192 13.K-means算法 194 14.朴素贝叶斯 195 15.支持向量机算法 198  任务实现 201 任务8.1 使用sklearn处理iris数据集—使用sklearn处理数据 201 8.1.1 导入数据集 201 8.1.2 划分训练集和测试集 202 任务8.2 boston数据集预处理和降维—数据集预处理 202 8.2.1 实现数据标准化 202 8.2.2 实现数据归一化 202 8.2.3 实现PCA降维 202 任务8.3 构建并评价boston回模型—回归模型分析与预测 202 8.3.1 实现线性回归 202 8.3.2 实现支持向量机算法 202 任务8.4 构建并评价iris分类模型—分类模型分析与预测 202 8.4.1 实现逻辑回归分类 202 8.4.2 实现朴素贝叶斯算法 202 任务8.5 构建并评价iris聚类模型—聚类模型分析与评价 202 8.5.1 实现K-means算法 202 8.5.2 评价K-means算法 202  思政园地 202  单元小结 202  课后习题 202 单元9 使用统计图表展示数据 225  学习目标 225  相关知识 225 1. 数据可视化的概念 225 2. 数据可视化设计过程 226 3. 基本图表类型及使用场景 227 4. pyplot基础语法 229 5. rc参数 230 6. 绘制线图的函数plot 231 7. 绘制柱状图的函数bar 232 8. 绘制直方图的函数hist 232 9. 绘制饼图的函数pie 233 10. 绘制散点图的函数scatter 233 11. 子图的概念 234 12. Seaborn 235  任务实现 236 任务9.1 使用线图展示水果销量变化曲线—掌握matplotlib基础语法 236 9.1.1 掌握pyplot基础语法 236 9.1.2 设置pyplot的动态rc参数 237 任务9.2 使用常用图表展示多个品牌汽车销售额—绘制常见图表 239 9.2.1 绘制线图 239 9.2.2 绘制柱状图 241 9.2.3 绘制直方图 243 9.2.4 绘制饼图 244 9.2.5 绘制散点图 246 任务9.3 使用子图展示就业率数据—创建子图 248 9.3.1数据分析与子图设计 249 9.3.2 实现子图的创建 250 任务9.4 使用Seaborn展示汽车数据的分布与相关性—使用Seaborn绘制图表 252 9.4.1 使用Seaborn绘制直方图 252 9.4.2 使用Seaborn绘制热力图 253  思政园地 255  单元小结 256  课后习题 256 单元10 某地区电力公司用户付费行为预测 258 任务10.1 案例背景概述 258 10.1.1项目目标 258 10.1.2相关背景业务知识 258 10.1.3数据采集和理解 258 任务10.2 电力数据预处理 259 10.2.1按账户和日期排序 260 10.2.2统计每个账户每个月各种账户活动发生的数量 261 10.2.3计算当月月底的账户余额 262 10.2.4计算当月月底账户余额,按下月10日前计算的账户余额 263 10.2.5计算每个账户每个月的用电量和缴费量 264 10.2.6合并整理为新的用户缴费明细和用电量明细表 265 10.2.7数据中空值的处理 265 任务10.3 模型建立与评估 265 10.3.1数据特征的转换 265 10.3.2逻辑回归模型建立与评估 265 10.3.3支持向量机模型建立与评估 265 单元11 《你好,旧时光》文本挖掘分析 275 任务11.1 案例背景概述 275 11.1.1项目目标 275 11.1.2相关背景知识 275 11.1.3实验准备 276 任务11.2 文本数据准备与处理 277 11.2.1读入数据与基本处理 277 11.2.2创建停用词 277 11.2.3找出章节的头部索引和尾部索引 277 11.2.4 绘制章节段数与字数折线图 278 任务11.3 文本分词与词云绘制 278 11.3.1全文分词 278 11.3.2统计词频与长度 279 11.3.3绘制高频词图 279 11.3.4词云绘制 280 任务11.4 关系网络探索 280 11.4.1 计算段落权重 280 11.4.2 绘制人物关系图 282 任务11.5 聚类分析 283 11.5.1计算tf-idf得到词向量矩阵 283 11.5.2获得所有特征项 284 11.5.3 k均值聚类 284 11.5.4 聚类结果可视化 285 11.5.5 层次聚类 285 单元12 基于大数据可视化的城市通勤特征分析研究 287 任务12.1 案例背景概述 287 12.1.1项目目标 287 12.1.2相关背景知识 287 任务12.2 原始数据预处理 287 12.2.1数据的载入 288 12.2.2站点信息处理 289 12.2.3地铁刷卡记录处理 290 12.2.4 合并通勤记录 291 12.2.5 虚拟换乘站点数据合并 292 任务12.3 词云图的绘制 295 12.3.1载入数据 295 12.3.2 设置文字云图各项参数 296 12.3.3 绘制词云图 296 任务12.4 绘制起终点分布连线图 296 12.4.1 载入数据 296 12.4.2 统计频数并筛选 296 12.4.3 完成绘图 296 任务12.5 绘制早高峰地铁刷卡进出站分布图 296 12.5.1载入数据 296 12.5.2统计出入站的频次 296 12.5.3设置图形选项参数并画图 296 任务12.6职住地识别与城市规划对比分析 296 12.6.1载入数据 296 12.6.2统计居住地和工作地的出入站频次 296 12.6.3进行区域中心分析 296 任务13.1 案例背景概述 312 13.1.1项目目标 312 13.1.2相关背景知识 312 任务13.2 网络数据爬取 312 13.2.1查看要爬取的网页结构 312 13.2.2提取此网页中的新闻标题 313 任务13.3 中文文本处理 314 13.3.1中文分词 315 13.3.2将分词后得到的词组转换为向量 316 任务13.4 机器学习做情感分析 318 13.4.1 样本拆分 318 13.4.2 模型训练与评价 318 任务13.5 作词云图 321 13.5.1载入数据 321 13.5.2分词 321 13.5.3绘制词云图 322

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网