大数据导论--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

《大数据导论/普通高等教育“十三五”软件工程专业规划教材》是编者在多年从事大数据相关领域教学和科研的基础上编写而成的。全书系统地对大数据采集、存储、计算、处理、分析、挖掘和可视化等相关内容进行介绍，并结合大数据在社交、交通、医疗、金融、教育等方面的应用进行剖析阐述。《大数据导论/普通高等教育“十三五”软件工程专业规划教材》既可以作为计算机和软件工程专业的研究生和本科生教材，也可供从事信息技术领域的工程技术人员进行学习、使用和参考。《大数据导论/普通高等教育“十三五”软件工程专业规划教材》相关内容基本覆盖了些年大数据领域的新技术和相关研究进展。

前言
第1章大数据概述1
1.1大数据定义1
1.1.1初识大数据1
1.1.2大数据的特征2
1.1.3大数据技术3
1.2大数据的结构类型6
1.2.1结构化数据6
1.2.2半结构化数据7
1.2.3非结构化数据7
1.2.4其他分类方式下的数据类型8
1.3大数据发展9
1.3.1大数据概念发展9
1.3.2大数据浪潮下数据存储的发展10
1.4大数据应用及挑战11
1.4.1大数据应用11
1.4.2大数据发展面临的挑战15
本章小结17
思考题18
第2章大数据采集19
2.1大数据来源19
2.2大数据采集设备20
2.2.1科研数据采集设备20
2.2.2网络数据采集设备21
2.3大数据采集方法21
2.3.1科研大数据采集方法21
2.3.2网络大数据采集方法22
2.3.3系统日志采集方法24
2.4大数据预处理技术25
2.4.1数据预处理技术基本概述26
2.4.2数据清理27
2.4.3数据集成30
2.4.4数据变换与数据离散化31
本章小结34
思考题34
第3章大数据存储35
3.1云存储35
3.1.1云存储简介35
3.1.2云存储技术38
3.2大数据存储43
3.2.1大数据存储的特点与挑战43
3.2.2存储系统架构44
3.2.3新兴数据库技术47
3.3数据中心50
3.3.1数据中心概述50
3.3.2数据中心的演进52
3.3.3数据中心的分级55
3.3.4数据中心的体系结构56
3.4数据仓库59
3.4.1数据仓库的基本概念59
3.4.2数据仓库的体系结构62
本章小结62
思考题63
第4章大数据计算平台64
4.1云计算64
4.1.1云计算定义64
4.1.2云计算特点64
4.1.3云计算体系架构65
4.1.4云计算与相关计算形式67
4.1.5云计算的机遇与挑战68
4.2云计算平台70
4.2.1主流分布式计算系统70
4.2.2主流分布式计算平台70
4.3MapReduce平台74
4.3.1数据存储技术75
4.3.2数据管理技术76
4.3.3编程模型77
4.4Hadoop平台78
4.4.1Hadoop概述78
4.4.2Hadoop结构79
4.4.3Hadoop分布式文件系统HDFS80
4.4.4Hadoop中的MapReduce80
4.4.5Hadoop中MapReduce的任务调度82
4.5Spark平台82
4.5.1Spark简介82
4.5.2核心思想与编程模型84
4.5.3工作原理85
4.5.4Spark的优势87
本章小结87
思考题88
第5章大数据分析89
5.1大数据分析方法89
5.1.1布隆过滤器89
5.1.2散列法91
5.1.3索引法93
5.1.4字典树95
5.1.5并行计算96
5.2大数据分析架构98
5.2.1实时分析与离线分析98
5.2.2不同层次的分析100
5.2.3不同复杂度的分析102
5.3大数据分析应用103
5.3.1R语言103
5.3.2Excel和SQL103
5.3.3RapidMiner104
5.3.4KNIME105
5.3.5Weka和Pentaho105
本章小结106
思考题107
第6章大数据挖掘108
6.1大数据挖掘算法109
6.1.1关联规则109
6.1.2分类分析114
6.1.3聚类分析119
6.2大数据挖掘工具123
6.2.1RapidMiner123
6.2.2Weka123
6.2.3KNIME124
6.2.4Orange124
6.2.5R语言125
6.3大数据挖掘平台125
6.3.1基于Hadoop的平台126
6.3.2基于云计算的平台128
6.3.3基于Spark的平台129
6.4大数据挖掘应用131
6.4.1社交媒体131
6.4.2医学132
6.4.3教育132
6.4.4金融133
本章小结134
思考题134
第7章大数据下的机器学习算法135
7.1大数据特征选择135
7.1.1大数据特征选择的必要性135
7.1.2大数据特征选择方法136
7.2大数据分类140
7.2.1决策树分类140
7.2.2朴素贝叶斯分类142
7.2.3贝叶斯网络分类143
7.2.4支持向量机分类144
7.3大数据聚类145
7.3.1K-means算法146
7.3.2DBSCAN算法150
7.3.3层次聚类算法151
7.4大数据关联分析153
7.4.1有趣关系154
7.4.2Apriori算法154
7.4.3FP-growth算法156
7.5大数据并行算法158
7.5.1基于MapReduce的并行算法设计158
7.5.2超越MapReduce的并行算法设计160
本章小结162
思考题162
第8章大数据可视化163
8.1大数据可视化之美163
8.1.1数据可视化的基本概念163
8.1.2大数据可视化的表现形式164
8.2大数据可视化技术165
8.2.1基于图形的可视化方法166
8.2.2基于平行坐标法的可视化技术168
8.2.3其他数据可视化技术169
8.3大数据可视化工具169
8.3.1R语言在可视化中的应用170
8.3.2D3在可视化中的应用171
8.3.3Python在可视化中的应用172
8.4大数据可视化案例173
8.4.1波士顿地铁数据可视化173
8.4.2实时风场可视化175
8.4.3GapMinder176
8.4.4死亡率与税收177
8.4.5社交关系图177
8.5大数据可视化的未来178
8.5.1数据可视化面临的挑战178
8.5.2数据可视化技术的发展方向178
8.5.3数据可视化未来的主要应用178
本章小结179
思考题179
第9章社交大数据180
9.1社交大数据180
9.1.1社交数据分析让社交网站更懂用户180
9.1.2大数据和社交网络181
9.2社交大数据在国内社交网络中的应用182
9.2.1在腾讯大数据中的应用182
9.2.2在微博大数据中的应用185
9.2.3在淘宝大数据中的应用188
9.2.4在滴滴大数据中的应用189
9.2.5在百度大数据中的应用190
9.3大数据与Facebook：人们情绪的分析192
9.3.1用大数据分析人们对品牌的情绪192
9.3.2关于人们在Facebook上怀旧情绪的分析194
9.4大数据和Twitter：实例分析196
9.4.1分析用户消费习惯196
9.4.2预测热门股票走势199
思考题202
第10章交通大数据203
10.1交通数据分类及其相关分析203
10.1.1社会信号数据203
10.1.2移动手机数据205
10.1.3刷卡数据205
10.1.4社交网络数据205
10.1.5交通数据处理206
10.2交通情况监测207
10.2.1交通事故数据集应用208
10.2.2监测交通情况210
10.3预测人类移动行为214
10.3.1人类移动性分析与概述215
10.3.2人类移动性研究的数据基础与方法215
10.3.3人类活动模式与移动行为预测217
10.3.4人类移动性研究及预测的挑战及展望218
10.4其他应用220
本章小结225
思考题225
第11章医疗大数据226
11.1医疗大数据简介226
11.1.1医疗大数据的来源226
11.1.2医疗大数据特点226
11.1.3大数据对医疗的影响226
11.2基于大数据的临床决策分析228
11.2.1基于大数据的临床决策支持系统的架构228
11.2.2基于大数据的临床决策支持系统的功能应用228
11.2.3大数据在临床决策中的价值229
11.2.4促进数据解锁的示例230
11.3基于大数据的医疗数据系统分析231
11.3.1大数据在医疗信息化行业的应用研究231
11.3.2医疗健康数据来源232
11.3.3医疗大数据体系结构232
11.4基于大数据的远程患者监控235
11.4.1远程医疗的应用领域235
11.4.2大数据在远程医疗产业中的应用236
11.4.3大数据推动远程医疗发展存在的问题237
11.4.4运用大数据推动远程医疗发展的前景展望237
本章小结238
思考题238
第12章金融大数据239
12.1摩根大通信贷市场分析241
12.1.1摩根大通信贷市场介绍241
12.1.2金融科技助力摩根大通243
12.1.3金融大数据面临的挑战244
12.2瑞士银行集合风险分析244
12.2.1集合风险分析245
12.2.2大数据分析信用风险245
12.2.3大数据对金融数据的处理246
12.3民生银行新核心业务平台分析247
12.3.1技术支持248
12.3.2新一代数据分析体系248
12.3.3大数据应用场景250
12.3.4面临的挑战251
12.4阿里信贷金融模式分析251
12.4.1阿里巴巴大数据平台支持252
12.4.2阿里信贷金融模式的优势253
12.4.3阿里信贷金融模式所面临的风险254
本章小结256
思考题256
……
第13章大数据教育257
参考文献276

摘要

    靠前章大数据概述

    当早上被闹铃叫醒，我们可以根据与手机互连的智能手环，从手机APP中看到昨晚睡眠的心跳、血压等健康状况信息；我们可以根据手机上即时更新的天气情况添减衣物；我们可以利用导航软件查阅实时交通状况，根据导航软件对用户以往的数据信息分析得出的出行建议进行路线规划；我们还可以利用大数据软件定位寻找附近的餐馆，甚至可以看到餐厅的用餐环境及特色菜品
    不可否认，数据应用已渗透到我们生活的方方面面。

    互联网带来的数据浪潮给我们的生活带来了极大便利。移动互联、社交网络、电子商务等应用随着互联网的兴起而产生并不断发展，同时大大拓宽了互联网的应用领域，并随之带来了海量的数据。

    1.1 大数据定义

    1.1.1 初识大数据

    20世纪以来，随着网络及计算机技术的发展，社会各行各业逐步走上了信息化的道路并积累了海量的数据。随着物联网和云计算技术的兴起，数据仍在以靠前的速度增长和积累，并超越了相应存储仓库和数据处理资源的发展。如何采用新的技术和方法实现PB级甚至ZB级海量数据的存储和分析是我们当前面临的巨大挑战。爆炸式增长的数据正在引领一场新的时代变革，大数据时代已经来临。

    什么是大数据（Big Data）？不同的研究机构基于不同的角度给出了如下定义。

    大数据是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    ——高德纳（Gartner）咨询有限公司

    大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。

    ——麦肯锡

    大数据一般会涉及两种或两种以上的数据形式，它需要收集超过100TB（1TB=240B）的数据，并且是高速实时数据流；或者是从小数据开始，但数据每年增长速率至少为60%。

    ——靠前数据公司

    总的来说，大数据是指所涉及的数据规模巨大到无法通过人工或计算机，在合理的时间内达到截取、管理、处理并整理成为人们所能解读的形式的信息。

    另外，总结以上几种对于大数据的不同定义，我们不难发现大数据概念所具有的两点共性。

    （1）大数据的数据量标准是随着计算机软硬件的发展而不断增长的。如1GB的数据量在20年前可以称为大数据，而今的数据量已上升到了太字节（TB）或拍字节（PB）量级。

    （2）大数据不仅体现在数据规模上，还包含了不同于传统数据库软件获取、存储、分析和管理能力的提升。

    1.1.2 大数据的特征

    现在我们普遍以5V特征来具体描述大数据，其反映了大数据在5个层面上的特点，如图1-1所示。

    图1-1 大数据的5V特征

    （1） Volume：数据量巨大。数据体积大是大数据的显著特征，其数据量由传统TB级的基于关系的数据库处理数据量增长为PB级及以上的数据量，且不可避免的向泽字节（ZB）发展。

    （2） Velocity：数据具有高速性。该特性包括大数据传输方式和处理方式。传输方式包括批处理传输、实时传输、近似实时传输和流传输等方式。数据处理方式包括数据处理时间和相应的时延。在具有时延的情况下，数据依旧需要以较高的速率被分析、处理、存储和管理，并遵循一秒定律。

    （3） Variety：数据类型多样。大数据不仅包括结构化数据，如传统文本类和数据库数据，还包括各种非结构化、半结构化以及复杂结构的数据，如网页、Web日志文件、博客、微博、图片、音频、视频、地理位置信息等。

    （4） Value：数据具有潜在价值。该特性是指大数据用户从中获得的价值。大数据的这一特性在商业领域较为关键。大数据中数据的价值密度与数据总量成反比，具有价值密度低的特点，如在视频数据中，一小时的视频中有用数据可能只占几秒。

    一般而言，数据容量越大，种类越多，用户得到的信息量越大。获得的知识越多，数据能够发挥的潜在价值越大。但在实际情况中，大数据价值密度低这一特点使其数据价值往往依赖于较好的数据处理方式和工具。因此尽量减少由于数据垃圾和信息过剩造成的数据价值丢失，力求从数据中获得更高的价值回报至关重要。

    （5） Veracity：数据准确性。该特性体现了大数据的数据质量。较为典型的应用是垃圾邮件，它们给社交网络带来了严重的困扰。据统计数据显示，网络垃圾占万维网所有内容的20%以上。

    从传统数据到大数据，形象地说类似于从“池塘捕鱼”发展到“大海捕鱼”的过程，而其中的鱼则为待处理的数据。两者的区别见表1-1。

    表1-1 大数据与传统数据对比

    在大数据定义过程中，需要注意的是其数据量不一定要满足TB级。在实际情况中，我们可以根据具体的数据特征来进行判断，如只有几百GB的数据在一定情况下也可以成为大数据。此时需要考虑其他判断标准，即数据处理速度或处理数据的时间维度，如几百GB的数据可以在一秒或几秒内被全部处理，而传统数据处理方式可能需要半小时甚至几小时，那么这种处理能力的高速提升极大地增加了数据价值。因此，所谓的大数据技术可以只满足以上部分判断特征。

    同时，我们应注意区分“大数据”“大规模数据”和“海量数据”这几个概念。可以从以下两方面加以区分。

    （1）从目标性来看，以上三者都具有数据容量大的特点。但大数据的目标是从大量数据中提取相关的价值信息，所以大数据并非只是大量数据无意义的堆积，其数据之间具有一定的直接或者间接联系。因此数据之间是否具有结构性和关联性是大数据和“海量数据”“大规模数据”的重要差别。

    （2）就技术方面而言，大数据能够快速、高效地对多种类型的数据进行处理和整合从而获得有价值的信息，这也是大数据不同于“海量数据”和“大规模数据”的很主要特征。在数据处理过程中，大数据处理技术运用了如数据挖掘、分布式处理、聚类分析等多种方法，并对相关的硬件发展和软硬件的集成技术提出了较高要求。

    数据量的剧增伴随着数据处理要求的不断提高。因此，大数据的处理技术也得到相应发展。

    1.1.3 大数据技术

    大数据技术是新兴的，能够高速捕获、分析、处理大容量多种类数据，并从中得到相应价值的技术和架构。大数据处理的关键技术主要包括：数据采集和预处理、数据存储、基础架构、数据分析和挖掘以及大数据应用。利用大数据技术对数据处理流程如图1-2所示。

    图1-2 大数据处理流程

    1. 数据采集

    数据是通过射频识别技术、传感器、交互型社交网络以及移动互联网获得的多类型海量数据，这些数据是大数据知识服务模型的根本。

    大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系以及软硬件资源接入系统，可以实现对结构化、半结构化、非结构化海量数据的智能化识别、定位、跟踪、介入、传输、信号转换、监控、初步处理和管理等。基础支撑层主要提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网资源等基础支撑环境。本书第2章将详细介绍这些内容。

    2. 数据预处理

    数据预处理是数据分析和挖掘的基础，是将接收数据进行抽取、清洗、集成、转换、归约等并很终加载到数据仓库的过程。

    （1）数据清洗：现实世界中接收到的数据一般是不完整、有噪声且不一致的。数据清洗过程试图填充空缺值，光滑噪声并识别离群点，纠正数据中的不一致。因此，为了提高数据挖掘结果的准确性，数据预处理是不可或缺的一步。数据清洗过程主要包括数据的默认值处理、噪声数据处理、数据不一致处理，常见的数据清洗工具有ETL 和Potter’s Wheel 。

    （2）数据集成：数据集成过程是将多个数据源中的数据合并同时存放到一个一致的数据存储（如数据仓库）中，其中数据源可以包含多个数据库、数据立方体或一般文件。数据集成需要考虑诸多问题，如数据集成中对象匹配问题、冗余问题和数据值的冲突检测与处理问题。

    （3）数据转换：将原始数据转化为适合于数据挖掘的数据形式。数据转化主要包括数据泛化、数据规范化和新属性构造。

    （4）数据归约：数据归约指在尽可能保持数据原貌的前提下，优选限度地精简数据量，该处理过程主要针对较大的数据集。数据归约主要有两个途径：属性选择和数据采样。这两种途径分别针对原始数据集中的属性和记录进行处理。

    3. 数据存储

    数据存储过程需要将采集到的数据进行存储管理，建立相应的数据库。详解可见本书第3章。根据采集数据多样化的特点，数据主要存储在关系数据库、NoSQL、HTFS等数据库中。

    为了保证数据的安全性，数据存储也需要考虑相应的安全技术，主要包括：分布式访问控制、数据审计、透明加解密、数据销毁、推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

    单台计算机必然无法完成海量的数据处理工作，需要分布式架构的计算平台。然而高可用性的硬件并不是大数据高效处理的全部决定性因素，合理的软件设计和架构同样必不可少。现有的大数据计算平台主要是云计算平台、MapReduce 、Hadoop、Spark 等，本书第4章将对大数据计算平台进行详细介绍。

    4. 数据分析和挖掘

    数据分析是指利用相关数学模型以及机器学习算法对数据进行统计、预测和文本分析。数据分析可分为预测性分析、关联分析和可视化分析。数据的主要分析方法有探索性数据分析方法、描述统计法、数据可视化等。关于数据分析的详细内容请查阅本书第5章。

    预测性分析是通过大数据中某些特点科学地建立模型，并将近期新数据应用到已建立的模型中，达到预测未来数据趋势的目的，从而减少对未来事物认知的不确定性。关联分析的目的是寻找数据之间的内在联系。可视化分析是将大型数据集中的数据以图形图像的形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。对应处理工具主要有动态分析工具和以图形、表格等可视化元素为主的工具。可视化分析可以直观地呈现大数据的特点。

    数据挖掘是利用人工智能、机器学习、统计学等多学科方法从大量的、不接近的、有噪声的、模糊的、随机的实际应用数据集中提取隐含在其中的有价值信息或模式的计算过程。数据挖掘技术众多，根据分类方法的不同可以分为多类，具体可见表1-2。

    表1-2 数据挖掘技术分类表

    本书第6章和第7章对数据挖掘技术和相关的机器学习下的数据挖掘算法进行了详细介绍。

    5. 大数据应用

    现今社会中大数据已应用到各行各业。从各个领域的海量数据中提取有价值的信息进行相关预测和选择决策，可以有力地推动社会进步和发展。目前大数据的典型应用包括社交网络、公共交通、医疗卫生服务、电子商务等。大数据无处不在并与我们的生活紧密相连。

    如图1-3所示，大数据处理框架的工作流程大致如下：基础硬件集对海量的数据进行采集；采集到的数据被递交到上层计算平台的文件存储结构中进行存储，如云计算平台的云存储结构；计算平台完成对数据的整合、处理、分析和挖掘；很后将数据处理结果或者分析结果应用于不同的领域。

    图1-3 数据处理框架

    1.2 大数据的结构类型

    大数据不仅体现在数据容量方面，还体现在其结构方面。大数据的数据类型不再仅仅局限于传统的以二维表形式表示的规范化存储结构。

    按照数据的结构特点分类，可以将数据分为结构化数据、半结构化数据和非结构化数据。在现有大数据的存储中结构化数据仅有20%，其余80%则是存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。据统计优选结构化数据增长速度约为32%，半结构化数据和非结构化数据的增速高达63%。随着大数据的发展，非结构化的数据比例不断增高。数据显示，现今1.8万亿GB容量的大数据中，非结构化数据占有的比例为80%～90%。

大数据导论

库存： {{selectedSku?.stock}} 库存充足

上架到店铺