罗图悦借

精彩书摘

第1章大数据的存在形态与数据资源组织
作为信息的表现形式和载体，数据是对客观事物的逻辑展示，反映了事物存在状态和交互关系。从本质上看，数据不仅指狭义上的数值，也包括一定时空范围内客观对象状态特征的符号描述。在社会运行中，我们无时无刻不在利用和生产着各种各样的数据，当我们搜索所需的各种数据时，必然存在着基于数据获取的信息交互与利用需求。与此同时，在大数据时代，我们也随时使用着他人提供的数据，例如查看导航地图、浏览网页等。基于此，有必要从大数据形态类型和特征属性出发，按获取、存储、管理和应用进行数据资源组织构架。
1.1 大数据的存在形态与特征属性
随着数字智能技术和网络的发展，数据资源的组织与服务已成为各领域共同关注的焦点。数据作为一定时空范围内事物状态的量化表征，已延伸为客观事物性质、状态及相互关系的数字化记载和符号特征展示。在计算机科学中，数据是能输入并程序化处理和模拟的对象，通过序化组织，以实现其利用目标。按数据的形态特征，可分为声音、图像等；按数字表达方式，可分为符号、文字、代码等；按数据反映的客观事物状态特征，可分为数值属性、状态属性和内容属性。由此可见，数据作为不可替代资源，其组织和服务具有普适性和不可缺失性。
1.1.1 大数据形态和类型
随着大数据应用的日益广泛，大数据的定义呈现多样化的趋势，达成共识性的一致表达已非常困难。目前学界和业界采取的方式是接受所有大数据定义，其中三种定义具有较高的认可度。
属性定义（attribute definition）。信息传播中心（information dissemination center，IDC）是研究大数据及其应用的核心机构，其在2011年的报告中将大数据定义为：大数据技术描述了一个技术和体系的新时代，主要用于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值。这个定义反映了大数据的4个显著特点，即容量大、多类型、高速度和低密度的价值特征。
比较定义（comparative definition）。2011年，美国麦肯锡公司的研究报告将大数据定义为：超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集。这一定义虽然未能描述与大数据相关的度量机制，但是在定义中采用了一种演化的观点（从时间和跨领域的角度），用以说明什么样的数据集才能被认为是大数据。
体系定义（architectural definition）。美国国家标准与技术研究院（National Institute of Standards and Technology，NIST）认为：大数据是指数据的容量、数据的获取速度或者数据的表示，限制了使用传统关系方法对数据进行分析处理，而需要通过水平扩展机制提高处理效率。由此可见，大数据是数据形式基于容量、速度和处理能力的提升与技术实现的必然发展。
此外，从数据科学和数据框架构建出发，大数据组织涵盖了大数据获取、传输和应用过程。大数据框架则是在计算单元集群间，解决大数据的分布式处理和应用的规则框架。在数字化条件下，大数据框架构建在大数据基础设施之上。此外，大数据应用直接关系到数字网络技术应用的发展。
大数据存在形态由基础设施和网络技术条件所决定，其内涵体现在数据结构特征上。因此，可以从基本的数据形态和特征分析出发，展示大数据类型和特征结构，表1-1展示了大数据的基本类型及其结构特征。
通过表1-1可知，大数据形式多样、类型复杂，从存在形式及应用角度，可以从不同方面进行分类区分。按数据对象区分，大数据可区分为属性与特征数据、状态与结构数据、符号与记录数据；以此为前提拟进行进一步的来源细分和基于来源的数据组织与序化管理。按数字化载体类型区分，大数据可区分为文本数据、图形数据、音频数据、视频数据和多模态数据，这些数据源于文献载体、音视频资料和其他模态信息，是其数字化表达的结构形态数据。按数据功能区分，大数据可区分为模拟数据、计算数据、代码数据和关系数据等类型，各种类型对应于各自的功能，具有基于功能的大数据管理目标。与传统的文献组织相对应，按组织加工层次也可以区分为一次数据、二次数据和三次数据。在大数据应用上按数据应用领域区分，包括地理数据、人文数据、公共数据、科学数据、经济数据、卫生健康数据及行业数据。在不同领域，大数据分布和结构既具有共性，也具有领域之间的差异性。以上5个基本类型决定了大数据来源框架和基本的组织构架。
1.1.2 大数据特征属性
从总体上看，数据存在形态随着大数据与互联网传输技术的发展而处于不断变革之中。互联互通的数字网络和计算智能处理能力的不断进步推动了数字智能环境下的大数据分布与结构变化。
20世纪90年代末，Web技术的发展将世界带入了互联网时代，随之带来的是巨量的达到千万亿字节（petabyte，PB）级别的半结构化和非结构化的网页数据，这就需要对迅速增长的网页内容进行索引和查询。然而，尽管并行数据库能够较好地处理结构化数据，但是对于处理非结构化的数据无法提供任何支持。此外，并行数据库的处理能力严重不足。为了应对Web规模的数据管理和分析挑战，谷歌（Google）提出了Google文件系统（Google file system，GFS）和MapReduce编程模型。在这一环境下，GFS和MapReduce能够自动实现数据的并行化，可以将大规模计算应用分布在大量商用服务器中。运行GFS和MapReduce的系统能够向上和向外扩展，处理能力大幅提升。2000年以来，用户生成内容（user generated content，UGC）与物理传感器生成数据以及其他数据融汇产生了大量的混合结构数据，这要求在计算架构和大规模数据处理机制上实现范式转移（paradigm shift）。在这种背景下，模式自由、快速可靠、高度可扩展的非关系型数据库技术开始出现并被用来处理这些数据。2007年1月，数据库软件的先驱Gray将这种转变称为“第四范式”。他认为处理这种范式的唯一方法就是开发新一代的计算工具用于管理、可视化和分析数据。
随着存储和分析数据从PB级别上升到百亿亿字节（exabyte，EB）级别。2011年7月，易安信（EMC）发布了名为Extracting Value from Chaos的研究报告，讨论了大数据的思想和潜在价值。随后几年几乎所有重要的信息产业公司，如EMC、甲骨文（Oracle）、Google、亚马逊（Amazon）等都启动了各自的大数据项目，从不同层面推进了大数据资源的交互组织与应用。在数字智能技术和新一代互联网技术推动下，大数据化的信息资源管理已成为数字信息组织与服务发展中的关键。就来源结构和形态上看，大数据具有数据类型结构复杂和数据模式多元等特征。
数据类型的复杂性。数字技术的发展使数据产生的途径趋于复杂，数据类型相应增多。这就需要开发新的数据采集、存储与处理技术。例如社交网络（social network servrice，SNS）的发展，使得个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介。与传统的长文本不同，短文本由于长度短，上下文信息和统计意义上的信息很少，从而给传统的文本挖掘（如检索、主题发现、语义和情感分析等）带来很大的困难。一般通行的方法包括利用外部数据源扩充文档，或者利用内部相似文档信息来扩充短文本的表达。然而，无论是利用外部数据，还是利用内部数据，都可能引发更多的干扰。另一方面，不同数据类型的融合给传统数据处理方法带来了新的挑战。
数据结构的复杂性。传统处理的数据对象都是结构化数据，且能够存储到关系数据库中。然而，随着数据生成方式的多样化，非结构化数据已成为大数据存在的普遍形式。对于包括文本、文档、图形、视频在内的非结构化数据的处理，则需要采用兼容处理方式进行。非结构化数据蕴含着丰富的知识，但其异构和可变的性质同时也给数据分析与挖掘带来了更大的挑战。与结构化的数据相比，非结构化数据相对而言组织凌乱，其中包含的无用信息，给数据的存储与分析带来很大的困难。目前对非结构化数据的处理方式包括开发非关系型数据库（如Google的BigTable，开源的HBase等）来存储和处理非结构化数据。对此，Google提出了MapReduce计算框架，雅虎（Yahoo）等公司在此基础上实现了Hadoop、Hive等分布式架构，以便于对非结构化数据作基本的分析。国内各大公司也启动了用于支撑非结构化数据处理的基础性研发，如百度的云计算平台、中国科学院计算技术研究所的凌云（Ling Cloud）系统等。
数据模式的多元性。随着数据规模的扩大，数据特征的描述和刻画随之改变，而由其组成的数据模式也因此形成：*先，数据类型的多样化决定了数据模式的多元性。因此在数据处理中不仅需要熟悉各种类型的数据模式，同时也要善于把握它们之间的相互作用关系，以便在多模式的大数据处理中综合利用各种工具，如文本挖掘、图像处理、数字网络组织等。其次，非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声，网络数据处理需要实现去粗存精、去伪存真。数据搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在应用上已经取得极大的成功，但仍然存在许多不足（如对一些长尾词的查询、二义性查询词的理解等），有待进一步提高。另外，网络大数据通常是高维的，往往会带来数据高度稀疏与维度上的问题。这样就会导致数据模式统计结果的显著性减弱，而以往的方法多针对高频数据模式，难以产生多模态数据模式的高效率组织效果。
大数据作为一种资源，其数据要素具有两种属性特征，即自身自然属性特征和客观存在的社会属性特征。大数据的自然属性特征即大容量（volume）、多类型（variety）、高速度（velocity）和低密度价值（value）。
（1）volume是指数据体量巨大。互联网初期阶段由于存储方式、数字化信息手段和分析成本等因素的限制，使得当时许多数据都无法得到记录和保存。即使是可以保存的模拟信号，也大多采用模拟方式存储，当其转变为数字信号时，不可避免地存在数据的遗漏与丢失。随着数字技术的发展和大量数据的产生，一方面，人们能够感知到更多的对象事物数据，而这些事物的部分甚至全部都可以采用数据形式存储；另一方面，由于数字网络工具的使用，使人们能够全时段进行数据联系，实现机器—机器（M2M）的传输，这使得交流的数据量激增；*后由于智能处理技术的发展，多元载体数据得到有效识别。
（2）variety即数据种类繁多。随着数据传感器种类的增多，以及智能设备网络的普及，数据类型变得更加复杂，不仅包括传统的关系数据类型，也包括以网页、视频、音频、文档等形式存在的未加工的半结构化和非结构化的数据。这意味着，在海量且种类繁多的数据间可以发现其内在关联。在物联网时代，各种设备已连成一个整体，个人在这个整体中既是数据的收集者也是数据的传播者，从而加快了数据量的增长速度。这就必然促使我们要在各种各样的数据中发现其中的相互关联，从而将看似无用的数据转变为有效的信息。
（3）velocity反映了数据流动速度的加快。我们通常理解的数据的获取、存储以及挖掘有效速度，在数据处理中PB级代替了TB级。考虑到“超大规模数据”和“海量数据”的大规模特点，应强调数据的快速动态变化，拟形成大数据动态交互机制。数据的快速度流动已难以采用传统的系统处理方式，数据处理的智能化和实时性已成必然，人与人、人与机器之间的数据交流互动不可避免地带来了数据交换模式的改变。其中，交换的关键是降低延迟，将数据以近乎实时的方式呈现给用户。
（4）value体现为低密度价值。低密度价值是指数据量呈指数增长的同时，隐藏在海量数据中的有用信息却没有呈现相应比例的增长，反而使我们获取有用信息的难度加大。以视频为例，连续的监控过程，可能有用的数据仅有一两秒。大数据时代，数据的价值就像在沙砾中淘金，数据量越大，里面真正有价值的数据却越来越少。
由此可见，大数据不仅仅是海量的数据，

展开

目录
第1章大数据的存在形态与数据资源组织 1
1.1 大数据的存在形态与特征属性 1
1.1.1 大数据形态和类型 1
1.1.2 大数据特征属性 3
1.2 大数据获取与存储 6
1.2.1 大数据来源与获取方式 7
1.2.2 面向应用的大数据存储 9
1.3 大数据管理与资源组织 11
1.3.1 多源异构数据管理 11
1.3.2 大数据资源组织的体系化实施 14
1.4 数字智能驱动下的信息服务与大数据应用 16
1.4.1 信息服务中的数字智能驱动 16
1.4.2 面向用户的大数据应用发展 18
第2章大数据应用与服务需求 20
2.1 用户数据层面的信息需求及其演化 20
2.1.1 大数据环境及其影响 20
2.1.2 基于信息流的数据资源需求驱动 22
2.2 大数据应用与信息资源需求结构 25
2.2.1 大数据应用需求及其对象特征 25
2.2.2 基于大数据应用的信息需求结构 27
2.3 数字信息需求状态与需求转化 30
2.3.1 大数据环境下用户的信息需求状态 30
2.3.2 隐性需求与显性需求状态转化 32
2.4 基于需求认知表达的用户信息行为 34
2.4.1 用户的信息行为特征与行为引动 34
2.4.2 信息行为的主、客观影响因素分析 37
第3章大数据应用基础与服务技术 39
3.1 数字信息服务中的大数据应用技术基础 39
3.1.1 大数据技术基础结构 39
3.1.2 信息管理框架下的大数据应用技术构建 41
3.2 大数据应用与数字信息服务发展的技术推动 43
3.2.1 互联网、云计算与智能技术的发展影响 44
3.2.2 技术融合背景下的大数据应用与数字信息服务推动 47
3.3 大数据应用与数字信息服务安全技术支持 49
3.3.1 大数据安全防护与访问控制技术 49
3.3.2 虚拟化安全技术 53
3.3.3 大数据安全中的纵深防御技术 55
3.4 大数据应用与数字信息服务技术的标准化 56
3.4.1 大数据应用与数字信息服务技术标准化原则与任务 57
3.4.2 大数据资源组织与数字信息服务技术标准体系构建 58
3.4.3 大数据资源组织与数字信息服务技术标准化推进措施 59
第4章大数据背景下的数字信息内容揭示与关联 61
4.1 数字信息内容揭示的理论与实践发展 61
4.1.1 数字信息资源控制中的内容揭示 61
4.1.2 数字信息内容揭示的深化 63
4.2 数字信息资源控制中的知识描述与揭示 66
4.2.1 知识描述的基本方式 66
4.2.2 知识描述与揭示的发展 70
4.3 数字信息内容揭示与数据挖掘 73
4.3.1 数字信息内容揭示中的数据挖掘 73
4.3.2 数字信息挖掘的方式 75
4.4 知识单元关联组织及其实现 77
4.4.1 基于共现和聚类的知识关联组织 78
4.4.2 基于语义相似度计算的知识关联组织 79
4.4.3 基于主题地图和关联数据的知识关联组织 80
4.4.4 基于关联规则的知识关联组织 82
第5章大数据应用中的智能化交互与体验设计 85
5.1 数字服务中人机交互的智能化发展 85
5.1.1 人机交互发展进程及现状 85
5.1.2 数字智能环境下人机交互的核心问题 88
5.2 智能交互系统框架与规范 90
5.2.1 智能交互系统框架 90
5.2.2 人机融合智能规范设计 92
5.3 智能交互中的特征识别与深度学习 94
5.3.1 智能交互中的用户注视行为及语音特征识别 94
5.3.2 深度学习算法及其应用 96
5.4 数字智能交互中的用户体验设计 100
5.4.1 用户体验设计的发展及内涵 101
5.4.2 心流体验视角下的智能交互设计 103

第6章数字视觉资源聚合服务组织 107
6.1 图像内容语义描述的框架模型 107
6.1.1 图像语义描述的框架模型 107
6.1.2 图像语义描述的技术实现 111
6.2 数字视觉资源聚合与服务 114
6.2.1 数字视觉资源知识聚合服务的体系结构 114
6.2.2 数字视觉资源知识聚合服务的组织实现 117
6.3 基于关联数据的数字视觉资源内容组织 121
6.3.1 数字视觉资源内容关联特征 122
6.3.2 数字视觉资源内容组织模型构建 123
6.4 图像资源组织本体与语义关联的可视化展示 128
6.4.1 图像资源组织本体构建 128
6.4.2 人文图像资源语义关联与可视化 130
第7章科学大数据应用与知识服务推进 136
7.1 科学大数据中的知识网络构建 136
7.1.1 大数据应用中的知识网络与知识共享 136
7.1.2 网络化知识利用和转化体系构建 138
7.2 数字化科学研究中的数字嵌入式知识服务 141
7.2.1 科学研究信息化中的嵌入式知识服务内容 141
7.2.2 知识社区活动中的嵌入式知识服务 144
7.3 面向用户认知的嵌入式知识保障 148
7.3.1 基于智慧融合的嵌入式知识服务框架 148
7.3.2 融入创新过程的知识聚合服务组织 151
7.4 基于融汇的服务调用与数据协同保障 154
7.4.1 知识创新中的服务融汇 154
7.4.2 面向用户的融汇服务组织 158
第8章公共与行业大数据组织与服务 161
8.1 公共与行业大数据资源保障 161
8.1.1 大数据中心建设与数据服务保障 161
8.1.2 基于大数据中心网络设施的公共与行业云数据保障 165
8.2 行业大数据分析与应用 168
8.2.1 大数据分析关联规则 168
8.2.2 大数据分析模型与方法 170
8.2.3 数据可视化与图谱服务 173
8.3 工业大数据应用与行业数字服务融合 176
8.3.1 工业大数据应用场景与大数据应用组织 177
8.3.2 基于产业链关系的行业大数据融合应用 182
8.4 公共领域大数据应用与服务保障 184
8.4.1 卫生健康大数据应用与服务 185
8.4.2 智慧城市大数据开放共享平台 187
第9章大数据应用与数字服务安全保障 190
9.1 数字信息服务中的权益保护与安全保障 190
9.1.1 数字信息服务中的基本权益关系 190
9.1.2 数字信息服务中的权益保护与安全监督 192
9.2 大数据资源的安全防御与保护 195
9.2.1 数字信息资源识别与合规处理 195
9.2.2 数据安全防御与同期控制 198
9.2.3 面向存储资源及其存储过程的容灾防护 199
9.3 数字信息资源服务链安全信任管理 203
9.3.1 数字信息资源服务链中的安全信任关系 204
9.3.2 基于信息安全的服务链信任认证与保障 206
9.3.3 数字信息资源服务链安全保障中的可信第三方监督 207
9.4 基于等级协议的数字信息资源服务监控与安全责任管理 209
9.4.1 基于SLA的数字信息资源云服务质量与安全 210
9.4.2 等级协议框架下的云服务安全监测与报告 211
9.4.3 服务等级协议下的安全责任管理 213
参考文献 217

展开