第1章 大数据的存在形态与数据资源组织
作为信息的表现形式和载体,数据是对客观事物的逻辑展示,反映了事物存在状态和交互关系。从本质上看,数据不仅指狭义上的数值,也包括一定时空范围内客观对象状态特征的符号描述。在社会运行中,我们无时无刻不在利用和生产着各种各样的数据,当我们搜索所需的各种数据时,必然存在着基于数据获取的信息交互与利用需求。与此同时,在大数据时代,我们也随时使用着他人提供的数据,例如查看导航地图、浏览网页等。基于此,有必要从大数据形态类型和特征属性出发,按获取、存储、管理和应用进行数据资源组织构架。
1.1 大数据的存在形态与特征属性
随着数字智能技术和网络的发展,数据资源的组织与服务已成为各领域共同关注的焦点。数据作为一定时空范围内事物状态的量化表征,已延伸为客观事物性质、状态及相互关系的数字化记载和符号特征展示。在计算机科学中,数据是能输入并程序化处理和模拟的对象,通过序化组织,以实现其利用目标。按数据的形态特征,可分为声音、图像等;按数字表达方式,可分为符号、文字、代码等;按数据反映的客观事物状态特征,可分为数值属性、状态属性和内容属性。由此可见,数据作为不可替代资源,其组织和服务具有普适性和不可缺失性。
1.1.1 大数据形态和类型
随着大数据应用的日益广泛,大数据的定义呈现多样化的趋势,达成共识性的一致表达已非常困难。目前学界和业界采取的方式是接受所有大数据定义,其中三种定义具有较高的认可度。
属性定义(attribute definition)。信息传播中心(information dissemination center,IDC)是研究大数据及其应用的核心机构,其在2011年的报告中将大数据定义为:大数据技术描述了一个技术和体系的新时代,主要用于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值。这个定义反映了大数据的4个显著特点,即容量大、多类型、高速度和低密度的价值特征。
比较定义(comparative definition)。2011年,美国麦肯锡公司的研究报告将大数据定义为:超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集。这一定义虽然未能描述与大数据相关的度量机制,但是在定义中采用了一种演化的观点(从时间和跨领域的角度),用以说明什么样的数据集才能被认为是大数据。
体系定义(architectural definition)。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)认为:大数据是指数据的容量、数据的获取速度或者数据的表示,限制了使用传统关系方法对数据进行分析处理,而需要通过水平扩展机制提高处理效率。由此可见,大数据是数据形式基于容量、速度和处理能力的提升与技术实现的必然发展。
此外,从数据科学和数据框架构建出发,大数据组织涵盖了大数据获取、传输和应用过程。大数据框架则是在计算单元集群间,解决大数据的分布式处理和应用的规则框架。在数字化条件下,大数据框架构建在大数据基础设施之上。此外,大数据应用直接关系到数字网络技术应用的发展。
大数据存在形态由基础设施和网络技术条件所决定,其内涵体现在数据结构特征上。因此,可以从基本的数据形态和特征分析出发,展示大数据类型和特征结构,表1-1展示了大数据的基本类型及其结构特征。
通过表1-1可知,大数据形式多样、类型复杂,从存在形式及应用角度,可以从不同方面进行分类区分。按数据对象区分,大数据可区分为属性与特征数据、状态与结构数据、符号与记录数据;以此为前提拟进行进一步的来源细分和基于来源的数据组织与序化管理。按数字化载体类型区分,大数据可区分为文本数据、图形数据、音频数据、视频数据和多模态数据,这些数据源于文献载体、音视频资料和其他模态信息,是其数字化表达的结构形态数据。按数据功能区分,大数据可区分为模拟数据、计算数据、代码数据和关系数据等类型,各种类型对应于各自的功能,具有基于功能的大数据管理目标。与传统的文献组织相对应,按组织加工层次也可以区分为一次数据、二次数据和三次数据。在大数据应用上按数据应用领域区分,包括地理数据、人文数据、公共数据、科学数据、经济数据、卫生健康数据及行业数据。在不同领域,大数据分布和结构既具有共性,也具有领域之间的差异性。以上5个基本类型决定了大数据来源框架和基本的组织构架。
1.1.2 大数据特征属性
从总体上看,数据存在形态随着大数据与互联网传输技术的发展而处于不断变革之中。互联互通的数字网络和计算智能处理能力的不断进步推动了数字智能环境下的大数据分布与结构变化。
20世纪90年代末,Web技术的发展将世界带入了互联网时代,随之带来的是巨量的达到千万亿字节(petabyte,PB)级别的半结构化和非结构化的网页数据,这就需要对迅速增长的网页内容进行索引和查询。然而,尽管并行数据库能够较好地处理结构化数据,但是对于处理非结构化的数据无法提供任何支持。此外,并行数据库的处理能力严重不足。为了应对Web规模的数据管理和分析挑战,谷歌(Google)提出了Google文件系统(Google file system,GFS)和MapReduce编程模型。在这一环境下,GFS和MapReduce能够自动实现数据的并行化,可以将大规模计算应用分布在大量商用服务器中。运行GFS和MapReduce的系统能够向上和向外扩展,处理能力大幅提升。2000年以来,用户生成内容(user generated content,UGC)与物理传感器生成数据以及其他数据融汇产生了大量的混合结构数据,这要求在计算架构和大规模数据处理机制上实现范式转移(paradigm shift)。在这种背景下,模式自由、快速可靠、高度可扩展的非关系型数据库技术开始出现并被用来处理这些数据。2007年1月,数据库软件的先驱Gray将这种转变称为“第四范式”。他认为处理这种范式的唯一方法就是开发新一代的计算工具用于管理、可视化和分析数据。
随着存储和分析数据从PB级别上升到百亿亿字节(exabyte,EB)级别。2011年7月,易安信(EMC)发布了名为Extracting Value from Chaos的研究报告,讨论了大数据的思想和潜在价值。随后几年几乎所有重要的信息产业公司,如EMC、甲骨文(Oracle)、Google、亚马逊(Amazon)等都启动了各自的大数据项目,从不同层面推进了大数据资源的交互组织与应用。在数字智能技术和新一代互联网技术推动下,大数据化的信息资源管理已成为数字信息组织与服务发展中的关键。就来源结构和形态上看,大数据具有数据类型结构复杂和数据模式多元等特征。
数据类型的复杂性。数字技术的发展使数据产生的途径趋于复杂,数据类型相应增多。这就需要开发新的数据采集、存储与处理技术。例如社交网络(social network servrice,SNS)的发展,使得个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介。与传统的长文本不同,短文本由于长度短,上下文信息和统计意义上的信息很少,从而给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。一般通行的方法包括利用外部数据源扩充文档,或者利用内部相似文档信息来扩充短文本的表达。然而,无论是利用外部数据,还是利用内部数据,都可能引发更多的干扰。另一方面,不同数据类型的融合给传统数据处理方法带来了新的挑战。
数据结构的复杂性。传统处理的数据对象都是结构化数据,且能够存储到关系数据库中。然而,随着数据生成方式的多样化,非结构化数据已成为大数据存在的普遍形式。对于包括文本、文档、图形、视频在内的非结构化数据的处理,则需要采用兼容处理方式进行。非结构化数据蕴含着丰富的知识,但其异构和可变的性质同时也给数据分析与挖掘带来了更大的挑战。与结构化的数据相比,非结构化数据相对而言组织凌乱,其中包含的无用信息,给数据的存储与分析带来很大的困难。目前对非结构化数据的处理方式包括开发非关系型数据库(如Google的BigTable,开源的HBase等)来存储和处理非结构化数据。对此,Google提出了MapReduce计算框架,雅虎(Yahoo)等公司在此基础上实现了Hadoop、Hive等分布式架构,以便于对非结构化数据作基本的分析。国内各大公司也启动了用于支撑非结构化数据处理的基础性研发,如百度的云计算平台、中国科学院计算技术研究所的凌云(Ling Cloud)系统等。
数据模式的多元性。随着数据规模的扩大,数据特征的描述和刻画随之改变,而由其组成的数据模式也因此形成:*先,数据类型的多样化决定了数据模式的多元性。因此在数据处理中不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用关系,以便在多模式的大数据处理中综合利用各种工具,如文本挖掘、图像处理、数字网络组织等。其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据处理需要实现去粗存精、去伪存真。数据搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在应用上已经取得极大的成功,但仍然存在许多不足(如对一些长尾词的查询、二义性查询词的理解等),有待进一步提高。另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度上的问题。这样就会导致数据模式统计结果的显著性减弱,而以往的方法多针对高频数据模式,难以产生多模态数据模式的高效率组织效果。
大数据作为一种资源,其数据要素具有两种属性特征,即自身自然属性特征和客观存在的社会属性特征。大数据的自然属性特征即大容量(volume)、多类型(variety)、高速度(velocity)和低密度价值(value)。
(1)volume是指数据体量巨大。互联网初期阶段由于存储方式、数字化信息手段和分析成本等因素的限制,使得当时许多数据都无法得到记录和保存。即使是可以保存的模拟信号,也大多采用模拟方式存储,当其转变为数字信号时,不可避免地存在数据的遗漏与丢失。随着数字技术的发展和大量数据的产生,一方面,人们能够感知到更多的对象事物数据,而这些事物的部分甚至全部都可以采用数据形式存储;另一方面,由于数字网络工具的使用,使人们能够全时段进行数据联系,实现机器—机器(M2M)的传输,这使得交流的数据量激增;*后由于智能处理技术的发展,多元载体数据得到有效识别。
(2)variety即数据种类繁多。随着数据传感器种类的增多,以及智能设备网络的普及,数据类型变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、视频、音频、文档等形式存在的未加工的半结构化和非结构化的数据。这意味着,在海量且种类繁多的数据间可以发现其内在关联。在物联网时代,各种设备已连成一个整体,个人在这个整体中既是数据的收集者也是数据的传播者,从而加快了数据量的增长速度。这就必然促使我们要在各种各样的数据中发现其中的相互关联,从而将看似无用的数据转变为有效的信息。
(3)velocity反映了数据流动速度的加快。我们通常理解的数据的获取、存储以及挖掘有效速度,在数据处理中PB级代替了TB级。考虑到“超大规模数据”和“海量数据”的大规模特点,应强调数据的快速动态变化,拟形成大数据动态交互机制。数据的快速度流动已难以采用传统的系统处理方式,数据处理的智能化和实时性已成必然,人与人、人与机器之间的数据交流互动不可避免地带来了数据交换模式的改变。其中,交换的关键是降低延迟,将数据以近乎实时的方式呈现给用户。
(4)value体现为低密度价值。低密度价值是指数据量呈指数增长的同时,隐藏在海量数据中的有用信息却没有呈现相应比例的增长,反而使我们获取有用信息的难度加大。以视频为例,连续的监控过程,可能有用的数据仅有一两秒。大数据时代,数据的价值就像在沙砾中淘金,数据量越大,里面真正有价值的数据却越来越少。
由此可见,大数据不仅仅是海量的数据,
展开