第1章 空间大数据
随着传感器网络、移动定位技术、无线通信技术、互联网Web2.0,以及社交媒体等领域的发展,海量且具有位置标签的个体数据和行业数据被采集、存储、更新及推广,使得地理空间信息不断地聚合与融合。这些数据中约90%都是非结构化和半结构化的数据,称为空间大数据。相较于一般的空间数据而言,空间大数据的类型更加丰富多样,获取、管理、清洗和分析的技术流程更加复杂,对理论、实践及软硬件条件都提出了更高的要求。本章在介绍空间大数据概念和特征的基础上,总结空间大数据时代所面临的挑战;简述空间大数据的来源、获取方式和清洗技术;叙述云计算技术在管理空间大数据方面的优势及当前业界流行的管理框架方案;*后针对空间大数据的分析框架和空间智能计算,着重介绍了空间智能计算的范畴与优势。本章作为本书的引子,旨在抛砖引玉,引领读者踏入空间智能计算的奇妙殿堂。本章结构如图1-1所示。
图1-1 本章结构
1.1 概述
1.1.1 空间大数据的概念
1. 空间大数据的兴起
近年来,随着集成电路与芯片、传感器网络、移动定位技术、无线通信技术、移动互联网及高性能计算与存储技术等的飞速发展,数据采集和计算单元不断延展,每个人都成为移动传感器,无时无刻不在积累和提供着数据,如生理指标与健康档案、通信记录、网络浏览记录、消费记录、出行轨迹、社交网络关系等,这些数据是能够全方位多角度地反映个人、自然环境与社会动态的宝贵数据。同时,这些数据也为传统制造业、金融保险业、零售业、医疗卫生事业、交通运输业及新兴的移动互联网与电子商务等行业开展产品设计与优化、生产流程与调度优化、商品推荐与广告投递、店铺选址与成本分析等实际需求提供了巨大的支持。在此背景下,全球数据呈现爆发式增长态势。互联网数据中心研究的结果显示,全球每18个月新增的数据量是人类有史以来全部数据量的总和。2020年,全球一年产生的数据将达到40 ZB,而这些数据中约90%都是不精确的、非结构化的数据。这些数据的管理与分析已经超出了传统数据管理技术的能力,业界通常把这些超出正常处理规模,难以采用传统方法在合理时间内管理、处理并整理成为辅助决策信息的非结构化和半结构化数据称为大数据(big data)。
随着全球卫星定位导航系统、蜂窝移动通信定位技术及WiFi定位技术的进步,大数据的位置标签越发精确。人类活动所产生的数据中约80%的数据与空间位置有关。一个较为显著的例子是,通过大数据与空间位置的融合,21世纪初开始风靡全球的社交网络服务(social network services,SNS)从一个完全基于网络的虚拟系统发展成为客观世界与虚拟世界相融合的基于位置的社交网络(location-based social network,LBSN),创造了巨大的社会效应和经济价值,成为当下人们生活中密不可分的一部分。
2. 空间数据与空间大数据
对于地理信息科学(geographical information science,GIS)而言,传统空间数据的含义是较为固定的,是表征地理圈层或地理环境固有要素和物质数量、质量、分布特征、联系及规律的数字、文字、图像和图形的总称。从数据表达上看,可以将空间数据抽象为点、线、面三类元素;从数据结构上看,空间数据一般由矢量数据和栅格数据组成;从内容上看,空间数据主要表达空间对象的位置、属性和时态特征。空间数据的位置信息可以根据大地参考系定义,如常见的经纬度坐标;也可以定义为空间对象间的相对位置关系,如关联、邻接、包含等。属性数据又称非空间数据,是描述空间对象特征的定性或者定量指标,包括统计数据等。时态特征是指空间数据采集或地理现象发生的时刻或时段,不同时段内空间对象的位置信息和属性特征可能会有所变化,通常需要对同一空间范围多时相数据进行采集和管理。传统的空间数据强调几何上的精确性,因此以实地测绘、对地观测、航空遥感为主要的采集手段,由受过专业训练的人员完成。
与传统的空间数据不同,空间大数据的位置信息在大多数情况下是隐式表达的,且没有统一明确的数据结构。伴随着人们的活动,每时每刻每地都在源源不断地产生空间数据。因此,空间大数据往往以流数据(streaming data)的形式展现,即按照时间的推移动态增加,具有连续性和无限增长性。一个典型的例子是城市交管部门“天眼”摄像头记录的体量巨大的路况数据。因此,空间大数据更强调空间位置的连续表达和非空间属性的实时变化,对于空间对象的位置及其属性信息(如人流、车流、空气质量、噪声等),强调以位置为核心的时空动态关联。空间大数据的采集手段更加丰富和自由,不再局限于专业的测绘工作部门,每个人都是数据的提供者,如个体出行、上网记录、消费信息等均是空间大数据的重要来源,因此空间大数据具有非专业性、实时性和全面性等特点。
1.1.2 空间大数据的特征
传统的空间数据是各种地理特征和现象间关系的表示,一般具有空间位置、属性和时态特征。空间数据中的位置是通过坐标数据进行标识的,这是空间数据区别于其他数据的*显著标志,空间数据具有区域性、多维结构和动态变化的特性。①区域性指通过经纬网建立的地理坐标实现空间位置的标识。②多维结构指在同一位置上可以有多种专题的地理信息,如在同一位置同时有光照条件、湿度、温度、降水量、空气污染程度等多种特性。③时态特征指时空的动态变化引起空间数据中的属性数据或者空间数据的变化,使得空间数据的多时态特性成为一个明显的特征。
空间大数据的特征相较于传统空间数据而言更加丰富。除了较为隐含的空间特性,对于大数据,“5V”特征是*基本也是*显著的特征。“5V”分别是:①Volume(体量大)。大量TB级别及以上的已有数据等待处理,给当前的物理介质存储能力及运算速度带来了巨大的挑战。②Velocity(速度快)。需要应对以秒甚至毫秒计的不断产生无限增长的流数据,这类长期积累的数据不可能全部存储在存储介质中,数据通常在存储前需要进行预处理,去粗取精,保留一些有价值的信息。③Variety(多源异构性)。与空间位置相关的大数据类型多样,采集的内容也千差万别,时常具有不同的时间或空间粒度,从数据格式到存储方法都存在着很大差异,文本、图片、视频等结构化和非结构化数据并存。④Veracity(真伪难辨)。由数据的噪声、缺失、不一致性、歧义、隐喻等引起的数据不确定性。⑤Value(价值)。大数据的真正价值在于数据中所蕴藏的信息和知识。现实世界是一个多参数、非线性、随时间变化的不稳定系统,空间数据中的不确定性是无法回避的问题,大数据使得人们以前所未有的维度量化和理解世界,蕴含了巨大的价值,大数据的终极目标在于从数据中挖掘价值。表1-1总结了传统空间数据与空间大数据的特征差异。
表1-1 传统空间数据与空间大数据的特征差异
1.1.3 空间大数据时代的挑战
在空间大数据爆发式增长的今天,能够实时有效地体现自然、社会环境特征的信息日趋多样。如何分析利用空间大数据,从中提取有效信息,使之体现出群体智慧的价值,为改善和提升政府智能管理、企业商业决策和大众现代生活助力,是值得思考和深入探究的问题。
1. 数据获取与管理
由于空间大数据的“5V”特征,一般而言,传统的人工量测方式已经无法适应空间大数据的要求。空间大数据采集技术强调空间无缝、自动化、实时性、非专业、协同交互,发挥群体智慧。同时,需要对数据进行实时清洗和甄别,尽可能去伪存真。原始数据经过获取后,被丢弃或被存储,但是存储后再次提取代价昂贵。这个过程通常以应用为导向,需要构建适于实时分析的概要结构、时空聚合和多尺度表达等方法,实现高效的数据筛选和聚合机制,以解决数据冗余及噪声问题。
空间大数据更强调多源异构特性和动态性,而不仅仅是数据规模,广义的空间大数据包括多源地理空间信息、全景实景影像、视频、移动对象轨迹、社交网络关系、空间隐喻文本、生活服务信息、个性化地理信息等。与空间位置相关的传感器随着应用的不同,类型多样,采集的内容也千差万别,且常具有不同的时间或空间粒度,从数据格式到存储方法都存在着很大差异。虽然多源异构数据也是GIS中的一个经典命题,但是更具挑战性的是越来越多的非结构化数据。传统GIS几乎没有涉及非结构化数据,常用的关系型数据库也难以管理和使用非结构化数据。对结构化与非结构化数据进行统一的管理是利用空间大数据面临的另一个挑战。
随着大数据时代的到来,关系型数据库在海量数据管理、高并发读写及扩展性等方面的瓶颈逐渐显现,且由于空间数据追求精确性的特点,传统的空间数据库以相对静态的数据为主,不能满足大体量和流数据的存储要求,这表明现有的工具已经无法对空间大数据进行有效存储与管理。相对于静态、有限的数据集,空间大数据的数据存储管理系统需要具备扩展性,以处理动态无限增长的数据的存储和查询。目前普遍采用的云端服务模式已经成为解决大数据存储和管理的技术趋势,然而,这对空间大数据的异地多点查询和数据关联与聚合等提出了挑战。在云环境下,数据可能存放在不同磁盘、不同机器甚至不同地点,现有的分布式文件系统、数据索引与查询的方法都具有局限性。所以,针对空间大数据的数据划分,基于内存的索引,针对历史、当前及未来数据时空索引的并发控制,以及基于多线程的并发连续查询等仍然是亟须深入研究的问题。
2. 数据分析与计算
传统的空间数据分析重在使用统计模型对地理现象间的空间关联进行描述,已故图灵奖获得者Jim Gray提出,科学研究的范式已经从实验科学、理论推演、计算模拟发展到数据密集型科学发现。1994 年在渥太华举行的GIS 国际会议上,李德仁院士第一次提出了从GIS数据库中发现知识(knowledge discovery from GIS,KDG)的概念,建议从纷杂的空间数据中挖掘隐含的模式、规则和知识,这是发挥空间大数据价值的一个重要思路。大数据的真正价值在于各种异构数据之间的关联性,可以采用数据挖掘的方法对多源异构的空间大数据进行不同尺度上的信息挖掘和知识发现。为了克服大数据的噪声和不确定性,常用的方法是对多源空间数据进行融合,如公交卡刷卡数据、出租车轨迹数据、自行车租用数据、手机信令数据等都是典型的城市大数据,但是单独使用其中任何一种数据都无法全面客观地描述城市交通、人群的移动等信息。移动终端,如智能手机上也具备多种传感器,但是单独使用全球定位系统(global positioning system,GPS)只能进行室外定位,结合WiFi、陀螺仪、气压计等就可以同时进行室内及高程定位。所以,无论是宏观还是微观层面,要尽可能地使用多源数据并对多源数据进行融合分析和挖掘,以充分发挥空间大数据的优势。从空间数据分析的角度而言,传统的确定性地理计算,如道路中心线提取仍将继续发挥作用,但是在空间大数据分析中,其适用场景更多的是从当前所积累的定量数据中抽取定性的规则,进而采用空间数据挖掘算法处理不确定性问题,并发现其中蕴含的知识及规律,例如,从众多车辆轨迹中识别出道路边界和中心线等。由传统空间分析方法中的模型驱动逐渐转变为数据驱动,是提取空间大数据价值的重要方式,新时代的空间分析不仅要有建立模型的能力,更要有发现新模式、新知识甚至新规律的能力。
目前,随着GIS、软件技术的成熟及人工智能领域的进展,智能计算技术成为空间大数据分析的重要手段。智能计算是借用自然界、生物界规律的启迪,根据其原理模仿设计求解问题的算法,具有识别现有知识、获取新知识、不断改善性能、实现自身完善的能力,是一个辅助人类去处理各种问题的具有独立思考能力的系统,包括遗传算法、模拟退火算法、禁忌搜索算法、进化算法、启发式算法、蚁群算法、人工鱼群算法、粒子群算法、混合智能算法、免疫算法、人工智能、神经网络、机器学习、生物计算、DNA计算、量子计算、模糊逻辑、模式识别、知识发现等。但由于缺乏可用的计算资源,全方位空间分析和
展开