第1章 大数据概述
1.1 什么是大数据
1.1.1 关于大数据的预言
维克托 迈尔-舍恩伯格(Viktor Mayer-Sch*nberger)是一位著名的数据科学家,先后有100多篇论文公开发表在《科学》《自然》等学术期刊上,通常被认为是*早洞察大数据时代来临的数据科学家之一。当大数据的概念还处在方兴未艾、众说纷纭的时候,他在《大数据时代:生活、工作与思维的大变革》一书中对人们的思维模式、商业模式、管理模式的变革进行了细致的描述,认为世界的本质是数据,大数据时代即将来临,从因果关系到相关关系的思维变革是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心 。在今天看来,书中很多观点和内容仍然对大数据技术及应用的发展做了极为精准的预言。那么,这个预言成真背后的技术推动力又是什么呢?
首先,让我们看维克托 迈尔-舍恩伯格的预言的关键点。
(1)世界的本质是数据。世界的本质的确是人类社会数千年争论而未有定论的问题之一。数学家毕达哥拉斯认为世界的本质是数,因为数是描述事物的通用语言;爱因斯坦坚持自然唯物论,用数学描述宏观的宇宙现象;很多学者也有自己对于世界本质的理解。因此,对于世界本质问题而言,我们可以不采纳任何观点,但不可否认的是,数据可以自然地描述客观世界,而主观认知也离不开数据,数据的存在既客观又不可或缺。
(2)注重全样而非抽样。在人类历史中的绝大多数时间里,通过分析海量数据得到精确的结论是一种挑战。这是因为过去我们只能对少量数据(小数据)进行分析,虽然统计学家研究出许多放大样本可解释性的方法,但是直到现在,我们依然没有完全意识到自己拥有了能够收集和处理大规模数据的能力,还是习惯于在假设之下做很多事情。例如:人们一次次地观察天象,却始终得不到星系全图;一次次测量水稻的长势,却不知道明年是否会丰收;一次次积累临床经验,却不知道下一次流行病会从何时何地开始
(3)注重融合而非精确。人们通常会把测量的精确程度视为科学发展水平的重要标志,测量方法越精确,得到的结果越理想。然而,许多人忽视了一个问题,那就是对精确度要求苛刻的根本原因是收集到的信息有限,而有限的信息意味着细微的错误会被放大。如今,不断涌现的新技术允许不精确、接受适量错误的存在、注重减轻数据的混杂程度,从而利用简单算法进行大规模数据的批量计算,已成为大数据时代的一种特征。
(4)注重相关而非因果。因果定律一直以来被视为科学研究和社会生产的铁律。的确,知道“为什么”仿佛在很多时候比知道“是什么”看上去更加有意义,但是,“为什么”在大数据中显得并不是那么重要,而“是什么”看上去更加能够产生收益。例如,基于大数据技术的推荐系统为许多公司带来了利润,但是公司好像从来都不会关心为什么(某个)客户喜欢(某些)商品,而只是根据他们喜欢的那些商品列表,推算出他们有可能感兴趣的其他商品,再把那些商品推荐给客户。
(5)思维模式的转变。从以上几点我们可以看出,大数据带来了人们在认知、探索、阐释和生产上思维的若干转变,这些转变是相互联系的。首先,要分析与某事物相关的所有数据,而不是分析少量的数据样本;其次,要乐于接受数据的纷繁复杂,不再过于追求精确性;*后,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
(6)商业模式的转变。如今,对于很多行业而言,数据成为重要的生产要素,如何利用大规模的数据成为赢得竞争的关键。随着“互联网+数据”和工业4.0战略的逐步推进,以大数据为核心的技术具有前瞻性、带动性和精准性的特点,能够有效促进制造业与服务业融合,提升制造业企业的竞争力和创新能力。
(7)管理模式的转变。大数据为人类社会的生产、生活管理带来了改变。毕竟,大数据的核心思想就是用规模剧增来改变现状,而数据获取成本的降低与分析工具的先进,使社会管理做出相应的转变。大数据对管理影响*大的方面包括隐私保护、数据安全、法治建设,乃至政府、教育以及军事管理等。
另外,《大数据时代:生活、工作与思维的大变革》还为我们提供了丰富的案例,充分解读大数据将为人类社会的生活、工作和思维带来一系列冲击,为当时需要看清数据时代发展趋势的人们提供了清晰的思路。该书所提倡的全样本分析,仍是指导大数据技术发展的重要指标,本书认为,支持这种全样本分析的技术、方法、产品以及其他相关事物,即是大数据。
1.1.2 触发大数据产生的三种技术
如今,大数据已经对各行各业产生了影响。物联网、智能家居、智能交通、社交网络快速发展,新型移动设备、个人穿戴设备、感知设备不断涌现,数据量呈现爆炸式增长,数据的产生已经不受时空控制。那么,是哪些技术因素导致了大数据时代的来临呢?
1. 存储技术不断升级、存储成本不断降低
大数据产生的第一个重要因素是数据存储技术的迅速发展。1965年,英特尔创始人戈登 摩尔(Gordon Moore)提出著名的摩尔定律,即当价格固定时,每隔18~24个月,相同多的钱能买到的设备上的元器件数目会增加1倍,设备性能也会提升1倍。直至2012年,计算机设备的发展总体规律依然符合摩尔定律,数据处理速度大幅增加,而生产成本却逐渐降低。另外,由于存储技术的提升、制造存储设备的成本下降,人们更倾向于将全部数据保存下来,而不会考虑保存什么。购买更多的存储设备又促使生产商制造更大容量的产品来满足市场需求,在这样滚雪球式的发展下,人们开始谋求用更先进的数据分析工具从海量数据中挖掘价值。
2. 传输速度不断增加、移动网络迅速发展
这里的数据传输有两个方面:一方面是指数据处理设备[如主板、内存和中央处理器(central processing unit,CPU)]中的数据总线的传输速率[总线输入/输出(input/output,I/O)];另一方面是指互联网的数据传输。数据总线是将信息以一个或多个源部件传送到一个或多个目的部件的一组传输线。通俗地说,就是多个计算机部件之间的连接线,通常用MHz来描述总线的传输速度。同时,网络技术的发展也带来了数据传输的飞跃。1975年第一条光纤通信系统投入商用,数据传输速率为45 Mbit/s,而到2021年,第五代移动通信技术(5th generation mobile communication technology,5G)已经开始普及,理论传输速率达到了10 Gbit/s。
3. 数据处理能力大幅提升、单机处理能力遭遇瓶颈
CPU性能的提升大大提高了数据处理的能力,使我们可以更快地处理不断累积的海量数据。从20世纪80年代至今,CPU制造工艺不断精进,随之而来的是数据处理能力呈几何级数上升。在过去的40多年里,CPU的处理速度已经从10 MHz提高到10 GHz。
CPU处理速度的增加一直遵循摩尔定律,但是,到了2012年之后,CPU的处理速度的增速逐渐趋缓,主要原因是在制造工艺上,CPU内部元件的密度已经达到峰值(纳米级),而提高单个CPU的处理速度需要付出极大的研发代价。这样就带来一个突出的矛盾:数据的存储和传输可以无限增长,而单机处理数据的能力遇到瓶颈,这就催生了大数据技术的基础技术—分布式存储与分布式计算。
1.1.3 大数据形成中遇到的问题及解决方案
在这里我们看一个案例:一家电信运营商在2018年购入了两台惠普小型机,每台小型机有512 GB内存,128个CPU,且都安装了*新版本的关系型数据库,每台小型机的I/O和计算能力很强。其中一台用于入库操作(入库操作不能是多机器操作,否则容易引起存取冲突,使运行变慢),另外一台用于查询操作。整个系统的存储用的是惠普的虚拟化存储,里面用了超过3000个硬盘,每个硬盘的存储量是1 TB。
现在遇到两个问题:第一,入库瓶颈。系统采用Insert操作来入库,但是,随着业务量的增加,有越来越多的数据需要入库,操作的速度要求也越来越高,慢慢地,一台机器已经不能满足入库需求。第二,查询瓶颈。在数据量越来越大的情况下,查询响应速度越来越慢,这样下去显然会出现问题。那么如何解决呢?对于这两台小型机来说,CPU和内存的扩展空间已达到极限。如果重新购置更高级的机器,将会浪费时间成本,而仅凭这两台小型机,已经捉襟见肘。
从以上案例中,我们归纳出以下问题。
(1)数据存储量越来越大,无论入库操作还是查询操作,如果采用小型机与传统数据库搭配,速度都将越来越慢,不久会出现性能瓶颈。
(2)系统的实时性和响应时间要求越来越高。在很多场景下,企业需要立刻得到分析结果。
(3)数学模型越来越复杂。以前,系统中用到的数学模型较简单(计算平均数、方差、直方图等),但是一些数据分析所用到的数学模型远非这么简单。也就是说,不仅计算规模在扩展,算法的复杂度也在呈指数级增长。
这样,如果想要满足企业的需求,就需要计算能力越来越强的系统,但是成本会越来越高,不仅如此,即使购买更高级的机器,也仍然会达到其计算能力的瓶颈。那么,如何提供这样强大的计算能力呢?
光靠增加或置换小型机显然已经不行了。因此,人们期待以下解决方案。
(1)新系统能够完美解决性能瓶颈,并且在未来一段时间不容易出现新的瓶颈。*好的情况是:一旦出现性能瓶颈,那么直接购买机器加入计算集群即可,也就是说,这样的集群可以无限扩充节点。
(2)新系统能够使过去的技能平稳过渡。例如,公司员工以前用的是结构化查询语言(structured query language,SQL)进行数据统计,用R语言进行数据分析,那么在新的体系里面,员工的这些技能*好还可以用下去。
(3)转移新平台的转移成本要低。转移成本包括平台软硬件的成本、再次开发的成本、员工技能培训的成本以及维护成本。
这样的一组解决方案,在如今看来,正是大数据系统的通用解决方案。即利用多个机器组成的分布式集群,将数据分割并存储在不同的机器中,每台机器利用相同的算法处理不同的数据部分,再将处理结果有机整合并呈现。
1.1.4 各方对大数据的定义
对大数据的概念界定,从业各方都有各自的看法。维基百科的定义是:大数据指的是需要处理的资料量规模巨大,无法在合理时间内,通过当前主流的软件工具获取、管理、处理并整理的资料,它成为帮助企业经营决策的资讯。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)发布的研究报告中对大数据的定义是:大数据是用来描述我们在网络的、数字的、遍布传感器的、信息驱动的世界中呈现出的数据泛滥的常用语。研究机构加特纳(Gartner)对大数据的定义是:大数据是指需要借助新的处理模式才能拥有更强的决策力、洞察发现力和流程优化能力的具有海量、多样化和高增长率等特点的信息资产。
维基百科中的定义缺乏精确性,常用软件工具的范畴难以界定;NIST片面强调数据本身的量、种类和增长速度;Gartner给出的定义偏向于对数据特征的宏观描述。我们可以看到,就“大数据”这一提法本身来讲,具有明显的时代相对性,今天的大数据在未来可能就不一定是大数据,或者说从业界普遍来看是大数据,但对一些领先者来说或许已经习以为常了。因此,我们将大数据分为狭义的大数据和广义的大数据两个层面进行解读。
狭义的大数据,主要是指与大量数据相关的关键技术及其在各个领域中的应用,以及从各种各样类型的数据中,快速地获得有价值的信息的能力。一方面,大数据反映的是数据规模大到无法在一定时间内用一般性的常规软件工具对其内容进行抓取、管理和处理的数据集合;另一方面,大数据还指海量数据的获取、存储、管理、计算分析、挖掘与应用的全新技术体系。
广义的大数据,囊括了大数据技术、大数据工程、大数据科学、大数据应用等所有相关的领域。大数据工程
展开