第1章 绪论
本教材是为培养提升高校经济管理类专业本科学生数据素质而构建的一门通识课程教材。汉语中的“素质”指后天形成的,能够完成某类活动所必需的基本条件。数据素质可以理解为通过学习达到的,能够完成数据相关活动的基本能力。作为学习指导,本章将讨论数据素质培养意义、数据技术概念及知识体系框架。
1.1 数据素质培养意义
1.1.1 什么是数据素质
数据素质通常可以理解为通过学习达到的,能够完成数据相关活动的基本能力。数据活动存在技术开发与应用的区分,开发对应系统化训练的技术专业素质,这里的应用则特指非数据技术专业的各领域人才在数据技术应用活动中需要具备的基本条件。数据技术应用素质简称为数据素质。
一般数据技术泛指从数据中获取解决问题信息的各类技术。随着数据技术进步,应用范围扩大,应用场景变化,数据素质也相应动态变化。就当前数据技术的一般应用场景,各领域人才应具备的数据素质可大体表述为应用数据信息初步认知事物的能力,并大体可以分为三个层次。
第一,对数据怎么生成的,其经过什么技术处理与组织才能获取所需的相关信息,以及获取的数据信息是否能有效反映现象的意义等问题有所知晓。
第二,上述问题是通过数据技术的相关基本概念和基本规则表述的,因此,学习掌握数据技术相关基本概念和基本规则成为数据认知能力的必要条件。
第三,经过一定学习实践,具备阅读学习大数据-人工智能相关应用文献的初步能力;经较短培训,具备一定实际数字项目的操作能力;对本领域现实数据活动产生兴趣、发现相关问题的能力等。
1.1.2 经济社会运行方式变革
当前,在计算机网络信息技术推动下,涌现出线上交流与交易、智能生产与管理、智慧出行、远程教育与医治等一系列新技术,以及冠以数字、智能智慧、共享等称号的各种经济社会新形态和国家治理新模式。同时,新技术以交叉聚合、正向激励的方式不断发展演化,大数据出现进一步爆发式增长,驱使经济社会运行和国家治理方式进一步加速变革。我们就像被抛向时时面对数据、处处依赖数据行为的大数据海洋场景之中,面对数据海洋中的波涛巨浪及暗流涌动,数据素质就是游泳技能,决定我们能否在数据海洋中很好地生存及搏击畅游。除个人感受之外,经济社会领域专业人士的数据素质还面临数字经济与政府数据治理推进,数据权益识别与保护等场景的现实挑战。
1.1.3 落实国家大数据战略
目前大数据风生水起,但其仍然没有破除生产率悖论成长为推动实体经济整体发展的通用技术。原因在于,不同于以物质和能量转换为特征的历次技术革命,信息技术革命是基于大数据,以智能化方式释放出历次技术革命和产业变革积蓄的巨大能量的。这一能量释放机制高度复杂,远非劳动力、资本和技术要素进行传统的组合就能解决问题的,需要通过数据技术与领域技术高度融合,创建出由新技术、新基础设施和新要素组织机制构成的新技术经济范式。2015年,我国提出实施大数据战略和《促进大数据发展行动纲要》。2017年,习近平总书记就实施国家大数据战略主持中共中央政治局第二次集体学习时指出,“要构建以数据为关键要素的数字经济,推动互联网、大数据、人工智能同实体经济深度融合,培育造就一批大数据领军企业,打造多层次、多类型的大数据人才队伍”。提升领域人才数据素质是推动国家大数据战略落实的重要举措。
一是数字经济和政府数字治理中,相关数字系统开发要求领域用户和数字技术人员共同确定系统开发目标与相应技术。现实中大量企业和政府机构人员因缺失相关素质而不能提出明确需求,这是经济和数字化治理推进的*大瓶颈。解决之道在于加速培养领域专业人员的数据素质。
二是计算机信息技术是以对主体行为产生影响的信息载体定义数据的,其认为数据本身没有价值,只有成为对主体行为产生作用的信息时,数据才有意义。我们认为,从这一语境,大数据可理解为行为主体按规则行为活动的充分、完备和系统的记录,其中相关规则来源于领域,但其行为记录数据却可以超越本领域自身产生巨大外溢性,具有为其他相关领域所用的价值,由此派生出数据社会配置活动。以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。
三是与传统商品不同,数据因存在以下五个特性,所以很难以所有权移转方式完成配置交易。①数据具有非竞争和非排他性。数据的使用并不减少数据供应,不影响其他主体使用。②传统生产投入存在规模报酬递减,而数据越用信息越充分,具有规模报酬递增特性。③数据具有多主体交互生成与共享性,权属难以界定。④数据可无限复制。一般性掌握原生数据并没有现实意义,数据价值来自从中获取的能够驱动行为的信息。⑤数据价值存在高时效性,需要实时更新。目前数据交易一般通过数据服务,特别是长期服务方式完成。对存在数据需求的各非数据技术企业而言,明确数据信息服务需求,商定服务交易价格等相关规则,是形成数据交易配置的基本条件。而对一个具体数据性质的认知则是数据素质的现实体现。应当指出,上述讨论也同样适用于社会治理数字化系统构建中的数据要素配置。
数字经济的本质是数据要素与劳动及其资本要素的有效结合,逻辑上是以劳动要素具备一定数据素质为其结合条件的,同时该结合还表现出正向增强反馈机制,即数据应用以劳动要素具备数据素质为条件,而劳动要素基于数据素质又能提升数据应用效果,进而激励数据技术加速进步。上述两方面以增强反馈形成正向迭代机制。显然,劳动要素的数据素质是数据要素发挥生产力创新动能作用的基础,劳动者数据素质的提升具有推动数字经济的重要现实意义。
1.1.4 数据权益识别与保护
任何技术都具有正面与负面社会效应。信息技术在催生巨大动能的同时也带来了社会治理的巨大挑战。其中既包括掌控大量数据资源和市场份额的互联网科技巨头,形成垄断抑制竞争、侵害行为主体的信息安全与隐私权力的现象;也包括因数据具有存在方式上的虚拟性和价值实现上的聚合性等特点,出现部分信息技术企业为追求流量利润,开发出行为可卡因产品;甚至出现网络科技巨头放任虚假信息影响公众,造成社会撕裂的极端现象。数据技术的一系列社会负面影响已经引发人们的高度关注。各国政府加速构建相关治理体系,但治理体系构建及其效果,往往与公众数据素质水平正相关。例如,如果我们知道一个从数据中获取信息的算法是内嵌于代码中的观点,是被某种成功定义的优化,这一数据信息暗含提供者态度的认知,将增加一点数据识别理性,减少一点数据误导或信息盲从。其算法相关知识则是提升数据素质需要学习的一个核心内容。显然,数据素质为行为主体增强市场话语权、实施自我保护,乃至社会数据治理提供了重要的支撑。
1.2 数据技术
1.2.1 相关概念
严格说,数据技术是在一系列计算机信息相关技术基础上形成的一个宽泛概念。相关技术主要包括以下几个方面。
1.大数据
1998年,美国硅图公司马西(Mashey)基于数据快速增长现象,提出必将出现数据难理解、难获取、难处理和难组织等四个问题,并以“BigData”描述这一挑战。2007年,图灵奖获得者格雷(Gray)认为,大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径;指出在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来“数据探索”的第四范式,以“数据密集型科学发现”,开启从科研视角审视大数据的热潮。2012年,牛津大学的舍恩伯格和库克耶(Cukier)发表《大数据时代:生活、工作与思维的大变革》,提出数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,引发了商业经济等领域的强烈反响,大数据的社会影响达到新高度。2014年后,对大数据的认知趋于理性。与大数据相关的技术、产品、应用和标准不断发展,逐渐形成由数据资源与应用程序接口(application programming interface,API)、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据技术生态系统。其发展热点呈现了从技术向应用再向治理的逐渐迁移。
应当指出,目前人们对大数据的认识表达更多集中在与传统数据的区分。例如,大数据就是大到无法通过现有手段在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息(梅宏,2018),其具有海量性、多样性、时效性及可变性等特征。而大数据潮流之所以兴起,源于其给出的事物近似总体信息,改变了传统数据认知范式,特别是该信息具有的巨大外溢性,成为大数据价值涌现的动力。如果将大数据理解为“行为主体按照规则行为的充分、完备和系统的记录”,就可以贴切表达这种现象的背景。其中,规则来自领域事物管理活动要求,充分记录内涵事物管理需要的近似总体信息。开放的充分记录也可为其他领域所用,产生巨大正外部性。
2.数据科学
数据科学出自计算机和统计对其学科定位的再认识。1974年,图灵奖获得者诺尔(Naur)针对计算机的基本功能是数据处理,提出了数据科学(data science)的概念,认为“数据科学是一门基于数据处理解决问题的科学”,建议其替代计算机科学的称谓。1985年,美国华裔统计学家吴建福在访问中国科学院时提出,数据科学反映统计学研究现状,可以改变对统计学不够精确的认识偏误,建议将统计学改称数据科学。2000年后,大数据陡起。统计学与计算机科学力图为大数据现象寻找一个科学解释框架,目光聚焦于数据科学概念。出现了大量以统计或计算机与大数据现象挂钩的方式论证数据科学的文章。其中,2012年帕蒂尔(Patil)和达文波特(Davenport)发表“数据科学家:21世纪*时髦职业”一文,以及2015年美国白宫聘请帕蒂尔担任第一任首席数据科学家的举动,将数据科学的社会影响推向高潮。由此派生出基于统计与计算机等方面的数据科学的概念解读。统计学提出,数据科学是收集、处理和应用数据的科学;计算机科学提出,数据科学是通过挖掘数据、处理与分析数据,从而获取数据中信息的技术。此外,还有通过作用意义界定数据科学概念的,如数据科学是一门利用数据学习知识的学科;数据科学通过综合统计、数据分析及其相关方法概念,理解和分析实际现象数据等。2016年我国开设数据科学与大数据技术本科专业,系统开设计算机与数据模型等方面的基础与专业课程,培养大数据技术专业人才。显然,数据科学与大数据技术是数据技术的重要构成。
3.数字技术与数字经济
数字技术是20世纪90年代,针对各种传统信息形式转换成计算机可识别的编码技术而提出的,包括硬件设备和软件程序两大部分。在计算机技术广泛应用的今天,人们开始将基于计算机相关硬件与软件的自动化、智能化应用系统构建与开发技术统称为数字技术。基于数字技术的经济活动又统称为数字经济。应当指出,数字技术是高度复杂的专门化技术体系,包括数字系统的构建以及数字系统的运行管理。数字系统一旦构建起来,其运行过程将产生大量数据,而且无论是自动化的还是智能化的系统,其运行都是依靠数据的。显然,数字技术体系是个大概念,其中包含诸多数据技术。
1.2.2 数据技术概念
可从相关形成背景与形成逻辑理解数据技术这一概念。
1.数据技术概念形成相关背景
历史上出现了大量服务各领域问题解决,归属相应领域的数据获取与处理技术。例如,天文学的天象观测技术、气象学的气象观测技术、物理学的物质运动观测技术、生物医学的显微观测技术、社会经济的统计调查技术等。可以说,几乎自然与社会各领域都存在用于数据认知的相关技术。但直至计算机网络技术推动下,大数据涌现才导致数据技术脱离领域专属,成为独立的普适性技术,形成新的社会分工。出现这一现象的背景在于,虽然大数据是基于计算机网络技术形成的,但其富含的信息具有解决一系列复杂社会经济问题的巨大价值,并引发生产方式与社会经济运行方式的巨大变革。于是,现实中如
展开