第1章 数据统计描述与图形化
1.1数据统计概述
统计学是研究客观现象总体数量特征、数量关系和演变规律的一门综合性学科,具体运用数学学科和其他相关学科知识,收集并整理数据,进行描述性、探索性或验证性分析,提炼隐含在数据中的有效信息,研究各种随机现象的本质与内在规律性,并预测趋势发展。
统计学经历了古典统计学(17世纪中叶至18世纪中叶)、近代统计学(18世纪末到19世纪末期)和现代统计学(20世纪迄今)三个发展阶段。信息时代产生的海量、多维数据进一步催生了大数据分析及数据科学。统计学主要分为社会经济统计学和数理统计学,应用范围目前已覆盖社会科学、自然科学和工程技术等各个领域。
环境数据分析包括传统的环境统计分析及正在兴起的环境大数据分析。针对各类环境数据分析,需要先定义环境问题,将实际环境问题转变为环境数据问题,通过实验或网络搜索获取相关数据,选择恰当的分析方法和软件进行数据统计推断及挖掘,从而辅助开展环境问题现状分析、规律总结和趋势预测。
知识拓展1-1数据统计及大数据分析部分大事记
1.2数据分析过程
数据分析具体涉及“取数、理数、用数”。数据分析的一般步骤是确定分析目的和方案、收集数据并进行数据预处理、分析数据、数据图形化等步骤(图1-1)。数据分析人员需懂业务、懂分析、懂工具、懂设计,要牢固掌握数据分析的基本原理与方法,选择合适的软件灵活分析数据,借助图表将结果直观地展示。
图1-1数据分析过程
知识拓展1-2大数据分析
1.3数据基本类型
统计分析包括问题、数据和方法三要素,核心在于数据与分析方法。明确数据基本类型是数据分析的前提,数据类型决定分析方法,即“数据跟着问题走,方法围着数据转”。数据一般分为定类、定序、定距和定比四大类型,对应的统计测量尺度分别为定类尺度、定序尺度、定距尺度及定比尺度。
(1) 定类尺度:按事物或某种现象的属性进行分类或分组,是*低层次的计量尺度。定类数据对应的是定类尺度的数值,不具有顺序、距离或起点,不能进行排序或分级,也不能比较大小,仅能用于有限统计量,如“班级”“性别”“污染类型”等。
(2) 定序尺度:也称等级尺度或顺序尺度,包含类别信息和次序信息,按照某种逻辑顺序将事物进行分级和排序,无法测量类别之间的准确差值,只能比较大小,不能进行数学运算。由定序尺度计量形成的定序数据比定类数据包含的信息更多,但仅反映观测数据跟着问题走,方法围着数据转”。
数据一般分为定类、定序、定距和定比四大类型,对应的统计测量尺度分别为定类尺度、定序尺度、定距尺度及定比尺度。
(1) 定类尺度:按事物或某种现象的属性进行分类或分组,是*低层次的计量尺度。定类数据对应的是定类尺度的数值,不具有顺序、距离或起点,不能进行排序或分级,也不能比较大小,仅能用于有限统计量,如“班级”“性别”“污染类型”等。
(2) 定序尺度:也称等级尺度或顺序尺度,包含类别信息和次序信息,按照某种逻辑顺序将事物进行分级和排序,无法测量类别之间的准确差值,只能比较大小,不能进行数学运算。由定序尺度计量形成的定序数据比定类数据包含的信息更多,但仅反映观测对象等级、顺序关系,属于品质数据,如“学历”“年龄段”“污染程度”。
(3) 定距尺度:将事物进行排序或分类,可测量事物类别或次序之间的距离。由定距尺度计量形成的数据一般以自然或物理单位为计量尺度,可以进行加减运算,但不能进行乘除运算,如“温度”“分数”等。
(4) 定比尺度:用于描述对象计量特征,衡量两个测量值之间的比值。由定比尺度计量形成的数据可以进行加减乘除运算,如“质量”“浓度”“体积”。
四类数据包含的信息量由少到多排列为定类数据 < 定序数据 < 定距数据 < 定比数据。定类数据和定序数据信息量低,属于属性数据,用于“定性”;定距数据和定比数据信息量高,属于数值数据,用于“定量”。
数据分析的原则:夯实统计基础,用好统计软件,强化数据意识。统计理论、统计工具以及统计意识对于数据分析人员缺一不可!统计理论是学习统计的基础。统计工具是快速实现统计目的的手段。统计意识涉及统计者所掌握的方法论,来源于长期理论学习和经验积累。对统计理论理解不深,易导致统计工具使用不当甚至错误使用,结果适得其反。统计意识不足则会局限于统计过程和统计数据本身,片面地看待分析结果而忽略专业场景,导致数据分析虽有统计学意义,但不一定有专业意义,易得出与专业不符的结论。针对数据分析,需要扎实掌握统计理论,强化统计意识,在数据分析实战过程中灵活运用统计工具,不断提升数据分析业务能力。
1.4数据分析软件
相关软件操作主要采用Microsoft Excel 2021、IBM SPSS Statistics 29以及Jupyter Notebook。本书附带各章例题、习题的原始数据及分析结果,读者可扫描封底二维码下载“环境数据分析”压缩包(解压后统一放置D盘,*终路径为D:\环境数据分析\)。
1.4.1使用软件
(1) Microsoft Excel 2021:提供插入函数、图表功能和数据分析工具,自带数据分析模块和多种插入函数。关于统计分析主要采用数据分析模块,在菜单“文件”界面点击“选项”,在跳出界面点击“加载项”,选择分析工具库,点击“转到”,在新界面勾选“分析工具库”,点击“确定”,完成数据分析模块的加载;在菜单“数据”界面点击数据分析模块,即可进行数据分析。
(2) IBM SPSS Statistics 29:提供数据获取、数据管理与准备、数据分析、结果报告的完整过程;具有包括数据汇总、计数、交叉分析、分类、描述性统计分析、因子分析、回归分析及聚类分析等在内的多种统计分析功能。
(3) Jupyter Notebook:操作便捷,通过浏览器运行代码,能够完整记录代码、说明文字、图表、公式等,以HTML、LaTeX、PNG、SVG等富媒体格式展示结果。Jupyter Notebook适用于Julia、Python、R及MATLAB等语言。在Windows或Mac系统下安装Anaconda软件,或在iPhone、iPad 、iPod touch等iOS设备上安装Carnets软件后,均可使用Jupyter Notebook。
1.4.2软件安装、运行
Anaconda是Python和R的开源发行版,用于数据科学、统计分析、机器学习、深度学习等领域。Anaconda包括Pandas、Scikit-learn、SciPy、NumPy、Matplotlib等在内的180多个科学包及1000多个开源库。
知识拓展1-3 Python数据分析重要工具库
在Anaconda官网(https://www.anaconda.com/)下载合适版本的Anaconda软件,根据官方说明进行软件安装。安装结束后,在Windows系统开始菜单中出现包括JupyterNotebook在内的程序,点击Jupyter Notebook即启动其运行。另外,Jupyter Notebook可与ChatGPT相结合。例如,Chapyter插件(https://www.szj.io/posts/chapyter)将GPT-4整合到Jupyter Notebook编码环境,进一步提升编码效率。
Jupyter Notebook运行如下。
(1) 启动Jupyter Notebook后,自动打开浏览器,弹出Jupyter Notebook主界面(图1-2)。
图1-2 Jupyter Notebook主界面
(2) 该界面显示C:\Users\user_name目录下的文件夹及文件(此处user_name泛指电脑用户名)。在Windows系统下,使用win+R快捷键打开运行对话框,输入netplwiz命令,点击确定,自动弹出用户名。
(3) 在Jupyter Notebook主界面右侧点击菜单New,选择Python 3 (ipykernel),跳出运行界面(图1-3),在代码行输入具体命令,点击,执行命令。程序产生的ipynb格式文件自动保存在C:\Users\user_name目录下。
图1-3 Jupyter Notebook运行界面
(4) 针对C:\Users\user_name目录下的ipynb格式文件,在图1-2 Jupyter Notebook主界面鼠标点击文件,跳出运行界面,点击,执行命令。针对其他目录下的ipynb格式文件,点击Upload,选择ipynb文件,点击上传,文件保存到C:\Users\user_name目录下,或者直接将ipynb文件或文件夹复制到C:\Users\user_name目录下。
温馨提示:请使用罗湖图书馆的读者帐号和密码进行登录