罗图悦借

精彩书摘

第1章数据统计描述与图形化
　　1.1数据统计概述
　　统计学是研究客观现象总体数量特征、数量关系和演变规律的一门综合性学科，具体运用数学学科和其他相关学科知识，收集并整理数据，进行描述性、探索性或验证性分析，提炼隐含在数据中的有效信息，研究各种随机现象的本质与内在规律性，并预测趋势发展。
　　统计学经历了古典统计学(17世纪中叶至18世纪中叶)、近代统计学(18世纪末到19世纪末期)和现代统计学(20世纪迄今)三个发展阶段。信息时代产生的海量、多维数据进一步催生了大数据分析及数据科学。统计学主要分为社会经济统计学和数理统计学，应用范围目前已覆盖社会科学、自然科学和工程技术等各个领域。
　　环境数据分析包括传统的环境统计分析及正在兴起的环境大数据分析。针对各类环境数据分析，需要先定义环境问题，将实际环境问题转变为环境数据问题，通过实验或网络搜索获取相关数据，选择恰当的分析方法和软件进行数据统计推断及挖掘，从而辅助开展环境问题现状分析、规律总结和趋势预测。
　　知识拓展1-1数据统计及大数据分析部分大事记
　　1.2数据分析过程
　　数据分析具体涉及“取数、理数、用数”。数据分析的一般步骤是确定分析目的和方案、收集数据并进行数据预处理、分析数据、数据图形化等步骤(图1-1)。数据分析人员需懂业务、懂分析、懂工具、懂设计，要牢固掌握数据分析的基本原理与方法，选择合适的软件灵活分析数据，借助图表将结果直观地展示。
　　图1-1数据分析过程
　　知识拓展1-2大数据分析
　　1.3数据基本类型
　　统计分析包括问题、数据和方法三要素，核心在于数据与分析方法。明确数据基本类型是数据分析的前提，数据类型决定分析方法，即“数据跟着问题走，方法围着数据转”。数据一般分为定类、定序、定距和定比四大类型，对应的统计测量尺度分别为定类尺度、定序尺度、定距尺度及定比尺度。
　　(1) 定类尺度：按事物或某种现象的属性进行分类或分组，是*低层次的计量尺度。定类数据对应的是定类尺度的数值，不具有顺序、距离或起点，不能进行排序或分级，也不能比较大小，仅能用于有限统计量，如“班级”“性别”“污染类型”等。
　　(2) 定序尺度：也称等级尺度或顺序尺度，包含类别信息和次序信息，按照某种逻辑顺序将事物进行分级和排序，无法测量类别之间的准确差值，只能比较大小，不能进行数学运算。由定序尺度计量形成的定序数据比定类数据包含的信息更多，但仅反映观测数据跟着问题走，方法围着数据转”。
　　数据一般分为定类、定序、定距和定比四大类型，对应的统计测量尺度分别为定类尺度、定序尺度、定距尺度及定比尺度。
　　(1) 定类尺度：按事物或某种现象的属性进行分类或分组，是*低层次的计量尺度。定类数据对应的是定类尺度的数值，不具有顺序、距离或起点，不能进行排序或分级，也不能比较大小，仅能用于有限统计量，如“班级”“性别”“污染类型”等。
　　(2) 定序尺度：也称等级尺度或顺序尺度，包含类别信息和次序信息，按照某种逻辑顺序将事物进行分级和排序，无法测量类别之间的准确差值，只能比较大小，不能进行数学运算。由定序尺度计量形成的定序数据比定类数据包含的信息更多，但仅反映观测对象等级、顺序关系，属于品质数据，如“学历”“年龄段”“污染程度”。
　　(3) 定距尺度：将事物进行排序或分类，可测量事物类别或次序之间的距离。由定距尺度计量形成的数据一般以自然或物理单位为计量尺度，可以进行加减运算，但不能进行乘除运算，如“温度”“分数”等。
　　(4) 定比尺度：用于描述对象计量特征，衡量两个测量值之间的比值。由定比尺度计量形成的数据可以进行加减乘除运算，如“质量”“浓度”“体积”。
　　四类数据包含的信息量由少到多排列为定类数据 < 定序数据 < 定距数据 < 定比数据。定类数据和定序数据信息量低，属于属性数据，用于“定性”；定距数据和定比数据信息量高，属于数值数据，用于“定量”。
　　数据分析的原则：夯实统计基础，用好统计软件，强化数据意识。统计理论、统计工具以及统计意识对于数据分析人员缺一不可！统计理论是学习统计的基础。统计工具是快速实现统计目的的手段。统计意识涉及统计者所掌握的方法论，来源于长期理论学习和经验积累。对统计理论理解不深，易导致统计工具使用不当甚至错误使用，结果适得其反。统计意识不足则会局限于统计过程和统计数据本身，片面地看待分析结果而忽略专业场景，导致数据分析虽有统计学意义，但不一定有专业意义，易得出与专业不符的结论。针对数据分析，需要扎实掌握统计理论，强化统计意识，在数据分析实战过程中灵活运用统计工具，不断提升数据分析业务能力。
　　1.4数据分析软件
　　相关软件操作主要采用Microsoft Excel 2021、IBM SPSS Statistics 29以及Jupyter Notebook。本书附带各章例题、习题的原始数据及分析结果，读者可扫描封底二维码下载“环境数据分析”压缩包(解压后统一放置D盘，*终路径为D:\环境数据分析\)。
　　1.4.1使用软件
　　(1) Microsoft Excel 2021：提供插入函数、图表功能和数据分析工具，自带数据分析模块和多种插入函数。关于统计分析主要采用数据分析模块，在菜单“文件”界面点击“选项”，在跳出界面点击“加载项”，选择分析工具库，点击“转到”，在新界面勾选“分析工具库”，点击“确定”，完成数据分析模块的加载；在菜单“数据”界面点击数据分析模块，即可进行数据分析。
　　(2) IBM SPSS Statistics 29：提供数据获取、数据管理与准备、数据分析、结果报告的完整过程；具有包括数据汇总、计数、交叉分析、分类、描述性统计分析、因子分析、回归分析及聚类分析等在内的多种统计分析功能。
　　(3) Jupyter Notebook：操作便捷，通过浏览器运行代码，能够完整记录代码、说明文字、图表、公式等，以HTML、LaTeX、PNG、SVG等富媒体格式展示结果。Jupyter Notebook适用于Julia、Python、R及MATLAB等语言。在Windows或Mac系统下安装Anaconda软件，或在iPhone、iPad 、iPod touch等iOS设备上安装Carnets软件后，均可使用Jupyter Notebook。
　　1.4.2软件安装、运行
　　Anaconda是Python和R的开源发行版，用于数据科学、统计分析、机器学习、深度学习等领域。Anaconda包括Pandas、Scikit-learn、SciPy、NumPy、Matplotlib等在内的180多个科学包及1000多个开源库。
　　知识拓展1-3 Python数据分析重要工具库
　　在Anaconda官网(https://www.anaconda.com/)下载合适版本的Anaconda软件，根据官方说明进行软件安装。安装结束后，在Windows系统开始菜单中出现包括JupyterNotebook在内的程序，点击Jupyter Notebook即启动其运行。另外，Jupyter Notebook可与ChatGPT相结合。例如，Chapyter插件(https://www.szj.io/posts/chapyter)将GPT-4整合到Jupyter Notebook编码环境，进一步提升编码效率。
　　Jupyter Notebook运行如下。
　　(1) 启动Jupyter Notebook后，自动打开浏览器，弹出Jupyter Notebook主界面(图1-2)。
　　图1-2 Jupyter Notebook主界面
　　(2) 该界面显示C:\Users\user_name目录下的文件夹及文件(此处user_name泛指电脑用户名)。在Windows系统下，使用win＋R快捷键打开运行对话框，输入netplwiz命令，点击确定，自动弹出用户名。
　　(3) 在Jupyter Notebook主界面右侧点击菜单New，选择Python 3 (ipykernel)，跳出运行界面(图1-3)，在代码行输入具体命令，点击，执行命令。程序产生的ipynb格式文件自动保存在C:\Users\user_name目录下。
　　图1-3 Jupyter Notebook运行界面
　　(4) 针对C:\Users\user_name目录下的ipynb格式文件，在图1-2 Jupyter Notebook主界面鼠标点击文件，跳出运行界面，点击，执行命令。针对其他目录下的ipynb格式文件，点击Upload，选择ipynb文件，点击上传，文件保存到C:\Users\user_name目录下，或者直接将ipynb文件或文件夹复制到C:\Users\user_name目录下。

展开

目录
第二版前言
**版序
**版前言
第1章　数据统计描述与图形化 1
1.1　数据统计概述 1
1.2　数据分析过程 3
1.3　数据基本类型 3
1.4　数据分析软件 4
1.4.1　使用软件 4
1.4.2　软件安装、运行 5
1.5　数据探索性分析 7
1.5.1　数据管理 7
1.5.2　数据转换 8
1.5.3　异常值及缺失值处理 8
1.6　数据描述性分析 9
1.6.1　集中趋势描述 10
1.6.2　离散趋势描述 10
1.6.3　频率分析 12
1.7　数据图形化形式 14
1.7.1　散点图 14
1.7.2　线图 16
1.7.3　面积图 17
1.7.4　饼图 18
1.7.5　条形图 21
1.7.6　直方图 23
1.7.7　误差条图 25
1.7.8　箱形图 27
1.7.9　小提琴图 29
1.7.10　森林图 29
1.7.11　热图 31
习题 33
第2章环境数据分布与假设检验 35
2.1　总体与样本 35
2.1.1　总体与样本概述 35
2.1.2　样本统计量与总体参数 35
2.1.3　抽样 35
2.1.4　抽样误差 38
2.1.5　样本量计算 38
2.1.6　统计功效 40
2.2　抽样分布 40
2.2.1　抽样分布概述 40
2.2.2　概率密度函数 41
2.2.3　正态分布 42
2.2.4　正态分布检验 42
2.2.5　t分布 45
2.2.6　??2分布 46
2.2.7　F分布 47
2.2.8　二项分布 48
2.3　参数估计 48
2.3.1　参数估计概念 48
2.3.2　点估计 48
2.3.3　置信区间估计 49
2.4 统计假设检验基本思想 50
2.4.1　统计假设检验概述 50
2.4.2　统计假设检验基本步骤 50
2.4.3　统计假设检验两类错误 51
2.4.4　单侧检验与双侧检验 51
2.5　典型分布类型检验 52
2.5.1　Z检验 53
2.5.2　比率检验 54
习题 56
第3章　环境数据t检验 57
3.1　t检验概述 57
3.1.1　t检验定义 57
3.1.2　t检验分类 57
3.1.3　t检验适用条件 58
3.1.4　t检验的分析流程 58
3.2　样本t检验 58
3.2.1　单样本t检验 58
3.2.2　*立样本t检验 60
3.2.3　配对样本t检验 63
习题 66
第4章　环境数据方差分析 67
4.1　方差分析概述 67
4.1.1　方差分析定义 67
4.1.2　方差分析分类 67
4.1.3　方差分析基本术语 67
4.1.4　方差分析适用条件 68
4.1.5　方差分析基本流程 68
4.1.6　方差分析基本思想 68
4.1.7　多重比较 69
4.2　单因素方差分析 70
4.2.1　单因素方差分析概述 70
4.2.2　单因素方差分析基本步骤 70
4.2.3　方差分析趋势检验 74
4.3　双因素方差分析 74
4.3.1　双因素方差分析概述 74
4.3.2　有交互作用的双因素方差分析 75
4.3.3　无交互作用的双因素方差分析 80
4.4　多因素方差分析 83
4.4.1　多因素方差分析概述 83
4.4.2　多因素方差分析适用情形 83
4.5　重复测量方差分析 84
4.5.1　重复测量方差分析概述 84
4.5.2　重复测量方差分析适用条件 85
4.5.3　重复测量方差分析流程 86
4.6　协方差分析 88
4.6.1　协方差分析概述 88
4.6.2　协方差分析基本原理 88
4.6.3　协方差分析条件 88
4.7　Hotelling T 2检验 89
4.7.1　Hotelling T?2检验概述 89
4.7.2　Hotelling T 2数学模型 90
4.7.3　Hotelling T?2检验适用条件 90
4.8　多元方差分析 92
4.8.1　多元方差分析概述 92
4.8.2　多元方差分析适用条件 93
4.9　常用试验设计方差分析 95
4.9.1　试验设计基本原则 95
4.9.2　完全随机设计 95
4.9.3　随机区组设计 95
4.9.4　配对设计 97
4.9.5　析因设计 97
4.9.6　正交设计 99
习题 100
第5章　环境数据非参数检验 101
5.1　非参数检验 101
5.1.1　非参数检验概述 101
5.1.2　非参数检验分类 101
5.1.3　非参数检验的适用范围 101
5.1.4　非参数检验的特点 102
5.1.5　方法比较 102
5.2　单样本非参数检验 102
5.2.1　二项分布检验 102
5.2.2　单样本卡方检验 104
5.2.3　K-S检验 106
5.2.4　S-W检验 107
5.3　两配对样本非参数检验 108
5.3.1　两配对样本卡方检验 108
5.3.2　符号检验 112
5.3.3　Wilcoxon符号秩检验 112
5.4　两*立样本的非参数检验 113
5.4.1　两*立样本卡方检验 116
5.4.2　分层卡方检验 118
5.4.3　Mann-Whitney U检验 119
5.4.4　两*立样本K-S检验 120
5.4.5　莫斯极端反应检验 121
5.5　多相关样本非参数检验 122
5.6　多*立样本非参数检验 125
习题 127
第6章　环境数据相关分析 128
6.1　相关分析概述 128
6.1.1　相关分析定义 128
6.1.2　相关关系分类 128
6.1.3　相关分析类别 128
6.1.4　相关分析数据基本要求 129
6.1.5　相关分析样本量计算 129
6.1.6　相关分析注意事项 129
6.2　相关系数 130
6.2.1　相关系数定义 130
6.2.2　相关程度 130
6.2.3　相关系数分类 130
6.2.4　相关系数热力图 131
6.3　Pearson相关分析 132
6.3.1　Pearson相关分析概念 132
6.3.2　Pearson相关系数公式 132
6.3.3　Pearson相关分析要求 132
6.4　Spearman等级相关分析 135
6.4.1　Spearman等级相关分析概念 135
6.4.2　Spearman等级相关系数公式 135
6.4.3　Spearman等级相关分析要求 135
6.5　Kendall等级相关分析 136
6.5.1　Kendall等级相关分析概念 136
6.5.2　Kendall’s tau-b相关系数公式 136
6.5.3　Kendall’s tau-b相关分析要求 137
6.6　偏相关分析 138
6.6.1　偏相关分析概述 138
6.6.2　偏相关系数公式 138
6.6.3　偏相关分析案例 139
习题 140
第7章　环境数据回归分析 141
7.1　回归分析概述 141
7.1.1　回归分析定义 141
7.1.2　回归分析分类 141
7.1.3　回归分析基本术语 142
7.1.4　回归分析基本步骤 142
7.1.5　回归分析样本量计算 143
7.1.6　回归分析注意事项 143
7.2　线性回归分析 144
7.2.1　线性回归概念 144
7.2.2　线性回归适用条件 144
7.2.3　线性回归评价指标 144
7.2.4　一元线性回归 145
7.2.5　多元线性回归 148
7.3　非线性回归分析 152
7.3.1　非线性回归概念 152
7.3.2　非线性回归分类 153
7.4　多项式回归分析 155
7.4.1　多项式回归概述 155
7.4.2　一元n次多项式回归 155
7.4.3　多元二次多项式回归 158
7.5　Probit回归 159
7.5.1　Probit回归概念 159
7.5.2　二分类Probit回归 159
7.6　Logistic回归分析 161
7.6.1　Logistic回归概念 161
7.6.2　Logistic回归类型 162
7.6.3　Logistic回归基本原理 162
7.6.4　Logistic回归模型的假设检验 163
7.6.5　Logistic回归适用范围 163
7.6.6　二元Logistic回归 163
7.6.7　多元Logistic回归 167
7.7　*线拟合 169
7.7.1　*线拟合概念 169
7.7.2　Logistic*线拟合 170
7.7.3　环境库兹涅茨*线(EKC)拟合 172
7.8　贝叶斯核函数回归 175
7.8.1 贝叶斯核函数回归定义 175
7.8.2 贝叶斯核函数回归应用 175
习题 178
第8章　环境数据生存分析 179
8.1　生存分析 179
8.1.1　生存分析概述 179
8.1.2　生存分析组成 179
8.1.3　生存函数 180
8.1.4　生存*线 180
8.1.5　生存分析种类 180
8.2　寿命表 181
8.2.1　寿命表概述 181
8.2.2　寿命表原理 181
8.3　Kaplan-Meier法 183
8.3.1　Kaplan-Meier法概述 183
8.3.2　Kaplan-Meier法与寿命表法比较 183
8.4　Cox回归法 187
8.5　ROC*线 192
8.5.1　ROC*线概述 192
8.5.2　ROC空间 192
8.5.3　ROC*线定义 193
8.5.4　AUC值 194
8.5.5　ROC*线作用 194
8.5.6　ROC*线可视化 195
习题 197
第9章　环境数据降维分析 198
9.1　数据降维 198
9.1.1　数据降维定义 198
9.1.2　数据降维作用 198
9.1.3　数据降维方法 198
9.2　因子分析 199
9.2.1　因子分析概述 199
9.2.2　因子分析算法 199
9.3　主成分分析 205
9.3.1　主成分分析概述 205
9.3.2　主成分分析算法 205
9.4　对应分析 209
9.4.1　对应分析概述 209
9.4.2　对应分析算法 210
9.5　*优尺度分析 213
9.5.1　*优尺度分析概述 21

展开