第一章 引言
§1.1 数理统计学的定义
在各个领域的研究中,都会碰到数量资料,而且常常会遇到类似下面的一些问题。例如:一种新的农药,如何判断它是否有效?慢性铅中毒患者的血压正常吗?如何抽检几百或几千株植株来估计某种病害的流行程度?温度对某种昆虫产卵量的影响是否存在?昆虫的人工饲料配方有没有明显改进?如何以最少的资源和人力来得到我们所需要的某种信息?等等。这一类问题的共同特点,就是人们只能得到他所关心的事情的不完全信息,或者是单个实验的结果有某种不确定性。
取得数量资料的方法一是全面调查,二是抽样调查。全面调查有时不可能做到,如农药污染了河水,不可能调查全部河水农药的含量。可能做到的往往又代价太大,如2010年开始的中国第六次全国人口普查,前后历时3年,共600多万名普查员参加,花费近80 亿元,社会各界投入的人财物力及时间成本巨大。又如,为了知道灯泡合格与否或它的使用寿命,我们常常需要对它做破坏性检验,此时我们显然不能把所有的灯泡都检验一下,而只能满足于对少数几个样品的抽检,这样获得的信息显然是不完全的。再比如,要检验某病原物对植物的致病性,一般来说,接种过病原物的植物不一定全发病,而未接种的也不会全不发病。那么发病与不发病的差别究竟到多大时我们才能认为接种的病原物是有致病性呢?同时,即使我们采用完全一样的实验条件再次进行实验,发病与不发病的植物数量也会有所变化,这说明类似实验的结果具有某种内在的不确定性。要想在这种情况下正确判定病原的致病性,就涉及我们如何评价一些并不确定的实验结果的问题。
要从这样一些问题中得出科学的、可靠的结论,就必须依靠数理统计学。不同的学者曾给数理统计学下过很多定义,如:①数理统计学是一门理论和应用的学科,它用来创造、发展并应用一些技术,使归纳推断所产生的不确定性得到度量;②数理统计学是一门关于数量资料的收集、整理、分析和解释的学科;③数理统计学是一门以概率论为基础,以样本为根据,运用数学模型推断总体的学科。
统计推断是数理统计学的基本任务,为什么要进行统计推断?如果每刻每单位容量的河水的农药含量是完全相等,或者每个人的身高体重完全一致,那么问题就非常简单了,因为可以用一小部分的数据去推断研究对象的总体,也就不需要数理统计这门学科了。可事实并非如此,世界万物的状态总是参差不齐,多姿多彩的。万物状态间的差别是由两种误差造成的:①条件误差:人所能控制或确定的因素的变化而引起的变差;②随机误差:受偶然的无法控制的因素的影响而引起的变差。
在自然界和现实生活中,事物都是相互联系和不断发展的,在它们彼此间的联系和发展中,根据事物间是否存在必然的因果联系,可以分成截然不同的两大类现象,即确定性的现象和不确定性的现象。确定性现象是在一定条件下,必定会导致某种确定的结果。举例来说,在标准大气压下,水加热到100℃,就必然会沸腾,事物间的这种联系是属于必然性的。通常的自然科学各学科就是专门研究和认识这种必然性的,寻求这类必然现象的因果关系,把握它们之间的数量规律。
不确定性现象是指,在一定条件下,事物的结果是不确定的,可能出现也可能不出现。举例来说,同一个工人在同一台机床上加工同一类型零件若干个,它们的尺寸总会有一些差异。又如,在同样条件下,进行小麦品种的人工催芽试验,各种子的发芽情况也不尽相同,有强弱和早晚的分别。为什么在相同的情况下,会出现这种不确定的结果呢?这是因为,我们说的“相同条件”是针对一些主要条件来说的,除了这些主要条件外,还有许多次要条件和偶然因素是人们无法事先一一掌握的。正因为这样,我们在这一类现象中,就无法用必然性的因果关系对个别现象的结果事先预计出确定的答案。事物间的这种关系是属于偶然性的,这种现象叫做偶然现象,或者叫做随机现象。
在自然界以及人们的生产生活中,随机现象十分普遍,也就是说随机现象是大量存在的。比如:同种昆虫不同个体的体重、同一条生产线上生产的灯泡的寿命等,都是随机现象。因此,我们说:随机现象就是在同样条件下,多次进行同一试验或调查同一现象,所得结果不完全一样,而且无法准确地预测下一次所得结果的现象。随机现象这种结果的不确定性,是由于一些次要的、偶然的因素影响所造成的。
随机现象从表面上看,似乎是杂乱无章的、没有什么规律的现象。但实践证明,如果同类的随机现象大量重复出现,它的总体就呈现出一定的规律性。大量同类随机现象所呈现的这种规律性,随着我们观察次数的增多而愈加明显。比如掷硬币,每一次投掷很难判断是哪一面朝上,但是如果多次重复地掷这枚硬币,就会越来越清楚地发现它们正、反面朝上的次数大体相同。
我们把这种由大量同类随机现象所呈现出来的集体规律性,叫做统计规律性。概率论和数理统计就是研究大量同类随机现象的统计规律性的数学学科。
在一般的科学研究中,随机误差和条件误差往往是混在一起,甚至会把随机误差误认为条件误差。从这个意义上来讲,数理统计学的任务有二:①进行合理的试验设计,减少随机误差;②对随机误差作出适当的估计,从而辨认出是否存在条件误差及条件误差的大小。
由于随机误差的普遍存在,数理统计学渗透到科学技术的每个领域和生活的各个方面。随机误差是数理统计学研究的主要内容,而概率论正是研究这种误差本身的普遍性和规律性的学科,故概率论又是数理统计学的重要依据和基础。
数理统计学在很多领域都被证明了是必不可少的工具,即所谓的工具性学科。工具(tool)泛指生产、生活中使用的器具或用以达到某种目的的东西或手段。天文学家根据统计方法预言天空物体的未来位置;遗传分离定律是由统计方法确定下来的;人寿保险费与赔偿金额是以统计记录为基础的生命表核定的;工程师们发现抽样调查方法在控制产品质量方面的价值是无法估量的;商业领导人和政府的智囊团使用统计方法作出决策。
生物统计学便是数理统计学这种工具在生物学中的应用。生物学是一门实验科学,不管你从事的是生物学的哪一个分支,都不可能完全脱离试验或野外调查。而试验或调查所得到的结果几乎无例外地都带有或多或少的不确定性,即试验误差。在这种情况下不用数理统计学是不可能得到正确的结论的。作为一个实验科学工作者,离开了数理统计学就寸步难行。希望读者通过学习,能够掌握常用的数理统计方法,尤其是它们的条件、适用范围、优缺点等,从而能够应用它们去解决实践中遇到的问题。
§1.2 数理统计学的发展简史
统计是一个古老而时髦的名词。古老:它是作为国家的计算和统计开始的,我们可从亚里士多德的《国家事物》和《圣经》等书籍中找到这些记载。在奴隶社会和封建社会,统计意味着财富统计、人口统计和税收统计等,即国力统计;从数理统计学(Statistics)、统计学家(statist)和国家(state)三个名词中也可看到数理统计的渊源所在。时髦:现国家各级政府均设有统计局,我们常常听到不少的统计数据:人口、粮食产量、物价指数、国民生产总值、失业率等,这些均属社会经济统计范畴。前苏联科学院、苏联中央统计局和苏联高教部于1954年3月召开的联合科学会议上曾把社会经济统计和数理统计严格区别开来,分别列入社会科学和自然科学中,认为社会经济统计的基础是马克思主义哲学和政治经济学。事实上两者均研究数量资料,两者间并无不可逾越的鸿沟。
概率论产生于17世纪,本来是应保险事业的发展而产生的,但是来自于赌博者的需求,却是数学家们思考概率论问题的源泉。早在1654年,有一位法国知识分子赌徒梅累(Mere)向当时的数学家帕斯卡(Blaise Pascal)提出一个使他苦恼了很久的问题:“两个赌徒相约赌若干局,谁先赢 m局就算赢,全部赌本就归谁。但是当其中一个人赢了 a(a<m)局,另一个人赢了 b(b<m)局的时候,赌博中止。问:赌本应该如何分法才合理?”此后,帕斯卡在1642年发明了世界上第一台机械加法计算机。三年后,也就是1657年,荷兰著名的天文、物理兼数学家惠更斯(Christiaan Huygens)企图自己解决这一问题,结果写成了《论机会游戏的计算》一书,这就是最早的概率论著作。概率论是根据大量同类随机现象的统计规律,对随机现象出现某一结果的可能性作出一种客观的科学判断,对这种出现的可能性大小作出数量上的描述;比较这些可能性的大小、研究它们之间的联系,从而形成的一整套数学理论和方法。
16~18世纪,赌博盛行促成了概率论的诞生(以Jakob Bernoulli的《猜测术》为标志);殖民扩张、航海业和保险业的发展使人口统计学(Demography)得到很大的发展;高斯(Gauss)从重复测量一个数量误差的研究中导出了Laplace-Gauss方程;孟德尔的豌豆杂交试验,气象学、社会学、天文学等许多学科大量应用了概率论的原理和方法。
19世纪,Karl Pearson花了大半个世纪研究数理统计。Karl Pearson原为数学物理学家,后来研究遗传学,提出了相关与回归的概念,发展了χ2检验,在文献中引进了“均差”、“标准差”等名词并创办了Biometrika杂志。 William Sealy Gosset(Pearson的学生)以“Student”为笔名在Biometrika上发表了许多关于小样本抽样方面的文章。
20世纪:Ronald Aylmer Fisher 及其学生们受Pearson和Gosset的影响,对数理统计学的发展作出了巨大的贡献,如提出零假设的概念,提出F检验和方差分析等。
数理统计学作为一门学科的诞生是以Fisher于1925年写的一本著作Statistical Methods for Research Workers为标志的,故数理统计学是20世纪初的产物,曾被美国一家杂志评为20世纪对人类影响最大的25门学科之一。
根据数量资料提供的信息作出的判断,对日常生活的影响与日俱增。数理统计这一科学序列,已成为处理每个有数量资料出现的领域的必不可少的工具。今天,建立在以概率论为基础的现代统计学,在物理学、生物学、化学、医学与农学等自然科学中,在经济学、教育学和社会学等社会科学中,在政府和企业中,都被证明是不可或缺的助力。
数理统计学的应用范围不尽相同,但所用的基本原理和基本方法则大部分是相同的。
第二章 数据分析导论
§2.1 变量和数据的类型
生物统计学中所需要研究和处理的数据属于变量(variable)。对不同的个体或单位具有的同一性状进行观察的结果,可以获得不一定相同的观察值,则这个性状就称为变量,每一个观察值称为该变量的数据(variate)。生物学上有各种各样的变量,这些变量可以包括形态学上的测量如高度、长度等,生物体内某种化学物质的含量,某种生物过程中不同指标间的比率,某种行为出现的频率和用于生物研究方面的电、光学仪器上的读数,等等。例如,昆虫的体重、虫口密度、昆虫取食量和交配次数、昆虫过冷却点温度、各虫态的历期和单位面积作物产量等,都是变量。变量通常可划分为以下三种类型:定量变量(quantitative variables)、序列变量(ranked variables)和属性变量(categeorical data或qualitative variables)。定量变量又分为离散型变量(discrete variables)和连续型变量(continuous variables)。
2.1.1 定量变量
1.离散型变量
离散型变量中每个数据都是整数,因此数据间的差异也必然是整数,亦称为计数资料(count data)。因为观察时只能一一点数而不能称量。例如,每个调查单位有虫0头、1头、2头 但是应该指出,经过统计加工的指标,如平均数,则可以是非整数。例如,每个单位平均有虫1.5头。
2.连续型变量
当数据由大到小顺序排列时,每两个数据之间总有可
温馨提示:请使用罗湖图书馆的读者帐号和密码进行登录