第1章 绪论
美国数学家克劳德 艾尔伍德 香农(Claude Elwood Shannon,1919—2001年)是信息论创始人。1948年香农在 Bell System Technical Journal 上发表了划时代论文 A Mathematical Theory of Communication(通信的数学理论),宣告了一门崭新的学科——信息论的诞生。1949年,香农又在该杂志上发表了另一篇影响深远的论文 Communication in the Presence of Noise(噪声下的通信)。在这两篇论文中,香农阐明了通信的基本问题,给出了通信系统的模型,提出了信息量的数学表达式,并解决了信道容量、信源统计特性、信源编码和信道编码等一系列基本问题。这两篇论文成为信息论的奠基性著作。
1.1 信息的概念
信息论是通信的数学理论,是应用近代数理统计方法研究信息的传输、存储与处理的科学,它是随着通信技术的发展而形成和发展起来的一门新兴的交叉学科。信息论创立的标志是1948年香农发表的论文:A Mathematical Theory of Communication。为了解决在噪声信道中有效传输信息的问题,香农在这篇论文中创造性地采用概率论的方法研究通信中的问题,并且对信息给予了科学的定量描述,第一次提出了信息熵的概念。信息是信息论中*为基本和*为重要的概念,同时也是一个既复杂又抽象的概念。
日常生活中,人们往往对消息和信息不加区分,认为消息就是信息。例如,收到一封电报或者收听了天气预报,人们就说得到了信息。其实,收到消息后,如果消息告诉了人们很多原来不知道的新内容,人们会感到获得了很多信息,而如果消息是已经知道的内容,那么人们就觉得所获得的信息并不多。所以,信息应该是可以度量的。这就引出了概率信息的概念。概率信息的概念是香农提出来的,故又称香农信息。下面所到经典信息论发展过程中的重要时间节点,清晰地表明了香农信息的提出和发展背景。
1924年 Nyquist(奈奎斯特)开始研究电报信号传输中脉冲速率与信道带宽的关系。
1928年 Nyquist 发表论文建立了限带信号的采样定理。
Hartley(哈特莱)提出消息是符号,而不是内容,信息与消息开始得以区分。
Hartley 首先提出利用对数函数度量信息的多少:消息所包含的信息量等于取值个数的对数。例如,抛掷一枚硬币可能有两种结果(正面和反面),所以抛掷结果获得的信息量是 log22=1(比特)。十进制数字可以表示0~9中的任意一个符号,所以一个十进制数字包含 log210=3.3219(比特)。
1935年 Armstrong(阿姆斯特朗)提出:增大带宽可以加强通信系统的抗干扰能力。
1948年 Shannon 受到 Hartley 研究工作的启发,进一步注意到:消息的信息量不仅与可能值的个数有关,还与消息本身的不确定性有关。例如,抛掷一枚不均匀的硬币,如果正面朝上的可能性为90%,当人们得知抛掷结果为反面时得到的信息量会比得知抛掷结果为正面时得到的信息量要大。
Shannon 在 Nyquist、Hartley 和 Armstrong 工作基础上,发表了论文 A MathematicalTheory of Communication:利用概率论的方法研究通信系统,揭示了通信系统传递的对象是信息,并对信息给予科学的定量描述,提出了信息熵的概念,奠定了经典信息论的基础。
1949年 Shannon 发表论文 Communication in the Presence of Noise,指出通信系统的核心问题是在噪声环境中如何有效而可靠地传递信息,同时指出实现这一目标的主要方法是编码。
1959年 Shannon 发表论文 Coding Theorems for a Discrete source with a FidelityCriterion,系统地提出了信息率失真理论和限失真信源编码定理。
由上可知,一则消息之所以会包含信息,正是因为它具有不确定性,一则不具备不确定性的消息是不会包含任何信息的。通信的目的就是消除或者部分消除这种不确定性。例如,得知硬币的抛掷结果前,人们对于结果是出现正面还是出现反面是不确定的;通过通信,人们得知了硬币的抛掷结果,消除了不确定性,从而获得了信息。因此,信息是对事物运动状态或者存在方式的不确定性的描述。这是香农信息的定义,是从不确定性(随机性)和概率测度的角度理解信息的。
1.2 通信系统模型
信息论从诞生到现在,虽然只有短短的几十年,但它的发展对学术界和人类社会的影响非常广泛和深刻。如今,信息论的研究内容不仅包括通信系统,还包括所有与信息有关的自然和社会领域,如模式识别、计算机翻译、心理学、遗传学、神经生理学、语言学、语义学,甚至社会学中有关信息的问题。香农信息论迅速发展成涉及范围极其广泛的广义信息论——信息科学。
信息论的研究对象是广义的通信系统,不仅包括电话、电报、电视和雷达等狭义的通信系统,还包括生物有机体的遗传系统、神经系统和视觉系统,甚至人类社会的管理系统等,即信息论将所有的信息传输系统都抽象成如图1.1所示的通信系统模型。在通信系统模型中,共包括七个部分。
1.信源
信息的来源称为信源,可以是人、机器或者其他事物。尽管信源是信息的来源,但是信源并不直接输出信息,信源输出的是信息的载体——消息:一段文字、一幅图画、一首歌和一段视频等。消息有各种不同的表现形式,文字、符号、语言、图片、图像、音频和视频等,都是载荷信息的消息类型。消息能以通信双方(信源和信宿)都能理解的形式进行传递和交换。消息携带信息,是信息的载体。信源输出的消息是随机的、不确定的,但又具有一定的统计规律,因此用随机变量或者随机矢量等数学模型表示信源。
图1.1 通信系统模型
2.编码器
编码器将消息变为符号或者对应的符号序列,目的是提高传输的有效性。例如,字符a、b、c、d 可以分别编码为0、10、110、111。
3.调制器
调制器负责将编码器输出的符号转换为适合信道传输的信号,目的是提高传输效率(使远距离传输成为可能)。例如,0和1这两个符号,经过调制器后变换为两个电平信号。如果要进行远距离传输,还应进行载波调制,将电平信号变换为高频谐波。为了分析的方便,也可以将调制器看作编码器的一部分。
4.信道
信道是信息传输的通道,始于调制器,终于解调器。它是包括收发设备在内的物理设施。在狭义的通信系统中,实际信道有架空明线、电缆、波导、光纤和无线电波传播空间等。对于广义的通信系统,信道还可以是其他类型的传输媒介。通常情况下,信道中存在噪声和干扰。但有一点需要注意,分析通信系统性能时,往往只在信道中引入噪声和干扰,这其实是一种为了分析方便而采用的等效分析方式:系统中其他部分产生的噪声和干扰都等效成信道干扰,并集中作用于信道。
5.解调器
解调器位于信息的接收端,负责将信道输出信号转换为符号,是调制器的逆变换。
6.译码器
译码器位于信息的接收端,是编码器的逆变换。
7.信宿
信宿是信息的接收者,即接收消息的人或物。
习题
1.简述信息的概念和特点。
2.说明信息、消息及信号之间的联系与区别。
由第1章可知,香农信息又称为概率信息,信息的度量建立在概率基础上,与载荷信息的消息所发生的概率有关。因为信息的载体是随机事件,因此可以利用概率论中的随机变量来描述随机事件或者消息。*简单的一类随机变量是离散随机变量,本章将从离散随机变量开始介绍信息的度量,由浅入深,逐步了解信息的本质及其度量方法。
2.1 概率论基本知识
本节回顾概率论中与信息度量有关的基本概念和知识,以备学习和查阅。
2.1.1 样本空间与随机事件
1.随机试验
随机性是一种物理现象,一般通过试验结果来呈现和观察。由于试验结果不可预测,此类试验特称为随机试验,通常用符号 E 表示。
2.样本空间
由于随机性,每次随机试验的具体结果无法预知,但有一点可以明确:随机试验所有的可能结果都在一个已知的集合之内。这个已知集合就是一次随机试验 E 可能呈现的所有结果,称为样本空间,记为Ω。如果某一试验结果ω∈Ω,则称ω为样本点。例如:
(1)随机试验1:抛掷一枚硬币。样本空间Ω={H, T},样本点 H 表示硬币正面朝上(Head),样本点 T 表示正面朝下(Tail)。
(2)随机试验2:抛掷两枚硬币。样本空间Ω={HH,HT, TH, TT},其中样本点 HH表示第一枚硬币正面朝上,第二枚硬币正面朝上,其余类推。
(3)随机试验3:二元信源发送一个符号。样本空间Ω={0,1}。
(4)随机试验4:二元信源发送两个符号。样本空间Ω={00,01,10,11},样本点表示第一个符号为1,第二个符号为0,其余样本点类推。
3.随机事件
定义2.1 随机事件
样本空间Ω中的任一子集 E .Ω称为随机事件,简称事件。
(1)随机试验1:抛掷一枚硬币。样本空间Ω={H, T},子集 E ={H}表示抛掷一枚硬币出现正面朝上这一随机事件。
(2)随机试验2:抛掷两枚硬币。样本空间Ω={HH,HT, TH, TT},子集 E ={HH}表示第一枚硬币正面朝上且第二枚硬币也正面朝上这一随机事件;子集 E ={HH,HT}表示第一枚硬币正面朝上这一随机事件。
(3)随机试验3:二元信源发送一个符号。样本空间Ω={0,1},子集 E ={0}表示信源发出符号0这一随机事件。
(4)随机试验4:二元信源发送两个符号。样本空间Ω={00,01,10,11},子集 E ={01}表示第一个符号为1,第二个符号为0这一随机事件。
2.1.2 概率的有关概念
1.概率
定义2.2 概率
对于样本空间Ω的每一个事件 E,假设存在一个满足以下3个条件的实数:
(1);
(2);
(3)对于任意互不相容的事件序列 E1,E2, (即当)有将称为事件 E 的概率,简记为 p(E)。
2.条件概率
定义2.3 条件概率
在事件A 已经发生的条件下,事件 B 发生的概率称为 B 对 A 的条件概率,记为 p(B|A)。
图2.1 条件概率示意图
特别地,当事件 A 和事件 B 相互独立时,即
无论事件 A 是否发生,事件 B 发生的概率都不变,
有
p(B|A)= p(B)(2.1)
条件概率可由图2.1示意。在样本空间Ω中有事件 A 和 B。条件概率 p(B|A)表示在事件 A 发生的前提下,事件 B 又发生的概率。此时,样本空间已经由Ω变为集合 A,所求条件概率即在新的样本空间 A 中 B 发生的概率,等同于 A中与 B 相交的部分(集合 A 和集合 B 的交集)。
例如,背对着一人猜其性别。直接猜测,肯定只有50%的概率猜对;如果告知此人有长头发,那么此人是女性的概率就变为90%,引起概率变化的原因是样本空间Ω变了,由原先的(无任何条件的)男、女两种情况,变为了(有长发的)男、女两种情况。根据条件概率的意义,可得条件概率的计算公式为
展开