第1章绪论
“人的伟大在于他思想的力量.” (Blaise Pascal)概率论的研究对象是随机事件的不确定性及其数量规律. 概率论起源于17世纪中叶的欧洲, 1654年, 法国天才数学家Blaise Pascal (1623—1662)与法国律师和业余数学家Pierre de Fermat (1601—1665)在信件中讨论的分赌注问题则为概率论中数学期望概念的雏形. 之后, 数学家Jacob Bernoulli (1654— 1705)在理论上证明了频率趋于概率的事实. 1812年, 法国数学家和物理学家Pierre-Simon Laplace (1749—1827)在其《概率的分析理论》一书中系统地给出了“古典概型” 的定义. 1900年, 德国数学家David Hilbert (1862—1943)在法国巴黎举办的第二届国际数学家大会上受邀作了题为《数学问题》的著名讲演, 并提出了23个公开问题(这23个问题通称Hilbert问题, 包括至今未解决的Riemann猜想). Hilbert第六问题特别指出, 借助公理来研究那些在其中数学起重要作用的物理科学, 首先是概率论和力学. 随后法国数学家Jules Henri Poincaré (1854—1912)和法国数学家Emile Borel (1871—1956)等都对概率论的公理化体系的建立做出了努力, 但都未成功. 1933年, 数学家A. N. Kolmogorov (1903—1987)在其出版的奠基性著作《概率论的基本概念》中首次为概率论建立了以集合论和测度论为基础的严格公理化体系, 将概率论置于严格的测度论基础之上, 从而解决了Hilbert 第六问题的概率部分. 自此, 概率论逐渐成为一门独立的数学分支, Kolmogorov 创立的概率论公理体系, 影响巨大, 堪称概率理论的欧几里得几何公理体系, 标志着概率论发展新纪元的开始. 我们接下来通过引入几个具体的实例来说明如何用概率语言描述和建模实际问题, 其中引申出来的相关的概率概念和定理将在本书后续章节中作详细介绍.
1.1统计决策问题
统计决策问题用概率语言可表述如下: 设(Ω,F, P)为一个概率空间, 已知在该概率空间下(X, Y )是一个随机向量, 其中X 表示随机输入(这里假设X 是一个Rn-值随机变量), 而Y 表示随机输出(这里假设Y 是一个实值随机变量). 统计决策问题的本质是试图找到一个可测函数f : Rn → R 使f(X)在某种意义下可以预测(逼近)输出Y (参见图1.1, 其中n = 1). 为此, 这需要考虑一个所谓的损失函数L : R2→ R 来度量平均的预测损失. 于是, 我们期望找到一个可测函数使该平均预测损失达到*小. 这就产生了如下更具体的数学问题:
(1.1)
其中B(Rn → R)表示所有定义在Rn 上的实值Borel-函数的全体(这里我们假设随机变量L(Y, f(X))是可积的).
图1.1统计决策问题示意图
*为简单常用的损失函数为平方损失函数, 即L(Y, f(X))= |Y . f(X)|2. 于是, 问题(1.2)可重写为
(1.2)
根据第4章的条件数学期望理论(参见(4.54)), 我们事实上有
其中E[Y |X]为在X 已知的条件下Y 的条件数学期望, 其定义请读者参见第4章. 形式上, 我们可以将问题(1.2)在平方损失函数下的*优逼近函数写为f.(x)= E[Y |X = x], 其也被称为回归函数. 然而, 在很多实际情况中, 这样的回归函数很难被解析刻画. 4.3节则详细讨论了已知的输出数据Y 关于输入数据X 具有近似的线性关系的情况. 在这种情形下, 我们可以近似认为
这里α ∈ R, β ∈ Rn 均为未知参数. 那么, 余下需要解决的问题就是在已知输入和输出样本数据的条件下估计参数α, β. 主要的想法是应用*小二乘法, 其相关结果则为线性回归分析的理论基础(具体细节请参见4.3节).
上面我们是通过应用概率模型来介绍如何研究统计决策问题的. 在平方损失的概率模型下, 关键点是刻画回归函数. 然而, 当已知的输出数据Y 与输入数据X 的线性关系并不明显时, 从函数逼近的角度, 我们可以通过建立一些易于实现的函数来逼近回归函数. 下面的定理1.1给出了这样逼近函数的形式(即所谓的判别函数), 但前提是回归函数应为[0, 1]n 上的实值连续函数. 下面首先引入判别函数(discriminant function)的概念. 设C([0, 1]n)是定义在[0, 1]n 上连续函数的全体, 而M([0, 1]n)表示[0, 1]n 上有限符号正则Borel-测度(参见第4章中的定义4.2)的全体, 于是有如下关于判别函数的定义:
定义1.1(判别函数)称一个可测函数σ : R → R 为判别函数, 如果对某个ν ∈ M([0, 1]n), 其满足
(1.3)
函数逼近的主要结果陈述如下:
定理1.1设σ : R → R 是连续的判别函数以及G . C([0, 1]n)为所有具有
如下函数G(x)形式的全体:
(1.4)
那么函数类G 在C([0, 1]n)中是稠密的.
观察函数G(x)的形式, 其本质是连续判别函数作用于线性函数后的加权平均. 如果用函数G(x)逼近[0, 1]n 上的连续函数, 那么我们需要估计未知的权重因子ai,wi 和偏移因子b. 目前*为实用和流行的方法是通过神经网络对输入和输出样本进行训练得到对权重因子和偏移因子的某种*优估计. 本章的1.4节将以例子的形式介绍神经网络的工作机制, 在那里称函数σ 为激活函数.
为了读者的方便, 我们这里给出定理1.1的证明. 读者也可略去下面的证明内容, 但并不影响对其他内容的阅读. 所需的工具是如下的Hahn-Banach 定理的两个推论:
引理1.1设S 是一个赋范线性空间. 则对任意非零x0∈ S, 存在S 上的一个有界线性泛函L0(即L0∈ S.)满足∥L0∥ = 1和L0(x0)= ∥x0∥.
证考虑一维子空间M = span(x0)= Rx0. 于是, 定义M 上的线性泛函L0(ax0):= a∥x0∥, a ∈ R (ax0∈ M). 显然∥L0∥M. = 1. 那么, 由Hahn-Banach 定理可将L0从M 拓展到S. □
引理1.2设S 是一个赋范线性空间以及M . S 是真闭线性子空间. 设
x0∈ S \ M, 则存在S 上的一个有界线性泛函L (即L ∈ S.)满足∥L∥ = 1, M . ker(L)和L(x0)= d(x0,M).
证考虑线性子空间M1:= span(M, x0)= M + Rx0. 也就是, 对任意x ∈ M1, 存在a ∈ R 和y ∈ M 使x = y + ax0. 那么, 我们在M1上定义如下的线性泛函L1:
L1(y + ax0):= a.
因此ker(L1)= M 和L1(x0)= 1. 进一步L.11({1})= x0+M. 此外, 我们还有
那么, 由Hahn-Banach 定理可将L1从M1拓展到S 上的有界线性泛函L2满足
定理1.1的证明显然G 是C([0, 1]n)的一个线性子空间. 我们采用反证法, 为此假设G 的闭包ˉ G . C([0, 1]n). 由于ˉ G 是C([0, 1]n)的闭真子空间, 则由引理1.2得到: 存在一个C([0, 1]n)上的有界线性泛函L 满足L .= 0和L( ˉ G)= L(G)= 0. 进一步, 由Riesz 表示定理(注意到[0, 1]n 是紧集): 存在ν ∈ M([0, 1]n)使得
特别地, 对任意w ∈ Rn 和b ∈ R, 函数x → σ(w.x + b)属于G. 于是, 由L( ˉ G)= L(G)= 0得到
因为σ : R → R 是一个判别函数, 故有ν = 0, 因此L = 0, 这与L .= 0矛盾.
1.2极化码的香农极限
极化码是一种新型编码方式, 可以实现对称二进制输入离散无记忆信道(B-DMC)和二进制擦除信道(BEC)的容量代码构造方法. 极化码作为目前唯一在理论上可证明达到香农极限并且具有可实用的线性复杂编译码能力的信道编码技术, 成为通信系统5G 中信道编码方案的主要候选方案. 极化码的概念和数学理论由土耳其数学家埃尔达尔 阿里坎(Erdal Arikan)在文献[1]中提出和实现. 华为在极化码的基础上开发出5G 通信技术后, 迎来了至关重要的5G 标准投票.
展开