1500字范文 > 概率论与数理统计学习笔记（6）——分布律分布函数密度函数

概率论与数理统计学习笔记（6）——分布律分布函数密度函数

时间：2020-03-17 07:34:17

对了宝贝儿们，卑微小李的公众号【野指针小李】已开通，期待与你一起探讨学术哟~摸摸大！

1 离散型随机变量

离散型随机变量指的是取到的值时有限个或者可列无限多个的随机变量。有限个值很好理解，但是可列无限多个值就有点抠脑壳。这句话的含义就是尽管变量有无限多个，但是我们可以按照一定的词序一一列举出来。我这里举两个例子来说明。

E1：X=xk(k=1,2,…)X=x_k (k=1, 2, \dots)X=xk(k=1,2,…)

E2:反复投掷硬币，记录出现第一次正面朝上需要的次数。

我们将E2绘制成表格：

Table 1. 反复抛掷硬币，记录出现第一次正面朝上需要的次数

根据上表，我们可以发现尽管该事件有无限多个随机变量，但是我们都可以一一列举出来。接着我们还可以发现，我们只要知道离散型随机变量XXX的所有可能取值以及取每一个值的概率，就可以掌握XXX的统计规律。

形式化表达则是，设离散型随机变量XXX所有可能的取值为xk(k=1,2,…)x_k(k=1, 2, \dots)xk(k=1,2,…)，XXX取各个值的概率，即事件{X=xk}\{X=x_k\}{X=xk}的概率为：

P{X=xk}=pk,k=1,2,…P\{X=x_k\}=p_k, k=1, 2, \dotsP{X=xk}=pk,k=1,2,…

由于这是概率，所以满足：

pk≥0,k=1,2,…p_k \geq 0, k=1, 2, \dotspk≥0,k=1,2,…∑k=1∞pk=1\sum_{k=1}^{\infty}p_k=1∑k=1∞pk=1

换句话说就是：

XXX所有可能取值的概率大于等于0.所有事件发生的概率之和为1.

就比如表1，我们以分布律来直观的看这些数据：

Table 2. 第一次正面朝上需要的次数的分布律

就是说P{X=1}=12P\{X=1\}=\frac{1}{2}P{X=1}=21。其概率之和为1直观的表示如下图：

Fig. 1. 无限个离散随机变量概率之和为1

1.1 （0-1）分布

设随机变量XXX只有0和1两个值，其分布律为

P{X=k}=pk(1−p)1−k,k=0,1(0<p<1)，P\{X=k\}=p^k(1-p)^{1-k}, k=0,1\ \ (0<p<1)，P{X=k}=pk(1−p)1−k,k=0,1(0<p<1)，

则称XXX服从以ppp为参数的（0-1）分布或两点分布。其分布律为：

Table 3. （0-1）分布分布律

就是说一个事件只有两种可能的结果，在一次实验中有ppp的概率发生1，1−p1-p1−p的概率发生0.

1.2 伯努利试验

伯努利试验指的是试验EEE只有两个可能的结果AAA与Aˉ\bar AAˉ。其中P(A)=p(0<p<1)P(A)=p\ (0<p<1)P(A)=p(0<p<1)，P(Aˉ)=1−pP(\bar A)=1-pP(Aˉ)=1−p。如果独立重复（试验互不干扰，且P(A)=pP(A)=pP(A)=p不变）进行nnn次试验，则称这一组试验为nnn重伯努利试验。

因为独立，所以假设CiC_iCi为第iii次试验的结果（CiC_iCi为AAA或Aˉ\bar AAˉ，i=1,2,…,ni=1, 2, \dots, ni=1,2,…,n），则：

P(C1C2…Cn)=P(C1)P(C2)…P(Cn)P(C_1 C_2 \dots C_n)=P(C_1)P(C_2)\dots P(C_n)P(C1C2…Cn)=P(C1)P(C2)…P(Cn)

由此可见，（0-1）分布就是n=1n=1n=1的伯努利试验。

1.3 二项分布

那么当n>1n > 1n>1时，以XXX表示nnn重伯努利试验中事件AAA发生的次数，假定事件AAA发生k(0≤k≤n)k \ (0 \leq k \leq n)k(0≤k≤n)次，Aˉ\bar AAˉ发生n−kn-kn−k次。于是在nnn次试验中，AAA发生kkk次的概率为：

P{X=k}=Cnkpk(1−p)n−k,k=0,1,2,…,nP\{X=k\}={\rm C}_n^k p^k (1-p)^{n-k}, k=0, 1, 2, \dots, nP{X=k}=Cnkpk(1−p)n−k,k=0,1,2,…,n

该公式就是说事件AAA发生了kkk次，事件Aˉ\bar AAˉ发生了n−kn-kn−k次。由于有多次试验，每次试验都会有两种结果，所以将所有可能性给组合起来，就有了最前面的Cnk{\rm C}_n^kCnk。

1.4 几何分布

几何分布指的是在nnn重伯努利试验中，试验kkk次事件才发生的概率。与二项分布不同的一点就在于，二项分布是AAA发生了kkk次，Aˉ\bar AAˉ发生了n−kn-kn−k次；而几何分布是试验了kkk次后，事件AAA才发生。

几何分布的分布率为：

P(X=k)=(1−p)k−1p,(0<p<1),k=1,2,…P(X=k)=(1-p)^{k-1}p, (0<p<1), k=1, 2, \dotsP(X=k)=(1−p)k−1p,(0<p<1),k=1,2,…

1.5 泊松分布

关于泊松分布，《如何通俗理解泊松分布？》这篇博客讲的就很详细生动了，这里我也就不多赘述。就只谈谈我个人的看法。

根据这个大佬的讲解，泊松分布就是将一个区间给等分为无限细的小区间，且任意两个区间上事件是独立的且发生的概率相等，求解事件发生1,2,…1, 2, \dots1,2,…次的概率。其计算过程就是通过求一个极限的泰勒展开而得到的公式。其概率密度函数为：

P(X=k)=λke−λk!,k=0,1,2,…P(X=k)=\frac{\lambda^k{\rm e}^{-\lambda}}{k!}, k=0, 1, 2, \dotsP(X=k)=k!λke−λ,k=0,1,2,…

由于泊松分布的均值μ=λ\mu = \lambdaμ=λ，所以在这里λ\lambdaλ反映了分布的强度，就是反映了整个区间上的平均程度。

由于二项分布中ppp很小时，泊松分布与二项分布很接近，所以我将泊松分布简单的理解为：反映了在一个无限窄的区间上，事件发生的可能性很小的情况下，事件发生次数的概率。

2. 连续型随机变量

离散型随机变量是我们可以列举出来的，但是对于连续型随机变量，我们是无法列举出来。同时，连续型随机变量在某一点的概率为0。所以我们有必要讨论连续型随机变量。

关于连续型随机变量在某一点概率为0，其有两种思考方式。

由于概率可以用面积表示，所以我们可以用几何的方式来理解这一点。

我们若要计算阴影部分面积，只需要计算(0.3−0)×1(0.3-0)\times 1(0.3−0)×1即可得到。但是对于某一点（假设x=0.3x=0.3x=0.3），那么图就变为了如下：

由于线段没有长度，或者说长度无限小，那么这个面积也就为0，即概率为0.从微积分的角度考虑，计算某一点的概率，就等于在这个点周围取了一个无限小的数Δx→0\Delta x \rightarrow 0Δx→0，计算这个区间的概率。那么可以得到如下的等式：

0≤P{X=a}≤P{a−Δx<X≤a}=F(a)−F(a−Δx)0 \leq P\{X=a\} \leq P\{a-\Delta x < X \leq a\}=F(a)-F(a-\Delta x)0≤P{X=a}≤P{a−Δx<X≤a}=F(a)−F(a−Δx)

由于Δx→0\Delta x \rightarrow 0Δx→0，所以F(a)−F(a−Δx)→0F(a)-F(a-\Delta x)\rightarrow0F(a)−F(a−Δx)→0，近似可得0≤P{X=a}≤00 \leq P\{X=a\} \leq 00≤P{X=a}≤0，于是P{X=a}=0P\{X=a\}=0P{X=a}=0。

2.1 分布函数与概率密度函数

在详细讲解分布函数与概率密度函数之前，先谈谈我对这两个函数的理解，再做展开。

分布函数F(x)F(x)F(x)刻画的是区间(−∞,x](-\infty, x](−∞,x]内发生事件的概率。概率密度函数f(x)f(x)f(x)刻画的是在xxx附近的值出现的概率。

关于分布函数与概率密度函数，我们借用[2]中129页的图来说明。

Fig. 2. 打印至x处时消耗的油墨量F(x)与浓度f(x)的关系[2]

这张图简单来说，就是需要打印一份渐进变色的纸，其油墨消耗量为F(x)F(x)F(x)，油墨浓度为f(x)f(x)f(x)。由于打印的过程中需要消耗油墨，油墨消耗量的增多必定伴随着在纸张上打印，而打印所消耗的油量等于这段时间打印的长度乘以这段时间机器出的油墨浓度。形式化表达为：

dF(x)=f(x)dx{\rm d}F(x)=f(x){\rm d}xdF(x)=f(x)dx

其中，dx{\rm d}xdx代表在纸张上移动的距离（极短距离），f(x)f(x)f(x)代表在这极短距离内的出墨量（由于距离很短，所以可以近似看做出墨量在图形中表现为一个矩形），dF(x){\rm d}F(x)dF(x)代表这段时间油墨消耗量增加了多少。由此可见，这就是一个微积分的问题，即：

f(x)=dF(x)dxf(x)=\frac{{\rm d}F(x)}{{\rm d}x}f(x)=dxdF(x)

或者说

∫abf(x)dx=F(b)−F(a)\int_{a}^{b}f(x){\rm d}x=F(b)-F(a)∫abf(x)dx=F(b)−F(a)

我们通过这个例子，推广到分布函数与概率密度函数：

Fig. 3. 打印问题与概率问题的对比[2]

那么我们同样采用油量问题来推理这个问题，分布函数代表了区间内事件发生的概率之和，概率密度函数代表了在某个点周围事件发生的概率大小。

两者的关系绘制成表格如表4所示：

Fig. 4. 打印问题与概率问题的对应关系[2]

同时，我们可以获得概率密度f(x)f(x)f(x)的性质：

f(x)≥0f(x) \geq 0f(x)≥0;∫−∞∞f(x)dx=1\int_{-\infty}^{\infty}f(x){\rm d}x=1∫−∞∞f(x)dx=1;对于任意实数x1x_1x1，x2(x1≤x2)x_2 \ (x_1 \leq x_2)x2(x1≤x2)，有

P{x1<X≤x2}=F(x2)−F(x1)=∫x1x2f(x)dx;P\{x_1 < X \leq x_2\} = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x){\rm d}x;P{x1<X≤x2}=F(x2)−F(x1)=∫x1x2f(x)dx;若f(x)f(x)f(x)在点xxx处连续，则有F′(x)=f(x)F'(x)=f(x)F′(x)=f(x)

对于性质2，我们知道f(x)=dF(x)dxf(x)=\frac{{\rm d}F(x)}{{\rm d}x}f(x)=dxdF(x)，反映的就是在微小变化下F(x)F(x)F(x)的变化，又由于F(x)F(x)F(x)最大为1，所以∫−∞∞f(x)dx=1\int_{-\infty}^{\infty}f(x){\rm d}x=1∫−∞∞f(x)dx=1。

2.2 均匀分布

均匀分布的图如4所示。

Fig. 5. 均匀分布

从图中我们可以看出，均匀分布的核心就在于均匀上，区间[a,b][a,b][a,b]中任意一段区间[α,β][\alpha, \beta][α,β]的概率都为β−αb−a\frac{\beta - \alpha}{b-a}b−aβ−α。

其概率密度表达为：

f(x)={1b−a(a≤b),0其他\begin{aligned} f(x)=\left\{ \begin{aligned} &\frac{1}{b - a} &(a \leq b), \\ &0 &其他 \end{aligned} \right. \end{aligned} f(x)=⎩⎨⎧b−a10(a≤b),其他

如果连续型随机变量XXX具有这样的密度函数，则称XXX在区间[a,b][a, b][a,b]上服从均匀分布，X∼U(a,b)X \sim U(a,b)X∼U(a,b)。

其分布函数为：

f(x)={0,x<a,1b−a(a≤b),1x≥b.\begin{aligned} f(x)=\left\{ \begin{aligned} &0, &&x<a, \\ &\frac{1}{b - a} &&(a \leq b), \\ &1 &&x \geq b. \end{aligned} \right. \end{aligned} f(x)=⎩⎪⎪⎪⎨⎪⎪⎪⎧0,b−a11x<a,(a≤b),x≥b.

分布函数图像为：

Fig. 6. 均匀分布分布函数

2.3 指数分布

指数分布是几何分布的连续型表达，关注的也是事件AAA第一次发生的概率，以及发生前等待的时间。由于泊松分布关注的是时间段内AAA发生的次数，而指数分布关注的是第一次发生的时间，那么也就是说可以等价考虑为只用计算泊松分布中事件发生0次的概率，再减去这个概率。

我们将k=0k=0k=0代入泊松分布中，得到：

P(X=0,x)=(λx)0e−λx0!=e−λxP(X=0, x)=\frac{(\lambda x)^0{\rm e}^{-\lambda x}}{0!}=e^{-\lambda x}P(X=0,x)=0!(λx)0e−λx=e−λx

这是事件没有发生的概率，1−P(X=0,x)1-P(X=0,x)1−P(X=0,x)得到的是事件第一次发生的概率。对其求导可得：

f(x)={λe−λx,x>00,其他f(x)= \left\{ \begin{aligned} &\lambda e^{-\lambda x}, && x>0 \\ &0, &&其他 \end{aligned} \right.f(x)={λe−λx,0,x>0其他

这个就是参数为1λ\frac{1}{\lambda}λ1的指数分布。

而指数函数有个重要的性质，就是无记忆性，即对于任意的s,t>0s, t>0s,t>0，有：

P{X>s+t∣X>s}=P{X>t}P\{X>s+t\ |\ X>s\}=P\{X>t\}P{X>s+t∣X>s}=P{X>t}

这个公式推导参考[1]的45页。直观理解就是，有个灯泡平均5分钟闪一次，我等了10分钟还没有闪，那么它下一次闪还是要再平均等5分钟（预期时间不会因为等待长短而改变）[6]。就是说过去的影响不到未来的事情。

2.4 正态分布

正态分布是常用的一种分布，就比如神经网络初始权重分配的时候都可以采用随机正态分布进行赋值。其特点是左右对称，且中心概率密度高，边缘概率密度低。由于其推导过程我感觉有点复杂，就没有深入研究，这里就只介绍其性质。

2.4.1 标准正态分布

标准正态分布的概率密度函数为：

f(x)=12πe−x22f(x)=\frac{1}{\sqrt{2 \pi}}{\rm e}^{-\frac{x^2}{2}}f(x)=2π1e−2x2

由于12π\frac{1}{\sqrt{2 \pi}}2π1和12\frac{1}{2}21都是常量，所以可以将上式粗略的看成是：

f(x)=C1e−C2x2f(x)=C_1{\rm e}^{-C_2 x^2}f(x)=C1e−C2x2

其中C1C_1C1和C2C_2C2代表上面提到的两个常量。由此我们可以发现，这是一个关于e−x2{\rm e}^{-x^2}e−x2的函数。其函数图像如下：

这个图片是由下代码生成的：

xs = np.arange(-5, 6, 0.1)y = []for x in xs:y.append(math.exp(-x**2))plt.plot(xs, y)plt.show()

那么我们就可以得到e−x2{\rm e}^{-x^2}e−x2的性质：

左右关于x=0x=0x=0对称。在x=0x=0x=0处取得最大值。随着xxx与0的差值越来越大，值越来越小。当x→−∞x \rightarrow -\inftyx→−∞或x→∞x \rightarrow \inftyx→∞时，y→0y \rightarrow 0y→0。

由于C1C_1C1与C2C_2C2为常数项，所以f(x)f(x)f(x)的性质与上面的内容相同。

2.4.2 一般正态分布

接着我们对标准正态分布进行平移或缩放后，即可获得一般正态分布。通过定义两个常量μ\muμ与σ\sigmaσ来实现。

平移μ\muμ：Y≡Z+μY \equiv Z + \muY≡Z+μ缩放σ\sigmaσ倍：W≡σZ(σ>0)W \equiv \sigma Z \ (\sigma > 0)W≡σZ(σ>0)缩放σ\sigmaσ倍后平移μ\muμ：X≡σZ+μX \equiv \sigma Z+ \muX≡σZ+μ

其变换图像如图7所示：

Fig. 7. 标准正态分布与一般正态分布的转换[2]

根据图我们就会发现，上面4条性质变成了：

左右关于x=μx=\mux=μ对称。在x=μx=\mux=μ处取得最大值。随着xxx与μ\muμ的差值越来越大，值越来越小。当x→−∞x \rightarrow -\inftyx→−∞或x→∞x \rightarrow \inftyx→∞时，y→0y \rightarrow 0y→0。

而变换后XXX的期望与方差变为了：

E[X]=E[σZ+μ]=σE[Z]+μ=μE[X]=E[\sigma Z + \mu]=\sigma E[Z] + \mu = \muE[X]=E[σZ+μ]=σE[Z]+μ=μ

V[X]=V[σZ+μ]=σ2V[Z]=σ2V[X]=V[\sigma Z + \mu]=\sigma^2 V[Z] = \sigma^2V[X]=V[σZ+μ]=σ2V[Z]=σ2

这里有这个等式，是因为标准正态分布的E[Z]=μ=0,V[Z]=σ2=1E[Z]=\mu=0, V[Z]=\sigma^2=1E[Z]=μ=0,V[Z]=σ2=1。

于是一般正态分布的概率密度函数为：

f(x)=12πσexp(−(x−μ)22σ2),(−∞<x<∞)f(x)=\frac{1}{\sqrt{2\pi}\sigma}{\rm exp}(-\frac{(x-\mu)^2}{2\sigma^2}),\ (-\infty < x < \infty)f(x)=2πσ1exp(−2σ2(x−μ)2),(−∞<x<∞)