闫志伟的网络日志 » 首页 » 关于 » 归档

在概率论中,能够完整表征一个实数(一维)随机变量的函数有两个:累积分布函数(cumulative distribution function,cdf)和概率密度函数(probability density function,pdf)。

一、累积分布函数(cdf)

随机变量X的累积分布函数也叫作分布函数,它的定义为:随机变了X的取值小于等于某个值x的概率,即:

$$F(X)=P(X≤x)$$

一个简单的例子,假设X为你随机的从所有在上海生活的人选出一人的身高,那么F(x)表示这个人的身高不高于x的概率。如果F(175 cm)=0.8,表示你随机选的这个人的身高在175 cm或者以下的概率为0.8。

这里的变量X可以是连续型随机变量也可以是离散型随机变量。从随机变量的累积分布函数可以很方便的看出该变量的取值在某个区间内出现的概率,即:

$$F(a<X≤b)=F(b)-F(a)$$

以随机变量X在-10到10之间分布的10000个数据点为例,我们可以根据它的cdf很方便的回答下面两个问题:

  1. 所有大于-3的数据点在总数据集中所占比例约有多大?
  2. 所有大于3而小于8的数据点在总数据集中所占比例是多少?

根据cdf的定义我们可以得出它主要有下面两个特点:

  1. 随机变量的cdf的最小值为0,最大值为1;
  2. 随机变量的cdf为单调不减函数。

二、概率密度函数(pdf)

概率密度函数描述了随机变量可以取到各个特定值的可能性,本质上是一种似然函数,通常用f(x)表示。一般的,只考虑连续型随机变量得概率密度函数。

还以上面身高的例子为例,f(x)表示这个人的身高等于x的概率。如果F(175 cm)=0.2,表示你随机选的这个人的身高为175 cm概率为0.2。

以随机变量X在-10到10之间分布的10000个数据点为例,X的pdf善于回答的问题是:

  1. 所有这些数据点落在哪个值或者区间的可能性最大?

同样的,随机变量的pdf的最大的特点为:f(x)在所有可能的区间上面的积分为1,即:

$$\int_{-\infty }^{\infty }f(x)dx=1$$

三、两者的关系

累积分布函数为概率密度函数曲线下方在给定的值左侧的全部面积,即:

$$F(x)=\int_{-\infty }^{x}f(t)dt$$

用图形表示为:

四、举例

以几乎所有的书和论文上面最常见,数学形式最完美的正态分布为例,其概率密度函数和累积分布函数分别为:

(完)