在概率论和统计学中,概率质量函数(probability 质量 函数,简写作pmf)是离散随机变量在各特定取值上的概率。有时它也被称为离散密度函数。概率质量函数通常是定义离散概率分布的主要方法,并且此类函数存在于其定义域是离散的标量变量或多元随机变量。具有最大概率质量的随机变量的值称为众数。

数学定义

概率质量函数和概率密度函数不同之处在于:概率质量函数是对离散随机变量定义的,本身代表该值的概率;概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。

假设X是一个定义在可数样本空间S上的离散随机变量,则其概率质量函数为

注意这在所有实数上,包括那些X不可能等于的实数值上,都定义了 。在那些X不可能等于的实数值上,取值为,取为0)。

离散随机变量概率质量函数的不连续性决定了其累积分布函数也不连续。

例子

概率质量函数可以定义在任何离散随机变量上,包括常数分布,二项分布(包括Bernoulli分布),负二项分布,西莫恩·泊松分布,几何分布以及超几何分布随机变量上。

有限

存在三个相关的主要分布,伯努利分布、二项式分布、和几何分布。

伯努利分布

伯努利分布:ber(p),用于对只有两种可能结果的实验进行建模。这两个结果通常编码为1和0。

一个伯努利分布的例子是抛硬币。假设X是抛硬币的结果,反面取值为0,正面取值为1。则在状态空间{0, 1}(这是一个雅各布·伯努利(Bernoulli)随机变量)中,X = x的概率是0.5,所以概率质量函数是

无限

以下呈指数下降的分布是具有无限数量可能结果的分布示例——所有正整数:

尽管可能的结果有无限多,但总概率质量为 1/2 + 1/4 + 1/8 +⋯ = 1,满足概率分布的单位总概率要求。

多变量情况

两个或多个离散随机变量具有联合概率质量函数,它给出了随机变量的每个可能的实现组合的概率。

参考资料