文章

概率统计基础

概率论起源于研究赌博游戏时引发的数学问题,特别是帕斯卡与费马为了解决骰子概率问题,奠定了这一学科的基础。后来,伯努利通过提出大数定理,展示了概率论的广泛适用性。

统计学基于概率论发展起来,尽管一度在数学界被低估,如今在大数据和人工智能的推动下,其处理和分析海量数据的能力变得至关重要,为现代数据科学和人工智能提供了理论基础。

按照统计方法的不同,统计学有一些常见分类如下:

  • 描述统计学:总结和描绘数据的基本情况,包括集中趋势、离散趋势和相关分析。
  • 推断统计学:根据样本数据推断总体数据特征,在无法获取全量数据时使用。
  • 贝叶斯统计学:基于贝叶斯定理,将经验和直觉与概率关联,能够在获取新数据后调整概率估计。

这三种统计学的简要总结如下:

  1. 描述统计学

    • 目标:总结和描绘数据的基本特征。
    • 方法
      • 集中趋势:如均值、中位数、众数。
      • 离散趋势:如方差、标准差、范围。
      • 相关分析:如相关系数、回归分析。
  2. 推断统计学

    • 目标:从样本数据推断总体特征,进行预测和决策。
    • 方法
      • 估计:点估计、区间估计。
      • 假设检验:如 t 检验、卡方检验、ANOVA。
      • 抽样:从总体中随机抽取样本以进行分析。
  3. 贝叶斯统计学

    • 目标:通过贝叶斯定理结合经验与数据来更新概率。
    • 方法
      • 先验分布:基于已有知识或直觉的初步概率。
      • 似然函数:基于数据的观察结果更新概率。
      • 后验分布:更新后的概率分布,根据新数据调整初始估计。

描述性统计提供数据的“表象”总结,帮助我们了解当前数据的状态;推理性统计则基于样本数据对数据的“本质”进行推断和决策。在数据分析中,两者配合使用,以便既能够全面了解数据,又能进行有效的推断和决策。

数据和数据的分类

在统计学中,通过试验、观察、调查等获取的材料被称为数据。数据可以根据不同的性质和度量尺度进行分类。

数据的主要分类及其具体类型:

  • 定性数据:描述类别或性质的非数值数据。

    • 定类尺度:用于分类的变量,没有内在顺序。例如,性别、颜色、职业等。
    • 定序尺度:有自然排序的变量,但排序之间的差距不一定相等。例如,教育水平(小学、初中、高中、大学)、满意度等级(非常不满意、不满意、一般、满意、非常满意)等。
  • 定量数据:描述数量或度量的数值数据。

    • 定距尺度:具有相等的间距,但没有绝对零点。例如,温度(摄氏度或华氏度)、年份等。可以进行加法或减法运算,但不能进行乘法和除法运算。
    • 定比尺度:具有相等的间距和绝对零点,可以进行所有数学运算。例如,身高、体重、收入等。可以进行加法、减法、乘法和除法运算。

以下对不同尺度的简要描述:

数据类型 划分 示例 特点
定性数据 定类尺度 性别、颜色、职业 没有内在顺序,仅用于分类
定序尺度 教育水平、满意度等级 有自然顺序,排序间距不一定相等
定量数据 定距尺度 温度、年份 间距相等,但没有绝对零点,仅能进行加法和减法运算
定比尺度 身高、体重、收入 间距相等且有绝对零点,可以进行所有数学运算

定性数据处理

  1. 定类尺度:通常会处理成虚拟变量(哑变量),多个不同的类型最终变成一个虚拟变量矩阵。
  2. 定序尺度:可以处理成一个序号,并通过该序号表示等距的高低。

定量数据处理

  1. 线性归一化(Min-Max 归一化)

线性归一化是一种将数据压缩到一个固定范围(通常是 $[0, 1]$)的方法。

它的基本公式如下:

$$x_i' = \frac {x_i - min(x)} {max(x) - min(x)}$$

其中,各个变量的解读如下:

  • $x_i$ 是原始数据点,进行归一化前的数据值。
  • $min(x)$ 是数据中的最小值,用于确定数据的下限。
  • $max(x)$ 是数据中的最大值,用于确定数据的上限。
  • $x_i'$ 是归一化后的数据点。它将原始数据映射到指定的范围内,通常是 $[0, 1]$。

示例:

假设有一个数据集 $[10, 20, 30, 40, 50]$,计算线性归一化:

  1. 计算最小值 $min(x) = 10$,最大值 $min(x) = 50$

  2. 应用线性归一化公式:

    • 对数据点 $10$ 进行归一化: $x_i = \frac{10 - 10}{50 - 10} = 0$
    • 对数据点 $20$ 进行归一化: $x_i = \frac{20 - 10}{50 - 10} = 0.25$
    • 对数据点 $30$ 进行归一化: $x_i = \frac{30 - 10}{50 - 10} = 0.5$
    • 对数据点 $40$ 进行归一化: $x_i = \frac{40 - 10}{50 - 10} = 0.75$
    • 对数据点 $50$ 进行归一化: $x_i = \frac{50 - 10}{50 - 10} = 1$
  3. 零均值归一化(Zero-Mean Normalization)

零均值归一化是一种常用的数据预处理方法,主要用于将数据的均值调整为零,从而使数据在分析或模型训练时更加有效。

它的基本公式如下:

$$x_i' = \frac {x_i - \mu} {\sigma}$$

其中,各个变量的解读如下:

  • $x_i$ :原始数据点。是指在进行归一化前的数据值。
  • $\mu$ :数据的均值(mean)。数据集的平均值,用于表示数据的中心位置。
  • $\sigma$ :数据的标准差。标准差衡量数据点相对于均值的分布密度。
  • $x_i'$ :归一化后的数据点。归一化后的数据点将具有零均值和单位标准差。

示例:

例如有一个数据集 $[2, 4, 6, 8, 10]$ ,计算归一化步骤如下:

  1. 计算均值 $\mu$: $\mu = \frac{2+4+6+8+10}{5} = 6​$

  2. 计算标准差 $\sigma$ :

    • 先计算方差:方差 = $\frac{(2−6)^2+(4−6)^2+(6−6)^2+(8−6)^2+(10−6)^2​}{5} = 8$
    • 然后取平方根得到标准差: $\sigma = \sqrt{8} ​≈ 2.83$
  3. 应用零均值归一化公式:

    • 对数据点 $2$ 进行归一化: $x_i' = \frac {2 - 6} {2.83} ≈ −1.41$
    • 对数据点 $4$ 进行归一化: $x_i' = \frac {4 - 6} {2.83} ≈ −0.71$
    • 其他数据点也同样处理。

数据的集中趋势

我们经常会使用以下几个指标来描述一组数据的集中趋势:

  1. 均值:均值代表某个数据集的整体水平

    • 算术平均值:适用于对数据进行总体概括,如客单价、平均访问时长等。计算方法是将所有数据点相加后除以数据点的数量。公式如下: $\bar{x} = \frac{\sum_{i=1}^{n} {x_{i}}} {n} = \frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$
    • 几何平均值:适用于相对变化的数据,如转换率、留存率等。计算方法是将所有数据点的乘积开 n 次方根。公式如下: $\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}}$
  2. 中位数:将数据按照升序后降序排序后位于中间的数据,它描述了数据的中等水平

    • 计算方法:
      • 当数据量 $n$ 为奇数时,中位数是排序后第 $\frac{n + 1}{2}$
      • 当数据量 $n$ 为偶数时,中位数是排序后第 $\frac{n}{2}$ 和 $\frac{n}{2}+1$ 个数据点的平均值。
  3. 众数:数据集合中出现频次最高的数据,它代表了数据的一般水平

    • 一般在数据量比较大时,众数才有意义,而且数据越集中,众数的代表性就越好。而且,众数不受极值的影响,但无法保证唯一性和存在性。
优点 缺点
均值 充分利用了所有数据,适合大多数情况下的数据概括 容易收到极端值(异常值)的影响;使用加权平均值或去尾平均值减少极值的影响;几何平均值对比例数据更为合适。
中位数 不受极端值(异常值)的影响,能更好地描述数据的中心位置,尤其是在数据分布不对称时 不敏感,不提供关于数据的分布宽度信息,不适合反映极端值影响的情况
众数 能够很好的反映数据的集中趋势 有可能不存在(数据没有明显集中趋势)

数据的离散趋势

数据的离散趋势是描述数据分布波动情况的关键指标,反映了数据的稳定性。

以下是一些主要的离散趋势指标:

  1. 极值(Extreme Values)

    • 最大值:数据集中最大的观测值。
    • 最小值:数据集中最小的观测值。
    • Excel 函数:
      • MAX:计算数据集中的最大值。
      • MIN:计算数据集中的最小值。
  2. 极差(Range)

    • 定义:极差也称全距,是最大值与最小值之差,记作 $R$。 $R$ = 最大值 - 最小值
    • 解释:极值越大,数据的离散程度越大,受极值的影响也越明显。极差提供了数据集的整体范围,但对数据的分布情况没有详细的描述。
  3. 四分位距离(Interquartile Range,IQR)

    • 定义:第三四分位数 $Q_3$ 与第一四分位数 $Q_1$ 之差。 $IQR = Q_3 - Q_1$
    • 解释:IQR 反映了数据集中间 50% 的范围,相比于极差更能抵御极端值的影响,更适合描述数据的集中度和离散程度。常用于箱线图的绘制。
  4. 方差(Variance)

方差是每个数据点与均值的偏差的平方的平均值,反映了数据的波动程度。方差越大,说明数据的离散程度越大,波动越剧烈。方差通常用于测量数据的整体分散性。

总体方差:

  • 用于描述整个总体数据集的离散程度。
  • 总体方差计算公式: $\sigma^2 = \frac {\sum_{i=1}^{N} {(X_i - \mu)^2}} {N}$
  • 其中:
    • $N$: 样本数据点的数量(总体规模)。
    • $μ$: 总体均值(即总体数据的平均值),计算公式为: ${\mu} = \frac{\sum_{i=1}^{N} {X_{i}}} {N}$

样本方差:

  • 用于描述从总体中抽取的样本数据的离散程度。
  • 样本方差计算公式: $S^2 = \frac {\sum_{i=1}^{N} {(X_i - \bar{X})^2}} {N-1}$
  • 其中:
    • $N$: 样本数据点的数量(样本规模)。
    • $\bar X$: 样本均值(即样本数据的平均值),计算公式为: $\bar X = \frac{\sum_{i=1}^{N} {X_{i}}} {N}$
  1. 标准差(Standard Deviation)

标准差是方差的平方根,表示数据点偏离均值的平均程度。与方差一样,标准差越大,数据的离散程度越大。标准差具有与数据单位相同的性质,直观易懂。

总体标准差: $\sigma = \sqrt{\frac{\sum_{i=1}^{N} {(X_i - \mu)^2}} {N}}$

样本标准差: $S = \sqrt{\frac{\sum_{i=1}^{N} {(X_i - \bar{X})^2}} {N-1}}$

数据的频数分析

数据的频数分析是统计学中的一种基本方法,用于描述数据集中的各个数据或数据区间的出现频率。这种分析可以帮助我们理解数据的分布情况、识别模式和异常值。

频数分析能够将大问题变成小问题,迅速聚焦需要关注的内容。找到合理的分类机制,有利于进行长期的数据分析。

收集数据

假设,有一个班级 50 名学生的考试成绩,如下所示:

87,  80,  79,  78,  55,  80,  81,  60,  78,  82,  67,  74,  67, 74,  66,  91,  100,  70,  82,  71,  77,  94,  75,  83,  85,  84, 47,  75,  84,  96,  53,  86,  86,  89,  71,  76,  75,  80,  70,  83,  77,  91,  90,  82,  74,  74,  78,  53,  88,  72

在获取数集后,可以先解读数据的集中趋势和离散趋势。可知:

均值:77.4,中位数:78.0,众数:74

最高分:100,最低分:47,极差:53,方差:120.16

数据分组

但仅靠上述的计算指标很难对一个数据集进行全面的解读。我们可以对学生成绩进行分数段分组,如下所示:

分数段 学生人数
<60 4
[60, 65) 1
[65, 70) 3
[70, 75) 9
[75, 80) 10
[80, 85) 11
[85, 90) 6
[90, 95) 4
>=95 2

上述表格,计算了各个分数区间段出现的人数(计算频数)。

绘制图表

可以利用直方图及拟合的核密度估计曲线来分析数据分布的形态。

代码如下:

import numpy as np
import matplotlib.pyplot as plt
# 配置支持中文的非衬线字体(默认的字体无法显示中文)
plt.rcParams['font.sans-serif'] = ['SimHei',]
# 设置负号显示防止使用中文字体时负号无法显示的问题
plt.rcParams['axes.unicode_minus'] = False

from scipy.stats import norm
from scipy.stats import skew, kurtosis
import seaborn as sns

# 学生成绩
test_score = [
    87,  80,  79,  78,  55,  80,  81,  60,  78,  82,
    67,  74,  67, 74,  66,  91,  100,  70,  82,  71,
    77,  94,  75,  83,  85,  84,  47,  75,  84,  96,
    53,  86,  86,  89,  71,  76,  75,  80,  70,  83,
    77,  91,  90,  82,  74,  74,  78,  53,  88,  72
]

# 定义分数区间的数值型边界
bins = np.array([0, 60, 65, 70, 75, 80, 85, 90, 95, 100])

# 绘制直方图和核密度估计曲线
plt.figure(figsize=(6, 4), dpi=120)
#plt.hist(testscore, bins, density=True)
sns.histplot(
    test_score, bins=np.arange(40, 105, 5), kde=True,
    stat='density',linewidth=0, color='skyblue', label='数据直方图'
)

# 计算正态分布曲线
mu, std = np.mean(test_score), np.std(test_score)  # 计算均值和标准差
x = np.linspace(min(test_score), max(test_score), 100)  # 生成范围内的100个数据点用于绘制正态分布曲线
p = norm.pdf(x, mu, std)  # 计算正态分布概率密度函数值

# 绘制正态分布曲线
# 设置红色 'r',实线 '-', 线宽为 2 的曲线
# label参数用于在图例中显示线条或数据系列的名称。
plt.plot(x, p, 'r', linestyle='-', linewidth=2, label='正态分布曲线')

# 设置标签和标题
plt.xlabel('分数段')
plt.ylabel('人数概率密度')
plt.title('测试成绩分布与正态分布曲线')

# 自定义x轴刻度标签
#plt.xticks(
#    ticks=[30, 62.5, 67.5, 72.5, 77.5, 82.5, 87.5, 92.5, 97.5],
#    labels=['<60', '[60, 65)', '[65, 70)', '[70, 75)', '[75, 80)', 
#            '[80, 85)', '[85, 90)', '[90, 95)', '>=95']
#)

# 显示图例以区分直方图和正态分布曲线
plt.legend()  

# 显示图表
plt.show()

# 计算偏态系数
skewness = skew(test_score)
print(f'偏态系数:{skewness:.2f}')
# 计算峰度系数
kurt = kurtosis(test_score, fisher=True) 
print(f'峰度系数:{kurt:.2f}')

说明:

  • seaborn.histplot 函数绘制直方图,设置 kde=True 计算并绘制核密度估计曲线(KDE)。
  • numpy.arange(start, stop, step) 定义直方图中每个区间的边界(即分箱)。
    • start: 起始值(包括)。
    • stop: 终止值(不包括)。
    • step: 步长,即区间的宽度。
  • fisher=True 返回的峰度值减去 3

输出:

Pasted image 20240722210138.png

偏态系数:-0.65
峰度系数:0.56

根据数据分布的直方图拟合的核密度曲线与正态分布曲线比较,查看数据分布的形态,显示在不同区间的频数或频率。

理想情况下,正态分布呈现的是以均值为中心对称的钟形曲线。可以看到学生成绩数据呈现出正态分布的轮廓。

但实际上会有偏差,利用曲线的偏态和峰度来描述数据分布的对称性和尖峭程度。偏态和峰度是描述数据分布形状的重要指标。

  1. 偏态(Skewness)

偏态度量了数据分布的非对称性。数据分布的偏态可以分为正偏(右偏)和负偏(左偏):

  • 右偏:数据分布的尾部向右延伸。均值大于中位数,数据的极端值也通常位于右侧。
  • 左偏:数据分布的尾部向左延伸。均值小于中位数,数据的极端值也通常位于左侧。

偏态系数(Skewness,SK)可以通过以下公式计算:

${SK} = \frac{n}{(n-1)(n-2)}\sum (\frac{x_i - \bar{x}}{\sigma})^3$

其中,

  • $n$:表示样本量
  • $x_i$:第 $i$ 个数据点
  • $\bar{x}$ :数据的均值
  • $\sigma$ :数据的标准差。

偏态系数解读:

  • $SK > 0$ 时正偏(右偏), $SK$ 值越大,正偏程度越高。
  • $SK < 0$ 时负偏(左偏), $SK$ 值越小,负偏程度越高。
  1. 峰度(Kurtosis)

峰度描述了数据分布的尖峭程度,即峰度的高低。峰度主要包括以下几种类型:

  • 尖顶峰度:数据分布的峰部比正态分布更尖锐。
  • 平顶峰度:数据分布的峰部比正态分布更平坦。
  • 标准峰度:与正态分布的峰度一致,峰度系数为 0

峰度系数(Kurtosis,K)通常定义为数据分布的四阶中心矩与正态分布四阶中心矩的比值。基本公式如下:

${K} = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^4}{(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2)^2} - 3$

其中:

  • $n$:数据点的数量
  • $x_i$:第 $i$ 个数据点
  • $\bar{x}$ :数据的均值。

峰度系数解读:

  • $K > 0$ 时数据分布比正态分布更尖锐(瘦肩、肥尾的高峰)
  • $K < 0$ 时数据分布比正态分布更平坦(宽肩、瘦尾的低峰)

示例代码如下:

from scipy.stats import skew, kurtosis

# 学生成绩
test_score = [
    87,  80,  79,  78,  55,  80,  81,  60,  78,  82,
    67,  74,  67, 74,  66,  91,  100,  70,  82,  71,
    77,  94,  75,  83,  85,  84,  47,  75,  84,  96,
    53,  86,  86,  89,  71,  76,  75,  80,  70,  83,
    77,  91,  90,  82,  74,  74,  78,  53,  88,  72
]

# 计算偏态系数
skewness = skew(test_score)
print(f'偏态系数:{skewness:.2f}')
# 计算峰度系数
kurt = kurtosis(test_score, fisher=True)
print(f'峰度系数:{kurt:.2f}')

数据的概率分布

基本概念

随机现象

在一定条件下可能发生也可能不发生,结果具有偶然性的现象。

例如,抛硬币的结果即使一个随机现象。

样本空间

随机现象所有可能结果组成的集合。

例如:

  • 抛一枚硬币的样本空间: $\Omega = { \omega_1, \omega_2 }$
  • 抛两枚硬币的样本空间: $\Omega = { \omega_1, \omega_2, \omega_3, \omega_4 }$,其中 $\omega_1 = (H, H)$, $\omega_2 = (H, T)$, $\omega_3 = (T, H)$, $\omega_4 = (T, T)$

随机试验

在相同条件下对某种随机现象进行观测的试验,具有以下特点:

  • 可重复性。
  • 结果不确定,但可以列出所有可能的结果。
  • 试验结果出现的方式是随机的。

随机变量

随机变量是一个函数,它将样本空间中的每个结果映射到一个实数上。

例如,如果随机变量 $X$ 表示抛硬币的结果,其中, $H$ 映射为 1, $T$ 映射为 0,那么, $X$ 就是一个随机变量。

随机变量有离散型和连续型之分。

  • 离散型随机变量:取值可以列举出来,例如抛骰子的点数。
  • 连续型随机变量:取值在一个区间内,可以是无限的,例如人的身高。

说明:如果离散型随机变量的取值非常庞大,可以近似地看做连续型随机变量。

概率

01 之间的数字表示随机现象发生的可能性。

例如,抛硬币得到的概率是 0.5

概率质量函数(PMF)

概率质量函数有时也称离散密度函数,描述离散型随机变量在各特定取值上的概率。例如,抛骰子的点数为 3 的概率是 1/6

概率密度函数(PDF)

描述连续型随机变量在某个取值点的概率密度,必须对 PDF 在一个区间内进行积分得到概率。

注意:概率密度函数本身不是概率,只有对概率密度函数在某一区间内积分后才是概率。

例如,人的身高的概率密度函数可以用来计算某一身高范围内的概率。

随机变量的数学特征

  1. 均值(Mean)
  • 定义:均值是数据的平均值,通常用 $\mu$ 表示。它是数据集中每个数值的总和除以数值的个数。
  • 公式:
    • 样本均值: $\bar x=\frac{1}{n}\sum_{i=1}^{n}x_i$
    • 总体均值: $\mu=\frac{1}{N}\sum_{i=1}^{N}x_i$
    • 其中, $x_i$ 是数据集中的数据点, $n$ 是样本大小, $N$ 是总体大小。
  • 应用:均值提供了数据分布的中心位置,是数据集中最常用的统计量之一。
  1. 期望(Exception)
  • 定义:期望是随机变量取值的加权平均值,权重是其概率。它是概率分布的均值。通常用 $E(X)$ 表示。
  • 内容:期望是试验中每次可能的结果乘以其结果概率的总和,是所有可能状态平均的结果。它描述了随机变量在长期重复试验中的平均结果。
  • 公式:
    • 离散型随机变量: $E(X) = \sum_{i=1}{x_i}\cdot{P(x_i)}$ ,其中, $x_i$ 是随机变量的可能取值,$P(x_i)$ 是随机变量 $X$ 取值 $x_i$ 的概率。
    • 连续型随机变量: $E(X) = \int_{-\infty}^{\infty}x\cdot f(x)dx$ ,其中, $f(x)$ 是连续随机变量 $X$ 的概率密度函数。
  • 应用:期望值用于描述随机变量的长时间平均行为,是决策分析中的重要工具。
  1. 方差(Variance)
  • 定义:方差是数据点与均值的偏差的平方的期望值,衡量数据的离散程度。

  • 离散型随机变量的方差:定义为其与均值的偏差的平方的期望值。

    • 公式: $Var(X) =E[(X-E(X))^2]=\sum_{i=1}^{n}(x_i - \mu)^2{\cdot}{P(x_i)}$
    • 其中, $x_i$ 是离散型随机变量的取值, $P(x_i)$ 是对应的概率, $\mu=E(X)$ 是均值。
  • 连续型随机变量的方差:方差的计算基于概率密度函数(PDF)进行积分。

    • 公式: $Var(X) =E[(X-E(X))^2]= \int_{-\infty}^{\infty}(x_i - \mu)^2{\cdot}f(x)dx$
    • 其中, $f(x)$ 是随机变量 $X$ 的概率密度函数。
  • 样本方差:从样本数据中计算出的方差,用来估计总体方差。它是样本数据偏离样本均值的程度。样本方差的计算方式考虑了样本量,并用 $n-1$ 作为分母来修正偏差。

    • 公式: $S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2$
    • 其中, $x_i$ 是样本数据的观测值, $\bar x$ 是样本均值, $n$ 是样本量。
  • 总体方差:基于总体数据计算出的方差。它是总体中所有数据点了偏离总体均值的程度。总体方差的计算分母是总数据量 $N$。

    • 公式: $\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2$
    • 其中, $x_i$ 是总体数据的观测值, $\mu$ 是总体均值, $N$ 是总体大小。
  • 方差的偏差:样本方差使用 $n-1$ 来修正偏差。解释:

    • 由于样本均值是样本的最佳估计,但它通常比总体均值更小地估计了数据的偏差,从而使得样本方差的计算值倾向于低于总体方差。
    • 还有就是使用样本均值导致了自由度的减少。样本均值基于样本数据,对总体均值的估计,减少了数据的自由度,使得方差的估计值有所低估。
    • 因此,使用 $n-1$ 来修正偏差。
  • 应用:方差用于衡量数据的波动性或离散程度,是描述数据变异性的关键统计量。

  1. 标准差(Standard Deviation)
  • 定义:标准差是方差的平方根,表示数据点与均值的平均偏差,单位与数据本身相同。
  • 公式:
    • 样本标准差: $s=\sqrt{S^2}$
    • 总体标准差: $\mu=\sqrt{\mu^2}$
  • 应用:标准差用于衡量数据的变异程度,比较不同数据集的离散程度,应用于解释正常分布的 68-95-99.7规则或三西格玛法则。
  1. 期望与方差的性质
  • $E(X_1 + X_2) = E(X_1) + E(X_2)$
  • 对于常量 $a$ 和 $b$,有 $E(aX + b) = aE(X) + b$ 和 $Var(aX + b) = a^2Var(X)$
  • 对于独立随机变量 $X_1$ 和 $X_2$,有 $Var(X_1 + X_2) = Var(X_1) + Var(X_2)$

其他概念

  1. 互斥:事件不能同时发生。例如,抛硬币时,正面和反面是互斥事件。

  2. 独立:一个试验的结果不会影响另一个试验的结果。例如,两次抛硬币的结果是独立的。

  3. 排列(Arrangement):从 $n$ 个不同的元素中选取 $k$ 个元素,并考虑元素的顺序。排列的公式表示为: $A_n^k = \frac{n!}{(n-k)!}$

  4. 组合(Combination):从 $n$ 个不同的元素中选取 $k$ 个元素,但不考虑元素的顺序。组合的公式表示为: $C_n^k = \frac{n!}{(k)!(n-k)!}$

    推导过程:

    • 计算排列数:从 $n$ 个不同的元素中选取 $k$ 个元素的排列数是 $A_n^k = \frac{n!}{(n-k)!}$
    • 修正排序:排列数包括了每组 $k$ 个元素的所有顺序,而组合中不考虑顺序,所以需要将排列数除以所有可能的顺序,即 $k!$ 种。

离散型分布

离散型分布主要包括伯努利分布、二项分布和泊松分布,它们各自用于不同的随机现象建模。

伯努利分布(Bernoulli Distribution)

伯努利分布又称两点分布,描述了一个单次试验的结果,这个试验只有两个可能的结果:成功(1)或失败(0)。

若记伯努利试验成功概率为 $p(0 \leq p \leq 1 )$,失败概率为 $q = 1 - p$。则

  • 其概率质量函数为: $$ f(x) = p^x(1-p)^{1-x} = \ \begin{cases} p & \text{ if x = 1 } \ q & \text{ if x = 0} \end{cases} $$

二项分布(Binomial Distribution)

二项分布是 $n$ 个独立的是/非试验中成功次数的离散概率分布,其中每次试验的成功概率为 $p$。如果随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布,二项分布记为 $X \sim B(n,p)$ 。

随机变量 $X$ 有概率质量函数: $P(X=k) = C_n^kp^k(1-p)^{n-k}$ ,其中, $(k=0,1,...n)$, $n$ 为正整数, $0 \leq p \leq 1$。

泊松分布(Poisson Distribution)

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。

例如,某一服务设施在一定时间内受到的服务请求的次数。单位时间内发生的次数,可以看作事件发生的频率,类似物理的频率 $f$

泊松分布的概率质量函数为: $P(X=k)=\frac{e^{-\lambda}{\lambda^k}}{k!}$,其中,泊松分布的参数 $\lambda$ 是随机事件发生次数的数据期望。

当二项分布的 $n$ 很大, $p$ 很小的时候,我们可以让 $\lambda = np$,然后用泊松分布的概率质量函数计算概率来近似二项分布的概率。

二项分布有关的统计量

假设有一个二项分布 $Binomial(n,p)$,其中 $n$ 是试验的总次数, $p$ 是每次试验成功的概率。我们记 $X$ 为成功的次数,那么 $X$ 服从二项分布 $Binomial(n,p)$。

期望的推导

二项分布的概率质量函数(PMF)为 $$P(X=k)= \binom{n}{k}p^k(1-p)^{n-k}$$ 其中, $k=0,1,2,...,n$。

期望值 $E(x)$ 是对 $X$ 的所有可能 $k$ 的加权平均: $$E(x) = \sum_{k=0}^{n} k \cdot P(X=k)$$ 展开,根据二项式定理可得 $$E(x) = \sum_{k=0}^{n}k \cdot \binom{n}{k}p^k(1-p)^{n-k} = np$$

利用线性期望性质推导:

可以将 $X$ 表示为 $n$ 个独立的伯努利随机变量之和: $$X= X_1 + X_2 + \cdot \cdot \cdot + X_n$$ 其中,每个 $X_i$ 是一个伯努利随机变量,服从 $Binomial(n,p)$ 分布。因此, $$P(X_i=1) = P \text{ 和 } P(X_i=0) = 1-P$$ 对于每个 $X_i$,期望值为: $$E(X_i)= 1 \cdotp p + 0 \cdot(1-p)=p$$ 由于 $X= \sum_{i=1}^{n}X_i$ 是这些独立伯努利随机变量的和,所以期望值是这些期望值的和: $$E(X)=E(\sum_{i=1}^{n}X_i)= \sum_{i=1}^{n}E(X_i)= np$$

方差的推导

由于 $X$ 是 $n$ 个独立伯努利随机变量的和,可以利用方差的加法性质进行每个 $X_i$ 的方差求和。

方差的定义为: $$Var(X_i)=E(X_i^2)-(E(X_i))^2$$ 对于伯努利随机变量 $X_i$,有 $X_i^2=X_i$ (因为 1 的平方是 1, 0 的平方是 0)。因此, $E(X_i^2)=E(X_i)=p$; $(E(X_i))^2=p^2$。

所以,方差 $Var(X_i)=p-p^2$

由于 $X_i$ 是独立的,方差的总和为每个 $X_i$ 的方差的和: $$Var(X)=Var(\sum_{i=1}^{n}X_i)=\sum_{i=1}^{n}Var(X_i)=n\cdot{(p-p^2)}=np(1-p)$$

引申推导均值的期望和方差

推导方式一:

样本均值的定义是: $\bar X=\frac{1}{n}\sum_{i=1}^{n}X_i$

  1. 推导样本均值的期望

样本均值的期望: $E(\bar X)=E(\frac{1}{n}\sum_{i=1}^{n}X_i)$

使用期望的线性性质: $E(\bar X)=\frac{1}{n}\sum_{i=1}^{n}E(X_i)$

因为每个 $X_i$ 的均值都是 $p$: $E(\bar X)=\frac{1}{n} \cdot n \cdot p=p$

  1. 推导样本均值的方差

样本均值的方差: $Var(\bar X)=Var(\frac{1}{n}\sum_{i=1}^{n}X_i)$

使用方差的性质: $Var(\bar X)=\frac{1}{n^2}Var(\sum_{i=1}^{n}X_i)$

因为每个 $X_i$ 都是独立的,方差的总和为单个方差的和: $Var(\sum_{i=1}^{n}X_i)=\sum_{i=1}^{n}Var(X_i)=n\cdot{(p-p^2)}=np(1-p)$

因此: $Var(\bar X)=\frac{1}{n^2} \cdot np(1-p)=\frac{p(1-p)}{n}$

推导方式二:

对于 $n$ 个独立同分布的随机变量的二项分布,其均值、期望、方差以及这些随机变量的均值对应的期望和方差如下:

  1. 均值和期望

    • 假设每个随机变量 $X_i$ 的期望是 $\mu$,即 $E(X_i)=\mu$。
    • 那么这 $n$ 哥随机变量的均值 $\bar X$ 可以表示为: $\bar X=\frac{1}{n}\sum_{i=1}^{n}X_i$
    • 均值 $\bar X$ 的期望为: $E(\bar X)=E(\frac{1}{n}\sum_{i=1}^{n}X_i)=\frac{1}{n}\sum_{i=1}^{n}E(X_i)=\frac{1}{n}\cdot n \cdot \mu=\mu$
    • 因此,均值 $\bar X$ 的期望也是 $\mu$。
  2. 方差

  • 假设每个随机变量 $X_i$ 的方差是 $\sigma^2$,即 $Var(X_i)=\sigma^2$。
  • 均值 $\bar X$ 的方差可以表示为: $Var(\bar X)=Var(\frac{1}{n}\sum_{i=1}^{n}X_i)$
  • 由于 $X_i$ 是独立的,可以使用方差的加法性质。方差的计算公式为: $Var(\frac{1}{n}\sum_{i=1}^{n}X_i)=\frac{1}{n^2}\sum_{i=1}^{n}Var(X_i)=\frac{1}{n^2}\cdot n \cdot \sigma^2=\frac{\sigma^2}{n}$

综上所述:每个 $X_i$ 的期望是 $\mu$,方差是 $\sigma^2$ 时,均值 $\bar X$ 的期望是 $\mu$,均值的方差是 $\frac{\sigma^2}{n}$。

累积分布函数

对于连续型随机变量,我们不可能罗列每一个值出现的概率,因此引入累积分布函数的概念。

$F(x) = P{(X \le x)}$ ,表示随机变量 $X$ 在区间 $(-\infty, x)$ 上取值小于等于 $x$ 的概率。

累积分布函数有以下性质:

  • 单调性: $F_{X}(x)$ 是一个单调不减的函数, $F_X(x_1) \leq F_X(x_2)$,其中, $x_1 < x_2$
  • 有界性: $0 \le F_X(x) \le 1$ 且 $\lim_{x \to -\infty}F_X(x)=0$ 和 $\lim_{x \to +\infty} F_X(x) = 1$
  • 右连续性:$F_{X}(x)$ 是右连续性的。

随机变量 $X$ 的累积分布函数(CDF) 与其概率密度函数(PDF)的关系: $F(x) = \int_{- \infty}^{x} f(t)dt$,即累积分布函数是概率密度函数的积分。

连续型分布

连续型均匀分布

如果一个随机变量 $X$ 在其值域区间 $[a,b]$ 内的每个等长区间上取值的概率都相等,其概率密度函数在该变量的值域内为常数。若 $X$ 服从 $[a,b]$ 上的均匀分布,则记作 $X\sim U[a,b]$

一个均匀分布在区间 $[a, b]$ 上的连续型随机变量 $X$ 具有概率密度函数:

$$ f(x) = \ \begin{cases} \frac{1}{b-a} & \text{ for } {a \leq x \leq b} \ 0 & \text{ elsewhere} \end{cases} $$

指数分布

指数分布是一种连续概率分布。它可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔。

如果连续型随机变量 $X$ 具有概率密度函数为: $$ \begin{cases} {\lambda}e^{-\lambda{x}} & x\ge 0 \ 0 & x<0 \end{cases} $$ 则称 $X$ 服从参数为 $\lambda$ 的指数分布, 记为 $X \sim Exp(\lambda)$。

指数分布的一个重要特征是无记忆性(无后效性),这表示如果一个随机变量呈指数分布,它的条件概率遵循: $P(T \gt s+t\ |\ T \gt t)=P(T \gt s), \text{for all s} ,t \ge 0$。

正态分布

正态分布又称高斯分布,是一个常见的连续概率分布,在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。

概率密度函数

若随机变量 $X$ 服从一个平均数为 $\mu$、标准差为 $\sigma$ 的正态分布,则记为: $X\sim N(\mu, \sigma^2)$,其概率密度函数为: $$ \begin{flalign*} & \displaystyle f(x)={\frac {1}{{\sqrt {2 \pi } \sigma}}}e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}} & \end{flalign*} $$

标准正态分布

当 $\mu=0$ 且 $\sigma=1$ 时,这个正态分布被称为标准正态分布,概率密度函数可以简化为:

$$\begin{flalign} & f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} & \end{flalign}$$

标准化公式(Z-score)

标准化公式就是 $Z-score$ 的计算方法。标准化过程是将随机变量转换为标准正态分布的一个重要步骤。

背景

假设有一个随机变量 $X$ ,它的均值是 $\mu$,标准差是 $\sigma$。我们希望将 $X$ 转换为一个新的随机变量 $X$,使得 $Z$ 的均值为 0,标准差为 1。标准化的目的是为了简化数据处理或进行比较。

推导标准化公式

  1. 均值的推导

首先,我们希望 $Z$ 的均值为 0。假设用如下的线性变换来标准化 $X$: $Z=aX+b$

我们要求 $E(Z)=0$。计算 $Z$ 的均值: $E(Z)=E(aX+b)$

利用期望的线性性质: $E(Z)=aE(X)+b$

设 $E(X)=\mu$,要求 $a\mu+b=0$

因此, $b=-a\mu$

  1. 方差的推导

然后,我们希望 $Z$ 的标准差为 1,即方差为 1。计算 $Z$ 的方差: $Var(Z)=Var(aX+b)$

方差的性质告诉我们,常数 $b$ 对方差没有影响,只需考虑 $a$: $Var(Z)=Var(aX)=a^2Var(X)$

设 $Var(X)=\sigma$,要求: $a^2\sigma^2=1$

因此, $a=\frac{1}{\sigma}$

确定标准化公式

将 $a$ 和 $b$ 的值代入标准化公式: $Z=\frac{1}{\sigma}X - \frac{\mu}{\sigma}$

所以, $Z=\frac{X-\mu}{\sigma}$。

其中,$X$ 是原始随机变量; $\mu$ 是 $X$ 的均值; $\sigma$ 是 $X$ 的标准差。$Z$ 是标准化后的随机变量。

验证标准化公式

根据上述公式,可以验证:

  • 均值:

$E(Z)=E(\frac{X-\mu}{\sigma})=\frac{1}{\sigma}(E(X)-\mu)=\frac{\mu-\mu}{\sigma}=0$

  • 方差:

$Var(Z)=Var(\frac{X-\mu}{\sigma})=\frac{1}{\sigma^2}Var(X-\mu)=\frac{1}{\sigma^2}Var(X)=\frac{\sigma^2}{\sigma^2}=1$

3σ 法则

在正态分布下,依据 3σ 法则,异常值通常被定义为偏离平均值超过三倍标准差的观测值。在正态分布下,距离平均值 3σ 之外的值出现的概率为 $P(|x-\mu|>3\sigma)<0.003$,其中, μ 是平均值, σ 是标准差。这种值属于小概率事件。

3σ法则,也称为三西格玛法则或三标准差法则,是统计学中的一条经验法则,用于描述数据的分布。它基于正态分布的特性,指出在正态分布中:

  • 大约68.27%的数据点位于均值(μ)加减一个标准差(σ)的范围内,即 μ ± 1σ。
  • 大约95.45%的数据点位于均值加减两个标准差的范围内,即 μ ± 2σ。
  • 大约99.73%的数据点位于均值加减三个标准差的范围内,即 μ ± 3σ。

如下图所示:

Pasted image 20240717165221.png

正态分布有一个非常重要的性质,大量统计独立的随机变量的分布趋近于正态分布。

中心极限定理和棣莫佛-拉普拉斯定理都是描述随机变量分布趋近于正态分布的定理。

中心极限定理

中心极限定理是一个更为广泛和一般的定理,它描述了对于独立同分布随机变量的均值的分布在样本量足够大的情况下趋近于正态分布。即使原始数据不服从正态分布。

定义假设

假设 $X_1,X_2,...X_n$ 是 $n$ 个独立同分布的随机变量,即它们之间相互独立具有相同的概率分布。

  • 每个随机变量的均值为 $\mu$,方差为 $\sigma^2$。
  • 从这个总体中随机抽取一个样本,样本容量为 $n$.
  • 样本的均值为 $\bar X=\frac{1}{n}\sum_{i=1}^{n}X_i$ ,则 $\bar X$ 的期望值为 $\mu$,方差为 $\frac{\sigma^2}{n}$。

标准化样本均值

对样本均值 $\bar X$ 变量标准化[^变量标准化],得到标准化均值 $Z_n$: ${\Large Z_n=\frac{\bar X-\mu}{\frac{\sigma}{\sqrt n}}}$

[^变量标准化]: 随机变量的标准化即 Z-score 方法,是将一个随机变量通过减去其均值并除以其标准差,使其转化为标准正态分布(均值为 0,方差为 1)的过程。这个过程的目的是消除随机变量的原始量纲,使其在不同的随机变量之间具有可比性。

求分布

需要证明当 $n$ 足够大时,$Z_n$ 的分布接近标准正态分布 $N(0,1)$。

推导

使用特征函数(或傅里叶变换)的工具来推导 $Z_n$ 的极限分布。

特征函数 $\phi{_X}(t)$ 是随机变量 $X$ 的概率分布的一个工具,其定义: $\phi{_X}(t) = E(e^{itX})$,其中,$t$ 是一个实数,$i$ 是虚数单位,$E$ 表示期望值操作。

对于样本均值 $\bar X$,其特征函数可表示为: $\phi_{\bar X}(t)=E(e^{it \bar X})=E(e^{it\frac{1}{n}\sum_{i=1}^{n}X_i})$

利用期望的乘法性质: $$\phi_{\bar X}(t)=E\begin{bmatrix}\prod_{i=1}^{n}{e^{i{\frac{t}{n}X_i}}}\end{bmatrix}$$

因为 $X_i$ 是独立的: $$\phi_{\bar X}(t)=\prod_{i=1}^{n}E\begin{bmatrix}{e^{i{\frac{t}{n}X_i}}}\end{bmatrix}$$

每个 $E\begin{bmatrix}{e^{i{\frac{t}{n}X_i}}}\end{bmatrix}$ 即是每个 $X_i$ 的特征函数 $\phi_{X}(\frac{t}{n})$,所以: $\phi_{\bar X}(t)={\begin{bmatrix}{\phi_{X}(\frac{t}{n})}\end{bmatrix}}^n$

当 $n \to \infty$ 时,如果 $X_i$ 的特征函数 $\phi{_\bar X}(t)$ 在 $t$ 附件是良好行为的(通常意味着它是连续的),可以用泰勒展开来近似 ${\phi{_X}(\frac{t}{n})}$: $${\phi{_X}(\frac{t}{n})} \approx 1 + i{\frac{t}{n}}E[X] - \frac{1}{2}(\frac{t}{n})^2Var(X)$$ 取对数并利用极限:

$$ln{\begin{bmatrix} {\phi_{X}(\frac{t}{n})} \end{bmatrix}}^n=nln\begin{bmatrix} 1+i\frac{t}{n}\mu-\frac{1}{2}(\frac{t}{n})^2\sigma^2 \end{bmatrix} \approx n(i\frac{t}{n}\mu-\frac{1}{2}(\frac{t}{n})^2\sigma^2) = it\mu-\frac{t^2}{2n}\sigma^2$$ 当 $n \to \infty$ 时,第二项趋近于 0,所以特征函数趋近于正态分布的特征函数: $$\phi_{\bar X}(t)\to e^{it\mu-\frac{t^2}{2}\sigma^2}$$ 这表明,当样本量 $n$ 很大时,样本均值的分布接近正态分布 $N(\mu,\frac{\sigma^2}{n})$,即标准化的样本均值趋向于标准正态分布 $N(0,1)$。

结论

不论原始分布是什么,当 $n$ 很大时,样本均值的分布接近标准正态分布: $$Z_n=\frac{\bar X-\mu}{\frac{\sigma}{\sqrt n}}\xrightarrow{d}\text{Normal}(0,1)$$

其中, $\bar X =\frac{1}{n}\sum_{i=1}^{n}X_i$ 是样本均值, $\mu$ 是总体均值, $\sigma$ 是总体标准差; $\xrightarrow{d}$ 表示“趋近于分布”, $\text{Normal}(0,1)$ 是标准正态分布。

推导过程:该定理的推导基于独立同分布随机变量的和在经过标准化后趋近于正态分布的表现。

棣莫佛-拉普拉斯定理

棣莫佛-拉普拉斯定理是中心极限定理的一个特例,主要用于二项分布的极限情况。它描述了二项分布在样本量很大的情况下的近似正态性。

定义

设有 $n$ 次独立的伯努利试验,每次试验成功的概率为 $p$。设 $X_n$ 为成功次数,则 $X_n$ 服从二项分布 $\text{Binomial}(n, p)$。

期望和方差为 $E(X_n)=np$ 和 $Var(X_n)=np(1-p)$。

标准化

定义标准化的随机变量: $Z_n=\frac{X_n - np} {\sqrt{np(1-p)}}$

目标是证明 $Z_n$ 在 $n$ 足够大的情况下趋近于标准正态分布 $N(0,1)$。

求分布

通过特征函数(概率生成函数)来推导 $Z_n$ 的极限分布。对于二项分布,概率生成函数为: $$G(t)={\begin{bmatrix} 1-p+pe^t \end{bmatrix}}^n$$

应用大数法则

使用泰勒展开,近似 $e^t$ 为 $1+t+\frac{t^2}{2}$ 并将其代入概率生成函数: $${\Large {\begin{bmatrix} 1-p+p(1+t+\frac{t^2}{2}) \end{bmatrix}}^n \approx {\begin{bmatrix} 1+\frac{pt^2}{2} \end{bmatrix}}^n}$$ 进一步简化,利用 $(1+\frac{x}{n})^n \approx e^{x}$ 的极限性质: $${\Large {\begin{bmatrix} 1+\frac{pt^2}{2} \end{bmatrix}}^n \approx e^{\frac{np(1-p)t^2}{2}}}$$ 得到标准正态分布的特征函数形式,即: $${\Large \phi_{Z_n}(t) \to e^{-\frac{t^2}{2}}}$$

结果

由特征函数的收敛,得到 $Z_n$ 的分布在 $n \to \infty$ 时趋近于标准正态分布 $N(0,1)$: $${\Large \lim_{n \to \infty} P(\frac{X_n-np}{\sqrt{np(1-p)}} \leq z)=\Phi(z)}$$ 其中, $\Phi(z)$ 是标准正态分布的累积分布函数。

因此,对任意有限区间 $[a,b]$: $${\Large \lim_{n \to \infty} P(a \leq \frac{X_n - np} {\sqrt{np(1-p)}} \le b) \xrightarrow{d} \frac {1} {\sqrt{2\pi}} \int_{a}^{b} e^{-\frac {x^2} {2}} dx}$$其中, $\begin{flalign} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\end{flalign}$ 是标准正态分布概率密度函数。该定理表明标准正态分布是二项分布在特定条件下的极限分布。

推导过程:该定理的推导基于计算二项分布概率的极限情况,即用正态分布近似二项分布在 $n$ 足够大的情况下的表现。

基于正态分布的三大分布

卡方分布

定义:

卡方分布(Chi-Square Distribution)是由多个独立的标准正态分布随机变量(数学期望为 0,方差为 1)的平方和构成的分布。如果 $Z_1,Z_2,...Z_k$ 是 $k$ 个独立的标准正态分布随机变量,则 $$X =Z_1^2+Z_2^2+...+Z_k^2= \sum_{i=1}^{k}Z_i^2$$ 服从自由度为 $k$ 的卡方分布,记作 $X \sim \chi_k^2$ 。

概率密度函数(PDF): $$\Large f_k(x)=\frac{x^{\frac{k}{2}-1}e^{-\frac{x}{2}}}{2^{\frac{k}{2}}\Gamma (\frac{k}{2})}$$ 其中, $x\ge 0$;当 $x\leq0$ 时 $f_k(x)=0$。 $k$ 是自由度, $\Gamma$ 是伽马函数。

性质:

  • 均值: $E(X)=k$
  • 方差: $Var(X)=2k$

用途: 卡方检验,如独立性检验和拟合优度检验。

卡方分布的概率密度曲线,代码如下:

# 绘制卡方分布的概率密度曲线
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2

# 配置字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体字
plt.rcParams['axes.unicode_minus'] = False  # 处理负号问题

# 设置自由度
k_values = [1, 5, 10, 15, 20]

# 创建一个x范围
x = np.linspace(0, 40, 100)

# 创建图形
plt.figure(figsize=(10, 6), dpi=120)

# 绘制不同自由度下的卡方分布
for k in k_values:
    pdf = chi2.pdf(x, k)  # 计算卡方分布的概率密度
    plt.plot(x, pdf, label=f'k={k}')
    
# 添加图例和标题
plt.title('卡方分布的概率密度曲线')
plt.xlabel('x')
plt.ylabel('$f_k(x)$概率密度')
plt.legend()
plt.grid(True)

# 显示图形
plt.show()

说明:

  • matplotlib的 LaTeX 公式渲染器默认不支持中文字符。

输出:

Pasted image 20240725062237.png

t 分布

定义:

t 分布(Student's t-distribution)又称司徒顿 t 分布,是当样本均值的估计涉及到样本方差(而非总体方差)时使用的分布。

假设我们从正态分布的总体中抽取样本 $X_1,X_2,...,X_n$,样本均值 $\bar X$ 和样本标准差 $S$ 服从 $\Large t=\frac{\bar X-\mu}{\frac{S}{\sqrt n}}$ 其中,$\mu$ 是总体均值, $n-1$是自由度。 $t$ 分布的形状依赖于自由度 $\nu=n-1$ 。

概率密度函数: $$\Large f_{\nu}(t)=\frac{\Gamma(\frac{v+1}{2})}{\sqrt{\nu \pi \Gamma(\frac{\nu}{2})}}(1+\frac{t^2}{\nu})^{-\frac{v+1}{2}}$$

其中, $\nu$ 是自由度, $\Gamma$ 是伽马函数。

性质:

  • 均值: $E(t)=0$ (当自由度 $\nu>1$)
  • 方差: $Var(t)=\frac{v}{v-2}$ (当自由度 $\nu>2$)

用途: 样本均值的置信空间[^置信空间]、t 检验[^t检验]。

[^置信空间]: 置信区间是统计学中用于估计某个参数值的区间范围,其核心思想是通过样本数据来推测总体参数的可能范围。常用的置信水平有 95% 和 97%。

[^t检验]: t 检验是一种用于比较两个样本均值或一个样本均值与已知值之间差异是否显著的统计方法。

绘制 t 分布的概率密度曲线,代码如下:

# 绘制 t-分布的概率密度曲线
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm

# 配置字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体字
plt.rcParams['axes.unicode_minus'] = False  # 处理负号问题

# 设置自由度
k_values = [1, 2, 5, 10]

# 创建一个t范围
x = np.linspace(-5, 5, 1000)

# 创建图形
plt.figure(figsize=(10, 6), dpi=120)

# 绘制不同自由度下的卡方分布
for k in k_values:
    pdf_t = t.pdf(x, k)  # 计算t-分布的概率密度
    plt.plot(x, pdf_t, label=f'k={k}')

# 绘制标准正态分布 N(0,1)
pdf_normal= norm.pdf(x, 0, 1)
plt.plot(x, pdf_normal, 'k--', label=f'N(0,1)')

# 添加图例和标题
plt.title('t-分布与标准正态分布概率密度曲线对比')
plt.xlabel('x')
#plt.ylabel('$f{\\nu}(x)$概率密度')
plt.ylabel('概率密度')
plt.legend()
plt.grid(True)

# 显示图形
plt.show()

说明:

  • 使用 'k--' 绘制标准正态分布的曲线,其中 k 指定黑色,-- 指定虚线样式。

输出:

Pasted image 20240725064733.png

F 分布

定义:

F-分布F-distribution)是两个独立的卡方分布随机变量比值的分布。用于检验两个独立样本方差的比率是否相等。

假设有两个独立的卡方分布随机变量 $X_1^2$ 和 $X_2^2$ ,它们的自由度分别为 $d_1$ 和 $d_2$ ,则 $F$ 分布定义为: $$\Large F=\frac{\frac{X_1^2}{d_1}}{\frac{X_2^2}{d_2}}$$ 服从 $d_1$ 和 $d_2$ 自由度的 $F$ 分布,记作 $F_{d_1{,d_2}}$ 。

概率密度函数:

$$\Large f(x;d_1,d_2)=\frac{(\frac{d_1}{d_2})^{\frac{d_1}{2}}x^{\frac{d_1}{2}-1}}{(1+\frac{d_1}{d_2}x)^{\frac{d_1+d_2}{2}}B(\frac{d_1}{2},\frac{d_2}{2})}$$ 其中, $x\ge0$, $d_1$ 和 $d_2$ 是自由度, $B$ 是贝塔函数。

性质:

  • 均值: $E(F)=\Large \frac{d_2}{d_2-2}$ (当 $d_2 > 2$)
  • 方差: $\Large Var(F)=\frac{2d_2^2(d_1+d_2-2)}{d_1(d_2-2)^2(d_2-4)}$(当 $d_2 > 4$)

用途:方差分析(ANOVA)、回归分析模型的显著性检验。

绘制 F 分布的概率密度曲线,代码如下:

# 绘制 F-分布的概率密度曲线
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import f

# 配置字体
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体字
plt.rcParams['axes.unicode_minus'] = False  # 处理负号问题

# 设置自由度
dd_values = [(2, 5), (5, 10), (10, 15), (20, 30)]

# 创建一个t范围
x = np.linspace(0, 5, 1000)

# 创建图形
plt.figure(figsize=(10, 6), dpi=120)

# 绘制不同自由度下的F-分布
for d1, d2 in dd_values:
    pdf_f = f.pdf(x, d1, d2)  # 计算F-分布的概率密度
    plt.plot(x, pdf_f, label=f'$F({d1},{d2})$')

# 添加图例和标题
plt.title('F-分布概率密度曲线')
plt.xlabel('x')
plt.ylabel('概率密度')
plt.legend()
plt.grid(True)

# 显示图形
plt.show()

输出:

Pasted image 20240725073451.png

贝叶斯定理

贝叶斯定理是概率论中一个重要定理,用于更新概率估计。它基于新的证据或信息来修正先前的概率预测。贝叶斯定理在统计推断、机器学习等领域有广泛应用。

贝叶斯定理公式

假设有事件 $A$ 和 $B$,贝叶斯定理可以表示为: $P(A|B)=\frac{P(B|A)\cdot P(A)}{P(B)}$

其中:

  • $P(A|B)$ 是在事件 $B$ 发生的条件下,事件 $A$ 发生的概率(后验概率)。
  • $P(B|A)$ 是在事件 $A$ 发生的条件下,事件 $B$ 发生的概率(似然概率)。
  • $P(A)$ 是事件 $A$ 的先验概率。
  • $P(B)$ 是事件 $B$ 的边际概率,可以通过全概率公式计算: $P(B)=\sum_iP(B|A_i)\cdot P(A_i)$,其中 $A_i$ 是所有可能的事件。

例子

假设我们有一个测试,用于检测某种疾病。我们知道:

  • 疾病在总体中的先验概率是 0.01。
  • 测试的准确性为 99%,即如果有病,测试结果是阳性的概率为 99%;如果没有病,测试结果是阴性的概率为 99%。

我们想知道在测试结果为阳性的情况下,实际有病的概率是多少。我们可以使用贝叶斯定理来计算这一后验概率。

计算过程

  1. 已知条件

先验概率:

  • 疾病的先验概率 $P(D)=0.01$
  • 没有疾病的概率 $P(\neg D)=1-P(D)=0.99$

测试的准确性:

  • 如果有病,测试结果阳性的概率(真正率) $P(T^+|D)=0.99$
  • 如果没有病,测试结果阴性的概率(假阴率) $P(T^-|\neg D)=0.99$
  1. 由此可得

如果没有病,测试结果阳性的概率(假阳率) $P(T^+|\neg D)=1-P(T^-|\neg D)=1-0.99=0.01$

我们想要计算在测试结果为阳性,实际有病的概率,即 $P(D|T^+)$。

根据贝叶斯定理: $P(D|T^+)=\frac{P(T^+|D)\cdot P(D)}{P(T^+)}$

其中, $P(T^+)$ 是测试结果为阳性的总体概率,可以通过全概率公式计算: $P(T^+)=\sum_i P(T^+|D_i)\cdot P(D_i)=P(T^+|D) \cdot P(D)+P(T^+|\neg D)\cdot P(\neg D)$

代入已知值:

$P(T^+)=(0.99\cdot 0.01)+(0.01\cdot 0.99)=0.0198$

将 $P(T^+)$ 代入贝叶斯公式:

$\large P(D|T^+)=\frac{P(T^+|D)\cdot P(D)}{P(T^+)}=\frac{0.99\ \cdot \ 0.01}{0.0198}=0.5$

结果

在测试结果为阳性的情况下,实际有病的概率是 0.5,即 50%。

解读

虽然测试的的准确性很高(99%),但由于疾病的先验概率较低(1%),测试结果为阳性的情况下,实际有病的概率并没有达到预期的很高值。这是由于假阳率也相对较高,导致了最终结果的概率降低。

大数法则

大数法则描述了当样本量趋于无穷大时,样本均值会接近总体均值的概率特性。它保证了再样本数量足够大的情况下,样本均值会趋向于总体均值,即使样本来自不同的分布或存在噪声。

大数法则的形式

  1. 弱大数法则(Chebyshev's Law):
    • 对于任何给定的正数 $\epsilon$,样本均值与总体均值的差距小于 $\epsilon$ 的概率趋于 1。
  2. 强大数法则(Strong Law of Large Numbers):
    • 随着样本量的增加,样本均值集合肯定会收敛到总体均值。

数学表示

设 $X_1,X_2,...,X_n$ 是来自同一分布的独立同分布随机变量,且均值为 $\mu$,方差为 $\sigma^2$。样本均值为: $\bar X_n=\frac{1}{n}\sum_{i=1}^{n}X_i$

则大数法则表明:

  • 弱大数法则: $P(\lim_{n \to \infty}|\bar X_n-\mu<\epsilon|)=1$
  • 强大数法则: $\bar X_n \overset{a.s.}{\rightarrow} \mu$ ,其中 $\overset{a.s.}{\rightarrow}$ 表示几乎必然收敛。

例子

如果你掷一枚公平的硬币多次,那么硬币正面朝上的比例(样本均值)会随着掷硬币次数的增加而接近于 0.5(总体均值)。即使每次掷硬币的结果是随机的,但随着次数的增加,这种比例会趋于一个稳定的值。

假设检验

假设检验是一种统计方法,用于通过样本数据来推断总体特性。其核心思想是使用小概率反证法。具体步骤如下:

  1. 设定假设

    • 零假设($H_0$​):通常表示无效或无差异的假设,是我们在检验过程中尝试反驳的假设。
    • 备择假设($H_A\ 或 \ H_1$​):与零假设相对,表示我们想要证明的假设。
  2. 选择显著性水平( $\alpha$ ):

    • 显著性水平是我们愿意接受的错误拒绝零假设的概率(即“拒真”的概率)。
  3. 计算检验统计量

    • 根据样本数据计算一个检验统计量,并与期望的分布进行比较。
  4. 做出决策

    • 如果计算得到的检验统计量落在拒绝域内(即事件发生的概率很小),我们拒绝零假设;否则,不拒绝零假设。

错误类型

在假设检验中,有两种可能的错误:

  1. 第一类错误(Type I Error)

    • 定义:原假设实际为真,但我们错误地拒绝了原假设。
    • 概率:显著性水平 $\alpha$。
    • 影响:称为“拒真”,可能导致误判原假设的有效性。
  2. 第二类错误(Type II Error)

    • 定义:原假设实际为假,但我们错误地未能拒绝原假设。
    • 概率:通常记为 $\beta$。
    • 影响:称为“取伪”,可能导致未能识别备择假设的有效性。

公式和关系

  • 显著性水平 ($\alpha$):即第一类错误的概率。
  • 检验的功效 (Power): 1 - $\beta$,表示正确拒绝零假设的概率。

举例说明

假设你正在测试一个药物是否有效:

  • 零假设( $H_0$​):药物没有效果。
  • 备择假设( $H_A$​):药物有效。
  1. 第一类错误:药物实际上没有效果,但你得出了药物有效的结论(错误地拒绝了零假设)。
  2. 第二类错误:药物实际上有效,但你得出了药物无效的结论(错误地未能拒绝零假设)。

假设检验是一种系统化的方法,通过概率和统计来帮助决策,但在实际应用中,理解和权衡这些错误的风险至关重要。

本文由作者按照 CC BY 4.0 进行授权。