当需要计算方差的比值时,便会用到 F分布。
如下两个独立的分布:
U1:χ²分布,自由度为 ν1U2:χ²分布,自由度为 ν2F-分布的概率密度函数为:
f ( x ) = Γ ( ν 1 + ν 2 2 ) ( ν 1 ν 2 ) ν 1 2 x ν 1 2 − 1 Γ ( ν 1 2 ) Γ ( ν 2 2 ) ( 1 + ν 1 ν 2 x ) ν 1 + ν 2 2 , x ≥ 0 f(x)=\frac{\Gamma(\frac{\nu_1+\nu_2}{2})\left(\frac{\nu_1}{\nu_2}\right)^{\frac{\nu_1}{2}}x^{\frac{\nu_1}{2}-1}}{\Gamma(\frac{\nu_1}2)\Gamma(\frac{\nu_2}2)(1+\frac{\nu_1}{\nu_2}x)^{\frac{\nu_1+\nu_2}2}}, \quad x\ge 0 f(x)=Γ(2ν1)Γ(2ν2)(1+ν2ν1x)2ν1+ν2Γ(2ν1+ν2)(ν2ν1)2ν1x2ν1−1,x≥0
F-分布的数字特征:
均值: μ = ν 2 ν 2 − 2 , ν 2 > 2 \mu=\frac{\nu_2}{\nu_2-2}, \quad \nu_2\gt 2 μ=ν2−2ν2,ν2>2中位数:当 ν 1 = ν 2 \nu_1=\nu_2 ν1=ν2 时,中位数为 1; from scipy.stats import f import matplotlib.pyplot as plt x = np.arange(0, 10, .001) plt.plot(x, f.pdf(x, 3, 8), x, f.pdf(x, 8, 3), x, f.pdf(x, 20, 20)) plt.legend(['3 & 8 df', '8 & 3 df', '20 & 20 df'])如果计算得到的 F-ratio 或者叫 F-score < critical value(临界值),也即落在绿色区域,则 fail to reject null hypothesis(不能拒绝0假设),反之 F-score > critical value,落在红色区域(rejection region),则 reject null hypothesis(拒绝0假设)。
某已知自由度的 F分布,其 critical value 通过查表得到:
表中红色阴影表示 0.05 的置信水平对应的临界值; 表中黑体数字则在 0.01 的置信水平下对应的临界值;