样本估计中方差用n-1代替n的理解 方差的定义 样本方差的m的有偏估计 样本方差m的有偏估计的证明 样本方差的m-1修正 m-1修正的数学证明
在概率理论和统计学上,方差的定义为 σ2=D[X]=E[(xi−μ)2]=1n∑i=1n(xi−μ), (1)=E[x2]−E2[x] 其中, μ 是变量 X 的均值,n为变量集 X 的元素总数。
变量 X 比较庞大,我们就难以直接得到μ的实际值,统计学的做法是选取一个样本来估计变量 X 的整体情况,我们把样本的均值表示为x¯,并且以此来代替变量 X 的均值μ, 那么由式(1),可以得到
σ2s=E[(xi−x¯)2]=1m∑i=1m(xi−x¯), (2) 其中, m 为样本集的元素数。直接用式(2)去估计变量的真正方差,如式(1),是有偏差的,会偏低于总体方差,证明如下:
σ2s=E[(xi−x¯)2]=1m∑i=1m(xi−x¯)=E[1m∑i=1m(xi−x¯)]=E[1m∑i=1mx2i−2m∑i=1mxix¯+1m∑i=1mx¯2]=E[1m∑i=1mx2i−x¯2]=E[x2i]−E[x¯2]=D[x2i]+E[x2i]−(D[x¯2]+E[x¯2])=D[X]−1nD[X]=m−1mD[X]. (3) 因此, 用样本的 n 方差估计会使得样本方差小于总体方差。为了让样本方差能更准确地表示总体方差,我们必须对样本方差 n 的有偏估计进行修正。修正后的样本方差估计为 σ2s=1m−1∑i=1m(xi−x¯).
由式(2)和(3),我们可以直接得到
σ2=D[X]=mm−1σ2s=mm−1[1m∑i=1m(xi−x¯)]=1m−1∑i=1m(xi−x¯). 上式简单地证明了样本方差估计总体方差的 m−1 修正,当然也有更有说服力更科学地的数学证明,但较为深奥难懂,笔者就不叙述了。