数理统计-国庆作业

本文最后更新于 2024年10月9日 晚上

题目

x1,,xnx_1,\cdots,x_n 是来自某一总体的样本,其算术平均值称为样本均值,用xˉ\bar{x}表示,即

xˉ=x1++xnn=1ni=1nxi.\bar{x}=\frac{x_1+\cdots+x_n}n=\frac1n\sum_{i=1}^nx_i.

在分组样本场合,均值的近似公式为:

xˉB=x~1f1++x~nfnn,n=k=1Bfk.\bar{x}_B=\frac{\widetilde{x}_1 f_1 + \cdots + \widetilde{x}_n f_n}{n}, n=\sum_{k=1}^B f_k.

其中 kk 为组数,x~k\widetilde x_k 为第 kk 组的组中值 (分段的中点,x~k=bk+bk+12)\widetilde x_k=\frac{b_k + b_{k+1}}{2})fkf_k 为第 kk 组的频数。

请证明: xˉB\bar{x}_BE(X)\mathbb{E}(X) 的一种良好近似,并说明这种近似是在何种意义下成立的。

证明

依题意,设分布函数为 F(x)F(x),将样本分为 BB 组。其中,第 kk 组的两端分别为 bk,bk+1b_k , b_{k+1}x~k\widetilde x_k 为第 kk 组的组中值,fkf_k 为第 kk 组的频数。

则有,

b1b2bB+1\begin{equation*} b_1 \leq b_2 \leq \cdots \leq b_{B+1} \end{equation*}

首先,考虑频率对第 kk 组概率的逼近。对于任意一种给定的分组方式,设数据点落入第 kk 组的概率为 pkp_k,取一列随机变量 an{0,1}a_n \in \{0,1\} 用于表征数据点是否落入第 kk 组中。由伯努利大数定律,对任意给定的 ϵ>0\epsilon > 0

limnP(fknpk<ϵ)=limnP(a1+a2++annpk<ϵ)=1 \lim_{n \rightarrow \infty} P\left( \left| \frac{f_k}{n} - p_k \right| < \epsilon \right) = \lim_{n \rightarrow \infty} P\left( \left| \frac{a_1 + a_2 + \cdots + a_n}{n} - p_k \right| < \epsilon \right) = 1

对于 δ>0\forall \delta > 0 有下式成立,

P(E(X)xˉBδ)=P((E(X)xˉBδ)(fknpk<ϵ))+P((E(X)xˉBδ)(fknpkϵ))P((E(X)xˉBδ)(fknpk<ϵ))+σ=σ+P((E(X)xˉBδ)(fknpk<ϵ))P(fknpk<ϵ)σ+P((E(X)xˉBδ)(fknpk<ϵ))\begin{align*} P\left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) &= P\left( \left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) \cap \left( \left| \frac{f_k}{n} - p_k \right| < \epsilon \right) \right) \\ &\quad + P\left( \left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) \cap \left( \left| \frac{f_k}{n} - p_k \right| \geq \epsilon \right) \right) \\ &\leq P\left( \left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) \cap \left( \left| \frac{f_k}{n} - p_k \right| < \epsilon \right) \right) + \sigma \\ &= \sigma + P\left( \left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) \mid \left( \left| \frac{f_k}{n} - p_k \right| < \epsilon \right) \right) P\left( \left| \frac{f_k}{n} - p_k \right| < \epsilon \right) \\ &\leq \sigma + P\left( \left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) \mid \left( \left| \frac{f_k}{n} - p_k \right| < \epsilon \right) \right) \end{align*}

fknpk<ϵ\left| \frac{f_k}{n} - p_k \right| < \epsilon 时,按如下定义第 kk 组的宽度 Δk\Delta_k

Δk=bk+1bk,k=1,2,,B.\begin{equation*} \Delta_k = b_{k+1} - b_k,\quad k = 1, 2,\dots , B. \end{equation*}

注意到,第 kk 组之中的任意数据 xx 与其组中值 x~k\widetilde x_k 间的误差有如下上界,

xx~k=xbk+bk+12bk+1bk2=12Δk\begin{equation*} \left| x - \widetilde x_k \right| = \left| x - \frac{b_k + b_{k+1}}{2} \right| \leq \frac{b_{k+1} - b_k}{2} = \frac{1}{2} \Delta_k \end{equation*}

定义宽度上界 Δmax\Delta_{\max} 以及数据点绝对值的上界 AA

Δmax=max1kB{Δk},A=max1kB{x~k}\begin{equation*} \Delta_{\max} = \max_{1 \leq k \leq B}\{ \Delta_k \}, \quad A = \max_{1 \leq k \leq B}\{|\widetilde{x}_{k}|\} \end{equation*}

此时有,

E(X)xˉB=xdF(x)k=1Bfknx~kk=1Bbkbk+1xdF(x)fknx~kk=1Bbkbk+1(xx~k)dF(x)+ϵk=1Bx~kk=1B(bkbk+1xx~kdF(x))+ϵk=1Bx~kk=1B12Δk(F(bk+1)F(bk))+ϵk=1Bx~k=k=1B12Δkfkn+ϵk=1Bx~k12Δmaxk=1Bfkn+ϵk=1BA=12Δmax+ϵAB\begin{align*} \left|\mathbb{E}(X) - \bar{x}_{B}\right| &= \left| \int_{-\infty}^{\infty} x \, \mathrm{d}F(x) - \sum_{k=1}^{B} \frac{f_k}{n} \widetilde{x}_k \right| \leq \sum_{k=1}^{B} \left| \int_{b_k}^{b_{k+1}} x \, \mathrm{d}F(x) - \frac{f_k}{n} \widetilde{x}_k \right| \\ &\leq \sum_{k=1}^{B} \left| \int_{b_k}^{b_{k+1}} (x - \widetilde{x}_k) \, \mathrm{d}F(x) \right| + \epsilon \sum_{k=1}^{B} |\widetilde{x}_k| \\ &\leq \sum_{k=1}^{B} \left( \int_{b_k}^{b_{k+1}} |x - \widetilde{x}_k| \, \mathrm{d}F(x) \right) + \epsilon \sum_{k=1}^{B} |\widetilde{x}_k| \\ &\leq \sum_{k=1}^{B} \frac{1}{2} \Delta_k \cdot \left( F(b_{k+1}) - F(b_k) \right) + \epsilon \sum_{k=1}^{B} |\widetilde{x}_k| \\ &= \sum_{k=1}^{B} \frac{1}{2} \Delta_k \cdot \frac{f_k}{n} + \epsilon \sum_{k=1}^{B} |\widetilde{x}_k| \leq \frac{1}{2} \Delta_{\max} \cdot \sum_{k=1}^{B} \frac{f_k}{n} + \epsilon \sum_{k=1}^{B} A \\ &= \frac{1}{2} \Delta_{\max} + \epsilon A B \end{align*}

其中,上式第二行是因为:

fknpk=fkn(F(bk+1)F(bk))=fknbkbk+11dF(x)<ϵ\begin{equation*} \left| \frac{f_k}{n} - p_k \right| = \left| \frac{f_k}{n} - \left( F(b_{k+1}) - F(b_k) \right) \right| = \left| \frac{f_k}{n} - \int_{b_k}^{b_{k+1}} 1 \, \mathrm{d}F(x) \right| < \epsilon \end{equation*}

ϵ=Δmax4(AB+1),σ=Δmax\begin{equation*} \epsilon = \frac{\Delta_{\max}}{4(AB+1)},\quad \sigma = \Delta_{\max} \end{equation*}

E(X)xˉB12Δmax+ϵAB=12Δmax+ΔmaxAB4(AB+1)34Δmax\begin{equation*} |\mathbb{E}(X)-\bar{x}_{B}| \leq \frac{1}{2}\Delta_{\max}+\epsilon A B = \frac{1}{2}\Delta_{\max} + \frac{\Delta_{\max}AB}{4(AB+1)} \leq \frac{3}{4} \Delta_{\max} \end{equation*}

由于

limBΔmax(B)=0\begin{equation*} \lim_{B \rightarrow \infty} \Delta_{\max}(B) = 0 \end{equation*}

因此 B0>0\exists B_0 > 0,使得对 B>B0\forall B > B_0,有 Δmax<δ\Delta_{\max} < \delta

E(X)xˉB34Δmax34δ\begin{equation*} |\mathbb{E}(X)-\bar{x}_{B}| \leq \frac{3}{4} \Delta_{\max} \leq \frac{3}{4} \delta \end{equation*}

P((E(X)xˉBδ)(fknpk<ϵ))=0\begin{align*} P\left( \left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) \mid \left( \left| \frac{f_k}{n} - p_k \right| < \epsilon \right) \right) = 0 \end{align*}

代回原式可得,

P(E(X)xˉBδ)σ+P((E(X)xˉBδ)(fknpk<ϵ))=σ+0=Δmax\begin{align*} P\left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) &\leq \sigma + P\left( \left( \left| \mathbb{E}(X) - \bar{x}_B \right| \geq \delta \right) \mid \left( \left| \frac{f_k}{n} - p_k \right| < \epsilon \right) \right) \\ &= \sigma + 0 = \Delta_{\max} \end{align*}

至此,实现了 Δmax\Delta_{\max} 对逼近误差的控制。

综上,当样本中 分组充分多B>B0B > B_0)、分组充分细Δmax\Delta_{\max}充分小)、数据点充分多n>NBn > N_B)的情况下,可以实现 xˉB\bar{x}_BE(X)\mathbb{E}(X) 的充分逼近。


数理统计-国庆作业
http://dbqdss.github.io/2024/10/06/数理统计/数理统计-国庆作业/
作者
DBQDSS
发布于
2024年10月6日
许可协议