vlambda博客
学习文章列表

“万能钥匙”Bootstrap方法介绍2

上节介绍了Bootstrap方法的基本原理,本节介绍如何使用Bootstrap 方法构造置信区间。对于未知参数 ,其点估计量为 。现要求参数 的置信区间。

Bootstrap-t置信区间

对于置信区间构造,最常用的方法是枢轴量方法。现考虑统计量

这里 是统计量 的方差的估计。

可看作是近似的枢轴量。令 表示其分布函数,而 表示其 分位数。如果 已知,则 置信区间为:

如上节所指,很多时候统计量的精确分布或者渐近分布难以获取,此时考虑 的Bootstrap近似。实际上,经过 次Bootstrap抽样,可以得到 的Bootstrap复制,即

从而 近似为

的样本分位数即可作为 分位数的近似。

具体地,将 个Bootstrap复制自小到大进行排序,即

可近似为 。这里

因此,Bootstrap-t置信区间定义为

百分位置信区间

假设经过Bootstrap抽样,得到了 的Bootstrap复制,即 。将它们从小到大排序,得:

Bootstrap百分位置信区间定义为

简要证明

假设存在单调变换 ,使得 要求 。这里并不要求 是正态分布,也不要求明确知道变换 的具体形式。若 已知,则可得 置信区间:

实际中 形式可能均是未知的,百分位置信区间方法表明可以用Bootstrap复制的样本分位数对上述置信端点进行近似。

具体地,令,则有

第一个等式中 是在Bootstrap抽样下计算概率。由于 是样本分位点,故第一个等式成立。最后一个等式成立则由于Bootstrap抽样得到的分布是真实分布的近似。

因此。由此得到:

在上述证明中,假定 的单调变换的分布对称。这一假定通常在渐近意义下成立。一个典型的例子是样本皮尔逊相关系数的Fisher z变换,变换后的分布渐近对称。

上述两种方法的优缺点

百分位置信区间非常易于操作。只要取Bootstrap复制的经验分位点即可。而Bootstrap-t置信区间相对复杂一些。对于参数 的估计 ,要求能够明确其方差的形式且能够利用数据估计 。一般来讲,后者精度相对高些。

对于Bootstrap-t置信区间,若 恒取为常数1,则Bootstrap-t置信区间退化为

这也被称为枢轴量置信区间或者Hybrid-Bootstrap置信区间。

使用Bootstrap方法对皮尔逊相关系数构造置信区间

在之前的文章中,我们介绍过如何使用中心极限定理和Fisher z变换对皮尔逊相关系数构造置信区间。但在二元t(5)分布下,这两种方法的覆盖概率都不是很高。现在考虑Bootstrap百分位置信区间。结果如下:

从此表容易看出,Bootstrap方法的经验覆盖概率更加接近预设的95%。

Matlab代码如下:

function [leng cv]=corrboot(n,rho) re=400;for i=1:1000 i sigma=rho*ones(2)+(1-rho)*eye(2); xy=mvtrnd(sigma,5,n);  for l=1:re temp=unidrnd(n,1,n); xy_star=xy(temp(1:n),:); xstar=xy_star(:,1); ystar=xy_star(:,2); rhostar(l)=corr(xstar,ystar,'type','pearson'); end rhostar=sort(rhostar); lowb=rhostar(0.025*re); uppb=rhostar(0.975*re);  Lengs(i)=uppb-lowb; cvpro(i)=(rho>=lowb)&(rho<=uppb); end leng=[mean(Lengs)], cv=[mean(cvpro)],