“万能钥匙”Bootstrap方法介绍2
上节介绍了Bootstrap方法的基本原理,本节介绍如何使用Bootstrap 方法构造置信区间。对于未知参数 ,其点估计量为 。现要求参数 的置信区间。
Bootstrap-t置信区间
对于置信区间构造,最常用的方法是枢轴量方法。现考虑统计量
这里 是统计量 的方差的估计。
可看作是近似的枢轴量。令 表示其分布函数,而 表示其 分位数。如果 已知,则 的 置信区间为:
如上节所指,很多时候统计量的精确分布或者渐近分布难以获取,此时考虑 的Bootstrap近似。实际上,经过 次Bootstrap抽样,可以得到 个 的Bootstrap复制,即
从而 近似为
的样本分位数即可作为 分位数的近似。
具体地,将 的 个Bootstrap复制自小到大进行排序,即
则 和 可近似为 和 。这里 。
因此,Bootstrap-t置信区间定义为
百分位置信区间
假设经过Bootstrap抽样,得到了 个 的Bootstrap复制,即 。将它们从小到大排序,得:
Bootstrap百分位置信区间定义为
简要证明
假设存在单调变换 ,使得 要求 。这里并不要求 是正态分布,也不要求明确知道变换 的具体形式。若 和 已知,则可得 的 置信区间:
实际中 和 形式可能均是未知的,百分位置信区间方法表明可以用Bootstrap复制的样本分位数对上述置信端点进行近似。
具体地,令,则有
第一个等式中
是在Bootstrap抽样下计算概率。由于
是样本分位点,故第一个等式成立。最后一个等式成立则由于Bootstrap抽样得到的分布是真实分布的近似。
因此。由此得到:
在上述证明中,假定 的单调变换的分布对称。这一假定通常在渐近意义下成立。一个典型的例子是样本皮尔逊相关系数的Fisher z变换,变换后的分布渐近对称。
上述两种方法的优缺点
百分位置信区间非常易于操作。只要取Bootstrap复制的经验分位点即可。而Bootstrap-t置信区间相对复杂一些。对于参数 的估计 ,要求能够明确其方差的形式且能够利用数据估计 。一般来讲,后者精度相对高些。
对于Bootstrap-t置信区间,若 恒取为常数1,则Bootstrap-t置信区间退化为
这也被称为枢轴量置信区间或者Hybrid-Bootstrap置信区间。
使用Bootstrap方法对皮尔逊相关系数构造置信区间
在之前的文章中,我们介绍过如何使用中心极限定理和Fisher z变换对皮尔逊相关系数构造置信区间。但在二元t(5)分布下,这两种方法的覆盖概率都不是很高。现在考虑Bootstrap百分位置信区间。结果如下:
从此表容易看出,Bootstrap方法的经验覆盖概率更加接近预设的95%。
Matlab代码如下:
function [leng cv]=corrboot(n,rho)
re=400;
for i=1:1000
i
sigma=rho*ones(2)+(1-rho)*eye(2);
xy=mvtrnd(sigma,5,n);
for l=1:re
temp=unidrnd(n,1,n);
xy_star=xy(temp(1:n),:);
xstar=xy_star(:,1);
ystar=xy_star(:,2);
rhostar(l)=corr(xstar,ystar,'type','pearson');
end
rhostar=sort(rhostar);
lowb=rhostar(0.025*re);
uppb=rhostar(0.975*re);
Lengs(i)=uppb-lowb;
cvpro(i)=(rho>=lowb)&(rho<=uppb);
end
leng=[mean(Lengs)], cv=[mean(cvpro)],