置信区间、置信水平、边际误差

置信区间、置信水平、边际误差

假设

真实比例为 p,取值范围为 0∼1,观测到的比例(如抽样)的比例为 p^(在统计理论中通常使用“帽子”也标志某数据的估值)边际误差为 ϵ

所要求解的问题是:真实的比例 p 落在置信区间 [p^−ϵ,p^+ϵ] 的概率。

落在置信区间的标准通用采用 95%,这一数字被称为置信水平,表达我们对 p 成功落入区间的信息程度。

区间公式通过以下求解:

p=p^±1.96×p^(1−p^)n−−−−−−−−√=p^±ϵ

也可根据边际误差推测样本容量n表示样本中的个体数量公式表示未知的真实比例 p 有 95% 的概率落入 p^±ϵ,也就是说,每 20 个这样的区间,平均有 19 个区间中有 p,只有 1 个不在区间中。

值得注意的是,边际误差 ϵ 会随着样本容量的增加而减小,因此,访问的民众越多,民调就越可信。

95%⇒1.9699%⇒2.58

来看一个具体的示例,对 1000 人进行民调,有 400 人支持总统。p^=0.4,n=1000,将其带入公式,置信区间就变为:

p=p^±1.96p^(1−p^)n−−−−−−−−√=0.4±0.03

许多民调的边际误差都保持在 3% 左右,这并非巧合。置信水平为 95%,则系数为 1.96,如果观测比例 p^ 与 0.5 接近,比如在 0.3 和 0.7 之间,p^(1−p^)的平方根大约为 0.5。而 1.96 约等于 2,两者相乘的结果大概是 1,边际误差就约为 1n√:

ϵ=1n−−√

假设样本容量约为典型的 1000,边际误差就是 3%(11000√≈0.03).

1. 具有欺骗性质的统计数据

如果在一项民调中,50.5%的人表达了对加入欧盟的支持。也即为了得出此结论,必须将边际误差降到 0.5%(下界不会跌破 50%),导致置信水平只有 25%.

这里的样本人数仍为 1000,则置信水平在 0.25 时的 Z 为 0.32,则其边际误差为:

0.32⋅0.51000−−−−√≈0.005

另一个没有代表性的样本例子是假设你在你家附近做晚间散步,发现你看到的 20 人里有 14 个人都在遛狗,可以得出 70% 的邻居都养狗了吗?

1.96×0.7×0.320−−−−−−−−√≈0.2008

再来看一个典型的案例,2005 年秋天,媒体报道小布什总统的支持率首次跌破 40%(好像这个 40% 是一个十分精确的数值一样)。从某种程度上是毫无意义的声明。虽然(抽样调查的)事实可能是前次民调显示支持率为 41%,下次结果则为 39%,这些数字的边际误差都是 3%,若建立其相关的置信区间,在部分区间上数值是重复的。没有边际误差的 41% 和 39% 不能说明一切,只有被我们表述为区间 [38, 44](41%),[36, 42](39%)时才有意义。不仅如此,我们也不能排除两次民调间支持率其实是存在上升的情况。

只有当差异大到完全超过边际误差(区间没有重叠)时,才能被称为具有统计显著性。

相关作品

中国鸟类列表
(0755) 3656 3788

中国鸟类列表

📅 07-07 👀 6474
【启明星辰】这个公司怎么样?
365bet体育网址

【启明星辰】这个公司怎么样?

📅 07-18 👀 1695
kiddy和concord安全座椅哪个好
日博365客服电话

kiddy和concord安全座椅哪个好

📅 07-03 👀 2043