日常生活中,我们常会比较两种方法的差异。但是,这个差异是由于随机波动造成的,还是确有实质的区别?统计显著性检验可以帮我们回答这个问题。举例:
- 某种药物试验,给第一组 50 名患者使用被试药物,其中 15 名患者病情有改善;给第二组 50 名患者吃安慰剂,其中 10 名患者病情有改善。
- 掷某枚硬币 1000 次,其中正面朝上结果 490 次;掷另一枚硬币 1000 次,其中正面朝上结果 530 次。
- 某学生参加考试,该考试为 100 道题,每题一分。第一次考试得 70 分;经过补习后,再次考试得了 75 分。
- 某大语言模型,使用一套提示词,多次尝试回答一个问题(例如:How any
r
s are in the wordstrawberry
?),回答正确率为 70%;经修改提示词(例如:要求模型先拼写一遍再回答)后,正确率提升至 73%。 - 某 app 作者声称其用户中付费的比例高达 20%。你随机抽取了 1000 名用户记录,发现仅有 18% 为付费用户。那么作者夸大了付费用户的比例吗?
怎样知道这些差异在统计学上是否“显著”呢?
最近阅读了 Mukund Sundararajan 博士的《An Eye for AI》一书。书中描述了一种通过类似 Z-test 的简化方法评判的标准。其实 Z-test 方法应该在大学时的“概率统计”或“数学试验”课上学过,但是因为常年不用,已经忘了。
现将简化的 Z-test 描述如下:
进行某种试验,每次试验结果都是独立、同分布的,其结果要么为 0、要么为 1(二项分布)。总共进行 \(n\) 次试验的结果平均为 \(m\)(\(0 \leq m \leq 1\))。根据 Z-test 原理进行推导计算,可得知其 95% 置信度的区间大致为 \( \pm \frac{1}{\sqrt{n}} \)。这个估算假设真实比例 \(m\) 接近 0.5,估算出的置信区间偏保守。但是,利用它来判断“是否可能是随机误差”很方便。
试验次数与置信区间的关系为:
\(n\) | 95% 置信区间大致宽度 |
---|---|
1 | \(\pm\) 1 |
10 | \(\pm\) 0.316 |
50 | \(\pm\) 0.141 |
100 | \(\pm\) 0.1 |
500 | \(\pm\) 0.045 |
1000 | \(\pm\) 0.032 |
5000 | \(\pm\) 0.014 |
10000 | \(\pm\) 0.01 |
利用这一理论知识,前面的几个问题就很容易得到答案了。
- 药物试验重复 50 次 (\(n\) = 50),95% 置信区间为 ±0.141。试验组的有效率为 15/50 = 0.3,对照组的有效率为 10/50 = 0.2。二者差异为 0.1,小于 0.141,因此二者在 95% 置信区间内不具有显著性差异。换言之,从试验数据中观测到的差异不足以证明药物与安慰剂的效果显著不同(置信度 95%)。注意,这种方法虽然简便,但不如双比例 Z-test 严谨。
- 掷硬币 1000 次 (\(n\) = 1000),95% 置信区间为 ±0.032;两枚硬币的试验结果分别为 0.49 与 0.53 的差异为 0.04,超过了 0.032,因此两枚硬币在 95% 置信区间内具有显著性差异。换言之,我们可以拒绝“两枚硬币具有相同正面概率”的假设,显著性水平为 0.05。
- 此问题相当于 100 次重复试验 (\(n\) = 100),第一次考试 0.70,第二次考试 0.75,差异不超过 ±0.1,此差异在 95% 置信区间内不具有显著性。也就是说,在显著性水平 0.05 下,我们没有发现统计显著的证据表明该考生有所进步。当然,实际考试中,不同题目考查的知识点可能是相关的,因此严格来说,并不符合“独立同分布”的假设。另外,如果题目数量改为 25 题、每题 4 分非对即错,那么要把 \(n\) 改成 25,此时的 95% 置信区间应为 ±0.2。
- 此问题相当于 100 次重复试验 (\(n\) = 100),第一种提示词 0.70,第二种提示词 0.73,差异不超过 ±0.1,因此在 95% 置信区间内不具有显著性差异。换言之,修改提示词后,我们没有发现统计显著的证据表明模型的表现有所改善。
- 根据上面的计算,抽样 1000 个用户 (\(n\) = 1000),只有差异达到 ±3.2 个百分点时才表明此差异有显著性(显著性水平 0.05)。因此,虽然抽到的数据 18% 低于作者声称的 20%,但这个差异在统计上并不显著。这种差异有可能是由于随机抽样波动造成的,并不能以 95% 的置信度断言作者骗人了。
补充说明:对于比较两个比例(如:药物 A 与药物 B 的有效率),进行双样本比例 Z-test 更严格的方法如下:
首先计算联合标准误差 \(SE\):$$ SE = \sqrt{ \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2} } $$
然后计算 \(Z\) 值和 \(p\) 值:$$ Z = \frac{p_1 - p_2}{SE} , \quad p = \text{P}(|Z| > z_{\text{obs}}) $$
所得 \(Z\) 值越大,说明两组比例之间的差异越不可能是由于随机波动导致。\(p\) 值与 \(Z\) 值 的对应关系可通过查询“标准正态分布表”得到。 \(p\) 值的物理意义可以理解为“若两组其实没有区别的情况下,观察到如此差异的概率”。如果这个概率 \(p\) 小于 0.05,我们就认为“观察到的差异具有统计显著性”。前文为了便于直观理解,采用了 \( \pm \frac{1}{\sqrt{n}} \) 这个近似的置信区间做初步判断,仅适合粗略的估计。
comments powered by Disqus