$t$ 检验是用 $t$ 分布理论来推论差异发生的概率, 从而比较两个平均数的差异昰否明显的统计方法。如接受新药治疗的㤟者的康复情况是否比使用传统药物的思者更好? 杂交作物的产量是否比传统作物的产量高? $t$ 检验可根据样本对象的不同分为单样本检验、双样本检验。
例 抽样调查孟山都作物的产量为 $2531 \mathrm{~kg} /$ 亩、 $2659 \mathrm{~kg} /$ 亩、 $2487 \mathrm{~kg} /$ 亩、 $2398 \mathrm{~km} /$ 亩、2 $771 \mathrm{~kg} /$ 宙,问孟山都作物的产是是否高于传统作物?
可以用 R 语言中的 t.test()
函数解决以上问题:
data = c(2531,2659,2487,2398,2771)
t.test(data,mu=2400,alternative='greater')
结果为:
One Sample t-test
data: data
t = 2.5756, df = 4, p-value = 0.03081
alternative hypothesis: true mean is greater than 2400
95 percent confidence interval:
2429.151 Inf
sample estimates:
mean of x
2569.2
上例中采用了单侧检验, 备择假设是“孟山都作物产量高于传统作物”, $t$ 检验返回的结果 $\mathrm{p}$ 值为 $0.03$, 结论是拒绝零假设 (p-value $<0.05$ ), 接受备择假设, 表明孟山都作物的产量要高于传统作物。
在本例中, 如果使用双侧检验, 备择假设是“孟山都作物产量不等于传统作物”, $t$ 检验得到的 $\mathrm{p}$ 值为 $0.06(\mathrm{p}$-value $>0.05)$, 不能拒绝零假设, 没有足够证据表明孟山都作物的产量与传统作物产量有统计学显著差异。在数据分析实践中, 要根据具体情况和已有信息选择单侧检验还是双侧检验。
双样本 $t$ 检验是通过两个样本的均值差异来检验其各自所代表的总体均值的差异是否 显著, 根据两组样本是否独立可分为独立双样本 $t$ 检验和配对双样本 $t$ 检验。
(1) 独立双样本 $t$ 检验
例 科学家对传统农作物进行两个不同方向的突变以提高农作物产量, 突变 A 的产量抽样结果为 $2405 、 2378 、 2254 、 2471 、 2390$; 突变 B 的产量抽样结果为 $2531 、 2659$ 、$2487、2398、2771$ (单位均为 $\mathrm{kg}$ 亩), 请问突变 $\mathrm{A}$ 和突变 $\mathrm{B}$ 导致作物产量的差异是否显著?
突变 $\mathrm{A}$ 和突变 $\mathrm{B}$ 产生的两组数据亳无相关性, 因此这两组样本称为独立样本。两个独立样本对应的总体平均值差异是否显著这一问题也可以通过 t.test()
函数解决。
data1 = c(2405,2378,2254,2471,2390)
data2 = c(2531,2659,2487,2398,2771)
t.test(x=data1,y=data2,alternative = 'two.sided')
结果
Welch Two Sample t-test
data: data1 and data2
t = -2.5428, df = 6.1295, p-value = 0.04311
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-371.123009 -8.076991
sample estimates:
mean of x mean of y
2379.6 2569.2
检验结果得到 $\mathrm{p}$ 值为 $0.043$, 拒绝“突变 $\mathrm{A}$ 的农作物和突变 $\mathrm{B}$ 的农作物产量不存在差 异”的零假设 $(\mathrm{p}$-value $<0.05)$ 。
(2) 配对双样本 $t$ 检验
当样本与样本之间存在成对的相关性, 要探究样本对应的总体均值的差异需要用眪对 双样本 $t$ 检验。例如, 糖尿病患者治疗前和治疗后的血糖含量可视为一对成对样本, 配对双 样本对应的总体均值的差异也可以通过 t.test()
函数实现, 调用格式同独立双样本 $t$ 检验, 只需添加参数 paired=TRUE
即可。
摘自:
data = c(2531,2659,2487,2398,2771)
t.test(data,mu=2400,alternative='greater')
One Sample t-test data: data t = 2.5756, df = 4, p-value = 0.03081 alternative hypothesis: true mean is greater than 2400 95 percent confidence interval: 2429.151 Inf sample estimates: mean of x 2569.2
data1 = c(2405,2378,2254,2471,2390)
data2 = c(2531,2659,2487,2398,2771)
t.test(x=data1,y=data2,alternative = 'two.sided')
Welch Two Sample t-test data: data1 and data2 t = -2.5428, df = 6.1295, p-value = 0.04311 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -371.123009 -8.076991 sample estimates: mean of x mean of y 2379.6 2569.2