假设检验指南

逐步学习假设检验的方法。涵盖零假设和备择假设、检验统计量、p值、显著性水平和常用检验类型。

什么是假设检验？

假设检验是一种正式的统计程序，用于确定样本数据中是否有足够的证据来推断关于总体参数的特定声明为真。它提供了在不确定性下做出决策的结构化框架。过程从关于总体的声明或问题开始，例如"该药物的平均响应时间是否少于30分钟？"或"两种教学方法的考试成绩是否有差异？"假设检验是科学、医学、社会研究、质量控制和商业分析中使用最广泛的工具之一。

零假设和备择假设

每个假设检验都从定义两个竞争性陈述开始。零假设(H0)代表现状或没有异常情况的假设；它通常声明没有效果、没有差异或没有关系。备择假设(H1或Ha)代表您试图找到证据支持的声明；它声明存在效果、差异或关系。例如，H0可能是"总体均值等于50"，H1可能是"总体均值不等于50"。备择假设可以是双侧的（不等于）或单侧的（大于或小于），取决于研究问题。

检验统计量

检验统计量是从样本数据计算出的数值，它总结了观测结果与零假设预测的偏离程度。检验统计量的类型取决于被检验的参数和数据的假设。常见的检验统计量包括z统计量（总体标准差已知且样本较大时使用）、t统计量（总体标准差未知时使用）、卡方统计量（用于分类数据和拟合优度检验）和F统计量（用于方差分析和回归）。检验统计量的绝对值越大，反对零假设的证据越强。

p值和显著性水平

p值是在假设零假设为真的条件下，获得与观测到的统计量一样极端或更极端的检验统计量的概率。小的p值表明在零假设下观测数据不太可能出现，提供了反对零假设的证据。显著性水平(alpha)，通常设为0.05，是做出决策的阈值。如果p值小于或等于alpha，拒绝零假设并得出结果具有统计显著性的结论。如果p值大于alpha，未能拒绝零假设。重要的是，未能拒绝H0并不证明H0为真。

第一类和第二类错误

假设检验中可能发生两种类型的错误。第一类错误（假阳性）发生在您拒绝了实际为真的零假设时，其概率等于显著性水平alpha。第二类错误（假阴性）发生在您未能拒绝实际为假的零假设时，其概率记为beta，1减beta称为检验的统计功效。增加样本量可以在不增加第一类错误概率的情况下减少第二类错误的概率。研究人员在设计研究时必须平衡这两种类型的错误，通常使用功效分析来确定适当的样本量。

进行假设检验的步骤

按照以下步骤进行假设检验。第一，明确陈述零假设和备择假设。第二，选择显著性水平(alpha)，通常为0.05。第三，根据数据类型和假设选择适当的检验统计量。第四，收集数据并从样本计算检验统计量。第五，通过将检验统计量与其抽样分布进行比较来确定p值。第六，将p值与alpha进行比较并做出决策：如果p值小于或等于alpha则拒绝H0。第七，在原始问题的背景下解释结果，注意用证据而非证明的措辞来陈述结论。

常见的假设检验

几种标准假设检验在实践中经常使用。单样本t检验将样本均值与假设值进行比较。两样本t检验比较两个独立组的均值。配对t检验比较同一组在两个不同时间点的均值。卡方独立性检验评估两个分类变量是否相关。方差分析（ANOVA）比较三个或更多组的均值。相关性检验确定两个连续变量之间是否存在线性关系。每种检验都有自己的假设，如正态性、独立性和等方差性，应在应用检验前检查。

需要避免的常见陷阱

假设检验中最大的错误之一是将统计显著性与实际显著性混淆。非常大的样本可以对微不足道的小效应量产生统计显著结果。始终在p值旁报告效应量和置信区间。另一个陷阱是p-hacking——运行许多检验并只选择性报告显著结果的做法。通过在同时检验多个假设时使用Bonferroni校正等来避免多重比较问题。最后，始终在收集数据之前定义假设；在看到数据后制定的事后假设违反了检验框架的逻辑。