回归分析指南

全面的回归分析指南。学习线性回归的原理、如何解读斜率和截距、R²决定系数及模型评估方法。

什么是回归分析？

回归分析是一种用于建模因变量（也称响应变量或结果变量）与一个或多个自变量（也称预测变量或解释变量）之间关系的统计方法。目标是找到描述自变量如何影响因变量的最佳拟合数学方程。最简单的形式是简单线性回归，它建模一个预测变量和一个响应变量之间的直线关系。回归分析广泛用于经济学、生物学、工程学、社会科学和商业中的预测、预报和理解因果关系。

简单线性回归

简单线性回归将形如y = b0 + b1*x的直线拟合到一组数据点。系数b0是y截距，代表x为零时y的预测值。系数b1是斜率，代表x每增加一个单位时y的变化。这些系数使用最小二乘法估算，该方法最小化观测数据点与拟合线之间垂直距离的平方和。最小二乘公式为b1 = sum((xi - x̄)(yi - ȳ)) / sum((xi - x̄)²)和b0 = ȳ - b1 × x̄，其中x̄和ȳ分别是x和y的样本均值。

解读斜率和截距

斜率b1告诉您线性关系的方向和强度。正斜率表示y随x增加而增加；负斜率表示y随x增加而减少。斜率的大小表示x每变化一个单位时y变化多少。例如，如果建模学习时间(x)和考试成绩(y)的关系，斜率为5.2，则每增加一小时学习时间与考试成绩增加5.2分相关。截距b0是x等于零时y的预测值。在许多情况下，截距可能没有有意义的解释，但它仍然需要正确锚定直线。

R平方：衡量模型拟合度

决定系数R²衡量回归模型解释的因变量变异性的比例。R²的范围从0到1。R² = 0.85意味着y中85%的变异可以由与x的线性关系解释，而剩余15%是由其他因素或随机变异引起的。较高的R²表示更好的拟合，但它不能证明因果关系，也不应是评估模型的唯一标准。在多元回归中，调整后R²更优，因为它对添加不能有意义改善模型的预测变量进行惩罚。

残差和诊断

残差是观测值与回归模型预测值之间的差：残差 = 观测y - 预测y。残差分析对评估回归假设是否满足至关重要。关键假设包括线性（x和y之间的关系是线性的）、独立性（残差彼此独立）、同方差性（残差在x的所有水平上具有恒定方差）和正态性（残差近似正态分布）。将残差与预测值作图应显示随机散布，没有可辨别的模式。曲线、漏斗或聚集等模式表明假设违反。

多元回归

多元回归将简单线性回归扩展到包含两个或更多预测变量：y = b0 + b1*x1 + b2*x2 + ... + bp*xp。每个系数代表在保持所有其他预测变量不变的情况下，对应预测变量每增加一个单位时y的变化。多元回归允许您控制混杂变量并评估每个预测变量的独立效应。然而，多重共线性（预测变量之间的高相关性）可能膨胀标准误差并使个别系数不可靠。方差膨胀因子（VIF）常用于诊断多重共线性。

何时使用回归分析

当您想基于一个或多个预测变量预测连续结果变量，或想量化变量之间关系的强度和方向时，回归分析是合适的。它广泛用于预测（从广告支出预测未来销售）、因果推断（在控制协变量的同时估计治疗效果）和趋势分析。当关系明显非线性时回归不适用（除非变换变量或使用多项式回归），当结果是分类的时（改用逻辑回归），或样本量太小无法产生可靠估计时。