回归分析指南

全面的回归分析指南。学习线性回归的原理、如何解读斜率和截距、R²决定系数及模型评估方法。

什么是回归分析?

回归分析是一种用于建模因变量(也称响应变量或结果变量)与一个或多个自变量(也称预测变量或解释变量)之间关系的统计方法。目标是找到描述自变量如何影响因变量的最佳拟合数学方程。最简单的形式是简单线性回归,它建模一个预测变量和一个响应变量之间的直线关系。回归分析广泛用于经济学、生物学、工程学、社会科学和商业中的预测、预报和理解因果关系。

简单线性回归

简单线性回归将形如y = b0 + b1*x的直线拟合到一组数据点。系数b0是y截距,代表x为零时y的预测值。系数b1是斜率,代表x每增加一个单位时y的变化。这些系数使用最小二乘法估算,该方法最小化观测数据点与拟合线之间垂直距离的平方和。最小二乘公式为b1 = sum((xi - x̄)(yi - ȳ)) / sum((xi - x̄)²)和b0 = ȳ - b1 × x̄,其中x̄和ȳ分别是x和y的样本均值。

解读斜率和截距

斜率b1告诉您线性关系的方向和强度。正斜率表示y随x增加而增加;负斜率表示y随x增加而减少。斜率的大小表示x每变化一个单位时y变化多少。例如,如果建模学习时间(x)和考试成绩(y)的关系,斜率为5.2,则每增加一小时学习时间与考试成绩增加5.2分相关。截距b0是x等于零时y的预测值。在许多情况下,截距可能没有有意义的解释,但它仍然需要正确锚定直线。

R平方:衡量模型拟合度

决定系数R²衡量回归模型解释的因变量变异性的比例。R²的范围从0到1。R² = 0.85意味着y中85%的变异可以由与x的线性关系解释,而剩余15%是由其他因素或随机变异引起的。较高的R²表示更好的拟合,但它不能证明因果关系,也不应是评估模型的唯一标准。在多元回归中,调整后R²更优,因为它对添加不能有意义改善模型的预测变量进行惩罚。

残差和诊断

残差是观测值与回归模型预测值之间的差:残差 = 观测y - 预测y。残差分析对评估回归假设是否满足至关重要。关键假设包括线性(x和y之间的关系是线性的)、独立性(残差彼此独立)、同方差性(残差在x的所有水平上具有恒定方差)和正态性(残差近似正态分布)。将残差与预测值作图应显示随机散布,没有可辨别的模式。曲线、漏斗或聚集等模式表明假设违反。

多元回归

多元回归将简单线性回归扩展到包含两个或更多预测变量:y = b0 + b1*x1 + b2*x2 + ... + bp*xp。每个系数代表在保持所有其他预测变量不变的情况下,对应预测变量每增加一个单位时y的变化。多元回归允许您控制混杂变量并评估每个预测变量的独立效应。然而,多重共线性(预测变量之间的高相关性)可能膨胀标准误差并使个别系数不可靠。方差膨胀因子(VIF)常用于诊断多重共线性。

何时使用回归分析

当您想基于一个或多个预测变量预测连续结果变量,或想量化变量之间关系的强度和方向时,回归分析是合适的。它广泛用于预测(从广告支出预测未来销售)、因果推断(在控制协变量的同时估计治疗效果)和趋势分析。当关系明显非线性时回归不适用(除非变换变量或使用多项式回归),当结果是分类的时(改用逻辑回归),或样本量太小无法产生可靠估计时。

相关计算器