统计

线性回归与最小二乘法

学习如何使用最小二乘法拟合最佳拟合线。理解相关系数、残差以及如何解读回归分析结果。

V
Vectora 团队
STEM 教育
11 分钟阅读
2026-04-10

什么是线性回归?

线性回归是一种统计方法,用于找到最能拟合一组数据点的直线。所谓「最佳」直线,是使每个数据点到直线的距离的平方和最小的那条线——即最小二乘准则。

它回答的问题是:给定一组 (x,y)(x, y) 数据,什么样的线性关系 y=a+bxy = a + bx 最好地描述了数据的趋势?

回归分析实验室

添加、拖动和删除数据点,实时观察最小二乘拟合线的变化。观察异常值如何影响斜率、截距和 R² 值。
启动实验室

学习目标:学完本指南后,你应该能够:

  1. 从数据中计算最小二乘回归线的方程。
  2. 在具体情境中解读斜率和截距的含义。
  3. 理解并计算相关系数 rrR2R^2
  4. 使用残差评估模型的拟合效果。

最小二乘回归线

对于 nn 个数据点 (x1,y1),(x2,y2),,(xn,yn)(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n),最佳拟合线为:

y^=a+bx\hat{y} = a + bx

其中斜率 bb截距 aa 为:

b=nxiyixiyinxi2(xi)2b = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{n\sum x_i^2 - \left(\sum x_i\right)^2} a=yˉbxˉa = \bar{y} - b\bar{x}

这里 xˉ\bar{x}yˉ\bar{y} 分别是 xxyy 的平均值。

关键性质:回归线总是过点 (xˉ,yˉ)(\bar{x}, \bar{y})


相关系数

皮尔逊相关系数 rr 衡量线性关系的强度和方向:

r=nxiyixiyi(nxi2(xi)2)(nyi2(yi)2)r = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{\sqrt{\left(n\sum x_i^2 - (\sum x_i)^2\right)\left(n\sum y_i^2 - (\sum y_i)^2\right)}}
rr 的值解读
r=1r = 1完全正线性关系
0.7<r<10.7 < r < 1强正相关
0<r<0.70 < r < 0.7弱到中度正相关
r=0r = 0无线性相关
r<0r < 0负相关(类推对应范围)

决定系数 R2=r2R^2 = r^2 表示模型解释了 yy 的变异中的比例。


典型例题

数据: (1,2), (2,4), (3,5), (4,4), (5,5)(1, 2),\ (2, 4),\ (3, 5),\ (4, 4),\ (5, 5)

步骤 1: 计算各和:x=15\sum x = 15y=20\sum y = 20xy=67\sum xy = 67x2=55\sum x^2 = 55n=5n = 5

步骤 2: 斜率:b=5(67)15(20)5(55)152=335300275225=3550=0.7b = \frac{5(67) - 15(20)}{5(55) - 15^2} = \frac{335 - 300}{275 - 225} = \frac{35}{50} = 0.7

步骤 3: 截距:xˉ=3\bar{x} = 3yˉ=4\bar{y} = 4,所以 a=40.7×3=1.9a = 4 - 0.7 \times 3 = 1.9

答案: y^=1.9+0.7x\hat{y} = 1.9 + 0.7x


残差

残差是观测值与预测值的差:

ei=yiy^ie_i = y_i - \hat{y}_i
  • 正残差:数据点在拟合线上方
  • 负残差:数据点在拟合线下方
  • 如果模型拟合良好,残差应在零附近随机分散,无明显规律

常见错误

  1. 超出数据范围外推 —— 回归线仅在数据范围内可靠。将预测大幅延伸到数据范围之外是不可靠的。
  2. 将相关性等同于因果性 —— 强 rr 值只表示两个变量有线性关联,并不意味着一个导致了另一个。
  3. 对非线性数据使用线性模型 —— 始终先画散点图。如果散点图显示弯曲趋势,线性模型就是不合适的。

考试技巧(高考 / AP / IB / A-Level)

  • 快速检验:斜率 bbrr 的正负号必须相同。
  • 回答情境题时,务必解释斜率的实际含义:「xx 每增加一个单位,yy 平均增加/减少 bb 个单位。」
  • 回答预测可靠性时,说明预测的 xx 值是否在数据范围内(内插)还是范围外(外推)。

常见问题

什么时候用 yyxx 回归,什么时候用 xxyy 回归?

当你要用已知的 xx 预测 yy 时,用 y^=a+bx\hat{y} = a + bx。当你要用已知的 yy 预测 xx 时,用 xxyy 回归。两条回归线通常是不同的,除非 r=±1r = \pm 1

数据中有异常值怎么办?

异常值可能会剧烈影响回归线。应判断该异常值是真实数据还是错误记录。为保证透明性,可分别报告包含和排除异常值的结果。


相关主题

  • 概率分布 —— 正态分布是许多回归假设的基础。
  • 数列与级数 —— 求和符号是回归公式的语言工具。
  • 导数的应用 —— 最小二乘法的推导本质上是利用微积分求函数极值。

参考资料与延伸阅读

本文由 Vectora 编辑团队创作,内容参照中国高中及大学理科课程标准编写,基于化学、物理、生物及数学领域的权威学术资料。

发布日期: 2026-04-10

如有错误或建议,请联系 support@vectora.one.