线性回归是一种统计方法,用于找到最能拟合一组数据点的直线。所谓「最佳」直线,是使每个数据点到直线的距离的平方和最小的那条线——即最小二乘准则。
它回答的问题是:给定一组 数据,什么样的线性关系 最好地描述了数据的趋势?
回归分析实验室
添加、拖动和删除数据点,实时观察最小二乘拟合线的变化。观察异常值如何影响斜率、截距和 R² 值。
启动实验室
学习目标:学完本指南后,你应该能够:
- 从数据中计算最小二乘回归线的方程。
- 在具体情境中解读斜率和截距的含义。
- 理解并计算相关系数 和 。
- 使用残差评估模型的拟合效果。
对于 个数据点 ,最佳拟合线为:
其中斜率 和截距 为:
这里 和 分别是 和 的平均值。
关键性质:回归线总是过点 。
皮尔逊相关系数 衡量线性关系的强度和方向:
| 的值 | 解读 |
|---|
| 完全正线性关系 |
| 强正相关 |
| 弱到中度正相关 |
| 无线性相关 |
| 负相关(类推对应范围) |
决定系数 表示模型解释了 的变异中的比例。
数据:
步骤 1: 计算各和:,,,,。
步骤 2: 斜率:
步骤 3: 截距:,,所以
答案:
残差是观测值与预测值的差:
- 正残差:数据点在拟合线上方
- 负残差:数据点在拟合线下方
- 如果模型拟合良好,残差应在零附近随机分散,无明显规律
- 超出数据范围外推 —— 回归线仅在数据范围内可靠。将预测大幅延伸到数据范围之外是不可靠的。
- 将相关性等同于因果性 —— 强 值只表示两个变量有线性关联,并不意味着一个导致了另一个。
- 对非线性数据使用线性模型 —— 始终先画散点图。如果散点图显示弯曲趋势,线性模型就是不合适的。
- 快速检验:斜率 与 的正负号必须相同。
- 回答情境题时,务必解释斜率的实际含义:「 每增加一个单位, 平均增加/减少 个单位。」
- 回答预测可靠性时,说明预测的 值是否在数据范围内(内插)还是范围外(外推)。
当你要用已知的 预测 时,用 。当你要用已知的 预测 时,用 对 回归。两条回归线通常是不同的,除非 。
异常值可能会剧烈影响回归线。应判断该异常值是真实数据还是错误记录。为保证透明性,可分别报告包含和排除异常值的结果。
- 概率分布 —— 正态分布是许多回归假设的基础。
- 数列与级数 —— 求和符号是回归公式的语言工具。
- 导数的应用 —— 最小二乘法的推导本质上是利用微积分求函数极值。