曲线拟合 Curve Fitting

介绍回归函数、曲线拟合与常见误差指标,包括最大误差、平均绝对误差和最小二乘误差。

曲线拟合 Curve Fitting

回归 Regression 是一种试图利用各种统计工具来估计变量之间关系的技术,具体来说,因变量 Y\mathbf{Y} 与自变量 X\mathbf{X} 以及未知参数 β\beta 之间的关系由 回归函数 regression function ff 决定

Y=f(X,β)\mathbf{Y} = f(\mathbf{X},\beta)

其中回归函数 ff 通常是提前规定的,而参数 β\beta 则是通过优化回归函数 ff 与数据的拟合程度来找到的

我们可以将 曲线拟合 Curve Fitting 视为回归技术的一个特例,重要的是,它们通过 优化 optimization 来找到变量之间的关系,广义上来讲 机器学习 machine learning 是围绕回归技术构建的,而回归技术本身是围绕数据的优化构建,因此机器学习和回归技术本质上是围绕数据提出了一个 优化问题 optimization problem,而优化问题本身的关键取决于定义要被优化的 目标函数 objective function

对于给定的回归函数 ff,有多种不同的 误差指标 error metrics 来度量与实际数据的误差,这也称为 范数 norm,误差指标显然指示了回归函数拟合程度,也就是拟合的好坏,有以下常见误差指标

最大误差 maximum error \ell_\infty

E(f)=max1<k<nf(xk)ykE_\infty(f) = \max_{1<k<n} |f(x_k) - y_k|
  • 找到最大的误差 (绝对值) 作为最终误差

平均绝对误差 mean absolute error 1\ell_1

E1(f)=1nk=1nf(xk)ykE_1(f) = \frac{1}{n} \sum_{k=1}^{n} |f(x_k) - y_k|
  • 误差绝对值的均值作为最终误差
  • 也称 平均绝对误差 MAE

最小二乘误差 least-squares error 2\ell_2

E2(f)=(1nk=1nf(xk)yk2)12E_2(f) = \left(\frac{1}{n}\sum_{k=1}^{n} |f(x_k) - y_k|^2 \right)^{\dfrac{1}{2}}
  • 经典的平方和的平方根,即欧几里得距离作为最终误差
  • 也称 均方误差 MSE

P-范数误差 p-norm error p\ell_p

Ep(f)=(1nk=1nf(xk)ykp)1pE_p(f) = \left(\frac{1}{n}\sum_{k=1}^{n} |f(x_k) - y_k|^p \right)^{\dfrac{1}{p}}

P-范数误差 是上述三个公式的推广

  • p=1p=1 时,公式退化为 平均绝对误差 MAE
  • p=2p=2 时,公式退化为 均方误差 MSE
  • pp \to \infty 时,公式退化为 最大误差