普通最小二乘法
线性回归用来拟合带有系数的线性模型,目的是最小化数据集中的原始数据与通过线性近似预测的数据之间的平方和的残差。 数学上它解决了形式的问题:
线性回归将采用其fit方法拟合数组X,y,并将线性模型的系数w存储在其coef_成员中:
>>> from sklearn import linear_model
>>> reg = linear_model.LinearRegression()
>>> reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
>>> reg.coef_
array([ 0.5, 0.5]) 然而,普通最小二乘法的系数估计依赖于模型项的独立性。 当项相关并且设计矩阵X的列具有近似线性相关性时,设计矩阵变得接近单数,这样的结果是,最小二乘估计对所观察到的数据中的随机误差变得高度敏感,产生大的方差 。 这种多重共线性的情况可以可以在一些情况下发生,例如,没有实验设计的情况下收集数据将会出现这种情况。
例子: 线性回归示例
普通最小二乘复杂性: 该方法使用X的奇异值分解来计算最小二乘解。如果X是大小(n,p)的矩阵,假设,则该方法具有的成本。
转载请注明原文地址: https://ju.6miu.com/read-12564.html