机器学习基础笔记 | 4 – 梯度下降优化之特征收缩

对于梯度下降法来说,参数特征值的变异范围越小,其运算越高效

比如一栋房子的面积是0-2000之间

卧室是1-5之间

那么这个梯度下降的计算路径可能会是下图所示

歪歪扭扭,非常不高效

一个比较有效的办法是把它进行归一化,就是全部变成百分数,那么路径很可能会变成下图所示

而且其实际意义确实没有变化,变化的只是效率变高了

最好的情况是把所有特征值约束到-1到1之间,稍微有些误差也无伤大雅,这样子算法才能高效。

但是,不能是这样

这是一个经验值,也就是说不能太小,变异过小也会造成算法困难

另外,最好能使得其平均值达到0,所以上述修改的办法可以变成

上述的变化用了以下的算法

上述的μ1 代指均值

S1 代指变化范围,可以是最大值减最小值,也可以是标准差,都可以

发表评论