
对于梯度下降法来说,参数特征值的变异范围越小,其运算越高效
比如一栋房子的面积是0-2000之间
卧室是1-5之间
那么这个梯度下降的计算路径可能会是下图所示

歪歪扭扭,非常不高效
一个比较有效的办法是把它进行归一化,就是全部变成百分数,那么路径很可能会变成下图所示

而且其实际意义确实没有变化,变化的只是效率变高了

最好的情况是把所有特征值约束到-1到1之间,稍微有些误差也无伤大雅,这样子算法才能高效。
但是,不能是这样

这是一个经验值,也就是说不能太小,变异过小也会造成算法困难

另外,最好能使得其平均值达到0,所以上述修改的办法可以变成

上述的变化用了以下的算法

上述的μ1 代指均值
S1 代指变化范围,可以是最大值减最小值,也可以是标准差,都可以