
先复习一下梯度下降
这里介绍三种优化算法:
- Conjugate gradient(共轭梯度法)
- BFGS
- L-BFGS

选择了这些优化算法,会使得计算速度更快,并且不用再挑选学习率α
这里如果只是想应用的话,其实不用了解原理,这每一种算法都是非常复杂的=.=
而且,一般来说这些方法已经被编写好成模块,调用就行了
然后最终优化的方式,就是试试不同的库试试不同的方法,选最快的就行了(Doge)
接下来给出一个例子:

分别是算法和实现代码
以下是octave调用的一个优化算法

实际上是利用已经写好的模块调用了我们之前写的代码(这个@即调用我们之前函数的意思)