接上一节的选择最佳函数

alt text

达成目标

alt text

从最后的一个步骤开始说起

alt text

最佳化演算法看成一个大的函数,它做的事情就是传递一个预先定义好的H集合,它再传递一个之前评估函数好坏的标准L函数,输出一个最佳函数f,把函数代入到L函数中,它的值越小越好

其实也有另外一种期待就是它给出同样的H和L的时候,它跑的比较快找出答案

事实上,不是总是找出L(f*)的值是最低的,虽然不是最低的,但是是较低的

最佳化演算法它有很多提前设定, Learning Rate / Batch Size / How to Init (超参数(Hyperparameter)),这就是演算法调参

alt text

在Loss 上做额外考量(如: Regularizaiton)

设定范围

alt text

函数设定的范围不要太大,也不要太少,太大会圈到的不一定是好的函数,太小可能没有好的函数

alt text

当训练的资料少的时候,划定的范围就要少,当训练资料多的时候,划定的范围可以大点,至于什么原因可以参考机器学习原理

有些方法它的好不是对当前目标结果好,而是为了提供其他面向的技术。比如下图,在内神经网络的结构网络里面有Residual Connection结构,在划定范围阶段来看,看不出来它又什么好处,但是它可以很容易从一堆函数集合中找出Loss值低的函数

alt text

results matching ""

    No results matching ""