AI学习笔记——Tensorflow中的Optimizer(优化器)

  • 时间:
  • 浏览:1
  • 来源:万人牛牛APP下载_万人牛牛官方

m = b1m + (1-b1)dx

v = b2v + (1-b2)dx^2

W += -(α*m/sqrt(v)) * dx

顾名思义这种优化算法实际上给了有有几个动量,让机器人下降的的日后带有有几个惯性,下降的强度就加快了。

这种算法是通过动态改变学习强度,提高下降强度,离米 给机器人穿上有有几个左右侧滑有阻力的鞋子,让它只好沿着正确的方向下滑。

其中 α是learning rate(学习强度)。大伙还可不能不能把下降的损失函数看成有有几个机器人,可能性在下降的日后坡度有的是 均匀的,机器人会左右摇摆,或多或少下降强度会先要,有日后遇到局部最优,还可能性在原地徘徊好长时间。

W += - α * dx

给大伙看看不同优化算法下降强度的差距

这种算法离米 给机器人有有几个惯性,一并还让它穿上了处置侧滑的鞋子,当然就相当好用用啦。

确实哪几种Optimizer 有的是 优化算法下面重点介绍几个常见的

这种算法离米 在AdaGrad中引入了Momentum的惯性

v = b1 * v + (1-b1)*dx^2

W += -(α/sqrt(v)) * dx

日后 RMSprop缺少了Momentum的变量m

v = dx^2

W += -(α/sqrt(v)) * dx

算法如下:

m = b1*m - α * dx

W += m

Adam是目前用得最广的优化算法,它结合了AdaGrad和Momentum的优点(或多或少叫才Adam嘛)

在使用Tensorflow搭建神经网络的日后,最后一步总会用到tf.train.XxxOptimizer(). 然有的是有或多或少Optimizer()如下图

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言可能性访问我的Steemit主页

这是最基础的梯度下降算法,更新权重W,越多 解释。