“让Keras更酷一些!”:分层的学习率和自由的梯度( 三 )
本文就来为上述问题给出尽可能简单的解决方案 。
对于分层设置学习率这个事情 , 重写优化器当然是可行的 , 但是太麻烦 。 如果要寻求更简单的方案 , 我们需要一些数学知识来指导我们怎么进行 。
参数变换下的优化
首先我们考虑梯度下降的更新公式:
\n\t
其中 L 是带参数 θ 的 loss 函数 , α 是学习率 , 是梯度 , 有时候我们也写成 。 记号是很随意的 , 关键是理解它的含义 。
\n\t
\n\t
然后我们考虑变换 θ=λ? , 其中 λ 是一个固定的标量 , ? 也是参数 。 现在我们来优化 ? , 相应的更新公式为:
\n\t
其中第二个等号其实就是链式法则 。 现在我们在两边乘上 λ , 得到:
推荐阅读
- gen.g战队|转会流言板:截止11月9日的一些传言:尺帝留队,GEN在争取Canyon、Nuguri
- gt赛车7|三国杀:有关陆抗的一些冷门知识
- |米游社区能给你带来什么惊喜,玩家:一些热爱游戏的知己好友
- 剑三|纪念一些泰拉瑞亚手游当年玩的时候的趣事
- 旅行者|阴阳师:关于3000分以下炸盾流的一些心得
- fate grand order|Fate/Grand Order:关于妖兰五加成泛用队的一些简约数据
- 法术|《哈利波特:魔法觉醒》关于弗立维法术流派的一些经验和探讨
- 许攸|三国杀:一些标将技能的误解,快看看你中招没
- 魔兽世界|魔兽世界部分NPC被改名,全是女性,其中有一些甚至连性别都变了
- 三国杀|完美防御你可曾见过,三国杀只有她能做到,还带着一些暴力