I refuse to say anything beyond five years because I don't think we can see much beyond five years.

本文最后更新于 2024年10月2日 晚上

课程视频
网上找到的笔记
详细笔记请见网上大佬的笔记(见上👆)他好像用语音识别把每句话都记下来了,这里只是一些总结性质的随手记

类神经网络的训练方法

Lec 03 与 Lec 04

Q: 如何判断结果不好到底是因为 模型不够大 还是 优化方法不够好

A: 比较在 training error 上的表现,如果出现右图,56层网络的效果比20层表现要差,则说明是优化没有做好(说明不是过拟合)。

1722741789593

优化问题

  • 从比较中获取见解
  • 从较浅的网络(或其他模型)开始, 这些网络更容易优化
  • 如果更深层的网络在训练数据上没有获得更小的损失, 则存在优化方法问题

Q: 如何应对过拟合问题?

A:

  1. Data augmentation:
  2. 限制模型的自由度:
    1. 减少参数数量、共享参数
    2. 减少 features
    3. Early stopping
    4. Dropout
    5. 正则化

Q: 梯度消失有可能有什么情况?

A: 有可能是局部极大极小、也有可能是鞍点。

判断办法:Hessian 矩阵

  1. Hessian 正定 \Rightarrow 局部极小
  2. Hessian 负定 \Rightarrow 局部极大
  3. Hessian 不定 \Rightarrow 鞍点

Lec 05

Batch 和 Momentum

1722762707491

Lec 06

客制化 learning rate

(如果学过最优化的话感觉比较容易理解)

Adagrad

1722765607845 1722765713166

坡度大走得慢,坡度小走的快。

RMSProp

1722766003193 1722766178564

参数 α\alpha 越小,则新值权重越大。

Adam

Adam = RMSProp + Momentum

一般情况下,使用 Pytorch 默认 Adam 优化器即可

Adam 相关论文

Learning rate scheduling

  • Learning rate decay
1722769249596
  • Warm up
    先设学习率为较小值,然后慢慢增大,可以训练的比较好。
1722769613464

Warm up 相关论文

小结

1722769734059

ML2021 Note-01
http://dbqdss.github.io/2024/08/04/李宏毅ML2021/李宏毅-ML2021-Note-01/
作者
DBQDSS
发布于
2024年8月4日
许可协议