I refuse to say anything beyond five years because I don't think we can see much beyond five years.
本文最后更新于 2024年10月2日 晚上
课程视频
网上找到的笔记
详细笔记请见网上大佬的笔记(见上👆)他好像用语音识别把每句话都记下来了,这里只是一些总结性质的随手记
类神经网络的训练方法
Lec 03 与 Lec 04
Q: 如何判断结果不好到底是因为 模型不够大 还是 优化方法不够好 ?
A: 比较在 training error 上的表现,如果出现右图,56层网络的效果比20层表现要差,则说明是优化没有做好(说明不是过拟合)。
优化问题
- 从比较中获取见解
- 从较浅的网络(或其他模型)开始, 这些网络更容易优化
- 如果更深层的网络在训练数据上没有获得更小的损失, 则存在优化方法问题
Q: 如何应对过拟合问题?
A:
- Data augmentation:
- 限制模型的自由度:
- 减少参数数量、共享参数
- 减少 features
- Early stopping
- Dropout
- 正则化
Q: 梯度消失有可能有什么情况?
A: 有可能是局部极大极小、也有可能是鞍点。
判断办法:Hessian 矩阵
- Hessian 正定 局部极小
- Hessian 负定 局部极大
- Hessian 不定 鞍点
Lec 05
Batch 和 Momentum
Lec 06
客制化 learning rate
(如果学过最优化的话感觉比较容易理解)
Adagrad
坡度大走得慢,坡度小走的快。
RMSProp
参数 越小,则新值权重越大。
Adam
Adam = RMSProp + Momentum
一般情况下,使用 Pytorch 默认 Adam 优化器即可
Learning rate scheduling
- Learning rate decay
- Warm up
先设学习率为较小值,然后慢慢增大,可以训练的比较好。
小结
ML2021 Note-01
http://dbqdss.github.io/2024/08/04/李宏毅ML2021/李宏毅-ML2021-Note-01/