Skip to content

Latest commit

 

History

History
5 lines (3 loc) · 440 Bytes

File metadata and controls

5 lines (3 loc) · 440 Bytes

为训练循环添加额外功能

主要章节使用了一个相对简单的训练函数,以保持代码的可读性,并使第 5 章符合页数限制。我们还可以添加线性预热、余弦衰减计划和梯度裁剪,以提高训练稳定性和收敛性。

您可以在 附录 D:为训练循环添加额外功能 中找到此更复杂的训练函数的代码。