为训练循环添加额外功能 主要章节使用了一个相对简单的训练函数,以保持代码的可读性,并使第 5 章符合页数限制。我们还可以添加线性预热、余弦衰减计划和梯度裁剪,以提高训练稳定性和收敛性。 您可以在 附录 D:为训练循环添加额外功能 中找到此更复杂的训练函数的代码。