PyTorch梯度裁剪如何避免训练loss nan
发表于:2025-11-16 作者:千家信息网编辑
千家信息网最后更新 2025年11月16日,这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训
千家信息网最后更新 2025年11月16日PyTorch梯度裁剪如何避免训练loss nan
这篇文章主要为大家展示了"PyTorch梯度裁剪如何避免训练loss nan",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"PyTorch梯度裁剪如何避免训练loss nan"这篇文章吧。
训练代码使用示例如下:
from torch.nn.utils import clip_grad_norm_outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()# clip the gradclip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()其中,max_norm为梯度的最大范数,也是梯度裁剪时主要设置的参数。
备注:网上有同学提醒在(强化学习)使用了梯度裁剪之后训练时间会大大增加。目前在我的检测网络训练中暂时还没有碰到这个问题,以后遇到再来更新。
补充:pytorch训练过程中出现nan的排查思路
1、最常见的就是出现了除0或者log0这种
看看代码中在这种操作的时候有没有加一个很小的数,但是这个数数量级要和运算的数的数量级要差很多。一般是1e-8。
2、在optim.step()之前裁剪梯度
optim.zero_grad()loss.backward()nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)optim.step()max_norm一般是1,3,5。
3、前面两条还不能解决nan的话
就按照下面的流程来判断。
...loss = model(input)# 1. 先看loss是不是nan,如果loss是nan,那么说明可能是在forward的过程中出现了第一条列举的除0或者log0的操作assert torch.isnan(loss).sum() == 0, print(loss)optim.zero_grad()loss.backward()# 2. 如果loss不是nan,那么说明forward过程没问题,可能是梯度爆炸,所以用梯度裁剪试试nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)# 3.1 在step之前,判断参数是不是nan, 如果不是判断step之后是不是nanassert torch.isnan(model.mu).sum() == 0, print(model.mu)optim.step()# 3.2 在step之后判断,参数和其梯度是不是nan,如果3.1不是nan,而3.2是nan,# 特别是梯度出现了Nan,考虑学习速率是否太大,调小学习速率或者换个优化器试试。assert torch.isnan(model.mu).sum() == 0, print(model.mu)assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)以上是"PyTorch梯度裁剪如何避免训练loss nan"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
梯度
训练
学习
内容
参数
篇文章
过程
代码
数量
数量级
速率
问题
帮助
最大
同学
备注
小学
就是
常见
思路
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络技术学院毕业证书
数据库连接 填写域名
中医估计文献数据库有哪些
获取服务器外网ip
小学生网络安全调查表
网络安全意识不可缺是什么
数据库中defaults是什么
软件开发技术规划
go语言tcp代理服务器
绵阳网络安全人才培养
文档服务器定义
给每个学生建立大数据库
网络技术就业情景
软件开发游戏开发里 cr
华为服务器管理口是那个
手机信号显示正在连接服务器
江苏安卓软件开发哪里好
药品毒性数据库
网络安全 应急保障情况
数据库被暴力破解怎么办
北京冬奥网络安全征集
主机开发和软件开发
江苏阿尔法网络技术
绵阳网络安全人才培养
静安区即时网络技术结构设计
网络安全评估内容
阿里云dts自建数据库
互联网科技实习生岗位
滨州市滨城区软件开发
网络安全设备购买协议