1500字范文 > pytorch显卡内存随训练过程而增加_PyTorch重大更新：将支持自动混合精度训练！...

pytorch显卡内存随训练过程而增加_PyTorch重大更新：将支持自动混合精度训练！...

时间：2024-04-21 06:14:42

AI编辑：我是小将

混合精度训练(mixed precision training)可以让模型训练在尽量不降低性能的情形下提升训练速度，而且也可以降低显卡使用内存。目前主流的深度学习框架都开始支持混合精度训练。对于PyTorch，混合精度训练还主要是采用NVIDIA开源的apex库。但是，PyTorch将迎来重大更新，那就是提供内部支持的混合精度训练，而且是自动混合精度训练：

torch.cuda.amp.autocast：自动为GPU op选择精度来提升训练性能而不降低模型准确度。

torch.cuda.amp.GradScaler:对梯度进行scale来加快模型收敛，因为float16梯度容易出现underflow(梯度过小)

两者结合在一起，可以实现自动混合精度训练：

#Createsmodelandoptimizerindefaultprecision

model=Net().cuda()

optimizer=optim.SGD(model.parameters(),...)

#CreatesaGradScaleronceatthebeginningoftraining.

scaler=GradScaler()

forepochinepochs:

forinput,targetindata:

optimizer.zero_grad()

#Runstheforwardpasswithautocasting.

withautocast():

output=model(input)

loss=loss_fn(output,target)

#Scalesloss.Callsbackward()onscaledlosstocreatescaledgradients.

#Backwardpassesunderautocastarenotrecommended.

#Backwardopsruninthesameprecisionthatautocastusedforcorrespondingforwardops.

scaler.scale(loss).backward()

#scaler.step()firstunscalesthegradientsoftheoptimizer'sassignedparams.

#IfthesegradientsdonotcontaininfsorNaNs,optimizer.step()isthencalled,

#otherwise,optimizer.step()isskipped.

scaler.step(optimizer)

#Updatesthescalefornextiteration.

scaler.update()

可以看到，为了防止梯度的underflow，首先scaler.scale(loss).backward()会对loss乘以一个scale因子，然后backward时所有梯度都会乘以相同的scale因子，这样保证梯度有较大的magnitude而不会出现为0。我们不希望这个scale因子对学习速率产生影响，那么scaler.step(optimizer)会先unscale要更新的梯度然后再更新，如果梯度出现infs或者NaNs，optimizer将忽略这次迭代训练。

如果你想在梯度更新前对梯度进行clip，也是可以的：