记录-模型训练如何使用混合精度

URL

type

status

date

slug

summary

📝 混合精度的概念

精度（PyTorch）

在训练模型或者复现别人的代码中，伙伴们可能会经常看到fp16,fp32和bf16的字样。大家有没有想过这些字样代表什么？在训练模型过程中会出现什么问题以及如何解决？

首先，让我们一起了解fp16,fp32和bf16到底是什么？以及在计算机中如何计算？

fp16:半精度浮点数据，字节数16bit，1bit符号位，5bit指数位，10bit尾数位。如下图(1)：

符号位：顾名思义表示数值的正负。

指数位：这里与大家所学的进制计算不同。在Pytorch计算中，指数位代表的是数值区间。详细说明如下：5bit的指数位可以表示整数数值范围[0～2^6-1]。在Pytorch中，5bit的全0和全1具有特殊含义，不在数值范围中。所以，5bit的整数数值范围[1, 30]。由于指数位代表的是数值区间，那么这个区间应该是从一个很小很小的小数开始，而不是从[2^1,2^30)。根据上诉描述，针对这30个整数数值，一半取负数，一半取正数。由于正数和负数之间还有一个数是0，所以整数数值范围[-14,15)。根据[-14,15)的整数数值范围，则数值区间如下：

从区间图可以看出，指数位的整数数值代表的是哪一个区间。

以图1为例：指数位的数值是30，选取的区间是[2^15,2^16)。目标数值 = 2^15 + γ。如何计算γ是我们接下来要分析的！

尾数位：尾数位是在目标区间（平均划分）中获取相应的占比。fp16的尾数位占10bit，那么目标区间平均划分2^10=1,024份。尾数位的二进制数值表示1024份中占了多少份。那么γ的数值为：

则，目标数值:

总结：从上诉分析中，大家可能会发现：当区间表示数值范围较小时，在此区间的数据精度较高。在数值范围较大的区间，数据精度就会下降。以下是代码示例：

分析：为什么会出现这种情况？这是由于Pytorch的精度使用的是区间划分来表示一个具体数值，可以借鉴微积分理解，只要在区间内划分的份数越多，那么精度越高。接下来详细解释为什么会出现上诉代码中的情况（与图相集合）？

区间:[2^15,2^16)

430008:0 11110 0101000000, 43008.111 > 43008。那么，按理说43008.111的二进制应当表示为0 11110 0101000001。让我们一起计算0 11110 0101000001真实代表的数值是43040。43040大于43008。

我们借用代码来分析：

从代码中可以发现：在此区间，fp16有一个舍入范围，不再遵循大家熟悉的4舍5入。43040-43008=32，32/2=16，43008+16=43,024。≤43024为43008，>43024为43040。这里，我相信伙伴们可以看到舍入误差太大。

区间：[2^0,2^1)

1:0 01111 0000000000，1.111328125:0 01111 0001110000。伙伴们可以按照上述方法进行分析。

fp32:单精度浮点数据，字节数32bit，1bit符号位，8bit指数位，23bit尾数位。如下图(2)：

按照fp16的方法，继续分析fp32。fp32的指数位增加到8位，那么可表示的区间也增加，如下：

fp32的尾数位也增加到23位，则每个区间被划分2^24份。在fp16的数据范围内，由于划分的更加细致，所以fp32的精度远优于fp16。但不得不提的一个通用问题：区间越靠后，精度越低。

分析：以43008和43008.111为例（代码形式）：

从代码结果可以发现：在fp16的数据范围内，fp32的精度远高于fp16。

bf16：浮点数据，字节数16bit，1bit符号位，8bit指数位，7bit尾数位。如下图(3)：

bf16表示的数据区间和fp32一样，但是尾数位减少了很多。这代表bf16的精度更差。同样是在fp16的数据范围内，bf16的精度最差。

接着，我们一起分析一下这几个精度在实际应用中会遇到哪些问题？

在计算范围上，fp32和bf16可计算的数据范围最大。在同等范围内，fp32精度最高，fp16次之，bf16最差。在占用内存方面，fp16和bf16最小，fp32最大。

训练模型时，选用什么精度进行模型权重、偏置和梯度保存和更新呢？

如果选用fp16，虽然节省内存，但是在计算损失进行梯度回传时很容易发生上溢出。
针对fp16上溢出的问题，那么选用fp32。虽然有效防治了上溢出问题，但是占用了很大的内存。
针对上诉问题，采取折中方法：bf16。bf16有着fp32的数值范围，也有着fp16节省内存的特性，但是bf16的精度是最差的。在模型参数更新时(相加)，bf16带来的误差往往会更大。

最后，针对每一种精度的问题，有没有一种方法能够有效的将各个精度的优点结合起来？那就是混合精度，将各个精度应用到模型计算的不同部分，便会起到一个意想不到的作用。那么下面让我们一起了解什么是混合精度！