记录-Pytorch框架分布式训练(一) | 不爱吃香菜的萌新

深度学习

记录-Pytorch框架分布式训练(一)

字数 1063阅读时长≈ 3 分钟

2025-9-6

AI智能摘要

GPT

获取文章摘要失败，请稍后再试。

URL

type

status

date

slug

summary

tags

category

icon

password

😀

此篇博客主要记录Pytorch框架分布式训练的主要思想。其中，主要介绍DP和DDP方法。像Tensor并行、模型并行和流水线并行不在此篇博客记录。

📝 DP

DP是Pytorch框架实现的第一个分布式数据并行方法。在每个GPU中保存一个模型，每个GPU训练sub-batch数量的样本。

那么，这里很容易产生一个疑问：模型权重如何更新呢？模型训练分为前向传播和反向传播。前向传播主要用于预测和计算损失值。反向传播分为梯度回传和参数更新。梯度回传的Pytorch代码是loss.backward()。参数更新的Pytorch代码是optimizers.step()。请注意：模型权重更新发生在optimizers.step()步骤，那么梯度回传并不会即刻改变模型的权重。

基于上述理解，DP的思想：每一块GPU都可以执行前向传播和反向传播中的梯度回传(loss.backward())。这个时候每个GPU不进行权重更新。DP算法执行Reduce操作(通信原语:将其他GPU的梯度汇合到主GPU)，并求取均值。主GPU执行optimizers.step()，更新主GPU模型的参数。然后，主GPU执行Broadcast操作(通信原语:将主GPU的模型参数广播到其他GPU中)。

这便是DP方法的思想，伙伴们可以结合李沐大神《动手学深度学习》的参数服务器中的内容一起理解。如下图(引用《动手学深度学习》):其中，蓝色线指的是Reduce操作，绿色线指的是Broadcast操作。

notion image

DP代码：

DistrubuteParallel/DP.py · LEVSONGSW/DeepLearnLog - Gitee

深度学习日志记录

DistrubuteParallel/DP.py · LEVSONGSW/DeepLearnLog - Gitee

https://gitee.com/levsongsw/deep-learn-log/blob/master/DistrubuteParallel/DP.py

DistrubuteParallel/DP.py · LEVSONGSW/DeepLearnLog - Gitee

DP局限性:

梯度Reduce操作和参数Broadcast操作耗费时间。可不可以只在一种数据上进行通信原语操作？

DP的单进程多线层思想，即主GPU为进程，其他GPU为线程。那么Python进行线程调度时会受到GIL(GIL:简单理解为线程锁，即让线程串行执行。>>可能理解的不对<<)影响。可不可以只建立进程，而不是线程呢？

📝 DDP

DDP是对DP的改进，解决了DP的局限性。DDP的思想与DP相似，也是将模型复制到每个GPU中，每个GPU训练sub-batch数量的样本。

DDP与DP的不同点有两个：

DDP将每个GPU作为一个进程，那么在进行Python操作(Reduce或者Broadcast)时，不会受到GIL的影响。

DDP不再执行模型参数Broadcast操作。那么每个GPU上的模型如何更新参数呢？只能是每个GPU自行执行参数更新，即optimizers.step()。从这里可以倒推出：每个GPU模型的梯度是一样的。如何让每个GPU上的梯度一样呢？每个GPU汇合了其他所有GPU的的梯度，即执行All Reduce操作(通信原语:Reduce + Broadcast)。

如下图(引用《动手学深度学习》):其中，蓝色线指的是ALL Reduce操作，绿色线指的是optimizers.step()操作。

notion image

DDP代码:

gitee中的代码只需要关注torchrun运行方法即可。

DistrubuteParallel/DDP_torchrun.py · LEVSONGSW/DeepLearnLog - Gitee

深度学习日志记录

DistrubuteParallel/DDP_torchrun.py · LEVSONGSW/DeepLearnLog - Gitee

https://gitee.com/levsongsw/deep-learn-log/blob/master/DistrubuteParallel/DDP_torchrun.py

DistrubuteParallel/DDP_torchrun.py · LEVSONGSW/DeepLearnLog - Gitee

🤗 总结归纳

DP和DDP都是数据并行的实现方法。在数据并行方法中，推荐使用DDP方法。Pytorch除了数据并行，还有Tensor并行、模型并行、流水线并行和FSDP方法。Tensor并行、模型并行和流水线并行将在Pytorch框架分布式训练(二)记录，FSDP方法将在Pytorch框架分布式训练(三)记录。

📎 参考文章

[pytorch distributed] 01 nn.DataParallel 数据并行初步_哔哩哔哩_bilibili

本期code：https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/01_multi_gpus_data_parallelism.ipynb, 视频播放量 12880、弹幕量 15、点赞数 315、投硬币枚数 211、收藏人数 653、转发人数 53, 视频作者五道口纳什, 作者简介数学，计算机科学，现代人工智能。bridge the gap。，相关视频：[pytorch distributed] torch 分布式基础（process group），点对点通信，集合通信，[pytorch distributed] 02 DDP 基本概念（Ring AllReduce，node，world，rank，参数服务器），[pytorch distributed] nccl 集合通信（collective communication），[pytorch] 多项式分布及采样（torch.multinomial, torch distribution Categorical），[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP（NCCL，deepspeed 与 Accelerate），[RL4LLM] PPO workflow 及 OpenRLHF、veRL 初步介绍，ray distributed debugger，[Pytorch 分布式] ring-allreduce 算法（scatter-reduce、allgather）以及 FSDP，[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析，[mcts] 02 mcts from scartch（UCTNode，uct_search, pUCT，树的可视化），[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

[pytorch distributed] 01 nn.DataParallel 数据并行初步_哔哩哔哩_bilibili

https://www.bilibili.com/video/BV1jm4y187tM?spm_id_from=333.788.videopod.sections&vd_source=3f1df428402c0b1e1958e501ebc70c7f

[pytorch distributed] 01 nn.DataParallel 数据并行初步_哔哩哔哩_bilibili

DataParallel — PyTorch 2.7 documentation

This container parallelizes the application of the given module by splitting the input across the specified devices by chunking in the batch dimension (other objects will be copied once per device). In the forward pass, the module is replicated on each device, and each replica handles a portion of the input. During the backwards pass, gradients from each replica are summed into the original module.

DataParallel — PyTorch 2.7 documentation

https://docs.pytorch.org/docs/stable/generated/torch.nn.DataParallel.html

12.7. 参数服务器 — 动手学深度学习 2.0.0 documentation

让我们回顾一下在分布式架构中数据并行的训练方法，因为在实践中它的实现相对简单，因此本节将排除其他内容只对其进行介绍。由于当今的GPU拥有大量的显存，因此在实际场景中（不包括图深度学习）只有数据并行这种并行训练策略值得推荐。图图12.7.1描述了在 12.5节中实现的数据并行的变体。其中的关键是梯度的聚合需要在单个GPU（GPU 0）上完成，然后再将更新后的参数广播给所有GPU。

12.7. 参数服务器 — 动手学深度学习 2.0.0 documentation

https://zh-v2.d2l.ai/chapter_computational-performance/parameterserver.html

💡

以上便是Pytorch数据并行学习记录分享，欢迎您在底部评论区留言，一起交流~

书籍-《许三观卖血记》

记录-Pytorch框架分布式训练(二)

记录-Pytorch框架分布式训练(二)

作者:不爱吃香菜的萌新
链接:https://hexo.levsongsw.com//deeplearn/pytorchDT1
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

记录-Docker打包Python-Web服务

Lazy loaded image

VScode插件(一)

Lazy loaded image

Lazy loaded image

记录-NotionNext博客添加Twikoo评论插件

Lazy loaded image

记录-为什么模型推理时，显存占用分析只需要KV-Catch而没有Q-Catch

Lazy loaded image

Paper-Attention Is All You Need

Lazy loaded image

评论

Loading...

目录

你好！我是

不爱吃香菜的萌新

🎉内容输出中🎉

-- 感谢您的支持 ---

👏内容输出中👏

目录

交流频道

加入我们的社群讨论分享

点击加入社群

最新发布

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

²⁰⁹

²³

²²

²⁰

¹⁹

¹⁹

⁷

⁶

²

¹

¹

¹

文章数:

244

建站天数:

228 天