记录-LlaMA-Factory在英伟达显卡微调大模型出现的Error | 不爱吃香菜的萌新

大模型

记录-LlaMA-Factory在英伟达显卡微调大模型出现的Error

字数 214阅读时长≈ 1 分钟

2025-9-6

AI智能摘要

GPT

这里是萌新AI，这篇文章介绍了使用 LlaMA-Factory 框架在英伟达 RTX 4000 系列显卡上微调大模型时遇到的一个常见错误。作者指出，问题源于 torchrun 与 NCCL 默认开启的 P2P/IB 通信通道不兼容。文章提供了两种解决方案：一是设置临时的环境变量，二是在启动命令中显式禁用相关功能。最后，作者表示会持续更新内容，并欢迎读者交流。

URL

type

status

date

slug

summary

tags

category

icon

password

😀

最近使用LlaMA-Factory框架训练千问大模型时，总是会遇到一些问题。所以本篇博客会记录这些Error的解决方法。

📝 Error

NotImplementedError: Using RTX 4000 series doesn't support faster communication broadband via P2P or IB. Please set NCCL_P2P_DISABLE="1" and NCCL_IB_DISABLE="1" or use accelerate launch which will do this automatically.

问题理解：torchrun + NCCL 在 RTX 4000 系列上默认开启的 P2P/IB 通道不支持。
解决：

方案一：设置临时环境变量。同时，设置完成后，要在同一个Shell/终端中执行llamafactory-cli webui。

方案二：显示设置

💡

以上便是本篇博客的主要内容，这篇博客会不定时的增补内容。欢迎您在底部评论区留言，一起交流~

记录-将HF模型转换为GGUF格式并部署在ollama服务框架中

记录-Transformer的位置编码(一)

记录-Transformer的位置编码(一)

作者:不爱吃香菜的萌新
链接:https://hexo.levsongsw.com//largemoder/lLaMAFactoryError
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

VScode插件(一)

Lazy loaded image

Lazy loaded image

记录-NotionNext博客添加Twikoo评论插件

Lazy loaded image

记录-为什么模型推理时，显存占用分析只需要KV-Catch而没有Q-Catch

Lazy loaded image

Paper-Attention Is All You Need

Lazy loaded image

Paper-Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Lazy loaded image

评论

Loading...

目录

你好！我是

不爱吃香菜的萌新

🎉内容输出中🎉

-- 感谢您的支持 ---

👏内容输出中👏

目录

交流频道

加入我们的社群讨论分享

点击加入社群

最新发布

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

¹⁵⁶

²²

²²

¹⁹

¹⁹

¹⁸

⁷

⁶

²

¹

¹

¹

文章数:

190

建站天数:

176 天