AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了使用 LlaMA-Factory 框架在英伟达 RTX 4000 系列显卡上微调大模型时遇到的一个常见错误。作者指出,问题源于 torchrun 与 NCCL 默认开启的 P2P/IB 通信通道不兼容。文章提供了两种解决方案:一是设置临时的环境变量,二是在启动命令中显式禁用相关功能。最后,作者表示会持续更新内容,并欢迎读者交流。
URL
type
status
date
slug
summary
tags
category
icon
password
最近使用LlaMA-Factory框架训练千问大模型时,总是会遇到一些问题。所以本篇博客会记录这些Error的解决方法。
📝 Error
- NotImplementedError: Using RTX 4000 series doesn't support faster communication broadband via P2P or IB. Please set
NCCL_P2P_DISABLE="1"andNCCL_IB_DISABLE="1" or useaccelerate launchwhich will do this automatically. - 问题理解:torchrun + NCCL 在 RTX 4000 系列上默认开启的 P2P/IB 通道不支持。
- 解决:
- 方案一:设置临时环境变量。同时,设置完成后,要在同一个Shell/终端中执行llamafactory-cli webui。
- 方案二:显示设置
以上便是本篇博客的主要内容,这篇博客会不定时的增补内容。欢迎您在底部评论区留言,一起交流~
- 作者:不爱吃香菜的萌新
- 链接:https://hexo.levsongsw.com//largemoder/lLaMAFactoryError
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。




