Lazy loaded image
记录-LlaMA-Factory在英伟达显卡微调大模型出现的Error
字数 214阅读时长 1 分钟
2025-9-1
2025-9-6
AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了使用 LlaMA-Factory 框架在英伟达 RTX 4000 系列显卡上微调大模型时遇到的一个常见错误。作者指出,问题源于 torchrun 与 NCCL 默认开启的 P2P/IB 通信通道不兼容。文章提供了两种解决方案:一是设置临时的环境变量,二是在启动命令中显式禁用相关功能。最后,作者表示会持续更新内容,并欢迎读者交流。
URL
type
status
date
slug
summary
tags
category
icon
password
😀
最近使用LlaMA-Factory框架训练千问大模型时,总是会遇到一些问题。所以本篇博客会记录这些Error的解决方法。

📝 Error

  • NotImplementedError: Using RTX 4000 series doesn't support faster communication broadband via P2P or IB. Please set NCCL_P2P_DISABLE="1" and NCCL_IB_DISABLE="1" or use accelerate launch which will do this automatically.
    • 问题理解:torchrun + NCCL 在 RTX 4000 系列上默认开启的 P2P/IB 通道不支持。
    • 解决:
      • 方案一:设置临时环境变量。同时,设置完成后,要在同一个Shell/终端中执行llamafactory-cli webui。
        • 方案二:显示设置
       
      💡
      以上便是本篇博客的主要内容,这篇博客会不定时的增补内容。欢迎您在底部评论区留言,一起交流~
      上一篇
      记录-将HF模型转换为GGUF格式并部署在ollama服务框架中
      下一篇
      记录-Transformer的位置编码(一)

      评论
      Loading...