Lazy loaded image
记录-将HF模型转换为GGUF格式并部署在ollama服务框架中
字数 898阅读时长 3 分钟
2025-8-30
2025-9-6
AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了如何将 Hugging Face 模型转换为 GGUF 格式并部署到 ollama 服务中。首先,作者使用 llama.cpp 框架进行格式转换,详细说明了从克隆源码、安装依赖到执行转换命令的步骤,并介绍了 f16、q4_0 等量化选项。接着,简要提及在已启动的 ollama 服务中部署转换后的模型,为本地模型服务提供了实用指南。
URL
type
status
date
slug
summary
tags
category
icon
password
😀
本篇博客主要记录将微调好的HF模型文件转换为GGUF格式并部署到ollama服务框架中。博主通过LlaMA-Factory框架微调Llama-3.2-1B-Instruct模型。部署ollama服务可以点击该链接查看。

📝 模型格式转换

博主使用llama.cpp框架进行格式转换。llama.cpp也是一种推理框架,相较于主流的vLLM和LMDeploy推理框架,llama.cpp使用C/C++语言实现。这种情况导致llama.cpp很容易在Windows、Linux、Apple等系统上编译,同时也支持很多后端硬件。不仅仅包含英伟达显卡,还包含AMD显卡、华为晟腾系列和英特尔系列等。llama.cpp很强大,但本篇博客主要用llama.cpp进行格式转换,详细内容可以期待后期博客更新。

安装llama.cpp

博主通过运行llama.cpp提供的源码进行格式转换。
首先,从github将llama.cpp源码克隆下来。
接着,安装llama.cpp的依赖包。
再接着,执行转换。
其中,--outtype有很多类型,这里博主挑几个介绍一下:
Tips
伙伴们需要注意:在格式转换时,llama.cpp支持量化转换。即在HF模型基础上进行量化,将量化后的模型再转为GGUF格式。
  • f16:模型不量化,直接将HF模型转换为GGUF格式。
  • q4_0:4位精度量化。
  • q8_0:8位精度量化。
  • ……
最后,查看转换后的模型。从图中可以看出模型转换成功。如果没有指定模型的绝对地址,那么请在llama.cpp文件夹下寻找目标模型。
notion image

🤗 模型部署

在服务器部署ollama服务框架,请点击该链接,这里不再赘述。如果已经启动ollama服务,那么请接着以下步骤操作。
首先,创建文件,并将GGUF模型的路径放置在该文件中。
将From GGUF模型的绝对路径(建议直接绝对路径,轻松省心)这句语句输入modelpath文件中。
notion image
接着,通过ollama命令将该模型加载到ollama服务框架中。当出现success便代表加载成功。
notion image
再接着,通过ollam list具体查看加载到的模型。
notion image
最后,启动模型并测试。
notion image
存在问题:
  • 在原微调后的HF模型中,当博主输入“你好”时,模型会输出“您好,我是智元,一个由GSW开发的AI助手,很高兴认识您。请问我能为您做些什么?”相近的语句。但是,从上图可以发现:转换后的模型胡乱输出。这是让博主疑惑的地方!目前博主还没有找到问题在哪里!如果有伙伴们知道,请在评论区留言,谢谢!

📎 参考文章

 
💡
以上便是本篇博客的内容,欢迎您在底部评论区留言,一起交流~
上一篇
记录-模型-Open WebUI-vLLM使用
下一篇
记录-LlaMA-Factory在英伟达显卡微调大模型出现的Error

评论
Loading...