记录-将HF模型转换为GGUF格式并部署在ollama服务框架中 | 不爱吃香菜的萌新

大模型

记录-将HF模型转换为GGUF格式并部署在ollama服务框架中

字数 898阅读时长≈ 3 分钟

2025-9-6

AI智能摘要

GPT

这里是萌新AI，这篇文章介绍了如何将 Hugging Face 模型转换为 GGUF 格式并部署到 ollama 服务中。首先，作者使用 llama.cpp 框架进行格式转换，详细说明了从克隆源码、安装依赖到执行转换命令的步骤，并介绍了 f16、q4_0 等量化选项。接着，简要提及在已启动的 ollama 服务中部署转换后的模型，为本地模型服务提供了实用指南。

URL

type

status

date

slug

summary

tags

category

icon

password

😀

本篇博客主要记录将微调好的HF模型文件转换为GGUF格式并部署到ollama服务框架中。博主通过LlaMA-Factory框架微调Llama-3.2-1B-Instruct模型。部署ollama服务可以点击该链接查看。

📝 模型格式转换

博主使用llama.cpp框架进行格式转换。llama.cpp也是一种推理框架，相较于主流的vLLM和LMDeploy推理框架，llama.cpp使用C/C++语言实现。这种情况导致llama.cpp很容易在Windows、Linux、Apple等系统上编译，同时也支持很多后端硬件。不仅仅包含英伟达显卡，还包含AMD显卡、华为晟腾系列和英特尔系列等。llama.cpp很强大，但本篇博客主要用llama.cpp进行格式转换，详细内容可以期待后期博客更新。

安装llama.cpp

博主通过运行llama.cpp提供的源码进行格式转换。

首先，从github将llama.cpp源码克隆下来。

接着，安装llama.cpp的依赖包。

再接着，执行转换。

其中，--outtype有很多类型，这里博主挑几个介绍一下：

Tips

伙伴们需要注意：在格式转换时，llama.cpp支持量化转换。即在HF模型基础上进行量化，将量化后的模型再转为GGUF格式。

f16:模型不量化，直接将HF模型转换为GGUF格式。

q4_0:4位精度量化。

q8_0:8位精度量化。

……

最后，查看转换后的模型。从图中可以看出模型转换成功。如果没有指定模型的绝对地址，那么请在llama.cpp文件夹下寻找目标模型。

notion image

🤗 模型部署

在服务器部署ollama服务框架，请点击该链接，这里不再赘述。如果已经启动ollama服务，那么请接着以下步骤操作。

首先，创建文件，并将GGUF模型的路径放置在该文件中。

将From GGUF模型的绝对路径(建议直接绝对路径，轻松省心)这句语句输入modelpath文件中。

notion image

接着，通过ollama命令将该模型加载到ollama服务框架中。当出现success便代表加载成功。

notion image

再接着，通过ollam list具体查看加载到的模型。

notion image

最后，启动模型并测试。

notion image

存在问题：

在原微调后的HF模型中，当博主输入“你好”时，模型会输出“您好，我是智元，一个由GSW开发的AI助手，很高兴认识您。请问我能为您做些什么？”相近的语句。但是，从上图可以发现：转换后的模型胡乱输出。这是让博主疑惑的地方！目前博主还没有找到问题在哪里！如果有伙伴们知道，请在评论区留言，谢谢！

📎 参考文章

【GPT入门】第51课将hf模型转换为GGUF-CSDN博客

文章浏览阅读190次，点赞6次，收藏2次。本文介绍了将Hugging Face模型转换为GGUF格式并在ollama上运行的方法。首先通过llama.cpp项目将Lora微调后的Qwen2.5-0.5B-Instruct模型转换为GGUF格式，然后安装ollama并创建自定义模型文件，最终成功加载运行转换后的模型。整个流程包括模型转换、ollama环境配置和模型部署测试三个主要步骤，实现了在ollama支持的机器上运行转换后的模型。

【GPT入门】第51课将hf模型转换为GGUF-CSDN博客

https://blog.csdn.net/spark_dev/article/details/150559067

llama.cpp/docs/build.md at master · ggml-org/llama.cpp

LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.

llama.cpp/docs/build.md at master · ggml-org/llama.cpp

https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md

llama.cpp/docs/build.md at master · ggml-org/llama.cpp

💡

以上便是本篇博客的内容，欢迎您在底部评论区留言，一起交流~

记录-模型-Open WebUI-vLLM使用

记录-LlaMA-Factory在英伟达显卡微调大模型出现的Error

记录-LlaMA-Factory在英伟达显卡微调大模型出现的Error

作者:不爱吃香菜的萌新
链接:https://hexo.levsongsw.com//largemoder/llama.cpp
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

VScode插件(一)

Lazy loaded image

Lazy loaded image

记录-NotionNext博客添加Twikoo评论插件

Lazy loaded image

记录-为什么模型推理时，显存占用分析只需要KV-Catch而没有Q-Catch

Lazy loaded image

Paper-Attention Is All You Need

Lazy loaded image

Paper-Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Lazy loaded image

评论

Loading...

目录

你好！我是

不爱吃香菜的萌新

🎉内容输出中🎉

-- 感谢您的支持 ---

👏内容输出中👏

目录

交流频道

加入我们的社群讨论分享

点击加入社群

最新发布

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

¹⁵⁶

²²

²²

¹⁹

¹⁹

¹⁸

⁷

⁶

²

¹

¹

¹

文章数:

190

建站天数:

176 天