AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了如何将 Hugging Face 模型转换为 GGUF 格式并部署到 ollama 服务中。首先,作者使用 llama.cpp 框架进行格式转换,详细说明了从克隆源码、安装依赖到执行转换命令的步骤,并介绍了 f16、q4_0 等量化选项。接着,简要提及在已启动的 ollama 服务中部署转换后的模型,为本地模型服务提供了实用指南。
URL
type
status
date
slug
summary
tags
category
icon
password
本篇博客主要记录将微调好的HF模型文件转换为GGUF格式并部署到ollama服务框架中。博主通过LlaMA-Factory框架微调Llama-3.2-1B-Instruct模型。部署ollama服务可以点击该链接查看。
📝 模型格式转换
博主使用llama.cpp框架进行格式转换。llama.cpp也是一种推理框架,相较于主流的vLLM和LMDeploy推理框架,llama.cpp使用C/C++语言实现。这种情况导致llama.cpp很容易在Windows、Linux、Apple等系统上编译,同时也支持很多后端硬件。不仅仅包含英伟达显卡,还包含AMD显卡、华为晟腾系列和英特尔系列等。llama.cpp很强大,但本篇博客主要用llama.cpp进行格式转换,详细内容可以期待后期博客更新。
安装llama.cpp
博主通过运行llama.cpp提供的源码进行格式转换。
首先,从github将llama.cpp源码克隆下来。
接着,安装llama.cpp的依赖包。
再接着,执行转换。
其中,--outtype有很多类型,这里博主挑几个介绍一下:
Tips
伙伴们需要注意:在格式转换时,llama.cpp支持量化转换。即在HF模型基础上进行量化,将量化后的模型再转为GGUF格式。
- f16:模型不量化,直接将HF模型转换为GGUF格式。
- q4_0:4位精度量化。
- q8_0:8位精度量化。
- ……
最后,查看转换后的模型。从图中可以看出模型转换成功。如果没有指定模型的绝对地址,那么请在llama.cpp文件夹下寻找目标模型。

🤗 模型部署
在服务器部署ollama服务框架,请点击该链接,这里不再赘述。如果已经启动ollama服务,那么请接着以下步骤操作。
首先,创建文件,并将GGUF模型的路径放置在该文件中。
将From GGUF模型的绝对路径(建议直接绝对路径,轻松省心)这句语句输入modelpath文件中。

接着,通过ollama命令将该模型加载到ollama服务框架中。当出现success便代表加载成功。

再接着,通过ollam list具体查看加载到的模型。

最后,启动模型并测试。

存在问题:
- 在原微调后的HF模型中,当博主输入“你好”时,模型会输出“您好,我是智元,一个由GSW开发的AI助手,很高兴认识您。请问我能为您做些什么?”相近的语句。但是,从上图可以发现:转换后的模型胡乱输出。这是让博主疑惑的地方!目前博主还没有找到问题在哪里!如果有伙伴们知道,请在评论区留言,谢谢!
📎 参考文章
以上便是本篇博客的内容,欢迎您在底部评论区留言,一起交流~
- 作者:不爱吃香菜的萌新
- 链接:https://hexo.levsongsw.com//largemoder/llama.cpp
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。




