Lazy loaded image
记录-Ollama模型部署调用
字数 813阅读时长 3 分钟
2025-8-19
2025-9-6
AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了如何在 Linux 系统上部署和调用 Ollama 模型。首先,它解释了 Ollama 是一个简化大模型使用的部署框架,需要使用 GGUF 格式的模型文件。接着,文章详细说明了通过命令行或下载压缩包来安装 Ollama,并启动服务、加载指定模型(如 qwen2.5:0.5b)的步骤。最后,作者提到可以通过 ollama 暴露的 API 来本地调用已部署的模型,并建议使用 langchain 等工具进行实际生产调用。
URL
type
status
date
slug
summary
tags
category
icon
password
😀
本篇博客主要用于记录如何使用Ollama部署模型以及如何使用或者调用已经部署好的模型。

📝 Ollama

理论

Ollama是一种LLM模型部署服务框架。该框架简化了用户使用大模型的门槛。Ollama模型使用GG UF格式模型文件,所以伙伴们在魔塔社区和Huggingface下载的大部分模型无法直接使用,需要转换格式,或者直接下载GGUF格式的模型文件。

Linux安装

  • curl -fsSL https://ollama.com/install.sh | sh。有时候通过该命令无法下载成功。所以,伙伴们需要通过另外一种方式下载:
    • 通过https://github.com/ollama/ollama/tags下载目标版本的压缩包。
    • notion image
    • 解压缩包:如果下载下来的是.tgz文件,那么直接运行sudo tar -C /usr -xzf ollama-linux-amd64.tgz。如果下载下载的是.tar文件,那么需要修改原命令为sudo tar -C /usr -xvf ollama-linux-amd64.tar。
    • 检验安装是否成功:ollama -v。这里的警告是指Ollama服务没有启动
notion image

Ollama启动服务

  • 启动Ollama服务命令: ollama serve。这一条命了仅仅启动了Ollama框架的服务,但是没有部署对应的模型,需要我们指定对应的模型。
  • 加载部署模型ollama run qwen2.5:0.5b。在查看模型大小时,大家可以发现ollama上的模型与modedescope以及huggingface上的模型大小不一致。这是因为ollama进行了量化处理然后采用GGUF格式存储。以下是该命令加载部署后的states:(通过/exit退出)
notion image
  • 上面模型与用户交互的图片并不适合我们实际生产需求。我们一般是通过ollama暴露的API来调用我们已经部署好的模型。通过ollama list命令查看ollama部署了哪些模型。
notion image

🤗 本地调用已部署模型

Tips
请注意,由于这几天在学习langchain相关知识,所以这里调用API采用的是langchain框架的代码。与open_ai库实现流程相似,简单易懂。代码部分也会有相关注释,辅助大家理解。

安装 langchain

  1. 可以参考该链接https://www.langchain.com.cn/docs/how_to/installation/进行安装。总体来说只用到langchain、langchain-core、langchain-community三个包。直接使用pip install langchain langchain-core langchain-community 即可。

使用 langchain 来调用模型

Tips
请注意,作者这里只进行了本地调用,没有跨平台或服务器调用API。如果想要跨服务器调用ollama上的模型,则需要将127.0.0.1更改为你部署ollama服务器的IP地址。通过ip a即可查看到。
代码中包含有无消息历史两种使用方法。

关闭 Ollama 服务

  • Ctrl + C 直接退出
  • 通过ps aux | grep ollama 确定是否退出ollama服务

📎 参考文章

💡
以上便是Ollama框架部署以及调用模型记录,欢迎您在底部评论区留言,一起交流~
上一篇
记录-DeepSpeed框架分布式训练(一)
下一篇
记录-vLLM模型部署调用

评论
Loading...