记录-vLLM模型部署调用 | 山潍

大模型

记录-vLLM模型部署调用

字数 600阅读时长≈ 2 分钟

2025-9-6

AI智能摘要

GPT

获取文章摘要失败，请稍后再试。

URL

type

Post

status

Published

date

Aug 19, 2025

slug

vLLM2

summary

vLLM

tags

大模型

Pytorch

深度学习

Python

实用教程

category

大模型

icon

password

😀

此篇博客主要记录部署vLLM推理框架、在vLLM中部署模型以及调用vLLM中的模型。

📝 vLLM

vLLM框架安装

安装前请注意你的Python版本、GPU算力7.0以上和CUDA 12.1或者11.8.详细信息请查看该链接：https://vllm.hyper.ai/docs/getting-started/installation/gpu

pip install vllm，请注意：如果环境已经llama-index，那么需要注意版本适配问题。如果不想在版本上浪费时间，那么请创建新的环境。

vLLM启动服务

下载模型或者将训练好的模型文件上传到服务器

Tips

作者使用的魔塔社区下载的Qwen/Qwen2.5-0.5B-Instruct模型。

从模型结构中可以看出，vllm框架对模型的格式要求没有ollama那么唯一。

下载模型的步骤不再记录。

启动vllm服务，并将模型部署到vllm服务中

启动命令：vllm server --port 36921 服务器模型路径

notion image

查看已部署模型：curl http://localhost:36921/v1/models。请注意：图片中的id属性值便是langchain加载模型时的base_url变量值。

notion image

🤗 本地调用已部署模型

Tips

请注意，由于这几天在学习langchain相关知识，所以这里调用API采用的是langchain框架的代码。与open_ai库实现流程相似，简单易懂。代码部分也会有相关注释，辅助大家理解。

安装 langchain

可以参考该链接https://www.langchain.com.cn/docs/how_to/installation/进行安装。总体来说只用到langchain、langchain-core、langchain-community三个包。直接使用pip install langchain langchain-core langchain-community 即可。

使用 langchain 来调用模型

Tips

请注意，作者这里只进行了本地调用，没有跨平台或服务器调用API。如果想要跨服务器调用vllm上的模型，则需要将127.0.0.1更改为你部署vllm服务器的IP地址。通过ip a即可查看到。

vLLMUseLog/UseDefaultAPI.py · LEVSONGSW/DeepLearnLog - Gitee

深度学习日志记录

vLLMUseLog/UseDefaultAPI.py · LEVSONGSW/DeepLearnLog - Gitee

https://gitee.com/levsongsw/deep-learn-log/blob/master/vLLMUseLog/UseDefaultAPI.py

vLLMUseLog/UseDefaultAPI.py · LEVSONGSW/DeepLearnLog - Gitee

关闭 vLLM 服务

Ctrl + C 直接退出

通过ps aux | grep vllm 确定是否退出vllm服务。

📎 参考文章

GPU | vLLM 中文站

\*在线运行 vLLM 入门教程：零基础分步指南

https://vllm.hyper.ai/docs/getting-started/installation/gpu

构建一个聊天机器人 | LangChain中文网

本指南假设您对以下概念有所了解：

构建一个聊天机器人 | LangChain中文网

https://www.langchain.com.cn/docs/tutorials/chatbot/

💡

以上便是关于vLLM推理框架、模型部署以及模型调用的相关记录，欢迎您在底部评论区留言，一起交流~

记录-Ollama模型部署调用

记录-lmdeploy模型部署调用

记录-lmdeploy模型部署调用

作者:山潍
链接:https://hexo.levsongsw.com//largemoder/vLLM2
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

记录-Docker：pull 和 run镜像备忘录

Lazy loaded image

记录-MCP：FastMCP创建server方法（一）

Lazy loaded image

记录-MCP：FastMCP创建server方法（二）

Lazy loaded image

记录-MCP：Client-服务器回调Client模型

Lazy loaded image

记录-MCP：Client-服务器行为用户确认

Lazy loaded image

记录-Docker打包Python-Web服务

Lazy loaded image

评论

Loading...

目录

你好！我是

山潍

🎉内容输出中🎉

-- 感谢您的支持 ---

👏内容输出中👏