记录-vLLM模型部署调用 | 不爱吃香菜的萌新

大模型

记录-vLLM模型部署调用

字数 600阅读时长≈ 2 分钟

2025-9-6

AI智能摘要

GPT

这里是萌新AI，这篇文章介绍了 vLLM 模型部署与调用的完整流程。首先，作者详细说明了 vLLM 框架的安装前提，包括 Python 版本和 GPU 要求，并建议创建新环境以避免依赖冲突。接着，文章指导如何启动 vLLM 服务并部署模型，例如通过魔塔社区下载 Qwen 模型。最后，作者分享了如何利用 LangChain 框架在本地调用已部署的模型，并提供了安装和使用的简要步骤。整个过程清晰实用，适合快速上手。

URL

type

status

date

slug

summary

tags

category

icon

password

😀

此篇博客主要记录部署vLLM推理框架、在vLLM中部署模型以及调用vLLM中的模型。

📝 vLLM

vLLM框架安装

安装前请注意你的Python版本、GPU算力7.0以上和CUDA 12.1或者11.8.详细信息请查看该链接：https://vllm.hyper.ai/docs/getting-started/installation/gpu

pip install vllm，请注意：如果环境已经llama-index，那么需要注意版本适配问题。如果不想在版本上浪费时间，那么请创建新的环境。

vLLM启动服务

下载模型或者将训练好的模型文件上传到服务器

Tips

作者使用的魔塔社区下载的Qwen/Qwen2.5-0.5B-Instruct模型。

从模型结构中可以看出，vllm框架对模型的格式要求没有ollama那么唯一。

下载模型的步骤不再记录。

启动vllm服务，并将模型部署到vllm服务中

启动命令：vllm server --port 36921 服务器模型路径

notion image

查看已部署模型：curl http://localhost:36921/v1/models。请注意：图片中的id属性值便是langchain加载模型时的base_url变量值。

notion image

🤗 本地调用已部署模型

Tips

请注意，由于这几天在学习langchain相关知识，所以这里调用API采用的是langchain框架的代码。与open_ai库实现流程相似，简单易懂。代码部分也会有相关注释，辅助大家理解。

安装 langchain

可以参考该链接https://www.langchain.com.cn/docs/how_to/installation/进行安装。总体来说只用到langchain、langchain-core、langchain-community三个包。直接使用pip install langchain langchain-core langchain-community 即可。

使用 langchain 来调用模型

Tips

请注意，作者这里只进行了本地调用，没有跨平台或服务器调用API。如果想要跨服务器调用vllm上的模型，则需要将127.0.0.1更改为你部署vllm服务器的IP地址。通过ip a即可查看到。

vLLMUseLog/UseDefaultAPI.py · LEVSONGSW/DeepLearnLog - Gitee

深度学习日志记录

vLLMUseLog/UseDefaultAPI.py · LEVSONGSW/DeepLearnLog - Gitee

https://gitee.com/levsongsw/deep-learn-log/blob/master/vLLMUseLog/UseDefaultAPI.py

vLLMUseLog/UseDefaultAPI.py · LEVSONGSW/DeepLearnLog - Gitee

关闭 vLLM 服务

Ctrl + C 直接退出

通过ps aux | grep vllm 确定是否退出vllm服务。

📎 参考文章

GPU | vLLM 中文站

\*在线运行 vLLM 入门教程：零基础分步指南

https://vllm.hyper.ai/docs/getting-started/installation/gpu

构建一个聊天机器人 | LangChain中文网

本指南假设您对以下概念有所了解：

构建一个聊天机器人 | LangChain中文网

https://www.langchain.com.cn/docs/tutorials/chatbot/

💡

以上便是关于vLLM推理框架、模型部署以及模型调用的相关记录，欢迎您在底部评论区留言，一起交流~

记录-Ollama模型部署调用

记录-lmdeploy模型部署调用

记录-lmdeploy模型部署调用

作者:不爱吃香菜的萌新
链接:https://hexo.levsongsw.com//largemoder/vLLM2
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

VScode插件(一)

Lazy loaded image

Lazy loaded image

记录-NotionNext博客添加Twikoo评论插件

Lazy loaded image

记录-为什么模型推理时，显存占用分析只需要KV-Catch而没有Q-Catch

Lazy loaded image

Paper-Attention Is All You Need

Lazy loaded image

Paper-Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Lazy loaded image

评论

Loading...

目录

你好！我是

不爱吃香菜的萌新

🎉内容输出中🎉

-- 感谢您的支持 ---

👏内容输出中👏