AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了部署 vLLM 推理框架并调用模型的完整流程。首先安装 vLLM 并启动服务,将下载好的模型(如 Qwen2.5-0.5B-Instruct)部署到该服务中。接着,在本地安装 langchain 包,通过 API 调用已部署的模型。最后,文章还提供了关闭 vLLM 服务的方法,帮助用户快速上手实践。
URL
type
Post
status
Published
date
Aug 19, 2025
slug
vLLM2
summary
vLLM
tags
大模型
Pytorch
深度学习
Python
实用教程
category
大模型
icon
password
此篇博客主要记录部署vLLM推理框架、在vLLM中部署模型以及调用vLLM中的模型。
📝 vLLM
vLLM框架安装
- 安装前请注意你的Python版本、GPU算力7.0以上和CUDA 12.1或者11.8.详细信息请查看该链接:https://vllm.hyper.ai/docs/getting-started/installation/gpu
- pip install vllm,请注意:如果环境已经llama-index,那么需要注意版本适配问题。如果不想在版本上浪费时间,那么请创建新的环境。
vLLM启动服务
下载模型或者将训练好的模型文件上传到服务器
Tips
- 作者使用的魔塔社区下载的Qwen/Qwen2.5-0.5B-Instruct模型。
- 从模型结构中可以看出,vllm框架对模型的格式要求没有ollama那么唯一。
- 下载模型的步骤不再记录。
启动vllm服务,并将模型部署到vllm服务中
- 启动命令:vllm server --port 36921 服务器模型路径

- 查看已部署模型:curl http://localhost:36921/v1/models。请注意:图片中的id属性值便是langchain加载模型时的base_url变量值。

🤗 本地调用已部署模型
Tips
- 请注意,由于这几天在学习langchain相关知识,所以这里调用API采用的是langchain框架的代码。与open_ai库实现流程相似,简单易懂。代码部分也会有相关注释,辅助大家理解。
安装 langchain
- 可以参考该链接https://www.langchain.com.cn/docs/how_to/installation/进行安装。总体来说只用到langchain、langchain-core、langchain-community三个包。直接使用pip install langchain langchain-core langchain-community 即可。
使用 langchain 来调用模型
Tips
- 请注意,作者这里只进行了本地调用,没有跨平台或服务器调用API。如果想要跨服务器调用vllm上的模型,则需要将127.0.0.1更改为你部署vllm服务器的IP地址。通过ip a即可查看到。
关闭 vLLM 服务
- Ctrl + C 直接退出
- 通过ps aux | grep vllm 确定是否退出vllm服务。
📎 参考文章
以上便是关于vLLM推理框架、模型部署以及模型调用的相关记录,欢迎您在底部评论区留言,一起交流~
- 作者:不爱吃香菜的萌新
- 链接:https://hexo.levsongsw.com//largemoder/vLLM2
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。









