AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了 vLLM 模型部署与调用的完整流程。首先,作者详细说明了 vLLM 框架的安装前提,包括 Python 版本和 GPU 要求,并建议创建新环境以避免依赖冲突。接着,文章指导如何启动 vLLM 服务并部署模型,例如通过魔塔社区下载 Qwen 模型。最后,作者分享了如何利用 LangChain 框架在本地调用已部署的模型,并提供了安装和使用的简要步骤。整个过程清晰实用,适合快速上手。
URL
type
status
date
slug
summary
tags
category
icon
password
此篇博客主要记录部署vLLM推理框架、在vLLM中部署模型以及调用vLLM中的模型。
📝 vLLM
vLLM框架安装
- 安装前请注意你的Python版本、GPU算力7.0以上和CUDA 12.1或者11.8.详细信息请查看该链接:https://vllm.hyper.ai/docs/getting-started/installation/gpu
- pip install vllm,请注意:如果环境已经llama-index,那么需要注意版本适配问题。如果不想在版本上浪费时间,那么请创建新的环境。
vLLM启动服务
下载模型或者将训练好的模型文件上传到服务器
Tips
- 作者使用的魔塔社区下载的Qwen/Qwen2.5-0.5B-Instruct模型。
- 从模型结构中可以看出,vllm框架对模型的格式要求没有ollama那么唯一。
- 下载模型的步骤不再记录。
启动vllm服务,并将模型部署到vllm服务中
- 启动命令:vllm server --port 36921 服务器模型路径

- 查看已部署模型:curl http://localhost:36921/v1/models。请注意:图片中的id属性值便是langchain加载模型时的base_url变量值。

🤗 本地调用已部署模型
Tips
- 请注意,由于这几天在学习langchain相关知识,所以这里调用API采用的是langchain框架的代码。与open_ai库实现流程相似,简单易懂。代码部分也会有相关注释,辅助大家理解。
安装 langchain
- 可以参考该链接https://www.langchain.com.cn/docs/how_to/installation/进行安装。总体来说只用到langchain、langchain-core、langchain-community三个包。直接使用pip install langchain langchain-core langchain-community 即可。
使用 langchain 来调用模型
Tips
- 请注意,作者这里只进行了本地调用,没有跨平台或服务器调用API。如果想要跨服务器调用vllm上的模型,则需要将127.0.0.1更改为你部署vllm服务器的IP地址。通过ip a即可查看到。
关闭 vLLM 服务
- Ctrl + C 直接退出
- 通过ps aux | grep vllm 确定是否退出vllm服务。
📎 参考文章
以上便是关于vLLM推理框架、模型部署以及模型调用的相关记录,欢迎您在底部评论区留言,一起交流~
- 作者:不爱吃香菜的萌新
- 链接:https://hexo.levsongsw.com//largemoder/vLLM2
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。






