Lazy loaded image
记录-vLLM模型部署调用
字数 600阅读时长 2 分钟
2025-8-19
2025-9-6
AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了使用 vLLM 框架部署和调用模型的完整流程。文章首先说明如何安装 vLLM,包括环境要求与版本注意事项,接着讲解如何下载模型或上传训练好的模型,并启动 vLLM 服务进行部署。然后,文章介绍通过安装 langchain 库,在本地调用已部署的模型,最后给出关闭 vLLM 服务的建议。核心思路清晰,适合新手快速上手。
URL
type
Post
status
Published
date
Aug 19, 2025
slug
vLLM2
summary
vLLM
tags
大模型
Pytorch
深度学习
Python
实用教程
category
大模型
icon
password
😀
此篇博客主要记录部署vLLM推理框架、在vLLM中部署模型以及调用vLLM中的模型。

📝 vLLM

vLLM框架安装

  • pip install vllm,请注意:如果环境已经llama-index,那么需要注意版本适配问题。如果不想在版本上浪费时间,那么请创建新的环境。

vLLM启动服务

下载模型或者将训练好的模型文件上传到服务器

Tips
  • 作者使用的魔塔社区下载的Qwen/Qwen2.5-0.5B-Instruct模型。
  • 从模型结构中可以看出,vllm框架对模型的格式要求没有ollama那么唯一。
  • 下载模型的步骤不再记录。

启动vllm服务,并将模型部署到vllm服务中

  • 启动命令:vllm server --port 36921 服务器模型路径
notion image
notion image

🤗 本地调用已部署模型

Tips
  • 请注意,由于这几天在学习langchain相关知识,所以这里调用API采用的是langchain框架的代码。与open_ai库实现流程相似,简单易懂。代码部分也会有相关注释,辅助大家理解。

安装 langchain

  • 可以参考该链接https://www.langchain.com.cn/docs/how_to/installation/进行安装。总体来说只用到langchain、langchain-core、langchain-community三个包。直接使用pip install langchain langchain-core langchain-community 即可。

使用 langchain 来调用模型

Tips
  • 请注意,作者这里只进行了本地调用,没有跨平台或服务器调用API。如果想要跨服务器调用vllm上的模型,则需要将127.0.0.1更改为你部署vllm服务器的IP地址。通过ip a即可查看到。

关闭 vLLM 服务

  1. Ctrl + C 直接退出
  1. 通过ps aux | grep vllm 确定是否退出vllm服务。

📎 参考文章

 
💡
以上便是关于vLLM推理框架、模型部署以及模型调用的相关记录,欢迎您在底部评论区留言,一起交流~
上一篇
记录-Ollama模型部署调用
下一篇
记录-lmdeploy模型部署调用

评论
Loading...