Lazy loaded image
记录-vLLM模型部署调用
字数 600阅读时长 2 分钟
2025-8-19
2025-9-6
AI智能摘要
GPT
这里是萌新AI,这篇文章介绍了 vLLM 模型部署与调用的完整流程。首先,作者详细说明了 vLLM 框架的安装前提,包括 Python 版本和 GPU 要求,并建议创建新环境以避免依赖冲突。接着,文章指导如何启动 vLLM 服务并部署模型,例如通过魔塔社区下载 Qwen 模型。最后,作者分享了如何利用 LangChain 框架在本地调用已部署的模型,并提供了安装和使用的简要步骤。整个过程清晰实用,适合快速上手。
URL
type
status
date
slug
summary
tags
category
icon
password
😀
此篇博客主要记录部署vLLM推理框架、在vLLM中部署模型以及调用vLLM中的模型。

📝 vLLM

vLLM框架安装

  • pip install vllm,请注意:如果环境已经llama-index,那么需要注意版本适配问题。如果不想在版本上浪费时间,那么请创建新的环境。

vLLM启动服务

下载模型或者将训练好的模型文件上传到服务器

Tips
  • 作者使用的魔塔社区下载的Qwen/Qwen2.5-0.5B-Instruct模型。
  • 从模型结构中可以看出,vllm框架对模型的格式要求没有ollama那么唯一。
  • 下载模型的步骤不再记录。

启动vllm服务,并将模型部署到vllm服务中

  • 启动命令:vllm server --port 36921 服务器模型路径
notion image
notion image

🤗 本地调用已部署模型

Tips
  • 请注意,由于这几天在学习langchain相关知识,所以这里调用API采用的是langchain框架的代码。与open_ai库实现流程相似,简单易懂。代码部分也会有相关注释,辅助大家理解。

安装 langchain

  • 可以参考该链接https://www.langchain.com.cn/docs/how_to/installation/进行安装。总体来说只用到langchain、langchain-core、langchain-community三个包。直接使用pip install langchain langchain-core langchain-community 即可。

使用 langchain 来调用模型

Tips
  • 请注意,作者这里只进行了本地调用,没有跨平台或服务器调用API。如果想要跨服务器调用vllm上的模型,则需要将127.0.0.1更改为你部署vllm服务器的IP地址。通过ip a即可查看到。

关闭 vLLM 服务

  1. Ctrl + C 直接退出
  1. 通过ps aux | grep vllm 确定是否退出vllm服务。

📎 参考文章

 
💡
以上便是关于vLLM推理框架、模型部署以及模型调用的相关记录,欢迎您在底部评论区留言,一起交流~
上一篇
记录-Ollama模型部署调用
下一篇
记录-lmdeploy模型部署调用

评论
Loading...