⭐
使用本地部署的开源大模型

用户988

用户1849

2024年5月28日修改

📌

本节中，我们将学习如何使用本地部署的开源模型 API 服务来使用 MetaGPT，并设置修复功能来修正能力较弱模型的输出格式错误。​

需要注意，由于开源模型效果本身的局限性，并不能保证代码的稳定生成效果。​

同时，我们也在探索如何在开源模型下得到更稳定、质量更好的输出。如果你对此也感兴趣，可以在 discord 或者微信社区群里联系我们，或者在 MetaGPT 仓库中提交 PR。​

注意，推荐使用 openai 兼容接口进行模型部署。这样，请求和返回处理都可以直接使用 openai sdk 进行处理，将会简化整体的集成流程。​

同时，下述几个推理仓库也支持发布为 openai 兼容的接口（除 ollama 外），需要改动的工作量很小。​

LLaMA-Factory

仓库：https://github.com/hiyouga/LLaMA-Factory

支持模型列表：https://github.com/hiyouga/LLaMA-Factory#supported-models

安装

代码块

git clone https://github.com/hiyouga/LLaMA-Factory.git​
cd LLaMA-Factory​
pip install -e .[torch,metrics]​

部署 API

代码块

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 llamafactory-cli api \​
--model_name_or_path "Qwen/Qwen1.5-0.5B-Chat" \​
--template "qwen" \​
--infer_backend "vllm" \​
--vllm_enforce_eager true​

成功后应该会在终端显示：

common.docs_name - LarkCCM_Docs_Menu_Image

API 调用

在config2.yaml中设置

代码块

llm:​
  api_type: "openai"​
  base_url: 'http://0.0.0.0:8000/v1' # 根据你显示的api服务地址修改​
  model: 'Qwen1.5-0.5B-Chat' # 修改为你的模型名称​

FastChat

仓库：https://github.com/lm-sys/FastChat

安装

代码块

pip install "fschat[model_worker,webui]"

部署示例

1.
启动 controller：​
python -m fastchat.serve.controller --host 127.0.0.1​

启动模型（替换为你要用的模型路径）:

python -m fastchat.serve.model_worker --host 127.0.0.1 --controller-address http://127.0.0.1:21001 --model-path Qwen/Qwen1.5-0.5B-Chat

3.
开启 API 服务：​

python -m fastchat.serve.openai_api_server --host 127.0.0.1 --controller-address http://127.0.0.1:21001 --port 8000

成功后提示应该如下：

API 调用

在config2.yaml中设置

代码块

llm:​
  api_type: "openai"​
  base_url: 'http://127.0.0.1:8000/v1' # 根据你显示的api服务地址修改​
  model: 'Qwen1.5-0.5B-Chat' # 修改为你的模型名称​

vllm