分享
使用本地部署的开源大模型
输入“/”快速插入内容
⭐
使用本地部署的
开源大模型
用户988
用户1849
2024年5月28日修改
📌
本节中,我们将学习如何使用本地部署的开源模型 API 服务来使用 MetaGPT,并设置修复功能来修正能力较弱模型的输出格式错误。
需要注意,
由于
开源模型效果本身的局限性,并不能保证代码的稳定生成效果
。
同时,我们也在探索如何在开源模型下得到更稳定、质量更好的输出。如果你对此也感兴趣,可以在 discord 或者微信社区群里联系我们,或者在 MetaGPT 仓库中提交 PR。
注意,推荐使用
openai 兼容接口
进行模型部署。这样,请求和返回处理都可以直接使用 openai sdk 进行处理,将会简化整体的集成流程。
同时,下述几个推理仓库也支持发布为 openai 兼容的接口(除 ollama 外),需要改动的工作量很小。
LLaMA-Factory
仓库:
https://github.com/hiyouga/LLaMA-Factory
支持模型列表:
https://github.com/hiyouga/LLaMA-Factory#supported-models
安装
代码块
Python
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .[torch,metrics]
部署 API
代码块
Shell
CUDA_VISIBLE_DEVICES=0 API_PORT=8000 llamafactory-cli api \
--model_name_or_path "
Qwen/Qwen1.5-0.5B-Chat
" \
--template "qwen" \
--infer_backend "vllm" \
--vllm_enforce_eager true
成功后应该会在终端显示:
API 调用
在
config2.yaml
中设置
代码块
YAML
llm:
api_type: "openai"
base_url: 'http://0.0.0.0:8000/v1' # 根据你显示的api服务地址修改
model: 'Qwen1.5-0.5B-Chat' # 修改为你的模型名称
FastChat
仓库:
https://github.com/lm-sys/FastChat
安装
代码块
Shell
pip install "fschat[model_worker,webui]"
部署示例
1.
启动 controller:
python -m fastchat.serve.controller --host 127.0.0.1
2.
启动模型(替换为你要用的模型路径):
python -m fastchat.serve.model_worker --host 127.0.0.1 --controller-address
http://127.0.0.1:21001
--model-path Qwen/Qwen1.5-0.5B-Chat
3.
开启 API 服务:
python -m fastchat.serve.openai_api_server --host 127.0.0.1 --controller-address
http://127.0.0.1:21001
--port 8000
成功后提示应该如下:
API 调用
在
config2.yaml
中设置
代码块
YAML
llm:
api_type: "openai"
base_url: 'http://127.0.0.1:8000/v1' # 根据你显示的api服务地址修改
model: 'Qwen1.5-0.5B-Chat' # 修改为你的模型名称
vllm