私有模型接入指南
私有模型接入要求
PIG AI 支持通过在线配置接入私有化(ollama/vllm)模型,部署前请确保满足以下基础要求:
- 硬件资源:使用专业级 GPU 服务器,CPU 不适用(两个并发推理 100% 宕机)
- 显存要求:根据模型规模需预留充足 VRAM(32B 模型建议 48G+,70B 模型建议 80G+)
- 生产环境:推荐使用 NVIDIA A/H 及以上专业计算卡,消费级显卡可能无法满足持续推理需求
模型类型 | 模型名称 | 说明 |
---|---|---|
聊天模型 | qwen2.5:72b | 72b 参数量聊天模型,更准确需要更多资源 |
推理模型 | deepseek-r1:32b | R1 推理模型 |
向量模型 | bge-m3:latest | |
视觉模型 | minicpm-v:latest |
安装 ollama
-
下载 ollama 安装包 请注意,ollama 版本需要 0.5.0 +
-
【可选】配置 ollama 对外服务 ,默认情况下 ollla 默认只允许本地 11434 端口访问,需要配置 ollama 对外服务。
运行私有模型
请注意运行 70b 模型为生产级模型,需要 GPU 80G+ 的显存,无法在普通 CPU 条件推理,模型推理速度(可以理解为提问响应速度)取决于硬件配置。
- 如下图:两块(A6000 + 48GB)
GPU资源监控
模型接入
请注意配置的模型和如上 ollama 运行时模型名称一致,否则无法正常调用。
1
打开模型配置
进入模型配置页面,点击”新增模型”
2
配置模型参数
- 供应商:选择 Ollama
- 类型:根据需求选择聊天或推理模型
- 模型名称:选择已在 Ollama 运行的模型,如 PIG AI 前端没有此模型选项可以输入添加
模型配置界面
模型运行示例