问题描述

比如调用本地 ollama 部署的私有模型超时。

java.lang.RuntimeException: java.net.ConnectException: Failed to connect to localhost/[0:0:0:0:0:0:0:1]:11434

解决方案

  1. ollama 本质上是通过你本地资源进行推理,所以确定资源足够,这里查询对应配置关系:ollama 配置
  2. ollama 本身有很多优化参数配置,并不是开箱即用,需要根据参数优化(并发、keepalive、触发 gpu):参数优化指南
  3. 如果你们资源足够比如 N 快 H100 H200 的富哥客户,这种卡跑 ollama 纯属浪费,请了解 VLLM VLLM 文档 (PIG AI 也支持直接接入通过 openai 协议)