Hermes Agent 接 Ollama 的关键是把 Ollama 当成 OpenAI 兼容的 custom endpoint。能跑起来不难,真正容易踩坑的是上下文长度太小:工具 schema 加系统提示就可能占满 4k 上下文,导致 agent 看起来“失忆”或不会调工具。
基本步骤
ollama pull qwen2.5-coder:32b
OLLAMA_CONTEXT_LENGTH=32768 ollama serve然后运行:
hermes model选择 custom endpoint,URL 填 http://localhost:11434/v1,API key 可以跳过,模型名填 Ollama 里的模型名。
检查重点
- 用
ollama ps看 CONTEXT 是否达到 16k 或 32k。 - 本地小模型不一定擅长复杂工具调用,先用简单文件任务测试。
- Windows 上要确认 Ollama 服务能被 WSL 或 Docker 访问。
一句话:Hermes Agent 接 Ollama 不难,难点是给足上下文和选择能稳定工具调用的模型。
本地模型适合做什么
Ollama 更适合隐私敏感、低成本、轻中度文件处理和简单代码任务。如果要让 Hermes Agent 长时间规划、连续调工具、处理大型仓库,本地模型的推理能力和上下文窗口会成为瓶颈。先用“读取一个文件并总结”“列出目录并修改一处文本”这类小任务测试,再把它用于正式自动化。
官方开源地址:https://github.com/NousResearch/hermes-agent;官方文档入口:https://hermes-agent.nousresearch.com/。