Lorsque l’erreur MiniMax Vision est signalée dans Hermes Agent, confirmez d’abord que vous n’utilisez pas un modèle « texte uniquement ». Les documents officiels de Vision et Configuration insistent sur le fait que l’analyse d’image doit aller à un modèle qui supporte le multimodal, et si vous auxiliary.vision.provider réglez sur main, alors votre modèle principal doit aussi vraiment prendre en charge l’entrée d’images.
L’enquête la plus rapide
- Commencez par tester un modèle qui confirme qu’il prend en charge la vision, comme un modèle de vision sur Codex OAuth ou OpenRouter.
- Vérifiez si
auxiliary.vision.provideretauxiliary.vision.modelpointent vers le mauvais modèle. - Si vous utilisez un point de terminaison personnalisé, confirmez qu’il accepte bien les blocs de contenu d’images à la manière d’OpenAI.
Les understand_image MCP prend-ils automatiquement le relais ?
Je ne comprends pas ça comme ça. La vision/browser_vision native d’Hermes utilise sa propre configuration de modèle auxiliaire, et ne remplace pas automatiquement le modèle de vision sous-jacent simplement parce qu’un serveur MCP a understand_image.
En un mot : si MiniMax Vision échoue, vérifiez d’abord si le modèle de vision auxiliaire est réellement disponible, au lieu de simplement regarder le nom du fournisseur.
Adresse officielle open source : https://github.com/NousResearch/hermes-agent ; Entrée officielle du document : https://hermes-agent.nousresearch.com/.