Retour à L’IA est open source
Pour quelles équipes les vLLM sont-elles adaptées ? C’est une base d’inférence haute performance, pas un produit de chat « prêt à être utilisé »

Pour quelles équipes les vLLM sont-elles adaptées ? C’est une base d’inférence haute performance, pas un produit de chat « prêt à être utilisé »

L’IA est open source Admin 52 vues

Le vLLM a toujours été très populaire, car il ne s’agit pas de l’exigence de niveau supérieur de « savoir s’il y a une interface de chat », mais de la question de niveau inférieur et plus coûteuse : comment fonctionner plus vite, économiser de la mémoire et mieux gérer la concurrence concurrente. Tant que vous êtes prêt à héberger vos propres API de modèles au lieu de jouer en local, les vLLM seront essentiellement présélectionnés.

Dépôt officiel : https://github.com/vllm-project/vllm

Où est-il fort ?

  • Les valeurs fondamentales résident dans le débit d’inférence, l’utilisation de la mémoire et l’expérience de déploiement orienté service.
  • Il convient à transformer des modèles open source en API et à unifier les appels sur la couche de provisionnement, la couche agent ou la plateforme interne.
  • La communauté est en pleine forme, et l’adaptation des modèles ainsi que l’écologie de l’ingénierie continuent de s’étendre.

Qui devrait prendre les vLLM au sérieux ?

Type d’équipeAjustement
Équipes disposant de ressources GPU pour héberger des API de modèles open sourceHaut
Des personnes qui veulent simplement vivre le modèle personnellementLow
Les équipes infrastructure qui ont besoin de services d’inférence à forte concurrence et prêts à fonctionnerHaut

Il n’est pas approprié d’être compris comme « une autre application d’IA ». Le vLLM n’est pas destiné à résoudre le front-end, le workflow, la base de connaissances et la logique métier pour vous, il résout la couche de service d’inférence. Si votre question est « comment exécuter un modèle dans une API stable », elle est cruciale ; Si votre question est juste « Je veux essayer le chat local », c’est généralement trop lourd. Les vLLM valent le coup, mais seulement si vous avez vraiment des besoins en infrastructure d’inférence et que vous ne voulez pas simplement trouver un outil de chat open source alternatif.

Outils Recommandés

Plus