vLLM a publié la version 0.17.1 : Les correctifs MoE et MTP de TRTLLM sont implémentés de manière centralisée, et l’inférence haute performance continue de compenser la stabilité
vLLM 0.17.1 est une version patch construite sur la 0.17.0, mais elle corrige des problèmes très réels à la base du raisonnement. La liste officielle ...
Informations sur l’IA • Admin •
150