vLLM发布0.17.1:TRTLLM MoE与MTP补丁集中落地,高性能推理继续补稳定性 vLLM 0.17.1 是建立在 0.17.0 之上的补丁版本,但修的都是推理底层很实在的问题。官方列出的内容包括 TRTLLM fused MoE、非 gated fused moe triton、TRTLLM MoE FP8 backend、Mamba/Qwen3.5 SSM cache blo... AI资讯 • Admin • 2026/3/12 150