La quantification des modèles est un mot-clé inévitable dans le déploiement sur site et l’inférence efficace. Quand beaucoup de personnes lisent des tutoriels de déploiement de modèles, elles tombent souvent sur des mots comme 8 bits, 4 bits, AWQ et GPTQ, mais elles ne savent pas quels problèmes ils résolvent. Pour faire simple, le cœur de la quantification consiste à exprimer le poids du modèle avec une précision moindre, réduisant ainsi l’occupation et la pression mémoire, facilitant l’exécution de modèles trop volumineux.
La raison pour laquelle cela est toujours lié au déploiement local est que la première chose sur laquelle beaucoup d’appareils se bloquent n’est pas la puissance de calcul, mais la mémoire et la mémoire vidéo. La valeur de la quantification n’est pas de rendre le modèle « plus solide », mais de le rendre « ajusté, exécuté et à moindre coût ». C’est particulièrement crucial pour les PC, les dispositifs en périphérie et les déploiements à budget limité.
Pourquoi tout le monde parle-t-il du 4 bits et du 8 bits ?
Car ces deux types de précision peuvent souvent constituer un équilibre plus pratique entre l’effet et l’occupation des ressources. Le 8 bits est plus stable et le 4 bits plus efficace en ressources, mais différentes solutions présenteront aussi des différences de vitesse, de perte de précision et de compatibilité, donc de nombreuses méthodes et chaînes d’outils spécifiques seront dérivées.
La quantification n’est pas nécessairement plus rapide
Pas forcément. Beaucoup assimilent directement « plus petit » à « plus rapide », mais la réalité est plus complexe. Les avantages les plus directs de la quantification sont généralement des économies de mémoire et des seuils de déploiement plus bas, tandis que l’amélioration de la vitesse est liée à l’optimisation matérielle, du framework et du noyau. Certains scénarios comportent même des surcharges dues à des étapes supplémentaires de quantification et de déquantification.
À quels scénarios est-il le mieux adapté
- Exécuter des modèles open source localement
- Environnements de déploiement avec mémoire vidéo ou ressources mémoire limitées
- Des tâches de raisonnement équilibrant coût et effet sont nécessaires
Par conséquent, la raison pour laquelle la quantification du modèle apparaît régulièrement dans les discussions sur site n’est pas que cela semble professionnel, mais parce qu’elle détermine directement « si vous pouvez exécuter ce modèle ou non ».