GPT-5 et GPT-5-mini API Augmentation de la limite de courant : TPM multicouche pour l’inférence à grande échelle et le traitement par
lots Cette augmentation couvre plusieurs niveaux d’utilisation : le niveau 1 de GPT-5 est passé de 30K à 500K TPM (la limite de traitement par lots est de 1,5 M), le niveau 2 a été porté à 1 M (le traitement par lots est de 3 M), le niveau 3 a été porté à 2 M et le niveau 4 a été élevé à 4 M. Le niveau 1 de GPT-5-mini est porté à 500K (traitement par lots 5M). Pour les charges de travail d’IA qui nécessitent une simultanéité élevée et un contexte long, il s’agit d’une augmentation immédiate du débit.
1. Liste des modifications
1. GPT-5 (modèle standard)
Tier 1 : 30K → 500K TPM (lot 1,5M)
Tier 2 : 450K → 1M (lot 3M)
Tier 3 : 800K → 2M
Tier 4 : 2M → 4M
2, GPT-5-mini (modèle léger)
Tier 1 : 200K → 500K TPM (lot 5M)
2. Qu’est-ce que cela signifie pour l’ingénierie
1. La simultanéité et les contextes longs sont plus stables
Un TPM élevé atténue directement les goulets d’étranglement de débit dans les contextes supérieurs à 32 Ko, et l’évaluation par lots, la génération d’articles longs et les agents multi-outils peuvent réduire les files d’attente et les solutions de repli.
2. Amélioration des performances des coûts de traitement par lots
Unefile d’attente de traitement par lots plus élevée permet de fusionner les petites demandes, ce qui réduit l’établissement de liaison et la surcharge réseau de chaque appel, et convient au résumé des journaux et au parallélisme à plusieurs invites.
3. Les coûts et la gouvernance actuelle de l’étranglement sont plus contrôlables
, etdes jetons plus efficaces peuvent être transportés avec le même budget. Grâce aux politiques de limitation de débit et de désescalade, les pics peuvent être aplatis en canaux par lots.
3. Liste d’atterrissage rapide
1. Routage et quotas
(1) Acheminer les tâches de contexte long et d’évaluation vers GPT-5 ; Utilisez GPT-5-mini pour l’interaction et la surveillance de la lumière.
(2) Définissez des seuils TPM pour chaque projet et environnement afin d’éviter la « surpopulation » pour un seul locataire.
(3) Activez l’interruption exponentielle des nouvelles tentatives ayant échoué pour éviter l’encombrement instantané.
2. Traitement par lots et mise en cache (
1) Fusionnez des requêtes similaires et contrôlez la taille du lot dans la plage optimale du modèle.
(2) Activez la mise en cache des résultats d’indication et de récupération pour réduire la consommation de jetons en double.
(3) Délai de rétention de la sortie de convection et maintien du point d’arrêt.
3. Mesure et régression
(1) Suivez le taux d’acceptation, le taux de révocation et le coût unitaire du jeton.
(2) Effectuer des tests de résistance de référence pour des contextes 8K, 32K et 128K.
(3) Réservez l’ancien chemin de remplacement de quota pour éviter la gigue de changement de politique.
Foire aux questions Q
: Comment puis-je confirmer les limites et les niveaux actuels de GPT-5 et GPT-5-mini de mon organisation ?
R : Affichez le niveau d’utilisation et le quota de modèle de votre organisation sur la page Quotas de la plateforme, puis vérifiez le TPM réel et le quota de lots à l’aide des rapports de facturation et d’utilisation.
Q : Quel est le lien entre les règles de comptage des MTP et max_tokens ?
R : Le TPM est calculé en fonction du jeton d’entrée et de la sortie maximale définie, selon la valeur la plus élevée, et il est recommandé de maintenir la sortie maximale proche de la demande réelle pour éviter une occupation « gonflée ».
Q : Le traitement par lots peut-il remplacer les demandes simultanées à tous les niveaux ?
A : Convient pour des tâches similaires qui peuvent tolérer des retards ; Les conversations interactives et les appels d’outils sont toujours dominés par des requêtes uniques à faible latence, complétées par un traitement par lots.
Q : Cette augmentation de la limite est-elle efficace à long terme ?
R : L’annonce officielle est une « augmentation de la limite », et la stratégie spécifique à long terme est soumise à la documentation de la plateforme et aux annonces de suivi, et il est recommandé de conserver le retour à la limite et le fond multimodèle.