GPT-5 与 GPT-5-mini API 限流上调:多倍提升的 TPM,为大规模推理与批处理提速
本次上调覆盖多档 Usage Tier:GPT-5 的 Tier 1 由 30K 提至 500K TPM(批处理上限 1.5M),Tier 2 提至 1M(批处理 3M),Tier 3 提至 2M,Tier 4 提至 4M;GPT-5-mini 的 Tier 1 提至 500K(批处理 5M)。对需要高并发与长上下文的 AI 工作负载,是一次立竿见影的吞吐提升。
一、变化一览
1、GPT-5(标准模型)
Tier 1:30K → 500K TPM(批处理 1.5M)
Tier 2:450K → 1M(批处理 3M)
Tier 3:800K → 2M
Tier 4:2M → 4M
2、GPT-5-mini(轻量模型)
Tier 1:200K → 500K TPM(批处理 5M)
二、这对工程有什么意义
1、并发与长上下文更稳
高 TPM 直接缓解 32K 以上上下文的吞吐瓶颈,批量评测、长文生成与多工具代理可减少排队与限流回退。
2、批处理性价比提升
更高的批处理队列允许将小请求合并,降低每次调用的握手与网络开销,适合日志总结与多提示并行。
3、成本与限流治理更可控
在同等预算下可承载更多有效 Token;配合速率限制与降级策略,可将峰值打平到批处理通道。
三、快速落地清单
1、路由与配额
(1)把长上下文与评测任务路由到 GPT-5;轻交互与监控用 GPT-5-mini。
(2)按项目与环境分别设置 TPM 阈值,避免单租户“吃满”。
(3)启用失败重试的指数退避,防止瞬时拥塞。
2、批处理与缓存
(1)合并同类请求,控制批大小在模型最佳区间。
(2)启用提示与检索结果缓存,减少重复 Token 消耗。
(3)对流式输出保留超时与断点续传。
3、度量与回归
(1)跟踪接受率、撤销率、单位 Token 成本。
(2)对 8K、32K、128K 三档上下文做压测基线。
(3)预留旧限额回退路径,防止策略切换抖动。
常见问题解答(Q&A)
Q:如何确认我组织当前的 GPT-5 与 GPT-5-mini 限额与 Tier?
A:在平台的限额页面查看组织所处 Usage Tier 与模型限额,并结合账单与用量报表校对实际 TPM 与批处理额度。
Q:TPM 计数规则与 max_tokens 有何关系?
A:TPM 以输入 Token 与设定的最大输出二者取大值计入,建议将最大输出贴近真实需求,避免“虚高”占额。
Q:批处理能否全面替代并发请求?
A:适合同类、可容忍延迟的任务;对交互式对话与工具调用仍以低延迟单请求为主,批处理作为补充。
Q:这次限额上调是否长期有效?
A:官方宣布为“限额上调”,具体长期策略以平台文档与后续公告为准,建议保留限额回退与多模型兜底。