GPT-5 および GPT-5-mini API の電流制限の引き上げ: 大規模な推論とバッチ処理のための多倍の TPM
GPT-5のTier 1が30K TPMから500K TPM(バッチ処理制限は1.5M)、Tier 2が1M(バッチ処理は3M)、Tier 3は2M、Tier 4は4Mに引き上げられました。 GPT-5-miniのTier 1が500K(バッチ処理5M)に引き上げられる。 高い同時実行性と長いコンテキストを必要とする AI ワークロードの場合、これはスループットを即座に向上させます。
1. 変更点一覧
1. GPT-5(標準モデル)
Tier 1:30K → 500K TPM(バッチ1.5M)
Tier 2:450K → 1M(バッチ3M)
Tier 3:800K → 2M
Tier 4: 2M → 4M
2、GPT-5-mini (軽量モデル)
Tier 1: 200K → 500K TPM (バッチ 5M)
2. これはエンジニアリングにとって何を意味するのか
1. 同時実行性と長いコンテキストがより安定しています
高いTPMは、32Kを超えるコンテキストでのスループットのボトルネックを直接軽減し、バッチ評価、長文記事の生成、マルチツールエージェントにより、キューとスロットリングフォールバックを減らすことができます。
2. バッチ処理のコストパフォーマンスの向上
バッチキューが高いほど、小さなリクエストをマージできるため、各呼び出しのハンドシェイクとネットワークオーバーヘッドが削減され、ログの要約やマルチプロンプトの並列処理に適しています。
3. コストと現在のスロットリング ガバナンスはより制御可能であり
、同じ予算でより効果的なトークンを運ぶことができます。 レート制限ポリシーとエスカレーション解除ポリシーを使用すると、ピークをバッチチャネルにフラット化できます。
3. クイックランディングリスト
1. ルーティングとクォータ
(1) 長いコンテキストと評価タスクを GPT-5 にルーティングします。 GPT-5-mini を使用して、軽いインタラクションと監視を行います。
(2) プロジェクトや環境ごとにTPMしきい値を設定して、1つのテナントの「過密」を回避します。
(3) 失敗した再試行の指数関数的バックオフを有効にして、瞬間的な輻輳を防ぎます。
2. バッチ処理とキャッシュ
(1) 類似したリクエストをマージし、モデルの最適な範囲でバッチ サイズを制御します。
(2) ヒントと取得結果のキャッシュを有効にして、トークンの重複消費を減らします。
(3) 対流出力保持タイムアウトとブレークポイント継続。
3. 測定と回帰
(1) 受け入れ率、取り消し率、および単価トークンコストを追跡します。
(2) 8K、32K、および 128K コンテキストのストレス テスト ベースラインを実行します。
(3) ポリシーの切り替えジッターを防ぐために、古いクォータフォールバックパスを予約します。
よくある質問 (Q&A)
Q: 組織の現在の GPT-5 および GPT-5-mini の制限と階層を確認するにはどうすればよいですか?
A: プラットフォームの [クォータ] ページで組織の使用レベルとモデル クォータを表示し、課金レポートと使用状況レポートで実際の TPM とバッチ クォータを確認します。
Q: TPMカウントルールはmax_tokensとどのように関係していますか?
A: TPM は、入力トークンと設定された最大出力のいずれか大きい方に基づいて計算され、「水増し」占有を避けるために最大出力を実際の需要に近づけることをお勧めします。
Q: バッチ処理は、同時リクエストを全面的に置き換えることができますか?
A: 遅延を許容できる同様のタスクに適しています。 対話型の会話とツール呼び出しは、依然として低遅延の単一リクエストが主流であり、バッチ処理によって補完されています。
Q: この制限の引き上げは長期的に有効ですか?
A: 公式発表は「限度額引き上げ」であり、具体的な長期戦略はプラットフォームのドキュメントとフォローアップの発表に左右され、限度額の元に戻し、マルチモデルの底を維持することをお勧めします。