ポストトレーニングとは、大規模な事前訓練を完了した後も、モデルが追加のトレーニングステップを通じて、より有用で安定し、目標タスクに沿い続けるプロセスを指します。 多くの人がモデルが強力かどうかを指摘し、最初に反応するのは事前学習データの量やパラメータのスケールに注目することですが、今では業界がますます明確に認識しているのは、実際には「知識を暗記すること」を「良い仕事ができる能力」に変えるのは、しばしばトレーニング後であることを認識しています。
事前学習は基盤を築くようなもので、モデルが言語パターン、知識分布、世界連想を学習できるようにします。 ポストトレーニングは装飾と調整のようなもので、どう答えるか、いつ断るか、人間の好みに近づく方法、特定のタスクの遂行方法を教えます。 そのため、基座が近い2つのモデルで最終的にユーザーが感じる差は非常に大きくなり、その差は何度もトレーニング後の経過によって生じます。
トレーニング後のやり方は一つではありません。 最も一般的なのは教師あり微調整で、モデルが高品質な例を学習できるようにします。 人間の回答に近づけるための好み最適化; 推論、ツールコール、セキュリティ境界に関する特別な訓練も行います。 推論モデルの普及により、RLHFとRLVRという言葉が頻繁に登場し、これらはポストトレーニングのカテゴリーにおける本質的に異なる経路です。
なぜ今、みんながこれにこれほど注目しているのでしょうか? 大型モデルの競争はもはや「誰がより多くのコーパスを食べるか」だけではありません。 事前訓練はますますコストが上がり、資源争いにどんどん近づいている。 そして、トレーニングが直接製品体験を決定します。 ユーザーが安定性を感じるかどうか、従順かどうか、道具を呼べるか、複数のステップで推論できるか、盲目的に計算できるかは、多くは基本パラメータから一目で分かるものではなく、訓練後の成果です。
しかし、研修後の訓練には代償も伴います。 ターゲットバイアスを導入します。 セキュリティは強化され、モデルはより保守的かもしれません。 コードや数学を強化すると、チャットのスタイルが変わることもあります。 また、モデルをより「思考的」にするために推論コストを高くすることもあります。 したがって、トレーニング後の評価は多ければ多いほど良いことではなく、目標が明確であるか、データがクリーンであるか、評価がそれに追いつくかどうかが重要です。
もう一つのよくある誤解は、ポストトレーニングを「モデルに知識を補足する」と理解することです。 確かに能力の向上につながるかもしれませんが、核心的な役割は事実基盤を拡大することではなく、行動を調整することにあります。 このモデルが回答をどのように組織し、トレードオフを行い、境界状況に直面するかを決定します。 言い換えれば、単なるメモリアドオンというよりも、行動的なシェイピングに近いものです。
現在では、多くのモデルがリリース時にトレーニング後をより重視するようになっており、これは業界の焦点が変わったことを示しています。 もはや誰もが大きな基盤を持つ人だけでなく、誰が本当に使いやすく、制御可能でオンラインのシステムにできるかを重視しています。 だからこそ、多くのモデルは訓練前の段階ではなく、訓練後の段階でその差を大きく広げるのです。