トランスフォーマーはニューラルネットワークのアーキテクチャです。 名前が重要なのではなく、「並列処理」や「文脈モデリング」をうまく行っているからです。 今日見られる大規模な言語モデルの多くは、そのモデルやその変種と切り離せないものです。
トランスフォーマー以前は、多くのモデルがループ構造に頼り、テキストを段階的に読み、遅く、長距離にわたって簡単にチェーンを落とす方法を重視していました。 トランスフォーマーは自己注意を用いて文内のすべての位置の関係を同時に計算するため、遠い連想をより速く、より簡単に把握できます。
なぜ人気があるのか?
| コントラストポイント | レガシーシーケンスモデル | トランス |
|---|---|---|
| 治療 | ゆっくりと順番に読んでください | 全体像は並行して見えます |
| 遠距離恋愛 | 前の記事を忘れがちです | リモート接続がより簡単になります |
| トレーニング効率 | 通常はもっと遅いです | 大規模な訓練により適しています |
| スケーラビリティ | より制限が整っています | 大規模なモデルを作る方が簡単です |
だからこそ、多くの人がトランスフォーマーを大型モデル時代の基盤と見なしています。 これは大規模言語モデルと同等ではありませんが、それがなければ、今日の大規模モデル生態系が現在の形に成長するのは困難でしょう。 今日使っている多くのチャットアシスタント、コードモデル、グラフィックモデルは、Transformerの拡張で異なるタスクに過ぎません。 モデルがシーケンス情報を処理する必要がある限り、トランスフォーマーの考えは存続し続けます。
「普遍的な知性」とは考えないでください。
トランスフォーマーは強力ですが、それは知識そのものではなく建築に過ぎません。 モデルが良いかどうかは、トレーニングデータ、アラインメント、パラメータ量、コンテキスト設計、推論戦略にも依存します。 つまり、トランスフォーマーは「学び方、計算方法」を提供し、「何を学ぶか」ではなく、
もし一文だけ覚えていれば、それは覚えている:トランスフォーマーはモデルが文脈をより効率的かつ並行して理解できるようにし、それが現代の大規模モデルの爆発的な普及を直接促進している。