Ein Transformer ist eine neuronale Netzwerkarchitektur. Es ist nicht wegen des Namens wichtig, sondern weil es gute Arbeit bei "paralleler Verarbeitung" und "kontextueller Modellierung" leistet. Die meisten großen Sprachmodelle, die Sie heute sehen, sind untrennbar mit ihr oder seinen Varianten verbunden.
Vor Transformer setzten viele Modelle stärker auf Schleifenstrukturen, wobei Text Schritt für Schritt, langsam und leicht ablehnbar Ketten über lange Strecken gelesen wurden. Transformer nutzt Selbstaufmerksamkeit, um die Beziehung zwischen allen Positionen im Satz gleichzeitig zu berechnen, sodass es schneller und einfacher ist, die entfernte Assoziation zu erfassen.
Warum ist es beliebt?
| Kontrastpunkte | Alt-Sequenzmodell | Transformator |
|---|---|---|
| Behandlung | Lies langsam in der richtigen Reihenfolge | Man kann das große Ganze parallel sehen |
| Fernbeziehungen | Man vergisst leicht den vorherigen Artikel | Es ist einfacher, Fernverbindungen herzustellen |
| Trainingseffizienz | Meistens langsamer | Besser geeignet für großflächige Ausbildung |
| Skalierbarkeit | Eingeschränkter | Es ist einfacher, große Modelle zu bauen |
Deshalb sehen viele Menschen den Transformer als Grundlage der Ära der großen Modelle. Es ist nicht gleichbedeutend mit einem großen Sprachmodell, aber ohne es wäre es schwierig, dass die heutige Ökologie des großen Modells zu dem heranwächst, was sie heute ist. Viele der Chat-Assistenten, Code-Modelle und Grafikmodelle, die Sie heute verwenden, sind einfach Erweiterungen von Transformer für verschiedene Aufgaben. Solange das Modell Sequenzinformationen verarbeiten muss, wird die Idee der Transformer weiterhin bestehen.
Denk nicht daran als "universelle Intelligenz".
Transformer ist stark, aber es ist nur Architektur, nicht Wissen selbst. Ob ein Modell gut ist oder nicht, hängt auch von den Trainingsdaten, der Ausrichtung, der Parametermenge, dem Kontextdesign und der Inferenzstrategie ab. Mit anderen Worten: Transformer bietet "wie man lernt, wie man berechnet", nicht "was man lernen sollte".
Wenn man sich nur an einen Satz erinnert, kann man ihn sich merken: Transformer ermöglicht es Modellen, den Kontext effizienter und parallel zu verstehen, was direkt die Explosion moderner großer Modelle fördert.