Un Transformer est une architecture de réseau de neurones. C’est important non pas à cause du nom, mais parce qu’il fait un bon travail de « traitement parallèle » et de « modélisation contextuelle ». La plupart des grands modèles de langage que vous voyez aujourd’hui sont indissociables de lui ou de ses variantes.
Avant Transformer, de nombreux modèles s’appuyaient davantage sur des structures en boucle, lisant le texte étape par étape, lentement et laissant facilement tomber des chaînes sur de longues distances. Transformer utilise l’attention de soi pour calculer la relation entre toutes les positions de la phrase en même temps, ce qui rend plus rapide et plus facile la compréhension de l’association lointaine.
Pourquoi est-ce populaire ?
| Points de contraste | Modèle de séquence hérité | Transformateur |
|---|---|---|
| Traitement | Lisez lentement dans l’ordre | Vous pouvez voir la situation globale en parallèle |
| Relations à distance | Il est facile d’oublier l’article précédent | Plus facile de créer des connexions à distance |
| Efficacité de l’entraînement | Généralement plus lentement | Plus adapté à la formation à grande échelle |
| Évolutivité | Plus restreinte | Il est plus facile de construire de grands modèles |
C’est pourquoi beaucoup de gens considèrent le Transformer comme la base de l’ère des grands modèles. Ce n’est pas l’équivalent d’un grand modèle de langage, mais sans lui, il serait difficile pour l’écologie des grands modèles d’aujourd’hui de se développer jusqu’à ce qu’elle est aujourd’hui. Beaucoup des assistants de chat, modèles de code et modèles graphiques que vous utilisez aujourd’hui ne sont que des extensions de Transformer pour différentes tâches. Tant que le modèle devra traiter les informations de séquence, l’idée de transformateurs continuera d’exister.
Ne pense pas à cela comme à une « intelligence universelle »
Transformer est fort, mais ce n’est que de l’architecture, pas de la connaissance elle-même. La qualité ou non d’un modèle dépend également des données d’entraînement, de l’alignement, de la quantité de paramètres, de la conception contextuelle et de la stratégie d’inférence. En d’autres termes, Transformer propose « comment apprendre, comment calculer », pas « quoi apprendre ».
Si vous ne vous souvenez que d’une seule phrase, elle peut l’être : Transformer permet aux modèles de comprendre le contexte plus efficacement et en parallèle, ce qui favorise directement l’explosion des grands modèles modernes.