Qu’est-ce que Transformer ? Pourquoi presque tous les grands modèles sont-ils construits dessus ?

Un Transformer est une architecture de réseau de neurones. C’est important non pas à cause du nom, mais parce qu’il fait un bon travail de « traitement parallèle » et de « modélisation contextuelle ». La plupart des grands modèles de langage que vous voyez aujourd’hui sont indissociables de lui ou de ses variantes.

Avant Transformer, de nombreux modèles s’appuyaient davantage sur des structures en boucle, lisant le texte étape par étape, lentement et laissant facilement tomber des chaînes sur de longues distances. Transformer utilise l’attention de soi pour calculer la relation entre toutes les positions de la phrase en même temps, ce qui rend plus rapide et plus facile la compréhension de l’association lointaine.

Pourquoi est-ce populaire ?

Points de contraste	Modèle de séquence hérité	Transformateur
Traitement	Lisez lentement dans l’ordre	Vous pouvez voir la situation globale en parallèle
Relations à distance	Il est facile d’oublier l’article précédent	Plus facile de créer des connexions à distance
Efficacité de l’entraînement	Généralement plus lentement	Plus adapté à la formation à grande échelle
Évolutivité	Plus restreinte	Il est plus facile de construire de grands modèles

C’est pourquoi beaucoup de gens considèrent le Transformer comme la base de l’ère des grands modèles. Ce n’est pas l’équivalent d’un grand modèle de langage, mais sans lui, il serait difficile pour l’écologie des grands modèles d’aujourd’hui de se développer jusqu’à ce qu’elle est aujourd’hui. Beaucoup des assistants de chat, modèles de code et modèles graphiques que vous utilisez aujourd’hui ne sont que des extensions de Transformer pour différentes tâches. Tant que le modèle devra traiter les informations de séquence, l’idée de transformateurs continuera d’exister.

Ne pense pas à cela comme à une « intelligence universelle »

Transformer est fort, mais ce n’est que de l’architecture, pas de la connaissance elle-même. La qualité ou non d’un modèle dépend également des données d’entraînement, de l’alignement, de la quantité de paramètres, de la conception contextuelle et de la stratégie d’inférence. En d’autres termes, Transformer propose « comment apprendre, comment calculer », pas « quoi apprendre ».

Si vous ne vous souvenez que d’une seule phrase, elle peut l’être : Transformer permet aux modèles de comprendre le contexte plus efficacement et en parallèle, ce qui favorise directement l’explosion des grands modèles modernes.

Pourquoi est-ce populaire ?

Ne pense pas à cela comme à une « intelligence universelle »

Articles connexes

Quel est le mécanisme d’attention ? Comment l’IA « se concentre sur le point »

Qu’est-ce qu’un jeton ? Pourquoi un paragraphe est-il découpé en plusieurs petits morceaux par l’IA ?

Qu’est-ce que les évaluations IA ? Pourquoi évaluez-vous les applications d’IA avant de les lancer ?

Qu’est-ce que le réglage fin de LoRA ? Pourquoi peut-on entraîner des modèles dédiés à un coût aussi bas ?

Outils Recommandés

Qu’est-ce que Transformer ? Pourquoi presque tous les grands modèles sont-ils construits dessus ?

Pourquoi est-ce populaire ?

Ne pense pas à cela comme à une « intelligence universelle »

Articles connexes

Quel est le mécanisme d’attention ? Comment l’IA « se concentre sur le point »

Qu’est-ce qu’un jeton ? Pourquoi un paragraphe est-il découpé en plusieurs petits morceaux par l’IA ?

Qu’est-ce que les évaluations IA ? Pourquoi évaluez-vous les applications d’IA avant de les lancer ?

Qu’est-ce que le réglage fin de LoRA ? Pourquoi peut-on entraîner des modèles dédiés à un coût aussi bas ?

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission