Les agents multimodaux désignent des agents qui ne peuvent traiter que du texte, mais peuvent simultanément recevoir et utiliser plusieurs entrées telles que des images, des voix, des états d’interface, des documents et même des vidéos, puis les combiner avec des appels d’outils et la planification des tâches pour exécuter des actions. Cela attire de plus en plus l’attention récemment car de nombreuses tâches réelles ne se produisent pas seulement dans le texte, et pour que les agents fonctionnent vraiment, ils doivent d’abord « voir, comprendre et bouger ».
Pourquoi est-ce plus difficile qu’un agent de chat classique ?
- L’entrée est plus complexe, pas seulement le texte, mais aussi le contexte visuel, vocal et d’interface.
- Il est plus facile de déconnecter la perception de l’exécution, par exemple, comprendre une page ne signifie pas cliquer sur un bouton.
- Une fois connecté à de vrais outils et environnements réels, le coût des erreurs sera bien plus élevé qu’en Q&A textuel.
Pourquoi cette direction continue-t-elle de s’intensifier ?
| La raison de la chaleur | Expliqué |
|---|---|
| GUI Agent est en pleine ascension | De plus en plus de systèmes essaient de faire fonctionner l’IA des ordinateurs et des pages web |
| Les modèles de parole et de vision sont plus matures | Le plan d’entrée n’est plus limité au texte |
| Les vraies tâches sont plus exigeantes | Les entreprises comme les particuliers attendent des agents qu’ils accomplissent réellement des tâches complexes |
La valeur d’un agent multimodal ne réside pas dans quelques entrées plus sophistiquées qu’un chatbot, mais dans sa proximité avec la forme des tâches réelles. On peut le comprendre comme une étape intermédiaire entre « parler » et « observer, juger et jouer ». C’est précisément parce qu’il se situe à l’intersection de la vision, de la parole, des outils et de l’exécution des tâches qu’il est devenu un mot de plus en plus en vogue.