Multimodale Agenten beziehen sich auf Agenten, die nur Text verarbeiten können, aber gleichzeitig mehrere Eingaben wie Bilder, Stimmen, Schnittstellenzustände, Dokumente und sogar Videos empfangen und nutzen können, und diese dann mit Toolaufrufen und Aufgabenplanung kombinieren, um Aktionen auszuführen. Sie zieht in letzter Zeit immer mehr Aufmerksamkeit auf sich, weil viele echte Aufgaben nicht nur im Text stattfinden, und damit Agenten wirklich arbeiten können, müssen sie zuerst "sehen, verstehen und sich bewegen".
Warum ist es schwieriger als ein normaler Chat-Agent?
- Die Eingabe ist komplexer, nicht nur Text, sondern auch mit visuellen, sprachlichen und Interface-Kontexten.
- Es ist einfacher, zwischen Wahrnehmung und Ausführung zu unterscheiden, zum Beispiel bedeutet das Verständnis einer Seite nicht, auf einen Button zu klicken.
- Sobald sie mit echten Werkzeugen und realen Umgebungen verbunden sind, sind die Kosten für Fehler deutlich höher als bei Text-Q&A.
Warum wird diese Richtung immer heißer?
| Der Grund für die Hitze | Erklärt |
|---|---|
| Der GUI-Agent ist im Aufstieg | Immer mehr Systeme versuchen, KI dazu zu bringen, Computer und Webseiten zu bedienen |
| Sprach- und Sehmodelle sind reifer | Die Eingangsebene ist nicht mehr auf Text beschränkt |
| Echte Aufgaben sind anspruchsvoller | Unternehmen und Privatpersonen erwarten gleichermaßen von Agenten, dass sie tatsächlich komplexe Aufgaben ausführen |
Der Wert eines multimodalen Agenten liegt nicht in ein paar komplexeren Eingaben als einem Chatbot, sondern darin, wie nah er der Form realer Aufgaben ist. Man kann es als einen Zwischenschritt vom "Sprechen" zum "Beobachten, Beurteilen und Handeln" verstehen. Gerade weil es an der Schnittstelle von Vision, Sprache, Werkzeugen und Aufgabenausführung steht, ist es zu einem immer heißeren Begriff geworden.