Zurück zu KI-Enzyklopädie
Was ist ein Token? Warum wird ein Absatz von KI in viele kleine Stücke geschnitten?

Was ist ein Token? Warum wird ein Absatz von KI in viele kleine Stücke geschnitten?

KI-Enzyklopädie Admin 56 Aufrufe

Token können als die "kleinste Arbeitseinheit" verstanden werden, wenn das Modell Text verarbeitet. Es bedeutet nicht unbedingt ein Wort, ein Wort oder eine Satzzeichensetzung, sondern eher wie ein Fragment, das vom Modell selbst ausgeschnitten wird. Im Englischen kann ein Wort in mehrere Token aufgeteilt werden, im Chinesischen kann ein kurzer Satz in mehrere Token unterteilt werden.

Das wirkt abstrakt, beeinflusst aber direkt drei der realistischsten Dinge: wie viel man unterbringen kann, wie viel ein Gespräch kostet und warum das Modell manchmal lange Texte kürzt. Denn anstatt die Welt in "Absätzen" zu verstehen, berechnet das Modell Eingaben und Ausgaben in Tokens.

Warum Nutzer immer darauf stoßen

  • Beim Hochladen eines langen Dokuments fordert das System eine Längenbegrenzung an, die oft auf das Fehlen von Tokens zurückzuführen ist.
  • Man hat das Gefühl, es ist nur ein kurzer Absatz, aber das eigentliche Token ist wahrscheinlich schon viel.
  • Manche Modelle antworten kürzer, nicht unbedingt, weil sie es nicht sagen wollen, sondern weil das verfügbare Token-Budget knapp wird.

Viele Menschen kommen zum ersten Mal mit Token in Kontakt und denken fälschlicherweise, dass es sich nur um eine Abrechnungseinheit handelt. Tatsächlich ist es eher die "Sprachgranularität" des Modells. Das Modell zerlegt zunächst den Text in Tokens, kodiert dann, achtet und generiert sie, sodass Tokens ebenfalls Voraussetzung für das Verständnis des Kontextfensters sind. Für chinesische Nutzer können Satzzeichen, Abkürzungen, Zahlen und Codeblöcke die Anzahl der Token höher als intuitiv machen. Deshalb können die tatsächlichen Tokens, die mit demselben chinesischen und englischen Inhalt genutzt werden, ziemlich unterschiedlich sein.

Das praktischste Urteil

Wenn du an langer Textverarbeitung, Wissensdatenbank und Prompt-Design arbeitest, konzentriere dich nicht nur auf die Wortanzahl, sondern am besten entwickelt du dir die Gewohnheit, Tokens anzuschauen. Gerade wenn man Chinesisch und Englisch, Code, Tabellen und viel Zeichensetzung mischt, sind Wort- und Token-Zahlen oft nicht dasselbe.

Zusammenfassung: Das Token ist die Maßeinheit, in der das Modell den Text wirklich verarbeitet, und nur durch das Verständnis können wir den Kontext, die Kosten und die Längengrenze wirklich verstehen.

Empfohlene Tools

Mehr