Die Plattform von Zhipu Z.ai die Einführung der GLM-4.6V-Serie von visuellen Sprachmodellen angekündigt, darunter GLM-4.6V für Cloud- und Hochleistungs-Cluster-Szenarien mit einer Parameterskala von 106B sowie eine leichte Version von GLM-4.6V-Flash für lokale und latenzarte Szenarien. Laut der offiziellen Einführung unterstützt GLM-4.6V bis zu 128K Token-Kontext im Training, kann multimodale Eingaben wie Bilder, Text und Dateien gleichzeitig verarbeiten und erreicht hohe visuelle Verständlichkeiten in Modellen gleicher Größe.
Was das Fähigkeitsdesign betrifft, integriert die GLM-4.6V-Serie erstmals native Funktionsaufruf-Fähigkeiten in die Familie der Vision-Modelle, die Werkzeuge oder Geschäftsschnittstellen auslösen können, die auf dem Verständnis von Bildern und langen Dokumenten basieren und so Infrastruktur für multimodale Agentenanwendungen bereitstellen. Entwickler können das Modell über die von Z.ai bereitgestellte Online-Dialogseite erleben oder die API-Oberfläche nutzen, um Aufrufe in ihren eigenen Unternehmen zu integrieren. Gleichzeitig sind Modellgewichte auf Hugging Face öffentlich zugänglich, was es Teams mit Rechenleistung bequem macht, lokal oder privat einzusetzen.
Was die Gebühren betrifft, so wird die von Z.ai angekündigte API-Abrechnung in Millionen Token berechnet, GLM-4,6V Cloud-Inferenz wird separat für Eingabe und Ausgabe berechnet, und die Flash-Version ist derzeit als kostenlos gekennzeichnet, was für kostenempfindliche und latenzempfindliche Anwendungsszenarien geeignet ist. Der genaue Preis, das zeitlich begrenzte Angebot und die Quotenregeln unterliegen der Entwicklerdokumentation und der Konsolenwerbung, und Nutzer müssen vor dem Zugriff auf Kontoquoten, Sicherheitsvorschriften und Datenschutz für multimodale Datenuploads achten.
FAQs
F: Welches Modell ist GLM-4.6V?
A: GLM-4.6V ist ein multimodales großes Modell, das von Z.ai gestartet wurde, das gleichzeitig Eingaben wie Bilder und Text verarbeiten kann und lange Kontext- und Schlussfähigkeiten unterstützt.
F: Was ist der Unterschied zwischen GLM-4.6V-Flash und GLM-4.6V?
A: GLM-4.6V-Flash ist eine leichte und schnelle Version, die besser für die On-Premises-Bereitstellung und latenzarme Anwendungen geeignet ist, während GLM-4.6V für Cloud- und Hochleistungs-Cluster-Szenarien geeignet ist.
F: Wie kann ich die GLM-4.6V-Serie erleben?
A: Normale Nutzer können es über die Online-Chatseite von Z.ai erleben, und Entwickler können es über die offizielle API in ihre eigenen Apps integrieren.
F: Unterstützt der GLM-4.6V Funktionsaufrufe?
A: Die GLM-4.6V-Serie unterstützt native Funktionsaufrufe, die nach dem Parsen von Images und Dokumenten externe Tools oder Geschäftsschnittstellen aufrufen können, was den Aufbau multimodaler Agenten erleichtert.
F: Was kostet GLM-4,6V und GLM-4,6V-Flash?
A: GLM-4.6V wird für API-Aufrufe auf Millionen-Token-Basis für Eingabe und Ausgabe abgerechnet, und GLM-4.6V-Flash ist laut offizieller Preisseite derzeit als kostenlos markiert.