Seit der Veröffentlichung von ChatGPT Fin 2022, Google sera en mode panique. L’entreprise américaine n’était pas préparée à la sortie de l’IA concurrente et n’avait pas encore positionné son homologue de ChatGPT. Depuis, les annonces de l’entreprise en matière d’IA ont été accablantes et semblent parfois un peu aléatoires. Google a récemment donné à son assistant d’IA, initialement nommé Bard, le nouveau nom Gemini, provoquant une certaine confusion parmi les clients finaux. Début février 2024[–>veröffentlichte Google puis a finalement officiellement lancé son dernier service d’IA interne avec Gemini 1.0, mais il n’a pas répondu aux attentes de nombreux utilisateurs. Malgré des annonces détaillées, Gemini s’est avéré plus faible que ChatGPT à bien des égards. Aujourd’hui, Google apporte à nouveau des améliorations à un rythme rapide – et[–>kündigt pas Gemini 1.1 mais Gemini 1.5.
Gemini 1.5 bringt massiven Leistungssprung
Bewahrheiten sich die Leistungsangaben zu dem Modell, hätte es aber wohl durchaus die Versionsnummer 2.0 verdient. Gemini 1.5 ist für Abonnentinnen und Abonnenten ab sofort als Vorschauversion in der Pro-Variante verfügbar. Es soll in etwa so leistungsfähig sein, wie das teuerste Abo-Modell Gemini 1.0 Ultra, aber weniger Rechenleistung benötigen. Dabei stellt Gemini 1.5 Pro beim Verstehen von Kontexten laut Google neue Rekorde auf. Das KI-Modell ist laut Hersteller in der Lage, bis zu eine Million sogenannte Token, also Informationsbestandteile wie Wörter, Bilder, Code, Videos oder Klänge, zu verarbeiten. Zur Orientierung: Gemini 1.0 schafft gerade einmal 32.000 Token, während die bislang stärksten KI-Modelle GPT-4 Turbo et Claude 2.1 s’élèvent respectivement à 128 000 et 200 000 jetons. Gemini 1.5 Pro représente un énorme bond en avant en termes de performances pour l’ensemble du secteur de l’IA.
KI kann ganze Filme und Bücher verarbeiten
In der Praxis bedeutet das etwa, dass Googles neue KI bis zu einer Stunde Videomaterial, elf Stunden Audioaufnahmen, Texte mit bis zu 700.000 Wörtern oder Programmcode mit bis zu 30.000 Zeilen auf Anhieb verstehen und analysieren kann, um entsprechende Anfragen dazu zu beantworten. Dabei arbeitet die KI multimodal. Das bedeutet, sie kann einen Mix aus Bildern, Videos, Audio, Texten und Programmcode verarbeiten, um Zusammenhänge herzustellen. Die Verarbeitung von bis zu einer Million Token steht vorerst aber nur ausgewählten Entwicklern und Unternehmen über die KI-Plattformen AI Studio und Vertex AI zur Verfügung. Reguläre User begnügen sich mit 128.000 Token. Grund dafür ist wohl vor allem die noch zu hohe Latenz bei Anfragen mit größeren Token-Mengen. Dabei experimentiert Google intern sogar schon mit Kontextanalysen von bis zu zehn Millionen Token. Wann Gemini 1.5 in vollem Umfang für die breite Masse verfügbar ist und ob sich die KI in der Praxis wirklich als so stark erweist, wie Google ankündigt, bleibt abzuwarten.