Kyutai, das gemeinsame Unternehmen von Xavier Niel und Iliad, hat eine neue Funktion für seine künstliche Intelligenz Moshi eingeführt: MoshiVis. Diese erweiterte Version der IA kann nun Bilder analysieren und dabei ihre Gesprächsfähigkeiten beibehalten.

Kyutai, das gemeinsame Unternehmen von Xavier Niel und Iliad, hat eine neue Funktion für seine künstliche Intelligenz Moshi eingeführt: MoshiVis. Diese erweiterte Version der IA kann nun Bilder analysieren und dabei ihre Gesprächsfähigkeiten beibehalten.

Die neue Technologie ermöglicht es Moshi, Informationen aus Bildern zu extrahieren und sie in natürlicher Weise verbal darzustellen. Sie verwendet ein spezielles Modell namens PaliGemma2-3B-448 zur visuellen Datenverarbeitung und integriert diese mit den kognitiven Fähigkeiten der IA durch cross-modalen Aufmerksamkeit.

MoshiVis erzeugt dynamische Dialoge basierend auf visuellen Eingaben, indem es existierende Texte und interne Reaktionen nutzt. Die Technologie optimiert die Berechnungen zur Inferenz, um bei begrenztem Audiodatenmaterial gute Leistungsdaten aufzuweisen.

Die Evaluierung der Gesprächsfähigkeiten von MoshiVis zeigt ein hohes Maß an Detail und natürlicher Interaktion, obwohl dies gelegentlich eine geringere Präzision nach klassischen Bewertungskriterien bedeutet. Diese Entwicklung bietet neue Möglichkeiten für die Anwendung von IA in verschiedenen Kontexten, insbesondere bei begrenztem Audiodatenmaterial.

Kyutai hat MoshiVis als Open-Source-Projekt veröffentlicht und einbetaucht es an die technische Gemeinschaft zur weiteren Optimierung und Anpassung. Das Projekt ist derzeit nur auf Englisch verfügbar.