Die französische Forschungsgruppe Kyutai hat mit „Unmute“ eine bahnbrechende Technologie vorgestellt, die das Potenzial der künstlichen Intelligenz (KI) in der Sprachverarbeitung erheblich erweitert. Die neue Plattform ermöglicht es, beliebige Text-Modelle in Echtzeit-Dialogsysteme umzuwandeln und somit eine nahtlose Kommunikation zwischen Mensch und Maschine zu schaffen.
Nach der Entwicklung von „Moshi“, ihrer ersten Echtzeitsprach-KI, und weiteren Projekten wie „MoshiVis“ hat Kyutai nun mit „Unmute“ einen neuen Meilenstein erreicht. Die Technologie baut auf den Fortschritten der sogenannten großen Sprachmodelle (LLMs) auf, aber setzt sich von traditionellen schriftlichen Interaktionen ab. Ein zentraler Vorteil liegt in ihrer Fähigkeit, die Stimme des Nutzers in Echtzeit zu analysieren, natürliche Pausen zu erkennen und sofortige mündliche Antworten zu generieren – selbst bevor der Text vollständig verfasst ist.
Die Modularität von „Unmute“ ermöglicht eine individuelle Anpassung: Die Stimme des KI-Agents kann durch kurze Aufnahmen definiert werden, während das Verhalten über textuelle Anweisungen angepasst wird. Kyutai betont zudem die geringe Latenzzeit als Schlüssel für ein flüssiges und natürliches Nutzererlebnis. Die Forscher planen, in Zukunft detaillierte technische Informationen zu veröffentlichen, ähnlich wie bei früheren Projekten. Aktuell können Interessierte „Unmute“ direkt auf unmute.sh testen, wobei eine Live-Demonstration beim VivaTech-Event geplant ist.