Google veröffentlicht Flash TTS 3.1, Robotics-ER 1.6 und natives Gemini für macOS

Google hat Gemini 3.1 Flash TTS veröffentlicht, ein aktualisiertes Sprachsynthesemodell, das auf der Gemini-3-Generation basiert. Es zeichnet sich durch verbesserte Klangqualität, Ausdrucksstärke und präzisere Steuerung aus und unterstützt zudem über 70 Sprachen.

Das KI-Netzwerk ermöglicht es Entwicklern, Unternehmen und normalen Benutzern, Anwendungen mit einer sprachgesteuerten KI-Schnittstelle zu erstellen.

Gemini 3.1 Flash TTS ist jetzt verfügbar:

für Entwickler – im Early-Access-Modus über Gemini API und Google AI Studio;
für Unternehmen — bei Vertex AI;
Für Workspace-Nutzer – über den Google Vids-Dienst.

Verbesserte Sprachqualität und Steuerbarkeit

Das Modell erreichte 1211 Punkte im TTS-Rating der künstlichen Sprachanalyse. Dieser Indikator basiert auf den Präferenzen Tausender Teilnehmer eines Blindtests der Audioqualität.

Quelle: Google.

Artificial Analysis stufte das Modell aufgrund seiner Kombination aus hochwertiger Sprachsynthese und niedrigen Kosten unter die attraktivsten Lösungen ein.

LLM zeichnet sich durch seine Fähigkeit aus, natürliche Dialoge mit mehreren Sprechern zu generieren.

Neue Audio-Tags

Mit Version 3.1 von Flash TTS wurden Audio-Tags eingeführt, ein Werkzeug zur Steuerung von Stil, Tempo und Sprechweise.

„Frühe Entwickler und Unternehmenstester sehen bereits die Ergebnisse von Flash TTS 3.1 und loben die beeindruckende Steuerbarkeit und Ausdruckskraft. Sie berichteten uns, wie Audio-Tags ein neues Maß an kreativer Präzision ermöglichen und einfachen Text in hochwertige Sprachausgabe verwandeln“, heißt es im Unternehmensblog.

KI-Modell für Robotik

Zusammen mit Gemini 3.1 Flash TTS stellte das Unternehmen auch Gemini Robotics-ER 1.6 vor. Dieses KI-Modell ist darauf ausgelegt, Robotern durch verbesserte kognitive Funktionen und verkörpertes Denken die Ausführung komplexer Aufgaben in realen Umgebungen zu ermöglichen.

Das Netzwerk ist auf räumliche Wahrnehmung, Handlungsplanung und die Bewertung des Erfolgs von Handlungen spezialisiert. Es zeigt deutliche Verbesserungen gegenüber seinem Vorgänger und Gemini 3.0 Flash bei Aufgaben, die räumliches und physikalisches Denken erfordern.

Gemini Robotics-ER 1.6 kann Daten von komplexen Messgeräten auswerten und Messwerte durch Sichtfenster ablesen. Diese Funktion wurde von Google DeepMind in Zusammenarbeit mit Boston Dynamics für die Bedürfnisse der Industrie entwickelt.

„Solche Fähigkeiten ermöglichen es uns, Herausforderungen in der realen Welt autonom zu erkennen, zu verstehen und darauf zu reagieren“, kommentierte Marco da Silva, Vizepräsident des Spot-Projekts bei Boston Dynamics.

Bei Tests zur Erkennung von Sicherheitsbedrohungen übertraf das neue Produkt Gemini 3.0 Flash um 6 % bei Textskripten und um 10 % bei der Videoanalyse.

Die Integration von LLM in reale Arbeitsabläufe hat bereits begonnen: Boston Dynamics hat Gemini und Gemini Robotics-ER 1.6 in seine eigene Orbit AIVI-Learning-Plattform integriert.

Gemini auf macOS

Google hat außerdem eine native Gemini-App für macOS veröffentlicht. Sie lässt sich durch Drücken von Option + Leertaste aufrufen. Zu den Funktionen gehört die Möglichkeit, ein Fenster für den sofortigen Kontextaustausch freizugeben.

Die Anwendung unterstützt die Bildgenerierung mit Nano Banana, die Videoerstellung mit Veo und andere bekannte Tools.

Erinnern Sie sich daran, dass Google im April Gemma 4 vorgestellt hat, eine neue Familie offener KI-Modelle für fortgeschrittenes Schließen und agentenbasierte Arbeitsabläufe.

No votes yet.

Please wait...

Verbesserte Sprachqualität und Steuerbarkeit

Neue Audio-Tags

KI-Modell für Robotik

Gemini auf macOS

Leave a ReplyCancel Reply