
Google hat den Deep Think-Modus von Gemini 3 aktualisiert. Das Tool positioniert sich als Lösung für komplexe Probleme in Wissenschaft und Technik.
In Tests übertraf das Modell OpenAIs GPT-5.2 und Anthropics Claude Opus 4.6, einschließlich ARC-AGI-2 bei visuellen Rätseln, MMMU-Pro zur Beurteilung multimodaler Fähigkeiten, Elo 3455 und der “Last Exam of Humanity”.

Quelle: Google.
„Wir haben Gemini 3 Deep Think in enger Zusammenarbeit mit Wissenschaftlern und Forschern aktualisiert, um komplexe wissenschaftliche Herausforderungen anzugehen – Aufgaben, bei denen es oft an einem klaren Rahmen oder einer einzigen richtigen Lösung mangelt und bei denen die Daten unvollständig sind“, heißt es im Blog des Unternehmens.
Gemini 3 Deep Think erzielt herausragende Ergebnisse in Mathematik und Programmierung und schneidet auch in den Naturwissenschaften, einschließlich Chemie und Physik, hervorragend ab. Der aktualisierte Modus löst Aufgaben auf dem Niveau von Goldmedaillengewinnern internationaler Olympiaden.
Im CMT-Benchmark erzielte das Modell 50,5% und bestätigte damit seine profunden Kenntnisse auf dem Gebiet der theoretischen Physik.

Quelle: Google.
„Neben der hohen Leistungsfähigkeit konzentriert sich Deep Think auf praktische Anwendungen: Es hilft Forschern bei der Interpretation komplexer Daten und Ingenieuren bei der Modellierung physikalischer Systeme mithilfe von Code“, so Google.
Das neue Deep Think ist in der Gemini-App für Abonnenten von Google AI Ultra und in der Gemini -API für einzelne Entwickler verfügbar.
KI-Mathematiker von DeepMind
Googles DeepMind-Abteilung hat ihren KI-Agenten Aletheia vorgestellt. Das Modell hat im IMO-ProofBench Advanced-Benchmark einen neuen Rekord aufgestellt und 91,9 % der Aufgaben gelöst. Dieser Test gilt als einer der schwierigsten in der Mathematik.
Das neuronale Netzwerk basiert auf Gemini Deep Think. Das System verfügt über ein Verifizierungsmodul: Es erkennt Fehler in Lösungsentwürfen und leitet einen iterativen Verfeinerungsprozess ein.
Ein wesentliches Merkmal des Agenten ist seine Fähigkeit, die Unmöglichkeit der Lösung eines Problems zu erkennen, was den Forschern viel Zeit spart.
Aletheia nutzt die Google-Suche, um durch komplexe wissenschaftliche Materialien zu navigieren und so die Möglichkeit der Verwendung falscher Referenzen und Rechenfehler bei der Arbeit mit wissenschaftlichen Materialien zu vermeiden.
Zu den Errungenschaften des Modells gehören:
- vollständige Erstellung eines wissenschaftlichen Artikels mit der Berechnung von Strukturkonstanten in arithmetischer Geometrie;
- gemeinsamer Beweis von Abschätzungen für Systeme interagierender Teilchen (unabhängige Mengen) mit einem Menschen;
- autonome Lösung von vier Problemen aus der Erdős-Liste, von denen eines zuvor als ungelöst galt.
DeepMind betonte, dass der Erfolg von Aletheia die Relevanz der Skalierungsgesetze bestätigt: In der Beweismathematik steigt die Qualität aufgrund des effektiven Einsatzes von Agenten kontinuierlich an.
Ein Durchbruch in der Medizin
Die DeepMind-Tochter Isomorphic Labs hat ihre Wirkstoffentwicklungs-Engine IsoDDE vorgestellt, die AlphaFold 3 in komplexen Tests um das Zweifache übertraf.
Letzteres war ein bedeutender Durchbruch, da es die dreidimensionalen Strukturen von Proteinen und deren Wechselwirkungen mit Molekülen vorhersagen konnte. IsoDDE hingegen demonstriert ein völlig neues Niveau:
- Das Modell sagt die Bindungsstärke (Affinität) genauer voraus als herkömmliche Methoden;
- Der Treiber kann verborgene Strukturen („Taschen“) von Proteinen erkennen, an die das Medikament binden kann;
- Es wird eine breite Palette komplexer Moleküle unterstützt, darunter Antikörper und große biologische Strukturen.
„IsoDDE bietet ein skalierbares Framework für die KI-gestützte Wirkstoffentwicklung und liefert die erforderliche Vorhersagegenauigkeit, um neuartige biologische Systeme mit beispielloser Sicherheit anzugehen“, heißt es im Blog des Unternehmens.
Erinnern wir uns daran, dass Ärzte im Januar positiv auf die Einführung von ChatGPT Health für Gesundheitsberatungen reagierten.
