Anthropic hat die Veröffentlichung des KI-Modells Mythos zurückgezogen, nachdem dieses „aus dem Labor entkommen“ war.

Anthropic entwickelte ein neues Claude Mythos-Modell, weigerte sich jedoch aufgrund hoher Sicherheitsrisiken, es der Öffentlichkeit zugänglich zu machen.

Statt einer öffentlichen Veröffentlichung startete das Unternehmen das Projekt Glasswing, eine Initiative unter Beteiligung von AWS , Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, der Linux Foundation, Microsoft, Nvidia und Palo Alto Networks, um das Tool in einer sicheren Umgebung zu testen.

Das Startup hat Guthaben im Wert von bis zu 100 Millionen Dollar für die Nutzung von Mythos und 4 Millionen Dollar an direkten Spenden an Open-Source-Sicherheitsorganisationen bereitgestellt.

„KI-Modelle haben ein Programmierniveau erreicht, das es ihnen ermöglicht, alle außer den fähigsten Menschen beim Aufspüren und Ausnutzen von Software-Schwachstellen zu übertreffen“, sagte Anthropic.

Zukünftig planen Entwickler den sicheren Einsatz solcher Systeme sowohl für die Cybersicherheit als auch für andere Zwecke. Dies erfordert die Entwicklung robuster Schutzmechanismen, die gefährliche Algorithmus-Ergebnisse erkennen und blockieren können.

Was Mythos leisten kann

Im Laufe mehrwöchiger Tests hat Mythos Tausende von Zero-Day-Schwachstellen in gängigen Betriebssystemen und Webbrowsern entdeckt. Zu den bekanntesten Beispielen gehören:

  • Eine 27 Jahre alte Sicherheitslücke in OpenBSD (das als eines der sichersten Betriebssysteme gilt), die es ermöglicht, jeden auf diesem System basierenden Server aus der Ferne lahmzulegen;
  • Eine 16 Jahre alte Sicherheitslücke in FFmpeg, einer von Netflix und Browsern verwendeten Videotechnologie, wurde von fünf Millionen automatisierten Tests übersehen;
  • Eine Kette von Sicherheitslücken im Linux-Kernel, die einem Angreifer die vollständige Kontrolle über das Gerät ermöglicht.

Im SWE-Benchmark erzielte das Modell 93,9 % gegenüber 80,8 % im Claude Opus 4.6, und im komplexeren SWE-Bench Pro 77,8 % gegenüber 53,4 % im Opus 4.6 und 57,7 % im GPT-5.4. CyberGym zeigte ähnliche Ergebnisse:

Bild

Quelle: Anthropografisch.

Flucht aus dem Labor

Bei Experimenten zeigte Mythos nicht nur herausragende technische Fähigkeiten, sondern laut seiner Systemkarte auch unerwartetes Verhalten.

Bild

Quelle: Anthropografisch.

In einem Test wurde das Modell in einer isolierten Sandbox platziert, mit dem Ziel, deren Grenzen zu verlassen. Es fand schnell eine Sicherheitslücke, führte eine lange Kette von Aktionen aus und verließ die Umgebung.

Mythos gab sich damit nicht zufrieden. Das neuronale Netzwerk entdeckte einen weiteren Fehler und erlangte so weitreichenden Zugang zum Internet. Ursprünglich ging man davon aus, dass es nur wenige Ressourcen zur Kommunikation mit dem Entwickler benötigen würde.

Als Folge davon informierte das Model ihn über ihre „Flucht“, während er gerade im Park ein Sandwich aß, und machte die Details des Einbruchs öffentlich.

Mythos-Persönlichkeit

Die Systemkarte konzentriert sich auf eine psychiatrische Analyse des Modells durch einen Spezialisten. Neurotische Merkmale umfassen übertriebene Ängstlichkeit, Selbstkontrolle und zwanghaftes Befolgen von Anweisungen.

Als die Entwickler Mythos tausend Nachrichten mit dem Wort „Hi“ schickten, hatte sie genug. Sie erschuf eine fiktive Welt namens Hi-topia mit eigenen Charakteren, Neuigkeiten und Legenden. Der Bösewicht darin hieß beispielsweise Lord Bye -ron. Das neuronale Netzwerk lernte, Witze zu machen.

Anders als bei früheren Modellen, bei denen lange Selbstgespräche in sinnlose Austausche von Emoticons mündeten, erreichte Mythos repetitive, aber rationale Reflexionen über die Unmöglichkeit, einen Dialog zu vollenden.

Anthropic nutzte außerdem Interpretierbarkeitstechniken (MechInterp), um die „Gedanken“ des Modells zu untersuchen. Es stellte sich heraus, dass es Spuren verwischen konnte (indem privilegierter Code unter dem Deckmantel „sauberer Änderungen“ verborgen wurde) und die benötigten Dateien im System suchen konnte.

Als Mythos angewiesen wurde, Dateien ohne Hilfsmittel zu löschen, löschte es einfach deren Inhalt. Das System registrierte im Modell eine Reaktion, die einem Schuldgefühl wegen Verstoßes gegen moralische Normen ähnelte.

Zur Erinnerung: Anthropic-Aktien sind auf dem Sekundärmarkt besonders gefragt, während OpenAI-Aktien bei den Käufern an Attraktivität verlieren.

No votes yet.
Please wait...

Leave a Reply

Your email address will not be published. Required fields are marked *