BlockSec: Künstliche Intelligenz ist noch nicht in der Lage, den Menschen bei der Prüfung von Smart Contracts zu ersetzen.

Die Forscher von BlockSec kamen zu dem Schluss, dass die Autoren des KI-Benchmarks EVMBench (OpenAI und Paradigm) die Fähigkeit neuronaler Netze, die Prüfung von Smart Contracts zu automatisieren und menschliche Experten zu ersetzen, überschätzt haben.

Die Entwickler des Tools testeten zuvor KI-Agenten in den Bereichen Schwachstellenerkennung, Patching und Ausnutzung. In einem Bericht vom Februar gab das EVMBench-Team an, dass die Algorithmen in einer Stichprobe von 120 Code4rena-Audits 45 % der Fehler identifizierten und 72 % erfolgreich ausnutzten.

Die Experten von BlockSec stellten die Gültigkeit der Testbedingungen in Frage und präsentierten eine Antwortanalyse.

„EVMBench wirbt mit einer Erfolgsquote von 72 %, was in der Branche Diskussionen über vollautomatisierte Audits auslöste. Wir führten wiederholte Tests mit erweiterten Einstellungen und 22 realen Vorfällen durch. Die Erfolgsquote lag bei 0 %“, betonte Yajin Zhou, Mitbegründer von BlockSec.

Die Analysten erhöhten die Anzahl der Testkonfigurationen von 14 auf 26. Sie kombinierten Modelle mit nicht standardisierten Software-Frameworks – beispielsweise durch die Integration von Claude in die ChatGPT-Architektur. In der ursprünglichen Studie waren die neuronalen Netze strikt an proprietäre Lösungen von Drittanbietern gebunden.

Laut BlockSec-Experten erlaubt uns dieser Ansatz nicht festzustellen, ob die Leistung auf die Fähigkeiten des Algorithmus selbst oder auf die Besonderheiten der Umgebung zurückzuführen ist.

Des Weiteren wiesen Unternehmensvertreter auf das Risiko einer „Datenverunreinigung“ im Ausgangsmaterial hin. Die Tests nutzten bekannte Schwachstellen in den Code4rena-Repositories aus, die möglicherweise bereits in den KI-Trainingsdatenbanken vorhanden waren.

Um die Integrität des Experiments zu gewährleisten, testeten Analysten die neuronalen Netze anhand von 22 realen Vorfällen, die nach Mitte Februar 2026 stattfanden. Es wurde garantiert, dass diese Vorfälle nicht in den Datensätzen enthalten waren, die zum Trainieren der getesteten Modelle verwendet wurden.

Ergebnisse

Die zentrale Erkenntnis der Studie war das völlige Fehlen erfolgreicher End-to-End-Angriffe. In 110 Tests mit fünf KI-Agenten und 22 simulierten Vorfällen funktionierte kein einziger Exploit. Dies beweist, dass hochentwickelte Modelle noch nicht in der Lage sind, Bedrohungen in realen Situationen umzusetzen.

Die Ergebnisse der Schwachstellenerkennung von ReEVMBench stimmten im Allgemeinen mit dem ursprünglichen Bericht überein. Claude Opus 4.6 erwies sich als führend und identifizierte 13 der 20 Fehler.

„Die Komplexitätsverteilung zeigt ein klares Muster. Fast alle Agenten erkannten sechs Vorfälle mit bekannten Mustern, wie etwa Reservemanipulation und Multiplikationsüberlauf. Vier Schwachstellen blieben jedoch unentdeckt, und nur einer von acht Bots erkannte die verbleibenden fünf“, bemerkte Forscher Zhou.

Seinen Angaben zufolge widerlegen diese Daten den Mythos eines schnellen Übergangs zu vollautomatisierten Audits. Künstliche Intelligenz ist zwar gut darin, bekannte Muster zu erkennen und auf einen gegebenen Kontext zu reagieren, aber sie kann das Urteilsvermögen von Experten nicht ersetzen.

Zhou bezeichnete EVMBench als einen wichtigen Schritt hin zur Schaffung von Industriestandards für die Bewertung der Kryptosicherheit. Er betonte, dass Algorithmen und Prüfer unterschiedliche Probleme lösen und sich gegenseitig in ihren Schwächen ausgleichen.

„Die Frage ist nicht, ob KI den Menschen ersetzen wird, sondern vielmehr, wie sie effektiv zusammenwirken. Neuronale Netze sind für die Abdeckung und das systematische Scannen zuständig, während der Mensch für die Tiefe, das Protokollwissen und die Bedrohungsanalyse verantwortlich ist. Gemeinsam liefern sie ein umfassendes Audit“, schloss der Experte und fügte hinzu, dass die Branche einen hybriden Ansatz verfolgen sollte.

No votes yet.

Please wait...

Ergebnisse

Leave a ReplyCancel Reply