Aikido

Mach Platz, Mythos. Hier kommt … so ziemlich jedes andere Modell mit einem guten Gurtzeug

Verfasst von
Dania Durnas

Mythos muss nicht unbedingt als der Größte und Böseste im Raum angesehen werden.

Versteh mich nicht falsch. Je nachdem, welchen Maßstab man anlegt, gehört Mythos zu den besten Modellen, die es derzeit gibt, und ist im Allgemeinen das beste Modell, was das logische Schlussfolgern angeht. Aber es liegt nicht meilenweit vor der Konkurrenz.

Und wenn es um praktische Anwendungsfälle geht, führt der Einsatz eines allgemeinen Modells – selbst eines hochmodernen Modells – nicht zu den besten Ergebnissen. Außerdem ist dies weder skalierbar noch kosteneffizient. Bei der Suche nach Schwachstellen ist der für ein Modell verwendete Testrahmen wichtiger als die Modelle selbst.

Wir werden zunächst untersuchen, warum Mythos nicht das Allheilmittel für jedes Problem ist, und anschließend erläutern, wie ein guter Harness in großem Maßstab hochwertige Ergebnisse liefert.

Mythos ist ein bisschen überbewertet

Betrachten wir zunächst einige Fakten. Mythos ist ein hervorragendes Modell – eines der besten KI-Modelle, die es bisher gibt – und schneidet bei Benchmarks weiterhin sehr gut ab. Mythos zeichnet sich durch die Erstellung von Exploit-Ketten und die Generierung von Proof-of-Concepts aus und hat seit seiner Veröffentlichung eine lange Liste von Zero-Day-Schwachstellen aufgedeckt.

Zwar waren ein gewisses Maß an Furcht und Aufregung durchaus berechtigt, doch fiel die weltweite Reaktion im Vergleich zu den Verbesserungen gegenüber den Vorgängermodellen unverhältnismäßig stark aus. Jedes neue „Frontier“-Modell, das auf den Markt kommt, ist zwar immer besser als sein Vorgänger, doch nur in geringem Maße.

Und mittlerweile liegen auch andere Spitzenmodelle weitgehend auf dem gleichen Niveau, insbesondere seit der Veröffentlichung von GPT-5.5 im April. Das britische AI Security Institute stufte es in etwa auf derselben Stufe der Cyberfähigkeiten ein wie Mythos. In der schwierigsten Kategorie ihrer Bewertungssuite erreichte GPT-5.5 71,4 %, während Mythos 68,6 % erreichte. Zwischen Mythos und GPT-5.5 übertrifft das eine das andere, je nach Aufgabe.

Mythos ist nicht perfekt und stellt auch noch kein Allheilmittel dar, um alle Sicherheitslücken im Alleingang aufzuspüren. So hat beispielsweise jemand Mythos auf den Quellcode der cURL-Bibliothek angewendet und die Ergebnisse per E-Mail an deren Gründer und Betreuer Daniel Stenberg geschickt. Mythos deckte fünf „bestätigte Sicherheitslücken“ auf. Nachdem Stenbergs Team diese jedoch überprüft hatte, stellte sich heraus, dass drei davon Fehlalarme waren, einer kein Sicherheitsfehler war und nur einer eine echte Schwachstelle darstellte. Einige Tage später erhielt Stenberg 17 Schwachstellenmeldungen von Personen, die andere KI-Tools einsetzten. Auf LinkedIn schrieb er: „Mythos ist noch lange nicht am Ziel“, und in seinem Blogbeitrag über diese Erfahrung äußerte er die Ansicht, dass der Hype um Mythos „in erster Linie Marketing“ sei.

Der Gurt ist wichtiger als das Modell

Da sich die verschiedenen Modelle mittlerweile bei vielen unterschiedlichen Aufgaben auszeichnen und sich die Leistungsfähigkeit der Spitzenmodelle immer mehr angleicht, ist der Anschluss die wichtigste Variable bei der Optimierung der Schwachstellenerkennung. 

Ein „Harness“ ist die Koordinationsschicht, die ein Modell (oder mehrere Modelle) umgibt. Dazu gehört die Logik, die entscheidet, welcher Agent wann ausgeführt wird, welchen Kontext er erhält, wie Ergebnisse validiert werden und wann auf ein leistungsfähigeres Modell zurückgegriffen werden soll. Es handelt sich um eine Kombination aus Code, Workflow-Design und Prompt-Architektur, wobei das Modell lediglich eine dieser Komponenten darstellt. 

Harnesses sorgen dafür, dass LLMs nicht mehr allgemein gehalten sind, sondern speziell auf einen bestimmten Bereich und bestimmte Aufgaben zugeschnitten werden. Außerdem nutzen sie den Nichtdeterminismus von LLMs, der dazu führt, dass sie jedes Mal leicht unterschiedliche Ergebnisse liefern. Mit einem Harness überprüfen mehrere Agenten eine Codebasis, wobei davon ausgegangen wird, dass kein einzelner Agent 100 % der Schwachstellen findet (einschließlich der auf Mythos laufenden Agenten). 

Im Zusammenhang mit der Schwachstellenforschung zeigt die StudieCloudflare ein Beispiel dafür, wie eine solide Testumgebung in der Regel aussieht:

  • Eine Erkundungsphase, in der das Repository ausgelesen und eine Aufgabenwarteschlange für alle nachgelagerten Prozesse erstellt wird
  • Eine Suchphase, in der viele Agenten parallel laufen und jeweils nach Schwachstellen suchen
  • Eine Validierungsphase, in der ein unabhängiger Agent unter Verwendung einer anderen Eingabeaufforderung und ohne die Möglichkeit, eigene Ergebnisse zu generieren, versucht, die Ergebnisse des suchenden Agenten zu widerlegen
  • Eine Nachverfolgungsphase, in der bestätigte Befunde im gesamten Repository nachverfolgt werden, um festzustellen, ob vom Angreifer kontrollierte Eingaben den Fehler tatsächlich von außerhalb des Systems erreichen können
  • Deduplizierungslogik zur Zusammenfassung von Befunden, die dieselbe Ursache haben

Die Gestaltung des Harnesses ist so entscheidend, dass sie oft wichtiger ist als die Wahl des Modells selbst. Forscher der UCSB ließen dasselbe Modell „Claude Opus 4.6“ dieselben Aufgaben mit unterschiedlichen Harnesses ausführen und stellten fest, dass der beste Harness viermal so viele Tests bestand wie der schlechteste. Zum Vergleich: Der Abstand zwischen Spitzenmodellen wie Opus 4.6 und GPT-5.4 bei Standard-Coding-Benchmarks beträgt nur etwa einen Prozentpunkt. Das bedeutet, dass Teams, die sich zu sehr auf die Wahl des Modells konzentrieren, die falsche Variable überoptimieren.

Niels Provos demonstrierte dasselbe Konzept aus einer anderen Perspektive. Er entwickelte einen Testrahmen, der eine 18 Jahre alte Sicherheitslücke in einer weit verbreiteten Bibliothek aufdeckte, tauschte dann das Open-Weight-Modell GLM 5.1 ein und erzielte vergleichbare Ergebnisse. Er zeigte, dass ein leistungsfähiger Testrahmen das Modell zu einer austauschbaren Komponente machen kann, anstatt dass es die treibende Kraft ist. 

Die Untersuchungen des Mozilla-Sicherheitsteams zeigen, warum sich Investitionen in die Entwicklung von Test-Harnesses auf lange Sicht auszahlen. Sobald ihre Test-Harness-Pipeline solide stand, verbesserte jedes neue Modell, das sie einführten, sofort die Fehlersuche, die Erstellung von Proof-of-Concepts und die Auswirkungsanalyse, ohne dass eine Neugestaltung der Architektur erforderlich war. Als Mythos ihnen zur Verfügung stand, konnten sie es nahtlos integrieren und sofort davon profitieren. Wenn man den Test-Harness richtig aufbaut, wird der Fortschritt bei den Modellen zu etwas, das man ganz nebenbei mitnimmt, anstatt sich abmühen zu müssen, es zu übernehmen.

Geld regiert die Welt

Ein weiteres Problem bei der Verwendung von Mythos für alle Bereiche ist finanzieller Natur. Größere Modelle sind zwar immer leistungsstärker, aber auch deutlich teurer.

Ein einziger Durchlauf von Mythos kostet echtes Geld – etwa mehrere Zehntausend Dollar –, um ein Repository gründlich auf möglicherweise wenige Schwachstellen zu scannen. Führt man Opus 4.6 oder sogar GPT-5.4 nano zehnmal zum gleichen Preis wie einen einzigen Durchlauf von Mythos aus, findet man in der Regel mehr. Die Kosten skalieren nicht eins zu eins mit der Leistungsfähigkeit. Beispielsweise kosten sowohl die Eingaben als auch die Ausgaben für GPT 5.4 nur die Hälfte derjenigen für GPT 5.5, aber ersteres verfügt nicht über die Hälfte der Schlussfolgerungsfähigkeit des letzteren. Intern haben wir festgestellt, dass acht GPT-5.4-Mini-Agenten in manchen Fällen einen GPT-5.5-Agenten übertreffen, und sie verursachen etwa die gleichen Kosten. Mit kostengünstigeren Modellen können Sie die Anzahl der Agenten zu einem Vorteil machen.

Ein Mann hält einen Dollarschein in der Hand und tanzt damit. Dann schießt er den Dollarschein aus seiner Hand. Eine Parodie darauf, wie man mit Geldscheinen um sich wirft.

Das kleinere Modell liefert in der Regel mehr Fehlalarme als ein Frontier-Modell, da es tatsächlich weniger präzise ist. In diesem seltenen Fall ist jedoch die Quantität ebenso wichtig wie die Qualität, da man sicherstellen möchte, dass möglichst viele Schwachstellen erfasst werden. Hier können Testumgebungen dabei helfen, überflüssiges Rauschen herauszufiltern, während andere Agenten die Exploit-Ketten überprüfen und bereinigen können – und das ist wesentlich kostengünstiger, als Mythos- und Frontier-Modelle laufen zu lassen, um alles zu finden.

Was werden Angreifer tatsächlich nutzen? Nicht Mythos. Erstens haben sie es gar nicht. Aber sie werden alles nutzen wollen, was kostengünstig, wiederholt und in großem Maßstab läuft, und sie werden nicht in der Warteschlange stehen. Open-Source-Modelle mit ordentlichen Frameworks funktionieren gut, und genau das tun sie wahrscheinlich gerade.

Und was ist für Unternehmen nachhaltig? Bei jeder Codeänderung ein „Frontier“-Modell auszuführen, ist es sicherlich nicht. Eine mehrstufige Orchestrierung zu betreiben, bei der kostengünstige Modelle regelmäßig und teure Modelle gezielt eingesetzt werden … das ist es.

Beachte das Model hinter dem Vorhang gar nicht

„Mythos“ war ein faszinierender Meilenstein in unserer Entwicklung. Es hat allen vor Augen geführt, wozu Modelle heute in der Lage sind. Doch eine hochwertige und leistungsfähige autonome Schwachstellenerkennung ist auch über alternative und kostengünstigere Wege zugänglich, ohne sich auf „Mythos“ oder „Project Glasswing“ beschränken zu müssen. 

An ein einziges Modell gebundene Anbieter müssen dieses eine Modell perfektionieren. Anbieterunabhängige Plattformen können das richtige Werkzeug für die jeweilige Aufgabe auswählen. Ein kleineres Modell kann breit gefächert vorgehen und Kandidaten aufspüren, während ein leistungsfähigeres Modell tief in diejenigen eintauchen kann, die interessant erscheinen und höhere Schlussfolgerungsfähigkeiten erfordern. Um die besten Ergebnisse bei AppSec KI-Penetrationstests zu erzielen, sollten Sie Systemen mit ausgefeilten Testumgebungen den Vorzug geben, die die richtigen Modelle verwenden, anstatt sich zu sehr darauf zu konzentrieren, das ausgefallenste Modell einzusetzen.

Der Zauberer von Oz: Hinter einem grünen Vorhang steht ein Mann und bedient eine große Maschine. Der Hund Toto zieht den Vorhang beiseite und gibt den Blick auf den Mann frei.

Bei Aikido haben wir schon früh erkannt, dass Umfang, Orchestrierung und die Freiheit, das richtige Werkzeug für die jeweilige Aufgabe auszuwählen, wichtiger sind, als immer dem neuesten Trend hinterherzulaufen. Als AppSec sehen wir es als unsere Aufgabe an, eine Orchestrierung zu entwickeln, die es ermöglicht, dass sich die Modellschicht im Hintergrund kontinuierlich weiterentwickelt. Wenn Sie mehr darüber erfahren möchten, wie unsere Penetrationstests Ihnen helfen können, Ihre Anwendung zu sichern, sprechen Sie noch heute mit uns.

P.S. Wir haben außerdem eine Mythos-kompatible Checkliste erstellt, die Teams dabei helfen soll, sich auf Bedrohungen durch agentische KI vorzubereiten (unabhängig davon, ob diese auf Mythos oder auf vielen GPT 5.4-Minis basiert).

Teilen:

https://www.aikido.dev/blog/mythos-vs-harness

Nachrichten abonnieren

4.7/5
Falschpositive Ergebnisse leid?

Probieren Sie Aikido, wie 100.000 andere.
Jetzt starten
Erhalten Sie eine personalisierte Führung

Von über 100.000 Teams vertraut

Jetzt buchen
Scannen Sie Ihre App nach IDORs und realen Angriffspfaden

Von über 100.000 Teams vertraut

Scan starten
Erfahren Sie, wie KI-Penetrationstests Ihre App testen

Von über 100.000 Teams vertraut

Testen starten

Sicherheit jetzt implementieren

Sichern Sie Ihren Code, Ihre Cloud und Ihre Laufzeit in einem zentralen System.
Finden und beheben Sie Schwachstellen schnell und automatisch.

Keine Kreditkarte erforderlich | Scan-Ergebnisse in 32 Sek.