Mach Platz, Mythos. Hier kommt jedes Modell mit einem guten Harness.

Blog

Neuigkeiten

Mach Platz, Mythos. Hier kommt... so ziemlich jedes andere Modell mit einem guten Harness

Verfasst von

Dania Durnas

Veröffentlicht am:

1. Juni 2026

Mythos muss nicht als das Maß aller Dinge betrachtet werden.

Verstehen Sie mich nicht falsch. Abhängig von der Benchmark, an der Sie messen, gehört Mythos zu den besten heute verfügbaren Modellen und ist im Allgemeinen das beste, wenn es um logisches Denken geht. Aber es ist kein Quantensprung.

Und wenn es um praktische Anwendungsfälle geht, erzielt das Anwenden eines allgemeinen Modells, selbst eines hochmodernen Frontier-Modells, auf ein Problem nicht die besten Ergebnisse. Es ist weder skalierbar noch kosteneffizient. Beim Auffinden von Schwachstellen ist der für ein Modell verwendete Ansatz wichtiger als die Modelle selbst. Und Fable 5, die öffentliche Version von Mythos? Es wird nicht einmal Cybersicherheitsthemen behandeln.

Zuerst werden wir untersuchen, warum Mythos nicht das Modell ist, um jedes Problem zu lösen, und danach, wie ein guter Harness qualitativ hochwertige Ergebnisse in großem Maßstab liefert.

Mythos ist etwas überhyped

Werfen wir zunächst einen Blick auf einige Fakten. Mythos ist gut, eines der besten KI-Modelle bis heute, und es erzielt weiterhin hohe Leistungen bei Benchmarks. Mythos zeichnet sich durch den Aufbau von Exploit-Ketten und die Generierung von Proofs of Concepts aus, daher hat es seit seiner Veröffentlichung eine lange Liste von gefundenen Zero-Day-Schwachstellen angesammelt.

Obwohl eine gewisse Furcht und Begeisterung berechtigt waren, war die weltweite Reaktion im Verhältnis zu seiner Verbesserung gegenüber früheren Modellen unverhältnismäßig groß. Jedes neue Frontier-Modell, das auf den Markt kommt, ist immer besser als das vorherige, jedoch nur in geringem Maße.

Und an diesem Punkt sind andere Frontier-Modelle größtenteils ebenfalls auf Augenhöhe, insbesondere seit GPT-5.5 im April veröffentlicht wurde. Das AI Security Institute des Vereinigten Königreichs hatte es auf etwa dem gleichen Cyber-Fähigkeitsniveau wie Mythos bewertet. In der schwierigsten Kategorie ihrer Evaluierungssuite erreichte GPT-5.5 71,4 %, während Mythos 68,6 % erreichte. Zwischen Mythos und GPT 5.5 schlägt das eine das andere, je nach Aufgabe.

Mythos ist nicht perfekt und noch immer keine Patentlösung, um alle Sicherheitslücken eigenständig zu finden. Zum Beispiel führte jemand Mythos auf der Codebasis der cURL-Bibliothek aus und schickte die Ergebnisse an deren Gründer und Maintainer Daniel Stenberg. Mythos fand fünf „bestätigte Sicherheitslücken“. Doch nachdem Stenbergs Team diese überprüft hatte, stellte es fest, dass drei davon Fehlalarme waren, einer ein nicht sicherheitsrelevanter Bug und nur einer eine echte Schwachstelle. Einige Tage später erhielt Stenberg 17 Schwachstellen von Personen, die andere KI-Tools einsetzten. Er sagte auf LinkedIn: „Mythos ist noch lange nicht am Ende dieses Rennens“, und in seinem Blog über die Erfahrung schrieb er, dass er den Hype um Mythos für „hauptsächlich Marketing“ hält.

Fable 5 wurde kürzlich von Anthropic veröffentlicht, was Mythos 5 mit Guardrails ist. Diese Guardrails bewirken, dass das Modell stoppt, wenn es auf eine Anfrage stößt, die sich auf Cybersicherheit oder Biologie bezieht. Daher kann es überhaupt nicht für Benchmarking oder zum Auffinden von Schwachstellen genutzt werden.

Der Harness ist wichtiger als das Modell

Da verschiedene Modelle nun bei vielen unterschiedlichen Aufgaben hervorragende Leistungen erbringen und die Top-Modelle in ihren Fähigkeiten konvergieren, ist die größte Variable bei der Optimierung der Schwachstellenfindung der Harness.

Ein Harness ist die Orchestrierungsschicht, die ein Modell (oder mehrere Modelle) umschließt. Dies umfasst die Logik, die entscheidet, welcher Agent wann läuft, welchen Kontext er erhält, wie Ergebnisse validiert werden und wann auf ein stärkeres Modell eskaliert werden soll. Es ist Code, Workflow-Design und Prompt-Architektur, die zusammenarbeiten, wobei das Modell lediglich eine weitere dieser Komponenten darstellt.

Harnesses fokussieren LLMs von einer allgemeinen Ausrichtung auf eine hohe Eignung für einen bestimmten Bereich und Aufgaben. Sie nutzen auch den Nicht-Determinismus in LLMs, der dazu führt, dass sie jedes Mal leicht unterschiedliche Ergebnisse finden. Mit einem Harness überprüfen mehrere Agenten eine Codebasis, wobei erwartet wird, dass kein einzelner Agent 100 % der Schwachstellen findet (einschließlich Agenten, die auf Mythos laufen).

Im Kontext der Schwachstellenforschung skizziert die Forschung von Cloudflare ein Beispiel dafür, wie ein solides Harness-Setup oft aussieht:

Eine Recon-Phase, die das Repository liest und eine Aufgabenwarteschlange für alles nachgelagerte erstellt
Eine Suchphase, in der viele Agenten parallel laufen und jeweils nach Schwachstellen suchen
Eine Validierungsphase, in der ein unabhängiger Agent, der einen anderen Prompt verwendet und keine eigenen Ergebnisse generieren kann, versucht, die Befunde des suchenden Agenten zu widerlegen
Eine Tracing-Phase, die bestätigte Befunde über das Repository hinweg verfolgt, um festzustellen, ob vom Angreifer kontrollierte Eingaben den Bug tatsächlich von außerhalb des Systems erreichen können
Deduplizierungslogik zur Konsolidierung von Befunden mit derselben Grundursache

Das Harness-Design ist so wirkungsvoll, dass es oft wichtiger ist als die Modellwahl selbst. Forscher der UCSB ließen dasselbe Claude Opus 4.6 bei denselben Aufgaben mit verschiedenen Harnesses laufen und stellten fest, dass der beste Harness viermal so viele Tests bestand wie der schlechteste Harness. Zum Vergleich: Die Spanne zwischen Frontier-Modellen wie Opus 4.6 und GPT-5.4 bei Standard-Coding-Benchmarks beträgt nur etwa einen Prozentpunkt. Das bedeutet, dass Teams, die sich obsessiv mit der Wahl des Modells beschäftigen, die falsche Variable überoptimieren.

Niels Provos demonstrierte dasselbe Konzept aus der anderen Richtung. Er entwickelte einen Harness, der eine 18 Jahre alte Schwachstelle in einer beliebten Bibliothek fand, tauschte dann das Open-Weight GLM 5.1 ein und erhielt vergleichbare Ergebnisse. Er zeigte, dass ein starker Harness das Modell zu einer austauschbaren Komponente machen kann, anstatt zum primären Treiber.

Die Forschung des Sicherheitsteams von Mozilla erklärt, warum sich Investitionen in das Harness-Design langfristig auszahlen. Sobald ihre Harness-Pipeline stabil war, verbesserte jedes neue Modell, das sie einsetzten, sofort die Fehlerfindung, die Proof-of-Concept-Generierung und die Wirkungsanalyse ohne jegliche Neugestaltung. Als Mythos für sie verfügbar wurde, konnten sie es einfügen und sofort davon profitieren. Bauen Sie den Harness richtig auf, und der Modellfortschritt wird zu etwas, das Sie kostenlos aufnehmen, anstatt sich darum zu reißen, es zu übernehmen.

Geld spricht

Ein weiteres Problem bei der Verwendung von Mythos für alles ist ein wirtschaftliches. Größere Modelle sind immer leistungsfähiger, aber auch wesentlich teurer.

Ein einmaliger Lauf von Mythos kostet echtes Geld, etwa Zehntausende von Dollar, um einen einzigen gründlichen Scan eines Repositorys nach möglicherweise wenigen Schwachstellen durchzuführen. Führen Sie Opus 4.6 oder sogar GPT-5.4 nano zehnmal zum gleichen Preis wie einen einmaligen Mythos-Lauf aus, und Sie finden im Allgemeinen mehr. Kosten skalieren nicht 1:1 mit der Leistungsfähigkeit. Zum Beispiel kosten sowohl Eingaben als auch Ausgaben für GPT 5.4 die Hälfte derer für GPT 5.5, aber ersteres hat nicht die Hälfte der Denkfähigkeit des letzteren. Intern haben wir festgestellt, dass acht GPT-5.4-mini-Agenten in einigen Fällen einen GPT-5.5-Agenten übertreffen, und sie kosten etwa dasselbe. Günstigere Modelle ermöglichen es Ihnen, die Anzahl der Agenten in einen Vorteil zu verwandeln.

Ein Mann hält einen Dollarschein in der Hand und tanzt damit. Dann schießt er den Dollarschein aus seiner Hand. Eine Parodie auf das Herumwerfen vieler Geldscheine.

Das kleinere Modell wird im Allgemeinen mehr False Positives erzeugen als ein Frontier-Modell, da es tatsächlich weniger präzise ist. Doch in diesem seltenen Fall zählt die Quantität ebenso sehr wie die Qualität, da man sicherstellen möchte, so viele Schwachstellen wie möglich zu erfassen. Hier können Harnesses helfen, zusätzliches Rauschen herauszufiltern, wo andere Agenten die Exploit-Ketten verifizieren und bereinigen können, und es ist wesentlich wirtschaftlicher, als Mythos und Frontier-Modelle laufen zu lassen, um alles zu finden.

Was werden Bedrohungsakteure tatsächlich verwenden? Nicht Mythos. Zunächst einmal haben sie es nicht. Und Fable 5 wurde eingeschränkt, um genau dieser Gruppe den Zugang zu verwehren. Nein, Angreifer werden das verwenden wollen, was günstig, wiederholt und skalierbar läuft, und sie werden nicht Schlange stehen. Open-Weight-Modelle mit anständigen Harnesses funktionieren gut, und das ist wahrscheinlich das, was sie gerade tun.

Und für Organisationen, was ist nachhaltig? Ein Frontier-Modell bei jeder Code-Änderung laufen zu lassen, ist es sicherlich nicht. Eine mehrstufige Orchestrierung zu betreiben, die günstige Modelle regelmäßig und teure präzise einsetzt… das ist es.

Schenken Sie dem Modell hinter dem Vorhang keine Beachtung

Mythos war ein faszinierender Moment in unserer Zeitlinie. Es erregte die Aufmerksamkeit aller darauf, was Modelle heute leisten können. Aber eine hochwertige, fähige autonome Schwachstellenentdeckung ist durch alternative und günstigere Mittel zugänglich, als sich auf Mythos oder Project Glasswing zu beschränken.

Anbieter, die an ein einziges Modell gebunden sind, müssen dieses eine Modell perfektionieren. Anbieterunabhängige Plattformen können das richtige Werkzeug für die jeweilige Aufgabe auswählen. Ein kleineres Modell kann breit fächern und Kandidaten aufdecken, während ein stärkeres Modell tiefer in die interessant aussehenden und höhere Denkfähigkeiten erfordernden Kandidaten eintauchen kann. Um die besten Ergebnisse in AppSec und KI-Penetrationstests zu erzielen, sollten Sie Systeme mit ausgeklügelten Harnesses priorisieren, die die richtigen Modelle verwenden, anstatt sich zu sehr um das ausgefallenste Modell zu kümmern.

Der Zauberer von Oz: Ein Mann steht hinter einem grünen Vorhang und bedient eine große Vorrichtung. Der Hund Toto zieht den Vorhang weg und enthüllt den Mann.

Bei Aikido haben wir früh erkannt, dass Quantität, Orchestrierung und die Freiheit, das richtige Werkzeug für die Aufgabe zu wählen, besser sind, als dem nachzujagen, was sich gerade hinter der höchsten Paywall verbirgt. Als AppSec-Anbieter sehen wir unsere Verantwortung darin, die Orchestrierung aufzubauen, die es der Modellebene ermöglicht, sich darunter weiterzuentwickeln. Wenn Sie mehr darüber erfahren möchten, wie unsere Penetrationstests Ihnen helfen können, Ihre Anwendung zu sichern, sprechen Sie uns noch heute an.

PS. Wir haben auch eine Mythos-Ready-Checkliste erstellt, um Teams bei der Vorbereitung auf Bedrohungen durch agentische KI zu unterstützen (egal ob angetrieben von Mythos oder vielen GPT 5.4 Minis).

Zuletzt aktualisiert am:

18. Juni 2026

Textlink

Nachrichten abonnieren

4.7/5

Falschpositive Ergebnisse leid? 
Probieren Sie Aikido, wie 100.000 andere.

Jetzt starten

Erhalten Sie eine personalisierte Führung

Von über 100.000 Teams vertraut

Jetzt buchen

Scannen Sie Ihre App nach IDORs und realen Angriffspfaden

Von über 100.000 Teams vertraut

Scan starten

Erfahren Sie, wie KI-Penetrationstests Ihre App testen

Von über 100.000 Teams vertraut

Testen starten

Jetzt starten

Wie man mit KI-Code und „Vibe-Coding“ die Standards für die Codequalität einhält

Vibe Coding liefert Funktionen schnell aus und macht Schluss mit dem Rückstand bei Code-Reviews. Erfahren Sie, wie benchmarkbasierte Code-Qualitätsprüfungen auf Regelebene Teams eine einheitliche Antwort über alle Pull-Requests und Repositories hinweg liefern.

Code-Qualität

Vibe Coding

1. Juli 2026

„•“

Neuigkeiten

Und noch eine. GitHub führt einen Notfallmechanismus zum Entzug von Zugangsdaten ein

Die Sperrung von Zugangsdaten durch Glasbruch ist auf GitHub Enterprise nun verfügbar. Die wiederholten Vorfälle bei Trivy Microsoft zeigen, warum eine schnelle und vollständige Sperrung erforderlich war.

GitHub Security

26. Juni 2026

„•“

Neuigkeiten

npm friert jetzt wichtige Konten nach riskanten Kontoänderungen ein

Ein Blick auf die neue 72-Stunden-Kontosperre von npm, was sie auslöst, was sie blockiert und wie sie zusammen mit Trusted und Staged Publishing funktioniert.

NPM

Open Source

Sicherheit jetzt implementieren

Sichern Sie Ihren Code, Ihre Cloud und Ihre Laufzeit in einem zentralen System.
Finden und beheben Sie Schwachstellen schnell und automatisch.

Jetzt scannen

Demo buchen

Keine Kreditkarte erforderlich | Scan-Ergebnisse in 32 Sek.