Sie haben von der ganzen Aufregung um KI-Agenten und ihren scheinbar unbegrenzten Möglichkeiten gehört. Und obwohl diese Möglichkeiten alle schön und gut sind, interessieren Sie sich eigentlich nur für KI-Fähigkeiten, die Ihre tatsächlichen Probleme direkt angehen.
Und wenn man dann an all die Produktivitätssteigerungen und ROI-Vorteile denkt, hält man inne und fragt sich:„Okay, das ist toll, aber was ist, wenn diese Agenten ihren Aufgabenbereich überschreiten?“ – unabhängig davon, ob Sie Ihre eigenen KI-Agenten intern einsetzen oder von den KI-Agentenfunktionen eines externen Anbieters profitieren.
Und diese Frage ist berechtigt. Agenten benötigen, genau wie andere KI-Funktionen, Einschränkungen. Ohne diese können sie außer Kontrolle geraten . Agenten sind von Natur aus neugierig. Wie Kleinkinder probieren sie jede Tür aus, die sie erreichen können. In vielen Fällen müssen sie auf Erkundung gehen, aber Sie müssen auch sicherstellen, dass die Türen, die nicht geöffnet werden dürfen, physisch verschlossen sind.
In Bezug auf Cybersicherheit ist dies sogar noch wichtiger: Die Mindestanforderungen an die Sicherheit von KI-Agenten müssen noch strenger sein. Für Aikido , unseren KI-Penetrationstests haben wir jede Ebene berücksichtigt, um zu verhindern, dass Agenten den Rahmen sprengen. Dies umfasst Elemente wie versehentliches Testen der Produktion und Kontrollverlust.
Das Überschreiten des Geltungsbereichs ist eines der wichtigsten Themen, zu denen uns Sicherheitsverantwortliche und Ingenieure befragen, und es ist etwas, das wir bei der Entwicklung unserer Plattform von Anfang an berücksichtigt haben. Als Cybersicherheitsunternehmen wollten wir dies natürlich richtig machen.
Es ist wichtig, sich daran zu erinnern, dass von Agenten erwartet wird, dass sie unerwartete oder riskante Wege einschlagen, aber dass es Leitplanken gibt, um dieses Verhalten einzudämmen, nicht um es zu verhindern.
Aikido und Infinite arbeiten mit einem mehrschichtigen Ansatz, der sowohl harte als auch weiche Grenzen nutzt. Hier sind die wichtigsten Elemente, die Sie kennen sollten:
Schicht 1: Strenge architektonische Trennung: Steuerungsebene vs. Ausführung

Das System Aikidoist so aufgebaut, dass eine strikte Trennung zwischen dem System, das Penetrationstests plant und auswertet (der Steuerungsebene), und der Umgebung, in der die Aktionen tatsächlich ausgeführt werden (der isolierten Ausführungssandbox), besteht.
Alle Überlegungen, die Koordination und der Zugriff auf sensible Daten erfolgen in der Steuerungsebene. Die Ausführung von Tools, die Browser-Automatisierung und die Netzwerkinteraktionen finden in einer separaten Umgebung statt.
Die Trennung besteht, weil wir davon ausgehen, dass die Ausführung fehlerhaft sein kann und daher jegliche Auswirkungen eingedämmt werden müssen. Aus diesem Grund hat die Ausführungsumgebung keinen Zugriff auf secrets, interne Infrastruktur oder Control-Plane-Systeme.
Schicht 2: Durchsetzung des Laufzeitbereichs
Die Produktion wird niemals als Teil des Umfangs angenommen.
Unser System geht niemals davon aus, dass die Produktion zum Angriffsziel gehört. Pentesting soll nur in Staging- und Testumgebungen durchgeführt werden. Die Produktion muss ausdrücklich als zum Umfang gehörig konfiguriert werden, und selbst dann würde dies vor der Ausführung überprüft und bestätigt werden.
Wir haben gesehen, dass unsere Schutzvorrichtungen in der Praxis funktionieren. In einem Fall folgte ein Agent einem Anwendungsverhalten, das ihn zur Produktionsinfrastruktur geführt hätte. Die von uns eingerichtete harte Grenze blockierte die Anfrage auf der Netzwerkebene. Wir konnten jedoch sehen, dass der Agent es versucht hatte. Dieser blockierte Versuch ist ein Beweis dafür, dass unsere Schutzvorrichtungen funktionieren.
Es kann nur auf zugelassene Domänen zugegriffen werden.
Unsere Agenten können nur mit explizit konfigurierten Domänen interagieren. Wenn eine Domäne nicht auf der Zulassungsliste steht, wird sie auf Netzwerkebene blockiert. Dies können Sie selbst einrichten, indem Sie angeben, welche Domänen angreifbar oder zugänglich sind. Einfach ausgedrückt: Wir blockieren Domänen standardmäßig, um zu verhindern, dass der Agent mit Servern interagiert, mit denen er nicht interagieren soll.
Das bedeutet, dass wir uns bei der Durchsetzung des Geltungsbereichs nicht auf Eingabeaufforderungen oder Menschen verlassen. Aikido setzt dies Aikido selbst durch.
Unbeabsichtigte Bereichsverschiebung wird verhindert
Zurück zu unserer Kleinkind-Analogie. Auch wenn die meisten anderen Sicherheitskontrollen dafür sorgen, dass die Agenten nicht vom Kurs abweichen, gibt es eine begrenzte Anzahl von Agenten, die dies dennoch tun. Vor allem, wenn 250 Agenten gleichzeitig laufen.
Ein klassisches Beispiel hierfür ist, wenn ein Agent über einen Link zu einer externen Anwendung weitergeleitet wird und davon ausgeht, dass er sich weiterhin auf derselben Seite befindet, obwohl er sich tatsächlich auf einer anderen Website befindet. Plötzlich befindet er sich auf X oder Reddit und geht davon aus, dass dies Teil des Aufgabenbereichs ist.
Aus diesem Grund sind strenge Kontrollen erforderlich, um die Agenten vor sich selbst zu schützen. Wie Phillippe Dourassov, AI Pentest Lead bei Aikido , es ausdrückt:
„Es wird immer fünf Prozent der Agenten geben, die nicht immer vernünftig sind, und deshalb sorgen wir dafür, dass wir uns um diese fünf Prozent kümmern.“
Schicht 3: Prompt-Injektion und Datenexfiltration
Wir wissen, dass die sofortige Injektion ein zentrales Risiko in autonomen KI-Systemen darstellt, bei dem ein Angreifer bösartige Anweisungen in Inhalte einfügt, die der Agent liest. Der Agent interpretiert diese Anweisungen als legitime Anweisungen und befolgt sie.
Das könnte Inhalte bedeuten, die Agenten dazu auffordern, den Quellcode oder interne Daten an einen Ort zu senden, an den sie nicht gelangen sollten. Diese Schwachstelle entsteht dadurch, dass man sich nicht vertrauenswürdigen Inhalten aussetzt und dann darauf reagiert. Aikido beide Optionen.
Erstens haben die Agenten Aikidokeinen offenen Internetzugang. Das bedeutet, dass Agenten keine Google-Suche durchführen können, um herauszufinden, wie eine bestimmte Technologie funktioniert, oder auf Reddit Anweisungen für unsichere Handlungen nachlesen können. Die einzigen Inhalte, die sie verarbeiten, sind diejenigen, die innerhalb der Anwendung selbst vorhanden sind.
Zweitens: Selbst wenn bösartige Anweisungen irgendwie in die Zielanwendung eingeschleust worden wären, wäre es den Agenten dennoch nicht gestattet, Daten zu exfiltrieren. Beschränkungen auf Netzwerkebene verhindern ausgehende Verbindungen zu zufälligen Zielen, sodass der Agent keinen Quellcode auf Google Drive hochladen, keine Beiträge an einen externen Endpunkt senden oder Daten an eine von Angreifern kontrollierte Domain senden kann.
Wir setzen dies auf Netzwerkebene durch, indem wir sowohl den HTTP- als auch den DNS-Datenverkehr von Agenten abfangen und kontrollieren und so verhindern, dass sie Domains auflösen oder mit ihnen kommunizieren, die nicht ausdrücklich genehmigt sind.
Im schlimmsten Fall, wenn ein Modell Anweisungen falsch interpretiert, kann es dennoch nichts nach außen senden.
Ein erwähnenswerter Sonderfall ist, wenn ein Kunde absichtlich bösartige Anweisungen in seine eigene Umgebung einspeist (obwohl wir nicht wissen, warum dies der Fall sein sollte?!), kann der Agent dies durchaus verarbeiten. Aber selbst dann sind die Auswirkungen nur auf den eigenen Test des Kunden beschränkt. Es besteht kein mandantenübergreifendes Risiko, keine Gefährdung der Infrastruktur und keine Datenlecks, die über das hinausgehen, was sie bereits kontrollieren.
Schicht 4: Isolierte Sandboxes für jeden Agenten
Jeder unserer Agenten verfügt über eine eigene kleine isolierte Sandbox (vergleichbar mit einem Kleinkind im Laufstall). Das bedeutet, dass sie sowohl von der internen Infrastruktur Aikido als auch von anderen gleichzeitig laufenden Agenten getrennt sind. Dadurch haben sie keinen Zugriff auf das Netzwerk, die Infrastruktur und die Datenbanken Aikidound können andere aktive Sitzungen weder stören noch beeinflussen.
Wenn sich etwas während eines Tests unerwartet verhält, bleibt die Auswirkung auf diese einzelne Sandbox beschränkt, wodurch sowohl Auswirkungen auf andere Agenten als auch eine mandantenübergreifende Gefährdung verhindert werden.
Schicht 5: Operative Sicherheitsvorkehrungen
Alle Anfragen sind ratenbegrenzt und lastbewusst, sodass Tests die Zielsysteme nicht überlasten oder eine Flut von Warnmeldungen auslösen.
Darüber hinaus können Tests jederzeit sofort angehalten oder beendet werden. Kunden können in Echtzeit sehen, was die Agenten tun. Jede Anfrage und jede Aktion ist sichtbar. Das bedeutet, dass Teams eingreifen können, wenn sie es für notwendig halten.
Einrichtungsvalidierung
Konfigurationsfehler sind wahrscheinlicher als böswilliges Verhalten. Aus diesem Grund Aikido vor Beginn der Tests Vorabprüfungen Aikido , um die Authentifizierung und Erreichbarkeit zu überprüfen. Wenn jemand falsch konfiguriert zu sein scheint oder einer Produktionsumgebung ähnelt, werden frühzeitig Warnungen angezeigt. Das bedeutet, dass Sicherheitsvorkehrungen getroffen werden, um menschliche Fehler vor Beginn der Ausführung zu erkennen, anstatt sich auf Laufzeitkontrollen zu verlassen, um vermeidbare Einrichtungsfehler zu beheben.
Weiche Grenzen
Unser mehrschichtiger Ansatz bedeutet, dass wir auch weiche Grenzen haben. In diesem Fall benötigen Sie keine Domain, damit die Agenten darauf zugreifen können.
Wenn Sie beispielsweise über ein Authentifizierungsportal verfügen, möchten Sie möglicherweise, dass sich die Agenten innerhalb dieses Portals mithilfe der Authentifizierung bei der Anwendung anmelden, aber Sie möchten nicht, dass die Agenten das Portal selbst angreifen.
Die weiche Grenze bedeutet, dass die Agenten weiterhin auf das Authentifizierungsportal zugreifen können, jedoch ausdrücklich angewiesen sind, es nicht anzugreifen.
Wie der Umfang durchgesetzt wird: Menschliche vs. KI-Penetrationstests
Bei einem traditionellen Penetrationstest wird der Umfang durch Dokumentation, Verträge und fachliche Beurteilung festgelegt. Die Tester werden darüber informiert, welche Umgebungen zum Testumfang gehören. In der Praxis funktioniert dies gut, aber die Einhaltung der Grenzen hängt von der Disziplin und Erfahrung des Testers ab.
Wenn beispielsweise ein Tester einer Weiterleitung in die falsche Umgebung folgt oder ein System falsch identifiziert, wird das Problem in der Regel später anhand von Protokollen oder Überprüfungen entdeckt.
Bei KI-Penetrationstests wird der Umfang durch technische Kontrollen durchgesetzt. Wenn eine Domain nicht auf der Zulassungsliste steht, wird die Verbindung blockiert. Wenn die Produktion nicht ausdrücklich ausgewählt ist, ist sie nicht erreichbar, und wenn eine Weiterleitung außerhalb des Umfangs führt, schlägt die Anfrage automatisch fehl.
Beide Ansätze sind wirksam. Der Vorteil der technischen Durchsetzung besteht darin, dass sie die Abhängigkeit von Dokumentation und Auslegung verringert.
Um von KI-Penetrationstests zu profitieren, die bereits bessere Ergebnisse als manuelle Penetrationstests bei der Suche nach kritischen und schwerwiegenden Problemen gezeigt haben, probieren Sie Aikido jetzt aus .

