Aikido

Wie Aikido KI-Penetrationstest-Agenten konzeptbedingt absichert

Verfasst von
Sooraj Shah

Sie haben all die Hysterie um KI-Agenten und all die scheinbar grenzenlosen Möglichkeiten gehört. Und während diese Möglichkeiten alle gut und schön sind, interessieren Sie sich doch nur wirklich für agentische KI-Fähigkeiten, die Ihre tatsächlichen Probleme direkt angehen.

Und wenn Sie dann an all die Produktivitätssteigerungen und ROI-Vorteile denken, halten Sie inne und fragen sich: „Okay, das ist großartig, aber was, wenn diese Agenten ihren Scope verlassen?“ – und das unabhängig davon, ob Sie Ihre eigenen KI-Agenten intern einsetzen oder von den KI-Agenten-Fähigkeiten eines externen Anbieters profitieren.

Und das ist eine berechtigte Frage. Agenten benötigen, genau wie andere KI-Fähigkeiten, Einschränkungen. Ohne sie können sie außer Kontrolle geraten. Agenten sind konzeptbedingt neugierig. Wie ein Kleinkind werden sie jede Tür ausprobieren, die sie erreichen können. In vielen Fällen sollen sie explorieren, aber Sie müssen auch sicherstellen, dass Türen, die sich nicht öffnen sollen, physisch verschlossen sind. 

Wenn es um Cybersicherheit geht, ist dies noch wichtiger: Die Mindestsicherheitsanforderungen für KI-Agenten müssen noch strenger sein. Für Aikido Attack, unsere KI-Penetrationstest-Fähigkeit, haben wir jede Ebene berücksichtigt, um zu verhindern, dass Agenten den Scope verlassen. Dies umfasst Elemente wie das versehentliche Testen von Produktionsumgebungen und den Kontrollverlust.

Das Verlassen des Scopes ist eines der Hauptthemen, zu denen uns Sicherheitsverantwortliche und Ingenieure befragen, und es ist etwas, das wir bei der Entwicklung unserer Plattform von Anfang an berücksichtigt haben. Als Cybersicherheitsunternehmen wollten wir dies natürlich richtig machen.

Es ist wichtig zu bedenken, dass von Agenten erwartet wird, unerwartete oder riskante Pfade zu versuchen, aber dass Schutzmechanismen existieren, um dieses Verhalten einzudämmen, nicht um es zu verhindern.

Aikido Attack und Infinite verfolgen einen mehrschichtigen Ansatz, der sowohl harte als auch weiche Grenzen nutzt. Hier sind die wichtigsten Elemente, die Sie kennen sollten:

Schicht 1: Harte architektonische Trennung: Control Plane vs. Ausführung

Das System von Aikido ist mit einer strikten Trennung zwischen dem System, das Penetrationstests plant und evaluiert (der Control Plane), und der Umgebung, die Aktionen tatsächlich ausführt (der isolierten Ausführungssandbox), konzipiert. 

Alle Logik, Orchestrierung und der Zugriff auf sensible Daten erfolgen in der Control Plane. Tool-Ausführung, Browser-Automatisierung und Netzwerkinteraktionen finden in einer separaten Umgebung statt.

Die Trennung existiert, weil wir davon ausgehen, dass die Ausführung sich fehlerhaft verhalten kann und daher jeder Einfluss eingedämmt werden muss. Aus diesem Grund hat die Ausführungsumgebung keinen Zugriff auf Orchestrierungs-Secrets, interne Infrastruktur oder Control-Plane-Systeme. 

Schicht 2: Laufzeit-Scope-Erzwingung

Produktion wird niemals als im Scope liegend angenommen.

Unser System geht niemals davon aus, dass die Produktion als Angriffsziel inbegriffen ist. Pentesting soll ausschließlich in Staging- und Testumgebungen durchgeführt werden. Die Produktion muss explizit als In-Scope konfiguriert werden, und selbst dann würde dies vor der Ausführung überprüft und bestätigt. 

Wir haben erlebt, wie unsere Guardrails in der Praxis funktionieren. In einem Fall folgte ein Agent einem Anwendungsverhalten, das ihn zur Produktionsinfrastruktur geführt hätte. Die von uns eingerichtete harte Grenze blockierte die Anfrage auf der Netzwerkschicht. Wir konnten jedoch sehen, dass der Agent es versucht hat. Dieser blockierte Versuch ist der Beweis dafür, dass unsere Guardrails funktionieren. 

Nur zugelassene Domains können aufgerufen werden 

Unsere Agenten können nur mit explizit konfigurierten Domains interagieren. Ist eine Domain nicht auf der Allow-List, wird sie auf Netzwerkebene blockiert. Dies können Sie selbst einrichten, indem Sie festlegen, welche Domains angreifbar oder zugänglich sind. Vereinfacht ausgedrückt blockieren wir Domains standardmäßig, um zu verhindern, dass der Agent mit Servern interagiert, mit denen er nicht interagieren soll.

Das bedeutet, wir verlassen uns bei der Scope-Durchsetzung nicht auf Prompts oder Menschen. Aikido setzt dies technisch selbst durch.

Versehentliches Abdriften aus dem Scope wird blockiert

Zurück zu unserer Kleinkind-Analogie. Obwohl die meisten anderen Sicherheitskontrollen sicherstellen, dass die Agenten nicht vom Scope abweichen, gibt es eine begrenzte Anzahl von Agenten, die es eben doch tun. Besonders wenn 250 Agenten gleichzeitig laufen. 

Ein klassisches Beispiel hierfür ist, wenn ein Agent über einen Link zu einer externen Anwendung weitergeleitet wird und annimmt, er befinde sich noch auf derselben Seite, obwohl er tatsächlich auf einer anderen Website ist. Plötzlich sind sie also auf X oder Reddit und gehen davon aus, dass dies Teil des Scopes ist.

Deshalb sind strenge Kontrollen erforderlich, um die Agenten vor sich selbst zu schützen. Wie Phillippe Dourassov, AI Pentest Lead bei Aikido Security, es ausdrückt:

„Es wird fünf Prozent der Agenten geben, die nicht immer vernünftig sind, und deshalb stellen wir sicher, dass wir uns um diese fünf Prozent kümmern.“

Ebene 3: Prompt Injection und Datenexfiltration 

Wir wissen, dass Prompt Injection ein Hauptrisiko in autonomen KI-Systemen darstellt, bei dem ein Angreifer bösartige Anweisungen in Inhalte einfügt, die der Agent liest. Der Agent interpretiert diese Anweisungen als legitime Führung und befolgt sie.

Das könnte Inhalte bedeuten, die Agenten dazu drängen, den Quellcode oder interne Daten an einen Ort zu senden, wo sie nicht hingehören. Diese Schwachstelle entsteht, wenn man nicht vertrauenswürdigen Inhalten ausgesetzt ist und dann darauf reagiert. Aikido eliminiert beide dieser Optionen.

Erstens haben die Agenten von Aikido keinen offenen Internetzugang. Das bedeutet, Agenten können keine Google-Suche durchführen, um herauszufinden, wie eine Technologie funktioniert, oder auf Reddit Anweisungen annehmen, um etwas Unsicheres zu tun. Die einzigen Inhalte, die sie verarbeiten, sind die, die innerhalb der gescopten Anwendung selbst existieren. 

Zweitens, selbst wenn bösartige Anweisungen irgendwie in der Zielanwendung platziert würden, ist es den Agenten immer noch nicht gestattet, Daten zu exfiltrieren. Netzwerkbeschränkungen verhindern ausgehende Verbindungen zu zufälligen Zielen, sodass der Agent keinen Quellcode auf Google Drive hochladen, an einen externen Endpunkt posten oder Daten an eine vom Angreifer kontrollierte Domain senden kann.

Wir setzen dies auf der Netzwerkebene durch, indem wir sowohl HTTP- als auch DNS-Traffic von Agenten abfangen und kontrollieren, wodurch verhindert wird, dass sie Domains auflösen oder mit ihnen kommunizieren, die nicht explizit genehmigt sind.

Im schlimmsten Fall, wenn ein Modell Anweisungen falsch interpretiert, kann es immer noch nichts nach außen senden.

Ein erwähnenswerter Edge Case ist, wenn ein Kunde absichtlich bösartige Anweisungen in seine eigene Umgebung injiziert (obwohl wir nicht sicher sind, warum dies der Fall sein sollte?!), der Agent dies durchaus verarbeiten kann. Aber selbst dann beschränkt sich die Auswirkung auf den eigenen Test des Kunden. Es gibt kein Cross-Tenant-Risiko, keine Infrastruktur-Exposition oder Datenlecks über das hinaus, was sie bereits kontrollieren. 

Ebene 4: Isolierte Sandboxes für jeden Agenten

Jeder unserer Agenten hat seine eigene kleine isolierte Sandbox (denken Sie an: Kleinkind im Laufstall). Das bedeutet, sie sind sowohl von der internen Infrastruktur von Aikido als auch von anderen gleichzeitig laufenden Agenten getrennt. Das bedeutet, sie sind vom Zugriff auf das Netzwerk, die Infrastruktur und die Datenbanken von Aikido getrennt und können andere aktive Sessions weder stören noch beeinflussen.

Wenn sich während eines Tests etwas unerwartet verhält, bleiben die Auswirkungen auf diese einzelne Sandbox beschränkt – wodurch sowohl Auswirkungen auf andere Agenten als auch Cross-Tenant-Exposition verhindert werden. 

Ebene 5: Betriebliche Schutzmaßnahmen

Alle Anfragen sind rate-limited und lastsensitiv, um sicherzustellen, dass Tests Zielsysteme nicht überlasten oder eine Flut von Alerts auslösen.

Zusätzlich können Tests jederzeit sofort pausiert oder beendet werden. Kunden können in Echtzeit sehen, was Agenten tun. Jede Anfrage und Aktion ist sichtbar. Das bedeutet, Teams können eingreifen, wenn sie es für notwendig halten.

Setup-Validierung

Konfigurationsfehler sind wahrscheinlicher als bösartiges Verhalten. Aus diesem Grund führt Aikido vor Beginn der Tests Pre-Flight-Checks durch, um Authentifizierung und Erreichbarkeit zu validieren. Wenn etwas falsch konfiguriert erscheint oder einer Produktionsumgebung ähnelt, werden Warnungen frühzeitig angezeigt. Das bedeutet, Schutzmaßnahmen sind darauf ausgelegt, menschliche Fehler vor dem Start der Ausführung abzufangen, anstatt sich auf Laufzeitkontrollen zu verlassen, um vermeidbare Setup-Fehler zu beheben.

Weiche Grenzen

Unser mehrschichtiger Ansatz bedeutet, dass wir auch weiche Grenzen haben. Hierfür müsste eine Domain nicht zugänglich sein, damit die Agenten sie nutzen können. 

Wenn Sie beispielsweise ein Authentifizierungsportal hätten, möchten Sie möglicherweise, dass die Agenten innerhalb dieses Portals die Authentifizierung nutzen, um sich bei der Anwendung anzumelden, aber Sie möchten nicht, dass die Agenten das Portal selbst angreifen.

Die weiche Grenze bedeutet, dass die Agenten das Authentifizierungsportal weiterhin erreichen können, aber explizit angewiesen sind, es nicht anzugreifen. 

Wie der Umfang durchgesetzt wird: Menschliche vs. KI-Penetrationstests

Bei einem traditionellen Penetrationstest wird der Umfang durch Dokumentation, Verträge und professionelles Urteilsvermögen durchgesetzt. Tester werden darüber informiert, welche Umgebungen im Umfang liegen. Dies funktioniert in der Praxis gut, aber das Einhalten der Grenzen hängt von der Disziplin und Erfahrung des Testers ab. 

Wenn ein Tester beispielsweise einer Weiterleitung in die falsche Umgebung folgt oder ein System falsch identifiziert, wird das Problem typischerweise später durch Logs oder eine Überprüfung entdeckt.

Bei KI-Penetrationstests wird der Umfang durch technische Kontrollen durchgesetzt. Steht eine Domain nicht auf der Allow-Liste, wird die Verbindung blockiert. Ist die Produktion nicht explizit ausgewählt, ist sie nicht erreichbar, und wenn eine Weiterleitung außerhalb des Umfangs führt, schlägt die Anfrage automatisch fehl. 

Beide Ansätze sind effektiv. Der Vorteil der technischen Durchsetzung ist, dass sie die Abhängigkeit von Dokumentation und Interpretation reduziert. 

Um von KI-Penetrationstests zu profitieren, die bereits bessere Ergebnisse als manuelle Penetrationstests beim Auffinden kritischer und hochgradiger Schwachstellen gezeigt haben, testen Sie Aikido Attack jetzt

Teilen:

https://www.aikido.dev/blog/ai-pentesting-agent-security

Heute kostenlos starten.

Kostenlos starten
Ohne Kreditkarte

Abonnieren Sie Bedrohungs-News.

4.7/5
Falschpositive Ergebnisse leid?

Probieren Sie Aikido, wie 100.000 andere.
Jetzt starten
Erhalten Sie eine personalisierte Führung

Von über 100.000 Teams vertraut

Jetzt buchen
Scannen Sie Ihre App nach IDORs und realen Angriffspfaden

Von über 100.000 Teams vertraut

Scan starten
Erfahren Sie, wie KI-Penetrationstests Ihre App testen

Von über 100.000 Teams vertraut

Testen starten

Sicherheit jetzt implementieren

Sichern Sie Ihren Code, Ihre Cloud und Ihre Laufzeit in einem zentralen System.
Finden und beheben Sie Schwachstellen schnell und automatisch.

Keine Kreditkarte erforderlich | Scan-Ergebnisse in 32 Sek.