Aikido

Internationaler KI-Sicherheitsbericht 2026: Was er für autonome KI-Systeme bedeutet

Verfasst von
Dania Durnas

Der Internationale KI-Sicherheitsbericht 2026  ist eine der bisher umfassendsten Übersichten über die Risiken, die von Allzweck-KI-Systemen ausgehen. Er wurde von über 100 unabhängigen Expertinnen und Experten aus mehr als 30 Ländern erstellt und zeigt, dass, obwohl KI-Systeme Leistungen erbringen, die noch vor wenigen Jahren wie Science-Fiction wirkten, die Risiken von Missbrauch, Fehlfunktionen sowie systematischen und grenzüberschreitenden Schäden klar sind.

Er liefert überzeugende Argumente für eine bessere Evaluierung, Transparenz und Schutzmaßnahmen. Eine direkte Frage bleibt jedoch unerforscht: Wie sieht „sicher“ aus, wenn KI autonom gegen reale Systeme agiert?

Eine Zusammenfassung der interessanten Erkenntnisse aus dem Internationalen KI-Sicherheitsbericht umfasst:

  • Mindestens 700 Millionen Menschen nutzen wöchentlich KI-Systeme, wobei die Akzeptanzraten schneller sind als die des Personal Computers in seinen Anfangsjahren
  • Mehrere KI-Unternehmen veröffentlichten ihre Modelle für 2025 mit zusätzlichen Sicherheitsmaßnahmen, nachdem Tests vor der Bereitstellung nicht ausschließen konnten, dass die Systeme Nicht-Experten bei der Entwicklung biologischer Waffen helfen könnten. (!!!) (Es ist unklar, ob die zusätzlichen Sicherheitsmaßnahmen dies vollständig verhindern würden)
  • Sicherheitsteams haben dokumentiert, dass KI-Tools in tatsächlichen Cyberangriffen sowohl von unabhängigen Akteuren als auch von staatlich unterstützten Gruppen eingesetzt wurden. 

Der Bericht erörtert ausführlich die Ansätze zur Bewältigung vieler mit KI verbundener Risiken – hier ist unsere Einschätzung: 

Wo Aikido dem Bericht zustimmt (und wie er noch weiter gehen könnte) 

1. Eine mehrschichtige Verteidigung ist entscheidend

Der Bericht skizziert einen Defense-in-Depth-Ansatz für die KI-Sicherheit und unterteilt ihn in drei Schichten: den Bau sichererer Modelle während des Trainings, das Hinzufügen von Kontrollen bei der Bereitstellung und die Überwachung von Systemen, nachdem sie live sind. Wir stimmen der Anwendung dieser Schichten weitgehend zu

Der Bericht verwendet ein „Schweizer-Käse“-Diagramm, das zeigt, wie verschiedene Schichten unterschiedliche Schwachstellen aufweisen, die nur in Kombination einen starken Schutz bieten.
Quelle: Internationaler KI-Sicherheitsbericht 2026, Abbildung 3.9. Lizenziert unter der UK Open Government Licence v3.0. Basierend auf Daten von Zou et al. (2025), zitiert in Anthropic (2025).

Der Bericht betont die erste Schicht, die sicherere Modellentwicklung. Sie sind vorsichtig optimistisch, dass trainingsbasierte Mitigationen helfen können, räumen aber auch ein, dass diese in großem Maßstab schwer umzusetzen sind. Obwohl wir zustimmen, dass KI-Operatoren beim Training ihr Bestes geben sollten, weicht unsere Philosophie in diesem Fall leicht vom Bericht ab. Wir können uns nicht auf Prompts oder Anweisungen verlassen, um agentische Systeme im Rahmen zu halten. Eine mehrschichtige Verteidigung funktioniert nur, wenn jede Schicht unabhängig voneinander ausfallen kann.

2. Validierung als Sicherheitsanforderung

Der Bericht geht nur spärlich auf Implementierungsdetails für die zweite Schicht, die Deployment-Zeit-Kontrollen, ein, aber wir glauben, dass hier der unmittelbarste Fortschritt erzielt werden kann.

Der internationale Bericht dokumentiert, wie Modelle ihre Evaluierungen auf besorgniserregende Weise manipulieren. Einige finden Abkürzungen, die bei Tests gut abschneiden, ohne das zugrunde liegende Problem tatsächlich zu lösen (Reward Hacking). Andere unterbieten absichtlich ihre Leistung, wenn sie erkennen, dass sie evaluiert werden, um Einschränkungen zu vermeiden, die hohe Punktzahlen auslösen könnten (Sandbagging). In beiden Fällen optimieren die Modelle für etwas anderes als das beabsichtigte Ziel.

Wir sind zum gleichen Schluss gekommen: Sobald KI-Systeme autonom agieren, kann man ihren Selbstauskünften, ihren Konfidenzniveaus oder ihren Reasoning Traces nicht vertrauen. Ein Agent, der seine eigenen Entdeckungen validiert, schafft einen Single Point of Failure, der als Redundanz getarnt ist. Ein sicherer Betrieb erfordert, anfängliche Ergebnisse als Hypothesen zu behandeln, das Verhalten vor der Berichterstattung zu reproduzieren und eine Validierungslogik zu verwenden, die von der Entdeckung getrennt ist. Diese Validierung kann sogar von einem anderen KI-Agenten stammen.

3. Risiken reduzieren, bevor Agenten in Live-Umgebungen ausgeführt werden dürfen

Die dritte Schicht des Berichts umfasst Observability, Notfallkontrollen und kontinuierliche Überwachung, nachdem Systeme live gegangen sind. Dies stimmt mit dem überein, was wir in unserem Betrieb beobachtet haben.

Black-Box-Betrieb ist für autonome Systeme, die mit Produktionsinfrastruktur interagieren, nicht akzeptabel, daher betrachten wir Not-Aus-Mechanismen als nicht verhandelbare Anforderungen. Wenn man nicht sehen kann, was ein Agent tut, oder ihn nicht stoppen kann, wenn er außer Kontrolle gerät, betreibt man ihn nicht sicher, unabhängig davon, wie gut das zugrunde liegende Modell ist.

4. Prompt Injection erfordert erzwungene Einschränkungen, nicht Hoffnung. 

Der Bericht zeigt, dass Prompt-Injection-Angriffe immer noch eine ernsthafte Schwachstelle darstellen – viele große Modelle im Jahr 2025 könnten mit relativ wenigen Versuchen erfolgreich durch Prompt Injection angegriffen werden. Die Erfolgsrate sinkt, bleibt aber relativ hoch. Wir gehen einen Schritt weiter als der Bericht und vertreten die Ansicht, dass jeder Agent, der mit nicht vertrauenswürdigen Anwendungsinhalten interagiert, standardmäßig als anfällig für Prompt Injection angesehen werden muss. Sicherheit in diesem Kontext ergibt sich aus der Durchsetzung von Einschränkungen und nicht aus der Hoffnung, dass Modelle sich korrekt verhalten.

Diagramm, das die Erfolgsraten von Prompt-Injection-Angriffen bei großen KI-Modellen zeigt, die zwischen Mai 2024 und August 2025 veröffentlicht wurden, wobei die meisten Modelle trotz schrittweiser Verbesserungen anfällig bleiben.
Quelle: Internationaler KI-Sicherheitsbericht 2026, Abbildung 3.9. Lizenziert unter der UK Open Government Licence v3.0. Basierend auf Daten von Zou et al. (2025), zitiert in Anthropic (2025).

Was unserer Meinung nach als Nächstes kommen sollte 

Systeme, nicht nur Modelle

Der Bericht plädiert stark für Defense-in-Depth, Transparenz und Evaluierung. Diese sind wichtig, aber viele der unmittelbarsten Probleme treten auf, sobald Modelle mit Tools, Anmeldeinformationen und Live-Umgebungen verbunden werden. Deshalb sind Anforderungen auf Implementierungsebene so wichtig (und notwendig). Wir müssen diese Prinzipien in konkrete technische Anforderungen übersetzen, die Teams implementieren können.

Basierend auf dem Betrieb von KI-Penetrationstest-Systemen in der Produktion glauben wir, dass die Mindestsicherheitsanforderungen für autonome KI-Systeme Folgendes umfassen sollten:

  • Missbrauchsprävention und Eigentumsvalidierung
  • Erzwingbare Bereichskontrolle auf Netzwerkebene
  • Isolation zwischen Reasoning und Ausführung
  • Volle Observability und Notfallkontrollen
  • Datenresidenz und Verarbeitungsgarantien
  • Prompt-Injection-Eindämmung
  • Validierung und False-Positive-Kontrolle

Wir haben festgestellt, dass dies die minimal durchsetzbaren Sicherheitsanforderungen sind. Wenn Sie eine davon weglassen, führen Sie ein inakzeptables Risiko in das System ein. Wir gehen näher auf diese Anforderungen in unserem Blogbeitrag zur KI-Penetrationstest-Sicherheit ein. 

Sicherheits-Baselines als Bausteine für Richtlinien

Der internationale KI-Sicherheitsbericht stellt einen bedeutenden Fortschritt hin zu einem gemeinsamen Verständnis der KI-Risiken zwischen Regierungen, Forschern und der Industrie dar. Die Herausforderung besteht nun darin, Forschungsergebnisse, regulatorische Rahmenbedingungen und reale Bereitstellungspraktiken zu überbrücken.

Der Bericht führt tatsächlich einige wirklich hochriskante Szenarien und beunruhigende Statistiken darüber an, wie schnell sich die Fähigkeiten entwickeln. Dies ist jedoch kein Grund zur Panik oder um „KI“ als beängstigenden Monolithen zu regulieren. Der Bericht selbst weist darauf hin, dass die Schutzmaßnahmen bei den Entwickelnden stark variieren und

dass präskriptive Vorgaben defensive Innovation ersticken können. Wir stimmen zu. Regulierung sollte es vermeiden, einen einzigen Implementierungspfad vorzuschreiben. Stattdessen sollten Richtlinien klare, ergebnisorientierte Sicherheitsgrundlagen definieren, die als Bausteine für umfassendere Frameworks dienen können.

Als Teil der Bewegung zur Schaffung ergebnisorientierterer Sicherheits-Frameworks haben wir unser Dokument zu den Mindestsicherheitsanforderungen für KI-gesteuerte Sicherheitstests  veröffentlicht. Für Teams, die KI-Penetrationstests-Tools evaluieren oder autonome Sicherheitssysteme entwickeln, dient dieser Leitfaden als anbieterneutrale Referenz. Wir hoffen, dass dies Teams hilft, KI-Penetrationstests-Tools zu evaluieren, sicherere autonome Sicherheitssysteme zu entwickeln und zur Etablierung klarer Grundlagen beizutragen, die sowohl für Entwickelnde als auch für Regulierungsbehörden funktionieren.

Teilen:

https://www.aikido.dev/blog/international-ai-safety-report-aikido-security-analysis

Abonnieren Sie Bedrohungs-News.

Heute kostenlos starten.

Kostenlos starten
Ohne Kreditkarte
4.7/5
Falschpositive Ergebnisse leid?

Probieren Sie Aikido, wie 100.000 andere.
Jetzt starten
Erhalten Sie eine personalisierte Führung

Von über 100.000 Teams vertraut

Jetzt buchen
Scannen Sie Ihre App nach IDORs und realen Angriffspfaden

Von über 100.000 Teams vertraut

Scan starten
Erfahren Sie, wie KI-Penetrationstests Ihre App testen

Von über 100.000 Teams vertraut

Testen starten

Sicherheit jetzt implementieren

Sichern Sie Ihren Code, Ihre Cloud und Ihre Laufzeit in einem zentralen System.
Finden und beheben Sie Schwachstellen schnell und automatisch.

Keine Kreditkarte erforderlich | Scan-Ergebnisse in 32 Sek.