user-avatar
Jamie Redman

Deepmind-Papier „AI Agent Traps“ zeigt sechs Angriffsarten auf KI-Agenten mit bis zu 86% Erfolgsquote

Forscher von Google Deepmind haben ein erstes systematisches Framework veröffentlicht, das beschreibt, wie bösartige Webinhalte autonome KI-Agenten manipulieren, übernehmen und gegen ihre eigenen Nutzer einsetzen können. Dabei identifizieren sie sechs Kategorien sogenannter „AI Agent Traps“, wobei Content-Injection-Angriffe in Tests Erfolgsraten von bis zu 86% erreichten. In dokumentierten Versuchen führten Behavioural-Control-Traps gegen Microsoft M365 Copilot zudem zu 10/10 Datenabflüssen.