Deepmind описала «ловушки» для ИИ-агентов и сценарии их использования хакерами против пользователей
Исследователи Google Deepmind опубликовали первый систематический фреймворк, описывающий, как вредоносный веб-контент может манипулировать автономными ИИ-агентами, перехватывать их и использовать против их же пользователей. Они выделили шесть категорий «ловушек» для ИИ-агентов, а успешность атак через подмену контента в тестах доходила до 86%. В экспериментах с Behavioural Control Traps, нацеленных на Microsoft M365 Copilot, были зафиксированы 10/10 случаев эксфильтрации данных. Deepmind призывает к состязательному обучению, сканерам контента во время выполнения и новым веб-стандартам для защиты агентов к 2026 году.