user-avatar
Jamie Redman

Google Deepmind 發表「AI Agent Traps」框架:網頁惡意內容內容注入成功率最高達 86%

Google Deepmind 研究人員發表首個系統性框架,梳理惡意網頁內容如何操控、劫持並將自主 AI 代理「武器化」,反過來傷害其使用者。研究將「AI 代理陷阱」歸納為 6 類,其中內容注入在測試情境中的成功率最高可達 86%。針對 Microsoft M365 Copilot 的「行為控制陷阱」在已記錄測試中達成 10/10 的資料外洩。Deepmind 同時提出對抗式訓練、執行期內容掃描器與新網絡標準等建議,目標是在 2026 年前強化代理安全。