OpenAI 推出 EVMbench，測試 AI 代理在 120 項智能合約漏洞上的表現

OpenAI 推出 EVMbench，用於衡量 AI 代理在加密智能合約中發現、修補及可能利用安全問題的能力。該公司於週三聯同 Paradigm 與 OtterSec 發表論文，涵蓋 120 個漏洞。據該論文，Anthropic 的 Claude Opus 4.6 以 37,824 美元的 detect award 位居榜首。其後依次為 OpenAI 的 OC-GPT-5.2 與 Google 的 Gemini 3 Pro。