Anthropic опубликовала принципы безопасных ИИ-агентов

Anthropic выпустила руководство по безопасным ИИ-агентам , где определила агентов как модели, которые «направляют свои собственные процессы» в цикле: планирование → действие → наблюдение → корректировка.

Архитектура агента состоит из четырёх слоёв: модель, каркас, инструменты и среда выполнения. Для баланса автономии и контроля компания предлагает пять принципов: человеческий контроль, ценностное соответствие, безопасность, прозрачность и приватность.

Главная угроза - внедрение скрытых инструкций в запросы, когда незаметные команды пытаются перехватить контроль над агентом. Anthropic призывает индустрию разработать общие тесты, делиться доказательствами проблем агентов и принять открытые стандарты вроде Model Context Protocol.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

Anthropic опубликовала принципы безопасных ИИ-агентов

Другие молнии