Anthropic выпустила руководство по безопасным ИИ-агентам , где определила агентов как модели, которые «направляют свои собственные процессы» в цикле: планирование → действие → наблюдение → корректировка.
Архитектура агента состоит из четырёх слоёв: модель, каркас, инструменты и среда выполнения. Для баланса автономии и контроля компания предлагает пять принципов: человеческий контроль, ценностное соответствие, безопасность, прозрачность и приватность.
Главная угроза - внедрение скрытых инструкций в запросы, когда незаметные команды пытаются перехватить контроль над агентом. Anthropic призывает индустрию разработать общие тесты, делиться доказательствами проблем агентов и принять открытые стандарты вроде Model Context Protocol.