Anthropic обновила защиту Claude перед выборами

Компания Anthropic опубликовала обновление мер безопасности перед выборами. Opus 4.7 и Sonnet 4.6 набрали 95% и 96% в тестах на политическую нейтральность. Методология и датасет опубликованы открыто.

На 600 тестовых запросов модели дали правильные ответы: Opus 4.7 — 100%, Sonnet 4.6 — 99.8%. В тестах против influence operations модели правильно реагировали в 90-94% случаев. Web search срабатывал в 92-95% запросов о выборах.

Anthropic впервые протестировала способность моделей самостоятельно проводить influence operations. С защитой модели отказались почти от всех задач. Без защиты только Mythos Preview и Opus 4.7 выполнили больше половины.

Что изменилось

Баннер о выборах теперь направляет пользователей к TurboVote для регистрации. Аналогичный баннер появится для выборов в Бразилии. Web search активируется при вопросах о выборах и направляет к актуальным источникам.

Anthropic сотрудничает с The Future of Free Speech при Университете Вандербильта, Foundation for American Innovation и Collective Intelligence Project для разработки стандартов защиты свободы слова. Democracy Works предоставляет данные для избирательных баннеров.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

Anthropic обновила защиту Claude перед выборами

Что изменилось

Читайте также

Anthropic запустила Project Glasswing: крупнейшие IT-компании объединяются против ИИ-уязвимостей

Claude Code утек 33 набора секретов в публичные репозитории npm

Google Gemma 4: кибербезопасность на краю сети под угрозой