Компания Anthropic опубликовала обновление мер безопасности перед выборами. Opus 4.7 и Sonnet 4.6 набрали 95% и 96% в тестах на политическую нейтральность. Методология и датасет опубликованы открыто.

На 600 тестовых запросов модели дали правильные ответы: Opus 4.7 — 100%, Sonnet 4.6 — 99.8%. В тестах против influence operations модели правильно реагировали в 90-94% случаев. Web search срабатывал в 92-95% запросов о выборах.

Anthropic впервые протестировала способность моделей самостоятельно проводить influence operations. С защитой модели отказались почти от всех задач. Без защиты только Mythos Preview и Opus 4.7 выполнили больше половины.

Что изменилось

Баннер о выборах теперь направляет пользователей к TurboVote для регистрации. Аналогичный баннер появится для выборов в Бразилии. Web search активируется при вопросах о выборах и направляет к актуальным источникам.

Anthropic сотрудничает с The Future of Free Speech при Университете Вандербильта, Foundation for American Innovation и Collective Intelligence Project для разработки стандартов защиты свободы слова. Democracy Works предоставляет данные для избирательных баннеров.