Claude Sonnet 4.6 занял первое место в бенчмарке GDPval-AA

15 апреля 2026 г. 19:39 Обн. 15 апр., 20:11

Claude Sonnet 4.6 набрал 1633 Elo на бенчмарке GDPval-AA и стал лидером среди всех моделей. При A/B-тестировании в Claude Code пользователи выбирали новую версию в 70% случаев. Модель уже доступна и, судя по отзывам разработчиков, заметно лучше справляется с многофайловыми задачами.

Другие молнии

23:34 Релизы iOS 27 открывает доступ к Claude, Gemini и ChatGPT через единый фреймворк → 20:49 Релизы OpenAI представила голосовые модели с рассуждениями в API → 14:02 Регуляция Microsoft, Google и xAI открыли правительству США доступ к ИИ-моделям для проверки нацбезопасности → 23:28 Бизнес Anthropic привлекла $30 млрд и оценивается в $380 млрд → 20:51 Регуляция Белый дом рассматривает проверку AI-моделей перед публичным релизом → 20:50 Бизнес Microsoft: у Copilot более 20 миллионов платных пользователей → 01:21 Релизы Google тестирует Ask YouTube — разговорный поиск по видео → 01:21 Регуляция Китай заблокировал поглощение Meta стартапа Manus →

Популярное

OpenAI открыла доступ к кибермодели для ЕС, но Anthropic отказывает Mythos

Google выпустил нативное приложение Gemini для Mac

Anthropic опубликовала принципы безопасных ИИ-агентов

Anthropic скрывает Mythos после обнаружения тысяч уязвимостей

OpenAI тихо закрыла Sora: видеогенератор не пережил полугода

Рейтинг моделей

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

Полное сравнение