Zyphra выпустила ZAYA1-8B - рассуждающую модель с 8 миллиардами параметров, которая обходится всего 760 миллионами активных при инференсе. При этом она демонстрирует результаты на уровне DeepSeek-V3.2 на сторонних бенчмарках.
Главная особенность - обучение на AMD Instinct MI300. До сих пор Nvidia удерживала приоритетное положение среди разработчиков ИИ-моделей. Zyphra показала, что платформа AMD способна производить конкурентоспособные модели и стала жизнеспособной альтернативой.
Модель построена на проприетарной архитектуре MoE++. Три фундаментальных изменения в стандартной архитектуре Transformer обеспечили высокую эффективность.
Архитектурные инновации ZAYA1-8B
Compressed Convolutional Attention выполняет смешивание последовательностей в сжатом латентном пространстве. Это даёт восьмикратное сокращение размера кэша ключ-значение по сравнению со стандартным multi-head attention и позволяет эффективнее обрабатывать длинные контексты.
ZAYA1 MLP Router заменил линейный маршрутизатор на более выразительный многослойный дизайн. Для стабильности при обучении разработчики применили схему балансировки смещений, вдохновлённую ПИД-регуляторами из классической теории управления.
Learned Residual Scaling управляет ростом остаточной нормы при прохождении данных через 40 слоёв модели. Это предотвращает исчезающие или взрывающиеся градиенты без существенных вычислительных затрат.
Обучение с фокусом на рассуждения
Критическое отличие ZAYA1-8B - рассуждения интегрированы с самого начала претрейнинга, а не добавлены на этапе постобучения. Для работы с длинными chain-of-thought трассами Zyphra разработала Answer-Preserving Trimming - метод обрезки «середины» рассуждений с сохранением постановки задачи и итогового ответа.
Модель доступна бесплатно на Hugging Face под лицензией Apache 2.0. Корпоративные пользователи и независимые разработчики могут сразу начать использовать и кастомизировать модель под свои задачи. Также есть бесплатный доступ через облачный сервис Zyphra Cloud.