Google упростила дообучение LLM на TPU: MaxText получил SFT и RL на одноузловых конфигурациях

16 апреля Google объявила о расширении MaxText: в проект с открытым исходным кодом добавили рабочий процесс дообучения для одноузловых TPU, включая контролируемое дообучение и обучение с подкреплением. На бумаге новость может показаться нишевой, но для инженеров машинного обучения это очень конкретное обновление. Дообучение больших моделей почти всегда тормозит не идея, а цена и сложность инфраструктуры. Когда такие сценарии можно поднять на v5p-8 или v6e-8 без сложной многоузловой сборки, порог входа заметно снижается.

Для SFT заявлена поддержка наборов данных Hugging Face, работа с контрольными точками MaxText и конвертация моделей из Hugging Face, включая Gemma 3. Для RL поддержаны GRPO и GSPO, а внутри цикла обучения используется vLLM для более быстрого вывода. Вся конструкция собрана поверх JAX и Tunix. Google делает стек, который можно реально использовать для донастройки под инструкции, доменной специализации и прикладных экспериментов.

TPU становятся ближе к прикладным командам

Сейчас выигрывает уже не всегда тот, кто первым обучил базовую модель, а тот, кто быстрее адаптирует её под новую задачу, данные и продуктовый сценарий. Поэтому инструменты, которые снижают порог для дообучения, становятся стратегическими. MaxText в этом плане помогает перевести TPU из категории тяжёлой инфраструктуры для гигантов в более доступный инструмент для исследовательских и прикладных команд.

Для экосистемы открытого кода это тоже важный шаг. Чем проще воспроизвести и модифицировать конвейер дообучения, тем быстрее появляются реальные альтернативы закрытым внутренним стекам крупных лабораторий. Если Google продолжит расширять эти рабочие процессы и на многоузловые сценарии, MaxText может стать одним из ключевых мостов между исследовательской инфраструктурой и прикладной практикой дообучения.

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

Google упростила дообучение LLM на TPU: MaxText получил SFT и RL на одноузловых конфигурациях

TPU становятся ближе к прикладным командам

Читайте также

Google готовит инвестицию до $40 млрд в Anthropic: крупнейший раунд инвестиций в ИИ в истории

OpenAI выпустила GPT-5.5: новая модель для реальной работы

Moonshot открыла исходный код Kimi K2.6: новый уровень агентного программирования