На Google Cloud Next компании NVIDIA и Google показали инфраструктуру, которая бьёт по самой дорогой части работы с ИИ - цене вывода. В анонсе фигурирует снижение стоимости генерации токена до 10 раз и рост производительности на мегаватт тоже в 10 раз по сравнению с предыдущим поколением.
В основе новых инстансов A5X лежит NVIDIA Vera Rubin NVL72. Для масштабирования кластера используются ConnectX-9 SuperNIC и сеть Google Virgo, а рассчитанная ёмкость доходит до 80 000 ускорителей в одном регионе и до 960 000 в распределённой схеме.
Отдельно Google показала сценарии для регулируемых отраслей: Gemini на Blackwell и Blackwell Ultra, конфиденциальные вычисления и новые инструменты для агентных систем и обучения с подкреплением. Для компаний это важно по простой причине - стоимость запуска модели перестаёт быть только вопросом софта, она становится вопросом железа и сети.