Исследователи Google представили TurboQuant на конференции ICLR 2026. Алгоритм значительно снижает потребление памяти KV-кэша, одного из главных узких мест при запуске больших языковых моделей. Если технология дойдёт до продакшена, это может серьёзно удешевить инференс и ускорить переход к моделям, оптимизированным на эффективность.
Google показал TurboQuant на ICLR 2026: KV-кэш больше не узкое место
Другие молнии
Релизы iOS 27 открывает доступ к Claude, Gemini и ChatGPT через единый фреймворк → Релизы OpenAI представила голосовые модели с рассуждениями в API → Регуляция Microsoft, Google и xAI открыли правительству США доступ к ИИ-моделям для проверки нацбезопасности → Бизнес Anthropic привлекла $30 млрд и оценивается в $380 млрд → Регуляция Белый дом рассматривает проверку AI-моделей перед публичным релизом → Бизнес Microsoft: у Copilot более 20 миллионов платных пользователей → Релизы Google тестирует Ask YouTube — разговорный поиск по видео → Регуляция Китай заблокировал поглощение Meta стартапа Manus →