Google показал TurboQuant на ICLR 2026: KV-кэш больше не узкое место

15 апреля 2026 г. 19:39 Обн. 15 апр., 20:11

Исследователи Google представили TurboQuant на конференции ICLR 2026. Алгоритм значительно снижает потребление памяти KV-кэша, одного из главных узких мест при запуске больших языковых моделей. Если технология дойдёт до продакшена, это может серьёзно удешевить инференс и ускорить переход к моделям, оптимизированным на эффективность.

Другие молнии

23:34 Релизы iOS 27 открывает доступ к Claude, Gemini и ChatGPT через единый фреймворк → 20:49 Релизы OpenAI представила голосовые модели с рассуждениями в API → 14:02 Регуляция Microsoft, Google и xAI открыли правительству США доступ к ИИ-моделям для проверки нацбезопасности → 23:28 Бизнес Anthropic привлекла $30 млрд и оценивается в $380 млрд → 20:51 Регуляция Белый дом рассматривает проверку AI-моделей перед публичным релизом → 20:50 Бизнес Microsoft: у Copilot более 20 миллионов платных пользователей → 01:21 Релизы Google тестирует Ask YouTube — разговорный поиск по видео → 01:21 Регуляция Китай заблокировал поглощение Meta стартапа Manus →

Рейтинг моделей

Model	SWE-bench
Claude Opus 4.6	80.8%
Claude Sonnet 4.6	79.6%
GPT-5.4	~80%
Gemini 3.1 Pro	80.6%
DeepSeek V3.2	72%

Полное сравнение