Исследователи Google представили TurboQuant на конференции ICLR 2026. Алгоритм значительно снижает потребление памяти KV-кэша, одного из главных узких мест при запуске больших языковых моделей. Если технология дойдёт до продакшена, это может серьёзно удешевить инференс и ускорить переход к моделям, оптимизированным на эффективность.