TurboQuant: Google comprime modelos de IA hasta 6 veces sin perder precisión

Los modelos de IA son enormemente poderosos, pero también muy hambrientos de memoria. Una de las partes más costosas es el llamado caché clave-valor (KV cache): una especie de libreta de apuntes de alta velocidad donde el modelo guarda información que usa con frecuencia para no tener que recalcularla desde cero cada vez.

El problema es que esa libreta ocupa mucho espacio. Y cuando se llena, el modelo se vuelve lento.

¿Qué es TurboQuant?

Google Research acaba de publicar TurboQuant, un algoritmo de compresión que reduce el tamaño del caché KV hasta 6 veces, sin ninguna pérdida de precisión y sin necesidad de reentrenar el modelo. Se presentará en ICLR 2026, una de las conferencias más importantes de aprendizaje automático.

La clave está en una técnica llamada cuantización vectorial: en lugar de guardar números con toda su precisión decimal, se guardan versiones simplificadas que ocupan menos bits. El truco es hacerlo de forma tan inteligente que el modelo no note la diferencia.

Cómo funciona (sin entrar en álgebra)

TurboQuant combina dos algoritmos propios:

PolarQuant: convierte los vectores de datos a coordenadas polares (como describir una dirección como "5 cuadras en ángulo de 37°" en vez de "3 al este, 4 al norte"). Esto elimina un paso costoso de normalización y reduce el peso de los datos con mínima distorsión.
QJL (Quantized Johnson-Lindenstrauss): usa un solo bit por número para corregir el error residual que deja PolarQuant. Sin overhead de memoria. Sin trampa.

El resultado: TurboQuant comprime el caché a solo 3 bits por número (frente a los 32 bits estándar) y logra hasta 8x de aceleración en GPUs NVIDIA H100.

¿Por qué importa?

Porque la memoria es uno de los cuellos de botella más grandes en IA hoy. Cuanto más eficiente sea el caché, más rápido responde el modelo y menos hardware necesitas para correrlo.

Google menciona explícitamente que esto aplica directamente a Gemini, y también a búsqueda semántica a gran escala, donde hay que comparar miles de millones de vectores en milisegundos.

Los experimentos se hicieron con Gemma y Mistral en benchmarks estándar de contextos largos (LongBench, Needle in a Haystack, RULER, entre otros). TurboQuant alcanzó puntuaciones perfectas en todos, siendo el único método que lo logra con tan poca memoria.

Lo que viene

TurboQuant, QJL y PolarQuant no son solo hacks de ingeniería: tienen demostraciones matemáticas que los respaldan, lo que los hace confiables para sistemas críticos a escala de Google. El código aún no está disponible públicamente, pero el paper sí está en arXiv.

Source: Google Research

What does this mean for you?

Los modelos de IA van a ser más rápidos y baratos de correr. TurboQuant es el tipo de trabajo de base que hace posible que modelos grandes funcionen en hardware común sin perder calidad.

Medvi: How AI Helped One Man Build a $1.8 Billion Company From His Living Room