Un desarrollador logró ejecutar el modelo Gemma 4 de 26 mil millones de parámetros en un Intel Xeon E5-2690 v4 de hace una década, sin GPU. La velocidad de inferencia alcanzó aproximadamente 2 tokens por segundo usando cuantización de 4 bits y una técnica personalizada de optimización de memoria. La configuración requirió 64 GB de RAM y aprovechó las instrucciones AVX2 del CPU para operaciones matriciales. El experimento demuestra que CPUs de servidor antiguos aún pueden manejar modelos de lenguaje grandes modernos para tareas básicas de inferencia.
Es un hermoso ejemplo de democracia del hardware. La revolución de la IA no es solo para quienes tienen presupuestos de centros de datos. Un Xeon de hace una década, el tipo de chip que acumula polvo en contenedores de reciclaje empresarial, puede dar nueva vida a modelos de vanguardia. Demuestra que la optimización importa más que las especificaciones puras.
Entramos en una era donde el acceso a la IA se amplía. No todos necesitan generación en tiempo real. Para procesamiento por lotes, investigación o aplicaciones de bajo tráfico, reutilizar hardware viejo es un camino sostenible y rentable. El futuro de la IA no son solo chips más rápidos: es un uso más inteligente de lo que ya tenemos.