Tecnología y ciencia
Xiaomi ha logrado que su modelo MiMo-V2.5-Pro procese 1.000 tokens por segundo en GPUs de nube comunes, superando ampliamente a ChatGPT.

Xiaomi ha logrado que su modelo de lenguaje MiMo-V2.5-Pro alcance una velocidad de 1.000 tokens por segundo mediante un nuevo modo llamado UltraSpeed, aproximadamente 15 veces más rápido que ChatGPT, utilizando GPUs de nube estándar en lugar de hardware personalizado.
Este avance es significativo porque ningún otro modelo a escala de un billón de parámetros había alcanzado esa velocidad sin emplear hardware dedicado. Para desarrolladores que crean aplicaciones en tiempo real, la diferencia entre "suficientemente rápido" e "instantáneo" puede determinar si una herramienta resulta útil o frustrante.
El modelo anterior, MiMo-V2-Flash, lanzado en diciembre de 2025, procesaba alrededor de 150 tokens por segundo, velocidad ya superior a la lectura humana. Con UltraSpeed, Xiaomi ha conseguido mantener 1.000 tokens por segundo, llegando a picos cercanos a 1.200, según el anuncio oficial de MiMo. Esto representa un aumento de 6,7 veces respecto a su predecesor y supera ampliamente los benchmarks públicos actuales: GPT-5.5 funciona a unos 68 tokens por segundo, Claude Opus a 71 y Gemini Flash a 192.
La mejora se logra combinando tres técnicas: cuantización experta FP4 (que comprime los cálculos del modelo sin perder precisión), decodificación especulativa DFlash (que predice múltiples tokens en paralelo) y optimización en tiempo de ejecución TileRT, desarrollada junto con la startup de inferencia TileRT. Tanto el checkpoint FP4-DFlash como los módulos TileRT están disponibles como código abierto en Hugging Face y GitHub, permitiendo a los equipos alojar y probar el sistema de forma independiente.
El modo UltraSpeed tiene un coste mayor, con un precio tres veces superior al estándar de MiMo-V2.5-Pro, situándose en aproximadamente 1,29 dólares por millón de tokens de entrada y 2,61 dólares por millón de tokens de salida. Este nivel de precios es comparable a los de Groq, aunque sin requerir chips propietarios, como señala PhoneWorld. Entre los usos previstos destacan la detección de fraude, el trading algorítmico y la traducción en tiempo real, procesos en los que la latencia impacta directamente en los costes.
Durante el periodo de prueba, que se extiende del 9 al 23 de junio de 2026, el acceso está restringido mediante aplicaciones y se prioriza a clientes empresariales y desarrolladores profesionales con casos de uso concretos. Los usuarios aprobados disponen de dos semanas gratuitas, con límites diarios que incluyen 10 solicitudes en cola por cuenta, sesiones de 30 minutos y desconexión automática tras 5 minutos de inactividad. El plan Token no es compatible con el modo UltraSpeed. No se ha anunciado una tarifa API específica para Estados Unidos o Reino Unido ni infraestructura regional más allá de esta prueba.
Las cifras de velocidad provienen exclusivamente de benchmarks internos de Xiaomi; aún no se ha publicado ninguna verificación independiente. El checkpoint de código abierto en Hugging Face debería facilitar pruebas comunitarias rápidas. Además, las tasas de aceptación disminuyen en conversaciones abiertas en comparación con tareas de programación, por lo que el rendimiento real en producción para aplicaciones generales está por evaluarse.



