Tech & Sciences
Xiaomi a franchi la barre des 1 000 tokens par seconde avec MiMo-V2.5-Pro en mode UltraSpeed, exploit réalisé sur des GPU cloud classiques.

Xiaomi a annoncé que son modèle de langage MiMo-V2.5-Pro dépasse désormais les 1 000 tokens par seconde grâce à un nouveau mode UltraSpeed, soit environ 15 fois plus rapide que ChatGPT, et ce en utilisant des GPU cloud standards louables, sans recourir à des puces dédiées. Ce jalon est inédit à l’échelle des modèles à mille milliards de paramètres, où aucune autre solution n’avait atteint cette vitesse sans matériel spécialisé. Pour les développeurs d’applications en temps réel, cette différence entre une exécution « suffisamment rapide » et une réponse « instantanée » est cruciale pour l’expérience utilisateur.
Le précédent modèle MiMo, nommé MiMo-V2-Flash, avait été lancé en décembre 2025 avec une vitesse d’environ 150 tokens par seconde, déjà supérieure à la vitesse de lecture humaine. Le nouveau mode UltraSpeed porte ce chiffre à un débit soutenu de 1 000 tokens par seconde, avec des pics proches de 1 200, selon l’annonce officielle de Xiaomi MiMo. Cela représente une amélioration de 6,7 fois par rapport à la version antérieure et surpasse largement les références publiques actuelles : GPT-5.5 tourne autour de 68 tokens par seconde, Claude Opus à 71, et Gemini Flash à 192.
Cette performance repose sur trois techniques combinées : la quantification experte FP4 (qui compresse les calculs du modèle sans sacrifier la précision), le décodage spéculatif DFlash (qui anticipe plusieurs tokens simultanément), et l’optimisation runtime TileRT, développée conjointement avec la startup spécialisée TileRT. Le checkpoint FP4-DFlash ainsi que les modules TileRT sont disponibles en open source sur Hugging Face et GitHub, permettant aux équipes de les héberger et tester de manière autonome.
Cette accélération a un coût. Le mode UltraSpeed est facturé à un tarif triple par rapport au MiMo-V2.5-Pro standard, soit environ 1,29 dollar par million de tokens en entrée et 2,61 dollars par million en sortie. Ce positionnement tarifaire est comparable à celui de Groq, mais sans nécessiter de puces propriétaires, comme le souligne PhoneWorld. Les usages évidents concernent la détection de fraude, le trading algorithmique et la traduction en temps réel, où la latence impacte directement les coûts.
Durant la période d’essai du 9 au 23 juin 2026, l’accès est soumis à une sélection via candidature, privilégiant les clients professionnels et développeurs avec des cas d’usage concrets. Les utilisateurs approuvés bénéficient de deux semaines gratuites, avec des limites quotidiennes : 10 requêtes en file d’attente par compte, des sessions limitées à 30 minutes, et une déconnexion automatique après 5 minutes d’inactivité. Le Token Plan n’est pas compatible avec le mode UltraSpeed. Aucun tarif API spécifique aux États-Unis ou au Royaume-Uni, ni infrastructure régionale, n’a été annoncée en dehors de cette phase d’essai.
Toutes les données de vitesse proviennent des benchmarks internes de Xiaomi, sans validation indépendante publiée à ce jour. Le checkpoint open source sur Hugging Face devrait favoriser rapidement les tests communautaires. Par ailleurs, les taux d’acceptation diminuent dans les conversations ouvertes comparés aux tâches de codage, ce qui laisse encore à évaluer les performances en production sur des applications générales.



