Технологии и наука
Языковая модель MiMo-V2.5-Pro от Xiaomi в режиме UltraSpeed обрабатывает 1000 токенов в секунду на стандартных облачных GPU, что в 15 раз быстрее ChatGPT.

Компания Xiaomi объявила о достижении скорости обработки 1000 токенов в секунду своей языковой моделью MiMo-V2.5-Pro в новом режиме UltraSpeed, используя при этом обычные арендованные облачные GPU, а не специализированное аппаратное обеспечение. Это первый случай достижения такой скорости на модели с триллионом параметров без применения кастомных чипов. Для разработчиков, создающих приложения в реальном времени, разница между «достаточно быстро» и «мгновенно» определяет полезность инструмента.
Предыдущая версия модели, MiMo-V2-Flash, была представлена в декабре 2025 года и обеспечивала скорость около 150 токенов в секунду, что уже превышает скорость чтения человека. Новый режим UltraSpeed увеличивает производительность до устойчивых 1000 токенов в секунду с пиковыми значениями около 1200, согласно официальному анонсу Xiaomi MiMo. Это в 6,7 раза быстрее предшественника и значительно превосходит текущие публичные показатели: GPT-5.5 работает примерно на 68 токенах в секунду, Claude Opus — 71, а Gemini Flash — 192.
Достижение высокой скорости стало возможным благодаря сочетанию трёх технологий: экспертной квантизации FP4 (сжатие вычислений модели без значительной потери точности), спекулятивному декодированию DFlash (параллельное предсказание нескольких токенов вперёд) и оптимизации выполнения TileRT, разработанной совместно с компанией TileRT, специализирующейся на инференсе. Чекпоинт FP4-DFlash и модули TileRT доступны в открытом доступе на платформах Hugging Face и GitHub, что позволяет командам самостоятельно размещать и тестировать модель.
Ускоренный режим UltraSpeed стоит в три раза дороже стандартной версии MiMo-V2.5-Pro — примерно $1,29 за миллион входных токенов и $2,61 за миллион выходных. По стоимости это сопоставимо с предложениями Groq, но без необходимости использования проприетарных чипов, отмечает PhoneWorld. Основные сферы применения — обнаружение мошенничества, алгоритмическая торговля и перевод в реальном времени, где задержки напрямую влияют на финансовые показатели.
Доступ к UltraSpeed в рамках пробного периода с 9 по 23 июня 2026 года предоставляется по заявкам и преимущественно ориентирован на корпоративных клиентов и профессиональных разработчиков с конкретными кейсами. Одобренные пользователи получают две недели бесплатного использования с ограничениями: не более 10 запросов в очереди на аккаунт, сессии по 30 минут и автоматическое отключение после 5 минут бездействия. План Token не поддерживается в режиме UltraSpeed. Ценовая политика API для США и Великобритании, а также региональная инфраструктура за пределами пробного периода пока не объявлены.
Все данные о скорости основаны на внутренних тестах Xiaomi, независимых проверок пока не публиковалось. Открытый чекпоинт на Hugging Face должен стимулировать сообщество к тестированию. При этом уровень принятия запросов снижается в открытых диалогах по сравнению с задачами программирования, поэтому реальная производительность в широком спектре приложений ещё предстоит оценить.



