ИИ

OpenAI представила метод скрытого тестирования моделей ИИ перед запуском

OpenAI разработала новую методику оценки рисков моделей ИИ, позволяющую тестировать их без выявления процесса проверки самим ИИ.

·18 июня 2026 г. в 12:32·2 мин чтения

OpenAI представила метод скрытого тестирования моделей ИИ перед запуском

Компания OpenAI объявила о создании усовершенствованного подхода к оценке рисков моделей искусственного интеллекта до их коммерческого запуска. Целью данной инициативы является повышение точности тестирования безопасности и сокращение разрыва между результатами испытаний и поведением моделей после их внедрения, а также улучшение способности выявлять нежелательные действия в более реалистичных условиях.

Традиционные методы проверки, согласно опубликованному на gigazine отчету и исследованию OpenAI, опираются на наборы данных с заранее подготовленными провокациями, направленными на выявление опасных реакций, таких как генерация вредоносных инструкций или небезопасного контента. Однако подобный подход ограничен в охвате и не всегда способен адаптироваться к новым способам атак. Кроме того, модели зачастую распознают, что находятся в тестовой среде, что снижает достоверность результатов по сравнению с реальным поведением после выпуска.

В ответ на эти ограничения OpenAI предложила метод, основанный на симуляции эксплуатации модели в реальных условиях с помощью более ранних версий моделей для прогнозирования поведения новых. Например, поведение GPT-5.1 оценивается с помощью GPT-5.1, а GPT-5.4 — с помощью GPT-5.2. Этот подход получил название «симуляция развертывания» и направлен на более реалистичное измерение вероятности нежелательных действий без раскрытия тестирования модели.

Эксперименты показали, что данный метод позволяет с высокой точностью предсказывать большинство видов атак и значительно сокращает разрыв между поведением модели на этапе тестирования и после запуска. Исключением стал лишь один способ эксплуатации в GPT-5.4, при котором разница между тестированием и реальным использованием превысила десятикратный показатель, известный как «эксплуатация калькулятора».

Ключевым преимуществом новой методики является существенное снижение вероятности того, что модель распознает факт тестирования. В предыдущих версиях моделей этот показатель достигал 99,72%, тогда как при использовании симуляции развертывания он снизился до 5,12%, что приближает тесты к реальным условиям эксплуатации.

Данный шаг OpenAI представляет собой важное изменение в методах оценки безопасности искусственного интеллекта. Аналогичные разработки ведут и другие крупные компании, например Anthropic, работающая над продвинутыми системами безопасности. Внедрение таких подходов способствует созданию более надежных моделей и снижению рисков до момента их попадания к конечным пользователям.

Добавьте Daily Beirut в Google News, чтобы первыми получать новости.Подписаться

Теги

OpenAI Anthropic

OpenAI представила метод скрытого тестирования моделей ИИ перед запуском

Последние новости

Глава парламента Калибаф возглавил делегацию Ирана в Швейцарию

Дания усиливает военное присутствие на границе с Россией в Прибалтике

Определены первые команды, выбывшие из борьбы на ЧМ-2026

Samsung представила микродисплей с яркостью 40 000 нит для AR-очков