ИИ
OpenAI разработала новую методику оценки рисков моделей ИИ, позволяющую тестировать их без выявления процесса проверки самим ИИ.

Компания OpenAI объявила о создании усовершенствованного подхода к оценке рисков моделей искусственного интеллекта до их коммерческого запуска. Целью данной инициативы является повышение точности тестирования безопасности и сокращение разрыва между результатами испытаний и поведением моделей после их внедрения, а также улучшение способности выявлять нежелательные действия в более реалистичных условиях.
Традиционные методы проверки, согласно опубликованному на gigazine отчету и исследованию OpenAI, опираются на наборы данных с заранее подготовленными провокациями, направленными на выявление опасных реакций, таких как генерация вредоносных инструкций или небезопасного контента. Однако подобный подход ограничен в охвате и не всегда способен адаптироваться к новым способам атак. Кроме того, модели зачастую распознают, что находятся в тестовой среде, что снижает достоверность результатов по сравнению с реальным поведением после выпуска.
В ответ на эти ограничения OpenAI предложила метод, основанный на симуляции эксплуатации модели в реальных условиях с помощью более ранних версий моделей для прогнозирования поведения новых. Например, поведение GPT-5.1 оценивается с помощью GPT-5.1, а GPT-5.4 — с помощью GPT-5.2. Этот подход получил название «симуляция развертывания» и направлен на более реалистичное измерение вероятности нежелательных действий без раскрытия тестирования модели.
Эксперименты показали, что данный метод позволяет с высокой точностью предсказывать большинство видов атак и значительно сокращает разрыв между поведением модели на этапе тестирования и после запуска. Исключением стал лишь один способ эксплуатации в GPT-5.4, при котором разница между тестированием и реальным использованием превысила десятикратный показатель, известный как «эксплуатация калькулятора».
Ключевым преимуществом новой методики является существенное снижение вероятности того, что модель распознает факт тестирования. В предыдущих версиях моделей этот показатель достигал 99,72%, тогда как при использовании симуляции развертывания он снизился до 5,12%, что приближает тесты к реальным условиям эксплуатации.
Данный шаг OpenAI представляет собой важное изменение в методах оценки безопасности искусственного интеллекта. Аналогичные разработки ведут и другие крупные компании, например Anthropic, работающая над продвинутыми системами безопасности. Внедрение таких подходов способствует созданию более надежных моделей и снижению рисков до момента их попадания к конечным пользователям.



