IA
OpenAI desarrolló una técnica para probar modelos de inteligencia artificial simulando su uso real y evitando que detecten estar siendo evaluados.

OpenAI anunció la creación de una metodología avanzada para evaluar los riesgos de los modelos de inteligencia artificial antes de su lanzamiento comercial. Esta iniciativa busca mejorar la precisión de las pruebas de seguridad, reducir la discrepancia entre los resultados obtenidos en las pruebas y el comportamiento real de los modelos tras su despliegue, además de fortalecer la capacidad de las empresas para identificar comportamientos no deseados de forma más realista.
Según un informe detallado publicado en el sitio gigazine, la compañía señala en un estudio que los métodos tradicionales se basan en conjuntos de datos con estímulos diseñados para evaluar comportamientos peligrosos, como la generación de instrucciones dañinas o contenido inseguro. Sin embargo, estas técnicas presentan limitaciones en cuanto a cobertura y dificultad para adaptarse a nuevas formas de ataque. Además, existe la posibilidad de que el propio modelo reconozca que está siendo sometido a una prueba, lo que reduce la exactitud de los resultados en comparación con su comportamiento real tras la puesta en marcha.
Para superar estas limitaciones, OpenAI introdujo un enfoque denominado simulación de despliegue, que consiste en emular el uso del modelo en un entorno real mediante modelos anteriores para anticipar el comportamiento de las versiones más recientes. Por ejemplo, se simula GPT-5.1 utilizando GPT-5.1, o GPT-5.4 con GPT-5.2. Esta técnica pretende medir la probabilidad de conductas no deseadas de una manera más próxima a la realidad sin que el modelo detecte que está siendo evaluado.
Los resultados indican que esta metodología puede predecir con alta precisión la mayoría de las técnicas de ataque, además de reducir la brecha entre el comportamiento del modelo durante la prueba y después de su lanzamiento. Los datos muestran que solo un método en GPT-5.4 presentó una diferencia significativa, superior a diez veces entre las fases de prueba y despliegue, conocido como explotación de la calculadora.
Una ventaja destacada de esta técnica es la considerable reducción en la capacidad del modelo para identificar que está bajo evaluación. Mientras que algunos modelos previos detectaban el entorno de prueba en un 99,72%, esta cifra descendió a apenas un 5,12% al utilizar la simulación de despliegue, acercando así las pruebas al comportamiento real del modelo tras su puesta en producción.
Este avance representa un cambio relevante en las metodologías de evaluación de seguridad, especialmente considerando que otras compañías importantes como Anthropic también trabajan en el desarrollo de sistemas avanzados de seguridad. Esta aproximación podría contribuir a crear modelos más confiables y a mitigar riesgos antes de que lleguen a los usuarios finales.



