OpenAI presenta método para evaluar modelos de IA sin que detecten la prueba

OpenAI desarrolló una técnica para probar modelos de inteligencia artificial simulando su uso real y evitando que detecten estar siendo evaluados.

·18 de junio de 2026 a las 12:26·2 min de lectura

OpenAI presenta método para evaluar modelos de IA sin que detecten la prueba

OpenAI anunció la creación de una metodología avanzada para evaluar los riesgos de los modelos de inteligencia artificial antes de su lanzamiento comercial. Esta iniciativa busca mejorar la precisión de las pruebas de seguridad, reducir la discrepancia entre los resultados obtenidos en las pruebas y el comportamiento real de los modelos tras su despliegue, además de fortalecer la capacidad de las empresas para identificar comportamientos no deseados de forma más realista.

Según un informe detallado publicado en el sitio gigazine, la compañía señala en un estudio que los métodos tradicionales se basan en conjuntos de datos con estímulos diseñados para evaluar comportamientos peligrosos, como la generación de instrucciones dañinas o contenido inseguro. Sin embargo, estas técnicas presentan limitaciones en cuanto a cobertura y dificultad para adaptarse a nuevas formas de ataque. Además, existe la posibilidad de que el propio modelo reconozca que está siendo sometido a una prueba, lo que reduce la exactitud de los resultados en comparación con su comportamiento real tras la puesta en marcha.

Para superar estas limitaciones, OpenAI introdujo un enfoque denominado simulación de despliegue, que consiste en emular el uso del modelo en un entorno real mediante modelos anteriores para anticipar el comportamiento de las versiones más recientes. Por ejemplo, se simula GPT-5.1 utilizando GPT-5.1, o GPT-5.4 con GPT-5.2. Esta técnica pretende medir la probabilidad de conductas no deseadas de una manera más próxima a la realidad sin que el modelo detecte que está siendo evaluado.

Los resultados indican que esta metodología puede predecir con alta precisión la mayoría de las técnicas de ataque, además de reducir la brecha entre el comportamiento del modelo durante la prueba y después de su lanzamiento. Los datos muestran que solo un método en GPT-5.4 presentó una diferencia significativa, superior a diez veces entre las fases de prueba y despliegue, conocido como explotación de la calculadora.

Una ventaja destacada de esta técnica es la considerable reducción en la capacidad del modelo para identificar que está bajo evaluación. Mientras que algunos modelos previos detectaban el entorno de prueba en un 99,72%, esta cifra descendió a apenas un 5,12% al utilizar la simulación de despliegue, acercando así las pruebas al comportamiento real del modelo tras su puesta en producción.

Este avance representa un cambio relevante en las metodologías de evaluación de seguridad, especialmente considerando que otras compañías importantes como Anthropic también trabajan en el desarrollo de sistemas avanzados de seguridad. Esta aproximación podría contribuir a crear modelos más confiables y a mitigar riesgos antes de que lleguen a los usuarios finales.

Añade Daily Beirut a tu feed de Google News y recibe lo último primero.Seguir

Etiquetas

OpenAI Anthropic

Últimas noticias

Mundo

Dinamarca despliega tropas en la frontera rusa y aumenta la tensión en el Báltico

5 h

Mundo

Mohammad Baqer Qalibaf lidera delegación iraní hacia Suiza para seguimiento de compromisos

5 h

Tecnología y ciencia

Samsung presenta micro-OLED de 40,000 nits para gafas AR de próxima generación

5 h

Copa Mundial 2026

Haití y Turquía, primeros eliminados del Mundial 2026 tras segunda jornada

5 h