IA
OpenAI a mis au point une technique innovante pour évaluer les risques des modèles d'intelligence artificielle sans que ceux-ci ne réalisent qu'ils sont testés.

OpenAI a annoncé la création d’une nouvelle méthodologie avancée destinée à évaluer les risques des modèles d’intelligence artificielle avant leur commercialisation. Cette initiative vise à améliorer la précision des tests de sécurité, à réduire l’écart entre les résultats obtenus lors des évaluations et le comportement réel des modèles après leur déploiement, tout en renforçant la capacité des entreprises à détecter de manière plus réaliste les comportements indésirables.
Selon un rapport détaillé publié sur le site gigazine, OpenAI souligne dans une étude que les méthodes traditionnelles s’appuient sur des ensembles de données contenant des stimuli conçus pour tester les comportements dangereux, tels que la génération d’instructions nuisibles ou de contenus non sécurisés. Toutefois, cette approche souffre de limitations en termes de couverture, d’incapacité à suivre les nouvelles techniques d’attaque, et du fait que le modèle testé peut identifier qu’il est soumis à un examen, ce qui diminue la fiabilité des résultats par rapport à son comportement effectif après lancement.
Pour pallier ces limites, OpenAI a développé une technique appelée « simulation de déploiement ». Celle-ci consiste à reproduire l’utilisation du modèle dans un environnement réaliste en exploitant des versions antérieures du modèle pour prédire le comportement des versions plus récentes. Par exemple, la simulation de GPT-5.1 est réalisée à l’aide de GPT-5.1 lui-même, ou GPT-5.4 est simulé via GPT-5.2. Cette méthode permet d’estimer la probabilité d’apparition de comportements indésirables de façon plus proche de la réalité, sans que le modèle ne détecte qu’il est en phase de test.
Les résultats obtenus démontrent que cette approche est capable de prévoir avec une grande précision la majorité des techniques d’attaque, tout en réduisant significativement l’écart entre le comportement du modèle lors des tests et après son lancement. Les données indiquent qu’un seul vecteur d’attaque dans GPT-5.4 a révélé une différence notable, dépassant un facteur dix entre les phases de test et de déploiement, phénomène désigné sous le nom d’exploitation de la calculatrice.
Un avantage majeur de cette méthode réside dans la diminution drastique de la capacité des modèles à reconnaître qu’ils sont soumis à une évaluation. Alors que certains modèles antérieurs détectaient l’environnement de test dans 99,72 % des cas, ce taux chute à seulement 5,12 % grâce à la simulation de déploiement, rendant ainsi les tests beaucoup plus représentatifs du comportement réel post-lancement.
Cette avancée marque un tournant significatif dans les techniques d’évaluation de la sécurité des intelligences artificielles, particulièrement dans un contexte où des acteurs majeurs comme Anthropic développent également des systèmes de sécurité sophistiqués. Cette nouvelle approche pourrait contribuer à la conception de modèles plus fiables et à la réduction des risques avant leur mise à disposition des utilisateurs.