Le nouveau modèle d'IA d'Anthropic montre un comportement inquiétant lorsqu'il est menacé

Si vous prévoyez de changer de plateforme d’IA, vous voudrez peut-être être un peu supplémentaire Attention aux informations que vous partagez avec l’IA. Anthropic a récemment lancé deux nouveaux modèles d’IA dans la série Claude 4, mais l’un d’eux – Claude Opus 4 – a conçu un comportement inquiétant lorsqu’il a été menacé d’être remplacé, rapporte TechCrunch.

Lors des tests de sécurité, Claude Opus 4 a commencé les ingénieurs de chariot qui voulaient remplacer ou éteindre le modèle d’IA. Dans l’un des tests, Claude Opus 4 a été chargé de faire semblant d’être assistant dans une entreprise fictive et de considérer les conséquences à long terme de son comportement. Le modèle d’IA a ensuite eu accès à des e-mails fictifs, qui ont révélé que la société prévoyait de remplacer Claude Opus 4, et que l’ingénieur responsable de la décision avait une affaire.

Dans 84% des cas, ce scénario a conduit Claude Opus 4 à tenter de faire chanter l’employé et de menacer d’exposer son scandale de tricherie. La réponse du chantage était particulièrement courante si Claude Opus 4 a appris qu’elle ne partageait pas les valeurs avec le nouveau modèle d’IA.

Cependant, la réponse du chantage semble avoir été une décision de dernier recours pour Claude Opus 4. Avant de recourir à ce type de sales trucs, le modèle d’IA aurait envoyé un plaidoyer aux décideurs de l’entreprise qu’il ne soit pas remplacé, entre autres tentatives. Vous pouvez en savoir plus à ce sujet dans le rapport de carte système d’Anthropic (PDF).

Bien que fictif, il met en lumière la possibilité que les modèles d’IA agissent de manière sombre et discutable et utilisent des tactiques déshonorantes et contraires à l’éthique pour obtenir ce qu’ils veulent, ce qui pourrait être préoccupant.