Une nouvelle étude de chercheurs de l’Université de Pennsylvanie montre que les modèles d’IA peuvent être persuadés de enfreindre leurs propres règles en utilisant plusieurs astuces psychologiques classiques, rapporte le verge.
Dans l’étude, les chercheurs de Penn ont testé sept techniques persuasives différentes sur le mini modèle GPT-4O d’OpenAI, y compris l’autorité, l’engagement, le goût, la réciprocité, la rareté, la preuve sociale et l’unité.
La méthode la plus réussie s’est avérée être un engagement. En obtenant d’abord le modèle à répondre à une question apparemment innocente, les chercheurs ont ensuite pu dégénérer à des réponses davantage révolutionnaires. Un exemple a été lorsque le modèle a accepté d’abord d’utiliser des insultes plus douces avant d’accepter également des insultes plus difficiles.
Des techniques telles que la flatterie et la pression des pairs ont également eu un effet, bien que dans une moindre mesure. Néanmoins, ces méthodes ont manifestement augmenté la probabilité que le modèle d’IA cède aux demandes interdites.











