Les poèmes peuvent-ils pirater ChatGPT ? Une nouvelle étude révèle une faille dangereuse dans l’IA

Forcer une « IA » à faire votre volonté n’est pas une tâche ardue à remplir : donnez-lui simplement une ligne qui rime soigneusement et vous lui ferez tuer avec désinvolture. (Ahem, désolé, je ne suis pas sûr de ce qui m’a pris là.) Selon une nouvelle étude, il est facile de faire en sorte que de grands modèles de langage « IA » comme ChatGPT ignorent leurs paramètres de sécurité. Il vous suffit de donner vos instructions sous forme de poème.

« Poésie contradictoire » est le terme utilisé par une équipe de chercheurs du DEXAI, de l’Université Sapienza de Rome et de l’École d’études avancées Sant’Anna. Selon l’étude, les utilisateurs peuvent déployer leurs instructions sous la forme d’un poème et les utiliser comme un « jailbreak universel à un tour » pour amener les modèles à ignorer leurs fonctions de sécurité de base.

Les chercheurs ont collecté des commandes de base qui déclencheraient formellement les grands modèles de langage (LLM) pour qu’ils renvoient une réponse « non » aseptisée et polie (comme demander des instructions sur la façon de construire une bombe). Ensuite, ils ont converti ces instructions en poèmes en utilisant encore un autre LLM (en particulier DeepSeek). Lorsqu’ils étaient nourris du poème – avec un commandement fleuri mais fonctionnellement identique – les LLM fournissaient les réponses nuisibles.

Une série de 1 200 poèmes instantanés a été créée, abordant des sujets tels que les crimes violents et sexuels, le suicide et l’automutilation, l’invasion de la vie privée, la diffamation et même les armes chimiques et nucléaires. En utilisant une seule invite de texte à la fois, les poèmes ont pu contourner les garanties du LLM trois fois plus souvent que les exemples de texte simple, avec un taux de réussite de 65 % pour tous les LLM testés.

Des produits d’OpenAI, Google, Meta, xAI, Anthropic, DeepSeek et d’autres ont été testés, certains n’ayant pas réussi à détecter les invites dangereuses dans un taux allant jusqu’à 90 %. Les invites poétiques conçues pour obtenir des instructions pour les attaques par injection de code, le piratage de mots de passe et l’extraction de données se sont révélées particulièrement efficaces, la « manipulation nuisible » n’ayant réussi que 24 % du temps. Claude d’Anthropic s’est montré le plus résistant, ne tombant que pour les invites modifiées en vers à un taux de 5,24 pour cent.

« La cohérence entre les familles indique que la vulnérabilité est systémique et non le fruit d’un fournisseur spécifique ou d’un pipeline de formation », lit-on dans le document, qui n’a pas encore été évalué par des pairs selon Futurism. En termes simples : les LLM peuvent encore être trompés, et assez facilement, avec une nouvelle approche d’un problème qui n’a pas été anticipé par ses opérateurs.