Les pirates peuvent masquer les attaques d'injection rapide sur l'IA dans les images redimensionnées

Les outils «IA» font fureur pour le moment, même parmi les utilisateurs qui ne sont pas si avisés en ce qui concerne les logiciels ou la sécurité conventionnels – et cela ouvre toutes sortes de nouvelles opportunités pour les pirates et autres qui veulent en profiter. Une nouvelle équipe de recherche a découvert un moyen de masquer des attaques d’injection rapides dans des images téléchargées.

Une attaque d’injection rapide est un moyen de masquer les instructions pour un LLM ou un autre système «d’intelligence artificielle», généralement un endroit où un opérateur humain ne peut pas les voir. C’est le «perdant-says-sairs» de la sécurité informatique. Un excellent exemple est de cacher une tentative de phishing dans un e-mail en texte brut qui est coloré de la même manière que l’arrière-plan, sachant que les Gémeaux résument le texte même si le destinataire humain ne peut pas le lire.

Une équipe de recherche de bits de deux personnes a découvert qu’elle pouvait également masquer ces instructions dans les images, ce qui rend le texte invisible à l’œil humain mais révélé et transcrit par un outil d’IA lorsqu’une image est compressée pour le téléchargement. La compression – et les artefacts qui l’accompagnent – ne sont rien de nouveau. Mais combinée avec l’intérêt soudain de cacher des messages texte brut, il crée une nouvelle façon d’obtenir des instructions à un LLM sans que l’utilisateur sache que ces instructions ont été envoyées.

Dans l’exemple mis en évidence par Trail of Bits et BleepingComputer, une image est livrée à un utilisateur, l’utilisateur télécharge l’image vers Gemini (ou utilise quelque chose comme l’outil de cercle à recherche intégré d’Android), et le texte caché de l’image devient visible à mesure que le backend de Google le comprime avant de «lire» pour économiser la bande passante et le traitement de Google. Après avoir été compressé, le texte rapide est injecté avec succès, disant à Gemini d’envoyer un e-mail aux informations du calendrier personnel de l’utilisateur à un tiers.

C’est beaucoup de jambes pour obtenir une quantité relativement faible de données personnelles, et la méthode d’attaque complète et l’image elle-même doivent être adaptées au système «IA» spécifique qui est exploité. Il n’y a aucune preuve que cette méthode particulière était connue des pirates auparavant ou est activement exploitée au moment de la rédaction. Mais cela illustre comment une action relativement inoffensive – comme demander à un LLM « quelle est cette chose? » avec une capture d’écran – pourrait être transformé en vecteur d’attaque.