Pouvez-vous repérer un chatbot AI empoisonné? 4 conseils d'un expert en sécurité Microsoft

L’IA «maléfique» existe, où le modèle est construit pour le chaos, l’activité criminelle et aucun bien. Mais les outils d’IA légitimes peuvent également être corrompus. Les pirates peuvent alimenter les données avec l’IA qui les empoisonne – l’objectif est d’influencer l’ensemble de données de l’IA et de modifier sa sortie.

Peut-être qu’un attaquant veut un résultat plus discret, comme l’introduction de biais. Ou peut-être que des résultats malveillants sont recherchés, comme des inexactitudes dangereuses ou des suggestions. L’IA n’est qu’un outil – il ne sait pas s’il est utilisé pour un avantage positif ou négatif. Si vous ne savez pas quoi chercher, vous pourriez devenir victime de la cybercriminalité.

La semaine dernière, alors que j’étais à la conférence RSAC, qui rassemble des milliers d’experts en cybersécurité, j’ai profité de l’occasion pour plonger dans la sécurité de l’IA avec Ram Shankar Siva Kumar, un cow-boy de données avec l’équipe rouge de Microsoft. Les équipes rouges fonctionnent comme des testeurs de pénétration interne pour les entreprises, à la recherche délibérément de moyens de briser ou de manipuler un système pour trouver ses vulnérabilités.

Au cours de notre chat, Kumar m’a donné une poignée de conseils pointus sur la façon de rester à l’abri de l’IA compromise, qu’il s’agisse d’un chatbot avec lequel vous conversez ou d’un agent traitement des informations plus automatiquement. Parce que, en fin de compte, repérer une IA empoisonnée est très difficile.

1. Tenez-vous aux grands joueurs

Bien que chaque outil d’IA aura des vulnérabilités, vous pouvez mieux faire confiance à l’intention (et à la taille des équipes prêtes à les atténuer) des plus grands joueurs sur le terrain. Non seulement ils sont plus établis, mais ils devraient avoir des objectifs clairs pour leur IA.

Ainsi, par exemple, le chatppt d’Openai, Microsoft Copilot et Google Gemini? Plus fiable qu’un chatbot que vous avez trouvé au hasard dans un petit subreddit obscur. Au moins, vous pouvez plus facilement croire en un niveau de confiance de base.

2. Sachez que l’IA peut inventer les choses

Pendant longtemps, vous pouviez demander à Google qui était plus grand, en Californie ou en Allemagne – et son résumé de la recherche en IA vous dirait l’Allemagne. (Non.) Il a cessé de comparer des kilomètres à des kilomètres seulement récemment.

Il s’agit d’une hallucination innocente, ou par exemple, lorsque des informations erronées sont données comme factuels. (Vous savez comment votre voisin de deux ans proclame avec confiance que les chiens ne peuvent être que des garçons? Ouais, c’est comme ça.)

Avec une IA compromise, elle pourrait halluciner de manière plus perfide ou simplement vous orienter de manière délibérément dangereuse. Par exemple, peut-être qu’une IA est empoisonnée pour ignorer les sécurités autour de donner des conseils médicaux.

Donc, des conseils ou des instructions dont vous avez donné l’IA? Acceptez-les toujours avec un scepticisme poli.

3. N’oubliez pas que Ai ne passe que ce qu’il trouve

Lorsqu’un chatbot AI répond à vos questions, ce que vous voyez est un résumé des informations qu’il trouve. Mais ces détails sont aussi bons que les sources – et en ce moment, ils ne sont pas toujours de haut niveau.

Vous devez toujours regarder le matériel source sur lequel IA s’appuie. Parfois, cela peut sortir des détails de son contexte ou les mal interpréter. Ou il peut ne pas avoir suffisamment de variété dans son ensemble de données pour connaître les meilleurs sites sur lesquels s’appuyer (et inversement, qui publient peu de contenu significatif).

Je connais certaines personnes qui partagent des nouvelles juteuses, mais elles ne pensent pas toujours à qui leur a dit les informations. Je leur demande toujours où ils ont entendu ces détails, puis décident par moi-même si je pense que cette source est fiable. Je parie que vous faites cela aussi. Étendre la même habitude à l’IA.

4. Pensez de manière critique

Pour résumer les conseils ci-dessus: vous ne pouvez pas tout savoir. (Au moins, la plupart d’entre nous ne le peuvent pas.) La prochaine meilleure compétence consiste à comprendre à qui s’appuyer – et à décider. L’IA malveillante gagne lorsque vous éteignez votre cerveau.

Alors, demandez-vous toujours, cela sonne-t-il correctement? Ne laissez pas la confiance vous vendre.

Les conseils ci-dessus vous permettra de démarrer. Mais vous pouvez maintenir cet élan en référence régulièrement ce que vous lisez (c’est-à-dire en regardant plusieurs sources pour revérifier le travail de votre assistant d’IA) et en apprenant à qui demander une aide supplémentaire. Mon objectif est de pouvoir répondre à une deuxième question après ce travail: Pourquoi quelqu’un a-t-il créé cet article ou une vidéo source?

Lorsque vous en savez moins sur un sujet, vous êtes intelligent sur qui vous avez confiance.