Son agent IA a détruit 200 e-mails. Ce garde-fou arrête la prochaine catastrophe

Vous connaissez peut-être déjà l’histoire : un cadre de Meta a demandé à l’outil viral OpenClaw AI de trier sa boîte de réception et de suggérer des messages à supprimer, puis a regardé avec horreur l’agent devenir un voyou et détruire plus de 200 e-mails, son invite frénétique « STOP OPENCLAW » perdue au milieu de l’entreprise massive du robot.

Le rebondissement ? L’exécutif était Summer Yue, responsable principal de la sécurité de l’IA chez Meta.

L’apocalypse du courrier électronique de Yue a mis en évidence un moyen d’empêcher des histoires d’horreur similaires liées à l’IA agentique.

Oui, Yue s’est involontairement faite un cobaye pour OpenClaw et ses automatisations incontrôlables – et en effet, presque tous ceux qui utilisent OpenClaw en ce moment sont un cobaye.

Mais l’apocalypse du courrier électronique de Yue a également mis en évidence un moyen d’empêcher des histoires d’horreur similaires liées à l’IA agentique, et c’est une méthode que la plupart des codeurs – et même de nombreux Vibers – connaissent déjà.

Cela porte différents noms ; Je l’ai entendu appelé « agent git flow » et « agentic feature branching », par exemple. Mais il s’agit surtout d’appliquer la méthodologie de « git », l’utilitaire de ligne de commande essentiel pour suivre les modifications du code, aux agents IA.

Le meilleur de cette solution ? Cela nous permet d’avoir notre gâteau (le gâteau étant les choses ultra cool que les agents d’IA peuvent faire) et de le manger aussi.

Poulet, poisson et OpenClaws

Tout d’abord, une expérience de pensée. Imaginez que vous êtes dans un restaurant et qu’il y a deux plats au menu : du poulet ou du poisson. Le poulet a l’air bien, mais le poisson-saumon ! Choix difficile.

Imaginez, au lieu de risquer une erreur coûteuse en choisissant le poulet plutôt que le poisson (et si le poulet est gâté !), vous pourriez créer une « branche » de votre avenir immédiat : une copie temporaire de votre chronologie qui vous permet de tester un choix avant de le faire définitivement.

Alors, vous créez (ou « extrayez ») une nouvelle branche de votre bouée de sauvetage « principale » – nous l’appellerons la « branche de poulet » – et vous commandez et goûtez ensuite le poulet. Eww! C’est dégoûtant.

Aucun problème; nous jetons la branche de poulet, revenons à la branche « principale » et vérifions une nouvelle et deuxième branche : la branche « poisson ». Maintenant, nous dégustons le saumon – délicieux ! Nous aimons cette branche de poisson, alors maintenant nous la fusionnons avec notre branche de vie « principale » et commençons par un repas qui est garanti délicieux.

Dans le monde du suivi de code de git, nous appelons cette fonctionnalité (que je n’ai décrite que grossièrement) le branchement de fonctionnalités, et c’est un moyen ingénieux et éprouvé de tester de gros changements et de nouvelles fonctionnalités dans notre code avant de les engager dans notre projet principal.

Une branche de fonctionnalités dans git n’est en réalité qu’une copie de la branche « principale ». Nous le vérifions comme un livre de la bibliothèque, apportons toutes les modifications souhaitées, le testons, trouvons des bugs, apportons d’autres modifications, etc. Pendant ce temps, la branche « principale » de notre projet est sûre et intacte.

Ce n’est qu’après avoir soumis notre branche de fonctionnalités à une batterie de tests (certains automatisés, d’autres effectués par l’utilisateur humain) et déterminé qu’elle est en parfait état que nous pensons même à fusionner notre branche « fonctionnalité » avec la branche principale. Et si nous n’aimons pas la façon dont se déroule la branche de fonctionnalités, nous pouvons la supprimer – sans danger ni faute.

Mon point ? Cette méthodologie de branchement de code peut également fonctionner avec les agents IA. (Et non, je ne suis pas la première personne à considérer cette idée.)

Comment ça aurait pu mieux se passer

Revenons à Summer Yue et essayons notre scénario de « branchement » pour déterminer la taille. Cette fois, Yue s’assoit avec OpenClaw et lui demande : « Parcourez ma boîte de réception et suggérez des suppressions ». (Son autre invite dans l’histoire réelle – « attendre l’approbation » – a probablement été supprimée de la fenêtre contextuelle d’OpenClaw en raison du grand nombre de messages électroniques qu’elle parcourait.)

Des versions plus nombreuses – et potentiellement plus effrayantes – de la journée de courrier électronique terrible, horrible, pas bonne, très mauvaise de Summer Yue se reproduiront si nous ne donnons pas à cette idée une juste secousse.

Désormais, au lieu de plonger dans la boîte de réception en direct, OpenClaw crée une branche – appelez-la branche de « triage » – qui lui permet de simuler les résultats du tri, de l’organisation et de l’élimination de sa boîte de réception, le tout dans un environnement sandbox et le tout sans toucher à ses messages électroniques.

OpenClaw fait son travail, s’emballe peut-être et commence à supprimer des messages bon gré mal gré. Si cela se produisait, Yue pourrait simplement examiner la branche de triage, décider qu’elle n’est pas satisfaite des résultats, puis soit supprimer la branche, soit continuer à travailler avec elle, en testant différentes itérations de l’invite OpenClaw ou en ajoutant des documents « d’échafaudage » au format markdown qui régissent les actions d’OpenClaw dès le départ. En attendant, sa véritable boîte de réception est saine et sauve.

Maintenant, un tel « branchement de fonctionnalités » fonctionnera-t-il pour chaque scénario d’agent IA ? Probablement pas. Il est facile de placer du code informatique ramifié dans un bac à sable et de tester la sécurité d’un certain nombre d’actions et de résultats. Mais tout comme vous ne pouvez pas réellement choisir entre le poulet et le poisson, il existe de nombreuses actions et rôles d’IA agentique du monde réel (comme, par exemple, les agents d’IA axés sur les RH) qui ne peuvent pas être facilement simulés.

Cela dit, des versions plus nombreuses – et potentiellement plus effrayantes – de la journée de courrier électronique terrible, horrible, pas bonne, très mauvaise de Summer Yue se reproduiront si nous ne donnons pas une bonne dose à cette idée de « branchement de fonctionnalités agents ».