En résumé:
- PCWorld rapporte qu’un responsable de Microsoft a encouragé la formation d’Azure AI sur les livres piratés de Harry Potter via un article de blog de développeur qui a depuis été supprimé.
- L’incident met en lumière des préoccupations juridiques croissantes alors que les auteurs poursuivent de plus en plus les entreprises technologiques pour avoir utilisé des œuvres protégées par le droit d’auteur sans autorisation pour entraîner des systèmes d’IA.
- Cette affaire met en évidence d’importants défis éthiques dans le développement de l’IA lorsque du matériel protégé par le droit d’auteur est utilisé de manière inappropriée à des fins de formation en apprentissage automatique.
Oh, mon Dieu. Alors que les systèmes « IA » causent de nombreux problèmes un peu partout, c’est une mauvaise idée pour l’une des entreprises technologiques les plus importantes au monde de promouvoir activement le piratage. Mais cela semble être exactement ce qui s’est passé, avec un article hébergé sur le blog des développeurs de Microsoft, utilisant activement un ensemble de logiciels apparemment piratés. Harry Potter des romans pour former un système « IA » basé sur Azure.
« La série Harry Potter, écrite par JK Rowling, est une collection mondialement appréciée de sept livres qui suivent le voyage d’un jeune sorcier, Harry Potter, et de ses amis alors qu’ils combattent les forces obscures dirigées par le maléfique Voldemort », a écrit Pooja Kamath, chef de produit senior chez Microsoft. Le billet de blog pointait ensuite vers un lien vers un ensemble de données Kaggle contenant sept fichiers TXT, englobant apparemment le entier série de romans publiés.
Le billet de blog était un guide sur l’ajout d’une « IA » générative aux applications via Azure. Le responsable a déclaré qu’il pourrait être utilisé pour créer un système de questions-réponses ou générer automatiquement Harry Potter fanfictions. « Cette fonctionnalité ravira à coup sûr les Potterheads, en leur permettant d’explorer de nouvelles aventures et de créer leurs propres histoires magiques. » Il se termine par une image générée par LLM de deux enfants dans un train, évidemment des caricatures de Harry Potter et Ron Weasley, avec un logo Microsoft entre eux.
Il s’agit, en termes techniques et légalistes, d’un gros putain de non-non. Tout le Harry Potter les romans sont, bien entendu, détenus sous droit d’auteur par diverses entités à travers le monde, y compris l’auteur. Une navigation rapide sur Amazon montre qu’une collection complète coûte 70 $ US au format ebook au moment de la rédaction. Héberger ou télécharger des fichiers gratuitement sans payer aucune redevance est un crime pratiquement partout. Oui, cela inclut le téléchargement même si tout ce que vous avez l’intention de faire est de le connecter à un grand modèle de langage.
La publication originale de Microsoft sur la procédure à suivre a été publiée fin 2024 et a été supprimée du site (bien qu’elle soit toujours accessible via Internet Archive). Idem pour l’ensemble de données Kaggle, qui a été marqué par erreur comme « domaine public » et téléchargé seulement environ 10 000 fois, selon un rapport d’Ars Technica. L’article de blog et l’ensemble de données piratées semblent être passés inaperçus pendant un an et demi, jusqu’à ce qu’un fil de discussion Hacker News hier attire une nouvelle attention sur eux.
Il est choquant qu’un responsable de Microsoft se montre si désinvolte à propos du piratage de livres électroniques dans une publication publique sur un blog Microsoft (même si Kamath ne comprend peut-être pas comment fonctionne le système du domaine public et suppose que les fichiers ont été marqués correctement). Mais les grands modèles linguistiques les plus populaires ont été formés sur des millions de livres électroniques, dont beaucoup (peut-être même la majorité) ont été téléchargés via un piratage illégal.
Les auteurs ont intenté des poursuites contre Meta/Facebook, OpenAI, Nvidia, Alphabet/Google, Anthropic, Microsoft et d’autres, dans le but d’arrêter la formation sur des œuvres protégées par le droit d’auteur et/ou d’obtenir une rémunération pour des livres déjà intégrés sans autorisation dans la formation LLM. Les premiers résultats devant les tribunaux ont été mitigés, estimant parfois les résultats des modèles de formation « transformateurs » et donc fondamentalement différents des données de base, c’est-à-dire l’utilisation équitable, et certains estimant que les premiers actes de piratage doivent toujours faire l’objet de poursuites.











