Illustration : Flock
Après plusieurs plaintes d’auteurs, cinq multinationales de l’édition (notamment scolaire et scientifique) attaquent Meta devant la justice américaine pour l’utilisation d’œuvres qu’elles éditent pour entrainer la famille de modèles d’IA générative Llama.
Meta fait face à une action en justice pour violation du copyright qui pèsera sans doute un peu plus lourd que celles qui sont arrivées devant les tribunaux jusque là concernant l’utilisation pour ses modèles d’IA générative d’œuvres copyrightées.
Ici, ce ne sont pas quelques auteurs qui attaquent le groupe dirigé par Mark Zuckerberg (qui est aussi visé personnellement par la plainte), mais cinq multinationales de l’édition : Hachette, Macmillan, McGraw Hill, Elsevier et Cengage. Scott Turow, auteur de thrillers à succès mais également éditorialiste et avocat, est aussi associé à la plainte.
Meta encore accusé d’être passé par du téléchargement illégal
La plainte [PDF], qui a été déposée ce mardi devant la cour du district sud de New York, accuse Meta et donc Mark Zuckerberg d’avoir d’abord « illégalement téléchargé via torrent [torrented, en anglais] des millions de livres et articles de revues scientifiques copyrightés provenant de sites pirates notoires et de scrapes web non autorisés de virtuellement tout l’internet », puis de les avoir copiés « à maintes reprises pour entraîner le système d’IA générative de Meta, baptisé Llama, dont la valorisation s’élève à plusieurs milliards de dollars ».
« Non contents d’utiliser les œuvres protégées par le copyright extraites de Common Crawl, les accusés ont cherché d’autres sources de textes copyrightés pour entraîner leurs modèles Llama », expliquent les avocats des éditeurs.
« Au départ, les accusés avaient envisagé d’obtenir des licences auprès de grands éditeurs pour utiliser des œuvres littéraires. Ils ont finalement opté pour une autre solution : télécharger illégalement les œuvres des demandeurs et du groupe de plaignants à partir de sites de piratage notoires, notamment LibGen, Anna’s Archive, Sci-Hub, Sci-Mag et d’autres », ajoutent-ils. Chargeant le CEO du groupe, ils affirment que « Zuckerberg lui-même a personnellement autorisé et activement encouragé cette violation ».
Mais les éditeurs n’accusent pas seulement Meta de téléchargement. Comme dans d’autres cas concernant l’utilisation d’œuvres par des IA génératives, ils affirment que les modèles de Meta restituent aussi ces œuvres dans leurs réponses.
« Llama génère des reproductions verbatim ou quasi verbatim des œuvres protégées par le copyright » des plaignants, affirme la plainte. « Par exemple, lorsqu’on lui soumet deux courtes phrases tirées du manuel à succès de Cengage, Calculus: Early Transcendentals, 9e édition, de James Stewart, Llama se met à reproduire mot pour mot la suite de la section », ajoutent les avocats.
« L’IA est à l’origine d’innovations transformatrices, d’une productivité accrue et d’une plus grande créativité pour les particuliers et les entreprises, et les tribunaux ont à juste titre estimé que l’entraînement d’un modèle d’IA sur des contenus protégés par le copyright pouvait relever du fair use », a affirmé le porte-parole de Meta Dave Arnold, au New York Times, « nous nous défendrons avec vigueur dans cette affaire ».
La question du fair use n’est pas encore tranchée
Si l’année dernière, les entreprises d’IA avaient gagné plusieurs manches judiciaires, contrairement à ce qu’affirme Meta, le débat sur le fair use pour entrainer les IA n’avait pas été tranché et le sujet reste encore ouvert. À l’époque, le juge Vince Chhaabria avait expliqué qu’il doutait de l’utilisation du fair use concernant les manuels scolaires en expliquant qu’il fallait aussi prendre en compte des « préoccupations concernant le préjudice qu’elle [l’IA générative] peut infliger au marché des œuvres sur lesquelles elle est entraînée ».
Cette réflexion peut sans doute s’étendre aux nombreuses œuvres qui se trouvent dans les catalogues des cinq éditeurs plaignants. Hachette, McGraw Hill et Cengage font partie des plus gros éditeurs de manuels scolaires dans le monde, par exemple. Et, si Elsevier est devenue une filiale d’un des plus grands courtiers de données du monde et fait maintenant d’importants bénéfices en devenant un data broker de l’activité scientifique, elle reste un des plus importants éditeurs scientifiques mondiaux.
La plainte demande la destruction de toutes les copies d’œuvres copyrightées utilisées par Meta pour l’entrainement de ses modèles après que l’entreprise en ait fait la liste exhaustive, qu’elle « cesse toute activité illégale » et « toute autre mesure que la Cour jugera appropriée ».
Interrogée par le New York Times, la responsable de l’Association of American Publishers qui a rendu publique cette plainte, Maria A. Pallante, affirme : « Nous nous concentrons sur la création d’un paysage de l’IA bien plus viable — un environnement transparent, équitable et participatif, doté de garde-fous pour protéger les auteurs et les éditeurs contre tout préjudice. Les préjudices sont déjà évidents ».
