Plusieurs gros éditeurs de sites web étasuniens proposent un nouveau protocole, « Really Simple Licensing » (RSL). Celui-ci permet de préciser aux côtés du fichier robots.txt les conditions, notamment financières, dans lesquelles les contenus d’un site peuvent être utilisés par les entreprises d’IA génératives pour entrainer leurs modèles. Reste à voir si les entreprises d’IA génératives, nombreuses à passer outre les robots.txt, seront enclines à respecter RSL comme un standard.
La promesse de « Really Simple Licensing » (RSL) est de faire un protocole « vraiment simple » pour indiquer aux robots crawlers des entreprises d’IA générative ce qu’ils ont le droit de faire et de ne pas faire avec le contenu d’un site web et dans quelles conditions. Le protocole est soutenu par le RSL Collective, créé par l’ancien CEO de Ask.com Doug Leeds, le Français et ancien de Datadog Geraud Boyer et l’ancien vice-président des produits chez Yahoo, Eckart Walther.
Depuis l’arrivée des IA génératives, leur crawlers sont, de plus en plus, devenus un sérieux problème pour le web, allant jusqu’à mettre en péril des sites. Les responsables de petits sites comme de gros, ont du mal à faire respecter aux entreprises d’IA générative leurs conditions d’utilisation. Les trois créateurs du RSL Collective espèrent que RSL deviendra un standard pour « offrir une rémunération équitable et standardisée aux éditeurs et aux créateurs, ainsi qu’un système de licence simple et automatisé aux entreprises spécialisées dans l’IA », comme ils l’affirment dans leur communiqué de presse. RSL a obtenu le soutien d’éditeurs du web comme Reddit, Quora, O’Reilly ou encore Medium.
Évolution du RSS pour s’adapter aux IA génératives
Dans son guide, le collectif explique que « Really Simple Licensing (RSL) est une évolution des premières idées à l’origine de la norme RSS largement adoptée, qui fournissait un cadre lisible par machine permettant aux éditeurs de syndiquer du contenu à des clients tiers et à des robots d’indexation en échange de trafic ». Il faut préciser que des années avant d’être vice-président chez Yahoo, Eckart Walther a travaillé chez Netscape où il a, entre autres, co-créé le format de flux de données RSS.
L’idée est de mettre en place un protocole pour que, « lorsqu’un article, un ensemble de données ou une image est utilisé par un système d’IA pour générer une réponse à l’aide d’un modèle de base, alimenter une application RAG ou répondre à un agent IA, le propriétaire du contenu » reçoive une compensation « équitable » et qu’il soit cité.
Le RSL est donc un document au format XML qui permet « aux éditeurs, auteurs et développeurs d’applications :
- De définir les conditions d’octroi de licence et de rémunération, y compris la gratuité, le paiement à la consultation et le paiement à l’inférence, pour utiliser les ressources numériques à des fins de formation en IA, de recherche sur le Web et d’autres applications
- De créer des catalogues publics standardisés et des conditions d’octroi de licence pour les ressources numériques ;
- De permettre aux clients d’automatiser l’octroi de licence et le paiement pour un accès légal aux ressources numériques ;
- De définir et de mettre en œuvre des accords standardisés en matière de licence et de redevances ».
Il ne remplace pas le robots.txt, mais il l’enrichit. C’est d’ailleurs dans le fichier robots.txt qu’il faut spécifier l’url de la licence RSL.
Pas encore un standard
Le collectif RSL affiche une page qui s’adresse aux entreprises d’IA qui voudraient bien prendre en compte leur protocole. Car, si le collectif est soutenu par plusieurs éditeurs importants du web, aucune entreprise d’IA générative ne semble prête à l’adopter. Ainsi, interrogées par notre consœur d’Ars Technica, ni Google, Meta ou OpenAI n’ont voulu commenter et xAI n’a pas répondu.
Aussi, si le collectif RSL parle de « standard » pour son protocole, celui-ci n’est pas encore validé par la communauté. Il n’est d’ailleurs pas la première initiative en cours pour faire le ménage et proposer aux entreprises d’IA générative à respecter la volonté des auteurs et des éditeurs. Du côté de chez Cloudflare, l’entreprise propose déjà depuis juillet à ses clients des outils pour bloquer les crawlers des IA par défaut. L’entreprise essaye de devenir un intermédiaire entre ses clients et les entreprises d’IA pour assurer une négociation financière.
Début juillet aussi, Creative Commons a proposé CC Signals, un cadre pour l’utilisation des contenus par les IA qui s’appuie sur les fichiers robots.txt et les headers HTTP pour ajouter de nouvelles informations.
L’adoption d’un réel standard pour permettre l’automatisation de l’obtention d’une licence et d’une rétribution en contrepartie de l’utilisation de contenus du web par les IA génératives ne semble pas pour tout de suite. Il faudra ensuite que les entreprises du secteur acceptent de s’y plier, alors que certaines d’entre elles passent depuis longtemps outre les indications se trouvant dans les fichiers robots.txt.
