Scraping IA : le protocole RSL propose d’automatiser l’octroi de licences

Published on 12 septembre 2025

•

5 min

Scraping IA : le protocole RSL propose d’automatiser l’octroi de licences

#News

Plusieurs gros éditeurs de sites web étasuniens proposent un nouveau protocole, « Really Simple Licensing » (RSL). Celui-ci permet de préciser aux côtés du fichier robots.txt les conditions, notamment financières, dans lesquelles les contenus d’un site peuvent être utilisés par les entreprises d’IA génératives pour entrainer leurs modèles. Reste à voir si les entreprises d’IA […]

Source:

Plusieurs gros éditeurs de sites web étasuniens proposent un nouveau protocole, « Really Simple Licensing » (RSL). Celui-ci permet de préciser aux côtés du fichier robots.txt les conditions, notamment financières, dans lesquelles les contenus d’un site peuvent être utilisés par les entreprises d’IA génératives pour entrainer leurs modèles. Reste à voir si les entreprises d’IA génératives, nombreuses à passer outre les robots.txt, seront enclines à respecter RSL comme un standard.

La promesse de « Really Simple Licensing » (RSL) est de faire un protocole « vraiment simple » pour indiquer aux robots crawlers des entreprises d’IA générative ce qu’ils ont le droit de faire et de ne pas faire avec le contenu d’un site web et dans quelles conditions. Le protocole est soutenu par le RSL Collective, créé par l’ancien CEO de Ask.com Doug Leeds, le Français et ancien de Datadog Geraud Boyer et l’ancien vice-président des produits chez Yahoo, Eckart Walther.

Depuis l’arrivée des IA génératives, leur crawlers sont, de plus en plus, devenus un sérieux problème pour le web, allant jusqu’à mettre en péril des sites. Les responsables de petits sites comme de gros, ont du mal à faire respecter aux entreprises d’IA générative leurs conditions d’utilisation. Les trois créateurs du RSL Collective espèrent que RSL deviendra un standard pour « offrir une rémunération équitable et standardisée aux éditeurs et aux créateurs, ainsi qu’un système de licence simple et automatisé aux entreprises spécialisées dans l’IA », comme ils l’affirment dans leur communiqué de presse. RSL a obtenu le soutien d’éditeurs du web comme Reddit, Quora, O’Reilly ou encore Medium.

Évolution du RSS pour s’adapter aux IA génératives

Dans son guide, le collectif explique que « Really Simple Licensing (RSL) est une évolution des premières idées à l’origine de la norme RSS largement adoptée, qui fournissait un cadre lisible par machine permettant aux éditeurs de syndiquer du contenu à des clients tiers et à des robots d’indexation en échange de trafic ». Il faut préciser que des années avant d’être vice-président chez Yahoo, Eckart Walther a travaillé chez Netscape où il a, entre autres, co-créé le format de flux de données RSS.

L’idée est de mettre en place un protocole pour que, « lorsqu’un article, un ensemble de données ou une image est utilisé par un système d’IA pour générer une réponse à l’aide d’un modèle de base, alimenter une application RAG ou répondre à un agent IA, le propriétaire du contenu » reçoive une compensation « équitable » et qu’il soit cité.

Le RSL est donc un document au format XML qui permet « aux éditeurs, auteurs et développeurs d’applications :

De définir les conditions d’octroi de licence et de rémunération, y compris la gratuité, le paiement à la consultation et le paiement à l’inférence, pour utiliser les ressources numériques à des fins de formation en IA, de recherche sur le Web et d’autres applications
De créer des catalogues publics standardisés et des conditions d’octroi de licence pour les ressources numériques ;
De permettre aux clients d’automatiser l’octroi de licence et le paiement pour un accès légal aux ressources numériques ;
De définir et de mettre en œuvre des accords standardisés en matière de licence et de redevances ».

Il ne remplace pas le robots.txt, mais il l’enrichit. C’est d’ailleurs dans le fichier robots.txt qu’il faut spécifier l’url de la licence RSL.

Pas encore un standard

Le collectif RSL affiche une page qui s’adresse aux entreprises d’IA qui voudraient bien prendre en compte leur protocole. Car, si le collectif est soutenu par plusieurs éditeurs importants du web, aucune entreprise d’IA générative ne semble prête à l’adopter. Ainsi, interrogées par notre consœur d’Ars Technica, ni Google, Meta ou OpenAI n’ont voulu commenter et xAI n’a pas répondu.

Aussi, si le collectif RSL parle de « standard » pour son protocole, celui-ci n’est pas encore validé par la communauté. Il n’est d’ailleurs pas la première initiative en cours pour faire le ménage et proposer aux entreprises d’IA générative à respecter la volonté des auteurs et des éditeurs. Du côté de chez Cloudflare, l’entreprise propose déjà depuis juillet à ses clients des outils pour bloquer les crawlers des IA par défaut. L’entreprise essaye de devenir un intermédiaire entre ses clients et les entreprises d’IA pour assurer une négociation financière.

Début juillet aussi, Creative Commons a proposé CC Signals, un cadre pour l’utilisation des contenus par les IA qui s’appuie sur les fichiers robots.txt et les headers HTTP pour ajouter de nouvelles informations.

L’adoption d’un réel standard pour permettre l’automatisation de l’obtention d’une licence et d’une rétribution en contrepartie de l’utilisation de contenus du web par les IA génératives ne semble pas pour tout de suite. Il faudra ensuite que les entreprises du secteur acceptent de s’y plier, alors que certaines d’entre elles passent depuis longtemps outre les indications se trouvant dans les fichiers robots.txt.

Written by Next•

Published on 12 septembre 2025

View on site

Hello 👋

Here is the edition of
21 avril ▼

Par Jean-Marie Leforestier

20 millions d'euros. C'est la nouvelle baisse de budget drastique imposée par Sébastien Lecornu au principal organisme de recherche français, le CNRS. Les chercheur·euses interrogé·es par Next dénoncent une dérive "à la Trump".

La maison d'arrêt de Strasbourg se révèle toujours plus indigne. Rue89 Strasbourg décortique un nouveau rapport de la contrôleuse générale des lieux de privation de libertés qui dévoile les conditions dangereuses d'accueil des détenus. Dominique Simonnot appelle même leurs familles à porter l'affaire en justice.

Unrestricted access

#News

La baisse du budget du CNRS, « une rupture » dans le financement de la recherche française

Published on 20/04/2026 à 16:29

•

5 min

Les agents du CNRS s’alarment d’une nouvelle coupe budgétaire : « On assiste à un net désengagement de l’État ». La France est-elle en train de suivre le chemin tracé par Donald Trump aux États-Unis ? Nous sommes en tout cas à contre-courant de la Chine qui renforce ses investissements dans la recherche.

#News

Face à l’internationale fasciste, les gauches françaises rêvent de rebâtir des ponts

Published on 20/04/2026 à 18:04

•

10 min

#News

Des militants identitaires condamnés pour violences à Albi

Published on 20/04/2026 à 17:10

•

4 min

Onze membres du groupe d’extrême droite Patria Albiges viennent d’être condamnés à des peines allant jusqu’à huit mois de prison ferme pour une expédition punitive contre un militant connu pour son engagement à gauche.

#News

Neuf ans après la dernière inspection, aucune amélioration à la maison d’arrêt de Strasbourg

Published on 20/04/2026 à 16:56

•

8 min

« Un établissement qui n’est plus du tout adapté à sa fonction » où « la présence de rats pose un vrai problème de salubrité »… La Contrôleure générale des lieux de privation de liberté publie un rapport sur la maison d’arrêt de Strasbourg après une visite d’inspection. La vétusté de la prison engendre « des conditions de détention indignes ».

Unrestricted access

#News

Depuis l’espace, Sophie Adenot échange en direct avec des élèves de Nouvelle-Aquitaine

Published on 20/04/2026 à 18:24

•

2 min

En mission à bord de la Station spatiale internationale, l’astronaute française Sophie Adenot a dialogué par radio avec une cinquantaine d’élèves réunis à l’Université de Bordeaux, point d’orgue du projet éducatif Mission : Sophie.

The
collections by
la Presse libre

Israël-Palestine, enfin la paix ?

48 articles

Résistances et résiliences

54 articles

L'ouragan Trump

59 articles

Scraping IA : le protocole RSL propose d’automatiser l’octroi de licences

Évolution du RSS pour s’adapter aux IA génératives

Pas encore un standard

Here is the edition of 21 avril ▼

La baisse du budget du CNRS, « une rupture » dans le financement de la recherche française

Face à l’internationale fasciste, les gauches françaises rêvent de rebâtir des ponts

Des militants identitaires condamnés pour violences à Albi

Neuf ans après la dernière inspection, aucune amélioration à la maison d’arrêt de Strasbourg

Depuis l’espace, Sophie Adenot échange en direct avec des élèves de Nouvelle-Aquitaine

Thecollections byla Presse libre

Israël-Palestine, enfin la paix ?

Résistances et résiliences

L'ouragan Trump

Here is the edition of
21 avril ▼

The
collections by
la Presse libre