Reddit bloquera l’accès des robots à ses données publiques pour empêcher le web scraping pour la formation en IA

MADRID, 27 juin (Portaltic/EP) –

Forum reddit a annoncé qu’il mettrait à jour son protocole d’exclusion de robots (fichier robots.txt) pour bloquer l’accès des « robots » automatisés à ses données publiques et empêcher ainsi ce que l’on appelle le data scraping ou « web scrapping », utilisé dans la formation à l’intelligence artificielle (IA). .

Grattage de données ou ‘grattage de sites Web’ Il s’agit d’un processus de collecte de contenu de pages Web à l’aide d’un logiciel qui extrait le contenu HTML de ces sites pour filtrer les informations et les stocker, ce qui est comparé au processus automatique de copier-coller.

Bien qu’il s’agisse d’une pratique courante et légale, elle va à l’encontre des conditions d’utilisation de certains sites Web, car elle peut être exécutée à des fins malveillantes, comme l’ont récemment vérifié les développeurs Robb Knight et Wired.

Les deux hommes ont découvert que le développeur d’IA Perplexity avait ignoré le protocole d’exclusion de robots de certains sites Web et avait utilisé ce protocole pour entraîner ses modèles d’intelligence artificielle.

Pour éviter ce type de situations, Reddit a annoncé qu’il mettrait à jour dans les semaines à venir son protocole d’exclusion de robots, qui “fournit des instructions de haut niveau” sur la manière dont il autorise ou non les agents tiers à explorer ses répertoires.

Une fois que vous aurez mis à jour le fichier robots.txt, il continuera à empêcher les « robots » et robots d’exploration inconnus d’accéder à reddit.com et limitera votre vitesse de navigation. Cependant, maintiendra un accès ouvert à votre contenu pour les chercheurs et les organisations comme Internet Archive, qu’il considère comme des « acteurs de bonne foi » qui accèdent à son contenu « à des fins non commerciales ».

En revanche, la plateforme nécessite une autorisation et des frais lorsque l’accès aux données et aux outils est à des fins commerciales, ce qui inclut la formation de modèles d’IA.

Ce faisant, il a indiqué que toute personne accédant à son site Web doit se conformer à ses politiques d’utilisation, « y compris celles en vigueur pour protéger les rédacteurs », et a mis à disposition des parties intéressées un guide pour accéder légitimement à son contenu.

Il convient cependant de rappeler que Reddit a déjà annoncé une nouvelle politique de contenu public début mai, suite à la prise de conscience que “de plus en plus d’entités commerciales utilisent un accès non autorisé ou abusent de l’accès autorisé pour collecter des données publiques”, notamment. ceux sur la plateforme.

Il a également présenté un nouveau “subreddit” destiné aux chercheurs, avec lequel il a démontré son intention de préserver l’accès public au contenu de la plateforme pour “ceux qui croient en l’utilisation responsable et non commercial des données publiques“.