l’IA à l’épreuve du droit d’auteur : OpenAI planche sur Media Manager


l’IA à l’épreuve du droit d’auteur : OpenAI planche sur Media Manager
En juin 2023, plusieurs auteurs américains ont engagé une action collective contre des entreprises d’IA génératives, dont Open AI. Ils dénoncent l’utilisation de leur contenu par « data scraping », cette technique qui consiste à capturer ou collecter du contenu sans information ou compensation préalable. Les auteurs dénoncent une atteinte au copyright. « Aux Etats-Unis, le droit d'auteur s'acquiert par la création, mais, si l’on simplifie, pour prétendre à des dommages et intérêts il faut que l'œuvre soit enregistrée à l'office du copyright », souligne Tommaso Stella, avocat associé chez Lien avocats, intervenant dans le domaine de la propriété intellectuelle.

En Europe, pas de trace d’action judiciaire similaire. « Il y a une différence entre la notion américaine de copyright et celle européenne de droit d’auteur », détaille Betty Jeulin, avocate, spécialiste du droit des nouvelles technologies et de la propriété intellectuelle. « Notamment l’absence de droit moral dans le cas du copyright et la notion de fair use. »

Attaqué sur l’exploitation de contenu sans autorisation, Open AI se prévaut en effet du « fair use », cette exception au droit d’auteur, dans les domaines de l’éducation ou de la recherche.

Il faut aussi voir dans l’absence de recours judiciaire en Europe les conditions d’accès plus strictes à une action collective. Et également le fait que les grandes sociétés d’IA visées sont basées aux États-Unis, avec le risque d’une une action de David contre Goliath.  « Dans la majorité des procès en cours aux États-Unis, il n’y a pas encore de décision définitive, mais est reconnu aux plaignants un intérêt à agir », nuance Betty Jeulin.

Mise au point d’un outil gestionnaire de droits d’auteur

Devant les risques judiciaires possibles, l’entreprise Open AI, qui a notamment mis au point Chatgpt et Dall-e prend les devants.

Le 7 mai, la société a annoncé par communiqué qu’elle développait une solution (“Media Manager”). « Cet outil permettra aux créateurs et aux propriétaires de contenu de nous dire ce dont ils sont propriétaires et de préciser la façon dont ils veulent que leur travail soit inclus ou exclu des recherches et de l’apprentissage de la machine ». Il devrait être ainsi possible aux créateurs de contenus d’indiquer expressément s’ils souhaitent que leur travail soit réutilisé.

Quels seraient les contours de l’outil Media Manager ? « Difficile de dire comment cela va se matérialiser », relève Betty Jeulin. Un LLM est d’ores et déjà entraîné sur des nombreuses données accessibles qui ont été injectées, et on ne peut pas lui faire désapprendre. »

Filtrage en sortie ou effacement des bases de données

Une des pistes serait celle du « filtrage en sortie », pour répondre aux plaintes qui risquent de s’accumuler. C’est-à-dire un blocage de la réponse générée grâce à l’identification d’une similitude forte entre la génération produite à partir de la requête et des éléments non autorisés, empêchés par les ayants-droits. « C’est un peu le même principe que ce qui existe déjà aujourd’hui, où il y a un filtrage sémantique, par exemple on ne peut pas demander à ChatGpt comment faire un rançongiciel, relève Arnaud Cueille, ingénieur CNAM, expert judiciaire en informatique en intelligence artificielle et sciences de la décision. «  Le principe serait de garder les modèles actuels et d’essayer de les encapsuler dans un méta système filtrant.»

Cette solution intermédiaire de filtrage en sortie, consisterait à s’appuyer sur une base de données des contenus non autorisés. « La base de données regrouperait tous les contenus sous copyright ou droits d’auteur. Assortie à cette base de données, un modèle plus ou moins conséquent aurait pour mission de mémoriser puis reconnaître les données reconnues en sortie, et les bloquer » Mais cette solution présente un inconvénient majeur selon Arnaud Cueille « Il va rester en permanence dans ces modèles des informations mémorisées dont l’utilisation n’est pas autorisée. C’est uniquement son accès par l’utilisateur qui serait interdit. »

Une autre option serait d’effacer l’ensemble des contenus de l’outil pour faire place nette et de n’y réinjecter que des contenus pour lesquels les auteurs ont expressément donné leur accord.

« L’idéal serait évidemment de recueillir l’acceptation de tous les auteurs qui ont généré du contenu, analyse Arnaud Cueille. Mais face au volume mémorisé par les LLM, cela demande du temps, d’abord pour recueillir les accords de chacun, puis pour nettoyer le modèle ou bien repartir de zéro pour n’entraîner cet outil que sur des données autorisées. Cela nécessiterait encore au moins 6 mois d’apprentissage, en espérant disposer des droits d’exploitation en amont. »

Pour l’ingénieur, d’autres options sont sur la table. « Il y aurait la possibilité d’améliorer les modèles et de les enrichir pour nous permettre de leur demander leurs sources pour générer du contenu. Mais les modèles actuels ne sont pas prévus pour et cela ne semble pas d’actualité. Les raisons sont multiples, la première vient du fait qu’il n’a pas été conçu d’origine pour répondre à une telle justification, certainement parce que cela demanderait des ressources démesurées, et surtout des grandes difficultés à garantir ses sources. La seconde est certainement liée au fait que les droits d’utilisation des données n’ont pas été accordés. »

Système d’opt-in/opt-out

Mettre en place un système d’opt-in/opt out consisterait – dans la même veine que pour la protection des données personnelles – à aller chercher le consentement des auteurs. Une possible solution technique serait d’enregistrer dans les métadonnées de l’objet l’accord ou le refus d’exploitation libre. Aujourd’hui, des lignes de codes sont ajoutées aux robots des sites, mais cette couche de protection se révèle insuffisante.

De manière pragmatique, tous les contenus faisant l’objet de contestation ou de procédure judiciaire seraient aussi considérés comme devant être retirés des bases de données d’entraînement des systèmes. Il faudrait aussi appliquer cette réglementation rigoureuse aux gestionnaires de base de données qui licencient l’usage. « La question se pose aussi pour ces sociétés qui mettent à disposition du contenu auprès des LLM de se mettre en conformité avec la question des droits d’auteurs », relève  Tommaso Stella, pour qui ce sujet constitue un angle mort.

Peut-on avoir une intelligence artificielle réaliste sans la nourrir de contenu humain ?

Mais vouloir contrôler et empêcher l’utilisation de données, cela ne risque-t-il pas de nuire rapidement à la philosophie des systèmes de LLM, qui pour être les plus pertinents possibles ont besoin de se nourrir en permanence ? « Il y a effectivement une contradiction, peut-on avoir une intelligence artificielle réaliste sans la nourrir avec un contenu humain réel ? », relève Tommaso Stella. « Une des manières de résoudre la contradiction serait de créer des fausses données synthétiques. J’ai l’exemple d’un entrepreneur, qui à partir de notes musicales non protégées et de mélodies de base, avait mis au point une IA capable de générer de la musique. »

Scanner le web et collecter de la donnée sont désormais des pratiques de toutes les entreprises depuis des décennies. « Lorsque je fais des sondages, le constat montre que le modèle économique tourne souvent autour du scraping sans autorisation. Difficile de concilier économie de l’Internet et protection des droits d’auteurs , souligne Arnaud Cueille.

Enfin Betty Jeulin relève un autre point laissé de côté, celui du risque de concurrence déloyale. « Les entreprises qui ont pu entraîner leurs modèles de LLM ont pris de l’avance grâce à l’utilisation de données sur Internet qui s’apparente à du pillage ! Cela crée une sorte de barrière à l’entrée pour les nouveaux entrants qui soumis à la réglementation n’auraient pas la possibilité de le faire ».

Marine Landau
Journaliste