Le premier cas de droit d'auteur ChatGPT : OpenAI fait face à six chefs d'accusation et a été "capturé" pour avoir publié des résumés de livres

2023-08-07 02:33:22

Source d'origine : technologie Tencent

Source de l'image : générée par l'IA illimitée‌

Le 28 juin 2023, le premier procès représentatif pour violation du droit d'auteur ChatGPT est finalement apparu aux yeux du public. Deux écrivains ont déposé une action collective en matière de droit d'auteur contre Open AI devant le tribunal du district nord de Californie, accusant ce dernier d'utiliser leurs livres protégés par le droit d'auteur pour former ChatGPT sans autorisation à des fins commerciales.

Les demandeurs, Paul Tremblay et Mona Awad, résident au Massachusetts et détiennent respectivement les droits d'auteur des œuvres impliquées dans l'affaire « La Cabane du bout du monde » et « 13 façons de regarder une grosse fille et un lapin » ; le défendeur Open AI a créé et exploité le génératif Le produit d'intelligence artificielle ChatGPT est actuellement principalement piloté par deux grands modèles de langage sous-jacents, GPT-3.5 et GPT-4.

La plainte a souligné que bien que le plaignant n'ait pas autorisé Open AI à utiliser ses propres livres protégés par le droit d'auteur pour la formation de modèles, ChatGPT était en mesure de produire des résumés de livres selon la commande s, ce qui ne pouvait se produire que si le défendeur incluait les livres impliqués dans le corpus. pour s'entraîner.

01 a été "capturé" pour avoir produit des résumés de livres

Le demandeur a déclaré qu'une grande partie du contenu contenu dans l'ensemble de données de formation Open AI est une œuvre protégée par le droit d'auteur, y compris des livres pour lesquels le demandeur a des droits d'auteur. Cependant, Open AI n'a ni obtenu le consentement du demandeur, ni indiqué la source du contenu, ni payé les frais nécessaires. Les livres publiés par le demandeur contiennent des informations claires sur la gestion des droits d'auteur, notamment le numéro de publication, le numéro de droit d'auteur, le nom du titulaire du droit d'auteur et les conditions d'utilisation.

** Le demandeur peut déduire des faits et informations existants que la seule raison explicable pour laquelle ChatGPT peut générer avec précision un résumé d'un livre spécifique est qu'Open AI a obtenu et copié le livre en question, et l'a utilisé pour son grand modèle de langage (GPT3. 5 ou GPT4). **

Le test du plaignant a révélé que lorsque ChatGPT était invité à résumer les deux livres impliqués dans l'affaire via s, ChatGPT pouvait générer un résumé plus précis (bien qu'il y ait également une petite quantité de contenu erroné). Cela montre que ChatGPT préserve le contenu d'un travail spécifique dans l'ensemble de données d'entraînement et est capable de générer le texte correspondant. Dans le même temps, grâce à la conception du principe de génération de contenu du grand modèle de langue, le contenu de sortie de ChatGPT ne contiendra pas les informations de gestion des droits d'auteur d'origine.

02 "ChatGPT, comment courez-vous !"

** La chose intéressante à propos de cette affaire est que dans le processus de preuve de l'infraction d'Open AI, l'introduction du demandeur aux principes de base de ChatGPT était basée sur un dialogue avec ChatGPT et lui demandait de "se présenter". Le contenu spécifique est résumé comme suit. **

Open AI a publié une série de grands modèles de langage, notamment GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) et le dernier GPT-4 (2023·3) . De manière générale, les logiciels d'intelligence artificielle visent à utiliser des méthodes statistiques pour simuler la logique et le raisonnement humains à travers des algorithmes. Un grand modèle de langage est un type de logiciel d'intelligence artificielle spécialisé utilisé pour analyser et produire du langage naturel.

** D'une part, Open AI fournit ChatGPT aux utilisateurs via une page Web au prix de 20 $ par mois. **Les utilisateurs peuvent choisir deux versions de ChatGPT, le modèle GPT-3.5 ou le modèle GPT-4 mis à jour. ** D'autre part, ChatGPT est également fourni aux développeurs de logiciels sous forme d'API. ** L'interface API permet aux développeurs d'écrire des programmes pour l'échange de données avec ChatGPT, dans ce cas, il est facturé en fonction de l'utilisation.

** Que le service soit fourni sous la forme d'une page ou d'une API, ChatGPT répondra activement à la demande de l'utilisateur. **Si l'utilisateur pose une question à ChatGPT, il donnera la réponse ; si l'utilisateur donne une instruction à ChatGPT, ChatGPT l'exécutera ; si l'utilisateur demande à ChatGPT de résumer un résumé d'un livre, ChatGPT le fera quand même.

03 Les livres sont le corpus de base pour la formation de grands modèles

Le point de vue du demandeur est que, contrairement aux logiciels traditionnels, qui sont écrits par des ingénieurs, le grand modèle de langage est développé par « apprentissage » - en collectant des corpus de contenu massifs provenant de différentes sources et en les « alimentant » au modèle. (jeu de données d'entraînement).

Le grand modèle de langue ajustera constamment sa sortie pour être aussi proche que possible de la séquence des combinaisons de texte dans les œuvres entraînées. ** Il convient de noter que bien que de nombreux contenus soient utilisés pour former de grands modèles de langage, les livres ont toujours été les principaux matériaux de corpus dans l'ensemble de données de formation, car ils fournissent les meilleurs exemples d'écriture longue de haute qualité. **

Dans l'article d'entreprise "Improving Language Understanding Through Generative Pre-Training" publié en juin 2018, Open AI a révélé que la formation de GPT-1 repose sur l'ensemble de données "BookCorpus". "BookCorpus" contient 7 000 livres dans différents domaines tels que l'aventure, la fantasy et la romance. ** Open AI a souligné que la raison pour laquelle les livres sont particulièrement importants en tant que corpus de formation est qu'ils contiennent de longs textes continus, ce qui permet aux modèles génératifs d'apprendre à traiter les informations textuelles longues. **

** De nombreuses sociétés de recherche et développement en intelligence artificielle, notamment Open AI, Google, Amazon, etc., utilisent "BookCorpus" pour la formation de modèles. ** En 2015, une équipe de recherche en intelligence artificielle a créé cet ensemble de données, qui contient des livres du site Web Smashwords.com, mais "BookCorpus" n'a pas obtenu l'autorisation du titulaire des droits d'auteur lors de l'inclusion de ces livres.

04 Démystifier le corpus de livres derrière GPT

En recherchant publiquement l'initiative d'Open AI de divulguer des informations (enterprise papers), le demandeur espère démontrer que la formation de la série de modèles GPT est basée sur l'utilisation non autorisée de contenus de livres massifs. ** Dans l'article d'entreprise "Language Models Are Small Sample Learners" publié en juillet 2020, Open AI a révélé que 15 % du contenu de l'ensemble de données de formation GPT-3 provenait de deux bases de données électroniques nommées "Books1" et "Books2". Corpus de livres. **

Bien qu'Open AI n'ait pas expliqué les spécificités du contenu de "Books1" et "Books2", cela peut être déduit d'indices pertinents : premièrement, les deux corpus proviennent d'Internet ; deuxièmement, l'échelle des deux corpus est nettement plus grande que "Livre Corpus". Selon la divulgation d'Open AI, l'échelle de "Books1" est 9 fois celle de BookCorpus (environ 63 000 livres) et Books2 est 42 fois (environ 294 000 livres). **En réalité, seul un très petit nombre de bases de données peut fournir un tel corpus de livres à grande échelle. D'une part, "Books1" vient probablement de "Project Gutenberg" ou "Project Gutenberg Corpus Standardization". **Project Gutenberg est une bibliothèque en ligne de livres électroniques "au-delà de la durée de protection du droit d'auteur". En septembre 2020, Project Gutenberg a annoncé qu'il avait inclus plus de 60 000 livres. Parce qu'il n'est pas protégé par le droit d'auteur, le projet Gutenberg a été largement utilisé pour la formation de modèles d'intelligence artificielle. En 2018, une équipe de recherche en intelligence artificielle a créé le "Standardized Project Gutenberg Corpus" (Corpus Standardisé du Projet Gutenberg) de plus de 50 000 livres basés sur le "Projet Gutenberg". ** D'un autre côté, "Books2" est très probablement dérivé de la "Shadow Library" sur Internet. ** L'ensemble de données "Books2" contient environ 29 400 livres, et seule la "bibliothèque fantôme" tant critiquée peut fournir un corpus de livres à une si grande échelle. Les exemples incluent Library Genesis, Z-Library, Sci-Hub et Bibliotik, entre autres. Le terme "Shadow Library" a été inventé par le Social Science Research Council des États-Unis dans l'article "Media Piracy in Emerging Economies" publié en 2011. En mars 2023, Open AI a publié le document d'entreprise GPT-4, mais a déclaré que "compte tenu de la situation de la concurrence dans l'industrie et de la sécurité des applications des produits, la structure et le contenu de l'ensemble de données de formation ne seront plus divulgués."

05 Open AI fait face à six allégations d'infraction

** Le demandeur a déposé un total de six allégations contre Open AI, les trois premières impliquant une violation du droit d'auteur, la quatrième impliquant une concurrence déloyale et les cinquième et sixième impliquant deux types de base de responsabilité civile : l'obligation de diligence et l'enrichissement sans cause. **

**Tout d'abord, la violation directe du droit d'auteur. **Le demandeur n'a pas autorisé Open AI à reproduire ou à faire des œuvres dérivées de ses livres, ni n'a autorisé Open AI à afficher ou distribuer publiquement les reproductions ou œuvres dérivées susmentionnées.

En outre, le demandeur a souligné que, puisque le grand modèle de langage Open AI doit extraire et enregistrer des informations expressives des livres du demandeur pour fonctionner, le grand modèle de langage lui-même constitue une œuvre dérivée contrefaisante sans l'autorisation du demandeur.

**Deuxièmement, la violation du substitut du droit d'auteur. **Le demandeur a souligné qu'en l'absence d'autorisation, chaque sortie du grand modèle constitue une œuvre dérivée contrefaisante. Parce qu'elle a le droit et la capacité de contrôler la sortie de contenu du grand modèle linguistique et d'en tirer des avantages économiques, Open AI constitue une violation de la substitution du droit d'auteur.

Selon le système jurisprudentiel américain, la « contrefaçon de substitution », « l'aide à la contrefaçon » et la « complicité de contrefaçon » constituent ensemble un système complet de contrefaçon indirecte du droit d'auteur. La contrefaçon indirecte est opposée à la contrefaçon directe, ce qui signifie que bien que le contrefacteur ne se livre pas directement au comportement réglementé par les droits exclusifs du droit d'auteur (c'est-à-dire la violation directe du droit d'auteur), il fournit certaines conditions pour la violation directe du droit d'auteur.

** Troisièmement, cela enfreint les dispositions relatives aux informations sur la gestion des droits d'auteur dans DMCA. ** Du point de vue du mécanisme de conception du produit, le contenu généré par ChatGPT ne conservera pas les "informations de gestion des droits d'auteur" (CMI) de l'œuvre, de sorte que le comportement du défendeur consistant à supprimer délibérément les informations de gestion des droits d'auteur de l'œuvre du demandeur enfreint les "informations numériques". Dispositions du Millennium Copyright Act (DMCA). En outre, les défendeurs ont également violé le DMCA en distribuant sans autorisation des œuvres dérivées contrefaites sans informations sur la gestion des droits d'auteur.

Les "informations sur la gestion des droits d'auteur" sont des informations permettant d'identifier le propriétaire d'une œuvre, la propriété des droits et les conditions d'utilisation. Que ce soit aux États-Unis ou dans mon pays, il est illégal de supprimer ou de modifier les informations de gestion des droits d'auteur, ou de mettre à la disposition du public des œuvres contenant des informations de gestion des droits d'auteur supprimées ou modifiées.

**Quatrièmement, la concurrence déloyale. ** L'utilisation non autorisée par Open AI du travail protégé par le droit d'auteur du demandeur pour la formation de modèles est une violation du Code des affaires et des professions de Californie, car elle est inappropriée, immorale, coercitive et préjudiciable aux consommateurs.

Le défendeur a délibérément conçu ChatGPT pour produire des extraits et des résumés du travail du demandeur sans indiquer la source du contenu. ChatGPT développe des produits commerciaux pour obtenir des avantages et une réputation injustes en dissimulant l'auteur et en copiant le contenu et les opinions des œuvres enfreintes.

**Cinquièmement, la violation par négligence est une violation du devoir de diligence. ** Open AI doit assumer le devoir de diligence stipulé dans le "California Civil Code" - toutes les personnes doivent adopter un comportement raisonnable envers les autres. Cette obligation est basée sur la coutume de l'industrie, les pratiques commerciales, les informations en possession du défendeur et la capacité de contrôler sur la base des informations.

Une fois que le défendeur a récupéré les œuvres protégées par le droit d'auteur du demandeur dans le but de former le modèle GPT, il doit assumer une certaine obligation de diligence : lorsqu'il est prévisible que l'utilisation non autorisée des œuvres pour la formation du modèle causera un préjudice au demandeur, il ne doit pas enfreindre et réutiliser ces œuvres.

** Sixièmement, l'enrichissement sans cause. **Le demandeur a consacré beaucoup de temps et d'efforts à la création du livre en question. Parce que son propre travail a été utilisé pour former le modèle GPT sans autorisation, le demandeur a été privé du droit de tirer profit du travail. Il est injuste pour le défendeur d'obtenir des avantages commerciaux en utilisant le travail du demandeur pour former le modèle GPT. À moins qu'elle ne soit interdite ou limitée, la conduite du défendeur causerait un préjudice irréparable au demandeur.

** Écrit à la fin : trois questions à discuter dans ce cas. **

** En tant que première action en justice représentative de la violation du droit d'auteur de ChatGPT, le processus sera encore long avant que le tribunal du district nord de Californie ne rende un jugement formel. Mais avant cela, il reste encore quelques questions dignes d'attention et de considération concernant le contenu spécifique de la plainte du demandeur. **

** Préoccupation 1 : Il n'est pas facile de trouver une contrefaçon de modèle. **

La formation de grands modèles de langage est essentiellement une sorte de comportement interne et non explicite d'utilisation des œuvres, et les titulaires de droits d'auteur ont le vrai problème de découvrir que leurs œuvres ont été enfreintes. D'une manière générale, seule la comparaison du contenu généré par le modèle avec son propre travail est sensiblement similaire, on peut en déduire qu'il y a une utilisation non autorisée du travail pendant la phase d'apprentissage du modèle. Dans ce cas, la raison pour laquelle le demandeur a pu accuser son livre d'avoir été enfreint par le grand modèle de langage sous Open AI était qu'il avait découvert que ChatGPT avait produit un résumé de son propre travail.

Mais il reste à voir si cette affirmation tient la route. ** Si le résumé du travail produit par ChatGPT est uniquement basé sur la collecte de documents d'introduction publique des livres du demandeur sur Internet, plutôt que sur la copie et la formation directes des livres du demandeur, la légitimité de l'allégation de contrefaçon sera ébranlée. ** Le demandeur a également admis qu'il y avait quelques erreurs factuelles dans le résumé de la sortie du livre par ChatGPT, ce qui indique également dans une certaine mesure que le grand modèle n'a peut-être pas complètement étudié les livres concernés.

** Préoccupation 2 : Le type de droits violés doit être démontré. **

À l'heure actuelle, bien que le "stockage des données de travail" puisse formellement relever de la réglementation du "droit de reproduction" dans la loi sur le droit d'auteur, si le "comportement de formation des données de travail" de base enfreint et quel type de droits dans la loi sur le droit d'auteur n'ont pas encore été enfreints. Les conclusions sont unanimes. Dans cette affaire, le demandeur a souligné que le fonctionnement normal et la sortie de contenu du grand modèle de langage sont basés sur la formation du corpus de l'œuvre, de sorte que la formation du grand modèle constitue une violation du droit d'auteur, et le grand modèle lui-même constitue une contrefaçon travail dérivé.

Cette affirmation reste également à explorer. ** À l'exception de quelques exigences spéciales de génération de contenu telles que "exiger la généralisation, le résumé et la traduction d'œuvres protégées par le droit d'auteur spécifiques sous la forme de s" dans ce cas, dans la plupart des cas, le grand modèle accepte des instructions de génération de contenu ouvertes (non limitées à des œuvres, style d'auteur spécifique), il ne produira fondamentalement pas d'œuvres spécifiques ni même de fragments d'œuvres spécifiques, il ne constitue donc pas une violation du droit d'auteur. **

** Préoccupation 3 : Les responsabilités en amont et en aval doivent être clarifiées. **

Dans le domaine du droit d'auteur sur les grands modèles, le développeur de modèles a des droits pertinents sur le grand modèle lui-même, il porte donc la responsabilité du droit d'auteur impliquée dans la formation du modèle ; en ce qui concerne le contenu de sortie du grand modèle, à en juger par la pratique actuelle de l'industrie, le commun la pratique consiste à clarifier les droits par le biais de contrats et la responsabilité appartient à l'utilisateur. Le 10 juillet 2023, les "Mesures provisoires pour la gestion des services d'intelligence artificielle générative" publiées par l'Administration du cyberespace de Chine ont également clairement reconnu que "les fournisseurs doivent signer des accords de service avec les utilisateurs pour clarifier les droits et obligations des deux parties".

** Il mérite l'attention. À en juger par la demande du demandeur, il suit également les deux étapes de la formation du modèle et de la production de contenu, et l'idée de diviser les droits et les responsabilités. **La plainte du demandeur pour violation directe du droit d'auteur se concentre sur l'étape de formation du modèle Open AI : premièrement, des copies de livres ont été faites pendant le processus de formation du modèle sans l'autorisation du demandeur ; deuxièmement, sans l'autorisation du demandeur, le grand modèle de langage lui-même constitue une contrefaçon travail dérivé. ** L'allégation du demandeur de violation du contenu de sortie de ChatGPT consiste uniquement à affirmer qu'Open AI constitue une violation indirecte du droit d'auteur (violation de substitution). Cela signifie également que pour le contenu de sortie du grand modèle, l'utilisateur est responsable de la violation directe du droit d'auteur, car il dispose des droits correspondants. **

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.