El primer caso de derechos de autor de ChatGPT: OpenAI enfrenta seis cargos y fue "capturado" por publicar resúmenes de libros

2023-08-07 02:33:22

Fuente original: Tecnología Tencent

Fuente de la imagen: Generada por Unbounded AI‌

El 28 de junio de 2023, la primera demanda representativa de infracción de derechos de autor de ChatGPT finalmente apareció a la vista del público. Dos escritores presentaron una demanda colectiva por derechos de autor contra Open AI en el Tribunal del Distrito Norte de California, acusando a este último de usar sus libros protegidos por derechos de autor para entrenar a ChatGPT sin autorización con fines comerciales.

Los demandantes, Paul Tremblay y Mona Awad, residen en Massachusetts y poseen respectivamente los derechos de autor de las obras involucradas en el caso "La cabaña del fin del mundo" y "13 maneras de mirar a una gorda y a un conejito"; el demandado Open AI creó y operó el generativo El producto de inteligencia artificial ChatGPT actualmente está impulsado principalmente por dos grandes modelos de lenguaje subyacentes, GPT-3.5 y GPT-4.

La demanda señaló que, aunque el demandante no autorizó a Open AI a usar sus propios libros con derechos de autor para la capacitación de modelos, ChatGPT pudo generar resúmenes de libros de acuerdo con el comando s, lo que solo podría suceder si el demandado incluye los libros involucrados en el corpus. para entrenamiento.

01 fue "capturado" por generar resúmenes de libros

El demandante afirmó que una gran cantidad de contenido incluido en el conjunto de datos de capacitación de Open AI es un trabajo protegido por derechos de autor, incluidos los libros de los que el demandante tiene derechos de autor. Sin embargo, Open AI no obtuvo el consentimiento del demandante, ni indicó la fuente del contenido, ni pagó las tarifas necesarias. Los libros publicados por el demandante tienen información clara sobre la gestión de los derechos de autor, incluido el número de publicación, el número de derechos de autor, el nombre del propietario de los derechos de autor y las condiciones de uso.

**El demandante puede inferir de los hechos y la información existentes que la única razón explicable por la que ChatGPT puede generar con precisión un resumen de un libro específico es que Open AI obtuvo y copió el libro en cuestión, y lo usó para su modelo de lenguaje grande (GPT3. 5 o GPT4) entrenamiento. **

La prueba del demandante encontró que cuando se le pidió a ChatGPT que resumiera los dos libros involucrados en el caso a través de s, ChatGPT pudo generar un resumen más preciso (aunque también hubo una pequeña cantidad de contenido incorrecto). Esto muestra que ChatGPT conserva el contenido de un trabajo específico en el conjunto de datos de entrenamiento y puede generar el texto correspondiente. Al mismo tiempo, a través del diseño del principio de generación de contenido del modelo de lenguaje grande, el contenido de salida de ChatGPT no contendrá la información de administración de derechos de autor original.

02 "ChatGPT, ¿cómo corres?"

**Lo interesante de este caso es que en el proceso de probar la infracción de Open AI, la introducción del demandante a los principios básicos de ChatGPT se basó en tener un diálogo con ChatGPT y pedirle que se "presentara". El contenido específico se resume a continuación. **

Open AI ha lanzado una serie de modelos de lenguaje grande, incluidos GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) y el último GPT-4 (2023·3) . En términos generales, el software de inteligencia artificial tiene como objetivo utilizar métodos estadísticos para simular la lógica y el razonamiento humanos a través de algoritmos. Un modelo de lenguaje grande es un tipo de software de inteligencia artificial especializado que se utiliza para analizar y generar lenguaje natural.

**Por un lado, Open AI brinda ChatGPT a los usuarios a través de una página web a un precio de $20 por mes. **Los usuarios pueden elegir dos versiones de ChatGPT, el modelo GPT-3.5 o el modelo GPT-4 actualizado. ** Por otro lado, ChatGPT también se proporciona a los desarrolladores de software en forma de API. **La interfaz API permite a los desarrolladores escribir programas para el intercambio de datos con ChatGPT, en este caso se factura según el uso.

** Ya sea que el servicio se proporcione en forma de página o API, ChatGPT responderá activamente a la solicitud del usuario. **Si el usuario le hace una pregunta a ChatGPT, le dará la respuesta; si el usuario le da una instrucción a ChatGPT, ChatGPT la ejecutará; si el usuario le pide a ChatGPT que resuma un resumen de un libro, ChatGPT igual lo hará.

03 Los libros son el corpus central para el entrenamiento de modelos grandes

El punto de vista del demandante es que, a diferencia del software tradicional, que está escrito por ingenieros, el modelo de lenguaje grande se desarrolla a través del "entrenamiento", recopilando corpus de contenido masivo de diferentes fuentes y "alimentándolos" al modelo. Conocido como el conjunto de datos de entrenamiento (conjunto de datos de entrenamiento).

El modelo de lenguaje grande ajustará constantemente su salida para estar lo más cerca posible de la secuencia de combinaciones de texto en las obras entrenadas. ** Vale la pena señalar que, aunque muchos contenidos se utilizan para entrenar modelos de lenguaje grandes, los libros siempre han sido los materiales centrales en el conjunto de datos de entrenamiento porque brindan los mejores ejemplos de escritura de formato largo de alta calidad. **

En el documento corporativo "Mejorando la comprensión del lenguaje a través del entrenamiento previo generativo" publicado en junio de 2018, Open AI reveló que el entrenamiento de GPT-1 se basa en el conjunto de datos "BookCorpus". "BookCorpus" contiene 7.000 libros en diferentes campos como la aventura, la fantasía y el romance. **Open AI señaló que la razón por la cual los libros son particularmente importantes como corpus de capacitación es porque contienen textos largos y continuos, lo que permite que los modelos generativos aprendan a procesar información de texto largo. **

** Muchas empresas de investigación y desarrollo de inteligencia artificial, incluidas Open AI, Google, Amazon, etc., utilizan "BookCorpus" para la formación de modelos. ** En 2015, un equipo de investigación de inteligencia artificial creó este conjunto de datos, que contiene libros del sitio web Smashwords.com, pero "BookCorpus" no obtuvo la autorización del propietario de los derechos de autor al incluir estos libros.

04 Desmitificando el corpus de libros detrás de GPT

Al buscar públicamente la iniciativa de Open AI para divulgar información (documentos empresariales), el demandante espera demostrar que el entrenamiento de la serie de modelos GPT se basa en el uso no autorizado de contenido masivo de libros. **En el documento corporativo "Language Models Are Small Sample Learners" publicado en julio de 2020, Open AI reveló que el 15 % del contenido del conjunto de datos de capacitación de GPT-3 provino de dos bases de datos electrónicas denominadas "Books1" y "Books2". corpus de libros. **

Aunque Open AI no explicó los detalles de los contenidos de "Books1" y "Books2", se puede inferir de pistas relevantes: primero, los dos corpus son de Internet; segundo, la escala de los dos corpus es significativamente mayor que "Corpus de libros". Según la divulgación de Open AI, la escala de "Books1" es 9 veces mayor que la de BookCorpus (alrededor de 63 000 libros), y Books2 es 42 veces mayor (alrededor de 294 000 libros). **En realidad, solo un número muy pequeño de bases de datos puede proporcionar un corpus de libros a gran escala. Por un lado, "Books1" probablemente provenga de "Project Gutenberg" o "Project Gutenberg Corpus Standardization". **El Proyecto Gutenberg es una biblioteca en línea de libros electrónicos "más allá del plazo de protección de los derechos de autor". En septiembre de 2020, el Proyecto Gutenberg anunció que había incluido más de 60 000 libros. Debido a que no está protegido por derechos de autor, el Proyecto Gutenberg se ha utilizado ampliamente para el entrenamiento de modelos de inteligencia artificial. En 2018, un equipo de investigación de inteligencia artificial creó el "Standardized Project Gutenberg Corpus" (Corpus del Proyecto Gutenberg Estandarizado) de más de 50.000 libros basados en el "Proyecto Gutenberg". **Por otro lado, "Books2" probablemente se deriva de la "Biblioteca en la sombra" en Internet. **El conjunto de datos "Books2" contiene aproximadamente 29.400 libros, y solo la muy criticada "biblioteca en la sombra" puede proporcionar un corpus de libros a gran escala. Los ejemplos incluyen Library Genesis, Z-Library, Sci-Hub y Bibliotik, entre otros. El término "Biblioteca en la sombra" fue acuñado por el Social Science Research Council de los Estados Unidos en el artículo "Media Piracy in Emerging Economies" publicado en 2011. En marzo de 2023, Open AI publicó el documento empresarial GPT-4, pero declaró que "teniendo en cuenta la situación de competencia de la industria y la seguridad de la aplicación del producto, la estructura y el contenido del conjunto de datos de capacitación ya no se divulgarán".

05 Open AI enfrenta seis acusaciones de infracción

**El demandante presentó un total de seis alegaciones contra Open AI, las tres primeras por infracción de derechos de autor, la cuarta por competencia desleal y la quinta y la sexta por dos tipos básicos de responsabilidad civil: deber de cuidado y enriquecimiento injusto. **

**Primero, infracción directa de los derechos de autor. **El demandante no autorizó a Open AI a reproducir o hacer obras derivadas de sus libros, ni tampoco autorizó a Open AI a exhibir o distribuir públicamente las reproducciones u obras derivadas antes mencionadas.

Además, el demandante enfatizó que dado que el modelo de lenguaje grande Open AI necesita extraer y guardar información expresiva de los libros del demandante para operar, el modelo de lenguaje grande en sí mismo constituye un trabajo derivado infractor sin la autorización del demandante.

**Segundo, infracción de sustitución de derechos de autor. **El demandante enfatizó que en ausencia de autorización, cada salida del modelo grande constituye una obra derivada infractora. Debido a que tiene el derecho y la capacidad de controlar la producción de contenido del modelo de lenguaje grande y obtener beneficios económicos de él, Open AI constituye una infracción de sustitución de derechos de autor.

Según el sistema de jurisprudencia estadounidense, "sustituir la infracción", "ayudar a la infracción" y "incitar a la infracción" juntos constituyen un sistema completo de infracción indirecta de los derechos de autor. La infracción indirecta es opuesta a la infracción directa, lo que significa que aunque el infractor no se involucra directamente en el comportamiento regulado por los derechos exclusivos de los derechos de autor (es decir, la infracción directa de los derechos de autor), proporciona ciertas condiciones para la infracción directa de los derechos de autor.

**Tercero, viola las disposiciones de la información de administración de derechos de autor en DMCA. ** Desde la perspectiva del mecanismo de diseño del producto, el contenido generado por ChatGPT no conservará la "información de gestión de derechos de autor" (CMI) de la obra, por lo que el comportamiento del demandado de eliminar deliberadamente la información de gestión de derechos de autor de la obra del demandante viola la "Información de gestión de derechos de autor" de la obra del demandante. Disposiciones de la Ley de Derechos de Autor del Milenio" (DMCA). Además, los demandados también violaron la DMCA al distribuir obras derivadas infractoras sin información de administración de derechos de autor sin autorización.

La "información de gestión de derechos de autor" es información que puede identificar al propietario de una obra, la titularidad de los derechos y las condiciones de uso. Ya sea en los Estados Unidos o en mi país, es ilegal eliminar o cambiar la información de gestión de derechos de autor, o poner a disposición del público obras con información de gestión de derechos de autor eliminada o modificada.

**Cuarto, competencia desleal. **El uso no autorizado de Open AI del trabajo protegido por derechos de autor del demandante para la capacitación de modelos es una violación del Código de Negocios y Profesiones de California porque es inapropiado, inmoral, coercitivo y perjudicial para el beneficio de los consumidores.

El demandado diseñó deliberadamente ChatGPT para generar fragmentos y resúmenes del trabajo del demandante sin indicar la fuente del contenido. ChatGPT desarrolla productos comerciales para obtener beneficios injustos y reputación ocultando al autor y copiando el contenido y las opiniones de las obras infringidas.

** Quinto, la infracción negligente es una violación del deber de cuidado. **Open AI debe cumplir con el deber de cuidado estipulado en el "Código Civil de California": todas las personas deben adoptar un comportamiento razonable hacia los demás. Esta obligación se basa en la costumbre de la industria, la práctica comercial, la información en posesión del demandado y la capacidad de control basada en la información.

Una vez que el demandado recopila las obras protegidas por derechos de autor del demandante con el fin de entrenar el modelo GPT, debe tener cierto deber de cuidado: cuando sea previsible que el uso no autorizado de las obras para el entrenamiento del modelo cause daños al demandante, no debe infringir y utilizar estas obras de nuevo.

** Sexto, enriquecimiento sin causa. **El demandante dedicó mucho tiempo y esfuerzo a la creación del libro en cuestión. Debido a que se utilizó su propio trabajo para entrenar el modelo GPT sin autorización, el demandante fue privado del derecho a lucrar con el trabajo. Es injusto para el demandado obtener beneficios comerciales utilizando el trabajo del demandante para entrenar el modelo GPT. A menos que esté prohibido o limitado, la conducta del demandado causaría un daño irreparable al demandante.

** Escrito al final: tres temas a tratar en este caso. **

**Como la primera demanda representativa de la infracción de derechos de autor de ChatGPT, aún será un proceso largo antes de que el Tribunal del Distrito Norte de California emita un juicio formal. Pero antes de eso, aún quedan algunas cuestiones dignas de atención y consideración en cuanto al contenido específico de la demanda de la actora. **

**Preocupación 1: No es fácil encontrar una infracción de modelo. **

El entrenamiento de modelos de lenguaje extenso es esencialmente un tipo de comportamiento interno y no explícito de usar obras, y los propietarios de derechos de autor tienen el problema real de descubrir que sus obras han sido violadas. En términos generales, solo comparando el contenido generado por el modelo con su propio trabajo es sustancialmente similar, se puede deducir que existe un uso no autorizado del trabajo durante la etapa de entrenamiento del modelo. En este caso, la razón por la cual el demandante pudo acusar que su libro fue infringido por el modelo de lenguaje extenso bajo Open AI fue que descubrió que ChatGPT había generado un resumen de su propio trabajo.

Pero queda por ver si esta afirmación es válida. **Si el resumen de los trabajos producidos por ChatGPT solo se basa en la recopilación de materiales de presentación pública de los libros del demandante en Internet, en lugar de copiar y entrenar directamente los libros del demandante, la legitimidad de la acusación de infracción se verá afectada. **El demandante también admitió que hay algunos errores fácticos en el resumen de la salida del libro de ChatGPT, lo que también indica hasta cierto punto que es posible que el modelo grande no haya estudiado completamente los libros involucrados.

**Preocupación 2: Es necesario demostrar qué tipo de derechos se violan. **

En la actualidad, aunque el "almacenamiento de datos de trabajo" puede caer formalmente bajo la regulación del "derecho de reproducción" en la Ley de derechos de autor, si se está infringiendo el "comportamiento de formación de datos de trabajo" principal y qué tipo de derechos en la ley de derechos de autor aún no han sido infringidos Hay conclusiones unánimes. En este caso, el demandante enfatizó que el funcionamiento normal y la producción de contenido del modelo de lenguaje grande se basan en la capacitación del corpus de la obra, por lo que la capacitación del modelo grande constituye una infracción de derechos de autor, y el modelo grande en sí mismo constituye una infracción. obra derivada.

Esta afirmación también queda por explorar. **Excepto por algunos requisitos especiales de generación de contenido, como "requerir generalización, resumen y traducción de obras protegidas por derechos de autor específicas en forma de s", en este caso, en la mayoría de los casos, el modelo grande acepta instrucciones de generación de contenido abierto (sin limitarse a obras, estilo de escritor específico), básicamente no generará obras específicas o incluso fragmentos de obras específicas, por lo que no constituye una infracción de derechos de autor. **

**Preocupación 3: Es necesario aclarar las responsabilidades aguas arriba y aguas abajo. **

En el campo de los derechos de autor de modelos grandes, el desarrollador del modelo tiene derechos relevantes sobre el modelo grande en sí mismo, por lo que tiene la responsabilidad de los derechos de autor involucrados en el entrenamiento del modelo; en cuanto al contenido de salida del modelo grande, a juzgar por la práctica actual de la industria, el común La práctica es aclarar los derechos a través de contratos y la responsabilidad pertenece al usuario. El 10 de julio de 2023, las "Medidas provisionales para la gestión de los servicios de inteligencia artificial generativa" emitidas por la Administración del ciberespacio de China también reconocieron claramente que "los proveedores deben firmar acuerdos de servicio con los usuarios para aclarar los derechos y obligaciones de ambas partes".

**Es digno de atención. A juzgar por el reclamo del actor, también sigue las dos etapas de formación del modelo y salida de contenido, y la idea de dividir derechos y responsabilidades. **El reclamo del demandante por infracción directa de derechos de autor se centra en la etapa de capacitación del modelo de IA abierta: primero, se hicieron copias de libros durante el proceso de capacitación del modelo sin la autorización del demandante; segundo, sin la autorización del demandante, el modelo de lenguaje grande en sí mismo constituye una infracción obra derivada. **La alegación del demandante de infracción del contenido de salida de ChatGPT es solo para afirmar que Open AI constituye una infracción indirecta de los derechos de autor (infracción sustituta). Esto también significa que para el contenido de salida del modelo grande, el usuario es responsable de la infracción directa de los derechos de autor, ya que tiene los derechos correspondientes. **

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.