Eric Goldman, profesor de la Facultad de Derecho de la Universidad de Santa Clara en Estados Unidos, cree que la ola de litigios acaba de comenzar, y se avecinan la "segunda y tercera ola", que definirán el futuro de la inteligencia artificial.
Las empresas de IA argumentan que es razonable usar obras con derechos de autor para entrenar a la IA; una referencia al concepto de "uso transformador" en la ley de derechos de autor de EE. UU., donde el material se cambia de una manera "transformadora" creará una excepción.
Fuente de la imagen: Generada por la herramienta de IA Unbounded
El Sindicato de Guionistas Estadounidenses ha estado en huelga durante más de 70 días, exigiendo aumentos salariales, aumentando la participación de las plataformas de transmisión de medios y la supervisión de la inteligencia artificial.
Un “levantamiento de datos” está estallando en Estados Unidos, con Hollywood, artistas, escritores, empresas de redes sociales y organizaciones de noticias entre los rebeldes.
Toda la culpa apunta a herramientas de inteligencia artificial generativa como ChatGPT y Stable Diffusion, a las que se acusa de utilizar ilegalmente el trabajo de creadores de contenido para entrenar a grandes modelos lingüísticos sin permiso ni compensación.
En el corazón de este "levantamiento de datos" se encuentra un nuevo reconocimiento de que la información en línea (historias, obras de arte, artículos de noticias, publicaciones web y fotos) puede tener un valor significativo sin explotar. La práctica de raspar contenido público en Internet tiene una larga historia, y la mayoría de las empresas y organizaciones sin fines de lucro que lo hacen lo divulgan públicamente. Pero antes de que se lanzara ChatGPT, los propietarios de datos no sabían mucho al respecto ni lo veían como un problema particularmente grave. Ahora, eso ha cambiado a medida que el público ha aprendido más sobre los conceptos básicos del entrenamiento en IA.
"Esta es una remodelación fundamental del valor de los datos”, dijo Brandon Duderstadt, fundador y director ejecutivo de Nomic, en una entrevista con los medios. Puede acceder a los datos y ejecutar anuncios para obtener valor de ellos. Ahora, la gente piensa que tiene que proteger sus datos.”
Marea tras ola
En los últimos meses, empresas de redes sociales como Reddit y Twitter, organizaciones de noticias como The New York Times y NBC, el autor de ciencia ficción Paul Tremblay y la actriz Sarah Silverman (Sarah Silverman) y otros han tomado medidas para oponerse a la recopilación no autorizada de sus obras y datos. por inteligencia artificial. Esta serie de movimientos fue apodada "Revuelta de datos" por los medios estadounidenses.
La semana pasada, Silverman presentó una demanda contra OpenAI y Meta, acusándolos de usar copias pirateadas de su libro en sus datos de capacitación porque los chatbots de las empresas pueden resumir con precisión el contenido de su libro. Además, más de 5000 autores, incluidos Jodi Picoult, Margaret Atwood y Viet Thanh Nguyen, han firmado una petición para que las empresas tecnológicas soliciten su permiso y les otorguen atribución y compensación cuando utilicen sus libros como datos de capacitación.
Para proteger su obra, escritores y artistas han recurrido a distintas formas de protesta. Algunos optan por bloquear los trabajos y evitar que la inteligencia artificial los obtenga; algunos optan por boicotear los sitios web que publican contenido generado por inteligencia artificial; algunos optan por escribir contenido subversivo para interferir con el aprendizaje de la inteligencia artificial.
El 13 de julio, SAG-AFTRA, uno de los tres principales sindicatos de Hollywood con 160.000 miembros, anunció una huelga.Antes de eso, el Sindicato de Guionistas Estadounidenses había estado en huelga durante más de 70 días. Según el New York Times, la huelga general ha paralizado la industria cinematográfica y televisiva de los EE. UU., valorada en 134.000 millones de dólares, y se garantiza que no reemplazará a los actores con IA y rostros y voces generados por computadora.
Mientras tanto, algunas organizaciones de noticias se resisten a la IA. En junio, en un memorando interno sobre el uso de IA generativa, The New York Times dijo: "Las empresas de IA deberían respetar nuestra propiedad intelectual". Los artículos de noticias como datos de entrenamiento para la inteligencia artificial tienen riesgos potenciales y problemas legales, y pidieron a las empresas de inteligencia artificial que respeten el conocimiento de los editores, los derechos de propiedad y el trabajo creativo.
Las empresas de redes sociales también han tomado una posición. En abril, el sitio de noticias sociales Reddit dijo que quería cobrar a terceros por el acceso a su interfaz de programación de aplicaciones (API). El CEO de Reddit, Steve Hoffman, dijo que su empresa "no necesita dar todo el valor de forma gratuita a algunas de las empresas más grandes del mundo". En julio, el propietario de Twitter, Elon Musk (Elon Musk), también declaró que algunas empresas y organizaciones " ilegalmente" acapara una gran cantidad de datos de Twitter. En respuesta a la "extracción extrema de datos y la manipulación del sistema", Twitter decidió limitar la cantidad de tweets que pueden ver las cuentas individuales.
El fundador y CEO de Reddit, Steve Hoffman, quiere cobrar a terceros por el acceso a su interfaz de programación de aplicaciones (API), lo que provocó una protesta masiva entre los internautas.
Este “levantamiento de datos” también incluye una “ola de demandas”, en la que algunas empresas de inteligencia artificial han sido demandadas varias veces por preocupaciones sobre la privacidad de los datos. En noviembre, un grupo de programadores presentó una demanda colectiva contra Microsoft y OpenAI, alegando que las empresas violaron sus derechos de autor al usar su código para capacitar a asistentes de programación de inteligencia artificial. En junio de este año, el bufete de abogados Clarkson con sede en Los Ángeles presentó una demanda colectiva de 151 páginas contra OpenAI y Microsoft, señalando cómo OpenAI recopiló datos de menores, diciendo que el web scraping violaba la ley de derechos de autor y constituía un "robo". Desde entonces, la firma ha presentado una demanda similar contra Google.
El profesor de la Facultad de Derecho de la Universidad de Santa Clara, Eric Goldman (Eric Goldman), dijo en una entrevista con los medios que los argumentos de esta demanda son demasiado amplios y es poco probable que el tribunal los acepte. Pero argumenta que la ola de demandas apenas comienza, con una “segunda y tercera ola” que definirán el futuro de la inteligencia artificial.
Controversia legal
ChatGPT y Dall-E de OpenAI, Bard de Google, Stable Diffusion de Stability AI y otras IA generativas están entrenadas en base a artículos de noticias masivos, libros, imágenes, videos y publicaciones de blog tomadas de Internet, muchas de las cuales son públicas y están protegidas por derechos de autor.
En marzo de este año, OpenAI publicó un informe de análisis del modelo de lenguaje principal de la institución, que muestra que la parte del texto de los datos de capacitación usaba datos de sitios web de noticias, Wikipedia y una base de datos de libros pirateados (LibGen), que actualmente está cerrada. por el Departamento de Justicia de los Estados Unidos.
El 13 de julio, la Comisión Federal de Comercio (FTC) de EE. UU. envió un documento de 20 páginas a OpenAI, solicitando a OpenAI que proporcione registros sobre gestión de riesgos, seguridad de datos y revisión de información de sus modelos de inteligencia artificial para investigar si violó las normas de derechos del consumidor. derechos.
El 12 de julio, el subcomité del Senado de EE. UU. celebró una audiencia sobre cuestiones de inteligencia artificial, propiedad intelectual y derechos de autor, y los testigos que asistieron prestaron juramento ante el tribunal. La audiencia escuchó de la industria de la música, el fabricante de Photoshop Adobe, la empresa de inteligencia artificial Stability AI y la ilustradora Karla Ortiz.
Pero en apariciones públicas y en respuesta a demandas, las empresas de IA han argumentado que es razonable usar obras protegidas por derechos de autor para capacitar a la IA, una referencia al concepto de "uso transformador" en la ley de derechos de autor de EE. UU., que ocurre si el material se publica en un formato A. forma "transformadora" de cambiar que crea una excepción.
"El modelo de IA básicamente está aprendiendo de toda la información. Es como un estudiante que lee en una biblioteca y luego aprende a escribir y leer", dijo en una entrevista Kent Walker, presidente de asuntos globales de Google. tiempo, tienes que asegurarte de que no estás copiando el trabajo de otra persona o haciendo algo que viole los derechos de autor".
Halimah DeLaine Prado, consejera general de Google, dijo a los medios: "Ha sido claro para todos durante años que usamos datos de fuentes públicas, como publicar en la web abierta y datos públicos. Información recopilada para entrenar los modelos de IA detrás de servicios como Google Translate.” Ella señaló, “La ley de los EE. UU. apoya la creación de usos nuevos y beneficiosos de la información pública, y esperamos refutar estas afirmaciones sin fundamento”.
Andrés Sawicki, profesor de la Universidad de Miami que estudia derecho de propiedad intelectual, dijo en una entrevista que existe un precedente que podría favorecer a las empresas tecnológicas, como un fallo de la Corte de Apelaciones de EE. UU. de 1992 que permitió a las empresas demandar a otras empresas por sus derechos de propiedad Los códigos de software se someten a ingeniería inversa para diseñar productos de la competencia. Pero muchos dicen que es intuitivamente injusto que las grandes corporaciones utilicen el trabajo de los creadores para crear nuevas herramientas para generar dinero. "La pregunta sobre la IA generativa es realmente difícil de responder", dijo.
Jessica D. Litman Sawicki, profesora de derechos de autor en la Universidad de Miami, dijo que la doctrina del uso justo es una poderosa defensa para las empresas de inteligencia artificial debido al tamaño de los modelos de inteligencia artificial. ser humano particular. Pero ella argumenta que si los creadores que demandan a las empresas de IA pueden mostrar suficientes ejemplos de resultados de IA que se parezcan mucho a su trabajo, tendrán buenas razones para creer que se están violando los derechos de autor.
Las empresas de IA comienzan a responder
Las empresas de IA pueden evitar esto instalando filtros en sus productos para garantizar que no generen nada demasiado similar al trabajo existente, dijo Sauwicki. Por ejemplo, el sitio de videos YouTube ya usa tecnología para detectar y eliminar automáticamente los trabajos con derechos de autor subidos a su sitio. En teoría, las empresas de IA también podrían crear algoritmos que encuentren resultados que se parezcan mucho a obras de arte, música o escritura existentes.
Es posible que este "levantamiento de datos" no haga olas a largo plazo. Los gigantes tecnológicos como Google y Microsoft ya tienen grandes cantidades de datos patentados y tienen la capacidad de adquirir más. Pero las empresas emergentes y las organizaciones sin fines de lucro que buscan enfrentarse a los jugadores más grandes pueden no obtener suficientes datos para entrenar sus sistemas, ya que el contenido se vuelve más difícil de obtener.
Apenas a principios de julio, Stuart Russell, profesor de ciencias de la computación en la Universidad de California, Berkeley y autor de "Inteligencia artificial: un enfoque moderno", advirtió que los robots impulsados por IA como ChatGPT pronto podrían "agotarse del universo". "texto" y las técnicas para entrenar bots mediante la recopilación de grandes cantidades de texto "comenzaron a tener problemas".
Algunas empresas también están montando la ola con una actitud cooperativa. En un comunicado, OpenAI dijo: "Respetamos los derechos de los creativos y los autores y esperamos continuar trabajando con ellos para proteger sus intereses". OpenAI, al mismo tiempo que utiliza la tecnología y los productos de OpenAI.
Google también dijo en un comunicado que estaba involucrado en negociaciones sobre cómo los editores administrarán su contenido en el futuro. “Creemos que todos pueden beneficiarse de un ecosistema de contenido vibrante”, dijo la compañía.
Margaret Mitchell (Margaret Mitchell), científica ética en jefe de la empresa de inteligencia artificial HuggingFace, dijo en una entrevista con los medios: "Todo el sistema de recopilación de datos debe cambiarse y, lamentablemente, debe lograrse mediante litigios, que a menudo es el Es la forma de empujar a las empresas de tecnología a cambiar ". Dijo que no le sorprendería que OpenAI retirara uno de sus productos por completo para fin de año debido a demandas o nuevas regulaciones.
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Estalla el "levantamiento de datos" en Estados Unidos: la literatura, el periodismo y las redes sociales de Hollywood se rebelan contra la IA
Autor: pasante Chen Xiaorui; reportero Fang Xiao
Fuente: El Papel
Eric Goldman, profesor de la Facultad de Derecho de la Universidad de Santa Clara en Estados Unidos, cree que la ola de litigios acaba de comenzar, y se avecinan la "segunda y tercera ola", que definirán el futuro de la inteligencia artificial.
Las empresas de IA argumentan que es razonable usar obras con derechos de autor para entrenar a la IA; una referencia al concepto de "uso transformador" en la ley de derechos de autor de EE. UU., donde el material se cambia de una manera "transformadora" creará una excepción.
El Sindicato de Guionistas Estadounidenses ha estado en huelga durante más de 70 días, exigiendo aumentos salariales, aumentando la participación de las plataformas de transmisión de medios y la supervisión de la inteligencia artificial.
Un “levantamiento de datos” está estallando en Estados Unidos, con Hollywood, artistas, escritores, empresas de redes sociales y organizaciones de noticias entre los rebeldes.
Toda la culpa apunta a herramientas de inteligencia artificial generativa como ChatGPT y Stable Diffusion, a las que se acusa de utilizar ilegalmente el trabajo de creadores de contenido para entrenar a grandes modelos lingüísticos sin permiso ni compensación.
En el corazón de este "levantamiento de datos" se encuentra un nuevo reconocimiento de que la información en línea (historias, obras de arte, artículos de noticias, publicaciones web y fotos) puede tener un valor significativo sin explotar. La práctica de raspar contenido público en Internet tiene una larga historia, y la mayoría de las empresas y organizaciones sin fines de lucro que lo hacen lo divulgan públicamente. Pero antes de que se lanzara ChatGPT, los propietarios de datos no sabían mucho al respecto ni lo veían como un problema particularmente grave. Ahora, eso ha cambiado a medida que el público ha aprendido más sobre los conceptos básicos del entrenamiento en IA.
"Esta es una remodelación fundamental del valor de los datos”, dijo Brandon Duderstadt, fundador y director ejecutivo de Nomic, en una entrevista con los medios. Puede acceder a los datos y ejecutar anuncios para obtener valor de ellos. Ahora, la gente piensa que tiene que proteger sus datos.”
Marea tras ola
En los últimos meses, empresas de redes sociales como Reddit y Twitter, organizaciones de noticias como The New York Times y NBC, el autor de ciencia ficción Paul Tremblay y la actriz Sarah Silverman (Sarah Silverman) y otros han tomado medidas para oponerse a la recopilación no autorizada de sus obras y datos. por inteligencia artificial. Esta serie de movimientos fue apodada "Revuelta de datos" por los medios estadounidenses.
La semana pasada, Silverman presentó una demanda contra OpenAI y Meta, acusándolos de usar copias pirateadas de su libro en sus datos de capacitación porque los chatbots de las empresas pueden resumir con precisión el contenido de su libro. Además, más de 5000 autores, incluidos Jodi Picoult, Margaret Atwood y Viet Thanh Nguyen, han firmado una petición para que las empresas tecnológicas soliciten su permiso y les otorguen atribución y compensación cuando utilicen sus libros como datos de capacitación.
Para proteger su obra, escritores y artistas han recurrido a distintas formas de protesta. Algunos optan por bloquear los trabajos y evitar que la inteligencia artificial los obtenga; algunos optan por boicotear los sitios web que publican contenido generado por inteligencia artificial; algunos optan por escribir contenido subversivo para interferir con el aprendizaje de la inteligencia artificial.
El 13 de julio, SAG-AFTRA, uno de los tres principales sindicatos de Hollywood con 160.000 miembros, anunció una huelga.Antes de eso, el Sindicato de Guionistas Estadounidenses había estado en huelga durante más de 70 días. Según el New York Times, la huelga general ha paralizado la industria cinematográfica y televisiva de los EE. UU., valorada en 134.000 millones de dólares, y se garantiza que no reemplazará a los actores con IA y rostros y voces generados por computadora.
Mientras tanto, algunas organizaciones de noticias se resisten a la IA. En junio, en un memorando interno sobre el uso de IA generativa, The New York Times dijo: "Las empresas de IA deberían respetar nuestra propiedad intelectual". Los artículos de noticias como datos de entrenamiento para la inteligencia artificial tienen riesgos potenciales y problemas legales, y pidieron a las empresas de inteligencia artificial que respeten el conocimiento de los editores, los derechos de propiedad y el trabajo creativo.
Las empresas de redes sociales también han tomado una posición. En abril, el sitio de noticias sociales Reddit dijo que quería cobrar a terceros por el acceso a su interfaz de programación de aplicaciones (API). El CEO de Reddit, Steve Hoffman, dijo que su empresa "no necesita dar todo el valor de forma gratuita a algunas de las empresas más grandes del mundo". En julio, el propietario de Twitter, Elon Musk (Elon Musk), también declaró que algunas empresas y organizaciones " ilegalmente" acapara una gran cantidad de datos de Twitter. En respuesta a la "extracción extrema de datos y la manipulación del sistema", Twitter decidió limitar la cantidad de tweets que pueden ver las cuentas individuales.
Este “levantamiento de datos” también incluye una “ola de demandas”, en la que algunas empresas de inteligencia artificial han sido demandadas varias veces por preocupaciones sobre la privacidad de los datos. En noviembre, un grupo de programadores presentó una demanda colectiva contra Microsoft y OpenAI, alegando que las empresas violaron sus derechos de autor al usar su código para capacitar a asistentes de programación de inteligencia artificial. En junio de este año, el bufete de abogados Clarkson con sede en Los Ángeles presentó una demanda colectiva de 151 páginas contra OpenAI y Microsoft, señalando cómo OpenAI recopiló datos de menores, diciendo que el web scraping violaba la ley de derechos de autor y constituía un "robo". Desde entonces, la firma ha presentado una demanda similar contra Google.
El profesor de la Facultad de Derecho de la Universidad de Santa Clara, Eric Goldman (Eric Goldman), dijo en una entrevista con los medios que los argumentos de esta demanda son demasiado amplios y es poco probable que el tribunal los acepte. Pero argumenta que la ola de demandas apenas comienza, con una “segunda y tercera ola” que definirán el futuro de la inteligencia artificial.
Controversia legal
ChatGPT y Dall-E de OpenAI, Bard de Google, Stable Diffusion de Stability AI y otras IA generativas están entrenadas en base a artículos de noticias masivos, libros, imágenes, videos y publicaciones de blog tomadas de Internet, muchas de las cuales son públicas y están protegidas por derechos de autor.
En marzo de este año, OpenAI publicó un informe de análisis del modelo de lenguaje principal de la institución, que muestra que la parte del texto de los datos de capacitación usaba datos de sitios web de noticias, Wikipedia y una base de datos de libros pirateados (LibGen), que actualmente está cerrada. por el Departamento de Justicia de los Estados Unidos.
El 13 de julio, la Comisión Federal de Comercio (FTC) de EE. UU. envió un documento de 20 páginas a OpenAI, solicitando a OpenAI que proporcione registros sobre gestión de riesgos, seguridad de datos y revisión de información de sus modelos de inteligencia artificial para investigar si violó las normas de derechos del consumidor. derechos.
Pero en apariciones públicas y en respuesta a demandas, las empresas de IA han argumentado que es razonable usar obras protegidas por derechos de autor para capacitar a la IA, una referencia al concepto de "uso transformador" en la ley de derechos de autor de EE. UU., que ocurre si el material se publica en un formato A. forma "transformadora" de cambiar que crea una excepción.
"El modelo de IA básicamente está aprendiendo de toda la información. Es como un estudiante que lee en una biblioteca y luego aprende a escribir y leer", dijo en una entrevista Kent Walker, presidente de asuntos globales de Google. tiempo, tienes que asegurarte de que no estás copiando el trabajo de otra persona o haciendo algo que viole los derechos de autor".
Halimah DeLaine Prado, consejera general de Google, dijo a los medios: "Ha sido claro para todos durante años que usamos datos de fuentes públicas, como publicar en la web abierta y datos públicos. Información recopilada para entrenar los modelos de IA detrás de servicios como Google Translate.” Ella señaló, “La ley de los EE. UU. apoya la creación de usos nuevos y beneficiosos de la información pública, y esperamos refutar estas afirmaciones sin fundamento”.
Andrés Sawicki, profesor de la Universidad de Miami que estudia derecho de propiedad intelectual, dijo en una entrevista que existe un precedente que podría favorecer a las empresas tecnológicas, como un fallo de la Corte de Apelaciones de EE. UU. de 1992 que permitió a las empresas demandar a otras empresas por sus derechos de propiedad Los códigos de software se someten a ingeniería inversa para diseñar productos de la competencia. Pero muchos dicen que es intuitivamente injusto que las grandes corporaciones utilicen el trabajo de los creadores para crear nuevas herramientas para generar dinero. "La pregunta sobre la IA generativa es realmente difícil de responder", dijo.
Jessica D. Litman Sawicki, profesora de derechos de autor en la Universidad de Miami, dijo que la doctrina del uso justo es una poderosa defensa para las empresas de inteligencia artificial debido al tamaño de los modelos de inteligencia artificial. ser humano particular. Pero ella argumenta que si los creadores que demandan a las empresas de IA pueden mostrar suficientes ejemplos de resultados de IA que se parezcan mucho a su trabajo, tendrán buenas razones para creer que se están violando los derechos de autor.
Las empresas de IA comienzan a responder
Las empresas de IA pueden evitar esto instalando filtros en sus productos para garantizar que no generen nada demasiado similar al trabajo existente, dijo Sauwicki. Por ejemplo, el sitio de videos YouTube ya usa tecnología para detectar y eliminar automáticamente los trabajos con derechos de autor subidos a su sitio. En teoría, las empresas de IA también podrían crear algoritmos que encuentren resultados que se parezcan mucho a obras de arte, música o escritura existentes.
Es posible que este "levantamiento de datos" no haga olas a largo plazo. Los gigantes tecnológicos como Google y Microsoft ya tienen grandes cantidades de datos patentados y tienen la capacidad de adquirir más. Pero las empresas emergentes y las organizaciones sin fines de lucro que buscan enfrentarse a los jugadores más grandes pueden no obtener suficientes datos para entrenar sus sistemas, ya que el contenido se vuelve más difícil de obtener.
Apenas a principios de julio, Stuart Russell, profesor de ciencias de la computación en la Universidad de California, Berkeley y autor de "Inteligencia artificial: un enfoque moderno", advirtió que los robots impulsados por IA como ChatGPT pronto podrían "agotarse del universo". "texto" y las técnicas para entrenar bots mediante la recopilación de grandes cantidades de texto "comenzaron a tener problemas".
Algunas empresas también están montando la ola con una actitud cooperativa. En un comunicado, OpenAI dijo: "Respetamos los derechos de los creativos y los autores y esperamos continuar trabajando con ellos para proteger sus intereses". OpenAI, al mismo tiempo que utiliza la tecnología y los productos de OpenAI.
Google también dijo en un comunicado que estaba involucrado en negociaciones sobre cómo los editores administrarán su contenido en el futuro. “Creemos que todos pueden beneficiarse de un ecosistema de contenido vibrante”, dijo la compañía.
Margaret Mitchell (Margaret Mitchell), científica ética en jefe de la empresa de inteligencia artificial HuggingFace, dijo en una entrevista con los medios: "Todo el sistema de recopilación de datos debe cambiarse y, lamentablemente, debe lograrse mediante litigios, que a menudo es el Es la forma de empujar a las empresas de tecnología a cambiar ". Dijo que no le sorprendería que OpenAI retirara uno de sus productos por completo para fin de año debido a demandas o nuevas regulaciones.