"Revolta dos dados" irrompe nos Estados Unidos: literatura, jornalismo e mídia social de Hollywood se rebelam contra a IA

Autor: Estagiário Chen Xiaorui; Repórter Fang Xiao

Fonte: O Papel See More

Eric Goldman, professor da Faculdade de Direito da Universidade de Santa Clara, nos Estados Unidos, acredita que a onda de litígios está apenas começando e estão chegando as "segunda e terceira ondas" que definirão o futuro da inteligência artificial.

As empresas de IA argumentam que é razoável usar obras protegidas por direitos autorais para treinar IA - uma referência ao conceito de "uso transformador" na lei de direitos autorais dos EUA, onde o material é alterado de maneira "transformadora" criará uma exceção.

Fonte da imagem: Gerada pela ferramenta Unbounded AI

O American Screenwriters Guild está em greve há mais de 70 dias, exigindo aumentos salariais, aumento da participação nas plataformas de streaming de mídia e supervisão da inteligência artificial.

Uma “rebelião de dados” está surgindo nos Estados Unidos, com Hollywood, artistas, escritores, empresas de mídia social e organizações de notícias entre os rebeldes.

Toda a culpa aponta para ferramentas de inteligência artificial generativas, como ChatGPT e Stable Diffusion, que são acusadas de usar ilegalmente o trabalho de criadores de conteúdo para treinar grandes modelos de linguagem sem permissão ou compensação.

No centro dessa "rebelião de dados" está um novo reconhecimento de que as informações on-line - histórias, arte, artigos de notícias, postagens na web e fotos - podem ter um valor inexplorado significativo. A prática de coletar conteúdo público na internet tem uma longa história, e a maioria das empresas e organizações sem fins lucrativos que o fazem divulgam isso publicamente. Mas antes do lançamento do ChatGPT, os proprietários de dados não sabiam muito sobre isso, nem o viam como um problema particularmente sério. Agora, isso mudou à medida que o público aprendeu mais sobre os fundamentos do treinamento de IA.

"Esta é uma reformulação fundamental do valor dos dados." Brandon Duderstadt, fundador e CEO da Nomic, disse em entrevista à mídia. Você pode acessar dados e veicular anúncios para obter valor deles. Agora, as pessoas pensam que precisam proteger seus dados.”

Maré após onda

Nos últimos meses, empresas de mídia social como Reddit e Twitter, organizações de notícias como The New York Times e NBC, o autor de ficção científica Paul Tremblay e a atriz Sarah Silverman (Sarah Silverman) e outros tomaram medidas para se opor à coleta não autorizada de suas obras e dados. pela inteligência artificial. Essa série de movimentos foi apelidada de "Data Revolt" pela mídia americana.

Na semana passada, Silverman entrou com uma ação contra a OpenAI e a Meta, acusando-as de usar cópias piratas de seu livro em seus dados de treinamento porque os chatbots das empresas podem resumir com precisão o conteúdo de seu livro. Além disso, mais de 5.000 autores, incluindo Jodi Picoult, Margaret Atwood e Viet Thanh Nguyen, assinaram uma petição pedindo às empresas de tecnologia que peçam sua permissão e lhes concedam atribuição e compensação ao usar seus livros como dados de treinamento.

Para proteger seu trabalho, escritores e artistas recorreram a diferentes formas de protesto. Alguns optam por bloquear trabalhos e impedir que a inteligência artificial os obtenha; alguns optam por boicotar sites que publicam conteúdo gerado por inteligência artificial; alguns optam por escrever conteúdo subversivo para interferir no aprendizado de inteligência artificial.

Em 13 de julho, o SAG-AFTRA, um dos três principais sindicatos de Hollywood com 160.000 membros, anunciou uma greve. Antes disso, o American Screenwriters Guild estava em greve há mais de 70 dias. De acordo com o New York Times, a greve geral paralisou a indústria de cinema e televisão dos Estados Unidos, que movimenta US$ 134 bilhões, garantindo a não substituição de atores por IA e rostos e vozes gerados por computador.

Enquanto isso, algumas organizações de notícias estão resistindo à IA. Em junho, em um memorando interno sobre o uso de IA generativa, o The New York Times disse: "As empresas de IA devem respeitar nossa propriedade intelectual". artigos de notícias como dados de treinamento para inteligência artificial têm riscos potenciais e questões legais, e eles pediram às empresas de inteligência artificial que respeitassem o conhecimento dos editores Direitos de propriedade e trabalho criativo.

As empresas de mídia social também se posicionaram. Em abril, o site de notícias sociais Reddit disse que queria cobrar de terceiros pelo acesso à sua interface de programação de aplicativos (API). O CEO do Reddit, Steve Hoffman, disse que sua empresa "não precisa dar todo o valor de graça para algumas das maiores empresas do mundo". ilegalmente" pega uma grande quantidade de dados do Twitter. Em resposta à "raspagem extrema de dados e manipulação do sistema", o Twitter decidiu limitar o número de tweets que contas individuais podem visualizar.

O fundador e CEO do Reddit, Steve Hoffman, quer cobrar de terceiros pelo acesso à sua interface de programação de aplicativos (API), provocando um grande protesto entre os internautas.

Essa “rebelião de dados” também inclui uma “onda de ações judiciais”, com algumas empresas de IA sendo processadas várias vezes por questões de privacidade de dados. Em novembro, um grupo de programadores entrou com uma ação coletiva contra a Microsoft e a OpenAI, alegando que as empresas violaram seus direitos autorais ao usar seu código para treinar assistentes de programação de inteligência artificial. Em junho deste ano, o escritório de advocacia Clarkson, com sede em Los Angeles, entrou com uma ação coletiva de 151 páginas contra a OpenAI e a Microsoft, apontando como a OpenAI coletava dados de menores, dizendo que a raspagem da web violava a lei de direitos autorais e constituía "roubo". Desde então, a empresa entrou com uma ação semelhante contra o Google.

O professor da Escola de Direito da Universidade de Santa Clara, Eric Goldman (Eric Goldman), disse em entrevista à mídia que os argumentos deste processo são muito amplos e dificilmente serão aceitos pelo tribunal. Mas ele argumenta que a onda de ações judiciais está apenas começando, com a chegada de uma “segunda e terceira onda” que definirá o futuro da inteligência artificial.

Controvérsia Legal

ChatGPT e Dall-E da OpenAI, Bard do Google, Stability AI's Stable Diffusion e outras IAs generativas são treinadas com base em grandes artigos de notícias, livros, fotos, vídeos e postagens de blogs retirados da Internet, muitos dos quais públicos e protegidos por direitos autorais.

Em março deste ano, a OpenAI divulgou um relatório de análise do modelo de linguagem principal da instituição, mostrando que a parte textual dos dados do treinamento utilizava dados de sites de notícias, Wikipédia e um banco de dados de livros piratas (LibGen), atualmente fechado. Departamento de Justiça dos Estados Unidos.

Em 13 de julho, a Federal Trade Commission (FTC) dos EUA enviou um documento de 20 páginas à OpenAI, solicitando que a OpenAI fornecesse registros sobre gerenciamento de risco, segurança de dados e revisão de informações de seus modelos de inteligência artificial para investigar se violou os direitos do consumidor. direitos.

Em 12 de julho, o subcomitê do Senado dos EUA realizou uma audiência sobre inteligência artificial, propriedade intelectual e questões de direitos autorais, e as testemunhas presentes prestaram juramento no tribunal. A audiência ouviu a indústria da música, a fabricante de Photoshop Adobe, a empresa de inteligência artificial Stability AI e a ilustradora Karla Ortiz.

Mas em aparições públicas e em resposta a ações judiciais, as empresas de IA argumentaram que é razoável usar obras protegidas por direitos autorais para treinar a IA - uma referência ao conceito de "uso transformador" na lei de direitos autorais dos EUA, que ocorre se o material for publicado em um A forma "transformadora" de mudar que cria uma exceção.

"O modelo de IA é basicamente aprender com todas as informações. É como um aluno lendo em uma biblioteca e depois aprendendo a escrever e ler", disse Kent Walker, presidente de assuntos globais do Google, em entrevista. "Ao mesmo tempo, tempo, você tem que ter certeza de que não está copiando o trabalho de outra pessoa ou fazendo algo que viole os direitos autorais."

Halimah DeLaine Prado, conselheira geral do Google, disse à mídia: "Está claro para todos há anos que usamos dados de fontes públicas - como postagem na web aberta e dados públicos. Informações coletadas para treinar os modelos de IA por trás dos serviços como o Google Tradutor." Ela observou: "A lei dos EUA apóia a criação de usos novos e benéficos de informações públicas, e estamos ansiosos para refutar essas alegações infundadas."

Andres Sawicki, professor da Universidade de Miami que estuda direito de propriedade intelectual, disse em entrevista que há alguns precedentes que podem favorecer empresas de tecnologia, como uma decisão do Tribunal de Apelações dos EUA em 1992 que permitiu que empresas processassem outras empresas por seus direitos intelectuais. direitos de propriedade.Os códigos de software são submetidos a engenharia reversa para projetar produtos concorrentes. Mas muitos dizem que é intuitivamente injusto para grandes corporações usar o trabalho de criadores para fazer novas ferramentas para ganhar dinheiro. “A questão sobre IA generativa é realmente difícil de responder”, disse ele.

Jessica D. Litman Sawicki, professora de direito autoral da Universidade de Miami, disse que a doutrina do uso justo é uma defesa poderosa para empresas de IA devido ao tamanho dos modelos de IA. determinado ser humano. Mas ela argumenta que, se os criadores que processam empresas de IA puderem mostrar exemplos suficientes de produção de IA que se assemelhem ao seu trabalho, eles terão boas razões para acreditar que os direitos autorais estão sendo violados.

Empresas de IA começam a responder

As empresas de IA podem evitar isso instalando filtros em seus produtos para garantir que não gerem nada muito semelhante ao trabalho existente, disse Sauwicki. Por exemplo, o site de vídeos YouTube já usa tecnologia para detectar e remover automaticamente trabalhos com direitos autorais carregados em seu site. Em teoria, as empresas de IA também poderiam construir algoritmos que encontrassem saídas que se assemelhassem a obras de arte, música ou escrita existentes.

Essa "rebelião de dados" pode não causar ondas a longo prazo. Gigantes da tecnologia como Google e Microsoft já possuem grandes quantidades de dados proprietários e podem adquirir mais. Mas start-ups e organizações sem fins lucrativos que desejam enfrentar os players maiores podem não obter dados suficientes para treinar seus sistemas, pois o conteúdo se torna mais difícil de obter.

Apenas no início de julho, Stuart Russell, professor de ciência da computação na Universidade da Califórnia, em Berkeley, e autor de "Inteligência Artificial: Uma Abordagem Moderna", alertou que robôs controlados por IA, como o ChatGPT, poderiam em breve "sair do universo". "texto" e técnicas para treinar bots coletando grandes quantidades de texto "começaram a ter dificuldades".

Algumas empresas também estão aproveitando a onda com uma atitude cooperativa. Em um comunicado, a OpenAI disse: “Respeitamos os direitos dos criativos e autores e esperamos continuar a trabalhar com eles para proteger seus interesses”. OpenAI, ao mesmo tempo em que utiliza a tecnologia e os produtos da OpenAI.

O Google também disse em um comunicado que está envolvido em negociações sobre como os editores administrarão seu conteúdo no futuro. "Acreditamos que todos podem se beneficiar de um ecossistema de conteúdo vibrante", disse a empresa.

Margaret Mitchell (Margaret Mitchell), cientista-chefe de ética da empresa de inteligência artificial HuggingFace, disse em entrevista à mídia: "Todo o sistema de coleta de dados precisa ser alterado e, infelizmente, precisa ser alcançado por meio de litígio, que geralmente é o É a maneira de levar as empresas de tecnologia a mudar.”

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)