Em 28 de junho de 2023, o primeiro processo representativo de violação de direitos autorais do ChatGPT finalmente apareceu aos olhos do público. Dois escritores entraram com uma ação coletiva de direitos autorais contra a Open AI no Tribunal Distrital do Norte da Califórnia, acusando-a de usar seus livros protegidos por direitos autorais para treinar o ChatGPT sem autorização para ganhos comerciais.
Os demandantes, Paul Tremblay e Mona Awad, moram em Massachusetts e, respectivamente, possuem os direitos autorais das obras envolvidas no caso "A Cabana no Fim do Mundo" e "13 maneiras de olhar para uma garota gorda e um coelho"; o réu Open AI criou e operou o generativo O produto de inteligência artificial ChatGPT atualmente é impulsionado principalmente por dois grandes modelos de linguagem subjacentes, GPT-3.5 e GPT-4.
A denúncia apontou que, embora o autor não autorizasse a Open AI a usar seus próprios livros protegidos por direitos autorais para treinamento de modelos, o ChatGPT era capaz de produzir resumos de livros de acordo com o comando s, o que só poderia acontecer se o réu incluísse os livros envolvidos no corpus para treinamento.
01 foi "capturado" por produzir resumos de livros
O autor afirmou que uma grande quantidade de conteúdo contido no conjunto de dados de treinamento Open AI é um trabalho protegido por direitos autorais, incluindo livros para os quais o autor possui direitos autorais. No entanto, a Open AI não obteve o consentimento do autor, nem indicou a fonte do conteúdo, nem pagou as taxas necessárias. Os livros publicados pelo demandante têm informações claras de gerenciamento de direitos autorais, incluindo o número da publicação, o número dos direitos autorais, o nome do proprietário dos direitos autorais e os termos de uso.
**O autor pode inferir dos fatos e informações existentes que a única razão explicável pela qual o ChatGPT pode gerar com precisão um resumo de um livro específico é que a Open AI obteve e copiou o livro envolvido e o usou para seu grande modelo de linguagem (GPT3. 5 ou GPT4). **
O teste do autor descobriu que, quando o ChatGPT foi solicitado a resumir os dois livros envolvidos no caso por meio de s, o ChatGPT poderia gerar um resumo mais preciso (embora também houvesse uma pequena quantidade de conteúdo errado). Isso mostra que o ChatGPT preserva o conteúdo de um trabalho específico no conjunto de dados de treinamento e é capaz de gerar o texto correspondente. Ao mesmo tempo, através do design do princípio de geração de conteúdo do modelo de linguagem grande, o conteúdo de saída do ChatGPT não conterá as informações originais de gerenciamento de direitos autorais.
**02 "ChatGPT, como você corre!" **
**O interessante sobre este caso é que no processo de prova da infração da Open AI, a introdução do autor aos princípios básicos do ChatGPT foi baseada em um diálogo com o ChatGPT e pedindo-lhe para “apresentar-se”. O conteúdo específico é resumido da seguinte forma. **
A Open AI lançou uma série de grandes modelos de linguagem, incluindo GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) e o mais recente GPT-4 (2023·3) . De um modo geral, o software de inteligência artificial visa usar métodos estatísticos para simular a lógica e o raciocínio humano por meio de algoritmos. Um grande modelo de linguagem é um tipo de software de inteligência artificial especializado usado para analisar e gerar a linguagem natural.
**Por um lado, o Open AI fornece ChatGPT aos usuários por meio de uma página da Web a um preço de $ 20 por mês. **Os usuários podem escolher duas versões do ChatGPT, o modelo GPT-3.5 ou o modelo GPT-4 atualizado. ** Por outro lado, o ChatGPT também é fornecido aos desenvolvedores de software na forma de API. **Interface API permite aos desenvolvedores escrever programas para troca de dados com ChatGPT, neste caso é cobrado de acordo com o uso.
** Quer o serviço seja fornecido na forma de uma página ou de uma API, o ChatGPT responderá ativamente à solicitação do usuário. **Se o usuário fizer uma pergunta ao ChatGPT, ele dará a resposta; se o usuário der uma instrução ao ChatGPT, o ChatGPT a executará; se o usuário pedir ao ChatGPT para resumir um resumo de um livro, o ChatGPT ainda o fará.
03 Livros são o corpus principal para treinamento de modelos grandes
O ponto de vista do queixoso é que, ao contrário do software tradicional, que é escrito por engenheiros, o grande modelo de linguagem é desenvolvido por meio de "treinamento" - coletando corpora de conteúdo massivo de diferentes fontes e "alimentando" o modelo com eles. Conhecido como conjunto de dados de treinamento (conjunto de dados de treinamento).
O modelo de linguagem grande ajustará constantemente sua saída para ficar o mais próximo possível da sequência de combinações de texto nas obras treinadas. ** Vale a pena notar que, embora muitos conteúdos sejam usados para treinar grandes modelos de linguagem, os livros sempre foram os principais materiais do corpus no conjunto de dados de treinamento porque fornecem os melhores exemplos de escrita longa de alta qualidade. **
No documento corporativo "Improving Language Understanding Through Generative Pre-Training", publicado em junho de 2018, a Open AI divulgou que o treinamento do GPT-1 depende do conjunto de dados "BookCorpus". "BookCorpus" contém 7.000 livros em diferentes áreas, como aventura, fantasia e romance. **O Open AI apontou que a razão pela qual os livros são particularmente importantes como corpus de treinamento é porque eles contêm textos longos e contínuos, o que permite que modelos generativos aprendam como processar informações de texto longo. **
** Muitas empresas de pesquisa e desenvolvimento de inteligência artificial, incluindo Open AI, Google, Amazon, etc., usam "BookCorpus" para treinamento de modelos. ** Em 2015, uma equipe de pesquisa de inteligência artificial criou este conjunto de dados, que contém livros do site Smashwords.com, mas "BookCorpus" não obteve autorização do proprietário dos direitos autorais ao incluir esses livros.
04 Desmistificando o livro corpus por trás do GPT
Ao pesquisar publicamente a iniciativa da Open AI de divulgar informações (documentos da empresa), o autor espera demonstrar que o treinamento da série de modelos GPT é baseado no uso não autorizado de conteúdo maciço de livros. **No documento corporativo "Modelos de linguagem são pequenos alunos de amostra" publicado em julho de 2020, a Open AI divulgou que 15% do conteúdo no conjunto de dados de treinamento GPT-3 veio de dois bancos de dados eletrônicos denominados "Books1" e "Books2". Corpo do livro. **
Embora o Open AI não tenha explicado as especificidades do conteúdo de "Books1" e "Books2", isso pode ser inferido a partir de pistas relevantes: primeiro, os dois corpora são da Internet; segundo, a escala dos dois corpora é significativamente maior do que "LivroCorpus". De acordo com a divulgação da Open AI, a escala de "Books1" é 9 vezes maior que a do BookCorpus (cerca de 63.000 livros) e Books2 é 42 vezes (cerca de 294.000 livros). **Na realidade, apenas um número muito pequeno de bancos de dados pode fornecer um corpus de livro em grande escala. Por um lado, "Books1" provavelmente vem de "Project Gutenberg" ou "Project Gutenberg Corpus Standardization". **O Projeto Gutenberg é uma biblioteca online de e-books "além do prazo de proteção de direitos autorais". Em setembro de 2020, o Projeto Gutenberg anunciou que havia incluído mais de 60.000 livros. Por não ser protegido por direitos autorais, o Projeto Gutenberg tem sido amplamente utilizado para treinamento de modelos de inteligência artificial. Em 2018, uma equipe de pesquisa em inteligência artificial criou o "Standardized Project Gutenberg Corpus" (Projeto Padronizado Gutenberg Corpus) de mais de 50.000 livros baseados no "Projeto Gutenberg". ** Por outro lado, "Books2" provavelmente é derivado da "Biblioteca de Sombras" na Internet. **O conjunto de dados "Books2" contém aproximadamente 29.400 livros, e apenas a muito criticada "biblioteca sombra" pode fornecer um corpus de livros em grande escala. Exemplos incluem Library Genesis, Z-Library, Sci-Hub e Bibliotik, entre outros. O termo "Biblioteca Sombria" foi cunhado pelo Social Science Research Council dos Estados Unidos no artigo "Media Piracy in Emerging Economies" publicado em 2011. Em março de 2023, a Open AI divulgou o documento corporativo GPT-4, mas afirmou que "em consideração à situação da concorrência no setor e à segurança do aplicativo do produto, a estrutura e o conteúdo do conjunto de dados de treinamento não serão mais divulgados."
05 Open AI enfrenta seis acusações de infração
**O autor apresentou um total de seis alegações contra a Open AI, as três primeiras envolvendo violação de direitos autorais, a quarta envolvendo concorrência desleal e a quinta e a sexta envolvendo dois tipos básicos de responsabilidade civil - dever de cuidado e enriquecimento sem causa. **
**Primeiro, violação direta de direitos autorais. **O autor não autorizou a Open AI a reproduzir ou fazer trabalhos derivados de seus livros, nem autorizou a Open AI a exibir ou distribuir publicamente as reproduções ou trabalhos derivados mencionados acima.
Além disso, o autor enfatizou que, uma vez que o modelo de linguagem grande da Open AI precisa extrair e salvar informações expressivas dos livros do autor para operar, o próprio modelo de linguagem grande constitui um trabalho derivado infrator sem a autorização do autor.
**Em segundo lugar, violação de substituto de direitos autorais. **O autor enfatizou que, na ausência de autorização, cada saída do grande modelo constitui um trabalho derivado infrator. Por ter o direito e a capacidade de controlar a saída de conteúdo do modelo de linguagem grande e obter benefícios econômicos a partir dele, o Open AI constitui uma violação de substituição de direitos autorais.
De acordo com o sistema de jurisprudência americana, "infração substituta", "auxílio à infração" e "infração cúmplice" juntos constituem um sistema completo de infração indireta de direitos autorais. A violação indireta é oposta à violação direta, o que significa que, embora o infrator não se envolva diretamente no comportamento regulado pelos direitos exclusivos de direitos autorais (ou seja, violação direta de direitos autorais), ele fornece certas condições para a violação direta de direitos autorais.
**Terceiro, viola as disposições de informações de gerenciamento de direitos autorais no DMCA. ** Do ponto de vista do mecanismo de design do produto, a saída de conteúdo pelo ChatGPT não reterá as "informações de gerenciamento de direitos autorais" (CMI) do trabalho, portanto, o comportamento do réu de remover deliberadamente as informações de gerenciamento de direitos autorais do trabalho do autor viola o "Digital Management Information" Disposições da Lei de Direitos Autorais do Milênio" (DMCA). Além disso, os réus também violaram o DMCA ao distribuir obras derivadas infratoras sem informações de gerenciamento de direitos autorais sem autorização.
"Informações de gerenciamento de direitos autorais" são informações que podem identificar o proprietário de uma obra, a propriedade dos direitos e as condições de uso. Seja nos Estados Unidos ou no meu país, é ilegal excluir ou alterar informações de gerenciamento de direitos autorais ou disponibilizar ao público obras com informações de gerenciamento de direitos autorais excluídas ou alteradas.
**Quarto, concorrência desleal. **O uso não autorizado pela Open AI do trabalho protegido por direitos autorais do autor para treinamento de modelo é uma violação do Código de Negócios e Profissões da Califórnia porque é impróprio, imoral, coercitivo e prejudicial ao benefício dos consumidores.
O réu projetou deliberadamente o ChatGPT para produzir trechos e resumos do trabalho do autor sem indicar a fonte do conteúdo. O ChatGPT desenvolve produtos comerciais para obter benefícios e reputação injustos, ocultando o autor e copiando o conteúdo e as opiniões dos trabalhos infringidos.
**Quinto, a violação negligente é uma violação do dever de cuidado. **O Open AI precisa cumprir o dever de cuidado estipulado no "Código Civil da Califórnia" - todas as pessoas devem adotar um comportamento razoável em relação aos outros. Essa obrigação é baseada no costume do setor, na prática comercial, nas informações em posse do réu e na capacidade de controle com base nas informações.
Uma vez que o réu colete as obras protegidas por direitos autorais do autor para fins de treinamento do modelo GPT, ele precisa arcar com certo dever de cuidado: quando for previsível que o uso não autorizado das obras para treinamento do modelo causará danos ao autor, não deve infringir e usar essas obras novamente.
** Sexto, enriquecimento sem causa. ** O autor dedicou tempo e esforços substanciais à criação do livro em questão. Como seu próprio trabalho foi usado para treinar o modelo GPT sem autorização, o autor foi privado do direito de lucrar com o trabalho. É injusto para o réu obter benefícios comerciais usando o trabalho do autor para treinar o modelo GPT. A menos que seja proibida ou limitada, a conduta do réu causaria danos irreparáveis ao autor.
** Escrito no final: três questões a serem discutidas neste caso. **
**Como o primeiro processo representativo da violação de direitos autorais do ChatGPT, ainda será um longo processo antes que o Tribunal Distrital do Norte da Califórnia faça um julgamento formal. Mas antes disso, ainda há algumas questões dignas de atenção e consideração quanto ao conteúdo específico da denúncia do autor. **
**Preocupação 1: Não é fácil encontrar violação de modelo. **
O treinamento de grandes modelos de linguagem é essencialmente um tipo de comportamento interno e não explícito de uso de obras, e os proprietários de direitos autorais têm o problema real de descobrir que suas obras foram violadas. De um modo geral, apenas comparando o conteúdo gerado pelo modelo com seu próprio trabalho é substancialmente semelhante, pode-se deduzir que há uso não autorizado do trabalho durante a etapa de treinamento do modelo. Nesse caso, a razão pela qual o autor foi capaz de acusar que seu livro foi infringido pelo grande modelo de linguagem sob Open AI foi que ele descobriu que o ChatGPT havia produzido um resumo de seu próprio trabalho.
Mas ainda não se sabe se essa afirmação é válida. **Se o resumo do trabalho produzido pelo ChatGPT for baseado apenas na coleta de materiais de apresentação pública dos livros do autor na Internet, em vez de copiar e treinar diretamente os livros do autor, a legitimidade da alegação de infração será abalada. **O autor também admitiu que existem alguns erros factuais no resumo do livro produzido pelo ChatGPT, o que também indica, até certo ponto, que o grande modelo pode não ter estudado completamente os livros envolvidos.
**Preocupação 2: Que tipo de direitos são violados precisa ser demonstrado. **
Atualmente, embora o "armazenamento de dados de trabalho" possa formalmente estar sob a regulamentação do "direito de reprodução" na Lei de Direitos Autorais, se o núcleo "comportamento de treinamento de dados de trabalho" está infringindo e que tipo de direitos na lei de direitos autorais ainda não foram infringidos.As conclusões são unânimes. Nesse caso, o autor enfatizou que a operação normal e a produção de conteúdo do modelo de linguagem grande são baseadas no treinamento do corpus da obra, portanto, o treinamento do modelo grande constitui violação de direitos autorais e o próprio modelo grande constitui uma infração trabalho derivado.
Esta afirmação também continua a ser explorada. **Exceto por alguns requisitos especiais de geração de conteúdo, como "exigir generalização, resumo e tradução de trabalhos de direitos autorais específicos na forma de s" neste caso, na maioria dos casos, o modelo grande aceita instruções de geração de conteúdo aberto (não limitado a obras, estilo específico do escritor), basicamente não produzirá obras específicas ou mesmo fragmentos de obras específicas, portanto não constitui violação de direitos autorais. **
**Preocupação 3: As responsabilidades upstream e downstream precisam ser esclarecidas. **
No campo dos direitos autorais de modelos grandes, os desenvolvedores de modelos têm direitos relevantes sobre o próprio modelo grande, portanto, eles têm a responsabilidade de direitos autorais envolvida no treinamento do modelo; quanto ao conteúdo da saída do modelo grande, da prática atual da indústria, a prática comum é esclarecer os direitos por meio de contratos e a responsabilidade pertence ao usuário. Em 10 de julho de 2023, as "Medidas provisórias para o gerenciamento de serviços de inteligência artificial generativa" emitidas pela Administração do ciberespaço da China também reconheceram claramente que "os provedores devem assinar contratos de serviço com usuários para esclarecer os direitos e obrigações de ambas as partes".
**É digno de atenção. A julgar pela alegação do autor, também segue as duas etapas de treinamento do modelo e produção de conteúdo, e a ideia de dividir direitos e responsabilidades. **A reivindicação do autor por violação direta de direitos autorais se concentra no estágio de treinamento do modelo de IA aberta: primeiro, cópias de livros foram feitas durante o processo de treinamento do modelo sem a autorização do autor; segundo, sem a autorização do autor, o próprio modelo de linguagem grande constitui uma infração trabalho derivado. **A alegação do autor de violação do conteúdo de saída do ChatGPT é apenas para alegar que o Open AI constitui uma violação indireta de direitos autorais (infração substituta). Isso também significa que, para o conteúdo de saída do modelo grande, o usuário é responsável pela violação direta dos direitos autorais, porque possui os direitos correspondentes. **
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O primeiro caso de direitos autorais ChatGPT: OpenAI enfrenta seis acusações e foi "capturado" por produzir resumos de livros
Fonte original: Tencent Technology
Em 28 de junho de 2023, o primeiro processo representativo de violação de direitos autorais do ChatGPT finalmente apareceu aos olhos do público. Dois escritores entraram com uma ação coletiva de direitos autorais contra a Open AI no Tribunal Distrital do Norte da Califórnia, acusando-a de usar seus livros protegidos por direitos autorais para treinar o ChatGPT sem autorização para ganhos comerciais.
Os demandantes, Paul Tremblay e Mona Awad, moram em Massachusetts e, respectivamente, possuem os direitos autorais das obras envolvidas no caso "A Cabana no Fim do Mundo" e "13 maneiras de olhar para uma garota gorda e um coelho"; o réu Open AI criou e operou o generativo O produto de inteligência artificial ChatGPT atualmente é impulsionado principalmente por dois grandes modelos de linguagem subjacentes, GPT-3.5 e GPT-4.
A denúncia apontou que, embora o autor não autorizasse a Open AI a usar seus próprios livros protegidos por direitos autorais para treinamento de modelos, o ChatGPT era capaz de produzir resumos de livros de acordo com o comando s, o que só poderia acontecer se o réu incluísse os livros envolvidos no corpus para treinamento.
01 foi "capturado" por produzir resumos de livros
O autor afirmou que uma grande quantidade de conteúdo contido no conjunto de dados de treinamento Open AI é um trabalho protegido por direitos autorais, incluindo livros para os quais o autor possui direitos autorais. No entanto, a Open AI não obteve o consentimento do autor, nem indicou a fonte do conteúdo, nem pagou as taxas necessárias. Os livros publicados pelo demandante têm informações claras de gerenciamento de direitos autorais, incluindo o número da publicação, o número dos direitos autorais, o nome do proprietário dos direitos autorais e os termos de uso.
**O autor pode inferir dos fatos e informações existentes que a única razão explicável pela qual o ChatGPT pode gerar com precisão um resumo de um livro específico é que a Open AI obteve e copiou o livro envolvido e o usou para seu grande modelo de linguagem (GPT3. 5 ou GPT4). **
O teste do autor descobriu que, quando o ChatGPT foi solicitado a resumir os dois livros envolvidos no caso por meio de s, o ChatGPT poderia gerar um resumo mais preciso (embora também houvesse uma pequena quantidade de conteúdo errado). Isso mostra que o ChatGPT preserva o conteúdo de um trabalho específico no conjunto de dados de treinamento e é capaz de gerar o texto correspondente. Ao mesmo tempo, através do design do princípio de geração de conteúdo do modelo de linguagem grande, o conteúdo de saída do ChatGPT não conterá as informações originais de gerenciamento de direitos autorais.
**02 "ChatGPT, como você corre!" **
**O interessante sobre este caso é que no processo de prova da infração da Open AI, a introdução do autor aos princípios básicos do ChatGPT foi baseada em um diálogo com o ChatGPT e pedindo-lhe para “apresentar-se”. O conteúdo específico é resumido da seguinte forma. **
A Open AI lançou uma série de grandes modelos de linguagem, incluindo GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) e o mais recente GPT-4 (2023·3) . De um modo geral, o software de inteligência artificial visa usar métodos estatísticos para simular a lógica e o raciocínio humano por meio de algoritmos. Um grande modelo de linguagem é um tipo de software de inteligência artificial especializado usado para analisar e gerar a linguagem natural.
**Por um lado, o Open AI fornece ChatGPT aos usuários por meio de uma página da Web a um preço de $ 20 por mês. **Os usuários podem escolher duas versões do ChatGPT, o modelo GPT-3.5 ou o modelo GPT-4 atualizado. ** Por outro lado, o ChatGPT também é fornecido aos desenvolvedores de software na forma de API. **Interface API permite aos desenvolvedores escrever programas para troca de dados com ChatGPT, neste caso é cobrado de acordo com o uso.
** Quer o serviço seja fornecido na forma de uma página ou de uma API, o ChatGPT responderá ativamente à solicitação do usuário. **Se o usuário fizer uma pergunta ao ChatGPT, ele dará a resposta; se o usuário der uma instrução ao ChatGPT, o ChatGPT a executará; se o usuário pedir ao ChatGPT para resumir um resumo de um livro, o ChatGPT ainda o fará.
03 Livros são o corpus principal para treinamento de modelos grandes
O ponto de vista do queixoso é que, ao contrário do software tradicional, que é escrito por engenheiros, o grande modelo de linguagem é desenvolvido por meio de "treinamento" - coletando corpora de conteúdo massivo de diferentes fontes e "alimentando" o modelo com eles. Conhecido como conjunto de dados de treinamento (conjunto de dados de treinamento).
O modelo de linguagem grande ajustará constantemente sua saída para ficar o mais próximo possível da sequência de combinações de texto nas obras treinadas. ** Vale a pena notar que, embora muitos conteúdos sejam usados para treinar grandes modelos de linguagem, os livros sempre foram os principais materiais do corpus no conjunto de dados de treinamento porque fornecem os melhores exemplos de escrita longa de alta qualidade. **
No documento corporativo "Improving Language Understanding Through Generative Pre-Training", publicado em junho de 2018, a Open AI divulgou que o treinamento do GPT-1 depende do conjunto de dados "BookCorpus". "BookCorpus" contém 7.000 livros em diferentes áreas, como aventura, fantasia e romance. **O Open AI apontou que a razão pela qual os livros são particularmente importantes como corpus de treinamento é porque eles contêm textos longos e contínuos, o que permite que modelos generativos aprendam como processar informações de texto longo. **
** Muitas empresas de pesquisa e desenvolvimento de inteligência artificial, incluindo Open AI, Google, Amazon, etc., usam "BookCorpus" para treinamento de modelos. ** Em 2015, uma equipe de pesquisa de inteligência artificial criou este conjunto de dados, que contém livros do site Smashwords.com, mas "BookCorpus" não obteve autorização do proprietário dos direitos autorais ao incluir esses livros.
04 Desmistificando o livro corpus por trás do GPT
Ao pesquisar publicamente a iniciativa da Open AI de divulgar informações (documentos da empresa), o autor espera demonstrar que o treinamento da série de modelos GPT é baseado no uso não autorizado de conteúdo maciço de livros. **No documento corporativo "Modelos de linguagem são pequenos alunos de amostra" publicado em julho de 2020, a Open AI divulgou que 15% do conteúdo no conjunto de dados de treinamento GPT-3 veio de dois bancos de dados eletrônicos denominados "Books1" e "Books2". Corpo do livro. **
Embora o Open AI não tenha explicado as especificidades do conteúdo de "Books1" e "Books2", isso pode ser inferido a partir de pistas relevantes: primeiro, os dois corpora são da Internet; segundo, a escala dos dois corpora é significativamente maior do que "LivroCorpus". De acordo com a divulgação da Open AI, a escala de "Books1" é 9 vezes maior que a do BookCorpus (cerca de 63.000 livros) e Books2 é 42 vezes (cerca de 294.000 livros). **Na realidade, apenas um número muito pequeno de bancos de dados pode fornecer um corpus de livro em grande escala. Por um lado, "Books1" provavelmente vem de "Project Gutenberg" ou "Project Gutenberg Corpus Standardization". **O Projeto Gutenberg é uma biblioteca online de e-books "além do prazo de proteção de direitos autorais". Em setembro de 2020, o Projeto Gutenberg anunciou que havia incluído mais de 60.000 livros. Por não ser protegido por direitos autorais, o Projeto Gutenberg tem sido amplamente utilizado para treinamento de modelos de inteligência artificial. Em 2018, uma equipe de pesquisa em inteligência artificial criou o "Standardized Project Gutenberg Corpus" (Projeto Padronizado Gutenberg Corpus) de mais de 50.000 livros baseados no "Projeto Gutenberg". ** Por outro lado, "Books2" provavelmente é derivado da "Biblioteca de Sombras" na Internet. **O conjunto de dados "Books2" contém aproximadamente 29.400 livros, e apenas a muito criticada "biblioteca sombra" pode fornecer um corpus de livros em grande escala. Exemplos incluem Library Genesis, Z-Library, Sci-Hub e Bibliotik, entre outros. O termo "Biblioteca Sombria" foi cunhado pelo Social Science Research Council dos Estados Unidos no artigo "Media Piracy in Emerging Economies" publicado em 2011. Em março de 2023, a Open AI divulgou o documento corporativo GPT-4, mas afirmou que "em consideração à situação da concorrência no setor e à segurança do aplicativo do produto, a estrutura e o conteúdo do conjunto de dados de treinamento não serão mais divulgados."
05 Open AI enfrenta seis acusações de infração
**O autor apresentou um total de seis alegações contra a Open AI, as três primeiras envolvendo violação de direitos autorais, a quarta envolvendo concorrência desleal e a quinta e a sexta envolvendo dois tipos básicos de responsabilidade civil - dever de cuidado e enriquecimento sem causa. **
**Primeiro, violação direta de direitos autorais. **O autor não autorizou a Open AI a reproduzir ou fazer trabalhos derivados de seus livros, nem autorizou a Open AI a exibir ou distribuir publicamente as reproduções ou trabalhos derivados mencionados acima.
Além disso, o autor enfatizou que, uma vez que o modelo de linguagem grande da Open AI precisa extrair e salvar informações expressivas dos livros do autor para operar, o próprio modelo de linguagem grande constitui um trabalho derivado infrator sem a autorização do autor.
**Em segundo lugar, violação de substituto de direitos autorais. **O autor enfatizou que, na ausência de autorização, cada saída do grande modelo constitui um trabalho derivado infrator. Por ter o direito e a capacidade de controlar a saída de conteúdo do modelo de linguagem grande e obter benefícios econômicos a partir dele, o Open AI constitui uma violação de substituição de direitos autorais.
De acordo com o sistema de jurisprudência americana, "infração substituta", "auxílio à infração" e "infração cúmplice" juntos constituem um sistema completo de infração indireta de direitos autorais. A violação indireta é oposta à violação direta, o que significa que, embora o infrator não se envolva diretamente no comportamento regulado pelos direitos exclusivos de direitos autorais (ou seja, violação direta de direitos autorais), ele fornece certas condições para a violação direta de direitos autorais.
**Terceiro, viola as disposições de informações de gerenciamento de direitos autorais no DMCA. ** Do ponto de vista do mecanismo de design do produto, a saída de conteúdo pelo ChatGPT não reterá as "informações de gerenciamento de direitos autorais" (CMI) do trabalho, portanto, o comportamento do réu de remover deliberadamente as informações de gerenciamento de direitos autorais do trabalho do autor viola o "Digital Management Information" Disposições da Lei de Direitos Autorais do Milênio" (DMCA). Além disso, os réus também violaram o DMCA ao distribuir obras derivadas infratoras sem informações de gerenciamento de direitos autorais sem autorização.
"Informações de gerenciamento de direitos autorais" são informações que podem identificar o proprietário de uma obra, a propriedade dos direitos e as condições de uso. Seja nos Estados Unidos ou no meu país, é ilegal excluir ou alterar informações de gerenciamento de direitos autorais ou disponibilizar ao público obras com informações de gerenciamento de direitos autorais excluídas ou alteradas.
**Quarto, concorrência desleal. **O uso não autorizado pela Open AI do trabalho protegido por direitos autorais do autor para treinamento de modelo é uma violação do Código de Negócios e Profissões da Califórnia porque é impróprio, imoral, coercitivo e prejudicial ao benefício dos consumidores.
O réu projetou deliberadamente o ChatGPT para produzir trechos e resumos do trabalho do autor sem indicar a fonte do conteúdo. O ChatGPT desenvolve produtos comerciais para obter benefícios e reputação injustos, ocultando o autor e copiando o conteúdo e as opiniões dos trabalhos infringidos.
**Quinto, a violação negligente é uma violação do dever de cuidado. **O Open AI precisa cumprir o dever de cuidado estipulado no "Código Civil da Califórnia" - todas as pessoas devem adotar um comportamento razoável em relação aos outros. Essa obrigação é baseada no costume do setor, na prática comercial, nas informações em posse do réu e na capacidade de controle com base nas informações.
Uma vez que o réu colete as obras protegidas por direitos autorais do autor para fins de treinamento do modelo GPT, ele precisa arcar com certo dever de cuidado: quando for previsível que o uso não autorizado das obras para treinamento do modelo causará danos ao autor, não deve infringir e usar essas obras novamente.
** Sexto, enriquecimento sem causa. ** O autor dedicou tempo e esforços substanciais à criação do livro em questão. Como seu próprio trabalho foi usado para treinar o modelo GPT sem autorização, o autor foi privado do direito de lucrar com o trabalho. É injusto para o réu obter benefícios comerciais usando o trabalho do autor para treinar o modelo GPT. A menos que seja proibida ou limitada, a conduta do réu causaria danos irreparáveis ao autor.
** Escrito no final: três questões a serem discutidas neste caso. **
**Como o primeiro processo representativo da violação de direitos autorais do ChatGPT, ainda será um longo processo antes que o Tribunal Distrital do Norte da Califórnia faça um julgamento formal. Mas antes disso, ainda há algumas questões dignas de atenção e consideração quanto ao conteúdo específico da denúncia do autor. **
**Preocupação 1: Não é fácil encontrar violação de modelo. **
O treinamento de grandes modelos de linguagem é essencialmente um tipo de comportamento interno e não explícito de uso de obras, e os proprietários de direitos autorais têm o problema real de descobrir que suas obras foram violadas. De um modo geral, apenas comparando o conteúdo gerado pelo modelo com seu próprio trabalho é substancialmente semelhante, pode-se deduzir que há uso não autorizado do trabalho durante a etapa de treinamento do modelo. Nesse caso, a razão pela qual o autor foi capaz de acusar que seu livro foi infringido pelo grande modelo de linguagem sob Open AI foi que ele descobriu que o ChatGPT havia produzido um resumo de seu próprio trabalho.
Mas ainda não se sabe se essa afirmação é válida. **Se o resumo do trabalho produzido pelo ChatGPT for baseado apenas na coleta de materiais de apresentação pública dos livros do autor na Internet, em vez de copiar e treinar diretamente os livros do autor, a legitimidade da alegação de infração será abalada. **O autor também admitiu que existem alguns erros factuais no resumo do livro produzido pelo ChatGPT, o que também indica, até certo ponto, que o grande modelo pode não ter estudado completamente os livros envolvidos.
**Preocupação 2: Que tipo de direitos são violados precisa ser demonstrado. **
Atualmente, embora o "armazenamento de dados de trabalho" possa formalmente estar sob a regulamentação do "direito de reprodução" na Lei de Direitos Autorais, se o núcleo "comportamento de treinamento de dados de trabalho" está infringindo e que tipo de direitos na lei de direitos autorais ainda não foram infringidos.As conclusões são unânimes. Nesse caso, o autor enfatizou que a operação normal e a produção de conteúdo do modelo de linguagem grande são baseadas no treinamento do corpus da obra, portanto, o treinamento do modelo grande constitui violação de direitos autorais e o próprio modelo grande constitui uma infração trabalho derivado.
Esta afirmação também continua a ser explorada. **Exceto por alguns requisitos especiais de geração de conteúdo, como "exigir generalização, resumo e tradução de trabalhos de direitos autorais específicos na forma de s" neste caso, na maioria dos casos, o modelo grande aceita instruções de geração de conteúdo aberto (não limitado a obras, estilo específico do escritor), basicamente não produzirá obras específicas ou mesmo fragmentos de obras específicas, portanto não constitui violação de direitos autorais. **
**Preocupação 3: As responsabilidades upstream e downstream precisam ser esclarecidas. **
No campo dos direitos autorais de modelos grandes, os desenvolvedores de modelos têm direitos relevantes sobre o próprio modelo grande, portanto, eles têm a responsabilidade de direitos autorais envolvida no treinamento do modelo; quanto ao conteúdo da saída do modelo grande, da prática atual da indústria, a prática comum é esclarecer os direitos por meio de contratos e a responsabilidade pertence ao usuário. Em 10 de julho de 2023, as "Medidas provisórias para o gerenciamento de serviços de inteligência artificial generativa" emitidas pela Administração do ciberespaço da China também reconheceram claramente que "os provedores devem assinar contratos de serviço com usuários para esclarecer os direitos e obrigações de ambas as partes".
**É digno de atenção. A julgar pela alegação do autor, também segue as duas etapas de treinamento do modelo e produção de conteúdo, e a ideia de dividir direitos e responsabilidades. **A reivindicação do autor por violação direta de direitos autorais se concentra no estágio de treinamento do modelo de IA aberta: primeiro, cópias de livros foram feitas durante o processo de treinamento do modelo sem a autorização do autor; segundo, sem a autorização do autor, o próprio modelo de linguagem grande constitui uma infração trabalho derivado. **A alegação do autor de violação do conteúdo de saída do ChatGPT é apenas para alegar que o Open AI constitui uma violação indireta de direitos autorais (infração substituta). Isso também significa que, para o conteúdo de saída do modelo grande, o usuário é responsável pela violação direta dos direitos autorais, porque possui os direitos correspondentes. **