O conjunto de dados de código aberto que o LLaMA está usando foi retirado das prateleiras: ele contém quase 200.000 livros e é comparado com o conjunto de dados OpenAI

Fonte original: Qubit

Fonte da imagem: Gerada por Unbounded AI‌

O conjunto de dados de código aberto foi removido das prateleiras devido à violação de direitos autorais.

Como LLaMA, GPT-J, etc., foram treinados com ele.

Hoje, o site que o hospedou por 3 anos excluiu todo o conteúdo relacionado durante a noite.

Este é o Books3, um conjunto de dados que consiste em quase 200.000 livros, com um tamanho de quase 37 GB.

Uma organização antipirataria dinamarquesa afirmou que 150 livros de seus membros foram encontrados no conjunto de dados, o que constitui violação, por isso pediu à plataforma para removê-lo.

Agora, o link da página da Books3 na plataforma é "404".

O desenvolvedor original do conjunto de dados disse impotente que a remoção do Books3 é uma tragédia no círculo de código aberto.

**O que é Books3? **

O Books3 foi lançado em 2020, carregado pelo desenvolvedor de IA Shawn Presser e incluído no conjunto de dados de código aberto da Eleuther AI Pile.

Ele contém um total de 197.000 livros, incluindo todos os livros do site pirata Bibliotik, destinado a comparar o conjunto de dados do OpenAI, mas principal código aberto.

É daí que vem o nome Books3

Após o lançamento do GPT-3, foi oficialmente divulgado que 15% do conteúdo em seu conjunto de dados de treinamento veio de dois corpora de e-books denominados "Books1" e "Books2", mas o conteúdo específico não foi divulgado.

O código aberto Books3 oferece a mais projetos a oportunidade de competir com o OpenAI.

Por exemplo, o LLaMA, que explodiu este ano, e o GPT-J da Eleuther AI, todos usam o Books3.

Você deve saber que os dados do livro sempre foram o material principal do corpus no pré-treinamento de modelo grande e podem fornecer uma referência para o modelo produzir texto longo de alta qualidade.

Os conjuntos de dados de livros usados por muitos gigantes da IA não são de código aberto, ou mesmo muito misteriosos. Por exemplo, Books1/2, a compreensão de sua fonte e escala é principalmente especulação de todas as esferas da vida.

Portanto, conjuntos de dados de código aberto são muito importantes para o círculo de IA.

Para facilitar o acesso, o Books3 está hospedado no The Eye. Esta é uma plataforma que pode arquivar informações, extrair dados públicos.

E desta vez foi retirado das prateleiras, e também sobre esta plataforma.

O grupo antipirataria dinamarquês Rights Alliance fez um pedido ao The Eye para removê-lo, e foi atendido.

Mas a boa notícia é que Books3 não desapareceu completamente, ainda existem outras maneiras de obtê-lo.

Também existem backups no Wayback Machine ou podem ser baixados de um cliente de torrent.

O irmão autor deu vários métodos no Twitter.

"Sem Books3, você não pode fazer seu próprio ChatGPT"

Na verdade, o autor do conjunto de dados tem muito a dizer sobre esse incidente de exclusão.

Ele disse que a única maneira de criar um modelo como o ChatGPT é criar um conjunto de dados como o Books3.

Toda empresa lucrativa está criando conjuntos de dados secretamente. Se não houver Books3, isso significa que apenas gigantes da tecnologia como OpenAI podem acessar esses dados de livros, então você não poderá criar seu próprio ChatGPT.

Na opinião do autor, o ChatGPT é como um site pessoal dos anos 90, e é muito importante que qualquer pessoa o possa fazer.

No entanto, como grande parte dos dados do Books3 vem de sites piratas, o autor também expressou a esperança de que alguém faça um conjunto de dados melhor do que o Books3 no futuro, o que não apenas melhorará a qualidade dos dados, mas também respeitará os direitos autorais dos livros. .

Essa situação semelhante também aconteceu no OpenAI.

Mais de um mês atrás, dois autores em tempo integral processaram a OpenAI por usar seus trabalhos para treinar o ChatGPT sem permissão.

A razão pela qual isso aconteceu é que o conjunto de dados Books2 da OpenAI obteve muitos dados da biblioteca de sombra (site de pirataria).

Portanto, algumas vozes brincaram que a IA não apenas trouxe novos avanços tecnológicos, mas também trouxe novas tarefas para as organizações antipirataria.

Link de referência: [1] [2] [3] [4]

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)