El conjunto de datos de fuente abierta que está utilizando LLaMA se ha retirado de los estantes: contiene casi 200,000 libros y se compara con el conjunto de datos de OpenAI.

巴比特_

2023-08-21 06:22:01

Fuente original: Qubit

Fuente de la imagen: Generada por Unbounded AI‌

El conjunto de datos de código abierto se eliminó de los estantes debido a una infracción de derechos de autor.

Como LLaMA, GPT-J, etc., han sido entrenados con él.

Hoy, el sitio web que lo alojó durante 3 años eliminó todo el contenido relacionado de la noche a la mañana.

Se trata de Books3, un conjunto de datos que consta de casi 200 000 libros, con un tamaño de casi 37 GB.

Una organización antipiratería danesa declaró que se encontraron 150 libros de sus miembros en el conjunto de datos, lo que constituía una infracción, por lo que solicitó a la plataforma que lo eliminara.

Ahora el enlace de la página web de Books3 en la plataforma ha sido "404".

El desarrollador original del conjunto de datos dijo con impotencia que la eliminación de Books3 es una tragedia en el círculo de código abierto.

¿Qué es Books3?

Books3 se lanzó en 2020, lo subió el desarrollador de IA Shawn Presser y se incluyó en el conjunto de datos de fuente abierta Pile de Eleuther AI.

Contiene un total de 197 000 libros, incluidos todos los libros del sitio web pirateado Bibliotik, cuyo objetivo es comparar el conjunto de datos de OpenAI, pero fuente abierta principal.

De aquí es de donde proviene el nombre Books3:

Después del lanzamiento de GPT-3, se reveló oficialmente que el 15 % del contenido de su conjunto de datos de capacitación provenía de dos conjuntos de libros electrónicos llamados "Books1" y "Books2", pero no se reveló el contenido específico.

El código abierto Books3 ofrece más proyectos con la oportunidad de competir con OpenAI.

Por ejemplo, LLaMA, que explotó este año, y GPT-J de Eleuther AI, todos usan Books3.

Debe saber que los datos de libros siempre han sido el material principal del corpus en el entrenamiento previo de modelos grandes, y pueden proporcionar una referencia para que el modelo genere texto extenso de alta calidad.

Los conjuntos de datos de libros utilizados por muchos gigantes de la IA no son de código abierto, ni siquiera son muy misteriosos. Por ejemplo, Books1/2, la comprensión de su fuente y escala es principalmente especulación de todos los ámbitos de la vida.

Por lo tanto, los conjuntos de datos de código abierto son muy importantes para el círculo de IA.

Para facilitar el acceso, Books3 está alojado en The Eye. Esta es una plataforma que puede archivar información, extraer datos públicos.

Y esta vez fue sacado de los estantes, y también se trataba de esta plataforma.

El grupo antipiratería danés Rights Alliance hizo una solicitud a The Eye para eliminarlo, y se le concedió.

Pero la buena noticia es que Books3 no ha desaparecido por completo, todavía hay otras formas de conseguirlo.

También hay copias de seguridad en Wayback Machine, o se pueden descargar desde un cliente de torrent.

El hermano autor dio múltiples métodos en Twitter.

"Sin Books3, no puedes hacer tu propio ChatGPT"

De hecho, el autor del conjunto de datos tiene mucho que decir sobre este incidente de exclusión de la lista.

Dijo que la única forma de hacer un modelo como ChatGPT es crear un conjunto de datos como Books3.

Todas las empresas con fines de lucro están creando conjuntos de datos en secreto. Si no hay Books3, significa que solo los gigantes tecnológicos como OpenAI pueden acceder a estos datos de libros, por lo que no podrá crear su propio ChatGPT.

En opinión del autor, ChatGPT es como un sitio web personal en los años 90, y es muy importante que cualquiera pueda hacerlo.

Sin embargo, dado que una gran parte de los datos de Books3 provienen de sitios web pirateados, el autor también expresó la esperanza de que alguien haga un mejor conjunto de datos que Books3 en el futuro, lo que no solo mejorará la calidad de los datos, sino que también respetará los derechos de autor de los libros. .

Esta situación similar también sucedió en OpenAI.

Hace más de un mes, dos autores a tiempo completo demandaron a OpenAI por usar sus trabajos para entrenar ChatGPT sin permiso.

La razón por la que esto sucedió es que el conjunto de datos Books2 de OpenAI ha obtenido una gran cantidad de datos de la biblioteca en la sombra (sitio web de piratería).

Por lo tanto, algunas voces bromearon diciendo que la IA no solo trajo nuevos avances tecnológicos, sino que también trajo nuevas tareas a las organizaciones contra la piratería.

Link de referencia: [1] [2] [3] [4]

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
Gate 2025 Q2 Report Released
36435 Popularidad
Altcoin Season Update
13484 Popularidad
Bitcoin Whale Moves
7449 Popularidad
4Gate Derivatives Volume Hits New High
15806 Popularidad
5CPI Data Incoming
61175 Popularidad
6Join Gate VIP to Win MacBook
30113 Popularidad
7MicroStrategy Buys More Bitcoin
2361 Popularidad
8BTC Hits New High
111245 Popularidad
9My Gate Moments
26895 Popularidad
10VIP Exclusive Airdrop Carnival
26967 Popularidad

Anclado

El conjunto de datos de fuente abierta que está utilizando LLaMA se ha retirado de los estantes: contiene casi 200,000 libros y se compara con el conjunto de datos de OpenAI.

**¿Qué es Books3? **

"Sin Books3, no puedes hacer tu propio ChatGPT"

¿Qué es Books3?