L'ensemble de données open source utilisé par LLaMA a été retiré des étagères : il contient près de 200 000 livres et est comparé à l'ensemble de données OpenAI.

巴比特_

2023-08-21 06:22:01

Source originale : Qubit

Source de l'image : générée par l'IA illimitée‌

L'ensemble de données open source a été retiré des étagères en raison d'une violation du droit d'auteur.

Tels que LLaMA, GPT-J, etc., ont été formés avec.

Aujourd'hui, le site Web qui l'a hébergé pendant 3 ans a supprimé tout le contenu connexe du jour au lendemain.

Il s'agit de Books3, un ensemble de données composé de près de 200 000 livres, d'une taille de près de 37 Go.

Une organisation anti-piratage danoise a déclaré que 150 livres de ses membres avaient été trouvés dans l'ensemble de données, ce qui constituait une contrefaçon, elle a donc demandé à la plateforme de le supprimer.

Désormais, le lien de la page Web Books3 sur la plate-forme est "404".

Le développeur original de l'ensemble de données a déclaré impuissant que la suppression de Books3 est une tragédie dans le cercle open source.

Qu'est-ce que Books3 ?

Books3 est sorti en 2020, téléchargé par le développeur d'IA Shawn Presser et inclus dans l'ensemble de données open source Pile d'Eleuther AI.

Il contient un total de 197 000 livres, y compris tous les livres du site Web piraté Bibliotik, destinés à comparer l'ensemble de données d'OpenAI, mais ** principal open source **.

C'est de là que vient le nom Books3—

Après la sortie de GPT-3, il a été officiellement révélé que 15 % du contenu de son ensemble de données de formation provenait de deux corpus de livres électroniques nommés "Books1" et "Books2", mais le contenu spécifique n'a pas été divulgué.

L'open source Books3 offre à davantage de projets la possibilité de concurrencer OpenAI.

Par exemple, LLaMA, qui a explosé cette année, et GPT-J d'Eleuther AI, utilisent tous Books3.

Vous devez savoir que les données du livre ont toujours été le matériau de base du corpus dans la pré-formation de grands modèles, et elles peuvent fournir une référence pour que le modèle produise un texte long de haute qualité.

Les jeux de données de livres utilisés par de nombreux géants de l'IA ne sont pas open source, voire très mystérieux. Par exemple, Books1/2, la compréhension de sa source et de son échelle est principalement une spéculation de tous les horizons.

Par conséquent, les ensembles de données open source sont très importants pour le cercle de l'IA.

Pour un accès plus facile, Books3 est hébergé sur The Eye. Il s'agit d'une plateforme qui peut archiver des informations, extraire des données publiques.

Et cette fois, il a été retiré des étagères, et il s'agissait également de cette plate-forme.

Le groupe anti-piratage danois Rights Alliance a demandé à The Eye de le retirer, et cela a été accordé.

Mais la bonne nouvelle est que Books3 n'a pas complètement disparu, il existe encore d'autres moyens de l'obtenir.

Il existe également des sauvegardes sur la Wayback Machine, ou elles peuvent être téléchargées à partir d'un client torrent.

Le frère auteur a donné plusieurs méthodes sur Twitter.

"Sans Books3, vous ne pouvez pas créer votre propre ChatGPT"

En fait, l'auteur de l'ensemble de données a beaucoup à dire sur cet incident de radiation.

Il a dit que la seule façon de créer un modèle comme ChatGPT est de créer un ensemble de données comme Books3.

Chaque entreprise à but lucratif fabrique secrètement des ensembles de données. S'il n'y a pas de Books3, cela signifie que seuls les géants de la technologie tels que OpenAI peuvent accéder à ces données de livres, vous ne pourrez donc pas créer votre propre ChatGPT.

De l'avis de l'auteur, ChatGPT est comme un site Web personnel dans les années 90, et il est très important que tout le monde puisse le faire.

Cependant, comme une grande partie des données de Books3 provient de sites Web piratés, l'auteur a également exprimé l'espoir que quelqu'un créera un meilleur ensemble de données que Books3 à l'avenir, ce qui améliorera non seulement la qualité des données, mais respectera également le droit d'auteur des livres. .

Cette situation similaire s'est également produite dans OpenAI.

Il y a plus d'un mois, deux auteurs à temps plein ont poursuivi OpenAI pour avoir utilisé leurs travaux pour former ChatGPT sans autorisation.

La raison pour laquelle cela s'est produit est que l'ensemble de données d'OpenAI Books2 a obtenu beaucoup de données de la bibliothèque fantôme (site Web de piratage).

Par conséquent, certaines voix ont plaisanté en disant que l'IA a non seulement apporté de nouvelles percées technologiques, mais a également apporté de nouvelles tâches aux organisations anti-piratage.

Lien de référence : [1] [2] [3] [4]

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
Gate 2025 Q2 Report Released
37k Popularité
Altcoin Season Update
14k Popularité
Bitcoin Whale Moves
8k Popularité
4Gate Derivatives Volume Hits New High
16k Popularité
5CPI Data Incoming
62k Popularité
6Join Gate VIP to Win MacBook
31k Popularité
7MicroStrategy Buys More Bitcoin
3k Popularité
8BTC Hits New High
112k Popularité
9My Gate Moments
27k Popularité
10VIP Exclusive Airdrop Carnival
27k Popularité

Épingler

L'ensemble de données open source utilisé par LLaMA a été retiré des étagères : il contient près de 200 000 livres et est comparé à l'ensemble de données OpenAI.

**Qu'est-ce que Books3 ? **

"Sans Books3, vous ne pouvez pas créer votre propre ChatGPT"

Qu'est-ce que Books3 ?