Набор данных с открытым исходным кодом, который использует LLaMA, снят с полок: он содержит почти 200 000 книг и сравнивается с набором данных OpenAI.

巴比特_

2023-08-21 06:22:01

Первоисточник: Кубит

Источник изображения: сгенерировано Unbounded AI‌

Набор данных с открытым исходным кодом был удален с полок из-за нарушения авторских прав.

Такие, как LLaMA, GPT-J и т. д., прошли с ним обучение.

Сегодня веб-сайт, на котором он размещался в течение 3 лет, за одну ночь удалил весь соответствующий контент.

Это Books3, набор данных, состоящий из почти 200 000 книг размером почти 37 ГБ.

Датская организация по борьбе с пиратством заявила, что в наборе данных было обнаружено 150 книг ее членов, что является нарушением, поэтому попросила платформу удалить его.

Теперь ссылка на веб-страницу Books3 на платформе была «404».

Первоначальный разработчик набора данных беспомощно сказал, что удаление Books3 — это трагедия в кругу открытого исходного кода.

Что такое Books3?

Книга Books3 была выпущена в 2020 году, загружена разработчиком ИИ Шоном Прессером и включена в набор данных Pile с открытым исходным кодом Eleuther AI.

Он содержит в общей сложности 197 000 книг, в том числе все книги с пиратского веб-сайта Bibliotik, предназначенные для сравнения набора данных OpenAI, но основной открытый исходный код.

Отсюда и название Books3—

После выпуска GPT-3 было официально объявлено, что 15% контента в его наборе обучающих данных поступило из двух корпусов электронных книг с именами «Книги1» и «Книги2», но конкретное содержание не разглашается.

Books3 с открытым исходным кодом предоставляет большему количеству проектов возможность конкурировать с OpenAI.

Например, LLaMA, которая взорвалась в этом году, и GPT-J от Eleuther AI используют Book3.

Вы должны знать, что данные книги всегда были основным материалом корпуса при предварительном обучении большой модели, и они могут предоставить модель для вывода высококачественного длинного текста.

Книжные наборы данных, используемые многими гигантами ИИ, не являются открытым исходным кодом или даже не очень загадочны. Например, Книги 1/2, понимание их источника и масштаба в основном является спекуляцией из всех слоев общества.

Поэтому наборы данных с открытым исходным кодом очень важны для круга ИИ.

Для облегчения доступа Books3 размещен на The Eye. Это платформа, которая может архивировать информацию, извлекать общедоступные данные.

И в этот раз его сняли с прилавков, и речь тоже шла об этой платформе.

Датская группа по борьбе с пиратством Rights Alliance обратилась к The Eye с просьбой удалить его, и она была удовлетворена.

Но хорошая новость заключается в том, что Books3 не исчезла полностью, есть еще другие способы ее получить.

Резервные копии также есть на Wayback Machine, либо их можно скачать с торрент-клиента.

Брат-автор дал несколько методов в Твиттере.

"Без Books3 вы не сможете создать собственный ChatGPT"

На самом деле, автору набора данных есть что сказать об этом инциденте с исключением из списка.

Он сказал, что единственный способ создать модель, подобную ChatGPT, — это создать набор данных, подобный Books3.

Каждая коммерческая компания тайно создает наборы данных. Если нет Books3, это означает, что только технологические гиганты, такие как OpenAI, могут получить доступ к этим данным книг, поэтому вы не сможете создать свой собственный ChatGPT.

По мнению автора, ChatGPT — это как персональный сайт в 90-х, и очень важно, чтобы это мог сделать любой желающий.

Однако, поскольку большая часть данных Books3 поступает с пиратских веб-сайтов, автор также выразил надежду, что в будущем кто-то сделает набор данных лучше, чем Books3, что не только улучшит качество данных, но и будет соблюдать авторские права на книги. .

Подобная ситуация произошла и с OpenAI.

Более месяца назад два штатных автора подали в суд на OpenAI за использование их работ для обучения ChatGPT без разрешения.

Причина, по которой это произошло, заключается в том, что набор данных OpenAI Books2 получил много данных из теневой библиотеки (пиратский веб-сайт).

Поэтому некоторые голоса шутили, что ИИ не только принес новые технологические прорывы, но и поставил перед антипиратскими организациями новые задачи.

Ссылка на ссылку: [1] [2] [3] [4]

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
Gate 2025 Q2 Report Released
37k Популярность
Altcoin Season Update
14k Популярность
Bitcoin Whale Moves
8k Популярность
4Gate Derivatives Volume Hits New High
16k Популярность
5CPI Data Incoming
62k Популярность
6Join Gate VIP to Win MacBook
31k Популярность
7MicroStrategy Buys More Bitcoin
3k Популярность
8BTC Hits New High
112k Популярность
9My Gate Moments
27k Популярность
10VIP Exclusive Airdrop Carnival
27k Популярность

Закрепить

Карта сайта

Набор данных с открытым исходным кодом, который использует LLaMA, снят с полок: он содержит почти 200 000 книг и сравнивается с набором данных OpenAI.

**Что такое Books3? **

"Без Books3 вы не сможете создать собственный ChatGPT"

Что такое Books3?