Набор данных с открытым исходным кодом, который использует LLaMA, снят с полок: он содержит почти 200 000 книг и сравнивается с набором данных OpenAI.

Первоисточник: Кубит

Источник изображения: сгенерировано Unbounded AI‌

Набор данных с открытым исходным кодом был удален с полок из-за нарушения авторских прав.

Такие, как LLaMA, GPT-J и т. д., прошли с ним обучение.

Сегодня веб-сайт, на котором он размещался в течение 3 лет, за одну ночь удалил весь соответствующий контент.

Это Books3, набор данных, состоящий из почти 200 000 книг размером почти 37 ГБ.

Датская организация по борьбе с пиратством заявила, что в наборе данных было обнаружено 150 книг ее членов, что является нарушением, поэтому попросила платформу удалить его.

Теперь ссылка на веб-страницу Books3 на платформе была «404».

Первоначальный разработчик набора данных беспомощно сказал, что удаление Books3 — это трагедия в кругу открытого исходного кода.

**Что такое Books3? **

Книга Books3 была выпущена в 2020 году, загружена разработчиком ИИ Шоном Прессером и включена в набор данных Pile с открытым исходным кодом Eleuther AI.

Он содержит в общей сложности 197 000 книг, в том числе все книги с пиратского веб-сайта Bibliotik, предназначенные для сравнения набора данных OpenAI, но основной открытый исходный код.

Отсюда и название Books3

После выпуска GPT-3 было официально объявлено, что 15% контента в его наборе обучающих данных поступило из двух корпусов электронных книг с именами «Книги1» и «Книги2», но конкретное содержание не разглашается.

Books3 с открытым исходным кодом предоставляет большему количеству проектов возможность конкурировать с OpenAI.

Например, LLaMA, которая взорвалась в этом году, и GPT-J от Eleuther AI используют Book3.

Вы должны знать, что данные книги всегда были основным материалом корпуса при предварительном обучении большой модели, и они могут предоставить модель для вывода высококачественного длинного текста.

Книжные наборы данных, используемые многими гигантами ИИ, не являются открытым исходным кодом или даже не очень загадочны. Например, Книги 1/2, понимание их источника и масштаба в основном является спекуляцией из всех слоев общества.

Поэтому наборы данных с открытым исходным кодом очень важны для круга ИИ.

Для облегчения доступа Books3 размещен на The Eye. Это платформа, которая может архивировать информацию, извлекать общедоступные данные.

И в этот раз его сняли с прилавков, и речь тоже шла об этой платформе.

Датская группа по борьбе с пиратством Rights Alliance обратилась к The Eye с просьбой удалить его, и она была удовлетворена.

Но хорошая новость заключается в том, что Books3 не исчезла полностью, есть еще другие способы ее получить.

Резервные копии также есть на Wayback Machine, либо их можно скачать с торрент-клиента.

Брат-автор дал несколько методов в Твиттере.

"Без Books3 вы не сможете создать собственный ChatGPT"

На самом деле, автору набора данных есть что сказать об этом инциденте с исключением из списка.

Он сказал, что единственный способ создать модель, подобную ChatGPT, — это создать набор данных, подобный Books3.

Каждая коммерческая компания тайно создает наборы данных. Если нет Books3, это означает, что только технологические гиганты, такие как OpenAI, могут получить доступ к этим данным книг, поэтому вы не сможете создать свой собственный ChatGPT.

По мнению автора, ChatGPT — это как персональный сайт в 90-х, и очень важно, чтобы это мог сделать любой желающий.

Однако, поскольку большая часть данных Books3 поступает с пиратских веб-сайтов, автор также выразил надежду, что в будущем кто-то сделает набор данных лучше, чем Books3, что не только улучшит качество данных, но и будет соблюдать авторские права на книги. .

Подобная ситуация произошла и с OpenAI.

Более месяца назад два штатных автора подали в суд на OpenAI за использование их работ для обучения ChatGPT без разрешения.

Причина, по которой это произошло, заключается в том, что набор данных OpenAI Books2 получил много данных из теневой библиотеки (пиратский веб-сайт).

Поэтому некоторые голоса шутили, что ИИ не только принес новые технологические прорывы, но и поставил перед антипиратскими организациями новые задачи.

Ссылка на ссылку: [1] [2] [3] [4]

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить