Набор данных с открытым исходным кодом был удален с полок из-за нарушения авторских прав.
Такие, как LLaMA, GPT-J и т. д., прошли с ним обучение.
Сегодня веб-сайт, на котором он размещался в течение 3 лет, за одну ночь удалил весь соответствующий контент.
Это Books3, набор данных, состоящий из почти 200 000 книг размером почти 37 ГБ.
Датская организация по борьбе с пиратством заявила, что в наборе данных было обнаружено 150 книг ее членов, что является нарушением, поэтому попросила платформу удалить его.
Теперь ссылка на веб-страницу Books3 на платформе была «404».
Первоначальный разработчик набора данных беспомощно сказал, что удаление Books3 — это трагедия в кругу открытого исходного кода.
**Что такое Books3? **
Книга Books3 была выпущена в 2020 году, загружена разработчиком ИИ Шоном Прессером и включена в набор данных Pile с открытым исходным кодом Eleuther AI.
Он содержит в общей сложности 197 000 книг, в том числе все книги с пиратского веб-сайта Bibliotik, предназначенные для сравнения набора данных OpenAI, но основной открытый исходный код.
Отсюда и название Books3—
После выпуска GPT-3 было официально объявлено, что 15% контента в его наборе обучающих данных поступило из двух корпусов электронных книг с именами «Книги1» и «Книги2», но конкретное содержание не разглашается.
Books3 с открытым исходным кодом предоставляет большему количеству проектов возможность конкурировать с OpenAI.
Например, LLaMA, которая взорвалась в этом году, и GPT-J от Eleuther AI используют Book3.
Вы должны знать, что данные книги всегда были основным материалом корпуса при предварительном обучении большой модели, и они могут предоставить модель для вывода высококачественного длинного текста.
Книжные наборы данных, используемые многими гигантами ИИ, не являются открытым исходным кодом или даже не очень загадочны. Например, Книги 1/2, понимание их источника и масштаба в основном является спекуляцией из всех слоев общества.
Поэтому наборы данных с открытым исходным кодом очень важны для круга ИИ.
Для облегчения доступа Books3 размещен на The Eye. Это платформа, которая может архивировать информацию, извлекать общедоступные данные.
И в этот раз его сняли с прилавков, и речь тоже шла об этой платформе.
Датская группа по борьбе с пиратством Rights Alliance обратилась к The Eye с просьбой удалить его, и она была удовлетворена.
Но хорошая новость заключается в том, что Books3 не исчезла полностью, есть еще другие способы ее получить.
Резервные копии также есть на Wayback Machine, либо их можно скачать с торрент-клиента.
Брат-автор дал несколько методов в Твиттере.
"Без Books3 вы не сможете создать собственный ChatGPT"
На самом деле, автору набора данных есть что сказать об этом инциденте с исключением из списка.
Он сказал, что единственный способ создать модель, подобную ChatGPT, — это создать набор данных, подобный Books3.
Каждая коммерческая компания тайно создает наборы данных. Если нет Books3, это означает, что только технологические гиганты, такие как OpenAI, могут получить доступ к этим данным книг, поэтому вы не сможете создать свой собственный ChatGPT.
По мнению автора, ChatGPT — это как персональный сайт в 90-х, и очень важно, чтобы это мог сделать любой желающий.
Однако, поскольку большая часть данных Books3 поступает с пиратских веб-сайтов, автор также выразил надежду, что в будущем кто-то сделает набор данных лучше, чем Books3, что не только улучшит качество данных, но и будет соблюдать авторские права на книги. .
Подобная ситуация произошла и с OpenAI.
Более месяца назад два штатных автора подали в суд на OpenAI за использование их работ для обучения ChatGPT без разрешения.
Причина, по которой это произошло, заключается в том, что набор данных OpenAI Books2 получил много данных из теневой библиотеки (пиратский веб-сайт).
Поэтому некоторые голоса шутили, что ИИ не только принес новые технологические прорывы, но и поставил перед антипиратскими организациями новые задачи.
Ссылка на ссылку:
[1]
[2]
[3]
[4]
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Набор данных с открытым исходным кодом, который использует LLaMA, снят с полок: он содержит почти 200 000 книг и сравнивается с набором данных OpenAI.
Первоисточник: Кубит
Набор данных с открытым исходным кодом был удален с полок из-за нарушения авторских прав.
Такие, как LLaMA, GPT-J и т. д., прошли с ним обучение.
Сегодня веб-сайт, на котором он размещался в течение 3 лет, за одну ночь удалил весь соответствующий контент.
Это Books3, набор данных, состоящий из почти 200 000 книг размером почти 37 ГБ.
Теперь ссылка на веб-страницу Books3 на платформе была «404».
Первоначальный разработчик набора данных беспомощно сказал, что удаление Books3 — это трагедия в кругу открытого исходного кода.
**Что такое Books3? **
Книга Books3 была выпущена в 2020 году, загружена разработчиком ИИ Шоном Прессером и включена в набор данных Pile с открытым исходным кодом Eleuther AI.
Он содержит в общей сложности 197 000 книг, в том числе все книги с пиратского веб-сайта Bibliotik, предназначенные для сравнения набора данных OpenAI, но основной открытый исходный код.
Отсюда и название Books3—
После выпуска GPT-3 было официально объявлено, что 15% контента в его наборе обучающих данных поступило из двух корпусов электронных книг с именами «Книги1» и «Книги2», но конкретное содержание не разглашается.
Например, LLaMA, которая взорвалась в этом году, и GPT-J от Eleuther AI используют Book3.
Вы должны знать, что данные книги всегда были основным материалом корпуса при предварительном обучении большой модели, и они могут предоставить модель для вывода высококачественного длинного текста.
Книжные наборы данных, используемые многими гигантами ИИ, не являются открытым исходным кодом или даже не очень загадочны. Например, Книги 1/2, понимание их источника и масштаба в основном является спекуляцией из всех слоев общества.
Для облегчения доступа Books3 размещен на The Eye. Это платформа, которая может архивировать информацию, извлекать общедоступные данные.
И в этот раз его сняли с прилавков, и речь тоже шла об этой платформе.
Датская группа по борьбе с пиратством Rights Alliance обратилась к The Eye с просьбой удалить его, и она была удовлетворена.
Но хорошая новость заключается в том, что Books3 не исчезла полностью, есть еще другие способы ее получить.
Резервные копии также есть на Wayback Machine, либо их можно скачать с торрент-клиента.
Брат-автор дал несколько методов в Твиттере.
"Без Books3 вы не сможете создать собственный ChatGPT"
На самом деле, автору набора данных есть что сказать об этом инциденте с исключением из списка.
Он сказал, что единственный способ создать модель, подобную ChatGPT, — это создать набор данных, подобный Books3.
По мнению автора, ChatGPT — это как персональный сайт в 90-х, и очень важно, чтобы это мог сделать любой желающий.
Однако, поскольку большая часть данных Books3 поступает с пиратских веб-сайтов, автор также выразил надежду, что в будущем кто-то сделает набор данных лучше, чем Books3, что не только улучшит качество данных, но и будет соблюдать авторские права на книги. .
Более месяца назад два штатных автора подали в суд на OpenAI за использование их работ для обучения ChatGPT без разрешения.
Причина, по которой это произошло, заключается в том, что набор данных OpenAI Books2 получил много данных из теневой библиотеки (пиратский веб-сайт).
Поэтому некоторые голоса шутили, что ИИ не только принес новые технологические прорывы, но и поставил перед антипиратскими организациями новые задачи.
Ссылка на ссылку: [1] [2] [3] [4]