Набір даних з відкритим кодом, який використовує LLaMA, було знято з полиць: він містить майже 200 000 книг і порівнюється з набором даних OpenAI

Перше джерело: Qubit

Джерело зображення: створено Unbounded AI‌

Набір даних з відкритим кодом було видалено з полиць через порушення авторських прав.

Такі, як LLaMA, GPT-J тощо, пройшли навчання з ним.

Сьогодні веб-сайт, на якому він розміщувався протягом 3 років, миттєво видалив увесь пов’язаний вміст.

Це Books3, набір даних, що складається з майже 200 000 книг, розміром майже 37 Гб.

Датська антипіратська організація заявила, що 150 книг її членів були знайдені в наборі даних, що є порушенням, тому вона попросила платформу видалити їх.

Тепер посилання на веб-сторінку Books3 на платформі було «404».

Початковий розробник набору даних безпорадно сказав, що видалення Books3 є трагедією в колі відкритого коду.

**Що таке Books3? **

Books3 було випущено у 2020 році, завантажено розробником штучного інтелекту Шоном Пресером і включено до відкритого набору даних Eleuther AI Pile.

Він містить загалом 197 000 книг, включаючи всі книги з піратського веб-сайту Bibliotik, призначеного для порівняння набору даних OpenAI, але основного відкритого коду.

Звідси походить назва Books3

Після випуску GPT-3 було офіційно оголошено, що 15% вмісту в наборі навчальних даних походить від двох корпусів електронних книг під назвами «Books1» і «Books2», але конкретний вміст не розголошується.

Books3 з відкритим кодом надає більше проектів з можливістю конкурувати з OpenAI.

Наприклад, LLaMA, яка вибухнула цього року, і GPT-J від Eleuther AI використовують Books3.

Ви повинні знати, що дані книги завжди були основним матеріалом корпусу під час попереднього навчання великої моделі, і вони можуть надати модель для виведення високоякісного довгого тексту.

Набори даних книг, які використовуються багатьма гігантами ШІ, не є відкритими або навіть дуже загадковими. Наприклад, Книги 1/2, розуміння його джерела та масштабу є переважно спекуляціями з усіх верств суспільства.

Тому набори даних з відкритим кодом дуже важливі для кола ШІ.

Для полегшення доступу Books3 розміщено на сайті The Eye. Це платформа, яка може архівувати інформацію, витягувати публічні дані.

І цього разу його зняли з прилавків, і мова також йшла про цю платформу.

Датська антипіратська група Rights Alliance звернулася до The Eye з проханням видалити його, і його було задоволено.

Але хороша новина полягає в тому, що Books3 не зникла повністю, є ще інші способи отримати її.

Також є резервні копії на Wayback Machine або їх можна завантажити з торрент-клієнта.

Брат автора надав кілька методів у Twitter.

"Без Books3 ви не можете створити свій власний ChatGPT"

Насправді, автор набору даних може багато сказати про цей інцидент із видаленням.

Він сказав, що єдиний спосіб створити таку модель, як ChatGPT, — створити набір даних, як Books3.

Кожна прибуткова компанія таємно створює набори даних.Якщо немає Books3, це означає, що лише такі технологічні гіганти, як OpenAI, можуть отримати доступ до даних книг, тому ви не зможете створити свій власний ChatGPT.

На думку автора, ChatGPT схожий на персональний сайт 90-х, і дуже важливо, що це може зробити кожен.

Однак, оскільки значна частина даних Books3 надходить із піратських веб-сайтів, автор також висловив надію, що в майбутньому хтось створить кращий набір даних, ніж Books3, який не лише покращить якість даних, але й поважає авторські права книг. .

Подібна ситуація також сталася в OpenAI.

Більше місяця тому двоє постійних авторів подали до суду на OpenAI за використання їхніх робіт для навчання ChatGPT без дозволу.

Причина, чому це сталося, полягає в тому, що набір даних OpenAI Books2 отримав багато даних із тіньової бібліотеки (піратського веб-сайту).

Тому дехто жартував, що штучний інтелект не тільки приніс нові технологічні прориви, але й поставив нові завдання перед організаціями по боротьбі з піратством.

Посилання на посилання: [1] [2] [3] [4]

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити