Перша справа щодо авторських прав ChatGPT: OpenAI висунуто шість звинувачень, і його «схопили» за виведення резюме книг

2023-08-07 02:33:22

Перше джерело: Tencent Technology

Джерело зображення: створено Unbounded AI‌

28 червня 2023 року перший репрезентативний позов ChatGPT про порушення авторських прав нарешті з’явився в полі зору громадськості. Двоє письменників подали груповий позов щодо авторських прав проти Open AI до Північного окружного суду Каліфорнії, звинувативши останнього у використанні своїх книг, захищених авторським правом, для навчання ChatGPT без дозволу з комерційною метою.

Позивачі, Пол Трембле та Мона Авад, живуть у штаті Массачусетс і, відповідно, володіють авторськими правами на роботи, залучені у справі "Хатина на краю світу" та "13 способів дивитися на товсту дівчину та зайчика"; відповідач Відкритий штучний інтелект створив і керував генеративним продуктом штучного інтелекту ChatGPT, який наразі в основному керується двома основними моделями великих мов, GPT-3.5 і GPT-4.

У скарзі вказувалося, що хоча позивач не дозволив Open AI використовувати його власні книги, захищені авторським правом, для навчання моделі, ChatGPT зміг вивести резюме книг відповідно до команди s, що могло статися, лише якщо відповідач включив книги, задіяні в корпусі для навчання.

01 був "захоплений" для виведення анотації до книги

Позивач заявив, що велика кількість контенту, який міститься в наборі навчальних даних Open AI, є роботою, захищеною авторським правом, включаючи книги, на які позивач має авторські права. Однак Open AI не отримала згоди позивача, не вказала джерело контенту і не сплатила необхідних зборів. Книги, опубліковані позивачем, містять чітку інформацію про керування авторським правом, зокрема номер публікації, номер авторського права, ім’я власника авторського права та умови використання.

**Виходячи з наявних фактів і інформації, позивач може зробити висновок, що єдиною зрозумілою причиною, чому ChatGPT може точно створити короткий виклад конкретної книги, є те, що Open AI отримав і скопіював цю книгу та використав її для своєї великої мовної моделі (GPT3. 5 або GPT4) навчання. **

Перевірка позивача виявила, що коли ChatGPT попросили коротко викласти дві книги, задіяні у справі, за допомогою s, ChatGPT міг створити точніший підсумок (хоча також була невелика кількість неправильного вмісту). Це показує, що ChatGPT зберігає вміст конкретної роботи в наборі навчальних даних і може виводити відповідний текст. У той же час, завдяки розробці принципу створення вмісту великої мовної моделі, вихідний вміст ChatGPT не міститиме оригінальної інформації про керування авторським правом.

02 «ChatGPT, як ти бігаєш!»

**Цікаво в цій справі те, що в процесі доведення порушення Open AI, ознайомлення позивача з основними принципами ChatGPT ґрунтувалося на діалозі з ChatGPT і проханні його «представитися». Конкретний зміст підсумовано таким чином. **

Відкритий штучний інтелект випустив серію великих мовних моделей, включаючи GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) і останню GPT-4 (2023·3) . Загалом, програмне забезпечення штучного інтелекту спрямоване на використання статистичних методів для моделювання людської логіки та міркувань за допомогою алгоритмів. Велика мовна модель — це тип спеціалізованого програмного забезпечення штучного інтелекту, який використовується для аналізу та виведення природної мови.

**З одного боку, Open AI надає ChatGPT користувачам через веб-сторінку за ціною 20 доларів на місяць. **Користувачі можуть вибрати дві версії ChatGPT: модель GPT-3.5 або оновлену модель GPT-4. ** З іншого боку, ChatGPT також надається розробникам програмного забезпечення у формі API. **Інтерфейс API дозволяє розробникам писати програми для обміну даними з ChatGPT, у цьому випадку плата виставляється відповідно до використання.

** Незалежно від того, чи послуга надається у формі сторінки чи API, ChatGPT буде активно відповідати на запит користувача. **Якщо користувач задає ChatGPT запитання, він дасть відповідь; якщо користувач дає ChatGPT інструкцію, ChatGPT її виконає; якщо користувач просить ChatGPT підсумувати короткий виклад книги, ChatGPT усе одно це зробить.

03 Книги є основним матеріалом для навчання великих моделей

Точка зору позивача полягає в тому, що, на відміну від традиційного програмного забезпечення, яке пишуть інженери, велика мовна модель розробляється шляхом «навчання» — збору масивних корпусів вмісту з різних джерел і «подачі» їх у модель. Відомий як навчальний набір даних. (навчальний набір даних).

Велика мовна модель буде постійно коригувати свій вихід, щоб бути максимально наближеним до послідовності текстових комбінацій у навчених роботах. ** Варто зазначити, що хоча багато вмісту використовується для навчання великих мовних моделей, книги завжди були основним матеріалом корпусу в наборі навчальних даних, оскільки вони надають найкращі приклади високоякісного написання довгої форми. **

У корпоративному документі «Покращення розуміння мови через генеративне попереднє навчання», опублікованому в червні 2018 року, Open AI розкрив, що навчання GPT-1 спирається на набір даних «BookCorpus». «BookCorpus» містить 7000 книг у різних сферах, таких як пригоди, фентезі та романтика. **Відкритий штучний інтелект зазначив, що причина, чому книги особливо важливі як навчальний корпус, полягає в тому, що вони містять довгі безперервні тексти, що дозволяє генеративним моделям навчитися обробляти довгу текстову інформацію. **

** Багато компаній, що займаються дослідженнями та розробкою штучного інтелекту, зокрема Open AI, Google, Amazon тощо, використовують «BookCorpus» для навчання моделей. ** У 2015 році дослідницька група штучного інтелекту створила цей набір даних, який містить книги з веб-сайту Smashwords.com, але «BookCorpus» не отримав дозвіл від власника авторських прав на включення цих книг.

04 Демістифікація книжкового корпусу GPT

Публічно шукаючи ініціативу Open AI щодо розкриття інформації (документи підприємства), позивач сподівається продемонструвати, що навчання моделей серії GPT базується на несанкціонованому використанні великого вмісту книг. **У корпоративному документі «Мовні моделі — невеликі зразки учнів», опублікованому в липні 2020 року, Open AI оголосив, що 15% вмісту в наборі навчальних даних GPT-3 надходить із двох електронних баз даних під назвою «Books1» і «Books2». Книжковий корпус. **

Хоча Open AI не пояснив специфіку вмісту «Books1» і «Books2», це можна зробити з відповідних підказок: по-перше, два корпуси взяті з Інтернету; по-друге, масштаб двох корпусів значно більший, ніж «Книжковий Корпус». Згідно з даними Open AI, масштаб «Books1» у 9 разів перевищує масштаб BookCorpus (близько 63 000 книг), а Books2 — у 42 рази (приблизно 294 000 книг). **Насправді лише дуже невелика кількість баз даних може забезпечити такий масштабний книжковий корпус. З одного боку, «Books1», ймовірно, походить від «Проекту Гутенберга» або «Проекту стандартизації корпусу Гутенберга». **Project Gutenberg — це онлайн-бібліотека електронних книг, «за межами терміну захисту авторського права». У вересні 2020 року Project Gutenberg оголосив, що він включає понад 60 000 книг. Оскільки він не захищений авторським правом, проект Гутенберг широко використовується для навчання моделі штучного інтелекту. У 2018 році дослідницька група штучного інтелекту створила «Стандартизований корпус проекту Гутенберга» (Standardized Project Gutenberg Corpus) із понад 50 000 книг на основі «Проекту Гутенберга». **З іншого боку, «Books2», швидше за все, походить від «Тіньової бібліотеки» в Інтернеті. **Набір даних "Books2" містить приблизно 29 400 книг, і лише широко критикована "тіньова бібліотека" може забезпечити такий масштабний книжковий корпус. Приклади включають Library Genesis, Z-Library, Sci-Hub і Bibliotik тощо. Термін «Тіньова бібліотека» був введений Радою соціальних наук Сполучених Штатів у статті «Медіа-піратство в країнах з економікою, що розвивається», опублікованій у 2011 році. У березні 2023 року Open AI опублікував корпоративний документ GPT-4, але заявив, що «з огляду на ситуацію з галузевою конкуренцією та безпеку застосування продукту структура та вміст набору навчальних даних більше не розголошуватимуться».

05 Open AI стикається з шістьма звинуваченнями в порушенні

**Позивач подав загалом шість звинувачень проти Open AI, перші три пов’язані з порушенням авторських прав, четверте — щодо недобросовісної конкуренції, а п’яте та шосте — щодо двох основних типів цивільної відповідальності — обов’язку обережності та неправомірного збагачення. **

**По-перше, пряме порушення авторських прав. **Позивач не дозволяв Open AI відтворювати чи створювати похідні роботи на основі своїх книг, а також не дозволяв Open AI публічно демонструвати чи поширювати вищезгадані відтворення чи похідні роботи.

Крім того, позивач підкреслив, що оскільки для роботи велика мовна модель Open AI потребує вилучення та збереження виразної інформації з книг позивача, сама велика мовна модель є похідною роботою, що порушує права, без дозволу позивача.

**По-друге, порушення авторських прав. **Позивач підкреслив, що за відсутності дозволу кожен результат великої моделі є похідною роботою, що порушує авторські права. Оскільки він має право та здатність контролювати вихідний вміст великої мовної моделі та отримувати від цього економічні вигоди, Open AI є порушенням авторського права.

Згідно з американською системою прецедентного права, «субститутне порушення», «допомога в порушенні» та «підбурювання до порушення» разом складають повну систему непрямого порушення авторського права. Непряме порушення протилежне прямому порушенню, що означає, що хоча порушник безпосередньо не бере участі в поведінці, яка регулюється виключними правами авторського права (тобто прямому порушенні авторського права), він створює певні умови для прямого порушення авторського права.

**По-третє, це порушує положення щодо інформації про керування авторським правом у DMCA. ** З точки зору механізму дизайну продукту, вміст, виведений ChatGPT, не зберігатиме «інформацію про керування авторським правом» (CMI) твору, тому поведінка відповідача щодо навмисного видалення інформації про керування авторським правом із твору позивача порушує «Цифровий Положення Закону про захист авторських прав тисячоліття» (DMCA). Крім того, відповідачі також порушили Закон про захист авторських прав у цифрову епоху, розповсюджуючи похідні роботи, що порушують авторські права, без авторських прав.

«Інформація про керування авторським правом» — це інформація, яка може ідентифікувати власника твору, володіння правами та умови використання. Чи в Сполучених Штатах, чи в моїй країні заборонено видаляти чи змінювати інформацію про керування авторським правом або оприлюднювати твори з видаленою чи зміненою інформацією про керування авторським правом.

**По-четверте, недобросовісна конкуренція. **Несанкціоноване використання компанією Open AI захищеної авторським правом роботи позивача для навчання моделей є порушенням Кодексу бізнесу та професій Каліфорнії, оскільки це є неприйнятним, аморальним, примусовим і завдає шкоди споживачам.

Відповідач навмисно створив ChatGPT для виведення фрагментів і рефератів роботи позивача без вказівки джерела вмісту. ChatGPT розробляє комерційні продукти для отримання несправедливої вигоди та репутації шляхом приховування автора та копіювання вмісту та думок порушених робіт.

**По-п’яте, необережне порушення є порушенням обов’язку обережності. **Відкритий штучний інтелект повинен нести обов’язок обережності, передбачений «Каліфорнійським цивільним кодексом» — усі люди повинні розумно поводитися по відношенню до інших. Це зобов’язання ґрунтується на галузевих звичаях, діловій практиці, інформації, якою володіє відповідач, і можливості контролю на основі інформації.

Після того як відповідач збирає захищені авторським правом роботи позивача з метою навчання моделі GPT, він повинен нести певний обов’язок обережності: якщо передбачити, що несанкціоноване використання робіт для навчання моделі завдасть шкоди позивачу, він не повинен порушувати та використовувати ці роботи повторно.

** По-шосте, безпідставне збагачення. **Позивач присвятив багато часу та зусиль створенню книги, про яку йдеться. Оскільки його власна робота була використана для навчання моделі GPT без дозволу, позивач був позбавлений права отримувати прибуток від роботи. Несправедливо стосовно відповідача отримувати комерційну вигоду, використовуючи роботу позивача для навчання моделі GPT. Якщо поведінка відповідача не буде заборонена чи обмежена, вона завдасть непоправної шкоди позивачу.

** В кінці написано: три питання для обговорення в цій справі. **

**Оскільки це перший репрезентативний позов про порушення авторських прав ChatGPT, ще потрібен тривалий процес, перш ніж Північний окружний суд Каліфорнії винесе офіційне рішення. Але перед цим ще є деякі питання, які заслуговують на увагу та розгляд, щодо конкретного змісту скарги позивача. **

**Занепокоєння 1: непросто знайти порушення моделі. **

Навчання великих мовних моделей — це, по суті, свого роду внутрішня та неявна поведінка використання творів, і власники авторських прав мають справжню проблему виявити, що їхні твори були порушені. Загалом кажучи, лише порівнявши вміст, створений моделлю, з її власною роботою, яка є істотно подібною, можна зробити висновок про несанкціоноване використання роботи на етапі навчання моделі. У цьому випадку причиною, чому позивач міг звинуватити його книгу в порушенні великої мовної моделі під Open AI, було те, що він виявив, що ChatGPT видав короткий виклад його власної роботи.

Але чи виправдане це твердження, ще належить з’ясувати. **Якщо анотація результату роботи ChatGPT ґрунтується лише на колекції публічних ознайомлювальних матеріалів із книгами позивача в Інтернеті, а не на прямому копіюванні та навчанні книг позивача, то легітимність звинувачення у порушенні буде похитнута. **Позивач також визнав, що є кілька фактичних помилок у короткому викладі книги ChatGPT, що також певною мірою вказує на те, що велика модель, можливо, не повністю вивчила ці книги.

**Занепокоєння 2: необхідно продемонструвати, які права порушуються. **

Наразі, незважаючи на те, що «зберігання робочих даних» формально може підпадати під регулювання «права на відтворення» в Законі про авторське право, чи порушується основна «навчальна поведінка робочих даних» і які права в законі про авторське право ще не порушено Є одностайні висновки. У цій справі позивач підкреслив, що нормальна робота та вихід вмісту великої мовної моделі базується на навчанні корпусу твору, тому навчання великої моделі є порушенням авторського права, а сама велика модель є порушенням похідна робота.

Це твердження також належить дослідити. **За винятком кількох особливих вимог до створення вмісту, таких як «вимагати узагальнення, узагальнення та перекладу конкретних творів, захищених авторським правом, у формі s» у цьому випадку, у більшості випадків велика модель приймає відкриті інструкції щодо створення вмісту (не обмежуючись конкретними твори, стиль певного письменника), він загалом не буде виводити конкретні твори чи навіть фрагменти конкретних творів, тому це не є порушенням авторських прав. **

**Занепокоєння 3: необхідно уточнити обов’язки на першому та нижчому рівнях. **

У сфері авторського права на велику модель розробник моделі має відповідні права на саму велику модель, тому він несе відповідальність за авторське право, пов’язану з навчанням моделі; що стосується вихідного вмісту великої моделі, судячи з поточної галузевої практики, загальна Практика полягає в тому, щоб уточнити права через контракти та відповідальність, що належить користувачу. 10 липня 2023 року «Тимчасові заходи щодо управління послугами генеративного штучного інтелекту», видані Адміністрацією кіберпростору Китаю, також чітко визнали, що «постачальники повинні підписувати угоди про надання послуг з користувачами, щоб роз’яснити права та обов’язки обох сторін».

**Заслуговує на увагу, судячи з вимоги позивача, також прослідковує два етапи навчання моделі та виведення контенту та ідею розподілу прав та обов’язків. **Позов позивача щодо прямого порушення авторських прав зосереджений на етапі навчання моделі Open AI: по-перше, копії книг були зроблені під час процесу навчання моделі без дозволу позивача; по-друге, без дозволу позивача велика мовна модель сама по собі є порушенням прав. похідна робота. **Твердження позивача про порушення вихідного вмісту ChatGPT лише для того, щоб стверджувати, що Open AI є непрямим порушенням авторських прав (замінне порушення). Це також означає, що за вихідний вміст великої моделі користувач несе відповідальність за пряме порушення авторських прав, оскільки він має відповідні права. **

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.