Первое дело о нарушении авторских прав ChatGPT: OpenAI обвиняется в шести обвинениях и была «захвачена» за публикацию аннотаций к книгам

2023-08-07 02:33:22

Первоисточник: Tencent Technology

Источник изображения: сгенерировано Unbounded AI‌

28 июня 2023 года первый представительный иск о нарушении авторских прав ChatGPT наконец-то предстал перед общественностью. Два автора подали коллективный иск против Open AI в Северный окружной суд Калифорнии, обвинив последнего в использовании своих книг, защищенных авторским правом, для обучения ChatGPT без разрешения с целью получения коммерческой выгоды.

Истцы, Пол Тремблей и Мона Авад, проживают в штате Массачусетс и соответственно владеют авторскими правами на произведения, фигурирующие в деле «Хижина на краю света» и «13 способов смотреть на толстушку и кролика». Открытый ИИ создал и управлял генеративным продуктом искусственного интеллекта ChatGPT в настоящее время в основном управляется двумя базовыми моделями больших языков, GPT-3.5 и GPT-4.

В жалобе указывалось, что, хотя истец не разрешал Open AI использовать свои собственные книги, защищенные авторским правом, для обучения моделей, ChatGPT мог выводить краткие сведения о книгах в соответствии с командой s, что могло произойти только в том случае, если ответчик включил книги, участвующие в корпусе. для тренировки.

01 был "захвачен" для вывода резюме книги

Истец заявил, что большой объем контента, содержащегося в наборе обучающих данных Open AI, является произведением, защищенным авторским правом, включая книги, авторские права на которые принадлежат истцу. Однако Open AI не получила согласия истца, не указала источник контента и не уплатила необходимые сборы. Книги, опубликованные истцом, содержат четкую информацию об управлении авторскими правами, включая номер публикации, номер авторского права, имя владельца авторских прав и условия использования.

**Исходя из имеющихся фактов и информации, истец может сделать вывод, что единственная объяснимая причина, по которой ChatGPT может точно генерировать краткое изложение конкретной книги, заключается в том, что Open AI получил и скопировал соответствующую книгу и использовал ее для своей большой языковой модели (GPT3. 5 или GPT4). **

Тест истца показал, что, когда ChatGPT попросили обобщить две книги, участвующие в деле, с помощью s, ChatGPT смог создать более точное резюме (хотя было также небольшое количество неправильного контента). Это показывает, что ChatGPT сохраняет содержимое конкретной работы в обучающем наборе данных и может выводить соответствующий текст. В то же время благодаря разработке принципа генерации контента модели большого языка выходной контент ChatGPT не будет содержать исходную информацию об управлении авторскими правами.

02 "ChatGPT, как ты бегаешь!"

**В этом деле интересно то, что в процессе доказательства нарушения Open AI истец знакомился с основными принципами ChatGPT, ведя диалог с ChatGPT и прося его «представиться». Конкретное содержание резюмируется следующим образом. **

Open AI выпустила серию больших языковых моделей, включая GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) и последнюю версию GPT-4 (2023·3). . Вообще говоря, программное обеспечение искусственного интеллекта направлено на использование статистических методов для моделирования человеческой логики и рассуждений с помощью алгоритмов. Большая языковая модель — это тип специализированного программного обеспечения искусственного интеллекта, используемого для анализа и вывода естественного языка.

**С одной стороны, Open AI предоставляет пользователям ChatGPT через веб-страницу по цене 20 долларов в месяц. **Пользователи могут выбрать две версии ChatGPT: модель GPT-3.5 или обновленную модель GPT-4. ** С другой стороны, ChatGPT также предоставляется разработчикам программного обеспечения в виде API. **Интерфейс API позволяет разработчикам писать программы для обмена данными с ChatGPT, в этом случае тарифицируется по факту использования.

** Независимо от того, предоставляется ли услуга в виде страницы или API, ChatGPT будет активно реагировать на запрос пользователя. **Если пользователь задаст ChatGPT вопрос, он даст ответ; если пользователь даст ChatGPT инструкцию, ChatGPT выполнит ее; если пользователь попросит ChatGPT подвести итоги книги, ChatGPT все равно сделает это.

03 Книги — это основной материал для обучения больших моделей

Точка зрения истца заключается в том, что, в отличие от традиционного программного обеспечения, написанного инженерами, большая языковая модель разрабатывается посредством «обучения» — сбора массивных корпусов контента из разных источников и «скармливания» их модели. (обучающий набор данных).

Большая языковая модель будет постоянно корректировать свой вывод, чтобы он был как можно ближе к последовательности текстовых комбинаций в обученных произведениях. ** Стоит отметить, что, хотя многие материалы используются для обучения больших языковых моделей, книги всегда были основными материалами корпуса в наборе обучающих данных, поскольку они представляют собой лучшие примеры высококачественного письма с полным текстом. **

В корпоративном документе «Улучшение понимания языка с помощью генеративного предварительного обучения», опубликованном в июне 2018 года, Open AI сообщил, что обучение GPT-1 основано на наборе данных «BookCorpus». «BookCorpus» содержит 7000 книг в различных областях, таких как приключения, фэнтези и романтика. **Открытый ИИ указал, что причина, по которой книги особенно важны в качестве учебного корпуса, заключается в том, что они содержат длинные непрерывные тексты, что позволяет генеративным моделям научиться обрабатывать длинную текстовую информацию. **

** Многие компании, занимающиеся исследованиями и разработками в области искусственного интеллекта, включая Open AI, Google, Amazon и т. д., используют «BookCorpus» для обучения моделей. ** В 2015 году группа исследователей искусственного интеллекта создала этот набор данных, который содержит книги с веб-сайта Smashwords.com, но «BookCorpus» не получил разрешения от владельца авторских прав при включении этих книг.

04 Демистификация корпуса книг по GPT

Публично исследуя инициативу Open AI по раскрытию информации (корпоративные документы), истец надеется продемонстрировать, что обучение моделей серии GPT основано на несанкционированном использовании массивного книжного содержания. ** В корпоративном документе «Языковые модели для учащихся с небольшой выборкой», опубликованном в июле 2020 года, Open AI сообщила, что 15% контента в наборе обучающих данных GPT-3 поступило из двух электронных баз данных с именами «Книги1» и «Книги2». Книжный корпус. **

Хотя Open AI не объяснил специфику содержания «Книги1» и «Книги2», об этом можно сделать вывод из соответствующих подсказок: во-первых, два корпуса взяты из Интернета; во-вторых, масштаб двух корпусов значительно больше, чем «Книжный корпус». Согласно раскрытию Open AI, масштаб «Книги1» в 9 раз больше, чем у BookCorpus (около 63 000 книг), а «Книги2» — в 42 раза (около 294 000 книг). ** В действительности только очень небольшое количество баз данных может предоставить такой крупномасштабный корпус книг. С одной стороны, «Книги1», вероятно, происходят из «Проекта Гутенберга» или «Проекта стандартизации корпуса Гутенберга». **Project Gutenberg — это онлайн-библиотека электронных книг, «за пределами срока защиты авторских прав». В сентябре 2020 года Project Gutenberg объявил, что в него включено более 60 000 книг. Поскольку он не защищен авторским правом, Project Gutenberg широко используется для обучения моделей искусственного интеллекта. В 2018 году группа исследователей искусственного интеллекта создала «Стандартизированный корпус проекта Гутенберга» (Standardized Project Gutenberg Corpus) из более чем 50 000 книг на основе «Проекта Гутенберга». ** С другой стороны, «Books2», скорее всего, происходит от «Shadow Library» в Интернете. **Набор данных «Книги2» содержит приблизительно 29 400 книг, и только широко критикуемая «теневая библиотека» может предоставить такой крупномасштабный корпус книг. Примеры включают Library Genesis, Z-Library, Sci-Hub и Bibliotik, среди прочих. Термин «теневая библиотека» был придуман Советом по исследованиям в области социальных наук США в статье «Медиа-пиратство в странах с развивающейся экономикой», опубликованной в 2011 году. ** В марте 2023 г. Open AI выпустил корпоративный документ GPT-4, но заявил, что «с учетом ситуации с конкуренцией в отрасли и безопасности приложений структура и содержание набора обучающих данных больше не будут раскрываться». **

05 Компания Open AI сталкивается с шестью обвинениями в нарушении авторских прав

** Истец подал в общей сложности шесть исков против Open AI, первые три касались нарушения авторских прав, четвертое — недобросовестной конкуренции, а пятое и шестое — двух основных видов гражданской ответственности — обязанности попечения и неосновательного обогащения. **

**Во-первых, прямое нарушение авторских прав. ** Истец не разрешал Open AI воспроизводить или создавать производные работы из своих книг, а также не разрешал Open AI публично демонстрировать или распространять вышеупомянутые репродукции или производные работы.

Кроме того, истец подчеркнул, что, поскольку модель большого языка Open AI для работы должна извлекать и сохранять выразительную информацию из книг истца, сама модель большого языка представляет собой производное произведение, нарушающее авторские права, без разрешения истца.

** Во-вторых, нарушение авторских прав. **Истец подчеркнул, что в отсутствие разрешения каждый вывод большой модели представляет собой производную работу, нарушающую авторские права. Поскольку он имеет право и возможность контролировать вывод контента модели большого языка и получать от этого экономические выгоды, Open AI представляет собой нарушение авторских прав на замену.

В соответствии с американской системой прецедентного права «замещающее нарушение», «пособничество нарушению» и «подстрекательство к нарушению» вместе составляют полную систему косвенного нарушения авторских прав. Косвенное нарушение противоположно прямому нарушению, а это означает, что, хотя правонарушитель и не осуществляет непосредственно поведение, регулируемое исключительными правами авторского права (то есть прямое нарушение авторского права), оно обеспечивает определенные условия для прямого нарушения авторского права.

** В-третьих, это нарушает положения об управлении авторскими правами в DMCA. ** С точки зрения механизма разработки продукта контент, выдаваемый ChatGPT, не будет сохранять «информацию об управлении авторскими правами» (CMI) произведения, поэтому действия ответчика по преднамеренному удалению информации об управлении авторскими правами работы истца нарушают «Цифровой Положения Закона об авторском праве тысячелетия» (DMCA). Кроме того, ответчики также нарушили DMCA, распространяя производные работы, нарушающие авторские права, без информации об управлении авторскими правами без разрешения.

«Информация об управлении авторскими правами» — это информация, которая может идентифицировать владельца произведения, право собственности и условия использования. В Соединенных Штатах или в моей стране незаконно удалять или изменять информацию об управлении авторскими правами, а также делать общедоступными произведения с удаленной или измененной информацией об управлении авторскими правами.

**В-четвертых, недобросовестная конкуренция. ** Несанкционированное использование Open AI работы истца, защищенной авторским правом, для обучения моделей является нарушением Кодекса бизнеса и профессий штата Калифорния, поскольку оно является ненадлежащим, аморальным, принудительным и наносит ущерб потребителям.

Ответчик намеренно разработал ChatGPT для вывода фрагментов и рефератов работы истца без указания источника контента. ChatGPT разрабатывает коммерческие продукты для получения незаслуженных преимуществ и репутации путем сокрытия автора и копирования содержания и мнений произведений, нарушающих авторские права.

** В-пятых, нарушение по небрежности является нарушением обязанности соблюдать осторожность. **Открытый ИИ должен нести обязанность проявлять осторожность, предусмотренную «Гражданским кодексом Калифорнии» — все люди должны вести себя разумно по отношению к другим. Это обязательство основано на отраслевых традициях, деловой практике, информации, которой владеет ответчик, и способности контролировать на основе этой информации.

Как только ответчик собирает защищенные авторским правом произведения истца с целью обучения модели GPT, он должен нести определенную обязанность проявлять осторожность: когда можно предвидеть, что несанкционированное использование произведений для обучения модели нанесет ущерб истцу, он не должен нарушать и использовать эти произведения повторно.

** В-шестых, неосновательное обогащение. ** Истец потратил много времени и усилий на создание рассматриваемой книги. Поскольку его собственная работа использовалась для обучения модели GPT без разрешения, истец был лишен права получать прибыль от этой работы. Несправедливо по отношению к ответчику получать коммерческую выгоду, используя работу истца для обучения модели GPT. Если это не запрещено или ограничено, поведение ответчика причинит непоправимый вред истцу.

** Написано в конце: в данном случае необходимо обсудить три вопроса. **

** Поскольку это первый репрезентативный иск о нарушении авторских прав ChatGPT, это еще долгий процесс, прежде чем Северный окружной суд Калифорнии вынесет официальное решение. Но до этого есть еще некоторые вопросы, заслуживающие внимания и рассмотрения, касающиеся конкретного содержания жалобы истца. **

**Проблема 1: найти нарушение модели непросто. **

Обучение больших языковых моделей, по сути, является своего рода внутренним и неявным поведением при использовании произведений, и у владельцев авторских прав возникает реальная проблема обнаружения того, что их произведения были нарушены. Вообще говоря, только путем сравнения контента, созданного моделью, с ее собственной работой, по существу, можно сделать вывод о несанкционированном использовании работы на этапе обучения модели. В этом случае причина, по которой истец смог обвинить его книгу в нарушении большой языковой модели в рамках Open AI, заключалась в том, что он обнаружил, что ChatGPT вывел резюме своей собственной работы.

Но будет ли это утверждение обоснованным, еще предстоит выяснить. ** Если реферат результатов работы ChatGPT основан только на сборе общедоступных ознакомительных материалов книг истца в Интернете, а не на прямом копировании и обучении книг истца, тогда законность обвинения в нарушении будет поколеблена. ** Истец также признал наличие нескольких фактических ошибок в выводе книги ChatGPT, что также в определенной степени указывает на то, что большая модель, возможно, не полностью изучила задействованные книги.

**Озабоченность 2: Необходимо продемонстрировать, какие права нарушены. **

В настоящее время, хотя «хранение рабочих данных» может формально подпадать под регулирование «права на воспроизведение» в Законе об авторском праве, нарушает ли основное «обучающее поведение рабочих данных» и какие права в законе об авторском праве до сих пор не нарушены.Есть единодушные выводы. В этом случае истец подчеркнул, что нормальная работа и вывод контента большой языковой модели основаны на обучении корпуса произведения, поэтому обучение большой модели представляет собой нарушение авторских прав, а сама большая модель представляет собой нарушение авторских прав. производная работа.

Это утверждение также еще предстоит изучить. **За исключением нескольких особых требований к созданию контента, таких как «требование обобщения, суммирования и перевода конкретных авторских работ в форме s» в этом случае, в большинстве случаев большая модель принимает открытые инструкции по созданию контента (не ограничиваясь конкретными произведения, определенный писательский стиль), он в принципе не будет выводить конкретные произведения или даже фрагменты конкретных произведений, так что это не является нарушением авторских прав. **

**Озабоченность 3: необходимо прояснить обязанности выше и ниже по течению. **

В области авторских прав на большие модели разработчик модели имеет соответствующие права на саму большую модель, поэтому он несет ответственность за авторские права, связанные с обучением модели; что касается выходного содержания большой модели, судя по текущей отраслевой практике, Практика заключается в уточнении прав через договоры, а ответственность принадлежит пользователю. 10 июля 2023 года «Временные меры по управлению генеративными услугами искусственного интеллекта», выпущенные Администрацией киберпространства Китая, также четко признали, что «поставщики должны подписывать соглашения об обслуживании с пользователями для разъяснения прав и обязанностей обеих сторон».

**Заслуживает внимания.Судя по иску истца, он также следует двум этапам обучения модели и вывода контента, а также идее разделения прав и обязанностей. **Иск истца о прямом нарушении авторских прав касается этапа обучения модели Open AI: во-первых, копии книг были сделаны в процессе обучения модели без разрешения истца; во-вторых, без разрешения истца сама крупноязыковая модель представляет собой нарушение авторских прав. производная работа. ** Заявление истца о нарушении выходного контента ChatGPT состоит только в утверждении, что Open AI представляет собой косвенное нарушение авторских прав (замещающее нарушение). Это также означает, что за вывод содержимого крупной модели пользователь несет ответственность за прямое нарушение авторских прав, поскольку имеет соответствующие права. **

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .