В США вспыхивает «восстание данных»: голливудская литература, журналистика и социальные сети восстают против ИИ

2023-07-18 01:46:32

Автор: Стажер Чэнь Сяоруй, репортер Фан Сяо

Источник: Бумага

Эрик Голдман, профессор юридического факультета Университета Санта-Клара в США, считает, что волна судебных разбирательств только началась, и грядут «вторая и третья волны», которые определят будущее искусственного интеллекта.

Компании, занимающиеся ИИ, утверждают, что для обучения ИИ разумно использовать произведения, защищенные авторским правом, — ссылка на концепцию «преобразующего использования» в законе об авторском праве США, когда материал изменяется «преобразующим» образом, создает исключение.

Источник изображения: сгенерировано инструментом Unbounded AI

Американская гильдия сценаристов бастует уже более 70 дней, требуя повышения заработной платы, увеличения доли стриминговых медиаплатформ и надзора за искусственным интеллектом.

В Америке вспыхивает «восстание данных», среди повстанцев — Голливуд, художники, писатели, социальные сети и новостные организации.

Вся вина указывает на генеративные инструменты искусственного интеллекта, такие как ChatGPT и Stable Diffusion, которые обвиняются в незаконном использовании работы создателей контента для обучения больших языковых моделей без разрешения или компенсации.

В основе этого «восстания данных» лежит новое осознание того, что онлайн-информация — истории, произведения искусства, новостные статьи, посты в Интернете и фотографии — может иметь значительную неиспользованную ценность. Практика очистки общедоступного контента в Интернете имеет долгую историю, и большинство компаний и некоммерческих организаций, которые делают это, публично раскрывают ее. Но до того, как ChatGPT был выпущен, владельцы данных мало что знали об этом и не считали это особенно серьезной проблемой. Теперь это изменилось, поскольку общественность узнала больше об основах обучения ИИ.

"Это фундаментальное изменение ценности данных", - сказал в интервью СМИ основатель и генеральный директор Nomic Брэндон Дудерштадт. Вы можете получить доступ к данным и запустить рекламу, чтобы извлечь из них пользу. Теперь люди думают, что они должны защитить свои данные».

Прилив за волной

В последние месяцы компании социальных сетей, такие как Reddit и Twitter, новостные организации, такие как The New York Times и NBC, писатель-фантаст Пол Тремблей и актриса Сара Сильверман (Sarah Silverman) и другие приняли меры, чтобы противостоять несанкционированному сбору их работ и данных. с помощью искусственного интеллекта. Эта серия ходов была названа американскими СМИ «Восстанием данных».

На прошлой неделе Сильверман подал иск против OpenAI и Meta, обвинив их в использовании пиратских копий его книги в своих обучающих данных, потому что чат-боты компаний могут точно обобщать содержание его книги. Кроме того, более 5000 авторов, в том числе Джоди Пиколт, Маргарет Этвуд и Вьет Тхань Нгуен, подписали петицию, призывающую технологические компании запрашивать их разрешение и предоставлять им атрибуцию и компенсацию при использовании их книг в качестве обучающих данных.

Чтобы защитить свое произведение, писатели и художники прибегают к различным формам протеста. Некоторые предпочитают блокировать работы и предотвращать их получение искусственным интеллектом; некоторые предпочитают бойкотировать веб-сайты, которые публикуют контент, созданный искусственным интеллектом; некоторые предпочитают писать подрывной контент, чтобы помешать обучению искусственного интеллекта.

13 июля SAG-AFTRA, один из трех крупнейших профсоюзов Голливуда, насчитывающий 160 000 членов, объявил забастовку, до этого более 70 дней бастовала Американская гильдия сценаристов. По данным New York Times, всеобщая забастовка привела к остановке американской кино- и телеиндустрии стоимостью 134 млрд долл. Гарантировано, что актеры не будут заменены искусственным интеллектом и компьютерными лицами и голосами.

Между тем, некоторые новостные организации сопротивляются ИИ. В июне во внутреннем меморандуме об использовании генеративного ИИ The New York Times заявила: «Компании, использующие ИИ, должны уважать нашу интеллектуальную собственность». новостные статьи, поскольку обучающие данные для искусственного интеллекта сопряжены с потенциальными рисками и юридическими проблемами, и они призвали компании, занимающиеся искусственным интеллектом, уважать знания издателей, права собственности и творческий труд.

Социальные сети также заняли позицию. В апреле сайт социальных новостей Reddit заявил, что хочет взимать плату с третьих лиц за доступ к его интерфейсу прикладного программирования (API). Генеральный директор Reddit Стив Хоффман заявил, что его компании «не нужно бесплатно отдавать всю ценность некоторым из крупнейших компаний мира». незаконно» захватить большой объем данных Twitter. В ответ на «крайний сбор данных и системные манипуляции» Twitter решил ограничить количество твитов, которые могут просматривать отдельные учетные записи.

Основатель и генеральный директор Reddit Стив Хоффман хочет взимать плату с третьих лиц за доступ к его интерфейсу прикладного программирования (API), что вызвало массовый протест пользователей сети.

Это «восстание данных» также включает в себя «волну судебных исков», когда на некоторые компании, занимающиеся искусственным интеллектом, несколько раз предъявляли иски из-за проблем с конфиденциальностью данных. В ноябре группа программистов подала коллективный иск против Microsoft и OpenAI, утверждая, что компании нарушили их авторские права, используя их код для обучения помощников по программированию искусственного интеллекта. В июне этого года лос-анджелесская юридическая фирма Clarkson подала коллективный иск на 151 странице против OpenAI и Microsoft, указав на то, как OpenAI собирала данные у несовершеннолетних, заявив, что просмотр веб-страниц нарушает закон об авторском праве и представляет собой «воровство». С тех пор фирма подала аналогичный иск против Google.

Профессор Школы права Университета Санта-Клары Эрик Голдман (Eric Goldman) заявил в интервью СМИ, что доводы этого иска слишком широки и вряд ли будут приняты судом. Но он утверждает, что волна судебных исков только начинается, и грядут «вторая и третья волны», которые определят будущее искусственного интеллекта.

Юридический спор

ChatGPT и Dall-E от OpenAI, Bard от Google, Stable Diffusion от Stability AI и другие генеративные ИИ обучаются на основе массивных новостных статей, книг, изображений, видео и сообщений в блогах, взятых из Интернета, многие из которых общедоступны и защищены авторским правом.

В марте этого года OpenAI выпустила отчет об анализе основной языковой модели учреждения, показывающий, что текстовая часть обучающих данных использовала данные с новостных сайтов, Википедии и базы данных пиратских книг (LibGen), которая в настоящее время закрыта. Министерством юстиции США.

13 июля Федеральная торговая комиссия США (FTC) направила в OpenAI 20-страничный документ с просьбой предоставить OpenAI записи об управлении рисками, безопасности данных и обзоре информации о своих моделях искусственного интеллекта, чтобы выяснить, не нарушил ли он правила защиты прав потребителей. права.

12 июля подкомитет Сената США провел слушание по вопросам искусственного интеллекта, интеллектуальной собственности и авторского права, и присутствовавшие свидетели были приведены к присяге в суде. Слушания были услышаны от музыкальной индустрии, производителя Photoshop Adobe, компании Stability AI, занимающейся искусственным интеллектом, и иллюстратора Карлы Ортис.

Но в публичных выступлениях и в ответах на судебные иски компании, занимающиеся ИИ, утверждали, что разумно использовать защищенные авторским правом работы для обучения ИИ — ссылка на концепцию «преобразующего использования» в законе об авторском праве США, которая имеет место, если материал публикуется в категории «А». преобразующий» способ изменения, который создает исключение.

«Модель ИИ в основном учится на всей информации. Это похоже на то, как студент читает в библиотеке, а затем учится писать и читать», — сказал в интервью Кент Уокер, президент Google по международным делам. время, вы должны убедиться, что вы не копируете чужую работу или не делаете что-то, что нарушает авторские права».

Халима ДеЛейн Прадо, главный юрисконсульт Google, заявила СМИ: "В течение многих лет всем было ясно, что мы используем данные из общедоступных источников, такие как публикация в открытом Интернете и общедоступные данные. Собрана информация для обучения моделей ИИ, лежащих в основе сервисов. например Google Translate». Она отметила: «Закон США поддерживает создание новых и выгодных способов использования общедоступной информации, и мы с нетерпением ждем опровержения этих необоснованных утверждений».

Андрес Савицки, профессор Университета Майами, изучающий право интеллектуальной собственности, сказал в интервью, что есть некоторый прецедент, который может благоприятствовать технологическим компаниям, например, решение Апелляционного суда США от 1992 года, позволяющее компаниям предъявлять иски другим компаниям за их интеллектуальную собственность. права собственности Программные коды реконструированы для разработки конкурирующих продуктов. Но многие говорят, что для крупных корпораций интуитивно несправедливо использовать работу создателей для создания новых инструментов для зарабатывания денег. «На вопрос о генеративном ИИ действительно сложно ответить, — сказал он.

Джессика Д. Литман Савицки, профессор авторского права в Университете Майами, сказала, что доктрина добросовестного использования является мощной защитой для компаний, занимающихся ИИ, из-за размера моделей ИИ. конкретное человеческое существо. Но она утверждает, что если создатели, подающие в суд на компании, занимающиеся ИИ, смогут показать достаточное количество примеров результатов ИИ, которые очень похожи на их работу, у них будут веские основания полагать, что авторские права нарушаются.

Компании ИИ начинают реагировать

По словам Савицки, компании, занимающиеся искусственным интеллектом, могут избежать этого, установив фильтры в свои продукты, чтобы гарантировать, что они не будут генерировать ничего слишком похожего на существующую работу. Например, видеосайт YouTube уже использует технологию для обнаружения и автоматического удаления произведений, защищенных авторским правом, загруженных на его сайт. Теоретически компании, занимающиеся искусственным интеллектом, также могут создавать алгоритмы, которые находят результаты, очень похожие на существующие произведения искусства, музыки или письма.

Это «восстание данных» может не вызвать волнений в долгосрочной перспективе. Технологические гиганты, такие как Google и Microsoft, уже владеют огромными объемами закрытых данных и имеют возможность получать больше. Но стартапы и некоммерческие организации, стремящиеся конкурировать с более крупными игроками, могут не получить достаточно данных для обучения своих систем, поскольку получить контент становится все труднее.

Буквально в начале июля Стюарт Рассел, профессор компьютерных наук Калифорнийского университета в Беркли и автор книги «Искусственный интеллект: современный подход», предупредил, что роботы, управляемые ИИ, такие как ChatGPT, скоро «исчезнут из вселенной». «текст», а методы обучения ботов путем сбора больших объемов текста «начали давать сбои».

Некоторые компании также находятся на волне сотрудничества. В заявлении OpenAI говорится: «Мы уважаем права творческих людей и авторов и рассчитываем на продолжение работы с ними для защиты их интересов». OpenAI, а также использует технологии и продукты OpenAI.

В заявлении Google также говорится, что он участвовал в переговорах о том, как издатели будут управлять своим контентом в будущем. «Мы считаем, что каждый может извлечь выгоду из динамичной экосистемы контента», — заявили в компании.

Маргарет Митчелл (Margaret Mitchell), главный специалист по этике в компании по искусственному интеллекту HuggingFace, заявила в интервью СМИ: «Всю систему сбора данных нужно менять, и, к сожалению, этого нужно добиваться через судебные разбирательства, что зачастую является Это способ подтолкнуть технологические компании к изменениям».

Посмотреть Оригинал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
BTC Hits New High
56k Популярность
ETH Breaks $3,000
17k Популярность
VIP Exclusive Airdrop Carnival
5k Популярность
4Pump.Fun Debuts on Gate
3k Популярность
5Fed June Meeting Minutes
4k Популярность
6Join Gate VIP to Win MacBook
29k Популярность
7Trump Tariff Hikes
16k Популярность
8Gate xStocks Trading Share
22k Популярность
9HK Stablecoin Rules
12k Популярность
10Truth Social Crypto ETF
2k Популярность

Закрепить

Карта сайта