Професор Школи права Університету Санта-Клари в США Ерік Голдман вважає, що хвиля судових процесів тільки почалася, а наближаються «друга і третя хвилі», які визначать майбутнє штучного інтелекту.
Компанії, що займаються штучним інтелектом, стверджують, що для навчання штучного інтелекту розумно використовувати захищені авторським правом роботи — посилання на концепцію «трансформаційного використання» в законодавстві США про авторське право, де матеріал змінюється «трансформативним» способом, створить виняток.
Джерело зображення: створено інструментом Unbounded AI
Гільдія американських сценаристів страйкує вже понад 70 днів, вимагаючи підвищення зарплат, збільшення частки потокових медіа-платформ і нагляду за штучним інтелектом.
В Америці спалахує «повстання даних», серед бунтівників — Голлівуд, художники, письменники, компанії соціальних мереж і новинні організації.
Усю провину вказують на інструменти генеративного штучного інтелекту, такі як ChatGPT і Stable Diffusion, які звинувачуються в незаконному використанні роботи творців контенту для навчання великих мовних моделей без дозволу чи компенсації.
В основі цього «повстання даних» лежить нове визнання того, що онлайн-інформація – історії, твори мистецтва, новинні статті, веб-дописи та фотографії – може мати значну невикористану цінність. Практика збирання публічного вмісту в Інтернеті має довгу історію, і більшість компаній і некомерційних організацій, які це роблять, публічно розголошують це. Але до того, як ChatGPT було випущено, власники даних не знали про нього багато, і не вважали це особливо серйозною проблемою. Тепер це змінилося, оскільки громадськість дізналася більше про основи навчання ШІ.
«Це фундаментальна зміна цінності даних», — сказав Брендон Дудерштадт, засновник і генеральний директор Nomic, в інтерв’ю ЗМІ. Ви можете отримати доступ до даних і показувати рекламу, щоб отримати від них цінність. Тепер люди думають, що вони повинні захистити свої дані».
Приплив за хвилею
В останні місяці соціальні медіа-компанії, такі як Reddit і Twitter, новинні організації, такі як The New York Times і NBC, автор наукової фантастики Пол Трембле і актриса Сара Сільверман (Sarah Silverman) та інші вжили заходів, щоб протистояти несанкціонованому збору їхніх творів і даних. за допомогою штучного інтелекту. Цю серію дій американські ЗМІ охрестили «бунтом даних».
Минулого тижня Сільверман подав позов проти OpenAI і Meta, звинувативши їх у використанні піратських копій його книги у своїх навчальних даних, оскільки чат-боти компаній можуть точно узагальнювати вміст його книги. Крім того, понад 5000 авторів, у тому числі Джоді Піколт, Маргарет Етвуд і В’єт Тхань Нгуєн, підписали петицію із закликом до технологічних компаній просити їхнього дозволу та надавати їм авторство та компенсацію за використання їхніх книг як навчальних даних.
Щоб захистити свою творчість, письменники та художники вдаються до різних форм протесту. Деякі вирішують блокувати роботи та перешкоджати штучному інтелекту отримати їх; деякі вирішують бойкотувати веб-сайти, які публікують створений штучним інтелектом контент; деякі вирішують писати підривний вміст, щоб перешкоджати навчанню штучного інтелекту.
13 липня SAG-AFTRA, одна з трьох великих голлівудських профспілок із 160 тис. членами, оголосила про страйк, а до цього більше 70 днів страйкувала Гільдія сценаристів США. За даними New York Times, загальний страйк зупинив американську кіно- та телеіндустрію вартістю 134 мільярди доларів. Гарантовано не буде замінено акторів штучним інтелектом і створеними комп’ютером обличчями та голосами.
Тим часом деякі новинні організації чинять опір ШІ. У червні у внутрішній записці про використання генеративного штучного інтелекту The New York Times стверджувала: «Компанії штучного інтелекту повинні поважати нашу інтелектуальну власність». У своїй заяві онлайн-видавці, такі як The New York Times і The Washington Post, стверджували, що використання захищених авторським правом статті новин, оскільки навчальні дані для штучного інтелекту містять потенційні ризики та юридичні проблеми, і вони закликали компанії штучного інтелекту поважати знання видавців, права власності та творчу працю.
Компанії соціальних мереж також зайняли позицію. У квітні сайт соціальних новин Reddit заявив, що хоче стягувати плату з третіх сторін за доступ до свого інтерфейсу програмування додатків (API). Генеральний директор Reddit Стів Хоффман заявив, що його компанії «не потрібно віддавати всю цінність безкоштовно деяким з найбільших компаній у світі». У липні власник Twitter Ілон Маск (Elon Musk) також заявив, що деякі компанії та організації « незаконно" захопити велику кількість даних Twitter. У відповідь на "надзвичайне збирання даних і системні маніпуляції" Twitter вирішив обмежити кількість твітів, які можуть переглядати окремі облікові записи.
Засновник і генеральний директор Reddit Стів Хоффман хоче стягувати плату з третіх сторін за доступ до інтерфейсу прикладного програмування (API), що викликало масове обурення серед користувачів мережі.
Це «повстання даних» також включає «хвилю судових позовів», коли на деякі компанії зі штучним інтелектом неодноразово подавали до суду через проблеми з конфіденційністю даних. У листопаді група програмістів подала колективний позов проти Microsoft і OpenAI, стверджуючи, що компанії порушили їхні авторські права, використовуючи їхній код для навчання помічників програмування штучного інтелекту. У червні цього року юридична фірма Clarkson, що базується в Лос-Анджелесі, подала 151-сторінковий колективний позов проти OpenAI і Microsoft, вказуючи, як OpenAI збирала дані від неповнолітніх, заявивши, що веб-збирання порушує закон про авторське право та є «крадіжкою». Згодом фірма подала аналогічний позов проти Google.
Професор Школи права Університету Санта-Клари Ерік Голдман (Eric Goldman) заявив в інтерв'ю ЗМІ, що аргументи цього позову занадто широкі і навряд чи будуть прийняті судом. Але він стверджує, що хвиля судових позовів тільки починається, з наступаючими «другою та третьою хвилями», які визначатимуть майбутнє штучного інтелекту.
Правова суперечка
ChatGPT і Dall-E від OpenAI, Bard від Google, Stable Diffusion від Stability AI та інші генеративні штучні інтелекти навчаються на основі масивних статей новин, книг, зображень, відео та публікацій у блогах, взятих з Інтернету, багато з яких загальнодоступні та захищені авторським правом.
У березні цього року OpenAI опублікував звіт про аналіз основної мовної моделі закладу, який показує, що текстова частина навчальних даних використовує дані з веб-сайтів новин, Вікіпедії та піратської бази даних книг (LibGen), яка наразі закрита. Міністерство юстиції США.
13 липня Федеральна торгова комісія США (FTC) надіслала 20-сторінковий документ до OpenAI, вимагаючи від OpenAI надати записи про управління ризиками, безпеку даних і перевірку інформації про свої моделі штучного інтелекту, щоб перевірити, чи не порушує вона норми щодо прав споживачів. прав.
12 липня підкомітет Сенату США провів слухання з питань штучного інтелекту, інтелектуальної власності та авторського права, і свідки, які були присутні, були приведені до присяги в суді. На слуханнях виступили музична індустрія, виробник Photoshop Adobe, компанія зі штучного інтелекту Stability AI та ілюстратор Карла Ортіс.
Але у публічних виступах і у відповідь на судові позови компанії зі штучного інтелекту стверджували, що розумно використовувати захищені авторським правом твори для навчання ШІ — посилання на концепцію «трансформаційного використання» в законі про авторське право США, яке має місце, якщо матеріал публікується в A «перетворюючий» спосіб зміни, що створює виключення.
«Модель штучного інтелекту в основному навчається на основі всієї інформації. Це як студент читає в бібліотеці, а потім вчиться писати і читати», — сказав в інтерв’ю Кент Уокер, президент Google із глобальних справ. «Водночас час, ви повинні переконатися, що ви не копіюєте чиюсь роботу чи не робите щось, що порушує авторські права».
Халіма ДеЛейн Прадо, головний юрисконсульт Google, сказала ЗМІ: "Роками всім було зрозуміло, що ми використовуємо дані з відкритих джерел, наприклад публікації у відкритому Інтернеті та загальнодоступні дані. Збираємо інформацію для навчання моделей штучного інтелекту, що стоять за послугами. як Google Translate." Вона зазначила: "Закон США підтримує створення нових і корисних способів використання публічної інформації, і ми з нетерпінням чекаємо спростування цих безпідставних заяв".
Андрес Савіцкі, професор Університету Маямі, який вивчає право інтелектуальної власності, сказав в інтерв’ю, що існує певний прецедент, який може сприяти технологічним компаніям, наприклад, рішення Апеляційного суду США 1992 року, яке дозволило компаніям подавати до суду на інші компанії за їхні інтелектуальні права. права власності Програмні коди переробляються для створення конкуруючих продуктів. Але багато хто каже, що інтуїтивно несправедливо для великих корпорацій використовувати роботу творців для створення нових інструментів для заробітку. «На запитання про генеративний ШІ дійсно важко відповісти», — сказав він.
Джессіка Д. Літман Савікі, професор авторського права в Університеті Маямі, каже, що доктрина добросовісного використання є потужним захистом для компаній, що працюють зі штучним інтелектом, через розмір моделей штучного інтелекту. конкретної людини. Але вона стверджує, що якщо творці, які подають до суду на компанії штучного інтелекту, зможуть показати достатньо прикладів результатів штучного інтелекту, які дуже схожі на їхню роботу, вони матимуть вагомі підстави вважати, що авторські права порушуються.
Компанії ШІ починають реагувати
Компанії зі штучним інтелектом можуть уникнути цього, встановивши фільтри у своїх продуктах, щоб вони не створювали нічого надто схожого на існуючу роботу, сказав Саувіцкі. Наприклад, відеосайт YouTube уже використовує технологію для виявлення та автоматичного видалення творів, захищених авторським правом, завантажених на його сайт. Теоретично компанії зі штучним інтелектом також можуть створювати алгоритми, які знаходять результати, які дуже нагадують існуючі твори мистецтва, музику чи письмо.
Це «повстання даних» може не викликати хвилі в довгостроковій перспективі. Такі технічні гіганти, як Google і Microsoft, уже володіють величезною кількістю конфіденційних даних і мають можливість отримати більше. Але стартапи та некомерційні організації, які прагнуть зіткнутися з великими гравцями, можуть не отримати достатньо даних для навчання своїх систем, оскільки отримати вміст стає важче.
Ще на початку липня Стюарт Рассел, професор інформатики Каліфорнійського університету в Берклі та автор книги «Штучний інтелект: сучасний підхід», попередив, що роботи, керовані штучним інтелектом, такі як ChatGPT, незабаром можуть «зникнути зі Всесвіту». "текст" і методи навчання ботів шляхом збору великої кількості тексту "почали боротися".
Деякі компанії також налаштовані на співпрацю. У заяві OpenAI йдеться: «Ми поважаємо права творців і авторів і сподіваємось на продовження співпраці з ними, щоб захистити їхні інтереси». 14 липня Associated Press погодилося ліцензувати свій архів новин з 1985 року до OpenAI, використовуючи при цьому технологію та продукти OpenAI.
Google також заявив у заяві, що брав участь у переговорах щодо того, як видавці керуватимуть своїм контентом у майбутньому. «Ми віримо, що кожен може отримати вигоду від яскравої екосистеми контенту», — заявили в компанії.
Маргарет Мітчелл (Margaret Mitchell), головний науковець з питань етики в компанії штучного інтелекту HuggingFace, сказала в інтерв'ю ЗМІ: «Вся система збору даних повинна бути змінена, і, на жаль, цього потрібно досягти через судовий процес, який часто є Це спосіб підштовхнути технологічні компанії до змін». Вона сказала, що не здивується, якщо OpenAI повністю припинить роботу одного зі своїх продуктів до кінця року через судові позови або нові правила.
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
У США спалахує «повстання даних»: голлівудська література, журналістика та соцмережі повстають проти ШІ
Автор: стажист Чень Сяоруй; репортер Фан Сяо
Джерело: The Paper
Професор Школи права Університету Санта-Клари в США Ерік Голдман вважає, що хвиля судових процесів тільки почалася, а наближаються «друга і третя хвилі», які визначать майбутнє штучного інтелекту.
Компанії, що займаються штучним інтелектом, стверджують, що для навчання штучного інтелекту розумно використовувати захищені авторським правом роботи — посилання на концепцію «трансформаційного використання» в законодавстві США про авторське право, де матеріал змінюється «трансформативним» способом, створить виняток.
Гільдія американських сценаристів страйкує вже понад 70 днів, вимагаючи підвищення зарплат, збільшення частки потокових медіа-платформ і нагляду за штучним інтелектом.
В Америці спалахує «повстання даних», серед бунтівників — Голлівуд, художники, письменники, компанії соціальних мереж і новинні організації.
Усю провину вказують на інструменти генеративного штучного інтелекту, такі як ChatGPT і Stable Diffusion, які звинувачуються в незаконному використанні роботи творців контенту для навчання великих мовних моделей без дозволу чи компенсації.
В основі цього «повстання даних» лежить нове визнання того, що онлайн-інформація – історії, твори мистецтва, новинні статті, веб-дописи та фотографії – може мати значну невикористану цінність. Практика збирання публічного вмісту в Інтернеті має довгу історію, і більшість компаній і некомерційних організацій, які це роблять, публічно розголошують це. Але до того, як ChatGPT було випущено, власники даних не знали про нього багато, і не вважали це особливо серйозною проблемою. Тепер це змінилося, оскільки громадськість дізналася більше про основи навчання ШІ.
«Це фундаментальна зміна цінності даних», — сказав Брендон Дудерштадт, засновник і генеральний директор Nomic, в інтерв’ю ЗМІ. Ви можете отримати доступ до даних і показувати рекламу, щоб отримати від них цінність. Тепер люди думають, що вони повинні захистити свої дані».
Приплив за хвилею
В останні місяці соціальні медіа-компанії, такі як Reddit і Twitter, новинні організації, такі як The New York Times і NBC, автор наукової фантастики Пол Трембле і актриса Сара Сільверман (Sarah Silverman) та інші вжили заходів, щоб протистояти несанкціонованому збору їхніх творів і даних. за допомогою штучного інтелекту. Цю серію дій американські ЗМІ охрестили «бунтом даних».
Минулого тижня Сільверман подав позов проти OpenAI і Meta, звинувативши їх у використанні піратських копій його книги у своїх навчальних даних, оскільки чат-боти компаній можуть точно узагальнювати вміст його книги. Крім того, понад 5000 авторів, у тому числі Джоді Піколт, Маргарет Етвуд і В’єт Тхань Нгуєн, підписали петицію із закликом до технологічних компаній просити їхнього дозволу та надавати їм авторство та компенсацію за використання їхніх книг як навчальних даних.
Щоб захистити свою творчість, письменники та художники вдаються до різних форм протесту. Деякі вирішують блокувати роботи та перешкоджати штучному інтелекту отримати їх; деякі вирішують бойкотувати веб-сайти, які публікують створений штучним інтелектом контент; деякі вирішують писати підривний вміст, щоб перешкоджати навчанню штучного інтелекту.
13 липня SAG-AFTRA, одна з трьох великих голлівудських профспілок із 160 тис. членами, оголосила про страйк, а до цього більше 70 днів страйкувала Гільдія сценаристів США. За даними New York Times, загальний страйк зупинив американську кіно- та телеіндустрію вартістю 134 мільярди доларів. Гарантовано не буде замінено акторів штучним інтелектом і створеними комп’ютером обличчями та голосами.
Тим часом деякі новинні організації чинять опір ШІ. У червні у внутрішній записці про використання генеративного штучного інтелекту The New York Times стверджувала: «Компанії штучного інтелекту повинні поважати нашу інтелектуальну власність». У своїй заяві онлайн-видавці, такі як The New York Times і The Washington Post, стверджували, що використання захищених авторським правом статті новин, оскільки навчальні дані для штучного інтелекту містять потенційні ризики та юридичні проблеми, і вони закликали компанії штучного інтелекту поважати знання видавців, права власності та творчу працю.
Компанії соціальних мереж також зайняли позицію. У квітні сайт соціальних новин Reddit заявив, що хоче стягувати плату з третіх сторін за доступ до свого інтерфейсу програмування додатків (API). Генеральний директор Reddit Стів Хоффман заявив, що його компанії «не потрібно віддавати всю цінність безкоштовно деяким з найбільших компаній у світі». У липні власник Twitter Ілон Маск (Elon Musk) також заявив, що деякі компанії та організації « незаконно" захопити велику кількість даних Twitter. У відповідь на "надзвичайне збирання даних і системні маніпуляції" Twitter вирішив обмежити кількість твітів, які можуть переглядати окремі облікові записи.
Це «повстання даних» також включає «хвилю судових позовів», коли на деякі компанії зі штучним інтелектом неодноразово подавали до суду через проблеми з конфіденційністю даних. У листопаді група програмістів подала колективний позов проти Microsoft і OpenAI, стверджуючи, що компанії порушили їхні авторські права, використовуючи їхній код для навчання помічників програмування штучного інтелекту. У червні цього року юридична фірма Clarkson, що базується в Лос-Анджелесі, подала 151-сторінковий колективний позов проти OpenAI і Microsoft, вказуючи, як OpenAI збирала дані від неповнолітніх, заявивши, що веб-збирання порушує закон про авторське право та є «крадіжкою». Згодом фірма подала аналогічний позов проти Google.
Професор Школи права Університету Санта-Клари Ерік Голдман (Eric Goldman) заявив в інтерв'ю ЗМІ, що аргументи цього позову занадто широкі і навряд чи будуть прийняті судом. Але він стверджує, що хвиля судових позовів тільки починається, з наступаючими «другою та третьою хвилями», які визначатимуть майбутнє штучного інтелекту.
Правова суперечка
ChatGPT і Dall-E від OpenAI, Bard від Google, Stable Diffusion від Stability AI та інші генеративні штучні інтелекти навчаються на основі масивних статей новин, книг, зображень, відео та публікацій у блогах, взятих з Інтернету, багато з яких загальнодоступні та захищені авторським правом.
У березні цього року OpenAI опублікував звіт про аналіз основної мовної моделі закладу, який показує, що текстова частина навчальних даних використовує дані з веб-сайтів новин, Вікіпедії та піратської бази даних книг (LibGen), яка наразі закрита. Міністерство юстиції США.
13 липня Федеральна торгова комісія США (FTC) надіслала 20-сторінковий документ до OpenAI, вимагаючи від OpenAI надати записи про управління ризиками, безпеку даних і перевірку інформації про свої моделі штучного інтелекту, щоб перевірити, чи не порушує вона норми щодо прав споживачів. прав.
Але у публічних виступах і у відповідь на судові позови компанії зі штучного інтелекту стверджували, що розумно використовувати захищені авторським правом твори для навчання ШІ — посилання на концепцію «трансформаційного використання» в законі про авторське право США, яке має місце, якщо матеріал публікується в A «перетворюючий» спосіб зміни, що створює виключення.
«Модель штучного інтелекту в основному навчається на основі всієї інформації. Це як студент читає в бібліотеці, а потім вчиться писати і читати», — сказав в інтерв’ю Кент Уокер, президент Google із глобальних справ. «Водночас час, ви повинні переконатися, що ви не копіюєте чиюсь роботу чи не робите щось, що порушує авторські права».
Халіма ДеЛейн Прадо, головний юрисконсульт Google, сказала ЗМІ: "Роками всім було зрозуміло, що ми використовуємо дані з відкритих джерел, наприклад публікації у відкритому Інтернеті та загальнодоступні дані. Збираємо інформацію для навчання моделей штучного інтелекту, що стоять за послугами. як Google Translate." Вона зазначила: "Закон США підтримує створення нових і корисних способів використання публічної інформації, і ми з нетерпінням чекаємо спростування цих безпідставних заяв".
Андрес Савіцкі, професор Університету Маямі, який вивчає право інтелектуальної власності, сказав в інтерв’ю, що існує певний прецедент, який може сприяти технологічним компаніям, наприклад, рішення Апеляційного суду США 1992 року, яке дозволило компаніям подавати до суду на інші компанії за їхні інтелектуальні права. права власності Програмні коди переробляються для створення конкуруючих продуктів. Але багато хто каже, що інтуїтивно несправедливо для великих корпорацій використовувати роботу творців для створення нових інструментів для заробітку. «На запитання про генеративний ШІ дійсно важко відповісти», — сказав він.
Джессіка Д. Літман Савікі, професор авторського права в Університеті Маямі, каже, що доктрина добросовісного використання є потужним захистом для компаній, що працюють зі штучним інтелектом, через розмір моделей штучного інтелекту. конкретної людини. Але вона стверджує, що якщо творці, які подають до суду на компанії штучного інтелекту, зможуть показати достатньо прикладів результатів штучного інтелекту, які дуже схожі на їхню роботу, вони матимуть вагомі підстави вважати, що авторські права порушуються.
Компанії ШІ починають реагувати
Компанії зі штучним інтелектом можуть уникнути цього, встановивши фільтри у своїх продуктах, щоб вони не створювали нічого надто схожого на існуючу роботу, сказав Саувіцкі. Наприклад, відеосайт YouTube уже використовує технологію для виявлення та автоматичного видалення творів, захищених авторським правом, завантажених на його сайт. Теоретично компанії зі штучним інтелектом також можуть створювати алгоритми, які знаходять результати, які дуже нагадують існуючі твори мистецтва, музику чи письмо.
Це «повстання даних» може не викликати хвилі в довгостроковій перспективі. Такі технічні гіганти, як Google і Microsoft, уже володіють величезною кількістю конфіденційних даних і мають можливість отримати більше. Але стартапи та некомерційні організації, які прагнуть зіткнутися з великими гравцями, можуть не отримати достатньо даних для навчання своїх систем, оскільки отримати вміст стає важче.
Ще на початку липня Стюарт Рассел, професор інформатики Каліфорнійського університету в Берклі та автор книги «Штучний інтелект: сучасний підхід», попередив, що роботи, керовані штучним інтелектом, такі як ChatGPT, незабаром можуть «зникнути зі Всесвіту». "текст" і методи навчання ботів шляхом збору великої кількості тексту "почали боротися".
Деякі компанії також налаштовані на співпрацю. У заяві OpenAI йдеться: «Ми поважаємо права творців і авторів і сподіваємось на продовження співпраці з ними, щоб захистити їхні інтереси». 14 липня Associated Press погодилося ліцензувати свій архів новин з 1985 року до OpenAI, використовуючи при цьому технологію та продукти OpenAI.
Google також заявив у заяві, що брав участь у переговорах щодо того, як видавці керуватимуть своїм контентом у майбутньому. «Ми віримо, що кожен може отримати вигоду від яскравої екосистеми контенту», — заявили в компанії.
Маргарет Мітчелл (Margaret Mitchell), головний науковець з питань етики в компанії штучного інтелекту HuggingFace, сказала в інтерв'ю ЗМІ: «Вся система збору даних повинна бути змінена, і, на жаль, цього потрібно досягти через судовий процес, який часто є Це спосіб підштовхнути технологічні компанії до змін». Вона сказала, що не здивується, якщо OpenAI повністю припинить роботу одного зі своїх продуктів до кінця року через судові позови або нові правила.