İlk ChatGPT telif hakkı davası: OpenAI altı suçlamayla karşı karşıya kaldı ve kitap özetlerini çıkardığı için "yakalandı"

2023-08-07 02:33:22

Orijinal kaynak: Tencent Teknolojisi

Görsel kaynağı: Unbounded AI‌ tarafından oluşturuldu

28 Haziran 2023'te ilk temsili ChatGPT telif hakkı ihlali davası nihayet kamuoyunun gözü önünde göründü. İki yazar, Open AI'yi Kaliforniya Kuzey Bölge Mahkemesinde telif hakkıyla korunan kitaplarını ChatGPT'yi ticari kazanç için izin almadan eğitmek için kullanmakla suçlayarak, Open AI'ye karşı bir telif hakkı toplu davası açtı.

Davacılar Paul Tremblay ve Mona Awad, Massachusetts'te yaşıyorlar ve sırasıyla "The Cabin at the End of the World" ve "13 Ways of Look at a Fat Girl and Bunny" davasındaki eserlerin telif haklarına sahipler; sanık Açık yapay zeka üretken olanı yarattı ve çalıştırdı Yapay zeka ürünü ChatGPT şu anda temelde iki büyük dil modeli olan GPT-3.5 ve GPT-4 tarafından yürütülüyor.

Şikayet, davacının Open AI'ye kendi telif hakkıyla korunan kitaplarını model eğitimi için kullanmasına izin vermemesine rağmen, ChatGPT'nin s komutuna göre kitap özetleri çıkarabildiğini ve bunun ancak davalının külliyatta yer alan kitapları dahil etmesi durumunda gerçekleşebileceğini belirtiyordu. eğitim için.

01, kitap özetlerinin çıktısını almak için "yakalandı"

Davacı, davacının telif hakkına sahip olduğu kitaplar da dahil olmak üzere Open AI eğitim veri setinde yer alan büyük miktarda içeriğin telif hakkıyla korunan bir çalışma olduğunu belirtmiştir. Ancak Open AI ne davacının rızasını aldı, ne içeriğin kaynağını gösterdi, ne de gerekli ücretleri ödedi. Davacı tarafından yayınlanan kitaplar, yayın numarası, telif hakkı numarası, telif hakkı sahibinin adı ve kullanım koşulları dahil olmak üzere açık telif hakkı yönetim bilgilerine sahiptir.

**Davacı, mevcut gerçeklerden ve bilgilerden, ChatGPT'nin belirli bir kitabın özetini doğru bir şekilde oluşturabilmesinin tek açıklanabilir nedeninin, Open AI'nın söz konusu kitabı alıp kopyalaması ve onu büyük dil modeli (GPT3.1) için kullanması olduğu sonucuna varabilir. 5 veya GPT4) eğitimi. **

Davacının testi, ChatGPT'den davaya dahil olan iki kitabı e-posta yoluyla özetlemesi istendiğinde, ChatGPT'nin daha doğru bir özet oluşturabildiğini buldu (gerçi az miktarda yanlış içerik de vardı). Bu, ChatGPT'nin eğitim veri kümesindeki belirli bir çalışmanın içeriğini koruduğunu ve ilgili metni çıkarabildiğini gösterir. Aynı zamanda, büyük dil modelinin içerik oluşturma ilkesinin tasarımı sayesinde, ChatGPT'nin çıktı içeriği orijinal telif hakkı yönetimi bilgilerini içermeyecektir.

02 "ChatGPT, nasıl koşuyorsun!"

**Bu davayla ilgili ilginç olan şey, Open AI'nın ihlal edildiğini kanıtlama sürecinde, davacının ChatGPT'nin temel ilkelerini tanıtması, ChatGPT ile diyalog kurmasına ve ondan "kendini tanıtmasını" istemesine dayanıyordu. Spesifik içerik aşağıdaki şekilde özetlenmiştir. **

Open AI, GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) ve en son GPT-4 (2023.3) dahil olmak üzere bir dizi büyük dil modeli yayınladı. . Genel olarak konuşursak, yapay zeka yazılımı, insan mantığını ve akıl yürütmeyi algoritmalar aracılığıyla simüle etmek için istatistiksel yöntemler kullanmayı amaçlar. Büyük dil modeli, doğal dili ayrıştırmak ve çıktısını almak için kullanılan bir tür özel yapay zeka yazılımıdır.

**Bir yandan Open AI, ChatGPT'yi kullanıcılara bir web sayfası aracılığıyla aylık 20 ABD Doları karşılığında sağlar. **Kullanıcılar, ChatGPT'nin iki sürümünü, GPT-3.5 modelini veya güncellenmiş GPT-4 modelini seçebilir. ** Öte yandan ChatGPT, yazılım geliştiricilere API şeklinde de sunulmaktadır. **API arayüzü, geliştiricilerin ChatGPT ile veri alışverişi için programlar yazmasına olanak tanır, bu durumda kullanıma göre faturalandırılır.

** Hizmet ister bir sayfa ister bir API şeklinde sunulsun, ChatGPT aktif olarak kullanıcının isteğine cevap verecektir. **Kullanıcı ChatGPT'ye soru sorarsa cevap verir; kullanıcı ChatGPT'ye talimat verirse ChatGPT bunu yürütür; kullanıcı ChatGPT'den bir kitabın özetini özetlemesini isterse, ChatGPT yine yapar.

03 Kitaplar, büyük model eğitimi için temel kaynaklardır

Davacının bakış açısı, mühendisler tarafından yazılan geleneksel yazılımdan farklı olarak, büyük dil modelinin "eğitim" yoluyla, yani farklı kaynaklardan büyük miktarda içerik derlemi toplayarak ve bunları modele "besleyerek" geliştirildiğidir. (eğitim veri kümesi).

Büyük dil modeli, çıktısını sürekli olarak eğitilen eserlerdeki metin kombinasyonlarının sırasına mümkün olduğunca yakın olacak şekilde ayarlayacaktır. ** Büyük dil modellerini eğitmek için birçok içeriğin kullanılmasına rağmen, yüksek kaliteli uzun biçimli yazının en iyi örneklerini sağladıkları için kitapların her zaman eğitim veri setindeki temel korpus materyalleri olduğunu belirtmekte fayda var. **

Open AI, Haziran 2018'de yayınlanan "Geliştirici Dil Anlayışını Üretken Ön Eğitim Yoluyla Geliştirme" kurumsal makalesinde, GPT-1 eğitiminin "BookCorpus" veri kümesine dayandığını açıkladı. "BookCorpus" macera, fantezi ve aşk gibi farklı alanlarda 7.000 kitap içeriyor. **Open AI, kitapların bir eğitim külliyatı olarak özellikle önemli olmasının nedeninin, üretken modellerin uzun metin bilgilerinin nasıl işleneceğini öğrenmesine izin veren uzun sürekli metinler içermesi olduğuna dikkat çekti. **

** Open AI, Google, Amazon vb. dahil olmak üzere birçok yapay zeka araştırma ve geliştirme şirketi, model eğitimi için "BookCorpus" kullanır. ** 2015 yılında bir yapay zeka araştırma ekibi, Smashwords.com web sitesinden kitapların yer aldığı bu veri setini oluşturmuş ancak "BookCorpus" bu kitapları dahil ederken telif hakkı sahibinden izin almamıştır.

04 GPT'nin ardındaki kitap külliyatının gizemini çözme

Davacı, Open AI'ın bilgileri ifşa etme girişimini (kurumsal belgeler) halka açık bir şekilde araştırarak, GPT serisi modellerin eğitiminin büyük miktarda kitap içeriğinin izinsiz kullanımına dayandığını göstermeyi umuyor. **Temmuz 2020'de yayınlanan "Language Models Are Small Sample Learners" kurumsal makalesinde Open AI, GPT-3 eğitim veri setindeki içeriğin %15'inin "Books1" ve "Books2" adlı iki elektronik veri tabanından geldiğini açıkladı. Kitap külliyatı. **

Open AI, "Kitaplar1" ve "Kitaplar2" içeriklerinin ayrıntılarını açıklamasa da, ilgili ipuçlarından çıkarılabilir: birincisi, iki derlem internetten alınmıştır; ikincisi, iki dercenin ölçeği önemli ölçüde daha büyüktür. "Kitap Corpus". Open AI'nın açıklamasına göre, "Books1" ölçeği BookCorpus'un (yaklaşık 63.000 kitap) 9 katı ve Books2 42 katıdır (yaklaşık 294.000 kitap). **Gerçekte, yalnızca çok az sayıda veri tabanı bu kadar büyük ölçekli bir kitap külliyatı sağlayabilir. Bir yandan, "Kitaplar1" muhtemelen "Project Gutenberg" veya "Project Gutenberg Corpus Standardization"dan gelmektedir. **Project Gutenberg, "telif hakkı koruması süresinin ötesinde" e-kitaplardan oluşan çevrimiçi bir kitaplıktır. Eylül 2020'de Project Gutenberg, 60.000'den fazla kitap içerdiğini duyurdu. Telif hakkı ile korunmadığı için Project Gutenberg, yapay zeka modeli eğitiminde yaygın olarak kullanılmaktadır. 2018'de bir yapay zeka araştırma ekibi, "Gutenberg Projesi"ne dayalı olarak 50.000'den fazla kitaptan oluşan "Standardized Project Gutenberg Corpus"u (Standardized Project Gutenberg Corpus) oluşturdu. **Öte yandan, "Books2" büyük olasılıkla İnternet'teki "Shadow Library"den türetilmiştir. **"Books2" veri kümesi yaklaşık 29.400 kitap içerir ve yalnızca çok eleştirilen "gölge kitaplık" bu kadar büyük ölçekli bir kitap külliyatı sağlayabilir. Örnekler arasında diğerlerinin yanı sıra Library Genesis, Z-Library, Sci-Hub ve Bibliotik yer alır. "Gölge Kitaplık" terimi, Amerika Birleşik Devletleri Sosyal Bilimler Araştırma Konseyi tarafından 2011 yılında yayınlanan "Media Piracy in Emerging Economies" makalesinde türetilmiştir. Open AI, Mart 2023'te GPT-4 kurumsal raporunu yayınladı, ancak "sektörün rekabet durumu ve ürün uygulama güvenliği göz önüne alındığında, eğitim veri setinin yapısı ve içeriğinin artık ifşa edilmeyeceğini" belirtti.

05 Open AI altı ihlal iddiasıyla karşı karşıya

**Davacı, Open AI aleyhine toplam altı iddiada bulundu; ilk üçü telif hakkı ihlali, dördüncüsü haksız rekabet ve beşinci ve altıncısı iki temel hukuki sorumluluk türü olan özen yükümlülüğü ve sebepsiz zenginleşme ile ilgili. **

**İlk olarak, doğrudan telif hakkı ihlali. **Davacı, Open AI'ye kitaplarından türetilmiş eserler üretmesi veya çoğaltması için yetki vermemiştir ve Open AI'ye yukarıda belirtilen reprodüksiyonları veya türetilmiş çalışmaları alenen sergilemesi veya dağıtması için yetki vermemiştir.

Buna ek olarak davacı, Open AI büyük dil modelinin çalışması için davacının kitaplarından anlamlı bilgileri çıkarması ve kaydetmesi gerektiğinden, büyük dil modelinin kendisinin davacının izni olmadan ihlal edici bir türev çalışma oluşturduğunu vurguladı.

**İkincisi, telif hakkı ikame ihlali. **Davacı, yetkilendirme olmadığında, büyük modelin her bir çıktısının ihlal edici bir türev çalışma oluşturduğunu vurguladı. Open AI, büyük dil modelinin içerik çıktısını kontrol etme ve bundan ekonomik fayda sağlama hakkına ve yeteneğine sahip olduğundan, bir telif hakkı ikame ihlali oluşturur.

Amerikan içtihat hukuku sistemi altında, "ikame ihlali", "ihlallere yardım" ve "ihlale yataklık etme" birlikte eksiksiz bir dolaylı telif hakkı ihlali sistemi oluşturur. Dolaylı ihlal, doğrudan ihlalin tersidir, yani ihlal eden kişi telif hakkının münhasır hakları tarafından düzenlenen davranışta doğrudan bulunmasa da (yani doğrudan telif hakkı ihlali), doğrudan telif hakkı ihlali için belirli koşullar sağlar.

**Üçüncüsü, DMCA'daki telif hakkı yönetimi bilgileri hükümlerini ihlal ediyor. ** Ürün tasarım mekanizması açısından, ChatGPT tarafından üretilen içerik, çalışmanın "telif hakkı yönetimi bilgilerini" (CMI) muhafaza etmeyecektir, bu nedenle davalının davacının çalışmasına ait telif hakkı yönetimi bilgilerini kasıtlı olarak kaldırma davranışı "Dijital Binyıl Telif Hakkı Yasası" (DMCA) Hükümleri. Ayrıca sanıklar, telif hakkı yönetimi bilgisi olmadan ihlal edici türev çalışmaları izinsiz dağıtarak DMCA'yı da ihlal ettiler.

"Telif hakkı yönetimi bilgisi", bir eserin sahibini, hakların mülkiyetini ve kullanım koşullarını tanımlayabilen bilgilerdir. Amerika Birleşik Devletleri'nde veya benim ülkemde, telif hakkı yönetimi bilgilerini silmek veya değiştirmek veya silinmiş veya değiştirilmiş telif hakkı yönetimi bilgileriyle kamu eserlerinin kullanımına sunmak yasa dışıdır.

**Dördüncüsü, haksız rekabet. **Open AI'nın model eğitimi için davacının telif hakkıyla korunan çalışmasını izinsiz kullanması, uygunsuz, ahlaka aykırı, zorlayıcı ve tüketicilerin Menfaatine zarar verdiği için California İş ve Meslekler Yasası'nın ihlalidir.

Davalı, ChatGPT'yi kasıtlı olarak içeriğin kaynağını belirtmeden davacının çalışmasının parçalarını ve özetlerini çıkaracak şekilde tasarlamıştır. ChatGPT, yazarını gizleyerek ve ihlal edilen eserlerin içerik ve görüşlerini kopyalayarak haksız menfaat ve itibar elde etmek için ticari ürünler geliştirmektedir.

**Beşinci olarak, taksirle ihlal özen yükümlülüğünün ihlalidir. **Open AI, "California Medeni Kanununda" öngörülen özen yükümlülüğünü taşımalıdır - tüm insanlar başkalarına karşı makul bir davranış sergilemelidir. Bu yükümlülük, endüstri geleneğine, ticari uygulamalara, davalının elinde bulunan bilgilere ve bilgilere dayalı olarak kontrol etme kabiliyetine dayanmaktadır.

Davalı, davacının telif hakkıyla korunan çalışmalarını GPT modelinin eğitimi amacıyla topladıktan sonra, belirli bir özen yükümlülüğü taşıması gerekir: Model eğitimi için eserlerin izinsiz kullanımının davacıya zarar vereceğinin öngörülebilir olması, bu eserleri tekrar ihlal etmemeli ve kullanmamalıdır.

** Altıncı sebepsiz zenginleşme. **Davacı, söz konusu kitabın oluşturulması için önemli ölçüde zaman ve çaba harcamıştır. Yetkisiz olarak GPT modelini eğitmek için kendi çalışması kullanıldığı için, davacı işten kar elde etme hakkından mahrum bırakılmıştır. GPT modelini eğitmek için davacının çalışmasını kullanarak ticari çıkar elde etmek davalıya haksızlıktır. Yasaklanmadığı veya sınırlandırılmadığı sürece, davalının davranışı davacıya onarılamaz zararlar verecektir.

** Sonunda yazılmıştır: bu durumda tartışılacak üç konu. **

**ChatGPT'nin telif hakkı ihlaline ilişkin ilk temsili dava olarak, Kaliforniya Kuzey Bölge Mahkemesi'nin resmi bir karar vermesi için daha uzun bir süreç olacaktır. Ancak bundan önce, davacının şikayetinin özel içeriği ile ilgili olarak dikkate alınması ve dikkate alınması gereken bazı hususlar bulunmaktadır. **

**Endişe 1: Model ihlalini bulmak kolay değil. **

Büyük dil modellerinin eğitimi, esasen eserlerin kullanılmasına ilişkin bir tür içsel ve açık olmayan davranıştır ve telif hakkı sahipleri, eserlerinin ihlal edildiğini bulma konusunda gerçek bir sorun yaşarlar. Genel olarak sadece modelin ürettiği içeriğin kendi çalışmasıyla büyük ölçüde benzerliği kıyaslandığında, model eğitim aşamasında eserin izinsiz kullanıldığı çıkarımı yapılabilir. Bu davada, davacının kitabının Open AI kapsamındaki büyük dil modeli tarafından ihlal edildiğini iddia edebilmesinin nedeni, ChatGPT'nin kendi çalışmasının bir özetini çıkardığını keşfetmesiydi.

Ancak bu iddianın geçerli olup olmadığı henüz belli değil. **ChatGPT'nin ortaya koyduğu çalışmanın özeti, davacının kitaplarının doğrudan kopyalanması ve eğitilmesinden ziyade, yalnızca davacının kitaplarının internetteki halka tanıtım materyallerinin toplanmasına dayanıyorsa, ihlal iddiasının meşruiyeti sarsılacaktır. **Davacı ayrıca, ChatGPT tarafından çıkarılan kitabın özetinde birkaç olgusal hata olduğunu da kabul etmiştir; bu da, büyük modelin söz konusu kitapları tam olarak incelememiş olabileceğini bir dereceye kadar göstermektedir.

**Endişe 2: Ne tür hakların ihlal edildiğinin gösterilmesi gerekiyor. **

Şu anda, "çalışma verilerinin saklanması" resmi olarak Telif Hakkı Yasası'ndaki "çoğaltma hakkı" düzenlemesi kapsamına girebilse de, temel "çalışma verilerinin eğitim davranışı" nın ihlal edilip edilmediği ve telif hakkı yasasında ne tür haklar olduğu henüz ihlal edilmemiş, oybirliğiyle varılan sonuçlar var. Bu davada davacı, büyük dil modelinin normal işleyişinin ve içerik çıktısının eserin külliyatının eğitimine dayandığını, bu nedenle büyük modelin eğitiminin telif hakkı ihlali teşkil ettiğini ve büyük modelin kendisinin ihlal teşkil ettiğini vurguladı. türetilmiş iş.

Bu iddia da araştırılmayı bekliyor. **Bu durumda "belirli telif hakkı çalışmalarının s biçiminde genelleştirilmesini, özetlenmesini ve çevrilmesini gerektiren" gibi birkaç özel içerik oluşturma gereksinimi dışında, çoğu durumda büyük model açık içerik oluşturma talimatlarını kabul eder (belirli içerik oluşturma yönergeleriyle sınırlı değildir). eserler, belirli yazarın stili), temel olarak belirli çalışmaları veya hatta belirli çalışmaların parçalarını çıkarmayacaktır, bu nedenle telif hakkı ihlali oluşturmaz. **

**Endişe 3: Yukarı ve aşağı yönlü sorumlulukların açıklığa kavuşturulması gerekir. **

Büyük model telif hakkı alanında, model geliştirici, büyük modelin kendisiyle ilgili haklara sahiptir, bu nedenle model eğitimiyle ilgili telif hakkı sorumluluğunu üstlenir; mevcut endüstri uygulamasına bakılırsa, büyük modelin çıktı içeriğine gelince, ortak uygulama, hakların sözleşmeler yoluyla netleştirilmesidir ve sorumluluk kullanıcıya aittir. 10 Temmuz 2023'te, Çin Siber Uzay İdaresi tarafından yayınlanan "Üretken Yapay Zeka Hizmetlerinin Yönetimine Yönelik Geçici Tedbirler" de, "sağlayıcıların her iki tarafın hak ve yükümlülüklerini açıklığa kavuşturmak için kullanıcılarla hizmet sözleşmeleri imzalaması gerektiğini" de açıkça kabul etti.

**Dikkat çekmeye değerdir.Davacının iddiasından yola çıkarak, model eğitimi ve içerik çıktısı olmak üzere iki aşamalı hak ve sorumlulukların bölünmesi fikrini de takip etmektedir. **Davacının doğrudan telif hakkı ihlali iddiası, Açık AI modeli eğitim aşamasına odaklanmaktadır: ilk olarak, model eğitim sürecinde davacının izni olmadan kitapların kopyaları yapılmıştır; ikincisi, davacının izni olmadan, büyük dil modelinin kendisi bir hak ihlali oluşturur. türetilmiş iş. **Davacının ChatGPT'nin çıktı içeriğinin ihlali iddiası, yalnızca Open AI'nin dolaylı bir telif hakkı ihlali (ikame ihlali) oluşturduğunu iddia etmektir. Bu aynı zamanda, büyük modelin çıktı içeriği için, karşılık gelen haklara sahip olduğundan, kullanıcının doğrudan telif hakkı ihlalinden sorumlu olduğu anlamına gelir. **

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.