Pada 28 Juni 2023, gugatan pelanggaran hak cipta ChatGPT perwakilan pertama akhirnya muncul di mata publik. Dua penulis mengajukan gugatan class action hak cipta terhadap Open AI di Pengadilan Distrik Utara California, menuduh yang terakhir menggunakan buku berhak cipta mereka untuk melatih ChatGPT tanpa izin untuk keuntungan komersial.
Para penggugat, Paul Tremblay dan Mona Awad, tinggal di Massachusetts dan masing-masing memiliki hak cipta atas karya-karya yang terlibat dalam kasus "Kabin di Ujung Dunia" dan "13 Cara Memandang Gadis Gemuk dan Kelinci"; tergugat Open AI dibuat dan dioperasikan secara generatif Produk kecerdasan buatan ChatGPT saat ini terutama didorong oleh dua model bahasa besar yang mendasarinya, GPT-3.5 dan GPT-4.
Keluhan menunjukkan bahwa meskipun penggugat tidak mengizinkan Open AI untuk menggunakan buku hak ciptanya sendiri untuk pelatihan model, ChatGPT dapat mengeluarkan ringkasan buku sesuai dengan perintah, yang hanya dapat terjadi jika tergugat memasukkan buku-buku yang terlibat dalam korpus. untuk latihan.
01 "ditangkap" untuk mengeluarkan ringkasan buku
Penggugat menyatakan bahwa sejumlah besar konten yang terkandung dalam kumpulan data pelatihan Open AI adalah karya berhak cipta, termasuk buku-buku yang hak ciptanya dimiliki oleh penggugat. Namun, Open AI tidak memperoleh persetujuan dari penggugat, juga tidak menunjukkan sumber konten, atau membayar biaya yang diperlukan. Buku-buku yang diterbitkan oleh penggugat memiliki informasi manajemen hak cipta yang jelas, termasuk nomor terbitan, nomor hak cipta, nama pemilik hak cipta, dan syarat penggunaan.
**Penggugat dapat menyimpulkan dari fakta dan informasi yang ada bahwa satu-satunya alasan yang dapat dijelaskan mengapa ChatGPT dapat secara akurat membuat ringkasan buku tertentu adalah karena Open AI memperoleh dan menyalin buku yang terlibat, dan menggunakannya untuk model bahasanya yang besar (GPT3. 5 atau GPT4) pelatihan. **
Tes penggugat menemukan bahwa ketika ChatGPT diminta untuk meringkas dua buku yang terlibat dalam kasus melalui s, ChatGPT dapat menghasilkan ringkasan yang lebih akurat (walaupun ada juga sedikit konten yang salah). Ini menunjukkan bahwa ChatGPT menyimpan konten dari pekerjaan tertentu dalam kumpulan data pelatihan dan dapat menampilkan teks yang sesuai. Pada saat yang sama, melalui desain prinsip pembuatan konten model bahasa besar, konten keluaran ChatGPT tidak akan berisi informasi manajemen hak cipta asli.
**02 "ChatGPT, bagaimana Anda menjalankannya!" **
**Hal yang menarik tentang kasus ini adalah bahwa dalam proses pembuktian pelanggaran Open AI, pengenalan prinsip dasar ChatGPT oleh penggugat didasarkan pada dialog dengan ChatGPT dan memintanya untuk "memperkenalkan dirinya". Konten spesifik diringkas sebagai berikut. **
Open AI telah merilis serangkaian model bahasa besar, termasuk GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) dan GPT-4 terbaru (2023·3) . Secara umum, perangkat lunak kecerdasan buatan bertujuan untuk menggunakan metode statistik untuk mensimulasikan logika dan penalaran manusia melalui algoritme. Model bahasa besar adalah jenis perangkat lunak kecerdasan buatan khusus yang digunakan untuk mem-parsing dan menghasilkan bahasa alami.
**Di satu sisi, Open AI menyediakan ChatGPT kepada pengguna melalui halaman web dengan harga $20 per bulan. **Pengguna dapat memilih dua versi ChatGPT, model GPT-3.5 atau model GPT-4 yang diperbarui. ** Di sisi lain, ChatGPT juga disediakan untuk pengembang perangkat lunak dalam bentuk API. **Antarmuka API memungkinkan pengembang menulis program untuk pertukaran data dengan ChatGPT, dalam hal ini ditagih sesuai penggunaan.
** Apakah layanan disediakan dalam bentuk halaman atau API, ChatGPT akan secara aktif menanggapi permintaan pengguna. **Jika pengguna mengajukan pertanyaan kepada ChatGPT, jawaban akan diberikan; jika pengguna memberikan instruksi kepada ChatGPT, ChatGPT akan menjalankannya; jika pengguna meminta ChatGPT untuk meringkas ringkasan buku, ChatGPT akan tetap melakukannya.
03 Buku adalah korpus inti untuk pelatihan model besar
Sudut pandang penggugat adalah bahwa, tidak seperti perangkat lunak tradisional, yang ditulis oleh para insinyur, model bahasa besar dikembangkan melalui "pelatihan"—mengumpulkan kumpulan konten besar dari berbagai sumber dan "memasukkan" mereka ke dalam model. Dikenal sebagai kumpulan data pelatihan (kumpulan data pelatihan).
Model bahasa besar akan terus menyesuaikan keluarannya sedekat mungkin dengan urutan kombinasi teks dalam karya yang dilatih. ** Perlu dicatat bahwa meskipun banyak konten digunakan untuk melatih model bahasa besar, buku selalu menjadi materi korpus inti dalam dataset pelatihan karena memberikan contoh terbaik penulisan bentuk panjang berkualitas tinggi. **
Dalam makalah perusahaan "Meningkatkan Pemahaman Bahasa Melalui Pra-Pelatihan Generatif" yang diterbitkan pada Juni 2018, Open AI mengungkapkan bahwa pelatihan GPT-1 bergantung pada kumpulan data "BookCorpus". "BookCorpus" berisi 7.000 buku di berbagai bidang seperti petualangan, fantasi, dan romansa. **Open AI menunjukkan bahwa alasan mengapa buku sangat penting sebagai korpus pelatihan adalah karena berisi teks panjang yang berkelanjutan, yang memungkinkan model generatif mempelajari cara memproses informasi teks panjang. **
** Banyak perusahaan penelitian dan pengembangan kecerdasan buatan, termasuk Open AI, Google, Amazon, dll., menggunakan "BookCorpus" untuk pelatihan model. ** Pada tahun 2015, tim peneliti kecerdasan buatan membuat kumpulan data ini, yang berisi buku-buku dari situs web Smashwords.com, tetapi "BookCorpus" tidak memperoleh otorisasi dari pemilik hak cipta saat memasukkan buku-buku ini.
04 Mengungkap korpus buku di belakang GPT
Dengan mencari secara terbuka inisiatif Open AI untuk mengungkapkan informasi (makalah perusahaan), penggugat berharap dapat menunjukkan bahwa pelatihan model seri GPT didasarkan pada penggunaan konten buku besar yang tidak sah. **Dalam makalah perusahaan "Language Models Are Small Sample Learners" yang diterbitkan pada Juli 2020, Open AI mengungkapkan bahwa 15% konten dalam kumpulan data pelatihan GPT-3 berasal dari dua database elektronik bernama "Books1" dan "Books2". Korpus buku. **
Meskipun Open AI tidak menjelaskan secara spesifik isi "Buku1" dan "Buku2", hal itu dapat disimpulkan dari petunjuk yang relevan: pertama, kedua kumpulan itu berasal dari Internet; kedua, skala kedua kumpulan itu secara signifikan lebih besar daripada "Korpus Buku". Menurut pengungkapan Open AI, skala "Books1" adalah 9 kali BookCorpus (sekitar 63.000 buku), dan Books2 adalah 42 kali (sekitar 294.000 buku). **Pada kenyataannya, hanya sejumlah kecil database yang dapat menyediakan korpus buku berskala besar. Di satu sisi, "Books1" mungkin berasal dari "Project Gutenberg" atau "Project Gutenberg Corpus Standardization". **Project Gutenberg adalah perpustakaan online e-book "di luar ketentuan perlindungan hak cipta". Pada bulan September 2020, Project Gutenberg mengumumkan telah memasukkan lebih dari 60.000 buku. Karena tidak dilindungi hak cipta, Project Gutenberg banyak digunakan untuk pelatihan model kecerdasan buatan. Pada tahun 2018, tim peneliti kecerdasan buatan menciptakan "Proyek Gutenberg Corpus yang Distandarisasi" (Standardized Project Gutenberg Corpus) lebih dari 50.000 buku berdasarkan "Project Gutenberg". **Di sisi lain, "Books2" kemungkinan besar berasal dari "Perpustakaan Bayangan" di Internet. ** Kumpulan data "Buku2" berisi sekitar 29.400 buku, dan hanya "perpustakaan bayangan" yang banyak dikritik yang dapat menyediakan korpus buku berskala besar. Contohnya antara lain Library Genesis, Z-Library, Sci-Hub, dan Bibliotik. Istilah "Perpustakaan Bayangan" diciptakan oleh Dewan Riset Ilmu Sosial Amerika Serikat dalam artikel "Media Piracy in Emerging Economies" yang diterbitkan pada tahun 2011. Pada bulan Maret 2023, Open AI merilis makalah perusahaan GPT-4, tetapi menyatakan bahwa "dengan mempertimbangkan situasi persaingan industri dan keamanan aplikasi produk, struktur dan konten kumpulan data pelatihan tidak akan diungkapkan lagi."
05 Open AI menghadapi enam tuduhan pelanggaran
**Penggugat mengajukan total enam tuduhan terhadap AI Terbuka, tiga yang pertama melibatkan pelanggaran hak cipta, yang keempat melibatkan persaingan tidak sehat, dan yang kelima dan keenam melibatkan dua jenis tanggung jawab perdata dasar—tugas kehati-hatian dan pengayaan yang tidak adil. **
**Pertama, pelanggaran hak cipta secara langsung. **Penggugat tidak mengizinkan Open AI untuk mereproduksi atau membuat karya turunan dari bukunya, juga tidak mengizinkan Open AI untuk menampilkan atau mendistribusikan reproduksi atau karya turunan yang disebutkan di atas.
Selain itu, penggugat menekankan bahwa karena model bahasa besar Open AI perlu mengekstraksi dan menyimpan informasi ekspresif dari buku penggugat untuk beroperasi, model bahasa besar itu sendiri merupakan karya turunan yang melanggar tanpa izin penggugat.
** Kedua, pelanggaran pengganti hak cipta. **Penggugat menekankan bahwa dengan tidak adanya otorisasi, setiap keluaran dari model besar merupakan karya turunan yang melanggar. Karena memiliki hak dan kemampuan untuk mengontrol keluaran konten dari model bahasa besar dan mendapatkan keuntungan ekonomi darinya, Open AI merupakan pelanggaran substitusi hak cipta.
Di bawah sistem hukum kasus Amerika, "pelanggaran pengganti", "membantu pelanggaran" dan "bersekongkol melanggar" bersama-sama merupakan sistem lengkap pelanggaran hak cipta tidak langsung. Pelanggaran tidak langsung berlawanan dengan pelanggaran langsung, yang berarti bahwa meskipun pelanggar tidak secara langsung terlibat dalam perilaku yang diatur oleh hak eksklusif hak cipta (yaitu, pelanggaran hak cipta langsung), itu memberikan kondisi tertentu untuk pelanggaran hak cipta secara langsung.
**Ketiga, melanggar ketentuan informasi manajemen hak cipta di DMCA. ** Dari perspektif mekanisme desain produk, konten keluaran ChatGPT tidak akan mempertahankan "informasi manajemen hak cipta" (CMI) dari karya tersebut, sehingga perilaku tergugat yang dengan sengaja menghapus informasi manajemen hak cipta dari karya penggugat melanggar "Digital Ketentuan Millennium Copyright Act" (DMCA). Selain itu, tergugat juga melanggar DMCA dengan mendistribusikan karya turunan yang melanggar tanpa informasi manajemen hak cipta tanpa izin.
"Informasi manajemen hak cipta" adalah informasi yang dapat mengidentifikasi pemilik ciptaan, kepemilikan hak, dan kondisi penggunaan. Baik di Amerika Serikat atau negara saya, adalah ilegal untuk menghapus atau mengubah informasi manajemen hak cipta, atau menyediakan karya publik dengan informasi manajemen hak cipta yang dihapus atau diubah.
**Keempat, persaingan tidak sehat. **Penggunaan karya berhak cipta penggugat secara tidak sah oleh Open AI untuk pelatihan model merupakan pelanggaran Kode Bisnis dan Profesi California karena tidak pantas, tidak bermoral, memaksa, dan merugikan Manfaat konsumen.
Tergugat dengan sengaja merancang ChatGPT untuk menampilkan cuplikan dan abstrak dari karya penggugat tanpa menunjukkan sumber kontennya. ChatGPT mengembangkan produk komersial untuk mendapatkan keuntungan dan reputasi yang tidak adil dengan menyembunyikan pencipta dan menyalin konten dan opini dari karya yang dilanggar.
**Kelima, lalai pelanggaran merupakan pelanggaran terhadap kewajiban kehati-hatian. **Open AI harus menanggung tugas kehati-hatian yang diatur dalam "KUHPerdata California" - semua orang harus mengadopsi perilaku yang wajar terhadap orang lain. Kewajiban ini didasarkan pada kebiasaan industri, praktik bisnis, informasi yang dimiliki terdakwa, dan kemampuan untuk mengontrol berdasarkan informasi tersebut.
Setelah tergugat mengumpulkan karya berhak cipta dari penggugat untuk tujuan pelatihan model GPT, ia harus menanggung kewajiban tertentu: ketika diperkirakan bahwa penggunaan karya yang tidak sah untuk pelatihan model akan menyebabkan kerusakan pada penggugat, itu tidak boleh melanggar dan menggunakan karya-karya ini lagi.
** Keenam, pengayaan yang tidak adil. ** Penggugat mencurahkan banyak waktu dan upaya untuk pembuatan buku yang dipermasalahkan. Karena karyanya sendiri digunakan untuk melatih model GPT tanpa izin, penggugat kehilangan hak untuk mendapatkan keuntungan dari pekerjaan tersebut. Tidak adil bagi tergugat untuk mendapatkan keuntungan komersial dengan menggunakan pekerjaan penggugat untuk melatih model GPT. Kecuali dilarang atau dibatasi, perbuatan tergugat akan menyebabkan kerugian yang tidak dapat diperbaiki bagi penggugat.
** Tertulis di bagian akhir: tiga isu yang akan dibahas dalam kasus ini. **
**Sebagai gugatan perwakilan pertama dari pelanggaran hak cipta ChatGPT, masih akan ada proses panjang sebelum Pengadilan Negeri California Utara membuat keputusan resmi. Namun sebelum itu, masih ada beberapa hal yang perlu diperhatikan dan dipertimbangkan terkait dengan isi spesifik dari gugatan penggugat. **
**Kekhawatiran 1: Tidak mudah menemukan pelanggaran model. **
Pelatihan model bahasa besar pada dasarnya adalah semacam perilaku internal dan non-eksplisit dalam menggunakan karya, dan pemilik hak cipta memiliki masalah nyata untuk mengetahui bahwa karya mereka telah dilanggar. Secara umum, hanya dengan membandingkan konten yang dihasilkan oleh model dengan karyanya sendiri secara substansial serupa, dapat disimpulkan bahwa ada penggunaan karya yang tidak sah selama tahap pelatihan model. Dalam hal ini, alasan mengapa penggugat dapat menuduh bahwa bukunya dilanggar oleh model bahasa besar di bawah Open AI adalah karena dia menemukan bahwa ChatGPT telah mengeluarkan ringkasan karyanya sendiri.
Tapi apakah klaim ini mengandung air masih harus dilihat. **Jika ringkasan karya yang dihasilkan oleh ChatGPT hanya didasarkan pada pengumpulan materi pengenalan publik dari buku-buku penggugat di Internet, bukan langsung menyalin dan melatih buku-buku penggugat, maka legitimasi dugaan pelanggaran akan terguncang. **Penggugat juga mengakui bahwa ada beberapa kesalahan faktual dalam ringkasan buku keluaran ChatGPT, yang juga menunjukkan sampai batas tertentu bahwa model besar mungkin belum sepenuhnya mempelajari buku-buku yang terlibat.
**Perhatian 2: Jenis hak apa yang dilanggar perlu ditunjukkan. **
Saat ini, meskipun "penyimpanan data pekerjaan" secara formal dapat diatur dalam pengaturan "hak reproduksi" dalam Undang-Undang Hak Cipta, apakah inti "perilaku pelatihan data pekerjaan" melanggar dan hak apa dalam undang-undang hak cipta belum dilanggar Ada kesimpulan bulat. Dalam hal ini, penggugat menekankan bahwa operasi normal dan keluaran konten dari model bahasa besar didasarkan pada pelatihan korpus karya, sehingga pelatihan model besar merupakan pelanggaran hak cipta, dan model besar itu sendiri merupakan pelanggaran. karya turunan.
Klaim ini juga masih harus dieksplorasi. **Kecuali untuk beberapa persyaratan pembuatan konten khusus seperti "memerlukan generalisasi, ringkasan, dan terjemahan karya hak cipta tertentu dalam bentuk s" dalam kasus ini, dalam kebanyakan kasus, model besar menerima instruksi pembuatan konten terbuka (tidak terbatas pada spesifik karya tertentu, gaya penulis tertentu), pada dasarnya tidak akan menghasilkan karya tertentu atau bahkan penggalan karya tertentu, sehingga bukan merupakan pelanggaran hak cipta. **
**Kekhawatiran 3: Tanggung jawab hulu dan hilir perlu diperjelas. **
Di bidang hak cipta model besar, pengembang model memiliki hak yang relevan dengan model besar itu sendiri, jadi ia memikul tanggung jawab hak cipta yang terlibat dalam pelatihan model; Adapun konten keluaran model besar, dilihat dari praktik industri saat ini, umum praktiknya adalah memperjelas hak melalui kontrak dan tanggung jawab milik pengguna. Pada 10 Juli 2023, "Langkah Sementara untuk Manajemen Layanan Kecerdasan Buatan Generatif" yang dikeluarkan oleh Administrasi Dunia Maya China juga dengan jelas mengakui bahwa "penyedia harus menandatangani perjanjian layanan dengan pengguna untuk mengklarifikasi hak dan kewajiban kedua belah pihak."
**Layak diperhatikan Dilihat dari gugatan penggugat, juga mengikuti dua tahap pelatihan model dan keluaran konten, serta gagasan pembagian hak dan tanggung jawab. **Klaim penggugat untuk pelanggaran hak cipta langsung berfokus pada tahap pelatihan model Open AI: pertama, salinan buku dibuat selama proses pelatihan model tanpa otorisasi penggugat; kedua, tanpa otorisasi penggugat, model bahasa besar itu sendiri merupakan pelanggaran karya turunan. **Tuduhan penggugat atas pelanggaran konten keluaran ChatGPT hanya untuk mengklaim bahwa Open AI merupakan pelanggaran hak cipta secara tidak langsung (pelanggaran pengganti). Ini juga berarti bahwa untuk konten keluaran model besar, pengguna bertanggung jawab atas pelanggaran hak cipta secara langsung, karena memiliki hak yang sesuai. **
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Kasus hak cipta ChatGPT pertama: OpenAI menghadapi enam dakwaan dan "ditangkap" untuk mengeluarkan ringkasan buku
Sumber asli: Teknologi Tencent
Pada 28 Juni 2023, gugatan pelanggaran hak cipta ChatGPT perwakilan pertama akhirnya muncul di mata publik. Dua penulis mengajukan gugatan class action hak cipta terhadap Open AI di Pengadilan Distrik Utara California, menuduh yang terakhir menggunakan buku berhak cipta mereka untuk melatih ChatGPT tanpa izin untuk keuntungan komersial.
Para penggugat, Paul Tremblay dan Mona Awad, tinggal di Massachusetts dan masing-masing memiliki hak cipta atas karya-karya yang terlibat dalam kasus "Kabin di Ujung Dunia" dan "13 Cara Memandang Gadis Gemuk dan Kelinci"; tergugat Open AI dibuat dan dioperasikan secara generatif Produk kecerdasan buatan ChatGPT saat ini terutama didorong oleh dua model bahasa besar yang mendasarinya, GPT-3.5 dan GPT-4.
Keluhan menunjukkan bahwa meskipun penggugat tidak mengizinkan Open AI untuk menggunakan buku hak ciptanya sendiri untuk pelatihan model, ChatGPT dapat mengeluarkan ringkasan buku sesuai dengan perintah, yang hanya dapat terjadi jika tergugat memasukkan buku-buku yang terlibat dalam korpus. untuk latihan.
01 "ditangkap" untuk mengeluarkan ringkasan buku
Penggugat menyatakan bahwa sejumlah besar konten yang terkandung dalam kumpulan data pelatihan Open AI adalah karya berhak cipta, termasuk buku-buku yang hak ciptanya dimiliki oleh penggugat. Namun, Open AI tidak memperoleh persetujuan dari penggugat, juga tidak menunjukkan sumber konten, atau membayar biaya yang diperlukan. Buku-buku yang diterbitkan oleh penggugat memiliki informasi manajemen hak cipta yang jelas, termasuk nomor terbitan, nomor hak cipta, nama pemilik hak cipta, dan syarat penggunaan.
**Penggugat dapat menyimpulkan dari fakta dan informasi yang ada bahwa satu-satunya alasan yang dapat dijelaskan mengapa ChatGPT dapat secara akurat membuat ringkasan buku tertentu adalah karena Open AI memperoleh dan menyalin buku yang terlibat, dan menggunakannya untuk model bahasanya yang besar (GPT3. 5 atau GPT4) pelatihan. **
Tes penggugat menemukan bahwa ketika ChatGPT diminta untuk meringkas dua buku yang terlibat dalam kasus melalui s, ChatGPT dapat menghasilkan ringkasan yang lebih akurat (walaupun ada juga sedikit konten yang salah). Ini menunjukkan bahwa ChatGPT menyimpan konten dari pekerjaan tertentu dalam kumpulan data pelatihan dan dapat menampilkan teks yang sesuai. Pada saat yang sama, melalui desain prinsip pembuatan konten model bahasa besar, konten keluaran ChatGPT tidak akan berisi informasi manajemen hak cipta asli.
**02 "ChatGPT, bagaimana Anda menjalankannya!" **
**Hal yang menarik tentang kasus ini adalah bahwa dalam proses pembuktian pelanggaran Open AI, pengenalan prinsip dasar ChatGPT oleh penggugat didasarkan pada dialog dengan ChatGPT dan memintanya untuk "memperkenalkan dirinya". Konten spesifik diringkas sebagai berikut. **
Open AI telah merilis serangkaian model bahasa besar, termasuk GPT-1 (2018.6), GPT-2 (2019.2), GPT-3 (2020.5), GPT-3.5 (2022.3) dan GPT-4 terbaru (2023·3) . Secara umum, perangkat lunak kecerdasan buatan bertujuan untuk menggunakan metode statistik untuk mensimulasikan logika dan penalaran manusia melalui algoritme. Model bahasa besar adalah jenis perangkat lunak kecerdasan buatan khusus yang digunakan untuk mem-parsing dan menghasilkan bahasa alami.
**Di satu sisi, Open AI menyediakan ChatGPT kepada pengguna melalui halaman web dengan harga $20 per bulan. **Pengguna dapat memilih dua versi ChatGPT, model GPT-3.5 atau model GPT-4 yang diperbarui. ** Di sisi lain, ChatGPT juga disediakan untuk pengembang perangkat lunak dalam bentuk API. **Antarmuka API memungkinkan pengembang menulis program untuk pertukaran data dengan ChatGPT, dalam hal ini ditagih sesuai penggunaan.
** Apakah layanan disediakan dalam bentuk halaman atau API, ChatGPT akan secara aktif menanggapi permintaan pengguna. **Jika pengguna mengajukan pertanyaan kepada ChatGPT, jawaban akan diberikan; jika pengguna memberikan instruksi kepada ChatGPT, ChatGPT akan menjalankannya; jika pengguna meminta ChatGPT untuk meringkas ringkasan buku, ChatGPT akan tetap melakukannya.
03 Buku adalah korpus inti untuk pelatihan model besar
Sudut pandang penggugat adalah bahwa, tidak seperti perangkat lunak tradisional, yang ditulis oleh para insinyur, model bahasa besar dikembangkan melalui "pelatihan"—mengumpulkan kumpulan konten besar dari berbagai sumber dan "memasukkan" mereka ke dalam model. Dikenal sebagai kumpulan data pelatihan (kumpulan data pelatihan).
Model bahasa besar akan terus menyesuaikan keluarannya sedekat mungkin dengan urutan kombinasi teks dalam karya yang dilatih. ** Perlu dicatat bahwa meskipun banyak konten digunakan untuk melatih model bahasa besar, buku selalu menjadi materi korpus inti dalam dataset pelatihan karena memberikan contoh terbaik penulisan bentuk panjang berkualitas tinggi. **
Dalam makalah perusahaan "Meningkatkan Pemahaman Bahasa Melalui Pra-Pelatihan Generatif" yang diterbitkan pada Juni 2018, Open AI mengungkapkan bahwa pelatihan GPT-1 bergantung pada kumpulan data "BookCorpus". "BookCorpus" berisi 7.000 buku di berbagai bidang seperti petualangan, fantasi, dan romansa. **Open AI menunjukkan bahwa alasan mengapa buku sangat penting sebagai korpus pelatihan adalah karena berisi teks panjang yang berkelanjutan, yang memungkinkan model generatif mempelajari cara memproses informasi teks panjang. **
** Banyak perusahaan penelitian dan pengembangan kecerdasan buatan, termasuk Open AI, Google, Amazon, dll., menggunakan "BookCorpus" untuk pelatihan model. ** Pada tahun 2015, tim peneliti kecerdasan buatan membuat kumpulan data ini, yang berisi buku-buku dari situs web Smashwords.com, tetapi "BookCorpus" tidak memperoleh otorisasi dari pemilik hak cipta saat memasukkan buku-buku ini.
04 Mengungkap korpus buku di belakang GPT
Dengan mencari secara terbuka inisiatif Open AI untuk mengungkapkan informasi (makalah perusahaan), penggugat berharap dapat menunjukkan bahwa pelatihan model seri GPT didasarkan pada penggunaan konten buku besar yang tidak sah. **Dalam makalah perusahaan "Language Models Are Small Sample Learners" yang diterbitkan pada Juli 2020, Open AI mengungkapkan bahwa 15% konten dalam kumpulan data pelatihan GPT-3 berasal dari dua database elektronik bernama "Books1" dan "Books2". Korpus buku. **
Meskipun Open AI tidak menjelaskan secara spesifik isi "Buku1" dan "Buku2", hal itu dapat disimpulkan dari petunjuk yang relevan: pertama, kedua kumpulan itu berasal dari Internet; kedua, skala kedua kumpulan itu secara signifikan lebih besar daripada "Korpus Buku". Menurut pengungkapan Open AI, skala "Books1" adalah 9 kali BookCorpus (sekitar 63.000 buku), dan Books2 adalah 42 kali (sekitar 294.000 buku). **Pada kenyataannya, hanya sejumlah kecil database yang dapat menyediakan korpus buku berskala besar. Di satu sisi, "Books1" mungkin berasal dari "Project Gutenberg" atau "Project Gutenberg Corpus Standardization". **Project Gutenberg adalah perpustakaan online e-book "di luar ketentuan perlindungan hak cipta". Pada bulan September 2020, Project Gutenberg mengumumkan telah memasukkan lebih dari 60.000 buku. Karena tidak dilindungi hak cipta, Project Gutenberg banyak digunakan untuk pelatihan model kecerdasan buatan. Pada tahun 2018, tim peneliti kecerdasan buatan menciptakan "Proyek Gutenberg Corpus yang Distandarisasi" (Standardized Project Gutenberg Corpus) lebih dari 50.000 buku berdasarkan "Project Gutenberg". **Di sisi lain, "Books2" kemungkinan besar berasal dari "Perpustakaan Bayangan" di Internet. ** Kumpulan data "Buku2" berisi sekitar 29.400 buku, dan hanya "perpustakaan bayangan" yang banyak dikritik yang dapat menyediakan korpus buku berskala besar. Contohnya antara lain Library Genesis, Z-Library, Sci-Hub, dan Bibliotik. Istilah "Perpustakaan Bayangan" diciptakan oleh Dewan Riset Ilmu Sosial Amerika Serikat dalam artikel "Media Piracy in Emerging Economies" yang diterbitkan pada tahun 2011. Pada bulan Maret 2023, Open AI merilis makalah perusahaan GPT-4, tetapi menyatakan bahwa "dengan mempertimbangkan situasi persaingan industri dan keamanan aplikasi produk, struktur dan konten kumpulan data pelatihan tidak akan diungkapkan lagi."
05 Open AI menghadapi enam tuduhan pelanggaran
**Penggugat mengajukan total enam tuduhan terhadap AI Terbuka, tiga yang pertama melibatkan pelanggaran hak cipta, yang keempat melibatkan persaingan tidak sehat, dan yang kelima dan keenam melibatkan dua jenis tanggung jawab perdata dasar—tugas kehati-hatian dan pengayaan yang tidak adil. **
**Pertama, pelanggaran hak cipta secara langsung. **Penggugat tidak mengizinkan Open AI untuk mereproduksi atau membuat karya turunan dari bukunya, juga tidak mengizinkan Open AI untuk menampilkan atau mendistribusikan reproduksi atau karya turunan yang disebutkan di atas.
Selain itu, penggugat menekankan bahwa karena model bahasa besar Open AI perlu mengekstraksi dan menyimpan informasi ekspresif dari buku penggugat untuk beroperasi, model bahasa besar itu sendiri merupakan karya turunan yang melanggar tanpa izin penggugat.
** Kedua, pelanggaran pengganti hak cipta. **Penggugat menekankan bahwa dengan tidak adanya otorisasi, setiap keluaran dari model besar merupakan karya turunan yang melanggar. Karena memiliki hak dan kemampuan untuk mengontrol keluaran konten dari model bahasa besar dan mendapatkan keuntungan ekonomi darinya, Open AI merupakan pelanggaran substitusi hak cipta.
Di bawah sistem hukum kasus Amerika, "pelanggaran pengganti", "membantu pelanggaran" dan "bersekongkol melanggar" bersama-sama merupakan sistem lengkap pelanggaran hak cipta tidak langsung. Pelanggaran tidak langsung berlawanan dengan pelanggaran langsung, yang berarti bahwa meskipun pelanggar tidak secara langsung terlibat dalam perilaku yang diatur oleh hak eksklusif hak cipta (yaitu, pelanggaran hak cipta langsung), itu memberikan kondisi tertentu untuk pelanggaran hak cipta secara langsung.
**Ketiga, melanggar ketentuan informasi manajemen hak cipta di DMCA. ** Dari perspektif mekanisme desain produk, konten keluaran ChatGPT tidak akan mempertahankan "informasi manajemen hak cipta" (CMI) dari karya tersebut, sehingga perilaku tergugat yang dengan sengaja menghapus informasi manajemen hak cipta dari karya penggugat melanggar "Digital Ketentuan Millennium Copyright Act" (DMCA). Selain itu, tergugat juga melanggar DMCA dengan mendistribusikan karya turunan yang melanggar tanpa informasi manajemen hak cipta tanpa izin.
"Informasi manajemen hak cipta" adalah informasi yang dapat mengidentifikasi pemilik ciptaan, kepemilikan hak, dan kondisi penggunaan. Baik di Amerika Serikat atau negara saya, adalah ilegal untuk menghapus atau mengubah informasi manajemen hak cipta, atau menyediakan karya publik dengan informasi manajemen hak cipta yang dihapus atau diubah.
**Keempat, persaingan tidak sehat. **Penggunaan karya berhak cipta penggugat secara tidak sah oleh Open AI untuk pelatihan model merupakan pelanggaran Kode Bisnis dan Profesi California karena tidak pantas, tidak bermoral, memaksa, dan merugikan Manfaat konsumen.
Tergugat dengan sengaja merancang ChatGPT untuk menampilkan cuplikan dan abstrak dari karya penggugat tanpa menunjukkan sumber kontennya. ChatGPT mengembangkan produk komersial untuk mendapatkan keuntungan dan reputasi yang tidak adil dengan menyembunyikan pencipta dan menyalin konten dan opini dari karya yang dilanggar.
**Kelima, lalai pelanggaran merupakan pelanggaran terhadap kewajiban kehati-hatian. **Open AI harus menanggung tugas kehati-hatian yang diatur dalam "KUHPerdata California" - semua orang harus mengadopsi perilaku yang wajar terhadap orang lain. Kewajiban ini didasarkan pada kebiasaan industri, praktik bisnis, informasi yang dimiliki terdakwa, dan kemampuan untuk mengontrol berdasarkan informasi tersebut.
Setelah tergugat mengumpulkan karya berhak cipta dari penggugat untuk tujuan pelatihan model GPT, ia harus menanggung kewajiban tertentu: ketika diperkirakan bahwa penggunaan karya yang tidak sah untuk pelatihan model akan menyebabkan kerusakan pada penggugat, itu tidak boleh melanggar dan menggunakan karya-karya ini lagi.
** Keenam, pengayaan yang tidak adil. ** Penggugat mencurahkan banyak waktu dan upaya untuk pembuatan buku yang dipermasalahkan. Karena karyanya sendiri digunakan untuk melatih model GPT tanpa izin, penggugat kehilangan hak untuk mendapatkan keuntungan dari pekerjaan tersebut. Tidak adil bagi tergugat untuk mendapatkan keuntungan komersial dengan menggunakan pekerjaan penggugat untuk melatih model GPT. Kecuali dilarang atau dibatasi, perbuatan tergugat akan menyebabkan kerugian yang tidak dapat diperbaiki bagi penggugat.
** Tertulis di bagian akhir: tiga isu yang akan dibahas dalam kasus ini. **
**Sebagai gugatan perwakilan pertama dari pelanggaran hak cipta ChatGPT, masih akan ada proses panjang sebelum Pengadilan Negeri California Utara membuat keputusan resmi. Namun sebelum itu, masih ada beberapa hal yang perlu diperhatikan dan dipertimbangkan terkait dengan isi spesifik dari gugatan penggugat. **
**Kekhawatiran 1: Tidak mudah menemukan pelanggaran model. **
Pelatihan model bahasa besar pada dasarnya adalah semacam perilaku internal dan non-eksplisit dalam menggunakan karya, dan pemilik hak cipta memiliki masalah nyata untuk mengetahui bahwa karya mereka telah dilanggar. Secara umum, hanya dengan membandingkan konten yang dihasilkan oleh model dengan karyanya sendiri secara substansial serupa, dapat disimpulkan bahwa ada penggunaan karya yang tidak sah selama tahap pelatihan model. Dalam hal ini, alasan mengapa penggugat dapat menuduh bahwa bukunya dilanggar oleh model bahasa besar di bawah Open AI adalah karena dia menemukan bahwa ChatGPT telah mengeluarkan ringkasan karyanya sendiri.
Tapi apakah klaim ini mengandung air masih harus dilihat. **Jika ringkasan karya yang dihasilkan oleh ChatGPT hanya didasarkan pada pengumpulan materi pengenalan publik dari buku-buku penggugat di Internet, bukan langsung menyalin dan melatih buku-buku penggugat, maka legitimasi dugaan pelanggaran akan terguncang. **Penggugat juga mengakui bahwa ada beberapa kesalahan faktual dalam ringkasan buku keluaran ChatGPT, yang juga menunjukkan sampai batas tertentu bahwa model besar mungkin belum sepenuhnya mempelajari buku-buku yang terlibat.
**Perhatian 2: Jenis hak apa yang dilanggar perlu ditunjukkan. **
Saat ini, meskipun "penyimpanan data pekerjaan" secara formal dapat diatur dalam pengaturan "hak reproduksi" dalam Undang-Undang Hak Cipta, apakah inti "perilaku pelatihan data pekerjaan" melanggar dan hak apa dalam undang-undang hak cipta belum dilanggar Ada kesimpulan bulat. Dalam hal ini, penggugat menekankan bahwa operasi normal dan keluaran konten dari model bahasa besar didasarkan pada pelatihan korpus karya, sehingga pelatihan model besar merupakan pelanggaran hak cipta, dan model besar itu sendiri merupakan pelanggaran. karya turunan.
Klaim ini juga masih harus dieksplorasi. **Kecuali untuk beberapa persyaratan pembuatan konten khusus seperti "memerlukan generalisasi, ringkasan, dan terjemahan karya hak cipta tertentu dalam bentuk s" dalam kasus ini, dalam kebanyakan kasus, model besar menerima instruksi pembuatan konten terbuka (tidak terbatas pada spesifik karya tertentu, gaya penulis tertentu), pada dasarnya tidak akan menghasilkan karya tertentu atau bahkan penggalan karya tertentu, sehingga bukan merupakan pelanggaran hak cipta. **
**Kekhawatiran 3: Tanggung jawab hulu dan hilir perlu diperjelas. **
Di bidang hak cipta model besar, pengembang model memiliki hak yang relevan dengan model besar itu sendiri, jadi ia memikul tanggung jawab hak cipta yang terlibat dalam pelatihan model; Adapun konten keluaran model besar, dilihat dari praktik industri saat ini, umum praktiknya adalah memperjelas hak melalui kontrak dan tanggung jawab milik pengguna. Pada 10 Juli 2023, "Langkah Sementara untuk Manajemen Layanan Kecerdasan Buatan Generatif" yang dikeluarkan oleh Administrasi Dunia Maya China juga dengan jelas mengakui bahwa "penyedia harus menandatangani perjanjian layanan dengan pengguna untuk mengklarifikasi hak dan kewajiban kedua belah pihak."
**Layak diperhatikan Dilihat dari gugatan penggugat, juga mengikuti dua tahap pelatihan model dan keluaran konten, serta gagasan pembagian hak dan tanggung jawab. **Klaim penggugat untuk pelanggaran hak cipta langsung berfokus pada tahap pelatihan model Open AI: pertama, salinan buku dibuat selama proses pelatihan model tanpa otorisasi penggugat; kedua, tanpa otorisasi penggugat, model bahasa besar itu sendiri merupakan pelanggaran karya turunan. **Tuduhan penggugat atas pelanggaran konten keluaran ChatGPT hanya untuk mengklaim bahwa Open AI merupakan pelanggaran hak cipta secara tidak langsung (pelanggaran pengganti). Ini juga berarti bahwa untuk konten keluaran model besar, pengguna bertanggung jawab atas pelanggaran hak cipta secara langsung, karena memiliki hak yang sesuai. **