Kumpulan data sumber terbuka yang digunakan LLaMA telah diambil dari rak: berisi hampir 200.000 buku dan dibandingkan dengan kumpulan data OpenAI

Sumber asli: Qubit

Sumber gambar: Dihasilkan oleh AI‌ Tak Terbatas

Kumpulan data sumber terbuka telah dihapus dari rak karena pelanggaran hak cipta.

Seperti LLaMA, GPT-J, dll., Telah dilatih dengannya.

Hari ini, situs web yang menghostingnya selama 3 tahun menghapus semua konten terkait dalam semalam.

Ini adalah Books3, kumpulan data yang terdiri dari hampir 200.000 buku, dengan ukuran hampir 37 GB.

Sebuah organisasi anti-pembajakan Denmark menyatakan bahwa 150 buku anggotanya ditemukan dalam kumpulan data, yang merupakan pelanggaran, sehingga meminta platform tersebut untuk menghapusnya.

Sekarang tautan halaman web Books3 di platform telah menjadi "404".

Pengembang asli dari kumpulan data mengatakan tanpa daya bahwa penghapusan Books3 adalah sebuah tragedi di lingkaran sumber terbuka.

**Apa itu Books3? **

Books3 dirilis pada tahun 2020, diunggah oleh pengembang AI Shawn Presser, dan disertakan dalam tumpukan dataset sumber terbuka Eleuther AI.

Ini berisi total 197.000 buku, termasuk semua buku dari situs web bajakan Bibliotik, dimaksudkan untuk membandingkan kumpulan data OpenAI, tetapi sumber terbuka utama.

Dari sinilah nama Books3 berasal—

Setelah GPT-3 dirilis, secara resmi diungkapkan bahwa 15% konten dalam kumpulan data pelatihannya berasal dari dua kumpulan e-book bernama "Books1" dan "Books2", tetapi konten spesifiknya belum diungkapkan.

Books3 open source memberikan lebih banyak proyek peluang untuk bersaing dengan OpenAI.

Misalnya, LLaMA, yang meledak tahun ini, dan GPT-J Eleuther AI, semuanya menggunakan Books3.

Anda harus tahu bahwa data buku selalu menjadi materi korpus inti dalam pra-pelatihan model besar, dan dapat memberikan referensi bagi model untuk menghasilkan teks panjang berkualitas tinggi.

Kumpulan data buku yang digunakan oleh banyak raksasa AI bukanlah sumber terbuka, atau bahkan sangat misterius. Misalnya, Buku 1/2, pemahaman sumber dan skalanya sebagian besar adalah spekulasi dari semua lapisan masyarakat.

Oleh karena itu, kumpulan data sumber terbuka sangat penting bagi lingkaran AI.

Untuk akses yang lebih mudah, Books3 dihosting di The Eye. Ini adalah platform yang dapat mengarsipkan informasi, mengekstrak data publik.

Dan kali ini diambil dari rak, dan juga tentang platform ini.

Kelompok anti-pembajakan Denmark, Aliansi Hak, meminta The Eye untuk menghapusnya, dan permintaan itu dikabulkan.

Tapi kabar baiknya Books3 belum hilang sama sekali, masih ada cara lain untuk mendapatkannya.

Ada juga cadangan di Wayback Machine, atau dapat diunduh dari klien torrent.

Saudara penulis memberikan banyak metode di Twitter.

"Tanpa Books3, Anda tidak dapat melakukan ChatGPT sendiri"

Faktanya, penulis kumpulan data banyak bicara tentang insiden penghapusan ini.

Dia mengatakan bahwa satu-satunya cara untuk membuat model seperti ChatGPT adalah dengan membuat dataset seperti Books3.

Setiap perusahaan penghasil laba diam-diam membuat kumpulan data. Jika tidak ada Buku3, berarti hanya raksasa teknologi seperti OpenAI yang dapat mengakses data buku ini, jadi Anda tidak akan dapat membuat ChatGPT sendiri.

Menurut penulis, ChatGPT seperti situs web pribadi di tahun 90-an, dan sangat penting bahwa siapa pun dapat melakukannya.

Namun, karena sebagian besar data Books3 berasal dari situs web bajakan, penulis juga mengungkapkan harapan bahwa seseorang akan membuat kumpulan data yang lebih baik daripada Books3 di masa mendatang, yang tidak hanya akan meningkatkan kualitas data, tetapi juga menghormati hak cipta buku. .

Situasi serupa juga terjadi di OpenAI.

Lebih dari sebulan yang lalu, dua penulis tetap menggugat OpenAI karena menggunakan karya mereka untuk melatih ChatGPT tanpa izin.

Alasan mengapa hal ini terjadi adalah karena dataset OpenAI Books2 telah memperoleh banyak data dari perpustakaan bayangan (situs web pembajakan).

Oleh karena itu, beberapa suara bercanda bahwa AI tidak hanya membawa terobosan teknologi baru, tetapi juga membawa tugas baru ke organisasi anti-pembajakan.

Tautan referensi: [1] [2] [3] [4]

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)