Biarkan perusahaan AI besar "mencuri" seperti ini, kita mungkin tidak melihat situs web gratis

2023-07-12 02:02:10

Sumber asli: Tinjauan buruk

Sumber gambar: Dihasilkan oleh AI‌ Tak Terbatas

Beberapa hari yang lalu, Google tiba-tiba memperbarui kebijakan privasinya, memperjelas bahwa ia akan menggunakan semua data publik di Internet untuk melatih model AI-nya sendiri.

Dengan kata lain, menurut kebijakan baru, setiap informasi yang Anda posting secara publik di Internet dapat dirayapi oleh Google, termasuk namun tidak terbatas pada posting Anda, kata kunci yang Anda cari, dan video yang Anda tonton.

Bukankah ini coretan Internet yang pantas!

Tidak lama setelah OpenAI digugat karena pelanggaran data, Google terburu-buru untuk menyerang.

Pada titik ini, kemungkinan besar tidak ada hubungannya dengan biaya data. Jika Google tidak mengumpulkan gelombang wol gratis ini, kemungkinan besar tidak akan dapat mengumpulkannya di masa mendatang. **

Hal ini tidak pernah berhenti sejak ChatGPT menjadi populer.

Shichao akan memberi kalian garis waktu terlebih dahulu.

Pada bulan Maret tahun ini, Musk memimpin tembakan pertama dengan biaya data, menyatakan bahwa antarmuka API Twitter tidak lagi gratis.

Segera setelah itu, Reddit, bilah pos versi AS, tidak tahan lagi.

Bulan lalu, kampanye "pemadaman" Reddit adalah protes terhadap kebijakan biaya API resmi.

Ketika Shichao menulis tentang ini sebelumnya, dia masih menebak-nebak apakah pejabat Reddit pada akhirnya akan membuat konsesi.

Menilai dari tindak lanjut saat ini, sebagian besar perangkat lunak pihak ketiga telah dipastikan akan dimatikan, dan Reddit bertekad untuk mengenakan biaya data.

Selama kurun waktu tersebut, Twitter kembali menyesuaikan batas tarif. Akun yang tidak mengeluarkan uang untuk autentikasi hanya bisa membaca 600 postingan per hari. Tujuannya juga untuk mencegah robot mengambil data pengguna.

Apakah data begitu berharga?

Shi Chao merasa itu masih kesalahan **AI. **

Jika model AI besar ingin menjadi lebih pintar, diperlukan aliran data yang stabil untuk "memberi makan".

Yang bisa membuat model besar sekarang, entah punya data sendiri, seperti Baidu, Ali, dan Tencent; atau meng-crawl data orang lain, ini namanya OpenAI.

Karena banyak situs web memiliki antarmuka API terbuka dan gratis, raksasa seperti Microsoft dan OpenAI telah diberi kesempatan.

Tapi hari ini berbeda dari masa lalu, setelah AI memberikan kembali nilai data, platform dengan chip di tangan mereka tentu saja sama sekali tidak mau dilacurkan untuk apa-apa. **

Bahkan CEO Reddit Hoffman menjelaskan: dia hanya tidak ingin memberikan data kepada raksasa secara gratis.

Oleh karena itu, penuntutan OpenAI mungkin disebabkan oleh fakta bahwa platform tersebut telah bersatu untuk "membunuh ayam dan monyet" dan menyembuhkan kecenderungan AI yang tidak sehat.

Namun, kali ini sulit untuk mengatakan apakah undang-undang tersebut akan berpihak pada OpenAI.

Karena hak cipta data melibatkan 3 masalah utama:

**1. Apakah perilaku perayap data itu sendiri legal? **

**2. Apakah data dilindungi oleh hak cipta? **

**3. Apakah karya dihasilkan dari data yang dilindungi oleh hak cipta? **

Pertama-tama, pertanyaan pertama, untuk mendapatkan data, tidak lebih dari membayar pembelian, atau mengumpulkan data yang tersedia untuk umum di Internet.

Namun, perlu diperhatikan bahwa data yang diungkapkan tidak sama dengan penggunaan yang sah, dan juga bergantung pada apakah situs web memiliki klausul relevan yang membatasi perilaku perayap data.

Jika izin dari pemilik hak cipta dilampaui secara langsung, atau data diperoleh secara paksa dengan melewati batasan situs web, merupakan kejahatan memperoleh data sistem informasi komputer secara ilegal.

Bahkan jika OpenAI mengklaim untuk merayapi data dari situs web publik, apakah perilaku perayapan data itu sendiri sah tergantung pada apakah pemilik hak cipta telah memberikan otorisasi.

Kedua, tentang apakah data itu sendiri tunduk pada hak cipta.

Menurut undang-undang hak cipta AS, jika data yang digunakan untuk pelatihan model AI termasuk dalam cakupan "penggunaan wajar", itu tidak akan dianggap sebagai pelanggaran.

Tapi masalahnya terletak pada "penggunaan wajar" ini.

Elemen penyusun "penggunaan wajar" meliputi apakah penggunaan komersial terlibat, apakah karya itu sendiri dilindungi oleh undang-undang hak cipta, jumlah bagian yang digunakan, dan dampak pada karya itu sendiri setelah digunakan.

Seperti laporan berita dan penelitian akademis, kutipan yang tepat tidak masalah.

Bisakah penggunaan data ratusan juta level pada model AI dan perangkat lunak AI yang dikomersialkan masih dianggap sebagai "penggunaan wajar"?

Terakhir, ada masalah hak cipta karya yang dihasilkan AI.

Karena hak cipta data pelatihan tidak jelas, konten yang dihasilkan oleh AI secara alami akan memiliki sengketa hak cipta. Beberapa hari yang lalu, Steam juga menghapus game yang dibuat menggunakan AIGC dengan alasan ada masalah hak cipta.

Mari kita ambil lukisan AI sebagai contoh. Pembuatan gambar setara dengan proses pemisahan dan penataan ulang. Meskipun hasil akhirnya benar-benar "baru", namun tetap mempertahankan beberapa karakteristik gambar pelatihan.

Namun, apakah situasi ini dianggap sebagai pelanggaran atau tidak, ada perbedaan pendapat dari berbagai negara.

Karena data pelatihan milik orang lain, Kantor Hak Cipta A.S. menetapkan bahwa karya yang dihasilkan oleh AI tidak dilindungi oleh undang-undang hak cipta, dan bahkan dapat melanggar hak cipta.

Sikap pemerintah Jepang cukup berbeda, mengatakan bahwa hukum Jepang tidak melindungi hak cipta dari data yang digunakan untuk pelatihan AI.

Setidaknya dalam kerangka hukum saat ini, sulit untuk mendapatkan jawaban yang seragam atas pertanyaan-pertanyaan di atas.

Karena pengawasannya kurang kuat, pemilik hak cipta tidak punya pilihan selain melakukannya sendiri, jika harus dikenakan biaya, yang seharusnya dikembalikan harus segera dipulihkan.

▼Buka Dokumen yang Dituntut AI

Diperkirakan setelah Twitter dan Reddit, mungkin akan ada lebih banyak pihak hak cipta konten yang mendirikan tembok tinggi.

Hal ini, bagi platform, tentu saja merupakan cara baru untuk menghasilkan uang.Seburuk apa pun raksasa teknologi itu, mereka akan menghabiskan lebih banyak uang.

Tapi untuk Internet secara keseluruhan, itu bukanlah hal yang baik.

Saat itu, Internet lahir dengan gen berbagi terbuka, seperti Wikipedia dan Twitter, yang menyediakan antarmuka API gratis sepanjang tahun, sehingga sangat memudahkan pengembang untuk memanggil data.

Namun kini jika tarif data dibiarkan diterapkan seperti ini, sulit untuk mengatakan seperti apa hasilnya.

Lagi pula, pengembang kecil tidak memiliki kemampuan untuk membayar biaya data yang besar.Jika inovasi hanya terjadi pada raksasa, bukankah ini murni monopoli?

Yang paling penting adalah banyak situs web yang dapat dilihat secara gratis sekarang mungkin harus dilihat nanti.Ini adalah kritik nyata bagi pengguna biasa seperti kita.

Nyatanya, biaya data tidak bisa sepenuhnya disalahkan pada platform, itu benar-benar membuat raksasa AI takut "merampok", yang merupakan langkah tak berdaya untuk perlindungan diri.

Meskipun Google memiliki "kebijakan privasi" kali ini, sulit untuk mengatakan apa hasilnya nanti.

Karena itu, kuncinya adalah melihat kapan palu godam pengawasan akan jatuh.

Mengklarifikasi hak cipta data merupakan rintangan yang tidak bisa dihindari dalam pengembangan AI, dan kini, tampaknya juga terkait dengan arah masa depan Internet.

Kira-kira apakah kapal AI akan mendorong kita ke era yang lebih terbuka atau tertutup?

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
GT 2025 Q2 Burn Completed
13k Popularitas
Michael Saylor Hints at Buying BTC
10k Popularitas
BTC
30453k Popularitas
4contentstar
10720k Popularitas
5NADA
11186k Popularitas
6BOME
11565k Popularitas
7BTC
30453k Popularitas
8SMILE
9062k Popularitas
9比特币
13441k Popularitas

Sematkan

peta situs