Sumber: "Dewan Inovasi Sains dan Teknologi Setiap Hari"
Edit Lagu Ziqiao
Sumber gambar: Dihasilkan oleh AI Tak Terbatas
Data, daya komputasi, dan algoritme dianggap sebagai tiga elemen inti AI generatif, dan sulit untuk mengatakan mana yang lebih penting.
Namun, untuk perusahaan bintang seperti OpenAI, daya komputasi pada dasarnya adalah masalah ekonomi.Perusahaan besar menimbun sejumlah besar perangkat keras mahal berdasarkan "kemampuan uang" mereka, dan masalah kelangkaan data bahkan lebih memusingkan. mereka dalam krisis moral.
Mengambil OpenAI sebagai contoh, perilakunya menangkap data publik untuk melatih model AI telah lama menjadi kontroversi. **Menurut laporan terbaru dari media teknologi asing Insider, OpenAI baru-baru ini mengakui telah meluncurkan robot perayap web bernama GPTBot, yang digunakan untuk merayapi dan mengumpulkan data untuk pelatihan model skala besar. **
OpenAI dicurigai sebagai "pencuri data"
Perayap web adalah program komputer yang mensimulasikan perilaku manusia (pengguna jaringan) dan secara otomatis menelusuri dan mengumpulkan informasi jaringan. Perayap web dapat menyimpan data yang dikunjunginya, dan pengambil data menganalisis dan menggunakan kembali data tersebut, menyimpulkan preferensi pengguna Internet, dan kemudian mendorong mereka ke grup pengguna yang cocok.
**Tidak jelas berapa lama crawler bot OpenAI mengintai secara online, dan beberapa orang menduga OpenAI diam-diam mengumpulkan data online semua orang selama berbulan-bulan atau bertahun-tahun. **
Menghadapi "tuduhan" seperti itu, OpenAI secara aktif membela diri Perusahaan menyatakan bahwa GPTBot akan secara ketat mematuhi aturan paywall apa pun, tidak akan menangkap informasi yang memerlukan pembayaran, dan tidak akan mengumpulkan data yang dapat dilacak ke orang yang dapat diidentifikasi secara pribadi.
Selain itu, OpenAI telah meluncurkan metode untuk memblokir GPTbot. Pengguna dapat memodifikasi file robots.txt mereka, atau memblokir alamat IP mereka untuk menolak akses crawler. Perusahaan juga baru-baru ini mengumumkan kesepakatan dengan The Associated Press di mana OpenAI akan membayar konten AP yang diperlukan untuk data pelatihan AI.
Kepercayaan yang Hilang
Sebagai sarana pendataan, teknologi crawler sendiri tidak memiliki perbedaan antara legal dan ilegal. **Namun, inisiatif OpenAI untuk membatasi alat perayapnya tampaknya tidak dapat memulihkan kepercayaan publik terhadap perusahaan model besar ini. **
Neil Clarke, pemimpin redaksi majalah sci-fi veteran "Clarkworld" dan pemenang Penghargaan Hugo, mengatakan: "OpenAI dan perusahaan model skala besar lainnya telah berulang kali menunjukkan bahwa mereka tidak menghormati hak penulis, artis dan orang-orang kreatif lainnya, sebagian besar didasarkan pada karya berhak cipta orang lain."
Ia pun mencontohkan, CCBot adalah robot perayap lain yang dioperasikan oleh organisasi Common Crawl. Common Crawl saat ini menjadi pemasok utama data pelatihan untuk model kecerdasan buatan. "Setahu saya, belum ada yang berhasil meminta Common Crawl untuk menghapus data ," kata Clark. "Saya mencoba dan tidak mendapat jawaban."
Di sisi lain, ketika datang untuk melawan perusahaan besar, kebanyakan orang biasa berada pada posisi yang kurang menguntungkan. Seperti yang dikatakan Clark, karena OpenAI bersedia membayar untuk data perusahaan besar seperti (Associated Press), mengapa OpenAI tidak membayar untuk informasi orang lain? "Saya bertanya kepada OpenAI tentang ini, tetapi tidak mendapat jawaban."
Namun, Clark sendiri berdiri di sisi berlawanan dari OpenAI. "Clark World" yang dia dirikan menghadapi banjir konten yang dihasilkan AI. Clark telah menunjukkan bahwa setelah ChatGPT dibuka akhir tahun lalu, pengiriman spam yang dihasilkan oleh AI melonjak, dan biaya untuk mendeteksi karya semacam itu tinggi, dan jurnal untuk sementara menangguhkan permintaan manuskrip.
Kesimpulan
Sebelumnya, OpenAI telah digugat oleh banyak pihak atas masalah hak cipta, termasuk gugatan perwakilan kelompok yang diusung Firma Hukum Clarkson dan penulis terlaris seperti Paul Tremblay dan Mona Awad.Selebriti menggugat atas nama asli mereka.
Dengan iterasi lebih lanjut dari teknologi AI generatif, perselisihan serupa hanya akan meningkat.
Perusahaan besar lebih cenderung menjadi sasaran kritik publik, bahkan jika mereka berani bertanggung jawab, tidak mudah untuk mencapai kepatuhan penuh dengan akuisisi data. Karena banyaknya parameter, model besar perlu dilatih dan digunakan dengan bantuan teknologi seperti komputasi terdistribusi dan layanan cloud, yang meningkatkan risiko pencurian data, gangguan, penyalahgunaan, atau kebocoran.
Bagaimana menyeimbangkan perlindungan privasi pribadi dan mendorong inovasi teknologi, dan bagaimana menemukan jalur optimal antara kelangsungan hidup perusahaan dan produksi yang sesuai sudah menjadi masalah yang tidak dapat dihindari oleh setiap perusahaan yang berdedikasi pada AI generatif.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
OpenAI juga berjuang dengan data! Perusahaan mengakui bahwa penggunaan crawler untuk membatasi diri sulit menghilangkan kecurigaan publik
Sumber: "Dewan Inovasi Sains dan Teknologi Setiap Hari"
Edit Lagu Ziqiao
Data, daya komputasi, dan algoritme dianggap sebagai tiga elemen inti AI generatif, dan sulit untuk mengatakan mana yang lebih penting.
Namun, untuk perusahaan bintang seperti OpenAI, daya komputasi pada dasarnya adalah masalah ekonomi.Perusahaan besar menimbun sejumlah besar perangkat keras mahal berdasarkan "kemampuan uang" mereka, dan masalah kelangkaan data bahkan lebih memusingkan. mereka dalam krisis moral.
Mengambil OpenAI sebagai contoh, perilakunya menangkap data publik untuk melatih model AI telah lama menjadi kontroversi. **Menurut laporan terbaru dari media teknologi asing Insider, OpenAI baru-baru ini mengakui telah meluncurkan robot perayap web bernama GPTBot, yang digunakan untuk merayapi dan mengumpulkan data untuk pelatihan model skala besar. **
OpenAI dicurigai sebagai "pencuri data"
Perayap web adalah program komputer yang mensimulasikan perilaku manusia (pengguna jaringan) dan secara otomatis menelusuri dan mengumpulkan informasi jaringan. Perayap web dapat menyimpan data yang dikunjunginya, dan pengambil data menganalisis dan menggunakan kembali data tersebut, menyimpulkan preferensi pengguna Internet, dan kemudian mendorong mereka ke grup pengguna yang cocok.
**Tidak jelas berapa lama crawler bot OpenAI mengintai secara online, dan beberapa orang menduga OpenAI diam-diam mengumpulkan data online semua orang selama berbulan-bulan atau bertahun-tahun. **
Menghadapi "tuduhan" seperti itu, OpenAI secara aktif membela diri Perusahaan menyatakan bahwa GPTBot akan secara ketat mematuhi aturan paywall apa pun, tidak akan menangkap informasi yang memerlukan pembayaran, dan tidak akan mengumpulkan data yang dapat dilacak ke orang yang dapat diidentifikasi secara pribadi.
Selain itu, OpenAI telah meluncurkan metode untuk memblokir GPTbot. Pengguna dapat memodifikasi file robots.txt mereka, atau memblokir alamat IP mereka untuk menolak akses crawler. Perusahaan juga baru-baru ini mengumumkan kesepakatan dengan The Associated Press di mana OpenAI akan membayar konten AP yang diperlukan untuk data pelatihan AI.
Kepercayaan yang Hilang
Sebagai sarana pendataan, teknologi crawler sendiri tidak memiliki perbedaan antara legal dan ilegal. **Namun, inisiatif OpenAI untuk membatasi alat perayapnya tampaknya tidak dapat memulihkan kepercayaan publik terhadap perusahaan model besar ini. **
Neil Clarke, pemimpin redaksi majalah sci-fi veteran "Clarkworld" dan pemenang Penghargaan Hugo, mengatakan: "OpenAI dan perusahaan model skala besar lainnya telah berulang kali menunjukkan bahwa mereka tidak menghormati hak penulis, artis dan orang-orang kreatif lainnya, sebagian besar didasarkan pada karya berhak cipta orang lain."
Ia pun mencontohkan, CCBot adalah robot perayap lain yang dioperasikan oleh organisasi Common Crawl. Common Crawl saat ini menjadi pemasok utama data pelatihan untuk model kecerdasan buatan. "Setahu saya, belum ada yang berhasil meminta Common Crawl untuk menghapus data ," kata Clark. "Saya mencoba dan tidak mendapat jawaban."
Di sisi lain, ketika datang untuk melawan perusahaan besar, kebanyakan orang biasa berada pada posisi yang kurang menguntungkan. Seperti yang dikatakan Clark, karena OpenAI bersedia membayar untuk data perusahaan besar seperti (Associated Press), mengapa OpenAI tidak membayar untuk informasi orang lain? "Saya bertanya kepada OpenAI tentang ini, tetapi tidak mendapat jawaban."
Namun, Clark sendiri berdiri di sisi berlawanan dari OpenAI. "Clark World" yang dia dirikan menghadapi banjir konten yang dihasilkan AI. Clark telah menunjukkan bahwa setelah ChatGPT dibuka akhir tahun lalu, pengiriman spam yang dihasilkan oleh AI melonjak, dan biaya untuk mendeteksi karya semacam itu tinggi, dan jurnal untuk sementara menangguhkan permintaan manuskrip.
Kesimpulan
Sebelumnya, OpenAI telah digugat oleh banyak pihak atas masalah hak cipta, termasuk gugatan perwakilan kelompok yang diusung Firma Hukum Clarkson dan penulis terlaris seperti Paul Tremblay dan Mona Awad.Selebriti menggugat atas nama asli mereka.
Dengan iterasi lebih lanjut dari teknologi AI generatif, perselisihan serupa hanya akan meningkat.
Perusahaan besar lebih cenderung menjadi sasaran kritik publik, bahkan jika mereka berani bertanggung jawab, tidak mudah untuk mencapai kepatuhan penuh dengan akuisisi data. Karena banyaknya parameter, model besar perlu dilatih dan digunakan dengan bantuan teknologi seperti komputasi terdistribusi dan layanan cloud, yang meningkatkan risiko pencurian data, gangguan, penyalahgunaan, atau kebocoran.
Bagaimana menyeimbangkan perlindungan privasi pribadi dan mendorong inovasi teknologi, dan bagaimana menemukan jalur optimal antara kelangsungan hidup perusahaan dan produksi yang sesuai sudah menjadi masalah yang tidak dapat dihindari oleh setiap perusahaan yang berdedikasi pada AI generatif.