AI akan macet? Data untuk melatih model besar mungkin akan habis pada tahun 2026

Question

Sumber: "Teknologi Tencent", Penulis: Jinlu

Fokus pada:

Perkembangan terbaru dalam kecerdasan buatan generatif memerlukan dukungan model yang sangat besar, dan model yang besar perlu dilatih dengan data yang sangat besar, sehingga data menjadi semakin berharga.
Para peneliti yakin bahwa permintaan data akan meningkat secara dramatis, dan data teks berkualitas tinggi yang dapat digunakan untuk melatih model besar mungkin akan habis pada tahun 2026. Perebutan data sedang dimulai.
Di Amerika Serikat, terdapat banyak kasus pelanggaran hak cipta terhadap pembuat model, dan OpenAI, Stability AI, Midjourney, dan Meta semuanya menjadi tergugat.
Perusahaan kecerdasan buatan sedang menjajaki sumber data baru, termasuk menandatangani perjanjian hak cipta data dengan perusahaan lain, mengumpulkan data melalui interaksi pengguna dengan alat mereka, dan mencoba menggunakan data internal dari pelanggan korporat.

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Belum lama ini, para analis secara terbuka berspekulasi apakah kecerdasan buatan (AI) akan menyebabkan jatuhnya Adobe, pengembang perangkat lunak untuk materi iklan. Alat baru seperti Dall-E 2 dan MidTrik, yang menghasilkan gambar berdasarkan teks cepat, tampaknya membuat kemampuan pengeditan gambar Adobe menjadi mubazir. Baru pada bulan April tahun ini, situs berita keuangan Seeking Alpha juga menerbitkan artikel berjudul "Akankah Kecerdasan Buatan Menjadi Pembunuh Adobe?"

Namun kenyataannya, faktanya jauh dari asumsi para analis. Adobe menggunakan database ratusan juta stok foto untuk membangun rangkaian alat kecerdasan buatannya sendiri yang disebut Firefly. Firefly telah digunakan untuk membuat lebih dari 1 miliar gambar sejak diluncurkan pada bulan Maret, kata eksekutif perusahaan Dana Rao. Dengan menghindari penambangan gambar di internet seperti pesaingnya, Adobe menghindari perselisihan hak cipta yang semakin mendalam yang saat ini melanda industri ini. Saham Adobe telah meningkat 36 persen sejak Firefly diluncurkan.

Perebutan data dimulai

Kemenangan Adobe atas apa yang disebut “Doomslayer” menggarisbawahi implikasi yang lebih luas dari perebutan dominasi di pasar alat kecerdasan buatan yang berkembang pesat. Model-model besar yang mendukung gelombang terbaru dari apa yang disebut “kecerdasan buatan generatif” bergantung pada sejumlah besar data. Sebelumnya, sebagian besar pembuat model mengambil data (seringkali tanpa izin) dari internet. Kini, mereka menemukan sumber data baru untuk mempertahankan rezim pelatihan yang hiruk pikuk ini. Pada saat yang sama, perusahaan yang memiliki data baru dalam jumlah besar sedang mempertimbangkan cara terbaik untuk mendapatkan keuntungan dari data tersebut. Perebutan data sedang dimulai.

Dua elemen dasar model kecerdasan buatan adalah kumpulan data dan kekuatan pemrosesan.Sistem dilatih berdasarkan kumpulan data, dan model mendeteksi hubungan antara internal dan eksternal kumpulan data tersebut melalui kekuatan pemrosesan. Di satu sisi, kedua hal mendasar ini dapat dipertukarkan: suatu model dapat ditingkatkan dengan mengambil lebih banyak data atau menambahkan lebih banyak kekuatan pemrosesan. Namun, hal yang terakhir ini menjadi semakin sulit di tengah kekurangan chip AI khusus, yang menyebabkan para pembuat model harus berupaya lebih keras dalam menemukan data.

Firma riset Epoch AI percaya bahwa permintaan akan data akan meningkat secara dramatis sehingga teks berkualitas tinggi yang tersedia untuk pelatihan mungkin akan habis pada tahun 2026. Dilaporkan bahwa model kecerdasan buatan terbaru dari dua raksasa teknologi, Google dan Meta, telah dilatih pada lebih dari 1 triliun kata. Sebagai perbandingan, jumlah kata bahasa Inggris di ensiklopedia online Wikipedia adalah sekitar 4 miliar.

Bukan hanya ukuran kumpulan data yang penting. Semakin baik datanya, semakin baik pula performa model yang dilatih berdasarkan data tersebut. Russell Kaplan dari startup data Scale AI menunjukkan bahwa model berbasis teks idealnya dilatih pada karya yang panjang, ditulis dengan baik, dan akurat secara faktual. Model yang diberi informasi ini kemungkinan besar akan menghasilkan keluaran berkualitas tinggi serupa.

Demikian pula, chatbot AI memberikan jawaban yang lebih baik ketika diminta menjelaskan pekerjaan mereka langkah demi langkah, sehingga meningkatkan kebutuhan akan sumber daya seperti buku teks. Kumpulan informasi khusus juga menjadi lebih berharga, karena memungkinkan model “disesuaikan” untuk aplikasi yang lebih spesifik. Microsoft, yang mengakuisisi repositori kode perangkat lunak GitHub pada tahun 2018 senilai $7,5 miliar, telah menggunakannya untuk mengembangkan alat kecerdasan buatan untuk menulis kode.

tuntutan hukum hak cipta data melonjak, perusahaan AI sibuk menandatangani perjanjian lisensi

Seiring meningkatnya permintaan akan data, akses terhadap kesenjangan data menjadi semakin rumit, dan pembuat konten kini menuntut kompensasi atas materi yang diserap oleh model AI. Ada banyak kasus pelanggaran hak cipta yang diajukan terhadap pembuat model di Amerika Serikat. Sekelompok penulis, termasuk komedian Sarah Silverman, menggugat OpenAI, pengembang chatbot kecerdasan buatan ChatGPT, dan perusahaan induk Facebook, Meta. Selain itu, sekelompok seniman juga menggugat Stability AI dan Midjourney, dua perusahaan yang mengerjakan alat teks-ke-gambar.

Hasil dari semua ini adalah banyaknya kesepakatan ketika perusahaan AI berlomba untuk memperoleh sumber data. Pada bulan Juli, OpenAI menandatangani kesepakatan dengan The Associated Press untuk mendapatkan akses ke arsip berita agensi tersebut. Baru-baru ini, perusahaan juga memperluas kesepakatannya dengan penyedia perpustakaan gambar Shutterstock, yang juga memiliki kesepakatan dengan Meta.

Sebelumnya pada bulan Agustus, muncul laporan bahwa Google sedang dalam pembicaraan dengan label rekaman Universal Music untuk melisensikan suara artis guna membantu mengembangkan alat kecerdasan buatan untuk penulisan lagu. Manajer aset Fidelity mengatakan perusahaannya telah didekati oleh sejumlah perusahaan teknologi yang meminta akses terhadap data keuangannya. Rumor mengatakan bahwa AI Lab mendekati BBC untuk arsip gambar dan filmnya. Target lain yang menarik adalah JSTOR, perpustakaan digital jurnal ilmiah.

Para pemegang informasi ini memanfaatkan kekuatan tawar mereka yang lebih besar. Reddit, sebuah forum, dan Stack Overflow, situs tanya jawab yang populer di kalangan pemrogram, keduanya menaikkan biaya akses data mereka. Kedua situs ini sangat berharga karena pengguna “menyukai” jawaban, membantu model mengetahui mana yang paling relevan. Situs media sosial X (sebelumnya Twitter) telah mengambil langkah-langkah untuk membatasi kemampuan bot untuk mengikis informasi di situs tersebut, dan sekarang siapa pun yang ingin mengakses datanya harus membayar. Bos X Elon Musk berencana menggunakan data tersebut untuk membangun bisnis kecerdasan buatannya sendiri.

Oleh karena itu, pembuat model berupaya meningkatkan kualitas data yang sudah mereka miliki. Banyak laboratorium AI mempekerjakan pasukan anotator data untuk melakukan tugas seperti memberi label pada gambar dan memberi peringkat pada jawaban. Beberapa dari pekerjaan ini sangat kompleks sehingga memerlukan kandidat master atau PhD dengan jurusan ilmu kehidupan. Namun sebagian besar pekerjaan tersebut bersifat biasa dan dialihkan ke tenaga kerja murah di negara-negara seperti Kenya.

Perusahaan AI juga mengumpulkan data melalui interaksi pengguna dengan alat mereka. Banyak dari alat-alat ini mempunyai mekanisme umpan balik, dimana pengguna menunjukkan keluaran mana yang berguna. Generator teks-ke-gambar Firefly memungkinkan pengguna memilih dari empat opsi. Chatbot Google, Bard, juga menawarkan tiga jawaban.

Pengguna dapat memberi acungan jempol pada ChatGPT saat membalas kueri. Informasi ini dapat dimasukkan kembali sebagai masukan ke dalam model yang mendasarinya, sehingga membentuk apa yang disebut oleh Douwe Kiela, salah satu pendiri startup Contextual AI, sebagai “roda gila data”. Sinyal yang lebih kuat mengenai kualitas jawaban chatbot adalah apakah pengguna menyalin teks dan menempelkannya di tempat lain, tambahnya. Menganalisis informasi ini membantu Google meningkatkan alat terjemahannya dengan cepat.

Jelajahi bidang baru, dan data internal pelanggan perusahaan menjadi kue manis

Namun, ada satu sumber data yang sebagian besar masih belum dimanfaatkan: informasi yang ada di pelanggan perusahaan teknologi. Banyak bisnis tanpa sadar memiliki banyak data berguna, mulai dari catatan pusat panggilan hingga catatan pengeluaran pelanggan. Informasi ini sangat berharga karena dapat membantu menyempurnakan model untuk tujuan bisnis tertentu, seperti membantu pekerja pusat panggilan menjawab pertanyaan pelanggan atau membantu analis bisnis menemukan cara untuk meningkatkan penjualan.

Namun memanfaatkan sumber daya yang berlimpah ini tidaklah mudah. Roy Singh, seorang analis di konsultan Bain & Company, mencatat bahwa secara historis, sebagian besar perusahaan kurang memperhatikan kumpulan data yang besar namun tidak terstruktur yang terbukti paling berguna untuk melatih alat AI. Data ini sering kali tersebar di berbagai sistem dan disembunyikan di server perusahaan, bukan di cloud.

Membuka informasi ini akan membantu bisnis menyesuaikan alat AI agar dapat lebih memenuhi kebutuhan spesifik mereka. Kedua raksasa teknologi, Amazon dan Microsoft, kini menawarkan alat untuk membantu bisnis lain mengelola kumpulan data tidak terstruktur dengan lebih baik, seperti halnya Google. Christian Kleinerman dari perusahaan database Snowflake mengatakan bidang ini berkembang pesat karena klien berupaya untuk "meruntuhkan silo data".

Startup juga berbondong-bondong ke bidang baru ini. Pada bulan April tahun ini, Weaviate, sebuah perusahaan database yang berfokus pada kecerdasan buatan, mengumpulkan $50 juta dengan penilaian $200 juta. Hanya seminggu kemudian, saingannya PineCone mengumpulkan $100 juta dengan penilaian $750 juta. Awal bulan ini, startup database lainnya, Neon, juga mengumpulkan $46 juta. Jelas sekali, perebutan data baru saja dimulai.

Lihat Asli