Data manusia akan terpakai oleh OpenAI, lalu apa?

Sumber gambar: Dihasilkan oleh AI Tak Terbatas

"Lebih besar dari lebih besar" (Lebih besar dari lebih besar) adalah iklan dari Apple tahun itu, yang digunakan untuk menggambarkan model bahasa besar terpanas di bidang AI. Sepertinya tidak ada yang salah dengan itu.

Dari miliaran hingga puluhan miliar hingga ratusan miliar, parameter model besar secara bertahap menjadi liar, dan jumlah data yang digunakan untuk melatih AI juga meningkat secara eksponensial.

Mengambil GPT OpenAI sebagai contoh, dari GPT-1 ke GPT-3, kumpulan data pelatihannya telah tumbuh secara eksponensial dari 4,5 GB menjadi 570 GB.

Pada konferensi Data+AI yang diadakan oleh Databricks belum lama ini, Marc Andreessen, pendiri a16z, percaya bahwa data masif yang dikumpulkan oleh Internet selama dua dekade terakhir merupakan alasan penting munculnya gelombang baru AI ini, karena mantan memberikan yang terakhir dengan data pelatihan yang dapat digunakan.

Namun, bahkan jika netizen meninggalkan banyak data yang berguna atau tidak berguna di Internet, untuk pelatihan AI, data ini mungkin akan habis.

Sebuah makalah yang diterbitkan oleh Epoch, sebuah organisasi penelitian dan peramalan kecerdasan buatan, memperkirakan bahwa data teks berkualitas tinggi akan habis antara tahun 2023-2027.

Sementara tim peneliti mengakui bahwa ada batasan serius dalam metode analisis dan ketidakakuratan modelnya tinggi, sulit untuk menyangkal bahwa kecepatan AI mengonsumsi kumpulan data sangat menakutkan.

Konsumsi data pembelajaran mesin dan tren produksi data teks berkualitas rendah, teks dan gambar berkualitas tinggi|EpochAI

Ketika data "manusia" habis, pelatihan AI pasti akan menggunakan konten yang dihasilkan oleh AI itu sendiri. Namun, "lingkaran dalam" seperti itu akan menimbulkan tantangan besar.

Belum lama ini, para peneliti dari Universitas Cambridge, Universitas Oxford, Universitas Toronto, dan universitas lain menerbitkan makalah yang menunjukkan bahwa menggunakan konten yang dihasilkan AI sebagai pelatihan AI akan menyebabkan runtuhnya model baru. **

Jadi, apa penyebab crash yang disebabkan oleh "data yang dihasilkan" untuk pelatihan AI? Apakah ada bantuan?

01 Konsekuensi AI "kawin sedarah"

Dalam makalah berjudul "The Curse of Recursion: Training with Generated Data Makes Models Forget", para peneliti menunjukkan bahwa "model collapse" adalah proses degenerasi dari beberapa generasi model.

Data yang dihasilkan oleh model generasi sebelumnya akan mencemari model generasi berikutnya Setelah beberapa generasi "mewarisi" model, mereka akan salah memahami dunia.

Diagram skema iterasi model |arxiv

Keruntuhan model terjadi dalam dua langkah:

  • Pada keruntuhan model awal, model akan mulai kehilangan informasi distribusi dari data asli, yaitu, "data manusia bersih";
  • Pada tahap selanjutnya, model tersebut akan menjerat "mispersepsi" dari informasi distribusi asli dari model generasi sebelumnya, sehingga mendistorsi realitas.

Para peneliti pertama kali melatih beberapa model GMM (Gaussian Mixture Model) dan VAE (Variable Autoencoder) dari awal. Mengambil GMM sebagai contoh, paling kiri dari gambar di bawah ini adalah distribusi normal dari data aslinya.

Seperti yang Anda lihat, model awalnya sangat cocok dengan data. Pada iterasi ke-50, distribusi data yang mendasarinya mulai salah persepsi. Ketika iterasi mencapai 2000 kali, model telah konvergen ke titik yang sangat kecil, yang berarti bahwa model mulai mengeluarkan jawaban yang salah secara terus-menerus.

Contoh pemasangan data GMM pada iterasi 0, 50, 100, 150, 200, 350, 2000|arxiv

Untuk memverifikasi dampak pra-pelatihan pada hasil eksperimen, para peneliti melakukan eksperimen pada 125 juta parameter LLM (Large Language Model) OPT-125m yang dikembangkan oleh Meta. Kumpulan data berasal dari wikitext2 Wikipedia.

Tidak seperti model kecil seperti GMM dan VAE, biaya pelatihan LLM dari awal sangat tinggi, jadi semuanya telah dilatih sebelumnya. Hasil percobaan adalah sebagai berikut:

Masukan: Menurut Poyntz Wright, beberapa kegiatan sebelum tahun 1360 biasanya dilakukan oleh ahli tukang batu dan tim kecil tukang batu keliling, ditambah dengan tenaga kerja paroki setempat. Tetapi penulis lain menyangkal model ini, sebaliknya menyarankan bahwa arsitek utama merancang menara gereja paroki dengan gaya vertikal Inggris. Keluaran: Generasi 0: Bangunan kebangkitan seperti St. John's Cathedral di London. Bangunan Kebangkitan Vertikal paling awal yang bertahan berasal dari Gereja Our Lady of Guernsey abad ke-18, yang dibangun pada akhir abad ke-19. Ada dua jenis gereja vertikal: Gereja generasi pertama: bangunan, seperti Basilika Santo Petrus di Roma atau Basilika Santo Petrus di Buenos Aires. Tidak ada bukti bahwa bangunan ini dibangun pada masa pemerintahan Paus Innosensius III, tetapi kemungkinan dibangun pada masa pemerintahan penerusnya, Paus Innosensius. Generasi 7: Arsitektur Inggris. Dalam sebuah wawancara dengan The New York Times, Wright berkata: "Saya tidak berpikir ada yang salah dengan kemampuan saya untuk melakukan apa yang saya inginkan. Itu tidak berhasil untuk saya. " Dia menambahkan: "Saya tidak tahu jika Anda dapat mengklaim Ini menyenangkan, Generasi ke-9: Arsitektur Selain hitam@-@tailhare terbesar, putih@-@tailhare, biru@-@tailhare, merah@-@tailhare, kuning@- salah satu habitat

Dapat dilihat bahwa pada saat model generasi ke-9, konten keluaran sama sekali tidak dapat dipahami.

Ilia Shumailov, salah satu penulis makalah, mengatakan bahwa seiring waktu, kesalahan dalam data yang dihasilkan AI terakumulasi, dan model utama yang dilatih pada data ini mengembangkan pandangan realitas yang bahkan lebih terdistorsi.

02 Mengapa model mogok?

Alasan utama "runtuhnya model" adalah karena AI bukanlah kecerdasan yang sebenarnya, di balik kemampuannya untuk memperkirakan "kecerdasan" sebenarnya terdapat metode statistik yang didasarkan pada sejumlah besar data.

Pada dasarnya, semua algoritme pembelajaran mesin tanpa pengawasan mengikuti pola sederhana: Berdasarkan serangkaian data, latih model yang dapat menjelaskan hukum data ini.

Dalam proses ini, data dengan probabilitas lebih tinggi dalam set pelatihan lebih mungkin untuk dinilai oleh model, dan data dengan probabilitas lebih rendah akan diremehkan oleh model.

Misalnya, kita perlu mencatat hasil lemparan 100 dadu untuk menghitung probabilitas setiap wajah. Secara teori, kemungkinan setiap wajah muncul adalah sama. Dalam kehidupan nyata, karena ukuran sampel yang kecil, mungkin ada lebih banyak kasus 3 dan 4. Tetapi untuk model, data yang dipelajarinya adalah bahwa 3 dan 4 memiliki probabilitas kemunculan yang lebih tinggi, sehingga cenderung menghasilkan lebih banyak hasil 3 dan 4.

Diagram skematik "model runtuh"|arxiv

Penyebab sekunder lainnya adalah kesalahan perkiraan fungsi. Ini juga mudah dipahami, karena fungsi real seringkali sangat kompleks. Dalam aplikasi praktis, fungsi yang disederhanakan sering digunakan untuk mengaproksimasi fungsi real, yang menyebabkan kesalahan.

03 Apakah Anda benar-benar kurang beruntung?

Khawatir!

Jadi, dengan semakin sedikitnya data manusia, apakah benar-benar tidak ada peluang untuk pelatihan AI?

Tidak, masih ada cara untuk mengatasi masalah kehabisan data untuk pelatihan AI:

Data "isolasi"

Ketika AI menjadi semakin kuat, semakin banyak orang mulai menggunakan AI untuk membantu diri mereka sendiri dalam pekerjaan mereka, dan AIGC di Internet telah meledak, dan "kumpulan data manusia yang bersih" mungkin menjadi semakin sulit ditemukan.

Daphne Ippolito, ilmuwan peneliti senior di Google Brain, departemen penelitian pembelajaran mendalam Google, mengatakan bahwa di masa mendatang, akan semakin sulit untuk menemukan data pelatihan yang dijamin berkualitas tinggi tanpa kecerdasan buatan.

Ini seperti leluhur manusia yang menderita penyakit genetik berisiko tinggi, tetapi memiliki kemampuan reproduksi yang sangat kuat. Dalam waktu singkat, dia melipatgandakan keturunannya ke seluruh pelosok bumi. Kemudian pada suatu saat, penyakit genetik muncul dan seluruh umat manusia punah.

Untuk mengatasi "keruntuhan model", salah satu pendekatan yang diusulkan oleh tim peneliti adalah "keunggulan penggerak pertama", yaitu mempertahankan akses untuk membersihkan sumber data yang dibuat secara artifisial, memisahkan AIGC darinya.

Pada saat yang sama, ini membutuhkan banyak komunitas dan perusahaan untuk bekerja sama agar data manusia bebas dari polusi AIGC.

Namun, kelangkaan data manusia berarti ada peluang yang menguntungkan untuk melakukannya, dan beberapa perusahaan sudah melakukannya. Reddit mengatakan akan secara signifikan meningkatkan biaya mengakses API-nya. Eksekutif perusahaan mengatakan perubahan itu (sebagian) merupakan tanggapan terhadap perusahaan AI yang mencuri datanya. "Database Reddit sangat berharga," kata pendiri dan CEO Reddit Steve Huffman kepada The New York Times. "Tapi kami tidak perlu memberikan semua nilai itu secara gratis kepada beberapa perusahaan terbesar di dunia."

Data sintetis

Pada saat yang sama, secara profesional berdasarkan data yang dihasilkan AI, ini telah digunakan secara efektif dalam pelatihan AI. Di mata beberapa praktisi, kekhawatiran bahwa data yang dihasilkan oleh AI akan menyebabkan model runtuh sekarang menjadi semacam "pesta utama".

Xie Chenguang, pendiri Light Wheel Intelligence, mengatakan kepada Geek Park bahwa seperti yang disebutkan dalam makalah asing, menggunakan data yang dihasilkan AI untuk melatih model AI menyebabkan crash, dan metode eksperimennya bias. Bahkan data manusia dapat dibagi menjadi dapat digunakan dan tidak dapat digunakan, dan percobaan yang disebutkan di makalah langsung digunakan untuk pelatihan tanpa diskriminasi, daripada ditargetkan sebagai data pelatihan setelah pemeriksaan kualitas dan penilaian efektivitas Jelas ada kemungkinan menabrak model.

Xie Chen mengungkapkan bahwa, sebenarnya, GPT-4 OpenAI menggunakan sejumlah besar data yang dihasilkan oleh model GPT-3.5 generasi sebelumnya untuk pelatihan. Sam Altman juga menyatakan dalam sebuah wawancara baru-baru ini bahwa data sintetis adalah cara yang efektif untuk mengatasi kekurangan data model yang besar. Poin utamanya adalah adanya sistem yang lengkap untuk membedakan data mana yang dihasilkan oleh AI yang dapat digunakan dan mana yang tidak, dan untuk terus memberikan umpan balik berdasarkan efek model yang dilatih—ini adalah salah satu trik unik OpenAI yang patut dibanggakan. Arena AI **, perusahaan ini tidak sesederhana mengumpulkan lebih banyak uang dan membeli lebih banyak daya komputasi.

Di industri AI, penggunaan data sintetis untuk pelatihan model sudah menjadi konsensus yang belum diketahui orang luar.

Xie Chen, yang sebelumnya bertanggung jawab atas simulasi mengemudi otonom di perusahaan seperti Nvidia, Cruise, dan Weilai, percaya bahwa menilai dari jumlah data saat ini untuk berbagai pelatihan model skala besar, dalam 2-3 tahun ke depan, manusia data mungkin memang "habis". Namun, berdasarkan sistem dan metode khusus, data sintetik yang dihasilkan oleh AI akan menjadi sumber data efektif yang tidak ada habisnya**. Dan skenario penggunaan tidak terbatas pada teks dan gambar, jumlah data sintetik yang dibutuhkan oleh industri seperti mengemudi otonom dan robotika akan jauh lebih besar daripada jumlah data teks.

Tiga elemen AI adalah data, daya komputasi, dan algoritme. Sumber data telah diselesaikan, dan model besar algoritme terus berkembang. Satu-satunya tekanan daya komputasi yang tersisa, saya yakin pendiri Nvidia, Huang Renxun, dapat menyelesaikannya lancar.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)