Ada kekurangan data manusia, dan AI terpaksa mulai memakan data yang dihasilkan oleh AI!
Ini adalah status quo yang dihadapi oleh perusahaan canggih AI seperti Microsoft dan OpenAI.
Mereka menjelajahi sejumlah besar data dari platform dan forum seperti Wikipedia, e-book, situs berita, blog, Twitter, dan Reddit, dan sekarang... mereka kehabisan data.
NAMUN, untuk melatih model besar yang lebih baik, tidak ada jumlah data yang cukup.
Menurut "Financial Times", banyak perusahaan memasukkan hasil yang dihasilkan oleh model besar, yang disebut data sintetis (Data sintetis), ke model besar dengan parameter lebih kecil, dan menemukan bahwa hasilnya tidak buruk.
Untuk penggunaan data sintetis, CEO OpenAI Sam Altman tidak hanya tidak keberatan, tetapi juga mengatakan bahwa "semua data di masa mendatang akan menjadi data sintetis".
Cohere, startup model besar senilai $2 miliar, juga menggunakan data sintetis. Aidan Gomez, CEO perusahaan dan salah satu penulis kertas Transformer model besar klasik, bahkan percaya bahwa:
Data sintetis dapat mempercepat jalur menuju sistem AI "superintelligent".
Jadi, model besar mana yang sudah menggunakan data sintetik, dan dari mana data sintetik ini berasal?
AI besar menyintesis data, AI kecil memakan
Apa yang disebut data sintetis ini pada dasarnya adalah data yang dihasilkan oleh model besar saat ini dengan performa yang lebih baik, setelah penyesuaian manual, lalu dimasukkan ke model besar yang sedikit lebih kecil.
Misalnya, Cohere mencoba menggunakan dua model besar untuk melakukan dialog "bermain peran" dan membuat hasil yang dihasilkannya menjadi data sintetik.
Kedua model besar ini memainkan peran masing-masing sebagai "guru matematika" dan "siswa", dan melakukan kelas pengajaran matematika virtual. Sementara itu, Cohere menempatkan seorang karyawan manusia di sela-sela untuk mengawasi pembuatan dialog.
Manusia turun tangan untuk memperbaiki teks setiap kali ada kesalahan dalam percakapan.
Meskipun membutuhkan tenaga kerja, biayanya jauh lebih murah daripada mempekerjakan pakar di bidang sains, kedokteran, dan bisnis untuk menulis teks.
Jadi, model besar seperti apa yang akan menggunakan data sintetik ini?
Riset terbaru dari Microsoft Research menunjukkan bahwa data sintetik dapat digunakan untuk melatih model bahasa yang sedikit lebih kecil daripada GPT-4 atau PaLM-2**.
Ambil kumpulan data "novel anak-anak berusia empat tahun" TinyStories yang dibuat oleh GPT-4 sebagai contoh. Kumpulan data ini terbukti hanya berisi kata-kata yang dapat dipahami oleh anak berusia 4 tahun, tetapi setelah pelatihan model besar, sama Cerita yang tata bahasanya benar dan enak dibaca:
Mengenai alasan penggunaan data sintetik, CEO Cohere Aidan Gomez percaya:
Tentu saja lebih baik bisa mendapatkan data dari Internet, tetapi data jaringan terlalu berantakan untuk memenuhi kebutuhan sama sekali. Sebaliknya, data sintetik sudah melimpah, meski tidak disebarluaskan.
Rantai industri di belakang telah muncul
Saat ini, perusahaan termasuk Scale AI dan Gretel.ai sudah mulai menyediakan layanan data sintetik ke dunia luar.
Pertama, Scale AI, yang meluncurkan produk data sintetis, Scale Synthetic, untuk menyediakan layanan data sintetis bagi perusahaan.
Dalam berita sebelumnya bahwa SemiAnalysis menyampaikan berita tentang "renda besar" GPT-4, juga disebutkan bahwa dalam kumpulan data GPT-4, ada jutaan baris dari Scale AI dan data fine-tuning instruksi internal.
Adapun platform data sintetis Gretel.ai, dari situs resminya, telah bekerja sama dengan berbagai perusahaan seperti Google, Riot Games, dan HSBC untuk menghasilkan lebih banyak data sintetis untuk digunakan pengembang lain.
Ali Golshan, CEO Gretel.ai, percaya bahwa manfaat dari data sintetis adalah menjaga privasi semua individu dalam kumpulan data sambil tetap mempertahankan integritas statistiknya.
Tetapi tidak semua orang menerima "operasi ajaib" dari data sintetik.Saat ini, pendapat semua pihak terutama terbagi menjadi dua gelombang.
Beberapa menyetujui penggunaan data sintetis. Termasuk perusahaan AI seperti Cohere, banyak perusahaan yang terlibat dalam model berskala besar masih bersikeras pada pendekatan ini, dan percaya bahwa ini dapat menghasilkan AI yang lebih baik, bahkan melahirkan "kecerdasan super".
Bagian lain percaya bahwa data sintetis pada akhirnya akan memungkinkan AI untuk "memakan dirinya sendiri".
Sebagai contoh, sebuah studi dari Oxford University, Cambridge University, Imperial College, University of Toronto, University of Edinburgh dan Vector Institute menunjukkan bahwa:
Pelatihan dengan data sintetik akan menyebabkan cacat permanen pada model:
Lupakan "peristiwa mustahil" yang akhirnya diracuni oleh data yang dihasilkan sendiri.
Beberapa netizen percaya bahwa data sintetik ini pada akhirnya akan menjadi kumpulan "lumpur yang tidak dapat digunakan"—dan kemudian orang terpaksa menyewa ilmuwan data untuk membersihkan* itu.
Beberapa netizen mencemooh bahwa ini terdengar seperti "AI inbreeding".
Apakah menurut Anda AI perlu menggunakan data sintetis?
Tautan referensi:
[1]
[2]
[3]
[4]
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Data manusia sedang terburu-buru, Microsoft OpenAI mulai memberi makan AI dengan AI, kata Altman: semua data di masa depan akan menjadi data sintetis
Sumber asli: Qubit
Ada kekurangan data manusia, dan AI terpaksa mulai memakan data yang dihasilkan oleh AI!
Ini adalah status quo yang dihadapi oleh perusahaan canggih AI seperti Microsoft dan OpenAI.
Mereka menjelajahi sejumlah besar data dari platform dan forum seperti Wikipedia, e-book, situs berita, blog, Twitter, dan Reddit, dan sekarang... mereka kehabisan data.
Menurut "Financial Times", banyak perusahaan memasukkan hasil yang dihasilkan oleh model besar, yang disebut data sintetis (Data sintetis), ke model besar dengan parameter lebih kecil, dan menemukan bahwa hasilnya tidak buruk.
Untuk penggunaan data sintetis, CEO OpenAI Sam Altman tidak hanya tidak keberatan, tetapi juga mengatakan bahwa "semua data di masa mendatang akan menjadi data sintetis".
Cohere, startup model besar senilai $2 miliar, juga menggunakan data sintetis. Aidan Gomez, CEO perusahaan dan salah satu penulis kertas Transformer model besar klasik, bahkan percaya bahwa:
Jadi, model besar mana yang sudah menggunakan data sintetik, dan dari mana data sintetik ini berasal?
AI besar menyintesis data, AI kecil memakan
Apa yang disebut data sintetis ini pada dasarnya adalah data yang dihasilkan oleh model besar saat ini dengan performa yang lebih baik, setelah penyesuaian manual, lalu dimasukkan ke model besar yang sedikit lebih kecil.
Misalnya, Cohere mencoba menggunakan dua model besar untuk melakukan dialog "bermain peran" dan membuat hasil yang dihasilkannya menjadi data sintetik.
Kedua model besar ini memainkan peran masing-masing sebagai "guru matematika" dan "siswa", dan melakukan kelas pengajaran matematika virtual. Sementara itu, Cohere menempatkan seorang karyawan manusia di sela-sela untuk mengawasi pembuatan dialog.
Meskipun membutuhkan tenaga kerja, biayanya jauh lebih murah daripada mempekerjakan pakar di bidang sains, kedokteran, dan bisnis untuk menulis teks.
Jadi, model besar seperti apa yang akan menggunakan data sintetik ini?
Riset terbaru dari Microsoft Research menunjukkan bahwa data sintetik dapat digunakan untuk melatih model bahasa yang sedikit lebih kecil daripada GPT-4 atau PaLM-2**.
Ambil kumpulan data "novel anak-anak berusia empat tahun" TinyStories yang dibuat oleh GPT-4 sebagai contoh. Kumpulan data ini terbukti hanya berisi kata-kata yang dapat dipahami oleh anak berusia 4 tahun, tetapi setelah pelatihan model besar, sama Cerita yang tata bahasanya benar dan enak dibaca:
Rantai industri di belakang telah muncul
Saat ini, perusahaan termasuk Scale AI dan Gretel.ai sudah mulai menyediakan layanan data sintetik ke dunia luar.
Pertama, Scale AI, yang meluncurkan produk data sintetis, Scale Synthetic, untuk menyediakan layanan data sintetis bagi perusahaan.
Dalam berita sebelumnya bahwa SemiAnalysis menyampaikan berita tentang "renda besar" GPT-4, juga disebutkan bahwa dalam kumpulan data GPT-4, ada jutaan baris dari Scale AI dan data fine-tuning instruksi internal.
Tetapi tidak semua orang menerima "operasi ajaib" dari data sintetik.Saat ini, pendapat semua pihak terutama terbagi menjadi dua gelombang.
Beberapa menyetujui penggunaan data sintetis. Termasuk perusahaan AI seperti Cohere, banyak perusahaan yang terlibat dalam model berskala besar masih bersikeras pada pendekatan ini, dan percaya bahwa ini dapat menghasilkan AI yang lebih baik, bahkan melahirkan "kecerdasan super".
Bagian lain percaya bahwa data sintetis pada akhirnya akan memungkinkan AI untuk "memakan dirinya sendiri".
Sebagai contoh, sebuah studi dari Oxford University, Cambridge University, Imperial College, University of Toronto, University of Edinburgh dan Vector Institute menunjukkan bahwa:
Tautan referensi: [1] [2] [3] [4]