Baru-baru ini, Ilya Sutskever, kepala ilmuwan OpenAI, memberikan kuliah di Simons Institute, yang berfokus pada penelitian teori komputasi, Dalam satu kalimat, kita dapat melihat pembelajaran tanpa pengawasan dari perspektif terkompresi. Selain itu, ia berbagi banyak wawasan menarik lainnya. Inti dari mesin memilah isi pidato secara umum, berharap dapat membantu pembaca memahami pembelajaran tanpa pengawasan lebih dalam.
Sutskever pertama kali berbicara tentang perubahan arah penelitiannya. Dia berkata: "Belum lama ini, saya mengalihkan semua fokus penelitian saya ke penelitian penyelarasan AI." Ini adalah tim "Superalignment (penyelarasan super)" yang dibentuk oleh OpenAI beberapa waktu lalu. , yang dia pimpin bersama Jan Leike. Sutskever mengatakan bahwa mereka telah mencapai beberapa hasil penelitian dalam penyelarasan AI, tetapi ini bukan topik yang menjadi fokus pembicaraan ini.
Topik pidato ini adalah "Pengamatan tentang Generalisasi (an observation on generalization)", dan Ilya Sutskever secara khusus membahas tentang teori yang menjelaskan unsupervised learning.
Pertama, Ilya Sutskever mengajukan serangkaian pertanyaan luas tentang "belajar": Apa sebenarnya belajar itu? Mengapa belajar bermanfaat? Mengapa belajar harus bermanfaat? Mengapa komputer harus memiliki kemampuan untuk belajar? Mengapa jaringan saraf dapat belajar? Mengapa model pembelajaran mesin dapat mempelajari hukum data? Bisakah kita menggambarkan pembelajaran dalam istilah matematika?
Pembelajaran Terawasi
Sutskever dimulai dengan pembelajaran yang diawasi. Dia mengatakan telah ada formalisasi yang signifikan dari pembelajaran yang diawasi, hasil dari beberapa peneliti tahun lalu, hasil ini sering disebut sebagai teori belajar statistik.
Keunggulan pembelajaran terbimbing adalah dapat memberikan kondisi matematis yang tepat agar pembelajaran berhasil. Yaitu, jika Anda memiliki beberapa data dari beberapa distribusi data, kemudian Anda berhasil mencapai kerugian pelatihan yang rendah dan Anda memiliki data pelatihan yang cukup (lebih banyak derajat kebebasan daripada distribusi data), maka kesalahan pengujian Anda harus rendah.
Secara matematis, pembelajaran harus berhasil jika suatu fungsi dalam kelas fungsi dapat ditemukan yang mencapai kerugian pelatihan yang lebih rendah. Oleh karena itu, pembelajaran yang diawasi sangat sederhana.
Peneliti telah menemukan beberapa teorema dalam penelitian terkait, berikut contohnya. Sutskever mengatakan akan memakan waktu sekitar lima menit untuk menjelaskan teorema tersebut, tetapi tampaknya dia memiliki waktu yang terbatas untuk berbicara.
Secara keseluruhan, teorema ini "elegan" dan menunjukkan proses pembelajaran terawasi dengan hanya tiga baris derivasi matematika.
Jadi pembelajaran yang diawasi relatif dipahami dengan baik. Kami tahu mengapa ini akan berhasil—selama kami dapat mengumpulkan set data pembelajaran besar yang diawasi, kami dapat yakin bahwa model akan menjadi lebih baik dan lebih baik lagi. Tentu saja, poin lain juga sangat penting, yaitu memastikan distribusi tes konsisten dengan distribusi pelatihan, hanya dengan cara ini teori pembelajaran yang diawasi dapat efektif.
Jadi konsep pembelajaran terawasi sangat sederhana. Kami juga sudah memiliki jawaban tentang mengapa pembelajaran yang diawasi berhasil — kami tahu mengapa pengenalan ucapan dan klasifikasi gambar berhasil karena didasarkan pada pembelajaran yang diawasi yang efisien dan dijamin secara matematis.
Di sini Ilya Sutskever menyebutkan dimensi VC. Dia menyebutkan bahwa banyak peneliti dalam teori pembelajaran statistik percaya bahwa dimensi VC adalah komponen kunci, tetapi tujuan dimensi VC diciptakan untuk memungkinkan model dapat menangani parameter dengan presisi tak terbatas.
Misalnya, jika setiap parameter pengklasifikasi linier Anda memiliki presisi tak terbatas, tetapi presisi angka floating-point pada kenyataannya terbatas, dan presisi akan menyusut, maka Anda dapat mengimplementasikan beberapa fungsi melalui dimensi VC, dan mengonversi linear ini. direduksi menjadi bentuk pembelajaran yang diawasi yang dijelaskan oleh rumus sebelumnya.
**Apa itu pembelajaran tanpa pengawasan? **
Selanjutnya lihat pembelajaran tanpa pengawasan. Pertama-tama, apa itu pembelajaran tanpa pengawasan? Ilya Sutskever berkata bahwa dia belum melihat penjelasan yang memuaskan tentang pembelajaran tanpa pengawasan, dan kami tidak tahu bagaimana menjelaskannya secara matematis - paling banter, kami hanya dapat melakukan intuisi.
Pembelajaran tanpa pengawasan telah menjadi impian lama di bidang pembelajaran mesin. Sutskever percaya bahwa tujuan ini telah dicapai dalam studi eksperimental, di mana model melihat data tanpa diberitahu isinya dan menemukan struktur tersembunyi yang nyata dan berguna di dalamnya.
Bagaimana ini bisa terjadi? Bisakah kita yakin ini akan terjadi? Sutskever mengatakan kita tidak bisa, lagipula kita tidak memiliki jaminan teoretis yang sama dalam pembelajaran tanpa pengawasan yang kita miliki dalam pembelajaran yang diawasi.
Orang-orang telah menjelajahi pembelajaran tanpa pengawasan sejak 1980-an, menggunakan terminologi serupa. Dalam percobaan, orang mengamati bahwa ketika jumlah data kecil, fenomena pembelajaran tanpa pengawasan tidak muncul, tetapi beberapa ide pengembangan populer telah muncul, seperti BERT, model difusi, model bahasa kuno, dll. Unsupervised learning pada saat itu juga mampu menghasilkan beberapa sample yang keren, namun tentunya tidak sebagus teknologi saat ini.
Tetapi karena kita tidak tahu cara kerja pembelajaran tanpa pengawasan, hal itu selalu membingungkan.
Misalnya, saat Anda mengoptimalkan untuk sasaran tertentu (seperti rekonstruksi gambar atau memprediksi kata berikutnya), Anda mungkin juga peduli dengan sasaran lain (seperti klasifikasi gambar atau klasifikasi dokumen), dan model juga dapat bekerja dengan baik pada sasaran yang tidak dioptimalkan ini Dapatkan kinerja yang baik. Tapi kenapa? Saya tidak tahu, itu hasil percobaan. Sutskever mengatakan itu seperti sulap.
Apakah kita akan meninggalkan teori dan terus menggunakan positivisme?
Kita tahu bahwa pembelajaran tanpa pengawasan adalah mempelajari struktur dalam distribusi input, dan kemudian mendapatkan sesuatu darinya yang membantu mencapai tujuan. Tetapi bagaimana jika distribusi input adalah distribusi yang seragam? Saat ini, berbagai algoritme pembelajaran tanpa pengawasan akan gagal. Bagaimana seharusnya kita memperlakukan fenomena ini? Sutskever berkata kita perlu membuat beberapa asumsi.
Metode pembelajaran tanpa pengawasan: pencocokan distribusi
Selanjutnya, Sutskever menunjukkan cara berpikir yang potensial tentang pembelajaran tanpa pengawasan. Menurutnya, metode unsupervised learning ini belum menjadi mainstream, namun sangat menarik. Ini memiliki karakteristik yang mirip dengan pembelajaran yang diawasi, yaitu harus efektif. Mengapa? Ini melibatkan proses pembelajaran tanpa pengawasan yang disebut pencocokan distribusi.
Selanjutnya, izinkan saya menjelaskan secara singkat. Misalkan ada dua sumber data X dan Y tanpa korespondensi di antara mereka; tujuan dari model ini adalah menemukan fungsi F sehingga distribusi F(X) mendekati distribusi Y - ini adalah batasan pada F.
Batasan ini mungkin berarti untuk banyak skenario aplikasi seperti terjemahan mesin dan pengenalan suara. Misalnya, jika ada sebaran kalimat bahasa Inggris, setelah menggunakan fungsi F, kita bisa mendapatkan sebaran yang mendekati sebaran kalimat bahasa Prancis, maka kita dapat mengatakan bahwa kita telah memperoleh batasan nyata dari F.
Jika dimensi X dan Y cukup tinggi, maka F mungkin memiliki sejumlah kendala yang besar. Nyatanya, Anda bahkan mungkin dapat memulihkan F penuh dari kendala tersebut. Ini adalah contoh pembelajaran yang diawasi dari pembelajaran yang tidak diawasi, dan itu harus berhasil, seperti halnya pembelajaran yang diawasi harus berhasil.
Selain itu, cipher substitusi juga cocok dengan kerangka kerja ini.
Sutskever mengatakan dia secara independen menemukan fenomena tersebut pada tahun 2015. Itu membuatnya berpikir: mungkin kita bisa menggambarkan pembelajaran tanpa pengawasan dalam beberapa bentuk matematika yang bermakna.
Tentu saja, skenario terjemahan mesin yang dijelaskan di atas adalah skenario buatan yang disederhanakan, yang tidak sesuai dengan situasi aplikasi nyata, dan skenario pembelajaran tanpa pengawasan yang sesuai secara alami sama.
Selanjutnya, Sutskever akan menjelaskan metode yang diusulkannya - yang dapat memberikan penjelasan matematis untuk pembelajaran tanpa pengawasan dan memastikan bahwa hasil pembelajaran tanpa pengawasan itu baik.
Seperti yang kita ketahui bersama, kompresi adalah prediksi, dan setiap kompresor dapat diubah menjadi prediktor, begitu pula sebaliknya. Ada korespondensi satu-ke-satu antara kompresor ansambel dan prediktor ansambel.
Sutskever menunjukkan bahwa untuk mengilustrasikan pemikiran tentang pembelajaran tanpa pengawasan dengan lebih jelas, sebaiknya menggunakan aspek kompresi diskusi.
Berdasarkan ini, dia memberikan eksperimen pikiran.
Katakanlah Anda memiliki dua kumpulan data X dan Y, yang merupakan dua file di hard drive Anda; maka Anda memiliki algoritma kompresi C yang hebat. Juga misalkan Anda melakukan kompresi gabungan pada X dan Y, yaitu, menggabungkannya terlebih dahulu, lalu memasukkannya ke kompresor.
Pertanyaan penting sekarang adalah: apa yang akan dilakukan oleh kompresor yang cukup baik?
Sutskever memberikan jawaban yang sangat intuitif: kompresor menggunakan pola yang ada di X untuk membantu mengompres Y; dan sebaliknya.
Dia mengatakan bahwa adegan tugas prediksi sebenarnya memiliki fenomena serupa, tetapi tampaknya lebih intuitif untuk mengatakannya dalam konteks terkompresi.
Jika kompresor Anda cukup baik, hasil kompresi file gabungan seharusnya tidak lebih buruk dari hasil kompresi terpisah.
Jadi kompresi lebih lanjut yang Anda dapatkan dengan menggabungkan adalah semacam struktur bersama yang diperhatikan kompresor Anda. Semakin baik kompresornya, semakin banyak struktur umum yang dapat diekstraksi.
Perbedaan antara kedua hasil kompresi adalah struktur bersama, informasi timbal balik algoritmik.
Sejalan dengan itu, Anda dapat menganggap Y sebagai data untuk tugas yang diawasi, X sebagai data untuk tugas yang tidak diawasi, dan Anda memiliki beberapa bentuk penalaran matematis tentang informasi ini - Anda dapat menggunakan pola di X untuk membantu tugas Y.
Perhatikan juga bagaimana generalisasi untuk pencocokan distribusi. Jika dalam kasus pencocokan distribusi, misalkan X adalah bahasa 1 dan Y adalah bahasa 2, dan terdapat beberapa fungsi sederhana F yang berubah dari satu distribusi ke distribusi lainnya; maka kompresor yang baik akan menyadari hal ini juga dan menggunakan Memanfaatkannya, itu bahkan dimungkinkan untuk mengembalikan fungsi secara internal.
Dengan cara ini, loop tertutup terbentuk. Jadi bagaimana kita menggambarkan pembelajaran tanpa pengawasan dalam bentuk matematika?
Formalisasi Matematika dari Pembelajaran Tanpa Pengawasan
Perhatikan bahwa deskripsi di bagian ini menggunakan deskripsi skenario kompresi dan skenario prediksi secara bergantian.
Pertama anggaplah kita memiliki algoritma pembelajaran mesin A yang perannya adalah untuk mengompres Y. Algoritma A memiliki akses ke X. Misalkan X adalah dokumen nomor 1 dan Y adalah dokumen nomor 2. Kami ingin algoritme/kompresor pembelajaran mesin kami untuk mengompres Y dan dapat menggunakan X bila perlu. Tujuannya adalah untuk mengompres Y sebanyak mungkin.
Lalu kita harus bertanya pada diri sendiri: Apa penyesalan (penyesalan) terbesar dari penggunaan algoritma ini?
Sutskever menjelaskan: "Jika saya melakukan pekerjaan dengan baik dan penyesalan saya rendah, itu berarti saya mendapat semua bantuan yang bisa saya dapatkan dari data yang tidak berlabel ini. Data yang tidak berlabel telah membantu sebanyak mungkin." tidak ada penyesalan tentang itu." Yang berarti tidak ada prediktor yang lebih baik yang tersedia untuk algoritme kompresi yang lebih baik. "Saya mendapatkan hasil maksimal dari data saya yang tidak berlabel."
Sutskever melihat ini sebagai langkah penting menuju pemikiran tentang pembelajaran tanpa pengawasan. Anda tidak tahu apakah kumpulan data Anda yang tidak diawasi benar-benar berguna, tetapi jika Anda memiliki penyesalan yang rendah pada algoritme pembelajaran yang diawasi, maka Anda mendapatkan hasil terbaik, tidak ada hasil yang lebih baik.
Sekarang ke wilayah teoretis yang agak kabur.
Menggunakan kompleksitas Kolmogorov sebagai kompresor utama memberi kita algoritme dengan penyesalan yang sangat rendah, tetapi ini sebenarnya bukan algoritme karena tidak dapat dihitung.
Izinkan saya menjelaskan secara singkat kompleksitas Kolmogorov: Ini seperti Anda memberi saya beberapa data, dan untuk mengompresnya, saya akan memberi Anda program sesingkat mungkin. Kompleksitas Kolmogorov sama dengan panjang program terpendek ini.
Biarkan C menjadi kompresor yang dapat dihitung, maka untuk semua X kompleksitas kompresor Kolmogorov kurang dari output sewenang-wenang dari kompresor C ditambah jumlah karakter kode yang diperlukan untuk mengimplementasikan kompresor.
Kami dapat membuktikan ini menggunakan argumen simulasi. Misalkan ada kompresor C yang sangat bagus, maka itu mungkin program komputer, jika program komputer ini diserahkan kepada K untuk dijalankan, maka biaya yang diperlukan K adalah lamanya program ini. Kompresor Kolmogorov dapat mensimulasikan program komputer lain dan kompresor lain, sehingga tidak dapat dihitung. Ini seperti program gratis yang meniru semua program komputer, tetapi juga merupakan kompresor terbaik.
Sekarang kami menggeneralisasikan kompresor Kolmogorov untuk menggunakan informasi tambahan. Kita tahu bahwa kompresor Kolmogorov tidak dapat dihitung, tidak dapat diputuskan, tetapi seperti mencari semua program. Ini seperti menggunakan jaringan saraf untuk menyetel parameter melalui SGD (Stochastic Gradient Descent) untuk mencari program. Proses ini berjalan di komputer dengan sumber daya tertentu (memori, jumlah langkah), yang seperti kompresor Kolmogorov yang sangat kecil. Ada kesamaan di antara keduanya.
Jaringan saraf dapat mensimulasikan applet, yang merupakan komputer kecil dengan loop/sirkuit. Kita dapat menggunakan SGD untuk melatih komputer ini untuk menemukan "sirkuitnya" dari data.
Argumen dari simulasi juga berlaku di sini. Jika Anda ingin merancang arsitektur jaringan saraf yang lebih baik, Anda akan kesulitan, karena penambahan atau modifikasi koneksi dapat disimulasikan oleh arsitektur jaringan saraf lainnya, tetapi sebenarnya sulit dilakukan. Karena ini adalah kasus langka yang dapat membawa perbaikan besar. Sama seperti transisi dari RNN ke Transformer. RNN memiliki hambatan: keadaan tersembunyi. Tetapi jika kita dapat menemukan cara untuk membuat RNN memiliki status tersembunyi yang sangat besar, maka kinerjanya dapat mengejar Transformer lagi.
Jadi kita dapat menggunakan kompleksitas Kolmogorov bersyarat sebagai solusi untuk pembelajaran tanpa pengawasan sebagai berikut:
di mana C adalah kompresor yang dapat dihitung dan K(Y|X) adalah panjang program terpendek yang menghasilkan Y jika X dapat digunakan.
Ini adalah solusi penyesalan yang sangat rendah untuk pembelajaran tanpa pengawasan yang tidak dapat dihitung, tetapi menyediakan kerangka kerja yang bermanfaat.
** Kompres semuanya secara langsung! **
Sutskever melangkah lebih jauh dan menyebutkan bahwa "mengompresi semuanya secara langsung" juga dimungkinkan.
Kompleksitas Kolmogorov bersyarat K(Y|X) tidak wajar dalam konteks pembelajaran mesin karena mengkompres Y berdasarkan X, yang sebagian besar tidak mungkin untuk dikondisikan pada kumpulan data besar, setidaknya untuk saat ini. Kami dapat memuat kumpulan data besar, tetapi sulit untuk mengkondisikannya.
Dan yang di atas mengatakan: Jika Anda ingin membuat prediksi pada sesuatu Y yang Anda awasi, kompresor Kolmogorov biasa yang mengompresi data gabungan X dan Y akan berfungsi sebaik kompresor bersyarat. Tentu saja ada lebih banyak seluk-beluk dalam perincian sebenarnya, tetapi ini benar-benar berarti bahwa kita dapat menggunakan kompresor Kolmogorov biasa untuk menyelesaikan pembelajaran tanpa pengawasan -- cukup gabungkan semua data Anda, dan lakukan kompresi, sehingga Anda dapat Hasil yang baik telah diperoleh pada tugas supervisi.
Buktinya lebih rumit, jadi saya tidak akan membahasnya di sini.
Kesimpulan penting adalah bahwa kompresi Kolmogorov reguler (tanpa syarat pada kumpulan data tertentu) adalah "penggunaan terbaik" dari data yang tidak berlabel. Ini adalah solusi untuk pembelajaran tanpa pengawasan.
kompresi gabungan adalah kemungkinan maksimum
Poin terakhir yang dibuat Sutskever dalam ceramahnya adalah ini: kompresi sendi ini adalah kemungkinan maksimum, selama tidak ada overfitting.
Jika Anda memiliki kumpulan data, maka jumlah kemungkinan untuk parameter yang diberikan adalah biaya mengompresi kumpulan data tersebut. Anda juga membayar biaya mengompresi parameter. Dan jika Anda ingin mengompres dua kumpulan data, tidak masalah, cukup tambahkan poin data ke kumpulan data Anda, yaitu, tambahkan lebih banyak item ke jumlah operasi penjumlahan di atas.
Jadi kompresi gabungan dengan menggabungkan data adalah pendekatan yang sangat alami dalam konteks pembelajaran mesin. Sebaliknya, melewati kompleksitas Kolmogorov bersyarat jauh lebih merepotkan.
Kami bahkan dapat menggunakannya untuk menjelaskan cara kerja jaringan saraf. Kami dapat menggunakan SGD untuk jaringan saraf besar sebagai pencari program besar kami. Semakin besar jaringan saraf, semakin baik dapat mendekati kompresor Kolmogorov biasa. Sutskever berkomentar: "Mungkin inilah mengapa kami menyukai jaringan saraf yang besar, karena kami dapat mendekati ide kompresor Kolmogorov reguler yang tidak dapat direalisasikan tanpa penyesalan. Saat kami melatih jaringan saraf yang semakin besar, penyesalan akan meningkat. Rendah."
**Apakah teori ini juga berlaku untuk model GPT? **
Jawaban Sutskever untuk ini adalah ya, tetapi untuk menjelaskan perilaku model GPT, tanpa mengutip pernyataan tentang kompresi atau pembelajaran yang diawasi, Anda dapat mengatakan bahwa "teori" GPT dapat diperoleh dengan penalaran tentang distribusi kondisional teks.
Jadi, bisakah kita menemukan metode verifikasi langsung lainnya untuk menguji teori ini? Bisakah kita menjelaskannya dalam domain lain seperti penglihatan? Bisakah kita mendapatkan pembelajaran tanpa pengawasan yang baik jika kita melakukan ini pada data piksel?
Sutskever mengatakan mereka telah melakukan studi semacam itu pada tahun 2020, iGPT. Tentu saja, ini terutama merupakan penelitian pembuktian konsep, dan masih ada jalan panjang dari penerapan praktis. Untuk detailnya, lihat makalah "Pelatihan Awal Generatif dari Piksel".
Makalah tersebut menunjukkan bahwa jika Anda dapat membuat prediktor langkah selanjutnya yang hebat, Anda bisa mendapatkan pembelajaran tanpa pengawasan yang hebat. Tulisan ini membuktikan pernyataan tersebut pada domain gambar.
Secara sederhana, pertama-tama ubah gambar menjadi urutan piksel, setiap piksel memiliki nilai kerapatan diskrit. Yang perlu dilakukan hanyalah menggunakan Transformer yang sama untuk memprediksi piksel berikutnya. Ini berbeda dengan BERT, yaitu untuk memprediksi token berikutnya, karena ini adalah kemungkinan untuk memaksimalkan kompresi.
Mari kita lihat hasilnya:
Seperti yang ditunjukkan, ini adalah akurasi probe linier pada CIFAR-10 untuk berbagai ukuran model iGPT, yaitu akurasi prediksi langkah selanjutnya pada tugas prediksi piksel pembelajaran tanpa pengawasan. Terlihat bahwa memprediksi piksel berikutnya sama efektifnya dengan memprediksi kata berikutnya. Pembelajaran tanpa pengawasan bekerja lebih baik ketika ukuran model lebih besar.
Mereka melakukan studi eksperimental dan menemukan bahwa di ImageNet, kinerja iGPT, yang telah diperluas dalam banyak hal, dapat mendekati pembelajaran terawasi terbaik saat ini, tetapi masih ada beberapa celah.
Namun, Sutskever percaya bahwa ini adalah masalah komputasi, karena metode pembelajaran terawasi seperti SimCLR menggunakan gambar beresolusi tinggi yang besar, dan menyediakan gambar kecil 64x64 untuk Transformer raksasa (6,8 miliar parameter). Ini seperti memprediksi piksel berikutnya dengan cara yang tidak diawasi berdasarkan kumpulan data besar, lalu memasang probe linier di ImageNet, dengan hasil yang bagus.
Pada CIFAR-10, iGPT-L dengan 1,36 miliar parameter mencapai akurasi 99%, seperti yang ditunjukkan pada gambar di bawah ini.
Representasi Linier
Di akhir pembicaraan, Sutskever mengatakan ingin berbicara tentang representasi linier.
“Saya suka teori kompresi karena sebelumnya tidak ada cara untuk berpikir tentang pembelajaran tanpa pengawasan dengan cara yang ketat,” katanya. Sekarang kita bisa melakukannya sampai batas tertentu. Tetapi teori kompresi tidak dapat secara langsung menjelaskan mengapa representasi dapat dipisahkan secara linier, juga tidak dapat menjelaskan bahwa harus ada probe linier. Representasi linier ada di mana-mana, dan alasan pembentukannya harus dalam. Sutskever percaya kami akan dapat mengartikulasikannya di masa depan.
Hal lain yang menurutnya menarik adalah bahwa model autoregresif mengungguli BERT dalam hal representasi linier. Tapi masih belum jelas kenapa.
Namun, Sutskever memberikan spekulasinya sendiri: saat memprediksi piksel berikutnya berdasarkan semua piksel sebelumnya, model perlu mengamati struktur data jarak jauh. BERT membuang beberapa token piksel saat memproses vektor, dan dengan mempertimbangkan sedikit masa lalu dan masa depan, model sebenarnya bisa mendapatkan prediksi yang cukup bagus. Dengan cara ini, semua tugas sulit dihilangkan, dan kesulitan tugas berkurang banyak. Tugas prediksi tersulit dalam memprediksi piksel berikutnya jauh lebih sulit daripada tugas prediksi tersulit dalam kasus prediksi BERT.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Kompres semuanya secara langsung! Kepala ilmuwan OpenAI Ilya Sutskever melihat pembelajaran tanpa pengawasan dengan cara ini
Sumber Asli: Jantung Mesin
Baru-baru ini, Ilya Sutskever, kepala ilmuwan OpenAI, memberikan kuliah di Simons Institute, yang berfokus pada penelitian teori komputasi, Dalam satu kalimat, kita dapat melihat pembelajaran tanpa pengawasan dari perspektif terkompresi. Selain itu, ia berbagi banyak wawasan menarik lainnya. Inti dari mesin memilah isi pidato secara umum, berharap dapat membantu pembaca memahami pembelajaran tanpa pengawasan lebih dalam.
Sutskever pertama kali berbicara tentang perubahan arah penelitiannya. Dia berkata: "Belum lama ini, saya mengalihkan semua fokus penelitian saya ke penelitian penyelarasan AI." Ini adalah tim "Superalignment (penyelarasan super)" yang dibentuk oleh OpenAI beberapa waktu lalu. , yang dia pimpin bersama Jan Leike. Sutskever mengatakan bahwa mereka telah mencapai beberapa hasil penelitian dalam penyelarasan AI, tetapi ini bukan topik yang menjadi fokus pembicaraan ini.
Topik pidato ini adalah "Pengamatan tentang Generalisasi (an observation on generalization)", dan Ilya Sutskever secara khusus membahas tentang teori yang menjelaskan unsupervised learning.
Pembelajaran Terawasi
Sutskever dimulai dengan pembelajaran yang diawasi. Dia mengatakan telah ada formalisasi yang signifikan dari pembelajaran yang diawasi, hasil dari beberapa peneliti tahun lalu, hasil ini sering disebut sebagai teori belajar statistik.
Keunggulan pembelajaran terbimbing adalah dapat memberikan kondisi matematis yang tepat agar pembelajaran berhasil. Yaitu, jika Anda memiliki beberapa data dari beberapa distribusi data, kemudian Anda berhasil mencapai kerugian pelatihan yang rendah dan Anda memiliki data pelatihan yang cukup (lebih banyak derajat kebebasan daripada distribusi data), maka kesalahan pengujian Anda harus rendah.
Secara matematis, pembelajaran harus berhasil jika suatu fungsi dalam kelas fungsi dapat ditemukan yang mencapai kerugian pelatihan yang lebih rendah. Oleh karena itu, pembelajaran yang diawasi sangat sederhana.
Peneliti telah menemukan beberapa teorema dalam penelitian terkait, berikut contohnya. Sutskever mengatakan akan memakan waktu sekitar lima menit untuk menjelaskan teorema tersebut, tetapi tampaknya dia memiliki waktu yang terbatas untuk berbicara.
Jadi pembelajaran yang diawasi relatif dipahami dengan baik. Kami tahu mengapa ini akan berhasil—selama kami dapat mengumpulkan set data pembelajaran besar yang diawasi, kami dapat yakin bahwa model akan menjadi lebih baik dan lebih baik lagi. Tentu saja, poin lain juga sangat penting, yaitu memastikan distribusi tes konsisten dengan distribusi pelatihan, hanya dengan cara ini teori pembelajaran yang diawasi dapat efektif.
Di sini Ilya Sutskever menyebutkan dimensi VC. Dia menyebutkan bahwa banyak peneliti dalam teori pembelajaran statistik percaya bahwa dimensi VC adalah komponen kunci, tetapi tujuan dimensi VC diciptakan untuk memungkinkan model dapat menangani parameter dengan presisi tak terbatas.
**Apa itu pembelajaran tanpa pengawasan? **
Selanjutnya lihat pembelajaran tanpa pengawasan. Pertama-tama, apa itu pembelajaran tanpa pengawasan? Ilya Sutskever berkata bahwa dia belum melihat penjelasan yang memuaskan tentang pembelajaran tanpa pengawasan, dan kami tidak tahu bagaimana menjelaskannya secara matematis - paling banter, kami hanya dapat melakukan intuisi.
Pembelajaran tanpa pengawasan telah menjadi impian lama di bidang pembelajaran mesin. Sutskever percaya bahwa tujuan ini telah dicapai dalam studi eksperimental, di mana model melihat data tanpa diberitahu isinya dan menemukan struktur tersembunyi yang nyata dan berguna di dalamnya.
Bagaimana ini bisa terjadi? Bisakah kita yakin ini akan terjadi? Sutskever mengatakan kita tidak bisa, lagipula kita tidak memiliki jaminan teoretis yang sama dalam pembelajaran tanpa pengawasan yang kita miliki dalam pembelajaran yang diawasi.
Tetapi karena kita tidak tahu cara kerja pembelajaran tanpa pengawasan, hal itu selalu membingungkan.
Apakah kita akan meninggalkan teori dan terus menggunakan positivisme?
Metode pembelajaran tanpa pengawasan: pencocokan distribusi
Selanjutnya, Sutskever menunjukkan cara berpikir yang potensial tentang pembelajaran tanpa pengawasan. Menurutnya, metode unsupervised learning ini belum menjadi mainstream, namun sangat menarik. Ini memiliki karakteristik yang mirip dengan pembelajaran yang diawasi, yaitu harus efektif. Mengapa? Ini melibatkan proses pembelajaran tanpa pengawasan yang disebut pencocokan distribusi.
Batasan ini mungkin berarti untuk banyak skenario aplikasi seperti terjemahan mesin dan pengenalan suara. Misalnya, jika ada sebaran kalimat bahasa Inggris, setelah menggunakan fungsi F, kita bisa mendapatkan sebaran yang mendekati sebaran kalimat bahasa Prancis, maka kita dapat mengatakan bahwa kita telah memperoleh batasan nyata dari F.
Jika dimensi X dan Y cukup tinggi, maka F mungkin memiliki sejumlah kendala yang besar. Nyatanya, Anda bahkan mungkin dapat memulihkan F penuh dari kendala tersebut. Ini adalah contoh pembelajaran yang diawasi dari pembelajaran yang tidak diawasi, dan itu harus berhasil, seperti halnya pembelajaran yang diawasi harus berhasil.
Selain itu, cipher substitusi juga cocok dengan kerangka kerja ini.
Sutskever mengatakan dia secara independen menemukan fenomena tersebut pada tahun 2015. Itu membuatnya berpikir: mungkin kita bisa menggambarkan pembelajaran tanpa pengawasan dalam beberapa bentuk matematika yang bermakna.
Tentu saja, skenario terjemahan mesin yang dijelaskan di atas adalah skenario buatan yang disederhanakan, yang tidak sesuai dengan situasi aplikasi nyata, dan skenario pembelajaran tanpa pengawasan yang sesuai secara alami sama.
Selanjutnya, Sutskever akan menjelaskan metode yang diusulkannya - yang dapat memberikan penjelasan matematis untuk pembelajaran tanpa pengawasan dan memastikan bahwa hasil pembelajaran tanpa pengawasan itu baik.
Seperti yang kita ketahui bersama, kompresi adalah prediksi, dan setiap kompresor dapat diubah menjadi prediktor, begitu pula sebaliknya. Ada korespondensi satu-ke-satu antara kompresor ansambel dan prediktor ansambel.
Sutskever menunjukkan bahwa untuk mengilustrasikan pemikiran tentang pembelajaran tanpa pengawasan dengan lebih jelas, sebaiknya menggunakan aspek kompresi diskusi.
Pertanyaan penting sekarang adalah: apa yang akan dilakukan oleh kompresor yang cukup baik?
Sutskever memberikan jawaban yang sangat intuitif: kompresor menggunakan pola yang ada di X untuk membantu mengompres Y; dan sebaliknya.
Dia mengatakan bahwa adegan tugas prediksi sebenarnya memiliki fenomena serupa, tetapi tampaknya lebih intuitif untuk mengatakannya dalam konteks terkompresi.
Jika kompresor Anda cukup baik, hasil kompresi file gabungan seharusnya tidak lebih buruk dari hasil kompresi terpisah.
Perbedaan antara kedua hasil kompresi adalah struktur bersama, informasi timbal balik algoritmik.
Sejalan dengan itu, Anda dapat menganggap Y sebagai data untuk tugas yang diawasi, X sebagai data untuk tugas yang tidak diawasi, dan Anda memiliki beberapa bentuk penalaran matematis tentang informasi ini - Anda dapat menggunakan pola di X untuk membantu tugas Y.
Dengan cara ini, loop tertutup terbentuk. Jadi bagaimana kita menggambarkan pembelajaran tanpa pengawasan dalam bentuk matematika?
Formalisasi Matematika dari Pembelajaran Tanpa Pengawasan
Perhatikan bahwa deskripsi di bagian ini menggunakan deskripsi skenario kompresi dan skenario prediksi secara bergantian.
Lalu kita harus bertanya pada diri sendiri: Apa penyesalan (penyesalan) terbesar dari penggunaan algoritma ini?
Sutskever menjelaskan: "Jika saya melakukan pekerjaan dengan baik dan penyesalan saya rendah, itu berarti saya mendapat semua bantuan yang bisa saya dapatkan dari data yang tidak berlabel ini. Data yang tidak berlabel telah membantu sebanyak mungkin." tidak ada penyesalan tentang itu." Yang berarti tidak ada prediktor yang lebih baik yang tersedia untuk algoritme kompresi yang lebih baik. "Saya mendapatkan hasil maksimal dari data saya yang tidak berlabel."
Sutskever melihat ini sebagai langkah penting menuju pemikiran tentang pembelajaran tanpa pengawasan. Anda tidak tahu apakah kumpulan data Anda yang tidak diawasi benar-benar berguna, tetapi jika Anda memiliki penyesalan yang rendah pada algoritme pembelajaran yang diawasi, maka Anda mendapatkan hasil terbaik, tidak ada hasil yang lebih baik.
Sekarang ke wilayah teoretis yang agak kabur.
Izinkan saya menjelaskan secara singkat kompleksitas Kolmogorov: Ini seperti Anda memberi saya beberapa data, dan untuk mengompresnya, saya akan memberi Anda program sesingkat mungkin. Kompleksitas Kolmogorov sama dengan panjang program terpendek ini.
Kami dapat membuktikan ini menggunakan argumen simulasi. Misalkan ada kompresor C yang sangat bagus, maka itu mungkin program komputer, jika program komputer ini diserahkan kepada K untuk dijalankan, maka biaya yang diperlukan K adalah lamanya program ini. Kompresor Kolmogorov dapat mensimulasikan program komputer lain dan kompresor lain, sehingga tidak dapat dihitung. Ini seperti program gratis yang meniru semua program komputer, tetapi juga merupakan kompresor terbaik.
Sekarang kami menggeneralisasikan kompresor Kolmogorov untuk menggunakan informasi tambahan. Kita tahu bahwa kompresor Kolmogorov tidak dapat dihitung, tidak dapat diputuskan, tetapi seperti mencari semua program. Ini seperti menggunakan jaringan saraf untuk menyetel parameter melalui SGD (Stochastic Gradient Descent) untuk mencari program. Proses ini berjalan di komputer dengan sumber daya tertentu (memori, jumlah langkah), yang seperti kompresor Kolmogorov yang sangat kecil. Ada kesamaan di antara keduanya.
Argumen dari simulasi juga berlaku di sini. Jika Anda ingin merancang arsitektur jaringan saraf yang lebih baik, Anda akan kesulitan, karena penambahan atau modifikasi koneksi dapat disimulasikan oleh arsitektur jaringan saraf lainnya, tetapi sebenarnya sulit dilakukan. Karena ini adalah kasus langka yang dapat membawa perbaikan besar. Sama seperti transisi dari RNN ke Transformer. RNN memiliki hambatan: keadaan tersembunyi. Tetapi jika kita dapat menemukan cara untuk membuat RNN memiliki status tersembunyi yang sangat besar, maka kinerjanya dapat mengejar Transformer lagi.
Jadi kita dapat menggunakan kompleksitas Kolmogorov bersyarat sebagai solusi untuk pembelajaran tanpa pengawasan sebagai berikut:
Ini adalah solusi penyesalan yang sangat rendah untuk pembelajaran tanpa pengawasan yang tidak dapat dihitung, tetapi menyediakan kerangka kerja yang bermanfaat.
** Kompres semuanya secara langsung! **
Sutskever melangkah lebih jauh dan menyebutkan bahwa "mengompresi semuanya secara langsung" juga dimungkinkan.
Buktinya lebih rumit, jadi saya tidak akan membahasnya di sini.
kompresi gabungan adalah kemungkinan maksimum
Poin terakhir yang dibuat Sutskever dalam ceramahnya adalah ini: kompresi sendi ini adalah kemungkinan maksimum, selama tidak ada overfitting.
Jadi kompresi gabungan dengan menggabungkan data adalah pendekatan yang sangat alami dalam konteks pembelajaran mesin. Sebaliknya, melewati kompleksitas Kolmogorov bersyarat jauh lebih merepotkan.
Kami bahkan dapat menggunakannya untuk menjelaskan cara kerja jaringan saraf. Kami dapat menggunakan SGD untuk jaringan saraf besar sebagai pencari program besar kami. Semakin besar jaringan saraf, semakin baik dapat mendekati kompresor Kolmogorov biasa. Sutskever berkomentar: "Mungkin inilah mengapa kami menyukai jaringan saraf yang besar, karena kami dapat mendekati ide kompresor Kolmogorov reguler yang tidak dapat direalisasikan tanpa penyesalan. Saat kami melatih jaringan saraf yang semakin besar, penyesalan akan meningkat. Rendah."
**Apakah teori ini juga berlaku untuk model GPT? **
Jawaban Sutskever untuk ini adalah ya, tetapi untuk menjelaskan perilaku model GPT, tanpa mengutip pernyataan tentang kompresi atau pembelajaran yang diawasi, Anda dapat mengatakan bahwa "teori" GPT dapat diperoleh dengan penalaran tentang distribusi kondisional teks.
Sutskever mengatakan mereka telah melakukan studi semacam itu pada tahun 2020, iGPT. Tentu saja, ini terutama merupakan penelitian pembuktian konsep, dan masih ada jalan panjang dari penerapan praktis. Untuk detailnya, lihat makalah "Pelatihan Awal Generatif dari Piksel".
Secara sederhana, pertama-tama ubah gambar menjadi urutan piksel, setiap piksel memiliki nilai kerapatan diskrit. Yang perlu dilakukan hanyalah menggunakan Transformer yang sama untuk memprediksi piksel berikutnya. Ini berbeda dengan BERT, yaitu untuk memprediksi token berikutnya, karena ini adalah kemungkinan untuk memaksimalkan kompresi.
Mari kita lihat hasilnya:
Mereka melakukan studi eksperimental dan menemukan bahwa di ImageNet, kinerja iGPT, yang telah diperluas dalam banyak hal, dapat mendekati pembelajaran terawasi terbaik saat ini, tetapi masih ada beberapa celah.
Pada CIFAR-10, iGPT-L dengan 1,36 miliar parameter mencapai akurasi 99%, seperti yang ditunjukkan pada gambar di bawah ini.
Representasi Linier
Di akhir pembicaraan, Sutskever mengatakan ingin berbicara tentang representasi linier.
Hal lain yang menurutnya menarik adalah bahwa model autoregresif mengungguli BERT dalam hal representasi linier. Tapi masih belum jelas kenapa.
Namun, Sutskever memberikan spekulasinya sendiri: saat memprediksi piksel berikutnya berdasarkan semua piksel sebelumnya, model perlu mengamati struktur data jarak jauh. BERT membuang beberapa token piksel saat memproses vektor, dan dengan mempertimbangkan sedikit masa lalu dan masa depan, model sebenarnya bisa mendapatkan prediksi yang cukup bagus. Dengan cara ini, semua tugas sulit dihilangkan, dan kesulitan tugas berkurang banyak. Tugas prediksi tersulit dalam memprediksi piksel berikutnya jauh lebih sulit daripada tugas prediksi tersulit dalam kasus prediksi BERT.