Hasil penelitian pertama Musk tentang xAI dirilis! Anggota pendiri, alumni kelas Young &; Yao bekerja sama

Sumber: Qubits

xAI Musk, hasil penelitian publik pertama ada di sini!

Salah satu karya umum adalah Greg Yang, anggota pendiri xAI dan murid Yau Chengtong.

Sebelumnya, Yange secara terbuka menyatakan bahwa arah penelitiannya di xAI adalah "Math for AI" dan "AI for Math".

Salah satu yang menarik adalah melanjutkan penelitian sebelumnya:

Program Tensor, bahasa pemrograman terpadu yang menggambarkan arsitektur jaringan saraf – pencapaian terkait, sudah tersedia di GPT-4.

Makalah baru ini, yang termasuk dalam seri ini, berfokus pada "cara melatih jaringan dalam tanpa batas".

Untuk tujuan ini, Yange sendiri juga secara khusus melakukan berbagi siaran langsung di X.

Mari kita lihat konten luar biasa apa yang layak ditandai ~

Pelatihan Jaringan Saraf Dalam Tak Terbatas

Secara sederhana, makalah ini mempelajari perluasan jaringan residual (ResNet) ke arah kedalaman.

Kita tahu bahwa jaringan residual memecahkan masalah penurunan kinerja jaringan saraf konvolusional dalam seiring dengan meningkatnya kedalaman. Tetapi karena jaringan terus memperdalam, melatih jaringan residual mendalam yang baik masih bukan tugas yang mudah:

Ketika jaringan semakin dalam, skala fitur akan terus meningkat, mengakibatkan ketidakstabilan jaringan. Setelah memperdalam jaringan, perlu untuk menyesuaikan kembali hiperparameter, yang bukan jumlah pekerjaan yang kecil ...

Ide untuk Yanger dan teman-temannya adalah untuk menemukan metode parametrik mendalam yang dapat mempelajari fitur dan mencapai transfer hyperparameter.

Mereka pertama kali memikirkan dua batasan untuk jaringan saraf yang sangat luas: baik mesin kernel atau pelajar fitur. Untuk yang terakhir, hyperparameter optimal tidak berubah dengan lebar.

Di sini, mereka menganalisis batas-batas jaringan luas tak terbatas menggunakan kerangka Program Tensor.

Seperti disebutkan sebelumnya, Program Tensor adalah salah satu tujuan penelitian jangka panjang Younger: untuk membangun bahasa pemrograman dasar yang dapat menggambarkan dan menganalisis arsitektur jaringan saraf dalam bahasa matematika.

Secara khusus, Program Tensor terdiri dari fungsi perkalian dan aktivasi matriks. Young menemukan bahwa jika fungsi jaringan saraf dapat diekspresikan dalam bahasa ini, mereka dapat secara otomatis dan sepenuhnya diinisialisasi untuk analisis.

Bagian dari derivasi matematika, tanpa ekspansi khusus di sini, kita bisa merasakan gaya lukisan dangkal ...

Atas dasar analisis turunan ini, penulis mengusulkan metode Depth-μP, yang dapat mewujudkan transfer hyperparameter ke arah kedalaman dan sangat menyederhanakan penyesuaian hyperparameter pada kedalaman yang berbeda.

Kedalaman-μP berisi poin-poin berikut:

  • Koefisien a / sqrt (L) berbanding terbalik dengan akar kuadrat dari setiap cabang residu dan kedalaman L.
  • Tingkat pembelajaran setiap matriks bobot menurun saat kedalaman L meningkat, tergantung pada jenis algoritma optimasi. Untuk SGD, tingkat pembelajaran membutuhkan η konstan, dan untuk algoritma optimasi adaptif seperti Adam, tingkat pembelajaran membutuhkan η / sqrt (L).

Perlu dicatat bahwa penulis menemukan bahwa ketika kedalaman blok residual adalah 1, Kedalaman-μP adalah cara optimal untuk parameterisasi kedalaman, yang dapat memastikan bahwa hyperparameter bertemu dengan peningkatan kedalaman dan mewujudkan transfer hyperparameter ke arah kedalaman.

Namun, ketika kedalaman blok residual ≥ 2, kegagalan migrasi hiperparameter dan penurunan kinerja pelatihan akan tetap terjadi.

Selain itu, makalah ini mengeksplorasi konsep "keragaman fitur" sebagai peran kunci dalam jaringan yang dalam.

Rekan penulis lain dari makalah ini adalah Dingli Yu dari Princeton. Dia lulus dari Tsinghua Yao Class dengan gelar sarjana dan saat ini sedang mengejar gelar Ph.D. dalam ilmu komputer di Princeton.

**Apa yang Yanger katakan di siaran langsung? **

Selama siaran langsung, Yange juga menjawab pertanyaan yang menarik bagi penonton. Tanpa mengubah arti aslinya, qubit menyelesaikan beberapa masalah.

T: Bagi banyak dari kita, [isi makalah] mungkin berada di luar pemahaman kita. Tapi saya bertanya-tanya, bagaimana model yang Anda sebutkan berbeda dari teknologi ChatGPT dan OpenAI yang bisa kita alami? Apa perbedaan atau inovasi yang signifikan antara makalah ini dan hasil OpenAI?

Lebih muda: Izinkan saya membuat komentar singkat, dan saya ingin mengatakan bahwa sifat-sifat ini tidak terkait langsung dengan aplikasi praktis saat ini, tetapi lebih seperti penelitian di alam.

Tentu saja, tujuan akhir dari melakukan semua ini adalah untuk membuat model lebih baik, lebih aman, dan kemudian bermanfaat bagi umat manusia. Apa yang kita lakukan sekarang adalah menggambarkan efek yang diinginkan, yang belum tentu berdampak langsung.

Sekarang kita berada di perahu yang sama, kita melakukan apa yang kita bisa, apakah itu pekerjaan jangka pendek atau penelitian terapan jangka panjang, untuk membuatnya bekerja untuk kepentingan semua orang.

T: Kedengarannya seperti Anda sedang membangun otak komputer buatan yang mampu bernalar, jadi apakah ini yang sedang Anda kerjakan? Selain itu, saya seorang ibu dan putra saya yang berusia 7 tahun sangat tertarik dengan matematika, apakah Anda punya saran yang dapat membuatnya tertarik dan antusias di bidang AI?

Lebih muda: "Web baru" mengacu pada jaringan saraf tiruan, yang menurut saya merupakan tulang punggung banyak teknologi modern, termasuk Google, Facebook, Instagram, dll. yang Anda gunakan setiap hari, dan layanan ini menggunakan jaringan saraf tiruan di bawahnya. Jaringan ini lahir sekitar enam puluh atau tujuh puluh tahun yang lalu terinspirasi oleh jaringan saraf nyata pada hewan dan manusia, tetapi mereka telah menyimpang dari ilmu saraf nyata.

Jaringan-jaringan ini pada dasarnya adalah masalah matematika, sehingga kita dapat memahami jaringan saraf ini secara mendalam setelah kita memahami masalah matematika baru ini dan melakukan banyak analisis.

Meskipun kita belum tahu persis bagaimana neuron terhubung, melalui penelitian matematika, kita dapat mengoptimalkan jaringan saraf tiruan ini untuk membantu perusahaan teknologi meningkatkan kehidupan masyarakat.

Mengenai pertanyaan kedua Anda, senang mendengar bahwa putra Anda sangat tertarik dengan matematika. Ini adalah dasar untuk menciptakan prestasi besar di bidang teknologi dan meningkatkan kehidupan setiap orang.

Saran yang ingin saya berikan adalah bahwa pertama-tama Anda mempertahankan hasrat putra Anda untuk matematika, yang sangat penting. Begitu Anda kehilangan gairah ini, menjadi sulit untuk terus belajar.

Perhatikan juga untuk mengamati apa yang dia sukai, membuat proses belajar menarik dan lebih merangsang minatnya. Pada saat yang sama, perlu juga menumbuhkan rasa ingin tahunya tentang prinsip bagaimana segala sesuatu bekerja, dan mencoba menumbuhkan pemikiran ilmiah, yang didorong oleh rasa ingin tahu untuk belajar. Ini seperti membongkar barang-barang dan mencoba memahami cara kerjanya.

Jika seseorang kehilangan antusiasme untuk mengeksplorasi kebenaran matematis alam semesta, mungkin sulit untuk mendapatkan momentum. Secara umum, saya sarankan Anda menumbuhkan minat dan keingintahuan putra Anda yang mendalam tentang dunia, terutama sifat matematika dan sains.

T: Saya memiliki pertanyaan yang lebih abstrak. Anda memiliki gagasan bahwa kedalaman mendekati ketidakterbatasan, dan kemudian Anda menulis makalah ini berdasarkan gagasan itu. Sudahkah Anda mempertimbangkan jaringan saraf dengan arsitektur yang berbeda? Bukan arsitektur standar dengan neuron dan lapisan yang tak terhitung jumlahnya, tetapi sesuatu yang sama sekali berbeda. Misalnya, neuron-neuron ini terhubung dengan cara yang sama sekali berbeda, mungkin semacam persegi?

Lebih muda: Faktanya, wawasan tentang nonlinier dan jumlah lapisan dalam pekerjaan kami adalah studi yang sangat sederhana. Tentu ada banyak pertanyaan yang bisa digali tentang struktur apa yang sesuai, atau struktur seperti apa seharusnya.

Sebagai contoh, tim Meta sebelumnya telah mempelajari apa yang terjadi pada neuron yang terhubung secara acak dan mendapatkan beberapa hasil yang menarik. Jadi, pasti ada banyak hal yang harus dilakukan di sini. Sekarang saya benar-benar tidak memiliki jawaban konkret untuk mengatakan apa yang benar atau lebih terstruktur.

Tentang Jange

Lahir di Provinsi Hunan, Yang Ge pergi ke Amerika Serikat setelah lulus dari sekolah dasar, di mana ia belajar di Harvard di bawah Profesor Chengtong Yau.

△ Yang Ge dan Yau Chengtong, sumber: Twitter Yang Ge

Pada 2017, Yange lulus dari Harvard dan kemudian memasuki Microsoft di bawah rekomendasi Shen Xiangyang.

Di Microsoft, Yang Ge sangat dipuji oleh Shen Xiangyang. Beberapa bulan yang lalu, di sebuah forum yang disebut "Ilmu Dasar dan Kecerdasan Buatan", Shen Xiangyang secara terbuka menyatakan:

Microsoft Research biasanya hanya merekrut mahasiswa doktoral, dan Yange memasuki Microsoft Research sebagai lulusan sarjana. Tidak hanya memasuki Microsoft Research, tetapi juga dilakukan dengan sangat baik dalam lima tahun terakhir, terutama dalam pengembangan GPT telah memberikan kontribusi yang menentukan.

Perlu disebutkan bahwa dia sendiri telah mengakui bahwa GPT-4 menggunakan metode μTransfer (seri Tensor Programs).

Penelitian Young tentang Program Tensor telah ada sejak awal, dan "Tensor Programs I" diterbitkan pada tahun 2019, dan dia terus menjelajahinya secara mendalam ketika dia bekerja di Microsoft. Dia percaya bahwa hampir semua perhitungan dalam pembelajaran mendalam dapat direpresentasikan sebagai Program Tensor.

Pada bulan Juli tahun ini, Musk mengumumkan pembentukan perusahaan baru, xAI, dan Young meninggalkan Microsoft untuk bergabung dengan tim pendiri xAI dan menjadi ahli matematika xAI.

Setelah bergabung dengan xAI, Young mengungkapkan lebih dari sekali bahwa tujuan jangka panjang dari proyek Tensor Programs adalah untuk mengembangkan "teori segalanya" dari pembelajaran mendalam skala besar, yaitu untuk menemukan aturan teoretis yang benar-benar dapat memahami perilaku model besar AI.

Dia juga menyatakan:

AI akan memungkinkan semua orang untuk memahami alam semesta matematika kita dengan cara yang sebelumnya tak terbayangkan.

Tautan Kertas:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)