Lan Zhenzhong, Profesor Universitas West Lake: Beberapa pengetahuan tentang model besar

2023-09-19 07:47:02

Pada tanggal 19 September 2023, "Pekan Internasional Blockchain Shanghai 2023·KTT Global Blockchain Kesembilan" dibuka di Shanghai. Lan Zhenzhong, pendiri West Lake Xinchen dan profesor West Lake University, memberikan ceramah langsung bertajuk "Beberapa Kognisi tentang Model Besar".

Untuk informasi lebih lanjut, silakan klik: Sorotan "Pekan Internasional Blockchain Shanghai 2023" (terus diperbarui)"

Golden Finance melakukan pelacakan dan pelaporan seluruh pertemuan di tempat. Berikut ringkasan isi pidato tersebut.

Selamat pagi semuanya!

Hari ini saya terutama akan berbicara tentang model besar dan kecerdasan buatan, dan nanti saya akan berbicara tentang beberapa integrasi dengan Web3 dan pekerjaan yang sedang dilakukan.

Saya mulai mengerjakan kecerdasan buatan pada tahun 2007, dan sudah lebih dari sepuluh tahun sejak itu. Dari era CPU hingga era GPU, dari model kecil hingga model besar, saya telah melakukannya sejak lama, dan saya juga telah melakukannya. melakukan beberapa konten yang relatif representatif. Pada tahun 2019, model besar yang saya buat ketika saya berada di Google adalah model besar terbaik di dunia, jauh lebih baik daripada GPT2, jadi kami meremehkan seri GPT pada saat itu, tetapi sekarang kinerjanya sangat baik.

Ketika saya kembali ke Tiongkok pada tahun 2020, saya melakukan evaluasi model besar Tiongkok yang pertama. Saya dapat dianggap sebagai peserta mendalam dalam model besar. Sekarang ada laboratorium dan perusahaan yang melakukan penelitian terkait model besar.

Di masa lalu, saya jarang melihat kembali sejarah perkembangan model-model besar, dan jarang memikirkannya secara mendalam. Hingga ChatGPT menjadi populer, orang-orang datang menanyakan berbagai pertanyaan kepada saya. Izinkan saya merangkum pertanyaan-pertanyaan berikut:

Pertama, apakah Anda ingin modelnya menjadi lebih besar atau lebih kecil?

Kedua, saat ini banyak perbincangan tentang model umum besar.Jadi, apakah model umum besar punya peluang, atau apakah model industri besar punya peluang?

Ketiga, haruskah saya berinvestasi di NVIDIA atau perusahaan model dan perusahaan aplikasi besar?

Keempat, bagi masyarakat umum, bagaimana model besar dapat mengubah pekerjaan saya? Bagaimana saya harus memilih karier.

Pertanyaan-pertanyaan ini memungkinkan kita untuk meninjau sejarah masa lalu. Saya terutama menyajikan beberapa data masa lalu untuk referensi Anda.

Pertama-tama, pertanyaan pertama, apakah model besar akan menjadi semakin besar? Melihat kembali sejarah, ketika komputer pertama kali dikembangkan pada tahun 1950, modelnya sebenarnya menjadi semakin besar. Dapat dikatakan bahwa model yang semakin besar pada dasarnya merupakan faktor pertama agar model menjadi cerdas, sehingga model tersebut akan semakin besar.

Hingga tahun 2018, kami menemukan metode yang dapat membuat model berkembang pesat. Sekarang model tersebut berkembang sangat cepat. Dari tahun 2018 hingga awal tahun 2021, pada dasarnya meningkat ratusan kali lipat setiap 18 bulan. Sekarang kecepatannya telah melambat, tetapi sekarang juga ekspansi yang cepat.

(Seperti terlihat pada gambar) Gambar ini adalah gambar GPT4. Sumbu vertikal menunjukkan tingkat kecerdasan. Semakin tinggi tingkat kecerdasan, semakin tinggi levelnya. Sumbu horizontal menunjukkan ukuran model dan jumlah pelatihan . Ketika model menjadi lebih besar dan lebih terlatih, tingkat kecerdasan menjadi semakin tinggi. Titik hijaunya GPT4, di titik itu masih ada kemiringannya dan masih akan turun. Jadi diharapkan ketika modelnya diperbesar, modelnya tetap bisa menjadi lebih pintar. Manusia selalu mengejar batasnya, dan kita pasti akan memperkuatnya.

Namun yang dikhawatirkan semua orang saat ini adalah GPT4 sudah menjadi model tingkat triliun. Biaya inferensi sangat mahal, dan pelatihan juga sangat mahal. Apakah amplifikasi berguna?

Melihat data lain, kita tahu bahwa kekhawatiran ini tidak perlu, karena biaya pelatihan dan inferensi menurun tajam. Ketika GPT3 dilatih pada tahun 2020, biaya satu sesi pelatihan adalah US$4 juta. Telah dikurangi menjadi US$400.000 pada tahun 2022, dan pengurangan biaya sangat cepat.

Terutama dari beberapa aspek:

Pertama, kinerja GPU meningkat tajam dan biaya turun, jauh melebihi Hukum Moore. Dari tahun 2016 hingga 2022, menurut Hukum Moore, kinerja CPU meningkat 8 kali lipat dan kinerja GPU meningkat 26 kali lipat, peningkatan tersebut sangat jelas terlihat.

Yang kedua adalah peningkatan perangkat lunak.Dengan peningkatan efisiensi pelatihan yang dibawa oleh perangkat lunak, biaya pelatihan tahunan berkurang sekitar 47%.Kombinasi keduanya merupakan penurunan yang sangat parah, yang satu adalah perangkat keras dan yang lainnya adalah perangkat lunak.

Ketiga, kami menyebarkan daya komputasi dalam skala besar. Sebelum ChatGPT keluar, daya komputasi global meningkat sekitar 20%-40% setiap tahun. Setelah ChatGPT keluar, peningkatan daya komputasi mungkin dua kali lipat. Ketika daya komputasi Anda meningkat dalam skala besar dan GPU diproduksi secara massal, biaya pengoperasian juga menurun. Secara keseluruhan, biaya pelatihan dan inferensi menurun tajam, sehingga kita dapat melihat bahwa biaya tersebut telah turun 10 kali lipat dalam dua tahun.

Dalam beberapa tahun ke depan, model tingkat triliunan seperti GPT4 akan menjadi relatif murah dan semua orang dapat menggunakannya.

Ringkasnya, saya memperkirakan model akan terus menjadi lebih besar dan lebih kuat, biaya pelatihan dan inferensi akan terus turun, dan iterasi akan berlangsung cepat.

(Seperti yang ditunjukkan dalam gambar) Gambar ini tentang GPT1. Saya tidak terlalu memikirkan GPT1 pada saat itu. Melihat ke belakang sekarang, saya membuat kesalahan besar. GPT1 memberikan kontribusi yang sangat besar dan mengubah kecerdasan buatan dari kecerdasan buatan khusus. Transformasi menjadi kecerdasan buatan umum.

Dulu ada ratusan tugas pemrosesan bahasa alami, dan berbagai model dirancang untuk setiap tugas, jadi ada banyak makalah. Tapi setelah GPT1 keluar, saya bilang jangan gunakan berbagai model. Saya menggunakan satu model untuk menangani sebagian besar (tugas) Anda.

Artikel terakhir ditulis oleh rekan saya di Google saat itu, yang mengintegrasikan berbagai tugas ke dalam model yang sama. Oleh karena itu, kontribusi utama gelombang ini adalah universalitas. Universalitas tidak hanya tercermin dalam teks, tetapi juga dalam gambar, suara, dan protein Untuk berbagai data seperti sequence, selama data tersebut dapat diubah menjadi sequence, pada dasarnya data tersebut dapat diproses.

Memotong gambar menjadi beberapa bagian dan memanjangkannya adalah tugas yang kini dapat ditangani oleh model Transformer. Pada dasarnya dapat mencakup berbagai tugas dan sangat serbaguna.

Meskipun model besar tidak dapat menangani banyak tugas rumit saat ini, Anda dapat melakukannya selama Anda membantunya melakukannya sedikit dan membagi tugas tersebut sedikit. Meskipun semua orang merasa GPT4 sangat kuat, akurasi melakukan 24 poin secara langsung adalah 7,3%, tetapi jika dipecah sedikit, dapat ditingkatkan menjadi 74%.Banyak tugas yang tampaknya rumit, jika profesional membantunya memecahkannya, sekarang Model seri GPT atau model besar secara umum dapat membantu Anda menyelesaikan banyak tugas dan mencapai otomatisasi.

Salah satunya adalah modelnya akan menjadi lebih besar, dan yang lainnya adalah model tersebut serbaguna dan dapat menyelesaikan banyak karakter kompleks dengan sedikit pembongkaran, sehingga sangat praktis. Banyak juga yang berhasil diterapkan di luar negeri, misalnya Duolingo salah satu perusahaan di Pittsburgh yang pendapatannya meningkat 42% pada kuartal I 2023 karena penambahan aplikasi ChatGPT.

Banyak programmer yang kini menggunakan Copilot.Pendapatan OpenAI tahun ini diperkirakan mencapai 1,2 miliar dolar AS, yang merupakan skala pendapatan yang sangat sulit bagi sebuah perusahaan startup.

Bedanya gelombang kecerdasan buatan ini dengan gelombang sebelumnya adalah menggantikan pekerja mental. Gambar di sebelah kanan menunjukkan tingkat kecerdasan (otomatisasi) di berbagai industri sebelum gelombang kecerdasan buatan umum ini. Yang paling bawah adalah mereka yang tidak memiliki gelar , diikuti oleh Dari Master ke PHD, tingkat substitusi menjadi semakin rendah seiring naiknya. Segalanya berbeda sekarang, setelah munculnya kecerdasan buatan secara umum, pekerja mental dapat dengan mudah digantikan.

Singkatnya, penerapan model besar akan lebih cepat dari yang kita bayangkan, tentu saja lebih lambat dari yang dibayangkan banyak pekerja keuangan, karena respons pasar saham selalu lebih cepat dari teknologi, setidaknya lebih cepat dari yang kita bayangkan, dan ini dapat memberdayakan semua lapisan masyarakat. kehidupan. Sulit bagi Anda untuk menyelesaikan setiap tugas. Jika perusahaan model besar terjun jauh ke dalam industri, akan ada peluang besar.

Saat ini, kebanyakan orang memperhatikan kecerdasan model, dan kurang memperhatikan "kecerdasan emosional" model dan tingkat interaksi dengan orang. Misalnya, saya mengajukan pertanyaan yang akan ditanyakan kekasih saya, dan ChatGPT memberi saya jawaban ini. Ada metode untuk jawaban ini, tetapi tidak ada. Emosi sepertinya menunjukkan bahwa interaksi kita dengan model itu dingin dan kurang perhatian kepada pengguna. Ini merupakan cerminan dari awal perkembangan industri.

Anda dapat membandingkan mesin pencari. Saat pertama kali diluncurkan, personalisasi jarang terjadi. Namun sekarang, semua orang menggunakan Baidu dan Google secara berbeda, karena banyak informasi akan dipersonalisasi untuk membuat pencarian lebih akurat, namun sebagian besar Model belum dapat melakukan hal ini.

Beberapa orang juga sudah mulai melakukannya, seperti perusahaan bernama Character.ai, yang juga didirikan oleh rekan saya di Google, menambahkan personalisasi pada model, yang secara signifikan dapat meningkatkan waktu interaksi antara model dan orang. Data di bulan Mei: Waktu interaksi rata-rata OpenAI adalah 4 menit, dan waktu interaksi rata-rata perusahaan ini adalah 28 menit, yang merupakan beberapa kali lipat waktu interaksi. Halamannya terlihat seperti ini, yang setara dengan membagi model besar menjadi berbagai Modal dan Agen (agen) untuk mencapai arah yang dipersonalisasi, yang lebih emosional dan orang-orang bersedia berinteraksi dengannya. Dengan berkembangnya model-model besar saat ini, akan terjadi terobosan besar dalam interaksi manusia-komputer.

Perusahaan dan laboratorium kami terutama meneliti model besar umum dengan IQ tinggi dan EQ tinggi, terutama model besar multimodal. Di masa lalu, untuk meningkatkan kecerdasan emosional model, serangkaian kemampuan dikembangkan untuk meningkatkan memori, personalisasi, dan persepsi emosional.

Model ini diluncurkan relatif awal, karena saya sudah lama mengerjakan model umum besar di Google. Sebelum ChatGPT keluar pada pertengahan tahun 2020, kami memiliki model umum besar sendiri. Pada saat itu, kemampuan menulis modelnya setara dengan 3,5, dan itu adalah profesi yang penting.

Ini telah online selama lebih dari setahun dan memiliki lebih dari 200 pengguna sisi C dan lebih dari 100 pengguna sisi B termasuk Starbucks dan Alipay.

Salah satu aplikasi yang paling umum adalah kerjasama dengan Tom Cat. Tom Cat adalah produk pendamping dengan 400 juta pengguna aktif bulanan di seluruh dunia. Di masa lalu, produk ini terutama menyalin ucapan orang dan menyalin kata-kata melalui perubahan suara. Kami menambahkan kemampuan interaksi multimodal dan kemampuan dialog ke dalamnya.

Mari kita kembali ke Web3 terkait konferensi. Ini adalah pemahaman kasar saya. Menurut saya model besar dan Web3 masing-masing berhubungan dengan produktivitas dan hubungan produksi. Model besar sangat meningkatkan tingkat produktivitas, tetapi jika ingin bekerja dengan baik, ia harus memiliki produksi yang sesuai, hubungan yang cocok. Saya merangkum bahwa ada beberapa masalah dalam implementasi model besar:

Pertama, biaya pelatihan sangat tinggi. Tidak ada insentif bagi perusahaan start-up untuk membuat model mereka menjadi sumber terbuka. Model yang biaya pelatihannya jutaan dolar adalah sumber terbuka, namun tidak ada hubungannya dengan saya. Sulit bagi mereka untuk membuka sumbernya. Tapi open source sangat penting untuk model. Banyak model saat ini adalah kotak hitam. Banyak lembaga penelitian tidak mampu untuk melatih model mereka sendiri. Jika semua orang berlatih, maka semua orang menemukan kembali rodanya. Oleh karena itu, open source sangat penting, tapi hal ini memerlukan tindakan yang sesuai.

Kedua, biaya penalaran tinggi. Biaya penalaran saat ini untuk satu percakapan di GPT4 adalah 60 sen, jauh lebih mahal daripada pidato saya. Biaya penalaran sangat tinggi dan sangat sulit diterapkan. GPT4 bisa digunakan di banyak tempat, namun biayanya tidak terjangkau.

Yang ketiga adalah sensitivitas data. Data Samsung pernah dibocorkan oleh OpenAI sebelumnya dan menimbulkan banyak keributan. Data yang kami unggah ke model besar sekarang adalah data sensitif. Banyak perusahaan yang tidak mau mengunggah datanya sendiri. Bagaimana cara mengatasi masalah ini? Saya berharap Web3 dapat membantu kami mengatasi masalah ini.

Saya baru saja mendengar Guru Cao mengatakan bahwa masih banyak kesulitan, tetapi kami berharap melalui penelitian kami dapat membantu memecahkan masalah ini. Misalnya, kami memiliki rantai publik, dan semua orang dapat mengunggah model sumber terbuka. Bahkan jika Anda membuat sumber terbuka modelnya dan mengunggahnya ke rantai publik, akan ada mekanisme insentif yang sesuai, misalnya jika pengguna mengunggah data, jika kita diizinkan untuk melatih, akan ada insentif yang sesuai.

Ada juga masalah komputasi. Sekarang setiap orang memiliki kartu grafis yang sangat kuat di ponsel mereka. Jika ponsel setiap orang dapat berkontribusi pada inferensi, maka kita dapat mengurangi banyak biaya inferensi. Kami berharap cita-cita kami dapat benar-benar diwujudkan melalui kekuatan Web3. Kami berharap model-model besar dapat memberdayakan semua lapisan masyarakat, mendampingi semua orang, dan benar-benar menjadi asisten atau pendamping semua orang.

Terima kasih semua!

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Simple Earn Annual Rate 24.4%
21k Popularitas
2Gate Launchpad List IKA
27k Popularitas
3ETH Trading Volume Surges
22k Popularitas
4Gate ETH 10th Anniversary Celebration
19k Popularitas
5Trump’s AI Strategy
18k Popularitas

Sematkan

peta situs