Sumber gambar: Dihasilkan oleh alat AI Tak Terbatas, model umum (game CG)
Panjang konteks dulunya adalah salah satu batasan terbesar GPT-3. GPT-3 hanya dapat menerima hingga 4000 token (3000 kata, 6 halaman), jika tidak, kesalahan akan dilaporkan. Oleh karena itu, untuk menangani dokumen dan petunjuk yang panjang (), perlu memperkenalkan teknik pengambilan lain seperti LangChain. Namun, MosaicML (yang telah diakuisisi oleh Databricks sekitar $1,3 miliar) membuka konteks MPT-7B pada awal Mei dengan panjang 84.000 token (63.000 kata, 126 halaman), sangat memperluas jangkauan teks yang dapat diproses. , Model Claude yang dikembangkan oleh Anthronpic memiliki panjang konteks yang diperpanjang hingga 100.000 token.
MPT-7B dilatih dari awal menggunakan 1 triliun token teks dan kode sebagai data pelatihan. Dibandingkan dengan model serupa lainnya (seperti Pythia dan OpenLLaMA menggunakan 300 miliar token, StableLM menggunakan 800 miliar token), data pelatihan MPT-7B lebih besar, dan kualitasnya sebanding dengan LLaMA-7B. Model dilatih pada platform MosaicML, menggunakan 440 GPU, dan proses pelatihan memakan waktu 9,5 hari tanpa campur tangan manusia dengan biaya sekitar $200.000. Tidak seperti model terbuka lainnya, MPT-7B dilisensikan untuk penggunaan komersial dan dioptimalkan untuk pelatihan cepat dan inferensi dengan FlashAttention dan FasterTransformer.
(Kinerja MPT-7B pada tugas akademik zero-shot)
MosaicML juga merilis tiga model MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ berdasarkan MPT-7B dasar untuk penyempurnaan.
Model disetel halus pada dolly_hhrlhf. Kumpulan data dolly_hhrlhf dibangun di atas kumpulan data "dolly-5k".
Model ini disempurnakan pada kumpulan data ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless, dan Evol-Instruct.
Set data penyempurnaan untuk model ini adalah subset novel yang difilter dalam buku3 dengan panjang konteks 65k. Meskipun ukuran yang diiklankan adalah 65k token, tim dapat memperoleh respons sebesar 84k token saat dijalankan pada GPU A100-80GB satu node. Teknologi utama di balik ini adalah ALiBi. The Great Gatsby awalnya hanya memiliki sekitar 68k token, jadi tim menggunakan model MPT-7B-StoryWriter-65k+ untuk membuat akhir baru untuk novel tersebut.
Selain titik pemeriksaan model, tim telah membuka basis kode lengkap untuk pra-pelatihan, penyempurnaan, dan evaluasi MPT melalui MosaicML LLM Foundry baru mereka. Tabel di atas dibuat menggunakan kerangka penilaian pembelajaran kontekstual di LLM Foundry.
Kepala Ilmuwan MosaicML Jonathan Frankle dan Ilmuwan Riset Abhinav Venigalla adalah kepala MPT-7B, memimpin seluruh proses pelatihan MPT-7B. Dalam podcast terbaru Latent Space, mitra utama Swyx dan Decibel Partners, Alessio, berdiskusi dengan mereka tentang inovasi proses pelatihan MPT-7B dan menjelaskan mengapa kombinasi kumpulan data LLM merupakan seni yang penting dan misterius. Juga, beberapa tolok ukur pilihan ganda tradisional mungkin tidak terlalu membantu untuk teknologi yang sedang dibangun, dan mereka juga akan mengeksplorasi alasan di baliknya.
(Konten berikut dikompilasi dan dirilis oleh OneFlow setelah otorisasi, sumber: https://
Konstruksi model MPT-7B
**Swyx: Mengapa Anda mengembangkan MPT-7B? **
Abhinav: Proyek MPT-7B memakan waktu sekitar 6-12 bulan. Kami mulai mengerjakan model bahasa musim panas lalu dan menerbitkan postingan blog yang menganalisis model bahasa dan menemukan bahwa biaya pelatihan sebenarnya jauh lebih rendah daripada yang diperkirakan orang. Juga sejak saat itu, terinspirasi oleh model LLaMA yang dirilis oleh Meta AI dan banyak karya sumber terbuka lainnya, kami mulai membuat model yang sangat bagus dengan 7 miliar parameter, yang merupakan asal mula MPT.
Alessio: Anda mengatakan di salah satu podcast: Mosaic tidak memiliki rencana untuk membuat dan merilis model. Namun pada akhirnya Anda tetap merilis modelnya, apa yang membuat Anda berubah pikiran?
Jonathan: Menurut saya ada beberapa faktor: Kami masih kekurangan model kelas satu. Tidak seperti OpenAI, di mana bisnis kami berputar di sekitar pelanggan yang membuat model mereka sendiri, kami terutama menyediakan alat untuk mereka, dan agar alat tersebut efektif, kami harus terlebih dahulu membuat model kami sendiri.
Harus jelas bahwa jika klien kami dapat melakukan hal-hal hebat, kami juga dapat melakukan hal-hal hebat. Saya memiliki banyak orang di Twitter yang mempertanyakan kebenaran angka yang ditunjukkan Mosaic, seperti yang dikatakan Ross Whiteman, "Mari kita lihat hasil yang sebenarnya," yang akan saya katakan, "Ross, menurut Anda bagaimana ini? ?" Kami mengembangkan model dalam 9,5 hari dengan biaya $200.000, sehingga Anda juga dapat melakukannya.
**Swyx: **Mengacu pada data yang Anda rilis tahun lalu, awalnya diperkirakan bahwa biaya pelatihan GPT-3 kurang dari $450.000, dan kemudian dikurangi menjadi $100.000; biaya Difusi Stabil juga berkurang dari $160.000 kurang dari $50.000.
Jonathan: Saya masih sangat berhati-hati dengan angka $100.000. Itu belum ada, tapi kami menuju ke arah itu, dan itu tantangan besar bagi Abhi.
Swyx: Ada tiga varian model MPT-7B, salah satunya mencapai SOTA dalam hal panjang konteks, bagaimana proses pelatihan untuk model ini?
Abhinav: Model dasar kami adalah pembuatan ulang LLaMA-7B, dengan 7 miliar parameter dan data pelatihan 1 triliun token, memberikan titik awal pelatihan yang efisien untuk model penyempurnaan tanpa intervensi berlebihan. Penyempurnaan model juga sangat menarik, seperti MPT-7B-StoryWriter-65k+ dapat digunakan untuk penulisan cerita, panjang jendela konteks adalah 65.000, dan juga dapat melanjutkan penulisan berdasarkan konten yang diketahui.
Tentu saja, ini hanyalah salah satu arah yang kami pikirkan. Anda dapat menggunakan model Dasar MPT-7B untuk membuat model khusus yang sesuai dengan kebutuhan yang berbeda, seperti model kode konteks panjang atau model bahasa tertentu. Jadi berdasarkan model dasar, dibuat tiga varian, MPT-7B-Instruct, MPT-7B-Chat dan MPT-7B-StoryWriter-65k+, yang masing-masing digunakan untuk mengikuti instruksi singkat, dialog obrolan, dan menulis cerita.
Alessio: Bagaimana Anda memutuskan berapa banyak token dan parameter yang akan digunakan saat melatih model? 7 miliar dan 3 miliar parameter model tampaknya menjadi dua angka ajaib yang sedang populer saat ini.
Abhinav: Untuk model pelatihan, hukum penskalaan dapat memberi tahu Anda cara memanfaatkan sumber daya komputasi pelatihan secara paling efisien. Misalnya, jika anggarannya 200.000 dolar AS, maka menurut hukum skala, program pelatihan yang paling efektif dapat diberikan.
Diantaranya, yang paling sering kita ikuti adalah hukum Chinchilla. Untuk model MPT-7B dan varian terkaitnya, undang-undang ini tidak diikuti secara ketat, karena kami ingin memastikan bahwa model tersebut cocok untuk penggunaan pribadi dan memiliki performa inferensi yang baik, sehingga overtrained, melebihi Chinchilla Point (mengacu pada data tingkat diukur dalam token). Beberapa orang di Internet dengan bercanda menyebut model ini Llongboi karena waktu pelatihan mereka cukup lama.Mengambil contoh model 7B, Chinchilla Point mungkin 140 miliar token, tetapi sebenarnya kami melatih 1 triliun token, jadi Waktu pelatihannya hampir 7 kali lebih lama dari biasanya.
**Swyx: Apakah Llongboi mengacu pada metode pelatihan? **
Jonathan: Llongboi hanyalah lelucon orang dalam, mengacu pada metode pelatihan yang menggunakan lebih banyak token daripada yang ditentukan oleh hukum Chinchilla. Terlihat bahwa Llongboi memiliki dua "L" di awal, yang digunakan untuk memberi penghormatan kepada LLaMA. CEO kami pernah mengumumkan namanya di Twitter, menyebut modelnya sebagai "Llongboi". Terkadang saya sangat ingin mengambil kata sandi twitternya agar tidak bocor lebih awal, tetapi sekarang seluruh dunia tahu nama itu.
Tentang arsitektur, ALiBi, konteks
**Alessio:**Flash Attention dan Faster Transformer adalah dua elemen inti bangunan model Anda. Apa kelebihannya?
**Abhinav:**Flash Attention adalah implementasi yang lebih cepat dari Full Attention, yang dikembangkan oleh laboratorium Hazy Research Stanford. Kami mengintegrasikan Perhatian Flash ke perpustakaan kami September lalu dan telah memainkan peran besar dalam pelatihan dan kecepatan inferensi. Dibandingkan dengan model Hugging Face lainnya, model ini sangat istimewa, dapat beralih antara Perhatian Obor umum dan Perhatian Flash yang dirancang khusus untuk GPU, yang membuat kecepatan latihan model meningkat sekitar 2 kali lipat dan kecepatan inferensi meningkat sebesar 50. % -100%.
**Swyx: Apa yang memotivasi Anda untuk memilih pengodean posisi ALiBi? **
Abhinav: Kami menggabungkan pengodean posisi ALiBi, Flash Attention, dan stabilitas pelatihan dengan cara yang menarik. ALiBi mampu menghilangkan kebutuhan akan penyematan posisi dalam model. Sebelumnya, jika token memiliki posisi 1, maka Anda perlu menambahkan penyematan posisi tertentu, dan tidak dapat melebihi posisi maksimum (biasanya 2000). Namun dengan ALiBi, masalah ini terpecahkan. Kita hanya perlu menambahkan bias (bias) ke Peta Perhatian, yang seperti kemiringan, dan jika rentang posisi yang lebih panjang diperlukan untuk inferensi, ini akan memperluas kemiringan ini ke jumlah posisi yang lebih panjang. Pendekatan ini berhasil karena kemiringannya kontinu dan dapat diinterpretasikan.
Menariknya, melalui Flash Attention, model ini menghemat banyak memori dan meningkatkan performa, jadi kami mulai melakukan pengujian performa pada model dengan konteks yang sangat panjang (hingga 65k) tahun lalu, dan pada saat yang sama, sangat sulit dilakukan pelatihan yang stabil. Kemudian, kami mencoba mengintegrasikan ALiBi ke dalam model, dan stabilitas model meningkat secara signifikan. Kami sekarang dapat melatih model penulisan cerita secara stabil pada konteks yang sangat panjang dan menjamin penggunaannya secara efisien.
Jonathan: Panjang konteks secara teknis tidak terbatas. Selama memori yang diberikan cukup, dialog dapat berlanjut tanpa batas. Kami percaya bahwa angka terpanjang yang dapat ditangani model adalah 84K, yang merupakan panjang konteks terpanjang yang dapat ditangani dengan nyaman oleh manusia dalam praktiknya. Namun kami juga telah mencoba panjang konteks melebihi 84K dalam praktiknya, dan kami dapat menangani panjang yang lebih panjang.
**Swyx:**Misalnya, kita dapat memasukkan novel "The Great Gatsby" ke dalam model, lalu membiarkan model terus menulis novel sesuai dengan teks masukan, dan akhirnya model tersebut menghasilkan konten yang cukup menarik.
Jonathan: Ada banyak versi akhir cerita yang sangat bagus di dalam Mosaic. Satu versi menggambarkan pemakaman Gatsby, Nick mulai berbicara dengan hantu Gatsby, ayah Gatsby juga muncul, lalu dia dan Tom muncul di kantor polisi. Versi ini sangat menekankan plot, menggambarkan apa yang terjadi selanjutnya. Juga, banyak versi memiliki akhiran yang sangat Fitzgerald-esque, dan ditulis dengan indah. Jadi menarik untuk melihat bahwa model tersebut tampaknya memproses masukan dan menghasilkan keluaran yang berarti. Kita dapat melakukan banyak hal dengan panjang konteks ini.
Alessio: Memori mulai menjadi salah satu kendala model, jadi bagaimana seharusnya ukuran parameter dan panjang konteks dipilih?
Jonathan: Baru-baru ini, penelitian tentang konteks panjang telah menarik banyak perhatian dan serangkaian makalah terkait telah muncul. Namun, makalah ini tidak sepenuhnya akurat, dan sampai batas tertentu, terutama sehubungan dengan mekanisme perhatian, mereka membandingkan mekanisme perhatian non-kuadrat (seperti perkiraan, perhatian hierarkis) dengan perhatian kuadrat yang eksplisit dan benar. . Saya yakin dengan metode perkiraan, jadi tidak sabar untuk mempelajari makalah ini.
Menulis dan membaca makalah memberi saya pelajaran penting tentang tidak mempercayai data apa pun sampai Anda melakukannya sendiri. Di Mosaic, kami kecewa dengan implementasi berkali-kali karena makalah yang tampak menjanjikan pada awalnya baru menyadari setelah penerapan bahwa makalah telah memanipulasi data. Karena itu, saya selalu skeptis terhadap data dan tidak mempercayai hasil apa pun sampai mereka diimplementasikan kembali dan divalidasi. Secara keseluruhan, latihan terbayar, dan berkali-kali, teori tidak bekerja dengan baik dalam praktik seperti yang diharapkan.
Fitur MPT-7B
**Swyx: Apa fitur khusus dari MPT-7B? **
Abhinav: Saya akan membaginya menjadi dua bagian, yang pertama adalah stabilitas pelatihan. Pertanyaan ini dapat dibagi menjadi tiga bagian. Pertama, model perlu menghindari lonjakan kerugian selama pelatihan, yang merupakan garis pertahanan pertama kami. Menurut pendapat saya, lonjakan kerugian bukanlah masalah besar pada ukuran pelatihan 7 miliar parameter. Namun, menghindari lonjakan kerugian menjadi sulit seiring bertambahnya waktu pelatihan. Kami menghabiskan waktu lama mencari tahu cara menyempurnakan metode inisialisasi, pengoptimal, arsitektur, dll. untuk mencegah lonjakan kerugian. Bahkan selama pelatihan kita, jika kita perhatikan dengan seksama, kita masih dapat menemukan beberapa puncak kecil yang terputus-putus, tetapi puncak ini akan kembali normal dalam beberapa ratus langkah, yang merupakan fenomena yang sangat ajaib, yang dapat membantu kita secara alami dari kehilangan puncak pulih.
Determinisme dan strategi pemulihan cerdas adalah garis pertahanan kedua kami. Jika terjadi kesalahan katastropik, kami akan dapat melanjutkan pelatihan dengan cepat, menerapkan beberapa intervensi dalam beberapa batch sebelum kegagalan. Untuk kemungkinan masalah, kami telah melakukan berbagai persiapan. Namun, dalam pelatihan MPT-7B, kami sama sekali tidak menggunakan langkah-langkah cadangan ini, yang harus dikatakan sebagai semacam keberuntungan.
Infrastruktur pelatihan yang tepat adalah garis pertahanan ketiga. Jika kami mencoba melatih model pada ratusan GPU, sering kali terjadi kegagalan perangkat keras. Misalnya, saat melatih model dalam cluster besar dengan 512 GPU, pelatihan akan gagal hampir setiap dua hari.Alasan kegagalan tersebut mungkin karena kegagalan jaringan.
Biasanya, orang menyiapkan tim panggilan 24/7 untuk menangani kegagalan ini. Saat terjadi kegagalan, tim mencoba memeriksa cluster, menghapus node yang rusak, memulai ulang, dll., yang merupakan tugas yang sangat membosankan. Kami biasanya menghabiskan waktu berbulan-bulan untuk memeriksa kesalahan secara manual, tetapi sekarang kami membuat platform untuk mengotomatiskan setiap node dalam proses pelatihan model.
Saat ada masalah dengan model yang dijalankan, sistem pemantauan otomatis kami menghentikan pekerjaan, menguji dan memeriksa node yang rusak, dan memulai ulang. Karena kemampuan pemulihan deterministik dan cepat dari perangkat lunak kami, model terus berjalan dengan baik. Akibatnya, terkadang kita dapat melihat di log model bahwa setelah model gagal pada pukul 2 pagi, model akan kembali aktif dan berjalan dalam hitungan menit tanpa intervensi manual oleh anggota tim.
Jonathan: Sangat tidak mudah untuk melakukan ini. Jika terjadi kegagalan perangkat keras pada model beberapa bulan yang lalu, anggota tim harus bangun jam dua pagi untuk memeriksa penyebab kegagalan node dan restart pekerjaan. Sebelumnya, bahkan pada skala pelatihan 7 miliar parameter, kami sering mengalami lonjakan kerugian yang sangat besar, dan masalah ini sangat memengaruhi pelatihan model.
Kami sekarang telah mengatasi masalah ini melalui peningkatan bertahap. Seperti yang dikatakan Abhinav, kita sekarang dapat duduk di kantor sambil melatih banyak model tanpa khawatir model gagal dan mengganggu pelatihan.
Pemilihan dan pengulangan data serta tantangan evaluasi LLM
**Swyx: Pemilihan data adalah fokus Anda, dapatkah Anda mengembangkannya? **
Jonathan: Abhi hampir membunuh saya saat saya mencoba menggunakan semua GPU untuk pemrosesan data alih-alih benar-benar melatih model. Kita tahu bahwa melatih model membutuhkan banyak data, tetapi ada juga banyak ketidakpastian.
Salah satunya adalah jenis sumber data berbeda mana yang penting, dan yang lainnya adalah pentingnya duplikasi. Diantaranya, pertanyaan tentang duplikasi dapat dipecah lebih lanjut menjadi pertukaran kualitas dan kuantitas. Misalkan saya memiliki 10 miliar data leksikal terbaik di dunia, apakah lebih baik melatihnya kembali seratus kali, atau lebih baik menggunakan 1 triliun data leksikal terbaru berkualitas rendah? Tentu saja, mungkin ada titik kompromi, tetapi bagaimana menentukan data berkualitas tinggi juga menjadi masalah, dan belum ada jawaban yang jelas. Jika saya kembali ke akademisi sekarang, saya pasti akan menulis makalah tentang itu, karena saya belum tahu apa-apa tentang itu.
Swyx: Saya belum melihat makalah penelitian tentang ini sejauh ini.
Jonathan: Pertanyaan sentral dari penelitian tesis ini adalah "kombinasi kumpulan data seperti apa yang harus digunakan".
Dalam proses pembuatan model, saya kembali ke Sekolah Hukum Georgetown, tempat saya mengajar, dan duduk bersama sekelompok mahasiswa hukum untuk mendiskusikannya. Saya memberi mereka kumpulan data berkualitas tinggi, cara menggabungkan data, dan jumlah token yang mereka miliki, dan membiarkan mereka membuat kumpulan data terbaik untuk model mereka.
Mereka tidak tahu apa-apa tentang LLM selain data input yang memengaruhi perilaku. Saya memberi tahu mereka untuk membuat hibrida yang mencakup semua pengorbanan yang berbeda. Pada awalnya, sejumlah besar korpus bahasa Inggris mungkin diperlukan, yang dapat diperoleh melalui Internet; jika Anda ingin menjadikannya model multibahasa, maka korpus bahasa Inggris akan banyak berkurang; selain itu, apakah akan memasukkan kode ke dalam dia.
Beberapa orang berpikir bahwa kode dapat membuat model bekerja lebih baik dalam penalaran logis, tetapi saya belum pernah melihat bukti yang mendukung gagasan ini. Meskipun kami memang telah mengembangkan model kode yang sangat baik, apakah model kode tersebut dapat mengarah pada kemampuan penalaran rantai pemikiran yang lebih baik memerlukan penelitian lebih lanjut.
Versi GPT-3 dikatakan dilatih dari novel "The Da Vinci Code", jadi beberapa orang berpikir ini mungkin berguna, tetapi tidak ada bukti; ) akan membantu pelatihan model, tetapi ada juga kurangnya bukti.
Oleh karena itu, kami bereksperimen dengan berbagai campuran data dan menemukan bahwa beberapa campuran data bekerja lebih baik atau lebih buruk daripada yang lain. Misalnya, "The Pile" adalah campuran data yang sangat stabil, tetapi menurut metrik evaluasi, ada campuran data lain yang lebih baik. Selanjutnya saya juga akan menyentuh masalah evaluasi yang sangat penting.
Model T5 awalnya dilatih pada dataset C4, yang bekerja dengan sangat baik. Yang lainnya, termasuk Stella Beaterman dari EleutherAI, menyebutkan ini ketika saya men-tweet tentangnya. Dalam makalah asli pada model T5, metode preprocessing untuk dataset C4 terlihat aneh, dan penulis menghapus semua yang mengandung kata "Java" dari dataset karena mereka tidak menginginkan peringatan terkait Java. Selain itu, mereka menghapus penyertaan kurung kurawal karena mereka tidak ingin penyertaan Java.
Mereka melihat daftar kata-kata buruk dan menghapus konten yang mengandung kata-kata buruk. Namun, daftar kata-kata buruk sebenarnya menyertakan beberapa kata yang sebenarnya tidak buruk, seperti "gay". Namun karena proses pembersihan ini, dataset yang dihasilkan sepertinya tidak ada tandingannya. Dari titik ini, kami tidak tahu apa-apa tentang data.
Faktanya, kami juga menggunakan kumpulan data yang disebut MC4, MC4 dan C4 memiliki preprocessing yang sama, tetapi menambahkan lebih banyak panggilan web (panggilan web), tetapi dibandingkan dengan C4, bagian bahasa Inggris dari MC4 lebih buruk Banyak, karena alasan yang tidak diketahui.
Untuk ini, saya menetapkan dua kriteria:
Pertama-tama, bagian bahasa Inggris setidaknya harus sebagus MC4. Dibandingkan dengan kumpulan data lain yang tersedia, bagian bahasa Inggris dari MC4 lebih baik. Kedua, lakukan semua tentang keragaman data dan pastikan kumpulan data mencakup hal-hal seperti kode, makalah ilmiah, dan Wikipedia, karena orang akan menggunakan model untuk berbagai tugas yang berbeda.
Tapi menurut saya, yang terpenting, modelnya hanya sebagus metrik evaluasi. Abhi mungkin tidak setuju dengan hal ini. Kami tidak tahu bagaimana mengevaluasi model generatif secara akurat ketika diminta untuk melakukan tugas tertentu. Dalam beberapa kasus, kami harus mengakui bahwa penilaian kami sendiri bahkan tidak mengukur apa yang benar-benar kami pedulikan, jadi kami hanya dapat membuat pilihan yang masuk akal.
Swyx: Apakah menurut Anda metode evaluasi seperti MMLU (Massive Multitask Language Understanding) dan BIG-bench tidak cukup meyakinkan?
Jonathan: Metode ini pasti melakukan dua jenis tugas. Salah satunya adalah tugas pilihan ganda, yang berisi satu jawaban yang benar, yang memungkinkan model menghasilkan opsi seperti A, B, C, atau D, dan kemudian memilih jawaban yang paling mungkin dihasilkan model dengan menghitung kebingungan dari setiap kemungkinan jawaban. Tapi alih-alih meminta model untuk melakukan pertanyaan pilihan ganda, kami melakukan jenis tugas generatif terbuka jenis kedua, seperti meringkas. Membandingkan menggunakan metrik seperti BLEU dan ROUGE tidak cukup akurat, ada banyak abstrak kertas yang bagus dan metode pembuatan terbuka. Sebaliknya, manual adalah standar evaluasi yang lebih andal, tetapi evaluasi manual sangat memakan waktu dan tenaga, dan tidak dapat dibandingkan dengan model secara real time, yang mungkin dapat dilakukan di masa mendatang.
Abhinav: Kami memiliki tim evaluasi hebat yang membantu kami membuat metrik baru.
Jonathan: Namun LLM sulit untuk dievaluasi, dan menurut saya metrik ini tidak benar-benar mencerminkan apa yang diharapkan dari model dalam praktiknya.
Pengurangan biaya dan peningkatan efisiensi pelatihan model
Swyx: Sekarang orang membutuhkan waktu tiga hingga sepuluh hari untuk melatih seorang model, berapa lama Anda ingin mempersingkat waktu tersebut?
Abhinav: Tahun ini mungkin merupakan salah satu tahun paling menarik dalam hal peningkatan efisiensi pelatihan model mentah. Tahun ini, perangkat keras dan perangkat lunak telah ditingkatkan, yang pertama adalah H100 perangkat keras generasi baru Nvidia, yang dapat meningkatkan kinerja setidaknya dua kali lipat. Kedua, ada format angka floating-point baru FP8, yang dapat mencapai peningkatan kinerja yang sama saat digunakan sendiri.
Beberapa tahun lalu, kami mulai menggunakan presisi 32-bit, lalu Nvidia memperkenalkan presisi 16-bit. Setelah beberapa tahun pengembangan, kami secara bertahap menguasai keterampilan pelatihan 16-bit karena peningkatan persyaratan yang berkelanjutan.
Dengan FP8 tahun ini, kami dapat menggandakan throughput, yang berarti kami dapat melipatgandakan biaya. Pada saat yang sama, kami telah memulai pembuatan profil pelatihan LLM menggunakan FP8 pada H100, dan kemajuannya pesat. Jadi, hanya dengan meningkatkan perangkat keras, kita dapat mengurangi banyak biaya.
Selain itu, ada banyak studi tentang aplikasi arsitektur. Kami sedang mencari cara untuk memperkenalkan beberapa sparsity, tetapi bukan sparsity yang sepenuhnya acak. Apakah ada mekanisme gerbang atau cara arsitektur bergaya MoE untuk mencapai ini?
Tujuan awal kami adalah mengurangi biaya pelatihan model GPT-J dari $500.000 menjadi $100.000, dan jika kami dapat mencapainya pada akhir tahun, itu akan menjadi pencapaian yang luar biasa.
Jonathan: Ide ini bukanlah kastil di udara. Meski tahap itu belum tercapai, target tersebut kemungkinan besar akan tercapai pada tahun 2023.
Statistik biaya pelatihan dan inferensi langka. David Patterson dari Google menerbitkan posting blog yang membahas penggunaan energi Google untuk pembelajaran mesin. Setelah analisis mendetail, selama tiga tahun terakhir, Google menghabiskan tiga per lima sumber dayanya untuk inferensi dan dua per lima untuk pelatihan. Di atas adalah data Google, mereka menyediakan model untuk miliaran pengguna.
Google mungkin adalah tempat dengan beban inferensi terbesar di dunia. Dan itu hanya alokasi sumber daya untuk pelatihan, dengan akuntansi inferensi untuk tiga per lima dan pelatihan untuk dua per lima. Perangkat keras mungkin lebih mahal, dan struktur jaringan perangkat keras mungkin lebih kompleks, sehingga pelatihan dan penalaran dapat dibagi menjadi dua. Di atas adalah rasio alokasi Google, tetapi untuk perusahaan lain, pelatihan mungkin memiliki bobot yang lebih tinggi.
Pentingnya keterbukaan untuk penelitian AI
Alessio: Biaya pelatihan sebelumnya sangat mahal, yang menghalangi kami untuk melakukan eksperimen yang cukup banyak, sehingga banyak masalah dalam memilih kumpulan data dan sebagainya.
Jonathan: Di sekolah pascasarjana, saya dulu cemburu pada teman-teman saya karena mereka memiliki GPU dan saya tidak memilikinya di laptop saya, jadi saya tidak bisa melatih model apa pun. Saya berfantasi tentang memenangkan lotre sehingga saya dapat memiliki GPU K80.
Jauh di lubuk hati, saya masih mahasiswa sains yang bersemangat. Saya sangat percaya bahwa jika kita ingin melakukan penelitian ilmiah dan benar-benar memahami sistem ini, bagaimana membuatnya bekerja dengan baik, memahami unsur-unsur perilaku, keamanan, dan keandalannya, kita harus mengurangi biaya pelatihan agar kita benar-benar dapat melakukan penelitian ilmiah. riset. Ambil percobaan biologi, misalnya, di mana kita perlu melakukan banyak kultur sel dan percobaan untuk memastikan obat bekerja, banyak penelitian ilmiah diperlukan sebelum kita benar-benar memahami sesuatu.
**Abhinav:**MosaicML memiliki banyak pelanggan yang mencoba melatih model, sehingga perusahaan terdorong untuk mencurahkan banyak sumber daya dan waktu untuk penelitian ilmiah. Hanya dengan benar-benar memahami bagaimana model harus dilatih, kita dapat membantu lebih banyak orang. Jadi bagi kami, proses agregasi ini sangat penting.
Saya ingat ada makalah dari Google sebelumnya yang menyelidiki ukuran batch atau semacamnya. Makalah ini mungkin menelan biaya jutaan dolar, dan memiliki manfaat besar bagi masyarakat secara keseluruhan. Sekarang, kita semua bisa belajar darinya dan menghemat uang tanpa merusak bank. Oleh karena itu, untuk Mosaic, melalui penelitian eksperimental, kami memperoleh wawasan mendalam tentang data, arsitektur prapelatihan, dll., itulah sebabnya pelanggan memilih kami.
Jonathan: Keterbukaan sangat penting bagi komunitas AI. Dalam artian, kami tidak punya alasan untuk ditutup. Kami mendapatkan penghasilan dengan membantu pelanggan melatih model. Tidak ada ruginya bagi kami untuk berbagi hasilnya dengan komunitas. Lagi pula, kami harus mendapatkan penghasilan melalui model yang disesuaikan dan infrastruktur yang sangat baik. Dan menyatukan aspek-aspek ini adalah alasan kami menamai perusahaan kami MosaicML.
Kami selalu mempertahankan sikap terbuka dan tidak akan menyembunyikan hasil yang telah kami raih. Tapi sekarang, saya menemukan bahwa kami telah menjadi salah satu laboratorium sumber terbuka terbesar di industri, yang merupakan fakta yang menyedihkan, karena MosaicML tidak sebesar industri secara keseluruhan, kami hanya memiliki sekitar 15 peneliti, banyak lainnya Laboratorium telah ditutup dan tidak lagi mempublikasikan banyak konten untuk publik. Namun, MosaicML akan terus berkomunikasi dan berbagi dengan komunitas, serta berusaha sebaik mungkin untuk menjadi pionir penelitian terbuka. Meskipun skala dan volume penelitian kami tidak sebanding dengan laboratorium besar, kami akan terus membagikan apa yang kami pelajari dalam upaya menciptakan sumber daya untuk masyarakat.
Saat saya membahas ekosistem AI dengan pembuat kebijakan, kekhawatiran bersama selalu muncul: kurangnya keterbukaan akan menghambat laju inovasi. Saya telah menekankan masalah ini selama bertahun-tahun, tetapi akhirnya menjadi kenyataan. Saya menganjurkan open source, tetapi saya rasa tidak semua orang akan membagikan karya mereka. Kami pernah menerima open source begitu saja, tapi itu tidak lagi terjadi.
Saya pikir itu akan memperlambat perkembangan kita. Dalam banyak kasus, terdapat budaya monolitik di setiap laboratorium, dan komunikasi merupakan kekuatan pendorong yang penting bagi kemajuan ilmu pengetahuan. Oleh karena itu, open source tidak hanya sangat diperlukan dalam komunitas open source dan akademisi, tetapi juga penting untuk kemajuan teknologi. Kami membutuhkan komunitas riset sumber terbuka yang dinamis.
Tren masa depan
Swyx: Anda menyebutkan bahwa banyak hal yang tidak bertahan lama dan mudah diganti, tetapi Transformer akan tetap ada.
Jonathan: Transformer akan selalu ada. Convolutional Neural Networks (CNNs) masih digunakan sampai sekarang, dan Visual Transformers belum menggantikannya. Lihatlah jaringan saraf berulang (RNN), yang telah ada selama beberapa dekade, tetapi masih aktif di banyak bidang. Akibatnya, implementasi perbaikan infrastruktur besar menjadi sulit.
Abhinav: Menurut saya taruhan Anda sangat bergantung pada apa yang didefinisikan sebagai perhatian. Jika operasi seperti perkalian matriks QK diganti dengan metode serupa, apa pengaruhnya terhadap hasilnya?
Jonathan: Dalam analisis terakhir, ini hanyalah jaringan feedforward yang terhubung sepenuhnya, Transformer dengan mekanisme perhatian sederhana. Jadi hal-hal dapat berubah, tetapi kami terus menggunakan Transformer seperti yang dibayangkan Ashish Vaswani (penulis Transformer) enam tahun lalu, dan mungkin akan terus melakukannya di masa mendatang.
Abhinav: Saya pikir ini akan menjadi mirip dengan MLP (Multilayer Perceptron), yang merupakan satu-satunya pilihan yang kami miliki saat ini, karena sekarang arsitekturnya telah banyak disederhanakan, hanya menyisakan beberapa lapisan linier, koneksi sisa, Perhatian , operasi perkalian titik.
Jonathan: Asumsi Anda adalah bahwa arsitektur akan menjadi lebih sederhana, tetapi kenyataannya mungkin sebaliknya, dan arsitektur dapat menjadi lebih kompleks.
Swyx: Apa pendapat Anda tentang debat baru-baru ini tentang "fenomena yang muncul"?
Abhinav: Saya telah melihat makalah serupa, dan ini mungkin hanya produk sampingan dari teknik evaluasi seperti penskalaan log, metrik evaluasi, dan apa yang kami lakukan sekarang adalah akurasi penyambungan, yang merupakan penilaian biner yang ketat, yaitu. mengklasifikasikan hasil sebagai benar atau salah, tanpa memperhitungkan perbedaan berurutan yang lebih halus.
Namun, mirip dengan poin Jonathan tentang evaluasi, kami juga memiliki masalah dengan keragaman metrik evaluasi: saat kami merilis model ini, bahkan model obrolan, model perintah, orang sering menggunakannya untuk berbagai tugas berbeda. Kami hampir tidak dapat mengukur dan mengevaluasi setiap dimensi dengan tepat sebelumnya, dan bahkan pada skala 7 miliar, model ini masih berkinerja buruk pada beberapa tugas MMLU yang sangat sulit. Kadang-kadang mereka mendapat skor hampir di atas peluang acak, terutama ketika berhadapan dengan tugas yang sangat sulit.
Oleh karena itu, beberapa dari masalah ini mungkin lebih bermanfaat bagi kami saat kami mengejar model dengan kualitas lebih tinggi. Namun, kami mengembangkan MPT-7B sedikit membabi buta karena kami tidak sepenuhnya memahami bagaimana perilaku model pada akhirnya. Itu hanya dapat dikembangkan terhadap sekumpulan kecil tugas inferensi persepsi umum, dan kinerjanya dievaluasi dengan membandingkan metrik ini dengan model sumber terbuka lainnya.
Alessio: Menurut saya inferensi cepat dan pelatihan adalah salah satu tujuannya, jadi ada kompromi antara menyelesaikan tugas yang paling sulit dan cepat dalam tugas lainnya.
Abhinav: Ya. Bahkan pada skala 7 miliar data, orang akan mencoba menjalankannya di CPU di rumah, atau mencoba mem-portingnya ke ponsel mereka, terutama karena aplikasi skala kecil akan mendorong orang untuk mengadopsi teknologi ini, dan ini merupakan tren penting di saat ini.
Alessio: Apa saja hal dalam AI yang bergerak lebih cepat dari yang diharapkan?
Jonathan: Saya ingat ketika GPT-2 dirilis, saya tidak terlalu bersemangat, tetapi saat itu sudah memiliki 1,5 miliar parameter. Karena ukuran model berskala, kinerjanya tidak dapat terus meningkat. Kemudian GPT-3 keluar, dan saya hanya berpikir itu sedikit lebih baik dalam menghasilkan teks, tetapi saya salah lagi dan lagi. Meningkatkan model dapat menghasilkan model yang sangat berguna dengan memprediksi token berikutnya.
Agar adil, kita semua salah tentang ini, jadi kita juga tidak bisa menyalahkan diri sendiri. Jika tidak, Google, Facebook, dan Microsoft Research akan merilis megamodel bahasa pembunuh jauh sebelum saya memiliki kesempatan untuk bertindak. Saya membuat taruhan yang sangat aneh yang ternyata benar: Model difusi, meski agak bodoh, menghasilkan gambar yang sangat indah.
Abhinav: Terkait chatbot dalam skala besar, menurut saya masih lama sebelum ratusan juta orang melakukan percakapan besar-besaran dengan model AI. Dengan begitu banyak perusahaan rintisan dan bisnis yang sekarang tidak hanya menggunakan ChatGPT, tetapi proyek lain seperti pembuatan karakter, sungguh menakjubkan betapa banyak orang yang benar-benar menciptakan hubungan emosional dengan model AI ini. Saya rasa saya tidak akan memperkirakannya pada bulan September atau Oktober tahun lalu. Titik belok yang terjadi dalam enam bulan terakhir benar-benar tidak terduga.
Swyx: Menurut Anda, untuk apa mereka akan digunakan, seperti dukungan emosional?
Abhinav: Beberapa di antaranya untuk dukungan emosional, atau hanya sebagai teman. Kesepian dan masalah kesehatan mental adalah topik hangat. Jika Anda pergi ke subreddit komunitas tersebut, orang-orang membicarakan dan memikirkan tentang teman AI mereka dan karakter ini, itu seperti sesuatu dari fiksi ilmiah, dan saya tidak pernah menyangka hal itu akan terjadi.
Swyx: Apa masalah paling menarik yang belum terpecahkan di AI?
Abhinav: Saya tertarik pada seberapa jauh kita bisa melangkah dalam hal akurasi dan sesuatu seperti BF16/FP16.
Saya bertanya-tanya apakah masalah ini menjadi lebih mudah ditangani seiring bertambahnya ukuran model. Makalah terkait menunjukkan bahwa kuantisasi dan pemangkasan dapat menjadi lebih mudah seiring peningkatan skala. Jadi, sebagai konsekuensi alami dari penskalaan selama beberapa tahun ke depan, kita mungkin beralih menggunakan bobot empat-bit atau dua-bit atau bahkan biner.
Jonathan: Saya ingin melihat cara lain seberapa kecil model yang dapat kami capai, dan seberapa efisien kami dapat mengembangkan model dengan performa yang setara. Ini adalah pertanyaan yang saya kerjakan selama Ph.D. saya, dan dalam arti tertentu, di Mosaic juga. OpenAI telah menunjukkan kepada kita satu jalan menuju kemampuan luar biasa ini, yaitu penskalaan. Tapi saya harap ini bukan satu-satunya cara. Saya harap ada banyak cara lain untuk mencapai ini juga, melalui metode pemodelan yang lebih baik, algoritme yang lebih baik, dll.
Meskipun saya bukan penggemar kiasan ilmu saraf, dalam arti tertentu keberadaan dan otak kita membuktikan bahwa setidaknya ada cara lain untuk mencapai kemampuan luar biasa ini tanpa triliunan parameter atau bahkan parameter astronomi. Jadi saya sangat ingin tahu seberapa kecil model yang bisa kita capai? Apakah ada jalur lain untuk kemampuan ini yang tidak harus mengikuti jalur saat ini? Berharap menemukan jawabannya di Mosaic, jika ada.
Swyx: Tepat sekali, salah satu hal yang paling saya minati adalah fakta bahwa otak manusia hanya mengonsumsi daya 30 watt, dan modelnya jauh dari itu.
Abhinav: Saya rasa tidak ada cara untuk mencapai ini hanya dengan satu GPU atau alat lain.
Alessio: Ada banyak informasi yang beredar saat ini, seperti bagaimana seharusnya pendapat orang tentang kecerdasan buatan? Apa yang harus mereka fokuskan?
Jonathan: Tetap tenang. Beberapa orang menganggap hype terlalu serius; yang lain sangat pesimis, bereaksi keras terhadapnya, atau menyangkalnya sampai batas tertentu. Tetap tenang dan ketahuilah bahwa kami telah membuat alat yang sangat berguna.
Tapi kami belum membangun kecerdasan umum, dan secara pribadi, kami jauh dari tujuan itu. Jadi penting untuk bersikap damai dan mengikuti sains, dan itulah yang diperjuangkan AI Mosaic. Kami mencoba fokus pada hal-hal yang bermanfaat bagi manusia, semoga menciptakan dunia yang lebih baik. Kami akan melakukan yang terbaik, tetapi yang terpenting, kami akan mengikuti sains, dipandu oleh data, dan mencapai tujuan ini melalui hasil nyata, bukan retorika.
Abhinav: Menurut saya, melakukan penelitian di komunitas terbuka memang tiada bandingnya. Di komunitas, tidak hanya banyak orang yang memperhatikan model Anda, tetapi bahkan memberikan pendapatnya tentang masalah model dan cara memperbaikinya. Riset terbuka semacam ini akan menjadi langkah maju, baik untuk menjaga keamanan model kami, maupun untuk mempelajari dampak dan konsekuensi dunia nyata dari model AI ini.
Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Konteks Tak Terbatas untuk Model Besar dan Seni Komposisi Kumpulan Data
Sumber | Ruang Laten
kompilasi OneFlow
Terjemahan|Jia Chuan, Yang Ting, Wan Zilin
Panjang konteks dulunya adalah salah satu batasan terbesar GPT-3. GPT-3 hanya dapat menerima hingga 4000 token (3000 kata, 6 halaman), jika tidak, kesalahan akan dilaporkan. Oleh karena itu, untuk menangani dokumen dan petunjuk yang panjang (), perlu memperkenalkan teknik pengambilan lain seperti LangChain. Namun, MosaicML (yang telah diakuisisi oleh Databricks sekitar $1,3 miliar) membuka konteks MPT-7B pada awal Mei dengan panjang 84.000 token (63.000 kata, 126 halaman), sangat memperluas jangkauan teks yang dapat diproses. , Model Claude yang dikembangkan oleh Anthronpic memiliki panjang konteks yang diperpanjang hingga 100.000 token.
MosaicML juga merilis tiga model MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ berdasarkan MPT-7B dasar untuk penyempurnaan.
Model disetel halus pada dolly_hhrlhf. Kumpulan data dolly_hhrlhf dibangun di atas kumpulan data "dolly-5k".
Model ini disempurnakan pada kumpulan data ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless, dan Evol-Instruct.
Set data penyempurnaan untuk model ini adalah subset novel yang difilter dalam buku3 dengan panjang konteks 65k. Meskipun ukuran yang diiklankan adalah 65k token, tim dapat memperoleh respons sebesar 84k token saat dijalankan pada GPU A100-80GB satu node. Teknologi utama di balik ini adalah ALiBi. The Great Gatsby awalnya hanya memiliki sekitar 68k token, jadi tim menggunakan model MPT-7B-StoryWriter-65k+ untuk membuat akhir baru untuk novel tersebut.
Kepala Ilmuwan MosaicML Jonathan Frankle dan Ilmuwan Riset Abhinav Venigalla adalah kepala MPT-7B, memimpin seluruh proses pelatihan MPT-7B. Dalam podcast terbaru Latent Space, mitra utama Swyx dan Decibel Partners, Alessio, berdiskusi dengan mereka tentang inovasi proses pelatihan MPT-7B dan menjelaskan mengapa kombinasi kumpulan data LLM merupakan seni yang penting dan misterius. Juga, beberapa tolok ukur pilihan ganda tradisional mungkin tidak terlalu membantu untuk teknologi yang sedang dibangun, dan mereka juga akan mengeksplorasi alasan di baliknya.
(Konten berikut dikompilasi dan dirilis oleh OneFlow setelah otorisasi, sumber: https://
Konstruksi model MPT-7B
**Swyx: Mengapa Anda mengembangkan MPT-7B? **
Abhinav: Proyek MPT-7B memakan waktu sekitar 6-12 bulan. Kami mulai mengerjakan model bahasa musim panas lalu dan menerbitkan postingan blog yang menganalisis model bahasa dan menemukan bahwa biaya pelatihan sebenarnya jauh lebih rendah daripada yang diperkirakan orang. Juga sejak saat itu, terinspirasi oleh model LLaMA yang dirilis oleh Meta AI dan banyak karya sumber terbuka lainnya, kami mulai membuat model yang sangat bagus dengan 7 miliar parameter, yang merupakan asal mula MPT.
Alessio: Anda mengatakan di salah satu podcast: Mosaic tidak memiliki rencana untuk membuat dan merilis model. Namun pada akhirnya Anda tetap merilis modelnya, apa yang membuat Anda berubah pikiran?
Jonathan: Menurut saya ada beberapa faktor: Kami masih kekurangan model kelas satu. Tidak seperti OpenAI, di mana bisnis kami berputar di sekitar pelanggan yang membuat model mereka sendiri, kami terutama menyediakan alat untuk mereka, dan agar alat tersebut efektif, kami harus terlebih dahulu membuat model kami sendiri.
Harus jelas bahwa jika klien kami dapat melakukan hal-hal hebat, kami juga dapat melakukan hal-hal hebat. Saya memiliki banyak orang di Twitter yang mempertanyakan kebenaran angka yang ditunjukkan Mosaic, seperti yang dikatakan Ross Whiteman, "Mari kita lihat hasil yang sebenarnya," yang akan saya katakan, "Ross, menurut Anda bagaimana ini? ?" Kami mengembangkan model dalam 9,5 hari dengan biaya $200.000, sehingga Anda juga dapat melakukannya.
**Swyx: **Mengacu pada data yang Anda rilis tahun lalu, awalnya diperkirakan bahwa biaya pelatihan GPT-3 kurang dari $450.000, dan kemudian dikurangi menjadi $100.000; biaya Difusi Stabil juga berkurang dari $160.000 kurang dari $50.000.
Jonathan: Saya masih sangat berhati-hati dengan angka $100.000. Itu belum ada, tapi kami menuju ke arah itu, dan itu tantangan besar bagi Abhi.
Swyx: Ada tiga varian model MPT-7B, salah satunya mencapai SOTA dalam hal panjang konteks, bagaimana proses pelatihan untuk model ini?
Abhinav: Model dasar kami adalah pembuatan ulang LLaMA-7B, dengan 7 miliar parameter dan data pelatihan 1 triliun token, memberikan titik awal pelatihan yang efisien untuk model penyempurnaan tanpa intervensi berlebihan. Penyempurnaan model juga sangat menarik, seperti MPT-7B-StoryWriter-65k+ dapat digunakan untuk penulisan cerita, panjang jendela konteks adalah 65.000, dan juga dapat melanjutkan penulisan berdasarkan konten yang diketahui.
Tentu saja, ini hanyalah salah satu arah yang kami pikirkan. Anda dapat menggunakan model Dasar MPT-7B untuk membuat model khusus yang sesuai dengan kebutuhan yang berbeda, seperti model kode konteks panjang atau model bahasa tertentu. Jadi berdasarkan model dasar, dibuat tiga varian, MPT-7B-Instruct, MPT-7B-Chat dan MPT-7B-StoryWriter-65k+, yang masing-masing digunakan untuk mengikuti instruksi singkat, dialog obrolan, dan menulis cerita.
Alessio: Bagaimana Anda memutuskan berapa banyak token dan parameter yang akan digunakan saat melatih model? 7 miliar dan 3 miliar parameter model tampaknya menjadi dua angka ajaib yang sedang populer saat ini.
Abhinav: Untuk model pelatihan, hukum penskalaan dapat memberi tahu Anda cara memanfaatkan sumber daya komputasi pelatihan secara paling efisien. Misalnya, jika anggarannya 200.000 dolar AS, maka menurut hukum skala, program pelatihan yang paling efektif dapat diberikan.
Diantaranya, yang paling sering kita ikuti adalah hukum Chinchilla. Untuk model MPT-7B dan varian terkaitnya, undang-undang ini tidak diikuti secara ketat, karena kami ingin memastikan bahwa model tersebut cocok untuk penggunaan pribadi dan memiliki performa inferensi yang baik, sehingga overtrained, melebihi Chinchilla Point (mengacu pada data tingkat diukur dalam token). Beberapa orang di Internet dengan bercanda menyebut model ini Llongboi karena waktu pelatihan mereka cukup lama.Mengambil contoh model 7B, Chinchilla Point mungkin 140 miliar token, tetapi sebenarnya kami melatih 1 triliun token, jadi Waktu pelatihannya hampir 7 kali lebih lama dari biasanya.
**Swyx: Apakah Llongboi mengacu pada metode pelatihan? **
Jonathan: Llongboi hanyalah lelucon orang dalam, mengacu pada metode pelatihan yang menggunakan lebih banyak token daripada yang ditentukan oleh hukum Chinchilla. Terlihat bahwa Llongboi memiliki dua "L" di awal, yang digunakan untuk memberi penghormatan kepada LLaMA. CEO kami pernah mengumumkan namanya di Twitter, menyebut modelnya sebagai "Llongboi". Terkadang saya sangat ingin mengambil kata sandi twitternya agar tidak bocor lebih awal, tetapi sekarang seluruh dunia tahu nama itu.
Tentang arsitektur, ALiBi, konteks
**Alessio:**Flash Attention dan Faster Transformer adalah dua elemen inti bangunan model Anda. Apa kelebihannya?
**Abhinav:**Flash Attention adalah implementasi yang lebih cepat dari Full Attention, yang dikembangkan oleh laboratorium Hazy Research Stanford. Kami mengintegrasikan Perhatian Flash ke perpustakaan kami September lalu dan telah memainkan peran besar dalam pelatihan dan kecepatan inferensi. Dibandingkan dengan model Hugging Face lainnya, model ini sangat istimewa, dapat beralih antara Perhatian Obor umum dan Perhatian Flash yang dirancang khusus untuk GPU, yang membuat kecepatan latihan model meningkat sekitar 2 kali lipat dan kecepatan inferensi meningkat sebesar 50. % -100%.
**Swyx: Apa yang memotivasi Anda untuk memilih pengodean posisi ALiBi? **
Abhinav: Kami menggabungkan pengodean posisi ALiBi, Flash Attention, dan stabilitas pelatihan dengan cara yang menarik. ALiBi mampu menghilangkan kebutuhan akan penyematan posisi dalam model. Sebelumnya, jika token memiliki posisi 1, maka Anda perlu menambahkan penyematan posisi tertentu, dan tidak dapat melebihi posisi maksimum (biasanya 2000). Namun dengan ALiBi, masalah ini terpecahkan. Kita hanya perlu menambahkan bias (bias) ke Peta Perhatian, yang seperti kemiringan, dan jika rentang posisi yang lebih panjang diperlukan untuk inferensi, ini akan memperluas kemiringan ini ke jumlah posisi yang lebih panjang. Pendekatan ini berhasil karena kemiringannya kontinu dan dapat diinterpretasikan.
Menariknya, melalui Flash Attention, model ini menghemat banyak memori dan meningkatkan performa, jadi kami mulai melakukan pengujian performa pada model dengan konteks yang sangat panjang (hingga 65k) tahun lalu, dan pada saat yang sama, sangat sulit dilakukan pelatihan yang stabil. Kemudian, kami mencoba mengintegrasikan ALiBi ke dalam model, dan stabilitas model meningkat secara signifikan. Kami sekarang dapat melatih model penulisan cerita secara stabil pada konteks yang sangat panjang dan menjamin penggunaannya secara efisien.
Jonathan: Panjang konteks secara teknis tidak terbatas. Selama memori yang diberikan cukup, dialog dapat berlanjut tanpa batas. Kami percaya bahwa angka terpanjang yang dapat ditangani model adalah 84K, yang merupakan panjang konteks terpanjang yang dapat ditangani dengan nyaman oleh manusia dalam praktiknya. Namun kami juga telah mencoba panjang konteks melebihi 84K dalam praktiknya, dan kami dapat menangani panjang yang lebih panjang.
**Swyx:**Misalnya, kita dapat memasukkan novel "The Great Gatsby" ke dalam model, lalu membiarkan model terus menulis novel sesuai dengan teks masukan, dan akhirnya model tersebut menghasilkan konten yang cukup menarik.
Jonathan: Ada banyak versi akhir cerita yang sangat bagus di dalam Mosaic. Satu versi menggambarkan pemakaman Gatsby, Nick mulai berbicara dengan hantu Gatsby, ayah Gatsby juga muncul, lalu dia dan Tom muncul di kantor polisi. Versi ini sangat menekankan plot, menggambarkan apa yang terjadi selanjutnya. Juga, banyak versi memiliki akhiran yang sangat Fitzgerald-esque, dan ditulis dengan indah. Jadi menarik untuk melihat bahwa model tersebut tampaknya memproses masukan dan menghasilkan keluaran yang berarti. Kita dapat melakukan banyak hal dengan panjang konteks ini.
Alessio: Memori mulai menjadi salah satu kendala model, jadi bagaimana seharusnya ukuran parameter dan panjang konteks dipilih?
Jonathan: Baru-baru ini, penelitian tentang konteks panjang telah menarik banyak perhatian dan serangkaian makalah terkait telah muncul. Namun, makalah ini tidak sepenuhnya akurat, dan sampai batas tertentu, terutama sehubungan dengan mekanisme perhatian, mereka membandingkan mekanisme perhatian non-kuadrat (seperti perkiraan, perhatian hierarkis) dengan perhatian kuadrat yang eksplisit dan benar. . Saya yakin dengan metode perkiraan, jadi tidak sabar untuk mempelajari makalah ini.
Menulis dan membaca makalah memberi saya pelajaran penting tentang tidak mempercayai data apa pun sampai Anda melakukannya sendiri. Di Mosaic, kami kecewa dengan implementasi berkali-kali karena makalah yang tampak menjanjikan pada awalnya baru menyadari setelah penerapan bahwa makalah telah memanipulasi data. Karena itu, saya selalu skeptis terhadap data dan tidak mempercayai hasil apa pun sampai mereka diimplementasikan kembali dan divalidasi. Secara keseluruhan, latihan terbayar, dan berkali-kali, teori tidak bekerja dengan baik dalam praktik seperti yang diharapkan.
Fitur MPT-7B
**Swyx: Apa fitur khusus dari MPT-7B? **
Abhinav: Saya akan membaginya menjadi dua bagian, yang pertama adalah stabilitas pelatihan. Pertanyaan ini dapat dibagi menjadi tiga bagian. Pertama, model perlu menghindari lonjakan kerugian selama pelatihan, yang merupakan garis pertahanan pertama kami. Menurut pendapat saya, lonjakan kerugian bukanlah masalah besar pada ukuran pelatihan 7 miliar parameter. Namun, menghindari lonjakan kerugian menjadi sulit seiring bertambahnya waktu pelatihan. Kami menghabiskan waktu lama mencari tahu cara menyempurnakan metode inisialisasi, pengoptimal, arsitektur, dll. untuk mencegah lonjakan kerugian. Bahkan selama pelatihan kita, jika kita perhatikan dengan seksama, kita masih dapat menemukan beberapa puncak kecil yang terputus-putus, tetapi puncak ini akan kembali normal dalam beberapa ratus langkah, yang merupakan fenomena yang sangat ajaib, yang dapat membantu kita secara alami dari kehilangan puncak pulih.
Determinisme dan strategi pemulihan cerdas adalah garis pertahanan kedua kami. Jika terjadi kesalahan katastropik, kami akan dapat melanjutkan pelatihan dengan cepat, menerapkan beberapa intervensi dalam beberapa batch sebelum kegagalan. Untuk kemungkinan masalah, kami telah melakukan berbagai persiapan. Namun, dalam pelatihan MPT-7B, kami sama sekali tidak menggunakan langkah-langkah cadangan ini, yang harus dikatakan sebagai semacam keberuntungan.
Infrastruktur pelatihan yang tepat adalah garis pertahanan ketiga. Jika kami mencoba melatih model pada ratusan GPU, sering kali terjadi kegagalan perangkat keras. Misalnya, saat melatih model dalam cluster besar dengan 512 GPU, pelatihan akan gagal hampir setiap dua hari.Alasan kegagalan tersebut mungkin karena kegagalan jaringan.
Biasanya, orang menyiapkan tim panggilan 24/7 untuk menangani kegagalan ini. Saat terjadi kegagalan, tim mencoba memeriksa cluster, menghapus node yang rusak, memulai ulang, dll., yang merupakan tugas yang sangat membosankan. Kami biasanya menghabiskan waktu berbulan-bulan untuk memeriksa kesalahan secara manual, tetapi sekarang kami membuat platform untuk mengotomatiskan setiap node dalam proses pelatihan model.
Saat ada masalah dengan model yang dijalankan, sistem pemantauan otomatis kami menghentikan pekerjaan, menguji dan memeriksa node yang rusak, dan memulai ulang. Karena kemampuan pemulihan deterministik dan cepat dari perangkat lunak kami, model terus berjalan dengan baik. Akibatnya, terkadang kita dapat melihat di log model bahwa setelah model gagal pada pukul 2 pagi, model akan kembali aktif dan berjalan dalam hitungan menit tanpa intervensi manual oleh anggota tim.
Jonathan: Sangat tidak mudah untuk melakukan ini. Jika terjadi kegagalan perangkat keras pada model beberapa bulan yang lalu, anggota tim harus bangun jam dua pagi untuk memeriksa penyebab kegagalan node dan restart pekerjaan. Sebelumnya, bahkan pada skala pelatihan 7 miliar parameter, kami sering mengalami lonjakan kerugian yang sangat besar, dan masalah ini sangat memengaruhi pelatihan model.
Kami sekarang telah mengatasi masalah ini melalui peningkatan bertahap. Seperti yang dikatakan Abhinav, kita sekarang dapat duduk di kantor sambil melatih banyak model tanpa khawatir model gagal dan mengganggu pelatihan.
Pemilihan dan pengulangan data serta tantangan evaluasi LLM
**Swyx: Pemilihan data adalah fokus Anda, dapatkah Anda mengembangkannya? **
Jonathan: Abhi hampir membunuh saya saat saya mencoba menggunakan semua GPU untuk pemrosesan data alih-alih benar-benar melatih model. Kita tahu bahwa melatih model membutuhkan banyak data, tetapi ada juga banyak ketidakpastian.
Salah satunya adalah jenis sumber data berbeda mana yang penting, dan yang lainnya adalah pentingnya duplikasi. Diantaranya, pertanyaan tentang duplikasi dapat dipecah lebih lanjut menjadi pertukaran kualitas dan kuantitas. Misalkan saya memiliki 10 miliar data leksikal terbaik di dunia, apakah lebih baik melatihnya kembali seratus kali, atau lebih baik menggunakan 1 triliun data leksikal terbaru berkualitas rendah? Tentu saja, mungkin ada titik kompromi, tetapi bagaimana menentukan data berkualitas tinggi juga menjadi masalah, dan belum ada jawaban yang jelas. Jika saya kembali ke akademisi sekarang, saya pasti akan menulis makalah tentang itu, karena saya belum tahu apa-apa tentang itu.
Swyx: Saya belum melihat makalah penelitian tentang ini sejauh ini.
Jonathan: Pertanyaan sentral dari penelitian tesis ini adalah "kombinasi kumpulan data seperti apa yang harus digunakan".
Dalam proses pembuatan model, saya kembali ke Sekolah Hukum Georgetown, tempat saya mengajar, dan duduk bersama sekelompok mahasiswa hukum untuk mendiskusikannya. Saya memberi mereka kumpulan data berkualitas tinggi, cara menggabungkan data, dan jumlah token yang mereka miliki, dan membiarkan mereka membuat kumpulan data terbaik untuk model mereka.
Mereka tidak tahu apa-apa tentang LLM selain data input yang memengaruhi perilaku. Saya memberi tahu mereka untuk membuat hibrida yang mencakup semua pengorbanan yang berbeda. Pada awalnya, sejumlah besar korpus bahasa Inggris mungkin diperlukan, yang dapat diperoleh melalui Internet; jika Anda ingin menjadikannya model multibahasa, maka korpus bahasa Inggris akan banyak berkurang; selain itu, apakah akan memasukkan kode ke dalam dia.
Beberapa orang berpikir bahwa kode dapat membuat model bekerja lebih baik dalam penalaran logis, tetapi saya belum pernah melihat bukti yang mendukung gagasan ini. Meskipun kami memang telah mengembangkan model kode yang sangat baik, apakah model kode tersebut dapat mengarah pada kemampuan penalaran rantai pemikiran yang lebih baik memerlukan penelitian lebih lanjut.
Versi GPT-3 dikatakan dilatih dari novel "The Da Vinci Code", jadi beberapa orang berpikir ini mungkin berguna, tetapi tidak ada bukti; ) akan membantu pelatihan model, tetapi ada juga kurangnya bukti.
Oleh karena itu, kami bereksperimen dengan berbagai campuran data dan menemukan bahwa beberapa campuran data bekerja lebih baik atau lebih buruk daripada yang lain. Misalnya, "The Pile" adalah campuran data yang sangat stabil, tetapi menurut metrik evaluasi, ada campuran data lain yang lebih baik. Selanjutnya saya juga akan menyentuh masalah evaluasi yang sangat penting.
Model T5 awalnya dilatih pada dataset C4, yang bekerja dengan sangat baik. Yang lainnya, termasuk Stella Beaterman dari EleutherAI, menyebutkan ini ketika saya men-tweet tentangnya. Dalam makalah asli pada model T5, metode preprocessing untuk dataset C4 terlihat aneh, dan penulis menghapus semua yang mengandung kata "Java" dari dataset karena mereka tidak menginginkan peringatan terkait Java. Selain itu, mereka menghapus penyertaan kurung kurawal karena mereka tidak ingin penyertaan Java.
Mereka melihat daftar kata-kata buruk dan menghapus konten yang mengandung kata-kata buruk. Namun, daftar kata-kata buruk sebenarnya menyertakan beberapa kata yang sebenarnya tidak buruk, seperti "gay". Namun karena proses pembersihan ini, dataset yang dihasilkan sepertinya tidak ada tandingannya. Dari titik ini, kami tidak tahu apa-apa tentang data.
Faktanya, kami juga menggunakan kumpulan data yang disebut MC4, MC4 dan C4 memiliki preprocessing yang sama, tetapi menambahkan lebih banyak panggilan web (panggilan web), tetapi dibandingkan dengan C4, bagian bahasa Inggris dari MC4 lebih buruk Banyak, karena alasan yang tidak diketahui.
Untuk ini, saya menetapkan dua kriteria:
Pertama-tama, bagian bahasa Inggris setidaknya harus sebagus MC4. Dibandingkan dengan kumpulan data lain yang tersedia, bagian bahasa Inggris dari MC4 lebih baik. Kedua, lakukan semua tentang keragaman data dan pastikan kumpulan data mencakup hal-hal seperti kode, makalah ilmiah, dan Wikipedia, karena orang akan menggunakan model untuk berbagai tugas yang berbeda.
Tapi menurut saya, yang terpenting, modelnya hanya sebagus metrik evaluasi. Abhi mungkin tidak setuju dengan hal ini. Kami tidak tahu bagaimana mengevaluasi model generatif secara akurat ketika diminta untuk melakukan tugas tertentu. Dalam beberapa kasus, kami harus mengakui bahwa penilaian kami sendiri bahkan tidak mengukur apa yang benar-benar kami pedulikan, jadi kami hanya dapat membuat pilihan yang masuk akal.
Swyx: Apakah menurut Anda metode evaluasi seperti MMLU (Massive Multitask Language Understanding) dan BIG-bench tidak cukup meyakinkan?
Jonathan: Metode ini pasti melakukan dua jenis tugas. Salah satunya adalah tugas pilihan ganda, yang berisi satu jawaban yang benar, yang memungkinkan model menghasilkan opsi seperti A, B, C, atau D, dan kemudian memilih jawaban yang paling mungkin dihasilkan model dengan menghitung kebingungan dari setiap kemungkinan jawaban. Tapi alih-alih meminta model untuk melakukan pertanyaan pilihan ganda, kami melakukan jenis tugas generatif terbuka jenis kedua, seperti meringkas. Membandingkan menggunakan metrik seperti BLEU dan ROUGE tidak cukup akurat, ada banyak abstrak kertas yang bagus dan metode pembuatan terbuka. Sebaliknya, manual adalah standar evaluasi yang lebih andal, tetapi evaluasi manual sangat memakan waktu dan tenaga, dan tidak dapat dibandingkan dengan model secara real time, yang mungkin dapat dilakukan di masa mendatang.
Abhinav: Kami memiliki tim evaluasi hebat yang membantu kami membuat metrik baru.
Jonathan: Namun LLM sulit untuk dievaluasi, dan menurut saya metrik ini tidak benar-benar mencerminkan apa yang diharapkan dari model dalam praktiknya.
Pengurangan biaya dan peningkatan efisiensi pelatihan model
Swyx: Sekarang orang membutuhkan waktu tiga hingga sepuluh hari untuk melatih seorang model, berapa lama Anda ingin mempersingkat waktu tersebut?
Abhinav: Tahun ini mungkin merupakan salah satu tahun paling menarik dalam hal peningkatan efisiensi pelatihan model mentah. Tahun ini, perangkat keras dan perangkat lunak telah ditingkatkan, yang pertama adalah H100 perangkat keras generasi baru Nvidia, yang dapat meningkatkan kinerja setidaknya dua kali lipat. Kedua, ada format angka floating-point baru FP8, yang dapat mencapai peningkatan kinerja yang sama saat digunakan sendiri.
Beberapa tahun lalu, kami mulai menggunakan presisi 32-bit, lalu Nvidia memperkenalkan presisi 16-bit. Setelah beberapa tahun pengembangan, kami secara bertahap menguasai keterampilan pelatihan 16-bit karena peningkatan persyaratan yang berkelanjutan.
Dengan FP8 tahun ini, kami dapat menggandakan throughput, yang berarti kami dapat melipatgandakan biaya. Pada saat yang sama, kami telah memulai pembuatan profil pelatihan LLM menggunakan FP8 pada H100, dan kemajuannya pesat. Jadi, hanya dengan meningkatkan perangkat keras, kita dapat mengurangi banyak biaya.
Selain itu, ada banyak studi tentang aplikasi arsitektur. Kami sedang mencari cara untuk memperkenalkan beberapa sparsity, tetapi bukan sparsity yang sepenuhnya acak. Apakah ada mekanisme gerbang atau cara arsitektur bergaya MoE untuk mencapai ini?
Tujuan awal kami adalah mengurangi biaya pelatihan model GPT-J dari $500.000 menjadi $100.000, dan jika kami dapat mencapainya pada akhir tahun, itu akan menjadi pencapaian yang luar biasa.
Jonathan: Ide ini bukanlah kastil di udara. Meski tahap itu belum tercapai, target tersebut kemungkinan besar akan tercapai pada tahun 2023.
Statistik biaya pelatihan dan inferensi langka. David Patterson dari Google menerbitkan posting blog yang membahas penggunaan energi Google untuk pembelajaran mesin. Setelah analisis mendetail, selama tiga tahun terakhir, Google menghabiskan tiga per lima sumber dayanya untuk inferensi dan dua per lima untuk pelatihan. Di atas adalah data Google, mereka menyediakan model untuk miliaran pengguna.
Google mungkin adalah tempat dengan beban inferensi terbesar di dunia. Dan itu hanya alokasi sumber daya untuk pelatihan, dengan akuntansi inferensi untuk tiga per lima dan pelatihan untuk dua per lima. Perangkat keras mungkin lebih mahal, dan struktur jaringan perangkat keras mungkin lebih kompleks, sehingga pelatihan dan penalaran dapat dibagi menjadi dua. Di atas adalah rasio alokasi Google, tetapi untuk perusahaan lain, pelatihan mungkin memiliki bobot yang lebih tinggi.
Pentingnya keterbukaan untuk penelitian AI
Alessio: Biaya pelatihan sebelumnya sangat mahal, yang menghalangi kami untuk melakukan eksperimen yang cukup banyak, sehingga banyak masalah dalam memilih kumpulan data dan sebagainya.
Jonathan: Di sekolah pascasarjana, saya dulu cemburu pada teman-teman saya karena mereka memiliki GPU dan saya tidak memilikinya di laptop saya, jadi saya tidak bisa melatih model apa pun. Saya berfantasi tentang memenangkan lotre sehingga saya dapat memiliki GPU K80.
Jauh di lubuk hati, saya masih mahasiswa sains yang bersemangat. Saya sangat percaya bahwa jika kita ingin melakukan penelitian ilmiah dan benar-benar memahami sistem ini, bagaimana membuatnya bekerja dengan baik, memahami unsur-unsur perilaku, keamanan, dan keandalannya, kita harus mengurangi biaya pelatihan agar kita benar-benar dapat melakukan penelitian ilmiah. riset. Ambil percobaan biologi, misalnya, di mana kita perlu melakukan banyak kultur sel dan percobaan untuk memastikan obat bekerja, banyak penelitian ilmiah diperlukan sebelum kita benar-benar memahami sesuatu.
**Abhinav:**MosaicML memiliki banyak pelanggan yang mencoba melatih model, sehingga perusahaan terdorong untuk mencurahkan banyak sumber daya dan waktu untuk penelitian ilmiah. Hanya dengan benar-benar memahami bagaimana model harus dilatih, kita dapat membantu lebih banyak orang. Jadi bagi kami, proses agregasi ini sangat penting.
Saya ingat ada makalah dari Google sebelumnya yang menyelidiki ukuran batch atau semacamnya. Makalah ini mungkin menelan biaya jutaan dolar, dan memiliki manfaat besar bagi masyarakat secara keseluruhan. Sekarang, kita semua bisa belajar darinya dan menghemat uang tanpa merusak bank. Oleh karena itu, untuk Mosaic, melalui penelitian eksperimental, kami memperoleh wawasan mendalam tentang data, arsitektur prapelatihan, dll., itulah sebabnya pelanggan memilih kami.
Jonathan: Keterbukaan sangat penting bagi komunitas AI. Dalam artian, kami tidak punya alasan untuk ditutup. Kami mendapatkan penghasilan dengan membantu pelanggan melatih model. Tidak ada ruginya bagi kami untuk berbagi hasilnya dengan komunitas. Lagi pula, kami harus mendapatkan penghasilan melalui model yang disesuaikan dan infrastruktur yang sangat baik. Dan menyatukan aspek-aspek ini adalah alasan kami menamai perusahaan kami MosaicML.
Kami selalu mempertahankan sikap terbuka dan tidak akan menyembunyikan hasil yang telah kami raih. Tapi sekarang, saya menemukan bahwa kami telah menjadi salah satu laboratorium sumber terbuka terbesar di industri, yang merupakan fakta yang menyedihkan, karena MosaicML tidak sebesar industri secara keseluruhan, kami hanya memiliki sekitar 15 peneliti, banyak lainnya Laboratorium telah ditutup dan tidak lagi mempublikasikan banyak konten untuk publik. Namun, MosaicML akan terus berkomunikasi dan berbagi dengan komunitas, serta berusaha sebaik mungkin untuk menjadi pionir penelitian terbuka. Meskipun skala dan volume penelitian kami tidak sebanding dengan laboratorium besar, kami akan terus membagikan apa yang kami pelajari dalam upaya menciptakan sumber daya untuk masyarakat.
Saat saya membahas ekosistem AI dengan pembuat kebijakan, kekhawatiran bersama selalu muncul: kurangnya keterbukaan akan menghambat laju inovasi. Saya telah menekankan masalah ini selama bertahun-tahun, tetapi akhirnya menjadi kenyataan. Saya menganjurkan open source, tetapi saya rasa tidak semua orang akan membagikan karya mereka. Kami pernah menerima open source begitu saja, tapi itu tidak lagi terjadi.
Saya pikir itu akan memperlambat perkembangan kita. Dalam banyak kasus, terdapat budaya monolitik di setiap laboratorium, dan komunikasi merupakan kekuatan pendorong yang penting bagi kemajuan ilmu pengetahuan. Oleh karena itu, open source tidak hanya sangat diperlukan dalam komunitas open source dan akademisi, tetapi juga penting untuk kemajuan teknologi. Kami membutuhkan komunitas riset sumber terbuka yang dinamis.
Tren masa depan
Swyx: Anda menyebutkan bahwa banyak hal yang tidak bertahan lama dan mudah diganti, tetapi Transformer akan tetap ada.
Jonathan: Transformer akan selalu ada. Convolutional Neural Networks (CNNs) masih digunakan sampai sekarang, dan Visual Transformers belum menggantikannya. Lihatlah jaringan saraf berulang (RNN), yang telah ada selama beberapa dekade, tetapi masih aktif di banyak bidang. Akibatnya, implementasi perbaikan infrastruktur besar menjadi sulit.
Abhinav: Menurut saya taruhan Anda sangat bergantung pada apa yang didefinisikan sebagai perhatian. Jika operasi seperti perkalian matriks QK diganti dengan metode serupa, apa pengaruhnya terhadap hasilnya?
Jonathan: Dalam analisis terakhir, ini hanyalah jaringan feedforward yang terhubung sepenuhnya, Transformer dengan mekanisme perhatian sederhana. Jadi hal-hal dapat berubah, tetapi kami terus menggunakan Transformer seperti yang dibayangkan Ashish Vaswani (penulis Transformer) enam tahun lalu, dan mungkin akan terus melakukannya di masa mendatang.
Abhinav: Saya pikir ini akan menjadi mirip dengan MLP (Multilayer Perceptron), yang merupakan satu-satunya pilihan yang kami miliki saat ini, karena sekarang arsitekturnya telah banyak disederhanakan, hanya menyisakan beberapa lapisan linier, koneksi sisa, Perhatian , operasi perkalian titik.
Jonathan: Asumsi Anda adalah bahwa arsitektur akan menjadi lebih sederhana, tetapi kenyataannya mungkin sebaliknya, dan arsitektur dapat menjadi lebih kompleks.
Swyx: Apa pendapat Anda tentang debat baru-baru ini tentang "fenomena yang muncul"?
Abhinav: Saya telah melihat makalah serupa, dan ini mungkin hanya produk sampingan dari teknik evaluasi seperti penskalaan log, metrik evaluasi, dan apa yang kami lakukan sekarang adalah akurasi penyambungan, yang merupakan penilaian biner yang ketat, yaitu. mengklasifikasikan hasil sebagai benar atau salah, tanpa memperhitungkan perbedaan berurutan yang lebih halus.
Namun, mirip dengan poin Jonathan tentang evaluasi, kami juga memiliki masalah dengan keragaman metrik evaluasi: saat kami merilis model ini, bahkan model obrolan, model perintah, orang sering menggunakannya untuk berbagai tugas berbeda. Kami hampir tidak dapat mengukur dan mengevaluasi setiap dimensi dengan tepat sebelumnya, dan bahkan pada skala 7 miliar, model ini masih berkinerja buruk pada beberapa tugas MMLU yang sangat sulit. Kadang-kadang mereka mendapat skor hampir di atas peluang acak, terutama ketika berhadapan dengan tugas yang sangat sulit.
Oleh karena itu, beberapa dari masalah ini mungkin lebih bermanfaat bagi kami saat kami mengejar model dengan kualitas lebih tinggi. Namun, kami mengembangkan MPT-7B sedikit membabi buta karena kami tidak sepenuhnya memahami bagaimana perilaku model pada akhirnya. Itu hanya dapat dikembangkan terhadap sekumpulan kecil tugas inferensi persepsi umum, dan kinerjanya dievaluasi dengan membandingkan metrik ini dengan model sumber terbuka lainnya.
Alessio: Menurut saya inferensi cepat dan pelatihan adalah salah satu tujuannya, jadi ada kompromi antara menyelesaikan tugas yang paling sulit dan cepat dalam tugas lainnya.
Abhinav: Ya. Bahkan pada skala 7 miliar data, orang akan mencoba menjalankannya di CPU di rumah, atau mencoba mem-portingnya ke ponsel mereka, terutama karena aplikasi skala kecil akan mendorong orang untuk mengadopsi teknologi ini, dan ini merupakan tren penting di saat ini.
Alessio: Apa saja hal dalam AI yang bergerak lebih cepat dari yang diharapkan?
Jonathan: Saya ingat ketika GPT-2 dirilis, saya tidak terlalu bersemangat, tetapi saat itu sudah memiliki 1,5 miliar parameter. Karena ukuran model berskala, kinerjanya tidak dapat terus meningkat. Kemudian GPT-3 keluar, dan saya hanya berpikir itu sedikit lebih baik dalam menghasilkan teks, tetapi saya salah lagi dan lagi. Meningkatkan model dapat menghasilkan model yang sangat berguna dengan memprediksi token berikutnya.
Agar adil, kita semua salah tentang ini, jadi kita juga tidak bisa menyalahkan diri sendiri. Jika tidak, Google, Facebook, dan Microsoft Research akan merilis megamodel bahasa pembunuh jauh sebelum saya memiliki kesempatan untuk bertindak. Saya membuat taruhan yang sangat aneh yang ternyata benar: Model difusi, meski agak bodoh, menghasilkan gambar yang sangat indah.
Abhinav: Terkait chatbot dalam skala besar, menurut saya masih lama sebelum ratusan juta orang melakukan percakapan besar-besaran dengan model AI. Dengan begitu banyak perusahaan rintisan dan bisnis yang sekarang tidak hanya menggunakan ChatGPT, tetapi proyek lain seperti pembuatan karakter, sungguh menakjubkan betapa banyak orang yang benar-benar menciptakan hubungan emosional dengan model AI ini. Saya rasa saya tidak akan memperkirakannya pada bulan September atau Oktober tahun lalu. Titik belok yang terjadi dalam enam bulan terakhir benar-benar tidak terduga.
Swyx: Menurut Anda, untuk apa mereka akan digunakan, seperti dukungan emosional?
Abhinav: Beberapa di antaranya untuk dukungan emosional, atau hanya sebagai teman. Kesepian dan masalah kesehatan mental adalah topik hangat. Jika Anda pergi ke subreddit komunitas tersebut, orang-orang membicarakan dan memikirkan tentang teman AI mereka dan karakter ini, itu seperti sesuatu dari fiksi ilmiah, dan saya tidak pernah menyangka hal itu akan terjadi.
Swyx: Apa masalah paling menarik yang belum terpecahkan di AI?
Abhinav: Saya tertarik pada seberapa jauh kita bisa melangkah dalam hal akurasi dan sesuatu seperti BF16/FP16.
Saya bertanya-tanya apakah masalah ini menjadi lebih mudah ditangani seiring bertambahnya ukuran model. Makalah terkait menunjukkan bahwa kuantisasi dan pemangkasan dapat menjadi lebih mudah seiring peningkatan skala. Jadi, sebagai konsekuensi alami dari penskalaan selama beberapa tahun ke depan, kita mungkin beralih menggunakan bobot empat-bit atau dua-bit atau bahkan biner.
Jonathan: Saya ingin melihat cara lain seberapa kecil model yang dapat kami capai, dan seberapa efisien kami dapat mengembangkan model dengan performa yang setara. Ini adalah pertanyaan yang saya kerjakan selama Ph.D. saya, dan dalam arti tertentu, di Mosaic juga. OpenAI telah menunjukkan kepada kita satu jalan menuju kemampuan luar biasa ini, yaitu penskalaan. Tapi saya harap ini bukan satu-satunya cara. Saya harap ada banyak cara lain untuk mencapai ini juga, melalui metode pemodelan yang lebih baik, algoritme yang lebih baik, dll.
Meskipun saya bukan penggemar kiasan ilmu saraf, dalam arti tertentu keberadaan dan otak kita membuktikan bahwa setidaknya ada cara lain untuk mencapai kemampuan luar biasa ini tanpa triliunan parameter atau bahkan parameter astronomi. Jadi saya sangat ingin tahu seberapa kecil model yang bisa kita capai? Apakah ada jalur lain untuk kemampuan ini yang tidak harus mengikuti jalur saat ini? Berharap menemukan jawabannya di Mosaic, jika ada.
Swyx: Tepat sekali, salah satu hal yang paling saya minati adalah fakta bahwa otak manusia hanya mengonsumsi daya 30 watt, dan modelnya jauh dari itu.
Abhinav: Saya rasa tidak ada cara untuk mencapai ini hanya dengan satu GPU atau alat lain.
Alessio: Ada banyak informasi yang beredar saat ini, seperti bagaimana seharusnya pendapat orang tentang kecerdasan buatan? Apa yang harus mereka fokuskan?
Jonathan: Tetap tenang. Beberapa orang menganggap hype terlalu serius; yang lain sangat pesimis, bereaksi keras terhadapnya, atau menyangkalnya sampai batas tertentu. Tetap tenang dan ketahuilah bahwa kami telah membuat alat yang sangat berguna.
Tapi kami belum membangun kecerdasan umum, dan secara pribadi, kami jauh dari tujuan itu. Jadi penting untuk bersikap damai dan mengikuti sains, dan itulah yang diperjuangkan AI Mosaic. Kami mencoba fokus pada hal-hal yang bermanfaat bagi manusia, semoga menciptakan dunia yang lebih baik. Kami akan melakukan yang terbaik, tetapi yang terpenting, kami akan mengikuti sains, dipandu oleh data, dan mencapai tujuan ini melalui hasil nyata, bukan retorika.
Abhinav: Menurut saya, melakukan penelitian di komunitas terbuka memang tiada bandingnya. Di komunitas, tidak hanya banyak orang yang memperhatikan model Anda, tetapi bahkan memberikan pendapatnya tentang masalah model dan cara memperbaikinya. Riset terbuka semacam ini akan menjadi langkah maju, baik untuk menjaga keamanan model kami, maupun untuk mempelajari dampak dan konsekuensi dunia nyata dari model AI ini.