Dengan hingga 4 juta konteks token dan inferensi 22 kali lebih cepat, StreamingLLM menjadi populer dan menerima 2,5 ribu bintang di GitHub.

Editor: Saus Telur

Jika Anda pernah berkomunikasi dengan robot AI percakapan apa pun, Anda pasti dapat mengingat beberapa momen yang sangat "membuat frustrasi". Misalnya, poin-poin penting yang Anda sebutkan dalam percakapan sehari sebelumnya benar-benar dilupakan oleh AI...

Hal ini karena sebagian besar LLM saat ini hanya dapat mengingat konteks yang terbatas, seperti halnya siswa yang belajar keras untuk ujian, kaki mereka akan terlihat setelah sedikit ditanya.

Bayangkan jika asisten AI dalam obrolan dapat mereferensikan percakapan dari minggu atau bulan yang lalu secara kontekstual, atau jika Anda dapat meminta asisten AI tersebut untuk meringkas laporan sepanjang ribuan halaman.

Untuk membuat LLM mengingat lebih banyak dan lebih baik, para peneliti terus bekerja keras. Baru-baru ini, peneliti dari MIT, Meta AI, dan CMU mengusulkan metode yang disebut "StreamingLLM" untuk memungkinkan model bahasa memproses teks tanpa akhir dengan lancar.

* Alamat kertas: *alamat proyek:

Prinsip kerja StreamingLLM adalah untuk mengidentifikasi dan menyimpan token awal yang ditambatkan oleh "penyerap perhatian" yang melekat pada model untuk alasannya. Dikombinasikan dengan rolling cache token terbaru, StreamingLLM mempercepat inferensi sebanyak 22 kali lipat tanpa mengorbankan akurasi apa pun. Hanya dalam beberapa hari, proyek ini telah memperoleh 2,5 ribu bintang di platform GitHub:

Secara khusus, StreamingLLM memungkinkan model bahasa untuk secara akurat mengingat skor touchdown dari pertandingan terakhir, nama bayi yang baru lahir, kontrak yang panjang atau isi perdebatan, seperti memori asisten AI yang telah ditingkatkan untuk menangani dengan sempurna beban kerja yang lebih berat.kerja.

Selanjutnya mari kita lihat detail teknisnya.

Inovasi Metode

Biasanya, LLM dibatasi oleh jendela perhatian saat dilatih sebelumnya. Meskipun banyak pekerjaan sebelumnya telah dilakukan untuk memperluas ukuran jendela ini dan meningkatkan efisiensi pelatihan dan inferensi, panjang urutan LLM yang dapat diterima masih terbatas, sehingga tidak cocok untuk penerapan yang persisten.

Dalam makalah ini, para peneliti pertama kali memperkenalkan konsep aplikasi streaming LLM dan mengajukan pertanyaan: "Dapatkah LLM diterapkan dengan input yang sangat panjang tanpa mengorbankan efisiensi dan kinerja?"

Ada dua tantangan utama saat menerapkan LLM pada aliran masukan yang panjangnya tak terhingga:

  1. Selama fase decoding, LLM berbasis transformator menyimpan status Kunci dan Nilai (KV) dari semua token sebelumnya, seperti yang ditunjukkan pada Gambar 1 (a), yang dapat menyebabkan penggunaan memori berlebihan dan meningkatkan latensi decoding;

  2. Kemampuan ekstrapolasi panjang model yang ada terbatas, yaitu ketika panjang urutan melebihi ukuran jendela perhatian yang ditetapkan selama pra-pelatihan, kinerjanya akan menurun.

Metode intuitif disebut Window Attention (Gambar 1 b). Metode ini hanya mempertahankan jendela geser berukuran tetap pada status KV dari token terbaru, meskipun dapat memastikan bahwa Ini dapat mempertahankan penggunaan memori dan kecepatan decoding yang stabil, tetapi setelah panjang urutan melebihi ukuran cache, atau bahkan hanya mengeluarkan KV dari token pertama, model akan diciutkan. Metode lainnya adalah dengan menghitung ulang jendela geser (ditunjukkan pada Gambar 1 c). Metode ini akan merekonstruksi status KV dari token terkini untuk setiap token yang dihasilkan. Meskipun kinerjanya kuat, hal ini memerlukan perhitungan perhatian sekunder di dalam jendela. hasilnya jauh lebih lambat, yang tidak ideal dalam aplikasi streaming nyata.

Dalam proses memahami kegagalan perhatian jendela, peneliti menemukan fenomena menarik dari LLM autoregresif: seperti yang ditunjukkan pada Gambar 2, sejumlah besar skor perhatian ditetapkan ke token awal, terlepas dari apakah token ini terkait dengan tugas pemodelan bahasa . .

Para peneliti menyebut tanda-tanda ini sebagai "kumpulan perhatian": meskipun tidak memiliki makna semantik, tanda-tanda tersebut menempati banyak titik perhatian. Para peneliti mengaitkan fenomena ini dengan Softmax (yang mengharuskan jumlah skor perhatian semua token konteks adalah 1). Bahkan jika kueri saat ini tidak memiliki kecocokan yang kuat di antara banyak token sebelumnya, model masih perlu mengalihkan perhatian yang tidak diperlukan ini. Nilai ditugaskan di suatu tempat sehingga jumlahnya menjadi 1. Alasan mengapa token awal menjadi "kumpulan" bersifat intuitif: karena karakteristik pemodelan bahasa autoregresif, token awal terlihat oleh hampir semua token berikutnya, yang membuatnya lebih mudah untuk dilatih sebagai kumpulan perhatian.

Berdasarkan wawasan di atas, para peneliti mengusulkan StreamingLLM, kerangka kerja sederhana dan efisien yang memungkinkan model perhatian dilatih menggunakan jendela perhatian terbatas untuk memproses teks yang sangat panjang tanpa penyesuaian.

StreamingLLM memanfaatkan fakta bahwa kumpulan perhatian memiliki nilai perhatian yang tinggi, dan mempertahankan kumpulan perhatian ini dapat membuat distribusi skor perhatian mendekati distribusi normal. Oleh karena itu, StreamingLLM hanya perlu mempertahankan nilai KV dari token kumpulan perhatian (cukup 4 token awal) dan nilai KV dari jendela geser untuk mengaitkan penghitungan perhatian dan menstabilkan kinerja model.

Menggunakan StreamingLLM, model termasuk Llama-2-[7,13,70] B, MPT-[7,30] B, Falcon-[7,40] B dan Pythia [2.9,6.9,12] B dapat disimulasikan dengan andal 4 juta token atau bahkan lebih.

Dibandingkan dengan satu-satunya dasar yang layak, menghitung ulang jendela geser, StreamingLLM 22,2 kali lebih cepat tanpa mengorbankan kinerja.

Evaluasi

Dalam sesi eksperimental, seperti yang ditunjukkan pada Gambar 3, pada teks yang mencakup 20 ribu token, kerumitan StreamingLLM sebanding dengan garis dasar Oracle (menghitung ulang jendela geser). Pada saat yang sama, ketika panjang input melebihi jendela pra-pelatihan, perhatian padat akan gagal, dan ketika panjang input melebihi ukuran cache, perhatian jendela akan mendapat masalah, menyebabkan token awal dihilangkan.

Gambar 5 semakin menegaskan bahwa StreamingLLM dapat menangani teks dengan ukuran yang tidak biasa secara andal, termasuk lebih dari 4 juta token, yang mencakup berbagai kelompok model dan ukuran. Ini termasuk Llama-2-[7,13,70] B, Falcon-[7,40] B, Pythia-[2.8,6.9,12] B dan MPT-[7,30] B.

Selanjutnya, para peneliti mengkonfirmasi hipotesis "kumpulan perhatian" dan membuktikan bahwa model bahasa dapat dilatih sebelumnya dan hanya memerlukan token kumpulan perhatian selama penerapan streaming. Secara khusus, mereka merekomendasikan penambahan token tambahan yang dapat dipelajari di awal semua sampel pelatihan sebagai kumpulan perhatian yang ditunjuk. Dengan melakukan pra-pelatihan model bahasa dengan 160 juta parameter dari awal, para peneliti menunjukkan bahwa metode ini dapat mempertahankan performa model. Hal ini sangat kontras dengan model bahasa saat ini, yang memerlukan pengenalan kembali beberapa token awal sebagai kumpulan perhatian untuk mencapai tingkat kinerja yang sama.

Terakhir, para peneliti membandingkan latensi decoding dan penggunaan memori StreamingLLM dengan jendela geser komputasi ulang dan mengujinya pada satu GPU NVIDIA A6000 menggunakan model Llama-2-7B dan Llama-2-13B. Seperti yang ditunjukkan pada Gambar 10, seiring bertambahnya ukuran cache, kecepatan decoding StreamingLLM meningkat secara linier. Penundaan penguraian kode yang terakhir meningkat dalam kurva kuadrat. Eksperimen telah membuktikan bahwa StreamingLLM mencapai kecepatan yang mengesankan, dengan kecepatan setiap token meningkat hingga 22,2 kali lipat.

Untuk rincian penelitian lebih lanjut, silakan merujuk ke makalah asli.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)