Solusi yang baru-baru ini diusulkan oleh para peneliti di Princeton University dan Meta AI adalah memikirkan LLM sebagai agen interaktif yang memungkinkannya memutuskan cara membaca teks melalui petunjuk berulang.
Alamat kertas:
Mereka merancang sistem yang disebut MemWalker yang dapat memproses konteks panjang menjadi pohon node ringkasan.
Ketika kueri diterima, model dapat mengambil pohon simpul ini untuk menemukan informasi yang relevan dan merespons ketika telah mengumpulkan informasi yang cukup. Dalam tugas menjawab pertanyaan teks panjang, metode ini secara signifikan lebih baik daripada metode dasar menggunakan jendela konteks panjang, rekursi, dan pengambilan.
LeCun juga men-tweet dukungan untuk penelitian mereka.
MemWalker terdiri dari dua bagian utama:
Pertama, Anda perlu membangun pohon memori:
Potong teks panjang menjadi node ringkasan. Node rollup selanjutnya diringkas menjadi node tingkat yang lebih tinggi, dan akhirnya mencapai root.
Bagian kedua adalah Navigasi:
Setelah menerima kueri, LLM menavigasi melalui pohon untuk menemukan informasi yang relevan dan merespons dengan tepat. LLM menyelesaikan proses ini melalui penalaran - mungkin bekerja untuk menemukan jawaban, memilih untuk melangkah lebih jauh ke satu jalur, atau menemukan dirinya salah arah dan menarik kembali dengan cara yang sama.
Proses navigasi ini dapat diimplementasikan dengan petunjuk nol-sampel dan mudah disesuaikan dengan salah satu model bahasa besar yang ditentukan.
Tim peneliti menunjukkan bahwa dengan pembacaan interaktif pohon memori yang dibangun oleh model ini, MemWalker mengungguli garis dasar konteks panjang lainnya dan varian pengambilan dan loop, terutama untuk contoh yang lebih panjang.
Efektivitas MemWalker tergantung pada dua bagian penting:
Ukuran memori kerja - LLM memiliki kemampuan konteks global yang lebih baik ketika memungkinkan LLM untuk memperoleh lebih banyak informasi di sepanjang jalur yang diambilnya.
2) Kemampuan penalaran LLM - Ketika LLM mencapai ambang inferensi, MemWalker efektif. Ketika kemampuan inferensi berada di bawah ambang batas, tingkat kesalahan selama navigasi tinggi.
MEMWALKER: PEMBACA INTERAKTIF**
Tim peneliti menyelidiki tugas-tugas yang terkait dengan jawaban pertanyaan konteks panjang - mengingat teks panjang x dan kueri q, tujuan dari model ini adalah untuk menghasilkan respons r.
MEMWALKER MENGIKUTI DUA LANGKAH:
Konstruksi pohon memori, di mana konteks panjang dibagi menjadi struktur data berbentuk pohon. Konstruksi ini tidak bergantung pada kueri, jadi jika ada data urutan sebelumnya, itu dapat dihitung terlebih dahulu.
Navigasi, di mana model menavigasi struktur ini ketika menerima kueri, mengumpulkan informasi untuk merumuskan respons yang tepat.
MEMWALKER mengasumsikan akses ke LLM yang mendasarinya dan mengimplementasikan build dan navigasi dengan iterasi pada prompt LLM.
Navigasi
Setelah menerima kueri Q, model bahasa dihapus dari simpul akar
Mulai menavigasi pohon untuk menghasilkan respons.
Node yang dilalui dalam LLM
, mengamati tingkat node berikutnya
Ringkasan .
LLM memutuskan dalam
+ Pilih salah satu dari 1 tindakan - Pilih node turunan untuk pemeriksaan lebih lanjut, atau kembali ke node induk.
Di simpul daun
LLM dapat memutuskan salah satu dari dua tindakan: mengirimkan simpul daun dan menanggapi kueri, atau jika simpul daun berisi informasi
(yaitu
) tidak cukup, kembali ke simpul induk
。
Untuk membuat keputusan navigasi, tim peneliti juga dapat meminta LLM untuk terlebih dahulu menghasilkan pembenaran dalam bahasa alami dengan mendorong tindakan, diikuti oleh pilihan tindakan itu sendiri.
Secara khusus, pada setiap node, model menghasilkan respons r ∼ LLM (r | s, q), di mana responsnya adalah salah satu dari dua tupel: 1) r = (penalaran, tindakan, jawaban) ketika LLM berada dalam simpul daun atau 2) r = (penalaran, tindakan) ketika LLM berada dalam simpul non-daun.
** Desain Tips Navigasi **
Tim peneliti mengaktifkan navigasi LLM dengan petunjuk nol-sampel. Ada dua jenis tips yang Anda butuhkan:
Ujung triase dan 2) ujung daun (disorot pada tabel di bawah).
Prompt triase berisi kueri, ringkasan node anak, dan instruksi yang harus diikuti LLM. Ujung triase digunakan untuk simpul non-daun.
Prompt daun berisi konten paragraf, kueri (dan opsi), dan instruksi yang memerlukan LLM untuk menghasilkan jawaban atau kembali ke node induk.
Baik tip triase dan tip daun menentukan format output yang harus diikuti LLM. Kegagalan untuk mematuhi format menghasilkan tindakan yang tidak valid dan LLM perlu diregenerasi. Jika LLM gagal menghasilkan output yang dapat diselesaikan tiga kali berturut-turut, navigasi berakhir dan mengembalikan "Tidak Ada Jawaban".
** Memori Kerja **
Ketika LLM selesai mengambil pohon, ia dapat menyimpan informasi di jalur navigasi dan menambahkannya ke konteks.
Tepatnya, LLM menghasilkan respons r ∼ LLM (r | s, q, m) dengan memori kerja tambahan
Kosong atau berisi konten dari node yang dikunjungi sebelumnya.
Tim peneliti memotong memori kerja sehingga bisa masuk ke jendela konteks LLM.
TABEL DI ATAS JUGA MENUNJUKKAN CARA MENAMBAHKAN MEMORI KERJA KE PROMPT MELALUI MEMORI KERJA.
** Konfigurasi eksperimental **
** Dataset dan Penilaian **
Tim peneliti menggunakan tiga dataset: QuALITY, SummScreenFD, dan GovReport, yang berasal dari tolok ukur SCROLLS. Tim peneliti menunjukkan keakuratan semua dataset.
Kualitas
QuALITY adalah kumpulan data pertanyaan dan jawaban pilihan ganda.
Dataset berisi cerita bentuk panjang dari Project Gutenberg dan pertanyaan yang dianotasi oleh annotator manusia. Tim peneliti bereksperimen menggunakan subset dari 187 contoh.
SummScreenFD
SummScreenFD adalah kumpulan data skrip TV dan film yang awalnya dirancang untuk diringkas.
Naskah-naskah ini disajikan dalam bentuk dialog antar aktor. Tim peneliti mengubah dataset ini menjadi tugas tanya jawab, di mana teks ringkasan dasar yang jujur yang disediakan mentah digunakan untuk menghasilkan pertanyaan "siapa" menggunakan Stable Beluga 2, yang kemudian diperiksa oleh seorang ahli manusia.
Pertanyaan yang dipasangkan dengan teks panjang asli menjadi 306 contoh tugas QA yang diposisikan ulang.
Laporan Pemerintah
Himpunan data GovReport menyatukan dokumen dari Layanan Penelitian Kongres dan Kantor Akuntabilitas Pemerintah AS, serta ringkasan yang diberikan oleh para ahli.
Tim peneliti mengubah dataset ini menjadi dataset tanya-jawab dengan 101 contoh dengan cara yang sama seperti SummScreenFD.
Ketiga dataset dicirikan oleh konteks panjang dengan panjang yang berbeda, beberapa contoh yang lebih pendek dan beberapa urutan yang lebih panjang.
Oleh karena itu, tim peneliti mempresentasikan hasil pada dataset asli dan pada subset dari urutan yang lebih panjang yang terkandung dalam setiap tugas untuk menilai akses memori dengan lebih baik dalam situasi konteks yang lebih sulit dan lebih lama.
Ambang batasnya adalah 8.000 token QuALITY, 6.000 token SummScreenFD, dan 12.000 token GovReport.
Pola
Tim peneliti menggunakan Stable Beluga 2 sebagai basis LLM di sebagian besar eksperimen mereka karena menawarkan kinerja canggih dibandingkan dengan beberapa varian LLM lainnya, yang akan ditunjukkan oleh tim peneliti.
Stable Beluga 2 adalah model penyetelan instruksi berbasis 70B LLaMA-2 di mana fine-tuning tidak tumpang tindih dengan tugas evaluasi tim peneliti.
Ini memiliki panjang konteks maksimum 4.096 token. Tim peneliti menggunakan model dengan cara zero-shot tanpa penyesuaian lebih lanjut atau memberikan sejumlah kecil contoh tugas tim peneliti dalam konteks.
Tim peneliti menggunakan top p-sampling untuk konstruksi pohon memori serta tindakan dan inferensi untuk menghasilkan navigasi.
Tim peneliti menetapkan jumlah maksimum node untuk QuALITY, SummScreenFD, dan GovReport, maxt Mt = 8, 5, 8, dan ukuran segmen|c|, masing-masing = 1000, 1000, 1200。
Patokan
Tim peneliti membandingkan tiga teknologi memori berdasarkan LLM dasar yang sama dengan Stable Beluga 2:
Jendela konteks penuh
Rekursi
Pengambilan
Garis besar jendela konteks lengkap menggunakan semua 4.096 token untuk memproses teks dan pembuatan input yang panjang. Karena contoh dalam dataset sering melebihi batas konteks, tim peneliti memotong panjangnya, mengambil kanan (terdekat) atau kiri (paling tidak dekat) dari teks sebagai input, dan mengevaluasi kedua metode.
Untuk pencarian, tim peneliti menggunakan Contriever (Izacard et al., 2022) untuk memilih paragraf dari konteks panjang berdasarkan kueri. Bagian-bagian dengan skor tertinggi digabungkan ke dalam konteks input LLM sampai mereka mengisi konteks.
Akhirnya, tim peneliti menerapkan baseline yang loop melalui intisari ke paragraf informasi saat ini dari token paragraf sebelumnya, di mana setiap paragraf adalah 2.500 token dan ukuran abstrak maksimum adalah 500 token.
Hasil & Analisis
** Key Results **
Tabel 2 di bawah ini menunjukkan perbandingan antara MEMWALKER dan baseline lainnya.
MEMWALKER SECARA SIGNIFIKAN MELEBIHI GARIS DASAR REKURSIF DALAM SEMUA TUGAS.
Ini menunjukkan batasan rekursi, di mana informasi yang relevan untuk kueri hilang setelah beberapa langkah.
MEMWALKER JUGA MELAMPAUI PENCARIAN, DI MANA BAGIAN-BAGIAN BERASAL DARI CERITA BENTUK PANJANG YANG KOHEREN DARIPADA DOKUMEN TERPISAH.
Dalam tugas ini, garis besar konteks lengkap dapat berkinerja baik dalam pengaturan tugas "mentah", yang mungkin berisi urutan yang relatif singkat, meskipun memilih pemotongan kiri atau kanan untuk kinerja terbaik tampaknya bergantung pada himpunan data.
Namun, dengan pengecualian variabel hold-right pada QuALITY dan variabel hold-left pada GovReport, MEMWALKER mencapai kinerja yang lebih tinggi dalam pengaturan asli daripada baseline konteks penuh, yang mungkin disebabkan oleh bias posisi dalam dataset, di mana paragraf yang relevan biasanya muncul di awal atau akhir teks.
NAMUN, PADA VERSI PANJANG DARI KETIGA TUGAS, MEMWALKER MELAMPAUI SEMUA BASELINE, YAITU MENUNJUKKAN KINERJA YANG KUAT KARENA AKSES MEMORI MENJADI LEBIH PENTING.
MEMWALKER juga melampaui model lain yang tersedia untuk umum, termasuk LongChat dan MPT.
MEMWALKER meningkatkan kinerja pada urutan panjang. Tim peneliti memberikan rincian kinerja dari panjang urutan input untuk setiap tugas pada Gambar 2 di atas.
KETIKA PANJANG TEKS LEBIH PENDEK, MEMWALKER LEBIH RENDAH DARIPADA GARIS DASAR KONTEKS PENUH (PEMOTONGAN KIRI ATAU KANAN), TETAPI MENGUNGGULI KEDUA JENIS PEMOTONGAN PADA URUTAN YANG LEBIH PANJANG UNTUK SEMUA TUGAS.
Manfaat membaca interaktif adalah bahwa peningkatan yang tepat dalam panjang teks menjadi jelas, yaitu kinerja yang lebih baik ditunjukkan setelah panjang urutan secara signifikan lebih besar dari 4.096 panjang konteks LLM.
Inferensi sangat penting untuk navigasi pohon memori.
EFEKTIVITAS MEMWALKER SANGAT TERGANTUNG PADA KEMAMPUAN PENALARAN LLM YANG MENDASARINYA. Untuk setiap keputusan navigasi, tim peneliti menggunakan prompt LLM yang meminta LLM untuk terlebih dahulu menghasilkan pembenaran dalam bahasa alami untuk membenarkan tindakan yang diprediksi berikutnya, seperti yang ditunjukkan pada Tabel 1 di bawah ini.
Tim peneliti menunjukkan pada Tabel 3 di bawah ini bagaimana penalaran mempengaruhi kinerja dengan membandingkan Llama 2 Chat (varian parameter 13B dan 70B) dengan Stable Beluga 2 (70B) dan dengan menghapus baris "Berikan alasan sebelum membuat keputusan ..." dari prompt.
Untuk model yang lebih kecil dan kurang mampu (13B), performa tertinggal secara signifikan di belakang model 70B karena ketidakmampuan untuk mengikuti instruksi. Bahkan, membutuhkan pembenaran inferensi untuk model yang lebih lemah dapat menurunkan kinerja, mungkin karena mereka tidak dapat menghasilkan dan memanfaatkan pembenaran tersebut.
Stable Beluga 2 mengungguli Llama 2 Chat dengan ukuran LLM yang sama dan juga menunjukkan kemampuan penalaran yang ditingkatkan.
Untuk Stable Beluga 2, membutuhkan pembenaran penalaran dalam semua tugas meningkatkan kinerja. INI MENYOROTI FITUR UTAMA MEMWALKER: JIKA LLM MELEWATI AMBANG KEMAMPUAN PENALARAN KRITIS, LLM DAPAT BERALASAN TENTANG INPUT PANJANG DI BEBERAPA PUTARAN TANPA DENGAN CEPAT MENGHASILKAN KESALAHAN DI ANTARA PUTARAN.
Untuk LLM lemah yang gagal membuat keputusan navigasi yang baik, kesalahan dapat menumpuk dan kinerja keseluruhan terganggu.
KARENA KEMAMPUAN PENALARAN LLM TERUS MENINGKAT DI TAHUN-TAHUN MENDATANG, TIM PENELITI MENGHARAPKAN METODE SEPERTI MEMWALKER MENJADI LEBIH EFEKTIF.
Memori kerja diperlukan untuk menavigasi pohon memori. KETIKA MEMWALKER MEMBUAT KEPUTUSAN UNTUK MELINTASI POHON MEMORI DAN MEMBACA PARAGRAF TERKAIT, IA MUNGKIN KEHILANGAN PENGETAHUAN TENTANG KONTEKS KESELURUHAN.
Oleh karena itu, model membawa informasi dari node di sepanjang jalur navigasi sebagai memori kerja, di mana konten memori kerja diperbarui ketika model memilih jalur berikutnya.
TIM PENELITI MENGEVALUASI KINERJA MEMWALKER DENGAN ATAU TANPA MEMORI KERJA, DAN HASILNYA DITUNJUKKAN PADA GAMBAR 3 DI BAWAH INI.
Tim peneliti menemukan bahwa kelelahan memori kerja mengakibatkan penurunan kinerja yang signifikan di semua tugas, dengan penurunan akurasi 5-13%, menunjukkan pentingnya komponen ini.
MEMWALKER dapat pulih dari jalan yang salah.
KETIKA MEMWALKER MENAVIGASI POHON MEMORI, IA TIDAK HANYA PERLU MENEMUKAN JALURNYA KE PARAGRAF YANG PALING RELEVAN, TETAPI MUNGKIN JUGA PERLU PULIH DARI SEMUA KESALAHAN PENGAMBILAN.
Tim peneliti menyajikan statistik pemulihan pada Tabel 4 di bawah ini. MEMWALKER melakukan operasi navigasi pemulihan (dan karena itu mengubah jalur) pada sekitar 15% - 20% sampel, tetapi dalam contoh ini dimungkinkan untuk memulihkan dan mendapatkannya dengan benar di QuALITY, 60% untuk SummScreenFD, dan ∼ 80% untuk GovReport.
MEMWALKER memungkinkan pembacaan yang efisien. KARENA MEMWALKER MENENTUKAN BAGIAN MANA DARI TEKS PANJANG YANG PERLU DIBACA, MUATAN YANG PERLU DIBACA MUNGKIN LEBIH KECIL DARI KESELURUHAN URUTAN.
Tim peneliti menunjukkan rata-rata persentase pembacaan konteks panjang untuk semua contoh, seperti yang ditunjukkan pada Gambar 4 di bawah ini untuk masing-masing dari tiga tugas. Tim peneliti menemukan bahwa, rata-rata, hanya 63-69% dari teks yang perlu dibaca untuk menjawab pertanyaan, termasuk isi simpul pohon.
Di jalan menuju kesuksesan, pembacaan yang diperlukan selanjutnya dikurangi menjadi 59% – 64%.
Trade-off untuk konstruksi pohon memori
Ketika tim peneliti membangun pohon memori, trade-off mendasar muncul - meringkas paragraf yang lebih besar menjadi node untuk mengurangi kedalaman pohon, tetapi berpotensi kehilangan keakuratan konten.
Demikian pula, menghubungkan banyak node tingkat rendah ke node di atas dapat membantu meratakan pohon, tetapi dapat membuat tugas navigasi LLM pada setiap node lebih sulit.
Gambar 5 di bawah ini menunjukkan kinerja konfigurasi yang berbeda dari pohon memori pada QuALITY. Meringkas paragraf yang lebih besar seringkali lebih bermanfaat daripada meringkas paragraf yang lebih kecil dan menghubungkan lebih banyak node anak ke node induk.
Namun, kinerja stabil karena jumlah maksimum node meningkat, menunjukkan trade-off dari berapa banyak informasi yang dapat dikemas ke dalam node selama konstruksi pohon memori.
Sumber daya:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Meta Princeton mengusulkan solusi pamungkas untuk konteks LLM! Biarkan model menjadi agen otonom dan baca pohon simpul konteks dengan sendirinya
Sumber asli: Shin Ji Yuan
Apa solusi utama untuk model konteks panjang LLM?
Solusi yang baru-baru ini diusulkan oleh para peneliti di Princeton University dan Meta AI adalah memikirkan LLM sebagai agen interaktif yang memungkinkannya memutuskan cara membaca teks melalui petunjuk berulang.
Mereka merancang sistem yang disebut MemWalker yang dapat memproses konteks panjang menjadi pohon node ringkasan.
Ketika kueri diterima, model dapat mengambil pohon simpul ini untuk menemukan informasi yang relevan dan merespons ketika telah mengumpulkan informasi yang cukup. Dalam tugas menjawab pertanyaan teks panjang, metode ini secara signifikan lebih baik daripada metode dasar menggunakan jendela konteks panjang, rekursi, dan pengambilan.
LeCun juga men-tweet dukungan untuk penelitian mereka.
Pertama, Anda perlu membangun pohon memori:
Potong teks panjang menjadi node ringkasan. Node rollup selanjutnya diringkas menjadi node tingkat yang lebih tinggi, dan akhirnya mencapai root.
Setelah menerima kueri, LLM menavigasi melalui pohon untuk menemukan informasi yang relevan dan merespons dengan tepat. LLM menyelesaikan proses ini melalui penalaran - mungkin bekerja untuk menemukan jawaban, memilih untuk melangkah lebih jauh ke satu jalur, atau menemukan dirinya salah arah dan menarik kembali dengan cara yang sama.
Efektivitas MemWalker tergantung pada dua bagian penting:
Tim peneliti menyelidiki tugas-tugas yang terkait dengan jawaban pertanyaan konteks panjang - mengingat teks panjang x dan kueri q, tujuan dari model ini adalah untuk menghasilkan respons r.
MEMWALKER MENGIKUTI DUA LANGKAH:
Konstruksi pohon memori, di mana konteks panjang dibagi menjadi struktur data berbentuk pohon. Konstruksi ini tidak bergantung pada kueri, jadi jika ada data urutan sebelumnya, itu dapat dihitung terlebih dahulu.
Navigasi, di mana model menavigasi struktur ini ketika menerima kueri, mengumpulkan informasi untuk merumuskan respons yang tepat.
MEMWALKER mengasumsikan akses ke LLM yang mendasarinya dan mengimplementasikan build dan navigasi dengan iterasi pada prompt LLM.
Navigasi
Setelah menerima kueri Q, model bahasa dihapus dari simpul akar
Node yang dilalui dalam LLM
LLM memutuskan dalam
Di simpul daun
(yaitu
Untuk membuat keputusan navigasi, tim peneliti juga dapat meminta LLM untuk terlebih dahulu menghasilkan pembenaran dalam bahasa alami dengan mendorong tindakan, diikuti oleh pilihan tindakan itu sendiri.
Secara khusus, pada setiap node, model menghasilkan respons r ∼ LLM (r | s, q), di mana responsnya adalah salah satu dari dua tupel: 1) r = (penalaran, tindakan, jawaban) ketika LLM berada dalam simpul daun atau 2) r = (penalaran, tindakan) ketika LLM berada dalam simpul non-daun.
** Desain Tips Navigasi **
Tim peneliti mengaktifkan navigasi LLM dengan petunjuk nol-sampel. Ada dua jenis tips yang Anda butuhkan:
Prompt daun berisi konten paragraf, kueri (dan opsi), dan instruksi yang memerlukan LLM untuk menghasilkan jawaban atau kembali ke node induk.
Baik tip triase dan tip daun menentukan format output yang harus diikuti LLM. Kegagalan untuk mematuhi format menghasilkan tindakan yang tidak valid dan LLM perlu diregenerasi. Jika LLM gagal menghasilkan output yang dapat diselesaikan tiga kali berturut-turut, navigasi berakhir dan mengembalikan "Tidak Ada Jawaban".
** Memori Kerja **
Ketika LLM selesai mengambil pohon, ia dapat menyimpan informasi di jalur navigasi dan menambahkannya ke konteks.
Tepatnya, LLM menghasilkan respons r ∼ LLM (r | s, q, m) dengan memori kerja tambahan
Tim peneliti memotong memori kerja sehingga bisa masuk ke jendela konteks LLM.
TABEL DI ATAS JUGA MENUNJUKKAN CARA MENAMBAHKAN MEMORI KERJA KE PROMPT MELALUI MEMORI KERJA.
** Konfigurasi eksperimental **
** Dataset dan Penilaian **
Tim peneliti menggunakan tiga dataset: QuALITY, SummScreenFD, dan GovReport, yang berasal dari tolok ukur SCROLLS. Tim peneliti menunjukkan keakuratan semua dataset.
Kualitas
QuALITY adalah kumpulan data pertanyaan dan jawaban pilihan ganda.
Dataset berisi cerita bentuk panjang dari Project Gutenberg dan pertanyaan yang dianotasi oleh annotator manusia. Tim peneliti bereksperimen menggunakan subset dari 187 contoh.
SummScreenFD
SummScreenFD adalah kumpulan data skrip TV dan film yang awalnya dirancang untuk diringkas.
Naskah-naskah ini disajikan dalam bentuk dialog antar aktor. Tim peneliti mengubah dataset ini menjadi tugas tanya jawab, di mana teks ringkasan dasar yang jujur yang disediakan mentah digunakan untuk menghasilkan pertanyaan "siapa" menggunakan Stable Beluga 2, yang kemudian diperiksa oleh seorang ahli manusia.
Pertanyaan yang dipasangkan dengan teks panjang asli menjadi 306 contoh tugas QA yang diposisikan ulang.
Laporan Pemerintah
Himpunan data GovReport menyatukan dokumen dari Layanan Penelitian Kongres dan Kantor Akuntabilitas Pemerintah AS, serta ringkasan yang diberikan oleh para ahli.
Tim peneliti mengubah dataset ini menjadi dataset tanya-jawab dengan 101 contoh dengan cara yang sama seperti SummScreenFD.
Ketiga dataset dicirikan oleh konteks panjang dengan panjang yang berbeda, beberapa contoh yang lebih pendek dan beberapa urutan yang lebih panjang.
Oleh karena itu, tim peneliti mempresentasikan hasil pada dataset asli dan pada subset dari urutan yang lebih panjang yang terkandung dalam setiap tugas untuk menilai akses memori dengan lebih baik dalam situasi konteks yang lebih sulit dan lebih lama.
Ambang batasnya adalah 8.000 token QuALITY, 6.000 token SummScreenFD, dan 12.000 token GovReport.
Pola
Tim peneliti menggunakan Stable Beluga 2 sebagai basis LLM di sebagian besar eksperimen mereka karena menawarkan kinerja canggih dibandingkan dengan beberapa varian LLM lainnya, yang akan ditunjukkan oleh tim peneliti.
Stable Beluga 2 adalah model penyetelan instruksi berbasis 70B LLaMA-2 di mana fine-tuning tidak tumpang tindih dengan tugas evaluasi tim peneliti.
Ini memiliki panjang konteks maksimum 4.096 token. Tim peneliti menggunakan model dengan cara zero-shot tanpa penyesuaian lebih lanjut atau memberikan sejumlah kecil contoh tugas tim peneliti dalam konteks.
Tim peneliti menggunakan top p-sampling untuk konstruksi pohon memori serta tindakan dan inferensi untuk menghasilkan navigasi.
Tim peneliti menetapkan jumlah maksimum node untuk QuALITY, SummScreenFD, dan GovReport, maxt Mt = 8, 5, 8, dan ukuran segmen|c|, masing-masing = 1000, 1000, 1200。
Patokan
Tim peneliti membandingkan tiga teknologi memori berdasarkan LLM dasar yang sama dengan Stable Beluga 2:
Jendela konteks penuh
Rekursi
Pengambilan
Garis besar jendela konteks lengkap menggunakan semua 4.096 token untuk memproses teks dan pembuatan input yang panjang. Karena contoh dalam dataset sering melebihi batas konteks, tim peneliti memotong panjangnya, mengambil kanan (terdekat) atau kiri (paling tidak dekat) dari teks sebagai input, dan mengevaluasi kedua metode.
Untuk pencarian, tim peneliti menggunakan Contriever (Izacard et al., 2022) untuk memilih paragraf dari konteks panjang berdasarkan kueri. Bagian-bagian dengan skor tertinggi digabungkan ke dalam konteks input LLM sampai mereka mengisi konteks.
Akhirnya, tim peneliti menerapkan baseline yang loop melalui intisari ke paragraf informasi saat ini dari token paragraf sebelumnya, di mana setiap paragraf adalah 2.500 token dan ukuran abstrak maksimum adalah 500 token.
Hasil & Analisis
** Key Results **
Tabel 2 di bawah ini menunjukkan perbandingan antara MEMWALKER dan baseline lainnya.
Ini menunjukkan batasan rekursi, di mana informasi yang relevan untuk kueri hilang setelah beberapa langkah.
MEMWALKER JUGA MELAMPAUI PENCARIAN, DI MANA BAGIAN-BAGIAN BERASAL DARI CERITA BENTUK PANJANG YANG KOHEREN DARIPADA DOKUMEN TERPISAH.
Dalam tugas ini, garis besar konteks lengkap dapat berkinerja baik dalam pengaturan tugas "mentah", yang mungkin berisi urutan yang relatif singkat, meskipun memilih pemotongan kiri atau kanan untuk kinerja terbaik tampaknya bergantung pada himpunan data.
Namun, dengan pengecualian variabel hold-right pada QuALITY dan variabel hold-left pada GovReport, MEMWALKER mencapai kinerja yang lebih tinggi dalam pengaturan asli daripada baseline konteks penuh, yang mungkin disebabkan oleh bias posisi dalam dataset, di mana paragraf yang relevan biasanya muncul di awal atau akhir teks.
NAMUN, PADA VERSI PANJANG DARI KETIGA TUGAS, MEMWALKER MELAMPAUI SEMUA BASELINE, YAITU MENUNJUKKAN KINERJA YANG KUAT KARENA AKSES MEMORI MENJADI LEBIH PENTING.
MEMWALKER juga melampaui model lain yang tersedia untuk umum, termasuk LongChat dan MPT.
KETIKA PANJANG TEKS LEBIH PENDEK, MEMWALKER LEBIH RENDAH DARIPADA GARIS DASAR KONTEKS PENUH (PEMOTONGAN KIRI ATAU KANAN), TETAPI MENGUNGGULI KEDUA JENIS PEMOTONGAN PADA URUTAN YANG LEBIH PANJANG UNTUK SEMUA TUGAS.
Manfaat membaca interaktif adalah bahwa peningkatan yang tepat dalam panjang teks menjadi jelas, yaitu kinerja yang lebih baik ditunjukkan setelah panjang urutan secara signifikan lebih besar dari 4.096 panjang konteks LLM.
Inferensi sangat penting untuk navigasi pohon memori.
EFEKTIVITAS MEMWALKER SANGAT TERGANTUNG PADA KEMAMPUAN PENALARAN LLM YANG MENDASARINYA. Untuk setiap keputusan navigasi, tim peneliti menggunakan prompt LLM yang meminta LLM untuk terlebih dahulu menghasilkan pembenaran dalam bahasa alami untuk membenarkan tindakan yang diprediksi berikutnya, seperti yang ditunjukkan pada Tabel 1 di bawah ini.
Stable Beluga 2 mengungguli Llama 2 Chat dengan ukuran LLM yang sama dan juga menunjukkan kemampuan penalaran yang ditingkatkan.
Untuk Stable Beluga 2, membutuhkan pembenaran penalaran dalam semua tugas meningkatkan kinerja. INI MENYOROTI FITUR UTAMA MEMWALKER: JIKA LLM MELEWATI AMBANG KEMAMPUAN PENALARAN KRITIS, LLM DAPAT BERALASAN TENTANG INPUT PANJANG DI BEBERAPA PUTARAN TANPA DENGAN CEPAT MENGHASILKAN KESALAHAN DI ANTARA PUTARAN.
Untuk LLM lemah yang gagal membuat keputusan navigasi yang baik, kesalahan dapat menumpuk dan kinerja keseluruhan terganggu.
KARENA KEMAMPUAN PENALARAN LLM TERUS MENINGKAT DI TAHUN-TAHUN MENDATANG, TIM PENELITI MENGHARAPKAN METODE SEPERTI MEMWALKER MENJADI LEBIH EFEKTIF.
Memori kerja diperlukan untuk menavigasi pohon memori. KETIKA MEMWALKER MEMBUAT KEPUTUSAN UNTUK MELINTASI POHON MEMORI DAN MEMBACA PARAGRAF TERKAIT, IA MUNGKIN KEHILANGAN PENGETAHUAN TENTANG KONTEKS KESELURUHAN.
Oleh karena itu, model membawa informasi dari node di sepanjang jalur navigasi sebagai memori kerja, di mana konten memori kerja diperbarui ketika model memilih jalur berikutnya.
TIM PENELITI MENGEVALUASI KINERJA MEMWALKER DENGAN ATAU TANPA MEMORI KERJA, DAN HASILNYA DITUNJUKKAN PADA GAMBAR 3 DI BAWAH INI.
MEMWALKER dapat pulih dari jalan yang salah.
KETIKA MEMWALKER MENAVIGASI POHON MEMORI, IA TIDAK HANYA PERLU MENEMUKAN JALURNYA KE PARAGRAF YANG PALING RELEVAN, TETAPI MUNGKIN JUGA PERLU PULIH DARI SEMUA KESALAHAN PENGAMBILAN.
Tim peneliti menyajikan statistik pemulihan pada Tabel 4 di bawah ini. MEMWALKER melakukan operasi navigasi pemulihan (dan karena itu mengubah jalur) pada sekitar 15% - 20% sampel, tetapi dalam contoh ini dimungkinkan untuk memulihkan dan mendapatkannya dengan benar di QuALITY, 60% untuk SummScreenFD, dan ∼ 80% untuk GovReport.
Tim peneliti menunjukkan rata-rata persentase pembacaan konteks panjang untuk semua contoh, seperti yang ditunjukkan pada Gambar 4 di bawah ini untuk masing-masing dari tiga tugas. Tim peneliti menemukan bahwa, rata-rata, hanya 63-69% dari teks yang perlu dibaca untuk menjawab pertanyaan, termasuk isi simpul pohon.
Trade-off untuk konstruksi pohon memori
Ketika tim peneliti membangun pohon memori, trade-off mendasar muncul - meringkas paragraf yang lebih besar menjadi node untuk mengurangi kedalaman pohon, tetapi berpotensi kehilangan keakuratan konten.
Demikian pula, menghubungkan banyak node tingkat rendah ke node di atas dapat membantu meratakan pohon, tetapi dapat membuat tugas navigasi LLM pada setiap node lebih sulit.
Gambar 5 di bawah ini menunjukkan kinerja konfigurasi yang berbeda dari pohon memori pada QuALITY. Meringkas paragraf yang lebih besar seringkali lebih bermanfaat daripada meringkas paragraf yang lebih kecil dan menghubungkan lebih banyak node anak ke node induk.
Namun, kinerja stabil karena jumlah maksimum node meningkat, menunjukkan trade-off dari berapa banyak informasi yang dapat dikemas ke dalam node selama konstruksi pohon memori.