Jika Anda ingin model besar mempelajari lebih banyak contoh di _, metode ini memungkinkan Anda memasukkan lebih banyak karakter

2023-09-13 02:11:01

Kita tahu bahwa saat menggunakan model bahasa besar seperti GPT dan LLaMA, ada batasan karakter pada inputnya. Misalnya, batas karakter input saat ini untuk ChatGPT adalah 4096 karakter. Hal ini membatasi cakupan teknologi seperti pembelajaran kontekstual dan rangkaian pemikiran, karena pengguna hanya dapat memberikan contoh dalam jumlah terbatas. Baru-baru ini, tim peneliti dari Nous Research, EleutherAI, dan Universitas Jenewa mengusulkan YaRN, sebuah solusi untuk memperluas jendela konteks, dan mencapai hasil yang lebih baik daripada semua metode eksperimen lainnya, dan mereka juga merilis LLaMA 2 yang disempurnakan menggunakan YaRN 7B/ Model 13B dengan jendela konteks 64k dan 128k.

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Model bahasa besar (LLM) berbasis transformator telah menunjukkan kemampuan yang kuat untuk melakukan pembelajaran kontekstual (ICL) dan hampir menjadi satu-satunya pilihan untuk banyak tugas pemrosesan bahasa alami (NLP). Mekanisme perhatian diri Transformer memungkinkan pelatihan menjadi sangat paralel, memungkinkan rangkaian panjang diproses secara terdistribusi. Panjang urutan yang digunakan untuk pelatihan LLM disebut jendela konteksnya.

Jendela konteks Transformer secara langsung menentukan jumlah ruang yang dapat memberikan contoh, sehingga membatasi kemampuan ICL-nya.

Jika jendela konteks model terbatas, maka semakin kecil ruang untuk memberikan contoh yang kuat kepada model untuk melakukan ICL. Selain itu, tugas-tugas lain seperti peringkasan juga sangat terhambat ketika jendela konteks model sangat pendek.

Karena sifat bahasa itu sendiri, lokasi token sangat penting untuk pemodelan yang efektif, dan perhatian diri tidak secara langsung menyandikan informasi lokasi karena paralelismenya. Arsitektur Transformer memperkenalkan pengkodean posisi untuk mengatasi masalah ini.

Arsitektur Transformer asli menggunakan pengkodean posisi sinusoidal absolut, yang kemudian ditingkatkan menjadi pengkodean posisi absolut yang dapat dipelajari. Sejak itu, skema pengkodean posisi relatif semakin meningkatkan kinerja Transformer. Saat ini, pengkodean posisi relatif yang paling populer adalah T5 Relative Bias, RoPE, XPos dan ALiBi.

Pengkodean posisi memiliki keterbatasan yang berulang: ketidakmampuan untuk menggeneralisasi jendela konteks yang terlihat selama pelatihan. Meskipun beberapa metode seperti ALiBi memiliki kemampuan untuk melakukan beberapa generalisasi terbatas, belum ada metode yang dapat menggeneralisasi urutan yang jauh lebih panjang daripada panjang yang telah dilatih sebelumnya.

Telah muncul beberapa upaya penelitian yang berupaya mengatasi keterbatasan tersebut. Misalnya, beberapa penelitian mengusulkan untuk sedikit memodifikasi RoPE melalui interpolasi posisi (PI) dan menyempurnakan sejumlah kecil data untuk memperluas konteksnya.

Dua bulan lalu, Bowen Peng dari Nous Research berbagi solusi di Reddit, yaitu menerapkan "interpolasi sadar NTK" dengan memasukkan kerugian frekuensi tinggi. NTK di sini mengacu pada Neural Tangent Kernel.

Ia mengklaim bahwa RoPE yang diperluas dengan kesadaran NTK dapat secara signifikan memperluas jendela konteks model LLaMA (lebih dari 8k) tanpa penyesuaian apa pun dan dengan dampak minimal terhadap kebingungan.

Baru-baru ini, makalah terkait yang ditulisnya dan tiga kolaborator lainnya dirilis!

* kertas:

Model:

Dalam makalah ini, mereka membuat dua perbaikan pada interpolasi sadar NTK, yang berfokus pada aspek berbeda:

Metode interpolasi NTK dinamis dapat digunakan untuk model terlatih tanpa penyesuaian.
Metode interpolasi NTK parsial, model dapat mencapai performa terbaik jika disesuaikan dengan sejumlah kecil data konteks yang lebih panjang.

Peneliti mengatakan bahwa sebelum makalah ini lahir, peneliti telah menggunakan interpolasi NTK-aware dan interpolasi NTK dinamis dalam beberapa model open source. Contohnya termasuk Code Llama (menggunakan interpolasi NTK-aware) dan Qwen 7B (menggunakan interpolasi NTK dinamis).

Dalam makalah ini, berdasarkan hasil penelitian sebelumnya tentang interpolasi sadar NTK, interpolasi NTK dinamis, dan interpolasi NTK parsial, para peneliti mengusulkan YaRN (Yet another RoPE extensioN method), sebuah metode yang secara efisien dapat memperluas penggunaan penyematan posisi rotasi (Rotary Position Metode jendela konteks model Embeddings / RoPE), dapat digunakan untuk model seri LLaMA, GPT-NeoX dan PaLM. Studi ini menemukan bahwa YaRN dapat mencapai kinerja perluasan jendela konteks terbaik saat ini hanya dengan menggunakan sampel representatif sekitar 0,1% dari ukuran data pra-pelatihan model asli untuk penyesuaian.

metode

Rotary Position Embeddings (RoPE) pertama kali diperkenalkan dalam makalah "RoFormer: Enhanced transformator dengan penyematan posisi putar" dan juga merupakan dasar dari YaRN.

Secara sederhana RoPE dapat dituliskan sebagai berikut:

Untuk LLM yang telah dilatih sebelumnya dengan panjang konteks tetap, jika interpolasi posisi (PI) digunakan untuk memperluas panjang konteks, maka dapat dinyatakan sebagai:

Dapat dilihat bahwa PI akan memperluas seluruh dimensi RoPE secara merata. Para peneliti menemukan bahwa batas interpolasi teoretis yang dijelaskan dalam makalah PI tidak cukup untuk memprediksi dinamika kompleks antara penyematan internal RoPE dan LLM. Berikut ini akan diuraikan permasalahan pokok PI yang ditemukan dan dipecahkan oleh peneliti, sehingga pembaca dapat memahami latar belakang, penyebab dan alasan solusi dari berbagai metode baru di YaRN.

Kehilangan informasi frekuensi tinggi - interpolasi sadar NTK

Jika kita hanya melihat RoPE dari perspektif pengkodean informasi, menurut teori neural tangent kernel (NTK), jika dimensi masukan rendah dan penyematan yang sesuai tidak memiliki komponen frekuensi tinggi, maka jaringan saraf dalam akan sulit untuk melakukannya. mempelajari informasi frekuensi tinggi.

Untuk mengatasi masalah hilangnya informasi frekuensi tinggi saat menyematkan interpolasi untuk RoPE, Bowen Peng mengusulkan interpolasi sadar NTK di postingan Reddit di atas. Pendekatan ini tidak memperluas setiap dimensi RoPE secara merata, namun menyebarkan tekanan interpolasi ke berbagai dimensi dengan memperluas frekuensi tinggi lebih sedikit dan frekuensi rendah lebih banyak.

Dalam pengujiannya, para peneliti menemukan bahwa pendekatan ini mengungguli PI dalam menskalakan ukuran konteks model yang tidak disesuaikan. Namun, metode ini memiliki kelemahan besar: karena ini bukan hanya skema interpolasi, beberapa dimensi akan diekstrapolasi menjadi beberapa nilai "luar", sehingga penyesuaian menggunakan interpolasi sadar NTK tidak seefektif PI.

Lebih jauh lagi, karena adanya nilai-nilai “luar”, faktor perluasan teoritis tidak dapat secara akurat menggambarkan tingkat perluasan konteks yang sebenarnya. Dalam praktiknya, untuk perpanjangan panjang konteks tertentu, nilai ekstensi s harus ditetapkan sedikit lebih tinggi dari nilai ekstensi yang diharapkan.

Hilangnya jarak lokal relatif - interpolasi NTK parsial

Untuk penyematan RoPE, ada pengamatan yang menarik: mengingat ukuran konteks L, ada beberapa dimensi d yang panjang gelombangnya λ lebih panjang dari panjang konteks maksimum yang terlihat pada tahap pra-pelatihan (λ > L), yang menggambarkan penyematan tersebut dari beberapa dimensi Kemungkinan distribusi tidak merata dalam domain berputar.

Interpolasi sadar PI dan NTK memperlakukan semua dimensi tersembunyi RoPE secara setara (seolah-olah keduanya memiliki efek yang sama pada jaringan). Namun para peneliti telah menemukan melalui eksperimen bahwa Internet memperlakukan beberapa dimensi secara berbeda dibandingkan dimensi lainnya. Seperti disebutkan sebelumnya, mengingat panjang konteks L, panjang gelombang λ dari beberapa dimensi lebih besar atau sama dengan L. Karena ketika panjang gelombang dimensi tersembunyi lebih besar atau sama dengan L, semua pasangan posisi akan mengkodekan jarak tertentu, sehingga para peneliti berhipotesis bahwa informasi posisi absolut dipertahankan; ketika panjang gelombang lebih pendek, jaringan hanya dapat memperoleh informasi relatif posisi informasi.

Saat meregangkan seluruh dimensi Tali menggunakan rasio ekspansi s atau nilai perubahan dasar b', semua token menjadi lebih dekat satu sama lain karena hasil kali titik dua vektor yang diputar dengan jumlah lebih kecil akan lebih besar. Perpanjangan ini serius dapat mengganggu kemampuan LLM untuk memahami hubungan lokal kecil antara embeddings internalnya. Para peneliti berspekulasi bahwa kompresi ini akan menyebabkan model menjadi bingung tentang urutan posisi token di dekatnya, sehingga merugikan kemampuan model.

Untuk mengatasi masalah ini, berdasarkan pengamatan para peneliti, mereka memilih untuk tidak melakukan interpolasi dimensi frekuensi yang lebih tinggi sama sekali.

Mereka juga mengusulkan bahwa untuk semua dimensi d, dimensi dengan r < α diinterpolasi secara linier sesuai dengan derajat perluasan s (seperti PI, ekstrapolasi dihindari); dimensi dengan r > β tidak diinterpolasi sama sekali (selalu diekstrapolasi).

Dengan menggunakan teknik yang dijelaskan di bagian ini, lahirlah metode yang disebut interpolasi NTK parsial. Metode yang ditingkatkan ini mengungguli metode interpolasi sadar PI dan NTK sebelumnya dan bekerja pada model yang tidak disetel dan disetel dengan baik. Karena metode ini menghindari ekstrapolasi dimensi di mana domain rotasi tidak terdistribusi secara merata, semua masalah penyesuaian metode sebelumnya dapat dihindari.

Penskalaan Dinamis - Interpolasi NTK Dinamis

Saat menskalakan ukuran konteks tanpa melakukan penyesuaian menggunakan metode interpolasi RoPE, kami memperkirakan model akan terdegradasi secara perlahan pada ukuran konteks yang lebih panjang, daripada terdegradasi sepenuhnya pada keseluruhan ukuran konteks ketika derajat penskalaan s melebihi nilai yang diinginkan.

Dalam metode NTK dinamis, derajat muai s dihitung secara dinamis.

Selama inferensi, ketika ukuran konteks terlampaui, derajat perluasan s diubah secara dinamis, yang memungkinkan semua model terdegradasi secara perlahan, bukannya tiba-tiba mogok saat mencapai batas konteks pelatihan L.

Menambahkan kesamaan kosinus minimum rata-rata untuk jarak jauh - YaRN

Sekalipun masalah jarak lokal yang dijelaskan sebelumnya telah terpecahkan, jarak yang lebih besar harus diinterpolasi pada ambang batas α untuk menghindari ekstrapolasi. Secara intuitif, hal ini tampaknya tidak menjadi masalah, karena jarak global tidak memerlukan akurasi tinggi untuk membedakan posisi token (yaitu, jaringan hanya perlu mengetahui secara kasar apakah token berada di awal, tengah, atau akhir rangkaian).

Namun, para peneliti menemukan bahwa karena jarak minimum rata-rata menjadi lebih dekat seiring bertambahnya jumlah token, hal ini akan membuat distribusi softmax perhatian menjadi lebih tajam (yaitu, mengurangi entropi rata-rata softmax perhatian). Dengan kata lain, ketika dampak pelemahan jarak jauh dikurangi dengan interpolasi, jaringan akan “lebih memperhatikan” ke lebih banyak token. Pergeseran dalam distribusi ini dapat menyebabkan penurunan kualitas keluaran LLM, yang merupakan masalah lain yang tidak ada hubungannya dengan masalah sebelumnya.

Karena entropi dalam distribusi softmax perhatian menurun ketika penyematan RoPE diinterpolasi ke ukuran konteks yang lebih panjang, kami bertujuan untuk membalikkan penurunan entropi ini (yaitu, meningkatkan "suhu" logit perhatian). Hal ini dapat dilakukan dengan mengalikan matriks perhatian perantara dengan suhu t > 1 sebelum menerapkan softmax, namun karena penyematan RoPE dikodekan sebagai matriks rotasi, panjang penyisipan RoPE dapat dengan mudah diperpanjang dengan faktor konstan √t . Teknik "ekstensi panjang" ini memungkinkan penelitian tanpa mengubah kode perhatian, yang dapat sangat menyederhanakan integrasi dengan proses pelatihan dan inferensi yang ada, dan kompleksitas waktunya hanya O(1).

Karena skema interpolasi RoPE ini menginterpolasi dimensi RoPE secara tidak seragam, sulit untuk menghitung solusi analitik untuk rasio suhu yang diperlukan t sehubungan dengan derajat ekspansi s. Untungnya, para peneliti menemukan melalui eksperimen bahwa dengan meminimalkan kebingungan, semua model LLaMA mengikuti kurva penyesuaian yang kurang lebih sama:

Para peneliti menemukan rumus ini pada LLaMA 7B, 13B, 33B dan 65B. Mereka menemukan bahwa formula ini juga bekerja dengan baik untuk model LLaMA 2 (7B, 13B, dan 70B), dengan sedikit perbedaan. Hal ini menunjukkan bahwa properti peningkatan entropi ini bersifat umum dan dapat digeneralisasikan ke berbagai model dan data pelatihan.

Modifikasi terakhir ini menghasilkan metode YaRN. Metode baru ini mengungguli semua metode sebelumnya baik dalam skenario yang disempurnakan maupun tidak, tanpa memerlukan modifikasi apa pun pada kode inferensi. Hanya algoritme yang digunakan untuk menghasilkan penyematan RoPE yang perlu dimodifikasi. YaRN sangat sederhana sehingga dapat dengan mudah diterapkan di semua perpustakaan inferensi dan pelatihan, termasuk kompatibilitas dengan Flash Attention 2.

percobaan

Eksperimen menunjukkan bahwa YaRN berhasil memperluas jendela konteks LLM. Selain itu, mereka mencapai hasil ini setelah pelatihan hanya sebanyak 400 langkah, yaitu sekitar 0,1% dari korpus pra-pelatihan asli model, yang merupakan penurunan signifikan dibandingkan hasil penelitian sebelumnya. Hal ini menunjukkan bahwa metode baru ini sangat efisien secara komputasi dan tidak memerlukan biaya inferensi tambahan.

Untuk mengevaluasi model yang dihasilkan, para peneliti menghitung kerumitan dokumen panjang dan menilainya berdasarkan tolok ukur yang ada, dan menemukan bahwa metode baru ini mengungguli semua metode perluasan jendela konteks lainnya.

Pertama, para peneliti mengevaluasi kinerja model ketika jendela konteks ditingkatkan. Tabel 1 merangkum hasil eksperimen.

Tabel 2 menunjukkan kebingungan terakhir pada 50 dokumen GovReport yang tidak disensor (setidaknya panjangnya 16 ribu token).

Untuk menguji penurunan performa model saat menggunakan ekstensi konteks, kami mengevaluasi model menggunakan rangkaian Papan Peringkat LLM Hugging Face Open dan membandingkannya dengan skor yang ada dari model dasar LLaMA 2 serta model sadar PI dan NTK yang tersedia untuk umum. . Tabel 3 merangkum hasil eksperimen.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Altcoin Season Coming?
45k Popularitas
2Stablecoin Regulation Crackdown
26k Popularitas
3Spark Program KOLs Surpass 1,000+
7k Popularitas
4ETH Breaks Through $3,800
24k Popularitas
5Institutions Buying Bitcoin
18k Popularitas

Sematkan

peta situs