GPT ve LLaMA gibi büyük dil modellerini kullanırken girişte bir karakter sınırı olduğunu biliyoruz.Örneğin, ChatGPT için mevcut giriş karakter sınırı 4096 karakterdir. Kullanıcılar yalnızca sınırlı sayıda örnek sunabildiğinden, bu durum bağlamsal öğrenme ve düşünce zinciri gibi teknolojilerin kapsamını sınırlar. Yakın zamanda Nous Research, EleutherAI ve Cenevre Üniversitesi'nden bir araştırma ekibi, bağlam penceresini genişletecek bir çözüm olan YaRN'yi önerdi ve deneylerde diğer tüm yöntemlerden daha iyi sonuçlar elde etti ve ayrıca YaRN 7B/ kullanılarak ince ayarı yapılmış LLaMA 2'yi yayınladılar. 64k ve 128k bağlam pencerelerine sahip 13B modeli.
Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
Transformatör tabanlı büyük dil modelleri (LLM), bağlamsal öğrenmeyi (ICL) gerçekleştirme konusunda güçlü bir yetenek sergilemiş ve birçok doğal dil işleme (NLP) görevi için neredeyse tek seçenek haline gelmiştir. Transformer'ın öz-dikkat mekanizması, eğitimin yüksek düzeyde paralelleştirilmesine olanak tanıyarak uzun dizilerin dağıtılmış bir şekilde işlenmesine olanak tanır. LLM eğitimi için kullanılan dizinin uzunluğuna bağlam penceresi denir.
Bir Transformer'ın bağlam penceresi, örnekler sağlayabilecek alan miktarını doğrudan belirler ve böylece ICL yeteneklerini sınırlar.
Modelin bağlam penceresi sınırlıysa, modele ICL'nin gerçekleştirileceği sağlam örnekler sağlamak için daha az yer vardır. Ayrıca, özetleme gibi diğer görevler de modelin bağlam penceresi özellikle kısa olduğunda ciddi şekilde engellenir.
Dilin doğası gereği, belirteçlerin konumu etkili modelleme için çok önemlidir ve paralelliği nedeniyle kişisel dikkat, konum bilgisini doğrudan kodlamaz. Transformer mimarisi bu sorunu çözmek için konumsal kodlamayı sunar.
Orijinal Transformer mimarisi, daha sonra öğrenilebilir bir mutlak konum kodlamasına dönüştürülen mutlak sinüzoidal konum kodlamasını kullandı. O zamandan bu yana, göreceli konum kodlama şemaları Transformer performansını daha da geliştirdi. Şu anda en popüler göreceli konum kodlamaları T5 Relative Bias, RoPE, XPos ve ALiBi'dir.
Konumsal kodlamanın yinelenen bir sınırlaması vardır: eğitim sırasında görülen bağlam penceresine genelleme yapılamaması. ALiBi gibi bazı yöntemlerin sınırlı bir genelleme yapma yeteneği olmasına rağmen, henüz hiçbir yöntem önceden eğitilmiş uzunluğundan önemli ölçüde daha uzun dizilere genelleme yapmamıştır.
Bu sınırlamaların üstesinden gelmeye çalışan çeşitli araştırma çalışmaları ortaya çıkmıştır. Örneğin, bazı araştırmalar konumsal enterpolasyon (PI) yoluyla RoPE'yi biraz değiştirmeyi ve bağlam uzunluğunu genişletmek için az miktarda veri üzerinde ince ayar yapmayı önermektedir.
İki ay önce, Nous Research'ten Bowen Peng, Reddit'te yüksek frekanslı kayıpları dahil ederek "NTK uyumlu enterpolasyon" uygulayan bir çözümü paylaştı. NTK burada Sinir Teğet Çekirdeği anlamına gelir.
NTK uyumlu genişletilmiş RoPE'nin, LLaMA modelinin bağlam penceresini herhangi bir ince ayar yapmadan ve şaşkınlık üzerinde minimum etkiyle önemli ölçüde genişletebileceğini (8k'den fazla) iddia ediyor.
Yakın zamanda kendisi ve diğer üç işbirlikçisi tarafından ilgili bir makale yayımlandı!
* kağıt:
Modeli:
Bu yazıda, NTK uyumlu enterpolasyonda farklı yönlere odaklanan iki iyileştirme yaptılar:
Dinamik NTK enterpolasyon yöntemi, önceden eğitilmiş modeller için ince ayar yapılmadan kullanılabilir.
Kısmi NTK enterpolasyon yöntemi, model az miktarda daha uzun bağlam verileriyle ince ayar yapıldığında en iyi performansı elde edebilir.
Araştırmacı, bu makalenin ortaya çıkmasından önce araştırmacıların bazı açık kaynaklı modellerde NTK uyumlu enterpolasyonu ve dinamik NTK enterpolasyonunu zaten kullandıklarını söyledi. Örnekler arasında Code Llama (NTK uyumlu enterpolasyon kullanan) ve Qwen 7B (dinamik NTK enterpolasyonu kullanan) yer alır.
Bu yazıda, NTK uyumlu enterpolasyon, dinamik NTK enterpolasyonu ve kısmi NTK enterpolasyonu ile ilgili önceki araştırma sonuçlarına dayanarak, araştırmacılar, dönüş konumu yerleştirmenin (Döner Konum) kullanımını verimli bir şekilde genişletebilecek bir yöntem olan YaRN'yi (Yine başka bir RoPE uzatma yöntemi) önerdiler. Embeddings / RoPE) modeli bağlam penceresi yöntemi, LLaMA, GPT-NeoX ve PaLM serisi modeller için kullanılabilir. Çalışma, YaRN'nin ince ayar için yalnızca orijinal modelin eğitim öncesi veri boyutunun yaklaşık %0,1'ini temsil eden örnekleri kullanarak şu anda en iyi bağlam penceresi genişletme performansını elde edebileceğini buldu.
yöntem
Döner Pozisyon Gömmeleri (RoPE) ilk olarak "RoFormer: Döner pozisyon gömmeli geliştirilmiş transformatör" makalesinde tanıtılmıştır ve aynı zamanda YaRN'nin de temelini oluşturur.
Basitçe söylemek gerekirse RoPE şu şekilde yazılabilir:
Sabit bağlam uzunluğuyla önceden eğitilmiş bir LLM için bağlam uzunluğunu genişletmek için konumsal enterpolasyon (PI) kullanılıyorsa, şu şekilde ifade edilebilir:
PI'nin tüm RoPE boyutlarını eşit şekilde uzatacağı görülebilir. Araştırmacılar, PI makalesinde açıklanan teorik enterpolasyon sınırlarının, RoPE ve LLM dahili yerleştirme arasındaki karmaşık dinamikleri tahmin etmede yetersiz olduğunu buldular. Okuyucuların YaRN'deki çeşitli yeni yöntemlerin arka planını, nedenlerini ve çözüm nedenlerini anlayabilmesi için aşağıda araştırmacılar tarafından keşfedilen ve çözülen PI'nin ana sorunları açıklanacaktır.
Yüksek frekanslı bilgi kaybı - NTK bilinçli enterpolasyon
Sinirsel tanjant çekirdeği (NTK) teorisine göre RoPE'ye yalnızca bilgi kodlama perspektifinden bakarsak, eğer girdi boyutu düşükse ve buna karşılık gelen yerleştirme yüksek frekanslı bileşenlerden yoksunsa, o zaman derin bir sinir ağının kodlaması zordur. Yüksek frekanslı bilgileri öğrenin.
Bowen Peng, RoPE için enterpolasyonu yerleştirirken yüksek frekanslı bilgilerin kaybolması sorununu çözmek için yukarıdaki Reddit gönderisinde NTK uyumlu enterpolasyonu önerdi. Bu yaklaşım, RoPE'nin her boyutunu eşit şekilde genişletmez, ancak yüksek frekansları daha az ve düşük frekansları daha fazla genişleterek enterpolasyon basıncını birden fazla boyuta yayar.
Testlerde araştırmacılar, bu yaklaşımın ayarlanmamış modelin bağlam boyutunu ölçeklendirmede PI'dan daha iyi performans gösterdiğini buldu. Bununla birlikte, bu yöntemin büyük bir dezavantajı vardır: yalnızca bir enterpolasyon şeması olmadığından, bazı boyutlar bazı "dış" değerlere yansıtılacaktır, dolayısıyla NTK uyumlu enterpolasyon kullanılarak yapılan ince ayar, PI kadar etkili değildir.
Ayrıca, "dış" değerlerin varlığı nedeniyle teorik genişleme faktörü, bağlam genişlemesinin gerçek derecesini doğru bir şekilde tanımlayamaz. Uygulamada, belirli bir bağlam uzunluğu uzantısı için, uzantı değeri s, beklenen uzantı değerinden biraz daha yükseğe ayarlanmalıdır.
Göreceli yerel mesafe kaybı - kısmi NTK enterpolasyonu
RoPE yerleştirmesi için ilginç bir gözlem vardır: L bağlam boyutu göz önüne alındığında, λ dalga boyunun, yerleştirmeyi gösteren, eğitim öncesi aşamada görülen maksimum bağlam uzunluğundan (λ > L) daha uzun olduğu bazı d boyutları vardır. bazı boyutların Dönen alanda muhtemelen eşit olmayan dağılımı.
PI ve NTK uyumlu enterpolasyon, tüm RoPE gizli boyutlarına eşit davranır (sanki ağ üzerinde aynı etkiye sahiplermiş gibi). Ancak araştırmacılar deneyler yoluyla İnternet'in bazı boyutları diğer boyutlardan farklı ele aldığını buldu. Daha önce belirtildiği gibi, bağlam uzunluğu L verildiğinde, bazı boyutların dalga boyu λ L'den büyük veya L'ye eşittir. Gizli bir boyutun dalga boyu L'den büyük veya L'ye eşit olduğunda, tüm konum çiftleri belirli bir mesafeyi kodlayacağından araştırmacılar mutlak konum bilgisinin korunduğunu varsayar; dalga boyu daha kısa olduğunda ağ yalnızca göreceli konumu elde edebilir. konum.bilgi.
Genişleme oranı s veya temel değişim değeri b' kullanılarak tüm RoPE boyutları uzatıldığında, daha küçük bir miktarla döndürülen iki vektörün nokta çarpımı daha büyük olacağından tüm jetonlar birbirine yaklaşır. Bu uzantı, LLM'nin dahili yerleştirmeleri arasındaki küçük yerel ilişkileri anlama becerisini ciddi şekilde zedeleyebilir. Araştırmacılar, bu sıkıştırmanın modelin yakındaki tokenlerin konum sırası konusunda kafasının karışmasına neden olacağını ve dolayısıyla modelin yeteneğine zarar vereceğini düşünüyor.
Bu sorunu çözmek için araştırmacıların gözlemlerine dayanarak, daha yüksek frekans boyutlarını hiçbir şekilde enterpolasyon yapmamayı seçtiler.
Ayrıca tüm d boyutları için, r < α olan boyutların, s uzantısının derecesine göre doğrusal olarak enterpolasyonlu olduğunu (PI gibi ekstrapolasyondan kaçınıldığını); r > β olan boyutların ise hiç enterpolasyon yapılmadığını (her zaman ekstrapole edilmiş) önerdiler.
Bu bölümde açıklanan tekniği kullanarak kısmi NTK enterpolasyonu adı verilen bir yöntem doğdu. Bu geliştirilmiş yöntem, önceki PI ve NTK uyumlu enterpolasyon yöntemlerinden daha iyi performans gösterir ve hem ayarlanmamış hem de ince ayar yapılmış modellerde çalışır. Bu yöntem, dönme alanının eşit olmayan bir şekilde dağıldığı durumlarda boyutların tahmin edilmesini önlediğinden, önceki yöntemlerin tüm ince ayar sorunlarından kaçınılır.
Dinamik Ölçeklendirme - Dinamik NTK Enterpolasyonu
RoPE enterpolasyon yöntemini kullanarak bağlam boyutunu ince ayar yapmadan ölçeklendirirken, ölçeklendirme derecesi istenen değeri aştığında modelin tüm bağlam boyutu boyunca tamamen bozulması yerine, daha uzun bağlam boyutları boyunca yavaş yavaş azalmasını bekliyoruz.
Dinamik NTK yönteminde genişleme derecesi s dinamik olarak hesaplanır.
Çıkarım sırasında, bağlam boyutu aşıldığında, genişletme derecesi s dinamik olarak değiştirilir; bu, eğitim bağlam sınırı L'ye ulaşıldığında tüm modellerin aniden çökmesi yerine yavaş yavaş bozulmasına olanak tanır.
Uzun mesafeler için ortalama minimum kosinüs benzerliği eklendi - YaRN
Daha önce açıklanan yerel mesafe problemi çözülse bile, ekstrapolasyondan kaçınmak için α eşiğinde daha büyük bir mesafenin enterpolasyonu yapılmalıdır. Sezgisel olarak bu bir sorun gibi görünmüyor çünkü küresel mesafe, jeton konumlarını ayırt etmek için yüksek doğruluk gerektirmez (yani ağın, jetonun dizinin başında, ortasında veya sonunda olup olmadığını yalnızca kabaca bilmesi gerekir).
Ancak araştırmacılar, jeton sayısı arttıkça ortalama minimum mesafenin yakınlaşması nedeniyle dikkat softmax dağılımının daha keskin hale geleceğini (yani dikkat softmax'ın ortalama entropisini azaltacağını) buldu. Başka bir deyişle, uzun mesafeli zayıflamanın etkisi enterpolasyonla azaltıldıkça, ağ daha fazla tokena "daha fazla dikkat edecek". Dağıtımdaki bu değişim, LLM çıktısının kalitesinde bir bozulmaya yol açabilir ki bu da öncekiyle ilgisi olmayan başka bir sorundur.
RoPE yerleştirmeleri daha uzun bağlam boyutlarına enterpolasyon yapıldığında dikkat softmax dağılımındaki entropi azaldığından, bu entropi düşüşünü tersine çevirmeyi (yani dikkat logitinin "sıcaklığını" arttırmayı) amaçlıyoruz. Bu, softmax uygulanmadan önce ara dikkat matrisinin sıcaklık t > 1 ile çarpılmasıyla yapılabilir, ancak RoPE yerleştirmesi bir rotasyon matrisi olarak kodlandığından, RoPE yerleştirmenin uzunluğunu sabit bir √t faktörü kadar uzatmak mümkündür. . Bu "uzunluk uzatma" tekniği, dikkat kodunu değiştirmeden araştırmaya izin verir, bu da mevcut eğitim ve çıkarım süreçleriyle entegrasyonu büyük ölçüde basitleştirebilir ve zaman karmaşıklığı yalnızca O(1)'dir.
Bu RoPE enterpolasyon şeması, RoPE boyutlarını düzgün olmayan bir şekilde enterpolasyona tabi tuttuğundan, genleşme derecesine (s) göre gerekli sıcaklık oranı t için analitik bir çözüm hesaplamak zordur. Neyse ki, araştırmacılar deneyler yoluyla karışıklığı en aza indirerek tüm LLaMA modellerinin kabaca aynı uyum eğrisini takip ettiğini buldular:
Araştırmacılar bu formülü LLaMA 7B, 13B, 33B ve 65B'de keşfettiler. Bu formülün LLaMA 2 modelleri (7B, 13B ve 70B) için de ince farklarla iyi çalıştığını buldular. Bu, entropiyi artıran bu özelliğin ortak olduğunu ve farklı modellere ve eğitim verilerine genelleştirildiğini göstermektedir.
Bu son değişiklik YaRN yöntemiyle sonuçlandı. Yeni yöntem, çıkarım kodunda herhangi bir değişiklik gerektirmeden hem ince ayarlı hem de ayarsız senaryolarda önceki tüm yöntemlerden daha iyi performans gösteriyor. Yalnızca ilk etapta RoPE yerleştirmeleri oluşturmak için kullanılan algoritmanın değiştirilmesi gerekir. YaRN o kadar basittir ki, Flash Attention 2 ile uyumluluk da dahil olmak üzere tüm çıkarım ve eğitim kitaplıklarında kolaylıkla uygulanabilir.
deney
Deneyler, YaRN'nin LLM'nin bağlam penceresini başarıyla genişletebildiğini gösteriyor. Üstelik bu sonuca yalnızca 400 adımlık eğitimden sonra ulaştılar; bu da modelin orijinal eğitim öncesi yapısının yaklaşık %0,1'i anlamına geliyor ve önceki araştırma sonuçlarına kıyasla önemli bir düşüş. Bu, yeni yöntemin hesaplama açısından oldukça verimli olduğunu ve ek çıkarım maliyetinin olmadığını göstermektedir.
Ortaya çıkan modeli değerlendirmek için araştırmacılar, uzun belgelerin karmaşıklığını hesapladılar ve bunları mevcut kıyaslamalara göre puanladılar ve yeni yöntemin diğer tüm bağlam penceresi genişletme yöntemlerinden daha iyi performans gösterdiğini buldular.
İlk olarak araştırmacılar, bağlam penceresi artırıldığında modelin performansını değerlendirdiler. Tablo 1 deneysel sonuçları özetlemektedir.
Tablo 2, 50 sansürsüz GovReport belgesindeki (en az 16 bin jeton uzunluğunda) nihai kafa karışıklığını göstermektedir.
Bağlam uzantılarını kullanırken model performansındaki düşüşü test etmek için, Hugging Face Open LLM Leaderboard paketini kullanarak modeli değerlendirdik ve bunu LLaMA 2 temel modelinden ve kamuya açık PI ve NTK uyumlu modellerden elde edilen mevcut puanlarla karşılaştırdık. Tablo 3 deneysel sonuçları özetlemektedir.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Büyük modelin _'de daha fazla örnek öğrenmesini istiyorsanız bu yöntem daha fazla karakter girmenize olanak sağlar.
Transformatör tabanlı büyük dil modelleri (LLM), bağlamsal öğrenmeyi (ICL) gerçekleştirme konusunda güçlü bir yetenek sergilemiş ve birçok doğal dil işleme (NLP) görevi için neredeyse tek seçenek haline gelmiştir. Transformer'ın öz-dikkat mekanizması, eğitimin yüksek düzeyde paralelleştirilmesine olanak tanıyarak uzun dizilerin dağıtılmış bir şekilde işlenmesine olanak tanır. LLM eğitimi için kullanılan dizinin uzunluğuna bağlam penceresi denir.
Bir Transformer'ın bağlam penceresi, örnekler sağlayabilecek alan miktarını doğrudan belirler ve böylece ICL yeteneklerini sınırlar.
Dilin doğası gereği, belirteçlerin konumu etkili modelleme için çok önemlidir ve paralelliği nedeniyle kişisel dikkat, konum bilgisini doğrudan kodlamaz. Transformer mimarisi bu sorunu çözmek için konumsal kodlamayı sunar.
Orijinal Transformer mimarisi, daha sonra öğrenilebilir bir mutlak konum kodlamasına dönüştürülen mutlak sinüzoidal konum kodlamasını kullandı. O zamandan bu yana, göreceli konum kodlama şemaları Transformer performansını daha da geliştirdi. Şu anda en popüler göreceli konum kodlamaları T5 Relative Bias, RoPE, XPos ve ALiBi'dir.
Konumsal kodlamanın yinelenen bir sınırlaması vardır: eğitim sırasında görülen bağlam penceresine genelleme yapılamaması. ALiBi gibi bazı yöntemlerin sınırlı bir genelleme yapma yeteneği olmasına rağmen, henüz hiçbir yöntem önceden eğitilmiş uzunluğundan önemli ölçüde daha uzun dizilere genelleme yapmamıştır.
Bu sınırlamaların üstesinden gelmeye çalışan çeşitli araştırma çalışmaları ortaya çıkmıştır. Örneğin, bazı araştırmalar konumsal enterpolasyon (PI) yoluyla RoPE'yi biraz değiştirmeyi ve bağlam uzunluğunu genişletmek için az miktarda veri üzerinde ince ayar yapmayı önermektedir.
İki ay önce, Nous Research'ten Bowen Peng, Reddit'te yüksek frekanslı kayıpları dahil ederek "NTK uyumlu enterpolasyon" uygulayan bir çözümü paylaştı. NTK burada Sinir Teğet Çekirdeği anlamına gelir.
Yakın zamanda kendisi ve diğer üç işbirlikçisi tarafından ilgili bir makale yayımlandı!
Bu yazıda, NTK uyumlu enterpolasyonda farklı yönlere odaklanan iki iyileştirme yaptılar:
Araştırmacı, bu makalenin ortaya çıkmasından önce araştırmacıların bazı açık kaynaklı modellerde NTK uyumlu enterpolasyonu ve dinamik NTK enterpolasyonunu zaten kullandıklarını söyledi. Örnekler arasında Code Llama (NTK uyumlu enterpolasyon kullanan) ve Qwen 7B (dinamik NTK enterpolasyonu kullanan) yer alır.
Bu yazıda, NTK uyumlu enterpolasyon, dinamik NTK enterpolasyonu ve kısmi NTK enterpolasyonu ile ilgili önceki araştırma sonuçlarına dayanarak, araştırmacılar, dönüş konumu yerleştirmenin (Döner Konum) kullanımını verimli bir şekilde genişletebilecek bir yöntem olan YaRN'yi (Yine başka bir RoPE uzatma yöntemi) önerdiler. Embeddings / RoPE) modeli bağlam penceresi yöntemi, LLaMA, GPT-NeoX ve PaLM serisi modeller için kullanılabilir. Çalışma, YaRN'nin ince ayar için yalnızca orijinal modelin eğitim öncesi veri boyutunun yaklaşık %0,1'ini temsil eden örnekleri kullanarak şu anda en iyi bağlam penceresi genişletme performansını elde edebileceğini buldu.
yöntem
Döner Pozisyon Gömmeleri (RoPE) ilk olarak "RoFormer: Döner pozisyon gömmeli geliştirilmiş transformatör" makalesinde tanıtılmıştır ve aynı zamanda YaRN'nin de temelini oluşturur.
Basitçe söylemek gerekirse RoPE şu şekilde yazılabilir:
Yüksek frekanslı bilgi kaybı - NTK bilinçli enterpolasyon
Sinirsel tanjant çekirdeği (NTK) teorisine göre RoPE'ye yalnızca bilgi kodlama perspektifinden bakarsak, eğer girdi boyutu düşükse ve buna karşılık gelen yerleştirme yüksek frekanslı bileşenlerden yoksunsa, o zaman derin bir sinir ağının kodlaması zordur. Yüksek frekanslı bilgileri öğrenin.
Bowen Peng, RoPE için enterpolasyonu yerleştirirken yüksek frekanslı bilgilerin kaybolması sorununu çözmek için yukarıdaki Reddit gönderisinde NTK uyumlu enterpolasyonu önerdi. Bu yaklaşım, RoPE'nin her boyutunu eşit şekilde genişletmez, ancak yüksek frekansları daha az ve düşük frekansları daha fazla genişleterek enterpolasyon basıncını birden fazla boyuta yayar.
Testlerde araştırmacılar, bu yaklaşımın ayarlanmamış modelin bağlam boyutunu ölçeklendirmede PI'dan daha iyi performans gösterdiğini buldu. Bununla birlikte, bu yöntemin büyük bir dezavantajı vardır: yalnızca bir enterpolasyon şeması olmadığından, bazı boyutlar bazı "dış" değerlere yansıtılacaktır, dolayısıyla NTK uyumlu enterpolasyon kullanılarak yapılan ince ayar, PI kadar etkili değildir.
Ayrıca, "dış" değerlerin varlığı nedeniyle teorik genişleme faktörü, bağlam genişlemesinin gerçek derecesini doğru bir şekilde tanımlayamaz. Uygulamada, belirli bir bağlam uzunluğu uzantısı için, uzantı değeri s, beklenen uzantı değerinden biraz daha yükseğe ayarlanmalıdır.
Göreceli yerel mesafe kaybı - kısmi NTK enterpolasyonu
RoPE yerleştirmesi için ilginç bir gözlem vardır: L bağlam boyutu göz önüne alındığında, λ dalga boyunun, yerleştirmeyi gösteren, eğitim öncesi aşamada görülen maksimum bağlam uzunluğundan (λ > L) daha uzun olduğu bazı d boyutları vardır. bazı boyutların Dönen alanda muhtemelen eşit olmayan dağılımı.
PI ve NTK uyumlu enterpolasyon, tüm RoPE gizli boyutlarına eşit davranır (sanki ağ üzerinde aynı etkiye sahiplermiş gibi). Ancak araştırmacılar deneyler yoluyla İnternet'in bazı boyutları diğer boyutlardan farklı ele aldığını buldu. Daha önce belirtildiği gibi, bağlam uzunluğu L verildiğinde, bazı boyutların dalga boyu λ L'den büyük veya L'ye eşittir. Gizli bir boyutun dalga boyu L'den büyük veya L'ye eşit olduğunda, tüm konum çiftleri belirli bir mesafeyi kodlayacağından araştırmacılar mutlak konum bilgisinin korunduğunu varsayar; dalga boyu daha kısa olduğunda ağ yalnızca göreceli konumu elde edebilir. konum.bilgi.
Genişleme oranı s veya temel değişim değeri b' kullanılarak tüm RoPE boyutları uzatıldığında, daha küçük bir miktarla döndürülen iki vektörün nokta çarpımı daha büyük olacağından tüm jetonlar birbirine yaklaşır. Bu uzantı, LLM'nin dahili yerleştirmeleri arasındaki küçük yerel ilişkileri anlama becerisini ciddi şekilde zedeleyebilir. Araştırmacılar, bu sıkıştırmanın modelin yakındaki tokenlerin konum sırası konusunda kafasının karışmasına neden olacağını ve dolayısıyla modelin yeteneğine zarar vereceğini düşünüyor.
Bu sorunu çözmek için araştırmacıların gözlemlerine dayanarak, daha yüksek frekans boyutlarını hiçbir şekilde enterpolasyon yapmamayı seçtiler.
Ayrıca tüm d boyutları için, r < α olan boyutların, s uzantısının derecesine göre doğrusal olarak enterpolasyonlu olduğunu (PI gibi ekstrapolasyondan kaçınıldığını); r > β olan boyutların ise hiç enterpolasyon yapılmadığını (her zaman ekstrapole edilmiş) önerdiler.
Bu bölümde açıklanan tekniği kullanarak kısmi NTK enterpolasyonu adı verilen bir yöntem doğdu. Bu geliştirilmiş yöntem, önceki PI ve NTK uyumlu enterpolasyon yöntemlerinden daha iyi performans gösterir ve hem ayarlanmamış hem de ince ayar yapılmış modellerde çalışır. Bu yöntem, dönme alanının eşit olmayan bir şekilde dağıldığı durumlarda boyutların tahmin edilmesini önlediğinden, önceki yöntemlerin tüm ince ayar sorunlarından kaçınılır.
Dinamik Ölçeklendirme - Dinamik NTK Enterpolasyonu
RoPE enterpolasyon yöntemini kullanarak bağlam boyutunu ince ayar yapmadan ölçeklendirirken, ölçeklendirme derecesi istenen değeri aştığında modelin tüm bağlam boyutu boyunca tamamen bozulması yerine, daha uzun bağlam boyutları boyunca yavaş yavaş azalmasını bekliyoruz.
Dinamik NTK yönteminde genişleme derecesi s dinamik olarak hesaplanır.
Çıkarım sırasında, bağlam boyutu aşıldığında, genişletme derecesi s dinamik olarak değiştirilir; bu, eğitim bağlam sınırı L'ye ulaşıldığında tüm modellerin aniden çökmesi yerine yavaş yavaş bozulmasına olanak tanır.
Uzun mesafeler için ortalama minimum kosinüs benzerliği eklendi - YaRN
Daha önce açıklanan yerel mesafe problemi çözülse bile, ekstrapolasyondan kaçınmak için α eşiğinde daha büyük bir mesafenin enterpolasyonu yapılmalıdır. Sezgisel olarak bu bir sorun gibi görünmüyor çünkü küresel mesafe, jeton konumlarını ayırt etmek için yüksek doğruluk gerektirmez (yani ağın, jetonun dizinin başında, ortasında veya sonunda olup olmadığını yalnızca kabaca bilmesi gerekir).
Ancak araştırmacılar, jeton sayısı arttıkça ortalama minimum mesafenin yakınlaşması nedeniyle dikkat softmax dağılımının daha keskin hale geleceğini (yani dikkat softmax'ın ortalama entropisini azaltacağını) buldu. Başka bir deyişle, uzun mesafeli zayıflamanın etkisi enterpolasyonla azaltıldıkça, ağ daha fazla tokena "daha fazla dikkat edecek". Dağıtımdaki bu değişim, LLM çıktısının kalitesinde bir bozulmaya yol açabilir ki bu da öncekiyle ilgisi olmayan başka bir sorundur.
RoPE yerleştirmeleri daha uzun bağlam boyutlarına enterpolasyon yapıldığında dikkat softmax dağılımındaki entropi azaldığından, bu entropi düşüşünü tersine çevirmeyi (yani dikkat logitinin "sıcaklığını" arttırmayı) amaçlıyoruz. Bu, softmax uygulanmadan önce ara dikkat matrisinin sıcaklık t > 1 ile çarpılmasıyla yapılabilir, ancak RoPE yerleştirmesi bir rotasyon matrisi olarak kodlandığından, RoPE yerleştirmenin uzunluğunu sabit bir √t faktörü kadar uzatmak mümkündür. . Bu "uzunluk uzatma" tekniği, dikkat kodunu değiştirmeden araştırmaya izin verir, bu da mevcut eğitim ve çıkarım süreçleriyle entegrasyonu büyük ölçüde basitleştirebilir ve zaman karmaşıklığı yalnızca O(1)'dir.
Bu RoPE enterpolasyon şeması, RoPE boyutlarını düzgün olmayan bir şekilde enterpolasyona tabi tuttuğundan, genleşme derecesine (s) göre gerekli sıcaklık oranı t için analitik bir çözüm hesaplamak zordur. Neyse ki, araştırmacılar deneyler yoluyla karışıklığı en aza indirerek tüm LLaMA modellerinin kabaca aynı uyum eğrisini takip ettiğini buldular:
Bu son değişiklik YaRN yöntemiyle sonuçlandı. Yeni yöntem, çıkarım kodunda herhangi bir değişiklik gerektirmeden hem ince ayarlı hem de ayarsız senaryolarda önceki tüm yöntemlerden daha iyi performans gösteriyor. Yalnızca ilk etapta RoPE yerleştirmeleri oluşturmak için kullanılan algoritmanın değiştirilmesi gerekir. YaRN o kadar basittir ki, Flash Attention 2 ile uyumluluk da dahil olmak üzere tüm çıkarım ve eğitim kitaplıklarında kolaylıkla uygulanabilir.
deney
Deneyler, YaRN'nin LLM'nin bağlam penceresini başarıyla genişletebildiğini gösteriyor. Üstelik bu sonuca yalnızca 400 adımlık eğitimden sonra ulaştılar; bu da modelin orijinal eğitim öncesi yapısının yaklaşık %0,1'i anlamına geliyor ve önceki araştırma sonuçlarına kıyasla önemli bir düşüş. Bu, yeni yöntemin hesaplama açısından oldukça verimli olduğunu ve ek çıkarım maliyetinin olmadığını göstermektedir.
Ortaya çıkan modeli değerlendirmek için araştırmacılar, uzun belgelerin karmaşıklığını hesapladılar ve bunları mevcut kıyaslamalara göre puanladılar ve yeni yöntemin diğer tüm bağlam penceresi genişletme yöntemlerinden daha iyi performans gösterdiğini buldular.
İlk olarak araştırmacılar, bağlam penceresi artırıldığında modelin performansını değerlendirdiler. Tablo 1 deneysel sonuçları özetlemektedir.